Specjalizacja LLM: Dostrajanie, Łączenie, Zdolności

Wyzwanie specjalizacji: Adaptacja AI do granic technicznych

Duże Modele Językowe (LLM) niezaprzeczalnie zrewolucjonizowały sposób, w jaki wchodzimy w interakcje z informacjami i automatyzujemy zadania związane z językiem naturalnym. Giganci tacy jak Llama i Mistral, nawet w swoich wersjach open-source, wykazują niezwykłą płynność w rozumieniu i generowaniu tekstu, który często dorównuje ludzkiej twórczości. Ich biegłość obejmuje szeroki krajobraz, od codziennych rozmów po złożone streszczenia. Jednak zapuszczanie się w specjalistyczne, bogate w żargon terytoria nauki i inżynierii – dziedziny takie jak materiałoznawstwo czy biomateriomika – stanowi wyjątkową przeszkodę.

Te domeny techniczne wymagają czegoś więcej niż ogólnej wiedzy; wymagają głębokiego, zniuansowanego zrozumienia, zdolności do rozumowania na podstawie konkretnych zasad oraz znajomości specjalistycznej terminologii i struktur danych. Standardowe LLM, trenowane na szerokich korpusach internetowych, często zawodzą w obliczu tych wymagań. Wyzwanie polega zatem na adaptacji domenowej: jak możemy skutecznie dostosować te potężne modele ogólnego przeznaczenia, aby stały się ekspertami-asystentami w wysoce specyficznych dziedzinach?

Samo dostarczanie większej ilości specjalistycznych danych nie zawsze jest odpowiedzią, ani nie zawsze jest wykonalne. Trenowanie tych behemotów od zera jest zaporowo kosztowne, a oryginalne, ogromne zbiory danych używane do ich początkowego pre-treningu są zazwyczaj niedostępne. Jest to szczególnie prawdziwe w przypadku popularnych modeli open-source, gdzie pomimo pewnej przejrzystości, pełna receptura – dokładne mieszanki danych i sekwencje używane podczas pre-treningu, dostrajania (fine-tuning) i dopasowywania (alignment) – pozostaje w dużej mierze zastrzeżona. Badacze i inżynierowie potrzebują solidnych, wydajnych strategii, aby nasycić istniejące modele nową, specjalistyczną wiedzą, jednocześnie kluczowo zachowując rozległe ogólne zdolności nabyte podczas ich początkowego treningu. Ten delikatny akt równoważenia jest najważniejszy dla tworzenia naprawdę użytecznych narzędzi AI do odkryć naukowych i innowacji inżynieryjnych, takich jak opracowywanie silników zdolnych do multimodalnego rozumowania w celu eksploracji inspiracji projektowych materiałów biologicznych w różnych skalach i kontekstach.

Mapowanie krajobrazu treningowego: Od pre-treningu do optymalizacji preferencji

Nawigacja ścieżką do ekspertyzy LLM specyficznej dla domeny obejmuje eksplorację zróżnicowanego zestawu narzędzi strategii dostrajania. Każde podejście oferuje inny sposób kształtowania wiedzy i zachowania modelu.

  • Kontynuowany Pre-Trening (CPT - Continued Pre-Training): Ta strategia polega na rozszerzeniu początkowej fazy pre-treningu, ale tym razem przy użyciu korpusu skoncentrowanego wyłącznie na docelowej domenie – na przykład zbioru artykułów naukowych z dziedziny materiałoznawstwa. Celem jest zanurzenie modelu w specyficznym języku, koncepcjach i strukturach wiedzy danej dziedziny, pozwalając mu na głębsze przyswojenie informacji specyficznych dla domeny, niż jest to możliwe przy samym dostrajaniu specyficznym dla zadania. Tworzy to fundament odpowiedniej wiedzy.

  • Nadzorowane Dostrajanie (SFT - Supervised Fine-Tuning): Po CPT lub zaczynając od modelu bazowego, SFT bezpośrednio uczy model, jak wykonywać określone zadania. Osiąga się to za pomocą kuratorowanych zbiorów danych par wejście-wyjście, często sformatowanych jako instrukcje i pożądane odpowiedzi, lub pytania i dokładne odpowiedzi istotne dla domeny. SFT doskonali zdolność modelu do podążania za instrukcjami, dokładnego odpowiadania na pytania w specjalistycznym kontekście i przestrzegania pożądanych formatów wyjściowych.

  • Adaptacja Niskiego Rzędu (LoRA - Low-Rank Adaptation): Chociaż nie jest to główny temat tutaj, LoRA stanowi wydajną alternatywę lub uzupełnienie. Zamiast ponownego trenowania całego modelu, LoRA wprowadza małe, trenowalne warstwy “adapterów”. Pozwala to na znaczną adaptację przy znacznie niższych kosztach obliczeniowych, chociaż może mieć ograniczenia co do ilości fundamentalnie nowej wiedzy, która może zostać zintegrowana w porównaniu do CPT.

  • Optymalizacja Oparta na Preferencjach: Wykraczając poza proste wykonywanie zadań, optymalizacja preferencji ma na celu lepsze dopasowanie wyników modelu do ludzkich ocen lub określonych kryteriów, takich jak pomocność, nieszkodliwość i dokładność rozumowania. Zamiast polegać wyłącznie na predefiniowanych “poprawnych” odpowiedziach (jak w SFT), metody te uczą się na podstawie porównań.

    • Bezpośrednia Optymalizacja Preferencji (DPO - Direct Preference Optimization): DPO uczy się bezpośrednio z par odpowiedzi, gdzie jedna jest preferowana nad drugą (np. przez ludzkiego ewaluatora lub inną AI). Optymalizuje model, aby zwiększyć prawdopodobieństwo generowania preferowanych odpowiedzi bez potrzeby oddzielnego modelu nagrody, upraszczając tradycyjny potok Reinforcement Learning from Human Feedback (RLHF).
    • Optymalizacja Preferencji Ilorazem Szans (ORPO - Odds Ratio Preference Optimization): Nowszy gracz, ORPO modyfikuje cel optymalizacji, czasami dając lepszą wydajność lub stabilność w porównaniu do DPO, szczególnie w dopasowywaniu modeli do określonych kryteriów stylistycznych lub rozumowania w danej domenie.

Techniki te nie wykluczają się wzajemnie; często są stosowane sekwencyjnie lub w kombinacji, tworząc złożone potoki treningowe. Typowa sekwencja może obejmować CPT do budowania wiedzy domenowej, następnie SFT dla biegłości w zadaniach, a na końcu DPO lub ORPO dla dopasowania i udoskonalenia. Jednak optymalna kombinacja i sekwencja pozostają aktywnymi obszarami badań, szczególnie w celu osiągnięcia szczytowej wydajności w specjalistycznych dziedzinach naukowych.

Poza prostym dostrajaniem: Obietnica łączenia modeli

Podczas gdy udoskonalanie pojedynczego modelu poprzez sekwencyjne etapy treningu może przynieść znaczące ulepszenia, pojawiła się inna intrygująca ścieżka: łączenie modeli (model merging). Praktyka ta polega na wzięciu dwóch lub więcej oddzielnie wytrenowanych modeli i połączeniu ich parametrów – ich wewnętrznych “wag” – w celu stworzenia jednego, nowego modelu hybrydowego.

Dlaczego próbować takiej fuzji? Główną ideą jest synergiczne połączenie mocnych stron modeli rodzicielskich. Wyobraźmy sobie jeden model fachowo wytrenowany na literaturze materiałoznawczej (poprzez CPT i SFT) oraz inny model ogólnego przeznaczenia typu “instruct”, wysoce biegły w podążaniu za złożonymi instrukcjami i prowadzeniu spójnego dialogu. Ich połączenie mogłoby potencjalnie stworzyć model posiadający zarówno głęboką wiedzę domenową, jak i doskonałe zdolności konwersacyjne i podążania za instrukcjami.

Wczesne eksploracje sugerowały, że proces ten może być czymś więcej niż prostym uśrednianiem. Zamiast tylko mieszać zdolności, łączenie mogłoby potencjalnie odblokować całkowicie nowe, emergentne funkcjonalności – zdolności nieobecne jawnie w żadnym z modeli rodzicielskich. Sugeruje to wysoce nieliniową interakcję między parametrami podczas łączenia, potencjalnie prowadząc do całości większej niż suma jej części. Jeśli okaże się skuteczne i kontrolowalne, łączenie modeli może stanowić potężne, transformacyjne narzędzie do przesuwania granic możliwości LLM, tworząc wysoce adaptowalne i potężne systemy AI dostosowane do złożonych, rzeczywistych wyzwań naukowych i inżynieryjnych.

Odsłanianie mocy SLERP: Geometryczne podejście do łączenia

Skuteczność łączenia modeli zależy krytycznie od sposobu, w jaki parametry modeli rodzicielskich są łączone. Proste uśrednianie liniowe (często nazywane Interpolacją Liniową lub LERP) może wydawać się intuicyjne, ale często prowadzi do suboptymalnych wyników lub nawet pogarsza wydajność. Dzieje się tak prawdopodobnie dlatego, że wielowymiarowa przestrzeń parametrów LLM nie jest płaska; posiada złożoną, zakrzywioną geometrię. Interpolacja liniowa niesie ryzyko przemierzania “martwych stref” lub regionów o wysokiej stracie w tej przestrzeni, skutecznie zakłócając starannie wyuczone reprezentacje modeli rodzicielskich.

Wkracza Sferyczna Interpolacja Liniowa (SLERP - Spherical Linear Interpolation). Pierwotnie opracowana do płynnej animacji obrotów w grafice komputerowej, SLERP oferuje geometrycznie wyrafinowany sposób interpolacji między dwoma punktami (w tym przypadku wektorami parametrów dwóch modeli) poprzez podążanie najkrótszą ścieżką po powierzchni hipersfery.

Wyobraźmy sobie zbiory parametrów dwóch modeli rodzicielskich jako dwa punkty na powierzchni gigantycznej sfery.

  • LERP narysowałby prostą linię przez sferę łączącą punkty. Ta ścieżka może nie pozostać na powierzchni i mogłaby przechodzić przez regiony reprezentujące słabo działające modele.
  • SLERP, przeciwnie, podróżuje wzdłuż zakrzywionej powierzchni samej sfery. Ta ścieżka z natury szanuje podstawową strukturę geometryczną przestrzeni parametrów.

Dlaczego ta sferyczna ścieżka jest potencjalnie lepsza do łączenia LLM?

  1. Zachowanie Struktury: Pozostając “na sferze”, SLERP utrzymuje geometryczne relacje między parametrami, zachowując wyuczone struktury w każdym modelu rodzicielskim skuteczniej niż ścieżka liniowa.
  2. Unikanie Regionów Wysokiej Straty: Zakrzywiona ścieżka ma mniejsze prawdopodobieństwo przecięcia regionów przestrzeni parametrów związanych z wysokimi błędami predykcji (stratą).
  3. Kombinacja Nieliniowa: Wzór interpolacji dla SLERP jest z natury nieliniowy. Pozwala to na złożone, synergiczne interakcje między parametrami z modeli rodzicielskich, potencjalnie odblokowując kombinacje reprezentujące nowe zdolności. Połączony parametr może aktywować cechy w sposób, w jaki żaden z rodziców nie mógłby sam.
  4. Płynne Przejścia: SLERP zapewnia matematycznie płynne przejście między stanami modeli rodzicielskich, potencjalnie prowadząc do lepszej generalizacji w połączonym modelu.

Ponieważ SLERP szanuje wewnętrzną geometrię modelu i ułatwia nieliniowe interakcje parametrów, ma potencjał nie tylko do uśredniania zdolności, ale do autentycznego ich mieszania w sposób sprzyjający właściwościom emergentnym. Czyni go to szczególnie obiecującym kandydatem do łączenia modeli ukierunkowanych na złożone dziedziny, takie jak materiałoznawstwo, gdzie kluczowe są subtelne interakcje i zniuansowane zrozumienie.

Sprawdzanie teorii w praktyce: Eksperymenty z Llama i Mistral

Aby rygorystycznie zbadać te strategie dostrajania i łączenia, przeprowadzono systematyczną serię eksperymentów z wykorzystaniem popularnych rodzin modeli open-source: Llama 3.1 (8 miliardów parametrów) i Mistral (7 miliardów parametrów). Celem było porównanie różnych potoków treningowych i ocena wpływu łączenia SLERP.

Projekt eksperymentalny obejmował kilka kluczowych kroków:

  1. Modele Bazowe: Eksperymenty rozpoczęto zarówno od fundamentalnych modeli “bazowych” (wstępnie wytrenowanych, ale niedostrojonych do instrukcji), jak i wersji “instruct” (już dostrojonych do czatu i podążania za instrukcjami) dla obu rodzin Llama i Mistral.
  2. Korpus Domenowy: Skompilowano specjalistyczny korpus skoncentrowany na materiałoznawstwie z publikacji naukowych i przetworzonych danych.
  3. Potoki Treningowe: Zastosowano różne kombinacje technik treningowych:
    • Tylko CPT
    • CPT, a następnie SFT (CPT-SFT)
    • CPT-SFT, a następnie ORPO (CPT-SFT-ORPO)
    • CPT-SFT, a następnie DPO (CPT-SFT-DPO)
    • Niektóre warianty zaczynające się bezpośrednio od modelu Instruct (np. Instruct-CPT-SFT-DPO).
  4. Łączenie Modeli: Dla wielu dostrojonych modeli przeprowadzono łączenie SLERP, zazwyczaj łącząc model zaadaptowany do domeny z odpowiadającym mu modelem ogólnego przeznaczenia “instruct” z tej samej rodziny (np. model Llama CPT-SFT-DPO połączony ze standardowym modelem Llama 3.1 Instruct).
  5. Ewaluacja: Wydajność wszystkich wynikowych modeli (zarówno połączonych, jak i niepołączonych) oceniono na podstawie zestawu odpowiednich benchmarków zaprojektowanych do testowania wiedzy domenowej, rozumowania i podążania za instrukcjami.

Kluczowe Odkrycia dla Llama i Mistral:

  • Łączenie SLERP Konsekwentnie Zwiększa Wydajność: W obu rodzinach modeli i różnych potokach treningowych, modele ulepszone poprzez łączenie SLERP generalnie osiągały najwyższą dokładność w benchmarkach ewaluacyjnych. To silnie wspiera hipotezę, że SLERP jest skuteczną techniką łączenia mocnych stron modeli.
  • Potwierdzone Efekty Synergiczne: Wydajność modeli połączonych za pomocą SLERP często przekraczała prostą średnią wydajności dwóch modeli rodzicielskich. Wykres rzeczywistego osiągniętego wyniku w porównaniu do tej oczekiwanej średniej ujawnił znaczące pozytywne odchylenie, potwierdzając, że proces łączenia często odblokowuje synergiczne zyski i emergentne zdolności. Połączony byt był wyraźnie bardziej zdolny niż tylko suma jego części.
  • Optymalizacja Preferencji Dodaje Wartość: Włączenie etapów optymalizacji preferencji (DPO lub ORPO) często zapewniało dodatkowy wzrost wydajności, szczególnie w połączeniu z łączeniem SLERP. Strategie takie jak CPT-SFT-DPO-SLERP lub CPT-SFT-ORPO-SLERP często znajdowały się wśród najlepszych wykonawców.
  • Optymalna Strategia Bez Łączenia Różni Się: Bez łączenia, najlepiej działająca strategia różniła się nieznacznie między rodzinami modeli. Dla Llama 3.1, Instruct-CPT-SFT-DPO wykazał silne wyniki, podczas gdy dla Mistral, Base-CPT-SFT działał porównywalnie dobrze do swojego odpowiednika Instruct.
  • Wpływ Czasu Trwania CPT: Dalsza analiza modeli Mistral wykazała, że wydajność generalnie poprawiała się wraz z większą liczbą epok Kontynuowanego Pre-Treningu (do pięciu testowanych), zwłaszcza przy starcie od modelu Instruct, wzmacniając wartość wystarczającej ekspozycji na domenę podczas CPT.

Wyniki te malują wyraźny obraz: podczas gdy sekwencyjne dostrajanie jest cenne, strategiczne łączenie modeli za pomocą SLERP oferuje potężną ścieżkę do znacznego zwiększenia wydajności LLM, szczególnie w specjalistycznych domenach, często przynosząc zdolności wykraczające poza prostą agregację.

Głębsze spojrzenie: Co sprawia, że łączenie działa?

Konsekwentny sukces łączenia SLERP skłania do bliższego przyjrzenia się podstawowym mechanizmom i czynnikom wpływającym. Dlaczego to geometryczne podejście daje tak potężne rezultaty i jakie warunki optymalizują jego skuteczność?

  • Interakcje Nieliniowe: Zgodnie z teorią, nieliniowa ścieżka SLERP przez przestrzeń parametrów wydaje się kluczowa. Pozwala połączonemu modelowi eksplorować kombinacje parametrów, które liniowe uśrednianie by pominęło. Te kombinacje mogą reprezentować nowe interakcje między wyuczonymi cechami, prowadząc do emergentnych zdolności rozumowania lub rozwiązywania problemów dostosowanych do domeny. Wyobraźmy sobie połączenie parametrów, które indywidualnie reprezentują zrozumienie ‘wytrzymałości materiału’ i ‘struktur biologicznych’ – SLERP może znaleźć kombinację, która skutecznie reprezentuje ‘bioinspirowane materiały o wysokiej wytrzymałości’ w sposób, w jaki żaden z modeli rodzicielskich jawnie tego nie robił.

  • Rola Różnorodności: Jak bardzo powinny różnić się modele rodzicielskie? Analiza sugerowała złożone zależności. Chociaż ekstremalna różnorodność może wydawać się korzystna, niektóre korelacje wskazywały, że w pewnych kontekstach (jak modele Llama), większa różnorodność wydajności między rodzicami może nieznacznie zmniejszyć zależność od późniejszego SFT, być może dlatego, że łączenie już przechwytuje szerszy zestaw zdolności. Wzajemne oddziaływanie jest subtelne i prawdopodobnie zależy od konkretnych metod dostrajania użytych dla rodziców.

  • Punkt Startowy: Base vs. Instruct: Wybór modelu początkowego ma znaczenie. W eksperymentach z Llama, najlepiej działający połączony model pochodził z wersji Instruct. Odwrotnie, dla Mistral, jeden z najlepszych wykonawców wywodził się z modelu Base przed przejściem CPT, SFT i łączenia. Sugeruje to, że różnice architektoniczne lub wariacje w początkowym składzie pre-treningu rodzin Llama i Mistral wpływają na to, jak reagują na określone potoki dostrajania i łączenia. Nie ma jednej uniwersalnej “najlepszej” ścieżki startowej; wymaga to testów empirycznych.

  • Jakość Danych w CPT: Fundament położony podczas Kontynuowanego Pre-Treningu jest krytyczny. Eksperymenty wykorzystujące większy, ale “bardziej zaszumiony” zbiór danych CPT (zawierający więcej błędów formatowania lub artefaktów z optycznego rozpoznawania znaków) skutkowały obniżoną wydajnością w porównaniu do użycia mniejszego, czystszego zbioru danych. Podkreśla to znaczenie wysokiej jakości, dobrze przetworzonych danych specyficznych dla domeny, aby etap CPT był skuteczny. Zasada “śmieci na wejściu, śmieci na wyjściu” nadal obowiązuje.

  • Dostrajanie Parametrów SLERP: Sam SLERP ma parametry, w szczególności współczynnik interpolacji (często oznaczany jako ‘t’, w zakresie od 0 do 1), określający, jaką wagę przypisuje się każdemu modelowi rodzicielskiemu. Co więcej, łączenie nie musi być jednolite we wszystkich warstwach modelu. Eksperymenty badały zróżnicowanie współczynnika interpolacji inaczej dla warstw self-attention w porównaniu do warstw perceptronu wielowarstwowego (MLP), a nawet progresywne zmienianie go wraz z głębokością modelu. Wyniki pokazały, że określone niejednolite schematy ważenia mogą przewyższać standardowe podejście jednolite, sugerując dalszy potencjał optymalizacji poprzez staranne dostosowanie procesu łączenia w całej architekturze sieci. Prosta liniowa progresja wag w warstwach okazała się skuteczna w jednym przypadku Llama.

  • Efekt Regularyzacji: SLERP może również działać jako forma regularyzacji. Znajdując gładką ścieżkę między dwoma potencjalnie wyspecjalizowanymi modelami, może zniechęcać do nadmiernego dopasowania (overfitting) do idiosynkrazji danych treningowych któregokolwiek z rodziców, prowadząc do lepszej generalizacji na niewidzianych problemach specyficznych dla domeny. Może również pomóc złagodzić “katastrofalne zapominanie”, gdzie dostrajanie do jednego zadania usuwa wiedzę z poprzedniego.

W istocie, skuteczność SLERP wynika z jego zdolności do inteligentnego nawigowania po złożonej geometrii przestrzeni parametrów LLM, wspierania korzystnych nieliniowych interakcji przy jednoczesnym zachowaniu wyuczonych struktur wiedzy. Jednak optymalizacja jego użycia wymaga starannego rozważenia wyboru modelu rodzicielskiego, historii treningu, jakości danych, a potencjalnie nawet drobnych szczegółów samego łączenia.

Czy rozmiar ma znaczenie? Badanie efektów skali na mniejszych modelach

Imponujące efekty synergiczne obserwowane w modelach o 7 i 8 miliardach parametrów rodzą naturalne pytanie: czy te emergentne zdolności odblokowane przez łączenie SLERP manifestują się również w znacznie mniejszych modelach językowych? Czy istnieje próg skali, poniżej którego magia zanika?

Aby to zbadać, przeprowadzono podobne eksperymenty z wykorzystaniem serii modeli SmolLM, w szczególności wariantu z zaledwie 1.7 miliarda parametrów. Model ten jest znacznie mniejszy, co czyni go odpowiednim dla środowisk o ograniczonych zasobach, takich jak urządzenia mobilne czy przetwarzanie brzegowe (edge computing), ale potencjalnie pozbawionym bogactwa parametrów swoich większych kuzynów.

Modele SmolLM przeszły ten sam potok: CPT z korpusem materiałoznawczym, a następnie SFT i DPO (które okazało się bardziej skuteczne niż ORPO dla tej mniejszej architektury). Następnie zastosowano łączenie SLERP, łącząc dostrojony SmolLM z jego wersją bazową lub innymi wariantami.

Odkrycia dotyczące SmolLM:

  • Dostrajanie Nadal Pomaga: Potok CPT-SFT-DPO poprawił wydajność modelu SmolLM w zadaniach domenowych w stosunku do jego pierwotnego stanu. Sam proces dostrajania był korzystny, zwiększając jego specjalistyczną wiedzę.
  • Emergencja W Dużej Mierze Nieobecna: Jednak w przeciwieństwie do eksperymentów z Llama i Mistral, modele SmolLM połączone za pomocą SLERP generalnie nie wykazywały znaczących efektów synergicznych. Ich wydajność zazwyczaj lądowała blisko prostej średniej modeli rodzicielskich lub tylko nieznacznie powyżej. Dramatyczne skoki wydajności i wyraźne oznaki emergentnych zdolności obserwowane w modelach 7B/8B były nieobecne.

Implikacje:

Ten kontrast sugeruje, że skala modelu jest prawdopodobnie kluczowym czynnikiem w realizacji pełnego potencjału łączenia SLERP do generowania właściwości emergentnych. Mniejsze modele, z ich mniej złożonymi i niżej wymiarowymi przestrzeniami parametrów, mogą nie mieć zdolności reprezentacyjnej lub bogactwa wymaganego do wystąpienia tych potężnych nieliniowych interakcji podczas łączenia. “Przestrzeń” do odkrywania nowych, korzystnych kombinacji parametrów wydaje się znacznie ograniczona w porównaniu do większych modeli.

Wyniki te są zgodne z szerszymi obserwacjami dotyczącymi praw skalowania (scaling laws) w głębokim uczeniu, gdzie pewne jakościowe zdolności często pojawiają się dopiero, gdy modele osiągną określony próg rozmiaru. Wydaje się, że synergiczna moc łączenia SLERP może być jedną z takich zdolności, która krytycznie zależy od wystarczającej skali i złożoności modelu.

Kwantyfikacja zysków: Bliższe spojrzenie na wzrost wydajności dzięki łączeniu

Chociaż benchmarki pokazują, że połączone modele często działają najlepiej ogólnie, warto dokładnie określić, o ile są lepsze w porównaniu do swoich rodziców. W szczególności, czy połączony model konsekwentnie przewyższa nawet silniejszy z dwóch modeli użytych do jego stworzenia?

Aby to przeanalizować, obliczono odchylenie wydajności dla każdego modelu połączonego za pomocą SLERP. Odchylenie to zdefiniowano jako:

Odchylenie Wydajności = Wydajność(Model Połączony) - Max(Wydajność(Rodzic 1), Wydajność(Rodzic 2))

  • Pozytywne odchylenie (wizualizowane w odcieniach niebieskiego) oznacza, że model SLERP działał lepiej niż najlepszy z jego rodziców – wyraźny dowód synergii.
  • Negatywne odchylenie (wizualizowane na czerwono) oznacza, że model SLERP działał gorzej niż co najmniej jeden z jego rodziców, wskazując, że połączenie było szkodliwe lub w najlepszym razie uśredniające.

Analiza Ujawniła:

W większości eksperymentów obejmujących modele Llama 3.1 (8B) i Mistral (7B), odchylenia wydajności były przeważnie pozytywne. W wielu przypadkach, zwłaszcza dla dobrze zoptymalizowanych potoków (np. tych obejmujących CPT, SFT, optymalizację preferencji i SLERP), połączone modele wykazywały znaczne pozytywne odchylenia, wskazując, że znacznie przewyższały zdolności nawet swojego najsilniejszego rodzica.

Zdarzały się przypadki, szczególnie przy mniej zoptymalizowanych modelach rodzicielskich lub być może suboptymalnych parametrach łączenia, gdzie odchylenie było lekko negatywne lub bliskie zeru. Jednak ogólny trend był wyraźny: strategiczne łączenie SLERP często zapewnia autentyczny wzrost wydajności wykraczający poza to, co którykolwiek z modeli rodzicielskich mógłby osiągnąć samodzielnie. Wzmacnia to ideę, że łączenie to nie tylko uśrednianie, ale proces zdolny do syntezy wyższych zdolności. Wyniki SmolLM (1.7B), w przeciwieństwie, pokazałyby znacznie mniejsze lub negatywne odchylenia, zgodnie z brakiem silnych efektów emergentnych w tej skali.

Od benchmarków do burzy mózgów: Interaktywne zastosowania w projektowaniu materiałów

Poza ilościowymi benchmarkami, prawdziwa wartość tych zaadaptowanych do domeny modeli leży w ich zdolności do wspomagania rzeczywistych zadań, takich jak rozumowanie naukowe i kreatywne projektowanie. Aby ocenić ten jakościowy aspekt, przeprowadzono interaktywne sesje czatu z kilkoma najlepiej działającymi modelami (w tym zarówno wariantami połączonymi, jak i niepołączonymi).

Konfiguracja obejmowała dostarczenie spójnego promptu systemowego instruującego model, aby działał jako ekspert w dziedzinie materiałoznawstwa, a następnie promptu użytkownika zaprojektowanego do testowania kreatywnego, międzydziedzinowego rozumowania. Typowe zadanie polegało na poproszeniu modelu o:

  1. Rozważenie dwóch pozornie odmiennych koncepcji biologicznych (np. struktury kolagenu i wzorów użyłkowania liści).
  2. Przeprowadzenie burzy mózgów na temat nowatorskich projektów materiałów inspirowanych połączeniem zasad z obu koncepcji.
  3. Wyjaśnienie uzasadnienia proponowanych projektów.
  4. Przedstawienie sugestii w ustrukturyzowanym formacie (jak JSON) do potencjalnego dalszego przetwarzania.

Obserwacje Jakościowe:

  • Silne Zrozumienie Domeny: Wszystkie dostrojone modele wykazały solidne zrozumienie podstawowych koncepcji biologicznych i materiałoznawczych, używając odpowiedniej terminologii i odwołując się do istotnych zasad. Etapy CPT i SFT wyraźnie przekazały znaczącą wiedzę domenową.
  • Kreatywna Synteza: Modele były generalnie zdolne do wypełnienia luki koncepcyjnej między odmiennymi danymi wejściowymi (jak kolagen i liście), aby zaproponować innowacyjne architektury materiałowe lub funkcjonalności. Pokazało to ich zdolność do przeprowadzania rozumowania analogicznego w specjalistycznej domenie.
  • Ustrukturyzowane Wyjście: Modele z powodzeniem przestrzegały instrukcji wymag