Microsoft Research wprowadził Phi-4, mały model językowy z 14 miliardami parametrów, zaprojektowany w celu podniesienia poziomu zaawansowania w dziedzinie rozumowania matematycznego. Model ten, początkowo dostępny w Azure AI Foundry, został niedawno udostępniony na Hugging Face na licencji MIT.
Innowacje Phi-4
Według Microsoft, Phi-4 osiąga lepsze wyniki w rozumowaniu matematycznym niż podobne i większe modele, dzięki zastosowaniu kilku innowacyjnych technik w procesie szkolenia, w tym:
- Wstępne i pośrednie szkolenie na danych syntetycznych: Wykorzystanie danych syntetycznych do wstępnego i pośredniego szkolenia, zapewniając modelowi bardziej ustrukturyzowaną ścieżkę uczenia się.
- Organiczne zarządzanie danymi: Starannie opracowane i wyselekcjonowane dane organiczne, zapewniające jakość danych szkoleniowych.
- Nowy schemat potrenowania: Zastosowanie nowych metod potrenowania, które dodatkowo zwiększają wydajność modelu.
Te innowacje pozwoliły Phi-4 przewyższyć swojego nauczyciela model GPT-4o pod względem umiejętności odpowiadania na pytania z zakresu STEM, co dowodzi, że techniki generowania danych i potrenowania Microsoft nie są prostą destylacją wiedzy.
Unikalne zalety danych syntetycznych
Wykorzystanie danych syntetycznych w szkoleniu dużych modeli językowych (LLM) nie jest nowością, a modele Phi również korzystały z tej metody. Microsoft podkreśla, że dane syntetyczne nie są tanim zamiennikiem, a przewyższają dane organiczne w następujących aspektach:
- Bardziej stopniowa ścieżka uczenia się: Dane syntetyczne mogą kierować LLM do stopniowego uczenia się, od początkowego sformułowania problemu do ostatecznego rozwiązania, co ułatwia zrozumienie procesu rozumowania.
- Lepsze dopasowanie do środowiska rozumowania: W przeciwieństwie do danych organicznych, które zawierają sformułowanie problemu i ostateczne rozwiązanie, dane syntetyczne mogą zapewnić bardziej szczegółowy, krok po kroku proces rozumowania, który jest bardziej zbliżony do rzeczywistych scenariuszy rozumowania.
Starannie wyselekcjonowane dane organiczne
Oprócz danych syntetycznych, Microsoft wykorzystał również starannie wyselekcjonowane dane organiczne, w tym dziesiątki milionów wysokiej jakości problemów i rozwiązań matematycznych zebranych z publicznych stron internetowych i zewnętrznych zbiorów danych. W przypadkach, gdy nie dostarczono dokładnych rozwiązań, zastosowano metodę głosowania większościowego w celu syntezy rozwiązań i poprawy dokładności. Ponadto zebrano artykuły naukowe, fora edukacyjne i samouczki programowania.
Microsoft podkreślił kluczową rolę wysokiej jakości danych naturalnych w generowaniu danych syntetycznych, zauważając, że nawet drobne błędy mogą prowadzić do poważnego pogorszenia jakości pochodnych dokumentów syntetycznych. Dlatego też włożono wiele wysiłku w udoskonalenie zarządzania danymi internetowymi.
Faza potrenowania Phi-4
Faza potrenowania Phi-4 ma na celu przekształcenie go w niezawodnego asystenta AI. Faza ta obejmuje następujące etapy:
- Dostrajanie: Dostrajanie modelu przy użyciu wysokiej jakości danych generowanych z różnych dziedzin, takich jak matematyka, kodowanie, rozumowanie, dialog, tożsamość modelu i bezpieczeństwo.
- Bezpośrednia optymalizacja preferencji (DPO): Wykonanie dwóch kroków DPO w celu lepszego dopasowania modelu do preferencji ludzkich i wyeliminowania niepożądanych zachowań.
- Pivotal Token Search: W pierwszym kroku Microsoft wykorzystał nową technikę o nazwie Pivotal Token Search do generowania par pożądanych/niepożądanych wyników.
- GPT-4o jako oceniający: W drugim kroku wykorzystano GPT-4o jako oceniającego do oznaczania każdej pary wyników etykietą pozytywną lub negatywną.
Ocena Phi-4
Phi-4 został oceniony przy użyciu frameworka SIMPLE-EVALS od OpenAI i przewyższył Llama-3.1-405B w wielu testach porównawczych. Ponadto, w testach GPQA (pytania i odpowiedzi z zakresu STEM na poziomie studiów) i MATH (konkursy matematyczne) również przewyższył swojego nauczyciela model GPT-4o.
Szczegółowe dane szkoleniowe modelu Phi-4
Microsoft zastosował starannie zaprojektowaną strategię danych podczas szkolenia modelu Phi-4, która koncentruje się głównie na danych syntetycznych i wyselekcjonowanych danych rzeczywistych. To połączone podejście ma na celu optymalizację procesu uczenia się modelu i zapewnienie mu doskonałych wyników w rozumowaniu matematycznym.
Generowanie danych syntetycznych
Dane syntetyczne odgrywają kluczową rolę w szkoleniu Phi-4. Zespół Microsoft nie traktował danych syntetycznych jako prostego zamiennika danych rzeczywistych, ale jako narzędzie, które może kierować modelem w procesie stopniowego uczenia się. Proces generowania danych syntetycznych zazwyczaj przebiega według następujących kroków:
- Tworzenie problemów: Na początku, zgodnie z predefiniowanymi regułami i szablonami, generowane są różne problemy matematyczne. Problemy te obejmują różne dziedziny matematyki i poziomy trudności, aby zapewnić wszechstronne uczenie się modelu.
- Rozwiązania krok po kroku: Dla każdego wygenerowanego problemu tworzone jest rozwiązanie krok po kroku, które szczegółowo wyjaśnia proces rozumowania od sformułowania problemu do ostatecznej odpowiedzi. To rozwiązanie krok po kroku obejmuje nie tylko ostateczną odpowiedź, ale także kroki pośrednie i logikę rozumowania, pomagając modelowi zrozumieć proces rozwiązywania problemu.
- Wzbogacanie danych: W celu zwiększenia różnorodności danych, dane syntetyczne są również wzbogacane, na przykład poprzez zmianę sformułowania problemu, dostosowanie liczb lub zastosowanie różnych metod rozwiązywania.
Wyselekcjonowane dane rzeczywiste
Oprócz danych syntetycznych, w szkoleniu Phi-4 wykorzystano również dużą ilość wyselekcjonowanych danych rzeczywistych. Dane te pochodzą z różnych publicznych stron internetowych, artykułów naukowych, forów edukacyjnych i samouczków programowania i obejmują następujące typy:
- Problemy i rozwiązania matematyczne: Z publicznych stron internetowych i zewnętrznych zbiorów danych zebrano miliony wysokiej jakości problemów matematycznych wraz z ich rozwiązaniami. Problemy te obejmują różne dziedziny matematyki i poziomy trudności.
- Artykuły naukowe: W celu poprawy zdolności rozumienia i rozumowania modelu zebrano również dużą ilość artykułów naukowych, które dostarczają dogłębnych koncepcji i teorii matematycznych.
- Fora edukacyjne: Z forów edukacyjnych zebrano pytania zadawane przez studentów i odpowiedzi udzielane przez ekspertów, dzięki czemu model może zrozumieć problemy matematyczne z różnych perspektyw.
- Samouczki programowania: W celu poprawy umiejętności programowania modelu zebrano również dużą ilość samouczków programowania, które obejmują różne języki programowania i algorytmy.
Kontrola jakości danych
Microsoft włożył wiele wysiłku w kontrolę jakości danych, aby zapewnić dokładność i spójność danych szkoleniowych. Podjęto następujące kroki:
- Recenzje ręczne: W przypadku niektórych kluczowych zbiorów danych przeprowadzane są recenzje ręczne w celu zapewnienia dokładności i jakości danych.
- Głosowanie większościowe: W przypadku problemów, dla których nie dostarczono dokładnych rozwiązań, do generowania rozwiązań stosuje się metodę głosowania większościowego, co zwiększa dokładność.
- Oczyszczanie danych: Wszystkie dane są oczyszczane w celu usunięcia duplikatów, błędnych danych i danych nieistotnych.
Szczegółowa analiza strategii potrenowania
Faza potrenowania Phi-4 ma na celu przekształcenie go w niezawodnego asystenta AI. Faza ta składa się głównie z dostrajania i bezpośredniej optymalizacji preferencji (DPO).
Faza dostrajania
Celem fazy dostrajania jest dostosowanie modelu do różnych zadań i dziedzin. Na tym etapie Microsoft wykorzystał wysokiej jakości dane generowane z następujących dziedzin:
- Matematyka: Obejmuje różne problemy i rozwiązania matematyczne, mające na celu poprawę umiejętności rozumowania matematycznego modelu.
- Kodowanie: Obejmuje różne problemy i rozwiązania programistyczne, mające na celu poprawę zdolności modelu do generowania i rozumienia kodu.
- Rozumowanie: Obejmuje różne problemy z zakresu rozumowania logicznego, mające na celu poprawę zdolności logicznego myślenia modelu.
- Dialog: Obejmuje różne dane dialogowe, mające na celu poprawę zdolności modelu do rozumienia i generowania języka naturalnego.
- Tożsamość modelu: Obejmuje różne opisy tożsamości modelu, mające na celu poprawę zrozumienia przez model własnych możliwości.
- Bezpieczeństwo: Obejmuje różne problemy i rozwiązania związane z bezpieczeństwem, mające na celu poprawę bezpieczeństwa modelu.
Faza bezpośredniej optymalizacji preferencji (DPO)
Celem fazy bezpośredniej optymalizacji preferencji (DPO) jest lepsze dopasowanie zachowania modelu do ludzkich preferencji i wyeliminowanie niepożądanych zachowań. Faza ta obejmuje dwa kroki:
- Pivotal Token Search: W pierwszym kroku Microsoft wykorzystał nową technikę o nazwie Pivotal Token Search do generowania par pożądanych/niepożądanych wyników. Technika ta, poprzez przeszukiwanie przestrzeni wyjściowej modelu, ma na celu znalezienie kluczowych tokenów, które mogą rozróżnić pożądane i niepożądane zachowanie.
- GPT-4o jako oceniający: W drugim kroku wykorzystano GPT-4o jako oceniającego do oznaczania każdej pary wyników etykietą pozytywną lub negatywną. GPT-4o może oceniać wyniki modelu na podstawie preferencji ludzkich, pomagając modelowi lepiej uczyć się ludzkich preferencji.
Ocena wydajności Phi-4
W celu oceny wydajności Phi-4, Microsoft wykorzystał framework SIMPLE-EVALS od OpenAI, który zawiera różne testy porównawcze, pozwalające ocenić wydajność modelu w różnych zadaniach.
Testy porównawcze
Phi-4 osiągnął doskonałe wyniki w następujących testach porównawczych:
- GPQA (pytania i odpowiedzi z zakresu STEM na poziomie studiów): W tym teście porównawczym Phi-4 przewyższył swojego nauczyciela model GPT-4o, co dowodzi jego dużej mocy w zakresie pytań i odpowiedzi z zakresu STEM.
- MATH (konkursy matematyczne): W tym teście porównawczym Phi-4 również przewyższył swojego nauczyciela model GPT-4o, co dowodzi jego doskonałych umiejętności w rozwiązywaniu złożonych problemów matematycznych.
- Porównanie z innymi modelami: W wielu testach porównawczych Phi-4 przewyższył Llama-3.1-405B, co dowodzi jego dużej ogólnej wydajności.
Analiza wydajności
Na podstawie oceny wydajności Phi-4 można wyciągnąć następujące wnioski:
- Silne umiejętności rozumowania matematycznego: Phi-4 osiąga doskonałe wyniki w rozumowaniu matematycznym, dzięki innowacyjnym metodom zastosowanym w procesie szkolenia, w tym danym syntetycznym, wyselekcjonowanym danym rzeczywistym i strategiom potrenowania.
- Przewyższa model nauczyciela: W wielu testach porównawczych Phi-4 przewyższył swojego nauczyciela model GPT-4o, co dowodzi, że jego wydajność nie jest prostą destylacją wiedzy.
- Porównanie z innymi modelami: Phi-4 przewyższył Llama-3.1-405B w wielu testach porównawczych, co dowodzi jego dużej ogólnej wydajności.
Perspektywy zastosowania Phi-4
Phi-4, jako mały model językowy zaprojektowany do złożonego rozumowania matematycznego, ma szerokie perspektywy zastosowania. Może być stosowany w następujących dziedzinach:
- Edukacja: Może służyć jako narzędzie do korepetycji z matematyki, pomagając uczniom w rozwiązywaniu problemów matematycznych i zapewniając spersonalizowane doświadczenie edukacyjne.
- Badania naukowe: Może służyć jako narzędzie badawcze, pomagając badaczom w modelowaniu matematycznym i analizie danych.
- Inżynieria: Może służyć jako narzędzie inżynierskie, pomagając inżynierom w projektowaniu i analizie.
- Finanse: Może służyć jako narzędzie finansowe, pomagając analitykom finansowym w ocenie ryzyka i podejmowaniu decyzji inwestycyjnych.
- Inne dziedziny: Może być również stosowany w innych dziedzinach, które wymagają złożonego rozumowania matematycznego, takich jak medycyna, logistyka i produkcja.
Wnioski
Pojawienie się Microsoft Phi-4 oznacza znaczący postęp w dziedzinie rozumowania matematycznego dla małych modeli językowych. Jego unikalna strategia szkolenia danych i metody potrenowania pozwoliły mu przewyższyć wydajność podobnych i większych modeli, a także zapewniły nowe pomysły na rozwój przyszłej sztucznej inteligencji. Wraz z udostępnieniem Phi-4 na Hugging Face, wierzymy, że przyniesie on korzyści większej liczbie badaczy i deweloperów oraz przyczyni się do rozwoju technologii AI w różnych dziedzinach.