Mały model Microsoftu zaskakuje: Phi-4

Wzrost Znaczenia Modeli Rozumowania Phi-4

Świat AI jest obecnie zafascynowany modelami rozumowania, a Microsoft niedawno wprowadził rodzinę modeli wnioskowania Phi-4. Obejmuje to Phi-4-reasoning, Phi-4-reasoning-plus i Phi-4-mini-reasoning. Szczególnie godne uwagi jest to, że nawet największy z tych modeli, posiadający zaledwie 14 miliardów parametrów, może działać płynnie na wysokowydajnych laptopach. Co więcej, 3,8-miliardowy parametr Phi-4-mini-reasoning przewyższa 8-miliardowy parametr DeepSeek-R1 distilled model w rozumowaniu matematycznym, podkreślając moc mniejszych modeli w zadaniach wnioskowania.

Zamiast czekać na wydanie drugiej generacji modelu rozumowania DeepSeek-R2 w kwietniu, Microsoft zaprezentował nową serię modeli rozumowania Phi-4. Modele te wykazują wyjątkową wydajność w rozumowaniu matematycznym, przewyższając DeepSeek-R1 distilled model, pomimo mniejszej skali parametrów Phi-4-Mini-Reasoning.

Ahmed Awadallah, Partner Research Manager w Microsoft AI Frontiers laboratory, opisał Phi-4-reasoning i podsumował cechy nowego modelu.

  • Model jest trenowany z wykorzystaniem Supervised Fine-tuning (przy użyciu starannie dobranego zestawu przykładów rozumowania) i Reinforcement Learning.
  • Osiąga dobre wyniki w benchmarkach wnioskowania i może być porównywalny z większymi topowymi modelami, takimi jak DeepSeek R1.
  • Nadal osiąga dobre wyniki w nowych testach (takich jak AIME 2025, HMMT)
  • Zdolność rozumowania ma silną zdolność transferu/generalizacji, nawet po tylko nadzorowanym dostrajaniu, może dostosować się do nowych zadań (takich jak k-SAT, rozwiązywanie równań matematycznych, planowanie itp.)
  • Zachowuje i znacznie poprawia ogólne możliwości (takie jak rozumienie i wykonywanie instrukcji)

Stwierdził, że Phi-4 nadal ma kilka aspektów, które wymagają poprawy, szczególnie w długości kontekstu, zdolności kodowania i integracji narzędzi.

Oprócz samego modelu, Microsoft udostępnił również szczegółowy raport techniczny, który zawiera dogłębną analizę procesu treningu i oceny modelu.

Na X, Dimitris Papailiopoulos, Principal Researcher w Microsoft Research AI Frontiers laboratory i Associate Professor na University of Wisconsin, przedstawił więcej informacji o modelu rozumowania Phi-4.

Uważa, że Phi-4-reasoning całkowicie osiągnął poziom absolwenta i może być uruchomiony na lokalnym komputerze PC.

Przekroczyło to jego oczekiwania dotyczące rozwoju AI.

Nowy model ma niewiele parametrów, ale dużą wydajność.

Potęga Wydajności

Pomimo swoich skromnych rozmiarów, model ten wyróżnia się w benchmarkach matematycznych, takich jak AIME, HMMT i OmniMath. Działa na równi lub przewyższa większe modele o otwartej wadze, takie jak QwQ-32B, R1-70B i R1, oraz modele zamknięte, takie jak o1-mini i sonnet 3.7.

Model ten jest niewielki i nadaje się do płynnego działania na wysokowydajnych laptopach.

Jednocześnie jest w stanie rozwiązać wiele łamigłówek, których nawet większe modele nierozumujące i niektóre modele rozumujące nie mogą rozwiązać.

Przeszedł również test DimitrisEval!

Zaskakująco, rozumowanie wydaje się być prawdziwie transferowalną ‘meta-umiejętnością’, której można się nauczyć nawet poprzez nadzorowane dostrajanie SFT!

Dowód 1: Nawet bez specjalistycznego treningu w zadaniach nierozumujących, badacze nadal zaobserwowali znaczące poprawy wydajności w IFEval, FlenQA i wewnętrznym PhiBench (wzrost o ponad 10 punktów!).

Ponadto, jest bardzo mało danych związanych z kodowaniem podczas etapu SFT (i wcale podczas etapu RL), ale model nadal dobrze radzi sobie w tym zakresie.

Ponadto, Dimitris Papailiopoulos ujawnił, że programowanie jest kluczowym celem dla kolejnych wersji.

Dowód 2: W przypadku niektórych konkretnych problemów, na których nie był wyraźnie trenowany (ani etap SFT, ani RL), takich jak problem komiwojażera, rozwiązywanie labiryntów, k-SAT, planowanie ograniczone itp., model radzi sobie bardzo dobrze w tych zadaniach!

A Phi-4 (a nawet GPT-4) nie może tego zrobić.

To w pełni ilustruje, że zdolność rozumowania może rzeczywiście być przenoszona jako umiejętność!

Po bardzo krótkiej rundzie uczenia się przez wzmacnianie (przy użyciu tylko 6000 próbek, w porównaniu do 1,4 miliona przykładów dla SFT), mechanizm rozumowania modelu wydaje się być ‘zablokowany’.

To szczególnie zszokowało Dimitriego Papailiopoulosa.

Uważa, że tak jakby uczenie się przez wzmacnianie nauczyło model rozumować w ‘jego własnym języku’, zwiększając dokładność o około 10% w AIME i HMMT, i zwiększając średnią długość odpowiedzi o 50% w trudnych problemach.

Uczenie się przez wzmacnianie jest naprawdę skuteczne!!

Zjawisko ‘zablokowania’ mechanizmu rozumowania zwykle sprawia, że rozkład wyjściowy modelu jest bardziej skoncentrowany, a dokładność również wyższa.

Fakt, że uczenie się przez wzmacnianie może znacząco poprawić możliwości modelu, znalazł również odzwierciedlenie w poprzednich badaniach Microsoftu.

W etapie uczenia się przez wzmacnianie, nowy model nie był nawet specjalnie zoptymalizowany pod kątem danych: 6000 pytań zostało po prostu losowo wybranych z większego wyboru zestawów danych.

Więc dlaczego Microsoft nie przeprowadził więcej treningu uczenia się przez wzmacnianie?

Ponieważ model generował odpowiedzi na pytania, które przekraczały długość kontekstu 32k (długość, na której model nie był trenowany), mogli je tylko obciąć.

Ponadto, z pomocą równoległych obliczeń rozumowania (takich jak Maj@N), nowy model rozumowania prawie osiągnął limit wydajności w AIME 2025, a nawet przewyższył wydajność pass@1 swojego modelu nauczyciela (o3-mini).

I zakończył całe zbieranie danych przed lutym 2025, podobnie jak HMMT.

W innych zadaniach badacze zaobserwowali również zjawisko ‘przewyższenia nauczyciela’, takie jak zadania OmniMath i Calendar Planning.

Projektowanie podpowiedzi w etapie SFT, w połączeniu z późniejszym procesem uczenia się przez wzmacnianie, wydaje się dawać modelowi zdolność do ‘samodzielnego ulepszania’, przekraczając zakres wiedzy dostarczonej przez model nauczyciela.

Na poniższym rysunku, magenta reprezentuje o3-mini, a zielony reprezentuje Phi.

Interesującym zjawiskiem jest to, że: długie teksty z długościami odpowiedzi w górnych 25% są często silnie skorelowane z błędnymi odpowiedziami!

Jednak z drugiej strony, w większości ocen, ogólna średnia długość odpowiedzi jest dłuższa, a dokładność wyższa.

Innymi słowy, zwiększenie zasobów obliczeniowych podczas testowania pomaga, ale model jest również podatny na ‘rozwlekanie się’, gdy jest ‘zablokowany’.

Jeśli chodzi o ograniczenia modelu, jest również kilka rzeczy, na które należy zwrócić uwagę:

  • Zdolność do obsługi długości kontekstu przekraczających 32k nie została w pełni rozwinięta ani przetestowana.
  • Model jest podatny na ‘zbyt intensywne myślenie’ w przypadku prostych problemów i może wydawać się zbyt rozwlekły w samoocenie.
  • Zdolność do wielokrotnych dialogów nie została szeroko przetestowana.

Oczywiście, jest więcej ‘martwych punktów’ do odkrycia, ale ogólnie rzecz biorąc, zespół badawczy uważa, że jest na właściwej drodze!

Zaskoczenia Podczas Treningu

Suriya Gunasekar, Principal Research Manager w Microsoft Research i należąca do zespołu ‘AGI Physics’ odpowiedzialnego za rozwój serii modeli Phi, skupiła się na wprowadzeniu podstawowych zasad pracy.

Tym razem, zespół Microsoft Phi skupił się na etapie post-treningu i uruchomił Phi-4-reasoning (używając tylko SFT) i Phi-4-reasoning-plus (SFT + niewielka ilość RL).

Oba to modele 14B, które wykazały silne możliwości w rozumowaniu i ogólnych benchmarkach zadań.

Sednem tej pracy jest wybór podpowiedzi i eksperymentalne badanie transferowalnych, samoulepszających się umiejętności rozumowania.

Podczas procesu treningu pojawiły się dwa zaskakujące odkrycia:

Po pierwsze, tak długo, jak używa się kilku trenowanych w domenie trajektorii długołańcuchowego rozumowania (CoT), Phi-4 może osiągnąć znaczące poprawy wydajności w wielu zadaniach, takich jak planowanie, rozwiązywanie labiryntów (bez wejścia wizualnego), IFEva, FlenQA, KITAB (wyszukiwanie odpowiedzi na pytania na podstawie tabel) i wewnętrzny PhiBench;

Po drugie, nawet jeśli tylko 6000 przykładów matematycznych jest używanych do minimalnego treningu RL, wydajność modelu jest znacznie poprawiona w niektórych benchmarkach, z największą poprawą sięgającą 10% (ale zużycie tokenów wzrosło o około 1,5 raza), a transfer umiejętności między domenami został również zaobserwowany podczas etapu RL.

Innymi słowy, w porównaniu z głównymi konkurentami, takimi jak OpenAI i Google, seria rozumowania Microsoft Phi-4 demonstruje nowe możliwości: małe modele mogą dorównać lub nawet przewyższyć duże modele w konkretnych zadaniach, wykorzystując wysokiej jakości dane i dopracowane strategie treningowe.

Podstawowe Metody

Model rozumowania Phi-4-reasoning ma 14 miliardów parametrów i osiąga dobre wyniki w złożonych zadaniach rozumowania.

Model jest oparty na Phi-4 do nadzorowanego treningu dostrajającego, wykorzystując starannie wybrany zestaw ‘uczących się’ podpowiedzi, które mają zarówno odpowiednią złożoność, jak i różnorodność; przykłady rozumowania generowane przez o3-mini są wykorzystywane jako odniesienia podczas procesu treningu.

Phi-4-reasoning może generować szczegółowe łańcuchy rozumowania i w pełni wykorzystywać zasoby obliczeniowe podczas procesu rozumowania.

Na tej podstawie Microsoft dalej rozwinął Phi-4-reasoning-plus.

Jest on ulepszony na podstawie oryginalnego modelu poprzez mały etap uczenia się przez wzmacnianie opartego na wynikach i generuje dłuższe i potężniejsze łańcuchy rozumowania.

Badania pokazują, że dobrze zaprojektowany zestaw danych SFT może znacząco poprawić efekt rozumowania modeli językowych, a uczenie się przez wzmacnianie (RL) może dodatkowo wzmocnić tę poprawę na tej podstawie.

W eksperymentach SFT, nawet w tym stosunkowo prostym ustawieniu generowania, staranny wybór i ścisłe filtrowanie problemów początkowych są nadal kluczowe dla sukcesu modelu.

Poddali cały zestaw danych treningowych ścisłemu procesowi odkażania, aby upewnić się, że nie zawiera danych, które silnie pokrywają się z szeroko stosowanymi pytaniami rozumowania lub ogólnymi benchmarkami, w tym niektórymi benchmarkami nie wymienionymi w tym raporcie.

Pełna lista testów benchmarkowych, które zostały odkażone, jest następująca:

  • Matematyka i Rozumowanie: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
  • Programowanie: LiveCodeBench, Codeforces, HumanEval, MBPP
  • Odpowiedzi na Pytania i Ogólna Wiedza: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
  • Inne Zadania Oceny: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench

Poprzez Supervised Finetuning (SFT) modelu Phi-4 z 14 miliardami parametrów, badacze uzyskali Phi-4-reasoning, bez żadnego uczenia się przez wzmacnianie wcześniej.

Celem SFT jest dopracowanie strukturalnej zdolności rozumowania zawartej w podstawowym modelu.

Architektura Phi-4-reasoning jest taka sama jak architektura modelu Phi-4, ale z dwiema kluczowymi modyfikacjami:

  • Tokeny rozumowania: Dwa tokeny zastępcze w podstawowym modelu są ponownie wykorzystywane jako i tokeny, które są używane do oznaczania początku i końca procesu rozumowania (‘myślenia’).
  • Zwiększona Długość Tokenów: Maksymalna długość tokenów początkowo obsługiwana przez podstawowy model (Phi-4) wynosiła 16K. Aby pomieścić dodatkowe tokeny rozumowania, częstotliwość bazowa RoPE została podwojona, a model był trenowany przy maksymalnej długości tokenów 32K.

Użyli syntetycznej metody do wygenerowania dużej liczby przykładów rozumowania łańcuchowego myślenia.

Wykorzystany zestaw danych SFT zawiera ponad 1,4 miliona par podpowiedź-odpowiedź, łącznie 8,3 miliarda unikalnych tokenów, obejmujących dziedziny rozumowania, takie jak matematyka i programowanie, a także dane dotyczące wyrównania dla bezpiecznej i odpowiedzialnej AI.

Rysunek 4a pokazuje zmiany kluczowych wskaźników w całym procesie iteracji SFT.

We wczesnej fazie treningu model zaczął używać jawnych tokenów ‘myślenia’, co wskazuje, że model szybko nauczył się tego płytkiego ustrukturyzowanego formatu.

Jednak, jak pokazano na rysunku 4a, skuteczność modułu łańcucha myślenia i zdolność rozumowania modelu poprawiają się w całym procesie treningu, co wskazuje, że model nie tylko kopiuje format, ale faktycznie uczy się umiejętności rozumowania.

Co ciekawe, w przeciwieństwie do uczenia się przez wzmacnianie, badacze nie zaobserwowali wzrostu długości odpowiedzi podczas procesu SFT.

W rzeczywistości, jak pokazano na rysunku 4b, średnia długość odpowiedzi nieznacznie spadła.

To pokazuje, że w miarę postępów treningu, model uczy się efektywniej wykorzystywać swój budżet tokenów.

Aby systematycznie oceniać różne strategie treningowe, użyli stałego benchmarku - AIME 2024 i GPQA diamond - jako wskaźnika postępu.

Ogólnie rzecz biorąc, metodę eksperymentalną można podzielić na dwa etapy: eksplorację i skalowanie.

W etapie eksploracji badacze użyli krótszych cykli treningowych i ograniczonych źródeł danych i dziedzin, aby szybko iterować i wyodrębnić solidne metody treningowe.

W kolejnej fazie ekspansji badacze podsumowali wyniki wczesnych eksperymentów redukcji ryzyka i sfinalizowali ustawienia SFT.

Rysunek 5 podsumowuje ten postęp, podkreślając eksperymenty ablacji dla kilku kluczowych wyborów projektowych.

Rysunek 5 pokazuje ogólny przegląd cyklu eksperymentalnego nadzorowanego dostrajania (SFT) Phi-4-reasoning, w tym fazy eksploracji i ekspansji, używając niektórych przykładowych eksperymentów do reprezentacji. Każda grupa kropek reprezentuje wyniki eksperymentalne konkretnego wyboru projektowego treningu.

Rysunek 7 pokazuje kluczowe wnioski modelu Phi-4-reasoning-plus podczas procesu treningu GRPO.

Zaczynając od nadzorowanego modelu bazowego dostrajania (SFT) Phi-4-reasoning, tylko 90 kroków treningu GRPO zwiększyło wydajność AIME o ponad 10% (rysunek 7a).

Dalsze zwiększanie liczby kroków treningowych nie przyniosło dodatkowych korzyści, co wskazuje, że potencjał silnego modelu SFT jest bliski górnej granicy wydajności. Należy zauważyć, że wyjście w treningu GRPO jest ograniczone do 31k tokenów, co obiektywnie ogranicza przestrzeń optymalizacji GRPO.

Jak pokazano na rysunku 7c, długość odpowiedzi jest silnie skorelowana z wydajnością AIME, podczas gdy korelacja między wynikiem nagrody a wynikiem AIME jest słaba. Ten efekt wzrostu długości odpowiedzi jest oczekiwanym efektem treningu GRPO - model poprawia swoją zdolność rozumowania, zwiększając ‘czas myślenia’.

Rysunek 7d dalej ujawnia, że ze względu na konstrukcję modelu nagrody, długość generowania błędnych odpowiedzi rośnie znacznie szybciej niż poprawnych odpowiedzi (gdy aktualna odpowiedź modelu jest błędna, system zachęci go do dłuższego myślenia).

W rzeczywistości, wykonywanie próbkowania odrzucającego opartego wyłącznie na długości odpowiedzi (zwłaszcza długie odpowiedzi, które znacznie przekraczają medianę) może jeszcze bardziej poprawić wydajność GRPO.

Jak pokazano na rysunku 7d, trend wzrostowy krótszych odpowiedzi (długość umieszczona w dolnym 25% kwantylu) podczas procesu treningu jest podobny do średniej długości poprawnych odpowiedzi, podczas gdy długość błędnych odpowiedzi jest bliższa 75% kwantylu ogólnej długości odpowiedzi.

To zjawisko różnicowania wskazuje, że próbkowanie odrzucające oparte na długości może poprawić efektywność modelu, tłumiąc zbyt długie nieprawidłowe wyjścia.