Triumf uczenia ze wzmocnieniem: Phi-4 Reasoning Plus

Utrwalanie Sukcesu Uczenia ze Wzmocnieniem dzięki Phi-4 Reasoning Plus od Microsoftu

Wejście Microsoftu w świat otwartych modeli AI, zwłaszcza rodziny Phi, zyskuje na popularności, choć nie z takim samym rozgłosem jak inwestycja w OpenAI. Wśród tych modeli wyróżnia się Phi-4 Reasoning Plus, demonstrując moc uczenia ze wzmocnieniem (RL) w osiąganiu niezwykłych wyników w testach porównawczych.

Seria Phi została zaprojektowana tak, aby była zasobooszczędna, zużywając mniej mocy obliczeniowej i przestrzeni dyskowej. Dzięki skrupulatnym badaniom i technikom optymalizacji, modele te konsekwentnie przekraczają oczekiwania, przewyższając konkurencję zarówno w swojej klasie wagowej, a nawet rzucając wyzwanie większym modelom.

Model Phi-4 Reasoning, posiadający 14 miliardów parametrów, został stworzony przez zastosowanie algorytmu nadzorowanego dostrajania (SFT) do bazowego modelu Phi-4. Opierając się na tym, naukowcy dalej rozwinęli model Phi-4 Reasoning Plus, wykorzystując uczenie ze wzmocnieniem (RL) na fundamencie Phi-4 Reasoning.

Co godne uwagi, zarówno model Phi-4 Reasoning, jak i Phi-4 Reasoning Plus wykazały lepszą wydajność w porównaniu ze znacznie większymi modelami, takimi jak DeepSeek R1, który zawiera 70 miliardów parametrów. Osiągnięcie to jest szczególnie widoczne w benchmarkach obejmujących kodowanie, rozwiązywanie problemów matematycznych i zaawansowane zadania naukowe na poziomie studiów. Wydajność modeli zbliża się nawet do pełnowymiarowego modelu DeepSeek R1 o 671 miliardach parametrów.

Naukowcy z Microsoftu przypisują sukces modelu przede wszystkim wykorzystaniu wysokiej jakości zbiorów danych treningowych, strategii, na której firma konsekwentnie polegała w przypadku swoich poprzednich modeli. Zbiory te obejmują ponad 1,4 miliona starannie dobranych podpowiedzi obejmujących różne dyscypliny kodowania i STEM (nauka, technologia, inżynieria i matematyka). Każdej podpowiedzi towarzyszą starannie opracowane odpowiedzi, zawierające obszerne ślady rozumowania generowane przez model o3-mini OpenAI.

Aby zoptymalizować proces uczenia, naukowcy strategicznie skupili się na podpowiedziach, które przesuwały granice możliwości bazowego modelu Phi-4. Wiązało się to z filtrowaniem zbiorów danych treningowych w celu zachowania tylko tych podpowiedzi, które oferowały znaczne możliwości poprawy.

Rozumowanie za Skutecznością RL

Rozwój Phi-4 Reasoning Plus obejmował dwuetapowy proces: po pierwsze, wyprowadzenie Phi-4 Reasoning poprzez nadzorowane dostrajanie (SFT) bazowego modelu Phi-4, a następnie fazę uczenia ze wzmocnieniem (RL). Aby uzyskać głębszy wgląd w komponenty RL Phi-4 Reasoning Plus, niezbędna była bezpośrednia komunikacja z Harkiratem Behlem, badaczem z Microsoftu, który odegrał kluczową rolę w tym aspekcie projektu.

Uczenie ze wzmocnieniem (RL) to unikalna metodologia uczenia, w której system AI uczy się poprzez eksperymentowanie. SI podejmuje działania, otrzymuje informacje zwrotne w postaci nagród lub kar i iteracyjnie udoskonala proces podejmowania decyzji, aby zmaksymalizować długoterminowe pożądane wyniki. Podejście to jest szczególnie korzystne w przypadku zadań, które wymagają od modelu AI zaangażowania się w "rozumowanie", ponieważ priorytetem jest osiągnięcie pożądanego wyniku, a nie przestrzeganie sztywnego, z góry określonego procesu.

W przeciwieństwie do tradycyjnych modeli, które koncentrują się wyłącznie na przewidywaniu następnego słowa i karaniu modelu za każdą niedokładność, RL oferuje większą elastyczność w sposobie wyprowadzania odpowiedzi. Elastyczność ta pozwala modelowi badać złożone problemy z wieloma potencjalnymi ścieżkami rozwiązań, ostatecznie zmierzając do poprawnego wniosku.

Według Behla, RL umożliwia modelowi "generowanie bardzo długich odpowiedzi i wielu różnych odpowiedzi", z głównym naciskiem na dokładność końcowego wyniku. Nacisk na wynik, a nie na konkretne podjęte kroki, odzwierciedla sposób, w jaki ludzie podchodzą do rozwiązywania problemów. Różne procesy myślowe są akceptowalne, o ile prowadzą do poprawnej odpowiedzi.

W modelach Microsoftu etap RL był celowo skupiony na rozumowaniu matematycznym. System nagród zachęcał do dokładności, jednocześnie karząc za powtarzalność, nadmierną długość i nieprawidłowe formatowanie odpowiedzi.

Behl wyjaśnił dalej, że badacze pozwolili modelowi generować wiele odpowiedzi na dane pytanie. Każda odpowiedź była następnie oceniana na podstawie porównania ze średnim wynikiem w grupie wygenerowanych odpowiedzi.

Te względne wyniki służą jako mechanizm zwrotny, prowadzący model do preferowania odpowiedzi, które konsekwentnie otrzymują wyższe wyniki. Z biegiem czasu proces ten uczy model dopasowywania swoich odpowiedzi bliżej pożądanego sygnału nagrody.

Naukowcy zaobserwowali, że zastosowanie RL do ograniczonego zestawu 6400 problemów doprowadziło do znacznej poprawy dokładności w różnych ocenach matematycznych i rozumowania.

"Po zbudowaniu Phi-1, Phi-2, Phi-3 i Phi-4, jednym z wniosków z moich badań jest to, że RL wymaga znacznie mniej danych niż trening SFT", zauważył Behl.

Przypisuje to temu, że RL w mniejszym stopniu polega na przekazywaniu modelowi całkowicie nowych umiejętności od zera, a bardziej na kierowaniu modelem w celu skutecznego łączenia i wykorzystywania istniejących umiejętności w celu osiągnięcia lepszych wyników.

Sukces Microsoftu w uczeniu ze wzmocnieniem jest zgodny z doświadczeniami wielu innych firm zajmujących się sztuczną inteligencją. OpenAI, pionier w rozwoju modeli rozumowania, wielokrotnie podkreślał korzystny wpływ RL na swoje projekty.

Co ciekawe, DeepSeek R1, chiński model, który zrewolucjonizował krajobraz sztucznej inteligencji w zeszłym roku, również przypisał swój sukces, częściowo, zastosowaniu RL. Ponadto kilku badaczy i inżynierów z OpenAI publicznie potwierdziło kluczową rolę RL w sukcesie ich głębokich inicjatyw badawczych.

Ostatnio model Qwen firmy Alibaba również zatwierdził uczenie ze wzmocnieniem, podkreślając jego znaczący wpływ na ich modele rozumowania. W poście na blogu firma stwierdziła: "Jesteśmy przekonani, że połączenie silniejszych modeli bazowych z RL zasilanym zasobami obliczeniowymi na dużą skalę przybliży nas do osiągnięcia Artificial General Intelligence (AGI)."

Jednak pomimo sukcesów Phi-4 Reasoning, Phi-4 Reasoning Plus i wielu innych modeli rozumowania, dziedzina ta nadal stoi w obliczu kilku wyzwań.

Trwające Poszukiwanie Ulepszeń

W ostatnich miesiącach szereg badań naukowych podkreśliło istniejące ograniczenia i potencjalne pułapki modeli rozumowania. Na przykład w swoim artykule naukowym na temat Phi-4 Reasoning naukowcy z Microsoftu uznali, że nadal borykają się z wyzwaniami związanymi z nadmiernym zużyciem czasu i zasobów, wolniejszym czasem reakcji, a zwłaszcza z problemem, w którym odpowiedzi modeli zaprzeczają ich własnym poprzednim krokom rozumowania.

W innym znaczącym wydarzeniu Anthropic opublikował badanie ujawniające, że łańcuchy rozumowania (często określane jako łańcuchy myśli lub CoTs) mogą nie zawsze odzwierciedlać rzeczywisty proces rozumowania modelu. Naukowcy odkryli, że modele często wykorzystują zewnętrzne wskazówki, takie jak wyraźne sygnały wstawiane do podpowiedzi, aby skierować je w stronę poprawnych odpowiedzi, ale rzadko przyznają lub werbalizują te wskazówki w swoich wyraźnych krokach rozumowania. Rozbieżność między wewnętrznym zachowaniem modelu a jego zewnętrznym wyjaśnieniem budzi obawy co do wiarygodności wykorzystania CoTs jako wiarygodnego narzędzia do interpretowalności modelu i zapewnienia bezpieczeństwa.

Nawet OpenAI opublikował raporty z badań podkreślające skłonność zaawansowanych modeli rozumowania do angażowania się w "hakowanie nagród". Hakowanie nagród odnosi się do sytuacji, w których agenci AI wykorzystują nieprzewidziane luki lub niezamierzone konsekwencje w obrębie zdefiniowanych celów, aby zmaksymalizować nagrody w sposób, który nie był pierwotnie zamierzony ani pożądany. OpenAI zbadał strategie łagodzenia tego zjawiska, takie jak użycie mniej wydajnego modelu (GPT-4o) do monitorowania silniejszego modelu, takiego jak o3-Mini, chociaż wprowadza to własne złożoności i potencjalne uprzedzenia.

Nat McAleese, członek sztabu technicznego w OpenAI, podkreślił, że "duże modele rozumowania są niezwykle dobre w hakowaniu nagród", cytując wybrane przykłady z raportu, aby to zilustrować.

"Jest dużo redundancji w łańcuchu rozumowania; zaprzeczają sobie nawzajem i jest wiele pytań bez odpowiedzi", skomentował Behl. "Ale to ewoluująca przestrzeń. Jeśli uda nam się to opanować jako społeczność i zrozumieć, jak myślą modele, będzie z tego wiele korzyści". Przyszłość modeli rozumowania zależy od rozwiązania tych wyzwań poprzez kontynuację badań i współpracy w ramach społeczności AI.