Dążenie do stworzenia sztucznej inteligencji, która potrafi prawdziwie rozumować, od dawna stanowi centralny cel w tej dziedzinie. Początkowe poruszenie wokół modelu “o1” OpenAI rozpaliło powszechne zainteresowanie wykorzystaniem technik uczenia ze wzmocnieniem (RL) na dużą skalę do budowy systemów zdolnych do zaawansowanego rozumowania. Następnie decyzja DeepSeek-R1 o udostępnieniu swojego modelu jako open-source dodatkowo podsyciła entuzjazm i umożliwiła społeczności AI energiczne dążenie do rozwoju najnowocześniejszych modeli rozumowania.
Jednak ten początkowy wybuch aktywności został szybko ostudzony przez znaczącą przeszkodę. Krytyczne szczegóły techniczne, niezwykle ważne dla pomyślnej replikacji – a konkretnie precyzyjne strategie stosowane do selekcji danych i skomplikowane przepisy regulujące trening RL – były wyraźnie nieobecne w oryginalnym raporcie DeepSeek-R1. To pominięcie pozostawiło badaczy w stanie znacznej frustracji, zmagających się z wyzwaniem odtworzenia zgłoszonych sukcesów. Konsekwencją był nieco rozdrobniony krajobraz badań, z wieloma niezależnymi wysiłkami badającymi różne rozmiary modeli, różne wstępne punkty kontrolne i różnorodny zakres domen docelowych. Pomimo tej intensywnej aktywności, kompleksowy i konsekwentnie skuteczny przepis na trening pozostawał nieuchwytny.
Tradycyjne podejścia do trenowania modeli językowych do rozumowania koncentrowały się przede wszystkim na dziedzinach matematyki i kodu komputerowego. Metodologie te generalnie opierają się na kombinacji wstępnego trenowania na dużych zbiorach danych i nadzorowanego dostrajania w celu specjalizacji modeli dla tych konkretnych zadań. Wczesne próby włączenia uczenia ze wzmocnieniem do tego procesu, zazwyczaj poprzez wykorzystanie modeli nagród specyficznych dla danej domeny, przyniosły jedynie ograniczone korzyści. Wynikało to z nieodłącznych wyzwań związanych z zadaniami matematycznymi i kodowania, gdzie subtelne błędy mogą prowadzić do drastycznie niepoprawnych wyników.
Nowsze badania, pobudzone wydaniem DeepSeek-R1, zbadały wykorzystanie metod weryfikacji opartych na regułach. W dziedzinie matematyki metody te często obejmują wymaganie określonych formatów wyjściowych, które umożliwiają precyzyjną i automatyczną weryfikację rozwiązania. Podobnie, w kontekście kodu, badacze wykorzystali wbudowane mechanizmy sprzężenia zwrotnego kompilacji i wykonania, aby kierować procesem uczenia się. Jednak podejścia te były na ogół wąsko ukierunkowane na poszczególne domeny, pozbawione możliwości efektywnego radzenia sobie z heterogenicznymi zapytaniami, które mieszają problemy matematyczne i związane z kodowaniem. Ponadto, oceny często ograniczały się do konkretnych benchmarków, takich jak AIME i LiveCodeBench, co ograniczało możliwość uogólnienia wyników. Wreszcie, niestabilność treningu nadal stanowi uporczywy problem, często wymagający stosowania złożonych technik, takich jak stopniowe zwiększanie długości odpowiedzi i ograniczanie załamania entropii.
Teraz badacze z NVIDIA zmieniają zasady gry, demonstrując znaczący potencjał uczenia ze wzmocnieniem na dużą skalę, aby radykalnie poprawić możliwości rozumowania stosunkowo małych i średnich modeli. Ich metody osiągają poziomy wydajności, które przewyższają najnowocześniejsze podejścia oparte na technikach destylacji. Podejście NVIDIA wykorzystuje sekwencyjną strategię treningu: najpierw przeprowadzając trening RL wyłącznie na zapytaniach związanych z matematyką, a następnie przełączając się na zapytania skoncentrowane wyłącznie na kodzie.
Sekwencyjna Metoda dla Ulepszonego Rozumowania
Jakie są wyniki? Początkowy trening RL na problemach matematycznych nie tylko radykalnie poprawia wydajność w benchmarkach matematycznych, ale, co zaskakujące, generuje również znaczny wzrost możliwości rozumowania kodu. Ponadto, rozszerzone iteracje treningu RL skoncentrowane w szczególności na kodzie dodatkowo zwiększają wydajność kodu przy minimalnej degradacji wydajności matematycznej. To podejście podkreśla kluczowy punkt: trening matematyczny może stanowić silną podstawę dla bardziej złożonych zadań rozumowania, takich jak kodowanie.
Integralną częścią sukcesu podejścia NVIDIA jest solidny potok selekcji danych. Ten potok jest starannie zaprojektowany do zbierania trudnych zapytań charakteryzujących się zarówno wysokim poziomem trudności, jak i dostępnością wysokiej jakości, weryfikowalnych odpowiedzi i przypadków testowych. Pozwala to na efektywne stosowanie RL opartego na weryfikacji zarówno w domenach matematycznych, jak i kodowania.
Selekcja Danych dla Matematyki i Kodu
Metodologia selekcji danych stosowana przez badaczy NVIDIA starannie rozróżnia wymagania dla RL tylko matematycznego i RL tylko kodowego.
RL Tylko Matematyczny: Tworzenie danych treningowych dla RL tylko matematycznego obejmuje łączenie danych z zestawów danych DeepScaler i NuminaMath. Zestawy danych obejmują szeroki zakres tematów matematycznych, w tym algebrę, kombinatorykę, teorię liczb i geometrię. Aby zachować integralność danych, stosuje się rygorystyczny proces filtrowania, wykorzystując filtr 9-gramowy do usuwania zbędnych lub nieodpowiednich treści i wdrażając surowe reguły wykluczenia, aby wyeliminować potencjalnie problematyczne wpisy. Model DeepSeek-R1 odgrywa następnie kluczową rolę w walidacji jakości pytań. Każde pytanie jest poddawane ośmiu niezależnym próbom przez model, a tylko te rozwiązania, które uzyskają większość głosów poprawności poprzez weryfikację opartą na regułach, są zachowywane do włączenia do końcowego zestawu danych.
RL Tylko Kodowy: Zestaw danych dla RL tylko kodowego jest konstruowany z wykorzystaniem danych pochodzących z nowoczesnych platform programowania konkursowego. Platformy te stanowią bogate źródło problemów z kodowaniem obejmujących różnorodny wachlarz tematów algorytmicznych. Problemy są formatowane tak, aby były zgodne z konwencjami wywoływania funkcji i standardowego wejścia/wyjścia (stdin/stdout) powszechnie stosowanymi w tych środowiskach. Badacze podejmują się starannego procesu filtrowania, aby wyeliminować niekompatybilne problemy i skrupulatnie selekcjonować kompleksowe przypadki testowe zaprojektowane w celu pokrycia przypadków brzegowych i warunków granicznych. Ponadto, każdemu problemowi przypisywana jest ocena trudności określona poprzez ocenę przez model DeepSeek-R1-671B. Ten rygorystyczny proces skutkuje wysokiej jakości zestawem danych składającym się z 8 520 zweryfikowanych problemów z kodowaniem.
AceReason-Nemotron: Wyniki i Benchmarks
Wyniki badań NVIDIA są przekonujące. Model AceReason-Nemotron-7B osiąga znaczne poprawy dokładności o 14,5% i 14,6% w trudnych konkursach AIME 2024 i 2025, odpowiednio, w porównaniu z początkowymi modelami SFT. Ponadto, demonstruje znaczne wzrosty o 14,2% i 8% w benchmarkach LiveCodeBench v5 i v6, odpowiednio. Większy wariant modelu 14B wykazuje jeszcze większą wydajność, przewyższając większe modele, takie jak DeepSeek-R1-Distill-Qwen-32B i DeepSeek-R1-Distill-Llama-70B. Osiąga to najlepsze w swojej klasie wyniki wśród otwartych modeli rozumowania opartych na RL.
W porównaniu z najnowocześniejszymi modelami opartymi na destylacji, AceReason-Nemotron-14B przewyższa OpenMath-14B/32B o 2,1%/4,4% w benchmarkach AIME i OpenCodeReasoning-14B o 1,7%/0,8% w LiveCodeBench. To przekonująco pokazuje, że RL może osiągnąć wyższe górne granice wydajności niż podejścia destylacji, zachowując konkurencyjną wydajność w porównaniu z zaawansowanymi modelami granicznymi, takimi jak QWQ-32B i o3-mini.
Implikacje tych wyników są znaczące. Sugerują one, że RL na dużą skalę ma potencjał, aby odblokować nowe poziomy możliwości rozumowania w modelach AI, przewyższając ograniczenia tradycyjnych podejść. Sekwencyjna strategia treningu specyficzna dla domeny, w połączeniu z solidnym potokiem selekcji danych, stanowi plan dla przyszłych badań w tej dziedzinie.
Uczenie ze Wzmocnieniem Napędza Granice Rozumowania
Te badania podkreślają znaczący potencjał uczenia ze wzmocnieniem, aby przesuwać granice możliwości rozumowania modeli. Poprzez strategiczne stosowanie treningu specyficznego dla domeny i skrupulatne selekcjonowanie wysokiej jakości danych, pozwala to modelom AI rozwiązywać wcześniej nierozwiązywalne problemy i ustanawia nowe benchmarki dla rozwoju modeli rozumowania, ostatecznie prowadząc do nowej generacji systemów AI zdolnych do radzenia sobie z wyzwaniami świata rzeczywistego z bezprecedensową dokładnością i wydajnością. Zdolność do efektywnego rozumowania jest podstawą inteligencji, a postępy poczynione przez NVIDIA stanowią ważny krok w kierunku realizacji pełnego potencjału sztucznej inteligencji. Przyszłe badania prawdopodobnie skoncentrują się na skalowaniu tych technik do jeszcze większych modeli i badaniu nowych strategii doboru danych, aby jeszcze bardziej poprawić wydajność rozumowania. Opracowanie bardziej wyrafinowanych funkcji nagród i strategii eksploracji będzie również kluczowe dla pokonania wyzwań związanych z trenowaniem modeli AI do złożonych zadań rozumowania. Ostatecznie celem jest stworzenie systemów AI, które mogą rozumować, uczyć się i dostosowywać w sposób podobny do ludzi, umożliwiając im rozwiązywanie złożonych problemów i podejmowanie świadomych decyzji w szerokim zakresie domen.
Ponadto, użycie RL oferuje korzyści wykraczające poza surową dokładność. Agenci RL mogą uczyć się, jak optymalizować różne cele, takie jak wydajność, solidność i interpretowalność. Na przykład, agent RL mógłby być trenowany do generowania kodu, który jest nie tylko poprawny, ale także wydajny i łatwy do zrozumienia. Ta zdolność jest szczególnie ważna w zastosowaniach krytycznych dla bezpieczeństwa, gdzie niezbędne jest zapewnienie, że systemy AI są niezawodne i przewidywalne.
Praca wykonana przez NVIDIA podkreśla rosnące znaczenie selekcji danych w badaniach nad AI. Jakość danych treningowych ma znaczący wpływ na wydajność modeli AI, a starannie wyselekcjonowane zbiory danych są niezbędne do osiągnięcia najnowocześniejszych wyników. Potok selekcji danych opracowany przez NVIDIA jest cennym zasobem dla badaczy pracujących nad modelami rozumowania i można go dostosować do użytku również w innych domenach.
Połączenie uczenia ze wzmocnieniem na dużą skalę, treningu specyficznego dla domeny i solidnej selekcji danych okazało się zwycięską formułą poprawy możliwości rozumowania modeli AI. W miarę jak techniki te będą się rozwijać, możemy spodziewać się jeszcze bardziej imponujących postępów w dziedzinie AI i mamy nadzieję zobaczyć dalszy rozwój modeli AI w najbliższej przyszłości.