Modele z serii Llama-Nemotron firmy Nvidia oficjalnie przewyższyły DeepSeek-R1, a szczegóły ich treningu zostały w pełni ujawnione, oferując wgląd w to, jak te modele zostały opracowane, aby osiągnąć doskonałą wydajność.
Modele te są teraz w pełni open-source, co stanowi znaczący postęp w dostępnej technologii AI. Oznacza to, że seria modeli wnioskowania, które znacznie przewyższają DeepSeek-R1 pod względem przepustowości wnioskowania i efektywności pamięci, jest teraz dostępna dla każdego do używania i modyfikowania.
Odkrywanie sekretów sukcesu modelu
Jak dokładnie powstały te modele, które przewyższają DeepSeek-R1? Raport techniczny Nvidii ujawnia kluczowe elementy ich procesu treningowego:
- Nadzorowane dostrajanie z wykorzystaniem danych syntetycznych + uczenie ze wzmocnieniem: To połączenie znacząco poprawia zdolności rozumowania modelu.
- Kompleksowy proces po treningowy: Solidny i dobrze zaprojektowany proces po treningowy ma kluczowe znaczenie dla optymalizacji wydajności modelu.
W zeszłym miesiącu Nvidia oficjalnie ogłosiła Llama-Nemotron 253B, który szybko przyćmił Llama 4 (który miał zaledwie trzy dni i borykał się z “kryzysem integralności” z powodu manipulacji rankingami). Premiera tej serii modeli wywołała spore poruszenie w branży.
Według Artificial Analysis Intelligence Index, Llama-Nemotron-Ultra jest obecnie uważany za “najinteligentniejszy” model open-source na kwiecień 2025 roku.
Nvidia wprowadziła na rynek trzy modele z serii Llama-Nemotron: LN-Nano 8B, LN-Super 49B i LN-Ultra 253B.
Warto zauważyć, że LN-Ultra nie tylko przewyższa DeepSeek-R1 pod względem wydajności, ale także działa na pojedynczym węźle 8xH100, zapewniając wyższą przepustowość wnioskowania.
Modele te są zoptymalizowane pod kątem wysokiej przepustowości wnioskowania, przy zachowaniu silnych zdolności rozumowania i długości kontekstu do 128K.
Ponadto Nvidia wprowadziła przełomową funkcję przełącznika wnioskowania w globalnej społeczności open-source AI. Użytkownicy mogą dynamicznie przełączać się między standardowym trybem czatu a trybem rozumowania za pomocą polecenia systemowego “detailed thinking on/off”.
Taka konstrukcja pozwala modelowi zaspokajać ogólne, codzienne potrzeby i obsługiwać złożone, wieloetapowe zadania rozumowania bez konieczności używania różnych modeli lub architektur.
Proces budowy: podejście pięcioetapowe
Budowa modeli Llama-Nemotron jest podzielona na pięć odrębnych etapów:
Etap 1: Optymalizacja wydajności rozumowania za pomocą wyszukiwania architektury neuronowej (NAS) w oparciu o modele z serii Llama 3, z wprowadzeniem Feedforward Network Fusion (FFN Fusion).
Etap 2: Przywrócenie wydajności modelu poprzez destylację wiedzy i kontynuację wstępnego treningu.
Etap 3: Nadzorowane dostrajanie (SFT), które łączy standardowe dane instruktażowe z procesami rozumowania z potężnych modeli nauczycielskich, takich jak DeepSeek-R1, umożliwiając modelowi wykonywanie wieloetapowego rozumowania.
Etap 4: Uczenie ze wzmocnieniem na dużą skalę na złożonych zbiorach danych matematycznych i STEM, które ma kluczowe znaczenie dla tego, aby model studenta przewyższył możliwości modelu nauczyciela. W przypadku LN-Ultra ten etap znacząco poprawia wydajność w benchmarku GPQA-D, ustanawiając go najsilniejszym modelem do rozumowania naukowego w domenie open-source.
Aby wesprzeć tak duży trening uczenia ze wzmocnieniem, zespół opracował nową platformę treningową z wieloma środkami optymalizacji, z których najważniejsze jest wsparcie dla możliwości generowania precyzji FP8.
Etap 5: Krótki trening alignment, skoncentrowany na przestrzeganiu instrukcji i preferencji ludzkich.
Innowacyjna architektura dla zoptymalizowanej wydajności wnioskowania
LN-Super i LN-Ultra wykorzystują framework Puzzle do wyszukiwania architektury neuronowej, aby zoptymalizować wydajność wnioskowania modelu.
Puzzle przekształca duże modele językowe w wersje dostosowane do sprzętu i wydajne, zoptymalizowane pod kątem wdrażania.
Poprzez “blokową destylację lokalną” programiści zbudowali bibliotekę alternatywnych modułów Transformer przy użyciu Llama 3 Instruct.
W tym procesie każdy moduł jest trenowany niezależnie i równolegle, przybliżając funkcjonalność oryginalnego modułu przy jednoczesnej optymalizacji wydajności obliczeniowej.
Każdy alternatywny moduł ma specyficzne kompromisy między “precyzją a wydajnością”. Niektóre moduły są bardziej wydajne, ale mogą skutkować pewnym spadkiem jakości, tworząc wyraźny kompromis między kosztem obliczeniowym a dokładnością modelu.
Te warianty modułów obejmują:
Usuwanie mechanizmu uwagi: Niektóre moduły całkowicie pomijają mechanizm uwagi, zmniejszając ilość obliczeń i zużycie pamięci podręcznej KV.
Zmienne wymiary FFN: Wymiary pośrednie sieci feedforward są dostosowywane, co pozwala na kompresję modelu przy różnej granularności.
Po zbudowaniu biblioteki modułów Puzzle wybiera moduł z każdej warstwy, aby złożyć kompletny model.
Ten proces selekcji jest kontrolowany przez rozwiązywacz programowania mieszanego całkowitoliczbowego (MIP), który znajduje optymalną konfigurację na podstawie ograniczeń, takich jak kompatybilność sprzętowa, maksymalna dopuszczalna latencja, budżet pamięci lub żądana przepustowość wnioskowania.
Kompresja wertykalna i Fuzja FFN
W modelu LN-Ultra badacze wprowadzili FFN Fusion (Feedforward Network Fusion), dodatkową technikę kompresji, aby zmniejszyć głębokość sekwencji modelu i poprawić wydajność latencji rozumowania.
Usunięcie niektórych warstw uwagi przez Puzzle skutkuje unikalną strukturą: w strukturze modelu często pojawia się wiele ciągłych bloków FFN.
FFN Fusion identyfikuje te ciągłe struktury i zastępuje je mniejszą liczbą, ale szerszych, wykonywalnych równolegle warstw FFN.
Ta metoda wymiany zmniejsza liczbę kroków obliczeń sekwencyjnych bez poświęcania ekspresyjności modelu, co znacząco poprawia wykorzystanie zasobów obliczeniowych - zwłaszcza w środowiskach z wieloma procesorami graficznymi, gdzie narzut komunikacji międzywarstwowej jest znaczny.
Model LN-Ultra konsekwentnie przewyższa DeepSeek-R1 i Llama-3.1-405B pod względem dokładności i wydajności, osiągając optymalną równowagę.
Trening po NAS: Destylacja wiedzy i kontynuacja wstępnego treningu
Po fazie wyszukiwania architektury neuronowej (NAS) zarówno LN-Super, jak i LN-Ultra przeszły dodatkowy trening, aby poprawić kompatybilność między modułami i odzyskać wszelkie straty jakości, które mogły wystąpić podczas wymiany modułów.
- LN-Super był trenowany na zbiorze danych Distillation Mix dla 40 miliardów tokenów zgodnie z celem destylacji wiedzy.
- LN-Ultra był początkowo trenowany na tym samym zbiorze danych destylacyjnych dla 65 miliardów tokenów, a następnie kontynuowany trening na zbiorze danych wstępnego treningu czwartego etapu Nemotron-H dla 88 miliardów tokenów.
Ten końcowy etap wstępnego treningu umożliwił LN-Ultra nie tylko dogonienie modelu referencyjnego, Llama 3.1-405B-Instruct, ale także przewyższenie go w kluczowych testach benchmarkowych.
Pokazuje to, że krótka destylacja i wstępny trening mogą osiągnąć kompatybilność między agresywną optymalizacją architektury a wysoką wydajnością modelu.
Nadzorowane dostrajanie: Poprawa umiejętności rozumowania
Nadzorowane dostrajanie (SFT) działa jak “trener osobisty” dla modeli Llama-Nemotron, specjalnie ukierunkowując kroki rozumowania dla konkretnych zadań i ucząc się technik wnioskowania od modeli “gwiazdorskich studentów”, takich jak DeepSeek-R1.
Aby zaszczepić prawdziwe umiejętności rozumowania, niezbędne są dane treningowe rozumowania na dużą skalę i wysokiej jakości.
Dane syntetyczne: Dopasowane do rozumowania
Badacze starannie wyselekcjonowali próbki danych zawierające zarówno dane rozumowania, jak i nierozumowania do nadzorowanego dostrajania.
W przypadku próbek rozumowania dodali “detailed thinking on” do instrukcji systemowych, a w przypadku próbek nierozumowania użyli “detailed thinking off”.
To ustawienie pozwala modelowi przełączać zachowanie rozumowania w oparciu o podpowiedzi podczas fazy rozumowania.
Dane syntetyczne do rozumowania zostały przygotowane w matematyce, kodowaniu i pokrewnych dziedzinach.
Aby wytrenować model do przestrzegania instrukcji “przełącznika rozumowania”, badacze zbudowali sparowane zbiory danych, w których każda podpowiedź odpowiada odpowiedzi z rozumowaniem i jednej bez rozumowania.
To parowanie umożliwia modelowi nauczenie się dostosowywania zachowania rozumowania w oparciu o instrukcje systemowe.
Następne filtrowanie tych odpowiedzi odbywa się na podstawie standardowych odpowiedzi lub modeli nagród.
Proces dostrajania
Wszystkie modele zostały wytrenowane na danych dostrajania instrukcji przy użyciu straty entropii krzyżowej na poziomie tokena.
W większości ustawień treningowych dane rozumowania i nierozumowania są mieszane w celu utworzenia partii treningowych, w których każda podpowiedź jest sparowana z odpowiednią odpowiedzią na podstawie instrukcji systemowych “detailed thinking on/off”.
Rozszerzenie treningu na wiele rund może poprawić wydajność, zwłaszcza w przypadku mniejszych modeli.
NeMo-Aligner został użyty do treningu uczenia ze wzmocnieniem, obsługując GRPO i trening heterogenicznych modeli.
vLLM został użyty do fazy generowania, a Megatron-LM został użyty do fazy treningowej.
Fazy treningowa i rozumowania współdzieliły tę samą partię procesorów graficznych, ukończone na tym samym urządzeniu.
Cały proces treningowy wykorzystywał 72 węzły, każdy wyposażony w 8 procesorów graficznych H100.
Faza generowania wykorzystywała precyzję FP8, faza treningowa wykorzystywała precyzję BF16, a stan optymalizatora wykorzystywał FP32.
Każda faza utrzymywała niezależną wagę modelu, która była synchronizowana na początku każdego kroku.
Uczenie ze wzmocnieniem: Klucz do przewyższenia zdolności rozumowania R1
Nadzorowane dostrajanie (SFT) umożliwia modelowi wydobywanie wiedzy z potężnych modeli nauczycielskich, osiągając doskonałe możliwości.
Jednak destylacja wiedzy z natury ogranicza wydajność modelu studenta, szczególnie gdy zdolność modelu bazowego studenta nie przekracza zdolności modelu nauczyciela.
Dzięki nadzorowanemu dostrajaniu wydajność LN-Ultra może zbliżyć się do DeepSeek-R1, ale nie może go przewyższyć.
Uczenie ze wzmocnieniem (RL) na dużą skalę jest realną metodą, aby umożliwić modelowi studenta przewyższenie modelu nauczyciela, ponieważ pozwala modelowi na ciągłe odkrywanie nowych możliwości i samouczenie się.
Ze względu na ograniczenia zasobów badacze zastosowali RL rozumowania tylko do LN-Ultra, co zaowocowało modelem studenta, który przewyższył model nauczyciela.
W trakcie procesu treningu uczenia ze wzmocnieniem rozumowania poprawiła się dokładność LN-Ultra w zbiorze danych GPQA-Diamond.
Proces treningowy: Nacisk na rozumowanie naukowe
W przypadku LN-Ultra badacze zwiększyli jego zdolność rozumowania naukowego poprzez uczenie ze wzmocnieniem (RL) na dużą skalę, przy użyciu algorytmu Grouped Relative Policy Optimization (GRPO), tego samego, którego używa DeepSeek-R1.
Cały proces treningowy wymagał około 140 000 godzin H100, ciągle trenując model, aż zbiegł się on w zadaniach rozumowania.
Projekt mechanizmu nagradzania obejmował dwie kategorie:
- Nagroda za dokładność: Na podstawie standardowych odpowiedzi (numerycznych/zdaniowych/akapitowych), wywołując model Llama-3.3-70B-Instruct ocenia stopień dopasowania wyników prognozy.
- Nagroda za format: Zgodnie ze schematem DeepSeek-AI model jest zmuszany do owijania procesu rozumowania tagami <think\> w trybie “detailed thinking”, a pojawianie się takich tagów jest zabronione w trybie nierozwiniętego myślenia.
Zespół badawczy również wstępnie przetworzył dane, w tym filtrowanie danych i trening programu nauczania.
- Przesiewanie danych: LN-Super jest używany z wyprzedzeniem do generowania 8 odpowiedzi na każde pytanie, a proste próbki z współczynnikiem przepuszczalności ≥ 75% są usuwane.
- Trening programu nauczania: Przyjęto progresywną alokację partii na podstawie współczynnika przepuszczalności.
Dystrybucja dynamiczna: Modelowanie trudności partii za pomocą funkcji Gaussa, początkowo skupiając się na próbkach o wysokim współczynniku przepuszczalności (proste), a później przechodząc do próbek o niskim współczynniku przepuszczalności (trudne).
Logika uzupełniania: Próbki są alokowane najpierw zgodnie z docelową dystrybucją, a pozostała pojemność jest uzupełniana z największej pozostałej puli próbek.
Przetwarzanie wewnątrzpartii: Próbki w tej samej partii są losowo tasowane w celu utrzymania różnorodności.
Uczenie ze wzmocnieniem dla optymalizacji preferencji
Po zakończeniu treningu rozumowania naukowego badacze przeprowadzili krótką fazę uczenia ze wzmocnieniem dla modeli LN-Super i LN-Ultra, koncentrując się na poprawie ich zdolności do przestrzegania instrukcji.
Badacze użyli również RLHF, aby zoptymalizować ogólne możliwości pomocy i wydajność czatu modeli, przy zachowaniu możliwości modeli w matematyce, naukach ścisłych i innych dziedzinach.
LN-Super osiągnął wysoki wynik 88,3 w teście Arena Hard, przewyższając zastrzeżone modele, takie jak Claude 3.5 Sonnet i GPT-4o-2024-05-13, a także lepszy niż większe modele open-source.
Aby osiągnąć ten wynik, przyjęli metodę “OnLine Reward-Policy Optimization“, maksymalizując nagrodę przewidywania modelu na zbiorze danych HelpSteer2. Użyty model nagrody to Llama-3.1-Nemotron-70B-Reward.
Dwie rundy treningu online RPO zwiększyły wynik Arena Hard z 69,1 do 88,1.
W przypadku LN-Ultra zastosowali podobny proces, ale przyjęli GRPO.
W przypadku LN-Nano przeprowadzili dwie rundy treningu offline RPO, wykorzystując dane treningowe generowane przez zasady.
Pierwsza runda połączyła dane rozumowania i nierozumowania z odpowiednimi poleceniami systemowymi, aby zoptymalizować zdolność kontroli rozumowania modelu. Druga runda skupiła się na poprawie zdolności przestrzegania instrukcji.
Wyniki oceny: Kompleksowa ocena
Badacze ocenili wydajność wszystkich modeli Llama-Nemotron w dwóch kategoriach benchmarkowych: zadaniach rozumowania i zadaniach nierozumowania.
Benchmarki rozumowania obejmowały: AIME24 i AIME25, GPQA-Diamond, LiveCodeBench i MATH500.
Benchmarki nierozumowania obejmowały: IFEval do oceny przestrzegania instrukcji, BFCL V2 Live do oceny użycia narzędzi wywołania funkcji oraz Arena-Hard do oceny zgodności z preferencjami konwersacji międzyludzkiej.
LN-Nano osiągnął doskonałą wydajność we wszystkich benchmarkach rozumowania, pomimo niewielkich rozmiarów.
To pokazuje, że nadzorowane procesy dostrajania i dobrze wyselekcjonowane zbiory danych rozumowania są skuteczne w przenoszeniu ustrukturyzowanych zdolności rozumowania na mniejsze modele.
LN-Super wykazał dużą konkurencyjność zarówno w zadaniach rozumowania, jak i nierozumowania w porównaniu z innymi modelami o podobnej skali parametrów.
W trybie “reasoning off” wydajność LN-Super była porównywalna z jego destylowanym modelem źródłowym, Llama-3.3-70B; w trybie “reasoning on” przewyższył inne konkurencyjne modele, takie jak DeepSeek-R1-Distilled-Llama-70B, wykazując silną zdolność rozumowania przy zachowaniu dobrej zdolności przestrzegania instrukcji.
Wyniki te wskazują, że LN-Super to wszechstronny model, który łączy zalety modeli zoptymalizowanych pod kątem rozumowania i modeli nierozumowania, dzięki czemu nadaje się do codziennych zadań asystenckich i ustrukturyzowanych zadań rozumowania.
LN-Ultra działał na równi lub lepiej niż wszystkie istniejące modele o otwartych wagach w benchmarkach rozumowania i nierozumowania. Osiągnął najbardziej zaawansowany poziom w modelach open-source na GPQA, w pełni demonstrując skuteczność metod treningowych uczenia ze wzmocnieniem na dużą skalę, które opracowali badacze Nvidii.
W przeciwieństwie do DeepSeek-R1, który wymaga konfiguracji sprzętowej 8×H200, LN-Ultra jest zoptymalizowany do wydajnego działania na pojedynczym węźle 8×H100, zapewniając wyższą przepustowość rozumowania i wydajność wdrażania.
Faza SFT LN-Ultra zbliżyła się lub osiągnęła wydajność DeepSeek-R1 w wielu benchmarkach rozumowania (w tym GPQA i AIME).
Oprócz zdolności rozumowania i dialogowych, do których model był pierwotnie trenowany, przetestowano również model w zadaniu dystrybucji.
W szczególności model został przetestowany na zbiorze danych JudgeBench, wymagając od niego rozróżnienia między odpowiedziami wysokiej jakości i niskiej jakości.
Nowy model przewyższył obecne najlepsze modele zastrzeżone i open-source w tym zadaniu.
LN-Ultra stał się najlepiej działającym modelem open-source, znacznie przewyższając DeepSeek-R1, ustępując jedynie zastrzeżonemu modelowi o3-mini(high).
Ponadto wydajność LN-Super również przekroczyła o1-mini, co wskazuje, że nowy model ma silną zdolność uogólniania w różnych zadaniach.