Nvidia’s Llama-Nemotron serie modellen hebben officieel DeepSeek-R1 overtroffen, en de details van hun training zijn volledig openbaar gemaakt, wat inzichten biedt in hoe deze modellen werden ontwikkeld om superieure prestaties te bereiken.
Deze modellen zijn nu volledig open-source, wat een significante vooruitgang markeert in toegankelijke AI-technologie. Dit betekent dat een reeks inferentiemodellen die DeepSeek-R1 significant overtreffen in termen van inferentiedoortvoer en geheugenefficiëntie nu beschikbaar zijn voor iedereen om te gebruiken en aan te passen.
Onthulling van de geheimen achter het succes van het model
Dus, hoe zijn deze modellen, die DeepSeek-R1 overtreffen, precies gecreëerd? Nvidia’s technisch rapport onthult de kritieke elementen van hun trainingsproces:
- Supervised Fine-Tuning met Synthetic Data + Reinforcement Learning: Deze combinatie verbetert de redeneervermogens van het model significant.
- Comprehensive Post-Training Process: Een robuust en goed ontworpen post-trainingsproces is cruciaal voor het optimaliseren van de prestaties van het model.
Vorige maand kondigde Nvidia officieel de Llama-Nemotron 253B aan, die snel Llama 4 overschaduwde (die slechts drie dagen oud was en een "integriteitscrisis" ondervond als gevolg van leaderboard-manipulatie). De release van deze serie modellen veroorzaakte nogal wat opschudding in de industrie.
Volgens de Artificial Analysis Intelligence Index wordt Llama-Nemotron-Ultra momenteel beschouwd als het "meest intelligente" open-source model vanaf april 2025.
Nvidia lanceerde drie modellen in de Llama-Nemotron serie: LN-Nano 8B, LN-Super 49B en LN-Ultra 253B.
Opmerkelijk is dat LN-Ultra niet alleen DeepSeek-R1 overtreft in prestaties, maar ook draait op een enkele 8xH100 node, wat hogere inferentiedoortvoer levert.
Deze modellen zijn geoptimaliseerd voor hoge-doorvoer inferentie, terwijl ze sterke redeneervermogens en een contextlengte tot 128K behouden.
Bovendien heeft Nvidia een baanbrekende inference switch feature geïntroduceerd in de wereldwijde AI open-source community. Gebruikers kunnen dynamisch schakelen tussen de standaard chatmodus en de redeneermodus met behulp van de systeemprompt "detailed thinking on/off".
Dit ontwerp stelt het model in staat om te voldoen aan algemene dagelijkse behoeften en complexe, meerstaps redeneertaken af te handelen zonder dat er verschillende modellen of architecturen nodig zijn.
Het constructieproces: Een vijf-fasen aanpak
De constructie van de Llama-Nemotron modellen is verdeeld in vijf verschillende fasen:
Fase 1: Optimalisatie van redeneerefficiëntie met behulp van neural architecture search (NAS) gebaseerd op de Llama 3 serie modellen, met de introductie van Feedforward Network Fusion (FFN Fusion).
Fase 2: Herstel van modelprestaties door middel van knowledge distillation en voortgezet pre-training.
Fase 3: Supervised fine-tuning (SFT), die standaard instructiedata combineert met redeneerprocessen van krachtige teacher modellen zoals DeepSeek-R1, waardoor het model in staat wordt gesteld om meerstaps redeneringen uit te voeren.
Fase 4: Grootschalige reinforcement learning op complexe wiskundige en STEM datasets, wat cruciaal is voor het student model om de mogelijkheden van het teacher model te overtreffen. Voor LN-Ultra verbetert deze fase de prestaties significant op de GPQA-D benchmark, waardoor het wordt gevestigd als het sterkste model voor wetenschappelijk redeneren in het open-source domein.
Om dergelijke grootschalige reinforcement learning training te ondersteunen, ontwikkelde het team een nieuw trainingsframework met meerdere optimalisatiemaatregelen, met name ter ondersteuning van FP8 precisie generatie mogelijkheden.
Fase 5: Een korte alignment training gericht op het volgen van instructies en het naleven van menselijke voorkeuren.
Innovatieve architectuur voor geoptimaliseerde inferentie-efficiëntie
LN-Super en LN-Ultra maken gebruik van het Puzzle framework voor neural architecture search om de inferentie-efficiëntie van het model te optimaliseren.
Puzzle transformeert grote taalmodellen in hardware-aangepaste, efficiënte versies, geoptimaliseerd voor deployment.
Door middel van "block-by-block local distillation," bouwden ontwikkelaars een bibliotheek van alternatieve Transformer modules met behulp van Llama 3 Instruct.
In dit proces wordt elke module onafhankelijk en parallel getraind, de functionaliteit van de originele module benaderend terwijl de computationele prestaties worden geoptimaliseerd.
Elke alternatieve module heeft specifieke "precisie-efficiëntie" trade-offs. Sommige modules zijn efficiënter, maar kunnen resulteren in een zekere kwaliteitsafname, wat een duidelijke trade-off creëert tussen computationele kosten en modelnauwkeurigheid.
Deze modulevariaties omvatten:
Attention Mechanism Removal: Sommige modules laten het attention mechanisme volledig weg, waardoor de hoeveelheid computation en KV cache geheugenverbruik wordt verminderd.
Variable FFN Dimensions: De intermediaire dimensies van de feedforward netwerken worden aangepast, waardoor modelcompressie op verschillende granulariteiten mogelijk is.
Na het bouwen van de modulebibliotheek selecteert Puzzle een module uit elke laag om een compleet model samen te stellen.
Dit selectieproces wordt gecontroleerd door een mixed-integer programming (MIP) solver, die de optimale configuratie vindt op basis van beperkingen zoals hardwarecompatibiliteit, maximaal toegestane latency, geheugenbudget of gewenste inferentiedoortvoer.
Vertical Compression en FFN Fusion
In het LN-Ultra model introduceerden onderzoekers FFN Fusion (Feedforward Network Fusion), een extra compressietechniek om de sequentiediepte van het model te verminderen en de redeneerlatency-efficiëntie te verbeteren.
Puzzle’s verwijdering van sommige attention lagen resulteert in een unieke structuur: meerdere continue FFN blocks verschijnen frequent in de modelstructuur.
FFN Fusion identificeert deze continue structuren en vervangt ze door minder maar bredere, parallel uitvoerbare FFN lagen.
Deze vervangingsmethode reduceert de stappen van sequentiële berekening zonder de modellenexpressiviteit op te offeren, wat de benutting van computerbronnen significant verbetert - vooral in multi-GPU omgevingen, waar cross-layer communicatie overhead significant is.
Het LN-Ultra model presteert consistent beter dan DeepSeek-R1 en Llama-3.1-405B in termen van nauwkeurigheid en efficiëntie, en bereikt een optimaal evenwicht.
Post-NAS Training: Knowledge Distillation en Voortgezet Pre-training
Na de neural architecture search (NAS) fase ondergingen zowel LN-Super als LN-Ultra extra training om de compatibiliteit tussen modules te verbeteren en eventueel kwaliteitsverlies dat mogelijk is opgetreden tijdens de modulevervanging te herstellen.
- LN-Super werd getraind op de Distillation Mix dataset voor 40 miljard tokens onder de knowledge distillation objective.
- LN-Ultra werd aanvankelijk getraind op dezelfde distillation dataset voor 65 miljard tokens, gevolgd door voortgezette training op de Nemotron-H vierde-fase pre-training dataset voor 88 miljard tokens.
Deze laatste pre-training stap stelde LN-Ultra in staat om niet alleen het referentiemodel, Llama 3.1-405B-Instruct, in te halen, maar het ook te overtreffen in belangrijke benchmarktests.
Dit laat zien dat korte distillatie en pre-training compatibiliteit kunnen bereiken tussen agressieve architecturale optimalisatie en hoge modelprestaties.
Supervised Fine-Tuning: Verfijning van Redeneerkracht
Supervised Fine-Tuning (SFT) fungeert als een "personal trainer" voor de Llama-Nemotron modellen, specifiek gericht op redeneerstappen voor bepaalde taken en het leren van inferentietechnieken van "sterstudent" modellen zoals DeepSeek-R1.
Om daadwerkelijke redeneervaardigheden te verwerven, zijn grootschalige, hoogwaardige redeneertrainingsdata essentieel.
Synthetic Data: Op maat gemaakt voor Redeneren
Onderzoekers hebben zorgvuldig datastalen samengesteld die zowel redeneren als niet-redeneren data bevatten voor supervised fine-tuning.
Voor redeneervoorbeelden voegden ze "detailed thinking on" toe aan de systeeminstructies, terwijl ze voor niet-redeneervoorbeelden "detailed thinking off" gebruikten.
Deze instelling stelt het model in staat om het redeneergedrag te schakelen op basis van prompts tijdens de redeneerfase.
Synthetische data voor redeneren werd voorbereid in wiskunde, codering en aanverwante gebieden.
Om het model te trainen om de "redeneerschakelaar" instructies te volgen, bouwden onderzoekers gepaarde datasets, waarbij elke prompt overeenkomt met een reactie met redenering en één zonder redenering.
Deze koppeling stelt het model in staat om te leren het redeneergedrag aan te passen op basis van systeeminstructies.
Daaropvolgende filtering van deze reacties wordt uitgevoerd op basis van standaardantwoorden of reward modellen.
Fine-Tuning Proces
Alle modellen werden getraind op instructie fine-tuning data met behulp van token-level cross-entropy loss.
In de meeste trainingsinstellingen worden redeneren en niet-redeneren data gemengd om trainingsbatches te vormen, waarbij elke prompt wordt gekoppeld aan een overeenkomstige reactie op basis van de "detailed thinking on/off" systeeminstructies.
Het uitbreiden van de training naar meerdere rondes kan de prestaties verbeteren, vooral voor kleinere modellen.
NeMo-Aligner werd gebruikt voor reinforcement learning training, ter ondersteuning van GRPO en training van heterogene modellen.
vLLM werd gebruikt voor de generatiefase en Megatron-LM werd gebruikt voor de trainingsfase.
Trainings- en redeneerfasen deelden dezelfde batch GPU’s, voltooid op hetzelfde apparaat.
Het hele trainingsproces gebruikte 72 nodes, elk uitgerust met 8 H100 GPU’s.
De generatiefase gebruikte FP8 precisie, de trainingsfase gebruikte BF16 precisie en de optimizer staat gebruikte FP32.
Elke fase behield een onafhankelijk modelgewicht, dat aan het begin van elke stap werd gesynchroniseerd.
Reinforcement Learning: De sleutel tot het overtreffen van R1’s Redeneervermogen
Supervised fine-tuning (SFT) stelt het model in staat om kennis te extraheren uit krachtige teacher modellen, waardoor uitstekende mogelijkheden worden bereikt.
Echter, knowledge distillation legt inherent een limiet op de prestaties van het student model, vooral wanneer de basismogelijkheid van het student model niet groter is dan die van het teacher model.
Door middel van supervised fine-tuning kunnen de prestaties van LN-Ultra DeepSeek-R1 benaderen, maar het niet overtreffen.
Grootschalige reinforcement learning (RL) is een haalbare methode om het student model in staat te stellen het teacher model te overtreffen, omdat het het model in staat stelt om continu nieuwe mogelijkheden te verkennen en zelf te leren.
Vanwege resourcebeperkingen pasten onderzoekers reasoning RL alleen toe op LN-Ultra, wat resulteerde in een student model dat het teacher model overtrof.
Gedurende het reasoning reinforcement learning trainingsproces verbeterde de nauwkeurigheid van LN-Ultra op de GPQA-Diamond dataset.
Trainingsproces: Een focus op Wetenschappelijk Redeneren
Voor LN-Ultra verbeterden onderzoekers het wetenschappelijk redeneervermogen door middel van grootschalige reinforcement learning (RL), met behulp van het Grouped Relative Policy Optimization (GRPO) algoritme, hetzelfde dat door DeepSeek-R1 wordt gebruikt.
Het hele trainingsproces vereiste ongeveer 140.000 H100 uren, waarbij het model continu werd getraind totdat het convergeerde op redeneertaken.
Het reward mechanisme ontwerp omvatte twee categorieën:
- Accuracy Reward: Gebaseerd op de standaardantwoorden (numeriek/zin/paragraaf), waarbij het Llama-3.3-70B-Instruct model de overeenkomingsgraad van de voorspellingsresultaten beoordeelt.
- Format Reward: Volgens het DeepSeek-AI schema wordt het model gedwongen om het redeneerproces te omhullen met <think\> tags in de "detailed thinking" modus, en het verschijnen van dergelijke tags is verboden in de niet-detailed thinking modus.
Het onderzoeksteam heeft ook de data voorbewerkt, inclusief data filtering en curriculum training.
- Data Screening: LN-Super wordt van tevoren gebruikt om 8 reacties voor elke vraag te genereren en eenvoudige voorbeelden met een pass rate ≥ 75% worden verwijderd.
- Curriculum Training: Progressieve batchallocatie op basis van pass rate wordt toegepast.
Dynamic Distribution: Modellering van batch moeilijkheidsgraad met een Gaussische functie, aanvankelijk gericht op samples met een hoge pass-rate (eenvoudig) en later verschuivend naar samples met een lage pass-rate (moeilijk).
Padding Logic: Samples worden eerst toegewezen volgens de doeldistributie en de resterende capaciteit wordt aangevuld uit de grootste resterende samplepool.
Intra-Batch Processing: Samples in dezelfde batch worden willekeurig geschud om diversiteit te behouden.
Reinforcement Learning voor Voorkeursoptimalisatie
Na het voltooien van de wetenschappelijke redeneertraining voerden onderzoekers een korte reinforcement learning fase uit voor de LN-Super en LN-Ultra modellen, gericht op het verbeteren van hun instructie-volgende vaardigheden.
Onderzoekers gebruikten ook RLHF om de algemene help-mogelijkheden en chatprestaties van de modellen te optimaliseren, terwijl de mogelijkheden van de modellen op het gebied van wiskunde, wetenschap en andere gebieden behouden bleven.
LN-Super behaalde een hoge score van 88.3 in de Arena Hard test, beter presterend dan proprietary modellen zoals Claude 3.5 Sonnet en GPT-4o-2024-05-13, en ook beter dan grotere open-source modellen.
Om dit resultaat te bereiken, namen ze de methode "OnLine Reward-Policy Optimization" aan, waarbij de voorspellingsbeloning van het model op de HelpSteer2 dataset werd gemaximaliseerd. Het gebruikte reward model was Llama-3.1-Nemotron-70B-Reward.
Twee rondes online RPO training verhoogden de Arena Hard score van 69.1 naar 88.1.
Voor LN-Ultra gebruikten ze een vergelijkbaar proces, maar namen ze GRPO aan.
Voor LN-Nano voerden ze twee rondes offline RPO training uit, met behulp van door het beleid gegenereerde trainingsdata.
De eerste ronde combineerde redeneer- en niet-redeneerdata met passende systeemprompts om het redeneercontrolevermogen van het model te optimaliseren. De tweede ronde was gericht op het verbeteren van instructie-volgende vaardigheden.
Evaluatieresultaten: Een Uitgebreide Beoordeling
Onderzoekers evalueerden de prestaties van alle Llama-Nemotron modellen op twee benchmarkcategorieën: redeneertaken en niet-redeneertaken.
Redeneerbenchmarks omvatten: AIME24 en AIME25, GPQA-Diamond, LiveCodeBench en MATH500.
Niet-redeneerbenchmarks omvatten: IFEval voor instructie-volgende evaluatie, BFCL V2 Live voor functieaanroep tool gebruiksevaluatie en Arena-Hard voor het evalueren van afstemming op menselijke conversatievoorkeuren.
LN-Nano behaalde uitstekende prestaties in alle redeneerbenchmarks, ondanks zijn kleine formaat.
Dit demonstreert dat supervised fine-tuning processen en goed samengestelde redeneerdatasets effectief zijn in het overdragen van gestructureerde redeneervaardigheden naar kleinere modellen.
LN-Super toonde sterke concurrentiekracht in zowel redeneer- als niet-redeneertaken in vergelijking met andere modellen van vergelijkbare parameterschaal.
In de "reasoning off" modus waren de prestaties van LN-Super vergelijkbaar met het gedistilleerde bronmodel, Llama-3.3-70B; in de "reasoning on" modus presteerde het beter dan andere concurrerende modellen, zoals DeepSeek-R1-Distilled-Llama-70B, wat een sterk redeneervermogen aantoont met behoud van goede instructie-volgende vaardigheden.
Deze resultaten geven aan dat LN-Super een veelzijdig model is dat de voordelen van redeneer-geoptimaliseerde modellen en niet-redeneermodellen combineert, waardoor het geschikt is voor dagelijkse assistent taken en gestructureerde redeneertaken.
LN-Ultra presteerde gelijkwaardig of beter dan alle bestaande open-source gewichtmodellen in redeneer- en niet-redeneerbenchmarks. Het bereikte het meest geavanceerde niveau in open-source modellen op GPQA, wat de effectiviteit van de grootschalige reinforcement learning trainingsmethoden van Nvidia-onderzoekers volledig demonstreert.
In tegenstelling tot DeepSeek-R1, dat een 8×H200 hardwareconfiguratie vereist, is LN-Ultra geoptimaliseerd om efficiënt te draaien op een enkele 8×H100 node, wat een hogere redeneerdoorvoer en deployment-efficiëntie biedt.
De SFT fase van LN-Ultra heeft de prestaties van DeepSeek-R1 op meerdere redeneerbenchmarks (waaronder GPQA en AIME) benaderd of bereikt.
Naast de redeneer- en dialoogmogelijkheden waarvoor het model oorspronkelijk was getraind, hebben ze het model ook getest op een distributietaak.
Specifiek werd het model getest op de JudgeBench dataset, waarbij het hoogwaardige en laagwaardige antwoorden van elkaar moest onderscheiden.
Het nieuwe model presteerde beter dan de huidige top proprietary en open-source modellen op deze taak.
LN-Ultra werd het best presterende open-source model, dat DeepSeek-R1 significant overtrof en slechts tweede was na het proprietary model o3-mini(high).
Daarnaast overtroffen de prestaties van LN-Super ook o1-mini, wat aangeeft dat het nieuwe model een sterk generalisatievermogen heeft in verschillende taken.