Nvidias Llama-Nemotron-Serie übertrifft offiziell DeepSeek-R1. Details ihres Trainings wurden vollständig offengelegt und bieten Einblicke, wie diese Modelle entwickelt wurden, um überlegene Leistungen zu erzielen.
Diese Modelle sind jetzt vollständig Open Source, was einen bedeutenden Fortschritt in der zugänglichen KI-Technologie darstellt. Das bedeutet, dass eine Reihe von Inferenzmodellen, die DeepSeek-R1 in Bezug auf Inferenzdurchsatz und Speichereffizienz deutlich übertreffen, nun für jedermann zur Nutzung und Veränderung verfügbar sind.
Enthüllung der Geheimnisse hinter dem Erfolg des Modells
Wie genau wurden diese Modelle, die DeepSeek-R1 übertreffen, erstellt? Der technische Bericht von Nvidia enthüllt die kritischen Elemente ihres Trainingsprozesses:
- Supervised Fine-Tuning mit synthetischen Daten + Reinforcement Learning: Diese Kombination verbessert die Argumentationsfähigkeiten des Modells erheblich.
- Umfassender Post-Training-Prozess: Ein robuster und gut gestalteter Post-Training-Prozess ist entscheidend für die Optimierung der Leistung des Modells.
Letzten Monat kündigte Nvidia offiziell das Llama-Nemotron 253B an, das Llama 4 schnell in den Schatten stellte (das nur drei Tage alt war und aufgrund von Leaderboard-Manipulationen einer “Integritätskrise” ausgesetzt war). Die Veröffentlichung dieser Modellreihe sorgte in der Branche für Aufsehen.
Laut dem Artificial Analysis Intelligence Index gilt Llama-Nemotron-Ultra ab April 2025 derzeit als das “intelligenteste” Open-Source-Modell.
Nvidia hat drei Modelle der Llama-Nemotron-Serie auf den Markt gebracht: LN-Nano 8B, LN-Super 49B und LN-Ultra 253B.
Insbesondere übertrifft LN-Ultra DeepSeek-R1 nicht nur in der Leistung, sondern läuft auch auf einem einzigen 8xH100-Knoten und liefert einen höheren Inferenzdurchsatz.
Diese Modelle sind für einen hohen Inferenzdurchsatz optimiert und bieten gleichzeitig starke Argumentationsfähigkeiten und eine Kontextlänge von bis zu 128K.
Darüber hinaus hat Nvidia eine bahnbrechende Funktion für den Inferenzwechsel in der globalen KI-Open-Source-Community eingeführt. Benutzer können dynamisch zwischen dem Standard-Chat-Modus und dem Argumentationsmodus wechseln, indem sie den System-Prompt “detailed thinking on/off” verwenden.
Dieses Design ermöglicht es dem Modell, allgemeine alltägliche Bedürfnisse zu erfüllen und komplexe, mehrschrittige Argumentationsaufgaben zu bewältigen, ohne dass verschiedene Modelle oder Architekturen erforderlich sind.
Der Konstruktionsprozess: Ein Fünf-Stufen-Ansatz
Der Aufbau der Llama-Nemotron-Modelle ist in fünf verschiedene Stufen unterteilt:
Stufe 1: Optimierung der Argumentationseffizienz unter Verwendung der neuronalen Architektursuche (NAS) basierend auf den Modellen der Llama-3-Serie, mit der Einführung von Feedforward Network Fusion (FFN Fusion).
Stufe 2: Wiederherstellung der Modellleistung durch Wissensdestillation und fortgesetztes Pre-Training.
Stufe 3: Supervised Fine-Tuning (SFT), das Standard-Instruktionsdaten mit Argumentationsprozessen von leistungsstarken Lehrermodellen wie DeepSeek-R1 kombiniert, wodurch das Modell in der Lage ist, mehrschrittige Argumentationen durchzuführen.
Stufe 4: Großflächiges Reinforcement Learning auf komplexen mathematischen und MINT-Datensätzen, das entscheidend dafür ist, dass das Schülermodell die Fähigkeiten des Lehrermodells übertrifft. Für LN-Ultra verbessert diese Stufe die Leistung auf dem GPQA-D-Benchmark erheblich und etabliert es als das stärkste Modell für wissenschaftliche Argumentation im Open-Source-Bereich.
Um ein so umfangreiches Reinforcement-Learning-Training zu unterstützen, entwickelte das Team ein neues Trainingsframework mit mehreren Optimierungsmaßnahmen, das vor allem die FP8-Präzisionsgenerierungsfähigkeit unterstützt.
Stufe 5: Ein kurzes Alignment-Training, das sich auf das Befolgen von Anweisungen und das Einhalten menschlicher Präferenzen konzentriert.
Innovative Architektur für optimierte Inferenz-Effizienz
LN-Super und LN-Ultra nutzen das Puzzle-Framework für die neuronale Architektursuche, um die Modell-Inferenz-Effizienz zu optimieren.
Puzzle wandelt große Sprachmodelle in hardwareangepasste, effiziente Versionen um, die für die Bereitstellung optimiert sind.
Durch die “Block-by-Block-Lokale Destillation” erstellten die Entwickler eine Bibliothek mit alternativen Transformer-Modulen mithilfe von Llama 3 Instruct.
In diesem Prozess wird jedes Modul unabhängig und parallel trainiert und nähert sich der Funktionalität des ursprünglichen Moduls an, während die Rechenleistung optimiert wird.
Jedes alternative Modul hat spezifische “Präzisions-Effizienz”-Kompromisse. Einige Module sind effizienter, können aber zu einem gewissen Qualitätsverlust führen, wodurch ein klarer Kompromiss zwischen Rechenkosten und Modellgenauigkeit entsteht.
Diese Modulvarianten umfassen:
Entfernung des Aufmerksamkeitsmechanismus: Einige Module lassen den Aufmerksamkeitsmechanismus vollständig aus, wodurch die Berechnungsmenge und der KV-Cache-Speicherverbrauch reduziert werden.
Variable FFN-Dimensionen: Die Zwischendimensionen der Feedforward-Netzwerke werden angepasst, was eine Modellkomprimierung in verschiedenen Granularitäten ermöglicht.
Nach dem Aufbau der Modulbibliothek wählt Puzzle aus jeder Schicht ein Modul aus, um ein vollständiges Modell zusammenzustellen.
Dieser Auswahlprozess wird von einem gemischt-ganzzahligen Programmierungslöser (MIP) gesteuert, der die optimale Konfiguration basierend auf Einschränkungen wie Hardwarekompatibilität, maximal zulässiger Latenz, Speicherbudget oder gewünschtem Inferenzdurchsatz findet.
Vertikale Komprimierung und FFN-Fusion
Im LN-Ultra-Modell führten die Forscher FFN Fusion (Feedforward Network Fusion) ein, eine zusätzliche Komprimierungstechnik, um die Sequenztiefe des Modells zu reduzieren und die Argumentationslatenzeffizienz zu verbessern.
Die Entfernung einiger Aufmerksamkeitsebenen durch Puzzle führt zu einer einzigartigen Struktur: Mehrere kontinuierliche FFN-Blöcke erscheinen häufig in der Modellstruktur.
FFN Fusion identifiziert diese kontinuierlichen Strukturen und ersetzt sie durch weniger, aber breitere, parallel ausführbare FFN-Ebenen.
Diese Ersatzmethode reduziert die Schritte der sequentiellen Berechnung, ohne die Ausdrucksstärke des Modells zu beeinträchtigen, was die Nutzung von Rechenressourcen erheblich verbessert - insbesondere in Multi-GPU-Umgebungen, in denen der Kommunikationsaufwand zwischen den Ebenen erheblich ist.
Das LN-Ultra-Modell übertrifft DeepSeek-R1 und Llama-3.1-405B in Bezug auf Genauigkeit und Effizienz durchweg und erzielt ein optimales Gleichgewicht.
Post-NAS-Training: Wissensdestillation und fortgesetztes Pre-Training
Nach der neuronalen Architektursuche (NAS) wurden sowohl LN-Super als auch LN-Ultra zusätzlich trainiert, um die Kompatibilität zwischen den Modulen zu verbessern und etwaige Qualitätsverluste wiederherzustellen, die während des Modulaustauschs aufgetreten sein könnten.
- LN-Super wurde auf dem Distillation Mix-Datensatz für 40 Milliarden Token unter dem Ziel der Wissensdestillation trainiert.
- LN-Ultra wurde zunächst auf dem gleichen Destillationsdatensatz für 65 Milliarden Token trainiert, gefolgt von einem fortgesetzten Training auf dem Nemotron-H-Pre-Training-Datensatz der vierten Stufe für 88 Milliarden Token.
Dieser abschließende Pre-Training-Schritt ermöglichte es LN-Ultra nicht nur, das Referenzmodell Llama 3.1-405B-Instruct einzuholen, sondern es auch in wichtigen Benchmark-Tests zu übertreffen.
Dies zeigt, dass kurze Destillation und Pre-Training die Kompatibilität zwischen aggressiver architektonischer Optimierung und hoher Modellleistung erreichen können.
Supervised Fine-Tuning: Verfeinerung der Argumentationsfähigkeiten
Supervised Fine-Tuning (SFT) fungiert als “persönlicher Trainer” für die Llama-Nemotron-Modelle, wobei gezielt Argumentationsschritte für bestimmte Aufgaben trainiert und Inferenztechniken von “Musterschüler”-Modellen wie DeepSeek-R1 gelernt werden.
Um echte Argumentationsfähigkeiten zu vermitteln, sind umfangreiche, qualitativ hochwertige Argumentationstrainingsdaten unerlässlich.
Synthetische Daten: Zugeschnitten auf die Argumentation
Die Forscher kuratierten sorgfältig Datenstichproben, die sowohl Argumentations- als auch Nicht-Argumentationsdaten für das Supervised Fine-Tuning enthielten.
Für Argumentationsstichproben fügten sie den Systemanweisungen “detailed thinking on” hinzu, während sie für Nicht-Argumentationsstichproben “detailed thinking off” verwendeten.
Diese Einstellung ermöglicht es dem Modell, das Argumentationsverhalten während der Argumentationsphase basierend auf Prompts umzuschalten.
Synthetische Daten für die Argumentation wurden in Mathematik, Programmierung und verwandten Bereichen erstellt.
Um das Modell zu trainieren, den “Argumentationsschalter”-Anweisungen zu folgen, erstellten die Forscher gepaarte Datensätze, wobei jeder Prompt einer Antwort mit Argumentation und einer ohne Argumentation entspricht.
Diese Paarung ermöglicht es dem Modell, zu lernen, sein Argumentationsverhalten basierend auf Systemanweisungen anzupassen.
Die anschließende Filterung dieser Antworten erfolgt basierend auf Standardantworten oder Belohnungsmodellen.
Fine-Tuning-Prozess
Alle Modelle wurden auf Instruktions-Fine-Tuning-Daten unter Verwendung des Token-Level-Cross-Entropy-Verlusts trainiert.
In den meisten Trainingseinstellungen werden Argumentations- und Nicht-Argumentationsdaten gemischt, um Trainings-Batches zu bilden, wobei jeder Prompt mit einer entsprechenden Antwort basierend auf den Systemanweisungen “detailed thinking on/off” gepaart wird.
Die Ausweitung des Trainings auf mehrere Runden kann die Leistung verbessern, insbesondere bei kleineren Modellen.
NeMo-Aligner wurde für das Reinforcement-Learning-Training verwendet und unterstützte GRPO und das Training heterogener Modelle.
vLLM wurde für die Generierungsphase und Megatron-LM für die Trainingsphase verwendet.
Trainings- und Argumentationsphasen teilten sich den gleichen Batch von GPUs, die auf demselben Gerät abgeschlossen wurden.
Der gesamte Trainingsprozess nutzte 72 Knoten, von denen jeder mit 8 H100-GPUs ausgestattet war.
Die Generierungsphase verwendete FP8-Präzision, die Trainingsphase verwendete BF16-Präzision und der Optimiererzustand verwendete FP32.
Jede Phase behielt ein unabhängiges Modellgewicht bei, das zu Beginn jedes Schritts synchronisiert wurde.
Reinforcement Learning: Der Schlüssel zur Überwindung der Argumentationsfähigkeit von R1
Supervised Fine-Tuning (SFT) ermöglicht es dem Modell, Wissen aus leistungsstarken Lehrermodellen zu extrahieren und hervorragende Fähigkeiten zu erzielen.
Die Wissensdestillation setzt jedoch von Natur aus eine Grenze für die Leistung des Schülermodells, insbesondere wenn die Basismodellfähigkeit des Schülermodells die des Lehrermodells nicht übersteigt.
Durch Supervised Fine-Tuning kann sich die Leistung von LN-Ultra DeepSeek-R1 annähern, sie aber nicht übertreffen.
Großflächiges Reinforcement Learning (RL) ist eine praktikable Methode, um dem Schülermodell zu ermöglichen, das Lehrermodell zu übertreffen, da es dem Modell ermöglicht, kontinuierlich neue Möglichkeiten zu erkunden und selbstständig zu lernen.
Aufgrund von Ressourcenbeschränkungen wandten die Forscher RL nur auf LN-Ultra an, was zu einem Schülermodell führte, das das Lehrermodell übertraf.
Während des gesamten Argumentations-Reinforcement-Learning-Trainingsprozesses verbesserte sich die Genauigkeit von LN-Ultra auf dem GPQA-Diamond-Datensatz.
Trainingsprozess: Ein Fokus auf wissenschaftliche Argumentation
Für LN-Ultra verbesserten die Forscher die wissenschaftliche Argumentationsfähigkeit durch großflächiges Reinforcement Learning (RL), wobei sie den Grouped Relative Policy Optimization (GRPO)-Algorithmus verwendeten, den gleichen, der von DeepSeek-R1 verwendet wird.
Der gesamte Trainingsprozess benötigte etwa 140.000 H100-Stunden, wobei das Modell kontinuierlich trainiert wurde, bis es bei Argumentationsaufgaben konvergierte.
Das Belohnungsmechanismus-Design umfasste zwei Kategorien:
- Genauigkeitsbelohnung: Basierend auf den Standardantworten (numerisch/Satz/Absatz) beurteilt das Aufrufen des Llama-3.3-70B-Instruct-Modells den Übereinstimmungsgrad der Vorhersageergebnisse.
- Formatbelohnung: Nach dem Schema von DeepSeek-AI wird das Modell gezwungen, den Argumentationsprozess im “detailed thinking”-Modus mit <think\>-Tags zu umschließen, und das Erscheinen solcher Tags ist im Nicht-Detailed-Thinking-Modus verboten.
Das Forschungsteam bereitete die Daten auch vor, einschließlich Datenfilterung und Curriculum-Training.
- Datenscreening: LN-Super wird im Voraus verwendet, um 8 Antworten für jede Frage zu generieren, und einfache Stichproben mit einer Bestehensquote ≥ 75 % werden entfernt.
- Curriculum-Training: Eine progressive Batch-Zuweisung basierend auf der Bestehensquote wird angewendet.
Dynamische Verteilung: Die Modellierung der Batch-Schwierigkeit mit einer Gauß-Funktion, die sich zunächst auf Stichproben mit hoher Bestehensquote (einfach) konzentriert und später auf Stichproben mit niedriger Bestehensquote (schwierig) verlagert.
Padding-Logik: Stichproben werden zunächst gemäß der Zielverteilung zugewiesen, und die verbleibende Kapazität wird aus dem größten verbleibenden Stichprobenpool ergänzt.
Intra-Batch-Verarbeitung: Stichproben im gleichen Batch werden zufällig gemischt, um die Vielfalt zu erhalten.
Reinforcement Learning zur Präferenzoptimierung
Nach Abschluss des wissenschaftlichen Argumentationstrainings führten die Forscher eine kurze Reinforcement-Learning-Phase für die Modelle LN-Super und LN-Ultra durch, die sich auf die Verbesserung ihrer Fähigkeiten zur Befolgung von Anweisungen konzentrierte.
Die Forscher verwendeten auch RLHF, um die allgemeinen Hilfsfähigkeiten und die Chat-Performance der Modelle zu optimieren und gleichzeitig die Fähigkeiten der Modelle in den Bereichen Mathematik, Naturwissenschaften und anderen Bereichen beizubehalten.
LN-Super erzielte im Arena Hard-Test eine hohe Punktzahl von 88,3 und übertrifft proprietäre Modelle wie Claude 3.5 Sonnet und GPT-4o-2024-05-13 sowie größere Open-Source-Modelle.
Um dieses Ergebnis zu erzielen, verwendeten sie die Methode “OnLine Reward-Policy Optimization“ und maximierten die Vorhersagebelohnung des Modells auf dem HelpSteer2-Datensatz. Das verwendete Belohnungsmodell war Llama-3.1-Nemotron-70B-Reward.
Zwei Runden Online-RPO-Training erhöhten die Arena Hard-Punktzahl von 69,1 auf 88,1.
Für LN-Ultra verwendeten sie einen ähnlichen Prozess, verwendeten aber GRPO.
Für LN-Nano führten sie zwei Runden Offline-RPO-Training durch und verwendeten vom Policy-generierte Trainingsdaten.
Die erste Runde kombinierte Argumentations- und Nicht-Argumentationsdaten mit geeigneten System-Prompts, um die Argumentationssteuerungsfähigkeit des Modells zu optimieren. Die zweite Runde konzentrierte sich auf die Verbesserung der Fähigkeiten zur Befolgung von Anweisungen.
Bewertungsergebnisse: Eine umfassende Bewertung
Die Forscher bewerteten die Leistung aller Llama-Nemotron-Modelle in zwei Benchmark-Kategorien: Argumentationsaufgaben und Nicht-Argumentationsaufgaben.
Argumentations-Benchmarks umfassten: AIME24 und AIME25, GPQA-Diamond, LiveCodeBench und MATH500.
Nicht-Argumentations-Benchmarks umfassten: IFEval zur Bewertung der Befolgung von Anweisungen, BFCL V2 Live zur Bewertung der Verwendung von Funktionsaufruf-Tools und Arena-Hard zur Bewertung der Übereinstimmung mit menschlichen Gesprächspräferenzen.
LN-Nano erzielte trotz seiner geringen Größe hervorragende Leistungen in allen Argumentations-Benchmarks.
Dies zeigt, dass Supervised Fine-Tuning-Prozesse und gut kuratierte Argumentationsdatensätze effektiv sind, um strukturierte Argumentationsfähigkeiten auf kleinere Modelle zu übertragen.
LN-Super zeigte eine starke Wettbewerbsfähigkeit sowohl bei Argumentations- als auch bei Nicht-Argumentationsaufgaben im Vergleich zu anderen Modellen ähnlicher Parametergröße.
Im Modus “reasoning off” war die Leistung von LN-Super mit seinem destillierten Quellmodell Llama-3.3-70B vergleichbar; im Modus “reasoning on” übertraf es andere konkurrierende Modelle wie DeepSeek-R1-Distilled-Llama-70B und demonstrierte eine starke Argumentationsfähigkeit bei gleichzeitiger Aufrechterhaltung einer guten Fähigkeit zur Befolgung von Anweisungen.
Diese Ergebnisse deuten darauf hin, dass LN-Super ein vielseitiges Modell ist, das die Vorteile von argumentationsoptimierten Modellen und Nicht-Argumentationsmodellen kombiniert und es für tägliche Assistentenaufgaben und strukturierte Argumentationsaufgaben geeignet macht.
LN-Ultra schnitt bei Argumentations- und Nicht-Argumentations-Benchmarks gleich gut oder besser ab als alle bestehenden Open-Source-Gewichtsmodelle. Es erreichte das höchste Niveau bei Open-Source-Modellen auf GPQA und demonstrierte damit vollständig die Wirksamkeit der großflächigen Reinforcement-Learning-Trainingsmethoden der Nvidia-Forscher.
Im Gegensatz zu DeepSeek-R1, das eine 8×H200-Hardwarekonfiguration benötigt, ist LN-Ultra für den effizienten Betrieb auf einem einzelnen 8×H100-Knoten optimiert und bietet einen höheren Argumentationsdurchsatz und eine höhere Bereitstellungseffizienz.
Die SFT-Phase von LN-Ultra hat sich der Leistung von DeepSeek-R1 bei mehreren Argumentations-Benchmarks (einschließlich GPQA und AIME) angenähert oder diese erreicht.
Zusätzlich zu den Argumentations- und Dialogfähigkeiten, für die das Modell ursprünglich trainiert wurde, testeten sie das Modell auch auf einer Verteilungsaufgabe.
Insbesondere wurde das Modell auf dem JudgeBench-Datensatz getestet, der es erforderte, zwischen hochwertigen und minderwertigen Antworten zu unterscheiden.
Das neue Modell übertraf die derzeit besten proprietären und Open-Source-Modelle bei dieser Aufgabe.
LN-Ultra wurde zum leistungsstärksten Open-Source-Modell und übertraf DeepSeek-R1 deutlich, nur das proprietäre Modell o3-mini(high) war besser.
Darüber hinaus übertraf die Leistung von LN-Super auch o1-mini, was darauf hindeutet, dass das neue Modell eine starke Generalisierungsfähigkeit in verschiedenen Aufgaben aufweist.