Nvidia 的 Llama-Nemotron 系列模型已正式超越 DeepSeek-R1,並且完整公開了其訓練細節,讓大家得以了解這些模型是如何開發,進而達到更卓越的效能。
這些模型現在完全開源,標誌著可近用 AI 技術的一大進步。這意味著,在推論吞吐量和記憶體效率方面顯著優於 DeepSeek-R1 的一系列推論模型,現在可供任何人使用和修改。
揭開模型成功的秘密
那麼,這些超越 DeepSeek-R1 的模型究竟是如何創建的呢? Nvidia 的技術報告揭示了其訓練過程的關鍵要素:
- 使用合成數據 + 強化學習進行監督式微調 (Supervised Fine-Tuning):這種組合顯著提升了模型的推理能力。
- 全面的後訓練過程 (Post-Training Process):一個穩健且設計良好的後訓練過程對於優化模型的效能至關重要。
上個月,Nvidia 正式發布了 Llama-Nemotron 253B,它迅速超越了 Llama 4(當時僅發布三天,並因排行榜操縱而面臨「誠信危機」)。 這個系列模型的發布在業界引起了不小的轟動。
根據 Artificial Analysis Intelligence Index 的數據,截至 2025 年 4 月,Llama-Nemotron-Ultra 被認為是「最智能」的開源模型。
Nvidia 在 Llama-Nemotron 系列中推出了三種模型:LN-Nano 8B、LN-Super 49B 和 LN-Ultra 253B。
值得注意的是,LN-Ultra 不僅在效能上超越 DeepSeek-R1,而且還可以在單個 8xH100 節點上運行,從而提供更高的推論吞吐量。
這些模型經過優化,可在保持強大推理能力和高達 128K 的上下文長度的同時,實現高吞吐量的推論。
此外,Nvidia 還在全球 AI 開源社群中引入了一項突破性的推論切換功能。 用戶可以使用系統提示「detailed thinking on/off」在標準聊天模式和推理模式之間動態切換。
這種設計允許模型滿足一般日常需求,並處理複雜、多步驟的推理任務,而無需不同的模型或架構。
建構過程:五階段方法
Llama-Nemotron 模型的建構分為五個不同的階段:
階段 1:基於 Llama 3 系列模型,使用神經架構搜索 (NAS) 優化推理效率,並引入前饋網絡融合 (FFN Fusion)。
階段 2:透過知識蒸餾和持續的預訓練來恢復模型效能。
階段 3:監督式微調 (SFT),它將標準指令數據與來自像 DeepSeek-R1 這樣強大的教師模型的推理過程相結合,使模型能夠執行多步驟推理。
階段 4:在複雜的數學和 STEM 數據集上進行大規模的強化學習,這對於學生模型超越教師模型的能力至關重要。 對於 LN-Ultra 而言,此階段顯著提高了 GPQA-D 基準測試的效能,使其成為開源領域中最強大的科學推理模型。
為了支持如此大規模的強化學習訓練,該團隊開發了一種新的訓練框架,其中包含多種優化措施,最重要的是支持 FP8 精度生成能力。
階段 5:一個簡短的對齊訓練,重點是遵循指令和遵守人類偏好。
用於優化推論效率的創新架構
LN-Super 和 LN-Ultra 利用 Puzzle 框架進行神經架構搜索,以優化模型推論效率。
Puzzle 將大型語言模型轉換為適應硬件且高效的版本,並針對部署進行了優化。
透過 「逐塊局部蒸餾」,開發人員使用 Llama 3 Instruct 建構了一個 替代 Transformer 模塊的庫。
在此過程中,每個模塊都經過獨立且並行的訓練,在優化計算效能的同時,近似於原始模塊的功能。
每個替代模塊都有特定的「精度-效率」權衡。 某些模塊更有效,但可能會導致一定的質量下降,從而在計算成本和模型準確性之間建立明確的權衡關係。
這些模塊變體包括:
注意力機制移除:某些模塊完全省略了注意力機制,從而減少了計算量和 KV 快取記憶體的消耗。
可變 FFN 維度:調整了前饋網絡的中間維度,從而可以在不同的粒度上壓縮模型。
在建構模塊庫之後,Puzzle 從每一層中選擇一個模塊來組裝一個完整的模型。
此選擇過程由一個混合整數規劃 (MIP) 求解器控制,該求解器根據硬件兼容性、最大允許延遲、記憶體預算或所需的推論吞吐量等約束條件找到最佳配置。
垂直壓縮和 FFN 融合
在 LN-Ultra 模型中,研究人員引入了 FFN 融合 (前饋網絡融合),這是一種額外的壓縮技術,可以減少模型的序列深度並提高推理延遲效率。
Puzzle 移除某些注意力層會產生一種獨特的結構:多個連續的 FFN 塊經常出現在模型結構中。
FFN 融合識別這些連續結構,並用更少但更寬、可並行執行的 FFN 層替換它們。
這種替換方法減少了順序計算的步驟,而不犧牲模型的表達能力,從而顯著提高了計算資源的利用率 - 尤其是在多 GPU 環境中,跨層通信開銷非常大。
LN-Ultra 模型在準確性和效率方面始終優於 DeepSeek-R1 和 Llama-3.1-405B,從而實現了最佳平衡。
NAS 後訓練:知識蒸餾和持續預訓練
在神經架構搜索 (NAS) 階段之後,LN-Super 和 LN-Ultra 都接受了額外的訓練,以提高模塊之間的兼容性,並恢復模塊替換期間可能發生的任何質量損失。
- LN-Super 在 Distillation Mix 數據集上以知識蒸餾為目標訓練了 400 億個 Token。
- LN-Ultra 最初在相同的蒸餾數據集上訓練了 650 億個 Token,然後在 Nemotron-H 第四階段預訓練數據集上持續訓練了 880 億個 Token。
這個最終的預訓練步驟使 LN-Ultra 不僅可以趕上參考模型 Llama 3.1-405B-Instruct,而且還可以在關鍵的基準測試中超越它。
這表明簡短的蒸餾和預訓練可以實現激進的架構優化和高模型效能之間的兼容性。
監督式微調:精煉推理能力
監督式微調 (SFT) 充當 Llama-Nemotron 模型的「私人教練」,專門針對特定任務的推理步驟,並從像 DeepSeek-R1 這樣的「明星學生」模型中學習推理技巧。
為了灌輸真正的推理技能,大規模、高品質的推理訓練數據至關重要。
合成數據:專為推理而設計
研究人員仔細策劃了包含推理和非推理數據的數據樣本,以進行監督式微調。
對於推理樣本,他們在系統指令中添加了「detailed thinking on」,而對於非推理樣本,他們使用了「detailed thinking off」。
此設定允許模型在推理階段根據提示切換推理行為。
推理的合成數據是在數學、編碼和相關領域中準備的。
為了訓練模型遵循「推理切換」指令,研究人員建構了配對數據集,其中每個提示對應於一個具有推理和一個沒有推理的回應。
這種配對使模型能夠學習根據系統指令調整其推理行為。
隨後根據標準答案或獎勵模型對這些回應進行過濾。
微調過程
所有模型都使用 Token 級別的交叉熵損失在指令微調數據上進行訓練。
在大多數訓練設定中,推理和非推理數據混合在一起以形成訓練批次,其中每個提示根據「detailed thinking on/off」系統指令與相應的回應配對。
將訓練延長至多個輪次可以提高效能,尤其是對於較小的模型而言。
NeMo-Aligner 用於強化學習訓練,支持 GRPO 和異構模型的訓練。
vLLM 用於生成階段,Megatron-LM 用於訓練階段。
訓練和推理階段共享同一批 GPU,在同一設備上完成。
整個訓練過程使用了 72 個節點,每個節點配備 8 個 H100 GPU。
生成階段使用 FP8 精度,訓練階段使用 BF16 精度,優化器狀態使用 FP32。
每個階段都維護一個獨立的模型權重,該權重在每個步驟開始時同步。
強化學習:超越 R1 推理能力的關鍵
監督式微調 (SFT) 使模型能夠從強大的教師模型中提取知識,從而獲得出色的能力。
然而,知識蒸餾本質上限制了學生模型的效能,尤其是當學生模型的基礎模型能力不超過教師模型的能力時。
透過監督式微調,LN-Ultra 的效能可以接近 DeepSeek-R1,但無法超越它。
大規模強化學習 (RL) 是一種可行的方法,可以使學生模型超越教師模型,因為它允許模型不斷探索新的可能性並進行自我學習。
由於資源限制,研究人員僅將推理 RL 應用於 LN-Ultra,從而產生了一個超越教師模型的學生模型。
在整個推理強化學習訓練過程中,LN-Ultra 在 GPQA-Diamond 數據集上的準確性得到了提高。
訓練過程:專注於科學推理
對於 LN-Ultra,研究人員使用 Grouped Relative Policy Optimization (GRPO) 算法(與 DeepSeek-R1 使用的算法相同)透過大規模強化學習 (RL) 增強了其科學推理能力。
整個訓練過程需要大約 140,000 個 H100 小時,持續訓練模型直到它在推理任務上收斂。
獎勵機制設計包括兩個類別:
- 準確性獎勵:基於標準答案(數值/句子/段落),調用 Llama-3.3-70B-Instruct 模型判斷預測結果的匹配程度。
- 格式獎勵:遵循 DeepSeek-AI 的方案,模型被強制在「detailed thinking」模式下用 <think\> 標籤包裹推理過程,並且在非詳細思考模式下禁止出現此類標籤。
研究團隊還對數據進行了預處理,包括數據過濾和課程訓練。
- 數據篩選:預先使用 LN-Super 為每個問題生成 8 個回應,並刪除通過率 ≥ 75% 的簡單樣本。
- 課程訓練:採用基於通過率的漸進式批次分配。
動態分佈:使用高斯函數對建模批次難度進行建模,最初專注於高通過率(簡單)樣本,然後轉向低通過率(困難)樣本。
填充邏輯:首先根據目標分佈分配樣本,然後從最大的剩餘樣本池中補充剩餘容量。
批內處理:隨機打亂同一批次中的樣本以保持多樣性。
用於偏好優化的強化學習
在完成科學推理訓練後,研究人員對 LN-Super 和 LN-Ultra 模型進行了簡短的強化學習階段,重點是提高它們的 指令遵循能力。
研究人員還使用 RLHF 優化了模型的 一般幫助能力和聊天效能,同時保留了模型在數學、科學和其他領域的能力。
LN-Super 在 Arena Hard 測試中獲得了 88.3 的高分,超越了 Claude 3.5 Sonnet 和 GPT-4o-2024-05-13 等專有模型,並且也優於更大的開源模型。
為了實現這一結果,他們採用了 “OnLine Reward-Policy Optimization“ 方法,最大化模型在 HelpSteer2 數據集上的預測獎勵。 使用的獎勵模型是 Llama-3.1-Nemotron-70B-Reward。
兩輪線上 RPO 訓練將 Arena Hard 分數從 69.1 提高到 88.1。
對於 LN-Ultra,他們使用了類似的過程,但採用了 GRPO。
對於 LN-Nano,他們進行了 兩輪離線 RPO 訓練,使用策略生成的訓練數據。
第一輪將推理和非推理數據與適當的系統提示結合起來,以優化模型的推理控制能力。 第二輪重點是提高指令遵循能力。
評估結果:全面評估
研究人員在兩個基準類別中評估了所有 Llama-Nemotron 模型的效能:推理任務和非推理任務。
推理基準包括:AIME24 和 AIME25、GPQA-Diamond、LiveCodeBench 和 MATH500。
非推理基準包括:用於指令遵循評估的 IFEval、用於函數調用工具使用評估的 BFCL V2 Live,以及用於評估與人類對話偏好對齊的 Arena-Hard。
LN-Nano 儘管體積小,但在所有推理基準測試中都取得了優異的效能。
這表明監督式微調過程和精心策劃的推理數據集可有效地將結構化推理能力傳輸到較小的模型。
與其他具有相似參數規模的模型相比,LN-Super 在推理和非推理任務中都表現出很強的競爭力。
在「reasoning off」模式下,LN-Super 的效能與其蒸餾的來源模型 Llama-3.3-70B 相當; 在「reasoning on」模式下,它超越了其他競爭模型,例如 DeepSeek-R1-Distilled-Llama-70B,在保持良好的指令遵循能力的同時,表現出強大的推理能力。
這些結果表明,LN-Super 是一種多功能模型,它結合了推理優化模型和非推理模型的優點,使其適用於日常助理任務和結構化推理任務。
LN-Ultra 在推理和非推理基準測試中的表現與所有現有的開源權重模型相當或更好。 它在 GPQA 上達到了開源模型的最先進水平,充分展示了 Nvidia 研究人員大規模強化學習訓練方法的有效性。
與需要 8×H200 硬件配置的 DeepSeek-R1 不同,LN-Ultra 經過優化,可以在單個 8×H100 節點上高效運行,從而提供更高的推理吞吐量和部署效率。
LN-Ultra 的 SFT 階段已在多個推理基準測試(包括 GPQA 和 AIME)上接近或達到 DeepSeek-R1 的效能。
除了最初訓練模型所針對的推理和對話能力之外,他們還在 分發任務上測試了該模型。
具體來說,該模型在 JudgeBench 數據集上進行了測試,要求它區分 高質量和低質量的答案。
這個新模型在此任務上超越了當前頂級的專有和開源模型。
LN-Ultra 成為效能最佳的開源模型,顯著超越 DeepSeek-R1,僅次於專有模型 o3-mini(high)。
此外,LN-Super 的效能也超過了 o1-mini,表明新模型在各種任務中具有 強大的泛化能力。