Nvidia新模型超越DeepSeek-R1:14万H100小时

Nvidia的Llama-Nemotron系列模型正式超越了DeepSeek-R1,并且其训练细节已经完全公开,从而提供了关于这些模型是如何被开发以实现卓越性能的深入见解。

这些模型现在完全开源,标志着可访问的AI技术取得了显著的进步。这意味着一系列在推理吞吐量和内存效率方面显著优于DeepSeek-R1的推理模型现在可供任何人使用和修改。

揭示模型成功的秘密

那么,究竟是如何创造出这些超越DeepSeek-R1的模型呢?Nvidia的技术报告揭示了其训练过程的关键要素:

  • 使用合成数据进行监督微调+强化学习:这种组合显著增强了模型的推理能力。
  • 全面的后训练过程:一个强大且精心设计的后训练过程对于优化模型的性能至关重要。

上个月,Nvidia正式宣布了Llama-Nemotron 253B,它迅速盖过了Llama 4(Llama 4发布仅三天,并且由于排行榜操纵而面临“诚信危机”)。这一系列模型的发布在业界引起了不小的轰动。

根据人工智能分析指数,截至2025年4月,Llama-Nemotron-Ultra被认为是“最智能”的开源模型。

Nvidia在Llama-Nemotron系列中推出了三个模型:LN-Nano 8B、LN-Super 49B和LN-Ultra 253B

值得注意的是,LN-Ultra不仅在性能上优于DeepSeek-R1,而且还在单个8xH100节点上运行,从而提供更高的推理吞吐量

这些模型经过优化,可在保持强大的推理能力和高达128K的上下文长度的同时,实现高吞吐量推理。

此外,Nvidia还在全球AI开源社区中引入了一项开创性的推理开关功能。用户可以使用系统提示“详细思考开启/关闭”来动态地在标准聊天模式和推理模式之间切换。

这种设计允许模型满足一般的日常需求,并处理复杂的、多步骤的推理任务,而无需不同的模型或架构。

构建过程:一个五阶段方法

Llama-Nemotron模型的构建分为五个不同的阶段:

阶段1:基于Llama 3系列模型,使用神经架构搜索 (NAS) 优化推理效率,并引入前馈网络融合 (FFN Fusion)。

阶段2:通过知识蒸馏和持续的预训练来恢复模型性能。

阶段3:监督微调 (SFT),它将标准指令数据与来自DeepSeek-R1等强大教师模型的推理过程相结合,使模型能够执行多步骤推理。

阶段4:在复杂的数学和STEM数据集上进行大规模强化学习,这对于学生模型超越教师模型的能力至关重要。对于LN-Ultra,此阶段显著提高了在GPQA-D基准测试中的性能,使其成为开源领域中最强大的科学推理模型。

为了支持如此大规模的强化学习训练,该团队开发了一个新的训练框架,其中包含多个优化措施,最重要的是支持FP8精度生成能力。

阶段5:一个简短的对齐训练,重点是遵循指令和遵守人类偏好。

用于优化推理效率的创新架构

LN-Super和LN-Ultra利用Puzzle框架进行神经架构搜索,以优化模型推理效率。

Puzzle将大型语言模型转换为针对硬件定制的、高效的版本,针对部署进行了优化。

通过**“逐块局部蒸馏”,开发人员使用Llama 3 Instruct构建了一个替代Transformer模块**的库。

在此过程中,每个模块都经过独立且并行的训练,在优化计算性能的同时,近似于原始模块的功能

每个替代模块都有特定的“精度-效率”权衡。有些模块更高效,但可能会导致一定的质量下降,从而在计算成本和模型准确性之间建立清晰的权衡关系。

这些模块变体包括:

注意力机制移除:一些模块完全省略了注意力机制,从而减少了计算量和KV缓存内存消耗。

可变FFN维度:调整前馈网络的中间维度,从而允许以不同的粒度进行模型压缩。

在构建模块库之后,Puzzle从每一层中选择一个模块来组装一个完整的模型。

此选择过程由一个混合整数规划 (MIP) 求解器控制,该求解器根据硬件兼容性、最大允许延迟、内存预算或所需的推理吞吐量等约束条件找到最佳配置。

垂直压缩和FFN融合

在LN-Ultra模型中,研究人员引入了FFN融合(前馈网络融合),这是一种额外的压缩技术,可以减少模型的序列深度并提高推理延迟效率。

Puzzle移除一些注意力层会导致一种独特的结构:多个连续的FFN块经常出现在模型结构中。

FFN融合识别这些连续的结构,并用更少但更宽的、可并行执行的FFN层来替换它们。

这种替换方法减少了顺序计算的步骤,而不牺牲模型的表达能力,从而显著提高了计算资源的利用率——尤其是在多GPU环境中,其中跨层通信开销非常大。

LN-Ultra模型在准确性和效率方面始终优于DeepSeek-R1和Llama-3.1-405B,从而实现了最佳平衡。

NAS后训练:知识蒸馏和持续预训练

在神经架构搜索 (NAS) 阶段之后,LN-Super和LN-Ultra都接受了额外的训练,以提高模块之间的兼容性并恢复模块替换期间可能发生的任何质量损失。

  • LN-Super在知识蒸馏目标下,在Distillation Mix数据集上训练了400亿个token。
  • LN-Ultra最初在相同的蒸馏数据集上训练了650亿个token,然后在Nemotron-H第四阶段预训练数据集上继续训练了880亿个token。

这个最终的预训练步骤使LN-Ultra不仅能够赶上参考模型Llama 3.1-405B-Instruct,而且还在关键的基准测试中超越了它。

这表明简短的蒸馏和预训练可以实现激进的架构优化和高模型性能之间的兼容性

监督微调:磨练推理能力

监督微调 (SFT) 就像Llama-Nemotron模型的“私人教练”,专门针对特定任务的推理步骤,并从DeepSeek-R1等“明星学生”模型中学习推理技术。

为了培养真正的推理技能,大规模、高质量的推理训练数据至关重要。

合成数据:专为推理而定制

研究人员精心策划了包含推理和非推理数据的数据样本,以进行监督微调。

对于推理样本,他们在系统指令中添加了“详细思考开启”,而对于非推理样本,他们使用了“详细思考关闭”。

此设置允许模型在推理阶段根据提示切换推理行为。

数学、编码和相关领域的推理合成数据已经准备就绪。

为了训练模型遵循“推理开关”指令,研究人员构建了成对的数据集,其中每个提示对应于一个带有推理的响应和一个没有推理的响应。

这种配对使模型能够学习根据系统指令调整其推理行为。

随后根据标准答案或奖励模型对这些响应进行过滤。

微调过程

所有模型都使用token级别的交叉熵损失在指令微调数据上进行训练。

在大多数训练设置中,推理和非推理数据混合以形成训练批次,其中每个提示与基于“详细思考开启/关闭”系统指令的相应响应配对。

将训练扩展到多轮可以提高性能,尤其是对于较小的模型。

NeMo-Aligner用于强化学习训练,支持GRPO和异构模型的训练。

vLLM用于生成阶段,Megatron-LM用于训练阶段。

训练和推理阶段共享同一批GPU,并在同一设备上完成。

整个训练过程使用了72个节点,每个节点都配备了8个H100 GPU

生成阶段使用FP8精度,训练阶段使用BF16精度,优化器状态使用FP32

每个阶段都维护一个独立的模型权重,该权重在每个步骤的开始时同步。

强化学习:超越R1推理能力的关键

监督微调 (SFT) 使模型能够从强大的教师模型中提取知识,从而实现卓越的能力。

但是,知识蒸馏固有地限制了学生模型的性能,特别是当学生模型的基准能力未超过教师模型时。

通过监督微调,LN-Ultra的性能可以接近DeepSeek-R1,但不能超越它。

大规模强化学习 (RL) 是一种可行的方法,可以使学生模型超越教师模型,因为它允许模型不断探索新的可能性并进行自学。

由于资源限制,研究人员仅将推理RL应用于LN-Ultra,从而产生了超越教师模型的学生模型。

在整个推理强化学习训练过程中,LN-Ultra在GPQA-Diamond数据集上的准确性得到了提高。

训练过程:专注于科学推理

对于LN-Ultra,研究人员通过大规模强化学习 (RL) 增强了其科学推理能力,使用了分组相对策略优化 (GRPO) 算法,与DeepSeek-R1使用的算法相同。

整个训练过程需要大约140,000个H100小时,不断训练模型直到其收敛于推理任务。

奖励机制设计包括两类:

  • 准确性奖励:基于标准答案(数值/句子/段落),调用Llama-3.3-70B-Instruct模型来判断预测结果的匹配程度。
  • 格式奖励:按照DeepSeek-AI的方案,模型必须在“详细思考”模式下用<think\>标签包装推理过程,并且在非详细思考模式下禁止出现此类标签。

研究团队还对数据进行了预处理,包括数据过滤和课程训练。

  • 数据筛选:LN-Super被提前用来为每个问题生成8个响应,并删除通过率≥75%的简单样本。
  • 课程训练:采用基于通过率的渐进式批次分配。

动态分配:使用高斯函数对建模批次难度,最初侧重于高通过率(简单)样本,然后转向低通过率(困难)样本。

填充逻辑:首先根据目标分布分配样本,然后从最大的剩余样本池中补充剩余容量。

批内处理:同一批次中的样本随机打乱以保持多样性。

用于偏好优化的强化学习

在完成科学推理训练之后,研究人员对LN-Super和LN-Ultra模型进行了一个简短的强化学习阶段,重点是提高它们的指令遵循能力

研究人员还使用RLHF来优化模型在数学、科学和其他领域的能力,同时优化模型的通用帮助能力和聊天性能

LN-Super在Arena Hard测试中获得了88.3的高分超过了诸如Claude 3.5 Sonnet和GPT-4o-2024-05-13等专有模型,并且也优于更大的开源模型。

为了实现这一结果,他们采用了“OnLine Reward-Policy Optimization”方法,最大化模型在HelpSteer2数据集上的预测奖励。使用的奖励模型是Llama-3.1-Nemotron-70B-Reward。

两轮在线RPO训练将Arena Hard分数从69.1提高到88.1

对于LN-Ultra,他们使用了类似的过程,但采用了GRPO

对于LN-Nano,他们进行了两轮离线RPO训练,使用了策略生成的训练数据。

第一轮将推理和非推理数据与适当的系统提示相结合,以优化模型的推理控制能力。第二轮侧重于提高指令遵循能力。

评估结果:一个综合评估

研究人员在两个基准类别上评估了所有Llama-Nemotron模型的性能:推理任务和非推理任务。

推理基准包括:AIME24和AIME25、GPQA-Diamond、LiveCodeBench和MATH500。

非推理基准包括:用于指令遵循评估的IFEval,用于函数调用工具使用评估的BFCL V2 Live,以及用于评估与人类对话偏好对齐的Arena-Hard。

LN-Nano尽管尺寸很小,但在所有推理基准中均表现出色。

这表明监督微调过程和精心策划的推理数据集可有效地将结构化的推理能力转移到较小的模型中。

与其他类似参数规模的模型相比,LN-Super在推理和非推理任务中均表现出强大的竞争力。

在“推理关闭”模式下,LN-Super的性能与其蒸馏源模型Llama-3.3-70B相当;在“推理开启”模式下,它超越了其他竞争模型,例如DeepSeek-R1-Distilled-Llama-70B,从而在保持良好的指令遵循能力的同时,展现了强大的推理能力。

这些结果表明,LN-Super是一种多功能的模型,它结合了推理优化模型和非推理模型的优点,使其适用于日常助手任务和结构化的推理任务。

LN-Ultra在推理和非推理基准测试中的表现与所有现有开源权重模型相当或更好。它在GPQA上达到了开源模型中的最高水平,充分证明了Nvidia研究人员的大规模强化学习训练方法的有效性。

与需要8×H200硬件配置的DeepSeek-R1不同,LN-Ultra经过优化,可以在单个8×H100节点上高效运行,从而提供更高的推理吞吐量和部署效率。

LN-Ultra的SFT阶段在多个推理基准测试(包括GPQA和AIME)上已接近或达到了DeepSeek-R1的性能。

除了模型最初训练的推理和对话功能之外,他们还在分配任务上测试了该模型。

具体来说,该模型在JudgeBench数据集上进行了测试,要求它区分高质量和低质量的答案

新模型在此任务上的表现优于当前顶级的专有和开源模型

LN-Ultra成为表现最佳的开源模型,大大超过DeepSeek-R1,仅次于专有模型o3-mini(high)。

此外,LN-Super的性能也超过了o1-mini,表明新模型在各种任务中具有强大的泛化能力