人工智能领域长期以来的核心目标是创造真正能够进行推理 的AI。OpenAI的"o1"模型最初引发的兴奋,激发了人们对利用大规模强化学习 (RL) 技术构建能够进行复杂推理的系统的广泛兴趣。此后,DeepSeek-R1决定将其模型开源,进一步激发了热情,并使AI社区能够大力追求前沿推理模型的开发。
然而,最初的爆发很快就被一个重大障碍所抑制。对于成功复制至关重要的关键技术细节——特别是用于数据管理的精确策略以及控制RL训练的复杂配方——在DeepSeek-R1的原始报告中明显缺失。这种遗漏使研究人员处于极度沮丧的状态,他们正在努力应对重现报告中成功的挑战。其后果是研究领域出现了一定程度的碎片化,大量独立的研究工作探索了不同的模型大小、各种初始检查点以及各种目标领域。尽管进行了如此密集的活动,但一种全面且始终有效的训练方法仍然难以捉摸。
训练语言模型进行推理的传统方法主要集中在数学和计算机代码领域。这些方法通常依赖于大型数据集上的预训练和有监督的微调相结合,以使模型专门用于这些特定任务。早期尝试将强化学习融入到这一过程中,通常通过利用特定领域的奖励模型,但收效甚微。这源于与数学和编码任务相关的固有挑战,在这些任务中,细微的错误会导致截然不同的错误结果。
最近的研究,在DeepSeek-R1发布后受到鼓舞,探索了基于规则的验证方法的使用。在数学领域,这些方法通常涉及要求特定的输出格式,以便能够对解决方案进行精确和自动的验证。类似地,在代码上下文中,研究人员利用了编译和执行的固有反馈机制来指导学习过程。然而,这些方法通常狭隘地关注于单个领域,缺乏有效处理混合数学和编码问题的异构提示的能力。此外,评估通常仅限于特定的基准,例如AIME和LiveCodeBench,从而限制了研究结果的普遍性。最后,训练不稳定性仍然是一个持续存在的问题,通常需要使用复杂的技术,例如逐步增加响应长度和缓解熵崩溃。
现在,NVIDIA的研究人员正在改变游戏规则,因为他们证明了大规模强化学习在显着增强相对较小和中型模型的推理能力方面的巨大潜力。他们的方法实现了超越基于提炼技术的最新方法的性能水平。NVIDIA方法采用顺序训练策略:首先,仅对与数学相关的提示执行RL训练,然后切换到仅关注代码的提示。
一种用于增强推理的顺序方法
结果?最初对数学问题进行RL训练不仅显着提高了数学基准的性能,而且令人惊讶的是,还显着提高了代码推理能力。此外,针对代码的扩展迭代RL训练进一步增强了代码性能,而数学性能仅略有下降。这种方法突出了一个关键点:数学训练可以作为更复杂的推理任务(例如编码)的坚实基础。
NVIDIA方法的成功离不开强大的数据管理流程。该流程经过精心设计,旨在收集以高难度和高质量、可验证的答案和测试用例为特征的具有挑战性的提示。这使得基于验证的RL可以有效地应用于数学和编码领域。
数学和代码的数据管理
NVIDIA研究人员采用的数据管理方法仔细区分了仅用于数学的RL和仅用于代码的RL的要求。
仅用于数学的RL: 仅用于数学的RL的训练数据的创建涉及合并来自DeepScaler和NuminaMath数据集的数据。这些数据集涵盖了广泛的数学主题,包括代数、组合数学、数论和几何。为了保持数据的完整性,应用了严格的过滤过程,利用9-gram过滤器来删除冗余或不合适的内容,并实施严格的排除规则以消除潜在的有问题的条目。然后,DeepSeek-R1模型在验证问题的质量方面起着至关重要的作用。每个问题都经过模型的八次独立尝试,并且只有通过基于规则的验证获得多数正确投票的解决方案才能保留用于最终数据集。
仅用于代码的RL: 仅用于代码的RL的数据集是使用来自现代竞争性编程平台的数据构建的。这些平台提供了丰富的编码问题来源,涵盖了各种算法主题。问题的格式与这些环境中常用的函数调用和标准输入/输出 (stdin/stdout) 约定保持一致。研究人员进行细致的过滤过程,以消除不兼容的问题,并精心管理全面的测试用例,旨在涵盖边缘情况和边界条件。此外,每个问题都会分配一个难度评分,该评分由DeepSeek-R1-671B模型评估确定。这个严格的过程产生了一个由8,520个经过验证的编码问题组成的高质量数据集。
AceReason-Nemotron:结果和基准
NVIDIA研究的结果令人信服。与最初的SFT模型相比,AceReason-Nemotron-7B模型在具有挑战性的AIME 2024和2025竞赛中分别实现了14.5%和14.6%的显着准确度提高。此外,它在LiveCodeBench v5和v6基准上分别展示了14.2%和8%的大幅增长。该模型较大的14B变体表现出更大的性能,优于DeepSeek-R1-Distill-Qwen-32B和DeepSeek-R1-Distill-Llama-70B等更大的模型。这在开放的基于RL的推理模型中实现了同类最佳的结果。
与最先进的基于蒸馏的模型相比,AceReason-Nemotron-14B在AIME基准上优于OpenMath-14B/32B 2.1%/4.4%,在LiveCodeBench上优于OpenCodeReasoning-14B 1.7%/0.8%。这令人信服地表明,RL可以实现比提炼方法更高的性能上限,同时保持与QWQ-32B和o3-mini等高级前沿模型的竞争性能。
这些结果的意义十分重大。它们表明,大规模RL有潜力释放AI模型中新的推理能力水平,超越传统方法的局限性。特定领域的顺序训练策略与强大的数据管理流程相结合,为该领域的未来研究提供了蓝图。
强化学习驱动推理极限
这项研究强调了强化学习在推动模型推理能力界限方面的巨大潜力。通过策略性地采用特定领域的训练并精心管理高质量的数据,这使得AI模型能够解决以前棘手的问题,并为推理模型开发建立新的基准,并最终实现能够以空前的准确性和效率应对现实世界挑战的新一代AI系统。有效推理的能力是智能的基石,而NVIDIA取得的进展是朝着充分发挥人工智能潜力迈出的重要一步。未来的研究可能会侧重于将这些技术扩展到更大的模型,并探索新的数据管理策略,以进一步提高推理性能。更复杂奖励函数和探索策略的开发对于克服与训练AI模型进行复杂推理任务相关的挑战也至关重要。最终目标是创建能够以类似于人类的方式进行推理、学习和适应的AI系统,使它们能够解决复杂问题并在广泛的领域内做出明智的决策。
此外,RL的使用不仅提供了原始准确性的优势。RL代理可以学习优化各种目标,例如效率、鲁棒性和可解释性。例如,可以训练RL代理来生成不仅正确而且高效且易于理解的代码。这种能力在安全关键型应用中尤为重要,在这些应用中,必须确保AI系统可靠且可预测。
NVIDIA的工作突出了数据管理在AI研究中日益重要。训练数据的质量对AI模型的性能有重大影响,并且精心管理的数据集对于实现最先进的结果至关重要。NVIDIA开发的数据管理流程是研究推理模型的有价值的资源,它也可以适用于其他领域。
大规模RL、特定领域训练和强大的数据管理相结合已被证明是提高AI模型推理能力的成功秘诀。随着这些技术的不断发展,我们可以预期会看到AI领域取得更令人印象深刻的进步,并且我们希望在不久的将来看到AI模型的不断进步。