LLM工具革命:Nemotron-Tool-N1强化学习方法

将大型语言模型 (LLM) 与外部工具集成已成为一种变革性策略,它释放了前所未有的能力,可应用于各种应用程序。然而,传统方法主要依赖于创建大量的工具使用场景合成数据集,然后进行监督微调 (SFT),从而使 LLM 能够有效地利用这些工具。这种方法的一个根本局限性在于,合成数据集无法准确地表示工具使用中涉及的复杂推理过程,从而导致表面学习和缺乏真正的理解。通常,在训练期间完全不存在必要的推理步骤,或者通过精心设计的提示技术将其降级为推理。这引入了一种“伪推理”现象,即模型不是理解底层决策机制,而仅仅是模仿表面模式。

解决传统工具使用训练的局限性

现有的研究致力于增强 LLM 的工具使用能力,并探索了多种方法,主要侧重于两个关键策略:数据集管理和模型改进,以及推理改进。

数据集管理和模型改进: 这种方法涉及创建大规模的监督数据集,并结合先进的训练技术,如 SFT 和 DPO(直接偏好优化)强化学习。LLM 配备了各种外部工具,包括搜索引擎、计算器、视觉工具和 Python 解释器,以显著扩展其功能。该策略强调为 LLM 提供丰富的示例,并提高其从这些示例中进行泛化的能力的重要性。然而,挑战在于合成数据的局限性。

推理改进: 认识到仅仅依靠大规模数据集的缺点,研究人员还将重点放在改进 LLM 推理能力的策略上。这涉及从传统的训练时扩展转向更复杂的测试时扩展策略。早期的方法通常依赖于步级监督和学习奖励模型来指导推理轨迹。这些方法旨在使模型暴露于推理过程本身,从而加深对工具选择和使用背后的基本原理的理解。

Nemotron-Tool-N1:LLM 工具使用中的范式转变

NVIDIA、宾夕法尼亚州立大学和华盛顿大学的研究人员推出了 Nemotron-Research-Tool-N1 系列,这是一种旨在克服现有工具使用方法局限性的创新方法。与传统的 SFT 和推理轨迹蒸馏技术不同,Nemotron-Research-Tool-N1 采用了一种独特的强化学习 (RL) 范例。受到 DeepSeek-R1 成功的启发,该方法利用了一种轻量级监督方法,该方法侧重于评估工具调用的结构有效性和功能正确性。Nemotron-Research-Tool-N1 模型利用一种二元奖励机制,该机制允许模型自主开发推理策略,而无需依赖于显式注释的推理轨迹。

这种方法代表了与传统方法论的重大背离,它提供了更强大和更通用的工具使用能力的潜力。通过专注于工具调用的正确性,而不是明确地指示推理步骤,鼓励模型自行探索和学习最佳的推理策略。

数据准备和模型架构

研究人员整合并预处理了来自现有工具调用数据集的数据,包括 xLAM 和 ToolACE 的一个小子集,这些数据集同时提供了单轮和多轮合成工具调用轨迹。为了指导工具调用生成,创建了一个轻量级的提示模板,其中包含 <think>…</think> 标签内的中间推理的显式指令,以及包含在 <tool_call>…</tool_call> 标签中的工具调用。该模板旨在最大限度地减少严格的格式约束,并降低过度拟合特定提示模式的风险。

本研究中使用的主要骨干模型是 Qwen2.5-7B/14B-Instruct。为了评估所提出方法的泛化能力,还对替代骨干模型(包括 LLaMA 系列的多个变体)进行了评估。这种跨不同模型架构的严格评估确保了 Nemotron-Tool-N1 方法的稳健性和适用性。

基准测试性能:BFCL 和 API-Bank

使用 BFCL 和 API-Bank 基准对 Nemotron-Research-Tool-N1 的有效性进行了严格评估。结果表明,与现有方法相比,Nemotron-Research-Tool-N1 模型的性能更佳。

BFCL 基准: 在 BFCL 基准上,Tool-N1-7B/14B 模型的性能优于 GPT-4o 等封闭源代码模型以及 xLAM-2-70B 和 ToolACE-8B 等专门微调模型。此外,这些模型优于在相同数据源上训练的 SFT 基线,突出了 Nemotron-Research-Tool-N1 中采用的 R1 风格 RL 方法的有效性。该基准突出了模型适应需要复杂推理和工具使用的场景的能力。BFCL(五大命令行)基准侧重于评估 LLM 理解和执行复杂命令行指令的能力,这需要高度的推理和工具利用。

API-Bank 基准: API-Bank 基准进一步验证了这些发现,Tool-N1-7B/14B 的准确率比 GPT-4o 高 4.12% 和 5.03%。该基准评估 LLM 使用各种 API(应用程序编程接口)执行特定任务的熟练程度。Nemotron-Research-Tool-N1 在该基准上取得的改进突显了该方法在通过新的强化学习范例增强大型语言模型的工具调用能力方面的潜力。

两个基准的持续改进证明了 Nemotron-Research-Tool-N1 方法在增强 LLM 的工具使用能力方面的有效性。通过专注于基于规则的 RL 方法并使模型能够开发自己的推理策略,Nemotron-Research-Tool-N1 释放了更具适应性和智能的语言模型的潜力。

Nemotron-Tool-N1 的关键创新

Nemotron-Research-Tool-N1 的主要贡献来自于其增强 LLM 中工具使用的创新方法。它没有依赖于标准的 SFT 方法,而是集成了一个独特的、基于规则的 RL 框架。其架构的基石是一种二元奖励机制,该机制侧重于评估工具调用的结构有效性和功能正确性。这种方法允许模型独立创建推理策略,而无需事先仔细注释的推理轨迹。

Nemotron-Research-Tool-N1 的优势是多方面的。工具使用的训练数据通常不包括显式推理。奖励系统通过独立查找工具与手头问题之间的关系来增强模型的能力。RL 还有助于提高泛化能力,因为模型必须适应不同的环境。

Nemotron-Research-Tool-N1 提供了一个稳健的模板,用于在特殊标签(think 和 /think)中集成推理。对于调用工具(tool_call 和 /tool_call)也是如此。通过这样做,Nemotron-Research-Tool-N1 降低了模型过度拟合提示模式的风险。

成功调用工具的能力在两个基准上进行评估,这突出了 Nemotron-Research-Tool-N1 的能力:

  • 五大命令行 (BFCL): BFCL 强调 LLM 需要理解和实施复杂的命令行指令。Nemotron-Research-Tool-N1 通过其强化学习方法在这方面表现出色。
  • API-Bank 基准: API-Bank 基准证实了这些结果。该模型的准确率比 GPT-4o 高 4.12% 和 5.03%。

与现有方法的比较分析

Nemotron-Research-Tool-N1 在工具使用的现有微调方法方面显示出显着改进。微调通常需要大量精心管理的数据,并且通常会导致模型模仿现有模式。作为一种强化学习方法,Nemotron-Research-Tool-N1,该模型可以独立生成推理策略,并且还有助于减少对特定数据集的依赖性。Nemotron 超越了现有的基准,而没有现有方法所面临的相同挑战。

多个基准证明了这种改进。BFCL 基准直接表明,tool-N1 模型改进了现有方法。它改进了 xLAM-2-70B 和 ToolACE-8B 等开源系统,并且优于 GPT-4o 等闭源系统。API-Bank 基准验证了这些发现,这些发现已显示出在改进现有语言模型的工具调用时,可大幅提高准确性。

意义和未来方向

研究人员介绍了 Nemotron-Research-Tool-N1,这是 LLM 工具的一项重大突破。这项研究展示了通过应用前沿的基于规则的 RL 方法,从传统 SFT 方法的转变。所建议的方法使模型能够制定微妙的推理策略,同时不明确依赖于带注释的推理轨迹。此方法的功能通过其跨 BFCL 和 API-Bank 的有效基准评估来显示。此外,它还显示出比当前基线可衡量的性能增强。这为创建更具适应性和智能的语言模型提供了机会,这些模型可以自行创建推理策略。

这些发现为开发更具适应性和智能的语言模型开辟了新途径。二元奖励机制的使用将使语言模型能够在多个现实世界应用程序中执行并提高效率。Nemotron-Research-Tool-N1 将导致更 多的自动化推理,这将提高语言模型的工具使用能力。

该研究展示了 LLM 工具中的一种新范式。它还重点介绍了未来语言模型的制作方向。专注于推理自动化对于拥有未来将更智能的语言模型至关重要。