革新 LLM 工具使用:Nemotron-Tool-N1 的強化學習方法
大型語言模型 (LLMs) 與外部工具的整合已成為一種變革性的策略,在各種應用領域釋放了前所未有的能力。然而,傳統的方法主要依賴於創建大量的工具使用場景合成數據集,然後進行監督式微調 (SFT),以使 LLM 具有有效利用這些工具的能力。這種方法的一個根本限制是,合成數據集無法準確地表示工具使用中涉及的複雜推理過程,從而導致膚淺的學習和對真正的理解的缺乏。通常,重要的推理步驟在訓練期間完全缺失,或者通過精心設計的提示技術被降級到推理中。這引入了一種「偽推理」現象,模型不是理解底層的決策機制,而是僅僅模仿表面層次的模式。
解決傳統工具使用訓練的局限性
現有的研究致力於增強 LLM 的工具使用能力,探索了各種方法,主要側重於兩個關鍵策略:數據集策劃和模型改進,以及推理改進。
數據集策劃與模型改進: 這種方法涉及創建大規模的、監督式數據集,並結合先進的訓練技術,如 SFT 和 DPO(直接偏好優化)強化學習。LLM 配備了各種外部工具,包括搜尋引擎、計算機、視覺工具和 Python 直譯器,以顯著擴展其功能。這種策略強調向 LLM 提供豐富的範例,並提高它們從這些範例中歸納的能力的重要性。然而,挑戰在於合成數據的局限性。
推理改進: 認識到僅僅依賴大規模數據集的缺點,研究人員還專注於提高 LLM 的推理能力的策略。這涉及從傳統的訓練時擴展轉向更複雜的測試時擴展策略。早期的方法通常依賴於步驟級別的監督和學習獎勵模型來引導推理軌跡。這些方法旨在使模型暴露於推理過程本身,從而促進對工具選擇和使用背後的原理的更深入理解。
Nemotron-Tool-N1:LLM 工具使用的一個典範轉移
NVIDIA、賓夕法尼亞州立大學和華盛頓大學的研究人員推出了 Nemotron-Research-Tool-N1 系列,這是一種旨在克服現有工具使用方法的局限性的創新方法。與傳統的 SFT 和推理追蹤提取技術不同,Nemotron-Research-Tool-N1 採用獨特的強化學習 (RL) 典範。受到 DeepSeek-R1 成功的啟發,這種方法利用一種輕量級的監督方法,該方法側重於評估工具調用的結構有效性和功能正確性。Nemotron-Research-Tool-N1 模型利用二元獎勵機制,該機制允許模型自主開發推理策略,而無需依賴明確註釋的推理軌跡。
這種方法代表了與傳統方法的重大偏離,提供了更強大和更通用的工具使用能力的潛力。通過關注工具調用的正確性,而不是明確地指示推理步驟,鼓勵模型自行探索和學習最佳的推理策略。
數據準備與模型架構
研究人員整合並預處理了來自現有工具調用數據集的數據,包括 xLAM 和 ToolACE 的一個子集,這些數據集提供了單輪和多輪合成工具調用軌跡。為了引導工具調用生成,創建了一個輕量級的提示模板,其中包含在 <think>…</think>
標籤內的顯式中間推理指令,以及在 <tool_call>…</tool_call>
標籤中封閉的工具調用。此模板旨在最大限度地減少嚴格的格式約束,並降低過度擬合到特定提示模式的風險。
本研究中使用的主要骨幹模型是 Qwen2.5-7B/14B-Instruct。為了評估所提出方法的泛化能力,還對替代骨幹模型(包括 LLaMA 系列的多種變體)進行了評估。跨不同模型架構的這種嚴格評估確保了 Nemotron-Tool-N1 方法的魯棒性和適用性。
基準測試效能:BFCL 和 API-Bank
Nemotron-Research-Tool-N1 的有效性使用 BFCL 和 API-Bank 基準進行了嚴格評估。結果表明,與現有方法相比,Nemotron-Research-Tool-N1 模型具有卓越的效能。
BFCL 基準: 在 BFCL 基準上,Tool-N1-7B/14B 模型的表現超過了 GPT-4o 等封閉源模型,以及 xLAM-2-70B 和 ToolACE-8B 等專門的微調模型。此外,這些模型的表現優於在相同數據源上訓練的 SFT 基線,強調了 Nemotron-Research-Tool-N1 中使用的 R1 風格 RL 方法的有效性。這個基準突顯了模型適應需要複雜推理和工具使用場景的能力。BFCL(Big Five Command Lines)基準側重於評估 LLM 理解和執行複雜命令列指令的能力,這需要高度的推理和工具利用率。
API-Bank 基準: API-Bank 基準進一步驗證了這些發現,Tool-N1-7B/14B 的準確度比 GPT-4o 高 4.12% 和 5.03%。這個基準評估了 LLM 在使用各種 API(應用程式介面)執行特定任務方面的熟練程度。Nemotron-Research-Tool-N1 在這個基準上實現的改進,突顯了該方法在通過新型強化學習典範增強大型語言模型的工具調用能力方面的潛力。
跨這兩個基準的一致改進,證明了 Nemotron-Research-Tool-N1 方法在增強 LLM 的工具使用能力方面的有效性。通過關注基於規則的 RL 方法,並使模型能夠開發自己的推理策略,Nemotron-Research-Tool-N1 釋放了更具適應性和更智能的語言模型的潛力。
Nemotron-Tool-N1 的主要創新
Nemotron-Research-Tool-N1 的主要貢獻來自其增強 LLM 中工具使用的新穎方法。它沒有依賴標準的 SFT 方法,而是整合了一個獨特的、基於規則的 RL 框架。其架構的基石是一個二元獎勵機制,該機制側重於評估工具調用的結構有效性和功能正確性。這種方法允許模型獨立創建推理策略,而無需預先仔細註釋的推理軌跡。
Nemotron-Research-Tool-N1 的優勢是多方面的。工具使用的訓練數據通常不包括明確的推理。獎勵系統通過獨立找到工具與手頭問題之間的關係來增強模型的能力。由於模型必須適應不同的情況,RL 也有助於提高泛化能力。
Nemotron-Research-Tool-N1 提供了一個強大的模板,用於在特殊標籤(think 和 /think)中整合推理。對於調用工具(tool_call 和 /tool_call)也是如此。通過這樣做,Nemotron-Research-Tool-N1 降低了模型過度擬合到提示模式的風險。
成功調用工具的能力在兩個基準上進行了評估,這突顯了 Nemotron-Research-Tool-N1 的功能:
- Big Five Command Lines (BFCL): BFCL 強調 LLM 需要理解和實施複雜的命令列指令。Nemotron-Research-Tool-N1 通過其強化學習方法在這方面表現出色。
- API-Bank Benchmark: API-Bank 基準證實了這些結果。該模型的準確率比 GPT-4o 高 4.12% 和 5.03%。
與現有方法的比較分析
Nemotron-Research-Tool-N1 在工具使用方面顯示出比現有微調方法顯著的改進。微調通常需要大量的精心策劃的數據,並且通常會導致模型模仿現有的模式。作為一種強化學習方法 Nemotron-Research-Tool-N1,該模型可以獨立生成推理策略,也有助於減少對特定數據集的依賴。Nemotron 在沒有現有方法所面臨的相同挑戰的情況下優於現有的基準。
多個基準證明了這種改進。BFCL 基準直接表明 tool-N1 模型在現有方法上有所改進。它改進了 xLAM-2-70B 和 ToolACE-8B 等開源系統,並且優於 GPT-4o 等封閉源模型。API-Bank 基準驗證了這些發現,該基準已被證明可以在改進現有語言模型的工具調用時顯著提高準確性。
影響與未來方向
研究人員介紹了 Nemotron-Research-Tool-N1,這是 LLM 工具的一個重大突破。該研究通過應用一種尖端的基於規則的 RL 方法,展示了從傳統 SFT 方法的轉變。建議的方法使模型能夠制定精妙的推理策略,同時又不特別依賴於註釋的推理軌跡。這種方法的能力通過其跨 BFCL 和 API-Bank 的有效基準評估顯示出來。此外,它還顯示出比當前基線的可衡量的效能增強。這為開發更具適應性和更智能的語言模型開闢了機會,這些模型可以自行創建推理策略。
這些發現為開發更具適應性和更智能的語言模型開闢了新的途徑。二元獎勵機制的使用將使語言模型有能力在多個實際應用中執行並更有效率。Nemotron-Research-Tool-N1 將引領更自動化的推理,這將提高語言模型的工具使用能力。
該研究展示了 LLM 工具中的新典範。它還突出了未來語言模型的創建方向。在推理方面專注於自動化對於擁有未來更智能的語言模型至關重要。