NVIDIA AI發表AceReason-Nemotron:強化學習引領數學和程式碼推理革命

在人工智慧領域,長期以來,追求真正具備「推理」能力的人工智慧一直是核心目標。OpenAI 的 "o1" 模型最初引發的興奮,激起了人們廣泛利用大規模強化學習 (RL) 技術來構建能夠進行複雜推理的系統的興趣。隨後,DeepSeek-R1 決定以開源形式發布其模型,進一步激發了熱情,並賦予 AI 社群積極追求開發尖端推理模型的動力。

然而,最初的這股熱潮很快就被一個重大的障礙所沖淡。對於成功複製至關重要的關鍵技術細節——具體而言,用於資料整理的精確策略以及控制 RL 訓練的複雜配方——在 DeepSeek-R1 的原始報告中明顯缺失。這種遺漏使研究人員處於相當沮喪的狀態,他們正在努力應對重現報告中成功的挑戰。其結果是一個有些分散的研究格局,眾多獨立的努力探索不同的模型大小、各種初始檢查點和不同的目標領域。儘管活動如此密集,但全面且始終有效的培訓方案仍然難以捉摸。

傳統的推理語言模型訓練方法主要集中在數學和電腦程式碼領域。這些方法通常依賴於大型資料集上的預訓練和監督微調相結合,以使模型專門用於這些特定任務。早期嘗試將強化學習納入此過程,通常是通過利用特定領域的獎勵模型,但收效甚微。這是因為數學和編碼任務存在固有的挑戰,其中細微的錯誤可能導致完全不正確的結果。

受 DeepSeek-R1 發布的推動,最近的研究探索了基於規則的驗證方法。在數學領域,這些方法通常涉及要求特定的輸出格式,以實現對解決方案的精確和自動驗證。同樣,在程式碼的背景下,研究人員利用編譯和執行的固有回饋機制來指導學習過程。然而,這些方法通常只專注於個別領域,缺乏有效處理混合數學和編碼問題的異質提示的能力。此外,評估通常僅限於 AIME 和 LiveCodeBench 等特定基準,從而限制了結果的普遍性。最後,訓練不穩定性仍然是一個持續存在的問題,通常需要使用複雜的技術,例如漸進式響應長度增加和熵崩潰緩解。

現在,NVIDIA 的研究人員正在改變遊戲規則,因為他們展示了大規模強化學習在顯著提高相對較小和中等規模模型的推理能力方面的巨大潛力。他們的方法實現了超越基於蒸餾技術的最新方法的性能水準。NVIDIA 的方法採用了一種循序漸進的訓練策略:首先,專門對與數學相關的提示執行 RL 訓練,然後切換到僅關注程式碼的提示。

一種用於增強推理的循序漸進方法

發現了什麼?最初在數學問題上進行的 RL 訓練不僅顯著提高了數學基準的性能,而且令人驚訝的是,還顯著提高了程式碼推理能力。此外,專注於程式碼的 RL 訓練的擴展迭代進一步增強了程式碼性能,而數學性能的下降幅度很小。這種方法突出了一個關鍵點:數學訓練可以作為更複雜的推理任務(例如編碼)的堅實基礎。

NVIDIA 方法成功的關鍵是強大的資料管理流程。該流程經過精心設計,旨在收集具有高難度且具有高品質、可驗證的答案和測試案例的具有挑戰性的提示。這允許基於驗證的 RL 在數學和程式碼領域有效應用。

數學和程式碼的資料管理

NVIDIA 研究人員採用的資料管理方法仔細區分了僅用於數學的 RL 和僅用於程式碼的 RL 的要求。

僅用於數學的 RL: 僅用於數學的 RL 的訓練資料的建立涉及合併來自 DeepScaler 和 NuminaMath 資料集的資料。這些資料集涵蓋了廣泛的數學主題,包括代數、組合數學、數論和幾何。為了保持資料的完整性,應用了嚴格的過濾過程,使用 9-gram 過濾器刪除冗餘或不合適的內容,並實施嚴格的排除規則以消除潛在有問題的條目。然後,DeepSeek-R1 模型在驗證問題的品質方面發揮了關鍵作用。每個問題都由模型進行八次獨立嘗試,並且僅保留那些通過基於規則的驗證獲得多數正確投票的解決方案,以納入最終資料集。

僅用於程式碼的 RL: 僅用於程式碼的 RL 的資料集是使用來自現代競技程式設計平台的資料構建的。這些平台提供了豐富的編碼問題來源,涵蓋了各種算法主題。這些問題的格式與這些環境中常用的函數呼叫和標準輸入/輸出 (stdin/stdout) 約定相符。研究人員進行了細緻的過濾過程,以消除不相容的問題,並精心策劃了全面的測試案例,旨在涵蓋邊緣案例和邊界條件。此外,每個問題都會被分配一個難度分數,該分數通過 DeepSeek-R1-671B 模型評估來確定。這個嚴格的過程產生了一個高品質的資料集,其中包含 8,520 個經過驗證的編碼問題。

AceReason-Nemotron:結果和基準

NVIDIA 研究的結果令人信服。與最初的 SFT 模型相比,AceReason-Nemotron-7B 模型在具有挑戰性的 AIME 2024 和 2025 競賽中分別實現了 14.5% 和 14.6% 的顯著準確性提升。此外,它在 LiveCodeBench v5 和 v6 基準測試中分別展示了 14.2% 和 8% 的顯著增益。該模型較大的 14B 變體展示了更出色的性能,優於更大的模型,例如 DeepSeek-R1-Distill-Qwen-32B 和 DeepSeek-R1-Distill-Llama-70B。這在開放的基於 RL 的推理模型中實現了最佳的結果。

與最先進的基於蒸餾的模型相比,AceReason-Nemotron-14B 在 AIME 基準測試中優於 OpenMath-14B/32B 2.1%/4.4%,在 LiveCodeBench 中優於 OpenCodeReasoning-14B 1.7%/0.8%。這令人信服地表明,RL 可以實現比蒸餾方法更高的性能上限,同時保持與 QWQ-32B 和 o3-mini 等高級前沿模型的競爭性能。

這些結果的意義重大。他們表明,大規模 RL 有可能釋放 AI 模型中新的推理能力水準,超越傳統方法的局限性。循序漸進的特定領域訓練策略,結合強大的資料管理流程,為該領域的未來研究提供了藍圖。

強化學習推動推理極限

這項研究強調了強化學習在推動模型推理能力界限方面的巨大潛力。通過策略性地採用特定領域的訓練和精心策劃高品質的資料,這使得 AI 模型能夠解決以前難以解決的問題,並為推理模型開發建立新的基準,最終導致新一代 AI 系統以空前的準確性和效率應對實際挑戰。有效推理的能力是智慧的基石,NVIDIA 取得的進展代表著朝著實現人工智慧的全部潛力邁出的重要一步。未來的研究可能會側重於將這些技術擴展到更大的模型,並探索新的資料管理策略以進一步提高推理性能。開發更複雜的獎勵函數和探索策略對於克服與訓練 AI 模型以執行複雜推理任務相關的挑戰也至關重要。最終目標是創建可以像人類一樣推理、學習和適應的 AI 系統,使他們能夠解決複雜的問題並在廣泛的領域中做出明智的決策。

此外,RL 的使用提供了超越原始準確性的優勢。 RL 代理可以學習針對各種目標進行優化,例如效率、穩健性和可解釋性。例如,可以訓練 RL 代理生成不僅準確而且高效且易於理解的程式碼。這種能力在安全關鍵應用中尤其重要,在這些應用中,必須確保 AI 系統可靠且可預測。

NVIDIA 的工作突出了資料管理在 AI 研究中日益重要。訓練資料的品質對 AI 模型的性能有重大影響,精心管理的資料集對於實現最先進的結果至關重要。 NVIDIA 開發的資料管理流程對於從事推理模型研究的研究人員來說是一項寶貴的資源,並且也可以適用於其他領域。

大規模 RL、特定領域的訓練和強大的資料管理的結合已被證明是提高 AI 模型推理能力的成功方法。隨著這些技術的不斷發展,我們可以期待在 AI 領域看到更加令人印象深刻的進展,並且我們希望在不久的將來看到 AI 模型的持續進步。