阿里巴巴 QwQ-32B:強化學習的嶄新突破

強化學習的力量

傳統的 AI 模型開發方法主要依賴預訓練和後訓練。然而,Qwen 團隊超越了這些傳統技術,將代理 (agent) 功能直接整合到推理模型中。這種整合使 QwQ-32B 能夠進行批判性思考、利用外部工具,並根據環境的反饋動態調整其推理過程。這代表著在創建更具適應性和智慧的 AI 系統方面邁出了重要一步。

Qwen 團隊強調,擴展 RL 具有釋放效能增強的潛力,這些增強超越了傳統方法的能力。最近的研究已經證明 RL 能夠顯著提高 AI 模型的推理能力,而 QwQ-32B 則是這種潛力的有力例證。

彌合大小與效能之間的差距

QwQ-32B 最引人注目的方面之一是其相對於其大小的效能。DeepSeek-R1 是一個 QwQ-32B 與之競爭的模型,擁有驚人的 6710 億參數(其中 370 億被激活)。QwQ-32B 具有相對較小的 320 億參數,卻實現了可比的效能,突顯了通過策略性實施 RL 所實現的顯著效率提升。這一成就挑戰了長期以來認為模型大小是效能主要決定因素的假設,表明複雜的訓練技術可以彌合大小和能力之間的差距。

基準測試卓越

為了嚴格評估 QwQ-32B 的能力,Qwen 團隊對該模型進行了一套全面的基準測試。這些基準測試,包括 AIME24、LiveCodeBench、LiveBench、IFEval 和 BFCL,專門設計用於評估 AI 效能的各個方面,包括數學推理、編碼熟練度和一般問題解決能力。這些評估的結果描繪了 QwQ-32B 優勢的有力圖景。

以下是 QwQ-32B 在每個基準測試中的效能的詳細介紹:

  • AIME24: 此基準測試側重於數學推理。QwQ-32B 獲得了 79.5 分,僅略微落後於 DeepSeek-R1-671B 的 79.8 分。值得注意的是,這兩個模型的表現都顯著優於 OpenAl-o1-mini(63.6 分)以及蒸餾模型。

  • LiveCodeBench: 此基準測試評估編碼熟練度。QwQ-32B 獲得了 63.4 分,與 DeepSeek-R1-671B 的 65.9 分非常接近。同樣,這兩個模型的表現都超過了蒸餾模型和 OpenAl-o1-mini(53.8 分)。

  • LiveBench: LiveBench 旨在評估一般問題解決能力,QwQ-32B 獲得了 73.1 分,優於 DeepSeek-R1-671B 的 71.6 分。這一結果進一步鞏固了 QwQ-32B 作為一般 AI 任務中強有力競爭者的地位。

  • IFEval: 此基準測試側重於指令遵循和與人類偏好的一致性。QwQ-32B 獲得了令人印象深刻的 83.9 分,幾乎與 DeepSeek-R1-671B 的 83.3 分相同。這兩個模型的表現都顯著優於 OpenAl-o1-mini(59.1 分)和蒸餾模型。

  • BFCL: 此基準測試測試模型處理複雜、真實世界場景的能力。QwQ-32B 獲得了 66.4 分,超過了 DeepSeek-R1-671B 的 62.8 分。這一結果證明了 QwQ-32B 在純粹學術基準測試之外的實際應用潛力。

這些結果一致地證明了 QwQ-32B 能夠與更大的模型競爭,甚至在某些情況下表現更出色。這突顯了 Qwen 團隊方法的有效性以及 RL 在 AI 發展中的變革潛力。

Qwen 團隊的創新方法

QwQ-32B 的成功歸功於 Qwen 團隊創新的多階段 RL 流程。此流程從’冷啟動’檢查點開始,這意味著模型從預訓練的基礎開始,但隨後通過 RL 進行顯著的改進。訓練過程由基於結果的獎勵驅動,激勵模型提高其在特定任務上的效能。

訓練的初始階段側重於擴展 RL 以用於數學和編碼任務。這涉及利用準確性驗證器和代碼執行伺服器來提供反饋並指導模型的學習。模型通過接收成功結果的獎勵來學習生成正確的數學解決方案並編寫功能代碼。

第二階段擴展了 RL 訓練的範圍,以涵蓋一般能力。此階段納入了來自一般獎勵模型和基於規則的驗證器的獎勵,擴展了模型對各種任務和指令的理解。此階段對於開發一個全面的 AI 模型至關重要,該模型可以處理各種挑戰。

Qwen 團隊發現,即使使用相對較少的步驟,RL 訓練的第二階段也可以顯著提高模型在各種一般能力方面的效能。這些包括指令遵循、與人類偏好的一致性以及整體代理效能。重要的是,一般能力的這種改進並不是以犧牲數學和編碼方面的效能為代價的,這證明了多階段方法的有效性。

開放權重且易於訪問

為了促進合作和進一步研究,Qwen 團隊已將 QwQ-32B 開放權重。這意味著模型的參數是公開可用的,允許研究人員和開發人員訪問、研究和基於 Qwen 團隊的工作進行構建。該模型可在 Hugging Face 和 ModelScope 上獲得,並採用 Apache 2.0 許可證,這是一種允許廣泛使用和修改的許可證。此外,QwQ-32B 可通過 Qwen Chat 訪問,提供了一個用戶友好的界面來與模型交互。

邁向 AGI 的一步

QwQ-32B 的開發代表著在追求通用人工智能 (AGI) 方面邁出了重要一步。Qwen 團隊將此模型視為擴展 RL 以增強推理能力的初步探索,他們計劃繼續研究將代理與 RL 集成以進行長期推理。這涉及開發能夠在較長時間內規劃和執行複雜任務的 AI 系統,這是實現 AGI 的關鍵能力。

該團隊相信,將更強大的基礎模型與 RL 相結合,並由擴展的計算資源提供支持,將成為 AGI 發展的關鍵驅動力。QwQ-32B 強有力地證明了這種潛力,展示了通過策略性 RL 實施可以實現的顯著效能提升。Qwen 團隊正在進行的研究和開發工作,以及 QwQ-32B 的開源性質,有望加速 AI 領域的進展,並使我們更接近實現真正智能的機器。重點不再僅僅是構建更大的模型,而是通過創新的訓練技術創建更智能和更具適應性的系統。