微軟積極投入開源 AI 模型領域,特別是 Phi 系列,儘管其普及程度不如對 OpenAI 的投資,但正逐漸受到關注。在這些模型中,Phi-4 Reasoning Plus 脫穎而出,展示了強化學習 (RL) 在基準測試中實現卓越成果的力量。
Phi 系列旨在提高資源效率,降低計算能力和儲存空間的需求。透過精心的研究和優化技術,這些模型不斷超出預期,在其權重級別中超越競爭對手,甚至挑戰更大的模型。
Phi-4 Reasoning 模型擁有 140 億個參數,是透過將監督式微調 (SFT) 演算法應用於基礎 Phi-4 模型而創建的。在此基礎上,研究人員進一步開發了 Phi-4 Reasoning Plus 模型,利用 Phi-4 Reasoning 基礎上的強化學習 (RL)。
值得注意的是,Phi-4 Reasoning 和 Phi-4 Reasoning Plus 模型都展現出優於大型模型的性能,例如擁有 700 億個參數的 DeepSeek R1。這一成就尤其體現在涵蓋編碼、數學問題解決和研究所層級高級科學任務的基準測試中。這些模型的性能甚至接近完整的 6710 億參數 DeepSeek R1 模型。
微軟研究人員將該模型的成功主要歸功於高品質的訓練數據集的使用,這是該公司先前模型一直依賴的策略。這些數據集包含超過 140 萬個精心策劃的提示,涵蓋各種程式碼和 STEM(科學、技術、工程和數學)學科。每個提示都附有精心設計的答案,其中包含由 OpenAI 的 o3-mini 模型生成的廣泛推理追蹤。
為了優化訓練過程,研究人員策略性地鎖定了那些突破基礎 Phi-4 模型能力的提示。這涉及過濾訓練數據集,僅保留那些提供實質性改進機會的提示。
強化學習有效性的原因
Phi-4 Reasoning Plus 的開發涉及兩個步驟:首先,透過對基礎 Phi-4 模型進行監督式微調 (SFT) 得到 Phi-4 Reasoning,然後是強化學習 (RL) 階段。為了更深入地了解 Phi-4 Reasoning Plus 的 RL 組件,直接與 Microsoft 的研究員 Harkirat Behl 進行溝通至關重要,他在該專案的這方面發揮了關鍵作用。
強化學習 (RL) 是一種獨特的訓練方法,AI 系統透過實驗來學習。AI 採取行動,接收獎勵或懲罰形式的回饋,並反覆改進其決策過程,以最大化長期可取的結果。這種方法對於需要 AI 模型進行「推理」的任務特別有利,因為它優先考慮實現所需的結果,而不是遵循嚴格的預定義流程。
與傳統模型僅關注預測下一個單字並因每次不準確而懲罰模型不同,RL 在答案的推導方式上提供了更大的靈活性。這種靈活性允許模型探索具有多個潛在解決方案路徑的複雜問題,最終收斂到正確的結論。
根據 Behl 的說法,RL 使模型能夠「產生非常長的答案和許多不同的答案」,主要重點是最終結果的準確性。這種對結果的強調,而不是採取的具體步驟,反映了人類解決問題的方式。不同的思考過程是可以接受的,只要它們能得出正確的答案。
在 Microsoft 的模型中,RL 階段有目的地側重於數學推理。獎勵系統激勵準確性,同時懲罰重複、過度長度和不正確的回應格式。
Behl 進一步解釋說,研究人員允許模型為給定的問題生成多個答案。然後根據每個答案與生成答案群組中的平均分數的比較來對其進行評分。
這些相對分數作為回饋機制,引導模型傾向於始終獲得較高分數的答案。隨著時間的推移,此過程會訓練模型使其回應更符合所需的獎勵訊號。
研究人員觀察到,將 RL 應用於有限的 6,400 個問題可以顯著提高各種數學和推理評估的準確性。
「在構建了 Phi-1、Phi-2、Phi-3 和 Phi-4 之後,我從研究中得出的一個結論是,RL 需要的資料遠少於 SFT 訓練,」Behl 指出。
他將此歸因於這樣一個事實,即 RL 並非完全從頭開始向模型傳授全新的技能,而是更多地引導模型有效地組合和利用現有技能以實現更好的結果。
Microsoft 在強化學習方面的成功與許多其他 AI 公司的經驗一致。OpenAI 是推理模型的先驅,已多次強調 RL 對其專案的有利影響。
有趣的是,去年擾亂 AI 格局的中國模型 DeepSeek R1 也將其成功部分歸功於 RL 的應用。此外,OpenAI 的幾位研究人員和工程師公開承認 RL 在其深度研究計畫成功中的關鍵作用。
最近,阿里巴巴的 Qwen 模型也認可了強化學習,強調了其對推理模型的重大影響。在部落格文章中,該公司表示:「我們有信心,將更強大的基礎模型與由大規模計算資源驅動的 RL 相結合,將推動我們更接近實現人工通用智慧 (AGI)。」
然而,儘管 Phi-4 Reasoning、Phi-4 Reasoning Plus 和許多其他推理模型取得了成功,但該領域仍然面臨幾個挑戰。
不斷改進的追求
近幾個月來,許多研究報告強調了現有推理模型的局限性和潛在缺陷。例如,在他們關於 Phi-4 Reasoning 的研究論文中,Microsoft 研究人員承認,他們仍在努力解決與時間和資源過度消耗、回應速度較慢,以及最值得注意的是,模型的回應與其自身先前的推理步驟相矛盾的問題相關的挑戰。
在另一個重要的進展中,Anthropic 發表了一項研究,揭示推理鏈(通常稱為思維鏈,或 CoT)可能無法始終反映模型的實際推理過程。研究人員發現,模型經常利用外部提示,例如插入提示中的顯式線索以引導它們獲得正確的答案,但很少在其顯式推理步驟中承認或口頭表達這些提示。模型內部行為與其外部解釋之間的這種差異引發了人們對使用 CoT 作為模型可解釋性和確保安全性的可靠工具的擔憂。
即使是 OpenAI 也發布了研究報告,強調了高級推理模型容易進行「獎勵駭客」的事實。「獎勵駭客」是指 AI 代理利用其定義目標中未預見的漏洞或意外後果,以最初未預期或期望的方式最大化獎勵的情況。OpenAI 探索了減輕這種情況的策略,例如使用較弱的模型 (GPT-4o) 監控像 o3-Mini 這樣更強大的模型,儘管這引入了它自身的複雜性和潛在的偏差。
OpenAI 的技術人員 Nat McAleese 強調「大型推理模型非常擅長獎勵駭客」,並引用了報告中精心挑選的例子來說明這一點。
「推理鏈中存在大量冗餘;它們自相矛盾,並且存在大量未解答的問題,」Behl 評論道。「但是,這是一個不斷發展的空間。如果我們能夠作為一個社群解決這個問題並了解模型的思考方式,將會有很大的收穫。」推理模型的未來取決於透過持續的研究和 AI 社群內的協作來應對這些挑戰。