Phi-4 推理模型的崛起
AI 世界目前正被推理模型所吸引,而微軟最近推出了 Phi-4 系列的推理模型。這包括 Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning。特別值得注意的是,即使是這些模型中最大的,僅擁有 140 億個參數,也能在高階效能的筆記型電腦上順暢運行。此外,38 億參數的 Phi-4-mini-reasoning 在數學推理方面超越了 80 億參數的 DeepSeek-R1 蒸餾模型,突顯了較小模型在推理任務中的力量。
微軟並未等待四月份第二代 DeepSeek-R2 推理模型的發布,而是推出了一系列新的 Phi-4 推理模型。這些模型在數學推理方面表現出卓越的效能,超越了 DeepSeek-R1 蒸餾模型,儘管 Phi-4-Mini-Reasoning 的參數規模更小。
微軟 AI Frontiers 實驗室的合作夥伴研究經理 Ahmed Awadallah 描述了 Phi-4-reasoning,並總結了新模型的功能。
- 該模型使用監督式微調(使用精心挑選的推理範例資料集)和強化學習進行訓練。
- 它在推理基準測試中表現良好,並且可以與較大的頂級模型(例如 DeepSeek R1)相媲美。
- 它在新的測試(例如 AIME 2025、HMMT)中持續表現強勁
- 推理能力具有很強的可轉移性/泛化能力,即使僅經過監督式微調,它也可以適應新的任務(例如 k-SAT、數學方程式求解、排程等)
- 保留並大大提高了通用功能(例如指令理解和執行)
他表示,Phi-4 仍然有幾個方面需要改進,尤其是在上下文長度、編碼能力和工具整合方面。
除了模型本身之外,微軟還分享了一份詳細的技術報告,其中提供了對模型訓練和評估過程的深入分析。
在 X 上,微軟研究院 AI Frontiers 實驗室的首席研究員兼威斯康辛大學的副教授 Dimitris Papailiopoulos 介紹了有關 Phi-4 推理模型的更多資訊。
他認為 Phi-4-reasoning 已經完全達到了研究生水平,並且可以在本地 PC 上運行。
這超出了他對 AI 發展的期望。
新模型具有很少的參數,但效能強大。
效能強大的模型
儘管尺寸不大,但該模型在數學基準測試中表現出色,例如 AIME、HMMT 和 OmniMath。它的效能與較大的開放權重模型(如 QwQ-32B、R1-70B 和 R1)以及封閉模型(如 o1-mini 和 sonnet 3.7)相當或超過。
該模型尺寸小巧,適合在高階效能的筆記型電腦上順暢運行。
同時,它能夠解決許多即使較大的非推理模型和一些推理模型也無法解決的難題。
它也通過了 DimitrisEval 測試!
令人驚訝的是,推理似乎是一種真正可轉移的「元技能」,甚至可以通過監督式微調 SFT 來學習!
證據 1:即使沒有針對非推理任務的專門訓練,研究人員仍然觀察到 IFEval、FlenQA 和內部 PhiBench 的效能顯著提高(增加了 10 多個點!)。
此外,在 SFT 階段與編碼相關的數據非常少(並且在 RL 階段根本沒有),但該模型在這方面仍然表現良好。
此外,Dimitris Papailiopoulos 透露,編程是後續版本的重點。
證據 2:對於某些未明確訓練的問題(無論是 SFT 還是 RL 階段),例如旅行推銷員問題、迷宮求解、k-SAT、約束規劃等,該模型在這些任務中表現非常出色!
而 Phi-4(甚至 GPT-4)都無法做到這一點。
這充分說明了推理能力確實可以作為一種技能來轉移!
經過非常短的一輪強化學習(僅使用 6,000 個樣本,而 SFT 為 140 萬個範例)後,模型的推理機制似乎已被「鎖定」。
這讓 Dimitris Papailiopoulos 感到特別震驚。
他覺得這就像強化學習教會了模型以「自己的語言」進行推理,在 AIME 和 HMMT 上的準確性提高了約 10%,並且在難題中平均答案長度增加了 50%。
強化學習真的很有效!!
推理機制被「鎖定」的現象通常會使模型的輸出分佈更加集中,並且準確性也更高。
微軟先前的研究也反映了強化學習可以顯著提高模型能力的事實。
在強化學習階段,新模型甚至沒有針對數據進行特殊優化:6,000 個問題只是從更大的資料集中隨機選擇的。
那麼為什麼微軟沒有進行更多的強化學習訓練呢?
因為模型生成的答案超過了 32k 上下文長度(模型未接受過訓練的長度),他們只能截斷它。
此外,借助並行推理計算(例如 Maj@N),新的推理模型幾乎達到了 AIME 2025 上的效能極限,甚至超過了其教師模型(o3-mini)的 pass@1 效能。
並且在 2025 年 2 月之前完成了所有數據收集,HMMT 也是如此。
在其他任務中,研究人員還觀察到了「超越教師」的現象,例如 OmniMath 和日曆規劃任務。
SFT 階段的 prompt 設計,加上後續的強化學習過程,似乎賦予了模型「自我改進」的能力,超出了教師模型提供的知識範圍。
在下圖中,洋紅色代表 o3-mini,綠色代表 Phi。
一個有趣的現象是:回應長度排在前 25% 的長文本通常與錯誤答案密切相關!
然而,另一方面,在大多數評估中,整體平均答案長度更長,並且準確性更高。
換句話說,增加測試期間的計算資源確實有幫助,但模型在「卡住」時也容易「胡言亂語」。
關於模型的局限性,還有一些需要注意的事項:
- 處理超過 32k 的上下文長度的能力尚未完全擴展或測試。
- 模型在處理簡單問題時容易「過度思考」,並且在自我評估中可能顯得過於冗長。
- 多輪對話的能力尚未得到廣泛測試。
當然,還有更多「盲點」有待發現,但總體而言,研究團隊認為他們正走在正確的軌道上!
訓練驚喜
微軟研究院的首席研究經理 Suriya Gunasekar 屬於負責開發 Phi 系列模型的「AGI Physics」團隊,他專注於介紹這項工作的核心原則。
這次,微軟 Phi 團隊專注於後訓練階段,並推出了 Phi-4-reasoning(僅使用 SFT)和 Phi-4-reasoning-plus(SFT+ 少量 RL)。
兩者都是 14B 模型,已在推理和一般任務基準測試中展現出強大的能力。
這項工作的核心在於 prompt 選擇以及對可轉移、自我改進的推理技能的實驗探索。
在訓練過程中,有兩個令人驚訝的發現:
首先,只要使用少量經過領域訓練的長鏈推理 (CoT) 軌跡,Phi-4 就可以在多個任務中實現顯著的效能提升,例如排程、迷宮求解(沒有視覺輸入)、IFEva、FlenQA、KITAB(基於查找的問答)和內部 PhiBench;
其次,即使僅使用 6,000 個數學範例進行最少的 RL 訓練,模型在某些基準測試中的效能也會顯著提高,最高提升幅度達到 10%(但 token 使用量增加了約 1.5 倍),並且在 RL 階段也觀察到了跨領域的技能轉移。
換句話說,與 OpenAI 和 Google 等主要競爭對手相比,微軟 Phi-4 推理系列展示了新的可能性:透過使用高品質的數據和精煉的訓練策略,小型模型可以在特定任務中匹配甚至超越大型模型。
核心方法
推理模型 Phi-4-reasoning 具有 140 億個參數,並在複雜的推理任務中表現強勁。
該模型基於 Phi-4 進行監督式微調訓練,使用精心挑選的一組「可教導的」提示,這些提示既具有適當的複雜性又具有多樣性;o3-mini 生成的推理範例在訓練過程中用作參考。
Phi-4-reasoning 可以產生詳細的推理鏈,並在推理過程中充分利用計算資源。
在此基礎上,微軟進一步開發了 Phi-4-reasoning-plus。
它在原始模型的基礎上透過一個小階段的基於結果的強化學習來增強,並產生更長和更強大的推理鏈。
研究表明,精心設計的 SFT 資料集 可以顯著提高推理語言模型的效果,而強化學習 (RL) 可以在此基礎上進一步放大這種改進。
在 SFT 實驗中,即使在這個相對簡單的生成設置中,仔細選擇和嚴格篩選種子問題仍然是模型成功的關鍵。
他們對整個訓練資料集進行了嚴格的去污染過程,以確保它不包含與廣泛使用的推理或一般基準問題高度重疊的數據,包括本報告中未提及的一些基準。
已去污染的基準測試的完整列表如下:
- 數學和推理: AIME-2024、MATH、GPQA、OmniMATH、GSM8k
- 編程: LiveCodeBench、Codeforces、HumanEval、MBPP
- 問答和一般知識: SimpleQA、DROP、AGIEval、ARC-Challenge、ARC-Easy、CommonsenseQA、OpenBookQA、PIQA、WinoGrande
- 其他評估任務: SWE-Bench Verified、ArenaHard、MT-Bench、PhiBench
透過對具有 140 億個參數的 Phi-4 模型進行監督式微調 (SFT),研究人員獲得了 Phi-4-reasoning,在此之前沒有任何強化學習。
SFT 的目標是提煉基本模型中包含的結構化推理能力。
Phi-4-reasoning 的架構與 Phi-4 模型的架構相同,但有兩個關鍵修改:
- 推理 tokens: 基本模型中的兩個佔位符 tokens 被重新用作 和 tokens,它們用於標記推理(「思考」)過程的開始和結束。
- 增加 Token 長度: 基本模型 (Phi-4) 最初支援的最大 token 長度為 16K。為了容納額外的推理 tokens,RoPE 的基本頻率加倍,並且該模型在最大 token 長度為 32K 的情況下進行訓練。
他們使用合成方法生成了大量思維鏈推理範例。
使用的 SFT 資料集包含超過 140 萬個提示-回應對,總計 83 億個獨特 tokens,涵蓋數學和編程等推理領域,以及用於安全和負責任 AI 的對齊數據。
圖 4a 顯示了整個 SFT 迭代過程中關鍵指標的變化。
在訓練的早期,該模型開始使用顯式的「思考」tokens,這表明該模型快速學習了這種淺層結構化格式。
然而,如圖 4a 所示,思維鏈模組的有效性和模型的推理能力在整個訓練過程中都在提高,這表明該模型不僅僅是複製格式,而且實際上是在學習推理技能。
有趣的是,與強化學習不同,研究人員沒有在 SFT 過程中看到回應長度的增加。
事實上,如圖 4b 所示,平均回應長度略有下降。
這表明隨著訓練的進行,該模型正在學習更有效地利用其 token 預算。
為了系統地評估不同的訓練策略,他們使用了一個固定的基準 - AIME 2024 和 GPQA diamond - 作為進度的指標。
總體而言,實驗方法可以分為兩個階段:探索和擴展。
在探索階段,研究人員使用較短的訓練週期和有限的數據來源和領域來快速迭代和提取穩健的訓練方法。
在隨後的擴展階段,研究人員總結了早期降低風險實驗的結果,並最終確定了 SFT 設置。
圖 5 總結了這一進展,突出了幾個關鍵設計選擇的消融實驗。
圖 5 顯示了 Phi-4-reasoning 監督式微調 (SFT) 實驗週期的概要,包括探索和擴展階段,使用一些範例實驗來表示。每個點叢集代表特定訓練設計選擇的實驗結果。
圖 7 顯示了 Phi-4-reasoning-plus 模型在 GRPO 訓練過程中發現的關鍵結果。
從監督式微調 (SFT) 基本模型 Phi-4-reasoning 開始,僅 90 步 GRPO 訓練使 AIME 效能提高了 10% 以上(圖 7a)。
繼續增加訓練步驟沒有帶來額外的好處,這表明強大的 SFT 模型的潛力接近效能上限。 應該注意的是,GRPO 訓練中的輸出限制在 31k tokens 以內,這客觀上限制了 GRPO 的優化空間。
如圖 7c 所示,回應長度與 AIME 效能密切相關,而獎勵分數與 AIME 分數之間的相關性較弱。 這種回應長度增長效應是 GRPO 訓練的預期效果 - 該模型透過增加「思考時間」來提高其推理能力。
圖 7d 進一步揭示,由於獎勵模型的設計,錯誤答案的生成長度比正確答案的生成長度增長得更快(當模型目前的答案錯誤時,系統會鼓勵它思考更長的時間)。
事實上,僅基於回應長度(特別是顯著超過中位數的長回應)執行拒絕抽樣可能會進一步提高 GRPO 效能。
如圖 7d 所示,較短回應(長度位於底部 25% 分位數)在訓練過程中的增長趨勢與正確答案的平均長度相似,而錯誤答案的長度更接近總體回應長度的 75% 分位數。
這種區分現象表明,基於長度的拒絕抽樣可以透過抑制過於冗長的錯誤輸出來提高模型效率。