微軟的 Phi-4 Reasoning 呈現了精巧、開放權重(MIT 授權)、快速且高效的 SLM,能夠進行進階推理。
儘管微軟是 OpenAI 的特權合作夥伴,並與大多數參與者合作將其 AI 模型整合到 Azure AI Foundry 中,但它並未迴避追求自己的技術途徑。 這包括在神經網絡核心方面的創新工作,例如基於 Trit 的引人入勝的 BitNet b1.58 模型、其自身的開源 SLM,甚至是保密的 Frontier 模型(Project MAI-1)。
在推出其小型 AI 模型 (SLM) Phi-3 系列一年後,以及在推出具備多模態 SLM 的第 4 代 (Phi-4-Multimodal) 和一個小型模型 (Phi-4-mini) 兩個月後,微軟宣布了其最新一代 SLM 的三個新變體:Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning。
這些「推理整合」版本於 2025 年 4 月 30 日發布,擴展了需要維持低延遲但同時又需要複雜推理的開發人員的精巧模型開放權重產品。
微軟工程師使其 SLM 具有「推理」能力的核心方法是:依賴來自 OpenAI 的推理鏈 o3-mini 的細粒度監督 (SFT),並為「plus」版本利用強化學習 (RL)。 微軟解釋說:「透過蒸餾、強化學習和高品質數據,這些模型協調了大小和效能。」
小而天賦異稟
在市場上各種領先的基準測試中獲得的結果足以讓競爭對手黯然失色:通常只有 140 億個參數,Phi-4-reasoning 在 AIME 2025、MMLU-Pro 或 HumanEval-Plus 系列上的效能優於 DeepSeek-R1-Distill-Llama-70B(700 億個參數),並且接近完整的 DeepSeek-R1 模型(6710 億個參數)! Phi-4-reasoning-plus 變體具有相同的 140 億個參數,但使用 1.5 倍以上的 Token 進行訓練,幾乎與 OpenAI 的 o3-mini 在 OmniMath 上的得分相匹配! 作為參考,Phi-4-reasoning 受益於經典的 128,000 個 Token 上下文視窗,該視窗已擴展到 Phi-4-reasoning-plus 版本的 256,000 個 Token。
Phi-4-mini-reasoning 專為嵌入式系統設計,顯示 38 億個參數、由 DeepSeek-R1 產生的一百萬個數學問題的合成集,並在 Math-500 上實現 o1-mini 效能,同時超越了具有 70 億到 80 億個參數的幾個模型。 憑藉其超小尺寸,此模型非常適合本機執行,包括在行動裝置上,以及滿足近乎即時回應的需求。 它特別適合教育用途和本機聊天機器人。
開放模型用於各種用途
在部署方面,CISO 會發現這些模型已經針對 Copilot+ PC 進行了最佳化:NPU 變體「Phi Silica」已預先載入記憶體中,並提供近乎即時的回應時間,保證與商業應用程式的節能共存。 Windows API 允許將離線生成整合到 Outlook 或內部工具中。
在安全性方面,微軟聲稱有一條與其責任原則(問責制、公平性、可靠性、安全性和包容性)相符的管道。 這些模型接受後訓練,結合了來自公共和內部「有益性/無害性」導向集的 SFT、直接偏好最佳化和 RLHF。 微軟還發布了其模型的「卡片」,其中詳細說明了剩餘的限制和緩解措施。
這三個模型現已在 Azure AI Foundry、Hugging Face 和 GitHub Models 上提供,並在非常寬鬆的 MIT 授權下發布,為本機推論以及混合雲端部署開闢了道路。 對於安全和架構團隊來說,這一新一代 SLM 為大規模 LLM 提供了一種可靠的替代方案,降低了 TCO,可以在本機和 Edge 執行,並增加了數據控制。 這些模型證明了 SLM 在一年內取得的令人難以置信的進展以及它們在尋找更便宜、更節能和資源節約型 AI 的宇宙中令人驚嘆的潛力。
深入探討 Phi-4 的推理能力
Phi-4 系列模型的問世,代表了小型語言模型 (SLM) 開發方面的一大進步。 這些模型的獨特之處在於其增強的推理能力,這是透過創新的訓練技術和對高品質資料的關注而實現的。 微軟對開源原則的承諾進一步普及了對這些強大工具的存取,使開發人員能夠將進階 AI 功能整合到廣泛的應用程式中。
了解架構
Phi-4 模型建立在 Transformer 架構之上,這是一個經過驗證的自然語言處理框架。 然而,微軟實施了幾個關鍵創新來最佳化模型以執行推理任務。
- 細粒度監督 (SFT): 這些模型使用一種稱為細粒度監督 (SFT) 的技術進行訓練,該技術涉及從 OpenAI 的 o3-mini 模型產生的詳細推理鏈中學習。 這使 Phi-4 模型能夠學習複雜推理過程中涉及的步驟。
- 強化學習 (RL): Phi-4 模型的「plus」變體 Phi-4-reasoning-plus 利用強化學習 (RL) 來進一步增強其推理能力。 RL 涉及訓練模型以最大化獎勵訊號,在這種情況下,獎勵訊號基於其推理的準確性和效率。
- 蒸餾: 採用蒸餾將知識從較大、更複雜的模型轉移到較小的 Phi-4 模型。 這使 SLM 能夠實現與更大的模型相當的效能水平,同時保持其精巧的尺寸和效率。
基準效能
Phi-4 模型在各種推理基準測試中展現了令人印象深刻的效能,在某些情況下甚至超過了更大的模型。 例如,僅具有 140 億個參數的 Phi-4-reasoning 在多個具有挑戰性的數據集(包括 AIME 2025、MMLU-Pro 和 HumanEval-Plus)上的效能優於 DeepSeek-R1-Distill-Llama-70B(700 億個參數)。 這突顯了 Phi-4 的架構和訓練技術的效率和有效性。
Phi-4-reasoning-plus 變體使用 1.5 倍以上的 Token 進行訓練,在 OmniMath 基準測試中取得了接近 OpenAI 的 o3-mini 的分數,證明了其解決複雜數學推理問題的能力。
應用與用例
Phi-4 模型非常適合各種需要進階推理能力的應用。
- 教育工具: Phi-4-mini-reasoning 模型具有小尺寸和高性能,非常適合教育應用。 它可以被用來創建互動式學習工具,為學生提供個人化的回饋和支持。
- 本機聊天機器人: Phi-4 模型可用於建構本機聊天機器人,為使用者提供即時資訊存取和支持。 它們的尺寸小,使其能夠部署在行動裝置和其他資源受限的環境中。
- Copilot+ PC: Phi-4 模型針對 Copilot+ PC 進行了最佳化,為使用者提供無縫的 AI 體驗。 「Phi Silica」變體已預先載入記憶體中,並提供近乎即時的回應時間。
- 離線產生: Windows API 允許將離線產生整合到 Outlook 或內部工具中,使用戶即使未連接到網際網路也能存取 AI 功能。
安全與責任
微軟致力於以負責任和道德的方式開發和部署 AI 模型。 Phi-4 模型也不例外。
- 責任原則: 微軟的 AI 開發管道與其責任原則相符,其中包括問責制、公平性、可靠性、安全性和包容性。
- 後訓練: Phi-4 模型使用來自公共和內部「有益性/無害性」導向數據集的 SFT、直接偏好最佳化和 RLHF 進行後訓練。 這有助於確保模型安全可靠。
- 模型卡片: 微軟發布其模型的「卡片」,其中詳細說明了剩餘的限制和緩解措施。 這為使用者提供了透明度,並允許他們就如何使用模型做出明智的決策。
SLM 的未來
Phi-4 模型代表了小型語言模型 (SLM) 開發方面的一大進步。 它們增強的推理能力,加上它們的小尺寸和效率,使它們成為許多應用中較大型語言模型 (LLM) 的引人注目的替代方案。
隨著 SLM 的不斷改進,它們可能會在 AI 格局中發揮越來越重要的作用。 它們在資源受限裝置上運行的能力以及提供快速、高效能的能力,使其非常適合廣泛的應用,從教育工具到本機聊天機器人再到邊緣運算裝置。
微軟對開源原則和負責任的 AI 開發的承諾進一步將 Phi-4 模型定位為 AI 社群的寶貴資源。 透過普及對這些強大工具的存取,微軟正在賦予開發人員創造創新且有影響力的應用,從而使整個社會受益。
更深入地了解技術層面
深入研究 Phi-4 架構和訓練的細節,可以揭示使這些 SLM 能夠實現如此令人印象深刻的推理能力的創新技術。 經過精心策劃的數據集、複雜的訓練演算法以及對效率的關注相結合,產生了一系列既強大又實用的模型。
數據策劃與準備
任何機器學習模型的成功都取決於其訓練所用數據的品質和相關性。 微軟投入了大量精力來策劃和準備用於訓練 Phi-4 模型的數據集。
- 來自 OpenAI 的 o3-mini 的推理鏈: 這些模型利用來自 OpenAI 的 o3-mini 模型產生的推理鏈來學習複雜推理過程中涉及的步驟。 這些鏈為 SLM 提供了一個詳細的路線圖,使它們能夠更深入地了解底層邏輯。
- 合成數學問題: Phi-4-mini-reasoning 模型在由 DeepSeek-R1 產生的一百萬個數學問題的合成數據集上進行訓練。 該數據集提供了多種數學挑戰,使模型能夠培養強大的問題解決能力。
- 有益性/無害性數據集: 這些模型使用旨在促進有益性和無害性的數據集進行後訓練。 這有助於確保模型產生安全且負責任的輸出。
訓練演算法
Phi-4 模型使用監督學習、強化學習和蒸餾相結合的方式進行訓練。 這些技術協同工作,以最佳化模型以執行推理任務,並確保它們既準確又高效。
- 監督微調 (SFT): SFT 用於在 OpenAI 的 o3-mini 模型產生的推理鏈上微調模型。 這使模型能夠學習複雜推理過程特有的特定模式和關係。
- 強化學習 (RL): RL 用於訓練 Phi-4-reasoning-plus 模型,以最大化基於其推理的準確性和效率的獎勵訊號。 這鼓勵模型開發既有效又計算效率高的问题解决方案。
- 蒸餾: 蒸餾用於將知識從較大、更複雜的模型轉移到較小的 Phi-4 模型。 這使 SLM 能夠實現與更大的模型相當的效能水平,同時保持其精巧的尺寸和效率。
效率最佳化
開發 Phi-4 模型的一個關鍵目標是最佳化其效率。 這反映在其設計和訓練的幾個方面。
- 精巧的架構: Phi-4 模型採用精巧的架構設計,最大限度地減少了所需的參數數量。 這降低了運行模型的計算成本,使其非常適合在資源受限的裝置上部署。
- 量化: 量化用於減少模型的記憶體佔用量並提高其推論速度。 這涉及使用較少的位元來表示模型的參數,這可以顯著降低運行模型的計算成本。
- 硬體加速: Phi-4 模型針對各種平台(包括 CPU、GPU 和 NPU)上的硬體加速進行了最佳化。 這使它們能夠在各種裝置上實現最大效能。
對 AI 未來的影響
Phi-4 模型代表了 AI 開發方面的一大進步,其影響遠遠超出了其設計的特定應用。 它們能夠以相對較小的尺寸和計算資源實現高性能,為在各種設定中部署 AI 開闢了新的可能性。
AI 民主化
Phi-4 模型證明了強大的 AI 功能可以在不需要大量計算資源或存取專有數據集的情況下實現。 這使得 AI 的存取民主化,使開發人員和研究人員即使在資源有限的情況下也能創建創新的應用。
邊緣運算
Phi-4 模型的尺寸小且效率高,使其非常適合邊緣運算應用。 這允許將 AI 部署在更靠近數據來源的位置,從而減少延遲並提高回應能力。 邊緣運算有潛力徹底改變廣泛的產業,從製造業到醫療保健再到運輸業。
個人化 AI
Phi-4 模型可以自訂和調整以滿足個別使用者或組織的特定需求。 這允許創建個人化的 AI 體驗,這些體驗根據每個使用者的獨特需求量身定制。 個人化 AI 有潛力提高生產力、加強學習並改善整體福祉。
永續 AI
Phi-4 模型是較大型語言模型的更永續的替代方案,需要的能源和計算資源更少。 這對於減少 AI 的環境影響並確保可以以負責任且永續的方式部署它是很重要的。
微軟 Phi-4-Reasoning 模型不僅僅是 AI 不斷發展的世界中的另一次迭代; 它們是一種範式轉移。 它們證明了智慧不僅僅是規模和計算能力的函數,而且可以透過巧妙的設計、對數據的仔細策劃和創新的訓練技術來實現。 隨著這些模型的不斷發展,它們有望釋放 AI 的新可能性並改變我們與技術互動的方式。