在 Azure AI Foundry 上推出 Phi-3 系列小型語言模型 (SLM) 一年後,Microsoft 推出了其下一代模型:Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning。這些創新標誌著 SLM 的轉捩點,重新定義了透過精巧高效的 AI 可以實現的目標。
Phi-Reasoning 模型的新紀元
全新的 Phi-reasoning 模型經過精心設計,可以利用推論時的擴展能力,處理需要多步驟分解和內部反思的複雜任務。這些模型在數學推理方面展現出卓越的能力,確立了它們作為代理程式類應用程式的基礎,能夠處理複雜且多面向的任務。從歷史上看,這種能力是大型模型的專屬。Phi-reasoning 模型推出了一種新的 SLM 類別,利用蒸餾、強化學習和高品質資料,在尺寸和效能之間取得平衡。它們精巧的尺寸使其適用於低延遲環境,而它們強大的推理能力可以與更大的模型相媲美。這種效率和能力的結合使資源受限的裝置也能有效地執行複雜的推理任務。
Phi-4-Reasoning 和 Phi-4-Reasoning-Plus:深入探討
Phi-4-Reasoning:開放權重的推理模型
Phi-4-reasoning 作為一個擁有 140 億個參數的開放權重推理模型而脫穎而出。它旨在與更大的模型在複雜的推理任務中競爭。該模型透過在 OpenAI 的 o3-mini 中提取的精心策劃的推理範例上對 Phi-4 進行監督式微調來訓練。Phi-4-reasoning 產生詳細的推理鏈,有效地利用推論期間額外的計算時間。這一成就突顯了精確的資料策劃和高品質的合成資料集如何使較小的模型能夠與較大的模型相媲美。
Phi-4-Reasoning-Plus:透過強化學習增強推理能力
在 Phi-4-reasoning 的基礎上,Phi-4-reasoning-plus 透過強化學習進行了進一步的訓練,以便在推論期間利用額外的計算時間。它處理的 token 比 Phi-4-reasoning 多 1.5 倍,從而提高了準確性。
效能基準
儘管尺寸明顯較小,但 Phi-4-reasoning 和 Phi-4-reasoning-plus 在各種基準測試中都優於 OpenAI 的 o1-mini 和 DeepSeek-R1-Distill-Llama-70B,包括數學推理和博士級科學探究。令人印象深刻的是,它們甚至在 AIME 2025 測試中超越了完整的 DeepSeek-R1 模型(具有 6710 億個參數),該測試是 2025 年美國數學奧林匹克競賽的資格賽。這兩個模型都可以在 Azure AI Foundry 和 Hugging Face 上輕鬆存取。
Phi-4-Mini-Reasoning:適用於受限環境的精巧強者
Phi-4-mini-reasoning 專為滿足對精巧推理模型的需求而設計。這種基於 Transformer 的語言模型針對數學推理進行了最佳化,並在計算能力或延遲受到限制的環境中提供高品質、逐步的問題解決能力。透過使用 Deepseek-R1 模型產生的合成資料進行微調,它可以有效地平衡效率與先進的推理能力。這使其非常適合教育應用程式、嵌入式輔導系統以及邊緣或行動系統上的輕量部署。該模型經過超過一百萬個不同的數學問題的訓練,難度範圍從中學到博士級,確保了其在各種教育環境中的多功能性和有效性。
Phi 的實際應用:拓展視野
在過去的一年中,Phi 的發展不斷提升品質與尺寸的比例,其系列產品不斷擴展,以包含針對不同需求量身定制的新功能。這些模型可以在各種 Windows 11 裝置的 CPU 和 GPU 上在本機執行,從而為具有不同硬體配置的使用者提供靈活性和可存取性。
與 Copilot+ PC 的整合:AI 驅動運算的新時代
Phi 模型是 Copilot+ PC 的組成部分,利用 NPU 最佳化的 Phi Silica 變體。這個由作業系統管理的高效能 Phi 版本,設計為預先載入記憶體,提供快速的反應時間和節能的 token 吞吐量。這使其能夠與 PC 上的其他應用程式同時調用,從而增強多工處理能力和整體系統效能。
真實世界的應用
Phi 模型已經被用於核心體驗中,例如 Click to Do,它為所有螢幕內容提供智慧文字工具。它們也可以作為開發人員 API 使用,以便無縫整合到應用程式中。這些模型目前被用於各種生產力應用程式中,例如 Outlook,它們提供離線 Copilot 摘要功能。Phi-4-reasoning 和 Phi-4-mini-reasoning 模型利用 Phi Silica 的低位元最佳化,並將很快在 Copilot+ PC NPU 上執行。
Microsoft 對負責任 AI 和安全的承諾
在 Microsoft,負責任的 AI 是一項基本原則,指導 AI 系統(包括 Phi 模型)的開發和部署。Phi 模型的開發符合 Microsoft AI 原則:問責制、透明度、公平性、可靠性和安全性、隱私和安全以及包容性。Phi 系列模型採用強大的訓練後安全方法,利用監督式微調 (SFT)、直接偏好最佳化 (DPO) 和來自人類回饋的強化學習 (RLHF) 技術的組合,以確保其負責任和合乎道德的使用。
Phi 模型的技術基礎:詳細檢驗
Microsoft 的 Phi 模型代表了小型語言模型領域的重大進展,尤其是在以相對較少的參數執行複雜推理任務的能力方面。本節深入探討了使這些模型能夠實現如此令人印象深刻的效能的技術細節。
架構創新
Phi 模型基於 Transformer 架構,這是一種深度學習模型,徹底改變了自然語言處理。Transformer 擅長捕捉文字中的遠程依賴關係,使模型能夠理解語言的上下文和細微差別。
注意力機制: Transformer 架構的核心是注意力機制,它允許模型在產生輸出時專注於輸入中最相關的部分。這對於推理任務尤其重要,在推理任務中,模型需要識別關鍵資訊和關係才能得出正確的結論。
縮放點積注意力: Phi 模型利用縮放點積注意力,這是注意力機制的 refined 版本,其中包括縮放因子,以防止點積變得太大,這可能會導致訓練期間的不穩定。
多頭注意力: 為了捕捉輸入的不同方面,Phi 模型採用多頭注意力,其中多個注意力機制並行運作。每個頭專注於輸入的不同子集,使模型能夠學習更複雜的表示。
前饋網路: 在注意力層之後,Transformer 架構包括前饋網路,該網路進一步處理資訊。這些網路由多層神經元組成,這些神經元學習從注意力輸出中提取特徵。
訓練方法:多面向的方法
Phi 模型的訓練涉及多種技術的組合,包括監督式微調、強化學習和資料蒸餾。
監督式微調 (SFT): 監督式微調涉及在標記的資料集上訓練模型,其中輸入是一個問題或問題,輸出是正確的答案或解決方案。這有助於模型學習將特定輸入與相應的輸出相關聯。
強化學習 (RL): 強化學習是一種技術,其中模型透過與環境互動並因其行為而獲得獎勵或懲罰來學習做出決策。在語言模型的上下文中,環境可能是一組規則或約束,獎勵可能基於模型回應的準確性。
資料蒸餾: 資料蒸餾是一種技術,其中訓練較小的模型來模仿較大、更複雜模型的行為。這允許較小的模型實現與較大模型相當的效能,同時需要更少的資源。
資料策劃:效能的基石
Phi 模型的效能在很大程度上依賴於用於訓練的資料的品質。Microsoft 投入了大量精力來策劃專為推理任務設計的高品質資料集。
合成資料產生: 為了擴充可用的資料,Microsoft 開發了用於產生模仿真實世界資料特徵的合成資料的技術。這允許模型在更大、更多樣化的資料集上進行訓練,從而提高它們的泛化能力。
資料過濾: Microsoft 採用嚴格的資料過濾技術,從訓練資料集中刪除雜訊或不相關的資料。這確保了模型在乾淨且準確的資料上進行訓練,從而實現更好的效能。
資料增強: 資料增強技術用於透過將轉換應用於現有資料來增加訓練資料集的多樣性。這有助於模型對輸入的變化更具魯棒性。
最佳化技術:平衡效率和準確性
Phi 模型針對效率和準確性進行了最佳化,使其能夠在資源受限的裝置上執行,而不會犧牲效能。
量化: 量化是一種技術,其中降低了模型參數的精度,從而減少了模型的記憶體佔用空間和計算要求。
剪枝: 剪枝是一種技術,其中刪除了模型中不太重要的連接,從而減小了模型的大小和複雜性。
知識蒸餾: 知識蒸餾涉及將知識從較大、更複雜的模型轉移到較小的模型。這允許較小的模型實現與較大模型相當的效能,同時需要更少的資源。
Phi Silica NPU:硬體-軟體協同方法
Microsoft 的 Phi 模型旨在與 Phi Silica NPU (神經處理單元) 緊密整合,這是一種專門的硬體加速器,針對深度學習工作負載進行了最佳化。
低位元最佳化: Phi Silica NPU 支援低位元最佳化,這允許模型以降低的精度執行,從而進一步減少其記憶體佔用空間和計算要求。
預先載入記憶體: Phi 模型設計為預先載入記憶體,這允許它們快速有效地調用。
作業系統管理: Phi Silica NPU 由作業系統管理,這允許它無縫整合到使用者體驗中。
總之,Microsoft 的 Phi 模型代表了小型語言模型領域的一項重大成就。透過結合創新的架構設計、嚴格的訓練方法、仔細的資料策劃以及硬體-軟體協同設計,Microsoft 創建了一個既強大又高效的模型系列,從而實現了廣泛的 AI 驅動應用程式。