微軟研究院推出了Phi-4,這是一款擁有140億參數的小型語言模型,旨在提升數學推理領域的先進水平。這款模型最初在Azure AI Foundry上提供,最近已在Hugging Face上以MIT許可證的形式開放。
Phi-4 的創新之處
據微軟稱,Phi-4 在數學推理方面的表現優於同類及更大的模型,這歸功於其在訓練過程中採用的多項創新技術,包括:
- 合成數據預訓練和中期訓練: 使用合成數據進行預訓練和中期訓練,為模型提供更結構化的學習路徑。
- 有機數據管理: 精心策劃和篩選有機數據,確保訓練數據的質量。
- 全新後訓練方案: 採用新的後訓練方法,進一步提升模型的性能。
這些創新使得 Phi-4 在以 STEM 為重點的問答能力上超越了其教師模型 GPT-4o,證明了微軟的數據生成和後訓練技術並非簡單的知識蒸餾。
合成數據的獨特優勢
在大型語言模型(LLM)的訓練中,使用合成數據並非新鮮事,Phi 模型也曾採用此方法。微軟指出,合成數據並非廉價替代品,它在以下方面優於有機數據:
- 更漸進的學習路徑: 合成數據可以引導 LLM 逐步學習,從初始問題陳述到最終解決方案,使其更容易理解推理過程。
- 與推理環境更好對齊: 與包含問題陳述和最終解決方案的有機數據不同,合成數據可以提供更詳細的逐步推理過程,更貼合實際的推理場景。
精心策劃的有機數據
除了合成數據,微軟還使用了精心策劃的有機數據,包括從公共網站和外部數據集收集的數千萬高品質的數學問題和解決方案。對於沒有提供準確解決方案的情況,他們使用多數投票的方法合成生成解決方案,以提高準確性。此外,他們還收集了學術論文、教育論壇和程式設計教程。
微軟強調了高品質自然數據在合成數據生成中的關鍵作用,指出即使是微小的錯誤也可能導致衍生合成文檔的品質嚴重下降。因此,他們投入了大量精力來完善網路數據的管理。
Phi-4 的後訓練階段
Phi-4 的後訓練階段旨在將其轉變為一個可靠的 AI 助手。該階段包括以下步驟:
- 微調: 使用從數學、編碼、推理、對話、模型身分和安全等不同領域生成的高品質數據對模型進行微調。
- 直接偏好優化(DPO): 執行兩個 DPO 步驟,以使模型與人類偏好更好對齊,並消除不良行為。
- Pivotal Token Search: 在第一步中,微軟使用一種名為 Pivotal Token Search 的新技術來生成所需/不需要的結果對。
- GPT-4o 作為評斷者: 在第二步中,他們使用 GPT-4o 作為評斷者,為每對結果標記正面或負面標籤。
Phi-4 的評估
Phi-4 使用 OpenAI 的 SIMPLE-EVALS 框架進行評估,並在多個基準測試中超越了 Llama-3.1-405B。此外,在 GPQA(研究生水平 STEM 問答)和 MATH(數學競賽)基準測試中,它也超越了其教師模型 GPT-4o。
Phi-4 模型的訓練數據詳解
微軟在訓練 Phi-4 模型時,採用了精心設計的數據策略,該策略主要圍繞合成數據和精選的真實數據展開。這種組合方法旨在優化模型的學習過程,並使其在數學推理方面表現出色。
合成數據生成
合成數據在 Phi-4 的訓練中扮演著至關重要的角色。微軟團隊並沒有將合成數據視為真實數據的簡單替代品,而是將其視為一種能夠引導模型逐步學習的工具。合成數據的生成過程通常遵循以下步驟:
- 問題創建: 首先,根據預定義的規則和範本,生成各種數學問題。這些問題涵蓋了不同的數學領域和難度級別,以確保模型的全面學習。
- 逐步解決方案: 對於每個生成的問題,都會創建一個逐步的解決方案,詳細解釋從問題陳述到最終答案的推理過程。這種逐步的解決方案不僅包括最終答案,還包括中間步驟和推理邏輯,從而幫助模型理解解決問題的過程。
- 數據增強: 為了增加數據的多樣性,還會對合成數據進行增強,例如改變問題的措辭、調整數字或使用不同的解決方法。
精選的真實數據
除了合成數據外,Phi-4 的訓練還使用了大量精選的真實數據。這些數據來源於各種公共網站、學術論文、教育論壇和程式設計教程,包括以下類型:
- 數學問題和解答: 從公共網站和外部數據集中收集了數百萬個高品質的數學問題及其解答。這些問題涵蓋了不同的數學領域和難度級別。
- 學術論文: 為了提高模型的理解能力和推理能力,還收集了大量的學術論文,這些論文提供了深入的數學概念和理論。
- 教育論壇: 從教育論壇中收集了學生提出的問題以及專家提供的解答,從而使模型能夠理解不同角度的數學問題。
- 程式設計教程: 為了提高模型的程式設計能力,還收集了大量的程式設計教程,這些教程涵蓋了不同的程式設計語言和演算法。
數據品質控制
微軟在數據品質控制方面投入了大量精力,以確保訓練數據的準確性和一致性。他們採取了以下措施:
- 人工審核: 對於一些關鍵數據集,會進行人工審核,以確保數據的準確性和品質。
- 多數投票: 對於沒有提供準確解決方案的問題,會使用多數投票的方法生成解決方案,從而提高準確性。
- 數據清理: 會對所有數據進行清理,以刪除重複數據、錯誤數據和不相關數據。
後訓練策略的詳細分析
Phi-4 的後訓練階段旨在將其轉變為一個可靠的 AI 助手,該階段主要由微調和直接偏好優化(DPO)組成。
微調階段
微調階段的目標是使模型適應各種不同的任務和領域。在此階段,微軟使用了從以下領域生成的高品質數據:
- 數學: 包括各種數學問題和解答,旨在提高模型的數學推理能力。
- 編碼: 包括各種程式設計問題和解答,旨在提高模型的程式碼生成和理解能力。
- 推理: 包括各種邏輯推理問題,旨在提高模型的邏輯思維能力。
- 對話: 包括各種對話數據,旨在提高模型的自然語言理解和生成能力。
- 模型身分: 包括各種模型身分描述,旨在提高模型對自身能力的理解。
- 安全: 包括各種安全問題和解答,旨在提高模型的安全性。
直接偏好優化(DPO)階段
直接偏好優化(DPO)階段的目標是使模型的行為與人類偏好更好對齊,並消除不良行為。此階段包括兩個步驟:
- Pivotal Token Search: 在第一步中,微軟使用一種名為 Pivotal Token Search 的新技術來生成所需/不需要的結果對。這種技術通過搜索模型的輸出空間來找到那些能夠區分所需和不需要行為的關鍵標記。
- GPT-4o 作為評斷者: 在第二步中,他們使用 GPT-4o 作為評斷者,為每對結果標記正面或負面標籤。GPT-4o 能夠根據人類的偏好對模型輸出進行評估,從而幫助模型更好地學習人類的偏好。
Phi-4 的性能評估
為了評估 Phi-4 的性能,微軟使用了 OpenAI 的 SIMPLE-EVALS 框架,該框架包含各種不同的基準測試,可以評估模型在不同任務上的表現。
基準測試
Phi-4 在以下基準測試中表現出色:
- GPQA(研究生水平 STEM 問答): 在此基準測試中,Phi-4 超越了其教師模型 GPT-4o,證明其在 STEM 領域的問答能力非常強大。
- MATH(數學競賽): 在此基準測試中,Phi-4 也超越了其教師模型 GPT-4o,證明其在解決複雜數學問題方面的能力非常出色。
- 與其他模型的比較: 在多個基準測試中,Phi-4 都超越了 Llama-3.1-405B,證明其整體性能非常強大。
性能分析
通過對 Phi-4 的性能評估,可以得出以下結論:
- 數學推理能力強大: Phi-4 在數學推理方面的表現非常出色,這歸功於其在訓練過程中採用的創新方法,包括合成數據、精選真實數據和後訓練策略。
- 超越教師模型: 在多個基準測試中,Phi-4 都超越了其教師模型 GPT-4o,證明其性能並非簡單的知識蒸餾。
- 與其他模型的比較: Phi-4 在多個基準測試中都超越了 Llama-3.1-405B,證明其整體性能非常強大。
Phi-4 的應用前景
Phi-4 作為一款專為複雜數學推理設計的小型語言模型,具有廣闊的應用前景。它可以應用於以下領域:
- 教育: 可以作為數學輔導工具,幫助學生解決數學問題,並提供個人化的學習體驗。
- 科研: 可以作為科研工具,幫助研究人員進行數學建模和數據分析。
- 工程: 可以作為工程工具,幫助工程師進行設計和分析。
- 金融: 可以作為金融工具,幫助金融分析師進行風險評估和投資決策。
- 其他領域: 還可以應用於其他需要複雜數學推理的領域,例如醫療、物流和製造業。
結論
微軟 Phi-4 的出現標誌著小型語言模型在數學推理領域取得了重大進展。其獨特的數據訓練策略和後訓練方法使其在性能上超越了同類及更大的模型,並為未來的 AI 發展提供了新的思路。隨著 Phi-4 在 Hugging Face 上的開源,相信它將為更多的研究人員和開發者帶來便利,並推動 AI 技術在各個領域的應用。