Phi-4推論モデルの台頭
AIの世界は現在、推論モデルに注目しており、Microsoftは最近、Phi-4ファミリーの推論モデルを発表しました。 これには、Phi-4-reasoning、Phi-4-reasoning-plus、およびPhi-4-mini-reasoningが含まれます。 特に注目すべき点は、これらのモデルの中で最も大きいものであっても、わずか140億のパラメーターしか持たないにもかかわらず、高性能ラップトップ上でスムーズに実行できることです。 さらに、38億のパラメーターを持つPhi-4-mini-reasoningは、数学的推論において80億のパラメーターを持つDeepSeek-R1 distilledモデルを上回っており、推論タスクにおける小規模モデルの力を浮き彫りにしています。
4月に第2世代DeepSeek-R2推論モデルのリリースを待つ代わりに、MicrosoftはPhi-4推論モデルの新しいシリーズを発表しました。 これらのモデルは数学的推論において優れたパフォーマンスを発揮し、Phi-4-Mini-Reasoningのパラメーター規模が小さいにもかかわらず、DeepSeek-R1 distilledモデルを上回っています。
Microsoft AI Frontiers laboratoryのパートナーリサーチマネージャーであるAhmed Awadallah氏は、Phi-4-reasoningについて説明し、新しいモデルの機能を要約しました。
- このモデルは、教師ありファインチューニング(慎重に選択された推論の例のデータセットを使用)と強化学習でトレーニングされています。
- 推論ベンチマークで優れたパフォーマンスを発揮し、DeepSeek R1などのより大規模なトップモデルに匹敵する可能性があります。
- 新しいテスト(AIME 2025、HMMTなど)でも引き続き高いパフォーマンスを発揮します
- 推論能力は、強力な転移可能性/汎化能力を持っており、教師ありファインチューニングのみを行った後でも、新しいタスク(k-SAT、数式解決、スケジューリングなど)に適応できます
- 一般的な機能(指示の理解と実行など)を保持し、大幅に改善します
彼は、Phi-4にはまだ改善が必要な点がいくつかあり、特にコンテキスト長、エンコード能力、およびツール統合について言及しました。
モデル自体に加えて、Microsoftはモデルのトレーニングおよび評価プロセスに関する詳細な分析を提供する詳細な技術レポートも共有しました。
Xでは、Microsoft Research AI Frontiers laboratoryのプリンシパルリサーチャーであり、ウィスコンシン大学の准教授であるDimitris Papailiopoulos氏が、Phi-4推論モデルに関する詳細な情報を紹介しました。
彼は、Phi-4-reasoningは完全に大学院レベルに達しており、ローカルPCで実行できると考えています。
これは、AIの開発に対する彼の期待を超えていました。
新しいモデルはパラメーターが少ないですが、強力なパフォーマンスを発揮します。
パフォーマンスの原動力
その控えめなサイズにもかかわらず、このモデルは、AIME、HMMT、OmniMathなどの数学ベンチマークで優れています。 QwQ-32B、R1-70B、R1などのより大規模なオープンウェイトモデル、およびo1-miniやsonnet 3.7などのクローズドモデルと同等以上のパフォーマンスを発揮します。
このモデルはサイズが小さく、高性能ラップトップ上でスムーズに実行するのに適しています。
同時に、より大規模な非推論モデルや一部の推論モデルでさえ解決できない多くのパズルを解決できます。
DimitrisEvalテストにも合格しました!
驚くべきことに、推論は真に転移可能な「メタスキル」であり、教師ありファインチューニングSFTを通じてさえ学習できるようです!
証拠1:非推論タスクに関する特別なトレーニングを行わなくても、研究者はIFEval、FlenQA、および内部PhiBenchで大幅なパフォーマンスの向上を観察しました(10ポイント以上の増加!)。
さらに、SFT段階中にコーディングに関連するデータはほとんどありません(そして、RL段階ではまったくありません)が、モデルは依然としてこの点で優れたパフォーマンスを発揮します。
さらに、Dimitris Papailiopoulos氏は、プログラミングが今後のバージョンの重要な焦点であることを明らかにしました。
証拠2:旅行セールスマンの問題、迷路解決、k-SAT、制約付き計画など、明示的にトレーニングされていない(SFTまたはRL段階のいずれかで)いくつかの特定の問題の場合、モデルはこれらのタスクで非常に優れたパフォーマンスを発揮します。
そして、Phi-4(さらにはGPT-4)はこれを実行できません。
これは、推論能力がスキルとして実際に転移できることを完全に示しています!
非常に短いラウンドの強化学習(SFTの140万の例と比較して、わずか6,000のサンプルを使用)の後、モデルの推論メカニズムは「ロック」されているようです。
これはDimitris Papailiopoulos氏を特に驚かせました。
彼は、強化学習がモデルに「独自の言語」で推論することを教えたかのようであり、AIMEおよびHMMTの精度を約10%向上させ、困難な問題の平均回答長さを50%増加させると感じています。
強化学習は本当に効果的です!!
推論メカニズムが「ロック」されている現象は通常、モデルの出力分布をより集中させ、精度も高くなります。
強化学習がモデルの機能を大幅に向上させることができるという事実は、Microsoftによる以前の研究にも反映されています。
強化学習段階では、新しいモデルはデータに対して特別に最適化されていませんでした。6,000の質問は、より大きなデータセットの選択からランダムに選択されただけでした。
では、なぜMicrosoftはより多くの強化学習トレーニングを実施しなかったのでしょうか?
モデルが32kコンテキスト長(モデルがトレーニングされていない長さ)を超える質問に対する回答を生成したため、切り捨てざるを得ませんでした。
さらに、並列推論計算(Maj@Nなど)の助けを借りて、新しい推論モデルはAIME 2025でほぼパフォーマンスの限界に達しており、教師モデル(o3-mini)のpass@1パフォーマンスさえ上回っています。
そして、2025年2月までにすべてのデータ収集を完了し、HMMTも同様です。
他のタスクでは、研究者はOmniMathやカレンダースケジューリングタスクなど、「教師を上回る」現象も観察しています。
SFT段階でのプロンプト設計は、その後の強化学習プロセスと相まって、モデルに教師モデルによって提供された知識の範囲を超える「自己改善」能力を与えたようです。
下の図では、マゼンタはo3-miniを表し、緑はPhiを表します。
興味深い現象は、応答長が上位25%の長いテキストは、誤った回答と強く相関しているということです!
ただし、その一方で、ほとんどの評価では、全体的な平均回答長が長く、精度が高くなっています。
つまり、テスト中に計算リソースを増やすことは役立ちますが、モデルは「行き詰まった」ときに「とりとめもなく話す」傾向があります。
モデルの制限事項に関しては、注意すべき点がいくつかあります。
- 32kを超えるコンテキスト長を処理する能力は、完全には拡張またはテストされていません。
- モデルは、単純な問題に対処するときに「考えすぎる」傾向があり、自己評価では冗長すぎるように見える場合があります。
- 複数ターンの対話の能力は、広くテストされていません。
もちろん、発見すべき「盲点」はたくさんありますが、全体として、研究チームは正しい方向に進んでいると感じています!
トレーニングの驚き
Microsoft Researchのプリンシパルリサーチマネージャーであり、Phiモデルシリーズの開発を担当する「AGI Physics」チームに所属するSuriya Gunasekar氏は、この作業の核となる原則の紹介に焦点を当てました。
今回、Microsoft Phiチームはポストトレーニング段階に焦点を当て、Phi-4-reasoning(SFTのみを使用)およびPhi-4-reasoning-plus(SFT +少量のRL)をリリースしました。
どちらも14Bモデルであり、推論および一般的なタスクベンチマークで強力な能力を示しています。
この作業の中核は、転移可能で自己改善型の推論スキルのプロンプト選択と実験的探求にあります。
トレーニングプロセス中に2つの驚くべき発見がありました。
まず、ドメインでトレーニングされた長鎖推論(CoT)の軌跡をいくつか使用する限り、Phi-4は、スケジューリング、迷路解決(視覚入力なし)、IFEva、FlenQA、KITAB(ルックアップベースの質問応答)、および内部PhiBenchなどの複数のタスクで大幅なパフォーマンスの向上を達成できます。
次に、わずか6,000の数学的な例を最小限のRLトレーニングに使用した場合でも、モデルのパフォーマンスは一部のベンチマークで大幅に向上し、最大の改善は10%に達しました(ただし、トークンの使用量は約1.5倍に増加しました)、また、RL段階中にスキルのドメイン間転送も観察されました。
つまり、OpenAIやGoogleなどの主要な競合他社と比較して、Microsoft Phi-4推論シリーズは新しい可能性を示しています。高品質のデータと洗練されたトレーニング戦略を使用することで、小規模モデルは特定のタスクで大規模モデルに匹敵するか、さらには上回ることができます。
コアメソッド
推論モデルPhi-4-reasoningは140億のパラメーターを持ち、複雑な推論タスクで強力なパフォーマンスを発揮します。
このモデルは、教師ありファインチューニングトレーニングのためにPhi-4に基づいており、適切な複雑さと多様性の両方を持つ、慎重に選択された一連の「教えやすい」プロンプトを使用しています。 o3-miniによって生成された推論の例は、トレーニングプロセス中に参照として使用されます。
Phi-4-reasoningは、詳細な推論チェーンを生成し、推論プロセス中に計算リソースを最大限に活用できます。
この基盤に基づいて、MicrosoftはさらにPhi-4-reasoning-plusを開発しました。
これは、結果ベースの強化学習の小規模な段階を通じて元のモデルに基づいて強化され、より長く、より強力な推論チェーンを生成します。
適切に設計されたSFTデータセットは、推論言語モデルの効果を大幅に向上させることが示されており、強化学習(RL)は、この基盤に基づいてこの改善をさらに増幅できます。
SFT実験では、この比較的単純な生成設定であっても、シード問題の慎重な選択と厳格なフィルタリングは、モデルの成功の鍵となります。
彼らは、広く使用されている推論または一般的なベンチマークの質問、およびこのレポートに記載されていないいくつかのベンチマークを含む、広く使用されている推論または一般的なベンチマークの質問と高度に重複するデータが含まれていないことを保証するために、トレーニングデータのセット全体に厳格な除染プロセスを実施しました。
除染されたベンチマークテストの完全なリストは次のとおりです。
- 数学と推論: AIME-2024、MATH、GPQA、OmniMATH、GSM8k
- プログラミング: LiveCodeBench、Codeforces、HumanEval、MBPP
- 質問応答と一般的な知識: SimpleQA、DROP、AGIEval、ARC-Challenge、ARC-Easy、CommonsenseQA、OpenBookQA、PIQA、WinoGrande
- その他の評価タスク: SWE-Bench Verified、ArenaHard、MT-Bench、PhiBench
140億のパラメーターを持つPhi-4モデルの教師ありファインチューニング(SFT)を通じて、研究者はPhi-4-reasoningを取得しました。それ以前に強化学習はありませんでした。
SFTの目標は、基本モデルに含まれる構造化された推論能力を洗練することです。
Phi-4-reasoningのアーキテクチャは、Phi-4モデルのアーキテクチャと同じですが、2つの重要な変更があります。
- **推論トークン:**基本モデルの2つのプレースホルダーのトークンは、およびトークンとして再利用され、推論(「思考」)プロセスの開始と終了を示すために使用されます。
- **トークン長の増加:**基本モデル(Phi-4)で最初にサポートされていた最大トークン長は16Kでした。 追加の推論トークンに対応するために、RoPEの基本周波数を2倍にし、モデルを最大トークン長32Kでトレーニングしました。
彼らは、合成法を使用して、多数の連鎖思考推論の例を生成しました。
使用されたSFTデータセットには、140万を超えるプロンプトと応答のペアが含まれており、合計83億の一意のトークンがあり、数学やプログラミングなどの推論分野、および安全で責任あるAIのアライメントデータを網羅しています。
図4aは、SFT反復プロセス全体における主要な指標の変化を示しています。
トレーニングの早い段階で、モデルは明示的な「思考」トークンの使用を開始しました。これは、モデルがこの浅い構造化形式をすぐに学習したことを示しています。
ただし、図4aに示すように、連鎖思考モジュールの有効性とモデルの推論能力はトレーニングプロセス全体で向上しています。これは、モデルが形式をコピーするだけでなく、実際に推論スキルを学習していることを示しています。
興味深いことに、強化学習とは異なり、研究者はSFTプロセス中に応答長の増加は見られませんでした。
実際、図4bに示すように、平均応答長はわずかに減少しました。
これは、トレーニングが進むにつれて、モデルがトークンの予算をより効果的に使用することを学習していることを示しています。
さまざまなトレーニング戦略を体系的に評価するために、進捗状況の指標として、固定ベンチマークであるAIME 2024とGPQA diamondを使用しました。
全体として、実験方法は、探索とスケーリングの2つの段階に分けることができます。
探索段階では、研究者はより短いトレーニングサイクルと限られたデータソースおよび分野を使用して、堅牢なトレーニング方法を迅速に反復処理して抽出しました。
その後の拡張段階では、研究者は早期のリスク軽減実験の結果を要約し、SFT設定を確定しました。
図5は、この進捗状況を要約し、いくつかの主要な設計選択に対するアブレーション実験を強調しています。
図5は、探索段階と拡張段階を含む、Phi-4-reasoning教師ありファインチューニング(SFT)実験サイクルの概要を示しています。いくつかの実験の例を使用して表現しています。 各ドットクラスターは、特定のトレーニング設計選択の実験結果を表します。
図7は、GRPOトレーニングプロセス中のPhi-4-reasoning-plusモデルの重要な調査結果を示しています。
教師ありファインチューニング(SFT)ベースモデルPhi-4-reasoningから始めて、わずか90ステップのGRPOトレーニングでAIMEのパフォーマンスが10%以上向上しました(図7a)。
トレーニングステップの数を増やし続けても、追加のメリットはありませんでした。これは、強力なSFTモデルの可能性がパフォーマンスの上限に近いことを示しています。 GRPOトレーニングの出力は31kトークン以内に制限されていることに注意してください。これは、GRPOの最適化スペースを客観的に制限します。
図7cに示すように、応答長はAIMEのパフォーマンスと強く相関しており、報酬スコアとAIMEスコアの相関は弱いです。 この応答長の成長効果は、GRPOトレーニングの期待される効果です。モデルは「思考時間」を増やすことで推論能力を向上させます。
図7dはさらに、報酬モデルの設計により、誤った回答の生成長が正しい回答よりも大幅に速く成長することを明らかにしています(モデルの現在の回答が誤っている場合、システムはより長く思考するように促します)。
実際、応答長のみに基づいて拒否サンプリングを実行すると(特に中央値を大幅に超える長い応答)、GRPOのパフォーマンスをさらに向上させる可能性があります。
図7dに示すように、トレーニングプロセス中の短い応答(長さが下位25%分位に位置する)の成長傾向は、正しい回答の平均長と似ていますが、誤った回答の長さは、全体的な応答長の75%分位に近いです。
この差別化現象は、長さベースの拒否サンプリングが過度に長い不正確な出力を抑制することにより、モデルの効率を向上させることができることを示しています。