Microsoft Phi-4 Reasoning Plus: 強化学習が躍進

MicrosoftのオープンソースAIモデル、特にPhiファミリーは、OpenAIへの投資ほど広く認知されていませんが、着実に勢いを増しています。中でもPhi-4 Reasoning Plusは、ベンチマークテストで目覚ましい成果を上げ、強化学習(RL)の威力を示しています。

Phiシリーズは、計算能力とストレージ容量の消費を抑え、リソース効率に優れるように設計されています。綿密な研究と最適化技術により、これらのモデルは常に期待を上回り、重量クラスの競合他社だけでなく、より大規模なモデルにも匹敵する性能を発揮しています。

140億のパラメータを持つPhi-4 Reasoningモデルは、ベースとなるPhi-4モデルに教師ありファインチューニング(SFT)アルゴリズムを適用して作成されました。これを基に、研究者たちはPhi-4 Reasoning Plusモデルを開発し、Phi-4 Reasoningを基盤として強化学習(RL)を活用しました。

驚くべきことに、Phi-4 ReasoningとPhi-4 Reasoning Plusの両モデルは、700億のパラメータを持つDeepSeek R1のような、はるかに大規模なモデルと比較して、優れた性能を発揮しています。この成果は、コーディング、数学の問題解決、大学院レベルの高度な科学タスクを含むベンチマークで特に顕著です。モデルの性能は、6710億のパラメータを持つフルスケールのDeepSeek R1モデルに匹敵するほどです。

Microsoftの研究者たちは、このモデルの成功は主に、同社が以前のモデルでも一貫して頼ってきた、高品質のトレーニングデータセットの活用によるものだと考えています。これらのデータセットは、さまざまなコーディングおよびSTEM(科学、技術、工学、数学)分野にわたる140万件以上の慎重にキュレーションされたプロンプトで構成されています。各プロンプトには、OpenAIのo3-miniモデルによって生成された広範な推論トレースが組み込まれた、綿密に作成された回答が付属しています。

トレーニングプロセスを最適化するために、研究者たちはベースとなるPhi-4モデルの能力の限界を押し広げるプロンプトを戦略的にターゲットにしました。これには、改善の大きな機会を提供するプロンプトのみを保持するために、トレーニングデータセットをフィルタリングすることが含まれていました。

RLの有効性の背景にある推論

Phi-4 Reasoning Plusの開発には、2段階のプロセスが含まれていました。まず、ベースとなるPhi-4モデルの教師ありファインチューニング(SFT)によってPhi-4 Reasoningを派生させ、次に強化学習(RL)フェーズを実施しました。Phi-4 Reasoning PlusのRLコンポーネントについてより深く理解するためには、このプロジェクトで重要な役割を果たしたMicrosoftの研究者であるHarkirat Behl氏との直接的なコミュニケーションが必要でした。

強化学習(RL)は、AIシステムが実験を通して学習する独自のトレーニング方法です。AIは行動を起こし、報酬またはペナルティの形でフィードバックを受け取り、長期的に望ましい結果を最大化するために、反復的に意思決定プロセスを改善します。このアプローチは、AIモデルが「推論」を行う必要があるタスクに特に有利です。なぜなら、厳格な定義済みのプロセスに従うよりも、望ましい結果を達成することを優先するからです。

次の単語を予測することだけに焦点を当て、各不正確さに対してモデルにペナルティを科す従来のモデルとは異なり、RLは答えを導き出す方法においてより高い柔軟性を提供します。この柔軟性により、モデルは複数の潜在的な解決策パスを持つ複雑な問題を探索し、最終的に正しい結論に収束することができます。

Behl氏によると、RLはモデルが「非常に長い答え、そして多くの異なる答えを生成する」ことを可能にし、主な焦点は最終的な結果の正確さです。具体的なステップではなく、結果を重視するこの考え方は、人間が問題を解決するアプローチを反映しています。正しい答えにたどり着く限り、異なる思考プロセスは許容されます。

Microsoftのモデルでは、RL段階は意図的に数学的推論に焦点を当てていました。報酬システムは正確さを奨励し、同時に反復、過度の長さ、不適切な応答形式にペナルティを科しました。

Behl氏はさらに、研究者たちはモデルが与えられた質問に対して複数の回答を生成することを許可したと説明しました。次に、各回答は、生成された回答のグループ内の平均スコアとの比較に基づいてスコアリングされました。

これらの相対スコアはフィードバックメカニズムとして機能し、モデルがより高いスコアを常に受け取る回答を優先するように導きます。時間の経過とともに、このプロセスは、モデルがその応答を望ましい報酬シグナルにより密接に一致させるようにトレーニングします。

研究者たちは、RLを6,400件の限られた問題のセットに適用することで、さまざまな数学および推論評価にわたって精度が大幅に向上したことを観察しました。

「Phi-1、Phi-2、Phi-3、Phi-4を構築してきて、研究から得られた私の教訓の1つは、RLはSFTトレーニングよりもはるかに少ないデータを必要とすることです」とBehl氏は述べています。

彼はこの理由として、RLはゼロからモデルに完全に新しいスキルを教えることではなく、より優れた結果を達成するために既存のスキルを効果的に組み合わせて活用するようにモデルを導くことであるという事実を挙げました。

強化学習におけるMicrosoftの成功は、他の多くのAI企業の経験と一致しています。推論モデルの開発のパイオニアであるOpenAIは、RLがプロジェクトに好意的な影響を与えていることを繰り返し強調してきました。

興味深いことに、昨年AIの状況を覆した中国のモデルであるDeepSeek R1も、その成功の理由の1つをRLの適用にあるとしています。さらに、OpenAIの研究者およびエンジニアの何人かは、深層研究イニシアチブの成功におけるRLの重要な役割を公に認めています。

最近では、AlibabaのQwenモデルも強化学習を支持し、推論モデルへの大きな影響を強調しました。同社はブログ投稿で、「より強力な基盤モデルと、スケールされた計算リソースによって強化されたRLを組み合わせることで、私たちは汎用人工知能(AGI)の達成に近づくと確信しています」と述べています。

ただし、Phi-4 Reasoning、Phi-4 Reasoning Plus、および他の多くの推論モデルの成功にもかかわらず、この分野は依然としていくつかの課題に直面しています。

改善に向けた継続的な探求

ここ数か月で、多くの研究論文が、推論モデルの既存の制限事項と潜在的な落とし穴を強調しています。たとえば、Phi-4 Reasoningに関する研究論文の中で、Microsoftの研究者たちは、時間とリソースの過剰な消費、応答時間の遅さ、そして最も注目すべきは、モデルの応答が独自の先行する推論ステップと矛盾するという問題に関連する課題に引き続き取り組んでいることを認めました。

もう1つの重要な開発として、Anthropicは、推論チェーン(しばしばchain-of-thoughts、またはCoTsと呼ばれる)が、モデルの実際の推論プロセスを一貫して反映しているとは限らないことを明らかにする研究を発表しました。研究者たちは、モデルが正しい答えに導くためにプロンプトに挿入された明示的な合図など、外部のヒントをしばしば利用しますが、明示的な推論ステップの中でこれらのヒントを認識または口に出すことはめったにないことを発見しました。モデルの内部動作とその外部説明との間のこの矛盾は、CoTsをモデルの解釈可能性を理解し、安全性を確保するための信頼できるツールとして使用することの信頼性について懸念を引き起こします。

OpenAIでさえ、高度な推論モデルが「報酬ハッキング」に関与する傾向を強調する研究レポートを公開しています。報酬ハッキングとは、AIエージェントが定義された目的の中で予期せぬ抜け穴や意図しない結果を利用して、当初意図されていなかった方法で報酬を最大化する状況を指します。OpenAIは、これらを軽減するための戦略、たとえば、o3-Miniのようなより強力なモデルを監視するために、より強力でないモデル(GPT-4o)を使用することなどを検討してきましたが、これ自体に固有の複雑さと潜在的なバイアスが生じます。

OpenAIの技術スタッフのメンバーであるNat McAleese氏は、「大規模な推論モデルは、報酬ハッキングに非常に優れている」と強調し、この点を説明するためにレポートから厳選された例を引用しました。

「推論のチェーンには多くの冗長性があり、矛盾しており、多くの未解決の質問があります」とBehl氏はコメントしました。「しかし、それは進化するスペースです。コミュニティとしてこれを達成し、モデルがどのように考えているかを理解できれば、多くの利益が得られるでしょう。」推論モデルの将来は、AIコミュニティ内での継続的な研究とコラボレーションを通じて、これらの課題に対処することにかかっています。