マイクロソフト研究所は、数学的推論の分野における進歩を目的とした、140億のパラメータを持つ小型言語モデルPhi-4を発表しました。このモデルは当初Azure AI Foundryで利用可能でしたが、最近、MITライセンスの下でHugging Faceで公開されました。
Phi-4の革新的な点
マイクロソフトによれば、Phi-4は数学的推論において同規模またはそれ以上のモデルを凌駕する性能を示しています。これは、トレーニング中に採用されたいくつかの革新的な技術によるものです。それには以下が含まれます。
- 合成データによる事前学習と中間学習: 合成データを利用した事前学習と中間学習により、モデルに構造化された学習経路を提供します。
- 有機データの管理: 厳選された有機データを慎重にキュレーションおよびフィルタリングし、トレーニングデータの品質を確保します。
- 新しい後学習手法: 新しい後学習手法を採用することで、モデルの性能をさらに向上させます。
これらの革新的な技術により、Phi-4はSTEMに焦点を当てた質問応答能力において教師モデルであるGPT-4oを上回る性能を発揮し、マイクロソフトのデータ生成と後学習技術が単なる知識蒸留ではないことを証明しました。
合成データの独自の利点
大規模言語モデル(LLM)のトレーニングにおける合成データの使用は目新しいものではなく、Phiモデルでも以前から採用されています。マイクロソフトは、合成データは安価な代替品ではなく、有機データよりも優れていると指摘しています。その理由は以下の通りです。
- より段階的な学習経路: 合成データは、LLMが初期の問題記述から最終的な解決策まで段階的に学習することを可能にし、推論プロセスをより理解しやすくします。
- 推論環境とのより良い整合性: 問題記述と最終的な解決策を含む有機データとは異なり、合成データは、実際の推論シナリオにより適合した、より詳細な段階的な推論プロセスを提供できます。
厳選された有機データ
合成データに加えて、マイクロソフトは、公共のウェブサイトや外部データセットから収集した数千万件の高品質な数学の問題と解決策を含む、厳選された有機データも使用しました。正確な解決策が提供されていない場合は、多数決の方法で解決策を合成生成し、精度を高めました。さらに、学術論文、教育フォーラム、プログラミングチュートリアルも収集しました。
マイクロソフトは、合成データ生成における高品質な自然データの重要な役割を強調しており、わずかなエラーでも派生する合成ドキュメントの品質が大幅に低下する可能性があると指摘しています。したがって、Webデータの管理を改善するために多大な労力を費やしました。
Phi-4の後学習段階
Phi-4の後学習段階は、信頼できるAIアシスタントにすることを目的としています。この段階には、以下の手順が含まれます。
- 微調整: 数学、コーディング、推論、会話、モデルのアイデンティティ、セキュリティなど、さまざまな分野で生成された高品質なデータを使用してモデルを微調整します。
- 直接選好最適化(DPO): モデルを人間の選好に適合させ、望ましくない行動を排除するために、2つのDPOステップを実行します。
- Pivotal Token Search: 最初のステップでは、マイクロソフトはPivotal Token Searchと呼ばれる新しい技術を使用して、望ましい/望ましくない結果のペアを生成します。
- GPT-4oを評価者として使用: 2番目のステップでは、GPT-4oを評価者として使用し、結果のペアごとに肯定的なラベルまたは否定的なラベルを付けます。
Phi-4の評価
Phi-4は、OpenAIのSIMPLE-EVALSフレームワークを使用して評価され、複数のベンチマークでLlama-3.1-405Bを上回りました。さらに、GPQA(大学院レベルのSTEM質問応答)およびMATH(数学コンテスト)のベンチマークでも、教師モデルであるGPT-4oを上回りました。
Phi-4モデルのトレーニングデータ詳細
マイクロソフトは、Phi-4モデルのトレーニングにおいて、合成データと厳選された実データの組み合わせを中心とした、綿密に設計されたデータ戦略を採用しました。この組み合わせアプローチは、モデルの学習プロセスを最適化し、数学的推論において優れたパフォーマンスを発揮することを目的としています。
合成データ生成
合成データは、Phi-4のトレーニングにおいて不可欠な役割を果たしています。マイクロソフトのチームは、合成データを実データの単純な代替品としてではなく、モデルを段階的に学習に導くことができるツールとして捉えています。合成データの生成プロセスは、通常、次の手順に従います。
- 問題の作成: まず、事前定義されたルールとテンプレートに基づいて、さまざまな数学の問題を生成します。これらの問題は、モデルの包括的な学習を確保するために、さまざまな数学分野と難易度レベルを網羅しています。
- 段階的な解決策: 生成された各問題に対して、問題記述から最終的な答えまでの推論プロセスを詳細に説明する段階的な解決策が作成されます。この段階的な解決策には、最終的な答えだけでなく、中間ステップと推論ロジックも含まれており、モデルが問題を解決するプロセスを理解するのに役立ちます。
- データ拡張: データの多様性を高めるために、問題の言い換え、数字の調整、異なる解決方法の使用など、合成データが拡張されます。
厳選された実データ
合成データに加えて、Phi-4のトレーニングには、厳選された実データも大量に使用されました。これらのデータは、さまざまな公共のウェブサイト、学術論文、教育フォーラム、プログラミングチュートリアルから収集され、次のタイプが含まれます。
- 数学の問題と解答: 公共のウェブサイトと外部データセットから数百万件の高品質な数学の問題とその解答が収集されました。これらの問題は、さまざまな数学分野と難易度レベルを網羅しています。
- 学術論文: モデルの理解力と推論能力を高めるために、詳細な数学的概念と理論を提供する学術論文も大量に収集されました。
- 教育フォーラム: 教育フォーラムから、学生が提出した質問と専門家が提供した回答を収集することで、モデルがさまざまな視点から数学の問題を理解できるようにしました。
- プログラミングチュートリアル: モデルのプログラミング能力を高めるために、さまざまなプログラミング言語とアルゴリズムを網羅したプログラミングチュートリアルも大量に収集されました。
データ品質管理
マイクロソフトは、トレーニングデータの正確性と一貫性を確保するために、データ品質管理に多大な労力を費やしました。彼らは次の措置を講じました。
- 手動レビュー: 一部の重要なデータセットについては、データの正確性と品質を確保するために手動レビューを実施しました。
- 多数決: 正確な解決策が提供されていない問題については、多数決の方法で解決策を生成し、精度を向上させました。
- データクレンジング: すべてのデータは、重複データ、エラーデータ、および無関係なデータを削除するためにクレンジングされました。
後学習戦略の詳細な分析
Phi-4の後学習段階は、信頼できるAIアシスタントにすることを目的としており、主に微調整と直接選好最適化(DPO)で構成されています。
微調整段階
微調整段階の目標は、モデルをさまざまなタスクと分野に適応させることです。この段階では、マイクロソフトは次の分野で生成された高品質なデータを使用しました。
- 数学: モデルの数学的推論能力を向上させることを目的とした、さまざまな数学の問題と解答が含まれています。
- コーディング: モデルのコード生成および理解能力を向上させることを目的とした、さまざまなプログラミングの問題と解答が含まれています。
- 推論: モデルの論理的思考能力を向上させることを目的とした、さまざまな論理的推論の問題が含まれています。
- 会話: モデルの自然言語理解および生成能力を向上させることを目的とした、さまざまな会話データが含まれています。
- モデルのアイデンティティ: モデル自身の能力の理解を向上させることを目的とした、さまざまなモデルのアイデンティティ記述が含まれています。
- セキュリティ: モデルのセキュリティを向上させることを目的とした、さまざまなセキュリティの問題と解答が含まれています。
直接選好最適化(DPO)段階
直接選好最適化(DPO)段階の目標は、モデルの動作を人間の選好に適合させ、望ましくない動作を排除することです。この段階には、次の2つのステップが含まれます。
- Pivotal Token Search: 最初のステップでは、マイクロソフトはPivotal Token Searchと呼ばれる新しい技術を使用して、望ましい/望ましくない結果のペアを生成します。この技術は、モデルの出力空間を検索して、望ましい動作と望ましくない動作を区別できる重要なトークンを見つけます。
- GPT-4oを評価者として使用: 2番目のステップでは、GPT-4oを評価者として使用し、結果のペアごとに肯定的なラベルまたは否定的なラベルを付けます。GPT-4oは、人間の選好に基づいてモデルの出力を評価できるため、モデルが人間の選好をより良く学習するのに役立ちます。
Phi-4の性能評価
Phi-4の性能を評価するために、マイクロソフトはOpenAIのSIMPLE-EVALSフレームワークを使用しました。このフレームワークには、モデルがさまざまなタスクでどのように動作するかを評価できるさまざまなベンチマークが含まれています。
ベンチマークテスト
Phi-4は、次のベンチマークテストで優れたパフォーマンスを発揮しました。
- GPQA(大学院レベルのSTEM質問応答): このベンチマークテストでは、Phi-4は教師モデルであるGPT-4oを上回り、STEM分野での質問応答能力が非常に強力であることを証明しました。
- MATH(数学コンテスト): このベンチマークテストでも、Phi-4は教師モデルであるGPT-4oを上回り、複雑な数学の問題を解決する能力が非常に優れていることを証明しました。
- 他のモデルとの比較: 複数のベンチマークテストで、Phi-4はLlama-3.1-405Bを上回り、全体的なパフォーマンスが非常に強力であることを証明しました。
性能分析
Phi-4の性能評価から、次の結論を導き出すことができます。
- 強力な数学的推論能力: Phi-4は、トレーニング中に採用された合成データ、厳選された実データ、および後学習戦略を含む革新的なアプローチのおかげで、数学的推論において非常に優れたパフォーマンスを発揮します。
- 教師モデルを超える: 複数のベンチマークテストで、Phi-4は教師モデルであるGPT-4oを超えており、そのパフォーマンスが単なる知識蒸留ではないことを証明しています。
- 他のモデルとの比較: Phi-4は複数のベンチマークテストでLlama-3.1-405Bを上回っており、全体的なパフォーマンスが非常に強力であることを証明しています。
Phi-4の応用展望
複雑な数学的推論のために設計された小型言語モデルであるPhi-4には、幅広い応用展望があります。次の分野に応用できます。
- 教育: 数学の家庭教師ツールとして、学生が数学の問題を解決し、パーソナライズされた学習体験を提供することができます。
- 研究: 研究者が数学モデリングとデータ分析を行うための研究ツールとして使用できます。
- エンジニアリング: エンジニアが設計と分析を行うためのエンジニアリングツールとして使用できます。
- 金融: 金融アナリストがリスク評価と投資決定を行うための金融ツールとして使用できます。
- その他の分野: 医療、物流、製造など、複雑な数学的推論を必要とする他の分野にも適用できます。
結論
マイクロソフトのPhi-4の登場は、数学的推論の分野における小型言語モデルの大きな進歩を意味します。その独自のデータトレーニング戦略と後学習手法により、同規模またはそれ以上のモデルを凌駕する性能を発揮し、将来のAI開発に新たな道筋を示しました。Phi-4がHugging Faceでオープンソース化されたことで、より多くの研究者や開発者に利便性をもたらし、さまざまな分野でのAI技術の応用を促進することが期待されます。