AIエージェントに対する期待は長年にわたり高まっており、多くの専門家が2025年を、高度な大規模言語およびマルチモーダルモデル(LLM)を搭載したタスク特化型AIの実装が本格的に離陸する年になると予測しています。しかし、現実には、ほとんどのAIエージェントは実験的な状態にとどまっており、研究室から現実世界のアプリケーションへの移行に苦戦しています。
ノースウェスタン大学、マイクロソフト、スタンフォード大学、ワシントン大学の研究者、そして元DeepSeekの研究者であるZihan Wang氏を含む共同研究チームは、RAGENと呼ばれる新しいシステムを発表しました。この新しいフレームワークは、AIエージェントを訓練および評価し、実用的で企業レベルでの使用において、より信頼性が高く、回復力のあるものにすることを目的としています。
RAGENは、数学やコーディングのような静的な問題に焦点を当てた従来のAIタスクとは異なり、エージェントが不確実な環境の中で適応、学習、推論する必要のある、複数ターンのインタラクティブなシナリオに取り組みます。このアプローチは、現実世界の複雑さに対応できるAIを開発する上で重要です。
RAGENの中心にあるのは、StarPO(State-Thinking-Actions-Reward Policy Optimization)と呼ばれるカスタム強化学習(RL)フレームワークです。このシステムは、LLMが暗記に頼るのではなく、経験を通してどのように学習できるかを探求します。StarPOは、個々の応答だけでなく、インタラクションの完全な軌跡を考慮して、意思決定プロセス全体に焦点を当てています。
StarPOは、連携して動作する2つの異なるフェーズを通じて動作します。最初のフェーズはロールアウトステージと呼ばれ、LLMが推論に基づいて完全なインタラクションシーケンスを生成します。2番目のフェーズであるアップデートステージは、正規化された累積報酬を使用してモデルを最適化します。この構造により、標準的なポリシー最適化手法と比較して、より安定した透明性の高い学習ループが実現します。
研究者たちは、AlibabaのQwenモデル、特にQwen 1.5とQwen 2.5のファインチューニングされたバージョンを使用して、フレームワークを実装し、厳密にテストしました。これらのモデルは、そのオープンな重みと、指示に効果的に従う能力のために選択されました。これにより、さまざまなシンボリックタスクにわたって再現性と一貫性のあるベースライン比較が可能になりました。
「エコー・トラップ」の克服:強化学習と推論損失
Zihan Wang氏は、広く共有されているXのスレッドで、中心的な課題を強調しました。「なぜあなたのRLトレーニングは常に崩壊するのか?」チームによると、LLMエージェントは当初、論理的でシンボリックな応答を生成します。しかし、RLシステムは時間の経過とともにショートカットに報酬を与える傾向があり、最終的には全体的なパフォーマンスを低下させる反復的な動作につながります。この現象は、彼らが「エコー・トラップ」と呼ぶものです。
この退行は、特定のフレーズまたは戦略が早期に高い報酬をもたらすフィードバックループが原因で発生し、それらの過剰使用につながり、新しいアプローチの探索を妨げます。Wang氏は、これは定量化可能であり、測定可能な報酬分散の崖、勾配スパイク、および推論トレースの消失を伴うと指摘しています。
これらの動作を制御された設定で調べるために、RAGENは3つのシンボリック環境を使用します。
- Bandit: これは、シンボリックなリスクと報酬の推論を評価する、単一ターンの確率的なタスクです。
- Sokoban: これは、不可逆的な決定を伴う、複数ターンの決定論的なパズルです。
- Frozen Lake: これは、適応的な計画を必要とする、確率的な複数ターンのタスクです。
各環境は、現実世界の偏見を最小限に抑えるように細心の注意を払って設計されており、代わりにトレーニング中に現れる意思決定戦略に焦点を当てています。
たとえば、Bandit環境では、エージェントは「ドラゴン」と「フェニックス」のアームが異なる報酬分布を表していることを知らされます。確率を直接提供するのではなく、エージェントはシンボリックに推論し、「ドラゴン」を「強さ」、「フェニックス」を「希望」として解釈して、結果を予測する必要があります。この種のセットアップは、モデルが説明可能で類推的な推論を生成することを奨励します。
StarPO-Sによる強化学習の安定化
トレーニングの崩壊の問題に対処するために、研究者たちは元のフレームワークの安定化されたバージョンであるStarPO-Sを開発しました。StarPO-Sには、3つの主要な介入が組み込まれています。
- 不確実性に基づくロールアウトフィルタリング: これにより、エージェントが結果について不確実性を示すロールアウトが優先されます。
- KLペナルティの削除: モデルが元のポリシーからより自由に逸脱し、新しい動作を探索できるようにします。
- 非対称PPOクリッピング: これにより、高報酬の軌跡が低報酬の軌跡よりも大きく増幅され、学習が強化されます。
これらの調整により、トレーニングの崩壊が遅延または排除され、3つのタスクすべてでパフォーマンスが向上します。Wang氏によると、「StarPO-Sは…3つのタスクすべてで機能します。崩壊を緩和します。より良い報酬。」
RLトレーニングの成功は、アーキテクチャだけでなく、エージェント自身が生成するデータの品質にも依存します。チームは、トレーニングに大きな影響を与える3つの重要な側面を特定しました。
- タスクの多様性: モデルを幅広い初期シナリオにさらすことで、一般化が向上します。
- インタラクションの粒度: 1ターンあたり複数のアクションを許可することで、より意味のある計画が可能になります。
- ロールアウトの鮮度: トレーニングデータを現在のモデルポリシーと一致させることで、古くなった学習シグナルを回避できます。
これらの要素が組み合わさって、より安定した効果的なトレーニングプロセスに貢献します。
エージェントの思考プロセスの公開
GitHubの研究者によって作成されたインタラクティブなデモサイトは、エージェントのロールアウトを完全な対話ターンとして視覚的に表現し、実行されたアクションだけでなく、その背後にある段階的な思考プロセスも明らかにします。
たとえば、数学の問題を解く場合、エージェントは最初に「思考」して変数を分離してから、「x = 5」のような答えを送信する場合があります。これらの途中経過は目に見えて追跡可能であり、エージェントがどのように決定に到達するかについての透明性を提供します。
明示的な推論は、Banditのような単純な単一ターンのタスクではパフォーマンスを向上させますが、複数ターンのトレーニング中は低下する傾向があります。構造化されたプロンプトとトークンを使用しても、推論トレースは明示的に報酬を与えない限り、縮小または消滅することがよくあります。
これは、従来の報酬設計の限界を浮き彫りにしています。タスクの完了に焦点を当てると、プロセスの品質が見過ごされる可能性があります。チームは、より構造化された推論を促すために形式ベースのペナルティを試しましたが、より洗練された報酬の形成が必要になる可能性があることを認めています。
AIエージェント開発のためのオープンソースツール
RAGENは、そのStarPOおよびStarPO-Sフレームワークとともに、オープンソースプロジェクトとして利用できるようになりました。これは、タスクを完了するだけでなく、考え、計画し、進化するAIエージェントの開発に関心のある人にとって貴重な基盤を提供します。
AIがより大きな自律性に向けて進歩するにつれて、RAGENのようなプロジェクトは、データと自分自身のアクションの結果の両方から学習するモデルをトレーニングするために必要なものを明らかにします。
現実世界での実装に関する重要な質問
RAGEN論文は詳細な技術的フレームワークを提供していますが、そのエンタープライズ環境でのアプリケーションを検討している人にとっては、いくつかの実用的な質問が残っています。たとえば、RAGENのアプローチは、これらの様式化されたシンボリックタスクを超えて、どの程度うまく移行できるでしょうか?企業は、請求書処理やカスタマーサポートなどのワークフローでこのシステムを使用するために、完全に新しい環境と報酬関数を作成する必要があるでしょうか?
もう1つの重要な考慮事項は、スケーラビリティです。StarPO-Sによって提供される改善があっても、トレーニングは長期間にわたって崩壊する可能性があることが論文で認められています。これにより、オープンエンドまたは継続的に進化するタスクシーケンスで推論を維持するための理論的または実際的な経路があるかどうかという問題が発生します。
RAGENは、より自律的で推論能力のあるAIエージェントを作成するための重要な一歩であり、単なる技術的な貢献を超えて、将来の開発のための概念的なフレームワークを提供します。それがエンタープライズAIツールキットの標準コンポーネントになるかどうかはまだわかっていませんが、エージェント学習のダイナミクスに関するその洞察は、すでにLLMトレーニングの未来を形作っています。
この斬新な方法は、信頼性が高く、適応性のあるAIエージェントに対する重要なニーズに対応し、現実世界のアプリケーションに向けて有望な道筋を提供します。経験を通して学習し、意思決定の軌跡を最適化することに焦点を当てることで、RAGENは理論モデルと実用的な実装の間のギャップを埋めるのに役立ちます。フレームワークのオープンソースとしての利用可能性は、この分野のイノベーションをさらに加速し、研究者や開発者がその基盤に基づいて構築し、AIエージェントテクノロジーの新しいフロンティアを探求できるようにします。