人工知能が真に推論できる能力の探求は、長らくこの分野の中心的な目標でした。OpenAIの「o1」モデルをめぐる最初の興奮は、大規模な強化学習(RL)技術を活用して、高度な推論能力を備えたシステムを構築することへの関心を広範に引き起こしました。これに続き、DeepSeek-R1がそのモデルをオープンソースとしてリリースしたことで、さらなる熱意が高まり、AIコミュニティは最先端の推論モデルの開発を精力的に追求できるようになりました。
しかし、この最初の活動の活発さは、すぐに重大な障害によって弱まりました。再現を成功させるために非常に重要な技術的な詳細、具体的には、データキュレーションに採用された正確な戦略と、RLトレーニングを統括する複雑なレシピが、DeepSeek-R1の元のレポートから著しく欠落していました。この省略により、研究者たちはかなりのフラストレーションを感じ、報告された成功を再現するという課題に取り組むことになりました。その結果、研究はやや断片化された状況となり、さまざまなモデルサイズ、さまざまな初期チェックポイント、多様なターゲットドメインを調査する多数の独立した取り組みが行われました。この集中的な活動にもかかわらず、包括的で一貫して効果的なトレーニングレシピは依然としてとらえどころのないものでした。
推論のための言語モデルのトレーニングへの従来のアプローチは、主に数学とコンピューターコードのドメインに集中してきました。これらの方法論は一般に、大規模なデータセットでの事前トレーニングと、これらの特定のタスクのためにモデルを専門化するための教師ありファインチューニングの組み合わせに依存しています。このプロセスに強化学習を組み込む初期の試みは、通常、ドメイン固有の報酬モデルを利用していましたが、限られた成果しか得られませんでした。これは、数学的タスクとコーディングタスクに固有の課題に起因しており、わずかなエラーでも、大幅に誤った結果につながる可能性があります。
DeepSeek-R1のリリースに刺激されたより最近の調査では、ルールベースの検証方法の使用が検討されています。数学の分野では、これらの方法は多くの場合、ソリューションの正確で自動化された検証を可能にする特定の出力形式を要求することが含まれます。同様に、コードのコンテキストでは、研究者はコンパイルと実行の固有のフィードバックメカニズムを活用して、学習プロセスをガイドしています。ただし、これらのアプローチは一般に個々のドメインに狭く焦点を当てており、数学とコーディングの問題を混在させた異種のプロンプトを効果的に処理する能力がありません。さらに、評価は多くの場合、AIMEやLiveCodeBenchなどの特定のベンチマークに限定されており、調査結果の一般化可能性が制限されています。最後に、トレーニングの不安定性は依然として永続的な問題であり、多くの場合、段階的な応答長の増加やエントロピー崩壊緩和などの複雑な技術の使用が必要になります。
現在、NVIDIAの研究者は、大規模な強化学習が、比較的小規模および中規模のモデルの推論能力を劇的に高める可能性を実証しており、ゲームのルールを変えようとしています。彼らの方法は、蒸留技術に基づく最先端のアプローチを超えるレベルのパフォーマンスを達成します。NVIDIAのアプローチでは、シーケンシャルなトレーニング戦略を利用しています。最初に、数学関連のプロンプトのみでRLトレーニングを実行し、その後、コードのみに焦点を当てたプロンプトに切り替えます。
推論能力を向上させるためのシーケンシャルな方法
調査結果はどうだったのでしょうか?数学の問題に関する初期のRLトレーニングは、数学のベンチマークでのパフォーマンスを劇的に向上させるだけでなく、驚くべきことに、コード推論能力も大幅に向上させることがわかりました。さらに、コードに焦点を当てたRLトレーニングの拡張イテレーションでは、数学的パフォーマンスの低下はごくわずかでありながら、コードパフォーマンスがさらに向上します。このアプローチは、重要なポイントを浮き彫りにします。数学トレーニングは、コーディングなどのより複雑な推論タスクのための強力な基盤として機能する可能性があります。
NVIDIAのアプローチの成功に不可欠なのは、堅牢なデータキュレーションパイプラインです。このパイプラインは、難易度が高く、高品質で検証可能な回答とテストケースが利用可能な課題となるプロンプトを収集するように細心の注意を払って設計されています。これにより、数学とコーディングの両方のドメインで検証ベースのRLを効果的に適用できます。
数学とコードのデータキュレーション
NVIDIAの研究者が採用したデータキュレーション方法論は、数学のみのRLとコードのみのRLの要件を注意深く区別しています。
数学のみのRL: 数学のみのRLのトレーニングデータの作成には、DeepScalerおよびNuminaMathデータセットからのデータのマージが含まれます。これらのデータセットには、代数、組み合わせ論、数論、幾何学など、幅広い数学的トピックが含まれています。データの整合性を維持するために、9グラムフィルターを使用して冗長または不適切なコンテンツを削除し、潜在的に問題のあるエントリを排除するための厳格な除外ルールを実装する厳密なフィルタリングプロセスが適用されます。次に、DeepSeek-R1モデルは質問の質を検証する上で重要な役割を果たします。各質問はモデルによって8回独立して試行され、ルールベースの検証によって正しさの過半数票を獲得したソリューションのみが保持され、最終データセットに含められます。
コードのみのRL: コードのみのRLのデータセットは、最新の競技プログラミングプラットフォームから調達されたデータを使用して構築されています。これらのプラットフォームは、多様なアルゴリズムトピックにまたがるコーディング問題の豊富なソースを提供します。問題は、これらの環境で一般的に使用される関数呼び出しおよび標準入出力(stdin/stdout)の規則に合わせてフォーマットされています。研究者は、互換性のない問題を排除するために細心の注意を払ったフィルタリングプロセスを実施し、エッジケースと境界条件を網羅するように設計された包括的なテストケースを細心の注意を払ってキュレートします。さらに、各問題には、DeepSeek-R1-671Bモデルによる評価を通じて決定された難易度スコアが割り当てられます。この厳格なプロセスにより、8,520の検証済みのコーディング問題で構成される高品質のデータセットが得られます。
AceReason-Nemotron: 結果とベンチマーク
NVIDIAの研究結果は説得力があります。AceReason-Nemotron-7Bモデルは、初期のSFTモデルと比較して、挑戦的なAIME 2024および2025の競技会でそれぞれ14.5%および14.6%の大幅な精度の向上を達成しています。さらに、LiveCodeBench v5およびv6ベンチマークでそれぞれ14.2%および8%の大幅なゲインを示しています。モデルのより大きな14Bバリアントは、DeepSeek-R1-Distill-Qwen-32BやDeepSeek-R1-Distill-Llama-70Bなどのより大きなモデルよりも優れたパフォーマンスを発揮します。これにより、オープンRLベースの推論モデルの中でクラス最高の成果を達成しています。
最先端の蒸留ベースのモデルと比較して、AceReason-Nemotron-14Bは、AIMEベンチマークでOpenMath-14B/32Bを2.1%/4.4%上回り、LiveCodeBenchでOpenCodeReasoning-14Bを1.7%/0.8%上回っています。これは、RLが蒸留アプローチよりも高いパフォーマンスの上限を達成できる一方で、QWQ-32Bやo3-miniなどの高度なフロンティアモデルに対して競争力のあるパフォーマンスを維持できることを説得力をもって示しています。
これらの結果の意味は重大です。これらは、大規模なRLがAIモデルの推論能力の新たなレベルを解き放つ可能性を秘めており、従来のアプローチの限界を超えることを示唆しています。シーケンシャルなドメイン固有のトレーニング戦略と、堅牢なデータキュレーションパイプラインを組み合わせることで、この分野の将来の研究の青写真が提供されます。
強化学習が推論の限界を押し上げる
この研究は、モデルの推論能力の境界を押し広げるための強化学習の大きな可能性を強調しています。ドメイン固有のトレーニングを戦略的に採用し、高品質のデータを細心の注意を払ってキュレートすることにより、AIモデルは以前は手に負えなかった問題を解決できるようになり、推論モデルの開発のための新しいベンチマークを確立し、最終的には前例のない精度と効率で現実世界の課題に取り組むことができる新しい世代のAIシステムにつながります。効果的に推論する能力は知性の基礎であり、NVIDIAによって達成された進歩は、人工知能の可能性を最大限に実現するための大きな一歩となります。今後の研究では、これらの技術をさらに大規模なモデルにスケーリングし、推論パフォーマンスをさらに向上させるための新しいデータキュレーション戦略を模索することに焦点を当てる可能性があります。より洗練された報酬関数と探索戦略の開発も、複雑な推論タスクのためにAIモデルをトレーニングすることに関連する課題を克服するために重要になります。最終的な目標は、人間と似た方法で推論、学習、適応できるAIシステムを作成し、複雑な問題を解決し、幅広いドメインにわたって情報に基づいた意思決定を行えるようにすることです。
さらに、RLの使用は、生の精度を超えた利点を提供します。RLエージェントは、効率、堅牢性、解釈可能性など、さまざまな目標を最適化することを学習できます。たとえば、RLエージェントは、正確であるだけでなく、効率的で理解しやすいコードを生成するようにトレーニングできます。この機能は、AIシステムが信頼性が高く予測可能であることを保証することが不可欠な、安全が重要なアプリケーションで特に重要です。
NVIDIAによる作業は、AI研究におけるデータキュレーションの重要性が高まっていることを強調しています。トレーニングデータの品質は、AIモデルのパフォーマンスに大きな影響を与え、細心の注意を払ってキュレートされたデータセットは、最先端の結果を達成するために不可欠です。NVIDIAによって開発されたデータキュレーションパイプラインは、推論モデルに取り組む研究者にとって貴重なリソースであり、他のドメインでの使用にも適応できます。
大規模なRL、ドメイン固有のトレーニング、および堅牢なデータキュレーションの組み合わせが、AIモデルの推論能力を向上させるための実績のある式であることが証明されています。これらの技術が進化し続けるにつれて、AIの分野でさらに印象的な進歩が見られると期待でき、近い将来、AIモデルの継続的な進歩が見られることを願っています。