Nvidia新モデル、DeepSeek-R1超え！詳細解説 | ja

NvidiaのLlama-Nemotronシリーズモデルが、正式にDeepSeek-R1を上回りました。これらのモデルが優れたパフォーマンスを達成するためにどのように開発されたのか、そのトレーニングの詳細が完全に公開され、洞察に満ちています。

これらのモデルは現在、完全にオープンソース化されており、アクセス可能なAIテクノロジーにおける重要な進歩を示しています。これは、推論スループットとメモリ効率の点でDeepSeek-R1を大幅に上回る一連の推論モデルが、誰でも利用および変更できるようになったことを意味します。

モデル成功の秘訣を解き明かす

では、DeepSeek-R1を超えるこれらのモデルは、一体どのようにして作成されたのでしょうか？ Nvidiaの技術レポートは、トレーニングプロセスの重要な要素を明らかにしています。

合成データ+強化学習による教師ありファインチューニング: この組み合わせにより、モデルの推論能力が大幅に向上します。
包括的なポストトレーニングプロセス: ロバストで適切に設計されたポストトレーニングプロセスは、モデルのパフォーマンスを最適化するために不可欠です。

先月、NvidiaはLlama-Nemotron 253Bを正式に発表し、これはすぐにLlama 4（わずか3日前に発表され、リーダーボードの操作により"整合性の危機"に直面していました）を影に隠しました。この一連のモデルのリリースは、業界に大きな波紋を呼びました。

Artificial Analysis Intelligence Indexによると、Llama-Nemotron-Ultraは現在、2025年4月時点で"最もインテリジェント"なオープンソースモデルと見なされています。

Nvidiaは、Llama-Nemotronシリーズで3つのモデルを発売しました：LN-Nano 8B、LN-Super 49B、およびLN-Ultra 253B。

特に、LN-UltraはパフォーマンスにおいてDeepSeek-R1を上回るだけでなく、単一の8xH100ノード上で実行され、より高い推論スループットを実現します。

これらのモデルは、強力な推論能力と最大128Kのコンテキスト長を維持しながら、高スループット推論に最適化されています。

さらに、Nvidiaは、グローバルなAIオープンソースコミュニティに画期的な推論スイッチ機能を導入しました。ユーザーは、システムプロンプト"detailed thinking on/off"を使用して、標準チャットモードと推論モードを動的に切り替えることができます。

この設計により、モデルは一般的な日常のニーズを満たすことができ、異なるモデルやアーキテクチャを必要とせずに、複雑な多段階の推論タスクを処理できます。

構築プロセス：5段階のアプローチ

Llama-Nemotronモデルの構築は、5つの異なる段階に分かれています。

ステージ1: Llama 3シリーズモデルに基づくニューラルアーキテクチャ検索（NAS）を使用して推論効率を最適化し、Feedforward Network Fusion（FFN Fusion）を導入します。

ステージ2: 知識蒸留と継続的な事前トレーニングを通じて、モデルのパフォーマンスを回復します。

ステージ3: 教師ありファインチューニング（SFT）。標準的な指示データと、DeepSeek-R1のような強力な教師モデルからの推論プロセスを組み合わせることで、モデルは多段階の推論を実行できます。

ステージ4: 複雑な数学およびSTEMデータセットに関する大規模な強化学習。これは、生徒モデルが教師モデルの能力を超えるために不可欠です。 LN-Ultraの場合、この段階により、GPQA-Dベンチマークでのパフォーマンスが大幅に向上し、オープンソースドメインにおける科学的推論のための最強のモデルとしての地位を確立しています。

このような大規模な強化学習トレーニングをサポートするために、チームは複数の最適化手段を備えた新しいトレーニングフレームワークを開発しました。最も重要なのは、FP8精度の生成機能をサポートすることです。

ステージ5: 指示の遵守と人間の好みに従うことに焦点を当てた簡単なアライメントトレーニング。

最適化された推論効率のための革新的なアーキテクチャ

LN-SuperとLN-Ultraは、モデルの推論効率を最適化するために、ニューラルアーキテクチャ検索にPuzzleフレームワークを活用しています。

Puzzleは、大規模言語モデルをハードウェアに適応した効率的なバージョンに変換し、展開向けに最適化します。

"ブロックごとのローカル蒸留"を通じて、開発者はLlama 3 Instructを使用して代替Transformerモジュールのライブラリを構築しました。

このプロセスでは、各モジュールが独立して並行してトレーニングされ、計算パフォーマンスを最適化しながら、元のモジュールの機能を近似します。

各代替モジュールには、特定の"精度-効率"トレードオフがあります。一部のモジュールはより効率的ですが、特定の品質低下につながる可能性があり、計算コストとモデルの精度との間に明確なトレードオフが生じます。

これらのモジュールのバリエーションには、次のものがあります。

注意メカニズムの削除: 一部のモジュールは注意メカニズムを完全に省略し、計算量とKVキャッシュメモリの消費量を削減します。

可変FFNディメンション: フィードフォワードネットワークの中間ディメンションが調整され、さまざまな粒度でモデルを圧縮できます。

モジュールライブラリを構築した後、Puzzleは各レイヤーからモジュールを選択して、完全なモデルを組み立てます。

この選択プロセスは、混合整数計画法（MIP）ソルバーによって制御されます。これは、ハードウェアの互換性、許容される最大レイテンシ、メモリ予算、または目的の推論スループットなどの制約に基づいて最適な構成を見つけます。

垂直圧縮とFFN融合

LN-Ultraモデルでは、研究者はモデルのシーケンス深度を削減し、推論レイテンシ効率を向上させるための追加の圧縮技術である**FFN Fusion（Feedforward Network Fusion）**を導入しました。

Puzzleが一部の注意レイヤーを削除すると、独特の構造になります。複数の連続したFFNブロックがモデル構造に頻繁に表示されます。

FFN Fusionは、これらの連続した構造を識別し、より少なく、より広い並列実行可能なFFNレイヤーに置き換えます。

この置換方法は、モデルの表現力を犠牲にすることなく、シーケンシャル計算の手順を削減し、特にマルチGPU環境では、コンピューティングリソースの利用率を大幅に向上させます。

LN-Ultraモデルは、精度と効率の点で一貫してDeepSeek-R1およびLlama-3.1-405Bを上回り、最適なバランスを実現しています。

Post-NASトレーニング：知識蒸留と継続的な事前トレーニング

ニューラルアーキテクチャ検索（NAS）フェーズの後、LN-SuperとLN-Ultraの両方が、モジュール間の互換性を向上させ、モジュールの置換中に発生した可能性のある品質の損失を回復するために、追加のトレーニングを受けました。

LN-Superは、知識蒸留の目的の下で、Distillation Mixデータセットで400億トークンでトレーニングされました。
LN-Ultraは、最初に同じ蒸留データセットで650億トークンでトレーニングされ、続いてNemotron-Hの第4段階の事前トレーニングデータセットで880億トークンの継続的なトレーニングを受けました。

この最後の事前トレーニングステップにより、LN-Ultraは参照モデルであるLlama 3.1-405B-Instructに追いつくだけでなく、主要なベンチマークテストでもそれを上回ることができました。

これは、簡単な蒸留と事前トレーニングにより、積極的なアーキテクチャ最適化と高いモデルパフォーマンスの間の互換性を実現できることを示しています。

教師ありファインチューニング：推論能力の洗練

教師ありファインチューニング（SFT）は、Llama-Nemotronモデルの"パーソナルトレーナー"として機能し、特定のタスクの推論ステップを特にターゲットとし、DeepSeek-R1などの"スター生徒"モデルから推論テクニックを学習します。

真の推論スキルを植え付けるには、大規模で高品質の推論トレーニングデータが不可欠です。

合成データ：推論向けに調整

研究者は、教師ありファインチューニングのために、推論データと非推論データの両方を含むデータサンプルを慎重にキュレーションしました。

推論サンプルの場合、システム命令に"detailed thinking on"を追加し、非推論サンプルの場合は、"detailed thinking off"を使用しました。

この設定により、モデルは推論フェーズ中にプロンプトに基づいて推論動作を切り替えることができます。

推論用の合成データは、数学、コーディング、および関連分野で準備されました。

モデルに"推論スイッチ"指示に従うようにトレーニングするために、研究者はペアのデータセットを構築しました。各プロンプトは、推論ありの応答と推論なしの応答に対応します。

このペアリングにより、モデルはシステム命令に基づいて推論動作を調整することを学習できます。

これらの応答の後続のフィルタリングは、標準的な回答または報酬モデルに基づいて実行されます。

ファインチューニングプロセス

すべてのモデルは、トークンレベルの交差エントロピー損失を使用して、指示ファインチューニングデータでトレーニングされました。

ほとんどのトレーニング設定では、推論データと非推論データが混合されてトレーニングバッチを形成します。各プロンプトは、"detailed thinking on/off"システム指示に基づいて、対応する応答とペアになります。

トレーニングを複数ラウンドに拡張すると、特に小規模モデルの場合、パフォーマンスが向上します。

NeMo-Alignerは、強化学習トレーニングに使用され、GRPOと異種モデルのトレーニングをサポートします。

vLLMは生成フェーズに使用され、Megatron-LMはトレーニングフェーズに使用されました。

トレーニングフェーズと推論フェーズは同じGPUのバッチを共有し、同じデバイスで完了しました。

トレーニングプロセス全体で72個のノードが使用され、それぞれに8個のH100 GPUが搭載されていました。

生成フェーズではFP8精度が使用され、トレーニングフェーズではBF16精度が使用され、オプティマイザの状態ではFP32が使用されました。

各フェーズは独立したモデルの重みを維持し、各ステップの開始時に同期されました。

強化学習：R1の推論能力を超えるための鍵

教師ありファインチューニング（SFT）により、モデルは強力な教師モデルから知識を抽出し、優れた能力を実現できます。

ただし、知識蒸留は、本質的に生徒モデルのパフォーマンスに制限を設定します。特に、生徒モデルの基本モデルの能力が教師モデルの能力を超えない場合です。

教師ありファインチューニングを通じて、LN-UltraのパフォーマンスはDeepSeek-R1に近づくことができますが、それを上回ることはできません。

大規模な強化学習（RL）は、生徒モデルが教師モデルを超えることを可能にする実行可能な方法です。これにより、モデルは新しい可能性を継続的に探索し、自己学習することができます。

リソースの制約により、研究者は推論RLをLN-Ultraにのみ適用しました。これにより、教師モデルを超える生徒モデルが生まれました。

推論強化学習のトレーニングプロセス全体で、GPQA-DiamondデータセットでのLN-Ultraの精度が向上しました。

トレーニングプロセス：科学的推論に焦点を当てる

LN-Ultraの場合、研究者は大規模な強化学習（RL）を通じて、科学的推論能力を強化しました。Grouped Relative Policy Optimization（GRPO）アルゴリズムを使用します。これは、DeepSeek-R1と同じものです。

トレーニングプロセス全体には、約140,000 H100時間が必要で、推論タスクで収束するまでモデルを継続的にトレーニングしました。

報酬メカニズムの設計には、2つのカテゴリが含まれていました。

精度報酬: 標準的な回答（数値/文/段落）に基づいて、Llama-3.3-70B-Instructモデルを呼び出して、予測結果の一致度を判断します。
形式報酬: DeepSeek-AIのスキームに従い、モデルは"detailed thinking"モードで推論プロセスを<think\>タグでラップする必要があり、そのようなタグの外観は非詳細な思考モードでは禁止されています。

研究チームは、データフィルタリングやカリキュラムトレーニングなど、データも事前処理しました。

データスクリーニング: LN-Superは、各質問に対して8つの応答を事前に生成するために使用され、合格率が75％以上の単純なサンプルは削除されます。
カリキュラムトレーニング: 合格率に基づくプログレッシブバッチ割り当てが採用されます。

動的分布: バッチの難易度をガウス関数でモデル化し、最初は合格率の高い（単純な）サンプルに焦点を当て、後で合格率の低い（難しい）サンプルに移行します。

パディングロジック: サンプルは最初にターゲット分布に従って割り当てられ、残りの容量は残りの最大のサンプルプールから補われます。

バッチ内処理: 同じバッチ内のサンプルは、多様性を維持するためにランダムにシャッフルされます。

プリファレンス最適化のための強化学習

科学的な推論トレーニングを完了した後、研究者はLN-SuperモデルとLN-Ultraモデルに対して、指示に従う能力を向上させることに焦点を当てた簡単な強化学習フェーズを実施しました。

研究者はまた、RLHFを使用して、モデルの一般的なヘルプ機能とチャットパフォーマンスを最適化すると同時に、数学、科学、およびその他の分野でのモデルの機能を保持しました。

LN-Superは、Arena Hardテストで88.3という高いスコアを達成し、Claude 3.5 SonnetやGPT-4o-2024-05-13などの独自のモデルを上回り、大規模なオープンソースモデルよりも優れています。

この結果を達成するために、彼らは"OnLine Reward-Policy Optimization"メソッドを採用し、HelpSteer2データセットでのモデルの予測報酬を最大化しました。使用された報酬モデルは、Llama-3.1-Nemotron-70B-Rewardでした。

2ラウンドのオンラインRPOトレーニングにより、Arena Hardスコアが69.1から88.1に増加しました。

LN-Ultraの場合、同様のプロセスを使用しましたが、GRPOを採用しました。

LN-Nanoの場合、2ラウンドのオフラインRPOトレーニングを実施し、ポリシーによって生成されたトレーニングデータを使用しました。

最初のラウンドでは、推論データと非推論データを適切なシステムプロンプトと組み合わせて、モデルの推論制御能力を最適化しました。 2番目のラウンドでは、指示に従う能力の向上に焦点を当てました。

評価結果：包括的な評価

研究者は、すべてのLlama-Nemotronモデルのパフォーマンスを、推論タスクと非推論タスクの2つのベンチマークカテゴリで評価しました。

推論ベンチマークには、AIME24およびAIME25、GPQA-Diamond、LiveCodeBench、およびMATH500が含まれていました。

非推論ベンチマークには、指示に従う評価のためのIFEval、関数呼び出しツール使用評価のためのBFCL V2 Live、および人間の会話の好みとの整合性を評価するためのArena-Hardが含まれていました。

LN-Nanoは、サイズが小さいにもかかわらず、すべての推論ベンチマークで優れたパフォーマンスを発揮しました。

これは、教師ありファインチューニングプロセスと適切にキュレーションされた推論データセットが、構造化された推論能力をより小さなモデルに転送するのに効果的であることを示しています。

LN-Superは、同様のパラメータスケールの他のモデルと比較して、推論タスクと非推論タスクの両方で強力な競争力を示しました。

"reasoning off"モードでは、LN-Superのパフォーマンスは、蒸留されたソースモデルであるLlama-3.3-70Bと同等でした。"reasoning on"モードでは、DeepSeek-R1-Distilled-Llama-70Bなどの他の競合モデルを上回り、優れた指示に従う能力を維持しながら、強力な推論能力を示しました。

これらの結果は、LN-Superが推論に最適化されたモデルと非推論モデルの利点を組み合わせた汎用性の高いモデルであり、日常のアシスタントタスクと構造化された推論タスクに適していることを示しています。

LN-Ultraは、推論および非推論ベンチマークで、既存のすべてのオープンソースウェイトモデルと同等またはそれ以上のパフォーマンスを発揮しました。 GPQAでオープンソースモデルで最も高度なレベルを達成し、Nvidiaの研究者による大規模な強化学習トレーニング方法の効果を完全に実証しました。

8×H200ハードウェア構成を必要とするDeepSeek-R1とは異なり、LN-Ultraは単一の8×H100ノードで効率的に実行されるように最適化されており、より高い推論スループットと展開効率を提供します。

LN-UltraのSFTフェーズは、複数の推論ベンチマーク（GPQAやAIMEなど）でDeepSeek-R1のパフォーマンスに近づいているか、それに達しています。

モデルが元々トレーニングされた推論および対話機能に加えて、配布タスクでもモデルをテストしました。

具体的には、モデルはJudgeBenchデータセットでテストされ、高品質の回答と低品質の回答を区別する必要がありました。

新しいモデルは、このタスクで現在のトップの独自のモデルとオープンソースモデルを上回りました。

LN-Ultraは最高のパフォーマンスを発揮するオープンソースモデルになり、DeepSeek-R1を大幅に上回り、独自のモデルo3-mini（high）に次ぐモデルとなりました。

さらに、LN-Superのパフォーマンスもo1-miniを上回り、新しいモデルがさまざまなタスクで強力な一般化能力を備えていることを示しています。

更新日時: 2025-05-07

# Nvidia # Nemotron # Fine-Tuning