Nvidiaは、エージェントベースAIの将来的な波、つまり推論能力に前例のない要求を課すであろう領域に照準を合わせています。この課題に対応するため、Nvidiaはハードウェアとソフトウェアの革新を包含する包括的な戦略を発表しました。
ハードウェア戦略:スケールアップとスケールアウト
Nvidiaのハードウェア戦略の中心にあるのは、これまで以上に強力なGPUの絶え間ない追求です。同社は二面的なアプローチを採用しており、まず垂直方向へのスケーリングに焦点を当て、次に水平方向へのスケーリングに焦点を当てています。目標は、単一の、非常に強力なAIスーパーコンピューターをラック内に開発するだけでなく、相互接続されたラックのエコシステム全体を作成し、大規模なAIスーパーコンピューター複合体を形成することです。この’AIファクトリー’アプローチは、最も要求の厳しいAIワークロードに必要な計算能力を提供するように設計されています。
最近のGTCカンファレンスで発表された新しいBlackwell UltraラックマウントAIスーパーコンピューターは、この戦略を例示しています。Blackwell Ultraは、トレーニングとテスト時のスケーリング推論の両方を加速するように設計されており、既存のBlackwellアーキテクチャを活用していますが、より強力なGB300 NVL72を組み込んでいます。この構成は、NVLinkを介して相互接続された72個のBlackwell Ultra GPUを備えており、FP4精度で驚異的な1.1 Exaflopsの計算能力を提供します。GB300 NVL72は、GB200 NVL72の1.5倍のAIパフォーマンスを誇ります。単一のDGS GB300システムは、15 Exaflopsの計算能力を提供します。2025年後半にリリース予定のBlackwell Ultraは、Cisco、Dell、HPE、Lenovo、ASUS、Foxconn、Gigabyte、Pegatron、Quantaなど、幅広いサーバー機器ベンダーによってサポートされます。さらに、AWS、GCP、Azureなどのクラウドサービスプロバイダーは、Blackwell Ultraに基づいたコンピューティングサービスを提供します。
これらの発電所レベルのAIファクトリーシステムに加えて、Nvidiaは企業内の推論ニーズをターゲットにした新しいコンピューターラインも導入しました。これらには、DGX SparkおよびDGX StationパーソナルAIコンピューターが含まれます。DGX Sparkは、サイズがMac miniに似ており、最大1 PFlopsの計算能力を提供します。
これを理解するために、2021年に50,000以上のコアでローンチされたTaiwania 3スーパーコンピューターは、わずか2.7 PFlopsのパフォーマンスを提供します。わずか4年で、3台のデスクトップサイズのパーソナルAIコンピューターの計算能力がTaiwania 3を上回りました。128GBメモリ構成で3,999ドル(約130,000 NTドル)の価格で、これらの新しいパーソナルAIコンピューターは、企業内の将来の内部AIニーズに対応するように設計されており、ミニAIファクトリーとして、またはエッジAI環境でも動作します。
将来のロードマップ:Vera Rubinとその後
将来を見据えて、NvidiaのCEOであるJensen Huangは、今後2年間の製品ロードマップを概説しました。2026年後半には、暗黒物質を発見したアメリカの天文学者にちなんで名付けられたVera Rubin NVL144をリリースする予定です。Vera Rubin NVL144は、GB300 NVL72の3.3倍のパフォーマンスを提供し、メモリ容量、帯域幅、NVLink速度が1.6倍以上向上します。2027年後半には、NvidiaはRubin Ultra NVL576を発売します。これは、GB300 NVL72の14倍のパフォーマンスを提供し、NVLink7およびCX9を介してメモリ容量と帯域幅速度が大幅に向上します。
Vera Rubinアーキテクチャの後、Nvidiaの次世代アーキテクチャは、チャレンジャー宇宙シャトルの災害調査での業績で知られる、著名なアメリカの物理学者であるRichard Feynmanにちなんで名付けられます。
ソフトウェア戦略:Nvidia Dynamo
Nvidiaは常にソフトウェアを重視しており、ハードウェアよりもさらに重要であると考えています。この戦略的な焦点は、同社のAIファクトリーイニシアチブにも及んでいます。
さまざまなドメインへのCUDA-X AIアクセラレーションライブラリの拡張と、専門のアクセラレーションライブラリの開発に加えて、Nvidiaは新しいAIファクトリーオペレーティングシステムであるNvidia Dynamoを導入しました。特筆すべきは、Nvidiaがこのオペレーティングシステムをオープンソースにしたことです。
Nvidia Dynamoは、LLM推論サービスを提供するプラットフォームを構築するように設計されたオープンソースの推論サービスフレームワークです。K8s環境にデプロイして、大規模なAI推論タスクをデプロイおよび管理できます。Nvidiaは、DynamoをNIMマイクロサービスフレームワークに統合し、Nvidia AI Enterpriseフレームワークのコンポーネントにすることを計画しています。
Dynamoは、Nvidiaの既存のオープンソース推論サーバープラットフォームであるTritonの次世代製品です。その主な機能は、LLM推論タスクを2つのステージに分割することであり、GPUをより柔軟かつ効率的に利用して推論処理を最適化し、効率を向上させ、GPUの使用率を最大化できます。Dynamoは、推論要件に基づいてGPUを動的に割り当て、GPU間の非同期データ転送を加速して、モデル推論の応答時間を短縮できます。
TransformerベースのGAIモデルは、推論を2つのステージに分割します。入力データをトークンに変換してストレージに格納するPrefill(事前入力)と、前のトークンに基づいて次のトークンを生成するシーケンシャルプロセスであるDecodeです。
従来のLLM推論では、PrefillタスクとDecodeタスクの両方を同じGPUに割り当てます。ただし、これらのタスクの計算特性が異なるため、Dynamoはそれらを分割し、それに応じてGPUリソースを割り当て、タスクの特性に基づいて割り当てを動的に調整します。これにより、GPUクラスターのパフォーマンスが最適化されます。
Nvidiaのテストでは、GB200 NVL72で6710億パラメーターのDeepSeek-R1モデルでDynamoを使用すると、推論パフォーマンスが30倍向上する可能性があることが示されています。Hopper GPUで実行されているLlama 70Bのパフォーマンスも、2倍以上に向上する可能性があります。
推論タスクの管理は、推論計算の複雑な性質と、さまざまな並列処理モデルのために複雑です。Huangは、NvidiaがAIファクトリーのオペレーティングシステムを提供するためにDynamoフレームワークを立ち上げたことを強調しました。
従来のデータセンターは、VMwareなどのオペレーティングシステムを使用して、エンタープライズITリソース上のさまざまなアプリケーションを調整します。AIエージェントは将来のアプリケーションであり、AIファクトリーにはVMwareではなくDynamoが必要です。
Huangが新しいAIファクトリーオペレーティングシステムを、産業革命を引き起こしたエンジンであるDynamoにちなんで名付けたことは、プラットフォームに対する彼の期待と野望を明らかにしています。