Nvidiaの'GPU'再定義:AIインフラコスト増大の可能性

奇妙な訂正:NvidiaがGPU数を再考

半導体イノベーションという一か八かの舞台において、NvidiaのGPU Technology Conference (GTC) は未来を披露するための最高のステージとして機能しています。直近のカンファレンスでは、人工知能とアクセラレーテッドコンピューティングの進歩に関する期待通りのファンファーレの中で、同社は微妙ながらも潜在的に重大な変更を導入しました。それは、Graphics Processing Unit (GPU) を根本的にどのように定義するかという変更です。これは単なる技術的な脚注ではなく、特にNvidiaの高度なAIソリューションを展開するためのコスト構造に関して、下流に大きな影響を与える再調整でした。

CEOのJensen Huang自身がGTCのステージから直接この変更について言及し、最先端のBlackwellアーキテクチャに関する以前の見落としの訂正として位置づけました。「私が間違えたことの一つは、Blackwellは実際には1つのBlackwellチップに2つのGPUが入っているということです」と彼は述べました。提示された根拠は、特にNvidiaの高速インターコネクト技術であるNVLinkに関連する命名規則に関する明確性と一貫性に焦点を当てていました。「我々はその1つのチップをGPUと呼んでいましたが、それは間違いでした。その理由は、それがNVLinkの命名法をすべて台無しにしてしまうからです」とHuangは詳しく説明しました。モデル番号の簡略化はある程度の論理的な整理をもたらしますが、この再定義は単なる意味論を超えた重みを持っています。

この変更の核心は、物理的なモジュール(特に高性能サーバーで一般的なSXMフォームファクタ)を個々のGPUとして数えることから、それらのモジュール内の個別のシリコンダイを数えることに移行することにあります。この一見些細な用語の調整は、NvidiaのAI Enterpriseソフトウェアスイートを活用する組織にとって、財務状況を劇的に変える可能性があります。

財務的な波及効果:AI Enterpriseライセンスの倍増?

NvidiaのAI Enterpriseは、AIアプリケーションの開発と展開を効率化するために設計された包括的なソフトウェアプラットフォームです。これには、幅広いツール、フレームワーク、そして重要なことに、AIモデルを効率的に実行するための最適化されたコンテナであるNvidia Inference Microservices (NIMs) へのアクセスが含まれます。この強力なスイートのライセンスモデルは、歴史的に展開されるGPUの数に直接結び付けられてきました。現在の価格体系では、コストは年間GPUあたり約4,500ドル、またはクラウドベースのレートでGPUあたり1時間1ドルとなっています。

前世代または特定のBlackwell構成を考えてみましょう。8つのSXMモジュールを搭載したNvidia HGX B200サーバーは、各モジュールが当時は単一のBlackwell GPUと見なされていたものを収容しており、8つのAI Enterpriseライセンスが必要でした。これは、年間ソフトウェアサブスクリプションコストが36,000ドル(8 GPU * 4,500ドル/GPU)または時間単位のクラウドコストが8ドル(8 GPU * 1ドル/GPU/時間)に相当しました。

さて、HGX B300 NVL16のようなシステムで新たに定義された状況に入ります。このシステムも8つの物理SXMモジュールを備えています。しかし、改訂された定義の下では、Nvidiaはこれらのモジュール内の各シリコンダイを個別のGPUとして数えます。この特定の構成では各モジュールに2つのダイが含まれているため、ライセンス目的の総GPU数は実質的に16 GPU(8モジュール * 2ダイ/モジュール)に倍増します。

NvidiaがAI Enterpriseスイートに対して既存のGPUあたりの価格体系を維持すると仮定すると(同社はこの点がまだ最終決定されていないと述べていますが)、その影響は明白です。同じ8モジュールのHGX B300システムは、潜在的に16ライセンスが必要となり、年間ソフトウェアコストは72,000ドル(16 GPU * 4,500ドル/GPU)またはクラウドで1時間あたり16ドルに急騰します。これは、「GPU」の数え方の変更に直接起因して、一見同等のハードウェア密度に対してソフトウェアサブスクリプションコストが100%増加することを意味します。

2つのアーキテクチャの物語:過去の発言との整合性

この命名法の変更は、Nvidiaが以前にBlackwellアーキテクチャを特徴づけていた方法と興味深い対照をなしています。Blackwellが最初に発表されたとき、単一のプロセッサパッケージ内で複数のシリコン片(ダイ)がリンクされているその設計に関して議論が起こりました。当時、NvidiaはBlackwellを「チップレット」アーキテクチャ(複数のより小さな相互接続されたダイを使用する設計に対する一般的な業界用語)という用語で説明することに積極的に反論しました。代わりに、同社は異なる視点を強調しました。

Blackwellのローンチ報道で報告されたように、Nvidiaは「統一された単一のGPUとして機能する2レチクル限定ダイアーキテクチャ」を採用していると主張しました。この表現は、物理的に2つのダイが存在するにもかかわらず、それらが1つの論理的な処理ユニットとして一体的に機能することを強く示唆していました。B300構成に適用された新しい計数方法は、少なくともソフトウェアライセンスの観点からは、この「統一された単一のGPU」の概念から離れ、ダイを個別のエンティティとして扱っているように見えます。これは、当初の説明が主にハードウェアの機能的可能性に焦点を当てていたのか、それともライセンスに関する戦略的視点が変化したのかという疑問を提起します。

パフォーマンス向上 vs 潜在的なコスト上昇:B300の提案評価

HGX B300のソフトウェアライセンス料が、B200のような前世代機と比較して倍増する可能性を考慮する際、新しいハードウェアが提供するパフォーマンス向上を検討することが重要です。B300は、潜在的なソフトウェアコストの倍増を正当化するだけのAI処理能力を2倍提供するのでしょうか?仕様は、より微妙な状況を示唆しています。

HGX B300は確かに改善点を誇っています:

  • メモリ容量の増加: システムあたり約2.3テラバイトの高帯域幅メモリ(HBM)を提供し、B200で利用可能な1.5TBと比較して約1.5倍の大幅な増加です。これは、より大きなAIモデルやデータセットを処理するために重要です。
  • 低精度パフォーマンスの向上: B300は、4ビット浮動小数点(FP4)精度を使用する計算において顕著なパフォーマンス向上を示しています。そのFP4スループットは、システムあたり105 dense petaFLOPS強に達し、B200よりも約50%増加しています。この高速化は、低精度が許容される特定のAI推論タスクに特に有益です。

しかし、パフォーマンスの利点はすべてのワークロードで普遍的ではありません。重要なことに、より高い精度の浮動小数点演算(FP8、FP16、FP32など)を必要とするタスクについては、B300は古いB200システムに対して浮動小数点演算において大きな利点を提供しません。多くの複雑なAIトレーニングや科学計算タスクは、これらの高精度フォーマットに大きく依存しています。

したがって、B300を評価する組織は複雑な計算に直面します。彼らは大幅なメモリ容量とFP4パフォーマンスの向上を得ますが、AI Enterpriseソフトウェアコストの潜在的な倍増は、特定の高精度ワークロードに対するパフォーマンスの対応する倍増と一致しない可能性があります。価値提案は、実行されるAIタスクの性質に大きく依存するようになります。

技術的正当化:インターコネクトと独立性

興味深いことに、この新しいダイ計数方法は、GTCで発表されたすべての新しいBlackwellベースのシステムに普遍的に適用されるわけではありません。例えば、より強力な液冷式のGB300 NVL72システムは、引き続き古い慣例に従い、パッケージ全体(2つのダイを含む)をライセンス目的で単一のGPUとして数えます。この相違は疑問を投げかけます:なぜ違いがあるのでしょうか?

Nvidiaは、GPUパッケージ自体の内部にあるインターコネクト技術に根ざした技術的な根拠を提供しています。NvidiaのハイパースケールおよびHPC担当バイスプレジデント兼ゼネラルマネージャーであるIan Buckによると、区別はパッケージ内の2つのダイを直接リンクする重要なチップ間(C2C)インターコネクトの有無にあります。

  • HGX B300構成: 空冷式のHGX B300システムで使用される特定のBlackwellパッケージには、この直接的なC2Cインターコネクトがありません。Buckが説明したように、この設計選択は、空冷シャーシの制約内で消費電力と熱管理を最適化するために行われました。しかし、その結果として、単一のB300モジュール上の2つのダイは、より高度な独立性を持って動作します。一方のダイが、同じモジュール上のもう一方のダイに物理的に接続されている高帯域幅メモリに格納されたデータにアクセスする必要がある場合、直接アクセスすることはできません。代わりに、データ要求はパッケージに出て、外部のNVLinkネットワーク(おそらくサーバーマザーボード上のNVLinkスイッチチップ経由)を通過し、その後、もう一方のダイのメモリコントローラに戻る必要があります。この迂回は、これらが共通のパッケージを共有しているが、完全なメモリ共有のためには外部通信パスを必要とする、機能的に異なる2つの処理ユニットであるという概念を補強します。この分離が、それらを2つの異なるGPUとして数えることを正当化するとNvidiaは主張しています。

  • GB300 NVL72構成: 対照的に、ハイエンドのGB300システムで使用される「Superchip」パッケージは、高速C2Cインターコネクトを保持しています。この直接リンクにより、パッケージ内の2つのダイは、NVLinkスイッチ経由のパッケージ外迂回を必要とせずに、はるかに効率的かつ直接的に通信し、メモリリソースを共有できます。それらがより一体的に機能し、シームレスにメモリを共有できるため、ソフトウェアおよびライセンスの観点からは、Blackwellアーキテクチャの当初の「統一された」説明と一致する単一の統一されたGPUとして扱われます。

この技術的な区別は、異なる計数方法に対する論理的な根拠を提供します。B300のダイは、C2Cリンクがないため機能的により分離されており、2-GPUカウントの信憑性を高めています。GB300のダイは密接に結合されており、単一GPUカウントをサポートしています。

未来を覗く:Vera Rubinが先例を示す

GB300は現在例外を表していますが、B300に採用されたダイ計数アプローチは、Nvidiaの将来の方向性を示唆しているようです。同社はすでに、将来リリース予定の次世代プラットフォーム、コードネームVera Rubinが、この新しい命名法を完全に採用することを予告しています。

命名規則自体がヒントを提供します。Rubinアーキテクチャに基づくシステムは、NVL144のような高い番号で指定されています。この指定は、モジュールではなく個々のダイを数えることを強く示唆しています。B300の論理に従うと、NVL144システムは、おそらく特定の数のモジュールで構成され、各モジュールには複数のダイが含まれ、ライセンスおよび仕様目的で合計144個の数えられるGPUダイになるでしょう。

この傾向は、Nvidiaの2027年後半のVera Rubin Ultraプラットフォームのロードマップでさらに顕著です。このプラットフォームは、ラックあたり576 GPUという驚異的な数を誇ります。以前に分析されたように、この印象的な数は、ラックに576個の個別の物理モジュールを詰め込むことによって達成されるのではありません。代わりに、それは新しい計数パラダイムが乗算的に適用されたことを反映しています。このアーキテクチャは、おそらくラックあたり144個の物理モジュールを含みますが、各モジュールには4つの個別のシリコンダイが含まれています。したがって、144モジュールにモジュールあたり4ダイを掛けると、見出しの数字である576「GPU」が得られます。

この将来を見据えた視点は、B300のダイ計数方法が特定の空冷システムのための一時的な調整ではなく、Nvidiaが将来の世代でGPUリソースを定量化する方法の基本原則であることを示唆しています。Nvidiaのエコシステムに投資する顧客は、このシフトが標準になることを予測する必要があります。

語られない要因:ソフトウェア収益源の最大化?

C2Cインターコネクトに関する技術的な説明は、B300の異なるGPU計数の根拠を提供しますが、そのタイミングと重大な財務的影響は、必然的に根底にあるビジネス上の動機についての憶測につながります。当初、命名法の「間違い」の訂正として提示されたこの再定義は、継続的なソフトウェア収益を強化するための戦略的な手段としても機能する可能性があるのでしょうか?

Blackwellが最初に「統一された単一のGPU」というメッセージで詳述されてから1年の間に、Nvidiaが未開拓の大きな収益機会を認識した可能性は十分にあります。AI Enterpriseスイートは、Nvidiaのビジネスにおいて成長中で高マージンの構成要素を表しています。そのライセンスを物理モジュールではなくシリコンダイの数に直接結び付けることは、特にVera Rubin Ultraのような将来のアーキテクチャでモジュールあたりのダイ数が増加する可能性があるため、各ハードウェア展開から得られるソフトウェア収益を大幅に増加させる道筋を提供します。

このGPU定義の変更が、新しいB300システムのAI Enterpriseライセンスコストに具体的にどのように影響するかについて問われた際、Nvidiaはある程度の曖昧さを維持しました。同社の広報担当者は、財務的な詳細はまだ検討中であると伝えました。「B300の価格詳細はまだ最終決定されておらず、RubinについてはGTC基調講演で示された以上の詳細を現時点でお伝えすることはありません」と広報担当者は述べ、これにはこれらのプラットフォーム上のAI Enterpriseの価格体系が含まれることを明確に確認しました。

この最終決定されていない価格設定は、特定のハードウェア構成で数えられるGPUが倍増することと相まって、将来のAIインフラ投資を計画している顧客に不確実性をもたらします。技術的な正当化は存在しますが、ソフトウェアサブスクリプションコストが大幅に増加する可能性が大きく迫っています。このシフトは、半導体のバリューチェーンにおけるソフトウェアの重要性の高まりと、ライセンスメトリクスを基礎となるシリコンの複雑さにより密接に連携させることで、包括的なAIプラットフォームをより効果的に収益化するというNvidiaの明らかな戦略を浮き彫りにしています。組織が次世代AIシステムの予算を立てる際、「GPU」の定義は突然、重要かつ潜在的にはるかに高価な変数となりました。