メモリー制限の克服
AI開発の絶え間ない進歩は、大規模モデルほど賢くなる傾向があることを一貫して示してきました。同時に、その運用ニーズもエスカレートします。これは、とくに高度なAIチップへのアクセスが限られている地域では、重大な課題となります。しかし、地理的な制約とは関係なく、モデル開発者の間で、MoE (Mixture of Experts) アーキテクチャと革新的な圧縮技術を採用する傾向が強まっています。その目標は、これらの大規模なLLM (Large Language Models) のデプロイと実行に必要な計算リソースを大幅に削減することです。ChatGPTによって点火された生成AIブームの3周年が近づくにつれ、業界はついに、これらの電力消費量の多いモデルを実行し続けることの経済的影響を真剣に考慮し始めています。
Mistral AIのようなMoEモデルは以前から存在していましたが、真のブレークスルーは昨年発生しました。Microsoft、Google、IBM、Meta、DeepSeek、Alibabaなどのテクノロジー大手から、何らかの形式のMoEアーキテクチャを活用した新しいオープンソースLLMが急増しているのを目撃しました。その魅力は単純明快です。MoEアーキテクチャは、従来の「密な」モデルアーキテクチャよりもはるかに効率的な代替手段を提供します。
MoEアーキテクチャの基礎は、1990年代初頭の「Adaptive Mixtures of Local Experts」の発表に遡ります。その中核となるアイデアは、広範なデータスペクトルでトレーニングされた単一の巨大なモデルに依存するのではなく、タスクを1つまたは複数の専門化されたサブモデルまたは「エキスパート」に分散することを中心に展開します。
理論的には、各エキスパートは、コーディングや数学からクリエイティブライティングまで、特定のドメイン向けに細心の注意を払って最適化することができます。ただし、ほとんどのモデル開発者は、MoEモデル内の特定のエキスパートに関する詳細な情報を提供しておらず、エキスパートの数はモデルによって異なることに注意してください。重要なことに、モデル全体のごく一部だけが、特定の時点でアクティブになります。
DeepSeekのV3モデルを考えてみましょう。このモデルは、共有エキスパートとともに256のルーティングされたエキスパートで構成されています。トークン処理中には、8つのルーティングされたエキスパートと共有エキスパートのみがアクティブ化されます。この選択的なアクティブ化は、MoEモデルが同様のサイズの密なモデルと同じレベルの品質を常に達成できるとは限らないことを意味します。たとえば、AlibabaのQwen3-30B-A3B MoEモデルは、Alibabaのベンチマークテストで、密なQwen3-32Bモデルよりも一貫して低いパフォーマンスを示しました。
ただし、このわずかな品質の低下を、MoEアーキテクチャが提供する大幅な効率の向上に対して位置づけることが重要です。アクティブなパラメータの削減により、メモリー帯域幅の要件は、モデルの重みを格納するために必要な容量に直接比例しなくなります。本質的に、MoEモデルは依然としてかなりのメモリーを必要とする可能性がありますが、必ずしも最速かつ最も高価なHBM (High Bandwidth Memory) である必要はありません。
これを比較で説明しましょう。Metaの最大の「密な」モデルであるLlama 3.1 405Bと、170億のアクティブなパラメータを使用するMoEアーキテクチャを採用した同等のモデルであるLlama 4 Maverickを考えてみます。バッチサイズ、浮動小数点パフォーマンス、キーバリューキャッシュなど、現実世界のパフォーマンスに影響を与える多数の要素がありますが、特定の精度 (8ビットモデルの場合はパラメータあたり1バイト) でのモデルのギガバイト単位のサイズにバッチサイズが1の場合のターゲットの1秒あたりのトークン数を掛けることで、最小帯域幅要件を概算できます。
Llama 3.1 405Bの8ビット量子化バージョンを実行するには、405 GBを超えるvRAMと、1秒あたり50トークンでテキストを生成するために少なくとも20 TB/sのメモリー帯域幅が必要になります。NvidiaのHGX H100ベースのシステムは、ごく最近まで300,000ドル以上の価格でしたが、640 GBのHBM3と約26.8 TB/sの集約帯域幅しか提供しませんでした。フル16ビットモデルを実行するには、少なくともこれらのシステムの2つが必要でした。
対照的に、Llama 4 Maverickは、同じ量のメモリーを消費しながら、同等のパフォーマンスを達成するために1 TB/s未満の帯域幅しか必要としません。これは、モデルエキスパートの170億パラメータ分のみが出力の生成に積極的に関与しているためです。これは、同じハードウェアでのテキスト生成速度が1桁向上することを意味します。
逆に、純粋なパフォーマンスが主な関心事ではない場合、これらのモデルの多くは、Intelの最新のXeonに見られるように、安価ではあるが低速なGDDR6、GDDR7、さらにはDDRメモリーでも実行できるようになりました。
Computexで発表されたNvidiaの新しいRTX Proサーバーは、まさにこのシナリオに合わせて調整されています。高度なパッケージングを必要とする高価で電力消費量の多いHBMに依存する代わりに、これらのシステムの8つのRTX Pro 6000 GPUのそれぞれには、最新のゲーミングカードにあるのと同じタイプの96 GBのGDDR7メモリーが搭載されています。
これらのシステムは、最大768 GBのvRAMと12.8 TB/sの集約帯域幅を提供し、Llama 4 Maverickを1秒あたり数百トークンで実行するのに十分です。Nvidiaは価格を明らかにしていませんが、これらのカードのワークステーション版は8,500ドル前後で販売されており、これらのサーバーの価格は使用済みのHGX H100の半分のコストよりも低い可能性があることを示唆しています。
ただし、MoEはHBMスタックGPUの終わりを意味するものではありません。Llama 4 Behemothは、出荷されると仮定すると、その巨大なサイズのためにGPUのラック全体が必要になると予想されます。
Llama 3.1 405Bのほぼ半分の数のアクティブなパラメータしかありませんが、合計2兆のパラメータを誇っています。現在、市場には、フル16ビットモデルと100万トークン以上のコンテキストウィンドウに対応できる従来のGPUサーバーは1つもありません。
AIにおけるCPUルネッサンス?
特定のアプリケーションによっては、特にハイエンドアクセラレータへのアクセスが制限されている地域では、GPUが必ずしも必要ではない場合があります。
Intelは4月に、8800 MT/s MCRDIMMを搭載したデュアルソケットXeon 6プラットフォームを紹介しました。このセットアップは、Llama 4 Maverickで1秒あたり240トークンのスループットを達成し、トークンあたりの平均出力レイテンシは100 ms未満でした。
簡単に言うと、Xeonプラットフォームは、約24人の同時ユーザーに対して、1ユーザーあたり1秒あたり10トークン以上を維持できました。
Intelは1人のユーザーのパフォーマンス数値を公開しませんでした。これは、現実世界のシナリオでは重要性が低いためです。ただし、推定では、ピークパフォーマンスは1秒あたり約100トークンです。
それにもかかわらず、より良い代替手段がない場合、または特定の要件がない限り、CPUベースの推論の経済性は、ユースケースに大きく依存したままです。
重量の削減:プルーニングと量子化
MoEアーキテクチャは、大規模モデルの提供に必要なメモリー帯域幅を削減できますが、重みを格納するために必要なメモリー量を削減することはできません。8ビット精度でも、Llama 4 Maverickを実行するには、アクティブなパラメータの数に関係なく、400 GBを超えるメモリーが必要です。
新たなプルーニング技術と量子化手法は、品質を犠牲にすることなく、その要件を半分にできる可能性があります。
Nvidiaはプルーニングの提唱者であり、冗長な重みが削除されたMetaのLlama 3モデルのプルーニングされたバージョンをリリースしました。
Nvidiaはまた、2022年に8ビット浮動小数点データ型を、2024年にBlackwellアーキテクチャの発売で4ビット浮動小数点をサポートした最初の企業の1つでした。AMDのネイティブFP4サポートを提供する最初のチップは、まもなくリリースされる予定です。
厳密には必須ではありませんが、これらのデータ型のネイティブハードウェアサポートは、特に大規模に提供する場合に、計算ボトルネックが発生する可能性を一般的に低減します。
モデル開発者が低精度のデータ型を採用する数が増えており、Meta、Microsoft、Alibabaが8ビット、さらには4ビットの量子化モデルを提供しています。
量子化には、モデルの重みをネイティブの精度 (通常はBF16) からFP8またはINT4に圧縮することが含まれます。これにより、モデルのメモリー帯域幅と容量の要件が半分または4分の3に削減されますが、品質は低下します。
16ビットから8ビットへの移行に伴う損失は無視できることが多く、DeepSeekを含むいくつかのモデルビルダーは、最初からFP8精度でトレーニングを開始しています。ただし、精度をさらに4ビット減らすと、品質が大幅に低下する可能性があります。その結果、GGUFなどの多数のトレーニング後の量子化アプローチでは、すべての重みが同じように圧縮されるわけではなく、品質の低下を最小限に抑えるために、一部をより高い精度レベルのままにします。
Googleは最近、量子化対応トレーニング (QAT) を使用して、Gemma 3モデルを4倍に削減しながら、ネイティブBF16に近い品質レベルを維持することを実証しました。
QATは、トレーニング中に低精度の操作をシミュレートします。量子化されていないモデルでこの手法を約5,000ステップ適用することにより、Googleは、INT4に変換されたときに、量子化関連の損失を測定するためのメトリックであるパープレキシティの低下を54%削減できました。
量子化への別のQATベースのアプローチであるBitnetは、さらに低い精度レベルを目指しており、モデルをわずか1.58ビット、つまり元のサイズの約10分の1に圧縮します。
テクノロジーの相乗効果
MoEと4ビット量子化の組み合わせは、特に帯域幅が制限されている場合に大きな利点を提供します。
帯域幅が制約されていない他のユーザーにとっては、MoEと量子化の2つのテクノロジーのどちらか一方でも、より大規模で強力なモデルを実行するための機器と運用コストを大幅に削減できます。これは、実行する価値のあるサービスが見つかることを前提としています。
そうでない場合は、少なくとも、あなたが孤独ではないことに安心できます。最近のIBMの調査では、約4分の1のAIデプロイメントしか約束された投資収益率を実現していないことが明らかになりました。