DeepSeekの進歩に代表されるAI技術の急速な革新は、必要な計算能力を提供するために、データセンター、チップ、システムをどのように構築するかを根本的に再評価する必要性を生み出しています。DeepSeekのエンジニアリング革新はAIコンピューティングコストを大幅に削減し、AIインフラストラクチャの将来に関する広範な議論を促しています。
DeepSeekはAI技術の境界を劇的に拡大したわけではないかもしれませんが、AI市場への影響は深刻です。Mixture of Experts(MoE)、Multi-Layer Attention(MLA)、Multi-Token Prediction(MTP)などの技術は、DeepSeekとともに注目を集めています。これらの技術のすべてがDeepSeekによって開拓されたわけではありませんが、その実装の成功は広範な採用を促しました。特にMLAは、エッジデバイスからクラウドコンピューティングまで、さまざまなプラットフォームで議論の焦点となっています。
MLAとアルゴリズム革新の課題
NextSiliconのCEOであるElad Razは最近、MLAはメモリ効率を向上させる一方で、開発者のワークロードを増加させ、AIの生産環境への適用を複雑にする可能性があると指摘しました。GPUユーザーは、MLAのために’ハンドコード’の最適化に取り組む必要があるかもしれません。この例は、DeepSeek後の時代におけるAIチップとインフラストラクチャアーキテクチャの実装を再考する必要性を強調しています。
MLAの重要性を理解するには、大規模言語モデル(LLM)の基礎となる概念を把握することが不可欠です。ユーザー入力に対する応答を生成する際、LLMはキーと値であるKVベクトルに大きく依存しています。これにより、モデルは関連データに焦点を当てることができます。注意メカニズムでは、モデルは新しいリクエストをキーと比較して、最も関連性の高いコンテンツを決定します。
Elad Razは本のアナロジーを使用しています。キーは「本の章のタイトルのように、各部分が何についてであるかを示しており、値はそれらのタイトルの下のより詳細な要約です。したがって、ユーザーがリクエストを入力すると、回答の生成に役立つ検索用語を要求します。 ‘このストーリーラインでは、どの章が最も関連性が高いか?’と尋ねています。」
MLAはこれらの章のタイトル(キー)と要約(値)を圧縮し、回答を見つけるプロセスを加速し、効率を高めます。最終的に、MLAはDeepSeekがメモリ使用量を5〜13%削減するのに役立ちます。詳細については、DeepSeekの公式論文を参照してください。MediaTekの開発者会議では、DimensityモバイルチップでのMLAのサポートについても議論され、DeepSeekの広範な影響を強調しています。
MLAのようなテクノロジーは、AI時代における典型的なアルゴリズムの革新を表しています。ただし、AI技術の急速な発展は、絶え間ない革新の流れにつながり、それが今度は新たな課題を生み出します。特に、これらの革新が特定のプラットフォームに適合している場合はそうです。MLAの場合、非NVIDIA GPUユーザーはテクノロジーを活用するために追加の手動コーディングが必要です。
DeepSeekのテクノロジーはAI時代の革新と価値を示していますが、ハードウェアとソフトウェアはこれらの革新に適応する必要があります。Elad Razによると、そのような適応は開発者と生産環境の複雑さを最小限に抑える必要があります。そうしないと、各イノベーションのコストが法外に高くなります。
では、次のアルゴリズムの革新が既存のアーキテクチャにうまく変換されない場合はどうなるでしょうか?
チップ設計とアルゴリズム革新の間の対立
過去数年間、AIチップメーカーは一貫して、大規模なAIチップの設計には少なくとも1〜2年かかると報告しています。これは、チップ設計がチップの市場リリースよりもかなり前に開始される必要があることを意味します。AI技術の急速な進歩を考えると、AIチップ設計は将来を見据えている必要があります。現在のニーズのみに焦点を当てると、最新のアプリケーションの革新に適応できない時代遅れのAIチップになります。
AIアプリケーションアルゴリズムの革新は、現在毎週発生しています。以前の記事で述べたように、AIモデルが同じ機能を実現するために必要な計算能力は、年間4〜10倍減少します。GPT-3と同等の品質を実現するAIモデルの推論コストは、過去3年間で1200倍減少しました。現在、2Bパラメータのモデルは、昨年の170BパラメータのGPT-3と同じレベルを達成できます。AIテクノロジースタックの上位レイヤーにおけるこの急速な革新は、従来のチップアーキテクチャの計画と設計に大きな課題をもたらしています。
Elad Razは、業界はDeepSeek MLAのような革新をAIテクノロジーの標準として認識する必要があると信じています。「次世代コンピューティングは、今日のワークロードを最適化するだけでなく、将来のブレークスルーにも対応する必要があります。」この視点は、チップ業界だけでなく、AIテクノロジースタックのミッドからローワーレベルのインフラストラクチャ全体にも当てはまります。
「DeepSeekやその他のイノベーションは、アルゴリズムの革新の急速な進歩を示しています」とElad Razは述べています。「研究者やデータサイエンティストは、新しい洞察と発見を促進するためにより用途が広く、弾力性のあるツールを必要としています。市場は、顧客が既存のアクセラレータソリューションを’ドロップインで置き換え’できる、インテリジェントなソフトウェア定義ハードウェアコンピューティングプラットフォームを必要としており、開発者が作業を痛みを伴うことなく移植できるようにします。」
この状況に対処するために、業界はよりインテリジェントで、適応可能で、柔軟なコンピューティングインフラストラクチャを設計する必要があります。
柔軟性と効率は、多くの場合矛盾する目標です。CPUは非常に柔軟性がありますが、GPUよりも並列コンピューティング効率が大幅に低くなります。GPUは、そのプログラマビリティにより、専用のAI ASICチップよりも効率が低い場合があります。
Elad Razは、NVIDIAはAIデータセンターラックがまもなく600kWの消費電力に達すると予想していると述べました。参考までに、標準的なエンタープライズデータセンターの75%は、ラックあたりわずか15〜20kWのピーク電力消費量です。AIの潜在的な効率の向上に関係なく、これはコンピューティングインフラストラクチャシステムを構築するデータセンターにとって大きな課題となります。
Elad Razの見解では、現在のGPUとAIアクセラレータは、AIとハイパフォーマンスコンピューティング(HPC)の潜在的な需要を満たすのに十分ではない可能性があります。「コンピューティング効率を改善する方法を根本的に再考しないと、業界は物理的および経済的な限界に達するリスクがあります。この壁はまた、副作用をもたらし、より多くの組織がAIとHPCにアクセスできなくなり、アルゴリズムや従来のGPUアーキテクチャの進歩があっても、イノベーションが妨げられます。」
次世代コンピューティングインフラストラクチャに関する推奨事項と要件
これらの観察に基づいて、Elad Razは次世代コンピューティングインフラストラクチャを定義するための「4つの柱」を提案しました。
(1) プラグアンドプレイによる交換可能性:「歴史は、CPUからGPUへの移行のような複雑なアーキテクチャの移行には、完全に実装するのに数十年かかる可能性があることを示しています。したがって、次世代コンピューティングアーキテクチャは、スムーズな移行をサポートする必要があります。」「プラグアンドプレイ」による交換可能性のために、Elad Razは、新しいコンピューティングアーキテクチャがx86およびArmエコシステムから学び、下位互換性を通じてより広範な採用を実現することを提案しています。
最新の設計では、開発者が大量のコードを書き直したり、特定のベンダーへの依存関係を作成したりする必要がないようにする必要があります。「たとえば、MLAのような新しいテクノロジーのサポートは、非NVIDIA GPUの場合のように追加の手動調整が必要になるのではなく、標準化される必要があります。次世代システムは、手動でコードを変更したり、APIを大幅に調整したりすることなく、新しいワークロードをすぐに理解して最適化する必要があります。」
(2) 適応可能でリアルタイムのパフォーマンス最適化: Elad Razは、業界は固定機能アクセラレータから離れるべきだと考えています。「業界は、実行時に動的に自己最適化できるインテリジェントなソフトウェア定義ハードウェア基盤に基づいて構築する必要があります。」
「ワークロードから継続的に学習することで、将来のシステムはリアルタイムで自身を調整し、特定のアプリケーションワークロードに関係なく、使用率と持続的なパフォーマンスを最大化できます。この動的な適応性により、インフラストラクチャは、HPCシミュレーション、複雑なAIモデル、またはベクトルデータベース操作を実行しているかどうかに関係なく、実際のシナリオで一貫した効率を提供できます。」
(3) スケーラブルな効率:「ハードウェアとソフトウェアを分離し、インテリジェントなリアルタイム最適化に焦点を当てることで、将来のシステムはより高い使用率と全体的なエネルギー消費量の削減を実現する必要があります。これにより、インフラストラクチャのコスト効率が向上し、新しいワークロードの進化する需要に対応するためにスケーラブルになります。」
**(4) 将来設計:**この点は、AIインフラストラクチャ、特にチップ設計に対する将来を見据えた要件に対応しています。「今日の最先端のアルゴリズムは明日には時代遅れになる可能性があります。」「AIニューラルネットワークであろうとTransformerベースのLLMモデルであろうと、次世代コンピューティングインフラストラクチャは適応可能であり、企業のテクノロジー投資が今後何年も耐えられるようにする必要があります。」
これらの提案は、比較的理想化された、しかし考えさせられる視点を提供します。このガイドとなる方法論は、AIとHPCテクノロジーの将来の開発において考慮されるべきです。たとえ業界には本質的な矛盾が長年の問題として残っていてもです。「AI、HPC、およびその他の将来のコンピューティングおよびデータ集約型ワークロードの可能性を解き放つためには、インフラストラクチャを再考し、イノベーションとパイオニアをサポートするために、動的でインテリジェントなソリューションを受け入れる必要があります。」