HuaweiのAIブレークスルー:内製チップでDeepSeek超え

Huawei Technologiesは、米国の制裁措置により重大な技術的障壁に直面していますが、人工知能(AI)モデルのトレーニングにおいて画期的な進歩を遂げたと報じられています。Huaweiの大規模言語モデル(LLM)、Panguに取り組む研究者たちは、DeepSeekのオリジナルの方法論を上回る高度なアプローチを開発したと主張しています。この革新的な方法は、Huawei独自のプロプライエタリなハードウェアを活用し、現在の地政学的な状況において重要な目標である、米国技術への依存度を低減します。

Mixture of Grouped Experts(MoGE)の出現

Huaweiの進歩の要は、Mixture of Grouped Experts(MoGE)の概念にあります。HuaweiのPanguチームによって発表された論文で詳述されているこの斬新な技術は、Mixture of Experts(MoE)技術のアップグレード版として提示されています。MoEは、DeepSeekの成功によって示されているように、費用対効果の高いAIモデルを作成する上で役立つことが証明されています。

MoEは、大規模なモデルパラメータに対して利点を提供し、学習能力の向上につながります。ただし、Huaweiの研究者たちは、複数のデバイスでタスクを同時に実行する際にパフォーマンスを阻害する可能性のある、AIトレーニングの重要なコンポーネントである「エキスパート」の不均一なアクティブ化から生じる非効率性を特定しました。HuaweiのMoGEは、これらの課題に戦略的に対処します。

従来のMoEモデルにおける非効率性への対処

MoGEシステムは、ワークロードの分散を最適化するように複雑に設計されています。中心となるアイデアは、選択プロセス中にエキスパートを「グループ化」し、よりバランスの取れたワークロードの分散を実現することです。計算上の負荷をより公平に分散することで、研究者たちは、最新のAIトレーニングの重要な側面である並列コンピューティング環境のパフォーマンスが著しく向上したと報告しました。

AIトレーニングにおける「エキスパート」という概念は、より大規模で包括的なモデル内の特殊なサブモデルまたはコンポーネントを指します。各エキスパートは、非常に特定のタスクまたはデータ型を処理するように細心の注意を払って設計されています。このアプローチは、さまざまな専門的な知識を活用し、AIシステム全体のパフォーマンスを大幅に向上させることができます。

中国のAIの進歩への影響

この進歩は特にタイムリーです。Nvidiaなどの高度なAIチップの輸入に対する米国の制限に直面しているにもかかわらず、中国のAI企業は、モデルのトレーニングと推論の効率を高める方法を積極的に追求しています。これらの方法には、アルゴリズムの改善だけでなく、ハードウェアとソフトウェアの相乗的な統合も含まれます。

Huaweiの研究者たちは、AIタスクを高速化するために特別に設計されたAscendニューラルプロセッシングユニット(NPU)でMoGEアーキテクチャを厳密にテストしました。その結果、MoGEは優れたエキスパートの負荷分散と、モデルのトレーニングフェーズと推論フェーズの両方でより効率的な実行を実現したことが示されました。これは、ハードウェアとソフトウェアのスタックを同時に最適化することの利点を明確に示すものです。

主要なAIモデルに対するPanguのベンチマーク

MoGEアーキテクチャとAscend NPUによって強化されたHuaweiのPanguモデルは、主要なAIモデルに対してベンチマークされました。これらには、DeepSeek-V3、Alibaba Group HoldingのQwen2.5-72B、およびMeta PlatformsのLlama-405Bが含まれていました。ベンチマークの結果、Panguは広範囲の一般的な英語ベンチマークで最先端のパフォーマンスを達成し、すべての中国語ベンチマークで優れていることが示されました。Panguはまた、高度な自然言語処理タスクにとって非常に重要な領域である、長文コンテキストトレーニングの処理においてより高い効率を示しました。

さらに、Panguモデルは一般的な言語理解タスクにおいて卓越した能力を発揮し、特に推論タスクにおいて強みを示しました。このニュアンスを理解し、複雑な言語から意味を抽出する能力は、HuaweiがAIで達成した進歩を示しています。

Huaweiの戦略的意義

AIモデルアーキテクチャにおけるHuaweiの進歩は、戦略的な意義を持っています。進行中の制裁措置を考慮すると、深センに拠点を置く同社は、米国技術への依存度を下げることを戦略的に目指しています。Huaweiが開発したAscendチップは、Nvidiaのプロセッサに代わる実行可能な国内代替品と見なされており、この独立の重要な要素です。

NPU向けに最適化された1350億のパラメータを持つ大規模言語モデルであるPangu Ultraは、Huaweiのアーキテクチャとシステム全体の合理化の有効性を強調し、Ascend NPUの機能を紹介します。ハードウェアとソフトウェアの統合の有効性を示すことは、HuaweiのAI機能をアピールする上で重要な要素です。

詳細なトレーニングプロセス

Huaweiによると、トレーニングプロセスは、プレトレーニング、長文コンテキストの拡張、ポストトレーニングの3つの主要な段階に分かれています。プレトレーニングでは、最初に13兆2,000億トークンの大規模なデータセットでモデルをトレーニングします。次に、長文コンテキストの拡張では、モデルがより長く複雑なテキストを処理する能力を拡張し、初期のデータ認識を基に構築します。このフェーズでは、8,192個のAscendチップにわたる大規模な分散処理を使用します。

Huaweiは、モデルとシステムを近日中に商業顧客向けに利用できるようにし、パートナーとの統合と開発のための新しい機会を開くと発表しました。

Mixture of Experts(MoE)とその制限に関する詳細な考察

HuaweiのMoGEの重要性を完全に理解するには、その基盤となるMixture of Experts(MoE)アーキテクチャを理解することが重要です。MoEは、大規模AIモデルの設計とトレーニングにおけるパラダイムシフトを表しており、計算コストを比例的に増加させることなく、モデルのサイズと複雑さを拡大するための道筋を提供します。

従来のニューラルネットワークでは、すべての入力はすべてのレイヤーのすべてのニューロンによって処理されます。このアプローチは高い精度をもたらす可能性がありますが、非常に大規模なモデルでは計算が非常に多くなります。対照的に、MoEは「エキスパート」という概念を取り入れています。これは、入力データの特定のサブセットに焦点を当てた、より小さく特殊なニューラルネットワークです。

「ゲート」ネットワークは、各入力を最も関連性の高いエキスパートに動的にルーティングします。この選択的なアクティブ化により、疎な計算が可能になります。つまり、特定の入力に対してモデルのパラメータの一部のみが使用されます。このスパース性により、推論(予測にモデルを使用)とトレーニングの計算コストが大幅に削減されます。さらに、さまざまなエキスパートが入力データの別の部分で動作できるため、モデルの専門性を高めることができます。

MoEの利点にもかかわらず、その可能性を最大限に引き出すには、いくつかの制限に対処する必要があります。エキスパートの不均一なアクティブ化は、主な懸念事項です。多くのMoE実装では、一部のエキスパートが頻繁に使用される一方で、他のエキスパートは比較的アイドル状態のままになります。この不均衡は、データの固有の特性とゲートネットワークの設計に起因します。

この不均衡は、並列コンピューティング環境で非効率につながる可能性があります。ワークロードがエキスパート全体に均等に分散されていないため、一部の処理ユニットは十分に活用されず、他の処理ユニットは圧倒されます。この不一致は、MoEのスケーラビリティを妨げ、全体的なパフォーマンスを低下させます。また、この不均衡は、トレーニングデータのバイアスに起因することが多く、アクティブでないエキスパートの過小評価とトレーニング不足につながります。これにより、長期的にはサブ最適なモデルになります。

MoEを処理する際のもう1つの一般的な問題は、ゲートネットワークの設計時に複雑さが増すことです。ゲートネットワークは、エキスパートが適切に選択されるように高度な技術を必要とします。そうでない場合、MoEは期待どおりに機能せず、不要なオーバーヘッドを引き起こす可能性があります。

Grouped Experts(MoGE):MoEの課題への対処

HuaweiのMixture of Grouped Experts(MoGE)アーキテクチャは、負荷分散と効率的な並列実行に焦点を当てることにより、従来のMoEに改良された代替手段を提供します。この方法は、エキスパートを戦略的にグループ化することを伴い、入力データのルーティングプロセスを変更し、ワークロードの分散をより均等にします。

選択中にエキスパートをグループ化することにより、MoGEはエキスパートの各グループが、よりバランスの取れたワークロードを受信することを保証します。各入力を個別にルーティングする代わりに、ゲートネットワークは入力のグループをエキスパートのグループに誘導します。このアプローチは、計算上の負荷の、より公平な分配を促進します。

グループ化メカニズムは、データバイアスの影響を軽減するのに役立ちます。グループ内のすべてのエキスパートが、多様な入力セットでトレーニングされるようにすることで、MoGEは過小評価とトレーニング不足のリスクを軽減します。さらに、エキスパートをグループ化することで、リソースの利用率を向上させることができます。各グループが一貫性のあるワークロードを処理するため、計算リソースを効率的に割り当てることが容易になり、全体的なパフォーマンスが向上します。

最終的な結果は、より優れたエキスパートの負荷分散と、モデルのトレーニングと推論の両方に対する、より効率的な実行です。これにより、トレーニング時間の短縮、計算コストの削減、および全体的なパフォーマンスの向上が実現します。

Ascend NPU:AIのハードウェアアクセラレーション

Ascend NPU(Neural Processing Unit)は、HuaweiのAI戦略において重要な役割を果たします。これらのプロセッサーは、モデルのトレーニングや推論など、AIタスクを高速化するように特別に設計されています。これらは、高メモリ帯域幅、行列乗算用の特殊な処理ユニット、低遅延通信インターフェースなど、ディープラーニングワークロードに最適化されたさまざまな機能を提供します。さらに、HuaweiのAscend NPUは、さまざまなデータ型と精度レベルをサポートしており、パフォーマンスと精度を細かく制御できます。

MoGEとAscend NPUの相乗効果により、AIイノベーションのための強力なプラットフォームが生まれます。MoGEは負荷分散と並列実行を改善することによりソフトウェア側を最適化し、Ascend NPUはこれらの利点を実現するために必要なハードウェアアクセラレーションを提供します。この統合されたアプローチにより、HuaweiはAIのパフォーマンスと効率の境界を押し広げることができます。

Ascend NPUは、高い計算密度とエネルギー効率が特徴です。これらの機能は、強力なクラウドサーバーから電力予算が限られているエッジデバイスまで、さまざまな設定でAIモデルをデプロイするために不可欠です。

ベンチマークとパフォーマンス指標

Huaweiのベンチマーク結果は、MoGEアーキテクチャとAscend NPUの有効性を示しています。PanguをDeepSeek-V3、Qwen2.5-72B、Llama-405Bなどの主要なAIモデルと比較することにより、Huaweiはそのテクノロジーがさまざまなタスクで最先端のパフォーマンスを達成していることを示しました。

Panguが一般的な英語および中国語ベンチマークで成功していることは、その汎用性と適応性を示しています。モデルの長文コンテキストトレーニングにおける熟練度は、実際のデータを処理する能力を反映しているため、特に注目に値します。さらに、Panguが推論タスクで優れたパフォーマンスを発揮していることは、複雑な関係を理解して処理する能力を強調しています。

これらのベンチマークは単なる学術的な演習ではありません。これらは、Huaweiが行った技術的な進歩の具体的な証拠を提供します。これらは、AIイノベーションの最前線に立っているという同社の主張を裏付け、グローバル市場における地位を強化します。

Huaweiの将来への影響

AIモデルトレーニングにおけるHuaweiの進歩は、人工知能における技術的な主権を確立するという同社の戦略的ビジョンにおいて重要な意味を持っています。進行中の貿易紛争の中で、同社が米国技術への依存度を最小限に抑えるにつれて、Ascendチップの開発はNvidiaおよびAMDのプロセッサに代わる代替手段として機能します。NPU向けの1350億のパラメータを備えたLLMであるPangu Ultraは、最先端チップの機能を紹介することにより、Huaweiのアーキテクチャとシステム全体の合理化の有効性を強調しています。

これらの取り組みは、特に中国国内で、AIのより大きな市場に対応しようと努めているため、Huaweiの長期的な全体的な競争力に貢献すると予想されます。研究開発への投資に引き続き注力することにより、Huaweiは現在の市場の制約を克服し、AI分野のリーダーとしての地位を確立したいと考えています。

今後の研究

Ascendチップなどのハードウェア開発と並行して、システムおよびアルゴリズムレベルの最適化を介したAIモデルアーキテクチャにおけるHuaweiの継続的な強化は、人工知能における技術的曲線をリードする上でその重要性を示しています。Panguのようなベンチマークはそれが最先端のモデルであることを証明していますが、改善の余地はまだ十分にあります。MoGEアーキテクチャのさらなる改良により、より大規模で複雑な計算を推進できるようになる可能性があります。Ascend NPUのアーキテクチャを専門化する作業により、さらにディープラーニングプロセスを高速化し、コストを削減する可能性があります。今後の調査では、より優れたAIモデルを構築し、既存のAIモデルを改善するための継続的な取り組みが行われるでしょう。