Arm Kleidi: Arm CPUでのAI推論の最適化
AIの急速な進化は、マルチモーダルモデルの新時代を告げています。これらの洗練されたシステムは、テキスト、画像、音声、動画、さらにはセンサーデータを含む、さまざまなソースからの情報を処理および解釈する能力を備えています。しかし、これらの強力なモデルをエッジデバイスに展開するには、大きなハードルがあります。エッジハードウェアの電力とメモリ容量の固有の制限、および多様なデータタイプを同時に処理するという複雑なタスクが組み合わさって、複雑な課題が生じます。
Arm Kleidiは、この課題に対処するために特別に設計されており、Arm CPUで実行されるすべてのAI推論ワークロードに対してシームレスなパフォーマンス最適化を提供します。Kleidiの中心にあるのはKleidiAIで、これはAIを高速化するために構築された、非常に効率的なオープンソースのArmルーチンの合理化されたスイートです。
KleidiAIは、エッジデバイス向けの広く使用されているAIフレームワークの最新バージョンにすでに統合されています。これらには、ExecuTorch、Llama.cpp、XNNPACK経由のLiteRT、およびMediaPipeが含まれます。この広範な統合により、何百万人もの開発者に大きなメリットがもたらされ、追加の労力を必要とせずにAIパフォーマンスの最適化から自動的に恩恵を受けることができます。
Alibabaとのパートナーシップ: Qwen2-VL-2B-Instructモデル
エッジデバイスでのマルチモーダルAIの進歩における新たなマイルストーンは、MNNとの緊密な協力によって達成されました。MNNは、Alibabaによって開発および保守されている軽量のオープンソース深層学習フレームワークです。このパートナーシップにより、KleidiAIの統合が成功し、マルチモーダルAIワークロードがArm CPUを使用してモバイルデバイスで効率的に実行できるようになりました。この成果の鍵は、Alibabaの指示調整された2BパラメーターQwen2-VL-2B-Instructモデルです。このモデルは、画像理解、テキストから画像への推論、および複数の言語でのマルチモーダル生成のために特別に設計されており、すべてエッジデバイスの制約に合わせて調整されています。
測定可能なパフォーマンスの向上
KleidiAIとMNNの統合により、Qwen2-VL-2B-Instructモデルのパフォーマンスが大幅に向上し、測定可能になりました。エッジでの重要なAIマルチモーダルユースケース全体で、より高速な応答時間が観察されています。これらの改善により、さまざまな顧客中心のAlibabaアプリケーションでユーザーエクスペリエンスが向上します。例としては、次のものがあります。
- カスタマーサービス用チャットボット: 顧客からの問い合わせに対して、より迅速かつ効率的な応答を提供します。
- Eショッピングアプリケーション: 写真から商品を検索できるようにすることで、顧客は画像をアップロードするだけで探している商品をすばやく見つけることができます。
これらのアプリケーションの速度向上は、大幅なパフォーマンス向上の直接的な結果です。
- プリフィルの改善: プリフィルで57%という驚異的なパフォーマンス向上が達成されました。これは、AIモデルが応答を生成する前に、マルチソースプロンプト入力を処理する重要な段階を指します。
- デコードの強化: デコードで28%という大幅なパフォーマンス向上が観察されました。これは、AIモデルがプロンプトを処理した後にテキストを生成するプロセスです。
速度に加えて、KleidiAIの統合は、エッジでのAIワークロードのより効率的な処理にも貢献します。これは、マルチモーダルワークロードに関連する全体的な計算コストを削減することによって実現されます。これらのパフォーマンスと効率の向上は、何百万人もの開発者がすぐに利用できます。MNNフレームワーク、およびKleidiAIが統合されているエッジデバイス向けの他の一般的なAIフレームワークでアプリケーションとワークロードを実行している開発者は、すぐにメリットを得ることができます。
実世界のデモンストレーション: MWCショーケース
MNNとの新しいKleidiAI統合によって強化されたQwen2-VL-2B-Instructモデルの実用的な機能は、Mobile World Congress (MWC) で紹介されました。Armブースでのデモンストレーションでは、視覚入力とテキスト入力の多様な組み合わせを理解するモデルの能力が強調されました。その後、モデルは画像コンテンツの簡潔な要約で応答しました。このプロセス全体は、スマートフォンのArm CPUで実行され、ソリューションのパワーと効率を示しました。これらのスマートフォンは、MediaTekのArm搭載Dimensity 9400モバイルシステムオンチップ (SoC) 上に構築されており、vivo X200シリーズが含まれます。
ユーザーエクスペリエンスにおける重要な一歩
ArmのKleidiAIとAlibabaのQwen2-VL-2B-Instructモデル用のMNNフレームワークの統合は、マルチモーダルAIワークロードのユーザーエクスペリエンスにおける大幅な飛躍を表しています。この進歩により、これらの強化されたエクスペリエンスがエッジで直接提供され、すべてArm CPUによって駆動されます。これらの機能はモバイルデバイスですぐに利用でき、主要な顧客向けアプリケーションはすでにKleidiAIのメリットを活用しています。
エッジデバイスでのマルチモーダルAIの未来
今後、KleidiAIのAIワークロードに対するシームレスな最適化により、何百万人もの開発者が力を得て、エッジデバイスでますます洗練されたマルチモーダルエクスペリエンスを作成できるようになります。この継続的なイノベーションは、次世代のインテリジェントコンピューティングへの道を開き、AIの継続的な進化における重要な一歩となります。
Alibabaのリーダーシップからの引用
‘Alibaba CloudのLarge Language Model Qwen、Arm KleidiAI、およびMNNのコラボレーションを見ることができて嬉しく思います。MNNのオンデバイス推論フレームワークとArm KleidiAIを統合することで、Qwenのレイテンシとエネルギー効率が大幅に向上しました。このパートナーシップは、モバイルデバイスでのLLMの可能性を検証し、AIユーザーエクスペリエンスを向上させます。オンデバイスAIコンピューティングの進歩に向けた継続的な取り組みを楽しみにしています。’ - Dong Xu, GM of Tongyi Large Model Business, Alibaba Cloud.
‘MNN推論フレームワークとArm KleidiAIの間の技術統合は、オンデバイスアクセラレーションにおける大きなブレークスルーを示しています。アーキテクチャの共同最適化により、Tongyi LLMのオンデバイス推論効率を大幅に改善し、限られたモバイルコンピューティングパワーと高度なAI機能の間のギャップを埋めました。この成果は、当社の技術的専門知識と業界を超えたコラボレーションを強調しています。このパートナーシップを継続して、オンデバイスコンピューティングエコシステムを強化し、モバイルでよりスムーズで効率的なAIエクスペリエンスを提供することを楽しみにしています。’ - Xiaotang Jiang, Head of MNN, Taobao and Tmall Group, Alibaba.
技術的側面の詳細
このコラボレーションの重要性を十分に理解するには、基盤となる技術的詳細の一部を調べることが役立ちます。
MNNの役割
MNNの設計哲学は、効率性と移植性を中心としています。これは、いくつかの主要な機能を通じてこれを実現します。
- 軽量アーキテクチャ: MNNは、フットプリントが小さくなるように設計されており、エッジデバイスでのストレージとメモリの要件を最小限に抑えます。
- 最適化された操作: このフレームワークには、Arm CPU向けに特別に調整された高度に最適化された数学演算が組み込まれており、パフォーマンスを最大化します。
- クロスプラットフォーム互換性: MNNは、幅広いオペレーティングシステムとハードウェアプラットフォームをサポートしているため、開発者にとって汎用性の高い選択肢となっています。
KleidiAIの貢献
KleidiAIは、AI推論をさらに加速する一連の特殊なルーチンを提供することにより、MNNの強みを補完します。これらのルーチンは、ArmのCPUアーキテクチャにおける豊富な経験を活用して、そうでなければ達成が困難なパフォーマンスの向上を実現します。KleidiAIの貢献の主な側面は次のとおりです。
- 高度に最適化されたカーネル: KleidiAIは、行列乗算や畳み込みなどの一般的なAI操作向けに高度に最適化されたカーネルを提供します。これらのカーネルは、Arm CPUの特定の機能を活用するように細心の注意を払って調整されています。
- 自動統合: KleidiAIの一般的なAIフレームワークへのシームレスな統合により、開発者はこれらの最適化を手動で組み込む必要がありません。パフォーマンスのメリットは自動的に適用され、開発プロセスが簡素化されます。
- 継続的な改善: Armは、KleidiAIを継続的に更新および改善することに取り組んでおり、AIアクセラレーションテクノロジーの最前線にあり続けることを保証します。
Qwen2-VL-2B-Instruct: 強力なマルチモーダルモデル
Qwen2-VL-2B-Instructモデルは、Large Language ModelとマルチモーダルAIにおけるAlibabaの専門知識の証です。その主な機能は次のとおりです。
- 指示チューニング: このモデルは、指示に従うように特別に調整されており、幅広いタスクに高度に適応できます。
- マルチモーダル機能: 視覚情報とテキスト情報の両方を理解および処理することに優れており、画像キャプションや視覚的な質問応答などのアプリケーションを可能にします。
- 多言語サポート: このモデルは、複数の言語で動作するように設計されており、さまざまな地域やユーザーベースでの適用範囲を広げています。
- エッジデバイス向けに最適化: 強力な機能にもかかわらず、このモデルはエッジデバイスのリソース制約内で動作するように慎重に設計されています。
マルチモーダルAIの範囲の拡大
ここで説明した進歩は、スマートフォンに限定されません。同じ原則とテクノロジーを、次のような幅広いエッジデバイスに適用できます。
- スマートホームデバイス: 音声アシスタント、セキュリティカメラの画像認識、その他のインテリジェント機能を有効にします。
- ウェアラブルデバイス: 健康モニタリング、フィットネストラッキング、拡張現実アプリケーションを強化します。
- 産業用IoT: 製造現場での予知保全、品質管理、自動化を促進します。
- 自動車: 運転支援システム、車内エンターテイメント、自動運転機能を強化します。
エッジでのマルチモーダルAIの潜在的なアプリケーションは広大であり、拡大し続けています。モデルがより洗練され、ハードウェアがより強力になるにつれて、さらに革新的で影響力のあるユースケースが登場することが期待できます。ArmとAlibabaのこのコラボレーションは、その方向への重要な一歩であり、マルチモーダルAIの力をより多くの人々に提供し、新世代のインテリジェントデバイスを可能にします。効率性、パフォーマンス、開発者のアクセシビリティに重点を置くことで、これらの進歩はテクノロジーの将来に広範かつ永続的な影響を与えることが保証されます。