تعاون Arm و Alibaba يجلب الذكاء الاصطناعي متعدد الوسائط المحسن إلى الحافة
يشهد التطور السريع للذكاء الاصطناعي حقبة جديدة من النماذج متعددة الوسائط. تتمتع هذه الأنظمة المتطورة بالقدرة على معالجة وتفسير المعلومات من مجموعة متنوعة من المصادر، بما في ذلك النصوص والصور والصوت والفيديو وحتى بيانات المستشعرات. ومع ذلك، فإن نشر هذه النماذج القوية على أجهزة الحافة يمثل عقبات كبيرة. القيود المتأصلة في قدرة الطاقة والذاكرة لأجهزة الحافة، جنبًا إلى جنب مع المهمة المعقدة المتمثلة في معالجة أنواع البيانات المتنوعة في وقت واحد، تخلق تحديًا معقدًا.
Arm Kleidi: تحسين استدلال الذكاء الاصطناعي على وحدات المعالجة المركزية Arm
تم تصميم Arm Kleidi خصيصًا لمواجهة هذا التحدي، مما يوفر تحسينًا سلسًا للأداء لجميع أعباء عمل استدلال الذكاء الاصطناعي التي تعمل على وحدات المعالجة المركزية Arm. في قلب Kleidi يوجد KleidiAI، وهو مجموعة مبسطة من إجراءات Arm عالية الكفاءة ومفتوحة المصدر والمصممة لتسريع الذكاء الاصطناعي.
تم دمج KleidiAI بالفعل في أحدث إصدارات أطر عمل الذكاء الاصطناعي المستخدمة على نطاق واسع لأجهزة الحافة. وتشمل هذه ExecuTorch و Llama.cpp و LiteRT عبر XNNPACK و MediaPipe. يوفر هذا التكامل الواسع النطاق ميزة كبيرة لملايين المطورين، الذين يمكنهم الآن الاستفادة تلقائيًا من تحسينات أداء الذكاء الاصطناعي دون أي جهد إضافي.
الشراكة مع Alibaba: نموذج Qwen2-VL-2B-Instruct
تم تحقيق إنجاز جديد في تطوير الذكاء الاصطناعي متعدد الوسائط على أجهزة الحافة من خلال تعاون وثيق مع MNN. MNN هو إطار عمل للتعلم العميق خفيف الوزن ومفتوح المصدر تم تطويره وصيانته بواسطة Alibaba. وقد أدت هذه الشراكة إلى التكامل الناجح لـ KleidiAI، مما يتيح تشغيل أعباء عمل الذكاء الاصطناعي متعدد الوسائط بكفاءة على الأجهزة المحمولة باستخدام وحدات المعالجة المركزية Arm. مفتاح هذا الإنجاز هو نموذج Qwen2-VL-2B-Instruct ذو المعلمات 2B مضبوط التعليمات من Alibaba. تم تصميم هذا النموذج خصيصًا لفهم الصور، والاستدلال من النص إلى الصورة، والتوليد متعدد الوسائط عبر لغات متعددة، وكلها مصممة خصيصًا لقيود أجهزة الحافة.
مكاسب أداء قابلة للقياس
أدى دمج KleidiAI مع MNN إلى تحسينات كبيرة وقابلة للقياس في أداء نموذج Qwen2-VL-2B-Instruct. وقد لوحظت أوقات استجابة أسرع عبر حالات استخدام الذكاء الاصطناعي متعدد الوسائط الحاسمة على الحافة. تفتح هذه التحسينات تجارب مستخدم محسنة في مجموعة متنوعة من تطبيقات Alibaba التي تركز على العملاء. الأمثلة تشمل:
- روبوتات الدردشة لخدمة العملاء: توفير استجابات أسرع وأكثر كفاءة لاستفسارات العملاء.
- تطبيقات التسوق الإلكتروني: تمكين البحث من الصورة إلى السلع، مما يسمح للعملاء بالعثور بسرعة على العناصر التي يبحثون عنها بمجرد تحميل صورة.
تعد السرعة المحسنة في هذه التطبيقات نتيجة مباشرة لمكاسب الأداء الكبيرة:
- تحسين التعبئة المسبقة: تم تحقيق تحسين أداء ملحوظ بنسبة 57 بالمائة في التعبئة المسبقة. يشير هذا إلى المرحلة الحاسمة حيث تتعامل نماذج الذكاء الاصطناعي مع مدخلات المطالبات متعددة المصادر قبل إنشاء استجابة.
- تحسين فك التشفير: لوحظ تحسن كبير في الأداء بنسبة 28 بالمائة في فك التشفير. هذه هي العملية التي يقوم فيها نموذج الذكاء الاصطناعي بإنشاء نص بعد معالجة مطالبة.
بالإضافة إلى السرعة، يساهم تكامل KleidiAI أيضًا في معالجة أكثر كفاءة لأعباء عمل الذكاء الاصطناعي على الحافة. ويتحقق ذلك عن طريق خفض التكلفة الحسابية الإجمالية المرتبطة بأعباء العمل متعددة الوسائط. يمكن لملايين المطورين الوصول بسهولة إلى مكاسب الأداء والكفاءة هذه. يمكن لأي مطور يقوم بتشغيل التطبيقات وأعباء العمل على إطار عمل MNN، بالإضافة إلى أطر عمل الذكاء الاصطناعي الشائعة الأخرى لأجهزة الحافة حيث تم دمج KleidiAI، الاستفادة على الفور.
عرض توضيحي في العالم الحقيقي: عرض MWC
تم عرض القدرات العملية لنموذج Qwen2-VL-2B-Instruct، المدعوم بتكامل KleidiAI الجديد مع MNN، في المؤتمر العالمي للجوال (MWC). أبرز عرض توضيحي في جناح Arm قدرة النموذج على فهم مجموعات متنوعة من المدخلات المرئية والنصية. ثم استجاب النموذج بملخص موجز لمحتوى الصورة. تم تنفيذ هذه العملية بأكملها على وحدة المعالجة المركزية Arm للهواتف الذكية، مما يعرض قوة وكفاءة الحل. تم تصميم هذه الهواتف الذكية على نظام Dimensity 9400 المحمول (SoC) الذي يعمل بنظام Arm من MediaTek، بما في ذلك سلسلة vivo X200.
خطوة مهمة إلى الأمام في تجربة المستخدم
يمثل دمج KleidiAI من Arm مع إطار عمل MNN لنموذج Qwen2-VL-2B-Instruct من Alibaba قفزة كبيرة إلى الأمام في تجربة المستخدم لأعباء عمل الذكاء الاصطناعي متعدد الوسائط. يوفر هذا التقدم هذه التجارب المحسنة مباشرة على الحافة، وكلها مدعومة بوحدة المعالجة المركزية Arm. تتوفر هذه الإمكانات بسهولة على الأجهزة المحمولة، حيث تستفيد التطبيقات الرائدة التي تواجه العملاء بالفعل من مزايا KleidiAI.
مستقبل الذكاء الاصطناعي متعدد الوسائط على أجهزة الحافة
بالنظر إلى المستقبل، ستستمر تحسينات KleidiAI السلسة لأعباء عمل الذكاء الاصطناعي في تمكين ملايين المطورين. سيكونون قادرين على إنشاء تجارب متعددة الوسائط متطورة بشكل متزايد على أجهزة الحافة. سيمهد هذا الابتكار المستمر الطريق للموجة التالية من الحوسبة الذكية، مما يمثل خطوة مهمة إلى الأمام في التطور المستمر للذكاء الاصطناعي.
اقتباسات من قيادة Alibaba
‘يسعدنا أن نرى التعاون بين نموذج اللغة الكبير Qwen من Alibaba Cloud و Arm KleidiAI و MNN. أدى دمج إطار الاستدلال على الجهاز MNN مع Arm KleidiAI إلى تحسين كبير في زمن الوصول وكفاءة الطاقة في Qwen. تؤكد هذه الشراكة إمكانات LLMs على الأجهزة المحمولة وتعزز تجربة مستخدم الذكاء الاصطناعي. نتطلع إلى مواصلة الجهود في تطوير الحوسبة بالذكاء الاصطناعي على الجهاز.’ - دونغ شو، المدير العام لأعمال Tongyi Large Model، Alibaba Cloud.
‘يمثل التكامل التقني بين إطار الاستدلال MNN و Arm KleidiAI طفرة كبيرة في التسريع على الجهاز. من خلال التحسين المشترك للبنية، قمنا بتحسين كفاءة الاستدلال على الجهاز لـ Tongyi LLM بشكل كبير، وسد الفجوة بين قوة الحوسبة المتنقلة المحدودة وقدرات الذكاء الاصطناعي المتقدمة. يسلط هذا الإنجاز الضوء على خبرتنا التقنية والتعاون عبر الصناعات. نتطلع إلى مواصلة هذه الشراكة لتعزيز النظام البيئي للحوسبة على الجهاز، وتقديم تجارب ذكاء اصطناعي أكثر سلاسة وكفاءة على الهاتف المحمول.’ - شياوتانغ جيانغ، رئيس MNN، مجموعة Taobao و Tmall، Alibaba.
التعمق في الجوانب الفنية
لتقدير أهمية هذا التعاون بشكل كامل، من المفيد فحص بعض التفاصيل الفنية الأساسية.
دور MNN
تتمحور فلسفة تصميم MNN حول الكفاءة وقابلية النقل. يحقق ذلك من خلال العديد من الميزات الرئيسية:
- بنية خفيفة الوزن: تم تصميم MNN ليكون له بصمة صغيرة، مما يقلل من متطلبات التخزين والذاكرة على أجهزة الحافة.
- عمليات محسّنة: يشتمل إطار العمل على عمليات رياضية محسّنة للغاية ومصممة خصيصًا لوحدات المعالجة المركزية Arm، مما يزيد من الأداء.
- التوافق عبر الأنظمة الأساسية: يدعم MNN مجموعة واسعة من أنظمة التشغيل ومنصات الأجهزة، مما يجعله خيارًا متعدد الاستخدامات للمطورين.
مساهمة KleidiAI
يكمل KleidiAI نقاط قوة MNN من خلال توفير مجموعة من الإجراءات المتخصصة التي تزيد من تسريع استدلال الذكاء الاصطناعي. تستفيد هذه الإجراءات من خبرة Arm الواسعة في بنية وحدة المعالجة المركزية لإطلاق العنان لمكاسب الأداء التي يصعب تحقيقها بخلاف ذلك. تشمل الجوانب الرئيسية لمساهمة KleidiAI ما يلي:
- نواة محسّنة للغاية: يوفر KleidiAI نواة محسّنة للغاية لعمليات الذكاء الاصطناعي الشائعة، مثل ضرب المصفوفات والالتفاف. يتم ضبط هذه النواة بدقة للاستفادة من الميزات المحددة لوحدات المعالجة المركزية Arm.
- التكامل التلقائي: يعني التكامل السلس لـ KleidiAI في أطر عمل الذكاء الاصطناعي الشائعة أن المطورين لا يحتاجون إلى دمج هذه التحسينات يدويًا. يتم تطبيق مزايا الأداء تلقائيًا، مما يبسط عملية التطوير.
- التحسين المستمر: تلتزم Arm بتحديث وتحسين KleidiAI باستمرار، مما يضمن بقاءها في طليعة تكنولوجيا تسريع الذكاء الاصطناعي.
Qwen2-VL-2B-Instruct: نموذج قوي متعدد الوسائط
يعد نموذج Qwen2-VL-2B-Instruct شهادة على خبرة Alibaba في نماذج اللغات الكبيرة والذكاء الاصطناعي متعدد الوسائط. تشمل ميزاته الرئيسية ما يلي:
- ضبط التعليمات: تم ضبط النموذج خصيصًا لاتباع التعليمات، مما يجعله قابلاً للتكيف بدرجة كبيرة مع مجموعة واسعة من المهام.
- القدرات متعددة الوسائط: يتفوق في فهم ومعالجة كل من المعلومات المرئية والنصية، مما يتيح تطبيقات مثل التسمية التوضيحية للصور والإجابة على الأسئلة المرئية.
- دعم متعدد اللغات: تم تصميم النموذج للعمل مع لغات متعددة، مما يوسع نطاق تطبيقه عبر مناطق وقواعد مستخدمين مختلفة.
- محسّن لأجهزة الحافة: على الرغم من قدراته القوية، فقد تم تصميم النموذج بعناية للعمل ضمن قيود الموارد لأجهزة الحافة.
توسيع نطاق الذكاء الاصطناعي متعدد الوسائط
لا تقتصر التطورات التي تمت مناقشتها هنا على الهواتف الذكية. يمكن تطبيق نفس المبادئ والتقنيات على مجموعة واسعة من أجهزة الحافة، بما في ذلك:
- الأجهزة المنزلية الذكية: تمكين المساعدين الصوتيين، والتعرف على الصور لكاميرات الأمان، والميزات الذكية الأخرى.
- الأجهزة القابلة للارتداء: تشغيل المراقبة الصحية، وتتبع اللياقة البدنية، وتطبيقات الواقع المعزز.
- إنترنت الأشياء الصناعي: تسهيل الصيانة التنبؤية، ومراقبة الجودة، والأتمتة في إعدادات التصنيع.
- السيارات: تعزيز أنظمة مساعدة السائق، والترفيه داخل المقصورة، وقدرات القيادة الذاتية.
التطبيقات المحتملة للذكاء الاصطناعي متعدد الوسائط على الحافة واسعة وتستمر في التوسع. مع زيادة تطور النماذج وزيادة قوة الأجهزة، يمكننا أن نتوقع ظهور المزيد من حالات الاستخدام المبتكرة والمؤثرة. يعد هذا التعاون بين Arm و Alibaba خطوة مهمة في هذا الاتجاه، حيث يوفر قوة الذكاء الاصطناعي متعدد الوسائط لجمهور أوسع ويمكّن جيلًا جديدًا من الأجهزة الذكية. يضمن التركيز على الكفاءة والأداء وإمكانية الوصول للمطورين أن يكون لهذه التطورات تأثير واسع ودائم على مستقبل التكنولوجيا.