علي بابا تكشف عن Qwen 2.5 Omni: منافس جديد بالذكاء الاصطناعي

دخول المعترك: خطوة Alibaba الطموحة في الذكاء الاصطناعي المتقدم

تستمر وتيرة الابتكار المتسارعة في الذكاء الاصطناعي في إعادة تشكيل الصناعات وإعادة تعريف حدود التفاعل بين الإنسان والحاسوب. في هذا المشهد العالمي شديد التنافسية، تتنافس كبرى شركات التكنولوجيا باستمرار لتقديم نماذج ليست فقط أفضل بشكل تدريجي، ولكنها أكثر قدرة بشكل أساسي. بخطوة جريئة في هذا المجال، كشف فريق Qwen التابع لـ Alibaba Cloud مؤخرًا عن إضافة مهمة إلى محفظتهم المتنامية من الذكاء الاصطناعي: Qwen 2.5 Omni. يُصنف هذا النموذج كعرض رائد، وهو ليس مجرد نموذج لغوي آخر؛ بل يمثل قفزة متطورة نحو أنظمة ذكاء اصطناعي شاملة حقًا. تم إطلاق هذا النموذج يوم الأربعاء، وهو يشير إلى نية Alibaba الواضحة للمنافسة على أعلى المستويات، حيث يقدم قدرات تنافس تلك التي تظهر من عمالقة Silicon Valley. يشير مصطلح ‘Omni’ بحد ذاته إلى طموح النموذج - أن يكون شاملاً في قدرته على الإدراك والتواصل، مما يمثل لحظة محورية لعائلة Qwen واستراتيجية Alibaba الأوسع للذكاء الاصطناعي. هذا الإصدار لا يتعلق فقط بالبراعة التقنية؛ إنه خطوة استراتيجية تهدف إلى جذب اهتمام المطورين وحصة السوق في النظام البيئي للذكاء الاصطناعي سريع التطور.

ما وراء النص: احتضان الطيف الكامل للتواصل

لسنوات، كان الوضع الأساسي للتفاعل مع الذكاء الاصطناعي يعتمد على النص. على الرغم من قوته، فإن هذا القيد يحد بطبيعته من ثراء ودقة التواصل. يسعى Qwen 2.5 Omni إلى تحطيم هذه القيود من خلال تبني تعدد الوسائط (multimodality) الحقيقي. هذا يعني أن النموذج لا يقتصر على معالجة الكلمات على الشاشة فقط؛ بل تمتد قدراته الإدراكية عبر طيف حسي أوسع بكثير.

تم تصميم النظام لقبول وتفسير المعلومات من مجموعة متنوعة من المدخلات:

  • النص: العنصر الأساسي، مما يسمح بالمطالبات التقليدية وتحليل البيانات.
  • الصور: تمكين الذكاء الاصطناعي من ‘رؤية’ وفهم المحتوى المرئي، من الصور الفوتوغرافية والرسوم البيانية إلى المشاهد المعقدة.
  • الصوت: السماح للنموذج بمعالجة اللغة المنطوقة والأصوات والموسيقى، مما يفتح الأبواب للتفاعل والتحليل القائم على الصوت.
  • الفيديو: دمج المعلومات المرئية والسمعية بمرور الوقت، مما يتيح فهم الأحداث الديناميكية أو العروض التقديمية أو إجراءات المستخدم.

لا يمكن المبالغة في أهمية قدرة الإدخال متعدد الوسائط هذه. فهي تتيح للذكاء الاصطناعي بناء فهم أكثر ثراءً وإدراكًا للسياق للعالم ونية المستخدم. تخيل، على سبيل المثال، مستخدمًا يطرح سؤالاً شفهيًا حول كائن معين في صورة فوتوغرافية يقدمها، أو ذكاءً اصطناعيًا يحلل مكالمة فيديو جماعية، ويفهم ليس فقط الكلمات المنطوقة ولكن أيضًا الإشارات المرئية المعروضة على الشاشات المشتركة. هذا الفهم الشامل يقرب الذكاء الاصطناعي من محاكاة الإدراك البشري، حيث تعمل الحواس المختلفة بالتنسيق لتفسير المواقف المعقدة. من خلال معالجة تدفقات البيانات المتنوعة هذه بشكل متزامن، يمكن لـ Qwen 2.5 Omni معالجة المهام التي كانت مستحيلة سابقًا للنماذج أحادية الوسائط، مما يمهد الطريق لتطبيقات ذكاء اصطناعي أكثر سهولة وقوة. تعد القدرة على دمج المعلومات بسلاسة من مصادر مختلفة أمرًا بالغ الأهمية لبناء وكلاء ذكاء اصطناعي يمكنهم العمل بفعالية في العالم الحقيقي متعدد الأوجه.

صوت الذكاء: تفاعل الكلام والفيديو في الوقت الفعلي

لا تقل قدرات التعبير لدى Qwen 2.5 Omni إثارة للإعجاب عن قدرات الإدخال الخاصة به. متجاوزًا الاستجابات النصية الثابتة، يبتكر النموذج توليدًا في الوقت الفعلي لكل من النص والكلام الطبيعي بشكل ملحوظ. هذه الميزة هي حجر الزاوية في تصميمه، وتهدف إلى جعل التفاعلات سلسة وفورية وشبيهة بالإنسان بشكل جذاب.

التأكيد على ‘الوقت الفعلي’ أمر بالغ الأهمية. على عكس الأنظمة التي قد تعالج استعلامًا ثم تولد استجابة بتأخير ملحوظ، تم تصميم Qwen 2.5 Omni للفورية. هذا الكمون المنخفض ضروري لخلق تجارب محادثة حقيقية، حيث يمكن للذكاء الاصطناعي الاستجابة ديناميكيًا داخل الحوار، تمامًا مثل المشارك البشري. الهدف هو التبادل السلس، والقضاء على التوقفات المحرجة التي غالبًا ما تكشف عن الطبيعة الاصطناعية لتفاعلات الذكاء الاصطناعي الحالية.

علاوة على ذلك، ينصب التركيز على الكلام الطبيعي. الهدف هو تجاوز الإيقاع الرتيب أو الآلي المرتبط غالبًا بتقنيات تحويل النص إلى كلام السابقة. تسلط Alibaba الضوء على قدرة النموذج على البث المباشر للكلام في الوقت الفعلي بطريقة تحاكي التنغيم والنبرة البشرية، مما يجعل التفاعلات اللفظية تبدو أكثر أصالة وأقل إزعاجًا بشكل كبير.

إضافة طبقة أخرى من العمق التفاعلي هي قدرة الدردشة المرئية (video chat) للنموذج. يتيح ذلك تفاعلات بأسلوب وجهاً لوجه حيث يمكن للذكاء الاصطناعي الاستجابة ليس فقط لفظيًا ولكن أيضًا التفاعل مع المدخلات المرئية من المستخدم في الوقت الفعلي. يمثل هذا المزيج من الرؤية والسمع والتحدث ضمن سياق فيديو مباشر خطوة مهمة نحو مساعدين ذكاء اصطناعي أكثر تجسيدًا وشخصية.

تعمل ميزات الإخراج هذه مجتمعة على تحويل تجربة المستخدم. الذكاء الاصطناعي الذي يمكنه التحدث بشكل طبيعي، والاستجابة على الفور، والتفاعل عبر الفيديو يبدو أقل كأداة وأكثر كمتعاون أو مساعد. حتى وقت قريب، كانت قدرات التفاعل متعدد الوسائط المتطورة في الوقت الفعلي هذه محصورة إلى حد كبير في الأنظمة البيئية مغلقة المصدر لعمالقة مثل Google (مع نماذج مثل Gemini) و OpenAI (مع GPT-4o). يمثل قرار Alibaba بتطوير هذه التكنولوجيا، والأهم من ذلك، جعلها مفتوحة المصدر، خطوة ديمقراطية مهمة.

تحت الغطاء: بنية 'Thinker-Talker' المبتكرة

ما يدعم هذه القدرات المتقدمة هو بنية نظام جديدة تطلق عليها Alibaba اسم ‘Thinker-Talker’. تفصل فلسفة التصميم هذه بذكاء بين المعالجة المعرفية والتسليم التعبيري، مما يحسن كل وظيفة مع ضمان عملها في انسجام تام ضمن نموذج واحد موحد. إنه حل أنيق مصمم للتعامل مع تعقيدات التفاعل متعدد الوسائط في الوقت الفعلي بكفاءة.

The Thinker (المفكر): يعمل هذا المكون باعتباره النواة المعرفية للنموذج، ‘عقله’. يتحمل المسؤولية الأساسية عن معالجة وفهم المدخلات المتنوعة - النص والصور والصوت والفيديو. يوضح الباحثون أنه يعتمد بشكل أساسي على بنية Transformer decoder، وهي بارعة في ترميز الوسائط المختلفة في مساحة تمثيلية مشتركة. يتيح ذلك لـ Thinker استخراج المعلومات ذات الصلة، والاستدلال عبر أنواع البيانات المختلفة، وفي النهاية صياغة محتوى الاستجابة. يحدد ما يجب قوله أو نقله، بناءً على فهمه الشامل لسياق الإدخال. إنه المكان الذي يحدث فيه الاندماج عبر الوسائط، مما يمكّن النموذج من ربط، على سبيل المثال، استعلام منطوق بعنصر داخل صورة.

The Talker (المتحدث): إذا كان Thinker هو الدماغ، فإن Talker يعمل بمثابة ‘الفم’، المسؤول عن التعبير عن الاستجابة التي صاغها Thinker. دوره الحاسم هو أخذ المخرجات المفاهيمية من Thinker وتقديمها كتدفق سلس وطبيعي للكلام (أو النص، إذا لزم الأمر). يصفه الباحثون بأنه dual-track autoregressive Transformer decoder. من المحتمل أن يسهل هذا التصميم المحدد التوليد السلس والمتدفق للكلام، وربما يتعامل مع جوانب مثل التنغيم والسرعة بشكل أكثر فعالية من البنى الأبسط. قد تشير طبيعة ‘المسار المزدوج’ إلى مسارات معالجة متوازية، مما يساهم في الكمون المنخفض المطلوب للمحادثة في الوقت الفعلي. يضمن أن التسليم ليس دقيقًا فحسب، بل مناسبًا أيضًا من حيث التوقيت ويبدو طبيعيًا.

التآزر والتكامل: تكمن عبقرية بنية Thinker-Talker في تكاملها. هذان ليسا نموذجين منفصلين مرتبطين ببعضهما البعض بشكل أخرق؛ بل يعملان كمكونات لنظام واحد ومتماسك. يوفر هذا التكامل الوثيق مزايا كبيرة:

  • التدريب الشامل (End-to-End Training): يمكن تدريب النموذج بأكمله، من إدراك المدخلات (Thinker) إلى توليد المخرجات (Talker)، بشكل شامل. يتيح ذلك للنظام تحسين تدفق التفاعل الكامل، مما قد يؤدي إلى تماسك أفضل بين الفهم والتعبير مقارنة بالنهج المتسلسلة.
  • الاستدلال السلس (Seamless Inference): أثناء التشغيل، تتدفق المعلومات بسلاسة من Thinker إلى Talker، مما يقلل من الاختناقات ويمكّن من توليد النص والكلام في الوقت الفعلي الذي يميز Qwen 2.5 Omni.
  • الكفاءة: من خلال تصميم المكونات للعمل معًا ضمن نموذج واحد، قد تحقق Alibaba كفاءة أكبر مقارنة بتشغيل نماذج متعددة ومتباينة للفهم والتوليد.

تمثل هذه البنية نهجًا مدروسًا لمواجهة تحديات الذكاء الاصطناعي متعدد الوسائط، وتحقيق التوازن بين المعالجة المتطورة والحاجة إلى تفاعل سريع الاستجابة وطبيعي. إنها أساس تقني مصمم لمتطلبات المحادثة الشبيهة بالإنسان في الوقت الفعلي.

مناورة استراتيجية: قوة المصدر المفتوح

ربما يكون أحد أبرز جوانب إطلاق Qwen 2.5 Omni هو قرار Alibaba بجعل التكنولوجيا مفتوحة المصدر (open-source). في عصر غالبًا ما تكون فيه النماذج متعددة الوسائط المتطورة من المنافسين مثل OpenAI و Google مملوكة ملكية خاصة، ومحمية عن كثب داخل أنظمتها البيئية الخاصة، تتخذ Alibaba مسارًا مختلفًا. تحمل هذه الخطوة آثارًا استراتيجية كبيرة، لكل من Alibaba ومجتمع الذكاء الاصطناعي الأوسع.

من خلال إتاحة الوصول إلى النموذج وبنيته الأساسية عبر منصات مثل Hugging Face و GitHub، تدعو Alibaba بشكل أساسي مجتمع المطورين والباحثين العالمي لاستخدام عملهم وفحصه والبناء عليه. يتناقض هذا بشكل حاد مع نهج ‘الحديقة المسورة’ الذي يفضله بعض المنافسين. ما الذي قد يحفز هذه الاستراتيجية المفتوحة؟

  • تسريع التبني والابتكار: يمكن للمصدر المفتوح أن يقلل بشكل كبير من حاجز الدخول للمطورين والباحثين في جميع أنحاء العالم. يمكن أن يؤدي ذلك إلى تبني أسرع لتقنية Qwen وتحفيز الابتكار حيث يجرب المجتمع ويوسع قدرات النموذج بطرق ربما لم تتصورها Alibaba.
  • بناء مجتمع ونظام بيئي: يمكن لمجتمع المصدر المفتوح النشط إنشاء نظام بيئي نابض بالحياة حول نماذج Qwen. يمكن أن يولد ذلك ملاحظات قيمة، ويحدد الأخطاء، ويساهم في التحسينات، ويعزز المنصة في النهاية، مما قد يؤسسها كمعيار واقعي في مجالات معينة.
  • الشفافية والثقة: تتيح الانفتاحية قدرًا أكبر من التدقيق في قدرات النموذج وقيوده وتحيزاته المحتملة. يمكن لهذه الشفافية أن تعزز الثقة بين المستخدمين والمطورين، وهو أمر يزداد أهمية مع تزايد دمج أنظمة الذكاء الاصطناعي في الحياة اليومية.
  • التمايز التنافسي: في سوق تهيمن عليه النماذج المغلقة، يمكن أن تكون استراتيجية المصدر المفتوح عامل تمييز قوي، يجذب المطورين والمؤسسات التي تعطي الأولوية للمرونة والتخصيص وتجنب الارتباط بمورد واحد.
  • جذب المواهب: يمكن أن تعزز المساهمة بشكل كبير في حركة الذكاء الاصطناعي مفتوحة المصدر سمعة Alibaba كرائد في هذا المجال، مما يساعد على جذب أفضل مواهب الذكاء الاصطناعي.

بالطبع، لا يخلو المصدر المفتوح من الجوانب السلبية المحتملة، مثل استفادة المنافسين من التكنولوجيا. ومع ذلك، يبدو أن Alibaba تراهن على أن فوائد مشاركة المجتمع، والابتكار المتسارع، والتبني الواسع النطاق تفوق هذه المخاطر. بالنسبة للنظام البيئي الأوسع للذكاء الاصطناعي، يوفر هذا الإصدار إمكانية الوصول إلى أحدث القدرات متعددة الوسائط التي كانت مقيدة سابقًا، مما قد يسوي الملعب ويمكّن اللاعبين الأصغر والمؤسسات الأكاديمية من المشاركة بشكل أكمل في تطوير الذكاء الاصطناعي المتطور.

القياس: اعتبارات الأداء والكفاءة

لا تخجل Alibaba من وضع Qwen 2.5 Omni كنموذج عالي الأداء. في حين أن التحقق المستقل من طرف ثالث أمر بالغ الأهمية دائمًا، شاركت الشركة نتائج من اختباراتها الداخلية، مما يشير إلى أن النموذج ينافس بقوة المنافسين الهائلين. وتجدر الإشارة إلى أن Alibaba تدعي أن Qwen 2.5 Omni يتفوق على نموذج Gemini 1.5 Pro من Google على OmniBench، وهو معيار مصمم لتقييم القدرات متعددة الوسائط. علاوة على ذلك، يقال إنه يتجاوز أداء نماذج Qwen المتخصصة السابقة (Qwen 2.5-VL-7B للرؤية واللغة و Qwen2-Audio للصوت) في المهام أحادية الوسائط، مما يشير إلى قوته كنظام متعدد الوسائط عام.

تفصيل تقني مثير للاهتمام هو حجم النموذج: سبعة مليارات معلمة (seven billion parameters). في سياق نماذج اللغة الكبيرة الحديثة، حيث يمكن أن ترتفع أعداد المعلمات إلى مئات المليارات أو حتى التريليونات، يعتبر 7B متواضعًا نسبيًا. يقدم حجم المعلمة هذا مقايضة رائعة:

  • إمكانية الكفاءة: تتطلب النماذج الأصغر عمومًا طاقة حاسوبية أقل لكل من التدريب والاستدلال (تشغيل النموذج). يترجم هذا إلى تكاليف تشغيل أقل محتملة والقدرة على تشغيل النموذج على أجهزة أقل قوة، ربما حتى على الأجهزة الطرفية في المستقبل. يتماشى هذا بشكل مباشر مع ادعاء Alibaba بأن النموذج يمكّن من بناء ونشر وكلاء ذكاء اصطناعي فعالين من حيث التكلفة (cost-effective AI agents).
  • القدرة مقابل الحجم: بينما تظهر النماذج الأكبر غالبًا قدرات خام أكبر، فإن التقدم الكبير في البنية (مثل Thinker-Talker) وتقنيات التدريب يعني أن النماذج الأصغر لا يزال بإمكانها تحقيق أداء متطور في مهام محددة، خاصة عند تحسينها بفعالية. تبدو Alibaba واثقة من أن نموذجها ذو 7 مليار معلمة يتفوق على فئته الوزنية، خاصة في التفاعل متعدد الوسائط.

كما أن ‘الأداء المحسن في تعليمات الكلام الشاملة’ المبلغ عنه جدير بالملاحظة. من المحتمل أن يعني هذا أن النموذج أفضل في فهم الأوامر المعقدة المعطاة شفهيًا وتنفيذها بدقة، مع مراعاة كل السياق متعدد الوسائط المقدم. هذا أمر بالغ الأهمية لبناء وكلاء ومساعدين موثوقين يتم التحكم فيهم بالصوت.

إن الجمع بين أداء المعايير القوي (وإن كان تم الإبلاغ عنه داخليًا)، والتنوع متعدد الوسائط، والتفاعل في الوقت الفعلي، وبنية 7 مليار معلمة فعالة محتملة يرسم صورة لنموذج ذكاء اصطناعي عملي للغاية وقابل للنشر. يشير التركيز على فعالية التكلفة إلى أن Alibaba تستهدف المطورين الذين يتطلعون إلى دمج قدرات الذكاء الاصطناعي المتقدمة دون تكبد التكاليف الباهظة المحتملة المرتبطة بتشغيل نماذج ضخمة متعطشة للموارد.

إطلاق العنان للإمكانات: تطبيقات عبر الصناعات

يكمن المقياس الحقيقي لأي نموذج ذكاء اصطناعي جديد في قدرته على تمكين تطبيقات جديدة وحل مشاكل العالم الحقيقي. يفتح مزيج Qwen 2.5 Omni الفريد من الفهم متعدد الوسائط والتفاعل في الوقت الفعلي مشهدًا واسعًا من الاحتمالات عبر العديد من القطاعات.

ضع في اعتبارك حالات الاستخدام المحتملة هذه:

  • الجيل القادم من خدمة العملاء: تخيل وكلاء ذكاء اصطناعي يمكنهم التعامل مع استفسارات العملاء عبر الدردشة الصوتية أو المرئية، وفهم مشكلات المنتج المعروضة عبر الكاميرا ('لماذا يصدر جهازي هذا الضجيج؟' مصحوبًا بالصوت/الفيديو)، وتقديم التعليمات بصريًا أو شفهيًا في الوقت الفعلي.
  • التعليم والتدريب التفاعلي: يمكن للمعلمين المدعومين بالذكاء الاصطناعي إشراك الطلاب في حوار منطوق، وتحليل الملاحظات أو الرسوم البيانية المكتوبة بخط اليد الملتقطة عبر الصور، وشرح المفاهيم باستخدام مرئيات مولدة، وتكييف التفسيرات بناءً على ردود فعل الطالب اللفظية وغير اللفظية في الوقت الفعلي أثناء جلسة الفيديو.
  • أدوات وصول محسنة: يمكن للنموذج تشغيل تطبيقات تصف المشاهد المرئية المعقدة في الوقت الفعلي للأفراد ضعاف البصر، أو توليد كلام عالي الجودة من إدخال النص لأولئك الذين يعانون من صعوبات في الكلام، وربما حتى قراءة الشفاه في محادثات الفيديو لمساعدة ضعاف السمع.
  • إنشاء وإدارة محتوى أكثر ذكاءً: مساعدة المبدعين عن طريق إنشاء أوصاف تفصيلية للصور ومقاطع الفيديو تلقائيًا، ونسخ وتلخيص محتوى الوسائط المتعددة، أو حتى تمكين التحرير الذي يتم التحكم فيه بالصوت للمشاريع متعددة الوسائط.
  • منصات تعاون ذكية: أدوات يمكنها المشاركة في اجتماعات الفيديو، وتوفير النسخ والترجمة في الوقت الفعلي، وفهم الوسائل المرئية التي يتم تقديمها، وتلخيص نقاط المناقشة الرئيسية وعناصر العمل بناءً على المعلومات السمعية والبصرية.
  • مساعدون شخصيون أكثر طبيعية: تجاوز الأوامر الصوتية البسيطة، يمكن للمساعدين المستقبليين المدعومين بهذه التكنولوجيا فهم السياق من بيئة المستخدم (عبر الكاميرا/الميكروفون)، والمشاركة في محادثة سلسة، وأداء مهام معقدة تتضمن أنواع بيانات متعددة.
  • دعم الرعاية الصحية: مساعدة الأطباء من خلال تحليل الصور الطبية أثناء الاستماع إلى الملاحظات المُملَاة، أو تشغيل منصات الرعاية الصحية عن بُعد حيث يمكن للذكاء الاصطناعي المساعدة في نسخ تفاعلات المرضى والإشارة إلى الأعراض المرئية أو السمعية ذات الصلة التي تمت مناقشتها أثناء استشارة الفيديو.
  • البيع بالتجزئة والتجارة الإلكترونية: تمكين تجارب التجربة الافتراضية التي تستجيب للأوامر الصوتية، أو توفير دعم تفاعلي للمنتج حيث يمكن للمستخدمين عرض المنتج عبر الدردشة المرئية.

هذه الأمثلة بالكاد تخدش السطح. إن القدرة على معالجة وتوليد المعلومات عبر الوسائط في الوقت الفعلي تغير بشكل أساسي طبيعة التفاعل بين الإنسان والذكاء الاصطناعي، مما يجعله أكثر سهولة وكفاءة وقابلية للتطبيق على نطاق أوسع من المهام المعقدة في العالم الحقيقي. يمكن أن تؤدي فعالية التكلفة التي أبرزتها Alibaba إلى تسريع نشر مثل هؤلاء الوكلاء المتطورين.

التجربة العملية: الوصول إلى Qwen 2.5 Omni

إدراكًا منها بأن الابتكار يزدهر على إمكانية الوصول، جعلت Alibaba نموذج Qwen 2.5 Omni متاحًا بسهولة للمجتمع العالمي. يمكن للمطورين والباحثين وعشاق الذكاء الاصطناعي المتحمسين لاستكشاف قدراته الوصول إلى النموذج عبر قنوات متعددة:

  • مستودعات المصدر المفتوح: النموذج، وربما تفاصيل حول بنيته وتدريبه، متاح على منصات المصدر المفتوح الشهيرة:
    • Hugging Face: مركز مركزي لنماذج ومجموعات بيانات الذكاء الاصطناعي، مما يتيح سهولة التنزيل والتكامل في سير عمل التطوير.
    • GitHub: يوفر الوصول إلى الكود، مما يتيح التعمق في التنفيذ وتسهيل مساهمات المجتمع.
  • منصات الاختبار المباشر: لأولئك الذين يرغبون في تجربة قدرات النموذج دون الخوض في الكود على الفور، تقدم Alibaba بيئات اختبار تفاعلية:
    • Qwen Chat: من المحتمل أن تكون واجهة تتيح للمستخدمين التفاعل مع النموذج من خلال النص، وربما تعرض ميزاته الكلامية ومتعددة الوسائط.
    • ModelScope: منصة مجتمع Alibaba الخاصة لنماذج الذكاء الاصطناعي، تقدم وسيلة أخرى للتجريب والاستكشاف.

يضمن هذا النهج متعدد الجوانب أن يتمكن الأفراد والمؤسسات ذوو مستويات متفاوتة من الخبرة الفنية من التعامل مع Qwen 2.5 Omni. من خلال توفير كل من المواد الخام (كود المصدر المفتوح وأوزان النموذج) ومنصات الاختبار سهلة الاستخدام، تشجع Alibaba بنشاط على التجريب والتبني. تعد إمكانية الوصول هذه أمرًا بالغ الأهمية لتعزيز مجتمع حول النموذج، وجمع الملاحظات، وتحقيق التطبيقات المتنوعة التي يتيحها هذا الذكاء الاصطناعي القوي متعدد الوسائط في نهاية المطاف. يدعو الإصدار العالم ليس فقط للمشاهدة، ولكن للمشاركة بنشاط في الموجة التالية من تطوير الذكاء الاصطناعي.