ظهور مفهوم مجموعة الخبراء المختلطة (MoGE)
يحقق ابتكار هواوي في مجال الذكاء الاصطناعي تقدماً كبيراً، حيث يكمن جوهر هذا التطور في مفهوم “مجموعة الخبراء المختلطة” (Mixture of Grouped Experts - MoGE). هذه التقنية المبتكرة، التي تم تفصيلها في ورقة بحثية نشرها فريق Pangu التابع لهواوي، تُقدَّم كنسخة مطورة من تقنية “مزيج الخبراء” (Mixture of Experts - MoE). لقد أثبتت MoE أنها أداة فعالة من حيث التكلفة لإنشاء نماذج ذكاء اصطناعي، كما يتضح من نجاح DeepSeek.
توفر MoE مزايا لمعلمات النموذج الكبيرة، مما يؤدي إلى تعزيز القدرة على التعلم. ومع ذلك، حدد باحثو هواوي أوجه القصور الناشئة عن التنشيط غير المتكافئ “للخبراء”، وهي مكونات حاسمة في تدريب الذكاء الاصطناعي، والتي يمكن أن تعيق الأداء عند تشغيل المهام عبر أجهزة متعددة في وقت واحد. يعالج MoGE من هواوي هذه التحديات بشكل استراتيجي.
معالجة أوجه القصور في نماذج MoE التقليدية
تم تصميم نظام MoGE بشكل معقد لتحسين توزيع أعباء العمل. تتمثل الفكرة الأساسية في “تجميع” الخبراء معًا أثناء عملية الاختيار، مما يؤدي إلى توزيع أكثر توازناً لأعباء العمل. من خلال توزيع العبء الحسابي بشكل أكثر إنصافًا، أبلغ الباحثون عن تحسن ملحوظ في أداء بيئات الحوسبة المتوازية، وهو جانب رئيسي في تدريب الذكاء الاصطناعي الحديث.
يشير مفهوم “الخبراء” في تدريب الذكاء الاصطناعي إلى نماذج فرعية متخصصة أو مكونات داخل نموذج أكبر وأكثر شمولاً. تم تصميم كل خبير بعناية للتعامل مع مهام أو أنواع بيانات محددة للغاية. هذا النهج يسخر الخبرات المتخصصة المتنوعة، مما يسمح لنظام الذكاء الاصطناعي الشامل بتحسين أدائه الإجمالي بشكل كبير.
الآثار المترتبة على تقدم الذكاء الاصطناعي في الصين
هذا التقدم يأتي في الوقت المناسب بشكل خاص. تواصل شركات الذكاء الاصطناعي الصينية، على الرغم من مواجهة قيود أمريكية على استيراد رقائق الذكاء الاصطناعي المتقدمة مثل تلك الموجودة في Nvidia، السعي بقوة إلى طرق لتعزيز كفاءة تدريب النموذج والاستدلال. لا تتضمن هذه الطرق تحسينات خوارزمية فحسب، بل تتضمن أيضًا التكامل التآزري للأجهزة والبرامج.
قام باحثو هواوي باختبار بنية MoGE بدقة على وحدة المعالجة العصبية Ascend (NPU) الخاصة بهم، والتي تم تصميمها خصيصًا لتسريع مهام الذكاء الاصطناعي. أشارت النتائج إلى أن MoGE حققت توازنًا فائقًا في تحميل الخبراء وتنفيذًا أكثر كفاءة، لكل من مراحل تدريب النموذج والاستدلال. هذا هو تأكيد كبير لفوائد تحسين حزمة الأجهزة والبرامج في وقت واحد.
مقارنة Pangu بالنماذج الرائدة في مجال الذكاء الاصطناعي
تمت مقارنة نموذج Pangu الخاص بشركة هواوي، المدعوم ببنية MoGE ووحدات المعالجة العصبية Ascend، بالنماذج الرائدة في مجال الذكاء الاصطناعي. وشملت هذه النماذج DeepSeek-V3، وQwen2.5-72B التابعة لمجموعة علي بابا القابضة، وLlama-405B التابعة لشركة Meta Platforms. أظهرت نتائج المقارنة أن Pangu حقق أداءً فائقًا عبر مجموعة من المعايير الإنجليزية العامة، وتفوق في جميع المعايير الصينية. أظهر Pangu أيضًا كفاءة أعلى في معالجة تدريب السياق الطويل، وهو مجال ذو أهمية بالغة لمهام معالجة اللغة الطبيعية المعقدة.
علاوة على ذلك، أظهر نموذج Pangu قدرات استثنائية في مهام فهم اللغة العامة، مع نقاط قوة خاصة في مهام الاستدلال. تُظهر هذه القدرة على فهم الفروق الدقيقة واستخلاص المعنى من اللغة المعقدة التطورات التي حققتها هواوي في مجال الذكاء الاصطناعي.
الأهمية الاستراتيجية لهواوي
يحمل تقدم هواوي في بنية نموذج الذكاء الاصطناعي أهمية استراتيجية. نظرًا للعقوبات المستمرة، تسعى الشركة التي تتخذ من شنتشن مقرًا لها بشكل استراتيجي إلى تقليل اعتمادها على التقنيات الأمريكية. تعتبر رقائق Ascend التي طورتها هواوي بدائل محلية قابلة للتطبيق للمعالجات من Nvidia وهي مكون رئيسي في هذا الاستقلال.
يؤكد Pangu Ultra، وهو نموذج لغوي كبير يحتوي على 135 مليار معلمة مُحسَّن لوحدات المعالجة العصبية، فعالية تبسيط هواوي المعماري والنظامي مع عرض قدرات وحدات المعالجة العصبية الخاصة بها. إن إظهار فعالية تكامل الأجهزة والبرامج الخاص بها هو جزء مهم من عرض قدرات هواوي في مجال الذكاء الاصطناعي.
عملية التدريب التفصيلية
وفقًا لهواوي، تنقسم عملية التدريب إلى ثلاث مراحل رئيسية: التدريب المسبق، وتوسيع السياق الطويل، والتدريب اللاحق. يتضمن التدريب المسبق تدريب النموذج في البداية على مجموعة بيانات ضخمة من 13.2 تريليون رمز. ثم يقوم توسيع السياق الطويل بتوسيع قدرة النموذج على التعامل مع النصوص الأطول والأكثر تعقيدًا والبناء على التعرف الأولي على البيانات. تستخدم هذه المرحلة معالجة موزعة واسعة النطاق عبر 8192 شريحة Ascend.
كشفت هواوي عن أن النموذج والنظام سيتاحان قريبًا لعملائها التجاريين، مما يفتح فرصًا جديدة للتكامل والتطوير مع شركائها.
نظرة متعمقة على مزيج الخبراء (MoE) وقيوده
لتقدير أهمية MoGE من هواوي بشكل كامل، من الضروري فهم الأسس التي يبني عليها: بنية مزيج الخبراء (MoE). يمثل MoE نقلة نوعية في طريقة تصميم وتدريب نماذج الذكاء الاصطناعي الكبيرة، حيث يقدم مسارًا لتوسيع حجم النموذج وتعقيده دون زيادة نسبية في التكلفة الحسابية.
في الشبكة العصبية التقليدية، تتم معالجة كل مدخل من قبل كل عصبون في كل طبقة. في حين أن هذا النهج يمكن أن يحقق دقة عالية، إلا أنه يصبح باهظ التكلفة من الناحية الحسابية للنماذج الكبيرة جدًا. على النقيض من ذلك، يقدم MoE مفهوم “الخبراء” - الشبكات العصبية الأصغر والمتخصصة التي تركز على مجموعات فرعية محددة من بيانات الإدخال.
تقوم شبكة “بوابة” بتوجيه كل مدخل ديناميكيًا إلى الخبير (الخبراء) الأكثر صلة. يسمح هذا التنشيط الانتقائي بحساب متفرق، مما يعني أنه يتم إشراك جزء صغير فقط من معلمات النموذج لأي إدخال معين. يقلل هذا التباعد بشكل كبير من التكلفة الحسابية للاستدلال (استخدام النموذج للتنبؤ) والتدريب. علاوة على ذلك، نظرًا لأن الخبراء المختلفين يمكنهم العمل على أجزاء مختلفة من بيانات الإدخال، فإنه يسمح بتخصص أكبر في النموذج.
على الرغم من مزايا MoE، يجب معالجة العديد من القيود لإطلاق إمكاناته الكاملة. يعد التنشيط غير المتكافئ للخبراء مصدر قلق رئيسي. في العديد من تطبيقات MoE، يصبح بعض الخبراء مستخدمين بشكل كبير، بينما يظل البعض الآخر خاملاً نسبيًا. ينبع هذا الاختلال من الخصائص المتأصلة للبيانات وتصميم شبكة البوابة.
يمكن أن يؤدي هذا الاختلال إلى أوجه قصور في بيئات الحوسبة المتوازية. نظرًا لأن عبء العمل لا يتم توزيعه بالتساوي بين الخبراء، فإن بعض وحدات المعالجة تترك غير مستغلة بينما تطغى على وحدات أخرى. يعيق هذا التفاوت قابلية التوسع في MoE ويقلل من أدائه العام. أيضًا، غالبًا ما ينبع هذا الاختلال من التحيزات في بيانات التدريب، مما يؤدي إلى نقص التمثيل والتدريب للخبراء الأقل نشاطًا. ينتج عن هذا نموذج دون المستوى الأمثل على المدى الطويل.
تشمل المشكلات الشائعة الأخرى عند التعامل مع MoE التعقيد الإضافي عند تصميم شبكة البوابة. تتطلب شبكة البوابة تقنيات متطورة لضمان تحديد الخبراء بشكل صحيح، وإلا فقد لا يعمل MoE وفقًا للتوقعات ويسبب نفقات عامة غير ضرورية.
الخبراء المجمعون (MoGE): معالجة تحديات MoE
تقدم بنية “مجموعة الخبراء المختلطة” (MoGE) من هواوي بديلاً محسّنًا لـ MoE التقليدية من خلال التركيز على موازنة التحميل والتنفيذ المتوازي الفعال. تتضمن الطريقة تجميع الخبراء بشكل استراتيجي، مما يغير عملية توجيه بيانات الإدخال، مما يؤدي إلى توزيع أكثر توازناً لعبء العمل.
من خلال تجميع الخبراء أثناء الاختيار، يضمن MoGE حصول كل مجموعة من الخبراء على عبء عمل أكثر توازناً. بدلاً من توجيه كل إدخال بشكل مستقل، توجه شبكة البوابة الآن مجموعات من المدخلات إلى مجموعات من الخبراء. يعزز هذا النهج توزيعًا أكثر إنصافًا للعبء الحسابي.
تساعد آلية التجميع أيضًا في التخفيف من آثار تحيزات البيانات. من خلال ضمان تدريب جميع الخبراء داخل المجموعة على مجموعة متنوعة من المدخلات، يقلل MoGE من خطر نقص التمثيل والتدريب. علاوة على ذلك، يتيح تجميع الخبراء استخدامًا أفضل للموارد. نظرًا لأن كل مجموعة تتعامل مع عبء عمل أكثر اتس
اقًا، يصبح من السهل تخصيص الموارد الحسابية بكفاءة، مما يؤدي إلى أداء عام أفضل.
والنتيجة النهائية هي توازن أفضل في تحميل الخبراء وتنفيذ أكثر كفاءة لكل من تدريب النموذج والاستدلال. وهذا يترجم إلى أوقات تدريب أسرع، وتكاليف حسابية أقل، وأداء عام محسّن.
وحدة المعالجة العصبية Ascend: تسريع الأجهزة للذكاء الاصطناعي
تلعب وحدة المعالجة العصبية (NPU) من Ascend دورًا رئيسيًا في استراتيجية هواوي للذكاء الاصطناعي. تم تصميم هذه المعالجات خصيصًا لتسريع مهام الذكاء الاصطناعي، بما في ذلك تدريب النموذج والاستدلال. وهي توفر مجموعة متنوعة من الميزات المحسّنة لأعباء عمل التعلم العميق، مثل نطاق ترددي عالي للذاكرة ووحدات معالجة متخصصة لضرب المصفوفات وواجهات اتصال ذات زمن انتقال منخفض. علاوة على ذلك، تدعم وحدات المعالجة العصبية Ascend من هواوي مجموعة من أنواع البيانات ومستويات الدقة، مما يسمح بالتحكم الدقيق في الأداء والدقة.
يخلق المزيج التآزري بين MoGE و Ascend NPU نظامًا أساسيًا قويًا لابتكار الذكاء الاصطناعي. يعمل MoGE على تحسين الجانب البرمجي من خلال تحسين موازنة التحميل والتنفيذ المتوازي، بينما توفر Ascend NPU تسريع الأجهزة اللازم لتحقيق هذه الفوائد. يسمح هذا النهج المتكامل لهواوي بتجاوز حدود أداء وكفاءة الذكاء الاصطناعي.
تتميز وحدة المعالجة العصبية Ascend بكثافة حوسبة عالية وكفاءة في استهلاك الطاقة. تعتبر هذه الميزات ضرورية لنشر نماذج الذكاء الاصطناعي في مجموعة متنوعة من الإعدادات، من خوادم السحابة القوية إلى الأجهزة الطرفية ذات ميزانيات الطاقة المحدودة.
المعايير ومقاييس الأداء
توضح نتائج هواوي القياسية فعالية بنية MoGE ووحدة المعالجة العصبية Ascend. من خلال مقارنة Pangu بنماذج الذكاء الاصطناعي الرائدة مثل DeepSeek-V3 و Qwen2.5-72B و Llama-405B، أظهرت هواوي أن تقنيتها تحقق أداءً فائقًا في مجموعة متنوعة من المهام.
يسلط نجاح Pangu في المعايير الإنجليزية والصينية العامة الضوء على تنوعه وقابليته للتكيف. إن كفاءة النموذج في تدريب السياق الطويل جديرة بالذكر بشكل خاص لأنها تعكس القدرات في التعامل مع بيانات العالم الحقيقي. علاوة على ذلك، فإن الأداء القوي لـ Pangu في مهام الاستدلال يؤكد قدرته على فهم ومعالجة العلاقات المعقدة.
هذه المعايير ليست مجرد تمارين أكاديمية، بل تقدم دليلاً ملموساً على الخطوات التكنولوجية التي حققتها هواوي. إنها تدعم ادعاء الشركة بأنها في طليعة ابتكار الذكاء الاصطناعي وتعزز مكانتها في السوق العالمية.
الآثار المترتبة على مستقبل هواوي
تترتب على تقدم هواوي في تدريب نماذج الذكاء الاصطناعي آثار حاسمة في رؤية الشركة الاستراتيجية لتأسيس السيادة التكنولوجية في الذكاء الاصطناعي. نظرًا لأن الشركة تقلل من اعتمادها على التقنيات الأمريكية وسط النزاع التجاري المستمر، فإن تطوير شرائح Ascend بمثابة بدائل للمعالجات من Nvidia و AMD. يسلط Pangu Ultra، وهو نموذج لغوي كبير يتميز بـ 135 مليار معلمة لوحدات المعالجة العصبية، الضوء على فعالية تبسيط هواوي المعماري والنظامي من خلال عرض قدرات شرائحها المتطورة.
من المتوقع أن تساهم هذه الجهود في القدرة التنافسية الشاملة لهواوي على المدى الطويل، حيث تسعى جاهدة لتلبية سوق أكبر للذكاء الاصطناعي، لا سيما داخل الصين. من خلال الاستمرار في تركيز الاستثمارات على البحث والتطوير، تأمل هواوي في دفع نفسها كشركة رائدة في مجال الذكاء الاصطناعي، والتغلب على قيود السوق الحالية.
أبحاث مستقبلية
إن تحسينات هواوي المستمرة في بنية نموذج الذكاء الاصطناعي عبر تحسينات على مستوى النظام والخوارزمية، إلى جانب تطورات الأجهزة مثل شريحة Ascend، تمثل أهميتها في قيادة المنحنى التكنولوجي في الذكاء الاصطناعي. في حين أن المعايير مثل Pangu تثبت أنه نموذج حديث، إلا أنه لا يزال هناك الكثير من التحسينات التي يمكن إجراؤها. قد يتيح المزيد من التحسين لبنية MoGE دفعه إلى حسابات أكبر وأكثر تعقيدًا. قد يؤدي المزيد من العمل في تخصص بنية Ascend NPU إلى تسريع عمليات التعلم العميق وتقليل التكاليف بشكل أكبر. سترى التحقيقات المستقبلية الجهود المستمرة لبناء نماذج ذكاء اصطناعي أفضل وتحسين النماذج الحالية.