مجموعة Ant ومناورتها بالرقائق المحلية في حوسبة الذكاء الاصطناعي

المخاطر العالية في السباق العالمي على أجهزة الذكاء الاصطناعي

يتحدد مشهد تطوير الذكاء الاصطناعي بشكل متزايد ليس فقط من خلال الاختراقات الخوارزمية ولكن أيضًا من خلال الوصول إلى الأجهزة المتطورة اللازمة لتدريب وتشغيل النماذج الضخمة. في قلب معادلة الأجهزة هذه تكمن وحدة معالجة الرسومات (GPU)، وهي مكون تم تصميمه في البداية لعرض الصور ولكنه أصبح الآن لا غنى عنه لمتطلبات المعالجة المتوازية للذكاء الاصطناعي. لسنوات، وقفت شركة Nvidia Corporation كعملاق لا جدال فيه في هذا المجال، وأصبحت وحدات معالجة الرسومات المتقدمة الخاصة بها هي المعيار الذهبي، مما يدعم الابتكار عبر Silicon Valley وخارجه. ومع ذلك، فإن هذه الهيمنة وضعت الشركة وعملائها مباشرة في مرمى التوترات الجيوسياسية.

أدى فرض Washington لضوابط تصدير صارمة تهدف إلى الحد من وصول الصين إلى تكنولوجيا أشباه الموصلات المتطورة إلى إعادة تشكيل السوق بشكل أساسي. تستهدف هذه القيود على وجه التحديد وحدات معالجة الرسومات عالية الأداء، مثل تلك التي تنتجها Nvidia، والتي تعتبر حاسمة لتطبيقات الذكاء الاصطناعي المتقدمة، بما في ذلك تلك ذات الاستخدامات العسكرية المحتملة. كان التأثير المباشر هو التدافع داخل قطاع التكنولوجيا المزدهر في الصين. واجهت الشركات التي استثمرت بكثافة في الذكاء الاصطناعي، من الشركات العملاقة القائمة إلى الشركات الناشئة الطموحة، الاحتمال المفاجئ بقطعها عن الأدوات الأساسية التي تقود الموجة التالية من التقدم التكنولوجي. خلق هذا ضرورة ملحة: إيجاد بدائل قابلة للتطبيق أو المخاطرة بالتخلف في مجال تنافسي عالميًا. لم يكن التحدي مجرد استبدال شريحة بأخرى؛ بل تضمن التنقل في شبكة معقدة من الفروق في الأداء، ومشكلات توافق البرامج، والحجم الهائل المطلوب لتدريب النماذج بمئات المليارات، أو حتى تريليونات، من المعاملات.

مجموعة Ant ترسم مسارًا نحو استقلالية الحوسبة

على خلفية عدم اليقين في سلسلة التوريد والتنافس التكنولوجي المتصاعد، أشارت Ant Group، عملاق التكنولوجيا المالية التابع لمجموعة Alibaba Group Holding، إلى خطوة مهمة نحو تحقيق قدر أكبر من الاكتفاء الذاتي الحسابي. تشير الاكتشافات الأخيرة، المفصلة في ورقة بحثية أجراها فريق Ling التابع للشركة - القسم الذي يقود مبادراتها في مجال النماذج اللغوية الكبيرة (LLM) - إلى انحراف ناجح عن المسار المتمحور حول Nvidia. يكمن جوهر هذا الإنجاز في قدرتهم على تدريب نموذج ذكاء اصطناعي متطور بشكل فعال باستخدام وحدات معالجة الرسومات المنتجة محليًا.

النموذج المعني، المسمى Ling-Plus-Base، ليس خفيف الوزن. تم تصميمه باستخدام بنية Mixture-of-Experts (MoE)، وهي تقنية تكتسب زخمًا لكفاءتها في توسيع نطاق النماذج اللغوية الكبيرة. يضم Ling-Plus-Base عددًا كبيرًا يبلغ 300 مليار معامل، ويعمل في فئة مماثلة للنماذج العالمية البارزة الأخرى. ومع ذلك، فإن الفارق الحاسم هو الأجهزة التي يقوم عليها تدريبه. وفقًا لنتائج البحث، يمكن تطوير هذا النموذج القوي حتى النضج على ما يصفه الفريق بأنه “أجهزة ذات أداء أقل”. تشير هذه العبارة المختارة بعناية مباشرة إلى استخدام وحدات المعالجة التي تقع خارج نطاق قيود التصدير الأمريكية، مما يعني بقوة استخدام الرقائق المصممة والمصنعة داخل الصين.

هذا التطور هو أكثر من مجرد حل تقني؛ إنه يمثل محورًا استراتيجيًا محتملاً. من خلال إظهار القدرة على تدريب أحدث النماذج دون الاعتماد حصريًا على الأجهزة الأجنبية المقيدة ذات المستوى الأعلى، لا تقوم Ant Group بتخفيف مخاطر سلسلة التوريد فحسب، بل من المحتمل أيضًا أن تفتح كفاءات كبيرة في التكلفة.

المعادلة الاقتصادية: خفض تكاليف التدريب

أحد أبرز الأرقام التي ظهرت من بحث فريق Ling هو تخفيض بنسبة 20 بالمائة في تكاليف الحوسبة خلال مرحلة ما قبل التدريب الحاسمة لنموذج Ling-Plus-Base. تشتهر مرحلة ما قبل التدريب بأنها كثيفة الاستخدام للموارد، حيث تتضمن تغذية النموذج بمجموعات بيانات ضخمة لتعلم أنماط اللغة والسياق والمعرفة. وهي تشكل جزءًا كبيرًا من النفقات الإجمالية المرتبطة بتطوير النماذج اللغوية الكبيرة التأسيسية. وبالتالي، فإن تحقيق تخفيض في التكلفة بمقدار الخمس في هذه المرحلة يترجم إلى وفورات كبيرة، مما قد يحرر رأس المال لمزيد من البحث أو التطوير أو النشر على نطاق واسع.

كيف يتم تحقيق هذا التوفير في التكاليف؟ بينما لا تفصل الورقة تفاصيل التكلفة الدقيقة، فمن المحتمل أن تساهم عدة عوامل:

  1. شراء الأجهزة: قد تأتي وحدات معالجة الرسومات المنتجة محليًا، حتى لو كانت أقل قوة بشكل فردي من أفضل عروض Nvidia، بسعر شراء أقل أو تقدم خصومات حجم أكثر ملاءمة داخل السوق الصينية، خاصة بالنظر إلى العرض المحدود لرقائق Nvidia المتطورة.
  2. كفاءة الطاقة: على الرغم من عدم ذكر ذلك صراحة، فإن تحسين التدريب للرقائق المحلية التي قد تكون أقل استهلاكًا للطاقة (وإن كانت ربما أقل أداءً لكل وحدة) يمكن أن يساهم في خفض تكاليف الطاقة التشغيلية، وهو عامل مهم في تشغيل مراكز البيانات الكبيرة.
  3. التحسين الخوارزمي والمعماري: يعد استخدام بنية MoE نفسها أمرًا أساسيًا. تقوم نماذج MoE بتنشيط شبكات فرعية “خبيرة” محددة فقط لمدخل معين، بدلاً من إشراك النموذج بأكمله مثل البنى الكثيفة. يمكن لهذه الندرة المتأصلة أن تقلل بشكل كبير من الحمل الحسابي أثناء التدريب والاستدلال، مما يجعل من الممكن تحقيق نتائج جيدة حتى مع وجود قوة معالجة خام أقل لكل شريحة. يشير نجاح Ant إلى وجود برامج متطورة وضبط خوارزمي لزيادة كفاءة الأجهزة المحلية المتاحة.

هذا التخفيض في التكاليف ليس مجرد فائدة محاسبية؛ إنه يقلل من حاجز الدخول لتطوير نماذج واسعة النطاق ويمكن أن يسرع وتيرة ابتكار الذكاء الاصطناعي داخل الشركة وربما عبر النظام البيئي التكنولوجي الصيني الأوسع إذا أثبتت الطرق أنها قابلة للتكرار.

تكافؤ الأداء: سد فجوة الأجهزة؟

تعتبر وفورات التكاليف جذابة، لكنها لا تعني الكثير إذا كان أداء نموذج الذكاء الاصطناعي الناتج أقل بكثير. يعالج فريق Ling في Ant هذا الأمر مباشرة، مؤكدًا أن Ling-Plus-Base يحقق أداءً مشابهًا للنماذج الأخرى ذات السمعة الطيبة في هذا المجال. على وجه التحديد، قاموا بمقارنة إبداعهم بنماذج مثل Qwen2.5-72B-Instruct (الذي طورته الشركة الأم Alibaba) و DeepSeek-V2.5-1210-Chat، وهو نموذج لغوي كبير صيني بارز آخر.

إن الادعاء بـ “أداء مماثل” على الرغم من استخدام “أجهزة ذات أداء أقل” أمر جدير بالملاحظة. يشير ذلك إلى أن Ant قد وجدت طرقًا فعالة لتعويض أي عجز حسابي خام من خلال:

  • بنية النموذج المتقدمة: تصميم MoE له دور فعال هنا، حيث يوزع عبء العمل بكفاءة.
  • تحسين البرامج: يعد تخصيص حزمة برامج التدريب (مثل أطر الموازاة والمكتبات الرقمية) خصيصًا لبنية وحدات معالجة الرسومات المحلية المستخدمة أمرًا بالغ الأهمية. غالبًا ما يتضمن هذا جهدًا هندسيًا كبيرًا.
  • تنظيم البيانات وتقنيات التدريب: يمكن للطرق المتطورة لاختيار بيانات التدريب وتحسين عملية التدريب نفسها أن تؤثر بشكل كبير على جودة النموذج النهائي، وتعوض أحيانًا قيود الأجهزة.

من المهم التعامل مع ادعاءات الأداء بدقة. يمكن أن يشمل مصطلح “مماثل” مجموعة من النتائج عبر معايير مختلفة (مثل فهم اللغة، والاستدلال، والتوليد، والترميز). بدون الوصول إلى نتائج مفصلة للمعايير عبر اختبارات قياسية متعددة، تظل المقارنة الدقيقة صعبة. ومع ذلك، فإن التأكيد نفسه يشير إلى ثقة Ant بأن نهجها لا يستلزم مقايضة معوقة بين التكلفة/إمكانية الوصول والقدرة. إنه يوضح مسارًا للحفاظ على القدرة التنافسية حتى في ظل القيود التي تفرضها قيود الأجهزة.

أبرز الباحثون أنفسهم الآثار الأوسع: “توضح هذه النتائج جدوى تدريب أحدث نماذج MoE واسعة النطاق على أجهزة أقل قوة، مما يتيح نهجًا أكثر مرونة وفعالية من حيث التكلفة لتطوير النماذج التأسيسية فيما يتعلق باختيار موارد الحوسبة.” يشير هذا إلى نوع من الديمقراطية، مما يسمح بتطوير الذكاء الاصطناعي المتطور حتى عندما يكون الوصول إلى قمة قوة المعالجة المطلقة محدودًا.

فهم ميزة Mixture-of-Experts (MoE)

تعتبر بنية Mixture-of-Experts (MoE) أساسية للنجاح الذي أبلغت عنه Ant Group. وهي تمثل خروجًا عن نماذج الشبكات العصبية “الكثيفة” التقليدية حيث يقوم كل إدخال بتنشيط كل معامل. في نموذج MoE:

  • يتكون النموذج من العديد من الشبكات “الخبيرة” الأصغر والمتخصصة.
  • تتعلم آلية “شبكة البوابة” أو “الموجه” توجيه البيانات الواردة (الرموز، في حالة النماذج اللغوية الكبيرة) إلى الخبير (الخبراء) الأكثر صلة للمعالجة.
  • يقوم الخبير (الخبراء) المختار فقط - غالبًا واحد أو اثنان فقط من بين مئات محتملة - بإجراء العمليات الحسابية لتلك البيانات المحددة.

يقدم هذا النهج العديد من المزايا الرئيسية، ذات الصلة بشكل خاص في سياق قيود الأجهزة:

  1. قابلية التوسع: يسمح MoE للنماذج بالنمو إلى أعداد هائلة من المعاملات (أصبحت التريليونات ممكنة) دون زيادة متناسبة في التكلفة الحسابية لمعالجة كل رمز إدخال أثناء الاستدلال أو حتى أثناء خطوات التدريب. هذا لأن جزءًا فقط من إجمالي المعاملات يكون نشطًا في أي وقت معين.
  2. كفاءة التدريب: بينما يواجه تدريب نماذج MoE تعقيداته الخاصة (مثل موازنة الحمل عبر الخبراء)، يمكن أن تترجم الحسابات المخفضة لكل رمز إلى أوقات تدريب أسرع أو، كما توضح Ant، القدرة على التدريب بفعالية على أجهزة أقل قوة في أطر زمنية معقولة.
  3. التخصص: يمكن لكل خبير أن يتخصص في أنواع مختلفة من البيانات أو المهام أو مجالات المعرفة، مما قد يؤدي إلى مخرجات ذات جودة أعلى في مجالات محددة.

تبنت مختبرات الذكاء الاصطناعي الرائدة في جميع أنحاء العالم MoE، بما في ذلك Google (GShard، Switch Transformer)، و Mistral AI (نماذج Mixtral)، وداخل الصين، شركات مثل DeepSeek و Alibaba (التي تتضمن نماذج Qwen الخاصة بها عناصر MoE). يضع Ling-Plus-Base من Ant الشركة بقوة ضمن هذه الطليعة، مستفيدًا من الابتكار المعماري للتنقل في واقع الأجهزة.

النظام البيئي للأجهزة المحلية: سد فراغ Nvidia

بينما امتنعت ورقة بحث Ant عن تسمية الأجهزة المستخدمة صراحة، أشارت التقارير اللاحقة، لا سيما من Bloomberg، إلى أن هذا الإنجاز تضمن رقائق مصممة محليًا. يشمل ذلك معالجات قد تكون منشؤها من الشركة التابعة لـ Ant، Alibaba، التي لديها وحدة تصميم الرقائق الخاصة بها T-Head (تنتج وحدات معالجة مركزية مثل Yitian 710 واستكشفت سابقًا مسرعات الذكاء الاصطناعي)، وبشكل حاسم، Huawei Technologies.

تقوم Huawei، على الرغم من مواجهتها لعقوبات أمريكية شديدة بنفسها، بتطوير سلسلة مسرعات الذكاء الاصطناعي Ascend (مثل Ascend 910B) بقوة كبديل مباشر لعروض Nvidia داخل السوق الصينية. يقال إن هذه الرقائق يتم تبنيها من قبل شركات التكنولوجيا الصينية الكبرى. إن قدرة Ant Group على استخدام مثل هذه الأجهزة بشكل فعال لنموذج كبير مثل Ling-Plus-Base ستمثل مصادقة مهمة لهذه البدائل المحلية.

من الأهمية بمكان ملاحظة أن Ant Group لم تتخل تمامًا عن Nvidia. تشير التقارير إلى أن رقائق Nvidia لا تزال جزءًا من مجموعة أدوات تطوير الذكاء الاصطناعي لدى Ant، ومن المحتمل استخدامها للمهام التي توفر فيها خصائص أدائها المحددة أو نظامها البيئي البرمجي الناضج (مثل CUDA) مزايا، أو للأنظمة القديمة. لا تتعلق هذه الخطوة بالضرورة بالاستبدال الكامل بين عشية وضحاها ولكن ببناء مسارات متوازية قابلة للتطبيق تقلل من الضعف الاستراتيجي وتتحكم في التكاليف. يتيح هذا النهج المختلط للشركة الاستفادة من أفضل الأدوات المتاحة مع تنمية الاستقلال. حافظت Ant Group نفسها على درجة من السرية المؤسسية، ورفضت التعليق رسميًا على الرقائق المحددة المستخدمة.

اتجاه أوسع: الدفعة الجماعية للصين نحو الاعتماد على الذات في الذكاء الاصطناعي

لا تحدث مبادرة Ant Group بمعزل عن غيرها. إنها تعكس دفعة استراتيجية أوسع عبر قطاع التكنولوجيا في الصين للابتكار حول القيود التي تفرضها ضوابط التصدير الأمريكية. حفزت “حرب التكنولوجيا” الجهود لتحقيق قدر أكبر من الاكتفاء الذاتي في التقنيات الحيوية، لا سيما أشباه الموصلات والذكاء الاصطناعي.

يسعى لاعبون رئيسيون آخرون لتحقيق أهداف مماثلة:

  • ByteDance: يقال إن الشركة الأم لـ TikTok تعمل أيضًا على تأمين واستخدام رقائق بديلة، بما في ذلك الخيارات المحلية، لطموحاتها في مجال الذكاء الاصطناعي، والتي تشمل خوارزميات التوصية والذكاء الاصطناعي التوليدي والمزيد.
  • DeepSeek: تذكر هذه الشركة الناشئة في مجال الذكاء الاصطناعي، المعروفة بنماذجها القوية مفتوحة المصدر، صراحة كفاءة التدريب وقد طورت نماذج باستخدام بنية MoE، بما يتماشى مع الاستراتيجيات الأقل اعتمادًا على امتلاك أساطيل ضخمة من أقوى وحدات معالجة الرسومات فقط.
  • Baidu و Tencent وغيرهما: تستثمر جميع شركات السحابة والتكنولوجيا الصينية الكبرى بكثافة في الذكاء الاصطناعي وتستكشف حتمًا استراتيجيات تنويع الأجهزة، بما في ذلك التحسين للرقائق المحلية وربما تطوير السيليكون المخصص الخاص بها.

الرسالة الجماعية واضحة: بينما يظل الوصول إلى منتجات Nvidia ذات المستوى الأعلى مرغوبًا فيه، فإن صناعة التكنولوجيا الصينية تعمل بنشاط على تطوير والتحقق من صحة الحلول البديلة. يتضمن ذلك نهجًا متعدد الجوانب: تبني بنيات نماذج فعالة مثل MoE، وتحسين مكثف للبرامج لمختلف الواجهات الخلفية للأجهزة، ودعم تطوير واعتماد الرقائق المنتجة محليًا.

ما وراء النماذج اللغوية: توسع Ant في الذكاء الاصطناعي في الرعاية الصحية

تمتد مساعي Ant Group في مجال الذكاء الاصطناعي إلى ما هو أبعد من النماذج اللغوية الكبيرة التأسيسية. بالتزامن مع الأخبار المتعلقة بكفاءات التدريب الخاصة بها، كشفت الشركة عن ترقيات كبيرة لمجموعتها من حلول الذكاء الاصطناعي المصممة خصيصًا لقطاع الرعاية الصحية. تستفيد هذه المبادرة من نموذج ذكاء اصطناعي متميز ومطور ذاتيًا يركز على الرعاية الصحية.

تتميز الحلول التي تمت ترقيتها بقدرات متعددة الوسائط (معالجة أنواع بيانات مختلفة مثل النصوص والصور وربما بيانات طبية أخرى) واستدلال طبي متطور. يتم دمجها في ما تصفه Ant بأنه “أجهزة الكل في واحد”، ويفترض أنها أجهزة أو منصات مصممة للإعدادات السريرية أو إدارة الصحة.

بينما تبدو منفصلة عن أخبار Ling-Plus-Base LLM، هناك اتصال أساسي محتمل. يمكن للقدرة على تدريب نماذج الذكاء الاصطناعي القوية بتكلفة أكثر فعالية، ربما باستخدام مزيج من الأجهزة بما في ذلك الخيارات المحلية، أن تدعم الجدوى الاقتصادية لتطوير ونشر نماذج متخصصة لقطاعات مثل الرعاية الصحية. يتيح خفض التكاليف التأسيسية لتطوير الذكاء الاصطناعي توجيه الموارد إلى التطبيقات الخاصة بالمجال، مما قد يسرع من طرح أدوات الذكاء الاصطناعي العملية في الصناعات الحيوية. تؤكد هذه الدفعة في مجال الرعاية الصحية طموح Ant لتطبيق خبرتها في الذكاء الاصطناعي على نطاق واسع، متجاوزة جذورها في التكنولوجيا المالية.

الآثار المترتبة على المستقبل: مفترق طرق في الذكاء الاصطناعي؟

يحمل نجاح Ant Group في تدريب نموذج MoE واسع النطاق باستخدام وحدات معالجة رسومات غير تابعة لـ Nvidia، ومن المحتمل أن تكون محلية، آثارًا كبيرة:

  • التحقق من صحة الرقائق المحلية: إنه بمثابة دليل حاسم على جدوى مسرعات الذكاء الاصطناعي المصممة في الصين مثل Ascend من Huawei، مما قد يعزز تبنيها داخل الصين.
  • المشهد التنافسي: يوضح أن الشركات الصينية يمكن أن تظل قادرة على المنافسة في تطوير الذكاء الاصطناعي المتطور على الرغم من القيود، مستفيدة من الابتكار المعماري والبرمجي.
  • ديناميكيات التكلفة: يسلط تخفيض التكلفة بنسبة 20% الضوء على ميزة تنافسية محتملة للشركات القادرة على استخدام الأجهزة البديلة بفعالية، مما قد يؤثر على تسعير الذكاء الاصطناعي العالمي وإمكانية الوصول إليه.
  • موقف Nvidia: بينما تظل Nvidia مهيمنة عالميًا، يؤكد هذا الاتجاه التحديات التي تواجهها في السوق الصينية الهامة بسبب اللوائح وظهور المنافسين المحليين. قد يسرع ذلك من تطوير Nvidia لرقائق متوافقة مع التصدير مصممة خصيصًا للصين، ولكنه يثبت أيضًا صحة المسار البديل.
  • تشعب تكنولوجي؟: على المدى الطويل، يمكن أن يؤدي استمرار التباعد في الوصول إلى الأجهزة وتحسين البرامج إلى أنظمة بيئية للذكاء الاصطناعي متميزة جزئيًا، مع نماذج وأدوات محسّنة لسيليكون أساسي مختلف.

تعتبر الرحلة التي قام بها فريق Ling التابع لـ Ant Group رمزًا للموارد التي تحفزها القيود الجيوسياسية. من خلال الجمع بذكاء بين بنيات النماذج المتقدمة مثل MoE مع الاستعداد للتحسين والاستفادة من الأجهزة المحلية المتاحة، فقد رسموا مسارًا يضمن استمرار التقدم في المجال الحيوي للذكاء الاصطناعي، مما قد يعيد تشكيل هياكل التكلفة والتبعيات الاستراتيجية التي تحدد الصناعة. إنه دليل على فكرة أن الابتكار غالبًا ما يزدهر بشكل أكثر حيوية تحت الضغط.