إعادة التفكير في كفاءة الذكاء الاصطناعي

لقد أظهر التقدم المستمر في تطوير الذكاء الاصطناعي باستمرار أن النماذج الأكبر تميل إلى أن تكون أكثر ذكاءً، ولكن متطلباتها التشغيلية تتصاعد أيضًا. وهذا يخلق تحديًا كبيرًا، خاصة في المناطق ذات الوصول المحدود إلى رقائق الذكاء الاصطناعي المتقدمة. ومع ذلك، وبغض النظر عن القيود الجغرافية، هناك اتجاه متزايد بين مطوري النماذج لتبني Architectures of Experts (MoE) إلى جانب تقنيات الضغط المبتكرة. والهدف؟ لتقليل الموارد الحسابية اللازمة لنشر وتشغيل هذه النماذج اللغوية الكبيرة الموسعة (LLMs) بشكل كبير. بينما نقترب من الذكرى السنوية الثالثة لازدهار الذكاء الاصطناعي التوليدي الذي أشعله ChatGPT، بدأت الصناعة أخيرًا في التفكير بجدية في الآثار الاقتصادية للحفاظ على تشغيل هذه النماذج المتعطشة للطاقة.

في حين أن نماذج MoE، مثل تلك الخاصة بـ Mistral AI، موجودة منذ بعض الوقت، إلا أن اختراقها الحقيقي حدث في العام الماضي. لقد شهدنا طفرة في LLMs مفتوحة المصدر الجديدة من عمالقة التكنولوجيا مثل Microsoft وGoogle وIBM وMeta وDeepSeek وAlibaba، وجميعهم يستفيدون من شكل من أشكال بنية MoE. الإغراء واضح ومباشر: توفر Architectures of Experts بديلاً أكثر كفاءة بكثير لبنى النموذج «الكثيفة» التقليدية.

التغلب على قيود الذاكرة

يعود أساس بنية MoE إلى أوائل التسعينيات، مع نشر «خلطات التكيف من الخبراء المحليين». تدور الفكرة الأساسية حول توزيع المهام على نموذج فرعي متخصص واحد أو أكثر أو «خبراء»، بدلاً من الاعتماد على نموذج واحد ضخم تم تدريبه على نطاق واسع من البيانات.

من الناحية النظرية، يمكن تحسين كل خبير بعناية لمجال معين، من الترميز والرياضيات إلى الكتابة الإبداعية. ومع ذلك، تجدر الإشارة إلى أن معظم مطوري النماذج يقدمون تفاصيل محدودة حول الخبراء المحددين داخل نماذج MoE الخاصة بهم، ويختلف عدد الخبراء من نموذج إلى آخر. والأهم من ذلك، أنه يتم تنشيط جزء صغير فقط من النموذج الإجمالي في أي وقت.

ضع في اعتبارك نموذج DeepSeek V3، الذي يتكون من 256 خبيرًا موجهًا جنبًا إلى جنب مع خبير مشترك. أثناء معالجة الرمز المميز، يتم تنشيط ثمانية خبراء موجهين فقط، بالإضافة إلى الخبير المشترك. يعني هذا التنشيط الانتقائي أن نماذج MoE قد لا تحقق دائمًا نفس مستوى الجودة الذي تحققه النماذج الكثيفة ذات الحجم المماثل. على سبيل المثال، كان أداء نموذج Alibaba Qwen3-30B-A3B MoE أقل باستمرار من أداء نموذج Qwen3-32B الكثيف في اختبارات Alibaba المعيارية.

ومع ذلك، من الضروري وضع هذا الانخفاض الطفيف في الجودة في سياق المكاسب الكبيرة في الكفاءة التي توفرها Architectures of Experts. يؤدي تقليل المعلمات النشطة إلى متطلبات عرض نطاق الذاكرة التي لم تعد تتناسب بشكل مباشر مع السعة اللازمة لتخزين أوزان النموذج. بشكل أساسي، في حين أن نماذج MoE قد لا تزال تتطلب ذاكرة كبيرة، فإنها لا تحتاج بالضرورة إلى أن تكون أسرع ذاكرة ذات نطاق ترددي عالي وأكثرها تكلفة (HBM).

دعنا نوضح هذا بمقارنة. ضع في اعتبارك أكبر نموذج «كثيف» لـ Meta، Llama 3.1 405B، وLlama 4 Maverick، وهو نموذج مشابه يستخدم بنية MoE مع 17 مليار معلمة نشطة. في حين أن العديد من العوامل، مثل حجم الدفعة وأداء الفاصلة العائمة والتخزين المؤقت للمفتاح والقيمة، تساهم في الأداء الواقعي، يمكننا تقريب الحد الأدنى لمتطلبات النطاق الترددي عن طريق ضرب حجم النموذج بالجيجابايت بدقة معينة (بايت واحد لكل معلمة للنماذج 8 بت) بواسطة الرموز المستهدفة في الثانية بحجم دفعة واحد.

يتطلب تشغيل إصدار كمي 8 بت من Llama 3.1 405B أكثر من 405 جيجابايت من vRAM وما لا يقل عن 20 تيرابايت/ثانية من عرض نطاق الذاكرة لإنشاء نص بمعدل 50 رمزًا في الثانية. توفر أنظمة Nvidia المستندة إلى HGX H100، التي كانت تتطلب حتى وقت قريب أسعارًا تبلغ 300000 دولار أو أكثر، 640 جيجابايت فقط من HBM3 وحوالي 26.8 تيرابايت/ثانية من النطاق الترددي المجمع. كان تشغيل النموذج الكامل 16 بت سيتطلب ما لا يقل عن اثنين من هذه الأنظمة.

في المقابل، يتطلب Llama 4 Maverick، مع استهلاك نفس المقدار من الذاكرة، أقل من 1 تيرابايت/ثانية من النطاق الترددي لتحقيق أداء مماثل. وذلك لأن 17 مليار معلمة فقط من خبراء النموذج تشارك بنشاط في إنشاء الإخراج. وهذا يترجم إلى زيادة بمقدار رتبة في سرعة إنشاء النص على نفس الأجهزة.

على العكس من ذلك، إذا لم يكن الأداء المطلق مصدر قلق أساسي، فيمكن الآن تشغيل العديد من هذه النماذج على ذاكرة GDDR6 أو GDDR7 أو حتى DDR أرخص، وإن كانت أبطأ، كما هو موضح في أحدث وحدات Xeon من Intel.

تم تصميم خوادم RTX Pro الجديدة من Nvidia، التي تم الإعلان عنها في Computex، خصيصًا لهذا السيناريو بالذات. بدلاً من الاعتماد على HBM باهظ الثمن والمستهلك للطاقة والذي يتطلب تغليفًا متقدمًا، تم تجهيز كل وحدة من وحدات معالجة الرسوميات RTX Pro 6000 الثمانية في هذه الأنظمة بذاكرة GDDR7 تبلغ 96 جيجابايت، وهي نفس النوع الموجود في بطاقات الألعاب الحديثة.

توفر هذه الأنظمة ما يصل إلى 768 جيجابايت من vRAM و12.8 تيرابايت/ثانية من النطاق الترددي المجمع، وهو ما يزيد عن كافٍ لتشغيل Llama 4 Maverick بمئات الرموز في الثانية. على الرغم من أن Nvidia لم تكشف عن الأسعار، إلا أن إصدار محطة العمل من هذه البطاقات يباع بالتجزئة بحوالي 8500 دولار، مما يشير إلى أن هذه الخوادم يمكن أن يتم تسعيرها بأقل من نصف تكلفة HGX H100 المستخدم.

ومع ذلك، فإن MoE لا يعني نهاية وحدات معالجة الرسوميات المكدسة HBM. توقع أن تتطلب Llama 4 Behemoth، على افتراض أنه سيتم شحنها على الإطلاق، رفًا كاملاً من وحدات معالجة الرسوميات نظرًا لحجمها الهائل.

في حين أن لديها ما يقرب من نصف المعلمات النشطة مثل Llama 3.1 405B، إلا أنها تفتخر بإجمالي 2 تريليون معلمة. حاليًا، لا يوجد خادم GPU تقليدي واحد في السوق يمكنه استيعاب النموذج الكامل 16 بت ونافذة سياق تبلغ مليون رمز أو أكثر.

نهضة وحدة المعالجة المركزية في الذكاء الاصطناعي؟

اعتمادًا على التطبيق المحدد، قد لا تكون وحدة معالجة الرسوميات ضرورية دائمًا، خاصة في المناطق التي يكون فيها الوصول إلى المعجلات المتطورة مقيدًا.

عرضت Intel منصة Xeon 6 ثنائية المقبس مجهزة بـ 8800 MT/s MCRDIMMs في أبريل. حقق هذا الإعداد إنتاجية قدرها 240 رمزًا في الثانية في Llama 4 Maverick، بمتوسط زمن انتقال للإخراج يقل عن 100 مللي ثانية لكل رمز.

بعبارات أبسط، يمكن لمنصة Xeon الحفاظ على 10 رموز في الثانية أو أكثر لكل مستخدم لما يقرب من 24 مستخدمًا متزامنًا.

لم تفصح Intel عن أرقام أداء المستخدم الفردي، لأنها أقل صلة بالسيناريوهات الواقعية. ومع ذلك، تشير التقديرات إلى ذروة أداء تبلغ حوالي 100 رمز في الثانية.

ومع ذلك، ما لم تكن هناك بدائل أفضل أو متطلبات محددة، فإن اقتصاديات الاستدلال المستند إلى وحدة المعالجة المركزية لا تزال تعتمد بشكل كبير على حالة الاستخدام.

تقليل الوزن: التقليم والتكميم

يمكن أن تقلل Architectures of Experts من عرض نطاق الذاكرة الضروري لخدمة النماذج الكبيرة، لكنها لا تقلل من مقدار الذاكرة المطلوبة لتخزين أوزانها. حتى بدقة 8 بت، يتطلب Llama 4 Maverick أكثر من 400 جيجابايت من الذاكرة للتشغيل، بغض النظر عن عدد المعلمات النشطة.

يمكن لتقنيات التقليم الناشئة وطرق التكميم أن تقلل هذا المطلب إلى النصف دون التضحية بالجودة.

كانت Nvidia من المؤيدين للتقليم، حيث أصدرت إصدارات مقلمة من نماذج Llama 3 الخاصة بـ Meta والتي تمت إزالة الأوزان الزائدة فيها.

كانت Nvidia أيضًا من بين الشركات الأولى التي دعمت أنواع بيانات الفاصلة العائمة 8 بت في عام 2022، ومرة أخرى مع فاصلة عائمة 4 بت مع إطلاق بنية Blackwell الخاصة بها في عام 2024. ومن المتوقع إطلاق أول رقائق AMD التي تقدم دعمًا أصليًا لـ FP4 قريبًا.

على الرغم من عدم كونه ضروريًا تمامًا، إلا أن دعم الأجهزة الأصلية لأنواع البيانات هذه يقلل بشكل عام من احتمالية مواجهة الاختناقات الحسابية، خاصة عند الخدمة على نطاق واسع.

لقد شهدنا عددًا متزايدًا من مطوري النماذج الذين يتبنون أنواع بيانات منخفضة الدقة، حيث تقدم Meta وMicrosoft وAlibaba إصدارات كمية 8 بت وحتى 4 بت من نماذجهم.

يتضمن التكميم ضغط أوزان النموذج من دقتها الأصلية، وعادةً ما تكون BF16، إلى FP8 أو INT4. وهذا يقلل بشكل فعال من عرض نطاق الذاكرة ومتطلبات السعة للنماذج بمقدار النصف أو حتى ثلاثة أرباع، على حساب بعض الجودة.

غالبًا ما تكون الخسائر المرتبطة بالانتقال من 16 بت إلى 8 بت ضئيلة، وقد بدأ العديد من بناة النماذج، بما في ذلك DeepSeek، في التدريب بدقة FP8 منذ البداية. ومع ذلك، فإن تقليل الدقة بأربعة بتات أخرى يمكن أن يؤدي إلى تدهور كبير في الجودة. وبالتالي، فإن العديد من أساليب التكميم بعد التدريب، مثل GGUF، لا تضغط على جميع الأوزان بالتساوي، وتترك بعضها بمستويات دقة أعلى لتقليل فقدان الجودة.

أظهرت Google مؤخرًا استخدام التدريب الواعي بالتكميم (QAT) لتقليل نماذج Gemma 3 الخاصة بها بعامل 4x مع الحفاظ على مستويات جودة قريبة من BF16 الأصلي.

يحاكي QAT عمليات منخفضة الدقة أثناء التدريب. من خلال تطبيق هذه التقنية لحوالي 5000 خطوة على نموذج غير مؤهل، تمكنت Google من تقليل الانخفاض في الحيرة، وهو مقياس لقياس الخسائر المتعلقة بالتكميم، بنسبة 54 بالمائة عند تحويله إلى INT4.

هناك نهج آخر قائم على QAT للتكميم، يُعرف باسم Bitnet، يهدف إلى مستويات دقة أقل، وضغط النماذج إلى 1.58 بت فقط، أو ما يقرب من عُشر حجمها الأصلي.

تضافر التقنيات

يوفر الجمع بين MoE والتكميم 4 بت مزايا كبيرة، خاصة عندما يكون عرض النطاق الترددي محدودًا.

بالنسبة للآخرين الذين ليس لديهم قيود على عرض النطاق الترددي، يمكن لأي من التقنيتين، سواء MoE أو التكميم، أن يقلل بشكل كبير من تكلفة المعدات والتشغيل لتشغيل نماذج أكبر وأكثر قوة؛ هذا على افتراض أنه يمكن العثور على خدمة قيمة لهم لأدائها.

وإن لم يكن الأمر كذلك، يمكنك على الأقل أن تطمئن إلى أنك لست وحدك - فقد كشف استطلاع حديث أجرته شركة IBM أن واحدًا فقط من بين كل أربعة عمليات نشر للذكاء الاصطناعي قد حقق العائد على الاستثمار الذي تم الوعد به.