إعادة التفكير في رقائق الذكاء الاصطناعي والبنية التحتية

يشير التقدم السريع في تكنولوجيا الذكاء الاصطناعي، والذي يتضح في تطورات DeepSeek، إلى ضرورة إعادة تقييم أساسية لكيفية بناء مراكز البيانات والرقائق والأنظمة لتوفير قوة الحوسبة الضرورية. لقد أدت الابتكارات الهندسية التي قدمتها DeepSeek إلى تقليل تكاليف حوسبة الذكاء الاصطناعي بشكل كبير، مما أثار نقاشًا أوسع حول مستقبل البنية التحتية للذكاء الاصطناعي.

على الرغم من أن DeepSeek قد لا تكون قد وسعت حدود تكنولوجيا الذكاء الاصطناعي بشكل كبير، إلا أن تأثيرها على سوق الذكاء الاصطناعي عميق. اكتسبت تقنيات مثل Mixture of Experts (MoE)، و Multi-Layer Attention (MLA)، و Multi-Token Prediction (MTP) مكانة بارزة جنبًا إلى جنب مع DeepSeek. على الرغم من أن DeepSeek لم تكن رائدة في جميع هذه التقنيات، إلا أن تطبيقها الناجح قد حفز اعتمادًا واسع النطاق. أصبحت MLA، على وجه الخصوص، نقطة محورية للنقاش عبر مختلف المنصات، من الأجهزة الطرفية إلى الحوسبة السحابية.

MLA وتحدي الابتكار في الخوارزميات

أشار إيلاد راز، الرئيس التنفيذي لشركة NextSilicon، مؤخرًا إلى أنه على الرغم من أن MLA يحسن كفاءة الذاكرة، إلا أنه قد يزيد أيضًا من حجم العمل للمطورين ويعقد تطبيق الذكاء الاصطناعي في بيئات الإنتاج. قد يحتاج مستخدمو وحدة معالجة الرسومات (GPU) إلى المشاركة في تحسين ‘الكود اليدوي’ لـ MLA. يوضح هذا المثال الحاجة إلى إعادة التفكير في تنفيذ رقائق الذكاء الاصطناعي وهياكل البنية التحتية في حقبة ما بعد DeepSeek.

لفهم أهمية MLA، من الضروري فهم المفاهيم الأساسية لنماذج اللغة الكبيرة (LLMs). عند إنشاء استجابات لمدخلات المستخدم، تعتمد LLMs بشكل كبير على متجهات KV - المفاتيح والقيم - التي تمكن النموذج من التركيز على البيانات ذات الصلة. في آليات الانتباه، يقارن النموذج الطلبات الجديدة بالمفاتيح لتحديد المحتوى الأكثر صلة.

يستخدم إيلاد راز تشبيهًا بالكتاب، حيث يكون المفتاح مثل ‘عناوين فصول الكتاب، مما يشير إلى موضوع كل جزء، مع كون القيمة عبارة عن ملخصات أكثر تفصيلاً تحت هذه العناوين. لذلك عندما يضع المستخدم طلبًا، فإنه يطلب مصطلح بحث للمساعدة في إنشاء إجابة. إنه يسأل، ‘في إطار هذه القصة، أي فصل هو الأكثر صلة؟’’

تضغط MLA عناوين الفصول (المفاتيح) والملخصات (القيم)، مما يسرع عملية إيجاد الإجابات ويعزز الكفاءة. في النهاية، تساعد MLA DeepSeek على تقليل استخدام الذاكرة بنسبة 5-13%. يمكن العثور على معلومات أكثر تفصيلاً في ورقة DeepSeek الرسمية. حتى أن مؤتمر المطورين MediaTek ناقش دعم MLA في رقائق Dimensity للهواتف المحمولة، مما يؤكد تأثير DeepSeek الواسع.

تمثل تقنيات مثل MLA ابتكارات نموذجية في الخوارزميات في عصر الذكاء الاصطناعي. ومع ذلك، فإن الوتيرة السريعة لتطوير تكنولوجيا الذكاء الاصطناعي تؤدي إلى تدفق مستمر من الابتكارات، مما يخلق بدوره تحديات جديدة، خاصة عندما يتم تصميم هذه الابتكارات خصيصًا لمنصات معينة. في حالة MLA، يحتاج مستخدمو وحدة معالجة الرسومات (GPU) من غير NVIDIA إلى ترميز يدوي إضافي للاستفادة من التكنولوجيا.

في حين أن تقنيات DeepSeek تثبت الابتكار وقيمة عصر الذكاء الاصطناعي، يجب أن تتكيف الأجهزة والبرامج مع هذه الابتكارات. وفقًا لإيلاد راز، يجب أن يقلل هذا التكيف من التعقيد للمطورين وبيئات الإنتاج. وإلا، فإن تكلفة كل ابتكار تصبح باهظة.

ثم يصبح السؤال: ‘ماذا يحدث إذا لم تتم ترجمة ابتكار الخوارزمية التالي بشكل جيد وببساطة إلى الهياكل الحالية؟’

الصراع بين تصميم الرقائق وابتكار الخوارزميات

على مدار السنوات القليلة الماضية، ذكرت شركات تصنيع رقائق الذكاء الاصطناعي باستمرار أن تصميم رقائق الذكاء الاصطناعي الكبيرة يستغرق ما لا يقل عن 1-2 سنوات. هذا يعني أن تصميم الرقائق يجب أن يبدأ قبل وقت طويل من إطلاق الرقاقة في السوق. بالنظر إلى التقدم السريع في تكنولوجيا الذكاء الاصطناعي، يجب أن يكون تصميم رقائق الذكاء الاصطناعي استشرافيًا. سيؤدي التركيز فقط على الاحتياجات الحالية إلى رقائق ذكاء اصطناعي قديمة لا يمكنها التكيف مع أحدث ابتكارات التطبيقات.

يحدث ابتكار خوارزمية تطبيق الذكاء الاصطناعي الآن على أساس أسبوعي. كما ذكرنا في المقالات السابقة، فإن قوة الحوسبة المطلوبة لنماذج الذكاء الاصطناعي لتحقيق نفس القدرات تنخفض بمقدار 4-10 مرات سنويًا. انخفضت تكلفة الاستدلال لنماذج الذكاء الاصطناعي التي تحقق جودة مماثلة لـ GPT-3 بمقدار 1200 مرة في السنوات الثلاث الماضية. حاليًا، يمكن للنماذج التي تحتوي على 2 مليار معلمة تحقيق نفس مستوى GPT-3 ذي 170 مليار معلمة في الماضي. يمثل هذا الابتكار السريع في الطبقات العليا من مكدس تكنولوجيا الذكاء الاصطناعي تحديات كبيرة لتخطيط وتصميم بنية الرقائق التقليدية.

يعتقد إيلاد راز أن الصناعة بحاجة إلى الاعتراف بابتكارات مثل DeepSeek MLA باعتبارها القاعدة لتكنولوجيا الذكاء الاصطناعي. ‘لا تحتاج الحوسبة من الجيل التالي إلى التحسين لأعباء العمل الحالية فحسب، بل أيضًا استيعاب الاختراقات المستقبلية.’ لا ينطبق هذا المنظور على صناعة الرقائق فحسب، بل على البنية التحتية بأكملها ذات المستوى المتوسط إلى الأدنى من مكدس تكنولوجيا الذكاء الاصطناعي.

قال إيلاد راز: ‘لقد أظهرت DeepSeek وغيرها من الابتكارات التقدم السريع في ابتكار الخوارزميات’. ‘يحتاج الباحثون وعلماء البيانات إلى أدوات أكثر تنوعًا ومرونة لدفع رؤى واكتشافات جديدة. يحتاج السوق إلى منصات حوسبة أجهزة ذكية ومحددة بالبرمجيات تتيح للعملاء ‘استبدال’ حلول التسريع الحالية، مع تمكين المطورين من نقل عملهم دون ألم.’

لمعالجة هذا الوضع، يجب على الصناعة تصميم بنية تحتية حوسبية أكثر ذكاءً وقابلة للتكيف ومرونة.

غالبًا ما تكون المرونة والكفاءة أهدافًا متعارضة. تتمتع وحدات المعالجة المركزية بمرونة عالية ولكنها تتمتع بكفاءة حوسبة متوازية أقل بكثير من وحدات معالجة الرسومات (GPUs). قد تكون وحدات معالجة الرسومات (GPUs)، بفضل قابليتها للبرمجة، أقل كفاءة من رقائق ASIC المخصصة للذكاء الاصطناعي.

أشار إيلاد راز إلى أن NVIDIA تتوقع أن تصل رفوف مراكز بيانات الذكاء الاصطناعي إلى 600 كيلو وات من استهلاك الطاقة قريبًا. في السياق، يبلغ الحد الأقصى لاستهلاك الطاقة في 75٪ من مراكز بيانات المؤسسات القياسية 15-20 كيلو وات فقط لكل رف. بغض النظر عن مكاسب الكفاءة المحتملة في الذكاء الاصطناعي، فإن هذا يمثل تحديًا كبيرًا لمراكز البيانات التي تبني أنظمة البنية التحتية للحوسبة.

من وجهة نظر إيلاد راز، قد لا تكون وحدات معالجة الرسومات (GPUs) ومسرعات الذكاء الاصطناعي الحالية كافية لتلبية المطالب المحتملة للذكاء الاصطناعي والحوسبة عالية الأداء (HPC). ‘إذا لم نعيد التفكير بشكل أساسي في كيفية تحسين كفاءة الحوسبة، فإن الصناعة تخاطر بالوصول إلى حدود مادية واقتصادية. سيكون لهذا الجدار أيضًا آثار جانبية، مما يحد من الوصول إلى الذكاء الاصطناعي و HPC لمزيد من المؤسسات، مما يعيق الابتكار حتى مع التقدم في الخوارزميات أو هياكلGPU التقليدية.’

توصيات ومتطلبات البنية التحتية للحوسبة من الجيل التالي

بناءً على هذه الملاحظات، اقترح إيلاد راز ‘أربع ركائز’ لتحديد البنية التحتية للحوسبة من الجيل التالي:

(1) قابلية الاستبدال بالتوصيل والتشغيل: ‘لقد أظهر التاريخ أن عمليات الانتقال المعقدة في البنية، مثل الانتقال من وحدة المعالجة المركزية إلى وحدة معالجة الرسومات (GPU)، يمكن أن تستغرق عقودًا لتنفيذها بالكامل. لذلك، يجب أن تدعم هياكل الحوسبة من الجيل التالي الانتقال السلس.’ بالنسبة لقابلية الاستبدال ‘بالتوصيل والتشغيل’، يقترح إيلاد راز أن تتعلم هياكل الحوسبة الجديدة من أنظمة x86 و Arm، وتحقق اعتمادًا أوسع من خلال التوافق مع الإصدارات السابقة.

يجب أن تتجنب التصميمات الحديثة أيضًا مطالبة المطورين بإعادة كتابة كميات كبيرة من التعليمات البرمجية أو إنشاء تبعيات على موردين محددين. ‘على سبيل المثال، يجب توحيد دعم التقنيات الناشئة مثل MLA، بدلاً من طلب تعديلات يدوية إضافية كما هو الحال مع وحدات معالجة الرسومات (GPUs) غير NVIDIA. يجب أن تفهم أنظمة الجيل التالي وتحسين أعباء العمل الجديدة خارج الصندوق، دون الحاجة إلى تعديلات يدوية للتعليمات البرمجية أو تعديلات كبيرة على واجهة برمجة التطبيقات (API).’

(2) تحسين الأداء القابل للتكيف في الوقت الفعلي: يعتقد إيلاد راز أن الصناعة يجب أن تبتعد عن المسرعات ذات الوظائف الثابتة. ‘تحتاج الصناعة إلى البناء على أسس أجهزة ذكية ومحددة بالبرمجيات يمكنها التحسين الذاتي ديناميكيًا في وقت التشغيل.’

‘من خلال التعلم المستمر من أعباء العمل، يمكن للأنظمة المستقبلية تعديل نفسها في الوقت الفعلي، مما يزيد من الاستخدام والأداء المستدام، بغض النظر عن عبء عمل التطبيق المحدد. تعني هذه القدرة على التكيف الديناميكي أن البنية التحتية يمكن أن توفر كفاءة متسقة في سيناريوهات العالم الحقيقي، سواء كانت تقوم بتشغيل عمليات محاكاة HPC أو نماذج الذكاء الاصطناعي المعقدة أو عمليات قاعدة بيانات المتجهات.’

(3) كفاءة قابلة للتطوير: ‘من خلال فصل الأجهزة والبرامج والتركيز على التحسين الذكي في الوقت الفعلي، يجب أن تحقق الأنظمة المستقبلية استخدامًا أعلى واستهلاكًا إجماليًا أقل للطاقة. سيجعل هذا البنية التحتية أكثر فعالية من حيث التكلفة وقابلة للتطوير لتلبية المتطلبات المتطورة لأعباء العمل الجديدة.’

(4) تصميم المستقبل: تتوافق هذه النقطة مع المتطلبات الاستشرافية للبنية التحتية للذكاء الاصطناعي، وخاصة تصميم الرقائق. ‘قد تكون خوارزميات اليوم المتطورة قديمة غدًا.’ ‘سواء كانت الشبكات العصبية للذكاء الاصطناعي أو نماذج LLM القائمة على المحولات، يجب أن تكون البنية التحتية للحوسبة من الجيل التالي قابلة للتكيف، مما يضمن بقاء استثمارات المؤسسات في التكنولوجيا مرنة لسنوات قادمة.’

تقدم هذه الاقتراحات منظورًا مثاليًا نسبيًا ولكنه مثير للتفكير. يجب أخذ منهجية التوجيه هذه في الاعتبار للتطوير المستقبلي لتقنيات الذكاء الاصطناعي و HPC، حتى لو ظلت بعض التناقضات المتأصلة قضايا قائمة منذ فترة طويلة في الصناعة. ‘لإطلاق العنان لإمكانات الذكاء الاصطناعي و HPC وأعباء العمل الأخرى كثيفة الحوسبة والبيانات في المستقبل، يجب علينا إعادة التفكير في البنية التحتية واحتضان الحلول الديناميكية والذكية لدعم الابتكار والرواد.’