استراتيجية Nvidia ثنائية لطلبات استنتاج الذكاء الاصطناعي

تهدف Nvidia إلى الموجة المستقبلية من الذكاء الاصطناعي القائم على الوكلاء، وهو مجال يعد بفرض مطالب غير مسبوقة على قدرات الاستنتاج. لمواجهة هذا التحدي، كشفت Nvidia عن استراتيجية شاملة تشمل ابتكارات في كل من الأجهزة والبرامج.

استراتيجية الأجهزة: التوسع التصاعدي والأفقي

يكمن في قلب استراتيجية الأجهزة الخاصة بـ Nvidia السعي الدؤوب إلى وحدات معالجة الرسوميات (GPU) الأقوى باستمرار. تتبنى الشركة نهجًا ذا شقين، حيث تركز أولاً على التوسع التصاعدي، ثم على التوسع الأفقي. الهدف ليس فقط تطوير جهاز كمبيوتر فائق للذكاء الاصطناعي فائق القوة في حامل واحد، ولكن إنشاء نظام بيئي كامل من الحوامل المترابطة، لتشكيل مجمع كمبيوتر فائق ضخم للذكاء الاصطناعي. تم تصميم هذا النهج ‘لمصنع الذكاء الاصطناعي’ لتوفير القوة الحسابية المطلوبة لأكثر أحمال عمل الذكاء الاصطناعي تطلبًا.

يعد جهاز الكمبيوتر الفائق للذكاء الاصطناعي الجديد المثبت على حامل Blackwell Ultra، والذي تم الكشف عنه في مؤتمر GTC الأخير، مثالًا على هذه الاستراتيجية. تم تصميم Blackwell Ultra لتسريع كل من التدريب والاستنتاج على نطاق واسع لوقت الاختبار، ويستفيد من بنية Blackwell الحالية ولكنه يشتمل على GB300 NVL72 الأكثر قوة. يتميز هذا التكوين بـ 72 وحدة معالجة رسوميات Blackwell Ultra متصلة عبر NVLink، مما يوفر قوة حسابية مذهلة تبلغ 1.1 إكسافلوب من دقة FP4. يتميز GB300 NVL72 بأداء ذكاء اصطناعي يزيد بمقدار 1.5 مرة عن GB200 NVL72. يوفر نظام DGS GB300 الفردي 15 إكسافلوب من الحوسبة. من المقرر إطلاق Blackwell Ultra في النصف الثاني من عام 2025، وسيتم دعمه من خلال مجموعة واسعة من موردي معدات الخوادم، بما في ذلك Cisco و Dell و HPE و Lenovo و ASUS و Foxconn و Gigabyte و Pegatron و Quanta. بالإضافة إلى ذلك، سيوفر موفرو الخدمات السحابية مثل AWS و GCP و Azure خدمات الحوسبة المستندة إلى Blackwell Ultra.

بالإضافة إلى أنظمة مصنع الذكاء الاصطناعي ذات مستوى محطة توليد الطاقة هذه، قدمت Nvidia أيضًا خطًا جديدًا من أجهزة الكمبيوتر التي تستهدف احتياجات الاستنتاج داخل المؤسسات. وتشمل هذه أجهزة الكمبيوتر الشخصية DGX Spark و DGX Station AI. يوفر DGX Spark، الذي يشبه Mac mini في الحجم، ما يصل إلى 1 بيتا فلوب من قوة الحوسبة.

لوضع هذا في منظوره الصحيح، يوفر الكمبيوتر العملاق Taiwania 3، الذي تم إطلاقه في عام 2021 بأكثر من 50000 نواة، 2.7 بيتا فلوب فقط من الأداء. في أربع سنوات فقط، تجاوزت القوة الحسابية لثلاثة أجهزة كمبيوتر شخصية للذكاء الاصطناعي بحجم سطح المكتب أداء Taiwania 3. تم تصميم أجهزة الكمبيوتر الشخصية الجديدة للذكاء الاصطناعي، التي يبلغ سعرها 3999 دولارًا (حوالي 130 ألف دولار تايواني) لتكوين ذاكرة 128 جيجابايت، لتشغيل احتياجات الذكاء الاصطناعي الداخلية المستقبلية داخل المؤسسات، والعمل كمصانع صغيرة للذكاء الاصطناعي أو حتى العمل في بيئات الذكاء الاصطناعي المتطورة.

خارطة الطريق المستقبلية: Vera Rubin وما بعدها

بالنظر إلى المستقبل، أوضح الرئيس التنفيذي لشركة Nvidia، جنسن هوانغ، خارطة طريق المنتج للعامين المقبلين. في النصف الثاني من عام 2026، تخطط الشركة لإطلاق Vera Rubin NVL144، التي سميت على اسم عالمة الفلك الأمريكية التي اكتشفت المادة المظلمة. سيوفر Vera Rubin NVL144 3.3 أضعاف أداء GB300 NVL72، مع زيادة سعة الذاكرة وعرض النطاق الترددي وسرعات NVLink بأكثر من 1.6 مرة. في النصف الثاني من عام 2027، ستطلق Nvidia Rubin Ultra NVL576، الذي سيوفر 14 ضعف أداء GB300 NVL72، مع سعة ذاكرة محسنة بشكل كبير وسرعات عرض النطاق الترددي عبر NVLink7 و CX9.

بعد بنية Vera Rubin، ستُسمى بنية Nvidia من الجيل التالي على اسم الفيزيائي الأمريكي الشهير ريتشارد فاينمان، المعروف بعمله في التحقيق في كارثة مكوك الفضاء تشالنجر.

استراتيجية البرمجيات: Nvidia Dynamo

لطالما أولت Nvidia تركيزًا قويًا على البرامج، معتبرةً أنها أكثر أهمية من الأجهزة. يمتد هذا التركيز الاستراتيجي إلى مبادرات مصنع الذكاء الاصطناعي التابع للشركة.

بالإضافة إلى توسيع مكتبة تسريع الذكاء الاصطناعي CUDA-X إلى مجالات مختلفة وتطوير مكتبات تسريع متخصصة، قدمت Nvidia Nvidia Dynamo، وهو نظام تشغيل جديد لمصنع الذكاء الاصطناعي. والجدير بالذكر أن Nvidia قد فتحت مصدر نظام التشغيل هذا.

Nvidia Dynamo هو إطار عمل مفتوح المصدر لخدمة الاستنتاج مصمم لبناء منصات توفر خدمات استنتاج LLM. يمكن نشره في بيئات K8s واستخدامه لنشر وإدارة مهام استنتاج الذكاء الاصطناعي واسعة النطاق. تخطط Nvidia لدمج Dynamo في إطار عمل الخدمات الصغيرة NIM الخاص بها، مما يجعله مكونًا من إطار عمل Nvidia AI Enterprise.

Dynamo هو المنتج من الجيل التالي لمنصة خادم الاستنتاج مفتوحة المصدر الحالية من Nvidia، Triton. ميزته الرئيسية هي تقسيم مهام استنتاج LLM إلى مرحلتين، مما يسمح باستخدام وحدات معالجة الرسوميات (GPU) بشكل أكثر مرونة وكفاءة لتحسين معالجة الاستنتاج وتحسين الكفاءة وزيادة استخدام GPU إلى أقصى حد. يمكن لـ Dynamo تخصيص وحدات معالجة الرسوميات (GPU) ديناميكيًا بناءً على متطلبات الاستنتاج وتسريع نقل البيانات غير المتزامن بين وحدات معالجة الرسوميات (GPU)، مما يقلل من أوقات استجابة استنتاج النموذج.

تقوم نماذج GAI المستندة إلى المحولات بتقسيم الاستنتاج إلى مرحلتين: Prefill (الإدخال المسبق)، الذي يحول بيانات الإدخال إلى رموز للتخزين، و Decode، وهي عملية تسلسلية تولد الرمز المميز التالي بناءً على الرمز السابق.

يقوم استنتاج LLM التقليدي بتعيين مهام Prefill و Decode إلى نفس وحدة معالجة الرسوميات (GPU). ومع ذلك، نظرًا للخصائص الحسابية المختلفة لهذه المهام، يقوم Dynamo بتقسيمها، وتعيين موارد GPU وفقًا لذلك وتعديل التخصيص ديناميكيًا بناءً على خصائص المهمة. هذا يحسن أداء مجموعة GPU.

تُظهر اختبارات Nvidia أن استخدام Dynamo مع نموذج DeepSeek-R1 ذي 671 مليار معلمة على GB200 NVL72 يمكن أن يحسن أداء الاستنتاج بمقدار 30 مرة. يمكن أيضًا تحسين الأداء على Llama 70B الذي يعمل على وحدات معالجة الرسوميات Hopper بأكثر من الضعف.

تعد إدارة مهام الاستنتاج أمرًا معقدًا نظرًا للطبيعة المعقدة لحساب الاستنتاج وتنوع نماذج المعالجة المتوازية. أكد هوانغ أن Nvidia أطلقت إطار عمل Dynamo لتوفير نظام تشغيل لمصانع الذكاء الاصطناعي.

تعتمد مراكز البيانات التقليدية على أنظمة تشغيل مثل VMware لتنسيق التطبيقات المختلفة على موارد تكنولوجيا المعلومات المؤسسية. وكلاء الذكاء الاصطناعي هم تطبيقات المستقبل، وتتطلب مصانع الذكاء الاصطناعي Dynamo، وليس VMware.

يكشف تسمية هوانغ لنظام التشغيل الجديد لمصنع الذكاء الاصطناعي على اسم Dynamo، وهو محرك أثار الثورة الصناعية، عن توقعاته وطموحاته للمنصة.