تحول Nvidia الدلالي: كيف قد يضخم تعريف 'GPU' تكاليف البنية التحتية للذكاء الاصطناعي

تصحيح مثير للفضول: Nvidia تعيد التفكير في عدد وحدات معالجة الرسومات (GPU) الخاصة بها

في مسرح الابتكار عالي المخاطر لأشباه الموصلات، يُعد مؤتمر تكنولوجيا GPU (GTC) الخاص بشركة Nvidia بمثابة منصة رئيسية للكشف عن المستقبل. خلال آخر تجمع لها، وسط الضجة المتوقعة المحيطة بالتطورات في الذكاء الاصطناعي والحوسبة المسرعة، قدمت الشركة تغييرًا دقيقًا ولكنه قد يكون عميقًا - تعديل في كيفية تعريفها الأساسي لوحدة معالجة الرسومات (GPU). لم يكن هذا مجرد حاشية فنية؛ بل كان إعادة معايرة ذات آثار لاحقة كبيرة، لا سيما فيما يتعلق بهيكل التكلفة لنشر حلول الذكاء الاصطناعي المتقدمة من Nvidia.

تحدث الرئيس التنفيذي Jensen Huang بنفسه عن التغيير مباشرة من على منصة GTC، واصفًا إياه بأنه تصحيح لخطأ سابق يتعلق ببنية Blackwell المتطورة. قال: “أحد الأشياء التي أخطأت فيها: Blackwell هي في الواقع وحدتا GPU في شريحة Blackwell واحدة”. ركز المنطق المقدم على الوضوح والاتساق، لا سيما فيما يتعلق بقواعد التسمية المرتبطة بـ NVLink، تقنية التوصيل البيني عالية السرعة من Nvidia. وأوضح Huang قائلاً: “لقد أطلقنا على تلك الشريحة الواحدة اسم GPU وكان ذلك خطأ. والسبب في ذلك هو أنها تفسد كل مصطلحات NVLink”. في حين أن تبسيط أرقام الطرازات يوفر درجة من الترتيب المنطقي، فإن إعادة التعريف هذه تحمل وزنًا يتجاوز مجرد الدلالات اللفظية.

يكمن جوهر التحول في الانتقال من عد الوحدات المادية (تحديدًا، عامل الشكل SXM الشائع في الخوادم عالية الأداء) كوحدات GPU فردية إلى عد رقاقات السيليكون المميزة داخل تلك الوحدات. هذا التعديل الذي يبدو طفيفًا في المصطلحات لديه القدرة على تغيير المشهد المالي بشكل كبير للمؤسسات التي تستفيد من مجموعة برامج Nvidia AI Enterprise.

التأثير المالي المتتالي: مضاعفة تكاليف ترخيص AI Enterprise؟

Nvidia AI Enterprise هي منصة برمجية شاملة مصممة لتبسيط تطوير ونشر تطبيقات الذكاء الاصطناعي. وهي تشمل مجموعة واسعة من الأدوات والأطر، وبشكل حاسم، الوصول إلى Nvidia Inference Microservices (NIMs)، وهي حاويات محسّنة لتشغيل نماذج الذكاء الاصطناعي بكفاءة. كان نموذج الترخيص لهذه المجموعة القوية مرتبطًا تاريخيًا بشكل مباشر بعدد وحدات GPU المنشورة. تضع هياكل التسعير الحالية التكلفة عند حوالي 4500 دولار لكل GPU سنويًا، أو بسعر قائم على السحابة يبلغ 1 دولار لكل GPU في الساعة.

لنأخذ في الاعتبار الجيل السابق أو بعض تكوينات Blackwell. خادم Nvidia HGX B200، المجهز بثماني وحدات SXM، حيث كانت كل وحدة تضم ما كان يُعتبر آنذاك وحدة Blackwell GPU واحدة، يتطلب ثمانية تراخيص AI Enterprise. وقد ترجم هذا إلى تكلفة اشتراك برامج سنوية قدرها 36000 دولار (8 وحدات GPU * 4500 دولار/GPU) أو تكلفة سحابية بالساعة قدرها 8 دولارات (8 وحدات GPU * 1 دولار/GPU/ساعة).

الآن، لندخل إلى المشهد المحدد حديثًا مع أنظمة مثل HGX B300 NVL16. يتميز هذا النظام أيضًا بثماني وحدات SXM مادية. ومع ذلك، بموجب التعريف المنقح، تحسب Nvidia الآن كل شريحة سيليكون داخل هذه الوحدات كوحدة GPU فردية. نظرًا لأن كل وحدة في هذا التكوين المحدد تحتوي على شريحتين، فإن إجمالي عدد وحدات GPU لأغراض الترخيص يتضاعف فعليًا إلى 16 وحدة GPU (8 وحدات * شريحتين/وحدة).

بافتراض أن Nvidia تحافظ على هيكل التسعير الحالي لكل GPU لمجموعة AI Enterprise - وهي نقطة ذكرت الشركة أنها لم يتم الانتهاء منها بعد - فإن الآثار صارخة. قد يتطلب نظام HGX B300 المكون من ثماني وحدات الآن 16 ترخيصًا، مما يرفع تكلفة البرامج السنوية إلى 72000 دولار (16 وحدة GPU * 4500 دولار/GPU) أو 16 دولارًا في الساعة في السحابة. يمثل هذا زيادة بنسبة 100% في تكلفة اشتراك البرامج لكثافة أجهزة تبدو قابلة للمقارنة، ناتجة مباشرة عن التغيير في كيفية حساب “GPU”.

حكاية بنيتين: التوفيق بين التصريحات السابقة

يقدم هذا التحول في المصطلحات تباينًا مثيرًا للاهتمام مع توصيفات Nvidia السابقة لبنية Blackwell. عندما تم الكشف عن Blackwell في البداية، أثيرت نقاشات حول تصميمها، الذي يتضمن قطعًا متعددة من السيليكون (رقاقات) مرتبطة ببعضها البعض داخل حزمة معالج واحدة. في ذلك الوقت، عارضت Nvidia بنشاط وصف Blackwell باستخدام مصطلح بنية “chiplet” - وهو مصطلح شائع في الصناعة للتصميمات التي تستخدم رقاقات متعددة أصغر ومترابطة. بدلاً من ذلك، أكدت الشركة على منظور مختلف.

كما ورد خلال تغطية إطلاق Blackwell، جادلت Nvidia بأنها استخدمت “بنية رقاقة محدودة بشبكتين تعمل كوحدة GPU واحدة موحدة“. تشير هذه الصياغة بقوة إلى أنه على الرغم من الوجود المادي لشريحتين، إلا أنهما تعملان بشكل متماسك كوحدة معالجة منطقية واحدة. يبدو أن طريقة العد الجديدة المطبقة على تكوين B300 تبتعد عن مفهوم “وحدة GPU واحدة موحدة”، على الأقل من وجهة نظر ترخيص البرامج، وتعامل الرقاقات ككيانات متميزة. وهذا يثير تساؤلات حول ما إذا كان الوصف الأولي يركز بشكل أساسي على الإمكانات الوظيفية للأجهزة أم أن المنظور الاستراتيجي بشأن الترخيص قد تطور.

مكاسب الأداء مقابل الزيادات المحتملة في التكاليف: تقييم عرض B300

عند النظر في المضاعفة المحتملة لرسوم ترخيص البرامج لـ HGX B300 مقارنة بأسلافه مثل B200، من الأهمية بمكان فحص تحسينات الأداء التي تقدمها الأجهزة الأحدث. هل يقدم B300 ضعف قوة معالجة الذكاء الاصطناعي لتبرير المضاعفة المحتملة لتكاليف البرامج؟ تشير المواصفات إلى صورة أكثر دقة.

يتميز HGX B300 بالفعل بتحسينات:

  • زيادة سعة الذاكرة: يوفر حوالي 2.3 تيرابايت من ذاكرة النطاق الترددي العالي (HBM) لكل نظام، وهي قفزة كبيرة تبلغ حوالي 1.5 مرة مقارنة بـ 1.5 تيرابايت المتوفرة في B200. هذا أمر بالغ الأهمية للتعامل مع نماذج الذكاء الاصطناعي ومجموعات البيانات الأكبر حجمًا.
  • تحسين أداء الدقة المنخفضة: يُظهر B300 ارتفاعًا ملحوظًا في الأداء للحسابات التي تستخدم دقة النقطة العائمة 4 بت (FP4). يصل إنتاجه من FP4 إلى ما يزيد قليلاً عن 105 بيتافلوبس كثيفة لكل نظام، بزيادة تقارب 50% عن B200. هذا التسريع مفيد بشكل خاص لبعض مهام استدلال الذكاء الاصطناعي حيث تكون الدقة المنخفضة مقبولة.

ومع ذلك، فإن ميزة الأداء ليست شاملة لجميع أعباء العمل. بشكل حاسم، بالنسبة للمهام التي تتطلب حسابات النقطة العائمة عالية الدقة (مثل FP8 أو FP16 أو FP32)، لا يقدم B300 ميزة كبيرة في عمليات النقطة العائمة مقارنة بنظام B200 الأقدم. تعتمد العديد من مهام تدريب الذكاء الاصطناعي المعقدة والحوسبة العلمية بشكل كبير على تنسيقات الدقة الأعلى هذه.

لذلك، تواجه المؤسسات التي تقيّم B300 عملية حسابية معقدة. فهي تكتسب سعة ذاكرة كبيرة وتعزيزًا في أداء FP4، لكن المضاعفة المحتملة لتكاليف برامج AI Enterprise قد لا تقابلها مضاعفة مماثلة في الأداء لأعباء عملها المحددة ذات الدقة الأعلى. يصبح عرض القيمة معتمدًا بشكل كبير على طبيعة مهام الذكاء الاصطناعي التي يتم تشغيلها.

المبرر التقني: التوصيلات البينية والاستقلالية

ومن المثير للاهتمام أن منهجية عد الرقاقات الجديدة هذه لا تُطبق عالميًا على جميع أنظمة Blackwell الجديدة التي تم الإعلان عنها في GTC. على سبيل المثال، تستمر أنظمة GB300 NVL72 الأكثر قوة والمبردة بالسائل في الالتزام بالاتفاقية القديمة، حيث يتم حساب الحزمة بأكملها (التي تحتوي على شريحتين) كوحدة GPU واحدة لأغراض الترخيص. هذا الاختلاف يطرح السؤال: لماذا هذا الفرق؟

تقدم Nvidia مبررًا تقنيًا متجذرًا في تقنية التوصيل البيني داخل حزم GPU نفسها. وفقًا لـ Ian Buck، نائب رئيس Nvidia والمدير العام لقسم Hyperscale و HPC، يكمن التمييز في وجود أو عدم وجود توصيل بيني حاسم من شريحة إلى شريحة (C2C) يربط مباشرة بين الشريحتين داخل الحزمة.

  • تكوين HGX B300: حزم Blackwell المحددة المستخدمة في أنظمة HGX B300 المبردة بالهواء تفتقر إلى هذا التوصيل البيني المباشر C2C. كما أوضح Buck، تم اتخاذ هذا الخيار التصميمي لتحسين استهلاك الطاقة والإدارة الحرارية ضمن قيود الهيكل المبرد بالهواء. ومع ذلك، فإن النتيجة هي أن الشريحتين الموجودتين على وحدة B300 واحدة تعملان بدرجة أكبر من الاستقلالية. إذا احتاجت إحدى الرقاقات إلى الوصول إلى البيانات المخزنة في ذاكرة النطاق الترددي العالي المتصلة فعليًا بالشريحة الأخرى على نفس الوحدة، فلا يمكنها القيام بذلك مباشرة. بدلاً من ذلك، يجب أن ينتقل طلب البيانات خارج الحزمة، ويعبر شبكة NVLink الخارجية (على الأرجح عبر شريحة تبديل NVLink على اللوحة الأم للخادم)، ثم يعود إلى وحدة التحكم في الذاكرة الخاصة بالشريحة الأخرى. يعزز هذا المسار غير المباشر فكرة أنهما وحدتا معالجة متميزتان وظيفيًا تتشاركان حزمة مشتركة ولكنهما تتطلبان مسارات اتصال خارجية للمشاركة الكاملة للذاكرة. هذه الفصل، كما تجادل Nvidia، يبرر عدهما كوحدتي GPU متميزتين.

  • تكوين GB300 NVL72: في المقابل، تحتفظ حزم “Superchip” المستخدمة في أنظمة GB300 المتطورة بالتوصيل البيني عالي السرعة C2C. يتيح هذا الرابط المباشر للشريحتين داخل الحزمة الاتصال ومشاركة موارد الذاكرة بشكل أكثر كفاءة ومباشرة، دون الحاجة إلى المسار غير المباشر خارج الحزمة عبر مفتاح NVLink. نظرًا لأنهما يمكن أن تعملا بشكل أكثر تماسكًا وتشاركا الذاكرة بسلاسة، فإنهما تُعاملان، من منظور البرامج والترخيص، كوحدة GPU واحدة موحدة، بما يتماشى مع الوصف الأولي “الموحد” لبنية Blackwell.

يوفر هذا التمييز التقني أساسًا منطقيًا لطرق العد المختلفة. رقاقات B300 منفصلة وظيفيًا بشكل أكبر بسبب نقص رابط C2C، مما يضفي مصداقية على حساب وحدتي GPU. رقاقات GB300 مرتبطة بإحكام، مما يدعم حساب وحدة GPU واحدة.

نظرة إلى المستقبل: Vera Rubin تضع سابقة

بينما يمثل GB300 حاليًا استثناءً، يبدو أن نهج عد الرقاقات المعتمد لـ B300 يشير إلى اتجاه Nvidia المستقبلي. لقد أشارت الشركة بالفعل إلى أن منصتها من الجيل التالي، التي تحمل الاسم الرمزي Vera Rubin، والمقرر إصدارها لاحقًا، ستتبنى هذه التسمية الجديدة بالكامل.

تقدم اتفاقية التسمية نفسها دليلًا. يتم تعيين الأنظمة المستندة إلى بنية Rubin بأرقام عالية، مثل NVL144. يشير هذا التعيين بقوة إلى عد الرقاقات الفردية بدلاً من الوحدات. باتباع منطق B300، من المحتمل أن يتكون نظام NVL144 من عدد معين من الوحدات، تحتوي كل منها على رقاقات متعددة، ليصل المجموع إلى 144 شريحة GPU قابلة للعد لأغراض الترخيص والمواصفات.

هذا الاتجاه أكثر وضوحًا في خارطة طريق Nvidia لأواخر عام 2027 مع منصة Vera Rubin Ultra. تفتخر هذه المنصة بعدد مذهل يبلغ 576 وحدة GPU لكل رف. كما تم تحليله سابقًا، لم يتم تحقيق هذا الرقم المثير للإعجاب عن طريق حشو 576 وحدة مادية مميزة في رف واحد. بدلاً من ذلك، يعكس نموذج العد الجديد المطبق بشكل مضاعف. من المحتمل أن تتضمن البنية 144 وحدة مادية لكل رف، ولكن مع احتواء كل وحدة على أربع رقاقات سيليكون مميزة. وبالتالي، فإن 144 وحدة مضروبة في 4 رقاقات لكل وحدة ينتج عنها الرقم الرئيسي البالغ 576 “GPU”.

يشير هذا المنظور المستقبلي إلى أن طريقة عد الرقاقات في B300 ليست مجرد تعديل مؤقت لأنظمة معينة مبردة بالهواء، بل هي المبدأ الأساسي لكيفية اعتزام Nvidia تحديد موارد GPU الخاصة بها في الأجيال القادمة. يحتاج العملاء الذين يستثمرون في نظام Nvidia البيئي إلى توقع أن يصبح هذا التحول هو المعيار.

العامل غير المعلن: تعظيم تدفقات إيرادات البرامج؟

بينما يوفر التفسير التقني المتعلق بالتوصيل البيني C2C مبررًا لعد GPU المميز في B300، فإن التوقيت والآثار المالية الكبيرة تؤدي حتمًا إلى تكهنات حول الدوافع التجارية الأساسية. هل يمكن أن تكون إعادة التعريف هذه، التي قُدمت في البداية كتصحيح لـ “خطأ” في التسمية، بمثابة رافعة استراتيجية لتعزيز إيرادات البرامج المتكررة؟

في العام الذي تلا تفصيل Blackwell لأول مرة برسالتها “وحدة GPU واحدة موحدة”، من المعقول أن تكون Nvidia قد أدركت فرصة إيرادات كبيرة تُركت غير مستغلة. تمثل مجموعة AI Enterprise مكونًا متناميًا وعالي الهامش في أعمال Nvidia. إن ربط ترخيصها مباشرة بعدد رقاقات السيليكون، بدلاً من الوحدات المادية، يوفر مسارًا لزيادة إيرادات البرامج المستمدة من كل نشر للأجهزة بشكل كبير، خاصة مع احتمال زيادة عدد الرقاقات لكل وحدة في البنى المستقبلية مثل Vera Rubin Ultra.

عند الضغط على كيفية تأثير هذا التغيير في تعريف GPU تحديدًا على تكاليف ترخيص AI Enterprise لأنظمة B300 الجديدة، حافظت Nvidia على درجة من الغموض. أفاد متحدث باسم الشركة بأن التفاصيل المالية لا تزال قيد الدراسة. صرح المتحدث قائلاً: “لا تزال تفاصيل التسعير قيد الانتهاء لـ B300 ولا توجد تفاصيل لمشاركتها حول Rubin بخلاف ما تم عرضه في الكلمة الرئيسية لـ GTC في هذا الوقت”، مؤكدًا صراحة أن هذا يشمل هيكل التسعير لـ AI Enterprise على هذه المنصات.

هذا النقص في التسعير النهائي، إلى جانب مضاعفة عدد وحدات GPU القابلة للعد في تكوينات أجهزة معينة، يخلق حالة من عدم اليقين للعملاء الذين يخططون لاستثمارات البنية التحتية المستقبلية للذكاء الاصطناعي. في حين أن المبررات التقنية موجودة، فإن احتمال حدوث زيادة كبيرة في تكاليف اشتراك البرامج يلوح في الأفق. يسلط التحول الضوء على الأهمية المتزايدة للبرامج في سلسلة قيمة أشباه الموصلات واستراتيجية Nvidia الواضحة لتحقيق الدخل بشكل أكثر فعالية من منصة الذكاء الاصطناعي الشاملة الخاصة بها عن طريق مواءمة مقاييس الترخيص بشكل أوثق مع تعقيد السيليكون الأساسي. بينما تقوم المؤسسات بوضع ميزانيات لأنظمة الذكاء الاصطناعي من الجيل التالي، أصبح تعريف “GPU” فجأة متغيرًا حاسمًا، وربما أكثر تكلفة بكثير.