تغییر معنایی Nvidia: تعریف مجدد 'GPU' و هزینه AI

اصلاحی کنجکاوانه: Nvidia در شمارش GPU خود تجدید نظر می‌کند

در صحنه پرمخاطره نوآوری نیمه‌هادی‌ها، کنفرانس فناوری GPU (GTC) شرکت Nvidia به عنوان صحنه‌ای برتر برای رونمایی از آینده عمل می‌کند. در آخرین گردهمایی خود، در میان هیاهوی مورد انتظار پیرامون پیشرفت‌ها در هوش مصنوعی و محاسبات شتاب‌یافته، این شرکت تغییری ظریف اما بالقوه عمیق را معرفی کرد - اصلاحی در نحوه تعریف بنیادین یک واحد پردازش گرافیکی (GPU). این صرفاً یک پاورقی فنی نبود؛ بلکه یک تنظیم مجدد با پیامدهای پایین‌دستی قابل توجه بود، به‌ویژه در مورد ساختار هزینه برای استقرار راه‌حل‌های پیشرفته هوش مصنوعی Nvidia.

مدیرعامل Jensen Huang خود مستقیماً از صحنه GTC به این تغییر پرداخت و آن را به عنوان اصلاح یک اشتباه قبلی در مورد معماری پیشرفته Blackwell خود مطرح کرد. او اظهار داشت: «یکی از چیزهایی که در آن اشتباه کردم این بود: Blackwell واقعاً دو GPU در یک تراشه Blackwell است». منطق ارائه شده بر وضوح و سازگاری متمرکز بود، به‌ویژه در مورد قراردادهای نامگذاری مرتبط با NVLink، فناوری اتصال پرسرعت Nvidia. Huang توضیح داد: «ما آن یک تراشه را GPU نامیدیم و این اشتباه بود. دلیل آن این است که تمام نامگذاری NVLink را به هم می‌ریزد». در حالی که ساده‌سازی شماره مدل‌ها درجه‌ای از نظم منطقی را ارائه می‌دهد، این تعریف مجدد وزنی بسیار فراتر از معناشناسی صرف دارد.

هسته اصلی این تغییر در حرکت از شمارش ماژول‌های فیزیکی (به‌ویژه، فرم فاکتور SXM رایج در سرورهای با کارایی بالا) به عنوان GPUهای منفرد به شمارش dieهای سیلیکونی متمایز درون آن ماژول‌ها نهفته است. این تنظیم به ظاهر جزئی در اصطلاحات، پتانسیل تغییر چشمگیر چشم‌انداز مالی برای سازمان‌هایی را دارد که از مجموعه نرم‌افزار AI Enterprise Nvidia استفاده می‌کنند.

اثر موجی مالی: دو برابر کردن هزینه مجوز AI Enterprise؟

AI Enterprise Nvidia یک پلتفرم نرم‌افزاری جامع است که برای ساده‌سازی توسعه و استقرار برنامه‌های کاربردی هوش مصنوعی طراحی شده است. این پلتفرم شامل طیف گسترده‌ای از ابزارها، چارچوب‌ها و به‌طور حیاتی، دسترسی به Nvidia Inference Microservices (NIMs) است که کانتینرهای بهینه‌سازی شده برای اجرای کارآمد مدل‌های هوش مصنوعی هستند. مدل صدور مجوز برای این مجموعه قدرتمند، از لحاظ تاریخی مستقیماً به تعداد GPUهای مستقر شده گره خورده است. ساختارهای قیمت‌گذاری فعلی هزینه را تقریباً ۴۵۰۰ دلار برای هر GPU در سال یا نرخ مبتنی بر ابر ۱ دلار برای هر GPU در ساعت تعیین می‌کنند.

نسل قبلی یا برخی تنظیمات خاص Blackwell را در نظر بگیرید. یک سرور Nvidia HGX B200، مجهز به هشت ماژول SXM، که در آن هر ماژول چیزی را در خود جای می‌داد که در آن زمان یک GPU Blackwell منفرد در نظر گرفته می‌شد، به هشت مجوز AI Enterprise نیاز داشت. این به هزینه اشتراک نرم‌افزار سالانه ۳۶۰۰۰ دلار (۸ GPU * ۴۵۰۰ دلار/GPU) یا هزینه ابری ساعتی ۸ دلار (۸ GPU * ۱ دلار/GPU/ساعت) ترجمه می‌شد.

حال، وارد چشم‌انداز تازه تعریف شده با سیستم‌هایی مانند HGX B300 NVL16 شوید. این سیستم همچنین دارای هشت ماژول فیزیکی SXM است. با این حال، تحت تعریف اصلاح شده، Nvidia اکنون هر die سیلیکونی درون این ماژول‌ها را به عنوان یک GPU منفرد می‌شمارد. از آنجایی که هر ماژول در این پیکربندی خاص حاوی دو die است، تعداد کل GPU برای اهداف صدور مجوز عملاً دو برابر شده و به ۱۶ GPU می‌رسد (۸ ماژول * ۲ die/ماژول).

با فرض اینکه Nvidia ساختار قیمت‌گذاری موجود خود به ازای هر GPU را برای مجموعه AI Enterprise حفظ کند - نکته‌ای که شرکت اعلام کرده هنوز نهایی نشده است - پیامدها آشکار است. همان سیستم هشت ماژولی HGX B300 اکنون به طور بالقوه به ۱۶ مجوز نیاز دارد و هزینه نرم‌افزار سالانه را به ۷۲۰۰۰ دلار (۱۶ GPU * ۴۵۰۰ دلار/GPU) یا ۱۶ دلار در ساعت در ابر افزایش می‌دهد. این نشان‌دهنده افزایش ۱۰۰ درصدی در هزینه اشتراک نرم‌افزار برای تراکم سخت‌افزاری به ظاهر قابل مقایسه است که مستقیماً از تغییر در نحوه شمارش یک “GPU” ناشی می‌شود.

داستان دو معماری: تطبیق اظهارات گذشته

این تغییر در نامگذاری، تضاد جالبی با توصیفات قبلی Nvidia از معماری Blackwell ارائه می‌دهد. هنگامی که Blackwell در ابتدا رونمایی شد، بحث‌هایی در مورد طراحی آن مطرح شد که شامل چندین قطعه سیلیکون (die) است که در یک بسته پردازنده واحد به هم متصل شده‌اند. در آن زمان، Nvidia فعالانه در برابر توصیف Blackwell با استفاده از اصطلاح معماری “chiplet” - یک اصطلاح رایج صنعتی برای طرح‌هایی که از چندین die کوچکتر و متصل به هم استفاده می‌کنند - مقاومت کرد. در عوض، این شرکت بر دیدگاه متفاوتی تأکید کرد.

همانطور که در طول پوشش خبری عرضه Blackwell گزارش شد، Nvidia استدلال کرد که از “یک معماری die محدود دو-رتیکلی استفاده می‌کند که به عنوان یک GPU واحد و یکپارچه عمل می‌کند”. این عبارت قویاً نشان می‌داد که علی‌رغم حضور فیزیکی دو die، آنها به طور منسجم به عنوان یک واحد پردازشی منطقی عمل می‌کنند. روش شمارش جدید اعمال شده برای پیکربندی B300 به نظر می‌رسد که از این مفهوم “GPU واحد و یکپارچه” فاصله می‌گیرد، حداقل از دیدگاه صدور مجوز نرم‌افزار، و dieها را به عنوان موجودیت‌های متمایز در نظر می‌گیرد. این امر سؤالاتی را در مورد اینکه آیا توصیف اولیه عمدتاً بر پتانسیل عملکردی سخت‌افزار متمرکز بوده یا اینکه دیدگاه استراتژیک در مورد صدور مجوز تکامل یافته است، ایجاد می‌کند.

افزایش عملکرد در مقابل افزایش بالقوه هزینه: ارزیابی پیشنهاد B300

هنگام در نظر گرفتن دو برابر شدن بالقوه هزینه‌های صدور مجوز نرم‌افزار برای HGX B300 در مقایسه با پیشینیان آن مانند B200، بررسی بهبودهای عملکرد ارائه شده توسط سخت‌افزار جدیدتر بسیار مهم است. آیا B300 دو برابر قدرت پردازش هوش مصنوعی را ارائه می‌دهد تا دو برابر شدن بالقوه هزینه‌های نرم‌افزار را توجیه کند؟ مشخصات تصویر ظریف‌تری را نشان می‌دهد.

HGX B300 دارای بهبودهایی است:

  • افزایش ظرفیت حافظه: این سیستم تقریباً ۲.۳ ترابایت حافظه با پهنای باند بالا (HBM) در هر سیستم ارائه می‌دهد که جهشی قابل توجه حدود ۱.۵ برابر در مقایسه با ۱.۵ ترابایت موجود در B200 است. این برای مدیریت مدل‌ها و مجموعه داده‌های بزرگتر هوش مصنوعی حیاتی است.
  • بهبود عملکرد با دقت پایین: B300 افزایش قابل توجهی در عملکرد برای محاسبات با استفاده از دقت ممیز شناور ۴ بیتی (FP4) نشان می‌دهد. توان عملیاتی FP4 آن به کمی بیش از ۱۰۵ پتافلاپس متراکم در هر سیستم می‌رسد که تقریباً ۵۰ درصد افزایش نسبت به B200 دارد. این شتاب به‌ویژه برای برخی وظایف استنتاج هوش مصنوعی که در آن دقت پایین‌تر قابل قبول است، مفید است.

با این حال، مزیت عملکرد در همه حجم‌های کاری جهانی نیست. نکته مهم این است که برای کارهایی که به محاسبات ممیز شناور با دقت بالاتر نیاز دارند (مانند FP8، FP16 یا FP32)، B300 مزیت قابل توجهی در عملیات ممیز شناور نسبت به سیستم قدیمی‌تر B200 ارائه نمی‌دهد. بسیاری از وظایف پیچیده آموزش هوش مصنوعی و محاسبات علمی به شدت به این فرمت‌های با دقت بالاتر متکی هستند.

بنابراین، سازمان‌هایی که B300 را ارزیابی می‌کنند با یک محاسبه پیچیده روبرو هستند. آنها ظرفیت حافظه قابل توجهی و افزایش عملکرد FP4 را به دست می‌آورند، اما دو برابر شدن بالقوه هزینه‌های نرم‌افزار AI Enterprise ممکن است با دو برابر شدن متناظر عملکرد برای حجم کاری خاص و با دقت بالاتر آنها مطابقت نداشته باشد. ارزش پیشنهادی به شدت به ماهیت وظایف هوش مصنوعی در حال اجرا بستگی دارد.

توجیه فنی: اتصالات داخلی و استقلال

جالب اینجاست که این روش جدید شمارش die به طور جهانی در تمام سیستم‌های جدید مبتنی بر Blackwell که در GTC اعلام شده‌اند، اعمال نمی‌شود. به عنوان مثال، سیستم‌های قدرتمندتر GB300 NVL72 با خنک‌کننده مایع، همچنان به قرارداد قدیمی پایبند هستند و کل بسته (حاوی دو die) را به عنوان یک GPU واحد برای اهداف صدور مجوز می‌شمارند. این واگرایی این سؤال را ایجاد می‌کند: چرا این تفاوت وجود دارد؟

Nvidia یک منطق فنی ریشه‌دار در فناوری اتصال داخلی درون خود بسته‌های GPU ارائه می‌دهد. به گفته Ian Buck، معاون رئیس جمهور و مدیر کل Hyperscale و HPC Nvidia، تمایز در وجود یا عدم وجود یک اتصال داخلی تراشه به تراشه (C2C) حیاتی است که مستقیماً دو die را در داخل بسته به هم متصل می‌کند.

  • پیکربندی HGX B300: بسته‌های خاص Blackwell مورد استفاده در سیستم‌های HGX B300 با خنک‌کننده هوا فاقد این اتصال مستقیم C2C هستند. همانطور که Buck توضیح داد، این انتخاب طراحی برای بهینه‌سازی مصرف برق و مدیریت حرارتی در محدودیت‌های شاسی با خنک‌کننده هوا انجام شده است. با این حال، نتیجه این است که دو die روی یک ماژول B300 با درجه استقلال بیشتری عمل می‌کنند. اگر یک die نیاز به دسترسی به داده‌های ذخیره شده در حافظه با پهنای باند بالا داشته باشد که به طور فیزیکی به die دیگر در همان ماژول متصل است، نمی‌تواند مستقیماً این کار را انجام دهد. در عوض، درخواست داده باید از بسته خارج شود، از شبکه خارجی NVLink عبور کند (احتمالاً از طریق یک تراشه سوئیچ NVLink روی مادربرد سرور) و سپس به کنترلر حافظه die دیگر هدایت شود. این انحراف این تصور را تقویت می‌کند که اینها دو واحد پردازشی عملکردی متمایز هستند که یک بسته مشترک دارند اما برای اشتراک کامل حافظه به مسیرهای ارتباطی خارجی نیاز دارند. Nvidia استدلال می‌کند که این جدایی، شمارش آنها را به عنوان دو GPU متمایز توجیه می‌کند.

  • پیکربندی GB300 NVL72: در مقابل، بسته‌های “Superchip” مورد استفاده در سیستم‌های پیشرفته‌تر GB300، اتصال داخلی پرسرعت C2C را حفظ می‌کنند. این پیوند مستقیم به دو die درون بسته اجازه می‌دهد تا منابع حافظه را بسیار کارآمدتر و مستقیم‌تر، بدون نیاز به انحراف خارج از بسته از طریق سوئیچ NVLink، ارتباط برقرار کرده و به اشتراک بگذارند. از آنجایی که آنها می‌توانند منسجم‌تر عمل کنند و حافظه را به طور یکپارچه به اشتراک بگذارند، از دیدگاه نرم‌افزار و صدور مجوز، به عنوان یک GPU واحد و یکپارچه در نظر گرفته می‌شوند، که با توصیف اولیه “یکپارچه” معماری Blackwell همسو است.

این تمایز فنی مبنای منطقی برای روش‌های شمارش متفاوت فراهم می‌کند. dieهای B300 به دلیل فقدان پیوند C2C از نظر عملکردی جداگانه‌تر هستند و به شمارش دو GPU اعتبار می‌بخشند. dieهای GB300 به شدت به هم متصل هستند و از شمارش تک GPU پشتیبانی می‌کنند.

نگاهی به آینده: Vera Rubin سابقه را تعیین می‌کند

در حالی که GB300 در حال حاضر یک استثنا را نشان می‌دهد، رویکرد شمارش die اتخاذ شده برای B300 به نظر می‌رسد نشان‌دهنده جهت‌گیری آینده Nvidia باشد. این شرکت قبلاً اعلام کرده است که پلتفرم نسل بعدی آن، با نام رمز Vera Rubin، که قرار است در آینده عرضه شود، این نامگذاری جدید را به طور کامل در بر خواهد گرفت.

خود قرارداد نامگذاری سرنخی را ارائه می‌دهد. سیستم‌های مبتنی بر معماری Rubin با اعداد بالا، مانند NVL144، مشخص می‌شوند. این نامگذاری قویاً به شمارش dieهای منفرد به جای ماژول‌ها اشاره دارد. با پیروی از منطق B300، یک سیستم NVL144 احتمالاً از تعداد معینی ماژول تشکیل شده است که هر کدام حاوی چندین die هستند و در مجموع ۱۴۴ die GPU قابل شمارش برای اهداف صدور مجوز و مشخصات فنی را تشکیل می‌دهند.

این روند در نقشه راه Nvidia برای اواخر سال ۲۰۲۷ با پلتفرم Vera Rubin Ultra حتی بارزتر است. این پلتفرم دارای ۵۷۶ GPU در هر رک شگفت‌انگیز است. همانطور که قبلاً تحلیل شد، این عدد چشمگیر با قرار دادن ۵۷۶ ماژول فیزیکی متمایز در یک رک به دست نمی‌آید. در عوض، این بازتابی از پارادایم شمارش جدید است که به صورت ضربی اعمال می‌شود. این معماری احتمالاً شامل ۱۴۴ ماژول فیزیکی در هر رک است، اما هر ماژول حاوی چهار die سیلیکونی متمایز است. بنابراین، ۱۴۴ ماژول ضربدر ۴ die در هر ماژول، رقم اصلی ۵۷۶ “GPU” را به دست می‌دهد.

این دیدگاه آینده‌نگر نشان می‌دهد که روش شمارش die B300 صرفاً یک تنظیم موقت برای سیستم‌های خاص با خنک‌کننده هوا نیست، بلکه اصل بنیادی برای نحوه کمی‌سازی منابع GPU توسط Nvidia در نسل‌های آینده است. مشتریانی که در اکوسیستم Nvidia سرمایه‌گذاری می‌کنند باید پیش‌بینی کنند که این تغییر به استاندارد تبدیل شود.

عامل ناگفته: به حداکثر رساندن جریان‌های درآمد نرم‌افزار؟

در حالی که توضیح فنی در مورد اتصال داخلی C2C منطقی برای شمارش متمایز GPU B300 ارائه می‌دهد، زمان‌بندی و پیامدهای مالی قابل توجه ناگزیر به گمانه‌زنی در مورد انگیزه‌های تجاری اساسی منجر می‌شود. آیا این تعریف مجدد، که در ابتدا به عنوان اصلاح یک “اشتباه” نامگذاری ارائه شد، می‌تواند به عنوان یک اهرم استراتژیک برای افزایش درآمد مکرر نرم‌افزار نیز عمل کند؟

در سالی که از زمان تشریح اولیه Blackwell با پیام “GPU واحد و یکپارچه” آن می‌گذرد، قابل قبول است که Nvidia فرصت درآمد قابل توجهی را که دست نخورده باقی مانده بود، تشخیص داده باشد. مجموعه AI Enterprise جزء رو به رشد و با حاشیه سودبالای تجارت Nvidia است. گره زدن مستقیم صدور مجوز آن به تعداد dieهای سیلیکونی، به جای ماژول‌های فیزیکی، مسیری را برای افزایش قابل توجه درآمد نرم‌افزار حاصل از هر استقرار سخت‌افزار ارائه می‌دهد، به‌ویژه با افزایش بالقوه تعداد die در هر ماژول در معماری‌های آینده مانند Vera Rubin Ultra.

هنگامی که در مورد چگونگی تأثیر این تغییر در تعریف GPU بر هزینه‌های صدور مجوز AI Enterprise برای سیستم‌های جدید B300 سؤال شد، Nvidia درجه‌ای از ابهام را حفظ کرد. سخنگوی شرکت اعلام کرد که جزئیات مالی هنوز در دست بررسی است. سخنگو اظهار داشت: «جزئیات قیمت‌گذاری هنوز برای B300 نهایی نشده است و در حال حاضر جزئیاتی برای به اشتراک گذاشتن در مورد Rubin فراتر از آنچه در سخنرانی اصلی GTC نشان داده شد، وجود ندارد»، و صریحاً تأیید کرد که این شامل ساختار قیمت‌گذاری برای AI Enterprise در این پلتفرم‌ها نیز می‌شود.

این عدم قطعیت در قیمت‌گذاری نهایی، همراه با دو برابر شدن GPUهای قابل شمارش در پیکربندی‌های سخت‌افزاری خاص، عدم اطمینان را برای مشتریانی که در حال برنامه‌ریزی سرمایه‌گذاری‌های آتی در زیرساخت هوش مصنوعی هستند، ایجاد می‌کند. در حالی که توجیهات فنی وجود دارد، پتانسیل افزایش قابل توجه در هزینه‌های اشتراک نرم‌افزار بسیار زیاد است. این تغییر اهمیت فزاینده نرم‌افزار در زنجیره ارزش نیمه‌هادی‌ها و استراتژی آشکار Nvidia برای کسب درآمد مؤثرتر از پلتفرم جامع هوش مصنوعی خود را با همسو کردن معیارهای صدور مجوز با پیچیدگی سیلیکون زیربنایی برجسته می‌کند. همانطور که سازمان‌ها برای سیستم‌های هوش مصنوعی نسل بعدی بودجه‌بندی می‌کنند، تعریف “GPU” ناگهان به یک متغیر حیاتی و بالقوه بسیار گران‌تر تبدیل شده است.