اصلاحی کنجکاوانه: Nvidia در شمارش GPU خود تجدید نظر میکند
در صحنه پرمخاطره نوآوری نیمههادیها، کنفرانس فناوری GPU (GTC) شرکت Nvidia به عنوان صحنهای برتر برای رونمایی از آینده عمل میکند. در آخرین گردهمایی خود، در میان هیاهوی مورد انتظار پیرامون پیشرفتها در هوش مصنوعی و محاسبات شتابیافته، این شرکت تغییری ظریف اما بالقوه عمیق را معرفی کرد - اصلاحی در نحوه تعریف بنیادین یک واحد پردازش گرافیکی (GPU). این صرفاً یک پاورقی فنی نبود؛ بلکه یک تنظیم مجدد با پیامدهای پاییندستی قابل توجه بود، بهویژه در مورد ساختار هزینه برای استقرار راهحلهای پیشرفته هوش مصنوعی Nvidia.
مدیرعامل Jensen Huang خود مستقیماً از صحنه GTC به این تغییر پرداخت و آن را به عنوان اصلاح یک اشتباه قبلی در مورد معماری پیشرفته Blackwell خود مطرح کرد. او اظهار داشت: «یکی از چیزهایی که در آن اشتباه کردم این بود: Blackwell واقعاً دو GPU در یک تراشه Blackwell است». منطق ارائه شده بر وضوح و سازگاری متمرکز بود، بهویژه در مورد قراردادهای نامگذاری مرتبط با NVLink، فناوری اتصال پرسرعت Nvidia. Huang توضیح داد: «ما آن یک تراشه را GPU نامیدیم و این اشتباه بود. دلیل آن این است که تمام نامگذاری NVLink را به هم میریزد». در حالی که سادهسازی شماره مدلها درجهای از نظم منطقی را ارائه میدهد، این تعریف مجدد وزنی بسیار فراتر از معناشناسی صرف دارد.
هسته اصلی این تغییر در حرکت از شمارش ماژولهای فیزیکی (بهویژه، فرم فاکتور SXM رایج در سرورهای با کارایی بالا) به عنوان GPUهای منفرد به شمارش dieهای سیلیکونی متمایز درون آن ماژولها نهفته است. این تنظیم به ظاهر جزئی در اصطلاحات، پتانسیل تغییر چشمگیر چشمانداز مالی برای سازمانهایی را دارد که از مجموعه نرمافزار AI Enterprise Nvidia استفاده میکنند.
اثر موجی مالی: دو برابر کردن هزینه مجوز AI Enterprise؟
AI Enterprise Nvidia یک پلتفرم نرمافزاری جامع است که برای سادهسازی توسعه و استقرار برنامههای کاربردی هوش مصنوعی طراحی شده است. این پلتفرم شامل طیف گستردهای از ابزارها، چارچوبها و بهطور حیاتی، دسترسی به Nvidia Inference Microservices (NIMs) است که کانتینرهای بهینهسازی شده برای اجرای کارآمد مدلهای هوش مصنوعی هستند. مدل صدور مجوز برای این مجموعه قدرتمند، از لحاظ تاریخی مستقیماً به تعداد GPUهای مستقر شده گره خورده است. ساختارهای قیمتگذاری فعلی هزینه را تقریباً ۴۵۰۰ دلار برای هر GPU در سال یا نرخ مبتنی بر ابر ۱ دلار برای هر GPU در ساعت تعیین میکنند.
نسل قبلی یا برخی تنظیمات خاص Blackwell را در نظر بگیرید. یک سرور Nvidia HGX B200، مجهز به هشت ماژول SXM، که در آن هر ماژول چیزی را در خود جای میداد که در آن زمان یک GPU Blackwell منفرد در نظر گرفته میشد، به هشت مجوز AI Enterprise نیاز داشت. این به هزینه اشتراک نرمافزار سالانه ۳۶۰۰۰ دلار (۸ GPU * ۴۵۰۰ دلار/GPU) یا هزینه ابری ساعتی ۸ دلار (۸ GPU * ۱ دلار/GPU/ساعت) ترجمه میشد.
حال، وارد چشمانداز تازه تعریف شده با سیستمهایی مانند HGX B300 NVL16 شوید. این سیستم همچنین دارای هشت ماژول فیزیکی SXM است. با این حال، تحت تعریف اصلاح شده، Nvidia اکنون هر die سیلیکونی درون این ماژولها را به عنوان یک GPU منفرد میشمارد. از آنجایی که هر ماژول در این پیکربندی خاص حاوی دو die است، تعداد کل GPU برای اهداف صدور مجوز عملاً دو برابر شده و به ۱۶ GPU میرسد (۸ ماژول * ۲ die/ماژول).
با فرض اینکه Nvidia ساختار قیمتگذاری موجود خود به ازای هر GPU را برای مجموعه AI Enterprise حفظ کند - نکتهای که شرکت اعلام کرده هنوز نهایی نشده است - پیامدها آشکار است. همان سیستم هشت ماژولی HGX B300 اکنون به طور بالقوه به ۱۶ مجوز نیاز دارد و هزینه نرمافزار سالانه را به ۷۲۰۰۰ دلار (۱۶ GPU * ۴۵۰۰ دلار/GPU) یا ۱۶ دلار در ساعت در ابر افزایش میدهد. این نشاندهنده افزایش ۱۰۰ درصدی در هزینه اشتراک نرمافزار برای تراکم سختافزاری به ظاهر قابل مقایسه است که مستقیماً از تغییر در نحوه شمارش یک “GPU” ناشی میشود.
داستان دو معماری: تطبیق اظهارات گذشته
این تغییر در نامگذاری، تضاد جالبی با توصیفات قبلی Nvidia از معماری Blackwell ارائه میدهد. هنگامی که Blackwell در ابتدا رونمایی شد، بحثهایی در مورد طراحی آن مطرح شد که شامل چندین قطعه سیلیکون (die) است که در یک بسته پردازنده واحد به هم متصل شدهاند. در آن زمان، Nvidia فعالانه در برابر توصیف Blackwell با استفاده از اصطلاح معماری “chiplet” - یک اصطلاح رایج صنعتی برای طرحهایی که از چندین die کوچکتر و متصل به هم استفاده میکنند - مقاومت کرد. در عوض، این شرکت بر دیدگاه متفاوتی تأکید کرد.
همانطور که در طول پوشش خبری عرضه Blackwell گزارش شد، Nvidia استدلال کرد که از “یک معماری die محدود دو-رتیکلی استفاده میکند که به عنوان یک GPU واحد و یکپارچه عمل میکند”. این عبارت قویاً نشان میداد که علیرغم حضور فیزیکی دو die، آنها به طور منسجم به عنوان یک واحد پردازشی منطقی عمل میکنند. روش شمارش جدید اعمال شده برای پیکربندی B300 به نظر میرسد که از این مفهوم “GPU واحد و یکپارچه” فاصله میگیرد، حداقل از دیدگاه صدور مجوز نرمافزار، و dieها را به عنوان موجودیتهای متمایز در نظر میگیرد. این امر سؤالاتی را در مورد اینکه آیا توصیف اولیه عمدتاً بر پتانسیل عملکردی سختافزار متمرکز بوده یا اینکه دیدگاه استراتژیک در مورد صدور مجوز تکامل یافته است، ایجاد میکند.
افزایش عملکرد در مقابل افزایش بالقوه هزینه: ارزیابی پیشنهاد B300
هنگام در نظر گرفتن دو برابر شدن بالقوه هزینههای صدور مجوز نرمافزار برای HGX B300 در مقایسه با پیشینیان آن مانند B200، بررسی بهبودهای عملکرد ارائه شده توسط سختافزار جدیدتر بسیار مهم است. آیا B300 دو برابر قدرت پردازش هوش مصنوعی را ارائه میدهد تا دو برابر شدن بالقوه هزینههای نرمافزار را توجیه کند؟ مشخصات تصویر ظریفتری را نشان میدهد.
HGX B300 دارای بهبودهایی است:
- افزایش ظرفیت حافظه: این سیستم تقریباً ۲.۳ ترابایت حافظه با پهنای باند بالا (HBM) در هر سیستم ارائه میدهد که جهشی قابل توجه حدود ۱.۵ برابر در مقایسه با ۱.۵ ترابایت موجود در B200 است. این برای مدیریت مدلها و مجموعه دادههای بزرگتر هوش مصنوعی حیاتی است.
- بهبود عملکرد با دقت پایین: B300 افزایش قابل توجهی در عملکرد برای محاسبات با استفاده از دقت ممیز شناور ۴ بیتی (FP4) نشان میدهد. توان عملیاتی FP4 آن به کمی بیش از ۱۰۵ پتافلاپس متراکم در هر سیستم میرسد که تقریباً ۵۰ درصد افزایش نسبت به B200 دارد. این شتاب بهویژه برای برخی وظایف استنتاج هوش مصنوعی که در آن دقت پایینتر قابل قبول است، مفید است.
با این حال، مزیت عملکرد در همه حجمهای کاری جهانی نیست. نکته مهم این است که برای کارهایی که به محاسبات ممیز شناور با دقت بالاتر نیاز دارند (مانند FP8، FP16 یا FP32)، B300 مزیت قابل توجهی در عملیات ممیز شناور نسبت به سیستم قدیمیتر B200 ارائه نمیدهد. بسیاری از وظایف پیچیده آموزش هوش مصنوعی و محاسبات علمی به شدت به این فرمتهای با دقت بالاتر متکی هستند.
بنابراین، سازمانهایی که B300 را ارزیابی میکنند با یک محاسبه پیچیده روبرو هستند. آنها ظرفیت حافظه قابل توجهی و افزایش عملکرد FP4 را به دست میآورند، اما دو برابر شدن بالقوه هزینههای نرمافزار AI Enterprise ممکن است با دو برابر شدن متناظر عملکرد برای حجم کاری خاص و با دقت بالاتر آنها مطابقت نداشته باشد. ارزش پیشنهادی به شدت به ماهیت وظایف هوش مصنوعی در حال اجرا بستگی دارد.
توجیه فنی: اتصالات داخلی و استقلال
جالب اینجاست که این روش جدید شمارش die به طور جهانی در تمام سیستمهای جدید مبتنی بر Blackwell که در GTC اعلام شدهاند، اعمال نمیشود. به عنوان مثال، سیستمهای قدرتمندتر GB300 NVL72 با خنککننده مایع، همچنان به قرارداد قدیمی پایبند هستند و کل بسته (حاوی دو die) را به عنوان یک GPU واحد برای اهداف صدور مجوز میشمارند. این واگرایی این سؤال را ایجاد میکند: چرا این تفاوت وجود دارد؟
Nvidia یک منطق فنی ریشهدار در فناوری اتصال داخلی درون خود بستههای GPU ارائه میدهد. به گفته Ian Buck، معاون رئیس جمهور و مدیر کل Hyperscale و HPC Nvidia، تمایز در وجود یا عدم وجود یک اتصال داخلی تراشه به تراشه (C2C) حیاتی است که مستقیماً دو die را در داخل بسته به هم متصل میکند.
پیکربندی HGX B300: بستههای خاص Blackwell مورد استفاده در سیستمهای HGX B300 با خنککننده هوا فاقد این اتصال مستقیم C2C هستند. همانطور که Buck توضیح داد، این انتخاب طراحی برای بهینهسازی مصرف برق و مدیریت حرارتی در محدودیتهای شاسی با خنککننده هوا انجام شده است. با این حال، نتیجه این است که دو die روی یک ماژول B300 با درجه استقلال بیشتری عمل میکنند. اگر یک die نیاز به دسترسی به دادههای ذخیره شده در حافظه با پهنای باند بالا داشته باشد که به طور فیزیکی به die دیگر در همان ماژول متصل است، نمیتواند مستقیماً این کار را انجام دهد. در عوض، درخواست داده باید از بسته خارج شود، از شبکه خارجی NVLink عبور کند (احتمالاً از طریق یک تراشه سوئیچ NVLink روی مادربرد سرور) و سپس به کنترلر حافظه die دیگر هدایت شود. این انحراف این تصور را تقویت میکند که اینها دو واحد پردازشی عملکردی متمایز هستند که یک بسته مشترک دارند اما برای اشتراک کامل حافظه به مسیرهای ارتباطی خارجی نیاز دارند. Nvidia استدلال میکند که این جدایی، شمارش آنها را به عنوان دو GPU متمایز توجیه میکند.
پیکربندی GB300 NVL72: در مقابل، بستههای “Superchip” مورد استفاده در سیستمهای پیشرفتهتر GB300، اتصال داخلی پرسرعت C2C را حفظ میکنند. این پیوند مستقیم به دو die درون بسته اجازه میدهد تا منابع حافظه را بسیار کارآمدتر و مستقیمتر، بدون نیاز به انحراف خارج از بسته از طریق سوئیچ NVLink، ارتباط برقرار کرده و به اشتراک بگذارند. از آنجایی که آنها میتوانند منسجمتر عمل کنند و حافظه را به طور یکپارچه به اشتراک بگذارند، از دیدگاه نرمافزار و صدور مجوز، به عنوان یک GPU واحد و یکپارچه در نظر گرفته میشوند، که با توصیف اولیه “یکپارچه” معماری Blackwell همسو است.
این تمایز فنی مبنای منطقی برای روشهای شمارش متفاوت فراهم میکند. dieهای B300 به دلیل فقدان پیوند C2C از نظر عملکردی جداگانهتر هستند و به شمارش دو GPU اعتبار میبخشند. dieهای GB300 به شدت به هم متصل هستند و از شمارش تک GPU پشتیبانی میکنند.
نگاهی به آینده: Vera Rubin سابقه را تعیین میکند
در حالی که GB300 در حال حاضر یک استثنا را نشان میدهد، رویکرد شمارش die اتخاذ شده برای B300 به نظر میرسد نشاندهنده جهتگیری آینده Nvidia باشد. این شرکت قبلاً اعلام کرده است که پلتفرم نسل بعدی آن، با نام رمز Vera Rubin، که قرار است در آینده عرضه شود، این نامگذاری جدید را به طور کامل در بر خواهد گرفت.
خود قرارداد نامگذاری سرنخی را ارائه میدهد. سیستمهای مبتنی بر معماری Rubin با اعداد بالا، مانند NVL144، مشخص میشوند. این نامگذاری قویاً به شمارش dieهای منفرد به جای ماژولها اشاره دارد. با پیروی از منطق B300، یک سیستم NVL144 احتمالاً از تعداد معینی ماژول تشکیل شده است که هر کدام حاوی چندین die هستند و در مجموع ۱۴۴ die GPU قابل شمارش برای اهداف صدور مجوز و مشخصات فنی را تشکیل میدهند.
این روند در نقشه راه Nvidia برای اواخر سال ۲۰۲۷ با پلتفرم Vera Rubin Ultra حتی بارزتر است. این پلتفرم دارای ۵۷۶ GPU در هر رک شگفتانگیز است. همانطور که قبلاً تحلیل شد، این عدد چشمگیر با قرار دادن ۵۷۶ ماژول فیزیکی متمایز در یک رک به دست نمیآید. در عوض، این بازتابی از پارادایم شمارش جدید است که به صورت ضربی اعمال میشود. این معماری احتمالاً شامل ۱۴۴ ماژول فیزیکی در هر رک است، اما هر ماژول حاوی چهار die سیلیکونی متمایز است. بنابراین، ۱۴۴ ماژول ضربدر ۴ die در هر ماژول، رقم اصلی ۵۷۶ “GPU” را به دست میدهد.
این دیدگاه آیندهنگر نشان میدهد که روش شمارش die B300 صرفاً یک تنظیم موقت برای سیستمهای خاص با خنککننده هوا نیست، بلکه اصل بنیادی برای نحوه کمیسازی منابع GPU توسط Nvidia در نسلهای آینده است. مشتریانی که در اکوسیستم Nvidia سرمایهگذاری میکنند باید پیشبینی کنند که این تغییر به استاندارد تبدیل شود.
عامل ناگفته: به حداکثر رساندن جریانهای درآمد نرمافزار؟
در حالی که توضیح فنی در مورد اتصال داخلی C2C منطقی برای شمارش متمایز GPU B300 ارائه میدهد، زمانبندی و پیامدهای مالی قابل توجه ناگزیر به گمانهزنی در مورد انگیزههای تجاری اساسی منجر میشود. آیا این تعریف مجدد، که در ابتدا به عنوان اصلاح یک “اشتباه” نامگذاری ارائه شد، میتواند به عنوان یک اهرم استراتژیک برای افزایش درآمد مکرر نرمافزار نیز عمل کند؟
در سالی که از زمان تشریح اولیه Blackwell با پیام “GPU واحد و یکپارچه” آن میگذرد، قابل قبول است که Nvidia فرصت درآمد قابل توجهی را که دست نخورده باقی مانده بود، تشخیص داده باشد. مجموعه AI Enterprise جزء رو به رشد و با حاشیه سودبالای تجارت Nvidia است. گره زدن مستقیم صدور مجوز آن به تعداد dieهای سیلیکونی، به جای ماژولهای فیزیکی، مسیری را برای افزایش قابل توجه درآمد نرمافزار حاصل از هر استقرار سختافزار ارائه میدهد، بهویژه با افزایش بالقوه تعداد die در هر ماژول در معماریهای آینده مانند Vera Rubin Ultra.
هنگامی که در مورد چگونگی تأثیر این تغییر در تعریف GPU بر هزینههای صدور مجوز AI Enterprise برای سیستمهای جدید B300 سؤال شد، Nvidia درجهای از ابهام را حفظ کرد. سخنگوی شرکت اعلام کرد که جزئیات مالی هنوز در دست بررسی است. سخنگو اظهار داشت: «جزئیات قیمتگذاری هنوز برای B300 نهایی نشده است و در حال حاضر جزئیاتی برای به اشتراک گذاشتن در مورد Rubin فراتر از آنچه در سخنرانی اصلی GTC نشان داده شد، وجود ندارد»، و صریحاً تأیید کرد که این شامل ساختار قیمتگذاری برای AI Enterprise در این پلتفرمها نیز میشود.
این عدم قطعیت در قیمتگذاری نهایی، همراه با دو برابر شدن GPUهای قابل شمارش در پیکربندیهای سختافزاری خاص، عدم اطمینان را برای مشتریانی که در حال برنامهریزی سرمایهگذاریهای آتی در زیرساخت هوش مصنوعی هستند، ایجاد میکند. در حالی که توجیهات فنی وجود دارد، پتانسیل افزایش قابل توجه در هزینههای اشتراک نرمافزار بسیار زیاد است. این تغییر اهمیت فزاینده نرمافزار در زنجیره ارزش نیمههادیها و استراتژی آشکار Nvidia برای کسب درآمد مؤثرتر از پلتفرم جامع هوش مصنوعی خود را با همسو کردن معیارهای صدور مجوز با پیچیدگی سیلیکون زیربنایی برجسته میکند. همانطور که سازمانها برای سیستمهای هوش مصنوعی نسل بعدی بودجهبندی میکنند، تعریف “GPU” ناگهان به یک متغیر حیاتی و بالقوه بسیار گرانتر تبدیل شده است.