انویدیا (Nvidia) با هدف قرار دادن موج آینده هوش مصنوعی مبتنی بر عامل (Agent AI)، که نویدبخش ایجاد تقاضای بیسابقهای برای قابلیتهای استنتاج است، در حال آمادهسازی خود است. برای پاسخگویی به این چالش، انویدیا یک استراتژی جامع را با نوآوریهایی در هر دو زمینه سختافزار و نرمافزار رونمایی کرده است.
استراتژی سختافزاری: مقیاسپذیری عمودی و افقی
در قلب استراتژی سختافزاری انویدیا، تلاش بیوقفه برای توسعه واحدهای پردازش گرافیکی (GPU) قدرتمندتر قرار دارد. این شرکت یک رویکرد دو جانبه را اتخاذ میکند، ابتدا بر مقیاسبندی عمودی تمرکز میکند و سپس به مقیاسبندی افقی میپردازد. هدف تنها توسعه یک ابررایانه هوش مصنوعی فوقالعاده قدرتمند در یک رک (Rack) نیست، بلکه ایجاد یک اکوسیستم کامل از رکهای متصل به هم است که یک مجموعه عظیم ابررایانه هوش مصنوعی را تشکیل میدهد. این رویکرد ‘کارخانه هوش مصنوعی’ (AI factory) به منظور فراهم کردن قدرت محاسباتی مورد نیاز برای سختترین حجمهای کاری هوش مصنوعی طراحی شده است.
ابررایانه هوش مصنوعی Blackwell Ultra که در رک نصب میشود و در کنفرانس اخیر GTC رونمایی شد، نمونهای از این استراتژی است. Blackwell Ultra که برای تسریع در آموزش و استنتاج مقیاسپذیر در زمان تست طراحی شده است، از معماری Blackwell موجود استفاده میکند، اما GB300 NVL72 قدرتمندتر را در خود جای داده است. این پیکربندی دارای 72 واحد پردازش گرافیکی Blackwell Ultra است که از طریق NVLink به هم متصل شدهاند و 1.1 اگزافلاپ (Exaflops) توان محاسباتی با دقت FP4 ارائه میدهند. GB300 NVL72 دارای 1.5 برابر عملکرد هوش مصنوعی GB200 NVL72 است. یک سیستم DGS GB300 واحد 15 اگزافلاپ قدرت محاسباتی ارائه میدهد. Blackwell Ultra که قرار است در نیمه دوم سال 2025 عرضه شود، توسط طیف گستردهای از فروشندگان تجهیزات سرور، از جمله Cisco، Dell، HPE، Lenovo، ASUS، Foxconn، Gigabyte، Pegatron و Quanta پشتیبانی خواهد شد. علاوه بر این، ارائهدهندگان خدمات ابری مانند AWS، GCP و Azure خدمات محاسباتی مبتنی بر Blackwell Ultra را ارائه خواهند کرد.
انویدیا علاوه بر این سیستمهای کارخانه هوش مصنوعی در سطح نیروگاه، خط جدیدی از رایانهها را نیز با هدف رفع نیازهای استنتاج در داخل شرکتها معرفی کرده است. این موارد شامل رایانههای شخصی هوش مصنوعی DGX Spark و DGX Station است. DGX Spark، که از نظر اندازه شبیه به یک Mac mini است، تا 1 پتافلاپ (PFlops) قدرت محاسباتی ارائه میدهد.
برای درک بهتر این موضوع، ابررایانه Taiwania 3 که در سال 2021 با بیش از 50،000 هسته راهاندازی شد، تنها 2.7 پتافلاپ عملکرد ارائه میدهد. تنها در چهار سال، قدرت محاسباتی سه رایانه شخصی هوش مصنوعی در اندازه رومیزی از Taiwania 3 فراتر رفته است. قیمت این رایانههای شخصی هوش مصنوعی جدید با 128 گیگابایت حافظه، 3،999 دلار (تقریباً 130،000 دلار تایوان) است و برای تأمین نیازهای هوش مصنوعی داخلی در آینده در داخل شرکتها، به عنوان کارخانههای کوچک هوش مصنوعی یا حتی در محیطهای هوش مصنوعی لبه (Edge AI) طراحی شدهاند.
نقشه راه آینده: Vera Rubin و فراتر از آن
جنسن هوانگ (Jensen Huang)، مدیرعامل انویدیا، نقشه راه محصول را برای دو سال آینده ترسیم کرده است. در نیمه دوم سال 2026، این شرکت قصد دارد Vera Rubin NVL144 را عرضه کند، که به نام ستارهشناس آمریکایی که ماده تاریک را کشف کرد، نامگذاری شده است. Vera Rubin NVL144، 3.3 برابر عملکرد GB300 NVL72 را ارائه میدهد، با ظرفیت حافظه، پهنای باند و سرعت NVLink که بیش از 1.6 برابر افزایش مییابد. در نیمه دوم سال 2027، انویدیا Rubin Ultra NVL576 را راهاندازی خواهد کرد، که 14 برابر عملکرد GB300 NVL72 را ارائه میدهد، با ظرفیت حافظه و سرعت پهنای باند به طور قابل توجهی افزایش یافته از طریق NVLink7 و CX9.
پس از معماری Vera Rubin، معماری نسل بعدی انویدیا به نام ریچارد فاینمن (Richard Feynman)، فیزیکدان مشهور آمریکایی، که به خاطر کارش در تحقیقات فاجعه شاتل فضایی چلنجر (Challenger) شناخته میشود، نامگذاری خواهد شد.
استراتژی نرمافزاری: Nvidia Dynamo
انویدیا همواره تأکید زیادی بر نرمافزار داشته است و آن را حتی مهمتر از سختافزار میداند. این تمرکز استراتژیک به ابتکارات کارخانه هوش مصنوعی این شرکت نیز گسترش مییابد.
انویدیا علاوه بر گسترش کتابخانه شتابدهنده هوش مصنوعی CUDA-X به حوزههای مختلف و توسعه کتابخانههای شتابدهنده تخصصی، Nvidia Dynamo، یک سیستم عامل جدید کارخانه هوش مصنوعی را معرفی کرده است. نکته قابل توجه این است که انویدیا این سیستم عامل را به صورت متنباز (Open-source) منتشر کرده است.
Nvidia Dynamo یک چارچوب سرویس استنتاج متنباز است که برای ساخت پلتفرمهایی طراحی شده است که خدمات استنتاج LLM را ارائه میدهند. این چارچوب را میتوان در محیطهای K8s مستقر کرد و برای استقرار و مدیریت وظایف استنتاج هوش مصنوعی در مقیاس بزرگ از آن استفاده کرد. انویدیا قصد دارد Dynamo را در چارچوب میکروسرویسهای NIM خود ادغام کند و آن را به یکجزء از چارچوب Nvidia AI Enterprise تبدیل کند.
Dynamo محصول نسل بعدی پلتفرم سرور استنتاج متنباز موجود انویدیا، یعنی Triton است. ویژگی کلیدی آن، تقسیم وظایف استنتاج LLM به دو مرحله است که امکان استفاده انعطافپذیرتر و کارآمدتر از واحدهای پردازش گرافیکی (GPU) را برای بهینهسازی پردازش استنتاج، بهبود کارایی و به حداکثر رساندن استفاده از GPU فراهم میکند. Dynamo میتواند به طور پویا (Dynamically) GPUها را بر اساس الزامات استنتاج تخصیص دهد و انتقال دادههای ناهمزمان بین GPUها را تسریع کند و زمان پاسخگویی استنتاج مدل را کاهش دهد.
مدلهای GAI مبتنی بر ترانسفورماتور (Transformer) استنتاج را به دو مرحله تقسیم میکنند: Prefill (پیش ورودی)، که دادههای ورودی را به توکن (Token) برای ذخیرهسازی تبدیل میکند، و Decode، یک فرآیند متوالی که توکن بعدی را بر اساس توکن قبلی تولید میکند.
استنتاج LLM سنتی وظایف Prefill و Decode را به یک GPU یکسان اختصاص میدهد. با این حال، به دلیل ویژگیهای محاسباتی متفاوت این وظایف، Dynamo آنها را تقسیم میکند، منابع GPU را بر این اساس اختصاص میدهد و تخصیص را به طور پویا بر اساس ویژگیهای وظیفه تنظیم میکند. این امر عملکرد خوشه GPU را بهینه میکند.
آزمایشهای انویدیا نشان میدهد که استفاده از Dynamo با مدل DeepSeek-R1 با 671 میلیارد پارامتر بر روی GB200 NVL72 میتواند عملکرد استنتاج را 30 برابر بهبود بخشد. عملکرد روی Llama 70B که بر روی GPUهای Hopper اجرا میشود نیز میتواند بیش از دو برابر بهبود یابد.
مدیریت وظایف استنتاج به دلیل ماهیت پیچیده محاسبات استنتاج و تنوع مدلهای پردازش موازی پیچیده است. هوانگ تأکید کرد که انویدیا چارچوب Dynamo را برای ارائه یک سیستم عامل برای کارخانههای هوش مصنوعی راهاندازی کرده است.
مراکز داده سنتی برای سازماندهی برنامههای مختلف بر روی منابع IT سازمانی به سیستم عاملهایی مانند VMware متکی هستند. Agentهای هوش مصنوعی، برنامههای کاربردی آینده هستند و کارخانههای هوش مصنوعی به Dynamo نیاز دارند، نه VMware.
نامگذاری سیستم عامل جدید کارخانه هوش مصنوعی توسط هوانگ به نام Dynamo، موتوری که جرقه انقلاب صنعتی را زد، انتظارات و جاهطلبیهای او برای این پلتفرم را نشان میدهد.