استراتژی دوگانه انویدیا برای استنتاج Agent AI

انویدیا (Nvidia) با هدف قرار دادن موج آینده هوش مصنوعی مبتنی بر عامل (Agent AI)، که نویدبخش ایجاد تقاضای بی‌سابقه‌ای برای قابلیت‌های استنتاج است، در حال آماده‌سازی خود است. برای پاسخگویی به این چالش، انویدیا یک استراتژی جامع را با نوآوری‌هایی در هر دو زمینه سخت‌افزار و نرم‌افزار رونمایی کرده است.

استراتژی سخت‌افزاری: مقیاس‌پذیری عمودی و افقی

در قلب استراتژی سخت‌افزاری انویدیا، تلاش بی‌وقفه برای توسعه واحدهای پردازش گرافیکی (GPU) قدرتمندتر قرار دارد. این شرکت یک رویکرد دو جانبه را اتخاذ می‌کند، ابتدا بر مقیاس‌بندی عمودی تمرکز می‌کند و سپس به مقیاس‌بندی افقی می‌پردازد. هدف تنها توسعه یک ابررایانه هوش مصنوعی فوق‌العاده قدرتمند در یک رک (Rack) نیست، بلکه ایجاد یک اکوسیستم کامل از رک‌های متصل به هم است که یک مجموعه عظیم ابررایانه هوش مصنوعی را تشکیل می‌دهد. این رویکرد ‘کارخانه هوش مصنوعی’ (AI factory) به منظور فراهم کردن قدرت محاسباتی مورد نیاز برای سخت‌ترین حجم‌های کاری هوش مصنوعی طراحی شده است.

ابررایانه هوش مصنوعی Blackwell Ultra که در رک نصب می‌شود و در کنفرانس اخیر GTC رونمایی شد، نمونه‌ای از این استراتژی است. Blackwell Ultra که برای تسریع در آموزش و استنتاج مقیاس‌پذیر در زمان تست طراحی شده است، از معماری Blackwell موجود استفاده می‌کند، اما GB300 NVL72 قدرتمندتر را در خود جای داده است. این پیکربندی دارای 72 واحد پردازش گرافیکی Blackwell Ultra است که از طریق NVLink به هم متصل شده‌اند و 1.1 اگزافلاپ (Exaflops) توان محاسباتی با دقت FP4 ارائه می‌دهند. GB300 NVL72 دارای 1.5 برابر عملکرد هوش مصنوعی GB200 NVL72 است. یک سیستم DGS GB300 واحد 15 اگزافلاپ قدرت محاسباتی ارائه می‌دهد. Blackwell Ultra که قرار است در نیمه دوم سال 2025 عرضه شود، توسط طیف گسترده‌ای از فروشندگان تجهیزات سرور، از جمله Cisco، Dell، HPE، Lenovo، ASUS، Foxconn، Gigabyte، Pegatron و Quanta پشتیبانی خواهد شد. علاوه بر این، ارائه‌دهندگان خدمات ابری مانند AWS، GCP و Azure خدمات محاسباتی مبتنی بر Blackwell Ultra را ارائه خواهند کرد.

انویدیا علاوه بر این سیستم‌های کارخانه هوش مصنوعی در سطح نیروگاه، خط جدیدی از رایانه‌ها را نیز با هدف رفع نیازهای استنتاج در داخل شرکت‌ها معرفی کرده است. این موارد شامل رایانه‌های شخصی هوش مصنوعی DGX Spark و DGX Station است. DGX Spark، که از نظر اندازه شبیه به یک Mac mini است، تا 1 پتافلاپ (PFlops) قدرت محاسباتی ارائه می‌دهد.

برای درک بهتر این موضوع، ابررایانه Taiwania 3 که در سال 2021 با بیش از 50،000 هسته راه‌اندازی شد، تنها 2.7 پتافلاپ عملکرد ارائه می‌دهد. تنها در چهار سال، قدرت محاسباتی سه رایانه شخصی هوش مصنوعی در اندازه رومیزی از Taiwania 3 فراتر رفته است. قیمت این رایانه‌های شخصی هوش مصنوعی جدید با 128 گیگابایت حافظه، 3،999 دلار (تقریباً 130،000 دلار تایوان) است و برای تأمین نیازهای هوش مصنوعی داخلی در آینده در داخل شرکت‌ها، به عنوان کارخانه‌های کوچک هوش مصنوعی یا حتی در محیط‌های هوش مصنوعی لبه (Edge AI) طراحی شده‌اند.

نقشه راه آینده: Vera Rubin و فراتر از آن

جنسن هوانگ (Jensen Huang)، مدیرعامل انویدیا، نقشه راه محصول را برای دو سال آینده ترسیم کرده است. در نیمه دوم سال 2026، این شرکت قصد دارد Vera Rubin NVL144 را عرضه کند، که به نام ستاره‌شناس آمریکایی که ماده تاریک را کشف کرد، نامگذاری شده است. Vera Rubin NVL144، 3.3 برابر عملکرد GB300 NVL72 را ارائه می‌دهد، با ظرفیت حافظه، پهنای باند و سرعت NVLink که بیش از 1.6 برابر افزایش می‌یابد. در نیمه دوم سال 2027، انویدیا Rubin Ultra NVL576 را راه‌اندازی خواهد کرد، که 14 برابر عملکرد GB300 NVL72 را ارائه می‌دهد، با ظرفیت حافظه و سرعت پهنای باند به طور قابل توجهی افزایش یافته از طریق NVLink7 و CX9.

پس از معماری Vera Rubin، معماری نسل بعدی انویدیا به نام ریچارد فاینمن (Richard Feynman)، فیزیکدان مشهور آمریکایی، که به خاطر کارش در تحقیقات فاجعه شاتل فضایی چلنجر (Challenger) شناخته می‌شود، نامگذاری خواهد شد.

استراتژی نرم‌افزاری: Nvidia Dynamo

انویدیا همواره تأکید زیادی بر نرم‌افزار داشته است و آن را حتی مهم‌تر از سخت‌افزار می‌داند. این تمرکز استراتژیک به ابتکارات کارخانه هوش مصنوعی این شرکت نیز گسترش می‌یابد.

انویدیا علاوه بر گسترش کتابخانه شتاب‌دهنده هوش مصنوعی CUDA-X به حوزه‌های مختلف و توسعه کتابخانه‌های شتاب‌دهنده تخصصی، Nvidia Dynamo، یک سیستم عامل جدید کارخانه هوش مصنوعی را معرفی کرده است. نکته قابل توجه این است که انویدیا این سیستم عامل را به صورت متن‌باز (Open-source) منتشر کرده است.

Nvidia Dynamo یک چارچوب سرویس استنتاج متن‌باز است که برای ساخت پلتفرم‌هایی طراحی شده است که خدمات استنتاج LLM را ارائه می‌دهند. این چارچوب را می‌توان در محیط‌های K8s مستقر کرد و برای استقرار و مدیریت وظایف استنتاج هوش مصنوعی در مقیاس بزرگ از آن استفاده کرد. انویدیا قصد دارد Dynamo را در چارچوب میکروسرویس‌های NIM خود ادغام کند و آن را به یکجزء از چارچوب Nvidia AI Enterprise تبدیل کند.

Dynamo محصول نسل بعدی پلتفرم سرور استنتاج متن‌باز موجود انویدیا، یعنی Triton است. ویژگی کلیدی آن، تقسیم وظایف استنتاج LLM به دو مرحله است که امکان استفاده انعطاف‌پذیرتر و کارآمدتر از واحدهای پردازش گرافیکی (GPU) را برای بهینه‌سازی پردازش استنتاج، بهبود کارایی و به حداکثر رساندن استفاده از GPU فراهم می‌کند. Dynamo می‌تواند به طور پویا (Dynamically) GPU‌ها را بر اساس الزامات استنتاج تخصیص دهد و انتقال داده‌های ناهمزمان بین GPU‌ها را تسریع کند و زمان پاسخگویی استنتاج مدل را کاهش دهد.

مدل‌های GAI مبتنی بر ترانسفورماتور (Transformer) استنتاج را به دو مرحله تقسیم می‌کنند: Prefill (پیش ورودی)، که داده‌های ورودی را به توکن (Token) برای ذخیره‌سازی تبدیل می‌کند، و Decode، یک فرآیند متوالی که توکن بعدی را بر اساس توکن قبلی تولید می‌کند.

استنتاج LLM سنتی وظایف Prefill و Decode را به یک GPU یکسان اختصاص می‌دهد. با این حال، به دلیل ویژگی‌های محاسباتی متفاوت این وظایف، Dynamo آن‌ها را تقسیم می‌کند، منابع GPU را بر این اساس اختصاص می‌دهد و تخصیص را به طور پویا بر اساس ویژگی‌های وظیفه تنظیم می‌کند. این امر عملکرد خوشه GPU را بهینه می‌کند.

آزمایش‌های انویدیا نشان می‌دهد که استفاده از Dynamo با مدل DeepSeek-R1 با 671 میلیارد پارامتر بر روی GB200 NVL72 می‌تواند عملکرد استنتاج را 30 برابر بهبود بخشد. عملکرد روی Llama 70B که بر روی GPU‌های Hopper اجرا می‌شود نیز می‌تواند بیش از دو برابر بهبود یابد.

مدیریت وظایف استنتاج به دلیل ماهیت پیچیده محاسبات استنتاج و تنوع مدل‌های پردازش موازی پیچیده است. هوانگ تأکید کرد که انویدیا چارچوب Dynamo را برای ارائه یک سیستم عامل برای کارخانه‌های هوش مصنوعی راه‌اندازی کرده است.

مراکز داده سنتی برای سازماندهی برنامه‌های مختلف بر روی منابع IT سازمانی به سیستم عامل‌هایی مانند VMware متکی هستند. Agentهای هوش مصنوعی، برنامه‌های کاربردی آینده هستند و کارخانه‌های هوش مصنوعی به Dynamo نیاز دارند، نه VMware.

نامگذاری سیستم عامل جدید کارخانه هوش مصنوعی توسط هوانگ به نام Dynamo، موتوری که جرقه انقلاب صنعتی را زد، انتظارات و جاه‌طلبی‌های او برای این پلتفرم را نشان می‌دهد.