Двойната стратегия на Nvidia за Agent AI Inference

Nvidia насочва поглед към бъдещата вълна на AI, базиран на агенти, област, която обещава да постави безпрецедентни изисквания към възможностите за inference. За да отговори на това предизвикателство, Nvidia представи цялостна стратегия, обхващаща както хардуерни, така и софтуерни иновации.

Хардуерна стратегия: Мащабиране нагоре и навън

В основата на хардуерната стратегия на Nvidia лежи неуморното преследване на все по-мощни GPU. Компанията възприема двупосочен подход, като първо се фокусира върху вертикалното мащабиране, а след това и върху хоризонталното мащабиране. Целта е не само да се разработи един-единствен, ултра-мощен AI суперкомпютър в шкаф, но и да се създаде цяла екосистема от взаимосвързани шкафове, формиращи огромен AI суперкомпютърен комплекс. Този подход ‘AI фабрика’ е проектиран да осигури изчислителната мощ, необходима за най-взискателните AI работни натоварвания.

Новият Blackwell Ultra монтиран в шкаф AI суперкомпютър, представен на скорошната конференция GTC, е пример за тази стратегия. Проектиран да ускори както обучението, така и inference мащабирането по време на тестване, Blackwell Ultra използва съществуващата Blackwell архитектура, но включва по-мощния GB300 NVL72. Тази конфигурация разполага със 72 Blackwell Ultra GPU, взаимосвързани чрез NVLink, осигурявайки зашеметяващите 1,1 Екзафлопа изчислителна мощност с FP4 прецизност. GB300 NVL72 може да се похвали с 1,5 пъти по-висока AI производителност от GB200 NVL72. Една DGS GB300 система предлага 15 Екзафлопа изчислителна мощност. Планиран за пускане през втората половина на 2025 г., Blackwell Ultra ще бъде поддържан от широка гама доставчици на сървърно оборудване, включително Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron и Quanta. Освен това, доставчици на облачни услуги като AWS, GCP и Azure ще предлагат изчислителни услуги, базирани на Blackwell Ultra.

Отвъд тези AI фабрични системи на ниво електроцентрала, Nvidia също така представи нова линия компютри, насочени към нуждите от inference в рамките на предприятията. Те включват DGX Spark и DGX Station персонални AI компютри. DGX Spark, наподобяващ Mac mini по размер, доставя до 1 PFlops изчислителна мощност.

За да поставим това в перспектива, суперкомпютърът Taiwania 3, пуснат през 2021 г. с над 50 000 ядра, осигурява само 2,7 PFlops производителност. Само за четири години, изчислителната мощност на три персонални AI компютъра с размер на настолен компютър надмина тази на Taiwania 3. На цена от $3,999 (приблизително NT$130,000) за конфигурацията с 128GB памет, тези нови персонални AI компютри са проектирани да захранват бъдещите вътрешни AI нужди в рамките на предприятията, служейки като мини-AI фабрики или дори работещи в edge AI среди.

Бъдеща пътна карта: Vera Rubin и след това

Гледайки напред, главният изпълнителен директор на Nvidia, Дженсън Хуанг, очерта продуктова пътна карта за следващите две години. През втората половина на 2026 г. компанията планира да пусне Vera Rubin NVL144, кръстен на американския астроном, открил тъмната материя. Vera Rubin NVL144 ще предложи 3,3 пъти по-висока производителност от GB300 NVL72, като капацитетът на паметта, честотната лента и скоростите на NVLink ще се увеличат с над 1,6 пъти. През втората половина на 2027 г. Nvidia ще пусне Rubin Ultra NVL576, който ще достави 14 пъти по-висока производителност от GB300 NVL72, със значително подобрен капацитет на паметта и скорости на честотна лента чрез NVLink7 и CX9.

След архитектурата Vera Rubin, следващото поколение архитектура на Nvidia ще бъде кръстено на известния американски физик Ричард Файнман, известен с работата си по разследването на катастрофата на космическата совалка Чалънджър.

Софтуерна стратегия: Nvidia Dynamo

Nvidia винаги е поставяла силен акцент върху софтуера, считайки го за още по-критичен от хардуера. Този стратегически фокус се простира и до инициативите на компанията за AI фабрики.

В допълнение към разширяването на CUDA-X AI библиотеката за ускорение към различни области и разработването на специализирани библиотеки за ускорение, Nvidia представи Nvidia Dynamo, нова операционна система за AI фабрики. Важно е, че Nvidia пусна тази операционна система с отворен код.

Nvidia Dynamo е рамка за inference услуга с отворен код, предназначена за изграждане на платформи, които предоставят LLM inference услуги. Тя може да бъде разгърната в K8s среди и използвана за разгръщане и управление на мащабни AI inference задачи. Nvidia планира да интегрира Dynamo в своята NIM микросервисна рамка, превръщайки я в компонент на Nvidia AI Enterprise рамката.

Dynamo е продукт от следващо поколение на съществуващата платформа за inference сървър с отворен код на Nvidia, Triton. Нейната ключова характеристика е разделянето на LLM inference задачите на два етапа, което позволява по-гъвкаво и ефективно използване на GPU за оптимизиране на inference обработката, подобряване на ефективността и максимизиране на използването на GPU. Dynamo може динамично да разпределя GPU въз основа на изискванията за inference и да ускори асинхронния трансфер на данни между GPU, намалявайки времето за реакция на model inference.

Базираните на трансформатори GAI модели разделят inference на два етапа: Prefill (предварително въвеждане), който преобразува входните данни в токени за съхранение, и Decode, последователен процес, който генерира следващия токен въз основа на предишния.

Традиционният LLM inference възлага и двете задачи Prefill и Decode на един и същ GPU. Въпреки това, поради различните изчислителни характеристики на тези задачи, Dynamo ги разделя, разпределяйки GPU ресурси съответно и динамично коригирайки разпределението въз основа на характеристиките на задачата. Това оптимизира производителността на GPU клъстера.

Тестовете на Nvidia показват, че използването на Dynamo с 671 милиарда-параметров DeepSeek-R1 модел на GB200 NVL72 може да подобри производителността на inference с 30 пъти. Производителността на Llama 70B, работещ на Hopper GPU, също може да бъде подобрена с повече от два пъти.

Управлението на inference задачите е сложно поради сложната природа на inference изчислението и разнообразието от модели за паралелна обработка. Хуанг подчерта, че Nvidia е пуснала рамката Dynamo, за да осигури операционна система за AI фабрики.

Традиционните центрове за данни разчитат на операционни системи като VMware, за да оркестрират различни приложения върху корпоративни ИТ ресурси. AI агентите са приложенията на бъдещето, а AI фабриките изискват Dynamo, а не VMware.

Наименованието на новата операционна система за AI фабрики от Хуанг на Dynamo, двигател, който даде началото на индустриалната революция, разкрива неговите очаквания и амбиции за платформата.