Nvidia koncentruje się na przyszłej fali sztucznej inteligencji opartej na agentach, domenie, która zapowiada bezprecedensowe wymagania dotyczące możliwości wnioskowania. Aby sprostać temu wyzwaniu, Nvidia zaprezentowała kompleksową strategię obejmującą zarówno innowacje sprzętowe, jak i programowe.
Strategia Sprzętowa: Skalowanie w Górę i na Zewnątrz
Sercem strategii sprzętowej Nvidii jest nieustanne dążenie do coraz potężniejszych procesorów graficznych (GPU). Firma przyjęła dwutorowe podejście, najpierw koncentrując się na skalowaniu wertykalnym, a następnie na skalowaniu horyzontalnym. Celem jest nie tylko opracowanie pojedynczego, ultra-potężnego superkomputera AI w szafie serwerowej, ale stworzenie całego ekosystemu połączonych ze sobą szaf, tworzących ogromny kompleks superkomputerów AI. To podejście ‘fabryki AI’ ma na celu zapewnienie mocy obliczeniowej wymaganej do najbardziej wymagających obciążeń AI.
Nowy superkomputer AI Blackwell Ultra, montowany w szafie serwerowej, zaprezentowany na niedawnej konferencji GTC, jest przykładem tej strategii. Zaprojektowany, aby przyspieszyć zarówno trening, jak i wnioskowanie na etapie testów, Blackwell Ultra wykorzystuje istniejącą architekturę Blackwell, ale zawiera potężniejszy GB300 NVL72. Ta konfiguracja zawiera 72 procesory graficzne Blackwell Ultra połączone za pośrednictwem NVLink, zapewniając oszałamiającą moc obliczeniową 1,1 eksaflopa z precyzją FP4. GB300 NVL72 szczyci się 1,5-krotnie większą wydajnością AI niż GB200 NVL72. Pojedynczy system DGS GB300 oferuje 15 eksaflopów mocy obliczeniowej. Blackwell Ultra, którego premiera zaplanowana jest na drugą połowę 2025 roku, będzie obsługiwany przez szeroką gamę dostawców sprzętu serwerowego, w tym Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron i Quanta. Ponadto dostawcy usług chmurowych, tacy jak AWS, GCP i Azure, będą oferować usługi obliczeniowe oparte na Blackwell Ultra.
Oprócz tych systemów fabryk AI na poziomie elektrowni, Nvidia wprowadziła również nową linię komputerów skierowaną do potrzeb wnioskowania w przedsiębiorstwach. Należą do nich osobiste komputery AI DGX Spark i DGX Station. DGX Spark, przypominający wielkością Maca mini, zapewnia do 1 PFlops mocy obliczeniowej.
Aby to zobrazować, superkomputer Taiwania 3, uruchomiony w 2021 roku z ponad 50 000 rdzeni, zapewnia jedynie 2,7 PFlops wydajności. W ciągu zaledwie czterech lat moc obliczeniowa trzech osobistych komputerów AI wielkości komputera stacjonarnego przewyższyła moc Taiwania 3. W cenie 3999 USD (około 130 000 NT$) za konfigurację z 128 GB pamięci, te nowe osobiste komputery AI mają na celu zasilanie przyszłych wewnętrznych potrzeb AI w przedsiębiorstwach, służąc jako mini-fabryki AI lub nawet działając w środowiskach brzegowych AI (edge AI).
Przyszły Plan Działania: Vera Rubin i Dalej
Patrząc w przyszłość, dyrektor generalny Nvidii, Jensen Huang, nakreślił plan działania dla produktów na następne dwa lata. W drugiej połowie 2026 roku firma planuje wydać Vera Rubin NVL144, nazwaną na cześć amerykańskiej astronom, która odkryła ciemną materię. Vera Rubin NVL144 zaoferuje 3,3 razy większą wydajność niż GB300 NVL72, a pojemność pamięci, przepustowość i prędkości NVLink wzrosną o ponad 1,6 razy. W drugiej połowie 2027 roku Nvidia wprowadzi na rynek Rubin Ultra NVL576, który zapewni 14 razy większą wydajność niż GB300 NVL72, ze znacznie zwiększoną pojemnością pamięci i prędkościami przepustowości przez NVLink7 i CX9.
Po architekturze Vera Rubin, następna generacja architektury Nvidii zostanie nazwana na cześć znanego amerykańskiego fizyka Richarda Feynmana, znanego ze swojej pracy nad dochodzeniem w sprawie katastrofy wahadłowca Challenger.
Strategia Programowa: Nvidia Dynamo
Nvidia zawsze kładła duży nacisk na oprogramowanie, uważając je za jeszcze ważniejsze niż sprzęt. To strategiczne skupienie rozciąga się na inicjatywy firmy dotyczące fabryk AI.
Oprócz rozszerzenia biblioteki akceleracji AI CUDA-X na różne domeny i opracowywania wyspecjalizowanych bibliotek akceleracji, Nvidia wprowadziła Nvidia Dynamo, nowy system operacyjny fabryki AI. Co ważne, Nvidia udostępniła ten system operacyjny na zasadach open-source.
Nvidia Dynamo to platforma open-source do obsługi wnioskowania, zaprojektowana do budowania platform, które zapewniają usługi wnioskowania LLM (Large Language Model). Można ją wdrażać w środowiskach K8s i wykorzystywać do wdrażania i zarządzania zadaniami wnioskowania AI na dużą skalę. Nvidia planuje zintegrować Dynamo ze swoją platformą mikroserwisów NIM, czyniąc ją komponentem platformy Nvidia AI Enterprise.
Dynamo jest produktem nowej generacji istniejącej platformy serwerów wnioskowania open-source Nvidii, Triton. Jego kluczową cechą jest podział zadań wnioskowania LLM na dwa etapy, co pozwala na bardziej elastyczne i wydajne wykorzystanie procesorów graficznych w celu optymalizacji przetwarzania wnioskowania, poprawy wydajności i maksymalizacji wykorzystania procesorów graficznych. Dynamo może dynamicznie alokować procesory graficzne w oparciu o wymagania wnioskowania i przyspieszać asynchroniczny transfer danych między procesorami graficznymi, skracając czasy odpowiedzi wnioskowania modelu.
Modele GAI oparte na Transformerach dzielą wnioskowanie na dwa etapy: Prefill (wstępne wprowadzenie), który konwertuje dane wejściowe na tokeny do przechowywania, oraz Decode, sekwencyjny proces, który generuje następny token na podstawie poprzedniego.
Tradycyjne wnioskowanie LLM przypisuje zarówno zadania Prefill, jak i Decode do tego samego procesora graficznego. Jednak ze względu na różne charakterystyki obliczeniowe tych zadań, Dynamo dzieli je, odpowiednio przypisując zasoby GPU i dynamicznie dostosowując alokację w oparciu o charakterystyki zadania. Optymalizuje to wydajność klastra GPU.
Testy Nvidii pokazują, że użycie Dynamo z modelem DeepSeek-R1 o parametrach 671 miliardów na GB200 NVL72 może poprawić wydajność wnioskowania 30-krotnie. Wydajność na Llama 70B działającym na Hopper GPU może również zostać poprawiona ponad dwukrotnie.
Zarządzanie zadaniami wnioskowania jest złożone ze względu na skomplikowany charakter obliczeń wnioskowania i różnorodność modeli przetwarzania równoległego. Huang podkreślił, że Nvidia uruchomiła platformę Dynamo, aby zapewnić system operacyjny dla fabryk AI.
Tradycyjne centra danych opierają się na systemach operacyjnych, takich jak VMware, aby organizować różne aplikacje na zasobach IT przedsiębiorstwa. Agenci AI są aplikacjami przyszłości, a fabryki AI wymagają Dynamo, a nie VMware.
Nazwanie przez Huanga nowego systemu operacyjnego fabryki AI po Dynamo, silniku, który zapoczątkował rewolucję przemysłową, ujawnia jego oczekiwania i ambicje wobec platformy.