Nvidia richtet seinen Fokus auf die nächste Welle der agentenbasierten KI, einem Bereich, der beispiellose Anforderungen an die Inferenzfähigkeiten stellen wird. Um dieser Herausforderung zu begegnen, hat Nvidia eine umfassende Strategie vorgestellt, die sowohl Hardware- als auch Softwareinnovationen umfasst.
Hardware-Strategie: Skalierung nach oben und außen
Im Zentrum von Nvidias Hardware-Strategie steht das unermüdliche Streben nach immer leistungsfähigeren GPUs. Das Unternehmen verfolgt einen zweigleisigen Ansatz, der sich zunächst auf die vertikale Skalierung und dann auf die horizontale Skalierung konzentriert. Ziel ist es nicht nur, einen einzigen, extrem leistungsstarken KI-Supercomputer in einem Rack zu entwickeln, sondern ein ganzes Ökosystem von miteinander verbundenen Racks zu schaffen, das einen riesigen KI-Supercomputerkomplex bildet. Dieser ‘KI-Fabrik’-Ansatz soll die Rechenleistung bereitstellen, die für die anspruchsvollsten KI-Workloads erforderlich ist.
Der neue Blackwell Ultra Rack-montierte KI-Supercomputer, der auf der letzten GTC-Konferenz vorgestellt wurde, ist ein Beispiel für diese Strategie. Der Blackwell Ultra wurde entwickelt, um sowohl das Training als auch die Testzeit-Skalierung der Inferenz zu beschleunigen. Er nutzt die bestehende Blackwell-Architektur, beinhaltet aber den leistungsstärkeren GB300 NVL72. Diese Konfiguration verfügt über 72 Blackwell Ultra GPUs, die über NVLink miteinander verbunden sind und eine erstaunliche Rechenleistung von 1,1 Exaflops mit FP4-Präzision liefern. Der GB300 NVL72 bietet die 1,5-fache KI-Leistung des GB200 NVL72. Ein einzelnes DGS GB300-System bietet 15 Exaflops an Rechenleistung. Der Blackwell Ultra, der in der zweiten Jahreshälfte 2025 auf den Markt kommen soll, wird von einer Vielzahl von Servergeräteherstellern unterstützt, darunter Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron und Quanta. Darüber hinaus werden Cloud-Service-Provider wie AWS, GCP und Azure Rechenleistungen anbieten, die auf dem Blackwell Ultra basieren.
Über diese KI-Fabriksysteme auf Kraftwerksniveau hinaus hat Nvidia auch eine neue Reihe von Computern vorgestellt, die auf die Inferenzbedürfnisse in Unternehmen zugeschnitten sind. Dazu gehören die Personal-KI-Computer DGX Spark und DGX Station. Der DGX Spark, der die Größe eines Mac mini hat, liefert bis zu 1 PFlops an Rechenleistung.
Um dies ins rechte Licht zu rücken: Der Supercomputer Taiwania 3, der 2021 mit über 50.000 Kernen auf den Markt kam, bietet nur 2,7 PFlops an Leistung. In nur vier Jahren hat die Rechenleistung von drei Personal-KI-Computern in Desktop-Größe die von Taiwania 3 übertroffen. Diese neuen Personal-KI-Computer, die für die 128-GB-Speicherkonfiguration einen Preis von 3.999 US-Dollar (ca. 130.000 NT$) haben, sind so konzipiert, dass sie die zukünftigen internen KI-Bedürfnisse in Unternehmen decken und als Mini-KI-Fabriken dienen oder sogar in Edge-KI-Umgebungen eingesetzt werden können.
Zukünftige Roadmap: Vera Rubin und darüber hinaus
Mit Blick auf die Zukunft hat Nvidia CEO Jensen Huang eine Produkt-Roadmap fürdie nächsten zwei Jahre skizziert. In der zweiten Jahreshälfte 2026 plant das Unternehmen die Veröffentlichung des Vera Rubin NVL144, benannt nach der amerikanischen Astronomin, die die dunkle Materie entdeckt hat. Der Vera Rubin NVL144 wird die 3,3-fache Leistung des GB300 NVL72 bieten, wobei Speicherkapazität, Bandbreite und NVLink-Geschwindigkeiten um mehr als das 1,6-fache steigen werden. In der zweiten Jahreshälfte 2027 wird Nvidia den Rubin Ultra NVL576 auf den Markt bringen, der die 14-fache Leistung des GB300 NVL72 liefern wird, mit deutlich verbesserter Speicherkapazität und Bandbreitengeschwindigkeiten über NVLink7 und CX9.
Nach der Vera-Rubin-Architektur wird die nächste Generation der Nvidia-Architektur nach dem renommierten amerikanischen Physiker Richard Feynman benannt, der für seine Arbeit an der Untersuchung der Challenger-Raumfährenkatastrophe bekannt ist.
Software-Strategie: Nvidia Dynamo
Nvidia hat schon immer einen starken Schwerpunkt auf Software gelegt und sie sogar als noch wichtiger als Hardware angesehen. Dieser strategische Fokus erstreckt sich auch auf die KI-Fabrik-Initiativen des Unternehmens.
Neben der Erweiterung der CUDA-X-KI-Beschleunigungsbibliothek auf verschiedene Bereiche und der Entwicklung spezialisierter Beschleunigungsbibliotheken hat Nvidia Nvidia Dynamo vorgestellt, ein neues KI-Fabrik-Betriebssystem. Bemerkenswert ist, dass Nvidia dieses Betriebssystem als Open Source veröffentlicht hat.
Nvidia Dynamo ist ein Open-Source-Inferenzservice-Framework, das entwickelt wurde, um Plattformen zu bauen, die LLM-Inferenzdienste bereitstellen. Es kann in K8s-Umgebungen eingesetzt werden und wird verwendet, um umfangreiche KI-Inferenzaufgaben bereitzustellen und zu verwalten. Nvidia plant, Dynamo in sein NIM-Microservices-Framework zu integrieren und es zu einem Bestandteil des Nvidia AI Enterprise Framework zu machen.
Dynamo ist das Produkt der nächsten Generation von Nvidias bestehender Open-Source-Inferenzserver-Plattform Triton. Sein Hauptmerkmal ist die Aufteilung von LLM-Inferenzaufgaben in zwei Phasen, die eine flexiblere und effizientere Nutzung von GPUs ermöglichen, um die Inferenzverarbeitung zu optimieren, die Effizienz zu verbessern und die GPU-Auslastung zu maximieren. Dynamo kann GPUs dynamisch basierend auf den Inferenzanforderungen zuweisen und die asynchrone Datenübertragung zwischen GPUs beschleunigen, wodurch die Antwortzeiten der Modellinferenz reduziert werden.
Transformer-basierte GAI-Modelle teilen die Inferenz in zwei Phasen auf: Prefill (Vorab-Eingabe), das Eingabedaten in Token zur Speicherung umwandelt, und Decode, ein sequenzieller Prozess, der das nächste Token basierend auf dem vorherigen generiert.
Die traditionelle LLM-Inferenz weist sowohl Prefill- als auch Decode-Aufgaben derselben GPU zu. Aufgrund der unterschiedlichen Recheneigenschaften dieser Aufgaben teilt Dynamo sie jedoch auf, weist GPU-Ressourcen entsprechend zu und passt die Zuweisung basierend auf den Aufgabeneigenschaften dynamisch an. Dies optimiert die GPU-Clusterleistung.
Nvidias Tests zeigen, dass die Verwendung von Dynamo mit dem 671 Milliarden-Parameter DeepSeek-R1-Modell auf GB200 NVL72 die Inferenzleistung um das 30-fache verbessern kann. Die Leistung von Llama 70B, das auf Hopper-GPUs läuft, kann ebenfalls um mehr als das Doppelte verbessert werden.
Die Verwaltung von Inferenzaufgaben ist komplex, da die Inferenzberechnung kompliziert ist und es eine Vielzahl von parallelen Verarbeitungsmodellen gibt. Huang betonte, dass Nvidia das Dynamo-Framework auf den Markt gebracht hat, um ein Betriebssystem für KI-Fabriken bereitzustellen.
Traditionelle Rechenzentren verlassen sich auf Betriebssysteme wie VMware, um verschiedene Anwendungen auf Enterprise-IT-Ressourcen zu orchestrieren. KI-Agenten sind die Anwendungen der Zukunft, und KI-Fabriken benötigen Dynamo, nicht VMware.
Huangs Benennung des neuen KI-Fabrik-Betriebssystems nach dem Dynamo, einem Motor, der die industrielle Revolution auslöste, offenbart seine Erwartungen und Ambitionen für die Plattform. Die skalierbare Architektur von Nvidias Hardware, kombiniert mit der Flexibilität und Effizienz von Dynamo, positioniert das Unternehmen an der Spitze der kommenden Ära der Agent-basierten KI.