Eine merkwürdige Korrektur: Nvidia überdenkt seine GPU-Zählung
Im hochriskanten Theater der Halbleiterinnovation dient Nvidias GPU Technology Conference (GTC) als erstklassige Bühne zur Enthüllung der Zukunft. Während der letzten Veranstaltung, inmitten des erwarteten Rummels um Fortschritte in künstlicher Intelligenz und beschleunigtem Computing, führte das Unternehmen eine subtile, aber potenziell tiefgreifende Änderung ein – eine Modifikation in der grundlegenden Definition einer Graphics Processing Unit (GPU). Dies war nicht nur eine technische Fußnote; es war eine Neukalibrierung mit erheblichen nachgelagerten Auswirkungen, insbesondere hinsichtlich der Kostenstruktur für den Einsatz von Nvidias fortschrittlichen KI-Lösungen.
CEO Jensen Huang selbst sprach die Änderung direkt von der GTC-Bühne an und rahmte sie als Korrektur eines früheren Versehens bezüglich ihrer hochmodernen Blackwell-Architektur ein. ‘Eines der Dinge, bei denen ich einen Fehler gemacht habe: Blackwell besteht eigentlich aus zwei GPUs in einem Blackwell-Chip’, erklärte er. Die vorgebrachte Begründung konzentrierte sich auf Klarheit und Konsistenz, insbesondere hinsichtlich der Namenskonventionen im Zusammenhang mit NVLink, Nvidias Hochgeschwindigkeits-Interconnect-Technologie. ‘Wir nannten diesen einen Chip eine GPU, und das war falsch. Der Grund dafür ist, dass es die gesamte NVLink-Nomenklatur durcheinanderbringt’, führte Huang aus. Während die Vereinfachung von Modellnummern eine gewisse logische Ordnung bietet, hat diese Neudefinition eine Bedeutung, die weit über bloße Semantik hinausgeht.
Der Kern der Verschiebung liegt darin, von der Zählung der physischen Module (insbesondere des SXM-Formfaktors, der in Hochleistungsservern üblich ist) als einzelne GPUs zur Zählung der einzelnen Silizium-Dies innerhalb dieser Module überzugehen. Diese scheinbar geringfügige terminologische Anpassung hat das Potenzial, die finanzielle Landschaft für Organisationen, die Nvidias AI Enterprise Software-Suite nutzen, dramatisch zu verändern.
Der finanzielle Welleneffekt: Verdopplung der AI Enterprise-Lizenzierung?
Nvidias AI Enterprise ist eine umfassende Softwareplattform, die die Entwicklung und Bereitstellung von KI-Anwendungen rationalisieren soll. Sie umfasst eine breite Palette von Tools, Frameworks und, entscheidend, den Zugang zu Nvidia Inference Microservices (NIMs), bei denen es sich um optimierte Container für die effiziente Ausführung von KI-Modellen handelt. Das Lizenzmodell für diese leistungsstarke Suite war historisch direkt an die Anzahl der eingesetzten GPUs gebunden. Aktuelle Preisstrukturen legen die Kosten auf etwa 4.500 US-Dollar pro GPU jährlich oder einen Cloud-basierten Satz von 1 US-Dollar pro GPU pro Stunde fest.
Betrachten wir die vorherige Generation oder bestimmte Blackwell-Konfigurationen. Ein Nvidia HGX B200 Server, ausgestattet mit acht SXM-Modulen, wobei jedes Modul das enthielt, was damals als eine einzelne Blackwell-GPU galt, würde acht AI Enterprise-Lizenzen erfordern. Dies entsprach jährlichen Software-Abonnementkosten von 36.000 US-Dollar (8 GPUs * 4.500 $/GPU) oder Cloud-Kosten von 8 US-Dollar pro Stunde (8 GPUs * 1 $/GPU/Stunde).
Nun betreten wir die neu definierte Landschaft mit Systemen wie dem HGX B300 NVL16. Dieses System verfügt ebenfalls über acht physische SXM-Module. Unter der überarbeiteten Definition zählt Nvidia jedoch nun jeden Silizium-Die innerhalb dieser Module als einzelne GPU. Da jedes Modul in dieser spezifischen Konfiguration zwei Dies enthält, verdoppelt sich die Gesamt-GPU-Anzahl für Lizenzierungszwecke effektiv auf 16 GPUs (8 Module * 2 Dies/Modul).
Angenommen, Nvidia behält seine bestehende Pro-GPU-Preisstruktur für die AI Enterprise-Suite bei – ein Punkt, zu dem das Unternehmen erklärt hat, dass er noch nicht endgültig festgelegt ist –, sind die Auswirkungen gravierend. Derselbe Acht-Modul-HGX-B300-System würde nun potenziell 16 Lizenzen erfordern, was die jährlichen Softwarekosten auf 72.000 US-Dollar (16 GPUs * 4.500 $/GPU) oder 16 US-Dollar pro Stunde in der Cloud katapultiert. Dies stellt eine 100%ige Steigerung der Software-Abonnementkosten für scheinbar vergleichbare Hardwaredichte dar, die direkt aus der Änderung der Zählweise einer ‘GPU’ resultiert.
Eine Geschichte zweier Architekturen: Vereinbarkeit früherer Aussagen
Diese Verschiebung in der Nomenklatur stellt einen interessanten Kontrast zu Nvidias früheren Charakterisierungen der Blackwell-Architektur dar. Als Blackwell ursprünglich vorgestellt wurde, kamen Diskussionen über sein Design auf, das mehrere Siliziumstücke (Dies) umfasst, die innerhalb eines einzigen Prozessor-Packages miteinander verbunden sind. Damals wehrte sich Nvidia aktiv dagegen, Blackwell mit dem Begriff ‘Chiplet’-Architektur zu beschreiben – einem gängigen Branchenbegriff für Designs, die mehrere kleinere, miteinander verbundene Dies verwenden. Stattdessen betonte das Unternehmen eine andere Perspektive.
Wie während der Berichterstattung zur Blackwell-Einführung berichtet wurde, argumentierte Nvidia, dass es eine ‘Zwei-Reticle-limitierte Die-Architektur verwendet, die als vereinheitlichte, einzelne GPU fungiert’. Diese Formulierung deutete stark darauf hin, dass die beiden Dies trotz ihrer physischen Präsenz kohäsiv als eine logische Verarbeitungseinheit funktionierten. Die neue Zählmethode, die auf die B300-Konfiguration angewendet wird, scheint sich von diesem Konzept der ‘vereinheitlichten, einzelnen GPU’ abzuwenden, zumindest aus Sicht der Softwarelizenzierung, und behandelt die Dies als separate Einheiten. Dies wirft Fragen auf, ob die ursprüngliche Beschreibung hauptsächlich auf das funktionale Potenzial der Hardware abzielte oder ob sich die strategische Perspektive auf die Lizenzierung weiterentwickelt hat.
Leistungssteigerungen vs. potenzielle Kostensteigerungen: Bewertung des B300-Angebots
Bei der Betrachtung der potenziellen Verdopplung der Softwarelizenzgebühren für den HGX B300 im Vergleich zu seinen Vorgängern wie dem B200 ist es entscheidend, die Leistungssteigerungen zu untersuchen, die die neuere Hardware bietet. Liefert der B300 die doppelte KI-Verarbeitungsleistung, um die potenzielle Verdopplung der Softwarekosten zu rechtfertigen? Die Spezifikationen deuten auf ein differenzierteres Bild hin.
Der HGX B300 weist Verbesserungen auf:
- Erhöhte Speicherkapazität: Er bietet ungefähr 2,3 Terabyte High-Bandwidth Memory (HBM) pro System, ein signifikanter Sprung um etwa das 1,5-fache im Vergleich zu den 1,5 TB, die auf dem B200 verfügbar sind. Dies ist entscheidend für die Handhabung größerer KI-Modelle und Datensätze.
- Verbesserte Leistung bei niedriger Präzision: Der B300 zeigt eine bemerkenswerte Leistungssteigerung bei Berechnungen mit 4-Bit-Gleitkomma-Präzision (FP4). Sein FP4-Durchsatz erreicht knapp über 105 dichte PetaFLOPS pro System, eine Steigerung von etwa 50 % gegenüber dem B200. Diese Beschleunigung ist besonders vorteilhaft für bestimmte KI-Inferenzaufgaben, bei denen eine geringere Präzision akzeptabel ist.
Der Leistungsvorteil ist jedoch nicht universell für alle Workloads. Entscheidend ist, dass der B300 für Aufgaben, die eine höhere Gleitkomma-Arithmetikpräzision erfordern (wie FP8, FP16 oder FP32), keinen signifikanten Vorteil bei den Gleitkommaoperationen gegenüber dem älteren B200-System bietet. Viele komplexe KI-Trainings- und wissenschaftliche Berechnungsaufgaben sind stark von diesen höheren Präzisionsformaten abhängig.
Daher stehen Organisationen, die den B300 evaluieren, vor einer komplexen Kalkulation. Sie gewinnen erhebliche Speicherkapazität und einen Schub bei der FP4-Leistung, aber die potenzielle Verdopplung der AI Enterprise-Softwarekosten wird möglicherweise nicht durch eine entsprechende Verdopplung der Leistung für ihre spezifischen, höherpräzisen Workloads ausgeglichen. Das Wertversprechen hängt stark von der Art der ausgeführten KI-Aufgaben ab.
Die technische Begründung: Interconnects und Unabhängigkeit
Interessanterweise wird diese neue Die-Zählmethodik nicht universell auf alle neuen Blackwell-basierten Systeme angewendet, die auf der GTC angekündigt wurden. Die leistungsstärkeren, flüssigkeitsgekühlten GB300 NVL72-Systeme beispielsweise halten weiterhin an der älteren Konvention fest und zählen das gesamte Package (das zwei Dies enthält) für Lizenzierungszwecke als eine einzige GPU. Diese Abweichung wirft die Frage auf: Warum der Unterschied?
Nvidia liefert eine technische Begründung, die in der Interconnect-Technologie innerhalb der GPU-Packages selbst verwurzelt ist. Laut Ian Buck, Nvidias Vice President und General Manager für Hyperscale und HPC, liegt der Unterschied im Vorhandensein oder Fehlen eines entscheidenden Chip-to-Chip (C2C)-Interconnects, der die beiden Dies innerhalb des Packages direkt verbindet.
HGX B300-Konfiguration: Den spezifischen Blackwell-Packages, die in den luftgekühlten HGX B300-Systemen verwendet werden, fehlt dieser direkte C2C-Interconnect. Wie Buck erklärte, wurde diese Designentscheidung getroffen, um den Stromverbrauch und das Wärmemanagement innerhalb der Einschränkungen des luftgekühlten Chassis zu optimieren. Die Konsequenz ist jedoch, dass die beiden Dies auf einem einzelnen B300-Modul mit einem größeren Grad an Unabhängigkeit arbeiten. Wenn ein Die auf Daten zugreifen muss, die im High-Bandwidth Memory gespeichert sind, das physisch mit dem anderen Die auf demselben Modul verbunden ist, kann es dies nicht direkt tun. Stattdessen muss die Datenanforderung das Package verlassen, das externe NVLink-Netzwerk durchlaufen (wahrscheinlich über einen NVLink-Switch-Chip auf dem Server-Motherboard) und dann zum Speichercontroller des anderen Dies zurückgeleitet werden. Dieser Umweg unterstreicht die Vorstellung, dass es sich um zwei funktional getrennte Verarbeitungseinheiten handelt, die sich ein gemeinsames Package teilen, aber externe Kommunikationswege für die vollständige gemeinsame Speichernutzung benötigen. Diese Trennung, so argumentiert Nvidia, rechtfertigt die Zählung als zwei separate GPUs.
GB300 NVL72-Konfiguration: Im Gegensatz dazu behalten die ‘Superchip’-Packages, die in den High-End-GB300-Systemen verwendet werden, den Hochgeschwindigkeits-C2C-Interconnect bei. Diese direkte Verbindung ermöglicht es den beiden Dies innerhalb des Packages, viel effizienter und direkter zu kommunizieren und Speicherressourcen gemeinsam zu nutzen, ohne den Umweg über den NVLink-Switch außerhalb des Packages. Da sie kohäsiver funktionieren und Speicher nahtlos gemeinsam nutzen können, werden sie aus Software- und Lizenzierungssicht als eine einzige, vereinheitlichte GPU behandelt, was mit der ursprünglichen ‘vereinheitlichten’ Beschreibung der Blackwell-Architektur übereinstimmt.
Diese technische Unterscheidung liefert eine logische Grundlage für die unterschiedlichen Zählmethoden. Die Dies des B300 sind aufgrund des fehlenden C2C-Links funktional stärker getrennt, was die Zählung als zwei GPUs glaubwürdig macht. Die Dies des GB300 sind eng gekoppelt, was die Zählung als eine GPU unterstützt.
Ein Blick in die Zukunft: Vera Rubin setzt den Präzedenzfall
Während der GB300 derzeit eine Ausnahme darstellt, scheint der für den B300 übernommene Die-Zählansatz für Nvidias zukünftige Richtung indikativ zu sein. Das Unternehmen hat bereits signalisiert, dass seine nächste Generation Plattform, Codename Vera Rubin, die zu einem späteren Zeitpunkt veröffentlicht werden soll, diese neue Nomenklatur vollständig übernehmen wird.
Die Namenskonvention selbst gibt einen Hinweis. Systeme, die auf der Rubin-Architektur basieren, werden mit hohen Nummern bezeichnet, wie z. B. NVL144. Diese Bezeichnung impliziert stark die Zählung einzelner Dies anstelle von Modulen. Folgt man der B300-Logik, würde ein NVL144-System wahrscheinlich aus einer bestimmten Anzahl von Modulen bestehen, die jeweils mehrere Dies enthalten und sich für Lizenzierungs- und Spezifikationszwecke auf 144 zählbare GPU-Dies summieren.
Dieser Trend ist in Nvidias Roadmap für Ende 2027 mit der Vera Rubin Ultra-Plattform noch ausgeprägter. Diese Plattform rühmt sich erstaunlicher 576 GPUs pro Rack. Wie bereits analysiert, wird diese beeindruckende Zahl nicht erreicht, indem 576 separate physische Module in ein Rack gepackt werden. Stattdessen spiegelt sie das neue Zählparadigma wider, das multiplikativ angewendet wird. Die Architektur umfasst wahrscheinlich 144 physische Module pro Rack, wobei jedes Modul jedoch vier separate Silizium-Dies enthält. Somit ergeben 144 Module multipliziert mit 4 Dies pro Modul die Schlagzeilenzahl von 576 ‘GPUs’.
Diese vorausschauende Perspektive legt nahe, dass die Die-Zählmethode des B300 nicht nur eine vorübergehende Anpassung für spezifische luftgekühlte Systeme ist, sondern vielmehr das grundlegende Prinzip dafür, wie Nvidia beabsichtigt, seine GPU-Ressourcen in zukünftigen Generationen zu quantifizieren. Kunden, die in Nvidias Ökosystem investieren, müssen damit rechnen, dass diese Verschiebung zum Standard wird.
Der unausgesprochene Faktor: Maximierung der Software-Einnahmequellen?
Während die technische Erklärung bezüglich des C2C-Interconnects eine Begründung für die unterschiedliche GPU-Zählung des B300 liefert, führen das Timing und die erheblichen finanziellen Auswirkungen unweigerlich zu Spekulationen über zugrunde liegende geschäftliche Motivationen. Könnte diese Neudefinition, die ursprünglich als Korrektur eines Nomenklatur-‘Fehlers’ präsentiert wurde, auch als strategischer Hebel dienen, um wiederkehrende Softwareeinnahmen zu steigern?
In dem Jahr, seit Blackwell erstmals mit seiner Botschaft der ‘vereinheitlichten, einzelnen GPU’ detailliert beschrieben wurde, ist es plausibel, dass Nvidia eine erhebliche Einnahmemöglichkeit erkannt hat, die ungenutzt blieb. Die AI Enterprise-Suite stellt eine wachsende und margenstarke Komponente von Nvidias Geschäft dar. Die direkte Bindung der Lizenzierung an die Anzahl der Silizium-Dies anstelle von physischen Modulen bietet einen Weg, die Softwareeinnahmen aus jeder Hardwarebereitstellung erheblich zu steigern, insbesondere da die Anzahl der Dies pro Modul in zukünftigen Architekturen wie Vera Rubin Ultra potenziell zunimmt.
Auf die Frage, wie sich diese Änderung der GPU-Definition spezifisch auf die Lizenzkosten für AI Enterprise für die neuen B300-Systeme auswirken würde, wahrte Nvidia eine gewisse Zweideutigkeit. Ein Unternehmenssprecher teilte mit, dass die finanziellen Details noch geprüft würden. ‘Preisdetails für B300 werden noch finalisiert und es gibt derzeit keine Details zu Rubin über das hinaus, was in der GTC-Keynote gezeigt wurde’, erklärte der Sprecher und bestätigte ausdrücklich, dass dies die Preisstruktur für AI Enterprise auf diesen Plattformen einschließt.
Diese fehlende endgültige Preisgestaltung, gepaart mit der Verdopplung der zählbaren GPUs bei bestimmten Hardwarekonfigurationen, schafft Unsicherheit für Kunden, die zukünftige Investitionen in die KI-Infrastruktur planen. Obwohl die technischen Begründungen vorhanden sind, droht eine erhebliche Steigerung der Software-Abonnementkosten. Die Verschiebung unterstreicht die zunehmende Bedeutung von Software in der Halbleiter-Wertschöpfungskette und Nvidias offensichtliche Strategie, seine umfassende KI-Plattform effektiver zu monetarisieren, indem die Lizenzierungsmetriken enger an die zugrunde liegende Siliziumkomplexität angepasst werden. Wenn Organisationen Budgets für KI-Systeme der nächsten Generation erstellen, ist die Definition einer ‘GPU’ plötzlich zu einer kritischen und potenziell viel teureren Variablen geworden.