Nvidia's Semantische Verschuiving: GPU-herdefinitie en AI-kosten

Een Merkwaardige Correctie: Nvidia Heroverweegt Zijn GPU-telling

In het hoogspannings theater van halfgeleiderinnovatie dient Nvidia’s GPU Technology Conference (GTC) als een vooraanstaand podium voor het onthullen van de toekomst. Tijdens de meest recente bijeenkomst, te midden van de verwachte fanfare rondom vooruitgang in kunstmatige intelligentie en versnelde computing, introduceerde het bedrijf een subtiele maar potentieel ingrijpende verandering – een aanpassing in hoe het fundamenteel een Graphics Processing Unit (GPU) definieert. Dit was niet slechts een technische voetnoot; het was een herijking met significante downstream implicaties, met name betreffende de kostenstructuur voor het implementeren van Nvidia’s geavanceerde AI-oplossingen.

CEO Jensen Huang sprak de verandering zelf rechtstreeks aan vanaf het GTC-podium, en kaderde het als een correctie van een eerder verzuim met betrekking tot hun geavanceerde Blackwell-architectuur. “Een van de dingen waar ik een fout maakte: Blackwell bestaat eigenlijk uit twee GPU’s in één Blackwell-chip,” verklaarde hij. De gepresenteerde redenering richtte zich op duidelijkheid en consistentie, met name wat betreft de naamgevingsconventies geassocieerd met NVLink, Nvidia’s high-speed interconnect technologie. “We noemden die ene chip een GPU en dat was verkeerd. De reden daarvoor is dat het alle NVLink-nomenclatuur in de war schopt,” lichtte Huang toe. Hoewel het vereenvoudigen van modelnummers een zekere logische netheid biedt, draagt deze herdefiniëring gewicht dat veel verder reikt dan louter semantiek.

De kern van de verschuiving ligt in het overstappen van het tellen van de fysieke modules (specifiek, de SXM-vormfactor die gebruikelijk is in high-performance servers) als individuele GPU’s naar het tellen van de afzonderlijke silicium dies binnen die modules. Deze schijnbaar kleine aanpassing in terminologie heeft het potentieel om het financiële landschap drastisch te veranderen voor organisaties die gebruikmaken van Nvidia’s AI Enterprise software suite.

Het Financiële Rimpel Effect: Verdubbeling van AI Enterprise Licenties?

Nvidia’s AI Enterprise is een uitgebreid softwareplatform ontworpen om de ontwikkeling en implementatie van AI-toepassingen te stroomlijnen. Het omvat een breed scala aan tools, frameworks, en cruciaal, toegang tot Nvidia Inference Microservices (NIMs), die geoptimaliseerde containers zijn voor het efficiënt draaien van AI-modellen. Het licentiemodel voor deze krachtige suite is historisch gezien direct gekoppeld aan het aantal geïmplementeerde GPU’s. Huidige prijsstructuren plaatsen de kosten op ongeveer $4.500 per GPU per jaar, of een cloud-gebaseerd tarief van $1 per GPU per uur.

Beschouw de vorige generatie of bepaalde Blackwell-configuraties. Een Nvidia HGX B200 server, uitgerust met acht SXM-modules, waarbij elke module huisvestte wat toen werd beschouwd als een enkele Blackwell GPU, zou acht AI Enterprise-licenties vereisen. Dit vertaalde zich naar een jaarlijkse software abonnementskost van $36.000 (8 GPU’s * $4.500/GPU) of een uurlijkse cloudkost van $8 (8 GPU’s * $1/GPU/uur).

Nu, betreed het nieuw gedefinieerde landschap met systemen zoals de HGX B300 NVL16. Dit systeem beschikt ook over acht fysieke SXM-modules. Echter, onder de herziene definitie telt Nvidia nu elke silicium die binnen deze modules als een individuele GPU. Aangezien elke module in deze specifieke configuratie twee dies bevat, verdubbelt het totale GPU-aantal voor licentiedoeleinden effectief naar 16 GPU’s (8 modules * 2 dies/module).

Ervan uitgaande dat Nvidia zijn bestaande per-GPU prijsstructuur voor de AI Enterprise suite handhaaft – een punt waarvan het bedrijf heeft verklaard dat het nog niet definitief is – zijn de implicaties grimmig. Datzelfde acht-module HGX B300 systeem zou nu potentieel 16 licenties vereisen, waardoor de jaarlijkse softwarekosten omhoogschieten naar $72.000 (16 GPU’s * $4.500/GPU) of $16 per uur in de cloud. Dit vertegenwoordigt een 100% stijging in de software abonnementskosten voor schijnbaar vergelijkbare hardwaredichtheid, rechtstreeks voortvloeiend uit de verandering in hoe een ‘GPU’ wordt geteld.

Een Verhaal van Twee Architecturen: Verzoening van Eerdere Verklaringen

Deze verschuiving in nomenclatuur presenteert een interessant contrast met Nvidia’s eerdere karakteriseringen van de Blackwell-architectuur. Toen Blackwell aanvankelijk werd onthuld, ontstonden discussies over het ontwerp, dat meerdere stukjes silicium (dies) omvat die met elkaar verbonden zijn binnen één processorpakket. Destijds verzette Nvidia zich actief tegen het beschrijven van Blackwell met de term ‘chiplet’-architectuur – een gangbare industrieterm voor ontwerpen die gebruikmaken van meerdere kleinere, onderling verbonden dies. In plaats daarvan benadrukte het bedrijf een ander perspectief.

Zoals gemeld tijdens de berichtgeving over de Blackwell-lancering, betoogde Nvidia dat het een “twee-reticle beperkte die-architectuur gebruikte die fungeert als een verenigde, enkele GPU.” Deze formulering suggereerde sterk dat ondanks de fysieke aanwezigheid van twee dies, ze samenhangend functioneerden als één logische verwerkingseenheid. De nieuwe telmethode toegepast op de B300-configuratie lijkt af te wijken van dit ‘verenigde, enkele GPU’-concept, althans vanuit een softwarelicentieperspectief, waarbij de dies als afzonderlijke entiteiten worden behandeld. Dit roept vragen op of de initiële beschrijving voornamelijk gericht was op het functionele potentieel van de hardware of dat het strategische perspectief op licenties is geëvolueerd.

Prestatiewinst vs. Potentiële Kostenstijgingen: Evaluatie van de B300 Propositie

Bij het overwegen van de potentiële verdubbeling van softwarelicentiekosten voor de HGX B300 vergeleken met zijn voorgangers zoals de B200, is het cruciaal om de prestatieverbeteringen te onderzoeken die door de nieuwere hardware worden geboden. Levert de B300 tweemaal de AI-verwerkingskracht om de potentiële verdubbeling van softwarekosten te rechtvaardigen? De specificaties suggereren een genuanceerder beeld.

De HGX B300 biedt wel verbeteringen:

  • Verhoogde Geheugencapaciteit: Het biedt ongeveer 2,3 Terabytes aan high-bandwidth memory (HBM) per systeem, een significante sprong van ongeveer 1,5 keer vergeleken met de 1,5TB beschikbaar op de B200. Dit is cruciaal voor het verwerken van grotere AI-modellen en datasets.
  • Verbeterde Prestaties bij Lage Precisie: De B300 toont een opmerkelijke verbetering in prestaties voor berekeningen met 4-bit floating-point (FP4) precisie. Zijn FP4-doorvoer bereikt iets meer dan 105 dense petaFLOPS per systeem, ongeveer een 50% toename ten opzichte van de B200. Deze versnelling is bijzonder gunstig voor bepaalde AI-inferentietaken waarbij lagere precisie acceptabel is.

Echter, het prestatievoordeel is niet universeel voor alle workloads. Cruciaal is dat voor taken die hogere precisie floating-point rekenkunde vereisen (zoals FP8, FP16 of FP32), de B300 geen significant voordeel biedt in floating-point operaties ten opzichte van het oudere B200-systeem. Veel complexe AI-training en wetenschappelijke rekentaken leunen zwaar op deze hogere precisieformaten.

Daarom staan organisaties die de B300 evalueren voor een complexe berekening. Ze winnen aanzienlijke geheugencapaciteit en een boost in FP4-prestaties, maar de potentiële verdubbeling van AI Enterprise softwarekosten wordt mogelijk niet geëvenaard door een overeenkomstige verdubbeling van prestaties voor hun specifieke, hogere-precisie workloads. De waardepropositie wordt sterk afhankelijk van de aard van de AI-taken die worden uitgevoerd.

De Technische Rechtvaardiging: Interconnects en Onafhankelijkheid

Intrigerend genoeg wordt deze nieuwe die-telmethodologie niet universeel toegepast op alle nieuwe Blackwell-gebaseerde systemen die op GTC zijn aangekondigd. De krachtigere, vloeistofgekoelde GB300 NVL72-systemen, bijvoorbeeld, blijven zich houden aan de oudere conventie, waarbij het hele pakket (dat twee dies bevat) wordt geteld als een enkele GPU voor licentiedoeleinden. Deze divergentie roept de vraag op: waarom het verschil?

Nvidia biedt een technische rationale geworteld in de interconnect-technologie binnen de GPU-pakketten zelf. Volgens Ian Buck, Nvidia’s Vice President en General Manager van Hyperscale en HPC, ligt het onderscheid in de aan- of afwezigheid van een cruciale chip-to-chip (C2C) interconnect die de twee dies binnen het pakket direct verbindt.

  • HGX B300 Configuratie: De specifieke Blackwell-pakketten die worden gebruikt in de luchtgekoelde HGX B300-systemen missen deze directe C2C-interconnect. Zoals Buck uitlegde, werd deze ontwerpkeuze gemaakt om het stroomverbruik en thermisch beheer binnen de beperkingen van het luchtgekoelde chassis te optimaliseren. Het gevolg is echter dat de twee dies op een enkele B300-module met een grotere mate van onafhankelijkheid werken. Als één die toegang nodig heeft tot gegevens die zijn opgeslagen in het high-bandwidth memory dat fysiek is verbonden met de andere die op dezelfde module, kan dit niet rechtstreeks. In plaats daarvan moet het gegevensverzoek van het pakket af reizen, het externe NVLink-netwerk doorkruisen (waarschijnlijk via een NVLink-switchchip op het servermoederbord), en vervolgens terugrouteren naar de geheugencontroller van de andere die. Deze omweg versterkt het idee dat dit twee functioneel verschillende verwerkingseenheden zijn die een gemeenschappelijk pakket delen maar externe communicatiepaden vereisen voor volledige geheugendeling. Deze scheiding, zo betoogt Nvidia, rechtvaardigt het tellen ervan als twee afzonderlijke GPU’s.

  • GB300 NVL72 Configuratie: Daarentegen behouden de ‘Superchip’-pakketten die worden gebruikt in de high-end GB300-systemen de high-speed C2C-interconnect. Deze directe link stelt de twee dies binnen het pakket in staat om veel efficiënter en directer te communiceren en geheugenbronnen te delen, zonder de noodzaak van de omweg buiten het pakket via de NVLink-switch. Omdat ze meer samenhangend kunnen functioneren en naadloos geheugen kunnen delen, worden ze, vanuit een software- en licentieperspectief, behandeld als een enkele, verenigde GPU, in lijn met de initiële ‘verenigde’ beschrijving van de Blackwell-architectuur.

Dit technische onderscheid biedt een logische basis voor de verschillende telmethoden. De dies van de B300 zijn functioneel meer gescheiden vanwege het ontbreken van de C2C-link, wat geloofwaardigheid verleent aan de telling van twee GPU’s. De dies van de GB300 zijn nauw gekoppeld, wat de telling van één GPU ondersteunt.

Een Blik op de Toekomst: Vera Rubin Zet het Precedent

Hoewel de GB300 momenteel een uitzondering vormt, lijkt de die-telbenadering die voor de B300 is aangenomen, indicatief te zijn voor Nvidia’s toekomstige richting. Het bedrijf heeft al aangegeven dat zijn volgende generatie platform, met de codenaam Vera Rubin, gepland voor release verderop in de tijd, deze nieuwe nomenclatuur volledig zal omarmen.

De naamgevingsconventie zelf biedt een aanwijzing. Systemen gebaseerd op de Rubin-architectuur worden aangeduid met hoge nummers, zoals de NVL144. Deze aanduiding impliceert sterk het tellen van individuele dies in plaats van modules. Volgens de B300-logica zou een NVL144-systeem waarschijnlijk bestaan uit een bepaald aantal modules, elk met meerdere dies, wat resulteert in 144 telbare GPU-dies voor licentie- en specificatiedoeleinden.

Deze trend is nog duidelijker in Nvidia’s roadmap voor eind 2027 met het Vera Rubin Ultra-platform. Dit platform pronkt met een verbazingwekkende 576 GPU’s per rack. Zoals eerder geanalyseerd, wordt dit indrukwekkende aantal niet bereikt door 576 afzonderlijke fysieke modules in een rack te proppen. In plaats daarvan weerspiegelt het het nieuwe telparadigma dat multiplicatief wordt toegepast. De architectuur omvat waarschijnlijk 144 fysieke modules per rack, maar waarbij elke module vier afzonderlijke silicium dies bevat. Dus, 144 modules vermenigvuldigd met 4 dies per module levert het hoofdcijfer van 576 ‘GPU’s’ op.

Dit toekomstgerichte perspectief suggereert dat de die-telmethode van de B300 niet slechts een tijdelijke aanpassing is voor specifieke luchtgekoelde systemen, maar eerder het fundamentele principe voor hoe Nvidia van plan is zijn GPU-bronnen in toekomstige generaties te kwantificeren. Klanten die investeren in Nvidia’s ecosysteem moeten anticiperen dat deze verschuiving de standaard wordt.

De Onuitgesproken Factor: Maximaliseren van Software Inkomstenstromen?

Hoewel de technische uitleg met betrekking tot de C2C-interconnect een rationale biedt voor de afwijkende GPU-telling van de B300, leiden de timing en de significante financiële implicaties onvermijdelijk tot speculatie over onderliggende zakelijke motivaties. Zou deze herdefiniëring, aanvankelijk gepresenteerd als een correctie van een nomenclatuur ‘fout’, ook kunnen dienen als een strategische hefboom om terugkerende software-inkomsten te verhogen?

In het jaar sinds Blackwell voor het eerst werd gedetailleerd met zijn ‘verenigde, enkele GPU’-boodschap, is het aannemelijk dat Nvidia een aanzienlijke omzetkans heeft onderkend die onbenut bleef. De AI Enterprise suite vertegenwoordigt een groeiend en hoog-marge component van Nvidia’s bedrijfsvoering. Het direct koppelen van de licenties aan het aantal silicium dies, in plaats van fysieke modules, biedt een pad om de software-inkomsten afkomstig van elke hardware-implementatie aanzienlijk te verhogen, vooral naarmate het aantal dies per module potentieel toeneemt in toekomstige architecturen zoals Vera Rubin Ultra.

Toen Nvidia werd gevraagd hoe deze verandering in GPU-definitie specifiek de licentiekosten van AI Enterprise voor de nieuwe B300-systemen zou beïnvloeden, handhaafde het bedrijf een zekere mate van ambiguïteit. Een woordvoerder van het bedrijf gaf aan dat de financiële details nog werden overwogen. “Prijsdetails worden nog afgerond voor B300 en er zijn op dit moment geen details te delen over Rubin buiten wat werd getoond in de GTC keynote,” verklaarde de woordvoerder, expliciet bevestigend dat dit de prijsstructuur voor AI Enterprise op deze platforms omvatte.

Dit gebrek aan definitieve prijzen, gekoppeld aan de verdubbeling van telbare GPU’s op bepaalde hardwareconfiguraties, creëert onzekerheid voor klanten die toekomstige AI-infrastructuurinvesteringen plannen. Hoewel de technische rechtvaardigingen aanwezig zijn, dreigt de potentie voor een substantiële stijging van de software abonnementskosten. De verschuiving benadrukt het toenemende belang van software in de halfgeleiderwaardeketen en Nvidia’s schijnbare strategie om zijn uitgebreide AI-platform effectiever te monetariseren door licentiestatistieken nauwer af te stemmen op de onderliggende siliciumcomplexiteit. Terwijl organisaties budgetteren voor next-generation AI-systemen, is de definitie van een ‘GPU’ plotseling een kritieke, en potentieel veel duurdere, variabele geworden.