Hardware Strategie: Opschalen en Uitbreiden
Nvidia richt zich op de toekomst van agent-gebaseerde AI, een domein dat ongekende eisen stelt aan inferentiecapaciteiten. Om deze uitdaging aan te gaan, heeft Nvidia een uitgebreide strategie onthuld die zowel hardware- als software-innovaties omvat.
Centraal in Nvidia’s hardwarestrategie staat het voortdurende streven naar steeds krachtigere GPU’s. Het bedrijf hanteert een tweeledige aanpak, eerst gericht op verticale schaling, vervolgens op horizontale schaling. Het doel is niet alleen om een enkele, ultra-krachtige AI-supercomputer in een rack te ontwikkelen, maar om een heel ecosysteem van onderling verbonden racks te creëren, die samen een enorm AI-supercomputercomplex vormen. Deze ‘AI-fabriek’-benadering is ontworpen om de rekenkracht te leveren die nodig is voor de meest veeleisende AI-workloads.
De nieuwe Blackwell Ultra rack-gemonteerde AI-supercomputer, die onlangs op de GTC-conferentie werd onthuld, is een voorbeeld van deze strategie. De Blackwell Ultra is ontworpen om zowel training als test-time scaling inference te versnellen en maakt gebruik van de bestaande Blackwell-architectuur, maar bevat de krachtigere GB300 NVL72. Deze configuratie beschikt over 72 Blackwell Ultra GPU’s die via NVLink met elkaar zijn verbonden en levert een verbluffende 1,1 Exaflops aan FP4 precisie rekenkracht. De GB300 NVL72 beschikt over 1,5 keer de AI-prestaties van de GB200 NVL72. Een enkel DGS GB300-systeem biedt 15 Exaflops aan rekenkracht. De Blackwell Ultra, die in de tweede helft van 2025 wordt verwacht, zal worden ondersteund door een breed scala aan leveranciers van serverapparatuur, waaronder Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron en Quanta. Daarnaast zullen cloudserviceproviders zoals AWS, GCP en Azure rekendiensten aanbieden op basis van de Blackwell Ultra.
Naast deze AI-fabriekssystemen op het niveau van energiecentrales heeft Nvidia ook een nieuwe lijn computers geïntroduceerd die gericht zijn op inferentiebehoeften binnen bedrijven. Dit zijn onder meer de DGX Spark en DGX Station personal AI computers. De DGX Spark, die qua formaat lijkt op een Mac mini, levert tot 1 PFlops aan rekenkracht.
Om dit in perspectief te plaatsen: de Taiwania 3 supercomputer, die in 2021 werd gelanceerd met meer dan 50.000 cores, levert slechts 2,7 PFlops aan prestaties. In slechts vier jaar tijd heeft de rekenkracht van drie desktop-sized personal AI computers die van Taiwania 3 overtroffen. Met een prijs van $3.999 (ongeveer NT$130.000) voor de 128GB geheugenconfiguratie, zijn deze nieuwe personal AI computers ontworpen om toekomstige interne AI-behoeften binnen bedrijven te ondersteunen, als mini-AI-fabrieken of zelfs in edge AI-omgevingen.
Toekomstige Roadmap: Vera Rubin en verder
Vooruitkijkend heeft Nvidia’s CEO Jensen Huang een productroadmap voor de komende twee jaar geschetst. In de tweede helft van 2026 is het bedrijf van plan om de Vera Rubin NVL144 uit te brengen, genoemd naar de Amerikaanse astronoom die donkere materie ontdekte. De Vera Rubin NVL144 zal 3,3 keer de prestaties van de GB300 NVL72 bieden, met een geheugencapaciteit, bandbreedte en NVLink-snelheden die meer dan 1,6 keer toenemen. In de tweede helft van 2027 zal Nvidia de Rubin Ultra NVL576 lanceren, die 14 keer de prestaties van de GB300 NVL72 zal leveren, met aanzienlijk verbeterde geheugencapaciteit en bandbreedtesnelheden via NVLink7 en CX9.
Na de Vera Rubin-architectuur zal Nvidia’s next-generation architectuur worden genoemd naar de gerenommeerde Amerikaanse natuurkundige Richard Feynman, bekend om zijn werk aan het onderzoek naar de ramp met de Challenger space shuttle.
Software Strategie: Nvidia Dynamo
Nvidia heeft altijd een sterke nadruk gelegd op software en beschouwt dit zelfs als belangrijker dan hardware. Deze strategische focus strekt zich uit tot de AI-fabrieksinitiatieven van het bedrijf.
Naast het uitbreiden van de CUDA-X AI-versnellingsbibliotheek naar verschillende domeinen en het ontwikkelen van gespecialiseerde versnellingsbibliotheken, heeft Nvidia Nvidia Dynamo geïntroduceerd, een nieuw AI-fabriek besturingssysteem. Opmerkelijk is dat Nvidia dit besturingssysteem open-source heeft gemaakt.
Nvidia Dynamo is een open-source inferentie service framework dat is ontworpen om platforms te bouwen die LLM-inferentiediensten leveren. Het kan worden ingezet in K8s-omgevingen en worden gebruikt om grootschalige AI-inferentietaken te implementeren en te beheren. Nvidia is van plan Dynamo te integreren in zijn NIM microservices framework, waardoor het een onderdeel wordt van het Nvidia AI Enterprise framework.
Dynamo is het next-generation product van Nvidia’s bestaande open-source inferentieserverplatform, Triton. De belangrijkste functie is de verdeling van LLM-inferentietaken in twee fasen, waardoor GPU’s flexibeler en efficiënter kunnen worden gebruikt om de inferentieverwerking te optimaliseren, de efficiëntie te verbeteren en het GPU-gebruik te maximaliseren. Dynamo kan GPU’s dynamisch toewijzen op basis van inferentievereisten en asynchrone gegevensoverdracht tussen GPU’s versnellen, waardoor de responstijden van modelinferenties worden verkort.
Transformer-gebaseerde GAI-modellen verdelen inferentie in twee fasen: Prefill (pre-input), die invoergegevens omzet in tokens voor opslag, en Decode, een sequentieel proces dat het volgende token genereert op basis van het vorige.
Traditionele LLM-inferentie wijst zowel Prefill- als Decode-taken toe aan dezelfde GPU. Vanwege de verschillende computationele kenmerken van deze taken splitst Dynamo ze echter op, waarbij GPU-bronnen dienovereenkomstig worden toegewezen en de toewijzing dynamisch wordt aangepast op basis van taakkenmerken. Dit optimaliseert de prestaties van het GPU-cluster.
Nvidia’s tests tonen aan dat het gebruik van Dynamo met het 671 miljard parameter DeepSeek-R1-model op GB200 NVL72 de inferentieprestaties met 30 keer kan verbeteren. De prestaties van Llama 70B die op Hopper GPU’s draait, kunnen ook meer dan verdubbeld worden.
Het beheren van inferentietaken is complex vanwege de ingewikkelde aard van de inferentieberekening en de verscheidenheid aan parallelle verwerkingsmodellen. Huang benadrukte dat Nvidia het Dynamo framework heeft gelanceerd om een besturingssysteem voor AI-fabrieken te bieden.
Traditionele datacenters vertrouwen op besturingssystemen zoals VMware om verschillende applicaties op enterprise IT-bronnen te orkestreren. AI-agents zijn de applicaties van de toekomst en AI-fabrieken hebben Dynamo nodig, niet VMware.
Huang’s naamgeving van het nieuwe AI-fabriek besturingssysteem naar de Dynamo, een motor die de industriële revolutie ontketende, onthult zijn verwachtingen en ambities voor het platform.
Diepgaande analyse van Nvidia’s tweeledige strategie
Nvidia’s aanpak om de enorme inferentie-eisen van agent-gebaseerde AI te voldoen, is grondig en veelomvattend. Door zowel hardware- als software-innovaties te combineren, probeert Nvidia een ecosysteem te creëren dat niet alleen in staat is om de huidige AI-workloads te verwerken, maar ook de toekomstige eisen kan anticiperen en faciliteren.
De hardwarestrategie, die zich richt op het opschalen en uitbreiden van GPU-mogelijkheden, is cruciaal voor het leveren van de noodzakelijke rekenkracht. De overgang van verticale naar horizontale schaling demonstreert een visie voor een gedistribueerde rekeninfrastructuur die grootschalige AI-bewerkingen kan ondersteunen. De introductie van de Blackwell Ultra, samen met zijn indrukwekkende specificaties, laat zien dat Nvidia zich inzet voor het verleggen van de grenzen van de AI-hardware. Bovendien maakt de introductie van de DGX Spark en DGX Station persoonlijke AI-computers het voor bedrijven mogelijk om inferentie-mogelijkheden intern te implementeren, waardoor een gedecentraliseerde benadering van AI-bewerkingen wordt gefaciliteerd.
De toekomstige roadmap, inclusief de Vera Rubin NVL144 en Rubin Ultra NVL576, laat een duidelijke visie zien voor voortdurende verbeteringen in de prestaties en mogelijkheden. Deze upgrades beloven de AI-inferentie nog verder te versnellen en nieuwe mogelijkheden voor AI-applicaties te ontgrendelen. De keuze om deze architecturen te vernoemen naar prominente wetenschappers als Vera Rubin en Richard Feynman getuigt van Nvidia’s toewijding aan innovatie en vooruitgang.
Software speelt een cruciale rol in Nvidia’s strategie, waarbij het de hardware-innovaties aanvult en AI-ontwikkeling en -implementatie verder optimaliseert. De introductie van Nvidia Dynamo, een open-source inferentie service framework, is een belangrijke stap in de richting van het vereenvoudigen en stroomlijnen van LLM-inferentieprocessen. Door LLM-inferentietaken te verdelen in twee afzonderlijke fasen, maakt Dynamo efficiënter gebruik van GPU-bronnen mogelijk, wat resulteert in verbeterde prestaties en verhoogde GPU-benutting.
De integratie van Dynamo in het NIM microservices framework en de opname ervan in het Nvidia AI Enterprise framework onderstrepen Nvidia’s toewijding aan het leveren van een uitgebreide suite aan tools en resources voor AI-ontwikkelaars en -bedrijven. Door Dynamo open-source te maken, stelt Nvidia de community in staat om bij te dragen aan de ontwikkeling ervan en te profiteren van de mogelijkheden ervan, waardoor verdere innovatie en adoptie worden bevorderd.
De vergelijking die Huang maakt tussen Dynamo en het besturingssysteem VMware benadrukt het strategische belang van de rol van Dynamo in de toekomstige AI-fabrieken. Net zoals VMware de orkestratie van applicaties in traditionele datacenters mogelijk maakt, is Dynamo ontworpen om het beheer en de implementatie van AI-agents en -workloads in het steeds evoluerende AI-landschap te vergemakkelijken. De naamgeving van het platform naar de dynamo, een motor die de industriële revolutie aandreef, geeft aan dat Nvidia de ambitie heeft dat Dynamo een cruciale katalysator zal zijn voor de transformatieve impact van AI.
Kortom, Nvidia’s tweeledige strategie voor agent-gebaseerde AI-inferentie is gebaseerd op een solide basis van hardware- en software-innovaties. Door zich te richten op het opschalen en uitbreiden van GPU-mogelijkheden, het ontwikkelen van geavanceerde software frameworks zoals Dynamo en het omarmen van een open-source aanpak, positioneert Nvidia zich als een belangrijke speler in de toekomst van AI. Met voortdurende investeringen in onderzoek en ontwikkeling en een duidelijke visie op de toekomst van AI, is Nvidia klaar om de volgende golf van AI-gedreven transformatie te leiden.
Implicaties voor de industrie
De strategie van Nvidia heeft verreikende implicaties voor de gehele AI-industrie. De beschikbaarheid van krachtigere hardware en efficiëntere softwaretools zal AI-onderzoekers en -ontwikkelaars in staat stellen om meer complexe en geavanceerde modellen te creëren en te implementeren. De toegenomen rekenkracht zal de ontwikkeling van agent-gebaseerde AI-systemen stimuleren die autonoom kunnen redeneren, leren en handelen in complexe omgevingen.
De gedecentraliseerde aanpak van AI-inferentie, mogelijk gemaakt door de introductie van persoonlijke AI-computers zoals de DGX Spark en DGX Station, zal bedrijven in staat stellen om AI-bewerkingen intern te implementeren, waardoor de afhankelijkheid van cloudgebaseerde diensten wordt verminderd en de controle over gegevens en privacy wordt verbeterd. Deze trend zal waarschijnlijk leiden tot de proliferatie van AI-applicaties in verschillende sectoren, waaronder gezondheidszorg, financiën, productie en transport.
De open-source aard van Nvidia Dynamo zal de samenwerking en innovatie binnen de AI-community bevorderen. Door hun code en expertise te delen, kunnen ontwikkelaars gezamenlijk bouwen aan een robuust en efficiënt inferentie-ecosysteem, waardoor de adoptie van AI in een breed scala aan applicaties wordt versneld.
De concurrentie tussen Nvidia en andere AI-hardware- en softwareleveranciers zal waarschijnlijk de innovatie verder stimuleren en leiden tot de ontwikkeling van nog krachtigere en efficiëntere AI-oplossingen. Deze concurrentie zal de consumenten en bedrijven ten goede komen, die een breed scala aan opties zullen hebben om uit te kiezen om aan hun specifieke AI-behoeften te voldoen.
Uitdagingen en kansen
Hoewel Nvidia’s strategie veelbelovend is, zijn er ook een aantal uitdagingen en kansen waarmee het bedrijf te maken heeft. Een van de grootste uitdagingen is de complexiteit van het beheren en implementeren van grootschalige AI-infrastructuren. Het orkestreren van duizenden GPU’s en het optimaliseren van de prestaties van complexe AI-modellen vereist expertise en geavanceerde tooling.
Een andere uitdaging is de hoge kosten van AI-hardware en -software. Hoewel de prestaties van AI-systemen de afgelopen jaren aanzienlijk zijn verbeterd, kunnen de kosten van het bouwen en onderhouden van deze systemen voor veel bedrijven nog steeds onbetaalbaar zijn.
Er zijn echter ook aanzienlijke kansen voor Nvidia en de rest van de AI-industrie. De toenemende vraag naar AI-oplossingen creëert een enorme markt voor AI-hardware, -software en -diensten. De voortdurende vooruitgang in AI-technologie, waaronder de ontwikkeling van nieuwe algoritmen en architecturen, opent nieuwe mogelijkheden voor AI-applicaties in diverse sectoren.
De groeiende adoptie van cloud computing en edge computing biedt kansen om AI-diensten te implementeren op schaal en om AI-mogelijkheden dichter bij de databron te brengen. De opkomst van agent-gebaseerde AI, met zijn potentieel om autonome systemen te creëren die kunnen redeneren, leren en handelen in complexe omgevingen, creëert nieuwe en opwindende mogelijkheden voor AI-innovatie.
Conclusie
Nvidia’s tweeledige strategie voor agent-gebaseerde AI-inferentie is een ambitieuze en veelomvattende aanpak die tot doel heeft de volgende golf van AI-gedreven transformatie mogelijk te maken. Door te investeren in zowel hardware- als software-innovaties, het omarmen van een open-source aanpak en het samenwerken met de bredere AI-community, positioneert Nvidia zich als een leider in het AI-landschap.
Hoewel er nog steeds uitdagingen zijn om te overwinnen, zijn de kansen voor Nvidia en de rest van de AI-industrie enorm. Met de voortdurende vooruitgang in AI-technologie en de toenemende adoptie van AI in verschillende sectoren, is de toekomst van AI rooskleurig. Nvidia’s toewijding aan innovatie en zijn strategische focus op het leveren van de noodzakelijke infrastructuur en tools om AI-ontwikkeling en -implementatie mogelijk te maken, zal ongetwijfeld een cruciale rol spelen bij het vormgeven van de toekomst van AI. De komende jaren zullen cruciaal zijn om te zien hoe Nvidia’s strategie zich ontvouwt en welke impact deze zal hebben op de AI-industrie en de samenleving als geheel.