Nvidia sta puntando sull’onda futura dell’AI basata su agenti, un dominio che promette di imporre richieste senza precedenti sulle capacità di inferenza. Per affrontare questa sfida, Nvidia ha svelato una strategia completa che comprende sia innovazioni hardware che software.
Strategia Hardware: Scalare Verso l’Alto e Verso l’Esterno
Al centro della strategia hardware di Nvidia c’è la ricerca incessante di GPU sempre più potenti. L’azienda sta adottando un approccio a due punte, concentrandosi prima sulla scalabilità verticale, poi sulla scalabilità orizzontale. L’obiettivo non è solo sviluppare un singolo supercomputer AI ultra-potente in un rack, ma creare un intero ecosistema di rack interconnessi, formando un massiccio complesso di supercomputer AI. Questo approccio di “fabbrica AI” è progettato per fornire la potenza di calcolo necessaria per i carichi di lavoro AI più impegnativi.
Il nuovo supercomputer AI montato su rack Blackwell Ultra, svelato alla recente conferenza GTC, esemplifica questa strategia. Progettato per accelerare sia l’addestramento che l’inferenza di scalatura in fase di test, il Blackwell Ultra sfrutta l’architettura Blackwell esistente, ma incorpora il più potente GB300 NVL72. Questa configurazione presenta 72 GPU Blackwell Ultra interconnesse tramite NVLink, offrendo un incredibile 1,1 Exaflops di potenza di calcolo di precisione FP4. Il GB300 NVL72 vanta 1,5 volte le prestazioni AI del GB200 NVL72. Un singolo sistema DGS GB300 offre 15 Exaflops di calcolo. Previsto per il rilascio nella seconda metà del 2025, il Blackwell Ultra sarà supportato da una vasta gamma di fornitori di apparecchiature server, tra cui Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron e Quanta. Inoltre, fornitori di servizi cloud come AWS, GCP e Azure offriranno servizi di calcolo basati su Blackwell Ultra.
Oltre a questi sistemi di fabbrica AI a livello di centrale elettrica, Nvidia ha anche introdotto una nuova linea di computer rivolta alle esigenze di inferenza all’interno delle aziende. Questi includono i computer AI personali DGX Spark e DGX Station. Il DGX Spark, simile a un Mac mini per dimensioni, offre fino a 1 PFlops di potenza di calcolo.
Per mettere questo in prospettiva, il supercomputer Taiwania 3, lanciato nel 2021 con oltre 50.000 core, fornisce solo 2,7 PFlops di prestazioni. In soli quattro anni, la potenza di calcolo di tre computer AI personali delle dimensioni di un desktop ha superato quella di Taiwania 3. Con un prezzo di $ 3.999 (circa NT $ 130.000) per la configurazione di memoria da 128 GB, questi nuovi computer AI personali sono progettati per alimentare le future esigenze AI interne all’interno delle aziende, fungendo da mini-fabbriche AI o anche operando in ambienti AI edge.
Roadmap Futura: Vera Rubin e Oltre
Guardando al futuro, l’amministratore delegato di Nvidia, Jensen Huang, ha delineato una roadmap di prodotto per i prossimi due anni. Nella seconda metà del 2026, l’azienda prevede di rilasciare il Vera Rubin NVL144, che prende il nome dall’astronoma americana che ha scoperto la materia oscura. Il Vera Rubin NVL144 offrirà 3,3 volte le prestazioni del GB300 NVL72, con capacità di memoria, larghezza di banda e velocità NVLink in aumento di oltre 1,6 volte. Nella seconda metà del 2027, Nvidia lancerà il Rubin Ultra NVL576, che offrirà 14 volte le prestazioni del GB300 NVL72, con capacità di memoria e velocità di larghezza di banda significativamente migliorate tramite NVLink7 e CX9.
Dopo l’architettura Vera Rubin, l’architettura di prossima generazione di Nvidia prenderà il nome dal rinomato fisico americano Richard Feynman, noto per il suo lavoro sull’indagine sul disastro dello space shuttle Challenger.
Strategia Software: Nvidia Dynamo
Nvidia ha sempre posto una forte enfasi sul software, considerandolo ancora più critico dell’hardware. Questo focus strategico si estende alle iniziative di fabbrica AI dell’azienda.
Oltre ad espandere la libreria di accelerazione AI CUDA-X a vari domini e sviluppare librerie di accelerazione specializzate, Nvidia ha introdotto Nvidia Dynamo, un nuovo sistema operativo per fabbriche AI. Significativamente, Nvidia ha open-sourced questo sistema operativo.
Nvidia Dynamo è un framework di servizi di inferenza open source progettato per creare piattaforme che forniscono servizi di inferenza LLM. Può essere distribuito su ambienti K8s e utilizzato per distribuire e gestire attività di inferenza AI su larga scala. Nvidia prevede di integrare Dynamo nel suo framework di microservizi NIM, rendendolo un componente del framework Nvidia AI Enterprise.
Dynamo è il prodotto di nuova generazione della piattaforma server di inferenza open source esistente di Nvidia, Triton. La sua caratteristica principale è la divisione delle attività di inferenza LLM in due fasi, consentendo un utilizzo più flessibile ed efficiente delle GPU per ottimizzare l’elaborazione dell’inferenza, migliorare l’efficienza e massimizzare l’utilizzo della GPU. Dynamo può allocare dinamicamente le GPU in base ai requisiti di inferenza e accelerare il trasferimento asincrono dei dati tra le GPU, riducendo i tempi di risposta dell’inferenza del modello.
I modelli GAI basati su Transformer dividono l’inferenza in due fasi: Prefill (pre-input), che converte i dati di input in token per l’archiviazione, e Decode, un processo sequenziale che genera il token successivo in base a quello precedente.
L’inferenza LLM tradizionale assegna sia le attività Prefill che Decode alla stessa GPU. Tuttavia, a causa delle diverse caratteristiche computazionali di queste attività, Dynamo le divide, assegnando le risorse GPU di conseguenza e regolando dinamicamente l’allocazione in base alle caratteristiche dell’attività. Questo ottimizza le prestazioni del cluster GPU.
I test di Nvidia dimostrano che l’utilizzo di Dynamo con il modello DeepSeek-R1 da 671 miliardi di parametri su GB200 NVL72 può migliorare le prestazioni di inferenza di 30 volte. Le prestazioni su Llama 70B in esecuzione su GPU Hopper possono anche essere migliorate di oltre il doppio.
La gestione delle attività di inferenza è complessa a causa della natura intricata del calcolo dell’inferenza e della varietà di modelli di elaborazione parallela. Huang ha sottolineato che Nvidia ha lanciato il framework Dynamo per fornire un sistema operativo per le fabbriche AI.
I data center tradizionali si affidano a sistemi operativi come VMware per orchestrare diverse applicazioni sulle risorse IT aziendali. Gli agenti AI sono le applicazioni del futuro e le fabbriche AI richiedono Dynamo, non VMware.
La denominazione da parte di Huang del nuovo sistema operativo di fabbrica AI come Dynamo, un motore che ha innescato la rivoluzione industriale, rivela le sue aspettative e ambizioni per la piattaforma. Egli vede Dynamo come un elemento fondamentale per la nuova era dell’AI, proprio come il motore a vapore lo fu per la rivoluzione industriale. La possibilità di gestire e orchestrare le risorse di calcolo in modo efficiente e dinamico è essenziale per sfruttare appieno il potenziale degli agenti AI e per creare applicazioni AI complesse e potenti. Nvidia sta quindi investendo massicciamente in questa area, con l’obiettivo di diventare il leader indiscusso nel software per le fabbriche AI. L’approccio open-source a Dynamo sottolinea ulteriormente questa strategia, consentendo alla comunità di contribuire al suo sviluppo e di adattarlo alle proprie esigenze specifiche. Questo crea un ecosistema in cui l’innovazione può prosperare e in cui Dynamo può evolversi rapidamente per soddisfare le esigenze sempre crescenti del mondo dell’AI.
Inoltre, l’integrazione di Dynamo con il framework NIM di Nvidia rappresenta un passo importante verso la creazione di una piattaforma AI completa e unificata. NIM fornisce un insieme di microservizi che semplificano la distribuzione e la gestione delle applicazioni AI, mentre Dynamo ottimizza l’esecuzione delle attività di inferenza. Insieme, questi due componenti offrono una soluzione potente e flessibile per la creazione e la gestione di fabbriche AI.
L’importanza dell’inferenza nel contesto degli agenti AI non può essere sottovalutata. Gli agenti AI devono essere in grado di prendere decisioni rapide e accurate in base alle informazioni che ricevono dal loro ambiente. Questo richiede una potenza di calcolo significativa e un’infrastruttura di inferenza ottimizzata. Nvidia sta affrontando questa sfida con un approccio olistico, che combina hardware all’avanguardia con software innovativo.
La roadmap futura di Nvidia, con le architetture Vera Rubin e Richard Feynman, dimostra l’impegno dell’azienda a spingere costantemente i limiti della tecnologia AI. Queste nuove architetture promettono di offrire prestazioni ancora superiori e di aprire nuove possibilità per le applicazioni AI. La scelta di dare loro i nomi di scienziati illustri sottolinea l’importanza della ricerca e dell’innovazione nella visione di Nvidia.
L’obiettivo finale di Nvidia è quello di creare un futuro in cui l’AI sia accessibile a tutti e in cui possa essere utilizzata per risolvere alcuni dei problemi più complessi del mondo. La strategia dell’azienda, che si concentra sull’hardware, sul software e sull’ecosistema, è progettata per raggiungere questo obiettivo. Nvidia sta investendo massicciamente nella ricerca e nello sviluppo, nella partnership con altre aziende e nella creazione di una comunità di sviluppatori AI.
In sintesi, la strategia di Nvidia per affrontare le esigenze di inferenza dell’AI basata su agenti è ambiziosa e completa. L’azienda sta combinando hardware potente, software innovativo e un approccio open-source per creare una piattaforma AI che possa supportare le applicazioni più complesse e impegnative del futuro. Il successo di questa strategia dipenderà dalla capacità di Nvidia di continuare a innovare e di collaborare con la comunità AI. Tuttavia, i primi segnali sono promettenti e suggeriscono che Nvidia è ben posizionata per diventare il leader indiscusso nel software e nell’hardware per le fabbriche AI.