Una Correzione Curiosa: Nvidia Ripensa il Suo Conteggio delle GPU
Nel teatro ad alta posta dell’innovazione dei semiconduttori, la GPU Technology Conference (GTC) di Nvidia funge da palcoscenico principale per svelare il futuro. Durante il suo più recente raduno, tra l’attesa fanfara che circondava i progressi nell’intelligenza artificiale e nel calcolo accelerato, l’azienda ha introdotto un cambiamento sottile ma potenzialmente profondo: una modifica nel modo in cui definisce fondamentalmente una Graphics Processing Unit (GPU). Non si trattava semplicemente di una nota tecnica a piè di pagina; era una ricalibrazione con significative implicazioni a valle, in particolare per quanto riguarda la struttura dei costi per l’implementazione delle soluzioni AI avanzate di Nvidia.
Lo stesso CEO Jensen Huang ha affrontato direttamente il cambiamento dal palco della GTC, inquadrandolo come una correzione di una precedente svista riguardante la loro architettura all’avanguardia Blackwell. “Una delle cose su cui ho commesso un errore: Blackwell è in realtà due GPU in un chip Blackwell”, ha affermato. La logica presentata si è concentrata sulla chiarezza e sulla coerenza, in particolare per quanto riguarda le convenzioni di denominazione associate a NVLink, la tecnologia di interconnessione ad alta velocità di Nvidia. “Abbiamo chiamato quel singolo chip una GPU e questo era sbagliato. La ragione è che incasina tutta la nomenclatura NVLink”, ha elaborato Huang. Sebbene la semplificazione dei numeri di modello offra un certo grado di ordine logico, questa ridefinizione ha un peso che va ben oltre la mera semantica.
Il nucleo del cambiamento risiede nel passare dal contare i moduli fisici (in particolare, il form factor SXM comune nei server ad alte prestazioni) come singole GPU al contare i die di silicio distinti all’interno di tali moduli. Questo aggiustamento apparentemente minore nella terminologia ha il potenziale per alterare drasticamente il panorama finanziario per le organizzazioni che sfruttano la suite software AI Enterprise di Nvidia.
L'Effetto Domino Finanziario: Raddoppiare le Licenze AI Enterprise?
AI Enterprise di Nvidia è una piattaforma software completa progettata per semplificare lo sviluppo e l’implementazione di applicazioni AI. Comprende una vasta gamma di strumenti, framework e, aspetto critico, l’accesso ai Nvidia Inference Microservices (NIMs), che sono container ottimizzati per eseguire modelli AI in modo efficiente. Il modello di licenza per questa potente suite è stato storicamente legato direttamente al numero di GPU implementate. Le attuali strutture tariffarie fissano il costo a circa 4.500 dollari per GPU all’anno, o una tariffa basata su cloud di 1 dollaro per GPU all’ora.
Consideriamo la generazione precedente o alcune configurazioni Blackwell. Un server Nvidia HGX B200, equipaggiato con otto moduli SXM, dove ogni modulo ospitava quella che allora era considerata una singola GPU Blackwell, richiederebbe otto licenze AI Enterprise. Ciò si traduceva in un costo di abbonamento software annuale di 36.000 dollari (8 GPU * 4.500 $/GPU) o un costo orario cloud di 8 dollari (8 GPU * 1 $/GPU/ora).
Ora, entriamo nel panorama appena definito con sistemi come l’HGX B300 NVL16. Anche questo sistema presenta otto moduli SXM fisici. Tuttavia, secondo la definizione rivista, Nvidia ora conta ogni die di silicio all’interno di questi moduli come una singola GPU. Poiché ogni modulo in questa specifica configurazione contiene due die, il conteggio totale delle GPU ai fini della licenza raddoppia effettivamente a 16 GPU (8 moduli * 2 die/modulo).
Supponendo che Nvidia mantenga la sua attuale struttura tariffaria per GPU per la suite AI Enterprise – un punto che l’azienda ha dichiarato non essere ancora finalizzato – le implicazioni sono nette. Lo stesso sistema HGX B300 a otto moduli richiederebbe ora potenzialmente 16 licenze, catapultando il costo annuale del software a 72.000 dollari (16 GPU * 4.500 $/GPU) o 16 dollari all’ora nel cloud. Ciò rappresenta un aumento del 100% nel costo dell’abbonamento software per una densità hardware apparentemente comparabile, derivante direttamente dal cambiamento nel modo in cui viene contata una “GPU”.
Una Storia di Due Architetture: Riconciliare le Dichiarazioni Passate
Questo cambiamento nella nomenclatura presenta un interessante contrasto con le precedenti caratterizzazioni dell’architettura Blackwell da parte di Nvidia. Quando Blackwell è stato inizialmente svelato, sono sorte discussioni riguardo al suo design, che coinvolge più pezzi di silicio (die) collegati insieme all’interno di un singolo package del processore. All’epoca, Nvidia si oppose attivamente alla descrizione di Blackwell utilizzando il termine architettura “chiplet” – un termine comune nel settore per i design che impiegano più die più piccoli e interconnessi. Invece, l’azienda enfatizzò una prospettiva diversa.
Come riportato durante la copertura del lancio di Blackwell, Nvidia sostenne di aver impiegato una “architettura a die limitato a due reticoli che agisce come una GPU singola e unificata“. Questa formulazione suggeriva fortemente che, nonostante la presenza fisica di due die, essi funzionassero in modo coeso come un’unica unità di elaborazione logica. Il nuovo metodo di conteggio applicato alla configurazione B300 sembra allontanarsi da questo concetto di “GPU singola e unificata”, almeno dal punto di vista delle licenze software, trattando i die come entità distinte. Ciò solleva interrogativi sul fatto che la descrizione iniziale fosse principalmente focalizzata sul potenziale funzionale dell’hardware o se la prospettiva strategica sulle licenze si sia evoluta.
Guadagni Prestazionali vs. Potenziali Aumenti di Costo: Valutare la Proposta B300
Quando si considera il potenziale raddoppio dei costi di licenza software per l’HGX B300 rispetto ai suoi predecessori come il B200, è fondamentale esaminare i miglioramenti delle prestazioni offerti dal nuovo hardware. Il B300 offre il doppio della potenza di elaborazione AI per giustificare il potenziale raddoppio dei costi software? Le specifiche suggeriscono un quadro più sfumato.
L’HGX B300 vanta effettivamente dei miglioramenti:
- Maggiore Capacità di Memoria: Offre circa 2,3 Terabyte di memoria ad alta larghezza di banda (HBM) per sistema, un salto significativo di circa 1,5 volte rispetto agli 1,5 TB disponibili sul B200. Questo è cruciale per gestire modelli AI e set di dati più grandi.
- Prestazioni Migliorate a Bassa Precisione: Il B300 dimostra un notevole miglioramento delle prestazioni per i calcoli che utilizzano la precisione in virgola mobile a 4 bit (FP4). Il suo throughput FP4 raggiunge poco più di 105 petaFLOPS densi per sistema, circa un aumento del 50% rispetto al B200. Questa accelerazione è particolarmente vantaggiosa per alcune attività di inferenza AI in cui è accettabile una precisione inferiore.
Tuttavia, il vantaggio prestazionale non è universale per tutti i carichi di lavoro. Fondamentalmente, per le attività che richiedono un’aritmetica in virgola mobile a precisione più elevata (come FP8, FP16 o FP32), il B300 non offre un vantaggio significativo nelle operazioni in virgola mobile rispetto al vecchio sistema B200. Molte complesse attività di addestramento AI e di calcolo scientifico si basano pesantemente su questi formati a precisione più elevata.
Pertanto, le organizzazioni che valutano il B300 si trovano di fronte a un calcolo complesso. Ottengono una notevole capacità di memoria e un aumento delle prestazioni FP4, ma il potenziale raddoppio dei costi del software AI Enterprise potrebbe non essere accompagnato da un corrispondente raddoppio delle prestazioni per i loro specifici carichi di lavoro a precisione più elevata. La proposta di valore diventa altamente dipendente dalla natura delle attività AI eseguite.
La Giustificazione Tecnica: Interconnessioni e Indipendenza
È interessante notare che questa nuova metodologia di conteggio dei die non viene applicata universalmente a tutti i nuovi sistemi basati su Blackwell annunciati alla GTC. I sistemi GB300 NVL72 più potenti, raffreddati a liquido, ad esempio, continuano ad aderire alla vecchia convenzione, contando l’intero package (contenente due die) come una singola GPU ai fini della licenza. Questa divergenza solleva la domanda: perché questa differenza?
Nvidia fornisce una logica tecnica radicata nella tecnologia di interconnessione all’interno dei package GPU stessi. Secondo Ian Buck, Vicepresidente e Direttore Generale di Hyperscale e HPC di Nvidia, la distinzione risiede nella presenza o assenza di una cruciale interconnessione chip-to-chip (C2C) che collega direttamente i due die all’interno del package.
Configurazione HGX B300: I package Blackwell specifici utilizzati nei sistemi HGX B300 raffreddati ad aria mancano di questa interconnessione C2C diretta. Come ha spiegato Buck, questa scelta progettuale è stata fatta per ottimizzare il consumo energetico e la gestione termica entro i limiti dello chassis raffreddato ad aria. La conseguenza, tuttavia, è che i due die su un singolo modulo B300 operano con un grado maggiore di indipendenza. Se un die deve accedere ai dati memorizzati nella memoria ad alta larghezza di banda fisicamente collegata all’altro die sullo stesso modulo, non può farlo direttamente. Invece, la richiesta di dati deve viaggiare fuori dal package, attraversare la rete NVLink esterna (probabilmente tramite un chip switch NVLink sulla scheda madre del server) e quindi tornare al controller di memoria dell’altro die. Questa deviazione rafforza l’idea che si tratti di due unità di elaborazione funzionalmente distinte che condividono un package comune ma richiedono percorsi di comunicazione esterni per la piena condivisione della memoria. Questa separazione, sostiene Nvidia, giustifica il conteggio come due GPU distinte.
Configurazione GB300 NVL72: Al contrario, i package “Superchip” utilizzati nei sistemi GB300 di fascia alta mantengono l’interconnessione C2C ad alta velocità. Questo collegamento diretto consente ai due die all’interno del package di comunicare e condividere le risorse di memoria in modo molto più efficiente e diretto, senza la necessità della deviazione fuori dal package tramite lo switch NVLink. Poiché possono funzionare in modo più coeso e condividere la memoria senza soluzione di continuità, vengono trattati, dal punto di vista del software e delle licenze, come una GPU singola e unificata, allineandosi alla descrizione iniziale “unificata” dell’architettura Blackwell.
Questa distinzione tecnica fornisce una base logica per i diversi metodi di conteggio. I die del B300 sono funzionalmente più separati a causa della mancanza del collegamento C2C, dando credito al conteggio a due GPU. I die del GB300 sono strettamente accoppiati, supportando il conteggio a singola GPU.
Uno Sguardo al Futuro: Vera Rubin Stabilisce il Precedente
Mentre il GB300 rappresenta attualmente un’eccezione, l’approccio al conteggio dei die adottato per il B300 sembra essere indicativo della direzione futura di Nvidia. L’azienda ha già segnalato che la sua piattaforma di prossima generazione, nome in codice Vera Rubin, prevista per il rilascio più avanti nel tempo, abbraccerà completamente questa nuova nomenclatura.
La stessa convenzione di denominazione offre un indizio. I sistemi basati sull’architettura Rubin vengono designati con numeri elevati, come NVL144. Questa designazione implica fortemente il conteggio dei singoli die piuttosto che dei moduli. Seguendo la logica del B300, un sistema NVL144 consisterebbe probabilmente in un certo numero di moduli, ciascuno contenente più die, per un totale di 144 die GPU conteggiabili ai fini delle licenze e delle specifiche.
Questa tendenza è ancora più pronunciata nella roadmap di Nvidia per la fine del 2027 con la piattaforma Vera Rubin Ultra. Questa piattaforma vanta un sorprendente numero di 576 GPU per rack. Come analizzato in precedenza, questo numero impressionante non si ottiene stipando 576 moduli fisici distinti in un rack. Riflette invece il nuovo paradigma di conteggio applicato in modo moltiplicativo. L’architettura prevede probabilmente 144 moduli fisici per rack, ma con ogni modulo contenente quattro die di silicio distinti. Pertanto, 144 moduli moltiplicati per 4 die per modulo producono la cifra principale di 576 “GPU”.
Questa prospettiva lungimirante suggerisce che il metodo di conteggio dei die del B300 non sia semplicemente un aggiustamento temporaneo per specifici sistemi raffreddati ad aria, ma piuttosto il principio fondamentale su come Nvidia intende quantificare le proprie risorse GPU nelle generazioni future. I clienti che investono nell’ecosistema Nvidia devono anticipare che questo cambiamento diventerà lo standard.
Il Fattore Inespresso: Massimizzare i Flussi di Entrate Software?
Sebbene la spiegazione tecnica riguardante l’interconnessione C2C fornisca una logica per il conteggio distinto delle GPU del B300, la tempistica e le significative implicazioni finanziarie portano inevitabilmente a speculazioni sulle motivazioni aziendali sottostanti. Questa ridefinizione, presentata inizialmente come una correzione di un “errore” di nomenclatura, potrebbe anche servire come leva strategica per aumentare le entrate ricorrenti del software?
Nell’anno trascorso da quando Blackwell è stato descritto per la prima volta con il suo messaggio di “GPU singola e unificata”, è plausibile che Nvidia abbia riconosciuto una sostanziale opportunità di guadagno lasciata inutilizzata. La suite AI Enterprise rappresenta una componente in crescita e ad alto margine del business di Nvidia. Legare le sue licenze direttamente al numero di die di silicio, piuttosto che ai moduli fisici, offre un percorso per aumentare significativamente le entrate software derivate da ogni implementazione hardware, specialmente poiché il numero di die per modulo potrebbe aumentare nelle architetture future come Vera Rubin Ultra.
Quando è stato chiesto come questo cambiamento nella definizione di GPU avrebbe influenzato specificamente i costi di licenza di AI Enterprise per i nuovi sistemi B300, Nvidia ha mantenuto un certo grado di ambiguità. Un portavoce dell’azienda ha comunicato che i dettagli finanziari erano ancora in fase di valutazione. “I dettagli sui prezzi sono ancora in fase di finalizzazione per il B300 e non ci sono dettagli da condividere su Rubin oltre a quanto mostrato nel keynote della GTC al momento”, ha dichiarato il portavoce, confermando esplicitamente che ciò includeva la struttura dei prezzi per AI Enterprise su queste piattaforme.
Questa mancanza di prezzi finalizzati, unita al raddoppio delle GPU conteggiabili su determinate configurazioni hardware, crea incertezza per i clienti che pianificano futuri investimenti nell’infrastruttura AI. Sebbene le giustificazioni tecniche siano presenti, incombe il potenziale per un aumento sostanziale dei costi di abbonamento software. Il cambiamento evidenzia la crescente importanza del software nella catena del valore dei semiconduttori e l’apparente strategia di Nvidia per monetizzare più efficacemente la sua piattaforma AI completa allineando le metriche di licenza più strettamente alla complessità del silicio sottostante. Mentre le organizzazioni definiscono i budget per i sistemi AI di prossima generazione, la definizione di una “GPU” è diventata improvvisamente una variabile critica e potenzialmente molto più costosa.