La strategia open source di NVIDIA
NVIDIA sta rapidamente emergendo come una forza significativa nell’arena dell’intelligenza artificiale open source. Il rilascio di modelli avanzati come Llama Nemotron Ultra e Parakeet TDT dimostra una mossa strategica per democratizzare la tecnologia dell’IA e promuovere l’innovazione all’interno della comunità. Mettendo a disposizione questi strumenti all’avanguardia, NVIDIA mira ad accelerare la ricerca, lo sviluppo e la diffusione di soluzioni di intelligenza artificiale in vari settori.
Llama Nemotron Ultra: ridefinire l’efficienza e le prestazioni
Llama Nemotron Ultra, un modello con 253 miliardi di parametri, è una testimonianza della capacità ingegneristica di NVIDIA. Ciò che lo distingue è la sua capacità di offrire prestazioni paragonabili a modelli con dimensioni doppie, come Llama 405B e DeepSeek R1. Questo notevole risultato gli consente di essere distribuito su un singolo nodo 8x H100, rendendolo accessibile a una gamma più ampia di utenti.
Il segreto del successo: FFN Fusion
L’impressionante efficienza di Llama Nemotron Ultra è in gran parte attribuita a una tecnica innovativa chiamata fusione FFN (Feed-Forward Network). Questa strategia di ottimizzazione, scoperta attraverso la ricerca sull’architettura neurale Puzzle di NVIDIA, semplifica l’architettura del modello riducendo i livelli di attenzione ridondanti.
Allineando i livelli FFN in una sequenza, la tecnica consente una maggiore elaborazione parallela sulle GPU. La fusione dei livelli rimanenti massimizza l’efficienza, particolarmente vantaggiosa per modelli più grandi basati su Llama 3.1 - 405B di Meta. I vantaggi della fusione FFN sono duplici: migliora significativamente il throughput, raggiungendo accelerazioni nell’intervallo da 3 a 5 volte, e riduce l’ingombro di memoria del modello. La dimensione ridotta consente l’utilizzo di una cache KV più grande, consentendo al modello di gestire lunghezze di contesto maggiori.
Ragionamento su richiesta: una funzionalità rivoluzionaria
Una delle caratteristiche più uniche e preziose di Llama Nemotron Ultra è la sua capacità di “ragionamento on/off”. Ciò consente un controllo senza precedenti sul processo di ragionamento del modello, offrendo vantaggi significativi per le distribuzioni di produzione e l’ottimizzazione dei costi.
La possibilità di attivare e disattivare il ragionamento tramite il prompt del sistema offre alle aziende la flessibilità di bilanciare l’accuratezza con la latenza e il costo. Il ragionamento, sebbene fondamentale per risolvere problemi complessi, genera più token, portando a latenza e costi più elevati. Fornendo un controllo esplicito, NVIDIA consente agli utenti di prendere decisioni informate su quando impiegare il ragionamento, ottimizzando così le prestazioni e l’utilizzo delle risorse.
Per implementare questa funzione, NVIDIA ha esplicitamente insegnato al modello quando ragionare e quando no durante la fase di perfezionamento supervisionato. Ciò ha comportato la presentazione della stessa domanda con due risposte diverse: una con ragionamenti dettagliati e una senza, raddoppiando essenzialmente il set di dati per questo scopo specifico. Il risultato è un singolo modello in cui gli utenti possono controllare il processo di ragionamento semplicemente includendo “use detailed thinking on” o “use detailed thinking off” nel prompt.
Rivoluzionare il riconoscimento vocale con Parakeet TDT
Parakeet TDT, il modello ASR all’avanguardia di NVIDIA, ha ridefinito i benchmark per velocità e accuratezza nel riconoscimento vocale. Può trascrivere un’ora di audio in un solo secondo con un notevole tasso di errore di parola del 6% – 50 volte più velocemente di altre alternative open source.
Innovazioni architetturali: il “come” delle prestazioni di Parakeet
Le impressionanti prestazioni di Parakeet TDT sono il risultato di una combinazione di scelte architetturali e ottimizzazioni specifiche. Si basa su un’architettura Fast Conformer, potenziata con tecniche come il downsampling convoluzionale separabile in profondità e l’attenzione contestuale limitata.
Il downsampling convoluzionale separabile in profondità nella fase di input riduce significativamente i costi computazionali e i requisiti di memoria per l’elaborazione. L’attenzione contestuale limitata, concentrandosi su blocchi audio più piccoli e sovrapposti, mantiene l’accuratezza ottenendo al contempo un’accelerazione nell’elaborazione. Sul lato encoder, una tecnica di attenzione a finestra scorrevole consente al modello di elaborare file audio più lunghi senza dividerli in segmenti più brevi, fondamentale per la gestione di audio di lunga durata.
Token Duration Transducer (TDT): la chiave della velocità
Oltre all’architettura Conformer, Parakeet TDT incorpora un Token and Duration Transducer (TDT). La tecnologia di trasduttore di rete neurale ricorrente (RNN) tradizionale elabora l’audio frame per frame. Il TDT consente al modello di prevedere sia i token sia la durata prevista di tali token, consentendogli di saltare i frame ridondanti e accelerare significativamente il processo di trascrizione.
Questa sola innovazione TDT contribuisce a un’accelerazione di circa 1,5-2x. Inoltre, un algoritmo di looping di etichetta consente l’avanzamento indipendente dei token per diversi campioni durante l’inferenza batch, accelerando ulteriormente il processo di decodifica. Lo spostamento di parte del calcolo sul lato del decoder in grafici CUDA fornisce un altro aumento di velocità di 3x. Queste innovazioni consentono a Parakeet TDT di raggiungere velocità paragonabili ai decoder Connectionist Temporal Classification (CTC), noti per la loro velocità, pur mantenendo un’elevata precisione.
Democratizzazione dell’IA con dati aperti
L’impegno di NVIDIA nei confronti della comunità open source si estende oltre il rilascio di modelli per includere la condivisione di set di dati massicci e di alta qualità sia per la lingua che per il parlato. L’approccio dell’azienda alla cura dei dati enfatizza la trasparenza e l’apertura, con l’obiettivo di condividere il più possibile sui suoi dati, tecniche e strumenti in modo che la comunità possa comprenderli e utilizzarli.
Cura dei dati per Llama Nemotron Ultra
L’obiettivo primario della cura dei dati per Llama Nemotron Ultra era migliorare l’accuratezza in diversi domini chiave, tra cui attività di ragionamento come matematica e programmazione, nonché attività di non ragionamento come chiamate di strumenti, follow-up delle istruzioni e chat.
La strategia prevedeva la cura di set di dati specifici per migliorare le prestazioni in queste aree. All’interno del processo di perfezionamento supervisionato, NVIDIA ha differenziato tra scenari “ragionamento attivo” e “ragionamento disattivato”. Modelli di alta qualità della comunità sono stati sfruttati come “esperti” in domini specifici. Ad esempio, DeepSeek R-1 è stato ampiamente utilizzato per attività di matematica e programmazione ad alta intensità di ragionamento, mentre modelli come Llama e Qwen sono stati utilizzati per attività di non ragionamento come matematica di base, programmazione, chat e chiamate di strumenti. Questo set di dati curato, composto da circa 30 milioni di coppie domanda-risposta, è stato reso pubblicamente disponibile su Hugging Face.
Garantire la qualità dei dati: un approccio multilivello
Dato che una parte significativa dei dati è stata generata utilizzando altri modelli, NVIDIA ha implementato un rigoroso processo di controllo qualità multilivello. Ciò ha comportato:
- Generare più risposte candidate per lo stesso prompt utilizzando ciascun modello esperto.
- Impiegare una serie separata di modelli “critici” per valutare questi candidati in base alla correttezza, alla coerenza e all’aderenza al prompt.
- Implementare un meccanismo di punteggio in cui ogni coppia domanda-risposta generata riceveva un punteggio di qualità basato sulla valutazione del modello critico, con una soglia elevata impostata per l’accettazione.
- Integrare la revisione umana in varie fasi, con scienziati e ingegneri di dati che ispezionano manualmente campioni dei dati generati per identificare eventuali errori sistematici, pregiudizi o istanze di allucinazione.
- Concentrarsi sulla diversità dei dati generati per garantire un’ampia gamma di esempi all’interno di ciascun dominio.
- Condurre valutazioni approfondite rispetto a set di dati di benchmark e in casi d’uso reali dopo aver addestrato Llama Nemotron Ultra su questi dati curati.
Open-sourcing di un set di dati vocali per Parakeet TDT
NVIDIA prevede di aprire un sostanziale set di dati vocali, di circa 100.000 ore, meticolosamente curato per riflettere la diversità del mondo reale. Questo set di dati includerà variazioni nei livelli sonori, nei rapporti segnale-rumore, nei tipi di rumore di fondo e persino nei formati audio telefonici rilevanti per i call center. L’obiettivo è fornire alla comunità dati diversi e di alta qualità che consentano ai modelli di funzionare bene in un’ampia gamma di scenari del mondo reale.
Direzioni future: modelli più piccoli, supporto multilingue e streaming in tempo reale
La visione di NVIDIA per il futuro include ulteriori progressi nel supporto multilingue, modelli ottimizzati per il bordo ancora più piccoli e miglioramenti nello streaming in tempo reale per il riconoscimento vocale.
Capacità multilingue
Supportare più lingue è fondamentale per le grandi aziende. NVIDIA mira a concentrarsi su alcune lingue chiave e garantire un’accuratezza di livello mondiale per il ragionamento, la chiamata di strumenti e la chat all’interno di tali lingue. Questa è probabilmente la prossima grande area di espansione.
Modelli ottimizzati per il bordo
NVIDIA sta prendendo in considerazione modelli fino a circa 50 milioni di parametri per affrontare casi d’uso al margine in cui è necessaria un’impronta più piccola, come abilitare l’elaborazione audio in tempo reale per i robot in ambienti rumorosi.
Streaming in tempo reale per Parakeet TDT
Tecnologicamente, NVIDIA prevede di lavorare su funzionalità di streaming per TDT per abilitare la trascrizione dal vivo e in tempo reale.
IA pronta per la produzione: progettare per la distribuzione nel mondo reale
Sia Llama Nemotron Ultra che Parakeet TDT sono progettati pensando alle sfide della distribuzione nel mondo reale, concentrandosi su accuratezza, efficienza ed efficacia in termini di costi.
Ragionamento on/off per scalabilità ed efficienza dei costi
Il ragionamento eccessivo può portare a problemi di scalabilità e aumento della latenza negli ambienti di produzione. La funzione di ragionamento on/off introdotta in Llama Nemotron Ultra offre la flessibilità di controllare il ragionamento su base per query, abilitando numerosi casi d’uso di produzione.
Bilanciare accuratezza ed efficienza
Bilanciare accuratezza ed efficienza è una sfida costante. L’approccio di NVIDIA prevede di considerare attentamente il numero di epoche per ogni abilità durante l’addestramento e misurare continuamente l’accuratezza. L’obiettivo è migliorare le prestazioni in tutte le aree chiave.
Il ruolo dei modelli di NVIDIA nell’ecosistema open source
NVIDIA considera il ruolo di Llama Nemotron Ultra e Parakeet TDT all’interno dell’ecosistema open source e LLM più ampio come basandosi su fondamenta esistenti e concentrandosi strettamente su aree specifiche per aggiungere un valore significativo. L’azienda mira a continuare a identificare aree specifiche in cui può contribuire, mentre altri continuano a creare eccellenti modelli per scopi generali adatti alla produzione aziendale.
Punti chiave: Open Source, veloce, throughput elevato, economico
I punti chiave del lavoro di NVIDIA su Llama Nemotron Ultra e Parakeet TDT sono un impegno per l’open-sourcing di tutto, il raggiungimento di un’accuratezza all’avanguardia, l’ottimizzazione delle impronte per un efficiente utilizzo della GPU in termini di latenza e throughput e la responsabilizzazione della comunità.
Tutti i modelli e i set di dati sono disponibili su Hugging Face. Lo stack software per eseguirli proviene da NVIDIA ed è disponibile su NGC, il suo repository di contenuti. Gran parte del software sottostante è anche open source e può essere trovato su GitHub. Il framework Nemo è l’hub centrale per gran parte di questo stack software.