Nvidia batte DeepSeek-R1: Modello Open-Source

I modelli della serie Llama-Nemotron di Nvidia hanno ufficialmente superato DeepSeek-R1 e i dettagli del loro addestramento sono stati completamente divulgati, offrendo approfondimenti su come questi modelli sono stati sviluppati per ottenere prestazioni superiori.

Questi modelli sono ora completamente open-source, segnando un significativo progresso nella tecnologia AI accessibile. Ciò significa che una serie di modelli di inferenza che superano significativamente DeepSeek-R1 in termini di throughput di inferenza ed efficienza della memoria sono ora disponibili per chiunque li utilizzi e li modifichi.

Svelare i Segreti Dietro il Successo del Modello

Quindi, come sono stati creati esattamente questi modelli, che superano DeepSeek-R1? Il rapporto tecnico di Nvidia rivela gli elementi critici del loro processo di addestramento:

  • Supervised Fine-Tuning con Synthetic Data + Reinforcement Learning: Questa combinazione migliora significativamente le capacità di ragionamento del modello.
  • Comprehensive Post-Training Process: Un processo di post-addestramento robusto e ben progettato è fondamentale per ottimizzare le prestazioni del modello.

Il mese scorso, Nvidia ha annunciato ufficialmente il Llama-Nemotron 253B, che ha rapidamente messo in ombra Llama 4 (che aveva solo tre giorni e stava affrontando una "crisi di integrità" a causa della manipolazione della classifica). Il rilascio di questa serie di modelli ha suscitato un certo scalpore nel settore.

Secondo l’Artificial Analysis Intelligence Index, Llama-Nemotron-Ultra è attualmente considerato il modello open-source "più intelligente" ad aprile 2025.

Nvidia ha lanciato tre modelli nella serie Llama-Nemotron: LN-Nano 8B, LN-Super 49B e LN-Ultra 253B.

In particolare, LN-Ultra non solo supera DeepSeek-R1 in termini di prestazioni, ma viene anche eseguito su un singolo nodo 8xH100, offrendo un throughput di inferenza più elevato.

Questi modelli sono ottimizzati per un inferenza ad alta produttività mantenendo forti capacità di ragionamento e una lunghezza del contesto fino a 128K.

Inoltre, Nvidia ha introdotto una rivoluzionaria funzione di switch di inferenza nella comunità globale AI open-source. Gli utenti possono passare dinamicamente dalla modalità chat standard alla modalità di ragionamento utilizzando il prompt di sistema "detailed thinking on/off".

Questo design consente al modello di soddisfare le esigenze generali di tutti i giorni e di gestire attività di ragionamento complesse e multi-step senza la necessità di modelli o architetture diversi.

Il Processo di Costruzione: Un Approccio in Cinque Fasi

La costruzione dei modelli Llama-Nemotron è divisa in cinque fasi distinte:

Fase 1: Ottimizzazione dell’efficienza del ragionamento utilizzando la ricerca sull’architettura neurale (NAS) basata sui modelli della serie Llama 3, con l’introduzione di Feedforward Network Fusion (FFN Fusion).

Fase 2: Recupero delle prestazioni del modello attraverso la distillazione della conoscenza e la pre-formazione continua.

Fase 3: Supervised fine-tuning (SFT), che combina i dati di istruzione standard con i processi di ragionamento di potenti modelli di insegnamento come DeepSeek-R1, consentendo al modello di eseguire ragionamenti multi-step.

Fase 4: Apprendimento per rinforzo su larga scala su complessi dataset matematici e STEM, fondamentale per il modello studente per superare le capacità del modello insegnante. Per LN-Ultra, questa fase migliora significativamente le prestazioni sul benchmark GPQA-D, affermandolo come il modello più forte per il ragionamento scientifico nel dominio open-source.

Per supportare un addestramento per rinforzo su larga scala, il team ha sviluppato un nuovo framework di addestramento con molteplici misure di ottimizzazione, soprattutto supportando la capacità di generazione di precisione FP8.

Fase 5: Un breve addestramento di allineamento focalizzato sul seguire le istruzioni e aderire alle preferenze umane.

Architettura Innovativa per un’Efficienza di Inferenza Ottimizzata

LN-Super e LN-Ultra sfruttano il framework Puzzle per la ricerca sull’architettura neurale per ottimizzare l’efficienza dell’inferenza del modello.

Puzzle trasforma i grandi modelli linguistici in versioni efficienti e adattate all’hardware, ottimizzate per l’implementazione.

Attraverso la "distillazione locale block-by-block", gli sviluppatori hanno creato una libreria di moduli Transformer alternativi utilizzando Llama 3 Instruct.

In questo processo, ogni modulo viene addestrato in modo indipendente e in parallelo, approssimando la funzionalità del modulo originale ottimizzando al contempo le prestazioni computazionali.

Ogni modulo alternativo ha specifici trade-off "precision-efficiency". Alcuni moduli sono più efficienti, ma possono comportare un certo declino della qualità, creando un chiaro compromesso tra costo computazionale e accuratezza del modello.

Queste variazioni del modulo includono:

Rimozione del Meccanismo di Attenzione: Alcuni moduli omettono completamente il meccanismo di attenzione, riducendo la quantità di calcolo e il consumo di memoria della cache KV.

Dimensioni FFN Variabili: Le dimensioni intermedie delle reti feedforward vengono regolate, consentendo la compressione del modello a diverse granularità.

Dopo aver costruito la libreria dei moduli, Puzzle seleziona un modulo da ogni livello per assemblare un modello completo.

Questo processo di selezione è controllato da un solutore di programmazione mista intera (MIP), che trova la configurazione ottimale in base a vincoli quali compatibilità hardware, latenza massima consentita, budget di memoria o throughput di inferenza desiderato.

Compressione Verticale e Fusione FFN

Nel modello LN-Ultra, i ricercatori hanno introdotto FFN Fusion (Feedforward Network Fusion), una tecnica di compressione aggiuntiva per ridurre la profondità della sequenza del modello e migliorare l’efficienza della latenza di ragionamento.

La rimozione di alcuni livelli di attenzione da parte di Puzzle si traduce in una struttura unica: più blocchi FFN continui compaiono frequentemente nella struttura del modello.

FFN Fusion identifica queste strutture continue e le sostituisce con livelli FFN eseguibili in parallelo, meno numerosi ma più ampi.

Questo metodo di sostituzione riduce i passaggi del calcolo sequenziale senza sacrificare l’espressività del modello, migliorando significativamente l’utilizzo delle risorse di calcolo, soprattutto in ambienti multi-GPU, dove l’overhead di comunicazione cross-layer è significativo.

Il modello LN-Ultra supera costantemente DeepSeek-R1 e Llama-3.1-405B in termini di accuratezza ed efficienza, ottenendo un equilibrio ottimale.

Post-NAS Training: Distillazione della Conoscenza e Pre-training Continuo

Dopo la fase di ricerca sull’architettura neurale (NAS), sia LN-Super che LN-Ultra sono stati sottoposti a un addestramento aggiuntivo per migliorare la compatibilità tra i moduli e recuperare eventuali perdite di qualità che potrebbero essersi verificate durante la sostituzione dei moduli.

  • LN-Super è stato addestrato sul dataset Distillation Mix per 40 miliardi di token con l’obiettivo di distillazione della conoscenza.
  • LN-Ultra è stato inizialmente addestrato sullo stesso dataset di distillazione per 65 miliardi di token, seguito da un addestramento continuo sul dataset di pre-training di quarta fase di Nemotron-H per 88 miliardi di token.

Questo passaggio finale di pre-training ha permesso a LN-Ultra non solo di raggiungere il modello di riferimento, Llama 3.1-405B-Instruct, ma anche di superarlo nei principali test benchmark.

Ciò dimostra che una breve distillazione e un pre-training possono raggiungere la compatibilità tra un’aggressiva ottimizzazione architetturale e le elevate prestazioni del modello.

Supervised Fine-Tuning: Affinare l’Abilità di Ragionamento

Il Supervised Fine-Tuning (SFT) funge da "personal trainer" per i modelli Llama-Nemotron, prendendo di mira specificamente i passaggi di ragionamento per compiti particolari e apprendendo tecniche di inferenza da modelli "studenti stellari" come DeepSeek-R1.

Per instillare autentiche capacità di ragionamento, sono essenziali dati di addestramento di ragionamento su larga scala e di alta qualità.

Dati Sintetici: Su Misura per il Ragionamento

I ricercatori hanno curato attentamente campioni di dati contenenti sia dati di ragionamento che non di ragionamento per il supervised fine-tuning.

Per i campioni di ragionamento, hanno aggiunto "detailed thinking on" alle istruzioni di sistema, mentre per i campioni non di ragionamento hanno utilizzato "detailed thinking off".

Questa impostazione consente al modello di cambiare il comportamento di ragionamento in base ai prompt durante la fase di ragionamento.

I dati sintetici per il ragionamento sono stati preparati in matematica, codice e campi correlati.

Per addestrare il modello a seguire le istruzioni dello "switch di ragionamento", i ricercatori hanno creato dataset accoppiati, in cui ogni prompt corrisponde a una risposta con ragionamento e una senza ragionamento.

Questo accoppiamento consente al modello di imparare a regolare il proprio comportamento di ragionamento in base alle istruzioni di sistema.

Il successivo filtraggio di queste risposte viene eseguito in base alle risposte standard o ai modelli di ricompensa.

Processo di Fine-Tuning

Tutti i modelli sono stati addestrati sui dati di fine-tuning delle istruzioni utilizzando la perdita di cross-entropia a livello di token.

Nella maggior parte delle impostazioni di addestramento, i dati di ragionamento e non di ragionamento vengono combinati per formare batch di addestramento, in cui ogni prompt viene accoppiato con una risposta corrispondente in base alle istruzioni di sistema "detailed thinking on/off".

L’estensione dell’addestramento a più round può migliorare le prestazioni, soprattutto per i modelli più piccoli.

NeMo-Aligner è stato utilizzato per l’addestramento per rinforzo, supportando GRPO e l’addestramento di modelli eterogenei.

vLLM è stato utilizzato per la fase di generazione e Megatron-LM è stato utilizzato per la fase di addestramento.

Le fasi di addestramento e ragionamento condividevano lo stesso batch di GPU, completato sullo stesso dispositivo.

L’intero processo di addestramento ha utilizzato 72 nodi, ciascuno dotato di 8 GPU H100.

La fase di generazione ha utilizzato la precisione FP8, la fase di addestramento ha utilizzato la precisione BF16 e lo stato dell’ottimizzatore ha utilizzato FP32.

Ogni fase manteneva un peso del modello indipendente, che veniva sincronizzato all’inizio di ogni passaggio.

Apprendimento per Rinforzo: La Chiave per Superare l’Abilità di Ragionamento di R1

Il Supervised Fine-Tuning (SFT) consente al modello di estrarre conoscenza da potenti modelli di insegnamento, ottenendo eccellenti capacità.

Tuttavia, la distillazione della conoscenza pone intrinsecamente un limite alle prestazioni del modello studente, in particolare quando la capacità del modello di base del modello studente non supera quella del modello insegnante.

Attraverso il supervised fine-tuning, le prestazioni di LN-Ultra possono avvicinarsi a DeepSeek-R1, ma non possono superarlo.

L’apprendimento per rinforzo su larga scala (RL) è un metodo valido per consentire al modello studente di superare il modello insegnante perché consente al modello di esplorare continuamente nuove possibilità e auto-apprendere.

A causa dei vincoli di risorse, i ricercatori hanno applicato RL di ragionamento solo a LN-Ultra, ottenendo un modello studente che ha superato il modello insegnante.

Durante l’intero processo di addestramento per rinforzo di ragionamento, l’accuratezza di LN-Ultra sul dataset GPQA-Diamond è migliorata.

Processo di Addestramento: Un Focus sul Ragionamento Scientifico

Per LN-Ultra, i ricercatori hanno migliorato la sua capacità di ragionamento scientifico attraverso l’apprendimento per rinforzo su larga scala (RL), utilizzando l’algoritmo Grouped Relative Policy Optimization (GRPO), lo stesso utilizzato da DeepSeek-R1.

L’intero processo di addestramento ha richiesto circa 140.000 ore H100, addestrando continuamente il modello fino a quando non è converguto sui compiti di ragionamento.

La progettazione del meccanismo di ricompensa includeva due categorie:

  • Accuracy Reward: Basato sulle risposte standard (numeriche/frasi/paragrafi), chiamando il modello Llama-3.3-70B-Instruct giudica il grado di corrispondenza dei risultati della previsione.
  • Format Reward: Seguendo lo schema di DeepSeek-AI, il modello è costretto a racchiudere il processo di ragionamento con tag <think\> in modalità "detailed thinking" e la comparsa di tali tag è proibita in modalità non detailed thinking.

Il team di ricerca ha anche pre-elaborato i dati, inclusi il filtraggio dei dati e l’addestramento del curriculum.

  • Data Screening: LN-Super viene utilizzato in anticipo per generare 8 risposte per ogni domanda e vengono rimossi i campioni semplici con un tasso di superamento ≥ 75%.
  • Curriculum Training: Viene adottata un’allocazione progressiva dei batch in base al tasso di superamento.

Dynamic Distribution: Modellazione della difficoltà del batch con una funzione gaussiana, inizialmente concentrandosi su campioni ad alto tasso di superamento (semplici) e successivamente spostandosi su campioni a basso tasso di superamento (difficili).

Padding Logic: I campioni vengono allocati in base alla distribuzione target prima e la capacità rimanente viene integrata dal pool di campioni rimanente più grande.

Intra-Batch Processing: I campioni nello stesso batch vengono mescolati casualmente per mantenere la diversità.

Apprendimento per Rinforzo per l’Ottimizzazione delle Preferenze

Dopo aver completato l’addestramento al ragionamento scientifico, i ricercatori hanno condotto una breve fase di apprendimento per rinforzo per i modelli LN-Super e LN-Ultra, concentrandosi sul miglioramento delle loro capacità di seguire le istruzioni.

I ricercatori hanno anche utilizzato RLHF per ottimizzare le capacità di aiuto generale e le prestazioni di chat dei modelli mantenendo al contempo le capacità dei modelli in matematica, scienza e altri campi.

LN-Super ha ottenuto un punteggio elevato di 88,3 nel test Arena Hard, superando modelli proprietari come Claude 3.5 Sonnet e GPT-4o-2024-05-13 e anche meglio di modelli open-source più grandi.

Per raggiungere questo risultato, hanno adottato il metodo "OnLine Reward-Policy Optimization", massimizzando la ricompensa di previsione del modello sul dataset HelpSteer2. Il modello di ricompensa utilizzato era Llama-3.1-Nemotron-70B-Reward.

Due round di addestramento online RPO hanno aumentato il punteggio Arena Hard da 69,1 a 88,1.

Per LN-Ultra, hanno utilizzato un processo simile, ma hanno adottato GRPO.

Per LN-Nano, hanno condotto due round di addestramento offline RPO, utilizzando dati di addestramento generati dalla policy.

Il primo round ha combinato dati di ragionamento e non di ragionamento con prompt di sistema appropriati per ottimizzare la capacità di controllo del ragionamento del modello. Il secondo round si è concentrato sul miglioramento delle capacità di seguire le istruzioni.

Risultati della Valutazione: Una Valutazione Completa

I ricercatori hanno valutato le prestazioni di tutti i modelli Llama-Nemotron su due categorie di benchmark: compiti di ragionamento e compiti non di ragionamento.

I benchmark di ragionamento includevano: AIME24 e AIME25, GPQA-Diamond, LiveCodeBench e MATH500.

I benchmark non di ragionamento includevano: IFEval per la valutazione del follow delle istruzioni, BFCL V2 Live per la valutazione dell’utilizzo dello strumento di chiamata di funzione e Arena-Hard per la valutazione dell’allineamento con le preferenze di conversazione umana.

LN-Nano ha ottenuto prestazioni eccellenti in tutti i benchmark di ragionamento, nonostante le sue piccole dimensioni.

Ciò dimostra che i processi di supervised fine-tuning e i dataset di ragionamento ben curati sono efficaci nel trasferire capacità di ragionamento strutturate a modelli più piccoli.

LN-Super ha mostrato una forte competitività sia nei compiti di ragionamento che non di ragionamento rispetto ad altri modelli di scala parametrica simile.

In modalità "reasoning off", le prestazioni di LN-Super erano paragonabili al suo modello di origine distillata, Llama-3.3-70B; in modalità "reasoning on", ha superato altri modelli concorrenti, come DeepSeek-R1-Distilled-Llama-70B, dimostrando una forte capacità di ragionamento mantenendo al contempo una buona capacità di seguire le istruzioni.

Questi risultati indicano che LN-Super è un modello versatile che combina i vantaggi dei modelli ottimizzati per il ragionamento e dei modelli non di ragionamento, rendendolo adatto per compiti di assistenza quotidiana e compiti di ragionamento strutturato.

LN-Ultra ha funzionato alla pari o meglio di tutti i modelli di peso open-source esistenti nei benchmark di ragionamento e non di ragionamento. Ha raggiunto il livello più avanzato nei modelli open-source su GPQA, dimostrando pienamente l’efficacia dei metodi di addestramento per rinforzo su larga scala dei ricercatori Nvidia.

A differenza di DeepSeek-R1, che richiede una configurazione hardware 8×H200, LN-Ultra è ottimizzato per essere eseguito in modo efficiente su un singolo nodo 8×H100, fornendo un throughput di ragionamento e un’efficienza di distribuzione superiori.

La fase SFT di LN-Ultra si è avvicinata o ha raggiunto le prestazioni di DeepSeek-R1 su più benchmark di ragionamento (inclusi GPQA e AIME).

Oltre alle capacità di ragionamento e dialogo per cui il modello è stato originariamente addestrato, hanno anche testato il modello su un compito di distribuzione.

In particolare, il modello è stato testato sul dataset JudgeBench, richiedendogli di distinguere tra risposte di alta qualità e di bassa qualità.

Il nuovo modello ha superato gli attuali modelli proprietari e open-source di punta in questo compito.

LN-Ultra è diventato il modello open-source con le migliori prestazioni, superando significativamente DeepSeek-R1, secondo solo al modello proprietario o3-mini(high).

Inoltre, le prestazioni di LN-Super hanno superato anche o1-mini, indicando che il nuovo modello ha una forte capacità di generalizzazione in vari compiti.