Les modèles de la série Llama-Nemotron de Nvidia ont officiellement surpassé DeepSeek-R1, et les détails de leur entraînement ont été entièrement divulgués, offrant des informations sur la façon dont ces modèles ont été développés pour atteindre des performances supérieures.
Ces modèles sont désormais entièrement open-source, marquant une avancée significative dans la technologie d’IA accessible. Cela signifie qu’une série de modèles d’inférence qui surpassent considérablement DeepSeek-R1 en termes de débit d’inférence et d’efficacité de la mémoire sont maintenant disponibles pour tous à utiliser et à modifier.
Révélation des secrets derrière le succès du modèle
Alors, comment exactement ces modèles, qui surpassent DeepSeek-R1, ont-ils été créés ? Le rapport technique de Nvidia révèle les éléments essentiels de leur processus de formation :
- Fine-tuning supervisé avec des données synthétiques + Apprentissage par renforcement : cette combinaison améliore considérablement les capacités de raisonnement du modèle.
- Processus de post-formation complet : un processus de post-formation robuste et bien conçu est crucial pour optimiser les performances du modèle.
Le mois dernier, Nvidia a officiellement annoncé le Llama-Nemotron 253B, qui a rapidement éclipsé Llama 4 (qui n’avait que trois jours et faisait face à une « crise d’intégrité » en raison de la manipulation du classement). La sortie de cette série de modèles a fait sensation dans l’industrie.
Selon l’Artificial Analysis Intelligence Index, Llama-Nemotron-Ultra est actuellement considéré comme le modèle open-source « le plus intelligent » en avril 2025.
Nvidia a lancé trois modèles dans la série Llama-Nemotron : LN-Nano 8B, LN-Super 49B et LN-Ultra 253B.
Notamment, LN-Ultra non seulement surpasse DeepSeek-R1 en termes de performances, mais fonctionne également sur un seul nœud 8xH100, offrant un débit d’inférence plus élevé.
Ces modèles sont optimisés pour une inférence à haut débit tout en conservant de fortes capacités de raisonnement et une longueur de contexte allant jusqu’à 128K.
De plus, Nvidia a introduit une fonction de commutateur d’inférence révolutionnaire dans la communauté mondiale de l’IA open-source. Les utilisateurs peuvent basculer dynamiquement entre le mode de chat standard et le mode de raisonnement en utilisant l’invite système « detailed thinking on/off ».
Cette conception permet au modèle de répondre aux besoins quotidiens généraux et de gérer des tâches de raisonnement complexes et en plusieurs étapes sans avoir besoin de modèles ou d’architectures différents.
Le processus de construction : une approche en cinq étapes
La construction des modèles Llama-Nemotron est divisée en cinq étapes distinctes :
Étape 1 : Optimisation de l’efficacité du raisonnement à l’aide de la recherche d’architecture neurale (NAS) basée sur les modèles de la série Llama 3, avec l’introduction de Feedforward Network Fusion (FFN Fusion).
Étape 2 : Récupération des performances du modèle par la distillation des connaissances et la poursuite de la pré-formation.
Étape 3 : Fine-tuning supervisé (SFT), qui combine des données d’instructions standard avec des processus de raisonnement provenant de modèles d’enseignants puissants comme DeepSeek-R1, permettant au modèle d’effectuer un raisonnement en plusieurs étapes.
Étape 4 : Apprentissage par renforcement à grande échelle sur des ensembles de données mathématiques et STEM complexes, ce qui est crucial pour que le modèle étudiant surpasse les capacités du modèle enseignant. Pour LN-Ultra, cette étape améliore considérablement les performances sur le benchmark GPQA-D, l’établissant comme le modèle le plus puissant pour le raisonnement scientifique dans le domaine open-source.
Pour prendre en charge une formation d’apprentissage par renforcement à si grande échelle, l’équipe a développé un nouveau cadre de formation avec de multiples mesures d’optimisation, notamment la prise en charge de la capacité de génération de précision FP8.
Étape 5 : Une brève formation d’alignement axée sur le respect des instructions et l’adhésion aux préférences humaines.
Architecture innovante pour une efficacité d’inférence optimisée
LN-Super et LN-Ultra exploitent le framework Puzzle pour la recherche d’architecture neurale afin d’optimiser l’efficacité de l’inférence du modèle.
Puzzle transforme les grands modèles de langage en versions efficaces et adaptées au matériel, optimisées pour le déploiement.
Grâce à la « distillation locale bloc par bloc », les développeurs ont construit une bibliothèque de modules Transformer alternatifs à l’aide de Llama 3 Instruct.
Dans ce processus, chaque module est entraîné indépendamment et en parallèle, en approchant la fonctionnalité du module d’origine tout en optimisant les performances de calcul.
Chaque module alternatif a des compromis « précision-efficacité » spécifiques. Certains modules sont plus efficaces mais peuvent entraîner une certaine baisse de qualité, créant un compromis clair entre le coût de calcul et la précision du modèle.
Ces variations de module incluent :
Suppression du mécanisme d’attention : Certains modules omettent complètement le mécanisme d’attention, réduisant la quantité de calcul et la consommation de mémoire cache KV.
Dimensions FFN variables : Les dimensions intermédiaires des réseaux feedforward sont ajustées, permettant la compression du modèle à différentes granularités.
Après avoir construit la bibliothèque de modules, Puzzle sélectionne un module de chaque couche pour assembler un modèle complet.
Ce processus de sélection est contrôlé par un solveur de programmation en nombres entiers mixtes (MIP), qui trouve la configuration optimale en fonction de contraintes telles que la compatibilité matérielle, la latence maximale autorisée, le budget de mémoire ou le débit d’inférence souhaité.
Compression verticale et fusion FFN
Dans le modèle LN-Ultra, les chercheurs ont introduit FFN Fusion (Feedforward Network Fusion), une technique de compression supplémentaire pour réduire la profondeur de séquence du modèle et améliorer l’efficacité de la latence du raisonnement.
La suppression de certaines couches d’attention par Puzzle entraîne une structure unique : plusieurs blocs FFN continus apparaissent fréquemment dans la structure du modèle.
FFN Fusion identifie ces structures continues et les remplace par moins de couches FFN plus larges et exécutables en parallèle.
Cette méthode de remplacement réduit les étapes de calcul séquentiel sans sacrifier l’expressivité du modèle, améliorant considérablement l’utilisation des ressources de calcul - en particulier dans les environnements multi-GPU, où la surcharge de communication inter-couches est importante.
Le modèle LN-Ultra surpasse constamment DeepSeek-R1 et Llama-3.1-405B en termes de précision et d’efficacité, atteignant un équilibre optimal.
Formation post-NAS : Distillation des connaissances et pré-formation continue
Après la phase de recherche d’architecture neurale (NAS), LN-Super et LN-Ultra ont subi une formation supplémentaire pour améliorer la compatibilité entre les modules et récupérer toute perte de qualité qui aurait pu se produire lors du remplacement des modules.
- LN-Super a été formé sur l’ensemble de données Distillation Mix pour 40 milliards de jetons dans le cadre de l’objectif de distillation des connaissances.
- LN-Ultra a d’abord été formé sur le même ensemble de données de distillation pour 65 milliards de jetons, puis a continué à être formé sur l’ensemble de données de pré-formation de quatrième étape Nemotron-H pour 88 milliards de jetons.
Cette dernière étape de pré-formation a permis à LN-Ultra non seulement de rattraper le modèle de référence, Llama 3.1-405B-Instruct, mais aussi de le surpasser dans les tests de référence clés.
Cela montre qu’une brève distillation et une pré-formation peuvent permettre la compatibilité entre l’optimisation architecturale agressive et les performances élevées du modèle.
Fine-tuning supervisé : Affiner les prouesses de raisonnement
Le fine-tuning supervisé (SFT) agit comme un « entraîneur personnel » pour les modèles Llama-Nemotron, ciblant spécifiquement les étapes de raisonnement pour des tâches particulières et apprenant les techniques d’inférence auprès de modèles « élèves vedettes » tels que DeepSeek-R1.
Pour inculquer de véritables compétences en matière de raisonnement, des données de formation au raisonnement à grande échelle et de haute qualité sont essentielles.
Données synthétiques : Conçues pour le raisonnement
Les chercheurs ont soigneusement sélectionné des échantillons de données contenant à la fois des données de raisonnement et de non-raisonnement pour le fine-tuning supervisé.
Pour les échantillons de raisonnement, ils ont ajouté « detailed thinking on » aux instructions du système, tandis que pour les échantillons de non-raisonnement, ils ont utilisé « detailed thinking off ».
Ce paramètre permet au modèle de modifier le comportement de raisonnement en fonction des invites pendant la phase de raisonnement.
Les données synthétiques pour le raisonnement ont été préparées dans les domaines des mathématiques, du codage et des domaines connexes.
Pour entraîner le modèle à suivre les instructions du « commutateur de raisonnement », les chercheurs ont construit des ensembles de données appariés, où chaque invite correspond à une réponse avec raisonnement et une sans raisonnement.
Cet appariement permet au modèle d’apprendre à ajuster son comportement de raisonnement en fonction des instructions du système.
Le filtrage ultérieur de ces réponses est effectué sur la base de réponses standard ou de modèles de récompense.
Processus de fine-tuning
Tous les modèles ont été entraînés sur des données de fine-tuning d’instructions à l’aide d’une perte d’entropie croisée au niveau des jetons.
Dans la plupart des paramètres de formation, les données de raisonnement et de non-raisonnement sont mélangées pour former des lots de formation, où chaque invite est associée à une réponse correspondante basée sur les instructions du système « detailed thinking on/off ».
L’extension de la formation à plusieurs tours peut améliorer les performances, en particulier pour les petits modèles.
NeMo-Aligner a été utilisé pour la formation à l’apprentissage par renforcement, prenant en charge GRPO et la formation de modèles hétérogènes.
vLLM a été utilisé pour la phase de génération, et Megatron-LM a été utilisé pour la phase de formation.
Les phases de formation et de raisonnement ont partagé le même lot de GPU, complété sur le même appareil.
L’ensemble du processus de formation a utilisé 72 nœuds, chacun équipé de 8 GPU H100.
La phase de génération a utilisé la précision FP8, la phase de formation a utilisé la précision BF16 et l’état de l’optimiseur a utilisé FP32.
Chaque phase a conservé un poids de modèle indépendant, qui a été synchronisé au début de chaque étape.
Apprentissage par renforcement : La clé pour surpasser la capacité de raisonnement de R1
Le fine-tuning supervisé (SFT) permet au modèle d’extraire des connaissances de modèles d’enseignants puissants, atteignant d’excellentes capacités.
Cependant, la distillation des connaissances fixe intrinsèquement une limite aux performances du modèle étudiant, en particulier lorsque la capacité du modèle de base du modèle étudiant ne dépasse pas celle du modèle enseignant.
Grâce au fine-tuning supervisé, les performances de LN-Ultra peuvent approcher DeepSeek-R1 mais ne peuvent pas le surpasser.
L’apprentissage par renforcement à grande échelle (RL) est une méthode viable pour permettre au modèle étudiant de surpasser le modèle enseignant, car il permet au modèle d’explorer continuellement de nouvelles possibilités et d’apprendre par lui-même.
En raison de contraintes de ressources, les chercheurs n’ont appliqué RL de raisonnement qu’à LN-Ultra, ce qui a donné un modèle étudiant qui a surpassé le modèle enseignant.
Tout au long du processus de formation à l’apprentissage par renforcement du raisonnement, la précision de LN-Ultra sur l’ensemble de données GPQA-Diamond s’est améliorée.
Processus de formation : Un accent sur le raisonnement scientifique
Pour LN-Ultra, les chercheurs ont amélioré sa capacité de raisonnement scientifique grâce à l’apprentissage par renforcement à grande échelle (RL), en utilisant l’algorithme Grouped Relative Policy Optimization (GRPO), le même que celui utilisé par DeepSeek-R1.
L’ensemble du processus de formation a nécessité environ 140 000 heures H100, entraînant continuellement le modèle jusqu’à ce qu’il converge sur les tâches de raisonnement.
La conception du mécanisme de récompense comprenait deux catégories :
- Récompense de précision : basée sur les réponses standard (numérique/phrase/paragraphe), l’appel du modèleLlama-3.3-70B-Instruct juge le degré de correspondance des résultats de prédiction.
- Récompense de format : suivant le schéma de DeepSeek-AI, le modèle est forcé d’encapsuler le processus de raisonnement avec des balises <think\> en mode « detailed thinking », et l’apparition de ces balises est interdite en mode non détaillé.
L’équipe de recherche a également prétraité les données, y compris le filtrage des données et la formation du programme.
- Filtrage des données : LN-Super est utilisé à l’avance pour générer 8 réponses pour chaque question, et les échantillons simples avec un taux de réussite ≥ 75 % sont supprimés.
- Formation du programme : L’allocation progressive des lots basée sur le taux de réussite est adoptée.
Distribution dynamique : Modélisation de la difficulté des lots avec une fonction gaussienne, se concentrant initialement sur les échantillons à taux de réussite élevé (simples) et passant ensuite aux échantillons à taux de réussite faible (difficiles).
Logique de remplissage : Les échantillons sont attribués selon la distribution cible en premier, et la capacité restante est complétée à partir du plus grand pool d’échantillons restant.
Traitement intra-lot : Les échantillons du même lot sont mélangés aléatoirement pour maintenir la diversité.
Apprentissage par renforcement pour l’optimisation des préférences
Après avoir terminé la formation au raisonnement scientifique, les chercheurs ont mené une brève phase d’apprentissage par renforcement pour les modèles LN-Super et LN-Ultra, en se concentrant sur l’amélioration de leurs capacités de suivi des instructions.
Les chercheurs ont également utilisé RLHF pour optimiser les capacités d’aide générales et les performances de chat des modèles tout en conservant les capacités des modèles en mathématiques, en sciences et dans d’autres domaines.
LN-Super a obtenu un score élevé de 88,3 au test Arena Hard, dépassant les modèles propriétaires tels que Claude 3.5 Sonnet et GPT-4o-2024-05-13, et également mieux que les modèles open-source plus volumineux.
Pour atteindre ce résultat, ils ont adopté la méthode « OnLine Reward-Policy Optimization », maximisant la récompense de prédiction du modèle sur l’ensemble de données HelpSteer2. Le modèle de récompense utilisé était Llama-3.1-Nemotron-70B-Reward.
Deux tours de formation RPO en ligne ont augmenté le score Arena Hard de 69,1 à 88,1.
Pour LN-Ultra, ils ont utilisé un processus similaire mais ont adopté GRPO.
Pour LN-Nano, ils ont mené deux tours de formation RPO hors ligne, en utilisant des données de formation générées par la politique.
Le premier tour a combiné des données de raisonnement et de non-raisonnement avec des invites système appropriées pour optimiser la capacité de contrôle du raisonnement du modèle. Le deuxième tour s’est concentré sur l’amélioration des capacités de suivi des instructions.
Résultats de l’évaluation : Une évaluation complète
Les chercheurs ont évalué les performances de tous les modèles Llama-Nemotron sur deux catégories de benchmark : les tâches de raisonnement et les tâches de non-raisonnement.
Les benchmarks de raisonnement comprenaient : AIME24 et AIME25, GPQA-Diamond, LiveCodeBench et MATH500.
Les benchmarks de non-raisonnement comprenaient : IFEval pour l’évaluation du suivi des instructions, BFCL V2 Live pour l’évaluation de l’utilisation des outils d’appel de fonction et Arena-Hard pour l’évaluation de l’alignement avec les préférences de conversation humaine.
LN-Nano a obtenu d’excellentes performances dans tous les benchmarks de raisonnement, malgré sa petite taille.
Cela démontre que les processus de fine-tuning supervisé et les ensembles de données de raisonnement bien organisés sont efficaces pour transférer les capacités de raisonnement structurées à des modèles plus petits.
LN-Super a montré une forte compétitivité dans les tâches de raisonnement et de non-raisonnement par rapport à d’autres modèles d’une échelle de paramètres similaire.
En mode « reasoning off », les performances de LN-Super étaient comparables à son modèle source distillé, Llama-3.3-70B ; en mode « reasoning on », il a surpassé d’autres modèles concurrents, tels que DeepSeek-R1-Distilled-Llama-70B, démontrant une forte capacité de raisonnement tout en conservant une bonne capacité de suivi des instructions.
Ces résultats indiquent que LN-Super est un modèle polyvalent qui combine les avantages des modèles optimisés pour le raisonnement et des modèles de non-raisonnement, ce qui le rend adapté aux tâches d’assistant quotidiennes et aux tâches de raisonnement structurées.
LN-Ultra a fonctionné au même niveau ou mieux que tous les modèles de poids open-source existants dans les benchmarks de raisonnement et de non-raisonnement. Il a atteint le niveau le plus avancé dans les modèles open-source sur GPQA, démontrant pleinement l’efficacité des méthodes de formation d’apprentissage par renforcement à grande échelle des chercheurs de Nvidia.
Contrairement à DeepSeek-R1, qui nécessite une configuration matérielle 8×H200, LN-Ultra est optimisé pour fonctionner efficacement sur un nœud 8×H100 unique, offrant un débit de raisonnement et une efficacité de déploiement plus élevés.
La phase SFT de LN-Ultra a approché ou atteint les performances de DeepSeek-R1 sur plusieurs benchmarks de raisonnement (y compris GPQA et AIME).
En plus des capacités de raisonnement et de dialogue pour lesquelles le modèle a été initialement formé, ils ont également testé le modèle sur une tâche de distribution.
Plus précisément, le modèle a été testé sur l’ensemble de données JudgeBench, l’obligeant à distinguer entre les réponses de haute qualité et de basse qualité.
Le nouveau modèle a surpassé les meilleurs modèles propriétaires et open-source actuels sur cette tâche.
LN-Ultra est devenu le modèle open-source le plus performant, dépassant considérablement DeepSeek-R1, juste derrière le modèle propriétaire o3-mini(high).
De plus, les performances de LN-Super ont également dépassé o1-mini, indiquant que le nouveau modèle a une forte capacité de généralisation dans diverses tâches.