La quête d’une intelligence artificielle capable de véritablement raisonner est depuis longtemps une ambition centrale dans ce domaine. L’effervescence initiale autour du modèle “o1” d’OpenAI a suscité un intérêt généralisé pour l’exploitation des techniques d’apprentissage par renforcement (RL) à grande échelle afin de construire des systèmes capables d’un raisonnement sophistiqué. Par la suite, la décision de DeepSeek-R1 de publier son modèle en open-source a alimenté davantage l’enthousiasme et a permis à la communauté de l’IA de poursuivre vigoureusement le développement de modèles de raisonnement de pointe.
Cependant, cet élan initial a été rapidement tempéré par un obstacle important. Des détails techniques cruciaux, d’une importance vitale pour une réplication réussie – en particulier, les stratégies précises utilisées pour la conservation des données et les recettes complexes régissant la formation RL – étaient ostensiblement absents du rapport original de DeepSeek-R1. Cette omission a laissé les chercheurs dans un état de frustration considérable, aux prises avec le défi de recréer les succès annoncés. La conséquence a été un paysage de recherche quelque peu fragmenté, avec une multitude d’efforts indépendants explorant différentes tailles de modèles, divers points de contrôle initiaux et un éventail diversifié de domaines cibles. Malgré cette activité intense, une recette de formation complète et systématiquement efficace est restée insaisissable.
Les approches traditionnelles de la formation de modèles linguistiques pour le raisonnement se sont principalement concentrées sur les domaines des mathématiques et du code informatique. Ces méthodologies reposent généralement sur une combinaison de pré-formation sur de vastes ensembles de données et de réglage fin supervisé pour spécialiser les modèles pour ces tâches particulières. Les premières tentatives d’incorporation de l’apprentissage par renforcement dans ce processus, généralement par l’utilisation de modèles de récompense spécifiques au domaine, n’ont produit que des gains limités. Cela découlait des défis inhérents aux tâches mathématiques et de codage, où des erreurs subtiles peuvent conduire à des résultats radicalement incorrects.
Des études plus récentes, stimulées par la publication de DeepSeek-R1, ont exploré l’utilisation de méthodes de vérification basées sur des règles. Dans le domaine des mathématiques, ces méthodes impliquent souvent d’exiger des formats de sortie spécifiques qui permettent une vérification précise et automatisée de la solution. De même, dans le contexte du code, les chercheurs ont exploité les mécanismes de rétroaction inhérents à la compilation et à l’exécution pour guider le processus d’apprentissage. Cependant, ces approches ont généralement été étroitement axées sur des domaines individuels, incapables de gérer efficacement des invites hétérogènes qui mélangent des problèmes mathématiques et de codage. En outre, les évaluations ont souvent été limitées à des benchmarks spécifiques tels que AIME et LiveCodeBench, ce qui limite la généralisabilité des résultats. Enfin, l’instabilité de la formation reste un problème persistant, nécessitant souvent l’utilisation de techniques complexes telles que l’augmentation progressive de la longueur de la réponse et l’atténuation de l’effondrement de l’entropie.
Maintenant, les chercheurs de NVIDIA changent la donne, car ils démontrent le potentiel important de l’apprentissage par renforcement à grande échelle pour améliorer considérablement les capacités de raisonnement de modèles relativement petits et moyens. Leurs méthodes atteignent des niveaux de performance qui surpassent les approches de pointe basées sur des techniques de distillation. L’approche NVIDIA utilise une stratégie de formation séquentielle: d’abord, effectuer une formation RL exclusivement sur des invites liées aux mathématiques, puis passer à des invites axées uniquement sur le code.
Une méthode séquentielle pour un raisonnement amélioré
Les conclusions ? La formation RL initiale sur des problèmes mathématiques non seulement améliore considérablement les performances sur les bancs d’essai mathématiques, mais, étonnamment, génère également une augmentation significative des capacités de raisonnement du code. En outre, des itérations prolongées de formation RL axées spécifiquement sur le code augmentent encore les performances du code avec une dégradation minime des performances mathématiques. Cette approche met en évidence un point crucial : la formation mathématique peut agir comme une base solide pour des tâches de raisonnement plus complexes telles que le codage.
Un élément essentiel du succès de l’approche NVIDIA est un pipeline robuste de conservation des données. Ce pipeline est méticuleusement conçu pour collecter des invites difficiles caractérisées à la fois par une grande difficulté et par la disponibilité de réponses et de cas de test vérifiables de haute qualité. Cela permet d’appliquer efficacement la RL basée sur la vérification dans les domaines mathématiques et de codage.
Conservation des données pour les mathématiques et le code
La méthodologie de conservation des données utilisée par les chercheurs de NVIDIA distingue soigneusement les exigences pour la RL mathématique uniquement et la RL de code uniquement.
RL mathématique uniquement: La création de données d’entraînement pour la RL mathématique uniquement implique la fusion de données provenant des ensembles de données DeepScaler et NuminaMath. Ces ensembles de données englobent un large éventail de sujets mathématiques, notamment l’algèbre, la combinatoire, la théorie des nombres et la géométrie. Pour maintenir l’intégrité des données, un processus de filtrage rigoureux est appliqué, utilisant un filtre à 9 grammes pour supprimer le contenu redondant ou inapproprié et mettant en œuvre des règles d’exclusion strictes pour éliminer les entrées potentiellement problématiques. Le modèle DeepSeek-R1 joue ensuite un rôle crucial dans la validation de la qualité des questions. Chaque question est soumise à huit tentatives indépendantes par le modèle, et seules les solutions qui reçoivent un vote majoritaire de correction via une vérification basée sur des règles sont conservées pour inclusion dans l’ensemble de données final.
RL de code uniquement: L’ensemble de données pour la RL de code uniquement est construit à l’aide de données provenant de plateformes de programmation compétitives modernes. Ces plateformes fournissent une riche source de problèmes de codage couvrant un éventail diversifié de sujets algorithmiques. Les problèmes sont formatés pour s’aligner sur les conventions d’appel de fonctions et d’entrée/sortie standard (stdin/stdout) couramment utilisées dans ces environnements. Les chercheurs entreprennent un processus de filtrage méticuleux pour éliminer les problèmes incompatibles et organisent méticuleusement des cas de test complets conçus pour couvrir les cas limites et les conditions aux limites. En outre, chaque problème reçoit un score de difficulté déterminé par l’évaluation par le modèle DeepSeek-R1-671B. Ce processus rigoureux se traduit par un ensemble de données de haute qualité composé de 8 520 problèmes de codage vérifiés.
AceReason-Nemotron : Résultats et benchmarks
Les résultats de la recherche NVIDIA sont convaincants. Le modèle AceReason-Nemotron-7B atteint des améliorations significatives de la précision de 14,5 % et de 14,6 % lors des compétitions difficiles AIME 2024 et 2025, respectivement, par rapport aux modèles SFT initiaux. En outre, il démontre des gains substantiels de 14,2 % et de 8 % sur les benchmarks LiveCodeBench v5 et v6, respectivement. La plus grande variante 14B du modèle présente des performances encore supérieures, surpassant les modèles plus grands tels que DeepSeek-R1-Distill-Qwen-32B et DeepSeek-R1-Distill-Llama-70B. Cela permet d’obtenir les meilleurs résultats de sa catégorie parmi les modèles de raisonnement ouverts basés sur RL.
Par rapport aux modèles basés sur la distillation de pointe, AceReason-Nemotron-14B surpasse OpenMath-14B/32B de 2,1%/4,4 % sur les benchmarks AIME et OpenCodeReasoning-14B de 1,7%/0,8 % sur LiveCodeBench. Cela démontre de manière convaincante que la RL peut atteindre des limites supérieures de performance plus élevées que les approches de distillation tout en maintenant des performances compétitives par rapport aux modèles de pointe avancés tels que QWQ-32B et o3-mini.
Les implications de ces résultats sont importantes. Ils suggèrent que la RL à grande échelle a le potentiel de débloquer de nouveaux niveaux de capacités de raisonnement dans les modèles d’IA, dépassant les limitations des approches traditionnelles. La stratégie de formation séquentielle spécifique au domaine, combinée à un pipeline robuste de conservation des données, fournit un plan pour les futures recherches dans ce domaine.
L’apprentissage par renforcement repousse les limites du raisonnement
Cette recherche souligne le potentiel important de l’apprentissage par renforcement pour repousser les limites des capacités de raisonnement des modèles. En employant stratégiquement une formation spécifique au domaine et en organisant méticuleusement des données de haute qualité, cela permet aux modèles d’IA de résoudre des problèmes auparavant insolubles et établit de nouvelles références pour le développement de modèles de raisonnement, conduisant finalement à une nouvelle génération de systèmes d’IA capables de relever des défis du monde réel avec une précision et une efficacité sans précédent. La capacité de raisonner efficacement est une pierre angulaire de l’intelligence, et les progrès réalisés par NVIDIA représentent une étape majeure vers la réalisation du plein potentiel de l’intelligence artificielle. Les recherches futures se concentreront probablement sur l’adaptation de ces techniques à des modèles encore plus grands et sur l’exploration de nouvelles stratégies de conservation des données afin d’améliorer encore les performances de raisonnement. Le développement de fonctions de récompense et de stratégies d’exploration plus sophistiquées sera également essentiel pour surmonter les défis associés à la formation de modèles d’IA pour des tâches de raisonnement complexes. En fin de compte, l’objectif est de créer des systèmes d’IA capables de raisonner, d’apprendre et de s’adapter d’une manière similaire à celle des humains, leur permettant de résoudre des problèmes complexes et de prendre des décisions éclairées dans un large éventail de domaines.
De plus, l’utilisation de la RL offre des avantages au-delà de la simple précision. Les agents RL peuvent apprendre à optimiser une variété d’objectifs, tels que l’efficacité, la robustesse et l’interprétabilité. Par exemple, un agent RL pourrait être entraîné à générer du code qui est non seulement correct, mais aussi efficace et facile à comprendre. Cette capacité est particulièrement importante dans les applications critiques en matière de sécurité, où il est essentiel de s’assurer que les systèmes d’IA sont fiables et prévisibles.
Le travail de NVIDIA souligne l’importance croissante de la conservation des données dans la recherche sur l’IA. La qualité des données d’entraînement a un impact significatif sur les performances des modèles d’IA, et des ensembles de données soigneusement organisés sont essentiels pour obtenir des résultats de pointe. Le pipeline de conservation des données développé par NVIDIA est une ressource précieuse pour les chercheurs travaillant sur des modèles de raisonnement, et il pourrait être adapté pour être utilisé dans d’autres domaines également.
La combinaison de la RL à grande échelle, de la formation spécifique au domaine et de la conservation robuste des données s’est avérée être une formule gagnante pour améliorer les capacités de raisonnement des modèles d’IA. À mesure que ces techniques continuent d’évoluer, nous pouvons nous attendre à voir des progrès encore plus impressionnants dans le domaine de l’IA, et nous espérons assister à des avancées continues des modèles d’IA dans un avenir proche.