NVIDIA AI: AceReason-Nemotron y RL

La búsqueda de una inteligencia artificial que pueda razonar verdaderamente ha sido durante mucho tiempo una búsqueda central en el campo. Los iniciales movimientos de entusiasmo en torno al modelo "o1" de OpenAI encendieron un interés generalizado en aprovechar las técnicas de aprendizaje por refuerzo a gran escala (RL) para construir sistemas capaces de un razonamiento sofisticado. Siguiendo esto, la decisión de DeepSeek-R1 de lanzar su modelo como código abierto alimentó aún más el entusiasmo y empoderó a la comunidad de IA para perseguir vigorosamente el desarrollo de modelos de razonamiento de vanguardia.

Sin embargo, este estallido inicial de actividad se vio rápidamente atenuado por un obstáculo significativo. Los detalles técnicos críticos, de vital importancia para una replicación exitosa - específicamente, las estrategias precisas empleadas para la curación de datos y las intrincadas recetas que gobiernan el entrenamiento de RL - estuvieron conspicuamente ausentes del informe original de DeepSeek-R1. Esta omisión dejó a los investigadores en un estado de considerable frustración, lidiando con el desafío de recrear los éxitos reportados. La consecuencia fue un panorama de investigación algo fragmentado, con una multitud de esfuerzos independientes explorando diferentes tamaños de modelo, varios puntos de control iniciales y una diversa gama de dominios objetivo. A pesar de esta intensa actividad, una receta de entrenamiento integral y consistentemente efectiva seguía siendo esquiva.

Los enfoques tradicionales para entrenar modelos de lenguaje para el razonamiento se han concentrado principalmente en los dominios de las matemáticas y el código informático. Estas metodologías generalmente se basan en una combinación de pre-entrenamiento en grandes conjuntos de datos y ajuste fino supervisado para especializar los modelos para estas tareas particulares. Los primeros intentos de incorporar el aprendizaje por refuerzo en este proceso, típicamente utilizando modelos de recompensa específicos del dominio, produjeron sólo ganancias limitadas. Esto provenía de los desafíos inherentes asociados con las tareas matemáticas y de codificación, donde errores sutiles pueden llevar a resultados drásticamente incorrectos.

Investigaciones más recientes, impulsadas por el lanzamiento de DeepSeek-R1, han explorado el uso de métodos de verificación basados en reglas. En el ámbito de las matemáticas, estos métodos a menudo implican requerir formatos de salida específicos que permitan una verificación precisa y automatizada de la solución. Del mismo modo, en el contexto del código, los investigadores han aprovechado los mecanismos de retroalimentación inherentes de la compilación y la ejecución para guiar el proceso de aprendizaje. Sin embargo, estos enfoques generalmente se han centrado estrechamente en dominios individuales, careciendo de la capacidad de manejar eficazmente indicaciones heterogéneas que mezclan problemas matemáticos y de codificación. Además, las evaluaciones a menudo se han restringido a puntos de referencia específicos como AIME y LiveCodeBench, lo que limita la generalización de los hallazgos. Finalmente, la inestabilidad del entrenamiento sigue siendo un problema persistente, que a menudo requiere el uso de técnicas complejas como el aumento progresivo de la longitud de la respuesta y la mitigación del colapso de la entropía.

Ahora, los investigadores de NVIDIA están cambiando el juego, ya que demuestran el importante potencial del aprendizaje por refuerzo a gran escala para mejorar drásticamente las capacidades de razonamiento de modelos relativamente pequeños y medianos. Sus métodos logran niveles de rendimiento que superan los enfoques de vanguardia basados en técnicas de destilación. El enfoque de NVIDIA utiliza una estrategia de entrenamiento secuencial: primero, realizar entrenamiento de RL exclusivamente en indicaciones relacionadas con las matemáticas, y posteriormente cambiar a indicaciones centradas únicamente en el código.

Un Método Secuencial para un Razonamiento Mejorado

¿Los hallazgos? El entrenamiento inicial de RL en problemas matemáticos no sólo mejora drásticamente el rendimiento en puntos de referencia matemáticos, sino que, sorprendentemente, también genera un impulso significativo en las capacidades de razonamiento de código. Además, las iteraciones extendidas de entrenamiento de RL centradas específicamente en el código aumentan aún más el rendimiento del código con sólo una degradación mínima en el rendimiento matemático. Este enfoque destaca un punto crucial: el entrenamiento matemático puede actuar como una base sólida para tareas de razonamiento más complejas como la codificación.

Una parte integral del éxito del enfoque de NVIDIA es una sólida canalización de curación de datos. Esta canalización está meticulosamente diseñada para recopilar indicaciones desafiantes caracterizadas tanto por su alta dificultad como por la disponibilidad de respuestas y casos de prueba verificables de alta calidad. Esto permite que RL basado en la verificación se aplique eficazmente tanto en los dominios matemáticos como de codificación.

Curación de Datos para Matemáticas y Código

La metodología de curación de datos empleada por los investigadores de NVIDIA distingue cuidadosamente entre los requisitos para RL sólo matemático y RL sólo de código.

RL Sólo Matemáticas: La creación de datos de entrenamiento para RL sólo matemático implica la fusión de datos de los conjuntos de datos DeepScaler y NuminaMath. Estos conjuntos de datos abarcan una amplia gama de temas matemáticos, incluyendo álgebra, combinatoria, teoría de números y geometría. Para mantener la integridad de los datos, se aplica un proceso de filtrado riguroso, utilizando un filtro de 9 gramos para eliminar contenido redundante o inadecuado e implementando reglas de exclusión estrictas para eliminar entradas potencialmente problemáticas. El modelo DeepSeek-R1 juega entonces un papel crucial en la validación de la calidad de las preguntas. Cada pregunta se somete a ocho intentos independientes por parte del modelo, y sólo aquellas soluciones que reciben una votación mayoritaria de corrección a través de la verificación basada en reglas se conservan para su inclusión en el conjunto de datos final.

RL Sólo Código: El conjunto de datos para RL sólo de código se construye utilizando datos procedentes de plataformas modernas de programación competitiva. Estas plataformas proporcionan una rica fuente de problemas de codificación que abarcan una diversa gama de temas algorítmicos. Los problemas se formatean para alinearse con las convenciones de llamada de funciones y entrada/salida estándar (stdin/stdout) comúnmente utilizadas en estos entornos. Los investigadores emprenden un meticuloso proceso de filtrado para eliminar problemas incompatibles y curan meticulosamente casos de prueba integrales diseñados para cubrir casos límite y condiciones de contorno. Además, a cada problema se le asigna una puntuación de dificultad determinada a través de la evaluación por el modelo DeepSeek-R1-671B. Este riguroso proceso resulta en un conjunto de datos de alta calidad que consta de 8.520 problemas de codificación verificados.

AceReason-Nemotron: Resultados y Puntos de Referencia

Los resultados de la investigación de NVIDIA son convincentes. El modelo AceReason-Nemotron-7B logra mejoras significativas en la precisión del 14,5% y el 14,6% en las desafiantes competiciones AIME 2024 y 2025, respectivamente, en comparación con los modelos SFT iniciales. Además, demuestra ganancias sustanciales del 14,2% y el 8% en los puntos de referencia LiveCodeBench v5 y v6, respectivamente. La variante más grande de 14B del modelo muestra un rendimiento aún mayor, superando a modelos más grandes como DeepSeek-R1-Distill-Qwen-32B y DeepSeek-R1-Distill-Llama-70B. Esto logra los mejores resultados de su clase entre los modelos de razonamiento basados en RL abiertos.

En comparación con los modelos basados en destilación de vanguardia, AceReason-Nemotron-14B supera a OpenMath-14B/32B en un 2,1%/4,4% en los puntos de referencia AIME y OpenCodeReasoning-14B en un 1,7%/0,8% en LiveCodeBench. Esto demuestra de manera convincente que la RL puede lograr límites superiores de rendimiento más altos que los enfoques de destilación al tiempo que mantiene un rendimiento competitivo frente a modelos de frontera avanzados como QWQ-32B y o3-mini.

Las implicaciones de estos resultados son significativas. Sugieren que la RL a gran escala tiene el potencial de desbloquear nuevos niveles de capacidades de razonamiento en los modelos de IA, superando las limitaciones de los enfoques tradicionales. La estrategia de entrenamiento secuencial específica del dominio, combinada con una sólida canalización de curación de datos, proporciona un plan para futuras investigaciones en esta área.

El Aprendizaje por Refuerzo Impulsa los Límites del Razonamiento

Esta investigación subraya el importante potencial del aprendizaje por refuerzo para superar los límites de las capacidades de razonamiento de los modelos. Al emplear estratégicamente el entrenamiento específico del dominio y curar meticulosamente datos de alta calidad, esto permite que los modelos de IA resuelvan problemas previamente intratables y establece nuevos puntos de referencia para el desarrollo de modelos de razonamiento y, en última instancia, conduce a una nueva generación de sistemas de IA capaces de abordar los desafíos del mundo real con una precisión y eficiencia sin precedentes. La capacidad de razonar eficazmente es una piedra angular de la inteligencia, y los avances logrados por NVIDIA representan un paso importante hacia la realización de todo el potencial de la inteligencia artificial. La investigación futura probablemente se centrará en escalar estas técnicas a modelos aún más grandes y explorar nuevas estrategias de curación de datos para mejorar aún más el rendimiento del razonamiento. El desarrollo de funciones de recompensa y estrategias de exploración más sofisticadas también será crucial para superar los desafíos asociados con el entrenamiento de modelos de IA para tareas de razonamiento complejas. En última instancia, el objetivo es crear sistemas de IA que puedan razonar, aprender y adaptarse de manera similar a los humanos, permitiéndoles resolver problemas complejos y tomar decisiones informadas en una amplia gama de dominios.

Además, el uso de RL ofrece ventajas más allá de la precisión bruta. Los agentes de RL pueden aprender a optimizar para una variedad de objetivos, como la eficiencia, la robustez y la interpretabilidad. Por ejemplo, un agente de RL podría ser entrenado para generar código que no sólo sea correcto sino también eficiente y fácil de entender. Esta capacidad es particularmente importante en aplicaciones críticas para la seguridad, donde es esencial asegurar que los sistemas de IA sean fiables y predecibles.

El trabajo realizado por NVIDIA destaca la creciente importancia de la curación de datos en la investigación de IA. La calidad de los datos de entrenamiento tiene un impacto significativo en el rendimiento de los modelos de IA, y los conjuntos de datos cuidadosamente curados son esenciales para lograr resultados de vanguardia. La canalización de curación de datos desarrollada por NVIDIA es un recurso valioso para los investigadores que trabajan en modelos de razonamiento, y podría adaptarse para su uso en otros dominios también.

La combinación de RL a gran escala, entrenamiento específico del dominio y curación robusta de datos ha demostrado ser una fórmula ganadora para mejorar las capacidades de razonamiento de los modelos de IA. A medida que estas técnicas continúan evolucionando, podemos esperar ver avances aún más impresionantes en el campo de la IA, y esperamos ver avances continuos de los modelos de IA en un futuro próximo.