Los modelos de la serie Llama-Nemotron de Nvidia han superado oficialmente a DeepSeek-R1, y los detalles de su entrenamiento han sido completamente divulgados, ofreciendo información sobre cómo estos modelos fueron desarrollados para alcanzar un rendimiento superior.
Estos modelos son ahora completamente de código abierto, marcando un avance significativo en la tecnología de IA accesible. Esto significa que una serie de modelos de inferencia que superan significativamente a DeepSeek-R1 en términos de rendimiento de inferencia y eficiencia de memoria están ahora disponibles para que cualquiera los use y modifique.
Revelando los Secretos Detrás del Éxito del Modelo
Entonces, ¿cómo exactamente fueron creados estos modelos, que superan a DeepSeek-R1? El informe técnico de Nvidia revela los elementos críticos de su proceso de entrenamiento:
- Fine-Tuning Supervisado con Datos Sintéticos + Aprendizaje por Refuerzo: Esta combinación mejora significativamente las capacidades de razonamiento del modelo.
- Proceso Integral de Post-Entrenamiento: Un proceso de post-entrenamiento robusto y bien diseñado es crucial para optimizar el rendimiento del modelo.
El mes pasado, Nvidia anunció oficialmente el Llama-Nemotron 253B, que rápidamente eclipsó a Llama 4 (que solo tenía tres días y enfrentaba una "crisis de integridad" debido a la manipulación de la tabla de clasificación). El lanzamiento de esta serie de modelos causó un gran revuelo en la industria.
Según el Índice de Inteligencia de Análisis Artificial, Llama-Nemotron-Ultra es actualmente considerado el modelo de código abierto "más inteligente" a partir de abril de 2025.
Nvidia lanzó tres modelos en la serie Llama-Nemotron: LN-Nano 8B, LN-Super 49B y LN-Ultra 253B.
En particular, LN-Ultra no solo supera a DeepSeek-R1 en rendimiento, sino que también se ejecuta en un solo nodo 8xH100, ofreciendo mayor rendimiento de inferencia.
Estos modelos están optimizados para la inferencia de alto rendimiento, manteniendo fuertes capacidades de razonamiento y una longitud de contexto de hasta 128K.
Además, Nvidia ha introducido una función de conmutación de inferencia innovadora en la comunidad global de código abierto de IA. Los usuarios pueden cambiar dinámicamente entre el modo de chat estándar y el modo de razonamiento utilizando el indicador del sistema "detailed thinking on/off".
Este diseño permite que el modelo satisfaga las necesidades generales diarias y maneje tareas complejas de razonamiento de varios pasos sin necesidad de diferentes modelos o arquitecturas.
El Proceso de Construcción: Un Enfoque de Cinco Etapas
La construcción de los modelos Llama-Nemotron se divide en cinco etapas distintas:
Etapa 1: Optimización de la eficiencia del razonamiento utilizando la búsqueda de arquitectura neural (NAS) basada en los modelos de la serie Llama 3, con la introducción de Feedforward Network Fusion (FFN Fusion).
Etapa 2: Recuperación del rendimiento del modelo a través de la destilación del conocimiento y el pre-entrenamiento continuo.
Etapa 3: Fine-tuning supervisado (SFT), que combina datos de instrucción estándar con procesos de razonamiento de modelos maestros poderosos como DeepSeek-R1, lo que permite que el modelo realice razonamientos de varios pasos.
Etapa 4: Aprendizaje por refuerzo a gran escala en conjuntos de datos matemáticos y STEM complejos, que es crucial para que el modelo estudiante supere las capacidades del modelo maestro. Para LN-Ultra, esta etapa mejora significativamente el rendimiento en el benchmark GPQA-D, estableciéndolo como el modelo más fuerte para el razonamiento científico en el dominio del código abierto.
Para admitir un entrenamiento de aprendizaje por refuerzo a tan gran escala, el equipo desarrolló un nuevo marco de entrenamiento con múltiples medidas de optimización, lo más importante es admitir la capacidad de generación de precisión FP8.
Etapa 5: Un breve entrenamiento de alineación centrado en el seguimiento de instrucciones y el cumplimiento de las preferencias humanas.
Arquitectura Innovadora para una Eficiencia de Inferencia Optimizada
LN-Super y LN-Ultra aprovechan el marco Puzzle para la búsqueda de arquitectura neural para optimizar la eficiencia de inferencia del modelo.
Puzzle transforma los modelos de lenguaje grandes en versiones eficientes y adaptadas al hardware, optimizadas para el despliegue.
A través de la "destilación local bloque por bloque", los desarrolladores construyeron una biblioteca de módulos Transformer alternativos utilizando Llama 3 Instruct.
En este proceso, cada módulo se entrena de forma independiente y en paralelo, aproximando la funcionalidad del módulo original mientras optimiza el rendimiento computacional.
Cada módulo alternativo tiene compensaciones específicas de "precisión-eficiencia". Algunos módulos son más eficientes, pero pueden resultar en una cierta disminución de la calidad, creando una compensación clara entre el costo computacional y la precisión del modelo.
Estas variaciones de módulo incluyen:
Eliminación del Mecanismo de Atención: Algunos módulos omiten por completo el mecanismo de atención, reduciendo la cantidad de cálculo y el consumo de memoria caché KV.
Dimensiones FFN Variables: Las dimensiones intermedias de las redes feedforward se ajustan, lo que permite la compresión del modelo en diferentes granularidades.
Después de construir la biblioteca de módulos, Puzzle selecciona un módulo de cada capa para ensamblar un modelo completo.
Este proceso de selección está controlado por un solucionador de programación mixta entera (MIP), que encuentra la configuración óptima basada en restricciones tales como la compatibilidad del hardware, la latencia máxima permitida, el presupuesto de memoria o el rendimiento de inferencia deseado.
Compresión Vertical y Fusión FFN
En el modelo LN-Ultra, los investigadores introdujeron FFN Fusion (Feedforward Network Fusion), una técnica de compresión adicional para reducir la profundidad de la secuencia del modelo y mejorar la eficiencia de la latencia de razonamiento.
La eliminación de algunas capas de atención por parte de Puzzle resulta en una estructura única: múltiples bloques FFN continuos aparecen con frecuencia en la estructura del modelo.
FFN Fusion identifica estas estructuras continuas y las reemplaza con capas FFN paralelas ejecutables, más anchas pero en menor número.
Este método de reemplazo reduce los pasos del cálculo secuencial sin sacrificar la expresividad del modelo, mejorando significativamente la utilización de los recursos informáticos, especialmente en entornos multi-GPU, donde la sobrecarga de comunicación entre capas es significativa.
El modelo LN-Ultra supera constantemente a DeepSeek-R1 y Llama-3.1-405B en términos de precisión y eficiencia, logrando un equilibrio óptimo.
Entrenamiento Post-NAS: Destilación del Conocimiento y Pre-entrenamiento Continuo
Después de la fase de búsqueda de arquitectura neural (NAS), tanto LN-Super como LN-Ultra se sometieron a un entrenamiento adicional para mejorar la compatibilidad entre los módulos y recuperar cualquier pérdida de calidad que pudiera haber ocurrido durante el reemplazo del módulo.
- LN-Super fue entrenado en el conjunto de datos Distillation Mix para 40 mil millones de tokens bajo el objetivo de destilación del conocimiento.
- LN-Ultra fue inicialmente entrenado en el mismo conjunto de datos de destilación para 65 mil millones de tokens, seguido de un entrenamiento continuo en el conjunto de datos de pre-entrenamiento de cuarta etapa de Nemotron-H para 88 mil millones de tokens.
Este paso final de pre-entrenamiento permitió que LN-Ultra no solo alcanzara al modelo de referencia, Llama 3.1-405B-Instruct, sino que también lo superara en pruebas de benchmark clave.
Esto muestra que la destilación y el pre-entrenamiento breves pueden lograr la compatibilidad entre la optimización arquitectónica agresiva y el alto rendimiento del modelo.
Fine-Tuning Supervisado: Refinando la Destreza del Razonamiento
El Fine-Tuning Supervisado (SFT) actúa como un "entrenador personal" para los modelos Llama-Nemotron, apuntando específicamente a los pasos de razonamiento para tareas particulares y aprendiendo técnicas de inferencia de modelos de "estudiantes estrella" como DeepSeek-R1.
Para inculcar habilidades de razonamiento genuinas, es esencial contar con datos de entrenamiento de razonamiento a gran escala y de alta calidad.
Datos Sintéticos: Adaptados para el Razonamiento
Los investigadores seleccionaron cuidadosamente muestras de datos que contenían datos de razonamiento y no razonamiento para el fine-tuning supervisado.
Para las muestras de razonamiento, agregaron "detailed thinking on" a las instrucciones del sistema, mientras que para las muestras de no razonamiento, utilizaron "detailed thinking off".
Esta configuración permite que el modelo cambie el comportamiento de razonamiento basado en indicaciones durante la fase de razonamiento.
Los datos sintéticos para el razonamiento se prepararon en matemáticas, codificación y campos relacionados.
Para entrenar al modelo para que siga las instrucciones de "conmutación de razonamiento", los investigadores construyeron conjuntos de datos emparejados, donde cada indicación corresponde a una respuesta con razonamiento y una sin razonamiento.
Este emparejamiento permite que el modelo aprenda a ajustar su comportamiento de razonamiento basado en las instrucciones del sistema.
El filtrado posterior de estas respuestas se realiza en función de las respuestas estándar o los modelos de recompensa.
Proceso de Fine-Tuning
Todos los modelos fueron entrenados en datos de fine-tuning de instrucciones utilizando la pérdida de entropía cruzada a nivel de token.
En la mayoría de las configuraciones de entrenamiento, los datos de razonamiento y no razonamiento se mezclan para formar lotes de entrenamiento, donde cada indicación se empareja con una respuesta correspondiente basada en las instrucciones del sistema "detailed thinking on/off".
Extender el entrenamiento a múltiples rondas puede mejorar el rendimiento, especialmente para modelos más pequeños.
NeMo-Aligner se utilizó para el entrenamiento de aprendizaje por refuerzo, admitiendo GRPO y el entrenamiento de modelos heterogéneos.
vLLM se utilizó para la fase de generación, y Megatron-LM se utilizó para la fase de entrenamiento.
Las fases de entrenamiento y razonamiento compartieron el mismo lote de GPU, completado en el mismo dispositivo.
Todo el proceso de entrenamiento utilizó 72 nodos, cada uno equipado con 8 GPU H100.
La fase de generación utilizó precisión FP8, la fase de entrenamiento utilizó precisión BF16, y el estado del optimizador utilizó FP32.
Cada fase mantuvo un peso de modelo independiente, que se sincronizó al inicio de cada paso.
Aprendizaje por Refuerzo: La Clave para Superar la Capacidad de Razonamiento de R1
El fine-tuning supervisado (SFT) permite que el modelo extraiga conocimiento de modelos maestros poderosos, logrando excelentes capacidades.
Sin embargo, la destilación del conocimiento inherentemente establece un límite en el rendimiento del modelo estudiante, particularmente cuando la capacidad del modelo base del modelo estudiante no excede la del modelo maestro.
A través del fine-tuning supervisado, el rendimiento de LN-Ultra puede acercarse a DeepSeek-R1 pero no puede superarlo.
El aprendizaje por refuerzo (RL) a gran escala es un método viable para permitir que el modelo estudiante supere al modelo maestro porque permite que el modelo explore continuamente nuevas posibilidades y autoaprenda.
Debido a las limitaciones de recursos, los investigadores solo aplicaron RL de razonamiento a LN-Ultra, lo que resultó en un modelo estudiante que superó al modelo maestro.
A lo largo del proceso de entrenamiento de aprendizaje por refuerzo de razonamiento, la precisión de LN-Ultra en el conjunto de datos GPQA-Diamond mejoró.
Proceso de Entrenamiento: Un Enfoque en el Razonamiento Científico
Para LN-Ultra, los investigadores mejoraron su capacidad de razonamiento científico a través del aprendizaje por refuerzo (RL) a gran escala, utilizando el algoritmo Grouped Relative Policy Optimization (GRPO), el mismo utilizado por DeepSeek-R1.
Todo el proceso de entrenamiento requirió aproximadamente 140,000 horas H100, entrenando continuamente el modelo hasta que convergiera en tareas de razonamiento.
El diseño del mecanismo de recompensa incluyó dos categorías:
- Recompensa de Precisión: Basada en las respuestas estándar (numérica/oración/párrafo), llamar al modelo Llama-3.3-70B-Instruct juzga el grado de coincidencia de los resultados de predicción.
- Recompensa de Formato: Siguiendo el esquema de DeepSeek-AI, el modelo se ve obligado a envolver el proceso de razonamiento con etiquetas <think\> en el modo "detailed thinking", y la aparición de tales etiquetas está prohibida en el modo non-detailed thinking.
El equipo de investigación también preprocesó los datos, incluida la selección de datos y el entrenamiento del currículo.
- Selección de Datos: LN-Super se utiliza de antemano para generar 8 respuestas para cada pregunta, y se eliminan las muestras simples con una tasa de aprobación ≥ 75%.
- Entrenamiento del Currículo: Se adopta la asignación de lotes progresiva basada en la tasa de aprobación.
Distribución Dinámica: Modelado de la dificultad del lote con una función gaussiana, inicialmente centrándose en muestras de alta tasa de aprobación (simples) y luego cambiando a muestras de baja tasa de aprobación (difíciles).
Lógica de Relleno: Las muestras se asignan de acuerdo con la distribución objetivo primero, y la capacidad restante se complementa desde el grupo de muestras restantes más grande.
Procesamiento Intra-Lote: Las muestras en el mismo lote se mezclan aleatoriamente para mantener la diversidad.
Aprendizaje por Refuerzo para la Optimización de Preferencias
Después de completar el entrenamiento de razonamiento científico, los investigadores llevaron a cabo una breve fase de aprendizaje por refuerzo para los modelos LN-Super y LN-Ultra, centrándose en mejorarsus habilidades de seguimiento de instrucciones.
Los investigadores también utilizaron RLHF para optimizar las capacidades generales de ayuda y el rendimiento de chat de los modelos, al tiempo que conservan las capacidades de los modelos en matemáticas, ciencia y otros campos.
LN-Super logró una alta puntuación de 88.3 en la prueba Arena Hard, superando a modelos propietarios como Claude 3.5 Sonnet y GPT-4o-2024-05-13, y también mejor que modelos de código abierto más grandes.
Para lograr este resultado, adoptaron el método "OnLine Reward-Policy Optimization", maximizando la recompensa de predicción del modelo en el conjunto de datos HelpSteer2. El modelo de recompensa utilizado fue Llama-3.1-Nemotron-70B-Reward.
Dos rondas de entrenamiento RPO en línea aumentaron la puntuación de Arena Hard de 69.1 a 88.1.
Para LN-Ultra, utilizaron un proceso similar pero adoptaron GRPO.
Para LN-Nano, llevaron a cabo dos rondas de entrenamiento RPO fuera de línea, utilizando datos de entrenamiento generados por políticas.
La primera ronda combinó datos de razonamiento y no razonamiento con indicaciones del sistema apropiadas para optimizar la capacidad de control de razonamiento del modelo. La segunda ronda se centró en mejorar las habilidades de seguimiento de instrucciones.
Resultados de la Evaluación: Una Evaluación Integral
Los investigadores evaluaron el rendimiento de todos los modelos Llama-Nemotron en dos categorías de benchmark: tareas de razonamiento y tareas de no razonamiento.
Los benchmarks de razonamiento incluyeron: AIME24 y AIME25, GPQA-Diamond, LiveCodeBench y MATH500.
Los benchmarks de no razonamiento incluyeron: IFEval para la evaluación del seguimiento de instrucciones, BFCL V2 Live para la evaluación del uso de herramientas de llamada a funciones y Arena-Hard para la evaluación de la alineación con las preferencias de conversación humana.
LN-Nano logró un excelente rendimiento en todos los benchmarks de razonamiento, a pesar de su pequeño tamaño.
Esto demuestra que los procesos de fine-tuning supervisado y los conjuntos de datos de razonamiento bien seleccionados son eficaces para transferir habilidades de razonamiento estructurado a modelos más pequeños.
LN-Super mostró una fuerte competitividad tanto en tareas de razonamiento como de no razonamiento en comparación con otros modelos de escala de parámetros similar.
En el modo "reasoning off", el rendimiento de LN-Super fue comparable a su modelo fuente destilado, Llama-3.3-70B; en el modo "reasoning on", superó a otros modelos competidores, como DeepSeek-R1-Distilled-Llama-70B, lo que demuestra una gran capacidad de razonamiento al tiempo que mantiene una buena capacidad de seguimiento de instrucciones.
Estos resultados indican que LN-Super es un modelo versátil que combina las ventajas de los modelos optimizados para el razonamiento y los modelos que no son de razonamiento, lo que lo hace adecuado para tareas de asistente diarias y tareas de razonamiento estructurado.
LN-Ultra se desempeñó a la par o mejor que todos los modelos de peso de código abierto existentes en benchmarks de razonamiento y no razonamiento. Alcanzó el nivel más avanzado en modelos de código abierto en GPQA, lo que demuestra plenamente la eficacia de los métodos de entrenamiento de aprendizaje por refuerzo a gran escala de los investigadores de Nvidia.
A diferencia de DeepSeek-R1, que requiere una configuración de hardware de 8×H200, LN-Ultra está optimizado para ejecutarse de manera eficiente en un solo nodo de 8×H100, lo que proporciona un mayor rendimiento de razonamiento y eficiencia de implementación.
La fase SFT de LN-Ultra se ha acercado o ha alcanzado el rendimiento de DeepSeek-R1 en múltiples benchmarks de razonamiento (incluidos GPQA y AIME).
Además de las capacidades de razonamiento y diálogo para las que el modelo fue originalmente entrenado, también probaron el modelo en una tarea de distribución.
Específicamente, el modelo se probó en el conjunto de datos JudgeBench, lo que requería que distinguiera entre respuestas de alta calidad y baja calidad.
El nuevo modelo superó a los modelos propietarios y de código abierto actuales en esta tarea.
LN-Ultra se convirtió en el modelo de código abierto con mejor rendimiento, superando significativamente a DeepSeek-R1, solo superado por el modelo propietario o3-mini(high).
Además, el rendimiento de LN-Super también superó a o1-mini, lo que indica que el nuevo modelo tiene una fuerte capacidad de generalización en varias tareas.