Mientras DeepSeek-R2 permanece esquivo, los modelos más pequeños de Microsoft están causando sensación, mostrando impresionantes capacidades de razonamiento entrenadas en un conjunto de datos sorprendentemente pequeño.
El Auge de los Modelos de Razonamiento Phi-4
El mundo de la IA está actualmente cautivado por los modelos de razonamiento, y Microsoft ha introducido recientemente la familia Phi-4 de modelos de inferencia. Esto incluye Phi-4-reasoning, Phi-4-reasoning-plus, y Phi-4-mini-reasoning. Lo que es particularmente notable es que incluso el más grande de estos modelos, con tan solo 14 mil millones de parámetros, puede ejecutarse sin problemas en computadoras portátiles de alto rendimiento. Además, el Phi-4-mini-reasoning de 3.8 mil millones de parámetros supera al modelo destilado DeepSeek-R1 de 8 mil millones de parámetros en razonamiento matemático, destacando el poder de los modelos más pequeños en tareas de inferencia.
En lugar de esperar el lanzamiento del modelo de razonamiento DeepSeek-R2 de segunda generación en abril, Microsoft presentó una nueva serie de modelos de razonamiento Phi-4. Estos modelos exhiben un rendimiento excepcional en razonamiento matemático, superando al modelo destilado DeepSeek-R1, a pesar de que Phi-4-Mini-Reasoning tiene una escala de parámetros más pequeña.
Ahmed Awadallah, Gerente de Investigación Asociado en el laboratorio Microsoft AI Frontiers, describió el Phi-4-reasoning y resumió las características del nuevo modelo.
- El modelo está entrenado con ajuste fino supervisado (utilizando un conjunto de datos de ejemplo de razonamiento cuidadosamente seleccionado) y aprendizaje por refuerzo.
- Funciona bien en benchmarks de inferencia y puede ser comparable a modelos superiores más grandes como DeepSeek R1.
- Continúa funcionando sólidamente en nuevas pruebas (como AIME 2025, HMMT)
- La capacidad de razonamiento tiene una fuerte capacidad de transferencia/generalización, incluso después de solo el ajuste fino supervisado, puede adaptarse a nuevas tareas (como k-SAT, resolución de ecuaciones matemáticas, programación, etc.)
- Conserva y mejora enormemente las capacidades generales (como la comprensión y ejecución de instrucciones)
Afirmó que Phi-4 todavía tiene varios aspectos que necesitan mejora, especialmente en la longitud del contexto, la capacidad de codificación y la integración de herramientas.
Además del modelo en sí, Microsoft también compartió un informe técnico detallado que proporciona un análisis en profundidad del proceso de entrenamiento y evaluación del modelo.
En X, Dimitris Papailiopoulos, Investigador Principal en el laboratorio Microsoft Research AI Frontiers y Profesor Asociado en la Universidad de Wisconsin, introdujo más información sobre el modelo de razonamiento Phi-4.
Él cree que Phi-4-reasoning ha alcanzado completamente el nivel de posgrado y puede ejecutarse en una PC local.
Esto superó sus expectativas para el desarrollo de la IA.
El nuevo modelo tiene pocos parámetros pero un fuerte rendimiento.
Una Potencia de Rendimiento
A pesar de su modesto tamaño, este modelo sobresale en benchmarks de matemáticas como AIME, HMMT y OmniMath. Funciona a la par o supera a modelos de peso abierto más grandes como QwQ-32B, R1-70B y R1, y modelos cerrados como o1-mini y sonnet 3.7.
Este modelo es pequeño en tamaño y adecuado para ejecutarse sin problemas en computadoras portátiles de alto rendimiento.
Al mismo tiempo, es capaz de resolver muchos acertijos que incluso los modelos no razonadores más grandes y algunos modelos de razonamiento no pueden resolver.
¡También pasó la prueba DimitrisEval!
Sorprendentemente, el razonamiento parece ser una “meta-habilidad” verdaderamente transferible que se puede aprender incluso a través del ajuste fino supervisado SFT!
Evidencia 1: Incluso sin entrenamiento especializado en tareas que no son de razonamiento, los investigadores aún observaron mejoras significativas en el rendimiento en IFEval, FlenQA y PhiBench interno (¡un aumento de más de 10 puntos!).
Además, hay muy pocos datos relacionados con la codificación durante la etapa SFT (y ninguno en absoluto durante la etapa RL), pero el modelo aún funciona bien en este sentido.
Además, Dimitris Papailiopoulos reveló que la programación es un enfoque clave para las versiones posteriores.
Evidencia 2: En el caso de algunos problemas específicos en los que no se entrenó explícitamente (ya sea en la etapa SFT o RL), como el problema del viajante, la resolución de laberintos, k-SAT, la planificación restringida, etc., ¡el modelo funciona muy bien en estas tareas!
Y Phi-4 (e incluso GPT-4) no pueden hacer esto.
Esto ilustra completamente que la capacidad de razonamiento puede de hecho transferirse como una habilidad!
Después de una ronda muy corta de aprendizaje por refuerzo (usando solo 6,000 muestras, en comparación con 1.4 millones de ejemplos para SFT), el mecanismo de razonamiento del modelo parece estar “bloqueado”.
Esto sorprendió particularmente a Dimitris Papailiopoulos.
Siente que es como si el aprendizaje por refuerzo le hubiera enseñado al modelo a razonar en “su propio idioma”, aumentando la precisión en aproximadamente un 10% en AIME y HMMT, y aumentando la longitud promedio de la respuesta en un 50% en problemas difíciles.
¡El aprendizaje por refuerzo es realmente efectivo!!
El fenómeno del mecanismo de razonamiento que se “bloquea” generalmente hace que la distribución de la salida del modelo sea más concentrada y la precisión también sea mayor.
El hecho de que el aprendizaje por refuerzo pueda mejorar significativamente las capacidades del modelo también se ha reflejado en investigaciones anteriores de Microsoft.
En la etapa de aprendizaje por refuerzo, el nuevo modelo ni siquiera se optimizó especialmente para los datos: 6,000 preguntas se seleccionaron al azar de una selección más grande de conjuntos de datos.
Entonces, ¿por qué Microsoft no realizó más entrenamiento de aprendizaje por refuerzo?
Porque el modelo generó respuestas a preguntas que excedieron la longitud del contexto de 32k (la longitud en la que el modelo no fue entrenado), solo pudieron truncarlo.
Además, con la ayuda de cálculos de razonamiento paralelos (como Maj@N), el nuevo modelo de razonamiento casi ha alcanzado el límite de rendimiento en AIME 2025, e incluso superó el rendimiento pass@1 de su modelo de profesor (o3-mini).
Y completó toda la recopilación de datos antes de febrero de 2025, y también lo hizo HMMT.
En otras tareas, los investigadores también han observado el fenómeno de “superar al profesor”, como las tareas de OmniMath y Calendar Planning.
El diseño del prompt en la etapa SFT, junto con el proceso posterior de aprendizaje por refuerzo, parece haberle dado al modelo la capacidad de “auto-mejorarse”, excediendo el alcance del conocimiento proporcionado por el modelo de profesor.
En la siguiente figura, el magenta representa o3-mini y el verde representa Phi.
Un fenómeno interesante es que: ¡los textos largos con longitudes de respuesta en el 25% superior a menudo están fuertemente correlacionados con respuestas incorrectas!
Sin embargo, por otro lado, en la mayoría de las evaluaciones, la longitud promedio de la respuesta general es más larga y la precisión es mayor.
En otras palabras, aumentar los recursos informáticos durante las pruebas ayuda, pero el modelo también es propenso a “divagar” cuando está “atascado”.
Con respecto a las limitaciones del modelo, también hay algunas cosas a las que prestar atención:
- La capacidad de manejar longitudes de contexto que excedan los 32k no se ha ampliado ni probado completamente.
- El modelo es propenso a “pensar demasiado” cuando se trata de problemas simples, y puede parecer demasiado prolijo en la autoevaluación.
- La capacidad de los diálogos de varios turnos no se ha probado ampliamente.
Por supuesto, hay más “puntos ciegos” por descubrir, pero en general, ¡el equipo de investigación siente que está en el camino correcto!
Sorpresas de Entrenamiento
Suriya Gunasekar, Gerente Principal de Investigación en Microsoft Research y perteneciente al equipo “AGI Physics” responsable del desarrollo de la serie de modelos Phi, se centró en presentar los principios básicos del trabajo.
Esta vez, el equipo de Microsoft Phi se centró en la etapa posterior al entrenamiento y lanzó Phi-4-reasoning (usando solo SFT) y Phi-4-reasoning-plus (SFT + una pequeña cantidad de RL).
Ambos son modelos 14B que han demostrado fuertes capacidades en razonamiento y benchmarks de tareas generales.
El núcleo de este trabajo radica en la selección de prompts y la exploración experimental de habilidades de razonamiento transferibles y auto-mejorables.
Hubo dos descubrimientos sorprendentes durante el proceso de entrenamiento:
Primero, siempre que se utilicen unas pocas trayectorias de razonamiento de cadena larga (CoT) entrenadas en el dominio, Phi-4 puede lograr mejoras significativas en el rendimiento en múltiples tareas como la programación, la resolución de laberintos (sin entrada visual), IFEva, FlenQA, KITAB (búsqueda de preguntas basadas en la búsqueda) y PhiBench interno;
En segundo lugar, incluso si solo se utilizan 6,000 ejemplos matemáticos para el entrenamiento RL mínimo, el rendimiento del modelo mejora significativamente en algunos benchmarks, con la mejora más alta alcanzando el 10% (pero el uso de tokens aumentó aproximadamente 1.5 veces), y también se observó la transferencia entre dominios de habilidades durante la etapa RL.
En otras palabras, en comparación con los principales competidores como OpenAI y Google, la serie de razonamiento Microsoft Phi-4 demuestra nuevas posibilidades: los modelos pequeños pueden igualar o incluso superar a los modelos grandes en tareas específicas mediante el uso de datos de alta calidad y estrategias de entrenamiento refinadas.
Métodos Centrales
El modelo de razonamiento Phi-4-reasoning tiene 14 mil millones de parámetros y funciona sólidamente en tareas de razonamiento complejas.
El modelo se basa en Phi-4 para el entrenamiento de ajuste fino supervisado, utilizando un conjunto cuidadosamente seleccionado de prompts “enseñables” que tienen tanto la complejidad como la diversidad apropiadas; los ejemplos de razonamiento generados por o3-mini se utilizan como referencias durante el proceso de entrenamiento.
Phi-4-reasoning puede generar cadenas de razonamiento detalladas y hacer un uso completo de los recursos informáticos durante el proceso de razonamiento.
Sobre esta base, Microsoft desarrolló aún más Phi-4-reasoning-plus.
Se mejora sobre la base del modelo original a través de una pequeña etapa de aprendizaje por refuerzo basado en resultados, y genera cadenas de razonamiento más largas y poderosas.
La investigación muestra que un conjunto de datos SFT bien diseñado puede mejorar significativamente el efecto de los modelos de lenguaje de razonamiento, y el aprendizaje por refuerzo (RL) puede amplificar aún más esta mejora sobre esta base.
En los experimentos de SFT, incluso en este entorno de generación relativamente simple, la selección cuidadosa y el filtrado estricto de los problemas iniciales siguen siendo clave para el éxito del modelo.
Han sometido todo el conjunto de datos de entrenamiento a un proceso estricto de des-contaminación para garantizar que no contenga datos que se superpongan altamente con preguntas de razonamiento o benchmarks generales ampliamente utilizados, incluidos algunos benchmarks que no se mencionan en este informe.
La lista completa de pruebas de referencia que se han descontaminado es la siguiente:
- Matemáticas y Razonamiento: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
- Programación: LiveCodeBench, Codeforces, HumanEval, MBPP
- Preguntas y Conocimiento General: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
- Otras Tareas de Evaluación: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench
A través del ajuste fino supervisado (SFT) del modelo Phi-4 con 14 mil millones de parámetros, los investigadores obtuvieron Phi-4-reasoning, sin ningún aprendizaje por refuerzo antes de eso.
El objetivo de SFT es refinar la capacidad de razonamiento estructurado contenida en el modelo básico.
La arquitectura de Phi-4-reasoning es la misma que la del modelo Phi-4, pero con dos modificaciones clave:
- Tokens de razonamiento: Los dos tokens de marcador de posición en el modelo básico se reutilizan como y tokens, que se utilizan para marcar el principio y el final de un proceso de razonamiento (“pensamiento”).
- Mayor longitud de token: La longitud máxima de token inicialmente admitida por el modelo básico (Phi-4) era de 16K. Para acomodar tokens de razonamiento adicionales, la frecuencia base de RoPE se duplicó y el modelo se entrenó a una longitud máxima de token de 32K.
Utilizaron un método sintético para generar una gran cantidad de ejemplos de razonamiento en cadena de pensamiento.
El conjunto de datos SFT utilizado contiene más de 1.4 millones de pares de prompt-respuesta, por un total de 8.3 mil millones de tokens únicos, que cubren campos de razonamiento como matemáticas y programación, así como datos de alineación para una IA segura y responsable.
La Figura 4a muestra los cambios en los indicadores clave a lo largo del proceso de iteración de SFT.
Al principio del entrenamiento, el modelo comenzó a utilizar tokens de “pensamiento” explícitos, lo que indica que el modelo aprendió rápidamente este formato estructurado superficial.
Sin embargo, como se muestra en la Figura 4a, la efectividad del módulo de cadena de pensamiento y la capacidad de razonamiento del modelo están mejorando a lo largo del proceso de entrenamiento, lo que indica que el modelo no solo está copiando el formato, sino que en realidad está aprendiendo habilidades de razonamiento.
Curiosamente, a diferencia del aprendizaje por refuerzo, los investigadores no vieron un aumento en la longitud de la respuesta durante el proceso de SFT.
De hecho, como se muestra en la Figura 4b, la longitud promedio de la respuesta disminuyó ligeramente.
Esto muestra que a medida que avanza el entrenamiento, el modelo está aprendiendo a utilizar su presupuesto de tokens de manera más efectiva.
Para evaluar sistemáticamente diferentes estrategias de entrenamiento, utilizaron un benchmark fijo: AIME 2024 y GPQA diamond, como un indicador de progreso.
En general, el método experimental se puede dividir en dos etapas: exploración y escalado.
En la etapa de exploración, los investigadores utilizaron ciclos de entrenamiento más cortos y fuentes y campos de datos limitados para iterar rápidamente y extraer métodos de entrenamiento sólidos.
En la fase de expansión posterior, los investigadores resumieron los resultados de los primeros experimentos de reducción de riesgos y finalizaron la configuración de SFT.
La Figura 5 resume este progreso, destacando los experimentos de ablación para varias opciones de diseño clave.
La Figura 5 muestra una descripción general de alto nivel del ciclo experimental de ajuste fino supervisado (SFT) de Phi-4-reasoning, incluidas las fases de exploración y expansión, utilizando algunos experimentos de ejemplo para representar. Cada grupo de puntos representa los resultados experimentales de una opción de diseño de entrenamiento específica.
La Figura 7 muestra los hallazgos clave del modelo Phi-4-reasoning-plus durante el proceso de entrenamiento de GRPO.
Comenzando desde el modelo base de ajuste fino supervisado (SFT) Phi-4-reasoning, solo 90 pasos de entrenamiento de GRPO aumentaron el rendimiento de AIME en más del 10% (Figura 7a).
Continuar aumentando el número de pasos de entrenamiento no trajo beneficios adicionales, lo que indica que el potencial de un modelo SFT fuerte está cerca del techo de rendimiento. Cabe señalar que la salida en el entrenamiento de GRPO se limita a 31k tokens, lo que restringe objetivamente el espacio de optimización de GRPO.
Como se muestra en la Figura 7c, la longitud de la respuesta está fuertemente correlacionada con el rendimiento de AIME, mientras que la correlación entre la puntuación de recompensa y la puntuación de AIME es débil. Este efecto de crecimiento de la longitud de la respuesta es el efecto esperado del entrenamiento de GRPO: el modelo mejora su capacidad de razonamiento al aumentar el “tiempo de pensamiento”.
La Figura 7d revela además que debido al diseño del modelo de recompensa, la longitud de generación de respuestas incorrectas crece significativamente más rápido que las respuestas correctas (cuando la respuesta actual del modelo es incorrecta, el sistema lo animará a pensar durante más tiempo).
De hecho, realizar un muestreo de rechazo basado únicamente en la longitud de la respuesta (especialmente las respuestas largas que superan significativamente la mediana) puede mejorar aún más el rendimiento de GRPO.
Como se muestra en la Figura 7d, la tendencia de crecimiento de las respuestas más cortas (longitud ubicada en el cuartil inferior 25%) durante el proceso de entrenamiento es similar a la longitud promedio de las respuestas correctas, mientras que la longitud de las respuestas incorrectas está más cerca del cuartil 75% de la longitud de la respuesta general.
Este fenómeno de diferenciación indica que el muestreo de rechazo basado en la longitud puede mejorar la eficiencia del modelo al suprimir salidas incorrectas excesivamente largas.