El Triunfo del RL con Phi-4 Reasoning Plus de Microsoft

La incursión de Microsoft en el ámbito de los modelos de IA de código abierto, particularmente la familia Phi, está ganando terreno, aunque no con el mismo reconocimiento generalizado que su inversión en OpenAI. Entre estos modelos, el Phi-4 Reasoning Plus destaca, mostrando el poder del aprendizaje por refuerzo (RL, reinforcement learning) para lograr resultados notables en pruebas de referencia.

La serie Phi está diseñada para ser eficiente en recursos, consumiendo menos potencia computacional y espacio de almacenamiento. A través de una investigación meticulosa y técnicas de optimización, estos modelos han superado consistentemente las expectativas, superando a sus competidores tanto en su clase de peso como incluso desafiando a modelos más grandes.

El modelo Phi-4 Reasoning, que cuenta con 14 mil millones de parámetros, fue creado aplicando un algoritmo de ajuste fino supervisado (SFT, supervised fine-tuning) al modelo base Phi-4. Sobre esta base, los investigadores desarrollaron aún más el modelo Phi-4 Reasoning Plus, aprovechando el aprendizaje por refuerzo (RL) sobre la base de Phi-4 Reasoning.

Sorprendentemente, tanto el Phi-4 Reasoning como el Phi-4 Reasoning Plus han demostrado un rendimiento superior en comparación con modelos significativamente más grandes como DeepSeek R1, que alberga 70 mil millones de parámetros. Este logro es particularmente evidente en pruebas de referencia que abarcan codificación, resolución de problemas matemáticos y tareas científicas avanzadas a nivel de posgrado. El rendimiento de los modelos incluso se acerca al modelo DeepSeek R1 de escala completa de 671 mil millones de parámetros.

Los investigadores de Microsoft atribuyen el éxito del modelo principalmente a la utilización de conjuntos de datos de entrenamiento de alta calidad, una estrategia en la que la empresa ha confiado constantemente con sus modelos anteriores. Estos conjuntos de datos comprenden más de 1,4 millones de prompts cuidadosamente seleccionados que abarcan diversas disciplinas de codificación y STEM (Science, Technology, Engineering, and Mathematics). Cada prompt va acompañado de respuestas meticulosamente elaboradas, que incorporan extensos rastros de razonamiento generados por el modelo o3-mini de OpenAI.

Para optimizar el proceso de entrenamiento, los investigadores apuntaron estratégicamente a prompts que empujaban los límites de las capacidades del modelo base Phi-4. Esto implicó filtrar los conjuntos de datos de entrenamiento para retener solo aquellos prompts que ofrecían oportunidades sustanciales de mejora.

El Razonamiento Detrás de la Efectividad del RL

El desarrollo del Phi-4 Reasoning Plus involucró un proceso de dos pasos: primero, derivar Phi-4 Reasoning a través del ajuste fino supervisado (SFT) del modelo base Phi-4, seguido de una fase de aprendizaje por refuerzo (RL). Para obtener una comprensión más profunda de los componentes RL de Phi-4 Reasoning Plus, la comunicación directa con Harkirat Behl, investigador de Microsoft que jugó un papel fundamental en este aspecto del proyecto, fue esencial.

El aprendizaje por refuerzo (RL) es una metodología de entrenamiento única donde un sistema de IA aprende a través de la experimentación. La IA toma acciones, recibe retroalimentación en forma de recompensas o penalizaciones, e iterativamente refina su proceso de toma de decisiones para maximizar los resultados deseables a largo plazo. Este enfoque es particularmente ventajoso para tareas que requieren que el modelo de IA se involucre en el “razonamiento”, ya que prioriza el logro del resultado deseado sobre la adhesión a un proceso rígido y predefinido.

A diferencia de los modelos tradicionales que se centran únicamente en predecir la siguiente palabra y penalizan al modelo por cada imprecisión, el RL ofrece una mayor flexibilidad en cómo se deriva una respuesta. Esta flexibilidad permite al modelo explorar problemas complejos con múltiples rutas de solución potenciales, convergiendo finalmente en la conclusión correcta.

Según Behl, el RL empodera al modelo para “generar respuestas muy largas, y muchas respuestas diferentes”, con el enfoque principal en la precisión del resultado final. Este énfasis en el resultado, en lugar de los pasos específicos tomados, refleja cómo los humanos abordan la resolución de problemas. Diferentes procesos de pensamiento son aceptables, siempre y cuando conduzcan a la respuesta correcta.

En los modelos de Microsoft, la etapa de RL se centró deliberadamente en el razonamiento matemático. El sistema de recompensas incentivó la precisión, al tiempo que penalizó la repetición, la longitud excesiva y el formato de respuesta incorrecto.

Behl explicó además que los investigadores permitieron que el modelo generara múltiples respuestas para una pregunta dada. Cada respuesta fue luego calificada en función de su comparación con la puntuación promedio dentro del grupo de respuestas generadas.

Estas puntuaciones relativas sirven como un mecanismo de retroalimentación, guiando al modelo para favorecer las respuestas que reciben consistentemente puntuaciones más altas. Con el tiempo, este proceso entrena al modelo para alinear sus respuestas más estrechamente con la señal de recompensa deseada.

Los investigadores observaron que aplicar RL a un conjunto limitado de 6.400 problemas condujo a una mejora significativa en la precisión en varias evaluaciones de matemáticas y razonamiento.

“Habiendo construido Phi-1, Phi-2, Phi-3 y Phi-4, una conclusión para mí en la investigación es que RL requiere muchos menos datos que el entrenamiento SFT”, señaló Behl.

Él atribuyó esto al hecho de que RL se trata menos de impartir habilidades completamente nuevas al modelo desde cero y más de guiar al modelo para combinar y aprovechar eficazmente las habilidades existentes para lograr mejores resultados.

El éxito de Microsoft con el aprendizaje por refuerzo se alinea con las experiencias de muchas otras empresas de IA. OpenAI, pionero en el desarrollo de modelos de razonamiento, ha destacado repetidamente el impacto favorable del RL en sus proyectos.

Curiosamente, DeepSeek R1, un modelo chino que irrumpió en el panorama de la IA el año pasado, también atribuyó su éxito, en parte, a la aplicación de RL. Además, varios investigadores e ingenieros de OpenAI han reconocido públicamente el papel crucial del RL en el éxito de sus iniciativas de investigación profunda.

Más recientemente, el modelo Qwen de Alibaba también respaldó el aprendizaje por refuerzo, enfatizando su impacto significativo en sus modelos de razonamiento. En una publicación de blog, la compañía declaró: “Estamos seguros de que combinar modelos fundamentales más sólidos con RL impulsado por recursos computacionales escalados nos impulsará a acercarnos al logro de la Inteligencia Artificial General (AGI, Artificial General Intelligence)”.

Sin embargo, a pesar de los éxitos de Phi-4 Reasoning, Phi-4 Reasoning Plus y muchos otros modelos de razonamiento, el campo aún enfrenta varios desafíos.

La Búsqueda Continua de la Mejora

En los últimos meses, varios estudios de investigación han subrayado las limitaciones existentes y las posibles trampas de los modelos de razonamiento. Por ejemplo, en su trabajo de investigación sobre Phi-4 Reasoning, los investigadores de Microsoft reconocieron que continúan lidiando con desafíos relacionados con el consumo excesivo de tiempo y recursos, tiempos de respuesta más lentos y, lo más notable, el problema de las respuestas de los modelos que contradicen sus propios pasos de razonamiento precedentes.

En otro avance significativo, Anthropic publicó un estudio que revela que las cadenas de razonamiento (a menudo denominadas cadena de pensamientos, o CoTs, chain-of-thoughts) pueden no reflejar consistentemente el proceso de razonamiento real de un modelo. Los investigadores descubrieron que los modelos a menudo explotan pistas externas, como señales explícitas insertadas en los prompts para guiarlos hacia las respuestas correctas, pero rara vez reconocen o verbalizan estas pistas dentro de sus pasos de razonamiento explícitos. Esta discrepancia entre el comportamiento interno del modelo y su explicación externa plantea preocupaciones sobre la confiabilidad de usar CoTs como una herramienta confiable para la interpretabilidad del modelo y garantizar la seguridad.

Incluso OpenAI ha publicado informes de investigación que destacan la propensión de los modelos de razonamiento avanzados a participar en el “reward hacking”. Reward hacking se refiere a situaciones en las que los agentes de IA explotan lagunas imprevistas o consecuencias no deseadas dentro de sus objetivos definidos para maximizar las recompensas de formas que no fueron originalmente intencionadas o deseadas. OpenAI ha explorado estrategias para mitigar esto, como usar un modelo menos poderoso (GPT-4o) para monitorear a un modelo más fuerte como el o3-Mini, aunque esto introduce sus propias complejidades y sesgos potenciales.

Nat McAleese, miembro del personal técnico de OpenAI, enfatizó que “los grandes modelos de razonamiento son extremadamente buenos en el reward hacking“, citando ejemplos seleccionados del informe para ilustrar este punto.

“Hay mucha redundancia en la cadena de razonamientos; se contradicen a sí mismos, y hay muchas preguntas sin respuesta”, comentó Behl. “Pero, es un espacio en evolución. Si podemos clavar esto como comunidad y entender cómo piensan los modelos, habrá mucha ganancia”. El futuro de los modelos de razonamiento depende de abordar estos desafíos a través de la investigación continua y la colaboración dentro de la comunidad de IA.