Microsoft Phi-4 Reasoning presenta SLMs compactos, de peso abierto (con licencia MIT), rápidos, eficientes y capaces de razonamiento avanzado.
Microsoft, aunque es un socio privilegiado de OpenAI y trabaja con la mayoría de los actores para integrar sus modelos de IA en Azure AI Foundry, no rehúye la búsqueda de sus propias vías tecnológicas. Esto incluye trabajar en innovaciones en el núcleo de las redes neuronales, como el intrigante modelo BitNet b1.58 basado en Trit, sus propios SLMs de código abierto, e incluso modelos de frontera mantenidos en secreto (Proyecto MAI-1).
Un año después de presentar su gama de pequeños modelos de IA (SLMs) Phi-3 y dos meses después de debutar la 4ª generación con un SLM multimodal (Phi-4-Multimodal) y un modelo diminuto (Phi-4-mini), Microsoft anuncia tres nuevas variantes de su última generación de SLM: Phi-4-reasoning, Phi-4-reasoning-plus y Phi-4-mini-reasoning.
Lanzadas el 30 de abril de 2025, estas versiones “integradas con razonamiento” amplían la oferta de peso abierto de modelos compactos para desarrolladores que necesitan mantener una baja latencia al tiempo que requieren un razonamiento complejo.
En el corazón del enfoque de los ingenieros de Microsoft para hacer que sus SLMs “razonen”: confiar en la supervisión de grano fino (SFT) de las cadenas de razonamiento o3-mini de OpenAI, y aprovechar el aprendizaje por refuerzo (RL) para la versión “plus”. "A través de la destilación, el aprendizaje por refuerzo y los datos de alta calidad, estos modelos reconcilian el tamaño y el rendimiento", explica Microsoft.
Pequeños Pero Dotados
Los resultados en los diversos puntos de referencia líderes del mercado son suficientes para palidecer a la competencia: ¡típicamente con sólo 14 mil millones de parámetros, Phi-4-reasoning supera a DeepSeek-R1-Distill-Llama-70B (70 mil millones de parámetros) en las series AIME 2025, MMLU-Pro o HumanEval-Plus, y se acerca al modelo DeepSeek-R1 completo (671 mil millones de parámetros)! ¡La variante Phi-4-reasoning-plus, alineada en los mismos 14 mil millones de parámetros pero entrenada con 1,5 veces más tokens, casi iguala las puntuaciones o3-mini de OpenAI en OmniMath! A título informativo, Phi-4-reasoning se beneficia de una ventana de contexto clásica de 128.000 tokens que se ha ampliado a 256.000 tokens para la versión Phi-4-reasoning-plus.
Diseñado para sistemas embebidos, Phi-4-mini-reasoning muestra 3.8 mil millones de parámetros, un conjunto sintético de un millón de problemas matemáticos generados por DeepSeek-R1, y logra un rendimiento o1-mini en Math-500 al tiempo que supera a varios modelos con 7 a 8 mil millones de parámetros. Con su tamaño ultrapequeño, este modelo es ideal para la ejecución local, incluso en dispositivos móviles, y para satisfacer la necesidad de respuestas casi instantáneas. Es particularmente adecuado para usos educativos y chatbots locales.
Modelos Abiertos Para Usos Variados
En el lado del despliegue, los CISOs encontrarán estos modelos ya optimizados para Copilot+ PCs: la variante NPU "Phi Silica" está precargada en la memoria y proporciona un tiempo de respuesta casi instantáneo, garantizando una convivencia energéticamente eficiente con las aplicaciones empresariales. Las APIs de Windows permiten integrar la generación offline en Outlook o herramientas internas.
En términos de seguridad, Microsoft reclama un pipeline alineado con sus principios de responsabilidad: rendición de cuentas, equidad, fiabilidad, seguridad e inclusión. Los modelos se someten a un post-entrenamiento que combina SFT, Direct Preference Optimization y RLHF a partir de conjuntos públicos e internos orientados a la "utilidad/inocuidad". Microsoft también publica las "Tarjetas" de sus modelos, que detallan las limitaciones residuales y las medidas de mitigación.
Disponibles ahora en Azure AI Foundry, Hugging Face y GitHub Models, los tres modelos se publican bajo la licencia MIT, muy permisiva, lo que abre el camino a la inferencia local, así como a los despliegues híbridos en la nube. Para los equipos de seguridad y arquitectura, esta nueva generación de SLMs ofrece una alternativa creíble a los LLMs masivos, con un TCO reducido, ejecución local así como en el Edge, y un mayor control de los datos. Estos modelos son una prueba del increíble progreso realizado por los SLMs en un año y su asombroso potencial en un universo en busca de una IA menos costosa y más frugal en energía y recursos.
Una Inmersión Más Profunda en las Capacidades de Razonamiento de Phi-4
La llegada de la familia de modelos Phi-4 representa un importante paso adelante en el desarrollo de pequeños modelos lingüísticos (SLMs). Lo que distingue a estos modelos son sus mejoradas capacidades de razonamiento, logradas a través de innovadoras técnicas de entrenamiento y un enfoque en datos de alta calidad. El compromiso de Microsoft con los principios de código abierto democratiza aún más el acceso a estas poderosas herramientas, permitiendo a los desarrolladores integrar capacidades avanzadas de IA en una amplia gama de aplicaciones.
Entendiendo la Arquitectura
Los modelos Phi-4 se basan en una arquitectura de transformador, un marco probado para el procesamiento del lenguaje natural. Sin embargo, Microsoft ha implementado varias innovaciones clave para optimizar los modelos para tareas de razonamiento.
- Supervisión de Grano Fino (SFT): Los modelos se entrenan utilizando una técnica llamada supervisión de grano fino (SFT), que implica aprender de las cadenas de razonamiento detalladas generadas por el modelo o3-mini de OpenAI. Esto permite a los modelos Phi-4 aprender los pasos involucrados en procesos de razonamiento complejos.
- Aprendizaje por Refuerzo (RL): La variante “plus” del modelo Phi-4, Phi-4-reasoning-plus, utiliza el aprendizaje por refuerzo (RL) para mejorar aún más sus capacidades de razonamiento. RL implica entrenar el modelo para maximizar una señal de recompensa, que en este caso se basa en la precisión y eficiencia de su razonamiento.
- Destilación: La destilación se emplea para transferir conocimiento de modelos más grandes y complejos a los modelos Phi-4 más pequeños. Esto permite a los SLMs alcanzar niveles de rendimiento comparables a los de modelos mucho más grandes, al tiempo que mantienen su tamaño compacto y eficiencia.
Rendimiento de Benchmarking
Los modelos Phi-4 han demostrado un rendimiento impresionante en una variedad de puntos de referencia de razonamiento, superando a los modelos más grandes en algunos casos. Por ejemplo, Phi-4-reasoning, con sólo 14 mil millones de parámetros, supera a DeepSeek-R1-Distill-Llama-70B (70 mil millones de parámetros) en varios conjuntos de datos desafiantes, incluyendo AIME 2025, MMLU-Pro y HumanEval-Plus. Esto destaca la eficiencia y eficacia de la arquitectura y las técnicas de entrenamiento de Phi-4.
La variante Phi-4-reasoning-plus, entrenada con 1,5 veces más tokens, logra puntuaciones cercanas a o3-mini de OpenAI en el punto de referencia OmniMath, lo que demuestra su capacidad para abordar problemas complejos de razonamiento matemático.
Aplicaciones y Casos de Uso
Los modelos Phi-4 son adecuados para una variedad de aplicaciones que requieren capacidades de razonamiento avanzadas.
- Herramientas Educativas: El modelo Phi-4-mini-reasoning, con su pequeño tamaño y alto rendimiento, es ideal para aplicaciones educativas. Se puede utilizar para crear herramientas de aprendizaje interactivas que proporcionen a los estudiantes retroalimentación y apoyo personalizados.
- Chatbots Locales: Los modelos Phi-4 se pueden utilizar para construir chatbots locales que proporcionen a los usuarios acceso instantáneo a información y soporte. Su pequeño tamaño permite que se implementen en dispositivos móviles y otros entornos con restricciones de recursos.
- Copilot+ PCs: Los modelos Phi-4 están optimizados para Copilot+ PCs, proporcionando a los usuarios una experiencia de IA sin problemas. La variante "Phi Silica" está precargada en la memoria y proporciona tiempos de respuesta casi instantáneos.
- Generación Offline: Las APIs de Windows permiten integrar la generación offline en Outlook o herramientas internas, permitiendo a los usuarios acceder a las capacidades de IA incluso cuando no están conectados a Internet.
Seguridad y Responsabilidad
Microsoft se compromete a desarrollar e implementar modelos de IA de manera responsable y ética. Los modelos Phi-4 no son una excepción.
- Principios de Responsabilidad: El pipeline de desarrollo de IA de Microsoft está alineado con sus principios de responsabilidad, que incluyen la rendición de cuentas, la equidad, la fiabilidad, la seguridad y la inclusión.
- Post-Entrenamiento: Los modelos Phi-4 se someten a un post-entrenamiento utilizando SFT, Direct Preference Optimization y RLHF de conjuntos de datos públicos e internos orientados a la "utilidad/inocuidad". Esto ayuda a asegurar que los modelos sean seguros y fiables.
- Tarjetas de Modelo: Microsoft publica "Tarjetas" para sus modelos, que detallan las limitaciones residuales y las medidas de mitigación. Esto proporciona a los usuarios transparencia y les permite tomar decisiones informadas sobre cómo utilizar los modelos.
El Futuro de los SLMs
Los modelos Phi-4 representan un importante paso adelante en el desarrollo de pequeños modelos lingüísticos (SLMs). Sus mejoradas capacidades de razonamiento, combinadas con su pequeño tamaño y eficiencia, los convierten en una alternativa convincente a los modelos lingüísticos más grandes (LLMs) en muchas aplicaciones.
A medida que los SLMs continúan mejorando, es probable que jueguen un papel cada vez más importante en el panorama de la IA. Su capacidad para ejecutarse en dispositivos con restricciones de recursos y proporcionar un rendimiento rápido y eficiente los hace adecuados para una amplia gama de aplicaciones, desde herramientas educativas hasta chatbots locales y dispositivos de computación en el borde.
El compromiso de Microsoft con los principios de código abierto y el desarrollo responsable de la IA posiciona aún más los modelos Phi-4 como un valioso recurso para la comunidad de IA. Al democratizar el acceso a estas poderosas herramientas, Microsoft está empoderando a los desarrolladores para crear aplicaciones innovadoras e impactantes que puedan beneficiar a la sociedad en su conjunto.
Una Mirada Más Detallada a los Aspectos Técnicos
Profundizar en los detalles específicos de la arquitectura y el entrenamiento de Phi-4 revela las innovadoras técnicas que permiten a estos SLMs lograr capacidades de razonamiento tan impresionantes. La combinación de conjuntos de datos cuidadosamente seleccionados, algoritmos de entrenamiento sofisticados y un enfoque en la eficiencia ha dado como resultado una familia de modelos que son a la vez potentes y prácticos.
Curación y Preparación de Datos
El éxito de cualquier modelo de aprendizaje automático depende de la calidad y la relevancia de los datos con los que se entrena. Microsoft invirtió un esfuerzo significativo en la curación y preparación de los conjuntos de datos utilizados para entrenar los modelos Phi-4.
- Cadenas de Razonamiento del o3-mini de OpenAI: Los modelos aprovechan las cadenas de razonamiento generadas por el modelo o3-mini de OpenAI para aprender los pasos involucrados en procesos de razonamiento complejos. Estas cadenas proporcionan una hoja de ruta detallada para que los SLMs la sigan, lo que les permite desarrollar una comprensión más profunda de la lógica subyacente.
- Problemas Matemáticos Sintéticos: El modelo Phi-4-mini-reasoning se entrena con un conjunto de datos sintético de un millón de problemas matemáticos generados por DeepSeek-R1. Este conjunto de datos proporciona una gama diversa de desafíos matemáticos, lo que permite al modelo desarrollar fuertes habilidades para la resolución de problemas.
- Conjuntos de Datos de Utilidad/Inocuidad: Los modelos se someten a un post-entrenamiento utilizando conjuntos de datos diseñados para promover la utilidad y la inocuidad. Esto ayuda a asegurar que los modelos generen resultados seguros y responsables.
Algoritmos de Entrenamiento
Los modelos Phi-4 se entrenan utilizando una combinación de aprendizaje supervisado, aprendizaje por refuerzo y destilación. Estas técnicas trabajan juntas para optimizar los modelos para tareas de razonamiento y asegurar que sean tanto precisos como eficientes.
- Ajuste Fino Supervisado (SFT): SFT se utiliza para ajustar finamente los modelos en las cadenas de razonamiento generadas por el modelo o3-mini de OpenAI. Esto permite a los modelos aprender los patrones y relaciones específicas que son característicos de los procesos de razonamiento complejos.
- Aprendizaje por Refuerzo (RL): RL se utiliza para entrenar el modelo Phi-4-reasoning-plus para maximizar una señal de recompensa basada en la precisión y eficiencia de su razonamiento. Esto anima al modelo a desarrollar estrategias para resolver problemas que sean a la vez eficaces y computacionalmente eficientes.
- Destilación: La destilación se utiliza para transferir conocimiento de modelos más grandes y complejos a los modelos Phi-4 más pequeños. Esto permite a los SLMs alcanzar niveles de rendimiento comparables a los de modelos mucho más grandes, al tiempo que mantienen su tamaño compacto y eficiencia.
Optimización para la Eficiencia
Uno de los objetivos clave en el desarrollo de los modelos Phi-4 fue optimizarlos para la eficiencia. Esto se refleja en varios aspectos de su diseño y entrenamiento.
- Arquitectura Compacta: Los modelos Phi-4 están diseñados con una arquitectura compacta que minimiza el número de parámetros requeridos. Esto reduce el coste computacional de ejecutar los modelos y los hace adecuados para su despliegue en dispositivos con restricciones de recursos.
- Cuantificación: La cuantificación se utiliza para reducir la huella de memoria de los modelos y mejorar su velocidad de inferencia. Esto implica representar los parámetros del modelo utilizando menos bits, lo que puede reducir significativamente el coste computacional de ejecutar el modelo.
- Aceleración por Hardware: Los modelos Phi-4 están optimizados para la aceleración por hardware en una variedad de plataformas, incluyendo CPUs, GPUs y NPUs. Esto les permite alcanzar el máximo rendimiento en una amplia gama de dispositivos.
Implicaciones para el Futuro de la IA
Los modelos Phi-4 representan un importante paso adelante en el desarrollo de la IA, con implicaciones que se extienden mucho más allá de las aplicaciones específicas para las que están diseñados. Su capacidad para alcanzar un alto rendimiento con un tamaño y recursos computacionales relativamente pequeños abre nuevas posibilidades para desplegar la IA en una amplia gama de entornos.
Democratización de la IA
Los modelos Phi-4 son un testimonio del hecho de que se pueden lograr potentes capacidades de IA sin necesidad de recursos computacionales masivos o acceso a conjuntos de datos propietarios. Esto democratiza el acceso a la IA, empoderando a los desarrolladores e investigadores para crear aplicaciones innovadoras incluso con recursos limitados.
Computación en el Borde
El pequeño tamaño y la eficiencia de los modelos Phi-4 los hacen adecuados para aplicaciones de computación en el borde. Esto permite que la IA se despliegue más cerca de la fuente de datos, reduciendo la latencia y mejorando la capacidad de respuesta. La computación en el borde tiene el potencial de revolucionar una amplia gama de industrias, desde la fabricación hasta la sanidad y el transporte.
IA Personalizada
Los modelos Phi-4 pueden personalizarse y adaptarse para satisfacer las necesidades específicas de usuarios u organizaciones individuales. Esto permite la creación de experiencias de IA personalizadas que se adaptan a los requisitos únicos de cada usuario. La IA personalizada tiene el potencial de mejorar la productividad, mejorar el aprendizaje y mejorar el bienestar general.
IA Sostenible
Los modelos Phi-4 son una alternativa más sostenible a los modelos lingüísticos más grandes, que requieren menos energía y recursos computacionales. Esto es importante para reducir el impacto ambiental de la IA y asegurar que pueda desplegarse de manera responsable y sostenible.
Los modelos Microsoft Phi-4-Reasoning no son sólo otra iteración en el mundo en constante evolución de la IA; son un cambio de paradigma. Demuestran que la inteligencia no es únicamente una función del tamaño y la potencia computacional, sino que puede lograrse mediante un diseño inteligente, una cuidadosa curación de los datos y técnicas de entrenamiento innovadoras. A medida que estos modelos continúan evolucionando, están preparados para desbloquear nuevas posibilidades para la IA y transformar la forma en que interactuamos con la tecnología.