Microsoft Phi-4: Un modelo de lenguaje pequeño para razonamiento matemático complejo

Microsoft Research ha presentado Phi-4, un modelo de lenguaje pequeño con 14 mil millones de parámetros, diseñado para avanzar en el razonamiento matemático. Inicialmente disponible en Azure AI Foundry, ahora se ofrece bajo licencia MIT en Hugging Face.

Innovaciones de Phi-4

Según Microsoft, Phi-4 supera a modelos de su tamaño y más grandes en razonamiento matemático gracias a innovaciones en su entrenamiento:

  • Preentrenamiento y entrenamiento intermedio con datos sintéticos: Proporcionando una ruta de aprendizaje estructurada.
  • Gestión de datos orgánicos: Curando y filtrando datos orgánicos para garantizar calidad.
  • Nuevos esquemas de post-entrenamiento: Mejorando el rendimiento del modelo.

Estas innovaciones permiten a Phi-4 superar a su modelo maestro, GPT-4o, en habilidades de preguntas y respuestas STEM, demostrando que las técnicas de generación de datos y post-entrenamiento de Microsoft no son solo destilación de conocimiento.

Ventajas de los datos sintéticos

El uso de datos sintéticos en el entrenamiento de LLM no es nuevo, pero Phi-4 los usa de forma única. Microsoft destaca que los datos sintéticos no son un sustituto barato, sino que ofrecen:

  • Rutas de aprendizaje progresivas: Guiando el LLM paso a paso, desde la declaración del problema hasta la solución.
  • Mejor alineación con el razonamiento: Proporcionando un proceso de razonamiento detallado, a diferencia de los datos orgánicos.

Datos orgánicos cuidadosamente seleccionados

Además de los datos sintéticos, Microsoft usó datos orgánicos cuidadosamente seleccionados, incluyendo millones de problemas matemáticos de alta calidad y soluciones de sitios web públicos y conjuntos de datos externos. Para los casos sin soluciones precisas, utilizaron un método de votación mayoritaria para generar soluciones. También recopilaron documentos académicos, foros educativos y tutoriales de programación.

Microsoft subraya la importancia de los datos naturales de alta calidad en la generación de datos sintéticos, señalando que incluso pequeños errores pueden reducir drásticamente la calidad de los documentos sintéticos derivados.

Post-entrenamiento de Phi-4

El post-entrenamiento de Phi-4 lo transforma en un asistente de IA confiable. Este proceso incluye:

  1. Ajuste fino: Utilizando datos de alta calidad de matemáticas, código, razonamiento, diálogo, identidad del modelo y seguridad.
  2. Optimización directa de preferencias (DPO): Dos pasos de DPO para alinear el modelo con las preferencias humanas y eliminar comportamientos indeseables.
    • Pivotal Token Search: Generando pares de resultados deseados e indeseados.
    • GPT-4o como evaluador: Etiquetando cada par de resultados como positivo o negativo.

Evaluación de Phi-4

Phi-4 fue evaluado con el marco SIMPLE-EVALS de OpenAI, superando a Llama-3.1-405B en múltiples pruebas. También superó a su modelo maestro, GPT-4o, en GPQA (preguntas y respuestas STEM de nivel de posgrado) y MATH (competiciones de matemáticas).

Detalles de los datos de entrenamiento de Phi-4

Microsoft empleó una estrategia de datos diseñada para Phi-4, centrada en datos sintéticos y datos reales seleccionados.

Generación de datos sintéticos

Los datos sintéticos guían el aprendizaje del modelo:

  1. Creación de problemas: Usando reglas y plantillas para generar problemas matemáticos variados.
  2. Soluciones paso a paso: Explicando el razonamiento desde el problema hasta la respuesta.
  3. Aumento de datos: Variando la redacción y los métodos de solución.

Datos reales seleccionados

Además de los datos sintéticos, Phi-4 utilizó datos reales de sitios web, documentos académicos, foros y tutoriales, incluyendo:

  • Problemas y soluciones matemáticas: Millones de problemas de alta calidad.
  • Documentos académicos: Para mejorar la comprensión y el razonamiento.
  • Foros educativos: Para entender diferentes perspectivas sobre problemas matemáticos.
  • Tutoriales de programación: Para mejorar las habilidades de programación.

Control de calidad de datos

Microsoft se esforzó en el control de calidad:

  • Revisión humana: Para conjuntos de datos clave.
  • Votación mayoritaria: Para soluciones no precisas.
  • Limpieza de datos: Eliminando datos duplicados, erróneos o irrelevantes.

Análisis de la estrategia de post-entrenamiento

El post-entrenamiento de Phi-4 incluye ajuste fino y optimización directa de preferencias (DPO).

Ajuste fino

El objetivo es adaptar el modelo a diversas tareas:

  • Matemáticas: Problemas y soluciones para mejorar el razonamiento matemático.
  • Codificación: Para mejorar la generación y comprensión de código.
  • Razonamiento: Para mejorar el pensamiento lógico.
  • Diálogo: Para mejorar la comprensión y generación de lenguaje natural.
  • Identidad del modelo: Para mejorar la comprensión de sus capacidades.
  • Seguridad: Para mejorar la seguridad del modelo.

Optimización directa de preferencias (DPO)

El objetivo es alinear el modelo con las preferencias humanas:

  1. Pivotal Token Search: Generando pares de resultados deseados e indeseados.
  2. GPT-4o como evaluador: Etiquetando los resultados como positivos o negativos.

Evaluación del rendimiento de Phi-4

Microsoft utilizó el marco SIMPLE-EVALS para evaluar el rendimiento de Phi-4.

Pruebas de referencia

Phi-4 destacó en:

  • GPQA: Superando a GPT-4o en preguntas y respuestas STEM.
  • MATH: Superando a GPT-4o en problemas matemáticos complejos.
  • Comparación con otros modelos: Superando a Llama-3.1-405B en varias pruebas.

Análisis del rendimiento

  • Razonamiento matemático: Excepcional gracias a las innovaciones en el entrenamiento.
  • Supera al modelo maestro: Demostrando que no es simple destilación de conocimiento.
  • Rendimiento general: Sólido y superior a otros modelos.

Aplicaciones potenciales de Phi-4

Phi-4 tiene amplias aplicaciones:

  • Educación: Como tutor de matemáticas personalizado.
  • Investigación: Para modelado matemático y análisis de datos.
  • Ingeniería: Para diseño y análisis.
  • Finanzas: Para evaluación de riesgos y decisiones de inversión.
  • Otros campos: Medicina, logística y manufactura.

Conclusión

Microsoft Phi-4 representa un avance significativo en modelos de lenguaje pequeños para razonamiento matemático. Su estrategia de entrenamiento y post-entrenamiento marca una nueva dirección para el desarrollo de la IA. Su apertura en Hugging Face facilitará el acceso a investigadores y desarrolladores, impulsando la aplicación de la IA en diversos campos.