Microsoft Phi-4 Modèle de Langue pour Raisonnement Mathématique Complexe

Microsoft Research a présenté Phi-4, un petit modèle de langage de 14 milliards de paramètres conçu pour faire progresser l’état de l’art du raisonnement mathématique. Initialement disponible sur Azure AI Foundry, le modèle est désormais accessible sous licence MIT sur Hugging Face.

Les Innovations de Phi-4

Selon Microsoft, Phi-4 surpasse les modèles de taille comparable, voire plus grands, en matière de raisonnement mathématique. Cela est dû à plusieurs techniques innovantes utilisées lors de son entraînement, notamment :

  • Pré-entraînement et entraînement intermédiaire avec des données synthétiques : L’utilisation de données synthétiques pour le pré-entraînement et l’entraînement intermédiaire offre un parcours d’apprentissage plus structuré au modèle.
  • Gestion organique des données : Une sélection et une curation minutieuses des données organiques garantissent la qualité des données d’entraînement.
  • Nouveau schéma de post-entraînement : L’adoption de nouvelles méthodes de post-entraînement améliore encore les performances du modèle.

Ces innovations permettent à Phi-4 de surpasser son modèle enseignant, GPT-4o, en termes de capacités de questions-réponses axées sur les STEM. Cela démontre que les techniques de génération de données et de post-entraînement de Microsoft ne sont pas de simples distillations de connaissances.

Avantages uniques des données synthétiques

L’utilisation de données synthétiques n’est pas nouvelle dans l’entraînement des grands modèles de langage (LLM), et les modèles Phi y ont déjà eu recours. Microsoft souligne que les données synthétiques ne sont pas un substitut bon marché, mais qu’elles surpassent les données organiques de la manière suivante :

  • Parcours d’apprentissage plus progressif : Les données synthétiques peuvent guider le LLM dans un apprentissage progressif, de l’énoncé initial du problème à la solution finale, facilitant la compréhension du processus de raisonnement.
  • Meilleur alignement avec l’environnement de raisonnement : Contrairement aux données organiques qui contiennent l’énoncé du problème et la solution finale, les données synthétiques peuvent fournir un processus de raisonnement étape par étape plus détaillé, mieux adapté aux scénarios de raisonnement réels.

Données organiques soigneusement sélectionnées

Outre les données synthétiques, Microsoft a également utilisé des données organiques soigneusement sélectionnées, notamment des dizaines de millions de problèmes et de solutions mathématiques de haute qualité provenant de sites web publics et de jeux de données externes. Pour les cas où aucune solution précise n’était fournie, ils ont synthétisé des solutions en utilisant la méthode du vote majoritaire afin d’améliorer la précision. En outre, ils ont collecté des articles universitaires, des forums éducatifs et des tutoriels de programmation.

Microsoft a souligné le rôle essentiel de données naturelles de haute qualité dans la génération de données synthétiques, soulignant que même des erreurs mineures peuvent entraîner une grave détérioration de la qualité des documents synthétiques dérivés. Par conséquent, ils ont consacré beaucoup d’efforts à l’amélioration de la gestion des données web.

Phase de post-entraînement de Phi-4

La phase de post-entraînement de Phi-4 vise à le transformer en un assistant d’IA fiable. Cette phase comprend les étapes suivantes :

  1. Finetuning : Le modèle est affiné à l’aide de données de haute qualité générées à partir de différents domaines tels que les mathématiques, le codage, le raisonnement, le dialogue, l’identité du modèle et la sécurité.
  2. Optimisation directe des préférences (DPO) : Deux étapes DPO sont exécutées pour mieux aligner le modèle sur les préférences humaines et éliminer les comportements indésirables.
    • Recherche de jetons pivots : Dans la première étape, Microsoft utilise une nouvelle technique appelée Recherche de jetons pivots pour générer des paires de résultats souhaités/non souhaités.
    • GPT-4o comme évaluateur : Dans la deuxième étape, ils utilisent GPT-4o comme évaluateur pour étiqueter chaque paire de résultats avec une étiquette positive ou négative.

Évaluation de Phi-4

Phi-4 a été évalué à l’aide du cadre SIMPLE-EVALS d’OpenAI et a surpassé Llama-3.1-405B dans plusieurs benchmarks. En outre, il a également surpassé son modèle enseignant, GPT-4o, dans les benchmarks GPQA (questions-réponses STEM de niveau supérieur) et MATH (concours de mathématiques).

Détails des données d’entraînement du modèle Phi-4

Microsoft a adopté une stratégie de données soigneusement conçue pour l’entraînement du modèle Phi-4, axée principalement sur les données synthétiques et les données réelles sélectionnées. Cette approche combinée vise à optimiser le processus d’apprentissage du modèle et à le rendre excellent en raisonnement mathématique.

Génération de données synthétiques

Les données synthétiques jouent un rôle essentiel dans l’entraînement de Phi-4. L’équipe de Microsoft n’a pas considéré les données synthétiques comme un simple substitut aux données réelles, mais plutôt comme un outil capable de guider le modèle dans un apprentissage progressif. Le processus de génération de données synthétiques suit généralement les étapes suivantes :

  1. Création de problèmes : Tout d’abord, divers problèmes mathématiques sont générés en fonction de règles et de modèles prédéfinis. Ces problèmes couvrent différents domaines mathématiques et niveaux de difficulté, afin de garantir un apprentissage complet du modèle.
  2. Solutions étape par étape : Pour chaque problème généré, une solution étape par étape est créée, expliquant en détail le processus de raisonnement depuis l’énoncé du problème jusqu’à la réponse finale. Cette solution étape par étape comprend non seulement la réponse finale, mais aussi les étapes intermédiaires et la logique de raisonnement, aidant ainsi le modèle à comprendre le processus de résolution du problème.
  3. Augmentation des données : Afin d’accroître la diversité des données, les données synthétiques sont également augmentées, par exemple en modifiant le libellé des problèmes, en ajustant les chiffres ou en utilisant différentes méthodes de résolution.

Données réelles sélectionnées

Outre les données synthétiques, l’entraînement de Phi-4 a également utilisé une grande quantité de données réelles sélectionnées. Ces données proviennent de divers sites web publics, d’articles universitaires, de forums éducatifs et de tutoriels de programmation, notamment les types suivants :

  • Problèmes et solutions mathématiques : Des millions de problèmes mathématiques de haute qualité et leurs solutions ont été collectés à partir de sites web publics et de jeux de données externes. Ces problèmes couvrent différents domaines mathématiques et niveaux de difficulté.
  • Articles universitaires : Afin d’améliorer les capacités de compréhension et de raisonnement du modèle, un grand nombre d’articles universitaires ont également été collectés, qui fournissent des concepts et des théories mathématiques approfondis.
  • Forums éducatifs : Les questions posées par les étudiants et les réponses fournies par les experts ont été collectées à partir des forums éducatifs, ce qui permet au modèle de comprendre les problèmes mathématiques sous différents angles.
  • Tutoriels de programmation : Afin d’améliorer les capacités de programmation du modèle, un grand nombre de tutoriels de programmation couvrant différents langages de programmation et algorithmes ont également été collectés.

Contrôle de la qualité des données

Microsoft a consacré beaucoup d’efforts au contrôle de la qualité des données afin de garantir l’exactitude et la cohérence des données d’entraînement. Ils ont pris les mesures suivantes :

  • Examen manuel : Pour certains ensembles de données clés, un examen manuel est effectué afin de garantir l’exactitude et la qualité des données.
  • Vote majoritaire : Pour les problèmes qui ne fournissent pas de solution précise, la méthode du vote majoritaire est utilisée pour générer des solutions, ce qui améliore la précision.
  • Nettoyage des données : Toutes les données sont nettoyées afin de supprimer les données en double, les données erronées et les données non pertinentes.

Analyse détaillée de la stratégie de post-entraînement

La phase de post-entraînement de Phi-4 vise à le transformer en un assistant d’IA fiable. Cette phase est principalement constituée d’un affinage et d’une optimisation directe des préférences (DPO).

Phase d’affinage

L’objectif de la phase d’affinage est d’adapter le modèle à une variété de tâches et de domaines différents. Au cours de cette phase, Microsoft a utilisé des données de haute qualité générées à partir des domaines suivants :

  • Mathématiques : Y compris divers problèmes et solutions mathématiques, conçus pour améliorer les capacités de raisonnement mathématique du modèle.
  • Codage : Y compris divers problèmes et solutions de programmation, conçus pour améliorer la génération et la compréhension du code par le modèle.
  • Raisonnement : Y compris divers problèmes de raisonnement logique, conçus pour améliorer les capacités de pensée logique du modèle.
  • Dialogue : Y compris diverses données de dialogue, conçues pour améliorer les capacités de compréhension et de génération du langage naturel du modèle.
  • Identité du modèle : Y compris diverses descriptions de l’identité du modèle, conçues pour améliorer la compréhension des capacités du modèle par lui-même.
  • Sécurité : Y compris divers problèmes et solutions de sécurité, conçus pour améliorer la sécurité du modèle.

Phase d’optimisation directe des préférences (DPO)

L’objectif de la phase d’optimisation directe des préférences (DPO) est de mieux aligner le comportement du modèle sur les préférences humaines et d’éliminer les comportements indésirables. Cette phase comprend deux étapes :

  1. Recherche de jetons pivots : Dans la première étape, Microsoft utilise une nouvelle technique appelée Recherche de jetons pivots pour générer des paires de résultats souhaités/non souhaités. Cette technique consiste à rechercher dans l’espace de sortie du modèle les jetons clés qui permettent de distinguer les comportements souhaités et non souhaités.
  2. GPT-4o comme évaluateur : Dans la deuxième étape, ils utilisent GPT-4o comme évaluateur pour étiqueter chaque paire de résultats avec une étiquette positive ou négative. GPT-4o est capable d’évaluer la sortie du modèle en fonction des préférences humaines, ce qui permet au modèle de mieux apprendre les préférences humaines.

Évaluation des performances de Phi-4

Afin d’évaluer les performances de Phi-4, Microsoft a utilisé le framework SIMPLE-EVALS d’OpenAI, qui contient divers benchmarks permettant d’évaluer les performances du modèle sur différentes tâches.

Benchmarks

Phi-4 a excellé dans les benchmarks suivants :

  • GPQA (Questions-réponses STEM de niveau supérieur) : Dans ce benchmark, Phi-4 a surpassé son modèle enseignant, GPT-4o, prouvant ainsi ses très fortes capacités en matière de questions-réponses dans le domaine des STEM.
  • MATH (Concours de mathématiques) : Dans ce benchmark également, Phi-4 a surpassé son modèle enseignant, GPT-4o, prouvant ses excellentes capacités en matière de résolution de problèmes mathématiques complexes.
  • Comparaison avec d’autres modèles : Dans plusieurs benchmarks, Phi-4 a surpassé Llama-3.1-405B, prouvant ainsi ses très fortes performances globales.

Analyse des performances

L’évaluation des performances de Phi-4 permet de tirer les conclusions suivantes :

  • Fortes capacités de raisonnement mathématique : Phi-4 a obtenu d’excellents résultats en matière de raisonnement mathématique, grâce aux méthodes innovantes utilisées lors de son entraînement, notamment les données synthétiques, les données réelles sélectionnées et la stratégie de post-entraînement.
  • Dépassement du modèle enseignant : Dans plusieurs benchmarks, Phi-4 a surpassé son modèle enseignant, GPT-4o, prouvant ainsi que ses performances ne sont pas une simple distillation de connaissances.
  • Comparaison avec d’autres modèles : Phi-4 a surpassé Llama-3.1-405B dans plusieurs benchmarks, prouvant ainsi ses très fortes performances globales.

Perspectives d’application de Phi-4

En tant que petit modèle de langage conçu pour le raisonnement mathématique complexe, Phi-4 présente de vastes perspectives d’application. Il peut être appliqué dans les domaines suivants :

  • Éducation : Il peut servir d’outil de tutorat en mathématiques, aidant les élèves à résoudre des problèmes mathématiques et à bénéficier d’une expérience d’apprentissage personnalisée.
  • Recherche scientifique : Il peut servir d’outil de recherche, aidant les chercheurs à effectuer des modélisations mathématiques et des analyses de données.
  • Ingénierie : Il peut servir d’outil d’ingénierie, aidant les ingénieurs à effectuer des conceptions et des analyses.
  • Finance : Il peut servir d’outil financier, aidant les analystes financiers à effectuer des évaluations de risques et des décisions d’investissement.
  • Autres domaines : Il peut également être appliqué à d’autres domaines nécessitant un raisonnement mathématique complexe, tels que la médecine, la logistique et la fabrication.

Conclusion

L’émergence du Phi-4 de Microsoft marque une avancée significative des petits modèles de langage dans le domaine du raisonnement mathématique. Sa stratégie unique d’entraînement des données et sa méthode de post-entraînement lui permettent de surpasser les modèles de même type et de taille supérieure en termes de performances, et offrent de nouvelles pistes pour le développement futur de l’IA. Avec l’ouverture de Phi-4 sur Hugging Face, il est certain qu’il apportera une aide précieuse à un plus grand nombre de chercheurs et de développeurs, et qu’il favorisera l’application de la technologie de l’IA dans divers domaines.