Microsoft Phi : IA compacte en avant !

Un an après avoir présenté sa gamme de petits modèles de langage (SLM) avec la sortie de Phi-3 sur Azure AI Foundry, Microsoft a dévoilé ses modèles de nouvelle génération : Phi-4-reasoning, Phi-4-reasoning-plus et Phi-4-mini-reasoning. Ces innovations marquent un tournant pour les SLM, redéfinissant ce qui est réalisable avec une IA compacte et efficace.

L’aube des modèles Phi-Reasoning

Les nouveaux modèles Phi-reasoning sont conçus pour exploiter le scaling au moment de l’inférence pour des tâches complexes qui exigent une décomposition en plusieurs étapes et une réflexion interne. Ces modèles démontrent des capacités exceptionnelles en matière de raisonnement mathématique, s’imposant comme la base d’applications de type agent qui gèrent des tâches complexes et multidimensionnelles. Historiquement, de telles capacités étaient l’apanage de modèles nettement plus volumineux. Les modèles Phi-reasoning introduisent une nouvelle catégorie de SLM qui tirent parti de la distillation, de l’apprentissage par renforcement et de données de haute qualité pour trouver un équilibre entre la taille et la performance. Leur taille compacte les rend adaptés aux environnements à faible latence, tandis que leurs robustes capacités de raisonnement rivalisent avec celles de modèles beaucoup plus volumineux. Ce mélange d’efficacité et de capacité permet même aux appareils aux ressources limitées d’exécuter efficacement des tâches de raisonnement complexes.

Phi-4-Reasoning et Phi-4-Reasoning-Plus : Un examen plus approfondi

Phi-4-Reasoning : Le modèle de raisonnement à poids ouverts

Phi-4-reasoning se distingue comme un modèle de raisonnement à poids ouverts avec 14 milliards de paramètres. Il est conçu pour concurrencer des modèles nettement plus volumineux dans des tâches de raisonnement complexes. Ce modèle a été entraîné par le biais d’un affinage supervisé de Phi-4 sur des exemples de raisonnement méticuleusement sélectionnés dérivés de o3-mini d’OpenAI. Phi-4-reasoning génère des chaînes de raisonnement détaillées, utilisant efficacement le temps de calcul supplémentaire pendant l’inférence. Cette réalisation souligne comment la curation précise des données et les ensembles de données synthétiques de haute qualité permettent aux modèles plus petits de rivaliser avec leurs homologues plus grands.

Phi-4-Reasoning-Plus : Améliorer le raisonnement grâce à l’apprentissage par renforcement

S’appuyant sur les capacités de Phi-4-reasoning, Phi-4-reasoning-plus subit un entraînement supplémentaire avec l’apprentissage par renforcement pour exploiter le temps de calcul supplémentaire pendant l’inférence. Il traite 1,5 fois plus de jetons que Phi-4-reasoning, ce qui se traduit par une précision accrue.

Benchmarks de performance

Malgré leur taille nettement plus petite, Phi-4-reasoning et Phi-4-reasoning-plus surpassent o1-mini d’OpenAI et DeepSeek-R1-Distill-Llama-70B dans divers benchmarks, y compris le raisonnement mathématique et les enquêtes scientifiques de niveau doctorat. De manière impressionnante, ils surpassent même le modèle DeepSeek-R1 complet (avec 671 milliards de paramètres) lors du test AIME 2025, qui sert de compétition de qualification pour l’Olympiade de mathématiques des États-Unis de 2025. Les deux modèles sont facilement accessibles sur Azure AI Foundry et Hugging Face.

Phi-4-Mini-Reasoning : Un concentré de puissance compact pour les environnements limités

Phi-4-mini-reasoning est spécialement conçu pour répondre à la demande d’un modèle de raisonnement compact. Ce modèle de langage basé sur un transformateur est optimisé pour le raisonnement mathématique et offre des capacités de résolution de problèmes étape par étape de haute qualité dans les environnements où la puissance de calcul ou la latence est limitée. Affiné à l’aide de données synthétiques générées par le modèle Deepseek-R1, il équilibre efficacement l’efficacité avec des capacités de raisonnement avancées. Cela le rend idéal pour les applications éducatives, les systèmes de tutorat intégrés et les déploiements légers sur les systèmes périphériques ou mobiles. Le modèle est entraîné sur plus d’un million de problèmes mathématiques divers, allant en difficulté du collège au niveau doctorat, garantissant sa polyvalence et son efficacité dans un large éventail de contextes éducatifs.

Phi en action : élargir les horizons

L’évolution de Phi au cours de la dernière année a constamment repoussé les limites de la qualité par rapport à la taille, la famille s’élargissant pour englober de nouvelles fonctionnalités adaptées à divers besoins. Ces modèles peuvent être exécutés localement sur les CPU et les GPU sur une variété d’appareils Windows 11, offrant flexibilité et accessibilité aux utilisateurs avec différentes configurations matérielles.

Intégration avec les PC Copilot+ : Une nouvelle ère de l’informatique alimentée par l’IA

Les modèles Phi font partie intégrante des PC Copilot+, tirant parti de la variante Phi Silica optimisée pour le NPU. Cette version très efficace de Phi, gérée par le système d’exploitation, est conçue pour être préchargée en mémoire, offrant des temps de réponse rapides et un débit de jetons économe en énergie. Cela lui permet d’être invoqué simultanément avec d’autres applications sur le PC, améliorant les capacités multitâches et les performances globales du système.

Applications concrètes

Les modèles Phi sont déjà utilisés dans des expériences de base telles que Click to Do, qui fournit des outils de texte intelligents pour tout le contenu à l’écran. Ils sont également disponibles en tant qu’API de développeur pour une intégration transparente dans les applications. Les modèles sont actuellement utilisés dans diverses applications de productivité comme Outlook, où ils fournissent des fonctionnalités de résumé Copilot hors ligne. Les modèles Phi-4-reasoning et Phi-4-mini-reasoning tirent parti des optimisations à faible nombre de bits pour Phi Silica et seront bientôt disponibles pour fonctionner sur les NPU des PC Copilot+.

L’engagement de Microsoft envers l’IA responsable et la sécurité

Chez Microsoft, l’IA responsable est un principe fondamental qui guide le développement et le déploiement des systèmes d’IA, y compris les modèles Phi. Les modèles Phi sont développés conformément aux principes d’IA de Microsoft : responsabilité, transparence, équité, fiabilité et sécurité, confidentialité et sécurité, et inclusivité. La famille de modèles Phi emploie une approche robuste de la sécurité post-formation, utilisant une combinaison de techniques d’affinage supervisé (SFT), d’optimisation directe des préférences (DPO) et d’apprentissage par renforcement à partir des commentaires humains (RLHF) pour garantir leur utilisation responsable et éthique.

Les fondements techniques des modèles Phi : Un examen détaillé

Les modèles Phi de Microsoft représentent une avancée significative dans le domaine des petits modèles de langage, en particulier dans leur capacité à effectuer des tâches de raisonnement complexes avec relativement peu de paramètres. Cette section se penche sur les détails techniques qui permettent à ces modèles d’atteindre des performances aussi impressionnantes.

Innovations architecturales

Les modèles Phi sont basés sur l’architecture transformer, un modèle d’apprentissage profond qui a révolutionné le traitement du langage naturel. Les transformateurs excellent à capturer les dépendances à longue portée dans le texte, permettant aux modèles de comprendre le contexte et les nuances du langage.

  • Mécanisme d’attention : Le cœur de l’architecture transformer est le mécanisme d’attention, qui permet au modèle de se concentrer sur les parties les plus pertinentes de l’entrée lors de la génération de la sortie. Ceci est particulièrement important pour les tâches de raisonnement, où le modèle doit identifier les informations et les relations clés pour arriver à une conclusion correcte.

  • Attention à produit scalaire mis à l’échelle : Les modèles Phi utilisent l’attention à produit scalaire mis à l’échelle, une version affinée du mécanisme d’attention qui inclut un facteur d’échelle pour empêcher les produits scalaires de devenir trop grands, ce qui peut entraîner une instabilité pendant la formation.

  • Attention multi-tête : Pour capturer différents aspects de l’entrée, les modèles Phi utilisent l’attention multi-tête, où plusieurs mécanismes d’attention fonctionnent en parallèle. Chaque tête se concentre sur un sous-ensemble différent de l’entrée, permettant au modèle d’apprendre des représentations plus complexes.

  • Réseaux feed-forward : Après les couches d’attention, l’architecture transformer comprend des réseaux feed-forward qui traitent davantage l’information. Ces réseaux sont constitués de plusieurs couches de neurones qui apprennent à extraire des caractéristiques des sorties d’attention.

Méthodologies de formation : Une approche multidimensionnelle

La formation des modèles Phi implique une combinaison de techniques, notamment l’affinage supervisé, l’apprentissage par renforcement et la distillation des données.

  • Affinage supervisé (SFT) : L’affinage supervisé implique la formation du modèle sur un ensemble de données étiqueté, où l’entrée est une question ou un problème, et la sortie est la réponse ou la solution correcte. Cela aide le modèle à apprendre à associer des entrées spécifiques aux sorties correspondantes.

  • Apprentissage par renforcement (RL) : L’apprentissage par renforcement est une technique où le modèle apprend à prendre des décisions en interagissant avec un environnement et en recevant des récompenses ou des pénalités pour ses actions. Dans le contexte des modèles de langage, l’environnement pourrait être un ensemble de règles ou de contraintes, et la récompense pourrait être basée sur la précision des réponses du modèle.

  • Distillation des données : La distillation des données est une technique où un modèle plus petit est formé pour imiter le comportement d’un modèle plus grand et plus complexe. Cela permet au modèle plus petit d’atteindre des performances comparables à celles du modèle plus grand, tout en nécessitant moins de ressources.

Curation des données : La pierre angulaire de la performance

La performance des modèles Phi dépend fortement de la qualité des données utilisées pour la formation. Microsoft a investi des efforts importants dans la curation d’ensembles de données de haute qualité qui sont spécifiquement conçus pour les tâches de raisonnement.

  • Génération de données synthétiques : Pour augmenter les données disponibles, Microsoft a développé des techniques pour générer des données synthétiques qui imitent les caractéristiques des données du monde réel. Cela permet aux modèles d’être formés sur un ensemble de données plus grand et plus diversifié, ce qui améliore leur capacité de généralisation.

  • Filtrage des données : Microsoft utilise des techniques rigoureuses de filtrage des données pour supprimer les données bruyantes ou non pertinentes de l’ensemble de données de formation. Cela garantit que les modèles sont formés sur des données propres et précises, ce qui conduit à de meilleures performances.

  • Augmentation des données : Les techniques d’augmentation des données sont utilisées pour augmenter la diversité de l’ensemble de données de formation en appliquant des transformations aux données existantes. Cela aide les modèles à être plus robustes aux variations de l’entrée.

Techniques d’optimisation : Équilibrer l’efficacité et la précision

Les modèles Phi sont optimisés à la fois pour l’efficacité et la précision, leur permettant de fonctionner sur des appareils aux ressources limitées sans sacrifier la performance.

  • Quantification : La quantification est une technique où la précision des paramètres du modèle est réduite, ce qui réduit l’empreinte mémoire et les exigences de calcul du modèle.

  • Élagage : L’élagage est une technique où les connexions moins importantes dans le modèle sont supprimées, ce qui réduit la taille et la complexité du modèle.

  • Distillation des connaissances : La distillation des connaissances implique le transfert de connaissances d’un modèle plus grand et plus complexe à un modèle plus petit. Cela permet au modèle plus petit d’atteindre des performances comparables à celles du modèle plus grand, tout en nécessitant moins de ressources.

Le NPU Phi Silica : Une approche synergique matériel-logiciel

Les modèles Phi de Microsoft sont conçus pour être étroitement intégrés au NPU (Neural Processing Unit) Phi Silica, un accélérateur matériel spécialisé qui est optimisé pour les charges de travail d’apprentissage profond.

  • Optimisation à faible nombre de bits : Le NPU Phi Silica prend en charge l’optimisation à faible nombre de bits, ce qui permet aux modèles de fonctionner avec une précision réduite, réduisant encore leur empreinte mémoire et leurs exigences de calcul.

  • Préchargement en mémoire : Les modèles Phi sont conçus pour être préchargés en mémoire, ce qui leur permet d’être invoqués rapidement et efficacement.

  • Gestion du système d’exploitation : Le NPU Phi Silica est géré par le système d’exploitation, ce qui lui permet d’être intégré de manière transparente dans l’expérience utilisateur.

En résumé, les modèles Phi de Microsoft représentent une réalisation significative dans le domaine des petits modèles de langage. En combinant des conceptions architecturales innovantes, des méthodologies de formation rigoureuses, une curation minutieuse des données et une co-conception matériel-logiciel, Microsoft a créé une famille de modèles à la fois puissants et efficaces, permettant un large éventail d’applications alimentées par l’IA.