Microsoft Phi-4-Reasoning : les SLM raisonnent aussi bien que les géants !
Microsoft, bien que partenaire privilégié d’OpenAI et travaillant avec la plupart des acteurs pour intégrer leurs modèles d’IA dans Azure AI Foundry, n’hésite pas à poursuivre ses propres voies technologiques. Cela comprend le travail sur les innovations au cœur des réseaux neuronaux, comme l’intrigant modèle BitNet b1.58 basé sur Trit, ses propres SLM open-source, et même des modèles de pointe gardés secrets (Projet MAI-1).
Un an après avoir introduit sa gamme de petits modèles d’IA (SLM) Phi-3 et deux mois après avoir lancé la 4ème génération avec un SLM multimodal (Phi-4-Multimodal) et un modèle minuscule (Phi-4-mini), Microsoft annonce trois nouvelles variantes de son SLM de dernière génération : Phi-4-reasoning, Phi-4-reasoning-plus, et Phi-4-mini-reasoning.
Lancées le 30 avril 2025, ces versions "intégrées au raisonnement" élargissent l’offre open-weight de modèles compacts pour les développeurs qui ont besoin de maintenir une faible latence tout en nécessitant un raisonnement complexe.
Au cœur de l’approche des ingénieurs de Microsoft pour rendre ses SLM "raisonnants" : s’appuyer sur une supervision fine (SFT) à partir des chaînes de raisonnement o3-mini d’OpenAI, et tirer parti de l’apprentissage par renforcement (RL) pour la version "plus". "Grâce à la distillation, à l’apprentissage par renforcement et à des données de haute qualité, ces modèles concilient taille et performance", explique Microsoft.
Petits mais doués
Les résultats sur les différents benchmarks leaders du marché suffisent à faire pâlir la concurrence : typiquement avec seulement 14 milliards de paramètres, Phi-4-reasoning surpasse DeepSeek-R1-Distill-Llama-70B (70 milliards de paramètres) sur les séries AIME 2025, MMLU-Pro ou HumanEval-Plus, et approche le modèle DeepSeek-R1 complet (671 milliards de paramètres) ! La variante Phi-4-reasoning-plus, alignée sur les mêmes 14 milliards de paramètres mais entraînée avec 1,5 fois plus de tokens, égale presque les scores d’o3-mini d’OpenAI sur OmniMath ! Pour information, Phi-4-reasoning bénéficie d’une fenêtre de contexte classique de 128 000 tokens qui a été étendue à 256 000 tokens pour la version Phi-4-reasoning-plus.
Conçu pour les systèmes embarqués, Phi-4-mini-reasoning affiche 3,8 milliards de paramètres, un ensemble synthétique d’un million de problèmes mathématiques générés par DeepSeek-R1, et atteint la performance o1-mini sur Math-500 tout en dépassant plusieurs modèles avec 7 à 8 milliards de paramètres. Avec sa taille ultra-petite, ce modèle est idéal pour l’exécution locale, y compris sur les appareils mobiles, et pour répondre au besoin de réponses quasi instantanées. Il est particulièrement adapté aux usages éducatifs et aux chatbots locaux.
Modèles ouverts pour des usages variés
Du côté du déploiement, les RSSI trouveront ces modèles déjà optimisés pour les PC Copilot+ : la variante NPU "Phi Silica" est préchargée en mémoire et fournit un temps de réponse quasi instantané, garantissant une cohabitation économe en énergie avec les applications métier. Les API Windows permettent d’intégrer la génération hors ligne dans Outlook ou les outils internes.
En termes de sécurité, Microsoft revendique un pipeline aligné sur ses principes de responsabilité – responsabilité, équité, fiabilité, sécurité et inclusion. Les modèles subissent un post-entraînement combinant SFT, Direct Preference Optimization, et RLHF à partir d’ensembles publics et internes orientés "utilité/innocuité". Microsoft publie également les "Cards" de ses modèles, qui détaillent les limitations résiduelles et les mesures d’atténuation.
Disponibles dès maintenant sur Azure AI Foundry, Hugging Face et GitHub Models, les trois modèles sont publiés sous la licence MIT très permissive, ouvrant la voie à l’inférence locale ainsi qu’aux déploiements cloud hybrides. Pour les équipes de sécurité et d’architecture, cette nouvelle génération de SLM offre une alternative crédible aux LLM massifs, avec un TCO réduit, une exécution localement ainsi qu’à la périphérie, et un contrôle accru des données. Ces modèles sont la preuve des incroyables progrès réalisés par les SLM en un an et de leur incroyable potentiel dans un univers à la recherche d’une IA moins coûteuse et plus économe en énergie et en ressources.
Un examen approfondi des capacités de raisonnement de Phi-4
L’arrivée de la famille de modèles Phi-4 représente une avancée significative dans le développement de petits modèles de langage (SLM). Ce qui distingue ces modèles, ce sont leurs capacités de raisonnement améliorées, obtenues grâce à des techniques d’entraînement innovantes et à une concentration sur des données de haute qualité. L’engagement de Microsoft envers les principes de l’open source démocratise davantage l’accès à ces outils puissants, permettant aux développeurs d’intégrer des capacités d’IA avancées dans un large éventail d’applications.
Comprendre l’architecture
Les modèles Phi-4 sont construits sur une architecture de transformateur, un cadre éprouvé pour le traitement du langage naturel. Cependant, Microsoft a mis en œuvre plusieurs innovations clés pour optimiser les modèles pour les tâches de raisonnement.
- Supervision fine (SFT) : Les modèles sont entraînés à l’aide d’une technique appelée supervision fine (SFT), qui consiste à apprendre à partir de chaînes de raisonnement détaillées générées par le modèle o3-mini d’OpenAI. Cela permet aux modèles Phi-4 d’apprendre les étapes impliquées dans les processus de raisonnement complexes.
- Apprentissage par renforcement (RL) : La variante "plus" du modèle Phi-4, Phi-4-reasoning-plus, utilise l’apprentissage par renforcement (RL) pour améliorer davantage ses capacités de raisonnement. RL implique la formation du modèle pour maximiser un signal de récompense, qui dans ce cas est basé sur la précision et l’efficacité de son raisonnement.
- Distillation : La distillation est utilisée pour transférer les connaissances des modèles plus grands et plus complexes vers les plus petits modèles Phi-4. Cela permet aux SLM d’atteindre des niveaux de performance comparables à ceux de modèles beaucoup plus grands, tout en conservant leur taille compacte et leur efficacité.
Performance de benchmarking
Les modèles Phi-4 ont démontré des performances impressionnantes sur une variété de benchmarks de raisonnement, surpassant les modèles plus grands dans certains cas. Par exemple, Phi-4-reasoning, avec seulement 14 milliards de paramètres, surpasse DeepSeek-R1-Distill-Llama-70B (70 milliards de paramètres) sur plusieurs ensembles de données difficiles, notamment AIME 2025, MMLU-Pro et HumanEval-Plus. Cela met en évidence l’efficacité et l’efficacité de l’architecture et des techniques d’entraînement de Phi-4.
La variante Phi-4-reasoning-plus, entraînée avec 1,5 fois plus de tokens, atteint des scores proches de o3-mini d’OpenAI sur le benchmark OmniMath, démontrant sa capacité à résoudre des problèmes de raisonnement mathématique complexes.
Applications et cas d’utilisation
Les modèles Phi-4 sont bien adaptés à une variété d’applications qui nécessitent des capacités de raisonnement avancées.
- Outils pédagogiques : Le modèle Phi-4-mini-reasoning, avec sa petite taille et ses hautes performances, est idéal pour les applications pédagogiques. Il peut être utilisé pour créer des outils d’apprentissage interactifs qui fournissent aux étudiants des commentaires et un soutien personnalisés.
- Chatbots locaux : Les modèles Phi-4 peuvent être utilisés pour créer des chatbots locaux qui fournissent aux utilisateurs un accès instantané à l’information et au soutien. Leur petite taille leur permet d’être déployés sur des appareils mobiles et d’autres environnements aux ressources limitées.
- PC Copilot+ : Les modèles Phi-4 sont optimisés pour les PC Copilot+, offrant aux utilisateurs une expérience d’IA transparente. La variante "Phi Silica" est préchargée dans la mémoire et fournit des temps de réponse quasi instantanés.
- Génération hors ligne : Les API Windows permettent d’intégrer la génération hors ligne dans Outlook ou des outils internes, ce qui permet aux utilisateurs d’accéder aux capacités d’IA même lorsqu’ils ne sont pas connectés à Internet.
Sécurité et responsabilité
Microsoft s’engage à développer et à déployer des modèles d’IA de manière responsable et éthique. Les modèles Phi-4 ne font pas exception.
- Principes de responsabilité : Le pipeline de développement d’IA de Microsoft est aligné sur ses principes de responsabilité, qui comprennent la responsabilité, l’équité, la fiabilité, la sécurité et l’inclusion.
- Post-formation : Les modèles Phi-4 subissent une post-formation à l’aide de SFT, Direct Preference Optimization et RLHF à partir d’ensembles de données publics et internes orientés vers "utilité/innocuité". Cela permet de s’assurer que les modèles sont sûrs et fiables.
- Cartes de modèle : Microsoft publie des "Cartes" pour ses modèles, qui détaillent les limitations résiduelles et les mesures d’atténuation. Cela fournit aux utilisateurs une transparence et leur permet de prendre des décisions éclairées sur la façon d’utiliser les modèles.
L’avenir des SLM
Les modèles Phi-4 représentent une avancée significative dans le développement de petits modèles de langage (SLM). Leurs capacités de raisonnement améliorées, combinées à leur petite taille et à leur efficacité, en font une alternative intéressante aux modèles de langage plus grands (LLM) dans de nombreuses applications.
À mesure que les SLM continuent de s’améliorer, ils joueront probablement un rôle de plus en plus important dans le paysage de l’IA. Leur capacité à fonctionner sur des appareils aux ressources limitées et à fournir des performances rapides et efficaces les rend bien adaptés à un large éventail d’applications, des outils pédagogiques aux chatbots locaux en passant par les appareils informatiques de périphérie.
L’engagement de Microsoft envers les principes de l’open source et le développement responsable de l’IA positionne en outre les modèles Phi-4 comme une ressource précieuse pour la communauté de l’IA. En démocratisant l’accès à ces outils puissants, Microsoft permet aux développeurs de créer des applications innovantes et percutantes qui peuvent profiter à la société dans son ensemble.
Un examen plus attentif des aspects techniques
En approfondissant les spécificités de l’architecture et de la formation de Phi-4, on découvre les techniques innovantes qui permettent à ces SLM d’atteindre des capacités de raisonnement aussi impressionnantes. La combinaison d’ensembles de données soigneusement sélectionnés, d’algorithmes d’entraînement sophistiqués et d’une concentration sur l’efficacité a abouti à une famille de modèles à la fois puissants et pratiques.
Conservation et préparation des données
Le succès de tout modèle d’apprentissage automatique dépend de la qualité et de la pertinence des données sur lesquelles il est formé. Microsoft a investi des efforts considérables dans la conservation et la préparation des ensembles de données utilisés pour former les modèles Phi-4.
- Chaînes de raisonnement du o3-mini d’OpenAI : Les modèles exploitent les chaînes de raisonnement générées par le modèle o3-mini d’OpenAI pour apprendre les étapes impliquées dans les processus de raisonnement complexes. Ces chaînes fournissent une feuille de route détaillée que les SLM doivent suivre, leur permettant de développer une compréhension plus approfondie de la logique sous-jacente.
- Problèmes mathématiques synthétiques : Le modèle Phi-4-mini-reasoning est formé sur un ensemble de données synthétiques d’un million de problèmes mathématiques générés par DeepSeek-R1. Cet ensemble de données fournit un éventail diversifié de défis mathématiques, permettant au modèle de développer de solides compétences en résolution de problèmes.
- Ensembles de données d’utilité/innocuité : Les modèles subissent une post-formation à l’aide d’ensembles de données conçus pour promouvoir l’utilité et l’innocuité. Cela permet de s’assurer que les modèles génèrent des sorties sûres et responsables.
Algorithmes d’entraînement
Les modèles Phi-4 sont entraînés à l’aide d’une combinaison d’apprentissage supervisé, d’apprentissage par renforcement et de distillation. Ces techniques fonctionnent ensemble pour optimiser les modèles pour les tâches de raisonnement et s’assurer qu’ils sont à la fois précis et efficaces.
- Fine-tuning supervisé (SFT) : SFT est utilisé pour affiner les modèles sur les chaînes de raisonnement générées par le modèle o3-mini d’OpenAI. Cela permet aux modèles d’apprendre les modèles et les relations spécifiques qui sont caractéristiques des processus de raisonnement complexes.
- Apprentissage par renforcement (RL) : RL est utilisé pour entraîner le modèle Phi-4-reasoning-plus à maximiser un signal de récompense basé sur la précision et l’efficacité de son raisonnement. Cela encourage le modèle à développer des stratégies de résolution de problèmes qui sont à la fois efficaces et efficaces sur le plan informatique.
- Distillation : La distillation est utilisée pour transférer les connaissances des modèles plus grands et plus complexes vers les plus petits modèles Phi-4. Cela permet aux SLM d’atteindre des niveaux de performance comparables à ceux de modèles beaucoup plus grands, tout en conservant leur taille compacte et leur efficacité.
Optimisation pour l’efficacité
L’un des principaux objectifs du développement des modèles Phi-4 était de les optimiser pour l’efficacité. Cela se reflète dans plusieurs aspects de leur conception et de leur formation.
- Architecture compacte : Les modèles Phi-4 sont conçus avec une architecture compacte qui minimise le nombre de paramètres requis. Cela réduit le coût de calcul de l’exécution des modèles et les rend bien adaptés au déploiement sur des appareils aux ressources limitées.
- Quantification : La quantification est utilisée pour réduire l’empreinte mémoire des modèles et améliorer leur vitesse d’inférence. Cela implique de représenter les paramètres du modèle en utilisant moins de bits, ce qui peut réduire considérablement le coût de calcul de l’exécution du modèle.
- Accélération matérielle : Les modèles Phi-4 sont optimisés pour l’accélération matérielle sur une variété de plateformes, notamment les CPU, les GPU et les NPU. Cela leur permet d’atteindre des performances maximales sur un large éventail d’appareils.
Implications pour l’avenir de l’IA
Les modèles Phi-4 représentent une avancée significative dans le développement de l’IA, avec des implications qui vont bien au-delà des applications spécifiques pour lesquelles ils sont conçus. Leur capacité à atteindre des performances élevées avec une taille et des ressources informatiques relativement faibles ouvre de nouvelles possibilités de déploiement de l’IA dans un large éventail de contextes.
Démocratisation de l’IA
Les modèles Phi-4 témoignent du fait que de puissantes capacités d’IA peuvent être atteintes sans nécessiter des ressources informatiques massives ni un accès à des ensembles de données propriétaires. Cela démocratise l’accès à l’IA, permettant aux développeurs et aux chercheurs de créer des applications innovantes, même avec des ressources limitées.
Informatique de périphérie
La petite taille et l’efficacité des modèles Phi-4 les rendent bien adaptés aux applications d’informatique de périphérie. Cela permet de déployer l’IA plus près de la source de données, ce qui réduit la latence et améliore la réactivité. L’informatique de périphérie a le potentiel de révolutionner un large éventail d’industries, de la fabrication aux soins de santé en passant par les transports.
IA personnalisée
Les modèles Phi-4 peuvent être personnalisés et adaptés pour répondre aux besoins spécifiques des utilisateurs individuels ou des organisations. Cela permet de créer des expériences d’IA personnalisées qui sont adaptées aux besoins uniques de chaque utilisateur. L’IA personnalisée a le potentiel d’améliorer la productivité, d’améliorer l’apprentissage et d’améliorer le bien-être général.
IA durable
Les modèles Phi-4 sont une alternative plus durable aux modèles de langage plus grands, nécessitant moins d’énergie et de ressources informatiques. Ceci est important pour réduire l’impact environnemental de l’IA et s’assurer qu’elle peut être déployée de manière responsable et durable.
Les modèles Microsoft Phi-4-Reasoning ne sont pas simplement une autre itération dans le monde en constante évolution de l’IA ; ils représentent un changement de paradigme. Ils démontrent que l’intelligence n’est pas uniquement une fonction de la taille et de la puissance de calcul, mais peut être atteinte grâce à une conception intelligente, une conservation minutieuse des données et des techniques de formation innovantes. À mesure que ces modèles continuent d’évoluer, ils sont sur le point de débloquer de nouvelles possibilités pour l’IA et de transformer la façon dont nous interagissons avec la technologie.