Alors que DeepSeek-R2 reste insaisissable, les plus petits modèles de Microsoft font des vagues, présentant des capacités de raisonnement impressionnantes entraînées sur un ensemble de données étonnamment petit.
L’ascension des modèles de raisonnement Phi-4
Le monde de l’IA est actuellement captivé par les modèles de raisonnement, et Microsoft a récemment introduit la famille de modèles d’inférence Phi-4. Cela comprend Phi-4-reasoning, Phi-4-reasoning-plus et Phi-4-mini-reasoning. Ce qui est particulièrement remarquable, c’est que même le plus grand de ces modèles, avec seulement 14 milliards de paramètres, peut fonctionner sans problème sur des ordinateurs portables hautes performances. De plus, le Phi-4-mini-reasoning de 3,8 milliards de paramètres surpasse le modèle distillé DeepSeek-R1 de 8 milliards de paramètres en raisonnement mathématique, soulignant la puissance des petits modèles dans les tâches d’inférence.
Au lieu d’attendre la sortie du modèle de raisonnement DeepSeek-R2 de deuxième génération en avril, Microsoft a dévoilé une nouvelle série de modèles de raisonnement Phi-4. Ces modèles présentent des performances exceptionnelles en raisonnement mathématique, surpassant le modèle distillé DeepSeek-R1, bien que Phi-4-Mini-Reasoning ait une échelle de paramètres plus petite.
Ahmed Awadallah, Partner Research Manager chez Microsoft AI Frontiers laboratory, a décrit le Phi-4-reasoning et résumé les caractéristiques du nouveau modèle.
- Le modèle est entraîné avec un réglage fin supervisé (en utilisant un ensemble de données d’exemples de raisonnement soigneusement sélectionnés) et un apprentissage par renforcement.
- Il fonctionne bien dans les benchmarks d’inférence et peut être comparable à des modèles de pointe plus grands tels que DeepSeek R1.
- Il continue à bien performer sur de nouveaux tests (tels que AIME 2025, HMMT)
- La capacité de raisonnement a une forte capacité de transfert/généralisation, même après seulement un réglage fin supervisé, il peut s’adapter à de nouvelles tâches (telles que k-SAT, la résolution d’équations mathématiques, la planification, etc.)
- Conserve et améliore considérablement les capacités générales (telles que la compréhension et l’exécution des instructions)
Il a déclaré que Phi-4 a encore plusieurs aspects qui doivent être améliorés, en particulier en termes de longueur de contexte, de capacité d’encodage et d’intégration d’outils.
En plus du modèle lui-même, Microsoft a également partagé un rapport technique détaillé qui fournit une analyse approfondie du processus de formation et d’évaluation du modèle.
Sur X, Dimitris Papailiopoulos, Principal Researcher chez Microsoft Research AI Frontiers laboratory et professeur associé à l’University of Wisconsin, a présenté plus d’informations sur le modèle de raisonnement Phi-4.
Il pense que Phi-4-reasoning a complètement atteint le niveau de diplômé et peut être exécuté sur un PC local.
Cela a dépassé ses attentes pour le développement de l’IA.
Le nouveau modèle a peu de paramètres mais de fortes performances.
Une centrale de performance
Malgré sa taille modeste, ce modèle excelle dans les benchmarks mathématiques tels que AIME, HMMT et OmniMath. Il fonctionne au même niveau ou surpasse les modèles open-weight plus grands tels que QwQ-32B, R1-70B et R1, et les modèles fermés tels que o1-mini et sonnet 3.7.
Ce modèle est de petite taille et convient pour fonctionner sans problème sur des ordinateurs portables hautes performances.
Dans le même temps, il est capable de résoudre de nombreuses énigmes que même les modèles non-raisonnement plus grands et certains modèles de raisonnement ne peuvent pas résoudre.
Il a également passé le test DimitrisEval !
Étonnamment, le raisonnement semble être une ‘méta-compétence’ vraiment transférable qui peut être apprise même par un réglage fin supervisé SFT !
Preuve 1 : Même sans entraînement spécialisé sur des tâches de non-raisonnement, les chercheurs ont toujours observé des améliorations significatives des performances sur IFEval, FlenQA et PhiBench interne (une augmentation de plus de 10 points !).
De plus, il y a très peu de données liées au codage pendant la phase SFT (et aucune pendant la phase RL), mais le modèle fonctionne toujours bien à cet égard.
De plus, Dimitris Papailiopoulos a révélé que la programmation est un objectif clé pour les versions suivantes.
Preuve 2 : Dans le cas de certains problèmes spécifiques sur lesquels il n’a pas été explicitement entraîné (que ce soit la phase SFT ou RL), tels que le problème du voyageur de commerce, la résolution de labyrinthes, k-SAT, la planification contrainte, etc., le modèle fonctionne très bien dans ces tâches !
Et Phi-4 (et même GPT-4) ne peuvent pas faire cela.
Cela illustre pleinement que la capacité de raisonnement peut en effet être transférée en tant que compétence !
Après un cycle très court d’apprentissage par renforcement (en utilisant seulement 6 000 exemples, contre 1,4 million d’exemples pour SFT), le mécanisme de raisonnement du modèle semble être ‘verrouillé’.
Cela a particulièrement choqué Dimitris Papailiopoulos.
Il a l’impression que l’apprentissage par renforcement a enseigné au modèle à raisonner dans ‘sa propre langue’, augmentant la précision d’environ 10 % sur AIME et HMMT, et augmentant la longueur moyenne des réponses de 50 % dans les problèmes difficiles.
L’apprentissage par renforcement est vraiment efficace !!
Le phénomène du mécanisme de raisonnement étant ‘verrouillé’ rend généralement la distribution de sortie du modèle plus concentrée et la précision est également plus élevée.
Le fait que l’apprentissage par renforcement puisse améliorer considérablement les capacités du modèle a également été reflété dans des recherches antérieures de Microsoft.
Dans la phase d’apprentissage par renforcement, le nouveau modèle n’a même pas été spécialement optimisé pour les données : 6 000 questions ont été simplement sélectionnées au hasard dans une sélection plus large d’ensembles de données.
Alors pourquoi Microsoft n’a-t-il pas effectué plus d’apprentissage par renforcement ?
Parce que le modèle a généré des réponses à des questions qui dépassaient la longueur de contexte de 32k (la longueur sur laquelle le modèle n’a pas été entraîné), ils n’ont pu que la tronquer.
De plus, avec l’aide de calculs de raisonnement parallèles (tels que Maj@N), le nouveau modèle de raisonnement a presque atteint la limite de performance sur AIME 2025, et a même dépassé la performance pass@1 de son modèle enseignant (o3-mini).
Et a terminé toute la collecte de données avant février 2025, et donc HMMT.
Dans d’autres tâches, les chercheurs ont également observé le phénomène de ‘dépasser l’enseignant’, telles que les tâches OmniMath et Calendar Planning.
La conception des prompts dans la phase SFT, couplée au processus d’apprentissage par renforcement ultérieur, semble avoir donné au modèle la capacité de ‘s’auto-améliorer’, dépassant la portée des connaissances fournies par le modèle enseignant.
Dans la figure ci-dessous, le magenta représente o3-mini et le vert représente Phi.
Un phénomène intéressant est que : les longs textes avec des longueurs de réponse dans les 25 % supérieurs sont souvent fortement corrélés avec des réponses incorrectes !
Cependant, d’un autre côté, dans la plupart des évaluations, la longueur moyenne globale des réponses est plus longue et la précision est plus élevée.
En d’autres termes, l’augmentation des ressources de calcul pendant les tests aide, mais le modèle est également susceptible de ‘divaguer’ lorsqu’il est ‘coincé’.
Concernant les limites du modèle, il y a aussi certaines choses à prendre en compte :
- La capacité à gérer des longueurs de contexte dépassant 32k n’a pas été entièrement étendue ou testée.
- Le modèle est sujet à la ‘sur-réflexion’ lorsqu’il s’agit de problèmes simples, et peut sembler trop verbeux dans l’auto-évaluation.
- La capacité des dialogues multi-tours n’a pas été largement testée.
Bien sûr, il y a plus de ‘points aveugles’ à découvrir, mais dans l’ensemble, l’équipe de recherche estime qu’elle est sur la bonne voie !
Surprises de formation
Suriya Gunasekar, Principal Research Manager chez Microsoft Research et appartenant à l’équipe ‘AGI Physics’ responsable du développement de la série de modèles Phi, s’est concentrée sur la présentation des principes fondamentaux du travail.
Cette fois, l’équipe Microsoft Phi s’est concentrée sur la phase de post-entraînement et a lancé Phi-4-reasoning (en utilisant uniquement SFT) et Phi-4-reasoning-plus (SFT + une petite quantité de RL).
Les deux sont des modèles 14B qui ont démontré de fortes capacités dans les benchmarks de raisonnement et de tâches générales.
Le cœur de ce travail réside dans la sélection des prompts et l’exploration expérimentale des compétences de raisonnement transférables et auto-améliorantes.
Il y a eu deux découvertes surprenantes au cours du processus de formation :
Premièrement, tant que quelques trajectoires de raisonnement à longue chaîne (CoT) entraînées dans le domaine sont utilisées, Phi-4 peut obtenir des améliorations significatives des performances dans de multiples tâches telles que la planification, la résolution de labyrinthes (sans entrée visuelle), IFEva, FlenQA, KITAB (question answering basé sur la recherche), et PhiBench interne ;
Deuxièmement, même si seulement 6 000 exemples mathématiques sont utilisés pour un entraînement RL minimal, les performances du modèle sont considérablement améliorées dans certains benchmarks, avec l’amélioration la plus élevée atteignant 10 % (mais l’utilisation de tokens a augmenté d’environ 1,5 fois), et le transfert inter-domaines des compétences a également été observé pendant la phase RL.
En d’autres termes, par rapport aux principaux concurrents tels que OpenAI et Google, la série de raisonnement Microsoft Phi-4 démontre de nouvelles possibilités : les petits modèles peuvent égaler ou même surpasser les grands modèles dans des tâches spécifiques en utilisant des données de haute qualité et des stratégies de formation affinées.
Méthodes de base
Le modèle de raisonnement Phi-4-reasoning a 14 milliards de paramètres et fonctionne fortement dans les tâches de raisonnement complexes.
Le modèle est basé sur Phi-4 pour l’entraînement par réglage fin supervisé, en utilisant un ensemble soigneusement sélectionné de prompts ‘enseignables’ qui ont à la fois une complexité et une diversité appropriées ; les exemples de raisonnement générés par o3-mini sont utilisés comme références pendant le processus de formation.
Phi-4-reasoning peut générer des chaînes de raisonnement détaillées et utiliser pleinement les ressources de calcul pendant le processus de raisonnement.
Sur cette base, Microsoft a développé davantage Phi-4-reasoning-plus.
Il est amélioré sur la base du modèle original grâce à une petite phase d’apprentissage par renforcement basé sur les résultats, et génère des chaînes de raisonnement plus longues et plus puissantes.
La recherche montre qu’un ensemble de données SFT bien conçu peut améliorer considérablement l’effet des modèles de langage de raisonnement, et l’apprentissage par renforcement (RL) peut encore amplifier cette amélioration sur cette base.
Dans les expériences SFT, même dans ce cadre de génération relativement simple, une sélection minutieuse et un filtrage strict des problèmes de départ sont toujours essentiels au succès du modèle.
Ils ont soumis l’ensemble des données d’entraînement à un processus de décontamination strict pour s’assurer qu’il ne contient pas de données qui se chevauchent fortement avec des questions de raisonnement ou de benchmark général largement utilisées, y compris certains benchmarks non mentionnés dans ce rapport.
La liste complète des tests de benchmark qui ont été décontaminés est la suivante :
- Mathématiques et Raisonnement : AIME-2024, MATH, GPQA, OmniMATH, GSM8k
- Programmation : LiveCodeBench, Codeforces, HumanEval, MBPP
- Question Answering et Connaissances Générales : SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
- Autres Tâches d’Évaluation : SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench
Grâce au Supervised Finetuning (SFT) du modèle Phi-4 avec 14 milliards de paramètres, les chercheurs ont obtenu Phi-4-reasoning, sans aucun apprentissage par renforcement avant cela.
L’objectif du SFT est d’affiner la capacité de raisonnement structuré contenue dans le modèle de base.
L’architecture de Phi-4-reasoning est la même que celle du modèle Phi-4, mais avec deux modifications clés :
- Reasoning tokens : Les deux tokens d’espace réservé dans le modèle de base sont réutilisés comme et tokens, qui sont utilisés pour marquer le début et la fin d’un processus de raisonnement (‘thinking’).
- Increased Token Length : La longueur maximale de token initialement prise en charge par le modèle de base (Phi-4)était de 16K. Afin de prendre en charge des tokens de raisonnement supplémentaires, la fréquence de base de RoPE a été doublée, et le modèle a été entraîné à une longueur maximale de token de 32K.
Ils ont utilisé une méthode synthétique pour générer un grand nombre d’exemples de raisonnement en chaîne de pensée.
L’ensemble de données SFT utilisé contient plus de 1,4 million de paires prompt-réponse, totalisant 8,3 milliards de tokens uniques, couvrant des domaines de raisonnement tels que les mathématiques et la programmation, ainsi que des données d’alignement pour une IA sûre et responsable.
La figure 4a montre les changements dans les indicateurs clés tout au long du processus d’itération SFT.
Tôt dans la formation, le modèle a commencé à utiliser des tokens de ‘thinking’ explicites, ce qui indique que le modèle a rapidement appris ce format structuré peu profond.
Cependant, comme le montre la figure 4a, l’efficacité du module de chaîne de pensée et la capacité de raisonnement du modèle s’améliorent tout au long du processus de formation, ce qui indique que le modèle ne se contente pas de copier le format, mais apprend réellement les compétences de raisonnement.
Fait intéressant, contrairement à l’apprentissage par renforcement, les chercheurs n’ont pas constaté d’augmentation de la longueur de la réponse pendant le processus SFT.
En fait, comme le montre la figure 4b, la longueur moyenne de la réponse a légèrement diminué.
Cela montre qu’au fur et à mesure que la formation progresse, le modèle apprend à utiliser son budget de tokens plus efficacement.
Afin d’évaluer systématiquement différentes stratégies de formation, ils ont utilisé un benchmark fixe - AIME 2024 et GPQA diamond - comme indicateur de progrès.
Dans l’ensemble, la méthode expérimentale peut être divisée en deux étapes : l’exploration et la mise à l’échelle.
Dans la phase d’exploration, les chercheurs ont utilisé des cycles de formation plus courts et des sources de données et des domaines limités pour itérer rapidement et extraire des méthodes de formation robustes.
Dans la phase d’expansion ultérieure, les chercheurs ont résumé les résultats des premières expériences de réduction des risques et ont finalisé les paramètres SFT.
La figure 5 résume ces progrès, mettant en évidence les expériences d’ablation pour plusieurs choix de conception clés.
La figure 5 montre un aperçu de haut niveau du cycle expérimental de réglage fin supervisé (SFT) de Phi-4-reasoning, comprenant les phases d’exploration et d’expansion, en utilisant quelques exemples d’expériences pour représenter. Chaque groupe de points représente les résultats expérimentaux d’un choix de conception de formation spécifique.
La figure 7 montre les principales conclusions du modèle Phi-4-reasoning-plus pendant le processus de formation GRPO.
À partir du modèle de base de réglage fin supervisé (SFT) Phi-4-reasoning, seulement 90 étapes de formation GRPO ont augmenté les performances AIME de plus de 10 % (figure 7a).
Continuer à augmenter le nombre d’étapes de formation n’a pas apporté d’avantages supplémentaires, ce qui indique que le potentiel d’un modèle SFT fort est proche du plafond de performance. Il convient de noter que la sortie dans la formation GRPO est limitée à moins de 31k tokens, ce qui restreint objectivement l’espace d’optimisation de GRPO.
Comme le montre la figure 7c, la longueur de la réponse est fortement corrélée avec les performances AIME, tandis que la corrélation entre le score de récompense et le score AIME est faible. Cet effet de croissance de la longueur de la réponse est l’effet attendu de la formation GRPO - le modèle améliore sa capacité de raisonnement en augmentant le ‘temps de réflexion’.
La figure 7d révèle en outre qu’en raison de la conception du modèle de récompense, la longueur de génération des réponses incorrectes croît beaucoup plus rapidement que les réponses correctes (lorsque la réponse actuelle du modèle est incorrecte, le système l’encouragera à réfléchir plus longtemps).
En fait, effectuer un échantillonnage de rejet basé uniquement sur la longueur de la réponse (en particulier les longues réponses qui dépassent considérablement la médiane) peut encore améliorer les performances GRPO.
Comme le montre la figure 7d, la tendance à la croissance des réponses plus courtes (longueur située dans le quartile inférieur de 25 %) pendant le processus de formation est similaire à la longueur moyenne des réponses correctes, tandis que la longueur des réponses incorrectes est plus proche du quartile supérieur de 75 % de la longueur globale de la réponse.
Ce phénomène de différenciation indique que l’échantillonnage de rejet basé sur la longueur peut améliorer l’efficacité du modèle en supprimant les sorties incorrectes trop longues.