Mistral Medium 3 : Ambitions IA et Réalité

Mistral Medium 3 : Les ambitions européennes en IA face à l’écart de performance

La start-up française Mistral AI a récemment dévoilé son dernier modèle multimodal, Mistral Medium 3, suscitant une attention considérable dans l’industrie. Mistral affirme que la performance de ce modèle peut rivaliser, voire dépasser, les 90% de Claude Sonnet 3.7, tout en étant moins coûteux que DeepSeek V3, ce qui en fait un choix rentable. Cependant, les résultats des tests réels révèlent un certain écart par rapport à la promotion officielle, soulevant des questions quant à la véracité des performances du modèle.

Principaux atouts de Mistral Medium 3

Mistral a énuméré plusieurs points clés de Mistral Medium 3 dans son blog officiel :

  • Équilibre entre performance et coût : Mistral Medium 3 vise à atteindre des performances de pointe tout en réduisant les coûts à un huitième de leur niveau initial et en simplifiant le processus de déploiement, accélérant ainsi les applications d’entreprise.
  • Excellentes performances dans les scénarios d’application professionnels : Le modèle excelle dans les scénarios d’application professionnels tels que la rédaction de code et la compréhension multimodale.
  • Fonctionnalités de niveau entreprise : Mistral Medium 3 offre une gamme de fonctionnalités de niveau entreprise, notamment la prise en charge du déploiement en cloud hybride, du déploiement local et du déploiement au sein d’un VPC, de la formation post-personnalisation et de l’intégration aux outils et systèmes d’entreprise.

L’API Mistral Medium 3 est désormais disponible sur Mistral La Plateforme et Amazon Sagemaker, et sera bientôt disponible sur IBM WatsonX, NVIDIA NIM, Azure AI Foundry et Google Cloud Vertex.

Le compromis performance-coût

L’un des principaux arguments de vente de Mistral Medium 3 est sa capacité à fournir des performances de pointe tout en réduisant considérablement les coûts. Les données officielles montrent que, dans divers tests de référence, les performances de Mistral Medium 3 atteignent, voire dépassent, 90 % de celles de Claude Sonnet 3.7, mais les coûts sont considérablement réduits (0,4 USD par million de tokens pour l’entrée et 2 USD pour la sortie).

De plus, les performances de Mistral Medium 3 dépassent également celles des principaux modèles open source tels que Llama 4 Maverick et Cohere Command A. Que ce soit via l’API ou le déploiement autonome, le coût de Mistral Medium 3 est inférieur à celui de DeepSeek V3.

Mistral Medium 3 peut également être déployé sur n’importe quel cloud, y compris les environnements auto-hébergés avec quatre GPU ou plus, offrant ainsi aux entreprises une plus grande flexibilité.

La poursuite de performances optimales

Mistral affirme que l’objectif de Mistral Medium 3 est de devenir un modèle aux performances exceptionnelles, en particulier dans les tâches de codage et STEM, avec des performances qui rivalisent avec celles de concurrents plus grands et plus lents.

Le tableau fourni par Mistral indique que les performances de Mistral Medium 3 ont pratiquement dépassé Llama 4 Maverick et GPT-4o, se rapprochant des niveaux de Claude Sonnet 3.7 et DeepSeek 3.1. Cependant, ces données proviennent principalement de tests de référence universitaires et peuvent ne pas refléter pleinement les performances du modèle dans des applications réelles.

L’ajout d’évaluations humaines

Afin d’évaluer plus complètement les performances de Mistral Medium 3, Mistral a également publié les résultats d’évaluations humaines tierces. Les évaluations humaines sont plus représentatives des cas d’utilisation réels et peuvent compenser les lacunes des tests de référence universitaires.

D’après les résultats des évaluations humaines, Mistral Medium 3 excelle dans le domaine du codage et offre de meilleures performances que les autres concurrents dans tous les domaines. Cela suggère que Mistral Medium 3 peut avoir certains avantages dans les applications réelles.

Conception axée sur les applications d’entreprise

Mistral Medium 3 est supérieur aux autres modèles SOTA en termes de capacité à s’adapter aux environnements d’entreprise. Face au choix difficile pour les entreprises entre l’ajustement fin via l’API ou le déploiement autonome à partir de zéro et la personnalisation du comportement du modèle, Mistral Medium 3 offre une voie pour intégrer pleinement l’intelligence dans les systèmes d’entreprise.

Pour répondre davantage aux besoins des entreprises, Mistral a également lancé Le Chat Enterprise, un service de chatbot pour entreprises alimenté par le modèle Mistral Medium 3. Le Chat Enterprise fournit un outil de création d’agents d’intelligence artificielle et intègre les modèles de Mistral à des services tiers tels que Gmail, Google Drive et SharePoint, dans le but de résoudre les défis liés à l’IA auxquels les entreprises sont confrontées, tels que la fragmentation des outils, l’intégration de connaissances non sécurisées, les modèles rigides et le retour sur investissement lent, offrant ainsi une plateforme d’IA unifiée pour tous les travaux d’organisation.

Le Chat Enterprise prendra bientôt en charge le protocole MCP, une norme proposée par Anthropic pour connecter l’IA aux systèmes de données et aux logiciels.

Perspectives d’avenir de Mistral

Mistral a révélé dans son blog que, bien que Mistral Small et Mistral Medium aient été publiés, ils ont un « grand » projet dans les semaines à venir, à savoir Mistral Large. Ils ont déclaré que les performances de Mistral Medium, qui vient d’être publié, sont déjà bien supérieures à celles des principaux modèles open source tels que Llama 4 Maverick, et que les performances de Mistral Large sont encore plus prometteuses.

La publication de Mistral Large améliorera sans aucun doute encore la compétitivité de Mistral dans le domaine de l’IA et offrira aux utilisateurs plus de choix.

L’écart des tests réels

Bien que Mistral soit confiant dans les performances de Mistral Medium 3 et affirme qu’il dépasse 90 % de Claude Sonnet 3.7, les résultats des tests réels ont révélé certains problèmes.

Les médias et les internautes ont rapidement lancé des tests concrets sur Mistral Medium 3, mais les résultats ont été décevants. Dans l’évaluation basée sur les questions de classification du vocabulaire de la colonne Connections du New York Times, Medium 3 était en dernière position, difficile à trouver. Dans le nouveau test de 100 questions, il ne figure pas non plus parmi les modèles de premier plan.

Certains utilisateurs qui ont testé Medium 3 ont déclaré que ses capacités d’écriture sont restées les mêmes, sans amélioration significative. Cependant, dans l’évaluation LLM, il se trouve en effet sur le front de Pareto.

Les résultats des tests de Zhu Liang montrent que Mistral Medium 3 est solide en termes de codage et de génération de texte, se classant parmi les cinq premiers dans les deux évaluations.

Dans une tâche de codage simple (application Next.js TODO) :

  • Il a généré des réponses claires et concises
  • Le score était similaire à Gemini 2.5 Pro, Claude 3.5 Sonnet
  • Inférieur à DeepSeek V3 (nouveau) et GPT-4.1

Dans une tâche de codage complexe (visualisation de benchmark) :

  • A produit des résultats moyens similaires à Gemini 2.5 Pro et DeepSeek V3 (nouveau)
  • Inférieur à GPT-4.1, o3 et Claude 3.7 Sonnet

En matière d’écriture :

  • Son contenu couvrait la plupart des points clés, mais le format était incorrect
  • Le score était similaire à DeepSeek V3 (nouveau) et Claude 3.7 Sonnet
  • Inférieur à GPT-4.1 et Gemini 2.5 Pro

Le célèbre “karminski-dentiste” a constaté, après des tests concrets, que les performances de Mistral Medium 3 ne sont pas aussi puissantes que le prétend la société, et a même suggéré aux utilisateurs de ne pas le télécharger, afin de ne pas gaspiller le trafic et l’espace disque.

Conclusion

Mistral Medium 3, en tant qu’effort d’innovation dans le domaine de l’IA en Europe, recherche un équilibre entre performance et coût et est optimisé pour les applications d’entreprise. Cependant, les résultats des tests réels présentent un certain écart par rapport à la promotion officielle, ce qui indique que Mistral peut avoir exagéré la performance du modèle.

Malgré cela, Mistral Medium 3 a encore un certain potentiel, en particulier dans des domaines tels que le codage et la génération de texte. À l’avenir, Mistral devra améliorer davantage les performances du modèle et renforcer les tests d’application réels afin de gagner la confiance des utilisateurs. Dans le même temps, la publication de Mistral Large mérite également d’être attendue, car elle pourrait combler les lacunes de Mistral Medium 3 et apporter une meilleure expérience aux utilisateurs.

En bref, la publication de Mistral Medium 3 reflète l’exploration active et l’esprit d’innovation de l’Europe dans le domaine de l’IA. Bien que les performances réelles soient en deçà des attentes, Mistral mérite toujours d’être suivi et son développement futur mérite d’être attendu.