Mistral Medium 3 : Le nouveau prodige européen de l’IA et le contraste avec ses performances réelles
La start-up française Mistral AI a récemment dévoilé son dernier modèle multimodal, Mistral Medium 3, en affirmant qu’il rivalisait avec le puissant Claude Sonnet 3.7, tout en étant moins coûteux que DeepSeek V3. Cette annonce a immédiatement suscité un vif intérêt dans la communauté technologique. Cependant, les utilisateurs, après des tests pratiques, ont constaté un écart important entre les performances réelles du modèle et les affirmations officielles, certains suggérant même de ne pas perdre de temps et de ressources à le télécharger.
Les affirmations officielles concernant Mistral Medium 3
Mistral AI a souligné plusieurs points clés dans son blog officiel concernant Mistral Medium 3 :
- Équilibre entre performance et coût : Mistral Medium 3 vise à offrir des performances de pointe tout en réduisant les coûts de huit fois, accélérant ainsi les applications d’entreprise.
- Avantages dans les cas d’utilisation professionnels : Le modèle excelle dans des domaines spécialisés tels que la programmation et la compréhension multimodale.
- Fonctionnalités de niveau entreprise : Mistral Medium 3 propose un éventail de fonctionnalités d’entreprise, notamment la prise en charge du déploiement en cloud hybride, du déploiement local et du déploiement au sein de VPC, ainsi que la formation post-personnalisation et l’intégration aux outils et systèmes d’entreprise.
L’API Mistral Medium 3 est déjà disponible sur Mistral La Plateforme et Amazon Sagemaker, et devrait bientôt être disponible sur IBM WatsonX, NVIDIA NIM, Azure AI Foundry et Google Cloud Vertex.
Comparaison des indicateurs de performance
Mistral AI a affirmé que dans divers tests de référence, Mistral Medium 3 atteignait ou même dépassait 90 % des performances de Claude Sonnet 3.7, tout en étant considérablement moins coûteux. Plus précisément, le coût d’entrée de Mistral Medium 3 est de 0,4 dollar par million de tokens, et le coût de sortie est de 2 dollars.
De plus, les performances de Mistral Medium 3 dépasseraient celles de Llama 4 Maverick et Cohere Command A, entre autres modèles open source de premier plan. Que ce soit via l’API ou le déploiement autonome, le coût de Mistral Medium 3 est inférieur à celui de DeepSeek V3. Le modèle peut également être déployé sur n’importe quel cloud, y compris les environnements auto-hébergés avec quatre GPU ou plus.
Axé sur les applications de niveau entreprise
Mistral AI a souligné que l’objectif de Mistral Medium 3 est de devenir un modèle de premier plan, particulièrement performant dans les tâches de codage et STEM, rivalisant avec les concurrents plus grands et plus lents.
Les données officielles publiées montrent que les performances de Mistral Medium 3 dépassent généralement Llama 4 Maverick et GPT-4o, se rapprochant des niveaux de Claude Sonnet 3.7 et DeepSeek 3.1.
Pour valider davantage les performances du modèle, Mistral AI a également publié les résultats d’évaluations humaines tierces, qui sont plus représentatives des cas d’utilisation réels. Les résultats montrent que Mistral Medium 3 excelle dans le domaine du codage et offre de meilleures performances que les autres concurrents dans tous les aspects.
Mistral Medium 3 surpasse également les autres modèles SOTA en termes de capacité à s’adapter aux environnements d’entreprise. Il offre aux entreprises un moyen d’intégrer pleinement l’intelligence dans leurs systèmes, en résolvant les problèmes d’émiettement des outils, d’intégration de connaissances non sécurisées, de modèles rigides et de retour sur investissement lent.
Le Chat Enterprise
Mistral AI a également lancé Le Chat Enterprise, un service de chatbot destiné aux entreprises, alimenté par le modèle Mistral Medium 3. Il fournit un outil de création d’agents intelligents IA et intègre les modèles de Mistral à des services tiers tels que Gmail, Google Drive et SharePoint.
Le Chat Enterprise vise à résoudre les défis auxquels les entreprises sont confrontées en matière d’IA, tels que la fragmentation des outils, l’intégration de connaissances non sécurisées, les modèles rigides et le retour sur investissement lent, en fournissant une plateforme d’IA unifiée pour toutes les activités organisationnelles.
Le Chat Enterprise prendra bientôt en charge le protocole MCP, une norme proposée par Anthropic pour connecter l’IA aux systèmes de données et aux logiciels.
Perspectives pour Mistral Large
Mistral AI a également révélé dans son blog que bien que Mistral Small et Mistral Medium aient déjà été publiés, ils avaient un “grand” projet pour les semaines à venir, à savoir Mistral Large. Ils ont déclaré que les performances de Mistral Medium, qui venait d’être publié, dépassaient déjà largement les meilleurs modèles open source tels que Llama 4 Maverick, et que les performances de Mistral Large étaient encore plus prometteuses.
La réalité des tests utilisateurs
Cependant, après que Mistral AI ait largement fait la promotion des puissantes performances de Mistral Medium 3, les médias et les utilisateurs ont rapidement lancé des tests pratiques, et les résultats ont été décevants.
L’écart des tests de performance
Dans l’évaluation basée sur les questions de classification de vocabulaire de la rubrique Connections du New York Times, les performances de Mistral Medium 3 ont été décevantes, il était presque impossible de le trouver. Dans la nouvelle évaluation de 100 questions, il n’était pas non plus en tête de liste des modèles.
Certains utilisateurs ont déclaré après les tests que les capacités d’écriture de Mistral Medium 3 ne montraient pas d’amélioration significative. Cependant, dans l’évaluation LLM, il se trouvait en fait à la frontière de Pareto.
Les tests de Zhu Liang ont révélé que Mistral Medium 3 affichait des performances solides en matière de programmation et de génération de texte, se classant parmi les cinq premiers dans les deux évaluations.
Performance dans les tâches de codage
Dans une tâche de codage simple (application Next.js TODO), Mistral Medium 3 a généré des réponses claires et concises, avec des notes similaires à celles de Gemini 2.5 Pro et Claude 3.5 Sonnet, mais inférieures à celles de DeepSeek V3 (nouveau) et GPT-4.1.
Dans une tâche de codage complexe (visualisation des tests de référence), les résultats moyens produits par Mistral Medium 3 étaient similaires à ceux de Gemini 2.5 Pro et DeepSeek V3 (nouveau), mais inférieurs à ceux de GPT-4.1, o3 et Claude 3.7 Sonnet.
Évaluation des compétences en écriture
En termes d’écriture, Mistral Medium 3 a couvert la plupart des points essentiels, mais le format était incorrect, avec des notes similaires à DeepSeek V3 (nouveau) et Claude 3.7 Sonnet, mais inférieures à GPT-4.1 et Gemini 2.5 Pro.
La personnalité connue “karminski-dentiste” a également déclaré après des tests pratiques que les performances de Mistral Medium 3 n’étaient pas aussi fortes que ce que les fonctionnaires avaient vanté, suggérant aux utilisateurs de ne pas le télécharger pour éviter de gaspiller du trafic et de l’espace disque.
Comparaison et réflexion
Le cas de Mistral Medium 3 nous rappelle une fois de plus que lors de l’évaluation des performances des modèles d’IA, nous ne devons pas seulement nous fier aux déclarations officielles et aux résultats des tests de référence, mais également accorder de l’importance à l’expérience réelle des utilisateurs et aux évaluations de tiers.
Les déclarations officielles ont tendance à présenter sélectivement les avantages du modèle, tout en ignorant ses lacunes. Bien que les tests de référence puissent fournir une certaine valeur de référence, ils ne peuvent pas refléter pleinement les performances du modèle dans le monde réel. L’expérience réelle des utilisateurs et les évaluations de tiers sont plus objectives et complètes, et peuvent nous aider à mieux comprendre les avantages et les inconvénients du modèle.
De plus, les performances des modèles d’IA sont également affectées par divers facteurs, notamment les données d’entraînement, l’architecture du modèle et les algorithmes d’optimisation. Différents modèles peuvent présenter différents avantages et inconvénients dans différentes tâches. Par conséquent, lors du choix d’un modèle d’IA, il est nécessaire de prendre en compte de manière globale les scénarios d’application et les besoins spécifiques.
L’énorme contraste entre la publication de Mistral Medium 3 et les résultats des tests utilisateurs a également suscité une discussion sur les normes d’évaluation des modèles d’IA. Comment établir un système d’évaluation des modèles d’IA plus scientifique, objectif et complet est une question qui mérite d’être explorée en profondeur.
Impact sur l’industrie
L’incident Mistral Medium 3 a également eu un certain impact sur l’ensemble de l’industrie de l’IA. D’une part, il rappelle aux entreprises d’IA de prêter plus d’attention à l’expérience utilisateur et d’éviter la sur-promotion et la publicité mensongère. D’autre part, il a également incité les praticiens du domaine de l’IA à accorder plus d’attention à la formulation et à l’amélioration des normes d’évaluation des modèles d’IA.
À l’avenir, avec le développement continu de la technologie de l’IA, les performances des modèles d’IA continueront de s’améliorer et les scénarios d’application continueront de s’étendre. Nous devons aborder la technologie de l’IA avec une attitude plus rationnelle et objective, en reconnaissant à la fois son énorme potentiel et ses limites. Ce n’est qu’ainsi que nous pourrons mieux utiliser la technologie de l’IA pour créer de la valeur pour la société humaine.
En résumé, le cas de Mistral Medium 3 est un avertissement, nous rappelant de faire preuve d’esprit critique lors de l’évaluation des modèles d’IA, de ne pas croire aveuglément les déclarations officielles, mais de combiner l’expérience pratique et les évaluations de tiers pour prendre des décisions rationnelles.