Mistral Medium 3: Ambities vs. Realiteit

Mistral Medium 3: Europese AI-ambities en de Realiteit

Het Franse start-up bedrijf Mistral AI heeft recentelijk hun nieuwste multimodale model, Mistral Medium 3, gelanceerd, wat in de industrie tot brede aandacht heeft geleid. Mistral claimt dat de prestaties van dit model 90% van die van Claude Sonnet 3.7 evenaren of zelfs overtreffen, terwijl de kosten lager zijn dan DeepSeek V3, waardoor het een keuze is met een goede prijs-kwaliteitverhouding. Echter, de daadwerkelijke testresultaten vertonen een bepaald verschil met de officiële promotie, wat discussies heeft veroorzaakt over de waarheidsgetrouwheid van de prestaties van het model.

De Kernpunten van Mistral Medium 3

Mistral heeft in hun officiële blog een aantal kernpunten van Mistral Medium 3 opgesomd:

  • Balans tussen prestaties en kosten: Mistral Medium 3 is ontworpen om topprestaties te leveren, terwijl de kosten worden verlaagd tot een achtste van de oorspronkelijke kosten, en de implementatieprocedure wordt vereenvoudigd, waardoor de toepassing in het bedrijfsleven wordt versneld.
  • Uitstekende prestaties in professionele toepassingsscenario’s: Het model presteert uitstekend in professionele toepassingsscenario’s zoals code schrijven en multimodale begrip.
  • Functies voor de zakelijke markt: Mistral Medium 3 biedt een reeks functies voor de zakelijke markt, waaronder ondersteuning voor hybride cloud-implementatie, lokale implementatie en implementatie binnen VPC, aangepaste training na de implementatie en integratie in zakelijke tools en systemen.

De Mistral Medium 3 API is nu online op Mistral La Plateforme en Amazon Sagemaker, en zal binnenkort beschikbaar zijn op IBM WatsonX, NVIDIA NIM, Azure AI Foundry en Google Cloud Vertex.

Afweging tussen prestaties en kosten

Een belangrijk verkoopargument van Mistral Medium 3 is dat het een aanzienlijke kostenverlaging realiseert terwijl het geavanceerde prestaties levert. Officiële gegevens tonen aan dat de prestaties van Mistral Medium 3 in verschillende benchmarktests 90% van die van Claude Sonnet 3.7 bereiken of zelfs overtreffen, maar de kosten zijn aanzienlijk lager (de inputkosten zijn $0,4 per miljoen tokens en de outputkosten zijn $2).

Bovendien overtreffen de prestaties van Mistral Medium 3 ook toonaangevende open-source modellen zoals Llama 4 Maverick en Cohere Command A. Of het nu gaat om API of autonome implementatie, de kosten van Mistral Medium 3 zijn lager dan die van DeepSeek V3.

Mistral Medium 3 kan ook op elke cloud worden geïmplementeerd, inclusief self-hosted omgevingen met vier of meer GPU’s, wat bedrijven meer flexibiliteit biedt.

Het Streven naar Topprestaties

Mistral beweert dat het doel van Mistral Medium 3 is om een model met topprestaties te worden, vooral uitblinkend in codeer- en STEM-taken, met prestaties die dicht in de buurt komen van grotere, langzamere concurrenten.

De door Mistral verstrekte tabel laat zien dat de prestaties van Mistral Medium 3 in principe die van Llama 4 Maverick en GPT-4o al hebben overtroffen, en het niveau van Claude Sonnet 3.7 en DeepSeek 3.1 naderen. Deze gegevens zijn echter voornamelijk afkomstig van academische benchmarktests en geven mogelijk geen volledig beeld van de prestaties van het model in praktische toepassingen.

Aanvulling van Menselijke Evaluatie

Om de prestaties van Mistral Medium 3 uitgebreider te evalueren, heeft Mistral ook de resultaten van onafhankelijke menselijke evaluaties bekendgemaakt. Menselijke evaluatie is representatiever voor real-world use cases en kan de tekortkomingen van academische benchmarktests compenseren.

Uit de resultaten van de menselijke evaluatie blijkt dat Mistral Medium 3 uitstekend presteert op het gebied van coderen en in alle aspecten betere prestaties levert dan andere concurrenten. Dit suggereert dat Mistral Medium 3 mogelijk bepaalde voordelen heeft in praktische toepassingen.

Ontwerp gericht op zakelijke toepassingen

Mistral Medium 3 presteert beter dan andere SOTA-modellen op het gebied van aanpassingsvermogen aan zakelijke omgevingen. Wanneer bedrijven voor de moeilijke keuze staan om via API’s te finetunen of modellen vanaf nul zelf te implementeren en het gedrag aan te passen, biedt Mistral Medium 3 een manier om intelligentie volledig in bedrijfssystemen te integreren.

Om nog beter aan de behoeften van bedrijven te voldoen, heeft Mistral ook Le Chat Enterprise gelanceerd, een chatbot-service voor bedrijven die wordt aangedreven door het Mistral Medium 3-model. Le Chat Enterprise biedt een tool voor het bouwen van AI-intelligente agents en integreert de modellen van Mistral met services van derden zoals Gmail, Google Drive en SharePoint, gericht op het oplossen van de AI-uitdagingen waarmee bedrijven worden geconfronteerd, zoals fragmentatie van tools, onveilige kennisintegratie, rigide modellen en trage ROI, en biedt een uniform AI-platform voor alle organisatorische taken.

Le Chat Enterprise zal binnenkort het MCP-protocol ondersteunen, de standaard die door Anthropic is voorgesteld om AI te verbinden met datasystemen en software.

De Toekomstvisie van Mistral

Mistral onthulde in de blog dat, hoewel Mistral Small en Mistral Medium al zijn uitgebracht, ze de komende weken een "groot" plan hebben, namelijk Mistral Large. Ze gaven aan dat de prestaties van de zojuist uitgebrachte Mistral Medium de toonaangevende open-source modellen zoals Llama 4 Maverick al ruimschoots overtreffen, en dat de prestaties van Mistral Large nog meer de moeite waard zijn om naar uit te kijken.

De release van Mistral Large zal ongetwijfeld het concurrentievermogen van Mistral op het gebied van AI verder vergroten en gebruikers meer keuzes bieden.

De Kloof in de Praktijk

Ondanks het feit dat Mistral vol vertrouwen is in de prestaties van Mistral Medium 3 en beweert dat het 90% van Claude Sonnet 3.7 overtreft, hebben de daadwerkelijke testresultaten enkele problemen aan het licht gebracht.

De media en netizens hebben snel praktische tests van Mistral Medium 3 uitgevoerd, maar de resultaten waren teleurstellend. In de evaluatie op basis van de woordenschatclassificatievragen van de column Connections van The New York Times stond Medium 3 onderaan, bijna niet te vinden. In de gloednieuwe evaluatie met 100 vragen stond het ook niet in de voorste rij van modellen.

Sommige gebruikers zeiden na het testen van Medium 3 dat de schrijfvaardigheid nog steeds hetzelfde is, zonder duidelijke verbetering. In de LLM-evaluatie bevindt het zich echter op de Pareto-frontlinie.

De testresultaten van Zhu Liang laten zien dat Mistral Medium 3 solide prestaties levert op het gebied van codering en tekstgeneratie, en dat het in beide evaluaties de top vijf bereikt.

In eenvoudige coderingstaken (Next.js TODO-toepassing):

  • Het genereerde beknopte en duidelijke antwoorden
  • De score was vergelijkbaar met Gemini 2.5 Pro en Claude 3.5 Sonnet
  • Minder goed dan DeepSeek V3 (nieuw) en GPT-4.1

In complexe coderingstaken (benchmark visualisatie):

  • De gegenereerde gemiddelde resultaten waren vergelijkbaar met Gemini 2.5 Pro en DeepSeek V3 (nieuw)
  • Minder goed dan GPT-4.1, o3 en Claude 3.7 Sonnet

Bij het schrijven:

  • De inhoud omvatte de meeste punten, maar de opmaak was onjuist
  • De score was vergelijkbaar met DeepSeek V3 (nieuw) en Claude 3.7 Sonnet
  • Minder goed dan GPT-4.1 en Gemini 2.5 Pro

De bekende grootheid "karminski-tandarts" ontdekte na een praktische test dat de prestaties van Mistral Medium 3 niet zo krachtig zijn als de officiële claims, en raadde gebruikers zelfs aan om het niet te downloaden om verspilling van verkeer en harde schijfruimte te voorkomen.

Conclusie

Mistral Medium 3, als een innovatieve poging op het gebied van Europese AI, zoekt een balans tussen prestaties en kosten, en is geoptimaliseerd voor zakelijke toepassingen. De daadwerkelijke testresultaten vertonen echter een bepaald verschil met de officiële promotie, wat aangeeft dat Mistral mogelijk overdreven reclame heeft gemaakt voor de prestaties van het model.

Desalniettemin heeft Mistral Medium 3 nog steeds een bepaald potentieel, vooral op het gebied van codering en tekstgeneratie. In de toekomst moet Mistral de modelprestaties verder verbeteren en de praktische toepassingstests versterken om het vertrouwen van gebruikers te winnen. Tegelijkertijd is de release van Mistral Large ook de moeite waard om naar uit te kijken, misschien kan het de tekortkomingen van Mistral Medium 3 compenseren en gebruikers een betere ervaring bieden.

Kortom, de release van Mistral Medium 3 weerspiegelt de actieve verkenning en innovatiegeest van Europa op het gebied van AI. Hoewel de daadwerkelijke prestaties niet aan de verwachtingen voldoen, verdient Mistral nog steeds aandacht, en de toekomstige ontwikkeling is de moeite waard om naar uit te kijken.