De Franse startup Mistral AI heeft onlangs zijn nieuwste multimodale model Mistral Medium 3 aangekondigd, waarbij werd beweerd dat de prestaties vergelijkbaar zouden zijn met die van de krachtige Claude Sonnet 3.7, maar dan tegen lagere kosten dan DeepSeek V3. Dit nieuws trok onmiddellijk de aandacht van de tech-gemeenschap. Gebruikers die het model echter in de praktijk testten, ontdekten dat de prestaties aanzienlijk verschilden van de officiële beweringen. Sommigen suggereerden zelfs dat gebruikers hun tijd en middelen niet moesten verspillen aan het downloaden ervan.
Officiële Beweringen van Mistral Medium 3
Mistral AI benadrukte in haar officiële blog verschillende belangrijke kenmerken van Mistral Medium 3:
- Evenwicht tussen Prestaties en Kosten: Mistral Medium 3 is ontworpen om topprestaties te leveren, terwijl de kosten met een factor acht worden verlaagd, waardoor bedrijfstoepassingen worden versneld.
- Voordelen in Professionele Toepassingen: Het model presteert uitstekend in professionele gebieden zoals code schrijven en multimodale begrip.
- Functionaliteiten op Bedrijfsniveau: Mistral Medium 3 biedt een reeks functionaliteiten op bedrijfsniveau, waaronder ondersteuning voor hybride cloud-implementaties, lokale implementaties en implementaties binnen VPC’s, evenals aangepaste natraining en integratie in zakelijke tools en systemen.
De Mistral Medium 3 API is al live op Mistral La Plateforme en Amazon Sagemaker en zal binnenkort beschikbaar zijn op IBM WatsonX, NVIDIA NIM, Azure AI Foundry en Google Cloud Vertex.
Vergelijking van Prestatie-indicatoren
Mistral AI beweerde dat Mistral Medium 3 in verschillende benchmarktests 90% van de prestaties van Claude Sonnet 3.7 bereikte of zelfs overtrof, maar tegen aanzienlijk lagere kosten. Concreet bedragen de inputkosten voor Mistral Medium 3 $0,4 per miljoen tokens, en de outputkosten $2.
Daarnaast zouden de prestaties van Mistral Medium 3 die van toonaangevende open-source modellen zoals Llama 4 Maverick en Cohere Command A overtreffen. Of het nu via API of autonome implementatie is, de kosten van Mistral Medium 3 zouden lager zijn dan die van DeepSeek V3. Het model kan ook op elke cloud worden geïmplementeerd, inclusief self-hosting omgevingen met vier of meer GPU’s.
Focus op Toepassingen op Bedrijfsniveau
Mistral AI benadrukte dat het doel van Mistral Medium 3 is om een topmodel te zijn, vooral in het coderen en in STEM-taken, en dat het qua prestaties dicht in de buurt komt van grotere, langzamere concurrenten.
Officiële gegevens tonen aan dat Mistral Medium 3 in principe Llama 4 Maverick en GPT-4o overtreft en het niveau van Claude Sonnet 3.7 en DeepSeek 3.1 benadert.
Om de prestaties van het model verder te valideren, publiceerde Mistral AI ook de resultaten van externe menselijke evaluaties, die meer representatief zijn voor real-world use-cases. De resultaten laten zien dat Mistral Medium 3 uitstekend presteert op het gebied van codering en in alle aspecten betere prestaties levert dan andere concurrenten.
Mistral Medium 3 presteert ook beter dan andere SOTA-modellen wat betreft het aanpassen aan bedrijfsomgevingen. Het biedt bedrijven een manier om intelligentie volledig in hun systemen te integreren, waardoor problemen met API-afstemming en modelaanpassing worden opgelost.
Le Chat Enterprise
Mistral AI introduceerde ook Le Chat Enterprise, een chatbot-service voor bedrijven die wordt aangedreven door het Mistral Medium 3-model. Het biedt een tool voor het bouwen van AI-agenten en integreert Mistral’s modellen met diensten van derden, zoals Gmail, Google Drive en SharePoint.
Le Chat Enterprise is ontworpen om de AI-uitdagingen aan te pakken waarmee bedrijven worden geconfronteerd, zoals toolfragmentatie, onveilige kennisintegratie, starre modellen en trage rendementen, en biedt een uniform AI-platform voor alle organisatorische taken.
Le Chat Enterprise zal binnenkort het MCP-protocol ondersteunen, een standaard die is voorgesteld door Anthropic om AI te verbinden met datasystemen en software.
Vooruitzichten voor Mistral Large
Mistral AI onthulde ook in haar blog dat, hoewel Mistral Small en Mistral Medium al zijn uitgebracht, ze de komende weken een “groot” plan hebben, namelijk Mistral Large. Ze gaven aan dat de zojuist uitgebrachte Mistral Medium qua prestaties al veel beter is dan toonaangevende open-source modellen zoals Llama 4 Maverick, en dat de prestaties van Mistral Large nog veelbelovender zijn.
Realiteit Gebaseerd op Gebruikerstests
Na de grootschalige publiciteit van Mistral AI over de krachtige prestaties van Mistral Medium 3, begonnen media en gebruikers snel met praktijktests, met verbluffende resultaten.
Prestatieverschil
In de evaluatie op basis van de woordenschatcategorisatie vragen van de “Connections” rubriek van de New York Times, waren de prestaties van Mistral Medium 3 teleurstellend, en was het model nauwelijks te vinden. In de nieuwe evaluatie van 100 vragen staat het ook niet aan de top van de modellen.
Sommige gebruikers gaven na tests aan dat de schrijfvaardigheid van Mistral Medium 3 geen duidelijke vooruitgang heeft geboekt. In de LLM-evaluatie bevindt het zich echter in de Pareto-frontlinie.
De test van Zhu Liang wees uit dat Mistral Medium 3 solide prestaties levert op het gebied van code schrijven en tekstgeneratie, en dat het in beide evaluaties tot de top vijf behoort.
Prestaties in Coderingstaken
In de eenvoudige coderingstaak (Next.js TODO-applicatie) genereerde Mistral Medium 3 beknopte antwoorden, met scores die vergelijkbaar waren met Gemini 2.5 Pro en Claude 3.5 Sonnet, maar minder goed dan DeepSeek V3 (nieuw) en GPT-4.1.
In de complexe coderingstaak (benchmark visualisatie) produceerde Mistral Medium 3 gemiddelde resultaten die vergelijkbaar waren met Gemini 2.5 Pro en DeepSeek V3 (nieuw), maar minder goed dan GPT-4.1, o3 en Claude 3.7 Sonnet.
Evaluatie van Schrijfvaardigheid
Op het gebied van schrijven dekte Mistral Medium 3 de meeste belangrijke punten, maar de opmaak was onjuist, met scores die vergelijkbaar waren met DeepSeek V3 (nieuw) en Claude 3.7 Sonnet, maar minder goed dan GPT-4.1 en Gemini 2.5 Pro.
De bekende persoonlijkheid “karminski-tandarts” gaf na praktijktests ook aan dat de prestaties van Mistral Medium 3 niet zo sterk zijn als officieel wordt beweerd, en adviseerde gebruikers om het niet te downloaden om verspilling van bandbreedte en schijfruimte te voorkomen.
Vergelijking en Reflectie
De casus van Mistral Medium 3 herinnert ons er nogmaals aan dat we bij het beoordelen van de prestaties van AI-modellen niet alleen moeten vertrouwen op officiële beweringen en benchmarkresultaten, maar ook aandacht moeten besteden aan de praktijkervaringen van gebruikers en evaluaties van derden.
Officiële beweringen laten vaak selectief de sterke punten van het model zien en negeren de tekortkomingen ervan. Hoewel benchmarks een bepaalde referentiewaarde kunnen bieden, geven ze niet volledig de prestaties van het model in de echte wereld weer. De praktijkervaringen van gebruikers en evaluaties van derden zijn objectiever en vollediger en kunnen ons helpen om de sterke en zwakke punten van het model nauwkeuriger te begrijpen.
Daarnaast worden de prestaties van AI-modellen beïnvloed door verschillende factoren, waaronder trainingsdata, modelarchitectuur, optimalisatiealgoritmen, enz. Verschillende modellen kunnen verschillende sterke en zwakke punten vertonen bij verschillende taken. Daarom is het bij het kiezen van een AI-model noodzakelijk om een alomvattende afweging te maken op basis van de specifieke toepassingsscenario’s en behoeften.
Het enorme contrast tussen de release van Mistral Medium 3 en de resultaten van gebruikerstests heeft ook een discussie op gang gebracht over de evaluatiestandaarden voor AI-modellen. Hoe een meer wetenschappelijk, objectief en alomvattend AI-modelevaluatiesysteem kan worden opgezet, is een vraag die diepgaand onderzoek verdient.
Impact op de Industrie
De gebeurtenis met Mistral Medium 3 heeft ook een bepaalde impact gehad op de gehele AI-industrie. Enerzijds herinnert het AI-bedrijven eraan om meer aandacht te besteden aan de gebruikerservaring en overmatige en valse beweringen te vermijden. Anderzijds heeft het ook de beoefenaars op het gebied van AI ertoe aangezet om meer aandacht te besteden aan de formulering en verbetering van de evaluatiestandaarden voor AI-modellen.
In de toekomst, naarmate de AI-technologie zich blijft ontwikkelen, zullen de prestaties van AI-modellen voortdurend verbeteren en zullen de toepassingsscenario’s zich blijven uitbreiden. We moeten AI-technologie met een meer rationele en objectieve houding benaderen, zowel het enorme potentieel ervan erkennen als de beperkingen ervan. Alleen op deze manier kunnen we AI-technologie beter gebruiken om waarde te creëren voor de menselijke samenleving.
Kortom, de casus van Mistral Medium 3 is een waarschuwing, die ons eraan herinnert om een kritische denkwijze te behouden bij het beoordelen van AI-modellen, niet blindelings op officiële beweringen te vertrouwen, maar praktijkervaringen en evaluaties van derden te combineren om een rationeel oordeel te vellen.
Verbetering van Mistral Medium 3
Ondanks de initial kritiek, is het belangrijk op te merken dat AI-modellen constant in ontwikkeling zijn. Mistral AI heeft waarschijnlijk al teams aan het werk om de zwakke punten van Medium 3 aan te pakken en de prestaties te verbeteren. Toekomstige updates kunnen wellicht de kloof tussen de initiële belofte en de werkelijke resultaten verkleinen. Dit benadrukt het belang van continue evaluatie en monitoring van AI-modellen, zelfs na de initiële release. Het is mogelijk dat over een paar maanden de situatie compleet anders is, en Mistral Medium 3 wel aan de verwachtingen voldoet.
Open Source Alternatieven
De teleurstelling rondom Mistral Medium 3 heeft de schijnwerpers ook gericht op open source alternatieven. Modellen zoals Llama 3 en andere community-gedreven projecten bieden transparantie en de mogelijkheid tot aanpassing die commerciële modellen soms missen. De actieve open source community draagt bij aan snelle verbeteringen en innovatie, waardoor er een breed scala aan opties beschikbaar is voor gebruikers met verschillende behoeften. De concurrentie tussen commerciële en open source modellen stimuleert de vooruitgang in het hele AI-veld.
De Rol van Benchmarks
De casus Mistral Medium 3 roept vragen op over de betrouwbaarheid van benchmarks als de enige maatstaf voor AI-prestaties. Hoewel benchmarks nuttige inzichten kunnen bieden, zijn ze vaak beperkt in hun scope en kunnen ze de complexiteit van real-world scenario’s niet volledig vatten. Het is essentieel om een holistische benadering te hanteren bij de evaluatie van AI-modellen, waarbij rekening wordt gehouden met factoren zoals gebruikerservaring, aanpasbaarheid en specifieke use-cases. De ontwikkeling van meer realistische en diverse benchmarks is cruciaal om een nauwkeuriger beeld te krijgen van de prestaties van AI-modellen.
De Toekomst van AI-Evaluatie
De behoefte aan betere AI-evaluatiemethoden is duidelijk. Er zijn verschillende initiatieven gaande om meer robuuste en transparante evaluatiekaders te ontwikkelen. Dit omvat het gebruik van menselijke evaluatie, het betrekken van diverse datasets en het ontwikkelen van metrieken die beter aansluiten bij de behoeften van verschillende gebruikers. De toekomst van AI-evaluatie zal waarschijnlijk ook de integratie van ethische overwegingen omvatten, zoals biasdetectie en verantwoordelijk gebruik van AI-technologie. Een brede samenwerking tussen onderzoekers, ontwikkelaars en gebruikers is essentieel om een betrouwbaar en rechtvaardig AI-evaluatiesysteem te creëren.
Het Belang van Realistische Verwachtingen
De hype rondom AI kan leiden tot onrealistische verwachtingen, wat kan leiden tot teleurstelling wanneer modellen niet aan de hooggespannen verwachtingen voldoen. Het is belangrijk om een evenwichtige kijk te hebben op de mogelijkheden en beperkingen van AI-technologie. AI is een krachtig hulpmiddel, maar het is geen wondermiddel. Door realistische verwachtingen te stellen, kunnen gebruikers AI-modellen effectiever inzetten en de voordelen ervan maximaliseren.
Conclusie
De Mistral Medium 3 case is een leerzaam voorbeeld van de uitdagingen en complexiteiten die gepaard gaan met de ontwikkeling en evaluatie van AI-modellen. Het benadrukt het belang van kritisch denken, realistische verwachtingen en een holistische benadering bij het beoordelen van AI-prestaties. De AI-industrie blijft zich snel ontwikkelen, en het is cruciaal om op de hoogte te blijven van de nieuwste ontwikkelingen en trends. Door een objectieve en geïnformeerde aanpak te hanteren, kunnen gebruikers AI-technologie op een verantwoorde en effectieve manier benutten.