Mistral Medium 3: KI-Ambitionen und Realität

Die französische Startup-Firma Mistral AI hat vor Kurzem ihr neuestes multimodales Modell, Mistral Medium 3, veröffentlicht, was in der Branche breite Aufmerksamkeit erregt hat. Mistral behauptet, dass die Leistung dieses Modells mit 90 % der Leistung von Claude Sonnet 3.7 mithalten oder diese sogar übertreffen kann, während die Kosten niedriger sind als bei DeepSeek V3, was es zu einer kosteneffizienten Wahl macht. Die tatsächlichen Testergebnisse weichen jedoch von den offiziellen Werbeaussagen ab, was zu Diskussionen über die tatsächliche Leistung des Modells führt.

Die Kernhighlights von Mistral Medium 3

Mistral listet in seinem offiziellen Blog mehrere Kernhighlights von Mistral Medium 3 auf:

  • Ausgewogenheit von Leistung und Kosten: Mistral Medium 3 zielt darauf ab, Spitzenleistungen zu erzielen und gleichzeitig die Kosten auf ein Achtel des bisherigen Niveaus zu senken sowie den Bereitstellungsprozess zu vereinfachen, um Unternehmensanwendungen zu beschleunigen.
  • Hervorragende Leistung in professionellen Anwendungsszenarien: Das Modell zeichnet sich durch seine Leistung in professionellen Anwendungsszenarien wie dem Schreiben von Code und dem multimodalen Verständnis aus.
  • Funktionen auf Unternehmensebene: Mistral Medium 3 bietet eine Reihe von Funktionen auf Unternehmensebene, darunter die Unterstützung von Hybrid-Cloud-Bereitstellungen, lokalen Bereitstellungen und Bereitstellungen innerhalb von VPCs, kundenspezifischem Nachtraining sowie die Integration in Unternehmenswerkzeuge und -systeme.

Die Mistral Medium 3 API ist jetzt auf Mistral La Plateforme und Amazon Sagemaker verfügbar und wird in Kürze auch auf IBM WatsonX, NVIDIA NIM, Azure AI Foundry und Google Cloud Vertex verfügbar sein.

Abwägung zwischen Leistung und Kosten

Ein wichtiges Verkaufsargument von Mistral Medium 3 ist die deutliche Reduzierung der Kosten bei gleichzeitiger Bereitstellung von Spitzenleistungen. Offizielle Daten zeigen, dass die Leistung von Mistral Medium 3 in verschiedenen Benchmark-Tests 90 % der Leistung von Claude Sonnet 3.7 erreicht oder sogar übertrifft, während die Kosten deutlich niedriger sind (die Inputkosten betragen 0,4 US-Dollar pro Million Token, die Outputkosten 2 US-Dollar).

Darüber hinaus übertrifft die Leistung von Mistral Medium 3 auch führende Open-Source-Modelle wie Llama 4 Maverick und Cohere Command A. Unabhängig davon, ob es sich um eine API oder eine autonome Bereitstellung handelt, sind die Kosten für Mistral Medium 3 niedriger als für DeepSeek V3.

Mistral Medium 3 kann auch in jeder Cloud bereitgestellt werden, einschliesslich selbst gehosteter Umgebungen mit vier oder mehr GPUs, was Unternehmen mehr Flexibilität bietet.

Das Streben nach Spitzenleistungen

Mistral erklärt, dass das Ziel von Mistral Medium 3 darin besteht, ein Modell mit Spitzenleistungen zu sein, insbesondere bei der Codierung und bei STEM-Aufgaben, wobei die Leistung an die von größeren, langsameren Wettbewerbern heranreicht.

Die von Mistral bereitgestellte Tabelle zeigt, dass die Leistung von Mistral Medium 3 Llama 4 Maverick und GPT-4o im Wesentlichen bereits übertroffen hat und sich dem Niveau von Claude Sonnet 3.7 und DeepSeek 3.1 nähert. Diese Daten stammen jedoch hauptsächlich aus akademischen Benchmark-Tests und spiegeln möglicherweise nicht die tatsächliche Leistung des Modells in realen Anwendungen wider.

Ergänzung durch manuelle Bewertung

Um die Leistung von Mistral Medium 3 umfassender zu bewerten, hat Mistral auch die Ergebnisse manueller Bewertungen durch Dritte veröffentlicht. Manuelle Bewertungen repräsentieren reale Anwendungsfälle besser und können die Mängel akademischer Benchmark-Tests ausgleichen.

Aus Sicht der manuellen Bewertungsergebnisse schneidet Mistral Medium 3 im Bereich der Codierung hervorragend ab und bietet in allen Aspekten eine bessere Leistung als andere Wettbewerber. Dies deutet darauf hin, dass Mistral Medium 3 in der praktischen Anwendung gewisse Vorteile haben könnte.

Design für Enterprise-Anwendungen

Mistral Medium 3 übertrifft andere SOTA-Modelle in Bezug auf seine Fähigkeit, sich an Unternehmenseinstellungen anzupassen. Angesichts der schwierigen Entscheidung für Unternehmen, ob sie eine Feinabstimmung über eine API vornehmen oder von Grund auf neu bereitstellen und das Modellverhalten anpassen sollen, bietet Mistral Medium 3 einen Weg, Intelligenz umfassend in Unternehmenssysteme zu integrieren.

Um die Unternehmensanforderungen noch besser zu erfüllen, hat Mistral außerdem Le Chat Enterprise auf den Markt gebracht, einen Chatbot-Dienst für Unternehmen, der von dem Modell Mistral Medium 3 angetrieben wird. Le Chat Enterprise bietet ein Tool zum Erstellen von KI-Agenten und integriert die Modelle von Mistral in Dienste von Drittanbietern wie Gmail, Google Drive und SharePoint. Ziel ist es, die KI-Herausforderungen von Unternehmen zu lösen, wie z. B. die Fragmentierung von Tools, die unsichere Wissensintegration, starre Modelle und langsame Kapitalrenditen, um eine einheitliche KI-Plattform für alle Organisationsarbeiten bereitzustellen.

Le Chat Enterprise wird in Kürze das MCP-Protokoll unterstützen, einen von Anthropic vorgeschlagenen Standard zum Verbinden von KI mit Datensystemen und Software.

Mistrals Zukunftsaussichten

Mistral gab in seinem Blog bekannt, dass, obwohl Mistral Small und Mistral Medium bereits veröffentlicht wurden, in den kommenden Wochen ein “großer” Plan besteht, nämlich Mistral Large. Sie sagten, dass die Leistung des gerade veröffentlichten Mistral Medium bereits die Top-Open-Source-Modelle wie Llama 4 Maverick übertrifft, und die Leistung von Mistral Large sei noch vielversprechender.

Die Veröffentlichung von Mistral Large wird zweifellos die Wettbewerbsfähigkeit von Mistral im KI-Bereich weiter steigern und den Benutzern mehr Auswahlmöglichkeiten bieten.

Die Diskrepanz in den tatsächlichen Tests

Obwohl Mistral von der Leistung von Mistral Medium 3 überzeugt ist und behauptet, dass es 90 % der Leistung von Claude Sonnet 3.7 übertrifft, haben die tatsächlichen Testergebnisse einige Probleme aufgezeigt.

Medien und Internetnutzer starteten schnell reale Tests von Mistral Medium 3, aber die Ergebnisse waren enttäuschend. In einer Bewertung, die auf der Vokabelklassifizierungsaufgabe der Kolumne Connections der New York Times basiert, befand sich Medium 3 am unteren Ende der Liste und war kaum zu finden. In einer brandneuen 100-Punkte-Bewertung gehörte es nicht zu den Top-Modellen.

Ein Benutzer, der Medium 3 getestet hat, sagte, dass seine Schreibfähigkeiten immer noch die gleichen sind und es keine nennenswerten Verbesserungen gibt. In der LLM-Bewertung befindet es sich jedoch an der Pareto-Front.

Die Testergebnisse von Zhu Liang zeigen, dass Mistral Medium 3 sowohl bei der Code-Erstellung als auch bei der Textgenerierung solide Leistungen erbringt und in beiden Bewertungen zu den Top-Fünf gehört.

Bei einfachen Codierungsaufgaben (Next.js TODO-Anwendung):

  • Es generierte prägnante und klare Antworten
  • Die Bewertung ist ähnlich wie bei Gemini 2.5 Pro und Claude 3.5 Sonnet
  • Schlechter als DeepSeek V3 (neu) und GPT-4.1

Bei komplexen Codierungsaufgaben (Benchmark-Visualisierung):

  • Die erzielten durchschnittlichen Ergebnisse ähneln denen von Gemini 2.5 Pro und DeepSeek V3 (neu)
  • Schlechter als GPT-4.1, o3 und Claude 3.7 Sonnet

Beim Schreiben:

  • Der Inhalt deckte die meisten Punkte ab, aber das Format war falsch
  • Die Bewertung ähnelt der von DeepSeek V3 (neu) und Claude 3.7 Sonnet
  • Schlechter als GPT-4.1 und Gemini 2.5 Pro

Der bekannte Experte “karminski-Zahnarzt” stellte nach einem Test fest, dass die Leistung von Mistral Medium 3 nicht so stark ist, wie es offiziell angepriesen wird, und empfahl den Benutzern sogar, es nicht herunterzuladen, um keinen Datenverkehr und Festplattenspeicher zu verschwenden.

Fazit

Mistral Medium 3 ist als innovative Initiative im europäischen KI-Bereich zu sehen, die ein Gleichgewicht zwischen Leistung und Kosten sucht und für Unternehmensanwendungen optimiert ist. Die tatsächlichen Testergebnisse weichen jedoch von den offiziellen Werbeaussagen ab, was darauf hindeutet, dass Mistral bei der Modellleistung möglicherweise übertriebene Aussagen getroffen hat.

Dennoch hat Mistral Medium 3 ein gewisses Potenzial, insbesondere in Bereichen wie Codierung und Textgenerierung. In Zukunft muss Mistral die Modellleistung weiter verbessern und reale Anwendungstests verstärken, um das Vertrauen der Benutzer zu gewinnen. Gleichzeitig ist die Veröffentlichung von Mistral Large ebenfalls vielversprechend und könnte die Mängel von Mistral Medium 3 ausgleichen und den Benutzern eine bessere Erfahrung bieten.

Zusammenfassend lässt sich sagen, dass die Veröffentlichung von Mistral Medium 3 die aktive Exploration und den Innovationsgeist Europas im KI-Bereich widerspiegelt. Obwohl die tatsächliche Leistung nicht den Erwartungen entspricht, ist Mistral dennoch erwähnenswert und seine zukünftige Entwicklung ist vielversprechend.