Francuski startup Mistral AI niedawno zaprezentował swój najnowszy multimodalny model Mistral Medium 3, który wzbudził szerokie zainteresowanie w branży. Mistral twierdzi, że wydajność tego modelu dorównuje, a nawet przewyższa 90% możliwości Claude Sonnet 3.7, a jednocześnie jest tańszy niż DeepSeek V3, co czyni go opłacalnym wyborem. Jednak rzeczywiste wyniki testów wykazują pewne rozbieżności z oficjalnymi deklaracjami, co wywołuje dyskusję na temat prawdziwości wydajności modelu.
Kluczowe zalety Mistral Medium 3
Mistral w swoim oficjalnym blogu wymienił kilka kluczowych zalet Mistral Medium 3:
- Równowaga między wydajnością a kosztem: Celem Mistral Medium 3 jest osiągnięcie najwyższej wydajności przy jednoczesnym obniżeniu kosztów do jednej ósmej poprzedniego poziomu oraz uproszczeniu procesu wdrażania, co przyspiesza wdrażanie aplikacji w przedsiębiorstwach.
- Doskonała wydajność w specjalistycznych zastosowaniach: Model ten wyróżnia się w specjalistycznych zastosowaniach, takich jak pisanie kodu i rozumienie multimodalne.
- Funkcje klasy korporacyjnej: Mistral Medium 3 oferuje szereg funkcji klasy korporacyjnej, w tym obsługę wdrażania w chmurze hybrydowej, wdrażania lokalnego i wewnątrz VPC, dostosowywania po treningu oraz integracji z narzędziami i systemami korporacyjnymi.
Mistral Medium 3 API jest już dostępne na Mistral La Plateforme i Amazon Sagemaker, a wkrótce pojawi się na IBM WatsonX, NVIDIA NIM, Azure AI Foundry i Google Cloud Vertex.
Kompromis między wydajnością a kosztem
Głównym atutem Mistral Medium 3 jest znaczne obniżenie kosztów przy jednoczesnym zapewnieniu wiodącej wydajności. Oficjalne dane pokazują, że w różnych testach porównawczych wydajność Mistral Medium 3 osiąga lub nawet przekracza 90% możliwości Claude Sonnet 3.7, ale koszt jest znacznie niższy (koszt wejścia na milion tokenów wynosi 0,4 USD, a koszt wyjścia 2 USD).
Ponadto wydajność Mistral Medium 3 przewyższa również wiodące modele open source, takie jak Llama 4 Maverick i Cohere Command A. Zarówno w przypadku API, jak i wdrożenia autonomicznego, koszt Mistral Medium 3 jest niższy niż DeepSeek V3.
Mistral Medium 3 można również wdrażać w dowolnej chmurze, w tym w środowiskach hostowanych samodzielnie z czterema lub więcej GPU, co zapewnia firmom większą elastyczność.
Dążenie do najwyższej wydajności
Mistral deklaruje, że celem Mistral Medium 3 jest stać się modelem o najwyższej wydajności, szczególnie wyróżniającym się w kodowaniu i zadaniach STEM, dorównując wydajnością większym i wolniejszym konkurentom.
Tabela dostarczona przez Mistral pokazuje, że wydajność Mistral Medium 3 w zasadzie przewyższa już Llama 4 Maverick i GPT-4o, zbliżając się do poziomu Claude Sonnet 3.7 i DeepSeek 3.1. Jednak dane te pochodzą głównie z akademickich testów porównawczych i mogą nie w pełni odzwierciedlać wydajności modelu w rzeczywistych zastosowaniach.
Uzupełnienie oceny przez człowieka
Aby bardziej kompleksowo ocenić wydajność Mistral Medium 3, Mistral opublikował również wyniki oceny przez człowieka dokonywanej przez osoby trzecie. Ocena przez człowieka lepiej reprezentuje rzeczywiste przypadki użycia i może uzupełnić braki akademickich testów porównawczych.
Z wyników oceny przez człowieka wynika, że Mistral Medium 3 dobrze radzi sobie w kodowaniu i zapewnia lepszą wydajność we wszystkich aspektach w porównaniu z innymi konkurentami. Sugeruje to, że Mistral Medium 3 może mieć pewne zalety w rzeczywistych zastosowaniach.
Projekt z myślą o zastosowaniach korporacyjnych
Mistral Medium 3 radzi sobie lepiej niż inne modele SOTA pod względem zdolności adaptacji do środowiska korporacyjnego. W obliczu trudnego wyboru między precyzyjnym dostrajaniem za pośrednictwem API a samodzielnym wdrażaniem i dostosowywaniem zachowania modelu od podstaw, Mistral Medium 3 oferuje sposób na kompleksową integrację inteligencji z systemami korporacyjnymi.
Aby jeszcze lepiej zaspokoić potrzeby przedsiębiorstw, Mistral wprowadził również Le Chat Enterprise, chatbot oparty na modelu Mistral Medium 3, przeznaczony dla firm. Le Chat Enterprise oferuje narzędzie do budowania inteligentnych agentów AI i integruje modele Mistral z usługami innych firm, takimi jak Gmail, Google Drive i SharePoint. Ma to na celu rozwiązanie problemów AI, przed którymi stoją przedsiębiorstwa, takich jak fragmentacja narzędzi, niezabezpieczona integracja wiedzy, sztywne modele i powolny zwrot z inwestycji, zapewniając jednolitą platformę AI dla wszystkich zadań organizacyjnych.
Le Chat Enterprise wkrótce będzie obsługiwać protokół MCP, standard zaproponowany przez Anthropic do łączenia AI z systemami danych i oprogramowaniem.
Przyszłe perspektywy Mistrala
Mistral ujawnił na swoim blogu, że chociaż Mistral Small i Mistral Medium zostały już wydane, w ciągu najbliższych kilku tygodni mają „duży” plan, czyli Mistral Large. Stwierdzili, że wydajność nowo wydanego Mistral Medium znacznie przewyższa wiodące modele open source, takie jak Llama 4 Maverick, a wydajność Mistral Large jest jeszcze bardziej obiecująca.
Wydanie Mistral Large bez wątpienia jeszcze bardziej zwiększy konkurencyjność Mistrala w dziedzinie AI i zapewni użytkownikom więcej opcji.
Rozbieżność w testach praktycznych
Chociaż Mistral jest pewien wydajności Mistral Medium 3 i twierdzi, że przewyższa on 90% możliwości Claude Sonnet 3.7, rzeczywiste wyniki testów ujawniły pewne problemy.
Media i internauci szybko rozpoczęli testy Mistral Medium 3, ale wyniki okazały się rozczarowujące. W ocenie opartej na pytaniach leksykalnych z sekcji Connections "The New York Times", Medium 3 plasował się na samym końcu, prawie nie można go było znaleźć. W nowej ocenie 100 pytań nie uplasował się w czołówce modeli.
Jeden z użytkowników, który przetestował Medium 3, stwierdził, że jego umiejętności pisania pozostały bez zmian, bez znaczącej poprawy. Jednak w ocenie LLM znalazł się w czołówce Pareto.
Wyniki testów Zhu Lianga pokazują, że Mistral Medium 3 radzi sobie solidnie w kodowaniu i generowaniu tekstu, plasując się w pierwszej piątce w obu ocenach.
W prostym zadaniu kodowania (aplikacja Next.js TODO):
- Wygenerował zwięzłą i jasną odpowiedź
- Wynik był zbliżony do Gemini 2.5 Pro i Claude 3.5 Sonnet
- Był gorszy od DeepSeek V3 (nowy) i GPT-4.1
W złożonym zadaniu kodowania (wizualizacja testów porównawczych):
- Wygenerował średnie wyniki zbliżone do Gemini 2.5 Pro i DeepSeek V3 (nowy)
- Był gorszy od GPT-4.1, o3 i Claude 3.7 Sonnet
W pisaniu:
- Jego treść obejmowała większość kluczowych punktów, ale format był nieprawidłowy
- Wynik był zbliżony do DeepSeek V3 (nowy) i Claude 3.7 Sonnet
- Był gorszy od GPT-4.1 i Gemini 2.5 Pro
Znany influencer "karminski-dentysta" po testach praktycznych odkrył, że wydajność Mistral Medium 3 nie jest tak potężna, jak reklamuje producent, a nawet zasugerował użytkownikom, aby go nie pobierali, aby uniknąć marnowania ruchu i miejsca na dysku.
Wnioski
Mistral Medium 3, jako innowacyjna próba w europejskiej dziedzinie AI, dąży do równowagi między wydajnością a kosztami i jest zoptymalizowany pod kątem zastosowań korporacyjnych. Jednak rzeczywiste wyniki testów wykazują pewne rozbieżności z oficjalnymi deklaracjami, co sugeruje, że Mistral mógł przesadzić z wydajnością modelu.
Mimo to Mistral Medium 3 wciąż ma pewien potencjał, zwłaszcza w dziedzinach takich jak kodowanie i generowanie tekstu. W przyszłości Mistral musi dalej poprawiać wydajność modelu i wzmacniać testy praktyczne, aby zdobyć zaufanie użytkowników. Jednocześnie wydanie Mistral Large jest warte uwagi, ponieważ może zrekompensować braki Mistral Medium 3 i zapewnić użytkownikom lepsze wrażenia.
Podsumowując, wydanie Mistral Medium 3 odzwierciedla pozytywną eksplorację i innowacyjność Europy w dziedzinie AI. Chociaż rzeczywista wydajność nie spełnia oczekiwań, Mistral wciąż zasługuje na uwagę, a jego przyszły rozwój jest obiecujący.