Mistral Medium 3: Europejski Pretendent do AI i Dysproporcje w Wydajności
Francuski startup Mistral AI niedawno zaprezentował swój najnowszy model multimodalny, Mistral Medium 3, deklarując, że jego wydajność dorównuje potężnemu Claude Sonnet 3.7, a koszt jest niższy niż DeepSeek V3. Ta wiadomość natychmiast wzbudziła szerokie zainteresowanie w świecie technologii. Jednak użytkownicy, po przeprowadzeniu rzeczywistych testów, odkryli, że model ten wykazuje znaczne rozbieżności w porównaniu z oficjalnymi komunikatami, a niektórzy wręcz sugerują, że nie warto tracić czasu i zasobów na jego pobieranie.
Oficjalne Komunikaty o Mistral Medium 3
Mistral AI w swoim oficjalnym blogu podkreślił kilka kluczowych zalet Mistral Medium 3:
- Równowaga między Wydajnością a Kosztami: Mistral Medium 3 ma na celu zapewnienie najwyższej wydajności przy jednoczesnym obniżeniu kosztów do jednej ósmej dotychczasowych, co ma przyspieszyć wdrażanie w aplikacjach korporacyjnych.
- Przewaga w Specjalistycznych Zastosowaniach: Model ten wyróżnia się w specjalistycznych obszarach, takich jak pisanie kodu i rozumienie multimodalne.
- Funkcje Klasy Enterprise: Mistral Medium 3 oferuje szereg funkcji klasy enterprise, w tym obsługę wdrożeń w chmurze hybrydowej, lokalnych wdrożeń oraz wewnątrz VPC, a także dostosowywanie po wytrenowaniu i integrację z narzędziami i systemami korporacyjnymi.
API Mistral Medium 3 jest już dostępne na Mistral La Plateforme i Amazon Sagemaker, a wkrótce ma pojawić się na IBM WatsonX, NVIDIA NIM, Azure AI Foundry i Google Cloud Vertex.
Porównanie Wskaźników Wydajności
Mistral AI twierdzi, że w różnych testach porównawczych wydajność Mistral Medium 3 osiąga, a nawet przekracza 90% wydajności Claude Sonnet 3.7, przy znacznym obniżeniu kosztów. Konkretnie, koszt wejściowy Mistral Medium 3 wynosi 0,4 dolara za milion tokenów, a koszt wyjściowy wynosi 2 dolary.
Ponadto, wydajność Mistral Medium 3 ma przewyższać wiodące modele open source, takie jak Llama 4 Maverick i Cohere Command A. Niezależnie od tego, czy jest wdrażany przez API, czy samodzielnie, koszt Mistral Medium 3 ma być niższy niż DeepSeek V3. Model ten może być również wdrażany w dowolnej chmurze, w tym w środowiskach samoobsługowych z co najmniej czterema GPU.
Koncentracja na Aplikacjach Korporacyjnych
Mistral AI podkreśla, że celem Mistral Medium 3 jest bycie modelem o najwyższej wydajności, szczególnie wyróżniającym się w kodowaniu i zadaniach STEM, dorównującym wydajnością konkurentom o większej skali i wolniejszym działaniu.
Oficjalnie opublikowane dane wskazują, że wydajność Mistral Medium 3 zasadniczo przewyższa Llama 4 Maverick i GPT-4o, zbliżając się do poziomu Claude Sonnet 3.7 i DeepSeek 3.1.
Aby dodatkowo zweryfikować wydajność modelu, Mistral AI opublikował również wyniki niezależnych ocen ludzkich, które lepiej odzwierciedlają rzeczywiste przypadki użycia. Wyniki pokazują, że Mistral Medium 3 radzi sobie wyjątkowo dobrze w obszarze kodowania i zapewnia lepszą wydajność we wszystkich aspektach w porównaniu z innymi konkurentami.
Mistral Medium 3 przewyższa również inne modele SOTA pod względem zdolności adaptacji do środowisk korporacyjnych. Oferuje przedsiębiorstwom ścieżkę do pełnej integracji inteligencji z systemami korporacyjnymi, rozwiązując problemy, przed którymi stoją przedsiębiorstwa w zakresie dostrajania API i dostosowywania modeli.
Le Chat Enterprise
Mistral AI wprowadził również Le Chat Enterprise, usługę chatbota dla przedsiębiorstw opartą na modelu Mistral Medium 3. Oferuje ona narzędzie do budowania agentów AI i integruje modele Mistral z usługami stron trzecich, takimi jak Gmail, Google Drive i SharePoint.
Le Chat Enterprise ma na celu rozwiązanie wyzwań, przed którymi stoją przedsiębiorstwa w zakresie AI, takich jak fragmentacja narzędzi, niebezpieczna integracja wiedzy, sztywne modele i powolny zwrot z inwestycji, zapewniając jednolitą platformę AI dla wszystkich zadań organizacyjnych.
Le Chat Enterprise wkrótce będzie obsługiwał protokół MCP, standard zaproponowany przez Anthropic do łączenia AI z systemami danych i oprogramowaniem.
Perspektywy dla Mistral Large
Mistral AI ujawnił również na swoim blogu, że chociaż Mistral Small i Mistral Medium zostały już wydane, to w nadchodzących tygodniach mają “wielki” plan, czyli Mistral Large. Stwierdzili, że niedawno wydany Mistral Medium już znacznie przewyższa wiodące modele open source, takie jak Llama 4 Maverick, a wydajność Mistral Large jest jeszcze bardziej obiecująca.
Rzeczywistość Zmierzona Przez Użytkowników
Jednak po tym, jak Mistral AI szeroko reklamował potężną wydajność Mistral Medium 3, media i użytkownicy szybko przeprowadzili rzeczywiste testy, a wyniki były zaskakujące.
Różnice w Testach Wydajności
W ocenach opartych na zadaniach klasyfikacji słów z kolumny Connections w „New York Times”, wydajność Mistral Medium 3 była rozczarowująca, a jego obecność była prawie niewidoczna. W nowym teście 100 zadań nie znalazł się on wśród czołowych modeli.
Niektórzy użytkownicy po testach stwierdzili, że umiejętności pisarskie Mistral Medium 3 nie wykazały znaczącego postępu. Jednak w ocenach LLM znajduje się on w przedniej części Pareto.
Testy Zhu Lianga wykazały, że Mistral Medium 3 radzi sobie solidnie w pisaniu kodu i generowaniu tekstu, plasując się w pierwszej piątce w obu ocenach.
Wydajność w Zadaniach Kodowania
W prostych zadaniach kodowania (aplikacja Next.js TODO), Mistral Medium 3 wygenerował zwięzłe i jasne odpowiedzi, z ocenami zbliżonymi do Gemini 2.5 Pro i Claude 3.5 Sonnet, ale gorszymi od DeepSeek V3 (nowy) i GPT-4.1.
W złożonych zadaniach kodowania (wizualizacja testów porównawczych), Mistral Medium 3 wygenerował średnie wyniki podobne do Gemini 2.5 Pro i DeepSeek V3 (nowy), ale gorsze od GPT-4.1, o3 i Claude 3.7 Sonnet.
Ocena Umiejętności Pisania
Pod względem pisania, Mistral Medium 3 objął większość kluczowych punktów, ale format był nieprawidłowy, a oceny były zbliżone do DeepSeek V3 (nowy) i Claude 3.7 Sonnet, gorsze od GPT-4.1 i Gemini 2.5 Pro.
Znana osoba „karminski-dentysta” po przeprowadzeniu testów również stwierdziła, że wydajność Mistral Medium 3 nie jest tak mocna, jak twierdził producent, i zasugerowała użytkownikom, aby go nie pobierali, aby uniknąć marnowania ruchu i miejsca na dysku.
Porównanie i Refleksje
Przypadek Mistral Medium 3 po raz kolejny przypomina nam, że oceniając wydajność modeli AI, nie możemy polegać wyłącznie na oficjalnych komunikatach i wynikach testów porównawczych, ale powinniśmy bardziej doceniać rzeczywiste doświadczenia użytkowników i niezależne oceny.
Oficjalne komunikaty często selektywnie prezentują zalety modeli, ignorując ich niedociągnięcia. Chociaż testy porównawcze mogą stanowić pewną wartość referencyjną, nie mogą w pełni odzwierciedlać wydajności modelu w rzeczywistym świecie. Rzeczywiste doświadczenia użytkowników i niezależne oceny są bardziej obiektywne i kompleksowe, i mogą pomóc nam dokładniej zrozumieć zalety i wady modeli.
Ponadto na wydajność modeli AI wpływa wiele czynników, w tym dane treningowe, architektura modelu, algorytmy optymalizacji itp. Różne modele mogą wykazywać różne zalety i wady w różnych zadaniach. Dlatego wybierając model AI, należy wziąć pod uwagę konkretne scenariusze i potrzeby aplikacji.
Ogromna różnica między publikacją Mistral Medium 3 a wynikami testów użytkowników wywołała również dyskusję na temat standardów oceny modeli AI. Jak stworzyć bardziej naukowy, obiektywny i kompleksowy system oceny modeli AI, to kwestia, którą warto głęboko zbadać.
Wpływ na Branżę
Przypadek Mistral Medium 3 miał również pewien wpływ na całą branżę AI. Z jednej strony przypomina firmom AI, aby zwracały większą uwagę na wrażenia użytkowników i unikały przesadnych i fałszywych reklam. Z drugiej strony skłania również praktyków w dziedzinie AI do zwracania większej uwagi na formułowanie i doskonalenie standardów oceny modeli AI.
W przyszłości, wraz z ciągłym rozwojem technologii AI, wydajność modeli AI będzie stale rosła, a scenariusze aplikacji będą stale rozszerzane. Musimy patrzeć na technologię AI w bardziej racjonalny i obiektywny sposób, zarówno dostrzegając jej ogromny potencjał, jak i zdając sobie sprawę z jej ograniczeń. Tylko w ten sposób możemy lepiej wykorzystać technologię AI do tworzenia wartości dla społeczeństwa ludzkiego.
Podsumowując, przypadek Mistral Medium 3 jest przestrogą, przypominającą nam, że oceniając modele AI, musimy zachować krytyczne myślenie, nie wierzyć ślepo oficjalnym komunikatom, ale łączyć rzeczywiste doświadczenia i niezależne oceny, aby dokonywać racjonalnych osądów.