Mistral Medium 3: Rozczarowanie AI?

Mistral Medium 3: Europejski Pretendent do AI i Dysproporcje w Wydajności

Francuski startup Mistral AI niedawno zaprezentował swój najnowszy model multimodalny, Mistral Medium 3, deklarując, że jego wydajność dorównuje potężnemu Claude Sonnet 3.7, a koszt jest niższy niż DeepSeek V3. Ta wiadomość natychmiast wzbudziła szerokie zainteresowanie w świecie technologii. Jednak użytkownicy, po przeprowadzeniu rzeczywistych testów, odkryli, że model ten wykazuje znaczne rozbieżności w porównaniu z oficjalnymi komunikatami, a niektórzy wręcz sugerują, że nie warto tracić czasu i zasobów na jego pobieranie.

Oficjalne Komunikaty o Mistral Medium 3

Mistral AI w swoim oficjalnym blogu podkreślił kilka kluczowych zalet Mistral Medium 3:

  • Równowaga między Wydajnością a Kosztami: Mistral Medium 3 ma na celu zapewnienie najwyższej wydajności przy jednoczesnym obniżeniu kosztów do jednej ósmej dotychczasowych, co ma przyspieszyć wdrażanie w aplikacjach korporacyjnych.
  • Przewaga w Specjalistycznych Zastosowaniach: Model ten wyróżnia się w specjalistycznych obszarach, takich jak pisanie kodu i rozumienie multimodalne.
  • Funkcje Klasy Enterprise: Mistral Medium 3 oferuje szereg funkcji klasy enterprise, w tym obsługę wdrożeń w chmurze hybrydowej, lokalnych wdrożeń oraz wewnątrz VPC, a także dostosowywanie po wytrenowaniu i integrację z narzędziami i systemami korporacyjnymi.

API Mistral Medium 3 jest już dostępne na Mistral La Plateforme i Amazon Sagemaker, a wkrótce ma pojawić się na IBM WatsonX, NVIDIA NIM, Azure AI Foundry i Google Cloud Vertex.

Porównanie Wskaźników Wydajności

Mistral AI twierdzi, że w różnych testach porównawczych wydajność Mistral Medium 3 osiąga, a nawet przekracza 90% wydajności Claude Sonnet 3.7, przy znacznym obniżeniu kosztów. Konkretnie, koszt wejściowy Mistral Medium 3 wynosi 0,4 dolara za milion tokenów, a koszt wyjściowy wynosi 2 dolary.

Ponadto, wydajność Mistral Medium 3 ma przewyższać wiodące modele open source, takie jak Llama 4 Maverick i Cohere Command A. Niezależnie od tego, czy jest wdrażany przez API, czy samodzielnie, koszt Mistral Medium 3 ma być niższy niż DeepSeek V3. Model ten może być również wdrażany w dowolnej chmurze, w tym w środowiskach samoobsługowych z co najmniej czterema GPU.

Koncentracja na Aplikacjach Korporacyjnych

Mistral AI podkreśla, że celem Mistral Medium 3 jest bycie modelem o najwyższej wydajności, szczególnie wyróżniającym się w kodowaniu i zadaniach STEM, dorównującym wydajnością konkurentom o większej skali i wolniejszym działaniu.

Oficjalnie opublikowane dane wskazują, że wydajność Mistral Medium 3 zasadniczo przewyższa Llama 4 Maverick i GPT-4o, zbliżając się do poziomu Claude Sonnet 3.7 i DeepSeek 3.1.

Aby dodatkowo zweryfikować wydajność modelu, Mistral AI opublikował również wyniki niezależnych ocen ludzkich, które lepiej odzwierciedlają rzeczywiste przypadki użycia. Wyniki pokazują, że Mistral Medium 3 radzi sobie wyjątkowo dobrze w obszarze kodowania i zapewnia lepszą wydajność we wszystkich aspektach w porównaniu z innymi konkurentami.

Mistral Medium 3 przewyższa również inne modele SOTA pod względem zdolności adaptacji do środowisk korporacyjnych. Oferuje przedsiębiorstwom ścieżkę do pełnej integracji inteligencji z systemami korporacyjnymi, rozwiązując problemy, przed którymi stoją przedsiębiorstwa w zakresie dostrajania API i dostosowywania modeli.

Le Chat Enterprise

Mistral AI wprowadził również Le Chat Enterprise, usługę chatbota dla przedsiębiorstw opartą na modelu Mistral Medium 3. Oferuje ona narzędzie do budowania agentów AI i integruje modele Mistral z usługami stron trzecich, takimi jak Gmail, Google Drive i SharePoint.

Le Chat Enterprise ma na celu rozwiązanie wyzwań, przed którymi stoją przedsiębiorstwa w zakresie AI, takich jak fragmentacja narzędzi, niebezpieczna integracja wiedzy, sztywne modele i powolny zwrot z inwestycji, zapewniając jednolitą platformę AI dla wszystkich zadań organizacyjnych.

Le Chat Enterprise wkrótce będzie obsługiwał protokół MCP, standard zaproponowany przez Anthropic do łączenia AI z systemami danych i oprogramowaniem.

Perspektywy dla Mistral Large

Mistral AI ujawnił również na swoim blogu, że chociaż Mistral Small i Mistral Medium zostały już wydane, to w nadchodzących tygodniach mają “wielki” plan, czyli Mistral Large. Stwierdzili, że niedawno wydany Mistral Medium już znacznie przewyższa wiodące modele open source, takie jak Llama 4 Maverick, a wydajność Mistral Large jest jeszcze bardziej obiecująca.

Rzeczywistość Zmierzona Przez Użytkowników

Jednak po tym, jak Mistral AI szeroko reklamował potężną wydajność Mistral Medium 3, media i użytkownicy szybko przeprowadzili rzeczywiste testy, a wyniki były zaskakujące.

Różnice w Testach Wydajności

W ocenach opartych na zadaniach klasyfikacji słów z kolumny Connections w „New York Times”, wydajność Mistral Medium 3 była rozczarowująca, a jego obecność była prawie niewidoczna. W nowym teście 100 zadań nie znalazł się on wśród czołowych modeli.

Niektórzy użytkownicy po testach stwierdzili, że umiejętności pisarskie Mistral Medium 3 nie wykazały znaczącego postępu. Jednak w ocenach LLM znajduje się on w przedniej części Pareto.

Testy Zhu Lianga wykazały, że Mistral Medium 3 radzi sobie solidnie w pisaniu kodu i generowaniu tekstu, plasując się w pierwszej piątce w obu ocenach.

Wydajność w Zadaniach Kodowania

W prostych zadaniach kodowania (aplikacja Next.js TODO), Mistral Medium 3 wygenerował zwięzłe i jasne odpowiedzi, z ocenami zbliżonymi do Gemini 2.5 Pro i Claude 3.5 Sonnet, ale gorszymi od DeepSeek V3 (nowy) i GPT-4.1.

W złożonych zadaniach kodowania (wizualizacja testów porównawczych), Mistral Medium 3 wygenerował średnie wyniki podobne do Gemini 2.5 Pro i DeepSeek V3 (nowy), ale gorsze od GPT-4.1, o3 i Claude 3.7 Sonnet.

Ocena Umiejętności Pisania

Pod względem pisania, Mistral Medium 3 objął większość kluczowych punktów, ale format był nieprawidłowy, a oceny były zbliżone do DeepSeek V3 (nowy) i Claude 3.7 Sonnet, gorsze od GPT-4.1 i Gemini 2.5 Pro.

Znana osoba „karminski-dentysta” po przeprowadzeniu testów również stwierdziła, że wydajność Mistral Medium 3 nie jest tak mocna, jak twierdził producent, i zasugerowała użytkownikom, aby go nie pobierali, aby uniknąć marnowania ruchu i miejsca na dysku.

Porównanie i Refleksje

Przypadek Mistral Medium 3 po raz kolejny przypomina nam, że oceniając wydajność modeli AI, nie możemy polegać wyłącznie na oficjalnych komunikatach i wynikach testów porównawczych, ale powinniśmy bardziej doceniać rzeczywiste doświadczenia użytkowników i niezależne oceny.

Oficjalne komunikaty często selektywnie prezentują zalety modeli, ignorując ich niedociągnięcia. Chociaż testy porównawcze mogą stanowić pewną wartość referencyjną, nie mogą w pełni odzwierciedlać wydajności modelu w rzeczywistym świecie. Rzeczywiste doświadczenia użytkowników i niezależne oceny są bardziej obiektywne i kompleksowe, i mogą pomóc nam dokładniej zrozumieć zalety i wady modeli.

Ponadto na wydajność modeli AI wpływa wiele czynników, w tym dane treningowe, architektura modelu, algorytmy optymalizacji itp. Różne modele mogą wykazywać różne zalety i wady w różnych zadaniach. Dlatego wybierając model AI, należy wziąć pod uwagę konkretne scenariusze i potrzeby aplikacji.

Ogromna różnica między publikacją Mistral Medium 3 a wynikami testów użytkowników wywołała również dyskusję na temat standardów oceny modeli AI. Jak stworzyć bardziej naukowy, obiektywny i kompleksowy system oceny modeli AI, to kwestia, którą warto głęboko zbadać.

Wpływ na Branżę

Przypadek Mistral Medium 3 miał również pewien wpływ na całą branżę AI. Z jednej strony przypomina firmom AI, aby zwracały większą uwagę na wrażenia użytkowników i unikały przesadnych i fałszywych reklam. Z drugiej strony skłania również praktyków w dziedzinie AI do zwracania większej uwagi na formułowanie i doskonalenie standardów oceny modeli AI.

W przyszłości, wraz z ciągłym rozwojem technologii AI, wydajność modeli AI będzie stale rosła, a scenariusze aplikacji będą stale rozszerzane. Musimy patrzeć na technologię AI w bardziej racjonalny i obiektywny sposób, zarówno dostrzegając jej ogromny potencjał, jak i zdając sobie sprawę z jej ograniczeń. Tylko w ten sposób możemy lepiej wykorzystać technologię AI do tworzenia wartości dla społeczeństwa ludzkiego.

Podsumowując, przypadek Mistral Medium 3 jest przestrogą, przypominającą nam, że oceniając modele AI, musimy zachować krytyczne myślenie, nie wierzyć ślepo oficjalnym komunikatom, ale łączyć rzeczywiste doświadczenia i niezależne oceny, aby dokonywać racjonalnych osądów.