Френският стартъп Mistral AI наскоро пусна най-новия си мултимодален модел Mistral Medium 3, което предизвика широк интерес в индустрията. Mistral твърди, че производителността на модела може да се конкурира и дори да надмине 90-те процента на Claude Sonnet 3.7, като същевременно цената е по-ниска от DeepSeek V3, което го прави рентабилен избор. Резултатите от действителните тестове обаче показват известна разлика с официалната реклама, което предизвиква дискусии относно истинността на производителността на модела.
Основни акценти на Mistral Medium 3
В официалния си блог Mistral изброява няколко основни акцента на Mistral Medium 3:
- Баланс между производителност и цена: Mistral Medium 3 има за цел да постигне върхова производителност, като същевременно намали цената до една осма от предишната и опрости процеса на разгръщане, като по този начин ускори корпоративните приложения.
- Отлично представяне в професионални сценарии на приложение: Моделът се представя изключително добре в професионални сценарии на приложение като писане на код и мултимодално разбиране.
- Функции от корпоративен клас: Mistral Medium 3 предлага серия от функции от корпоративен клас, включително поддръжка за хибридно облачно разгръщане, локално разгръщане и разгръщане във VPC, персонализирано обучение и интегриране в корпоративни инструменти и системи.
Mistral Medium 3 API вече е достъпен на Mistral La Plateforme и Amazon Sagemaker и скоро ще бъде достъпен в IBM WatsonX, NVIDIA NIM, Azure AI Foundry и Google Cloud Vertex.
Компромис между производителност и цена
Основната точка на продажба на Mistral Medium 3 е, че постига значително намаление на разходите, като същевременно осигурява авангардна производителност. Официалните данни показват, че в различните бенчмарк тестове производителността на Mistral Medium 3 достига или дори надвишава 90% от тази на Claude Sonnet 3.7, но цената е значително намалена (входната цена е 0.4 долара на милион токени, а изходната цена е 2 долара).
Освен това, производителността на Mistral Medium 3 надминава и водещи модели с отворен код като Llama 4 Maverick и Cohere Command A. Независимо дали е API или самостоятелно разгръщане, цената на Mistral Medium 3 е по-ниска от тази на DeepSeek V3.
Mistral Medium 3 може също да бъде разгърнат във всеки облак, включително самостоятелно хоствани среди с четири или повече графични процесора, осигурявайки по-голяма гъвкавост за предприятията.
Стремеж към върхова производителност
Mistral декларира, че целта на Mistral Medium 3 е да бъде модел с върхова производителност, особено в кодирането и STEM задачите, като производителността е близка до тази на по-големите и по-бавни конкуренти.
Предоставената от Mistral таблица показва, че производителността на Mistral Medium 3 по същество е надминала Llama 4 Maverick и GPT-4o и е близо до нивата на Claude Sonnet 3.7 и DeepSeek 3.1. Тези данни обаче идват главно от академични бенчмарк тестове и може да не отразяват напълно производителността на модела в реални приложения.
Допълнение към ръчната оценка
За да оцени по-изчерпателно производителността на Mistral Medium 3, Mistral също така публикува резултатите от ръчната оценка на трети страни. Ръчната оценка е по-представителна за реалните случаи на употреба и може да компенсира недостатъците на академичните бенчмарк тестове.
От резултатите от ръчната оценка се вижда, че Mistral Medium 3 се представя изключително добре в областта на кодирането и осигурява по-добра производителност във всички аспекти от другите конкуренти. Това показва, че Mistral Medium 3 може да има определени предимства в реални приложения.
Проектиран за корпоративни приложения
Mistral Medium 3 превъзхожда другите SOTA модели по отношение на способността да се адаптира към корпоративна среда. Когато предприятията са изправени пред труден избор между фина настройка чрез API или саморазгръщане от нулата и персонализиране на поведението на модела, Mistral Medium 3 предлага начин за цялостно интегриране на интелигентността в корпоративните системи.
За да отговори допълнително на нуждите на предприятията, Mistral също така пусна Le Chat Enterprise, чатбот услуга, задвижвана от модела Mistral Medium 3. Le Chat Enterprise предоставя инструмент за изграждане на AI интелигентен агент и интегрира моделите на Mistral с услуги на трети страни като Gmail, Google Drive и SharePoint, с цел да разреши AI предизвикателствата, пред които са изправени предприятията, като фрагментиране на инструменти, несигурна интеграция на знания, сковани модели и бавна възвръщаемост на инвестициите, предоставяйки унифицирана AI платформа за цялата организационна работа.
Le Chat Enterprise скоро ще поддържа MCP протокола, стандарт, предложен от Anthropic за свързване на AI с данни и софтуерни системи.
Бъдещи перспективи на Mistral
Mistral разкри в блога, че въпреки че Mistral Small и Mistral Medium са пуснати, през следващите няколко седмици те имат "голям" план, а именно Mistral Large. Те казаха, че новопуснатият Mistral Medium вече надминава водещи модели с отворен код като Llama 4 Maverick и че производителността на Mistral Large е още по-обещаваща.
Издаването на Mistral Large несъмнено ще подобри допълнително конкурентоспособността на Mistral в областта на AI и ще предостави на потребителите повече възможности за избор.
Разлика в действителните тестове
Въпреки че Mistral е уверен в производителността на Mistral Medium 3 и твърди, че надминава 90-те процента на Claude Sonnet 3.7, действителните резултати от тестовете разкриха някои проблеми.
Медиите и потребителите на мрежата бързо започнаха реални тестове на Mistral Medium 3, но резултатите бяха разочароващи. В оценката, базирана на теста за класификация на речника на колоната Connections на New York Times, Medium 3 беше на последна позиция и едва можеше да бъде намерен. В новата оценка от 100 въпроса той не беше в челната редица модели.
Потребител тества Medium 3 и каза, че неговите способности за писане са си останали същите и няма очевиден напредък. Въпреки това, в оценката на LLM той е на челната позиция на Парето.
Резултатите от теста на Zhu Liang показват, че Mistral Medium 3 се представя солидно в кодирането и генерирането на текст, като се нарежда сред първите пет в двете оценки.
В проста задача за кодиране (Next.js TODO приложение):
- Генерира ясни и кратки отговори
- Резултатът е подобен на Gemini 2.5 Pro и Claude 3.5 Sonnet
- По-слаб от DeepSeek V3 (нов) и GPT-4.1
В сложна задача за кодиране (визуализация на бенчмарк тест):
- Средните резултати, генерирани, са подобни на Gemini 2.5 Pro и DeepSeek V3 (нов)
- По-слаб от GPT-4.1, o3 и Claude 3.7 Sonnet
В писането:
- Съдържанието му обхваща повечето от основните точки, но форматът е неправилен
- Резултатът е близък до DeepSeek V3 (нов) и Claude 3.7 Sonnet
- По-слаб от GPT-4.1 и Gemini 2.5 Pro
Известният голям човек "karminski-зъболекар" установи след реален тест, че производителността на Mistral Medium 3 не е толкова мощна, колкото официално се твърди, и дори предложи на потребителите да не го изтеглят, за да избегнат загуба на трафик и място на твърдия диск.
Заключение
Mistral Medium 3, като иновативен опит в европейската област на AI, се стреми да балансира между производителност и цена и е оптимизиран за корпоративни приложения. Резултатите от действителните тестове обаче показват известна разлика с официалната реклама, което показва, че Mistral може да е преувеличил производителността на модела.
Въпреки това, Mistral Medium 3 все още има определен потенциал, особено в области като кодиране и генериране на текст. В бъдеще Mistral трябва допълнително да подобри производителността на модела и да засили тестовете за реални приложения, за да спечели доверието на потребителите. В същото време, издаването на Mistral Large също си заслужава да се очаква, може би ще компенсира недостатъците на Mistral Medium 3 и ще донесе по-добро изживяване на потребителите.
В обобщение, издаването на Mistral Medium 3 отразява активните изследвания и иновационния дух на Европа в областта на AI. Въпреки че има разлика между действителната производителност и очакванията, Mistral все още заслужава внимание и бъдещото му развитие си заслужава да се очаква.