Mistral Medium 3: Амбиции и реальность

Французский стартап Mistral AI недавно представил свою новую мультимодальную модель Mistral Medium 3, которая вызвала широкий интерес в отрасли. Mistral утверждает, что производительность этой модели может сравниться и даже превзойти 90% производительности Claude Sonnet 3.7, при этом затраты ниже, чем у DeepSeek V3, что делает её экономически выгодным вариантом. Однако фактические результаты тестирования показали разрыв между официальной рекламой и реальностью, что вызвало дискуссии о достоверности заявленной производительности модели.

Ключевые особенности Mistral Medium 3

В своём официальном блоге Mistral перечислила несколько ключевых особенностей Mistral Medium 3:

  • Баланс между производительностью и стоимостью: Mistral Medium 3 стремится достичь высочайшей производительности, одновременно снижая затраты до одной восьмой от прежних и упрощая процесс развёртывания, тем самым ускоряя корпоративное применение.
  • Отличная производительность в профессиональных сценариях использования: Модель демонстрирует выдающуюся производительность в профессиональных сценариях, таких как написание кода и мультимодальное понимание.
  • Функции корпоративного уровня: Mistral Medium 3 предлагает ряд функций корпоративного уровня, включая поддержку гибридного облачного развёртывания, локального развёртывания и развёртывания внутри VPC, индивидуальную дообучение, а также интеграцию с корпоративными инструментами и системами.

Mistral Medium 3 API теперь доступен на Mistral La Plateforme и Amazon Sagemaker и вскоре появится на IBM WatsonX, NVIDIA NIM, Azure AI Foundry и Google Cloud Vertex.

Компромисс между производительностью и стоимостью

Одним из главных преимуществ Mistral Medium 3 является значительное снижение затрат при сохранении передовой производительности. Официальные данные показывают, что в различных эталонных тестах Mistral Medium 3 достигает или даже превосходит 90% производительности Claude Sonnet 3.7, но при этом значительно снижает затраты (стоимость ввода составляет 0,4 доллара США за миллион токенов, а стоимость вывода - 2 доллара США).

Кроме того, Mistral Medium 3 превосходит такие ведущие модели с открытым исходным кодом, как Llama 4 Maverick и Cohere Command A. Независимо от того, используется ли API или самостоятельное развёртывание, затраты на Mistral Medium 3 ниже, чем на DeepSeek V3.

Mistral Medium 3 также можно развернуть в любом облаке, включая самостоятельные среды с четырьмя или более графическими процессорами, что обеспечивает предприятиям большую гибкость.

Стремление к максимальной производительности

Mistral заявляет, что целью Mistral Medium 3 является стать моделью с максимальной производительностью, особенно в задачах кодирования и STEM, с производительностью, приближающейся к производительности более крупных и медленных конкурентов.

Представленная Mistral таблица показывает, что производительность Mistral Medium 3 в основном превзошла Llama 4 Maverick и GPT-4o, и приблизилась к уровням Claude Sonnet 3.7 и DeepSeek 3.1. Однако эти данные в основном взяты из академических эталонных тестов и могут не полностью отражать производительность модели в реальных приложениях.

Дополнение в виде экспертной оценки

Чтобы более полно оценить производительность Mistral Medium 3, Mistral также опубликовала результаты экспертной оценки третьей стороной. Экспертная оценка лучше отражает реальные сценарии использования и может компенсировать недостатки академических эталонных тестов.

Судя по результатам экспертной оценки, Mistral Medium 3 демонстрирует выдающуюся производительность в области кодирования и обеспечивает более высокую производительность, чем другие конкуренты, во всех аспектах. Это говорит о том, что Mistral Medium 3 может иметь определённые преимущества в реальных приложениях.

Дизайн для корпоративных приложений

Mistral Medium 3 превосходит другие модели SOTA по своей способности адаптироваться к корпоративной среде. Когда предприятия сталкиваются с трудным выбором между тонкой настройкой через API или самостоятельным развёртыванием и настройкой поведения модели с нуля, Mistral Medium 3 предлагает способ полной интеграции интеллекта в корпоративные системы.

Чтобы ещё лучше удовлетворить потребности предприятий, Mistral также запустила Le Chat Enterprise на базе модели Mistral Medium 3, сервис чат-ботов, ориентированный на предприятия. Le Chat Enterprise предоставляет инструмент для создания интеллектуальных агентов AI и интегрирует модели Mistral со сторонними сервисами, такими как Gmail, Google Drive и SharePoint, для решения проблем AI, с которыми сталкиваются предприятия, таких как фрагментация инструментов, небезопасная интеграция знаний, жёсткие модели и медленная рентабельность инвестиций, предоставляя единую платформу AI для всей организационной работы.

Le Chat Enterprise скоро будет поддерживать протокол MCP, стандарт, предложенный Anthropic для подключения AI к системам данных и программному обеспечению.

Перспективы Mistral на будущее

Mistral в своём блоге сообщила, что, хотя Mistral Small и Mistral Medium уже выпущены, в ближайшие несколько недель у них есть «большой» план, а именно Mistral Large. Они заявили, что только что выпущенная Mistral Medium уже намного превосходит лучшие модели с открытым исходным кодом, такие как Llama 4 Maverick, а производительность Mistral Large ещё более многообещающа.

Выпуск Mistral Large, несомненно, ещё больше повысит конкурентоспособность Mistral в области AI и предоставит пользователям больше возможностей выбора.

Расхождение с результатами фактического тестирования

Несмотря на то, что Mistral уверена в производительности Mistral Medium 3 и утверждает, что она превосходит 90% Claude Sonnet 3.7, результаты фактического тестирования выявили некоторые проблемы.

СМИ и пользователи сети быстро провели фактические тесты Mistral Medium 3, и результаты оказались разочаровывающими. В оценке, основанной на задачах классификации словарного запаса в колонке Connections New York Times, Medium 3 находится в самом низу списка, и его почти не видно. В новой оценке из 100 вопросов он также не входит в число лучших моделей.

Пользователь, протестировав Medium 3, сказал, что его навыки письма остались прежними, без каких-либо очевидных улучшений. Однако в оценке LLM он находится на границе Парето.

Результаты тестирования Zhu Liang показывают, что Mistral Medium 3 хорошо справляется с написанием кода и генерацией текста, и в обеих оценках входит в пятёрку лучших.

В простых задачах кодирования (приложение Next.js TODO):

  • Он сгенерировал чёткие и понятные ответы
  • Оценка примерно такая же, как у Gemini 2.5 Pro и Claude 3.5 Sonnet
  • Хуже, чем DeepSeek V3 (новый) и GPT-4.1

В сложных задачах кодирования (визуализация эталонных тестов):

  • Средние результаты, полученные, аналогичны Gemini 2.5 Pro и DeepSeek V3 (новому)
  • Хуже, чем GPT-4.1, o3 и Claude 3.7 Sonnet

В письменной форме:

  • Он охватывает большинство ключевых моментов, но имеет неправильный формат
  • Оценка близка к DeepSeek V3 (новому) и Claude 3.7 Sonnet
  • Хуже, чем GPT-4.1 и Gemini 2.5 Pro

Известный блогер “karminski-зубной врач” после фактического тестирования обнаружил, что производительность Mistral Medium 3 не так высока, как утверждается в официальной рекламе, и даже посоветовал пользователям не скачивать её, чтобы не тратить трафик и место на жёстком диске.

Вывод

Mistral Medium 3, как инновационная попытка в европейской области AI, стремится к балансу между производительностью и стоимостью и оптимизирована для корпоративных приложений. Однако результаты фактического тестирования показывают разрыв между официальной рекламой и реальностью, что свидетельствует о том, что Mistral могла преувеличить производительность модели.

Тем не менее, Mistral Medium 3 по-прежнему имеет определённый потенциал, особенно в таких областях, как кодирование и генерация текста. В будущем Mistral необходимо будет ещё больше повысить производительность модели и усилить фактическое тестирование приложений, чтобы завоевать доверие пользователей. В то же время, выпуск Mistral Large также стоит ожидать, возможно, он сможет компенсировать недостатки Mistral Medium 3 и предоставить пользователям лучший опыт.

В целом, выпуск Mistral Medium 3 отражает активные исследования и инновационный дух Европы в области AI. Несмотря на то, что фактическая производительность не оправдывает ожиданий, Mistral по-прежнему заслуживает внимания, и её будущее развитие стоит ожидать.