Mistral Medium 3: Вызов и Реальность

Французский стартап Mistral AI недавно представил свою последнюю мультимодальную модель Mistral Medium 3, утверждая, что ее производительность сопоставима с мощной Claude Sonnet 3.7, а стоимость ниже, чем у DeepSeek V3. Эта новость сразу же вызвала широкий интерес в технологическом сообществе. Однако, как выяснилось после реальных тестов пользователей, производительность этой модели значительно отличается от официальной рекламы, и даже некоторые советуют пользователям не тратить время и ресурсы на ее загрузку.

Официальная реклама Mistral Medium 3

Mistral AI в своем официальном блоге выделила несколько ключевых особенностей Mistral Medium 3:

  • Баланс производительности и стоимости: Mistral Medium 3 призвана обеспечить максимальную производительность при снижении стоимости до одной восьмой от первоначальной, что позволит ускорить применение в бизнесе.
  • Преимущества в специализированных приложениях: Модель отлично справляется с такими профессиональными задачами, как написание кода и мультимодальное понимание.
  • Функции корпоративного уровня: Mistral Medium 3 предоставляет ряд функций корпоративного уровня, включая поддержку гибридного облачного развертывания, локального развертывания и развертывания внутри VPC, а также последующую настройку и интеграцию в корпоративные инструменты и системы.

Mistral Medium 3 API уже доступен на Mistral La Plateforme и Amazon Sagemaker и вскоре планируется к запуску на IBM WatsonX, NVIDIA NIM, Azure AI Foundry и Google Cloud Vertex.

Сравнение показателей производительности

Mistral AI заявила, что в различных бенчмарках производительность Mistral Medium 3 достигает или даже превышает 90% от Claude Sonnet 3.7, но при этом значительно снижает стоимость. В частности, входная стоимость Mistral Medium 3 составляет 0,4 доллара США за миллион токенов, а выходная стоимость - 2 доллара США.

Кроме того, производительность Mistral Medium 3, как утверждается, превосходит такие ведущие модели с открытым исходным кодом, как Llama 4 Maverick и Cohere Command A. Независимо от того, используется ли API или автономное развертывание, Mistral Medium 3 стоит дешевле, чем DeepSeek V3. Модель также может быть развернута в любом облаке, включая собственные хостинговые среды с четырьмя и более графическими процессорами.

Ориентация на корпоративные приложения

Mistral AI подчеркивает, что цель Mistral Medium 3 - стать первоклассной моделью, особенно в задачах кодирования и STEM, с производительностью, близкой к конкурентам, которые больше и медленнее.

Официально опубликованные данные показывают, что производительность Mistral Medium 3 в основном превосходит Llama 4 Maverick и GPT-4o, приближаясь к уровням Claude Sonnet 3.7 и DeepSeek 3.1.

Чтобы дополнительно проверить производительность модели, Mistral AI также опубликовала результаты сторонней ручной оценки, которые более репрезентативны для реальных сценариев использования. Результаты показывают, что Mistral Medium 3 отлично справляется с кодированием и обеспечивает лучшую производительность, чем другие конкуренты, во всех аспектах.

Mistral Medium 3 также превосходит другие модели SOTA с точки зрения способности адаптироваться к корпоративной среде. Он предоставляет предприятиям способ всесторонней интеграции интеллекта в корпоративные системы, решая проблемы предприятий с тонкой настройкой API и настройкой моделей.

Le Chat Enterprise

Mistral AI также представила Le Chat Enterprise, сервис чат-ботов для предприятий на основе модели Mistral Medium 3. Он предоставляет инструмент для создания интеллектуальных агентов с искусственным интеллектом и интегрирует модели Mistral со сторонними сервисами, такими как Gmail, Google Drive и SharePoint.

Le Chat Enterprise призвана решить проблемы искусственного интеллекта, с которыми сталкиваются предприятия, такие как фрагментация инструментов, небезопасная интеграция знаний, жесткие модели и медленная окупаемость инвестиций, и предоставляет унифицированную платформу искусственного интеллекта для всех организационных работ.

Le Chat Enterprise вскоре будет поддерживать протокол MCP, стандарт, предложенный Anthropic для подключения искусственного интеллекта к системам данных и программному обеспечению.

Перспективы Mistral Large

Mistral AI также сообщила в своем блоге, что, хотя Mistral Small и Mistral Medium уже выпущены, в ближайшие недели у них есть «большой» план, а именно Mistral Large. Они заявили, что только что выпущенная производительность Mistral Medium уже намного лучше, чем у ведущих моделей с открытым исходным кодом, таких как Llama 4 Maverick, и производительность Mistral Large заслуживает еще большего внимания.

Реальная ситуация с пользовательскими тестами

Однако после того, как Mistral AI широко разрекламировала мощную производительность Mistral Medium 3, средства массовой информации и пользователи быстро провели реальные тесты, и результаты оказались обескураживающими.

Разрыв в тестах производительности

В оценке, основанной на головоломках с классификацией словарного запаса из колонки «Связи» New York Times, производительность Mistral Medium 3 разочаровала, и ее почти не было видно. В новом тесте из 100 вопросов он даже не вошел в число лучших моделей.

Некоторые пользователи после тестирования заявили, что в возможностях письма Mistral Medium 3 не наблюдается очевидного прогресса. Однако в оценке LLM он находится на переднем крае Парето.

Тест Zhu Liang показал, что Mistral Medium 3 демонстрирует хорошую производительность как в написании кода, так и в создании текста, войдя в пятерку лучших в обеих оценках.

Производительность в задачах кодирования

В простой задаче кодирования (приложение Next.js TODO) Mistral Medium 3 сгенерировала четкий и понятный ответ, получив оценку, аналогичную Gemini 2.5 Pro и Claude 3.5 Sonnet, но уступая DeepSeek V3 (новый) и GPT-4.1.

В сложной задаче кодирования (визуализация тестов) Mistral Medium 3 выдавала результаты, в среднем аналогичные Gemini 2.5 Pro и DeepSeek V3 (новый), но уступающие GPT-4.1, o3 и Claude 3.7 Sonnet.

Оценка навыков письма

В плане написания Mistral Medium 3 охватывает большинство основных моментов, но имеет неправильный формат, получая оценки, аналогичные DeepSeek V3 (новый) и Claude 3.7 Sonnet, и уступая GPT-4.1 и Gemini 2.5 Pro.

Известный человек «karminski-стоматолог» после реального тестирования также сказал, что производительность Mistral Medium 3 не так сильна, как рекламировалось официально, и посоветовал пользователям не загружать ее, чтобы не тратить трафик и место на жестком диске.

Сравнение и размышления

Случай с Mistral Medium 3 еще раз напоминает нам, что при оценке производительности моделей искусственного интеллекта нельзя полагаться только на официальную рекламу и результаты тестов, а следует уделять больше внимания фактическому опыту пользователей и сторонним оценкам.

Официальная реклама часто избирательно демонстрирует преимущества модели, игнорируя ее недостатки. Хотя тесты могут предоставить определенную справочную ценность, они не могут полностью отразить производительность модели в реальном мире. Фактический опыт пользователей и сторонние оценки являются более объективными и всесторонними, и могут помочь нам более точно понять преимущества и недостатки модели.

Кроме того, на производительность моделей искусственного интеллекта влияет ряд факторов, включая данные обучения, архитектуру модели и алгоритмы оптимизации. Разные модели могут демонстрировать разные преимущества и недостатки в разных задачах. Поэтому при выборе модели искусственного интеллекта необходимо учитывать конкретные сценарии применения и потребности.

Огромный разрыв между выпуском Mistral Medium 3 и результатами пользовательских тестов также вызвал обсуждение стандартов оценки моделей искусственного интеллекта. Как создать более научную, объективную и всестороннюю систему оценки моделей искусственного интеллекта - вопрос, который заслуживает углубленного изучения.

Влияние на отрасль

Событие с Mistral Medium 3 также оказало определенное влияние на всю индустрию искусственного интеллекта. С одной стороны, оно напоминает компаниям, занимающимся искусственным интеллектом, что необходимо уделять больше внимания пользовательскому опыту и избегать чрезмерной рекламы и ложной рекламы. С другой стороны, оно также побуждает специалистов в области искусственного интеллекта уделять больше внимания разработке и улучшению стандартов оценки моделей искусственного интеллекта.

В будущем, по мере непрерывного развития технологий искусственного интеллекта, производительность моделей искусственного интеллекта будет непрерывно улучшаться, а сценарии применения будут непрерывно расширяться. Нам необходимо относиться к технологиям искусственного интеллекта более рационально и объективно, не только видя их огромный потенциал, но и осознавая их ограничения. Только так мы сможем лучше использовать технологии искусственного интеллекта для создания ценности для человеческого общества.

Короче говоря, случай с Mistral Medium 3 является предупреждением, напоминающим нам, что при оценке моделей искусственного интеллекта необходимо сохранять критическое мышление, не слепо верить официальной рекламе, а сочетать фактический опыт и сторонние оценки, чтобы сделать рациональное суждение.