Французский стартап Mistral AI недавно представил свою последнюю мультимодальную модель Mistral Medium 3, утверждая, что ее производительность сопоставима с мощной Claude Sonnet 3.7, а стоимость ниже, чем у DeepSeek V3. Эта новость сразу же вызвала широкий интерес в технологическом сообществе. Однако, как выяснилось после реальных тестов пользователей, производительность этой модели значительно отличается от официальной рекламы, и даже некоторые советуют пользователям не тратить время и ресурсы на ее загрузку.
Официальная реклама Mistral Medium 3
Mistral AI в своем официальном блоге выделила несколько ключевых особенностей Mistral Medium 3:
- Баланс производительности и стоимости: Mistral Medium 3 призвана обеспечить максимальную производительность при снижении стоимости до одной восьмой от первоначальной, что позволит ускорить применение в бизнесе.
- Преимущества в специализированных приложениях: Модель отлично справляется с такими профессиональными задачами, как написание кода и мультимодальное понимание.
- Функции корпоративного уровня: Mistral Medium 3 предоставляет ряд функций корпоративного уровня, включая поддержку гибридного облачного развертывания, локального развертывания и развертывания внутри VPC, а также последующую настройку и интеграцию в корпоративные инструменты и системы.
Mistral Medium 3 API уже доступен на Mistral La Plateforme и Amazon Sagemaker и вскоре планируется к запуску на IBM WatsonX, NVIDIA NIM, Azure AI Foundry и Google Cloud Vertex.
Сравнение показателей производительности
Mistral AI заявила, что в различных бенчмарках производительность Mistral Medium 3 достигает или даже превышает 90% от Claude Sonnet 3.7, но при этом значительно снижает стоимость. В частности, входная стоимость Mistral Medium 3 составляет 0,4 доллара США за миллион токенов, а выходная стоимость - 2 доллара США.
Кроме того, производительность Mistral Medium 3, как утверждается, превосходит такие ведущие модели с открытым исходным кодом, как Llama 4 Maverick и Cohere Command A. Независимо от того, используется ли API или автономное развертывание, Mistral Medium 3 стоит дешевле, чем DeepSeek V3. Модель также может быть развернута в любом облаке, включая собственные хостинговые среды с четырьмя и более графическими процессорами.
Ориентация на корпоративные приложения
Mistral AI подчеркивает, что цель Mistral Medium 3 - стать первоклассной моделью, особенно в задачах кодирования и STEM, с производительностью, близкой к конкурентам, которые больше и медленнее.
Официально опубликованные данные показывают, что производительность Mistral Medium 3 в основном превосходит Llama 4 Maverick и GPT-4o, приближаясь к уровням Claude Sonnet 3.7 и DeepSeek 3.1.
Чтобы дополнительно проверить производительность модели, Mistral AI также опубликовала результаты сторонней ручной оценки, которые более репрезентативны для реальных сценариев использования. Результаты показывают, что Mistral Medium 3 отлично справляется с кодированием и обеспечивает лучшую производительность, чем другие конкуренты, во всех аспектах.
Mistral Medium 3 также превосходит другие модели SOTA с точки зрения способности адаптироваться к корпоративной среде. Он предоставляет предприятиям способ всесторонней интеграции интеллекта в корпоративные системы, решая проблемы предприятий с тонкой настройкой API и настройкой моделей.
Le Chat Enterprise
Mistral AI также представила Le Chat Enterprise, сервис чат-ботов для предприятий на основе модели Mistral Medium 3. Он предоставляет инструмент для создания интеллектуальных агентов с искусственным интеллектом и интегрирует модели Mistral со сторонними сервисами, такими как Gmail, Google Drive и SharePoint.
Le Chat Enterprise призвана решить проблемы искусственного интеллекта, с которыми сталкиваются предприятия, такие как фрагментация инструментов, небезопасная интеграция знаний, жесткие модели и медленная окупаемость инвестиций, и предоставляет унифицированную платформу искусственного интеллекта для всех организационных работ.
Le Chat Enterprise вскоре будет поддерживать протокол MCP, стандарт, предложенный Anthropic для подключения искусственного интеллекта к системам данных и программному обеспечению.
Перспективы Mistral Large
Mistral AI также сообщила в своем блоге, что, хотя Mistral Small и Mistral Medium уже выпущены, в ближайшие недели у них есть «большой» план, а именно Mistral Large. Они заявили, что только что выпущенная производительность Mistral Medium уже намного лучше, чем у ведущих моделей с открытым исходным кодом, таких как Llama 4 Maverick, и производительность Mistral Large заслуживает еще большего внимания.
Реальная ситуация с пользовательскими тестами
Однако после того, как Mistral AI широко разрекламировала мощную производительность Mistral Medium 3, средства массовой информации и пользователи быстро провели реальные тесты, и результаты оказались обескураживающими.
Разрыв в тестах производительности
В оценке, основанной на головоломках с классификацией словарного запаса из колонки «Связи» New York Times, производительность Mistral Medium 3 разочаровала, и ее почти не было видно. В новом тесте из 100 вопросов он даже не вошел в число лучших моделей.
Некоторые пользователи после тестирования заявили, что в возможностях письма Mistral Medium 3 не наблюдается очевидного прогресса. Однако в оценке LLM он находится на переднем крае Парето.
Тест Zhu Liang показал, что Mistral Medium 3 демонстрирует хорошую производительность как в написании кода, так и в создании текста, войдя в пятерку лучших в обеих оценках.
Производительность в задачах кодирования
В простой задаче кодирования (приложение Next.js TODO) Mistral Medium 3 сгенерировала четкий и понятный ответ, получив оценку, аналогичную Gemini 2.5 Pro и Claude 3.5 Sonnet, но уступая DeepSeek V3 (новый) и GPT-4.1.
В сложной задаче кодирования (визуализация тестов) Mistral Medium 3 выдавала результаты, в среднем аналогичные Gemini 2.5 Pro и DeepSeek V3 (новый), но уступающие GPT-4.1, o3 и Claude 3.7 Sonnet.
Оценка навыков письма
В плане написания Mistral Medium 3 охватывает большинство основных моментов, но имеет неправильный формат, получая оценки, аналогичные DeepSeek V3 (новый) и Claude 3.7 Sonnet, и уступая GPT-4.1 и Gemini 2.5 Pro.
Известный человек «karminski-стоматолог» после реального тестирования также сказал, что производительность Mistral Medium 3 не так сильна, как рекламировалось официально, и посоветовал пользователям не загружать ее, чтобы не тратить трафик и место на жестком диске.
Сравнение и размышления
Случай с Mistral Medium 3 еще раз напоминает нам, что при оценке производительности моделей искусственного интеллекта нельзя полагаться только на официальную рекламу и результаты тестов, а следует уделять больше внимания фактическому опыту пользователей и сторонним оценкам.
Официальная реклама часто избирательно демонстрирует преимущества модели, игнорируя ее недостатки. Хотя тесты могут предоставить определенную справочную ценность, они не могут полностью отразить производительность модели в реальном мире. Фактический опыт пользователей и сторонние оценки являются более объективными и всесторонними, и могут помочь нам более точно понять преимущества и недостатки модели.
Кроме того, на производительность моделей искусственного интеллекта влияет ряд факторов, включая данные обучения, архитектуру модели и алгоритмы оптимизации. Разные модели могут демонстрировать разные преимущества и недостатки в разных задачах. Поэтому при выборе модели искусственного интеллекта необходимо учитывать конкретные сценарии применения и потребности.
Огромный разрыв между выпуском Mistral Medium 3 и результатами пользовательских тестов также вызвал обсуждение стандартов оценки моделей искусственного интеллекта. Как создать более научную, объективную и всестороннюю систему оценки моделей искусственного интеллекта - вопрос, который заслуживает углубленного изучения.
Влияние на отрасль
Событие с Mistral Medium 3 также оказало определенное влияние на всю индустрию искусственного интеллекта. С одной стороны, оно напоминает компаниям, занимающимся искусственным интеллектом, что необходимо уделять больше внимания пользовательскому опыту и избегать чрезмерной рекламы и ложной рекламы. С другой стороны, оно также побуждает специалистов в области искусственного интеллекта уделять больше внимания разработке и улучшению стандартов оценки моделей искусственного интеллекта.
В будущем, по мере непрерывного развития технологий искусственного интеллекта, производительность моделей искусственного интеллекта будет непрерывно улучшаться, а сценарии применения будут непрерывно расширяться. Нам необходимо относиться к технологиям искусственного интеллекта более рационально и объективно, не только видя их огромный потенциал, но и осознавая их ограничения. Только так мы сможем лучше использовать технологии искусственного интеллекта для создания ценности для человеческого общества.
Короче говоря, случай с Mistral Medium 3 является предупреждением, напоминающим нам, что при оценке моделей искусственного интеллекта необходимо сохранять критическое мышление, не слепо верить официальной рекламе, а сочетать фактический опыт и сторонние оценки, чтобы сделать рациональное суждение.