Mistral Medium 3: AI предизвикателство

Френският стартъп Mistral AI наскоро представи най-новия си мултимодален модел Mistral Medium 3, твърдейки, че производителността му може да се сравни със силния Claude Sonnet 3.7 и че е по-евтин от DeepSeek V3. Тази новина незабавно предизвика широк интерес в технологичната общност. Въпреки това, потребителите установиха след реални тестове, че представянето на този модел се различава значително от официалната реклама и дори някои потребители препоръчват да не си губите времето и ресурсите за изтегляне.

Официална реклама на Mistral Medium 3

Mistral AI подчерта няколко ключови акцента на Mistral Medium 3 в официалния си блог:

  • Баланс между производителност и цена: Mistral Medium 3 е проектиран да осигури максимална производителност, като същевременно намали разходите до една осма от предишните, ускорявайки корпоративните приложения.
  • Предимства в специализирани приложения: Моделът превъзхожда професионални области като писане на код и мултимодално разбиране.
  • Функции от корпоративен клас: Mistral Medium 3 предлага набор от функции от корпоративен клас, включително поддръжка за хибридно облачно внедряване, локално внедряване и внедряване във VPC, както и персонализирано обучение и интегриране в корпоративни инструменти и системи.

Mistral Medium 3 API е вече онлайн на Mistral La Plateforme и Amazon Sagemaker и скоро ще бъде пуснат на IBM WatsonX, NVIDIA NIM, Azure AI Foundry и Google Cloud Vertex.

Сравнение на показателите за ефективност

Mistral AI твърди, че в редица бенчмарк тестове производителността на Mistral Medium 3 достига или дори надвишава 90% от тази на Claude Sonnet 3.7, но цената е значително по-ниска. По-конкретно, входните разходи за Mistral Medium 3 са 0,4 долара на милион токени, а разходите за изход са 2 долара.

В допълнение, производителността на Mistral Medium 3 се твърди, че надминава водещи модели с отворен код като Llama 4 Maverick и Cohere Command A. Независимо дали чрез API или самостоятелно внедряване, Mistral Medium 3 е по-евтин от DeepSeek V3. Моделът може да бъде внедрен във всеки облак, включително самостоятелно хоствана среда с четири или повече графични процесора.

Фокус върху корпоративните приложения

Mistral AI подчерта, че целта на Mistral Medium 3 е да бъде модел с най-добра производителност, особено в кодирането и STEM задачите, като производителността е близка до тази на по-големите и по-бавни конкуренти.

Официално публикуваните данни показват, че Mistral Medium 3 по същество надминава Llama 4 Maverick и GPT-4o и е близо до нивата на Claude Sonnet 3.7 и DeepSeek 3.1.

За допълнително потвърждаване на производителността на модела, Mistral AI публикува и резултатите от независими човешки оценки, които са по-представителни за реални случаи на употреба. Резултатите показват, че Mistral Medium 3 се представя добре в кодирането и осигурява по-добра производителност във всички области от другите конкуренти.

Mistral Medium 3 също е по-добър от другите SOTA модели по отношение на способността да се адаптира към корпоративна среда. Той предоставя на бизнеса начин да интегрира интелигентността напълно в корпоративните системи, решавайки предизвикателствата, пред които са изправени предприятията с API фина настройка и персонализиране на моделите.

Le Chat Enterprise

Mistral AI също така представи Le Chat Enterprise, услуга за чат бот, задвижвана от модела Mistral Medium 3, насочена към предприятия. Той предоставя инструмент за изграждане на AI интелигентен агент и интегрира моделите на Mistral със услуги на трети страни като Gmail, Google Drive и SharePoint.

Le Chat Enterprise е проектиран да решава AI предизвикателствата, пред които са изправени предприятията, като фрагментиране на инструменти, несигурна интеграция на знания, негъвкави модели и бавна възвръщаемост на инвестициите, предоставяйки унифицирана AI платформа за цялата организационна работа.

Le Chat Enterprise скоро ще поддържа MCP протокола, стандарт, предложен от Anthropic за свързване на AI със системи за данни и софтуер.

Очаквания за Mistral Large

Mistral AI също разкри в блога, че въпреки че Mistral Small и Mistral Medium са пуснати, през следващите няколко седмици те имат „голям“ план, който е Mistral Large. Те казаха, че току-що пуснатият Mistral Medium вече е много по-добър от водещи модели с отворен код като Llama 4 Maverick и производителността на Mistral Large е по-вълнуваща.

Реалното състояние на потребителските тестове

Въпреки това, след като Mistral AI рекламира мощната производителност на Mistral Medium 3, медиите и потребителите бързо започнаха реални тестове и резултатите бяха шокиращи.

Разлика в тестовете за производителност

В оценките, базирани на рубриката за класификация на речника Connections на New York Times, представянето на Mistral Medium 3 е разочароващо и почти не може да бъде намерено. В чисто новия тест със 100 въпроса той не е сред водещите модели.

Някои потребители след тестване казаха, че няма очевидно подобрение в способността за писане на Mistral Medium 3. Въпреки това, в оценката на LLM, тя е на преден план на Парето.

Тестът на Zhu Liang установи, че Mistral Medium 3 се представя солидно в писането на код и генерирането на текст, като и в двете оценки е в топ 5.

Представяне на задачи за кодиране

В проста задача за кодиране (Next.js TODO приложение), Mistral Medium 3 генерира ясни и кратки отговори, като оценките са подобни на Gemini 2.5 Pro и Claude 3.5 Sonnet, но по-лоши от DeepSeek V3 (нов) и GPT-4.1.

В сложна задача за кодиране (визуализация на бенчмарк), Mistral Medium 3 генерира средни резултати, подобни на Gemini 2.5 Pro и DeepSeek V3 (нов), но по-лоши от GPT-4.1, o3 и Claude 3.7 Sonnet.

Оценка на уменията за писане

По отношение на писането, Mistral Medium 3 покрива повечето от основните моменти, но форматът е неправилен, оценките са подобни на DeepSeek V3 (нов) и Claude 3.7 Sonnet и не са толкова добри, колкото GPT-4.1 и Gemini 2.5 Pro.

Известната личност "karminski-зъболекар" също каза след реални тестове, че производителността на Mistral Medium 3 не е толкова силна, колкото официално се твърди, и препоръча на потребителите да не го изтеглят, за да избегнат загуба на трафик и дисково пространство.

Сравнение и размисъл

Случаят с Mistral Medium 3 отново ни напомня, че при оценката на производителността на AI модели не трябва да разчитаме само на официални реклами и резултати от бенчмарк тестове, а трябва да отдаваме по-голямо значение на реалния опит на потребителите и независимите оценки.

Официалните реклами често селективно показват силните страни на модела, като игнорират неговите недостатъци. Въпреки че бенчмарк тестовете могат да предоставят определена референтна стойност, те не могат напълно да отразят производителността на модела в реалния свят. Реалният опит на потребителите и независимите оценки са по-обективни и изчерпателни и могат да ни помогнат да разберем по-точно силните и слабите страни на модела.

В допълнение, производителността на AI моделите също е повлияна от различни фактори, включително данни за обучение, архитектура на модела, алгоритми за оптимизация и др. Различните модели могат да показват различни силни и слаби странив различни задачи. Следователно, при избора на AI модел е необходимо да се направи цялостна оценка въз основа на конкретни сценарии на приложение и нужди.

Огромната разлика между пускането на Mistral Medium 3 и резултатите от потребителските тестове също предизвика дискусии за стандартите за оценка на AI модели. Как да се изгради по-научна, обективна и изчерпателна система за оценка на AI модели е въпрос, който заслужава задълбочено проучване.

Влияние върху индустрията

Случаят с Mistral Medium 3 също оказа известно влияние върху цялата AI индустрия. От една страна, той напомня на AI компаниите да обръщат повече внимание на потребителското изживяване и да избягват прекомерната и невярна реклама. От друга страна, той също така насърчава практикуващите в областта на AI да обръщат повече внимание на формулирането и подобряването на стандартите за оценка на AI модели.

В бъдеще, с непрекъснатото развитие на AI технологията, производителността на AI моделите ще продължи да се подобрява, а сценариите на приложение ще продължат да се разширяват. Трябва да разглеждаме AI технологията с по-рационално и обективно отношение, като виждаме както нейния огромен потенциал, така и признаваме нейните ограничения. Само по този начин можем да използваме по-добре AI технологията, за да създадем стойност за човешкото общество.

В заключение, случаят с Mistral Medium 3 е предупреждение, което ни напомня да поддържаме критично мислене при оценката на AI модели, да не вярваме сляпо на официални реклами, а да комбинираме реален опит и независими оценки, за да направим рационална преценка.