A startup francesa Mistral AI lançou recentemente seu mais recente modelo multimodal, o Mistral Medium 3, que gerou grande atenção na indústria. A Mistral afirma que o desempenho deste modelo pode igualar ou mesmo superar 90% do Claude Sonnet 3.7, enquanto o custo é menor que o do DeepSeek V3, tornando-o uma escolha econômica. No entanto, os resultados dos testes reais mostram uma certa discrepância em relação à promoção oficial, levantando discussões sobre a autenticidade do desempenho do modelo.
Principais Destaques do Mistral Medium 3
A Mistral listou vários destaques principais do Mistral Medium 3 em seu blog oficial:
- Equilíbrio entre Desempenho e Custo: O Mistral Medium 3 visa alcançar o melhor desempenho, reduzindo o custo para um oitavo do original e simplificando o processo de implantação, acelerando assim as aplicações empresariais.
- Excelente Desempenho em Cenários de Aplicação Profissional: Este modelo se destaca em cenários de aplicação profissional, como codificação e compreensão multimodal.
- Funcionalidades de Nível Empresarial: O Mistral Medium 3 fornece uma série de funcionalidades de nível empresarial, incluindo suporte para implantação em nuvem híbrida, implantação local e implantação dentro de VPC, treinamento pós-personalização e integração em ferramentas e sistemas empresariais.
A API Mistral Medium 3 já está disponível no Mistral La Plateforme e no Amazon Sagemaker, e em breve estará disponível no IBM WatsonX, NVIDIA NIM, Azure AI Foundry e Google Cloud Vertex.
A Troca entre Desempenho e Custo
Um dos principais argumentos de venda do Mistral Medium 3 é sua grande redução de custo, ao mesmo tempo que oferece desempenho de ponta. Os dados oficiais mostram que, em vários testes de benchmark, o desempenho do Mistral Medium 3 atinge ou mesmo excede 90% do Claude Sonnet 3.7, mas o custo é significativamente reduzido (custo de entrada de US$ 0,4 por milhão de tokens e custo de saída de US$ 2).
Além disso, o desempenho do Mistral Medium 3 também supera modelos de código aberto líderes, como o Llama 4 Maverick e o Cohere Command A. Seja API ou implantação autônoma, o custo do Mistral Medium 3 é menor que o do DeepSeek V3.
O Mistral Medium 3 também pode ser implantado em qualquer nuvem, incluindo ambientes auto-hospedados com quatro ou mais GPUs, proporcionando maior flexibilidade para as empresas.
A Busca pelo Desempenho Máximo
A Mistral afirma que o objetivo do Mistral Medium 3 é se tornar um modelo com desempenho de ponta, especialmente com excelente desempenho em tarefas de codificação e STEM, com desempenho próximo ao de concorrentes maiores e mais lentos.
A tabela fornecida pela Mistral mostra que o desempenho do Mistral Medium 3 basicamente superou o Llama 4 Maverick e o GPT-4o, aproximando-se dos níveis do Claude Sonnet 3.7 e do DeepSeek 3.1. No entanto, esses dados vêm principalmente de testes de benchmark acadêmicos e podemnão refletir totalmente o desempenho do modelo em aplicações práticas.
O Complemento da Avaliação Humana
Para avaliar de forma mais abrangente o desempenho do Mistral Medium 3, a Mistral também divulgou os resultados da avaliação humana de terceiros. A avaliação humana representa melhor os casos de uso do mundo real e pode compensar as deficiências dos testes de benchmark acadêmicos.
A partir dos resultados da avaliação humana, o Mistral Medium 3 tem um excelente desempenho no campo da codificação e oferece melhor desempenho do que outros concorrentes em todos os aspectos. Isso indica que o Mistral Medium 3 pode ter certas vantagens em aplicações práticas.
Projetado para Aplicações de Nível Empresarial
O Mistral Medium 3 é melhor do que outros modelos SOTA em termos de capacidade de se adaptar a ambientes empresariais. Quando as empresas enfrentam a difícil escolha de ajustar através da API ou auto-implantar e personalizar o comportamento do modelo do zero, o Mistral Medium 3 oferece uma forma de integrar totalmente a inteligência nos sistemas empresariais.
Para atender ainda mais às necessidades empresariais, a Mistral também lançou o Le Chat Enterprise, um serviço de chatbot voltado para empresas, impulsionado pelo modelo Mistral Medium 3. O Le Chat Enterprise fornece uma ferramenta de construção de agentes inteligentes de IA e integra os modelos da Mistral com serviços de terceiros, como Gmail, Google Drive e SharePoint, com o objetivo de resolver os desafios de IA enfrentados pelas empresas, como fragmentação de ferramentas, integração insegura de conhecimento, modelos rígidos e retornos lentos sobre o investimento, fornecendo uma plataforma de IA unificada para todo o trabalho organizacional.
O Le Chat Enterprise em breve suportará o protocolo MCP, um padrão proposto pela Anthropic para conectar IA com sistemas de dados e software.
Perspectivas Futuras da Mistral
A Mistral revelou em seu blog que, embora o Mistral Small e o Mistral Medium já tenham sido lançados, eles têm um “grande” plano nas próximas semanas, que é o Mistral Large. Eles disseram que o desempenho do Mistral Medium recém-lançado já superou em muito os principais modelos de código aberto, como o Llama 4 Maverick, e o desempenho do Mistral Large é ainda mais digno de expectativa.
O lançamento do Mistral Large, sem dúvida, aumentará ainda mais a competitividade da Mistral no campo da IA e fornecerá mais opções para os usuários.
A Lacuna nos Testes Reais
Embora a Mistral esteja confiante no desempenho do Mistral Medium 3 e afirme que ele supera 90% do Claude Sonnet 3.7, os resultados dos testes reais revelam alguns problemas.
A mídia e os internautas rapidamente iniciaram testes reais do Mistral Medium 3, mas os resultados foram decepcionantes. Na avaliação baseada nas questões de classificação de palavras da coluna Connections do The New York Times, o Medium 3 ficou em último lugar, quase não sendo encontrado em lugar nenhum. Em uma nova avaliação de 100 questões, ele não está entre os melhores modelos.
Alguns usuários testaram o Medium 3 e disseram que sua capacidade de escrita ainda é a mesma de antes, sem melhorias óbvias. No entanto, na avaliação do LLM, ele está na fronteira de Pareto.
Os resultados dos testes de Zhu Liang mostram que o Mistral Medium 3 tem um desempenho sólido tanto na codificação quanto na geração de texto, ficando entre os cinco primeiros nessas duas avaliações.
Em tarefas simples de codificação (aplicativo Next.js TODO):
- Ele gerou respostas concisas e claras
- A pontuação é semelhante à do Gemini 2.5 Pro e Claude 3.5 Sonnet
- Inferior ao DeepSeek V3 (novo) e GPT-4.1
Em tarefas complexas de codificação (visualização de benchmark):
- Produziu resultados médios semelhantes ao Gemini 2.5 Pro e DeepSeek V3 (novo)
- Inferior ao GPT-4.1, o3 e Claude 3.7 Sonnet
Na escrita:
- Seu conteúdo cobriu a maioria dos pontos-chave, mas o formato estava incorreto
- A pontuação é semelhante à do DeepSeek V3 (novo) e Claude 3.7 Sonnet
- Inferior ao GPT-4.1 e Gemini 2.5 Pro
O renomado “karminski-dentista” descobriu após testes reais que o desempenho do Mistral Medium 3 não é tão poderoso quanto o anunciado oficialmente, e até sugeriu que os usuários não o baixassem para evitar desperdiçar tráfego e espaço em disco.
Conclusão
O Mistral Medium 3, como uma tentativa inovadora no campo da IA europeia, busca um equilíbrio entre desempenho e custo e é otimizado para aplicações de nível empresarial. No entanto, os resultados dos testes reais mostram uma certa discrepância em relação à promoção oficial, indicando que a Mistral pode ter exagerado na promoção do desempenho do modelo.
Apesar disso, o Mistral Medium 3 ainda tem um certo potencial, especialmente em áreas como codificação e geração de texto. No futuro, a Mistral precisa melhorar ainda mais o desempenho do modelo e fortalecer os testes de aplicação prática para conquistar a confiança dos usuários. Ao mesmo tempo, o lançamento do Mistral Large também é digno de expectativa, talvez possa compensar as deficiências do Mistral Medium 3 e trazer uma melhor experiência para os usuários.
Em suma, o lançamento do Mistral Medium 3 reflete a exploração ativa e o espírito inovador da Europa no campo da IA. Embora haja uma lacuna entre o desempenho real e as expectativas, a Mistral ainda merece atenção e seu desenvolvimento futuro é digno de expectativa.