A startup francesa Mistral AI lançou recentemente seu mais recente modelo multimodal, o Mistral Medium 3, alegando que seu desempenho é comparável ao poderoso Claude Sonnet 3.7, enquanto custa menos que o DeepSeek V3. Esta notícia imediatamente chamou a atenção da comunidade tecnológica. No entanto, os usuários descobriram, após testes práticos, que o desempenho do modelo difere significativamente da publicidade oficial, com alguns até recomendando que os usuários não percam tempo e recursos para baixá-lo.
A Promoção Oficial do Mistral Medium 3
A Mistral AI enfatizou em seu blog oficial vários destaques principais do Mistral Medium 3:
- Equilíbrio entre desempenho e custo: O Mistral Medium 3 tem como objetivo fornecer desempenho de ponta, reduzindo os custos para um oitavo do original, acelerando assim as aplicações empresariais.
- Vantagens em cenários de aplicação profissional: O modelo demonstra excelente desempenho em áreas profissionais, como escrita de código e compreensão multimodal.
- Recursos de nível empresarial: O Mistral Medium 3 oferece uma gama de recursos de nível empresarial, incluindo suporte para implantação em nuvem híbrida, implantação local e implantação dentro de VPCs, bem como treinamento pós-personalização e integração em ferramentas e sistemas corporativos.
A API do Mistral Medium 3 já está disponível no Mistral La Plateforme e no Amazon Sagemaker, e está programada para chegar em breve ao IBM WatsonX, NVIDIA NIM, Azure AI Foundry e Google Cloud Vertex.
Comparação de Métricas de Desempenho
A Mistral AI afirma que, em vários testes de benchmark, o desempenho do Mistral Medium 3 atinge ou mesmo excede 90% do Claude Sonnet 3.7, mas com custos significativamente mais baixos. Especificamente, o custo de entrada do Mistral Medium 3 é de US$ 0,4 por milhão de tokens, e o custo de saída é de US$ 2.
Além disso, o desempenho do Mistral Medium 3 é alegado superar os modelos líderes de código aberto, como o Llama 4 Maverick e o Cohere Command A. Seja por meio de API ou implantação autônoma, o custo do Mistral Medium 3 é menor do que o DeepSeek V3. O modelo também pode ser implantado em qualquer nuvem, incluindo ambientes auto-hospedados com quatro GPUs ou mais.
Foco em Aplicações de Nível Empresarial
A Mistral AI enfatiza que o objetivo do Mistral Medium 3 é se tornar um modelo com desempenho de ponta, especialmente com excelente desempenho em tarefas de codificação e STEM, com desempenho próximo ao de concorrentes maiores e mais lentos.
Os dados divulgados oficialmente mostram que o desempenho do Mistral Medium 3 basicamente supera o Llama 4 Maverick e o GPT-4o, aproximando-se dos níveis do Claude Sonnet 3.7 e do DeepSeek 3.1.
Para verificar ainda mais o desempenho do modelo, a Mistral AI também divulgou os resultados de avaliações humanas de terceiros, que são mais representativas de casos de uso do mundo real. Os resultados mostram que o Mistral Medium 3 tem um excelente desempenho na área de codificação e oferece melhor desempenho em todos os aspectos do que outros concorrentes.
O Mistral Medium 3 também supera outros modelos SOTA em termos de capacidade de se adaptar a ambientes empresariais. Ele fornece às empresas uma forma de integrar totalmente a inteligência em seus sistemas corporativos, resolvendo os desafios enfrentados pelas empresas em microajustes de API e personalização de modelos.
Le Chat Enterprise
A Mistral AI também lançou o Le Chat Enterprise, alimentado pelo modelo Mistral Medium 3, um serviço de chatbot para empresas. Ele fornece uma ferramenta de construção de agente de IA e integra os modelos da Mistral com serviços de terceiros como Gmail, Google Drive e SharePoint.
O Le Chat Enterprise visa resolver os desafios de IA que as empresas enfrentam, como fragmentação de ferramentas, integração insegura de conhecimento, modelos rígidos e retorno lento sobre o investimento, fornecendo uma plataforma de IA unificada para todos os trabalhos organizacionais.
O Le Chat Enterprise em breve suportará o protocolo MCP, um padrão proposto pela Anthropic para conectar IA a sistemas de dados e software.
Perspectivas para o Mistral Large
A Mistral AI também revelou em seu blog que, embora o Mistral Small e o Mistral Medium já tenham sido lançados, eles têm um “grande” plano nas próximas semanas, que é o Mistral Large. Eles disseram que o Mistral Medium recém-lançado já superou os principais modelos de código aberto, como o Llama 4 Maverick, e o desempenho do Mistral Large é ainda mais esperado.
A Situação Real dos Testes Práticos do Usuário
No entanto, após a Mistral AI ter divulgado amplamente o poderoso desempenho do Mistral Medium 3, a mídia e os usuários realizaram rapidamente testes práticos, e os resultados foram decepcionantes.
A Queda no Teste de Desempenho
Na avaliação baseada nas questões de classificação de vocabulário da coluna Connections do New York Times, o desempenho do Mistral Medium 3 foi decepcionante, e quase não foi encontrado. Na nova avaliação de 100 questões, ele também não estava no topo dos modelos da primeira fila.
Alguns usuários testaram e relataram que não houve melhoria óbvia na capacidade de escrita do Mistral Medium 3. No entanto, na avaliação LLM, ele está na fronteira de Pareto.
O teste de Zhu Liang descobriu que o Mistral Medium 3 tem um desempenho sólido na escrita de código e na geração de texto, ficando entre os cinco primeiros nessas duas avaliações.
Desempenho em Tarefas de Codificação
Em uma tarefa de codificação simples (aplicativo Next.js TODO), o Mistral Medium 3 gerou respostas concisas e claras, com pontuações semelhantes ao Gemini 2.5 Pro e ao Claude 3.5 Sonnet, mas inferior ao DeepSeek V3 (novo) e ao GPT-4.1.
Em uma tarefa de codificação complexa (visualização de benchmark), o Mistral Medium 3 produziu resultados médios semelhantes ao Gemini 2.5 Pro e ao DeepSeek V3 (novo), mas inferior ao GPT-4.1, o3 e ao Claude 3.7 Sonnet.
Avaliação da Capacidade de Escrita
Em termos de escrita, o Mistral Medium 3 cobriu a maioria dos pontos-chave, mas o formato estava incorreto, com pontuações semelhantes ao DeepSeek V3 (novo) e ao Claude 3.7 Sonnet, inferior ao GPT-4.1 e ao Gemini 2.5 Pro.
A figura conhecida “karminski-dentista” também disse após testes práticos que o desempenho do Mistral Medium 3 não é tão forte quanto o alardeado oficialmente, e recomendou que os usuários não o baixem para evitar o desperdício de tráfego e espaço em disco.
Comparação e Reflexão
O caso do Mistral Medium 3 nos lembra mais uma vez que, ao avaliar o desempenho de modelos de IA, não podemos depender apenas da propaganda oficial e dos resultados de testes de benchmark, mas devemos dar mais importância à experiência prática do usuário e à avaliação de terceiros.
A propaganda oficial muitas vezes mostrará seletivamente as vantagens do modelo, ignorando suas deficiências. Embora os testes de benchmark possam fornecer algum valor de referência, eles não podem refletir totalmente o desempenho do modelo no mundo real. A experiência prática do usuário e a avaliação de terceiros são mais objetivas e abrangentes e podem nos ajudar a entender com mais precisão os pontos fortes e fracos do modelo.
Além disso, o desempenho dos modelos de IA também é afetado por vários fatores, incluindo dados de treinamento, arquitetura do modelo, algoritmos de otimização, etc. Diferentes modelos podem apresentar diferentes pontos fortes e fracos em diferentes tarefas. Portanto, ao escolher modelos de IA, é necessário considerar de forma abrangente com base nos cenários de aplicação e necessidades específicas.
A enorme diferença entre o lançamento do Mistral Medium 3 e os resultados dos testes práticos do usuário também provocou discussões sobre os padrões de avaliação de modelos de IA. Como estabelecer um sistema de avaliação de modelos de IA mais científico, objetivo e abrangente é uma questão que merece exploração aprofundada.
Impacto na Indústria
O evento Mistral Medium 3 também teve um certo impacto em toda a indústria de IA. Por um lado, lembra às empresas de IA que devem prestar mais atenção à experiência do usuário e evitar propaganda excessiva e publicidade falsa. Por outro lado, também leva os profissionais da área de IA a prestar mais atenção à formulação e melhoria de padrões de avaliação de modelos de IA.
No futuro, com o desenvolvimento contínuo da tecnologia de IA, o desempenho dos modelos de IA continuará a melhorar e os cenários de aplicação continuarão a se expandir. Precisamos encarar a tecnologia de IA com uma atitude mais racional e objetiva, não apenas vendo seu enorme potencial, mas também reconhecendo suas limitações. Somente assim podemos usar melhor a tecnologia de IA para criar valor para a sociedade humana.
Em suma, o caso do Mistral Medium 3 é um aviso, lembrando-nos de manter o pensamento crítico ao avaliar modelos de IA, não acreditar cegamente na propaganda oficial, mas combinar a experiência prática e a avaliação de terceiros para fazer julgamentos racionais.