Mistral Medium 3: Las Ambiciones y la Brecha con la Realidad
La startup francesa Mistral AI ha lanzado recientemente su último modelo multimodal, Mistral Medium 3, generando un gran interés en la industria. Mistral afirma que el rendimiento de este modelo puede igualar o incluso superar el 90% del rendimiento de Claude Sonnet 3.7, al tiempo que ofrece un costo inferior al de DeepSeek V3, lo que lo convierte en una opción atractiva en términos de relación calidad-precio. Sin embargo, los resultados de las pruebas reales han mostrado una diferencia significativa con respecto a las afirmaciones oficiales, lo que ha generado un debate sobre la veracidad del rendimiento del modelo.
Puntos Clave de Mistral Medium 3
En su blog oficial, Mistral ha destacado varios puntos clave de Mistral Medium 3:
- Equilibrio entre Rendimiento y Costo: Mistral Medium 3 está diseñado para ofrecer un rendimiento de vanguardia al tiempo que reduce los costos a una octava parte de los anteriores y simplifica el proceso de implementación, acelerando así las aplicaciones empresariales.
- Excelente Rendimiento en Escenarios de Aplicación Profesional: El modelo destaca en escenarios de aplicación profesional como la escritura de código y la comprensión multimodal.
- Funciones de Nivel Empresarial: Mistral Medium 3 ofrece una serie de funciones de nivel empresarial, incluido el soporte para la implementación en la nube híbrida, la implementación local y la implementación dentro de VPC, el entrenamiento posterior personalizado y la integración en herramientas y sistemas empresariales.
La API de Mistral Medium 3 ya está disponible en Mistral La Plateforme y Amazon Sagemaker, y pronto estará disponible en IBM WatsonX, NVIDIA NIM, Azure AI Foundry y Google Cloud Vertex.
La Compensación entre Rendimiento y Costo
Uno de los principales atractivos de Mistral Medium 3 es su capacidad para ofrecer un rendimiento de vanguardia al tiempo que reduce significativamente los costos. Los datos oficiales muestran que, en varias pruebas de referencia, el rendimiento de Mistral Medium 3 alcanza o incluso supera el 90% del rendimiento de Claude Sonnet 3.7, pero con un costo significativamente menor (el costo de entrada por millón de tokens es de $0.4 USD y el costo de salida es de $2 USD).
Además, el rendimiento de Mistral Medium 3 también supera a modelos de código abierto líderes como Llama 4 Maverick y Cohere Command A. Ya sea a través de API o implementación autónoma, el costo de Mistral Medium 3 es menor que el de DeepSeek V3.
Mistral Medium 3 también se puede implementar en cualquier nube, incluidos entornos autohospedados con cuatro o más GPU, lo que brinda a las empresas una mayor flexibilidad.
La Búsqueda del Máximo Rendimiento
Mistral afirma que el objetivo de Mistral Medium 3 es convertirse en un modelo de alto rendimiento, destacando especialmente en tareas de codificación y STEM, con un rendimiento que se acerca al de sus competidores más grandes y lentos.
La tabla proporcionada por Mistral muestra que el rendimiento de Mistral Medium 3 ha superado básicamente a Llama 4 Maverick y GPT-4o, acercándose al nivel de Claude Sonnet 3.7 y DeepSeek 3.1. Sin embargo, estos datos provienen principalmente de pruebas de referencia académicas y pueden no reflejar completamente el rendimiento del modelo en aplicaciones prácticas.
Complementos de la Evaluación Humana
Para evaluar de manera más integral el rendimiento de Mistral Medium 3, Mistral también ha publicado los resultados de evaluaciones humanas de terceros. La evaluación humana representa mejor los casos de uso del mundo real y puede complementar las deficiencias de las pruebas de referencia académicas.
De los resultados de la evaluación humana, Mistral Medium 3 se desempeña bien en el campo de la codificación y proporciona un mejor rendimiento en todos los aspectos que otros competidores. Esto indica que Mistral Medium 3 puede tener ciertas ventajas en aplicaciones prácticas.
Diseño Orientado a Aplicaciones Empresariales
Mistral Medium 3 supera a otros modelos SOTA en su capacidad para adaptarse a entornos empresariales. Cuando las empresas se enfrentan a la difícil elección de ajustar a través de API o autodeployar desde cero y personalizar el comportamiento del modelo, Mistral Medium 3 proporciona una forma de integrar la inteligencia de manera integral en los sistemas empresariales.
Para satisfacer aún más las necesidades empresariales, Mistral también ha lanzado Le Chat Enterprise, un servicio de chatbot para empresas impulsado por el modelo Mistral Medium 3. Le Chat Enterprise proporciona una herramienta de creación de agentes de IA e integra los modelos de Mistral con servicios de terceros como Gmail, Google Drive y SharePoint, con el objetivo de resolver los desafíos de IA que enfrentan las empresas, como la fragmentación de herramientas, la integración de conocimientos inseguros, los modelos rígidos y el lento retorno de la inversión, proporcionando una plataforma de IA unificada para todo el trabajo organizativo.
Le Chat Enterprise pronto admitirá el protocolo MCP, un estándar propuesto por Anthropic para conectar la IA con sistemas de datos y software.
Perspectivas Futuras de Mistral
Mistral reveló en su blog que, aunque Mistral Small y Mistral Medium ya se han lanzado, en las próximas semanas tienen un plan “grande”, que es Mistral Large. Afirman que el Mistral Medium recientemente lanzado ya supera con creces a los principales modelos de código abierto como Llama 4 Maverick, y que el rendimiento de Mistral Large es aún más prometedor.
El lanzamiento de Mistral Large sin duda mejorará aún más la competitividad de Mistral en el campo de la IA y brindará a los usuarios más opciones.
La Discrepancia en las Pruebas Reales
Aunque Mistral tiene plena confianza en el rendimiento de Mistral Medium 3 y afirma que supera el 90% del rendimiento de Claude Sonnet 3.7, los resultados de las pruebas reales han revelado algunos problemas.
Los medios y los internautas rápidamente realizaron pruebas prácticas de Mistral Medium 3, pero los resultados fueron decepcionantes. En la evaluación basada en las preguntas de clasificación de vocabulario de la columna Connections del New York Times, Medium 3 estaba en la última posición, casi imposible de encontrar. En una nueva evaluación de 100 preguntas, tampoco pudo clasificarse entre los modelos de primera fila.
Algunos usuarios que probaron Medium 3 dijeron que su capacidad de escritura seguía siendo la misma, sin una mejora significativa. Sin embargo, en la evaluación LLM, sí se encuentra en la frontera de Pareto.
Los resultados de las pruebas de Zhu Liang muestran que Mistral Medium 3 se desempeña de manera sólida tanto en la escritura de código como en la generación de texto, y se encuentra entre los cinco primeros en ambas evaluaciones.
En una tarea de codificación simple (aplicación Next.js TODO):
- Generó respuestas claras y concisas
- La puntuación es similar a la de Gemini 2.5 Pro y Claude 3.5 Sonnet
- Inferior a DeepSeek V3 (nuevo) y GPT-4.1
En una tarea de codificación compleja (visualización de pruebas de referencia):
- Produjo resultados promedio similares a Gemini 2.5 Pro y DeepSeek V3 (nuevo)
- Inferior a GPT-4.1, o3 y Claude 3.7 Sonnet
En la escritura:
- Su contenido cubrió la mayoría de los puntos clave, pero el formato era incorrecto
- La puntuación es similar a la de DeepSeek V3 (nuevo) y Claude 3.7 Sonnet
- Inferior a GPT-4.1 y Gemini 2.5 Pro
El conocido experto “karminski-dentista” descubrió después de realizar pruebas prácticas que el rendimiento de Mistral Medium 3 no es tan potente como lo promociona oficialmente, e incluso sugirió a los usuarios que no lo descarguen para evitar desperdiciar tráfico y espacio en el disco duro.
Conclusión
Mistral Medium 3, como un intento innovador en el campo de la IA europea, busca un equilibrio entre rendimiento y costo, y está optimizado para aplicaciones de nivel empresarial. Sin embargo, la diferencia entre los resultados de las pruebas reales y la promoción oficial sugiere que Mistral puede haber exagerado su publicidad en términos de rendimiento del modelo.
A pesar de esto, Mistral Medium 3 todavía tiene cierto potencial, especialmente en áreas como la codificación y la generación de texto. En el futuro, Mistral necesita mejorar aún más el rendimiento del modelo y fortalecer las pruebas de aplicaciones prácticas para ganarse la confianza de los usuarios. Al mismo tiempo, el lanzamiento de Mistral Large también es digno de expectativa, ya que puede compensar las deficiencias de Mistral Medium 3 y brindar a los usuarios una mejor experiencia.
En resumen, el lanzamiento de Mistral Medium 3 refleja la exploración activa y el espíritu innovador de Europa en el campo de la IA. Aunque existe una diferencia entre el rendimiento real y las expectativas, Mistral sigue siendo digno de atención y su desarrollo futuro es digno de expectativa.