Mistral Medium 3: Ambizioni e Realtà Europee

La startup francese Mistral AI ha recentemente rilasciato il suo ultimo modello multimodale, Mistral Medium 3, suscitando grande interesse nel settore. Mistral afferma che le prestazioni del modello sono paragonabili, se non superiori, al 90% di quelle di Claude Sonnet 3.7, pur costando meno di DeepSeek V3, il che lo rende un’opzione interessante in termini di rapporto qualità-prezzo. Tuttavia, i risultati dei test reali mostrano alcune discrepanze rispetto alla pubblicità ufficiale, sollevando dubbi sull’effettiva performance del modello.

Punti chiave di Mistral Medium 3

Mistral ha elencato diversi punti chiave di Mistral Medium 3 nel suo blog ufficiale:

  • Bilanciamento tra prestazioni e costi: Mistral Medium 3 mira a ottenere prestazioni di alto livello riducendo i costi di otto volte e semplificando il processo di implementazione, accelerando così le applicazioni aziendali.
  • Prestazioni eccellenti in scenari applicativi specializzati: Il modello si distingue per le sue prestazioni in scenari applicativi specializzati come la scrittura di codice e la comprensione multimodale.
  • Funzionalità di livello enterprise: Mistral Medium 3 offre una serie di funzionalità di livello enterprise, tra cui il supporto per l’implementazione in cloud ibrido, l’implementazione locale e l’implementazione all’interno di VPC, l’addestramento post-personalizzazione e l’integrazione con strumenti e sistemi aziendali.

L’API di Mistral Medium 3 è ora disponibile su Mistral La Plateforme e Amazon Sagemaker e sarà presto disponibile su IBM WatsonX, NVIDIA NIM, Azure AI Foundry e Google Cloud Vertex.

Il compromesso tra prestazioni e costi

Un importante punto di forza di Mistral Medium 3 è la sua capacità di offrire prestazioni all’avanguardia riducendo significativamente i costi. I dati ufficiali mostrano che, in vari benchmark, Mistral Medium 3 raggiunge o supera il 90% delle prestazioni di Claude Sonnet 3.7, ma a un costo significativamente inferiore (0,4 dollari per milione di token di input e 2 dollari per milione di token di output).

Inoltre, Mistral Medium 3 supera le prestazioni di modelli open source leader come Llama 4 Maverick e Cohere Command A. Sia per l’API che per l’implementazione autonoma, il costo di Mistral Medium 3 è inferiore a quello di DeepSeek V3.

Mistral Medium 3 può anche essere implementato su qualsiasi cloud, inclusi ambienti self-hosted con quattro o più GPU, offrendo alle aziende una maggiore flessibilità.

La ricerca delle massime prestazioni

Mistral afferma che l’obiettivo di Mistral Medium 3 è quello di essere un modello con prestazioni di alto livello, in particolare nelle attività di codifica e STEM, con prestazioni paragonabili a quelle dei concorrenti più grandi e più lenti.

La tabella fornita da Mistral mostra che le prestazioni di Mistral Medium 3 hanno sostanzialmente superato quelle di Llama 4 Maverick e GPT-4o, avvicinandosi al livello di Claude Sonnet 3.7 e DeepSeek 3.1. Tuttavia, questi dati provengono principalmente da benchmark accademici e potrebbero non riflettere pienamente le prestazioni del modello in applicazioni reali.

Integrazione della valutazione umana

Per valutare in modo più completo le prestazioni di Mistral Medium 3, Mistral ha anche pubblicato i risultati di una valutazione umana di terze parti. La valutazione umana è più rappresentativa dei casi d’uso del mondo reale e può compensare le carenze dei benchmark accademici.

Dai risultati della valutazione umana, Mistral Medium 3 si distingue nel campo della codifica e offre prestazioni migliori rispetto ad altri concorrenti in tutti gli aspetti. Ciò indica che Mistral Medium 3 può avere un certo vantaggio nelle applicazioni reali.

Progettato per applicazioni di livello enterprise

Mistral Medium 3 è più adatto rispetto ad altri modelli SOTA in termini di capacità di adattamento agli ambienti aziendali. Di fronte alla difficile scelta di mettere a punto tramite API o auto-distribuire e personalizzare il comportamento del modello da zero, Mistral Medium 3 offre un modo per integrare pienamente l’intelligenza nei sistemi aziendali.

Per soddisfare ulteriormente le esigenze aziendali, Mistral ha anche lanciato Le Chat Enterprise, un servizio di chatbot aziendale basato sul modello Mistral Medium 3. Le Chat Enterprise offre uno strumento di creazione di agenti AI e integra i modelli di Mistral con servizi di terze parti come Gmail, Google Drive e SharePoint, con l’obiettivo di risolvere le sfide AI che le aziende devono affrontare, come la frammentazione degli strumenti, l’integrazione di conoscenze non sicure, modelli rigidi e un lento ritorno sugli investimenti, fornendo una piattaforma AI unificata per tutte le attività organizzative.

Le Chat Enterprise supporterà presto il protocollo MCP, uno standard proposto da Anthropic per connettere l’IA ai sistemi di dati e al software.

Prospettive future di Mistral

Mistral ha rivelato nel suo blog che, sebbene Mistral Small e Mistral Medium siano stati rilasciati, nelle prossime settimane hanno un “grande” piano, vale a dire Mistral Large. Hanno affermato che le prestazioni del Mistral Medium appena rilasciato hanno già superato di gran lunga i principali modelli open source come Llama 4 Maverick e che le prestazioni del Mistral Large sono ancora più promettenti.

Il rilascio di Mistral Large aumenterà senza dubbio ulteriormente la competitività di Mistral nel campo dell’intelligenza artificiale e fornirà agli utenti più opzioni.

Il divario nei test reali

Sebbene Mistral sia fiduciosa nelle prestazioni di Mistral Medium 3 e affermi che supera il 90% di Claude Sonnet 3.7, i risultati dei test reali hanno rivelato alcuni problemi.

I media e gli utenti hanno rapidamente condotto test pratici su Mistral Medium 3, ma i risultati sono stati deludenti. Nella valutazione basata sulle domande di classificazione del vocabolario della rubrica Connections del New York Times, Medium 3 si è classificato all’ultimo posto. Nel nuovo test di 100 domande, non si è classificato tra i primi modelli.

Alcuni utenti che hanno testato Medium 3 hanno affermato che le sue capacità di scrittura sono rimaste le stesse, senza miglioramenti significativi. Tuttavia, nella valutazione LLM, si trova in prima linea in termini di Pareto.

I risultati dei test di Zhu Liang mostrano che Mistral Medium 3 ha prestazioni solide sia nella scrittura di codice che nella generazione di testo, classificandosi tra i primi cinque in entrambe le valutazioni.

In semplici attività di codifica (applicazione Next.js TODO):

  • Ha generato risposte chiare e concise
  • Il punteggio è simile a Gemini 2.5 Pro e Claude 3.5 Sonnet
  • Inferiore a DeepSeek V3 (nuovo) e GPT-4.1

In complesse attività di codifica (visualizzazione del benchmark):

  • Produce risultati medi simili a Gemini 2.5 Pro e DeepSeek V3 (nuovo)
  • Inferiore a GPT-4.1, o3 e Claude 3.7 Sonnet

Nella scrittura:

  • Il suo contenuto copre la maggior parte dei punti chiave, ma la formattazione è errata
  • Il punteggio è simile a DeepSeek V3 (nuovo) e Claude 3.7 Sonnet
  • Inferiore a GPT-4.1 e Gemini 2.5 Pro

Il noto influencer “karminski-dentista” ha scoperto dopo un test pratico che le prestazioni di Mistral Medium 3 non sono così potenti come pubblicizzato ufficialmente, e ha persino suggerito agli utenti di non scaricarlo per evitare di sprecare traffico e spazio su disco.

Conclusione

Mistral Medium 3, in quanto tentativo innovativo nel campo dell’intelligenza artificiale europea, cerca un equilibrio tra prestazioni e costi ed è ottimizzato per applicazioni di livello enterprise. Tuttavia, i risultati dei test reali mostrano alcune discrepanze rispetto alla pubblicità ufficiale, suggerendo che Mistral potrebbe aver esagerato le prestazioni del modello.

Tuttavia, Mistral Medium 3 ha ancora un certo potenziale, soprattutto nei settori della codifica e della generazione di testo. In futuro, Mistral dovrà migliorare ulteriormente le prestazioni del modello e rafforzare i test delle applicazioni reali per guadagnare la fiducia degli utenti. Allo stesso tempo, vale la pena attendere il rilascio di Mistral Large, che potrebbe compensare le carenze di Mistral Medium 3 e offrire agli utenti una migliore esperienza.

In sintesi, il rilascio di Mistral Medium 3 riflette l’esplorazione attiva e lo spirito innovativo dell’Europa nel campo dell’intelligenza artificiale. Sebbene le prestazioni effettive non siano all’altezza delle aspettative, Mistral merita comunque attenzione e il suo sviluppo futuro è degno di nota.