Mistral Medium 3: La Nuova Sfida Europea all’IA e il Contrasto con le Prestazioni Reali
La startup francese Mistral AI ha recentemente rilasciato il suo ultimo modello multimodale, Mistral Medium 3, affermando che le sue prestazioni sono paragonabili al potente Claude Sonnet 3.7 e che il costo è inferiore a DeepSeek V3. Questa notizia ha immediatamente suscitato grande interesse nel mondo della tecnologia. Tuttavia, dopo i test reali, gli utenti hanno scoperto che le prestazioni di questo modello sono notevolmente inferiori a quanto pubblicizzato ufficialmente, tanto che alcuni hanno consigliato di non sprecare tempo e risorse per scaricarlo.
La Pubblicità Ufficiale di Mistral Medium 3
Mistral AI ha sottolineato diversi punti chiave di Mistral Medium 3 nel suo blog ufficiale:
- Equilibrio tra prestazioni e costi: Mistral Medium 3 è progettato per offrire prestazioni di alto livello riducendo i costi di otto volte, accelerando così le applicazioni aziendali.
- Vantaggi nelle applicazioni professionali: Il modello eccelle in aree professionali come la scrittura di codice e la comprensione multimodale.
- Funzionalità di livello enterprise: Mistral Medium 3 offre una serie di funzionalità di livello enterprise, tra cui il supporto per la distribuzione su cloud ibrido, la distribuzione locale e la distribuzione all’interno di VPC, nonché l’addestramento post-personalizzazione e l’integrazione in strumenti e sistemi aziendali.
L’API Mistral Medium 3 è già disponibile su Mistral La Plateforme e Amazon Sagemaker e si prevede che sarà presto disponibile su IBM WatsonX, NVIDIA NIM, Azure AI Foundry e Google Cloud Vertex.
Confronto degli Indicatori di Prestazione
Mistral AI ha affermato che, in vari benchmark, le prestazioni di Mistral Medium 3 raggiungono o superano il 90% di quelle di Claude Sonnet 3.7, ma con costi significativamente inferiori. In particolare, il costo di input di Mistral Medium 3 è di $0.4 per milione di token, mentre il costo di output è di $2.
Inoltre, le prestazioni di Mistral Medium 3 superano i principali modelli open source come Llama 4 Maverick e Cohere Command A. Sia tramite API che tramite implementazione autonoma, i costi di Mistral Medium 3 sono inferiori a DeepSeek V3. Il modello può anche essere implementato su qualsiasi cloud, inclusi ambienti self-hosted con quattro o più GPU.
Focus sulle Applicazioni di Livello Enterprise
Mistral AI sottolinea che l’obiettivo di Mistral Medium 3 è quello di essere un modello con prestazioni di alto livello, particolarmente eccellente nella codifica e nelle attività STEM, con prestazioni che si avvicinano a quelle dei concorrenti più grandi e più lenti.
I dati ufficiali mostrano che le prestazioni di Mistral Medium 3 superano sostanzialmente Llama 4 Maverick e GPT-4o, avvicinandosi ai livelli di Claude Sonnet 3.7 e DeepSeek 3.1.
Per convalidare ulteriormente le prestazioni del modello, Mistral AI ha anche pubblicato i risultati di valutazioni umane di terze parti, che rappresentano meglio i casi d’uso del mondo reale. I risultati mostrano che Mistral Medium 3 eccelle nella codifica e offre prestazioni migliori rispetto ad altri concorrenti in tutti gli aspetti.
Mistral Medium 3 è anche superiore ad altri modelli SOTA in termini di capacità di adattamento agli ambienti aziendali. Offre alle aziende un modo per integrare completamente l’intelligenza nei sistemi aziendali, risolvendo le sfide che le aziende devono affrontare in termini di ottimizzazione delle API e personalizzazione dei modelli.
Le Chat Enterprise
Mistral AI ha anche lanciato Le Chat Enterprise, un servizio di chatbot per aziende basato sul modello Mistral Medium 3. Offre uno strumento di creazione di agenti AI e integra i modelli di Mistral con servizi di terze parti come Gmail, Google Drive e SharePoint.
Le Chat Enterprise mira a risolvere le sfide che le aziende devono affrontare con l’IA, come la frammentazione degli strumenti, l’integrazione di conoscenza non sicura, i modelli rigidi e il lento ritorno sull’investimento, fornendo una piattaforma AI unificata per tutto il lavoro organizzativo.
Le Chat Enterprise supporterà presto il protocollo MCP, uno standard proposto da Anthropic per connettere l’IA ai sistemi di dati e al software.
Prospettive per Mistral Large
Mistral AI ha anche rivelato nel suo blog che, sebbene Mistral Small e Mistral Medium siano già stati rilasciati, hanno un “grande” piano per le prossime settimane, ovvero Mistral Large. Hanno affermato che le prestazioni del Mistral Medium appena rilasciato sono già superiori ai principali modelli open source come Llama 4 Maverick e che le prestazioni di Mistral Large sono ancora più promettenti.
La Realtà dei Test Utente
Tuttavia, dopo che Mistral AI ha pubblicizzato le potenti prestazioni di Mistral Medium 3, i media e gli utenti hanno rapidamente condotto test reali, e i risultati sono stati deludenti.
Discrepanza nei Test di Prestazione
Nella valutazione basata sui puzzle di vocabolario della rubrica Connections del New York Times, le prestazioni di Mistral Medium 3 sono state deludenti, quasi invisibili. Nel nuovo test di 100 domande, non si è classificato tra i primi modelli.
Alcuni utenti hanno testato e hanno affermato che non ci sono stati progressi evidenti nella capacità di scrittura di Mistral Medium 3. Tuttavia, nella valutazione LLM, è in prima linea nel fronte di Pareto.
I test di Zhu Liang hanno rilevato che Mistral Medium 3 si è comportato in modo solido sia nella scrittura di codice che nella generazione di testo, classificandosi tra i primi cinque in entrambe le valutazioni.
Prestazioni nelle Attività di Codifica
In una semplice attività di codifica (applicazione Next.js TODO), Mistral Medium 3 ha generato risposte chiare e concise, con punteggi simili a Gemini 2.5 Pro e Claude 3.5 Sonnet, ma inferiori a DeepSeek V3 (nuovo) e GPT-4.1.
In una complessa attività di codifica (visualizzazione del benchmark), Mistral Medium 3 ha prodotto risultati medi simili a Gemini 2.5 Pro e DeepSeek V3 (nuovo), ma inferiori a GPT-4.1, o3 e Claude 3.7 Sonnet.
Valutazione delle Capacità di Scrittura
In termini di scrittura, Mistral Medium 3 ha coperto la maggior parte dei punti chiave, ma la formattazione era errata, con punteggi simili a DeepSeek V3 (nuovo) e Claude 3.7 Sonnet, inferiori a GPT-4.1 e Gemini 2.5 Pro.
Anche la nota personalità “karminski-dentista” ha affermato dopo i test reali che le prestazioni di Mistral Medium 3 non sono così forti come pubblicizzato ufficialmente e ha consigliato agli utenti di non scaricarlo per evitare di sprecare traffico e spazio su disco.
Confronto e Riflessioni
Il caso di Mistral Medium 3 ci ricorda ancora una volta che, quando si valutano le prestazioni dei modelli AI, non si può fare affidamento solo sulla pubblicità ufficiale e sui risultati dei benchmark, ma si deve dare maggiore importanza all’esperienza effettiva degli utenti e alle valutazioni di terze parti.
La pubblicità ufficiale spesso mostra selettivamente i vantaggi del modello, ignorandone le carenze. Sebbene i benchmark possano fornire un certo valore di riferimento, non riflettono completamente le prestazioni del modello nel mondo reale. L’esperienza effettiva degli utenti e le valutazioni di terze parti sono più oggettive e complete e possono aiutarci a comprendere più accuratamente i vantaggi e gli svantaggi del modello.
Inoltre, le prestazioni dei modelli AI sono influenzate da molti fattori, tra cui i dati di addestramento, l’architettura del modello, gli algoritmi di ottimizzazione, ecc. Modelli diversi possono mostrare diversi vantaggi e svantaggi in diverse attività. Pertanto, quando si sceglie un modello AI, è necessario prendere in considerazione in modo completo scenari applicativi e requisiti specifici.
L’enorme discrepanza tra il rilascio di Mistral Medium 3 e i risultati dei test degli utenti ha anche sollevato una discussione sugli standard di valutazione dei modelli AI. Come stabilire un sistema di valutazione dei modelli AI più scientifico, oggettivo e completo è una questione che merita un’esplorazione approfondita.
Impatto sul Settore
L’evento Mistral Medium 3 ha anche avuto un certo impatto sull’intero settore dell’IA. Da un lato, ricorda alle aziende di IA di prestare maggiore attenzione all’esperienza utente, evitando pubblicità eccessiva e pubblicità ingannevole. D’altra parte, spinge anche i professionisti del settore AI a prestare maggiore attenzione alla formulazione e al miglioramento degli standard di valutazione dei modelli AI.
In futuro, con il continuo sviluppo della tecnologia AI, le prestazioni dei modelli AI miglioreranno costantemente e gli scenari applicativi si espanderanno costantemente. Dobbiamo affrontare la tecnologia AI con un atteggiamento più razionale e oggettivo, vedendo sia il suo enorme potenziale sia riconoscendone i limiti. Solo in questo modo possiamo utilizzare meglio la tecnologia AI per creare valore per la società umana.
In sintesi, il caso di Mistral Medium 3 è un avvertimento, che ci ricorda di mantenere un pensiero critico quando valutiamo i modelli AI, di non credere ciecamente alla pubblicità ufficiale e di prendere decisioni razionali combinando l’esperienza pratica e le valutazioni di terze parti.