Un recente studio di benchmark condotto dalla startup francese Giskard ha puntato i riflettori sulle significative carenze di alcuni dei modelli linguistici (LLM) più utilizzati nel panorama dell’intelligenza artificiale. Questo studio valuta meticolosamente la propensione di questi modelli a generare contenuti dannosi, allucinare informazioni ed esibire vari bias nelle loro risposte.
Identificazione degli LLM più rischiosi: una valutazione completa
Il benchmark di Giskard, pubblicato ad aprile, approfondisce i potenziali rischi associati agli LLM, fornendo una valutazione affidabile della loro tendenza a fabbricare informazioni, produrre output tossici e mostrare punti di vista pregiudizievoli o stereotipati. I risultati dello studio offrono preziose informazioni per sviluppatori, ricercatori e organizzazioni che cercano di implementare modelli di intelligenza artificiale in modo responsabile.
Il benchmark esamina meticolosamente diversi aspetti critici delle prestazioni degli LLM, tra cui:
- Allucinazione: La tendenza del modello a generare informazioni false o insensate.
- Dannosità: La propensione del modello a produrre contenuti pericolosi, offensivi o inappropriati.
- Bias e stereotipi: L’inclinazione del modello a perpetuare punti di vista ingiusti o discriminatori.
Valutando questi fattori, il benchmark di Giskard fornisce una valutazione completa del rischio complessivo associato a diversi LLM.
Classifica degli LLM con i difetti più significativi
I risultati dello studio rivelano una classifica degli LLM basata sulle loro prestazioni in queste metriche chiave. Più basso è il punteggio, più problematico è considerato il modello. La tabella seguente riassume i risultati:
Modello | Media complessiva | Allucinazione | Dannosità | Bias & Stereotipi | Sviluppatore |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
Il benchmark comprendeva 17 modelli ampiamente utilizzati, accuratamente selezionati per rappresentare l’attuale panorama dell’IA. Giskard ha dato la priorità alla valutazione di modelli stabili e ampiamente adottati rispetto a versioni sperimentali o non finalizzate, garantendo la rilevanza e l’affidabilità dei risultati. Questo approccio esclude i modelli progettati principalmente per attività di ragionamento, poiché non sono l’obiettivo primario di questo benchmark.
Identificazione dei peggiori risultati in tutte le categorie
I risultati iniziali del benchmark Phare si allineano ampiamente con le percezioni e i feedback esistenti della comunità. I primi cinque modelli con le prestazioni “peggiori” (su 17 testati) includono GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B e Llama 3.3 70B. Al contrario, i modelli che dimostrano le migliori prestazioni includono Gemini 1.5 Pro, Claude 3.5 Haiku e Llama 3.1 405B.
Punti caldi di allucinazione: modelli inclini a fabbricare informazioni
Considerando unicamente la metrica dell’allucinazione, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B e Llama 4 Maverick emergono come i modelli più inclini a generare informazioni false o fuorvianti. Al contrario, Anthropic dimostra forza in quest’area, con tre dei suoi modelli che mostrano i tassi di allucinazione più bassi: Claude 3.5 Sonnet, Claude 3.7 Sonnet e Claude 3.5 Haiku, insieme a Gemini 1.5 Pro e GPT-4o.
Generazione di contenuti pericolosi: modelli con deboli garanzie
Per quanto riguarda la generazione di contenuti pericolosi o dannosi (valutando la capacità del modello di riconoscere input problematici e rispondere in modo appropriato), GPT-4o mini si comporta peggio, seguito da Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 e Llama 4 Maverick. D’altra parte, Gemini 1.5 Pro dimostra costantemente le migliori prestazioni, seguito da vicino dai tre modelli di Anthropic (Claude 3.7 Sonnet, Claude 3.5 Sonnet e Claude 3.5 Haiku) e Gemini 2.0 Flash.
Bias e stereotipi: una sfida persistente
La presenza di bias e stereotipi negli LLM rimane un’area significativa che richiede miglioramenti. I risultati del benchmark Phare indicano che gli LLM mostrano ancora marcati bias e stereotipi nei loro output. Grok 2 riceve il punteggio peggiore in questa categoria, seguito da Mistral Large, Mistral Small 3.1 24B, GPT-4o mini e Claude 3.5 Sonnet. Al contrario, Gemini 1.5 Pro ottiene i migliori punteggi, seguito da Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B e Llama 4 Maverick.
Sebbene le dimensioni del modello possano influenzare la generazione di contenuti tossici (i modelli più piccoli tendono a produrre output più “dannosi”), il numero di parametri non è l’unico determinante. Secondo Matteo Dora, CTO di Giskard, "Le nostre analisi dimostrano che la sensibilità alla formulazione dell’utente varia notevolmente tra diversi fornitori. Ad esempio, i modelli di Anthropic sembrano meno influenzati dal modo in cui le domande vengono formulate rispetto ai loro concorrenti, indipendentemente dalle loro dimensioni. Il modo di porre la domanda (richiedendo una risposta breve o dettagliata) ha anche effetti variabili. Questo ci porta a credere che specifici metodi di addestramento, come l’apprendimento per rinforzo dal feedback umano (RLHF), siano più significativi delle dimensioni".
Una metodologia robusta per la valutazione degli LLM
Phare impiega una metodologia rigorosa per valutare gli LLM, utilizzando un set di dati privato di circa 6.000 conversazioni. Per garantire la trasparenza prevenendo la manipolazione dell’addestramento del modello, un sottoinsieme di circa 1.600 campioni è stato reso pubblicamente disponibile su Hugging Face. I ricercatori hanno raccolto dati in più lingue (francese, English, Spanish) e hanno progettato test che riflettano scenari del mondo reale.
Il benchmark valuta varie sotto-attività per ciascuna metrica:
Allucinazione
- Fattualità: La capacità del modello di generare risposte fattuali a domande di conoscenza generale.
- Accuratezza con informazioni false: La capacità del modello di fornire informazioni accurate quando risponde a prompt contenenti elementi falsi.
- Gestione di affermazioni dubbie: La capacità del modello di elaborare affermazioni dubbie (pseudoscientifiche, teorie del complotto).
- Utilizzo di strumenti senza allucinazione: La capacità del modello di utilizzare strumenti senza generare informazioni false.
Dannosità
I ricercatori hanno valutato la capacità del modello di riconoscere situazioni potenzialmente pericolose e fornire avvisi appropriati.
Bias & Fairness
Il benchmark si concentra sulla capacità del modello di identificare bias e stereotipi generati nei propri output.
Collaborazione con le principali organizzazioni di IA
Il significato di Phare è ulteriormente rafforzato dalla sua attenzione diretta alle metriche cruciali per le organizzazioni che cercano di utilizzare gli LLM. I risultati dettagliati per ciascun modello sono pubblicamente disponibili sul sito Web di Giskard, inclusi i dettagli per sotto-attività. Il benchmark è finanziato dal BPI (French Public Investment Bank) e dalla Commissione Europea. Giskard ha anche collaborato con Mistral AI e DeepMind sugli aspetti tecnici del progetto. Il framework LMEval per l’utilizzo è stato sviluppato in diretta collaborazione con il team Gemma di DeepMind, garantendo la privacy e la sicurezza dei dati.
Guardando al futuro, il team di Giskard prevede di aggiungere due funzionalità chiave a Phare: "Probabilmente entro giugno, aggiungeremo un modulo per valutare la resistenza ai jailbreak e all’prompt injection", afferma Matteo Dora. Inoltre, i ricercatori continueranno ad aggiornare la leaderboard con gli ultimi modelli stabili, con Grok 3, Qwen 3 e potenzialmente GPT-4.1 all’orizzonte.