Les Modèles d'IA Problématiques: Dangers Révélés

Une récente étude de référence menée par la startup française Giskard a mis en lumière les importantes lacunes de certains des modèles de langage (LLMs) les plus largement utilisés dans le paysage de l’intelligence artificielle. Cette étude évalue méticuleusement la propension de ces modèles à générer du contenu nuisible, à halluciner des informations et à présenter divers biais dans leurs réponses.

Identification des LLMs les Plus Risqués: Une Évaluation Complète

Le benchmark de Giskard, publié en avril, se penche sur les risques potentiels associés aux LLMs, fournissant une évaluation fiable de leur tendance à inventer des informations, à produire des résultats toxiques et à afficher des points de vue préjugés ou stéréotypés. Les conclusions de l’étude offrent des informations précieuses aux développeurs, aux chercheurs et aux organisations qui cherchent à déployer des modèles d’IA de manière responsable.

Le benchmark examine méticuleusement plusieurs aspects critiques des performances des LLMs, notamment:

  • Hallucination: La tendance du modèle à générer des informations fausses ou absurdes.
  • Nocivité: La propension du modèle à produire un contenu dangereux, offensant ou inapproprié.
  • Biais et Stéréotypes: L’inclination du modèle à perpétuer des points de vue injustes ou discriminatoires.

En évaluant ces facteurs, le benchmark de Giskard fournit une évaluation complète du risque global associé aux différents LLMs.

Classement des LLMs avec les Défauts les Plus Importants

Les conclusions de l’étude révèlent un classement des LLMs basé sur leurs performances à travers ces indicateurs clés. Plus le score est bas, plus le modèle est considéré comme problématique. Le tableau ci-dessous résume les résultats:

Modèle Moyenne Générale Hallucination Nocivité Biais & Stéréotypes Développeur
GPT-4o mini 63.93% 74.50% 77.29% 40.00%
Grok 2 65.15% 77.35% 91.44% 26.67% xAI
Mistral Large 66.00% 79.72% 89.38% 28.89% Mistral
Mistral Small 3.1 24B 67.88% 77.72% 90.91% 35.00% Mistral
Llama 3.3 70B 67.97% 73.41% 86.04% 44.44% Meta
Deepseek V3 70.77% 77.91% 89.00% 45.39% Deepseek
Qwen 2.5 Max 72.71% 77.12% 89.89% 51.11% Alibaba Qwen
GPT-4o 72.80% 83.89% 92.66% 41.85% OpenAI
Deepseek V3 (0324) 73.92% 77.86% 92.80% 51.11% Deepseek
Gemini 2.0 Flash 74.89% 78.13% 94.30% 52.22% Google
Gemma 3 27B 75.23% 69.90% 91.36% 64.44% Google
Claude 3.7 Sonnet 75.53% 89.26% 95.52% 41.82% Anthropic
Claude 3.5 Sonnet 75.62% 91.09% 95.40% 40.37% Anthropic
Llama 4 Maverick 76.72% 77.02% 89.25% 63.89% Meta
Llama 3.1 405B 77.59% 75.54% 86.49% 70.74% Meta
Claude 3.5 Haiku 82.72% 86.97% 95.36% 65.81% Anthropic
Gemini 1.5 Pro 87.29% 87.06% 96.84% 77.96% Google

Le benchmark englobait 17 modèles largement utilisés, soigneusement sélectionnés pour représenter le paysage actuel de l’IA. Giskard a privilégié l’évaluation des modèles stables et largement adoptés par rapport aux versions expérimentales ou non finalisées, garantissant la pertinence et la fiabilité des résultats. Cette approche exclut les modèles qui sont principalement conçus pour les tâches de raisonnement, car ils ne sont pas l’objectif principal de ce benchmark.

Identification des Moins Performants dans Toutes les Catégories

Les premières conclusions du benchmark Phare correspondent largement aux perceptions et aux commentaires existants de la communauté. Les cinq modèles les « pires » (sur les 17 testés) incluent GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B et Llama 3.3 70B. Inversement, les modèles démontrant les meilleures performances incluent Gemini 1.5 Pro, Claude 3.5 Haiku et Llama 3.1 405B.

Points Chauds d’Hallucination: Modèles Sujets à Inventer des Informations

Lorsque l’on considère uniquement la métrique de l’hallucination, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B et Llama 4 Maverick apparaissent comme les modèles les plus sujets à générer des informations fausses ou trompeuses. En revanche, Anthropic démontre une force dans ce domaine, avec trois de ses modèles présentant les taux d’hallucination les plus faibles: Claude 3.5 Sonnet, Claude 3.7 Sonnet et Claude 3.5 Haiku, ainsi que Gemini 1.5 Pro et GPT-4o.

Génération de Contenu Dangereux: Modèles avec des Garanties Faibles

En ce qui concerne la génération de contenu dangereux ou nuisible (évaluation de la capacité du modèle à reconnaître les entrées problématiques et à répondre de manière appropriée), GPT-4o mini est le moins performant, suivi de Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 et Llama 4 Maverick. D’autre part, Gemini 1.5 Pro démontre constamment les meilleures performances, suivi de près par les trois modèles d’Anthropic (Claude 3.7 Sonnet, Claude 3.5 Sonnet et Claude 3.5 Haiku) et Gemini 2.0 Flash.

Biais et Stéréotypes: Un Défi Persistant

La présence de biais et de stéréotypes dans les LLMs reste un domaine important nécessitant des améliorations. Les résultats du benchmark Phare indiquent que les LLMs présentent encore des biais et des stéréotypes marqués dans leurs sorties. Grok 2 reçoit le pire score dans cette catégorie, suivi de Mistral Large, Mistral Small 3.1 24B, GPT-4o mini et Claude 3.5 Sonnet. Inversement, Gemini 1.5 Pro obtient les meilleurs scores, suivi de Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B et Llama 4 Maverick.

Bien que la taille du modèle puisse influencer la génération de contenu toxique (les modèles plus petits ont tendance à produire des sorties plus « nuisibles »), le nombre de paramètres n’est pas le seul déterminant. Selon Matteo Dora, CTO de Giskard, "Nos analyses démontrent que la sensibilité à la formulation de l’utilisateur varie considérablement d’un fournisseur à l’autre. Par exemple, les modèles d’Anthropic semblent moins influencés par la façon dont les questions sont posées par rapport à leurs concurrents, quelle que soit leur taille. La manière de poser la question (demander une réponse brève ou détaillée) a également des effets variables. Cela nous amène à croire que des méthodes d’entraînement spécifiques, telles que l’apprentissage par renforcement à partir des commentaires humains (RLHF), sont plus importantes que la taille."

Une Méthodologie Robuste pour Évaluer les LLMs

Phare emploie une méthodologie rigoureuse pour évaluer les LLMs, utilisant un ensemble de données privé d’environ 6 000 conversations. Pour assurer la transparence tout en empêchant la manipulation de l’entraînement du modèle, un sous-ensemble d’environ 1 600 échantillons a été mis à disposition du public sur Hugging Face. Les chercheurs ont collecté des données dans plusieurs langues (français, anglais, espagnol) et ont conçu des tests qui reflètent des scénarios réels.

Le benchmark évalue diverses sous-tâches pour chaque métrique:

Hallucination

  • Factuel: La capacité du modèle à générer des réponses factuelles aux questions de connaissances générales.
  • Précision avec des Informations Falses: La capacité du modèle à fournir des informations précises lorsqu’il répond à des invites contenant des éléments faux.
  • Traitement des Allégations Douteuses: La capacité du modèle à traiter des allégations douteuses (pseudoscience, théories du complot).
  • Utilisation d’Outils sans Hallucination: La capacité du modèle à utiliser des outils sans générer de fausses informations.

Nocivité

Les chercheurs ont évalué la capacité du modèle à reconnaître les situations potentiellement dangereuses et à fournir des avertissements appropriés.

Biais & Équité

Le benchmark se concentre sur la capacité du modèle à identifier les biais et les stéréotypes générés dans ses propres sorties.

Collaboration avec des Organisations d’IA de Premier Plan

L’importance de Phare est encore renforcée par son orientation directe sur les indicateurs cruciaux pour les organisations qui cherchent à utiliser les LLMs. Les résultats détaillés pour chaque modèle sont disponibles au public sur le site Web de Giskard, y compris les ventilations par sous-tâche. Le benchmark est financièrement soutenu par la BPI (Banque Publique d’Investissement française) et la Commission européenne. Giskard s’est également associé à Mistral AI et DeepMind sur les aspects techniques du projet. Le framework LMEval pour l’utilisation a été développé en collaboration directe avec l’équipe Gemma chez DeepMind, assurant la confidentialité et la sécurité des données.

Pour l’avenir, l’équipe de Giskard prévoit d’ajouter deux fonctionnalités clés à Phare: "Probablement d’ici juin, nous ajouterons un module pour évaluer la résistance aux jailbreaks et à l’injection d’invites", déclare Matteo Dora. De plus, les chercheurs continueront de mettre à jour le classement avec les derniers modèles stables, avec Grok 3, Qwen 3 et potentiellement GPT-4.1 à l’horizon.