問題のあるAIモデル:危険性、幻覚、偏見の暴露
フランスのスタートアップ企業Giskardによる最近のベンチマーク調査は、人工知能の分野で最も広く使用されている言語モデル (LLM) の重大な欠点に焦点を当てています。 この調査では、これらのモデルが有害なコンテンツを生成し、情報を幻覚として認識し、応答にさまざまな偏見を示す傾向を綿密に評価しています。
最も危険なLLMの特定:包括的な評価
4月に発表されたGiskardのベンチマークは、LLMに関連する潜在的なリスクを掘り下げ、情報を捏造し、有害な出力を生成し、偏見のあるまたはステレオタイプ的な視点を示す傾向について信頼できる評価を提供します。 この調査結果は、AIモデルを責任を持って展開しようとしている開発者、研究者、組織にとって貴重な洞察を提供します。
ベンチマークは、LLMのパフォーマンスのいくつかの重要な側面を綿密に調査します。
- 幻覚 (Hallucination): モデルが虚偽または無意味な情報を生成する傾向。
- 有害性 (Harmfulness): モデルが危険、攻撃的、または不適切なコンテンツを生成する傾向。
- 偏見とステレオタイプ (Bias and Stereotypes): モデルが不公平または差別的な見解を永続させる傾向。
これらの要素を評価することにより、Giskardのベンチマークは、さまざまなLLMに関連する全体的なリスクの包括的な評価を提供します。
最も重大な欠陥を持つLLMのランキング
調査結果は、これらの主要な指標全体のパフォーマンスに基づいてLLMのランキングを明らかにしています。 スコアが低いほど、モデルはより問題があると見なされます。 次の表は、結果をまとめたものです。
モデル | 全体平均 | 幻覚 | 有害性 | 偏見とステレオタイプ | 開発者 |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
ベンチマークは、現在のAIの状況を代表するように慎重に選択された17の広く使用されているモデルを網羅しました。 Giskardは、結果の関連性と信頼性を確保するために、実験的または未完成のバージョンよりも、安定した広く採用されているモデルの評価を優先しました。 このアプローチでは、推論タスク用に主に設計されたモデルは、このベンチマークの主な焦点ではないため除外されます。
全てのカテゴリーで最悪のパフォーマンスを示すモデルの特定
Phareベンチマークの最初の調査結果は、既存のコミュニティの認識およびフィードバックとほぼ一致しています。 上位5つの「最悪」のパフォーマンスのモデル (テストした17のうち) には、GPT-4o mini、Grok 2、Mistral Large、Mistral Small 3.1 24B、およびLlama 3.3 70Bが含まれます。 逆に、最高のパフォーマンスを示すモデルには、Gemini 1.5 Pro、Claude 3.5 Haiku、およびLlama 3.1 405Bが含まれます。
幻覚ホットスポット:情報を捏造しやすいモデル
幻覚の指標のみを考慮すると、Gemma 3 27B、Llama 3.3 70B、GPT-4o mini、Llama 3.1 405B、およびLlama 4 Maverickが、虚偽または誤解を招く情報を生成しやすいモデルとして浮上します。 対照的に、Anthropicはこの分野で強みを発揮し、そのモデルのうち3つが最も低い幻覚率を示しています。Claude 3.5 Sonnet、Claude 3.7 Sonnet、およびClaude 3.5 Haiku、Gemini 1.5 ProとGPT-4oと共に。
危険なコンテンツの生成:保護対策が弱いモデル
危険または有害なコンテンツの生成に関して (問題のある入力を認識し、適切に対応するモデルの能力を評価)、GPT-4o miniが最もパフォーマンスが低く、Llama 3.3 70B、Llama 3.1 405B、Deepseek V3、およびLlama 4 Maverickが続きます。 一方、Gemini 1.5 Proは一貫して最高のパフォーマンスを示し、Anthropicの3つのモデル (Claude 3.7 Sonnet、Claude 3.5 Sonnet、およびClaude 3.5 Haiku) とGemini 2.0 Flashがそれに続きます。
偏見とステレオタイプ:根強い課題
LLMにおける偏見とステレオタイプの存在は、改善が必要な重要な領域です。 Phareベンチマークの結果は、LLMがその出力に顕著な偏見とステレオタイプを示していることを示しています。 Grok 2はこのカテゴリーで最悪のスコアを受け取り、Mistral Large、Mistral Small 3.1 24B、GPT-4o mini、およびClaude 3.5 Sonnetが続きます。 逆に、Gemini 1.5 Proが最高のスコアを達成し、Llama 3.1 405B、Claude 3.5 Haiku、Gemma 3 27B、およびLlama 4 Maverickが続きます。
モデルのサイズは有害なコンテンツの生成に影響を与える可能性がありますが (小さいモデルはより「有害」な出力を生成する傾向があります)、パラメータの数は唯一の決定要因ではありません。 GiskardのCTOであるMatteo Dora氏によると、「私たちの分析は、ユーザーの言葉遣いに対する感度がプロバイダーによって大きく異なることを示しています。 たとえば、Anthropicのモデルは、サイズに関係なく、競合他社と比較して質問の言い方に影響を受けにくいようです。 質問の方法 (簡潔な回答または詳細な回答を要求する) もさまざまな影響を与えます。 これにより、人間のフィードバックからの強化学習 (RLHF) などの特定のトレーニング方法がサイズよりも重要であると私たちは考えています。」
LLMを評価するための堅牢な方法論
Phareは、約6,000の会話のプライベートデータセットを利用して、LLMを評価するための厳格な方法論を採用しています。 モデルのトレーニングの操作を防ぎながら透明性を確保するために、約1,600のサンプルのサブセットがHugging Faceで公開されています。 研究者らは、複数の言語 (フランス語、英語、スペイン語) でデータを収集し、現実世界のシナリオを反映したテストを設計しました。
ベンチマークは、各指標のさまざまなサブタスクを評価します。
幻覚
- 事実性 (Factuality): 一般的な知識の質問に対して、モデルが事実に基づいた応答を生成する能力。
- 虚偽の情報による正確性 (Accuracy with False Information): 虚偽の要素を含むプロンプトに応答する際に、モデルが正確な情報を提供する能力。
- 疑わしい主張の処理 (Handling Dubious Claims): モデルが疑わしい主張 (疑似科学、陰謀論) を処理する能力。
- 幻覚のないツールの使用 (Tool Usage without Hallucination): モデルが虚偽の情報を生成せずにツールを使用する能力。
有害性
研究者らは、モデルが潜在的に危険な状況を認識し、適切な警告を提供する能力を評価しました。
偏見と公平性
ベンチマークは、モデルが自身の出力で生成される偏見とステレオタイプを特定する能力に焦点を当てています。
主要なAI組織との連携
Phareの重要性は、LLMの利用を求める組織にとって重要な指標に直接焦点を当てていることによってさらに高められています。 各モデルの詳細な結果は、サブタスクによる内訳を含め、GiskardのWebサイトで公開されています。 ベンチマークは、BPI (フランス公共投資銀行) と欧州委員会によって財政的に支援されています。 Giskardはまた、プロジェクトの技術的な側面でMistral AIおよびDeepMindと提携しています。 LMEvalの利用フレームワークは、データのプライバシーとセキュリティを確保するために、DeepMindのGemmaチームと直接連携して開発されました。
今後、GiskardチームはPhareに2つの主要な機能を追加する予定です。 「おそらく6月までに、ジェイルブレイクとプロンプトインジェクションに対する耐性を評価するモジュールを追加するでしょう」とMatteo Dora氏は述べています。 さらに、研究者らは最新の安定モデルでリーダーボードを更新し続け、Grok 3、Qwen 3、そして潜在的にはGPT-4.1が視野に入っています。