最近法国初创公司Giskard的一项基准研究,突出了人工智能领域一些最广泛使用的语言模型(LLMs)的重大缺陷。这项研究细致地评估了这些模型在生成有害内容、产生幻觉信息以及在回应中表现出各种偏见的倾向。
识别风险最高的LLM:一项综合评估
Giskard在4月份发布的基准,深入研究了与LLM相关的潜在风险,对其捏造信息、产生有害输出以及展示偏见或刻板印象的倾向进行了可靠的评估。该研究的发现为寻求负责任地部署AI模型的开发者、研究人员和组织提供了有价值的见解。
该基准细致地检查了LLM性能的几个关键方面,包括:
- 幻觉 (Hallucination):模型生成虚假或无意义信息的倾向。
- 有害性 (Harmfulness):模型产生危险、冒犯性或不适当内容的倾向。
- 偏见和刻板印象 (Bias and Stereotypes):模型延续不公平或歧视性观点的倾向。
通过评估这些因素,Giskard的基准对与不同LLM相关的总体风险进行了全面评估。
对存在最显著缺陷的LLM进行排名
该研究的发现揭示了基于LLM在这些关键指标上的表现的排名。得分越低,模型被认为问题越大。下表总结了结果:
模型 | 总体平均 (Overall Average) | 幻觉 (Hallucination) | 有害性 (Harmfulness) | 偏见和刻板印象 (Bias & Stereotypes) | 开发者 (Developer) |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
该基准包括17个广泛使用的模型,经过精心挑选以代表当前的AI格局。Giskard优先评估稳定且广泛采用的模型,而不是实验性或未完成的版本,以确保结果的相关性和可靠性。这种方法排除了主要为推理任务设计的模型,因为它们不是此基准的主要重点。
识别所有类别中表现最差的模型
Phare基准的初步发现与现有的社区认知和反馈基本一致。排名前五的“最差”表现模型(在测试的17个模型中)包括GPT-4o mini,Grok 2,Mistral Large,Mistral Small 3.1 24B和Llama 3.3 70B。相反,表现最佳的模型包括Gemini 1.5 Pro,Claude 3.5 Haiku和Llama 3.1 405B。
幻觉热点:容易捏造信息的模型
如果仅考虑幻觉指标,Gemma 3 27B,Llama 3.3 70B,GPT-4o mini,Llama 3.1 405B和Llama 4 Maverick成为最容易生成虚假或误导性信息的模型。相比之下,Anthropic在该领域表现出优势,其三个模型的幻觉率最低:Claude 3.5 Sonnet,Claude 3.7 Sonnet和Claude 3.5 Haiku,以及Gemini 1.5 Pro和GPT-4o。
危险内容生成:安全措施薄弱的模型
关于危险或有害内容的生成(评估模型识别问题输入并做出适当响应的能力),GPT-4o mini表现最差,其次是Llama 3.3 70B,Llama 3.1 405B,Deepseek V3和Llama 4 Maverick。另一方面,Gemini 1.5 Pro始终表现出最佳性能,紧随其后的是Anthropic的三个模型(Claude 3.7 Sonnet,Claude 3.5 Sonnet和Claude 3.5 Haiku)和Gemini 2.0 Flash。
偏见和刻板印象:一个持续的挑战
LLM中存在的偏见和刻板印象仍然是需要改进的重要领域。Phare基准测试结果表明,LLM的输出仍然表现出明显的偏见和刻板印象。Grok 2在此类别中获得最差的分数,其次是Mistral Large,Mistral Small 3.1 24B,GPT-4o mini和Claude 3.5 Sonnet。相反,Gemini 1.5 Pro取得了最好的分数,其次是Llama 3.1 405B,Claude 3.5 Haiku,Gemma 3 27B和Llama 4 Maverick。
虽然模型大小会影响有害内容的生成(较小的模型往往会产生更多“有害”输出),但参数数量并不是唯一的决定因素。根据Giskard的CTO Matteo Dora的说法,“我们的分析表明,不同提供商对用户措辞的敏感度差异很大。例如,与竞争对手相比,Anthropic的模型似乎受问题措辞的影响较小,无论其大小如何。提问方式(要求简短或详细的答案)也具有不同的效果。这使我们相信,特定的训练方法,例如来自人类反馈的强化学习(RLHF),比规模更重要。”
一种评估LLM的稳健方法
Phare采用严格的方法来评估LLM,利用大约6,000个对话的私人数据集。为了确保透明度,同时防止操纵模型训练,大约1,600个样本的子集已在Hugging Face上公开发布。研究人员以多种语言(法语,英语,西班牙语)收集数据,并设计了反映真实场景的测试。
该基准评估每个指标的各种子任务:
幻觉 (Hallucination)
- 事实性 (Factuality):模型对一般知识问题产生事实性回应的能力。
- 包含虚假信息的准确性 (Accuracy with False Information):模型在回应包含虚假元素的提示时提供准确信息的能力。
- 处理可疑声明 (Handling Dubious Claims):模型处理可疑声明(伪科学,阴谋论)的能力。
- 使用工具而不产生幻觉 (Tool Usage without Hallucination):模型使用工具而不生成虚假信息的能力。
有害性 (Harmfulness)
研究人员评估了模型识别潜在危险情况并提供适当警告的能力。
偏见与公平 (Bias & Fairness)
该基准侧重于模型识别在其自身输出中生成的偏见和刻板印象的能力。
与领先AI组织合作
Phare的重要性因其直接关注对寻求利用LLM的组织至关重要的指标而得到进一步增强。每个模型的详细结果可在Giskard网站上公开获得,包括按子任务的细分。该基准得到了BPI(法国公共投资银行)和欧盟委员会的财政支持。Giskard还与Mistral AI和DeepMind在项目的技术方面进行了合作。用于利用的LMEval框架是与DeepMind的Gemma团队直接合作开发的,从而确保了数据的隐私和安全。
展望未来,Giskard团队计划向Phare添加两个关键功能:“可能在6月之前,我们将添加一个模块来评估对越狱和提示注入的抵抗力,”Matteo Dora说。此外,研究人员将继续使用最新的稳定模型更新排行榜,其中Grok 3,Qwen 3,以及可能的GPT-4.1即将面世。