一項由法國新創公司 Giskard 進行的最新基準研究,將焦點放在人工智慧領域中一些最廣泛使用的語言模型 (LLMs) 的重大缺點上。 這項研究仔細評估了這些模型在產生有害內容、幻覺資訊以及在其回應中展現各種偏見的傾向。
識別風險最高的 LLM:全面評估
Giskard 於四月發布的基準,深入探討了與 LLM 相關的潛在風險,對它們捏造資訊、產生有害輸出以及展示偏見或刻板印象觀點的傾向進行了可靠的評估。 這項研究的發現為希望負責任地部署 AI 模型的開發人員、研究人員和組織提供了寶貴的見解。
該基準仔細檢查了 LLM 效能的幾個關鍵面向,包括:
- 幻覺 (Hallucination): 模型產生錯誤或毫無意義資訊的傾向。
- 有害性 (Harmfulness): 模型產生危險、冒犯或不適當內容的傾向。
- 偏見與刻板印象 (Bias and Stereotypes): 模型延續不公平或歧視性觀點的傾向。
透過評估這些因素,Giskard 的基準對與不同 LLM 相關的總體風險進行了全面的評估。
對具有最顯著缺陷的 LLM 進行排名
該研究的發現揭示了基於 LLM 在這些關鍵指標上的效能的排名。 分數越低,表示該模型被認為越有問題。 下表總結了結果:
模型 | 整體平均 (Overall Average) | 幻覺 (Hallucination) | 有害性 (Harmfulness) | 偏見與刻板印象 (Bias & Stereotypes) | 開發者 (Developer) |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
該基準包括 17 個廣泛使用的模型,經過精心挑選以代表當前的人工智慧格局。 Giskard 優先評估穩定且廣泛採用的模型,而不是實驗性或未完成的版本,以確保結果的相關性和可靠性。 這種方法排除了主要為推理任務設計的模型,因為它們不是此基準的主要重點。
識別所有類別中表現最差的模型
Phare 基準的初步發現與現有的社群認知和回饋基本一致。 前五個「最差」表現模型(在測試的 17 個模型中)包括 GPT-4o mini、Grok 2、Mistral Large、Mistral Small 3.1 24B 和 Llama 3.3 70B。 相反,表現最好的模型包括 Gemini 1.5 Pro、Claude 3.5 Haiku 和 Llama 3.1 405B。
幻覺熱點:容易捏造資訊的模型
當僅考慮幻覺指標時,Gemma 3 27B、Llama 3.3 70B、GPT-4o mini、Llama 3.1 405B 和 Llama 4 Maverick 成為最容易產生錯誤或誤導性資訊的模型。 相比之下,Anthropic 在這方面展現出優勢,其三個模型的幻覺率最低:Claude 3.5 Sonnet、Claude 3.7 Sonnet 和 Claude 3.5 Haiku,以及 Gemini 1.5 Pro 和 GPT-4o。
危險內容生成:防護措施薄弱的模型
關於危險或有害內容的生成(評估模型識別有問題的輸入並做出適當回應的能力),GPT-4o mini 的表現最差,其次是 Llama 3.3 70B、Llama 3.1 405B、Deepseek V3 和 Llama 4 Maverick。 另一方面,Gemini 1.5 Pro 一直表現出最佳效能,緊隨其後的是 Anthropic 的三個模型(Claude 3.7 Sonnet、Claude 3.5 Sonnet 和 Claude 3.5 Haiku)和 Gemini 2.0 Flash。
偏見與刻板印象:一個持續存在的挑戰
LLM 中偏見和刻板印象的存在仍然是一個需要改進的重要領域。 Phare 基準測試結果表明,LLM 在其輸出中仍然表現出明顯的偏見和刻板印象。 Grok 2 在此類別中獲得最差的分數,其次是 Mistral Large、Mistral Small 3.1 24B、GPT-4o mini 和 Claude 3.5 Sonnet。 相反,Gemini 1.5 Pro 取得了最佳分數,其次是 Llama 3.1 405B、Claude 3.5 Haiku、Gemma 3 27B 和 Llama 4 Maverick。
雖然模型大小會影響有害內容的產生(較小的模型往往會產生更多「有害」輸出),但參數數量並不是唯一的決定因素。 根據 Giskard 的 CTO Matteo Dora 的說法,「我們的分析表明,不同提供商對使用者措辭的敏感度差異很大。 例如,與競爭對手相比,Anthropic 的模型似乎較少受到問題措辭方式的影響,無論其大小如何。 提出問題的方式(要求簡要或詳細的答案)也會產生不同的影響。 這讓我們相信,特定的訓練方法,例如來自人類回饋的強化學習 (RLHF),比大小更重要。」
一種評估 LLM 的穩健方法
Phare 採用嚴格的方法來評估 LLM,使用約 6,000 個對話的私有資料集。 為了確保透明度,同時防止操縱模型訓練,已在 Hugging Face 上公開提供約 1,600 個樣本的子集。 研究人員以多種語言(法語、英語、西班牙語)收集資料,並設計了反映現實場景的測試。
該基準評估每個指標的各種子任務:
幻覺
- 事實性 (Factuality): 模型對一般知識問題產生事實性回應的能力。
- 對錯誤資訊的準確性 (Accuracy with False Information): 模型在回應包含錯誤元素的提示時提供準確資訊的能力。
- 處理可疑聲明 (Handling Dubious Claims): 模型處理可疑聲明(偽科學、陰謀論)的能力。
- 無幻覺的工具使用 (Tool Usage without Hallucination): 模型使用工具而不產生錯誤資訊的能力。
有害性
研究人員評估了模型識別潛在危險情況並提供適當警告的能力。
偏見與公平性
該基準側重於模型識別其自身輸出中產生的偏見和刻板印象的能力。
與領先的 AI 組織合作
Phare 的重要性因其直接關注對尋求利用 LLM 的組織至關重要的指標而得到進一步提升。 每個模型的詳細結果都可在 Giskard 網站上公開取得,包括按子任務的分類。 該基準得到 BPI(法國公共投資銀行)和歐盟委員會的財政支持。 Giskard 還與 Mistral AI 和 DeepMind 合作處理該專案的技術方面。 用於利用的 LMEval 框架是與 DeepMind 的 Gemma 團隊直接合作開發的,確保了資料隱私和安全。
展望未來,Giskard 團隊計劃向 Phare 新增兩個關鍵功能:「大概在六月之前,我們將新增一個模組來評估對越獄和提示注入的抵抗力,」Matteo Dora 說。 此外,研究人員將繼續使用最新的穩定模型更新排行榜,Grok 3、Qwen 3 和潛在的 GPT-4.1 即將推出。