深入探討爭議
近期,OpenAI 的一名員工對 Elon Musk 的 AI 公司 xAI 提出指控。 指控內容是? xAI 為其最新 AI 模型 Grok 3 提供的基準測試結果具有誤導性。 這引發了一場爭論,xAI 的聯合創始人之一 Igor Babushkin 強烈捍衛公司的立場。
然而,實際情況往往存在於一個更微妙的中間地帶。
在一篇部落格文章中,xAI 展示了一張圖表,描繪了 Grok 3 在 AIME 2025 上的表現。AIME 2025 是一組來自近期數學邀請考試的難題。 雖然一些專家質疑 AIME 作為 AI 基準測試的權威性,但它與該測試的舊版本仍然是評估模型數學能力的常用工具。
解讀 xAI 的圖表
xAI 提供的圖表顯示了 Grok 3 的兩個變體 – Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning – 在 AIME 2025 上似乎優於 OpenAI 目前可用的最佳模型 o3-mini-high。 然而,OpenAI 的員工迅速在社交媒體上做出反應,指出了一個明顯的遺漏:xAI 的圖表沒有包含 o3-mini-high 在「cons@64」下的 AIME 2025 分數。
「cons@64」究竟是什麼? 它是「consensus@64」的縮寫,這種方法本質上是讓模型對基準測試中的每個問題進行 64 次嘗試。 然後選擇最常生成的答案作為最終答案。 正如人們所預料的那樣,cons@64 通常會顯著提高模型的基準測試分數。 在比較圖表中省略它可能會造成一種模型優於另一種模型的錯覺,而實際上情況可能並非如此。
「世界上最聰明的 AI」之說
當考慮 AIME 2025 在「@1」下的分數(表示模型在基準測試中獲得的第一個分數)時,Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 的分數都低於 o3-mini-high 的分數。 此外,Grok 3 Reasoning Beta 僅略微落後於 OpenAI 設定為「中等」計算的 o1 模型。 儘管有這些結果,xAI 仍在積極宣傳 Grok 3 為「世界上最聰明的 AI」。
Babushkin 在社交媒體上反駁說,OpenAI 過去也曾發布過類似的誤導性基準測試圖表。 然而,那些圖表是用來比較 OpenAI 自身模型的性能。 一位更公正的觀察者在爭論中創建了一個更「準確」的圖表,展示了幾乎每個模型在 cons@64 下的表現。
缺失的指標:計算成本
AI 研究員 Nathan Lambert 強調了一個關鍵點:最重要的指標仍然籠罩在神秘之中。 這就是每個模型為達到最佳分數而產生的計算(和財務)成本。 這凸顯了大多數 AI 基準測試的一個基本問題——它們很少揭示模型的局限性,或者說,它的優勢。
圍繞 Grok 3 基準測試的爭論突出了 AI 社群內的一個更廣泛的問題:在評估和比較 AI 模型的方式上需要更高的透明度和標準化。
深入研究 AI 基準測試
圍繞 xAI 對 Grok 3 性能的呈現方式的爭議,引發了關於 AI 基準測試本身性質的幾個重要問題。 什麼構成了一個好的基準測試? 應該如何呈現結果以避免誤解? 僅僅依靠基準測試分數來評估 AI 模型的能力有哪些局限性?
基準測試的目的:
從理論上講,基準測試是衡量和比較不同 AI 模型在特定任務上性能的標準化方法。 它們提供了一個共同的標準,允許研究人員和開發人員跟踪進度、識別優缺點,並最終推動創新。 然而,基準測試的有效性取決於幾個因素:
- 相關性: 基準測試是否準確反映了現實世界的任務和挑戰?
- 全面性: 基準測試是否涵蓋了與 AI 模型預期用途相關的廣泛能力?
- 客觀性: 基準測試的設計和管理方式是否能最大限度地減少偏差並確保公平比較?
- 可重複性: 獨立研究人員是否可以一致地複製基準測試結果?
AI 基準測試的挑戰:
儘管有其預期目的,AI 基準測試通常充滿挑戰:
- 過度擬合: 模型可以專門針對特定基準測試進行訓練,而不必獲得真正的智慧或可推廣的能力。 這種現象被稱為「過度擬合」,可能會導致分數膨脹,無法反映實際性能。
- 缺乏標準化: 不同基準測試的激增,每個基準測試都有自己的方法和評分系統,使得難以比較不同模型和研究實驗室的結果。
- 操弄系統: 正如 xAI 爭議所表明的那樣,公司傾向於以有利於自身模型的方式選擇性地呈現基準測試結果,這可能會誤導公眾並阻礙客觀評估。
- 範圍有限: 基準測試通常側重於狹窄、定義明確的任務,無法捕捉人類智慧的全部複雜性和細微差別。 它們可能無法充分評估諸如創造力、常識推理或對新情況的適應性等方面。
透明度和整體評估的必要性
Grok 3 事件強調了對 AI 模型進行評估時,更需要透明度和更全面的方法。 僅僅依靠單一的基準測試分數,尤其是在沒有完整上下文的情況下呈現的分數,可能會產生高度誤導。
超越基準測試:
雖然基準測試可以成為一個有用的工具,但它們不應該是 AI 模型能力的唯一決定因素。 更全面的評估應考慮:
- 實際性能: 模型在實際應用和場景中的表現如何?
- 定性分析: 對模型輸出的專家評估,評估諸如連貫性、創造力和推理能力等因素。
- 倫理考量: 模型是否表現出偏見或產生有害內容?
- 可解釋性: 模型的決策過程是否可以理解和解釋?
- 穩健性: 模型處理嘈雜或意外輸入的能力如何?
促進透明度:
AI 實驗室應努力提高其基準測試實踐的透明度。 這包括:
- 明確定義方法: 提供有關基準測試設置的詳細資訊,包括使用的特定數據集、評估指標以及任何預處理步驟。
- 報告完整結果: 提供所有相關分數,包括使用不同配置或方法(如 cons@64)獲得的分數。
- 披露計算成本: 揭示實現報告結果所需的計算資源。
- 開源基準測試: 公開基準測試數據集和評估工具,以促進獨立驗證和比較。
對人工智慧的追求是一個複雜且快速發展的領域。 基準測試雖然不完美,但在衡量進展方面發揮著作用。 然而,認識到它們的局限性並努力採用更細緻和透明的方法來評估 AI 模型至關重要。 最終目標應該是開發不僅強大而且可靠、合乎道德且對社會有益的 AI 系統。 重點必須從單純追求更高的基準測試分數轉向構建真正理解並以有意義的方式與世界互動的 AI。