AI 卓越性的追求往往由基準分數所驅動,但這些分數真的能代表真實世界的能力嗎?隨著傳統基準面臨越來越多的審查,AI 社群正努力解決這個問題。
SWE-Bench 於 2024 年 11 月推出,迅速成為評估 AI 模型程式設計能力的熱門工具。它利用了來自十幾個基於 Python 的專案的公共 GitHub 儲存庫中的 2,000 多個真實程式設計挑戰。一個強大的 SWE-Bench 分數已成為令人垂涎的標誌,顯著地展示在來自 OpenAI、Anthropic 和 Google 等領先 AI 開發商的主要模型版本中。除了這些巨頭之外,專門從事微調的 AI 公司不斷爭奪 SWE-Bench 排行榜的霸主地位。
然而,圍繞這些基準的狂熱可能具有誤導性。參與 SWE-Bench 開發的普林斯頓大學研究員 John Yang 指出,對榜首位置的激烈競爭導致了對系統的「遊戲化」。這引起了人們對這些基準是否能準確反映真正的 AI 成就的擔憂。
問題不一定是公開作弊,而是開發專門為利用基準的局限性而量身定制的策略。例如,最初的 SWE-Bench 僅關注 Python 程式碼,激勵開發人員僅在 Python 上訓練其模型。 Yang 觀察到,這些高分模型在面對不同的程式設計語言時經常會出錯,暴露出他描述為「鍍金」的膚淺理解。
「乍看之下,它看起來既漂亮又閃亮,但當你嘗試在不同的語言上執行它時,整個東西就會崩潰,」Yang 解釋道。「在那個時候,你不是在設計一個軟體工程代理人。你正在設計一個 SWE-Bench 代理人,這就沒有那麼有趣了。」
這個「SWE-Bench 問題」反映了 AI 評估中更廣泛的挑戰。基準曾經被認為是進展的可靠指標,但現在越來越脫離真實世界的能力。更糟糕的是,對透明度的擔憂浮出水面,進一步削弱了對這些指標的信任。儘管存在這些問題,基準仍然在模型開發中發揮著關鍵作用,即使許多專家質疑它們的內在價值。 OpenAI 聯合創辦人 Andrej Karpathy 甚至將目前的情況稱為「評估危機」,感嘆缺乏用於衡量 AI 能力的可信任方法以及缺乏明確的前進道路。
史丹佛大學以人為本 AI 研究所的研究主任 Vanessa Parli 問道:「從歷史上看,基準是我們評估 AI 系統的方式。這是我們未來想要評估系統的方式嗎?如果不是,那是什麼方式?」
越來越多的學者和 AI 研究人員提倡更集中的方法,從社會科學中汲取靈感。他們建議優先考慮「效度」,這是量化社會科學的核心概念,它評估衡量工具準確捕捉預期結構的程度。這種對效度的強調可能會挑戰評估諸如「推理」或「科學知識」等模糊定義概念的基準。雖然它可能會緩和對人工通用智慧 (AGI) 的追求,但它將為評估單個模型提供更堅實的基礎。
密西根大學的教授兼推動效度的主要人物 Abigail Jacobs 斷言:「認真對待效度意味著要求學術界、產業界或任何地方的人們證明他們的系統可以做到他們所說的事情。我認為,如果他們想退縮,不表明他們可以支持自己的主張,這就暴露了 AI 世界的一個弱點。」
傳統測試的局限性
AI 產業對基準的依賴源於它們過去的成功,尤其是在像 ImageNet 這樣的挑戰中。
ImageNet 於 2010 年推出,向研究人員提供了一個包含超過 300 萬張圖像的資料庫,這些圖像被分為 1,000 個不同的類別。這個挑戰與方法無關,允許任何成功的演算法獲得可信度,無論其底層方法如何。 AlexNet 在 2012 年的突破,它利用了一種非常規的 GPU 訓練形式,成為現代 AI 的基石。雖然很少有人能預料到 AlexNet 的卷積神經網路會解鎖圖像識別,但它取得的高分消除了任何疑慮。(值得注意的是,AlexNet 的一位開發人員後來共同創辦了 OpenAI。)
ImageNet 的有效性源於挑戰與真實世界圖像識別任務之間的緊密對應。即使對方法存在爭論,得分最高的模型也總是在實際應用中表現出卓越的效能。
然而,自那以後的幾年中,AI 研究人員已將相同的與方法無關的方法應用於越來越多的通用任務。例如,SWE-Bench 通常被用作更廣泛程式設計能力的代表,而其他考試風格的基準則被用來衡量推理能力。這種廣泛的範圍使得難以嚴格定義特定基準所衡量的內容,從而阻礙了對發現的負責解釋。
問題出在哪裡
史丹佛大學的博士生 Anka Reuel 認為,走向通用性的推動是評估問題的根源。「我們已經從特定任務模型轉向通用模型,」Reuel 說。「這不再是單一任務,而是大量任務,因此評估變得更加困難。」
像 Jacobs 一樣,Reuel 認為「基準的主要問題是效度,甚至比實際實施更重要」,並指出:「這就是很多事情崩潰的地方。」對於像程式設計這樣的複雜任務,幾乎不可能在問題集中包含所有可能的場景。因此,很難辨別模型較高的分數反映的是真正的程式設計技能,還是僅僅是聰明地操縱問題集。實現創紀錄分數的巨大壓力進一步刺激了捷徑。
開發人員希望在大量特定基準上的成功將轉化為具有通用能力的模型。然而,隨著代理 AI 的興起,其中單個系統可以整合複雜的模型陣列,因此難以評估特定任務的改進是否會具有普遍性。「你可以轉動的旋鈕太多了,」普林斯頓大學的電腦科學家 Sayash Kapoor 說,他也是 AI 產業中草率做法的批評者。「當涉及到代理時,他們實際上已經放棄了評估的最佳實踐。」
在去年七月發表的一篇論文中,Kapoor 強調了 AI 模型在 2024 年如何處理 WebArena 基準的具體問題,該基準測試了 AI 代理導航網路的能力。該基準包括在模仿 Reddit、Wikipedia 等網站的克隆網站上執行的 800 多個任務。 Kapoor 和他的團隊發現,獲勝模型 STeP 利用 Reddit URL 的結構直接存取使用者個人資料頁面,這是 WebArena 任務中的一個常見要求。
雖然不是完全作弊,但 Kapoor 認為這是「嚴重歪曲了代理第一次看到 WebArena 中的任務時的工作情況」。儘管如此,OpenAI 的網路代理 Operator 此後也採取了類似的政策。
為了進一步說明 AI 基準的問題,Kapoor 和一個研究團隊最近發表了一篇論文,揭示了 Chatbot Arena(一個流行的眾包評估系統)中的重大問題。他們的發現表明,排行榜正在被操縱,一些頂級基礎模型正在進行未公開的私人測試並有選擇地發布他們的分數。
即使是 ImageNet,這個啟動了一切的基準,現在也面臨著效度問題。華盛頓大學和 Google Research 的研究人員在 2023 年的一項研究中發現,ImageNet 獲獎演算法在應用於六個真實世界資料集時顯示出「幾乎沒有進展」,這表明該測試的外部效度已達到其極限。
走向更小
為了解決效度問題,一些研究人員建議將基準重新連接到特定任務。正如 Reuel 所說,AI 開發人員「必須求助於這些高層次的基準,這些基準對於下游消費者來說幾乎沒有意義,因為基準開發人員無法再預測下游任務。」
2024 年 11 月,Reuel 啟動了 BetterBench,這是一個公開排名專案,該專案根據各種標準評估基準,包括程式碼文檔的清晰度,以及關鍵地,基準在衡量其聲明能力方面的效度。 BetterBench 挑戰設計人員清楚地定義他們的基準測試什麼,以及它與構成基準的任務有何關係。
「你需要對能力進行結構分解,」Reuel 說。「你關心的實際技能是什麼,以及你如何將它們轉化為我們可以衡量的東西?」
結果是具有啟發性的。街機學習環境 (ALE) 成立於 2013 年,旨在測試模型學習如何玩 Atari 2600 遊戲的能力,它成為得分最高的基準之一。相反,大規模多任務語言理解 (MMLU) 基準,這是一個廣泛使用的通用語言技能測試,由於問題和底層技能之間的連接定義不明确,因此得分最低。
雖然 BetterBench 尚未對特定基準的聲譽產生重大影響,但它已成功地將效度帶到了關於如何改進 AI 基準的討論的最前沿。 Reuel 加入了一個由 Hugging Face、愛丁堡大學和 EleutherAI 主持的新研究小組,她將在那裡進一步發展她關於效度和 AI 模型評估的想法。
Hugging Face 的全球政策主管 Irene Solaiman 說,該小組將專注於構建有效的基準,這些基準超越了衡量直接能力。「對現成的、已經可以工作的良好基準的需求非常強烈,」Solaiman 說。「很多評估都試圖做太多事情。」
更廣泛的產業似乎正在收斂於這種觀點。在三月份發表的一篇論文中,來自 Google、Microsoft、Anthropic 等公司的研究人員概述了一個新的框架,用於改進評估,其中效度是基石。
研究人員認為,「AI 評估科學必須超越對『通用智慧』的粗略主張,轉向更針對特定任務和與現實世界相關的進展衡量標準。」
衡量「模糊」的事物
為了促進這種轉變,一些研究人員正在轉向社會科學的工具。一份二月份的立場文件認為,「評估 GenAI 系統是一項社會科學衡量挑戰,」特別是探討如何將社會科學效度系統應用於 AI 基準測試。
作者主要來自 Microsoft 的研究部門,但也包括來自史丹佛大學和密西根大學的學者,他們指出了社會科學家用於衡量意識形態、民主和媒體偏見等有爭議概念的標準。應用於 AI 基準,這些相同的程序可以提供一種衡量諸如「推理」和「數學能力」等概念的方法,而無需訴諸含糊的概括。
社會科學文獻強調了嚴格定義正在衡量的概念的重要性。例如,旨在衡量社會民主程度的測試必須首先建立對「民主社會」的明確定義,然後制定與該定義相關的問題。
要將此應用於像 SWE-Bench 這樣的基準,設計人員需要放棄從 GitHub 收集程式設計問題並創建驗證答案的方案的傳統機器學習方法。相反,他們首先要定義基準旨在衡量的內容(例如,「解決軟體中標記問題的能力」),將其分解為子技能(例如,不同類型的問題或程式結構),然後構建準確涵蓋這些子技能的問題。
對於像 Jacobs 這樣的研究人員來說,這種與 AI 研究人員通常處理基準的方式的深刻轉變正是重點所在。「科技產業正在發生的事情與社會科學的這些工具之間存在不匹配,」她說。「我們已經有數十年關於我們希望如何衡量人類這些模糊事物的思考。」
儘管這些想法在研究社群中的影響力越來越大,但它們對 AI 公司實際如何使用基準的影響一直很慢。
來自 OpenAI、Anthropic、Google 和 Meta 的最新模型版本仍然嚴重依賴像 MMLU 這樣的多項選擇知識基準,而這正是效度研究人員試圖超越的方法。在很大程度上,模型版本仍然專注於展示通用智慧的提高,並且使用廣泛的基準來支持這些主張。
一些觀察員對此感到滿意。華頓商學院教授 Ethan Mollick 認為,儘管基準是「對事物的錯誤衡量,但也是我們所擁有的」。他補充說,「與此同時,模型變得越來越好。快速進展可以原諒很多罪過。」
目前,產業長期以來對人工通用智慧的關注似乎正在掩蓋更集中、基於效度的方法。只要 AI 模型在通用智慧方面繼續進步,即使從業者正在使用他們不再完全信任的工具,特定應用似乎也就不那麼引人注目了。
「這是我們正在走鋼絲的地方,」Hugging Face 的 Solaiman 說。「丟棄系統太容易了,但即使存在這些限制,評估對於理解我們的模型也真的很有幫助。」