圖靈測試的中年危機:AI是否已智勝基準?

揭開智能幻象的面紗

數十年來,Turing Test 一直是衡量人工智能領域的一個里程碑,儘管它經常被誤解。由才華橫溢的 Alan Turing 構思,它提出了一個簡單卻深刻的挑戰:機器能否僅透過基於文本的對話,讓人類相信它也是人類?許多人將在此測試中取得成功解讀為真正機器思維的曙光,是矽腦最終反映我們自身認知能力的標誌。然而,這種解釋一直充滿爭議,而涉及像 OpenAI 的 GPT-4.5 這樣複雜 AI 模型的最新發展,正迫使我們進行批判性的重新評估。

來自 University of California at San Diego 的突破性研究使這場辯論更加尖銳。那裡的學者進行了實驗,讓人類在經典的 Turing Test 格式中與先進的大型語言模型 (LLMs) 對抗。結果令人震驚:據報導,OpenAI 的最新迭代 GPT-4.5 不僅通過了測試;它表現出色,在模仿人類方面比實際的人類參與者證明自己的人性具說服力。這代表了生成式 AI 在製作感覺真實的人類回應能力方面取得了重大飛躍。然而,即使是這項研究背後的研究人員也告誡不要將這種對話能力等同於實現通用人工智能 (AGI)——創造具有人類水平認知能力的機器的難以捉摸的目標。這個測試似乎更多地揭示了測試本身的局限性,以及我們人類自身的假設,而不是機器智能的真正本質。

經典實驗的現代變奏

Turing Test 持久吸引力在於其優雅的簡潔性。Turing 設想了一個’模仿遊戲’,涉及三名玩家:一名人類審問者(裁判)、一名人類證人和一台電腦證人。彼此隔離,僅通過短信交流,證人試圖說服裁判他們的人類身份。裁判知道其中一名參與者是機器,必須確定哪個是哪個。這種設置的天才之處在於其固有的比較性。如果裁判錯誤地將電腦識別為人類,這不僅意味著機器的表現令人信服,也可能意味著人類證人未能充分表明自己的人性,或者裁判無法正確感知這些信號。它變成了一項關於人類感知、信念以及我們與身為人類相關聯的微妙線索的迷人檢驗,就像它是衡量計算能力一樣。

在此基礎上,UC San Diego 的研究人員 Cameron Jones 和 Benjamin Bergen 實施了該測試的現代版本,利用了現代 LLMs 的力量並讓大學生參與其中。他們的實驗設計嚴格遵循 Turing 的三方結構。學生被隨機分配角色:一些擔任裁判,另一些擔任人類證人。每位裁判同時與一名人類證人和一名 AI 證人進行獨立的五分鐘文字聊天。裁判的挑戰保持不變:識別機器。

為了探索當前 AI 的能力,部署了幾種模型作為電腦證人:

  • GPT-4.5 (Minimal Prompt): 此版本僅收到基本指令。
  • GPT-4.5 (PERSONA Prompt): 此變體獲得了更詳細的指導。提示指示 AI 採用特定的人格——一個’內向、了解網路文化並使用俚語的年輕人’。這旨在測試 AI 的適應性以及模仿特定人類原型的能力。
  • GPT-4o: OpenAI 的另一個著名模型作為比較點。
  • Llama 3.1 405b: Meta Platforms 強大的 LLM 被納入以擴大範圍。
  • ELIZA: 1960 年代一個開創性的聊天機器人程式被納入作為對照組。其相對簡單性旨在幫助確定 LLMs 的任何成功是由於複雜的程式設計,還是僅僅是隨機機會和容易受騙的裁判。

這種多模型方法,結合結構化、定時的互動以及最小提示 AI 與人格驅動 AI 之間的比較,為分析機器現在能多有效地模仿人類對話以及人類如何看待這些嘗試提供了豐富的數據集。

當模仿超越現實

UC San Diego 研究的發現非同尋常,特別是關於 GPT-4.5 在詳細 PERSONA prompt 指導下的表現。這種特定配置達到了驚人的 73% ‘勝率’。實質上,近四分之三的時間裡,與此 AI 互動的人類裁判得出結論,他們正在與另一個人交談。這個數字不僅在其絕對值上意義重大,而且在與其他參與者的比較中也是如此。

考慮基準:

  • 人類證人: 諷刺的是,作為證人參與的實際人類在說服裁判他們的人性方面,比人格驅動的 GPT-4.5 更不成功。
  • 其他 AI 模型: 帶有最小提示的 GPT-4.5,以及 GPT-4o 和 Llama 3.1(即使給予類似的人格提示),得分要低得多,勝率在 21% 到 56% 之間。這突顯了被測試的特定 GPT-4.5 模型的先進能力以及量身定制提示的顯著影響。
  • 先前的 GPT-4 表現: 在同一研究人員僅一年前進行的早期實驗迭代中,GPT-4 的勝率僅為 54%,勉強超過隨機機會的閾值 (50%)。GPT-4.5 躍升至 73% 表明該模型生成類人文本的能力取得了快速進展。
  • ELIZA: 正如預期的那樣,老式聊天機器人表現不佳,起到了基線的作用,並證實了 LLMs 的成功並非僅僅因為裁判容易被任何程式欺騙。

Jones 和 Bergen 的結論是嚴峻的:裁判不僅難以區分人與機器;他們實際上更傾向於相信人格驅動的 GPT-4.5 是人類,而不是相信實際的人類參與者是人類。這表明,在適當指示下,AI 可以模擬人類互動中被感知的細微差別——甚至可能過濾掉真實人類聊天中存在的尷尬或不一致——在這個特定的、受限的環境中比人類自己更有效。成功不僅僅在於通過;它在於在測試範圍內,在感知的’人性化’方面超越了人類基線。

類人性障礙:智能還是適應?

GPT-4.5 在這個現代版 Turing Test 中的勝利是否標誌著 AGI 的到來?研究人員以及該領域的許多專家都敦促謹慎。正如 Jones 和 Bergen 所承認的,圍繞該測試的’最具爭議的問題’一直是它是否真正衡量智能或其他東西。雖然 GPT-4.5 如此有效地愚弄人類的能力無疑是一項技術壯舉,但它可能更多地說明了該模型複雜的模仿和適應性,而不是真正的理解或意識。

一種觀點是,這些先進的 LLMs 在模式匹配和預測方面變得異常熟練。它們被輸入大量的人類文本數據,學習了與不同類型人類互動相關的詞序列、對話輪次和風格元素的統計可能性。PERSONA prompt 為 GPT-4.5 提供了一個特定的目標模式——一個內向、精通網路的年輕人。因此,AI 的成功可以被視為其**’調整其行為’**以匹配所要求的人格的能力的展示,利用其訓練數據生成與該配置文件一致的回應。這是靈活性和生成能力的卓越展示,使機器能夠在提示定義的上下文中表現得令人信服地像人類。

然而,這種適應性不同於人類擁有的通用智能,後者涉及推理、深入理解上下文、從新穎經驗中學習以及擁有意識——這些品質是當前 LLMs 未能證明具備的。正如 AI 學者 Melanie Mitchell 所論證的那樣,流利的自然語言,就像精通西洋棋一樣,並不是通用智能的決定性證據。它證明了對特定、儘管複雜的技能領域的掌握。因此,雖然 GPT-4.5 的表現是自然語言生成的一個里程碑,但僅將其視為邁向 AGI 的一步可能具有誤導性。將其描述為在基於文本的對話中達到了高度的**’類人性’**似乎更準確,這是一個與人類水平智能有著微妙但關鍵區別的概念。

互動之鏡:測試揭示了關於我們的什麼

也許 UC San Diego 研究最有趣的一面不在於它揭示了關於 AI 的什麼,而在於它暴露了關於人類判斷以及我們帶入互動,尤其是在線互動中的假設。人類裁判經常被愚弄,有時甚至更喜歡 AI 的互動風格,這一事實指向了使用人類感知作為這種格式中機器智能最終仲裁者的固有主觀性和潛在缺陷。

研究人員注意到了裁判推理中有趣的模式:

  • 意外行為: 即使是原始的 ELIZA 程式也成功地愚弄了 23% 的裁判。這並非因為 ELIZA 表現出才華,而常常是因為它沒有滿足裁判對 AI 應該如何行為的先入為主的觀念。裁判引用的理由包括證人’諷刺’或’粗魯’,這些是他們不期望從機器那裡得到的特質,因此斷定它必定是人類。
  • 關注社交性而非智力: 與 Alan Turing 期望裁判會探究知識和智力能力的預期相反,本研究的參與者通常似乎更關注對話風格、情感基調和社交線索。
  • 不完美的悖論: 一個令人驚訝的轉折是,裁判用來正確識別證人為人類的因素之一是感知到的知識匱乏。這表明了一種潛在的假設,即人類是易犯錯和不完美的,而 AI 可能被期望是百科全書式的或過於精確的。

這些觀察結果使 Jones 和 Bergen 斷言,裁判的決定包含了’關於人類和 AI 系統可能如何行為的複雜假設’,超越了對智能的簡單評估。標準與社會期望、個性判斷,甚至對技術能力的偏見交織在一起。在一個基於文本的交流無處不在的時代,我們已經形成了根深蒂固的在線互動習慣和期望。Turing Test 最初被設計為對人機互動的新穎探索,現在更多地 berfungsi 作為對這些在線人類習慣和偏見的測試。它衡量我們解析數字角色的能力,受到我們日常與人類和機器人在線互動經驗的影響。從根本上說,正如這項研究所證明的,現代 Turing Test 似乎不再是對機器智能的直接評估,而更像是一個通過人類期望濾鏡感知的類人性的衡量標準。

超越模仿遊戲:為 AI 評估規劃新航向

鑑於像 GPT-4.5 這樣的模型令人信服的表現,以及傳統 Turing Test 格式中突顯的局限性和偏見,問題隨之而來:這個數十年的基準是否仍然是衡量邁向 AGI 進展的正確工具?UC San Diego 的研究人員,以及 AI 社群中越來越多的聲音,認為可能不是——至少,不是作為唯一或決定性的衡量標準。

GPT-4.5 的成功本身,特別是它對 PERSONA prompt 的依賴,突顯了一個關鍵的局限性:該測試評估的是在特定、通常狹窄的對話上下文中的表現。它不一定探究更深層次的認知能力,如跨不同情境的推理、規劃、創造力或常識理解。正如 Jones 和 Bergen 所述,‘智能是複雜且多方面的’,這意味著**’沒有單一的智能測試可以是決定性的’**。

這指向了對更全面的評估方法套件的需求。出現了幾個潛在的途徑:

  1. 修改後的測試設計: 研究人員自己建議了變體。如果裁判是 AI 專家,擁有不同的期望,也許還有更複雜的方法來探測機器的能力呢?如果引入重大的經濟激勵,鼓勵裁判更仔細、更深思熟慮地審查回應呢?這些變化可能會改變動態,並可能產生不同的結果,進一步突顯上下文和動機對測試結果的影響。
  2. 更廣泛的能力測試: 超越對話流利度,評估可以側重於更廣泛的任務,這些任務需要智能的不同方面——在新領域解決問題、長期規劃、理解複雜的因果關係,或展示真正的創造力而不是對訓練數據的複雜混搭。
  3. 人在環路 (HITL) 評估: 將人類判斷更系統地整合到 AI 評估中的趨勢日益增長,但也許是以比經典 Turing Test 更結構化的方式。這可能涉及人類根據特定標準(例如,事實準確性、邏輯連貫性、倫理考量、有用性)評估 AI 輸出,而不僅僅是做出二元的人類/機器判斷。人類可以幫助完善模型,識別弱點,並根據細緻的反饋指導開發。

核心思想是,評估像智能這樣複雜的東西需要超越簡單的模仿。雖然 Turing Test 提供了一個有價值的初始框架,並繼續引發重要的討論,但僅僅依賴它有將複雜模仿誤認為真正理解的風險。通往理解並可能實現 AGI 的道路需要更豐富、更多樣化,也許還有更嚴格的評估方法。

AGI 之謎與評估的未來

最近的實驗突顯了一個超越 Turing Test 本身的根本挑戰:我們難以精確定義什麼構成通用人工智能 (Artificial General Intelligence),更不用說就如果遇到它,我們將如何明確識別它達成一致了。如果人類,帶著所有固有的偏見和假設,在一個簡單的聊天界面中就能如此輕易地被一個經過精心提示的 LLM 所左右,我們如何能可靠地判斷未來可能遠為先進的系統更深層次的認知能力?

通往 AGI 的旅程籠罩在模糊之中。UC San Diego 的研究有力地提醒我們,我們目前的基準可能不足以應對未來的任務。它突顯了區分模擬行為與真正理解的極大困難,尤其是當模擬變得日益複雜時。這引出了關於未來評估範式的推測性但發人深省的問題。我們是否會達到一個類似科幻小說敘事的點,即人類判斷被認為過於不可靠,無法區分先進 AI 與人類?

也許,矛盾的是,對高度先進機器智能的評估將需要其他機器的協助。專門設計用於探測認知深度、一致性和真正推理的系統,可能較少受到影響人類裁判的社交線索和偏見的影響,可能會成為評估工具包的必要組成部分。或者,至少,對人類指令(提示)、AI 適應以及由此產生的智能感知之間相互作用的更深入理解將至關重要。我們可能需要詢問機器,當觀察其他機器回應人類試圖引出特定、可能具有欺騙性的行為時,它們辨別出了什麼。衡量 AI 的探索迫使我們不僅要面對機器智能的本質,還要面對我們自身複雜且常常令人驚訝的本質。