模仿遊戲重現:AI模型最終掌握人類對話了嗎?

創造能夠像人類一樣思考,或至少像人類一樣對話的機器,是人工智能(AI)領域長期以來的夙願。數十年來,儘管備受爭議,圖靈測試(Turing Test)——由才華橫溢的數學家 Alan Turing 在 20 世紀中期構想——常常被視為基準。其前提簡單而深刻:一台機器能否與人類審問者互動得如此令人信服,以至於評判者無法可靠地將其與另一個人類區分開來?最近的發展表明,一些最複雜的大型語言模型(LLMs)可能已經達到,甚至可能超越了這個引人入勝的里程碑,從而引發了關於智能本質、模仿以及 AI 未來軌跡的新一輪討論。

設定舞台:新一輪的對話挑戰

來自加州大學聖地牙哥分校(University of California San Diego)的一項研究將這個問題重新帶回焦點。研究人員 Cameron R. Jones 和 Benjamin K. Bergen 設計了一個現代版的圖靈測試,以評估尖端 AI 系統的對話能力。他們的實驗讓人類參與者與數個 AI 模型對抗,包括 OpenAI 備受推崇的 GPT-4.5 和 Meta 強大的 LLaMa-3.1-405B。實驗設置涉及一名人類評判者同時進行兩場五分鐘的文字對話——一場與隱藏的人類參與者,另一場與隱藏的 AI 模型。在這些簡短的互動之後,評判者的任務很直接:辨識哪個對話夥伴是機器,哪個是人類。

結果,特別是對於被提示扮演特定人設的模型而言,是驚人的。

  • GPT-4.5 的表現: 據報導,當被指示表現得像人類時,GPT-4.5 在高達 73% 的情況下成功騙過了評判者。這個數字意義重大,因為它表明評判者更有可能將 AI 辨識為人類,而不是參與對話的實際人類參與者。
  • LLaMa-3.1-405B 的表現: Meta 的大型模型 LLaMa-3.1-405B(其中 405B 代表塑造其能力的龐大參數數量),在相同的’人設’條件下也表現得相當可信。它在 56% 的情況下被辨識為人類。雖然低於 GPT-4.5 的分數,但這個結果仍然使其高於通常被認為是通過測試關鍵門檻的 50%,表明其回應在統計上難以與人類參與者的回應區分開來。
  • 基線比較: 為了提供背景並確保評判者不是隨機猜測,研究人員納入了基線模型。ELIZA,一個由 MIT 的 Joseph Weizenbaum 在 1960 年代設計的著名早期聊天機器人,被納入作為對照組。毫不意外,它的表現反映了自其創建以來 AI 的巨大進步,僅獲得了 23% 的’人類’評級。有趣的是,GPT-4o,一個 OpenAI 在 2024 年發布的較新模型,在這次特定的測試設置中也表現出類似的基線水平,僅在 21% 的情況下被判斷為人類。這突顯了特定的配置、訓練,或者也許是提示策略本身,在實現類人對話表現方面扮演著關鍵角色。

該研究的方法論,採用這種三方設置(評判者、隱藏的人類、隱藏的 AI),因其相較於一些早期評估 AI 對抗圖靈基準的嘗試更為嚴謹而受到關注。它旨在創建一個更具挑戰性和現實性的場景,以評估對話的不可區分性。

人設的力量:AI 作為方法派演員

影響 GPT-4.5 和 LLaMa-3.1-405B 在這項特定研究中成功率的一個關鍵因素是使用了特定的’人設’提示。研究人員在有和沒有指示模型採用類人角色或語氣的情況下都進行了測試。當應用人設提示時,性能的顯著躍升突顯了現代 LLMs 的一個關鍵方面:它們根據指令調整其輸出的卓越能力。

對 AI 來說,’扮演人設’意味著什麼?這意味著模型會調整其:

  1. 語氣和風格: 模仿隨意的語言,使用口語,甚至模擬猶豫或反思。
  2. 內容焦點: 可能引用個人經歷(儘管是虛構的),表達觀點,或進行與所扮演角色相關的閒聊。
  3. 互動模式: 以感覺更具互動性、而非純粹信息檢索系統的方式回應。

這種能力直接源於這些模型的訓練方式。LLMs 從它們被輸入的龐大數據集中學習模式、風格和信息,這些數據集主要由人類在互聯網和數位化文獻中生成的文本和代碼組成。當被提示扮演特定類型的人時,模型會利用其訓練數據中與該人設相符的大量人類對話範例。這與其說是真正的個性,不如說是複雜的模式匹配和生成。

這引出了像創新智庫 NostaLab 創始人 John Nosta 這樣的觀察者所闡述的觀點,即我們所目睹的可能不一定是人類意義上的人工智能,而是高度先進的人工同理心——或者至少,是其令人信服的模擬。AI 並沒有感受到同理心,但它學會了與表達同理心相關的語言模式。成功取決於行為模仿,以一種聽起來像人類的方式調整回應,尤其是在像測試中使用的五分鐘短暫互動期間。

研究人員自己也強調了這種適應性:’可以說,正是 LLMs 能夠輕易地被提示以適應不同場景的行為,使它們如此靈活:並且顯然如此有能力冒充人類。’ 這種靈活性是一把雙刃劍,既能實現卓越的對話流暢性,同時也引發了關於真實性和潛在操縱的問題。

里程碑式的成就還是有缺陷的指標?重新評估圖靈測試

雖然頭條新聞可能會大肆宣揚 AI ‘通過’了圖靈測試,但這一成就的重要性值得仔細考量。在一場簡短的文字聊天中說服大多數評判者,真的等同於人類水平的智能嗎?大多數專家,包括該研究的作者們(隱含地),會回答否定

圖靈測試,在基於互聯網規模數據訓練的 LLMs 出現之前很久就已構想出來,主要衡量的是對話表現,而不是更深層次的認知能力,例如:

  • 理解力: AI 是否真正理解對話的細微差別和含義,或者它僅僅是在預測統計上最可能的下一個詞?
  • 意識: 意識和思想的主觀體驗仍然牢牢地屬於人類(以及可能其他生物生命)的範疇。目前的 AI 模型沒有顯示出擁有它的證據。
  • 推理能力: 雖然 AI 可以在特定領域執行邏輯步驟,但其通用推理、常識以及在全新情況下理解因果關係的能力與人類相比仍然有限。
  • 意圖: AI 的回應是基於算法和數據生成的;它們缺乏驅動其溝通的真正信念、慾望或意圖。

因此,在圖靈測試中獲得高分表明 AI 可以非常出色地玩模仿遊戲,尤其是在特定提示的指導下。它學會了生成與人類對話模式高度一致的文本。科技教育公司 Waye 的創始人 Sinead Bovell 對此進行了反思,質疑 AI 在接受了’比任何一個人所能閱讀或觀看的更多人類數據’的訓練後,最終擅長’聽起來像人類’是否真的令人驚訝。

這提出了一個根本性問題:在 21 世紀,圖靈測試是否仍然是衡量 AI 進展的相關或充分的基準?一些人認為,其專注於通過對話進行欺騙過於狹隘,並可能產生誤導。它未能充分評估我們通常與真正智能相關聯的能力,例如解決問題、創造力、倫理判斷,或對全新物理或概念環境的適應性。

歷史背景也很重要。聲稱 AI 通過圖靈測試的說法以前也出現過。2014 年,一個名為’Eugene Goostman’的聊天機器人,旨在模擬一個 13 歲的烏克蘭男孩,據報導在一次類似的測試活動中說服了 33% 的評判者。雖然當時一些人對此表示歡迎,但 33% 的成功率低於通常引用的 50% 門檻,並且是通過使用一個人設(一個非英語母語的青少年)來實現的,這個人設可以為語法錯誤或知識差距提供藉口。與最近超過 50% 甚至達到 73% 的更複雜模型的結果相比,對話式 AI 的進步是不可否認的,但測試本身的局限性仍然存在。

窺探引擎內部:對話能力的驅動因素

像 GPT-4.5 這樣的模型令人印象深刻的表現並非偶然;它是 AI 發展中不懈創新和改進的結果,尤其是在大型語言模型領域。有幾個因素促成了它們生成如此類人文本的能力:

  1. 海量數據集: 現代 LLMs 在真正驚人數量的文本和代碼上進行訓練。這種廣泛的接觸使它們能夠學習複雜的語法結構、多樣的詞彙、風格細微差別、事實信息(儘管不總是準確)以及常見的對話序列。
  2. 複雜的架構: 底層技術,通常基於 Transformer 架構,利用像’注意力’這樣的機制,允許模型在生成輸出時權衡輸入提示中不同詞語的重要性。這有助於在較長的文本段落中保持上下文和連貫性。
  3. 先進的訓練技術: 像來自人類反饋的強化學習(RLHF)這樣的技術被用來微調模型。人類對不同的 AI 回應進行評分,引導模型生成更有幫助、無害和真實——並且通常更像人類聲音的輸出。
  4. 參數規模: 像 LLaMa-3.1-405B 這樣的模型,擁有數千億個參數,具有更大的能力來存儲和處理訓練期間學到的信息,從而實現更複雜和細膩的文本生成。
  5. 上下文保留: 較新的模型展示出改進的’記住’對話早期部分的能力,從而導致更一致和相關的互動,這是人類對話的一個關鍵方面。
  6. 多模態基礎: 建立在像 GPT-4 這樣的前輩(其整合了超越文本的能力,如圖像理解)之上,即使測試互動純粹是基於文本的,也可能賦予較新模型更豐富的內部表示。

當 OpenAI 預覽 GPT-4.5 時,CEO Sam Altman 評論道:’對我來說,這是第一個感覺像在和一個有思想的人交談的模型。’ 雖然主觀,但這種感受反映了這些技術進步所帶來的對話能力的質的飛躍。然後,人設提示就像一個強大的槓桿,將這些能力導向模仿從學習到的數據中提取的特定人類對話風格。

現實漣漪:社會與經濟考量

AI 能夠令人信服地模仿人類對話的證明,即使這不等於真正的智能,也帶來了遠超學術測試的重大現實世界影響。正如 Sinead Bovell 指出的那樣,這些進步具有潛在的’巨大的經濟和社會影響’。

  • 就業市場衝擊: 嚴重依賴溝通的領域是 AI 整合和潛在取代的主要候選者。客戶服務角色、內容生成(撰寫文章、營銷文案)、翻譯服務,甚至輔導或個人助理的某些方面,都可能越來越多地由複雜的聊天機器人和 AI 代理處理。最近推動的’代理式 AI’(Agentic AI)——旨在在數據分析、銷售支持或醫療管理等領域自主執行工作流程的系統——如果這些代理也能以類人的流暢性進行溝通,將獲得進一步的動力。
  • 人際關係與信任: 隨著 AI 越來越擅長模仿同理心和個性,它可能會改變人類互動的動態。人們會與 AI 伴侶建立情感聯繫嗎?當區分人類和 AI 變得更加困難時,我們將如何確保在線互動的真實性?欺騙的可能性,無論是為了詐騙、傳播錯誤信息還是操縱觀點,都顯著增加。
  • ‘更深層偽造’(Deeper Fakes)的興起: FAU 未來心智中心(Center for the Future Mind at FAU)的創始主任 Susan Schneider 對這一軌跡表示擔憂,預測可能出現涉及’更深層偽造’甚至’聊天機器人網絡戰爭’的’噩夢’場景。如果 AI 能夠在文本中令人信服地模仿個人,那麼惡意冒充的可能性將急劇上升。
  • 倫理對齊: Schneider 還強調了對齊的關鍵問題:確保 AI 系統按照人類價值觀行事。一個能夠完美模仿人類對話但缺乏倫理指南針或基於訓練期間學到的有偏見數據運行的 AI,可能會延續有害的刻板印象或提出不道德的建議,而同時聽起來完全合理。這些模型通過了測試,卻不一定’適當對齊’,這是許多研究人員擔憂的一點。

在對話上’通過’人類測試的能力不僅僅是一種技術上的好奇心;它直接關係到我們在日益數字化的世界中如何工作、溝通、信任和相互聯繫。

描繪未來:超越模仿,邁向真正能力

雖然最近涉及 GPT-4.5 和 LLaMa-3.1 的圖靈測試結果是 AI 發展史上的重要里程碑,但它們主要突顯了在自然語言生成和模仿方面的驚人進步。許多專家的共識是,現在的重點必須轉向開發展示真正理解、推理和倫理行為的 AI,而不僅僅是擅長對話模仿。

這需要超越傳統的圖靈測試,走向新的基準和評估方法。這些可能看起來像什麼?

  • 專注於在全新情況下解決複雜問題的測試。
  • 穩健常識推理的評估。
  • 對模糊場景中倫理決策的評估。
  • 衡量創造力和原創思想,而不僅僅是現有模式的重組。
  • 需要長期規劃和戰略思維的測試。

對於該領域的許多人來說,最終目標不僅僅是創造令人信服的對話者,而是開發能夠作為可靠、值得信賴的工具來解決現實世界問題和增強人類能力的 AI。正如原始報導中的結論性思考所暗示的那樣,AI 的未來可能更多地在於其實際效用——協助科學發現、改善醫療保健、管理複雜系統——而非僅僅在於其令人信服地聊天的能力。

通往通用人工智能(AGI)的旅程,如果可以實現的話,是漫長而複雜的。像通過圖靈測試這樣的里程碑是沿途的重要標誌,展示了當前技術的力量。然而,它們也作為關鍵的提醒,提醒我們當前衡量標準的局限性,以及隨著這些強大技術的不斷發展,我們必須解決的深刻的倫理和社會問題。模仿遊戲可能有了新的冠軍,但構建真正智能、有益且對齊的 AI 的挑戰才剛剛開始。