人工智能的版圖不斷變遷,其標誌性里程碑曾一度僅限於科幻小說的範疇。最近的一項發展在科技界及更廣泛領域引起了漣漪:據報導,兩款複雜的 AI 模型已成功應對了 Turing Test
的複雜性。這個由才華橫溢的英國數學家 Alan Turing
在 20 世紀中期構想出的標誌性基準,長期以來一直是機器智能領域概念上的珠穆朗瑪峰——衡量機器是否能進行令人信服的對話,以至於無法與人類區分。OpenAI
的 GPT-4.5
和 Meta
的 Llama-3.1
模型據稱已達到這一頂峰的消息,標誌著 AI 進化中一個潛在的關鍵時刻,迫使人們重新審視人類認知與人工智能能力之間日益模糊的界限。
里程碑實驗:設計與驚人結果
聲稱這些 AI 系統通過了 Turing Test
的說法,源於加州大學聖地牙哥分校的 Cameron R. Jones
和 Benjamin K. Bergen
進行的研究。他們的研究目前正等待同行評審的嚴格審查,其採用了一種旨在緊密遵循 Turing
最初提議精神,同時融入現代嚴謹性的方法論。認識到較簡單的雙方測試的局限性,Jones
和 Bergen
實施了一種更具挑戰性的三方互動模型 (three-party interaction model
)。
在此設置中,一名人類參與者(審問者)同時與兩個獨立的對象進行基於文本的對話,持續時間為五分鐘。其中一個對話夥伴是另一個人類,而另一個則是 AI 系統。關鍵的是,審問者不知道哪個是哪個。在五分鐘的交流之後,審問者的任務很明確:識別出機器。這種結構迫使進行直接比較,被認為是比僅僅在孤立情境下詢問 AI 是否像人類更為穩健的評估。
為確保研究結果不因特定人群而產生偏差,研究人員在兩個不同的人群中測試了他們的設置:
- 大學生,代表著通常熟悉數位溝通的年輕群體。
- 多產工作者(從線上平台招募),代表著習慣於各種線上互動的更廣泛人口橫斷面。
這種細緻方法得出的結果引人注目。
OpenAI
的GPT-4.5
表現出驚人的說服力。當特別指示其扮演特定人設(稍後詳述)時,它不僅令人信服;它甚至比實際參與的人類更具說服力。審問者將GPT-4.5
識別為人類參與者的比例高達驚人的 73%。這個數字不僅顯著超過了傳統的 50% 通過門檻,也超過了審問者正確識別實際人類夥伴的比率。Meta
的Llama-3.1-405B
,另一款尖端的大型語言模型,同樣表現出色。它在被識別為人類方面達到了 56% 的成功率,有效地達到了隨機選擇時預期的基線表現(約 50%),並展示了其模仿人類對話模式的強大能力。
這些高成功率與實驗中包含的基線和對照模型的表現形成鮮明對比:
GPT-4o
,一個功能強大但可能不那麼先進的OpenAI
模型,其勝率僅為 21%。ELIZA
,一個在 1960 年代開發的初級聊天機器人,作為對照組。包含它是為了確認審問者在面對不那麼複雜的系統時,確實能夠區分非人類的回應。正如預期的那樣,ELIZA
表現不佳,絕大多數時候被正確識別為非人類(勝率僅 23%,基本上衡量的是噪音基底或參與者錯誤)。
GPT-4.5
和 Llama-3.1
的表現與 GPT-4o
和 ELIZA
之間的顯著差距,突顯了近期 AI 發展所取得的進步。研究人員斷言,他們的研究提供了「第一個證明任何系統通過了原始三方 Turing Test
的有力證據」,這一說法在等待同行評審的同時,標誌著 AI 歷史上的一個重要時刻。
人設與提示詞的關鍵作用
然而,AI 勝利的敘事伴隨著一個重要的星號,這個星號突顯了頭條數字背後微妙的現實。GPT-4.5
和 Llama-3.1
令人印象深刻的成功率並非僅憑其固有的、開箱即用的能力實現的。相反,它們愚弄人類審問者的能力在很大程度上依賴於互動開始前給予它們的特定指令——提示詞 (prompts
)。
研究人員指示 AI 模型採用一個精心定義的人設:一個年輕、有些內向、且熟悉網路文化的個體。這種特定的角色塑造似乎是它們成功的關鍵。當相同的先進 AI 模型(GPT-4.5
和 Llama-3.1
)在沒有這個人設提示詞的情況下進行測試時,它們的表現顯著下降。人類審問者更容易將它們識別為機器。
這一發現至關重要,原因有幾個:
- 它突顯了提示詞工程 (
prompt engineering
) 的力量: 構建有效提示詞的能力正日益成為利用大型語言模型能力的關鍵。這項研究表明,提示詞不僅僅是從 AI 中獲取正確的資訊;它還關乎塑造其行為、語氣和表面個性以適應特定情境。這裡的成功可能既是對熟練提示詞技巧的證明,也是對底層 AI 架構的證明。 - 它引發了關於「通過」意味著什麼的問題: 如果一個 AI 只有在被特別指導扮演特定類型的人類時才能通過
Turing Test
,它是否真正符合Turing
最初挑戰的精神?或者,它僅僅展示了該模型在獲得明確舞台指導時的靈活性及其複雜模仿的能力? - 它強調了適應性作為一個關鍵特徵: 正如
Jones
和Bergen
在他們的論文中指出的,「可以說,正是LLMs
能夠輕易地被提示以適應不同情境的行為,使它們如此靈活:並且顯然如此有能力冒充人類。」這種適應性無疑是一個強大的特性,但它將焦點從天生的「智慧」轉移到了可編程的表現上。
對人設的依賴表明,目前的 AI,即使是最先進的,可能並不具備普遍的、固有的「類人」品質,而是在被指示這樣做時,擅長戴上特定的人類面具。
超越模仿:質疑真正智慧
研究人員自己也謹慎地緩和對其研究結果的解釋。通過這個特定的對話測試,即使在嚴格的條件下,也不應自動等同於真正機器智能、意識或理解的到來。Turing Test
雖然具有歷史意義,但主要評估的是在有限情境下(短暫的文本對話)的行為不可區分性。它不一定探究更深層次的認知能力,如推理、常識、倫理判斷或真正的自我意識。
像 GPT-4.5
和 Llama-3.1
這樣的現代大型語言模型 (LLMs
) 是在從網際網路抓取的、包含文本和程式碼的、難以想像的龐大數據集上訓練出來的。它們擅長識別模式、預測序列中的下一個詞,並生成在統計上類似於人類溝通的文本。正如科技教育公司 Waye
的創始人 Sinead Bovell
恰當地質疑的那樣,「當 AI 接受了比任何單個人所能閱讀或觀看的更多人類數據的訓練時,它最終在『聽起來像人』方面擊敗我們,這完全令人驚訝嗎?」
這種觀點表明,AI 不一定像人類一樣「思考」,而是部署了一種極其複雜的模式匹配和模仿形式,這種形式是通過接觸代表著無數人類對話、文章和互動的數萬億個詞語而磨練出來的。因此,在測試中的成功可能反映了其訓練數據的絕對數量和廣度,而不是向類人認知的根本性飛躍。
因此,包括該研究作者在內的許多專家認為,Turing Test
雖然是一個有價值的歷史標記,但可能不再是衡量 AI 有意義進展的最合適基準。越來越多的人達成共識,認為未來的評估應側重於更嚴格的標準,例如:
- 穩健的推理能力: 評估 AI 解決複雜問題、進行邏輯推斷以及理解因果關係的能力。
- 倫理對齊: 評估 AI 的決策過程是否符合人類價值觀和倫理原則。
- 常識: 測試 AI 對人類視為理所當然的物理和社會世界隱性知識的掌握程度。
- 對新情境的適應性: 衡量 AI 在面對與其訓練數據顯著不同的場景時的表現如何。
爭論從「它能像我們一樣說話嗎?」轉向「它能像我們一樣推理、理解和負責任地行事嗎?」
歷史背景與先前嘗試
創造一台能夠通過 Turing Test
的機器的追求,幾十年來一直吸引著電腦科學家和公眾。最近的這項研究並非首次出現成功的聲明,儘管先前的事例往往伴隨著懷疑或限定條件。
也許最著名的先前聲稱涉及 2014 年的 Eugene Goostman
聊天機器人。該程式旨在模擬一名 13 歲的烏克蘭男孩。在一場紀念 Alan Turing
逝世 60 週年的競賽中,Goostman
在五分鐘的對話中成功說服了 33% 的評審,讓他們相信它是人類。雖然被廣泛報導為「通過」了 Turing Test
,但這一說法存在爭議。許多人認為 33% 的成功率未達到通常認為必要的 50% 門檻(儘管 Turing
本人從未指定確切的百分比)。此外,批評者指出,模擬一個非英語母語的青少年可能使語法錯誤和知識差距顯得更情有可原,從而可能降低了欺騙的標準。
在 Jones
和 Bergen
的研究中包含 ELIZA
提供了寶貴的歷史基礎。由 MIT
的 Joseph Weizenbaum
在 1960 年代開發的 ELIZA
,使用簡單的模式匹配和關鍵字替換來運作,通常將用戶的陳述作為問題反映回去(例如,用戶:「我感到悲傷。」ELIZA
:「你為什麼感到悲傷?」)。儘管其簡單性,一些用戶著名地將類人理解歸因於它。它在最近更嚴格的三方測試中表現不佳(23% 的勝率),證實了實驗設計足夠敏感,能夠區分初級模仿和現代 LLMs
的複雜對話能力。從 ELIZA
到 GPT-4.5
的歷程代表了計算能力、演算法複雜性和數據可用性的巨大飛躍。
人的因素:審問策略與觀感
UC San Diego
的研究也提供了關於人類如何試圖在對話中辨別非自然性的有趣見解。對審問者策略的分析揭示了常見的方法:
- 進行閒聊(61% 的遊戲): 討論日常活動、嗜好或平凡的個人細節是一種常見的策略,也許是基於 AI 可能難以處理日常人類經驗的細微差別或缺乏令人信服的個人歷史的假設。
- 探究社交和情感品質(50%): 審問者經常試圖引出與感覺、觀點、同理心或社會理解相關的回應,這些領域傳統上被認為是人類獨有的。
- 用奇異性進行測試: 一些最有效的策略涉及偏離正常對話。這包括說一些奇怪或出乎意料的話來衡量反應,測試 AI 優雅地處理新奇或荒謬情況的能力。
- 嘗試「越獄」 (
Jailbreaking
): 技術上更精通的審問者試圖使用特定的提示詞或問題,旨在繞過 AI 的安全協議或迫使其揭示其作為機器的底層本質。
這些策略表明,人類通常依賴於感知到的情感深度、個人敘事的連貫性以及處理對話突發狀況的能力作為人性的標誌。
有趣的是,GPT-4.5
的成功,特別是其甚至與實際人類相比的高評分,讓創新思想家 John Nosta
評論道:「我們並非輸給人工智能。我們是輸給了人工同理心。」這一評論指出了 AI 不僅在模仿語言模式方面,而且在模擬人類互動的情感品質方面日益精通——表達明顯的理解、關心或共同感受,即使這些是演算法生成的而非真正感受到的。生成聽起來富有同理心的回應的能力,似乎是說服人類相信 AI 真實性的有力工具。
更廣泛的影響:經濟、社會與未來
像 GPT-4.5
和 Llama-3.1
這樣的模型成功應對 Turing Test
基準,即使帶有提示詞的限制條件,其影響也遠遠超出了學術或技術領域。它標誌著 AI 在對話流暢性和行為適應性方面達到了可能顯著重塑生活各個層面的水平。
經濟衝擊: AI 以類人方式互動的能力引發了對工作崗位流失的進一步擔憂。嚴重依賴溝通、客戶服務、內容創作,甚至某些形式的陪伴或指導的角色,可能會被能夠自然有效對話的 AI 系統自動化或顯著改變。
社會關切: AI 模仿日益複雜化,對人際關係和社會信任構成了挑戰。
- 與高度令人信服的 AI 聊天機器人廣泛互動,是否會導致真正人際聯繫的貶值?
- 我們如何確保透明度,讓人在互動時知道對方是人類還是 AI,尤其是在支持服務或線上關係等敏感情境中?
- 利用其創建高度可信的「深度偽造」(
deepfake
) 人設進行詐騙、散佈虛假信息或惡意社交工程的可能性顯著增加。
代理式 AI (Agentic AI
) 的興起: 這些發展與代理式 AI 的更廣泛趨勢相符——這些系統不僅旨在回應提示詞,而且能夠自主追求目標、執行任務並與數位環境互動。像 Microsoft
、Adobe
、Zoom
和 Slack
這樣的公司正在積極開發旨在充當虛擬同事的 AI 代理,自動化從安排會議、總結文件到管理專案和與客戶互動等各種任務。一個能夠在對話中令人信服地冒充人類的 AI,是創建有效且整合的 AI 代理的基礎要素。
警惕之聲:對齊與未預見後果
在圍繞 AI 進步的興奮之中,一些著名人士敦促保持謹慎,強調安全和倫理考量的至關重要性。佛羅里達大西洋大學未來心智中心 (Center for the Future Mind at Florida Atlantic University
) 的創始主任 Susan Schneider
對這些強大聊天機器人的對齊問題表示擔憂。「可惜這些 AI 聊天機器人沒有被恰當地對齊」,她警告說,如果 AI 的發展速度超過了我們確保這些系統安全運行並符合人類價值觀的能力,潛在的危險就會出現。
Schneider
預測,如果對齊問題不被優先考慮,未來將充滿挑戰:「然而,我預測:它們的能力將不斷增強,這將是一場噩夢——湧現特性、’更深層次的偽造’、聊天機器人網路戰。」
- 湧現特性 (
Emergent properties
) 指的是在像先進 AI 這樣的複雜系統中可能出現的、未被其創造者明確編程或預期的意外行為或能力。 - 「更深層次的偽造」 (
Deeper fakes
) 超越了被操縱的圖像或影片,可能涵蓋完全虛構的、用於大規模欺騙的互動式人設。 - 「聊天機器人網路戰」 (
Chatbot cyberwars
) 設想了 AI 系統被部署來相互對抗或對抗人類系統以達到惡意目的的場景,例如大規模散佈虛假信息或自動化社會操縱。
這種謹慎的觀點與通常與未來學家如 Ray Kurzweil
(Schneider
提到了他)相關的更樂觀的願景形成鮮明對比,後者著名地預測了一個由指數級進步的 AI 轉變的、基本上是積極的未來,最終導致技術奇點。這場辯論突顯了在駕馭人工智能發展下一階段所涉及的深刻不確定性和高風險。令人信服地模仿人類對話的能力是一項了不起的技術成就,但隨著我們進一步踏入這個新時代,它也打開了一個充滿倫理、社會和生存問題的潘朵拉魔盒,需要我們仔細考量。