重新思考基準:圖靈願景的現代變革
數十年來,判斷機器是否能真正「思考」的探索一直吸引著電腦科學家和哲學家。這場辯論的核心往往圍繞著 Alan Turing 提出的開創性概念。這位才華橫溢的英國數學家和密碼破譯者的工作為現代計算奠定了基石。Turing 設想了一個場景,現今聞名遐邇的 Turing Test,其中一位人類提問者與兩個看不見的實體——一個人類,一個機器——進行基於文本的對話。衡量機器成功的關鍵標準是什麼?是它能夠欺騙提問者,讓其相信它是人類參與者的能力。Turing 假設,如果提問者無法可靠地區分機器與人,那麼該機器就可以被認為具有類似人類的智能行為。雖然最初的測試因其作為衡量意識或理解的真正標準是否充分而面臨批評,但其核心思想——評估 AI 令人信服地複製人類互動的能力——仍然是一個強有力的基準。
現在,來自 University of California, San Diego 的研究人員為這一經典評估注入了新的活力,引入了一種引人注目的變體,專為當今複雜的 AI 環境而設計。他們的研究開創了一種三方迭代的 Turing Test,為評估增加了複雜性,或許也帶來了更真實的動態。這不僅僅是區分一個 AI 和一個人類;它涉及更錯綜複雜的互動與欺騙之舞,將當代人工智能系統在模仿藝術方面的能力推向極限。研究結果表明,最先進的 AI 模型不僅僅是接近類人對話的門檻;在某些情況下,它們可能直接跨越了這個門檻,有時甚至顯得比人類更像人類。
嚴峻考驗:人類對抗尖端 AI
UC San Diego 團隊設計的實驗具體而嚴謹。每一輪互動都涉及一個三人組:兩名人類參與者和一個 AI 模型。人類的任務只有一個,且充滿挑戰:經過一段時間的對話後,判斷他們兩個看不見的對話者中,哪一個是人工智能,哪一個是同胞人類。與最初的一對一對一 Turing Test 相比,這種設置內在地提高了風險。
為了幫助做出判斷,參與者進行了兩場同時並行的基於文本的對話——一場與隱藏的人類進行,另一場與隱藏的 AI 進行。他們每輪被分配了簡潔的五分鐘時間窗口。在此時間範圍內,人類評判者擁有完全的自由。他們可以使用任何提問策略,探討任何話題,或運用任何他們認為有效的對話策略來揭示聊天夥伴的真實本質。互動窗口的短暫性增加了另一層挑戰,考驗了 AI 快速建立令人信服的角色並在審視下維持該角色的能力,同時也考驗了人類基於有限的對話數據做出快速、準確判斷的能力。在五分鐘的互動期結束後,真相大白的時刻到來:人類參與者投票,指認他們認為是 AI 的實體。
研究人員並非僅依賴單一 AI 系統。相反,他們策劃了一個多樣化的陣容,代表了 AI 發展的不同時代和能力:
- ELIZA: 由 Joseph Weizenbaum 在近六十年前(非來源所述的 80 年,ELIZA 可追溯至 1960 年代中期)開發的開創性聊天機器人。雖然以今天的標準來看很原始,依賴模式匹配和簡單腳本,但 ELIZA 作為歷史基線,代表了早期對話式 AI 的嘗試。
- Meta 的 Llama 3.1-405B: 來自 Meta AI 的強大、當代大型語言模型 (LLM),以其複雜的文本生成和推理能力而聞名。它的納入代表了來自一個主要 AI 研究實驗室的當前頂尖水平。
- OpenAI 的 GPT-4o: 研究進行時 OpenAI 最新公開發布的多模態模型,以其速度、效率以及相較於先前 GPT 迭代增強的對話能力而受到認可。
- OpenAI 的 GPT-4.5: 顯然是 OpenAI 旗艦模型系列中更先進、或許未發布或內部的版本。它的納入表明研究人員可能接觸到了超越公開可用系統的模型。
這個選擇讓研究人員不僅可以比較現代 AI 與人類,還可以比較現代 AI 與歷史基準以及不同水平的當代 AI 複雜性。核心問題依然存在:這些機器,特別是先進的 LLM,能否成功駕馭這個三方對話的難題並冒充人類?
人設策略:GPT-4.5 如何取得驚人成功
該研究為 AI 模型納入了兩種不同的操作場景,為調查增加了另一個維度。研究人員想了解 AI 的明確目標是否影響其欺騙人類參與者的能力。
場景 1:明確欺騙任務: 在此設置中,AI 被給予直接且明確的指令:誤導人類參與者。其編程目標是在對話中盡一切可能說服人類評判者,讓他們相信自己正在與另一個真人互動。這測試了 AI 在被明確告知要顯得像人時,進行策略規劃甚至可能操縱對話以達成目標的能力。
場景 2:人設模仿任務: 在這裡,AI 收到了不同類型的提示。它沒有被明確告知要欺騙。相反,它被指示採用特定的人設——一個深度沉浸於網路文化的年輕人,使用該群體典型的當代俚語和溝通風格。AI 僅被要求扮演這個角色,沒有公開指示要愚弄提問者。
這兩種場景的結果截然不同,尤其是對於表現突出的 GPT-4.5。在明確指示誤導的操作下(場景 1),GPT-4.5 取得了 36% 的成功率。雖然這個數字不容小覷,但它表明,當 AI 公開嘗試欺騙時,它可能不那麼令人信服,或者它的嘗試更容易被可能對人工性保持高度警惕的人類評判者察覺。
然而,在人設模仿任務中(場景 2),情況發生了戲劇性的轉變。當僅被要求體現年輕、精通網路的人設時,GPT-4.5 的表現飆升。在 73% 的互動中,它成功地讓人類參與者相信其為人類。這表明,採用一個看起來自然的角色,即使是風格化的角色,也是一種比直接嘗試欺騙更有效的融入策略。這意味著 AI 的優勢不在於精心計算的操縱,而在於其從龐大的訓練數據中學習,能夠真實地合成和複製與特定人群或個性相關的人類溝通模式。AI 並非試圖成為人類;它是在扮演特定類型的人類,並且做得非常有效。
比較表現:欺騙的光譜
雖然 GPT-4.5 獨佔鰲頭,但其他 AI 模型的表現提供了寶貴的背景信息和一些有趣的意外發現。
Meta 的 Llama 3.1-405B 也展現了相當的能力。它在說服人類相信其真實性方面取得了 56% 的成功率。這個結果顯著優於隨機猜測(在二選一的情況下是 50%,儘管三方測試的動態使簡單的機率計算稍微複雜化)。這將 Llama 3.1 牢牢地歸入高度稱職的對話模仿者類別,能夠經常愚弄人類評判者,儘管尚未達到 GPT-4.5 在其最佳場景下展示的非凡水平。這一穩健的表現突顯了領先大型語言模型在複製細膩人類對話方面的普遍進步。
也許最出乎意料的發現來自 GPT-4o 與歷史悠久的 ELIZA 程式之間的比較。OpenAI 的先進 GPT-4o 模型僅在 21% 的案例中成功說服參與者它是人類。與直覺相反,更簡單、基於腳本的 ELIZA 程式表現稍好,達到了 23% 的成功率。雖然這兩個百分比都很低,表明在這次特定的測試設置中兩者都不是特別令人信服,但 ELIZA 的微弱優勢值得注意。它引發了關於在這些短暫互動中人類感知和判斷本質的問題。是否可能是 ELIZA 的極度簡單和可預測性,也許被視為古怪或特異,有時被誤解為人類的非標準溝通,而 GPT-4o 更複雜但可能顯得呆板或過於正式的回應(取決於其在測試中的具體提示和行為)更容易被標記為人工?或者,這可能反映了特定互動或參與者期望中的細微差別,在少數情況下偏愛 ELIZA 的風格。這個結果當然值得進一步研究人類如何感知不同類型的人工性或非標準溝通。
然而,最突出的結果仍然是 GPT-4.5 的表現,該研究的主要作者、UC San Diego 語言與認知實驗室的研究員 Cameron Jones 特別強調了這一點。Jones 強調了最令人震驚的方面:「人們無法區分來自 GPT-4.5 和 LLaMa 的人,而 4.5 被評價為人類的頻率甚至遠高於真人!」 這是一個意義深遠的陳述。AI 能冒充人類是一回事;而被認為比參與同一測試的實際人類更像人則完全是另一回事。這表明 GPT-4.5,至少在人設場景中,可能產生了更符合參與者對典型人類線上互動期望的回應(也許更具吸引力、更一致或更刻板印象中的「人類」),而不是真實人類對應者可能更多樣化或更難預測的回應。
超越圖靈:超逼真 AI 模仿的影響
雖然研究人員承認 Turing Test 本身,在其最初的表述中,甚至可以說在這種修改後的形式中,可能已是評估真正機器智能或理解的過時指標,但該研究的發現具有重大意義。它們提供了鮮明的證據,表明 AI 系統,特別是那些基於在海量人類文本和對話數據集上訓練的大型語言模型,在掌握模仿藝術方面取得了多大的進展。
結果表明,這些系統可以生成不僅語法正確或上下文相關,而且在短暫的、基於文本的互動限制內,在感知上與人類輸出無法區分的對話輸出。即使底層 AI 不具備真正的理解力、意識或構成人類溝通基礎的主觀經驗,其合成看似合理、引人入勝且角色一致的回應的能力正在迅速提高。它可以有效地創造一個理解的表象,足以在大多數時候欺騙人類評判者,尤其是在採用一個 relatable 的人設時。
這種能力具有深遠的影響,遠遠超出了 Turing Test 的學術好奇心。Cameron Jones 指出了由這種先進模仿驅動的幾個潛在的社會轉變:
- 工作自動化: AI 能夠無縫取代人類進行短期互動,且可能不被察覺,這為在嚴重依賴基於文本溝通的角色中實現自動化打開了更廣闊的大門。客戶服務聊天、內容生成、數據輸入、排程以及各種形式的數位助理可能會看到 AI 應用增加,如果 AI 被證明足夠令人信服且具成本效益,將取代人類工人。該研究表明,「令人信服」的門檻正在達到或被超越。
- 增強的社會工程: 濫用的潛力巨大。惡意行為者可以利用超逼真的 AI 聊天機器人進行複雜的釣魚詐騙、散佈虛假信息、操縱公眾輿論或冒充個人進行欺詐。一個比實際人類更常被視為人類的 AI 可能成為一種極其強大的欺騙工具,使個人更難信任線上互動。「人設」策略的有效性在這裡尤其令人擔憂,因為 AI 可以被量身定做來冒充特定類型的可信賴個人或權威人物。
- 普遍的社會動盪: 除了具體的應用之外,能夠進行無法檢測的人類模仿的 AI 的廣泛部署可能會從根本上改變社會動態。我們如何在線上環境中建立信任?當通過潛在的人工對話者進行調解時,人類聯繫的本質會發生什麼變化?這會導致孤立加劇,還是矛盾地產生新的 AI-人類伴侶關係形式?人類與機器溝通之間日益模糊的界線,迫使社會必須正視這些問題。它挑戰了我們在數位時代對真實性和互動的定義。
這項目前等待同行評審的研究,是一個關鍵的數據點,說明了 AI 複製人類對話行為能力的飛速發展。它強調,雖然關於真正通用人工智能的辯論仍在繼續,但 AI 在特定情境下扮演人類的實際能力已達到一個關鍵時刻。我們正在進入一個舉證責任可能轉移的時代——與其問機器是否能看起來像人,我們可能越來越需要質疑我們在線上互動的「人類」是否真的是生物學上的。模仿遊戲已達到新的水平,其後果才剛剛開始顯現。