ChatGPT 通過圖靈測試的可能性日益被視為必然的結果。事實上,某些研究人員已經確信它已經完成了這項壯舉。
以 ChatGPT 為例的聊天機器人的發展,展現了智慧、自然性和類人品質的顯著提升。這種進展是合乎邏輯的,因為人類是構成這些 AI 聊天機器人基礎的大型語言模型 (LLMs) 的架構師。隨著這些工具改進其「推理」能力並以更高的精確度模仿人類語音,一個關鍵問題出現了:它們是否足夠先進以通過圖靈測試?
幾十年來,圖靈測試一直是評估機器智能的關鍵基準。目前,研究人員正在積極地對 ChatGPT 等 LLM 進行嚴格的評估。成功的結果將代表 AI 開發領域的一個里程碑。
那麼,ChatGPT 能夠通過圖靈測試嗎?一些研究人員肯定地認為可以。但是,結果仍然可以解釋。圖靈測試不提供直接的二元結果,從而使結果有些模稜兩可。此外,即使 ChatGPT 通過了圖靈測試,它也可能無法提供 LLM 中固有的「類人」品質的明確指標。
讓我們深入研究其中的複雜性。
解構圖靈測試
圖靈測試的本質非常簡單。
由英國數學家艾倫·圖靈(Alan Turing)構思的,他是電腦科學領域的先驅人物,「模仿遊戲」(Imitation Game),最初被稱為,是機器智能的試金石。圖靈測試涉及一個人評估者與一個人和一台機器進行對話,而不知道哪個是哪個。如果評估者無法區分機器和人,則該機器被認為已通過圖靈測試。在研究環境中,此測試會使用不同的評估者進行多次。
必須認識到,此測試並不能明確地確定 LLM 是否具有與人類相同程度的智能。相反,它評估 LLM 令人信服地模仿人類的能力。
LLM 的思維過程
LLM 本質上缺乏物理大腦、意識或對世界的全面理解。它們缺乏自我意識,並且沒有真正的觀點或信仰。
這些模型是在包含廣泛資訊來源的大型數據集上進行訓練的,包括書籍、在線文章、文檔和抄本。當用戶提供文本輸入時,AI 模型會利用其「推理」能力來辨別輸入背後最可能的含義和意圖。隨後,該模型會根據此解釋生成回應。
LLM 的核心功能是複雜的單詞預測引擎。利用其廣泛的訓練數據,它們會根據其詞彙量計算回應的初始「token」(通常是單個單詞)的機率。此迭代過程會一直持續到形成完整的回應為止。雖然此解釋經過簡化,但它捕捉了 LLM 如何根據統計機率而不是對世界的真正理解來產生回應的本質。
因此,認為 LLM 以傳統意義上的「思考」是不準確的。
經驗證據:ChatGPT 與圖靈測試
許多研究已經探討了 ChatGPT 在圖靈測試中的表現,其中許多研究都產生了積極的結果。這導致一些電腦科學家斷言,GPT-4 和 GPT-4.5 等 LLM 現在已經超過了圖靈測試的門檻。
這些評估大多集中在 OpenAI 的 GPT-4 模型上,該模型為大多數 ChatGPT 互動提供動力。加州大學聖地牙哥分校的一項研究顯示,人類評估者常常無法區分 GPT-4 和人類。在這項研究中,GPT-4 在 54% 的案例中被誤認為是人類。但是,此表現仍然落後於實際人類,他們在 67% 的時間內被正確識別為人類。
在 GPT-4.5 發佈後,加州大學聖地牙哥分校的研究人員複製了該研究。這次,LLM 在 73% 的案例中被識別為人類,超過了實際人類的表現。該研究還表明,Meta 的 LLaMa-3.1-405B 能夠通過測試。
獨立於加州大學聖地牙哥分校進行的類似研究也為 GPT 分配了及格分數。瑞丁大學在 2024 年進行的一項研究涉及 GPT-4 生成對本科課程家庭作業評估的回應。評分者不知道該實驗,並且僅標記了 33 個提交中的一個。ChatGPT 在其餘 32 個條目中獲得了高於平均水平的分數。
這些研究有結論性嗎?不完全是。一些批評家認為,這些研究結果不如它們看起來那麼令人印象深刻。這種懷疑阻止我們明確宣佈 ChatGPT 已經通過了圖靈測試。
儘管如此,很明顯的是,雖然前幾代的 LLM(例如 GPT-4)偶爾會通過圖靈測試,但隨著 LLM 的不斷發展,成功的結果變得越來越普遍。隨著 GPT-4.5 等尖端模型的出現,我們正在迅速接近模型可以始終如一地通過圖靈測試的地步。
OpenAI 設想了一個無法區分人類和 AI 的未來。這種願景反映在 OpenAI CEO Sam Altman 對於一個涉及眼球掃描設備 The Orb 的人類驗證專案的投資。
ChatGPT 的自我評估
當被問及是否可以通過圖靈測試時,ChatGPT 做出了肯定的回答,但帶有已經討論過的警告。當被提示問題「ChatGPT 可以通過圖靈測試嗎?」時,AI 聊天機器人(使用 4o 模型)表示「ChatGPT 可以在某些情況下通過圖靈測試,但並非可靠或普遍。」該聊天機器人總結說,「它可能會在隨意的條件下與普通用戶通過圖靈測試,但堅定而周到的審問者幾乎總是可以揭露它。」
圖靈測試的局限性
一些電腦科學家現在認為圖靈測試已經過時,並且在評估 LLM 方面價值有限。美國心理學家、認知科學家、作家和 AI 評論員 Gary Marcus 在最近的一篇博文中簡潔地總結了這一觀點,他說「正如我(和許多其他人)多年來所說的那樣,圖靈測試是對人類輕信的測試,而不是對智能的測試。」
同樣重要的是要記住,圖靈測試側重於對智能的感知,而不是實際的智能。這種區別至關重要。像 ChatGPT 4o 這樣的模型可能僅僅通過模仿人類語音來通過測試。此外,LLM 在測試中的成功將取決於討論的主題和評估者。ChatGPT 可能擅長隨意對話,但在需要真正情商的互動中會遇到困難。此外,現代 AI 系統越來越多地用於簡單對話之外的應用,特別是當我們走向主動 AI 的世界時。
這並不是說圖靈測試完全無關緊要。它仍然是一個重要的歷史基準,並且值得注意的是 LLM 能夠通過它。但是,圖靈測試並不是衡量機器智能的最終標準。
超越圖靈測試:尋找更好的基準
圖靈測試雖然具有歷史意義,但越來越被視為衡量真正人工智慧的不充分標準。它側重於模仿人類的對話,忽略了智能的關鍵方面,例如解決問題、創造力和適應性。該測試對欺騙的依賴也引發了道德問題,因為它鼓勵 AI 系統假裝具有類人品質,而不是發展真正的智能。
對新指標的需求
隨著 AI 技術的進步,對更全面和相關的基準的需求變得越來越明顯。這些新指標應解決圖靈測試的缺點,並提供對 AI 能力更準確的評估。未來基準的一些潛在方向包括:
- **實際問題解決:**需要 AI 系統解決複雜的實際問題的測試,例如設計可持續的能源網格或開發疾病的治療方法。
- **創意任務:**評估 AI 產生原創和富有想像力的內容的能力的評估,例如撰寫小說、創作音樂或創作藝術品。
- **適應性和學習:**衡量 AI 從新經驗中學習和適應不斷變化的環境的能力的指標。
- **道德考量:**評估 AI 做出道德決策和避免偏見的能力的評估。
新興基準的範例
正在出現幾個新基準來解決圖靈測試的局限性。其中包括:
- **Winograd 模式挑戰:**此測試側重於 AI 理解句子中含糊不清的代名詞的能力。
- **AI2 推理挑戰:**此基準評估 AI 基於複雜文本進行推理和回答問題的能力。
- **常識推理挑戰:**此測試評估 AI 對常識知識的理解及其進行推論的能力。
AI 評估的未來
AI 評估的未來可能涉及不同基準的組合,每個基準都旨在評估智能的特定方面。這些基準應不斷發展,以跟上 AI 技術的快速發展。此外,讓包括研究人員、政策制定者和公眾在內的不同利益相關者參與 AI 基準的開發和評估至關重要。
超越模仿
最終,AI 研究的目標應是開發不僅智能而且對人類有益的系統。這需要超越對類人模仿的追求,而側重於開發可以解決實際問題、提高創造力和促進道德決策的 AI 系統。通過擁抱新基準並專注於這些更廣泛的目標,我們可以釋放 AI 的全部潛力,並創造一個 AI 和人類共同努力創造更美好世界的未來。