非傳統的推理能力測試
Anthropic,一家領先的 AI 研究公司,啟動了一項獨特的實驗,以測試其最新 AI 模型 Claude 3.7 Sonnet 的能力。Anthropic 並沒有選擇傳統的基準測試,而是採用了一種更非傳統的方法:讓 AI 在 Twitch 直播中遊玩《寶可夢 紅》。這項嘗試吸引了不同領域觀眾的注意,他們收看直播,見證 AI 在這款經典 Game Boy 遊戲中緩慢但堅定的進展。
為何選擇《寶可夢》?一個出乎意料的複雜挑戰
乍看之下,《寶可夢 紅》這款主要為兒童設計的遊戲,似乎不太適合作為評估尖端 AI 的選擇。然而,這款遊戲呈現出一系列出乎意料的複雜挑戰,需要邏輯推理、問題解決和策略規劃。這些正是 Anthropic 旨在推動 AI 發展的領域。
遊戲的開放世界性質,以及其中無數相互關聯的謎題、障礙和角色互動,為測試 AI 的以下能力提供了一個豐富的環境:
- 理解並回應自然語言指令: AI 必須解讀遊戲環境中基於文本的指令和回饋。
- 制定短期和長期目標: 從為戰鬥選擇合適的寶可夢到導航複雜的路線,AI 需要提前規劃。
- 適應意外情況: 遊戲中充滿了隨機遭遇和不可預測的事件,迫使 AI 即時調整策略。
- 從經驗中學習: AI 必須記住過去的成功和失敗,以隨著時間的推移提高其表現。
緩慢而穩定的進展:AI 的旅程
直播展示了 Claude 3.7 Sonnet 在《寶可夢》世界中一段引人入勝,但往往節奏緩慢的旅程。AI 的遊戲過程既有令人印象深刻的推理能力,也有令人困惑的時刻。
在早期階段,AI 甚至在最基本的任務上都遇到了困難。離開初始城鎮,這個人類玩家可以在幾分鐘內完成的任務,對 Claude 來說卻是一個巨大的障礙。它花了幾個小時來掌握遊戲的控制和空間佈局,經常卡在角落裡或反覆與相同的物體互動。
然而,隨著直播的進行,AI 開始展現出對遊戲機制的日益了解。它學會了如何:
- 在不同區域之間導航。
- 與其他寶可夢訓練家進行戰鬥。
- 捕捉野生寶可夢。
- 策略性地使用道具。
- 甚至擊敗了幾個道館館主,這是遊戲中的一個重要里程碑。
輝煌與挫折的時刻
AI 的輝煌時刻經常穿插著令人沮喪的停滯期或看似不合邏輯的決定。有些時候,Claude:
- 會專注於看似無關緊要的物體,例如一面岩石牆,花費數小時試圖與之互動,最後才推理出繞過它的方法。
- 在戰鬥中做出令人費解的選擇,例如使用無效的招式或切換到較弱的寶可夢。
- 陷入循環,一遍又一遍地重複相同的動作,卻沒有取得任何進展。
這些時刻突顯了開發真正理解並與複雜、動態環境互動的 AI 所面臨的固有挑戰。雖然 Claude 3.7 Sonnet 在推理和問題解決方面取得了重大進展,但它仍然有很長的路要走,才能達到人類玩家的直覺理解和適應能力。
向過去致敬:’Twitch Plays Pokémon’
這項實驗不可避免地讓人聯想到幾年前風靡網路的 ‘Twitch Plays Pokémon’ 現象。在那次實驗中,成千上萬的 Twitch 觀眾使用聊天室中的文字指令,共同控制《寶可夢 紅》中的一個角色。結果是一場混亂但最終成功的遊戲過程,由網路社群的集體智慧(以及偶爾的惡作劇)推動。
然而,Anthropic 的實驗代表了與這種協作模式的重大不同。在這裡,AI 單獨遊玩,試圖在沒有任何人工干預的情況下應對遊戲的挑戰。這種從集體人類遊戲到個體 AI 控制的轉變引起了觀眾的複雜反應。有些人驚嘆於所展示的技術進步,而另一些人則感嘆失去了 ‘Twitch Plays Pokémon’ 所特有的共享體驗和不可預測的幽默感。
更廣闊的視野:對 AI 發展的影響
除了娛樂價值之外,Anthropic 的《寶可夢》實驗對 AI 發展領域具有更廣泛的影響。它提供了對當前 AI 模型優缺點的寶貴見解,特別是在以下領域:
- 自然語言處理: AI 理解和回應遊戲中基於文本的信息的能力對其成功至關重要。
- 強化學習: AI 通過試錯學習,根據其在遊戲中獲得的獎勵和懲罰逐步提高其表現。
- 泛化能力: AI 將其在一個情境中學到的知識應用於新的、不熟悉的情境的能力是其長期進展的關鍵。
通過研究 Claude 3.7 Sonnet 如何應對《寶可夢 紅》的挑戰,Anthropic 的研究人員可以更好地了解如何開發更強大、更具適應性且能夠處理現實世界複雜性的 AI 系統。
AI 與遊戲的未來
AI 和電子遊戲的交叉是一個快速發展的領域,其潛在應用遠遠超出了娛樂。遊戲為測試和改進 AI 演算法提供了一個受控且可測量的環境,並且從中學到的經驗可以應用於廣泛的現實世界問題,例如:
- 機器人技術: 訓練機器人在複雜環境中導航並與物體互動。
- 自動駕駛汽車: 開發能夠在不可預測的交通狀況下做出安全可靠決策的自動駕駛汽車。
- 醫療保健: 創建 AI 驅動的診斷工具和個人化治療計劃。
- 教育: 設計能夠適應個別學生需求的智慧輔導系統。
隨著 AI 技術的不斷進步,我們可以期待在電子遊戲及其他領域看到更複雜和令人驚訝的 AI 應用。Anthropic 的《寶可夢》實驗只是這段令人興奮的旅程中的一小步,但它讓我們得以一窺 AI 改變我們生活、工作和娛樂方式的潛力。
這款遊戲雖然是為兒童設計的,但事實證明它是 AI 研究的一個非常有用的工具。環境的挑戰迫使 AI 發展推理能力,並提供了許多學習的機會。雖然 AI 遠非完美,但它表明模型在解決複雜難題方面正變得越來越好。
這項實驗讓人們回憶起 ‘Twitch Plays Pokémon’,當時成千上萬的人共同努力。現在,AI 正在單獨應對這些挑戰,展示了技術的進步。這是從協作式人類遊戲到機器遊戲的重大轉變,也顯示了 AI 的巨大發展。