AGI 的前景
在蓬勃發展的人工智慧領域,「通用人工智慧」(AGI) 的概念已成為一個誘人的前景。業界領導者越來越多地表示,我們正處於創建虛擬代理的風口浪尖,這些代理能夠在廣泛的認知任務中匹敵甚至超越人類的理解和表現。這種預期引發了科技公司之間的競賽,每家公司都力爭成為第一個實現這一突破性里程碑的公司。
OpenAI,AI 領域的主要參與者,正巧妙地暗示著「博士級」AI 代理即將到來。他們表示,這個代理可以自主運行,達到「高收入知識工作者」的水平。雄心勃勃的企業家 Elon Musk 做出了更大膽的預測,他表示,到 2025 年底,我們很可能擁有比任何一個人類都「更聰明」的 AI。Anthropic 的 CEO Dario Amodei 提供了稍微保守一點的時間表,但也分享了類似的願景,他認為到 2027 年底,AI 可能「在幾乎所有方面都比人類更好」。
Anthropic 的「Claude Plays Pokémon」實驗
在這種雄心勃勃的預測背景下,Anthropic 上個月推出了「Claude Plays Pokémon」實驗。這個項目被描述為邁向預測的 AGI 未來的一步,展示了「AI 系統以越來越強的能力應對挑戰的曙光,這不僅僅是通過訓練,而是通過廣泛的推理。」Anthropic 強調 Claude 3.7 Sonnet 的「改進的推理能力」使該公司的最新模型能夠在這款經典的 Game Boy RPG 遊戲《寶可夢》中取得進展,而「舊模型幾乎沒有希望實現」,從而引起了廣泛關注。
該公司強調,Claude 3.7 Sonnet 的「擴展思維」使新模型能夠「提前計劃、記住其目標,並在初始策略失敗時進行調整。」Anthropic 認為,這些是「與像素化的道館館主戰鬥的關鍵技能。而且,我們認為,在解決現實世界問題時也是如此。」其含義很明確:Claude 在《寶可夢》中的進展不僅僅是一場遊戲;這是 AI 應對複雜、現實世界挑戰的能力正在萌芽的證明。
現實檢驗:Claude 的掙扎
然而,圍繞 Claude 的《寶可夢》表現的最初興奮情緒已經被一劑現實所沖淡。雖然 Claude 3.7 Sonnet 無疑優於其前輩,但它還沒有完全掌握這款遊戲。Twitch 上的數千名觀眾目睹了 Claude 持續的掙扎,觀察到它頻繁的失誤和低效率。
儘管在每次移動之間都有長時間的「思考」停頓——在此期間,觀眾可以觀察到系統模擬的推理過程——但 Claude 經常發現自己:
- 重訪已完成的城鎮: AI 經常返回它已經探索過的區域,似乎沒有目的。
- 卡在死角: Claude 經常被困在地圖的角落裡很長一段時間,無法找到出路。
- 反覆與無用的 NPC 互動: 觀察到 AI 與相同的非玩家角色一遍又一遍地進行毫無結果的對話。
這些明顯低於人類水平的遊戲內表現的例子,描繪了一幅與某些人設想的超級智慧相去甚遠的畫面。看著 Claude 在一款為兒童設計的遊戲中掙扎,很難想像我們正在見證一個新的電腦智慧時代的曙光。
從低於人類水平的表現中吸取的教訓
儘管存在缺點,但 Claude 目前的《寶可夢》表現水平為正在進行的對通用、人類水平人工智慧的探索提供了寶貴的見解。即使是它的掙扎也包含了重要的教訓,可以為未來的開發工作提供參考。
從某種意義上說,Claude 能夠玩《寶可夢》已經很了不起了。在為 Go 和《Dota 2》等遊戲開發 AI 系統時,工程師通常會為他們的演算法提供有關遊戲規則和策略的廣泛知識,以及一個獎勵函數來指導他們的學習。相比之下,Claude Plays Pokémon 項目的開發者 David Hershey 從一個未經修改的、通用的 Claude 模型開始,該模型沒有經過專門訓練或調整來玩《寶可夢》遊戲。
Hershey 向 Ars 解釋說:「這純粹是 [Claude] 對世界的各種其他理解被用來指向電子遊戲。」他補充說:「所以它對寶可夢有概念。如果你去 claude.ai 並詢問寶可夢,它會根據它所讀到的內容知道什麼是寶可夢……如果你問,它會告訴你有八個道館徽章,它會告訴你第一個是小剛……它知道大致的結構。」
視覺解釋的挑戰
除了監控關鍵的 Game Boy RAM 位址以獲取遊戲狀態資訊外,Claude 還像人類玩家一樣解釋遊戲的視覺輸出。然而,儘管 AI 圖像處理技術最近取得了進展,但 Claude 在解釋 Game Boy 螢幕截圖的低解析度、像素化世界時,仍然難以達到與人類相同的準確性。
「Claude 仍然不太擅長理解螢幕上的內容,」Hershey 承認。「你會看到它一直試圖撞牆。」
Hershey 懷疑 Claude 的訓練數據可能缺乏類似 Game Boy 螢幕的圖像的詳細文字描述。這意味著,有些違反直覺的是,Claude 在處理更逼真的圖像時實際上可能表現得更好。
「這是人類的一個有趣之處,我們可以眯著眼睛看這些八乘八像素的人形斑點,然後說,’那是一個藍色頭髮的女孩,’」Hershey 指出。「我認為,人們有能力從我們的現實世界映射到理解並領會這一點……所以我真的很驚訝 Claude 能夠看到螢幕上有一個人。」
不同的優勢,不同的劣勢
即使具有完美的視覺解釋,Hershey 認為 Claude 仍然會與對人類來說微不足道的 2D 導航挑戰作鬥爭。「對我來說,很容易理解[遊戲中的]建築物就是建築物,我不能穿過建築物,」他說。「而這[某事]對 Claude 來說是相當具有挑戰性的……這很有趣,因為它只是在不同的方面很聰明,你知道嗎?」
Hershey 說,Claude 擅長的是遊戲中更多基於文本的方面。在戰鬥中,Claude 很容易注意到遊戲何時表明電屬性寶可夢的攻擊對岩石屬性對手「不是很有效」。然後,它將此資訊存儲在其龐大的書面知識庫中以供將來參考。Claude 還可以將多個知識片段整合到複雜的戰鬥策略中,甚至將這些策略擴展到捕捉和管理寶可夢團隊的長期計劃中。
即使遊戲的文本故意誤導或不完整,Claude 也表現出令人驚訝的「智慧」。Hershey 引用了一個早期的遊戲任務,玩家被告知在隔壁找到大木博士,結果卻發現他不在那裡。「作為一個 5 歲的孩子,這對我來說非常困惑,」Hershey 說。「但 Claude 實際上通常會經歷同樣的一系列動作,它與媽媽交談,去實驗室,沒有找到[大木],說,’我需要弄清楚一些事情’……它足夠複雜,可以按照[人類]實際上應該學習它的方式進行操作。」
Hershey 解釋說,與人類水平的遊戲相比,這些對比鮮明的優勢和劣勢反映了 AI 研究和能力的整體狀況。「我認為這只是這些模型的一個普遍現象……我們先構建了文本方面,而文本方面肯定……更強大。這些模型如何推理圖像正在變得更好,但我認為它落後了一段距離。」
記憶的極限
除了視覺和文本解釋方面的挑戰外,Hershey 承認 Claude 在「記住」它所學到的東西方面存在困難。當前模型的「上下文窗口」為 200,000 個 token,這限制了它在任何給定時間可以存儲在其「記憶」中的關係資訊量。當系統不斷擴展的知識庫填滿這個窗口時,Claude 會經歷一個複雜的摘要過程,將詳細的筆記壓縮成更短的摘要,這不可避免地會丟失一些細粒度的細節。
這可能導致 Claude「很難長時間跟踪事物,並且很難真正了解它到目前為止嘗試了什麼,」Hershey 說。「你肯定會看到它偶爾會刪除一些它不應該刪除的東西。任何不在你的知識庫或摘要中的東西都會消失,所以你必須考慮你想在那裡放什麼。」
錯誤資訊的危險
比忘記重要資訊更成問題的是,Claude 傾向於無意中將錯誤資訊插入其知識庫。就像一個陰謀論者在一個有缺陷的前提上建立世界觀一樣,Claude 在識別其自編知識庫中的錯誤何時導致其《寶可夢》遊戲偏離正軌時,可能會非常緩慢。
「過去寫下來的東西,它有點盲目地相信,」Hershey 說。「我見過它非常確信它在某些特定坐標處找到了[遊戲中位置]常青森林的出口,然後它花了數小時在那些錯誤的坐標周圍的一個小方塊中探索,而不是做其他任何事情。它需要很長時間才能確定那是’失敗’。」
儘管存在這些挑戰,Hershey 指出,Claude 3.7 Sonnet 在「質疑其假設、嘗試新策略以及長時間跟踪各種策略以[查看]它們是否有效」方面明顯優於早期模型。雖然新模型仍然「長時間掙扎」重試相同的操作,但它最終傾向於「了解正在發生的事情以及它之前嘗試過的事情,並且它多次偶然地從中取得了實際進展,」Hershey 說。
前進的道路
Hershey 說,觀察 Claude Plays Pokémon 的多次迭代最引人入勝的方面之一是,看到系統的進展和策略在不同運行之間可能會有很大差異。有時,Claude 通過「詳細記錄要嘗試的不同路徑」來展示其「實際上能夠構建一個相當連貫的策略」,他解釋說。但是「大多數時候它沒有……大多數時候,它會撞到牆上,因為它確信它看到了出口。」
Hershey 認為,當前版本的 Claude 的主要限制之一是「當它得出好的策略時,我不認為它一定有自我意識來知道它想出的一個策略比另一個更好。」他承認,這不是一個微不足道的問題。
儘管如此,Hershey 還是看到了通過增強模型對 Game Boy 螢幕截圖的理解來改善 Claude 的《寶可夢》遊戲的「唾手可得的果實」。「我認為如果它對螢幕上的內容有完美的感覺,它就有機會通關遊戲,」他說,並表示這樣的模型可能會表現得「略遜於人類」。
Hershey 補充說,擴展未來 Claude 模型的上下文窗口也可能使它們能夠「在更長的時間範圍內進行推理,並在很長一段時間內更連貫地處理事情」。他說,未來的模型將通過「在記憶方面做得更好一點,跟踪它需要嘗試的一組連貫的東西來取得進展」來改進。
雖然 AI 模型即將改進的前景是不可否認的,但 Claude 目前的《寶可夢》表現並未表明它即將迎來一個人類水平、完全通用的 AI 時代。Hershey 承認,看著 Claude 3.7 Sonnet 在月見山卡住 80 個小時會讓人覺得「這是一個不知道自己在做什麼的模型」。
然而,Hershey 仍然對 Claude 的新推理模型所顯示的偶爾的意識閃光印象深刻,他指出,它有時會「有點表明它不知道自己在做什麼,並且知道它需要做一些不同的事情。對我來說,’完全做不到’和’可以做到一點’之間的區別對於這些 AI 來說是相當大的,」他繼續說道。「你知道,當某件事可以做到一點時,通常意味著我們非常接近讓它能夠做得非常好。」