Anthropic 的 Claude 为何仍未通关'宝可梦' | zh-CN

AGI 的承诺

在蓬勃发展的人工智能领域，’人工通用智能’ (AGI) 的概念已成为一个诱人的前景。行业领导者越来越多地表示，我们正处于创建虚拟代理的边缘，这些代理能够在广泛的认知任务中匹配甚至超越人类的理解和表现。这种预期推动了科技公司之间的竞赛，每家公司都力争成为第一个实现这一突破性里程碑的公司。

OpenAI，AI 领域的主要参与者，正在巧妙地暗示即将推出’博士级’ AI 代理。他们表示，该代理可以自主运行，达到’高收入知识工作者’的水平。雄心勃勃的企业家 Elon Musk 做出了更大胆的预测，他表示，到 2025 年底，我们很可能拥有比任何人都’更聪明’的 AI。Anthropic 的首席执行官 Dario Amodei 提供了稍微保守一些的时间表，但分享了类似的愿景，他认为到 2027 年底，AI 可能’在几乎所有方面都比人类更好’。

Anthropic 的’Claude Plays Pokémon’实验

在这种雄心勃勃的预测背景下，Anthropic 上个月推出了其’Claude Plays Pokémon’实验。该项目被描述为迈向预测的 AGI 未来的一步，展示了’AI 系统在应对挑战时能力不断增强的曙光，这不仅仅是通过训练，而是通过广义推理’。Anthropic 通过强调 Claude 3.7 Sonnet 的’改进的推理能力’如何使该公司的最新模型在经典的 Game Boy RPG 游戏 Pokémon 中取得进展，而’旧模型几乎没有希望实现’，从而引起了广泛关注。

该公司强调，Claude 3.7 Sonnet 的’扩展思维’使新模型能够’提前计划、记住其目标并在初始策略失败时进行调整’。Anthropic 认为，这些是’与像素化道馆馆主战斗的关键技能。而且，我们认为，在解决现实世界问题时也是如此’。其含义很明确：Claude 在 Pokémon 中的进步不仅仅是一场游戏；这是 AI 日益增长的解决复杂现实世界挑战的能力的证明。

现实检验：Claude 的挣扎

然而，围绕 Claude 的 Pokémon 表现的最初兴奋已经被现实所缓和。虽然 Claude 3.7 Sonnet 无疑优于其前身，但它尚未掌握这款游戏。Twitch 上的数千名观众目睹了 Claude 持续的挣扎，观察到它频繁的失误和低效。

尽管在移动之间有很长的’思考’暂停时间——在此期间观众可以观察到系统模拟的推理过程——Claude 经常发现自己：

重复访问已完成的城镇： AI 经常返回它已经探索过的区域，似乎没有目的。
卡在盲角： Claude 经常被困在地图的角落里很长时间，无法找到出路。
反复与无益的 NPC 互动： 观察到 AI 与相同的非玩家角色一遍又一遍地进行徒劳的对话。

这些明显低于人类游戏内表现的例子描绘了一幅与某些人设想的超级智能相去甚远的图景。看着 Claude 在一款专为儿童设计的游戏中挣扎，很难想象我们正在见证计算机智能新时代的曙光。

从低于人类的表现中吸取的教训

尽管存在缺点，但 Claude 目前的 Pokémon 表现为正在进行的对通用、人类水平人工智能的探索提供了宝贵的见解。即使是它的挣扎也包含了重要的教训，可以为未来的开发工作提供信息。

从某种意义上说，Claude 能够玩 Pokémon 本身就很了不起。在为 Go 和 Dota 2 等游戏开发 AI 系统时，工程师通常会为其算法提供有关游戏规则和策略的广泛知识，以及指导其学习的奖励函数。相比之下，Claude Plays Pokémon 项目的开发者 David Hershey 从一个未经修改的、通用的 Claude 模型开始，该模型没有经过专门训练或调整来玩 Pokémon 游戏。

Hershey 向 Ars 解释说，’这纯粹是 [Claude] 对世界的各种其他理解被用来指向电子游戏’。他补充说，’所以它对 Pokémon 有一种感觉。如果你去 claude.ai 并询问 Pokémon，它会根据它所阅读的内容知道 Pokémon 是什么……如果你问，它会告诉你总共有八个道馆徽章，它会告诉你第一个是小刚……它知道大致的结构’。

视觉解释的挑战

除了监控关键的 Game Boy RAM 地址以获取游戏状态信息外，Claude 还像人类玩家一样解释游戏的视觉输出。然而，尽管 AI 图像处理最近取得了进步，但 Claude 在以与人类相同的准确度解释 Game Boy 屏幕截图的低分辨率、像素化世界方面仍然存在困难。

‘Claude 仍然不太擅长理解屏幕上的内容’，Hershey 承认。’你会看到它一直试图撞墙’。

Hershey 怀疑 Claude 的训练数据可能缺乏类似于 Game Boy 屏幕的图像的详细文本描述。这意味着，有些违反直觉的是，Claude 实际上可能在更逼真的图像上表现更好。

‘这是人类的有趣之处之一，我们可以眯着眼睛看着这些八乘八像素的人形斑点，然后说，’那是一个蓝头发的女孩’’，Hershey 指出。’我认为，人们有能力从我们的现实世界映射到理解并某种程度上领会……所以我真的很惊讶 Claude 能够看到屏幕上有一个人’。

不同的优势，不同的弱点

即使具有完美的视觉解释，Hershey 认为 Claude 仍然会与对人类来说微不足道的 2D 导航挑战作斗争。’对我来说，很容易理解[游戏中的]建筑物就是建筑物，我不能穿过建筑物’，他说。’而这[是] Claude 很难理解的事情……这很有趣，因为它只是在不同的方面很聪明，你知道吗？’

根据 Hershey 的说法，Claude 擅长的是游戏中更多基于文本的方面。在战斗中，Claude 很容易注意到游戏何时表明电系 Pokémon 的攻击对岩石系对手’不是很有效’。然后，它将此信息存储在其庞大的书面知识库中以供将来参考。Claude 还可以将多个知识片段整合到复杂的战斗策略中，甚至将这些策略扩展到捕捉和管理 Pokémon 团队的长期计划中。

即使游戏的文本故意误导或不完整，Claude 也表现出令人惊讶的’智能’。Hershey 引用了一个早期的游戏任务，玩家被告知在隔壁找到大木博士，结果却发现他不在那里。’作为一个 5 岁的孩子，这对我来说非常困惑’，Hershey 说。’但 Claude 实际上通常会经历相同的动作，它与妈妈交谈，去实验室，找不到[大木]，说，’我需要弄清楚一些事情’……它足够复杂，可以某种程度上按照[人类]实际上应该学习它的方式进行’。

与人类水平的游戏相比，这些对比鲜明的优势和劣势反映了 AI 研究和能力的总体状态，Hershey 解释说。’我认为这只是这些模型的一个普遍现象……我们首先构建了文本方面，而文本方面肯定……更强大。这些模型如何推理图像正在变得更好，但我认为它落后了一段距离’。

记忆的局限

除了视觉和文本解释方面的挑战外，Hershey 承认 Claude 在’记住’它所学到的东西方面存在困难。当前模型的’上下文窗口’为 200,000 个标记，这限制了它在任何给定时间可以存储在其’记忆’中的关系信息的数量。当系统的扩展知识库填满此窗口时，Claude 会经历一个复杂的摘要过程，将详细的笔记浓缩成较短的摘要，这不可避免地会丢失一些细粒度的细节。

这可能导致 Claude’很难长时间跟踪事物，并且很难真正了解它到目前为止尝试了什么’，Hershey 说。’你肯定会看到它偶尔会删除一些它不应该删除的东西。任何不在你的知识库或摘要中的东西都会消失，所以你必须考虑你想在那里放什么’。

错误信息的危险

比忘记重要信息更成问题的是，Claude 倾向于无意中将错误信息插入其知识库。就像一个阴谋论者在一个有缺陷的前提上建立世界观一样，Claude 在识别其自创知识库中的错误何时导致其 Pokémon 游戏误入歧途时可能会非常缓慢。

‘过去写下来的东西，它有点盲目地相信’，Hershey 说。’我见过它非常确信它在某个特定坐标处找到了[游戏内位置]常青森林的出口，然后它花费数小时探索围绕这些错误坐标的一个小方块，而不是做任何其他事情。它需要很长时间才能确定这是一个’失败’’。

尽管存在这些挑战，Hershey 指出，Claude 3.7 Sonnet 在’质疑其假设、尝试新策略以及长时间跟踪各种策略以[查看]它们是否有效’方面明显优于早期模型。虽然新模型仍然’长时间挣扎’重试相同的动作，但它最终倾向于’了解发生了什么以及它之前尝试过什么，并且它多次偶然地从中取得了实际进展’，Hershey 说。

前进的道路

Hershey 说，观察 Claude Plays Pokémon 在多个迭代中的一个最迷人的方面是，看到系统的进展和策略在运行之间可能有很大差异。有时，Claude 通过’详细记录要尝试的不同路径’来展示其’实际上能够构建一个相当连贯的策略’，他解释说。但是’大多数时候它没有……大多数时候，它会撞到墙上，因为它确信它看到了出口’。

根据 Hershey 的说法，当前版本的 Claude 的主要局限之一是’当它得出好的策略时，我认为它不一定有自我意识来知道它想出的一个策略比另一个更好’。他承认，这不是一个微不足道的问题。

尽管如此，Hershey 还是看到了通过增强模型对 Game Boy 屏幕截图的理解来改进 Claude 的 Pokémon 游戏的’唾手可得的果实’。’我认为如果它对屏幕上的内容有完美的感知，它就有机会通关游戏’，他说，并建议这样的模型可能会表现得’略逊于人类’。

Hershey 补充说，扩展未来 Claude 模型的上下文窗口也可能使它们能够’在更长的时间范围内进行推理，并在很长一段时间内更连贯地处理事情’。他说，未来的模型将通过’在记忆、跟踪需要尝试的一致集合以取得进展方面做得更好一点’来改进。

虽然 AI 模型即将改进的前景是不可否认的，但 Claude 目前的 Pokémon 表现并不表明它即将迎来一个人类水平、完全通用的 AI 时代。Hershey 承认，看着 Claude 3.7 Sonnet 在月见山卡住 80 个小时可能会让它’看起来像一个不知道自己在做什么的模型’。

然而，Hershey 仍然对 Claude 的新推理模型显示的偶尔出现的意识闪光印象深刻，他指出，它有时会’有点表明它不知道自己在做什么，并且知道它需要做一些不同的事情。对我来说，’完全做不到’和’可以做一点’之间的区别对于这些 AI 来说是相当大的’，他继续说道。’你知道，当某件事可以做一点时，通常意味着我们非常接近让它能够做得非常好’。

更新于 2025-03-22

# Anthropic # Claude # AGI