Anthropic's AI特工Claude玩'宝可梦',但抓不全

探索的开始:Claude 对战《宝可梦 红》

人工智能已经取得了长足的进步,但它能否掌握一款经典电子游戏呢?Anthropic,一家领先的 AI 初创公司,正在一项独特而有趣的实验中测试其技术。该公司在热门游戏平台 Twitch 上设置了一个直播,主角是其 AI 模型 Claude,它试图征服深受喜爱的游戏《宝可梦 红》。

这个前提很简单:AI 能否驾驭《宝可梦》的复杂世界,制定战斗策略,并最终成为宝可梦大师?Anthropic 启动了“Claude Plays Pokémon”项目,以探索其 AI agent 的能力,并与游戏社区互动。然而,这段旅程绝非一帆风顺。

早期的挣扎:Claude 的艰难开局

最初,Claude 的早期版本面临着巨大的挑战。基本任务,比如参与战斗,都显得很困难。来自 Anthropic 的报告表明,2024 年 6 月的 Claude 3.5 会持续尝试逃离几乎每一次遭遇战。这种行为突显了早期模型在理解游戏目标和执行适当行动方面的局限性。

希望的曙光:Claude 3.7 Sonnet 进入竞技场

几个月后,在 2025 年 2 月,Anthropic 推出了 Claude 3.7 Sonnet。这个新的迭代标志着一个转折点。在开始游戏的几个小时内,Claude 3.7 Sonnet 就实现了一个重要的里程碑:击败了第一个道馆馆主 Brock。几天后,它征服了第二个道馆馆主 Misty。这些胜利证明了 AI 能力的进步,展示了旧模型只能梦想的进展。

玩《宝可梦》的 AI 的内部运作

是什么让 Claude 3.7 Sonnet 与众不同?Anthropic 透露,这个版本在几个关键领域拥有增强的能力:

  • 提前规划: Claude 3.7 Sonnet 展示了预测未来行动并相应制定策略的能力。
  • 记住目标: AI 可以保留有关其目标的信息,并持续朝着这些目标努力。
  • 从错误中学习: Claude 3.7 Sonnet 表现出分析其错误并调整其游戏玩法的能力,这是掌握任何游戏的关键方面。
  • 建立知识库: AI 建立了一个关于《宝可梦》世界的信息库,包括宝可梦类型、招式和策略。
  • 视觉感知: Claude 3.7 Sonnet 可以“看到”游戏屏幕,解释视觉信息以做出明智的决定。
  • 模拟按键: AI 可以通过模拟按键来执行命令,从而使其能够与游戏环境交互。

进展停滞:漫长的月见山之路

尽管取得了初步的成功,Claude 3.7 Sonnet 的进展最终还是遇到了障碍。一个特别具有挑战性的区域是月见山,这是游戏中一个臭名昭著的复杂迷宫。直播观众目睹了长达 78 小时的艰苦考验,Claude 努力在这个区域导航。相比之下,人类玩家,甚至是儿童,通常在几个小时内就能完成这个部分。

循环逻辑:Claude 的导航挑战

直播揭示了 Claude 在空间推理和导航方面的挣扎。AI 经常发现自己在绕圈子,重复相同的路径,并撞到墙上。这些行为突显了 AI 在解释视觉信息并将其转化为虚拟环境中的有效移动方面仍然面临的困难。

深入 Claude 的思维:一窥 AI 的决策过程

直播的一个引人入胜的方面是伴随的文本框,它显示了 Claude 的“思考”过程。此功能让观众深入了解 AI 的决策过程,揭示了它如何分析情况、评估选项并选择下一步行动。

文本与视觉:Claude 的优势与劣势

据 Anthropic 工程师称,Claude 在游戏的基于文本的方面表现出色,例如宝可梦战斗。AI 可以有效地处理有关宝可梦类型、招式和状态的信息,从而使其能够在战斗中做出战略决策。然而,它在更具视觉性的组件方面存在困难,尤其是在导航游戏世界的地图和城镇时。

任重道远:AI 在游戏领域的未来

虽然 Claude 3.7 Sonnet 与其前身相比取得了显著的进步,但直播表明,AI 距离掌握人类认为相对容易的复杂任务还很远。AI 征服世界的梦想,至少在《宝可梦》领域,仍然是一个遥远的前景。Claude 捕捉所有 151 只宝可梦的旅程仍在继续,为人工智能的持续发展提供了宝贵的数据和见解。

深入探讨 Claude 的挑战

Claude 面临的困难突显了人类和当前 AI 系统在解决问题方式上的根本差异。让我们探讨其中一些关键区别:

1. 空间推理和常识

人类对空间关系有着天生的理解,可以轻松地在复杂的环境中导航。我们依靠常识和直觉对周围环境做出快速判断。另一方面,AI 经常在这些概念上挣扎。Claude 反复绕圈和撞墙的事件表明它缺乏直观的空间意识。

2. 情境理解

人类擅长理解情境。我们可以根据大量的背景知识和经验来解释情况。AI 虽然在不断改进,但仍然难以掌握情境的细微差别。在《宝可梦 红》中,这意味着不仅要理解当前的游戏状态,还要理解总体目标、故事情节和游戏的不成文规则。

3. 高效探索

人类天生好奇且高效的探索者。我们倾向于系统地探索新环境,避免不必要的重复。然而,AI 可能会陷入低效探索的模式,正如 Claude 在月见山的挣扎中所看到的那样。这突显了 AI 需要开发更复杂的探索策略。

4. 适应不可预见的情况

人类善于适应意外事件并随时改变计划。AI 虽然能够从错误中学习,但在不可预测的情况下可能会遇到困难。在像《宝可梦 红》这样的游戏中,这可能涉及遇到稀有宝可梦、面对出乎意料的强大对手或处理意外的故障。

5. 具身化的作用

人类的学习通常与我们的身体以及我们与现实世界的互动交织在一起。这种“具身认知”在我们理解和导航周围环境的方式中起着至关重要的作用。AI 缺乏物理身体,错过了学习的这一关键方面。虽然 Claude 可以模拟按键,但它并没有像人类玩家那样体验游戏。

更广泛的影响

Claude 的《宝可梦》冒险不仅仅是一个有趣的实验。它提供了对 AI 当前状态和未来挑战的宝贵见解。该项目强调了以下关键要点:

  • AI 仍处于早期阶段: 尽管 AI 近年来取得了令人瞩目的进展,但它距离实现人类水平的智能还很远。
  • 特定任务与通用智能: AI 可以擅长特定的、定义明确的任务,例如下棋或围棋。然而,将智能推广到广泛的任务,例如玩具有开放式目标的复杂电子游戏,仍然是一个巨大的障碍。
  • 数据的重要性: 像 Claude 这样的 AI 模型严重依赖数据来学习。数据的质量和数量会显著影响其性能。
  • 持续改进的必要性: “Claude Plays Pokémon”项目强调了 AI 开发的迭代性质。不断的测试、反馈和改进对于进步至关重要。
  • AI 在游戏领域的潜力: 随着 AI 技术的进步,它有可能彻底改变游戏行业,创造更逼真和更具挑战性的游戏体验。

超越《宝可梦》:AI 在其他领域的潜力

从 Claude 的《宝可梦》之旅中吸取的经验教训对游戏世界之外的领域也有影响。AI 面临的挑战突出了在各个领域需要进一步研究和开发的领域:

  • 机器人技术: 改进空间推理和导航对于机器人在现实世界环境中有效运行至关重要。
  • 自动驾驶汽车: 自动驾驶汽车中的 AI 系统需要理解情境、适应意外情况并在复杂的交通场景中做出安全决策。
  • 医疗保健: AI 可以协助医疗诊断、治疗计划和药物发现。然而,它需要能够处理复杂的医疗数据并适应个体患者的需求。
  • 客户服务: AI 驱动的聊天机器人可以提供客户支持,但它们需要能够理解自然语言、处理各种查询并有效解决问题。
  • 教育: AI 可以为学生提供个性化的学习体验,但它需要能够理解个人学习风格、适应不同的知识水平并提供引人入胜的内容。

“Claude Plays Pokémon”项目,凭借其成功与挫折的结合,有力地提醒了我们当前 AI 技术的潜力和局限性。这是一段探索、学习和持续改进的旅程——这段旅程反映了创造真正智能机器的更广泛的探索。虽然 Claude 可能还没有捕捉到所有的宝可梦,但从它的冒险中获得的见解对于 AI 的未来是无价的。