Anthropic的Claude AI挑战'宝可梦红'

推理能力的非常规测试

Anthropic,一家领先的 AI 研究公司,正在进行一项独特的实验,以测试其最新 AI 模型 Claude 3.7 Sonnet 的能力。Anthropic 并没有采用传统的基准测试,而是选择了一种更非传统的方法:让 AI 在 Twitch 直播中玩’宝可梦红’(Pokémon Red)。这项尝试吸引了众多观众的注意,他们收看直播,见证 AI 在这款经典 Game Boy 游戏中缓慢而谨慎的进展。

为什么选择’宝可梦’?一个出乎意料的复杂挑战

乍一看,’宝可梦红’这款主要为儿童设计的游戏,似乎不太适合用来评估尖端 AI。然而,这款游戏呈现了一系列出乎意料的复杂挑战,需要逻辑推理、问题解决和战略规划。这些正是 Anthropic 旨在推动 AI 发展前沿的领域。

游戏的开放世界性质,以及其中无数相互关联的谜题、障碍和角色互动,为测试 AI 的以下能力提供了一个丰富的环境:

  • 理解并响应自然语言指令: AI 必须解释基于文本的命令和来自游戏环境的反馈。
  • 制定短期和长期目标: 从为战斗选择合适的宝可梦到规划复杂的路线,AI 都需要提前计划。
  • 适应意外情况: 游戏中充满了随机遭遇和不可预测的事件,迫使 AI 随时调整其策略。
  • 从经验中学习: AI 必须记住过去的成功和失败,以随着时间的推移提高其表现。

缓慢而稳定的进步:AI 的旅程

直播展示了 Claude 3.7 Sonnet 在’宝可梦’世界中一段引人入胜,但通常节奏缓慢的旅程。AI 的游戏玩法既有令人印象深刻的推理能力,也有令人困惑的时刻。

在早期阶段,AI 甚至在最基本的任务上都举步维艰。离开初始城镇,这个人类玩家可以在几分钟内完成的任务,对 Claude 来说却是一个巨大的障碍。它花了几个小时来处理游戏的控制和空间布局,经常卡在角落里或反复与相同的物体互动。

然而,随着直播的进行,AI 开始展现出对游戏机制越来越深入的理解。它学会了如何:

  1. 在不同的区域之间导航。
  2. 与其他宝可梦训练师进行战斗。
  3. 捕捉野生宝可梦。
  4. 战略性地使用道具。
  5. 甚至击败了几位道馆馆主,这是游戏中的一个重要里程碑。

辉煌与挫折并存的时刻

AI 的辉煌时刻常常穿插着令人沮丧的停滞期或看似不合逻辑的决策。有些情况下,Claude:

  • 会专注于看似无关紧要的物体,比如一面岩壁,花费数小时试图与之互动,最后才推理出绕过它的方法。
  • 在战斗中做出令人费解的选择,例如使用无效的招式或切换到较弱的宝可梦。
  • 陷入循环,一遍又一遍地重复相同的动作,没有任何进展。

这些时刻凸显了开发能够真正理解和与复杂、动态环境交互的 AI 所面临的固有挑战。虽然 Claude 3.7 Sonnet 在推理和解决问题方面取得了重大进展,但它仍然有很长的路要走,才能达到人类玩家的直观理解和适应能力。

对过去的致敬:’Twitch Plays Pokémon’

这项实验不可避免地让人想起几年前风靡互联网的’Twitch Plays Pokémon’现象。在那次实验中,成千上万的 Twitch 观众通过聊天中的文本命令,合作控制’宝可梦红’中的一个角色。结果是一场混乱但最终成功的游戏过程,由在线社区的集体智慧(以及偶尔的恶搞)驱动。

然而,Anthropic 的实验代表了与这种协作模式的重大背离。在这里,AI 独自玩游戏,试图在没有任何人为干预的情况下应对游戏的挑战。这种从集体人类游戏到个体 AI 控制的转变引起了观众的不同反应。一些人惊叹于所展示的技术进步,而另一些人则感叹失去了’Twitch Plays Pokémon’所特有的共享体验和不可预测的幽默感。

更广阔的视野:对 AI 发展的意义

除了娱乐价值之外,Anthropic 的’宝可梦’实验对 AI 发展领域具有更广泛的意义。它为当前 AI 模型的优势和劣势提供了宝贵的见解,特别是在以下领域:

  • 自然语言处理: AI 理解和响应游戏中基于文本的信息的能力对其成功至关重要。
  • 强化学习: AI 通过试错学习,根据其在游戏中获得的奖励和惩罚逐渐提高其表现。
  • 泛化能力: AI 将其在一个情境中学到的知识应用到新的、不熟悉的情境的能力是其长期进步的关键。

通过研究 Claude 3.7 Sonnet 如何应对’宝可梦红’的挑战,Anthropic 的研究人员可以更好地了解如何开发更强大、适应性更强、能够处理现实世界复杂性的 AI 系统。

AI 与游戏的未来

AI 和电子游戏的交叉是一个快速发展的领域,其潜在应用远远超出了娱乐。游戏为测试和改进 AI 算法提供了一个受控且可衡量的环境,并且从中吸取的经验教训可以应用于广泛的现实世界问题,例如:

  • 机器人技术: 训练机器人在复杂环境中导航并与物体互动。
  • 自动驾驶汽车: 开发能够在不可预测的交通状况下做出安全可靠决策的自动驾驶汽车。
  • 医疗保健: 创建 AI 驱动的诊断工具和个性化治疗计划。
  • 教育: 设计能够适应学生个体需求的智能辅导系统。

随着 AI 技术的不断进步,我们可以期待在电子游戏及其他领域看到更复杂、更令人惊讶的 AI 应用。Anthropic 的’宝可梦’实验只是这一激动人心旅程中的一小步,但它让我们得以一窥 AI 改变我们生活、工作和娱乐方式的潜力。
这款游戏虽然是为儿童设计的,但事实证明它是 AI 研究的一个非常有用的工具。环境的挑战迫使 AI 发展推理能力,并提供了许多学习机会。虽然 AI 远非完美,但它表明模型在解决复杂难题方面越来越好。
这项实验唤起了人们对’Twitch Plays Pokémon’的回忆,当时成千上万的人一起合作。现在,AI 正在独自应对这些挑战,展示了技术的进步。这是从协作式人类游戏到机器游戏的重大转变,它显示了 AI 的巨大发展。