ChatGPT能否通过图灵测试?最新发现

ChatGPT成功通过图灵测试的观点正日益被认为是一个不可避免的结果。事实上,一些研究人员已经确信它已经实现了这一壮举。

以ChatGPT为代表的聊天机器人的发展,展示了在智能、自然度和类人品质方面的显著增长。考虑到人类是构成这些AI聊天机器人基础的大型语言模型(LLMs)的设计者,这种进展是符合逻辑的。随着这些工具改进其“推理”能力并以更高的精确度模仿人类语音,一个关键问题出现了:它们是否足够先进以通过图灵测试?

几十年来,图灵测试一直是评估机器智能的关键基准。目前,研究人员正在积极地对像ChatGPT这样的LLM进行这种严格的评估。一个成功的结果将代表AI发展领域的一个里程碑。

那么,ChatGPT是否有能力通过图灵测试?一些研究人员肯定了这一点。然而,结果仍然有待解释。图灵测试没有提供一个直接的二元结果,这使得发现有些模糊。此外,即使ChatGPT通过了图灵测试,它可能也无法提供LLM中固有的“类人”品质的明确指示。

让我们深入探讨其中的复杂性。

图灵测试的解析

图灵测试的本质非常简单。

由英国数学家艾伦·图灵(Alan Turing)构思,他是计算机科学的先驱人物。“模仿游戏”,正如它最初被称为的那样,是机器智能的试金石。图灵测试涉及一个人类评估者与一个人和一台机器进行对话,而不知道哪个是哪个。如果评估者无法区分机器和人类,则认为机器已经通过了图灵测试。在研究环境中,此测试会由不同的评估者进行多次。

至关重要的是要认识到,此测试不能明确地确定LLM是否具有与人类相同水平的智能。相反,它评估了LLM令人信服地模仿人类的能力。

LLM的思考过程

LLM本质上缺乏物理大脑、意识或对世界的全面理解。它们没有自我意识,也没有真正的观点或信念。

这些模型是在包含广泛信息来源的大型数据集上进行训练的,这些数据集包括书籍、在线文章、文档和脚本。当用户提供文本输入时,AI模型会利用其“推理”能力来辨别输入背后最可能的含义和意图。随后,该模型会基于此解释生成响应。

LLM的核心功能是充当复杂的词预测引擎。利用其广泛的训练数据,它们会根据其词汇量计算响应的初始“token”(通常是单个词)的概率。这个迭代过程会一直持续到形成完整的响应。虽然这种解释是简化的,但它抓住了LLM如何基于统计概率而不是对世界的真正理解来生成响应的本质。

因此,认为LLM以传统意义上的“思考”是不准确的。

实证证据:ChatGPT与图灵测试

许多研究已经探索了ChatGPT在图灵测试中的表现,其中许多研究都产生了积极的结果。这导致一些计算机科学家断言,像GPT-4和GPT-4.5这样的LLM现在已经超过了图灵测试的门槛。

这些评估大多数集中在OpenAI的GPT-4模型上,该模型为大多数ChatGPT互动提供支持。加州大学圣地亚哥分校(UC San Diego)的一项研究表明,人类评估者经常无法区分GPT-4和人类。在这项研究中,GPT-4在54%的情况下被误认为是人类。但是,此性能仍然落后于实际人类,后者在67%的时间内被正确地识别为人类。

在GPT-4.5发布之后,加州大学圣地亚哥分校的研究人员重复了这项研究。这次,LLM在73%的情况下被识别为人类,超过了实际人类的表现。该研究还表明,Meta的LLaMa-3.1-405B也能够通过测试。

独立于加州大学圣地亚哥分校进行的类似研究也给GPT分配了及格分数。雷丁大学(University of Reading)在2024年进行的一项研究涉及GPT-4生成对本科课程的家庭作业评估的响应。评分员不知道该实验,只标记了33份提交中的一份。ChatGPT的其余32个条目获得了高于平均水平的分数。

这些研究有结论性的吗?不完全是。一些评论家认为,这些研究结果不如它们看起来那么令人印象深刻。这种怀疑态度使我们无法明确地宣布ChatGPT已经通过了图灵测试。

然而,很明显,虽然以前几代的LLM(例如GPT-4)偶尔会通过图灵测试,但随着LLM的不断发展,成功的结果正变得越来越普遍。随着GPT-4.5等尖端模型的出现,我们正在迅速接近模型可以始终如一地通过图灵测试的临界点。

OpenAI设想了一个人类和AI之间的区分变得不可能的未来。这种愿景反映在OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)对涉及称为The Orb的眼球扫描设备的人工验证项目的投资中。

ChatGPT的自我评估

当被问及它是否可以通过图灵测试时,ChatGPT给出了肯定的回答,尽管带有已经讨论过的注意事项。当提示问题“ChatGPT可以通过图灵测试吗?”时,AI聊天机器人(使用4o模型)表示“ChatGPT可以在某些情况下通过图灵测试,但不能可靠或普遍地通过。”聊天机器人总结说“它可能可以在随意条件下通过普通用户的图灵测试,但是一个有决心和深思熟虑的审问者几乎总是可以揭穿它。”

图灵测试的局限性

一些计算机科学家现在认为图灵测试已经过时,并且在评估LLM方面的价值有限。美国心理学家、认知科学家、作家和AI评论员加里·马库斯(Gary Marcus)在最近的博客文章中简洁地总结了这一观点,他说“正如我(和许多其他人)多年来所说的那样,图灵测试是对人类轻信的测试,而不是对智能的测试。”

同样重要的是要记住,图灵测试侧重于对智能的感知,而不是实际的智能。这种区别至关重要。像ChatGPT 4o这样的模型可能仅仅通过模仿人类语音来通过测试。此外,LLM在测试中的成功将取决于讨论的主题和评估者。ChatGPT可能擅长随意对话,但在需要真正的情感智力的互动中会遇到困难。此外,现代AI系统越来越多地用于简单的对话之外的应用程序,尤其是在我们朝着代理AI世界迈进的时候。

这并不是说图灵测试完全无关紧要。它仍然是一个重要的历史基准,并且值得注意的是LLM能够通过它。但是,图灵测试不是衡量机器智能的最终标准。

超越图灵测试:寻求更好的基准

图灵测试虽然具有历史意义,但越来越被认为是衡量真正人工智能的不足标准。它侧重于模仿人类对话,忽略了智能的关键方面,例如解决问题、创造力和适应性。该测试对欺骗的依赖也引发了伦理问题,因为它鼓励AI系统假装具有类似人类的品质,而不是发展真正的智能。

对新指标的需求

随着AI技术的进步,对更全面和相关的基准的需求变得越来越明显。这些新指标应解决图灵测试的缺点,并提供对AI能力的更准确评估。未来基准的一些潜在方向包括:

  • **实际问题解决:**需要AI系统解决复杂的实际问题的测试,例如设计可持续的能源网格或开发疾病的治疗方法。
  • **创造性任务:**评估AI生成原创和富有想象力的内容(例如撰写小说、创作音乐或创作艺术品)的能力的评估。
  • **适应性和学习:**衡量AI从新经验中学习并适应不断变化的环境的能力的指标。
  • **伦理考量:**评估AI做出伦理决策并避免偏见的能力的评估。

新兴基准示例

一些新的基准正在出现,以解决图灵测试的局限性。这些包括:

  • **Winograd模式挑战:**此测试侧重于AI理解句子中含糊代词的能力。
  • **AI2推理挑战:**此基准评估AI基于复杂文本进行推理和回答问题的能力。
  • **常识推理挑战:**此测试评估AI对常识知识的理解及其进行推断的能力。

AI评估的未来

AI评估的未来可能涉及不同基准的组合,每个基准都旨在评估智能的特定方面。这些基准应不断发展,以跟上AI技术的快速进步。此外,至关重要的是让包括研究人员、政策制定者和公众在内的各个利益相关者参与AI基准的开发和评估。

超越模仿

最终,AI研究的目标应该是开发不仅智能而且有益于人类的系统。这需要超越对类人模仿的追求,并专注于开发可以解决实际问题、增强创造力并促进伦理决策的AI系统。通过采用新的基准并专注于这些更广泛的目标,我们可以释放AI的全部潜力,并创造一个AI和人类共同努力创造更美好世界的未来。