图灵测试的中年危机:AI是否已超越基准?

揭开智能幻象的面纱

几十年来,Turing Test 一直是衡量人工智能领域的一个里程碑,尽管它常常被误解。由才华横溢的 Alan Turing 构想,它提出了一个简单而深刻的挑战:一台机器能否仅通过基于文本的对话,让一个人类相信它也是人类?许多人将在此测试中的成功解读为真正机器思维的曙光,是硅基大脑最终映照我们自身认知能力的标志。然而,这种解读一直充满争议,而近期涉及 OpenAI 的 GPT-4.5 等复杂 AI 模型的发展,正迫使我们进行一次批判性的重新评估。

来自 University of California at San Diego 的突破性研究使这场辩论变得异常尖锐。那里的学者们进行了实验,在经典的 Turing Test 格式中让人类与先进的大型语言模型 (LLMs) 对抗。结果令人震惊:据报道,OpenAI 的最新迭代版本 GPT-4.5 不仅通过了测试,而且表现出色,在模仿人类方面比真正的人类参与者证明自己的人性具说服力。这代表了生成式 AI 在创造感觉真实的人类回应能力上的显著飞跃。然而,即使是这项研究背后的研究人员也告诫不要将这种对话能力等同于实现通用人工智能 (AGI)——即创造具有人类水平认知能力的机器这一难以捉摸的目标。这个测试似乎更多地揭示了测试本身的局限性以及我们人类自身的假设,而不是机器智能的真正本质。

经典实验的现代演绎

Turing Test 的持久吸引力在于其优雅的简洁性。Turing 设想了一个“模仿游戏”,涉及三方参与者:一名人类审讯者(裁判)、一名人类证人和一台计算机证人。他们彼此隔离,仅通过文本消息进行交流,证人试图说服裁判自己是人类。裁判知道其中一名参与者是机器,必须判断出谁是谁。这种设置的巧妙之处在于其固有的比较性。如果裁判错误地将计算机识别为人类,这不仅意味着机器的表现令人信服,也可能意味着人类证人未能充分展示其自身的人性信号,或者裁判无法正确感知这些信号。这变成了一项关于人类感知、信念以及我们与生俱来的人性相关的微妙线索的迷人审视,其程度不亚于对计算能力的衡量。

在此基础上,UC San Diego 的研究人员 Cameron Jones 和 Benjamin Bergen 实施了该测试的现代版本,利用了现代 LLMs 的力量,并让本科生参与其中。他们的实验设计严格遵循了 Turing 的三方结构。学生们被随机分配角色:一些担任裁判,另一些担任人类证人。每位裁判同时与一名人类证人和一名 AI 证人进行独立的五分钟文本聊天。裁判面临的挑战保持不变:识别出机器。

为了探索当前 AI 的能力,部署了几个模型作为计算机证人:

  • GPT-4.5 (Minimal Prompt): 这个版本只收到了基本的指令。
  • GPT-4.5 (PERSONA Prompt): 这个变体被给予了更详细得多的指导。提示指示 AI 采用特定的角色——一个“内向、了解互联网文化并使用俚语的年轻人”。这旨在测试 AI 的适应性以及模仿特定人类原型的能力。
  • GPT-4o: OpenAI 的另一个著名模型作为比较点。
  • Llama 3.1 405b: Meta Platforms 强大的 LLM 被纳入以扩大范围。
  • ELIZA: 一个来自 1960 年代的开创性聊天机器人程序被用作对照组。其相对简单性旨在帮助确定 LLMs 的任何成功是由于复杂的编程,还是仅仅是随机机会和容易被愚弄的裁判。

这种多模型方法,结合结构化、定时的互动以及最小提示 AI 与角色驱动 AI 之间的比较,为分析机器现在能多有效地模仿人类对话以及人类如何感知这些尝试提供了丰富的数据集。

当模仿超越现实

UC San Diego 研究的发现堪称非凡,特别是关于 GPT-4.5 在详细的 PERSONA 提示指导下的表现。这种特定配置取得了惊人的 73%“胜率”。实质上,近四分之三的时间里,与这个 AI 互动的人类裁判都认为他们是在与另一个人交谈。这个数字不仅在其绝对值上意义重大,而且在与其他参与者的比较中也同样重要。

考虑一下基准:

  • 人类证人: 具有讽刺意味的是,作为证人参与的真正人类在说服裁判相信他们是人类方面,不如角色驱动的 GPT-4.5 成功。
  • 其他 AI 模型: 使用最小提示的 GPT-4.5,以及 GPT-4o 和 Llama 3.1(即使给予了类似的 PERSONA 提示),得分要低得多,胜率在 21% 到 56% 之间。这凸显了被测试的特定 GPT-4.5 模型的高级能力以及定制化提示的显著影响。
  • 之前的 GPT-4 表现: 在同一研究人员仅一年前进行的早期实验迭代中,GPT-4 的胜率仅为 54%,勉强超过随机机会的阈值(50%)。GPT-4.5 达到 73% 的飞跃表明该模型在生成类人文本方面的快速进步。
  • ELIZA: 正如预期的那样,这个老式聊天机器人表现不佳,起到了基线的作用,并证实了 LLMs 的成功并不仅仅是因为裁判容易被任何程序欺骗。

Jones 和 Bergen 的结论是严峻的:裁判们不仅仅是在努力区分人与机器;他们实际上更倾向于相信角色驱动的 GPT-4.5 是人类,而不是相信真正的人类参与者是人类。这表明,当得到适当指示时,AI 能够模拟人类互动的感知细微差别——甚至可能过滤掉真实人类聊天中存在的尴尬或不一致之处——在这个特定的、受限的环境中比人类自己更有效。成功不仅仅在于通过测试;而是在测试的范围内,在感知的“人性化”方面超越了人类基线。

类人性障碍:智能还是适应?

GPT-4.5 在这次现代版 Turing Test 中的胜利是否标志着 AGI 的到来?研究人员以及该领域的许多专家都敦促谨慎。正如 Jones 和 Bergen 所承认的,围绕该测试的“最具争议的问题”一直是它是否真正衡量智能,还是衡量其他东西。虽然 GPT-4.5 如此有效地愚弄人类的能力无疑是一项技术壮举,但这可能更多地说明了该模型复杂的模仿和适应能力,而不是真正的理解或意识。

一种观点认为,这些先进的 LLMs 在模式匹配和预测方面变得异常熟练。通过输入大量的人类文本数据,它们学习了与不同类型人类互动相关的词序列、对话轮次和风格元素的统计可能性。PERSONA 提示为 GPT-4.5 提供了一个特定的目标模式——一个内向、精通互联网的年轻人。因此,AI 的成功可以被视为其**“调整其行为”**以匹配所要求角色的能力的展示,它利用其训练数据生成与该配置文件一致的响应。这是灵活性和生成能力的非凡展示,使机器能够在提示定义的上下文中表现得令人信服地像人类。

然而,这种适应性不同于人类所拥有的通用智能,后者涉及推理、深入理解上下文、从新颖经验中学习以及拥有意识——这些是当前 LLMs 尚未明确展示的品质。正如 AI 学者 Melanie Mitchell 所论证的那样,精通自然语言,就像精通国际象棋一样,并非通用智能的决定性证据。它证明了对特定(尽管复杂)技能领域的掌握。因此,虽然 GPT-4.5 的表现是自然语言生成领域的一个里程碑,但将其仅仅描述为迈向 AGI 的一步可能具有误导性。将其描述为在基于文本的对话中达到了高度的**“类人性” (humanlikeness)** 似乎更为准确,这是一个与人类水平智能有着微妙但关键区别的概念。

互动的镜子:测试揭示了关于我们的什么

也许 UC San Diego 研究最引人入胜的方面不在于它揭示了关于 AI 的什么,而在于它暴露了关于人类判断以及我们在互动中(尤其是在线互动中)所带有的假设。人类裁判经常被愚弄,有时甚至更喜欢 AI 的互动风格,这一事实指出了在这种格式下使用人类感知作为机器智能最终仲裁者的固有主观性和潜在缺陷。

研究人员注意到了裁判推理中一些有趣的模式:

  • 意外行为: 即便是原始的 ELIZA 程序也成功地愚弄了 23% 的裁判。这并非因为 ELIZA 展示了才华,而常常是因为它没有符合裁判对 AI 应该如何行为的先入为主的观念。裁判们给出的理由包括证人“讽刺”或“粗鲁”,这些是他们不期望从机器那里看到的特质,因此断定它必定是人类。
  • 关注社交性而非智力: 与 Alan Turing 期望裁判会探究知识和智力能力的预期相反,这项研究的参与者似乎常常更关注对话风格、情感基调和社交线索。
  • 不完美的悖论: 一个令人惊讶的转折是,裁判用来正确识别证人为人类的因素之一是感知到的知识缺乏。这表明存在一种潜在假设,即人类是易犯错和不完美的,而 AI 可能被期望是百科全书式的或过于精确的。

这些观察结果使 Jones 和 Bergen 断言,裁判的决定包含了“关于人类和 AI 系统可能行为方式的复杂假设”,超越了对智能的简单评估。标准变得与社会期望、个性判断,甚至是对技术能力的偏见交织在一起。在一个基于文本的交流无处不在的时代,我们已经形成了根深蒂固的在线互动习惯和期望。Turing Test 最初被设计为对人机交互的新颖探索,现在更像是在测试这些在线人类习惯和偏见。它衡量我们解析数字角色的能力,这种能力受到我们日常与人类和在线机器人的互动经验的影响。从根本上说,正如这项研究所证明的,现代 Turing Test 似乎不再是对机器智能的直接评估,而更像是一个通过人类期望的棱镜过滤后的感知到的类人性的衡量标准。

超越模仿游戏:为 AI 评估规划新航向

鉴于像 GPT-4.5 这样的模型令人信服的表现,以及传统 Turing Test 格式中突显的局限性和偏见,问题随之而来:这个有数十年历史的基准是否仍然是衡量迈向 AGI 进展的正确工具?UC San Diego 的研究人员,以及 AI 社区中日益增长的呼声,认为可能不是——至少,不能作为唯一或决定性的衡量标准。

GPT-4.5 的巨大成功,特别是其对 PERSONA 提示的依赖,突显了一个关键限制:该测试评估的是在特定、通常狭窄的对话环境中的表现。它不一定探究更深层次的认知能力,如跨不同情境的推理、规划、创造力或常识性理解。正如 Jones 和 Bergen 所述,“智能是复杂且多方面的,” 这意味着 “没有任何单一的智能测试可以是决定性的。”

这指向了对更全面的评估方法套件的需求。出现了几个潜在的途径:

  1. 修改测试设计: 研究人员自己提出了变体。如果裁判是 AI 专家,拥有不同的期望,并且可能有更复杂的方法来探测机器的能力,会怎么样?如果引入显著的经济激励,鼓励裁判更仔细、更深思熟虑地审查回应,会怎么样?这些变化可能会改变动态,并可能产生不同的结果,进一步凸显了背景和动机对测试结果的影响。
  2. 更广泛的能力测试: 超越对话流畅性,评估可以侧重于更广泛的任务范围,这些任务需要智能的不同方面——在新领域解决问题、长期规划、理解复杂的因果关系,或展示真正的创造力而不是对训练数据的复杂重混。
  3. 人在环路 (Human-in-the-Loop, HITL) 评估: 将人类判断更系统地整合到 AI 评估中的趋势日益增长,但可能采用比经典 Turing Test 更结构化的方式。这可能涉及人类根据特定标准(例如,事实准确性、逻辑连贯性、伦理考量、有用性)评估 AI 输出,而不仅仅是做出二元的人类/机器判断。人类可以帮助完善模型,识别弱点,并根据细致入微的反馈指导开发。

核心思想是,评估像智能这样复杂的东西需要超越简单的模仿。虽然 Turing Test 提供了一个有价值的初始框架,并继续引发重要的讨论,但仅仅依赖它有可能会将复杂的模仿误认为是真正的理解。通往理解并可能实现 AGI 的道路需要更丰富、更多样化,或许也更严格的评估方法。

AGI 之谜与评估的未来

最近的实验突显了一个超越 Turing Test 本身的根本性挑战:我们难以精确定义什么构成通用人工智能 (Artificial General Intelligence),更不用说就如果我们遇到它时如何明确识别它达成一致了。如果人类,带着所有固有的偏见和假设,在一个简单的聊天界面中就能如此轻易地被一个经过精心提示的 LLM 所动摇,我们又如何能可靠地判断未来可能远为先进的系统的更深层认知能力呢?

通往 AGI 的旅程笼罩在模糊之中。UC San Diego 的研究有力地提醒我们,我们当前的基准可能不足以应对未来的任务。它凸显了区分模拟行为与真正理解的深刻困难,尤其是当模拟变得日益复杂时。这引出了关于未来评估范式的推测性但发人深省的问题。我们是否会达到一个类似于科幻小说叙事的点,即人类判断被认为过于不可靠,无法区分先进 AI 与人类?

或许,矛盾的是,对高度先进的机器智能的评估将需要其他机器的协助。专门设计用于探测认知深度、一致性和真正推理能力的系统,可能不易受到那些动摇人类裁判的社交线索和偏见的影响,可能会成为评估工具包的必要组成部分。或者,至少,对人类指令(提示)、AI 适应以及由此产生的智能感知之间相互作用的更深入理解将至关重要。我们可能需要问机器,当它们观察其他机器响应人类试图引出特定、可能具有欺骗性行为的尝试时,它们辨别出了什么。对衡量 AI 的探索迫使我们不仅要面对机器智能的本质,还要面对我们自身复杂且常常令人惊讶的本质。