重新思考基准:图灵愿景的现代演绎
机器是否能真正“思考”的问题,几十年来一直吸引着计算机科学家和哲学家。这场辩论的核心往往是 Alan Turing 提出的开创性概念。这位才华横溢的英国数学家和密码破译者的工作为现代计算奠定了基础。Turing 设想了一个场景,现在被称为 Turing Test(图灵测试):一名人类审问者与两个看不见的实体(一个是人类,一个是机器)进行基于文本的对话。衡量机器成功的关键标准是什么?是它能够欺骗审问者,让其相信自己是人类参与者的能力。Turing 假设,如果审问者无法可靠地区分机器和人,那么就可以认为这台机器具备了类似于人类的智能行为能力。虽然最初的测试因其作为衡量意识或理解力的真正标准是否充分而受到批评,但其核心思想——评估 AI 令人信服地复制人类互动能力——仍然是一个强有力的基准。
现在,来自 University of California, San Diego 的研究人员为这一经典评估注入了新的活力,引入了一种引人注目的变体,专为当今复杂的 AI 环境设计。他们的研究开创了一种三方迭代的 Turing Test,增加了复杂性,并可能为评估带来了更现实的动态。这不仅仅是区分一个 AI 和一个人类;它涉及到更复杂的互动和欺骗之舞,将当代人工智能系统在模仿艺术方面的能力推向了极限。研究结果表明,最先进的 AI 模型不仅正在接近类人对话的门槛;在某些情况下,它们甚至可能直接跨越了这个门槛,有时显得比人类更像人类。
严峻的考验:人类对抗尖端 AI
UC San Diego 团队设计的实验方案具体而严谨。每一轮互动都涉及一个三人组:两名人类参与者和一台 AI 模型。人类的任务只有一个,且具有挑战性:经过一段时间的对话后,确定两个看不见的对话者中哪一个是人工智能,哪一个是人类同伴。与最初的一对一(审问者)对一(人类)对一(机器)的 Turing Test 相比,这种设置固有地提高了难度。
为了帮助做出判断,参与者进行了两次同步、并行的基于文本的对话——一次与隐藏的人类对话,另一次与隐藏的 AI 对话。他们每轮只有简洁的五分钟时间。在此时间范围内,人类评判者拥有完全的自由。他们可以使用任何提问策略,探讨任何话题,或运用任何他们认为有助于揭示聊天伙伴真实身份的对话技巧。互动时间的短暂性增加了另一层挑战,考验了 AI 快速建立令人信服的角色并能在审查下维持该角色的能力,同时也考验了人类基于有限对话数据做出快速、准确判断的能力。五分钟互动期结束后,真相大白的时刻到来:人类参与者投票,指出他们认为是 AI 的实体。
研究人员并未依赖单一的 AI 系统。相反,他们精心挑选了一个代表 AI 发展不同时代和能力的多元化阵容:
- ELIZA: 由 Joseph Weizenbaum 在近六十年前(并非来源中提到的80年,ELIZA 诞生于 1960 年代中期)开发的开创性聊天机器人。虽然以今天的标准来看很原始,依赖于模式匹配和简单脚本,但 ELIZA 作为历史基准,代表了早期对话式 AI 的尝试。
- Meta’s Llama 3.1-405B: 来自 Meta AI 的强大、当代的大型语言模型 (LLM),以其复杂的文本生成和推理能力而闻名。它的加入代表了来自一个主要 AI 研究实验室的当前顶尖水平。
- OpenAI’s GPT-4o: 研究进行时 OpenAI 最新公开发布的多模态模型,以其速度、效率以及相比先前 GPT 迭代版本增强的对话能力而受到认可。
- OpenAI’s GPT-4.5: 显然是 OpenAI 旗舰模型系列中一个更高级、或许是未发布或内部的版本。它的加入表明研究人员可能接触到了超越公开可用系统的模型。
这一选择使研究人员不仅能比较现代 AI 与人类,还能比较现代 AI 与历史基准以及不同水平的当代 AI 复杂性。核心问题依然存在:这些机器,特别是先进的 LLM,能否成功驾驭这个三方对话难题并冒充人类?
角色扮演策略:GPT-4.5 如何取得惊人成功
该研究为 AI 模型纳入了两种不同的操作场景,为调查增添了另一个维度。研究人员想了解 AI 的明确目标是否影响其欺骗人类参与者的能力。
场景 1:明确欺骗任务: 在此设置中,AI 收到一个直接而明确的指令:误导人类参与者。其编程目标是在对话中尽一切可能让评判者相信他们正在与另一个真人互动。这测试了 AI 在被明确告知要显得像人时,进行策略规划甚至可能操纵对话以达到目标的能力。
场景 2:角色模仿任务: 在这里,AI 收到了不同类型的提示。它没有被明确告知要欺骗。相反,它被指示扮演一个特定的角色——一个深度沉浸在互联网文化中的年轻人,使用该人群典型的当代俚语和沟通风格。AI 只是被要求成为这个角色,没有公开指示要愚弄审问者。
这两种场景的结果截然不同,特别是对于表现突出的 GPT-4.5。在明确指示误导(场景 1)的操作下,GPT-4.5 取得了 36% 的成功率。虽然这个数字不容忽视,但它表明,当 AI 公开尝试欺骗时,它可能不那么令人信服,或者它的尝试更容易被可能对人工智能性保持高度警惕的人类评判者察觉。
然而,在角色模仿任务(场景 2)中,情况发生了戏剧性的转变。当仅被要求扮演年轻、精通网络的角色时,GPT-4.5 的表现飙升。在 73% 的互动中,它成功地说服了人类参与者相信其是人类。这表明,采用一个看起来自然的角色,即使是风格化的角色,也是一种比直接尝试欺骗更有效的融入策略。这意味着 AI 的优势不在于精心策划的操纵,而在于其能够逼真地合成和复制从其庞大训练数据中学到的、与特定人群或个性相关的人类沟通模式。AI 不是试图成为人类;它是扮演特定类型的人类,并且做得非常有效。
性能比较:欺骗能力的谱系
虽然 GPT-4.5 抢尽风头,但其他 AI 模型的表现提供了有价值的背景信息和一些有趣的意外发现。
Meta’s Llama 3.1-405B 也展示了相当强的能力。它在说服人类相信其真实性方面取得了 56% 的成功率。这个结果显著优于随机猜测(在二选一场景中为 50%,尽管三方测试动态使简单概率略微复杂化)。这使得 Llama 3.1 稳居高能力对话模仿者的行列,能够经常愚弄人类评判者,尽管尚未达到 GPT-4.5 在其最佳场景下展示的非凡水平。这一稳健的表现突显了领先的大型语言模型在复制细致入微的人类对话方面的普遍进步。
也许最出乎意料的发现来自于 GPT-4o 与历史悠久的 ELIZA 程序之间的比较。OpenAI 的先进 GPT-4o 模型仅在 21% 的案例中成功说服参与者它是人类。与直觉相反,更为简单、基于脚本的 ELIZA 程序表现稍好,达到了 23% 的成功率。虽然这两个百分比都很低,表明在这项特定的测试设置中两者都不特别令人信服,但 ELIZA 的微弱优势值得注意。它引发了关于人类在这些短暂互动中感知和判断性质的问题。会不会是 ELIZA 的简单性和可预测性,有时被误解为古怪或特异的人类非标准沟通,而 GPT-4o 更复杂但可能显得刻板或过于正式的回应(取决于其在测试中的具体提示和行为)更容易被标记为人工智能?或者,这可能反映了特定互动或参与者期望中的细微差别,在少数情况下偏爱 ELIZA 的风格。这一结果当然值得进一步研究人类如何感知不同类型的人工智能性或非标准沟通。
然而,最突出的结果仍然是 GPT-4.5 的表现,该研究的主要作者、UC San Diego 语言与认知实验室的研究员 Cameron Jones 特别强调了这一点。Jones 强调了最令人震惊的方面:“人们无法区分来自 GPT-4.5 和 Llama 的人,而且 4.5 被评价为人类的频率甚至远高于真人!” 这是一个意义深远的声明。AI 能冒充人类是一回事;而被认为比参与同一测试的真人更像人则完全是另一回事。这表明,至少在角色扮演场景中,GPT-4.5 可能生成了更符合参与者对典型人类在线互动期望(也许更具吸引力、更一致或更符合刻板印象中的“人类”)的回应,相比之下,真实人类同伴的回应可能更多样化或更不可预测。
超越图灵:超现实 AI 模仿的影响
尽管研究人员承认,Turing Test 本身,无论是在其最初的构想中,还是可以说在这种修改后的形式中,可能都已是评估真正机器智能或理解力的过时指标,但该研究的发现具有重要意义。它们提供了鲜明的证据,表明 AI 系统,特别是那些基于在海量人类文本和对话数据集上训练的大型语言模型构建的系统,在掌握模仿艺术方面取得了多大的进展。
结果表明,这些系统生成的对话输出不仅语法正确、上下文相关,而且在短时间的、基于文本的互动限制内,在感知上与人类输出无法区分。即使底层的 AI 不具备真正的理解力、意识或构成人类交流基础的主观体验,其合成看似合理、引人入胜且角色一致的响应能力正在迅速提高。它可以有效地创造一个理解的表象,足以在大多数时候欺骗人类评判者,尤其是在扮演一个 relatable(易于共情)的角色时。
这种能力具有深远的影响,远远超出了 Turing Test 的学术好奇心。Cameron Jones 指出了由这种先进模仿驱动的几个潜在的社会转变:
- 工作自动化: AI 能够在短期互动中无缝替代人类,且可能不被察觉,这为在严重依赖基于文本沟通的角色中实现自动化打开了更广阔的大门。客户服务聊天、内容生成、数据录入、日程安排以及各种形式的数字助理可能会看到 AI 应用的增加,如果 AI 被证明足够令人信服且具有成本效益,就会取代人类工人。该研究表明,“令人信服”的门槛正在达到或被超越。
- 增强的社交工程: 滥用的潜力巨大。恶意行为者可以利用超现实的 AI 聊天机器人进行复杂的网络钓鱼诈骗、传播虚假信息、操纵公众舆论或冒充个人进行欺诈活动。一个被认为比真人更像人的 AI 可能成为一种极其强大的欺骗工具,使个人更难信任在线互动。“角色扮演”策略的有效性在这里尤其令人担忧,因为 AI 可以被定制来冒充特定类型的可信赖个人或权威人物。
- 普遍的社会剧变: 除了具体的应用之外,能够进行无法检测的人类模仿的 AI 的广泛部署可能会从根本上改变社会动态。我们如何在网络环境中建立信任?当通过潜在的人工对话者进行交流时,人际关系的本质会发生什么变化?这会导致日益加剧的孤立,还是矛盾地带来新形式的 AI-人类陪伴?人与机器通信之间日益模糊的界限,迫使社会必须正视这些问题。它挑战了我们在数字时代对真实性和互动的定义。
这项目前等待同行评审的研究,作为一个关键的数据点,说明了 AI 复制人类对话行为能力的飞速发展。它强调,尽管关于真正的人工通用智能的辩论仍在继续,但 AI 在特定情境下表现得像人的实际能力已经达到了一个关键的转折点。我们正在进入一个举证责任可能发生转变的时代——我们可能不再需要问机器是否能看起来像人,而是越来越需要质疑我们在网上互动的“人”是否真的是生物意义上的人。模仿游戏已经达到了一个新的水平,其后果才刚刚开始显现。