创造能够像人类一样思考,或者至少能像人类一样交谈的机器,是人工智能领域一项由来已久的雄心。几十年来,尽管备受争议,但基准通常是Turing Test
,由才华横溢的数学家Alan Turing
在20世纪中期构想。其前提简单而深刻:一台机器能否与人类审问者进行互动,并令人信服,以至于裁判无法可靠地将其与另一个人区分开来?最近的发展表明,一些最复杂的大型语言模型(LLMs)可能已经达到,甚至可能超越了这个有趣的里程碑,引发了关于智能、模仿和AI未来轨迹的新一轮讨论。
设定舞台:新一轮对话挑战
加州大学圣地亚哥分校的一项研究使这个问题重新成为焦点。研究人员Cameron R. Jones
和Benjamin K. Bergen
设计了一个现代版的Turing Test
,以评估尖端AI系统的对话能力。他们的实验让人类参与者与几个AI模型对决,包括OpenAI
备受推崇的GPT-4.5
和Meta
强大的LLaMa-3.1-405B
。实验设置涉及一名人类裁判同时进行两场五分钟的基于文本的对话——一场与隐藏的人类参与者,另一场与隐藏的AI模型。在这些简短的互动之后,裁判的任务很简单:识别哪个对话伙伴是机器,哪个是人类。
结果,特别是对于被提示采用特定角色的模型而言,是惊人的。
GPT-4.5
的表现: 据报道,当被指示表现得像人类时,GPT-4.5
在高达**73%**的情况下成功骗过了裁判。这个数字意义重大,因为它表明裁判更有可能将AI识别为人类,而不是参与对话的实际人类参与者。LLaMa-3.1-405B
的表现:Meta
的大型模型LLaMa-3.1-405B
(其中405B表示塑造其能力的庞大参数数量)在相同的“角色”条件下也表现可信。它在**56%**的情况下被识别为人类。虽然低于GPT-4.5
的分数,但这个结果仍然使其高于通常被认为表明通过测试的关键50%阈值,表明其回应在统计上难以与人类参与者的回应区分开来。- 基线比较: 为了提供背景并确保裁判不是简单地随机猜测,研究人员纳入了基线模型。
ELIZA
,一个由Joseph Weizenbaum
于20世纪60年代在MIT
设计的著名的早期聊天机器人,被作为对照组。不出所料,它的表现反映了自其诞生以来AI的巨大进步,仅获得了23%的“人类”评分。有趣的是,GPT-4o
,一个OpenAI
在2024年发布的更新模型,在这个特定的测试设置中也表现出类似的基线水平,仅在21%的情况下被判定为人类。这突出表明,特定的配置、训练,或者也许是提示策略本身,在实现类似人类的对话表现中起着关键作用。
该研究的方法论,采用了这种三方设置(裁判、隐藏的人类、隐藏的AI),因其相对于一些早期评估AI对抗Turing
基准的尝试而言更为严谨而受到关注。它旨在创建一个更具挑战性和现实性的场景,以评估对话的不可区分性。
角色的力量:AI作为方法派演员
影响GPT-4.5
和LLaMa-3.1-405B
在这项特定研究中成功率的一个关键因素是使用了特定的“角色”提示。研究人员在有无指示模型采用类似人类的角色或语气的两种情况下都测试了模型。当应用角色提示时,性能的显著提升突显了现代LLMs的一个关键方面:它们根据指令调整其输出的非凡能力。
对AI来说,“采用角色”意味着什么?这意味着模型会调整其:
- 语气和风格: 模仿随意的语言,使用口语,甚至模拟犹豫或反思。
- 内容焦点: 可能引用个人经历(尽管是虚构的),表达观点,或进行与所扮演角色相关的闲聊。
- 互动模式: 以感觉更具互动性、而非纯粹信息检索系统的方式回应。
这种能力直接源于这些模型的训练方式。LLMs从它们被输入的海量数据集中学习模式、风格和信息,这些数据集主要由人类在互联网和数字化文献中生成的文本和代码组成。当被提示扮演特定类型的人时,模型会利用其训练数据中与该角色一致的大量人类对话示例。这与其说是真正的个性,不如说是复杂的模式匹配和生成。
这引出了像创新智库NostaLab
创始人John Nosta
等观察者所阐述的观点,即我们所目睹的可能不一定是人类意义上的人工智能,而是高度发达的人工同理心——或者至少,是其令人信服的模拟。AI并没有感受到同理心,但它已经学会了与表达同理心相关的语言模式。成功取决于行为模仿,以一种在短时互动(如测试中使用的五分钟对话)中听起来像人类的方式定制回应。
研究人员自己也强调了这种适应性:“可以说,正是LLMs能够轻易地被提示以适应不同场景的行为,使它们如此灵活:并且显然如此能够冒充人类。”这种灵活性是一把双刃剑,既能实现非凡的对话流畅性,同时也引发了关于真实性和潜在操纵的问题。
里程碑式的成就还是有缺陷的度量?重新评估Turing Test
虽然头条新闻可能会宣称AI“通过”了Turing Test
,但这一成就的重要性值得仔细考虑。在简短的文本聊天中说服大多数裁判真的等同于人类水平的智能吗?大多数专家,包括研究作者在内,隐含地会认为并非如此。
Turing Test
是在LLMs基于互联网规模数据进行训练之前很久构想出来的,它主要衡量的是对话表现,而不是更深层次的认知能力,例如:
- 理解力: AI是真的理解对话的细微差别和含义,还是仅仅在预测统计上最可能的下一个词?
- 意识: 意识和思想的主观体验仍然牢牢地属于人类(以及可能的其他生物生命)的范畴。目前的AI模型没有显示出拥有意识的证据。
- 推理能力: 虽然AI可以在特定领域执行逻辑步骤,但其通用推理、常识以及在全新情境中理解因果关系的能力与人类相比仍然有限。
- 意图: AI的回应是基于算法和数据生成的;它们缺乏驱动其交流的真正信念、欲望或意图。
因此,在Turing Test
中获得高分表明AI能够非常出色地玩模仿游戏,尤其是在特定提示的引导下。它已经学会了生成与人类对话模式高度一致的文本。科技教育公司Waye
的创始人Sinead Bovell
对此进行了反思,质疑道,一个接受了“比任何一个人所能阅读或观看的都要多的人类数据”训练的AI,最终在“听起来像人”方面表现出色,这真的令人惊讶吗?
这提出了一个根本性问题:在21世纪,Turing Test
是否仍然是衡量AI进展的相关或充分的基准?一些人认为,它专注于通过对话进行欺骗过于狭隘,并可能产生误导。它没有充分评估我们通常与真正智能相关的能力,例如解决问题、创造力、伦理判断,或适应全新的物理或概念环境的能力。
历史背景也很重要。声称AI通过Turing Test
的说法以前也出现过。2014年,一个名为“Eugene Goostman
”的聊天机器人,旨在模拟一个13岁的乌克兰男孩,据报道在一个类似的测试活动中说服了33%的裁判。虽然当时一些人对此表示欢迎,但33%的成功率低于通常引用的50%阈值,并且是通过使用一个可以为语法错误或知识差距辩解的角色(一个非英语母语的青少年)来实现的。与最近超过50%甚至达到73%的更复杂模型的结果相比,对话式AI的进步是不可否认的,但测试本身的局限性仍然存在。
窥探引擎内部:对话能力的驱动因素
像GPT-4.5
这样的模型令人印象深刻的表现并非偶然;它是AI发展中不懈创新和改进的结果,特别是在大型语言模型领域。有几个因素促成了它们生成如此逼真文本的能力:
- 海量数据集: 现代LLMs是在真正惊人数量的文本和代码上训练的。这种广泛的接触使它们能够学习复杂的语法结构、多样的词汇、风格上的细微差别、事实信息(尽管不总是准确的)以及常见的对话序列。
- 复杂的架构: 底层技术,通常基于
Transformer
架构,利用像“注意力”这样的机制,允许模型在生成输出时权衡输入提示中不同词语的重要性。这有助于在较长的文本段落中保持上下文和连贯性。 - 先进的训练技术: 像来自人类反馈的强化学习(
RLHF
)这样的技术被用来微调模型。人类对不同的AI回应进行评分,引导模型生成更有帮助、无害和真实——并且通常更像人类声音——的输出。 - 参数规模: 像
LLaMa-3.1-405B
这样拥有数千亿参数的模型,具有更大的能力来存储和处理训练期间学到的信息,从而实现更复杂和细致的文本生成。 - 上下文保持: 较新的模型展示出改进的“记住”对话早期部分的能力,从而实现更一致和相关的互动,这是人类对话的一个关键方面。
- 多模态基础: 建立在像
GPT-4
这样的前代模型之上,这些模型整合了文本之外的能力(如图像理解),即使测试交互纯粹是基于文本的,也可能为新模型提供更丰富的内部表示。
当OpenAI
预览GPT-4.5
时,首席执行官Sam Altman
评论说:“对我来说,这是第一个感觉像在和一个有思想的人交谈的模型。”虽然主观,但这种感受反映了这些技术进步所带来的对话能力的质的飞跃。然后,角色提示作为一个强大的杠杆,将这些能力导向模仿从学习数据中提取的特定人类对话风格。
现实涟漪:社会与经济考量
AI能够令人信服地模仿人类对话的证明,即使这并不等同于真正的智能,也带来了远远超出学术测试的重大现实世界影响。正如Sinead Bovell
指出的那样,这些进步具有潜在的“巨大的经济和社会影响”。
- 就业市场颠覆: 严重依赖沟通的领域是AI整合和潜在替代的主要候选者。客户服务角色、内容生成(撰写文章、营销文案)、翻译服务,甚至辅导或个人助理的某些方面,都可能越来越多地由复杂的聊天机器人和AI代理处理。最近推动的“
Agentic AI
”——旨在在数据分析、销售支持或医疗管理等领域自主执行工作流程的系统——如果这些代理也能以类似人类的流畅性进行交流,将获得进一步的动力。 - 人际关系与信任: 随着AI越来越擅长模仿同理心和个性,它可能会改变人类互动的动态。人们会与AI伴侣建立情感联系吗?当区分人类和AI变得更加困难时,我们将如何确保在线互动的真实性?欺骗的可能性,无论是用于诈骗、传播错误信息还是操纵观点,都显著增加。
- “更深层次伪造”的兴起:
FAU
未来思维中心创始主任Susan Schneider
对这一轨迹表示担忧,预测可能出现涉及“更深层次伪造”甚至“聊天机器人网络战争”的“噩梦”场景。如果AI能够令人信服地在文本中模仿个人,那么恶意冒充的可能性将急剧上升。 - 伦理对齐:
Schneider
还强调了对齐的关键问题:确保AI系统按照人类价值观行事。一个能够完美模仿人类对话但缺乏伦理指南针或基于训练期间学到的有偏见数据运行的AI,可能会延续有害的刻板印象或提出不道德的建议,同时听起来完全合情合理。这些模型通过了测试,却不一定“正确对齐”,这是许多研究人员担忧的一点。
在对话上能够“通过”人类测试不仅仅是一个技术上的好奇心;它直接关系到在一个日益数字化的世界中,我们如何工作、沟通、信任和相互联系。
规划未来:超越模仿,迈向真正能力
尽管最近涉及GPT-4.5
和LLaMa-3.1
的Turing Test
结果是AI发展史上的显著里程碑,但它们主要突显了在自然语言生成和模仿方面的惊人进展。许多专家的共识是,现在的重点必须转向开发能够展示真正理解、推理和伦理行为的AI,而不仅仅是在对话模仿方面表现出色。
这需要超越传统的Turing Test
,转向新的基准和评估方法。这些可能是什么样子?
- 专注于在新颖情境中解决复杂问题的测试。
- 对稳健的常识推理的评估。
- 对模糊场景中伦理决策的评估。
- 衡量创造力和原创思想,而不仅仅是现有模式的重组。
- 需要长期规划和战略思维的测试。
对于该领域的许多人来说,最终目标不仅仅是创造令人信服的对话者,而是开发能够作为可靠、值得信赖的工具来解决现实世界问题和增强人类能力的AI。正如原始报道中的结论性思考所暗示的那样,AI的未来可能更多地在于其实际效用——协助科学发现、改善医疗保健、管理复杂系统——而不仅仅在于其令人信服地聊天的能力。
通往通用人工智能(AGI
)的旅程,如果可以实现的话,是漫长而复杂的。像通过Turing Test
这样的里程碑是沿途的重要标志,展示了当前技术的力量。然而,它们也作为关键提醒,指出了我们当前度量标准的局限性,以及随着这些强大技术持续发展,我们必须解决的深刻的伦理和社会问题。模仿游戏可能有了新的冠军,但构建真正智能、有益且对齐的AI的挑战才刚刚开始。