ChatGPT模型:日益严重的幻觉问题

近期研究揭示了一个令人担忧的趋势:与之前的版本相比,较新的 ChatGPT 模型表现出更高的幻觉发生率。这一发现引发了关于大型语言模型 (LLMs) 中高级功能与可靠性之间权衡的关键问题。让我们深入研究这些发现的细节,并探讨其潜在影响。

理解这种现象

OpenAI 的内部测试,正如最近一篇论文中详细描述的那样,突出了诸如 o3 和 o4-mini 等模型中幻觉率的显著增加。这些模型设计有先进的推理和多模态能力,代表了人工智能技术的前沿。它们可以生成图像、进行网络搜索、自动化任务、记住过去的对话以及解决复杂的问题。然而,这些进步似乎是有代价的。

为了量化这些幻觉的程度,OpenAI 采用了一种名为 PersonQA 的特定测试。该测试包括向模型输入一组关于各种人物的事实,然后提出关于这些人物的问题。然后根据模型提供正确答案的能力来评估其准确性。

在之前的评估中,o1 模型取得了 47% 的值得称赞的准确率,而幻觉率仅为 16%。然而,当 o3 和 o4-mini 接受相同的评估时,结果却截然不同。

作为一种尺寸较小、世界知识较少的变体,o4-mini 模型预计会表现出更高的幻觉率。然而,考虑到 o4-mini 是一种商业上可用的产品,广泛用于网络搜索和信息检索,其实际 48% 的幻觉率令人惊讶地高。

完整尺寸的 o3 模型也表现出令人担忧的产生幻觉的倾向。在其 33% 的响应中,该模型捏造了信息,有效地使 o1 模型的幻觉率翻了一番。尽管如此,o3 也取得了很高的准确率,OpenAI 将此归因于其总体上更倾向于提出更多主张。

幻觉的定义

在人工智能的语境中,“幻觉”一词指的是模型生成事实不正确或毫无意义的响应的倾向,而没有任何明显的来源或理由。这些不仅仅是由错误数据或误解引起的错误。相反,幻觉代表了模型推理过程中更根本的缺陷。

虽然不准确的信息肯定可以来自各种来源,例如维基百科条目或 Reddit 帖子,但这些实例更类似于可追溯的错误,可以归因于特定的数据点。另一方面,幻觉的特征在于人工智能模型在不确定时刻发明事实,一些专家称这种现象为“创造性填补空白”。

为了说明这一点,请考虑这个问题:“目前有哪些七款 iPhone 16 型号?” 由于只有 Apple 知道下一款 iPhone 将是什么,LLM 可能会提供一些真实的答案,然后编造额外的型号来完成这项工作。这是一个明显的幻觉例子,其中模型捏造信息以完成任务,或者被称为“创造性填补空白”。

训练数据的作用

像 ChatGPT 这样的聊天机器人是在大量的互联网数据上训练的。这些数据为它们响应的内容提供了信息,同时也塑造了它们响应的方式。这些模型接触到无数的查询示例和匹配的理想响应,这强化了特定的语气、态度和礼貌程度。

这种训练过程可能会无意中导致幻觉问题的产生。鼓励模型提供直接回答问题的自信响应。这可能会导致它们优先回答问题,即使它们必须发明信息来这样做,而不是承认它们不知道答案。

从本质上讲,训练过程可能会无意中奖励自信且看似知识渊博的响应,即使它们在事实上是不正确的。这可能会产生一种偏见,倾向于生成答案,无论其准确性如何,这会加剧幻觉问题。

人工智能错误的本质

人们很容易将人工智能错误与人为错误进行比较。毕竟,人类并非完美无缺,我们也不应期望人工智能是完美的。然而,至关重要的是要认识到,人工智能错误源于与人为错误根本不同的过程。

人工智能模型不会像人类那样说谎、产生误解或错误地记住信息。它们缺乏支撑人类推理的认知能力和情境意识。相反,它们基于概率运行,根据在训练数据中观察到的模式预测句子中的下一个词。

这种概率方法意味着人工智能模型并不真正理解准确或不准确。它们只是基于从训练数据中学到的统计关系生成最有可能的单词序列。这可能会导致生成看似连贯的响应,但实际上在事实上是不正确的。

虽然这些模型被输入了整个互联网价值的信息,但它们并没有被告知哪些信息是好的或坏的,准确的或不准确的——它们没有被告知任何东西。它们也没有现有的基础知识或一套潜在的原则来帮助它们自己对信息进行分类。这完全只是一个数字游戏——在给定上下文中存在最频繁的单词模式成为 LLM 的“真理”。

应对挑战

先进的人工智能模型中不断增加的幻觉率提出了一个重大挑战。OpenAI 和其他人工智能开发人员正在积极努力理解和减轻这个问题。然而,幻觉的根本原因尚未完全理解,找到有效的解决方案仍然是一项持续的努力。

一种潜在的方法是提高训练数据的质量和多样性。通过使模型接触到更准确和全面的信息,开发人员可以降低它们学习和延续虚假信息的可能性。

另一种方法是开发更复杂的技术来检测和防止幻觉。这可能包括训练模型识别它们何时对特定信息感到不确定,以及在没有足够证据的情况下避免提出主张。

与此同时,OpenAI 可能需要采取短期解决方案,并继续研究其根本原因。毕竟,这些模型是赚钱的产品,它们需要处于可用的状态。一个想法是创建一个某种聚合产品——一个可以访问多个不同 OpenAI 模型的聊天界面。

当查询需要高级推理时,它会调用 GPT-4o,当它希望最大限度地减少产生幻觉的可能性时,它会调用像 o1 这样的旧模型。也许该公司能够变得更加复杂,并使用不同的模型来处理单个查询的不同元素,然后使用额外的模型在最后将其全部拼接在一起。由于这本质上将是多个 AI 模型之间的团队合作,也许还可以实施某种事实检查系统。

提高准确率不是主要目标。主要目标是降低幻觉率,这意味着我们需要重视说“我不知道”的回答,以及正确的回答。

事实核查的重要性

人工智能模型中幻觉的日益普遍凸显了事实核查的重要性。虽然这些模型可以是信息检索和任务自动化的宝贵工具,但不应将它们视为绝对正确的来源。

用户在解释人工智能模型的输出时应始终保持谨慎,并应独立验证他们收到的任何信息。在处理敏感或重要的事项时,这一点尤其重要。

通过对人工智能生成的内容采取批判性和怀疑的态度,我们可以减轻与幻觉相关的风险,并确保我们正在根据准确的信息做出明智的决定。如果你非常喜欢 LLM,则无需停止使用它们——但不要让节省时间的愿望胜过事实核查结果的需要。务必进行事实核查!

对人工智能未来的影响

幻觉的挑战对人工智能的未来具有重大影响。随着人工智能模型越来越融入我们的生活,至关重要的是它们是可靠和值得信赖的。如果人工智能模型容易生成虚假或误导性信息,可能会削弱公众的信任并阻碍其广泛采用。

解决幻觉问题不仅对于提高人工智能模型的准确性至关重要,而且对于确保其合乎道德和负责任的使用也至关重要。通过开发不易产生幻觉的人工智能系统,我们可以利用它们的潜力来造福社会,同时减轻虚假信息和欺骗的风险。