xAI是否谎报Grok3的基准测试成绩

争议一览

人工智能 (AI) 实验室越来越多地发现自己卷入了关于 AI 基准测试的公开争议中,更具体地说,是这些基准测试呈现给更广泛世界的方式。

最近,OpenAI 的一名员工对埃隆·马斯克 (Elon Musk) 的 AI 企业 xAI 提出了指控。 指控是什么? xAI 为其最新的 AI 模型 Grok 3 提供了具有误导性的基准测试结果。 这引发了一场争论,xAI 的联合创始人之一 Igor Babushkin 坚决捍卫公司的立场。

然而,实际情况往往处于一个更微妙的中间地带。

在一篇博文中,xAI 展示了一张图表,描绘了 Grok 3 在 AIME 2025 上的表现。这是一组要求很高的数学问题,源自最近的一次数学邀请考试。虽然一些专家对 AIME 作为权威 AI 基准测试的有效性表示怀疑,但它与该测试的旧版本一起,仍然是评估模型数学能力的常用工具。

解读 xAI 的图表

xAI 提出的图表显示了 Grok 3 的两个变体——Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning——在 AIME 2025 上似乎优于 OpenAI 性能最佳的可用模型 o3-mini-high。然而,OpenAI 员工迅速在社交媒体上做出反应,指出一个明显的遗漏:xAI 的图表没有包括 o3-mini-high 在“cons@64”时的 AIME 2025 分数。

“cons@64”究竟是什么? 它是“consensus@64”的缩写,这种方法本质上是让模型尝试 64 次来解决基准测试中的每个问题。 然后选择生成频率最高的答案作为最终答案。 正如人们可能预期的那样,cons@64 通常会显著提高模型的基准分数。 在比较图中省略它可能会造成一种模型优于另一种模型的错觉,而实际上情况可能并非如此。

“世界上最聪明的人工智能”的说法

当考虑 AIME 2025 在“@1”时的分数(表示模型在基准测试中获得的第一个分数)时,Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 的分数都低于 o3-mini-high 的分数。 此外,Grok 3 Reasoning Beta 仅略微落后于 OpenAI 设置为“中等”计算的 o1 模型。 尽管有这些结果,xAI 仍在积极推广 Grok 3 为“世界上最聪明的人工智能”。

Babushkin 在社交媒体上反驳说,OpenAI 过去也曾发布过类似的具有误导性的基准测试图表。 然而,这些图表用于比较 OpenAI 自身模型的性能。 争论中一位更公正的观察者创建了一个更“准确”的图表,展示了几乎每个模型在 cons@64 时的性能。

缺失的指标:计算成本

人工智能研究员 Nathan Lambert 强调了一个关键点:最重要的指标仍然笼罩在神秘之中。 这是每个模型为了获得最佳分数而产生的计算(和财务)成本。 这突出了大多数 AI 基准测试的一个基本问题——它们很少揭示模型的局限性,或者就此而言,它的优势。

关于 Grok 3 基准测试的争论突出了 AI 社区内的一个更广泛的问题:在评估和比较 AI 模型的方式上需要更大的透明度和标准化。

深入研究 AI 基准测试

围绕 xAI 对 Grok 3 性能的呈现方式的争议,引发了关于 AI 基准测试本身性质的几个重要问题。 什么构成了一个好的基准测试? 应该如何呈现结果以避免误解? 仅仅依靠基准测试分数来评估 AI 模型的能力有哪些局限性?

基准测试的目的:

从理论上讲,基准测试是一种标准化的方法,用于衡量和比较不同 AI 模型在特定任务上的性能。 它们提供了一个共同的衡量标准,允许研究人员和开发人员跟踪进展、识别优势和劣势,并最终推动创新。 然而,基准测试的有效性取决于几个因素:

  • 相关性: 基准测试是否准确反映了现实世界的任务和挑战?
  • 全面性: 基准测试是否涵盖了与 AI 模型预期用途相关的广泛能力?
  • 客观性: 基准测试的设计和管理方式是否最大限度地减少了偏差并确保了公平比较?
  • 可重复性: 独立研究人员是否可以一致地复制基准测试结果?

AI 基准测试的挑战:

尽管 AI 基准测试有其预期目的,但它们经常面临挑战:

  • 过拟合: 模型可以专门针对特定基准测试进行训练,而不必获得真正的智能或泛化能力。 这种现象被称为“过拟合”,会导致分数膨胀,无法反映真实世界的性能。
  • 缺乏标准化: 不同基准测试的激增,每个基准测试都有自己的方法和评分系统,使得难以比较不同模型和研究实验室的结果。
  • 操纵系统: 正如 xAI 的争议所表明的那样,公司倾向于以有利于自己模型的方式选择性地呈现基准测试结果,这可能会误导公众并阻碍客观评估。
  • 范围有限: 基准测试通常侧重于狭窄、明确定义的任务,无法捕捉人类智能的全部复杂性和细微差别。 它们可能无法充分评估创造力、常识推理或对新情况的适应性等方面。

透明度和整体评估的必要性

Grok 3 事件强调了对 AI 模型进行评估时,需要更高的透明度和更全面的方法。 仅仅依靠单一的基准测试分数,尤其是在没有完整上下文的情况下呈现的分数,可能会产生很大的误导性。

超越基准测试:

虽然基准测试可以成为一个有用的工具,但它们不应该是 AI 模型能力的唯一决定因素。 更全面的评估应考虑:

  • 真实世界性能: 模型在实际应用和场景中的表现如何?
  • 定性分析: 对模型输出进行专家评估,评估连贯性、创造力和推理能力等因素。
  • 伦理考虑: 模型是否表现出偏见或生成有害内容?
  • 可解释性: 模型的决策过程是否可以理解和解释?
  • 鲁棒性: 模型处理噪声或意外输入的程度如何?

促进透明度:

AI 实验室应努力提高其基准测试实践的透明度。 这包括:

  • 明确定义方法: 提供有关基准测试设置的详细信息,包括使用的特定数据集、评估指标和任何预处理步骤。
  • 报告完整结果: 提供所有相关分数,包括使用不同配置或方法(如 cons@64)获得的分数。
  • 披露计算成本: 披露获得报告结果所需的计算资源。
  • 开源基准测试: 公开提供基准测试数据集和评估工具,以促进独立验证和比较。

对人工智能的追求是一个复杂且快速发展的领域。 基准测试虽然不完美,但在衡量进展方面发挥着作用。 然而,重要的是要认识到它们的局限性,并努力采用更细致和透明的方法来评估 AI 模型。 最终目标应该是开发不仅强大而且可靠、合乎道德且对社会有益的 AI 系统。 重点必须从单纯追求更高的基准测试分数转向构建真正理解并以有意义的方式与世界互动的 AI。