人工智能(AI)基准测试的意义何在?在对卓越人工智能的追求中,基准分数往往发挥着推动作用,但这些分数真的能反映现实世界的能力吗?随着传统基准测试面临越来越多的审视,AI 社区正在努力解决这个问题。
SWE-Bench 于 2024 年 11 月推出,迅速成为评估 AI 模型编码能力的热门工具。它利用了来自十几个基于 Python 的公共 GitHub 存储库的 2,000 多个真实的编程挑战。强大的 SWE-Bench 分数已成为令人垂涎的标志,在 OpenAI、Anthropic 和 Google 等主要 AI 开发商的主要模型版本中都得到了突出展示。除了这些巨头之外,专门从事微调的 AI 公司也在不断争夺 SWE-Bench 排行榜的霸主地位。
然而,围绕这些基准测试的热情可能具有误导性。普林斯顿大学参与 SWE-Bench 开发的研究员 John Yang 指出,对榜首位置的激烈竞争导致了对系统的“游戏化”。 这引发了人们的担忧,即这些基准测试是否准确反映了真正的人工智能成就。
问题不一定是公开的作弊行为,而是开发专门定制的策略来利用基准测试的局限性。例如,最初的 SWE-Bench 仅关注 Python 代码,从而激励开发人员专门使用 Python 训练他们的模型。Yang 观察到,这些高分模型在面对不同的编程语言时经常会动摇,从而暴露了他描述为“镀金”的表面理解。
Yang 解释说:“乍一看,它看起来很漂亮也很闪亮,但是当你尝试在其他语言上运行它时,整个事情就会崩溃。在这一点上,你不是在设计一个软件工程代理,你正在设计一个 SWE-Bench 代理,这要无趣得多。”
这种“SWE-Bench 问题”反映了 AI 评估中更广泛的挑战。基准测试曾经被认为是衡量进展的可靠指标,但现在却越来越脱离现实世界的能力。更糟糕的是,对透明度的担忧也浮出水面,进一步削弱了对这些指标的信任。尽管存在这些问题,但基准测试仍在模型开发中发挥着关键作用,即使许多专家质疑其内在价值。OpenAI 联合创始人 Andrej Karpathy 甚至将目前的状况称为“评估危机”,感叹缺乏用于衡量 AI 能力的可靠方法,也缺乏明确的前进道路。
斯坦福大学以人为本 AI 研究所研究主任 Vanessa Parli 问道:“从历史上看,基准测试是我们评估 AI 系统的方式。这是否是我们将来评估系统的方式?如果不是,那又是什么方式?”
越来越多的学者和 AI 研究人员主张采取更集中的方法,从社会科学中汲取灵感。他们建议优先考虑“效度”,这是量化社会科学的核心概念,用于评估测量工具准确捕获预期结构的能力。这种对效度的强调可能会挑战那些评估模糊定义的概念(例如“推理”或“科学知识”)的基准测试。虽然这可能会抑制对通用人工智能 (AGI) 的追求,但它将为评估单个模型提供更坚实的基础。
密歇根大学教授、推动效度的主要人物 Abigail Jacobs 断言:“认真对待效度意味着要求学术界、工业界或任何地方的人表明他们的系统确实可以做到他们所说的那样。我认为,如果他们在表明自己可以支持自己的主张方面退缩,那就表明 AI 世界存在弱点。”
传统测试的局限性
AI 行业对基准测试的依赖源于其过去的成功,尤其是在 ImageNet 等挑战中。
ImageNet 于 2010 年推出,为研究人员提供了一个包含超过 300 万张图像的数据库,这些图像被分为 1,000 个不同的类别。该挑战与方法无关,允许任何成功的算法获得可信度,而与其底层方法无关。AlexNet 在 2012 年的突破,它利用了一种非常规的 GPU 训练形式,成为现代 AI 的基石。虽然很少有人能预测到 AlexNet 的卷积神经网络会解锁图像识别,但它的高分消除了所有疑虑。(值得注意的是,AlexNet 的一位开发人员后来联合创立了 OpenAI。)
ImageNet 的有效性源于挑战与现实世界图像识别任务之间的紧密结合。即使在对方法进行辩论时,得分最高的模型也总能在实际应用中表现出卓越的性能。
然而,自那以后的几年里,AI 研究人员已将相同的方法无关方法应用于越来越通用的任务。例如,SWE-Bench 经常被用作衡量更广泛编码能力的指标,而其他考试式基准测试则被用于衡量推理能力。这种广泛的范围使得难以严格定义特定基准测试所衡量的指标,从而阻碍了对结果的负责任的解释。
问题出在哪里
斯坦福大学的博士生 Anka Reuel 认为,推动通用性是评估问题的根源。Reuel 说:“我们已经从特定任务的模型转向通用模型。这不再是关于单一任务,而是关于一大堆任务,因此评估变得更加困难。”
与 Jacobs 一样,Reuel 认为“基准测试的主要问题是有效性,甚至超过了实际实施”,并指出:“这就是很多事情崩溃的地方。” 对于像编码这样的复杂任务,几乎不可能在问题集中包含每一种可以想象的情况。因此,很难辨别模型更高的分数是反映了真正的编码技能,还是仅仅是对问题集的巧妙操纵。实现创纪录分数的巨大压力进一步激励了捷径。
开发人员希望在众多特定基准测试中取得成功将转化为具有普遍能力的模型。然而,随着代理 AI 的兴起,单个系统可以整合复杂的模型阵列,因此很难评估特定任务的改进是否会推广。普林斯顿大学的计算机科学家 Sayash Kapoor 说:“你可以转动的旋钮太多了,他是 AI 行业草率行为的批评者。“当涉及到代理时,他们似乎已经放弃了评估的最佳实践。”
在去年 7 月发表的一篇论文中,Kapoor 重点介绍了 AI 模型在 2024 年如何处理 WebArena 基准测试的具体问题,该基准测试测试 AI 代理导航网络的能力。该基准测试包括在模仿 Reddit、Wikipedia 等的克隆网站上执行的 800 多个任务。Kapoor 和他的团队发现,获胜模型 STeP 利用 Reddit URL 的结构直接访问用户个人资料页面,这是 WebArena 任务中的常见要求。
虽然不是完全作弊,但 Kapoor 认为这是“严重歪曲了代理在第一次看到 WebArena 中的任务时的表现。” 尽管如此,OpenAI 的网络代理 Operator 此后也采取了类似的策略。
为了进一步说明 AI 基准测试的问题,Kapoor 和一个研究团队最近发表了一篇论文,揭示了 Chatbot Arena(一种流行的众包评估系统)中的重大问题。他们的研究结果表明,排行榜正在被操纵,一些顶级基础模型正在进行未公开的私人测试,并有选择地发布他们的分数。
即使是启动这一切的基准测试 ImageNet,现在也面临有效性问题。华盛顿大学和谷歌研究院的研究人员在 2023 年进行的一项研究发现,ImageNet 获胜算法在应用于六个真实世界数据集时显示出“几乎没有进展”,这表明该测试的外部有效性已达到极限。
缩小范围
为了解决有效性问题,一些研究人员建议将基准测试重新连接到特定任务。正如 Reuel 所说,AI 开发人员“不得不求助于这些对下游消费者来说几乎毫无意义的高级基准测试,因为基准测试开发人员无法再预测下游任务。”
2024 年 11 月,Reuel 启动了 BetterBench,这是一个公共排名项目,根据各种标准评估基准测试,包括代码文档的清晰度,以及至关重要的是,基准测试在衡量其既定能力方面的有效性。BetterBench 挑战设计人员清楚地定义他们的基准测试测试什么,以及它如何与构成基准测试的任务相关。
Reuel 说:“你需要对能力进行结构性分解。你关心的实际技能是什么,以及你如何将它们转化为我们可以衡量的东西?”
结果是具有启发性的。街机学习环境 (ALE) 成立于 2013 年,旨在测试模型学习如何玩 Atari 2600 游戏的能力,它是得分最高的基准测试之一。相反,大规模多任务语言理解 (MMLU) 基准测试是一种广泛使用的通用语言技能测试,由于问题与底层技能之间的联系不明确,因此得分最低。
虽然 BetterBench 尚未对特定基准测试的声誉产生重大影响,但它已成功地将有效性带到了关于如何改进 AI 基准测试的讨论的最前沿。Reuel 已加入由 Hugging Face、爱丁堡大学和 EleutherAI 主持的一个新的研究小组,她将在该小组中进一步发展她关于有效性和 AI 模型评估的想法。
Hugging Face 的全球政策主管 Irene Solaiman 表示,该小组将专注于构建有效的基准测试,这些基准测试超越了衡量简单的能力。“市场上对现成的、已经可以使用的优秀基准测试的需求非常大,” Solaiman 说。“很多评估都试图做太多事情。”
更广泛的行业似乎正在趋同于这一观点。在 3 月份发表的一篇论文中,来自谷歌、微软、Anthropic 等公司的研究人员概述了一个用于改进评估的新框架,其中有效性是基石。
研究人员认为,“AI 评估科学必须超越对‘通用智能’的粗略主张,转向更具任务针对性和与现实世界相关的进展衡量标准。”
衡量“模糊”的事物
为了促进这种转变,一些研究人员正在转向社会科学的工具。一份 2 月份的立场文件认为,“评估 GenAI 系统是一项社会科学测量挑战”,特别是探索如何将社会科学有效性系统应用于 AI 基准测试。
作者主要来自微软的研究部门,但也包括来自斯坦福大学和密歇根大学的学者,他们指出了社会科学家用来衡量意识形态、民主和媒体偏见等有争议概念的标准。应用于 AI 基准测试,这些相同的程序可以提供一种衡量“推理”和“数学能力”等概念的方法,而无需求助于模糊的概括。
社会科学文献强调了严格定义所衡量概念的重要性。例如,旨在衡量社会民主程度的测试必须首先建立“民主社会”的明确定义,然后制定与该定义相关的问题。
要将此应用于像 SWE-Bench 这样的基准测试,设计人员需要放弃从 GitHub 收集编程问题并创建方案来验证答案的传统机器学习方法。相反,他们首先需要定义基准测试旨在衡量的指标(例如,“解决软件中标记问题的能力”),将其分解为子技能(例如,不同类型的问题或程序结构),然后构建准确涵盖这些子技能的问题。
对于像 Jacobs 这样的研究人员来说,从 AI 研究人员通常进行基准测试的方式进行这种深刻的转变正是重点。“科技行业正在发生的事情与社会科学的这些工具之间存在不匹配,”她说。“我们有几十年关于我们如何想要衡量人类这些模糊事物的思考。”
尽管这些想法在研究界的影响越来越大,但它们对 AI 公司实际使用基准测试方式的影响一直很缓慢。
OpenAI、Anthropic、Google 和 Meta 最近发布的模型仍然严重依赖 MMLU 等多项选择知识基准测试,而这正是有效性研究人员试图超越的方法。在大多数情况下,模型发布仍然侧重于证明通用智能的提升,并且使用广泛的基准测试来支持这些主张。
一些观察家对此感到满意。沃顿商学院教授 Ethan Mollick 认为,尽管基准测试是“对事物的糟糕衡量标准,但它们也是我们所拥有的。” 他补充说,“与此同时,这些模型正在变得越来越好。快速的进步弥补了很多罪过。”
目前,行业长期以来对通用人工智能的关注似乎掩盖了一种更集中、基于有效性的方法。只要 AI 模型在通用智能方面不断进步,特定的应用似乎就不那么引人注目,即使从业者正在使用他们不再完全信任的工具。
Hugging Face 的 Solaiman 说:“这就是我们正在走的钢丝。很容易扔掉这个系统,但是评估对于理解我们的模型真的很有帮助,即使存在这些局限性。”