AI'开源'的巨大伪装:呼吁科学诚信

贬低一个基础概念:’Open Source’ 的侵蚀

‘Open source’(开源)一词曾是技术和科学领域的一座灯塔。它代表了一种强大的精神内核,植根于透明度、无限制访问、协作改进以及可复现性的基本原则。对于几代研究人员和开发者而言,它象征着对共享知识和集体进步的承诺。从 R Studio 等环境中发现的基础统计工具(这些工具为跨学科的无数分析提供了支持),到 OpenFOAM 等复杂的模拟平台(用于揭示流体动力学的复杂性),开源软件一直是创新的不可或缺的催化剂。它通过允许全球科学家检查、验证、修改和在他人的工作基础上进行构建,加速了发现的进程,确保了研究结果可以被复制和验证——这正是科学方法的基石。

然而,如今一片阴影笼罩着这个值得信赖的称号,这片阴影来自蓬勃发展的人工智能领域。正如近期包括 Nature 等刊物指出的批判性讨论所强调的那样,一个令人担忧的趋势已经出现:著名的人工智能开发者为其模型贴上 ‘open source’ 标签,同时却扣留了实现真正开放所必需的关键组成部分。这种做法有可能稀释该术语的含义,将其从透明度的象征转变为可能具有误导性的营销口号。核心问题往往在于现代 AI 系统的独特性。与源代码至关重要的传统软件不同,大型 AI 模型的能力和行为与其训练所用的海量数据集以及定义它们的复杂架构密不可分。当对这些训练数据或关于模型构建和权重的详细信息的访问受到限制时,无论模型的某部分代码是否公开,声称是 ‘open source’ 都显得空洞无力。这种差异直击开源理念的核心,制造了一种可访问性的假象,同时掩盖了对于独立审查和复现最为关键的元素。

科学 AI 领域真正开放的必要性

在 AI 领域,尤其是在科学领域内,维持真正开放性的利害关系极其重大。科学的繁荣依赖于独立验证结果、理解方法论以及在先前工作基础上进行构建的能力。当工具本身——日益复杂的 AI 模型——变成黑箱时,这个基本过程就受到了威胁。依赖那些内部运作、训练数据偏见或潜在失败模式不透明的 AI 系统,会给研究带来不可接受的不确定性。如果影响 AI 输出的因素是未知或无法验证的,科学家怎能自信地将结论建立在该输出之上?如果专有系统无法被独立审计或复现,科学界又怎能信任由这些系统产生的研究结果?

科学领域开源软件的历史性成功提供了一个鲜明的对比和一个清晰的基准。传统开源项目固有的透明度培养了信任,并促成了稳健的同行评审。研究人员可以检查算法,理解其局限性,并根据特定需求进行调整。这种协作生态系统加速了从生物信息学到天体物理学等各个领域的进展。AI 在革新科学发现方面的潜力是巨大的,它有望以前所未有的规模分析复杂数据集、生成假设并模拟错综复杂的过程。然而,实现这一潜力取决于维护那些一直支撑着科学进步的相同原则:透明度和可复现性。转向封闭的、专有的 AI 系统,即使是那些伪装成 ‘open’ 的系统,也可能导致研究界的分裂,阻碍协作,并通过设置理解和验证的障碍最终减缓发现的步伐。科学事业需要的工具不仅要强大,而且必须是透明和值得信赖的。

数据难题:AI 的透明度挑战

在 AI 领域的 ‘open source’ 辩论核心,是训练数据这一关键问题。与主要由代码定义的传统软件不同,大型语言模型 (LLMs) 和其他基础 AI 系统在根本上是由它们在开发过程中吸收的庞大数据集塑造的。这些数据的特征、偏见和来源深刻影响着模型的行为、能力及其潜在局限性。因此,AI 领域的真正开放性,需要对这些数据达到一定程度的透明,这远不止是发布模型权重或推理代码那么简单。

目前许多以 ‘open source’ 名义推广的模型在这一方面明显不足。考虑一些著名的例子,如 Meta 的 Llama 系列、Microsoft 的 Phi-2 或 Mistral AI 的 Mixtral。虽然这些公司发布了某些组件,允许开发者运行或微调模型,但它们通常对底层的训练数据施加重大限制或提供极少的细节。所涉及的数据集可能规模庞大、属于专有、未经仔细筛选地从网络上抓取,或受到许可限制,使得完全公开发布变得困难或不可能。然而,如果没有关于以下方面的全面信息:

  • 数据来源 (Data Sources): 信息来自哪里?主要是文本、图像还是代码?来自哪些网站、书籍或数据库?
  • 数据整理 (Data Curation): 数据是如何被过滤、清洗和处理的?使用了什么标准来包含或排除信息?
  • 数据特征 (Data Characteristics): 数据中已知的偏见是什么(例如,人口统计学、文化、语言方面)?它涵盖了哪个时间段?
  • 预处理步骤 (Preprocessing Steps): 在训练前对数据应用了哪些转换?

…独立研究人员就极难完全理解模型的行为、复现其开发过程,或批判性地评估其潜在的偏见和失败点。这种数据透明度的缺乏,是当前许多 ‘open source’ AI 发布未能达到软件世界所确立的真正开放精神(如果不是字面意义的话)的主要原因。相比之下,像 Allen Institute for AI 的 OLMo 模型或 LLM360 的 CrystalCoder 等社区驱动的努力,则在提供其数据和训练方法方面做出了更协调一致的努力,设定了一个更符合传统开源价值观的更高标准。

‘Openwashing’:战略性标签还是规避监管?

那些并未完全拥抱 ‘open source’ 原则的实体挪用该标签的行为,引发了对 ‘openwashing’ 的担忧。这个术语描述了利用开放性的积极内涵来获取公共关系利益或战略优势,而没有承诺达到相应水平的透明度和可访问性的做法。为什么公司会这样做?可能有几个因素在起作用。’open source’ 品牌带有显著的商誉,暗示着对社区和共享进步的承诺,这对开发者和客户都可能具有吸引力。

此外,正如 Nature 和其他观察者所指出的,监管环境可能在无意中激励了这种行为。于 2024 年最终确定的欧盟里程碑式的 AI Act,包含了对高风险和通用 AI 系统施加更严格要求的条款。然而,它也为根据开源许可证发布的 AI 模型包含了潜在的豁免或较轻的要求。这就创造了一个潜在的漏洞,公司可能会战略性地将其模型标记为 ‘open source’——即使像训练数据这样的关键组件仍然受限——目的就是为了规避监管障碍,避免更严格的合规义务。

这种潜在的监管套利令人深感担忧。如果 ‘openwashing’ 允许强大的 AI 系统绕过旨在确保安全、公平和问责制的审查,它就破坏了监管的根本目的。这也将科学界置于一个不稳定的境地。研究人员可能会因为这些名义上 ‘open’ 的系统相比完全封闭的商业产品更易获取而被吸引,结果却发现自己依赖于那些方法论仍然不透明且无法验证的工具。这种依赖性有可能损害科学诚信,使得确保研究的可复现性、无偏见性以及建立在坚实、可理解的基础之上变得更加困难。一个熟悉标签的诱惑可能掩盖了阻碍真正科学探究的潜在限制。

为 AI 时代重新定义开放性:OSAID 框架

认识到传统的开源定义不足以应对 AI 带来的独特挑战,Open Source Initiative (OSI)——一个长期维护开源原则的组织——已经启动了一项关键的全球性努力。他们的目标是为人工智能建立一个清晰、稳健的、量身定制的定义:Open Source AI Definition (OSAID 1.0)。这项倡议是朝着在 AI 背景下重新夺回 ‘open’ 含义、并为透明度和问责制设定明确标准迈出的至关重要的一步。

在提议的 OSAID 框架内,一个关键的创新是**’数据信息’ (data information)** 的概念。认识到完全发布海量训练数据集往往可能因隐私问题、版权限制或纯粹的规模问题而不可行或被法律禁止,OSAID 专注于强制要求 关于 数据的全面披露。这包括要求开发者提供关于以下方面的详细信息:

  1. 来源与构成 (Sources and Composition): 清晰地识别训练数据的来源。
  2. 特征 (Characteristics): 记录数据中已知的特性、局限性和潜在偏见。
  3. 准备方法 (Preparation Methods): 解释用于清洗、过滤和准备数据以供训练的过程。

即使原始数据无法共享,提供这些元数据也能让研究人员和审计人员获得关于塑造 AI 模型因素的关键见解。它有助于更好地理解潜在偏见,实现更明智的风险评估,并为尝试复现或进行比较研究提供了基础。

除了数据信息,OSI 的努力,以及像 Open Future 这样的组织的倡导,正在推动向更广泛的 ‘数据共享’ (data-commons) 模式转变。这构想了一个未来,即用于 AI 训练的基本数据集能够以更开放、更公平的方式被整理和提供,从而为 AI 开发,尤其是在研究界内,培养一个更透明、更协作的生态系统。OSAID 定义旨在提供一个清晰的基准,据此可以评估 AI 系统,超越肤浅的标签,评估其对开放性的真正承诺。

集体责任:推动真正的 AI 透明度

确保 AI 领域真正开放性的挑战不能仅靠定义来解决;它需要多个利益相关者的协同行动。科学界作为复杂 AI 工具的开发者和主要用户,肩负着重大责任。研究人员必须积极参与像 OSAID 1.0 这样的倡议,理解其原则并倡导其被采纳。他们需要批判性地评估他们考虑使用的 AI 模型的 ‘开放性’ 声明,优先选择那些在训练数据和方法论方面提供更高透明度的模型,即使这意味着要抵制那些看似方便但不透明的系统的诱惑。在出版物、会议和机构讨论中,表达对可验证、可复现 AI 工具的需求至关重要。

公共资助机构和政府机构也扮演着关键角色。它们通过拨款要求和采购政策拥有相当大的影响力。像美国国立卫生研究院 (NIH) 这样的机构,已经强制要求通过其资助产生的研究数据采用开放许可,这提供了一个宝贵的先例。同样,像意大利要求公共管理机构优先考虑开源软件的例子,也展示了政策如何推动采纳。这些原则可以而且应该扩展到 AI 领域。政府和资助机构应考虑:

  • 强制要求公共资助的 AI 研发项目遵守稳健的 Open Source AI 标准(如 OSAID)。
  • 投资创建真正开放、高质量的数据集——一个 ‘数据共享区’ (data commons)——适用于训练以研究为重点的 AI 模型。
  • 确保像 EU AI Act 这样的法规在实施时能够防止 ‘openwashing’,并使所有强大的 AI 系统承担责任,无论其许可声明如何。

归根结底,保障 AI 在研究领域未来的发展需要一个统一战线。科学家必须要求透明度,机构必须实施优先考虑真正开放性的政策,而监管机构必须确保 ‘open source’ 标签象征着对问责制的有意义承诺,而不是一个方便的逃生舱口。没有这些集体努力,AI 用于科学发现的巨大潜力就有可能被一个由封闭、专有系统主导的格局所损害,从根本上破坏科学进步本身的协作性和可验证性。未来研究的诚信正悬于一线。