‘开源’(open source)一词曾蕴含着某种清晰的含义,代表着共享知识和协作进步的承诺,推动了无数科学技术的飞跃。它让人联想到社区共同建设、互相审视工作成果、站在巨人肩膀上的景象,因为蓝图是免费提供的。然而,在当今的人工智能(Artificial Intelligence)领域,这个词语变得越来越……难以捉摸。正如《Nature》杂志所强调,以及在实验室和董事会中悄声议论的那样,在AI淘金热中,数量惊人的参与者正将其创造物披上’开源’的外衣,却将真正关键的组成部分秘而不宣。这不仅仅是语义上的争论;这种做法侵蚀了科学诚信的根基,并可能遮蔽未来创新的道路。研究界——这个最有可能从中获益或受损的群体——需要认清这场伪装的真面目,并强有力地倡导那些真正体现我们长期依赖的透明度和可复现性原则的AI系统。
开放的黄金时代:岌岌可危的遗产
几十年来,开源运动一直是科学进步的无名英雄。想想那些我们熟悉的工具,比如用于统计分析的 R Studio,或者用于流体动力学建模的 OpenFOAM。再想想那些基石系统,如驱动着广大互联网和科学计算集群的 Linux,或者证明了协作软件开发力量的 Apache 网络服务器。其理念直截了当:提供源代码访问权限,允许在宽松许可下修改和再分发,并培育一个全球生态系统,让改进惠及所有人。
这并非单纯的利他主义;这是务实的智慧。**开放加速了发现。*研究人员可以复制实验、验证发现,并在现有工作的基础上继续前进,而无需重复发明轮子或在不透明的专有系统中摸索。它培养了信任,因为内部运作机制可供检查,使得错误能够被集体发现和修复。它普及了准入,让全球的科学家和开发者,无论其机构背景或预算如何,都能参与到前沿工作中。这种建立在共享访问和相互审视基础上的协作精神,已深深植根于科学方法本身,确保了研究的稳健性,并促进了不同领域的快速进步。剖析、理解和修改所用工具的能力至关重要。这不仅仅是使用软件;更是关乎理解其工作原理*,确保其适用于特定的科学任务,并回馈集体知识库。这个良性循环以前所未有的速度推动了创新。
AI的数据依赖性:为何’代码为王’已显不足
进入大规模人工智能时代,尤其是那些吸引了大量关注和投资的基础模型(foundational models)。在这里,主要围绕源代码的传统开源范式遇到了根本性的错配。虽然用于构建AI模型的算法和代码当然是图景的一部分,但它们远非全部。现代AI,特别是深度学习模型,是数据的贪婪消费者。训练数据不仅仅是输入;可以说,它是模型能力、偏见和局限性的主要决定因素。
发布模型的代码,甚至其最终训练好的参数(即’权重’),却不提供对用于训练的庞大数据集的有意义访问或详细信息,就好比给了某人一把车钥匙,却拒绝告知它需要什么类型的燃料、它去过哪里,或者引擎究竟是如何组装的。你或许能驾驶它,但你理解其性能怪癖、诊断潜在问题或可靠地为新旅程修改它的能力非常有限。
此外,从头开始训练这些模型所需的计算资源是巨大的,单次训练运行的成本往往高达数百万美元。这就造成了另一个障碍。即使代码和数据完全可用,也只有少数组织拥有复制训练过程所需的基础设施。这一现实从根本上改变了与传统软件相比的动态,在传统软件中,编译代码通常是大多数开发者或研究人员力所能及的。对于AI而言,真正的可复现性和通过重新训练进行实验的能力往往遥不可及,即使组件被标记为’开放’。因此,简单地将为代码设计的旧开源定义应用于这个新的、以数据为中心且计算密集型的领域,并不能抓住其必要性。
‘开放洗白’(Openwashing):披着羊皮的狼
传统开源概念与AI发展现实之间的这种差距,为一种被称为**’开放洗白’(openwashing)**的现象创造了沃土。公司急切地将’开源’标签贴在他们的AI模型上,收获与该术语相关的公共关系利益和好感,同时采用的许可证或访问限制却背叛了真正开放的精神,即使没有违背其严格(且可以说已过时)的字面意义。
这在实践中是什么样子的?
- 发布代码但不发布数据: 公司可能发布模型的架构代码,甚至预训练权重,允许其他人“按原样”使用模型或在较小的数据集上进行微调(fine-tune)。然而,庞大的、基础性的训练数据集——定义模型核心能力的秘方——仍然是专有的和隐藏的。
- 限制性许可: 模型可能在乍看之下似乎开放的许可下发布,但包含限制商业使用、限制在某些场景下部署,或禁止特定类型的修改或分析的条款。这些限制与通常与开源软件相关的自由背道而驰。
- 模糊的数据披露: 公司可能提供模糊的描述或完全省略关键细节,而不是提供关于数据来源、收集方法、清洗过程和潜在偏见的详细信息。这种缺乏’数据透明度’使得无法全面评估模型的可靠性或伦理影响。
为什么要这样做?动机可能多种多样。’开源’的积极内涵对于吸引人才、建立开发者社区(即使是受限的)以及产生有利的新闻报道无疑是宝贵的。更具讽刺意味的是,正如《Nature》所暗示的,可能存在监管方面的激励。例如,欧盟全面的2024年《AI法案》(AI Act)就包含了对归类为开源的系统可能存在的豁免或较轻的要求。通过策略性地使用这个标签,一些公司可能希望以较少的摩擦来应对复杂的监管环境,潜在地规避针对强大的通用AI系统的审查。这种战略性的品牌塑造活动利用了开源运动的历史声誉,同时可能破坏确保负责任AI部署的努力。
开放的光谱:审视实例
认识到AI领域的开放性不一定是一种二元状态至关重要;它存在于一个光谱之上。然而,当前的标签实践常常模糊了特定模型在该光谱上的真实位置。
考虑一些在此背景下经常讨论的著名例子:
- Meta的 Llama 系列: 虽然 Meta 发布了 Llama 模型的权重和代码,但最初访问需要申请,并且许可证包含限制,特别是关于超大型公司的使用和特定应用。关键的是,底层的训练数据并未发布,限制了完全的可复现性和对其特性的深入分析。尽管后续版本调整了条款,但数据不透明的核心问题通常依然存在。
- Microsoft的 Phi-2: Microsoft 将 Phi-2 作为一款’开源’小型语言模型推出。虽然模型权重可用,但其许可证有特定的使用限制,并且关于其训练数据集的详细信息——对于理解其能力和潜在偏见(特别是考虑到它使用了“合成”数据进行训练)至关重要——并未完全透明。
- Mistral AI的 Mixtral: 这款由一家著名的欧洲AI初创公司发布的模型因其性能而受到关注。虽然组件是在宽松的 Apache 2.0 许可下发布的(对于代码/权重来说是真正开放的许可),但关于训练数据构成和策展过程的完全透明度仍然有限,阻碍了深入的科学审查。
将这些与努力更贴近传统开源原则的倡议进行对比:
- Allen Institute for AI的 OLMo: 该项目明确旨在构建一个真正开放的语言模型,优先发布模型权重和代码,还包括训练数据(Dolma 数据集)和详细的训练日志。这种承诺使得更广泛的研究社区能够进行前所未有的可复现性和分析。
- LLM360的 CrystalCoder: 这个社区驱动的努力同样强调发布模型开发生命周期的所有组件,包括中间检查点以及关于数据和训练过程的详细文档,培养了企业发布中常常缺失的透明度水平。
这些对比鲜明的例子突显了AI领域的真正开放是可能的,但这需要超越仅仅发布代码或权重的刻意承诺。它要求数据和过程的透明度,并拥抱随之而来的审查。当前由’开放洗白’造成的模糊性使得研究人员更难辨别哪些工具真正支持开放的科学探究。
信任的侵蚀:科学诚信岌岌可危
这种普遍存在的’开放洗白’的影响远不止品牌塑造。当研究人员依赖那些内部运作机制,特别是其训练数据不透明的AI模型时,这就触及了科学方法论的核心。
- 可复现性受损: 科学有效性的基石是独立研究人员能够复现结果。如果训练数据和确切的训练方法未知,真正的复制就变得不可能。研究人员或许可以使用预训练模型,但他们无法验证其构建过程或探究其源自隐藏数据的基本属性。
- 验证受阻: 如果科学家无法检查模型学习所依据的数据,他们如何能信任模型的输出?隐藏在训练数据中的偏见、不准确性或伦理问题将不可避免地体现在模型的行为中,然而,缺乏透明度使得这些缺陷难以检测、诊断或缓解。使用这样的黑箱进行科学发现引入了不可接受的不确定性。
- 创新受抑: 科学通过在前人工作的基础上发展而进步。如果基础模型在发布时带有限制或缺乏必要的透明度(尤其是在数据方面),就会阻碍他人创新、尝试替代训练方案,或以原始创建者可能未曾设想的方式将模型应用于新的科学领域。进步被这些半透明系统的提供者所限制。
对封闭或部分封闭的企业系统的依赖迫使研究人员扮演被动的消费者角色,而非积极的参与者和创新者。这有可能造成一个未来,即关键的科学基础设施被少数大型实体控制,它们可能优先考虑商业利益而非开放科学探究的需求。这种透明度的侵蚀直接转化为对支撑现代研究的工具信任度的侵蚀。
市场集中与对创新的寒蝉效应
除了对科学实践的直接影响外,AI领域普遍存在的伪开源现象还带来了显著的经济和市场影响。大型基础模型的开发不仅需要大量的专业知识,还需要访问海量数据集和巨大的计算能力——这些资源不成比例地掌握在大型科技公司手中。
当这些公司以’开源’的名义发布模型,但保留对关键训练数据的控制权或施加限制性许可时,就创造了一个不公平的竞争环境。
- 进入壁垒: 初创公司和小型研究实验室缺乏从头开始创建同等基础模型的资源。如果现有大公司发布的所谓’开放’模型附带条件(如商业使用限制或阻止深度修改的数据不透明性),就会限制这些小型参与者有效竞争或在其基础上构建真正创新应用的能力。
- 巩固现有地位: ‘开放洗白’可以作为一种战略护城河。通过发布有用但并非真正开放的模型,大公司可以培育依赖其技术的生态系统,同时阻止竞争对手完全复制或显著改进其核心资产(数据和精炼的训练过程)。这看起来像是开放,但其功能更接近于受控的平台战略。
- 方法多样性减少: 如果创新过度依赖少数占主导地位的、半透明的基础模型,可能导致AI发展的同质化,潜在地忽视了如果领域真正开放,小型独立团体可能会探索的替代架构、训练范式或数据策略。
真正的开源历来是竞争和分布式创新的强大引擎。AI领域的当前趋势有可能集中权力并扼杀开放协作本应促进的活力,可能导致一个不那么活跃、更加中心化控制的AI格局。
监管盲点与伦理钢丝
‘开放洗白’可能被用来利用监管漏洞,特别是像欧盟《AI法案》(EU AI Act)这样的框架,这一点值得仔细审视。该法案旨在为AI系统建立基于风险的法规,对高风险应用施加更严格的要求。对开源AI的豁免或较轻的义务旨在促进创新,避免给开源社区带来过重负担。
然而,如果公司能够成功地为缺乏真正透明度(尤其是在数据和训练方面)的模型争取到’开源’的称号,它们就可能绕过重要的保障措施。这引发了关键问题:
- 有意义的审查: 如果一个强大的AI模型的训练数据——其行为和潜在偏见的关键决定因素——被隐藏起来,监管机构能否充分评估其风险?错误的标签可能允许潜在的高风险系统在低于预期监管水平下运行。
- 问责差距: 当出现问题时——如果模型表现出有害的偏见或产生危险的输出——如果底层数据和训练过程不透明,谁来负责?真正的开放有助于调查和问责;’开放洗白’则掩盖了这一点。
- 伦理治理: 负责任地部署AI需要理解其局限性和潜在的社会影响。当像训练数据这样的核心组件被保密时,这种理解从根本上受到了损害。这使得独立的审计、偏见评估和伦理审查变得异常困难,甚至不可能。
策略性地使用’开源’标签来规避监管不仅仅是一种法律策略;它具有深远的伦理影响。它有可能破坏公众信任,并阻碍确保AI发展以安全、公平和负责任的方式进行的努力。因此,确保’开源AI’的监管定义与真正透明的原则保持一致至关重要。
规划通往真正AI开放之路
幸运的是,警钟已经敲响,各方正在努力在AI时代重新定义’开源’的含义。开放源代码促进会(Open Source Initiative, OSI),作为开源定义的长期管理者,已率先启动了一个全球咨询过程,旨在为开源AI(Open Source AI)建立明确的标准(最终形成了 OSAID 1.0 定义)。
这项工作中的一个关键创新是**’数据信息’(data information)*的概念。认识到在某些情况下发布海量原始数据集可能在法律上或后勤上不可行(由于隐私、版权或纯粹的规模问题),OSAID 框架强调需要关于*数据的全面披露。这包括以下细节:
- 来源: 数据来自哪里?
- 特征: 它是什么类型的数据(文本、图像、代码)?其统计特性是什么?
- 准备: 数据是如何收集、过滤、清洗和预处理的?采取了哪些措施来减轻偏见?
这种程度的透明度,即使没有原始数据本身,也为研究人员理解模型的可能能力、局限性和潜在偏见提供了关键背景。它代表了一种务实的妥协,在现有约束条件下推动最大程度的透明度。与 OSI 一道,像 Open Future 这样的组织正在倡导向更广泛的**’数据共享’(data-commons)模型**转变,探索创建共享的、符合伦理的、可公开访问的AI训练数据集的方法,进一步降低进入门槛并促进协作发展。建立并遵守这样清晰的、经过社区审查的标准,是驱散’开放洗白’迷雾的必要第一步。
研究界的当务之急
科学家和研究人员不仅仅是AI工具的消费者;他们是确保这些工具符合科学价值观的关键利益相关者。积极参与不断发展的定义和标准,例如 OSAID 1.0,至关重要。但行动必须超越仅仅意识层面:
- 要求透明度: 在出版物、基金申请和工具选择中,研究人员应优先考虑并要求他们使用的AI模型具有更高的透明度。这包括推动在模型发布时附带详细的’数据信息’卡或数据表(datasheets)。
- 支持真正的开放: 积极贡献、使用并引用像 OLMo 或其他展现出真正致力于发布代码、数据和方法的项目。用下载量和引用来投票,会发出强大的市场信号。
- 制定评估标准: 社区需要稳健的方法和清单来评估AI模型的开放程度,超越简单的标签。同行评审过程应纳入对研究中所用AI工具透明度声明的审查。
- 在机构内部倡导: 鼓励大学、研究机构和专业学会采纳支持或要求使用真正开放和透明的AI工具和平台的政策。
科学界拥有相当大的影响力。通过集体坚持维护可复现性、透明度和协作访问的标准,研究人员可以抵制误导性的声明,并帮助塑造一个有利于严谨科学发现的AI生态系统。
政策、资助与前进之路
政府和公共资助机构在塑造AI格局方面也拥有重要权力。他们的政策既可能默许’开放洗白’,也可能积极推动真正的开放。
- 强制开放: 像美国国立卫生研究院(National Institutes of Health, NIH)这样的机构已经有规定,要求其资助的研究采用开放许可和数据共享。将类似的原则扩展到用公共资金开发的AI模型和数据集是合乎逻辑且必要的步骤。如果公共资金支持AI开发,其成果应尽可能地公开可访问和可验证。
- 采购力量: 政府机构是技术的主要消费者。通过在公共采购合同中明确规定真正的开源AI要求(遵循像 OSAID 这样的标准),政府可以为公司采用更透明的做法创造显著的市场激励。意大利要求公共管理部门使用开源软件提供了一个潜在的模板。
- 投资开放基础设施: 除了监管之外,对’数据共享’(data commons)倡议、为研究人员提供的开放计算资源,以及致力于托管和评估真正开放AI模型的平台的公共投资可能是变革性的。这有助于创造公平的竞争环境,并为专有或半开放系统提供可行的替代方案。
- 全球合作: 鉴于AI发展的全球性,就定义和推广开源AI标准进行国际合作对于避免监管碎片化、确保全球范围内透明度和问责制的统一基线至关重要。
政策杠杆若运用得当,可以显著地将激励从欺骗性标签转向真正支持科学诚信和广泛创新的实践。打击AI领域’开源’幻象的斗争需要协同努力。研究人员必须是警惕的批评者,要求科学严谨性所必需的透明度。像 OSI 这样的标准制定机构必须继续完善反映AI独特性的定义。而政策制定者必须利用其影响力来激励和强制推行符合公众利益的、可验证、可信赖且可访问的人工智能实践。AI在科学领域的未来轨迹——是成为一个真正开放的发现前沿,还是一个由不透明企业系统主导的领域——正悬而未决。