开放性的侵蚀：为何'开源'AI常名不副实及其风险 | zh-CN

“开源” (open source) 一词在科技界具有强大的号召力。它让人联想到协作创新、知识共享以及对透明度的基本信念。半个世纪前，在加利福尼亚州 Menlo Park 成立的 Homebrew Computer Club 生动地体现了这种精神。这个由爱好者和修补匠组成的团体不仅仅是制造机器；他们建立了一种以自由交流思想和软件为基础的文化，为后来彻底改变计算领域的开源运动奠定了基石。然而，今天，这份来之不易的遗产和开放本身的定义正面临着一个微妙但重大的挑战，尤其是在快速发展的人工智能 (AI) 领域。越来越多开发复杂 AI 模型的公司急于将他们的创作标榜为“开源”，但仔细观察就会发现，这个标签的应用往往流于表面，掩盖了与该运动核心原则相去甚远的现实。这种意义的稀释不仅仅是语义上的争论；它对透明度和可复现性原则构成了真正的威胁，而这些原则尤其在科学界至关重要。

理解真正的开放协作精神

要理解当前的困境，首先必须领会“开源”的真正含义。它不仅仅是免费软件；它是一种植根于集体进步和可验证信任的哲学。这种哲学的基石在于四项基本自由：

为任何目的运行程序的自由。
研究程序如何工作并根据自己的计算需求修改它的自由。访问源代码是实现这一自由的前提条件。
重新分发副本以帮助他人的自由。
将修改后的版本分发给他人的自由。通过这样做，你可以让整个社区有机会从你的更改中受益。访问源代码是实现这一自由的前提条件。

这些自由通常体现在诸如 GNU General Public License (GPL)、MIT License 或 Apache License 等许可证中，历史上一直以源代码为中心。源代码——程序员编写的可读指令——是传统软件的蓝图。公开提供这些代码允许任何人检查它、理解其逻辑、识别潜在缺陷、使其适应新需求并分享这些改进。

这种模式一直是创新和科学进步的非凡催化剂。思考一下全球研究人员可以随时使用的工具所带来的影响：

统计分析：像 R Studio 这样的软件为统计计算和图形提供了一个强大、透明且可扩展的环境，成为无数科学领域数据分析的基石。它的开放性允许对方法进行同行评审和开发专门的软件包。
计算流体动力学：OpenFOAM 提供了一个用于模拟流体流动的复杂库，这在从航空航天工程到环境科学等领域至关重要。其开放性使得能够定制和验证复杂的模拟。
操作系统：Linux 和其他开源操作系统构成了世界上大部分计算基础设施的支柱，包括科学高性能计算集群，因其稳定性、灵活性和透明度而备受推崇。

其好处远不止节省成本。开源促进了可复现性 (reproducibility)，这是科学方法的基石。当研究中使用的工具和代码是开放的时，其他科学家可以复制实验、验证结果，并在此基础上充满信心地继续工作。它促进了全球协作，打破壁垒，让来自不同背景和机构的研究人员能够为共同的挑战做出贡献。它确保了长期性和避免供应商锁定 (vendor lock-in)，保护研究投资免受专有软件公司变化无常的影响。它通过允许新思想和技术的快速传播和迭代来加速发现。开源精神从根本上与科学通过透明、审查和共享进步来追求知识的目标相一致。

人工智能：一种完全不同的野兽

围绕源代码可访问性牢固建立的既定开源范式，在应用于人工智能领域，特别是像基础大语言模型 (LLMs) 这样的大规模模型时，遇到了显著的动荡。虽然这些 AI 系统当然涉及代码，但它们的功能和行为是由远为复杂且往往不透明的元素塑造的。仅仅发布神经网络的架构代码并不等同于传统软件意义上的真正开放。

一个 AI 模型，特别是深度学习模型，通常由几个关键要素组成：

模型架构 (Model Architecture)：这是神经网络的结构设计——层、神经元和连接的排列方式。公司通常确实会发布这些信息，并将其作为开放性的证据。这类似于分享引擎的蓝图。
模型权重 (Model Weights / Parameters)：这些是网络内部在训练过程中调整过的数值，通常有数十亿个。它们代表了从训练数据中提取的学习到的模式和知识。发布权重允许其他人使用预训练模型。这就像提供了完全组装好的引擎，随时可以运行。
训练数据 (Training Data)：这也许是最关键且最常被遮掩的部分。基础模型是在庞大的数据集上训练的，这些数据集通常是从互联网上抓取的，或来源于专有或私有集合（如可能引发重大隐私担忧的医疗记录）。这些数据的构成、整理、过滤以及其中潜在的偏见，深刻影响着模型的能力、局限性和道德行为。没有关于训练数据的详细信息，理解模型为何会这样表现，或评估其在特定应用中的适用性和安全性，变得极其困难。这就是秘密的燃料配方以及引擎磨合时的精确条件。
训练代码和过程 (Training Code and Process)：这包括用于训练的具体算法、优化技术、选择的超参数（控制学习过程的设置）、使用的计算基础设施以及消耗的大量能源。训练过程中的微小变化都可能导致不同的模型行为，即使架构和数据已知，也使得可复现性充满挑战。这代表了用于构建和调整引擎的详细工程规格、工具和工厂条件。

目前许多被宣传为“开源” AI 的系统主要提供对模型架构和预训练权重的访问。虽然这允许用户运行模型，或许还能在较小的数据集上进行微调 (fine-tune)，但它关键性地未能提供关于训练数据和过程的必要透明度。这严重限制了真正研究模型基本属性或以需要重新训练或理解其起源的有意义方式修改模型的能力。研究和修改的自由是开源定义的核心，但当数据和训练方法论这些关键元素仍然隐藏时，这些自由就受到了严重阻碍。从头开始复制模型的创建——这是科学理解和验证的关键测试——变得几乎不可能。

AI 领域令人不安的“开放漂绿”趋势

标签与现实之间的这种差距催生了一种被称为**“开放漂绿” (openwashing)** 的做法。这个术语描述了公司利用“开源”的良好声誉和感知到的好处来进行营销和获取战略优势，同时又拒绝提供对关键组件（如详细的训练数据信息或用于训练本身的代码）的访问。他们用开放的语言来包装他们的系统，却没有完全拥抱其对透明度和社区访问的严格要求。

几个著名的 AI 模型，尽管被广泛使用，有时还带有“开放”的标签，但如果用 Open Source Initiative (OSI) 等组织所倡导的开源综合定义来衡量，它们就显得不足。OSI 自 2022 年以来一直致力于澄清开源在 AI 背景下的含义，其一项分析强调了对几个流行模型的担忧：

Llama 2 & Llama 3.x (Meta)：虽然模型权重和架构可用，但使用限制以及关于完整训练数据集和过程的不完全透明度，限制了它们与传统开源价值观的一致性。
Grok (X)：类似地，虽然已提供，但缺乏关于其训练数据和方法的全面信息，引发了对其真正开放性的质疑。
Phi-2 (Microsoft)：常被描述为“开放模型”，但关于其创建过程和数据的完全透明度仍然有限。
Mixtral (Mistral AI)：尽管部分内容已发布，但由于在访问所有必要组件以供研究和修改方面存在限制，它并未满足开源的全部标准。

这些例子与那些努力更严格遵守开源原则的努力形成了对比：

OLMo (Allen Institute for AI)：由一个非营利研究机构开发，OLMo 在设计时就明确考虑到了开放性，不仅发布了权重，还发布了训练代码和有关所用数据的详细信息。
LLM360 的 CrystalCoder：一个社区驱动的项目，旨在实现模型整个生命周期的完全透明，包括数据、训练程序和评估指标。

为什么要进行开放漂绿？动机是多方面的：

营销和认知 (Marketing and Perception)：“开源”标签带有显著的商誉。它暗示着协作、道德实践以及对更广泛社区的承诺，这可以吸引用户、开发者和正面的媒体报道。
生态系统建设 (Ecosystem Building)：即使没有完全透明，发布模型权重也能鼓励开发者在 AI 系统之上构建应用程序，这可能创建一个依赖性的生态系统，从而使原始公司受益。
监管套利 (Regulatory Arbitrage)：这是一个尤其令人担忧的驱动因素。即将出台的法规，例如欧盟的 AI 法案 (European Union’s AI Act, 2024)，预计将对某些高风险 AI 系统施加更严格的要求。然而，对于“自由和开源软件”，通常会提议豁免或进行较轻的审查。通过贴上“开源”标签——即使根据既定定义并不准确——公司可能希望更容易地规避这些法规，避免与专有的、高风险系统相关的潜在高昂合规负担。这种策略性的标签利用了一个潜在的漏洞，破坏了法规旨在确保安全和透明的初衷。

这种做法最终贬低了“开源”一词的价值并造成混淆，使得用户、开发者和研究人员更难辨别哪些 AI 系统真正提供了该标签所暗示的透明度和自由。

为何真正的开放性对科学迫在眉睫

对于科学界来说，这场辩论的利害关系异常重大。科学依赖于透明度、可复现性以及独立验证的能力。AI 日益融入研究——从分析基因组数据、模拟气候变化到发现新材料和理解复杂的生物系统——使得这些 AI 工具的性质变得至关重要。依赖“黑箱” AI 系统，或那些伪装开放却没有提供真正透明度的系统，会带来深远的风险：

损害可复现性 (Impaired Reproducibility)：如果研究人员无法访问或理解研究中使用的 AI 模型背后的训练数据和方法论，那么复制结果就变得不可能。这从根本上破坏了科学方法的核心支柱之一。如果发现无法被独立验证，如何信任或在其基础上进行构建？
隐藏的偏见和局限性 (Hidden Biases and Limitations)：所有 AI 模型都会从其训练数据和设计选择中继承偏见。没有透明度，研究人员无法充分评估这些偏见或理解模型的局限性。在不知情的情况下使用有偏见的模型可能导致结果偏差、结论错误，并可能产生有害的现实世界后果，尤其是在医学研究或社会科学等敏感领域。
缺乏严格审查 (Lack of Scrutiny)：不透明的模型逃避了严格的同行评审。科学界无法充分探究模型的内部运作，识别其逻辑中的潜在错误，或理解与其预测相关的不确定性。这阻碍了科学探究的自我修正特性。
对企业系统的依赖 (Dependence on Corporate Systems)：依赖由企业控制的封闭或半封闭 AI 系统会产生依赖性。研究议程可能会受到可用企业工具的能力和局限性的微妙影响，访问权限可能受到限制或变得昂贵，这可能扼杀独立的研究方向，并扩大资金雄厚的机构与其他机构之间的差距。
扼杀创新 (Stifled Innovation)：真正的开源不仅允许研究人员使用工具，还允许他们剖析、修改、改进和重新利用这些工具。如果 AI 模型的关键组件仍然无法访问，这条重要的创新途径就会被阻塞。科学家们被阻止尝试新颖的训练技术，探索不同的数据组合，或为原始开发者未曾预料到的特定、细致的研究问题调整模型。

科学界不能被动地接受“开源”一词的稀释。它必须积极倡导清晰度，并要求 AI 开发者提供真正的透明度，尤其是在研究环境中使用这些工具时。这包括：

推广明确标准 (Promoting Clear Standards)：支持像 OSI 那样的努力，为构成“开源 AI”的要素建立清晰、严格的定义，这些定义应涵盖架构、权重、训练数据和训练过程的透明度。
优先选择可验证工具 (Prioritizing Verifiable Tools)：倾向于使用满足这些高透明度标准的 AI 模型和平台，即使它们最初性能稍差或比现成的不透明替代品需要更多努力。
要求透明度 (Demanding Transparency)：坚持要求涉及 AI 的出版物包含有关所用模型的详细披露，包括关于训练数据来源、处理、潜在偏见以及训练方法的全面信息。
支持真正开放的项目 (Supporting Truly Open Projects)：为致力于 AI 开发真正开放性的社区驱动项目和机构倡议做出贡献并加以利用。

Homebrew Computer Club 的精神——知识共享和协作构建的精神——对于负责任地驾驭 AI 时代的复杂性至关重要。为人工智能重新夺回并捍卫“开源”的真正含义，不仅仅关乎术语的纯洁性；它关乎在一个日益由 AI 驱动的世界中，维护科学本身的完整性、可复现性和持续进步。前进的道路需要保持警惕，并共同致力于确保强大的 AI 工具的开发和部署方式符合几个世纪以来一直为科学服务的开放探究原则。

更新于 2025-03-28

# AI # LLM # AIGC