Meta被指控AI白皮书赞助存在"开放清洗"

Meta公司,这家科技巨头,正面临一波新的批评,被指控存在“开放清洗 (open washing)”行为。这场争议源于其赞助了Linux基金会的一篇研究论文,该论文深入探讨了蓬勃发展的开源AI解决方案领域。问题的核心在于,人们认为Meta公司正在利用这次赞助来推广其自身的Llama AI模型,同时规避了“开源 (open source)”的真正定义。

Linux基金会研究:一把双刃剑

Linux基金会的研究报告于本月早些时候发布,倡导开源AI系统的优势,强调其对各种规模的企业,特别是小型企业的成本效益。该研究表明,选择闭源AI模型的组织,其软件费用可能是使用开源替代方案的组织的三倍半。

这项研究与越来越多的支持开源AI优势的证据相符。例如,IBM和Morning Consult在1月份进行的一项调查显示,超过一半使用开源AI工具的企业更有可能获得积极的投资回报率(ROI)。此外,五分之二尚未采用开源AI解决方案的受访者表示,他们计划在未来一年内将这些工具整合到其AI项目中。

然而,Meta公司参与Linux基金会的研究引发了争议,批评人士认为这只是该公司Llama AI模型的一个隐蔽的营销活动。

“开源”困境:Llama面临审查

OpenUK的CEO阿曼达·布洛克(Amanda Brock)认为,Meta公司的Llama模型不符合被归类为真正“开源”的必要标准。她指出,Meta公司和该研究都没有承认这种差异。

“无论你选择哪个定义,Llama都不是‘开源’,”布洛克表示。“我个人更喜欢开源促进会(OSI)的开源软件定义(OSD)。Llama未能满足其开源标准,原因有很多,包括在其许可中加入了商业限制。”

布洛克进一步阐述了这种限制的影响:“这种限制扰乱了开源许可的核心自由流动,并产生了摩擦。我们依赖开源可以被任何人用于任何目的,而Llama并未满足这一要求。”

Meta的开源声明:一个有争议的问题

Meta公司的Llama模型系列被标记为“开源”,但该公司在这方面的声明一直受到行业利益相关者的挑战。争论的核心在于对“开源 (open source)”的真正构成存在不同的理解。

分歧的核心在于对用户达到一定商业化水平后施加的许可条款。虽然Llama模型提供开放访问,但在特定情况下会对用户施加限制。

今年早些时候,开源促进会 (OSI) 公开批评了Meta公司在这件事上的做法,声称该公司“继续错误地将Llama宣传为开源”。

布洛克承认Meta公司在推广开源意识方面对Llama系列所做的努力是“朝着正确方向迈出的一步”,但强调仍需要取得重大进展,以有效解决科技行业的“开放清洗 (open washing)”问题。

“考虑到Meta公司的网站强调其报告中的一个关键结论是‘Linux基金会的研究表明,像Llama这样的开源AI模型通过使关键技术解决方案更易于访问,从而推动经济增长、创新和竞争’,开源促进会 (OSI) 会愤愤不平并指责Linux基金会支持开放清洗 (open washing) 也就不足为奇了,”布洛克指出。

她进一步强调了开放清洗 (open washing) 的更广泛影响,称:“开放清洗 (open washing) 今天不仅仅是一个开源问题。随着欧盟等监管机构使用开源一词作为人工智能责任例外情况和人工智能必须满足的标准的基础,开放清洗 (open washing) 的影响已成为一个社会问题。”

超越Meta:更广泛的行业趋势

Meta公司并不是唯一一家陷入开源定义辩论的行业开发者。

2024年3月,Databricks推出了自己的大型语言模型DBRX,专家也声称该模型不符合开源标准。这归因于包含外部可接受的使用政策以及在OSI框架管辖范围之外的许可证下运行。DBRX的争议进一步凸显了“开源 (open source)”一词的模糊性和复杂性,以及开发者在驾驭其各种解释时面临的挑战。这场辩论突出了在定义开源原则方面需要更大的清晰度和标准化,尤其是在快速发展的人工智能领域。如果没有普遍接受的定义,“开放清洗 (open washing)”的风险将继续存在,可能会损害开源运动的信誉和完整性。

定义开源:核心原则

要理解围绕Meta公司的Llama和Databricks的DBRX的争议,至关重要的是深入研究定义开源软件的基本原则。开源促进会 (OSI) 提供了一个广为认可的定义,概述了软件许可证必须满足的十个关键标准才能被认为是开源:

  1. 自由再发行 (Free Redistribution): 许可证不得限制任何一方出售或赠送软件,作为包含来自多个不同来源的程序的聚合软件发行版的一部分。许可证不得要求为此类销售支付特许权使用费或其他费用。
  2. 源代码 (Source Code): 程序必须包含源代码,并且必须允许以源代码以及编译后的形式分发。如果某种形式的产品未与源代码一起分发,则必须有公开的方式以不超过合理的复制成本获得源代码——最好是通过互联网免费下载。源代码必须是程序员修改程序的首选形式。不允许故意模糊的源代码。不允许诸如预处理器或翻译器的输出之类的中间形式。
  3. 衍生作品 (Derived Works): 许可证必须允许修改和衍生作品,并且必须允许在与原始软件许可证相同的条款下分发它们。
  4. 作者源代码的完整性 (Integrity of The Author’s Source Code): 许可证可能限制以修改后的形式分发源代码,前提是许可证允许分发带有源代码的“补丁文件”,以便在构建时修改程序。许可证必须明确允许分发从修改后的源代码构建的软件。许可证可能要求衍生作品携带与原始软件不同的名称或版本号。
  5. 不歧视个人或团体 (No Discrimination Against Persons or Groups): 许可证不得歧视任何个人或人群。
  6. 不歧视特定领域 (No Discrimination Against Fields of Endeavor): 许可证不得限制任何人在特定领域中使用该程序。例如,它可能不会限制该程序在企业中使用,也不会限制用于基因研究。
  7. 许可证的分发 (Distribution of License): 附加到程序的权利必须适用于所有重新分发该程序的人,而无需这些当事人执行额外的许可证。
  8. 许可证不得特定于产品 (License Must Not Be Specific to a Product): 附加到程序的权利不得取决于该程序是否为特定软件发行版的一部分。如果从该发行版中提取该程序并在该程序的许可证条款内使用或分发,则所有重新分发该程序的人员应具有与原始软件发行版相关的相同权利。
  9. 许可证不得限制其他软件 (License Must Not Restrict Other Software): 许可证不得对与许可软件一起分发的其他软件施加限制。例如,许可证不得坚持认为在同一介质上分发的所有其他程序都必须是开源软件。
  10. 许可证必须具有技术中立性 (License Must Be Technology-Neutral): 许可证的任何规定都不得基于任何单独的技术或接口风格。

这些原则强调了自由、透明和协作在开源生态系统中的重要性。当软件许可证偏离这些原则时,就会引发关于该软件是否真的可以被认为是开源的问题。就Meta公司的Llama和Databricks的DBRX而言,担忧主要围绕商业限制、可接受的使用政策以及可能无法完全符合OSI定义的许可框架。

“开放清洗 (open washing)”的含义

“开放清洗 (open washing)”这种行为,即公司在软件不完全符合标准时错误地将其描述为开源,可能会产生一些负面后果:

  • 信任的侵蚀: 它可能会侵蚀对整个开源运动的信任,使用户难以区分真正的开源项目和那些只是假装的项目。
  • 贡献的阻碍: 它可能会阻碍那些致力于开源原则的开发人员的贡献,因为他们可能会觉得自己的努力正在被那些不遵守相同规则的公司破坏。
  • 法律的不确定性: 它可能会给依赖该软件的用户带来法律上的不确定性,因为他们可能不确定自己在许可证下的权利和义务。
  • 创新的阻碍: 它可能会通过限制修改和重新分发软件的自由来阻碍创新,而这正是开源社区创新的关键驱动力。

因此,公司必须对其软件的许可条款保持透明,并避免对其开源状态做出误导性声明。

需要更大的清晰度和标准化

围绕Meta公司的Llama和Databricks的DBRX的持续争论突出了在定义开源原则方面需要更大的清晰度和标准化。缺乏普遍接受的定义会造成混乱,并允许公司利用漏洞并进行“开放清洗 (open washing)”。

目前正在开展几项举措来解决这个问题:

  • 开源促进会 (OSI): 开源促进会 (OSI) 继续在定义和推广开源原则方面发挥着关键作用。它提供了一个广为认可的开源定义,并认证符合其标准的许可证。
  • Linux基金会: Linux基金会正在努力促进开源社区的协作和创新。它为一个开源项目提供了一个平台,并举办将开发者、用户和公司聚集在一起的活动。
  • 欧盟 (EU): 欧盟 (EU) 越来越认识到开源的重要性,并将其纳入其政策和法规中。它正在使用“开源 (open source)”一词作为人工智能责任例外情况和人工智能必须满足的标准的基础。

这些举措正在帮助创建一个更透明和标准化的开源生态系统。但是,还需要做更多的工作,以确保明确定义开源原则并始终如一地应用。

前进:透明度和问责制

为了有效地打击“开放清洗 (open washing)”并推广真正的开源,需要采取多方面的措施:

  • 透明度: 公司必须对其软件的许可条款保持透明,并避免对其开源状态做出误导性声明。
  • 问责制: 行业组织和监管机构必须让公司对其开源声明负责,并对那些进行“开放清洗 (open washing)”的公司采取行动。
  • 教育: 需要对用户和开发人员进行关于开源原则的教育,以及如何识别真正的开源项目。
  • 协作: 开源社区必须继续协作,以定义和推广开源原则,并开发工具和资源来帮助用户和开发人员驾驭开源生态系统。

通过共同努力,我们可以创建一个更透明、负责任和创新的开源生态系统,使每个人都受益。人工智能和其他技术的未来取决于它。