训练AI与否:一个难题

AI训练的版权例外情况兴起

近年来,越来越多的国家在其版权法中专门制定了例外情况,以促进AI公司进行文本和数据挖掘。这些例外情况旨在通过允许LLM在无需每个版权持有者明确许可的情况下,在海量数据集上进行训练,从而促进人工智能领域的创新。

例如,新加坡在2021年修订了其版权法,创建了这样一个例外。这一举措为该国的AI开发者获取和处理受版权保护的作品以训练其模型铺平了道路。现在,亚洲的其他司法管辖区,包括香港和印度尼西亚,也在考虑类似的立法修改。

中国视角:一个具有里程碑意义的侵权案件

中国作为全球AI领域的主要参与者,也在努力应对LLM时代的版权复杂性。一个具有里程碑意义的案件,iQiyi vs. MiniMax,将这个问题带入了人们的视野。

在这个案件中,著名的视频流媒体平台爱奇艺起诉AI公司MiniMax,指控其未经授权使用其受版权保护的视频材料来训练AI模型。这起诉讼标志着一个重要的发展,因为这是中国首例AI视频LLM侵权案件,突显了人们对在AI技术开发中未经授权使用受版权保护的内容日益增长的担忧。

印度出版业挑战LLM训练实践

这场争论不仅限于亚洲。在印度,几家出版社已对LLM开发者提起法律诉讼,指控这些模型正在使用包含其受版权保护作品的抓取数据进行训练。这些案例强调了推进AI能力的愿望与保护创作者知识产权的需要之间的紧张关系。

超越简单摄取:LLM训练的细微差别

LLM训练带来的挑战远比简单地摄取和处理数据复杂得多。印度的案例和新加坡法律中狭义定义的条款突显了这个问题多方面的性质。

许多知识产权所有者明确限制对其受版权保护作品的访问和使用,而另一些则不同意此类访问和复制。许多创作者依靠许可模式作为其业务的核心部分,未经授权将其作品用于AI训练直接破坏了这些模式。

此外,大部分训练可以在云端进行这一事实引发了复杂的管辖权问题。当数据跨国界处理时,确定适用哪些法律给本已错综复杂的法律环境增加了另一层复杂性。

归根结底,核心问题围绕着LLM如何获取其训练数据,以及它们是否以及如何就其使用向版权持有者支付报酬。

美国版权组织反对法定例外

这场争论并不局限于个别国家;它也蔓延到了国际舞台。美国近50个贸易协会和行业团体组成的联盟,被称为数字创作者联盟(Digital Creators Coalition),强烈反对在版权法中为LLM训练创建法定例外,而不规定授权或许可。

这些组织已向美国贸易代表办公室 (USTR) 提交了意见,敦促该机构在其年度特别301审查中解决这个问题,该审查审查世界各地的知识产权保护和执法实践。该联盟提供了一份已实施或正在提议此类例外的国家名单,突显了这一问题的全球规模。

美国的争论:OpenAI的立场和内部矛盾

即使在美国,这场争论仍然非常激烈。ChatGPT背后的公司OpenAI通过向白宫科技办公室提交一封公开信,加入了讨论。

在这封信中,OpenAI主张根据合理使用的原则从互联网上抓取数据的权利,实际上主张为训练目的广泛访问受版权保护的材料。然而,矛盾的是,OpenAI还建议应该限制外国LLM开发者这样做,可能通过使用美国出口政策。这种立场揭示了一种内部矛盾,即主张自己开放访问,同时寻求限制他人的访问。

前进的道路:持续的争论

随着2025年的临近,关于版权和AI训练的争论肯定会加剧。随着世界各地不断出现新的LLM,对清晰和平衡的法律框架的需求变得越来越迫切。

目前的法律环境是各国法律的拼凑,一些国家对AI训练有明确的例外,而另一些国家则没有此类规定。这种不一致性给AI开发者和版权持有者带来了不确定性,阻碍了创新,并可能损害创作者的权利。

平衡框架的关键考虑因素:

  • 透明度和问责制: LLM开发者应该对其模型训练中使用的数据来源保持透明,并对任何未经授权使用受版权保护的材料负责。
  • 公平补偿: 应该探索向版权持有者支付其作品在AI训练中使用的费用的机制。这可能涉及许可协议、集体权利管理或其他创新解决方案。
  • 国际协调: 努力协调不同司法管辖区与AI训练相关的版权法将减少法律不确定性并促进跨境合作。
  • 平衡创新和创作者权利: 法律框架应在促进AI创新和保护创作者权利之间取得平衡。这需要仔细考虑各种利益。
  • 合理使用的作用: 需要澄清合理使用原则对AI训练的适用性。这可能涉及定义具体标准,以确定将受版权保护的材料用于训练目的的行为是否符合合理使用。

围绕版权和AI训练的持续讨论突显了使现有法律框架适应快速发展的技术的挑战。找到一个平衡所有利益相关者利益的解决方案需要持续的对话、合作和适应数字时代不断变化的环境的意愿。AI发展的未来以及对创意作品的保护,很可能取决于这场关键辩论的结果。关于训练的问题将长期伴随着我们。