GPAI 行为准则第三稿:版权合规变更

背景

欧盟 AI 法案(法规 (EU) 2024/1689,或称’AI 法案’)对通用人工智能 (‘GPAI’) 模型的提供商规定了具体义务。这些模型,包括来自 GPT 系列、Llama 和 Gemini 的模型,必须遵守诸如全面文档和建立确保符合欧盟版权法的政策等要求。

为了促进对这些规定的遵守,AI 法案预计将制定为 GPAI 模型量身定制的行为准则。在 AI 办公室发出邀请后, বিভিন্ন专家和利益相关者组成了四个工作组,致力于起草初步的行为准则。欧盟委员会批准该准则将赋予其在整个欧盟的’普遍有效性’。采用经批准的 GPAI 行为准则为公司提供了一种证明主动合规性的方法,有可能减轻监管审查和相关处罚。

AI 办公室最近发布了这些工作组制定的行为准则第三稿(’第三稿’)。该草案涵盖了几个关键领域:

  • 承诺
  • 透明度
  • 版权
  • 安全保障

该行为准则的最终版本定于 2025 年 5 月 2 日发布。

本文档将深入探讨第三稿中版权部分的重要细节。与第二稿(’第二稿’)的一个显著变化是,第三稿采用了精简和简洁的方法。一个关键的变化是,第三稿通常要求合规工作应与提供商的规模和能力相称,这与第二稿不同。

这与谁相关?

行为准则主要针对 GPAI 模型的提供商。这些模型的特点是具有显著的通用性,并且能够熟练地执行广泛的不同任务。这包括 GPT (OpenAI)、Llama (Meta)、Gemini (Google) 和 Mistral (Mistral AI) 等知名大型语言模型的提供商。然而,较小的模型提供商也可能属于其管辖范围,前提是他们的模型可以用于各种各样的任务。此外,为特定应用微调模型的企业也可能被归类为 GPAI 模型提供商。

‘下游提供商’,或将 GPAI 模型集成到其 AI 系统中的企业,也应该熟悉该行为准则。该准则有望成为 GPAI 模型的准标准,定义 AI 系统开发人员对 GPAI 模型能力的期望。这种理解在与 GPAI 模型提供商进行合同谈判时至关重要。

版权法行为准则的关键概念

GPAI 模型的提供商有义务建立一项确保符合欧盟版权法的政策(AI 法案第 53 (1) (c) 条)。鉴于这一要求的新颖性,一直缺乏关于此类政策的结构和内容的实用指导。行为准则旨在解决这一差距。

行为准则要求提供商实施以下措施:

版权政策

签署行为准则的提供商(’签署方’)需要制定、维护和实施符合欧盟版权法的版权政策。这一要求直接源自 AI 法案。签署方还必须确保其组织遵守此版权政策。

与第二稿的一个重大区别是,第三稿不再强制要求公布版权政策。仅仅是鼓励签署方这样做。这一降低的要求是合乎逻辑的,因为 AI 法案本身并没有强迫模型提供商公布其版权政策。

版权内容的网络爬取

签署方通常被允许出于文本和数据挖掘 (‘TDM’) 目的使用网络爬虫来收集其 GPAI 模型的训练数据。但是,他们必须确保这些爬虫尊重旨在限制访问受版权保护材料的技术,例如付费墙。

此外,签署方有义务排除’盗版域名’,即主要从事传播侵犯版权材料的在线来源。

网络爬取以及识别和遵守 TDM 选择退出

签署方必须确保网络爬虫识别并尊重权利人声明的 TDM 选择退出。虽然欧盟版权法通常允许 TDM,但权利人保留选择退出的权利。对于网络内容,此选择退出必须是机器可读的。第三稿详细说明了对网络爬虫的要求,具体规定它们必须识别并遵守广泛采用的 robots.txt 协议。此外,网络爬虫必须遵守其他相关的机器可读 TDM 选择退出,例如确立为行业标准的元数据或权利人常用的解决方案。

签署方需要采取合理的步骤,告知权利人正在使用的网络爬虫以及这些爬虫如何处理 robots.txt 指令。这些信息可以通过各种渠道传播,例如网络提要。值得注意的是,第三稿不再包含发布此信息的义务。

识别和遵守非网络爬取内容的 TDM 选择退出

GPAI 模型提供商也可能从第三方获取数据集,而不是自己进行网络爬取。虽然第二稿要求对第三方数据集进行版权尽职调查,但第三稿要求做出合理的努力来获取有关用于收集信息的网络爬虫是否遵守 robots.txt 协议的信息。

降低风险以防止产生侵犯版权的输出

与 AI 使用相关的一个重大风险是 AI 生成侵犯版权的输出的可能性。这可能涉及复制受版权保护的在线代码或图像。

签署方需要做出合理的努力来降低这种风险。这代表了一种比第二稿更宽松的方法,第二稿规定了避免’过度拟合’的措施。第三稿采取了一种更加技术中立的立场,强调合理的努力。

此外,签署方必须在其条款和条件(或类似文件)中为下游 AI 系统的提供商加入一项条款,禁止以侵犯版权的方式使用其 GPAI 模型。

指定联系人

签署方需要为权利人提供一个联系人。他们还必须建立一种机制,允许权利人提交有关版权侵权的投诉。

根据第三稿,签署方可以选择拒绝处理被认为毫无根据或过多的投诉。

深入探讨:更细致地审查版权条款

第三稿虽然看似精简,但引入了细微差别和重点转移,值得仔细研究。让我们进一步剖析每个部分:

版权政策:从发布到鼓励的转变

最初要求发布版权政策(存在于第二稿中)引起了对潜在竞争劣势和敏感信息泄露的担忧。第三稿转向鼓励发布,而不是要求发布,承认了这些担忧。这种变化允许提供商对其内部合规策略保持一定程度的保密性,同时仍然促进透明度。然而,’鼓励’方面仍然对提供商施加了微妙的压力,要求他们公开其政策,这可能导致随着时间的推移事实上形成发布的标准。

网络爬取:平衡数据获取与版权尊重

明确允许网络爬取,加上要求尊重访问限制(如付费墙),反映了一种微妙的平衡。AI 法案承认数据对于训练 AI 模型的重要性,但它也强调需要尊重内容创作者的权利。排除’盗版域名’是一个重要的补充,明确针对积极参与版权侵权的来源。这一规定强化了 AI 开发不应建立在非法活动基础上的原则。

TDM 选择退出:合规的技术细节

第三稿强调 robots.txt 协议和其他机器可读的选择退出机制,突出了合规的技术方面。这种具体性为 GPAI 提供商和权利人提供了清晰度。对于提供商,它概述了他们必须采取的具体步骤,以确保他们的爬虫尊重选择退出请求。对于权利人,它阐明了他们如何有效地表明他们对 TDM 的偏好。包含’行业标准’元数据和’广泛采用’的解决方案承认选择退出机制的格局正在不断发展,并且需要灵活性。

非网络爬取内容:转移责任和尽职调查

从’版权尽职调查’到’为获取信息做出合理努力’的转变,代表了责任的微妙但重要的转变。虽然第二稿对 GPAI 提供商施加了更重的负担,要求他们积极调查数据集的版权状态,但第三稿侧重于验证数据收集过程(由第三方)是否遵守 robots.txt。这隐含地承认 GPAI 提供商可能并不总是能够直接控制第三方的数据获取行为,但他们仍然有责任询问合规性。

减轻侵权输出:从’过度拟合’到’合理努力’

放弃使用’过度拟合’一词是一个受欢迎的变化。’过度拟合’是机器学习中的一个技术术语,指的是模型在训练数据上表现良好但在新数据上表现不佳。虽然过度拟合会导致版权侵权(例如,通过记忆和复制受版权保护的材料),但它不是唯一的原因。第三稿更广泛地关注’为降低风险做出合理努力’,涵盖了更广泛的潜在侵权场景,并允许在实施中具有更大的灵活性。这种变化也承认完全防止版权侵权可能无法实现,基于风险的方法更实用。

联系人和投诉机制:简化流程

要求指定联系人和投诉机制为权利人提供了一个明确的途径来解决潜在的版权侵权问题。签署方能够拒绝’毫无根据或过多’的投诉是一个实用的补充,防止系统被琐碎的索赔淹没。这一规定有助于确保投诉机制仍然是解决合法版权问题的可行且有效的工具。

更广泛的影响和未来考虑

GPAI 行为准则第三稿代表了朝着实施 AI 法案版权条款迈出的重要一步。它为 GPAI 提供商提供了急需的清晰度和指导,同时也寻求保护内容创作者的权利。然而,仍然存在一些更广泛的影响和未来考虑:

  • ‘合理努力’标准: 重复使用’合理努力’一词引入了一定程度的主观性。什么构成’合理’可能会受到解释,并且可能会随着时间的推移通过法律挑战和行业最佳实践而发展。这种模糊性可能会给提供商带来不确定性,但它也允许灵活性和适应不同的环境。

  • 下游提供商的角色: 虽然该准则主要针对 GPAI 提供商,但下游提供商在理解其条款方面具有既得利益。该准则设定了对 GPAI 模型质量和合规性的期望,这可以为合同谈判和风险评估提供信息。下游提供商也可能面临间接压力,以确保他们对 GPAI 模型的使用符合该准则的原则。

  • 技术演进: AI 发展的快速步伐意味着行为准则需要成为一份活的文件。数据获取、模型训练和输出生成的新技术可能会出现,需要更新该准则的条款。提及’行业标准’元数据和’广泛采用’的解决方案承认了这种持续适应的需要。

  • 国际协调: 欧盟 AI 法案是一项开创性的立法,但它并非在真空中运作。其他司法管辖区也在努力应对监管 AI 的挑战。AI 法规(包括版权条款)的国际协调对于避免碎片化和确保 AI 开发人员的公平竞争环境至关重要。

  • 对创新的影响: 行为准则旨在促进 AI 创新和保护版权之间取得平衡。然而,这些法规对 AI 发展的速度和方向的影响仍有待观察。一些人认为过于严格的法规可能会扼杀创新,而另一些人则认为明确的规则对于促进负责任的 AI 发展是必要的。

  • 执行和监督: 如何检查合规性?准则的有效性将在很大程度上取决于为执行和监督而建立的机制。

GPAI 行为准则第三稿是一份复杂且不断发展的文件,具有深远的影响。它代表了为应对 AI 时代版权合规挑战所做的重大努力,但它也是一项正在进行中的工作。包括 GPAI 提供商、权利人、政策制定者和更广泛的 AI 社区在内的利益相关者之间的持续对话,对于确保该准则实现其预期目标并在快速的技术变革面前保持相关性至关重要。