数据(使用和访问)法案:版权法的关键时刻

数字时代为创新带来了前所未有的机遇,尤其是在人工智能 (AI) 领域。然而,这种进步也引发了关于数据使用的伦理和法律界限的关键问题,特别是关于受版权保护的材料。关于使用盗版书籍训练AI模型的争论已达到沸点,需要重新评估现有的版权法,并对侵犯知识产权采取更坚定的立场。

核心问题:未经授权使用受版权保护的材料

问题的核心在于未经授权使用受版权保护的书籍来训练AI模型。据称,包括Meta在内的科技巨头采用了这种做法,这激怒了认为其权利受到商业利益侵犯的作者和出版商。前Waitrose总经理Mark Price一直是这种做法的直言不讳的批评者,他直接向Meta CEO Mark Zuckerberg发表讲话,并质疑该公司未经许可利用英国作家作品的理由。

Price的法律团队正在探索多种途径,以便在英国对Meta提起诉讼。其中一种方法涉及确定是否从盗版数据库LibGen获取的书籍已在英国境内“摄取和处理”。如果得到证实,这将根据英国版权法对Meta构成明确的指控。

审查输出:证明侵权的关键

另一种可能更有趣的方法是分析Meta的AI模型Llama生成的内容。Price认为,如果Llama生成的内容与用于训练它的书籍中的段落非常相似,这可以作为版权侵权的有力证据。这种调查思路与Getty Images正在进行的针对Stability AI的案件相似,该案件的重点是Stability AI的Stable Diffusion模型涉嫌复制受版权保护的图像。

Getty Images案定于2025年6月进行审判,可能会为未来涉及AI生成内容的版权纠纷树立重要的先例。Getty Images案的原告声称,Stable Diffusion复制了其训练期间使用的受版权保护图像的很大一部分。如果Getty Images胜诉,可能会鼓励作者和出版商对Meta等公司采取类似的法律行动。

Meta为其行为辩护,称其AI模型不会复制受版权保护的作品,而只是将其用于训练目的。该公司还声称,作者不会因此遭受任何经济损失。然而,如果Getty Images能够证明AI模型实际上可以复制受版权保护的内容,这将破坏Meta的辩护,并使该公司面临重大的法律责任。

许可协议:潜在的解决方案?

出版商和AI公司之间的许可协议进一步突出了AI时代版权的复杂性。例如,据报道,HarperCollins与Microsoft达成了一项许可安排,其中包括对作为协议一部分可以访问的书籍数量的限制。此类协议在为版权所有者提供潜在补偿途径的同时,也引发了关于AI训练中合理使用的范围和局限性的问题。

Meta与权利人之间缺乏类似的协议,这使得该公司容易受到法律挑战。一位Meta前律师甚至承认,AI系统可能侵犯版权的意外后果可能对该公司在法庭上构成重大威胁。

《数据(使用和访问)法案》:立法机会

英国的《数据(使用和访问)法案》为加强版权法和解决AI带来的挑战提供了一个关键的机会。将在下议院进行辩论的法案修正案旨在确保版权法规的合规性、透明度和执行。如果获得批准,这些修正案可能会遏制英国政府试图授予科技公司关于将已出版材料用于AI训练的豁免权。许多人认为政府从一开始就应该采取这种立场。

Publishers’ Licensing Services的CEO Tom West认为,《数据(使用和访问)法案》可以“加速”内容的许可。他强调,要求问责制并非反科技或反创新。相反,它反映了一种认识,即随着生成式AI在我们生活中扮演越来越重要的角色,信息的准确性和质量至关重要。

拐点:规范AI的影响

目前的情况代表一个拐点。随着AI的力量和影响力的不断增长,必须建立明确的界限和法规,以防止损害、混乱或可能导致后悔的行为。这一原则借鉴自ChatGPT,强调需要负责任地开发和部署AI技术。

深入探讨法律和伦理困境

围绕AI训练中使用受版权保护材料的争论不仅仅是一个法律问题;它也触及了基本的伦理考量。AI公司是否应该被允许从未经授权使用创意作品中获利,这是一个公平和尊重知识产权的问题。

合理使用原则:复杂的法律论证

这场辩论中的核心法律论点之一围绕着合理使用原则。合理使用是一项法律原则,允许在未经版权所有者许可的情况下有限使用受版权保护的材料。该原则旨在通过允许对受版权保护的作品进行某些变革性使用来促进言论自由和鼓励创造力。

然而,在AI训练的背景下应用合理使用原则是复杂且有争议的。AI公司经常辩称,他们对受版权保护材料的使用属于合理使用,因为他们正在使用这些材料来创建新的和变革性的技术。他们辩称,AI模型不仅仅是复制受版权保护的作品,而是从中学习以生成全新的输出。

另一方面,版权所有者辩称,使用他们的作品来训练AI模型是一种商业用途,剥夺了他们潜在的收入。他们认为,AI公司应该被要求获得他们用于训练的受版权保护材料的许可,就像他们对任何其他商业用途一样。

对作者和出版商的经济影响

未经授权的AI训练对作者和出版商的经济影响是一个重要的担忧。如果允许AI公司在不给予补偿的情况下自由使用受版权保护的作品,这可能会削弱作者和出版商创作新内容的动力。这可能导致创意作品的质量和可用性下降,最终损害整个社会。

此外,未经授权使用受版权保护的材料可能会在市场上造成不公平的竞争环境。未经许可使用受版权保护作品的AI公司将比那些获得许可或创建自己的训练数据的公司具有竞争优势。这可能会扼杀创新,并导致权力集中在少数占主导地位的AI公司手中。

需要透明度和问责制

透明度和问责制对于确保AI公司负责任地使用受版权保护的材料至关重要。应要求AI公司披露他们用于训练其模型的数据来源。这将允许版权所有者监控其作品的使用情况,并确保他们得到适当的补偿。

此外,AI公司应对其AI模型造成的任何版权侵权行为负责。这可能包括对直接侵权的责任,以及如果AI模型被用于创建侵权作品,则对帮助侵权的责任。

探索替代解决方案

除了加强版权法和促进透明度外,重要的是探索替代解决方案,这些方案可以帮助平衡AI公司和版权所有者的利益。

集体许可

集体许可是潜在的解决方案之一。在集体许可计划下,集体管理组织 (CMO) 将代表版权所有者与AI公司协商许可。然后,CMO会将从许可中收取的版税分配给版权所有者。

集体许可可以为AI公司提供一种更有效和简化的方式来获得他们需要的受版权保护材料的许可。它还可以确保版权所有者因其作品的使用而获得公平的补偿。

开源数据

另一种潜在的解决方案是促进用于AI训练的开源数据集的开发。开源数据集是可以自由供任何人使用、修改和分发的数据集。

开源数据集的开发可以减少AI公司对受版权保护材料的依赖。它还可以促进AI行业的创新和竞争。

技术解决方案

技术解决方案也可以在解决AI带来的版权挑战方面发挥作用。例如,可以使用水印技术来跟踪受版权保护的材料在AI训练中的使用情况。这将允许版权所有者监控其作品的使用情况并识别未经授权使用的实例。

此外,可以使用AI技术来检测和防止侵权作品的创建。例如,可以使用AI驱动的工具来识别与受版权保护的作品基本相似的内容。

前进的道路

围绕AI训练中使用受版权保护材料的争论是复杂且多方面的。没有简单的答案。然而,通过加强版权法、促进透明度和问责制、探索替代解决方案以及促进AI公司和版权所有者之间的公开对话,我们可以创建一个框架,该框架可以平衡所有利益相关者的利益,并在保护知识产权的同时促进创新。《数据(使用和访问)法案》代表了朝着这个方向迈出的关键一步,它提供了一个立法途径来解决这些紧迫的问题并塑造数字时代版权法的未来。现在做出的决定将对创意产业和AI的发展产生持久的影响。