一场新的法律战再次将 AI 开发领域卷入风暴中心,一群知名新闻和媒体机构对生成式 AI 初创公司 Cohere 提起了版权和商标侵权诉讼。 诉讼于 2025 年 2 月提交至纽约南区地方法院,原告超过十几家,其中包括《福布斯》、《卫报》和《洛杉矶时报》等备受尊敬的出版物。 这起事件的核心在于 Cohere 使用的 Retrieval-Augmented Generation (RAG) 技术,原告声称该技术涉及未经授权使用其受版权保护的材料来构建数据库并生成输出。
RAG 技术面临审查
Retrieval-Augmented Generation (RAG) 作为一种潜在的解决方案,旨在应对与大型语言模型 (LLM) 相关的一些固有挑战。 RAG 由 Patrick Lewis 及其同事于 2020 年提出,旨在缓解诸如幻觉(生成不符合事实或无意义的信息)、知识过时以及模型推理缺乏透明度等问题。 有趣的是,Patrick Lewis 本人目前是 Cohere 的一名研究员,继续从事 RAG 技术的相关工作。 RAG 的应用已经非常广泛,微软、谷歌、亚马逊和 NVIDIA 等主要参与者都将其集成到其 AI 系统中。
新闻出版商提起的诉讼主要针对 Cohere 的几项关键版权侵权指控。 这些指控突显了在生成式 AI 模型的训练和运营中使用受版权保护的材料所涉及的复杂法律问题。
针对 Cohere 的版权侵权指控
原告对 Cohere 的指控可以分为四大类:
1. AI 模型训练
原告论点的核心在于 Cohere 如何训练其大型语言模型,即 “Command Family”。 他们声称 Cohere 广泛地从互联网上“抓取”文本,包括来自原告出版物的受版权保护的内容。 然后,这些抓取的数据被用来创建训练 Command Family 模型所必需的数据集。 此外,原告还声称 Cohere 未经授权使用了 Common Crawl 的 C4 等第三方数据集,其中包含大量的受版权保护的材料。
在 AI 模型训练中使用受版权保护的材料已成为一个有争议的问题。 AI 开发人员经常辩称,这种使用属于 “合理使用” 原则,该原则允许在有限范围内使用受版权保护的材料,用于诸如批评、评论、新闻报道、教学、学术或研究等目的。 然而,版权所有者认为,大规模抓取和使用他们的内容用于商业目的,例如训练 AI 模型,超出了合理使用的范围。 这场法律战很可能取决于法院是否同意原告的评估。
2. 实时使用 / RAG
诉讼的另一个关键方面集中于 Cohere 的服务,特别是其 Chat 界面,如何在实时中使用 RAG 技术。 原告声称 Cohere 的模型从外部来源(包括其网站)抓取内容,以生成对用户查询的响应。 原告认为,这种实时抓取构成了版权侵权,特别是当 Cohere 的模型绕过付费墙或忽略 “robots.txt” 指令时,这些指令是指示网络爬虫(包括 AI 模型使用的爬虫)不要从网站上抓取特定内容的命令。
绕过付费墙和 robots.txt 指令提出了严重的道德和法律问题。 付费墙旨在保护受版权保护的内容,并确保出版商因其工作获得补偿。 Robots.txt 指令是网站所有者控制网络爬虫如何访问和使用其内容的标准机制。 通过忽略这些安全措施,Cohere 被指责表现出对版权法和内容创作者权利的漠视。
3. 侵权输出
原告声称,Cohere 的服务以复制、实质性摘录或替代性摘要的形式提供侵权输出,以响应用户查询。 他们引用了 Cohere Chat 输出的例子,其中 “Under the Hood” 面板显示了直接从原告网站复制的全部或部分文章。
原告认为,这些输出,无论是逐字复制还是摘要,都直接取代了用户访问原始文章的需求。 反过来,这损害了原告赖以维持业务的数字订阅和广告收入。 这一论点的核心是,Cohere 的 AI 模型本质上充当了受版权保护内容的未经授权的分销商,剥夺了原始出版商应得的补偿。
4. 未经授权的改编
除了在 “Under the Hood” 面板中显示原告作品的部分内容外,Cohere 的服务还提供这些作品的摘要或概要。 原告认为,这些摘要的详细程度非常高,基本上取代了原始作品,超出了合理使用的范围。
版权法不仅保护受版权保护作品的逐字复制,还保护衍生作品的创作,衍生作品是对原始作品的改编或转化。 原告认为,Cohere 的摘要非常全面,构成了未经授权的衍生作品,侵犯了他们创作和分发其受版权保护材料的改编版本的专有权。
用户行为的次要责任
除了直接版权侵权的主张外,原告还认为 Cohere 对其用户的侵权行为承担次要责任。 他们认为,Cohere 的服务促进了用户对其作品的复制、展示和分发,并且 Cohere 不能仅仅将侵权归因于用户行为来逃避责任。 这一主张的基础是,Cohere 的产品仅在用户输入提示后才会生成答案,这使得该公司成为侵权活动的参与者。
这种次要责任的论点意义重大,因为它试图让 AI 开发人员对其用户的行为负责,即使这些用户是直接参与版权侵权的人。 如果成功,这一论点可能会对 AI 技术的开发和部署产生深远的影响,因为它将要求开发人员实施保障措施,以防止其用户侵犯版权。
商标侵权指控
诉讼不仅限于版权侵权,还包括商标侵权的主张。 原告声称,Cohere 的来源归属做法构成商标侵权,因为它未经授权使用原告的知名商标或将其与 AI 生成的错误内容相关联。 他们认为,这导致损害了原告的品牌声誉并削弱了其独特性。
商标是经法律注册用于代表公司或产品的符号、设计或短语。 未经授权使用商标可能会导致消费者混淆并损害品牌声誉。 原告认为,Cohere 将其商标与 AI 生成的内容一起使用可能会误导用户认为原告认可 Cohere 的服务或与之相关,但事实并非如此。
更广泛的背景:RAG 和 AI 版权法的未来
针对 Cohere 的这起诉讼并非孤立事件。 此前,美国在 2024 年 10 月也发生了一起版权诉讼,也关注 AI 服务中的 RAG 应用。 越来越多的案例凸显了在 RAG 架构在 AI 服务中变得越来越普遍的情况下,AI 开发人员和版权所有者之间日益紧张的关系。
围绕 RAG 技术的法律战很可能成为 AI 版权法未来的一项重大问题。 RAG 提出了独特的挑战,因为它涉及实时检索和使用受版权保护的材料来生成输出。 这提出了关于合理使用的范围、AI 开发人员对用户行为的责任以及人工智能时代知识产权保护的复杂问题。
这些诉讼的结果可能会对 AI 技术的开发和部署产生深远的影响。 如果法院裁定版权所有者胜诉,AI 开发人员可能被迫实施更严格的保障措施以防止版权侵权,这可能会增加开发 AI 模型的成本和复杂性。 另一方面,如果法院裁定 AI 开发人员胜诉,版权所有者可能需要寻找新的方法来保护其知识产权,以应对日益复杂的 AI 技术。
新闻出版商与 Cohere 之间的冲突是当前正在进行的关于 AI、版权和内容创作未来辩论的关键时刻。 这一案件以及其他类似案件的结果无疑将塑造未来几年生成式 AI 及其与受版权保护材料交互的法律格局。 随着 AI 不断发展并更加融入我们生活的各个方面,必须在促进创新与保护内容创作者的权利之间取得平衡。 法院、立法者和 AI 社区必须共同努力,制定明确的准则和法规,以在确保知识产权得到尊重的同时,促进创新。
特别是,新闻行业在 AI 时代面临着一系列独特的挑战。 随着 AI 模型越来越能够生成新闻内容,至关重要的是,出版商因其受版权保护材料的使用获得补偿,并且其品牌的完整性得到保护。 针对 Cohere 的诉讼代表了新闻出版商为维护其权利并确保其作品不会被 AI 公司在未经适当授权的情况下利用所做的努力。