Reddit起诉Anthropic:AI训练数据侵权

Reddit对 Anthropic 提起了法律诉讼,指控这家人工智能公司未经授权使用用户生成的内容来训练其 AI 聊天机器人 Claude。 这起诉讼已提交至旧金山加利福尼亚高等法院,指控 Anthropic 未经许可从 Reddit 平台“抓取”了数百万条评论,违反了该公司的服务条款并从事不正当竞争。

数据抓取的指控

诉讼的核心是 Reddit 声称 Anthropic 采用了自动化机器人来访问和提取平台上的内容,尽管明确要求停止此类活动。 这种被称为“抓取”的做法涉及系统地从网站收集数据,通常未经网站同意。 Reddit 认为,Anthropic 使用这些抓取的数据来训练其 Claude 聊天机器人,从而有效地利用了 Reddit 用户的个人信息,而用户对此并不知情或授权。

Reddit 首席法律官 Ben Lee 强调了公司对数据使用问题的立场,他表示:“不应允许 AI 公司在没有对如何使用数据做出明确限制的情况下,从人们那里抓取信息和内容。” 该声明强调了 Reddit 的担忧,即 AI 公司正在利用用户生成的内容,而没有为用户隐私和数据保护提供充分的保障。

Anthropic 在回应 Reddit 的指控时发表声明,表示不同意这些说法,并声称其打算“积极为自己辩护”。 该公司的辩护很可能围绕着与合理使用、公开可用数据的性质以及其 AI 训练实践在多大程度上符合法律和道德标准相关的论点展开。

Reddit 的许可协议

针对 Anthropic 采取的法律行动,正值 Reddit 与包括 Google 和 OpenAI 在内的其他 AI 公司签订现有许可协议的背景之下。 这些协议允许这些公司在 Reddit 庞大的公共评论库上训练他们的 AI 系统,这个评论库由其超过 1 亿的日活跃用户生成。 作为访问这些数据的交换,Reddit 获得了补偿,更重要的是,获得了执行用户保护的能力。

根据 Ben Lee 的说法,这些许可协议“使我们能够为我们的用户实施有意义的保护,包括删除您的内容的权利、用户隐私保护以及防止用户使用此内容被垃圾邮件骚扰”。 这突显了 Reddit 采取积极主动的方式来管理 AI 公司对其数据的使用,确保用户的权利和隐私受到尊重。

针对 Anthropic 的诉讼可以被视为 Reddit 努力执行其数据使用政策并保护其用户利益的行为。 通过采取法律行动,Reddit 向 AI 公司发出了明确的信息,即它不会容忍未经授权的数据抓取,并将积极捍卫其权利及其用户的权利。

Anthropic 的 AI 开发

Anthropic 由 OpenAI 的前高管于 2021 年创立,现已成为 AI 聊天机器人市场的重要参与者。 它的旗舰产品 Claude 是 OpenAI 的 ChatGPT 的直接竞争对手。 虽然 OpenAI 与微软建立了密切的合作伙伴关系,但 Anthropic 的主要商业合作伙伴是亚马逊,亚马逊正在使用 Claude 来增强其 Alexa 语音助手的功能。

与许多 AI 公司一样,Anthropic 依靠大量的文本和代码数据集来训练其 AI 模型。 这些数据集通常包括来自诸如 Wikipedia 和 Reddit 之类的网站的内容,这些网站提供了有关各种主题的大量信息,并反映了人类语言的细微差别。 该诉讼突出了 AI 公司对易于获得的在线内容的依赖性,从而引发了有关使用此类数据进行 AI 训练的道德和法律影响的问题。

“抓取”的争论

从网站“抓取”数据的做法已成为 AI 行业中一个有争议的问题。 AI 公司认为,抓取对于收集训练其 AI 模型所需的大量数据是必要的。 他们经常引用“合理使用”的概念,该概念允许将受版权保护的材料用于某些目的,例如教育、研究和评论。

但是,网站所有者和内容创建者认为,抓取可能会违反其服务条款、侵犯其版权并破坏其商业模式。 他们认为,AI 公司在抓取其数据之前应获得许可,并应就其内容的使用向他们提供补偿。

Reddit 针对 Anthropic 的诉讼只是 AI 公司和内容提供商之间就数据抓取问题日益紧张的一个例子。 随着 AI 技术的不断进步,这些法律和道德辩论可能会加剧,从而导致制定新的法律法规来管理数据在 AI 训练中的使用。

2021 年的论文

Reddit 的诉讼中引用了 Anthropic 首席执行官 Dario Amodei 合著的 2021 年的一篇研究论文。 这篇论文阐明了 Anthropic 的研究人员确定为包含用于 AI 训练的高质量数据的特定 subreddit 或主题论坛。 这些 subreddit 涵盖了广泛的主题,从园艺和历史到关系建议和洗浴时的思考。

诉讼中引用这篇论文强调了 Reddit 的主张,即 Anthropic 有意针对其平台进行数据抓取。 通过将特定的 subreddit 确认为 AI 训练数据的宝贵来源,Anthropic 据称表明了其未经许可从 Reddit 提取内容的意图。

Anthropic 的版权论点

在 2023 年致美国版权局的一封信中,Anthropic 辩称其 AI 训练实践构成了“对材料的本质上的合法使用”。 该公司声称,其 AI 模型仅为了对大型数据集执行统计分析而复制信息,它认为这属于合理使用原则。

但是,这种论点并未被普遍接受。 Anthropic 目前正面临着来自主要音乐出版商的另一项诉讼,他们声称 Claude 会转录受版权保护的歌曲的歌词。 这起诉讼引发了人们对 AI 模型可能通过复制或分发受版权保护的材料而侵犯版权的担忧。

违反使用条款

Reddit 对 Anthropic 的诉讼不同于针对 AI 公司提出的其他法律挑战,因为它没有指控侵犯版权。 相反,它侧重于声称违反 Reddit 的使用条款以及由此产生的不正当竞争。

Reddit 认为,Anthropic 通过未经许可从平台抓取内容来违反其使用条款。 它还认为,Anthropic 的行为通过允许其开发 AI 聊天机器人而无需承担从 Reddit 许可数据的相关成本,从而造成了不公平的竞争。

通过关注这些问题,Reddit 试图建立一项法律先例,该先例可能对 AI 行业产生重大影响。 如果 Reddit 在诉讼中胜诉,AI 公司未经许可从网站抓取数据可能会变得更加困难,从而可能导致 AI 模型训练方式的转变。

AP 和 OpenAI 协议

美联社 (AP) 和 OpenAI 达成了一项许可和技术协议,该协议授予 OpenAI 访问 AP 部分文本档案的权限。 该协议反映了内容提供商与 AI 公司合作以许可其数据用于 AI 训练目的的日益增长的趋势。

此类协议为内容提供商提供了一种从其数据中产生收入的方式,同时还可以保持对其数据使用方式的控制。 它们还为 AI 公司提供了访问高质量数据的途径,这些数据可以提高其 AI 模型的性能。

更广泛的含义

Reddit 针对 Anthropic 的诉讼不仅仅是两家公司之间的纠纷; 它是围绕 AI 开发的更广泛的法律和道德辩论的风向标。 本案的结果可能对 AI 行业产生重大影响,从而可能影响 AI 模型的训练方式以及内容提供商的权利。

随着 AI 技术的不断进步,至关重要的是以周到和全面的方式解决这些问题。 这将需要 AI 公司、内容提供商、政策制定者和公众之间的合作,以制定一个框架,在 AI 创新的益处与保护用户隐私、知识产权和公平竞争的需求之间取得平衡。

定义抓取

在这种情况下,抓取是指从网站自动提取数据。 使用工具来解析 HTML 代码并提取特定的元素,如文本、图像或链接。 就 Reddit 而言,Anthropic 据称使用机器人来抓取用户评论,这对于训练语言模型很有价值。

抓取的合法性是一个灰色地带。 网站通常有禁止此类活动的服务条款,但执行起来可能很困难。 一些人认为,应该可以访问公开可用的数据,而另一些人则强调网站所有者控制其内容的权利。

合理使用原则

合理使用原则是一项法律原则,允许在未经版权所有者许可的情况下有限制地使用受版权保护的材料。 该原则旨在通过允许评论、批评、新闻报道、教学、学术和研究来促进表达自由。

但是,将合理使用原则应用于 AI 训练是复杂且有争议的。 AI 公司辩称,他们出于训练目的而使用受版权保护的材料是变革性的,并且不会侵犯版权所有者的权利。 另一方面,内容提供商认为,AI 训练是一种商业活动,需要获得许可和补偿。

AI 训练的未来

Reddit 针对 Anthropic 的诉讼突出了围绕 AI 训练未来的挑战和不确定性。 随着 AI 模型变得越来越复杂并且需要更大的数据集,对数据的需求只会增加。 这可能会导致进一步的法律斗争和监管努力,以解决数据抓取和 AI 训练的伦理和法律影响。

利益相关者必须共同努力,以制定一个促进创新,同时保护内容提供商的权利,并确保负责任的数据实践的框架。 该框架应解决诸如数据隐私、版权、透明度和责任制等问题。

替代数据来源

随着对网络抓取的法律审查日益严格,AI 公司正在探索训练其模型的替代数据来源。 这些包括:

  • 许可数据: 通过与 Reddit、AP 等内容提供商签订许可协议来获取数据。
  • 合成数据: 生成模仿真实世界数据但未包含任何个人身份信息或受版权保护的材料的人工数据。
  • 开源数据: 利用受商业用途许可的公开可用的数据集。
  • 内部数据: 利用公司自身产品和服务生成的数据。

通过使其数据来源多样化,AI 公司可以减少对网络抓取的依赖,并降低与法律挑战和道德问题相关的风险。

用户视角

最终,关于 AI 训练实践的争论引发了关于互联网用户的权利的根本性问题。 用户在 Reddit 等平台上生成大量内容,但通常并不完全了解这些内容将如何使用。

至关重要的是,用户应了解如何收集、使用和共享其数据。 他们还应该能够控制其数据,并选择不将他们的数据用于 AI 训练目的。

像 Reddit 这样的平台有责任保护其用户的数据,并确保以负责任和合乎道德的方式使用其数据。 这包括为用户提供清晰透明的隐私政策,以及控制其数据的机制。

可能的结果

Reddit 针对 Anthropic 的诉讼的可能结果各不相同,并且可能对 AI 行业产生重大影响:

  • 和解: 两家公司可能会达成和解协议,无需审判即可解决争议。
  • Reddit 胜诉: 法院可以做出有利于 Reddit 的裁决,认定 Anthropic 违反其服务条款并从事不正当竞争。
  • Anthropic 胜诉: 法院可以做出有利于 Anthropic 的裁决,认定其 AI 训练实践在合理使用原则下是合法的。
  • 混合裁决: 法院可以做出混合裁决,在某些索赔中支持 Reddit,但在其他索赔中支持 Anthropic。

诉讼的结果很可能取决于许多因素,包括案件的具体事实、相关的法律先例以及双方提出的论点。

公众舆论法庭

除了法律程序外,Reddit 针对 Anthropic 的诉讼也在公众舆论法庭上进行。 两家公司都强烈希望塑造围绕该案件的叙述并影响公众认知。

Reddit 可能会强调保护用户隐私和执行其服务条款的重要性。 Anthropic 可能会强调 AI 创新的好处以及访问数据以训练 AI 模型的重要性。

公众对案件的看法可能会影响法律程序的结果,以及关于 AI 训练实践的更广泛的辩论。