机器中的幽灵:OpenAI 的 AI 是否'记住'了版权作品?

酝酿中的风暴:AI 时代的版权问题

人工智能领域,特别是像 OpenAI 这样的行业巨头开发的复杂大型语言模型 (LLMs),正面临着一场日益严峻的法律和伦理风暴。这场风暴的核心在于一个根本性问题:这些强大的机器是由什么数据驱动的?在此过程中,创作者的权利是否得到了尊重?越来越多的指控表明,大量的受版权保护的材料——小说、文章、代码等等——可能在未经必要许可或补偿的情况下,在这些模型的训练阶段被吸收。这不仅仅是一场学术辩论;它正迅速升级为高风险的诉讼。

OpenAI 发现自己越来越深地卷入由作家、程序员和各种权利持有者发起的法律战中。这些原告主张,他们的知识产权被不当利用,以构建那些正占据新闻头条并改变行业的 AI 模型。他们的论点基于这样一种主张:现行版权法并未明确允许将受保护的作品大规模用作商业 AI 系统的训练素材。作为回应,OpenAI 一直援引“合理使用 (fair use)”原则,这是一项复杂的法律原则,允许在特定情况下未经许可有限度地使用受版权保护的材料。然而,合理使用原则对于 AI 训练这种前所未有的规模和性质的适用性,仍然是一个激烈争论的灰色地带,为具有里程碑意义的法律判例奠定了基础。核心的紧张点在于,将受版权保护的作品转化为模型内部的统计模式,究竟是构成“转换性使用 (transformative use)”——合理使用的关键要素——还是仅仅是未经授权的大规模复制。这些诉讼的结果可能会深刻地塑造 AI 发展的未来轨迹,可能对模型创建者施加重大的限制或成本。

窥探黑箱:检测记忆的新方法

为这场激烈的辩论火上浇油的是,一个由来自华盛顿大学 (University of Washington)、哥本哈根大学 (University of Copenhagen) 和斯坦福大学 (Stanford University) 等著名机构的研究人员组成的合作团队最近进行的一项研究。他们的工作引入了一种创新技术,专门用于检测 AI 模型(即使是那些只能通过像 OpenAI 这样的限制性应用程序编程接口 (APIs) 访问的模型)似乎“记住 (memorized)”了其训练数据特定部分的情况。这是一个关键的突破,因为对于外部调查人员来说,访问像 GPT-4 这样的商业模型的内部运作或确切的训练数据集通常是不可能的。

理解这些模型如何运作是掌握这项研究重要性的关键。从核心上讲,LLMs 是极其复杂的预测引擎。它们在真正海量的文本和代码上进行训练,学习单词、短语和概念之间复杂的统计关系。这个学习过程使它们能够生成连贯的文本、翻译语言、创作不同类型的创意内容,并以信息丰富的方式回答问题。虽然目标是让模型泛化模式而不是简单地逐字存储信息,但训练数据的庞大规模使得某种程度的记忆几乎不可避免。可以把它想象成一个学生学习无数教科书;虽然他们的目标是理解概念,但他们可能会无意中记住特定的句子或定义,尤其是那些独特的句子或定义。之前的观察已经显示,图像生成模型会再现它们训练所用电影中可识别的元素,而语言模型生成的文本与新闻文章等来源惊人地相似,甚至是直接复制。这种现象引发了对抄袭和 AI 生成内容真实原创性的严重担忧。

研究人员提出的方法既巧妙又具有启发性。它围绕着识别和利用他们称之为 “高惊奇度 (high-surprisal)” 词语。这些词语在句子或段落的特定语境中,从统计学上看似乎不寻常或出乎意料。考虑这个短语:“这位古代水手依靠 六分仪 (sextant) 的微弱光芒导航。”“sextant”这个词可能被认为是高惊奇度的,因为在一个通用的文本语料库中,“星星 (stars)”、“月亮 (moon)”或“指南针 (compass)”等词在那个语境下可能在统计上更常见。研究人员假设,如果一个模型在训练期间真正记住了某个特定的文本段落,那么当这些独特的、高惊奇度的词语从段落中移除时,模型将特别擅长预测它们。

为了验证这一假设,研究团队系统地探测了 OpenAI 的几个旗舰模型,包括强大的 GPT-4 及其前身 GPT-3.5。他们从已知来源(如流行小说和《纽约时报》(The New York Times) 的文章)中提取文本片段。关键的是,他们掩盖或移除了这些片段中识别出的高惊奇度词语。然后提示模型填空——本质上是“猜测”缺失的、统计上不太可能的词语。该研究的核心逻辑很有说服力:如果一个模型持续且准确地预测出这些高惊奇度词语,这强烈表明该模型不仅仅是学习了一般的语言模式,而是实际上保留了其训练数据中该确切文本序列的特定记忆。仅凭随机猜测或一般的语言理解,不太可能在特定语境下对不常见的词语做出如此准确的猜测。

研究发现:AI 输出中受版权保护文本的回声

从这些细致测试中得出的结果,为版权侵权的指控提供了有说服力的初步证据。根据该研究公布的发现,GPT-4,即研究进行时 OpenAI 最先进的公开可用模型,显示出显著迹象,表明其记住了流行小说书籍的逐字部分。 这包括在一个名为 BookMIA 的特定数据集中发现的文本,该数据集包含从受版权保护的电子书中提取的样本——这个数据集经常在关于潜在侵权训练来源的讨论中被提及。该模型不仅仅是回忆起大致的主题或风格;它准确地重建了包含那些独特的、高惊奇度词语的文本序列,表明其记忆程度比简单的模式泛化更深。

此外,调查显示 GPT-4 也表现出记忆 《纽约时报》(New York Times) 文章 片段的证据。然而,研究人员指出,新闻文章的明显记忆率相对低于小说书籍的记忆率。这种差异可能归因于多种因素,例如这些不同文本类型在原始训练数据集中的频率或呈现方式,或者可能是模型处理新闻报道与叙事散文的方式有所不同。无论确切的比率如何,记忆现象发生在不同类型的受版权保护内容——既有文学作品也有新闻报道——这一事实,强化了这种现象并非局限于单一类型或来源的论点。

这些发现在持续的法律和伦理讨论中具有重大分量。如果像 GPT-4 这样的模型确实能够复述它们训练时接触到的特定、受版权保护的段落,这将使 OpenAI 的合理使用辩护变得复杂。合理使用通常倾向于支持那些转换了原始作品的用途;逐字复制,即使是无意的或概率性的,也偏离了转换,而更接近于简单的复制。这些证据可能被版权诉讼的原告用来论证 OpenAI 的训练实践导致了侵权衍生作品的产生,或助长了模型输出的直接侵权行为。它强调了用于训练的数据与 AI 生成的具体输出之间的切实联系,使得“学习模式”这个抽象概念感觉上更接近于具体的复制。

AI 发展中信任与透明度的必要性

华盛顿大学 (University of Washington) 的博士生、该研究的合著者之一 Abhilasha Ravichander 强调了他们研究的更广泛意义。她指出,这些发现为可能构成许多当代 AI 模型基础的潜在“有争议的数据”提供了关键线索。识别被记忆内容的能力,为像 OpenAI 这样的公司使用的不透明训练数据集提供了一个窗口,无论多么小。

Ravichander 表达了 AI 研究界和公众中日益增长的一种情绪:“为了拥有值得信赖的大型语言模型,我们需要能够科学地探测、审计和检查的模型。” 这句话强调了 AI 行业面临的一个关键挑战。随着这些模型越来越深入地融入社会的各个方面——从生成新闻文章、编写代码到辅助医疗诊断和金融分析——对信任和问责制的需求变得至关重要。用户、监管机构和公众需要确信这些系统运行公平、可靠且符合道德。许多当前 LLMs 的“黑箱”性质——即使是它们的创造者也可能无法完全理解其内部运作的每一个细微差别或特定输出的确切来源——阻碍了这种信任的建立。

该研究提出的方法不仅仅是一种检测版权记忆的技术;它还可以作为更广泛的 AI 审计 (AI auditing) 工具。即使是只能通过 APIs 访问的模型,探测它们的能力也允许进行独立的验证和分析。Ravichander 进一步强调了 “整个生态系统中对更高数据透明度的迫切需求”。如果不知道这些模型是用什么数据训练的,就很难评估潜在的偏见、识别安全漏洞、理解有害或不准确输出的来源,或者如此项研究突显的那样,确定潜在版权侵权的程度。对透明度的呼吁不仅仅是学术上的;它是构建一个负责任和可持续的 AI 未来的基本要求。这涉及到在保护专有信息和知识产权(包括模型本身)与确保公共问责制和安全之间进行复杂的权衡。随着 AI 的持续快速发展,开发强大的审计工具和框架,以及更清晰的数据披露标准,正变得越来越关键。

OpenAI 的立场与未知的未来之路

面对来自创作者和立法者日益增长的压力,OpenAI 一直主张建立一个允许广泛使用受版权保护材料进行 AI 模型训练的法律和监管环境。该公司认为,这种灵活性对于创新以及对于 US 在全球 AI 竞赛中保持竞争优势至关重要。他们的游说努力集中在说服世界各国政府以有利于 AI 开发商的方式解释或修订现有的版权法,特别是在美国的“合理使用 (fair use)”概念。他们辩称,在包括受版权保护作品在内的多样化数据集上训练模型是一种转换性使用,对于创建强大且有益的 AI 系统是必要的。

然而,认识到日益增长的担忧,OpenAI 也采取了一些措施来解决这个问题,尽管这些措施常常被批评者认为不够充分。该公司已经与某些出版商和内容创作者签订了 内容许可协议 (content licensing agreements),获得了使用他们材料的明确许可。这些交易虽然意义重大,但仅占可能用于训练像 GPT-4 这样模型的数据的一小部分。此外,OpenAI 还实施了 选择退出机制 (opt-out mechanisms)。这些机制允许版权持有者正式请求其内容不被用于未来的 AI 训练目的。虽然这似乎是朝着尊重创作者权利迈出的一步,但这些选择退出系统的有效性和实用性值得商榷。它们将责任推给了个体创作者,要求他们自己发现其作品可能被使用,然后通过 OpenAI 的特定程序进行选择退出。此外,这些机制通常不解决内容在已经训练好的模型中的使用问题。

当前的局势反映了一种根本性的紧张关系:AI 公司希望利用浩瀚的数字信息宇宙进行创新,而创作者则拥有控制其原创作品并从中受益的权利。证明记忆现象的研究增加了另一层复杂性,表明“学习自”数据和“复制”数据之间的界限比模型开发者先前承认的更为模糊,并且可能更频繁地被跨越。前方的道路仍然不确定。它可能涉及专门针对 AI 训练数据的新立法、解释现有版权法在这一新背景下的里程碑式法院裁决、行业范围内的最佳实践和许可框架的发展,或者技术解决方案,如改进的数据来源追踪或减少模型记忆的技术。似乎清楚的是,关于 AI 和版权的辩论远未结束;事实上,它可能才刚刚开始,对人工智能的未来和创意经济都将产生深远的影响。关于记忆的研究发现严峻地提醒我们,驱动这些强大工具的数字数据具有其来源、所有者和不容忽视的权利。