以 OpenAI 等巨头为首的人工智能发展浪潮,常常与知识产权和数据所有权等既定原则发生冲突。这种冲突再次引发争议,新的指控浮出水面,称 OpenAI 最新的旗舰模型 GPT-4o 可能在未经必要许可的情况下,使用了隐藏在付费墙后的受版权保护的材料进行训练。这些指控来自一个新成立的监督组织 AI Disclosures Project,为本已错综复杂的关于为复杂 AI 系统训练数据进行道德采购的辩论增添了又一层复杂性。
监督者的呼声:来自 AI Disclosures Project 的指控
AI Disclosures Project 于 2024 年启动,将自身定位为一个非营利实体,致力于审查 AI 行业内通常不透明的操作。其创始人包括媒体企业家 Tim O’Reilly(著名技术书籍出版商 O’Reilly Media 的创始人)和经济学家 Ilan Strauss 等知名人士。与 O’Reilly Media 的这种联系尤为重要,因为该项目的首份重磅报告特别关注了 O’Reilly 的付费墙书籍内容据称出现在 GPT-4o 训练数据集中的问题。
他们研究的核心论断具有挑衅性:尽管 OpenAI 和 O’Reilly Media 之间没有任何已知的许可协议,但 GPT-4o 模型对直接源自 O’Reilly 受版权保护书籍的内容表现出明显的高度熟悉。报告认为,这种熟悉程度强烈表明,这些付费墙材料被纳入了用于构建该模型能力的庞大数据语料库中。该研究强调了与 OpenAI 旧模型(特别是 GPT-3.5 Turbo)相比的显著差异,暗示在 GPT-4o 开发之前,数据获取实践可能发生了转变或扩展。
其影响是巨大的。如果专有的、付费的内容在未经授权或补偿的情况下被 AI 模型吸收,这就对生成式 AI 时代的版权法提出了根本性问题。出版商和作者依赖于订阅或购买模式,这些模式基于其内容的排他性。据称使用这些材料进行训练可能被视为破坏了这些商业模式,可能贬低了那些需要大量投资才能创作的内容本身的价值。这一具体指控超越了抓取公开可用网站的范畴,进入了访问明确面向付费客户的内容的领域。
窥探黑箱:成员推断攻击 (Membership Inference Attack)
为了证实他们的说法,AI Disclosures Project 的研究人员采用了一种复杂的技术,称为“成员推断攻击 (membership inference attack)”,具体使用了一种他们称之为 DE-COP 的方法。这种方法的核心思想是测试 AI 模型是否“记住”了或者至少对特定的文本片段产生了强烈的熟悉感。本质上,这种攻击探测模型,看它是否能可靠地区分原始文本段落(在此案例中,来自 O’Reilly 的书籍)和由另一个 AI 生成的、对这些相同段落进行的精心转述的版本。
其基本逻辑是,如果一个模型相比于随机猜测,持续表现出更高的能力来识别原始的人类创作文本,而不是一个非常接近的转述版本,那么就意味着该模型之前遇到过那个原始文本——很可能是在其训练阶段。这类似于测试某人是否认出了一张他们声称从未见过的、特定的、不太知名的照片;持续的识别表明之前的接触。
AI Disclosures Project 测试的规模相当可观。他们使用了从 34 本不同的 O’Reilly Media 书籍中提取的 13,962 个不同的段落摘录。这些摘录代表了通常在该出版商付费墙后才能找到的那种专业化、高价值的内容。该研究随后测量了 GPT-4o 及其前身 GPT-3.5 Turbo 在这项区分任务上的表现。
报告中呈现的结果引人注目。GPT-4o 在识别受付费墙保护的 O’Reilly 内容方面表现出显著增强的能力。其性能使用 AUROC(受试者工作特征曲线下面积)分数进行量化,这是评估二元分类器性能的常用指标。GPT-4o 取得了 82% 的 AUROC 分数。相比之下,GPT-3.5 Turbo 的得分仅略高于 50%,这基本上等同于随机猜测——表明对测试材料几乎没有特定的识别能力。报告认为,这种鲜明的差异提供了令人信服的(尽管是间接的)证据,证明付费墙内容确实是 GPT-4o 训练数据的一部分。82% 的分数表明了一个强烈的信号,远超偶然或泛化知识所能预期的水平。
必要的警示和未解的问题
尽管研究结果呈现了一个引人入胜的叙述,但该研究的合著者,包括 AI 研究员 Sruly Rosenblat,值得称赞地承认了他们方法论中固有的潜在局限性以及 AI 训练的复杂性。他们提出的一个重要警示是间接数据摄入的可能性。他们指出,可以想象,ChatGPT(OpenAI 流行的界面)的用户可能出于各种目的(例如询问有关文本的问题或请求摘要)将付费墙 O’Reilly 书籍的摘录直接复制粘贴到聊天界面中。如果这种情况发生得足够频繁,模型可能通过用户交互间接学习了这些内容,而不是通过在初始训练数据集中直接包含。在 AI 取证中,区分直接训练接触和通过用户提示进行的间接学习仍然是一个重大挑战。
此外,该研究的范围并未扩展到 OpenAI 可能在 GPT-4o 主要训练周期期间或之后开发或发布的绝对最新或专门的模型迭代。可能包括 GPT-4.5(如果它以该特定命名法或能力水平存在)以及像 o3-mini 和 o1 这样专注于推理的模型,并未受到相同的成员推断攻击测试。这就留下了一个悬而未决的问题:数据采购实践是否可能进一步演变,或者这些较新的模型是否对付费墙内容表现出类似的熟悉模式。AI 开发的快速迭代周期意味着任何快照分析几乎一经完成就可能面临略微过时的风险。
这些局限性并不一定否定该研究的核心发现,但它们增加了关键的细微差别层次。要明确证明用于训练基础模型的 TB 级数据中到底包含了什么,是出了名的困难。成员推断攻击提供的是概率性证据,表明的是可能性而非绝对确定性。OpenAI 和其他 AI 实验室一样,以专有考虑和竞争敏感性为由,对其训练数据的构成严加保密。
更广泛的冲突:AI 领域的版权之争
AI Disclosures Project 提出的指控并非孤立存在。它们代表了 AI 开发者与创作者之间就使用受版权保护材料进行训练而展开的更广泛、持续冲突中的最新小规模战斗。OpenAI 以及 Google、Meta 和 Microsoft 等其他主要参与者,发现自己卷入了多起备受瞩目的诉讼。这些由作者、艺术家、新闻机构和其他权利人提起的法律挑战,通常指控因未经授权从互联网上抓取和吸收大量文本和图像来训练生成式 AI 模型而构成的广泛版权侵权。
AI 公司通常提出的核心辩护理由依赖于合理使用 (fair use) 原则(在美国)或其他司法管辖区的类似例外规定。他们辩称,使用受版权保护的作品进行训练构成了一种“转换性 (transformative)”使用——AI 模型不仅仅是复制原作,而是利用数据学习模式、风格和信息以生成全新的输出。根据这种解释,旨在创造强大新工具的训练过程本身,应该被允许,而无需为摄入的每一条数据获取许可。
然而,权利人强烈反对这种观点。他们认为,所涉及的复制规模之大、所构建的 AI 产品的商业性质,以及 AI 输出可能直接与原作竞争并取而代之的可能性,都严重不利于合理使用的认定。争论的焦点在于,AI 公司正在利用创意作品建立价值数十亿美元的企业,却没有对创作者进行补偿。
在这一充满诉讼的背景下,OpenAI 已主动寻求通过与各种内容提供商达成许可协议 (licensing deals) 来减轻部分风险。已宣布与主要新闻出版商(如 Associated Press 和 Axel Springer)、社交媒体平台(如 Reddit)以及图片库(如 Shutterstock)达成了协议。这些交易为 OpenAI 提供了合法访问特定数据集的途径,以换取报酬,从而可能减少其对可能侵权的网页抓取数据的依赖。据报道,该公司还聘请了记者,任务是帮助改进和提高其模型输出的质量和可靠性,这表明其意识到了需要高质量、可能经过策划的输入。
涟漪效应:内容生态系统的担忧
AI Disclosures Project 的报告将其担忧扩展到了对 OpenAI 的直接法律影响之外。它将这个问题定性为一个系统性威胁,可能对整个数字内容生态系统的健康和多样性产生负面影响。该研究提出了一个潜在的破坏性反馈循环:如果 AI 公司可以自由使用高质量、专业创作的内容(包括付费墙材料)而无需补偿创作者,那么首先就会侵蚀制作此类内容的经济可行性。
专业内容的创作——无论是调查性新闻、深入的技术手册、小说写作还是学术研究——通常需要大量的时间、专业知识和资金投入。付费墙和订阅模式通常是资助这项工作的必要机制。如果支持这些努力的收入流因为内容被有效地用于训练竞争性的 AI 系统而没有得到报酬而减少,那么创作高质量、多样化内容的动力就可能下降。这可能导致公众信息获取减少,专业知识资源减少,并可能导致互联网被缺乏人类专业知识和验证的低质量或 AI 生成内容所主导。
因此,AI Disclosures Project 强烈主张 AI 公司在其训练数据实践方面实现更大的透明度和问责制。他们呼吁实施强有力的政策和潜在的监管框架,以确保当创作者的作品对商业 AI 模型的开发做出贡献时,他们能得到公平的补偿。这与全球创作者团体的更广泛呼吁相呼应,他们寻求各种机制——无论是通过许可协议、版税系统还是集体谈判——来确保他们能从基于其知识产权训练的 AI 系统所产生的价值中获得一部分份额。争论的核心在于找到一个可持续的平衡点,让 AI 创新能够与一个繁荣的人类创造力和知识生成生态系统并存。正在进行的法律斗争的解决以及新立法或行业标准的可能性,对于塑造未来的平衡至关重要。如何在大规模、复杂的 AI 模型中追踪数据来源并归属价值,仍然是一个重大的技术和伦理障碍。