GPAI 實務守則第三版草案:版權合規要求變更

背景

歐盟 AI 法案 (Regulation (EU) 2024/1689,或稱 ‘AI 法案’) 對通用人工智慧 (‘GPAI’) 模型的供應商施加了特定義務。這些模型,包括來自 GPT 家族、Llama 和 Gemini 的模型,必須遵守諸如全面文件記錄和建立確保符合歐盟版權法的政策等要求。

為了促進對這些規定的遵守,AI 法案預計將制定為 GPAI 模型量身定制的實務守則。在 AI 辦公室的邀請下, বিভিন্ন專家和利益相關者組成了四個工作組,致力於起草初步的實務守則。歐盟委員會批准該守則將賦予其在整個歐盟的“普遍有效性”。採用經批准的 GPAI 實務守則為公司提供了一種展示主動合規性的方法,有可能減輕監管審查和相關處罰。

AI 辦公室最近發布了這些工作組制定的第三版實務守則草案 (‘第三版草案’)。該草案涵蓋了幾個關鍵領域:

  • 承諾
  • 透明度
  • 版權
  • 安全保障

該實務守則的最終版本定於 2025 年 5 月 2 日發布。

本文檔將深入探討第三版草案中版權部分的重要細節。與第二版草案 (‘第二版草案’) 的一個顯著區別是,第三版草案採用了精簡和簡潔的方法。一個關鍵的變化是,第三版草案通常要求合規工作應與供應商的規模和能力相稱,這與第二版草案不同。

這與誰相關?

實務守則主要針對 GPAI 模型的供應商。這些模型的特點是具有顯著的通用性,並且能夠熟練地執行廣泛的不同任務。這包括知名大型語言模型的供應商,如 GPT (OpenAI)、Llama (Meta)、Gemini (Google) 和 Mistral (Mistral AI)。然而,較小的模型供應商也可能屬於其範圍,前提是它們的模型可用於各種不同的任務。此外,為其特定應用微調模型的企業也可能被歸類為 GPAI 模型供應商。

“下游供應商”,或將 GPAI 模型集成到其 AI 系統中的企業,也應該熟悉該實務守則。該守則有望成為 GPAI 模型的準標準,定義 AI 系統開發人員對 GPAI 模型能力的期望。這種理解在與 GPAI 模型供應商進行合同談判時至關重要。

實務守則中關於版權法的關鍵概念

GPAI 模型的供應商有義務建立一項確保符合歐盟版權法的政策 (AI 法案第 53 (1) (c) 條)。鑑於這項要求的 新穎性,一直缺乏關於此類政策的結構和內容的實用指南。實務守則旨在解決這一差距。

實務守則要求供應商實施以下措施:

版權政策

簽署實務守則的供應商 (‘簽署方’) 需要制定、維護和實施符合歐盟版權法的版權政策。這項要求直接來自 AI 法案。簽署方還必須確保其組織遵守此版權政策。

與第二版草案的一個重大區別是,第三版草案不再強制要求發布版權政策。僅鼓勵簽署方這樣做。這項降低的要求是合乎邏輯的,因為 AI 法案本身並未強迫模型供應商發布其版權政策。

版權內容的網絡爬取

簽署方通常被允許使用網絡爬蟲進行文本和數據挖掘 (‘TDM’),以便為其 GPAI 模型收集訓練數據。但是,他們必須確保這些爬蟲尊重旨在限制訪問受版權保護材料的技術,例如付費牆。

此外,簽署方有義務排除“盜版域名”,即主要從事傳播侵犯版權材料的在線來源。

網絡爬取、識別和遵守 TDM 選擇退出

簽署方必須確保網絡爬蟲識別並尊重權利人聲明的 TDM 選擇退出。雖然歐盟版權法通常允許 TDM,但權利人保留選擇退出的權利。對於網絡內容,此選擇退出必須是機器可讀的。第三版草案詳細說明了對網絡爬蟲的要求,規定它們必須識別並遵守廣泛採用的 robots.txt 協議。此外,網絡爬蟲必須遵守其他相關的機器可讀 TDM 選擇退出,例如已建立為行業標準的元數據或權利人常用的解決方案。

簽署方需要採取合理措施,告知權利人正在使用的網絡爬蟲以及這些爬蟲如何處理 robots.txt 指令。這些信息可以通過各種渠道傳播,例如網絡提要。值得注意的是,第三版草案不再包含發布此信息的義務。

識別和遵守非網絡爬取內容的 TDM 選擇退出

GPAI 模型供應商也可以從第三方獲取數據集,而不是自己進行網絡爬取。雖然第二版草案要求對第三方數據集進行版權盡職調查,但第三版草案要求做出合理努力以獲取有關用於收集信息的網絡爬蟲是否遵守 robots.txt 協議的信息。

降低產生侵犯版權輸出的風險

與 AI 使用相關的一個重大風險是 AI 可能生成侵犯版權的輸出。這可能涉及複製在線找到的受版權保護的代碼或圖像。

簽署方需要做出合理努力來降低這種風險。這代表了一種比第二版草案更寬鬆的方法,第二版草案規定了避免“過度擬合”的措施。第三版草案採用了更具技術中立性的立場,強調做出合理努力。

此外,簽署方必須在其條款和條件(或類似文件)中為下游 AI 系統的供應商加入一項條款,禁止以侵犯版權的方式使用其 GPAI 模型。

指定聯絡點

簽署方需要為權利人提供一個聯絡點。他們還必須建立一種機制,允許權利人提交有關版權侵權的投訴。

根據第三版草案,簽署方可以選擇拒絕處理被認為沒有根據或過多的投訴。

深入探討:更詳細地審視版權條款

第三版草案雖然看似精簡,但引入了細微差別和重點轉移,值得仔細研究。讓我們進一步剖析每個部分:

版權政策:從強制發布到鼓勵發布

第二版草案中最初強制發布版權政策的要求,引發了對潛在競爭劣勢和敏感信息洩露的擔憂。第三版草案轉向鼓勵發布,而不是要求發布,承認了這些擔憂。此更改允許供應商對其內部合規策略保持一定程度的機密性,同時仍然促進透明度。然而,“鼓勵”方面仍然對供應商施加了微妙的壓力,要求他們公開其政策,這可能導致隨著時間的推移,事實上的發布標準。

網絡爬取:在數據獲取與尊重版權之間取得平衡

明確允許網絡爬取,加上要求尊重訪問限制(如付費牆),反映了一種微妙的平衡。AI 法案承認數據對於訓練 AI 模型的重要性,但它也強調需要尊重內容創作者的權利。排除“盜版域名”是一項重要的補充,明確針對積極從事版權侵權的來源。該條款強化了 AI 開發不應建立在非法活動基礎上的原則。

TDM 選擇退出:合規的技術細節

第三版草案強調 robots.txt 協議和其他機器可讀的選擇退出機制,突出了合規的技術方面。這種具體性為 GPAI 供應商和權利人提供了清晰度。對於供應商,它概述了他們必須採取的具體步驟,以確保其爬蟲尊重選擇退出請求。對於權利人,它闡明了他們如何有效地表明他們對 TDM 的偏好。包含“行業標準”元數據和“廣泛採用”的解決方案,承認選擇退出機制的格局正在不斷發展,並且需要靈活性。

非網絡爬取內容:轉移責任和盡職調查

從“版權盡職調查”到“合理努力獲取信息”關於第三方數據集的變化,代表了責任的微妙但重要的轉移。雖然第二版草案對 GPAI 供應商施加了更重的負擔,要求他們積極調查數據集的版權狀態,但第三版草案側重於驗證數據收集過程(由第三方)是否遵守 robots.txt。這隱含地承認 GPAI 供應商可能並不總是能夠直接控制第三方的數據獲取行為,但他們仍然有責任詢問合規性。

減輕侵權輸出:從“過度擬合”到“合理努力”

放棄使用“過度擬合”一詞是一個可喜的變化。“過度擬合”是機器學習中的一個技術術語,指的是模型在訓練數據上表現良好,但在新數據上表現不佳。雖然過度擬合可能導致版權侵權(例如,通過記憶和複製受版權保護的材料),但它並不是唯一的原因。第三版草案更廣泛地關注“合理努力降低風險”,涵蓋了更廣泛的潛在侵權情況,並允許在實施中具有更大的靈活性。此更改還承認,完全防止版權侵權可能無法實現,基於風險的方法更為實際。

聯絡點和投訴機制:簡化流程

要求指定聯絡點和投訴機制,為權利人提供了一個明確的途徑來解決潛在的版權侵權問題。簽署方能夠拒絕“沒有根據或過多”的投訴是一項實際的補充,防止系統被無關緊要的索賠淹沒。該條款有助於確保投訴機制仍然是解決合法版權問題的可行且有效的工具。

更廣泛的影響和未來考慮

GPAI 實務守則第三版草案代表了朝著實施 AI 法案版權條款邁出的重要一步。它為 GPAI 供應商提供了急需的清晰度和指導,同時也尋求保護內容創作者的權利。然而,仍然存在一些更廣泛的影響和未來考慮:

  • “合理努力”標準: 重複使用“合理努力”一詞引入了一定程度的主觀性。什麼構成“合理”可能會受到解釋,並且可能會隨著時間的推移通過法律挑戰和行業最佳實踐而發展。這種模糊性可能會給供應商帶來不確定性,但它也允許靈活性和適應不同的情況。

  • 下游供應商的角色: 雖然該守則主要針對 GPAI 供應商,但下游供應商對理解其條款具有既得利益。該守則設定了對 GPAI 模型質量和合規性的期望,這可以為合同談判和風險評估提供信息。下游供應商也可能面臨間接壓力,以確保他們對 GPAI 模型的使用符合該守則的原則。

  • 技術的演進: AI 發展的快速步伐意味著實務守則需要成為一份活的文件。數據獲取、模型訓練和輸出生成的新技術可能會出現,需要更新該守則的條款。提及“行業標準”元數據和“廣泛採用”的解決方案承認了這種持續適應的需要。

  • 國際協調: 歐盟 AI 法案是一項開創性的立法,但它並不是在真空中運作的。其他司法管轄區也在努力應對監管 AI 的挑戰。AI 法規(包括版權條款)的國際協調對於避免碎片化和確保 AI 開發人員的公平競爭環境至關重要。

  • 對創新的影響: 實務守則旨在促進 AI 創新和保護版權之間取得平衡。然而,這些法規對 AI 發展的速度和方向的影響仍有待觀察。一些人認為,過於嚴格的法規可能會扼殺創新,而另一些人則認為,明確的規則對於促進負責任的 AI 發展是必要的。

  • 執行和監控: 如何檢查合規性?守則的有效性將在很大程度上取決於為執行和監控而建立的機制。

GPAI 實務守則第三版草案是一份複雜且不斷發展的文件,具有深遠的影響。它代表了為應對 AI 時代版權合規挑戰所做的重大努力,但它也是一項正在進行中的工作。利益相關者之間的持續對話,包括 GPAI 供應商、權利人、政策制定者和更廣泛的 AI 社區,對於確保該守則實現其預期目標並在快速的技術變革面前保持相關性至關重要。