數據(使用與存取)法案:著作權法的關鍵時刻

數位時代為創新帶來了前所未有的機會,尤其是在人工智慧 (AI) 領域。然而,這種進步也引發了關於數據使用的道德和法律界限的關鍵問題,特別是關於受著作權保護的材料。關於使用盜版書籍訓練 AI 模型的爭論已經達到白熱化的程度,要求重新評估現有的著作權法,並對侵犯智慧財產權採取更堅定的立場。

核心問題:未經授權使用受著作權保護的材料

問題的核心在於未經授權使用受著作權保護的書籍來訓練 AI 模型。據稱,Meta 等科技巨頭採用了這種做法,引發了作者和出版商的憤怒,他們認為自己的權利正在被侵犯以獲取商業利益。前 Waitrose 董事總經理 Mark Price 一直是這種做法的直言不諱的批評者,他直接向 Meta CEO Mark Zuckerberg 提出質疑,並質疑該公司在未經許可的情況下利用英國作家作品的理由。

Price 的法律團隊正在探索多種途徑,以便在英國對 Meta 提起訴訟。一種方法是確定來自盜版資料庫 LibGen 的書籍是否已在英國境內「攝取和處理」。如果得到證實,這可能會根據英國著作權法對 Meta 建立明確的案例。

檢查輸出:證明侵權的關鍵

另一種可能更有趣的方法側重於分析 Meta 的 AI 模型 Llama 生成的內容。Price 認為,如果 Llama 產生的內容與用於訓練它的書籍中的段落非常相似,這可以作為著作權侵權的有力證據。這種調查思路與 Getty Images 正在進行的針對 Stability AI 的案件相似,該案件的中心是 Stability AI 的 Stable Diffusion 模型涉嫌複製受著作權保護的圖像。

Getty Images 案件預定於 2025 年 6 月進行審判,這可能會為未來涉及 AI 生成內容的著作權糾紛樹立重要的先例。Getty Images 案件的原告聲稱,Stable Diffusion 複製了其訓練期間使用的受著作權保護圖像的實質部分。如果 Getty Images 勝訴,可能會鼓勵作者和出版商對 Meta 等公司採取類似的法律行動。

Meta 為其做法辯護,聲稱其 AI 模型不會複製受著作權保護的作品,而僅僅是將它們用於訓練目的。該公司還聲稱,作者不會因此遭受經濟損失。然而,如果 Getty Images 能夠證明 AI 模型實際上可以複製受著作權保護的內容,這將削弱 Meta 的辯護,並使該公司面臨重大的法律責任。

授權協議:潛在的解決方案?

出版商和 AI 公司之間的授權協議進一步突顯了 AI 時代著作權的複雜性。例如,據報導,HarperCollins 已與 Microsoft 達成一項授權協議,其中包括對作為協議一部分可以訪問的書籍數量的限制。此類協議在為著作權所有者提供潛在補償途徑的同時,也引發了關於 AI 訓練中合理使用的範圍和限制的問題。

Meta 與權利持有人之間缺乏類似的協議,這使得該公司容易受到法律挑戰。一位前 Meta 律師甚至承認,AI 系統可能侵犯著作權的意外後果可能會對該公司在法庭上構成重大威脅。

《數據(使用與存取)法案》:立法機會

英國的《數據(使用與存取)法案》提供了一個重要的機會來加強著作權法並應對 AI 帶來的挑戰。該法案的修正案將在下議院進行辯論,旨在確保著作權法規的合規性、透明度和執行。如果獲得批准,這些修正案可能會遏制英國政府授予科技公司關於使用已出版材料進行 AI 訓練的豁免的企圖。許多人認為政府從一開始就應該採取這種立場。

Publishers’ Licensing Services 的 CEO Tom West 認為,《數據(使用與存取)法案》可以「加速」內容的授權。他強調,對問責制的呼籲並非反科技或反創新。相反,它反映了一種認識,即隨著生成式 AI 在我們的生活中扮演越來越重要的角色,資訊的準確性和品質至關重要。

轉折點:監管 AI 的影響

目前的情況代表著一個轉折點。隨著 AI 的力量和影響力不斷增長,必須建立明確的界限和法規,以防止傷害、混亂或可能導致後悔的行為。這個原則借鑒自 ChatGPT,強調需要負責任地開發和部署 AI 技術。

深入探討法律和倫理困境

關於在 AI 訓練中使用受著作權保護的材料的爭論不僅僅是一個法律問題;它也觸及了基本的倫理考量。是否應該允許 AI 公司從未經授權使用創意作品中獲利的問題,是一個關於公平和尊重智慧財產權的問題。

合理使用原則:一個複雜的法律論證

這場辯論中的核心法律論點之一圍繞著合理使用原則。合理使用是一項法律原則,允許在未經著作權所有者許可的情況下有限地使用受著作權保護的材料。該原則旨在通過允許對受著作權保護的作品進行某些轉型使用來促進表達自由和鼓勵創造力。

然而,在 AI 訓練的背景下應用合理使用原則是複雜且有爭議的。AI 公司經常辯稱,他們對受著作權保護的材料的使用屬於合理使用,因為他們正在使用這些材料來創建新的和具有變革性的技術。他們辯稱,AI 模型不僅僅是複製受著作權保護的作品,而是從中學習以生成全新的輸出。

另一方面,著作權所有者認為,使用他們的作品來訓練 AI 模型是一種商業用途,會剝奪他們潛在的收入。他們認為,應該要求 AI 公司為他們用於訓練的受著作權保護的材料獲得許可,就像他們對任何其他商業用途一樣。

對作者和出版商的經濟影響

未經授權的 AI 訓練對作者和出版商的經濟影響是一個重大的擔憂。如果允許 AI 公司在沒有補償的情況下自由使用受著作權保護的作品,這可能會削弱作者和出版商創作新內容的動力。這可能會導致創意作品的品質和可用性下降,最終損害整個社會。

此外,未經授權使用受著作權保護的材料可能會在市場上造成不公平的競爭環境。未經許可使用受著作權保護作品的 AI 公司將比那些獲得許可或創建自己的訓練數據的公司具有競爭優勢。這可能會扼殺創新,並導致權力集中在少數幾個主要的 AI 公司手中。

對透明度和問責制的需求

透明度和問責制對於確保 AI 公司負責任地使用受著作權保護的材料至關重要。應該要求 AI 公司披露他們用於訓練其模型的數據來源。這將允許著作權所有者監控其作品的使用情況,並確保他們得到適當的補償。

此外,AI 公司應該對因其 AI 模型而發生的任何著作權侵權行為負責。這可能包括對直接侵權行為的責任,以及如果 AI 模型用於創建侵權作品的幫助侵權行為的責任。

探索替代解決方案

除了加強著作權法和促進透明度外,重要的是探索有助於平衡 AI 公司和著作權所有者利益的替代解決方案。

集體授權

集體授權是一種潛在的解決方案。在集體授權計劃下,集體管理組織 (CMO) 將代表著作權所有者與 AI 公司協商許可。然後,CMO 將向著作權所有者分配從許可中收取的版稅。

集體授權可以為 AI 公司提供一種更有效和簡化的方式來獲得他們需要的受著作權保護的材料的許可。它還可以確保著作權所有者因其作品的使用而獲得公平的補償。

開源數據

另一種潛在的解決方案是促進用於 AI 訓練的開源數據集的開發。開源數據集是可以免費提供給任何人使用、修改和分發的數據集。

開源數據集的開發可以減少 AI 公司對受著作權保護的材料的依賴。它還可以促進 AI 行業的創新和競爭。

技術解決方案

技術解決方案也可以在解決 AI 帶來的著作權挑戰方面發揮作用。例如,浮水印技術可用於追蹤受著作權保護的材料在 AI 訓練中的使用情況。這將允許著作權所有者監控其作品的使用情況並識別未經授權使用的情況。

此外,AI 技術可用於檢測和預防侵權作品的創建。例如,基於 AI 的工具可用於識別與受著作權保護的作品基本相似的內容。

前進的道路

關於在 AI 訓練中使用受著作權保護的材料的爭論是複雜且多方面的。沒有簡單的答案。然而,通過加強著作權法、促進透明度和問責制、探索替代解決方案以及促進 AI 公司和著作權所有者之間的公開對話,我們可以創建一個平衡所有利益相關者利益並在保護智慧財產權的同時促進創新的框架。《數據(使用與存取)法案》代表著朝著這個方向邁出的關鍵一步,它提供了一種立法途徑來解決這些緊迫的問題並塑造數位時代著作權法的未來。現在做出的決定將對創意產業和 AI 的發展產生長遠的影響。