AI 版權疑雲:OpenAI 模型是否記住了受版權保護的作品?

醞釀中的風暴:AI 時代的版權問題

人工智能的世界,特別是由 OpenAI 等行業巨頭開發的精密大型語言模型 (LLMs),正面临著日益加劇的法律和道德風暴。這場風暴的核心在於一個根本問題:這些強大機器的燃料是什麼數據?在此過程中,創作者的權利是否得到了尊重?指控不斷增加,聲稱大量的受版權保護材料——小說、文章、程式碼等等——可能在未經必要許可或補償的情況下,在模型的訓練階段被其吸收。這不僅僅是一場學術辯論;它正迅速升級為高風險的訴訟。

OpenAI 發現自己越來越多地捲入由作家、程式設計師和各種權利持有者發起的法律戰。這些原告主張,他們的知識產權被不當利用,以建立那些正在製造頭條新聞和改變行業的 AI 模型。他們的論點基於現行版權法並未明確允許將受保護的作品大規模用作商業 AI 系統的訓練素材。OpenAI 的回應則一貫援引「合理使用」(fair use) 原則,這是一項複雜的法律原則,允許在特定情況下未經許可有限度地使用受版權保護的材料。然而,合理使用原則是否適用於 AI 訓練前所未有的規模和性質,仍然是一個激烈爭論的灰色地帶,為具有里程碑意義的法律先例奠定了基礎。核心的緊張關係圍繞著將受版權保護的作品轉化為模型內的統計模式,究竟是構成合理使用的關鍵要素——「轉化性使用」(transformative use)——還是僅僅是未經授權的大規模複製。這些訴訟的結果可能會深刻地塑造 AI 發展的未來軌跡,可能對模型創建者施加重大的限制或成本。

窺探黑盒子:檢測記憶化的新方法

為這場激烈的辯論火上澆油的是,由華盛頓大學 (University of Washington)、哥本哈根大學 (University of Copenhagen) 和史丹佛大學 (Stanford University) 等著名機構的研究人員組成的合作團隊最近進行的一項研究。他們的工作引入了一種創新的技術,專門用於檢測 AI 模型(即使是那些只能透過像 OpenAI 這樣限制性的應用程式介面 (APIs) 訪問的模型)似乎「記住」了其訓練數據特定部分的情況。這是一個關鍵的突破,因為對於外部調查人員來說,訪問像 GPT-4 這樣的商業模型的內部運作或確切的訓練數據集通常是不可能的。

理解這些模型如何運作是掌握該研究重要性的關鍵。在其核心,LLMs 是極其複雜的預測引擎。它們在真正龐大的文本和程式碼數據上進行訓練,學習單詞、短語和概念之間複雜的統計關係。這個學習過程使它們能夠生成連貫的文本、翻譯語言、編寫不同類型的創意內容,並以信息豐富的方式回答問題。雖然目標是讓模型歸納模式而不是簡單地逐字儲存信息,但訓練數據的龐大規模使得某種程度的記憶化幾乎不可避免。可以把它想像成一個學生學習無數教科書;雖然他們的目標是理解概念,但他們可能會無意中記住特定的句子或定義,尤其是那些獨特的句子或定義。先前的觀察已經顯示,圖像生成模型會重現它們訓練所用電影中可識別的元素,而語言模型生成的文本與新聞文章等來源驚人地相似,甚至是直接複製。這種現象引發了對抄襲和 AI 生成內容真實原創性的嚴重關切。

研究人員提出的方法既巧妙又具啟發性。它集中於識別和利用他們稱之為**「高驚奇度」(high-surprisal) 詞語**。這些詞語在句子或段落的特定上下文中,從統計學上看似乎不尋常或出乎意料。考慮這句話:「那位古老的水手藉著六分儀 (sextant) 的微光導航。」「sextant」這個詞可能被認為是高驚奇度的,因為在一般的文本語料庫中,「星星 (stars)」、「月亮 (moon)」或「指南針 (compass)」等詞在該上下文中可能在統計上更常見。研究人員假設,如果一個模型在訓練期間真正記住了一個特定的文本段落,那麼如果將這些獨特的、高驚奇度的詞語從段落中移除,它將非常擅長預測這些詞語。

為了驗證這個假設,研究團隊系統性地探測了 OpenAI 的幾個旗艦模型,包括強大的 GPT-4 及其前身 GPT-3.5。他們從已知來源(如流行小說和《紐約時報》(The New York Times) 的文章)中提取文本片段。關鍵的是,他們遮蔽或移除了這些片段中識別出的高驚奇度詞語。然後提示模型填空——本質上是「猜測」缺失的、統計上不太可能的詞語。該研究的核心邏輯很有說服力:如果一個模型持續且準確地預測出這些高驚奇度的詞語,這強烈表明該模型不僅僅是學習了一般的語言模式,而是實際上保留了其訓練數據中該確切文本序列的特定記憶。僅憑隨機機會或一般的語言理解,不太可能在特定上下文中對不常見的詞語做出如此準確的猜測。

研究發現:AI 輸出中受版權保護文本的回聲

從這些細緻測試中得出的結果,為版權侵權的主張提供了令人信服的初步證據。根據該研究發表的結果,**GPT-4,即研究進行時 OpenAI 最先進的公開可用模型,顯示出明顯跡象,表明其記住了流行小說的逐字部分。**這包括在一個名為 BookMIA 的特定數據集中發現的文本,該數據集包含從受版權保護的電子書中提取的樣本——這個數據集經常在關於潛在侵權訓練來源的討論中被提及。該模型不僅僅是回憶起一般的主題或風格;它準確地重構了包含那些獨特的、高驚奇度詞語的文本序列,表明其記憶程度比簡單的模式歸納更深。

此外,調查顯示 GPT-4 也表現出記憶**《紐約時報》(New York Times) 文章**片段的證據。然而,研究人員指出,新聞文章的明顯記憶率相對低於小說。這種差異可能歸因於多種因素,例如這些不同文本類型在原始訓練數據集中的頻率或呈現方式,或者可能是模型處理新聞散文與敘事散文的方式有所不同。無論確切的比率如何,跨不同類型的受版權保護內容——文學作品和新聞報導——都發生了記憶化的事實,強化了這種現象並非僅限於單一類型或來源的論點。

這些發現在持續的法律和道德討論中具有重大份量。如果像 GPT-4 這樣的模型確實能夠複述它們訓練所用的特定、受版權保護的段落,這將使 OpenAI 的合理使用辯護變得複雜。合理使用通常傾向於那些轉化了原始作品的用途;逐字複製,即使是無意的或概率性的,也偏離了轉化,而傾向於簡單的複製。這些證據可能被版權訴訟的原告用來論證 OpenAI 的訓練實踐導致了侵權衍生作品的創作,或促進了模型輸出的直接侵權。它強調了用於訓練的數據與 AI 生成的具體輸出之間的切實聯繫,使得「學習模式」的抽象概念感覺更接近於具體的複製。

AI 發展中信任與透明度的迫切需求

華盛頓大學 (University of Washington) 的博士生、該研究的共同作者之一 Abhilasha Ravichander 強調了他們研究的更廣泛意義。她指出,這些發現為可能構成許多當代 AI 模型基礎的潛在「有爭議的數據」提供了關鍵線索。識別記憶內容的能力提供了一個窗口,無論多麼小,讓我們得以窺視像 OpenAI 這樣的公司所使用的、原本不透明的訓練數據集。

Ravichander 表達了 AI 研究界和公眾中日益增長的一種情緒:「為了擁有值得信賴的大型語言模型,我們需要能夠科學地探測、審計和檢查的模型。」 這句話強調了 AI 行業面臨的一個關鍵挑戰。隨著這些模型越來越多地融入社會的各個方面——從生成新聞文章和編寫程式碼到協助醫療診斷和金融分析——對信任和問責制的需求變得至關重要。用戶、監管機構和公眾需要保證這些系統的運作是公平、可靠和道德的。許多當前 LLMs 的「黑盒子」性質,即使是它們的創造者也可能無法完全理解其內部運作的每一個細微差別或特定輸出的確切來源,這阻礙了這種信任的建立。

該研究提出的方法不僅僅是一種檢測版權記憶化的技術;它還可作為更廣泛的AI 審計 (AI auditing) 的潛在工具。即使只能透過 APIs 訪問模型,探測模型的能力也允許進行獨立的驗證和分析。Ravichander 進一步強調了**「整個生態系統中對更高數據透明度的迫切需求。」** 如果不知道這些模型是用什麼數據訓練的,就極難評估潛在的偏見、識別安全漏洞、理解有害或不準確輸出的來源,或者,正如這項研究突顯的那樣,確定潛在版權侵權的程度。對透明度的呼籲不僅僅是學術性的;它是建立一個負責任和可持續的 AI 未來的基本要求。這涉及到在保護專有信息和知識產權(包括模型本身)與確保公共問責制和安全之間進行複雜的權衡。隨著 AI 的持續快速發展,開發強大的審計工具和框架,以及更清晰的數據披露標準,正變得越來越關鍵。

OpenAI 的立場與未知的未來之路

面對來自創作者和立法者的日益增大的壓力,OpenAI 一直主張建立一個允許廣泛使用受版權保護材料進行 AI 模型訓練的法律和監管環境。該公司認為,這種靈活性對於創新以及美國在全球 AI 競賽中保持競爭優勢至關重要。他們的遊說努力集中於說服世界各國政府以有利於 AI 開發者的方式解釋或編纂現有的版權法,特別是美國的「合理使用」(fair use) 概念。他們辯稱,在包括受版權保護作品在內的多樣化數據集上訓練模型是一種轉化性使用,對於創建強大且有益的 AI 系統是必要的。

然而,意識到日益增長的擔憂,OpenAI 也採取了一些措施來解決這個問題,儘管這些措施常被批評者認為不夠充分。該公司已與某些出版商和內容創作者簽訂了內容授權協議 (content licensing agreements),獲得了使用其材料的明確許可。這些交易雖然意義重大,但僅佔可能用於訓練像 GPT-4 這樣模型的數據的一小部分。此外,OpenAI 還實施了選擇退出機制 (opt-out mechanisms)。這些機制允許版權持有者正式請求其內容不被用於未來的 AI 訓練目的。雖然這看似是朝着尊重創作者權利邁出的一步,但這些選擇退出系統的有效性和實用性值得商榷。它們將責任推給了個別創作者,要求他們自己發現其作品可能被使用,然後通過 OpenAI 的特定程序選擇退出。此外,這些機制通常不解決內容在已經訓練好的模型中的使用問題。

目前的狀況反映了一種根本性的緊張關係:AI 公司希望利用龐大的數字信息宇宙進行創新,而創作者則有權控制其原創作品並從中受益。證明記憶化的研究增加了另一層複雜性,表明「從數據中學習」和「複製」數據之間的界線比模型開發者先前承認的更為模糊,而且可能更頻繁地被跨越。前方的道路仍然不確定。它可能涉及專門針對 AI 訓練數據的新立法、解釋現有版權法在這一新背景下應用的里程碑式法院裁決、行業範圍內最佳實踐和授權框架的發展,或者技術解決方案,如改進的數據來源追蹤或減少模型記憶化的技術。似乎清楚的是,關於 AI 和版權的辯論遠未結束;事實上,它可能才剛剛開始,對人工智能的未來和創意經濟都將產生深遠的影響。關於記憶化的發現是一個嚴峻的提醒,即驅動這些強大工具的數字數據具有來源、所有者和不容忽視的權利。