OpenAI GPT-4o 再受審查,疑用付費牆訓練數據

人工智能發展的步伐從未停歇,由 OpenAI 等巨頭引領,卻也頻繁地與知識產權和數據所有權等既定原則發生碰撞。這場碰撞再次引發爭議,新的指控浮出水面,稱 OpenAI 最新的旗艦模型 GPT-4o 可能在未經必要許可的情況下,使用了隱藏在付費牆後的受版權保護材料進行訓練。這些指控來自一個新成立的監督組織 AI Disclosures Project,為本已錯綜複雜的、關於為複雜 AI 系統訓練數據來源道德性的辯論,增添了又一層複雜性。

監督者的聲音:來自 AI Disclosures Project 的指控

AI Disclosures Project 於 2024 年成立,自我定位為一個非營利實體,致力於審查 AI 行業內通常不透明的操作。其創始人包括媒體企業家 Tim O’Reilly(著名技術書籍出版商 O’Reilly Media 的創始人)和經濟學家 Ilan Strauss 等知名人士。與 O’Reilly Media 的這層聯繫尤為重要,因為該項目的首份重磅報告就特別關注了 O’Reilly 的付費牆書籍內容據稱存在於 GPT-4o 訓練數據集中的問題。

他們研究的核心論斷極具挑釁性:儘管 OpenAI 與 O’Reilly Media 之間沒有任何已知的授權協議,但 GPT-4o 模型對直接源自 O’Reilly 受版權保護書籍的內容表現出明顯高度的熟悉度。報告認為,這種熟悉度強烈暗示這些付費牆材料已被納入用於構建該模型能力的龐大數據語料庫中。該研究強調了與舊版 OpenAI 模型(特別是 GPT-3.5 Turbo)相比的顯著差異,暗示在 GPT-4o 開發之前,數據獲取實踐可能發生了轉變或擴張。

其影響是巨大的。如果專有的、付費的內容在未經授權或補償的情況下被 AI 模型吸收,這就對生成式 AI 時代的版權法提出了根本性質疑。出版商和作者依賴於基於其內容獨家性的訂閱或購買模式。據稱使用這些材料進行訓練,可被視為破壞了這些商業模式,可能貶低了那些需要大量投入才能創作的內容本身的價值。這項具體指控超越了抓取公開可用網站的範疇,進入了存取明確面向付費客戶內容的領域。

窺探黑盒子:成員推論攻擊

為了證實他們的說法,AI Disclosures Project 的研究人員採用了一種稱為「成員推論攻擊 (membership inference attack)」的複雜技術,具體使用了一種他們稱為 DE-COP 的方法。這種方法的核心思想是測試 AI 模型是否「記住」或至少對特定的文本片段產生了強烈的熟悉感。本質上,這種攻擊是探測模型,看它是否能可靠地區分原始文本段落(在此案例中,來自 O’Reilly 的書籍)和由另一 AI 生成的、對這些相同段落精心構作的釋義版本。

其基本邏輯是,如果一個模型相比隨機猜測,持續展現出更高的能力來識別原始的人類創作文本,而非一個緊密的釋義版本,這就意味著該模型之前遇到過那個原始文本——很可能是在其訓練階段。這類似於測試某人是否認得一張他們聲稱從未見過的、特定的、不太知名的照片;持續的識別表明了先前的接觸。

AI Disclosures Project 測試的規模相當可觀。他們使用了從 34 本不同的 O’Reilly Media 書籍中提取的 13,962 個不同的段落摘錄。這些摘錄代表了通常在該出版商付費牆後才能找到的那種專業化、高價值的內容。該研究隨後測量了 GPT-4o 及其前身 GPT-3.5 Turbo 在這項區分任務上的表現。

報告中呈現的結果令人矚目。GPT-4o 在識別受付費牆保護的 O’Reilly 內容方面,展現出顯著增強的能力。其表現使用 AUROC(接收者操作特徵曲線下面積)分數進行量化,這是評估二元分類器性能的常用指標。GPT-4o 取得了 82% 的 AUROC 分數。相比之下,GPT-3.5 Turbo 的得分僅略高於 50%,這基本上等同於隨機猜測——表明對測試材料幾乎沒有特定的識別能力。報告認為,這種鮮明的差異提供了令人信服的(儘管是間接的)證據,證明付費牆內容確實是 GPT-4o 訓練數據的一部分。82% 的分數表明了一個強烈的信號,遠超偶然或泛化知識所能預期的水平。

必要的警示與未解之謎

儘管研究結果呈現了一個引人入勝的敘述,該研究的共同作者,包括 AI 研究員 Sruly Rosenblat,值得稱讚地承認了他們方法論中固有的潛在局限性以及 AI 訓練的複雜性。他們提出的一個重要警示是間接數據吸收的可能性。他們指出,可以想像的是,ChatGPT(OpenAI 流行的界面)的用戶可能出於各種目的(例如詢問有關文本的問題或請求摘要)將受付費牆保護的 O’Reilly 書籍摘錄直接複製粘貼到聊天界面中。如果這種情況發生得足夠頻繁,模型可能通過用戶互動間接學習了這些內容,而不是通過在初始訓練數據集中的直接包含。在 AI 取證中,區分直接訓練接觸和通過用戶提示的間接學習仍然是一個重大挑戰。

此外,該研究的範圍並未擴展到 OpenAI 可能在 GPT-4o 主要訓練週期同期或之後開發或發布的絕對最新或專門化的模型迭代。可能包括 GPT-4.5(如果它以該特定命名法或能力水平存在)以及專注於推理的模型如 o3-minio1 並未受到相同的成員推論攻擊測試。這就留下了一個懸而未決的問題:數據採購實踐是否可能進一步演變,或者這些較新的模型是否對付費牆內容表現出類似的熟悉模式。AI 開發的快速迭代週期意味著任何快照分析幾乎一經完成就有可能略顯過時。

這些局限性不一定否定該研究的核心發現,但它們增加了關鍵的細微差別層次。要明確證明用於訓練基礎模型的數 TB 數據中到底包含了什麼,是出了名的困難。成員推論攻擊提供的是概率性證據,暗示的是可能性而非絕對的確定性。OpenAI 與其他 AI 實驗室一樣,以專有顧慮和競爭敏感性為由,對其訓練數據的構成嚴格保密。

更廣泛的衝突:AI 領域的版權戰

AI Disclosures Project 提出的指控並非孤立存在。它們代表了 AI 開發者與創作者之間就訓練目的使用受版權保護材料而持續進行的、更廣泛衝突中的最新一場小規模戰鬥。OpenAI 以及 Google、Meta 和 Microsoft 等其他主要參與者,發現自己捲入了多起備受矚目的訴訟。這些由作者、藝術家、新聞機構和其他權利持有者提起的法律挑戰,通常指控因未經授權從互聯網上抓取和吸收大量文本和圖像來訓練生成式 AI 模型而構成的廣泛版權侵權。

AI 公司通常提出的核心辯護理由依賴於合理使用原則(在美國)或其他司法管轄區的類似例外情況。他們辯稱,使用受版權保護的作品進行訓練構成了一種「轉化性」使用——AI 模型並非僅僅複製原作,而是利用數據學習模式、風格和信息以生成全新的輸出。根據這種解釋,旨在創造強大新工具的訓練過程本身,應被允許,無需為吸收的每一份數據都獲取許可。

然而,權利持有者強烈反對這種觀點。他們認為,所涉及的複製規模之大、所構建的 AI 產品的商業性質,以及 AI 輸出可能直接與原作競爭並取而代之的潛力,都嚴重不利於合理使用的認定。爭論點在於,AI 公司正在利用創意作品的成果建立價值數十億美元的企業,卻沒有對創作者進行補償。

在這種充滿訴訟的背景下,OpenAI 已主動尋求通過與各種內容提供商達成授權協議來降低部分風險。已宣布與主要新聞出版商(如 Associated Press 和 Axel Springer)、社交媒體平台(如 Reddit)以及圖庫媒體庫(如 Shutterstock)達成協議。這些交易為 OpenAI 提供了合法獲取特定數據集的途徑,以換取報酬,從而可能減少其對潛在侵權的網絡抓取數據的依賴。據報導,該公司還聘請了記者, tasked them with helping to refine and improve the quality and reliability of its models’ outputs,這表明其意識到需要高質量的、可能經過策劃的輸入。

連鎖反應:內容生態系統的擔憂

AI Disclosures Project 的報告將其擔憂擴展到了對 OpenAI 的直接法律影響之外。它將此問題視為一種可能對整個數字內容生態系統的健康和多樣性產生負面影響的系統性威脅。該研究提出了一個潛在的破壞性反饋循環:如果 AI 公司可以自由使用高質量的、專業創作的內容(包括付費牆材料)而無需補償創作者,那麼首先就會侵蝕生產此類內容的經濟可行性。

專業內容創作——無論是調查性新聞、深入的技術手冊、小說寫作還是學術研究——通常需要大量的時間、專業知識和資金投入。付費牆和訂閱模式通常是資助這項工作的必要機制。如果支持這些努力的收入流因內容被有效地用於訓練競爭性 AI 系統而未獲報酬而減少,那麼創作高質量、多樣化內容的動機就可能下降。這可能導致公眾信息獲取減少,專業知識資源減少,並可能導致互聯網被缺乏人類專業知識和驗證的低質量或 AI 生成內容所主導。

因此,AI Disclosures Project 強烈主張 AI 公司在其訓練數據實踐方面實現更大的透明度和問責制。他們呼籲實施健全的政策和潛在的監管框架,以確保當創作者的作品對商業 AI 模型的發展做出貢獻時,他們能得到公平的補償。這與全球創作者團體更廣泛的呼籲相呼應,他們尋求機制——無論是通過授權協議、版稅制度還是集體談判——來確保他們能從基於其知識產權訓練的 AI 系統所產生的價值中獲得一份份額。爭論的核心在於尋找一個可持續的平衡點,讓 AI 創新能夠在一個蓬勃發展的人類創造力和知識生成生態系統旁共同繁榮。正在進行的法律戰的解決以及新立法或行業標準的可能性,將對塑造這種未來的平衡至關重要。如何在龐大、複雜的 AI 模型中追踪數據來源並歸屬價值,仍然是一個重大的技術和倫理障礙。