人工智慧(AI)開發領域再次陷入法律紛爭。一群知名新聞和媒體機構對生成式 AI 新創公司 Cohere 提起版權和商標侵權訴訟。該訴訟於 2025 年 2 月在紐約南區聯邦地方法院提起,共有十多家原告,包括《富比士》(Forbes)、《衛報》(The Guardian)和《洛杉磯時報》(Los Angeles Times)等備受尊敬的出版物。爭議核心在於 Cohere 使用的檢索增強生成(Retrieval-Augmented Generation,RAG)技術,原告聲稱該技術未經授權使用其受版權保護的材料來構建資料庫並生成輸出。
RAG 技術面臨審查
檢索增強生成(RAG)技術的出現,為解決大型語言模型(LLM)的一些固有挑戰提供了一種潛在的解決方案。 RAG 由 Patrick Lewis 及其同事於 2020 年提出,旨在緩解諸如幻覺(產生不真實或無意義的信息)、知識過時以及模型推理缺乏透明度等問題。有趣的是,Patrick Lewis 本人目前是 Cohere 的研究員,繼續從事 RAG 技術的研究工作。 RAG 的應用已十分廣泛,微軟(Microsoft)、谷歌(Google)、亞馬遜(Amazon)和輝達(NVIDIA)等主要公司都已將其整合到其 AI 系統中。
新聞出版商提起的訴訟主要針對 Cohere 的幾項版權侵權指控。這些主張突顯了在生成式 AI 模型的訓練和運營中使用受版權保護的材料所涉及的複雜法律問題。
針對 Cohere 的版權侵權主張
原告對 Cohere 的指控可分為四個主要類別:
1. AI 模型訓練
原告論點的核心在於 Cohere 如何訓練其名為「Command Family」的大型語言模型。他們聲稱 Cohere 從網際網路「抓取」(scraping)了大量文本,包括來自原告出版物的受版權保護的內容。然後,這些抓取的數據被用於創建訓練 Command Family 模型所需的數據集。此外,原告聲稱 Cohere 未經授權使用了 Common Crawl 的 C4 等第三方數據集,其中包含大量受版權保護的材料。
在 AI 模型訓練中使用受版權保護的材料已成為一個具爭議的問題。 AI 開發人員經常辯稱,這種使用屬於「合理使用」(fair use)原則,該原則允許在有限範圍內使用受版權保護的材料,用於評論、批評、新聞報導、教學、學術研究或研究等目的。然而,版權所有者認為,大規模抓取和使用其內容用於商業目的,例如訓練 AI 模型,已超出合理使用的範圍。這場法律戰的關鍵將在於法院是否同意原告的評估。
2. 實時使用 / RAG
訴訟的另一個關鍵方面集中在 Cohere 的服務,特別是其 Chat 介面,如何在實時中使用 RAG 技術。原告聲稱,Cohere 的模型從外部來源(包括其網站)抓取內容,以生成對使用者查詢的回應。原告認為,這種實時抓取構成版權侵權,尤其是在 Cohere 的模型繞過付費牆或忽略「robots.txt」指令時,這些指令是指示網路爬蟲(包括 AI 模型使用的爬蟲)不要從網站抓取特定內容的命令。
繞過付費牆和 robots.txt 指令引發了嚴重的道德和法律問題。付費牆旨在保護受版權保護的內容,並確保出版商獲得其作品的報酬。 Robots.txt 指令是網站所有者控制其內容如何被網路爬蟲訪問和使用的標準機制。 Cohere 被指控無視這些保障措施,表明其無視版權法和內容創作者的權利。
3. 侵權輸出
原告聲稱,Cohere 的服務提供的侵權輸出以複製、大量摘錄或替代摘要的形式呈現,這些內容來自其受版權保護的作品,以回應使用者查詢。他們引用了 Cohere Chat 輸出的示例,其中「Under the Hood」面板顯示了直接從原告網站複製的完整或部分文章。
原告認為,這些輸出(無論是逐字複製還是摘要)直接取代了使用者訪問原始文章的需求。反過來,損害了原告賴以維持業務的數位訂閱和廣告收入。這個論點的核心是,Cohere 的 AI 模型本質上充當了受版權保護內容的未經授權的分發者,剝奪了原出版商應得的報酬。
4. 未經授權的改編
除了在「Under the Hood」面板中顯示原告作品的部分內容外,Cohere 的服務還提供這些作品的摘要或梗概。原告認為,這些摘要的詳細程度非常高,以至於它們基本上取代了原始作品,超出了合理使用的範圍。
版權法不僅保護受版權保護作品的逐字複製,還保護衍生作品的創作,這些衍生作品是對原始作品的改編或轉變。原告認為,Cohere 的摘要非常全面,構成了未經授權的衍生作品,侵犯了他們創建和分發其受版權保護材料改編版本的專有權。
使用者行為的轉承責任
除了直接版權侵權的主張外,原告還認為 Cohere 對其使用者的侵權行為承擔轉承責任。他們認為,Cohere 的服務促進了使用者對原告作品的複製、展示和分發,Cohere 不能僅僅將侵權歸因於使用者行為來逃避責任。此項主張的依據是,Cohere 的產品只有在使用者輸入提示後才會產生答案,這使得該公司成為侵權活動的參與者。
這種轉承責任的論點意義重大,因為它旨在追究 AI 開發人員對其使用者行為的責任,即使這些使用者是直接參與版權侵權的人。如果這項論點成功,可能會對 AI 技術的開發和部署產生深遠的影響,因為它將要求開發人員實施保障措施,以防止其使用者侵犯版權。
商標侵權主張
訴訟不僅涉及版權侵權,還包括商標侵權的主張。原告聲稱,Cohere 標註來源的做法構成商標侵權,因為它未經許可使用原告的知名商標或將其與 AI 生成的錯誤內容聯繫起來。他們認為,這導致原告的品牌聲譽受損,並削弱了其獨特性。
商標是用於表示公司或產品的、經過合法註冊的符號、設計或短語。未經授權使用商標可能會導致消費者產生混淆並損害品牌的聲譽。原告認為,Cohere 將其商標與 AI 生成的內容一起使用,可能會誤導使用者認為原告認可或隸屬於 Cohere 的服務,而事實並非如此。
更廣泛的背景:RAG 與 AI 版權法的未來
針對 Cohere 的這起訴訟並非孤立事件。在此之前,美國於 2024 年 10 月也發生了一起版權訴訟,同樣關注 AI 服務中的 RAG 應用。 隨著 RAG 架構在 AI 服務中越來越普及,這些案件數量的增加突顯了 AI 開發人員和版權所有者之間日益緊張的關係。
圍繞 RAG 技術的法律戰很可能成為 AI 版權法未來的一個重大問題。 RAG 提出了獨特的挑戰,因為它涉及實時檢索和使用受版權保護的材料來生成輸出。這引發了關於合理使用的範圍、AI 開發人員對使用者行為的責任,以及人工智慧時代智慧財產權保護的複雜問題。
這些訴訟的結果可能會對 AI 技術的開發和部署產生深遠的影響。 如果法院判決支持版權所有者,AI 開發人員可能被迫實施更嚴格的保障措施,以防止版權侵權,這可能會增加開發 AI 模型的成本和複雜性。 另一方面,如果法院判決支持 AI 開發人員,版權所有者可能需要尋找新的方法來保護其智慧財產權,以應對日益複雜的 AI 技術。
新聞出版商與 Cohere 之間的衝突是正在進行的關於 AI、版權和內容創作未來的辯論中的一個關鍵轉折點。 毫無疑問,這個案件以及其他類似案件的結果將影響生成式 AI 及其與受版權保護材料互動的法律環境多年。 隨著 AI 不斷發展並更加融入我們生活的各個方面,在促進創新的同時保護內容創作者的權利至關重要。 法院、立法者和 AI 社群必須共同努力,建立明確的指導方針和法規,在確保尊重智慧財產權的同時,促進創造力。
特別是在 AI 時代,新聞業面臨著一系列獨特的挑戰。 隨著 AI 模型越來越能夠生成新聞內容,至關重要的是,出版商應因其受版權保護材料的使用而獲得報酬,並保護其品牌的完整性。 針對 Cohere 的訴訟代表了新聞出版商為維護其權利並確保其作品不被 AI 公司在未經適當授權的情况下利用所做的努力。