Reddit控告Anthropic涉及AI訓練行為

Reddit對 Anthropic 提起訴訟,指控其 AI 訓練方式

Reddit 對 Anthropic 提起法律訴訟,這家人工智慧公司被指控未經授權使用使用者生成的內容來訓練其 AI 聊天機器人 Claude。這起訴訟在舊金山加州高等法院提起,指控 Anthropic 未經許可「抓取」 Reddit 平台上的數百萬條評論,違反了該公司的服務條款並從事不公平競爭。

數據抓取的指控

訴訟的核心是 Reddit 的主張,即 Anthropic 僱用自動化機器人來訪問和提取其平台上的內容,儘管已明確要求停止此類活動。這種做法稱為「抓取」,涉及系統地從網站收集數據,通常未經網站同意。 Reddit 聲稱,Anthropic 使用這些抓取的數據來訓練其 Claude 聊天機器人,有效地利用了 Reddit 使用者的個人資訊,而使用者並不知情或未授權。

Reddit 的首席法律長 Ben Lee 強調了公司在數據使用方面的立場,聲稱「不應允許 AI 公司在沒有對如何使用資料的明確限制的情況下,從人們那裡抓取訊息和內容。」該聲明強調了 Reddit 擔心 AI 公司正在利用使用者生成的內容,而沒有為使用者隱私和數據保護提供足夠的保障。

Anthropic 在回應 Reddit 的指控時發表聲明,表示不同意這些說法,並聲稱打算「積極為自己辯護」。該公司的辯護可能會取決於與合理使用、公開可用資料的性質以及其 AI 訓練方法在多大程度上符合法律和道德標準相關的論點。

Reddit 的授權協議

針對 Anthropic 提起的法律訴訟,是 Reddit 與包括 Google 和 OpenAI 在內的其他 AI 公司簽訂現有的授權協議的背景下發生的。這些協議允許這些公司在 Reddit 的廣泛公開評論資料庫上訓練其 AI 系統,這些評論是由其超過 1 億的每日使用者生成的。作為交換,Reddit 獲得報酬,更重要的是,能夠執行使用者保護。

根據 Ben Lee 的說法,這些授權協議「使我們能夠為使用者執行有意義的保護,包括刪除內容的權利、使用者隱私保護以及防止使用者使用此內容發送垃圾郵件。」這凸顯了 Reddit 管理 AI 公司使用其數據的主動方法,確保使用者的權利和隱私得到尊重。

對 Anthropic 提起的訴訟可以被視為 Reddit 為執行其數據使用政策和保護其使用者利益所做的努力。透過提起法律訴訟,Reddit 向 AI 公司發出明確訊息,即它不會容忍未經授權的數據抓取,並將積極捍衛其權利和使用者的權利。

Anthropic 的 AI 開發

Anthropic 由前 OpenAI 高管於 2021 年創立,已成為 AI 聊天機器人市場的重要參與者。其旗艦產品 Claude 是 OpenAI 的 ChatGPT 的直接競爭對手。雖然 OpenAI 與 Microsoft 建立了密切的合作夥伴關係,但 Anthropic 的主要商業合作夥伴是 Amazon,後者正在使用 Claude 來增強其 Alexa 語音助手。

與許多 AI 公司一樣,Anthropic 依賴於大量的文字和程式碼數據集來訓練其 AI 模型。這些數據集通常包括來自 Wikipedia 和 Reddit 等網站的內容,這些網站提供了大量關於廣泛主題的資訊,並反映了人類語言的細微差別。該訴訟強調了 AI 公司對現成的線上內容的依賴,引發了關於使用此類數據進行 AI 訓練的道德和法律影響的問題。

「抓取」辯論

從網站「抓取」數據的做法已成為 AI 行業中一個有爭議的問題。 AI 公司辯稱,抓取對於收集訓練其 AI 模型所需的大量數據是必要的。他們經常引用「合理使用」的概念,該概念允許將受著作權保護的材料用於某些目的,例如教育、研究和評論。

然而,網站所有者和內容創作者認為,抓取可能會違反其服務條款、侵犯其著作權並破壞其商業模式。他們認為,AI 公司應在抓取其數據之前獲得許可,並應為使用其內容提供補償。

Reddit 對 Anthropic 的訴訟只是 AI 公司和內容提供者之間關於數據抓取日益緊張關係的一個例子。隨著 AI 技術的不斷發展,這些法律和道德辯論可能會加劇,從而導致制定新的法律和法規來監管用於 AI 訓練的數據。

2021 年論文

Reddit 訴訟中引用了 Anthropic CEO Dario Amodei 共同撰寫的 2021 年研究論文。該論文闡明了 Anthropic 研究人員確定為包含用於 AI 訓練的高品質數據的特定 Reddit 子版塊或主題論壇。這些 Reddit 子版塊涵蓋了廣泛的主題,從園藝和歷史到關係建議和洗澡時的想法。

訴訟中引用這篇論文強調了 Reddit 的主張,即 Anthropic 有意將其平台作為數據抓取的目標。據稱,透過將特定的 Reddit 子版塊識別為 AI 訓練數據的重要來源,Anthropic 證明了其未經許可從 Reddit 提取內容的意圖。

Anthropic 的著作權論點

在 2023 年致美國著作權局的一封信中,Anthropic 辯稱其 AI 訓練實踐構成「對材料的絕對合法使用」。該公司聲稱,其 AI 模型製作資訊副本的唯一目的是對大型數據集執行統計分析,它認為這屬於合理使用原則。

然而,這種說法並未被普遍接受。 Anthropic 目前面臨來自主要音樂出版商提出的另一項訴訟,他們聲稱 Claude 會反覆模仿受著作權保護的歌曲歌詞。這起訴訟引發了人們對 AI 模型可能透過複製或分發受著作權保護的材料來侵犯著作權的擔憂。

違反使用條款

Reddit 對 Anthropic 提起的訴訟與針對 AI 公司提出的其他法律挑戰不同,因為它並未指控侵犯著作權。相反,它側重於聲稱違反了 Reddit 的使用條款以及由此產生不公平競爭。

Reddit 認為,Anthropic 透過未經許可從平台抓取內容來違反其使用條款。它還認為,Anthropic 的行為創造了不公平的競爭,使其能夠開發其 AI 聊天機器人,而無需承擔從 Reddit 授權數據的相關成本。

透過關注這些問題,Reddit 試圖建立一個法律先例,這可能會對 AI 行業產生重大的影響。如果 Reddit 在訴訟中勝訴,AI 公司未經許可從網站抓取數據可能會變得更加困難,從而可能導致 AI 模型的訓練方式發生轉變。

AP 和 OpenAI 協議

美聯社 (AP) 和 OpenAI 簽訂了一項授權和技術協議,該協議授予 OpenAI 訪問 AP 部分文字檔案的權限。該協議反映了內容提供者與 AI 公司合作授權其數據用於 AI 訓練的日益增長的趨勢。

此類協議為內容提供者提供了一種從其數據中產生收入的方式,同時還可以控制數據的使用方式。它們還為 AI 公司提供了對高品質數據的訪問,這些數據可以提高其 AI 模型的效能。

更廣泛的影響

Reddit 對 Anthropic 提起的訴訟不僅僅是兩家公司之間的糾紛;它是 AI 開發相關的更廣泛法律和道德辯論的風向標。該案件的結果可能會對 AI 行業產生重大影響,從而可能影響 AI 模型的訓練方式以及內容提供者的權利。

隨著 AI 技術的不斷發展,至關重要的是以周到和全面的方式解決這些問題。這將需要 AI 公司、內容提供者、政策制定者和公眾之間的合作,以制定一個框架,在 AI 創新的好處與保護使用者隱私、智慧財產權和公平競爭的需求之間取得平衡。

定義抓取

在此上下文中,抓取是指從網站自動提取數據。使用工具來解析 HTML 代碼並提取特定元素,如文字、圖像或連結。就 Reddit 而言,Anthropic 據稱使用機器人來抓取使用者評論,這些評論對於訓練語言模型很有價值。

抓取的合法性是一個灰色地帶。網站通常有禁止此類活動的服務條款,但執行起來可能很困難。有些人認為應該可以訪問公開可用的數據,而另一些人則強調網站所有者控制其內容的權利。

合理使用原則

合理使用原則是一項法律原則,允許在未經著作權持有人許可的情況下有限度地使用受著作權保護的材料。該原則旨在透過允許評論、批評、新聞報導、教學、學術和研究來促進言論自由。

然而,將合理使用原則應用於 AI 訓練是複雜且有爭議的。 AI 公司辯稱,他們將受著作權保護的材料用於訓練目的具有轉型性,並且不會侵犯著作權持有人的權利。另一方面,內容提供者認為,AI 訓練是一種商業活動,需要許可和補償。

AI 訓練的未來

Reddit 對 Anthropic 的訴訟突顯了 AI 訓練未來面臨的挑戰和不確定性。隨著 AI 模型變得越來越複雜並需要更大的數據集,對數據的需求只會增加。這可能會導致進一步的法律鬥爭和監管努力,以解決數據抓取和 AI 訓練的道德和法律影響。

利益相關者必須共同努力,制定一個框架,在促進創新的同時,保護內容提供商的權利並確保負責任的數據實踐。該框架應解決數據隱私、著作權、透明度和問責制等問題。

替代數據來源

隨著對網路抓取的法律審查力度加大,AI 公司正在探索用於訓練其模型的替代數據來源。這些包括:

  • 授權數據: 透過與 Reddit、AP 和其他內容提供者簽訂授權協議來獲取數據。
  • 合成數據: 產生模仿真實世界數據的人工數據,但不包含任何個人身分識別資訊或受著作權保護的材料。
  • 開放原始碼數據: 利用授權用於商業用途的公開可用的數據集。
  • 內部數據: 利用公司自己的產品和服務產生的數據。

透過使其數據來源多樣化,AI 公司可以減少對網路抓取的依賴,並減輕與法律挑戰和道德問題相關的風險。

使用者觀點

最終,關於 AI 訓練實踐的辯論引發了關於網路使用者權利的根本問題。使用者在 Reddit 等平台上產生大量內容,但通常不完全了解這些內容將如何使用。

至關重要的是,使用者應了解如何收集、使用和分享他們的數據。他們也應該能夠控制自己的數據,並選擇不將自己的數據用於 AI 訓練目的。

Reddit 等平台有責任保護使用者的數據,並確保以負責任和道德的方式使用他們的數據。這包括向使用者提供清晰透明的隱私權政策,以及控制其數據的機制。

可能的結果

Reddit 對 Anthropic 提起的訴訟的可能結果有很多種,並且可能會對人工智慧產業產生重大影響:

  • 和解: 兩家公司可以達成和解協議,在沒有審判的情況下解決爭端。
  • Reddit 勝訴: 法院可以裁定 Reddit 勝訴,認定 Anthropic 違反其服務條款並從事不公平競爭。
  • Anthropic 勝訴: 法院可以裁定 Anthropic 勝訴,認定其 AI 訓練實踐在合理使用原則下是合法的。
  • 混合裁決: 法院可以發布混合裁決,對 Reddit 的某些主張有利,但對 Anthropic 的其他主張有利。

訴訟的結果可能取決於許多因素,包括案件的具體事實、相關的法律先例以及雙方提出的論點。

輿論法庭

除了法律訴訟之外,Reddit 對 Anthropic 提起的訴訟也在輿論法庭上進行。兩家公司都對塑造圍繞該案件的敘事並影響公眾認知抱有濃厚的興趣。

Reddit 可能會強調保護使用者隱私和執行其服務條款的重要性。 Anthropic 可能會強調 AI 創新的好處以及存取數據以訓練 AI 模型的重要性。

公眾對該案件的認知可能會影響法律訴訟的結果,以及關於 AI 訓練實踐的更廣泛辯論。