Reddit、AnthropicをAI学習で提訴

Redditは、人工知能企業Anthropicに対し、AIチャットボットであるClaudeの訓練におけるユーザ生成コンテンツの不正使用を訴え、法的措置を開始しました。サンフランシスコのカリフォルニア州上級裁判所に提出された訴状は、Anthropicが許可なくRedditプラットフォームから数百万のコメントを「スクレイピング」し、同社の利用規約に違反し、不正競争を行っていると非難しています。

データスクレイピングの申し立て

訴訟の中心にあるのは、RedditがAnthropicに対し、そのような活動を停止するよう明確に求めたにもかかわらず、自動化されたボットを使用してプラットフォームからコンテンツにアクセスし、抽出したという主張です。「スクレイピング」として知られるこの行為は、ウェブサイトの同意なしに、ウェブサイトから組織的にデータを収集することを含みます。Redditは、Anthropicがこのスクレイピングされたデータを使用してClaudeチャットボットを訓練し、実質的にRedditユーザーの個人情報を知識または承認なしに利用したと主張しています。

Redditの最高法務責任者であるBen Leeは、データの使用に関する同社の立場を強調し、「AI企業は、データがどのように使用できるかについて明確な制限なしに、人々から情報やコンテンツをスクレイピングすることを許可されるべきではありません」と述べました。この声明は、AI企業がユーザーのプライバシーとデータ保護のための適切な保護措置を講じることなく、ユーザー生成コンテンツを悪用しているというRedditの懸念を強調しています。

Anthropicは、Redditの申し立てに応じて声明を発表し、主張に同意しないことを表明し、「我々は精力的に弁護する」という意向を表明しました。同社の弁護は、フェアユース、公的に入手可能なデータの性質、およびAI訓練慣行が法的および倫理的基準に準拠する程度に関連する議論にかかっている可能性があります。

Redditのライセンス契約

Anthropicに対する法的措置は、GoogleやOpenAIを含む他のAI企業とのRedditの既存のライセンス契約の文脈で行われます。これらの契約により、これらの企業は、毎日1億人を超えるユーザーによって生成された、Redditの膨大なパブリックコメントのリポジトリでAIシステムを訓練できます。このデータへのアクセスと引き換えに、Redditは報酬を受け取り、さらに重要なことに、ユーザー保護を実施する能力を受け取ります。

Ben Leeによると、これらのライセンス契約は「コンテンツの削除、ユーザーのプライバシー保護、およびこのコンテンツを使用したユーザーへのスパム送信の防止など、ユーザーにとって意味のある保護を強制することを可能にします」。これは、RedditがAI企業によるデータの使用を管理し、ユーザーの権利とプライバシーが尊重されるようにするための積極的なアプローチを強調しています。

Anthropicに対する訴訟は、Redditがデータの使用に関するポリシーを実施し、ユーザーの利益を保護するための取り組みと見なすことができます。法的措置を追求することにより、RedditはAI企業に対し、不正なデータスクレイピングを容認せず、自らの権利とユーザーの権利を積極的に擁護するという明確なメッセージを送っています。

AnthropicのAI開発

2021年にOpenAIの元幹部によって設立されたAnthropicは、AIチャットボット市場で重要な企業として台頭しました。同社のフラッグシップ製品であるClaudeは、OpenAIのChatGPTの直接の競合製品です。OpenAIはMicrosoftとの緊密なパートナーシップを結んでいますが、Anthropicの主要な商業パートナーはAmazonであり、AmazonはClaudeを使用してAlexa音声アシスタントを強化しています。

多くのAI企業と同様に、Anthropicは、AIモデルを訓練するために、テキストとコードの大きなデータセットに依存しています。これらのデータセットには、ウィキペディアやRedditなどのウェブサイトからのコンテンツが含まれていることが多く、さまざまなトピックに関する豊富な情報を提供し、人間の言語のニュアンスを反映しています。訴訟は、AI企業の容易に入手できるオンラインコンテンツへの依存を強調し、AI訓練にそのようなデータを使用することの倫理的および法的影響について疑問を投げかけています。

“スクレイピング”論争

ウェブサイトからのデータの「スクレイピング」の慣行は、AI業界で物議を醸す問題になっています。AI企業は、AIモデルを訓練するために必要な膨大な量のデータを収集するにはスクレイピングが必要であると主張しています。彼らはしばしば、「フェアユース」の概念を引用します。これは、教育、研究、解説などの特定の目的のために著作権で保護された素材の使用を許可するものです。

ただし、ウェブサイトの所有者とコンテンツ作成者は、スクレイピングが利用規約に違反し、著作権を侵害し、ビジネスモデルを損なう可能性があると主張しています。彼らは、AI企業がデータをスクレイピングする前に許可を得て、コンテンツの使用に対して補償する必要があると主張しています。

RedditによるAnthropicに対する訴訟は、データスクレイピングに関するAI企業とコンテンツプロバイダー間の緊張の高まりのほんの一例です。AI技術が進化し続けるにつれて、これらの法的および倫理的な議論は激化し、AI訓練にデータを使用することを管理する新しい法律と規制が開発される可能性があります。

2021年の論文

AnthropicのCEOであるDario Amodeiが共著者である2021年の研究論文が、Redditの訴訟で引用されました。この論文は、Anthropicの研究者がAI訓練に高品質のデータを含むと特定した特定のサブレディット、つまり主題フォーラムに光を当てました。これらのサブレディットは、ガーデニングや歴史から、恋愛のアドバイスやシャワーの考えまで、幅広いトピックに及びました。

この論文の訴訟での引用は、Anthropicがデータスクレイピングのために意図的にプラットフォームをターゲットにしたというRedditの主張を強調しています。特定のサブレディットをAI訓練データの貴重なソースとして特定することにより、Anthropicは許可なくRedditからコンテンツを抽出する意図を表明したとされています。

Anthropicの著作権に関する主張

Anthropicは、米国著作権局への2023年の書簡で、AI訓練慣行は「本質的に合法的な資料の使用」を構成すると主張しました。同社は、AIモデルは大規模なデータセットで統計分析を実行する目的でのみ情報のコピーを作成すると主張し、これはフェアユースの原則に該当すると考えています。

ただし、この議論は普遍的に受け入れられていません。Anthropicは現在、主要な音楽出版社から別の訴訟に直面しており、Claudeが著作権で保護された曲の歌詞を再現していると主張しています。この訴訟は、AIモデルが著作権で保護された素材を複製または配布することにより、著作権を侵害する可能性について懸念を高めています。

利用規約の違反

RedditのAnthropicに対する訴訟は、著作権侵害を主張していないという点で、AI企業に対して提起された他の法的異議とは異なります。代わりに、Redditの利用規約の申し立てられた違反と、その違反に起因する不正競争に焦点を当てています。

Redditは、Anthropicが許可なくプラットフォームからコンテンツをスクレイピングすることにより、利用規約に違反したと主張しています。また、Anthropicの行為は、Redditからデータをライセンスすることに関連するコストを発生させることなく、AIチャットボットを開発することを可能にすることにより、不正競争を生み出したと主張しています。

これらの問題に焦点を当てることにより、RedditはAI業界に大きな影響を与える可能性のある法的先例を確立しようとしています。Redditが訴訟に勝訴した場合、AI企業が許可なくウェブサイトからデータをスクレイピングすることがより困難になり、AIモデルが訓練される方法が変化する可能性があります。

APとOpenAIの契約

Associated Press(AP)とOpenAIには、OpenAIがAPのテキストアーカイブの一部にアクセスできるライセンスおよび技術契約があります。この契約は、コンテンツプロバイダーがAI企業と提携してAI訓練の目的でデータをライセンスするというトレンドの高まりを反映しています。

このような契約は、コンテンツプロバイダーにデータから収益を生み出しながら、データの使用方法を制御する方法を提供します。また、AI企業にAIモデルのパフォーマンスを向上させることができる高品質のデータへのアクセスを提供します。

より広範な意味合い

RedditによるAnthropicに対する訴訟は、2つの企業間の単なる紛争ではありません。それは、AI開発を取り巻くより広範な法的および倫理的な議論の先行指標です。この訴訟の結果は、AI業界に大きな影響を与え、AIモデルの訓練方法とコンテンツプロバイダーの権利を形成する可能性があります。

AI技術が進化し続けるにつれて、これらの問題に思慮深く包括的な方法で対処することが重要です。これには、AIイノベーションの利点と、ユーザーのプライバシー、知的財産、および公正な競争を保護する必要性のバランスを取
るためのフレームワークを開発するための、AI企業、コンテンツプロバイダー、政策立案者、および一般市民間の協力が必要になります。

スクレピングの定義

この文脈におけるスクレイピングとは、Webサイトからデータを自動的に抽出することです。ツールを使用してHTMLコードを解析し、テキスト、画像、リンクなどの特定の要素を抽出します。Redditの場合、Anthropicは言語モデルのトレーニングに役立つユーザーコメントをスクレイピングするためにボットを使用したとされています。

スクレイピングの合法性はグレーゾーンです。Webサイトには通常、このようなアクティビティを禁止する利用規約がありますが、執行は困難な場合があります。公的に入手可能なデータはアクセス可能であるべきだと主張する人もいれば、Webサイトのコンテンツを管理する所有者の権利を強調する人もいます。

フェアユースの原則

フェアユースの原則は、著作権者からの許可なしに著作権で保護された素材を限定的に使用できるという法的原則です。この原則は、解説、批評、ニュース報道、教育、学習、研究を可能にすることで、表現の自由を促進することを目的としています。

ただし、AIトレーニングへのフェアユースの原則の適用は複雑で物議を醸しています。AI企業は、トレーニング目的で著作権で保護された素材を使用することは変革的であり、著作権者の権利を侵害しないと主張しています。一方、コンテンツプロバイダーは、AIトレーニングは許可と補償を必要とする商業活動であると主張しています。

AIトレーニングの未来

RedditによるAnthropicに対する訴訟は、AIトレーニングの未来を取り巻く課題と不確実性を浮き彫りにしています。AIモデルがより洗練され、より大規模なデータセットを必要とするにつれて、データの需要は増加するだけです。これにより、法的紛争や、データスクレイピングとAIトレーニングの倫理的および法的影響に対処するための規制努力がさらに進む可能性があります。

ステークホルダーが協力して、イノベーションを促進しながら、コンテンツプロバイダーの権利を保護し、責任あるデータ慣行を確保するフレームワークを開発することが不可欠です。このフレームワークは、データのプライバシー、著作権、透明性、および説明責任などの問題に対処する必要があります。

代替データソース

Webスクレイピングに対する法的監視が強化されるにつれて、AI企業はモデルをトレーニングするための代替データソースを模索しています。これらには以下が含まれます。

  • ライセンスデータ: Reddit、APなどのコンテンツプロバイダーとのライセンス契約を通じてデータを取得します。
  • 合成データ: 実際のデータを模倣するが、個人を特定できる情報や著作権で保護された素材を含まない人工データを生成します。
  • オープンソースデータ: 商用利用が許可されている公開されているデータセットを利用します。
  • 内部データ: 企業の自社製品およびサービスによって生成されたデータを活用します。

データソースを多様化することで、AI企業はWebスクレイピングへの依存度を下げ、法的課題や倫理的懸念に関連するリスクを軽減できます。

ユーザーの視点

最終的に、AIトレーニングの慣行に関する議論は、インターネットユーザーの権利に関する根本的な問題を提起します。ユーザーはRedditのようなプラットフォームで大量のコンテンツを生成しますが、そのコンテンツがどのように使用されるかを完全に理解していません。

ユーザーは、データがどのように収集、使用、共有されるかについて知らされることが不可欠です。また、データを制御し、AIトレーニング目的でのデータの使用をオプトアウトできる必要があります。

Redditのようなプラットフォームは、ユーザーのデータを保護し、データが責任ある倫理的な方法で使用されるようにする責任があります。これには、ユーザーに明確で透過的なプライバシーポリシーを提供すること、およびデータを制御するためのメカニズムが含まれます。

起こりうる結果

RedditによるAnthropicに対する訴訟の起こりうる結果はさまざまであり、AI業界に大きな影響を与える可能性があります。

  • 和解: 両社は、裁判なしに紛争を解決する和解合意に達する可能性があります。
  • Redditが勝訴: 裁判所はRedditを支持し、Anthropicが利用規約に違反し、不正競争を行ったと判断する可能性があります。
  • Anthropicが勝訴: 裁判所はAnthropicを支持し、AIトレーニングの慣行がフェアユースの原則の下で合法であると判断する可能性があります。
  • 混合判決: 裁判所は混合判決を下し、一部の主張についてRedditを支持する一方で、別の主張についてAnthropicを支持する可能性があります。

訴訟の結果は、事件の具体的な事実、関連する法的先例、および両側から提示された議論など、多くの要因に左右される可能性があります。

世論裁判

法的訴訟に加えて、RedditによるAnthropicに対する訴訟は世論裁判でも戦われています。両社は、事件を取り巻く物語を形成し、世間の認識に影響を与えることに強い関心を持っています。

Redditは、ユーザーのプライバシーを保護し、利用規約を施行することの重要性を強調する可能性があります。Anthropicは、AIイノベーションの利点とAIモデルをトレーニングするためのデータへのアクセスの重要性を強調する可能性があります。

訴訟に対する世間の認識は、法的訴訟の結果、およびAIトレーニングの慣行に関するより広範な議論に影響を与える可能性があります。