生成AI著作権:報道機関がCohereを提訴

近年、AI開発を巡る法廷闘争が再び激化しています。主要な報道機関やメディア組織が、生成AIスタートアップのCohereに対し、著作権および商標権侵害の訴訟を起こしました。訴状は2025年2月にニューヨーク南部地区連邦地方裁判所に提出され、Forbes、The Guardian、Los Angeles Timesなど、著名な出版社を含む10社以上が原告として名を連ねています。訴訟の中心となるのは、Cohereが採用するRetrieval-Augmented Generation (RAG)技術であり、原告側は、この技術が著作権で保護された素材を無断で使用してデータベースを構築し、出力を生成していると主張しています。

RAG技術への厳しい視線

Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) に内在する課題に対する潜在的な解決策として登場しました。2020年にPatrick Lewis氏とその同僚によって提唱されたRAGは、ハルシネーション(事実に基づかない、または無意味な情報を生成すること)、知識の陳腐化、モデルの推論における透明性の欠如といった問題の軽減を目指しています。興味深いことに、Patrick Lewis氏自身が現在Cohereの研究者としてRAG技術の研究を続けています。RAGの導入は広範囲に及んでおり、Microsoft、Google、Amazon、NVIDIAといった主要企業が、そのAIシステムにRAGを統合しています。

報道機関による今回の訴訟は、Cohereに対する著作権侵害の疑いに焦点を当てています。これらの主張は、生成AIモデルのトレーニングと運用における著作権で保護された素材の使用を巡る、複雑な法的問題を浮き彫りにしています。

Cohereに対する著作権侵害の主張

原告側のCohereに対する訴えは、主に以下の4つのカテゴリーに分類できます。

1. AIモデルのトレーニング

原告の主張の中核は、Cohereが「Command Family」として知られる大規模言語モデルをどのようにトレーニングしたのかという点にあります。彼らは、Cohereが原告出版社の著作権で保護されたコンテンツを含む、インターネット上のテキストを広範囲に「スクレイピング」したと主張しています。このスクレイピングされたデータは、Command Familyモデルをトレーニングするために必要なデータセットの作成に使用されました。さらに原告側は、Cohereが必要な許可を得ずに、Common CrawlのC4のような第三者のデータセットを利用したとも主張しています。Common CrawlのC4には、原告の著作権で保護された素材が大量に含まれています。

AIモデルのトレーニングにおける著作権で保護された素材の使用は、議論の的となっています。AI開発者はしばしば、そのような使用は「フェアユース」の原則に該当すると主張します。フェアユースは、批評、解説、報道、教育、学術研究などの目的のために、著作権で保護された素材を限定的に使用することを認めるものです。しかし著作権者は、AIモデルのトレーニングなど、商業目的のために大規模にコンテンツをスクレイピングして使用することは、フェアユースの範囲を超えるものであると主張しています。この法的紛争は、裁判所が原告の評価に同意するかどうかにかかっていると言えるでしょう。

2. リアルタイムでの利用 / RAG

訴訟のもう一つの重要な点は、Cohereのサービス、特に対話型インターフェースが、リアルタイムでRAG技術をどのように利用しているかに焦点を当てています。原告は、Cohereのモデルが、ユーザーからの質問に対する回答を生成するために、ウェブサイトを含む外部ソースからコンテンツをスクレイピングしていると主張しています。原告によると、このリアルタイムのスクレイピングは著作権侵害に該当し、特にCohereのモデルがペイウォールを回避したり、「robots.txt」の指示を無視したりする場合に該当します。robots.txtは、ウェブクローラー(AIモデルが使用するものを含む)に対し、ウェブサイトから特定のコンテンツをスクレイピングしないように指示するコマンドです。

ペイウォールとrobots.txtディレクティブの回避は、深刻な倫理的および法的問題を提起します。ペイウォールは、著作権で保護されたコンテンツを保護し、出版社がその作品に対して報酬を得られるように設計されています。Robots.txtディレクティブは、ウェブサイト所有者がコンテンツへのアクセス方法およびウェブクローラーによる使用方法を制御するための標準的なメカニズムです。これらの保護手段を無視することにより、Cohereは著作権法およびコンテンツ作成者の権利を軽視していると非難されています。

3. 侵害的な出力

原告は、Cohereのサービスが、ユーザーの質問に応じて、著作権で保護された作品のコピー、実質的な抜粋、または代替要約の形で侵害的な出力を提供すると主張しています。彼らは、Cohere Chatの出力例として、「Under the Hood」パネルに原告のウェブサイトから直接コピーされた記事の全文または一部が表示されている例を挙げています。

原告は、これらの出力が、逐語的なコピーであろうと要約であろうと、ユーザーが元の記事にアクセスする必要性を直接的に代替していると主張しています。これにより、原告が事業を維持するために依存しているデジタル購読および広告収入が損なわれます。この議論の核心は、CohereのAIモデルが、基本的に著作権で保護されたコンテンツの無許可の配信者として機能し、元の出版社から正当な報酬を奪っているという点にあります。

4. 無許可での翻案

Cohereのサービスは、「Under the Hood」パネルに原告の作品の一部を表示するだけでなく、これらの作品の要約や概要も提供します。原告は、これらの要約の詳細度が非常に高く、元の作品を本質的に置き換えており、フェアユースの範囲を超えていると主張しています。

著作権法は、著作権で保護された作品の逐語的な複製だけでなく、元の作品の翻案または変換である派生作品の作成も保護します。原告は、Cohereの要約が非常に包括的であるため、無許可の派生作品を構成し、著作権で保護された素材の翻案を作成および配布する独占的権利を侵害していると主張しています。

ユーザーの行動に対する二次的責任

原告は、直接的な著作権侵害の主張に加えて、Cohereがユーザーの侵害行為に対して二次的に責任を負うとも主張しています。彼らは、Cohereのサービスがユーザーによる原告の作品の複製、表示、および配布を容易にしており、Cohereは侵害をユーザーの行動のみに帰することによって責任を回避することはできないと主張しています。この主張の根拠は、Cohereの製品がユーザーがプロンプトを入力した後にのみ回答を生成するため、同社が侵害行為の参加者であるという点にあります。

この二次的責任の議論は、AI開発者がユーザーの行動に対して責任を負うことを求めるものであるため、重要です。ユーザーが直接著作権侵害に関与している場合でも、AIの開発者が責任を負います。これが成功すれば、AI技術の開発と展開に広範囲に及ぶ影響を与える可能性があります。開発者は、ユーザーによる著作権侵害を防ぐための保護手段を実装する必要があるためです。

商標権侵害の主張

訴訟は著作権侵害を超えて、商標権侵害の主張も含まれています。原告は、Cohereの情報源引用のやり方が、許可なく原告の有名な商標を使用したり、AIが生成した誤ったコンテンツとそれらを関連付けたりするため、商標権侵害に当たると主張しています。これにより、原告のブランドの評判が損なわれ、その独自性が薄れることにつながると主張しています。

商標は、会社または製品を表すために法的に登録されたシンボル、デザイン、またはフレーズです。商標の不正使用は、消費者の混乱を引き起こし、ブランドの評判を損なう可能性があります。原告は、Cohereのサービスに関連してこれらの商標を使用すると、ユーザーに原告がCohereのサービスを支持または提携していると誤解させる可能性があると述べています。

広範な背景:RAGとAI著作権法の将来

Cohereに対するこの訴訟は、孤立した事件ではありません。これは、2024年10月に米国で起こされた以前の著作権訴訟に続くもので、AIサービスにおけるRAGアプリケーションに焦点が当てられました。事件数の増加は、RAGアーキテクチャがAIサービスでより一般的になるにつれて、AI開発者と著作権者の間の緊張が高まっていることを示唆しています。

RAG技術をめぐる法的闘いは、AI著作権法の将来において重要な問題となる可能性があります。RAGは、著作権で保護された素材をリアルタイムで取得して使用し、出力を生成するため、独自の課題を抱えています。これにより、フェアユースの範囲、ユーザーの行動に対するAI開発者の責任、人工知能の時代における知的財産の保護について複雑な問題が生じます。

これらの訴訟の結果は、AI技術の開発と展開に大きな影響を与える可能性があります。裁判所が著作権者の有利な判決を下した場合、AI開発者は著作権侵害を防ぐために、より厳格な保護手段を実装する必要に迫られ、AIモデルの開発コストと複雑さが増加する可能性があります。一方、裁判所がAI開発者の有利な判決を下した場合、著作権者はますます高度化するAI技術に直面して、知的財産を保護するための新しい方法を見つける必要が生じる可能性があります。

報道機関とCohereの衝突は、AI、著作権、およびコンテンツ作成の将来に関する進行中の議論において重要な岐路となります。この訴訟の結果は、他の訴訟と同様に、生成AIとその著作権で保護された素材とのやり取りに関する法的状況を今後数年間で確実に形作っていくでしょう。AIが進化し続け、私たちの生活のさまざまな側面に統合されるにつれて、イノベーションを促進し、コンテンツ作成者の権利を保護することのバランスを取ることが不可欠です。裁判所、議員、およびAIコミュニティは協力して、創造性を促進しつつ、知的財産を尊重する明確なガイドラインと規制を確立する必要があります。

特にニュース業界は、AI時代において独自の課題に直面しています。AIモデルがニュースコンテンツを生成する能力がますます高まるにつれて、出版社が著作権で保護された素材の使用に対して報酬を受け取り、ブランドの完全性が保護されることが重要です。Cohereに対する訴訟は、報道機関が自己の権利を主張し、その作品が適切な許可なくAI企業によって利用されないようにするための取り組みを表しています。