OpenAIのような巨大企業が主導する人工知能開発の絶え間ない進歩は、知的財産権やデータ所有権といった確立された原則としばしば衝突します。この衝突が再び論争を巻き起こしており、OpenAIの最新フラッグシップモデルであるGPT-4oが、ペイウォールの背後に隔離された著作権保護された素材を、必要な許可を得ずに訓練に使用した可能性があるという新たな疑惑が浮上しています。これらの主張は、新たに設立された監視団体であるAI Disclosures Projectから発せられたものであり、高度なAIシステムの訓練のためのデータ倫理的な調達をめぐる、すでに複雑な議論にさらなる複雑さの層を加えています。
監視団体の吠え声:AI Disclosures Projectからの疑惑
2024年に設立されたAI Disclosures Projectは、AI業界内のしばしば不透明な慣行を精査することに専念する非営利団体として位置づけられています。その創設者には、著名な技術書の出版社であるO’Reilly Mediaの創設者であるメディア起業家Tim O’Reillyや経済学者のIlan Straussなどの著名な人物が含まれています。このO’Reilly Mediaとのつながりは特に関連性が高く、同プロジェクトの最初の衝撃的な報告書は、GPT-4oの訓練データセット内にO’Reillyのペイウォールで保護された書籍コンテンツが存在するとされる疑惑に特に焦点を当てています。
彼らの研究の中心的な主張は挑発的です:OpenAIとO’Reilly Mediaの間には既知のライセンス契約が存在しないにもかかわらず、GPT-4oモデルはO’Reillyの著作権保護された書籍から直接派生したコンテンツに対して著しく高いレベルの精通度を示しています。この精通度は、これらのペイウォールで保護された資料がモデルの能力を構築するために使用された膨大なデータコーパスに組み込まれたことを強く示唆している、と報告書は主張しています。この研究は、古いOpenAIモデル、特にGPT-3.5 Turboと比較して顕著な違いを強調しており、GPT-4oの開発に至るまでのデータ取得慣行における潜在的な変化または拡大を示唆しています。
その影響は大きいです。もし、専有的で有料のコンテンツが、許可や補償なしにAIモデルに取り込まれているのであれば、生成AI時代の著作権法に関する根本的な疑問を提起します。出版社や著者は、コンテンツの独占性に基づいた購読モデルや購入モデルに依存しています。訓練のためにこの資料が使用されたとされることは、これらのビジネスモデルを損ない、作成に多大な投資を必要とするまさにそのコンテンツの価値を低下させる可能性があると見なされ得るのです。この特定の告発は、公に入手可能なウェブサイトのスクレイピングを超え、有料顧客向けに明示的に意図されたコンテンツへのアクセスの領域に踏み込んでいます。
ブラックボックスの中を覗く:メンバーシップ推論攻撃
彼らの主張を裏付けるために、AI Disclosures Projectの研究者たちは、「メンバーシップ推論攻撃」として知られる高度な技術を採用し、特に彼らがDE-COPと呼ぶ方法を使用しました。このアプローチの核心的な考え方は、AIモデルが特定のテキスト断片を「記憶」したか、少なくとも強い精通度を発達させたかどうかをテストすることです。本質的に、この攻撃は、モデルが元のテキストの抜粋(この場合はO’Reillyの書籍から)と、それらの同じ抜粋を別のAIによって生成された注意深く構築された言い換えバージョンとを確実に区別できるかどうかを調べます。
その根底にある論理は、もしモデルが一貫して、近い言い換えと比較して元の人間が書いたテキストを識別する能力がランダムよりも高いことを示した場合、それはモデルが以前にその元のテキストに遭遇したことを意味する、ということです – おそらくその訓練段階中に。それは、見たことがないと主張する特定の、あまり知られていない写真を認識するかどうかをテストするのに似ています。一貫した認識は、事前の暴露を示唆します。
AI Disclosures Projectのテストの規模は相当なものでした。彼らは、34冊の異なるO’Reilly Mediaの書籍から抽出された13,962個の異なる段落の抜粋を利用しました。これらの抜粋は、通常、出版社のペイウォールの背後にあるような、専門的で価値の高いコンテンツの種類を表していました。この研究では、GPT-4oとその前身であるGPT-3.5 Turboの両方の、この識別タスクにおけるパフォーマンスを測定しました。
報告書で提示された結果は、驚くべきものでした。GPT-4oは、ペイウォールで保護されたO’Reillyのコンテンツを認識する能力が著しく向上していることを示しました。そのパフォーマンスは、二値分類器のパフォーマンスを評価するための一般的な指標であるAUROC(受信者動作特性曲線下面積)スコアを使用して定量化されました。GPT-4oは82%のAUROCスコアを達成しました。対照的に、GPT-3.5 Turboは**50%**をわずかに上回るスコアであり、これは本質的にランダムな推測と同等であり、テストされた資料に対する特定の認識がほとんどまたはまったくないことを示しています。この著しい違いは、ペイウォールで保護されたコンテンツが実際にGPT-4oの訓練データの一部であったという、間接的ではあるが説得力のある証拠を提供すると、報告書は主張しています。82%のスコアは、偶然や一般化された知識によって期待されるものをはるかに超える、強いシグナルを示唆しています。
必要な注意点と未解決の疑問
この調査結果は説得力のある物語を提示していますが、AI研究者のSruly Rosenblatを含む研究の共著者たちは、彼らの方法論に内在する潜在的な限界とAI訓練の複雑な性質を称賛に値する形で認めています。彼らが提起する重要な注意点の1つは、間接的なデータ取り込みの可能性です。彼らが指摘するように、ChatGPT(OpenAIの人気インターフェース)のユーザーが、テキストに関する質問をしたり要約を要求したりするなど、さまざまな目的でペイウォールで保護されたO’Reillyの書籍からの抜粋を直接チャットインターフェースにコピー&ペーストした可能性があると考えられます。これが十分に頻繁に発生した場合、モデルは最初の訓練データセットへの直接的な組み込みではなく、ユーザーインタラクションを通じて間接的にコンテンツを学習した可能性があります。直接的な訓練暴露とユーザープロンプトを介した間接的な学習とを切り分けることは、AIフォレンジックにおける重要な課題であり続けています。
さらに、この研究の範囲は、GPT-4oの主要な訓練サイクルの同時期またはその後に開発またはリリースされた可能性のある、OpenAIの絶対的な最新または特殊なモデルのイテレーションには及んでいません。潜在的にGPT-4.5(その特定の名称または能力レベルで存在する場合)や、o3-miniやo1のような推論に焦点を当てたモデルを含むモデルは、同じメンバーシップ推論攻撃の対象とはなりませんでした。これにより、データ調達慣行がさらに進化した可能性があるのか、あるいはこれらの新しいモデルがペイウォールで保護されたコンテンツに対して同様の精通パターンを示すのかどうかという疑問が残ります。AI開発における急速なイテレーションサイクルは、いかなるスナップショット分析も、ほとんど即座にわずかに時代遅れになるリスクがあることを意味します。
これらの限界は、必ずしも研究の核心的な発見を無効にするものではありませんが、重要なニュアンスの層を加えます。基盤モデルの訓練に使用されたテラバイト単位のデータ内に何が存在するかを決定的に証明することは、悪名高いほど困難です。メンバーシップ推論攻撃は確率的な証拠を提供し、絶対的な確実性を提供するのではなく、可能性を示唆します。OpenAIは、他のAIラボと同様に、専有的な懸念と競争上の機密性を理由に、訓練データの構成を厳重に保護しています。
より広範な対立:AIアリーナにおける著作権闘争
AI Disclosures Projectによって提起された疑惑は、真空状態の中に存在するものではありません。それらは、AI開発者とクリエイターとの間で、訓練目的での著作権保護された素材の使用をめぐる、はるかに広範で進行中の対立における最新の小競り合いを表しています。OpenAIは、Google、Meta、Microsoftのような他の著名なプレイヤーとともに、複数の注目を集める訴訟に巻き込まれています。著者、アーティスト、報道機関、その他の権利所有者によって提起されたこれらの法的異議申し立ては、一般的に、生成AIモデルを訓練するためにインターネットから膨大な量のテキストや画像を不正にスクレイピングし、取り込んだことに起因する広範な著作権侵害を主張しています。
AI企業がしばしば展開する核心的な防御は、(米国における)フェアユースの原則、または他の法域における類似の例外に基づいています。彼らは、訓練のために著作権保護された作品を使用することは「変容的」な使用に当たると主張します – AIモデルは単に元の作品を複製しているのではなく、データを使用してパターン、スタイル、情報を学習し、全く新しい出力を生成しているのです。この解釈の下では、強力な新しいツールを作成することを目的とした訓練プロセス自体は、取り込まれたすべてのデータに対してライセンスを要求することなく許容されるべきです。
しかし、権利所有者はこの見解に激しく異議を唱えています。彼らは、関与するコピーの規模の大きさ、構築されているAI製品の商業的性質、そしてAIの出力が元の作品と直接競合し、取って代わる可能性が、フェアユースの認定に対して重くのしかかると主張しています。その主張は、AI企業がクリエイターに補償することなく、創造的な作品を基盤として数十億ドル規模の企業を構築しているということです。
この訴訟が多発する状況を背景に、OpenAIは、さまざまなコンテンツプロバイダーとライセンス契約を締結することにより、一部のリスクを軽減するために積極的に動いてきました。主要な報道出版社(Associated PressやAxel Springerなど)、ソーシャルメディアプラットフォーム(Redditなど)、ストックメディアライブラリ(Shutterstockなど)との契約が発表されています。これらの契約は、OpenAIに支払いと引き換えに特定のデータセットへの正当なアクセスを提供し、潜在的に侵害の可能性があるウェブスクレイピングされたデータへの依存を減らす可能性があります。同社はまた、ジャーナリストを雇用し、モデルの出力の品質と信頼性を洗練し改善する手助けをさせていると報じられており、高品質で、潜在的にキュレーションされた入力の必要性に対する認識を示唆しています。
波及効果:コンテンツエコシステムへの懸念
AI Disclosures Projectの報告書は、その懸念をOpenAIに対する直接的な法的影響を超えて広げています。それは、この問題をデジタルコンテンツエコシステム全体の健全性と多様性に悪影響を与える可能性のある体系的な脅威として捉えています。この研究は、潜在的に損害を与えるフィードバックループを提起しています:もしAI企業が、高品質で専門的に作成されたコンテンツ(ペイウォールで保護された素材を含む)をクリエイターに補償することなく自由に使用できるならば、それはそもそもそのようなコンテンツを制作するための経済的な実行可能性を侵食します。
プロフェッショナルなコンテンツ作成 – それが調査報道であれ、詳細な技術マニュアルであれ、フィクション執筆であれ、学術研究であれ – は、しばしば多大な時間、専門知識、そして財政的投資を必要とします。ペイウォールと購読モデルは、しばしばこの作業に資金を提供するための不可欠なメカニズムです。もし、これらの努力を支える収益源が、コンテンツが報酬なしに競合するAIシステムの訓練に効果的に使用されているために減少するならば、高品質で多様なコンテンツを作成するインセンティブは低下する可能性があります。これは、情報に通じていない公衆、専門的な知識リソースの減少、そして潜在的には人間の専門知識と検証を欠く低品質またはAI生成コンテンツによって支配されるインターネットにつながる可能性があります。
結果として、AI Disclosures Projectは、AI企業に対して、訓練データの慣行に関するより大きな透明性と説明責任を強く提唱しています。彼らは、商業的なAIモデルの開発に彼らの作品が貢献した場合に、コンテンツクリエイターが公正に補償されることを保証する、堅牢なポリシーと潜在的な規制枠組みの実施を求めています。これは、ライセンス契約、ロイヤリティシステム、または団体交渉を通じて、彼らの知的財産に基づいて訓練されたAIシステムによって生成された価値の分け前を確実に受け取るためのメカニズムを求める、世界中のクリエイターグループからのより広範な呼びかけと呼応しています。議論の中心は、AIイノベーションが人間の創造性と知識生成のための繁栄するエコシステムと並行して繁栄できる持続可能な均衡を見つけることにあります。進行中の法廷闘争の解決と、新たな法律や業界標準の可能性は、この未来のバランスを形作る上で重要となるでしょう。巨大で複雑なAIモデルにおけるデータの出所を追跡し、価値を帰属させる方法は、依然として重要な技術的および倫理的なハードルです。