DeepSeekのAI学習:Gemini関与疑惑

DeepSeekのAI学習に対する精査:GoogleのGeminiは貢献したのか?

中国のAI研究所であるDeepSeekが、最新の推論AIモデルR1をトレーニングするために、GoogleのGemini AIモデルのデータを利用した可能性があるという憶測が最近浮上しています。このモデルは、数学とコーディングのベンチマークで優れたパフォーマンスを示しています。DeepSeekはR1のトレーニングに使用されたデータソースについて沈黙を守っていますが、数人のAI研究者は、Gemini、または少なくともGeminiの一部が役割を果たしたと提案しています。

証拠と告発

AIの「感情知能」の評価作成を専門とするメルボルンを拠点とする開発者であるSam Paechは、DeepSeekモデルがGeminiによって生成された出力を使用してトレーニングされたという証拠であると信じるものを提示しました。PaechはX(旧Twitter)への投稿で、DeepSeekのモデル、特にR1-0528バージョンが、GoogleのGemini 2.5 Proが好む言語や表現に似た好みを示していると指摘しました。

さらに、AIの「言論の自由評価」であるSpeechMapの作成者の仮名で活動している別の開発者は、DeepSeekモデルが結論に向かって取り組む際に生成する「思考」がGeminiのトレースに非常に似ていることを観察しました。この観察は、主張に別の興味深いレイヤーを追加します。

DeepSeekが競合するAIモデルからのデータを活用したという疑惑に直面したのは、これが初めてではありません。昨年12月、開発者は、DeepSeekのV3モデルがChatGPT、OpenAIの人気のあるチャットボットプラットフォームとして頻繁に自身を識別することに気づきました。これは、モデルがChatGPTのチャットログでトレーニングされており、データの利用慣行に関する懸念が高まっていることを示唆しています。

より深い告発:蒸留とデータ抽出

今年の初め、OpenAIはFinancial Timesに対し、DeepSeekを蒸留と呼ばれる技術の使用に結び付ける証拠を発見したことを共有しました。蒸留には、より大きく、より洗練されたモデルからデータを抽出してAIモデルをトレーニングすることが含まれます。Bloombergは、OpenAIの主要な協力者および投資家であるMicrosoftが、2024年後半にOpenAIの開発者アカウントを通じて重大なデータ抽出を検出したと報告しました。OpenAIは、これらのアカウントがDeepSeekに接続されていると考えています。

蒸留は、本質的に非倫理的ではありませんが、利用規約に違反すると問題になります。OpenAIの条件は、顧客が競合するAIシステムを開発するために会社のモデル出力を使用することを明確に禁止しています。これは、DeepSeekがこれらの条件を遵守しているかどうかについて深刻な疑問を提起します。

AIトレーニングデータの不明確な水域

AIモデルが自分自身を誤って識別し、同様の単語やフレーズに収束することがよくあることを認めることが重要です。これはオープンウェブの性質によるものであり、オープンウェブは多くのAI企業のトレーニングデータの主要なソースとして機能します。ウェブはAIによって生成されたコンテンツでますます飽和しています。コンテンツファームはAIを使用してクリックベイトを生成し、ボットはRedditやXのようなプラットフォームにAIによって生成された投稿を溢れさせています。

この「汚染」により、トレーニングデータセットからAI出力を効果的にフィルタリングすることが非常に困難になり、DeepSeekが意図的にGeminiデータを使用したかどうかという質問がさらに複雑になります。

専門家の意見と視点

主張を明確に証明することの難しさにもかかわらず、一部のAI専門家は、DeepSeekがGoogleのGeminiからのデータでトレーニングされたことはあり得ると考えています。非営利のAI研究機関AI2の研究者であるNathan Lambertは、Xで次のように述べています。「私がDeepSeekなら、最高のAPIモデルから大量の合成データを作成します。[DeepSeekは] GPUが不足しており、資金が豊富です。彼らにとっては文字通り効果的な計算です。」

Lambertの視点は、特にリソースの制約を考えると、DeepSeekが既存のAIモデルを活用して独自の機能を強化する潜在的な経済的インセンティブを強調しています。

セキュリティ対策と対抗策

AI企業は、蒸留のような慣行を防ぐために、セキュリティ対策を強化しています。OpenAIは4月に、特定の高度なモデルにアクセスするために、組織にID検証プロセスを完了することを要求し始めました。このプロセスには、OpenAIのAPIでサポートされている国から政府発行のIDを提出することが含まれます。中国はこのリストから顕著に欠落しています。

別の動きとして、Googleは最近、AI Studio開発者プラットフォームを通じて利用可能なモデルによって生成されたトレースを「要約」し始めました。このアクションにより、Geminiのトレースでライバルモデルを効果的にトレーニングすることがより困難になります。同様に、Anthropicは5月に、独自のモデルのトレースを要約し始めると発表し、「競争上の優位性」を保護する必要性を挙げています。これらの措置は、AIモデル出力の潜在的な誤用に対する認識の高まりと、そのようなリスクを軽減するための積極的な取り組みを示しています。

影響と結果

DeepSeekに対する告発は、AIトレーニング慣行の倫理と合法性について重大な疑問を提起します。DeepSeekが実際にGeminiデータを使用してR1モデルをトレーニングした場合、法的影響と評判の低下に直面する可能性があります。この状況はまた、特にデータの調達と使用に関して、AI業界におけるより大きな透明性と規制の必要性を強調しています。

DeepSeekに対する告発は、重要なジレンマを強調しています。知的財産を保護し、公正な競争を確保する必要性と、AIにおけるイノベーションと進歩に対する欲求をどのようにバランスさせるかです。AI業界は急速に進化しており、複雑な法的および倫理的状況をナビゲートするには、明確なガイドラインと倫理的枠組みが不可欠です。企業は、データのソースについて透明性を保ち、信頼を維持し、潜在的な法的責任を回避するために、利用規約契約を遵守する必要があります。

さらに、AIによって生成されたコンテンツがトレーニングデータセットを汚染するという問題は、AIコミュニティ全体にとって大きな課題となります。AIモデルが説得力のあるテキスト、画像、およびその他の形式のコンテンツを生成することに熟達するにつれて、人間によって生成されたデータとAIによって生成されたデータを区別することがますます困難になります。この「汚染」は、AIモデルの均質化につながる可能性があり、すべてのモデルが同様のバイアスと制限を示し始める可能性があります。

この課題に対処するために、AI企業はより高度なデータフィルタリング技術に投資し、代替のトレーニングデータソースを模索する必要があります。また、トレーニングデータセットの構成と、AIによって生成されたコンテンツをフィルタリングするために使用される方法について、より透明性を高める必要があります。

AIトレーニングの未来をナビゲートする

DeepSeekの論争は、AIトレーニングの将来に関するより微妙な議論の緊急性を強調しています。AIモデルがより強力になり、データが不足するにつれて、企業は手抜きをして非倫理的または違法な行為に関与したくなる可能性があります。ただし、そのような行為は最終的にAI業界の長期的な持続可能性と信頼性を損ないます。

研究者、政策立案者、および業界リーダーが参加する共同的な取り組みは、責任あるAI開発を促進する倫理的ガイドラインと法的枠組みを開発するために必要です。これらのガイドラインは、データの調達、透明性、説明責任などの問題に対処する必要があります。また、企業が倫理的で持続可能なAIトレーニング慣行に投資することを奨励する必要があります。

AIトレーニングの未来に関する主な考慮事項:

  • **透明性:**企業は、AIモデルのトレーニングに使用されるデータソースと、AIによって生成されたコンテンツをフィルタリングするために使用される方法について透明性を保つ必要があります。
  • **倫理:**AI開発は、公正さ、説明責任、知的財産の尊重を促進する倫理原則を遵守する必要があります。
  • **規制:**政策立案者は、AIトレーニングによって提起される固有の課題に対処する明確な法的枠組みを作成する必要があります。
  • **コラボレーション:**研究者、政策立案者、および業界リーダーは、AI開発のための倫理的ガイドラインとベストプラクティスを開発するために協力する必要があります。
  • **データの多様性:**AIトレーニングは、バイアスを軽減し、AIモデルの全体的なパフォーマンスを向上させるために、データの多様性を優先する必要があります。
  • **持続可能性:**AIトレーニングは、環境への影響を最小限に抑え、持続可能な方法で実施する必要があります。
  • **セキュリティ:**セキュリティ対策は、AIモデルとトレーニングデータを不正なアクセスや使用から保護する必要があります。

これらの主要な考慮事項に対処することで、AI業界はAI開発が責任ある倫理的な方法で実施され、潜在的なリスクを軽減しながらイノベーションを促進することを保証できます。

今後の方向性

DeepSeekに対する告発は、AIコミュニティへの警鐘として機能します。AI開発における透明性の向上、倫理的行動、および堅牢な保護対策の重要な必要性を強調しています。AIが私たちの生活のさまざまな側面に浸透し続けるにつれて、その責任ある有益な使用を確保するために、明確な境界線と倫理的ガイドラインを確立することが不可欠です。

DeepSeekの事例は、最終的な結果に関係なく、AI倫理を取り巻く現在の議論を間違いなく形作り、AI開発の将来の軌跡に影響を与えます。それは、イノベーションの追求が倫理原則へのコミットメントと、私たちの行動の潜在的な結果の認識によって和らげられなければならないことを思い出させるものです。AIの未来は、これらの複雑な課題を知恵と先見の明で乗り越える私たちの能力にかかっています。