オープンソースLLM時代のデータ影の戦い | ja

相次ぐ情報漏洩が露呈する脆弱性

DeepSeekやOllamaのようなオープンソースの大規模言語モデル(LLM)の急速な採用は、諸刃の剣となっています。企業がこれらの強力なツールを活用して効率を高めている一方で、その成長を促進するオープン性そのものが、データセキュリティリスクの増大を招いています。NSFOCUS Xingyun Labがまとめた最近のレポートは、厳しい現実を描き出しています。2025年の最初の2ヶ月だけで、LLMに直接関連する5件の重大なデータ漏洩が発生しました。これらのインシデントにより、機密のチャット履歴やAPIキーから重要なユーザー認証情報に至るまで、膨大な量の機密情報が漏洩しました。これらの出来事は警鐘であり、最先端のAIテクノロジーの裏に潜む、見過ごされがちなセキュリティ脆弱性を浮き彫りにしています。この考察では、これら5つのインシデントを分析し、攻撃手法を解剖し、確立されたMITRE ATT&CKフレームワークにマッピングし、組織が緊急に対処しなければならないセキュリティ上の盲点を明らかにします。

インシデント1: DeepSeekの誤設定データベース – プライベートな会話への窓

発生時期: 2025年1月29日

漏洩規模: 機密のチャット履歴やアクセスキーを含む、数百万行のログデータ。

事象の展開:

Wizのセキュリティリサーチチームがこの発見の発端となりました。彼らは、パブリックインターネット上でアクセス可能な、露出したClickHouseサービスを特定しました。さらなる調査により、このサービスが中国のAIスタートアップであるDeepSeekのものであることが確認されました。ClickHouseは、分析処理における大規模データセットの効率的な処理のために設計されていますが、残念ながらDeepSeekの内部データへのゲートウェイとなってしまいました。研究者たちは、DeepSeekのログストリームの約100万行にアクセスし、過去のチャットログや重要なアクセスキーを含む、機密情報の宝庫を発見しました。

WizはDeepSeekに脆弱性を迅速に警告し、即座の対応と露出したClickHouseサービスの安全な廃棄につながりました。

攻撃の分析:

根本的な問題は、ClickHouseの不正アクセスに対する脆弱性にありました。ClickHouseは、オープンソースの列指向データベース管理システムであり、ログやユーザー行動分析によく使用される、大規模データセットのリアルタイムクエリと分析に優れています。しかし、適切なアクセス制御なしにデプロイされた場合、露出したAPIインターフェースにより、誰でも SQLライクなコマンドを実行できます。

Wizのセキュリティチームのアプローチは、DeepSeekのインターネットに面したサブドメインの体系的なスキャンを含んでいました。当初は標準ポート80と443に焦点を当て、チャットボットインターフェースやAPIドキュメントなどの典型的なWebリソースを発見しました。検索範囲を広げるために、8123や9000などのあまり一般的でないポートに拡張し、最終的に複数のサブドメインで露出したサービスを発見しました。

侵害されたログデータは、2025年1月6日に遡り、通話ログ、DeepSeek内部APIエンドポイントのテキストログ、詳細なチャット履歴、APIキー、バックエンドシステムの詳細、運用メタデータなど、豊富な機密情報を含んでいました。

VERIZONイベント分類: Miscellaneous Errors

MITRE ATT&CKフレームワークマッピング:

T1590.002 (Collect Victim Network Information - Domain Name Resolution): 攻撃者は、プライマリドメイン名を使用してサブドメイン列挙を実行した可能性があります。
T1046 (Web Service Discovery): 攻撃者は、ターゲットドメインに関連付けられたオープンポートとサービスを特定しました。
T1106 (Native Interface): 攻撃者は、ClickHouse APIを利用してデータベースと対話しました。
T1567 (Data Exfiltration via Web Service): 攻撃者は、ClickHouse APIを使用してデータを盗みました。

インシデント2: DeepSeekのサプライチェーン攻撃 – コード内のトロイの木馬

発生時期: 2025年2月3日

漏洩規模: ユーザー認証情報と環境変数。

事象の展開:

攻撃は2025年1月19日に始まりました。’bvk’と特定された悪意のあるユーザーが、’deepseek’と’deepseekai’という名前の2つの悪意のあるPythonパッケージを、人気のあるPyPI (Python Package Index)リポジトリにアップロードしました。

Positive Technologies Expert Security Center (PT ESC)の脅威インテリジェンスチームは、同日にこの不審な活動を検出しました。彼らの分析により、パッケージの悪意のある性質が確認され、PyPI管理者に迅速に通知しました。

PyPI管理者は、悪意のあるパッケージを迅速に削除し、PT ESCに通知しました。迅速な対応にもかかわらず、統計によると、マルウェアはさまざまなチャネルを通じて17カ国で200回以上ダウンロードされていました。悪意のあるパッケージはその後隔離されました。

攻撃の分析:

‘bvk’によってアップロードされた悪意のあるパッケージは、情報収集と環境変数の窃取という2つの主要な目的に焦点を当てていました。盗まれたデータには、データベース認証情報、APIキー、S3オブジェクトストレージのアクセス認証情報などの機密情報が含まれていました。悪意のあるペイロードは、ユーザーがコマンドラインからDeepSeekまたはDeepseekaiを実行するたびにトリガーされました。

攻撃者は、盗まれたデータを受信するためのコマンドアンドコントロールサーバーとしてPipeDreamを利用しました。このインシデントは、いくつかの要因を浮き彫りにしています。

依存関係混同攻撃: 攻撃者は、組織のプライベートパッケージと、同じ名前のパブリックパッケージとの間の優先順位の違いを悪用しました。
パッケージ名偽装: 悪意のあるパッケージは、ユーザーを欺くために、有名なAI企業であるDeepSeekのブランド名を模倣しました。
PyPI登録の脆弱性: PyPIの登録プロセスには、開発者の身元とパッケージ名の正当性の効果的な検証が欠けていました。
開発者のセキュリティ意識: 開発者は、誤って同様の名前の悪意のあるパッケージをインストールした可能性があります。

VERIZONイベント分類: Social Engineering

MITRE ATT&CKフレームワークマッピング:

T1593.003 (Search Open Websites/Domains - Search Publicly Available Dependency Repository): 攻撃者はPyPIで情報を検索しました。
T1195.002 (Supply Chain Compromise - Compromise Software Supply Chain): 攻撃者は、Pythonの依存関係を装ったマルウェアを使用し、PyPIにアップロードしました。
T1059.006 (Command and Scripting Interpreter - Python): 攻撃者はパッケージに悪意のあるコードを埋め込み、実行時に機密データを漏洩させました。
T1041 (Exfiltration Over C2 Channel): 攻撃者は、PipeDream C2チャネルを介して機密情報を流出させました。

インシデント3: LLMハイジャック – リソース窃盗の標的となるDeepSeek

発生時期: 2025年2月7日

漏洩規模: 約20億のモデルトークンが不正に使用されました。

事象の展開:

Sysdigの脅威リサーチチームは、2024年5月に、’LLM jacking’または’LLM hijacking’と呼ばれる、LLMを標的とする新しい攻撃を最初に発見しました。

2024年9月までに、Sysdigはこれらの攻撃の頻度と蔓延が増加しており、DeepSeekがますます標的になっていると報告しました。

2024年12月26日、DeepSeekは高度なモデルであるDeepSeek-V3をリリースしました。その直後、Sysdigチームは、DeepSeek-V3がHugging FaceでホストされているOpenAIリバースプロキシ(ORP)プロジェクトに実装されていることを発見しました。

2025年1月20日、DeepSeekはDeepSeek-R1と呼ばれる推論モデルをリリースしました。その翌日、DeepSeek-R1をサポートするORPプロジェクトが登場し、攻撃者はそれを悪用し始め、複数のORPにDeepSeek APIキーを設定しました。

Sysdigの調査によると、ORPを通じて不正に使用された大規模モデルトークンの総数は20億を超えました。

攻撃の分析:

LLMハイジャックは、攻撃者が盗んだクラウド認証情報を悪用して、クラウドでホストされているLLMサービスを標的にするものです。攻撃者は、OAI (OpenAI)リバースプロキシと盗まれた認証情報を利用して、被害者の購読しているLLMサービスへのアクセスを本質的に販売します。これにより、被害者には多額のクラウドサービス費用が発生します。

OAIリバースプロキシは、複数のLLMアカウントへのアクセスを集中管理するポイントとして機能し、基盤となる認証情報とリソースプールを隠蔽します。攻撃者は、DeepSeekのような高価なLLMを支払うことなく使用し、リバースプロキシを通じてリクエストを送信し、リソースを消費し、正規のサービス料金を回避することができます。プロキシメカニズムは攻撃者の身元を隠し、クラウドリソースを検出されずに悪用することを可能にします。

OAIリバースプロキシはLLMハイジャックに必要なコンポーネントですが、重要な要素は、さまざまなLLMサービスの認証情報とキーの窃盗です。攻撃者は、多くの場合、従来のWebサービスの脆弱性や設定エラー(LaravelフレームワークのCVE-2021-3129脆弱性など)を悪用して、これらの認証情報を盗みます。これらの認証情報を取得すると、Amazon Bedrock、Google Cloud Vertex AIなどのクラウドベースのLLMサービスへのアクセスが可能になります。

Sysdigの調査によると、攻撃者は数時間以内に被害者の消費コストを数万ドル、場合によっては1日あたり最大10万ドルまで急速に膨らませることができました。攻撃者の動機は、データ取得だけではありません。アクセス権を販売することでも利益を得ています。

VERIZONイベント分類: Basic Web Application Attacks

MITRE ATT&CKフレームワークマッピング:

T1593 (Search Open Websites/Domains): 攻撃者は、OSINT (Open-Source Intelligence)メソッドを使用して、露出したサービスに関する情報を収集しました。
T1133 (External Remote Services): 攻撃者は、露出したサービスの脆弱性を特定しました。
T1586.003 (Compromise Accounts - Cloud Accounts): 攻撃者は、脆弱性を悪用してLLMサービスまたはクラウドサービスの認証情報を盗みました。
T1588.002 (Obtain Capabilities - Tool): 攻撃者は、オープンソースのOAIリバースプロキシツールを展開しました。
T1090.002 (Proxy - External Proxy): 攻撃者は、OAIリバースプロキシソフトウェアを使用して、複数のLLMアカウントへのアクセスを管理しました。
T1496 (Resource Hijacking): 攻撃者は、LLMインジェクション攻撃を開始してLLMリソースをハイジャックしました。

インシデント4: OmniGPTデータ漏洩 – ダークウェブで販売されるユーザーデータ

発生時期: 2025年2月12日

漏洩規模: メールアドレス、電話番号、APIキー、暗号化キー、認証情報、請求情報など、30,000人以上のユーザーの個人情報。

事象の展開:

2025年2月12日、’SyntheticEmotions’というユーザーがBreachForumsに投稿し、OmniGPTプラットフォームから機密データを盗み、販売していると主張しました。漏洩したデータには、30,000人以上のOmniGPTユーザーのメールアドレス、電話番号、APIキー、暗号化キー、認証情報、請求情報、およびチャットボットとの3,400万行を超える会話が含まれていると報告されています。さらに、プラットフォームにアップロードされたファイルへのリンクが侵害され、一部にはバウチャーや請求データなどの機密情報が含まれていました。

攻撃の分析:

正確な攻撃ベクトルは明らかにされていませんが、漏洩したデータの種類と範囲から、いくつかの可能性が考えられます。SQLインジェクション、APIの悪用、またはソーシャルエンジニアリング攻撃により、攻撃者がバックエンドデータベースにアクセスした可能性があります。また、OmniGPTプラットフォームに設定ミスや脆弱性があり、攻撃者が認証をバイパスしてユーザー情報を含むデータベースに直接アクセスできた可能性もあります。

二次的な漏洩に関与した’Messages.txt’ファイルには、APIキー、データベース認証情報、支払いカード情報が含まれており、他のシステムへのさらなる侵入やデータ改ざんを可能にする可能性があります。プラットフォームユーザーによってアップロードされた一部のドキュメントには、機密の企業秘密やプロジェクトデータが含まれており、悪用された場合、事業運営にリスクをもたらす可能性があります。このインシデントは、AIおよびビッグデータ分野におけるデータセキュリティとプライバシー保護の強化の必要性を強く認識させるものです。ユーザーはこれらのプラットフォームを利用する際に細心の注意を払う必要があり、組織は厳格なデータ利用ポリシーを確立し、機密データに対して暗号化、データ最小化、匿名化などの対策を実装する必要があります。そうしないと、重大な法的、評判、経済的影響が生じる可能性があります。

VERIZONイベント分類: Miscellaneous Errors

MITRE ATT&CKフレームワークマッピング:

T1071.001 (Application Layer Protocol - Web Protocols): 攻撃者は、OmniGPTのWebインターフェースを通じて、漏洩したユーザー情報や機密データにアクセスした可能性があります。
T1071.002 (Application Layer Protocol - Application Programming Interfaces): 漏洩したAPIキーとデータベース認証情報により、攻撃者はプラットフォームのAPIを通じてシステムにアクセスし、不正なアクションを実行できる可能性があります。
T1071.002 (Application Layer Protocol - Service Execution): 攻撃者は、システムサービスまたはデーモンを悪用して、コマンドまたはプログラムを実行する可能性があります。
T1020.003 (Automated Exfiltration - File Transfer): 漏洩したファイルリンクとユーザーがアップロードした機密ファイルは、攻撃者がダウンロードし、その後の攻撃のためにより多くの機密データを取得するための標的となる可能性があります。
T1083 (File and Directory Discovery): 攻撃者は、漏洩した情報を使用して、さらに重要なビジネス情報を取得する可能性があります。

インシデント5: Common CrawlでのDeepSeek認証情報の漏洩 – ハードコーディングの危険性

発生時期: 2025年2月28日

漏洩規模: 約11,908個の有効なDeepSeek APIキー、認証情報、認証トークン。

事象の展開:

Truffleセキュリティチームは、オープンソースツールTruffleHogを利用して、4,750万のホストからの26億7,000万のWebページを含むクローラーデータベースであるCommon Crawlの2024年12月からの400 TBのデータをスキャンしました。スキャンにより、驚くべき発見がありました。約11,908個の有効なDeepSeek APIキー、認証情報、認証トークンが、多数のWebページに直接ハードコーディングされていました。

この調査では、Mailchimp APIキーの漏洩も強調されており、約1,500個のキーがJavaScriptコードにハードコーディングされていることがわかりました。Mailchimp APIキーは、フィッシングやデータ窃盗攻撃によく悪用されます。

攻撃の分析:

Common Crawlは、非営利のWebクローラーデータベースであり、インターネットページから定期的にデータをキャプチャして公開しています。このデータはWARC (Web ARChive)ファイルに保存され、元のHTML、JavaScriptコード、サーバー応答が保持されます。これらのデータセットは、AIモデルのトレーニングによく使用されます。Truffleの調査は、重大な問題を明らかにしています。セキュリティ脆弱性を含むコーパスでモデルをトレーニングすると、モデルがそれらの脆弱性を継承する可能性があります。DeepSeekのようなLLMがトレーニングとデプロイ中に追加のセキュリティ対策を採用している場合でも、トレーニングデータにハードコーディングされた脆弱性が広く存在すると、モデルにとってそのような’安全でない’プラクティスが標準化される可能性があります。

ハードコーディングは、一般的ですが安全でないコーディングプラクティスであり、蔓延している問題です。根本原因は単純ですが、リスクは深刻です。データ漏洩、サービスの中断、サプライチェーン攻撃、そしてLLMの台頭に伴う新たな脅威であるLLMハイジャックです。前述のように、LLMハイジャックは、攻撃者が盗んだ認証情報を使用してクラウドでホストされているLLMサービスを悪用し、被害者に多大な経済的損失をもたらします。

VERIZONイベント分類: Miscellaneous Errors

MITRE ATT&CKフレームワークマッピング:

T1596.005 (Search Open Technical Database - Scan Databases): 攻撃者は、パブリッククローラーデータベースから情報を収集しました。
T1588.002 (Obtain Capabilities - Tool): 攻撃者は、機密情報発見ツールを展開しました。
T1586.003 (Compromise Accounts - Cloud Accounts): 攻撃者は、機密情報発見ツールを使用して、パブリックデータベース内の機密認証情報を発見しました。
T1090.002 (Proxy - External Proxy): 攻撃者は、OAIリバースプロキシソフトウェアを使用して、複数のLLMアカウントへのアクセスを管理しました。
T1496 (Resource Hijacking): 攻撃者は、LLMインジェクション攻撃を開始してLLMリソースをハイジャックしました。

LLMデータ漏洩の防止: 多面的なアプローチ

分析されたインシデントは、LLM関連のデータ漏洩から保護するための堅牢なセキュリティ対策の緊急の必要性を浮き彫りにしています。関連するインシデントごとに分類された予防戦略の内訳を以下に示します。

サプライチェーンの強化:

インシデントII (悪意のある依存関係パッケージ攻撃)およびインシデントV (パブリックデータ漏洩)に適用可能:

依存関係パッケージの信頼できる検証:
- PyPI/Sonatype Nexus Firewallなどのツールを使用して、署名されていない、または疑わしいソースの依存関係パッケージを傍受します。
- 開発環境でパブリックリポジトリから依存関係を直接取得することを禁止します。企業プライベートリポジトリプロキシ(Artifactoryなど)の使用を義務付けます。
サプライチェーン脅威モニタリング:
- Dependabot/Snykなどのツールを統合して、依存関係の脆弱性を自動的にスキャンし、高リスクコンポーネントの導入をブロックします。
- オープンソースパッケージのコード署名を検証して、ハッシュ値が公式のものと一致することを確認します。
データソースのクリーニング:
- トレーニングデータの収集中に、正規表現とAIベースの墨消しツールを使用して、パブリックデータセット(Common Crawlなど)から機密情報をフィルタリングし、二重検証を行います。

最小権限とアクセス制御の実装:

インシデントI (データベース設定エラー)およびインシデントIV (サードパーティツールデータ漏洩)に適用可能:

データベース(ClickHouseなど)の双方向TLS認証をデフォルトで有効にし、パブリックネットワーク上での管理ポートの露出を防ぎます。
Vault/Boundaryなどのソリューションを利用して、一時的な認証情報を動的に配布し、長期的な静的キーの保持を回避します。
最小権限の原則に従い、RBAC (Role-Based Access Control)を通じて、ユーザーアクセスを必要なリソースのみに制限します。
サードパーティツール(OmniGPTなど)へのAPI呼び出しに対して、IPホワイトリストとレート制限を実装します。

機密データのライフサイクル全体の保護の確保:

インシデントIII (LLMハイジャック)に適用可能:

データの墨消しと暗号化: ユーザーの入力データと出力データに対して、フィールドレベルの暗号化(AES-GCMなど)を強制します。ログ内の機密フィールドをマスクします。
LLMの対話型コンテンツに対してリアルタイムの墨消しを有効にします(クレジットカード番号や電話番号をプレースホルダーに置き換えるなど)。

これらの予防策は、継続的なセキュリティ監視とインシデント対応計画と組み合わせることで、LLMの使用の増加に伴うリスクを軽減するために不可欠です。LLMセキュリティの’見えない戦場’では、この急速に進化する技術環境において機密データを保護するために、絶え間ない警戒と積極的なアプローチが求められます。

更新日時: 2025-03-11

# LLM # AIGC # DeepSeek