開源LLM時代的數據暗戰 | zh-TW

一連串的資料外洩事件暴露了漏洞

DeepSeek 和 Ollama 等開源大型語言模型 (LLM) 的快速採用是一把雙刃劍。雖然企業正在利用這些強大的工具來提高效率，但其開放性卻導致數據安全風險激增。NSFOCUS Xingyun Lab 最近編制的一份報告描繪了一幅嚴峻的景象：僅在 2025 年的前兩個月，全球就發生了五起與 LLM 直接相關的重大數據洩露事件。這些事件導致大量敏感信息洩露，從機密聊天記錄和 API 金鑰到關鍵的用戶憑證。這些事件是一個警鐘，突顯了隱藏在尖端 AI 技術表面之下的、經常被忽視的安全漏洞。本文將剖析這五個事件，分析攻擊方法，將它們映射到已建立的 MITRE ATT&CK 框架，並揭示組織必須緊急解決的安全盲點。

事件一：DeepSeek 的錯誤配置資料庫 – 窺探私人對話的窗口

時間線： 2025 年 1 月 29 日

洩漏規模： 數百萬行日誌數據，包括敏感聊天記錄和訪問金鑰。

事件經過：

Wiz 的安全研究團隊啟動了這次發現。他們發現了一個暴露在公共互聯網上的 ClickHouse 服務。進一步調查證實，該服務屬於中國 AI 初創公司 DeepSeek。 ClickHouse 旨在有效處理分析處理中的大型數據集，不幸的是，它成為了 DeepSeek 內部數據的門戶。研究人員訪問了大約一百萬行 DeepSeek 的日誌流，揭示了大量敏感信息，包括歷史聊天記錄和關鍵的訪問金鑰。

Wiz 立即向 DeepSeek 通報了該漏洞，DeepSeek 立即採取行動並安全地處理了暴露的 ClickHouse 服務。

分析攻擊：

核心問題在於 ClickHouse 容易受到未經授權的訪問。 ClickHouse 是一個開源的列式資料庫管理系統，擅長於對海量數據進行實時查詢和分析，通常用於日誌和用戶行為分析。但是，如果在沒有適當的訪問控制的情況下部署，其暴露的 API 接口允許 任何人 執行類似 SQL 的命令。

Wiz 安全團隊的方法涉及對 DeepSeek 面向互聯網的子域進行系統掃描。最初專注於標準端口 80 和 443，他們發現了典型的 Web 資源，如聊天機器人界面和 API 文檔。為了擴大搜索範圍，他們擴展到不太常見的端口，如 8123 和 9000，最終發現了多個子域上的暴露服務。

自 2025 年 1 月 6 日起的受損日誌數據包含大量敏感信息：通話記錄、DeepSeek 內部 API 端點的文本記錄、詳細的聊天記錄、API 金鑰、後端系統詳細信息和操作元數據。

VERIZON 事件分類： Miscellaneous Errors

MITRE ATT&CK 框架映射：

T1590.002 (Collect Victim Network Information - Domain Name Resolution)： 攻擊者可能使用主域名來執行子域名枚舉。
T1046 (Web Service Discovery)： 攻擊者識別了與目標域關聯的開放端口和服務。
T1106 (Native Interface)： 攻擊者利用 ClickHouse API 與資料庫交互。
T1567 (Data Exfiltration via Web Service)： 攻擊者使用 ClickHouse API 竊取數據。

事件二：DeepSeek 的供應鏈攻擊 – 程式碼中的特洛伊木馬

時間線： 2025 年 2 月 3 日

洩漏規模： 用戶憑證和環境變量。

事件經過：

攻擊始於 2025 年 1 月 19 日，當時一位名為 ‘bvk’ 的惡意用戶向流行的 PyPI (Python Package Index) 存儲庫上傳了兩個名為 ‘deepseek’ 和 ‘deepseekai’ 的惡意 Python 包。

Positive Technologies Expert Security Center (PT ESC) 的威脅情報團隊在同一天檢測到了這種可疑活動。他們的分析證實了這些包的惡意性質，並立即通知了 PyPI 管理員。

PyPI 管理員迅速刪除了惡意軟件包並通知了 PT ESC。儘管反應迅速，但統計數據顯示，該惡意軟件已通過各種渠道在 17 個國家/地區被下載了 200 多次。隨後，惡意軟件包被隔離。

分析攻擊：

‘bvk’ 上傳的惡意軟件包主要集中在兩個目標：信息收集和竊取環境變量。被盜數據包括敏感信息，如資料庫憑證、API 金鑰和 S3 對象存儲的訪問憑證。每當用戶從命令行執行 DeepSeek 或 Deepseekai 時，就會觸發惡意負載。

攻擊者利用 PipeDream 作為命令和控制服務器來接收被盜數據。該事件突出了幾個促成因素：

依賴混淆攻擊： 攻擊者利用了組織的私有包和具有相同名稱的公共包之間的優先級差異。
包名稱冒充： 惡意軟件包模仿了知名 AI 公司 DeepSeek 的品牌名稱，以欺騙用戶。
PyPI 註冊弱點： PyPI 註冊過程缺乏對開發者身份和包名稱合法性的有效驗證。
開發者安全意識： 開發者可能錯誤地安裝了名稱相似的惡意軟件包。

VERIZON 事件分類： Social Engineering

MITRE ATT&CK 框架映射：

T1593.003 (Search Open Websites/Domains - Search Publicly Available Dependency Repository)： 攻擊者在 PyPI 上搜索了信息。
T1195.002 (Supply Chain Compromise - Compromise Software Supply Chain)： 攻擊者使用偽裝成 Python 依賴項的惡意軟件並將其上傳到 PyPI。
T1059.006 (Command and Scripting Interpreter - Python)： 攻擊者在包中植入了惡意程式碼，執行後會洩露敏感數據。
T1041 (Exfiltration Over C2 Channel)： 攻擊者通過 PipeDream C2 通道洩露了敏感信息。

事件三：LLM 劫持 – DeepSeek 成為資源盜竊的目標

時間線： 2025 年 2 月 7 日

洩漏規模： 非法使用了大約 20 億個模型 token。

事件經過：

Sysdig 威脅研究團隊最初於 2024 年 5 月發現了一種針對 LLM 的新型攻擊，稱為 ‘LLM jacking’ 或 ‘LLM hijacking’。

到 2024 年 9 月，Sysdig 報告稱這些攻擊的頻率和普遍性越來越高，DeepSeek 越來越成為目標。

2024 年 12 月 26 日，DeepSeek 發布了一個高級模型 DeepSeek-V3。不久之後，Sysdig 團隊發現 DeepSeek-V3 已在 Hugging Face 上託管的 OpenAI 反向代理 (ORP) 項目中實現。

2025 年 1 月 20 日，DeepSeek 發布了一個名為 DeepSeek-R1 的推理模型。就在第二天，出現了一個支持 DeepSeek-R1 的 ORP 項目，攻擊者開始利用它，用 DeepSeek API 金鑰填充多個 ORP。

Sysdig 的研究表明，通過 ORP 非法使用的大型模型 token 總數已超過 20 億。

分析攻擊：

LLM 劫持涉及攻擊者利用被盜的雲憑證來針對雲託管的 LLM 服務。攻擊者利用 OAI (OpenAI) 反向代理和被盜憑證來實質上出售對受害者訂閱的 LLM 服務的訪問權限。這會給受害者帶來巨大的雲服務成本。

OAI 反向代理充當訪問多個 LLM 帳戶的中央管理點，掩蓋了底層憑證和資源池。攻擊者可以在不付費的情況下使用像 DeepSeek 這樣的昂貴 LLM，通過反向代理引導請求，消耗資源，並繞過合法的服務費用。代理機制隱藏了攻擊者的身份，允許他們在未被發現的情況下濫用雲資源。

雖然 OAI 反向代理是 LLM 劫持的必要組件，但關鍵要素是竊取各種 LLM 服務的憑證和金鑰。攻擊者通常利用傳統的 Web 服務漏洞和配置錯誤（如 Laravel 框架中的 CVE-2021-3129 漏洞）來竊取這些憑證。獲得這些憑證後，就可以訪問基於雲的 LLM 服務，如 Amazon Bedrock、Google Cloud Vertex AI 等。

Sysdig 的研究表明，攻擊者可以在數小時內迅速將受害者的消費成本膨脹到數萬美元，在某些情況下，每天高達 100,000 美元。攻擊者的動機不僅僅是獲取數據；他們還通過出售訪問權限獲利。

VERIZON 事件分類： Basic Web Application Attacks

MITRE ATT&CK 框架映射：

T1593 (Search Open Websites/Domains)： 攻擊者使用 OSINT (Open-Source Intelligence) 方法收集有關暴露服務的信息。
T1133 (External Remote Services)： 攻擊者識別了暴露服務中的漏洞。
T1586.003 (Compromise Accounts - Cloud Accounts)： 攻擊者利用漏洞竊取 LLM 服務或雲服務憑證。
T1588.002 (Obtain Capabilities - Tool)： 攻擊者部署了一個開源的 OAI 反向代理工具。
T1090.002 (Proxy - External Proxy)： 攻擊者使用 OAI 反向代理軟件來管理對多個 LLM 帳戶的訪問。
T1496 (Resource Hijacking)： 攻擊者發起了 LLM 注入攻擊來劫持 LLM 資源。

事件四：OmniGPT 數據洩露 – 用戶數據在暗網上出售

時間線： 2025 年 2 月 12 日

洩漏規模： 超過 30,000 名用戶的個人信息，包括電子郵件、電話號碼、API 金鑰、加密金鑰、憑證和賬單信息。

事件經過：

2025 年 2 月 12 日，一位名為 ‘SyntheticEmotions’ 的用戶在 BreachForums 上發帖，聲稱已從 OmniGPT 平台竊取了敏感數據並將其出售。據報導，洩露的數據包括超過 30,000 名 OmniGPT 用戶的電子郵件、電話號碼、API 金鑰、加密金鑰、憑證和賬單信息，以及超過 3400 萬行他們與聊天機器人的對話。此外，上傳到平台的文件鏈接也遭到洩露，其中一些包含敏感信息，如優惠券和賬單數據。

分析攻擊：

雖然確切的攻擊媒介尚未披露，但洩露數據的類型和範圍表明了幾種可能性：SQL 注入、API 濫用或社會工程攻擊可能使攻擊者能夠訪問後端資料庫。 OmniGPT 平台也可能存在配置錯誤或漏洞，允許攻擊者繞過身份驗證並直接訪問包含用戶信息的資料庫。

涉及二次洩露的 ‘Messages.txt’ 文件包含 API 金鑰、資料庫憑證和支付卡信息，可能導致進一步入侵其他系統或篡改數據。平台用戶上傳的一些文件包含敏感的商業機密和項目數據，如果被濫用，可能會對業務運營構成風險。這一事件嚴厲地提醒人們，在 AI 和大數據領域需要加強數據安全和隱私保護。用戶在使用這些平台時應格外謹慎，組織必須建立嚴格的數據使用政策，對敏感數據實施加密、數據最小化和匿名化等措施。否則，可能會導致重大的法律、聲譽和經濟後果。

VERIZON 事件分類： Miscellaneous Errors

MITRE ATT&CK 框架映射：

T1071.001 (Application Layer Protocol - Web Protocols)： 攻擊者可能通過 OmniGPT 的 Web 界面訪問洩露的用戶信息和敏感數據。
T1071.002 (Application Layer Protocol - Application Programming Interfaces)： 洩露的 API 金鑰和資料庫憑證可能允許攻擊者通過平台的 API 訪問系統並執行未經授權的操作。
T1071.002 (Application Layer Protocol - Service Execution)： 攻擊者可能濫用系統服務或守護進程來執行命令或程序。
T1020.003 (Automated Exfiltration - File Transfer)： 洩露的文件鏈接和用戶上傳的敏感文件可能成為攻擊者下載的目標，獲取更多敏感數據以進行後續攻擊。
T1083 (File and Directory Discovery): 攻擊者可以利用洩露的資訊進一步獲取關鍵的商業資訊。

事件五：DeepSeek 憑證在 Common Crawl 中洩露 – 硬編碼的危險

時間線： 2025 年 2 月 28 日

洩漏規模： 大約 11,908 個有效的 DeepSeek API 金鑰、憑證和身份驗證 token。

事件經過：

Truffle 安全團隊利用開源工具 TruffleHog 掃描了 Common Crawl 中 2024 年 12 月的 400 TB 數據，Common Crawl 是一個包含來自 4750 萬個主機的 26.7 億個網頁的爬蟲資料庫。掃描揭示了一個驚人的發現：大約 11,908 個有效的 DeepSeek API 金鑰、憑證和身份驗證 token 被直接硬編碼到許多網頁中。

該研究還強調了 Mailchimp API 金鑰的洩露，發現大約 1,500 個金鑰被硬編碼在 JavaScript 程式碼中。 Mailchimp API 金鑰經常被用於網絡釣魚和數據盜竊攻擊。

分析攻擊：

Common Crawl 是一個非營利性的網絡爬蟲資料庫，定期捕獲和發布來自互聯網頁面的數據。它將這些數據存儲在 WARC (Web ARChive) 文件中，保留原始的 HTML、JavaScript 程式碼和服務器響應。這些數據集經常用於訓練 AI 模型。 Truffle 的研究暴露了一個關鍵問題：在包含安全漏洞的語料庫上訓練模型會導致模型繼承這些漏洞。即使像 DeepSeek 這樣的 LLM 在訓練和部署期間採用了額外的安全措施，訓練數據中廣泛存在的硬編碼漏洞也會使模型將這種 ‘不安全’ 的做法正常化。

硬編碼是一種常見但不安全的編碼做法，是一個普遍存在的問題。雖然根本原因很簡單，但風險卻很嚴重：數據洩露、服務中斷、供應鏈攻擊，以及隨著 LLM 的興起，一種新的威脅 – LLM 劫持。如前所述，LLM 劫持涉及攻擊者使用被盜憑證來利用雲託管的 LLM 服務，給受害者造成巨大的經濟損失。

VERIZON 事件分類： Miscellaneous Errors

MITRE ATT&CK 框架映射：

T1596.005 (Search Open Technical Database - Scan Databases)： 攻擊者從公共爬蟲資料庫中收集信息。
T1588.002 (Obtain Capabilities - Tool)： 攻擊者部署了一個敏感信息發現工具。
T1586.003 (Compromise Accounts - Cloud Accounts)： 攻擊者使用敏感信息發現工具在公共資料庫中查找敏感憑證。
T1090.002 (Proxy - External Proxy)： 攻擊者使用 OAI 反向代理軟件來管理對多個 LLM 帳戶的訪問。
T1496 (Resource Hijacking)： 攻擊者發起了 LLM 注入攻擊來劫持 LLM 資源。

預防 LLM 數據洩露：多管齊下的方法

所分析的事件突出了對強有力的安全措施的迫切需求，以防止與 LLM 相關的數據洩露。以下是預防策略的細分，按相關事件分類：

加強供應鏈：

適用於事件二（惡意依賴包攻擊）和事件五（公共數據洩露）：

依賴包的可信驗證：
- 使用 PyPI/Sonatype Nexus Firewall 等工具來攔截未簽名或來源可疑的依賴包。
- 禁止在開發環境中直接從公共存儲庫獲取依賴項。強制使用企業私有存儲庫代理（例如 Artifactory）。
供應鏈威脅監控：
- 集成 Dependabot/Snyk 等工具來自動掃描依賴項漏洞並阻止引入高風險組件。
- 驗證開源軟件包的程式碼簽名，以確保哈希值與官方值匹配。
數據源清理：
- 在訓練數據收集期間，使用正則表達式和基於 AI 的編輯工具從公共數據集（如 Common Crawl）中過濾敏感信息，以進行雙重驗證。

實施最小權限和訪問控制：

適用於事件一（資料庫配置錯誤）和事件四（第三方工具數據洩露）：

默認情況下為資料庫（如 ClickHouse）啟用雙向 TLS 身份驗證，並防止在公共網絡上暴露管理端口。
利用 Vault/Boundary 等解決方案來動態分發臨時憑證，避免長期保留靜態金鑰。
遵循最小權限原則，通過 RBAC (Role-Based Access Control) 將用戶訪問權限限制為僅必要的資源。
對第三方工具（如 OmniGPT）的 API 調用實施 IP 白名單和速率限制。

確保敏感數據的全生命週期保護：

適用於事件三（LLM 劫持）：

數據編輯和加密： 對用戶輸入和輸出數據強制執行字段級加密（例如 AES-GCM）。在日誌中屏蔽敏感字段。
為 LLM 的交互內容啟用實時編輯（例如，用佔位符替換信用卡號和電話號碼）。

這些預防措施，加上持續的安全監控和事件響應計劃，對於減輕與 LLM 使用日益增長相關的風險至關重要。 LLM 安全的 ‘隱形戰場’ 需要持續保持警惕，並採取積極主動的方法來保護這個快速發展的技術領域中的敏感數據。

更新於 2025-03-11

# LLM # AIGC # DeepSeek