擔心DeepSeek?Gemini才是數據收集大戶

DeepSeek爭議與美國科技產業的回應

人工智慧的興起帶來了許多便利的工具,但也引發了關於數據隱私的激烈爭論。隨著AI聊天機器人日益融入我們的日常生活,這些平台收集了多少個人資訊的問題變得至關重要。雖然最近的擔憂主要集中在像DeepSeek這樣的中國AI模型上,但更仔細的審查揭示了一個令人驚訝的事實:一些最受歡迎的美國AI聊天機器人在數據收集方面可能更加貪婪。

一月份,中國公司DeepSeek推出了其旗艦開源AI模型。 這一首次亮相在美國科技產業中引起了陣陣擔憂。 幾乎立刻,出現了一連串關於隱私和安全的擔憂。 由於擔心潛在風險,私人和政府組織迅速採取行動,禁止在國內和國際上使用DeepSeek。

擔憂的核心在於,DeepSeek起源於中國,對美國公眾構成了更大的風險。 人們經常提到對監控、網路戰和其他國家安全威脅的恐懼。 DeepSeek隱私政策中的一項特定條款加劇了這些擔憂,該條款指出:「我們從您那裡收集的個人資訊可能會存儲在您居住國家/地區以外的伺服器上。我們將收集到的資訊存儲在位於中華人民共和國的安全伺服器中。」

這句看似無關緊要的聲明被一些人解讀為中國政府獲取敏感用戶數據的潛在途徑。 全球AI發展的迅速推進,以及人們所認為的美國和中國之間的「AI軍備競賽」,只會加劇這些擔憂,營造出一種深刻的不信任氣氛,並引發道德問題。

一個令人驚訝的發現:Gemini的數據胃口

然而,在圍繞DeepSeek的喧囂中,出現了一個令人驚訝的啟示。儘管中國AI模型受到了嚴格的審查,但事實證明,DeepSeek並不是聊天機器人領域最重要的數據收集者。知名VPN供應商Surfshark最近的一項調查揭示了一些最受歡迎的AI聊天機器人應用程式的數據收集做法。

研究人員仔細分析了十個著名聊天機器人的隱私細節,這些聊天機器人都可以在Apple App Store上輕鬆獲得:ChatGPT、Gemini、Copilot、Perplexity、DeepSeek、Grok、Jasper、Poe、Claude和Pi。他們的分析集中在三個關鍵方面:

  1. **收集的數據類型:**每個應用程式收集哪些特定類別的用戶資訊?
  2. **數據連結:**收集的數據是否與用戶的身份直接關聯?
  3. **第三方廣告商:**應用程式是否與外部廣告實體共享用戶數據?

調查結果令人震驚。 Google的Gemini成為數據最密集的AI聊天機器人應用程式,其收集的個人資訊的數量和種類遠遠超過其競爭對手。 該應用程式收集了35種可能的用戶數據類型中的22種,令人震驚。 這包括高度敏感的數據,例如:

  • **精確位置數據:**精確定位用戶的地理位置。
  • **用戶內容:**捕獲應用程式內用戶互動的內容。
  • **聯絡人清單:**訪問用戶的設備聯絡人。
  • **瀏覽歷史記錄:**追蹤用戶的網路瀏覽活動。

這種廣泛的數據收集遠遠超過了研究中檢查的其他流行的聊天機器人。 備受爭議的DeepSeek在十個應用程式中排名第五,收集了相對適中的11種獨特數據類型。

位置數據和第三方共享:更仔細的觀察

該研究還揭示了有關位置數據和與第三方共享數據的令人擔憂的趨勢。 只有Gemini、Copilot和Perplexity被發現收集精確的位置數據,這是一種高度敏感的資訊,可以揭示用戶的移動和習慣。

更廣泛地說,大約30%的被分析的聊天機器人被發現與外部實體(如數據經紀人)共享敏感的用戶數據,包括位置數據和瀏覽歷史記錄。 這種做法引起了嚴重的隱私問題,因為它將用戶資訊暴露給更廣泛的參與者網路,其目的可能超出用戶的知情或控制範圍。

追蹤用戶數據:定向廣告及其他

另一個令人震驚的發現是追蹤用戶數據以進行定向廣告和其他目的的做法。 30%的聊天機器人,特別是Copilot、Poe和Jasper,被發現收集數據來追蹤其用戶。 這意味著從應用程式收集的用戶數據與第三方數據相關聯,從而實現定向廣告或衡量廣告效果。

Copilot和Poe被發現為此目的收集設備ID,而Jasper則更進一步,不僅收集設備ID,還收集產品互動數據、廣告數據以及「關於用戶在應用程式中活動的任何其他數據」,Surfshark的專家表示。

DeepSeek:不是最好的,也不是最差的

備受爭議的DeepSeek R1模型雖然受到嚴格審查,但在數據收集方面處於中間位置。 它平均收集11種獨特的數據類型,主要關注:

  • **聯絡資訊:**姓名、電子郵件地址、電話號碼等。
  • **用戶內容:**用戶在應用程式內生成的內容。
  • **診斷:**與應用程式性能和故障排除相關的數據。

雖然不是最尊重隱私的聊天機器人,但DeepSeek的數據收集做法不如其一些美國同行(尤其是Gemini)廣泛。

ChatGPT:比較視角

為了進行比較,ChatGPT(最廣泛使用的AI聊天機器人之一)收集10種獨特類型的數據。 這包括:

  • 聯絡資訊
  • 用戶內容
  • 識別碼
  • 使用數據
  • 診斷

值得注意的是,ChatGPT也會累積聊天記錄。 但是,用戶可以選擇使用「臨時聊天」,這項功能的設計目的是通過不存儲對話歷史記錄來減輕這種情況。

DeepSeek的隱私政策:用戶控制和數據刪除

DeepSeek的隱私政策雖然是一些人擔憂的根源,但確實包含了用戶控制聊天記錄的條款。 該政策規定,用戶可以管理他們的聊天記錄,並可以選擇通過其設定刪除它。 這提供了一定程度的控制,而這在其他聊天機器人應用程式中並不總是存在。

更廣泛的背景:AI發展與美中動態

圍繞DeepSeek的擔憂,以及關於AI數據隱私的更廣泛辯論,與全球AI發展的迅速加速以及人們所認為的美國和中國之間的AI軍備競賽密不可分。 這種地緣政治背景為這個問題增加了另一層複雜性,加劇了對國家安全和濫用AI技術的可能性的擔憂。

然而,Surfshark研究的結果是一個重要的提醒,即數據隱私問題不僅限於在特定國家/地區開發的AI模型。 在分析的流行聊天機器人中,最惡劣的數據收集者實際上是一個美國應用程式。 這強調需要一種更細緻和全面的方法來處理AI數據隱私,這種方法超越國界,關注個別公司的做法以及他們實施的保障措施。 用戶必須了解他們使用的AI工具的數據收集做法,無論其來源如何,並且必須制定強有力的法規,以在快速發展的AI領域保護用戶隱私。 重點應該是建立明確的數據收集、使用和共享標準,確保透明度和用戶控制,並讓公司對其數據做法負責。