担心DeepSeek？其实Gemini才是数据收集大户 | zh-CN

DeepSeek争议与美国科技行业的回应

一月份，中国公司DeepSeek推出了其旗舰开源AI模型。这一发布在美国科技行业引起了不小的震动。几乎立刻，关于隐私和安全的担忧声此起彼伏。私营和政府组织出于对潜在风险的焦虑，迅速采取行动，禁止DeepSeek在国内和国际上的使用。

这种担忧的核心在于，DeepSeek源自中国，被认为对美国公众构成了更高的风险。对监控、网络战和其他国家安全威胁的担忧经常被提及。DeepSeek隐私政策中的一项特定条款加剧了这些担忧，该条款指出：“我们从您那里收集的个人信息可能会存储在您居住国家/地区以外的服务器上。我们将收集到的信息存储在位于中华人民共和国的安全服务器中。”

这一看似无害的声明被一些人解读为中国政府可能访问敏感用户数据的潜在途径。全球人工智能发展的迅速推进，以及美中之间所谓的“AI军备竞赛”，只会放大这些担忧，营造出一种深刻的不信任氛围，并引发了伦理问题。

令人惊讶的发现：Gemini的数据胃口

然而，在围绕DeepSeek的喧嚣中，一个令人惊讶的发现出现了。尽管中国AI模型受到了严格审查，但事实证明，DeepSeek并不是聊天机器人领域最大的数据收集者。知名VPN提供商Surfshark最近的一项调查揭示了一些最受欢迎的AI聊天机器人应用程序的数据收集行为。

研究人员仔细分析了十个著名聊天机器人的隐私细节，这些聊天机器人都在Apple App Store上可以轻松获得：ChatGPT、Gemini、Copilot、Perplexity、DeepSeek、Grok、Jasper、Poe、Claude和Pi。他们的分析集中在三个关键方面：

**收集的数据类型：**每个应用程序收集哪些特定类别的用户信息？
**数据关联：**收集的任何数据是否直接与用户的身份相关联？
**第三方广告商：**应用程序是否与外部广告实体共享用户数据？

调查结果令人震惊。Google的Gemini成为了数据最密集的AI聊天机器人应用程序，其收集的个人信息的数量和种类都远超其竞争对手。该应用程序收集了多达35种可能的用户数据类型中的22种。这包括高度敏感的数据，例如：

**精确位置数据：**精确定位用户的地理位置。
**用户内容：**捕获用户在应用程序内的交互内容。
**联系人列表：**访问用户的设备联系人。
**浏览历史：**跟踪用户的网络浏览活动。

这种广泛的数据收集远远超过了研究中检查的其他流行的聊天机器人。备受争议的DeepSeek在十个应用程序中排名第五，收集了相对适中的11种独特数据类型。

位置数据和第三方共享：更深入的观察

该研究还揭示了有关位置数据和与第三方共享数据的令人担忧的趋势。只有Gemini、Copilot和Perplexity被发现收集精确的位置数据，这是一种高度敏感的信息，可以揭示用户的活动和习惯。

更广泛地说，大约30%的被分析的聊天机器人被发现与外部实体（如数据经纪人）共享敏感的用户数据，包括位置数据和浏览历史。这种做法引起了严重的隐私问题，因为它将用户信息暴露给更广泛的行为者网络，可能用于超出用户知情或控制的目的。

跟踪用户数据：定向广告及其他

另一个令人担忧的发现是跟踪用户数据以进行定向广告和其他目的的做法。30%的聊天机器人，特别是Copilot、Poe和Jasper，被发现收集数据以跟踪其用户。这意味着从应用程序收集的用户数据与第三方数据相关联，从而实现定向广告或衡量广告效果。

Copilot和Poe被发现为此目的收集设备ID，而Jasper则更进一步，不仅收集设备ID，还收集产品交互数据、广告数据和“关于用户在应用程序中活动的任何其他数据”，根据Surfshark的专家的说法。

DeepSeek：不是最好，也不是最差

备受争议的DeepSeek R1模型虽然受到了严格的审查，但在数据收集方面处于中间位置。它平均收集11种独特的数据类型，主要关注：

**联系信息：**姓名、电子邮件地址、电话号码等。
**用户内容：**用户在应用程序内生成的内容。
**诊断：**与应用程序性能和故障排除相关的数据。

虽然不是最尊重隐私的聊天机器人，但DeepSeek的数据收集行为不如其一些美国同行（尤其是Gemini）那么广泛。

ChatGPT：比较视角

为了进行比较，ChatGPT（最广泛使用的AI聊天机器人之一）收集10种独特类型的数据。这包括：

联系信息
用户内容
标识符
使用数据
诊断

重要的是要注意，ChatGPT也会积累聊天记录。但是，用户可以选择使用“临时聊天”，该功能旨在通过不存储对话历史记录来减轻这种情况。

DeepSeek的隐私政策：用户控制和数据删除

DeepSeek的隐私政策虽然是一些人担忧的根源，但确实包含了用户控制聊天记录的条款。该政策规定，用户可以管理他们的聊天记录，并可以选择通过他们的设置删除它。这提供了一定程度的控制，而这在其他聊天机器人应用程序中并不总是存在。

更广泛的背景：人工智能发展与中美动态

围绕DeepSeek的担忧，以及关于人工智能数据隐私的更广泛的辩论，与全球人工智能发展的迅速加速以及中美之间所谓的AI军备竞赛密不可分。这种地缘政治背景为这个问题增加了另一层复杂性，加剧了对国家安全和人工智能技术可能被滥用的担忧。

然而，Surfshark研究的结果是一个重要的提醒，即数据隐私问题不仅限于在特定国家/地区开发的AI模型。在分析的流行聊天机器人中，最严重的数据收集者实际上是一个美国的应用程序。这强调了需要一种更细致和全面的方法来处理人工智能数据隐私，这种方法超越国界，关注各个公司的做法以及他们实施的保障措施。至关重要的是，用户要了解他们使用的AI工具的数据收集做法，无论其来源如何，并且要制定强有力的法规来保护用户在快速发展的人工智能领域的隐私。重点应放在建立明确的数据收集、使用和共享标准，确保透明度和用户控制，并让公司对其数据行为负责。

更新于 2025-03-15

# Google # Gemini # Chatbot