DeepSeek AI引发争议:Gemini是否参与其中?

人工智能领域近日因 DeepSeek 推出的增强版 R1 推理模型而引发热议。这家中国人工智能实验室发布了一款在数学和编程基准测试中表现出令人印象深刻能力的模型。然而,用于训练该模型的数据来源已成为讨论的焦点,一些人工智能研究人员认为可能与谷歌的 Gemini AI 家族存在关联。

DeepSeek 的 R1 模型:更深入的了解

DeepSeek 的 R1 推理模型因其在数学问题解决和编码任务等领域的出色表现而备受关注。该公司不愿透露模型训练中使用的具体数据来源,这加剧了人工智能研究界的猜测。

关于 Gemini 影响的指控

争论的核心在于 DeepSeek 可能利用了谷歌 Gemini 的输出来增强其自身模型。专门从事“情商”评估的人工智能开发者 Sam Paech 提出了证据,表明 DeepSeek 的 R1-0528 模型表现出对 Google Gemini 2.5 Pro 所偏爱的语言和表达方式的偏好。虽然仅凭这一观察结果并不能构成确凿的证据,但它加剧了正在进行的讨论。

专注于言论自由的人工智能评估工具“SpeechMap”的匿名创建者也补充说, DeepSeek 模型生成的“想法”——它用来得出结论的内部推理过程——与 Gemini 的追踪模式相似。这进一步加剧了关于 DeepSeek 是否使用了谷歌 Gemini 家族数据的疑问。

此前的指控和 OpenAI 的担忧

这并非 DeepSeek 首次面临利用竞争对手人工智能模型数据的指控。去年 12 月,有人观察到 DeepSeek 的 V3 模型经常将自己识别为 OpenAI 广泛使用的人工智能聊天机器人 ChatGPT。这导致人们怀疑该模型可能是在 ChatGPT 聊天记录上训练的。

更令人好奇的是,据报道,OpenAI 今年早些时候发现了将 DeepSeek 与蒸馏技术联系起来的证据。蒸馏技术是一种从更大、更强大的人工智能模型中提取数据来训练较小模型的技术。据报道,微软作为 OpenAI 的主要合作者和投资者,在 2024 年底检测到通过 OpenAI 开发者帐户发生了大量数据外泄。 OpenAI 认为这些帐户与 DeepSeek 相关联。

虽然蒸馏是人工智能领域中的常见做法,但 OpenAI 的服务条款明确禁止用户使用该公司的模型输出来创建竞争性人工智能系统。这引发了对潜在违反 OpenAI 政策的担忧。

人工智能“污染”的挑战

重要的是要考虑到人工智能模型在训练过程中可能会收敛于类似的词汇和措辞。这主要是因为开放网络(人工智能公司培训数据的主要来源)正日益被人工智能生成的内容所饱和。内容农场使用人工智能来制作点击诱饵文章,而机器人则用人工智能生成的帖子淹没 Reddit 和 X 等平台。

这种数据环境的“污染”使得从训练数据集中有效过滤人工智能生成的内容变得具有挑战性。因此,辨别模型的输出是真正源自另一个模型的数据,还是仅仅反映了网络上无处不在的人工智能生成内容,可能会很困难。

专家对此事的看法

尽管在明确证明这种联系方面存在挑战,但人工智能研究机构 AI2 的研究员 Nathan Lambert 等人工智能专家认为, DeepSeek 在谷歌 Gemini 的数据上进行训练的可能性是存在的。 Lambert 认为, DeepSeek 在 GPU 可用性方面面临限制,但拥有充足的财政资源,可能发现利用现有最佳 API 模型生成的合成数据效率更高。

人工智能公司加强安全措施

对蒸馏和未经授权的数据使用的担忧正在推动人工智能公司加强其安全措施。例如,OpenAI 现在要求组织完成身份验证流程才能访问某些高级模型。此过程需要由 OpenAI 的 API 支持的国家/地区颁发的政府颁发的身份证,但不包括中国。

谷歌也已采取措施来降低蒸馏的可能性。他们最近开始“总结”通过其 AI Studio 开发者平台提供的模型生成的追踪信息。这使得通过从 Gemini 追踪信息中提取详细信息来训练竞争模型变得更加困难。同样,Anthropic 也宣布了总结其自身模型追踪信息的计划,理由是需要保护其“竞争优势”。

对人工智能格局的影响

围绕 DeepSeek 的争议以及谷歌 Gemini 数据的潜在使用凸显了人工智能领域中的几个关键问题:

  • 数据伦理和负责任的人工智能开发: 随着人工智能模型变得越来越复杂,围绕数据来源和使用的伦理考量变得至关重要。人工智能公司需要确保他们遵守伦理准则并尊重他人的知识产权。
  • 人工智能生成内容的影响: 人工智能生成内容在网络上的激增对人工智能训练提出了挑战。随着数据变得越来越“污染”,确保人工智能模型的质量和完整性变得越来越困难。
  • 透明度和问责制的需求: 人工智能公司应公开其数据来源和培训方法。这将有助于建立信任并确保人工智能得到负责任的开发和使用。
  • 强大安全措施的重要性: 随着人工智能行业变得更具竞争力,人工智能公司需要实施强大的安全措施来防止未经授权访问其数据和模型。

人工智能开发的未来

DeepSeek 争议提醒我们人工智能行业面临着复杂的伦理和技术挑战。随着人工智能的不断发展,人工智能公司、研究人员和政策制定者共同努力,以确保人工智能以造福社会的方式进行开发和使用至关重要。这包括促进透明度、问责制和合乎道德的数据实践。

持续的辩论: 对 DeepSeek 的指控凸显了人们对数据隐私、安全和道德人工智能开发的日益增长的担忧。数据来源缺乏透明度,以及合法数据收集和未经授权的数据抓取之间日益模糊的界限,要求人工智能社区内制定明确的法规和负责任的做法。随着技术的进步,该行业必须处理诸如知识产权、"人工智能污染"的风险以及意外后果的可能性等问题。

人工智能训练数据的伦理: 围绕 DeepSeek 的争议也凸显了在积累人工智能模型训练数据时需要考虑的伦理因素。随着越来越依赖从互联网上抓取的庞大数据集,诸如谁拥有数据,如何获得(或忽略)同意以及数据是否以公平和负责任的方式使用等问题变得越来越紧迫。人工智能社区必须建立明确的数据来源指南,尊重版权法,保护个人信息并减轻偏见。

人工智能主导地位的竞争: 对 DeepSeek 的指控也可以被解释为反映了美国和中国之间激烈的人工智能主导地位竞争。两国都在向人工智能研发投入数十亿美元,而取得突破的压力正在加剧竞争,并可能导致偷工减料。如果 DeepSeek 确实未经许可使用 OpenAI 或 Google 的数据,则可以将其解释为长期困扰美中科技关系的激进策略和知识产权盗窃的一个例子。

人工智能生态系统的更广泛影响: 虽然目前的重点是 DeepSeek,但此案可能会对整个人工智能生态系统产生更广泛的影响。如果事实证明 DeepSeek 非法使用了来自 ChatGPT 或 Gemini 的数据,它可能会促使其他公司严格审核其自身的数据来源实践,从而可能减慢开发速度并增加成本。这也可能导致对数据收集和使用的更严格的监管,不仅在美国和中国,而且在全球范围内。

合成生成数据的影响: Lambert 提出的合成数据作为训练模型的可行替代方案的出现,引发了关于人工智能开发未来的根本性问题。虽然合成数据集绕过了一些与真实世界数据相关的伦理和版权问题,但基于合成数据训练的模型的性能和鲁棒性通常无法与基于原始数据训练的模型的性能和鲁棒性相媲美。人工智能社区需要找到创新的方法来生成复杂的合成数据集,以满足行业的需求,而不会损害准确性和可靠性。

模型摘要作为一种数据治理形式: 谷歌和 Anthropic 最近决定开始“总结”其模型生成的跟踪信息表明了数据治理在人工智能行业中日益增长的重要性。通过混淆模型决策过程中的详细信息,公司使其很难让其他人逆向工程他们的技术。这种方法可以帮助保护商业秘密并维护符合道德的数据来源实践,但它也引发了关于人工智能系统的透明度和可解释性的问题。

在创新与伦理和法律考量之间取得平衡: DeepSeek 争议强调需要在鼓励人工智能创新与保护知识产权和确保持续遵守伦理原则之间取得谨慎的平衡。随着人工智能模型在复杂性和复杂性方面的不断增长,该行业面临的伦理和法律挑战只会变得更加突出。在这两种担忧之间找到适当的平衡对于促进人工智能的负责任和可持续发展至关重要。