DeepSeek AI训练遭质疑:Gemini是否参与?

近期出现猜测,认为中国人工智能实验室 DeepSeek 可能使用了谷歌的 Gemini AI 模型的数据来训练其最新版本的 R1 推理 AI 模型。该模型在数学和编码基准测试中表现出了强大的性能。 虽然 DeepSeek 对用于训练 R1 的数据来源保持沉默,但一些 AI 研究人员提出,Gemini,或至少是 Gemini 的一部分,发挥了作用。

证据与指控

Sam Paech 是一位位于墨尔本的开发人员,专门为 AI 创建“情商”评估。他提出了他认为 DeepSeek 模型是使用 Gemini 生成的输出进行训练的证据。Paech 在 X (原 Twitter) 上的一篇文章中指出,DeepSeek 的模型,特别是 R1-0528 版本,表现出对类似于谷歌 Gemini 2.5 Pro 所偏好的语言和表达方式的偏好。

此外,另一位以 SpeechMap 的创建者身份运营的开发人员,SpeechMap 是一个用于 AI 的“言论自由评估”工具,他观察到 DeepSeek 的模型在得出结论时生成的“想法”与 Gemini 追踪非常相似。 这一观察结果为这些说法增加了另一层有趣的色彩。

这并非 DeepSeek 首次面临利用来自竞争性 AI 模型的数据的指控。早在 12 月,开发人员就注意到 DeepSeek 的 V3 模型经常将自己识别为 ChatGPT,OpenAI 的热门聊天机器人平台。 这表明该模型已经接受了 ChatGPT 聊天记录的训练,引发了对数据使用实践的担忧。

更深层的指控:蒸馏与数据泄露

今年早些时候,OpenAI 向《金融时报》透露,他们发现有证据表明 DeepSeek 使用了一种称为蒸馏的技术。 蒸馏涉及通过从更大、更复杂的模型中提取数据来训练 AI 模型。彭博社报道称,OpenAI 的主要合作者和投资者 Microsoft 发现,在 2024 年底,通过 OpenAI 开发人员帐户发生了大量数据泄露。 OpenAI 认为这些帐户与 DeepSeek 有关。

蒸馏虽然本身并不一定是不道德的,但在违反服务条款时会变得有问题。 OpenAI 的条款明确禁止客户使用该公司的模型输出来开发竞争性 AI 系统。 这引发了关于 DeepSeek 是否遵守这些条款的严重问题。

AI 训练数据的浑水

重要的是要承认 AI 模型经常错误地识别自己,并且会收敛于相似的词语和短语。 这是由于开放网络的性质,开放网络是许多 AI 公司的主要训练数据来源。 网络上越来越多的内容充斥着 AI 生成的内容。 内容农场正在使用 AI 来制作点击诱饵,而机器人正在用 AI 生成的帖子淹没 Reddit 和 X 等平台。

这种“污染”使得从训练数据集中有效过滤 AI 输出变得非常具有挑战性,从而进一步复杂化了 DeepSeek 是否有意使用 Gemini 数据的问题。

专家意见与观点

尽管在明确证明这些说法方面存在挑战,但一些 AI 专家认为 DeepSeek 使用谷歌 Gemini 的数据进行训练是合理的。非营利 AI 研究机构 AI2 的研究员 Nathan Lambert 在 X 上表示:“如果我是 DeepSeek,我肯定会从最好的 API 模型中创建大量合成数据。[DeepSeek] 缺乏 GPU,但现金充足。从实际上来说,这对他们来说是更多的计算能力。”

Lambert 的观点强调了 DeepSeek 利用现有 AI 模型来增强自身能力的潜在经济动机,特别是在其资源有限的情况下。

安全措施与对策

AI 公司一直在加强安全措施,部分是为了防止像蒸馏这样的行为。 OpenAI 在 4 月份开始要求组织完成 ID 验证过程才能访问某些高级模型。 此过程涉及提交 OpenAI API 支持的国家/地区颁发的政府签发的 ID。值得注意的是,中国不在列表中。

在另一项举措中,谷歌最近开始“总结”通过其 AI Studio 开发人员平台提供的模型生成的追踪。 这一行动使得在 Gemini 追踪上训练竞争对手的模型变得更加困难。 同样,Anthropic 在五月份宣布,它将开始总结自己模型的追踪,理由是需要保护其“竞争优势”。 这些措施表明人们越来越意识到 AI 模型输出的潜在滥用,并正在积极努力减轻此类风险。

影响与后果

对 DeepSeek 的指控引发了关于 AI 训练实践的伦理和合法性的重大问题。 如果 DeepSeek 确实使用了 Gemini 数据来训练其 R1 模型,它可能会面临法律后果和声誉损害。 这种情况也突显了 AI 行业需要更大的透明度和监管,特别是在数据采购和使用方面。

对 DeepSeek 的指控强调了一个关键困境:如何在 AI 领域的创新和进步的愿望与保护知识产权和确保公平竞争的需要之间取得平衡。AI 行业正在迅速发展,清晰的指导方针和伦理框架对于驾驭复杂的法律和伦理环境至关重要。公司必须对其数据来源保持透明,并遵守服务条款协议,以维持信任并避免潜在的法律责任。

此外,AI 生成的内容污染训练数据集的问题对整个 AI 社区提出了重大挑战。 随着 AI 模型越来越擅长生成令人信服的文本、图像和其他形式的内容,区分人工生成数据和 AI 生成数据变得越来越困难。 这种“污染”可能导致 AI 模型的同质化,它们都开始表现出相似的偏差和局限性。

为了应对这一挑战,AI 公司需要投资更复杂的数据过滤技术,并探索替代训练数据来源。 他们还需要更透明地了解其训练数据集的组成以及用于过滤掉 AI 生成内容的方法。

驾驭 AI 训练的未来

DeepSeek 的争议强调了迫切需要对 AI 训练的未来进行更细致的讨论。 随着 AI 模型变得越来越强大,数据变得越来越稀缺,公司可能会试图偷工减料并从事不道德或非法的行为。 然而,这些行为最终会破坏 AI 行业的长期可持续性和可信度。

需要研究人员、政策制定者和行业领导者共同努力,制定促进负责任的 AI 发展的道德准则和法律框架。 这些准则应解决诸如数据采购、透明度和问责制等问题。 它们还应激励公司投资于合乎道德且可持续的 AI 培训实践。

AI 培训未来的关键考虑因素:

  • 透明度: 公司应该对其用于训练 AI 模型的数据来源以及用于过滤掉 AI 生成内容的方法保持透明。
  • 伦理: AI 开发应遵守促进公平、问责制和尊重知识产权的伦理原则。
  • 监管: 政策制定者应创建清晰的法律框架,以应对 AI 培训带来的独特挑战。
  • 协作: 研究人员、政策制定者和行业领导者应合作制定 AI 发展的道德准则和最佳实践。
  • 数据多样性: AI 训练应优先考虑数据多样性,以减少偏差并提高 AI 模型的整体性能。
  • 可持续性: AI 培训应以可持续的方式进行,最大限度地减少其环境影响。
  • 安全性: 安全措施应保护 AI 模型和训练数据免受未经授权的访问和使用。

通过解决这些关键考虑因素,AI 行业可以确保 AI 开发以负责任和合乎道德的方式进行,在促进创新的同时减轻潜在风险。

前进的道路

针对 DeepSeek 的指控是对 AI 社区的警钟。 它们强调了在 AI 开发中实现更大透明度、道德行为和健全保障措施的关键需求。 随着 AI 继续渗透到我们生活的各个方面,我们必须建立清晰的界限和道德准则,以确保其负责任和有益的使用。

DeepSeek 案例,无论其最终结果如何,无疑将塑造关于 AI 伦理的持续讨论,并影响 AI 发展的未来轨迹。 它提醒人们,对创新的追求必须以对道德原则的承诺和对我们行为的潜在后果的认识为基础。AI 的未来取决于我们是否有能力以智慧和远见卓识来应对这些复杂的挑战。