指控浮出水面:DeepSeek AI模型训练用了Gemini输出?

人工智能开发领域的竞争格局充满了创新、雄心,以及偶尔出现的违规指控。最新的争议围绕着 DeepSeek,这家公司在 AI 领域迅速崛起。DeepSeek 现在正面临着严格审查,有人指控其最新的 AI 模型 DeepSeek-R1-0528,是使用源自 Google 的 Gemini 模型的数据进行训练的。这一指控由 AI 分析师 Sam Paech 提出,暗示了潜在的违反道德界限的行为,并引发了关于 AI 开发实践的诚信的问题。

分析师的发现:深入剖析 DeepSeek-R1-0528

Sam Paech 是 AI 分析界一位备受尊敬的人物,他对 DeepSeek-R1-0528 进行了深入的检查。Paech 利用生物信息学工具解剖了 AI 服务,寻找关于其起源和训练方法的线索。他的调查得出了一个具有挑衅性的结论:DeepSeek-R1-0528 表现出与 Google 的 Gemini 生成的响应显着的相似性。

Paech 在 X(以前称为 Twitter)上分享了他的发现,他说:“如果你想知道为什么 DeepSeek R1 听起来有点不同,我认为他们可能从训练合成 OpenAI 输出切换到合成 Gemini 输出。” 该声明暗示了 DeepSeek 的训练数据来源的转变,可能从由 OpenAI 模型生成的合成数据转移到源自 Gemini 的数据。这意味着直接依赖竞争对手的技术。合成数据是人为创建的数据,而不是通过直接测量获得的数据。它通常用于在训练、测试和验证期间增强机器学习模型中的真实数据。例如,使用开源 AI 模型可以快速生成训练数据。

为了进一步调查这个问题,Paech 深入研究了 Hugging Face 开发者社区网站,这是一个流行的 AI 开发者开源平台。通过利用他的 GitHub 开发者代码帐户,Paech 分析了 Hugging Face 环境中的 DeepSeek 模型,以寻找进一步证实他的主张的证据。

DeepSeek 的回应和创新声明

在 2025 年 5 月,DeepSeek 通过 Hugging Face 发布了其 DeepSeek-R1 模型的更新版本,命名为 0528。该公司声称此次迭代代表了 AI 能力的重大飞跃。DeepSeek 声称该模型表现出“更深层”的推理能力,表明其基于输入数据得出结论和进行预测的能力得到增强。

此外,DeepSeek 强调了在 0528 模型的训练中使用的计算资源的增加。这表明对处理和分析大量数据所需的基础设施进行了大量投资。除了增加资源外,DeepSeek 声称在训练后阶段实施了“算法优化机制”。这些机制旨在提高模型的性能,提高其准确性和效率。

DeepSeek 强调了 0528 模型在一系列评估基准上的出色表现。这些基准涵盖了数学、编程和一般逻辑等关键领域,展示了模型的通用性和问题解决能力。DeepSeek 在 Hugging Face 上表示,该模型的性能“现在已接近 O3 和 Gemini 2.5 Pro 等领先模型”。这一声明将 DeepSeek-R1-0528 定位为竞争激烈的 AI 领域中的有力竞争者。

Sam Paech 还展示了 EQ-Bench 关于 AI 模型评估结果的屏幕截图。它显示了一系列 Google 的开发模型版本:Gemini 2.5 Pro、Gemini 2.5 Flash 和 Gemma 3,暗示了 AI 模型开发的竞争性质以及用于比较性能的基准。

取证责任和背景考量

虽然 Paech 的分析在 AI 社区引发了辩论,但所提供的证据仍然有些间接。该报告引用 TechCrunch 的话说,Gemini 训练的证据并不充分,尽管其他一些开发者也声称发现了 Gemini 的痕迹。这突显了明确证明或反驳这些指控的难度。AI 模型的复杂性和训练数据的复杂性使得难以追踪特定输出或行为的确切来源。

同样重要的是要考虑到 AI 发展的更广泛的背景。许多 AI 模型都接受过海量数据集的训练,通常包含公开可用的信息和开源资源。合法使用公开可访问数据与未经授权使用专有信息之间的界限可能很模糊,尤其是在快速发展的 AI 领域中。

此前指控:涉嫌不当行为的模式?

这并非 DeepSeek 首次面临利用竞争对手的 AI 模型数据的指控。在 2024 年 12 月,人们对 DeepSeek 的 V3 模型提出了类似的担忧。许多应用程序开发者观察到,V3 模型经常将自己识别为 ChatGPT,即 OpenAI 广受欢迎的聊天机器人。这种行为导致人们猜测 DeepSeek 的模型至少部分地接受了 ChatGPT 生成的数据的训练。

这些过去的指控营造了一种怀疑的背景,可能会影响对当前指控的解释。虽然这些事件是分开的,但它们共同引发了关于 DeepSeek 数据来源实践和对道德 AI 开发的承诺的问题。

对 AI 行业的影响

对 DeepSeek 的指控,无论是否得到证实,都对整个 AI 行业产生了重大影响。这场争议突显了 AI 开发中数据来源、透明度和伦理考量的重要性。随着 AI 模型变得越来越复杂和有影响力,至关重要的是要为数据使用和模型训练建立明确的准则和标准。

这些指控还突出了监管 AI 模型数据使用的挑战。AI 模型的复杂性以及所涉及的大量数据使得难以检测和证明未经授权的使用。AI 社区必须开发有效的机制来监控数据来源并确保符合道德标准。

进一步审查和未来影响

DeepSeek 的争议应成为进一步审查 AI 行业内数据来源实践的催化剂。需要进行更广泛的讨论,以明确可接受数据使用的界限,并建立检测和预防不道德行为的机制。

AI 发展的未来取决于公众的信任和信心。如果 AI 模型被认为是通过不道德或不公平的手段开发的,那可能会削弱公众的支持并阻碍 AI 技术的采用。AI 社区必须优先考虑道德考量因素和透明度,以确保人工智能的长期成功和社会效益。

DeepSeek 和开源社区

DeepSeek 与 Hugging Face 社区的互动是这种情况的一个显着方面。Hugging Face 是一个协作中心,开发者可以在这里分享模型、数据集和代码,从而促进了 AI 领域的创新和可访问性。通过在 Hugging Face 上发布其模型,DeepSeek 可以从社区的反馈、审查和潜在的改进中受益。然而,这种开放性也意味着它的模型会受到严格的审查,正如 Sam Paech 的分析所证明的那样。

该事件突显了开源协作的双刃剑性质。虽然它可以促进创新和透明度,但它也会使模型暴露于潜在的漏洞和指控。在开源环境中运营的公司必须特别警惕数据来源和道德考量,因为他们的行为会受到公众的审查。

合成数据在 AI 训练中的作用

合成数据在 AI 训练中起着越来越重要的作用。它可以用于增强真实数据、填补数据集中的空白以及解决偏差。然而,使用合成数据也会引发伦理问题。如果一个模型接受了源自竞争对手模型的合成数据的训练,则可能被视为侵犯知识产权或违反道德准则。

DeepSeek 的争议突显了需要对 AI 训练中合成数据的使用进行更大的明确性和监管。AI 社区必须制定标准,以确保合成数据以合乎道德的方式生成,并且不侵犯他人的权利。

AI 模型基准测试:一个竞争激烈的竞技场

AI 模型基准测试是跟踪进展和比较性能的一个关键方面。然而,对高基准分数的追求也会激励不道德的行为。如果公司过于专注于获得最高分,他们可能会试图偷工减料或使用未经授权的数据来提高其模型的性能。

Sam Paech 关于 AI 模型评估结果的 EQ-Bench 屏幕截图显示了 Google 的开发模型版本:Gemini 2.5 Pro、Gemini 2.5 Flash 和 Gemma 3。这强调了 AI 模型开发的竞争性质以及用于比较性能的基准。

独立审计的重要性

为了确保合乎道德且透明的 AI 开发,可能需要进行独立审计。独立审计师可以审查公司的数据来源实践、训练方法和模型性能,以识别潜在的道德违规行为或偏见。这些审计有助于建立公众对 AI 技术的信任和信心。

DeepSeek 的争议突显了需要在 AI 行业中加强问责制。公司应对其 AI 模型的伦理影响负责,并且独立审计可以帮助确保它们履行其道德义务。

前进的道路:透明度和协作

AI 行业前进的道路在于透明度和协作。公司应公开其数据来源实践和训练方法。他们还应相互合作,并与更广泛的 AI 社区合作,以制定道德标准和最佳实践。

DeepSeek 的争议提醒我们,AI 行业仍处于发展的早期阶段。为了确保 AI 技术以合乎道德且负责任的方式开发和使用,以造福全人类,还有许多工作要做。通过拥抱透明度和协作,AI 社区可以建立一个 AI 惠及所有人的未来。

法律后果和知识产权

对 DeepSeek 的指控引发了与知识产权相关的重大法律问题。如果证明 DeepSeek 在未经适当授权的情况下,使用源自 Google 的 Gemini 的数据训练了其 AI 模型,则可能会因侵犯版权或盗用商业秘密而面临法律诉讼。

围绕 AI 和知识产权的法律框架仍在发展中,DeepSeek 案例可能会树立重要的先例。它突显了需要明确的法律指导原则,以规范 AI 模型数据的使用以及在 AI 时代保护知识产权。

公众舆论的法庭

除了潜在的法律后果外,DeepSeek 还面临公众舆论的法庭。不道德行为的指控可能会损害公司的声誉并削弱公众的信任。DeepSeek 需要公开透明地解决这些指控,并采取具体措施来证明其对道德 AI 开发的承诺。

公众对 AI 的看法对于其广泛采用至关重要。如果 AI 被认为是以不道德的方式开发和使用的,那可能会导致公众的强烈反对并阻碍 AI 技术的进步。

平衡创新和道德

DeepSeek 的争议突显了 AI 行业中创新与道德之间的紧张关系。公司面临着创新和开发尖端 AI 模型的压力,但它们还必须确保以合乎道德且负责任的方式做到这一点。

AI 社区必须找到一种方法来平衡对创新的追求与对道德考量的需求。这需要对透明度、问责制和协作的承诺。

AI 治理的未来

DeepSeek 案例突显了加强 AI 治理的必要性。政府和监管机构可能需要介入,以建立明确的准则和标准,规范 AI 的开发和部署。

AI 治理应侧重于促进合乎道德的 AI、保护知识产权以及确保公共安全。它还应促进创新,避免扼杀 AI 行业的发展。

结论:呼吁负责任的 AI 开发

DeepSeek 的争议是对 AI 行业的一次警钟。它突显了在 AI 开发中道德考量、透明度和问责制的重要性。AI 社区必须从这一事件中吸取教训,并采取具体措施,以确保 AI 技术以负责任的方式开发和使用,从而造福全人类。