DeepSeek模型争议:训练数据来自谷歌Gemini?

人工智能领域向来不乏争议,最新的事件主角是中国AI实验室DeepSeek。 近日,DeepSeek发布了其更新版的R1推理模型,在解决数学和编码基准问题方面展现了令人印象深刻的能力。 然而,用于训练该模型的数据来源引发了AI研究人员之间的激烈辩论,一些人推测,这些数据可能至少部分源自谷歌的Gemini系列AI模型。 这种怀疑引发了关于伦理实践、数据来源以及AI行业内竞争格局的重大问题。

证据呈现

墨尔本一位专门为AI系统创建“情商”评估的开发者Sam Paech,提出了他声称的证据,表明DeepSeek的最新模型是使用Gemini生成的输出进行训练的,这场争议由此拉开序幕。 根据Paech的说法,DeepSeek的模型,被标识为R1-0528,表现出对特定词语和表达方式的偏好,这些词语和表达方式与谷歌的Gemini 2.5 Pro所偏好的词语和表达方式非常相似。 虽然仅凭这一观察结果可能并不具有决定性,但它敲响了警钟,值得进一步调查。

更引人入胜的是,另一位以SpeechMap为化名运营的开发者,因创建AI的“言论自由评估”而闻名,他指出DeepSeek模型的痕迹——即它在得出结论时产生的“想法”——“读起来像Gemini的痕迹”。 语言模式和思维过程的这种趋同进一步加剧了人们的怀疑,即DeepSeek可能在训练过程中利用了Gemini的输出。

过去对DeepSeek的指控

这并非DeepSeek首次面临指控,称其AI模型是基于竞争对手AI系统的数据进行训练的。 早在12月,开发人员就注意到DeepSeek的V3模型经常将自己识别为ChatGPT,即OpenAI的AI驱动的聊天机器人平台。 这种特殊的行为表明,该模型可能已经用ChatGPT聊天记录进行了训练,这引起了人们对这种做法的伦理影响的担忧。

今年早些时候,OpenAI告知《金融时报》,它发现了将DeepSeek与使用蒸馏技术联系起来的证据,蒸馏技术涉及通过从更大、更强大的模型中提取数据来训练AI模型。 此外,微软是OpenAI的主要合作者和投资者,在2024年末检测到大量数据通过OpenAI开发人员帐户被泄露。 OpenAI认为这些帐户与DeepSeek有关联,这进一步巩固了对未经授权的数据提取的怀疑。

虽然蒸馏技术本身并非不道德,但OpenAI的服务条款明确禁止客户使用该公司的模型输出来构建竞争性的AI系统。 此项限制旨在保护OpenAI的知识产权,并在AI行业内维持公平的竞争环境。 如果DeepSeek确实利用蒸馏技术,基于Gemini的输出训练其R1模型,那将构成对OpenAI服务条款的违反,并引起严重的伦理问题。

数据污染的挑战

重要的是要承认,许多AI模型表现出误认身份并趋同于相似的词语和短语的趋势。 这种现象可归因于开放网络上AI生成内容越来越多,开放网络是AI公司训练数据的主要来源。 内容农场正在使用AI创建点击诱饵文章,机器人正在用AI生成的帖子淹没Reddit和X等平台。

网络上AI生成内容的这种“污染”给AI公司带来了巨大的挑战,使得从训练数据集中彻底过滤AI输出变得极其困难。 结果,AI模型可能会无意中互相学习,从而导致观察到的语言和思维过程的相似性。

专家意见和观点

尽管存在数据污染的挑战,但像Nathan Lambert这样的AI专家,他是非营利性AI研究机构AI2的研究员,他认为DeepSeek使用谷歌Gemini的数据进行训练并非不可能。 Lambert认为,DeepSeek面临GPU短缺但拥有充足的资金,可能选择从最好的可用API模型生成合成数据。 在他看来,这种方法对于DeepSeek来说可能在计算上更有效率。

Lambert的观点突出了可能推动AI公司探索替代数据采购策略的实际考虑因素。 虽然使用合成数据可能是一种合法且有效的技术,但至关重要的是要确保以合乎道德的方式生成数据,并且不违反任何服务条款或道德准则。

安全措施和预防工作

为了应对围绕蒸馏和数据污染的担忧,AI公司一直在加强其安全措施。 例如,OpenAI已实施一项要求,即组织必须完成ID验证流程才能访问某些高级模型。 此流程需要OpenAI的API支持的国家/地区之一颁发的政府签发的ID,但中国未包括在列表中。

谷歌还采取了措施来降低蒸馏的风险,方法是“总结”通过其AI Studio开发人员平台提供的模型生成的痕迹。 这种概括过程使得基于Gemini痕迹训练有竞争力的竞争模型更具挑战性。 同样,Anthropic在5月份宣布,它将开始总结其自身模型的痕迹,理由是需要保护其“竞争优势”。

这些安全措施代表了AI公司为保护其知识产权和防止未经授权的数据提取而做出的协调一致的努力。 通过实施更严格的访问控制和混淆模型痕迹,他们的目标是阻止不道德的行为并在AI行业内维持公平的竞争环境。

谷歌的回应

在被联系以征求意见时,谷歌尚未对这些指控做出回应。 这种沉默为猜测留下了空间,并进一步加剧了这场争议。 在AI社区等待谷歌的官方声明之际,围绕DeepSeek的数据采购实践的问题仍在持续存在。

对AI行业的影响

DeepSeek争议提出了关于AI开发的伦理界限以及负责任的数据采购重要性的根本问题。 随着AI模型变得越来越复杂和强大,抄近路和利用未经授权的数据的诱惑可能会越来越强烈。 然而,这种做法可能会产生不利的后果,破坏AI行业的完整性并侵蚀公众信任。

为确保AI的长期可持续性和合乎道德的开发,AI公司必须遵守严格的道德准则,并优先考虑负责任的数据采购实践。 这包括获得数据提供商的明确同意,尊重知识产权,并避免使用未经授权的或有偏见的数据。

此外,AI行业内需要更大的透明度和问责制。 AI公司应该更坦诚地说明其数据采购实践以及用于训练其模型的方法。 这种更高的透明度将有助于培养对AI系统的信任和信心,并促进更合乎道德和负责任的AI生态系统。

DeepSeek争议及时提醒我们,随着AI技术不断发展,必须解决的挑战和道德考量。 通过维护道德原则、提高透明度并促进合作,AI社区可以确保AI被用于造福社会,而不是以牺牲道德价值观为代价。

深入探讨技术层面

为了进一步理解这个问题的细微之处,至关重要的是深入研究AI模型是如何训练的,以及有争议的具体技术,即蒸馏和合成数据生成。

蒸馏:克隆智能?

AI环境中的蒸馏是指一种模型压缩技术,其中训练一个更小、更高效的“学生”模型来模仿一个更大、更复杂的“教师”模型的行为。 学生模型通过观察教师模型的输出来学习,有效地提取知识并将其传输到更小的架构。 虽然蒸馏技术对于在资源受限的设备上部署AI模型是有益的,但当教师模型的数据或架构是专有的时,它会引发伦理问题。

如果DeepSeek在未经许可的情况下使用Gemini的输出来通过蒸馏训练其R1模型,那将类似于克隆Gemini的智能,并可能侵犯谷歌的知识产权。 这里的关键在于未经授权使用Gemini的输出,这些输出受版权和其他法律机制的保护。

合成数据生成:一把双刃剑

合成数据生成涉及创建类似于真实数据的虚假数据点。 这种技术通常用于扩充训练数据集,特别是在真实数据稀缺或获取成本高昂的情况下。 然而,合成数据的质量和伦理影响在很大程度上取决于其生成方式。

如果DeepSeek使用Gemini的API来生成合成数据,那么问题就变成了:此数据与实际Gemini输出有多相似,以及它是否侵犯了谷歌的知识产权? 如果合成数据仅仅是从Gemini那里受到启发,但没有直接复制其输出,则可能会被认为是合理使用。 然而,如果合成数据与Gemini的输出几乎没有区别,那么它可能会引发与蒸馏类似的问题。

模型过拟合的影响

另一个相关的担忧是模型过拟合。 当一个模型过于熟悉训练数据时,就会发生过拟合,以至于它在新出现的、未见过的数据上的表现不佳。 如果DeepSeek在Gemini的输出上过度训练其R1模型,则可能会导致过拟合,也就是该模型基本上记住了Gemini的响应,而不是泛化到新的情况。

这种过拟合不仅会限制R1模型的适用性,还会使检测其对Gemini数据的依赖变得更容易。 SpeechMap指出的“痕迹”可能是这种过拟合的证据,其中R1模型基本上是在反刍从Gemini的输出中学习到的模式。

伦理考量和行业最佳实践

除了技术层面外,这场争议还凸显了AI开发需要明确的伦理准则和行业最佳实践。 一些关键原则包括:

  • 透明度:AI公司应该对其数据来源和训练方法保持透明。 这使得可以进行独立的审计和验证。
  • 同意:AI公司在使用数据进行培训之前,应该获得数据提供商的明确同意。 这包括尊重知识产权并避免未经授权的数据抓取。
  • 公平性:AI模型应该是公平和公正的。 这需要认真关注数据多样性并缓解算法偏差。
  • 责任:AI公司应该对其AI模型的行为负责。 这包括建立明确的责任框架并解决AI系统造成的危害。
  • 安全:AI公司应优先考虑其AI模型和数据的安全性。 这包括防止未经授权的访问和防止数据泄露。

监管的作用

除了伦理准则和行业最佳实践之外,可能还需要监管来解决AI开发带来的挑战。 一些潜在的监管措施包括:

  • 数据隐私法:保护个人数据并限制使用个人信息进行AI培训的法律。
  • 知识产权法:保护AI模型和数据免受未经授权的复制和分发的法律。
  • 竞争法:防止AI行业中反竞争行为的法律,例如数据囤积和不公平的资源获取。
  • 安全法规:确保用于关键应用的AI系统的安全性和可靠性的法规。

通过结合伦理准则、行业最佳实践和适当的监管,我们可以创建一个更负责任和可持续的AI生态系统,从而使整个社会受益。 DeepSeek争议是一个警钟,敦促我们积极应对这些挑战,并确保以符合我们的价值观和原则的方式开发AI。