揭秘 DeepSeek-R1 的训练起源
Copyleaks 是一家专门从事 AI 检测和治理的公司,最近的研究对 DeepSeek-R1 是否在 OpenAI 的模型上进行了训练给出了明确的答案:是的。DeepSeek 是一款免费的 AI 聊天机器人,其外观、感觉和功能与 ChatGPT 惊人地相似。
指纹识别技术:识别 AI 作者
为了揭示 AI 生成文本的起源,研究人员开发了一种创新的文本指纹识别工具。该工具旨在确定负责生成给定文本的特定 AI 模型。研究人员使用包含数千个 AI 生成样本的庞大数据集对该工具进行了精心训练。随后,他们使用已知的 AI 模型对其进行了测试,结果是明确的。
惊人的相似性:DeepSeek-R1 和 OpenAI
测试揭示了一个引人注目的统计数据:DeepSeek-R1 生成的文本中有 74.2% 与 OpenAI 的输出风格相符。这种强烈的相关性强烈表明 DeepSeek 在其训练阶段使用了 OpenAI 的模型。
对比方法:微软的 Phi-4
为了提供对比视角,可以考虑微软的 Phi-4 模型。在相同的测试中,Phi-4 与任何已知模型都表现出 99.3% 的“不一致”。这一结果有力地证明了独立训练,表明 Phi-4 的开发没有依赖现有模型。Phi-4 的独立性与 DeepSeek 与 OpenAI 的惊人相似性形成鲜明对比,突显了后者明显的复制或抄袭。
道德和知识产权问题
这一发现引发了人们对 DeepSeek-R1 与 OpenAI 模型非常相似的严重担忧。这些担忧包括以下几个关键领域:
- 数据来源: 用于训练 DeepSeek-R1 的数据来源成为一个关键问题。
- 知识产权: 潜在侵犯 OpenAI 知识产权是一个重大问题。
- 透明度: DeepSeek 训练方法缺乏透明度引发了道德问题。
研究团队和方法
由 Yehonatan Bitton、Shai Nisan 和 Elad Bitton 领导的 Copyleaks 数据科学团队进行了这项开创性的研究。他们的方法以“一致陪审团”方法为中心。这种方法涉及三个不同的检测系统,每个系统都负责对 AI 生成的文本进行分类。只有当所有三个系统都一致时,才会做出最终判断。
运营和市场影响
除了道德和知识产权问题外,还需要考虑实际的运营影响。未公开依赖现有模型可能会导致以下几个问题:
- 强化偏见: 原始模型中现有的偏见可能会被延续。
- 限制多样性: 输出的多样性可能会受到限制,阻碍创新。
- 法律和道德风险: 可能会出现无法预见的法律或道德后果。
此外,如果 DeepSeek 声称的革命性、低成本的训练方法被发现是基于未经授权的 OpenAI 技术提炼,可能会对市场产生重大影响。这可能导致了 NVIDIA 一天之内损失 5930 亿美元,并可能为 DeepSeek 提供了不公平的竞争优势。
严谨的方法:结合多个分类器
研究方法采用了一种高度严谨的方法,集成了三个先进的 AI 分类器。这些分类器中的每一个都经过精心训练,使用了来自四个主要 AI 模型的文本样本:
- Claude
- Gemini
- Llama
- OpenAI
这些分类器旨在识别细微的风格差异,包括:
- 句子结构: 句子中单词和短语的排列。
- 词汇: 单词的选择及其频率。
- 措辞: 整体风格和表达语气。
“一致陪审团”系统:确保准确性
“一致陪审团”系统是该方法的一个关键要素,确保了对误报的有力检查。该系统要求所有三个分类器独立地对分类达成一致,然后才认为分类是最终的。这一严格的标准使得精确率达到了 99.88%,误报率仅为 0.04%。该系统展示了其准确识别来自已知和未知 AI 模型文本的能力。
超越 AI 检测:模型特定归因
Copyleaks 首席数据科学家 Shai Nisan 表示:“通过这项研究,我们已经超越了我们所知的通用 AI 检测,进入了模型特定归因,这是一项从根本上改变我们处理 AI 内容方式的突破。”
模型归因的重要性
Nisan 进一步强调了此功能的重要性:“此功能至关重要,原因有很多,包括提高整体透明度、确保 AI 训练的道德规范,以及最重要的是,保护 AI 技术的知识产权,并希望防止其潜在的滥用。”
深入探讨:DeepSeek 方法的影响
这项研究的结果具有深远的影响,超出了 DeepSeek 是否抄袭 OpenAI 模型的直接问题。让我们更详细地探讨其中一些影响:
创新的假象
如果 DeepSeek 的训练严重依赖 OpenAI 的模型,那么对其创新的真实程度就会产生疑问。虽然 DeepSeek 可能将其聊天机器人呈现为一种新颖的创造,但底层技术可能不如最初声称的那样具有突破性。这可能会误导那些认为自己正在与真正独特的 AI 系统交互的用户和投资者。
对 AI 格局的影响
广泛采用在其他模型上训练的 AI 模型可能会对 AI 格局产生同质化影响。如果许多 AI 系统最终都源自少数几个基础模型,则可能会限制该领域方法和观点的多样性。这可能会扼杀创新,并导致 AI 生态系统缺乏活力和竞争力。
需要更高的透明度
这个案例突出了在 AI 模型的开发和部署中迫切需要更高的透明度。用户和利益相关者应该知道 AI 系统是如何训练的以及使用了哪些数据源。这些信息对于评估这些系统的潜在偏见、局限性和道德影响至关重要。
监管的作用
DeepSeek 案例也可能引发关于是否需要加强对 AI 行业监管的争论。政府和监管机构可能需要考虑采取措施,以确保 AI 开发人员遵守道德准则、保护知识产权并提高透明度。
AI 发展的未来
围绕 DeepSeek 训练方法的争议可能会成为更广泛讨论 AI 发展未来的催化剂。它可能会促使人们重新评估最佳实践、道德考虑以及在创建 AI 系统中原创性的重要性。
呼吁负责任的 AI 开发
DeepSeek 案例提醒我们负责任的 AI 开发的重要性。它强调了以下几点:
- 原创性: AI 开发人员应努力创建真正新颖的模型,而不是严重依赖现有模型。
- 透明度: 用于开发 AI 系统的训练数据和方法应向用户和利益相关者披露。
- 道德考虑: AI 开发应以道德原则为指导,包括公平、问责制和尊重知识产权。
- 协作: AI 社区内的开放协作和知识共享有助于促进创新并防止复制现有偏见。
前进的道路:确保多样化和道德的 AI 未来
最终目标应该是创建一个多样化和道德的 AI 生态系统,让创新蓬勃发展,用户可以信任他们与之交互的系统。这需要对负责任的 AI 开发实践、透明度以及对这项快速发展的技术的道德影响进行持续对话做出承诺。DeepSeek 案例是一个宝贵的教训,突出了过度依赖现有模型的潜在陷阱,并强调了在追求 AI 进步过程中原创性和道德考虑的重要性。AI 的未来取决于我们今天做出的选择,至关重要的是,我们优先考虑负责任的开发,以确保为所有人创造一个有益和公平的未来。Copyleaks 调查的结果揭示了 AI 开发的一个关键方面,整个行业必须从这次经验中吸取教训,以促进一个更加透明、道德和创新的未来。