DeepSeek:中国AI力量的崛起

DeepSeek,这个名字迅速从相对默默无闻的状态跃升为全球AI对话的焦点,在全球科技和金融领域引发了激烈的辩论和猜测。这家中国AI实验室的崛起打破了既定的秩序,促使分析师质疑美国在AI竞赛中的可持续主导地位以及当前AI芯片需求的长期可行性。但推动DeepSeek达到目前突出地位的关键因素是什么?

DeepSeek的起源:从对冲基金到AI实验室

DeepSeek的起源与量化金融的世界紧密相连。它由High-Flyer Capital Management支持,这是一家以利用AI进行数据驱动交易决策而闻名的中国对冲基金。

梁文峰,一位在浙江大学期间就对交易充满兴趣的AI爱好者,于2015年共同创立了High-Flyer。2019年,他成立了High-Flyer Capital Management,作为一家专注于开发和实施用于金融应用的AI算法的对冲基金。

2023年,High-Flyer孵化了DeepSeek,作为一个专门的AI研究实验室,独立于其核心金融业务运营。随后,在高飞作为主要投资者的支持下,该实验室被剥离成一个独立的实体,保留了DeepSeek的名称。

从一开始,DeepSeek就优先建立自己的数据中心集群,以促进模型训练。然而,与在中国运营的其他AI公司类似,由于美国对先进硬件的出口限制,DeepSeek遇到了挑战。因此,为了训练其最新的模型,该公司不得不求助于Nvidia H800芯片,这是H100芯片的一个性能较低的版本,美国公司可以轻松获得。

DeepSeek的技术团队以其年轻和活力而闻名。该公司积极从中国顶尖大学招募AI博士研究人员。此外,《纽约时报》报道称,DeepSeek雇佣了来自不同背景的人员,甚至包括那些没有计算机科学专业知识的人,以确保其技术能够有效地理解和满足广泛的主题。

DeepSeek的AI模型:挑战现状

DeepSeek于2023年11月发布了其最初的模型套件——DeepSeek Coder、DeepSeek LLM和DeepSeek Chat。然而,真正引起AI行业关注的是其下一代DeepSeek-V2系列模型在春季的发布。

DeepSeek-V2是一个能够分析文本和图像的多功能系统,在各种AI基准测试中表现出令人印象深刻的性能。值得注意的是,与当时可用的竞争模型相比,它以显著更低的成本实现了这一性能。这促使DeepSeek的国内竞争对手,包括字节跳动和阿里巴巴,降低了其部分模型的价格,并完全免费提供其他模型。

DeepSeek V3展示了优于可下载的开源模型(如Meta的Llama)以及仅通过API访问的“封闭”模型(如OpenAI的GPT-4o)的卓越性能。

同样值得注意的是DeepSeek的R1“推理”模型。DeepSeek于1月份推出R1,并声称R1在关键基准测试中实现了与OpenAI的o1模型相当的性能。

作为一个推理模型,R1结合了自我检查机制,减轻了与标准模型相关的一些常见缺陷。虽然推理模型可能需要稍长的处理时间才能得出解决方案(从几秒到几分钟不等),但它们在物理、科学和数学等领域往往表现出更高的可靠性。

然而,DeepSeek的模型,包括R1和DeepSeek V3,都受到中国互联网监管机构的监督,该机构确保其响应与“社会主义核心价值观”保持一致。例如,在DeepSeek的聊天机器人应用程序中,R1不会回答有关天安门广场或台湾自治的问题。

3月份,DeepSeek的网站访问量超过1650万次。根据Similarweb编辑David Carr的数据,尽管与2月份相比流量下降了25%,但DeepSeek在每日访问量方面排名第二。然而,这一数字与ChatGPT相比仍然相形见绌,ChatGPT在3月份超过了5亿每周活跃用户。

一种颠覆性的AI格局方法

DeepSeek的商业模式仍然有些神秘。该公司将其产品和服务的定价显著低于市场价值,甚至免费提供一些产品和服务。此外,尽管风险投资公司表现出浓厚的兴趣,但它一直抵制外部融资。

DeepSeek将其极高的成本竞争力归因于效率方面的突破。然而,一些专家对该公司提供的数字的准确性提出了质疑。

无论如何,开发人员已经接受了DeepSeek的模型,这些模型虽然在传统意义上不是开源的,但在允许商业使用的宽松许可下可用。根据Hugging Face首席执行官Clem Delangue的说法,平台上的开发人员已经创建了超过500个R1的衍生模型,累计下载量达到250万次。

DeepSeek在与规模更大、更成熟的竞争对手的竞争中取得的成功被形容为“颠覆AI”和“过度炒作”。该公司的成就部分导致英伟达的股价在1月份下跌了18%,并促使OpenAI首席执行官Sam Altman做出公开回应。据路透社报道,美国商务部下属机构于3月禁止在政府设备上使用DeepSeek。

微软已将DeepSeek集成到其Azure AI Foundry服务中,该平台整合了面向企业的AI服务。在Meta的第一季度财报电话会议上,首席执行官Mark Zuckerberg表示,对AI基础设施的投资将继续是该公司的“战略优势”,当被问及DeepSeek对Meta的AI支出的潜在影响时。3月份,OpenAI将DeepSeek标记为“国家补贴”和“国家控制”,建议美国政府考虑禁止其模型。

在英伟达的第四季度财报电话会议上,首席执行官黄仁勋强调了DeepSeek的“卓越创新”,指出其推理模型需要显著更多的计算能力,从而使英伟达受益。

相反,包括韩国和纽约州在内的一些公司、国家和政府已经禁止在政府设备上使用DeepSeek。

5月份,微软副董事长兼总裁Brad Smith在参议院作证说,由于担心数据安全和潜在的宣传,微软员工被禁止使用DeepSeek。

DeepSeek不确定的未来

DeepSeek未来的发展轨迹仍然不确定。虽然预计会有进一步的模型改进,但美国政府似乎越来越警惕感知到的有害外国影响。据《华尔街日报》3月份报道,美国可能会禁止在政府设备上使用DeepSeek。

DeepSeek的迅速崛起无疑动摇了AI行业的基础,促使人们重新评估竞争动态和颠覆性创新的潜力。面对日益严格的审查和监管挑战,它是否能够维持目前的势头还有待观察。未来几年将是决定DeepSeek对全球AI格局的长期影响的关键。它驾驭技术进步、地缘政治考量和伦理问题之间复杂相互作用的能力最终将决定其遗产。AI世界将密切关注。

DeepSeek的故事提醒我们,在快速发展的人工智能世界中,新的参与者可以迅速出现并挑战既定的秩序。该公司的成功,得益于创新技术和颠覆传统商业模式的意愿,迫使整个行业都注意到了它。随着DeepSeek继续发展和扩大其影响力,它无疑将在塑造AI的未来方面发挥重要作用。