中国的开源运动正迅速凝聚成一股不可忽视的力量。以 DeepSeek 和阿里巴巴的 Qwen 等基础模型为先锋,为中国开源能力树立了新的标杆,越来越多的中小型企业 (SME) 正在利用这些进步来开发更小但更强大的垂直模型。这种创新浪潮加速了中国大型模型的更新步伐,不断带来新鲜而令人兴奋的进展。与美国普遍存在的以闭源为主的方法相比,中国公司正在拥抱开源,展示他们的技术信心,并开创一条通往技术包容性和全球合作的新道路,不断扩展到海外市场,并将全球 AI 格局从“单极霸权”转变为“多极共存”。
中国开源的融合
今年 2 月初,当中国开源大型模型 DeepSeek 在全球 140 个国家和地区的应用市场下载排行榜上名列前茅时,OpenAI 公开指责 DeepSeek 未经许可使用了 ChatGPT 的提炼数据。
这一指责并没有挽救 OpenAI 的声誉,反而受到了全球研究人员的广泛嘲笑。
现在,另一个完全拥抱“提炼”buff的竞争者出现了。
4 月 13 日,昆仑万维推出了 Skywork-OR1 (Open Reasoner 1) 系列模型,在相同规模下优于阿里巴巴的 Qwen-32B,并与 DeepSeek-R1 对齐。
昆仑万维是一家资金有限的公司,如何创造出 SOTA 级别的大型模型?官方的解释是,他们的模型基于 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Qwen-32B。
顾名思义,DeepSeek 的模型提炼了阿里巴巴的 Qwen 系列模型。
在利用优秀的开源模型的同时,昆仑万维也在为开源社区做出贡献。与仅开源模型权重的 DeepSeek 不同,昆仑万维还开源了其数据集和训练代码,更符合“真正开源”的概念。这意味着任何用户都可以尝试复制他们的模型训练过程。
昆仑万维的成就展示了开源最重要的方面:它不仅为用户提供免费且现成的产品,还使更多的开发者能够站在前人的肩膀上,快速且经济高效地推进技术。
事实上,在去年业界讨论大型模型预训练瓶颈之际,中国大型模型的迭代速度今年有所加快,越来越多的公司投资于开源。
阿里云的通义千问在除夕夜开源了其新的视觉模型 Qwen2.5-VL,并在 3 月初发布并开源了其新的推理模型 QwQ-32B,在开源当天登上了全球主流 AI 开源社区 Hugging Face 的热门榜单。
阶跃在约一个月的时间内开源了三个多模态大型模型,其中最新的是图像到视频模型 Step-Video-TI2V,它支持生成具有可控运动幅度和镜头移动的视频,并且还具有一定的特效生成能力。
智谱在四月份宣布,它将开源 32B/9B 系列 GLM 模型,涵盖基础、推理和沉思模型,所有模型均在 MIT 许可协议下。
甚至曾经闭源的百度也宣布将在 6 月 30 日全面开源文心大模型。
与国内开源生态系统的日益繁荣相比,美国大型模型公司仍然主要关注闭源,这给了中国大型模型一个难得的走出国门的机会。DeepSeek 已经允许印度尼西亚教育公司 Ruangguru 以低成本优化其教学模型;新加坡 B2B 旅游科技公司 Atlas 已将 Qwen 集成到其智能客户服务系统中,以实现 24/7 全天候多语言支持。
为什么美国闭源,中国开源?
美国 AI 行业倾向于闭源,而中国 AI 行业的开放性日益增强,这是两国不同的 AI 发展环境的必然结果。
美国 AI 行业主要由科技巨头和风险投资公司 (VC) 领导,他们对 AI 的资本回报抱有巨大的期望。因此,美国 AI 模型公司普遍对技术抱有强烈的信念,即追求技术领先,实现一定程度的市场垄断,然后创造巨额利润,他们的生态系统自然倾向于闭源。
以 OpenAI 的发展历史为例,它最初是一家非营利实体,但此后变得越来越封闭。GPT-1 完全开源,GPT-2 部分开源,并在完全开源之前遇到反对,GPT-3 正式转为闭源,然后 GPT-4 进一步加强了闭源策略,模型架构和训练数据完全保密,甚至限制了企业用户的 API 调用频率。
虽然 OpenAI 表示,关闭源代码是基于合规性并控制技术的滥用,但市场普遍认为,OpenAI 转向闭源的标志性事件是其与微软达成千亿美元的合作,将 GPT-3 嵌入到 Azure 云服务中,形成了一个“技术-资本”的闭环。
当微软去年 10 月在其财务报告中首次披露其对 OpenAI 的投资时,它表示:“我们已投资 OpenAIGlobal, LLC,总投资承诺为 130 亿美元,该投资使用权益法核算。”
所谓的权益法也可以理解为,微软对 OpenAI 的投资旨在获得回报,而不是纯粹的慈善研究。显然,OpenAI 通过闭源生态系统销售高价 API 是其目前最大的收入来源,并且已经成为 OpenAI 不愿开源的最大障碍。
从 OpenAI 的“分裂”中诞生的 Anthropic 从一开始就决心采取闭源路线,其大型模型产品 Claude 完全采用了闭源模型。
即使是美国唯一的开源领导者 META 的 Llama,在开源时也添加了两个反朋友条款:
- 在 META 批准之前,开源模型不能用于每月活跃用户超过 7 亿的产品和服务。
- Llama 模型输出的内容不能用于训练和改进其他大型语言模型。
由此可见,即使对于开源模型,Meta 的核心目的仍然是构建自己的 AI 生态系统,而不是技术包容性。
美国已经选择了一种基于闭源并以开源为补充的 AI 战略,从资本层面来看,这可以说是纯粹的商业考虑。相比之下,中国的自上而下的顶层设计从一开始就重视开源,体现了一种在独立控制概念下的行业优先路径。
早在 2017 年,中国政府就发布了《新一代人工智能发展规划》,明确提出要加快人工智能与经济社会的深度融合,部署构建人工智能发展的先发优势。2021年,开源相关内容被明确纳入中国的“十四五”规划,这引发了地方政府对技术创新的积极推动。
中国科学院院士梅宏曾表示,语言模型的未来发展必须依赖开源平台。只有在开放的环境下,才能保证各行业用户数据上传和业务集成的安全性和可信度。
工业和信息化部等四个部门去年 12 月发布的《中小企业数字化赋能专项行动方案(2025-2027 年)》明确支持开放原子开源基金会设立“中小企业人工智能开源专项项目”,提供可复制、易于推广的培训框架、测试工具等资源,以降低企业技术门槛。
一个更现实的问题是,由于美国可能的技术封锁,中国不能简单地成为 AI 领域的追随者,而必须构建一个独立的国内生态系统。在美国已经构建的以闭源为主的生态系统下,再构建一个闭源生态系统,无异于闭门造车。只有开源生态系统才能迅速帮助 AI 行业的发展。
除了顶层支持外,各地方政府也对开源生态系统进行了真金白银的投资。
智谱和北京国资共同设立的 Z 基金专注于大型模型生态系统投资,宣布将投资 3 亿元人民币,用于支持全球人工智能开源社区的发展。任何基于开源模型(不仅限于智谱开源模型)的创业项目都可以申请。
中美在 AI 行业的开源和闭源战略上的分歧本质上是发展逻辑的根本差异。美国由资本驱动,科技巨头和风险投资公司的逐利需求催生了“技术垄断-高价实现”的闭源生态系统。即使 Meta 尝试开源,也很难摆脱商业壁垒的束缚。中国依靠顶层设计,以“技术股权+产业协同”为核心理念,通过政策赋权构建开放生态系统,使开源成为降低技术门槛和促进实体经济融合的基础设施。这种战略选择不仅塑造了两国 AI 行业不同的发展道路,也预示着全球 AI 生态系统将加速从“垄断竞争”向“开放共赢”转变。
够用就好
中国 AI 开源生态系统不仅加速了中国乃至全球 AI 产业化的发展,还将美国“技术至上”的信念置于一个尴尬的境地。
面对 DeepSeek 效应带来的日益增长的压力,Meta 于 4 月 5 日发布了 Llama4,声称它是历史上最强大的多模态大型模型。
然而,经过实际测试,这是一个令人失望的模型。10m tokens 的上下文长度经常出错,最初的球体测试难以完成,并且出现 9.11 > 9.9 的比较大小错误。在该模型推出后的几天内,高管辞职和测试作弊等丑闻也被内部员工证实。
更多消息证明 Llama4 可以说是扎克伯格赶鸭子上架的产品。所以问题是,为什么扎克伯格必须在四月份推出它?
正如前面提到的,美国 AI 行业对技术有一种令人困惑的信念,认为他们的产品必须是最强大和最先进的,因此他们开始了一场军备竞赛。然而,训练 AI 的边际效应递减导致大型制造商消耗了巨额成本,不仅没有建立技术门槛,反而陷入了算力瓶颈的泥潭。
在 OpenAI 发布 GPT-4o 的图像生成功能后,Altman 几天后发推文说他们的 GPU“正在烧毁”。在 Gemini2.5 发布不到一周后,GoogleAIStudio 的负责人表示他们仍然受到“速率限制”的困扰,开发人员每分钟只能发送 20 个请求。似乎没有公司能够应对超大型模型的推理需求。
事实上,美国正在陷入一个误区。智源研究院的负责人表示:“如果一个新模型使用 100 倍的成本来跑出一个 10 分的基准分数增加,那么这个新模型对于超过 80% 的应用场景来说毫无意义,因为它没有成本效益。”
中国大型模型公司正在加速开源生态系统。他们似乎不再争夺榜首,而是凭借他们的“够用就好”的方法赢得了更多的客户,尤其是工业客户。
与政府和企业客户数千万的预算相比,许多公司和机构有紧急的 AI 需求,但没有那么多的现有解决方案。使用开源模型开发自己的解决方案几乎成为他们唯一的选择:
- 宝钢使用“大型模型 + 小型模型”进行关键冶金工程过程,以实现生产设备的智能早期预警。
- 中国煤炭科工集团的“煤科卫士大模型 ChinamjGPT”分别将设备停机时间和维护成本降低了 30% 和 20%。
- 上海盟波智能物联网科技基于轻量级大型模型,创建了一个边缘切割检测和连续退火炉工艺优化应用平台。
- 米菲科技基于大型模型技术,实现了半导体晶圆厂中自动化物料搬运系统的智能预测、维护和管理。
这些都是开源模型在工业场景中实施的代表性案例。
除了工业用途外,开源生态系统还可以帮助更多的公益事业。
山水自然保护中心致力于保护雪豹和高原生态系统。它设置的红外相机每季度都会拍摄大量的照片或视频。依靠人工识别雪豹踪迹效率极低且耗时。华为昇腾正在与山水自然保护中心合作识别雪豹踪迹。华为已经开源了三江源红外图像物种识别的相关模型和工具,降低了参与 AI 开发的门槛,并允许更多使用该模型的研究和保护机构受益。人们可以共同努力,从数据集、数据处理和数据清理方面优化模型。
开源的“集市”效应
开源软件运动的旗手埃里克·雷蒙德在他的 1999 年出版的《大教堂与集市》一书中提出了一个隐喻:传统的、闭源的软件开发模型就像建造一座大教堂。软件由少数专家(建筑师)在孤立的环境中精心设计和建造,并且仅在最终完成后才发布给用户;开源开发模型就像一个熙熙攘攘、看似混乱但充满活力的集市。软件开发是开放、分散和进化的。
该书认为,对于许多类型的软件项目,尤其是复杂的系统级软件(如操作系统内核),开放、协作和分散的“集市”开发模型,虽然看起来可能很混乱,但实际上更有效率,生产出更高质量和更强大的软件,而不是传统的、封闭的和集中的“大教堂”模型。它可以通过诸如“尽早发布,经常发布”和利用大规模同行评审(“足够的眼球”)等机制更快地发现和修复错误,并更好地吸收用户反馈和社区贡献,从而促进软件的快速迭代和创新。
Linux 等开源项目的巨大成功验证了雷蒙德的观点。
开源运动为美国和世界带来了远超自身投资的巨大价值。哈佛大学 2024 年的一份研究报告指出:“开源投资了 41.5 亿美元,为公司创造了 8.8 万亿美元的价值(即每投资 1 美元创造 2,000 美元的价值)。如果没有开源,公司在软件上的支出将是现在的 3.5 倍。”
今天,中国公司已经学会了这一点。美国 AI 公司似乎已经忘记了这一点。
事实上,对于中国大型模型公司来说,即使他们不考虑社会效益,选择拥抱开源生态系统对于公司本身来说也不是无利可图的。
许多大型模型公司告诉观察者网,开源并不意味着放弃商业化。开源仍然有开源的盈利逻辑。与是否开源相比,如何在技术上更好地服务客户是关键问题。
以智谱 AI 为例,它声称是中国唯一一家完全对标 OpenAI 的公司,但与 OpenAI 的闭源战略相比,它是行业内最坚定的开源战略实践者之一。
智谱率先在 2023 年开源了中国第一个 Chat 大型模型 ChatGLM-6B。自成立近六年以来,智谱已开源了 55 多个模型,在国际开源社区中的累计下载量接近 4000 万次。
智谱告诉观察者网,智谱希望其开源战略能够为将北京建设成为人工智能的“全球开源之都”做出贡献。
具体来说,在商业层面,智谱选择通过开源吸引开发者生态系统,并为 B 端和 G 端客户提供有偿定制解决方案。
除了销售解决方案外,销售 API 也是一个重要的利润环节。
以 DeepSeek 为例,开源模型的第一个业务是销售高性能 API。虽然基本服务是免费的,但公司可以提供高性能 API 服务并根据使用情况收费。DeepSeek-R1 的 API 定价为每百万输入 tokens 1 元人民币,每百万输出 tokens 16 元人民币。如果免费 token 配额用完或基本 API 无法满足需求,用户往往会使用付费版本来维持业务流程的稳定性。
与只有模型服务的公司相比,阿里巴巴选择了另一种开源货币化模型:生态系统捆绑。
阿里巴巴的 Qwen 系列作为开源先锋,通过全模态开源吸引开发者使用云计算等基础设施,形成闭环场景。他们的模型只是早期的一个介绍,带有标价的商品实际上是云服务。
中国开源大型模型的全球化应用已经从“技术跟随”转变为“生态主导”。当美国陷入“闭源垄断”和“开源失控”的困境时,中国正在通过“协议创新+场景培育”重构全球AI开源生态的底层逻辑。这场游戏的终极战场不在于参数规模的竞争,而在于AI技术与实体经济深度融合的万亿美元市场。