全球AI硬件竞赛的高风险
人工智能发展的格局日益不仅由算法突破决定,更取决于获取训练和运行大型模型所需的尖端硬件。这一硬件等式的核心是图形处理单元(GPU),这种最初为渲染图像设计的组件,如今已成为满足AI并行处理需求的必备品。多年来,Nvidia Corporation一直是该领域无可争议的巨头,其先进的GPU成为黄金标准,驱动着Silicon Valley及全球的创新。然而,这种主导地位也使该公司及其客户直接处于地缘政治紧张局势的风口浪尖。
Washington实施严格的出口管制,旨在限制China获取尖端半导体技术,这从根本上重塑了市场。这些限制特别针对高性能GPU,如Nvidia生产的那些被认为对先进AI应用(包括具有潜在军事用途的应用)至关重要的产品。直接影响是中国蓬勃发展的科技行业内部出现了一场争夺战。那些在AI领域投入巨资的公司,从老牌巨头到雄心勃勃的初创企业,都突然面临着被切断推动下一波技术进步基本工具的风险。这产生了一个紧迫的需求:寻找可行的替代方案,否则就有在全球竞争激烈的领域落后的风险。挑战不仅仅是用一种芯片替换另一种芯片;它涉及到应对性能差异、软件兼容性问题以及训练拥有数千亿甚至数万亿参数模型所需庞大规模的复杂网络。
蚂蚁集团规划算力独立之路
在供应链不确定性和技术竞争升级的背景下,与Alibaba Group Holding关联的金融科技巨头Ant Group已显示出朝着更大计算自给自足迈出重要一步的迹象。该公司负责大型语言模型(LLM)项目的Ling团队在一篇研究论文中披露的最新信息表明,他们成功偏离了以Nvidia为中心的路径。这一成就的核心在于他们能够有效地使用国产GPU训练一个复杂的AI模型。
所讨论的模型名为Ling-Plus-Base,并非轻量级。它采用Mixture-of-Experts(MoE)架构设计,这是一种因其在扩展LLM方面的效率而日益受到关注的技术。Ling-Plus-Base拥有高达3000亿的参数量,其规模可与其他全球知名模型相媲美。然而,关键的区别在于支撑其训练的硬件。根据研究结果,这个强大的模型可以在团队所称的“较低性能设备”上培育成熟。这一精心选择的措辞直接指向了使用那些不在US出口限制范围内的处理单元,强烈暗示使用了在中国境内设计和制造的芯片。
这一进展不仅仅是一个技术上的变通办法;它代表了一个潜在的战略转向。通过展示在不完全依赖顶级、受限外国硬件的情况下训练最先进模型的能力,Ant Group不仅降低了供应链风险,还可能释放显著的成本效益。
经济账:削减训练成本
Ling团队研究中出现的最引人注目的数字之一是在Ling-Plus-Base模型的关键预训练阶段,据报道计算成本降低了20%。预训练是出了名的资源密集型过程,涉及向模型输入海量数据集以学习语言模式、上下文和知识。它构成了开发基础LLM相关总费用的主要部分。因此,在此阶段实现五分之一的成本削减意味着可观的节省,可能为进一步的研究、开发或规模化部署释放资金。
这种成本节约是如何实现的?虽然论文没有详细说明确切的成本构成,但可能有几个因素促成:
- 硬件采购:国产GPU,即使单卡性能不如Nvidia的顶级产品,但在中国市场内可能采购价格更低,或者提供更有利的批量折扣,特别是考虑到高端Nvidia芯片供应受限的情况。
- 能源效率:虽然没有明确说明,但针对可能功耗较低(尽管单位性能可能较低)的国产芯片优化训练,可能有助于降低运营能源成本,这是运行大型数据中心的一个重要因素。
- 算法与架构优化:MoE架构本身的使用是关键。MoE模型仅为给定输入激活特定的“专家”子网络,而不是像密集架构那样动用整个模型。这种固有的稀疏性可以显著减少训练和推理期间的计算负载,使得即使每块芯片的原始处理能力较低,也能实现良好的结果。Ant的成功表明,通过复杂的软件和算法调优,最大限度地提高了可用国产硬件的效率。
这种成本降低不仅仅是会计上的好处;它降低了开发大规模模型的门槛,并可能加速公司内部乃至更广泛的中国科技生态系统(如果这些方法被证明是可复制的)的AI创新步伐。
性能对标:弥合硬件差距?
成本节约很有吸引力,但如果由此产生的AI模型性能显著不足,那就意义不大。Ant的Ling团队直接回应了这一点,声称Ling-Plus-Base实现了与该领域其他备受推崇的模型相当的性能。具体来说,他们将其创作与Qwen2.5-72B-Instruct(由母公司Alibaba开发)和DeepSeek-V2.5-1210-Chat(另一个著名的中国LLM)等模型进行了基准比较。
尽管使用了“较低性能设备”,但声称“性能相当”是值得注意的。这表明Ant可能已经找到了有效的方法来弥补任何原始计算能力的不足,通过:
- 先进的模型架构:MoE设计在此起到了重要作用,有效地分配了工作负载。
- 软件优化:专门针对所使用的国产GPU架构定制训练软件栈(如并行化框架和数值库)至关重要。这通常需要大量的工程努力。
- 数据整理与训练技术:用于选择训练数据和改进训练过程本身的复杂方法可以显著影响最终模型质量,有时可以弥补硬件限制。
重要的是要细致地看待性能声明。“相当”可以涵盖各种基准测试(例如,语言理解、推理、生成、编码)的一系列结果。在没有跨多个标准化测试的详细基准结果的情况下,精确比较仍然具有挑战性。然而,这一断言本身表明Ant对其方法有信心,认为不必在成本/可及性与能力之间做出 crippling(严重削弱)的权衡。它展示了一条即使在硬件限制条件下也能保持竞争力的途径。
研究人员自己强调了更广泛的意义:“这些结果证明了在性能较差的硬件上训练最先进的大规模MoE模型的可行性,从而在计算资源选择方面,为基础模型开发提供了一种更灵活、更具成本效益的方法。”这指向了一种某种程度上的民主化,即使在无法获得绝对顶尖处理能力的情况下,也能进行前沿的AI开发。
理解Mixture-of-Experts (MoE) 的优势
Mixture-of-Experts架构是Ant Group报告成功的核心。它代表了对传统“密集”神经网络模型的背离,在传统模型中,每个输入都会激活每个参数。在MoE模型中:
- 模型由许多更小的、专门化的“专家”网络组成。
- 一个“门控网络”或“路由器”机制学习将传入的数据(在LLM的情况下是tokens)引导到最相关的专家进行处理。
- 只有被选中的专家(通常是潜在数百个中的一个或两个)为该特定数据执行计算。
这种方法提供了几个关键优势,尤其是在硬件受限的背景下:
- 可扩展性:MoE允许模型增长到巨大的参数数量(万亿级正变得可行),而处理每个输入token的计算成本在推理甚至训练步骤中都不会成比例增加。这是因为在任何给定时间只有总参数的一小部分是活跃的。
- 训练效率:虽然训练MoE模型有其自身的复杂性(如专家间的负载均衡),但每个token的计算量减少可以转化为更快的训练时间,或者像Ant所展示的那样,能够在性能较差的硬件上在合理的时间框架内有效训练。
- 专业化:每个专家可能专门处理不同类型的数据、任务或知识领域,可能在特定领域产生更高质量的输出。
全球领先的AI实验室已经拥抱了MoE,包括Google(GShard, Switch Transformer)、Mistral AI(Mixtral模型),以及在中国,像DeepSeek和Alibaba(其Qwen模型包含MoE元素)这样的公司。Ant的Ling-Plus-Base坚定地将自己置于这一先锋行列,利用架构创新来应对硬件现实。
国产硬件生态系统:填补Nvidia的空白
虽然Ant的研究论文没有明确指出所使用的硬件,但随后的报道,特别是Bloomberg的报道指出,这一壮举涉及国产设计的芯片。这包括可能源自Ant的关联公司Alibaba的处理器,该公司拥有自己的芯片设计部门T-Head(生产如Yitian 710的CPU,并曾探索AI加速器),以及至关重要的Huawei Technologies。
尽管Huawei自身面临着严厉的US制裁,但它一直在积极开发其Ascend系列AI加速器(如Ascend 910B),作为中国市场上Nvidia产品的直接替代品。据报道,这些芯片正在被主要的中国科技公司采用。Ant Group能够有效地将此类硬件用于像Ling-Plus-Base这样大的模型,将是对这些国产替代方案的重大验证。
需要强调的是,Ant Group并未完全放弃Nvidia。报道表明,Nvidia芯片仍然是Ant AI开发工具包的一部分,可能用于那些其特定性能特征或成熟的软件生态系统(如CUDA)具有优势的任务,或用于遗留系统。此举未必是关于一夜之间完全替换,而是关于建立可行的、并行的路径,以减少战略脆弱性并控制成本。这种混合方法使公司能够利用现有的最佳工具,同时培养独立性。Ant Group本身保持了一定程度的企业审慎,拒绝对所使用的具体芯片发表官方评论。
更广泛的趋势:中国集体推动AI自力更生
Ant Group的举措并非孤立发生。它反映了整个中国科技行业为围绕US出口管制施加的限制进行创新的更广泛战略推动。“科技战”催化了在关键技术,特别是半导体和AI领域实现更大自给自足的努力。
其他主要参与者也在追求类似的目标:
- ByteDance:TikTok的母公司据报道也在努力获取和利用替代芯片,包括国产选项,以支持其AI雄心,涵盖推荐算法、生成式AI等。
- DeepSeek:这家以其强大的开源模型而闻名的AI初创公司,明确提到了训练效率,并开发了使用MoE架构的模型,这与不那么依赖拥有大量顶级GPU的策略相一致。
- Baidu、Tencent及其他公司:所有主要的中国云和科技公司都在AI领域投入巨资,并且不可避免地在探索硬件多元化战略,包括针对国产芯片进行优化,并可能开发自己的定制芯片。
集体传递的信息很明确:虽然获取Nvidia顶级产品仍然是理想的,但中国科技行业正在积极开发和验证替代解决方案。这涉及多管齐下的方法:拥抱像MoE这样的高效模型架构,针对不同硬件后端进行密集的软件优化,以及支持国产芯片的开发和采用。
超越语言模型:蚂蚁在医疗健康领域的AI扩张
Ant Group的AI努力超出了基础LLM的范畴。在关于其训练效率的消息传出的同时,该公司公布了其为医疗健康领域量身定制的AI解决方案套件的重大升级。该计划利用了一个独特的、自主研发的以医疗健康为中心的AI模型。
升级后的解决方案具有多模态能力(处理各种数据类型,如文本、图像以及可能的其他医疗数据)和复杂的医疗推理能力。这些被集成到Ant所称的“一体机”中,推测是为临床环境或健康管理设计的设备或平台。
虽然这似乎与Ling-Plus-Base LLM的消息分开,但存在潜在的内在联系。能够更具成本效益地训练强大的AI模型,可能使用包括国产选项在内的混合硬件,这可能支撑了为医疗健康等行业开发和部署专用模型的经济可行性。降低AI开发的基础成本,使得资源可以被引导到特定领域的应用中,可能加速实用AI工具在关键行业的推广。这次在医疗健康领域的推进凸显了Ant将其AI专业知识广泛应用的雄心,超越了其金融科技的根基。
对未来的启示:AI道路上的分叉?
Ant Group成功使用非Nvidia、很可能是国产的GPU训练大规模MoE模型,具有重要意义:
- 对国产芯片的验证:它为像Huawei Ascend这样的中国设计AI加速器的可行性提供了关键的证明点,可能促进它们在中国的采用。
- 竞争格局:它表明,尽管存在限制,中国公司仍能通过利用架构和软件创新,在尖端AI开发中保持竞争力。
- 成本动态:20%的成本降低突显了能够有效利用替代硬件的公司的潜在竞争优势,可能影响全球AI的定价和可及性。
- Nvidia的地位:虽然Nvidia在全球仍占主导地位,但这一趋势凸显了由于法规和本地竞争对手的崛起,它在中国这个重要市场面临的挑战。这可能会加速Nvidia开发针对中国的出口合规芯片,但也验证了替代路径。
- 技术分叉?:从长远来看,硬件获取和软件优化的持续分歧可能导致部分不同的AI生态系统,模型和工具针对不同的底层芯片进行优化。
Ant Group Ling团队所经历的旅程象征着地缘政治限制所激发的应变能力。通过巧妙地将像MoE这样的先进模型架构与优化和利用现有国产硬件的意愿相结合,他们规划了一条确保在人工智能这一关键领域持续进步的道路,可能重塑定义该行业的成本结构和战略依赖关系。这证明了创新往往在压力下最为蓬勃发展的观点。