蚂蚁集团用国产芯片引领AI发展

蚂蚁集团的AI模型训练创新方法

由马云支持的金融科技巨头蚂蚁集团在人工智能领域取得了重大突破,利用中国制造的半导体实现了这一成就。这种创新方法使该公司能够开发出训练AI模型的技术,从而显著降低了20%的成本。熟悉此事的消息人士透露,蚂蚁集团使用了包括其关联公司Alibaba Group Holding Ltd.和Huawei Technologies Co.在内的国产芯片,采用混合专家(MoE)机器学习方法来训练模型。

蚂蚁集团取得的成果可与使用Nvidia Corp.的芯片(如H800)获得的结果相媲美,H800是一款功能强大的处理器,受美国限制无法出口到中国。虽然蚂蚁集团继续使用Nvidia进行AI开发,但它越来越多地依赖替代方案,包括Advanced Micro Devices Inc. (AMD)和中国芯片,用于其最新的模型。

进入AI竞赛:中国vs.美国

蚂蚁集团进军AI模型开发领域,使其直接置身于中国和美国公司之间的激烈竞争之中。自从DeepSeek展示了以OpenAI和Alphabet Inc.的Google等行业巨头(已投资数十亿美元)的一小部分成本训练高性能模型的潜力以来,这场竞赛愈演愈烈。蚂蚁集团的成就凸显了中国公司利用本地采购的替代品来取代最先进的Nvidia半导体的决心。

具有成本效益的AI推理的前景

蚂蚁集团本月发表的研究论文强调了其模型的潜力,声称在某些基准测试中性能优于Meta Platforms Inc.,尽管这些说法尚未得到彭博新闻社的独立验证。然而,如果蚂蚁集团的平台如其所宣传的那样运行,它们可能代表着中国人工智能发展的重大进步。这主要是因为它们能够大幅降低推理成本,而推理是支持AI服务的过程。

混合专家:AI领域的游戏规则改变者

随着各公司向AI投入大量资源,MoE模型作为一种流行且高效的方法而备受关注。这种技术被Google和总部位于杭州的初创公司DeepSeek等公司采用,涉及将任务划分为更小的数据集。这类似于拥有一支专家团队,每个专家专注于工作的特定部分,从而优化整个过程。

克服GPU瓶颈

传统上,MoE模型的训练严重依赖高性能芯片,例如Nvidia制造的图形处理单元(GPU)。这些芯片的高昂成本一直是许多小公司的主要障碍,限制了MoE模型的广泛采用。然而,蚂蚁集团一直在努力研究更有效地训练大型语言模型(LLM)的方法,有效地消除了这一限制。他们的研究论文的标题设定了“无需高级GPU即可扩展模型”的目标,清楚地反映了这一目标。

挑战Nvidia的主导地位

蚂蚁集团的方法直接挑战了Nvidia首席执行官黄仁勋所倡导的普遍策略。黄仁勋一直认为,即使出现了像DeepSeek的R1这样更高效的模型,计算需求仍将继续增长。他认为,公司将需要更好的芯片来产生更高的收入,而不是更便宜的芯片来降低成本。因此,Nvidia一直专注于构建具有增强处理核心、晶体管和更大内存容量的大型GPU。

量化成本节约

蚂蚁集团提供了具体的数据来证明其优化方法的成本效益。该公司表示,使用高性能硬件训练1万亿个token将花费约635万元人民币(88万美元)。然而,通过利用较低规格的硬件和其优化技术,蚂蚁集团可以将这一成本降低到510万元人民币。Token代表模型处理以了解世界并向用户查询提供相关响应的信息单元。

利用AI突破开发工业解决方案

蚂蚁集团计划利用其在大型语言模型(特别是Ling-Plus和Ling-Lite)方面的最新进展,为医疗保健和金融等行业开发工业AI解决方案。这些模型旨在满足特定的行业需求并提供量身定制的解决方案。

扩大AI在医疗保健领域的应用

蚂蚁集团对医疗保健的承诺体现在其将中国在线平台好大夫在线(Haodf.com)整合到其人工智能服务中。通过创建AI医生助理,蚂蚁集团旨在支持好大夫在线的29万名医生的广泛网络,协助完成病历管理等任务。这种AI应用有可能显著提高医疗保健服务的效率和准确性。

AI驱动的日常生活助手

除了医疗保健,蚂蚁集团还开发了一款名为“智小宝”的AI“生活助手”应用程序和一款名为“蚂小财”的金融咨询AI服务。这些应用展示了蚂蚁集团将AI融入日常生活各个方面的雄心,为用户提供个性化和智能的帮助。

性能基准测试:Ling模型vs.竞争对手

在其研究论文中,蚂蚁集团声称Ling-Lite模型在英语理解的关键基准测试中优于Meta的Llama模型之一。此外,Ling-Lite和Ling-Plus模型在中文基准测试中均表现出优于DeepSeek同类产品的性能。这凸显了蚂蚁集团在AI领域的竞争地位。

正如总部位于北京的AI解决方案提供商生数科技(Shengshang Tech Co.)的首席技术官Robin Yu所说:“如果你找到一个点来击败世界上最好的功夫大师,你仍然可以说你打败了他们,这就是为什么实际应用很重要。”

开源促进协作和创新

蚂蚁集团已将Ling模型开源,从而促进了AI社区内的协作和创新。Ling-Lite包含168亿个参数,这些参数是控制模型性能的可调整设置。另一方面,Ling-Plus拥有更大的2900亿个参数,使其跻身大型语言模型之列。为了提供背景信息,专家估计ChatGPT的GPT-4.5大约有1.8万亿个参数,而DeepSeek-R1有6710亿个参数。

应对模型训练中的挑战

蚂蚁集团在开发这些模型的过程中并非一帆风顺。该公司在训练的某些领域遇到了困难,特别是关于稳定性。即使硬件或模型结构发生微小变化,也可能导致问题,包括模型错误率的波动。这凸显了训练高级AI模型的复杂性和敏感性。

在医疗保健领域的实际部署

蚂蚁集团对实际应用的承诺进一步体现在其部署了以医疗保健为重点的大型模型机器上。这些机器目前正在北京和上海等主要城市的七家医院和医疗保健提供商中使用。该大型模型利用DeepSeek R1、Alibaba的Qwen和蚂蚁集团自己的LLM提供医疗咨询服务。

用于增强医疗保健服务的AI Agent

除了大型模型机器,蚂蚁集团还推出了两个医疗AI Agent:Angel和医保儿。Angel已经为1000多家医疗机构提供服务,而医保儿则为医疗保险服务提供支持。此外,在去年9月,蚂蚁集团在其支付宝支付应用程序中推出了AI健康管家服务,进一步扩大了其在医疗保健领域的影响力。这些举措表明蚂蚁集团致力于利用AI来改变和改善医疗保健服务。