在人工智能开发这个高风险领域,能否获得尖端的半导体技术往往决定了创新的速度。对于中国的科技巨头而言,由于地缘政治紧张以及美国施加的严格出口管制,获取这些技术变得日益复杂。在这一充满挑战的背景下,与 Alibaba 关联的金融科技巨头 Ant Group 正在开辟一条独特的道路。该公司正战略性地部署来自美国和国内供应商的异构混合半导体,以驱动其 AI 雄心,尤其侧重于提升训练复杂 AI 模型的效率和成本效益。
这种经过深思熟虑的方法不仅仅是一种技术变通,更代表了一种根本性的战略调整。通过有意整合来自不同制造商的芯片,包括本土替代品,Ant Group 旨在减轻供应链中断相关的风险,并减少对任何单一供应商的依赖,特别是那些受国际贸易限制的供应商。这种多元化对于确保其 AI 研发流程的连续性和韧性至关重要。其核心目标有两个:在保持 AI 创新动力的同时,优化通常与训练大规模模型相关的巨额成本。
专业化的力量:拥抱 Mixture of Experts (MoE)
Ant Group 硬件战略的核心是采用了名为 Mixture of Experts (MoE) 的先进 AI 架构。这项技术与传统的单体 AI 模型有显著不同,后者试图用一个庞大的神经网络来学习和处理给定任务的所有方面。相比之下,MoE 方法采用了一种更分布式、更专业化的结构。它的运作方式更像一个专家委员会,而不是一个全能通才。
想象一个需要不同领域知识的复杂问题。与其依赖一位博学者,不如组建一个团队:一位数学家、一位语言学家、一位历史学家,或许还有一位物理学家。一个’门控网络’(gating network)充当调度员,分析传入的任务或数据点,并智能地将它们路由到整个系统中合适的’专家’模型(expert model)。每个专家模型都经过训练,擅长处理特定类型的输入或子任务。例如,在一个语言模型中,一个专家可能专门理解技术术语,另一个专家擅长创意写作风格,第三个专家则精通对话交流。
这种模块化设计的关键优势在于其计算效率。在训练或推理(模型进行预测时)期间,对于给定的输入,只有相关的专家模型和门控网络会被激活。这种选择性计算与密集模型(dense models)形成鲜明对比,后者无论进行何种计算,都必须动用整个网络及其数十亿甚至数万亿的参数。因此,MoE 模型能够达到与其密集对应模型相当甚至更优的性能,同时所需的计算能力显著减少,从而消耗更少的能源。
Ant Group 有效地利用了这一架构优势。内部研究和实际应用表明,即使使用性能较低、更容易获得或成本更低的硬件,MoE 也能让公司获得稳健的训练成果。根据该公司分享的研究结果,MoE 的战略性实施使其 AI 模型训练相关的计算成本显著降低了 20%。这种成本优化不仅仅是渐进式的节省;它是一个战略推动因素,使 Ant 能够追求雄心勃勃的 AI 项目,而不必完全依赖那些最昂贵、顶级的图形处理单元(GPUs),而这些 GPUs 正是中国公司越来越难以采购的。这种效率的提升直接应对了外部环境施加的硬件限制。
硅片织锦:Ant 的硬件组合
Ant Group 战略的实际执行涉及在一个复杂的半导体环境中航行。据报道,该公司的 AI 训练基础设施由多种多样的芯片驱动,反映了其对灵活性和韧性的承诺。这包括其关联公司 Alibaba 内部设计的芯片,很可能指的是 Alibaba 的 T-Head 半导体部门开发的芯片。此外,Ant 还整合了来自另一家中国科技巨头 Huawei 的芯片,后者为应对美国制裁,已投入巨资开发自己的 AI 加速器(如 Ascend 系列)。
虽然 Ant Group 历史上一直使用来自 AI 训练市场无可争议的领导者 Nvidia 的高性能 GPUs,但不断变化的美国出口管制迫使该公司做出转变。这些法规以国家安全为由,特别限制向中国实体出售最先进的 AI 加速器。尽管 Nvidia 仍可向中国市场供应规格较低的芯片,但 Ant Group 似乎正在积极扩大其供应商基础,以弥补对顶级 Nvidia 产品受限的访问。
这种多元化策略中,来自 Advanced Micro Devices (AMD) 的芯片占据了显著位置。AMD 已成为 Nvidia 在高性能计算和 AI 领域的重要竞争对手,其提供的强大 GPUs 为某些工作负载提供了可行的替代方案。通过将 AMD 硬件与来自 Alibaba 和 Huawei 的国内选项相结合,Ant 构建了一个异构计算环境。这种混合搭配的方法,虽然可能在软件优化和工作负载管理方面增加复杂性,但提供了关键的灵活性。它允许公司根据可用性、成本以及不同 AI 模型和任务的具体计算需求来调整硬件使用,从而规避因依赖单一、受限来源而造成的瓶颈。
这一战略的背景是错综复杂的美国出口管制网络。这些措施已逐步收紧,旨在遏制中国在先进半导体制造和 AI 开发方面的进展。虽然最初主要针对绝对最高端的芯片,但限制措施已经演变,影响了更广泛的硬件和半导体制造设备。例如,Nvidia 不得不为其旗舰 AI 芯片(如源自 A100 和 H100 的 A800 和 H800)创建特定的、性能较低的版本,以符合这些法规并供应中国市场。Ant 采用来自 AMD 和国内厂商替代方案的策略,是对这种监管压力的直接、务实的回应,表明其在既定约束条件下努力维持 AI 竞争力。
AI 实践:变革医疗服务
Ant Group 在 AI 效率方面的进步不仅仅是理论上的演练;它们正被积极转化为现实世界的应用,尤其侧重于医疗健康领域。该公司最近公布了其为医疗健康量身定制的 AI 解决方案的重大升级,突显了其底层技术战略的实际影响。
据报道,这些升级后的 AI 功能已在中国主要城市的几家著名医疗机构中使用,包括北京、上海、杭州(Ant 总部所在地)和宁波。七家大型医院和医疗机构正在利用 Ant 的 AI 来改善其运营和患者护理的各个方面。
Ant 医疗 AI 模型的基础本身就是协作创新和利用多样化技术优势的一个例子。它建立在多个强大的大型语言模型(LLMs)的组合之上:
- DeepSeek 的 R1 和 V3 模型: DeepSeek 是中国一家著名的 AI 研究公司,以开发能力强大的开源模型而闻名,常在性能基准测试中取得优异成绩。
- Alibaba 的 Qwen: 这是 Ant 的关联公司 Alibaba 开发的专有大型语言模型系列,涵盖多种规模和能力。
- Ant 自有的 BaiLing 模型: 这表明 Ant Group 在开发定制 AI 模型方面的内部努力,以满足其特定需求,可能融合了金融以及潜在的医疗健康特定数据和专业知识。
这种多模型基础使得医疗 AI 解决方案能够利用广泛的知识和能力基础。据 Ant Group 称,该系统能够熟练地处理关于各种医疗主题的查询,对于寻求快速信息的医疗专业人员和寻求一般医学知识的患者来说,都可能成为一个有价值的工具(尽管明确界定其作用与专业医疗建议之间的界限至关重要)。
除了信息检索,该公司表示,该 AI 模型旨在提升患者服务。虽然具体细节仍在披露中,但这可能涵盖一系列应用,例如:
- 智能分诊: 根据描述的症状协助优先处理患者需求。
- 预约安排与管理: 自动化并优化预约流程。
- 出院后随访: 提供自动提醒或跟进患者的康复进展。
- 行政支持: 帮助医护人员处理文档、摘要或数据录入任务,从而腾出时间进行直接的患者护理。
在大型医院的部署标志着验证该技术效用以及应对医疗领域复杂性的关键一步,该领域对准确性、可靠性和数据隐私有着严格的要求。
规划超越高端 GPUs 的路线
展望未来,Ant Group 的战略似乎与中国科技行业内更广泛的雄心相一致:即在不完全依赖最先进、通常受限的 GPUs 的情况下,实现尖端的 AI 性能。据报道,该公司计划效仿 DeepSeek 等机构所走的道路,专注于**’在没有高端 GPUs 的情况下’扩展高性能 AI 模型**的方法。
这一雄心表明了一种信念,即架构创新(如 MoE)、软件优化以及对多样化、可能性能较低硬件的巧妙利用,可以共同弥补因无法获得顶级芯片而造成的性能差距。这是一种部分源于出口管制必要性的策略,但也反映了一条可能更具成本效益和更民主化的 AI 发展可持续路径。
实现这一目标涉及探索 MoE 之外的多种途径:
- 算法效率: 开发新的 AI 算法,减少训练和推理所需的计算能力。
- 模型优化技术: 采用量化(quantization,降低计算中使用的数字精度)和剪枝(pruning,移除神经网络的冗余部分)等方法,使模型更小、更快,而性能损失不大。
- 软件框架: 创建复杂的软件,能够有效地管理和分发 AI 工作负载到异构硬件环境,最大限度地利用可用的计算资源。
- 专业化的国产硬件: 持续投资和利用由 Huawei (Ascend)、Alibaba (T-Head) 等中国公司开发的、专为 AI 任务设计的 AI 加速器。
Ant Group 与中国科技生态系统中的其他参与者一起追求这条道路,可能会产生重大影响。如果成功,它可能证明 AI 领域的领导地位并不仅仅取决于能否获得绝对最快的芯片,也取决于软件、架构和系统级优化的创新。这代表了一种坚定的努力,旨在通过战略多元化和不懈创新,在当前复杂的全球技术格局中,建立一个有韧性且自给自足的 AI 能力。将美国和中国的半导体结合起来,通过 MoE 等技术进行优化,并应用于医疗等关键领域,展示了一种在压力下维持 AI 进步的务实和适应性方法。