AMD 加强 AI 雄心:收购超大规模基础设施架构师

在争夺人工智能(AI)主导地位且迅速升级的军备竞赛中,仅仅制造强大的硅芯片已不再是通往胜利的唯一途径。真正的挑战在于,如何以现代 AI 工作负载所需的巨大规模,有效且高效地部署这些强大的处理器。认识到这一关键瓶颈,Advanced Micro Devices (AMD) 采取了一项决定性的战略举措,收购了 ZT Systems 公司。ZT Systems 以其构建基础架构——即支撑全球最大云服务提供商 AI 雄心的定制化、机架级计算基础设施——的专业知识而闻名。这不仅仅是又一次企业收购;这是 AMD 深化自身能力、从组件供应商转型为面向超大规模时代提供更全面、集成化 AI 解决方案供应商的深思熟虑之举。

此次整合的重要性源于构建和运营驱动大型语言模型及其他生成式 AI 应用的数据中心所固有的复杂性。这些环境与传统的企业服务器机房大相径庭。它们需要将巨大的计算能力(主要来自像 AMD Instinct 加速器这样的 GPU)封装到密集的配置中,这会产生前所未有的热量并消耗大量电力。为这些系统散热、确保可靠的电力输送,以及通过高带宽、低延迟网络互联数千个处理器,都是巨大的工程挑战。ZT Systems 正是通过精通应对这些挑战而开拓了自己的市场定位,成为超大规模客户(他们需要定制、优化的基础设施)值得信赖的(尽管通常是幕后的)合作伙伴。通过将这种系统级设计和集成专业知识收归内部,AMD 正将自己定位为能够提供弥合尖端硅芯片与交钥匙、可运营 AI 集群之间差距的解决方案。

将芯片与系统编织成统一的 AI 结构

AMD 收购 ZT Systems 的核心逻辑在于追求协同效应——创造一个大于各部分总和的整体。AMD 拥有强大的高性能计算组件库:提供强大通用处理能力的 EPYC CPU,专为要求严苛的 AI 训练和推理任务量身定制的 Instinct GPU,以及日益复杂的网络技术,可能包括从其收购 Xilinx 和 Pensando 中继承的 DPU(数据处理单元)和自适应计算解决方案。然而,要将这些单个组件的原始潜力转化为数千个互连单元规模下的优化性能,需要在系统架构、热管理、配电和验证方面拥有深厚的专业知识。

这正是 ZT Systems 的专长所在。多年来,他们一直专注于设计和制造服务器及存储解决方案,以满足超大规模数据中心运营商独特且通常严格的要求。这些客户——云计算和互联网服务的巨头——运营的规模使得效率、密度或部署速度上哪怕是微小的改进,都能转化为显著的竞争优势和成本节约。ZT Systems 以交付以下能力而闻名:

  • 规模化定制: 超越标准化服务器设计,创建针对特定工作负载、功率范围和散热基础设施优化的机架级配置。
  • 快速部署能力: 简化制造、集成和测试流程,使超大规模客户能够快速构建或升级其 AI 能力。
  • 热能与电源效率: 设计解决方案,在管理 AI 加速器产生的巨大热量的同时最大化计算密度,并最小化能耗——这是运营成本和环境可持续性的关键因素。
  • 供应链管理: 驾驭复杂的组件采购物流,并按时可靠地交付完全集成的系统。

通过整合 ZT Systems,AMD 直接获得了这个系统级设计知识和运营经验的宝库。其目标是为其 AI 技术创建一个更加垂直整合的路径。AMD 不再仅仅销售芯片和参考设计,现在可以在开发端到端优化的完整机架级解决方案方面进行更紧密、甚至可能是在内部的协作。这涉及到确保硬件组件——CPU、GPU、网络接口、电源——在 ZT 设计的机箱和散热系统内和谐工作,并由软件(包括 AMD 自己的开源 ROCm (Radeon Open Compute platform) 平台)进行协调。

对于客户,尤其是那些在超大规模运营的客户而言,前景是诱人的。它预示着新 AI 基础设施部署上市时间加速的潜力。如果主要的硅芯片供应商同时也带来了深厚的系统集成专业知识,那么将来自多个供应商的组件进行认证并集成到一个统一系统中的复杂过程可以被显著缩短。此外,协同设计芯片和系统有可能释放更高水平的性能和效率。组件可以被优化以比组装零散部件更有效地协同工作。这种集成方法,利用 AMD 的硅芯片产品组合和 ZT 的系统敏锐度,旨在提供强大的、云优化的 AI 基础设施,不仅性能卓越,而且能够以 AI 革命所需的巨大规模快速可靠地部署。

缩短 AI 部署周期:竞争的必然要求

负责数据中心解决方案业务部的 AMD 执行副总裁 Forrest Norrod 阐述了推动此次收购的战略必要性。“随着 AI 创新的快速步伐,”他指出,“缩短集群级数据中心 AI 系统的端到端设计和部署时间,将成为我们客户显著的竞争优势。”这一声明强调了当前技术领域的一个关键现实:组织构建、部署和扩展其 AI 能力的速度,直接影响其创新和竞争的能力。

传统模式通常涉及一个多阶段过程:

  1. 芯片供应商: 设计并销售 CPU、GPU、网络芯片。
  2. ODM/系统集成商: 设计服务器和机架,集成组件,执行测试。
  3. 超大规模客户/最终客户: 明确需求,认证集成系统,将其部署在数据中心,并与软件栈集成。

每一步都涉及交接、潜在的集成挑战和时间延迟。通过收购 ZT Systems,AMD 旨在显著压缩这一时间线。ZT 的设计团队现在作为 AMD 数据中心解决方案部门的一部分,可以与 AMD 的芯片设计师并行工作。这使得一个更全面的设计过程成为可能,其中系统架构为芯片开发提供信息,反之亦然,从而可能实现那些在更分散的生态系统中无法实现的优化。

想象一下设计下一代 GPU 加速器。如果从一开始就精确了解它将如何集成到由前 ZT 团队设计的密集液冷机架系统中,AMD 就可以针对该特定环境优化芯片的外形尺寸、供电接口和散热特性。反过来,系统设计人员可以早期获取即将推出的 AMD 芯片的规格和性能特征,从而使他们能够更有效地设计机箱、散热和供电基础设施。

这种集成方法,将 AMD 的芯片路线图与 ZT 在系统设计和交付方面久经考验的执行能力相结合,旨在为客户提供可随时部署、优化的基础设施解决方案,速度远超以往。Norrod 强调了这一点,将此次收购定位为“我们 AI 战略中的一个重要里程碑,旨在提供领先的训练和推理解决方案,这些解决方案针对客户的独特环境进行了优化,并准备好进行规模化部署。”重点完全在于消除部署过程中的障碍,使客户能够更快、更有效地利用 AMD 的 AI 技术。这种上市速度优势不仅对超大规模客户至关重要,对于同样希望构建大规模 AI 基础设施的大型企业和研究机构也可能具有重要意义。

整合人才并着眼于制造能力

任何重大收购的一个关键方面是人才和专业知识的整合。AMD 不仅仅是收购 ZT Systems 的知识产权和客户关系;它正在吸纳其经验丰富的设计团队和资深领导层。这些人拥有构建超大规模基础设施所涉及的挑战和细微差别的深刻、实践性知识——这些知识是通过多年与世界上要求最高的数据中心运营商密切合作积累起来的。

来自 ZT Systems 的两位关键人物将在 AMD 内部担任高级领导职务,直接向 Forrest Norrod 汇报:

  • Frank Zhang: ZT Systems 的创始人兼前 CEO,现担任 AMD ZT 制造高级副总裁。他在建立和扩展 ZT 运营方面的丰富经验,对于 AMD 整合这些能力将是无价的。
  • Doug Huang: ZT Systems 前总裁,Huang 担任数据中心平台工程高级副总裁。他的工作重点很可能是领导负责设计和工程化集成 AI 平台的技术团队。

将这些领导者及其团队纳入麾下,表明 AMD 致力于将系统级设计打造成其数据中心解决方案部门的核心竞争力。Norrod 对 ZT 团队表示欢迎,并强调了合并后的价值主张:“我们将共同为客户提供选择和上市速度,使他们能够将投资集中在他们选择用来差异化其 AI 产品的关键领域。”这表明了一种策略,即 AMD 提供一个强大、优化的基础,让客户能够将资源集中用于开发独特的 AI 模型和应用程序,而不是纠结于硬件集成的复杂性。

此外,AMD 的雄心可能超越设计和集成,延伸到制造领域。该公司透露,已就收购 ZT Systems 位于美国的数据中心基础设施制造业务与潜在合作伙伴进行讨论,目标是在 2025 年前完成。如果实现,这将是 AMD 在 AI 基础设施领域迈向更大程度垂直整合的重要一步。拥有或控制制造资产可能带来几个优势:

  • 供应链韧性: 减少对外部合同制造商的依赖,对生产计划和质量获得更直接的控制。
  • 更快的原型设计和迭代: 实现开发和测试新系统设计的更快周期。
  • 增强的定制化: 便于为特定客户需求生产高度定制化的解决方案。
  • 与地缘政治趋势保持一致: 可能加强国内制造能力,特别是对于关键技术基础设施。

这一潜在的进军制造业的举动,凸显了 AMD 此举的战略深度。这不仅仅是关于获取设计人才,还可能关乎控制更多的价值链,从芯片设计一直到交付完全组装和测试的 AI 基础设施机架。

重塑 AI 基础设施领域的竞争格局

AMD 收购 ZT Systems 的背景是 AI 硬件和基础设施市场竞争激烈。Nvidia 已经建立了强大的领先地位,特别是在 AI 训练方面,这得益于其强大的 GPU 和成熟的 CUDA 软件生态系统。Nvidia 也提供自己的集成系统,如 DGX 系列,提供全栈解决方案。长期占据 CPU 领导者地位的 Intel 也在积极进军 AI 市场,推出了其 Gaudi 加速器,并采取了专注于开放软件和异构计算的战略。

通过收购 ZT Systems,AMD 显著增强了其竞争态势。它不再主要是一家组件(CPU、GPU)供应商,而是开始提供更完整、预先验证和优化的系统级解决方案。这直接挑战了 Nvidia 的 DGX 模式,并为超大规模客户和其他大型客户提供了一个有吸引力的替代方案。AMD 希望利用的关键竞争优势包括:

  • 集成产品组合: 能够在 ZT 设计的框架内,提供结合其 EPYC CPU、Instinct GPU 和先进网络组件的优化系统。
  • 开放软件生态系统: 继续倡导 ROCm 开源软件平台,作为 Nvidia 专有 CUDA 的替代方案,可能吸引寻求更大灵活性和避免供应商锁定的客户。
  • 超大规模专业知识: 利用 ZT Systems 在服务最大云服务提供商独特需求方面的深厚关系和良好记录。
  • 速度与定制化: 提供更快的部署时间线,以及可能从 ZT Systems 运营模式继承的更强定制能力。

此举表明,AI 主导地位的战场正在发生变化。虽然芯片性能仍然至关重要,但在集成的大规模系统中可靠、高效且快速地交付这种性能的能力正变得同等重要。AMD 押注于通过将其硅芯片优势与 ZT 的系统集成实力相结合,可以提供更具吸引力的价值主张,特别是对于那些构成 AI 基础设施最大消费群体的超大规模客户。此次收购为 AMD 提供了关键能力,使其能够在整个 AI 基础设施堆栈中更有效地竞争,旨在通过不仅提供强大的芯片,而且提供完整、优化且可快速部署的 AI 解决方案,来抢占这个爆炸性增长市场的更大份额。整合 ZT Systems 标志着 AMD 战略的一次重大演变,使其在人工智能时代转变为一个更强大的端到端参与者。