英伟达双管齐下,应对Agent AI推理需求
英伟达正将目光投向基于 Agent 的人工智能(AI)的未来浪潮,这一领域预示着对推理能力提出前所未有的需求。为了应对这一挑战,英伟达公布了一项全面的战略,涵盖硬件和软件创新。
硬件战略:向上和向外扩展
英伟达硬件战略的核心在于不断追求更强大的 GPU。该公司正在采取双管齐下的方法,首先侧重于垂直扩展,然后是水平扩展。目标不仅是在一个机架中开发一台超强 AI 超级计算机,而是要创建一个由相互连接的机架组成的完整生态系统,从而形成一个庞大的 AI 超级计算机复合体。这种“AI 工厂”方法旨在为最苛刻的 AI 工作负载提供所需的计算能力。
在最近的 GTC 大会上发布的全新 Blackwell Ultra 机架式 AI 超级计算机,就体现了这一战略。Blackwell Ultra 旨在加速训练和测试时的扩展推理,它利用现有的 Blackwell 架构,但集成了更强大的 GB300 NVL72。此配置包含 72 个通过 NVLink 互连的 Blackwell Ultra GPU,可提供惊人的 1.1 Exaflops 的 FP4 精度计算能力。GB300 NVL72 的 AI 性能是 GB200 NVL72 的 1.5 倍。单个 DGS GB300 系统提供 15 Exaflops 的计算能力。Blackwell Ultra 计划于 2025 年下半年发布,将得到包括思科、戴尔、HPE、联想、华硕、富士康、技嘉、和硕和广达在内的众多服务器设备供应商的支持。此外,AWS、GCP 和 Azure 等云服务提供商也将提供基于 Blackwell Ultra 的计算服务。
除了这些发电厂级别的 AI 工厂系统之外,英伟达还推出了一系列针对企业内部推理需求的新型计算机,包括 DGX Spark 和 DGX Station 个人 AI 计算机。DGX Spark 的尺寸类似于 Mac mini,可提供高达 1 PFlops 的计算能力。
为了便于理解,2021 年推出的台湾 3 号超级计算机拥有超过 50,000 个核心,仅提供 2.7 PFlops 的性能。仅仅四年时间,三台桌面大小的个人 AI 计算机的计算能力就超过了台湾 3 号。这些新型个人 AI 计算机的 128GB 内存配置售价为 3,999 美元(约合新台币 130,000 元),旨在为企业未来的内部 AI 需求提供动力,充当微型 AI 工厂,甚至可以在边缘 AI 环境中运行。
未来路线图:Vera Rubin 及以后
展望未来,英伟达首席执行官黄仁勋概述了未来两年的产品路线图。该公司计划在 2026 年下半年发布 Vera Rubin NVL144,它以发现暗物质的美国天文学家 Vera Rubin 的名字命名。Vera Rubin NVL144 的性能将是 GB300 NVL72 的 3.3 倍,内存容量、带宽和 NVLink 速度将提高 1.6 倍以上。2027 年下半年,英伟达将推出 Rubin Ultra NVL576,其性能将是 GB300 NVL72 的 14 倍,并通过 NVLink7 和 CX9 显著增强内存容量和带宽速度。
在 Vera Rubin 架构之后,英伟达的下一代架构将以美国著名物理学家 Richard Feynman 的名字命名,他因对挑战者号航天飞机灾难调查的工作而闻名。
软件战略:Nvidia Dynamo
英伟达一直非常重视软件,认为它甚至比硬件更重要。这一战略重点延伸到公司的 AI 工厂计划。
除了将 CUDA-X AI 加速库扩展到各个领域并开发专门的加速库之外,英伟达还推出了 Nvidia Dynamo,这是一种新的 AI 工厂操作系统。值得注意的是,英伟达已经开源了这个操作系统。
Nvidia Dynamo 是一个开源的推理服务框架,旨在构建提供 LLM 推理服务的平台。它可以部署在 K8s 环境中,用于部署和管理大规模 AI 推理任务。英伟达计划将 Dynamo 集成到其 NIM 微服务框架中,使其成为 Nvidia AI Enterprise 框架的组件。
Dynamo 是英伟达现有开源推理服务器平台 Triton 的下一代产品。它的关键特性是将 LLM 推理任务分为两个阶段,从而可以更灵活、更高效地利用 GPU 来优化推理处理、提高效率并最大限度地提高 GPU 利用率。Dynamo 可以根据推理需求动态分配 GPU,并加速 GPU 之间异步数据传输,从而缩短模型推理响应时间。
基于 Transformer 的 GAI 模型将推理分为两个阶段:Prefill(预输入),将输入数据转换为用于存储的 tokens;以及 Decode,一个顺序过程,根据前一个 token 生成下一个 token。
传统的 LLM 推理将 Prefill 和 Decode 任务分配给同一个 GPU。但是,由于这些任务的计算特性不同,Dynamo 将它们分开,相应地分配 GPU 资源,并根据任务特性动态调整分配。这优化了 GPU 集群性能。
英伟达的测试表明,在 GB200 NVL72 上使用 Dynamo 与 6710 亿参数的 DeepSeek-R1 模型,可以将推理性能提高 30 倍。在 Hopper GPU 上运行的 Llama 70B 的性能也可以提高一倍以上。
由于推理计算的复杂性和各种并行处理模型,管理推理任务非常复杂。黄仁勋强调,英伟达推出 Dynamo 框架是为了为 AI 工厂提供操作系统。
传统数据中心依赖于 VMware 等操作系统来协调企业 IT 资源上的不同应用程序。AI Agents 是未来的应用程序,AI 工厂需要 Dynamo,而不是 VMware。
黄仁勋将新的 AI 工厂操作系统命名为 Dynamo(一种引发工业革命的引擎),揭示了他对该平台的期望和雄心。