一个奇特的修正:Nvidia 重新思考其 GPU 数量
在半导体创新的高风险舞台上,Nvidia 的 GPU 技术大会 (GTC) 是揭示未来的首要平台。在最近一次大会上,伴随着人工智能和加速计算领域进展的预期热度,该公司引入了一个微妙却可能影响深远的变化——对其如何从根本上定义图形处理单元 (GPU) 进行了修改。这不仅仅是一个技术脚注;这是一次具有重大下游影响的重新校准,尤其关系到部署 Nvidia 先进 AI 解决方案的成本结构。
首席执行官 Jensen Huang 本人在 GTC 舞台上直接谈到了这一变化,将其描述为对先前关于其尖端 Blackwell 架构的一个疏忽的修正。“我犯的一个错误是:Blackwell 实际上是一个 Blackwell 芯片中的两个 GPU,”他说道。提出的理由侧重于清晰度和一致性,特别是关于与 Nvidia 高速互连技术 NVLink 相关的命名约定。“我们称那个芯片为一个 GPU,这是错误的。原因在于它搞乱了所有的 NVLink 命名法,”Huang 详细阐述道。虽然简化型号名称提供了一定程度的逻辑整洁性,但这种重新定义的影响远不止于语义层面。
这一转变的核心在于,从将物理模块(特别是在高性能服务器中常见的 SXM 外形规格)计为单个 GPU,转变为计算这些模块内的不同硅 die。这种术语上看似微小的调整,有可能极大地改变使用 Nvidia AI Enterprise 软件套件的组织的财务状况。
财务涟漪效应:AI Enterprise 许可费用可能翻倍?
Nvidia AI Enterprise 是一个全面的软件平台,旨在简化 AI 应用程序的开发和部署。它包含广泛的工具、框架,以及至关重要的 Nvidia Inference Microservices (NIMs) 的访问权限,NIMs 是用于高效运行 AI 模型的优化容器。这个强大套件的许可模式历来与部署的 GPU 数量直接挂钩。当前的定价结构大约为每年每个 GPU 4,500 美元,或基于云的费率为每小时每个 GPU 1 美元。
考虑上一代或某些 Blackwell 配置。一台 Nvidia HGX B200 服务器,配备八个 SXM 模块,其中每个模块包含当时被认为是一个 Blackwell GPU,将需要八个 AI Enterprise 许可证。这转化为年度软件订阅成本为 36,000 美元(8 个 GPU * 4,500 美元/GPU)或每小时云成本为 8 美元(8 个 GPU * 1 美元/GPU/小时)。
现在,进入新定义的领域,以 HGX B300 NVL16 等系统为例。该系统也配备了八个物理 SXM 模块。然而,根据修订后的定义,Nvidia 现在将这些模块内的每个硅 die 计为一个独立的 GPU。由于此特定配置中的每个模块包含两个 die,因此用于许可目的的总 GPU 数量有效地翻倍至 16 个 GPU(8 个模块 * 2 个 die/模块)。
假设 Nvidia 对 AI Enterprise 套件维持其现有的按 GPU 定价结构——该公司已表示这一点尚未最终确定——其影响是显而易见的。同样是八模块的 HGX B300 系统现在可能需要 16 个许可证,将年度软件成本推高至 72,000 美元(16 个 GPU * 4,500 美元/GPU)或云中每小时 16 美元。这代表着,对于看似硬件密度相当的系统,软件订阅成本增加了 100%,而这直接源于对“GPU”计数方式的改变。
两种架构的故事:调和过去的陈述
这种命名法的转变与 Nvidia 先前对 Blackwell 架构的描述形成了有趣的对比。当 Blackwell 最初亮相时,围绕其设计(涉及将多个硅片 (die) 连接在单个处理器封装内)引发了讨论。当时,Nvidia 积极反对使用“chiplet”架构这一术语来描述 Blackwell——这是一个行业通用术语,用于描述采用多个较小的、互连的 die 的设计。相反,该公司强调了不同的视角。
正如 Blackwell 发布报道中所述,Nvidia 认为它采用了一种“双光罩限制 die 架构,作为一个统一的、单一的 GPU”运作。这种措辞强烈暗示,尽管物理上存在两个 die,但它们作为一个逻辑处理单元协同工作。应用于 B300 配置的新计数方法似乎偏离了这种“统一的、单一的 GPU”概念,至少从软件许可的角度来看,将这些 die 视为不同的实体。这就引出了问题:最初的描述主要是侧重于硬件的功能潜力,还是关于许可的战略视角发生了演变?
性能提升 vs. 潜在成本上涨:评估 B300 的价值主张
在考虑 HGX B300 相较于其前身(如 B200)可能翻倍的软件许可费用时,审视新硬件提供的性能增强至关重要。B300 是否提供了两倍的 AI 处理能力来证明潜在翻倍的软件成本是合理的?规格参数揭示了一幅更细致的图景。
HGX B300 确实有所改进:
- 增加的内存容量: 每个系统提供约 2.3 Terabytes 的高带宽内存 (HBM),相比 B200 上的 1.5TB 有约 1.5 倍的显著提升。这对于处理更大的 AI 模型和数据集至关重要。
- 增强的低精度性能: B300 在使用 4 位浮点 (FP4) 精度进行计算时表现出显著的性能提升。其 FP4 吞吐量达到每个系统略高于 105 dense petaFLOPS,比 B200 提高了约 50%。这种加速对于某些可接受较低精度的 AI 推理任务特别有益。
然而,性能优势并非在所有工作负载中都普遍存在。关键的是,对于需要更高精度浮点运算(如 FP8、FP16 或 FP32)的任务,B300 并未提供比旧款 B200 系统显著的浮点运算优势。许多复杂的 AI 训练和科学计算任务严重依赖这些更高精度的格式。
因此,评估 B300 的组织面临着复杂的计算。他们获得了可观的内存容量和 FP4 性能的提升,但潜在翻倍的 AI Enterprise 软件成本可能与其特定、更高精度工作负载的性能提升不成正比。价值主张变得高度依赖于所运行 AI 任务的性质。
技术理由:互连与独立性
有趣的是,这种新的 die 计数方法并未普遍应用于 GTC 上宣布的所有新的基于 Blackwell 的系统。例如,更强大的液冷 GB300 NVL72 系统继续遵循旧的惯例,将整个封装(包含两个 die)计为单个 GPU 用于许可目的。这种差异引出了一个问题:为什么会有不同?
Nvidia 提供了一个植根于 GPU 封装内部互连技术的技术原理。根据 Nvidia 副总裁兼超大规模和 HPC 总经理 Ian Buck 的说法,区别在于封装内直接连接两个 die 的关键芯片到芯片 (C2C) 互连是否存在。
HGX B300 配置: 用于风冷 HGX B300 系统的特定 Blackwell 封装缺少这种直接的 C2C 互连。正如 Buck 解释的那样,这种设计选择是为了在风冷机箱的限制内优化功耗和热管理。然而,其后果是,单个 B300 模块上的两个 die 以更大程度的独立性运行。如果一个 die 需要访问物理连接到同一模块上另一个 die 的高带宽内存中的数据,它无法直接这样做。相反,数据请求必须离开封装,穿过外部 NVLink 网络(可能通过服务器主板上的 NVLink 交换芯片),然后路由回另一个 die 的内存控制器。这种绕行强化了这样一种观念,即这是两个功能上不同的处理单元,共享一个共同的封装,但需要外部通信路径来实现完全的内存共享。Nvidia 认为,这种分离证明了将它们计为两个不同 GPU 的合理性。
GB300 NVL72 配置: 相比之下,用于更高端 GB300 系统的“Superchip”封装保留了高速 C2C 互连。这种直接链接允许封装内的两个 die 更高效、更直接地通信和共享内存资源,无需通过 NVLink 交换机进行离封装的绕行。因为它们可以更紧密地协同工作并无缝共享内存,所以从软件和许可的角度来看,它们被视为一个单一的、统一的 GPU,这与 Blackwell 架构最初的“统一”描述相符。
这种技术上的区别为不同的计数方法提供了逻辑基础。由于缺少 C2C 链接,B300 的 die 在功能上更加分离,这为双 GPU 计数提供了依据。GB300 的 die 紧密耦合,支持单 GPU 计数。
展望未来:Vera Rubin 开创先例
虽然 GB300 目前是一个例外,但为 B300 采用的 die 计数方法似乎预示着 Nvidia 未来的方向。该公司已经发出信号,其下一代平台,代号为 Vera Rubin,计划在更远的将来发布,将完全采用这种新的命名法。
命名约定本身就提供了一条线索。基于 Rubin 架构的系统被指定了高数字,例如 NVL144。这个指定强烈暗示着计算的是单个 die 而不是模块。按照 B300 的逻辑,一个 NVL144 系统可能由一定数量的模块组成,每个模块包含多个 die,总计为 144 个可计数的 GPU die,用于许可和规格说明。
这一趋势在 Nvidia 2027 年末的 Vera Rubin Ultra 平台路线图中更为明显。该平台宣称每个机架拥有惊人的 576 个 GPU。正如先前分析的那样,这个令人印象深刻的数字并非通过将 576 个不同的物理模块塞进一个机架来实现的。相反,它反映了新计数范式的乘法应用。该架构可能涉及每个机架 144 个物理模块,但每个模块包含四个不同的硅 die。因此,144 个模块乘以每个模块 4 个 die,得出了 576 个“GPU”的标题数字。
这种前瞻性的视角表明,B300 的 die 计数方法不仅仅是针对特定风冷系统的临时调整,而是 Nvidia 打算在未来几代产品中量化其 GPU 资源的基本原则。投资 Nvidia 生态系统的客户需要预见到这种转变将成为标准。
未言明的因素:最大化软件收入流?
尽管关于 C2C 互连的技术解释为 B300 的不同 GPU 计数提供了理由,但其时机和重大的财务影响不可避免地引发了对潜在商业动机的猜测。这种最初被表述为对命名法“错误”的修正的重新定义,是否也可能成为增加经常性软件收入的战略杠杆?
在 Blackwell 最初以其“统一的、单一的 GPU”信息进行详细说明后的一年里,Nvidia 很可能认识到有一个巨大的收入机会未被开发。AI Enterprise 套件是 Nvidia 业务中一个不断增长且利润率高的组成部分。将其许可与硅 die 的数量而非物理模块直接挂钩,提供了一条显著增加从每次硬件部署中获得的软件收入的途径,特别是随着未来架构(如 Vera Rubin Ultra)中每个模块的 die 数量可能增加。
当被追问 GPU 定义的这种变化将如何具体影响新的 B300 系统的 AI Enterprise 许可成本时,Nvidia 保持了一定程度的模糊性。一位公司发言人表示,财务细节仍在考虑中。“B300 的定价细节仍在最终确定中,关于 Rubin,除了 GTC 主题演讲中展示的内容外,目前没有更多细节可分享,”该发言人表示,明确证实这包括了这些平台上 AI Enterprise 的定价结构。
这种缺乏最终定价,加上某些硬件配置上可计数 GPU 数量的翻倍,给计划未来 AI 基础设施投资的客户带来了不确定性。虽然技术理由存在,但软件订阅成本大幅增加的可能性依然很大。这一转变凸显了软件在半导体价值链中日益增长的重要性,以及 Nvidia 通过将许可指标与底层硅复杂性更紧密地结合起来,从而更有效地将其全面的 AI 平台货币化的明显战略。随着组织为下一代 AI 系统制定预算,“GPU”的定义突然变成了一个关键的、且可能昂贵得多的变量。