重思AI效率:并非时刻需要100%脑力

随着 AI 技术的迅猛发展,更大的模型往往意味着更强的智能,但同时也伴随着运营成本的急剧上升。 这就带来了一个严峻的挑战,尤其是在那些难以获得先进 AI 芯片的地区。 然而,无论地理限制如何,模型开发者们正日益倾向于采用 Mixture of Experts (MoE) 架构,并结合创新的压缩技术。 他们的目标是:大幅度降低部署和运行这些庞大 Large Language Models (LLMs) 所需的计算资源。 正值 ChatGPT 引领的生成式 AI 浪潮即将迎来三周年之际,业界终于开始认真审视维持这些“耗电大户”模型运转的经济影响。

尽管像 Mistral AI 这样的 MoE 模型已经存在一段时间了,但它们真正的突破发生在过去一年。 我们见证了来自 Microsoft、Google、IBM、Meta、DeepSeek 和 Alibaba 等科技巨头推出的一系列新的开源 LLM,它们都采用了某种形式的 MoE 架构。 这种吸引力非常直接:MoE 架构提供了一种比传统的“密集”模型架构更有效的替代方案。

克服内存限制

MoE 架构的基础可以追溯到 20 世纪 90 年代初,当时发表了“Adaptive Mixtures of Local Experts”一文。 其核心思想围绕着将任务分配给一个或多个专门的子模型或“专家”,而不是依赖于一个在广泛的数据上训练的单一的、庞大的模型。

理论上,每个专家都可以针对特定领域进行精心优化,从编码和数学到创意写作。 然而,值得注意的是,大多数模型开发者提供的关于其 MoE 模型中的具体专家的细节有限,并且专家的数量因模型而异。 至关重要的是,在任何给定时间,只有一部分模型被激活。

以 DeepSeek 的 V3 模型为例,它包含 256 个路由专家和一个共享专家。 在 Token 处理期间,只有 8 个路由专家以及共享专家会被激活。 这种选择性激活意味着 MoE 模型可能无法始终达到与类似大小的密集模型相同的质量水平。 例如,Alibaba 的 Qwen3-30B-A3B MoE 模型在 Alibaba 的基准测试中始终低于密集型 Qwen3-32B 模型。

然而,重要的是要将这种质量上的轻微下降与 MoE 架构提供的巨大效率提升进行对比。 Active 参数的减少使得内存带宽需求不再与存储模型 weights 所需的容量直接成比例。 本质上,虽然 MoE 模型可能仍然需要大量的内存,但它们不一定需要最快和最昂贵的 High Bandwidth Memory (HBM)。

让我们通过一个比较来说明这一点。 考虑 Meta 最大的“密集”模型 Llama 3.1 405B,以及 Llama 4 Maverick,一个采用了 MoE 架构的可比较模型,拥有 170 亿个active 参数。 虽然许多因素,例如 batch size、floating-point 性能和 key-value caching,都会影响实际性能,但我们可以通过将模型在给定精度下的 size(以 GB 为单位)(对于 8-bit 模型,每个参数 1 byte)乘以 batch size 为 1 时的目标 tokens per second,来近似计算最小带宽需求。

运行 8-bit 量化版本的 Llama 3.1 405B 需要超过 405 GB 的 vRAM 和至少 20 TB/s 的内存带宽,才能以每秒 50 个 tokens 的速度生成文本。 Nvidia 的 HGX H100-based 系统(直到最近,其价格还高达 300,000 美元或更高)仅提供 640 GB 的 HBM3 和大约 26.8 TB/s 的Aggregate bandwidth。 运行完整的 16-bit 模型将至少需要两个这样的系统。

相比之下,Llama 4 Maverick 虽然消耗相同的内存量,但只需要不到 1 TB/s 的带宽即可实现相当的性能。 这是因为只有 170 亿个参数的模型专家积极参与生成输出。 这意味着在相同的硬件上,文本生成速度提高了几个数量级。

反之,如果纯粹的性能不是主要考虑因素,那么现在许多这些模型都可以在更便宜但速度较慢的 GDDR6、GDDR7 甚至 DDR 内存上运行,正如在Intel 最新的 Xeons 中看到的那样。

Nvidia 在 Computex 上发布的新 RTX Pro Servers 正是为这种情况量身定制的。 这些系统没有依赖于需要高级封装的昂贵且耗电的 HBM,而是配备了 96 GB 的 GDDR7内存,与现代游戏卡中使用的相同类型。

这些系统提供高达 768 GB 的 vRAM 和 12.8 TB/s 的Aggregate bandwidth,足以以每秒数百个 tokens 的速度运行 Llama 4 Maverick。 虽然 Nvidia 尚未透露定价,但这些卡的 workstation 版本retail price 约为 8,500 美元,这表明这些服务器的价格可能不到二手 HGX H100 的一半。

然而,MoE 并不意味着 HBM-stacked GPU 的终结。 如果 Llama 4 Behemoth 真的上市的话,预计它会由于其巨大的size而需要一整个机架的 GPU。

虽然它的 active 参数大约只有 Llama 3.1 405B 的一半,但它总共有 2 万亿参数。 目前,市场上没有一个传统的 GPU 服务器可以容纳完整的 16-bit 模型和一百万或更多的上下文窗口。

AI 中的 CPU 复兴?

根据具体的 application,GPU 可能并不总是必需品,尤其是在那些难以获得高端加速器的地区。

Intel 在 4 月份展示了一个配备 8800 MT/s MCRDIMMs 的双路 Xeon 6 平台。 该 setup 在 Llama 4 Maverick 中实现了每秒 240 个 tokens 的吞吐量,平均 output latency 低于每 token 100 ms。

简单来说,Xeon 平台可以为大约 24 个并发用户维持每秒 10 个tokens 或更多的速度。

Intel 没有披露单用户性能数据,因为这些数据在实际场景中不太相关。 然而,估计表明峰值性能约为每秒 100 个 tokens。

尽管如此,除非没有更好的选择或有特殊要求,否则基于 CPU 的推理的经济性仍然高度依赖于 use case。

Weight Reduction:Pruning 和 Quantization

MoE 架构可以降低serving 大型模型所需的内存带宽,但它们不会减少存储其 weights 所需的内存量。 即使在 8-bit 精度下,Llama 4 Maverick 也需要超过 400 GB 的内存才能运行,无论 active 参数的数量如何。

新兴的 pruning 技术和 quantization 方法可能会将这一需求减半,而不会牺牲质量。

Nvidia 一直是 pruning 的支持者,发布了 Meta 的 Llama 3 模型的 pruned 版本,这些版本移除了 redundant weights。

Nvidia 也是首批在 2022 年支持 8-bit floating-point 数据类型的公司之一,并在 2024 年推出 Blackwell 架构时再次支持 4-bit floating point。 AMD 的首批提供原生 FP4 支持的芯片预计很快就会发布。

虽然不是绝对必要的,但对这些数据类型的原生硬件支持通常会减少遇到计算瓶颈的可能性,尤其是在大规模serving 时。

我们已经看到越来越多的模型开发者采用较低精度的数据类型,Meta、Microsoft 和 Alibaba 提供了 8-bit 甚至 4-bit 量化版本的模型。

Quantization 涉及将模型 weights 从其原生精度(通常为 BF16)压缩到 FP8 或 INT4。 这有效地将模型的内存带宽和容量需求减少了一半甚至四分之三,但代价是牺牲了一些质量。

从 16 bits 过渡到 8 bits 造成的损失通常可以忽略不计,并且包括 DeepSeek 在内的几家模型构建商已经开始从一开始就以 FP8 精度进行训练。 然而,将精度再降低 4 bits 可能会导致显着的质量下降。 因此,许多 post-training quantization 方法(例如 GGUF)不会同等地压缩所有的weights,而是将一些weights 保持在更高的精度级别,以尽量减少质量损失。

Google 最近展示了使用 quantization-aware training (QAT) 将其 Gemma 3 模型减少 4 倍,同时保持接近原生 BF16 的质量水平。

QAT 模拟训练期间的低精度操作。 通过在不合格模型上应用此技术大约 5,000 个步骤,Google 能够将困惑度(一种用于衡量与 quantization 相关的损失的指标)的下降幅度降低 54%,当转换为 INT4时。

另一种基于 QAT 的 quantization 方法,称为 Bitnet,旨在实现更低的精度级别,将模型压缩到只有 1.58 bits,大约是其原始size的十分之一。

技术的协同

MoE 和 4-bit quantization 的结合提供了显着的优势,尤其是在带宽受限时。

然而,对于其他没有带宽限制的,MoE 或 quantization 这两种技术中的任何一种,都可以大大降低运行更大、更强大的模型的设备和运营成本; 这是假设可以找到一种有价值的服务来让他们执行。

如果没有,你至少可以感到安慰,因为你并不孤单——IBM 最近的一项调查显示,只有四分之一的 AI 部署实现了承诺的投资回报。