后DeepSeek时代:AI芯片与基础设施再思考

DeepSeek等AI技术的快速创新,需要我们从根本上重新评估如何构建数据中心、芯片和系统,以提供所需的计算能力。DeepSeek的工程创新显著降低了AI计算成本,引发了关于AI基础设施未来的广泛讨论。

虽然DeepSeek可能并没有大幅拓展AI技术的边界,但它对AI市场的影响是深远的。诸如混合专家模型 (MoE)、多层注意力 (MLA) 和多 Token 预测 (MTP) 等技术,都随着 DeepSeek 的发展而日益重要。虽然并非所有这些技术都是由DeepSeek首创,但它们的成功应用已推动了广泛采用。特别是 MLA,已成为从边缘设备到云计算等各个平台上讨论的焦点。

MLA与算法创新的挑战

NextSilicon 的 CEO Elad Raz 最近指出,虽然 MLA 提高了内存效率,但也可能增加开发人员的工作量,并使 AI 在生产环境中的应用复杂化。GPU 用户可能需要对 MLA 进行“手工编码”优化。这个例子突显了在后DeepSeek时代,重新思考 AI 芯片和基础设施架构的必要性。

要理解 MLA 的重要性,必须掌握大型语言模型 (LLM) 的基本概念。在生成对用户输入的响应时,LLM 严重依赖 KV 向量——键和值——这使得模型能够专注于相关数据。在注意力机制中,模型将新的请求与键进行比较,以确定最相关的内容。

Elad Raz 用一本书来类比,键就像’一本书的章节标题,表明每个部分的内容,而值是这些标题下的更详细的摘要。因此,当用户输入请求时,它会要求一个搜索词来帮助生成答案。它在问,“在这个故事情节下,哪个章节最相关?”’

MLA 压缩了这些章节标题(键)和摘要(值),从而加速了查找答案的过程并提高了效率。最终,MLA 帮助 DeepSeek 将内存使用量降低了 5-13%。更详细的信息可以在 DeepSeek 的官方论文中找到。联发科的开发者大会甚至讨论了在其天玑移动芯片中支持 MLA,突显了 DeepSeek 的广泛影响力。

像 MLA 这样的技术代表了 AI 时代典型的算法创新。然而,AI 技术的快速发展导致创新源源不断,这反过来又带来了新的挑战,尤其是在这些创新是为特定平台量身定制的情况下。就 MLA 而言,非 NVIDIA GPU 用户需要额外的手动编码才能利用该技术。

虽然 DeepSeek 的技术展示了 AI 时代的创新和价值,但硬件和软件必须适应这些创新。根据 Elad Raz 的说法,这种适应应该最大限度地降低开发人员和生产环境的复杂性。否则,每次创新的成本都会变得过高。

那么问题就变成了:“如果下一个算法创新无法很好地转化为现有架构,该怎么办?”

芯片设计与算法创新之间的冲突

过去几年,AI 芯片制造商一直报告说,设计大型 AI 芯片至少需要 1-2 年的时间。这意味着芯片设计必须在芯片上市之前很久就开始。鉴于 AI 技术的快速发展,AI 芯片设计必须具有前瞻性。仅仅关注当前的需求将导致过时的 AI 芯片,无法适应最新的应用创新。

AI 应用算法的创新现在每周都在发生。正如之前的文章中提到的,AI 模型实现相同能力的计算能力需求每年降低 4-10 倍。在过去三年中,实现与 GPT-3 相似质量的 AI 模型的推理成本降低了 1200 倍。目前,具有 2B 参数的模型可以达到与昔日 170B 参数 GPT-3 相同的水平。AI 技术堆栈上层的这种快速创新对传统芯片架构规划和设计提出了重大挑战。

Elad Raz 认为,业界需要认识到像 DeepSeek MLA 这样的创新是 AI 技术的常态。“下一代计算不仅需要为今天的工作负载进行优化,还需要适应未来的突破。” 这种观点不仅适用于芯片行业,也适用于 AI 技术堆栈的整个中低层基础设施。

“DeepSeek 和其他创新已经证明了算法创新的快速发展,”Elad Raz 说。“研究人员和数据科学家需要更通用、更有弹性的工具来推动新的见解和发现。市场需要智能、软件定义的硬件计算平台,使客户能够’即插即用地替换’现有的加速器解决方案,同时使开发人员能够轻松地移植他们的工作。”

为了解决这种情况,业界必须设计更智能、更适应性更强、更灵活的计算基础设施。

灵活性和效率通常是相互冲突的目标。CPU 非常灵活,但其并行计算效率远低于 GPU。GPU 具有可编程性,但效率可能不如专用 AI ASIC 芯片。

Elad Raz 指出,NVIDIA 预计 AI 数据中心机架的功耗将很快达到 600kW。作为参考,75% 的标准企业数据中心的每个机架的峰值功耗仅为 15-20kW。无论 AI 的潜在效率提升如何,这对构建计算基础设施系统的数据中心都提出了重大挑战。

在 Elad Raz 看来,当前的 GPU 和 AI 加速器可能不足以满足 AI 和高性能计算 (HPC) 的潜在需求。“如果我们不从根本上重新思考如何提高计算效率,行业将面临物理和经济上的限制。这堵墙也会产生副作用,限制更多组织访问 AI 和 HPC,即使在算法或传统 GPU 架构方面取得进展,也会阻碍创新。”

下一代计算基础设施的建议和要求

基于这些观察,Elad Raz 提出了定义下一代计算基础设施的“四大支柱”:

(1) 即插即用可替换性: “历史表明,像从 CPU 迁移到 GPU 这样复杂的架构转换可能需要数十年才能完全实现。因此,下一代计算架构应该支持平滑迁移。” 对于“即插即用”可替换性,Elad Raz 建议新的计算架构应该学习 x86 和 Arm 生态系统,通过向后兼容实现更广泛的采用。

现代设计还应避免要求开发人员重写大量代码或创建对特定供应商的依赖关系。“例如,对 MLA 等新兴技术的支持应该是标准化的,而不是像非 NVIDIA GPU 那样需要额外的手动调整。下一代系统应该能够开箱即用地理解和优化新的工作负载,而无需手动修改代码或进行重大的 API 调整。”

(2) 适应性强、实时性能优化: Elad Raz 认为,业界应该放弃固定功能加速器。“业界需要在智能、软件定义的硬件基础上构建,这些硬件可以在运行时动态地自我优化。”

“通过不断学习工作负载,未来的系统可以实时调整自身,从而最大限度地提高利用率和持续性能,而不管具体的应用程序工作负载如何。这种动态适应性意味着基础设施可以在实际场景中提供一致的效率,无论是运行 HPC 模拟、复杂的 AI 模型还是向量数据库操作。”

(3) 可扩展的效率: “通过将硬件和软件解耦,并专注于智能实时优化,未来的系统应该实现更高的利用率和更低的整体能耗。这将使基础设施更具成本效益,并可扩展以满足新工作负载不断变化的需求。”

(4) 未来设计: 这一点对应于 AI 基础设施(尤其是芯片设计)的前瞻性要求。“今天的尖端算法明天可能就会过时。” “无论是 AI 神经网络还是基于 Transformer 的 LLM 模型,下一代计算基础设施都需要具有适应性,确保企业对技术的投资在未来几年内保持弹性。”

这些建议提供了一个相对理想化但发人深省的视角。即使一些固有的矛盾仍然是行业中长期存在的问题,也应将这种指导方法用于 AI 和 HPC 技术的未来发展。“为了释放 AI、HPC 和其他未来计算和数据密集型工作负载的潜力,我们必须重新思考基础设施并拥抱动态和智能解决方案来支持创新和先驱。”