Elon Musk 的人工智能企业 xAI 正在投入巨额资金,在田纳西州孟菲斯市建立一个庞大的超级计算设施。这个雄心勃勃的项目已经面临着与电力供应相关的重大障碍。尽管 Musk 将此地设想为’计算超级工厂’,可能容纳世界上最大的超级计算机,但文件揭示了初期投资的规模以及挑战其最终范围的关键能源短缺问题。
奠定基础:数亿美元构建的基石
通过官方文件,对孟菲斯项目的财务承诺正变得越来越清晰。自该项目于 2024 年 6 月公开发布以来,已向当地规划和发展部门提交了一系列共十四份建筑许可申请。这些文件共同概述了预计项目成本达到 4.059 亿美元。这个数字代表了将选定地点转变为能够支持先进 AI 计算中心的有形投资。
这些许可证中详述的工作范围揭示了建设此类设施的多方面性质:
- 核心基础设施: 大量资源被分配给大型数据中心所需的基础电气、机械和管道系统。
- 专业安装: 一份值得注意的许可证专门涵盖了指定用于计算机设备的 3000 万美元安装工程,突显了正在创建的硬件环境的专业性。
- 安全措施: 考虑到所涉资产的价值,一个 390 万美元的周界围栏被设计用来抵御车辆撞击,强调了正在实施的安全协议。
- 电力基础设施: 至关重要的是,记录在案的最新申请(提交于 1 月)涉及建设一个新的变电站,这是管理预期巨大电力需求的关键组成部分,但仍不足以满足最宏伟的愿景。
这项初步建设投资虽然巨大,但仅占潜在总支出的一小部分。Musk 在过去一年中为 xAI 获得了令人瞩目的 120 亿美元融资,其目标是实现前所未有的运营规模。在孟菲斯观察到的建设成本,至少在初期阶段,似乎与其他主要 AI 基础设施项目大致相当,例如 Stargate 计划——一个涉及行业巨头 Oracle、OpenAI 和 SoftBank 的合作项目,宣布将在德克萨斯州开发。孟菲斯的数字坚定地表明了 xAI 的认真意图以及即使在考虑计算硬件本身的高昂成本之前就已经部署的大量资本。
计算引擎:用高性能芯片驱动雄心
孟菲斯’计算超级工厂’的核心是硬件——具体来说,是来自 Nvidia 的大量图形处理单元 (GPU)。Nvidia 是目前主导 AI 硬件市场的芯片制造商。Musk 表示,初期阶段包括 200,000 个 Nvidia GPU,并声称其中一半在极快的 122 天内完成安装。然而,这仅仅是迈向更宏伟目标的垫脚石:将设施扩展到最终容纳 一百万个 GPU。
驱动这个计算巨兽的具体芯片包括 Nvidia 强大的 H100 和 H200 芯片的混合。Musk 指出,在最初的 200,000 个 GPU 部署中,包含 100,000 个 H100 单元和 50,000 个 H200 单元。无论是通过直接购买还是通过云服务提供商租赁安排来获取此类硬件,其财务影响都是惊人的。行业估计单个 H100 芯片的成本在 27,000 美元到 40,000 美元之间,而较新的 H200 单元估计约为每个 32,000 美元。
根据这些数字,孟菲斯当前配置的硬件投资可能高达 43 亿美元。推算到一百万个 GPU 的最终目标,即使使用每个 H100 芯片 27,000 美元的较低估价,也意味着潜在的硬件支出将飙升至 270 亿美元。目前尚不清楚 xAI 是直接采购这些芯片还是利用云计算资源,这一区别具有重大的财务和运营影响。作为参考,据报道 xAI 为在佐治亚州的一个较小的数据中心投资了 7 亿美元用于硬件,该数据中心与 Musk 的社交媒体公司 X 共享,容纳了大约 12,000 个 GPU。这一比较突显了孟菲斯项目在规模和成本上的指数级飞跃。
孟菲斯的选择,被 Musk 和当地官员宣传为一项’数十亿美元的投资’,旨在将该市打造为’全球 AI 中心’,主要为 xAI 的 Grok 3 模型及未来发展提供动力。然而,所设想的计算能力的巨大密度也带来了同样巨大的挑战:能源供应。
能源方程式:关键瓶颈显现
部署一百万个 GPU 的雄心壮志直接遭遇了电力基础设施的实际限制。为如此密集的 高性能计算硬件集群供电需要巨大且可靠的能源供应,而这正是 xAI 孟菲斯项目面临的最重要制约因素。
到目前为止,xAI 已正式向当地公用事业提供商 Memphis Light, Gas and Water (MLGW) 申请 300 兆瓦 (MW) 的电力。然而,目前仅批准了 150 MW 的电网电力。申请容量与批准容量之间的巨大差距凸显了该项目对现有电网造成的压力。
认识到这一限制,xAI 已主动寻求通过现场发电来补充其电力供应。许可证申请显示了天然气涡轮机的计划,特别是 Caterpillar 子公司 Solar Turbines 提供的机组。这些发电机旨在共同产生 250 MW 的电力。虽然这种现场发电能力显著增加了可用能源,使总潜在电力接近 400 MW(150 MW 电网 + 250 MW 现场),但这仍然远远低于最终一百万 GPU 愿景的要求。
在其与燃气轮机相关的许可文件中,xAI 明确承认了电网的限制。该公司表示,要获得所申请的全部 300 MW 电网电力,取决于’重大的基础设施升级‘以及区域电力传输网络的改善。此外,xAI 承认,’若无额外的现场发电‘,它无法充分满足客户需求,这清楚地表明,当前批准的电网电力和计划的现场发电的组合,即使对于中期目标也已不足,更不用说最终目标了。
专家估计,为一百万个先进的 Nvidia GPU 供电可能需要远超 1 吉瓦 (GW) 的电力,即 1,000 MW。这个数字与 xAI 目前在孟菲斯可获得的大约 400 MW(结合批准的电网接入和现场发电)形成鲜明对比。加州大学河滨分校电气与计算机工程教授 Shaolei Ren 表示,现有的电力容量(约 400 MW)可能足以支持最初部署的大约 200,000 个 Nvidia H100 GPU。然而,要超越这个数量将变得越来越困难,可能需要采取激进的’超额认购’策略。Ren 指出:’这仍然是可能的,但这意味着使用了激进的超额认购策略。’ 数据中心的超额认购是指向客户承诺的电力容量超过任何单一时刻实际可用的物理容量,依赖于并非所有用户都会同时需求其最大分配量的统计概率——这是一种带有内在风险的策略。
电力短缺凸显了一个根本性的矛盾:Musk 加速的时间表和庞大的规模野心,与升级区域电力基础设施耗时且成本高昂的过程之间的冲突。
电网承压:区域电力动态面临压力
xAI 项目巨大的能源需求并非孤立现象;它反映了对区域电网施加压力的更广泛趋势。Tennessee Valley Authority (TVA),这家负责田纳西州大部分地区及周边六个州部分地区发电和输电的联邦公用事业公司,正在努力应对历史性的高负荷增长。需求激增的主要驱动力是像 xAI 这样的耗电数据中心的大量涌现,以及在其服务区域内扩张的电池制造商和其他大型工业用户。
为应对这种不断升级的需求,TVA 在 2 月宣布计划在未来几年内投资 160 亿美元。这笔投资专门用于加强其电力系统,以满足不断增长的需求并保持电网可靠性。然而,此类升级复杂且需要相当长的时间来实施。
此外,TVA 对大型电力用户保持着严格的监督协议。TVA 的一位发言人澄清说,其董事会’需要审查并批准任何超过 100 MW 的新负荷,以确保能够维持电力系统的可靠性。‘ 这项政策强调了对像 xAI 这样的大型项目所进行的审查,确保新的需求不会破坏对其他客户的现有电力供应。xAI 最初的 150 MW 电网分配已经超过了这个门槛,表明它已经通过了初步审查,但未来的请求将面临类似的审议。
电力供应的实际情况也得到了当地官员的承认。在一月份的孟菲斯市议会会议上,MLGW 首席执行官 Doug McGowen 谈到了为 xAI 项目讨论的宏伟规模。他告诫说:’人们可以宣布很多事情,我认为这对我们的社区很重要——我们为即将到来的机遇感到兴奋。但正如你所知,很多事情都有实际的现实情况。‘ McGowen 的评论表明,尽管该市欢迎潜在的经济利益,但当地的公用事业基础设施目前可能没有能力支持该项目所宣布的最极端规模版本,除非进行重大的、耗时的升级。
拓展版图,持续的障碍
尽管初始场地存在电力挑战,xAI 已经在为孟菲斯的进一步扩张奠定基础。今年 3 月,一家与该公司有关联的有限责任公司 (LLC) 完成了对其当前设施以南 186 英亩土地的收购,耗资 8000 万美元。这笔交易包括位于其中一块地皮上的一个巨大的一百万平方英尺的工业仓库,预示着未来进行重大开发的意图。
在进行扩张的同时,xAI 已接洽 TVA,评估为这个新场地额外获得 260 MW 电网电力的可行性。这一请求,叠加在初始地点本已充满挑战的电力状况之上,进一步加剧了对区域能源基础设施的压力。如果获得批准,这将使 xAI 在两个地点的总申请电网电力达到 560 MW(初始 300 MW + 扩张 260 MW),仍然远低于一百万 GPU 估计所需的 >1 GW,并且严重依赖于 TVA 计划的电网增强措施的成功和及时性。
寻求这部分额外电力分配遇到了 MLGW 首席执行官所强调的同样的’实际现实情况’。电网的输送能力仍然是悬在该项目最终规模和时间表上的一个核心问号。
执行与监督:驾驭建设过程
孟菲斯设施的实际建设主要由 Darana Hybrid Electro-Mechanical Solutions 管理,这是一家总部位于俄亥俄州的 总承包商。Darana Hybrid 提交了该项目的大部分建筑许可申请。虽然该公司在孟菲斯地区有过工业建设项目的经验,但其被选中承担如此规模的项目在行业内引起了一些关注。
一位因未获授权公开发言而匿名的 数据中心行业资深人士评论说,像 Darana Hybrid 这样的中型公司牵头一个达到 Musk 为孟菲斯站点设想的规模(通常被隐喻为’Colossus’)的项目,是有些不寻常的。通常,超大规模数据中心的建设会涉及更大、更专业的公司。这一观察并不一定意味着能力不足,但突显了该项目执行策略中一个潜在的独特方面。
试图就项目的进展、成本、电力策略和承包商选择获得进一步的见解或官方声明,均未得到回应。涉及的关键实体代表,包括 Elon Musk、xAI、Darana Hybrid、Tennessee Valley Authority 和 Memphis Light, Gas and Water,均未回应就许可申请中披露的细节及相关的电力挑战发表评论的请求。这种缺乏公开澄清的情况,使得 Musk 在孟菲斯的雄心勃勃的’计算超级工厂’的发展轨迹和最终实现,取决于建设进展的实际情况,以及最关键的——电力的可用性。