孟菲斯大型計畫:xAI 耗資 4 億美元的超級電腦面臨電力限制

Elon Musk 的人工智能企業 xAI 正投入巨額資金,在田納西州孟菲斯 (Memphis, Tennessee) 建立一個龐大的超級運算設施,這項雄心勃勃的計畫已經在電力供應方面面臨重大障礙。儘管 Musk 將此地設想為’運算的超級工廠 (gigafactory of compute)’,可能容納世界上最大的超級電腦,但文件揭示了初期投資的規模以及挑戰其最終範圍的關鍵能源短缺問題。

奠定基礎:建立在數億美元之上

透過官方文件,對孟菲斯計畫的財務承諾日益清晰。自該計畫於 2024 年 6 月公開宣布以來,已向當地規劃與發展部門提交了一系列共十四份建築許可申請。這些文件共同概述了預計達 4.059 億美元的項目成本。這個數字代表了將選定地點轉變為能夠支援先進 AI 運算中心的實際投資。

這些許可證中詳述的工作範圍揭示了建造此類設施的多面向性質:

  • 核心基礎設施: 大量資源被分配給大型數據中心所需的基本電力、機械和管道系統。
  • 專業安裝: 一份引人注目的許可證特別涵蓋了一項指定用於電腦設備的 3000 萬美元安裝工程,突顯了正在創建的硬體環境的專業性質。
  • 安全措施: 為了反映所涉資產的價值,一道耗資 390 萬美元、設計用於抵禦車輛撞擊的周界圍欄,強調了正在實施的安全協議。
  • 電力基礎設施: 至關重要的是,記錄在案的最新申請(於一月份提交)涉及建造一座新的變電站,這是管理預期巨大電力需求的關鍵組成部分,但對於最宏偉的願景而言仍然不足。

這筆初期的建設投資雖然巨大,但僅佔潛在總支出的一小部分。Musk 在過去一年為 xAI 籌集了驚人的 120 億美元資金,目標是實現前所未有的營運規模。孟菲斯觀察到的建設成本,至少在初期階段,似乎與其他主要的 AI 基礎設施項目大致相當,例如 Stargate 計畫——一個涉及行業巨頭 Oracle、OpenAI 和 SoftBank 的合作項目,宣布將在德州 (Texas) 開發。孟菲斯的數字堅定地確立了 xAI 的認真意圖以及即使在考慮到運算硬體本身的高昂成本之前所部署的大量資本。

運算引擎:以高功率晶片驅動雄心

孟菲斯’運算超級工廠’的核心在於硬體——具體來說,是來自 Nvidia 的大量圖形處理單元 (GPUs),這家晶片製造商目前主導著 AI 硬體領域。Musk 表示,初期階段包括 200,000 個 Nvidia GPU,並聲稱其中一半在極快的 122 天內完成安裝。然而,這僅僅是邁向更宏偉目標的墊腳石:將設施擴展至最終容納 一百萬個 GPU

驅動這個運算巨獸的特定晶片包括 Nvidia 強大的 H100 和 H200 晶片的組合。Musk 指出,在最初的 200,000 個 GPU 部署中,包含 100,000 個 H100 單元50,000 個 H200 單元。無論是透過直接購買還是透過雲端服務供應商租賃安排來獲取此類硬體,其財務影響都是驚人的。行業估計,單個 H100 晶片的成本介於 27,000 美元至 40,000 美元之間,而較新的 H200 單元估計每個約為 32,000 美元

根據這些數字,目前孟菲斯配置的硬體可能代表著超過 43 億美元的投資。推算到一百萬個 GPU 的最終目標,即使使用每個 H100 晶片 27,000 美元的較低估計值,也意味著潛在的硬體支出將飆升至近 270 億美元。目前尚不清楚 xAI 是直接採購這些晶片還是利用雲端運算資源,這一區別具有重大的財務和營運影響。作為參考,據報導,xAI 為在喬治亞州 (Georgia) 的一個較小的、與 Musk 的社交媒體公司 X 共享的數據中心投資了 7 億美元用於硬體,該中心容納了大約 12,000 個 GPU。這一比較突顯了孟菲斯項目在規模和成本上的指數級飛躍。

選擇孟菲斯,被 Musk 和當地官員宣傳為一項’數十億美元的投資’,旨在將該市打造成’全球 AI 中心’,主要為 xAI 的 Grok 3 模型及未來發展提供動力。然而,設想中的運算能力密度帶來了一個同樣巨大的挑戰:能源供應。

能源方程式:關鍵瓶頸浮現

部署一百萬個 GPU 的雄心壯志直接遭遇了電力基礎設施的實際限制。為如此密集的​​高性能運算硬體提供動力需要巨大且可靠的能源供應,而這正是 xAI 孟菲斯項目面臨的最重大制約因素。

迄今為止,xAI 已正式向當地公用事業供應商孟菲斯水電煤氣公司 (Memphis Light, Gas and Water, MLGW) 申請 300 百萬瓦 (MW) 的電力。然而,目前僅批准了 150 MW 的電網電力。申請容量與批准容量之間的巨大差距突顯了該項目對現有電網造成的壓力。

認識到這一限制,xAI 已積極尋求透過現場發電來補充其電力供應。許可申請顯示了天然氣渦輪機的計劃,特別是由 Caterpillar 子公司 Solar Turbines 提供的機組。這些發電機旨在產生總計 250 MW 的電力。雖然這種現場發電能力顯著提高了可用能源,使總潛在電力接近 400 MW(150 MW 電網 + 250 MW 現場),但距離最終一百萬 GPU 願景的要求仍有巨大差距。

在其與燃氣渦輪機相關的許可文件中,xAI 明確承認了電網的限制。該公司表示,要獲得所申請的全部 300 MW 電網電力,取決於’重大的基礎設施升級‘以及區域電力傳輸網絡的改善。此外,xAI 承認,’若無額外的現場發電‘,它無法充分滿足客戶需求,這清楚地表明,目前批准的電網電力和計劃中的現場發電的組合,即使對於中期目標也顯不足,更不用說最終目標了。

專家估計,為一百萬個先進的 Nvidia GPU 供電可能需要遠超 1 吉瓦 (GW) 的電力,即 1,000 MW。這個數字與 xAI 目前在孟菲斯可獲得的大約 400 MW(結合批准的電網接入和現場發電)形成鮮明對比。加州大學河濱分校 (University of California Riverside) 的電氣與計算機工程教授 Shaolei Ren 表示,現有的電力範圍(約 400 MW)可能足以支持最初部署的大約 200,000 個 Nvidia H100 GPU。然而,要超越這個數量將變得越來越具挑戰性,可能需要採取激進的’超額訂閱 (oversubscription)’策略。Ren 指出:’這仍然是可能的,但這意味著使用了激進的超額訂閱策略。’ 數據中心的超額訂閱是指向客戶承諾的電力容量超過任何單一時刻實際可用的物理容量,依賴於並非所有用戶都會同時需求其最大分配量的統計概率——這是一種帶有內在風險的策略。

電力短缺突顯了一個根本性的矛盾:Musk 加速的時間表和龐大規模的雄心,與升級區域電力基礎設施耗時且成本高昂的過程之間的衝突。

電網壓力:區域電力動態承壓

xAI 項目的巨大能源需求並非孤立現象;它反映了對區域電網施加壓力的更廣泛趨勢。田納西河谷管理局 (Tennessee Valley Authority, TVA),這家負責田納西州大部分地區及鄰近六個州部分地區發電和輸電的聯邦公用事業公司,正在努力應對歷史性的高負載增長。需求的激增很大程度上是由於像 xAI 這樣耗電量大的數據中心的擴散,以及電池製造商和其他大型工業用戶在其服務區域內的擴張所驅動。

為應對這種不斷升級的需求,TVA 在二月份宣布,計劃在未來幾年內投入巨額 160 億美元。這筆投資專門用於加強其電力系統,以滿足蓬勃發展的需求並維持電網的可靠性。然而,此類升級既複雜又需要相當長的時間來實施。

此外,TVA 對大型電力用戶維持嚴格的監督協議。TVA 的一位發言人澄清說,其董事會’需要審查並批准任何超過 100 MW 的新負載,以確保能夠維持電力系統的可靠性。‘ 這項政策強調了對像 xAI 這樣的大型項目進行的審查,確保新的需求不會破壞對其他客戶的現有電力供應。xAI 最初的 150 MW 電網分配已經超過了這個門檻,表明它已通過初步審查,但未來的請求將面臨類似的審議。

電力供應的務實現實也得到了當地官員的承認。在一月份的孟菲斯市議會會議上,MLGW 首席執行官 Doug McGowen 談到了為 xAI 項目討論的宏大規模。他告誡說:’人們可以宣布很多事情,我認為這對我們的社區很重要——我們為即將到來的機會感到興奮。但正如你所知,很多事情都有務實的現實。‘ McGowen 的評論表明,儘管該市歡迎潛在的經濟利益,但當地的公用事業基礎設施目前可能不具備支持該項目最極端規模版本的能力,除非進行重大的、耗時的升級。

擴展視野,持續障礙

儘管初始場地面臨電力挑戰,xAI 已經在為孟菲斯的進一步擴張奠定基礎。三月份,一家與該公司有關聯的有限責任公司 (LLC) 完成了對其現有設施以南 186 英畝土地的收購,耗資 8000 萬美元。這筆交易包括位於其中一塊土地上的一個巨大的一百萬平方英尺的工業倉庫,預示著未來重大發展的意圖。

在這次擴張的同時,xAI 已接洽 TVA,評估為這個新地點額外獲得 260 MW 電網電力的可行性。這項請求,疊加在初始地點本已充滿挑戰的電力狀況之上,進一步加劇了對區域能源基礎設施的壓力。如果獲得批准,這將使 xAI 在兩個地點的總申請電網電力達到 560 MW(初始 300 MW + 擴展 260 MW),仍然遠低於一百萬個 GPU 估計所需的 >1 GW 電力,並且嚴重依賴 TVA 計劃的電網增強措施的成功和及時性。

尋求這額外的電力分配遇到了 MLGW 首席執行官所強調的同樣的’務實現實’。電網的輸送能力仍然是懸在該項目最終規模和時間表上的核心問號。

執行與監督:應對建設過程

孟菲斯設施的實際建設主要由總部位於俄亥俄州 (Ohio) 的總承包商 Darana Hybrid Electro-Mechanical Solutions 負責管理。Darana Hybrid 提交了該項目大部分的建築許可申請。雖然該公司在孟菲斯地區有過工業建設項目的經驗,但其被選中承擔如此規模的項目,在行業內引起了一些關注。

一位因未獲授權公開發言而匿名的數據中心行業資深人士觀察到,像 Darana Hybrid 這樣的中型公司牽頭一個達到 Musk 為孟菲斯站點設想規模的項目(常被比喻為’Colossus’)是有些不尋常的。通常,超大規模數據中心的建設會涉及更大、更專業的公司。這一觀察並不一定意味著能力不足,但突顯了該項目執行策略中一個潛在的獨特方面。

試圖就項目的進展、成本、電力策略和承包商選擇獲得進一步見解或官方聲明的努力均未得到回應。涉及的關鍵實體代表,包括 Elon Musk、xAI、Darana Hybrid、Tennessee Valley Authority 和 Memphis Light, Gas and Water,均未回應就許可申請中披露的細節及相關電力挑戰發表評論的請求。這種缺乏公開澄清的情況,使得 Musk 在孟菲斯的雄心勃勃的’運算超級工廠’的發展軌跡和最終實現,取決於建設進展的實際情況,以及最關鍵的——電力的可用性。