AMD強化AI雄心:收購超大規模基礎設施建構者

在爭奪人工智能(Artificial Intelligence)主導地位、迅速升級的軍備競賽中,僅僅製造強大的矽晶片已不再是通往勝利的唯一途徑。真正的挑戰在於,如何以現代 AI 工作負載所要求的巨大規模,有效且高效地部署這些強大的處理器。意識到這個關鍵瓶頸,Advanced Micro Devices (AMD) 做出了一項決定性的策略行動,收購了 ZT Systems 公司。ZT Systems 以其在建構基礎設施方面的專業知識而聞名——這些客製化、機櫃級(rack-scale)的運算基礎設施,正是支撐全球最大雲端供應商 AI 雄心的基石。這不僅僅是另一次企業收購;這是 AMD 深思熟慮的一步,旨在深化其能力,從一個組件供應商轉型為提供更全面、整合的 AI 解決方案供應商,專為超大規模(hyperscale)時代設計。

這次整合的重要性源於建構和營運驅動大型語言模型及其他生成式 AI 應用程式的資料中心所固有的複雜性。這些環境與傳統的企業伺服器機房大相逕庭。它們需要在密集的配置中裝入巨大的運算能力,主要來自像 AMD 的 Instinct 加速器這樣的 GPU,這會產生前所未有的熱量並消耗大量電力。冷卻這些系統、確保可靠的電力輸送,以及用高頻寬、低延遲的網路互連數千個處理器,都是巨大的工程挑戰。ZT Systems 正是透過精通這些挑戰而開闢了自己的利基市場,成為超大規模業者(hyperscalers)要求客製化、最佳化基礎設施時值得信賴的(儘管通常是幕後的)合作夥伴。透過將這種系統級設計和整合專業知識納入內部,AMD 正將自己定位為能夠提供彌合尖端矽晶片與統包式(turnkey)、可操作 AI 叢集之間差距的解決方案。

將矽晶片與系統編織成緊密的 AI 結構

AMD 收購 ZT Systems 背後的核心理由在於追求協同效應——創造一個大於各部分總和的整體。AMD 擁有一系列強大的高效能運算組件:EPYC CPUs 提供穩健的通用處理能力,Instinct GPUs 專為要求嚴苛的 AI 訓練和推論任務量身打造,以及日益精密的網路技術,可能包括從其收購 Xilinx 和 Pensando 所繼承的 DPU(資料處理單元)和自適應運算解決方案。然而,要將這些個別組件的原始潛力轉化為數千個互連單元規模下的最佳化效能,需要在系統架構、散熱管理、電力分配和驗證方面擁有深厚的專業知識。

這正是 ZT Systems 的專長所在。多年來,他們專門設計和製造伺服器與儲存解決方案,以滿足超大規模資料中心營運商獨特且通常嚴格的要求。這些客戶——雲端運算和網路服務的巨頭——營運的規模之大,即使是效率、密度或部署速度上的微小改進,也能轉化為顯著的競爭優勢和成本節省。ZT Systems 以提供以下服務而建立了聲譽:

  • 規模化客製化 (Customization at Scale): 超越標準化的伺服器設計,創建針對特定工作負載、功率範圍和冷卻基礎設施進行最佳化的機櫃級配置。
  • 快速部署能力 (Rapid Deployment Capabilities): 簡化製造、整合和測試流程,使超大規模業者能夠快速建置或升級其 AI 容量。
  • 散熱與電源效率 (Thermal and Power Efficiency): 設計解決方案以最大化運算密度,同時管理 AI 加速器產生的強大熱量並最小化能源消耗——這是營運成本和環境永續性的關鍵因素。
  • 供應鏈管理 (Supply Chain Management): 駕馭採購組件和可靠、準時交付完全整合系統的複雜物流。

透過整合 ZT Systems,AMD 直接獲得了這個系統級設計知識和營運經驗的寶庫。目標是為其 AI 技術創建一個更垂直整合的路徑。AMD 不再僅僅銷售晶片和參考設計,現在可以在開發端到端最佳化的完整機櫃級解決方案方面進行更緊密、甚至可能在內部進行合作。這涉及到確保硬體組件——CPU、GPU、網路介面、電源供應器——在 ZT 設計的機箱和冷卻系統內和諧運作,並由軟體(包括 AMD 自己的開源 ROCm (Radeon Open Compute platform) 堆疊)進行協調。

對客戶,尤其是那些在超大規模營運的客戶而言,前景是引人注目的。這意味著新的 AI 基礎設施部署可能實現加速上市時間 (accelerated time-to-market)。將來自多個供應商的組件進行資格鑑定並整合到一個 cohesive 系統中的複雜過程,如果主要的矽晶片供應商同時也帶來深厚的系統整合專業知識,則可以顯著縮短。此外,共同設計矽晶片和系統有可能釋放更高水準的效能和效率。組件可以被最佳化以比組裝零散部件更有效地協同工作。這種整合方法,利用 AMD 的矽晶片產品組合與 ZT 的系統敏銳度,旨在提供強大、雲端最佳化的 AI 基礎設施,不僅效能卓越,而且能夠在 AI 革命所需的大規模下快速可靠地部署。

縮短 AI 部署週期:競爭的必要性

負責資料中心解決方案業務部門的 AMD 執行副總裁 Forrest Norrod 闡述了推動此次收購的策略必要性。他指出:’隨著 AI 創新的快速步伐,縮短叢集級資料中心 AI 系統的端到端設計和部署時間,將成為我們客戶顯著的競爭優勢。’ 這句話強調了當前技術領域的一個關鍵現實:組織建構、部署和擴展其 AI 能力的速度,直接影響其創新和競爭的能力。

傳統模式通常涉及一個多階段過程:

  1. 矽晶片供應商 (Silicon Vendor): 設計和銷售 CPU、GPU、網路晶片。
  2. ODM/系統整合商 (ODM/System Integrator): 設計伺服器和機櫃,整合組件,執行測試。
  3. 超大規模業者/終端客戶 (Hyperscaler/End Customer): 規定要求,對整合系統進行資格鑑定,將其部署在資料中心,並與軟體堆疊整合。

每個步驟都涉及交接、潛在的整合挑戰和時間延遲。透過收購 ZT Systems,AMD 旨在大幅壓縮這個時間表。ZT 的設計團隊現在隸屬於 AMD 的資料中心解決方案部門,可以與 AMD 的晶片設計師同時工作。這使得一個更全面的設計過程成為可能,其中系統架構為矽晶片開發提供資訊,反之亦然,這可能導致在更分散的生態系統中無法實現的最佳化。

想像一下設計下一代 GPU 加速器。如果從一開始就精確地知道它將如何被整合到由前 ZT 團隊設計的密集、液冷機櫃系統中,AMD 就可以針對該特定環境最佳化晶片的尺寸規格、供電介面和散熱特性。反過來,系統設計師可以及早獲得即將推出的 AMD 矽晶片的規格和效能特性,使他們能夠更有效地設計機箱、冷卻和電力基礎設施。

這種整合方法,結合了 AMD 的矽晶片路線圖與 ZT 在系統設計和交付方面經過驗證的執行能力,旨在為客戶提供比以往更快、準備就緒、最佳化的基礎設施解決方案。Norrod 強調了這一點,將此次收購定位為’我們 AI 策略中的一個重要里程碑,旨在提供領先的訓練和推論解決方案,這些解決方案針對客戶獨特的環境進行了最佳化,並準備好進行規模化部署。’ 重點完全放在消除部署過程中的摩擦,使客戶能夠更快、更有效地利用 AMD 的 AI 技術。這種上市速度優勢不僅對超大規模業者至關重要,對於希望建立大量 AI 基礎設施的大型企業和研究機構也可能同樣重要。

整合人才並著眼於製造能力

任何重大收購的一個關鍵方面是人才和專業知識的整合。AMD 不僅僅是收購 ZT Systems 的智慧財產權和客戶關係;它正在吸收其經驗豐富的設計團隊和經驗豐富的領導層。這些人擁有關於建構超大規模基礎設施所涉及挑戰和細微差別的深刻、實用的知識——這些知識是透過多年與世界上要求最嚴苛的資料中心營運商密切合作積累起來的。

來自 ZT Systems 的兩位關鍵人物將在 AMD 內部擔任高級領導職務,直接向 Forrest Norrod 匯報:

  • Frank Zhang: ZT Systems 的創始人兼前任 CEO,現擔任 AMD 的 ZT 製造高級副總裁。他在建立和擴展 ZT 營運方面的豐富經驗,對於 AMD 整合這些能力將是無價的。
  • Doug Huang: ZT Systems 的前任總裁,Huang 將擔任資料中心平台工程高級副總裁。他的重點可能將是領導負責設計和工程整合式 AI 平台的技術團隊。

將這些領導者及其團隊納入麾下,表明 AMD 致力於將系統級設計打造成其資料中心解決方案部門的核心競爭力。Norrod 歡迎 ZT 團隊的加入,並強調了合併後的價值主張:’我們將共同為客戶提供選擇和上市速度,讓他們能夠在選擇差異化其 AI 產品的關鍵領域進行投資。’ 這表明了一種策略,即 AMD 提供一個強大、最佳化的基礎,讓客戶可以將資源集中在開發獨特的 AI 模型和應用程式上,而不是糾結於硬體整合的複雜性。

此外,AMD 的雄心可能超越設計和整合,延伸到製造領域。該公司透露,已就收購 ZT Systems 位於美國的資料中心基礎設施製造業務與潛在合作夥伴進行討論,目標是在 2025 年前完成。如果實現,這將代表 AMD 在 AI 基礎設施領域向更大程度的垂直整合邁出了重要一步。擁有或控制製造資產可能帶來幾個優勢:

  • 供應鏈韌性 (Supply Chain Resilience): 減少對外部合約製造商的依賴,並對生產計畫和品質獲得更直接的控制。
  • 更快的原型設計和迭代 (Faster Prototyping and Iteration): 實現開發和測試新系統設計的更快週期。
  • 增強的客製化 (Enhanced Customization): 促進為特定客戶需求生產高度客製化的解決方案。
  • 與地緣政治趨勢保持一致 (Alignment with Geopolitical Trends): 可能加強國內製造能力,特別是對於關鍵技術基礎設施。

這一潛在的進軍製造業的舉動,突顯了 AMD 策略佈局的深度。這不僅僅是關於收購設計人才,還可能關乎控制更多的價值鏈,從矽晶片設計一直到交付完全組裝和測試的 AI 基礎設施機櫃。

重塑 AI 基礎設施的競爭格局

AMD 收購 ZT Systems 的背景是 AI 硬體和基礎設施市場的激烈競爭。Nvidia 已經建立了強大的領先地位,特別是在 AI 訓練方面,這建立在其強大的 GPU 和成熟的 CUDA 軟體生態系統之上。Nvidia 也提供自己的整合系統,如 DGX 系列,提供全堆疊解決方案。長期在 CPU 領域領先的 Intel 也正積極進軍 AI 市場,推出了其 Gaudi 加速器,並採取專注於開放軟體和異構運算的策略。

透過收購 ZT Systems,AMD 顯著增強了其競爭態勢。它從主要作為組件(CPU、GPU)供應商,轉變為提供更完整、預先驗證和最佳化的系統級解決方案。這直接挑戰了 Nvidia 的 DGX 模式,並為超大規模業者和其他大型客戶提供了一個引人注目的替代方案。AMD 希望利用的關鍵競爭優勢包括:

  • 整合的產品組合 (Integrated Portfolio): 能夠在 ZT 設計的框架內,提供結合其 EPYC CPU、Instinct GPU 和先進網路組件的最佳化系統。
  • 開放軟體生態系統 (Open Software Ecosystem): 繼續倡導 ROCm 開源軟體平台,作為 Nvidia 專有 CUDA 的替代方案,可能吸引尋求更大靈活性和避免供應商鎖定的客戶。
  • 超大規模專業知識 (Hyperscale Expertise): 利用 ZT Systems 在服務最大雲端供應商獨特需求方面的深厚關係和經過驗證的記錄。
  • 速度與客製化 (Speed and Customization): 提供更快的部署時間表,以及可能從 ZT Systems 的營運模式繼承的更大客製化能力。

此舉表明,AI 主導地位的戰場正在轉移。雖然晶片效能仍然至關重要,但在整合的大規模系統中可靠、高效且快速地提供該效能的能力正變得同等重要。AMD 押注於透過將其矽晶片優勢與 ZT 的系統整合實力相結合,可以提供更具吸引力的價值主張,特別是對於代表 AI 基礎設施最大消費者的超大規模客戶。此次收購為 AMD 提供了關鍵能力,使其能夠在整個 AI 基礎設施堆疊中更有效地競爭,旨在透過不僅提供強大的晶片,而且提供完整、最佳化且可快速部署的 AI 解決方案,來佔領這個爆炸性市場的更大份額。整合 ZT Systems 標誌著 AMD 策略的重大演變,使其轉變為在人工智能時代更強大的端到端參與者。