Nvidia 正將目光投向基於 Agent 的 AI 未來浪潮,此領域預計將對推論能力提出前所未有的需求。為了應對這項挑戰,Nvidia 公布了一項涵蓋硬體和軟體創新的全面策略。
硬體策略:向上擴展與向外擴展
Nvidia 硬體策略的核心在於不斷追求更強大的 GPU。該公司正在採取雙管齊下的方法,首先專注於垂直擴展,然後是水平擴展。目標不僅是在機架中開發單個超強大的 AI 超級電腦,而且要創建一個由互連機架組成的完整生態系統,形成一個龐大的 AI 超級電腦複合體。這種 ‘AI 工廠’ 方法旨在提供最苛刻 AI 工作負載所需的計算能力。
在最近的 GTC 大會上發布的全新 Blackwell Ultra 機架式 AI 超級電腦,便是此策略的典範。Blackwell Ultra 旨在加速訓練和測試時擴展推論,它利用現有的 Blackwell 架構,但加入了更強大的 GB300 NVL72。此配置包含 72 個透過 NVLink 互連的 Blackwell Ultra GPU,可提供驚人的 1.1 Exaflops FP4 精度計算能力。GB300 NVL72 的 AI 效能是 GB200 NVL72 的 1.5 倍。單個 DGS GB300 系統提供 15 Exaflops 的計算能力。Blackwell Ultra 預計將於 2025 年下半年發布,並將獲得包括 Cisco、Dell、HPE、Lenovo、ASUS、Foxconn、Gigabyte、Pegatron 和 Quanta 在內的廣泛伺服器設備供應商的支持。此外,AWS、GCP 和 Azure 等雲端服務提供商也將提供基於 Blackwell Ultra 的運算服務。
除了這些發電廠級的 AI 工廠系統外,Nvidia 還推出了一系列針對企業內部推論需求的新電腦。這些包括 DGX Spark 和 DGX Station 個人 AI 電腦。DGX Spark 的尺寸類似於 Mac mini,可提供高達 1 PFlops 的計算能力。
為了讓大家更了解其強大之處,2021 年推出的台灣杉三號超級電腦擁有超過 50,000 個核心,僅提供 2.7 PFlops 的效能。短短四年內,三台桌上型個人 AI 電腦的計算能力就超越了台灣杉三號。這些新型個人 AI 電腦的 128GB 記憶體配置售價為 3,999 美元(約新台幣 13 萬元),旨在為企業未來內部 AI 需求提供動力,作為迷你 AI 工廠,甚至在邊緣 AI 環境中運行。
未來藍圖:Vera Rubin 及其他
展望未來,Nvidia CEO 黃仁勳概述了未來兩年的產品藍圖。該公司計劃在 2026 年下半年發布 Vera Rubin NVL144,該產品以發現暗物質的美國天文學家 Vera Rubin 的名字命名。Vera Rubin NVL144 的效能將是 GB300 NVL72 的 3.3 倍,記憶體容量、頻寬和 NVLink 速度將提高 1.6 倍以上。Nvidia 將於 2027 年下半年推出 Rubin Ultra NVL576,其效能將是 GB300 NVL72 的 14 倍,並透過 NVLink7 和 CX9 大幅提升記憶體容量和頻寬速度。
在 Vera Rubin 架構之後,Nvidia 的下一代架構將以著名的美國物理學家 Richard Feynman 的名字命名,他以調查挑戰者號太空梭災難的工作而聞名。
軟體策略:Nvidia Dynamo
Nvidia 一直非常重視軟體,甚至認為它比硬體更重要。這種策略重點也延伸到該公司的 AI 工廠計畫。
除了將 CUDA-X AI 加速函式庫擴展到各個領域並開發專門的加速函式庫之外,Nvidia 還推出了 Nvidia Dynamo,這是一個全新的 AI 工廠作業系統。值得注意的是,Nvidia 已經開源了這個作業系統。
Nvidia Dynamo 是一個開源的推論服務框架,旨在建構提供 LLM 推論服務的平台。它可以部署在 K8s 環境中,並用於部署和管理大規模 AI 推論任務。Nvidia 計劃將 Dynamo 整合到其 NIM 微服務框架中,使其成為 Nvidia AI Enterprise 框架的一部分。
Dynamo 是 Nvidia 現有開源推論伺服器平台 Triton 的下一代產品。其主要特點是將 LLM 推論任務分為兩個階段,從而可以更靈活有效地利用 GPU 來優化推論處理,提高效率並最大化 GPU 利用率。Dynamo 可以根據推論需求動態分配 GPU,並加速 GPU 之間的非同步資料傳輸,從而縮短模型推論回應時間。
基於 Transformer 的 GAI 模型將推論分為兩個階段:Prefill(預輸入),它將輸入資料轉換為用於儲存的 Token;以及 Decode,這是一個基於前一個 Token 產生下一個 Token 的循序過程。
傳統的 LLM 推論會將 Prefill 和 Decode 任務分配給同一個 GPU。然而,由於這些任務的計算特性不同,Dynamo 會將它們分開,並相應地分配 GPU 資源,並根據任務特性動態調整分配。這樣可以優化 GPU 集群效能。
Nvidia 的測試顯示,在 GB200 NVL72 上使用 Dynamo 和 6710 億參數的 DeepSeek-R1 模型可以將推論效能提高 30 倍。在 Hopper GPU 上運行的 Llama 70B 的效能也可以提高一倍以上。
由於推論計算的複雜性和各種並行處理模型,管理推論任務非常複雜。黃仁勳強調,Nvidia 推出 Dynamo 框架是為了為 AI 工廠提供作業系統。
傳統資料中心依靠 VMware 等作業系統來協調企業 IT 資源上的不同應用程式。AI Agent 是未來的應用程式,AI 工廠需要 Dynamo,而不是 VMware。
黃仁勳將這個新的 AI 工廠作業系統命名為 Dynamo(發電機),這個引擎啟動了工業革命,這揭示了他對該平台的期望和雄心。Dynamo 的目標是成為 AI 領域的 VMware,為 AI Agent 的部署和管理提供統一的平台。
Dynamo 的開源策略也體現了 Nvidia 的開放姿態。透過開源,Nvidia 希望吸引更多的開發者參與到 Dynamo 的開發和改進中來,共同推動 AI 推論技術的發展。這也符合 Nvidia 一貫的策略,即透過軟體和硬體的協同發展,構建一個完整的 AI 生態系統。
總之,Nvidia 的雙管齊下策略,在硬體方面不斷提升 GPU 的計算能力和擴展性,在軟體方面推出 Nvidia Dynamo 這樣一個專為 AI 工廠設計的作業系統,表明了 Nvidia 在 Agent AI 領域的雄心和決心。隨著 AI 技術的不斷發展,我們可以預見,Nvidia 將在 AI 領域扮演越來越重要的角色。
Nvidia 的這種策略也給其他科技公司帶來了啟示。在 AI 時代,硬體和軟體的結合,以及開放的生態系統,將是成功的關鍵。只有不斷創新,才能在激烈的競爭中脫穎而出。
Nvidia 的未來藍圖也令人期待。Vera Rubin 和 Richard Feynman 架構的推出,將進一步提升 Nvidia 的 AI 運算能力,並為 AI 應用帶來更多的可能性。我們可以期待,在 Nvidia 的推動下,AI 技術將在各個領域得到更廣泛的應用,為人類帶來更多的便利和福祉。
而 Nvidia Dynamo 的推出,更代表著 AI 基礎設施的重大變革。傳統的資料中心作業系統已經無法滿足 AI 工廠的需求,而 Dynamo 這樣專為 AI 設計的作業系統,將成為 AI 時代的基礎設施。隨著 AI 技術的不斷發展,我們可以預見,Dynamo 將在 AI 領域扮演越來越重要的角色。
Nvidia 的策略不僅僅是技術上的創新,更是一種對未來趨勢的深刻理解和把握。在 AI 時代,誰能掌握 AI 的基礎設施,誰就能掌握未來。Nvidia 正努力成為這個基礎設施的領導者。