NVIDIA 新超級晶片:Blackwell Ultra 與 Vera Rubin

Blackwell Ultra GB300:效能的躍進

預計於 2025 年下半年出貨的 Blackwell Ultra GB300,代表著 NVIDIA 先前產品的重大進步。這款新型超級晶片旨在提供更強大的運算能力和更高的記憶體頻寬,這對於滿足現代 AI 應用不斷增長的需求至關重要。

GB300 系統是一個強大的組合,整合了 72 個 NVIDIA Blackwell Ultra GPU 和 36 個基於 Arm 的 NVIDIA Grace CPU。這種組合提供了令人印象深刻的 1,400 petaFLOPS 的 FP4 AI 效能。相較於其前身 Blackwell B200,這意味著密集 FP4 運算能力提高了 1.5 倍。

GB300 中最重要的升級之一是其記憶體容量。系統中的每個 GPU 都配備了驚人的 288GB HBM3e 記憶體。這使得每個系統的 GPU 記憶體總量超過 20TB。記憶體的大幅增加允許處理更大的 AI 模型和資料集,從而實現更複雜的計算並達到更快的處理速度。

NVIDIA 將 Blackwell Ultra AI Factory Platform 定位為提供相較於標準 Blackwell 晶片的漸進式效能提升,而非革命性的效能提升。雖然單個 Ultra 晶片保持與標準 Blackwell 相同的 20 petaflops AI 運算能力,但它顯著受益於高頻寬記憶體 (HBM3e) 50% 的提升,從 192GB 增加到 288GB。

從更大的規模來看,一個完整規模的 DGX GB300 ‘Superpod’ 仍然包含 288 個 CPU 和 576 個 GPU。此設置提供 11.5 exaflops 的 FP4 運算能力,與基於原始 Blackwell 的 Superpod 效能相當。然而,它的總記憶體增加了 25%,現在達到了驚人的 300TB。這些記憶體增強突顯了 NVIDIA 的重點是適應更大的模型並提高 AI 推理效率,而不僅僅是關注原始運算能力。

NVIDIA 並沒有直接比較 Blackwell 和 Blackwell Ultra,而是展示了其最新平台與 2022 年代的 H100 晶片(仍在 AI 工作負載中廣泛使用)相比如何。該公司聲稱 Blackwell Ultra 提供了 H100 1.5 倍的 FP4 推理效能。然而,最顯著的優勢在於其加速 AI 推理的能力。

例如,運行 DeepSeek-R1 671B(一種特別大的語言模型)的 NVL72 集群現在可以在短短十秒內產生回應。這比 H100 系統所需的 90 秒大幅減少。

NVIDIA 將這一重大改進歸功於 token 處理速度提高了十倍。Blackwell Ultra 每秒可以處理 1,000 個 token,這比 H100 的每秒 100 個 token 有了顯著的飛躍。這些數字表明,雖然 Blackwell Ultra 可能不會大幅超越其直接前身,但它提供了引人注目的效率提升,特別是對於仍在使用上一代架構的組織而言。

Vera Rubin 超級晶片:下一代 AI 處理

除了 Blackwell Ultra,NVIDIA 計劃在 2026 年底推出 Vera Rubin 超級晶片。這款晶片以著名天文學家 Vera Rubin 的名字命名,將採用客製化設計的 CPU (Vera) 和 GPU (Rubin)。這代表 NVIDIA 在追求尖端 AI 處理能力方面邁出了重要一步。

基於 NVIDIA Olympus 架構的 Vera CPU 預計將提供當前 Grace CPU 兩倍的效能。另一方面,Rubin GPU 將支援高達 288GB 的高頻寬記憶體。這種巨大的記憶體容量將顯著增強資料處理能力,特別是對於複雜的 AI 任務。

Vera Rubin 架構展示了單一晶片上的雙 GPU 設計。這種創新設計使每個晶片都能實現驚人的 50 petaFLOPS 的 FP4 推理效能,從而促進更高效的處理並減少 AI 應用中的延遲。

Vera CPU 是 Grace CPU 的繼任者,由 88 個具有同步多執行緒的客製化 Arm 核心組成。此配置導致每個插槽有 176 個執行緒。它還具有 1.8TB/s 的 NVLink 核心到核心介面,顯著提高了 CPU 和 GPU 元件之間的資料傳輸速度。

Blackwell Ultra GB300 和 Vera Rubin 超級晶片代表了 NVIDIA 先前晶片架構的重大進步。GB300 比 B200 增加 1.5 倍的密集 FP4 運算能力直接轉化為更高效的 AI 工作負載處理。這反過來又加快了訓練和推理時間,這對於加速 AI 開發至關重要。

Vera Rubin 每個晶片具有 50 petaFLOPS 的 FP4 效能,標誌著一個相當大的飛躍。這種效能水準允許部署更複雜的 AI 模型和應用,推動人工智慧領域的可能性邊界。

NVIDIA 雄心勃勃的開發時間表,計劃每年發布新一代 AI 晶片,突顯了其致力於在快速發展的 AI 硬體市場中保持領先地位的決心。該公司對創新的承諾體現在其不斷追求更強大和更高效的 AI 處理解決方案。推出這些新型超級晶片不僅僅是漸進式的改進,更是為了開啟 AI 能力的新時代。

記憶體容量和處理速度的進步尤其值得注意。處理更大模型和資料集的能力對於開發更複雜的 AI 系統至關重要。隨著 AI 模型持續變得越來越複雜,對能夠跟上步伐的硬體的需求變得越來越重要。NVIDIA 對記憶體頻寬和 token 處理速度的關注直接解決了這一需求。

NVIDIA 的策略是轉向強調效率提升,特別是對於從舊架構過渡的組織。它承認並非所有用戶都會立即採用最新的硬體。通過展示比上一代晶片顯著的效能改進,NVIDIA 為升級提供了令人信服的理由。

Vera Rubin 超級晶片及其客製化設計的 CPU 和 GPU 代表了一項重大的架構進步。單一晶片上的雙 GPU 設計是一種創新方法,有望提供顯著的效能提升和減少延遲。這種設計反映了 NVIDIA 致力於突破晶片設計的界限並最大化效能。

以天文學家 Vera Rubin 的名字命名這款晶片,是對她開創性工作的恰當致敬。它也巧妙地強化了 NVIDIA 對科學發現和創新的承諾。該公司對 AI 的關注不僅限於商業應用,還包括推動科學研究。

總體而言,NVIDIA 宣布推出 Blackwell Ultra GB300 和 Vera Rubin 超級晶片標誌著 AI 硬體發展的一個重要里程碑。這些新型晶片有望加速 AI 在各個行業的開發和部署。該公司對創新的承諾及其積極的開發時間表表明,我們可以期待在未來幾年取得更多突破性的進展。對原始效能和效率提升的關注確保了這些晶片將與廣泛的用戶相關,從擁有尖端系統的用戶到仍在使用舊架構的用戶。AI 硬體的未來看起來一片光明,NVIDIA 顯然將自己定位在這個令人興奮的領域的最前沿。這些新型超級晶片增加的記憶體、增強的處理速度和創新的設計無疑將為人工智慧的新突破鋪平道路,影響各個領域並在未來幾年推動進一步的發展。