在人工智慧領域,情境至關重要。這個原則反映了人類的智慧,也暗示了它與人工智慧的關聯性,因為我們創造了它,如同我們自己的形象。
目前,我們看到像 NVIDIA 這樣的公司大力推廣 AI 工廠——本質上是處理 PB 級數據以提供智慧回應的超級電腦——作為一種催化全球經濟和文化重大轉變的新途徑。
但我們是如何走到這一步的呢?答案一如既往,在於一系列漸進式的進步。
在深入探討 AI 工廠的具體細節及其對未來商業和社會的影響之前,讓我們先建立一些基礎背景。
新石器時代革命:播下創新的種子
大約 12,000 年前,我們的祖先從游牧的狩獵採集者轉變為定居的農業耕作者,種植植物並飼養動物以維持生計。農業,或耕作,代表了一種初級的食物工廠,依靠陽光、水和空氣來促進植物和動物的生長。術語 ‘firma’,表示中世紀時期耕種土地的固定租金,後來成為農業的同義詞。
農業需要分層的社會結構才能有效運作。文字作為一種管理工具出現,有助於追蹤這些食物工廠中的投入和產出,並建立社會規則。隨著時間的推移,文字擴展到包含各種領域,並且仍然是傳達複雜訊息的有效手段。
從我們用鋤頭、耙子和犁代替弓箭和長矛的那一刻起,並在黏土或石頭上刻下第一個符號文字起,人工智慧的出現,以及隨之而來的 AI 工廠,就變得不可避免。這只是一個時間問題。
工業革命:打造大規模生產的道路
幾千年來,人類磨練了他們的農業技能,產生了剩餘產品,促進了商人階級的出現——他們從事為他人製作商品的活動,或“製造”,源自拉丁語“用手工作”。這導致了貨幣的發展,一種加速易貨貿易並將其轉變為現代經濟的交換媒介。在全球探索時代之後,全球化將區域和國家經濟聯繫起來。
隨後的全球化浪潮重塑了農業和製造業。工廠(標準化製造的中心)的一個關鍵轉變涉及將生產過程劃分為離散的步驟,以提高速度和可重複性。這場工業革命恰逢啟蒙運動,其特點是識字率飆升,因為工廠需要受過教育的工人來最大限度地提高效率並最大限度地減少浪費。教育成為一種必需品,促進了對公民權利、私有財產權、宗教自由、安全、言論和迅速審判權的認可。
這些原則在 21 世紀是不言而喻的,它們的起源歸功於 18 世紀。
工廠將製造業帶到室內,利用蒸汽和電力為裝配線和精益製造技術提供動力。這使得商品能夠以實惠的價格生產,提高了生活水平,並促進了中產階級的成長,推動了經濟擴張,超越了農業社會的能力。
AI 革命:數據作為新領域
網際網路的出現將個人聯繫起來,並產生了一種新的資源:數據,可以進行有見地的分析。
AI 革命取決於大量文字、圖像、影片和音訊的數位化,以及處理這些數據的經濟實惠的運算能力。大數據與大規模並行的 GPU 和高記憶體頻寬相結合,可以創建編碼我們對世界理解的 Neural Networks,從而實現人工智慧。
本質上,大數據為在 GPU 引擎上運行的 AI 演算法提供了原始材料,以構建功能性的 Neural Networks。
這些元素必須同時收斂。在 1980 年代,研究人員擁有 Neural Networks 演算法,但缺乏實施它們的運算資源和數據。因此,在滿足這三個條件之前,AI 在很大程度上仍然是理論上的。
AI 工廠:一種字面轉變
術語“AI 工廠”不僅僅是一個隱喻,而是對在商業環境中運行的現代 AI 超級電腦的精確描述。它從根本上改變了企業運算和數據分析——將數據合成為可操作的資訊。
AI 工廠與農業革命一樣是不可避免的,在農業革命中,集體努力確保了糧食生產。這場革命導致的社會和文化轉變賦予了人類閒暇時間進行思考和創新。現在,機器可以存取和處理全部人類知識,從而實現對話式搜尋和 AI 演算法的反向應用,以生成各種格式的新數據。
企業和個人可以直接或透過時間共享安排存取 AI 工廠。這些 AI 工廠將產生新的想法、願景,並擴大個人的創造能力。
AI 工廠的變革潛力是無所不包的。聊天機器人、用於模型訓練和推理的並行運算引擎的開發人員以及 OpenAI、Anthropic、Google 和 Mistral 等模型創建者都認為,AI 將重塑我們生活的方方面面。儘管全球在各種問題上存在分歧,但 AI 的變革性影響已得到普遍認可。
製造洞察與行動
AI 工廠有兩個主要功能。第一個是訓練基礎模型,從而產生改進業務和個人的見解。第二個,也是更重要的功能,涉及將新數據和問題輸入到這些模型中,以推斷新的答案、生成新的 token 並推動行動。
圍繞 AI 的許多討論都集中在訓練不斷擴展的基礎模型上,這些模型擁有數千億到數兆的參數和龐大的數據集。Token 數量表示知識的廣度,而參數反映了理解的深度。較小的參數數量與較大的 token 集相結合,可以產生更快、更簡單的答案。相反,較大的參數數量和較小的 token 集可以提供對有限領域的更細緻的見解。本質上是多模式的 Chain-of-thought 推理模型結合了專業模型來考慮驅動其他輸入的輸出,從而產生全面的答案。
AI 工廠利用人類創建的所有內容以及 AI 模型生成的合成數據作為原材料。從這些數據中獲得的見解被人類和 AI 代理利用來推動行動。個人不是在工廠工作,而是利用它,利用 AI 模型的知識和速度來增強自己的技能,以實現更多、更好、更快的結果。
根據 NVIDIA 聯合創始人兼 CEO 黃仁勳的說法,“世界正在競相建立最先進的大規模 AI 工廠。” 建立 AI 工廠是一項非凡的工程壯舉,需要大量的資源、人力和物力。
建造 AI 工廠需要大量的資本投資。一個典型的配置包括一個基於多個 DGX 系統機架的 NVIDIA DGX SuperPOD,具有 GPU、CPU、高速互連和儲存。
憑藉眾多的 DGX 系統,SuperPOD 提供了強大的效能,擁有相當大的記憶體容量和頻寬。可以透過添加更多系統來擴展效能。
NVIDIA AI 工廠的另一個藍圖以 NVIDIA GB200 NVL72 平台為中心,這是一個機架級系統,集成了 GPU、CPU、DPU、SuperNIC、NVLink 和 NVSwitch 以及高速網路。該平台為 AI 模型提供更大的共享 GPU 記憶體域和更高的運算密度,需要液體冷卻。
GB200 NVL72 以全量發貨,代表一個能夠構建模型並以各種格式生成數據的獨立系統。
GB200 NVL72 包含一個 MGX 伺服器節點,該節點具有一個與 Blackwell GPU 配對的 NVIDIA Grace CPU。其中兩個伺服器節點構成 NVL72 機架內的運算托盤,其中十八個運算托盤容納了大量的 GPU 和 CPU。
GB200 NVL72 機架級系統將 Grace CPU 與 Blackwell GPU 相結合,透過高速 NVLink 連接互連。NVLink 端口和 NVSwitch 晶片將所有 GPU 鏈接在共享記憶體配置中,非常適合基礎模型訓練和 Chain-of-thought 推理。
由九個 NVLink 交換機托盤促進的 NVLink 結構能夠將所有 GPU 芯片作為統一的 GPU 進行存取,以用於 AI 應用程式。
GB200 NVL72 系統具有大量的 Arm 核心,用於主機處理和大量的浮點處理能力。GB200 NVL72 系統擁有連接到 GPU 的大量 HBM3e 記憶體,具有高聚合頻寬。Grace CPU 具有 LPDDR5X 記憶體,可透過 NVLink 存取。
NVIDIA GB200 NVL72 反映了 System/360 對線上交易處理的變革性影響,主要的區別在於 NVL72 透過 InfiniBand 互連的可擴展性。
基於 NVL72 機架級系統的 DGX SuperPOD 配置需要大量的電力,但可以跨多個運算機架提供強大的運算能力和記憶體容量。可以透過添加更多機架來擴展效能。
NVL72 機架的運算密度需要專用的液體冷卻和數據中心基礎設施,這代表著回到過去的做法,即水冷機器最大限度地提高了效能。
隨著推理成為各種應用程式不可或缺的一部分,尤其是在轉向 Chain-of-thought 推理模型的情況下,AI 工廠將需要顯著更高的運算能力。
AI 工廠不僅包含硬體,還包含系統和開發軟體。
DGX GB200 系統和 DGX SuperPOD AI 超級電腦需要管理和建模,這由 NVIDIA Mission Control 等工具促進,該工具協調 AI 工作負載並自動恢復作業。Mission Control 監控系統運行狀況並優化功耗。
NVIDIA AI Enterprise 系統軟體套件包括針對 NVIDIA GPU 和網路優化的庫、模型和框架。AI 工廠堆疊還具有 NVIDIA Dynamo,這是一個用於跨 NVLink 和 DGX SuperPOD 基礎設施運行推理的開源框架。DGX 專家服務和支援可協助客戶實施這些技術,從而縮短獲得第一個 token 的時間。NVIDIA 為其 Omniverse ‘數位雙生’ 環境提供 AI 工廠藍圖,以模擬和優化數據中心設計。
AI 工廠的一個重要方面是它們產生的思維轉變,NVIDIA 優先考慮系統增長的空間。
根據 NVIDIA 網路高級副總裁 Gilad Shainer 的說法,“現在生成 token 等於為許多公司創造收入。” 數據中心正在從成本中心轉變為生產性資產。
歸根結底,這就是建立工廠的本質。