重思AI效率:非時時需滿載算力

人工智慧 (AI) 開發持續不斷地推進,向來都是模型越大就越聰明,但運算需求也隨之攀升。這帶來了一項重大的挑戰,尤其是在那些無法輕易取得先進人工智慧晶片的地區。然而,無論地理限制為何,模型開發者之間正興起一股趨勢,那就是擁抱混合專家 (Mixture of Experts, MoE) 架構,並結合創新的壓縮技術。目標是什麼?大幅降低部署和執行這些龐大的大型語言模型 (Large Language Models, LLMs) 所需的運算資源。隨著 ChatGPT 引發的生成式人工智慧熱潮即將邁入三週年,業界終於開始認真考慮維持這些耗電模型運作的經濟影響。

雖然像 Mistral AI 這樣的 MoE 模型已經存在一段時間,但它們真正的突破是在去年發生的。我們目睹了來自 Microsoft、Google、IBM、Meta、DeepSeek 和 Alibaba 等科技巨頭的新開源 LLM 如雨後春筍般湧現,所有這些模型都採用了某種形式的 MoE 架構。它的吸引力很簡單:MoE 架構提供了比傳統「密集」模型架構更有效率的替代方案。

克服記憶體限制

MoE 架構的基礎可以追溯到 1990 年代初期,當時發表了「Adaptive Mixtures of Local Experts」。其核心概念是將任務分配給一個或多個專業的子模型或「專家」,而不是依賴一個接受過廣泛數據訓練的單一、龐大的模型。

理論上,每個專家都可以針對特定領域進行精心的優化,從編碼和數學到創意寫作。然而,值得注意的是,大多數模型開發者提供的關於 MoE 模型中具體專家的詳細資訊有限,並且專家的數量因模型而異。至關重要的是,在任何給定時間,只有一小部分的整體模型會被積極地參與運算。

以 DeepSeek 的 V3 模型為例,它包含 256 個路由專家以及一個共享專家。在 Token 處理期間,僅啟動八個路由專家以及共享專家。這種選擇性的啟動意味著 MoE 模型可能無法始終達到與尺寸相似的密集模型相同的品質水平。例如,在 Alibaba 的基準測試中,Alibaba 的 Qwen3-30B-A3B MoE 模型始終表現遜於密集的 Qwen3-32B 模型。

然而,重要的是要將品質上的這種輕微下降,與 MoE 架構所提供的顯著效率提升相結合來看。活動參數的減少導致記憶體頻寬需求不再與儲存模型權重所需的容量成正比。從本質上講,雖然 MoE 模型可能仍然需要大量的記憶體,但它們不一定需要最快和最昂貴的高頻寬記憶體 (High Bandwidth Memory, HBM)。

讓我們用一個比較來說明這一點。考慮 Meta 最大的「密集」模型 Llama 3.1 405B,以及 Llama 4 Maverick(一個採用 MoE 架構且具有 170 億個活動參數的可比較模型)。雖然批量大小、浮點效能和鍵值快取等眾多因素都會影響實際效能,但我們可以通過將模型在給定精度下的尺寸(以 GB 為單位)(對於 8 位元模型,每個參數 1 個字節)乘以批量大小為 1 時的目標每秒 Token 數來估算最低頻寬需求。

運行 8 位元量化版本的 Llama 3.1 405B 將需要超過 405 GB 的 vRAM 和至少 20 TB/s 的記憶體頻寬,才能以每秒 50 個 Token 的速度生成文字。Nvidia 基於 HGX H100 的系統(直到最近的價格還高達 300,000 美元或更多)僅提供 640 GB 的 HBM3 和約 26.8 TB/s 的總頻寬。運行完整的 16 位元模型至少需要兩個這樣的系統。

相比之下,Llama 4 Maverick 在消耗相同記憶體量的情況下,僅需要不到 1 TB/s 的頻寬即可實現相當的效能。這是因為只有 170 億個參數的模型專家積極參與生成輸出。這意味著在相同的硬體上,文字生成速度提高了數量級。

反之,如果單純的效能不是主要考量因素,那麼現在可以在更便宜但較慢的 GDDR6、GDDR7 甚至 DDR 記憶體上運行這些模型中的許多模型,正如 Intel 最新的 Xeon 中所看到的那樣。

Nvidia 在 Computex 上宣布的全新 RTX Pro Servers 就是針對這種情況量身定制的。這些系統沒有依賴需要先進封裝的昂貴且耗電的 HBM,而是為每個 RTX Pro 6000 GPU 配備了 96 GB 的 GDDR7 記憶體,這與現代遊戲卡中使用的類型相同。

這些系統提供高達 768 GB 的 vRAM 和 12.8 TB/s 的總頻寬,足以每秒數百個 Token 的速度運行 Llama 4 Maverick。雖然 Nvidia 尚未公佈定價,但這些卡的圖形工作站版本零售價約為 8,500 美元,這表明這些伺服器的價格可能不到使用過的 HGX H100 的一半。

然而,MoE 並不意味著 HBM 堆疊 GPU 的終結。假設 Llama 4 Behemoth 真的上市,預計它會因其龐大的尺寸而需要一整個機架的 GPU。

雖然它的活動參數大約只有 Llama 3.1 405B 的一半,但總共有 2 兆個參數。目前,市場上沒有任何單一的傳統 GPU 伺服器可以容納完整的 16 位元模型和一百萬個或更多的上下文窗口。

AI 中的 CPU 文藝復興?

根據具體的應用,GPU 可能並非總是必需的,尤其是在那些難以獲得高端加速器的地區。

Intel 在 4 月份展示了一個配備 8800 MT/s MCRDIMM 的雙路 Xeon 6 平台。該設置在 Llama 4 Maverick 中實現了每秒 240 個 Token 的吞吐量,平均每個 Token 的輸出延遲低於 100 毫秒。

簡而言之,對於大約 24 個並發用戶,Xeon 平台可以維持每個用戶每秒 10 個或更多 Token 的速度。

Intel 沒有透露單用戶效能數據,因為它們在現實世界中不太相關。然而,估計表明峰值效能約為每秒 100 個 Token。

儘管如此,除非沒有更好的替代方案或有特定要求,否則基於 CPU 的推論的經濟性仍然高度依賴於具體的使用案例。

權重縮減:剪枝和量化

MoE 架構可以減少服務大型模型所需的記憶體頻寬,但它們不會減少儲存其權重所需的記憶體量。即使在 8 位元精度下,Llama 4 Maverick 也需要超過 400 GB 的記憶體才能運行,無論活動參數的數量如何。

新興的剪枝技術和量化方法可能會將該需求減半,而不會犧牲品質。

Nvidia 一直是剪枝的倡導者,發布了 Meta 的 Llama 3 模型的剪枝版本,這些模型移除了冗餘權重。

Nvidia 也是最早在 2022 年支援 8 位元浮點數據類型的公司之一,並在 2024 年推出 Blackwell 架構時再次支援 4 位元浮點數據類型。預計 AMD 首批提供原生 FP4 支援的晶片將很快發布。

雖然不是絕對必要的,但對這些數據類型的原生硬體支援通常會降低遇到運算瓶頸的可能性,尤其是在大規模服務時。

我們已經看到越來越多的模型開發者採用較低精度的數據類型,Meta、Microsoft 和 Alibaba 都提供了 8 位元甚至 4 位元的量化模型版本。

量化涉及將模型權重從其原生精度(通常為 BF16)壓縮到 FP8 或 INT4。這有效地將模型的記憶體頻寬和容量需求減少了一半甚至四分之三,但會犧牲一些品質。

從 16 位元轉換到 8 位元的損失通常可以忽略不計,並且包括 DeepSeek 在內的幾家模型構建商已經開始從一開始就以 FP8 精度進行訓練。然而,將精度再降低四位元可能會導致顯著的品質下降。因此,許多訓練後量化方法(例如 GGUF)不會平等地壓縮所有權重,而是將一些權重保留在更高的精度級別,以最大限度地減少品質損失。

Google 最近展示了使用量化感知訓練 (QAT) 將其 Gemma 3 模型減少 4 倍,同時保持接近原生 BF16 的品質水平。

QAT 在訓練期間模擬低精度運算。通過在非合格模型上應用此技術約 5,000 個步驟,Google 能夠在轉換為 INT4 時將困惑度的下降(一種衡量與量化相關損失的指標)降低 54%。

另一種基於 QAT 的量化方法,稱為 Bitnet,旨在實現更低的精度級別,將模型壓縮到僅 1.58 位元,約為其原始尺寸的十分之一。

技術的協同作用

MoE 和 4 位元量化的結合提供了顯著的優勢,尤其是在頻寬有限的情況下。

然而,對於其他那些不受頻寬限制的人來說,無論是 MoE 還是量化,這兩種技術都可以大大降低運行更大、更強大的模型的設備和運營成本;這是假設可以找到它們可以執行的有價值的服務。

如果沒有,你至少可以感到安慰,因為你並不孤單——IBM 最近的一項調查顯示,只有四分之一的人工智慧部署實現了所承諾的投資回報。