DeepSeek 等 AI 技術的快速創新,使得我們必須重新評估如何建構資料中心、晶片和系統,以提供所需的運算能力。DeepSeek 的工程創新大幅降低了 AI 運算成本,進而引發了關於 AI 基礎設施未來的更廣泛討論。
雖然 DeepSeek 可能並未大幅擴展 AI 技術的邊界,但它對 AI 市場的影響卻是深遠的。諸如 Mixture of Experts (MoE)、Multi-Layer Attention (MLA) 和 Multi-Token Prediction (MTP) 等技術,都隨著 DeepSeek 而聲名鵲起。儘管並非所有這些技術都是由 DeepSeek 首創,但它們的成功實施已激發了廣泛的採用。特別是 MLA,已成為從邊緣設備到雲端運算等各種平台上的討論焦點。
MLA 與算法創新的挑戰
NextSilicon 的 CEO Elad Raz 最近指出,雖然 MLA 提高了記憶體效率,但它也可能增加開發人員的工作量,並使 AI 在生產環境中的應用更加複雜。GPU 用戶可能需要對 MLA 進行 ‘手動編碼’ 優化。這個例子突顯了在後 DeepSeek 時代重新思考 AI 晶片和基礎設施架構的必要性。
為了理解 MLA 的重要性,必須掌握大型語言模型 (LLM) 的基本概念。在生成對用戶輸入的回應時,LLM 嚴重依賴 KV 向量 – 鍵 (keys) 和值 (values) – 這使模型能夠專注於相關資料。在注意力機制中,模型將新的請求與鍵進行比較,以確定最相關的內容。
Elad Raz 使用了一本書的比喻,鍵就像 ‘一本書的章節標題,指示每個部分是關於什麼的,而值則是這些標題下的更詳細摘要。因此,當用戶輸入請求時,它會要求一個搜尋詞來幫助生成答案。它在問,‘在這個故事情節下,哪個章節最相關?’’
MLA 壓縮了這些章節標題(鍵)和摘要(值),加速了尋找答案的過程,並提高了效率。最終,MLA 幫助 DeepSeek 將記憶體使用量減少了 5-13%。更多詳細資訊可以在 DeepSeek 的官方文件中找到。聯發科 (MediaTek) 的開發者大會甚至討論了在其 Dimensity 行動晶片中支援 MLA 的問題,突顯了 DeepSeek 的廣泛影響力。
像 MLA 這樣的技術代表了 AI 時代的典型算法創新。然而,AI 技術的快速發展導致了持續不斷的創新,這反過來又產生了新的挑戰,尤其是在這些創新是針對特定平台量身定制的情況下。就 MLA 而言,非 NVIDIA GPU 用戶需要額外的手動編碼才能利用該技術。
雖然 DeepSeek 的技術展示了 AI 時代的創新和價值,但硬體和軟體必須適應這些創新。根據 Elad Raz 的說法,這種適應應該盡量減少開發人員和生產環境的複雜性。否則,每次創新的成本都會變得過於高昂。
那麼問題就變成了:’如果下一個算法創新不能很好地且簡單地轉化為現有架構,會發生什麼?’
晶片設計與算法創新之間的衝突
過去幾年,AI 晶片製造商一直報告說,設計大型 AI 晶片至少需要 1-2 年的時間。這意味著晶片設計必須在晶片上市之前很早就開始。鑑於 AI 技術的快速發展,AI 晶片設計必須具有前瞻性。僅僅關注當前的需求將導致過時的 AI 晶片,無法適應最新的應用創新。
AI 應用算法創新現在每週都在發生。正如之前文章中提到的,AI 模型實現相同能力所需的運算能力每年減少 4-10 倍。在過去的三年中,實現與 GPT-3 相似品質的 AI 模型的推論成本降低了 1200 倍。目前,具有 2B 參數的模型可以達到與昔日 170B 參數 GPT-3 相同的水平。AI 技術堆疊上層的這種快速創新對傳統晶片架構規劃和設計提出了重大挑戰。
Elad Raz 認為,業界需要認識到像 DeepSeek MLA 這樣的創新是 AI 技術的常態。’下一代運算不僅需要針對當今的工作負載進行優化,還需要適應未來的突破。’ 這種觀點不僅適用於晶片產業,也適用於 AI 技術堆疊的整個中低層基礎設施。
‘DeepSeek 和其他創新已經證明了算法創新的快速發展,’ Elad Raz 說。’研究人員和資料科學家需要更通用、更有彈性的工具來推動新的見解和發現。市場需要智慧的、軟體定義的硬體運算平台,讓客戶可以 ‘drop-in replace’ 現有的加速器解決方案,同時讓開發人員可以輕鬆地移植他們的工作。’
為了應對這種情況,業界必須設計更智慧、更具適應性和更靈活的運算基礎設施。
靈活性和效率通常是相互衝突的目標。CPU 非常靈活,但其並行運算效率遠低於 GPU。GPU 具有可程式性,但其效率可能不如專用的 AI ASIC 晶片。
Elad Raz 指出,NVIDIA 預計 AI 資料中心機架的功耗很快將達到 600kW。作為參考,75% 的標準企業資料中心每個機架的峰值功耗僅為 15-20kW。無論 AI 的潛在效率提升如何,這都對資料中心構建運算基礎設施系統提出了重大挑戰。
在 Elad Raz 看來,目前的 GPU 和 AI 加速器可能不足以滿足 AI 和高效能運算 (HPC) 的潛在需求。’如果我們不從根本上重新思考如何提高運算效率,業界就有可能觸及物理和經濟限制。這堵牆也會產生副作用,限制更多組織對 AI 和 HPC 的存取,即使算法或傳統 GPU 架構有所進步,也會阻礙創新。’
下一代運算基礎設施的建議和要求
基於這些觀察,Elad Raz 提出了定義下一代運算基礎設施的 ‘四大支柱’:
(1) 即插即用可替換性: ‘歷史表明,複雜的架構轉換,例如從 CPU 遷移到 GPU,可能需要數十年才能完全實施。因此,下一代運算架構應支援平穩的遷移。’ 為了實現 ‘即插即用’ 的可替換性,Elad Raz 建議新的運算架構應借鑒 x86 和 Arm 生態系統,透過向後相容性實現更廣泛的採用。
現代設計還應避免要求開發人員重寫大量程式碼或建立對特定供應商的依賴。’例如,對像 MLA 這樣的新興技術的支援應該標準化,而不是像非 NVIDIA GPU 那樣需要額外的手動調整。下一代系統應理解和優化開箱即用的新工作負載,而無需手動修改程式碼或進行重大的 API 調整。’
(2) 可適應的即時效能優化: Elad Raz 認為,業界應擺脫固定功能加速器。’業界需要建立在智慧的、軟體定義的硬體基礎之上,這些硬體可以在執行時動態地自我優化。’
‘透過不斷從工作負載中學習,未來的系統可以即時調整自身,無論具體應用工作負載如何,都能最大限度地提高利用率和持續效能。這種動態的適應性意味著基礎設施可以在實際場景中提供一致的效率,無論是運行 HPC 模擬、複雜的 AI 模型還是向量資料庫操作。’
(3) 可擴展的效率: ‘透過將硬體和軟體分離,並專注於智慧的即時優化,未來的系統應實現更高的利用率和更低的整體能耗。這將使基礎設施更具成本效益和可擴展性,以滿足新工作負載不斷變化的需求。’
(4) 未來設計: 這一點對應於 AI 基礎設施(尤其是晶片設計)的前瞻性要求。’今天的尖端算法明天可能就會過時。’ ‘無論是 AI 神經網路還是基於 Transformer 的 LLM 模型,下一代運算基礎設施都需要具有適應性,以確保企業的技術投資在未來幾年內保持彈性。’
這些建議提供了一個相對理想化但發人深省的觀點。即使一些固有的矛盾仍然是業界長期存在的問題,也應考慮將這種指導方法用於 AI 和 HPC 技術的未來發展。’為了釋放 AI、HPC 和其他未來運算和資料密集型工作負載的潛力,我們必須重新思考基礎設施,並擁抱動態和智慧的解決方案來支援創新和先驅。’