華為技術公司,一家因美國制裁而面臨重大技術挑戰的公司,據報導在人工智能 (AI) 模型訓練方面取得了突破。華為大型語言模型 (LLM) 盤古 (Pangu) 的研究人員聲稱,他們開發了一種增強的方法,其性能優於 DeepSeek 的原始方法。這種創新的方法利用了華為自己的專有硬體,減少了公司對美國技術的依賴,這是在當前地緣政治格局中的一個關鍵目標。
Mixture of Grouped Experts (MoGE) 的出現
華為進步的基石在於 Mixture of Grouped Experts (MoGE) 的概念。這項新穎的技術,在華為盤古團隊發表的論文中詳細說明,被認為是 Mixture of Experts (MoE) 技術的升級版本。正如 DeepSeek 的成功所證明的,MoE 已被證明在創建具有成本效益的 AI 模型方面具有重要作用。
MoE 為大型模型參數提供了優勢,從而提高了學習能力。然而,華為研究人員發現,當跨多個設備同時運行任務時,「專家」(AI 訓練中的關鍵組成部分)的不均勻激活會導致效率低下,從而阻礙性能。華為的 MoGE 策略性地應對了這些挑戰。
解決傳統 MoE 模型中的效率低下問題
MoGE 系統經過精心設計,旨在優化工作負載分配。核心思想是在選擇過程中將專家「分組」在一起,從而實現更平衡的工作負載分配。研究人員報告說,通過更公平地分配計算負擔,顯著提高了並行計算環境的性能,這是現代 AI 訓練的一個關鍵方面。
AI 訓練中「專家」的概念是指更大、更全面的模型中的專業子模型或組件。每個專家都經過精心設計,可以處理非常特定的任務或數據類型。這種方法利用了各種專業知識,使整個 AI 系統能夠顯著提高其整體性能。
對中國 AI 發展的影響
這項進展尤其及時。儘管中國 AI 公司面臨美國對 Nvidia 等公司先進 AI 晶片進口的限制,但它們正在積極尋求提高模型訓練和推理效率的方法。這些方法不僅包括算法改進,還包括硬體和軟體的協同集成。
華為的研究人員在他們的 Ascend neural processing unit (NPU) 上嚴格測試了 MoGE 架構,該處理器專門用於加速 AI 任務。結果表明,MoGE 在模型訓練和推理階段都實現了卓越的專家負載平衡和更有效的執行。這是同時優化硬體和軟體堆疊的好處的顯著驗證。
將盤古與領先的 AI 模型進行基準測試
盤古模型在 MoGE 架構和 Ascend NPU 的加持下,與領先的 AI 模型進行了基準測試。這些模型包括 DeepSeek-V3、阿里巴巴集團控股的 Qwen2.5-72B 和 Meta Platforms 的 Llama-405B。基準測試結果表明,盤古在一系列通用英語基準測試中實現了最先進的性能,並且在所有中文基準測試中表現出色。盤古還展示了在處理長上下文訓練方面更高的效率,這是複雜自然語言處理任務的一個關鍵領域。
此外,盤古模型在通用語言理解任務中展示了出色的能力,在推理任務中具有特別的優勢。這種掌握細微差別並從複雜語言中提取含義的能力,展示了華為在 AI 方面取得的進展。
華為的戰略意義
華為在 AI 模型架構方面的進展具有戰略意義。鑒於持續的制裁,這家總部位於深圳的公司正在戰略性地尋求減少對美國技術的依賴。華為開發的 Ascend 晶片被認為是 Nvidia 處理器的可行國內替代品,並且是這種獨立性的關鍵組成部分。
盤古 Ultra 是一個具有 1350 億個參數的大型語言模型,專為 NPU 進行了優化,它強調了華為架構和系統精簡的有效性,同時展示了其 NPU 的功能。展示其硬體-軟體集成的有效性是展示華為 AI 功能的重要組成部分。
詳細的訓練過程
根據華為的說法,訓練過程分為三個主要階段:預訓練、長上下文擴展和後訓練。預訓練包括最初在一個包含 13.2 萬億個 tokens 的海量數據集上訓練模型。然後,長上下文擴展擴展了模型處理更長、更複雜文本的能力,並建立在初始數據識別的基礎上。此階段使用跨 8,192 個 Ascend 晶片的大規模分佈式處理。
華為透露,該模型和系統將很快向其商業客戶提供,為與其合作夥伴的集成和開發開闢新的機會。
深入研究 Mixture of Experts (MoE) 及其局限性
為了充分理解華為 MoGE 的重要性,必須了解其構建的基礎:Mixture of Experts (MoE) 架構。MoE 代表了大型 AI 模型設計和訓練方式的範式轉變,提供了一種在不按比例增加計算成本的情況下擴展模型大小和複雜性的途徑。
在傳統的神經網絡中,每個輸入都由每一層中的每個神經元處理。雖然這種方法可以產生很高的準確性,但對於非常大的模型來說,它在計算上變得非常昂貴。相比之下,MoE 引入了「專家」的概念——更小、更專業的神經網絡,專注於輸入數據的特定子集。
一個「門」網絡動態地將每個輸入路由到最相關的專家。這種選擇性激活允許稀疏計算,這意味著對於任何給定的輸入,只使用模型參數的一小部分。這種稀疏性大大降低了推理(使用模型進行預測)和訓練的計算成本。此外,由於不同的專家可以作用於輸入數據的不同部分,因此可以提高模型的專業化程度。
儘管 MoE 具有優勢,但必須解決幾個限制才能充分發揮其潛力。專家激活不均勻是首要考慮的問題。在許多 MoE 實現中,一些專家被大量使用,而另一些專家則相對空閒。這種不平衡源於數據的固有特性和門網絡的設計。
這種不平衡可能導致並行計算環境中的效率低下。由於工作負載沒有均勻分配給專家,因此一些處理單元未得到充分利用,而另一些處理單元則不堪重負。這種差異阻礙了 MoE 的可擴展性並降低了其整體性能。此外,這種不平衡通常源於訓練數據中的偏差,導致活躍程度較低的專家被低估和訓練不足。從長遠來看,這會導致模型不夠理想。
處理 MoE 時的另一個常見問題包括設計門網絡時增加的複雜性。門網絡需要複雜的技術來確保正確選擇專家,否則,MoE 可能無法達到預期效果並導致不必要的開銷。
Grouped Experts (MoGE):應對 MoE 的挑戰
華為的 Mixture of Grouped Experts (MoGE) 架構通過關注負載平衡和高效的並行執行,提供了一種優於傳統 MoE 的改進方案。該方法涉及策略性地將專家分組,從而改變輸入數據的路由過程,從而實現更均勻的工作負載分配。
通過在選擇過程中對專家進行分組,MoGE 確保每組專家都能獲得更平衡的工作負載。現在,門網絡不是獨立地路由每個輸入,而是將輸入組定向到專家組。這種方法促進了更公平的計算負擔分配。
分組機制還有助於減輕數據偏差的影響。通過確保組中的所有專家都接受過對各種輸入進行的訓練,MoGE 降低了低估和訓練不足的風險。此外,對專家進行分組可以更好地利用資源。由於每個組處理更一致的工作負載,因此可以更輕鬆地高效分配計算資源,從而提高整體性能。
最終結果是更好的專家負載平衡和更有效的模型訓練和推理執行。這轉化為更快的訓練時間、更低的計算成本和更高的整體性能。
Ascend NPU:AI 的硬體加速
Ascend NPU(Neural Processing Unit)在華為的 AI 戰略中發揮著關鍵作用。這些處理器專門用於加速 AI 任務,包括模型訓練和推理。它們提供針對深度學習工作負載優化的各種功能,例如高記憶體帶寬、用於矩陣乘法的專用處理單元和低延遲通信接口。此外,華為的 Ascend NPU 支持一系列數據類型和精度級別,允許對性能和準確性進行細粒度控制。
MoGE 和 Ascend NPU 的協同組合創建了一個強大的 AI 創新平台。MoGE 通過改善負載平衡和並行執行來優化軟體方面,而 Ascend NPU 提供了實現這些優勢所需的硬體加速。這種集成方法使華為能夠突破 AI 性能和效率的界限。
Ascend NPU 的特點是高計算密度和能源效率。這些功能對於在各種環境中部署 AI 模型至關重要,從功能強大的雲伺服器到功率預算有限的邊緣設備。
基準測試和性能指標
華為的基準測試結果證明了 MoGE 架構和 Ascend NPU 的有效性。通過將盤古與 DeepSeek-V3、Qwen2.5-72B 和 Llama-405B 等領先的 AI 模型進行比較,華為表明其技術在各種任務中都實現了最先進的性能。
盤古在通用英語和中文基準測試中的成功突顯了其多功能性和適應性。該模型在長上下文訓練中的熟練程度尤其值得注意,因為它反映了處理真實世界數據的能力。此外,盤古在推理任務中的強勁表現突顯了它理解和處理複雜關係的能力。
這些基準測試不僅僅是學術練習,它們提供了華為在技術方面取得的進步的確鑿證據。它們支持了該公司聲稱自己處於 AI 創新前沿的說法,並鞏固了其在全球市場中的地位。
對華為未來的影響
華為在 AI 模型訓練方面的進展對公司在人工智能領域建立技術主權的戰略願景具有重要意義。隨著公司在持續的貿易衝突中最大限度地減少對美國技術的依賴,Ascend 晶片的開發成為 Nvidia 和 AMD 處理器的替代品。盤古 Ultra 是一個具有 1350 億個針對 NPU 參數的 LLM,它通過展示其尖端晶片的功能,突出了華為架構和系統精簡的有效性。
預計這些努力將有助於華為的長期整體競爭力,因為它力求滿足更大的 AI 市場,尤其是在中國。通過繼續將投資重點放在研發上,華為希望將自己推向 AI 領域的領導者地位,克服當前的市場限制。
未來研究
華為通過系統和算法級別的優化以及 Ascend 晶片等硬體開發,不斷增強 AI 模型架構,標誌著其在引領人工智能技術曲線方面的重要性。雖然像盤古這樣的基準證明它是一個最先進的模型,但仍有很大的改進空間。進一步改進 MoGE 架構可能會使其能夠推動更大、更複雜的計算。更多專門化Ascend NPU 架構的工作可能會進一步加速深度學習過程並降低成本。未來的調查將看到不斷努力構建更好的 AI 模型並改進現有模型。