Moonshot AI 推出 Muon 及 Moonlight

大型語言模型訓練效率的追求

不斷追求更大、更強大的語言模型,帶來了一個迫切的需求:效率。訓練這些龐然大物不僅需要強大的計算能力,還需要精密的技術,從每一瓦特和每一秒中榨取最大的性能。優化演算法是驅動學習過程的引擎,至關重要。它們決定了具有數十億甚至數萬億參數的模型,能夠以多快的速度和效率收斂到最佳性能狀態。雖然像 AdamW 這樣的優化器已成為業界的主力,但它們對超參數微調的渴求,以及對計算資源的巨大消耗,促使人們尋找更精簡的替代方案。最終目標?一種優化器,既能提供堅如磐石的訓練穩定性,又能大幅降低計算負擔。

現有優化技術的局限性

訓練巨型語言模型的核心挑戰在於計算需求的龐大規模。隨著模型增大,每次迭代需要更新的參數數量呈爆炸式增長。許多現有的優化器雖然在較小的環境中有效,但在這種巨大的壓力下開始步履蹣跚。它們變得效率低下,需要不斷的調整和微調,從而延長了訓練時間。此外,穩定性問題可能會悄然出現,表現為不穩定的更新,從而降低模型的性能。因此,一個真正有效的解決方案必須同時解決效率和穩定性問題,確保平穩可靠的訓練,而無需過多的計算能力或無休止的手動參數調整。

例如,廣泛使用的 Adam 和 AdamW 優化器依賴於自適應學習率和權重衰減來微調模型性能。這些方法已在各種應用中證明了其價值。然而,隨著模型規模的擴大,它們的有效性會降低。與這些優化器相關的計算開銷急劇增加,使得它們對於真正的大規模訓練工作效率低下。這推動了一項充滿活力的研究工作,重點是識別和開發替代優化器。這些新方法旨在提供卓越的性能和效率,理想情況下消除對費力的超參數調整的需求,同時實現穩定和可擴展的結果。

Muon:為可擴展性設計的新型優化器

Moonshot AI 的研究人員與 UCLA 合作,推出了 Muon,這是一種專門設計的優化器,旨在克服現有方法在大型訓練場景中的局限性。雖然 Muon 最初在較小規模的模型中表現出令人印象深刻的性能,但在擴展到處理語言模型世界的巨頭時遇到了障礙。為了解決這些挑戰,研究人員實施了兩項關鍵技術。

首先,他們加入了權重衰減,這是一種正則化技術,有助於防止過擬合並增強訓練穩定性。其次,他們引入了一致的均方根 (RMS) 更新。這確保了對所有參數的調整都是統一應用的,無論其大小如何。這種一致性對於在大型語言模型的廣闊參數空間中保持平衡學習至關重要。這些增強功能使 Muon 能夠高效運行,而無需進行大量的超參數調整。這種「開箱即用」的特性使其成為訓練大型模型的理想選擇,顯著減少了設置和配置開銷。

Moonlight:在混合專家模型中利用 Muon 的力量

基於 Muon 中體現的進步,研究人員開發了 Moonlight,這是一種混合專家 (MoE) 模型。Moonlight 有兩種配置:30 億參數版本和更龐大的 160 億參數版本。兩者都在包含驚人的 5.7 萬億個 token 的龐大數據集上進行了訓練。Moonlight 利用 Muon 來優化其性能,同時最大限度地降低計算成本。

為了進一步提高效率,開發了 Muon 的分佈式版本,採用了 ZeRO-1 風格的優化策略。這種方法通過將優化器狀態分佈在多個設備上來顯著提高內存效率。它還最大限度地減少了通信開銷,這是大規模分佈式訓練中的一個關鍵因素。這些改進最終實現了非常穩定的訓練過程。與先前類似規模的模型相比,Moonlight 以顯著降低的計算足跡實現了最先進的性能。

性能基準測試:Moonlight 表現優於競爭對手

嚴格的性能評估表明,Moonlight 始終優於現有同等規模的最先進模型。這包括備受推崇的模型,如 LLAMA3-3B 和 Qwen2.5-3B。探索模型大小、數據和性能之間關係的縮放定律實驗揭示了 Muon 的一個顯著優勢:它的樣本效率大約是 Adam 的兩倍。這意味著在訓練所需的浮點運算 (FLOP) 數量上大幅減少,同時仍然可以獲得具有競爭力的結果。

Moonlight 的實力擴展到廣泛的基準測試任務。在 MMLU(Massive Multitask Language Understanding)基準測試中,它取得了 70.0 的優異成績,顯著超過了 LLAMA3-3B(54.75)和 Qwen2.5-3B(65.6)。在更專業的基準測試中,例如 MMLU-pro 和 BBH(Big-Bench Hard),Moonlight 分別獲得了 42.4 和 65.2 的分數,進一步突出了其增強的能力。該模型還在 TriviaQA(一個問答基準測試)中表現出強勁的性能,得分為 66.3,優於所有同類模型。

程式碼生成和數學推理:展示多功能性

Moonlight 的能力不僅限於自然語言理解和問答。它在與程式碼相關的任務中也表現出色。在 HumanEval(一個旨在評估程式碼生成能力的基準測試)中,它獲得了 48.1 分。在 MBPP(Mostly Basic Programming Problems,另一個程式碼生成基準測試)中,它獲得了 63.8 分。這些結果證明了它在生成功能程式碼方面的熟練程度,優於具有相似參數數量的其他模型。

在數學推理領域,Moonlight 展示了其卓越的解決問題能力。它在 GSM8K(Grade School Math 8K,一個由小學數學應用題組成的基準測試)中獲得了 77.4 分。在 MATH(一個更具挑戰性的基準測試,專注於高級數學問題)中,它獲得了 45.3 分。這些結果強調了 Moonlight 處理複雜數學推理任務的能力。

多語言能力:在中文任務中表現出色

Moonlight 的能力不僅限於英語。它在中文任務中也表現出強勁的性能。在 C-Eval(一個全面的中文評估套件)中,它獲得了 77.2 分。在 CMMLU(另一個專注於多任務語言理解的中文基準測試)中,它獲得了 78.2 分。這些結果確立了 Moonlight 在多語言處理方面的有效性,展示了其處理不同語言細微差別的能力。該模型在如此多樣化的基準測試中始終表現出色,有力地證明了其強大的泛化能力。它可以適應並在各種任務中表現出色,同時與其前身相比,保持顯著降低的計算成本。

解決可擴展性挑戰並促進未來研究

Muon 中體現的創新直接解決了長期困擾大型語言模型訓練的關鍵可擴展性挑戰。通過結合權重衰減和一致的 RMS 更新,研究人員顯著提高了穩定性和效率。這使得 Moonlight 能夠突破性能界限,同時降低訓練成本。這些進步鞏固了 Muon 作為基於 Adam 的優化器的引人注目的替代方案的地位。它提供了卓越的樣本效率,而無需像 Adam 及其變體通常需要的那樣進行大量調整。

此外,Muon 和 Moonlight 的開源代表了對研究社群的重大貢獻。通過免費提供這些工具,研究人員正在促進對大型模型高效訓練方法的進一步探索和開發。這種開放的方法鼓勵協作並加速該領域的進展,為未來更強大和更易於使用的語言模型鋪平道路。像 Muon 這樣的優化器的持續改進不僅僅是為了構建更大的模型;更是為了更智能地構建它們,充分利用可用資源,並使 AI 研究的前沿成果普及化。