微軟 1-Bit LLM:高效能 GenAI 新紀元

在人工智慧蓬勃發展的時代,微軟研究院的一項突破性進展有望重新定義生成式 AI 的可及性和效率。他們近期發表的論文介紹了 BitNet b1.58 2B4T,這是一個開創性的大型語言模型 (LLM),其獨特之處在於它使用「1-bit」權重或更精確地說是 1-trit 權重進行原生訓練。這種創新的方法標誌著與傳統方法的背離,傳統方法依賴於對最初以全精度訓練的模型進行量化。

克服傳統 LLM 的局限性

傳統的 LLM 儘管性能卓越,但仍面臨阻礙其廣泛採用的重大障礙。這些限制主要來自於它們龐大的記憶體佔用、可觀的能源消耗和顯著的推理延遲。因此,在邊緣設備、資源受限的環境中以及對於即時應用程式而言,部署這些模型變得不切實際。

為了減輕這些挑戰,人工智慧社群越來越多地將注意力放在探索量化模型上。這些模型是透過將權重轉換為較低的位元格式,從全精度對應物衍生而來。雖然量化提供了一種減少模型大小和計算需求的途徑,但它通常以精度損失為代價,從而可能損害模型的準確性和整體性能。

BitNet b1.58 2B4T 架構

BitNet b1.58 2B4T 代表了 LLM 設計中的範式轉變,它通過使用 1-bit 權重從頭開始訓練模型,從而規避了與量化相關的精度損失。這種方法允許模型保留較小權重的優勢,包括減少記憶體佔用和降低計算成本。

微軟研究人員透過在一個包含 4 兆個 tokens 的龐大語料庫上訓練 BitNet b1.58 2B4T 來實現這個雄心勃勃的目標。這種廣泛的訓練數據集確保了模型可以有效地學習複雜的語言模式,並對人類溝通的細微差別有全面的理解。

性能評估和基準測試

為了評估 BitNet b1.58 2B4T 的有效性,微軟進行了嚴格的基準測試,將其性能與類似大小的領先開放權重、全精度模型進行了比較。結果顯示,新模型在廣泛的任務中表現相當,包括語言理解和推理、世界知識、閱讀理解、數學和程式碼,以及指令跟隨和對話。

這些發現強調了 1-bit LLM 在實現與其全精度對應物相同的性能的潛力,同時在效率和資源利用方面提供了顯著的優勢。

關鍵架構創新

BitNet b1.58 2B4T 的核心在於其創新的架構,該架構將標準全精度線性層替換為客製化的 BitLinear 層。這些層在正向傳遞過程中使用 1.58-bit 表示將權重編碼為三元值 (trits)。

使用三元值(表示為 {-1, 0, +1})可以大幅減少模型大小並促進高效的數學運算。這是通過一種絕對平均值 (absmean) 量化方案實現的,該方案將權重映射到這些三元值。

除了 BitLinear 層之外,BitNet b1.58 2B4T 還整合了幾種已建立的 LLM 技術,例如平方 ReLU 激活函數、旋轉位置嵌入和偏差項移除。這些技術進一步有助於減小模型的大小並提高訓練穩定性。

提高訓練穩定性和效率

在 BitLinear 層中採用的另外兩項技術——激活量化和歸一化——在減小模型的大小和提高訓練穩定性方面發揮了關鍵作用。激活量化降低了激活的精度,而歸一化技術有助於防止激活變得太大或太小。

這些技術與 1-bit 權重的使用相結合,使 BitNet b1.58 2B4T 能夠更有效和高效地進行訓練,即使在大型數據集上也是如此。

訓練方法

對於訓練,BitNet b1.58 2B4T 利用了三種關鍵技術:大規模預訓練、監督式微調和直接偏好優化。

大規模預訓練

這個初始階段涉及在包含大量文本和程式碼的數據集上訓練模型,使其能夠學習一般的語言模式並發展對世界的廣泛理解。

監督式微調

在這個階段,模型在一個更小、更具體的數據集上進行微調,該數據集專為特定任務或領域而設計。這允許模型根據任務的特定要求調整其知識和技能。

直接偏好優化

這項技術涉及訓練模型直接針對人類偏好進行優化,這些偏好透過回饋或評級來表達。這有助於確保模型的輸出與人類的價值觀和期望保持一致。

研究人員指出,未來將探索更先進的技術,例如近端策略優化或群體相對策略優化,以提高數學能力和鏈式思維推理能力。

Bitnet.cpp 推理函式庫

鑒於 BitNet b1.58 2B4T 獨特的量化方案,該模型無法與像 llama.cpp 這樣的標準深度學習函式庫一起使用,並且需要一個專用的核心。為了應對這個挑戰,微軟開發了一個開源的專用推理函式庫,bitnet.cpp。

bitnet.cpp 充當 1-bit LLM(例如 BitNet b1.58)的官方推理框架。它提供了一套優化的核心,支援在 CPU 上對 1.58-bit 模型進行快速且無損的推理,並計劃在未來將支援範圍擴展到 NPU 和 GPU。

這個推理函式庫對於在更廣泛的設備和平台上啟用 BitNet b1.58 2B4T 的部署至關重要,使其對開發人員和研究人員更具可及性。

未來研究方向

研究人員承認,目前的 GPU 硬體並未針對 1-bit 模型進行優化,並且透過整合用於低位元運算的專用邏輯可以實現進一步的性能提升。這表明未來的硬體架構可能會專門設計用於支援 1-bit LLM,從而實現更高的效率和性能。

除了硬體優化之外,未來的研究方向還包括訓練更大的模型、添加多語言能力和多模態整合,以及擴展上下文窗口長度。這些進步將進一步增強 BitNet b1.58 2B4T 和其他 1-bit LLM 的能力和多功能性。

影響和潛在影響

BitNet b1.58 2B4T 的開發對人工智慧的未來,尤其是在生成式 AI 領域,具有重大的影響。透過證明僅使用 1-bit 權重訓練高性能 LLM 是可能的,微軟為創建更有效率和可及的人工智慧系統開闢了新的可能性。

這項突破可能會導致在更廣泛的設備上部署 AI 模型,包括智慧型手機、物聯網設備和其他資源受限的平台。它還可以促進開發更節能的人工智慧系統,從而減少其對環境的影響。

此外,使用 1-bit 權重訓練 LLM 的能力可以更輕鬆地為特定應用客製化和個人化 AI 模型。這可能會導致開發更有效且使用者友好的人工智慧系統,這些系統針對個別使用者和組織的獨特需求量身定制。

結論

微軟的 BitNet b1.58 2B4T 代表了在追求更有效和可及的人工智慧方面向前邁出的重要一步。透過證明僅使用 1-bit 權重訓練高性能 LLM 是可能的,微軟挑戰了傳統觀念,並為人工智慧的未來開闢了新的可能性。

隨著該領域的研究不斷發展,我們可以期待看到更多 1-bit LLM 的創新應用,從而實現人工智慧更加普及、高效且對整個社會有益的未來。