Google 近期為其開放 AI 模型系列 ‘Gemma 3’ 推出量化感知訓練 (Quantization-Aware Training, QAT) 模型。此舉旨在解決大型語言模型對運算資源的需求,使其更易於在更廣泛的硬體配置上使用。
認識 Gemma 3
Gemma 3 是 Google 開發的一系列輕量級、高效能的開放權重模型。它建立在與 Google 的 ‘Gemini 2.0’ 模型相同的研究和技術之上。Gemma 3 提供四種參數大小:1B、4B、12B 和 27B。它已確立自己作為一個領先的模型,在高階 GPU(如 NVIDIA H100)上以原生 BFloat16 (BF16) 精度運作。
Gemma 3 的 QAT 模型的一個顯著優勢是它們能夠在大幅降低記憶體需求的同时,維持高品質。這至關重要,因為它允許像 Gemma 3 27B 這樣的高效能模型在消費級 GPU(如 NVIDIA GeForce RTX 3090)上本地執行。
QAT 模型背後的動機
在效能比較中,BF16 經常被使用。然而,在部署大型模型時,有時會使用較低精度的格式(如 FP8 (8-bit))來降低硬體需求(例如 GPU 的數量),即使以效能為代價。目前對於在現有硬體上使用 Gemma 3 的需求很高。
這就是量化發揮作用的地方。在 AI 模型中,量化降低了模型用於儲存和計算回應的數字(模型參數)的精度。這類似於通過減少使用的顏色數量來壓縮圖像。與其用 16 位 (BF16) 表示參數,不如用更少的位元來表示它們,例如 8 位 (INT8) 或 4 位 (INT4)。
然而,量化通常會導致效能下降。為了維持品質,Google 利用了 QAT。QAT 不是在模型完全訓練後量化模型,而是將量化過程整合到訓練本身中。通過在訓練期間模擬低精度運算,QAT 將訓練後的效能下降降至最低。這產生了更小、更快的模型,同時維持了準確性。
大幅節省 VRAM
Google 表示,與使用 BF16 相比,INT4 量化顯著降低了加載模型所需的 VRAM(GPU 記憶體),如下所示:
- Gemma 3 27B:54GB (BF16) 降至 14.1GB (INT4)
- Gemma 3 12B:24GB (BF16) 降至 6.6GB (INT4)
- Gemma 3 4B:8GB (BF16) 降至 2.6GB (INT4)
- Gemma 3 1B:2GB (BF16) 降至 0.5GB (INT4)
這些記憶體佔用空間的減少對於普及對強大 AI 模型的訪問至關重要,允許它們部署在資源有限的設備上。
在各種設備上啟用 Gemma 3 模型
根據 Google 的說法,QAT 使 Gemma 3 的強大模型能夠在各種消費硬體上運行。
Gemma 3 27B (INT4 QAT): 可以舒適地加載並在具有 NVIDIA GeForce RTX 3090 (24GB VRAM) 或同等卡的桌面上本地運行,允許用戶利用最大的 Gemma 3 模型。
Gemma 3 12B (INT4 QAT): 可以高效地在筆記型電腦 GPU 上運行,例如 NVIDIA GeForce RTX 4060 Laptop GPU (8GB VRAM),從而在便攜式機器上啟用強大的 AI 功能。
較小的模型 (4B, 1B): 已經變得更容易在資源有限的系統上使用,例如智慧型手機。
這種硬體兼容性的擴展顯著擴展了 Gemma 3 的潛在應用,使其可供更廣泛的開發人員和用戶使用。在消費級硬體上運行這些模型的能力為本地 AI 處理開闢了新的可能性,減少了對基於雲端的服務的依賴,並提高了隱私。
輕鬆與常用工具整合
Google 確保開發人員可以在熟悉的 workflows 中使用這些新的 QAT 模型。Gemma 3 的 INT4 QAT 和 Q4_0 (4-bit) QAT 模型可在 Hugging Face 和 Kaggle 上獲得。它們可以與流行的開發人員工具無縫測試,例如:
Ollama: 允許用戶使用簡單的指令來運行 Gemma 3 QAT 模型。Ollama 簡化了部署和實驗這些模型的過程,使開發人員更容易將它們整合到他們的專案中。
LM Studio: 提供了一個直觀且易於使用的 GUI (圖形使用者介面),允許用戶輕鬆下載並在其桌面上運行 Gemma 3 QAT 模型。LM Studio 簡化了 AI 模型的安裝和管理,使其更容易為非技術用戶使用。
MLX: 能夠在 Apple silicon 驅動的 Macs 上對 Gemma 3 QAT 模型進行優化和高效的推論。MLX 利用 Apple silicon 的獨特架構,為 AI 工作負載提供增強的效能和能源效率。
Gemma.cpp: Google 專用的 C++ 實作。允許直接在 CPU 上進行非常高效的推論。Gemma.cpp 為想要微調其 AI 應用程式效能的開發人員提供了一個低階介面。
llama.cpp: 原生支援 GGUF 格式的 Gemma 3 QAT 模型,使其易於整合到現有的工作流程中。Llama.cpp 是一個流行的函式庫,用於在各種硬體平台上運行大型語言模型,包括 CPU 和 GPU。
Gemma 3 QAT 模型在這些平台上的可用性以及它們與流行工具的兼容性顯著降低了開發人員想要在其專案中利用這些模型的門檻。這種易於整合鼓勵了實驗和創新,從而為 Gemma 3 帶來了更廣泛的應用。
量化感知訓練的技術基礎
要充分理解 Google 的 Gemma 3 QAT 模型的意義,重要的是要深入研究量化的技術細節,以及 QAT 如何解決與之相關的挑戰。
理解量化:
量化是一種用於通過以較低的精度表示權重和激活來降低神經網路的大小和運算複雜性的技術。量化的模型不是使用浮點數(例如 32 位或 16 位),而是使用整數(例如 8 位或 4 位)來表示這些值。這種精度的降低帶來了幾個好處:
- 減少記憶體佔用: 較低精度的表示形式需要更少的記憶體來儲存模型,從而使模型可以部署在記憶體資源有限的設備上。
- 更快的推論: 整數運算通常比浮點運算快,從而縮短了推論時間。
- 更低的功耗: 整數運算比浮點運算消耗更少的功率,從而使量化的模型更適合於電池供電的設備。
量化的挑戰:
雖然量化提供了顯著的優勢,但它也帶來了挑戰:
- 準確性下降: 降低權重和激活的精度可能會導致準確性損失。模型可能變得不太能夠捕捉資料的細微差別,從而導致效能下降。
- 校準問題: 可以由整數表示的值的範圍是有限的。這可能導致激活的削波或飽和,這會進一步降低準確性。
量化感知訓練 (QAT):一種解決方案:
量化感知訓練 (QAT) 是一種通過將量化整合到訓練過程中來解決準確性下降問題的技術。在 QAT 中,模型在模擬量化的情況下進行訓練,這意味著權重和激活在訓練的前向和後向傳遞中進行量化。這允許模型學習補償量化的影響,從而產生更準確的量化模型。
QAT 如何運作:
模擬量化: 在訓練期間,權重和激活在每次前向和後向傳遞後量化為所需的精度(例如,8 位或 4 位)。這模擬了將在推論期間應用的量化。
梯度調整: 梯度也進行調整以考慮量化的影響。這有助於模型學習如何最小化由量化引起的錯誤。
微調: 在使用模擬量化進行訓練後,使用量化的權重和激活對模型進行微調。這進一步提高了量化模型的準確性。
QAT 的優點:
- 提高準確性: 與訓練後量化 (PTQ) 相比,QAT 顯著提高了量化模型的準確性,後者在模型訓練後對模型進行量化。
- 對量化的魯棒性: QAT 使模型對量化的影響更加魯棒,從而可以在不犧牲準確性的情況下實現更高的壓縮率。
- 硬體兼容性: QAT 允許模型部署在支援整數運算的硬體平台上,例如移動設備和嵌入式系統。
Google 為 Gemma 3 實施 QAT:
Google 為 Gemma 3 實施 QAT 利用了量化技術的最新進展,以實現高準確性和壓縮率。他們的實施的具體細節尚未公開,但他們可能採用了以下技術:
- 混合精度量化: 對模型的不同部分使用不同的精度級別,以優化準確性和壓縮。
- 逐張量量化: 獨立量化每個張量,以最小化由量化引起的錯誤。
- 可學習的量化參數: 在訓練期間學習量化參數,以進一步提高準確性。
QAT 和 Gemma 3 的更廣泛影響
為 Gemma 3 發布 QAT 模型代表了開發更易於訪問和高效的 AI 模型的重要一步。通過減少這些模型的記憶體佔用和運算需求,Google 正在使更廣泛的開發人員和用戶能夠利用它們的功能。這具有幾個重要的影響:
AI 的民主化:
在消費級硬體上運行強大的 AI 模型的能力使 AI 的訪問民主化,使個人和小企業能夠開發和部署 AI 驅動的應用程式,而無需依賴昂貴的基於雲端的服務。
邊緣運算:
QAT 模型非常適合邊緣運算應用,其中資料在設備本地處理,而不是在雲端處理。這減少了延遲,提高了隱私,並啟用了新的應用,例如自動駕駛汽車和智慧感測器。
移動 AI:
QAT 模型減少的記憶體佔用使其成為移動設備的理想選擇,從而實現了新的 AI 驅動的功能,例如即時翻譯、圖像識別和個性化推薦。
研究與開發:
Gemma 3 的開源 QAT 模型的可用性將加速 AI 領域的研究和開發,允許研究人員試驗新的量化技術並探索量化模型的新應用。
環境可持續性:
通過降低 AI 模型的能耗,QAT 有助於環境可持續性。隨著 AI 在我們的生活中變得越來越普遍,這一點尤其重要。
總之,Google 為 Gemma 3 發布 QAT 模型是一項重大進步,將對 AI 領域產生持久的影響。通過使 AI 模型更易於訪問、高效和可持續,Google 正在幫助釋放 AI 的全部潛力,以造福社會。Gemma 3 強大的架構和 QAT 高效的量化技術的結合有望推動從移動設備到邊緣運算等廣泛應用的創新。