Gemma 3n：裝置端推理與 RAG、函式呼叫革新 | zh-TW

Google 推出了 Gemma 3n，這是一款劃時代的多模態小型語言模型，現在已經可以在創新的 LiteRT Hugging Face 社群中進行預覽，同時還有先前推出的一系列模型。Gemma 3n 的設計旨在處理各種不同的輸入，包括文字、圖像、視訊和音訊。此外，它還能促進微調、透過檢索增強生成 (RAG) 進行客製化，以及函式呼叫，所有這些都由新型 AI Edge SDKs 提供支援。

Gemma 3n：揭示內在的力量

Gemma 3n 提供兩種不同的參數變體：Gemma 3n 2B 和 Gemma 3n 4B。這兩種迭代版本都配備了處理文字和圖像輸入的能力，根據 Google 的預測，音訊支援預計將在不久的將來整合。與今年早些時候首次亮相的非多模態 Gemma 3 1B 相比，這代表了規模上的重大飛躍，Gemma 3 1B 僅需 529MB 即可在行動 GPU 上管理每秒 2,585 個 tokens，令人印象深刻。

根據 Google 的技術規格，Gemma 3n 利用選擇性參數激活，這是一種專為高效參數管理而設計的創新技術。這意味著這兩個模型包含的參數數量，比推理期間主動使用的 2B 或 4B 更多。這種策略性方法可優化資源利用率並增強效能。

微調和量化：釋放客製化能力

Google 強調開發人員可以微調基礎模型，然後使用 Google AI Edge 提供的尖端量化工具對其進行轉換和量化。這使開發人員能夠針對特定應用客製化模型，並優化其效能特徵。

RAG 整合：利用情境資料豐富語言模型

作為微調的替代方案，Gemma 3n 模型可以部署用於裝置端檢索增強生成 (RAG)，這是一種利用應用程式特定資料豐富語言模型的方法。這種增強功能由 AI Edge RAG 庫提供便利，目前僅適用於 Android，但計劃擴展到其他平台。

RAG 庫透過由幾個關鍵階段組成的簡化流程運作：

資料導入： 將相關資料擷取到系統中。
分塊和索引： 分割和組織資料，以便有效檢索。
嵌入生成： 建立資料的向量表示，以便進行語意理解。
資訊檢索： 根據使用者查詢識別和提取相關資訊。
回應生成： 使用 LLM 製作連貫且與情境相關的回應。

這個強大的框架能夠全面客製化 RAG 流程，包括支援自訂資料庫、分塊策略和檢索函式。

AI Edge 裝置端函式呼叫 SDK：彌合模型和現實世界操作之間的差距

在推出 Gemma 3n 的同時，Google 也推出了 AI Edge 裝置端函式呼叫 SDK，最初僅在 Android 上提供。這個 SDK 使模型能夠調用特定的函式，從而執行現實世界的操作。

為了將 LLM 與外部函式無縫整合，必須透過指定函式的名稱、描述性敘述來解釋 LLM 何時應該使用它，以及必要的參數來仔細描述該函式。這種中繼資料封裝在 Tool 物件中，然後透過 GenerativeModel 建構子傳遞給大型語言模型。函式呼叫 SDK 包含支援從 LLM 接收基於所提供描述的函式呼叫，並將執行結果傳輸回 LLM。

探索潛力：Google AI Edge Gallery

對於那些渴望深入研究這些突破性工具的人來說，Google AI Edge Gallery 是一個寶貴的資源。這個實驗性應用程式展示了各種模型，並促進文字、圖像和音訊處理。

更深入的探討：Gemma 3n 及其生態系統的細微差別

Gemma 3n 的出現標誌著裝置端機器學習發展的重大進展，提供了效率、適應性和功能的強大組合。其多模態功能，加上對 RAG 和函式呼叫的支援，為尋求建立智慧型和情境感知應用程式的開發人員釋放了無數的可能性。

選擇性參數激活：深入探討

Gemma 3n 採用的選擇性參數激活技術值得更仔細的審視。這種創新的方法允許模型動態激活僅對於給定任務必要的參數，從而最大限度地減少計算開銷並最大限度地提高效率。這對於裝置端部署尤其重要，因為裝置端部署的資源通常受到限制。

選擇性參數激活背後的根本原則在於觀察到，並非神經網路中的所有參數對於所有任務都同等重要。透過僅選擇性地激活最相關的參數，模型可以以顯著降低的計算成本實現可比較的效能。

選擇性參數激活的實作通常涉及一種用於確定要為給定輸入激活哪些參數的機制。這可以透過各種技術實現，例如：

注意力機制： 注意輸入中最相關的部分，並激活相應的參數。
閘控機制： 使用閘控函式來控制資訊流經網路不同部分。
稀疏訓練： 訓練網路以學習稀疏連線，以便在推理期間只有參數的子集處於活動狀態。

技術的選擇取決於模型的特定架構和任務的特性。然而，總體目標是識別和激活僅對於給定輸入最相關的參數，從而降低計算成本並提高效率。

RAG：增強知識和情境

檢索增強生成 (RAG) 代表語言模型使用方式的典範轉移。透過整合外部知識來源，RAG 使語言模型能夠產生更明智、更準確且與情境相關的回應。

RAG 流程包括幾個關鍵階段：

資料索引： 在此階段，將外部知識來源編制索引，以便有效檢索相關資訊。這通常涉及建立知識來源中每個文檔的向量表示，然後可用於快速識別與給定查詢相似的文檔。
資訊檢索： 收到查詢時，RAG 系統會從索引的知識來源中檢索最相關的文檔。這通常使用相似性搜尋演算法完成，該演算法將查詢的向量表示與知識來源中文檔的向量表示進行比較。
情境化： 然後，將檢索到的文檔用於增強查詢的情境。可以透過簡單地將檢索到的文檔連接到查詢來完成此操作，或者透過使用更複雜的技術將檢索到的文檔中的資訊整合到查詢表示中來完成此操作。
回應生成： 最後，將增強的查詢輸入到語言模型中，該模型會根據查詢中的組合資訊和檢索到的文檔產生回應。

RAG 比傳統語言模型具有多個優勢：

提高準確性： 透過納入外部知識，RAG 模型可以產生更準確和基於事實的回應。
改進的情境理解： RAG 模型可以透過利用檢索到的文檔中的資訊來更好地理解查詢的情境。
減少幻覺： RAG 模型不太可能產生幻覺或產生無意義的回應，因為它們植根於外部知識。
適應新資訊： RAG 模型可以透過簡單地更新索引的知識來源來輕鬆適應新資訊。

函式呼叫：與現實世界互動

AI Edge 裝置端函式呼叫 SDK 代表實現語言模型與現實世界互動的重要一步。透過允許模型調用外部函式，SDK 為建立智慧型和情境感知應用程式釋放了廣泛的可能性。

函式呼叫流程通常涉及以下步驟：

函式定義： 開發人員定義語言模型可以調用的函式。這包括指定函式的名稱、函式作用的描述以及函式接受的參數。
工具物件建立： 開發人員建立一個 Tool 物件，該物件封裝函式定義。然後將此物件傳遞給語言模型。
函式呼叫生成： 當語言模型需要執行現實世界的操作時，它會生成函式呼叫。此呼叫包括要調用的函式的名稱和要傳遞給函式的參數值。
函式執行： 然後由系統執行函式呼叫。這通常涉及調用相應的 API 或服務。
結果傳輸： 然後將函式執行的結果傳輸回語言模型。
回應生成： 最後，語言模型使用函式執行的結果產生回應。

函式呼叫 SDK 使語言模型能夠執行各種各樣的任務，例如：

從外部來源存取資訊： 模型可以呼叫函式來從資料庫、API 和其他外部來源檢索資訊。
控制裝置和設備： 模型可以呼叫函式來控制智慧家庭裝置，例如燈、恆溫器和設備。
執行交易： 模型可以呼叫函式來執行金融交易，例如付款和轉帳。
自動化任務： 模型可以呼叫函式來自動化複雜任務，例如安排約會和傳送電子郵件。

Google AI Edge Gallery：創新展示

Google AI Edge Gallery 作為展示 Gemma 3n 及其相關工具功能的關鍵平台。透過提供一個互動式環境，讓開發人員可以試用這些技術，圖庫可促進創新並加速新應用程式的開發。

該圖庫提供各種模型和示範，展示了 Gemma 3n 在各種任務中的潛力，例如：

圖像識別： 識別圖像中的物件和場景。
自然語言處理： 理解和產生人類語言。
語音識別： 將口語轉錄為文字。
音訊處理： 分析和操作音訊訊號。

該圖庫還提供對 AI Edge SDKs 的存取，使開發人員能夠將這些技術整合到他們自己的應用程式中。

裝置端機器學習的未來

Gemma 3n 及其隨附生態系統的出現，預示著裝置端機器學習的新時代。透過結合效率、適應性和功能，Gemma 3n 使開發人員能夠建立智慧型和情境感知應用程式，這些應用程式可以直接在裝置上執行，而無需持續的網際網路連線。

這對各個產業產生了深遠的影響，包括：

行動： 實現更智慧和更靈敏的行動應用程式。
物聯網： 為可以獨立自主運作的智慧裝置提供動力。
汽車： 提高自動駕駛汽車的安全性和便利性。
醫療保健： 提高醫療診斷和治療的準確性和效率。

隨著裝置端機器學習技術的不斷發展，我們可以期望在未來幾年看到更多創新和具有影響力的應用程式出現。Gemma 3n 代表了這段旅程中的一個重要步驟，為智慧無縫整合到我們日常生活中的未來鋪平了道路。

更新於 2025-05-31

# Google # Gemma # RAG