微軟研究:知識注入LLM的新途徑

知識整合的新架構

微軟的研究部門率先提出了一種突破性的方法,可將外部知識整合到大型語言模型 (LLM) 中。這個名為 Knowledge Base-Augmented Language Models (KBLaM) 的創新系統採用了「即插即用」的理念,無需更改預先存在的模型。這代表著與傳統技術的重大不同,為知識增強提供了一種更精簡、更有效的方法。

脫離傳統方法

目前的方法,例如 Retrieval-Augmented Generation (RAG) 和 In-Context Learning,通常依賴單獨的檢索機制來存取和整合外部資訊。相比之下,KBLaM 避開了這些外部系統。它巧妙地將知識轉換為向量對,通過微軟稱為「矩形注意力」的新技術,將它們無縫地編織到模型的核心架構中。

這種將知識直接整合到模型本身中,繞過外部檢索過程的做法,可以顯著加快回應速度並提高效率。這是優於傳統系統的一個關鍵優勢,傳統系統由於需要查詢外部資料庫,經常受到延遲和計算開銷的影響。

解決二次方擴展問題

現有的 RAG 系統經常受到二次方擴展問題的阻礙,這是其自注意力機制的固有結果。這種機制要求每個 token 都與其他每個 token 交互,導致隨著輸入大小的增加,計算需求呈指數級增長。

為了說明這一點,請考慮這樣一種情況:將來自知識庫的 1,000 個 token 引入到上下文中。然後,模型被迫處理驚人的一百萬個 token 對。如果 token 數量增加到 10,000 個,計算負擔將激增到 1 億次交互。這種二次方擴展迅速成為瓶頸,限制了 RAG 系統在大型知識庫中的實際應用。

矩形注意力的效率

KBLaM 優雅地避開了這個計算困境。其創新的「矩形注意力」機制允許使用者的輸入存取所有知識 token,但關鍵的是,這些知識 token 不會相互交互或與輸入交互。這種策略性的設計選擇對可擴展性產生了深遠的影響。

隨著知識庫的擴展,所需的計算能力僅線性增加,這與傳統方法的二次方擴展形成鮮明對比。KBLaM 背後的研究人員斷言,單個 GPU 可以輕鬆處理超過 10,000 個知識三元組,相當於大約 200,000 個 token。這代表著知識整合效率的重大飛躍。

有希望的實驗結果

KBLaM 的初步測試產生了令人鼓舞的結果。在涉及大約 200 個知識項目的實驗中,與傳統模型相比,KBLaM 表現出更強的減輕幻覺(產生錯誤或無意義資訊)的能力。

此外,KBLaM 表現出更大的傾向,即對於缺乏足夠資訊的問題不予回答。這種「認知謙遜」是 LLM 中一個理想的特徵,因為它可以提高準確性和可信度。

KBLaM 的另一個顯著優勢是其增強的透明度。與 In-Context Learning 不同,KBLaM 可以輕鬆地將特定知識元素連結到相應的 token,從而更深入地了解模型的推理過程。

開源可用性和未來方向

KBLaM 背後的程式碼和資料集已在 GitHub 上公開發布,促進了社群內的協作和進一步研究。該系統設計為與幾個廣泛使用的模型相容,包括 Meta 的 Llama 3 和微軟自己的 Phi-3。還有計劃擴展對 Hugging Face Transformers 的支持,這是一個用於構建和部署 LLM 的流行平台。

雖然初步結果令人鼓舞,但研究人員強調 KBLaM 尚未成熟到可以廣泛部署的程度。它擅長處理簡單的問答場景,但需要進一步開發才能處理更複雜的推理任務。

上下文窗口的悖論與 RAG 的興起

LLM 面臨一個有趣的悖論:它們的上下文窗口(它們一次可以處理的資訊量)正在不斷擴大,但可靠地處理這種快速增長的數據量仍然是一個巨大的挑戰。

這一挑戰已將 Retrieval-Augmented Generation (RAG) 推到了最前沿,成為以合理的可靠性將特定資訊注入模型的首選解決方案。RAG 系統充當中間人,從外部來源檢索相關資訊並將其輸入 LLM,從而增強其知識和準確性。

KBLaM:潛在的範式轉移

然而,KBLaM 提出了一個引人注目的替代方案,暗示了一條可能更有效、更優雅的前進道路。通過將知識直接整合到模型的架構中,KBLaM 提供了更快、更具可擴展性和更透明的知識增強型 LLM 的前景。

深入探討 KBLaM 的機制

KBLaM 的核心創新在於其「矩形注意力」機制。要理解這一點,首先考慮許多 LLM 採用的標準自注意力機制會有所幫助。

在自注意力機制中,輸入序列中的每個 token 都會關注其他每個 token,包括它自己。這允許模型捕獲輸入不同部分之間的關係,但它也會導致前面提到的二次方擴展問題。

相比之下,矩形注意力將注意力過程分為兩個不同的部分:

  1. 使用者輸入注意力: 使用者的輸入關注所有知識 token,允許模型從知識庫中存取相關資訊。
  2. 知識 Token 注意力: 知識 token 關注彼此或使用者輸入。這是 KBLaM 效率的關鍵。

通過防止知識 token 之間的交互,KBLaM 大大減少了所需的計算量。這使得模型可以隨著知識庫的大小線性擴展,從而可以整合大量的外部資訊。

直接知識整合的好處

將知識直接整合到模型的架構中具有以下幾個優點:

  • 減少延遲: 因為 KBLaM 不依賴外部檢索系統,所以它的回應速度比基於 RAG 的模型快得多。
  • 提高效率: KBLaM 的線性擴展使其在計算上比傳統方法更有效率。
  • 增強透明度: KBLaM 可以將知識連結到特定的 token,從而更容易理解模型是如何得出答案的。
  • 減少幻覺: KBLaM 已經顯示出更強的避免產生錯誤或無意義資訊的能力。

局限性和未來研究

雖然 KBLaM 代表了一項重大進步,但重要的是要承認其當前的局限性:

  • 複雜推理: KBLaM 目前最適合簡單的問答任務。需要更多的研究來將其能力擴展到更複雜的推理場景。
  • 知識表示: KBLaM 的當前實現使用知識三元組,這可能不適用於所有類型的知識。探索替代的知識表示形式是未來工作的領域。
  • 實際部署: KBLaM 仍然是一個研究項目,尚未準備好進行廣泛部署。在將其用於實際應用之前,需要進行進一步的測試和改進。

對人工智慧領域的更廣泛影響

KBLaM 的發展對更廣泛的人工智慧領域具有重大影響。它代表著朝著創建不僅強大而且具有以下特點的 LLM 邁出了一步:

  • 更博學: 通過有效地整合大量外部知識,KBLaM 可以增強 LLM 的事實準確性和全面性。
  • 更可靠: KBLaM 降低的幻覺率和提高的透明度有助於提高可靠性和可信度。
  • 更具可擴展性: KBLaM 的線性擴展為構建可以處理真正大量資訊的 LLM 開闢了可能性。

KBLaM 和類似方法的持續研究和開發有望進一步模糊 LLM 和知識庫之間的界限,為新一代既智慧又博學的人工智慧系統鋪平道路。該項目的開源性質鼓勵協作並加速了這個令人興奮的領域的創新步伐。