AI 語境競賽:為何 AI 公司爭相投入
包含 OpenAI、Google DeepMind 和 MiniMax 在內,頂尖的 AI 組織正積極投入一場競賽,旨在增加語境長度,這與 AI 模型在單一實例中可以處理的文字量直接相關。人們期許更長的語境長度將能促進更深入的理解、減少幻覺(捏造),並創造更流暢的互動。
對企業而言,這意味著 AI 可以分析完整的合約、偵錯龐大的程式碼庫,或是在不失去語境的情況下總結冗長的報告。人們期待藉由消除像是分塊或檢索增強生成(RAG)等變通方法,AI 工作流程可以變得更順暢、更有效率。
‘大海撈針’ 問題:尋找關鍵資訊
‘大海撈針’ 問題凸顯了 AI 在龐大資料集中識別關鍵資訊(’針’)時面臨的困難。LLM 常常難以識別關鍵細節,導致在各種領域出現效率低下的情況:
搜尋與知識檢索: AI 助理常常難以從廣泛的文件儲存庫中提取最相關的事實。
法律與合規: 律師需要追蹤冗長合約中的條款依賴性。
企業分析: 財務分析師可能會忽略隱藏在複雜報告中的關鍵洞見。
更大的語境視窗有助於模型保留更多資訊,進而減少幻覺、提高準確性,並促成:
跨文件合規檢查: 單一的 256K token 提示可以將完整的政策手冊與新的法規進行比較。
醫療文獻綜述: 研究人員可以利用 128K+ token 視窗來比較數十年研究的藥物試驗結果。
軟體開發: 當 AI 可以掃描數百萬行程式碼而不會失去依賴性時,偵錯效果會有所改善。
金融研究: 分析師可以在單一查詢中分析完整的盈餘報告和市場數據。
客戶支援: 具有更長記憶體的聊天機器人可以提供更符合語境的互動。
增加語境視窗也有助於模型更好地參考相關細節,從而降低產生不正確或捏造資訊的可能性。2024 年史丹佛大學的一項研究發現,在分析合併協議時,與 RAG 系統相比,128K token 模型將幻覺率降低了 18%。
儘管有這些潛在優勢,早期的採用者也回報了一些挑戰。摩根大通的研究表明,模型在約 75% 的語境中表現不佳,且在複雜的金融任務上的效能在超過 32K token 後會崩跌至接近零。模型仍然難以進行遠程回憶,常常優先考慮最近的資料而非更深入的洞見。
這引發了一些關鍵問題:4 百萬 token 的視窗真的能增強推理能力嗎?還是僅僅是記憶體容量的昂貴擴展?模型實際上使用了多少這種龐大的輸入?而這些效益是否勝過不斷上升的計算成本?
RAG vs. 大型提示:經濟上的權衡
檢索增強生成(RAG)結合了 LLM 的功能與檢索系統,後者會從資料庫或文件儲存庫等外部來源提取相關資訊。這使得模型可以根據其先前的知識和動態檢索的資料來產生回應。
隨著公司整合 AI 以執行複雜的任務,他們面臨著一個基本的決定:他們應該使用具有大型語境視窗的大型提示,還是應該依靠 RAG 來即時提取相關資訊?
大型提示: 具有大型 token 視窗的模型會在單一流程中處理所有內容,從而減少了維護外部檢索系統的需求,並捕捉了跨文件的洞見。然而,這種方法在計算上很昂貴,會導致更高的推論成本和增加的記憶體需求。
RAG: RAG 並非一次處理整個文件,而是僅在產生回應之前檢索最相關的部分。這顯著降低了 token 使用量和成本,使其更適合用於實際應用。
推論成本:多步驟檢索 vs. 大型單一提示
雖然大型提示簡化了工作流程,但它們需要更多的 GPU 算力和記憶體,使得它們難以大規模實施。基於 RAG 的方法儘管需要多個檢索步驟,但常常可以降低整體 token 消耗量,從而在不犧牲準確性的情況下降低推論成本。
對大多數企業而言,理想的方法取決於具體的使用案例:
- 需要深入分析文件嗎? 大型語境模型可能是較好的選擇。
- 需要可擴展、具成本效益的 AI 來處理動態查詢嗎? RAG 可能是更明智的選擇。
在以下情況下,大型語境視窗尤其有價值:
- 必須一次分析全文,例如在合約審閱或程式碼稽核中。
- 盡量減少檢索錯誤至關重要,例如在法規遵循中。
- 延遲性不如準確性重要,例如在策略研究中。
根據 Google 的研究,使用 128K token 視窗分析 10 年盈餘記錄的股票預測模型優於 RAG 29%。相反地,GitHub Copilot 的內部測試顯示,對於單一儲存庫移轉,使用大型提示完成任務的速度是 RAG 的 2.3 倍。
大型語境模型的限制:延遲性、成本和可用性
雖然大型語境模型提供了令人印象深刻的功能,但額外語境的效益確實存在限制。隨著語境視窗的擴大,以下三個關鍵因素開始發揮作用:
延遲性: 模型處理的 token 越多,推論速度就越慢。較大的語境視窗可能導致顯著的延遲,尤其是在需要即時回應的情況下。
成本: 計算成本會隨著處理的每個額外 token 而增加。擴展基礎設施以處理這些較大的模型可能會變得非常昂貴,尤其是對於具有大量工作負載的企業而言。
可用性: 隨著語境的擴大,模型有效’關注’最相關資訊的能力會降低。這可能導致效率低下的處理,其中較不相關的資料會影響模型的效能,從而導致準確性和效率的報酬遞減。
Google 的 Infini-attention 技術試圖藉由使用有限的記憶體儲存任意長度語境的壓縮表示來減輕這些權衡。然而,壓縮不可避免地會導致資訊丟失,且模型難以平衡即時資訊和歷史資訊,導致效能下降,並與傳統的 RAG 相比增加了成本。
雖然 4 百萬 token 模型令人印象深刻,但企業應將其視為專業工具,而不是通用解決方案。未來的發展方向在於混合系統,該系統可以根據具體的任務需求,自適應地在 RAG 和大型提示之間進行選擇。
企業應根據推理複雜性、成本考量和延遲性需求,在大型語境模型和 RAG 之間進行選擇。大型語境視窗非常適合需要深入理解的任務,而 RAG 對於更簡單、基於事實的任務而言更具成本效益和效率。為了有效地管理成本,企業應設定明確的成本上限,例如每個任務 0.50 美元,因為大型模型可能會很快變得昂貴。此外,大型提示更適合用於離線任務,而 RAG 系統在需要快速回應的即時應用中表現出色。
像是 GraphRAG 等新興創新可以藉由將知識圖與傳統的向量檢索方法整合,進一步增強這些自適應系統。這種整合改善了對複雜關係的捕捉,從而將細緻推理和答案精度提高了高達 35%(與僅使用向量的方法相比)。Lettria 等公司最近的實施表明準確性有了顯著的提高,從傳統 RAG 的 50% 提高到使用混合檢索系統中的 GraphRAG 後的 80% 以上。
正如 Yuri Kuratov 恰如其分地警告說:’擴展語境而不改善推理能力就像為無法轉向的汽車建造更寬的高速公路。’ AI 的真正未來在於真正理解任何語境大小的關係的模型,而不僅僅是可以處理大量資料的模型。重點在於智能,而不僅僅是記憶體。