序列處理的潮流轉變:超越 Transformer 的限制
多年來,序列模型領域,尤其是在自然語言處理方面,一直被自回歸 Transformer 架構的成功所主導。它們在上下文學習(in-context learning)方面卓越的能力,加上 softmax attention 機制在訓練階段所促進的內在平行性,鞏固了它們作為主流範式的地位。然而,這種主導地位伴隨著相當大的代價。其核心計算引擎 softmax attention,在輸入序列長度方面表現出二次方擴展行為(quadratic scaling behavior)。此特性直接轉化為不斷升級的計算開銷和龐大的記憶體需求,構成了一個顯著的瓶頸,尤其是在處理現代應用中常見的長序列時,例如文件摘要、長篇問答或基因組分析。
雖然精密的 GPU 優化已設法在訓練期間針對較短序列長度緩解了部分壓力,但推論(inference)階段——即模型在真實世界場景中部署的階段——仍然以資源密集和昂貴著稱,尤其是在大規模運作時。Attention 的二次方特性意味著,在推論期間,將序列長度加倍會使計算量和記憶體佔用增加四倍,這使得在長上下文(long contexts)上部署非常大型的 Transformer 模型在許多情況下變得經濟上具有挑戰性或技術上不可行。
認識到這些根本限制,研究人員持續探索替代的架構途徑。一個特別有前景的方向涉及重新審視和復興循環神經網絡(RNN)設計。現代 RNN 方法旨在納入壓縮狀態機制(compressive state mechanisms)。這些狀態封裝了來自序列的相關歷史資訊,允許模型以相對於序列長度的線性計算複雜度(linear computational complexity)運作,並且至關重要的是,在推論期間無論序列變得多長,都能維持恆定的記憶體使用量(constant memory usage)。對於長序列任務而言,此特性提供了相較於 Transformer 的引人注目的優勢。近期在線性 attention 近似和狀態空間模型(SSMs)等領域的進展已展現出巨大潛力。諸如 RWKV-4 等架構作為值得注意的範例脫穎而出,展示了具競爭力的效能水平,同時大幅降低了與推論相關的計算負擔,暗示了一條超越標準 attention 二次方限制的可行前進道路。
介紹 RWKV-7 ‘Goose’:循環架構效能的新基準
基於此基礎並推動循環架構的界限,一項涉及來自不同機構研究人員的合作努力,包括 RWKV Project、EleutherAI、清華大學等,最終促成了 RWKV-7,代號 ‘Goose’ 的開發。這種新穎的序列模型架構代表了一次重大飛躍,在廣泛的多語言任務中,尤其是在 30 億參數規模上,建立了新的最先進(SoTA)效能基準。
RWKV-7 成就中最引人注目的方面之一是其卓越的效率。儘管相較於許多領先的當代模型,RWKV-7 是在顯著較小的 tokens 語料庫上訓練的,但它提供的英語語言處理能力與其更大、更耗費數據的對手相比,具有高度競爭力。也許更重要的是,它在實現這一點的同時,忠實地遵循了先進 RNN 的核心效率原則:恆定的記憶體消耗和每個 token 一致的推論時間,無論正在處理的序列長度如何。這使得 RWKV-7 對於既要求高效能又要求資源節約的應用,尤其是在處理長上下文時,成為一個極具吸引力的選擇。
RWKV-7 所體現的進步源於幾項關鍵的架構創新,這些創新擴展並精煉了其前身的原則。該模型納入了一個精密的向量值狀態門控機制(vector-valued state gating mechanism),允許對循環狀態內的資訊流進行更細緻的控制。此外,它引入了自適應上下文學習率(adaptive in-context learning rates),使模型能夠根據即時上下文動態調整其學習過程,可能增強其捕捉複雜依賴關係的能力。在其核心循環更新規則內,一個精煉的值替換機制(value replacement mechanism),擴展了 delta rule 概念,進一步提升了模型的表達能力和進行複雜模式識別的能力。
這些增強不僅僅是經驗上的改進;它們賦予 RWKV-7 理論上的能力,超越了在典型複雜度假設下通常與標準 Transformer 相關的能力。研究人員提供的證據表明,RWKV-7 可以有效地追蹤複雜狀態,並且重要的是,識別整個正規語言類別(recognize the entire class of regular languages),這對於沒有專門修改或可能需要過高計算擴展的普通 Transformer 來說,被認為是一項挑戰。
為了強調他們對開放科學和協作進步的承諾,研究團隊不僅發布了架構細節,還發布了一套預訓練的 RWKV-7 模型。這些模型的規模從靈活的 0.19 億參數到強大的 2.9 億參數不等,滿足了不同的計算預算和應用需求。伴隨這些模型的是一個龐大的 3.1 兆 token 多語言語料庫,稱為 RWKV World v3,它在訓練模型中發揮了重要作用,其本身也是社群的寶貴資源。所有這些貢獻,包括模型權重和底層程式碼庫,都在寬鬆的 Apache 2.0 開源授權下提供,促進了廣泛的採用、審查和進一步開發。
架構深入探討:驅動 RWKV-7 的引擎
RWKV-7 的設計哲學建立在 RWKV-6 奠定的堅實基礎之上,繼承了諸如用於改進時間建模的 token-shift、用於精煉類 attention 行為的 bonus 機制,以及高效的 ReLU² 前饋網絡結構等特性。然而,’Goose’ 迭代引入了幾個關鍵的增強功能,共同提升了其能力。
- 向量值狀態門控(Vector-Valued State Gating): 與較簡單的純量門控不同,RWKV-7 採用向量門控。這允許循環狀態內的不同通道或維度被獨立地更新和調節,從而對資訊如何隨時間持續或衰減提供了更精細的控制。這種增加的粒度增強了模型管理複雜、多方面上下文資訊的能力。
- 自適應上下文學習率(Adaptive In-Context Learning Rates): 一種新穎的機制允許模型用於上下文吸收的內部「學習率」根據正在處理的 tokens 動態調整。這表明模型可以加強對新穎或令人驚訝資訊的關注,同時可能降低冗餘輸入的權重,從而實現更有效的學習和狀態表示。
- 精煉的 Delta Rule 公式(Refined Delta Rule Formulation): 負責整合過去資訊的核心時間混合塊(time-mixing block),其 delta rule 得到了顯著的精煉。這涉及傳入 tokens 和循環狀態之間的複雜交互,使用可訓練矩陣(以模型維度 D 表示)進行複雜的轉換。該過程包括使用低秩多層感知器(MLPs)進行權重準備以提高效率。控制狀態演變的關鍵組件包括:
- 替換鍵(Replacement Keys): 決定要更新的狀態部分。
- 衰減因子(Decay Factors): 控制過去資訊衰減的速度。
- 學習率(Learning Rates): 根據當前輸入調節更新的強度。
- 加權鍵值(Weighted Key-Value, WKV)機制: 此機制是 RWKV 架構線性 attention 近似的核心。它基於從輸入序列派生的鍵和值之間的加權交互,促進動態狀態轉換,有效地充當一個複雜的遺忘門,允許模型根據相關性選擇性地保留或丟棄過去的資訊。
- 表達能力增強(Expressivity Enhancements): RWKV-7 在某些組件中納入了逐通道修改(per-channel modifications)並利用了雙層 MLP 結構。這些變更不僅旨在增加模型的表示能力,而且旨在改善訓練和推論期間的計算穩定性和數值精度,同時仔細保留 RNN 設計中固有的關鍵狀態追蹤能力。
RWKV-7 的訓練方案利用了新編譯的 RWKV World v3 語料庫。這個包含超過 3 兆 tokens 的龐大數據集經過精心策劃,不僅旨在提升模型在英語方面的熟練度,還顯著增強了其在各種其他語言和程式碼方面的能力,反映了對真正多語言和具備程式碼意識的基礎模型日益增長的需求。
此外,該研究為 RWKV-7 的能力提供了理論基礎。研究提供了證明,展示其解決被認為超出複雜度類別 TC₀ 範圍問題的能力,這些問題包括 S₅ 狀態追蹤(管理 5 個元素的排列)和前述的識別所有正規語言。這種理論優勢表明,RWKV-7 可能比傳統 Transformer 架構更自然、更有效地處理某些類型的結構化或演算法任務。架構設計的一個有趣的實際成果是提出了一種具成本效益的升級路徑。這種方法可能允許在無需從頭開始進行完整、昂貴的重新訓練週期的情況下,增強現有的 RWKV 模型以納入新的架構改進,從而促進更敏捷和漸進的模型開發。
衡量 ‘Goose’:跨多樣基準的效能
為了嚴格評估 RWKV-7 的能力,這些模型使用了廣泛採用的 LM Evaluation Harness 進行了廣泛的評估。該框架提供了一套標準化的基準測試套件,涵蓋了廣泛的語言理解和生成任務。評估範圍涵蓋了以英語為中心的基準測試和各種多語言挑戰。
結果描繪了一幅關於 RWKV-7 實力的引人注目的畫面。在眾多基準測試中,RWKV-7 模型展現出的效能水平與已建立的最先進模型(包括著名的基於 Transformer 的架構)相比,具有高度競爭力。考慮到與許多競爭對手相比,RWKV-7 使用的訓練 tokens 數量顯著較少,這一點尤其值得注意。例如,在具有挑戰性的 MMLU(Massive Multitask Language Understanding) 基準測試中,RWKV-7 相較於其前身 RWKV-6 顯示出顯著的改進。其在多語言任務中的進步更為顯著,直接反映了從廣泛且多樣化的 RWKV World v3 訓練語料庫中獲得的益處。
除了標準化的學術基準測試外,評估還納入了使用近期互聯網數據的評估。這些測試旨在衡量模型處理和推理最新資訊的能力,證實了其在處理當代知識和語言用法方面的有效性。
評估期間突顯的具體優勢包括:
- 聯想回憶(Associative Recall): 模型展現了基於相關線索回憶資訊的強大能力,這是涉及知識檢索和推理任務的關鍵能力。
- 機制化架構設計(Mechanistic Architecture Design): 評估隱含地驗證了 RWKV-7 中特定架構選擇的有效性,顯示了它們對整體效能的貢獻。
- 長上下文保留(Long-Context Retention): 雖然受益於恆定的記憶體使用量,該模型在擴展序列長度上保留和利用資訊方面也展現了實際能力,這對於需要長距離依賴建模的任務至關重要。
至關重要的是,這些效能成就是以卓越的計算效率實現的。儘管與某些行業巨頭相比,在可用訓練資源方面受到限制,RWKV-7 在訓練期間所需的浮點運算次數(FLOPs) 少於幾個規模相當的領先 Transformer 模型,同時取得了強勁的基準分數。這突顯了其參數效率及其線性擴展循環設計的內在優勢。SoTA 級別的效能(尤其是在多語言方面)與卓越的計算節約相結合,使 RWKV-7 在序列模型領域成為一個強大而實用的替代方案。
應對當前障礙與展望未來
儘管 RWKV-7 架構取得了令人印象深刻的成就並具有內在優勢,但與任何複雜技術一樣,它並非沒有局限性和未來需要改進的領域。研究人員公開承認了幾個挑戰:
- 數值精度敏感性(Numerical Precision Sensitivity): 模型計算的某些方面可能對數值精度敏感,可能需要仔細的實作和處理,尤其是在較低精度格式(如 bfloat16)下進行訓練時,以維持穩定性和效能。
- 缺乏指令微調(Lack of Instruction Tuning): 發布的 RWKV-7 模型在其推出時,尚未經過大規模的指令微調(instruction tuning)或基於人類回饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)。這意味著它們在零樣本(zero-shot)方式下遵循複雜指令或進行細緻對話方面,可能不如經過微調的對手。
- 提示敏感性(Prompt Sensitivity): 與許多大型語言模型一樣,RWKV-7 的輸出品質有時可能對輸入提示的具體措辭和結構敏感。要獲得最佳結果可能需要一定程度的提示工程(prompt engineering)。
- 受限的計算資源(Restricted Computational Resources): 雖然相對於其效能而言效率很高,但開發和訓練仍然是在與某些主要 AI 實驗室可用的龐大計算能力相比資源受限的情況下進行的。擴展規模的努力可能會揭示新的挑戰或機遇。
展望未來,RWKV 的發展路線圖包括幾個有前景的方向,旨在解決這些限制並進一步增強架構的能力。重點關注的關鍵領域包括:
- 優化推論速度(Optimizing Inference Speed): 持續努力優化程式碼庫,並可能探索針對特定硬體的實作,可以進一步提高已經具有優勢的推論速度,使部署更加實用。
- 納入思維鏈推理(Incorporating Chain-of-Thought Reasoning): 研究在 RWKV 框架內引導或訓練思維鏈(Chain-of-Thought, CoT)推理能力的方法,可以顯著提升其在需要多步驟邏輯推導的複雜問題解決任務上的效能。
- 以更大數據集和模型規模進行擴展(Scaling with Larger Datasets and Model Sizes): 利用高效的架構,在可能擴展的多語言數據集版本上訓練更大的模型,有望進一步推動效能界限。
- 指令微調與對齊(Instruction Tuning and Alignment): 應用已建立的指令遵循和與人類偏好對齊的技術,對於使 RWKV 模型對下游應用更加用戶友好和可控至關重要。
RWKV-7 模型、廣泛的訓練數據集以及相關程式碼在 Apache 2.0 授權下的開放可用性,是社群參與的強大催化劑。它鼓勵對高效序列模型進行更廣泛的研究,允許獨立驗證結果,並賦予開發者基於這種創新的循環架構進行建構的能力,可能加速朝向更強大、更易於獲取且計算上更可持續的 AI 系統的進展。