訓練可靠AI代理的新途徑:RAGEN

近年來,人們對 AI 代理的期待與日俱增,許多專家預測 2025 年將會是這些特定任務 AI 實現(由先進的大型語言和多模態模型 (LLMs) 提供支援)真正起飛的一年。然而,現實情況是,大多數 AI 代理仍然處於實驗性的狀態,難以從研究實驗室過渡到真實世界的應用中。

現在,由西北大學、微軟、史丹佛大學和華盛頓大學的研究人員(包括一位前 DeepSeek 研究員 Zihan Wang)共同努力,推出了一種名為 RAGEN 的新型系統。這個新框架旨在訓練和評估 AI 代理,使其更可靠且更有彈性,適用於實際企業級的使用。

與傳統的 AI 任務專注於靜態問題(如數學或編碼)不同,RAGEN 解決的是多回合、互動式的場景,在這些場景中,代理必須在不確定的環境中適應、學習和推理。這種方法對於開發能夠處理真實世界複雜情況的 AI 至關重要。

RAGEN 的核心是一個名為 StarPO(狀態-思考-行動-獎勵策略優化)的客製化強化學習 (RL) 框架。該系統探索 LLM 如何透過經驗學習,而不是僅僅依賴記憶。StarPO 關注整個決策過程,不僅考慮個別的回應,還考慮完整的互動軌跡。

StarPO 透過兩個不同的階段協同運作。第一階段稱為 rollout 階段,涉及 LLM 在推理的指導下生成完整的互動序列。第二階段是更新階段,使用標準化的累計獎勵來優化模型。與標準的策略優化方法相比,這種結構創建了一個更穩定和透明的學習迴圈。

研究人員使用阿里巴巴的 Qwen 模型(特別是 Qwen 1.5 和 Qwen 2.5)的微調版本實施並嚴格測試了該框架。之所以選擇這些模型,是因為它們的權重是公開的,並且能夠有效地遵循指令,這使得在各種符號任務中實現可重現性和一致的基準比較。

克服「迴聲陷阱」:強化學習和推理損失

Zihan Wang 在廣為流傳的 X 帖子中強調了一個核心挑戰:「為什麼你的 RL 訓練總是崩潰?」根據該團隊的說法,LLM 代理最初會產生經過深思熟慮的符號回應。然而,RL 系統往往會隨著時間的推移獎勵捷徑,導致重複的行為,最終降低整體效能。這種現象就是他們所說的「迴聲陷阱」。

這種倒退的發生是因為回饋迴圈中,某些短語或策略在早期產生高獎勵,導致過度使用,並阻礙了對新方法的探索。Wang 指出,這是可以量化的,具有可衡量的獎勵變異數斷崖、梯度峰值和推理痕跡的消失。

為了在受控的環境中檢查這些行為,RAGEN 採用了三種符號環境:

  • Bandit:這是一個單回合、隨機性的任務,用於評估符號風險-獎勵推理。
  • Sokoban:一個多回合、確定性的謎題,涉及不可逆轉的決策。
  • Frozen Lake:這是一個隨機性的、多回合任務,需要適應性規劃。

每個環境都經過精心設計,以最大限度地減少真實世界的偏差,而是專注於訓練期間出現的決策策略。

例如,在 Bandit 環境中,代理會被告知「龍」和「鳳凰」手臂代表不同的獎勵分佈。代理並非直接提供概率,而是必須以符號方式進行推理,將「龍」解釋為「力量」,將「鳳凰」解釋為「希望」來預測結果。這種設置鼓勵模型生成可解釋的類比推理。

使用 StarPO-S 穩定強化學習

為了解决訓練崩潰的問題,研究人員開發了 StarPO-S,這是原始框架的穩定版本。StarPO-S 包含三個關鍵的干預措施:

  1. 基於不確定性的 rollout 過濾:這優先考慮代理表現出對結果不確定性的 rollout。
  2. KL 懲罰移除:允許模型更自由地偏離其原始策略並探索新的行為。
  3. 非對稱 PPO 裁剪:這比低獎勵軌跡更能放大高獎勵軌跡,以增強學習。

這些調整延遲或消除了訓練崩潰,從而提高了所有三個任務的效能。根據 Wang 的說法,「StarPO-S…適用於所有 3 個任務。減輕崩潰。更好的獎勵。」

RL 訓練的成功不僅取決於架構,還取決於代理本身產生的資料品質。該團隊確定了三個顯著影響訓練的關鍵維度:

  • 任務多樣性:讓模型接觸廣泛的初始場景可以增強泛化能力。
  • 互動粒度:允許每回合採取多個動作可以進行更有意義的規劃。
  • Rollout 新鮮度:保持訓練資料與當前模型策略對齊可以避免過時的學習訊號。

這些因素共同促成了更穩定和有效的訓練過程。

揭示代理思維過程

研究人員在 GitHub 上創建了一個互動式演示網站,以完整的對話回合形式直觀地呈現代理 rollout,不僅揭示了採取的行動,還揭示了行動背後的逐步思考過程。

例如,在解決數學問題時,代理可能會先「思考」隔離變數,然後提交像「x = 5」這樣的答案。這些中間想法是可見和可追蹤的,從而可以透明地了解代理如何得出決策。

雖然顯式推理可以提高簡單、單回合任務(如 Bandit)的效能,但它往往會在多回合訓練期間降低效能。儘管使用了結構化的提示和 token,但除非明確獎勵,否則推理痕跡通常會縮小或消失。

這突顯了傳統獎勵設計的一個局限性:專注於任務完成可能會忽略過程的品質。該團隊嘗試了基於格式的懲罰來鼓勵更好地結構化推理,但承認可能需要更精細的獎勵塑造。

用於 AI 代理開發的開源工具

RAGEN 及其 StarPO 和 StarPO-S 框架現在作為開源專案提供。這為那些有興趣開發不僅可以完成任務,還可以思考、計畫和發展的 AI 代理的人提供了一個寶貴的基礎。

隨著 AI 朝著更大的自主性發展,像 RAGEN 這樣的專案闡明了訓練模型從資料和自身行為的後果中學習需要什麼。

實際應用中的關鍵問題

雖然 RAGEN 論文提供了一個詳細的技術框架,但對於那些考慮在企業環境中應用它的人來說,仍然存在一些實際問題。例如,RAGEN 的方法在這些風格化的符號任務之外的轉化效果如何?公司是否需要創建全新的環境和獎勵函數才能在發票處理或客戶支援等工作流程中使用此系統?

另一個關鍵的考慮因素是可擴展性。即使有了 StarPO-S 提供的改進,該論文也承認訓練仍然會在更長的時間內崩潰。這引發了一個問題,即是否存在維持開放式或不斷發展的任務序列上的推理的理論或實用途徑。

RAGEN 代表著朝著創建更自主、具有推理能力的 AI 代理邁出的重要一步,它超越了單純的技術貢獻,為未來的開發提供了一個概念框架。它是否會成為企業 AI 工具包的標準組成部分還有待觀察,但其對代理學習動態的洞察力已經在塑造 LLM 訓練的未來。

這種新穎的方法解決了對可靠且適應性強的 AI 代理的迫切需求,為實際應用提供了一條有希望的前進道路。透過專注於透過經驗學習和優化決策軌跡,RAGEN 有助於彌合理論模型和實際實施之間的差距。該框架的開源可用性進一步加速了該領域的創新,使研究人員和開發人員能夠在其基礎上進行構建,並探索 AI 代理技術的新領域。