训练可靠AI Agent的新方法:RAGEN

人工智能代理的期望已经酝酿多年,许多专家预测2025年将是这些由先进的大型语言和多模态模型(LLM)驱动的特定任务人工智能实现真正腾飞的一年。然而,现实情况是,大多数人工智能代理仍然处于实验性的停滞状态,难以从研究实验室过渡到现实世界的应用。

现在,来自西北大学、微软、斯坦福大学和华盛顿大学的研究人员,包括前深势科技的研究员王紫涵,共同推出了一种名为RAGEN的新系统。这个新框架旨在训练和评估人工智能代理,使其更可靠、更有弹性,适用于实际的企业级应用。

与传统的侧重于数学或编码等静态问题的人工智能任务不同,RAGEN处理的是多轮、交互式场景,在这种场景中,代理必须在不确定的环境中适应、学习和推理。这种方法对于开发能够处理现实世界复杂性的人工智能至关重要。

RAGEN的核心是一个定制的强化学习(RL)框架,名为StarPO(状态-思考-行动-奖励策略优化)。该系统探索了LLM如何通过经验学习,而不是仅仅依靠记忆。StarPO关注的是整个决策过程,不仅考虑单个响应,还考虑完整的交互轨迹。

StarPO通过两个不同的阶段协同工作。第一阶段称为 rollout 阶段,涉及LLM在推理的指导下生成完整的交互序列。第二阶段,即 update 阶段,使用归一化的累积奖励来优化模型。与标准策略优化方法相比,这种结构创建了一个更稳定和透明的学习循环。

研究人员使用经过微调的阿里巴巴 Qwen 模型,特别是 Qwen 1.5 和 Qwen 2.5,实现了该框架并对其进行了严格的测试。选择这些模型是因为它们的开放权重和有效遵循指令的能力,这使得跨各种符号任务的可重复性和一致的基线比较成为可能。

克服“回声陷阱”:强化学习与推理损失

王紫涵在一个被广泛分享的X帖子中强调了一个核心挑战:“为什么你的RL训练总是崩溃?” 根据团队的说法,LLM代理最初会产生经过充分推理的符号响应。然而,随着时间的推移,RL系统倾向于奖励捷径,导致重复性行为,最终降低整体性能。这就是他们所说的“回声陷阱”。

这种退化是由于反馈循环造成的,在反馈循环中,某些短语或策略在早期会产生高额奖励,导致过度使用,并阻碍了对新方法的探索。王指出,这是可以量化的,具有可测量的奖励方差悬崖、梯度峰值以及推理痕迹的消失。

为了在受控环境中检查这些行为,RAGEN采用了三种符号环境:

  • Bandit:这是一个单回合的随机任务,评估符号风险-奖励推理。
  • Sokoban:一个多回合的确定性谜题,涉及不可逆转的决定。
  • Frozen Lake:这是一个随机的、多回合的任务,需要自适应计划。

每个环境都经过精心设计,以最大限度地减少现实世界的偏差,而是专注于训练期间出现的决策策略。

例如,在 Bandit 环境中,会告知代理“龙”和“凤凰”手臂代表不同的奖励分布。代理不是直接提供概率,而是必须进行符号推理,将“龙”解释为“力量”,将“凤凰”解释为“希望”来预测结果。这种设置鼓励模型生成可解释的类比推理。

使用 StarPO-S 稳定强化学习

为了解决训练崩溃的问题,研究人员开发了 StarPO-S,这是原始框架的稳定版本。StarPO-S 包含三个关键干预措施:

  1. 基于不确定性的 rollout 过滤:这优先考虑代理对结果表现出不确定性的 rollout。
  2. KL 惩罚移除:允许模型更自由地偏离其原始策略并探索新行为。
  3. 非对称 PPO 裁剪:这放大了高奖励轨迹,而不是低奖励轨迹,以增强学习。

这些调整延迟或消除了训练崩溃,从而提高了所有三个任务的性能。根据王的说法,“StarPO-S…适用于所有 3 个任务。缓解崩溃。更好的奖励。”

RL训练的成功不仅取决于架构,还取决于代理自身生成的数据质量。该团队确定了三个对训练产生重大影响的关键维度:

  • 任务多样性:使模型暴露于广泛的初始场景中可以增强泛化。
  • 交互粒度:允许每回合执行多个操作可以实现更有意义的计划。
  • Rollout 新鲜度:使训练数据与当前模型策略保持一致可以避免过时的学习信号。

这些因素共同促成了更稳定和有效的训练过程。

揭示 Agent 的思考过程

研究人员在 GitHub 上创建的一个交互式演示站点以完整的对话回合形式直观地表示 agent rollout,不仅揭示了采取的行动,还揭示了行动背后的逐步思考过程。

例如,在解决一个数学问题时,agent 可能会首先“思考”隔离一个变量,然后提交一个像“x = 5”这样的答案。这些中间想法是可见且可追溯的,从而提供了对 agent 如何得出结论的透明度。

虽然显式推理可以提高简单、单回合任务(如 Bandit)的性能,但它往往会在多回合训练期间降低性能。尽管使用了结构化提示和令牌,但除非明确奖励,否则推理痕迹通常会缩小或消失。

这突出了传统奖励设计的局限性:关注任务完成可能会忽略过程的质量。该团队尝试了基于格式的惩罚来鼓励更好的结构化推理,但承认可能需要更精细的奖励塑造。

用于 AI Agent 开发的开源工具

RAGEN 及其 StarPO 和 StarPO-S 框架现在可以作为开源项目使用。这为那些有兴趣开发不仅可以完成任务,还可以思考、计划和进化的人工智能agent提供了宝贵的基础。

随着人工智能朝着更大的自主性发展,像RAGEN这样的项目揭示了训练模型需要什么,这些模型既能从数据中学习,也能从自身行为的后果中学习。

现实世界实施的关键问题

虽然 RAGEN 论文提供了详细的技术框架,但对于那些考虑将其应用于企业环境的人来说,仍然存在一些实际问题。例如,RAGEN 的方法在多大程度上可以转化到这些程式化的符号任务之外?公司是否需要创建全新的环境和奖励函数,才能在发票处理或客户支持等工作流程中使用该系统?

另一个重要的考虑因素是可扩展性。即使通过 StarPO-S 提供了改进,该论文也承认训练仍然可能在更长的时间内崩溃。这就提出了是否存在理论上或实践上的途径来维持对开放式或不断演变的任务序列的推理的问题。

RAGEN 代表着在创建更自主、具有推理能力的人工智能agent方面迈出的重要一步,它超越了单纯的技术贡献,为未来的发展提供了一个概念框架。它是否会成为企业人工智能工具包的标准组件还有待观察,但其对代理学习动态的洞察力已经在塑造 LLM 训练的未来。

这种新颖的方法解决了对可靠和适应性强的人工智能agent的迫切需求,为实际应用提供了有希望的前进道路。通过专注于通过经验学习和优化决策轨迹,RAGEN有助于弥合理论模型和实际实现之间的差距。该框架的开源可用性进一步加速了该领域的创新,使研究人员和开发人员能够在其基础上进行构建,并探索人工智能agent技术的新领域。