来源:AINEWS 作者:Ryan Daws

研究人员推出了 RAGEN,这是一种旨在解决大语言模型(LLM)智能体在处理复杂情况时不稳定问题的人工智能框架。
训练这些人工智能智能体面临着巨大的挑战,尤其是当决策需要多个步骤,并且涉及来自环境的不可预测反馈时。虽然强化学习(RL)在解决数学问题或生成代码等静态任务方面展现出了潜力,但它在动态、多轮智能体训练中的应用却鲜有人探索。
为了填补这一空白,来自美国西北大学、斯坦福大学、微软和纽约大学等机构的联合研究团队提出了 StarPO(状态 – 思考 – 行动 – 奖励策略优化)方法。
StarPO 提供了一种在轨迹层面训练智能体的通用方法(即它优化的是整个交互序列,而不仅仅是单个行动)。
与之配套的是 RAGEN,这是一个为实施 StarPO 而构建的模块化系统。它能够对大语言模型智能体进行训练和评估,尤其关注它们在强化学习下的推理能力。RAGEN 为多轮、随机(由随机因素决定)环境中的部署、奖励分配和优化提供了必要的基础架构。
极简环境,深度洞察
为了将核心学习挑战与诸如大量已有的先验知识或特定任务的工程设计等干扰因素隔离开来,研究人员使用 RAGEN 在三种精心设计的极简、可控的符号游戏环境中对大语言模型进行了测试:
- 多臂机(Bandit):这是一个单轮、随机任务,用于测试对风险敏感的符号推理能力。智能体需要在不同的选项(如 “凤凰” 臂或 “龙” 臂)之间做出选择,这些选项的奖励情况最初是未知的。
- 推箱子(Sokoban):这是一个多轮、确定性的谜题游戏,需要前瞻性和规划能力,因为行动(推箱子)是不可逆的。
- 冰冻湖面(Frozen Lake):这是一个多轮、随机的网格导航任务,在这个任务中,移动尝试可能会随机失败,因此需要在不确定的情况下进行规划。
这些环境有助于清晰地分析智能体如何纯粹通过交互来学习决策策略。
关键发现:稳定性、模拟轨迹和推理
这项研究在训练自我进化的大语言模型智能体方面有三个重要发现:
“回声陷阱” 与稳定性需求
在多轮强化学习训练过程中,一个反复出现的问题被称为 “回声陷阱”。智能体最初表现有所提升,但随后性能会崩溃,过度拟合局部奖励的推理模式。
其表现为奖励方差缩小、熵值下降(熵是衡量随机性 / 探索性的指标)以及梯度突然飙升(表明训练不稳定)。早期迹象包括奖励标准差下降和输出熵降低。
为了解决这个问题,研究团队开发了 StarPO – S,这是该框架的稳定版本。StarPO – S 包含以下内容:
- 基于方差的轨迹过滤:将训练重点放在智能体行为不确定性较高(奖励方差较大)的任务实例上,舍弃低方差、信息含量少的模拟轨迹。这提高了稳定性和效率。
- 引入评判机制:在大多数测试中,使用近端策略优化(PPO)等方法(这些方法使用 “评判者” 来估计价值),通常比像组相对策略优化(GRPO)这种没有评判者的方法表现出更好的稳定性。
- 解耦裁剪和去除 KL 散度惩罚:借鉴其他研究(DAPO)中的技术,采用非对称裁剪(允许从正奖励中进行更积极的学习)和去除 KL 散度惩罚(鼓励探索),进一步提升了稳定性和性能。
与普通的 StarPO 相比,StarPO – S 始终能延缓性能崩溃,并提高最终的任务表现。
模拟轨迹质量至关重要
“模拟轨迹”(用于训练的模拟交互轨迹)的特性对学习有显著影响。确定的关键因素包括:
- 任务多样性:使用多样的初始状态(提示)进行训练,并且每个提示生成多个响应,有助于提高通用性。适度的多样性似乎是最佳选择,它能在相似场景中对比不同结果。
- 交互粒度:每轮允许执行多个动作(经证明 5 – 6 个动作是最优的),能在固定的轮次限制内实现更好的规划,同时又不会引入因过长动作序列带来的干扰。
- 模拟轨迹频率:使用反映智能体当前策略的最新模拟轨迹至关重要。更频繁的采样(接近 “在线” 设置)通过减少策略与数据的不匹配,能够加快收敛速度并提高通用性。
保持模拟轨迹的新鲜度,同时配合适当的行动预算和任务多样性,是稳定训练的关键。
推理需要精心设计奖励机制
仅仅促使模型 “思考” 并不能保证产生有意义的推理,尤其是在多轮任务中。研究发现:
- 在较为简单的单轮多臂老虎机任务中,推理过程有助于提高通用性,即使符号线索与奖励相冲突。
- 在像推箱子这样的多轮任务中,推理的益处有限,并且在训练过程中 “思考” 片段的长度持续缩短。如果奖励仅与任务成功挂钩,智能体往往会退回到直接选择行动,或者产生 “幻觉推理”,这揭示了 “思考与环境状态之间的不匹配”。
这表明,标准的轨迹层面奖励(通常较为稀疏且基于结果)是不够的。
“如果没有细粒度的、感知推理的奖励信号,智能体很难通过多轮强化学习产生推理能力。”
研究人员建议,未来的研究应探索明确评估中间推理步骤质量的奖励机制,比如使用基于格式的惩罚,或者对解释质量进行奖励,而不仅仅关注最终结果。
RAGEN 和 StarPO:迈向自我进化人工智能的一步
RAGEN 系统和 StarPO 框架朝着训练能够在复杂、不可预测环境中通过交互进行推理和适应的大语言模型智能体迈出了一步。
这项研究突出了多轮强化学习带来的独特稳定性挑战,并提供了具体策略(如 StarPO – S 的过滤和稳定技术)来应对这些挑战。它还强调了模拟轨迹生成策略的关键作用,以及需要更复杂的奖励机制来培养真正的推理能力,而不是表面策略或幻觉推理。
尽管研究存在局限性(包括需要在更大的模型上进行测试,以及针对难以验证奖励的领域进行优化),但这项工作为在需要复杂交互和可验证结果的领域(如定理证明、软件工程和科学发现)“构建人工智能系统开辟了一条可扩展且有原则的道路”。
本文转载自AINEWS,本文观点不代表雅典娜AI助手YadiannaAI立场。