[LG]《PolychromicObjectivesforReinforc

爱生活爱珂珂 2025-10-06 06:59:50

[LG]《Polychromic Objectives for Reinforcement Learning》J I Hamid, I H Orney, E Xu, C Finn... [Stanford University] (2025)

【论文解读】《Polychromic Objectives for Reinforcement Learning》来自斯坦福,探讨了强化学习微调(RLFT)中探索多样行为的重要性及挑战。传统RLFT往往导致“熵坍缩”,策略过早集中于少数高回报行为,丧失多样性和探索能力,限制了策略的泛化和扩展能力。

💡核心贡献:

1️⃣ 提出“集合强化学习”(Set RL)框架,目标不再是单条轨迹最大化回报,而是优化一组轨迹的综合表现,兼顾成功率和多样性。

2️⃣ 引入“多彩目标”(Polychromic Objective),结合奖励和多样性指标,鼓励策略保持并挖掘多样的高质量行为。

3️⃣ 设计“多彩PPO”(Polychromic PPO),在PPO基础上利用vine采样收集多组轨迹,并调整优势函数,实用高效优化多彩目标。

🔬实验验证:

- 在BabyAI、MiniGrid和Algorithmic Creativity任务中,多彩PPO显著提升成功率和任务覆盖率,尤其在pass- 多彩PPO在状态扰动下泛化能力更强,显示出更鲁棒的探索策略。

- 通过熵分析理论证明,多彩目标自动避免策略向单一行为坍缩,反而引导策略关注含有多样成功动作的轨迹集。

🧩方法优势:

- 统一框架兼顾探索与利用,解决了传统熵正则无法有效促进语义或轨迹级多样性的问题。

- 适用性强,可配合不同多样性度量指标,灵活调整。

- 结合vine采样,样本利用率高,适合环境可重置的任务。

⚠️局限与未来方向:

- 依赖环境可重置以实现vine采样,限制适用范围。

- 长时序任务中保证足够vine覆盖难度较大。

- 多样性函数设计依赖任务知识,连续动作空间扩展尚需探索。

- 目前优势估计为蒙特卡洛,存在方差问题,未来可开发更高效估计器。

总结:本文提出的多彩目标和多彩PPO为强化学习微调中保持探索多样性提供了新的理论视角和实用算法,促进策略在复杂任务中实现更广泛的成功和更强的泛化能力,具有重要的理论意义和应用价值。

论文链接:arxiv.org/abs/2509.25424

强化学习 多样性探索 PPO 策略微调 机器学习

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注