[LG]《PolychromicObjectivesforReinforc

爱生活爱珂珂 2025-10-06 06:59:50

[LG]《Polychromic Objectives for Reinforcement Learning》J I Hamid, I H Orney, E Xu, C Finn... [Stanford University] (2025)

【论文解读】《Polychromic Objectives for Reinforcement Learning》来自斯坦福，探讨了强化学习微调（RLFT）中探索多样行为的重要性及挑战。传统RLFT往往导致“熵坍缩”，策略过早集中于少数高回报行为，丧失多样性和探索能力，限制了策略的泛化和扩展能力。

💡核心贡献：

1️⃣ 提出“集合强化学习”（Set RL）框架，目标不再是单条轨迹最大化回报，而是优化一组轨迹的综合表现，兼顾成功率和多样性。

2️⃣ 引入“多彩目标”（Polychromic Objective），结合奖励和多样性指标，鼓励策略保持并挖掘多样的高质量行为。

3️⃣ 设计“多彩PPO”（Polychromic PPO），在PPO基础上利用vine采样收集多组轨迹，并调整优势函数，实用高效优化多彩目标。

🔬实验验证：

- 在BabyAI、MiniGrid和Algorithmic Creativity任务中，多彩PPO显著提升成功率和任务覆盖率，尤其在pass- 多彩PPO在状态扰动下泛化能力更强，显示出更鲁棒的探索策略。

- 通过熵分析理论证明，多彩目标自动避免策略向单一行为坍缩，反而引导策略关注含有多样成功动作的轨迹集。

🧩方法优势：

- 统一框架兼顾探索与利用，解决了传统熵正则无法有效促进语义或轨迹级多样性的问题。

- 适用性强，可配合不同多样性度量指标，灵活调整。

- 结合vine采样，样本利用率高，适合环境可重置的任务。

⚠️局限与未来方向：

- 依赖环境可重置以实现vine采样，限制适用范围。

- 长时序任务中保证足够vine覆盖难度较大。

- 多样性函数设计依赖任务知识，连续动作空间扩展尚需探索。

- 目前优势估计为蒙特卡洛，存在方差问题，未来可开发更高效估计器。

总结：本文提出的多彩目标和多彩PPO为强化学习微调中保持探索多样性提供了新的理论视角和实用算法，促进策略在复杂任务中实现更广泛的成功和更强的泛化能力，具有重要的理论意义和应用价值。

论文链接：arxiv.org/abs/2509.25424

强化学习多样性探索 PPO 策略微调机器学习

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

【[120星]deep-research-mcp：一个AI驱动的研究助手，能够深

2

【[30星]patdb：一个快速、易用且美观的Python TUI调试器。核心价

3

【[420星]tambo-ai：为AI助理、副驾驶或Agent添加生成式Reac

4

【[109星]awesome-ai-memory：AI记忆工具的宝藏清单，为AI

5

【[40星]MaskSearch：提升Agent搜索能力的通用预训练框架。亮点：

6

【[78星]Awesome-MLLM-Segmentation：汇聚多模态大语言

7

早！[太阳] 早安

8

【[28星]Ecne-AI-Podcaster：从主题/关键词到最终视频，一键生

9

【[29星]MLIP：机器学习原子间势能模型的高效训练与部署工具。亮点：1. 提

10

【[443星]imprecv：一个简洁高效的简历模板，使用Typst和YAML轻

热门分类

科技TOP

1

10月份即将发布的新手机，看看有没有你喜欢的？

2

前几天帮朋友挑1500内手机，线下导购推荐了荣耀GT，说性价比高、销量挺火。查了

3

荣耀GT的价格已经被干到了1455，即便是12G+256G的存储组合，但是好歹内

4

家人们速码！2025荣耀手机闭眼入清单来啦宝子们，2025想换荣耀手机却挑花

5

互联网黑话你可以不说，但是你必须得懂有人讨厌互联网黑话，觉得把一些很直白的一

6

经常在户外工作的朋友选手机的时候会重点考虑电池和续航，在两千元价位段这四款手机的

7

千万别让荣耀“忽悠”了这根本不只是一台8300mAh的超长续航手机，用到现在我

8

关于华为Mate80系列大家更期待什么？1、麒麟90302、HarmonyO

9

【荣耀500Pro将搭载高通骁龙8至尊版拥有2亿像素主摄】据最新爆料，荣耀正

10

华为Mate80系列真机曝光，这个颜值还满意吗？从目前流出的信息来看，华为

科技最新文章

1

互联网黑话你可以不说，但是你必须得懂有人讨厌互联网黑话，觉得把一些很直白的一

2

前几天帮朋友挑1500内手机，线下导购推荐了荣耀GT，说性价比高、销量挺火。查了

3

10月份即将发布的新手机，看看有没有你喜欢的？

4

经常在户外工作的朋友选手机的时候会重点考虑电池和续航，在两千元价位段这四款手机的

5

华为Mate80系列真机曝光，这个颜值还满意吗？从目前流出的信息来看，华为

6

荣耀Magic8Pro不管国内还是国外，信号都是棒棒哒。刚刚看到数码圈内大佬，

7

Mate80长得这样？很多博主说是十一月发布，大家拭目以待吧，看看这

8

大家还是听我一句劝不要轻易入手荣耀GT，不是这手机不行，反而是在这个价位段太强

9

【荣耀500Pro将搭载高通骁龙8至尊版拥有2亿像素主摄】据最新爆料，荣耀正

10

友商傻眼了吧[捂脸哭]荣耀彻底杀疯了！这样几乎无可挑剔的配置就是掀桌子的节奏。说