[LG]《LearningtoReasonasActionAbstra

爱生活爱珂珂 2025-10-06 07:00:26

[LG]《Learning to Reason as Action Abstractions with Scalable Mid-Training RL》S Zhang, D Yu, Y Feng, B Jin... [Apple] (2025)

《Learning to Reason as Action Abstractions with Scalable Mid-Training RL》

🔍 研究背景:

大型语言模型(LLMs)结合强化学习(RL)表现卓越,尤其在代码生成、数学推理等任务中。但要充分发挥RL潜力,关键在于“中期训练”(mid-training)阶段——通过专家示范数据提炼紧凑有效的动作子空间,为后续RL奠定坚实基础。

✨ 核心贡献:

1️⃣ 首次理论分析中期训练如何影响后期RL,明确中期训练目标是找到一个动作子空间,使得动作剪枝误差和后期RL误差均最小化。

2️⃣ 揭示两大关键因素:动作剪枝效率决定初始策略先验,动作时序延展性影响RL收敛速度。

3️⃣ 提出RA3算法——基于时序变分下界的可扩展中期训练方法,结合自监督RL发现时间一致的潜变量(行动抽象),并用引导数据进行微调。

4️⃣ 实验验证RA3在Python代码生成任务上显著提升HumanEval、MBPP等基准表现,平均提升8分,同时加快RL收敛。

🔑 理论亮点:

- 动作抽象(如“思考-行动”分层结构)大幅减少有效动作集大小,提升剪枝效率,降低所需专家示范数量。

- 时序动作抽象缩短有效规划时长,加快价值迭代式RL收敛,提升样本效率。

- KL正则项设计引导模型仅在必要时生成“思考”动作,控制计算成本。

🚀 实践意义:

- RA3让模型自动学会“合理推理”作为抽象动作,提升策略泛化能力。

- 结合高质量互联网代码数据,RA3无需昂贵的人工推理标注即可规模化应用。

- 中期训练优化后,后期RL能更快更好地提升模型性能。

💡 思考:

本工作从理论到实践,为中期训练设计提供了清晰准则和算法框架,强调“动作抽象”在语言模型强化学习中的关键地位。未来可探索更丰富的动作层次结构及跨任务通用性,进一步推动LLM的智能推理与决策能力。

📄 详细阅读请见:

arxiv.org/abs/2509.25810

强化学习 大语言模型 中期训练 动作抽象 代码生成 RA3算法 机器学习理论

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注