[LG]《LearningtoReasonasActionAbstra

爱生活爱珂珂 2025-10-06 07:00:26

[LG]《Learning to Reason as Action Abstractions with Scalable Mid-Training RL》S Zhang, D Yu, Y Feng, B Jin... [Apple] (2025)

《Learning to Reason as Action Abstractions with Scalable Mid-Training RL》

🔍 研究背景：

大型语言模型（LLMs）结合强化学习（RL）表现卓越，尤其在代码生成、数学推理等任务中。但要充分发挥RL潜力，关键在于“中期训练”（mid-training）阶段——通过专家示范数据提炼紧凑有效的动作子空间，为后续RL奠定坚实基础。

✨ 核心贡献：

1️⃣ 首次理论分析中期训练如何影响后期RL，明确中期训练目标是找到一个动作子空间，使得动作剪枝误差和后期RL误差均最小化。

2️⃣ 揭示两大关键因素：动作剪枝效率决定初始策略先验，动作时序延展性影响RL收敛速度。

3️⃣ 提出RA3算法——基于时序变分下界的可扩展中期训练方法，结合自监督RL发现时间一致的潜变量（行动抽象），并用引导数据进行微调。

4️⃣ 实验验证RA3在Python代码生成任务上显著提升HumanEval、MBPP等基准表现，平均提升8分，同时加快RL收敛。

🔑 理论亮点：

- 动作抽象（如“思考-行动”分层结构）大幅减少有效动作集大小，提升剪枝效率，降低所需专家示范数量。

- 时序动作抽象缩短有效规划时长，加快价值迭代式RL收敛，提升样本效率。

- KL正则项设计引导模型仅在必要时生成“思考”动作，控制计算成本。

🚀 实践意义：

- RA3让模型自动学会“合理推理”作为抽象动作，提升策略泛化能力。

- 结合高质量互联网代码数据，RA3无需昂贵的人工推理标注即可规模化应用。

- 中期训练优化后，后期RL能更快更好地提升模型性能。

💡 思考：

本工作从理论到实践，为中期训练设计提供了清晰准则和算法框架，强调“动作抽象”在语言模型强化学习中的关键地位。未来可探索更丰富的动作层次结构及跨任务通用性，进一步推动LLM的智能推理与决策能力。

📄 详细阅读请见：

arxiv.org/abs/2509.25810

强化学习大语言模型中期训练动作抽象代码生成 RA3算法机器学习理论

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

【[120星]deep-research-mcp：一个AI驱动的研究助手，能够深

2

【[30星]patdb：一个快速、易用且美观的Python TUI调试器。核心价

3

【[420星]tambo-ai：为AI助理、副驾驶或Agent添加生成式Reac

4

【[109星]awesome-ai-memory：AI记忆工具的宝藏清单，为AI

5

【[40星]MaskSearch：提升Agent搜索能力的通用预训练框架。亮点：

6

【[78星]Awesome-MLLM-Segmentation：汇聚多模态大语言

7

早！[太阳] 早安

8

【[28星]Ecne-AI-Podcaster：从主题/关键词到最终视频，一键生

9

【[29星]MLIP：机器学习原子间势能模型的高效训练与部署工具。亮点：1. 提

10

【[443星]imprecv：一个简洁高效的简历模板，使用Typst和YAML轻

热门分类

科技TOP

1

10月份即将发布的新手机，看看有没有你喜欢的？

2

前几天帮朋友挑1500内手机，线下导购推荐了荣耀GT，说性价比高、销量挺火。查了

3

荣耀GT的价格已经被干到了1455，即便是12G+256G的存储组合，但是好歹内

4

家人们速码！2025荣耀手机闭眼入清单来啦宝子们，2025想换荣耀手机却挑花

5

互联网黑话你可以不说，但是你必须得懂有人讨厌互联网黑话，觉得把一些很直白的一

6

经常在户外工作的朋友选手机的时候会重点考虑电池和续航，在两千元价位段这四款手机的

7

千万别让荣耀“忽悠”了这根本不只是一台8300mAh的超长续航手机，用到现在我

8

关于华为Mate80系列大家更期待什么？1、麒麟90302、HarmonyO

9

【荣耀500Pro将搭载高通骁龙8至尊版拥有2亿像素主摄】据最新爆料，荣耀正

10

华为Mate80系列真机曝光，这个颜值还满意吗？从目前流出的信息来看，华为

科技最新文章

1

互联网黑话你可以不说，但是你必须得懂有人讨厌互联网黑话，觉得把一些很直白的一

2

前几天帮朋友挑1500内手机，线下导购推荐了荣耀GT，说性价比高、销量挺火。查了

3

10月份即将发布的新手机，看看有没有你喜欢的？

4

经常在户外工作的朋友选手机的时候会重点考虑电池和续航，在两千元价位段这四款手机的

5

华为Mate80系列真机曝光，这个颜值还满意吗？从目前流出的信息来看，华为

6

荣耀Magic8Pro不管国内还是国外，信号都是棒棒哒。刚刚看到数码圈内大佬，

7

Mate80长得这样？很多博主说是十一月发布，大家拭目以待吧，看看这

8

大家还是听我一句劝不要轻易入手荣耀GT，不是这手机不行，反而是在这个价位段太强

9

【荣耀500Pro将搭载高通骁龙8至尊版拥有2亿像素主摄】据最新爆料，荣耀正

10

友商傻眼了吧[捂脸哭]荣耀彻底杀疯了！这样几乎无可挑剔的配置就是掀桌子的节奏。说