[CL]《CodeAestheticswithAgenticReward

爱生活爱珂珂 2025-10-29 06:32:26

[CL]《Code Aesthetics with Agentic Reward Feedback》B Xiao, L Jiang, S Huang, T Lv... [Microsoft Research Asia] (2025)

代码美学新突破:Agentic Reward Feedback助力视觉代码生成

随着大型语言模型(LLMs)在代码生成领域的广泛应用,传统任务如代码生成、bug修复表现卓越,但在视觉导向的编程任务(如图表生成、网页设计)中,模型生成的代码往往美观度不足,存在元素重叠、配色不当和结构混乱等问题。本文提出并系统研究了“代码美学”概念,旨在提升LLMs生成视觉代码的美观与功能性。

核心贡献:

1. AesCode-358K数据集:首个大规模指令微调数据集,涵盖Python绘图与网页设计两大视觉编程领域,确保代码可执行且美观。

2. Agentic Reward反馈机制:引入多智能体系统,包括执行代理(检查代码可执行性)、静态美学代理(基于渲染截图评估视觉质量)、交互美学代理(模拟用户交互,评估网页交互性与美学)。三者结合,形成多维度综合奖励信号,突破传统单一文本奖励的限制。

3. GRPO-AR训练算法:基于GRPO强化学习框架,结合agentic reward,联合优化代码的功能正确性与视觉美学,显著提升模型生成质量。

4. OpenDesign基准:首个自动化网页设计美学评测基准,涵盖840个真实网页设计案例,支持静态和交互美学双维度评测,LLM作为评审与人类评分高度一致,验证评测可靠性。

实验亮点:

- AesCoder-4B模型在OpenDesign和PandasPlotBench两大基准中表现优异,超越GPT-4o、GPT-4.1,并接近数百亿参数大模型水平。

- 结合监督微调与GRPO-AR强化学习,模型在代码执行率、视觉对齐度、结构合理性及交互体验均有显著提升。

- 多智能体奖励系统稳定提供有效反馈,促进模型泛化能力和代码美学感知。

- 人类评测与LLM评审高度一致,支持LLM-as-a-Judge方法在美学评估中的可行性。

意义与前景:

本研究首次系统定义并实证了代码美学的训练与评测体系,为视觉导向的代码生成任务注入新的活力。Agentic Reward Feedback框架通过多维度评价,不仅保证代码功能正确,更兼顾视觉和交互体验,推动开发者辅助工具向更人性化、美观化方向发展。未来,该框架有望拓展至更多多模态交互式编程任务,提升AI在设计与开发领域的综合能力。

详细阅读与项目地址:

arxiv.org/abs/2510.23272

项目主页:bangx7.github.io/code-aesthetics

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注