250617_ReVeal: Self-Evolving Code Agents via Iterative Generation-Verification¶

论文信息

标题: ReVeal: Self-Evolving Code Agents via Iterative Generation-Verification
arXiv ID: 2506.11442
作者: Authors:Yiyang Jin, Kunzhao Xu, Hang Li, Xueting Han, Yanmin Zhou, Cheng Li, Jing Bai
发表日期: 2025-06-13T03:41:04+00:00
论文链接: 2506.11442
总结生成时间: 2025-06-17 19:26:49

一句话概要
ReVeal通过迭代式生成-验证框架，结合强化学习与外部工具反馈，实现了大语言模型在代码生成任务中自我验证能力的协同进化。

主体
当前基于强化学习的大语言模型在代码生成任务中面临关键挑战：现有方法既缺乏真实环境提供的有效验证信号，又缺少针对验证过程的显式优化，导致自我验证的可靠性不足。这一问题在需要多轮工具交互的复杂编程场景中尤为突出，模型往往难以通过自身反馈持续改进生成结果。

作者提出的ReVeal框架创新性地将代码生成、自我验证与工具评估交织在多轮强化学习过程中。其核心在于构建了一个动态进化系统：模型不仅自主生成测试用例，还能调用外部工具获取精确反馈，并通过定制化的密集奖励机制实现每轮迭代的渐进式优化。这种设计使得生成能力与验证能力在训练过程中相互促进，突破了基础模型的推理边界。实验环节采用LiveCodeBench作为评估基准，结果显示ReVeal在Pass@k指标上取得显著提升，其生成的代码质量随着推理轮次增加持续进化，最终性能超越DeepSeek-R1-Zero-Qwen-32B等强基线模型。

启示
这项研究为构建具备持续自我优化能力的AI代理提供了可扩展的范式，其"生成-验证"协同机制可延伸至需要渐进式改进的其他序列生成任务。