250617_ReVeal: Self-Evolving Code Agents via Iterative Generation-Verification


论文信息

  • 标题: ReVeal: Self-Evolving Code Agents via Iterative Generation-Verification

  • arXiv ID: 2506.11442

  • 作者: Authors:Yiyang Jin, Kunzhao Xu, Hang Li, Xueting Han, Yanmin Zhou, Cheng Li, Jing Bai

  • 发表日期: 2025-06-13T03:41:04+00:00

  • 论文链接: 2506.11442

  • 总结生成时间: 2025-06-17 19:26:49


一句话概要
ReVeal通过迭代式生成-验证框架,结合强化学习与外部工具反馈,实现了大语言模型在代码生成任务中自我验证能力的协同进化。

主体
当前基于强化学习的大语言模型在代码生成任务中面临关键挑战:现有方法既缺乏真实环境提供的有效验证信号,又缺少针对验证过程的显式优化,导致自我验证的可靠性不足。这一问题在需要多轮工具交互的复杂编程场景中尤为突出,模型往往难以通过自身反馈持续改进生成结果。

作者提出的ReVeal框架创新性地将代码生成、自我验证与工具评估交织在多轮强化学习过程中。其核心在于构建了一个动态进化系统:模型不仅自主生成测试用例,还能调用外部工具获取精确反馈,并通过定制化的密集奖励机制实现每轮迭代的渐进式优化。这种设计使得生成能力与验证能力在训练过程中相互促进,突破了基础模型的推理边界。实验环节采用LiveCodeBench作为评估基准,结果显示ReVeal在Pass@k指标上取得显著提升,其生成的代码质量随着推理轮次增加持续进化,最终性能超越DeepSeek-R1-Zero-Qwen-32B等强基线模型。

启示
这项研究为构建具备持续自我优化能力的AI代理提供了可扩展的范式,其"生成-验证"协同机制可延伸至需要渐进式改进的其他序列生成任务。