250617_UTBoost: Rigorous Evaluation of Coding Agents on SWE-Bench


论文信息

  • 标题: UTBoost: Rigorous Evaluation of Coding Agents on SWE-Bench

  • arXiv ID: 2506.09289

  • 作者: Authors:Boxi Yu, Yuxuan Zhu, Pinjia He, Daniel Kang

  • 发表日期: 2025-06-10T22:56:49+00:00

  • 论文链接: 2506.09289

  • 总结生成时间: 2025-06-17 19:26:49


一句话概要
研究揭示了当前代码生成评估基准SWE-Bench中测试用例不足导致误判的问题,提出基于大语言模型的UTBoost框架增强测试覆盖,显著修正了原有评估结果中的错误。

主体
随着大语言模型驱动的代码生成代理兴起,SWE-Bench作为主流评估基准依赖GitHub问题与拉取请求中的测试用例,但其人工编写的测试往往存在覆盖不足的缺陷。作者发现,这种缺陷会导致生成的代码补丁即使未真正解决问题也能通过测试,使得评估结果出现系统性偏差。这一现象暴露出当前基准在验证功能正确性方面的关键短板,可能误导对模型能力的判断。

为解决该问题,研究团队设计了两阶段方案:首先开发UTGenerator工具,利用大语言模型自动分析代码库依赖关系并生成补充测试用例;进而构建UTBoost框架,通过动态增强测试集来严格验证补丁有效性。该方法创新性地将大语言模型双向应用于测试生成与补丁验证,形成闭环评估体系。实验选取Python项目作为验证场景,框架不仅识别出36个存在测试缺陷的任务实例,更检测到345个被原基准错误标记为通过的无效补丁。

验证结果显示,测试增强使SWE-Bench Lite和Verified两个子集的排行榜发生显著变化,分别有40.9%和24.4%的条目被修正,导致18项和11项排名变动。这些数据证实现有评估体系存在大量"假阳性"结果,而UTBoost能有效提升判别严格性。尤其值得注意的是,补充测试用例暴露出生成补丁在边界条件、异常处理等方面的深层缺陷,为改进代码生成模型提供了明确方向。

最后一句
这项工作不仅为代码生成评估建立了更可靠的基准框架,其"以模型验证模型"的思路也为软件工程领域的自动化测试开辟了新路径。