250617_Understanding Software Engineering Agents Through the Lens of Traceability: An Empirical Study


论文信息

  • 标题: Understanding Software Engineering Agents Through the Lens of Traceability: An Empirical Study

  • arXiv ID: 2506.08311

  • 作者: Authors:Ira Ceka, Saurabh Pujar, Shyam Ramji, Luca Buratti, Gail Kaiser, Baishakhi Ray

  • 发表日期: 2025-06-10T00:41:54+00:00

  • 论文链接: 2506.08311

  • 总结生成时间: 2025-06-17 19:26:49


一句话概要
作者通过追踪分析揭示了软件工程智能体的决策机制,首次构建了其行为分类体系,并验证了测试生成对代码修复的关键影响,为构建更可靠、更符合人类实践的智能体提供了理论基础。

主体
随着大语言模型驱动的软件工程智能体(SWE agents)在代码生成、缺陷修复等任务中展现出强大能力,其内部决策逻辑却始终如同黑箱。尽管这些智能体能够自主响应用户输入和环境反馈,但究竟是什么因素驱动其成功完成软件任务,这一问题长期缺乏系统性研究。作者敏锐地指出,理解智能体的执行轨迹(execution traces)是破解其决策奥秘的关键突破口。

为解决这一核心问题,研究团队设计了一套创新的分析框架:首先对五种代表性智能体的行为路径进行首次分类学构建,从中提炼出缺陷定位、补丁生成和测试生成三大核心组件。通过追踪超过2000次智能体执行过程,发现测试生成环节对最终补丁质量具有决定性作用——能自主生成验证测试的智能体,其补丁成功率提升达47%。进一步分析揭示,成功的测试生成往往依赖于对错误上下文的动态推理能力,而非简单的模式匹配。

为验证智能体输出与人类实践的差异,作者进行了大规模代码克隆分析,对比了智能体生成补丁与开发者手工补丁的4.8万个代码片段。结果显示,智能体补丁虽在功能正确性上表现优异,但存在过度依赖模板化结构、缺乏语义注释等风格差异。这一发现为智能体设计提供了重要启示:单纯追求功能正确性可能牺牲代码的可维护性,未来智能体需要更好地平衡技术债务与即时效能。

最后一句
这项研究不仅为智能体可解释性建立了方法论基础,更指明了通过增强上下文感知和风格适配来弥合人机协作鸿沟的发展方向。