250613_On Mutation-Guided Unit Test Generation


论文信息

  • 标题: On Mutation-Guided Unit Test Generation

  • arXiv ID: 2506.02954

  • 作者: Authors:Guancheng Wang, Qinghua Xu, Lionel C. Briand, Kui Liu

  • 发表日期: 2025-06-03T14:47:22+00:00

  • 论文链接: 2506.02954

  • 总结生成时间: 2025-06-13 15:03:02


一句话概要
作者提出MUTGEN方法,通过将变异测试反馈直接融入大语言模型(LLM)的提示中,显著提升了单元测试生成在检测软件缺陷方面的有效性,突破了传统代码覆盖率指标的局限性。

主体
当前单元测试生成工具普遍依赖代码覆盖率(如行覆盖、分支覆盖)作为核心指标,但研究发现这些指标与测试套件的缺陷检测能力关联性较弱。例如,某些测试套件虽能达到100%覆盖率,却仅能检测4%的变异体(即人工注入的缺陷)。相比之下,变异分数(mutation score)能更严格地衡量测试有效性,但现有基于LLM的测试生成方法对此关注不足,且缺乏系统性优化策略。

针对这一核心问题,作者设计了MUTGEN框架,其创新性体现在两方面:一是将变异测试结果动态反馈至LLM的提示中,指导模型生成针对性更强的测试用例;二是引入迭代生成机制,通过多轮优化逐步消灭更多变异体。实验选取204个来自两个基准集的被测对象,结果显示MUTGEN的变异分数显著优于传统工具EvoSuite和基础提示策略。例如,在部分案例中,MUTGEN的变异分数达到后者的2-3倍,验证了变异反馈对LLM生成方向的精准引导作用。

进一步分析揭示了LLM生成测试的局限性:某些变异体存活(未被杀死)的原因包括逻辑复杂性超出模型理解范围,或测试断言未能覆盖特定变异操作符触发的边界条件。研究还发现,不同变异操作符(如算术运算符替换、条件边界修改)对生成效果的影响存在显著差异,这为未来优化测试生成提供了重要方向。

最后一句
这项工作不仅为基于LLM的测试生成建立了更可靠的评估范式,其迭代反馈机制也为探索AI在复杂软件验证任务中的边界提供了方法论启示。