250615_Hallucination to Consensus: Multi-Agent LLMs for End-to-End Test Generation with Accurate Oracles¶

论文信息

标题: Hallucination to Consensus: Multi-Agent LLMs for End-to-End Test Generation with Accurate Oracles
arXiv ID: 2506.02943
作者: Authors:Qinghua Xu, Guancheng Wang, Lionel Briand, Kui Liu
发表日期: 2025-06-03T14:43:05+00:00
论文链接: 2506.02943
总结生成时间: 2025-06-15 19:24:22

一句话概要
CANDOR框架通过多智能体大语言模型协作生成高准确度的Java单元测试，有效解决传统方法在测试预言生成中的幻觉问题，并在覆盖率和变异得分上超越现有工具。

主体
自动化单元测试生成长期面临两大挑战：传统搜索算法生成的测试预言仅反映程序当前行为而非预期功能，而基于大语言模型的方法往往需要额外微调或依赖外部工具。针对这些问题，作者提出CANDOR这一端到端提示工程框架，其核心创新在于构建多智能体协作系统——通过让多个推理型LLM进行"小组讨论"达成共识来生成准确预言，同时采用双LLM管道压缩冗余输出，最终产出结构化的JUnit测试代码。这种设计既避免了单一LLM的幻觉风险，又解决了生成内容冗长的问题。

在HumanEvalJava和LeetCodeJava数据集上的实验表明，CANDOR在预言准确率上比当前最优的LLM-Empirical方法提升15.8-25.1个百分点，其生成的测试不仅在线覆盖率上略胜传统工具EvoSuite，更在变异得分（衡量测试缺陷检测能力的关键指标）上展现出显著优势。消融实验进一步验证了各智能体组件对提升测试前缀质量和预言准确性的关键作用，例如共识机制使错误预言减少37%。

最后一句
这项研究为LLM在软件测试领域的应用开辟了新路径，其多智能体协作范式可扩展至其他需要高可靠性代码生成的场景。