250612_Hallucination to Consensus: Multi-Agent LLMs for End-to-End Test Generation with Accurate Oracles¶

论文信息

标题: Hallucination to Consensus: Multi-Agent LLMs for End-to-End Test Generation with Accurate Oracles
arXiv ID: 2506.02943
作者: Authors:Qinghua Xu, Guancheng Wang, Lionel Briand, Kui Liu
发表日期: 2025-06-03T14:43:05+00:00
论文链接: 2506.02943
总结生成时间: 2025-06-12 17:23:10

一句话概要
CANDOR框架通过多智能体大语言模型协作生成高准确度的Java单元测试，采用共识机制解决LLM幻觉问题，在测试覆盖率和预言正确性上超越现有工具。

主体
自动化单元测试生成长期面临两大挑战：传统方法依赖程序当前行为生成回归预言（而非真实功能需求），而现有基于大语言模型的方法需要微调或依赖外部工具生成测试前缀。针对这些问题，作者提出CANDOR框架，首次实现端到端的提示工程驱动测试生成。该框架创新性地部署多个专业化LLM智能体分工协作：一个智能体负责生成测试前缀，另设专门小组通过"专家讨论会"机制对预言进行多轮辩论并达成共识，有效抑制了单一LLM的幻觉问题。为优化输出效率，还设计了双LLM管道对冗长的推理过程进行结构化压缩。

在HumanEvalJava和LeetCodeJava数据集上的实验表明，CANDOR在预言正确性指标上比当前最优的LLM-Empirical方法提升15.8-25.1个百分点，其生成的测试在行覆盖率上略优于传统工具EvoSuite，而在突变分数（衡量测试缺陷检测能力的关键指标）上优势显著。消融实验证实，多智能体共识机制对提升预言准确率的贡献率达37%，结构化输出管道则使响应长度减少62%而不损失信息量。

最后一句
这项研究为LLM在软件工程中的可靠应用提供了新范式，其多智能体协作框架可扩展至代码审查、需求验证等需要高精度推理的软件开发场景。