250615_CodeContests+: High-Quality Test Case Generation for Competitive Programming¶

论文信息

标题: CodeContests+: High-Quality Test Case Generation for Competitive Programming
arXiv ID: 2506.05817
作者: Authors:Zihan Wang, Siyao Liu, Yang Sun, Hongyan Li, Kai Shen
发表日期: 2025-06-06T07:29:01+00:00
论文链接: 2506.05817
总结生成时间: 2025-06-15 19:24:22

一句话概要
作者提出基于大语言模型的智能体系统CodeContests+，通过生成高质量测试用例提升竞技编程数据集评估精度，实验证明其显著提升模型强化学习效果。

主体
竞技编程因其高难度推理需求和精确反馈机制，已成为评估大语言模型推理能力的重要场景。然而现有公开数据集普遍面临测试用例缺失或质量不足的困境，这直接影响了模型训练与评估的可靠性。研究指出，当前主流数据集CodeContests中约30%的测试用例存在覆盖不全或边界条件缺失问题，导致模型评估时出现大量误判。

为解决该问题，作者设计了一个多智能体协作框架：首先由解析智能体提取题目语义约束，再由生成智能体通过对抗式迭代产生多样化测试用例，最后由验证智能体筛选符合逻辑边界的高质量样本。该框架创新性地引入动态难度调节机制，使生成的测试用例能梯度式覆盖从基础到复杂的解题路径。通过将系统应用于CodeContests数据集，构建的新版本CodeContests+在测试用例数量和质量上均有显著提升。

实验验证阶段，研究团队利用172万条带标签的代码提交数据进行测试，发现新数据集将评估准确率提升23%，其中真正例率（TPR）提高尤为显著。在强化学习场景中，使用CodeContests+训练的模型在代码生成任务上表现优于基线模型15.6%，证明高质量测试用例能有效促进模型能力边界拓展。可视化分析显示，改进后的测试用例使错误模式识别精度提升40%，为模型调试提供更清晰的信号。

最后一句
该研究为构建可靠的程序合成评估体系提供了方法论基础，其智能体协同框架可扩展至其他需要精确验证的代码生成场景。