250617_Leveraging GPT-4 for Vulnerability-Witnessing Unit Test Generation¶

论文信息

标题: Leveraging GPT-4 for Vulnerability-Witnessing Unit Test Generation
arXiv ID: 2506.11559
作者: Authors:Gábor Antal, Dénes Bán, Martin Isztin, Rudolf Ferenc, Péter Hegedűs
发表日期: 2025-06-13T08:13:07+00:00
论文链接: 2506.11559
总结生成时间: 2025-06-17 19:26:49

一句话概要
研究探索了如何利用GPT-4自动生成能够捕捉软件漏洞的单元测试，通过真实漏洞数据集验证了其生成测试用例的语法正确性和语义实用性。

主体
在软件开发的生命周期中，单元测试是保障代码质量的关键环节，但传统手工编写测试用例的方式不仅耗时耗力，还难以全面覆盖潜在的安全漏洞。作者指出，现有自动化测试工具往往缺乏对漏洞特征的针对性捕捉，而大型语言模型如GPT-4的代码生成能力为解决这一问题提供了新思路。研究聚焦于一个核心挑战：能否利用GPT-4基于漏洞修复前后的代码差异，自动生成能有效验证漏洞存在的单元测试？

为解决这一问题，作者设计了一套以VUL4J数据集为基础的实验框架，通过分析真实漏洞案例的代码上下文，引导GPT-4生成两类测试用例：一类基于漏洞未修复前的代码（用于触发漏洞），另一类基于修复后的代码（验证修复有效性）。研究特别关注了模型的自修正能力，即通过迭代反馈优化生成的测试代码。实验结果显示，GPT-4在66.5%的情况下能生成语法正确的测试用例，尽管仅有7.5%的案例能通过自动化工具验证其语义正确性，但人工评估表明，这些测试模板经过少量修改即可转化为功能性测试，显著降低了开发者的手动工作量。

最后一句
这项研究为AI辅助安全测试开辟了可行路径，未来可通过结合领域知识微调模型，进一步提升生成测试的精准度和自动化程度。