250617_Identifying Helpful Context for LLM-based Vulnerability Repair: A Preliminary Study¶

论文信息

标题: Identifying Helpful Context for LLM-based Vulnerability Repair: A Preliminary Study
arXiv ID: 2506.11561
作者: Authors:Gábor Antal, Bence Bogenfürst, Rudolf Ferenc, Péter Hegedűs
发表日期: 2025-06-13T08:15:45+00:00
论文链接: 2506.11561
总结生成时间: 2025-06-17 19:26:49

一句话概要
研究揭示了GPT-4o在修复Java漏洞时上下文信息的关键作用，发现结合CVE描述与人工提取代码上下文能显著提升修复率，为LLM驱动的自动化漏洞修复提供了优化方向。

主体
随着大语言模型在软件工程领域的应用扩展，自动化漏洞修复（AVR）成为研究热点，但如何通过上下文信息优化模型修复能力尚不明确。作者以Vul4J数据集的42个Java漏洞为测试对象，对比GPT-4o与GPT-4的表现，并系统评估了九种不同上下文提示策略的影响，包括CWE/CVE元数据、人工提取的代码片段以及任务描述长度等变量。核心问题在于识别哪些上下文要素能有效引导模型生成正确的修复方案。

为解决这一问题，作者设计了分层实验框架：首先复现基线实验验证模型一致性，随后引入结构化上下文组合。关键创新在于将漏洞数据库中的CVE描述与人工标注的代码关键上下文（如漏洞触发点相邻代码块）动态融合，构建多维度提示模板。实验采用三次重复采样以降低随机性干扰，并通过Vul4J的自动化测试框架严格验证修复结果。结果显示，尽管GPT-4o单次修复率比GPT-4低11.9%，但其在三次尝试中累计修复的独特漏洞多10.5%，表明模型具有更强的探索能力。

实验数据揭示了重要规律：CVE描述对修复率提升贡献最大（具体数值未公开），而单纯增加任务描述长度效果有限。最优策略组合——CVE指南配合人工提取的代码上下文——使GPT-4o修复率达到62%，较原始基线提升22个百分点。通过集成Top-3提示策略，模型展现出零样本场景下的强适应性，证明混合上下文能有效弥补单一信息源的局限性。这一发现为构建更鲁棒的AVR系统提供了实证基础。

最后一句
该研究为LLM在安全关键场景的应用开辟了新路径，提示工程与领域知识的深度融合或将成为下一代智能修复工具的核心竞争力。