250617_IntenTest: Stress Testing for Intent Integrity in API-Calling LLM Agents¶

论文信息

标题: IntenTest: Stress Testing for Intent Integrity in API-Calling LLM Agents
arXiv ID: 2506.07524
作者: Authors:Shiwei Feng, Xiangzhe Xu, Xuan Chen, Kaiyuan Zhang, Syed Yusuf Ahmed, Zian Su, Mingwei Zheng, Xiangyu Zhang
发表日期: 2025-06-09T08:09:08+00:00
论文链接: 2506.07524
总结生成时间: 2025-06-17 19:26:49

一句话概要
IntenTest通过API文档驱动的语义分区与智能变异策略，系统化检测调用API的LLM智能体在自然语言指令下的意图完整性偏差，显著提升错误发现率与查询效率。

主体
随着LLM智能体通过自然语言调用API实现任务自动化，其核心痛点在于外部工具包迭代时容易曲解用户意图，导致执行动作偏离原始目标。传统软件测试方法依赖结构化输入，难以应对自然语言的模糊性，而现有基准测试又局限于固定用例或对抗样本，缺乏对真实场景中语义漂移的系统化检测。作者指出这一空白领域的关键在于如何构建既保留用户意图本质、又能暴露智能体理解偏差的测试用例。

为解决该问题，研究团队提出IntenTest框架，其创新性体现在三个层面：首先基于工具包API文档构建语义分区，将自然语言任务按参数类型和等价类归入不同逻辑组，形成结构化测试空间；其次设计轻量级预测器对种子任务进行定向变异，通过扰动API参数生成保留核心意图但可能触发错误的任务变体；最后引入数据类型感知的策略记忆库，动态复用历史有效的变异模式以提升效率。这种组合策略使得测试过程既能覆盖API调用的语义边界，又避免盲目生成无效用例。

在80个工具包API的实验中，IntenTest的错误暴露率比基线方法平均提升2.3倍，且仅需1/5的查询量即可达到相同覆盖率。特别值得注意的是，框架展现出良好的迁移能力——用小规模LLM生成的测试用例能有效检测更强目标模型的缺陷，且能自适应跨领域API的演化。实验中的典型案例显示，智能体在处理"将图片亮度提高50%"的变体指令时，会错误调用对比度调整API，这种语义层面的偏差被传统方法完全遗漏，而IntenTest通过参数等价类变异成功捕获。

最后一句
该研究为LLM智能体的意图一致性验证提供了可扩展的方法论，其文档驱动与自适应变异的思路，为构建面向动态API生态的可靠性测试体系开辟了新路径。