250615_Deployability-Centric Infrastructure-as-Code Generation: An LLM-based Iterative Framework


论文信息

  • 标题: Deployability-Centric Infrastructure-as-Code Generation: An LLM-based Iterative Framework

  • arXiv ID: 2506.05623

  • 作者: Authors:Tianyi Zhang, Shidong Pan, Zejun Zhang, Zhenchang Xing, Xiaoyu Sun

  • 发表日期: 2025-06-05T22:53:12+00:00

  • 论文链接: 2506.05623

  • 总结生成时间: 2025-06-15 19:24:22


一句话概要
该研究通过提出基于大语言模型的迭代框架IaCGen和可部署性评估基准DPIaC-Eval,显著提升了基础设施即代码(IaC)模板的生成质量,将部署成功率从不足30%提升至98%,同时揭示了用户意图对齐与安全合规性等亟待解决的挑战。

主体
当前基础设施即代码(IaC)生成领域存在一个关键矛盾:尽管大语言模型(LLM)能够将自然语言描述转化为代码模板,但现有研究过度关注语法正确性,而忽视了可部署性这一核心指标。作者指出,像Claude-3.5等先进模型的首轮部署成功率仅为30%左右,这种"纸上谈兵"式的评估严重制约了IaC在实际生产环境中的应用价值。

为解决这一问题,研究团队构建了一个双管齐下的解决方案。技术层面提出的IaCGen框架创新性地引入迭代反馈机制,通过多轮部署测试生成的错误信息动态优化LLM输出;评估层面则建立了包含153个真实场景的DPIaC-Eval基准,首次实现对语法、部署、用户意图和安全性的四维量化评估。实验数据显示,经过25次迭代优化后,所有测试模型的部署成功率均突破90%,其中Claude-3.5更是达到98%的惊人水平,验证了迭代机制对提升可部署性的决定性作用。

然而,亮眼数据背后仍存在显著短板。在用户意图准确率(25.2%)和安全合规通过率(8.4%)两个维度上,现有技术表现堪忧。特别是安全评估中暴露的配置漏洞,反映出LLM在理解基础设施隐性约束方面的局限性。这些发现为后续研究指明了方向——需要在语义理解与领域知识融合方面实现突破。

最后一句
这项研究不仅重新定义了IaC生成的评估范式,其揭示的技术瓶颈也将推动AI驱动的基础设施自动化向安全可信、意图感知的更高阶段演进。