250617_LLM-as-a-Judge for Reference-less Automatic Code Validation and Refinement for Natural Language to Bash in IT Automation¶

论文信息

标题: LLM-as-a-Judge for Reference-less Automatic Code Validation and Refinement for Natural Language to Bash in IT Automation
arXiv ID: 2506.11237
作者: Authors:Ngoc Phuoc An Vo, Brent Paulovicks, Vadim Sheinin
发表日期: 2025-06-12T19:15:05+00:00
论文链接: 2506.11237
总结生成时间: 2025-06-17 19:26:49

一句话概要
该研究提出了一种基于大语言模型（LLM）的自动化评估框架，用于无参考场景下的Bash代码验证与优化，显著提升了IT自动化中自然语言到Bash脚本生成的准确性与功能性。

主体
在IT自动化领域，如何高效验证自然语言生成的Bash代码是否具备正确的语法、语义及执行效果，一直是核心挑战。传统方法依赖表面形式匹配（如令牌匹配）或基于测试用例的执行验证，前者难以捕捉逻辑正确性，后者则受限于测试覆盖范围。作者指出，现有方案无法平衡评估效率与深度，亟需一种无需人工参考标准的自动化评估机制。

为此，研究创新性地采用"LLM-as-a-Judge"范式，通过双向功能匹配与逻辑表示增强评估能力。该方法首先将自然语言指令与生成的Bash代码双向映射，确保两者在功能意图上的一致性；其次引入结构化逻辑表示，使LLM能深度分析代码的潜在执行逻辑。为验证有效性，作者以执行测试结果为基准，对比发现该框架评估准确率超越基线8%，且与真实执行结果高度吻合。更关键的是，基于评估反馈构建的"Reflection代码代理"能自动优化初始生成代码，最终实现24%的准确率提升。

启示
这项研究为无参考环境下的代码质量评估提供了可扩展的解决方案，其双向功能匹配机制与逻辑表示方法或可推广至其他编程语言的自动化生成场景。