250617_AutoGEEval++: A Multi-Level and Multi-Geospatial-Modality Automated Evaluation Framework for Large Language Models in Geospatial Code Generation on Google Earth Engine¶
论文信息
标题: AutoGEEval++: A Multi-Level and Multi-Geospatial-Modality Automated Evaluation Framework for Large Language Models in Geospatial Code Generation on Google Earth Engine
arXiv ID: 2506.10365
作者: Authors:Shuyang Hou, Zhangxiao Shen, Huayi Wu, Haoyue Jiao, Ziqi Liu, Lutong Xie, Chang Liu, Jianyuan Liang, Yaxian Qing, Xiaopu Zhang, Dehua Peng, Zhipeng Gui, Xuefeng Guan
发表日期: 2025-06-12T05:42:37+00:00
论文链接: 2506.10365
总结生成时间: 2025-06-17 19:26:49
一句话概要
AutoGEEval++通过构建多模态、多任务复杂度的自动化评估框架,首次为Google Earth Engine地理空间代码生成的LLM建立了标准化评测基准,揭示了不同模型在垂直领域的性能差异。
主体
随着人工智能与地理空间分析的深度融合,地理空间代码生成成为关键研究方向,但缺乏标准化评估工具的问题长期存在。作者指出,现有评测方法难以覆盖Google Earth Engine(GEE)平台上多样化的数据类型(如遥感影像、矢量数据)和任务复杂度(从基础单元操作到主题分析),导致模型性能评估碎片化。这一空白阻碍了领域专用大语言模型的优化与横向比较。
为解决该问题,研究团队在AutoGEEval基础上提出增强框架AutoGEEval++,其核心创新在于构建了支持26种数据类型、6365个测试用例的基准数据集AutoGEEval++-Bench,涵盖单元测试、组合测试和主题测试三类任务。框架通过Python API集成GEE执行环境,采用提交程序与裁判模块组成的端到端流水线,实现从代码生成到执行验证的全流程自动化。评测维度突破传统准确率指标,引入资源占用、运行时效率、错误类型分析等多元指标,特别设计了控制幻觉与边界测试的机制。例如,通过监测内存溢出和API误用等12类错误模式,系统能精准定位模型在空间投影转换、波段计算等专业场景的缺陷。
实验验证环节,作者对24种前沿LLM(包括通用型、推理增强型、代码专用型和地学领域模型)展开横向评测。结果显示,不同模型在任务类型和部署环境下的表现存在显著差异:代码专用模型在单元测试中准确率超80%,但在主题测试中下降至42%;地学领域模型虽稳定性更优,却受限于训练数据时效性。这些发现不仅证实了框架的评估效能,还揭示了领域知识注入与代码生成能力的非线性关系。框架的扩展性在新增冰川监测等5类地学任务测试中得到进一步验证。
最后一句
该研究为垂直领域代码生成评估提供了方法论范式,其模块化设计思路可延伸至气象、海洋等其他地理空间子领域,推动AI与专业科学的交叉创新。