250615_KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes¶

论文信息

标题: KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes
arXiv ID: 2506.06541
作者: Authors:Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Sivaprasad Sudhir, Om Chabra, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim Kraska
发表日期: 2025-06-06T21:18:45+00:00
论文链接: 2506.06541
总结生成时间: 2025-06-15 19:24:22

一句话概要
研究团队提出KRAMABENCH基准测试，用于评估AI系统在真实数据湖场景下构建端到端数据科学管道的综合能力，揭示了当前模型在复杂数据处理与领域知识融合方面的局限性。

主体
当前AI系统虽在代码生成和逻辑推理方面表现突出，但其能否胜任真实场景中从异构数据源提取、清洗到分析的全流程数据科学任务仍缺乏系统评估。作者指出，这类任务需要同时处理数据发现、跨源整合、高效计算和统计推理等挑战，而现有基准多聚焦孤立环节，难以反映实际复杂度。为此，研究团队构建了包含104个真实数据管道的KRAMABENCH测试集，覆盖6大领域的1700个数据文件和24种数据源，每个案例均需模型完成从高层目标分解到具体代码实现的全链条设计。

为解决评估框架缺失的问题，作者开发了DS-GURU参考系统，通过任务分解、分步推理和Python代码合成的三阶段流程引导AI模型。实验对比了5类通用模型和3种代码生成模型的表现，发现尽管模型在明确规范的任务（如单步数据清洗）上表现尚可，但面对需要领域知识驱动的多步骤编排（如医疗数据的时间序列对齐与异常检测联合处理）时，现有模型的成功率不足40%。尤其当任务涉及跨模态数据关联或模糊语义理解时，模型常出现逻辑断层或无效代码生成。

最后一句
这项研究为开发具备真实世界问题解决能力的自主数据科学代理指明了方向，强调未来模型需在领域知识嵌入与多步骤规划能力上实现突破。