250615_DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation¶

论文信息

标题: DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation
arXiv ID: 2506.06251
作者: Authors:Jingyu Xiao, Ming Wang, Man Ho Lam, Yuxuan Wan, Junliang Liu, Yintong Huo, Michael R. Lyu
发表日期: 2025-06-06T17:21:21+00:00
论文链接: 2506.06251
总结生成时间: 2025-06-15 19:24:22

一句话概要
DesignBench 通过构建多框架、多任务的前端代码生成基准测试，系统评估了多模态大语言模型在自动化前端工程中的能力与局限。

主体
当前多模态大语言模型（MLLMs）在自动化前端工程中展现出生成 UI 代码的潜力，但现有评测基准存在显著缺陷：仅关注基础代码生成任务，忽略了主流开发框架（如 React、Vue）的适配性，且未覆盖实际开发中常见的编辑、修复等迭代流程，评测维度也过于单一。这些局限使得现有基准难以真实反映 MLLMs 在复杂场景下的实用价值。

为解决这一问题，作者提出了 DesignBench——一个涵盖三大主流框架（React、Vue、Angular）和原生 HTML/CSS 的综合性评测体系。该基准不仅包含代码生成任务，还模拟真实开发流程设计了代码编辑与缺陷修复任务，并通过 900 个网页样本构建了多维评估场景（覆盖 11 类主题、9 种编辑类型和 6 类问题）。这种设计首次实现了对 MLLMs 在框架兼容性、任务适应性及上下文敏感性等方面的系统性分析。

实验结果表明，不同 MLLMs 在框架支持度上存在显著差异，例如对 React 的代码生成准确率普遍高于 Angular；而在任务维度上，模型修复复杂 CSS 布局问题的能力明显弱于基础代码生成。这些发现揭示了当前技术的瓶颈，例如模型对框架语法的理解深度不足，以及跨任务泛化能力的局限性。DesignBench 的细粒度评估为优化模型架构和训练策略提供了明确方向。

最后一句
该研究为自动化前端开发工具的演进建立了可扩展的评估范式，其多任务协同评测框架或可启发其他领域代码生成技术的基准设计。