250617_code_transformed: The Influence of Large Language Models on Code


论文信息

  • 标题: code_transformed: The Influence of Large Language Models on Code

  • arXiv ID: 2506.12014

  • 作者: Authors:Yuliang Xu, Siming Huang, Mingmeng Geng, Yao Wan, Xuanhua Shi, Dongping Chen

  • 发表日期: 2025-06-13T17:59:39+00:00

  • 论文链接: 2506.12014

  • 总结生成时间: 2025-06-17 19:26:49


一句话概要
大型语言模型(LLMs)正在重塑编程实践,作者通过分析19,000多个GitHub仓库的代码,首次实证了LLMs对现实世界代码风格(如命名规范、复杂度)的显著影响。

主体
随着LLMs代码生成能力的快速发展,一个核心问题浮出水面:这些模型是否改变了人类编写代码的风格特征?作者敏锐地捕捉到这一研究空白,将焦点放在命名惯例、代码复杂度、可维护性和相似性等维度上。通过构建跨越2020至2025年的超大规模数据集——涵盖与arXiv论文关联的19,000余个GitHub仓库,研究团队设计了一套量化分析框架,追踪代码风格的演变轨迹与LLMs生成特征的关联性。

为揭示LLMs对编程实践的影响机制,作者采用了多角度验证策略。一方面,通过统计指标捕捉代码风格的宏观变迁,例如Python代码中snake_case变量命名比例从2023年初的47%上升至2025年初的51%,这与主流LLMs的输出偏好高度吻合;另一方面,深入分析LLMs解决算法问题的推理过程,发现其生成的代码往往呈现出特定的结构模式和复杂度分布特征。尽管由于模型多样性和使用场景的复杂性,精确量化LLMs参与代码的比例存在挑战,但通过风格特征的聚类分析和时间序列对比,研究仍建立了可靠的因果推断链条。

实验验证
实证结果显示,LLMs的影响已渗透到现实编程生态中。除命名规范外,代码库的平均圈复杂度呈现下降趋势,而模块化程度和注释完整性则显著提升,这些变化与LLMs倾向于生成标准化、高可读性代码的特性一致。值得注意的是,不同编程语言受影响的强度存在差异,Python和JavaScript等动态类型语言的表现尤为明显。研究还通过可视化对比展示了人类编写代码与LLMs生成代码在抽象层次和控制流结构上的分异,为后续研究提供了可复用的分析范式。

启示
这项工作为理解AI与人类协同编程的长期影响奠定了基础,其方法论框架可扩展至代码质量评估、教育实践优化等场景,同时也警示需要建立新的代码溯源和伦理审查机制。