250617_code_transformed: The Influence of Large Language Models on Code¶

论文信息

标题: code_transformed: The Influence of Large Language Models on Code
arXiv ID: 2506.12014
作者: Authors:Yuliang Xu, Siming Huang, Mingmeng Geng, Yao Wan, Xuanhua Shi, Dongping Chen
发表日期: 2025-06-13T17:59:39+00:00
论文链接: 2506.12014
总结生成时间: 2025-06-17 19:26:49

一句话概要
大型语言模型（LLMs）正在重塑编程实践，作者通过分析19,000多个GitHub仓库的代码，首次实证了LLMs对现实世界代码风格（如命名规范、复杂度）的显著影响。

主体
随着LLMs代码生成能力的快速发展，一个核心问题浮出水面：这些模型是否改变了人类编写代码的风格特征？作者敏锐地捕捉到这一研究空白，将焦点放在命名惯例、代码复杂度、可维护性和相似性等维度上。通过构建跨越2020至2025年的超大规模数据集——涵盖与arXiv论文关联的19,000余个GitHub仓库，研究团队设计了一套量化分析框架，追踪代码风格的演变轨迹与LLMs生成特征的关联性。

为揭示LLMs对编程实践的影响机制，作者采用了多角度验证策略。一方面，通过统计指标捕捉代码风格的宏观变迁，例如Python代码中snake_case变量命名比例从2023年初的47%上升至2025年初的51%，这与主流LLMs的输出偏好高度吻合；另一方面，深入分析LLMs解决算法问题的推理过程，发现其生成的代码往往呈现出特定的结构模式和复杂度分布特征。尽管由于模型多样性和使用场景的复杂性，精确量化LLMs参与代码的比例存在挑战，但通过风格特征的聚类分析和时间序列对比，研究仍建立了可靠的因果推断链条。

实验验证
实证结果显示，LLMs的影响已渗透到现实编程生态中。除命名规范外，代码库的平均圈复杂度呈现下降趋势，而模块化程度和注释完整性则显著提升，这些变化与LLMs倾向于生成标准化、高可读性代码的特性一致。值得注意的是，不同编程语言受影响的强度存在差异，Python和JavaScript等动态类型语言的表现尤为明显。研究还通过可视化对比展示了人类编写代码与LLMs生成代码在抽象层次和控制流结构上的分异，为后续研究提供了可复用的分析范式。

启示
这项工作为理解AI与人类协同编程的长期影响奠定了基础，其方法论框架可扩展至代码质量评估、教育实践优化等场景，同时也警示需要建立新的代码溯源和伦理审查机制。