250617_QiMeng-Attention: SOTA Attention Operator is generated by SOTA Attention Algorithm¶
论文信息
标题: QiMeng-Attention: SOTA Attention Operator is generated by SOTA Attention Algorithm
arXiv ID: 2506.12355
作者: Authors:Qirui Zhou, Shaohui Peng, Weiqiang Xiong, Haixin Chen, Yuanbo Wen, Haochen Li, Ling Li, Qi Guo, Yongwei Zhao, Ke Gao, Ruizhi Chen, Yanjun Wu, Chen Zhao, Yunji Chen
发表日期: 2025-06-14T05:38:19+00:00
论文链接: 2506.12355
总结生成时间: 2025-06-17 19:26:49
一句话概要
QiMeng-Attention 通过设计一种面向大语言模型的思维语言(LLM-TL)和两阶段推理流程,实现了跨 GPU 架构的高性能注意力算子自动生成,解决了现有手动优化方法耗时且硬件依赖性强的问题。
主体
注意力算子在处理长上下文的大语言模型中已成为关键性能瓶颈,而当前主流的 FlashAttention 加速算法需要针对不同 GPU 架构进行耗时的手动优化,严重限制了其通用性。尽管大语言模型在代码生成任务中展现出潜力,但直接生成高性能注意力算子代码仍面临挑战,主要源于模型难以理解复杂的数据流、计算过程以及有效利用底层 GPU 原语。
为解决这一问题,作者提出了一种创新的思维语言 LLM-TL,通过将高层优化逻辑与底层 GPU 实现解耦,显著提升了大语言模型对注意力算子的理解能力。配合两阶段推理流程(TL 代码生成与翻译),该方法能够自动为不同 GPU 生成 FlashAttention 实现,形成了一种自优化的高性能注意力算子生成范式。这种设计不仅降低了硬件适配的复杂度,还使模型能够自主探索最优计算路径。
在 A100、RTX8000 和 T4 等 GPU 上的实验表明,该方法生成的算子性能远超原始大语言模型生成结果,最高加速比达 35.16 倍。更值得注意的是,其表现甚至优于人工优化的 cuDNN 等官方库,同时支持了原有库未覆盖的硬件和数据类型,将开发周期从数月缩短至分钟级。这一突破为注意力机制的硬件适配提供了标准化解决方案,同时验证了大语言模型在复杂系统优化中的潜力。
最后一句
该研究为自动生成高性能计算内核开辟了新路径,未来或可扩展至其他计算密集型算子的跨平台优化领域。