250612_PoLAR: Polar-Decomposed Low-Rank Adapter Representation¶
论文信息
标题: PoLAR: Polar-Decomposed Low-Rank Adapter Representation
arXiv ID: 2506.03133
作者: Authors:Kai Lion, Liang Zhang, Bingcong Li, Niao He
发表日期: 2025-06-03T17:58:19+00:00
论文链接: 2506.03133
总结生成时间: 2025-06-12 17:23:10
一句话概要
PoLAR通过极坐标分解重构低秩适配器表示,解决了大模型微调中低稳定秩导致的子空间利用率不足问题,在语言理解、常识推理和数学求解任务上实现了显著性能提升。
主体
当前大模型低秩适配(LoRA)方法面临的核心矛盾在于:虽然理论上分配了足够维度的子空间,但实际微调过程中稳定秩(stable rank)远低于线性代数秩,导致参数空间利用率低下,严重影响模型微调效果。这种现象源于传统低秩参数化方式未能有效约束优化方向,使得参数更新陷入低效状态。
作者提出的PoLAR方法从矩阵极坐标分解获得灵感,将低秩更新矩阵分解为三个关键组件:两个受Stiefel流形约束的方向矩阵和一个无约束的缩放矩阵。这种分解的数学本质在于将参数更新解耦为方向控制和幅度调节,其中方向矩阵的正交性约束确保了子空间基向量的充分利用。理论分析表明,这种参数化方式在典型低秩适应问题上能实现指数级更快的收敛速度。
实验验证覆盖了从3.5亿到270亿参数规模的基座模型,在GLUE通用语言理解基准、CommonsenseQA常识推理数据集和MATH数学问题集上,PoLAR结合黎曼优化的方法均取得稳定提升。可视化分析显示,该方法产生的参数更新矩阵具有更均匀的奇异值分布,证实了其有效提升子空间利用率的核心优势。这种结构化参数化策略为大规模模型的高效适配提供了新的几何视角。
最后一句
该工作揭示的流形约束优化范式,为未来设计更高效的参数高效微调方法开辟了基于微分几何的新研究方向。