250615_Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models¶

论文信息

标题: Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models
arXiv ID: 2506.06137
作者: Authors:Rihui Jin, Zheyu Xin, Xing Xie, Zuoyi Li, Guilin Qi, Yongrui Chen, Xinbang Dai, Tongtong Wu, Gholamreza Haffari
发表日期: 2025-06-06T14:52:19+00:00
论文链接: 2506.06137
总结生成时间: 2025-06-15 19:24:22

一句话概要
Table-r1通过自监督布局转换推理与混合范式强化学习，显著提升了小型语言模型在基于程序的表格推理任务中的性能，使其在多项基准测试中达到与大型语言模型相当的水平。

主体
表格推理任务要求模型对半结构化表格数据进行复杂逻辑推演，这对参数量有限的小型语言模型（如LLaMA-8B）尤为困难。传统文本式推理（T-TR）在数值计算等场景存在明显缺陷，而基于程序生成的推理（P-TR）虽能通过执行代码提升准确性，却面临两大挑战：表格布局多样性导致的泛化能力不足，以及小型模型代码生成能力薄弱引发的推理不一致问题。

作者提出的Table-r1采用两阶段框架破解这一困境。第一阶段设计自监督布局转换推理任务，通过程序化视角重构表格结构（如行列转置、键值重组），迫使模型学习布局无关的语义表征。第二阶段创新性地融合强化学习与动态回退机制：改进的Group Relative Policy Optimization策略优化程序生成质量，同时允许模型在代码生成失败时自动切换至文本推理模式，形成混合推理范式。这种设计既保障了数值场景的程序化精确处理，又保留了文本模式的容错灵活性。

在四个主流表格推理基准上的实验表明，Table-r1将LLaMA-8B的准确率平均提升15%以上，最高单项提升达21.3%，部分任务性能甚至逼近GPT-4o等大型模型。可视化分析进一步揭示，布局转换预训练使模型对复杂表格的泛化错误率降低47%，而混合推理机制成功处理了12.8%原本会失败的案例。这项研究为资源受限场景下的结构化推理提供了新范式，其"程序优先、文本兜底"的设计哲学可扩展至其他低资源知识推理任务。