(由多段落组成):
近年来,随着大模型在推理能力上的飞速进步,强化学习(RL)尤其是可验证奖励强化学习(RLVR),已成为提升模型数学、编程和逻辑推理能力的关键技术。然而,一个长期困扰研究者的现象是:为何RL训练能带来显著性能飞跃,却只对极少数参数产生明显改动?这一“高收益、低参数变化”的悖论,在Meta前核心成员田渊栋及其团队的最新论文中得到了深入剖析。
该研究聚焦于RLVR训练过程中的参数更新机制,揭示了表面稀疏性背后的深层规律。通过对Qwen系列、DeepSeek-R1-Distill-Qwen等多个开源模型进行长达3000步以上的训练分析,团队发现,尽管监督微调(SFT)通常会密集修改参数(稀疏度仅0.6%~18.8%),而RL训练的参数更新稀疏度却高达36%至92%,相差一个数量级。但这并不意味着RL的影响更小——相反,这种“精准打击”式更新背后隐藏着一种系统性的优化偏好。
为解释这一现象,研究团队提出了全新的“三门理论”(Three-Gate Theory),系统阐述了RL参数更新如何被层层筛选与引导。第一道关卡是KL锚定机制:无论是否显式加入KL正则项,RL训练本质上都会通过策略梯度中的比例裁剪等方式,施加O(ε²)级别的KL约束,确保输出风格稳定,避免模型偏离原始行为模式。这就像给模型戴上了“缰绳”,限制其参数大幅漂移。
第二道门槛来自模型本身的几何结构。预训练模型并非平坦空间,而是具有高度非线性的曲率分布。研究发现,RL更新倾向于避开高曲率区域(如主成分方向),这些区域虽然响应强烈,但容易破坏原有知识结构;反而偏好低曲率、低幅度权重区域,这些位置更稳定,适合渐进式优化。相比之下,SFT因追求快速拟合标签,常冲击高曲率区,可能导致泛化能力下降。
第三道过滤机制则是数值精度的隐性作用。当前主流使用bfloat16进行训练,仅有7位尾数精度,导致小于单位最低位(ULP)的微小更新无法保留。这就像是一个“隐形滤网”,掩盖了大量细微但持续的参数调整。实验表明,若改用float32等更高精度格式,可观测到更多参数发生变化,证明RL的真实更新远比表面看到的要广泛。
进一步的实证分析也支持了这一结论。通过奇异值分解(SVD)重构,研究人员发现RL更新与主成分权重重叠度显著低于随机水平,而与低幅值权重高度相关。因果实验中,人为打乱特定层的几何结构后,原本集中的更新变得随机分布,证实了预训练模型内在几何决定了RL的优化路径。光谱分析同样显示,RL检查点的主子空间旋转一致、谱漂移极小,说明其保持了模型整体结构的稳定性。
这项研究不仅破解了RL训练中的“稀疏更新之谜”,还对现有参数高效微调方法(PEFT)提出了重要警示。例如,许多基于低秩假设或主成分对齐的技术(如PiSSA),在SFT场景表现良好,但在RLVR中效果不佳甚至引发训练崩溃。原因在于它们强制沿高曲率方向更新,恰好触碰到了RL天然规避的风险区域。反观那些专注于非主成分、低幅度子空间的方法,则能更好复现全参数RL训练轨迹。
综上所述,这篇论文不仅是对RL训练动态的一次深刻洞察,也为未来高效、稳定的强化学习算法设计提供了理论基础。随着越来越多顶尖人才从Meta等大厂流向学界与创业领域,这类高质量研究成果或将愈发珍贵——每一篇都可能是他们阶段性思想的结晶,值得深度研读与传播。
强化学习, 大模型训练, 参数高效微调, 模型几何结构, RLVR
本文来源:
量子位【阅读原文】

