标签:推理时间扩展
DeepSeek公布推理时Scaling新论文:自我原则批评调整(SPCT)、元奖励模型(meta RM)与强化学习(RL)结合,或预示R2到来,探索推理时间扩展的深远影响。
这可能是 DeepSeek R2 的雏形吗?上周五,DeepSeek 在 arXiv 上提交的一篇最新论文正在 AI 社区内引发热议。目前,强化学习(RL)已被广泛应用于大语言模型(LLM)的后期训练中。最近的研究表明,通过适当的 RL 方法可以显著提升 LLM 的推理能力,从而实现高效的推理时间扩展性。 然而,RL 面临的一个关键挑战是如何在可验证问题或人工规则之外的领域获取准确的奖励信号。上周五提交的一项研究中,来自 DeepSeek 和清华大学的研究人员探索了奖励模型(RM)的不同方法,并发现逐点生成奖励模型(GRM)能够统一纯语言表示中单...