标签:普特南测试

NDeepSeek-Prover:基于强化学习的数学定理证明模型,在普特南测试与miniF2F中展现卓越性能,7B参数小模型竟自主发现连671B大模型也望尘莫及的新技能!

DeepSeek再次展现强大实力!全新推出的数学定理证明模型大幅提升了多个高难度基准测试的表现。在普特南测试中,新模型DeepSeek-Prover-V2成功解决了49道题目,成为当前表现最为突出的模型之一。相比之下,目前排名第一的Kimina-Prover(由Kimi与AIME2024冠军团队Numina合作开发)仅在657道题中解出10道。而未针对定理证明优化的DeepSeek-R1则仅解出1道题,这使得尚未发布的R2备受期待。 此外,在研究论文中还特别提到了“通过强化学习发现新技能”的现象。例如,参数量较小的DeepSeek-Prover-V2-7B在非链式思维(non-CoT)生...