DeepSeek上新，“奥数金牌水平”

（由多段落组成）：

2025年11月27日晚间，中国AI公司DeepSeek在Hugging Face平台悄然发布了一款全新的开源数学大模型——DeepSeek-Math-V2，迅速引发全球人工智能社区的广泛关注。这款模型不仅是业内首个达到国际数学奥林匹克竞赛（IMO）金牌水平并全面开源的AI系统，更标志着中国在高阶推理型人工智能领域迈出了关键一步。

根据同步公开的技术论文《DeepSeek Math-V2：迈向可自验证的数学推理》，该模型在多项数学基准测试中表现卓越。尤其在基础推理任务（Basic Benchmark）上，Math-V2取得了接近99%的惊人准确率，远超谷歌Gemini DeepThink（IMO Gold版）89%的成绩。尽管在更具挑战性的Advanced子集上以61.9%略低于Gemini的65.7%，但其整体推理能力已处于行业领先梯队。

与传统依赖答案监督训练的AI不同，DeepSeek-Math-V2实现了从“结果导向”到“过程导向”的重大转变。团队指出，当前多数AI模型仅以最终答案正确性作为训练信号，难以保证推理链条的严谨性。而数学证明等复杂任务需要的是步步为营的逻辑推导。为此，DeepSeek引入了自我验证机制，让模型能够自主审查和修正推理过程，显著提升了解题的可靠性和泛化能力。

实测结果显示，Math-V2在IMO 2025和CMO 2024等顶级数学赛事中稳定斩获金牌级别成绩，并在被誉为“最难本科数学竞赛”的Putnam 2024中取得118/120的接近满分表现，充分展示了其强大的定理证明与深度推理能力。值得注意的是，这一成就并未依赖海量标注数据，而是通过模拟数学家的思维流程进行训练，代表了AI向真正“理解”数学迈出了重要一步。

随着OpenAI推出GPT-5.1、xAI发布Grok 4.1、谷歌上线Gemini 3系列，AI大模型竞争进入白热化阶段。在此背景下，DeepSeek此次低调开源Math-V2被海外网友称为“鲸鱼归来”，更有评论预测：“这只是开始，他们一定还藏着更强的编程模型。”目前，业界正密切关注DeepSeek下一步动作，尤其是其旗舰通用大模型的更新动态。

这一突破不仅推动了AI在数学领域的边界，也为科学研究、形式化验证、自动定理证明等领域提供了新的技术路径。未来，具备自我验证能力的AI或将助力人类攻克更多尚未解决的数学难题，开启智能科研的新篇章。

DeepSeek-Math-V2, 数学大模型, 开源AI, 自我验证推理, IMO金牌水平

本文来源：