DeepSeek上新,“奥数金牌水平”

(由多段落组成):

2025年11月27日晚间,中国AI公司DeepSeek在Hugging Face平台悄然发布了一款全新的开源数学大模型——DeepSeek-Math-V2,迅速引发全球人工智能社区的广泛关注。这款模型不仅是业内首个达到国际数学奥林匹克竞赛(IMO)金牌水平并全面开源的AI系统,更标志着中国在高阶推理型人工智能领域迈出了关键一步。

根据同步公开的技术论文《DeepSeek Math-V2:迈向可自验证的数学推理》,该模型在多项数学基准测试中表现卓越。尤其在基础推理任务(Basic Benchmark)上,Math-V2取得了接近99%的惊人准确率,远超谷歌Gemini DeepThink(IMO Gold版)89%的成绩。尽管在更具挑战性的Advanced子集上以61.9%略低于Gemini的65.7%,但其整体推理能力已处于行业领先梯队。

与传统依赖答案监督训练的AI不同,DeepSeek-Math-V2实现了从“结果导向”到“过程导向”的重大转变。团队指出,当前多数AI模型仅以最终答案正确性作为训练信号,难以保证推理链条的严谨性。而数学证明等复杂任务需要的是步步为营的逻辑推导。为此,DeepSeek引入了自我验证机制,让模型能够自主审查和修正推理过程,显著提升了解题的可靠性和泛化能力。

实测结果显示,Math-V2在IMO 2025和CMO 2024等顶级数学赛事中稳定斩获金牌级别成绩,并在被誉为“最难本科数学竞赛”的Putnam 2024中取得118/120的接近满分表现,充分展示了其强大的定理证明与深度推理能力。值得注意的是,这一成就并未依赖海量标注数据,而是通过模拟数学家的思维流程进行训练,代表了AI向真正“理解”数学迈出了重要一步。

随着OpenAI推出GPT-5.1、xAI发布Grok 4.1、谷歌上线Gemini 3系列,AI大模型竞争进入白热化阶段。在此背景下,DeepSeek此次低调开源Math-V2被海外网友称为“鲸鱼归来”,更有评论预测:“这只是开始,他们一定还藏着更强的编程模型。”目前,业界正密切关注DeepSeek下一步动作,尤其是其旗舰通用大模型的更新动态。

这一突破不仅推动了AI在数学领域的边界,也为科学研究、形式化验证、自动定理证明等领域提供了新的技术路径。未来,具备自我验证能力的AI或将助力人类攻克更多尚未解决的数学难题,开启智能科研的新篇章。

DeepSeek-Math-V2, 数学大模型, 开源AI, 自我验证推理, IMO金牌水平

本文来源: iFeng科技【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...