DeepSeek R1新版深度学习模型发布,编程能力优化显著,开源胜利直追OpenAI o3性能表现实测

DeepSeek新版R1强势发布:直追OpenAI o3!实测揭秘“小版本升级”背后的大动作

网友热议:开源的胜利
量子位报道,DeepSeek在端午节前推出了新版本——DeepSeek-R1-0528。从名字上看,这似乎只是一次小版本更新,但实际上却让人眼前一亮。根据实测结果,这款新模型在LiveCodeBench上的表现几乎与OpenAI的o3-high持平!不少网友甚至戏称:“这不就是R2吗?”

新版R1不仅解决了旧版的一些问题,还成功应对了诸如“9.9-9.11=?”这样的难题,这一问题曾难倒了包括o3、Gemini 2.5 pro和Claude 4在内的多个顶流大模型。新模型已经以MIT协议的形式在HuggingFace上发布,并且官方正在整理更多更新亮点。

新版R1的亮点功能
虽然官方尚未正式发布模型卡,但网友们已经总结出了新版本的主要改进点:
1. 深入推理能力:能够像Google模型一样进行复杂的逻辑推理。
2. 写作任务优化:生成更加自然,格式也更符合规范。
3. 独特的推理风格:既快速又深思熟虑,适合多场景应用。
4. 长时间思考支持:每个任务最长可思考30-60分钟,适用于复杂任务处理。

实测体验:经典难题轻松解决
根据DeepSeek官方信息,目前官方网站、App和小程序均已上线R1-0528版本。我们尝试用一道经典题测试其推理能力——“如何让7米长的甘蔗通过2米高、1米宽的门?”

新R1用了整整151秒进行深度思考,并给出了一些切实可行的解决方案。此外,它还会考虑答案是否有趣,并试图用幽默的方式回应提问者。

编程能力方面,新版R1也有显著提升。我们尝试了一个简单的提示词:“用Three.js模拟太阳系,鼠标悬停在星球上时显示星球名称。”仅用24秒,新R1就完成了设计思路,并生成了包含动画、交互和光影效果的完整代码。

前端设计方面,结合上传的一篇论文附件,新R1能够快速设计出一个介绍自身的网页。这一功能让用户感叹:“以后写小作文或者制作网页可以直接交给DeepSeek完成!”

乌龙事件与V3升级背景
值得一提的是,前几天社区曾流传过一个“DeepSeek-V3-0526”的乌龙事件。原来,Unsloth为了抢首发消息准备了一篇文章模板,却被搜索引擎误爬取,导致社区一度疯传。事后回顾,大家发现这一事件并非空穴来风。

事实上,今年3月DeepSeek对V3进行的所谓“小版本升级”,实际上带来了极大的性能提升。当时网友们的评价是:“这都算小什么算大!”而现在的R1-0528,很可能就是在V3-0324的基础上进一步优化的结果。

开源的力量
随着更多测试结果的呈现,可以肯定的是,DeepSeek的新版本再次证明了开源的优势。它不仅在性能上媲美闭源的o3和Claude 4,还在灵活性和可扩展性上占据优势。正如网友们所言:“这是开源的一大胜利!”

HuggingFace地址:[https://huggingface.co/deepseek-ai/DeepSeek-R1-0528](https://huggingface.co/deepseek-ai/DeepSeek-R1-0528)

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...