DeepSeek R1新版发布,开源AI编程能力与性能对比引发外国网友热议,智能指数再创新高

几天前,DeepSeek 在没有预热和发布会的情况下低调发布了 DeepSeek R1(0528)的更新。这次更新引起了海外媒体的广泛关注,尤其是其幻觉率削减了约 45%-50%,性能接近 OpenAI 的 o3 和 Google 的 Gemini 2.5 Pro。开发者和研究人员在社交媒体上热议这一新版本的能力,尤其是在与科技巨头旗舰模型的对比中。

在 reddit 和其他 AI 社区中,用户们对 DeepSeek R1 的表现进行了测试和讨论。有用户表示,R1 在 LiveCodeBench 上的表现几乎与 OpenAI 的 O3 模型持平,这被视为开源社区的巨大胜利。此外,R1 在数学问题和编程方面表现出色,尤其是在处理复杂积分或递归函数时,显示出了更长远的思考能力。

DeepSeek 官方称,更新后的 R1 在多个基准测评中取得了优异成绩,接近国际顶尖模型的水平。新版本提升了模型的思维深度、推理能力和工具调用功能,并优化了创意写作和长篇作品生成。尽管如此,DeepSeek 承认其工具调用能力仍落后于 OpenAI 的 o3-High 和 Claude 4 Sonnet。

DeepSeek 还提到,R1 在前端代码生成和角色扮演领域有所提升。其超长的记忆跨度和语境持久性使其在对话连贯性方面表现出色。一些用户称赞 R1 在实际商业应用中的表现,甚至在所有测试中获得满分。

X 平台上也有用户分享了他们使用 DeepSeek R1 的体验,尤其强调了其编程能力的显著改进。分析机构 Artificial Analysis 表示,DeepSeek 的智能指数超越了 xAI、Meta 和 Anthropic,接近 Google 的 Gemini 2.5 Pro。然而,也有用户指出 DeepSeek 的上下文窗口限制和与其他顶级模型的差距。

除了技术能力,DeepSeek 的开源策略也受到了广泛赞誉。Y Combinator 的 Hacker News 论坛上,用户们讨论了何为真正的“开源”,并称赞 DeepSeek 公开模型权重的做法。尽管 R1 是一个拥有 6710 亿参数的巨型模型,但其低成本和开放权重使其成为许多开发者的首选。

在 reddit 上,用户们对 DeepSeek 的更新既有赞美也有批评。一些人认为 DeepSeek 的更新是对竞争对手的无声打击,而另一些人则质疑其审核机制和训练数据的透明度。尽管如此,DeepSeek 的更新被认为是一个重要的里程碑,推动了开源 AI 社区的发展。

许多人期待 DeepSeek R2 的发布,认为它将进一步缩小与专有模型之间的差距。DeepSeek 的出现迫使 AI 公司在价格和技术上展开竞争,同时也引发了关于开源与闭源 AI 模型优劣的讨论。

本文来源: iFeng科技【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...