DeepSeek R1新版发布，开源AI编程能力与性能对比引发外国网友热议，智能指数再创新高

每日AI快讯1年前 (2025)发布 AI部落小助手

几天前，DeepSeek 在没有预热和发布会的情况下低调发布了 DeepSeek R1（0528）的更新。这次更新引起了海外媒体的广泛关注，尤其是其幻觉率削减了约 45%-50%，性能接近 OpenAI 的 o3 和 Google 的 Gemini 2.5 Pro。开发者和研究人员在社交媒体上热议这一新版本的能力，尤其是在与科技巨头旗舰模型的对比中。

在 reddit 和其他 AI 社区中，用户们对 DeepSeek R1 的表现进行了测试和讨论。有用户表示，R1 在 LiveCodeBench 上的表现几乎与 OpenAI 的 O3 模型持平，这被视为开源社区的巨大胜利。此外，R1 在数学问题和编程方面表现出色，尤其是在处理复杂积分或递归函数时，显示出了更长远的思考能力。

DeepSeek 官方称，更新后的 R1 在多个基准测评中取得了优异成绩，接近国际顶尖模型的水平。新版本提升了模型的思维深度、推理能力和工具调用功能，并优化了创意写作和长篇作品生成。尽管如此，DeepSeek 承认其工具调用能力仍落后于 OpenAI 的 o3-High 和 Claude 4 Sonnet。

DeepSeek 还提到，R1 在前端代码生成和角色扮演领域有所提升。其超长的记忆跨度和语境持久性使其在对话连贯性方面表现出色。一些用户称赞 R1 在实际商业应用中的表现，甚至在所有测试中获得满分。

X 平台上也有用户分享了他们使用 DeepSeek R1 的体验，尤其强调了其编程能力的显著改进。分析机构 Artificial Analysis 表示，DeepSeek 的智能指数超越了 xAI、Meta 和 Anthropic，接近 Google 的 Gemini 2.5 Pro。然而，也有用户指出 DeepSeek 的上下文窗口限制和与其他顶级模型的差距。

除了技术能力，DeepSeek 的开源策略也受到了广泛赞誉。Y Combinator 的 Hacker News 论坛上，用户们讨论了何为真正的“开源”，并称赞 DeepSeek 公开模型权重的做法。尽管 R1 是一个拥有 6710 亿参数的巨型模型，但其低成本和开放权重使其成为许多开发者的首选。

在 reddit 上，用户们对 DeepSeek 的更新既有赞美也有批评。一些人认为 DeepSeek 的更新是对竞争对手的无声打击，而另一些人则质疑其审核机制和训练数据的透明度。尽管如此，DeepSeek 的更新被认为是一个重要的里程碑，推动了开源 AI 社区的发展。

许多人期待 DeepSeek R2 的发布，认为它将进一步缩小与专有模型之间的差距。DeepSeek 的出现迫使 AI 公司在价格和技术上展开竞争，同时也引发了关于开源与闭源 AI 模型优劣的讨论。

本文来源：