标签：编程能力

DeepSeek R1新版发布，开源AI编程能力与性能对比引发外国网友热议，智能指数再创新高

几天前，DeepSeek 在没有预热和发布会的情况下低调发布了 DeepSeek R1（0528）的更新。这次更新引起了海外媒体的广泛关注，尤其是其幻觉率削减了约 45%-50%，性能接近 OpenAI 的 o3 和 Google 的 Gemini 2.5 Pro。开发者和研究人员在社交媒体上热议这一新版本的能力，尤其是在与科技巨头旗舰模型的对比中。在 reddit 和其他 AI 社区中，用户们对 DeepSeek R1 的表现进行了测试和讨论。有用户表示，R1 在 LiveCodeBench 上的表现几乎与 OpenAI 的 O3 模型持平，这被视为开源社区的巨大胜利。此外，R1 在数学问题和编程方面...

来源：

iFeng科技【阅读原文】
Tags：DeepSeek-R1 开源 AI 性能对比智能指数编程能力

1年前 (2025)

GPT-4.1与Gemini系列人工智能模型编程能力对比：非推理模型领域谁主沉浮？

（由多段落组成）：随着人工智能技术的快速发展，各大科技公司不断推出更强大的模型。近日，OpenAI 发布了全新的 GPT-4.1 系列模型，包括 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。尽管这些新模型在性能上较之前的 GPT-4o 系列有了显著提升，但与谷歌的 Gemini 系列相比，仍存在一定差距。根据官方提供的数据，在编程能力方面，GPT-4.1 表现出色。例如，在 SWE-bench Verified 测试中，GPT-4.1 的得分达到了 54.6%，远超 GPT-4o 的 21.4% 和 GPT-4.5 的 26.6%。然而，多位专家测试后指出，GPT-4.1 在某些关键指标上仍落...

来源：

IT之家【阅读原文】
Tags：Gemini 系列 GPT-4.1 人工智能模型编程能力非推理模型

1年前 (2025)

Optimus Alpha与Quasar Alpha：探索大模型编程能力，揭秘GPT-4.1上线3天被玩疯的OpenAI神秘痕迹

整理后的 #（由多段落组成）最近，一款神秘的大语言模型在上线仅三天的时间内就引发了广泛关注。这款名为Optimus Alpha的模型由大模型聚合平台OpenRouter推出，其强大的性能令人印象深刻。据数据显示，Optimus Alpha已经处理了772亿个Token，平均每天超过200亿。目前，它的日Token处理量已突破340亿，在所有模型中排名第二，并稳居Trending榜单首位。网友们纷纷对Optimus Alpha进行了测试。有人用它挑战了MC-Bench生成《我的世界》风格场景的任务，结果发现其表现远超4o-mini。此外，还有人对其编程能力进行了系统评估...

来源：

快科技【阅读原文】
Tags：（5个） OpenAI Optimus Alpha Quasar Alpha 大模型编程能力

1年前 (2025)