标签：大模型竞技场

DeepSeek-R2神秘现身大模型竞技场，Steve模型身份成谜引发热议

神秘模型steve现身竞技场，自称来自DeepSeek 近日，在知名大模型评测平台“大模型竞技场”中，一个名为 steve 的神秘模型悄然上线，引发网友热议。尽管在公开页面上无法直接搜索到该模型的信息，但通过查看前端代码，仍然能发现它的存在痕迹。令人意外的是，当用户询问其开发机构时，steve明确回应称自己来自于 DeepSeek。这一回答迅速点燃了社区讨论的热情：它究竟是传闻已久的 DeepSeek-R2？还是 V4？亦或是某个旧版本的升级版？ steve身份成谜，网友众说纷纭关于steve的真实身份，网友们展开了激烈讨论。有人认为它是...

来源：

量子位【阅读原文】
Tags：- AI模型评测 DeepSeek DeepSeek R2 Steve模型大模型竞技场

1年前 (2025)

大模型竞技场备受争议：Llama4私下测试27个版本仅取最优成绩，Chatbot Arena中的AI模型评估是否引发排行榜幻觉？

大模型竞技场的可信度再次受到质疑。一篇名为《排行榜幻觉》（The Leaderboard Illusion）的论文在学术界引起了广泛关注。该研究指出，作为LLM领域首选排行榜的Chatbot Arena存在诸多系统性问题。私下测试与选择性公开一些大型科技公司可以在发布前私下测试多个模型版本。例如，Llama4在正式发布前曾测试了27个版本，并仅公开最佳表现结果。这种做法引发了对公平性的质疑。此外，专有模型获得的用户反馈数据显著多于开源模型，进一步加剧了数据访问的不平等。竞技场数据训练的影响研究表明，使用Arena数据进行训练可...

来源：

量子位【阅读原文】
Tags：AI模型评估 Chatbot Arena Llama4 大模型竞技场排行榜幻觉

1年前 (2025)

谷歌Gemini大模型在AI编程领域全面屠榜，称霸大模型竞技场！SWE-bench verified认证，Humanitas Last Exam成绩超越OpenAI，免费体验最强推理模型

第一段智东西（公众号：zhidxcom）作者 | 陈骏达编辑 | 心缘智东西3月26日报道，谷歌正式推出了Gemini 2.5思考模型家族的首个成员——Gemini 2.5 Pro实验版本。这款模型在多项基准测试中全面超越了OpenAI o3-mini、Claude 3.7 Sonnet、Grok-3和DeepSeek-R1等竞争对手，并在大模型竞技场获得了1443分，以39分的优势稳居榜首。然而，谷歌并未公开Gemini 2.5 Pro与OpenAI o1、o1-Pro和o3等模型的对比数据。此外，在SWE-bench verified编程评估基准上，其得分略低于Claude 3.7 Sonnet。第二段 Gemini 2.5 Pro不仅在...

来源：

智东西【阅读原文】
Tags：AI编程 Humanitas Last Exam SWE-bench verified 大模型竞技场谷歌Gemini

1年前 (2025)

国产大模型 Yi-Lightning 在大模型竞技场崭露头角，零一万物与李开复共创新辉煌

近日，国产大模型在国际舞台上取得了令人瞩目的成就。在最新的大模型竞技场（Chatbot Arena）榜单中，国产大模型首次超越了GPT-4o，标志着中国在人工智能领域的显著进步。零一万物作为“大模型六小强”之一，发布了其最新旗舰模型Yi-Lightning（闪电）。这款模型在多项测试中表现出色，不仅在总榜单上位列第六，在数学分榜上更是与GPT-4o-2024-05-13等顶级模型并驾齐驱。此外，Yi-Lightning在代码和其他分榜上也名列前茅，整体表现几乎与马斯克的最新xAI大模型Grok-2-08-13持平。与此同时，清华大学旗下的智谱AI也推出了其...

来源：

量子位【阅读原文】
Tags：Yi-Lightning 国产大模型大模型竞技场李开复零一万物

2年前 (2024)