标签：Chatbot Arena

中国AI开源模型强势崛起，多款大模型登顶Chatbot Arena榜单

近日，全球知名AI模型评测平台Chatbot Arena发布了最新一期大模型排行榜，中国AI开源模型表现亮眼，多款国产大模型在榜单中占据前列，甚至在部分领域超越了GPT-4.1、Claude 4等国际顶尖闭源模型。阿里Qwen3、月之暗面Kimi、深度求索DeepSeek强势上榜在大语言模型总榜中，阿里推出的Qwen3-235B-A22B-Instruct-2507位列第三，显示出其在语言理解和生成能力上的强大实力。月之暗面的Kimi-K2-0711-preview与深度求索的DeepSeek-R1-0528并列第五，凭借开源优势赢得了广泛关注。值得一提的是，这些模型均在7月刚刚发布，体现...

来源：

智东西【阅读原文】
Tags：AI大模型 Chatbot Arena Hugging Face 开源模型阿里Qwen3

1年前 (2025)

大模型竞技场备受争议：Llama4私下测试27个版本仅取最优成绩，Chatbot Arena中的AI模型评估是否引发排行榜幻觉？

大模型竞技场的可信度再次受到质疑。一篇名为《排行榜幻觉》（The Leaderboard Illusion）的论文在学术界引起了广泛关注。该研究指出，作为LLM领域首选排行榜的Chatbot Arena存在诸多系统性问题。私下测试与选择性公开一些大型科技公司可以在发布前私下测试多个模型版本。例如，Llama4在正式发布前曾测试了27个版本，并仅公开最佳表现结果。这种做法引发了对公平性的质疑。此外，专有模型获得的用户反馈数据显著多于开源模型，进一步加剧了数据访问的不平等。竞技场数据训练的影响研究表明，使用Arena数据进行训练可...

来源：

量子位【阅读原文】
Tags：AI模型评估 Chatbot Arena Llama4 大模型竞技场排行榜幻觉

1年前 (2025)

Llama 4开源模型在Chatbot Arena中的表现引发DeepSeek关注——Meta遭遇惊魂72小时背后的故事

开源大模型 Llama 4 的发布引发了广泛讨论和争议。自4月5日Meta正式推出Llama 4以来，这款新模型迅速登上Chatbot Arena排行榜第二位，仅次于Google的Gemini 2.5 Pro。然而，这一排名很快引起了社区的质疑，因为被测试的版本并非Meta官方开源的正式版，而是一个未公开、定制化调优的实验模型。对此，Chatbot Arena官方发布声明，表示将公开2000多场真人对比测试的完整数据，并点名Meta，强调其应明确说明该模型为优化人类偏好的定制化版本。 Chatbot Arena由加州大学伯克利分校发起，是当前最具行业影响力的大模型评测平台之...

来源：

iFeng科技【阅读原文】
Tags：Chatbot Arena DeepSeek Llama 4 Meta 开源模型

1年前 (2025)

创造历史：阿里通义开源模型Qwen2.5在Chatbot Arena上超越Llama，引领大语言模型潮流

近日，基准测试平台Chatbot Arena公布了最新的大模型盲测排行榜，阿里巴巴的通义千问开源模型Qwen2.5再次成功跻身全球前十。具体而言，Qwen2.5-72B-Instruct在大语言模型（LLM）榜单中排名第10，成为唯一进入前十名的中国大模型。此外，Qwen系列中的视觉语言模型Qwen2-VL-72B-Instruct也在Vision榜单中排名第九，是当前得分最高的开源大模型。与此同时，Qwen系列在全球开源社区中的影响力显著提升，基于Qwen系列的衍生模型数量已突破7.43万个，超过了Llama系列的7.28万个。这标志着通义千问Qwen已经成为世界上最大的生成式...

来源：

量子位【阅读原文】
Tags：Chatbot Arena Qwen2.5 大语言模型开源模型通义千问

2年前 (2024)