标签:Chatbot Arena

N大模型竞技场备受争议:Llama4私下测试27个版本仅取最优成绩,Chatbot Arena中的AI模型评估是否引发排行榜幻觉?

大模型竞技场的可信度再次受到质疑。一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文在学术界引起了广泛关注。该研究指出,作为LLM领域首选排行榜的Chatbot Arena存在诸多系统性问题。 私下测试与选择性公开 一些大型科技公司可以在发布前私下测试多个模型版本。例如,Llama4在正式发布前曾测试了27个版本,并仅公开最佳表现结果。这种做法引发了对公平性的质疑。此外,专有模型获得的用户反馈数据显著多于开源模型,进一步加剧了数据访问的不平等。 竞技场数据训练的影响 研究表明,使用Arena数据进行训练可...

Llama 4开源模型在Chatbot Arena中的表现引发DeepSeek关注——Meta遭遇惊魂72小时背后的故事

开源大模型 Llama 4 的发布引发了广泛讨论和争议。自4月5日Meta正式推出Llama 4以来,这款新模型迅速登上Chatbot Arena排行榜第二位,仅次于Google的Gemini 2.5 Pro。然而,这一排名很快引起了社区的质疑,因为被测试的版本并非Meta官方开源的正式版,而是一个未公开、定制化调优的实验模型。对此,Chatbot Arena官方发布声明,表示将公开2000多场真人对比测试的完整数据,并点名Meta,强调其应明确说明该模型为优化人类偏好的定制化版本。 Chatbot Arena由加州大学伯克利分校发起,是当前最具行业影响力的大模型评测平台之...

创造历史:阿里通义开源模型Qwen2.5在Chatbot Arena上超越Llama,引领大语言模型潮流

近日,基准测试平台Chatbot Arena公布了最新的大模型盲测排行榜,阿里巴巴的通义千问开源模型Qwen2.5再次成功跻身全球前十。具体而言,Qwen2.5-72B-Instruct在大语言模型(LLM)榜单中排名第10,成为唯一进入前十名的中国大模型。此外,Qwen系列中的视觉语言模型Qwen2-VL-72B-Instruct也在Vision榜单中排名第九,是当前得分最高的开源大模型。 与此同时,Qwen系列在全球开源社区中的影响力显著提升,基于Qwen系列的衍生模型数量已突破7.43万个,超过了Llama系列的7.28万个。这标志着通义千问Qwen已经成为世界上最大的生成式...