标签：AI模型评估

大模型竞技场备受争议：Llama4私下测试27个版本仅取最优成绩，Chatbot Arena中的AI模型评估是否引发排行榜幻觉？

大模型竞技场的可信度再次受到质疑。一篇名为《排行榜幻觉》（The Leaderboard Illusion）的论文在学术界引起了广泛关注。该研究指出，作为LLM领域首选排行榜的Chatbot Arena存在诸多系统性问题。私下测试与选择性公开一些大型科技公司可以在发布前私下测试多个模型版本。例如，Llama4在正式发布前曾测试了27个版本，并仅公开最佳表现结果。这种做法引发了对公平性的质疑。此外，专有模型获得的用户反馈数据显著多于开源模型，进一步加剧了数据访问的不平等。竞技场数据训练的影响研究表明，使用Arena数据进行训练可...

来源：

量子位【阅读原文】
Tags：AI模型评估 Chatbot Arena Llama4 大模型竞技场排行榜幻觉

6个月前