大模型竞技场备受争议：Llama4私下测试27个版本仅取最优成绩，Chatbot Arena中的AI模型评估是否引发排行榜幻觉？

大模型竞技场的可信度再次受到质疑。一篇名为《排行榜幻觉》（The Leaderboard Illusion）的论文在学术界引起了广泛关注。该研究指出，作为LLM领域首选排行榜的Chatbot Arena存在诸多系统性问题。

私下测试与选择性公开
一些大型科技公司可以在发布前私下测试多个模型版本。例如，Llama4在正式发布前曾测试了27个版本，并仅公开最佳表现结果。这种做法引发了对公平性的质疑。此外，专有模型获得的用户反馈数据显著多于开源模型，进一步加剧了数据访问的不平等。

竞技场数据训练的影响
研究表明，使用Arena数据进行训练可显著提升模型性能，最高可达112%。然而，这种提升并不一定反映真实的模型能力，而是可能与训练数据的选择密切相关。

快速刷榜现象
研究人员发现，多个大模型厂商频繁轮番占据榜首位置。例如，在2024年11月期间，Google、OpenAI和xAI的模型相继霸榜。这种快速变化的现象不太可能反映真实的技术进步，而更像是厂商优化变体池的结果。

模型弃用问题
许多模型被“静默弃用”，即减少采样率至接近0%。在243个公开模型中，有205个被静默弃用，远超过官方列出的47个。这种做法特别影响开源和开放权重模型，导致排名不可靠。

改进建议
研究团队提出了五点改进建议：禁止提交后撤回分数、限制每个提供商的非正式模型数量、公平应用模型弃用政策、实施公平采样方法以及提高模型弃用透明度。

官方对此进行了回应，反驳了一些指控，包括模拟缺陷、数据不实、性能提升的误导性说法等。尽管如此，这篇论文仍然提醒AI社区不要过于依赖单一榜单。

备选方案
卡帕西建议可以考虑使用OpenRouter作为备选方案。OpenRouter提供了一个统一API接口来访问不同模型，并更加关注实际使用案例。

本文来源：

量子位【阅读原文】

文章版权归作者所有，未经允许请勿转载。

291

556

771

237

277

685

暂无评论

您必须登录才能参与评论！

暂无评论...