大模型竞技场备受争议:Llama4私下测试27个版本仅取最优成绩,Chatbot Arena中的AI模型评估是否引发排行榜幻觉?

大模型竞技场的可信度再次受到质疑。一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文在学术界引起了广泛关注。该研究指出,作为LLM领域首选排行榜的Chatbot Arena存在诸多系统性问题。

私下测试与选择性公开
一些大型科技公司可以在发布前私下测试多个模型版本。例如,Llama4在正式发布前曾测试了27个版本,并仅公开最佳表现结果。这种做法引发了对公平性的质疑。此外,专有模型获得的用户反馈数据显著多于开源模型,进一步加剧了数据访问的不平等。

竞技场数据训练的影响
研究表明,使用Arena数据进行训练可显著提升模型性能,最高可达112%。然而,这种提升并不一定反映真实的模型能力,而是可能与训练数据的选择密切相关。

快速刷榜现象
研究人员发现,多个大模型厂商频繁轮番占据榜首位置。例如,在2024年11月期间,Google、OpenAI和xAI的模型相继霸榜。这种快速变化的现象不太可能反映真实的技术进步,而更像是厂商优化变体池的结果。

模型弃用问题
许多模型被“静默弃用”,即减少采样率至接近0%。在243个公开模型中,有205个被静默弃用,远超过官方列出的47个。这种做法特别影响开源和开放权重模型,导致排名不可靠。

改进建议
研究团队提出了五点改进建议:禁止提交后撤回分数、限制每个提供商的非正式模型数量、公平应用模型弃用政策、实施公平采样方法以及提高模型弃用透明度。

官方对此进行了回应,反驳了一些指控,包括模拟缺陷、数据不实、性能提升的误导性说法等。尽管如此,这篇论文仍然提醒AI社区不要过于依赖单一榜单。

备选方案
卡帕西建议可以考虑使用OpenRouter作为备选方案。OpenRouter提供了一个统一API接口来访问不同模型,并更加关注实际使用案例。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...