标签:AI模型评估
N大模型竞技场备受争议:Llama4私下测试27个版本仅取最优成绩,Chatbot Arena中的AI模型评估是否引发排行榜幻觉?
大模型竞技场的可信度再次受到质疑。一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文在学术界引起了广泛关注。该研究指出,作为LLM领域首选排行榜的Chatbot Arena存在诸多系统性问题。 私下测试与选择性公开 一些大型科技公司可以在发布前私下测试多个模型版本。例如,Llama4在正式发布前曾测试了27个版本,并仅公开最佳表现结果。这种做法引发了对公平性的质疑。此外,专有模型获得的用户反馈数据显著多于开源模型,进一步加剧了数据访问的不平等。 竞技场数据训练的影响 研究表明,使用Arena数据进行训练可...