标签:LiveCodeBench Pro

N编程竞赛新标杆:谢赛宁带领华人团队打造每日更新题目的LiveCodeBench Pro,杜绝刷题,大型语言模型全员挑战零分记录

大模型在编程竞赛基准测试中全军覆没,所有参赛模型均获得0分。这一结果由谢赛宁领衔的华人团队发布,其最新推出的LiveCodeBench Pro基准测试引发了广泛关注。该基准测试每日更新题目,旨在防止大型语言模型(LLMs)通过“背题”来提高成绩。 LiveCodeBench Pro包含来自国际信息学奥林匹克竞赛(IOI)、Codeforces和国际大学生程序设计竞赛(ICPC)的高难度编程问题。这些题目覆盖了知识密集型、逻辑密集型和观察密集型三大类,并分为简单、中等和困难三个难度级别。为了确保评估的真实性和挑战性,团队每天都会更新题库,以...