标签:编程竞赛

编程竞赛新标杆:谢赛宁带领华人团队打造每日更新题目的LiveCodeBench Pro,杜绝刷题,大型语言模型全员挑战零分记录

大模型在编程竞赛基准测试中全军覆没,所有参赛模型均获得0分。这一结果由谢赛宁领衔的华人团队发布,其最新推出的LiveCodeBench Pro基准测试引发了广泛关注。该基准测试每日更新题目,旨在防止大型语言模型(LLMs)通过“背题”来提高成绩。 LiveCodeBench Pro包含来自国际信息学奥林匹克竞赛(IOI)、Codeforces和国际大学生程序设计竞赛(ICPC)的高难度编程问题。这些题目覆盖了知识密集型、逻辑密集型和观察密集型三大类,并分为简单、中等和困难三个难度级别。为了确保评估的真实性和挑战性,团队每天都会更新题库,以...

OpenAI震撼发布全新o3模型,编程竞赛与数学能力测试迎来人工智能技术革新,一夜之间再次改变世界格局!

OpenAI发布全新预览版模型o3,实现多项技术突破 今天凌晨2点,OpenAI开启了为期12天的技术直播的最后一场。不负众望,OpenAI正式发布了全新的预览版模型——o3。根据测试数据显示,o3在多个领域取得了显著的进展。 首先,在美国AIME数学竞赛中,o3获得了96.7分,远超o1预览版的56.7分和o1的83.3%,仅错了一道题,相当于顶级数学家的水平。此外,在ARCAGI基准测试中,o3在低算力资源下实现了75.7%的准确率,而在增加计算资源后,这一数字提升至87.5%,首次超过了人类85%的水平,标志着重大技术突破。 有趣的是,OpenAI直接跳...