GPT-5.2果然反超谷歌Gemini 3 Pro!北大数院校友核心贡献

(由多段落组成):

2025年底,人工智能领域迎来一场重磅升级——OpenAI正式推出GPT-5.2系列模型,迅速在多个核心性能指标上实现对谷歌Gemini 3 Pro的反超。这一代更新虽仅从GPT-5.1迭代至5.2,但其实际表现堪称“质变”,尤其在办公自动化、代码生成、科学推理和复杂任务处理方面展现出前所未有的能力,被业内称为“AI打工人的终极形态”。

此次升级中,GPT-5.2 Thinking与GPT-5.2 Pro两大主力版本尤为引人注目。它们不仅在表格制作、PPT生成、长文档理解等高频办公场景中表现出色,更能在多步骤项目管理中自主调用工具、协调流程。例如,在一次模拟航班延误并需紧急转机加医疗协助的案例中,GPT-5.2成功完成机票重订、特殊座位安排及赔偿申请全流程,展现出接近人类专家的综合决策力。

在权威评测ARC-AGI-1中,GPT-5.2 Pro以90.5%的成绩刷新SOTA纪录,远超一年前同类系统的88%,而单任务平均成本却从4500美元骤降至11.64美元,效率提升近390倍。这一数据不仅标志着AI推理性价比的飞跃,也使其在关键指标上首次超越谷歌Gemini 3 Pro,为OpenAI赢得关键技术竞争的重要一役。

针对高价值职业任务的测试平台GDPval显示,GPT-5.2 Thinking在涵盖美国九大产业、44个专业岗位的任务中,面对需人类耗时4-8小时的工作,其输出质量获得评委71%的胜率,速度超过人类专家11倍以上,成本不足1%。特别是在投资银行建模任务中,如搭建三表联动财务模型或执行杠杆收购分析,GPT-5.2 Thinking得分较前代提升9.3个百分点,达到68.4%,已接近专业投行分析师水平。

编程能力方面,GPT-5.2同样突破极限。在SWE-bench Verified测试中得分高达80%,而在更具挑战性的SWE-Bench Pro(覆盖Python、JavaScript、TypeScript、Go等主流语言)中,GPT-5.2 Thinking取得55.6%的历史新高。前端开发尤其是涉及3D渲染和复杂UI交互的应用场景中,开发者反馈其响应精准度显著增强,极大提升了全栈开发效率。

长文本处理是本次升级的重点方向之一。在OpenAI自研的MRCRv2“大海捞针”测试中,GPT-5.2 Thinking成为首个在256k上下文长度下、四信息点检索任务中接近100%准确率的模型。尽管在八信息点任务中仍存在性能衰减,但通过引入“简洁回复模式”,系统可高效处理跨窗口、多工具协同的长时间工作流,为法律、科研等依赖海量文档的领域提供强力支持。

视觉理解能力亦实现跨越式进步。GPT-5.2对图像元素的空间定位更加精确,在科学图表解析中的错误率降低约50%。高分辨率界面截图推理测试中,结合Python工具调用,准确率达到86.3%,远高于禁用工具时的表现。OpenAI建议用户在处理视觉任务时始终启用工具链,以发挥最大效能。

工具调用方面,GPT-5.2展现出强大的端到端服务能力。在Tau2-bench电信客服多轮对话测试中,GPT-5.2 Thinking达到98.7%的成功率;零售场景下也取得82%的好成绩。这意味着它能独立完成客户问题诊断、数据提取、系统查询与报告生成,大幅减少人工干预环节。

在科研辅助领域,GPT-5.2 Pro和Thinking版本已被OpenAI视为当前最适配科学家的AI助手。GPQA Diamond研究生级问答测试中,GPT-5.2 Pro得分达93.2%,Thinking版紧随其后为92.4%。数学专项FrontierMath Tier 1-3测试中,解题率达40.3%,创下新纪录。更有实际案例表明,研究人员借助GPT-5.2 Pro探索统计学习理论中的开放问题,模型提出的一个证明框架最终通过同行评审,彰显其真正的科研协作潜力。

值得一提的是,GPT-5.2背后的核心团队汇聚了一批顶尖数学背景人才。其中包括多位中国名校出身的新锐力量:北大数院毕业、斯坦福统计博士Yu Bai,中科大数学系本科、西北大学博士Yufeng Zhang,以及UC伯克利助理教授、北大校友梅松等人,均于2024至2025年间加入OpenAI。这支“数学天团”的加盟,被认为是推动算法深度优化与推理能力跃升的关键因素。

尽管GPT-5.2整体幻觉率已从GPT-5.1的8.8%下降至6.2%,OpenAI仍强调关键任务需人工复核。目前,该系列功能已上线ChatGPT Plus、Pro、Business及Enterprise订阅服务,用户选择对应模型后即可体验高级办公与创作能力,复杂任务生成可能需要数分钟时间。

GPT-5.2, AI办公自动化, Gemini 3 Pro对比, 科学研究AI助手, 数学天才团队

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...