GPT-5.2果然反超谷歌Gemini 3 Pro！北大数院校友核心贡献

（由多段落组成）：

2025年底，人工智能领域迎来一场重磅升级——OpenAI正式推出GPT-5.2系列模型，迅速在多个核心性能指标上实现对谷歌Gemini 3 Pro的反超。这一代更新虽仅从GPT-5.1迭代至5.2，但其实际表现堪称“质变”，尤其在办公自动化、代码生成、科学推理和复杂任务处理方面展现出前所未有的能力，被业内称为“AI打工人的终极形态”。

此次升级中，GPT-5.2 Thinking与GPT-5.2 Pro两大主力版本尤为引人注目。它们不仅在表格制作、PPT生成、长文档理解等高频办公场景中表现出色，更能在多步骤项目管理中自主调用工具、协调流程。例如，在一次模拟航班延误并需紧急转机加医疗协助的案例中，GPT-5.2成功完成机票重订、特殊座位安排及赔偿申请全流程，展现出接近人类专家的综合决策力。

在权威评测ARC-AGI-1中，GPT-5.2 Pro以90.5%的成绩刷新SOTA纪录，远超一年前同类系统的88%，而单任务平均成本却从4500美元骤降至11.64美元，效率提升近390倍。这一数据不仅标志着AI推理性价比的飞跃，也使其在关键指标上首次超越谷歌Gemini 3 Pro，为OpenAI赢得关键技术竞争的重要一役。

针对高价值职业任务的测试平台GDPval显示，GPT-5.2 Thinking在涵盖美国九大产业、44个专业岗位的任务中，面对需人类耗时4-8小时的工作，其输出质量获得评委71%的胜率，速度超过人类专家11倍以上，成本不足1%。特别是在投资银行建模任务中，如搭建三表联动财务模型或执行杠杆收购分析，GPT-5.2 Thinking得分较前代提升9.3个百分点，达到68.4%，已接近专业投行分析师水平。

编程能力方面，GPT-5.2同样突破极限。在SWE-bench Verified测试中得分高达80%，而在更具挑战性的SWE-Bench Pro（覆盖Python、JavaScript、TypeScript、Go等主流语言）中，GPT-5.2 Thinking取得55.6%的历史新高。前端开发尤其是涉及3D渲染和复杂UI交互的应用场景中，开发者反馈其响应精准度显著增强，极大提升了全栈开发效率。

长文本处理是本次升级的重点方向之一。在OpenAI自研的MRCRv2“大海捞针”测试中，GPT-5.2 Thinking成为首个在256k上下文长度下、四信息点检索任务中接近100%准确率的模型。尽管在八信息点任务中仍存在性能衰减，但通过引入“简洁回复模式”，系统可高效处理跨窗口、多工具协同的长时间工作流，为法律、科研等依赖海量文档的领域提供强力支持。

视觉理解能力亦实现跨越式进步。GPT-5.2对图像元素的空间定位更加精确，在科学图表解析中的错误率降低约50%。高分辨率界面截图推理测试中，结合Python工具调用，准确率达到86.3%，远高于禁用工具时的表现。OpenAI建议用户在处理视觉任务时始终启用工具链，以发挥最大效能。

工具调用方面，GPT-5.2展现出强大的端到端服务能力。在Tau2-bench电信客服多轮对话测试中，GPT-5.2 Thinking达到98.7%的成功率；零售场景下也取得82%的好成绩。这意味着它能独立完成客户问题诊断、数据提取、系统查询与报告生成，大幅减少人工干预环节。

在科研辅助领域，GPT-5.2 Pro和Thinking版本已被OpenAI视为当前最适配科学家的AI助手。GPQA Diamond研究生级问答测试中，GPT-5.2 Pro得分达93.2%，Thinking版紧随其后为92.4%。数学专项FrontierMath Tier 1-3测试中，解题率达40.3%，创下新纪录。更有实际案例表明，研究人员借助GPT-5.2 Pro探索统计学习理论中的开放问题，模型提出的一个证明框架最终通过同行评审，彰显其真正的科研协作潜力。

值得一提的是，GPT-5.2背后的核心团队汇聚了一批顶尖数学背景人才。其中包括多位中国名校出身的新锐力量：北大数院毕业、斯坦福统计博士Yu Bai，中科大数学系本科、西北大学博士Yufeng Zhang，以及UC伯克利助理教授、北大校友梅松等人，均于2024至2025年间加入OpenAI。这支“数学天团”的加盟，被认为是推动算法深度优化与推理能力跃升的关键因素。

尽管GPT-5.2整体幻觉率已从GPT-5.1的8.8%下降至6.2%，OpenAI仍强调关键任务需人工复核。目前，该系列功能已上线ChatGPT Plus、Pro、Business及Enterprise订阅服务，用户选择对应模型后即可体验高级办公与创作能力，复杂任务生成可能需要数分钟时间。

GPT-5.2, AI办公自动化, Gemini 3 Pro对比, 科学研究AI助手, 数学天才团队

本文来源：

量子位【阅读原文】

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

GPT-5.2果然反超谷歌Gemini 3 Pro！北大数院校友核心贡献

特斯拉劲敌Rivian开发AI芯片计划未来车型中取代英伟达产品

罗永浩发文再谈AI手机：让躺着赚钱的大厂睡不着觉

相关文章

暂无评论

AI最新资讯

GPT-5.2果然反超谷歌Gemini 3 Pro！北大数院校友核心贡献

特斯拉劲敌Rivian开发AI芯片 计划未来车型中取代英伟达产品

罗永浩发文再谈AI手机：让躺着赚钱的大厂睡不着觉

相关文章

暂无评论

AI最新资讯

特斯拉劲敌Rivian开发AI芯片计划未来车型中取代英伟达产品