(由多段落组成):
在人工智能迈向通用智能的关键阶段,一场具有里程碑意义的突破悄然诞生——来自上海AI Lab的开源大模型 P1-235B-A22B 在国际物理奥林匹克竞赛(IPhO)中首次斩获金牌,成为全球首个在顶级物理赛事中达到金牌水平的开源AI系统。这一成绩不仅刷新了人们对开源模型能力的认知,更标志着其在复杂科学推理领域已全面比肩甚至超越GPT-5、Grok-4等主流闭源模型。
此次评测基于全新构建的 HiPhO 基准测试平台,该平台覆盖2024至2025年间全球13场高难度物理奥赛,包括IPhO、APhO和EuPhO等权威赛事。所有模型的表现均按照官方评分标准进行细粒度打分,涵盖解题过程与最终答案,确保评估结果与人类评审高度对齐。在此基准下,P1-235B-A22B以平均得分21.2/30成功跨越金牌线,并在全部比赛中摘得12金1银,奖牌总数位居榜首,力压GPT-5(11金)和Grok-4(10金),与谷歌Gemini-2.5-Pro并列第一。
这一成就的背后,是上海AI Lab团队打造的一套完整“模型+系统”技术链路。研究团队采用多阶段强化学习训练策略,结合高质量标注数据集,持续优化模型的长链推理能力。通过动态扩展上下文窗口,使模型能处理更复杂的推导流程;同时引入“通过率过滤”机制,剔除过于简单或极端困难的题目,提升训练效率与稳定性。这套方法显著增强了模型在高阶物理问题中的表现力。
为了进一步突破单模型性能瓶颈,团队创新性地提出协同进化多智能体系统 PhysicsMinions。该系统包含三大核心模块:逻辑工作室负责生成初始解答并不断自我迭代;审核工作室执行双层验证——物理验证器检查单位、常数等科学准确性,通用验证器则评估逻辑连贯性与计算正确性;视觉工作室虽暂未启用,但为未来多模态理解预留空间。当任一环节发现问题时,系统会自动生成错误反馈并驱动反思修正,实现闭环式智能进化。
实验结果显示,搭载PhysicsMinions后的P1-235B-A22B在HiPhO基准上的平均分从35.9跃升至38.4,首次超越Gemini-2.5-Pro(37.7)和GPT-5(37.4),登顶综合排名榜首。即便是参数规模较小的P1-30B-A3B版本,也在开源阵营中位列前三,优于多个商业闭源模型如Claude-4-Sonnet和o4-mini,展现出极强的性价比与泛化潜力。
值得一提的是,P1系列模型不仅专精于物理推理,在数学、编程及STEM通用任务上同样表现出色。对比基座模型Qwen3-30B,P1-30B-A3B在多项基准测试中实现显著提升,证明其通过物理专项训练获得了可迁移的知识结构与推理能力。这种“通专融合”的发展模式,为下一代科学大模型提供了重要范本。
目前,该项目已实现全链路开源,涵盖模型权重、训练算法、评测数据集及智能体框架,相关资源已在GitHub与HuggingFace公开发布。HiPhO数据集和排行榜也已上线,欢迎全球研究者参与共建。随着更多开发者加入,这场由开源引领的科学智能革命正加速到来。
开源大模型, 物理奥赛AI, PhysicsMinions, HiPhO基准测试, 上海AI Lab
本文来源:
量子位【阅读原文】

