开源模型首次物理奥赛夺金！上海AI Lab 235B模型击败GPT5和Grok4

（由多段落组成）：

在人工智能迈向通用智能的关键阶段，一场具有里程碑意义的突破悄然诞生——来自上海AI Lab的开源大模型 P1-235B-A22B 在国际物理奥林匹克竞赛（IPhO）中首次斩获金牌，成为全球首个在顶级物理赛事中达到金牌水平的开源AI系统。这一成绩不仅刷新了人们对开源模型能力的认知，更标志着其在复杂科学推理领域已全面比肩甚至超越GPT-5、Grok-4等主流闭源模型。

此次评测基于全新构建的 HiPhO 基准测试平台，该平台覆盖2024至2025年间全球13场高难度物理奥赛，包括IPhO、APhO和EuPhO等权威赛事。所有模型的表现均按照官方评分标准进行细粒度打分，涵盖解题过程与最终答案，确保评估结果与人类评审高度对齐。在此基准下，P1-235B-A22B以平均得分21.2/30成功跨越金牌线，并在全部比赛中摘得12金1银，奖牌总数位居榜首，力压GPT-5（11金）和Grok-4（10金），与谷歌Gemini-2.5-Pro并列第一。

这一成就的背后，是上海AI Lab团队打造的一套完整“模型+系统”技术链路。研究团队采用多阶段强化学习训练策略，结合高质量标注数据集，持续优化模型的长链推理能力。通过动态扩展上下文窗口，使模型能处理更复杂的推导流程；同时引入“通过率过滤”机制，剔除过于简单或极端困难的题目，提升训练效率与稳定性。这套方法显著增强了模型在高阶物理问题中的表现力。

为了进一步突破单模型性能瓶颈，团队创新性地提出协同进化多智能体系统 PhysicsMinions。该系统包含三大核心模块：逻辑工作室负责生成初始解答并不断自我迭代；审核工作室执行双层验证——物理验证器检查单位、常数等科学准确性，通用验证器则评估逻辑连贯性与计算正确性；视觉工作室虽暂未启用，但为未来多模态理解预留空间。当任一环节发现问题时，系统会自动生成错误反馈并驱动反思修正，实现闭环式智能进化。

实验结果显示，搭载PhysicsMinions后的P1-235B-A22B在HiPhO基准上的平均分从35.9跃升至38.4，首次超越Gemini-2.5-Pro（37.7）和GPT-5（37.4），登顶综合排名榜首。即便是参数规模较小的P1-30B-A3B版本，也在开源阵营中位列前三，优于多个商业闭源模型如Claude-4-Sonnet和o4-mini，展现出极强的性价比与泛化潜力。

值得一提的是，P1系列模型不仅专精于物理推理，在数学、编程及STEM通用任务上同样表现出色。对比基座模型Qwen3-30B，P1-30B-A3B在多项基准测试中实现显著提升，证明其通过物理专项训练获得了可迁移的知识结构与推理能力。这种“通专融合”的发展模式，为下一代科学大模型提供了重要范本。

目前，该项目已实现全链路开源，涵盖模型权重、训练算法、评测数据集及智能体框架，相关资源已在GitHub与HuggingFace公开发布。HiPhO数据集和排行榜也已上线，欢迎全球研究者参与共建。随着更多开发者加入，这场由开源引领的科学智能革命正加速到来。

开源大模型, 物理奥赛AI, PhysicsMinions, HiPhO基准测试, 上海AI Lab

本文来源：