字节跳动旗下的豆包团队最近发布了一篇关于其新型推理模型 Seed-Thinking-v1.5 的技术报告。根据报告,这款模型采用 MoE 架构设计,总参数量高达 200B,但在运行时仅激活其中的 20B 参数。尽管规模相对紧凑,但其性能表现却极为出色,在多个领域基准测试中超越了拥有 671B 参数的 DeepSeek-R1 模型。有业内人士猜测,这可能是当前豆包正在使用的深度思考模型。
值得注意的是,字节跳动在近期的一次活动推文中提到,4 月 17 日将在杭州举办的「2025 火山引擎 Force Link AI 创新巡展」上首次亮相一款全新的豆包模型。外界普遍认为,这次发布的可能正是 Seed-Thinking-v1.5 模型。
技术亮点与性能评测
Seed-Thinking-v1.5 是一款通过强化学习提升推理能力的模型,在权威基准测试中表现出色。具体而言,该模型在 AIME 2024 测试中获得 86.7 分,Codeforces 评测达到 55.0 分,GPQA 测试则达到 77.3 分。这些成绩充分证明了它在 STEM(科学、技术、工程和数学)领域以及编程方面的卓越推理能力。
此外,Seed-Thinking-v1.5 不仅在推理任务中表现出色,还展现了强大的泛化能力。例如,在非推理任务中,其胜率比 DeepSeek R1 高出 8%,显示出更广泛的应用潜力。
从技术架构来看,Seed-Thinking-v1.5 基于混合专家模型(Mixture-of-Experts,MoE)设计,总参数量为 200B,实际激活参数仅为 20B。相比其他最先进的推理模型,这种设计使其更加高效紧凑。
为了全面评估模型的泛化推理能力,豆包团队开发了 BeyondAIME 和 Codeforces 两个内部基准测试工具,并计划向公众开放这些资源,以推动相关领域的进一步研究与发展。
数学推理与竞赛编程表现
在数学推理方面,Seed-Thinking-v1.5 在 AIME 2024 基准测试中取得了 86.7 的高分,与高计算量的 o3-mini-high 差不多。然而,由于 AIME 2024 已无法完全体现前沿模型之间的差异,豆包团队引入了一个更具挑战性的评估基准 BeyondAIME。BeyondAIME 中的所有问题均由人类专家重新整理编写,结果表明 Seed-Thinking-v1.5 虽然超过了 R1 和 o1,但与 o3 和 Gemini 2.5 pro 相比仍有一定差距。
在竞赛编程领域,Seed-Thinking-v1.5 在 Codeforces 基准测试中的表现同样亮眼。团队采用了基于最新 12 场 Codeforces 竞赛的具体评估方案,使用 pass@1 和 pass@8 指标进行衡量。其中,pass@k 表示模型能否在 k 次尝试内解决问题。最终结果显示,Seed-Thinking-v1.5 在这两个指标上均优于 DeepSeek-R1,但仍与 o3 存在一定差距。
科学问题与非推理任务
在科学问题方面,Seed-Thinking-v1.5 在 GPQA 基准测试中得分为 77.3,接近 o3 的表现。这一提升主要得益于数学训练带来的泛化能力,而非特定领域的科学数据增加。
此外,豆包团队还测试了 Seed-Thinking-v1.5 在非推理任务中的表现。测试集尽可能模拟真实用户需求,通过人类对模型输出结果的比较评估,发现 Seed-Thinking-v1.5 的用户积极反馈总体高出 8.0%。这表明其在复杂用户场景处理能力方面具有显著优势。
核心技术创新
开发高质量推理模型的关键在于数据、强化学习算法和基础设施。为此,豆包团队在以下三个方面进行了创新:
1. 数据:推理模型主要依赖思维链(CoT)数据,展示逐步推理过程。研究表明,过多非思维链数据会削弱模型探索能力。因此,团队整合了 STEM 问题、代码任务、逻辑推理和非推理数据,其中逻辑推理数据提升了 ARC-AGI 测试表现,而数学数据则展现出优秀的泛化能力。
2. 强化学习算法:为解决强化学习训练中的不稳定性问题,团队提出了 VAPO 和 DAPO 框架,分别针对基于价值和无价值的强化学习范式。这两种方法能够提供稳健的训练轨迹,有效优化推理模型。
3. 奖励建模:奖励建模是强化学习的核心,决定了策略目标。团队针对可验证和不可验证的问题采用了不同的奖励建模方法。例如,对于可验证问题,团队利用 LLMs 来判断各种场景下的答案正确性;对于不可验证问题,则训练了一个强化学习奖励模型,覆盖创意写作和摘要生成等领域。
基础设施支持
大语言模型的强化学习系统需要强大的基础设施支持。豆包团队开发的流式推演架构通过优先级样本池异步处理轨迹生成,使迭代速度提升 3 倍。系统还支持自动故障恢复的混合精度训练,确保大规模强化学习运行的稳定性。
