标签:MoE++

字节跳动推出200B参数Seed-Thinking-v1.5推理模型,基于强化学习与MoE技术超越满血DeepSeek-R1

字节跳动旗下的豆包团队最近发布了一篇关于其新型推理模型 Seed-Thinking-v1.5 的技术报告。根据报告,这款模型采用 MoE 架构设计,总参数量高达 200B,但在运行时仅激活其中的 20B 参数。尽管规模相对紧凑,但其性能表现却极为出色,在多个领域基准测试中超越了拥有 671B 参数的 DeepSeek-R1 模型。有业内人士猜测,这可能是当前豆包正在使用的深度思考模型。 值得注意的是,字节跳动在近期的一次活动推文中提到,4 月 17 日将在杭州举办的「2025 火山引擎 Force Link AI 创新巡展」上首次亮相一款全新的豆包模型。外界普...

颜水成与袁粒提出新一代MoE++架构:零计算量专家助力大型语言模型,专家吞吐速度最高提升2.1倍,优化路由分数残差!

新一代MoE架构:专家吞吐速度最高提升2.1倍! 2024年10月21日,来源:量子位 近日,由北京大学和昆仑万维2050研究院联合提出的新型混合专家(MoE)架构——MoE++,在性能和效率方面取得了显著突破。这一架构通过引入“零计算量专家”设计,大幅提升了模型的计算效率和性能表现。 1. MoE++的主要创新点 MoE++的核心创新在于引入了三种“零计算量专家”,分别为Zero专家、Copy专家和Constant专家。这些专家的设计旨在优化计算资源的分配,使模型能够更高效地处理不同复杂度的Token。 - 降低计算成本:MoE++允许每个Token使用可...