通义千问Qwen3系列:大语言模型、混合专家模型与强化学习驱动的开源多语言思考新模式

凤凰网科技讯(作者/杨睿琪)4月29日,通义千问团队正式发布Qwen3系列大语言模型。该系列包括多个参数规模的密集模型(Dense)和混合专家模型(MoE),并已全面开源。Qwen3系列引入了“思考模式”与“非思考模式”两种运行方式。其中,“思考模式”能够支持复杂问题的分步推理,而“非思考模式”则提供快速响应能力。

在预训练阶段,Qwen3的数据集相比前代Qwen2.5有显著扩展。Qwen2.5基于18万亿个 token进行预训练,而Qwen3的数据量几乎翻倍,达到约36万亿个 token,覆盖了119种语言和方言。

此外,官方宣布开源两个MoE模型的权重:Qwen3-235B-A22B 和 Qwen3-30B-A3B。前者是一个拥有超过2350亿总参数和220多亿激活参数的大模型;后者则是约300亿总参数和30亿激活参数的小型MoE模型。同时,六个Dense模型也已开源,分别是Qwen3-32BQwen3-14BQwen3-8BQwen3-4BQwen3-1.7BQwen3-0.6B,均遵循Apache 2.0许可协议。

据官方称,旗舰模型Qwen3-235B-A22B在代码处理、数学计算及通用能力等基准测试中表现出色,与DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro等顶级模型相比具有很强竞争力。小型MoE模型Qwen3-30B-A3B的激活参数数量仅为QwQ-32B的10%,但性能更优,甚至像Qwen3-4B这样的小模型也能媲美Qwen2.5-72B-Instruct的性能。

技术细节上,Qwen3采用四阶段后训练流程,结合强化学习与指令微调,进一步提升模型的推理能力和多任务处理能力。团队表示,未来将从多个维度优化模型,例如改进模型架构和训练方法,以实现以下目标:扩大数据规模、增加模型参数量、延长上下文长度、拓展模态范围,并通过环境反馈推动强化学习以实现长周期推理。

特别说明:以上(包括视频、图片或音频)由凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储服务。

本文来源: iFeng科技【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...