凤凰网科技讯(作者/杨睿琪)4月29日,通义千问团队正式发布Qwen3系列大语言模型。该系列包括多个参数规模的密集模型(Dense)和混合专家模型(MoE),并已全面开源。Qwen3系列引入了“思考模式”与“非思考模式”两种运行方式。其中,“思考模式”能够支持复杂问题的分步推理,而“非思考模式”则提供快速响应能力。
在预训练阶段,Qwen3的数据集相比前代Qwen2.5有显著扩展。Qwen2.5基于18万亿个 token进行预训练,而Qwen3的数据量几乎翻倍,达到约36万亿个 token,覆盖了119种语言和方言。
此外,官方宣布开源两个MoE模型的权重:Qwen3-235B-A22B 和 Qwen3-30B-A3B。前者是一个拥有超过2350亿总参数和220多亿激活参数的大模型;后者则是约300亿总参数和30亿激活参数的小型MoE模型。同时,六个Dense模型也已开源,分别是Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均遵循Apache 2.0许可协议。
据官方称,旗舰模型Qwen3-235B-A22B在代码处理、数学计算及通用能力等基准测试中表现出色,与DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro等顶级模型相比具有很强竞争力。小型MoE模型Qwen3-30B-A3B的激活参数数量仅为QwQ-32B的10%,但性能更优,甚至像Qwen3-4B这样的小模型也能媲美Qwen2.5-72B-Instruct的性能。
技术细节上,Qwen3采用四阶段后训练流程,结合强化学习与指令微调,进一步提升模型的推理能力和多任务处理能力。团队表示,未来将从多个维度优化模型,例如改进模型架构和训练方法,以实现以下目标:扩大数据规模、增加模型参数量、延长上下文长度、拓展模态范围,并通过环境反馈推动强化学习以实现长周期推理。
特别说明:以上(包括视频、图片或音频)由凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储服务。
本文来源: