标签:Qwen3-14B

通义千问Qwen3系列:大语言模型、混合专家模型与强化学习驱动的开源多语言思考新模式

凤凰网科技讯(作者/杨睿琪)4月29日,通义千问团队正式发布Qwen3系列大语言模型。该系列包括多个参数规模的密集模型(Dense)和混合专家模型(MoE),并已全面开源。Qwen3系列引入了“思考模式”与“非思考模式”两种运行方式。其中,“思考模式”能够支持复杂问题的分步推理,而“非思考模式”则提供快速响应能力。 在预训练阶段,Qwen3的数据集相比前代Qwen2.5有显著扩展。Qwen2.5基于18万亿个 token进行预训练,而Qwen3的数据量几乎翻倍,达到约36万亿个 token,覆盖了119种语言和方言。 此外,官方宣布开源两个MoE模型的权重...