阿里通义千问推出全新推理模型 Qwen3-30B-A3B-Thinking-2507,多项能力显著提升

整理后文章(SEO优化版):

通义千问推出全新推理模型 Qwen3-30B-A3B-Thinking-2507,性能全面升级

7月31日,阿里巴巴旗下通义实验室正式发布了其最新推理模型——Qwen3-30B-A3B-Thinking-2507。相比此前4月29日推出的Qwen3-30-A3B版本,新模型在多个关键性能指标上实现了显著提升,尤其在数学推理和代码生成方面表现突出。

在专注于数学能力评估的AIME25测试中,Qwen3-30B-A3B-Thinking-2507取得了高达85.0的优异成绩;在代码能力评测LiveCodeBench v6中也获得了66.0的高分。这两项成绩均优于Gemini2.5-Flash(thinking)以及上一代模型Qwen3-235B-A22B(thinking)的表现。

除了推理能力的增强,新模型在知识掌握方面也有明显进步。根据GPQA和MMLU-Pro评测结果,Qwen3-30B-A3B-Thinking-2507的知识水平较前代模型有大幅提升。同时,在写作任务(WritingBench)、Agent交互能力(BFCL-v3)、多轮对话处理以及多语言指令执行(MultiIF)等通用能力测试中,该模型同样表现优异,全面超越竞品模型。

值得一提的是,Qwen3-30B-A3B-Thinking-2507具备更强的上下文处理能力,原生支持高达256K tokens的上下文长度,并可扩展至1M tokens,大幅提升了模型对长文本的理解与生成能力。此外,新模型的“思考长度”也有所增强,官方建议在处理复杂推理任务时适当增加思考预算,以更好地发挥其性能优势。

目前,Qwen3-30B-A3B-Thinking-2507已在魔搭社区和HuggingFace平台开源,用户可轻松下载并在消费级硬件上实现本地部署。与此同时,该模型也已同步上线Qwen Chat平台,方便更多开发者和用户直接体验其强大功能。

此次发布的模型再次彰显了通义实验室在大模型领域的技术实力和持续创新能力,为AI开发者和企业用户提供了更加高效、灵活的解决方案。

通义千问,Qwen3-30B-A3B-Thinking-2507,推理模型,AIME25评测,代码生成能力

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...