刚刚,阿里祭出Qwen3超大杯思考模型,数学考试满分,实测竟成token“吞金兽”

(由多段落组成):

近日,阿里通义千问团队正式推出Qwen3系列中的最强推理模型——Qwen3-Max-Thinking早期预览版,引发AI圈广泛关注。作为阿里“超大杯”级别的思考型大模型,该版本虽仍处于训练中间阶段,尚未完全成熟,却已在多个高难度推理任务中展现出惊人实力。尤其在AIME 2025和HMMT(哈佛-麻省理工数学锦标赛)等极具挑战性的数学竞赛基准测试中,实现了100%准确率的亮眼表现,标志着国产大模型在复杂逻辑推理领域的又一次突破。

早在正式发布前,这款神秘模型就已悄然“剧透”。通义千问负责人林俊旸于11月2日晚在个人社交平台发文:“它来了,你们可以试试”,并附上一张开启“Thinking模式”的Qwen3-Max界面截图,瞬间点燃社区期待。尽管目前官方并未公开模型的具体参数规模或架构细节,也未将其开源至Hugging Face、魔搭等主流平台,但用户已可通过Qwen Chat网页端和阿里云API服务进行限时免费体验,提前感受其深度推理能力。

据悉,Qwen3-Max-Thinking的一大核心亮点在于实现了“思考模式”与常规响应模式的智能融合。在启用Thinking模式后,模型会主动展开多轮内部推理、调用工具辅助计算、反复验证结果,显著提升在数学解题、科学推导、常识判断以及智能体编程等复杂任务上的表现。例如,在应对AIME压轴难题时,该模型不仅输出正确答案,还通过代码解释器运行模拟、多角度演算、持续自我纠错,整个过程耗时约4到5分钟,消耗token量约为1.2万至1.5万个,充分体现了其“深思熟虑”的工作方式。

在实际应用测试中,我们将Qwen3-Max-Thinking与DeepSeek-V3.2对比,要求两者分别生成一个开源项目分享网站的HTML原型。结果显示,阿里新模型能精准理解需求,产出结构完整、功能清晰的网页代码,共编写了1417行,虽略显冗余,但整体可用性高;而DeepSeek-V3.2则以787行更精简的代码完成任务。这表明Qwen3-Max-Thinking倾向于更详尽的实现路径,适合对鲁棒性和完整性要求更高的场景。

值得注意的是,该模型当前仅支持文本到文本的单模态输出,并采用“限时免费”策略开放API调用,降低了开发者尝鲜门槛。同时,为帮助用户控制成本,系统内置了“思考预算”调节功能,允许将推理token限制在1024至81920之间,灵活平衡响应质量与资源消耗。对于普通问答类问题,其实非思考模式已足够高效;但对于需要链式推理、跨领域综合分析的任务,开启Thinking模式则优势明显。

社区反馈方面,不少早期试用者表示,Qwen3-Max-Thinking的回答风格更为直接、专业且偏“商务风”,减少了传统AI常见的拟人化表达和情感渲染,更适合企业级应用场景。更有技术爱好者在其自建的“randombench”推理评测集上测试发现,该模型能够解决极高难度的逻辑与抽象问题,表现堪比传闻中的GPT-5(思考模式)及Grok-4,跻身全球顶尖推理模型行列。

然而,热度背后也有呼声:何时开源?何时上线Hugging Face?这是目前开发者最关心的问题。虽然阿里暂未公布后续开源计划,但从Qwen系列一贯的开放态度来看,未来释放更多版本的可能性极大。回顾今年9月5日,阿里首次推出Qwen3-Max预览版,彼时便宣称其为公司史上最大模型,参数规模突破万亿级别。如今推出的Thinking增强版,则进一步聚焦于“认知深度”而非单纯参数堆叠,体现出从“大”到“强”的战略升级。

总体来看,Qwen3-Max-Thinking不仅是阿里在通用人工智能道路上的关键一步,也为行业提供了新的高阶推理范本。尽管完整性能数据尚待披露,适用场景也有局限,但其在数学、编程与复杂决策任务中的卓越表现,已让业界对其正式版充满期待。随着训练进程推进,更多优化版本或将陆续登场,推动国产大模型迈向真正的“深度思维”时代。

Qwen3-Max-Thinking, 阿里通义千问, 大模型推理, 数学竞赛AI, 思考模式API

本文来源: 智东西【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...