刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

（由多段落组成）：

近日，阿里通义千问团队正式推出Qwen3系列中的最强推理模型——Qwen3-Max-Thinking早期预览版，引发AI圈广泛关注。作为阿里“超大杯”级别的思考型大模型，该版本虽仍处于训练中间阶段，尚未完全成熟，却已在多个高难度推理任务中展现出惊人实力。尤其在AIME 2025和HMMT（哈佛-麻省理工数学锦标赛）等极具挑战性的数学竞赛基准测试中，实现了100%准确率的亮眼表现，标志着国产大模型在复杂逻辑推理领域的又一次突破。

早在正式发布前，这款神秘模型就已悄然“剧透”。通义千问负责人林俊旸于11月2日晚在个人社交平台发文：“它来了，你们可以试试”，并附上一张开启“Thinking模式”的Qwen3-Max界面截图，瞬间点燃社区期待。尽管目前官方并未公开模型的具体参数规模或架构细节，也未将其开源至Hugging Face、魔搭等主流平台，但用户已可通过Qwen Chat网页端和阿里云API服务进行限时免费体验，提前感受其深度推理能力。

据悉，Qwen3-Max-Thinking的一大核心亮点在于实现了“思考模式”与常规响应模式的智能融合。在启用Thinking模式后，模型会主动展开多轮内部推理、调用工具辅助计算、反复验证结果，显著提升在数学解题、科学推导、常识判断以及智能体编程等复杂任务上的表现。例如，在应对AIME压轴难题时，该模型不仅输出正确答案，还通过代码解释器运行模拟、多角度演算、持续自我纠错，整个过程耗时约4到5分钟，消耗token量约为1.2万至1.5万个，充分体现了其“深思熟虑”的工作方式。

在实际应用测试中，我们将Qwen3-Max-Thinking与DeepSeek-V3.2对比，要求两者分别生成一个开源项目分享网站的HTML原型。结果显示，阿里新模型能精准理解需求，产出结构完整、功能清晰的网页代码，共编写了1417行，虽略显冗余，但整体可用性高；而DeepSeek-V3.2则以787行更精简的代码完成任务。这表明Qwen3-Max-Thinking倾向于更详尽的实现路径，适合对鲁棒性和完整性要求更高的场景。

值得注意的是，该模型当前仅支持文本到文本的单模态输出，并采用“限时免费”策略开放API调用，降低了开发者尝鲜门槛。同时，为帮助用户控制成本，系统内置了“思考预算”调节功能，允许将推理token限制在1024至81920之间，灵活平衡响应质量与资源消耗。对于普通问答类问题，其实非思考模式已足够高效；但对于需要链式推理、跨领域综合分析的任务，开启Thinking模式则优势明显。

社区反馈方面，不少早期试用者表示，Qwen3-Max-Thinking的回答风格更为直接、专业且偏“商务风”，减少了传统AI常见的拟人化表达和情感渲染，更适合企业级应用场景。更有技术爱好者在其自建的“randombench”推理评测集上测试发现，该模型能够解决极高难度的逻辑与抽象问题，表现堪比传闻中的GPT-5（思考模式）及Grok-4，跻身全球顶尖推理模型行列。

然而，热度背后也有呼声：何时开源？何时上线Hugging Face？这是目前开发者最关心的问题。虽然阿里暂未公布后续开源计划，但从Qwen系列一贯的开放态度来看，未来释放更多版本的可能性极大。回顾今年9月5日，阿里首次推出Qwen3-Max预览版，彼时便宣称其为公司史上最大模型，参数规模突破万亿级别。如今推出的Thinking增强版，则进一步聚焦于“认知深度”而非单纯参数堆叠，体现出从“大”到“强”的战略升级。

总体来看，Qwen3-Max-Thinking不仅是阿里在通用人工智能道路上的关键一步，也为行业提供了新的高阶推理范本。尽管完整性能数据尚待披露，适用场景也有局限，但其在数学、编程与复杂决策任务中的卓越表现，已让业界对其正式版充满期待。随着训练进程推进，更多优化版本或将陆续登场，推动国产大模型迈向真正的“深度思维”时代。

Qwen3-Max-Thinking, 阿里通义千问, 大模型推理, 数学竞赛AI, 思考模式API

本文来源：