(由多段落组成):
近日,阿里巴巴通义千问团队正式发布其最新一代视觉语言大模型Qwen3-VL的轻量化版本——4B与8B参数规模的双型号系列。此次推出的两个尺寸均包含Instruct和Thinking两种模式,标志着阿里在多模态AI领域进一步降低使用门槛的同时,依然保持顶尖性能表现。新模型一经上线便引发开发者社区热烈反响,被广泛认为是当前同级别中最具竞争力的开源视觉语言模型之一。
相比此前的大参数模型,Qwen3-VL-4B和Qwen3-VL-8B在资源消耗方面实现了显著优化,大幅减少了显存(VRAM)占用,使得更多普通用户能够在消费级设备上本地部署运行,例如配备16GB内存的MacBook也能流畅使用。这一改进极大拓宽了模型的应用场景,为个人开发者、中小企业及教育科研机构提供了高性价比的AI开发选择。
尽管体积更小,但这两款新模型并未牺牲核心能力。它们完整继承了Qwen3-VL系列的核心功能,在图像理解、文本生成、OCR识别、视频分析以及智能Agent任务等多模态应用场景中表现出色。根据官方公布的多项权威基准测试结果,Qwen3-VL-8B Instruct在MIABench、OCRBench、SUNRGBD、VideoMMMU、ScreenSpot等超过30项评测中达到SOTA(State-of-the-Art)水平,不仅力压Gemini 2.5 Flash Lite和GPT-5 Nano等国际竞品,甚至在部分指标上媲美阿里半年前发布的720亿参数旗舰模型Qwen2.5-VL-72B。
与此同时,Qwen3-VL-4B Instruct也展现了“以小博大”的强劲实力,在STEM题目解析、视觉问答(VQA)、复杂文字识别(OCR)和动态视频理解等任务中,性能与主流高端模型不相上下,充分体现了阿里在模型压缩与效率优化方面的深厚技术积累。而在纯文本处理方面,无论是Instruct还是Thinking版本,Qwen3-VL-8B与4B相较之前的Qwen3系列基础模型均有明显提升,展现出更强的语言逻辑与推理能力。
值得一提的是,Thinking版本在高阶推理任务中尤为突出。Qwen3-VL-8B Thinking在MathVision、MMStar、HallusionBench、CountBench等多个专业测评中斩获23项SOTA成绩,超越同类开源模型及闭源竞品,尤其在数学视觉推理与空间逻辑判断方面表现惊艳。即便是参数更少的Qwen3-VL-4B Thinking,也在多个挑战性任务中实现“越级对抗”,赢得开发者高度评价。
自9月24日Qwen3-VL系列首次开源以来,该模型迅速在全球AI社区掀起热潮。在知名AI排行榜Chatbot Arena的子榜单Vision Arena中,Qwen3-VL位列全球第二,稳居开源视觉模型榜首;同时还在Text Arena纯文本赛道拿下开源第一、全球第八的好成绩,成为首个在图文双领域均登顶开源榜的国产大模型。此外,在第三方API聚合平台OpenRouter的图像处理榜单中,Qwen3-VL以高达48%的调用量跃居全球首位,充分证明其实际应用中的受欢迎程度。
为了帮助开发者更快上手并深入挖掘模型潜力,阿里还同步推出了《Qwen3-VL Cookbook》使用指南,涵盖图像思维链构建、计算机操作Agent实现、多模态编程、3D目标定位、空间关系推理、长视频语义理解等多种实用案例,助力用户从入门到进阶快速落地各类创新应用。
目前,Qwen3-VL系列模型已在魔搭ModelScope平台全面开放下载,用户也可通过chat.qwen.ai在线体验不同版本的功能差异。相关代码、教程及Cookbook均已开源至GitHub,欢迎广大开发者参与共建。
– 模型下载地址:[https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b](https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b)
– 在线体验入口:[chat.qwen.ai](https://chat.qwen.ai)(选择Qwen3-VL系列)
– Cookbook文档地址:[https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks](https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks)
Qwen3-VL, 阿里大模型, 视觉语言模型, 多模态AI, 开源大模型
本文来源: