阿里新版Qwen VLo多模态模型震撼上线，支持指令编辑图片与AI视觉创作，免费体验媲美GPT-4o的图像生成能力

每日AI快讯10个月前更新 AI部落小助手

1,052 0 0

阿里重磅发布Qwen VLo模型：图像理解与编辑能力全面升级

近日，阿里巴巴正式推出全新多模态统一理解和生成模型——Qwen VLo。这款AI视觉大模型不仅具备强大的图像识别和理解能力，还能基于用户指令进行高质量的图像生成与修改，带来前所未有的智能创作体验。

目前，用户已可通过Qwen Chat平台访问该模型的预览版本，输入如“生成一张可爱猫咪的图片”或上传已有图片并发出“给猫咪戴上帽子”的指令，即可实现即时编辑与再创作。

Qwen VLo三大核心亮点解析

Qwen VLo在原有QwenVL系列基础上实现了多项技术突破，主要体现在以下三个方面：

1. 精准的理解与图像再创造
相较于传统多模态模型容易出现语义偏差或结构失真，Qwen VLo通过强化细节捕捉能力，显著提升了生成的准确性和一致性，确保输出结果更贴近用户意图。

2. 支持自然语言指令灵活编辑图像
用户可以通过开放式文本指令对图像进行多种修改操作，例如：“将画风改为梵高风格”、“为图片添加晴朗天空”等，模型均能高效响应并生成符合预期的结果。

3. 多语言交互支持，打破语言障碍
Qwen VLo支持包括中文、英文在内的多种语言输入，满足全球用户的使用需求，提升跨语言场景下的交互便捷性。

模拟人类画师思维，实现“一句话指哪改哪”

Qwen VLo的设计理念更接近一位具备创造力的人类画师，能够依据指令理解上下文并完成复杂图像任务。例如：

– 从“生成一只柴犬”到“背景换成草原”；
– “为它戴上红色帽子和墨镜”，甚至“变成吉卜力动画风格”；
– 还能完成“水晶球中柴犬”、“第一视角作画场景”等高度创意化的画面构建。

此外，模型还可执行图像检测、分割、边缘分析等专业视觉任务，帮助用户快速获取图像中的关键信息。

多图输入与动态长宽比生成功能即将上线

尽管目前多图输入与极端长宽比图像生成功能尚未正式上线，但Qwen VLo已经展现出强大潜力。未来，用户有望实现一次性处理多个图像元素，并生成如4：1或1：3比例的特殊构图，适用于海报设计、插画制作等多种应用场景。

文字生成图像，支持中英文海报设计

除了图像编辑外，Qwen VLo还支持纯文本到图像的生成，尤其擅长中英文混合海报的创作。例如，用户输入“夜晚山顶巫师施展宇宙咒语，夜空中浮现‘Qwen VLo!’字样”的描述，模型便可生成极具视觉冲击力的艺术作品。

模型可反向分析生成，识别图像对象属性

作为统一的理解与生成模型，Qwen VLo不仅能生成图像，还能对其进行再分析。例如，当用户询问“这是什么品种的猫和狗？”时，模型能够准确识别并反馈相关信息。

展望未来：智能生成助力多元交流

Qwen VLo采用渐进式生成机制，不仅提高了图像生成效率，也适用于需要精细控制的文字生成任务。虽然目前仍处于预览阶段，存在部分理解不准确或指令响应不稳定的问题，但其未来的应用前景令人期待。

未来，Qwen VLo或将支持通过图像传递想法、生成示意图、标注重点区域等功能，为用户提供更加丰富的表达方式。同时，这种具备输出能力的多模态模型也为研究人员提供了新的训练与评估路径。

本文来源：

智东西【阅读原文】

文章版权归作者所有，未经允许请勿转载。

「DeepSeek-R1接棒OpenAI，基于强化学习的多模态模型开源，引发AI圈性能对比热潮」

AI部落小助手

1,281

智源社区2025 AI十大趋势发布会：聚焦人工智能、多模态模型、AI4S、AGI与AI安全的未来发展动态

AI部落小助手

1,288

Llama 4重磅发布：首次引入混合专家架构，千万token上下文能力，开源AI领域新突破——多模态模型与强化学习助力超越DeepSeek

AI部落小助手

1,235

马斯克的Grok已经可以在xAI网站上单独访问

AI部落小助手

1,518

Nano Banana：AI图像生成与多模态模型领域的新锐力量，图像编辑AI的未来趋势

AI部落小助手

991

UniToken：多模态AI技术的突破，实现图文理解与图像生成的多任务联合训练

AI部落小助手

1,132

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

阿里新版Qwen VLo多模态模型震撼上线，支持指令编辑图片与AI视觉创作，免费体验媲美GPT-4o的图像生成能力

大模型首次直接理解代码图:不用Agent修bug,登顶SWE-Bench开源榜

Claude 全盘操控商店运营实验：1 个月净资产缩水 20%，Anthropic 仍看好 AI 接管经济前景

相关文章

暂无评论

AI最新资讯