标签：多模态模型

Nano Banana：AI图像生成与多模态模型领域的新锐力量，图像编辑AI的未来趋势

当然可以！以下是根据您提供的，经过人工整理、后的SEO优化文章，更符合搜索引擎收录和用户阅读习惯。文章结构清晰、关键词分布合理，有助于提升搜索排名和用户停留时间。 ## （由多段落组成）：在《窄播Weekly》第66期中，我们聚焦Google最新推出的AI图像生成模型——Nano Banana。这款模型的发布，极有可能引发AI图像应用领域的又一次技术革命。回顾去年，想要在图片中将人物手中的玩具火车替换成玩具飞机，需要繁琐的标记、图层调整，甚至还要准备替换素材，整个过程耗时近一个小时，最终效果却并不理想。而如今，只...

来源：

11个月前

阿里新版Qwen VLo多模态模型震撼上线，支持指令编辑图片与AI视觉创作，免费体验媲美GPT-4o的图像生成能力

阿里重磅发布Qwen VLo模型：图像理解与编辑能力全面升级近日，阿里巴巴正式推出全新多模态统一理解和生成模型——Qwen VLo。这款AI视觉大模型不仅具备强大的图像识别和理解能力，还能基于用户指令进行高质量的图像生成与修改，带来前所未有的智能创作体验。目前，用户已可通过Qwen Chat平台访问该模型的预览版本，输入如“生成一张可爱猫咪的图片”或上传已有图片并发出“给猫咪戴上帽子”的指令，即可实现即时编辑与再创作。 Qwen VLo三大核心亮点解析 Qwen VLo在原有QwenVL系列基础上实现了多项技术突破，主要体现在以下三...

来源：

智东西【阅读原文】
Tags：AI视觉创作 Qwen VLo 图像生成多模态模型

1年前 (2025)

深度学习赋能手语翻译：谷歌DeepMind推出多模态模型SignGemma，革新医疗AI与海豚声音分析领域

近年来，AI技术在跨语言和跨模态翻译领域取得了显著进展。2023年5月31日，谷歌旗下的DeepMind团队宣布推出了一款名为SignGemma的手语翻译模型。这款模型是目前最先进的手语识别与翻译工具之一，能够将手语转化为口语化的文本输出。据官方透露，SignGemma将在今年晚些时候作为开源项目加入到Gemma模型家族中。值得一提的是，SignGemma主要针对美国手语（ASL）和英语进行了深度优化，并支持多语言功能。由于其开源特性，开发者可以自由使用并进一步改进该模型。DeepMind希望通过这项技术帮助手语使用者打破沟通障碍，在工作...

来源：

IT之家【阅读原文】
Tags：医疗AI 多模态模型手语翻译海豚声音分析深度学习

1年前 (2025)

Meta AI发布开源人工智能Llama 4：首次引入混合专家架构，推动多模态模型发展

当地时间上周六（4月5日），美国科技巨头Meta正式推出了其迄今为止最先进的开源人工智能模型——Llama 4。该系列模型包括两个版本，分别命名为Scout和Maverick。据Meta介绍，Llama 4是一款多模态大模型，能够高效处理并整合多种类型的数据，如文本、视频、图像和音频，并支持在不同格式间进行转换。值得一提的是，Llama 4首次采用了混合专家（MoE）架构，这种创新设计显著提升了模型在训练和响应用户查询时的效率。通过将模型划分为多个专注于特定任务的“专家”子模型，Llama 4能够更精准地完成复杂任务。根据官方数据，Scout...

来源：

iFeng科技【阅读原文】
Tags：Llama 4 meta ai 多模态模型开源人工智能混合专家架构

1年前 (2025)

Llama 4重磅发布：首次引入混合专家架构，千万token上下文能力，开源AI领域新突破——多模态模型与强化学习助力超越DeepSeek

万万没想到，Meta 选择在周末发布了全新的 AI 模型系列——Llama 4。作为 Llama 家族的最新成员，该系列包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。这些模型通过大量未标注的文本、图像和视频数据进行训练，具备广泛的视觉理解能力。 Meta GenAI 负责人 Ahmad Al-Dahle 表示，Llama 4 展现了 Meta 对开源 AI 的长期承诺以及开放系统将带来最佳小型、中型和前沿大模型的坚定信念。谷歌 CEO 劈查伊也对 Llama 4 团队表示祝贺，并称赞人工智能世界永远不会无聊。在大模型竞技场（Arena）中，Llama 4 Maverick...

来源：

机器之心【阅读原文】
Tags：Llama 4 多模态模型开源 AI 强化学习混合专家架构

1年前 (2025)

GPT-4o原生图像生成功能上线，OpenAI多模态模型引领AI技术革新，轻松实现P图与生图新体验

（由多段落组成）在 DeepSeek V3 进行“小版本更新”后，阿里通义千问团队也开源了新模型。与此同时，OpenAI 在深夜悄然发布了 GPT-4o 原生图像生成功能，这一消息让全球技术爱好者惊叹不已。更令人惊喜的是，即使是免费用户也能体验到这一强大功能。 GPT-4o 的核心优势在于其能够精准呈现文字，并严格遵循用户的指令要求。通过调用内置知识库和对话上下文，它不仅能够处理上传的图像，还能将其作为视觉灵感来源。这种特性让用户可以轻松创造出与构想完全一致的图像，从而实现更高效的视觉表达。 2024 年 5 月，OpenAI 推...

来源：

机器之心【阅读原文】
Tags：AI技术 GPT-4o OpenAI 图像生成多模态模型

1年前 (2025)

GPT-4o图像生成免费发布，奥特曼坐镇多模态模型，OpenAI指令遵循与文本控制表现惊艳

GPT-4o图像生成能力现已全面开放，免费用户也可第一时间体验！从即日起，这项功能将在ChatGPT和Sora中向所有Plus、Pro、Team以及免费用户推出。这一消息迅速引发了广泛关注，各种实测结果层出不穷。文本处理能力惊艳最令人惊艳的是GPT-4o对文本的处理能力。例如，它可以100%还原文字，并且能够指定文字的摆放位置。通过对比两张图片可以发现，第一张图中的男人倒影与第二张图完全对应，展现了其强大的细节把控能力。此外，它还能像连续剧一样，在准确生成文字的同时变换人物动作。奥特曼坐镇直播发布昨晚，OpenAI紧...

来源：

量子位【阅读原文】
Tags：GPT-4o OpenAI 图像生成多模态模型指令遵循

1年前 (2025)

OpenAI推出GPT-4o：超强人工智能生成图像，多模态模型引领图像生成新时代，与谷歌同场竞技，奥尔特曼AGI梗图现场直出引发关注

感谢IT之家网友华南吴彦祖和软媒用户1392612提供的线索！最近，OpenAI在深夜直播中发布了GPT-4o的原生图像生成技术的重大升级。奥尔特曼亲自上阵，展示了自拍变梗图、相对论漫画等功能。然而，与谷歌刚刚发布的Gemini 2.5 Pro相比，OpenAI的动作显得有些不足。奥尔特曼带领团队展示了GPT-4o图像生成技术的各种大升级，包括制作梗图、文本渲染、多轮交互生成和指令遵循等。其中最亮眼的演示是一张官方玩梗的表情包。这项功能已经在ChatGPT和Sora中向所有用户提供。新版Sora生成图像的时间比以往更长，但OpenAI认为生图的...

来源：

IT之家【阅读原文】
Tags：GPT-4o OpenAI 人工智能图像生成多模态模型

1年前 (2025)

「DeepSeek-R1接棒OpenAI，基于强化学习的多模态模型开源，引发AI圈性能对比热潮」

国内创业公司实现 OpenAI 愿景，多模态模型 K1.5 和 DeepSeek-R1 引领 AI 领域最近，大模型领域再次掀起热潮。国内创业公司月之暗面发布了数学、代码和多模态推理能力全面对标 OpenAI 的满血版 o1 的多模态思考模型 K1.5。与此同时，备受瞩目的 DeepSeek 也正式推出了其新版本 DeepSeek-R1，在数学、代码和自然语言推理等任务上与 OpenAI 的 o1 正式版不相上下。去年 12 月开源的 DeepSeek-V3 刚刚引发了一阵热潮，实现了诸多不可能的任务。此次发布的 R1 大模型更是让众多 AI 研究者感到震惊。AutoAWQ 作者 Casper Hans...

来源：

机器之心【阅读原文】
Tags：DeepSeek-R1 多模态模型开源模型强化学习性能对比

2年前 (2025)

AI生物学家：当「基础模型」与「生物学混沌」相遇，多模态模型和自然语言处理能否成为解谜的关键？

在当今的AI for Biology领域，基础模型成为了热门话题。研究人员希望将更多数据输入更大的模型中进行计算测试，以预测细胞状态如何响应化学扰动的变化，识别更好的酶来降解塑料或开发具有类似药物特性的蛋白质结合剂。这些研究建立在越来越容易获得的基因组数据之上，预示着一个光明的未来。然而，FutureHouse的联合创始人兼首席执行官Sam Rodriques认为，真正的生物学研究与当前的基础模型存在差距。他指出，在NeurlPs等AI生物学会议上，真正从事生物学研究的专业人士并不多。例如，《Nature》和《Science》期刊上的最新...

来源：

机器之心【阅读原文】
Tags：AI for Biology 基础模型多模态模型生物学研究自然语言

2年前 (2025)