谷歌 Gemini 2.5 Flash 升级 AI 修图功能,多项表现优于 GPT-4o

整理后文章(,更适合SEO):

谷歌推出Gemini 2.5 Flash图像编辑模型,提升AI图像修改精准度

2024年8月27日消息,据科技媒体The Decoder报道,谷歌DeepMind于8月26日正式发布了其最新图像生成与编辑模型Gemini 2.5 Flash。该模型集成在Gemini应用中,用户只需输入文字指令,即可实现高精度的图像修改,尤其在保持人物或动物形象一致性方面表现出色。

与谷歌此前的图像生成工具相比,Gemini 2.5 Flash在根据文字描述编辑图片方面有了显著提升。据官方介绍,该模型在多项图像编辑任务中表现优于GPT-4o,能够更准确地理解和执行复杂指令,实现更自然、更真实的图像修改效果。

角色一致性功能,提升图像系列生成能力

Gemini 2.5 Flash的一大亮点是“角色一致性”(Character Consistency)功能。该功能可在不同背景、姿势或光照条件下,确保同一人物、动物或物体在多张图像中的外观保持一致。这一特性对于制作系列图像、品牌视觉素材以及产品多角度展示非常实用,有助于企业高效生成统一风格的产品图或宣传素材。

此外,该模型支持局部图像编辑,用户只需通过文字描述即可实现背景虚化、瑕疵去除、颜色添加或物体移除等操作,无需手动圈选区域,大大提升了编辑效率。

支持图像融合与风格迁移,拓展应用场景

Gemini 2.5 Flash还具备图像融合能力,最多可将三张图片融合生成一张新图像。例如,用户可以将产品照片与室内场景图结合,生成具有真实感的使用场景图像,非常适合电商与创作者使用。

模型还引入了“风格迁移”技术,可以将一种纹理、颜色或图案迁移到另一个物体上,同时保留其原有形状与细节。例如,将油画风格应用到照片中的建筑上,生成艺术化效果的图像。

更值得一提的是,Gemini 2.5 Flash还具备“现实推理”能力,可以模拟简单的因果关系。例如,生成气球飞向仙人掌并随后破裂的画面,使图像更具逻辑性与故事感。

上线即用,支持API调用与开发者试用

目前,Gemini 2.5 Flash已在Gemini应用中上线,用户需切换至“Flash”模型以启用图像编辑功能。所有生成的图像均带有可见水印及隐藏的SynthID数字水印,用于标识AI生成。

对于开发者而言,该模型可通过Google AI Studio、Gemini API以及Vertex AI平台进行测试和集成。使用成本方面,每百万输出token收费30美元,单张图像生成成本约为0.039美元。

广告声明:本文中包含的外部链接(包括但不限于超链接、二维码、口令等)旨在传递更多信息,帮助用户快速获取相关,仅供读者参考。本声明适用于IT之家所有文章。

Gemini 2.5 Flash, 图像编辑模型, AI图像生成, 角色一致性, 谷歌DeepMind

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...