谷歌 Gemini 2.5 Flash 升级 AI 修图功能，多项表现优于 GPT-4o

整理后文章（，更适合SEO）：

谷歌推出Gemini 2.5 Flash图像编辑模型，提升AI图像修改精准度

2024年8月27日消息，据科技媒体The Decoder报道，谷歌DeepMind于8月26日正式发布了其最新图像生成与编辑模型Gemini 2.5 Flash。该模型集成在Gemini应用中，用户只需输入文字指令，即可实现高精度的图像修改，尤其在保持人物或动物形象一致性方面表现出色。

与谷歌此前的图像生成工具相比，Gemini 2.5 Flash在根据文字描述编辑图片方面有了显著提升。据官方介绍，该模型在多项图像编辑任务中表现优于GPT-4o，能够更准确地理解和执行复杂指令，实现更自然、更真实的图像修改效果。

角色一致性功能，提升图像系列生成能力

Gemini 2.5 Flash的一大亮点是“角色一致性”（Character Consistency）功能。该功能可在不同背景、姿势或光照条件下，确保同一人物、动物或物体在多张图像中的外观保持一致。这一特性对于制作系列图像、品牌视觉素材以及产品多角度展示非常实用，有助于企业高效生成统一风格的产品图或宣传素材。

此外，该模型支持局部图像编辑，用户只需通过文字描述即可实现背景虚化、瑕疵去除、颜色添加或物体移除等操作，无需手动圈选区域，大大提升了编辑效率。

支持图像融合与风格迁移，拓展应用场景

Gemini 2.5 Flash还具备图像融合能力，最多可将三张图片融合生成一张新图像。例如，用户可以将产品照片与室内场景图结合，生成具有真实感的使用场景图像，非常适合电商与创作者使用。

模型还引入了“风格迁移”技术，可以将一种纹理、颜色或图案迁移到另一个物体上，同时保留其原有形状与细节。例如，将油画风格应用到照片中的建筑上，生成艺术化效果的图像。

更值得一提的是，Gemini 2.5 Flash还具备“现实推理”能力，可以模拟简单的因果关系。例如，生成气球飞向仙人掌并随后破裂的画面，使图像更具逻辑性与故事感。

上线即用，支持API调用与开发者试用

目前，Gemini 2.5 Flash已在Gemini应用中上线，用户需切换至“Flash”模型以启用图像编辑功能。所有生成的图像均带有可见水印及隐藏的SynthID数字水印，用于标识AI生成。

对于开发者而言，该模型可通过Google AI Studio、Gemini API以及Vertex AI平台进行测试和集成。使用成本方面，每百万输出token收费30美元，单张图像生成成本约为0.039美元。

广告声明：本文中包含的外部链接（包括但不限于超链接、二维码、口令等）旨在传递更多信息，帮助用户快速获取相关，仅供读者参考。本声明适用于IT之家所有文章。

Gemini 2.5 Flash, 图像编辑模型, AI图像生成, 角色一致性, 谷歌DeepMind

本文来源：