谷歌增强Gemini AI图像功能打响对抗ChatGPT最新战役

谷歌于周二推出Gemini 2.5 Flash图像模型，这款全新AI工具在图像生成与编辑精度、角色一致性方面超越前代产品，试图缩小与OpenAI的ChatGPT之间的差距。

这家科技巨头将高级图像编辑功能整合至Gemini的举措，反映了AI平台将图像生成视为必备功能的行业趋势。该工具现已登陆Gemini全平台，用户可通过自然语言指令编辑视觉内容——在完成姿势调整、多图融合等复杂任务时，能保持人脸与场景不失真。

谷歌在官方博客中表示，该模型支持”将同一角色置入不同环境，多角度展示单一产品…同时始终保持主体一致性”。

纳米香蕉来了 → gemini-2.5-flash-image-preview

– 顶尖图像生成与编辑能力

– 惊人的角色一致性

– 闪电般速度

现已在AI Studio和Gemini API开放预览 pic.twitter.com/eKx9lwWc9j

— Google AI Studio (@googleaistudio) 2025年8月26日

该模型曾以”纳米香蕉”的代号现身众包测试平台LMArena，其无缝编辑能力引发关注。谷歌于周二确认了该工具的归属。

谷歌表示，该系统能融合多张图像，为故事叙述或品牌推广保持角色一致性，并可结合”世界知识”解析图表或整合参考资料——所有这些仅需单条指令即可完成。

该模型在谷歌云平台的定价为每百万输出token30美元（约合每张图像4美分），同时通过OpenRouter和fal.ai渠道分发。

OpenAI于2024年5月推出GPT-4o模型，并在2025年3月新增图像生成功能，推动ChatGPT周活跃用户突破7亿。据谷歌2025年8月数据，Gemini月活用户达4亿，其周使用量仍大幅落后于OpenAI。

谷歌宣称所有输出内容将包含不可见的SynthID水印和元数据标签，以标注AI生成属性，应对滥用和真实性争议。