谷歌于周二推出Gemini 2.5 Flash图像模型,这款全新AI工具在图像生成与编辑精度、角色一致性方面超越前代产品,试图缩小与OpenAI的ChatGPT之间的差距。
这家科技巨头将高级图像编辑功能整合至Gemini的举措,反映了AI平台将图像生成视为必备功能的行业趋势。该工具现已登陆Gemini全平台,用户可通过自然语言指令编辑视觉内容——在完成姿势调整、多图融合等复杂任务时,能保持人脸与场景不失真。
谷歌在官方博客中表示,该模型支持”将同一角色置入不同环境,多角度展示单一产品…同时始终保持主体一致性”。
纳米香蕉来了 → gemini-2.5-flash-image-preview
– 顶尖图像生成与编辑能力
– 惊人的角色一致性
– 闪电般速度
现已在AI Studio和Gemini API开放预览 pic.twitter.com/eKx9lwWc9j
— Google AI Studio (@googleaistudio) 2025年8月26日
该模型曾以”纳米香蕉”的代号现身众包测试平台LMArena,其无缝编辑能力引发关注。谷歌于周二确认了该工具的归属。
谷歌表示,该系统能融合多张图像,为故事叙述或品牌推广保持角色一致性,并可结合”世界知识”解析图表或整合参考资料——所有这些仅需单条指令即可完成。
该模型在谷歌云平台的定价为每百万输出token30美元(约合每张图像4美分),同时通过OpenRouter和fal.ai渠道分发。
OpenAI于2024年5月推出GPT-4o模型,并在2025年3月新增图像生成功能,推动ChatGPT周活跃用户突破7亿。据谷歌2025年8月数据,Gemini月活用户达4亿,其周使用量仍大幅落后于OpenAI。
谷歌宣称所有输出内容将包含不可见的SynthID水印和元数据标签,以标注AI生成属性,应对滥用和真实性争议。
通用智能通讯
© 版权声明
文章版权归作者所有,未经允许请勿转载。