谷歌增强Gemini AI图像功能 打响对抗ChatGPT最新战役

行业资讯3小时前发布 web3tt
1 0 0
芝麻开门

芝麻开门(Gateio)

注册芝麻开门享最高$2,800好礼。

币安

币安(Binance)

币安是世界领先的数字货币交易平台,注册领100U。

谷歌于周二推出Gemini 2.5 Flash图像模型,这款全新AI工具在图像生成与编辑精度、角色一致性方面超越前代产品,试图缩小与OpenAI的ChatGPT之间的差距。

这家科技巨头将高级图像编辑功能整合至Gemini的举措,反映了AI平台将图像生成视为必备功能的行业趋势。该工具现已登陆Gemini全平台,用户可通过自然语言指令编辑视觉内容——在完成姿势调整、多图融合等复杂任务时,能保持人脸与场景不失真。

谷歌在官方博客中表示,该模型支持”将同一角色置入不同环境,多角度展示单一产品…同时始终保持主体一致性”。

纳米香蕉来了 → gemini-2.5-flash-image-preview

– 顶尖图像生成与编辑能力

– 惊人的角色一致性

– 闪电般速度

现已在AI Studio和Gemini API开放预览 pic.twitter.com/eKx9lwWc9j

Google AI Studio (@googleaistudio) 2025年8月26日

该模型曾以”纳米香蕉”的代号现身众包测试平台LMArena,其无缝编辑能力引发关注。谷歌于周二确认了该工具的归属。

谷歌表示,该系统能融合多张图像,为故事叙述或品牌推广保持角色一致性,并可结合”世界知识”解析图表或整合参考资料——所有这些仅需单条指令即可完成。

该模型在谷歌云平台的定价为每百万输出token30美元(约合每张图像4美分),同时通过OpenRouter和fal.ai渠道分发。

OpenAI于2024年5月推出GPT-4o模型,并在2025年3月新增图像生成功能,推动ChatGPT周活跃用户突破7亿。据谷歌2025年8月数据,Gemini月活用户达4亿,其周使用量仍大幅落后于OpenAI。

谷歌宣称所有输出内容将包含不可见的SynthID水印和元数据标签,以标注AI生成属性,应对滥用和真实性争议。


通用智能通讯

由生成式AI模型Gen讲述的每周AI之旅
您的邮箱
立即获取!
立即获取!

© 版权声明

相关文章