00:00 / 02:05
连播
清屏
智能
倍速
点赞67
Google Nano Banana 的幕后故事 在最新一期的 Release Notes 节目里,主持人 Logan Kilpatrick 请来了 Google 图像编辑模型 Gemini 2.5 Flash(内部代号 “Nano Banana”)的核心成员,Nicole Brichtova、Kaushik Shivakumar、Mostafa Dehghani 和 Robert Riachi,一起探讨并拆解了这款目前最强大的图像编辑模型的核心能力以及背后的技术细节。比如怎么用 “交错生成” 来处理复杂编辑任务、如何实现角色一致性,以及像素级的精准控制。不管你是 Nano Banana 的粉丝还是一名开发者,相信都能从中获得启发。 “Nano Banana” 这个可爱的代号,是团队为 Gemini 2.5 Flash 取的,最早是在 llmarena 上亮相,现在已经集成进了 Gemini APP。这款新模型不仅能生图,还能进行多轮对话式的编辑,一步步把图像调整到你想要的效果,越改越准,像和朋友聊天一样自然。 它最大的亮点,就是在场景和角色的一致性上表现非常出色。比如,你给它一张人像,可以只让它换顶帽子、改个表情,或者把同一个人从正面换到侧面、远近切换,但形象还是那个“他”。编辑家装图的时候也一样,你可以只改窗帘或灯具,其他地方都不动,真正实现像素级的精准修改,非常实用。 更棒的是,你不用太会写 Prompt。就算只是给个很模糊的提示,比如 “做成 nano 风格”,它也能理解你的意思,结合 Gemini 的 “世界知识”,给出聪明合理的推测,生成风格统一的图片。它还支持一次性连续生成多张图,并自动配上简洁的描述,风格前后一致,非常适合头脑风暴。而且速度很快,生成一张图片只需十几秒,适合对图片进行反复修改调整。 文本渲染是这次团队重点打磨的方向。现在简单的字母和短语已经能表现得很不错了,整体还在持续升级。团队把 “文字写对写清楚” 当成重要标准优化,因为文字理解力提升了,对画面里其他结构化对象的表现也会更好,画质自然也随之提升。 …… #AI技术 #NanoBanana #gemini #google #玩转AI
00:00 / 30:32
连播
清屏
智能
倍速
点赞0
00:00 / 04:35
连播
清屏
智能
倍速
点赞153
00:00 / 02:11
连播
清屏
智能
倍速
点赞3