有这样一种 ai 模型,它不是慢慢等出图,也不是效果好不好再抽卡试试,而是你刚说完,它已经在眼前出图了。这就是刚刚发布的 nano banana。 二、来自于谷歌最新的图像生成引擎,承载着这家公司在 ai 图像下半场最核心的一次升级。 先说三个核心,更快、更准、更可控。它的生成速度比前一代版本快大约两倍。从草图级别到高清,成果不再是等待的艺术,而是实时的生产力。它能处理从五幺二 ps 到四 k 分 辨率的图像,并支持多达十四种画幅比例,让同一个任务在社媒、 banner、 海报、影院级视觉上都能轻松适配。 而最关键的是,它具备外部触达能力和全球认知能力。这意味着你生成的图像不只是逼真,还能真正反映现实世界中最新的品牌符号、语境和风格,而不是停留在模型计的表面。 对于创作者、设计师、内容编辑和广告运营来说,这种时代语境敏感的图像创作价值远不止一张漂亮图像那么简单。这个模型还在一致性和复杂场景方面做了显著优化,最多支持五个角色一致性,最多十四个元素组合渲染,以及更准确的文字渲染和本地话支持。 也就是说,当你要求 ai 生成一幅包含多人剧情、具体品牌标志、清晰文字说明的图像时,它不再是狗头乱飞,而是更像真正懂视觉语言的视觉助手。 而且,这一次,谷歌并不是把它埋在付费墙后面。 nasuban 的 二,将作为默认模型推送到 jamming app 搜索 ai 模式、 ai studio 乃至视频工具 flow 等核心产品中,让每一个用户都能用上这股闪电能力。当然,这不是一次简单的图像生成优化,它有更深的行业意义。当图像生成速度和质量不再是门槛时, ai 视觉开始真正融入创意生产链、品牌设计链和内容传播链。从社交图像广告素材到营销海报、视觉故事版,设计不再是技术门槛,而是思考和创意本身的战场。
粉丝798获赞7337

谷歌 ceo 亲自发帖宣称 banana 二来了,号称迄今最强图像模型, flash 的 价格与速度体验, pro 级的质量,关键现在还免费。我将从多方面去测试 banana 二,看它究竟强在哪?一、主体一致性 单次工作流,支持五个角色,十四个对象。左边是我上传的主体参考图,右边是生成的效果图。 banana 二像素级还原,多对象指令执行,堪称完美。 二、文字生成天花板、商业海报、复杂流程图,字迹清晰可商用。这是生成的一张查到主题的中国风插画图,可以看到图中不管是中文还是英文都清晰可见。最神的是字迹仿写, 传一张手写字,他能一比一赋刻出一封情书笔记难辨真假。三、理解力飞跃 捡漏草图秒变精美网页 ui, 能够很好理解如此复杂包含多重指令的草图输入。四、支持多画幅图片生成,支持一比八到四比一等极端画幅。 无论是旅游、长途电商 baner, 还是无缝胶带图案,通通一键搞定。五、视觉保真度升级, 航拍、山谷胶片、人像、赛博、重庆光影和皮肤质感真假难辨。 banana 二的出现,将给内容生产上提供了新选择,哪怕我们不会写提示词,不懂技术,他也能给出很好的图片,而我们需要做的,只剩下充分发挥自己的想象力。

昨晚 google 发布了 nano banana 二版本,我连夜用两个版本做了对比测试,模拟一个美术馆从线稿到效果图再到动画的设计全过程,完整动画在视频最后。 banana 二属于轻量化版本,出图更快,成本单价更低,文字理解更准,当然也因为是轻量化,品质是比不上原 pro 版本。下面展示 ai 设计制作全过程。 打开 gamemini 网站新对话框,给他一个安藤忠雄身份设计一座艺术馆的黑白线稿图完整提示词如下,欢迎抄作业可看此处 ai 思考过程正调用 nano banana 二模型, 不再是 pro, 若想用回 pro 版本,可去 google 其他网站产品使用。二十多秒后得到一张建筑手绘图,对比两个版本出来的效果,你们喜欢哪个?请评论区留言。接下来将现稿图转为现实风格的建筑摄影图,清晨雾天风格提示词如下,我们同样上下对比,此时你喜欢哪个? 然后就用词主控角度发展东南西北四个人事角度。提示词如下,其实肯定是 pro 版本出图品质更高,审美更好,而且当时是白天一次成功,现在 banana 二版本只能凌晨一点后算力充足情况下多次抽卡才做到现在此效果。继续放大对比,你们觉得如何? 接下来根据此斜图直接生成一张鸟看图,提示词特别简单,而且不用电图, jimmy 三点一,在同一个对话框中是有上下文记忆的。 继续点击放大对比,当然 pro 版本前面的图调子的雾气比较重,让鸟看显得有点脏。当时我用 pro 一 句话转为现实风格的日景效果出来,效果就很好。接着我们尝试电风格参考图,将刚才的鸟看图做风格转换,将参考图作为图一,本项目图作为图二,拖到提示词框, 提示词用最简单的三段式即可。参考图一,什么,将图二做成什么,保持什么不变。具体提示词如下,可直接抄作业。 再对比一下,两个版本的效果都还不错。后面我做了几个不同角度的摄影风格图和展满,在此我就只展示一个典型的吧,目标是做含十二个角度的展满,建筑空间加美女,给他一个建筑大师和摄影大师身份,要求出十二个角度, 从鸟看到局部再到室内,还要四整美女街拍图。最后明确为有主次的灵活的国际竞赛拍板风格出来效果还不错。提示词说的角度基本上都有一一反馈,甚至还可以垫上你们的女神。如果之前的红砖房改造项目,就用我的花式滑冰女神 k 宝出了很多写真大片,顺道提一句, k 宝解禁复出了,请各位多多支持! 好!静态图玩的差不多了,接下来玩动画,以最后一张多角度展版图作为电图,直接让詹麦奶调用 vol 生成视频动画。提示词有点复杂,且需多次测试,若大家感兴趣,请评论区留言,我后面专门做一期动画分享。最后展示一下昨晚花了两个小时用 vol 做的动画效果。 the geometry we finally found it。

谷歌的 nano 本纳纳昨天晚上悄咪咪的上线了,我们的模型焦虑又该开始了,以前所学习到的所有图像生成模型完全都可以抛弃不要了,接下来我会通过人物肖像海报、中文理解参考图、流程图以及多个维度给大家做一下测试。首先呢,我们先来看一下这个是它 nano pro 二官方模型更新的一个文档说明,这里面提到了一共三大点的更新方向。首先第一大点其实就是呃成本的降低,因为它这一次的更新模型的训练过程呢,主要用到了就是 gimna 三啊 gimna 的 flash 模型进行的推理, 所以相较于 nano pro 来说,它的成本生成成本下降了将近百分之五十。其次呢,就是它的生成速度确实提高了很多,因为它这里边新增了一个五幺二的分辨率 向下进行了兼容,虽然是向下分辨率降低一些了,但是它有效的确实是帮助我们可以快速的拿到一个成结果。然后在高强度的这种并行的很多的呃生成过程当中呢,我们可以快速得到一个最终验证的方案,这样的话不至于我们在生成的过程当中等时间太久。 第二大点呢,就是它的一个核心的性能的一个提升,这里面主要体现在于其实就是文字的渲染,一会呢我有生成一个案例,就是生成一个呃中国古代的墓碑的那么一个质感图片,一会大家带着大家一起来看一下。第三大点更新的就是它有一个更强的一个灵活性了, 这一次它增加了很多的一个图片的比例,就比如说四比一啊,一比四啊,八比一、一比八啊,这种非常极端的比例,它都是可以生成的, 也就是满足了我们很多的这种创作的需求的最终落地的版本,要不然的话,因为比例不同,我们后期进行裁切的过程当中也会存在很多图片信息元素不合理,又得重新进行生成,就很麻烦。 ok, 那 么我们接下来来带着大家看一下我生成一些基本案例, 这个呢我用到的是一个多图参考的案例,这里边我生成的一些图片,各种各样的小元素,汽车、帽子,然后包括衣服、人物,我用一个最简单的自然语言,大家可以注意一下我这个写的词啊, 都是一些非常非常普通的大白话,只需要按照上面图片里边的信息一比一说到,把这些元素都含在在内了,那么最后我们就可以得到一个基本的元素和效果。我们再来往下看,就是一个流程图,这里边呢我让他根据某一篇英文的论文, 然后让他帮助我最后根据这篇论文生成一个生整个的流程图。这里面涉及到一个相对来说复杂一点的逻辑,就是因为论文本身是英文的,相当于是他阅读完这篇论文的内容,先把英文翻译成中文, 然后再按照中文的结构和方式,帮助我去生成一张图片。对大家来看一下,这个生成结果 里边含盖了标题啊,副标题,以及每一个流程的过程当中涉及到的中文排版比例关系都是非常准确的。 ok, 然后我们再来往下看,就是海报,这里面海报啊,其实像现在的绝大多数的图像生成模型来说,都是可以完成的, 所以我先用了一个相对来说简单一点的,比如说指环王的电影海报,是吧?然后又采用的是恶魔高校的这种画风啊,他可以很好的完成,没有任何问题。 再来往下就是我让他去生成了一个这种人物海报,里边会带有一些基本的字样, ok, 也是相对来说很稳定,没有任何问题,基本上都是一次成功文字排版啊,包括人物脸型比例关系,包括手的位置,还有这些蝴蝶的元素, 并没有出现太多的这种不合理情况,对吧?然后我们再来往下看,就稍微加一点难度,让它生成一些动态的效果,这种牛奶海报的效果,对吧?再来往下呢,就是我让它去生成了一个基本的分镜效果 啊,都是通过这种最简单的自然语言直接描述,没有像啊, nano banana pro 的 那个版本的时候,我们当时记得还得去写这种 jason 格式的提示词结构 ai 模型,它才能够理解的非常准确。而这一次完全不需要了 对于自然语言的理解,因为这个 gemine 它结合了 gemine flash, 它所生成的对于自然语言的理解是非常到位的,所以我们通过直接打字的方式,没有任何结构,它就可以生成,很标准而且很统一,每一个元素 不会差别太大,对吧?各位同学来看一下所有的人物的脸,脸部的细节和信息其实都是可以保持高高度统一的效果。 ok, 我 们再来往下看,哎,这个相对来说有点意思啊,就是我让它去生成了一个 这种分享会或者叫做 ppt 的 形式吧,用的是乔布斯,并且呢里边的文案啊,用的也是中文,加了一个乔布斯名字的落款。 我就在想,那我上传一张我的图片,然后我让他把我的乔布斯的头像改成我的头像,并且最后的落款改成我的名字,行不行? 哎,没想到我用这种最简单打排话,然后让他去生成,完全是 ok 的, 完全可以做到,衣服也是完全统一了,哈哈,所以这种方式的话,我们后期的话,其实 ppt 都不需要人来做了,是吧?这个直接把需求给到 ai 就 可以了,主要来看一下, 也就是他官方文档说明里面对于中文生成中文理解,大家可以看一下这个墓碑前面前景的这个墓碑上面的一些中文字体和效果生成的笔画 啊,以及质感都是非常高精度的,对吧?他不会出现文字看不清看不懂的这种歪七扭八的情况。来看一下后边的这个排落,上面的这些中文也是完全可以看清的,也是一个毛笔字,也能够看清具体是什么文字。 所以这一次对于我整体来说, nintendo 二更新的模型最大的两点优势,第一个就是升升速度,第二个就是中文理解,它也符合了我们前段时间看到我前往期的一些视频,我之前有评测过一期 nintendo 呃, jimmy 三点一, 今年三点一的模型更新,这几个月以来谷歌的模型更新全部都是在呃小步快跑上面体验层上面的整整体的效果,所以这个其实对于我们很多来说,我们不需要太多的模型,大模型的更新它可以生成我已经知道了, 而我现在需要的其实就是生成完成的最后那一关,最后那一步生成完之后能不能直接拿来用?还是说生成完成以后,我还得再需要人工进行后期调整细节和调整调整生成结果,这样的话其实对于专业的设计师来说完全没问题。 但是呢,对于很多的小白用户或者说非专业人士来说,还得需要我人为去修改的话,是极其痛苦和困难的一件事情,这个就相当于我完全没有没有办法拿去用了。就比如说这张图片我生成完成以后,墓碑啊、背景啊、树啊都是 ok 的, 但是这里面的文字看不清, 那我文字其实对于整张图片来说比例就是非常的小,那我需要专业人士去改文字,并且加光影,加效果,加内阴影,但是对于非专业人士来说他改不了,那这张图片其实对于他们来说就是完全一张废图。 而这一次的谷歌 jimmy 三点一以及 nintendo 二的模型更新完全就解决了这一步,所以这个是我整体测试,花了大量几个小时测试下来,对于我整体的一个体感和感受。 ok, 那 么我们这一期视频就到这,我们下一期视频再见,各位同学,拜拜!

google 今年简直势不可挡,就在今天,他们推出了 nano bana 沃模型,这是其目前最先进的图像生成模型。该模型提供专业级画质,在保持极速的同时,并融合了前代 nano bana pro 的 创意智能与超快速的生成流程。 这归功于 google deepmind 的 gemini flash 技术架构,效果极其出色,高质量图像几乎瞬间即可生成。 说实话,这可能是目前市面上最强的图像生成模型。 nano banana 二是一款真正的顶尖的图像生成模型,它能带来鲜活的光影、丰富的纹理、清晰的细节 以及即刻可用的专业级画质。该模型的核心优势包括,它具备强大的世界常识理解能力,支持高精度的文本渲染 以及图像内的翻译,甚至能将五幺二像素的图像超分放大至四百 k 级别。更出色的是,它支持全方位的纵横比控制,并能在多达五个角色和十四个物体间保持主体一致性。 谷歌显然正在缩小差距,这款模型平衡的速度与画面质量让你无需再在两者之间做取舍。 大家看,最终的画面质量极其出色。这些都是由这款模型生成的。你只需准备一张简陋的草图,哪怕只是随手涂鸦,交给 nano 八纳纳二模型后,它就能将其转化为可直接交付的设计稿。过去需要设计师视觉稿 反复迭代和整套 ui 工作流才能完成的任务,现在只需一条提示词加一张草图就能实现。我将在明天的视频中专门展示这一点,届时我会演示如何用该模型来润色 ui 界面,协助制作营销素材及各类原型, 实现从简单草图到完整生产及应用的跨越。这是利用 ai 赋能 ui 设计的绝佳途径。借助这些免费工具,你几乎能随心所欲地进行创作。 老实说,对九城创作者而言,它依然成为图像生成领域的新标杆。 它能为日常工作、快速迭代和 a p i 开发提供专业级的输出。无论是制作广告还是社交媒体内容,都无需担心系统赋载,也不必担心高昂的成本,因为 google 已经让这项技术走向了大众, 使其成为目前普及度最高的顶尖图像技术之一。如果你还没尝试过,有很多种方式可以轻松上手体验。它具备极其出色的文本渲染能力, 能实现无缝的图中文字翻译,并保持强大的主体一致性。但坦白说,在处理极复杂的场景或追求极致写实的修图时, 这款模型在画质保真度上略胜一筹。也就是说,它在幻觉处理和参考编辑上延续了 gemini 系列的特性。在这些方面,它的表现可能略显平庸,但在其它性能维度上表现绝对堪称惊艳。 如果你想获取顶尖的 ai 工具、工作流以及快人一步的最新资源,点击下方简介栏链接免费订阅我的 newsletter, 全程不收取任何费用。至于定价,这款模型绝对极具性价比。它提供标准的 api 接口,计费方式也有所不同。 既根据图像的像素量来计费,比如五幺二像素的图像, 每张的价格大约是四点五美分。如果是二 k 图像或是四 k 图像,价格则不同。详细的定价表我会放在下方的简介栏中,但比起其他模型,它的价格绝对更具竞争力。 您可以在 google a s studio 中轻松上手,也可以通过 gemini 应用免费使用。不过,为了展示其强大性能,目前设有严格的频率限制。我准备了一张新闻博克的草图, 并让它将草图转化为完整的新闻博克网站。接下来,我们选择 nano banana 二模型, 让它把这张草图转换成一个现代化且设计精美的新闻博克落地页,仅需几秒钟,样图就生成好了。它的精妙之处在于能完美还原原型图中的每一个组建。 在深沉的图像中,它完美延续了我手绘草图的设计风格。 可以看到,这款移动应用对草图细节的还原非常精准,所有组建的效果都非常出色。显然,如果你能进一步优化提示词,就能获得更优质的设计方案。而 gemini 模型的强大之处在于, 你可以调用 provis 模型直接生成这个页面的前端代码,而这一切只需提供一张圆形图即可实现。借助 nasuban 二模型,它成功完成了转化。现在,我们得到了一个功能完备的圆形,它完美还原了我们提供的所有组建。 这正是这套工作流的强大之处。这种流程在不久的将来基本上会取代许多开发者的工作。 我们拥有了全套自动生成的组建以及应用的视觉原型,包括移动端应用以及所有组建的视觉稿。它是完全基于 react 开发的泊课页面。 更令人惊喜的是,当你让它根据草图去创建,比如,比如像盛家族大教堂这种,它能非常出色地刻画出各种细节, 无论是模拟真实扑克的草图,还是像西班牙圣加堂这样的真实景观。这正是该模型的强大之处。它能完美驾驭各种预设模式,以及 nano banana 二模型自带的多样化风格, 比如创作老式卡通或油画质感。它的应用场景非常广泛,展现了这款新图像生成模型的极高灵活性。这简直太惊人了!有人在 gemini 应用里直接生成了一套暗黑幻想风格的游戏 ui 重绘方案, 生成的 ui 效果非常惊艳。这是原有的游戏 ui, 但 nano banana 二模型生成的效果是这样的,它对风格的把握极其到位, 精准捕捉了游戏的氛围,并处理好了各类布局。由此可见,它将成为 u i 设计写作的得力助手。 它能对界面进行重构,并能理解统一的视觉风格走向。它能为你生成非常出色的设计。 根据你所提供的输入,这就是提示词之所以关键的原因。这也是我一直强调提示词工程的原因。如果你打算开始学习这一块,我强烈建议你去上点课,或者深入了解一下什么是提示词工程。 我来举例说明一下。只要提示词写得对,就能获得更逼真的图像,以及精准呈现你想要的各种风格。在接下来的这段提示词里,我让他把这个 logo 图像直接嵌入到这个香水瓶中,可以看到深层的处理效果非常出色。迟早我们将看到 这些模型基本上复刻所有的能力,甚至超越 photoshop 等修图工具的所有功能。更惊人的是,我让它生成一张我的世界的游戏画面,它对游戏细节的还原非常到位,现在整张画面看起来几乎毫无违和感, 只有左边这块区域感觉和游戏风格不太搭,但其余部分构图精良,完美还原了我的世界的视觉风格。这就是该模型目前的输出水准, 也是 nano banana 二能够带给我们的预期效果。接下来,我尝试让 nano banana 二制作一张展示保时捷各款车型的现代风格信息图表,也就是那个著名的汽车品牌。 这是第一版生成的图像,它在相关能力方面表现出色,能够制作精准完美的现代信息图表,示觉效果也非常吸睛。 它将各种轿车和跑车排列的井井有条,还有 suv 类别,连其中的文字内容也全都完美呈现了,这说明模型的文字生成能力非常出色。你能明显感觉到这个模型 指令精准度和场景连贯性更强,文图之间的违和感已微乎其微。我认为它是目前最好的纹身图模型, 就其市面可用性及其出图质量而言,结合其工作流速度,这绝对是它脱颖而出的核心优势, 也是它优于其他任何图像生成模型的关键所在。所以很高兴能看到这次模型升级带来的表现,确实非常惊艳。很好奇你们的看法,欢迎在评论区留言讨论。看到这张照片时,请告诉我这到底是 ai 生成的还是真人实拍? 说实话告诉我你的第一感觉。从这位女士身上的细节来看,她看起来确实就是一张实拍照片,但事实并非如此,因为仅凭这段文字提示词,我就在旧金山的屋顶上生成了这位女士。这是一张足以乱真的人像照片, 各位,这真的太不可思议了,现在的技术发展程度已经到了深度伪造内容随处可见的地步。想象一下约会软件上的那些人们,看着这些 ai 生成的照片美女,那场面简直不敢想象。但最离谱的是,我居然完全看不出这竟然是一个由 ai 生成的女性形象,因为现在真的已经真假难辨了。 这是我生成的 g o a t 勒布朗詹姆斯的逼真照片,它在还原詹姆斯的神韵上做得非常出色。看到 nano banana 模型效果,我被惊艳到了, 我竟然能生成照片,只需简单指令就能生成真人,这简直不可思议!总之,这是一个非常出色的图像生成模型,在生成速度、精度和场景一致性上表现优异,它绝对领先于目前的任何图像模型,生成的质量非常惊人。它对指令的理解和执行能力非常强大。但就像我说的,某些细节上的幻觉,在特定生成情况下还是挺烦人的。 不过这只是我发现的一个小状况,大家对这个模型怎么看?欢迎留言告诉我相关链接我都放在下方的简介栏了,这款模型绝对能帮到不少人, 所以大家有什么想法尽管在评论区交流,我会把所有我用到的链接都整理在今天视频下方的说明栏里。 好了,今天就聊到这,非常感谢大家的收看。别忘了关注我的二频道,也记得订阅我们的周报并加入 discord 社区,记得关注我的 twitter, 最后别忘了订阅并开启小铃铛,顺便给视频点个赞。 也欢迎回顾我们的往期内容,以便随时紧跟 ai 领域的最新动态。好了,祝大家今天过得愉快,保持积极心态,我们下期视频,各位拜拜!

设计师这次真的要失业了,谷歌新出的这个 nano banana 二这个纹身图的模型,它不但可以生成非常高质量的图片,同时它还集成了搜索的能力,而且它的价格只有 openai 的 一半。 今天我们就看看它到底有哪些变化。我们先来看一下这个 nano banana 二,它的这个实时联网的能力和它在纹身图上面的一些突破,它 到底是怎么做到的?能够通过这种和搜索能力的结合,让纹身图变得更贴合现实的信息结构。其实这次的 nano banana 二它最大的亮点就在于它不再是一个孤立的纹身图的模型了,它其实背后是接入了 jamminine 的 整套的搜索能力,所以它就像是给这个图像模型装了一个可以随时查资料的大脑。 你比如说你让他生成一个什么街景,那他连远处的那个广告牌上面的字和路牌上面的字,他都可以给你生成出来,而且他还不是乱码,他都是跟真实世界是相符合的一些信息。这个 nintendo 在 生成一些人物和一些场景的时候,他的这个细节和真实感到底能做到什么程度? 这个模型他现在已经可以做到让人物的神态、肢体动作,包括环境的光影都非常的到位,几乎没有人会怀疑真的很厉害, 尤其是这种窗口视角的这种场景,他都能给你按照你的要求来。更有意思的是,你只要说一个靠窗的座位,他就可以根据真实的地理和气象数据生成一个繁华都市的夜景,或者是说雪山木屋这种窗口的构图, 而且他的每一个细节都是非常精准的,就这种实时联网的能力真的是让人非常的惊艳。他这个模型在信息图生成上面的表现怎么样? 它真的能够通过画图来展示出一个比较复杂的思考的过程,其实它最大的突破就是在于它不仅仅是说画的像,而是它能够真正的去生成信息图。 比如说之前有一个非常火的那个梗,就说我想洗车,洗车场离我五十米,我应该走过去还是开车过去?很多这种高级的模型都会答错,但是谷歌这次直接就生成了一张图,它把走路和开车的整个的逻辑链都给你画出来了, 最后得出来的结论也是对的,这不仅考验模型的绘画能力,更考验他的推理和对目标的理解能力。 他这个背后就是靠 jamie 来的强大的思考能力,然后加上 banana 二非常厉害的绘图的能力,所以很多网友都觉得这个东西真的是让图像和现实的界限变得更模糊了。就是 ai 生成这些以假乱真的图片会不会带来一些新的风险? 那谷歌又有什么办法来应对这些担忧呢?图片越来越真假难分之后, ai 造假可能会变得更加难以防范,那怎么去证明一张图片的来源和它的历史就非常关键了。所以谷歌这次给 nano banana 二配上了 sims id 水印和 c 二 pa 内容凭证体系, 每一张生成的图片都会带有这种特殊的不可见的标记和详细的来源信息,这样的话平台就可以很容易去追溯它的整个生成过程,到底是不是机器生成的,就可以很容易查出来。 nano banana 二在权威测评里面到底是一个什么样的水平?跟其他的竞品相比,它有哪些突出的优势?在 artificial analysis 的 榜单里面,前几名几乎被 nano banana 系列给包揽了,特别是这个 nano banana 二,它是排名第一的,在图像编辑能力上面,它也是排名第三, 但是它的价格只有 open 眼的一半,所以大家都叫它性价比之王。所以说现在这个纹身图的领域,大家拼的就不只是画质了,现在这个行业已经是一个贴身肉搏的状态了,就是大家的分数都咬得很紧, 然后大家除了比谁画的更好之外,现在越来越看重的是速度,模型的理解力,还有整个生态的整合。所以这也是为什么谷歌的煎饼奶月火能够飙到六亿五千万, 然后 nano 布纳纳这个扩散速度简直就是病毒式的。这个实时联网的功能到底给纹身图带来了哪些以前没有的新玩法呢?最直接的变化就是它能够把一些抽象的东西很准确的变成可量化的信息图。 比如说官方的那个例子,它用棉花来做云,然后用纸片来做山,用了一个玻璃网来代表大海,做了一个水循环的视野图。 它不仅所有的环节都画的很对,包括它的这个文字标注流程的箭头全部都是准确的,它真的是一个既好看又好理解的一个东西。所以说它不仅仅是在生成一张漂亮的图片,它是在帮助人们去梳理和表达一些知识,对,就是这样的,用它来做这个食谱图,然后做医学解剖图,还有各种科普的示意图, 它的这个排版和结构都特别的清晰,而且它的步骤一点都不会乱,所以说这个东西真的是会彻底的改变信息图了这个行业。那这个 banana 二的实时联网能力到底会给教育、科研、商业这些领域带来哪些全新的可能呢? 其实它最大的突破就是在于它可以把一些非常抽象的概念,或者说一些很复杂的知识直接变成一张很清晰的图。 所以在教育领域的话,学生就不需要去啃那些很厚的书,他只要看这个图就可以很快的理解那些很难的逻辑关系。 这么说的话,那在科研领域或者说在企业里面做汇报的时候也能省很多事,科研人员就可以用它来快速的把一些环境模型起后机制变成视意图,这样的话跨专业的沟通就会变得高效很多。 然后包括商业里面的一些政策汇报、数据分析,也可以把一些很融长的材料变成一个很重点突出的可塑化的东西,这样的话大家就可以很快的抓住核心。实时联网,让这个模型可以接入最新的信息,所以它会催生出非常多以前没有的新的应用场景 图像也会变成一种实时知识的表达界面。 nano banana 二的全面升级,它在文本渲染和多语言的知识上面到底有哪些突破性的进步?这次 nano banana 二终于解决了困扰大家很多年的一个问题,就是 ai 生成的图片里面的文字总是很模糊,或者说总是有很多错误, 那这次的话,它生成的文字不仅非常的清晰,而且它的拼写也是完全正确的,它的排版也是非常的自然,你甚至可以直接用它来做营销海报,做邀请函,做贺卡,做产品宣传图,都不需要再去手动的修饰了, 这样的话对于做设计的人来讲简直就是解放了双手。对,而且它还支持图中的内容翻译和本地话,就是你可以把图中的英文直接换成其他语言,然后它的这个画面风格和排版都不会变。 所以官网的例子里面,无论是香水广告的这个品牌标志,还是说橱窗上面的英文招牌,甚至是人物身上的这种纹身, 他都可以做到图纹一体的深层,完全看不出有任何的 ai 的 痕迹,对这个对于做国际化的传播来讲实在是太有用。那这个模型在主体一致性的替换上面,到底有哪些让人眼前一亮的提升?现在这个模型它在同一个工作流里面最多可以保证五个角色的特征是一致的, 而且它可以稳定的输出十四个对象。它的高保真度是非常厉害的,比如说你在画漫画,或者说你在做品牌角色的设定,又或者是说你在做系列海报, 它的人物的脸,服装,还有场景里面的每一个物件都不会莫名其妙的变形或者是说走样,就是它的一致性是非常强。 这个模型在分辨率和画幅上面的提升会给用户带来哪些实际的好处呢?这次的话它的分辨率选择是非常多的, 从五幺二像素一直到四 k 都有,然后五幺二这个档位的话,它是专门为了这种低延迟和高负荷的情况做了优化的。所以如果你要批量的生成很多的草图的话,而且它的这个画幅比例现在也增加了很多,比如说四比一、一比四、八比一、一比八, 所以它可以直接生成长横幅、长竖图,或者说这种很细长的信息流卡片,你都不需要再去后期裁剪了。而且它的光影材质还有一些小的细节都变得更加的真实了, 无论是普通用户还是企业级的应用,都可以用它来做更规模化的一些事情。我们今天从各个角度给大家聊了一下 nano banana。 二、看来竞争又要开始了,记得关注小鹏 ai, 了解更多关于 ai 的 最新动向以及企业 ai 应用。

科研绘图原来如此的简单,借助谷歌刚发布的 nasa banana 二点零这个模型基础的同学也可以快速搞定专业级的科研绘图。 操作还非常简单,只需要输一条提示词,稍等片刻后, nasa banana 就 会结合你的提示词内容,生成适合科研场景的流程图,从实验的步骤、数据的处理到逻辑的推演都帮你展示出来。另外,我们可以看到该流程图框架清晰,连线规整, 配色的话,我们直接是按照顶刊论文的一个刊要求,有了这款神器的话,你也可以变为顶尖的科研绘图达人。流程图绘制、提示词评论流程图分享,我是张老师,关注我,学习更多高分 s c r 文章写作经验!

谷歌的 nano banana pro 开启白嫖模式了,所有人都能够免费三十天无限次数使用 nano banana、 gmini、 三点零 pro 等超强 ai 大 模型。 这两个模型尤其设备、建筑啊、室内啊,产品效果图啊的全流程辅助,不管是前期的方案优化,还是后期的渲染精度,能够提供不小的帮助。首先我们打开谷歌语音企业版, 点击开启三十天免费试用,直接输入你的谷歌账号申请就可以了。这波羊毛能薅多久谁也不知道,趁现在还没被设计师们举报,赶紧去试,需要网站评论区安排给你。

google gmail 发布了最新的 nano banana 二图片生成模型,快来看看这个最好的图像生成模型有多强大。首先选择 nano banana, 然后上传一张漫画主人公的头像,输入你想要生成的漫画的提示词,接着等待就可以了。 nano banana 二能力做了全方面升级,不仅生成速度快,而且多语言文字处理能力更强,还可以实时联网,直接出四 k 大 片。 就这样,一幅漫画就已经生成,只要有想象力,就可以有无限可能。

谷歌的 gemini 终于能画画了,而且效果炸裂,但 a p i 贵,配置麻烦,普通人根本用不起。现在有人把它做成了一个免费工具,叫 nano banana, 直接用 gemini a p i 升图,一张四 k 图就要烧好几毛钱,还得自己写代码调用接口。而 nano banana 是 hugging face 上的开源 space, 登录就能用,一天能免费生成七十五张图。 它内置两套模型,标准模式用 gemini 二点五 flash 秒级出图。 pro 模式用最新的 gemini 三 pro, 支持四 k 分 辨率。最狠的是,它还能生成短视频,一句话描述就能出片。 操作超简单,输入提示词,选好分辨率点生成,不满意还能上传参考图做编辑,局部修改,风格迁移都行。整个过程不到十秒钟, 这个 space 已经拿下五百七十八个赞。作者 apollo 是 honey face 的 多模态 a a i。 艺术大佬出品,质量有保障。链接放在评论区了, honey face 账号登录就能白嫖。觉得有用点赞收藏,我是锋芒, a i。 追星不盲从,实测出真知!

哈喽,大家好久不见,前段时间因为实在是太忙了,就没有跟大家录科研分享,今天还是想跟大家分享一个用 ai 来辅助绘图的方式。上一期跟大家讲的是直接用 nano 来生成一些图片,这次想跟大家讲一个更进阶的方式,就是通过 ai studio 加 nano 来生成一个更符合你想要的样子的图片。我通过这个方式是主要来生成什么呢?就是生成一些框架图 啊,一篇文章大的结构流程图,他可以给你提供一个思路,当然了,你生成图可能不能直接,肯定不能直接用,你可以根据这个思路图来重新绘制一下你自己的图片,然后他也会生成一些小的图标,在这个过程中你就可以直接拿来使用,这小图标是可以直接拿来使用的,那么我们就开始吧。 我以随便一个在网上公开的博士大论文的摘药为例,跟大家讲述这个过程要怎么操作。选中那篇博士大论文的摘药复制下来,这个是网上公开的,所以不涉及这个新品或者怎么样。把这个先下载下来,然后放入这个 as 六六里边, 输入进去之后,我们在下面加一段话,说以上是我的博士大论文的中的摘药的内容,那么请根据上述内容给我汇总一张放在论文第一张首页的图片, 就加上这么一段话,然后这个模型就开始跑了,它下面会生成一些方案。好,这个是它生成的一个方案,它会有一些你 ppt 做图的方案,还有一些这个代码的方案, 我们就把它前面的这个绘图方案,可以看到这个方案一逻辑框架图的这个绘图方案的文字部分全部复制, 然后打开这个 jimmy 那 里的 nano banana 制作图片,然后我这个大模型选择还是 pro 模型好,我们继续让它生成一个图片,就是根据你的这个摘药生成的一个逻辑框架图。好,这个就是 根据 as studio 生成了那个绘图的一个描述,然后在 nano banana 里生成这样一个图片,可以看到它其实还是挺好看的。 然后如果你觉得这个图片还是有点过于简单了,还没有达到你想要的预期,那么我们可以把这一段摘药在 as studio 里面再生成一次,把它放在 as studio 里面,让它再生成一段,然后我把重新生成的这段 as studio 的 这段话继续放在 nasa 里面进行跑 好,这个时候它就出来了另外一张图,大家可以看到这张图相比较刚才那张图来说更加详细和精进了一些。我把这个图放大给大家看一下,可以看到是非常非常漂亮的一张图了,里边有很多小图标。当然了,这个图 呃是不可以直接使用的,就像大家前面所说的,他可能会有一些检测结果,可以直接检测出来你这是 ai 生成的图片,但是这个图的框架,但他省去这个好处就是他省去了你如何构思这样一个图的时间。你可以根据这个图给出的构思,重新在啊微搜啊或者其他的绘图工具里边把这这张图临摹一遍。 他也是因为我觉得啊,去思考如何去啊,给这个逻辑框架想好,然后去做图,这是一个非常费时间的工作, 而且你想的那个图可能绘出来并不是跟你想象中的样子一样,可能也不好看,因为图逻辑当然是最重要的,但是美观也很重要,包括配色,但他这个配色美观程度还有逻辑啊,大致都是对的,所以大家就可以根据这样做一个参考,然后来绘制自己所需要的图片,包括这里边可以看到有一些小图标,像这个风电的、光伏的, 还有这个冰碗逆变器的,嗯,虚拟同步发电机的这些小图标,大家可以看一下,如果是对的话,我们就可以直接把这个小图标抠出来,你可以直接继续继续进行抠图,然后来把每一层抠出来。 像这些文字,如果这些字体并不符合我们的要求的话,那我们就可以呃写一些文字,把这个文字抠掉,只留下这些图片,然后放在微搜里面自己添加文字,我给大家演示一下怎么样去抠一部分的内容。 我只需要顶层的这个层级,那么我就跟他说我写把这个图片保存下来,我说我只要这张图片里面顶层的那个逻辑图,那么 我就可以,我把那个写下来之后,我就可以生成这样一个图片,就如图所示给大家,可以看到就把顶层拿出来了。所以如果大家是如果这个他给你生成一个大的框架图,你觉得只有一部分可以使用,并且那一部分的小图标是, 嗯,你在其他的,比如你在微搜里面是无法找到那样的小图标的,那你就直接把那张图里边的那一部分抠出来就给他,直接给他指定说我要这个图,我要这个小图标,那么他就会生成这样一个小图标,你就可以直接用这张图片,图片是没有问题的,但是你不能直接用它这个框架图,你不知道它细节里面到底有没有什么问题,或者它逻辑处理的有没有什么错误。 我今天给大家讲的这个方式,呃,只是想要提供一个途径的图片逻辑图片的时间。嗯,给大家提供一个多一点的思路吧。 而且这个方式绘出来的图的确还蛮高级的。就我前段时间也有用这样的方式来绘图,所以用这个小方法可以帮助到大家。毕竟最近可能也有一些人在写本子啊,或者有一些人在写小论文,希望这个方式可以帮助大家节省时间,那么下期见。拜拜。


北京时间二零二六年二月二十七日, google 正式发布新一代图像生成模型 nano banana 二,以速度与质量兼得为核心,重塑 ai 生图格局。该模型打破速度快则画质差的认知,首次实现原声四 k 分 辨率与十秒内闪电生成的结合, 并通过实时网页搜索增强世界知识理解。针对文字乱码等难题,新模型也进行了专项优化,呈现效果更具颠覆性。相较前代专业模型, nano banana pro 价格直降百分之五十, 仅为零点零六七美元,大幅降低高质量 ai 生图的使用门槛。目前, nano banana 已全面取代旧版模型,成为 gmail 应用、 google 搜索等全线产品的默认图像生成引擎,为大规模、低成本且高质量的图文生成需求提供了极具吸引力的实用化新选择。

如果你做过科研,写过论文,投过基金,你一定会有过一个非常痛苦的瞬间,就是你的论文逻辑已经想清楚了,结果呢?卡在画图, 机制图改到第七版,箭头还在打架?流程图一改结构,所有框全乱,用 ppt 画出来的,像汇报材料,不像论文图用 fig 码,越画越好看,却越来越不像科研图。很多科研人最后都有一个共同的感受,就是 不是我不会研究,是我没有多余的人生再去做半个平面设计师。但很多人呢,忽略了一件事情, 科研图其实他并不只是美化,他是一种压缩性极的工具评选。在看你论文的时候,他往往先看什么呢?题目,摘药,然后就是图一。 如果图清楚,评审就会有一种直觉,这个人想清楚了。但问题是,科研系统几乎从来不教这件事情。我们花了很多年去学文献综述,研究设计啊,统计分析,论文写作,但是几乎没有人教你 机制图怎么分层级?流程图怎么避免认知过载?箭头怎么表达逻辑。所以很多的科研人最后会陷入一个奇怪的状态,就是研究会做图,不会画。最近谷歌 research 呢,开源了一个工具啊,名字挺有意思,叫 paper banana。 他做的事情其实很简单,不是普通的纹身图,而是把科研画图这件事情拆成流程,比如先找结构图,再设计结构,再生成学术风格,最后检查逻辑,就像一个小型的科研视觉团队。但是我也想提醒一句,不要神话他, 它确实可以帮你节省很多的时间,比如说帮你快速的去生成方法图的草稿,搭建这种流程的结构,或者是帮助你去优化视觉的层级。但是它不能替你做三件事。第一个,它不能替你想清楚机制 逻辑乱, ai 只会帮你画一张更漂亮的乱图。第二个,它不能保证完全正确,复杂机制图里, ai 依然可能出现逻辑的错误。第三个,它不能替你做最终的神稿。 科研图最后仍然需要科学家就是人去兜底。但即便如此,我觉得 paper banana 它仍然很重要,因为它第一次认真的承认了一件事情, 科研画图其实是一个真实的瓶颈,很多科研人论文写完了却卡在画图。而 ai 最应该帮科研人做的不是替你写论文,而是先把那些重复耗时间但不代表学术价值的体力活接过去。 如果这类工具真的成熟的话,未来的实验室可能会有一个很小但很重要的变化,就是你不用再从零开始拉框, 也不用每次都被箭头和配色折磨。你可以把时间呢重新放回到真正重要的事情上,想问题,做实验,解释。结果。如果你也在做论文改图或者是改反修,也想系统了解这些真正能够帮科研人省时间的 ai 的 工具、 科研工作流和提示词的方法呢?我平时会把这些内容系统的整理在知识星球里,不是只讲哪个工具很牛,而是讲 什么时候该用,怎么用,哪里容易踩坑。如果你也是认真做研究的人,欢迎来星球一起交流。我一直觉得 ai 真正的价值不是替你做研究,而是让认真做科研的人少走一些弯路。好了,我们下期的分享再见!拜拜!

nano banana 二是谷歌最新推出的图像生成模型,目前主要有两个官方入口可以体验到这个模型,一个是谷歌的 gemini 平台,另一个是谷歌 as studio, as studio 这个平台它更偏向开发者,工具里面也可以调用到 nano banana 二模型。 除了官方平台之外,还有一些其他的渠道也可以用上这个模型。我们今天用的就是 loot, 它是一个 ai 设计平台,这里面集成了全球各种主流的深图模型,其中就包括新上线的 nano banana 二。 今天我就带大家来一起实操一遍。首先我们打开浏览器搜索 loot, 找到它的官网, 点击进去,第一次进入,如果界面不是中文的话,我们就在右上角把语言切换成简体中文。顺便说一下, loft 这个平台每天都会有八十的免费积分,中间这个部分是一个对话框,对话框的下面是一排工具按钮, 我们先找到 image 图像按钮,点击进去之后会出现模型,比如说 jamina image 四、 me journey, 我 们今天会用到的就是 nano banana 二这个模型。当然除了图像生成模型之外,这里还有视频生成模型,比如说可林 zora 二、海螺, 谷歌的 vivo 三,下面还有生成三 d 模型的 triple, 我 们可以直接在首页的对话框里面输入需求生成图片,也可以点击界面左侧的功能是图片合并。 比如说我现在想做一张燕麦奶的商品海报,我这里准备了一些素材,一张模特的人像照片,一张燕麦奶盒子的特写, 还有一张麦穗的图片。现在将准备好的这几张素材直接拖拽到后面的画布当中,拖进来之后,我们可以选中图片,通过拖拽的方式调整大小,右上方这里会显示图片的尺寸, 左上方是图片名称,在下方的对话框中输入设计需求,我这里希望它结合我上传的图片 去生成一张产品海报,并且海报上的细节我也已经非常详细的描述给它。接着在模型片号这里选择 nano banana。 二、打开联网搜索,点击发送,发送完提示词之后,系统会开始分析我们上传的图片,并且呢会生成一张产品海报, 那第一版生成的这个海报我不是很满意,于是我又修改了一版提示词,加了模特坐姿,半身特写。新生成的这一版海报我觉得还不错,可是上下文字的排版重复了,我想把上面的文字删掉,要怎么做呢?在画布里面直接选中图片, 点击编辑文字,稍微等待一下,系统就会将海报里面的文字全部提取出来,并且这些文字都是可编辑删除的。我们先将最上面的一行文字删掉, 下面的 logo 也删掉,最下面的这一行文字太长了,我们把前面的文字也删除一下,最后直接点击应用修改, 可以看到闪电符号这里显示了一个十,这个是一会会被扣除的积分。图片生成中,我们稍微等待一下,很快图片上面的文字就被处理好了。再来看一个图片合并的玩法,这里有一张小女孩的图片,还有一张客厅的照片, 我现在想把小女孩放到这个客厅里面,要怎么去操作呢?直接输入提示词,将左边女孩的图片 这里,我们不用打字,我们直接选中女孩的图片放到这个客厅里面,他安静的坐在沙发上。 模型片号这里选 banana 二,点击联网搜索,点击发送,来看一下生成的效果。 banana 二,特别擅长理解物体之间的空间关系,所以这种场景合成的任务完成的还不错。图片合成的功能就是可以一次性处理多张图片,把它们融合到一起。 接下来我们来看一下快速编辑这个功能,比如说我想要把小女孩的这个帽子变成发带,直接选中小女孩的图片,这里有一个快速编辑快捷键,是 tab 键,点击键盘上的 tab 键下方就会出现一个对话框, 直接在这个对话框里面输入需求,将女孩的帽子换成发带,点击运行,稍微等待一下,这样就已经生成好了,并且人物的一致性也保持的很好。接下来是标记替换功能,比如说我想把画面里面的哆啦 a 梦 换成樱桃小丸子,按住键盘上的 ctrl 键,这个时候鼠标上面会出现一个蓝色的小点, 我们选中哆啦 a 梦,系统会自动识别并锁定这个元素。我们看一下对话框这里,由于我选中的位置在哆啦 a 梦鼻子这里,所以它识别了一个哆啦 a 梦的鼻子以及哆啦 a 梦整体。显然我是需要选中哆啦 a 梦这个整体的, 我们重新选择一下同样的方法,我们来标记一下樱桃小丸子,按住 ctrl 键,点击樱桃小丸子这个个体现在系统识别出来的名称叫做小女孩,我们也可以自定义这个名称, 将它改成小丸子,点击回车,在对话框里面输入提示词,把哆啦 a 梦换成小丸子。模型,片号选择 nano banana, 二联网搜索,打开, 点击发送,很快替换就完成了,融合的还是很自然的。接下来我们来看一下编辑元素这个功能,这个功能可以一键把静态图片拆成单个可编辑的图层,比如我这里有一张海报,上面有标题文字 画面元素,点击上方的编辑元素,系统会自动分离出来每个元素可以看到单独的文字, 单独的素材,图片背景也是单独一层的,可以直接点击这里的标题文字 去修改他的字体,修改颜色也可以修改字号,调整起来还是比较灵活的。 接下来是 mock up 这个功能,做电商设计和周边产品的同学应该会很喜欢,比如说我们这里要设计一款帆布包,我有一张空白的帆布包样机图,还有我准备好的一个图案,我们先把这个图案的背景移除一下, 点击移除背景,得到一个透明底的图片,然后选中样机图,点击上方的 mock up 按钮。现在我们将刚刚的图片 拖拽到这个帆布包上面,调整一下大小,它就会自动贴合包包的褶皱光影,那一个可以直接用的产品效果图就出来了,我们用这个马克杯也试一下。把刚刚海报里面分出来的图层拖进来,可以看到什么角度,透视、变形都不用管了, 拖进去就可以完成,可以拖任意的图片进去,操作都是一样的。除了以上讲的这些编辑功能之外, logo 还有一些其他的修图功能。选中图片之后,我们可以点击这里的放大, 点开之后可以看到这里支持的分倍率的选项,包括二 k、 四 k、 八 k。 擦除功能,点击擦除这里可以调整画笔的大小,擦去我们不需要的部分, 点击擦除,稍微等待一下,这里的细节就被处理好了。点击这里的三个小点,还有裁剪功能,裁剪图片的大小扩展功能,扩展图片的大小还可以选择合适的比例。