粉丝1101获赞8801

目前最强 ai 生图工具 nano banana 二到底应该怎么用?今天我把能用的渠道给你发个遍,总共分为三个梯队。第一名, gmail app 官方 app, 每天可以生成一百张图,你没听错,二十四小时内一百张,如果需要更多,就需要 pro。 第二名, google flow 谷歌官方的 ai 视频工具, 它内置的默认模型就是 nano banana 二,而且是完全免费,无需消耗点数。虽然主要功能是做视频,但你需要用 nano banana 二升图的时候来这里就对了,纯纯的羊毛。第三名, lower, 闲时无限生成,只要你避开高峰期就是免费用,而且它还能直接排版改字套样机,有很多设计师高频使用的功能。第四名, google ai studio 这是给开发者准备的生图,按 token 算下来才六分多,适合偶尔用一次的朋友。 第二梯队,小众宝藏组接下来这个可能很多人不知道,但性价比真的绝了, umi 每天会送一定的额度,但作为日常轻度使用,完全够你玩几次。第三梯队,国内便捷组,如果你不想折腾,只想打开网页就用看这里。第一名,爱迷你 ai 用户,每天能用一次 banana pro 模型升图,还有二十轮 pro 模型对话,这个性价比其实挺高的,适合重度用户,把这当成一个 ai 全家桶来用。 第二名, desider, 根据自己用的浏览器装个插件就行,打开浏览器就能用。如果你平时喜欢在浏览器边栏挂着 ai, 随用随取,这个很方便,价格也很亲民。第三名, leo leo 想必大家都很熟悉了, 最近上线了 v 二杠 flash 模型实测,和 nano bay nano 二是同等能力水平,升图效果完全一致。三是图光影细节都拿捏的死死的。 关键是它的玩法太多了,不用写格式词,直接选风格模型电商水花高级氛围草地模板一键套用, 想做视频的点视频灵感找到爆款模板直接抄作业,连手真图都给你替换,好纯纯的懒人福音啊!最后给大家划个重点,首选 google flow 和 gemini app, 有 高频使用需求的必看 lollipop 和 livelibu 最省心。选 i 迷你 ai 或 deepseat, 月费一杯奶茶钱,省去所有烦恼。

昨天深夜,谷歌在没有预热的情况下,悄悄更新了一个东西, nano banana 二。这不是一次简单的技术升级,它传递一个信号, 当 ai 成本不断降低,很多市场第一线的人正在悄悄实现造富神话。四 k 画质,每张只要零点一五一美元,对比上一代 pro, 价格直接腰斩,生成速度接近翻倍,一口气输出二十张风格统一的图, 角色一致性拉满,中文、英文、日文混排,文字清晰到能做海报。网上已经玩疯了,有人用它做漫画,有人做食谱,有人做医学解剖图,甚至有人拿来深城劈柴哥给他递烟,细节逼真到看不出一丝 ai 味。 很多人看到这个消息的反应是,谷歌真卷 ai 越来越便宜了。但我看到的是另一件事,当算力成本被巨头打下来,真正受益的不是那些大厂,而是那些有创意、懂用户、扎在第一线的普通人。 我们先花一分钟看懂 nano banana 二,这次到底升级了什么。谷歌官方的定位很清晰,用 flash 的 速度跑出 pro 的 质量。 过去你要高清画质得等,现在几秒钟,四 k 图就出来了。过去你要文字准确得堵,现在中文英文混排,字体不乱码翻译也能直接嵌进图里。 过去你要多角色一致得后期,现在一次提示五个角色,十四个物体能保持稳定输出。更关键的是价格,一千像素图零点零六七二美元,四 k 图零点一五亿美元,对比 open ui 同类模型价格只有一半。 这意味着一件事,一个人只要几十美元,就能做出过去一个设计团队一周才能完成的视觉内容,这还是国外的模型,擅长把价格打到最低的国内模型,那将会更低成本。 但我真正想跟你聊的,远不止这些技术参数。另一个正在发生的现象更有意思。今年春节,我看到了几组很有意思的数据。淘宝、天猫的 ai 玩具,春节期间成交额同比增长了五百倍。一款叫福仔的 ai 萌宠机器人 两天售罄,补货依然抢空。店员说,很多人摸到它毛茸茸的身体,发现它真能对情绪做出反馈时,眼神都变了。 大江旗舰店春节期间成交率超过百分之五十,年轻人排队买无人机,说是犒劳自己。华强北的科技年货整体销售额增长百分之三十五, ai 眼镜销量激增百分之七十以上。还有一个你们可能记得的那个零零后华裔做的 ai 月老配对,三周时间,斯坦福五千人注册,融资两百一十万美元,他凭什么火? 因为它解决的从来不是算得快,而是懂人心。六十六道题,每周只推一个人,帮你把最难开口的事交给 ai。 美图秀秀今年春节搞了一个神仙抱抱功能,上传照片就能和财神月老、文曲星拥抱合影。 年轻人在社交平台疯狂晒图,因为求好运这件事是刚需。你发现没有,那些真正火起来的东西,不是因为技术最强,而是因为他们戳中了人心里最软的地方。是孤独,是陪伴,是求好运,是被记住的感觉。 ai 玩具为什么火?因为老人需要陪伴,孩子需要玩伴,年轻人需要情绪出口。无人机为什么火?因为大家想要犒劳自己。 ai 越老为什么火?因为恋爱太难。开口算法替你说,技术越便宜,创意越值钱。 这让我想起一个词,最近经常被提起的一人。公司。经济参考报最近发了一篇报道,讲的是 ai 加时代的个体创业,里面提到一个数据 超过三分之一的新公司,现在由单人创办。以前创业租场队考手续,一个人根本扛不下来。现在借助 ai 工具,一个人就能撑起一家设计公司、咨询公司,甚至科技公司。 北京有一个叫纳荣誉的创业者团队,十个人能承接大型央企的顶尖技术项目。而在 ai 普及之前,这至少需要五十人规模才能完成。中关村的 ai 北纬社区已经聚集了一百多家 ai 原生企业,团队规模一到四人,创始人多来自高校或民企 项目。聚焦 ai 加垂直领域,这意味着什么?意味着那些有创意、懂行业扎在第一线的人,正在用 ai 工具弥补过去因为资源、背景、资本产生的差距。 你不需要融资,不需要几十人的团队,不需要北上广深的办公室,你需要的是一个真正懂行的领域,一个能被 ai 放大的创意,一个戳中人心的产品。当算力成本被巨头打下来,当工具变得越来越便宜,真正的壁垒从来不是技术,而是你对人的理解。 前几天我看到一句话,特别触动一位 ai 玩具店的店员,说,很多人摸到他毛茸茸的身体,发现他真能对情绪做出反馈时,眼神都变了。眼神变了,是因为他们感受到了,被理解、被陪伴、被记住。 招联首席研究员董希淼说了一句话,我觉得点透了本质,传统年味,注重陪伴,陪伴就是情绪价值。 ai 可以 生成四 k 画质的图, 但他不知道你妈妈喜欢什么颜色。 ai 可以 画医学解剖图,但他不知道你学生最困惑的知识点在哪。 ai 可以 写春联,但他不知道你们家今年发生了什么值得庆祝的事儿,这些只有你知道。 ai 时代最稀缺的能力,从来不是会用工具, 而是懂人心。是你能不能在数据之外看见一个人真实的需求,是你能不能在效率之外留出时间和温度, 是你能不能在算法推荐里给用户一个被记住的惊喜。回到今天的主角 banana, banana 二,它的出现让高质量的视觉内容变得人人都能用得起。它的背后是巨头在算力战场上的厮杀,最终汇集的是每一个普通人。 而你要做的不是焦虑 ai 会不会取代我,而是问自己,在我的行业里,有什么事只有我能看见,只有我能理解,只有我能传递的那个东西,就是你的一人公司最坚实的护城河。 最后留一个问题给你,如果明天你就能拥有一个 ai 员工,你最希望他帮你做哪件事?我是宝晶,关注我,带你穿透信息迷雾,看清科技真相,帮创业者驾驭 ai。 数字员工打造一人公司专属的数字员工军团,我们下期见!

凌晨时分啊,大家都在熟睡的时候,谷歌正式发布了纳诺布纳纳二,这款全新的模型,基于 germany flash 打造,主打质量更好,速度更快,超多物体的一致性。 它有非常强的推理能力,也能做复杂的生成,还能够主动搜索去做一些复杂信息图的生成和转化。我呀,现在还没来,没来得及上手去试, 但推上了很多网友已经玩疯了,发现了很多很多有意思的点,一次能生成十多张图,非常适合去做连环画或者是画漫画,非常的绝配。给一张图片也能够直接给出完整的平面设计的整体的思路图,排版质感一步到位, 在生成速度上也比之前快了很多,成本当然也降低了不少,二 k 的 图片只要零点一刀,四 k 的 零点一五刀,也算是花小钱办大事。 不过也有反馈说呀,生成图片的质量整体还是不如 pro 版本,这么强的平面设计能力,这波是不是又轮到平面设计师失业了呢?

nintendo 二来了,网上评论却两极分化,对比它的 pro 版本,有人说它是为了速度牺牲画质的阉割版,有人说它是 ai 逻辑的新巅峰。我去问了一下 jamie 奈, nintendo 二对比 pro 到底升级了哪些方面,给出我五个核心的关键升级点,这是 jamie 奈给我的答案,我们来一起看一下吧。 第一,推理速度提升三至五倍。第二,具备了实时联网感知,能和真实世界保持一致。第三,多主体一致性控制更强,连贯脚本的神器。第四,四 k 文字渲染升级,彻底告别火星文。最后是引入思考模式,指令遵循度显著提升。 今天我们就通过一组图片生成实测对比这五个核心升级点,看看纳德布纳纳二点零对比 pro 到底是否真的做出了这些提升优化。另外,我们还会告诉大家一些能够用到的纳德布纳纳二的免费入口,大家一定要看到。最后关于推理速度的对比,我们就实测所有图片生成后再来揭晓。 go 一个测试,测试模型对此刻新发生的非公开数据级的事件或地标的一致性认可。 提示词中含有特定地点的特定事件,我们找到了科穿沿岸的真实图片进行对比。大家可以看一下 number one 的 二生成的图片,明显是参考到了科穿沿岸的真实场景,但 pro 的 感觉就比较差强人意了。 这一局 number one 的 二伸出第二个测试挑战模型,维持多个具有不同特征的角色的能力。提示词中五个角色性别、发色、穿着、动作各不相同,且要保持画面的电影级和谐。 那那不那,二生成的图片每个人物特征都精确还原了,且分为统一,还是挺不错的。看看 pro 生成的图片,提示词中提到的背夫动作是背着步集箱,但实际生成的是扛着的,这稍微有点出入,但是其他整体还是挺不错的。 这一局难得不烂的二选。第三个测试,直接硬钢中文特殊符号多行排版的精确度。之前用 pro 生成的带汉字的海报,大家应该都遇到了渲染不对的情况吧,基本上要用 ps 后期补字。 两个模型都成功渲染了字体和图形,但从画面的构图、空间感和环境的氛围丰富度来看,还是 nintendo 的 二生成的图片视觉冲击力更强,环境氛围细节拉满。这一局从原生四 k 文字渲染的角度来看,两者打平,但其他角度还是 nintendo 的 二更深一层。 第四个测试,测试模型对长指令,反之对逻辑分布执行的理解力要求模型先思考如何构建, 再进行生成一些比较复杂的逻辑嵌套,如果模型不思考,生成的画面就会逻辑崩溃。这个对比就比较直观了, number 不 number 二的 ck mod 就 有很大的优势,在生成前理清了这三层画中画的因果关系,再去生成图片,而 pro 就 不具备这种能力, 生成出来的图片逻辑完全不对。好了,最后我们来看一下推理速度的对比。我们一共测试生成了五组图片,推理思考时间, number 不 number 二是比 pro 快 的, 实测下来感觉推移速度难得不难得二略占优势,且价格上难得不难得二比 pro 下降了百分之五十以上,可算是性价比拉满了。 你被种草难得不?难得二了吗?我今天的测试全都在七六零 a s studio 上完成的,只需要输入一个账号就可以快速接入海内外超九十加大模型, 新模型上线贼快,还有免费的投屏额度可以领取。我整理了一份能够快速免费体验的操作文档,欢迎评论区来找我领取哦!记得点赞关注哦!

nano banana 二新鲜出炉,你想知道的都在这儿了,它的官方大名是 jimmy 三点一 flash 算是它的升级版。接棒它们最成功的 nano banana pro。 简单来说,谷歌的意思就是把专业级的功能和闪电般的速度结合起来,但问题是,它到底好不好用呢? 这不,大家就想让我做个深度测评,一探究竟。所以咱们这就安排上,我选择在 open r 里测试 nano banana, 因为它能让我轻松对比 nano banana 一、 nano banana pro 还有 c dream。 大 概一年前,二零二五年八月那会儿, nano banana 一 横空出世,当时就已经是颠覆性的存在了。但紧接着同年十一月, nano banana pro 就 来了,那真是读一份别无分号,其他图像模型跟它比那都是弟弟, 再加上提升的二 k 和四 k 分 辨率,简直强到离谱。现在 nano banana 二它来了,我看了谷歌的官方博克,还有它们铺天盖地的宣传,我开始有点小期待了。不过它到底是不是名副其实,我们一试便知。 那么第一个测试,我想搞清楚 nano bennett 二的先进世界知识到底有多厉害,因为它用的是 gemini 的 数据。你还记得之前特别火的那个玩法吗?就是输入坐标来获取那个地点的实景快照,甚至还能指定特定的历史年代。这次我也想做个类似的测试,不过我们要把它升级一下,玩得更深入。 具体操作是这样的,我们进入 open art, 选择 nano 内的二模型,然后输入图像描述,我想生成一个二乘二的网格图,每个格子的地点都是罗马斗兽场的坐标,然后每个格子里我都想要那个年代拍摄的真实照片效果。左上角,公元八十年六月二十一日 右上角,公元前一千四百五十年左右左下角,一八七零年右下角,二零二五年。 说白了,我想测试的是我们能否得到罗马斗兽场在这些不同历史时期的不同样貌,他知不知道斗兽场在这些年代都经历了什么?他的表现到底怎么样?我们现在就生成看看,准备开始。我们眼前这张拼图是由四幅不同的画面组合而成,咱们来瞧瞧这还原的到底准不准。 那么这边这幅图展现的是公元八十年的景象,也就是说大约在公元八十年,这地方绝对是美轮美奂,令人叹为观止。要是我没记错的话,当时应该能看到白色的石灰岩外墙,就跟我们现在眼前看到的这幅图一样, 所有这些细节都清晰可见,建筑已经全部完工,街道上车水马龙,熙熙攘攘,这正是它最鼎盛最辉煌的时刻。接着是大约一千四百五十年,再根据我的历史知识来判断的话,那时候这里应该已经破败不堪,简直是一团糟。这里应该已经衰败了很长一段时间,处处显露着岁月的痕迹, 甚至可能都有人在这里面安家了。再到大约一八七零年,我记得这时候应该已经开始进行修缮工程了。最后就是我们眼前的现在了。 我仔细看了看这几张图,特别是对比这两张,甚至这三张,发现斗兽场本身好像没啥太大变化。这张图我端详了老半天,可怎么看都觉得这跟现在几乎一模一样, 所以这个还原在这里并不完美。在这次测试中,它也算不上完美,至少看起来还挺准的。不过我也不太确定,毕竟我亲自去过那儿,但我还记得这些,比如这里开阔的马路。不过说到底,这还是 ai 生成的,所以我们不妨拿它跟一个旧版本比比看,看看效果会不会更好一些。 这就是拿它跟 nano banana pro 对 比的结果。看这里建筑还在施工中,整体结构看起来倒是差不多,不过这里看起来还是有点不一样,但这个版本就是不太行,还原得不够到位,而且这里凭空多出来好多公交车。 nano banana 版本也有同样的问题, 我是说现实里绝对没有破败成这个样子,而且完工后的建筑内部也不是长这样的,所以说 nano banana 一 甚至更拉垮。接着我又拿它跟 c 五点零 like 比了一下,它倒是把坐标给标上去了, 但效果吗?不行,确实不咋地。我的意思是,就算我们拿真实的谷歌图片,也就是实拍图来对照检查, 对这个连边儿都不粘,所以这次测试 nasa 二算是胜出了。接着我想测试一下它在真人图像质量上的表现,我尤其想拿一些名人来测试一下。于是我打算生成一张马格特罗比的特写笑相。 有意思的是,我也直接在 jimmy 里试了试,但因为谷歌平台内部有一些限制,我没能生成那张图,它直接就不让我生成。但不知为何,如果我在 open r 里尝试,就没有这些条条框框的限制。 于是我用了这个提示词,一张马克特罗比的抄写实特写电影感,笑下它湿漉漉的金色波浪发垂落脸庞,一双夺目的蓝眼镜画着自然柔和的妆容,眉形优美, 肌肤透亮,毛孔可见,双唇闪亮,微微张开,表情平静中性。然后我又加了一些其他细节,比如拍摄器材,还有灯光设置。对了,背景是柔和的散景效果。现在这张图是用 nano banana 二生成的,看起来画面锐利,效果不错, 不过感觉可能有点过头了。这让我不禁好奇,如果我用 nano banana pro 来跑同样的提示词,效果会怎样呢? 然后我得到了这张图,云桥网络频道,感谢关注与支持,因为我想知道你们更中意哪一张?不过我个人其实更喜欢这张,而不是上一张,我感觉这张看起来更真实一些。如果我们来回对比着看,那么上一张就有点太过了,感觉对比度调的太高了, 这个感觉有点过爆了。相比之下,那个看起来自然的多细节我倒是挺喜欢的,但就是感觉有点过了,太锐了。所以大家在评论区里怎么看?这次测试你更中意哪个?接下来我们看看文字和图像的部分, 这里介绍的是精确文本渲染和翻译功能,你可以用它为营销材料以及贺卡生成准确易读的文字,你甚至能直接翻译和本地话图片里的文字,让你的创意走向全球。 接着他展示了一些例子,所以我就想亲自试试这个功能,我还想给他来个压力测试,于是我在 nanban 那 两里生成了这张图。我来描述一下我给的提示词,我明确要求里面包含七样不同的东西。首先我要了一张登机牌,上面的文字是小字体的航空公司风格, 乘客名是 rayman, 还有航班号,登机口和登机时间。还要一个笔记本电脑,屏幕显示着代码编辑器,上面有段特定的代码。再来一个透明水瓶,瓶身内是弧形的,瓶身上写着补水,专注重复。接着要一个映在墙上的霓虹灯招牌,而且字必须是反着写的, 如你所见,它确实做到了。这是唯一有点翻车的地方,因为这里生成的是 s 楼,而不是二楼, 所以这可能就是唯一的槽点了, nanami 二九出现在那里。接着背景里还有一块数字航班信息屏,虽然略显模糊,但上面的字还是能看清, 上面显示着时间,实际上那上面显示的就是我们应该登机的时间。看来这位老兄要误机了,因为他这会还在这悠哉悠哉呢,还在给他的登机牌拍照留念,要我说他早该在飞机上了。最后我还加了一个小行李牌挂在座椅边上,上面手写着小心轻放, 内有易碎设备也清晰可见。除此之外,我还提了个要求,所有元素的字体都必须正确。说实话,整体看下来效果感觉还挺不错的。唯一的问题是,这里总字型十四写着三号航站楼财产,可我们明明在 s 出发层, 对这里有点穿帮了,不过这种小问题后期制作时很容易就能修掉,总的来说效果相当不错。不过转念一想,这效果到底有多厉害呢?如果我们不拿它跟 nano nano pro 比的话,那么同样的提示词,用 nano nano pro 生成的结果是这样的好。一眼看去,这张图的构图就有点奇怪, 虽然理论上说的通,但他拍的是这个物体的侧面,然后还有一张撕了一半的登机牌。这里的倒影我倒是挺喜欢的,但这并不是我提示此里要求的那些霓虹灯招牌。这个屏幕我可就喜欢多了, 感觉更有机场的风格了。至于外套和笔记本电脑,这次倒是都呈现出来了,水平上也有补水、专注重复的字样,所以这一点他确实做到了。还有那个小心轻放、内有易碎设备的标签,自己也很清晰。 总的来看,用 nano mana 二生成的效果似乎更好。所以如果你的提示词里包含大量文字,或许多不同的细节,那么 nano mana 二或许是个更好的选择。接下来我们做个多语言测试,我当时的想法是翻译这份非常古老的德国报纸。 我本人不是德国人,不过德语我还能看懂一些。不过我们当然也可以用 google, lens 甚至 call 来翻译,这就是我们刚才用的那张图。 然后我们基本上就是让他把这份德语报纸翻译成英文,这就是我们得到的结果。整体来看,如果你想仔细看,可以暂停一下视频,这样你就能通读一遍了。我自己已经读过了, 我在英文里没发现任何错误、乱码或者不通顺的地方,也没看到任何莫名其妙的词,看来他这次翻译做得挺不错的。所以这让我觉得这个办法确实可行。如果你有广告素材,想轻松地把你的 facebook 广告转换成其他语言, 那么现在做起来就比以往任何时候都简单了。所以再说一次,如果你需要把德语或者其他任何语言翻译成别的,用这个工具就挺合适。 我又用一块日语广告牌试了试同样的操作。这主要是想给大家一个直观的感受。我上传了这张参考图,然后直接让他把上面的文字翻译成日语。 我用了多种方法交叉核对,在我看来翻译是准确的。不过如果你是日本观众,请务必告诉我,看看它到底准不准,还是说完全跑偏了。话虽如此,我觉得 nano man pro 应该能搞定这个,所以这并没有让我觉得有多惊艳。 接下来我们看看主题一致性功能,这里显示,我们最多可以在同一张图里放五个不同的角色,并且还能保真的融入多达十四个不同的物体,所以我想试试看。就稍微玩了一下这个功能, 我还得多试试,因为这功能听起来和看起来都太棒了,居然能塞进去这么多不同的角色,这么多不同的细节,而且它都能准确拿捏。 为了验证这个想法,我生成了大概十四样不同的东西,从角色、背景、物体到你能想到的一切。生成之后,我就想看看能不能用它做出一张好看的图。你的操作就是直接把所有图片拖进 open r 比就行, 然后你就可以开始描述你想要的效果了。比如我把所有这些图片都拖了进去。接着我输入提示,这是一张官方动画电影海报。 然后我开始描述一个黑发的亚裔年轻女孩,你甚至还可以,如果你想的话,把广告也拖进去。然后你可以为你正在描述的图像打上标签。 这样一来, ai 就 能更好地理解你希望每个物体或角色呈现出怎样的效果。由于这个提示词相当长,我开启了自动优化功能,这样一来,你的提示词效果会得到些许提升。 当我点击生成按钮后,就得到了这个结果。可以看到,这张图里包含了我们设定的所有细节,河马有了,女孩也有了,那只停在野餐栏上的小鸟也出现了,自行车在里面,飞机也在里面,台灯、灯笼、地图全都有了,甚至连望远镜这类东西也包含在内了。 所以这完全可以做成一张很棒的电影海报,要是有这部电影,我肯定会去看。另外,这也是我强烈推荐大家多尝试的一个方法。 多尝试组合一些你希望出现在画面中的不同元素,并且充分利用各种不同的参考素材,专业玩家都是这么用的。所以,如果你想亲自试试看,只需要构思一下你希望屏幕上呈现出怎样的场景。你拥有了前所未有的掌控力,为你的图像和视频实现出色的生成效果。 咱们再深入一点,看看他的实际能力到底有多强,看看他在理解你的参考图像整体语境方面的能力。看,我手头有一张超级跑车的图片,效果非常惊艳,我打算用它做一张信息图来讲解这张图是怎么制作出来的。 我的方法就是直接给下一下指令,仔细看这张照片,然后以七十年代复古教学信息图的风格,把整个拍摄场景还原出来, 要包含相机、器材、参数、灯光位置、摄影师用到的所有细节。风格上要有复古半色调纹理、哑光橙棕色系、老式杂志的排版以及手绘示意图的感觉那么悲哀,从参考图里理解到了什么?咱们来看看它生成的信息图,它识别出了周围树木的种类,还特意标出了这些粉色叶子的树, 把车放在了画面中央。他甚至考虑到了需要有人来撒花瓣这个细节,但我没搞懂他为啥写着撒樱花公园 scatterring cherry park。 不知道是我英语不够好,还是这句话本身就不通顺, 反正我觉得这话有点莫名其妙。信息图里还列出了主光、低角度、自然太阳光。我们只用了这一个光源,我们得准备点东西,所以也许可以弄个反光板来均匀身体的光影。这想法挺酷的。 构图和透视的参考图我们有了,所以他给了我们一个拍摄思路,告诉我们这张图该怎么拍。他甚至还描述了该用什么设备和参数设置,这确实挺厉害的。所以镜头选择是长焦镜头,大光圈用来压缩背景用的是 bogg 三脚架,胶片是 act chrome 六十四。 说真的,这些细节做的非常到位。不过话说回来,它到底有多牛呢?如果我们拿它跟 nano banana pro 比一比, nano banana pro 之前也搞过类似的东西,但我们得到的结果看起来不太对劲。所以单看这辆车的话,样子是像的,但要是看这个镜头的拍摄方式, 这些数就跟另一张图里的对不上。我们漏掉了不少细节,我们没用柔光箱,用的是自然光,但 ai 却给加上了柔光箱,还有这种反光板打出来的光效, 如果是在户外拍摄,那倒是有可能。不过咱们还是再瞅一眼这张图,我觉得这应该就是自然光的效果, 尽管这张图本身也没啥自然可言。至于曝光参数设置这些旋钮,我不太感冒。光圈 f 一 点五,镜头焦距五十毫米,这不对劲啊,这跟我们之前说的不一样, 我们明明说的是用拍的,可这里却显示是用五十毫米镜头低角度拍的。这个不算差,但我觉得 nasa 二生成的那个结构更清晰,细节也丰富得多。 这或许要归功于他现在能处理更优质的数据,而且还能借助这么耐来达成这样的效果。要不咱们再试一次吧。不过这次我们用这张漂亮的海滨别墅照片, 然后让他生成一个蓝图,更准确的说是这栋房子的平面布局图。咱们就来分析一下这张图,看看他到底准不准。说真的,第一眼就让我挺惊艳的,不过我手边就有原图,也就是输入的那张就放在手边,方便我对照分析。 我们先从这张首层平面图和场地概览图入手。首先我们来看这里的这条小路,我觉得这部分画的相当准确,我是说我们其实看不太清,但那实际上并没有路,不过这就有点鸡蛋里挑骨头了。说到停车位,我们这里有三个车位, 咱在图上看,我数着好像有四个,不过我倒没啥意见。接下来看首层,这里我觉得挺有意思的。首层的话,如果我们看右下角这个房间,嗯,对,这看起来像是个卧室,标着是客房, 紧挨着后面还有个卫生间。好的,然后那边还有个设备间或杂物间,目前看来都挺靠谱的。可能是对的,那个我看不太清,不过就连客厅这边, 你看这也挺酷的,所以就凭那匆匆一撇,他就能识别出那是一个用餐区。接着他又给出了户外用餐区,这部分当然是他实际看到的,然后他一挨就脑补出了其他部分的样子,所以他猜测这里是个厨房, 看,这里有个炉灶,这里还有个料理岛台。再来看看室外区域,能看到四张日光浴、躺椅、篝火区、无边泳池。太牛了,这个工具你真该试试。如果你正在为新公寓或房子设计布局图,甚至连二楼布局,我们能看到多少细节呢?卧室卧室、书房、 主卧套房主卧套房,太赞了!我是说这设计看起来挺靠谱的,甚至屋顶平面图,它都数出了三十五块太阳能板, 不过我看这不像有三十五块啊。不过我们当然无法真正看清这背后的玄机,总体而言,我相当满意,真的被惊艳到了。我们再来和 nano banana pro 比一比, 所以我给他一个公平竞争的机会,而且我已经让他生成了四次日光甲板。这部分画的挺准,但其他部分就有点差强人意了。这一局 nano banana 二稳赢。为了进一步探交,我想再测一次,但这次换个完全不同的路子。 这次我们来做一个关于深海分层的科普信息图,我主要是想看看他到底能生成个啥样,他得描述出那里生活着哪些生物,环境是什么样子的,还得提供一些细节。于是我给了他一段非常详细的指令, 把每一层的情况都交代的明明白白,中间还穿插了几行文字说明,这样就能进一步测试他的上下文理解能力到底如何,以及他把这些信息转化成图像的水平怎么样。我的目标就是做出这种国家地理风格的科普图。 我主要想得到这张信息图内容是深海各分层的介绍,展示一下各层都生活着哪些生物,还有它们长什么样。我还补充了一些细节信息,这就是我们用 nano banana 二搞出来的成果。我觉得这版面看起来非常清爽。说真的,我觉得老师们 这绝对是 ai 大 显身手的领域。当然,你得核实一下信息是否准确可靠,但如果我们能轻松获得这种质量的信息图,只需一个指令就能生成出来,这简直太离谱了。这就是一个实实在在的应用场景,你可以这样用它来给人讲解知识。那么下一个问题来了, 我们到底为啥还要给人解释东西呢?既然都有这些 ai 了,人们还学个啥劲呢?有啥问题直接问起来不就完了?或者干脆把这玩意儿插进脑子里啊?抱歉,跑题了。这些问题真是让我睡不着觉。至于说故障什么的,我没看出有什么不对劲的, 我拿它和 nano banana 二对比了一下,但这次我未必觉得 nano banana 二就胜出了。这款我也挺喜欢的,我没挑出什么毛病, 或者说这张图里压根儿就没啥大毛病,所以没错,这两款你更喜欢哪个?云桥网络频道,感谢关注与支持。另一个常被问到的问题是,提示词该怎么写?我可以分享一个我自己用的框架, 就是我自用的那一套。但说实话,趋势是这些模型他们越来越能通过更少的词语理解你的意图。但话虽如此,那些提示词写的特别详细的人,并且真正清楚自己想要什么效果的人,才能获得最佳效果。 说到底,关键首先在于你要明确你最终想在画面上看到什么。这就是我总挂在嘴边的常见误区。所以别再说一位年近三十,肤色呈橄榄色,深色,长发随意扎起,只带了简单配饰的女性,你看,这样描述细节就具体多了。 关于你要描述的对象,这就像在描述他的长相。接下来是动作部分,你需要交代清楚你的对象正在做什么。那么回到我们刚才说的那位女性例子,我们想塑造的形象就可以这样描述他盘腿而坐,窝在沙发里刷着手机,或者对着镜头说话,手里拿着耳机, 诸如此类。接下来是环境部分,你需要描述它周围的环境或背景,或者说背景里有什么。也可以交代具体地点。比如可以是一个明亮的现代公寓, 配有白色包纱窗帘,自然光线充足。或者一个舒适的咖啡馆角落,灯光温暖柔和。以上只是抛砖引玉。最后是艺术风格,你可以加上照片及真实感这样的描述。 或者你也可以用 iphone 拍摄这个标签,这个标签效果拔群,显得真实又自然,或者营造出一种生活化或杂志大片的感觉。光线方面,你可以强调利用了自然日光,再比如柔和漫射的日光, 比如来自一扇大窗户,或是室内温暖的午后阳光,诸如此类不同的光线效果都可以描述进去。最后,你还可以加上拍摄所用的相机型号,要是你毫无头绪, 不知道哪些相机拍出来好看,你可以直接去问叉 g p t 或者你用的其他 ai 工具,然后问,嘿,哪些相机特别擅长拍出这种带颗粒感的风格? 它可能会给你推荐像柯达这样的答案。或者如果你想要更专业的设备,甚至像是 用于电影摄影的那种胶片,那你可能就有一台 i m a x 摄像机。或者你压根不用描述具体是什么摄像机,直接描述你想要什么样的镜头画面就行。比方说来个中近景即位略高于视线水平,或者你想用八十五毫米胶段的镜头来拍,这些其实都不是什么新花样, 这算不上什么独门秘籍或者生活小妙招,非得用在 nano 二上不可。这些只是你可以加到提示词里的细节,能让生成的图片效果更好。 这里我举个实例,把上面说的这些技巧都用上了,你可以先暂停一下视频,方便你自己截图保存或者转发。但如果你照着这些方法来做,那你就能得到类似这样的效果。如果你同时还用了自己的照片作参考。最后还有一点值得注意,那就是这些图片里包含了合成构想。 所以如果我把这个丢进 jimmy 里,我问 jimmy 这张图是不是 ai 生成的,那它里面应该就自带了这种水印,你基本拿它没辙, 这得看你用它来干嘛。我觉得这没啥问题,我觉得这是件好事儿,这样大家才能分清楚这图到底是真是假。因为这玩意儿可能被乱用,所以你看这里,根据数字水印显示,这张图大部分都是用谷歌 ai 编辑和生成的, 另外文件详细信息当然也帮不上什么忙,这个 sendid 已经直接落在里面了。所以如果你拿这个给客户干活,又不想让客户发现这是 ai 做的,那他们还是能看出来。 不过话又说回来,如果你真是给客户做东西,那他们本来就应该知道你用了 ai。 如果你想涉足 ai 电影制作,说真的,这绝对是门值得一学的好手艺。

纳多巴纳二刚上线就遇到对手了,比如说把这张图片变清晰,把焦点移到人物脸上,根据图片内容延展剧情,生成九宫格分镜画面里面的人物、场景、服饰都与参考图保持高度一致,给这个女孩换上这套衣服, 甚至直接就生成了电影感视频。这就是 leib 前几天刚刚上线的图片 vr flash 模型,它可以在国内网络下解锁 nano banana 二的全部玩法。对于网络问题无法使用香蕉模型的小伙伴,这个模型可能是最完美的平替了。 那作为名称中带 flash 的 模型,我们知道它第一个升级点就是生成速度。对比了上一代 vr 模型,在同样规格的参数下,它的生成速度明显快了不少。除了生成速度,它的图像质量也有了很大的提升。 我们看这张图,这清晰的纹理和真实的质感,几乎看不出 ai 味,和真实拍摄的没什么区别。对于图片编辑模型,当然我们最主要的还是要看它的图片编辑能力。把焦点从手上移动到脸上,把这张照片改成晚上,改成雪景, 让图一的女孩穿上图二的衣服,给照片打上赛博风的灯光效果。这个对于摄影行业的小伙伴来说,真的太实用了。再就是更强的一致性,根据这张图生成剧情连贯的九宫格分镜, 从特写中景到全景,角色特征、场景细节、色彩氛围都高度对齐,比如人物的长相这些细节,画面逻辑也非常丝滑。 还有这么多 nano banana 二的炸裂玩法, vr flash 模型全部都能搞定,几乎和香蕉模型一样能打,就说咱不出国也照样玩高端模型。

ano banana 更新了,今天谷歌的这波更新真的有点东西,它不是单纯的更会画,而是更像一个会查资料、会写字,还能一口气给你出整套物料的视觉助理。 而且啊,新模型是基于 gemini 三点一 flash image 构建的,也就是说,这玩意儿走的是闪电速度路线,但给的却是接近 pro 级的理解力和画面控制力更狠的细节。是啊,它能把网页搜索里的真实信息和图片拿来做生成参考。 这就意味着,你让他画一个具体地点,一个具体物种,一个具体概念图,他不是瞎编,他会更像看过资料在动笔。这不就是把灵感从玄学往可控生产的方向转吗?哎,别急,我后面还要讲一个更刺激的, 在谷歌全家桶里正在悄悄换代,很多人甚至都没意识到自己已经用上它了。大家好,我是杜宇,带你看懂 ai 赛道的钱和事儿。我先说结论啊, nano banana two 这次的核心不是又一个更强的模型,而是把图像生成变成了快消品。 以前你做海报、做封面、做电商图,最痛的是啥?不是不会想,是改不动。你跟模型说,字再大一点,颜色别土再高级一点, 它给你来一张完全换脸的前功尽弃。现在 nano 版本 two 主打一个改得快、改得像,改得听话,而且能把多角色一致性当成基本功。 官方说,它可以保持最多五个角色的相貌一致,还能在一个工作流里维持最多十四个物体的身份,不跑偏。 这句话外行听着像炫技啊,懂行的听着像救命。这意味着,你终于能做连续分镜,做系列图,做 ip 人设,而不是每次都抽卡了。我们可以这么理解啊,以前的图像模型像什么?像你请了一个很有天赋的画师,但他情绪化,手速慢,还不爱改稿。 nano banana pro 是 天才导演,但贵慢一点。 nano banana two 就 像是把导演的审美和常识装进了外卖骑手级别的机动心里, 你一句话,他就冲出去给你跑三百,回来还能接着你的上一百,继续改不动核心人设。他之所以能这样,是因为他把 flash 的 速度带进了视觉生成,主打快速迭代和更强的指令遵循, 你不用在意,求他懂你。你可以更像是在带一个执行力爆表的实习生,你给明确指令,他照做,而且不太跑题。 哎。再来一个你绝对能用上的亮点,写字。对写字这件事,以前在图像模型里简直是灾难现场啊。英文还好一点,中文更像是鬼画符大赛。拿 noban 的 two, 这一次官方把精准文本渲染和翻译本地话当成了主菜端上来, 你可以让它在图里生成更清晰可读的文字,用于营销物料、贺卡、 u i m 卡。甚至还能把图里的文字 直接翻译,并且本地化到其他的语言。同时呢,画面也会跟着本地话的语境走。如果你做一张海报啊,想同时发中文英文硬底语版本,以前呢,要重排字重改图,现在它可以把字一起换掉。 做跨境电商,做海外自媒体,做出海 app 素材的,懂我的意思吧,基本上可以直接少雇一个设计外包。然后我们再聊一个很关键的细节,就是 规格和生产化。 number one 的 tool 不是 只给你画的更好,它直接把输出规格做成了产品能力, 支持多种画幅和分辨率,甚至可以做四 k, 基本上可以覆盖咱们做竖屏短视频封面、横版 banner, 甚至大屏背景。开发者那边还提到了原生画幅扩展,新增了四比一、一比八这种很偏门但在广告投放信息流长途里很常用的比例,另外加了五百一十二像素这个档位 目的就是让你低颜值刷草稿,快速定方向,再上高清。你看谷歌这思路,非常的投资人先把迭代成本打下来,才会有规模化的使用。 还有一个我特别想讲的点,就是它开始让模型先想清楚再换。开发者文档里提到了可配置的 thinking levels, 默认是 minimal, 但你也可以开 high dynamic, 让他在渲染前多推理几步,尤其是和复杂体式词多约束条件。你把他想象成什么。就是以前啊,你催设计师赶紧出图,他就给你糊一张啊,现在你可以说,哎,你先别急, 咱先把逻辑捋顺,他真的会更听话一点。对于我们这种天天要,既要又要还要的人来说,这不是花活,这是生产力。 再说一下这次更新的分发路线啊,官方说 nano nano two 今天开始在谷歌多个产品里逐步上线,包括 gemini f search、 gemini api、 vertex ai flowly, 直接成默认模型,甚至 google ads 做投放素材建议也在用它。还有个细节很容易被忽略啊,在 gemini app 里, nano nano two 会替换 nano nano pro 覆盖 fast thinking pro 模型的图像生产体验。但是 pro 和 ultra 的 订阅用户啊,仍然能通过重新生成图片的菜单把 pro 叫回来 啊,用于那些更吃最高事实准确性的活。也就是说,大多数人打开 demo 可能已经在用 nano pro 了,只是你没看见它换了发动机。好,那这次更新给普通人带来了什么机会呢?我认为啊,这一波更新最大的机会就是把视觉内容降到会提需求。 以前短视频博主、电商店主、实体店老板卡在两件事,第一是不会做图,第二是改图太慢。难道把那的图呢?把速度拉到了 flash 级,又把一致性 写字规格这些生产需求不齐,那你就可以用它干三件很现实的事,第一,做账号的系列封面,统一风格,稳定人设。第二,把你同一套产品图快速本地化成多语言多市场的版本。 第三,用它把你的碎笔记直接变成图解信息图、流程图,对,官方就点名了,它适合做 infographic, 把笔记变成图表和数据可化。哎,你会发现啊,内容竞争,最后拼的不是你会不会做,而是你能不能更快地测试出哪张图更能转换。 最后讲一下普通用户怎么用上 nano 二啊,咱们刷完这条视频,今天就能上手。首先呢,对于大部分普通用户而言,你就直接用 gemun, 你进 jamming, 正常对话。比如跟他说,哎,帮我生成一张竖屏封面,主题是叉叉叉,风格是叉叉叉,字要清晰可读,注意这句提示词很重要。然后呢,比如说,主标题四个字,哎,副标题十个字,流出上方安全区。 如果你是做探店的,就让他出三套封面,统一风格。如果你是做职场号,就让他出这个系列化的模板。关键技巧就是,你每次改稿别重新说一堆啊,把上一张图发回去,明确说只改这三点,比如字号更大哎,背景更干净,人物表情更拽,其他的不动。 它的卖点就是快速迭代,所以你要像带团队一样去用它,而不是像许愿池一样去求它。然后呢,对于偷懒型选手,你可以用 google search 的 ai mode 或者是 lens, 比如说你拍到一个东西啊,比如一个很怪的装置,一个植物,一个菜单,那你用 lens 和 ai mode 问它这是什么,帮我做一张可以发朋友圈的科普图,三句话解释,配一张示意图。再就是针对职业的内容创作者,你可以用 flow flowni 的 这个 nano 版本, two 是 默认图像模型,所以你可以上传一个角色参考图,比如你自己的虚拟形象,或者你家的猫。然后呢,让它生成四个漫画,六张分镜,一个系列场景,重点是让它保持一致 啊。我自己做的内容,最怕的一件事情就是封面风格,今天像 b 站,明天像某宝,后天像 ppt。 现在你就有机会把账号视觉做成,看一眼就知道是你。这不是审美,这是商业识别度。 关于这次更新啊,我最想说的是,当一个模型开始强调规格迭代,可控可规模块的时候,它就不再只是玩具,它在逼近生产工具。 哎,你别光拿它做头像做壁纸啊,那太浪费了。你应该拿它做你的封面体系、命题配图体系、产品物料体系。这些东西一旦标准化,就是你账号和生意的护城河。点关注不迷路, ai 搞钱,我带路,我是杜宇,咱们下期见!

昨晚,谷歌把图像生成又往前推了一步, nano banana 二上线。它最狠的地方有两个,第一,四 k 直接输出画面细节、材质、纹理、光影层次明显提升,接近商业级大片质感。第二,中文生成终于不再是鬼画符。过去很多模型一旦生成,中文海报 字体扭曲、笔画错乱、排版失控。这一次,多语言文字渲染稳定度明显提升。中文标题、广告语可以直接成图使用。再加上一个关键变量,单张生成成本大约零点零六七美元。价格压下来,质量提上去,这意味着什么? 高分辨率成为默认能力,多语言视觉内容可以规模化生产,图像生成开始真正进入商业场景。 更重要的是节奏变化,从创意到成图的时间被压缩,测试频率可以拉高,视觉迭代速度明显加快。当高清输出和稳定文字渲染成为基础配置,图像生成的竞争就进入下一轮。这一次升级, 已经不只是参数变化了,它在解决过去最痛的两个问题,画质和文字,接下来拼的会是创意,而不是修图。