粉丝1086获赞1.3万

今天两分钟教大家白嫖 google gemini 的 api key, 帮你的小龙虾装上生图的能力!第一步,要注册一个免费的 google 账号。第二步,打开 ai studio, 点 google 点 com, 这是它的主页,在右下角进入 get api key 的 页面,这个时候在右上角创建一个新项目的名称,并且点击创建项目,这时候在你的项目列表里面就会出现新的项目了。 这个时候请你点击 a p i 快 速入门,并且复制这个 a p i 的 文档,因为 jimmy 的 文档有可能会更新,我们需要让小龙虾学习到最新的 a p i 的 接入的方式,所以最简单的方式就是复制这个文档,并且告诉小龙虾你读一下这个文档,并且按照这个文档来帮我配置上图的 skill。 这时候小龙虾就会一顿的操作,你不用管他,你就慢慢的等,等到他会问你说,请你告诉我 google 的 api key, 这个时候请你打 call, 跳回到刚刚的页面,点击你的密钥详情,并且复制之后啊 啊贴怀给他赞,他才会一顿操作,这个时候他会告诉你啊,很遗憾 啊!模型限速到这里有很多同学已经放弃了,但其实我告诉你不要放弃,因为 google 有 很多的模型可以任你挑选,如果你触发了 default 的 模型限速,这时候你告诉他你能不能换一个模型参考 api 的 文档, 那这里我们测试通过的比,比如说有 jimmy 二点五 flash image 这个模型就可以生成,但是不同的时间段可能每一个模型 啊他的限制的速度都不一样,所以你让他读 a p i 文档去更换模型就可以了,这时候他就更换了模型之后就帮我生成一个漂亮的三 d 口像,那他就大概也就是呃二十秒钟就生成完成了,生成完成之后你可能不知道他在生成在哪里,那你告诉他说,请你告诉我生成的路径, 他告诉你之后,你就可以打开,我们可以看看这个效果,就是这张头像了。那这里还有一点我需要告诉大家,就是刚刚生成的 a p i 有 可能 会限制你使用,你肯定要等一等,比如说两个小时之后再试,或者明天再试啊,刚刚呢,因为我直接用了我老项目的 api, 所以 是没有问题的。配置好 api 之后呢,我们就可以在手机上通过飞书 discord 来跟小龙虾进行沟通,并且随时随地的生成图片了。这个时候我们可以测试一下在手机上 那么借助大语言模型的能力呢?小龙虾呢,可以在自己去写图片的提示词,并且借助这个 jimmy 的 a p i k 呢,帮你生成各种各样的画面,而不需要你自己去想这个提示词。 好,这些免费的头像和免费的画面就给你生成好了,可以看一下通过 a p i k 生成的画面是没有任何的水印跟 logo 的 啊,你可以展开你更多的想象啊。那今天的介绍就到这里啦,那下次见喽,拜拜。

从夯到拉瑞平、 gpt、 纳诺、 banana 和豆包在各领域的生图表现,我的评判标准很简单,就两点,一审美,二提示词遵循程度。话不多说,我们进入第一关, round one 海报,主题是世界杯的宣传海报,我的提示词很简单,感兴趣的朋友可以截图观看。 第一个登场的是我们的豆包小姐,审美我觉得没什么大问题,提示词遵循程度也还可以,有两点不足的地方就是姆巴佩文字部分有乱码。还有一点最抽象的就是什么六星法国,七星巴西都来了,综合排名给到人上人。 第二个登场的是我们的 banana, 选美我觉得很不错,有激烈的对抗感,并且刚才的六星法国和七星巴西也调整到实际情况了,内容也和我们提示词想要的差不多,文本有一点糊,这是减分项,综合排名给到顶级。 第三位登场的是我们的狗屁通, gpt 的 审美我觉得是最好的,看着冲击感最强,并且文字内容也是最清晰的。唯一不足的地方就是一星法国和三星巴西,综合排名给到顶级四分之一哈。 第二关是我们的商品图,我们用劳大快乐水来举例,提示词依旧非常简单,大家想看的可以暂停观看。首先向我们走来的是豆包小姐,一句话评价封为淘宝的审美无功无过吧, 也是完全根据我们提示词生成的文字,这次没出现太大问题,综合评价给到人上人半顶级。第二位向我们走来的是 banana, banana 和豆包几乎一样,只是背景把纯冰块换成了有使用场景的地方,不过也到不了顶级,和我们的豆包小姐坐一桌,依旧半顶级。 接下来是狗屁通,这次表现就狗屁不通了,商品图我们一般是一比一的,这里失误最多就只能排到 npc 了,再加上这塑料杆的冰块,直接拉完了。 第三关到我老婆出场了,提示词,大家暂停观看,依旧是豆包小姐率先登场。提示词遵循没什么问题,有汉服和苏式园林,审美没什么大问题,就是没几分假了,像披上去的。综合评价给到 npc。 第二位走来的是 banana, 依旧或豆包,半斤八两,整体真实感要好一点,不过紧身看起来还是太假了。同样给到 npc, 接下来人向真神降落, come on! push the ends up! break up! break up one! come on! push the ends up gpt 这次发挥我很满意,这细腻的肌肤,完美的装造以及真实的紧身,让我以为这是我老婆实拍的,直接憨爆。第四关是我们的小红书种草图,提示词,大家暂停观看。 第一位依旧是豆包小姐,豆包小姐一上来就给我拉了一坨大的,老子没话讲,直接拉完了。 nano banana 的 审美不错,手帐风格保持的很好,为二不足的地方就是右上角这个地方得 logo 画错了,合用的横图,手帐首选竖图更好,综合评价给到顶级 g p t 得效果就要好一些,整体观感更舒服,易读性更强,审美也没什么毛病,可以给到夯。 然后到了我们做 ai 视频经常用的功能,多角度示图,并且我们是以系统提示词的形式来生成的,这里我用好兄弟的老婆来举例。提示词暂停观看。 首先还是我们的豆包小姐,还原度还不错,只是没有遵循我们的提示词。提示词中说的三式图,豆包小姐给我们生成的是五式图,综合评价给到 npc nano banana。 提示词遵循还不错,就是角色外观变了,不是同一个人根本没法用,直接拉完了。 又到了真神降临的环节, gpt 这次把角色外观完美复现,提示词遵循也非常不错,和我们想要的一模一样。综合评价给到吭。 最后一关是我们的分镜图,效果都很一般。提示词在这里,三巨头的图我直接全放上来了,可能是我的提示词问题全部拉完了,主播也拉完了。

人人都在用的纹身图 ai, 你 知道哪个最适合生成电商主页图吗?你又知道哪个生成人像图的质感是最好的吗?今天是一篇详细的常用免费纹身图 ai 测评。先说结论, nano banana two, 逻辑思考能力、美学能力、细节真实感、一致性控制啊都是最佳的,无论是人物还是产品图呢,都能交出令人满意的答卷。豆包逻辑思考能力、美学能力是有的,一致性控制啊,不稳定,不是太复杂的提示词基本上都能 cover, 偶尔呢,会给到惊喜, 急吗?逻辑思考能力、美学能力、细节真实感、一致性控制啊都不太行。纹身图不稳定,更偏向于视频, 还是更适合搞文案,不建议用它生图。接下来我们来看一下详细测评的过程。这里呢,我们会用到三组难度不同的提示词,第一组难度只有一星, 教程内容简单,就是常见的电商首页图片,且提示词非常具体,没有参考图。因为难度低,所以各家的表现呢,可以说是平分秋色,尤其是豆包啊,跟公认王者 no no no no two 几乎难分高下。极梦的色调比较灰,放在首页的话呢,产品吸睛度会弱一些。 check g p t 在 这里要重点拉出来批评, 文字都不知道用的是哪国语言,下面的日期啊也没有完全显示出来,还是乖乖用它来做文案吧。做图真的拉完了, 第二组提示词给到三星。这是最近外网上非常流行的 o o t d 展示方式,对于时尚穿搭的审美以及对构图的理解上都有一定的门槛。最终生成的图片需要是一张带有多个放大特写的主图, 同样是给到非常详细的提示词,且没有参考图。我们来对比一下各个 ai 的 表现。 banana banana two 啊,依然稳定输出, 搏击,思考能力,细节真实感都有。短发女生穿着红白上衣和黑色带有白色缝线的裤子,穿着酒红色乐福鞋,走在阳光下的灰色水泥地上,基本的画面完整性啊都有了, 但是这次在美学能力上输给了豆包。豆包在这张上参考了杂志的排版,加入了有时尚感的字体,而且局部特写图的位置也不喧宾夺主,是所有图片中最有意思感的一张。如果说 no no no two 这张是七分,那么豆包这张能给到九分。 一。梦和 chat gpt 在 面对复杂提示词的时候彻底暴露了短板,别说美学能力了,连最基本的逻辑思考能力和真实感都没有,人物动作都是不舒展的。 第三组提示词难度是五颗星,给到脸部参考图,但是衣服要根据提示词生成,还要生成六到八个不同的姿势和表情。 最后一个重点是所有的分镜图片需要展示在一张九比十六的竖屏图片上,这组提示词起到了一个真正分级的作用,谁再裸泳真的一目了然。因为给到了五官参考图,所以最先要考虑的呢,就是一致性的控制。 banana banana two 和 chat gpt 啊,都不错, 豆包跟吉梦已经完全不像我本人了。第二个维度是逻辑思考能力这部分啊,只有吉梦掉队了。对于六张图合成了一个,一张图的理解不够到位,直接给到了我六张分镜图,直到我再次强调需要一组拼贴画才拿到了九比十六的图片。再来看最高维度的美学能力, nano banana two 的 排版简约利落,人物动作优雅大方,就算放进杂志里面也毫无违和感。豆包跟 chat gpt 呢?有的动作略擦边了,审美还需精进啊!集拢了这组简直就是僵硬 拉完了。

我想跟大家说,其实现在的 ai 真的 没那么厉害,就虽然今年 ai 在 深图深视频方面有了很大的提升,但是我发现它在最基础的功能就是 文本聊天的这个功能上,给我的体验却是越来越差了,尤其是当我需要解决一些特别专业的那种问题的时候。就比如我最近在研究 comfyui, 每次会出现报错或者效果做的不好的时候,我, 我就会让 grog 兼面奶或者豆包给我解决方案。然后呢,我就发现这些语言大模型,他在信息解锁,抓取还有整合信息方面是很厉害,尤其是 grog, 谷歌上的什么东西他都能抓到都能解锁到。但是呢,与此同时他有个最不好的一点,就刚好对应着他最强的这一点能力,因为他的解锁能力太强了,以至于网上的什么信息他都先抓一遍,然后给我解决方案, 一个,两个,三个、四个,最终我挨个试下来,就发现这四个方案都不行,然后他就说不好意思,刚刚那几个解决方案当中,有一些是一个论坛上的谁谁谁在几年前说的,现在呢,大家已经把他给跟正了。你要知道,我为了解决这个问题,已经被他在前面待了好几个小时了,结果他最后轻飘飘的说了一句 不好意思,反正我心态已经炸了好几回了。所以我现在被搞的每次如果有什么问题的时候,我都会同时问好几个 ai, 单个 ai 的 回答我已经不相信他们了。 还有呢,就是很多时候会出现所谓的 ai 幻觉,每次都是答应的很好,说的漂亮话一大堆,但是真正遇到一些难解决的问题的时候,就开始胡编乱造。其实现在的 ai, 它的 ai 幻觉已经比一两年前改进了很多了,但是我不知道为什么,就是越来越没有了刚开始使用 ai 时候的那种经验的感觉, 都会觉得这玩意越来越不好用了。然后我就在想为什么会这样?首先我觉得我肯定是百分之百的过度依赖 ai 了, 还有就是经济学上说的那个编辑效应递减,你渴的时候喝第一口可乐永远是最少的嘛,越 往后就越没那么爽了。这个在使用 ai 方面也是一样的,尤其是那你用 ai 的 时间越来越长的时候,这个曲线就慢慢降下来了,你就会觉得没那么好用了。还有一点我觉得就是他们升级换代的太快了,各个大模型之间可以说是你方唱罢我登场, 就导致我们这些用户对 ai 的 能力,对它的期望值会变得很高,高到也许已经超出了现在的 ai 的 这个能力范围了。然后我就进一步思考, 不对,我们为什么会对它的期望值变高呢?我的答案是被洗脑了,就受到了太多网上各种信息的影响,还有刺激马斯克黄仁勋、山姆奥特曼,还有硅谷那些专家、 ai 大 神,以及网上众多的什么一周 ai 大 事, 还有很多人发出的那些什么跟 ai 之间的神级对话,这些,包括最近满世界都在教你下载的那个什么小龙虾,这种心情你逃都逃不掉。然后你就会不自觉的会认为现在 ai 的 技术,嗯,真的已经起飞了,就是马斯克山姆奥特曼他们这些人说 ai 牛逼, 那当然不排除他们现在接触到的是可能是处在实验室阶段的开发阶段的。这些 ai 也许确实牛逼, 但我觉得更大的原因是他们必须得对外这么吹嘘。土王婆卖瓜嘛,你们看就是了,是不是每当他们出来发表一些什么演讲,或者出现在一些大博主的播客上的时候, 他们那公司的股票就会蹭蹭的往上涨。现在全世界关于 ai 的 这些资本,有很多都是通过各种渠道试图去带动这么一种全民的信任。对 ai 的 信任, 让你觉得 ai 啊这些科技股是未来的大事,是所有人都会去研究的,是人类的未来。但你们不觉得这个就跟当年的郁金香很像吗?当然,我绝对不是那种不拥抱科技,不看好 ai 的 人, 我作为一个普通用户,我是非常希望 ai 能够给我们的生活、学习、工作带来各种各样的便利的。我之所以表达这些,就是想说得有人说出一些真实的使用 ai 的 体验吧,不然真的会有很多人啊,以为现在的 ai 无所不能了,尤其是一些老板或者甲方什么的,就万一其中有一些 平时根本就没有深度使用过 ai 工具的,对 ai 的 了解也就仅限于短视频上刷到的这些内容,然后就看到谁谁谁用 ai 做出了一个什么东西。回头就说,哎,小张小王,你也弄一下吧,那这不就扯犊子了吗?

假如你脑海里有这么一幅画面,你会如何写提示词?用 ai 来呈现?聪明的你肯定会发现背摄主体如此高大,摄影机机位低于背摄主体的视线水平,所以你写下了仰视角度。你发现画面前景、中景和后景都清晰可见,视角广阔,所以你写下了深景。深广角镜头,你锐利的眼神又聚焦到高大的背摄主体,也只占据画面的二分之一, 所以你又写下了远景。不知不觉你就完成了镜头角度、景深焦距和景别的分析。下一步你肯定会想到描述主体,这个时候你肯定脑子里会蹦出一个公式,于是你对应着公式写下了视觉主体的描述。当然,细心的你不会放过环境的刻画,于是你又根据这个公式完成了环境的描述。 一向做事严谨的你到这肯定不会收手。你发现左侧画面外的日落光打在巨兽身上形成金色边缘轮廓光发现前景战舰爆炸产生的橘色互动火光,发现穿透云层和硝烟的体积光束, 于是你完成了光照的描述。一个不小心,你又察觉到了画面温暖且充满狂暴感的暖黄色调,泥土棕、暗绿与明亮橘色的相邻色,搭配高饱和度、极高对比度的硬派电影质感。最后你再加上一句照片的风格, 把整理好的提示词喂给 ai。 但是聪明的你又发现了,为什么每一次生成的图片都不一样。这个时候你恍然大悟,人类看到的画面是带有情感的,我们所描述的提示词,大部分词汇都带有主观色彩,即使是不同的人看到相同的主观词汇也会有不同的感受,这是受限于文字的先天性残缺,而 ai 工具也只能通过文字来呈现画面, 因此你也就接受了 ai 的 随机性。所以在多轮抽卡过后,你选中了那张给你感受最接近,甚至给了你一些新奇感受的画面。

佳麦耐最新模型泄露,这次不是第三方爆料,而是出现在 google 官方产品 stage 里。从生成效果来看,明显比之前的 nano 版本二更强质感、文字控制、 ui 生成都更接近生产级工具。如果没意外,它很可能会在 google i o 上发布。现在就看它能不能超过 g p t emoji 二了,让我们拭目以待吧!关注我,每天带你拆一个正在爆发的 ai 新趋势!

教授翻你的作品集的速度啊,其实非常的快,核心判断的呢,只有一个,就是你的作品集能不能在五分钟之内让教授看懂你在研究什么,你是怎么推进的?为什么这么做?很多宝呢,在排版的阶段就开始迷茫了,排了一周啊,还 还排不出来,更别提啊,多个学校需要不同的版本了。但现在生图 ai, 比如 nano blender 已经进化到能根据不同院校的偏好自动排版了。你需要把图片、草图和研究笔记啊,全部丢进去,它就能够 直接自动组织结构,统一视觉层级了,甚至你都不需要自己写复杂的提示了。比如你想做一个罗德岛喜好的偏内容序式方面的排版,你就可以直接问 gemini, 让它生成一些提示词,再交给 nano banana 去渲染。这里呢,我也给大家分享了几个不同方向的排版提 词,比如申请综合类院校 cmu, 华盛顿大学这类学校呢,重视逻辑推导提示词啊,要包含 modular system process, hierarchy 和 academic anonymous style。 排版啊,要像论文一样严谨,让招生官一眼看出你的推导逻辑。而申请艺术类院校,如轮毅和黄毅呢,这类院校啊,希望看到你的个人特征。提示词里面呢,必须有 challenge competition, visual resume 以及 narrative storytelling。 排版呢,要像艺术画册,有 呼吸感,有个人情绪。为了帮大家省时间啊,我也整理了一份作品集排版高频 ai 提示词的清单,一百个不同院校的,需要的同学啊,可以在评论区留言点赞收藏关注, lucky 老师带你读懂艺术留学作品集!

同样是谷歌亲儿子, jammy 和 google ads studio 到底有啥区别?今天咱们就用一模一样的提示词测试,从生图、写文案到做深度报稿,跟你讲透两者之间的差距,看完你就知道自己该选哪一个。 jammy 网页和 google ads studio 其实调用的都是 jammy 这个多模态 ai 模型, 而这个 jammy 网页,它就相当于 google 给你做好的傻瓜相机,点开就能用,日常拍照够用,但所有的参数都给你定好了,你只能用自动模式。 而 google ai studio 是 为开发者、创作者提供的原型设计与 api 集成工具,可以理解为专业单反加改装实验室 所有的参数都给你放开这个实验室里面的光圈、快门、 iso 随便调,不仅能拍出高级效果,还能改装成自己的专属工具。它就是专门给想深度玩 ai、 搞创作、搞开发的人做的 jimmy 模型调试平台。言归正传,咱们第一个测试就是所有创作者最关心的相处能力, 这是我工作刚需中的刚需,这是我准备好的提示词。咱们先测 jamina 网页端,它生图有免费次数, 默认已经用的是谷歌最新上线的 banana banana two 的 模型了。大家可以看到画面还原度是不错的,其实还蛮符合我的描述的。再看 a s studio 这边, 右边是可以自由选择模型的工作室,这里的生图如果要选 nano banana, 只有一是免费的,二和 pro 版本都是要收费的,我这边已经连了 api 密钥。为了公平起见,我同样选 nano banana two 模型。一样的提示词看看效果,呃,这张图看起来跟刚才的 jamming 那 样有异曲同工之妙啊。 机器人角度大概设计场景都很像,毕竟都是 nana banana two 的 模型嘛,也能理解。不过其实 jamie 这边的图更合我的心意,这张图除了蓝色,还有些紫色的霓虹设计,更有赛博朋克的感觉。 更可惜的一点是有水印,这样做出来的图没有办法直接用。而 google a s do do 这边是没有水印的,做出来图可以直接用,对我们创作者来说肯定是更省事儿的。虽然我在提示词里面说了我要四 k 的 清晰度,但这两给我的图都不是四 k 的, 只有一 k。 jimmy 主要是因为四 k 的 图片消耗的算力太高,为了保证速度,默认是生成一 k 左右的图片。 咕咕 a s 丢丢这边还是有机会的,毕竟可以自由调节参数设置,只要把右边的分辨率设置调节成四 k, 就 可以顺利得到一张四 k 封面图片。无聊消耗的算力和费用肯定也是更高的。 接着我们来测试一下文本创作能力,让他们按照我们的要求写一篇小作文。独居三年的九五后,互联网产品经理 刚结束连续十四天的项目加班,捡到一只小奶猫。先看 jimmy 生成的版本,优点是结构完整,趋势流畅,文笔很稳,但问题就在于不够接地气。一个刚结束十四天封闭开发的产品经理,核心状态是极致疲惫,脑子荡激。而 jimmy 笔下的主角,全程太清醒太有条理, 完全脱离了打工人的真实状态,悬浮感有点强啊,不太有第一人称的代入感,说白了就是作者在努力模仿打工人的口吻,但骨子里面还是一个脱离场景的 ai 写作者。反观 google ai studio 这边,开头一句连续跟了十四天大版本终于灰度上线,我现在脑子里就像塞满了一团吸过水的海绵, 又沉又木,对外界的刺激反应很迟钝,一句话就把连续加班后的疲惫、麻木脱力的真实状态给写透了,完全就是互联网产品经理项目上线后的真实心境。捡猫的情节也比较贴合人设,没有长篇大论的内心戏,只犹豫了十秒转身走了,又忍不住折回来, 就是累到连思考都嫌费劲,却又压不住骨子里面心软的真实打工人反应,没有任何刻意,设计文风上也完全贴合要求,全身就是普通打工人的大白话。我确实更喜欢这个版本。当然,如果你还是不够满意,可以在运行工具这里调节,增加人设指令或者调节温度,这些都会影响文本生成效果。 第三个就是让他写一些深入研究类的内容。原本我就想让他分析二零二五年全年的 ai 短视频创作行业深度研究报告,一开始确实给我写出来了, 像模像样的,但是我突然想起来, jammy 三点一模型数据截止日期都是二零二五年一月,这意味着二到十二月的数据他是看不到的。 这样的资料来源其实不够全面。当然大家要注意一下,如果你的需求包含实时数据,那 jammy 和 google a s studio 都不太合适,可以考虑用支持互联网搜索的豆包好。那最后呢,我就只好改成了帮我做一份 二零二四年 ai 短视频创作行业深度分析报告,并给科技创作者提供二零二五年的核心创作建议。这时候, ai 九九这里的行业解 读和例子分析都更有说服力了,机遇已经完全发生的真实历史事实、确凿行业数据和公开商业案例结尾。这里说要把 ai 从视频的主角变成得力的副手, 还挺贴切的。因为我们能刷到的二零二五年,很多 ai 视频基本上真的是这样,不再是你看这个 ai 画的多好,而是我用 ai 讲了一个击穿人性的好故事。再来看看 jimmy 这一份,结构工整,用词严谨,看起来更像正经行业报告,安利有全球视野,适合给老板、给投资人看,给需要专业感的场景, 发现他们选择的侧重点都不一样。刚才 a s 九九那份更像是实战复盘,接地气抓热点案例,能直接操作,适合给创作者看,给运营看,给需要马上能用的场景。其实说到底,两者底层用的是完全一样的 jimmy 大 模型,没有绝对的好坏,只有定位和使用场景不同。 最后给大家一句掏心窝子的选择标准,如果你只是日常问问题,写个简单文案,随便生图玩一玩,直接用 jimmy 网页端或者是 app, 不用折腾,省心省力。但如果你是 ai 创作者、自媒体博主、开发者,要做商用内容定制化、输出深度调参数什么的,而 google ai studio 才是能把 gemini 模型能力彻底榨干的神器。

这一周我用 ai 呢,主要是在 gmail 的 作图方面想跟大家分享一下啊,从三个 case, 第一个 case 就是 用图片 a 生成图片 b, 比方说你的产品 b 是 个新产品,但是还没有实拍图,那只是在一些尺寸上面,规格上面的一些微调,那你就可以用这个 a 图去生成 b 图片。 呃, case two 呢,就是用图片 a 生成一个多视角,比如说我的图片 a 是 新产品,那我就让他帮我去生成呃六个视角的图片,比如说从上面左边四十五,右边四十五,还有侧面等等多个视角图。 呃, case 三呢,就是用图片 a, 然后结合它的这个 specification 呢,还有 check the audience 呢,然后生成一个呃产品的一个叫 users 应用场景图,做的都非常的惊艳啊,我觉得还是很棒的。具体的操作方式呢,就是你先第一步, 先不要选那个深图模型,就直接先去打开一个正常的聊天窗口,跟 jimmy 先去对话,对话清楚之后呢,就跟他说你要实现什么效果, 嗯,然后你觉得对话清楚之后,你就跟他说, ok, 基于以上我跟你对话的内容,帮我生成一套直接可以贴到 复制粘贴到 gem 里面的内容,然后它就帮你生成标题啊啊,指令啊,这个部分是最重要的,因为我们自己去说那个指令根本说不清楚,没有办法说得那么细致啊,所以你就让它 ai 帮你生成你要贴到 gem 里面的内容就可以了。所以呢,第二步就直接再新建一个 gem 智能体就 ok 了 啊。然后当然了,你去默认选择工具的时候,需要勾选那个深图模型啊,好给大家看一个图片啊,这是我做的几个深图的 jim, 然后这个是一个实拍的,比如说主要就是让他帮我去啊克隆不同尺寸不同参数的一个新品的实拍图 啊。然后你看你在 gm 新建的时候,你要勾选你的啊,默认工具式图片制作,就下次不用来这里选了,他就形成了一个默认。 第二个呢就是在这里我想分享一下,就是说我们一般去生成不同视角的图片的时候呢,你不让让他一次性生成,挨个生成, 我试过很多遍啊,就是你让他一次性生成的时候,他就把这个六个面或者五个面给你做到一张图里面,最后分也分不开,所以就让他一个一个做,先做图一、图二、图三、图四、图五,这样子生成的图片就非常好看,大家可以试一下。

g p t。 这一波升级真是憨爆了,我感觉他对真实世界的理解和生活逻辑上又迈进了一大步。在我体验了 g p t 英妹三天三夜之后,我非常好奇这一次更新能不能真的挑战 nasa banana 深途老大的地位。所以我准备了十个不同的测试场景,从图片的基础理解能力、设计的审美,到更复杂的推理,测试能力 一刀不切,直观的对比他们之间的区别。这次的测试规则很简单,第一,所有测试使用完全相同的提示词。第二,购买相同等级的会员。第三,不进行后期修改。第四,每个人物生成两次,我们最终只看模型本身的能力。 测试一,复杂场景理解提示词是,一个未来城市的咖啡店,傍晚下雨,室内暖色灯光,室外冷色霓虹,三个人,程序员、外卖员、机器人。每个人有不同动作,有前景、中景、背景、 电影感、构图。这里有七个约束条件,我们把它分别发给 gmail 和 gpd。 两个模型的生成速度都差不多,那我们最后来看一下生成出来的四张图片的效果怎么样。两个模型都没有漏掉我说的任何一个元素, 暖色和冷色的光影也都实现了,但是 g p d。 偷偷压暗了四个黑角,室外霓虹和室内的昏暗氛围形成了电影感对比。每个座位暖色射灯的局部光影效果也做的很细节,前景、中景和远景也都通过焦距虚化的层次构造了真实摄影的感觉。 相比之下, g m a。 的 光影表现就比较平均,哪里都有,但又好像哪里都没有。这一局 g p d。 完胜。测试二,文本生成能力 意式词是生成一张咖啡店菜单,标题是 drink, coffee 分 类是 coffee, dessert 和 drink, 每个分类三个商品带价格,排版清晰像真实菜单。这一轮我觉得应该差距不大,如果连文字都生成不好,那基本都还停留在玩具的阶段。那么最后看一下生成的四张图片,它们的文本都没有出现乱码, 排版也都没有问题,但是 g p d 会更接近真实内容,而且可能因为我是中文跟他对话的,所以他把中文的备注也都加上去了,其中一张还精心的加了三个商品的图片,而且这一张的排版是更适用于生产场景的,直接把图片发给厂商,他就可以打印出来使用了。 这局我觉得应该是 g p 跃胜测试三,真实感提示词是生成一张真实照片风格,一个人在咖啡店使用笔记本电脑工作,自然光紧身,明显像摄影作品,这个目的是看图片像不像真实的照片。然后我们看一下四张图片的效果,这轮效果挺明显的, 他们对真实照片理解都很好,人物的真实性,环境的氛围,没仔细看的话都会觉得是一张相机拍出来的照片。这局毫无疑问算是打个平手,前面三个测试算是先试试水 放几个基本的纹身图的能力,目前来看的话, g p d 是 两胜一平。测试四,电商海报这个是这次更新的重点,是工具还是玩具,就在接下来的测试当中体现了。生成一张电商海报,产品无线耳机,主题六幺八大柱, 文案标题是限时优惠,副标题是立减两百,风格是科技感,加强视觉冲击,要求构图清晰,产品突出。我们直接看一下这四张图片生成的效果,从结果来看的话, 模型都清晰的把我给的清晰都完美的呈现出来了。但是电商海报需要的不只是简单的清晰就可以,他要是让人在看到图片的瞬间就知道在卖什么产品,价格多少,优惠力度怎么样, 需要让你有下蛋冲动。那么 gbt 这两张产品剧中比例占整体画面的三分之一,重要的活动画面的字体设计的还挺有科技感的,颜色也选择了最为显眼的白色,电商最重要价格信息也都用上了重点色样式这局迷你人应该都能看得出来,还是 gbt 完整。测试五, logo 设计提示时是设计一个 logo, 品牌名,达达,行业 ai 数据公司,风格,极简几何未来感,颜色,黑白加一点亮色。要求图形可识别,可用于 app 图标,不要复杂细节。这里还有点私心,我想让它生成一个我的 logo。 logo 设计是非常考验抽象能力的, 所以我们来看一下他们对于抽象的理解能力是怎样的,这个很考验抽象能力和设计审美能力。当这四张图片摆出来的时候,我觉得大家都能直观的看出来哪一张会比较好吧,我比较喜欢的是这一张设计,感觉优化的空间已经很小了,可以直接用也没关系。 如果硬要说的话, gmail 也确实完成了我所说的所有条件,但是他的审美就很难评。这局 gmail 的 设计比较好的 朋友可以在评论区说一说你的观点。测试六,品牌统一性其次词是为一个品牌设计一套视觉物料,品牌兵还是大大定位 ai 科技创业公司风格,未来感、极简、霓虹蓝紫色深层三张图,一张 logo 设计,一张名片设计,一张宣传海报, 要求颜色统一,字体统一、风格一致。这一把的难度已经开始挑战一个小的设计部门一周的工作量了,出来,四张图片,他们都沿用了前面的 logo 设计,这个就不多评论了,那我们接下来就看一下名片设计。 g p d 已经把样品都已经渲染出来了,宣传海报也都搞得有点小意境,大量的留白剪影和极简线条的光线设计 氛围一下都起来了。这局我觉得也不用多说了吧, g p d 完胜。毫无疑问,这三个小测试是最接近变现的场景了。 三个简单抽象,需要具备审美能力才能够做好的设计场景,他居然能完成的这么好,又这么快。我以前也做过一段时间的设计工作,说真的,他这三个表现能力做得比大部分设计师都好,而且很快,估计叫他设计个五彩斑斓的黑,他也毫无怨言。接下来是这次最关键的一部分,推理能力,以前的 ai 是 拼关键词, 现在是先理解再生成。我们来看一下他们这一轮的表现如何。测试七,因果推理于是此事一个人刚刚打翻咖啡的瞬间,桌面上有笔记本电脑,咖啡正在向键盘流动,人物表情是惊讶且紧张, 画面要表现出即将发生损坏的紧迫感。这个不是一个静态的画面,而是一个时间节点,我们需要看的是他有没有正在发生的感觉,他的情绪是否能够成立两个模型,对于文本的理解,场景的真实度, 表情动作都控制的很好。但是我觉得 g p d 生成出来图片更有戏剧张力,也更能够表现出不小心打翻的这个点的氛围。这面的其他的表现也都非常好,但我总感觉它生成出来的人物好像是因为不想工作, 故意把咖啡倒在电脑键盘上面,所以这个测试我觉得没有办法真的区分出它的好坏吧,只能看大家的喜好来选择,可以把你的想法打在公屏上,我们讨论一下测试吧。 多角色行为提示词是生成一张图,五个人在开会,每个人有不同的动作,讲话、记录、思考、用电脑喝水,场景真实自然。我们看一下这个测试下面 g p d 生成出来的两张图片的构图都是一样的,人 物也都是类似的,而且这两张当中也没有让每个人都有不同动作,有一个人甚至是边喝水边用电脑,然后其他两个人都是思考的状态。那我们看接下来两张图片的构图都是不同的, 让我们去进行抽卡的话,也能得到不一样的东西多一点。如果是用 gbt 抽卡的话,我怕他每次抽卡都是类似的。然后君美在对人物的理解上面,他每个人物也都有各自的动作,所以这一轮君美应该是完胜。这是九空间构图,提示词是生成一张图,一个人在高楼顶看城市, 要求有明显的前景,中景和背景风格需要有电影感。这个测试的本质是在测试他们的视觉推理,这一轮的测试结果也都挺有意思的,我以为这一轮 g、 p、 d 的 表现会更好,但是这一轮它生成出来图片中城市的场景和远处的云朵清晰度非常差, 书都还没有渲染完成,跟肩胛来对比的话差距非常大。整体的构图四平八稳的,没有肩胛来生成出来的广角来的有冲击力,肩胛来生成的城市中还有一条伸向远处的公路,增加了整个画面的纵深感。所以在这一个测试当中,肩胛来对于空间构图的理解能力是比 gdp 强很多的。 测试时终极组合测试提示词是生成一张电影感画面场景,雨夜街头,一个外卖员正在奔跑中景前景有模糊的路灯光斑,背景远处有出租车驶来,车灯明显, 外卖员表情焦急,因为即将迟到,地面有反光,冷暖对比明显,要求有前中后景表现。紧迫感,光影与情绪一致, 这个测试同时在考空间光影因果情绪,所以在这一轮测试当中,两个模型对空间的表现,光影的呈现,画面的蓄势能力,甚至是外卖员焦急的神态动作都已经做的非常好了。 这里我觉得两个模型的表现都挺好的。如果要说个区别的话,我觉得 g b d 的 图片氛围表现的会更好,更符合紧迫感的情绪,前景的虚焦表现也会更自然, 人物的神情和动作会让人感觉更加焦急,但是整体氛围我还是觉得大家自己去感觉选择吧。这一轮的话,我觉得应该是打个平手,做完这十个测试之后,他给我的感觉更像是生图的设计师。 过去式提示词生成图片,图片质量大部分取决于你的提示词写的多。专业大模型更像是一个画家把你描述的画面画出来。 而现在 gpt 更像是一个设计师,他会先把画面的构图、排版、光影、空间感、风格等等先构思清楚再动手画。比如加生成一张电商详情页的图片, 他会先思考一张好的电商详情页图片应该是什么样的,文案需要怎么写,标题需要放在哪里,产品图片需要哪一个角度才能凸显产品的卖点等等, 然后再进行排版,排版完也不会马上生成图片,他会拉来他的主管来检查一下效果之后再画出来。如果用一句话概括这次的升级,我觉得应该是这次不是画的更好, 而是更懂你。加更可控,加能直接用提示词不再是核心壁垒,结构化表达能力加审美加业务理解更加重要。好,以上就是本期的全部内容,我是达达,我们保持好奇,保持底袋,下期见!拜拜!

想让 gemini 从好用变得通人性,那么这个插件你一定要下载。去水印、文件夹、分类、对话、时间轴、提示词库四大功能,让 gemini 变成满血模式。第一个功能,去水印 gemini 生成的图片,右下角自带星星水印,总有那么 一点点影响观感。装上这个插件,它就默认自动去除了 nano banana 的 水印。点击小香蕉图标,下载的图片就是无水印版,以后冲浪装逼 安能辨我是真伪呢!第二个功能,文件夹分类加对话时间轴,今天问黄金,明天问技术,后天让升值。跟 jammy 的 对话就这么杂乱无章的堆在那边,用这个插件创造文件夹之后,就能把对话分类招财,超方便!点击单个对话进去呢,发现 不知不觉聊了八百个来回。没关系,右边的对话时间轴让你快速定位,比如我想找出我跟 jennie 的 合照,直接在右边快速锁印,再也不用划拉半天了。第三个功能,提示词,在抖音评论区苦苦求来的提示词却 东一个西一个的放着,用的时候又找备忘录,又找文件传输助手,又找收藏夹,直接把你常用的提示词放在这。 像我就在这里放了我搜刮到的 jammy 官方提示词,要用的时候直接点开这个笔记本的图标,全部乖乖躺在那里等你调用。没下载这个插件之前,我到底过的是什么苦日子啊?你也快去试试这个免费提效的小工具吧!

难道还有人不知道这个金米奈的 flow 里面它是无限生图的吗?它是不限数量。而且呃, pro 模型和纳都布纳纳兔模型它是都是随便生成啊,没有任何消耗,都是不要钱的。 它那个金米奈的客户就是网页版啊,金米奈的里面它是需要,就是可能是呃有限制,比如说一天一百张呀这种限制,以及说你的呃 pro 模型, pro 的 那个脚标的一个水印,但如果你开的是 arch, 就不就不会有那个水印啊?然后不管是 pro 还是这个奥创啊,它其实在这个 flow 里面去生图都是免费的,而且是无限并发,你看我这个,我可以随时让它 生成,多少个都行啊,多少个一起跑都行。你去接 api 或者说用其他的模型,你能做到吗?你能让他一次生成这么多吗?那肯定是不能的呀,而且这个模型是 nintendo 那 two 以及 pro 啊, nintendo 那 two 以及 pro 这两个都是免费的。还有这个,这个好像不太好用,一直都用不了, 这就是他的这个叫什么视频的比例是有限制的,但是你如果用金米奶的网页版去生成金米奶,你比如说你可以给他一个呃公众号的二点三五比一的尺寸,他是可以生成的,但是你在这个 flow 里面他只有这固定的几种, 一个叫什么,这叫什么比例啊?图片比例,然后视频的话,这个 flow 里面大家应该都知道啊,这个是需要消耗 点数的啊,这个还比较贵啊,视频还是比较贵的。我原本是特别挺那个 mini max 的 生图啊,我之前还在那个粉丝群里有说这个 mini max 生成的图片特别真实好用,后来我用了一个同样的提示词让它生成一个四十岁的中国女性啊,不加任何修饰的情况下,它生成出来的和 纳努布纳纳兔是一模一样的啊。只能说 mini max 里面他接的那个视频模型的 api 估计就是纳努布纳纳兔啊,以及他那个海螺上面不也有图片模型吗?就有那些。呃,但是海螺上面是要钱的。呃, mini max 客户端里升图也不便宜,都很贵啊。所以这个谷歌的 flow 真的 很强,就是无限升图 没有小号,只要你有个会员。好像我不知道没有会员行不行,反正我有会员,这会员又不贵,能跟谷歌 flow 唯一比的这个国产大模型就是生图的啊。我觉得就是豆包,不要一天到晚笑那个豆包,豆包可以说是国内最强的多模态 啊,如果有人跟你说豆用豆包就是小孩,那说明呃,你也可以看他像看傻子一样啊,就是外行看热闹,内行看门道嘛啊,豆包的多肽绝对是全国的泡泡好吧。呃,豆包里面也是无限深度啊,豆包你在手机端的时候你一天只能生成六十张图片,但是你如果用豆包的这个 电脑版网页版啊,他就是无限深度的,豆包的也很强,没有办法用谷歌的就用豆包。