粉丝285获赞1639

百分之九十的人都没有用对 ai 生图软件,不同的纹身图模型更像是不同的公众,每个模型适配不同的用场景。今天我把我最常用的三个模型给你们讲透。 先说 nano banana, 最近刚出了个 nano banana 二,那它和 pro 有 什么区别呢?你可以理解为 nano banana 二,是 pro 的 实习生更为清凉化,生成速度更快。如果你需要高频出图、 改图和二次编辑,很多呃,做不要求质量但迭代速度很快的 banner 信息流,或者想快速尝试几十版不同方向的预览,那 nano banana two 是 你的最佳选择。如果你需要商业化品牌素材精修,那 nano banana pro 一定不会让你失望。 noodle banana 是 目前使用率最高的墨镜,因为它在精细化修改方面尤其卓越。无论你是想改文字、换背景、换服装、换头,它都能精准的执行。甚至你不需要很强的文字书写能力, 你只要大概齐跟他描述你想要的场景,他就可以大差不差的呈现给你。因为他接入了 germina 三 pro 这个大脑,所以他是真的可以理解你的图片。如果用一个词来形容 nasa budana, 那 就是好牛马。 不过不要高兴太早,他的缺点也很明显,他不具备审美力。例如,你即使给了他参考,告诉了他风格,他理解的国漫就是这种夜游即视感。 这也是为什么大部分市面上的 ai 漫剧都很粗糙的原因。因为纳诺布纳纳可以做到不出错,但也不出彩。那谁具有审美力呢? 米德里,如果你需要做电影感、海报、情绪封面、时尚类视觉,或者为你的影片定整体的风格基调等等,全部都交给米德里。如果用一个词精准的形容他,那就是艺术家。比如生成一把打开的雨伞图, 八五定焦的空间压缩感,空气切割机,肌底是低饱和的灰绿,冷清和雾白。伞和衣服用了高饱和的红作为情绪锚点,这是米着妮的电影感人物调度。 红和情侣色的强对撞版画风格,用线条交织出的美术纹理,配合上文字的排版,构成了东方平面设计气质。 这是米杰尼的图形设计思维。二次定广角,强调空间压迫感。楼宇向上抬升,形成了纵深,前中后景复杂而有层次。中心高亮,四周压暗的目光方式做出了舞台感。雨丝和水花的动态模糊构成了运动张力,这是米杰尼的环境蓄势能力。 对称的中心构图,长焦镜头,空间压缩,极简的画面内容,以鹅毛大雪和黑色散面服装构成黑白极简配色,这是米杰尼的留白与删减能力。 我们插播一下 nasa banana, 同样的提示词,它会给你一个不出错的商业计时。摄影迷汁里的缺点,我想你们也能清楚的看到。文字方面能力几乎为零,无法精准控制。最后呢,就是 flash two max。 我 个人认为一个被严重低估的模型, 如果需要做真实感的画面交付级别的产品图以及材质细节图, flash two max 一定是 number one。 如果用一句话来形容他,那就是还原真实的世界。这张图的雪不是简单的贴图特效,而是明显有井深的分层。这种从前到后逐层变化的例子,逻辑很接近真实摄影力的雪点, miclair 往往会把雪做的更电影化,更柔更均匀,更像氛围感滤镜。而 floss 这里更像是一个真正在空间里下雪,人物侧脸的明暗,伞内侧的阴影,衣服褶皱的暗部过度,都在同一个光向体系里, 是符合真实世界物理定律的光。我们再来看材质感, floss max 是 在还原材质的物理属性,而 miclair 是 在输出一种审美材质。 那我们教一下我们的老演员 nano banana, 结果显而易见不出错,因为雪天就应该是这种清冷的蓝, 所以 nano banana 抹掉了 mijiri 的 艺术感,但又做不出 flas du max 的 真实材质感。这时候很多人要问了,那 flas du max 能改图吗?我只能说,这就是我认为 flas du max 被严重低估的原因。 点赞关注我一个分享真东西的博主,这期内容是真的干,快喝点水,别噎着。哎,有了。

我给 callix 发了一条命令啊,生成我这篇文章需要的全部图片。不到十分钟,这个文件夹里就已经装满了深深好的图片了。如果说你也需要给文章配图的话,那今天的内容就赶紧的要放进你的收藏夹了。 你写公众号发小红书吗?插图你是怎么做的呢?打开某个生图平台的网页,发送这样的一条提示词,等上几十秒,他吐出来四张照片。小姐姐,挺好看的哈,不过四张图根本他不是一个人本。 那你想的是早上画面呢?明显就是傍晚。今天呢,我们就从零开始,全程都用 callix, 你 用别的大模型也可以哈,配合 obsidian 这个笔记软件,让你的文章配图变成一个固定的工作流。以前两个小时的工作量,以后呢,就是一句话的事,准备好了没?那咱们就直接发车。 今天的工作流呢,主要用到两个工具, callix 和 obsidian。 不要划走啊,不需要懂编程,全程都是说人话,真的是 有手就行。总的逻辑呢是,在 obsidian 里面,你已经写好了一篇 markdown 格式的文章,这个格式呢,是目前公认的 与大模型沟通最好的。我们要做的呢,就是让 codex 来帮你读取文章的内容,分析配合文章需要哪些场景,再让它自己来生成提示词,自己生图,一条龙服务。等你用顺了这套工作流之后呢,麻麻再也不用担心你的出图了。实现这一套流程呢,拢共就是四步,阅读、理解、场景、设计其 词、出图。那咱们就从第一步开始配图。最烦的事呢,就是大模型出图啊,老是抽卡,你要的是早上,出来的是下午,你讲的是夏天,出来的是冬装。花了大力气去改提示词啊,这一轮 ok 了,那下一篇呢,又得重新搞这个呢,是因为你没有积累 图片呢,是要服务于内容的哈,所以说,第一步呢,要从文章开始。这篇文章是讲啥的呀?我们的林芝夏小姐姐五一去了成都见老朋友,这是他的一篇心情日记,自然呢,会有很多的自拍照,美食照,风景照。所以说呢,第一件事是要让大模型 读懂这篇文章。我的提示词是这么写的,注意看哈,提示词里的第一行呢,是把这篇邮寄按给 context, 先体会下文章的内容,人物的关系,时间线和情绪节奏,然后帮我来判断哈,这篇文章如果要配插图的话,需要哪些画面,每张图大概放在什么位置, 要解决什么问题?有没有人物一致性的要求?在同一个文件夹里面新建一份配图项目总控笔记,把你的判断整理进去,并作为我们接下来沟通的参考哈,他仔细的阅读理解了这篇文章,他发现呢,这篇文章是 篇生活化篇心情记录的邮寄。他给我的第一轮判断呢,就是说这篇文章要体现整个旅途的过程,比如说呢,出发前的行李箱,机场,成都接机,景点,餐厅,酒店等等这么一些画面。同时呢,他还提醒我哈, 这种游记里面的人物会多次的出现,所以说人物一致性的问题要考虑到。而且他认为啊,我说的建一份项目总控笔记是很有必要的,这份笔记呢,会作为整套配图工作的说明书,当然哈, 你自己甚至啊都不需要读,这本来也是给大模型看的。这个呢,就是我喜欢用 codex 配合 obsidian 的 原因了哈,它不是只在对话框里给你一段回答, 他会真的进入你的笔记库,把这些判断写成一份可以持续迭代的文件。当然呢,第一轮哈,往往不会特别的满意。那我会继续的追问他了, 你刚才的这些场景是不是有点像旅行相册了呀?公众号里面真的需要这么多的图吗?他会重新的收敛一遍,把那些指示好看但不服务于正文的画面给删掉。而且呢,还让他加上了一些画面中不要出现的东西, 比如说不要冬装,不要过度精修,不要把串串化成了高档火锅等等吧。这几轮来回之后啊,项目总共笔记才算是能用了。 这个过程呢,重点不是哪一句提示词最重要,重点呢,是要让你让大模型先读懂文章,再让他给你一个判断,然后呢,继续追问,收敛不约束,这个呢,才像是真的在干活。大模型读懂了你的文章,我们的总控笔记就写好了,现在就到了第二步了。场景设计 这里要包括两块了,一个是人物,一个是场景。人物当然很重要哈,你成都你就玩一天,逛街的时候你不可能换几套衣服几套发型吧,场景呢,也是一样的哈,必须得符合实际的情况。 五一是夏天吗?你就不能穿着羽绒服吧,吃的是串串,你画面就不能搞成了川菜?而我们先说人物,如果是一个正规的作品啊,人物会非常的讲究,需要在开始之前呢,就要确认全部的人设,包括年龄、发型、穿搭、脸部气质、拍摄风格、常见表情,不要出现的画面 等等等等。比如说,我就不希望主角变成网红锥子脸或者是广告模特的样子,他应该就像你身边的一个真实的人。照片呢,像是手机随手拍出来的。 我就这么跟 callix 讲了哈。读取这篇邮寄和项目总共这两份笔记。这个时候你先不要写具体的场景题词,新建一份人物一致性备忘录,用来约束后续所有的人物出镜图片。这份备忘录要包括 主角灵芝下的人物特征、穿搭、发型、拍摄风格、禁止出现的风格,以及配角阿乔的基础特征。请特别注意,这个不是人物小传,不要给我搞什么文学化的描述, 我要的是直接可以给深图模型使用的视觉信息。最后呢,请给出主角和配角的标准照,三式图,深沉建议,方便后面做图深图的参考。很快啊, codex 生成了这一篇备忘录。这份笔记啊,清楚的写到了主角大概二十八岁,黑色中长发, 米白色轻薄外套,浅蓝牛仔裤,真实手机摄影,自然光,生活化构图,不要澎湃,不要商业广告感。更重要的是啊,他会写清楚后面凡是林芝下本人出镜的图片,都要参考这张标准图。由于文章里还有一位配角阿乔哈, codex 还很贴心的把 阿乔的特征也写到了这一份备忘录里。注意哈,不要让大模型写什么美女啊,氛围感呐,高级感啊,这样的一些词,听起来高大上,但是对生图模型来说呀,非常容易跑偏, 他可能就会把人物往什么影楼大片的方向去带。显然呢,不符合邻家小姐姐的人设了。咱们要的是能执行的信息,能量化的信息才是稳定性的来源。 人设定了,咱们就要考虑场景了,与人物设计类似哈,还是跟 context 先沟通,确认这篇文章需要多少个关键画面,每个画面放在哪里?每个画面服务正文的哪一个段落 的提示词是这么写的,请继续的读这么一篇邮寄和总控笔记和人物一致性备忘录。现在需要你帮我新建一份配图场景清单,不要写生图提示词。这一步呢,咱们只做场景设计,每个场景要包含编号、对应正文的位置、 图片的用途,是否有人物出镜、生成方式,必须出现的元素,禁止出现的元素,建议的文件名等等等等。请控制图片数量,不要每一段都给我配图公众号,它不是相册啊。图片是要服务于阅读节奏的,很快啊。 copy 生成了一份配图场景清单 笔记清单会很细,像图的编号,正文的位置、画面用途、生成方式,必须出现什么建议文件名等等。 比如说机场图要体现出发和疲惫。茶馆图呢,要体现成都的小巷和下午的自然。光吃串串的时候呢,就要像玉林路边的小店,你不能搞成什么高级餐厅了,我们来简单的盘点一下哈。到这呢,除了刚才林志祥的邮寄之外啊, 我们一共有了三份笔记了,分别用来让大模型知道文章讲什么,主角长什么样,每张图应该怎么服务于正文?你看哈,我说不难吧,全程呢,没有一点需要,你在 obsidian 里面写东西的时候更没有什么编程,都是自然语言,跟 context 讲就行了。对了哈,如果你不喜欢打字的话呢, 试试 typeface, 谁用谁知道。 ok, 到这呢,咱们才可以开始准备正式的写题词了。 虽然还没有开始写提示词啊,但是我们出图的工作已经完成了一大部分了,上面的所有一切是写好提示词的。提示词 如果一开始就用大模型来写二十条提示词哈,他会写的很热闹,但是大概率啊,伸出来图片你都用不了,因为他并没有想清楚一样的办法。我在 callix 的 对括号里头按他的那几份刚才的笔记,我让他根据要求准备开始生成正式的提示词。我是这么说的, 请读取配图项目总控、人物一致性备忘录和场景清单。现在呢,你 需要新建一份提示词物料包。注意哈,这份笔记不是直接拿去批量出图的正式版,它是一个准备稿结构呢,分成三个部分。第一个部分是写全区,要求包括画面风格、照片质感、比例、色彩真实、手机摄影不要澎湃不, 不要商业广告感,不要过度磨皮,不要让人物换衣服。第二个部分呢,写人物的原型提示词主角长什么样,生成一个标准照和三式图。这一步呢,只做人,不做场景, 因为后面所有的人物出境图都要参考这些原型。第三部分呢,是每个具体场景的提示词,每个场景必须保留编号正文的提示词和输出文件名等等。如果是图生图的话呢, 而且场景变化和动作就不需要在每一条里面反复的长篇描述人物是谁了,人物信息呢,是会放在局要求里,通过标准照路径来引用。你看哈,这些提示词咱们讲的非常的详细啊,你不把任务拆清楚, 大模型就会把所有东西混在一起,越写上下文越乱。所以说呢,提示词物料包必须要包括两层,上层呢是大局要求管统一风格的,下层呢是具体的要求人物原型,管一致性,具体场景呢,管每一张图该干什么, 两层三个东西不要搅到了一起来。我们先看人物原型图哈,如果有问题呢,你就持续让他改 定下来之后啊,咱们就应该先生成主角和配角的人物原型图了,这些是一会正式的图生图的参考物料,很简单哈,你让 codex 按照人物原型的要求 生成两个人物的三式图,就这么一句话。这个呢,就是林芝夏和阿乔的原型图了,人物的发型、衣服、年龄感基本上比较稳定,这个角度来看呢, 认得出是同一个人。等到主角配角的原型图都定稿之后啊,咱们提示词的部分就可以进入最后一步了,我要让 codex 生成一份提示词正视版。这一份正视版呢,要非常的干净,不要保留前面那些讨论的过程, 只保留全剧要求和每一个场景的具体提示词。说白了哈,这份东西呢,才是最终给 image 二点零看的,他就会直接照着他出图了,他读到的是执行文件, 是一份聊天记录。恭喜哈,提示词咱们终于写完了,有没有发现大模型有时候是很笨的哈,他不是一句话就能拿到结果,没有关系啊,他又不会累,又不会生气,达不到要求的时候呢,咱们就跟他多拉扯几轮,总会得到你想要的结果。 到这哈,我们已经完成了百分之九十五以上的工作了。 codex 现在本来就可以直接驱动 emoji 二点零这个最近特别火的 open 的 香蕉刚出道的时候啊, 还要火爆。只要你的提示词写的足够的好,出图就不用操心了。这条视频呢,是我们专门对他做过的一个测评,有兴趣的小伙伴呢可以去看一看哈。 磨刀不误砍柴工,平时出图不满意啊,就是没有花什么心思磨刀。好了,我把提示词的正式版笔记艾特给了高黛斯,来帮我按照这条笔记中的提示词,用你的 emg 二点零大模型生成全部场景的图片。就是这么简单,你的大局要求里面有整体风格的要求, 有人物原型图的存放路径,不管是图身图还是纹身图,每一个画面都有非常详细的要求,这样的话,大模型就不会出错了。图片不少,可以伸个懒腰,咱休息一下哈。不一会呢,你在聊天记录里面和出图的文件夹里头就可以看到这些深沉的图片了,有没有成就感啊? 检查一下哈,大部分的图片都是可用的,偶尔呢可能出现几张不太满意的。没关系啊,咱笔记里不是有编号吗?还是很简单,你就这么说哈, a 零三, a 零九 b 幺五,咱不满意重 新生成。这个时候呢,不用你重新描述一遍那张插管图,还是那张机场图,直接讲编号就完事了。 gmail 会回到那份提示词笔记,按照原来的要求重新来跑对应的图片。这个就是为什么前面要把任务拆清楚,你前面拆的越清楚,后面的反攻呢,就会越轻松。 感谢你能看到这里啊,真的很简单哈,只要你的逻辑清晰一点,完全可以自己来搭这套系统。只要把文章准备好,他就可以帮你拆场景,写题词, 生成图片,按编号返工。公众号配图啊,小红书图文呢,产品体验文章啊,都用得上。或者是做 ppt 封面,课程配图,视频分镜等等啊,都可以。当你能够把你的全部的任务拆解清楚,用一种管件式的方式来跟大模型来写作。把你的判断放进笔记, 大模型就能沿着你的判断来干活。它不再是临时给你一个结果了,而是参与了一整条的生产线。当然哈,可以把这些流程整理成可以附用的 skill, 不知道你有没有兴趣哈。好了,希望今天内容呢,能够真正的帮到你。这期里面所有的提示词文档,我都会打包好,评论区自取。

前我有一个非常大的痛点,就是我每次经常会录完视频,但是需要在各个平台分发的时候,就需要生成不同的封面,比如 p 站,他的封面的风格有不同的风格,有尺寸,然后小红书或者呃快手以及抖音,他都有不同的要求,然后我就很困扰,但是我也不太想花钱,因为 呃花钱就意味着我需要买呃 gpt image 二或者 cds, 就是 自己的纹身图的视频的 a p i 嘛,我其实觉得有点浪费,然后我今天就想着能不能用 h t m h t m l 直接给我生成一次性帮我生成五个平台的封面图呢?然后试了一下和它充分讨论。其实还真可以, 大家可以看一下我生成的四四个不同的封面的图啊。然后我是随机让他去试了一下,因为 deepsea v 四现在有识图模式嘛,我就让 deepsea v 四先帮我生成了呃样例的图的提示词,然后我让我的呃 cloud, 然后用 html 生成了这些图片,我觉得效果还可以,将就看 做封面其实绰绰有余,这样也可以帮我们节省一些成本嘛。然后在这个过程中我觉得有一点非常重要,就是我们有问题的时候,其实 可以先把 ai 当成我们的一个产品经理,我们和他去充分的进行市场调研和用户痛点的分析,然后以及解决方案,他帮我们选择最优的方案以及后续的迭代方向,都可以这样去。然后我们可以使用那个呃 facebook 上面非常火的一个 skill 叫 superpowers, 这也是 cloud code 里面呃应该内置的一个 skill, 然后大家可以去和它充分的探讨,然后探讨之后我们生成自己的呃最终的最终的方案去解决。然后就是把 ai 当成完全当成一个自己的合作伙伴。其实 ai 因为是联网搜索,它有 呃过去数数数以百计的人类的一些知识和解决方案,其实当然比个人的能想到的要多的多。呃,对,这就是我觉得后续这个成品做好之后也会给大家分享,因为我最近也在呃积极尝试 webcointing 的 一些东西。

人人都在用的纹身图 ai, 你 知道哪个最适合生成电商主页图吗?你又知道哪个生成人像图的质感是最好的吗?今天是一篇详细的常用免费纹身图 ai 测评。先说结论, nano banana two, 逻辑思考能力、美学能力、细节真实感、一致性控制啊都是最佳的,无论是人物还是产品图呢,都能交出令人满意的答卷。豆包逻辑思考能力、美学能力是有的,一致性控制啊,不稳定,不是太复杂的提示词基本上都能 cover, 偶尔呢,会给到惊喜, 急吗?逻辑思考能力、美学能力、细节真实感、一致性控制啊都不太行。纹身图不稳定,更偏向于视频, 还是更适合搞文案,不建议用它生图。接下来我们来看一下详细测评的过程。这里呢,我们会用到三组难度不同的提示词,第一组难度只有一星, 教程内容简单,就是常见的电商首页图片,且提示词非常具体,没有参考图。因为难度低,所以各家的表现呢,可以说是平分秋色,尤其是豆包啊,跟公认王者 no no no no two 几乎难分高下。极梦的色调比较灰,放在首页的话呢,产品吸睛度会弱一些。 check g p t 在 这里要重点拉出来批评, 文字都不知道用的是哪国语言,下面的日期啊也没有完全显示出来,还是乖乖用它来做文案吧。做图真的拉完了, 第二组提示词给到三星。这是最近外网上非常流行的 o o t d 展示方式,对于时尚穿搭的审美以及对构图的理解上都有一定的门槛。最终生成的图片需要是一张带有多个放大特写的主图, 同样是给到非常详细的提示词,且没有参考图。我们来对比一下各个 ai 的 表现。 banana banana two 啊,依然稳定输出, 搏击,思考能力,细节真实感都有。短发女生穿着红白上衣和黑色带有白色缝线的裤子,穿着酒红色乐福鞋,走在阳光下的灰色水泥地上,基本的画面完整性啊都有了, 但是这次在美学能力上输给了豆包。豆包在这张上参考了杂志的排版,加入了有时尚感的字体,而且局部特写图的位置也不喧宾夺主,是所有图片中最有意思感的一张。如果说 no no no two 这张是七分,那么豆包这张能给到九分。 一。梦和 chat gpt 在 面对复杂提示词的时候彻底暴露了短板,别说美学能力了,连最基本的逻辑思考能力和真实感都没有,人物动作都是不舒展的。 第三组提示词难度是五颗星,给到脸部参考图,但是衣服要根据提示词生成,还要生成六到八个不同的姿势和表情。 最后一个重点是所有的分镜图片需要展示在一张九比十六的竖屏图片上,这组提示词起到了一个真正分级的作用,谁再裸泳真的一目了然。因为给到了五官参考图,所以最先要考虑的呢,就是一致性的控制。 banana banana two 和 chat gpt 啊,都不错, 豆包跟吉梦已经完全不像我本人了。第二个维度是逻辑思考能力这部分啊,只有吉梦掉队了。对于六张图合成了一个,一张图的理解不够到位,直接给到了我六张分镜图,直到我再次强调需要一组拼贴画才拿到了九比十六的图片。再来看最高维度的美学能力, nano banana two 的 排版简约利落,人物动作优雅大方,就算放进杂志里面也毫无违和感。豆包跟 chat gpt 呢?有的动作略擦边了,审美还需精进啊!集拢了这组简直就是僵硬 拉完了。

接下来我们来讲生图或者是生视频的不同的模型,不同的类型。先来讲生图啊,会有两种,第一种呢叫做纹身图,纹身图 就是你提交一段文字,然后按照你的文字的描述去生成图片,那是要求你的文字的描述,也就是提示词要比较精准, 我们更主要大家去用第二种叫做啊图生图,或者说叫图纹生图,也就是呃一段提示词加上一张参考图,然后就生成图形。如果只是纹身图的话,很多时候因为 一张图片里面它包含的元素其实很多,你很难用一段文字去非常精准的描述你想要的图的类型,那么我们就需要来给他定一张参考图 啊,比如说我们常见到的,我想要参考这个人物,他整体的着装形象风格,然后把他替换成为另外一个人,那这个时候我们在抖音上会看到很多的什么换装啦,变装啦,他的底层的原理就是这个,就是图纹生图, 然后来去讲第二种生视频的,那它其实就比较类似啊,第一种是叫做纹身视频,提交文字的描述,然后去生成视频, 那你同样的啊,在你的提置词里面描述清楚一系列的一些关键要素,比如说运镜、紧别紧身、氛围、环境、人物、色调、光影等等这些。第二个呢是叫做啊,就是这个呃文字加上图片 来去生成视频,那和上面的纹图纹身图道理是一样,那你就给他固定好这段视频里面他的关键帧,可能是手帧,可能是尾帧,那这个时候你生成来的视频会更加的符合你的想象, 我们会建议大家尽可能采取这两种形式,那如果说没有的话怎么办呢?那么可以先去找一些参考图, 再用参考图去反推出下他的行驶词,再去生成你想要的这里的其中的一些关键的图片,然后再提交到这里生成视频的模型里面去,那么基本上你们生成的视频的质量不会差。

哇,这张图太漂亮了,绝了绝了,这是至今为止啊 zimig 带给我震撼最大的一张图片。哈喽,大家好,我是千叶峰的小孩,上一次我们讲了这个 zimig 的 图生图的一个功能,我们今天会讲两种更高级的用法,就是在之前官方的这种原版的工作流基础之上,我们继续去优化这个工作流。我们首先来看一下 第一个哈纹身图的一个工作流,首先把这个纹身图的这工作流丢进来。好,丢进来之后哈,我们简单来介绍一下我们这个工作流。好,下面哈是一个模型的一个加载区域,首先我们加载的和上一期视频是一模一样的哈,还是 z m g 的 turbo b f 十六,当然我们也可以去选择这个红潮的一点五 f p r, 当然还有一个是 kg 的 f p 八的一个裁剪版,然后克利普还是用的一样的千问的三杠四 b, 就 可以用中文的提示词去生成这个图片。好,下面是一个 v i e 的 一个默认编码器,往上我们还是一样,这个地方分辨率啊,比如说幺零二四乘以幺零二四,我们可以改一下, 好,改完之后就可以了,这里是添加了一个种子值啊,比如这个地方我们就可以去随机抽卡这个提示词,因为我们用的是这个千问的 三个四 b, 所以 我们是支持这个中文的描述词的。然后上面哈是我们的进行了一个优化,这个优化里面和上一次基础版是不一样的,上次基础版我们是没有这个 laura 的 哈,我们在这个优化版本里面我们加入了一个 laura, 然后往右哈,我们可以看到哈有三个 k 裁样器,这是和之前上一个版本 不一样的一个工作流的一个优化,最主要的区别就是我们加入了一个 laura, 然后就是三个 k 裁样器,这三个 k 裁样器加这个 laura, 使得我们和上一次这个纹身图它的效果会完全不一样啊,然后我们还加入了一个颜色的一个匹配,然后就开始 v a e 的 解码啊,后面就一模一样了哈,然后我们还加入了一个播放声音, 这个播放声音是调用了一个康复 u i 的 一个节点啊,生成完这个图片之后会自动去有一个提示音。好,介绍完了这个工作流,我们现在来用叉 c p t 去生成这个提示词,我们搜索 z m i 纹身图 f u i 工作流千万的三杠四 b 的 克利普,直接按中文原生理解最强哈给我们写了十条,我们粘贴到这个位置,我们按这个 ctrl 加回车键开始跑。好在跑的时候我们来看一下这个显存的一个占用啊,好,可以看到十四点五个 g 的 一个显存占用,可以说对显存的要求还是很高的哈, 因为我们现在哈加载的是 turbo bf 十六的一个方案,如果我们加载是 f p 八,那只需要十二 g 显存就可以,我们建议哈,我们上一次节目已经建议大家用这个 bf 十六,也就是说你们想要获得很好的效果, 建议显卡必须有十六 g 的 显存。好,我们来看一下第一张图生成出来的一个效果。好,这是第一张图生成出来的一个效果,非常非常自然,这张图拿去去发小红书哦, 完全没有任何问题,我自己是看不出来这张图的真假的,太过真实了,你看这个皮肤的这种真实的,这种质感,还有这种纹理,哇,太强了,它生成出来的人像是比 flex 二好,非常非常多。 flex 二它生成出来东西有 ai 感,有油腻感,总之就是 flex 二生成人像是没有这个 ai 级好的, 但 zimg 在 除了人像之外的其他领域,它是没有这个 flex 二号的。好,接下来我们开始测试第二个提示词,好,我们粘贴一下,好,我们可以看后台生成的一个时间。好,十七秒,上一个我们看一下,上一个是十六秒, 十六点九秒哈,一共就是十七秒的时间,可以生成一张图片,这个速度可以说是非常非常快。好,我们来看一下第二张的一个效果,哇,这个灯打在这个雨上哈,这种光感 还是可以的啊。我们看第三张,第三张他说的是一个二次元插画风,还行吧哈,我们再来看第四个,一名穿着中世纪重型铠甲的战士,全身站立,铠甲结构复杂,金属质感强,可以看一下这个金属的质感 好,往上看也可以看到哈这个细节,包括这个雕刻哈,我们现在这个工作流和上次哈,我们生成出来的这种金属质感就要好特别多了哈,如果你们不知道哈,可以去翻一下我们上一期 zm 和 flex 二的一个对比哈, 那一期我们讲了这个 z m i g 它的一个金属质感的一个效果,宏大的幻想世界,漂浮的岛屿,远景清晰,天空层次丰富, 云海翻滚,史诗级的大片,我们来看一下它生成出来的图片是怎样的。这张图我可太喜欢了,有一点宫崎骏的那个动画片的感觉了,很有想象力啊。这张图片。好,我们放大来看一下这个细节啊, 细节还是比较模糊的,我们可以把这个分辨率去提高,我们来看一下用同样提示词,我们把这个分辨率提高到什么程度。我们这个显卡可以跑好,四 k 乘四 k, 我 们来看一下四 k 能不能跑三百五十四秒,用了六分钟的时间,但是生成出来的是一个有问题的图片,灰的,也就是说是生成失败的。好,现在我们来测试一下这个分辨率的一个极限,我们改到两千试一下。 好,一共用时五十二秒。这次是生成成功了,但是他生成出来东西就很奇怪了,非常非常奇怪就不对了,也就是说你这个分辨率如果调的过于大了之后,他这个就不大行了。 好,第六类啊,产品商业图啊,这种产品的这种光影,还有这个手机的这种按钮。好,我们紧接着测试下一张。好,下一个分类啊,暗黑艺术风格,我们复制代码可以看到我们这个工作流生成出来这种氛围感, 之前那个基础版哈的工作流确实要好很多啊。好,现在我们再测试下一张科幻题材。好,我们来看一下科幻风格的一个效果,有点像我们的这种企业宣传片啊,这种 u h d 的 这种感觉,它前面会有这种电脑,然后是一个蓝色的哈, u h d 的 风格。好,我们再测试下一张自然光 真实感,你要说这个很自然吧,我觉得这个地方还是很假的,包括这个书啊,我觉得也很假,包括这个阳光,这个光完全是没有 flex 二好的, flex 二的光影吊打这个 zm 九。好,我们来看一下最后一张的效果, 最后一张还可以。好,我们可以放大来看一下,这个眼睛稍微还是有点问题的,看到没有,这个眼球还是有点问题的。除了这个自然度啊,就是深层的这个人像自然度比这个 flex 二好之外啊, 其他的我该深挖的哈,该优化的工作流我都全部优化了,即使是优化之后,我觉得他 和 flex 二也是有很大的差距的,除了做人像,我建议啊,除了做人像,大家都去用 flex 二,如果是做这个人像,那我们就用这个 zim 机。好,现在这个工作流专门用来跑人像是没有问题的啊。好,以上啊,就是我们关于这个纹身图的部分, zim 的 优化版本的工作流的介绍, 接下来我们关掉这个纹身图,我们来开始介绍第二个工作流。好,丢进来之后啊,我们简单介绍一下,这里上传图片, 然后这里是提示词,然后这里加载了一个 ctrl alt。 啊,就上一次我们讲的这个 ctrl alt, 然后这个地方是加载的 zim 的 官方的 ctrl alt。 加载之后,这边一样的哈,会有两个裁剪器保存图片,然后有个图像对比。好,我们让这个签字 cpt 写十个啊, 图升图的一个效果。好,图,升图提示词。好,我们来看一下第一张生成的时间,四十九秒。好,这是原图哈,然后往左边滑,确实是比之前啊,比之前我们 基础版的这个 ctrl 键要好很多,无论是皮肤啊,还是这种光泽感啊,我觉得更加细腻吧,更加细腻啊,好,我们换一张图片。好,比如说这个图片,我们点击 ctrl 加回车键跑一下,我们可以看一下显存的在用啊,十四点三个 g 的 显存在用,和纹身头基本上是一模一样啊。我们来看一下生成的一个结果,然后左右滑向 演示一下,大概是这么个效果,他会把国外的这种人脸啊,变成这种亚洲人脸,我们在上一次节目已经讲过,但是他生成出来这种图片确实是 很漂亮,但唯一有问题,我觉得他生成出来这个头发确实边缘有问题。好,紧接着我们把这个保存图像给关掉,这个节点。好,我们来看一下第三张的效果,这是原图,我们往右滑,嗯,这张图我觉得比刚刚的要好, 它这种光影感啊,自然度啊,都要好很多啊,这种图可以说看起来非常非常自然,非常像我们的摄影师拍出来的这种图片啊,他这种皮肤的这种质感,真的是 和现实世界基本上没有任何区别了啊,这就是 zam 级的强大之处啊,大家之所以这么喜欢他,就是他处理这个人像啊,确实是把这个皮肤处理的太好了, 非常非常完美,一点这种 ai 的 这种痕迹都没有。这张图如果说我在社交平台上看到哈,我不会觉得他是 ai 生成的图片,如果 ai 再进步哈,进步到可能下一代 z m i 第二代的时候,到时候我相信哈,大家都没有办法去区分 ai 生成出来的人像 和我们真实拍到的人像到底有怎么样区别了。好,我们紧接着测试下一张第四种动漫风格。好,我们粘贴一下。好,比如说这个啊,朱茵跑一下, 我觉得他的动漫风格和 flex 二哈完全没有办法比啊, flex 二的动漫风格比他好太多了, 这个动漫风格我就觉得一般吧。好,我们就不进行动漫的测试了,保留人物替换背景。我们来看一下 图片的背景替换,很漂亮啊,非常非常漂亮,而且他把这个背景直接就换成了另外一种背景,右边是黄色的色调,左边是冷色的色调,他这个融合还是非常非常自然的,我觉得是找不到什么瑕疵的。好,我们紧接着测试下一张商业摄影风格,我们复制代码。 哇,这张图太漂亮了。哇,真的太漂亮了,这张图 绝了,绝了,你看他来来做这个喜图,真的是天衣无缝,我可以说,是啊,太完美了。这张图无论是艺术感还是这个光影, 还是皮肤的自然程度,完全可以达到这种商业摄影级别,这是至今为止啊, z m i 级带给我震撼最大的一张图片, 之前的那些图片我觉得就是一些小儿科吧,至少没有给我带来那么强烈的这种心灵的震撼。但是这张图无论是从哪个层面上来讲,都已经达到了一个一流的一个商业摄影的水准。好,我们紧接着再测试下一张去 ai 的 一个测试。好,这张图就没有刚刚那张图那么惊艳了哈, 但是还可以啊,还是很漂亮的,而且啊,他整个脸型基本上都是还原到位的,没有多大的这个惊喜,但是也没什么问题啊。好,我们接着继续测试下一张,我们来看一下白天到夜晚的一个变化。好,我们左右滑向看一下。我发现啊,这个 z m g 只要是出这个人像图, 无论你怎么洗图,他都不会翻车,大不了就是有时候会给你非常强烈的这种惊喜。他有一个非常好的东西,就是他的这个下线非常非常高, 起码得有八十五分,九十分的样子哈,他的上相特别特别高,基本上可以达到九十九分的这种感觉。好,我们紧接着再测试下一张,艺术化增强,我们复制代码。我觉得哈,他这个眼神啊, 没有原图这种神韵呢,这个眼神光就完全没有了,你看原图,这个眼睛是非常非常漂亮的,就划过来之后,这个眼神就显得 没什么力量了,包括下面这个字,注意看这个字啊,包括右边这个字啊,他会重新给你给洗掉。看到没有?极限测试,我们来看一下到底有多极限啊,他说的是保持原人物比例和姿态。转为赛博朋克风格,夜景,霓虹灯,雨水反射, 电影级的个图。好,我们上传一张图片。好,我们直接用这一张吧。好,我们往右滑。好,这就是他深圳出来的一个赛博朋克的风格,我们可以看到啊,这个光影好,打过来,打到这个脸上啊,这个位置 你会运上这么一个紫色的一个颜色,那赛博朋克风的一个标准的一个颜色哈。好,我们接着测试最后一张通用的,我们复制代码。好,我们来看最后一张哈,演示完这张我们本期就全部结束了。好,这张效果的话,他会改变这个手,这个手就改变了,他没有前面的这些提示词哈,来的那么精准。 好,以上啊,就是我们今天关于这个 z m h 我 们优化版本的这个纹身图以及图片编辑啊,就是喜图 两个工作流,两个优化版的工作流的一个全部视频内容了,它的这个效果啊,是比之前没有优化的这个基础版是要好很多的。好,如果以上内容啊对你有所帮助的话,请一键三连,如果需要上面工作流的话,可以后台私我关注我,我们下期聊更多的 ai 知识。

t 隐麦这二点零实在是太高清太细节了,那么软件使用方式也非常简单,这个是咱们最近所更新的功能,在这里 ai 创作找到这里有一个批量文声图拆的 t t p t 隐麦纸,我们点击之后会跳转到这样的一个窗口,上面 填写你的 a p i, 如果没有的话点击这里进行注册,我们在这里支持多行,可以批量化进行,正正一行一个,如果说你 有十个一百个都是放在这里,那么我们生成的时候,它是实现一个多现成的批量化的一个生成,换句话说,你生成一个可能说一分钟,你生成十个大概率也是一分钟。 ok, 在 下面你可以选择 模型,目前只有这一个模型尺寸,可以根据自己的诉求进行筛选,如果没有特殊诉求的话,也可以选择 alt, 这是由模型自己决定。在下面就是你要导出的目录,还有就是保持的文件名的名称,还有就是你的图片的格式, 使用方式非常简单,我们直接点击这里有一个开始生成,它会自动的把你的指示词填充到这里,再之后我们进行查询,其实在这里查询我们可以勾选一下开始轮播,我们可以每隔五秒钟 查询一次,大概我们自己之前测试是三十秒左右,慢一点可能一分钟就能生成出来。 ok, 我 们稍微等一会, 如果等他生成成功了,我们是可以在这里查看到的。这个就是我们刚刚所设置导出的目录, 也有小伙伴会问或者在什么情况下会失败,我们自己总结可能是涉及到一些敏感的东西,或者说涉及到一些未成年人的东西,他会失败,所以说你在控制指定词的时候要注意这一块一些细节。 好,我们可以看一下他生成的效果是非常的逼真,我的天,我真不敢想象这个一张的成本只要四分钱,看到了这种风格特别的逼真,你把它拆解一下去做小红书,或者是去做抖音,去做视频号,完全可以加上一个配音,这个就是非常好的一个漫画,你 现在看他和我们上学的时候去学这种绘画,简直,你现在看他和我们上学的时候去学这种画画,现在谁先吃上 第一口螃蟹肉,谁就能挣到第一份变现的钱。 ok, 那 么这个就是他的一个使用的方式,如果说大家还有其他的问题,可以在咱们的用户群内进行进一步的沟通交流反馈,同时如果你有类似定制诉求,也可以私信我们。我是霍长亮,拜拜。祝您好好运来,今年新气象,明年生八个儿子。

掌握这十个神奇玩法,让你的 banana 也能帮你搞点这个,记得点赞保存!你读书的时候是不是学化学、历史、生物都感觉上面的字真的好难记,怎么办?直接扔给 ai, 就 像这样,让他给你生成一个包括关键要素、节点标记的信息图片, 这样学起来是不是感觉很通俗易懂呢?你还可以拿它做复习资料,也可以做职场资料,而且还可以做亲子科普提示词,在这操作耶!

一分钟教会你们怎么样搭一个这样的最基础的纹身图。工作流,首先我们要在菜单里新建一个空白的工作流, 双击空白的地方,在下拉的菜单里选择加载器,这个加载器呢,里面下拉里有你安装的所有的大模型,选择一个自己喜欢的,用鼠标左键点击这个橙色的按钮,不放,往上一拉 会出现文本编码器,然后再拉一个,选择文本编码器,然后在这个黄色的按钮上用鼠标左键拉一下,选择 k 裁样器, k 裁样器我们可以看到这里有一个正面条件和一个负面条件,把下面这个黄色的连上后面条件, 正面条件呢就是你想要什么成什么样的图片,可以在这里输入。后面呢就是你不想要什么,可以在这里输入,如果一开始你搞不明白,就输这个就好了。然后在这里蓝色的点一下,选择 va 一 解码,这个蓝色点一下,选择保存图像,然后在这里再拉一下,选择图像,这个呢宽度和高度就是你想生成的图片的宽度和高度,可以在这里设置 批量大小,就是你想生成几张图,生成的越多呢,会越卡,速度会越慢。好,然后这个地方有模型,模型是连接这个 p 传感器的模型,还有一个 va 一 连上这个 va 一 解码, 基本上这个模型就搭建好了。然后我们自己要想生成什么样的图片,我们可以在这里输入,比如说我想生成一只小狗,然后我们点击 运行它就生成了一只小狗。工作流里有一些特定的规律,我们可以看一下,像这个橙色的点,就连橙色的点, 然后紫色的、蓝色的,你可以观察一下,它们颜色都是相同的,然后包括这个文字也是相同的。那我们现在可以看一下我们纹身图一共需要几个节点呢?七个,七个节点就可以,基本上就是这样了,下课。

要 ai 的 单图编辑、双图编辑和三图编辑功能介绍?举例,我要移除这个雪人,可以在提示词区域打字描述想要的效果, 方法类似于创城市填充和 nano 版的那效果,如果不知道如何描述或者不知道需要什么效果的话,我们可以在豆包里面去描述自己想要的效果。我们把提示词复制进来直接执行就可以了, 如果有片色的话,我们去调节就可以了。画面效果其实还是 ok 的, 可以将单图编辑理解为纹身图功能,双图编辑,顾名思义就是两张照片,需要注意的是,两张照片图一对应的需要编辑的图片,也就是框选的区域, 底图就是你的照片,参考图就是图,二就是你需要作为参考的对象。比如说这里的话,我们可以去拿例会照片作为一个参考图,或者是你想要的任何东西作为参考图。 这里举例子,现在需要在照片上面添加一下雪人,我就可以用双图编辑模式去参考例会,然后我们这里就上传参考图就行了。 在底图或者图一添加参考图的雪人,如果说要效果更好更明显的话,我们就可以带着这张截图还有参考图去豆包去问这个提示词怎么写,直接复制这个提示词到 ps 里面,然后直接执行就可以了。框选画面中需要的位置 好了,这样我们就在画面中生成了一个雪人,如果感觉他有点小或者位置不对,这个时候我们还可以用单图编辑去把他的位置进行挪动,只要打字去挪动就可以。 其实三图编辑和双图编辑原理是一样的,三图编辑就是底图式图一,多了一个参考图,可以让他更能理解我们的目的和想法,这里就不做掩饰了。

hello, 小 伙伴们,我是菜鸡的老李,这一期我们来看讨论一下 ms agent 能干点什么, 就是能为你做点什么,你用来做什么。然后刚刚我把它就是叫它用本地的 comui 生成了一个教程视频,我们来围观一下。 整个过程呢进行了大概有七八次的一个调整,看一下最后一次,欢迎观看。结果 就是我教他出一个 comfyui 图声视频的一个教程视频, comfyui 图声视频教程 我是 hermes, 今天教大家用 comfyui 从纹身图到图生视频。第一步,纹身图 先加载 gimage turbo 工作流,然后填写提示词,提示词描述一张湖泊山脉风景照片,设置步数五十,尺寸一千零二十四乘一千零二十四,点击生成 图片生成成功模型生成了一张高质量湖泊风景图,色调柔和,细节丰富。这张图将作为下一部图升视频的输入底图。第二部图升视频 先加载 ltx 二图声视频工作流,然后上传刚生成的底图,填写运动提示词,描述水波流动和云朵漂移,设置帧数六十一,点击生成 视频生成完成 ltx 二模型将静态图片成功转换为动态视频,水波轻轻荡漾,白云缓缓飘动,画面效果自然流畅。 完整流程回顾整个教程分两步,第一步,用纹身图生成高质量底图,第二步,用图生视频让图片中的元素动起来。 好了,这就是 msa 整给我制作的一个教程视频 比较粗糙,大概就是利用 pdf 然后截图,然后拼凑成一个视频,再配音,配制好了,然后再看一下他制作的一个纹身视频的一个图片, 这就是他制作出来的一个底图,再利用这个图片去制作了一个视频,视频只要两秒啊,还是比较短的三秒,还有三秒就是一个水波荡漾的一个视频, 整个流程大概就是这样子一个流程,所以这就是 ms agent, 大家想要它怎么去用,就需要自自行去开发, 那么以后你就可以实现利用对话跟它叫它去给你制作一些简单的视频或不断的修改也是可以的。 然后给大家看一下我的电脑的配置吧,因为纹身图纹身视频它是利用本地的 gpu 去跑,理论上实际上还是对那个配置还是有一定的要求的。 我的配置的话也是仅仅能够生成一些比较小一点的视频, cpu 是 五七零零 x, 然后三十二 g 的 内存,显卡是四零七零太 super, 十六 g, 大家如果对本地大模型有一定追求的话,尽量还是买十六 g 以上的一个显卡,先不管它显卡的性能怎么样,但是你一定要把显卡的内存堆起来,十六 g 以上 才比较友好的去跑一些呃,量化的模型,当然你说那个要更好的体验,那肯定去到三零九零或四零九零那些高端一点的显卡, 像我这个四零七零太 super, 它也仅仅只是一个入门能用,跑大模型的话,也是 仅仅只是本地的话能跑的一个状态,你说有有多好?我建议还是 采用云端去跑更加理想一点。但是一些纹身视频跟纹身图,如果你跑的比较简单的话,其实实际上它十六 g 内存还是满足的,是可以够用的一个状态。 好了,这一期就简单的介绍一下,不知道大家的那个 m s a 准是用来做什么?大家可以讨论一下。

我敢说这是目前 comfyui 最强的电影级图身视频工作流,没有之一,你敢信吗?就这一张静态图丢进去直接变成好莱坞大片,每一个镜头的运镜、光影动作全都是 ai 自动生成的,细腻程度和真实感绝对不输专业电影团队 想要的老规矩。七十七。哈喽,大家好,今天这一期呢,给大家带来的是 cosplay 电影集纹身图和图生视频教程,无需你再找导演,只需要轻松一点就可以让你的作品堪比电影大片。那拿到这个工作游之后,直接丢 u 镜操作台就可以使用了。在拿到工作流之后呢,我们直接在这里进行上传,我们需要变成动态效果的一个图像,那这底下呢,可以直接去反推出这个图像的一个提示词,并且生成电影级别的运镜提示词。 那旁边这里就是 ai 帮我们生成好的一个提示词了,关于每一秒呢,他都会细致的描述出来,可以看到我们最后生成出来的一个效果,画面还是非常的细腻的,而且呢效果也是十分的突出,动作显 些,非常的自然和真实,光影也是恰到好处的,绝对不输于你看到的任何电影场景。如果你正在尝试制作 ai 视频,可以拿这个工作去试一试,那我们下期再见,拜拜!

你有没有这种感觉,纹身图就像开盲盒,同样的提示词,十次能出,一次能看的,剩下九次,脸崩了,手没了,背景糊成一团。不要怀疑自己,不是你写的不够多,是你写的方式根本不对。今天我教你一个方法,是我踩了无数坑才总结出来的,我叫它模块化生图。 所谓的模块化生图,就是把一张图的提示词像乐高,不用把整个房子推倒了重建,从此玄学变科学,抽卡变调试。拿人物生成图来举个例子, 如果我把提示词一整坨丢给 ai, 大 概率会崩。但我拆开写,每一块都精准。第一块,角色设定就一句话,告诉 ai 她是谁。女性,约二十二到二十五岁,体态轻盈如星沙,清冷空灵神秘, 自带星辰的孤高与遥不可及的气质。别的先不说,这样 ai 先有一个大方向。第二块,脸部特征,精致鹅蛋脸,五官清冷秀美,眉眼低垂,眼神温柔,眼尾下方有一颗银色泪痣,白皙肤色,你想让她清冷一点, 好把温柔改成清冷。只动这一个词,不用重写整段。第三发型,发饰,黑发及腰,发丝间散落着细小的星辰碎屑。想把黑发换白发,换这一个词就行,头发丝不会乱飞。第四块,服装妆容, 深蓝渐变银白的星沙长裙,裙身从胸口的深蓝色向下渐变为银白半透明,材质为多层轻薄星沙,表面布满细小的光点,光点分布疏密有致,在光线下闪烁。想让他穿铠甲还是长裙,就在这里,改脸不会跟着变。第五块,姿态动作, 这足站立于一个高台或平台边缘,双手于胸前轻轻捧住纸鹤,你看手和脚,透出一丝温柔的期许。最后,我们来生成图片,来 总结一下模块化生图到底好在哪?第一,精准控制,脸就是脸,场景就是场景,不会因为你想换件衣服,结果 ai 把脸也换了。第二,附佣率高,你这套脸部特征和服装妆容写好了,下次换个场景模块就行,一套角色设定能演十部电影。第三,也是最重要的,哪里不对?改姿态,模块脸崩, 改点不模块,你是这个角色的导演,不是抽卡赌徒,别再把 ai 当抽卡机。学会模块化,你就是给 ai 下命令的导演。我是 ai 探险家,帮你把所有 ai 的 坑踩成平地,然后画张地图交给你。

一篇顶会论文十分钟,我把它拆解成漫画汉故事。今天展示我亲手打造的自动化流程。这是我最近在做的开源项目 paper craft skills。 它的作用很简单, 把干涉的学术论文变成两种东西,精美的图解和深度的长文,全程零配一致。一键安装。我将用 ai 领域最著名的论文之一而参 sony 的 来实战演示。首先,安装复制指令,在终端里执行。现在 我的工具箱里已经装载了这两个新技能。第一个技能, paper comic, 它的任务是视觉化,把论文变成图。它内置两种风格,第一种,论文配图风,干净专业,可以直接放进你的分享里。第二种,手绘笔记风,用温暖的色彩和手帐形式记录核心思想。今天我们来点不一样的 尝试,手绘笔记,我只需要告诉他论文的名字。现在他开始工作了。第一步,全网搜索论文原文。第二步,精读文本,提炼核心概念。这个过程我们会加速处理。他正在分析 transformer 的 结构定位,元扣的焊接库的计算逻辑。他把关键信息整理成文档, 准备注入到绘图框架里。等待片刻。好了,图片生成完毕,我们来看结果。他把整个系列转换模型 用手帐的形式清晰地画了出来。从输入序列的 toker 分 布,到完 ko 的 对 ko 的 交互,每一步都讲解得非常清晰。底部的客户图解更是直观。这种图无论是用于主会分享还是自己做笔记,都一目了然。接下来是第二个技能,配方员的来者。他的任务是文本画, 把论文变成三种深度的解读稿。读完一篇论文,我可以用它快速生成。第一种故事型,适合写成通俗易懂的科普文章,就像公众号爆款文。第二种学术型,结构严谨,严格遵循背景、动机、 方法,创新的格式,可以直接用在主会汇报。第三种精炼型,三分钟树懒,只抓核心创新点,做一个精简的论文速写。更强的是,我还能让它接入开源代码进行分析,补充论文里没讲透的实线细节。这次我让它一次性生成全部三种风格,它再次启动分析流程, 但这次的重点是构建文本逻辑,这个过程同样加速完成。我们来对比一下,这是故事版,它会使用类比语言亲切写作风格非常朴素。这是学术版完全不同的风格,研究背景动机储备、知识方法讲解,每个模块都讲解的非常清楚, 甚至附带源码分析。最后是精炼型,开头就是一张核心架构图,然后用最简短的几句话带出关键。创新点是用场景焊局限性。一篇论文三种解法,这就是我打造的这套工具,通过这两个核心技能, 实现对任何一篇论文的快速图解、焊深度速写。后续我还会为他加入更多能力。如果你有什么想法,欢迎在评论区和我交流。

这是新开源的模型出的图,大家觉得怎么样? 先别急着下结论,我们今天不只看它好不好看,而是要看它到底能不能用,因为现在纹身图模型已经不是单纯拼画质了, 真正重要的是它能不能理解复杂的提示词,能不能处理细节,能不能生成文字,能不能做产品图,真实摄影、 建筑、动物、电影场景这些完全不同的内容。这次微软开源的 lens turbo 模型主打的就是快速生成,并且以远低于大型纹身图模型的训练量,达到具有竞争力的高速高质量图片生成。官方说 lens 的 蒸馏加速版只需四步就能生成图片, 并且支持最高幺四四零乘以幺四四零分辨率和多种长宽比例。所以这期我直接准备了多组提示词, 带大家做一次压力测试,并且将模型以及工作流免费分享。看完你就知道这个模型到底是只能凑个热闹,还是可以直接真正的放到 comfyui 工作流中使用。那话不多说,我们直接开始本期的内容。哈喽,大家好,最近微软刚开源一个图片生成模型啊,就是这个 lens turbo 模型, 它可以在最高幺四四零到幺四四零分辨率之间哈,也就是一千四百四乘以一千四百四。那么我们先去它的主页看一下这个模型的介绍哈,这个呢,是 comfyui 做的 lance 模型的一个合并和量化哈, 然后到时候我们就可以在这里下载同时模型呢,我在网盘也有上传。那么这个呢,就是 lance 的 官方发布地址啊,在 hack and face 上面,那么往下可以看到这个模型的一些介绍, 比如说它是三十八亿的参数,那么这个呢,可能听起来比较抽象啊,就是我们在用的时候,模型下载可能只有八个 g 左右,跟 z image turbo 差不多,而且升图的速度是很快的,如果用的是蒸馏模型的话,一张图片大概在一秒钟左右啊,我们就可以完成生成。那么接下来我们再看一下它其他的优势。首先分辨率比较灵活, 也就是在一千四乘以一千四总像素点左右哈,然后可以生成一比二到二比一的,包括十六比九的这些我去测试都是可以 在一九二零乘以一零八零分辨率之内呢,生成的图片质量都还是不错的。好吧,那么再往下呢,可以看到一些案例演示啊,这里我们来做个测试,因为这里做了翻译,所以说下面是中文,原来的内容用的是英文啊,我们先把这个复制,然后到 comui 当中给它粘贴过来哈, 然后我们来生成一个竖屏的一零二四乘以一五三六的来看看效果。可以看到这次生成我们用了两秒钟左右啊,因为步数我给了八步 turbo 模型最低可以到四步啊,如果更低可能会影响质量, 那么最终生成的这张图片可以看到就是相机的焦点是很清晰的,就是在桌面上的食物,也就薯条的旁边啊, 那么整个画面的质量是很不错的哈,那么细节也是可圈可点的。但是整张图片相比于 zeezy turbo 或者说一些闭圆的模型,比如说像吉梦这样的, 生成的图片的饱和度比较低一点,但是呢它摄影的风格在我看来很不错啊,而且细节很多,你就包括桌面的这些纹理,然后包括这些纸张,我们都能很清晰的看出来它的材质啊,放大来看的话,这些薯条也是很不错的啊,就好像每一个像素点都表达的很清晰一样, 我们也可以多来看一些其他的案例哈,那么尝试把官方的这些都拿来做个测试。那么第二个呢,就是建筑物的哈,那么把它粘贴过来,然后直接点运行就可以了, 这里看到就是一个大巴车停在公路上,然后是一个远景的拍照啊,放大来看的话,还是能发现有一点点的模糊的啊, 就比如这里的钟楼什么的,大家生成一些图片,你放大来看,发现会有这样的一些情况啊,不确定是因为刚做支持,还有一些细节没调整怎么样的,但是总体来看这个模型还是很有前景的。 那么我个人比较喜欢的一个案例,就是在吉梦当中做的一些提示词啊,就像这样的一个倒视镜的场景啊,那么同时呢,它也是支持我们中文提示词的,但是呢,它不支持中文文字的生成,大概率会出现毁掉的情况啊, 可以看到这次我们的案例当中给的就是一些中文的文字啊,然后包括一些上方的一些小标签,用的是英文,那么我们运行一下看看效果, 可以看到整个图片饱和度相对来说比较偏低,但是很偏向于那种情绪感的摄影风格啊,倒摄镜里的场景非常的清晰啊,大家可以看到啊, 这里包括远方的一些灯光什么的,然后草地也很真实,整体画面的细节都是很不错的,跟 z image turbo 我 觉得美学上我觉得会提升一点啊,但是呢,它的缺点也很明确,比如说这里的秋日到站计划,这些文字看起来没问题啊, 但是再往右看呢,这里会有一些把路过的世界什么的收藏到后视镜里,这些中文的文字大概率都是毁掉的,但是英文的一些小字表现程度是比中文要好很多的。那么除此之外呢,还有一个我在测试时候发现的缺点,就是他对人物的生成可能存在一些比例上的问题啊, 我估计有可能是数据集用到的,英文用的人物比较少,比如这里我们让他生成一个正在喝咖啡的女孩子,然后我们点运行啊, 可以看到这里给我们生成了一个正在喝咖啡的女孩子啊,因为这个模型是微软训练的,所以说数据集当中用到的女孩的面容大概率是欧美的这种风格,可能亚洲的风格也比较偏少一点。那么咖啡呢,首先他有问题,就是两个咖啡杯啊,我不确定为什么他就经常出现这样的问题。 然后再其次的话,就是人物的头部可能比较大,整体画面的比例反正在竖屏的构图上可能存在一些问题,我们多抽几张卡大家来看看啊, 你看到这张图片,人物的头部呢,也是比较突出的啊,反正我感觉就是比例上可能存在一些问题,而且你让它生成一些亚洲女孩子的话,我们可以看一下啊,就是大概这样的吧,好吧,反正真实人物上面,我觉得不如用 z image turbo 啊, 那么还有呢,就是带有中文文字的那些海报制作,现在目前的优选还是用 z image turbo, 因为它支持我们中文的生成啊。好吧,那这里呢,我们大概跑了几个案例哈,我们可以再多多来看一些哈,这里呢会有一个动物啊,一个动物的细节哈,特别是它的毛发这些,这里我们用英文的提示词来生成一张图片来看一下 哈,这是一只变色龙哈,大家可以看到它身体或者说它皮肤上面的这些纹理,还有颗粒感都是很清晰的 好吧,所以说这个模型的质量是真的不错的,那么也可以感到摄影级的一种风格。那么再来看一些复杂的场景,也就是一个教堂当中有非常多的蜡烛啊,然后包括一些镜面的镜像, 可以看到这里我们生成的个教堂的吊顶的这些灯,然后包括各种各样的蜡烛啊,可以看到画面的丰富程度是非常高的。那么横屏我们也来做一下测试。 好的,可以看到这里生成了一个横屏的图片啊,整个画面的内容,然后包括镜面的反光都是很不错的, 那么我也推荐大家下载做一下尝试啊,我们看一下它的显存占用啊,这个模型生成我一共是三十二 g 的 显存,这里用掉了,我差不多二十三 g 左右,所以说大家如果十六 g 跑的话,速度也不会很慢, 那么大概会比我慢个零点几秒吧。好吧,那么一张图片的制作,如果用 turbo 的 加速模型,可能也是在两三秒左右吧,就能完成我们一张图片的生成啊,好吧,那么接下来呢,给大家讲解一下它官方发布的几个模型, 我们主要看 comfuse 上, comfuse 有 个 lens 仓库,就是我们的模型,在 fields and versions 当中有三个,一个是 diffusion model, 也就是我们的生图用到的模型,还有一个 text encoder, 也就是文本编码模型,还有个 ve 模型 在 diffusion models 当中,然后现在目前已经上传了四个,分别是 b f 十六的,还有 f p 八量化的,那么同时呢还有一个 turbo 蒸馏的,还有未蒸馏的,那么二乘二,也就是一共四个模型,大家按需去进行选择, 前面的这两个也就名字不带 turbo 的, 这模型它生成用到的 c f g 值是五,然后步数呢大概是在二十步左右,那么步数呢,我们大概就是给到四步到八步之间, 好吧,这样生成的图片质量相对来说是不错的。那么模型的大小在这里可可以看到啊, b f 十六的模型大概是八点二一 g 左右,那么 l p 八的就是八点二一 g 的 一半,大概是五点五六 g 左右啊, 那么这些模型我们在网盘里面都有上传,大家到时候可以按需去下载一个就可以了,如果你想都做测试的话,你可以把四个都下载,这个呢就是我们的扩散去噪模型哈,在工作流当中就用 unit 加载器去进行加载。还有一个是 textencoder, 也是文本编码模型, 这个呢是跟之前的任何模型都不一样的,像我们 z image turbo, 它用的是千万的文本编码模型, flex 呢,用的是它自己的文本编码模型啊, 好吧,那么还有一些其他呢,大家可以再看看。那么现在这个愣死生图模型,它用到的文本编码模型呢是 gpt 的 oss 啊,可以看到这个编码模型比扩散去噪模型本身要大,一共十三点二 g 啊,好吧,那这个模型呢,在网盘里面也有,大家可以直接下载,而且这是一个 lp 四量化的, 变得很小了好吧,所以说这个模型它可能更倾向于在文本编码模型上面做调整。那么再往下,这里有个 ve 模型,它跟 flex two 用到的是一样的。如果说之前大家在自己的本地下载过 flex two 的 ve 模型,这个你是可以不用再下载的 好吧,它们是通用的,那一共呢就是这些模型,同时我们在网盘里面也有给大家提供,大家可以在视频的简介区,然后打开链接, 这里呢就会有一个 models 文件夹,在文件夹当中呢有 diffusion model, clip 和 vae, 那 么 diffusion model 当中有个 lens 文件夹,就是我创建的,大家在其中下载一个就可以,好吧,除非你想都尝试,那么你就全部都下载,下载完之后就放到 models 对 应的文件夹,在 comui 当中,大家可以看到有个 models 文件夹哈,打开你的 comui, 有 个 models 文件 夹,然后这里呢有 diffusion model, 然后包括我们的 clip 或者说 text encoder, 然后或者说还有个 vae 文件夹, 好吧,就是这些,大家按照网盘里面的模型名称的所在的文件夹,放到对应的位置就可以了,然后呢大家需要更新一下 kufui 哈,在我录这个视频的时候,官方 kufui 还没做支持,所以假如说大家更新完 kufui, 也就是在自己的便携包当中呢,会有一个 update 脚本, 双击这个 update comui 脚本,保证你的网络没问题,然后就能到达这样一个界面。全部更新完之后,可以看到我这里会有一个更新成功,并且对应的环境包呢,也都会给我们进行一个下载和安装,然后下载,安装完之后我们就重启 comui, 重启完之后,大家可以把网盘里面的这个 comui 文身图工作流下载,然后直接把它拖到 comui 当中,就会得到这样一个工作流哈。工作流使用的时候,首先在前面选择对应的模型,也就是我们网盘里面给大家放过的, 直接下载放到对应的位置就可以了,然后在这里呢就能选择了,选择完之后,在中间也就是 clip 文本编码器输入你想生成的内容,可以直接用中文,也可以用英文, 好吧,然后下面呢会有一个 comlatent 图像,你需要在这里设置对应的宽高,如果说你点了运行之后,它给你报错了,比如说这个加载 clip 节点,说什么 no value in length, 可能是因为你更新的太早了, comflix 现在没支持,你可以再等个半天或者一天的时间再更新, 我现在能使用是因为我安装了它的一个开发版本,好吧,可能不稳定,还在等待官方合并,所以说大家呢不用着急。那么在加载 clip 当中,这个类型一定要选 l e n s, 也就是我们这个模型对应的类型,如果说选错了的话,它会报错, 好吧,这一点大家要注意,那么其他的地方就不需要修改啊,这个彩样算法以及 c f g 归一化这两个参数都不需要修改,那么这样呢,就可以完成我们图片的制作了,好吧,那么今天这个视频呢,我们就先讲到这里,感谢大家。

对大多数景观人来说,这样的功能模块分析图每次设计排版都会用到,自己手搓又很费时间。这期视频一分钟教大家直出这样的功能模块分析图,你只用更换场景模块就行。 第一步,确定场景内容,按照我给的文字模板,只需要替换掉你所需要空间类型,我都用红色标注好了,其他文字都是风格说明,无需修改。第二步,图面生成,打开梦梦切换为图片生成模式,模型选择五点零比例选择。智能把上一步改好的文本粘贴好,点 击生成,很快一将初步功能模块分析图就做好了。第三步,细节调整,把生成的图片丢到画布里,点击图片后选择改文字, 智能识别出来后,就可以自由更改文字内容,这样就可以随时根据设计要求进行快速更改了,不用再重画整张图。如果大家想要了解更多图纸的制作,可以关注我,我是 simple 老师。