粉丝1532获赞6152

今天和大家一起学习 comfyui 的 操作方法。 comfyui 是 一款免费开源的节点式 ai 绘画视频生成工具,核心逻辑像搭积木,全程不用写代码,靠拖拽连线就能精准控制 ai 生成内容的工具。好了,这就是 comfyui 的 基本操作界面, 这些就是 comfyui 的 基本工作流。我们先来认识一下 comfyui 的 操作菜单, 版本不同,菜单样式可能也不同,但功能都是一样的。左边这里 comfui 的 图标就是 comfui 的 基本菜单,有新建、打开、保存等功能,与我们经常使用的 word 类似,就不再多说。 资产菜单就是我们文生图、文生视频等生成的文件现在是空白的,是因为我们还没有生成任何文件。节点就是我们在工作流当中需要用到的各个功能模块。 某版里边是 comui 集成的工作流文件,包含文声图文声视频、图声视频等。现在我们回到 comui 的 基本工作流,这里先教大家如何添加我们的工作流节点,在画布界面的空白处点击鼠标右键 选择添加节点,在这里找到我们第一步要添加的模型,加载节点,这样一个节点就添加好了。 第二种方法是选择左侧菜单的节点选项, 在这里也可以找到我们要添加的节点,然后鼠标左键按住拖拽的画布上即可。 直接点击我们要添加的节点也是可以的。 第三种方法是双击画布的空白处,在这里我们也可以进行添加节点的操作,添加节点时支持模糊搜索,也就是说我们只需要输入节点名开头的字符即可, 这样我们的基本工作留的节点就都添加完毕了。 回到坑翻 u i 的 工作流上,我们可以看见有不同颜色的线相互连接, 这里我们将第一个节点的模型输出连接到 k 采集器的模型输入,在连接上的时候,这条线会自动吸附, 而如果连线错误,没有连接到对应的输入输出类型的节点上,连线是不会有反应的,并且对应的节点都是灰色。第二步,我们将 clip 提示词节点连接上, 这里我们有两个 clip 文本提示编码的节点,为什么要有两个?我们看后边的 k 彩样器节点有两个对应的节点,这里也就是我们必须要知道的正向提示词和负向提示词。 我们在这里把两个文本编码节点改成正向提示词和负向提示词,方便我们后期输入。然后我们将正向提示词和负向提示词的输出节点分别连接到彩样器的正向条件和负向条件,这样提示词节点就连接完毕了。 然后我们继续将彩样器的 latent 图像输入连接到下边的 latent 输出,然后将彩样器的 latent 输出连接到 v a e 解码的 latent 输入。再将 v a e 解码的图像输出连接到保存图像节点的图像输入。 最后将模型加载器的 v a e 输出连接到 v a e 解码的 v a e 输入。这样一个基本的工作流我们就制作完毕了。怎么样,是不是很简单?然后我们回到上边的基本工作流上,点击一下右上角的运行, 这里我们只需要等待工作流运行完毕即可,这样我们就生成了第一张 comfyey 的 纹身图。图片怎么样?是不是很简单?快回去试一下吧!

一款软件彻底玩转所有 ai 功能,官方正版还免费,你只需要三步就搞定!已下载二、解压三、双击打开,不用装插件,不用配环境,直接就能用!支持 windows、 mac 和 linux 多种系统和硬件环境。 这还不够呦,我已经帮你把它内置的五十六个 ai 功能全调通了,全程不用你动手,哪怕你完全不懂 ai 是 啥也没关系,照样能轻松玩起来。想画图点一下就行,想做视频再点一下就好,想创作音乐还是点一下的事, 就算要搞三 d 建模,也只是点一下的功夫呀!这可不是什么野鸡套盒网站,而是全球公认最丰富还最贴近生产力的免费开源 ai 软件 topui 哦! 你用它就能玩遍所有叫得上名的国内外最新最前沿的 ai 功能!或许呢,你早就听过它的名字,但今天真的绝对值得重新认识它,因为它变了,变得比以前有好多了!它就是 comui 官方新推出的全新版本, 其中有三点尤其利好咱们中国用户朋友,特别贴心。首先,全中文官方界面,大家注意哦,这可不是第三方翻译插件,是官方正版,原声就支持中文多了,性能还稳,可能性也更高。 连做翻译插件的大佬都直呼有救了。英文不好的朋友,入门的第一道坎,官方直接就帮你摆平了,是不是超省心? 第二呢,新版 comfyui 官方直接筛选了五十六个在 ai 史上留下过浓墨重彩的经典 ai 功能,做成模板,放进了工作流预览那里了。从 ai 绘画的纹身图图声图、扩图高清放大,局部重绘区域,控制 好 ai 视频的纹身视频、浮生视频,首尾帧过度动画,甚至连三 d 建模,音乐音效创作都有,真的应有尽有,你以为这就完了,官方还直接提供了一键安装包,点一下运行直接就能用。 那接下来的话呢,我就带着大家来从 caviar 最初始的部署开始,来部署到我们的本地电脑,那我已经把咱们需要用到的安装包和操作文档都已经打包好了,同时的话呢,有一些主要的电脑配置要求也会给到大家,那如果你是第一次接触到 caviar 的 话,那就可以跟着我的视频一步一步来进行。 那么在我们部署 caviar 之前呢,首先我们还需要去检查一下咱们系统的配置啊,我们可以通过右键点击 windows 的 菜单栏,然后的话呢,点击我们的任务管理器, 打开任务管理器之后,我们点击到性能的这个列表当中,我们就可以看到自己设备的整个的一个情况啊,包括 gpu 的 显存,然后包括的话自己的内存, ok, 好 的,那么这个的话呢,是第一步我们要检查一下咱们的一个设备,这是 comfyui 的 推荐配置啊,那当然如果你想要跑的更好一些的话,内存的数量要更高,或者是显存的数量更高才可以, 同时的话呢,硬盘最好能够控于有三百 gb 以上的这样的一个空间啊。那么在检查完了系统配置之后,我们就来安装一下必要的软件啊,我这边推荐的是 comfyui 官方的一键安装包,打开我给大家准备好的 comfyui 官方安装包文件夹,鼠标双击一下这个程序图标,接着按照提示一步一步的安装就可以, 它会弹出一个选定安装程序位置的弹窗,在这里我们选择一个宽裕一点的磁盘进行安装就可以,以我这里为例,我就安装在 d 盘了。安装路径选好了之后,我们接着点击这里的安装,它就会显示 comfyui 正在安装,请稍等,最后等待它安装完毕,我们点击完成就可以了。 这个时候呢,我们来到电脑桌面,双击一下 comfyui 的 这个图标,它就会跳出一个 comfyui get started, 接着会出现这么一个窗口,我们选择 nvidia, 接着点击下一步, 这个时候我们还是选择刚刚安装 configui 程序的那个的位置路径。到这里很多小伙伴们会疑惑,这是要安装什么呢?其实这一步就是要部署 configui 真正运行下来的环境依赖,接着我们点击下一步,这里我们直接保持默认就可以, 它就是一个保持程序自动更新和反馈你在使用软件过程中遇到的问题,方便 configui 官方改进产品,其实就是对新手习惯的功能自动帮助更新。 我们点击下一步,到这里, ctrl u i 就 会自动帮你安装运行程序所要所有环境依赖,等待它安装完成就可以。在这里我要做个提醒一下哈,就是你的电脑全程要有魔法哈,这样在安装过程中,软件要用到的环境依赖才能顺利下载到你的电脑本地,否则可能会遇到下载失败或者卡住等问题。 最后安装完成之后会出现这么一个界面,这些都是 comfyui 官方在里面内置的一百多条经过社区和广大用户验证,拿到过巨大成果的工作流,其中包括图像、视频、音频、三 d 模型等等等等。那么到这里恭喜你,你已经把 comfyui 成功部署到你的本地电脑了,是不是很简单, cosui 部署成功之后,我们该怎么用起来呢?接着我们来到这边,点击一下这个模板的图标,也就是一开始安装成功时弹出来的界面,我们点击视频生成,这里面很多都是通用万象视频开源模型的一些好用的经过广大社区大佬验证过的工作流, 我们选择其中一条来体验一下。这里我们找到万象二点二图生视频来带大家来体验一下。找到这个 one 二点二十四 b 图像到视频工作流点击一下,这时我们会看到一个缺失模型的一个提示弹窗,小伙伴们不要慌哈,我们挨个挨个的点击下载就可以了,你 不用管它具体放置在哪里,直接点击下载就可以了,等待模型下载完成之后,我们就可以愉快的玩耍了。怎么样,小伙伴们是不是 so easy? 这还没完哈,这次 comfyui 还有个重大功能,升级官方签约 api, 简单说,你只需要注册一个 comfyui 官方账号,再充点值,就能在 comfyui 里直接调用所有付费 api 了。而且 comfyui 还承诺所有 api 费用和 openai、 nano、 banana 等各大官方平台的报价完全一致, 没有任何中间商赚差价,用起来特方便,一点不麻烦。时间有限,更多细节我就不展开说了哈,本期视频用到的安装包,电脑配置说明和操作文档我放在了评论区了,绝无套路,点进去就能下,要是实在找不到的话就在评论区发。六六六,我看到了就直接发给你。哈 喽,大家好,欢迎来到本期的康复 y 教学,那么这节课是第二节,咱们一起来学习康复 y 最基本的框架以及最基础的生图工作流。 开始之前,关于如何安装康复 ui 这一点咱们提一下,至于现在网上已经有非常多的安装教程,那我这边也就不再过多赘述了,咱们待会直接切入主题。 不过呢,想要本套课程安装过来,小伙伴可以在评论区内获取。 ok, 在 咱们安装并打开康复 ui 之后,我相信大家跟我看到的都是一样哎,都是这个默认的工作流界面,咱们现在滑动鼠标滚轮进行放大或缩小,对吧?接着现在我们按住鼠标滚轮 按下去,我们就可以发现了,咱们是不是可以拖动屏幕了。好,那么恭喜你掌握了两种最基本的操作方式。接着咱们看到这工作流,它是不是由一个一个的 节点构成的?啥是节点呢?这一个呢,我们也称为节点,这一个也是节点,这个也是,对吧?而节点与节点之间它能通过线连接,咱们细心观察可以发现,哎,这个粉色的按钮要连哪啊? 连的是另外一个节点的粉色按钮。继续看,比方说像这个什么 ve 解码的这个 图像啊,蓝色按钮,那它连接的也是哎,这个保存图像的蓝色按钮。好的,那么现在我们最基本的 节点与节点之间是如何连接的?稍微参透了一点点,再继续深入之前,我们先看到右上角有一个直行点击一下,那么这个东西就好像咱们的双图按钮,点击了之后 等待个几秒到数十秒啊,这个等待时间就会有小伙伴们的设备来决定。我们可以看到现在生成了一张图像,对吧?那么生成这张图像的速度 和大家的显卡性能有关,我这边还是比较推荐大家,至少要三零六零级以上。当然如果说你没有这么好的硬件设备,我们也可以用云端嘛,对吧?比方说现在什么 libai, 什么端脑之类的, 有很多可以在线生图的平台,那这个我们放在第五节课中会提到。接着我们重新回到这张图片,咱们可以看到啊,它是一个装着星云,装着 紫色森林的瓶子,以及它的背景是树林,对吧?问题来了,凭什么它生成的内容是这一些,而不是一头大象呼噜做一只小猫呢?那这边呢,咱们就要看到正向提摄词, 啥是正向提示词啊?细心观察可以发现这边有一个正面条件,那正面条件这根线连出去的这个框框,哎,这个叫做什么? c l i p 文本编码器,咱们称之为颗粒文本编码器, 那么在这边输入的内容就被称为正向提示词内容,也就是我们想要什么就在这边输入什么。 咱们可以来做个简单的小实验,大家看我们把这些词汇啊给删去,然后输入一座花园。注意啊,这边一定要输入的是英文, 如果是中文的话,那么电脑将无法识别,从而生成错乱的图片。好,那么在我们输入完一座花园之后,就点击执行。现在我们可以看到生成的图像是不是成功变成了花园呢? 简直是像魔法一般神奇。那当然,现在我们称之为魔法是因为不懂背后的运行逻辑嘛。等到我们学完第三第四节课,也就是 ai 生成背后的运行原理之后,我们就知道这一切不是魔法,而是科学的结晶。 好的,那么在我们说完正向提示词之后,我们来说一说,它的对角叫做反向提示词,也称为负向提示词,想想在哪输入吧,看到正面条件的下面有一个负面条件,那当然就是在这儿所连线的框框, 也就是这个 clip 文本编码器输入咱们的负向提示词,非常好理解嘛,咱们刚才这个就是想要什么就输入什么, 那副像提示词呢?该怎么理解?哎,其实和刚刚说的相反,就是我们不想要什么,就在副像提示词文本框内输入什么。哎呀,堡主,我还是不懂啊。好,我这边来举个小例子, 比方咱们看到刚才生成这张图像吧,怎么样啊?是不是有非常多的花哎,有粉的,红的、紫的,各式各样。那如果我们现在不想要 图片中的花儿占比这么多的话,那么我们就在复向提示词中输入花朵,那花朵怎么拼啊?就 flower 嘛。当然,若是好朋友们在园上遇到任何问题,我们都可以用翻译嘛,对吧?比方这个 有道翻译我就挺喜欢的,非常便捷。 ok, 这边是纯推荐,还不是广告。好,我们接下来就点击执行,哎,现在咱发现了没有, 图片中花朵的元素是不是降低了很多?比方我们再次点击执行来看一下,对吧?经过两次实验,图片中的花朵确实是比例明显变少了,但是并不是说完全消除, 那这也正如我刚才所说,负面提示词啊,它所做的更多是消除我们输入的东西在画面中的比例,哎,在画面中的权重, 但是完全根除的话,这需要其他操作,我们接下来的课程中会提到, ok, 那 么现在学习完正负相提示词,我们再来看一下连接正负相提示词的这一个叫 k 采氧器,那么它呀,我们可以理解成就好像 人体的大脑,它控制的整个工作流,哎,不但发现基本上所有的节点都会集到了 k 采氧器里, 然后这些所有的数据啊,参数啊汇聚到这之后,经过 k 彩样器内部的运算,然后最终才得出了我们的 ai 图像。 至于背后的生图逻辑,哎,我们下一节第三节在纹身图以及背后的运行原理中会详细展开,那么这边我们先大概了解一下就好。接着我们来看到这个 k 彩样器啊,它有个叫做 layton 的 线,往下看连到了一个叫空 layton 的 节点, 再看看这空来腾他是干啥用的呀?我相信关于这个名词不能说百分百吧,百分之九十九的小伙伴应该都是非常的困惑的。好,那么我们在学习一个新东西的时候, 我们可以看一下它的参数,咱们一起来研究一下。首先它一共有三个参数嘛,分别是宽度,高度,还有皮尺大小,对吧?那现在是不是豁然开朗这个节点呢? 就是控制我们最终生成图像尺寸啊,比例啊,图片整体像素的一个节点。比如我们把这宽度给改成七百六十八,相当于此时的宽高比为二比三嘛, 然后咱们点击直行怎么样啊?最终升图是不是非常简单的就被修改成了竖屏比例?那么同样的比方,我们把这个宽度给改成七百六十八,然后把高度改成五百一十二, 此时咱们再点击直行,就可以看到图片也是非常顺利的变成了横屏比例。而关于最后一个参数,也就是 comlayton 的 p 四大小,这一个我们是不是还有点疑虑?好,那么咱们就来尝试一下嘛,比方把它给改成个四吧,具体会发生什么我们待会才知道,咱们只管点击直行就好。 ok, 我 们来看一下 发生了什么变化吗?咱们看到这个保存图像节点的右下方出现了一个四分之一,对吧?哎,并且这边有个交叉按钮,咱们点击一下,哦,发现原来呀,刚才的 p 四大小代表着一次性 出多少张图片,对吧?像刚才我们复制成四,那么此时呢,也就是一次性出了四张图片。比方说我们在需要进行大批量生图的时候, 或者说在测试某一个参数的影响,那么我们就可以把这个空内存的批次给调高一些。不过如果说批次大小过高,比方说三十、四十甚至是一百, 那么就有可能会出现报显存的情况,如果大家不幸遇到了报显存,那么我们重启一下,康复以外就好。好了,我们来看一下,现在啊,咱们已经把正向提示词还有反向提示词的文本编码器都讲了嘛,以及 k 太阳器空内存也讲了,还有哪个没讲呢? 那就是 checkpoint 加载器嘛,咱们把目光看到这儿,可以发现啊,它是不是有点像一切的源头,非常多的线都连到了这个节点上,这代表着它有非常重要的地位。也确实,我们在 checkpoint 加载器里面加载的就是大模型, 我相信这个名词大家或多或少都听说过。那么啥是大模型呢?咱们可以这么简单的去理解,大模型可以控制整体的出图基调,比方说有了大模型是全能系,有了大模型是真实系,有了大模型是动漫系。 咱们现在把大模型给换成一个动漫类大模型,接着什么参数都不用调,直接点击直行来看一下,单单修改一个大模型,会对我们最终出图效果发生什么样的变化。好的,现在我们不难发现, 图片呢,是不是整体风格都变成了偏动漫或者说非写实的风格?那么我们现在重新看到大模型,咱现在再换一个真实的大模型吧,然后再点击执行,是不是感觉到画风一转呢,瞬间变成了写实风格。 ok, 这就是大模型的威力,非要比喻的话,可以把它想象成人体的意识,啥意思呢?如果我整天哎只想着色色的事情,那么我最终出图啊,咱们最终的成品必然也是和色色有关。那如果说我整天想的是非常正能量,积极向上的事情, 那咱们的最终成品也必然会啊,你懂吧? ok, 之后我们来看到这个 v e 解码,它呀就好像一个转换接头,可以把咱们的 latent 图像变成像素空间图像,那具体是啥意思?我们放在下节课去讲。 接下来比方说啊,我们不小心把这个 v e 解码给删去了,哎,对吧?删去了之后我们该如何去添加呢?一共有多种方法,一个就是摁 ctrl z, 哎, 咱们就可以回到上一步的操作。好的,现在我们再把它给删去。还有种方法就是我们在 k 采集器的后边 laten, 哎,咱们把它给拖出来,然后松开鼠标,看到这个 v a e d code 怎么样啊?它是不是又重新出现了?接着我们只需要把它的图像与 原来的保存图像相连,然后这个 v a e 又是个新名词,把这个 v a e 连接在哪,咱们可以找一找。哪有红色的输出呢?那就是 print 加载器嘛。 我知道小伙伴们现在可能有非常多困惑,但是都不用着急,因为我们本节课主要教的是基础的操作嘛,至于接下来的,比方说参数啊,或者说他们背后的逻辑,我们会在后边揭晓。好的,那么刚才我们讲完了第二种添加这个 ve 解码的方法, 那么还有第三种方法是啥呢?我们可以双击界面,哎,此时啊,出现了一个搜索节点栏,那么我们可以在这边输入,想要查找节点的名字,那咱们就搜 v a e 解码,可以看到这边也是有非常多的选项,对吧?咱们选择第一个啊, 可以看到 v a e 解码,点击一下,它就这么出现在了我们画面之中,接下来也是与其他节点相连,即可恢复成原来的样子。 好的,那么第三种方法讲完了之后啊,我们来看一下第四种方法,我们同样的把鼠标放在空白处,摁一下右键, 接着看到这一个添加节点按钮,点击一下,随后我们找到 later, 同样的点击一下后,就可以发现咱们的 v a e 解码在这边出现了,对吧?接下来只需要再次点击,那么他就重新出现在了工作流之中。不过我们也能发现这第四种方法非常的繁琐, 一般情况下我们都是直接搜索即可。那当然啊,其实还有第五种方法啊,我这边也说了,因为这节课是基础操作课嘛,咱们就把这些最基础的给讲透,我们把目光看到左边有一个像字典一样的东西啊,点击一下,那么这个东西啊,它是存放所有节点的地方, 我们同样的可以在这边搜索节点,输入 v a e, 然后就可以看到各个节点包里面和 v a e, 也就是咱们相关输入的词汇有关的节点,那么我们也不难发现 v a e 节点码在最上边,对吧?同样的点击一下,就可以看到它又再次出现在了工作流之中。那么以上啊,就是五种常见的加载节点的方式, 而正如我刚才所说,咱们平时啊最方便最实用的方法就直接双击界面,然后搜索 v a e 即可,这是一种,还有一种就是直接来到,比方说像这个 laten 吧,拖出来可以看到在这个默认的加载节点里面有 v a e 解码的话, 点击一下,那么他是不是也非常快速的就被加载出来了?那么以上两种方法是最常用的,大家稍微记一下即可。好,既然我们看到左边,我们就继续顺着左边来看一下这些东西都代表了什么吧。 首先上面这一个像时钟一样的点击一下,可以发现了咱们之前生成的队列,哎,也就是咱们所执行的任务都在这边出现了, 比方啊,像这一个下面有个四的脚标,代表着一次性出了四张图,对吧?咱们可以点击一下,这一次任务所生成的四张图就会被展开。好,我们在队列的返回按钮点击一下,咱们就可以回到刚才的队列预览界面。那接着我们来看一下这一个小小的立方体啊, 它代表什么?这一个是我们存放模型的地方,比方说像什么大模型啊, lora 啊,什么 control 内模型都可以在这边显示。 那具体像我刚才说那些名词,他们代表了什么,也是在之后的课程中咱们会逐一揭晓。那顺着这个立方体往下看,有个文件夹对吧?那这个文件夹就是我们存放工作流的地方。这边又要衍生出个问题了,比如说吧,我们现在这一套工作流想把它给保存下来,怎么保存呢? 我们同样的也是看到左上角有一个工作流,点击一下,随后咱们可以点击保存后的另存为咱们先点下保存吧,接着编辑一下工作的名字,比方说第二节课 点击确认怎么样啊?咱们刚才保存的工作流是不是就到了这,对吧,下次想要调用的时候,我们只需要双击,或者说,哎,把它给拖出来,拖到空白处就可以重新加载咱们保存的工作流。好的,我们顺着文件夹往下看,有一个月亮按钮, 点击一下,那么整体的风格就会变白,变得明亮,对吧?再点击一下,又会回到刚才的深色风格。 ok, 那 现在重要的来了,看到这个齿轮,也就是设置嘛,我们可以在这边来调整咱们的界面语言, 我们看到这个 comfy 的 区域设置,在这里就可以调整相关语言了,当然你想要英语或中文,或者说什么其他语言都, 那我这边也是选择了中文。好的,接下来我们看到这个 comfy 下面的画面,点击一下,随后我们看到连线渲染样式,那这边我们可以选择曲线或者说其他的线型, 比方说直线吧,咱们点击一下,接着就可以看到,此时啊,怎么样界面的所有连线都变成了直线,对吧?直来直去的,那这一个就根据大家的个人喜好来进行调整了吗? ok, 我 们重新回到刚才的画面,那我这边也是先保持直线吧, 觉得直线会更为直观一点,更方便大家去辨认哪一个节点连接的哪个地方。 ok, 接下来我们看到画面下边的外观,那么在这边我们可以调整色彩主题, 也就是美化咱们的界面吧,那么我相信大家刚和我进来的时候都是这个 duck, 也就是默认选项,我们可以调成明亮的风格,也可以调成这个 蓝色调或者黑色调。 ok, 我 还是调回默认模式,接着可以看到下面有一个节点不透明度,那这个参数比较重要,因为啊,比方说我们看到这套工作流吧,如果我们把 v a e 解码不小心放在了这个 k 采暖器的后面, 我们就压根看不见了,对吧?而节点一多,就有可能会出现这种节点之间相互遮挡的情况,从而增加我们构建工作流的难度,那么我们就可以回到刚才的节点之间相互遮挡的难度,那么我们就可以回到刚才的节点不透明度,把它给设置成 零点四,当然更低也行,那么此时我们就可以看到,哎,可以透过 k 采集器看到下边的 v e 解码节点了,对吧?这样我们在构建工作流的时候会更加的 轻松愉快。 ok, 咱们再讲一个小知识点,比方说吧,像我们刚才是不是新添了这一堆节点啊?咱现在不想要了怎么办?我们当然可以一个一个节点的这样去删除, 我们也可以摁住 ctrl 键,然后再摁住鼠标左键,哎,这样子就可以框选节点,接着再摁键盘上的 delete 键,就可以做到驱选删除。而同时比方说我们现在驱选这一套工作流, 我想同时拖动这么多节点的话,直接摁住鼠标左键就可以进行整体拖动了。而如果说我们想升图的时候,我们除了直接点击执行, 我们也可以摁 ctrl 加 enter 键,这样就可以做到快捷的图片生成。好的,那么以上啊,就是关于本期的全部内容了,那么这节课我们一起来学习一下文生图以及它背后的生图逻辑。首先我们来到 comfory 的 界面,那么映入眼帘的就是我们上节课的默认工作流, 咱们之前啊,是不是已经了解了这套工作流里面每一个节点的大概值能究竟是啥?那么接下来我们就一起看看它们究竟是如何完成它们这些值能的。比方说像这个 click 文本编码器,它是怎么做到把这个文字哎,最终可以通过 k 采暖器 转化成相应图片。 ok, 首先我们看到这张它呀是 ai 生图的最基本框架,从左边开始看起,分别有 prompt 以及 negative。 prompt 啥意思呢?正向提示词以及负向提示词嘛?接着这两个东西会被传入到 ai 模型中,也就是 ai model, 在 这里经过运算,最终生成了咱们想要的图像。好完结哈,那这个确实是大体上正确的,非常笼统的概括咱们 ai 生图的逻辑。 接下来我们就从这个正负相求函数看起吧。回到刚才的工作流,咱们可以看到正负相求函数书在哪呢? clip 文本编码器嘛?而这个文本编码器的 clip, 它到底是什么意思?为了能够弄清楚这一点,我们再来看看这张图, 这张图里我们可以看到有一堆英文啊, ok, 不 用害怕,我们一起来看看它们代表的是什么意思。好吧,首先我们看到左上角这边啊,有咱们稍微熟悉一点的东西,啥呢?可以看到分别有什么 mountain landscape, 什么 external riding a horse, 什么 intergalactic goldfish, 这些东西不就是我们的正向题词吗?对吧?比方说像第一个就是与山有关的景观,那第二个就是宇航员骑着一匹马嘛。 接着我们顺着后面的箭头看到他们被送往了哪呢?他们被送往了一个叫做 transformer 的 东西,而这个 transformer 它出自于二零一七年的一篇论文 attention is all you need。 那 么这篇论文也是 ai 史上重要的里程碑。不过我们这边先不展开来讲,回到刚才的图片,具体它是干啥用的呢?这个 transformer, 哎,在弄懂这个之前,我们可以来看看 transformer 后面这个箭头输出了个啥,输出了一堆数字,还有中括号,对吧? 这一些,哎,咱们看到他们呢,代表的是叫做特征向量,所以我们 transform 的 作用就是把我们输入的文本通过特定的方式给转变成了这个特征向量。有小伙伴可能会说,啊,这一步有什么意义吗?当然有,咱们计算机啊,在处理文本的时候 其实是比较费劲的,就好比我现在让你翻译一大段英文,就好比我现在对你说,哎,你长得真的是跟一个姓彭于晏的人很像哦,他的名字叫彭于晏。对哦,没错,你长得和彭于晏很像。或者我直接说,哇,你长得真帅,我问你哪一个更简洁明了,更容易让你 一瞬间就懂?那肯定是第二句话吗?直接夸你帅。虽然可能第一句话听起来更好听,但是对于电脑也是这样的,你是觉得让电脑去 识别并处理一大段英文或中文容易,还是让它处理一段蕴涵着这些文本信息的数字容易?那毋庸置疑,绝对是处理数字对电脑来说更容易一些。 ok, 那 么我们这个 transformer 在 其中就扮演着类似于转换器一样的作用,它识别文本,并把它们转化成特征向量,这就是它最重要的作用。而在这一套流程中,这些哎就是属于 clipp 模型所包含的内容。 好,接下来我们回到刚才的图片,还记得刚才的流程吗?咱们在文本编码器内输入完文字后,会由 transform 转换成什么呢?转换成特登项链,而特登项链 就好像一个蕴涵着非常多信息的浓缩小盒子啊,它就像个小压缩包,那这个压缩包呢?它被传入到了哪?它被传入到了这个 k 裁剪器里,哎,最终在 k 裁剪器内进行相关计算,那具体的流程我们待会也会提到。好的,我们回到刚才这张图片,那么之前讲了上半部分叫做 文本编码,目的呢就是把我们的文本转化成特征向量,也就是把它给简化,那下半部分叫做 图像编码。哎,咱们看到左下角是不是有一堆图片呢?那这些图片呢?咱们称他们为训练级,大家可以想想看,咱们康复一个工作流中,哪里会包含着训练级呢?哎,那必然就是咱们大模型了吗? de future model, 扩散模型,比方说有大模型是二次元风格,那必然他的训练级 大部分内容都是用的二次元图片来进行训练。如果说大模型是写实风格,那必然他的训练级中包含着大量的真实系图片。好的, 接下来我们顺着这个训练集哎,往后看,可以看到它一共连了两个箭头,对吧?分别是什么? v i t 和 reset, 那 这两个呢?并不是同时进行的。注意,这边代表的意思是,有的 clip 模型啊,用的是 v i t 架构,有的 clip 模型用的是 reset 架构, 但是不管克里包含的是 v i t 或者 recent, 它们的目的都只有一个,就是为了把我们的训练级干嘛呀?转化成特征向量,哎,和刚才的文本编码是不是有点像,目的呢,都是为了简化咱们的信息,让信息更好的去进行处理以及匹配嘛。好,那么现在问题又来了,问, 为什么克里普模型要做两个部分呢?对吧?上边的处理完文本之后,那下边的这个图像哎,该怎么进行配合啊? ok, 接下来我们来讲一下这个文本编码和图像编码是怎么进行配合的, 比方说我现在画一个 x y 轴,好吧,然后这个位置代表的就是与猫有关的特征,但是我们还是不知道为什么有了这些特征向量之后,就可以让 ai 知道猫是猫,狗是狗啊, 在这个位置代表的是人。此时啊,如果我想生成一张猫粮的图片,对吧?那么这个猫粮的位置应该在哪呢?大家可以思考一下,那必然就是在这个猫与人之间的范围,对吧?我们可以想象一下,比方这个猫的影响范围是这么大, 然后这个人呢?影响范围是这么大,那么我们的目标啊,也就是猫粮,那必然就是在他们这两个的交集范围内,对吧?而刚才我们的图片编码作用就是 铆定这个猫还有人他们在特征向量中的位置,从而让文本编码器编码之后的特征向量套用到图片编码之后特征向量的框架内。 ok, 我 们还是回到这张图片,现在一起来总结一下,咱们的 clip 模型一共包含着就是这一部分的内容, 那肯定有一个 transform 模型以及 v i t 或者 switch 模型啊,这两个是二者其一,而 clip 模型的主要值能就是为了干嘛? 识别文字,让文字转化成了特征向量,对吧?方便咱们电脑去理解,同时呢,他又用图像编码,哎,干嘛呀?制定了一个有关特征向量的框架,让电脑知道猫是猫,狗是狗。我知道,这么说可能还是有些小伙伴比较萌,那么我们还是回到刚才的工作流, ok, 咱们来看一下。首先呢,咱们的训练级也就是大模型嘛,包含在 checkpoint 内,那 checkpoint 会干嘛呀?看着这个 clip 的 连线,哎,它会经过 clip, 然后制定好一个框架,对吧?制定好一个 x y 坐标轴,哎,那制定好了坐标轴之后,我们输入的文本 就会经过 clip 模型变为特征向量,对吧?那特征向量就会套用在咱们的这个 x y 轴上,而这一切套用的过程 是在背后的 k 采氧器内发生的。 ok, 在 我们讲完了理论知识之后,我们来看一下实际操作吧。哎,讲解难度低一些的,我们把目光锁定在 k 采氧器上,可以看到它有非常多的参数,哎,比方说什么随机种运行后操作,什么步数? c f 矩阵,采氧器,亮度器,降噪, 哎,一共有七种参数。那首先我们从随机种讲起,这一个它就好像图片的身份证号,哎,比方说我现在把这个随机种 给输一串数字吧,六六六。接着,哎,这个运行后操作是什么意思?就是我们每次升图之后啊,这个随机种是固定呢?还是变化,是增加还是减小?那这边我们把它给设置成固定好,接下来我们点击一下执行, ok, 我 们可以看到现在这张图片是长这个样子的,那如果说我们在不改变随机种以及其他任何参数的情况下,再次点击执行的话,大家可以发现工作流会压根不动,因为呢他们所生成的图片是完全一样的。那至于这个随机种是如何做到这一点,像一个身份证一样 与图片进行绑定,我们稍后会讲。接着我们看到下面的步数,那这个步数它代表的就是降噪的次数, 鞋带一共分了多少步嘛?大家可以想象一下我们这个 stabil fusion, 它的生图的过程啊,就好像给一块脏玻璃用抹布进行擦拭,当然你擦拭的越多,那么图片也会越清晰,细节也会越多,对吧?那这边我们步数设置成二十,就相当于给这块暗藏的玻璃擦了二十下。 如果说我们把步数给设置成五的话,我们来看一下此时又会发生什么样的变化。咱们可以看到这张图片怎么样啊?是不是细节明显比刚才少了很多,那如果说我们更低哎,把这个步数设置成二的话,咱们再次点击执行, 咱们可以看到图片是不是一片模糊啊?那反之同理,如果我们步数设置成四十,那么此时啊咱们这一块玻璃就会被擦的非常干净,对吧?我们可以看到那细节纹理都会多非常多, 当然过高的步数不总是好的,大家可以想象一下,咱们一块玻璃,你说擦一百次跟擦两百次有很大区别吗?没有啊,基本上所有的灰尘都被擦干净了吧。咱们康复预约也一样,步数一般到了四十步往上就不会有过多的变化。比方我们现在看一下,把步数设置成六十步吧,来 点击生图怎么样?是不是和刚才几乎没有区别,但是却增加了百分之五十的生图时间,对吧?因为他多了二十步嘛,我们原来是四十步, 步数越多,那么生图时间也会越久。而我们一般生图把步数设置在二十到三十步之间即可,我这边就设置个二十五步。那下面的 c f 居值又是个新东西嘛,它的作用主要是为了控制咱们最终图像与提示词的匹配程度。 比方说咱们 c f 居值越高,则代表着咱们最终生成的图像与关键词也就越匹配,哎,意思也就越相近。那如果说我们 c f 居值过低的话,就会让 ai 有 更多的自由发挥空间,意思也就是与关键词 匹配程度也会下降。比方我们把这个 c f 居值设置成四百,点击升图,咱们可以发现最终图像怎么样啊?感觉整体色调变灰了,对吧?那这也是 c f 居值过低带来的负面影响。由于我这边因为输入的元素不是很多,当我们输入提示词, 比方说二十个、三十个的时候,那么 c f 居值的表现会更为明显。那此时如果我们继续把 c f 居值降低,比方说设置成一,我们来看一下会带来什么样不好的后果。 大家可以看到整体图像变得更灰了,对吧?并且图像多多少少都会有一些变形,但当我们 cf 值过高,也会有不好的影响,比方我们设置成十五吧,点击执行,大家可以看到这张图的出图质量怎么样?很糟糕 哎,感觉它清晰度远远比 cf 值为七为八的时候要低得多,我们可以对比一下,咱们把此时的 cf 值设置为七为八的时候要低的多,我们可以对比一下。咱们把此时的 cf 值设置为七为八的时候要低的多,我们可以对比一下,咱们的这个 紫色星云屏,又恢复了原有的清晰度,对吧?而我们的正常的升图过程中, c f g 值一般设置为五到八即可,大家可以稍微记一下。 ok, 接下来我们看到采氧器与调度器,那么这边我们一般选择的是采氧器,点开来看到 d p m p p 二 m 或者 d p m p p 二 m s d e 这两款采氧器是大家测试下来相对而言效果比较好的,咱们直接无脑选即可。 除了遇到某一些特别说明的大模型啊,就说我这一款大模型只能用 u 了,采暖器用某某调度器,哎,确实是有这样大模型,但是我们一般情况下还是用 d p m p p l m。 好 吧,那调度器的话,我们一般选择的是这个叫做 carras。 至于下面的这个降噪,我们放在下一节课图生图中,会涉及到咱们之后再讲。那么现在我相信大家应该就有些疑问了,比方说这个彩样机跟调度器,他们到底是干啥用的呀?还有为什么这个随机总可以像身份证号一样控制咱们的图像呢? 为了解答这些问题,我们再来看一张图片, ok, 那 么这是一张更为详细的 ai 生图流程,刚才我们看的只是关于 clip 的 吗? 现在这个是全流程,先看到左上角,那么这边我们再输入完 prompt, 也就是关键词之后,会被发送到 clip 模型吧。那么刚才具体的流程已经传输过了,那之后再由这个 clip 模型把咱们的文本转化为下面的这个 text in bedding 啊,这个文本嵌入这个特征向量, 那么这一组更易于电脑处理的数字信息就会被发送到这个叫做 unit 中。哈,又是个新名词,对吧?但是其实啊,咱们看到这哎,这一边最大块的所有内容其实都是属于我们的 k 彩 氧气,明白了吗?这一大块的所有内容啊,都是在 k 彩氧气内完成的。那首先我们看到这个特征向量被发送到 unit 之后, 会进行什么操作呢?会降噪嘛?但是问题来了,我们的噪声从哪来?大家都知道,咱们 stebdiffusion 用的叫做 diffusion 模型,也就是扩散模型,而扩散模型的运行机制就是为噪声图像不断地降噪,从而生成。哎,咱们的目标图像也就是一个较为清晰的图像。好, 那么现在我们就要考虑到这个噪声的添加了,以及咱们这个画布的大小,对吧?我们看到上边有位叫做 gatsby noise, 也就是高斯照射,那么这是一种无规律的照射,而这个所谓的高斯照射,他们具体的分布规律就由咱们的种子值,也就是随机种子来决定, 不同的随机种子会添加不同的高斯照射,从而会影响到我们最终生成的图像了,那么这就好像,哎,咱们在生孩子的时候啊,不同的精子与卵子结合之后,咱们生出来的比例,整个人生轨迹都会有非常大的不同, 对吧?你就好像蝴蝶效应一样。好的,那么现在啊,我们这个噪声添加已经处理完了,我们就来看一下这花波大小吧,我们上节课是不是提到了空阶呢?哎,咱们可以看到这个高斯噪声被发送到了下边的阶,而这个阶的大小我们可以在空阶中设置,我们简单的把它给理解成花波大小就行, 比方说我这花波大小,我就规定了它是一个正方形,那么噪声呢,也只会在这个正方形内添加,对吧? ok, 那 么之后啊,这个结合了高斯噪声之后的 latent 图像就在这个 unit 中,与什么呀?与我们的特征向量进行结合,而 unit 的 作用就是预测下一步降噪的图像以及减少噪声,那么之后我们也看到了 unit 降噪完之后,被降噪的雷腾图像就发送到了这一步,而这一步如果说我们循环 p c 是 二十次的话,那么就将哎经过这一个循环循环个二十次,我们可以看到这边有个橙色内容,对吧?那么这个代表的就是调度器和采暖器, 其中调度器的作用就是控制降噪的方法,而采暖器的作用就是控制降噪的程度。 ok, 于是啊,我们就这样子降噪,降噪,降噪之后经过了我们设置的迭代步数, 方说二十五次吧,那么就是加载了二十五次之后,咱们得出的这个 laten 图像就会被发送往 vae, 而这个 vae 啊,就好像一个转换插头,它可以把我们的 laten 图像变为像素空间图像,也就是我们肉眼可见的图像。那么最终,哎,就被解码出了咱们能看见的这个狗狗图片, 对吧? ok, 那 么在这一整套工作流中,我们的 clip 模型,还有这个 unit 模型以及 v a e, 一 般情况下都是由我们的大模型,也就是 diffusion 模型提供的。我们回到刚才的 control unit 流, ok, 我 们来瞅一瞅这个 drop point 加载器,它是不是有三个输出, 分别是模型输出, clip 输出以及 v a e 输出。那这个模型输出指的就是这个 unit 嘛,对吧?我们刚才介绍的 unit 模型, 这个 u 内模型呢,会在咱们的 k 采样器内配合我们的特征向量啊,咱们 clip 文本编码器输入进来的特征向量来进行降噪,之后再由这个 v a e 解码器,哎,这个转换插头输出成咱们能看见的像素空间图像, ok, 比方说现在我们来一个二次元系大模型吧,哎,选择这一个动漫 primex, 接着我们来书写一下提示词, 咱们要注意的一点是,在我们书写提示词的时候,要先写质量词汇,再写主体,再写氛围词汇。那么啥是质量词汇啊?比方说我们知道在正向提示词中,我们要输入的是 我们想生成的内容,对吧?但如果说我们输入的为高质量高清壁纸杰作,极致的细节,哎,类似于这些词汇,那么咱们的 clip 模型就会知道哦,你想要的是非常 清晰并且具有丰富细节的词汇,对吧?然后他就会在这个范围内帮助你去寻找符合条件的。所以这边我们一起来输入吧,咱们先打开翻译器,然后输入杰作, 高质量极致的细节。好的,接下来我们就来输入我们想要的主体内容,比方说一个女孩,双马尾,蓝色头发,校服。那输完主体之后,我们就来输入氛围词汇,或者说是环境词汇,比如教室背景,动漫风格。 ok, 最后咱们翻译一下专贴近我们的文尾编码器。那刚才我们也提到了,为什么是先输质量词汇,再输主体,再输氛围词汇呢? 因为啊,我们越靠前的词汇,它的权重,它的比重也就越高,在整体内容的呈线上也会占比更大。好的,接下来我们来输入一些反向质量词,啥意思啊?如果说我们在反向提示词内输入的是模糊、混乱、低质量, 类似于这些词汇传达的意思不就是我们不想要模糊我们不想要的图片,我们不想要混乱的图片,对吧? 而这边有玩家把这些负面词汇都整合成了一个词组包,我们只需要输入 easy negative, 随后选择这个 embedding easy negative 即可。 那我们来看一下有质量词汇以及没添加质量词汇,差别有多么夸张。好的,我们回到刚才的内容,那么现在在我们输入完正负项提示词之后,咱们就点击执行吧。 ok, 我 们可以看到啊, 现在图片完全变成了动漫风格,对吧?造成这样的原因有两种,第一个当然就是我们关键词了,因为我们输入了动漫风格,而其二是我们的大模型,哎,这个动漫 prime max 大 模型,它本身的训练集中绝大多数都是动漫数据集,而它所预测的降噪之后的图像 也必然是和动漫有关的,所以我们最终生成的图像呢?哎,才呈现出这种非常自然的动漫风格。而咱们的空 later, 它负责的就是限制了我们 later 图片的大小,比方说,哎,就这么大啊,是一张正方形尺寸的图片, 之后在我们的随机种所对应的高斯照射,哎,给它添加上,对吧,比方说是这个样式的照射图像。好, 那么添加完造成之后,咱们的 unit 模型就会为这张图片来进行降噪,当然降噪的同时会结合着我们的 clip 文本编码器输入的特征向量,对吧?不然我们也不知道你想降噪之后生成的图像是啥,是一匹马呢?还是一个动漫女生,这都是由我们关键词决定的对吧?而 unit 只是为了 让我们这样照的图片尽可能的往那个方向去靠拢。 ok, 我 知道啊,本节课内容非常的干,但是我相信学会了这些之后,对于我们后续节点的理解,模型的学习有直观重要的作用。 好的,那么以上就是关于本期的内容了,我们下期一起来看一下图生图以及它背后的运行逻辑吧。这节课我们一起来学习图生图工作流的搭建以及它的背后运行逻辑。首先我们还是来到康复 ui 的 默认工作流,那接下来该如何去搭建最基本的图生图? 首先我们看到 comlater 怎么把它呀给删去,然后在这 k 采集器的 later 输入拖出来,然后选择 ve 编码。随后呢,我们看一下这 ve 编码,它一共有两个输入,分别是图像以及 ve 模型。 那我们来看看 ve 连哪呀?哎,那么这一整套工作流里面是不是只有这个 point 有 ve 的 输出,所以我们连到这, 接着这个图像我们拖出来加载一个加载图像节点。好的,那么至此咱们的图生图工作流就这么完成了,其实和最基本的纹身图非常相近,只不过多了一个图像输入。 接下来我们来看一下它具体该怎么使用吧。比方说我这边上传一张金发双胞为少女,接着我们把正向提示词给稍微编写一下,记得先写质量词汇,比方说杰作高质量,然后再写主体,主体的话我们就来个 one girl 吧,一个女孩,好的,就写这么多 副象提示词,我们还是来一个 easy negative 这一个副象提示词词组包。咱们把大模型先换成一个动漫类大模型,选择动漫 prime mix, 当然其他的也行。接着我们直接点击生成, 我们可以看到咱们这张图像吧,你说它和我们的上传图片有什么关系?其实近乎于没有关系,对吧?那么这是怎么一回事呢?这边我们就需要看到可以采氧器内的降噪值,这个降噪值啊,就控制着原始造成添加的比例, 比方说现在降噪值为一吧,相当于什么呢?我们输入的这张图像,它上边会布满了降噪值, 那大家可以想想,这和我们输入一张纯噪声图像有什么区别吗?完全没区别。好,那反之,如果我们降噪值为零的话,会发生什么现象?咱们先跑一次。哎,现在可以看到,此时啊, 咱们的生成图像和原图是完全一致的,那么这是因为对于我们输入的图像因为降噪只为零的缘故,导致一个噪点都没添加。那大家可以想想我们 diffusion 模型,对吧?咱们 stefusion 运行的原理就是给图像不断的降噪,从而生成新的内容, 但现在我们一个噪点都没有,咱们从哪去降噪啊?对吧?所以说自然而然的就和我们原图完全一样了。 但如果说我们把这个降噪值给设置成零点五的话,我们来看一下会发生什么样的神奇变化。哎,此时发现了没有,他 和我们的原图怎么样啊?是不是非常的近似,对吧?比方说像这个金色双马尾以及他的红色蝴蝶结,那么这就是降噪值所带来的影响。 ok, 现在我把随机种给固定一下,然后换一组种子值,我们再跑一次试试。 那么我们第二次升图还是和原图有非常多的相似之处,对吧?比方说整个人物的姿势以及他的发型,发色还有服装。而我们在正常的升图流程中,降噪值为零点三五到零点六之间, 咱们生成的图像就会和原图较为近似,而如果设置的是零点六甚至是零点七五级以上,那么我们就将赋予 ai 更多的想象空间以及自由发挥空间,对吧?比方说我们把降噪值设置成零点七,然后再次升图, 咱们可以看到最终图像和原图是越来越不近似的,不过我们可能会发现一个小问题啊,这个是题外化, 什么问题呢?大家发现没有,我们的生图怎么感觉总是灰蒙蒙的,比方说我现在在换一种种子值再次生成,哎, 对吧?感觉到这个色彩不是很鲜艳,怎么回事?这其实和我们的 ve 有 关。上节课我们提到了 ve, 一 般是由咱们大模型所提供,但有时候吧,大模型它匹配的 ve 啊,不是特别好,还不如一些社区玩家所发布的 ve。 比方说像这个 primex 吧,我用的这款大模型,它自带的 ve 表现出的色彩不是那么的理想,那怎么办?我们先把 ve 解码以及 ve 编码的连线给断开,然后我们在随便一个 ve 解码或 ve 编码都行 ve 节点中拖出来加载一个 ve 模型加载器,哎,那么现在我们可以看到这个加载器里面,我们可以自由的选择不同的 ve 模型,那这边因为我们生成的是动漫类图片嘛,所以选择这个 anime ve 动漫 ve, 那 接着再把它和 ve 解码与 ve 编码相连,此时我们再跑一下, 大家可以发现,是不是图片瞬间就变得鲜亮了?好,那么解决完这个小问题之后,我们继续来看一下降照值。有些小伙伴可能会有点疑惑, 哎呀,这个降噪值,它究竟是怎么做到让生成图片与原图近似或不近似呢? ok, 那 么我们来看下这一张图生图的完整逻辑。在我们图生图工作流中,不同于文生图的是, 它一共输入了两种信息,一种呢就是图片的信息,一种呢就是文本的信息。刚才我们不是编写着提示词吗,对吧?而在我们上节课所讲的文生图中,只有一种文本编码信息, ok, 那 么问题就来了, 如何把咱们的图片信息给编码成异于电脑处理的相关信息流呢?这边我们用到的就是 ve 嘛,我们可以看到这个绿色的三角形啊,意思是 ve 编码器,它的作用是可以把我们输入的图片给降为成 浅空间图像,而这一些浅空间图像不同于像素空间图像,他们是看不见的,同时呢,尺寸也会更小,更异于电脑去处理。那之后 ve 编码器会把这一些 编码之后的前空间图像给发送到 k 采暖器,在 k 采暖器中,我们来看看它会干嘛呀?它会添加噪音,对吧? add noise, 而这一个添加噪音到底该添加多少呢?这边就是我们降噪值所控制的了, 正如我刚才所说,如果我们降噪值为一,就相当于为我们输入的这张浅空间图像直接噪声加满,对吧?整张都是咱们所添加的噪声,这也意味着在这种情况下,和一张纯造成图片没有任何区别。同时,如果噪声值为零点五吧, 那可能就会,哎,添加噪声的幅度就不会很大,哎,对吧,零零星星的。好的,在添加完噪声之后啊,我们来看一看,这个 later 图像就会被发送到咱们的 unit 模型中进行降噪嘛,那么这等同于纹身图的什么呢? 空 latent 输入呗,对不对?只不过此时的空 latent 是 有内容的,而不是一个完全空白的 latent 图像,也就是浅空间图像。咱们上节课所运用到工作流的空 latent, 意思就是,哎,直接输入一张没有任何内容的浅空间图像,不过呢,尺寸是我们自己定嘛,对吧? 好的,那我们来继续看这个图生成工作流,一张有内容的浅空间图像被发送往了 unit 模型中进行降噪,还需要什么元素啊?当然就是我们的特征向量嘛,这个 test embedding 学会参一脚,哎,来指导咱们这个图像的生成,来指导降噪的走向,对吧?比方说,我想生成的是一个 紫色头发的女孩,那么他就会结合着我们输入的晴空间图像一起来完成降噪,不断的去往这个紫发女孩的方向去靠, ok, 那 之后也是就进入到了我们上节课所介绍的降噪啊迭代流程。 那经过咱们采用步数的次数迭代降噪之后,咱们的 u 点模型啊,就会把处理完的潜空间图像发往 ve 解码器, 因为我们是看不见潜空间图像的嘛,所以它必须要用转换接头来把潜空间变成像素空间图像,那之后咱们的 ve 解码器就会把之前的所有信息内容解码成最终生成的 ai 图像。 我知道咱们听起来可能有点晕,咱们结合着康复 y 工作流一起来看一看。比方说像这一套简单的工作流吧,咱们的图片输入是啥? 那当然就是加载图像的这张金发双马尾了,对吧?而咱们的文本输入呢,就是咱们的正负向提示词这两个啊,它们会经过 k 模型给编码层蕴含着很多信息的特征向量,对吧?这个小盒子会被发送往 k 采集器,哎,被发往 k 采集器, 同时呢,这个小盒子将结合着我们这个原始图像经过 ve 编码之后,再加上噪声的图像,哎,对吧? 比方说零点七,哎加了一些噪声,然后一同在 k 采氧器内进行降噪,最后我们可以看到 k 采氧器有一个 late 输出,那么这个 late 输出 会把我们之前的 rate 图像,也就是前空间图像发送到 v e 解码器,从而完成前空间到像素空间的转换。 ok, 比方说吧,我们现在关键词加一个粉色头发 pink hair, 然后把降噪改成零点六五, 步数设置为二十五步, c f g 值为六点五。然后彩样器和调度器,我们上节课也介绍过,咱们一般彩样用的是 p n 加加二烟也是 d p n p p 二烟,调度器一般用的是 carras, 然后点击执行,我们可以看到啊,大家发现了吗?图片是不是尽量的往这个粉色头发女孩方向去靠,对吧?咱们再把这个降噪值往下调, 比方说零点五,接着再次跑图,咱们就可以发现,因为降噪值较低的缘故,咱们的生成图片就会和原图更为近似, 所以改动的幅度不会过大。但是,哎,咱们细心观察还是可以发现,像这张图片,他的头发确实蒙上了一层粉色,甚至是他的眼睛也变成粉色了,对吧?那么这就是降噪值结合着文本与图像输入共同造就的结果。 ok, 那 接下来我们就把以上的理论知识给转换成一个有趣的动漫转真人小案例。怎么做呢?大家可以想一想,咱们降噪值是不是可以控制生成图像与原图的相似程度, 而我们的最终图片生成的整体风格是由什么决定的呀?一共有两种,第一种是提示词,而第二种是最为关键的大模型。要注意大模型的影响可比提示词要多得多,所以我们这边直接把大模型给选择一个 写实大模型,然后我们在关键词的结尾加上一个写实风格 realistic style, 接着把 ve 加载器的 ve 给替换一下,换成这个 s d 叉 l ve, 随后开始生成。 ok, 我 们可以看到啊,图片的风格是发生了一些转变,但是程度还不够, 并且我们得把刚才的这个粉色头发关键词给删去,不然会影响输出效果。那既然这个风格转变程度不够的话,我们就 提高降噪值嘛,让 ai 去发挥更多的想象力。咱们直接先设置为一个零点六五吧,然后 ctrl 加 enter 快 速生成。 ok, 那 么现在感觉又有点太过了对吧?它和原图相似度太低了,那么我们就继续去调整咱们的降噪值, 直到为一个较为合适的数值为止。 ok, 就 这样,我们成功把这张动漫图片通过简单的图升图降噪的方式,就变成了一张写实风格图片。那么这个方法也可以算是最简单最容易的一种风格转换方法。后续我们会学习更多积极内容,让图片变得更为可控。 比方说像咱们生成图片的姿势啊,面部表情啊,它的线条,背景,深度关系等等,这些都是可以通过后续的 control 内来进行控制的。好的,那么以上就是关于本期的图生图教学,同一万象万二点一是阿里巴巴集团推出的开源视频生成大模型,专注于高质量视频生成,其中有纹身视频模型,也有图生视频模型。 而在权威测评中,万象眼总分最高的成绩登上了榜首位置,大幅领先了 sora、 mini max、 luma、 pika 等国内外视频生成大模型。同时万象大模型通过一系列技术创新,实现了生成能力的重大进步。那么接下来我们就在 livlib ai 中体验这个 one 大 模型二点一到底有多么厉害吧。 我们先来看一下最终成品效果,咱们最左边的这一个就是我们的参考图片,接着我们输入提示词之后,通过模型的一系列运作就生成了最终视频,随后我们再通过 i f e 补帧,最终合成了丝滑的 ai 视频。 接下来我们就一起来端详一下这个视频大模型强在哪。首先看到这一段男子在海边散步,注意观察他的影子位置,我们不难发现影子会随着他的变动而发生改变,并且投射的非常真实。此外,我们还能看到男子在沙滩上走路所留下的印记, 我们甚至还能看到海水在褪去时海滩被浸润的痕迹。那么这一系列细节无不透露着这一款大模型的细腻以及强大之处。 ok, 接下来我们就来看一下这整套工作流究竟是如何构建以及使用的吧。首先加载一个默认工作流,接着我们把所有节点都给删去,因为万达模型所用到的工作流和这一些几乎没有关系。咱们搜索 w a n video simpler, 看到这一个选项,那么它就是整套工作流的核心节点,也就是采氧器,接着我们可以看到它有非常多的输入以及一个 samples 输出, 但是其实啊,我们只需要连接这三个输入节点即可。 ok, 首先我们在 model 后面拖出来选择该选项,现在咱们一起看一下这一个模型加载器吧。点开模型列表,可以看到一共有一二三四 五六七七个大模型,其中前面这三种是图片转视频,我们可以看到有这个 i to v, 什么意思?就是 image to video 嘛,图片转化为视频,而下边的这四种就是文字缩成视频, 我们可以看到 t to v, 也就是 text to video 文字变为视频的意思。那么接下来我们来看一下这一些又有什么差别?仔细看可以发现在图声视频这边分别有四百八十的分辨率以及七百二十的分辨率, 同时在四百八十的分辨率中又分着两款减值类型,我们可以看到这一个是一四,对吧?而下面的这个是一五,而这些一四和一五 所对应的就是不同的剪辑类型,这个在 fast 工作流中有体现。而对于文声视频,我们可以看到这边分别有十四 b 参数的大模型以及三 b 参数的大模型, 那么这个 b 就是 参数量的意思,参数量越大则代表着它的功能也就越全面,声控效果也就越好,但是往往对于硬件设备的要求也会越高,不过因为咱们用的是云端嘛,所以说不用担心这个问题,我这边就选择这一个七百二十 p 的 图声视频大模型, 接着我们在这一个 creation 量化点击一下,随后选择该选项,接着在下边的加载设备选项选择 offload device, 然后我们的最后一个选项点击一下,选择该选项。周密来,咱们的模型加载器的参数总算是调整完毕。接下来我们看到这一个输入,我们把它拖出来之后选择该节点,这些我们保持默认即可。 好的,在我们加载完这两个模型相关的节点之后,看到第二个输入, text in bed 文本嵌入, 我们拖出来选择该节点。接着我们就可以在这边去编辑咱们的正负相提示词了。注意,咱们是可以使用中文进行输入的,因为它是国产的一款视频大模型了,在中文方面也有着较好的余理解。 不过至于具体内容,咱们就待会上传了图片再说。我们先看到他的 t 五输入,哎,我们把他给拖出来选择该节点,我们一起来看一下。这个节点其实有点像克里普模型的作用,识别羽翼嘛。点击模型列表,我们选择第二个 b f 十六结尾的 其他三个参数均保持默认即可。 ok, 我 们回到刚才的采集器,接下来啊咱们就要输入第三个叫做 image embeds 图片嵌入,拖出来选择该节点,咱们一起来看一下这个节点的相关参数。首先前两项非常熟悉啊, 生成的宽度以及生成的高度很明显控制着最终视频的比例以及尺寸。接着是下边这一个叫做 帧数,关于这个概念我们前面课程中也提到了很多次,帧数越高,那么我们生成时间也越久,同样的画面内容往往也会更多,我们这边就设置一个六十帧吧,比方说待会我们生成一段帧率为三十的视频,现在是六十帧,也就是说一共会生成长达两秒的 ai 视频。 ok, 其他参数我们均保持不变,而至于这一个宽度以及高度,我们需要转化为输入右键该节点, 点击转换为输入,随后选择该选项,接着再重复刚才的操作,选择该选项。现在我们再看到这一个图片编码的输入, 我们先看到微选输入,拖出来,摁住 shift 键搜索 w a n, 看到加载 one 视觉编码器, ok, 然后我们点开模型列表, 选择 f p 十六,当然我们也可以选择 f p 三十二,只不过生成时间会更久一些。随后咱们添加一个加载图像节点,搜索 load image。 我 们这里上传的自然就是想要转变为视频的图像,比方说来一张神奈川冲浪里,我们在它的图像输出添加一个 图像缩放节点,选择该选项。然后就是固定宽高笔,记得点击一下,宽度我们设置为七百六十八,高度五百一十二。接下来我们再把图像缩放的宽高连接在刚才的 生成宽度以及生成高度上,然后再把图像所放的图像输出连接在该节点上。这么一来,咱们是不是只剩一个 v a e 没有连接,那么我们就拖出来,按住 shift 键搜索 w a m, 它有个配套的 v a e 加载器, 点击一下这边的参数,我们均保持默认即可。 ok, 现在我们总算是可以编写提示词了,我们先看到正向提示词,来点什么好呢?比方说海浪拍打着船,汹涌的海浪,船只随着海浪摆动,那么负面提示词我这边也是提前准备好了, 我们可以发现它和纹身图的负面提示词差不多。边写完之后,咱们就看到彩样器的彩样输出拖出来, 咱们加载一个 w a n 专属的解码器,选择该选项,那么这一个解码器的 ve 输入当然就是连在咱们刚才的 ve 模型加载器上。随后我们可以一起来看一下这个解码器的参数,可以看到这边分别有分块的 横轴以及分块的纵轴长度,意味着解码器啊是通过分块解码来对我们视频进行处理。不过这些都不重要,在图片输入这边拖出来,搜索一个合并为视频, 选择该节点,咱们的帧率设置为三十吧,然后文件名前缀这边大家跟着我一起输入 w a m video, 二下划线,一往下看格式,来一个 h 二六四 m p 四。当然我们也可以让视频变得更丝滑一些,那么我们只需要在解码器的图片输入拖出一个 图像对比,看到该节点图像对比度自适应锐化,把它的数量值调成零点三,接着再复制一份刚才的合并文,视频节点连接在锐化节点上。好,至此,咱们的 w a n 二点一工作流总算是搭建完了,点击开始升图, five minutes later 好, 经过漫长等待,我发现这些名画压根生成不了,可能是怕心权还是怕侮辱著名形象我不知道,反正咱们先换一个素材吧。所以这边我重新上传了一张女孩在水里游泳的低饱和图片。接下来咱们就重新编写关键词吧,没办法嘛,咱就来一个 女孩在水中漂浮,裙子缓慢摆动,黄色的鱼在水里游。接着还有个改动,就是我们在宽体 z 选这边,我发现啊,第一个的生图质量比 第二个要好不少,所以咱们还是选择该选项吧。这个 fast 虽然说生图速度会变快,但是质量我测试下来感觉一言难尽。 ok, 调整完作业参数之后,点击开始生图。好的,最终视频也是成功生成,我们就一起来看一下啊,挺有意思的。这其实是视频的鱼已理解错误, 因为我们关键词这边写着黄色的鱼在水里游,但可能大模型误以为是我们要添加一条黄色的鱼, 不过这确实也为视频增加了许多趣味性。当然,我们想把这条卡通鱼给去掉的话,我们就回到原图这边,我们可以看到这些鱼是位于女孩的身后,以及围绕在女孩的身边。想特指这些鱼的话,就可以在关键词里加入咱们目标的具体方位。 比方说我们可以看到现在的关键词是黄色的鱼在水里游。为了更精准的描述,咱们可以写女孩周围的黄色的鱼在水里游,或者说女孩背后的鱼在水里游。尽可能的让 ai 去 理解你真正的意图。在该写完提示词之后,我们再跑一次怎么样?现在是不是好多了,从中我们也能看到 one 模型的强大。好,那么以上就是关于本期的全部内容了,我们就下期再见吧,拜拜! 今天我要和大家分享一个令人激动的消息,在我们过年期间,我们国内的通易万象模型登顶了 swaybench 的 第一名,同时宣布开园了,接下来让我们来见证一下 ai 图声视频本地化部署的一个历史性时刻吧。 comfyi 的 工作流我已经给大家手搓好了, 而且这次我们使用的直接就是一四 b 的 模型,生成的效果是真的很棒。老规矩,工作流和模型我已经打包好了,有需要的小伙伴可以在评论区给我留言,我会逐一发送给你。 那么先说一下节点的安装啊, one video rapper 这个节点安装还是比较简单的,我们来到 get up, 把节点包下载下来,解压到 confui 的 根目录 custom nodes 内,也可以在管理器通过 get url 直接安装。 我们回到工作流这里,我把它分为图片加载模型加载工作区和视频输出区。我们只需要拖入图片,输入你视频要呈现的画面关键词,接着点击执行,稍等一会就会得到你想要的视频了。 本地部署的操作空间很大,小伙伴们可以自行研究更多玩法。这里加载的是万象的本地大模型,我给大家分别准备了三个一四 d 的 高质量模型和一个三 d 的 模型,把它们下载下来,放到陌路的 diffusion models 里面,其他参数保持不变。 下面两个分别是 t 五和 clip 文本编码模型的加载器。把 umt 五 x x l and b w 一 六下载下来,放到目录的 text encoders 里面。 open eclipse x l roberta 这个模型放到 model 目录的 clip 文件夹内, vae 模型就放到 vae 的 文件夹内就可以了。 把这些模型放置好就可出视频了。工作区这边我目前测试的是五百一十二乘五百一十二的比例,我们就可以把它的宽高数值更改为对应数值就可以了。帧数我选择的是八十一帧,右边这个是视频解码器,把这些东西部署完之后,小伙伴就可以尽情畅玩了。 老规矩,工作流和模型我已经打包好了,有需要的小伙伴可以在评论区给我留言,我会逐一发送给你。模型文件比较大,下载的时候小伙伴们要耐心一点。好,今天的视频就分享到这,谢谢大家。 哈喽,各位小伙伴们大家好,今天我们要学习的是如何让照片动起来,换言之就是通过我们输入的图片生成一段 ai 视频,那么本期需要用到的官网后,我们可以看到他们展示的案例视频。 而要想得到这样的 ai 视频,我们仅需在工作流中输入我们的参考图片以及参考动作视频即可。我们往下滑可以看到官网给出的更多参考案例,总体来说效果还是非常不错的。仔细看我们可以发现人物的嘴型甚至都是和参考视频一致的。 那么接下来我们打开 get up 搜索 mimic motion, 这里我们点击 mimic motion weapon, 接下来我们点击这个按钮, 随后下载它的压缩包,并解压到 cfuire 的 custom 文件夹内。随后我们开始安装必要模型,由于各个模型的查找以及部署过程非常复杂,这里我帮各位小伙伴把所有的必要模型都给打包好了,需要的可以在评论区内领取。 这里我们打开打包好的网盘资源后,可以看到一共有四个文件夹以及一个说明文档。那么首先我们需要将这个 dwpos 文件夹下载放置到该路径内。 随后我们将 face store models 下载放置到该路径内。接着我们再将 mimic motion 文件夹下载放置到这个路径内。 最后我们将 stable video diffusion 的 文件夹放置到此路径内。按照上述过程操作完成后,我们就可以在 control ui 里面使用 mimic motion 节点了。那么现在我带着大家从零开始搭建我们的 mimic motion 工作流。这里我们先把所有的 mode 节点给删除,我们先把所有和 mimic motion 有 关的节点给拖出来。 好的,回到我们的工作流,我们先将这些组建进行简单的连接。 好的,那么接下来我们先来熟悉一下 mimic motion 采氧器的相关参数。首先是采氧步骤以及 c f g 最小值,还有 c f g 最大值,这些我们保持默认即可。往下看是种子值以及生成后的控制方式,注意这里我们选择的是这个 phase 固定。 接下来是 fps, 也就是帧率,该数值越高,画面也就越流畅,当然运算的时间也会更长。接下来是造成强度以及上下文的影响程度,注意这里,比如我们的上下文关联程度是十六,则代表着每一帧会受到前后十六帧的影响。 往下看是 context overlap, 也就是上下文的重叠度,这里我们保持默认值即可。接下来是人物参考动作骨骼对生成视频的影响强度,这里我们也是保持一默认值即可。如果该值太低的话,那么我们生成的动作就会与原视频不符, 并且有可能会发生肢体变形等情况。最后是动作骨骼开始以及结束的影响时机。最后一项是参考图像对生成的视频的影响强度,这里也是保持默认值即可。好的,那么接下来我们先上传我们的参考图像以及参考视频。 前面有提到过,这里我们加载视频的节点叫做 video helper, 需要的小伙伴可以在 manager 内自行下载。好的,接下来我们在加载图像后连接一个 image resize, 该节点可以控制图像的尺寸以及比例。随后将该节点的图像输出连接到这个 riff image, 也就是参考图像的意思。接着我们再将视频加载器的 image 输出与 pause image 连接。随后我们添加一个 video combine, 我们可以用该节点来预览动作骨骼视频。接着我们复制一份 video combine 节点到解码器的后面,用于生成视频预览。这里我们要改一些参数。首先是帧率,我们将该值改成三十。 随后我们将文件名改成 mimic motion 左斜杠命。接着我们把格式改成 video h 二六四 n b 四。好的,接下来我们回到这里,我们将这个 video combine 的 文件名字改成 mimic pose, 帧率改成三十以及格式我们也是改成 video h 二六四。好的,接下来我们可以看到它们报错了啊,必须拥有相同的解析度, 那么他们的意思是图像的尺寸得相同。好的,我们可以把这个 image resize 给复制一份放到下面来。最后与视频加载节点连接, 随后便可以开始生成。好的视频出炉了,我们来看看效果, 对比后,我们可以发现人物的五官、服装以及体态特征还是和参考图非常相似的,除此之外,人物的动作也和参考视频完全一致, 并且视频无闪烁,流畅度非常的高。好的,那么以上就是本期的全部内容了,模特换装仅需一分钟。好,大家好,今天我们一起来学习 如何用康复以外来实现像这样的模特换装。我们可以看到模特原先穿的是蓝色长袖上衣,但是当我们导入了灰色卫衣图片到该工作流之后,康复以外就可以非常自然的将模特自动换上刚刚上传的灰色卫衣产品图。 那么咱们先浏览一下整套工作流的大体思路,其实我们只需要输入两个参数即可,一个是产品图, 一个是模特图,而关于输入的区块,这边也有标注,可以看到衣服裤子上传区域,还有模特上传区域,大家把该工作流领到手之后也是非常方便使用的。不过这边要注意一个细节,当我们上传了模特图之后,我们需要手动为它绘制蒙版,那如何绘制蒙版? 方说,咱们重置一下这张模特图,比如咱们上传一张美女图像,接着我们右键该图像看到在遮罩编辑器中打开,点击该选项, 随后我们就可以进入到这个界面,在这里我们所涂抹的区域会变成黑色,而黑色就是蒙版内容,也就是即将被我们修改的内容。在右边我们可以调节笔刷的形状以及大小,还要硬度、平滑、精度 等等等等,咱们先拉高它的粗细值,把它调整为一个合适的大小,比如说现在这样子,接着就是要把待会可能会影响到的区域都 涂抹上,比如说上半身,好的,现在我们可以看到它还有两条胳膊没有进行选中,而我们此时啊比说大小过大了,如果直接往下涂, 会涂到过多我们所不需要的区域,所以说我们这边应该把粗细值给拉低一些,这样子 精度就上去了。好了,在我们涂抹完之后,点击左上方的保存按钮,接着我们就来看一下这一套工作流到底有哪些玄机。首先这边用了一个节点,叫做 segment anything, 哎,这个节点是不是好眼熟啊? 那么它也是我们抠图的常客了,作用很简单,就是可以把我们选中的词条给进行抠除。比如说我们上传了产品图,也 就是灰色卫衣之后,我们可以在这一个 segment anything 节点内看到这边有一个提示词了吗?输入啥我们就可以把啥抠下来,那输入的是 closest, 衣服 自然而然就可以自动地把我们的灰色卫衣给从这个白色背景中抠下来。 ok, 那 么现在可能有小伙伴会有疑问,为什么刚才我们的模特图不能用这个 segment anything 来进行抠除呢? 大家可以跟着我一起思考一下。像这张图片,当我们的关键词是 closest 的 时候,那么只会有这一部分的衣服被我们抠出。但是当我们换上的衣服为卫衣,比如说这件长袖卫衣, 它所涉及的区域很明显是包括了人物的手臂的,这个非常好理解,但是如果我们对人物进行是个 anything, 自动扣除影响的区域也就只有这么一点点,很明显并不包括手臂区域,甚至连肚脐都不包括。而当影响区域为这个小范围时,最终图像一定会发生错乱,我们总不可能在这个小马甲上套上一件大卫衣吧?这也是我们为什么要对模特图进行手动蒙 版添加的原因,我们可以自行地决定到底会涉及到哪一些区块,至少这一点人工智能 ai 暂时无法代替。好的,那么讲解完了这个蒙版之后,我们就顺着 sickmeanything 往下看,在他的右边有一个很关键的节点,叫做局部重绘。那这个局部重绘什么意思?也有小伙伴可能不太理解,很简单,我给大家看一张图片,比如说这一张戴着墨镜的蒙娜丽莎。众所周知啊,蒙娜丽莎那个时代是不可能有墨镜的,并且蒙娜丽莎她确实也 没有戴着墨镜。那么为什么这张图片会出现墨镜呢?这正是因为我们用了局部重绘,具体怎么操作也很简单,我仅需在人物的眼睛这一块,也就是我们想修改的区域涂上蒙版,然后再用上局部重绘功能。 接着关键词是墨镜,那么康复以外,工作流就会自动的帮我们把想要修改的区域自动填充上墨镜这个元素。好的,现在我们回到刚才的工作流,那么这边呢,我们用了局部重绘,很明显, 针对于模特图像的,我们想在模特的蒙版上面重新生成新的内容。生成啥内容呢?当然就是这件黑色的卫衣啊,那么现在新的问题又来了, 我们该如何的把这件灰色卫衣产品细节给复刻到这张图片的蒙版上?这边呢,我们要用到一组非常重要的模型,先顺着咱们产品图节点往后看,先是图像缩放 来规定它的尺寸,接着可以看到图像缩放后边在远处连了一个节点, clip 视觉编码,而 clip 视觉编码是与风格模型应用连在一起的,这个风格模型应用就是我们非常 重要的一环。在这边我们会加载一个模型,叫做 flex redux, 这个 redux 模型它正是能够还原我们参考元素的一种特殊模型。 ok, 那 么我们就顺着风格模型应用看到它的条件输出,这一个连到了哪?哎,顺着线往左看,原来啊,连到了内部 模型条件,而这个内部模型条件其实是和局部重绘相配套的一个节点,一般情况下,有局部重绘就会有内部模型条件, 有内部模型条件就会有局部重绘。 ok, 那 么连到了内部模型条件,咱再顺着它往后看,那它当然连接的就是彩样器了。而关于彩样器所用的模型,我们这边用的是这个 flux fuel 模型,它也是针对于内部填充的一款 flux 系列模型。 哎,这个 flux 大家是不是非常耳熟啊?咱们上节课对产品精修工作流中用的也是这个系列的模型,只不过今天所用的 fuel 是 它系列中的另外一款。 那么最终经过 k 彩阳机加载完之后,就到了下边的三个展示节点。好,我们点击开始生成图来看看。当我们把模特换成美女之后,会给我们带来什么样的效果。好的,那么也是经过了短短的一分钟,这个换装效果 还是非常令人满意的,又或者咱们可以改变产品图,模特呢,先暂时不动,比如说啊,我们把灰色上衣修改为这件黑色短袖,那么蒙版我们也是稍微重新绘制一下,先调整一下笔刷的大小,然后手臂注意不要涂 的太多,因为它是短袖,可能只会涉及到胳膊的上半部分,那其他也是和以前一样,该涂的涂尽量不要涂到太多,其他区域好 好的,那么现在我们涂的也差不多了。再对最后进行一些小精修,比如说像他腰的这一个小部分,这些细节可不能漏,把粗细值给调低一点,缩小比出大小。 ok, 大 功告成,点击保存,接着再点击开始生图, 同样也是经过了短短的一分钟,我们来看一下最终效果。首先是短袖上的字母 m o r e p o w e r more power, 可以 看到 穿在模特身上效果也是非常的不错,自行没有发生任何变化,最关键的是全程仅仅需要一分钟啊,极大程度的提高了效率。好的,那么以上啊,就是关于本期的模特换装工作流,一分钟就能完成这样的产品替换。哈喽,大家好,今天我们一起来学习康复 u i 的 产品替换工作流。 那么我们可以看到在这边上传产品图,比如说一只绿色的手表,接着再上传我们的模特图,这边呢,我们可以看到他戴的是一个红色手链,接下来经过我们的工作流,就可以成功的把红色手链给转变成我们的产品图片, 也就是绿色手表,这究竟是如何实现的?咱们一起来看一下这工作流到底是如何构建的吧。首先全套工作流共有三十多个节点,算是中等难度吧。第一步,我们要在最左侧这边上传咱们的 产品图片,如果说啊素材图是白底图片,那么我们只需要在这个地方导入即可。如果我们的素材图是透明背景图片,我们则在这一个小框框内输入咱们的产品图片,随后在加载图像的图像输出连接到这一个节点上, 注意是这一个按宽高比缩放的图像输入。这边好,那么我们这边还是拿白底图片作为一个例子,重新上传一张,比如说像这只手表,接着顺着加载图像往后看,连到了按宽高比缩放,那么这个节点也是我们非常常见的规范图 片尺寸的一个节点。随后我们将以它作为一个图像的主要输入,而不是加载图像节点。至于 为什么要规范图像尺寸,我在之前的课程中也有提到过,经过了尺寸的限定之后,我们可以规避,例如报显存,例如预算时间过长以及图片扭曲等问题,有时候尺寸太大会带来非常多不好的影响。那么接下来是桥接预览图像的节点, 这个节点就是给我们看原产品与即将替换的位置,而旁边的这个桥接图像则展示的是蒙版。好,既然提到了蒙版,我们就看到下方的人物上传区域 这边我们需要上传两张完全一致的模特图像,我们仔细看可以看到左边的这一张宽高为幺二七乘幺八四六,右边的也是完全一致好的,那么为什么要上传两张呢?其中一张是会作为图 图片输入的,而旁边的也就是右边这张,我们要为它添加遮罩,这个也是在执行课程中有提到过,先右键点击该图片,接着选择在遮罩编辑器中打开,然后我们在需要修改的地方涂上蒙版即可, 比如说手腕的这个位置,添加完蒙版之后看到左上角的保存,点击一下,那么至此,模特的处理我们已经搞定了。其实啊,现在就可以直接点击开始升图, 不过我们还是学习一下工作流的搭建思路吧,这样能让你更深刻的去理解运行原理,以及根据自己不同的需求搭建出不同的工作流方案。我们可以看到,其实这边也用了一个风格模型加载器 诶,这个风格模型应用搭载了模型就是 flex redux, 这款模型我们在之前的电商换装工作流中有用到,基本上啊,只要是涉及局部重绘功能的, 现在大多用的都是这一款模型,那么主要模型自然不用我多说,也是之前有用过的 flux 点 fill 模型 f i l l, 它也是针对于局部重绘的一款 flux 系列模型, 那也是我们的老常客了。 ok, 我 们顺着风格模型应用往后看,可以看到有内部模型条件,那这也意味着运用的是局部重绘功能,比如说像这个遮罩输入从哪来?自然而然就是刚刚的模特区域中, 经过遮罩编辑器添加遮罩后的图片,毕竟我们想修改的位置得告诉 ai 嘛。好的,我们重新回到内部模型条件,我们可以看到这边有正负面条件, 正面条件这边呢用到的还是之前用过的 gero captioning 这一款歧视词反推节点,目的是为了能够更加完美的还原出上传的产品图片细节。 ok, 那 么顺着内部模型条件往后看,自然而然就是 洋气了。有一点大家要注意,当我们用的是 flex 模型时,步数我们可以设置为二十到三十步, cf 居址呢则是为一到二之间,这一点和我们之前所学习的 sd 叉 l 或者 sd 一 点五 有非常大的不同,大家今后使用的时候要留心记一下。那么最终也是由可以采阳气导出我们的成品图像。好的,现在点击开始生图,一起来试试。那么经过短短的一分钟,咱们也是成功得到了一张经过产品替换后的图像,可以看到产品与手部 融合的非常自然,细节也还原的较为到位。咱们现在重新替换一张产品图,再跑一组试试。比如我们上传一张这样的手表,接着点击开始升图,那么经过这一分钟,我们来看一下最终效果怎么样。可以看到之前的粉色手表也是被非常自然的替换成了刚刚上传产品图。 不过要注意的一点是,比如说像这个位置,我们可以看到有一些空档,原因也很简单,是我们之前在涂抹蒙版的时候多 多余部分涂的太多了,如果大家自己实际操作的话,可以把笔刷大小调小一些,尽可能的不要涂到多余区域。好的,那么以上啊,就是关于本期的一键产品替换工作流,希望对大家有所帮助。

连接 wifi 时显示网络拒绝接入怎么办?有网友留言咨询,在连接自己的 wifi 时连接不上,显示网络拒绝接入,有没有什么办法解决呢?安排第一,检查确认输入的密码是否输入正确,注意区分大小写,取消保存,尝试重新连接, 检查路由器工作是否正常,重启路由器,使用其他设备连接路由器 wifi, 查看是否正常使用。 第三, ip 地址冲突,获取不到正确的 ip 地址,打开设置,点击无线局域网,选择拒绝接入的网络,点击配置 ip, 将自动改为手动输入 ip 地址和直网野马保存即可。 ip 地址可以在连接使用正常的设备上获取, 具体操作可以参考大概网气的视频。第四,检查无线路由器是否开启黑名单、白名单功能、麦克地址过滤 功能,如果开启此功能,手机可能被识别为限制接入设备,建议重新配置后重启下路由器。详细设置方法可以参考大概网器的视频路由器配置后取消手机已保存的连接,尝试重新连接即可。我是歪大歪,下期我们讲解无线上网网速慢怎么排查。

哈喽,大家好,上个视频我们一起搭建了维生图和图生图工作流,接下来我们一起来认识一下各个基础节点运用。今天先看模型加载器,我们想要 ai 生图前,要先选择好我们的大模型文件, 那么调用大模型就要用到模型加载器。比较常用的模型加载器节点有以下几种, checkpoint 加载器、 uni 的 加载器、双 cpu 加载器、 v a e e 加载器,常用的 sd 一 点五和 sd xl 模型都是用 checkpoint 的 加载器来加载模型的。我们调用一下 checkpoint 的 加载器,双击左键搜索 checkpoint 的 加载器,可以看一下这个节点,左侧没有输入,右侧输出有三个节点, 分别是模型 unit cube 和 v a e。 这是因为 sd 一 点五和 s d x l 在 一个模型文件里同时封装了 unit cube 和 v a e 三种模型,在工作流中它们分别有着不同的作用。 cube 模型用于不易理解,就是理解你输入的文本提示词, 然后告诉 unny 要怎么画。 unny 模型用于图像生成,在 kube 理解了提示词后开始证实的绘画流程。 v a e 模型用于编辑码, ai 绘画是在前空间内计算的,画好的图片要经过 v a e 模型解码来转换到像素空间,这样我们才能看到 ai 生成的图片。下面就是模型调用。 而对于比较新的绘画模型,例如 f l u x f l u x 模型的 unit cube 和 va e 是 分开的,就需要分别单独加载,分别是 uni 的 加载器、双 cube 加载器和 va e 加载器。并且 f l u x 模型使用了两个 cube 模型来提供更细腻的语义理解能力, 这也会影响到后续工作流程点的连接,后面会再讲解,可以和 checkpoint 加载器对比一下,模型架构不同,所以加载器有拆分,根据咱们需求去选择就行。那么这些模型我们去哪里下载,并且保存到什么位置呢? 下载的话这里给大家推荐几个网站,国外的有 hackin face 和 c 站,但是需要科学上网。国内常用 model scope 和里不里 b i 模型。下载后放置路径可以看这张图,放置完模型刷新一下咱们页面就可以加载了。关注我,下期我们再具体讲讲模型加载后的下一个流程,可以把文本编码器节点。

哈喽,大家好,今天我们来分享一下 configui 的 这个安装哈,因为大家都知道现在呃比较流行的这些 ai g c 的 软件,那包括 config 以及这个 sd 啊,就这个, 嗯, stable distribution media julie, 但是这 media julie 的 话它是收费的啊,所以如果你想呃入手这种免费的 ai g c 的 软件的话呢,我建议就是你选择 sd 或者是 config 啊,但是这两款软件它是有所区别的哈,如果你想去呃精准的控制你的这些图片的生存或者视频生存的话呢,那我建议就是用这个 fine ui 啊,所以看到有很多的评论或者说使用。呃,大家可能刚开始的时候你是从新手开始入门, 然后选择 s d, 但到了后期的话可能就会转到这个呃, cf ui 这里来哈,这是官方的桌面版啊,然后我们看一下这里。 呃,你可以输入这个网址,然后进入到这里来,然后进行下载,那你可以根据你的系统去下载。那我这边的话已经下好了啊,所以在这边的话呢,我只要双击它就可以了。 好,然后选择到一个比较大的硬盘啊,因为今后的话它的文件会比较大,我选择到我的这个盘,然后点击完成,然后进行运行。 好,那它现在这个框是什么意思呢?就是叫我们下载 git, 那这个 git 的 话呢,我们是没有安装的哈,所以我们这边要打开这里 open git 单这个网址去下。 好,点击。我这个是 windows 的 版本,所以我点击 windows。 那 我这边已经下好了啊,我提前下好了,那我在这个时候我就直接去双击它进行安装就可以了。安装到,呃,我看,呃还是就是安装到我的这个 这个 h 盘吧,就这个盘比较大哈。啊,那我就安装到我这个盘就可以了, 然后可以安装到这个刚才那个 comfy comfy ui 的 这个里面啊,我装到这个目录去, 因为为了便于这个管理哈,所以给它装到那个目录去啊,一直往下点就行了。好,我们看一下它的装载情况,那它是装在这里的。 好的, ok, 这个 get 就 装完了哈,那我们点击 get start, 然后再点击如果你根据你的显卡去选吧 啊,然后我们把它装在我的那个盘吧,就是刚才那个盘。这里为大家踩个坑啊,如果你再像刚才装 get 一 样,然后把它装到 comfy 的 那个安装目录的话,它会飘红装不进去。解决办法就是再重新建一个文件夹 啊,那我在这边建一个新的文件夹啊, 装在我刚才的这个文件,然后确定 这样的话,它就是会在安装哈,然后目前我们看到它是在设置这个 python 环境,那我们去等着它安装就可以了。好的,那我们等待了一段时间啊,这个 can find ui 就 已经安装好了哈。 ok, 我 们看到这它是这样一个界面哈, 那这个它是一些预制的模板。好,那你秋叶整个版你下载完了之后,它是这样子的,就是这几个文件。 好,那你只需要右键去解压,解压到选择解压到这边这个按钮,然后呢它就会解压出来这个文件 啊,那解压出来这个文件之后呢?呃,其实你现在不用管那么多哈,然后那些目录啊,什么东西的,你也不用管那么多。呃,因为如果你刚接触的话,刚接触的话,你对这些不是很了解 啊,那我们只需要右键,然后给它发送到桌面快捷方式啊,然后它就会出现在这。那你在这里双击这个会式启动器 啊,那我们点击一键启动,让它启动完了之后,它就会展示出来这样一个界面啊,那这个界面它是浏览器版的。 好的,这两个版本的安装就到这,那后期的话请大家关注我,我们后期再给大家来玩一下这个软件,欢迎关注我,学设计有方,高效不加班!

大家好,在学习 comui 软件之前,我们先来认识一下操作界面,咱们的最上方这个上半部分区域就是菜单栏,左侧部分就是任务栏,中间是工作流编辑栏,所有的运行工作流的搭建 都是在这个中间这一块空白区域来去完成。最下边是这个工作流,运行栏可以进行工作流开始停止的一个操作, 把它单独拿出来方便操作。具体的像这种菜单栏里边还有这个任务栏里边,包括这个运行栏里边都有哪些功能呢?再来给大家做一个简单的介绍。 先看最上方的菜单栏里边有哪些能够用到的。菜单栏里边打开工作流之后,它里边有一个新建,打开有模板另存为等这些功能,新建的话我们新建一个空白的一个操作面板,那么在里边可以去搭建新的工作流, 打开的话打开已有的工作流。比方说现在这个工作流搭建完了之后,我要给他导出导出一个文件的形式,一百二十三,这个文件就被我导出在桌面上的这个幺二三的这个文件,那我去打开的时候就是工作流打开,找到这个幺二三, 打开这个幺二三,这个工作流就被导入进来了,也可以直接把这个工作流拖入进来,把这个关掉以后, 找到这个工作流,直接这么拖进去,也可以打开这个工作流。这种方法就比较简洁,预览模板可以看这个图像,生成图像到图像就是文生图和图生图,你可以打开,比如有基础的 flex 的 图片的视频的都是这种 它默认的一些工作流,然后还有一个保存另存为和导出,那保存的话是什么意思?下边这一块有个工作流的一个文件夹,就是保存到安装的 comfoe 的 本地电脑里边,那我现在把这个幺二三的工作流保存,这个时候在我的这个文件夹里边就有这么一个工作流,下回调用的时候就直接在这里边 点幺二三调用过来了,然后这有个另存为,这个什么意思?保存和另存为有什么区别?正常的保存,我点保存的时候,它会自动覆盖你的文件夹里边的幺二三,这个文件 里边我做了一个更改,比如说我给这个可以文本给它加一个翻译节点, 替换掉英文提示词。工作流设置完成之后我要保存,这时候点保存,它会自动覆盖这个幺二三的工作流文件,直接覆盖掉了,我一百二十三想保留,想把它另存一个工作流点另存为, 你再输入一个幺二三三,确认从这里边再调用一下一二三,它是没有翻译编码器的,还是咱原来的幺二三的?这个模板编辑里边就是撤销重做这些清除工作流,这些就不用管了,这边因为撤销返回上一步比较常用的就是 ctrl 加 z, 基本上是每个软件都能用得到的。再后边就是这几个工作流的一个切换, 后边这个叉就直接把这个工作流给关掉了,这是上面的几个功能。再往后这有个语言切换,如果你打开你的这个 com vivo, 发现它是这种形式全英文的,你看不明白, 那你就在这里边点击一下中英文的一个切换,这样工作流就被翻译成中文的了, 再往后这些都用不到,这几颗是咱们电脑的 cpu、 gpu 的 一些显示,再往后的就是插件、管理器插件,还有模型的一些,包括这个 comfy 的 更新,都可以在这里边去点击。再往后咱们这是个图像预览的功能,比如说我现在运行一下, 这样在下面会显示和这是一样的,你点它的时候就可以点击观看,但这个基本上用不到,直接把它关掉就行。再往后底部面板是咱们的运行过程中一个日制显示,这个也用不到,因为这个日制说实话咱们也大多数都看不明白,就不用管它。 然后还有一个隐藏菜单,如果发现你这个上面和左边都没有东西了,没有操作按钮了,去点一下这个三个横显示一下就行了,上面就看完了。再来看一下左侧的这几个东西都是啥。 第一个是列队,那是什么功能?就是说显示生成的列队和这个进度条,比如说我这边要给他选运行四个, 我这时候点运行,运行了四次,这里边一二三四张图, 这个后边这幺二三就是在等待的过程中。现在是出第一张图,一张图出来之后就比较满意的时候,第二张图想取消,直接点击它删除,这张图就取消掉了, 这里又是下一次生图,这就是列队里边的一些功能,如果感觉这张图不满意,可以直接把它删除掉就行。这张图比较好,你需要保存,你直接右击这个图像,把它点开之后图像另存为,或者是复制图像进行下一步的操作就可以了。再往下是节点库, 这里面是已经安装的一些节点,比如说刚才看 checkpoint 模型加载器,可以去找一找这有个加载器,点击加载器 checkpoint 的 加载器看一下,这就被加载出来。再往下是模型库,已经下载到模型, 看这个 checkpoint 里边几个都是我已经安装的模型,它这些模型根据咱们具体需求去安装就行。还有些 lara 模型, vae 模型,这里边咱们平时也用不到。再往后边就是工作流,刚才讲工作流的时候,我给大家点开看了一下工作流的一些模板,你保存的一些东西。 再往下是咱们节点组,这个工作流里边有哪些节点,它会在这里边都给大家显示,比如 ve 解码,我们把它关闭看看这个紫色的就是 ve 解码保存图像。就最后编这个 checkpoint 加载器,就第一个 可以进行一个选择,或者是进行一个操作,继续往下这有个主题切换,这个操作界面的颜色可以根据自己的喜好去调整。然后最后里边有个咱们能够用到的设置, 给大家说一下。点开设置之后,这个康复里边区域设置有个语言,可以点英文或者是中文,所有的语言切换都在这里切换,当然这个上面这个也能切换,但是版本不同,可能有的版本不一定有这个东西。在画面里边有个连接渲染样式 直线或者隐藏,比如给个直线,大家可以看一下,有直角线,你看我这个节点和节点之间的连接,都变成了这种直角转弯的这种效果,其他的这些都不需要设置, 再往下就是这个运行栏,它可以随意地去拖动,放在你适合的位置,比如说我就想放在上面,右边放在下边,都可以 点击运行这个工作流就开始工作,继续往后这边有个批字,数量现在是一,我去输入几,他就会出几张图,比如说我批字给乘两点击运行,我们可以在这里边看,里边有两张图带出,就是这么样一个意思,如果是一,他就只有一张图,看这第一张图出来了, 再出第二张图,后面这个就是取消当前任务,再往后就是清除待处理任务,这就是 cf ui 的 界面的一些功能,点点关注,下节课我们来看一下 cf ui 的 基础操作及快捷键。

hello, 大家好,上个视频介绍了 camfui 界面功能,这个视频主要学习一下 camfui 该如何操作,以及有哪些快捷键能够快速的上手操作。首先要先学会如何放大缩小和移动滑步 放大和缩小直接滚动鼠标中轴键空白处,点击鼠标左键箭头边抓手即可移动画布。我们都知道工作流是由一个个的节点组合起来的,那么如何添加节点?一共有四种方式,第一种,点击左侧节点库,找到对应节点,如加载器,找到 checkpoint 加载器。 第二种,鼠标右键弹出菜单添加节点,比如找到可以屯本编码器。 第三种,双击鼠标左键,打开快速搜索面板,直接搜索节点,这种方式比较快速,但需要了解节点名称,如搜索 k 采集器。 第四种,在已有节点上连线,会自动跳出基础对应节点,也可以用新建节点或者搜索节点,节点添加完后,我们把它对应相同颜色链接即可。 创建好工作流后,如何编辑节点?鼠标左键单击节点,即选中该节点,点击空白区域取消选择。鼠标放在右下角,变为双向箭头,点击即可放大或者缩小该节点, 左键按住不松即可拖拽该节点。 按住 ctrl 加鼠标左键可框选多个节点,按住 ctrl 单机左键可加选或者减选节点。 ctrl 加 a, 可选择全部节点。 ctrl 加 c 复制所选节点, ctrl 加 v 粘贴复制的节点,这个也是大多数软件通用的快捷键,但是这个复制方法无法保持对应节点的链接,想要保持对应节点链接,可以用 ctrl 加 shift 加 v 粘贴选中节点可以看一下两个区别, 按住 ctrl 加鼠标左键框,选多个节点, ctrl 加 c 复制所选节点, ctrl 加 v 粘贴, ctrl 加 shift 加 v 粘贴。这两种粘贴方式根据实际使用需求选择就行。如果节点复制多了,可以选中节点后按 delete 删除。 control 加 z 可以 返回上一步节点过多时按住 alt 加 c 可以 折叠或者取消折叠所选节点。 ctrl 加 b 忽略选中的节点,节点被忽略后会变为暗紫色,且运行工作流时,此节点自动跳过。如果复制一下彩样器,调整一下参数, 忽略原有彩样器,方便对比不同结果。 选中节点后,上方会自动弹出几个选择,分别是颜色,可以改变节点颜色,方便区别后面是忽略或取消忽略。选中节点就是上面讲的 ctrl 加 b 的 功能,再往后是固定,固定后节点不可移动, 最后是删除该节点。节点过多时可以右键空白区域添加组,给组进行命名。 确认后可以拖拽移动,右下角放大缩小,把需要归到同一组的节点都框进去。拖拽组,框内的节点可以一起移动,然后可以把组改个颜色。确认后可以点击图标按钮固定住 组,也可以复制粘贴。双击组名可以重命名,不同的组可以编辑不同的颜色,方便整理工作流。选择组内节点可以单独移动,拖出组的边界后,该节点自动退出该组。 以上就是刊飞 u i 基础操作及常用快捷键的介绍,关注我下个视频,我们一起来搭建基础文声图和图声图工作流。