前两天我们介绍了 open code、 cloud code、 open work 以及 open cloud 这些容易让人混淆的工具。当然,你没看过也无所谓,因为今天要介绍的这款工具,不仅包含了它们的功能,还更加适合小白使用。 它就是把 ai 命令行装进现代化容器的神器 i on u i, 让普通用户也能驾驭顶级 ai agent 的 可式化指挥中心。 终端多开切到手软过去呢?你写代码要开一个,终端运行脚本要开一个,让 ai 查资料还得切浏览器,一旦报错呢,你在几个窗口间反复横跳,心态很容易爆炸。 ionui 最直观的价值,就是把分散的命令行工具整合到一起,变成一个漂亮的图形界面,可以任意切换。 像 cloud code、 open code 只能用默认模型,但是谷歌 c l i 呢,则既可以选择自家模型,也可以自定义接入国内二十多家 ai 模型供应商,按需切换即可。 它支持多任务并行,你可以在左侧边栏开启多个绘画,让多个 ai 工具同时做不同任务,互不干扰,一目了然。 因为调用的都是这些 ai c o i 本身的功能,所以一样可以读写编辑你的本地文件、 ai 生成的文件代码呢,还可以直接预览 ai 操控浏览器配置难如登天。 以前想用 browser use 让 ai 帮你自动抢票或下载资料,你得先装 python 环境,配 playrite 处理各种依赖报错。好不容易跑通了,发现它打开的是个白版浏览器,没登录账号,啥也干不了。 而 i on u i 的 杀手锏,就是直接内置了谷歌官方的 chrome devtools mcp 协议,它能直接接管你正在使用的 chrome 浏览器,这意味着不需要让 ai 重新登录账号, 你的资源、网站、网盘、账号它都能直接用。它不仅能看网页,还能通过协议查看控制台报错和网络请求,比普通的视觉 ai 点击更精准。 想躺在床上遥控电脑干活?最近 open loop 不是 很火吗? i on ui 一 样支持一键开启 web ui 模式。你在电脑上启动了 i on ui, 就 可以通过任何设备的浏览器,或者用 t j 钉钉飞书来远程操控这款工具。 不过要记得,不管是远程问答、操控浏览器,还是读写本地文件,都要先授权一遍他才能继续操作。 还有一些其他功能,大家就自行探索吧。比如谷歌的绘画模型也支持 mcp 呢,可通过 gson 配置,也可以从 aicl i 里安装好的 mcp 直接同步过来。 助手里呢还有很多预设的智能体,按需选择即可。避坑指南,虽然 ionui 很 强,但是想要用的爽,有个坑呢,一定要避开。很多朋友习惯用普通的 ai 模型去分析网页, 结果往往是提示上下文一出。这是因为现在网页的代码量极其庞大,普通模型的脑容量太小,一口吃不下会直接报错罢工。强烈建议大家选择这不奈他拥有百万头肯的超长上下文,是目前唯一能把整个网页代码生吞下去还不卡的模型。 而且配合谷歌云赠送的一千美金额度,个人使用呢,几乎是免费的。如果你需要的是一个全能数字助理,帮你操控浏览器,整理本地文件,多现成处理杂物,那么 i on u i 就是 目前市面上体验最好、门槛最低的选择,有需要的赶紧去试试吧! 好了,就给大家介绍到这里吧,可在私信中发送关键字工具,按发布日期获取本期分享,如果视频对你有帮助,记得转发支持,我们下期再见!
粉丝5.0万获赞24.6万

二月十五日 com ui 新版整合包重磅更新,妥妥的新手小白福音,全全中文界面,完全不需要懂英文。更惊喜的是,这次整合包直接内置了两百三十个 ai 模板,全是大佬们都认可的实用功能,还全都帮你整理成现成的 工作流了。安装也还是超简单的,三步就能搞定,一下载二解压三双击打开,一键升图,一键升视频,一键做音乐,一键建模,所有操作都是点一下就能实现,特别省心。模板数量太多,我就不挨个介绍,想要的小伙伴七七八直接带走去玩。接下来开始软件教学。 hello 各位小伙伴大家好,欢迎来到 kufui 系列教程的第二节课,那么在本节课中,我们将介绍 kufui 的 配置要求以及安装与部署的过程。那么首先是电脑配置以及系统环境的介绍,首先是显卡方面, 最低要求是拥有四 g 级以上显存的英伟达显卡,如果显存不足,可能会影响到绘图过程的流畅度。接下来是 cpu, 关于 cpu 要求不高,英特尔十代 i 三以上就可以使用,但推荐使用性能更强的,如英特尔十三代 i 五幺三六零零 kf, 以获得更好的性能。 接下来是内存,内存至少需要十六 gb, 推荐三十二 gb 以上,以确保可以加载和运行较大的模型。 最后是硬盘,关于硬盘呢,至少需要两百 g 的 空余空间,推荐使用大容量的固态硬盘,因为 ai 绘图过程中会下载和生成大量的模型以及图像数据。那么接下来我们详细介绍一下 cf u i 的 下载以及部署方式。我们先安装资源包里面附带的启动器运行依赖, 接着打开解压之后的 cf ui 文件夹,在文件夹内找到 a 会式启动器,随后点击一键启动即可。首次启动时可能会安装一些必要的环境依赖。 稍等片刻后,我们便来到了 cf ui 的 主界面,接下来介绍第二种安装方法,官网资源包的安装,当然关于官网的资源包我们也可以在评论区内获取。我们解压完资源包后,在文件夹内找到这个项目, 双击运行,等待片刻后,我们便可以来到最原汁原味的 comfui 界面了。这个版本的 comfui 是 没有装任何非官网的插件的。 此外, comfui 完全离线工作,对 gpu 的 要求相对较低,但是也有 cpu 模式,不过在 cpu 模式下绘图速度较为缓慢。如果小伙伴们之前有使用过 webui 或其他类型的 stefusion ai 绘图应用,那 我们可以通过修改 comui 的 配置文件来实现在不同的 ai 绘图应用间共享大模型以及 loa 等等,以此减少对硬盘内存的占用。那么接下来我将向大家演示一下 如何将我们的 comui 大 模型以及 loa 的 加载路径修改成 web ui 的。 如果小伙伴们没有玩过 web ui, 那 么这一段可以直接跳过。好的,那么我们打开 comui, 接着我们找到这个文件 extra model path y a m l 点 example, 接着我们用记事本打开。好的,那么打开之后我们找到这一项 base path, 我 们要做的是把 base path 后面的这一串改成我们 web ui 文件夹的路径。比方说我们打开了 web ui 的 文件夹后,我们可以单机上面的这个栏目, 随后 ctrl c 复制。接着我们回到刚才的记事本内,将我们刚刚复制的路径粘贴到此处,随后我们保存并关闭记事本。接下来的一步很重要,我们需要将 example 以及这个点给删除,也就是将我们的文件名后缀改成点 y a m l, 随后点击确定即可。那么接下来我们打开 ctrl u r 来确认一下。 好的,我们这边看一下区块朋友加载器里面的大模型,点开后我们可以看到多了,非常多啊,那么这就证明我们成功把模型路径合并到了 vip ui 内。好的,那么以上就是关于本期的全部内容了,如果你觉得对你有帮助的话,那不妨给个三连加关注吧,我们下期再见,拜拜! 欢迎来到 kufu y 系列教程的第三节,那么在本节课中,我们将一起了解 kufu y 的 主界面以及各种参数到底代表了什么。最后我们将学习 stability fusion 生成图片的根本原理。好的,我们打开了秋月大佬的会式启动器后,点击一键启动。 经过一段时间的等待后,我们便来到了 comfyui 的 主界面。那么我们在面对 comfyui 这个完全陌生的软件时,我们要做的就是初步了解每一个模块的大体含义,那么接下来我带着大家过一遍。首先是操作方式,我们可以通过鼠标的滚轮来控制画面的缩放, 按住鼠标左键,我们可以拖动我们的仕途。点击鼠标右键,我们可以看到有非常多的栏目,这边我们可以试着点击新建节点,随后我们可以看到有非常多的节点可以供我们选择。好的,那么之后我们再来说一下快捷键,生成图片的快捷键是 ctrl 加 enter 框选节点的快捷键是按住 ctrl 加鼠标的左键。移动框选目标的快捷键是按住 shift 加鼠标的左键。 这边我们在框选完后,如果不按住 shift 直接进行拖动的话,我们可以看到此时只有单一节点进行了移动,剩下的快捷键我都放在这了,小伙伴们可以暂停观看。 好的,那么接下来我带着大家一起来解读一下这个默认工作流。首先在这边我们可以看到有个叫 checkpoint 加载器的东西,这个节点的主要作用是加载扩散模型,也就是我们常说的大模型。 此外该节点还提供适当的 ve 以及 clip 模型,具体它们是什么我们带回讲。我们顺着 checkpoint 加载器的节点连线,可以看到这里有两个 clip 文本编码器,在这里我们可以看到它们的输入都是 clip, 而他们的输出都是条件。那么究竟什么是 clip 模型呢? clip 全称为 contrasted language image pre training, 是 由 open ai 公司在二零二一年发布的一款多模态与训练神经网络模型。 clip 模型的作用是理解我们输入文字的意思,比如我们输入 one go 生成的是一个女孩,而不是太阳, 这就是 clip 的 作用。接着我们顺着 clip 文本编码器的条件输出看过来,连接到了 k 采阳器上,这边我们可以看到 k 采阳器一共有两个关于条件的输入,一个是正面条件,另一个是负面条件,那么这代表着连接着正面条件的文本编码器内的提示词为正面条件提示词, 也就是我们常说的负面提示词。好的,我们把目光重新回到 k 采阳器内, 我们可以看到除了正面条件以及负面条件外,还有两个输入,分别是模型以及 latent, 那 么模型则是连接着刚才的 checkpoint 加载器,也就是我们的大模型。那么这个 latent 究竟是什么意思呢? latent 通常是指前空间,可以理解为 static fusion 内部流程中的图像格式。如果将图像作为输入,则需要通过 v i e 编码将其转化为 latent 数据 在最后输出时也需要通过 ve 解码将其转化为像素空间,也就是我们最终看到的图像。这边我们可以看到 k 太阳器的 laten 连接着一个叫做空 laten 的 节点,这个节点内共有三个参数, 分别是宽度、高度以及 p 四大小。宽度和高度决定了我们最终生成图像的尺寸,而 p 四大小则代表着每生成一次将出多少张图。比如说我们将 p 四大小改为三,高度改成七百六十八, 最后我们按 ctrl 加 enter 进行生成。好的,这边我们可以看到一次性生成了三张图像,也就是我们 p 四数目的图像。接下来我们继续看 k 太阳器的其他参数。 首先是随机种,随机种的值我们一般称为种子值,每张图都有专属于他的种子值,我们也可以理解为种子值,就是图片的 id 号码。接下来是运行后操作,点开后我们可以看到一共有四个选项,分别是固定、增加、减少、 随机。如果选择固定,则在你生成完后,种子值会保持不变,方便你进行其他的调整与操作。那么接下来就是采样步数,采样步数越多,计算机的运算时间越长,在大多数的情况下,我们的采样步数保持二十到三十步即可。接下来是 c f 居值,该值的意思是提示词引导系数, cf 居值越高,则代表着生成图像与提示词之间的联系越紧密。 cf 居值越低,则代表着提示词对生成结果的影响越小。不过过高或过低的 cf 居值都会给图片带来不好的影响, 所以我们一般保持适中的 cf 居值即可。接下来是采暖器和调度器,我们可以理解它们为图像的生成方式,如果我们将其他参数比作是食材, 那么它们则是烹饪方式,不同的烹饪方法当然会带来不一样的结果。比如我们点开采暖器后,可以看到有非常多的选项,这里我们目前最好的一般是选择这个 d p n 加加二 a m 或者 d p n 加加二 a m s d e, 这两个都是挺不错的。接下来点开调度器,我们也是可以看到有非常多的选项,这里我们一般选择的是 carrots。 最后我们可以看到还有个降噪参数,由于该参数是跟图生图有关的,我们以后再说。 接下来我们看一下右边有个叫做 v i e 解码的东西,那么我们可以看到这边有两个输入,分别是 laten 以及 v i e。 至于 laten 刚才我们已经解释过了,也就是前空间图像,那么 v i e 究竟是什么呢? v i e 全称变分字编码器 variation auto encode 的 缩写,它是一种深度学习模型,主要用于无监督学习任务,特别是在生成模型领域。 ve 结合了神经网络和概率图模型的特点,而他在康复以外的作用是将我们的前空间图像编码成像素空间图像,或是将像素空间图像编码成前空间图像。除此之外,我们还可以双击屏幕上的空白处,最后就可以搜索节点,比如说搜索加载图像, 或者我们也可以双击搜索预览图像。这边再多说一嘴, v e 解码之后的图像节点,我们也可以直接连接到预览图像上, 比如说我们现在把这个保存图像节点给删去,如果这么操作的话,那么我们生成的图像不会被保存,接着我们再生成一次。 这边还要注意的一点是,在我们搜索节点的时候,我们也可以输入英文,比如说加载图像的话,那么就是 load image, 那 么我们可以看到这两个节点是完全相同的。接着我们再来说一下,比如说当我们输入英文的时候, 同样的也是 load image, 但是这个时候我们加了一个空格,好,我们可以看到这里面并没有出现加载图像的节点,那么这也意味着在我们搜索节点的时候,我们要注意区分节点的名称是否有空格。好,比如说我们需要搜索加载图像节点, 那么我们删去 load image 之间的空格之后,我们可以看到,哎,是不是加载图像节点就出现了? 好的,那么以上就是关于默认工作流的全部解释,接下来我们来看下界面还有其他哪些模块。首先我们点击左上角,这里有个文件夹, 点开后我们可以看到我们的工作流都保存在这,这边可以点击新建,那么我们就新建了一个新的工作流,当然我们也可以点击这个 import, 也就是输入我们的工作流,或者说是输入我们的文件夹。 最后我们点击 models, 我 们可以在这里找到并且下载相关的模型。接着我们来看一下右边的栏目,首先是该栏目的左上角,我们按住后可以进行拖动, 然后是这个齿轮标志,点开后我们便来到了康复以外的设置界面,在这里我们可以设置语言,点开后我们可以看到有中文,繁体中文,英语以及日语韩语等等,我们往上翻可以看到有其他的功能,比如图像面板顺序,图像面板的位置等等等等。 我们往下看,这有个文本补全,这个 enable 我 们一定要勾选上,这代表着它的起用。文本补全的意思就是在我们输入提示词的时候,会有这些英文短语的提示, 我们往下看有个添加提数字队列,这个是生成的意思。接下来我们可以看到有个保存的选项,点击该按钮我们便可以保存当前的工作流以及加载,那么就是加载工作流,同样的意思。 接着是重刷新,比如说我们下载一个新的大模型之后,那么我们点击重刷新便可使用。接下来还有个重点就是管理器,这个是 com 浏览器里面最重要的节点,点开后我们可以看到有非常多的功能, 比如说这边有数据库以及频道方式,预览方法,表情等等等等。这边预览方法我们一般选择的是这个 later to rgb, 然后表情这一栏我们一般选择的是名称, 也就是标签名称。选择了之后,我们可以看到节点的右上方一般会出现一个小狐狸按钮,而小狐狸按钮则代表的是它是官方节点。比如说我们加载一个新节点, 那么我们可以看到该节点是属于 animate develop 节点组的。接着我们回到管理器这六个 custom node manager, 点开后我们可以看到有非常多的节点,在这里我们可以查找以及安装我们想要的任意一个节点。在今后的学习过程中,我们会频繁使用到这一个模块。 接着我们看到 model manager, 在 这里我们可以安装我们想要的任意一个模型,注意模型不是节点,他们是分开来的,至于该模块我们今后也会频繁的用到。好的,在介绍完 comf 以外的主界面以及各种参数后,我们来了解一下 stepifuion 的 内在运行原理, 就可以方便我们理解并掌握进一步的学习内容。在我们输入完体式词之后,文本编码器的 click 模型会将体式词转化为特征向量, 然后再由 ve 编码器将这些特征向量传输到前空间内,这些特征向量在前空间内不断的降噪,最后再由 ve 解码器将这些经过降噪之后的特征向量解码成由一个个像素所组成的图片。好的,那么以上就是本期的全部内容了, 如果你觉得对你有帮助的话,那不妨给个三连加关注吧,我们下期再见,拜拜! 哈喽,大家好,欢迎来到康复 u i 系列教程的第四节课,那么本节课我们将一起学习纹身图的相关知识 以及提示词的语法。在第三节课的结尾,我们一起学习了 step diffusion 康复 u i 的 基础工作原理,那么现在我将结合默认的纹身图工作流来讲解其中的工作流程。 首先第一步,在我们输入完正负相的提示词后,文本编码器内的 clip 模型会将我们的提示词转化为特征向量输送到 k 彩样器内。那么这边有个疑问,就是文本编码器的 clip 模型从哪来呢?我们顺着这个节点往下看,可以看到它来自于 jpeg 加载器, 而这个加载器主要是加载各种各样的大模型,也就是说文本编码器内的克利普模型是属于各个大模型的内置克利普模型,而不同的大模型之间克利普模型也可能会有所差异。那么接着我们可以看到这个朋友加载器的输出有个 v a e, 那么也就是说他提供了 ve 模型,我们看看连到哪哦,连到了 ve 解码这里,而 ve 解码的作用就是将 k 传感器内经过了降噪之后的前空间图像解码成像素空间的图像,也就是我们肉眼可以看到的图像。这边我们可以做个实验,先将种子值固定,最后断开 ve 的 连接, 然后我们生成,我们可以看到这边是直接报错了,而这个报错的意思是缺少了 ve 的 输入,那么接下来我们重新将 ve 模型给连上,随后开始生成。这边再提一嘴,生成的快捷键是 ctrl 加 enter。 非常的实用,请牢记。 如果说你想调节生成图片的尺寸,那么我们可以在空内存这里,比如说我们将高度调成七百六十八,注意这个数值一定是八的倍数,宽度也一样。 至于 p 次的话,则是控制单次生成的图片数量,比如说我们设置成二。好的,我们摁 ctrl 加 enter 开始生成。 图片生成后,我们是不是可以看到它的比例已经成功变成了竖屏的比例,并且它一次生成了两张图像?好,接下来我们一起学习题序词的相关语法。首先我们来聊聊书写规范, 不论是正向提示词或者是副向提示词,我们在书写的时候一定是英文以及英文的标点符号,不然系统可能会识别错误。比如我们输入 one girl garden, 还有 yellow dress 黄色的裙子。这边再提一嘴,生成的快捷键是 ctrl 加 enter。 好 的,我们得到了一个穿着黄色裙子在花园中漫步女孩的图片。那如果说我们用中文来输入,结果会是什么样呢?一个女孩花园以及黄色的裙子, 我们这边可以看到,不能说是毫无关联吧啊,他们至少图片中都有女孩,但是黄色的裙子以及花园很明显没有在图片中出现。接下来我们来讲一讲题序词的权重。 在这之前,首先我们要理解什么是权重。对于权重概念模糊的小伙伴,我们可以理解权重就是比重 分量,那么一个提示词的权重越高,它的分量就越高,它的比重就越高,它在整体中的地位就越高。比如现在一个提示词的权重是一点二,而另一个提示词的权重是零点九,那么当然是一点二的提示词会占更大的比重。那么接下来我们做个演示, 比方说我们输入 one girl garden, one girl 的 权重是一点二,而 garden 的 权重是零点八,那么画面会更侧重于 one girl 的 展现。那如果说我们 one girl 的 比重是零点八,而 garden 的 比重是一点二,那么画面会更注重于描述花园是怎么怎么样的。 好的,接下来我们来讲一讲我们该怎么去控制提数字的权重。首先是中括号,中括号代表着零点九倍的权重,也就是说给提示词加上中括号后,提示词的比重会变小,会降低它的重要性。 那接下来是小括号,小括号代表着一点一倍的权重,比如我们给一个提示词加上小括号后,那么该提示词在画面中的比重 就会增高。最后是大括号,大括号代表着一点零五倍的权重,算是一种微调。当我们给某个提示词添加两个中括号时,那么就相当于为这个提示词加上了零点九乘以零点九倍的权重。零点九乘以零点九是零点八一, 那么就相当于给这个体式词加上了零点八一倍的权重。那么同样的,当我们给一个体式词加上两个小括号时,那么就等于一点一乘以一点一倍的权重,那也就是一点二一,相当于我们给这个体式词加上了一点二一倍的权重,大括号也同理。 那么有的同学可能会问,关于这个权重的变化有没有什么快捷键呢?哎,这个还真有。比如我们将光标移动到某一题是此上时,打个比方说 garden 摁住 ctrl 加上键,那么就是给他加权重,我们可以看到他的权重在不断的增加, 那么 ctrl 加下键,那么就是减少他的权重,是不是很方便呢?不过我们要补充的一点是,关于权重我们要多低都行,但是不是减少他的权重是不是很方便呢?不过我们要补充的一点是,关于权重我们要多低都行,但是减少他的权重是不是很方便呢?不过我们要补充的一点是,关于权重的话,图片就会过你和, 换句话说,图片就会变形,会失真。接下来我们来讲短句和长句。我相信不少小伙伴对我这么一个疑问, 为什么我写提示词的时候,一定是一个一个词这样去拼写,而不是用一句话去描述我们想要生成的内容呢?那么这边我可以很明确的回答你,其实两种都行,但是就目前而言, 用一个一个的词组去生成,效果会更加的准确,更能表达出我们提示词包含的意思。另外一点,使用一个一个的词的时候,也方便我们进行权重的调整。比如刚才我们有提到,将光标放在某一体字词上, 然后按住 ctrl 加上或下就可以调整该体字词的权重。那么如果说是一句话的话,你想调整某一体字词,那么可能就得手动去输括号,进行相关的权重调整。当然现在全世界的 a、 i、 g、 c 从业者也在不断的去 研究该怎么样让自然语言,也就是我们的长句能达到媲美短句的效果。 接下来我们来讲一讲提示词的整体长度,这边要注意,比如我们在输入正向提示词的时候,并不是说越多就越好多可能会让你的表现更加糟糕,那么我们最好把提示词控制在什么数量之内会效果最佳呢?经过众多 a i g c 玩家的经验以及研究表明, 提示词控制在七十五个之内是效果最精准的,超过了七十五个提示词的话,可能会对提示词的识别不精准,整体的表现会降低。正向提示词如此反向提示词也是一样的,记住最好不要超过七十五个。 接下来我们来讲一讲骑手势,那么什么是骑手势呢?在 stability fusion 各个大模型训练的过程中,会加入许多的 如四 k, 八 k 或者 masterpiece 各种各样高质量的图形去训练,那么当我们在输入提示词的时候,比方说输入四 k masterpiece, 那 么就可以使我们生成的图像更加的精美。反向提示词的话,那么就相反,比如我们输入模糊, 是文不想要模糊嘛,那么相当于也是会让图片变得更加的清晰,或者说我们在反向提示词内输入文字 text, 那 么在画面中就会减少文字的出现。这边我们可以来看一下这几组的对比,差异还是很明显的, 接下来我们来讲讲提述词的顺序。或许有小伙伴会有疑问,一个提示词在整体的前部或者是在整体的后部会有什么影响吗?答案是会有影响。在一组提示词中,越靠前的提示词权重会有所增加。那么在我们书写提示词的时候,我们尽量按如下格式进行书写。 首先是书写那些可以提升画质的,或者说可以改变画风的一些词汇,比如 masterpiece, high quality, high detail, 类似这些词汇。第二步是描述我们画面的主体,比如我们可以说 one girl, blue dress, 一个女孩,蓝色的裙子。 那么第三步就是描写环境,场景,灯光或者构图。比如我们可以说啊 garden 背景嘛, garden 或者说是 white background, 白色的背景,或者说是 soft light, 柔和的灯光,类似于这些。那么最后我们可以在正向题词的结尾添上我们想要加的 laura。 关于 laura 和各种模型的下载,我上期视频也有介绍,感兴趣的小伙伴可以回去观看。 接下来我们来讲一讲提示词污染。那首先我们要知道什么是提示词污染,我们可以看一下这一组图片,未经处理时,在多个提示词同时书写的情况下,各个提示词的意思可能会相互渗透。那么为了避免这种情况,我们可以用 break 来隔开提示词, 尤其是防止颜色污染。之后我们来聊一聊题序词融合,比如我们写 one girl, cat 这边我们可以看到生成了一张猫在女孩身上的图片。好的,现在我们在 one girl 和 cat 之间添加上 end。 注意这里的 end 必须是大写,全部大写。这边我们可以看到生成了一张猫娘的图片。这个 end 的 作用就是将两个提示词融合在一起。同样的,下划线也有和 end 类似的作用,也是将两个提示词结合在一块, 除此之外,隔一组提示词用中括号括起来,中间再用竖线隔开,也有类似与融合的效果。那么这个的原理是,第一步画前面的关键词,第二步画后面的关键词,第三步又在画前面的关键词,以此类推。最后我们来讲一下控制生成的时间段, 比方说现在的迭代步数是二十步,在这过程中,我想让前百分之三十生成森林,后面百分之七十生成一个女孩。那么我们可以试着这么书写,大括号 forest 在 街上冒号 one girl 在 街上冒号零点三,最后以大括号结尾,那么这一长串 代表着是在百分之三十的时候结束画 forrest, 开始画 one girl。 那 么如果说我们把零点三改成零点七,那么意思就是前百分之七十画 forrest, 后面百分之三十画 one girl。 好 的,那么以上就是本期的所有内容了, 如果你喜欢本期视频,那不妨给个三连加关注吧,我们下期再见,拜拜! 哈喽,大家好,欢迎来到 cf ui 系列教程的第五节课,那么本期视频我将分享几个非常实用的 a i g c 网站以及大模型的下载还有使用方式。那么在本期视频开始之前, 我们先了解一下大模型以及 lora 的 存放路径。首先是大模型,我们一般放在 cf ui 文件夹里的 models 文件夹内的 lora 内。 有些小伙伴可能不知道什么是 laura, 那 么我们可以简单的理解为 laura 就是 非常精简的小模型,它一般搭配着大模型使用,从而让我们的生成结果更具风格化或是质量提升。 首先是利布利布 ai, 利布利布目前是国内最有权威并且规模最大的 ai gc 网站之一,该网站包含了模型下载、作品灵感 在线生图,还有训练 laura 以及诸多功能。我们一起来看看模型广场,这里有诸多模块,动漫、游戏、插画、二次元幻想、手绘风、工艺风等等等等, 在这里都能找到你想要的相关模型。当你工作或生活中没有灵感的时候,我们可以来到这里看看大家上传的图片。如果有你喜欢的图片的右下角有生成信息,我们可以复制相关参数到 stable future 里面自行生成。第二个网站是 nova ai 点 dv, 该网站侧重于辅助功能,比如这个法术解析,我们可以把已下载好的 stable future 图片拖到这里来, 那么它就会进行相关分析,最后汇总成一个参数表格。当然我们可以复制这份参数表格到 stability fusion 里面,在这里有相关详细的使用介绍,我们看看侧边栏,这边有各式各样的标签供您挑选, 我们可以利用这些标签去组成我们想要的关键词,然后复制到 web ui 里面进行生成。此外,该网站还链接了 a i g c 的 社区,比如之前在 liblib 上看到的画作分享模块,这边也有,并且这边还对各种各样的图片进行了分类, 总体来说还是挺不错的。好的下一个网站是 poemlib, 在 这里我们可以很直观的看到每一个提示词所带来的效果。当然提示词标签也是多种多样, 我们可以看到人物的各种特征这边几乎都有包含,如果你想添加某个提示词,那么直接点击就行, 随后会在右侧的侧边来显示,有点像购物软件的购物车一样。等我们选择完所有信息的提示词后,直接点击复制便可粘贴到 web ui 里进行图片生成。除了人物外,我们还可以看到这边有诸多板块,服饰风格、各种构图、质感环境 以及一些质量参数等等。接下来是国外网站,首先是 civate ai, 在 这个网站内汇集了来自世界各地创作者所训练出的模型, 同样的也汇集了来自世界各地 ai g c 玩家所分享的图片。比如我们喜欢某一张图片,我们可以点进去看它的详细参数,比如它使用了什么模型,什么 laura 等等。当然还有关键词我们都是可以复制并直接进入到我们的 web ui 内进行粘贴复现的。 除了图片外,这边还有大家所分享的 ai 视频。总的来说, cvitai 是 一个非常非常全面并且有着海洋信息的网站,基本上市面上的所有模型以及 laura 在 这边都能找到。 接着我们来看看下一个网站 huginface, 想必这个网站许多人应该都听说过,许多最新的模型 laura 等都是在这边开源发布的, 比如我们搜索 stable fusion 三模型,这边我们可以看到网页包含了模型生成的视例图以及模型的原理,还有模型的代码等等信息,并且只要你登录了之后便可以下载该文件。最后要介绍的网站是 gitap, 这是目前全世界最大的开源代码网站,在这里我们可以找到海量的信息,其中就包括 aigc, 各个大模型或者是各种插件最新信息 以及下载方式。比如我们搜索 stable fusion, 在 这里我们可以看到有关于 stable fusion 开源的所有信息,无论是运作方式还是本地部署,亦或是它开源的代码,我们都可以从这里得知。最后是模型推荐,我们知道现在市面上已经有着成百上千各种各样的模型, 那么这边 up 主帮大家整理了一下,选出了几个我认为较为好用的大模型。首先是 dreamriver 以及麦吉系列,它们的共同点就是生图质量较高,并且生图的类型范围非常广泛。 最后是 pignix, 这是一个二次元大模型,在有关动漫的图像生成上,它的表现非常卓越。 然后是建筑类的大模型, architecture realmix, 这个模型包含了建筑相关的一切领域,包括楼体创意,现搞转会、室内设计等等等等,它都能胜任。 好,我们回到康复以外,现在我们将用同一组提示词以及其他参数仅仅变化我们的大模型,来看一下生成的结果有什么差异。首先我们选择的是真实感的大模型。好,我们可以看到生成出来的图片非常的写实。接着我们换一个二次元系的大模型。 好,我们可以看到现在图片完全变成了动漫风格,那么这就是大模型的威力。接下来我介绍一下 lora 的 使用方式, 我们鼠标左键按住模型输出,拖出来之后,我们可以看到这边有一个 lora 加载器。好的,选择了之后,我们可以看到 lora 加载器分别有模型以及 clip 的 输入与输出,那么这边我们先将它的 clip 给连上, 接着我们再将 lora 加载器的模型输出连接到 k 太阳器这里,然后再将这个 clip 连接到文本编码器。那么我们稍微整理一下工作流, 那么现在我们先设置一个 lora, 我 们其他参数同样保持不变。比如说我们来一个这个梦中花境吧,我们提示词也是没有任何变化,随后我们开始生成, 我们可以看到明明我们的提示词没有任何关于花的词汇,但是我们的结果图却出现了非常多的花, 那么这也正是因为我们的 lora 起到了作用。不同的 lora 有 不同的效果,小伙伴们可以自己去尝试。好,那么本期的视频到此结束,如果你觉得对你有帮助的话,那不妨给个三连加关注吧,我们下期再见,拜拜! hello, 大家好,欢迎来到 comfui 系列教程的第六节课,那么本期课程我们将一起学习图生图的相关知识以及高清修复。那么在介绍图生图的工作流之前,我们先来讲讲什么是图生图。在我们使用图生图功能时, 我们一般使用一张图片与一组关键词共同作为输入生成的图像将收到这两个输入的共同调节作用,比如使用下面这张初级草图以及一段指令作为输入图中图功能会将其转化成一张完成度较高的图片。首先第一步, 我们输入的图片会由 ve 编码器编码从前空间图片并传入到前空间内。第二步,采暖器会向其添加噪音,通过设置降噪幅度可以控制究竟要添加多少噪音到原始输入的图像中,如果降噪幅度为零,则不会有任何噪音添加进我们的前空间图像。如果降噪幅度为一, 那么我们输入的图像会因为噪声过大而起不到任何参考作用。第三步,采暖器内的噪声预设器将 将上一步处理后的前空间图像与文字指令作为输入传回到 unit 网络,并预测出应减去的前空间噪声张亮。接下来前空间噪声张亮将会从前空间出属图像中减去,并得到前空间新的图像。并且第三步的全流程会重复特定的次数,而这个特定的次数就是采样步数, 比如说二十次,而这整个过程都是在采阳期内完成的。接下来到了第四步, ve 解码器会将降噪完成后的减空间图像解码成像素空间的图像,那么也就是图升图的最终图像。接下来我们回到 comfui 中,我们先加载一个默认工作流,随后将 comlinit 给删去。 接着我们点击 later 拖出来,选择 ve 编码,那么我们就成功加载了 ve 编码器。接着我们将 ve 编码器的 ve 输入连接到 checkpoint 加载器的 ve 输出上。随后我们将图像节点给拖出来,选择加载图像 load image。 那么这边我们上传我们需要的参考图像。这边我上传的是一个金发小萝莉,那么接下来我们要边写一下提示词。这边我们可以输入 one girl golden here, 然后再输入一个 lake, 也就是湖水作为背景。我们看一下啊,她穿的衣服是蓝色的,那我们可以说 blue dress, 接着我们可以看到他的衣服有一点点湿,那么我们可以加入 drench, 湿透的意思。还有白丝袜副象题诗词,这里我们一般输入的是模糊,也就是 blur 以及低质量 low quality, 还有文字,也就是我们不希望他出现文字。现在我们回到采暖器这里, 我们可以看到这边有个降噪,我们将该值修改成零点七,而对于降噪值,零点三到零点五之间属于安全的重绘幅度区间,而零点五到零点七则赋予了 ai 更多的想象与发挥的空间,那么低于零点三或者高于零点七, 图像都有可能会发生扭曲变形。好,那么这边我们先将该值设置成零点七,生成张图片试一下。 这边我们可以看到这两张图片的背景以及这个墓栈道还有人物的部分特征都是比较相似的,但是我们可以看到他们的年龄确实不太符合。那么接下来在关键词的前方加入一些质量提示词, 在我们优化完关键词之后,我们再次生成,看下效果如何。这边图片已经生成出来了,但是感觉还是不太相像,我们要做的就是将降噪幅度改成零点四五,之后我们重新生成一次,看一下效果如何。 效果是不是好了非常多呢?如果你觉得图片不太满意,那么我们可以多生成几张,直到得到你满意的图片为止。 那么接下来我们讲一下什么是高清修复,比如说我们现在生成的这张图片我们非常满意,那么我们怎么增加它的分辨率以及图片的细节呢?好,那么我们这边回到 k 采集器,我们先将种子值选择的是固定模式,随后稍微整理一下工作流 双击界面的空白处,输入 upscale, 然后我们选择 later 按系数缩放,我们将该节点的 later 输入连接到 k 渲染器的 later 输出上。 好,随后我们按住 alt 键,点击 k 渲染器拖出来,那么我们就复制了一份相同的 k 渲染器, 那么我们将这个 later 按系数缩放的 later 输出节点连接到我们新建的 k 渲染器的 later 输入中。 最后我们将文本编码器的条件输出分别连到 k 采集器的正面条件以及负面条件上,模型也是一样,我们回到 jpeg 加载器,将模型连接到我们新建的 k 采集器上。 好,随后我们回到新建的 get 检测器中,我们将步数设置成二十五, c f 居值我们设置成七。好,接下来我们点击这里选择这个 d p n p p 二 m 调度器,这里我们选择的是 carras。 接下来我们新建一个 ve 解码器, 随后我们将 ve 解码器的 ve 输入连接到 shift pro 的 ve 输出上。接着我们新建一个预览图像节点,随后开始生成。 我们可以看到这张图其实非常的不自然,那么我们该怎么去解决呢?我们回到我们新建的 k 采暖器这边,我们将运行后的操作改成随机,并且将降噪幅度改成零点五五,随后再次生成。 好,我们对比一下前后两张图片,我们可以看到脸还是变化比较大的,那么我们可以适当的降低降噪幅度,比如说我们改成零点五一再生成一次看看。 好,现在我们可以看到生成的结果,五官是和原图非常相近的,我们再来对比一下图片的细节,放大之后我们可以看到右边,也就是我们新生成的经过高清处理后的图片细节要比原图多很多,比如说水面上的气泡以及这些发丝都是非常的清晰的, 我们这边可以对比一下原图头发这一块一放大就变成一块马赛克了,而我们新生成的图片还是比较清晰的好,那么有的小伙伴可能会说,哎,这还不够清晰,那怎么办?别着急,我们还有高清修复的方法,那么接下来我们将进行第二重高清修复, 我们搜索 s d upscale, 也就是这个 s d 放大,那么接下来我们将这些节点一个一个的连上。首先是图像,我们连接的是这个 ve 解码之后的图像输出,接着模型我们还是老样子, 连接的是这个 point 的 模型输出,那么这边我推荐一个小技巧,我们将模型拖出来之后选择转接点,我们可以看到这边有一个小小的节点,那么这个节点的意思也就是代替了这个模型的输出,我们将 sd 放大的模型输入跟这个模型输出相连。 好,现在我们可以看到它其实也相当于跟我们的 point 连接在了一起。接下来是正负相条件,我们也用同样的方法拖出来选择转接点。 好,接下来我们连接 ve 模型,我们也是用同样的方法选择转接点,拖出来 连接 ve, 这边我们选择放大模型加载器节点,接下来点击这里,我们选择该选项,这个放大模型是我试用下来效果最好的。随后我们加载一个预览图像节点,接着稍微整理一下工作流, 好的,整理完工作流之后变得整洁了一些,我们开始生成图片,已经生成出来了,我们可以放在一起对比一下效果。 这张图的分辨率已经达到了二 k, 非常的清晰,我们可以看到细节都还是不错的。然后我们再来看一下第一次放大的图片,放大之后还是有点糊啊,对吧, 不过清晰度也还是可以得到保障。再来对比一下这个哦,确实特别的清晰。 随后我们再来看一下第一张图片的清晰度,这个放大之后就是一团马赛克了,对吧,差异还是非常大的 好,那么有的小伙伴可能会说觉得这张图清晰度还不够,哎,那怎么办?别着急,我们还有最后一重放大,那么加上了这最后一重放大之后,也就构成了所谓的三重放大。这边我们搜索 upscale, 接着选择这个图像,通过模型放大, 这个节点非常简单,只有两个输入以及一个输出,然后图像的话就连接到 sd, 放大之后放到模型这边,我们同样选择的是该模型, 随后我们将图像拖出来,选择预览图像。好,我们可以看到最终生成图像已经出炉了,我们来欣赏一下它的效果到底有多么的炸裂。 这是一张四 k 的 图像,清晰度非常的夸张,发丝都看得见,完全没有那种模糊马赛克的感觉,湖水也是很真实, 我们再来看一下对比第一张,那放大了之后全身马赛克对吧? 没法比啊,这个确实没法比,那么这就是本节课所介绍的图生图以及三重放大的效果。首先这是我们的原图,然后这是我们图生图之后转换成真人的图片,接着这是第一重放大, 第二重放大,最后这是第三重放大。好,那么本期的视频到此结束,如果你觉得对你有帮助的话,那不妨给个三连加关注吧,我们下期再见,拜拜! 这些这些,这些都是 ai 生成的,距离 flex 模型发布以来呢,它的相关生态已经逐步完善,那么我们今天就来看一下如何用 flex 生成像这样具有抄写式风格的 ai 图片。首先我们来到 kufui 界面,那么映入眼帘的是我们今天的 flex 生图 高清放大工作流,那么该工作流分为了两个部分,首先是黄色部分,黄色部分代表着 plus 基础生图部分,而蓝色部分呢,则代表着是高清放大部分。这个高清放大一共也是分了三部,那么我们的话,首先关于生图,我们就先把高清放大模块给进行一个忽略。 好的,接着我们回到我们的生图部分,来看一下其中有哪一些组建。首先我们来看一下这个生图工作流的核心节点叫做 essential, 这个节点呢,它是一位印度工程师写的节点,那么那一位印度工程师,他也是 ipad 的 作者。 ok, 这也是题外化, 那么这个节点他可以省去非常多的 flex 基础节点搭建。 ok, 我 们可以看到啊,我们整一个关于 flex 的 生图部分, 也就只有这些节点而已,那么我们首先的话来看一下这些,哎,关于必备的一些节点。首先是双 clip 加载器,在这里呢一共是搭载了两个 clip 模型,那么这也是 flax 模型跟其他大模型不一样的地方。我们可以看到 这个双 click 加载器连接的是一个专属于 flux 的 文本编码器,我们仔细看可以发现这个文本框它并没有分正负向提示词,而我们的一个核心组件呢,也是只有一个条件输入, 并没有分正负向提示词,那么它的意思是说在 flux 生成工作流中,我们已经不需要负面提示词的输入了。我们可以看到这个文本编码器,它一共也是分了两个部分,上半部分是使用 传统的提示词语法,也就是一个一个词组这样去编写。而下面这个部分呢,我们可以使用自然语言编写,也就是说使用 连贯的语句来进行文本的编写,而关于这个部分,我们最好是可以两个都编写上,这样子可能得到的结果会更加准确,那么这边的话,我们只填写一个文本框也是完全没有问题的。好,我们再来看一下其他的, 那么这边有一个叫做 eonet 加载器,这个 eonet 加载器呢,我们也可以理解为以前的 jumper 加载器,也是加载我们大模型的地方,我们可以看到,哎,咱们的 flex 模型就是在这边进行加载的。 那么首先呢, plus 模型啊,它一共有两个,分别是 f p 八以及 f p 十六,那我们这个叫做 f p 八的,它是一个十一 g 的 大模型,而 f p 十六呢,它是二十二 g 大 模型,有些电脑可能 hold 不 住,那么我这边的话,为了咱们的一个生存稳定性,我也是用的是 f p 八,好, 我们再往后看,那下面这个空位腾也就不用介绍了,和以前一样,也是控制宽高的地方,那么要注意的是这个 lo 胶带系,哎,我们这边 也是用的是 flux 的 专用 laura, 大家待会就可以看到咱们今天这个 laura 的 强大之处。好,我们再来看一下咱们这个主要的模块里面有什么参数。首先是种子值,这个咱们就不过多介绍了,还有就是采阳器,采阳器以及调度器呢,我们这边用的是 euler 以及 simple, 这个是针对于 flex 大 模型的一个彩样组合,如果说你切换的话,图片效果会变得很糟糕。接着我们可以看到彩样步数,哎,我们发现没有,不是特别高,对吧?十七不高,因为据实验统计, flex 大 模型啊,在生图的第十五步之后,其实就已经变化不大了,那我这边时期呢,也是为了增加多一些细节吧。那后面的话有个叫做 guidance, 也就是引导系数,我们设置成三点五就可以。接着我们来看 vae 加载器,那么我们的 flex 也是有专门独属于它的 vae, 叫做 flex vae, 哎,这一个我们可以留意一下,那么关于我们的 vae 也好,咱们的 flex 专属 lora 以及专属的 clip 模型, 我们都可以在评论区进行一个资源获取。那么接下来的话,我们就直接来进行生成,来看一下 plus 大 模型啊,它到底有什么强大之处? 哎,我们可以看到这张图是不是非常的真实,对吧?啊,真实度非常的高,它仿佛就好像是用手机拍出来的感觉,那么这也是要归功于我们的洛尔,这个洛尔的效果呢,叫做 plus 小 红书, 那么它的效果也是为了能够更贴近咱们真实用手机拍出来的图片质感。接下来的话,我们把种子纸给换一下,接着我们再稍微改一下提示词, ok, 我 们再点击执行队列来进行一次生成。好的,我们可以看到啊,那么一张小姐姐的图片就这么生成出来了。如果说大家不是看到咱们这个 ai 工作流, 咱们是在比如说自媒体上看到这样的图片,那真的是真假难辨,毕竟它还原度非常的高,它和咱们现实世界用手机拍出来的质感,或者说用相机摄影和 ps 过的质感是非常相近的。 那么除此之外呢,我们也可以进行进一步的高清修复,比如说我们想让他画面更多细节的话,那么咱们就把高清修复模块给打开,接着我们直接点击执行队列就 ok 了。 好的,经过了漫长等待后,最终图像也是生成了,你觉得效果怎么样呢?如果你觉得本期视频对你有帮助的话,相关工作流以及资源包都可以在评论区进行获取,我们后会有期,拜拜观众朋友们。大家好啊,今天讲一个小技巧,可以让我们 fux 的 图脱离 ai 感, 然后这个就是 fux 直接出的,我们这次使用到的技术叫噪声添加或者叫噪声注入,你会发现这张图就会少一点 ai 感,对吧? 然后包括他衣服上的一些细节,他都会比呃直接出的会多出来很多。接着我们看一下其他图片,脸部的纹理、头发, 然后这个也是会发现噪声加入之后的图片会更加的真实,会少了那么多 ai 的 感觉。还有其他的应用,就比方说像出这种产品的图片,他会读出来更多的细节, 从细节上来看也是很 ok。 简单说一下这个原理,当然视频用到的工作流和模型我都打包好了,如果有需要的小伙伴可以在评论区留言,我会一一回复发送给大家。 这个原理很简单,就是正常采样是直接采完的,对吧?比方说四十步采样,然后通过四十步的去造后,到结束出一张图片,然后这边的技术就是说你四十步采样之后,先得出来一张图片,再重新把这个采样再逆过去,逆回去的过程, 到二十步的时候我再给你添加一些噪声,然后你再重新跑,然后这样就会多出来非常多的细节。具体我们到工作流里面去看一下,这是我刚刚跑的一张图,我们可以看一下它的区别,你会发现通过噪波添加之后,它的图片会多出来非常多的细节,并且少了很多的 ai 位。 简单说一下这工作流,这工作流我参考了国外两个在潜空间里添加细节的工作流,我这边用的是 f t 八的模型,然后这边我用了一个八步加速的 lora, 然后再加上了亚洲人脸 lora 这个加速度, lora 会把我们整个流程提速很多, 在第一次裁样完之后,他会到这里,这里会进行一个相当于一个逆裁样,就是他会回速到十五步,回速到十五步之后,他会来到这里添加一些噪波,添加完噪波之后,他会继续裁样的过程,然后最终得到我们这样一张没有 ai 位的图片。 我这边还用了一个锐化的节点,你们也可以关掉,如果觉得图像太锐的话,可以调整这个数值,然后这边有几个关键的参数, 我跟你们讲一下,如果说最终出来的图有很多噪声,噪点没有消除干净的话,你们可以在这边去提高它的强度,或者降低它的强度,提高它的强度之后,它会图片会添加更多的细节, 但是他有一个预值,大概我这边测试应该是在零点四吧,如果说你高于零点四的话,他可能会有些噪声,踩不完全就会可能出现一些脏脏的画面,脏脏的感觉。我这边建议的值是零点二到零点三,这边你们如果不太了解的话,就不要调了。 还有一个就是这个 latent 缩放系数调整,这个值可以保证你们最终出的图的清晰度会更高一点。如果说你们这里设置一的话,最终出的图可能会有一些模糊,但也影响不大, 这个最终就看你们怎么使用,我们这边可以跑一下看一下, ok, 我 们这个图跑完了,你会发现这个图片的细节多了非常多,对吧? 好,这就是我今天分享的工作流,如果有需要的小伙伴可以在评论区留言,我会一一回复发送给大家,然后喜欢的可以三连支持一下,感谢大家! 一直以来总有小伙伴问我有关 comfy 电商产品摄影图的问题,尤其能否利用最近大火的 flux 生成更真实更落地的产品图, 当然是可以的。今天我不仅会分享搭好的工作流,同时还会跟大家一起分析各部分的原理与功能,让你也能从零开始组合出自己的电商产品摄影工作流。电商图工作流程可以拆分成如下步骤,设计成品图片大小、物品大小、物品位置、背景等。 提供商品图片,从中获取主体和蒙版。将商品主体融合到生成的或者提供的背景中,添加光影效果,精细化成图,扩图、重绘等,还原商品细节,颜色校正,生成视频。 其中第三步是整个工作流程的关键,要求不高的小伙伴在完成这一步后就可以收工了。后续的五个步骤则是帮你实现更协调、绚丽、真实、精细的效果。 随着技术的发展,还能换成未来更新更好用的模型和插件。好话不多说,我们直接来工作流看一下。 首先我们使用 segment anything ultra v 二节点,提取沐浴露主体和蒙版,添加 image bind advance 节点,将主体放置在特定位置,添加 flux 纹生图流程节点生成符合要求的背景。接着接入 ic light 节点,为全图重新打光, 基于 s d 一 点五实现的 i c light 模型打光,图片质感稍微会差些。然后使用 flux 图升图,增加一些细节,调整彩样器里的参数,重绘幅度设置为零点三五,提升了画质。 由于彩样重绘,商品上的字体被重绘了,我们需要重连图恢复细节。目前主流的有两种方案,大家只需使用一种即可。 首先添加一个开宅实线的 i c light 插件里的 detail transfer 节点,恢复屏子上的字。或者使用 layer style 里的 frequency detail restore 节点,同样可以回复文字细节。 有些时候我们需要调整一下成图的颜色,针对不同情况,如果需要参考另一张图来调整成图的颜色,可以使用 colormatch 节点及图像调色。比如我喜欢刚刚 flex 重绘之后的那一张,就拿它作为参考来修正恢复细节后的成图参数,保持默认就可以。 还有一种情况比较常见,就是主题的颜色跟背景的颜色不太搭时,可以使用 auto adjust 节点,它能为程图遮罩里的内容进行自动调色。连接好程图与蒙版,添加一个图像预览节点。接着权重参数调整为三十 mode, 改成 lamb 加 set, 然后直接运行。 小伙伴们在使用时可能需要根据具体输入的物品来微调参数,现在我们来看一下经过各个步骤后的程图。好 flexing paint 方法就讲到这里, 视频中用到的模型和工作流我都打包好了,有需要的小伙伴可以在评论区给我留言,我会一一回复发送给你, 谢谢大家。哈喽,小伙伴们大家好,今天跟大家一起讨论一下 vlog 万物迁移在电商次世代的商业落地应用这一块的内容。 近年来, ai 技术在视觉领域的应用快速发展,尤其是在商业化落地场景中展现了巨大的潜力。 从传统的背景替换、局部重绘,到如今模型驱动的深度场景适配,这领域的技术和思路逐步走向成熟。以产品植入场景为例, 过去我们通过传统的工作流程实现效果,比如将项链带到模特身上,或者将沙发摆入不同角度的环境中,甚至在鞋子的展示上实现类似的穿着效果。这些方法虽然有效,但往往需要复杂的技术流程,如遮罩处理、边缘优化以及节点构建等。 而这些传统方式的局限性也逐渐显现,尤其在复杂透视关系或材质表现上容易出现问题。目前以 stable diffusion 为代表的生态系统中, flux 官方更新了一套生态,里面有深度轮廓。 redux 和 impaint 提供了更加精准的控制能力。例如通过 redux 的 参考功能和 feel 模型的配合,我们能够实现极高的一致性和还原度,甚至无需提示词便可生成贴近原图的效果。借助特定模型记忆物体外观,再将其复现到新环境中,不仅在视觉上更为自然, 光影适配与角度调整也更加流畅。视频用到的工作流和模型我会打包好放到网盘上,需要的小伙伴可以在评论区留言,我会一一回复发送给你。那么这个工作流具体是怎么去使用的呢? 我打开这个工作流给大家去说一下啊,这个就是在 com 与 i 里面去使用的,你拿到这个工作流把它拖进来就行了,这就是我们的 plus 电商万物迁移工作流第一步,在上方的加载图片,这里上传一张你的这个产品的图, 我已经跑了一次,这个是做的一个家具的下边边就是你的一个意向图,你可以从网上去搜,你可以用 ai 生成一张,一定要记得在这个地方右键遮照编辑器当中打开 他默认的话,这个图他是这样子的。那我希望把我的这个家具这个白底图把它放到哪个位置去,我们需要对应的去涂抹出来,把这个场景里面我们需要替换的部分把它涂抹出来, 涂抹出来的地方等会 ai 他 就去重绘我们涂抹的地方,这样子稍微的抹一下大概的位置就行了, 不用去涂抹的非常的精准,不用像我们有一些抠图技术,抠图非常的精准的这种边缘才能做它,这个不需要就简单的抹一下就行了, 点击这个 save, 剩下的就没有了,就这两步他已经开始给你去跑图了,最终他就会在这个地方去生成一个最终的结果。 看到这个图的这个场景,它的光影关系,包括它的角度跟这个都是不一样的,它都可以非常完美的融入进去,我并没有去做任何的什么 control net 控制啊这些,那它这里面的核心是什么呢? 它就是利用 flux 之前发行的几个大模型,除了我们刚刚说的这两步,打开这个工作流需要自己去操作的,那么这个是模型加载区, 可能你用的模型的路径可能跟我稍微有一些区别,那么你也可能要去加载不同的这个路径,你稍微的去检查一下这个模型加载区其实就是我们整个工作上的核心。 第一个就是我们用到了 flux 一 fill 这个模型,这个是 flux 的 重绘模型,它这个重绘技术非常的好, 那么我们在这个地方去重绘的时候,它就可以保证我们重绘的这个图跟原图它是非常协调,非常统一的。 包括我们这些家具的话,它这种光影关系,它会自动地去做这个光影的这种协调,这个 fill 模型非常重要,这个地方你要去自己去选一下你自己的路径。 clip 这个地方没什么好说的,一个 clip 八 a, 一个是 t 五 x x l f p 八,对吧? v a e 这边也是常规的,这下面这两个是做什么的?这个就是 flag 新出的一个 redux 的 模型,我们之前在评测 redux, 我 跟大家说过 redux 它把它这个风格迁移的非常的死, 我们当时一个比较保守的评价,它有可能很有用,有可能没有什么太多用,目前来看它就非常的有用,因为它控制的非常死,它就可以把这个图非常完美的迁移到这个图里面去。 风格模型加载器这个地方选择 flux 一 redux style 这个模型,下面这个是 clip 的 视觉加载器, 这个是我们使用 redux 模型必须要去加载的,选 c clip vision patch。 十四、这个模型后面就是它常规的接法,我们把这个风格模型接在我们的条件后面去这个 clip 文本里,不用去写任何的提示词,我们以前还去做一些什么图像提示词的反推,对吧? 现在这个地方提示词直接不用写,就空在这就行了,记住哈,你用这个 fill 这个模型的话, flex 的 引导这边选择三十差不多就可以了,其他的就是一个很常规的流程。那么这个 k 采阳器你们看到这里它实际上是两张图拼起来的, 那么它实际上是进一步的去强化最终生成的图片与原图的一致性。实际上这个也是受到一个叫 icloam 的 技术的影响,它的这个技术的思路其实就是我们在重绘的时候,我把这个图把它放在旁边,它去重绘的话,它会去严格的参照这张图来进行升图。 不过有个地方要注意的是,因为这个图我上传的时候就是两张图就拼起来的,那么我在拼之前得去记录一下每个图这个尺寸, 我们这边先去做了一个缩放,整体做了一个缩放,万一你这个图太大了,我们整体缩放到一零二四,你可能在七百六十八到一千五百三十六之间,这个整数应该都是可以的。 但是这个图片不要太大了,因为他还要去两张图拼在一起,如果你一张图一千零二十四,两张图拼起来,他差不多就是两千多了,这个图如果太大的话,可能会对你的显存消耗会比较大。另外一个就是把这个蒙版去做一个拼接, 因为我这个地方这个图就做了一个蒙版,那么他的蒙版要和他对应起来,那么我只是去重绘这块去就整个图,其实我现在把这个图给你扩大了, 我最后只重绘了这一块区域,他这种一致性就会更好,我们最后生成出来这个图之后,最终再把它切开,只留下这张图就行了。整个思路其实非常的简单,这个就是一个完整的工作流程, 大家把这个地方这几个模型你看懂了,实际上你自己去搭建起来,其实非常的容易,我们再来看一下,效果 好就分享到这里,如果需要工作流和模型的小伙伴在视频下面评论区给我留言,我会一一回复发送给你,赶紧玩起来吧, 谢谢大家!这个电商工作流利用了 flax 的 最新配套模型 redux 和 fill 模型,可以将模特迁移到指定的画面位置,可以用到比如家具类、机车类等所有需要模特展示的电商场景中。这里做个简要的使用说明。工作流需要上传两个图片, 第一个是主要上传需要参考的模特图,最好这个模特图也是在类似的场景中站立的,也是可以的。第二个图是需要添加模特的商品场景图,比如沙发或者椅子。 下一步还需要给添加模特的地方做一个遮罩编辑,在图片鼠标右键选择遮罩编辑器打开,在你希望模特出现的区域做一个大致的涂抹,可以适当大一些,这样 ai 发挥的空间更好。 绘制完成之后,点击直行等待一会,椅子上的模特就绘制出来了,可以看出生成的这个模特跟这个图片融合的非常好,包括和椅子的比例关系,光影色彩度都非常自然,但是这个指出的画质不是很高,还需要后期加高清修复缓解, 这都是很容易实现的,比如利用 siri 超级高清放大修复。感兴趣的小伙伴欢迎评论区交流讨论。视频用到的所有资料和工作流,我也会打包好放到网牌上,有需要的小伙伴可以在评论区回复,我会一一回复发送给你。好的小伙伴们,这期视频就分享到这里,谢谢大家! 紧急尬消息,某书平台惊现 ai 神作, 一位神秘大佬利用矩阵软件注册了上千个账号,疯狂发布超逼真照片,竟然成功骗过了平台的 ai 识别系统,点击量更是高的惊人。消息一出,群里瞬间炸锅。这位大佬透露,他使用的是 flex 大 模型的工作流, 生成的画面毫无 ai 痕迹,就连影楼专业的摄影师都直呼,你不跟我说是 ai 生成的,我真的以为这是相机拍出来的照片。 如果你还是 ai 新手小白,那么你一定要看完这个视频,学习如何使用 flax 工作流生成某书同款超逼真画面,轻松打造爆款内容! 首先下载我分享的安装包及工作流,再配合我之前的安装 comfyui 的 教程,然后打开这个 flax 某书写真工作流,接下来去利步利步下载这个写实逼真大模型。 好,我们点击进入。这里有模型使用说明,大家可以看一下。好,我们点击下载。将这个模型放置到 models 的 unit 文件夹,然后在 unit 下载器里加载这个超逼真大模型。下面 clip 下载器要指定 t 五语言大模型,然后指定一下 clip hi, 这是提示词大模型,最后再指定一下 ve, 这里的提示词可以根据自己的需要进行修改。好,我们点击生成一下,是不是就生成出这种照片级的画面了? 要是你的配置不够,你可以使用在线工作流,我们点击进入这里的模型,也同样的需要指定一下,然后根据自己的需要填写提示词。好,我们点击生成一下。哇塞,这么漂亮的女孩就生成了,是不是难以置信啊! 兄弟们,课间和相关资料已经上传到网盘了,需要的小伙伴请到评论区留言,谢谢大家!

g t t s 模型由阿里云通一千问团队研发,只在解决高保真语音生成与实时性之间的矛盾。 开源了零点六 b 与一点七 b 两个参数量级的版本,支持十种语言的语音克隆。运行。一点七 b 版本 仅需八 gb 显存,若需进行长上下文的高并发推理,推荐配置十二 gb 或以上的显存环。 阿里最近开源了千万三 tts 模型,它支持十种主要语言以及多种方言。它拥有超低延迟流逝生成,端到端合成延迟低至九十七毫秒。 智能文本离结于语音控制,支持基于自然语言指令的语音生成,可灵活控制音色、情感和韵律。目前提供了一点七 b 和零点六 b 两个版本,支持语音克隆。这里给出了环境搭建与下载模型的步骤。本期我们使用 i n u i 工具自动部署, 不需要手动搭建环境和编辑脚本。 i n u i 一个多 agent 的 聚合桌面工作台,它是一个成品开源软件,核心定位 ai 操作系统,不仅是对话框,而且是拥有操作系统权限的智能体。 我们借助它搭建环境和下载模型。下面给大家展示一下它自动化安装的全过程。模型选择君门来三 任务,搜索千问三 t t s 模型的仓库地址,并阅读瑞迪们文档,告诉我运行它需要怎样的硬件配置,安装步骤是怎样的。它调用搜索工具整理了千问三 t t s 模型的信息、硬件配置要求和安装步骤。 我让他查看一下我的 g p u 型号和显存,并整理一份本地部署文档。他执行命令查看了显卡型号和显存总量,并写了本地部署文档。我们点击右侧临时空间,可以预览 markdown 渲染后的文档。我让他依照文档帮我本地部署。 首先检查拍算版本和康达是否可用,然后创建一个名为宽三 t t s 的 康达虚拟环境,确保依赖隔离。接着安装必要包宽 t t s model scope c p, 并尝试安装 flash 腾,用于 gpu 性能优化 执行过程。安装 flash 失败,因缺少 torch, 转而先安装快按杠、 tts, model scope 和 cp。 到这里,杰曼娜的免费 api 不 足。我切换了千万模型。我让他总结当前完成的步骤。 ai 已经创建虚拟环境并安装核心依赖,也便写了测试脚本和一键启动脚本, 并提示一个不影响运行的警告。 ai 认为模型文件较大,建议我手动执行命令。下载模型还是交给它来下载。 ai 决定通过摩塔社区下载千问三 t t s。 模型。首次下载因超时中断,下载了约八百四十九 n b。 通过断点续传逐步完成,发现系统及依赖缺失,模块导入错误,权重文件滞留,临时目录重新触发下载完成文件归位。依赖修复安装缺失的音频工具 sucks 修正宽按杠 t t s。 导入错误,解决 gpu 加载失败。最终模型完整下载脚本 test t t s 点 py 和依赖修复安装扩大工具包,并成功运行脚本生成音频。接下来我们来看如何安装和使用 i n e y。 官方推荐使用安装包部署安装支持 macos、 windows 和 linux, 直接下载对应系统的安装包。 它自动配置环境,内置了 jimmy n c l i 的 运行环境除了桌面客户端,还可以通过 y b e e 命令启动网页模式,通过浏览器远程控制电脑上的 a 键。它是一个成品开源软件,也可以克隆项目原码部署,这就是软件主业。 它能整合 c l i 工具,将原本在终端中运行的 ai 代理工具整合到一个统一的图形化界面中。 gemini c l i, cloud code, open code 等我电脑上装了 open code 的, 但是它只能在终端运行。 我们用 i n u i 连接 opencode, 请运行终端命令 python 三 version, 并告诉我结果。看到结果 python 三十三点九。这个也可以配置其他的模型,点击设置这里登录谷歌账号之后,可以使用免费额度的 jamen i 模型,也可以添加其他模型。 支持调用 gemini, cloud, quench、 deep seek 等模型,不同模型协助完成复杂任务。软件本体免费模型费用取决于所选 api。 多代理协助,允许在一个界面里调用多个不同的 ai 智能体来协助完成任务。 m i c p 工具支持支持配置 m i c p 工具,例如连接 chrome dev tools, 进行更深度的浏览器操作。添加图像,生成模型。用户可以自定义模型员,也可以配置 api key, 个性化支持深色模式,自定义 css 主题。 亮点功能,智能整理,全盘解锁,批量操作这个文件夹包含 pdf、 xmind、 html, wav 多种格式文件。我让 ai 帮我自动整理该目录下的文件,按格式分类合并。 这里我们选择 co work 智能体,更换配置好的 deep seek 模型。它需要先查看当前工作目录的结构,允许创建一个详细的文件列表,以便更好地分析查看一些 html 文件的内容。查看 pdf 文件的原数据,继续允许。 deepseek 写了一个智能整理的脚本,现在给脚本添加执行权限并运行,确认执行整理脚本已成功运行。我们看一下,这是他整理后的文件夹。 xmind 的 文件,项目文档,技术文档, 临时文件备份。下面我们来测试这个 ui 专业设计师 agent。 我 们准备了相同的提示词,在不使用 agent 情况下, 先让 d p、 c 和千问 plus 生成一个 html 页面,点击右侧实时格式预览,支持九种以上的文件格式, pdf, word、 excel、 powerpoint 代码文件, markdown, 图片、 html 等。 这个是千问 plus 生成的 u i, 它直接把我给的中文提示词全翻译成了英文内容。 我们使用 ui 专业设计 agent, 让它根据 ui u x pro max 规则,先运行设计脚本,获取设计系统,然后再写代码,后续提示词不变,看一下它生成的效果。 ai 总结页面设计风格和亮点 ui u x pro max 是 一个开源的 ai 技能包,是解决 ai 审美缺失、幻觉与瞎编、风格不统一的问题。核心亮点,不依赖联网 api, 直接运行 python 脚本,解锁本地 c、 s、 v 数据库。多达五十七种 ui 风格,九十五种颜色方案, 五十六种字体搭配,二十四种图标类型,十一种技术站智能反模式,禁止 emoji 图标,禁止低对比度,禁止布局抖动。自动化设计系统生成,能够根据一句话需求, 自动生成完整设计文档。最后说一下注意事项, i n u i 是 非杀伤机制, ai 指令直通真实系统,无虚拟化隔离,执行删除或覆盖操作不可逆,不进回收站,必须开启执行前询问,手动审核 r m 等高危命令。软件本身开源安全,不偷传文件。 如果您使用 google jameson a p i 的 免费版本, google 保留使用您的输入数据和生成的响应来训练和改进其 ai 模型的权力。 由于 i n u i 可以 直接访问您的本地文件,系统使用免费密钥意味着您的私人文档代码和个人文件将被发送给 google, 并可能成为其公开训练数据级的一部分。对于敏感或专有数据, 请务必使用付费的企业版 a p i 密钥或运行本地模型,避免让 ai 扫描包含密码私钥的文件夹。希望本期视频对您有所帮助,我们下期视频再见。

ai 绘画圈爆炸即更新秋叶大佬康飞 u i v 三悄悄来袭,有电脑的宝子有福了!就在昨天,秋叶大佬悄悄发布了康飞 o i v 三版本,还是中文汉化版的,此次更新添加了许多升级版功能,解决了许多报错问题,无论是生成图片还是视频,速度快到飞起。安装只需三步一下载 解压康飞 u i 压缩包。二双击文件加重的 a 会式启动器来到康飞 u i 界面中。三,点击一键启动接下来懂的都懂,打开 comf u i, 生成自己想要的视频吧!

还在开七八个 ai 工具窗口,来回切换到崩溃,这个刚上线一个月就拿了十四点二 k。 github 新的开源项目,能让你的 ai 办公加编程效率直接翻三倍。 现在不管是写代码还是做办公,大家手里的 ai 工具越来越多, cloud code、 gemini c l i、 openclaw 这些各有各的本事,但官方的 cloud co work 只支持 mac 和 claw 的 模型, windows 和 linux 用户根本碰不着。而且每个工具都要开单独的终端,记一堆参数,切换来切换去,时间全耗在折腾工具上了,根本没精力搞正事。 这就是 ai ui 能爆火的核心,它解决了所有人都在忍,但没人彻底解决的痛点。把所有 ai a 阵装到一个 ui 里,还跨三大平台。 a n u i 本质上就是一个 ai agent 的 超级控制台,免费开源还本地运行,你不用再在终端里敲命令记参数。所有主流的 ai c l i 工具,它都支持 gemini c l i、 cloud code、 queen code、 opencla 这些全能塞进去,而且不管你用 mac、 windows 还是 linux 都能直接用。更狠的是,它内置了十多个专业助手,从文件管理到 ppt 生成、 pdf 转 ppt 到 u i 设计,把 ai 办公加编程自动化的路直接跑通了,甚至还能自己加 skills 扩展功能。首先说安装,你只要记住一句话,一键搞定,开箱即用。 直接去 gitlab release 下最新版本,支持 mac 十点一五加 windows 一 零加 linux 五泵土一八四加内存四 g 以上就行。 mac 用户用 hongrui 一 行命令就能装。 第一次打开它内置的 gemini client, 官方说不用配置就能用。不过如果你像我一样有多个 google 账号, ip 污染了也能自己加 apikey, 不 管是 openai、 cloud、 gemini, 还是通用千问,甚至本地的欧拉玛、 lm studio 都支持,灵活的很。 这一段是关键。我们慢一点讲,多 a 证和协同到底是什么意思?给你打个比方,以前你用 ai 工具,就像同时雇了七八个独立的临时工,每个人只干自己的活,你得挨个给他们派活收,结果还得自己协调。而 ai 的 多 a 证协同, 就像你雇了一个项目经理,把所有临时工都管起来,你只要跟项目经理说要做什么,他会自己派活,协调进度,所有结果都在一个窗口给你。 而且还支持多绘画并行,你一边让 ai 帮你写代码调试,一边让他生成 ppt, 两个绘画互不干扰,上下文还能独立记忆。对同时处理多个任务的人来说, 这简直是救命功能,效率直接拉满。这里要提一句专业术语,这就是多 a 卷统一调度,说白了就是让 ai 们自己组队干活,你只需要当甩手掌柜。 很多人以为 ai 工具的核心是模型有多强,其实真正能提升效率的,是能不能把不同的 ai agent 拧成一股绳,而不是让用户当那个费力不讨好的协调员。 另一个让我惊艳的功能是 web ui 远程访问,就相当于给你的 ai 控制台装了个远程开关,你可以把 ai ui 装在公司电脑或者服务器上,然后用手机、平板, 任何带浏览器的设备都能访问。不管是局域网还是跨网络,扫个二维码或者输账号密码就能登录。我亲测局域网,用手机访问,第一次加载慢一点, 后面交互速度快的很,甚至还能集成 telegram、 飞书、 slack 这些聊天平台。真正实现七成二十四小时 ai 陪伴,不管你在公司还是家里,想让 ai 干活,随时喊他。 还有两个小功能,但实用性拉满。一个是实时预览面板,支持 pdf、 word、 excel 代码、 markdown 等九种格式。 ai 生成的文件或者你自己的文件,不用切换到别的应用,直接在 a i u 里就能预览。甚至编辑调试 ai 生成的代码时,改完立马看效果,效率直接翻倍。 另一个是定时任务,你用自然语言告诉 ai 要做什么,比如每天下午五点汇总今天的项目文档,设置好时间,它就会自动执行,七成二十四小时无人值守。对于经常忘事的人来说,这功能简直太贴心了。 它还内置了十多个专业助手,比如 call work, 能帮你处理文件、规划工作流。 pptx generator 直接生成演示文稿、 pdf 转 ppt 一 键搞定。 uix pro max 有 五十七种风格,九十五种配色, 甚至还有 beautiful mermaid 帮你生成流程图。我让它生成过 python 工作流 agent 的 学习路线图,步骤清晰,内容准确,水平相当高。 这里我要插一句,很多人觉得这些助手只是凑功能,但在我看来, i o n e 的 真正野心是把 ai 办公加编程自动化的全链路给打通,从需求输入到结果输出,不用你再换任何工具,这才是未来 ai 工具的终极形态。 最后我给大家抛个问题,现在 ai 工具要么是垂直细分的小工具,要么是 all in one 的 大一桶平台。你觉得未来的 ai 办公会是哪种形态占上风, 是每个人都用一个超级控制台,还是每个人手里一堆小工具自己组合?我个人已经下判断了,未来一定会是大一桶的天下。因为用户的核心需求从来都不是用更多工具,而是用更少的工具解决更多的问题。 对了,这个项目叫 ai ui, 完全免费开源 github 链接我会放在简介里。现在已经十四点二 k 星了,还在涨。 如果你正在折腾多个 ai agent, 或者想提升 ai 办公效率,这个项目绝对值得你花十分钟试试,它能让你从重复的工具操作中解脱出来,真正专注于你该做的创意和思考。


酷毙 u i 最新整合包震撼来袭,重新定义了什么叫生产力,把几天的配置时间缩短到只需要三十秒,还解决了大部分玩家不懂安装以及工作流报错问题。例如拿出一张图片就能生出多种视角,且能保证人物的一致性的同时,还能生成动态视频,成本低的离谱。 这里有图文转视频、 ai 按剧流等,内置两百多种工作流,满足你日常的各种需求。如果有需要的小伙伴暗号尝尝。

哎呀,做马年动效。第一步,设计思考, 第二步,生成素材, 第三步,整合优化素材,第四步,生成动画。

新版的 comfy ui 整合包虽然来得迟了点,但这回更新可真是诚意满满,不仅增加了不少新插件和工作流,大幅提升了图片和视频的生成效率与质量。 包括 nunchaku 插件,让 flux 图片生成实现质的飞跃,只需几秒就能生成一张令人惊艳的图片,并且完美支持 laura 和 flux tools, 而 flux jim 则专为 flux 模型训练 laura 而设计,配合教程使用效果更佳。 在视频生成方面,我们不仅更新了备受欢迎的 ltx video 会员 video cog video, 更新增了以视频质量高著称的汪二点一及其衍生模型汪范,让视频细节更加出色。 对于显存有限的用户, friendpack 也能帮助你在低显存条件下生成长视频。此外, sonic 数字人模型更是实现了完美的对口型效果,让你的数字人作品栩栩如生。 除了内容上的丰富,新版 comfy ui 整合包在核心组件上也进行了全面升级,本体 manager 已更新至最新版本, 同时拍放升级到三点十二点九, pad torch 也更新至二点六零加 ceo 一 二六。这意味着小伙伴们再也不用担心安装不了新插件的问题了。为了进一步优化用户体验,我们还增加了一个修复 getop 网络连接的小工具,确保你的 comfy ui 环境稳定运行, 使用时记得需要以管理员身份运行哈。我们对这次的整合包进行了定义,它是一个预安装并调试好工作流插件及依赖库的便携版 comui 环境。为了避免大家重复下载已有的模型文件, 整合包中不包含 checkpoint、 clip、 diffusion、 models、 controlnet 等大型模型目录,我们只保留了像 laura 和 ve 这样占用空间相对较小的文件夹。在每个工作流的演示中,我都会清楚地标明所需的具体模型, 如果你的本地没有这些模型,可以随时前往我分享的模型库进行下载。现在我就演示下如何使用吧。下载整合包的压缩包到本地,右键解压文件, 解压完成后进入文件夹。整体目录都简单,总共有四个启动文件,分别适用于不同的显卡和网络情况,大家可以根据自己的情况来选择。最右边的这个是修复 github 连接问题的小工具,右键以管理员身份运行就可以了。 双击启动文件后,所有插件都应该会正常加载, comfyui 会在你的默认浏览器中自动打开, 你会看到界面左侧的工作流管理器,这里展示了所有内置的工作流。我将以 flex 纹身图工作流为例进行演示。根据视频中的工作流说明,你需要准备一个 flex 的 f p 八三合一模型, 你可以从模型库中下载它,并将其放置到对应的目录 models checkpoints。 模型放置好后,回到 comfy ui 界面,按下键盘上的二键来刷新界面,这时你就能在模型节点中看到新添加的模型了。 点击运行,工作流就会开始执行,稍等一下结果就出来了。好,现在进入问答环节,解答大家关于新版 comfy ui 整合包的常见疑问。 整合包需要付费吗?本整合包完全免费获取,没有任何门槛,下载解压即可使用,不过要请大家遵守开源和使用规范。 如果有之前的整合包,还需要下载新的吗?如果你对之前的整合包感到满意,能够自行升级插件,或者暂时不需要使用新功能和新工作流,那么可以继续使用之前的版本。我还是喜欢之前的整合包, 现在还能下载吗?在夸克网盘上,由于空间较大,我会维护最新版本和上一个完整版本的整合包供大家选择下载。但很遗憾,百度网盘空间有限,我不得不删除。旧版本已分享。新版本。最新版只支持 windows 吗? mac 和 linux 可以 用吗?本整合包是基于 comfy ui 为 windows 发布的,理论上只支持 windows 系统。未来我计划提供 mac 版本和 docker 镜像,已支持更多平台。我的 comfy ui manager 图标不显示,无法安装和更新插件怎么办? 这通常是你本地没有安装 git 导致的。你可以前往 git 官网或在启动器界面中的高级选项环境维护原声组建管理里下载并安装 git, 安装完成后重启 com 优 i 再试试哈。启 动时显示昂斯加载失败。类似这种错误的应该是 windows 上没有安装 vc 运行库,可以去整合包目录中的常用工具里下载。有些工作流运行出错怎么办? 所有工作流我都在其他电脑上测试过。有些插件例如 p l d 内需要直接访问 huggyface, 设置 mirror 无效,在网络不通畅时会报错。为什么网盘下载看到一堆压缩包? 某些网盘有文件大小限制,我在压缩时是切割成多份上传的,全部下载完成后解压即可。这个压缩包安全吗? 我使用 windows defender 扫描的结果是安全的。你也可以在解压之前使用杀毒软件扫描一下,某些杀毒软件可能会误报一些 p y d 文件。五零系显卡支持吗?因为我还没有买到五零系显卡,没法测试,所以没有做五零系的整合包。 不过我分享了一个基础版本的,需要大家自己安装一些插件。如果您还有其他问题,欢迎随时在评论区给我们留言,我们会尽力为您解决。 现在来看看给大家内置的工作流介绍吧。基础的 flax 纹身图工作流支持多种不同类型的 flax 模型,包括二十三 g 的 黑森林官方原版、 方便的 comfey org 的 f t 八三合一版本强烈推荐,以及对显存要求更低的 g g u f 版本等,特别适合拥有八 g 或更低显卡显存的用户。你可以根据自己的实际情况,从我分享的模型库中选择最合适的模型。 模型库中的路径就是下载后保存到 comfyui 本地目录的路径。例如 flux 纹身图工作流中推荐使用的三合一模型,其下载路径是 models checkpoints, 下载后直接放到本地的这个目录即可。 至于我没有列出的模型,要么已经内置在整合包里,要么可以自动下载。局部重绘工作流,这是一个基础但非常实用的工作流。 当你对图片中的某个部分不满意时,只需简单涂抹一下,就能让模型对其进行重新修改,实现精准调整。脸部修复工作流,过去,模型在生成全身图时,经常会出现脸部崩坏的情况, 这个工作流展示了如何利用非 cdiser 自动识别并从会脸部,从而有效修复图片中的面部瑕疵。维生图高清放大工作流这是 ai 生成图像中一个非常重要的方法, 通过在采集时生成小尺寸图片,再利用 color 动态技术进行高清放大,即使是小显存显卡,也能生成尺寸更大的图像。 图。声图高清放大工作流,这个工作流非常实用,我们常常有将小尺寸图片放大的需求,而这个工作流能在扩大图片分辨率的同时,保持原图内容稳定不变,并增加更多细节。 instant id 换脸工作流,这个只支持 s d x l, 只要你提供提示词来定画面内容,再给张人脸和姿势参考图,就能生成一张指定人物的指定姿势图,换脸效果超赞! 人物一致性黏土风格工作流想把照片变成可爱的粘土画,用这个就对了。它会用黏土 lora 配合反推提示词来从会尽可能保持原图的内容和构图。如果原图里有人物,还能起用 instant id 来保持人物一致性。 纹身图风格迁移工作流,使用 ipad adapter 插件的仅风格迁移功能,同时参考提示词和参考图的风格生成一张新的图,目前只支持 s d 一 点五和 s d x l。 图生图风格迁移工作流,使用 ipad 插件的仅风格迁移功能,把输入图片重绘成参考图的风格,目前只支持 sd 一 点五和 sd xl。 笑像大师工作流,这简直是你的捏脸神器, 它内置了海量的画面镜头,人物性别、面部表情、发色、皮肤细节等特征,直接把填空题变成选择题,让你在任何大模型上都能玩转。 comfy you i 捏脸,轻松打造理想笑像。 live portrait 工作流超有意思,它能把参考视频里人物的表情克隆出来,应用到一张笑像或另一个视频中,让你的静态图瞬间火起来。人物模特换装工作流 是目前最好的虚拟试穿解决方案,轻轻松松让模特换上衣服,用到的是 flux redux 风格迁移技术,配合阿里的上下文 laura 涂抹模特要换装的区域遮照,然后点击执行,就可以轻松把衣服穿到人物身上。 词云工作流利用 word cloud 插件配合 segment anything 抠图,能将特定物体替换为字体组成的词云,还可以应用到视频里。 sonic 数字人工作流上存人物肖像和音频,配合 sonic 模型就能生成人物说话对口型的视频。口型一致性好,有参数可以调整动作幅度。 flux lora 纹身图工作流演示如何在 flux 中应用 lora, 记得在使用时搭配使用 warren 作者推荐的参数配置和触发词哈。 nunchaku 加速 flex 生图工作流利用 nunchaku 配合量化版本的 flex 模型,生图速度快,显存需求低,质量显著,非常值得一试。 flex 图升图工作流使用 florence 二、提取参考图提示词来生成新图这是一种简单的方式来保证成图与参考图内容相似。它不仅仅支持 flex, 你 可以修改对应的参照节点来支持任意使用自然语言提示词的大模型。 flex controlnet union 工作流这个工作流以 depth 深度图为例,演示了如何使用 union controlnet 中的单项功能。 简单来说就是它能参考你输入图片的深度信息,然后生成一张内容相似但又全新的图片。大家可以基于这个工作流继续探索该模型的其他强大功能哈。 flux control net upscale 工作流利用 upscale control net 进行图像放大,可能是目前效果最好的 flux 抠图方式,放大后的图片细节丰富,画质惊艳。 flexfill in paint 工作流它利用 flex tools 中的 fill 模型,让你能直接在原图上涂抹,进行局部重绘。无论是修复图片上的小瑕疵,还是想在图片里新增一些内容,效果都非常棒,自然又协调。 flexfill 扩图工作流如果你想为现有的图片增加更多空间,比如上下左右扩展一下,这个工作流就能帮到你。 它同样利用 flux tools 中的 fill 模型,在原图的基础上智能地增加空间扩图,而且新增内容能很好地保持与原图一致的风格,色彩和纹理衔接起来非常自然。 flux redux advanced 工作流配合使用 advanced redux ctrl 插件,能调整 redux 模型的强度,在参考原图的同时,还能遵循提示词进行升图。 flex tools controlnet laura 工作流演示如何使用 flex tools 里的 laura 形式的 controlnet, 比起传统的模型使用起来更方便,效果也不错。 brushnet 电商产品图工作流利用 brushnet 或是 power paint 把产品图融合到特定背景中,再通过一系列步骤来优化和修复。 flex in paint 电商产品图工作流 直接使用 flux 的 impint 功能来实现产品与背景的融合,优化与修复步骤是没有变化的,不过 impint 部分比较考验 flux 模型的能力,融合效果不好的话,可以调整下产品图的方向与大小等。 flux redux 电商产品图工作流三个电商工作流里最兼顾稳定性和效果的一个, 使用的是 flux tools 里 redux 的 图像参考功能,配合 control net 把产品图融合到特定背景中,再通过同样的步骤来优化和修复,因为加了 control net 对 资源的要求也是最高的。 mimic motion 照片转跳舞视频工作流如果想让你的照片跳舞,这个工作流利用 mimic motion 和 control net 帮你把照片变成跳舞视频,简直太酷了哇!二点一 tile mode 视频修复工作流视频不清晰,细节不够 这个工作流能在一分钟内显著提升视频清晰度,丰富画面细节,让你的视频焕然一新。 one 二点一纹身视频工作流,效果还不错,但生成速度有点慢,抽卡成本高,所以更建议大家用图生视频。 one 二点一图生视频工作流,这个效果非常好, 你可以用照片或其他生图模型制作高质量的手真图,然后他就能生成非常棒的视频。 one 二点一延长视频工作流,如果想做超长视频,他会把 one 二点一图声视频的最后一帧作为下一段视频的手帧,循环生成后合并,轻松搞定超长视频。 one 二点一 upscale 视频高清修复工作流,想把视频放大还保持高清, 这个工作流利用 word 二二点一模型对输入视频进行二次裁样,就能实现高清放大。 framepack, 长视频生成工作流,显存不够也能玩转长视频 framepack 是 目前显存需求最低的视频生成模型,在六 gb 显存上也能流畅运行,效果还很不错。混元 video 纹身视频工作流, 个人觉得这是效果最好的开源纹身视频模型,配合 g g u f 模型,显存需求能降到八 t, 就是 生成速度稍微慢点。汇源 video 纹身视频 lower 工作流,这个厉害了,可以搭配各种风格的 lower 模型来生成对应的视频, 不过要注意,下载 laura 时要选择那些基于 how you learn video 训练的哈。 alama 提示词扩写工作流,利用 alama 插件访问本地启动的大语言模型,让它帮你翻译和扩写提示词。大语言模型的能力超强,大家可以充分发挥创意。 欧拉玛反推并修改提示词工作流,它能利用欧拉玛插件访问本地启动的视觉大语言模型来读取图片信息,同时还能访问另一个大语言模型,对提示词进行修改,让你的提示词更精准。 好的小伙伴们,本期视频的工作流分享就到这里了,希望能帮到大家,让你的 comfyui 之旅更加顺畅和高效,咱们下次再见,拜拜。 呃,各位同学大家好呃,我是程老师,今天由我来带领大家给大家讲解一下 cfui 的 本地部署 呃,和一些相关的基础知识。首先呢,我们需要在跨客网盘上下载我们的 cfui 的 本质软件包啊,就是这个软件包, 呃,它,我现在用的是跨客网盘啊,它是个免费的软件啊,就是至少我们下载这个三点九 g 的 comui 是 可以免费下载的, 我们先把 comui 下载到电脑中啊,你会有一个一点二点七的这个软件包,如果说我不想下那么大,我只需要把前面勾选去掉,只只保留一点二点七的软件包就可以了。我们先把这个软件包下载到我们的电脑中,它是一个压缩包 啊,然后在我们的我的电脑中找到你的压缩包啊,进行解压啊。首先呢有几点需要注意, 第一点,你解压的压缩包的位置,尽可能的不要选择 c 盘啊,而且要尽可能的预留足够的空间。我的这个 软件啊,就是 ai 绘图软件 comui 和 sd, 我是 放在了一个单独的盘符里啊,新建的 g 盘啊,现在已经用了五百个 g 了,所以说它可能是很大的,大家一定要注意这一点,要预留足够的空间啊,当我们解压完毕后, 这里会出现一个啊, comui, aki v 一 点三啊,我们把这个点开 这个文件夹进来之后呢,我们会发现啊,这有一大串的文件啊,一大串的文件,那么我们如果想要启动 comui, 我 们要点击这个会事启动器啊,我们点击会事启动器就可以了 啊,当然我们每次上这里来点是很麻烦的,于是我们可以把它发送到点击发送到桌面快捷方式啊,这样就变成了一个啊,像我这样的啊, comfort ui, web ui 啊,我们现在用的是 comfort ui, 然后我们把这个 comfort ui 点出来,点出来它是个什么样子的呢?它会出现这样一个界面,当我们看到启动器的界面之后啊,我们首先要做的 是什么?要在我们需要给他先进行一个升级,在管版本管理这里,我们先点一下版本管理,这里有一个内核,有一个扩展啊,首先我们的内核啊,我们可以刷新一下列表,点击一键更新啊, 就搞定了啊,就这么简单啊。然后呢,我们再点击扩展啊,扩展也一样啊,点击刷新列表,一键更新啊,因为我们可能还要稍微等待一会他才能更新成功, 更新完毕之后啊,我们就可以启动了,我们就可以启动了,但是呢,在启动之前啊,呃,我们先先要讲个事,就是说如果说我们直接启动啊,他会发,你会发现这个 你没有模型啊,因为 comui 也是需要模型的,它和 sd 是 基于一个算法, comui 也是需要模型的,没有模型的问题如何解决啊?我们选择的方案一般就是共享啊,外部 ui, 也就是 sd 外部 ui 的 模型啊,共享外部 ui 的 模型 如何共享啊?现在这个内容就很重要了啊,我们先点开 comui 的 这个启动器,它有一个根目录啊, 如果说大家直接去找的话,可能是找这个根目录比较繁琐啊,要找具体在哪个文件夹,具体在哪个盘符,我们直接点击根目录,在这里直接点击根目录啊,这样我们就哎进到了我们启动器的根目录里,我们会发现有一个文件,它是最长的, 后边带这个 example 啊,这是最长的一个文件,我们点击这个文件啊,我们你看我们点不开,那么我们点击更多的应用,用我们的最简单的记事本打开就可以了啊,会出现这样一个列表, 这样一个文本之后,如何把我们的这个 sd 的 模型进行共享呢?啊?我们在这里有一个啊, base case, 它就是基本路径的意思,我们要找到你放模型的基本路径,把基本路径正确的基本路径放在这里,我们就可以实现共享了。 好,那么我们来找一下路径怎么找啊?还是我们先启动外部 u i 啊,也就是我们的 sd 啊。 呃,我们现在做这个模型有两种方式,一种说我有模型,我在 sd, 外部 ui 里边有模型啊,我进行一个模型共享。另外一种呢,是我直接,我没有外部 ui, 我 直接用 comfui, 我 要把模型放到 comfui 里啊,一会我会教大家如何啊放在 comfui 里,现在我先讲共享模型, 共享模型,我们先来到 web ui 的 根目录,一样,我们打开它的根目录啊,打开根目录,你会发现这个就是 web ui 的 根目录了,你会发现啊,这里有一个 models, 这个 models models 就是 模型的意思,但是我们并不需要点进去哈,我们只需要一个根目录的文件夹就可以了,也就是说我们这个文件夹需要包含 models, 但是我们千万不要点进去,如果你点进去变成了一个 models, 变成这样的话,这个文件夹是错的,它是不生效的哈, 我们一定要是在根根目录下啊,根目录的这个网址复制啊,根目录的这个地址复制,复制过来之后,在这个 base place 里边啊,我们改成我们相应的,我们相应的,因为我这个已经改完了,我就不再改变它了啊,其实改变也是这样的啊,啊,是这样的, 然后在前面一定要注意,这里要留一个空格,在你的地址前面一定要留一个空格啊,一定要留一个空格。然后如果说我们还要说把 control net 也放里边怎么办呢?我们同理我们进入一个根目录啊, 根目录里你会发现有一个 extensions 啊,正常来说我们的 sd 的 呃 control net 模型是在 extension 里边,因为 extension 就 相当于它的插件的插件扩展的意思,然后 web ui 的 这个 extension, 它的 content 就 在一个 tension 这个文件夹里,我们点击这个 content s d web ui content 进来之后有一个 models 啊,基本上你的模型都会在这里,我给它做了一个啊,分分类啊,一个叉 l 的, 一个是这个一点五的模型啊, 都在这里,那么我们要调用同时共享这个 models 文件夹在这里,我们要要点进去啊,要点到 models 里边,也就是说你的地址里边要带一个 models, 这样才能够实现啊,那么我们把这个地址复制下来, 然后同样 controlnet models 后边也是要有空格的,这里也是有个空格哈,然后我们直接在空格后面,哎,我们把它复制粘贴就可以了啊,注意两个点哈,第一点就是你你的子文件夹啊,就是上面这个基础路径啊,你就给根目录路径就可以了 下而下边这个 content 路径,你需要到 extension 的 content 里边,而不是 model 的 content 里边,所以说我们把它的路径复制粘贴啊,这样就完毕了啊, 这样就我们就可以检测一下哈,我这个机已经安完了,所以说我就不保存了啊,大家可以看一下,尝试一下哈,基本都是能够实现的啊,我们给它保存之后,然后安装就可以运行我们的这个 content。 呃,这个是我们共享模型的安装方式,那么如果说我并不想共享模型,我没有外部 ui, 我 也懒得装外外部 ui, 我 只要 controlnet。 只要 controlnet 的 情况下如何实现呢? 那么我们直接进入啊, controlnet 的 根目录, controlnet 的 根目录里边啊,它一样是有一个 models, 但是它有一个区别是什么 啊? controlnet 的 models 和这个呃, sd 的 不太一样啊。 sd 是 你要放在 sd 放哪呢?我给大家看一下哈。如果你用的是这个,如果你用的是这个外部 ui 啊,如果你用的是外部 ui, 外部 ui 它的你的主模型啊,你的主模型要存在什么位置?如果你用外部 ui 啊,我们还是进入根目录,你的主模型要存在 models 啊, 这个叫 stable diffusion。 你 要存在这里啊,主模型要存在这里,这是你的主模型啊,然后你的 lora 啊,存在 lora 里边儿啊,这就是外部 u i 的 主模型和 lora 的 位置。但是 comf u i 它是不一样的,其实 本质一样,但是它的名字换了一个 kufui。 同样 models, 我 们的主名主模型要存在哪里呢?就要存在这个 checkpoint 里边儿,也就是检查点啊,翻译过来就是检查点。那 kufui 的 主模型是要存在这里的,如果说我不用共享模型,我只要 kufui 的 主模型,你就扔这里就可以了啊。 然后如果说你要存 lora, lora 在 哪呢?它这里不叫 lora, 叫 loris 啊,有很多的 lora, loris 啊, 只是这么一点点细微的区别啊。当然我们还有其他的很多模型,比如说啊 control net 模型啊,也都在这里,他就不用非得上这个 control net 插件里去找了, 直接在 control net 也可以,比如说 abandon, 就是 那个嵌入式啊,反向嵌入式, abandon 啊,也在这里啊,都在,都在这个模型大模型里面,包括 a v e 模型,放大模型, unite 模型,全部都在这里面。 所以说我们如果要想熟悉康复 ui, 首先我们要熟悉它的根目录,它的根目录一共有两个需要我们去重点认识的啊,第一个就是这个 models, 我 们的相应的模型要放在相应的位置啊,这个 models 是 非常非常重要的,因为我们的工作流没有这个模型是运行不了的,包括你的外部 ui 也是需要相应模型的。 好,我们的模型地址,模型文件夹已经认识完毕了。那么另外一个非常重要的,非常非常重要的一个文件夹是什么呢?是这个,擦, custom nodes 啊, custom nodes 翻译过来就是自定义节点, 自定义节点就是我们安装的所有的插件啊,我们如果想要安装插件,我们就经常会用到这个文件夹。 呃,那么我们现在啊,这个共享模型以及康复 ui 的 模型啊,安装啊已经给大家讲完了,那么现在要讲一个什么呢?是插件的安装,我们的插件要如何让康复 ui 能够流畅的运行啊?现在也是有几个方式,第一个方式 我来给大家讲一下哈。首先进入到我们的 comui 呃,给大家讲一讲就是基本插件的安装方式哈,有几种。第一种啊,如果说我在这个 呃 comui 里面,我知道这个插件我直接安装可不可以呢?是可以的啊,但是有一条啊,你需要 需要一个足够的网络环境,也是说你能够完全登录连接到这个模型库所在的网站,你才能够安装啊。比如说通过 gitreal, 就是 你有这个网址,你把网址输入到这里就可以安装,或者说我知道这个名字啊,我也可以实现安装, 我直接在点击安装节点啊,然后我在这里搜索名字,搜索名字就可以实现一个安装啊。如果说啊,这里安装,但是这个这种情况呢,它有可能会出现不成功,比如说你的网络不够稳定 啊,或者说是一些其他的冲突,有可能不成功。那么我们还有第二套方案,第二套方案是什么呢?我们直接进入它的节点节点网址,比如说啊,比如说我用一个,比如说我 animate diff 啊,我们要用这个节点, 我们进入它的 github 网站啊,这个节点库,我们大多数的节点呢,是在 github 上面来找的啊。如果说我们用的是这个插件啊,模型节点,找 git 模型,找那个 hackin face 啊,我们如果我们要下载一些很少见的模型,我们可以去 hackin face 上面去找 啊,那么我们现在这个 github 上面,我们进来之后,呃,看起来很很多的内容哈,怎么办呢?只有一个地方是绿的,我们点这个绿的,点这个绿的呢,它会上面有个网址,上面这个网址啊,你有两种方式可以进行安装,第一种是通过这个 我们的软件内部进入我们软件内部进行安装啊,比如说我在管理器里点击管理器,然后这里有一个通过 get 啊 url 来安装,我们给它复制啊,这样点击确定 啊,我这个安装肯定是不成功的,因为我已经有这个节点了,如果大家没有的话,可以通过这种方式来安装啊。第二种安装方式呢,就是说我们可以还是这个节点哈。呃, 我们进入我们的这个文件夹啊, custom node, 大家看好啊,这个 custom node 文件夹,然后输入 c m d 啊, c m d, 我 们会弹出个操作框啊,操作框里边儿我们用一个 get, 有 一个命令叫 get clone, get 空格 clone 啊,好,后面加上你的地址啊,这样我们回车就可以实现一个安装啊,当然我这个也是安装不成功的,因为这个这个插件我已经安装了,有这个文件夹就无法再次安装成功了 啊。当然如果说我没有这个网络条件,那么我可以给大家发一些安装包啊,同样的就是我给大家发的安装包,我们把它解压之后,文件夹直接丢到这个 custom node 里边就 ok 了啊, 这个压缩包它也是这么来的,压缩包也一样是在这里看,这里面有一个,呃,下载 zip 啊,下载这个压缩包,我们把这压缩包下载下来,下载到本地,然后分享给大家,大家也是可以使用的啊,就是这么几种方式, 那么,呃,后续的哈,如果说就是说网络环境什么的也都不错,想要自己安装一些插件,那么你可能还需要加载一个这个 git 和这个 python, 我们需要他的网络环境,这个叫环境变量,我们需要设置一下啊,当然这个是后续的课程会给大家讲啊。今天的基础课呢,主要讲三个问题,第一个问题啊,启动器的位置跟目录的认识。 第二个问题就是我们的这个模型的共享啊, sd 模型的安装啊,都放哪?主模型放在哪啊?然后 lara 放在哪? comfy ui 的 安装,它的主模型放在哪? lara 放在哪?如果说你想共享 sd 模型,我应该怎么修改它的 example 的 这个文档 啊?然后第三个就是我们的插件安装啊,插件安装啊,如何安装啊?我们的本地安装,还有通过网络安装,有两种方式啊,大家都仔细好好回忆一下,多听多看。 今天的基础课程就到这里,后续的啊,后续的继续的系统课程,那么大家请来直播间,敬请期待,谢谢大家!

ai 平权的时代来了,当巨头还在云端秀肌肉时,一个搅局者已经杀到了你的电脑上。他叫康夫 u i, 他 最大的杀手也是不吃性能,在消费级显卡上即可高效运行,最低一千零六十六显卡即可运行,不仅开源,而且完全免费。这意味着 ai 视频的生成不再需要花高价去云端调用大厂的算力了,真正实现了人人可, 而且他绝对专业。这个工具的出现直接把美工、后期画师、设计师的门槛给干碎了,不挑年龄,纯外行都可以轻松学会。关键是这个工具完全免费,每个人都可以轻松落地自己的创意,想偷懒还可以无脑抄作业。为方便大家学习 视频附带的学习资料,我已经给大家打包好放在网盘了,敲六六六,尝尝咸淡。大家所熟知的 web ui 和 comfui 其实都是属于 stability fusion web ui, 主要是基于数据库开发的浏览器界面, kufui 则是使用图形节点、流程图设计,而用于稳定扩散的用户界面。这边我们将 kufui 和 web ui 的 优缺点列出来,方便大家做个对比。首先我们来看 web ui 这块,它的优点是简单易学,并且操作较为基础与简易, 而它的缺点是不利于长期管理。那么这是什么意思呢?当你在深度学习完 web ui 的 高阶内容后,你会意识到,如果使用的是 comui, 那 么将节省两到三倍甚至更多的时间。其次,在插件过多时, web ui 会显得非常的臃肿以及操作费时。那么接下来我们看一下 comui。 这边我们可以看到 kufui 对 配置的要求较低,这同时也意味着降低了 ai 绘画的门槛,方便更多的小伙伴加入进来。那么它的优点其实是节点更异于管理,有较强的自主性,我们可以根据个人需求来组装属于自己的工作流, 并且在未来, kufui 将逐渐与 webui 在 应用层面拉开距离,比如前段时间的 s d 三或者国产最新的颗粒大模型, 都是第一时间在 kufui 里可搭建工作流并使用的。而对于 webui 这些最新的模型与插件,往往得过一阵子才能时装,甚至直接不时装。 所以使用 kufui 也意味着你能够更早地使用到最新的模型与插件。而 kufui 的 缺点是初期不好上手,但 我相信在你学完了本套课程后,一定能够完全掌握康复语言的基础操作。除此之外,过去我们知道有许多软件,比如 blender、 达芬奇、 ue 等等都是使用节点式工作流, 因为他们有极强的自主性与可模块化,许多头部公司的顶级团队使用的都是节点式软件。那么康复语言除了上述优点之外,我们在使用时还可以非常方便的套用他人分享的工作流,即刻便可实现相同的效果, 节省了非常多的节点部署思路的思考时间,以及从单个节点构建成工作流的部署时间。好的,那么接下来介绍一下课程概览。本套课程共分为两个部分,一到六节为基础部分,其中包含了 comfuly 的 配置要求以及如何安装与部署、 界面导览与原理介绍、文声图以及提示词的语法,之后还会聊聊 a i g c 的 相关网站以及模型下载,最后还有图声图以及高清修复的过程。那么从第七节课到第十三节课属于进阶部分,先后会讲解 control 内及其诸多预处理器的使用方法以 及使用场景,之后还会教大家 ipad 及其强大功能的应用。随后我们还会学习最基础的 ai 视频生成原理,而在最后我们将结合前面所学的全部知识,一起来做一个 ai 视频换脸转会。 hello 各位小伙伴,大家好,欢迎来到 kufui 系列教程的第二节课。那么在本节课中,我们将介绍 kufui 的 配置要求以及安装与部署的过程。那么首先是电脑配置以及系统环境的介绍。首先是显卡方面, 最低要求是拥有四 g 级以上显存的英伟达显卡,如果显存不足,可能会影响到绘图过程的流畅度。接下来是 cpu, 关于 cpu 要求不高,英特尔十代 i 三以上就可以使用,但推荐使用性能更强的,如英特尔十三代 i 五幺三六零零 kf, 以获得更好的性能。 接下来是内存,内存至少需要十六 gb, 推荐三十二 gb 以上,以确保可以加载和运行较大的模型。 最后是硬盘,关于硬盘呢,至少需要两百 g 的 空余空间,推荐使用大容量的固态硬盘,因为 ai 绘图过程中会下载和生成大量的模型以及图像数据。那么接下来我们详细介绍一下 cf ui 的 下载以及部署方式。我们先安装资源包里面附带的启动器运行依赖, 接着打开解压之后的 cf ui 文件夹,在文件夹内找到 a 会式启动器,随后点击一键启动即可,首次启动时可能会安装一些必要的环境。依赖, 稍等片刻后,我们便来到了 cf ui 的 主界面。接下来介绍第二种安装方法,官网资源包的安装。当然关于官网的资源包,我们也可以在评论区内获取。我们解压完资源包后,在文件夹内找到这个项目, 双击运行,等待片刻后,我们便可以来到最原汁原味的 cf ui 界面了。这个版本的 cf ui 是 没有装任何非官网的插件的。 此外, cf ui 完全离线工作,对 gpu 的 要求相对较低,但是也有 cpu 模式,不过在 cpu 模式下 绘图速度较为缓慢。如果小伙伴们之前有使用过 web ui 或其他类型的 stupefuge ai 绘图应用,那么可以通过修改 comui 的 配置文件来实现在不同的 ai 绘图应用间共享大模型以及 loa 等等,以此减少对硬盘内存的占用。那么接下来我将向大家演示一下 如何将我们的 comui 大 模型以及 loa 的 加载路径修改成 web ui 的。 如果小伙伴们没有玩过 web ui, 那 么这一段可以直接跳过。好的,那么我们打开 comui, 接着我们找到这个文件 extra model path y a m l 点 example, 接着我们用记事本打开。好的,那么打开之后我们找到这一项 base path, 我 们要做的是把 base path 后面的这一串改成我们 web ui 文件夹的路径。比方说我们打开了 web ui 的 文件夹后,我们可以单机上面的这个栏目, 随后 ctrl c 复制。接着我们回到刚才的记事本内,将我们刚刚复制的路径粘贴到此处,随后我们保存并关闭记事本。接下来的一步很重要,我们需要将 example 以及这个点给删除,也就是将我们的文件名后缀改成点 y a m l, 随后点击确定即可。那么接下来我们打开 ctrl u r 来确认一下。 好的,我们这边看一下区块链加载器里面的大模型,点开后我们可以看到多了,非常多啊,那么这就证明我们成功把模型路径合并到了 web ui 内。好的,那么以上就是关于本期的全部内容了,如果你觉得对你有帮助的话,那不妨给个三连加关注吧。 欢迎来到 cf ui 系列教程的第三节,那么在本节课中,我们将一起了解 cf ui 的 主界面以及各种参数到底代表了什么。最后我们将学习 stability fusion 生成图片的根本原理。好的,我们打开了秋月大佬的会式启动器后,点击一键启动, 经过一段时间的等待后,我们便来到了 comfyui 的 主界面。那么我们在面对 comfyui 这个完全陌生的软件时,我们要做的就是初步了解每一个模块的大体含义,那么接下来我带着大家过一遍。首先是操作方式,我们可以通过鼠标的滚轮来控制画面的缩放, 按住鼠标左键,我们可以拖动我们的仕途。点击鼠标右键,我们可以看到有非常多的栏目,这边我们可以试着点击新建节点,随后我们可以看到有非常多的节点可以供我们选择。好的,那么之后我们再来说一下快捷键,生成图片的快捷键是 ctrl 加 enter, 框选节点的快捷键是按住 ctrl 加鼠标的左键。移动框选目标的快捷键是按住 shift 加鼠标的左键。 这边我们在框选完后,如果不按住 shift 直接进行拖动的话,我们可以看到此时只有单一节点进行了移动,剩下的快捷键我都放在这了,小伙伴们可以暂停观看。 好的,那么接下来我带着大家一起来解读一下这个默认工作流。首先在这边我们可以看到有个叫 checkpoint 加载器的东西,这个节点的主要作用是加载扩散模型,也就是我们常说的大模型。 此外该节点还提供适当的 ve 以及 clip 模型,具体它们是什么我们带回讲。我们顺着 checkpoint 加载器的节点连线,可以看到这里有两个 clip 文本编码器,在这里我们可以看到它们的输入都是 clip, 而它们的输出都是条件。那么究竟什么是 clip 模型呢? clip 全称为 contrasted language image pre training, 是 由 open ai 公司在二零二一年发布的一款多模态与训练神经网络模型。 clip 模型的作用是理解我们输入文字的意思,比如我们输入 one go 生成的是一个女孩,而不是太阳, 这就是 clip 的 作用。接着我们顺着 clip 文本编码器的条件输出看过来,连接到了 k 采阳器上,这边我们可以看到 k 采阳器一共有两个关于条件的输入,一个是正面条件,另一个是负面条件。那么这代表着连接着正面条件的文本编码器内的提示词为正面条件提示词, 也就是我们常说的负面提示词。好的,我们把目光重新回到 k 采阳器内, 我们可以看到除了正面条件以及负面条件外,还有两个输入,分别是模型以及 latent, 那 么模型则是连接着刚才的 checkpoint 加载器,也就是我们的大模型。那么这个 latent 究竟是什么意思呢? latent 通常是指前空间,可以理解为 static fusion 内部流程中的图像格式。如果将图像作为输入,则需要通过 v i e 编码将其转化为 latent 数据 在最后输出时,也需要通过 ve 解码将其转化为像素空间,也就是我们最终看到的图像。这边我们可以看到 k 太阳器的 laten 连接着一个叫做空 laten 的 节点,这个节点内共有三个参数, 分别是宽度、高度以及 p 四大小。宽度和高度决定了我们最终生成图像的尺寸,而 p 四大小则代表着每生成一次将出多少张图。比如说我们将 p 四大小改为三,高度改成七百六十八。 最后我们按 ctrl 加 enter 进行生成。好的,这边我们可以看到一次性生成了三张图像,也就是我们 p 四数目的图像。接下来我们继续看 k 太阳器的其他参数。 首先是随机种,随机种的值我们一般称为种子值,每张图都有专属于它的种子值,我们也可以理解为种子值,就是图片的 id 号码。接下来是运行后操作,点开后我们可以看到一共有四个选项,分别是固定、增加、减少、 随机。如果选择固定,则在你生成完后,种子值会保持不变,方便你进行其他的调整与操作。那么接下来就是采样步数,采样步数越多,计算机的运算时间越长。在大多数的情况下,我们的采样步数保持二十到三十步即可。接下来是 c f 居值,该值的意思是提示词引导系数, cf 聚值越高,则代表着生成图像与提示词之间的联系越紧密。 cf 聚值越低,则代表着提示词对生成结果的影响越小。不过过高或过低的 cf 聚值都会给图片带来不好的影响, 所以我们一般保持适中的 cf 聚值即可。接下来是采暖器和调度器,我们可以理解它们为图像的生成方式,如果我们将其他参数比作是食材, 那么它们则是烹饪方式。不同的烹饪方法当然会带来不一样的结果。比如我们点开采暖器后,可以看到有非常多的选项,这里我们目前最好的一般是选择这个 d p n 加加二 a m 或者 d p n 加加二 a m s d e, 这两个都是挺不错的。接下来点开调度器,我们也是可以看到有非常多的选项,这里我们一般选择的是 carrots。 最后我们可以看到还有个降噪参数,由于该参数是跟图生图有关的,我们以后再说。 接下来我们看一下右边有个叫做 v i e 解码的东西,那么我们可以看到这边有两个输入,分别是 laten 以及 v i e。 至于 laten, 刚才我们已经解释过了,也就是前空间图像。那么 v i e 究竟是什么呢? v i e 全称变分字编码器, variation auto encode 的 缩写,它是一种深度学习模型,主要用于无监督学习任务,特别是在生成模型领域。 ve 结合了神经网络和概率图模型的特点,而他在康复以外的作用是将我们的前空间图像编码成像素空间图像,或是将像素空间图像编码成前空间图像。除此之外,我们还可以双击屏幕上的空白处,最后就可以搜索节点,比如说搜索加载图像, 或者我们也可以双击搜索预览图像。这边再多说一嘴, v e 解码之后的图像节点,我们也可以直接连接到预览图像上, 比如说我们现在把这个保存图像节点给删去,如果这么操作的话,那么我们生成的图像不会被保存,接着我们再生成一次。 这边还要注意的一点是,在我们搜索节点的时候,我们也可以输入英文,比如说加载图像的话,那么就是 load image, 那 么我们可以看到这两个节点是完全相同的。接着我们再来说一下,比如说当我们输入英文的时候, 同样的也是 load image, 但是这个时候我们加了一个空格。好,我们可以看到这里面并没有出现加载图像的节点,那么这也意味着在我们搜索节点的时候,我们要注意区分节点的名称是否有空格好,比如说我们需要搜索加载图像节点, 那么我们删去 load image 之间的空格之后,我们可以看到,哎,是不是加载图像节点就出现了? 好的,那么以上就是关于默认工作流的全部解释,接下来我们来看下界面还有其他哪些模块。首先我们点击左上角,这里有个文件夹, 点开后我们可以看到我们的工作流都保存在这,这边可以点击新建,那么我们就新建了一个新的工作流,当然我们也可以点击这个 import, 也就是输入我们的工作流,或者说是输入我们的文件夹。 最后我们点击 models, 我 们可以在这里找到并且下载相关的模型。接着我们来看一下右边的栏目,首先是该栏目的左上角,我们按住后可以进行拖动, 然后是这个齿轮标志,点开后我们便来到了康复以外的设置界面,在这里我们可以设置语言,点开后我们可以看到有中文,繁体中文,英语以及日语、韩语等等,我们往上翻可以看到有其他的功能,比如图像面板顺序,图像面板的位置等等等等。 我们往下看,这有个文本补全,这个 enable 我 们一定要勾选上,这代表着它的起用。文本补全的意思就是在我们输入提示词的时候,会有这些英文短语的提示, 我们往下看有个添加提示词队列,这个是生成的意思。接下来我们可以看到有个保存的选项,点击该按钮我们便可以保存当前的工作流以及加载,那么就是加载工作流,同样的意思。 接着是重刷新,比如说我们下载一个新的大模型之后,那么我们点击重刷新便可使用。接下来还有个重点就是管理器,这个是 com 浏览器里面最重要的节点,点开后我们可以看到有非常多的功能, 比如说这边有数据库以及频道方式,预览方法,表情等等等等。这边预览方法我们一般选择的是这个 later to rgb, 然后表情这一栏我们一般选择的是名称, 也就是标签名称。选择了之后,我们可以看到节点的右上方一般会出现一个小狐狸按钮,而小狐狸按钮则代表的是它是官方节点。比如说我们加载一个新节点, 那么我们可以看到该节点是属于 animate develop 节点组的。接着我们回到管理器这六个 custom node manager, 点开后我们可以看到有非常多的节点,在这里我们可以查找以及安装我们想要的任意一个节点。在今后的学习过程中,我们会频繁使用到这一个模块。 接着我们看到 model manager, 在 这里我们可以安装我们想要的任意一个模型,注意模型不是节点,它们是分开来的。至于该模块,我们今后也会频繁的用到。好的,在介绍完 comf 以外的主界面以及各种参数后,我们来了解一下 stefi fusion 的 内在运行原理, 就可以方便我们理解并掌握进一步的学习内容。在我们输入完体式词之后,文本编码器的 click 模型会将体式词转化为特征向量, 然后再由 v a e 编码器将这些特征向量传输到前空间内,这些特征向量在前空间内不断地降噪,最后再由 v a e 解码器将这些经过降噪之后的特征向量解码成由一个个像素所组成的图片。好的,那么以上就是本期的全部内容了, 哈喽大家好,欢迎来到 comu 系列教程的第四节课,那么本节课我们将一起学习纹身图的相关知识 以及体式词的语法。在第三节课的结尾,我们一起学习了 step diffusion 康复 ui 的 基础工作原理,那么现在我将结合默认的纹身图工作流来讲解其中的工作流程。 首先第一步,在我们输入完正负相的提示词后,文本编码器内的 key 模型会将我们的提示词转化为特征向量输送到 k 彩样器内。那么这边有个疑问,就是文本编码器的 key 模型从哪来呢?我们顺着这个节点往下看,可以看到它来自于 jump point 加载器, 而这个加载器主要是加载各种各样的大模型,也就是说文本编码器内的克里普模型是属于各个大模型的内置克里普模型,而不同的大模型之间克里普模型也可能会有所差异。那么接着我们可以看到这个朋友加载器的输出有个 v a e, 那么也就是说他提供了 ve 模型,我们看看连到哪哦,连到了 ve 解码这里,而 ve 解码的作用就是将 k 采集器内经过了降噪之后的前空间图像解码成像素空间的图像,也就是我们肉眼可以看到的图像。这边我们可以做个实验,先将种子值固定,最后断开 ve 的 连接, 然后我们生成,我们可以看到这边是直接报错了,而这个报错的意思是缺少了 ve 的 输入,那么接下来我们重新将 ve 模型给连上,随后开始生成。这边再提一嘴,生成的快捷键是 ctrl 加 enter, 非常的实用,请牢记。 如果说你想调节生成图片的尺寸,那么我们可以在空内存这里,比如说我们将高度调成七百六十八,注意这个数值一定是八的倍数,宽度也一样。 至于 p 次的话,则是控制单次生成的图片数量。比如说我们设置成二。好的,我们摁 ctrl 加 enter 开始生成。 图片生成后,我们是不是可以看到它的比例已经成功变成了竖屏的比例,并且它一次生成了两张图像?好,接下来我们一起学习题序词的相关语法。首先我们来聊聊书写规范, 不论是正向题序词或者是副向题序词,我们在书写的时候一定是英文以及英文的标点符号,不然系统可能会识别错误。比如我们输入 one girl garden 还有 yellow dress 黄色的裙子,这边再提一嘴,生成的快捷键是 ctrl 加 enter。 好 的,我们得到了一个穿着黄色裙子在花园中漫步女孩的图片。那如果说我们用中文来输入,结果会是什么样呢?一个女孩花园以及黄色的裙子, 我们这边可以看到,不能说是毫无关联吧啊,他们至少图片中都有女孩,但是黄色的裙子以及花园很明显没有在图片中复现。接下来我们来讲一讲题序词的权重。 在这之前,首先我们要理解什么是权重。对于权重概念模糊的小伙伴,我们可以理解,权重就是比重 分量,那么一个提示词的权重越高,他的分量就越高,他的比重就越高,他在整体中的地位就越高。比如现在一个提示词的权重是一点二,而另一个提示词的权重是零点九,那么当然是一点二的提示词会占更大的比重,那么接下来我们做个演示, 比方说我们输入 one girl garden, one girl 的 权重是一点二,而 garden 的 权重是零点八,那么画面会更侧重于 one girl 的 展现。那如果说我们 one girl 的 比重是零点八,而 garden 的 比重是一点二,那么画面会更注重于描述花园是怎么怎么样的。 好的,接下来我们来讲一讲我们该怎么去控制提数字的权重。首先是中括号,中括号代表着零点九倍的权重,也就是说给提示词加上中括号后,提示词的比重会变小,会降低它的重要性。 那接下来是小括号,小括号代表着一点一倍的权重,比如我们给一个提示词加上小括号后,那么该提示词在画面中的比重 就会增高。最后是大括号,大括号代表着一点零五倍的权重,算是一种微调。当我们给某个提示词添加两个中括号时,那么就相当于为这个提示词加上了零点九乘以零点九倍的权重,零点九乘以零点九是零点八一, 那么就相当于给这个体式词加上了零点八一倍的权重。那么同样的,当我们给个体式词加上两个小括号时,那么就等于一点一乘以一点一倍的权重,那也就是一点二一,相当于我们给这个体式词加上了一点二一倍的权重, 括号也同理。那么有的同学可能会问,关于这个权重的变化有没有什么快捷键呢?哎,这个还真有。比如我们将光标移动到某一题是此上时,打个比方说 garden 摁住 ctrl 加上键,那么就是给它加权重,我们可以看到它的权重在不断的增加, 那么 ctrl 加下键,那么就是减少它的权重,是不是很方便呢?不过我们要补充的一点是,关于权重我们要多低都行,但是不可过高,因为过高的话图片就会过你和, 换句话说,图片就会变形,会失真。接下来我们来讲短句和长句,我相信不少小伙伴都有这么一个疑问,为什么我写提示词的时候一定是一个一个词这样去拼写, 不是用一句话去描述我们想要生成的内容呢?那么这边我可以很明确的回答你,其实两种都行,但是就目前而言, 用一个一个的词组去生成,效果会更加的准确,更能表达出我们提示词包含的意思。另外一点,使用一个一个的词的时候,也方便我们进行权重的调整,比如刚才我们有提到,将光标放在某一体字词上, 然后摁住 ctrl 加上或下就可以调整该提示词的权重。那么如果说是一句话的话,你想调整某一提示词, 那么可能就得手动去输括号,进行相关的权重调整。当然现在全世界的 a i g c 从业者也在不断的去研究该怎么样让自然语言,也就是我们的长句能达到媲美短句的效果。接下来我们来讲一讲提示词的整体长度, 要注意,比如我们在输入正向提示词的时候,并不是说越多就越好,多可能会让你的表现更加糟糕,那么我们最好把提示词控制在什么数量之内会效果最佳呢?经过众多 a i g c 玩家的经验以及研究表明,提示词控制在七十五个之内 是效果最精准的,超过了七十五个提示词的话,可能会对提示词的识别不精准,整体的表现会降低。正向提示词如此反向提示词也是一样的,记住最好不要超过七十五个。 接下来我们来讲一讲骑手势,那么什么是骑手势呢?在 stebiefune 各个大模型训练的过程中,会加入许多的 如四 k, 八 k 或者 masterpiece 各种各样高质量的图形去训练。那么当我们在输入提示词的时候,比方说输入四 k masterpiece, 那 么就可以使我们生成的图像更加的精美。反向提示词的话,那么就相反,比如我们输入模糊就 是文不想要模糊嘛,那么相当于也是会让图片变得更加的清晰。或者说我们在反向提示词内输入文字 text, 那 么在画面中就会减少文字的出现。这边我们可以来看一下这几组的对比,差异还是很明显的, 接下来我们来讲讲提述词的顺序。或许有小伙伴会有疑问,一个提示词在整体的前部或者是在整体的后部会有什么影响吗?答案是会有影响,在一组提示词中,越靠前的提示词权重会有所增加。那么在我们书写提示词的时候,我们尽量按如下格式进行书写, 首先是书写那些可以提升画质的,或者说可以改变画风的一些词汇,比如 masterpiece, high quality, high detail, 类似这些词汇。第二步是描述我们画面的主体,比如我们可以说 one girl, blue dress, 一个女孩,蓝色的裙子。 那么第三步就是描写环境,场景,灯光或者构图。比如我们可以说啊 garden 背景嘛, garden 或者说是 white background, 白色的背景,或者说是 soft light 柔和的灯光类似于这些。那么最后我们可以在正向题词的结尾添上我们想要加的 laura, 关于 laura 和各种模型的下载,我上期视频也有介绍,感兴趣的小伙伴可以回去观看。 接下来我们来讲一讲提示词污染。那首先我们要知道什么是提示词污染。我们可以看一下这一组图片,未经处理时,在多个提示词同时书写的情况下,各个提示词的意思可能会相互渗透。那么为了避免这种情况,我们可以用 break 来隔开提示词, 尤其是防止颜色污染。之后我们来聊一聊题序词融合。比如我们写 one girl, cat 这边我们可以看到生成了一张猫在女孩身上的图片。好的,现在我们在 one girl 和 cat 之间添加上 end, 注意这里的 end 必须是大写,全部大写。这边我们可以看到生成了一张猫娘的图片。这个 end 的 作用就是将两个提示词融合在一起。同样的,下划线也有和 end 类似的作用,也是将两个提示词结合在一块。 除此之外,隔一组提示词用中括号括起来,中间再用竖线隔开,也有类似与融合的效果。那么这个的原理是,第一步画前面的关键词,第二步画后面的关键词,第三步又在画前面的关键词,以此类推。最后我们来讲一下控制生成的时间段, 比方说现在的叠带步数是二十步,在这过程中我想让前百分之三十生成森林,后面百分之七十生成一个女孩。那么我们可以试着这么书写,大括号, forest 在 街上冒号 one girl, 在 街上冒号零点三,最后以大括号结尾,那么这一长串 代表着是在百分之三十的时候结束画 forest, 开始画 one girl。 那 么如果说我们把零点三改成零点七,那么意思就是前百分之七十画 forest, 后面百分之三十画 one girl。 好 的,那么以上就是本期的所有内容了。 hello, 大家好,欢迎来到 cf ui 系列教程的第五节课,那么本期视频我将分享几个非常实用的 a i g c 网站以及大模型的下载还有使用方式。那么在本期视频开始之前, 我们先了解一下大模型以及 laura 的 存放路径。首先是大模型,我们一般放在 cf ui 文件夹里的 models 文件夹内的 laura, 文件夹中的 laura 内 有些小伙伴可能不知道什么是 laura, 那 么我们可以简单的理解为 laura 就是 非常精简的小模型,它一般搭配着大模型使用,从而让我们的生成结果更具风格化或是质量提升。 首先是利物利物 a i 利物利物目前是国内最有权威并且规模最大的 a i g c 网站之一,该网站包含了模型下载,作品灵感 在线生图,还有训练 laura 以及诸多功能。我们一起来看看模型广场,这里有诸多模块,动漫、游戏,插画,二次元幻想、手绘风,工艺风等等等等, 在这里都能找到你想要的相关模型。当你工作或生活中没有灵感的时候,我们可以来到这里看看大家上传的图片,如果有你喜欢的图片的右下角有生成信息,我们可以复制相关参数到 stable future 里面自行生成。第二个网站是 nova ai 点 de v, 该网站侧重于辅助功能,比如这个法术解析,我们可以把已下载好的 stable future 图片拖到这里来, 那么它就会进行相关分析,最后汇总成一个参数表格,当然我们可以复制这份参数表格到 stability fusion 里面,在这里有相关详细的使用介绍,我们看看侧边栏,这边有各式各样的标签供您挑选, 我们可以利用这些标签去组成我们想要的关键词,然后复制到 web ui 里面进行生成。此外,该网站还链接了 a i g c 的 社区,比如之前在 liblib 上看到的画作分享模块,这边也有,并且这边还对各种各样的图片进行了分类, 总体来说还是挺不错的。好的下一个网站是 poem, 在 这里我们可以很直观的看到每一个提示词所带来的效果。当然提示词标签也是多种多样, 我们可以看到人物的各种特征,这边几乎都有包含,如果你想添加某个提示词,那么直接点击就行, 随后会在右侧的侧边栏显示有点像购物软件的购物车一样。等我们选择完所有信息的提示词后,直接点击复制便可粘贴到 web ui 里进行图片生成。除了人物外,我们还可以看到这边有诸多板块,服饰风格、各种构图、质感环境 以及一些质量参数等等。接下来是国外网站,首先是 civate ai, 在 这个网站内汇集了来自世界各地创作者所训练出的模型, 同样的也汇集了来自世界各地 ai g c 玩家所分享的图片。比如我们喜欢某一张图片,我们可以点进去看它的详细参数,比如它使用了什么模型,什么 laura 等等,当然还有关键词我们都是可以复制并直接进入到我们的 web ui 内进行粘贴复现的。 除了图片外,这边还有大家所分享的 ai 视频。总的来说, cvitai 是 一个非常非常全面并且有着海洋信息的网站,基本上市面上的所有模型以及 laura 在 这边都能找到。 接着我们来看看下一个网站 huginface, 想必这个网站许多人应该都听说过,许多最新的模型 laura 等都是在这边开源发布的。 比如我们搜索 stable fusion 三模型,这边我们可以看到网页包含了模型生成的视例图以及模型的原理,还有模型的代码等等信息,并且只要你登录了之后便可以下载该文件。最后要介绍的网站是 gitap, 这是目前全世界最大的开源代码网站,在这里我们可以找到海量的信息,其中就包括 aigc, 各个大模型或者是各种插件最新信息 以及下载方式。比如我们搜索 stable fusion, 在 这里我们可以看到有关于 stable fusion 开源的所有信息,不论是运作方式还是本地部署,亦或是它开源的代码,我们都可以从这里得知。最后是模型推荐,我们知道现在市面上已经有着成百上千各种各样的模型, 那么这边 up 主帮大家整理了一下,选出了几个我认为较为好用的大模型。首先是 dreamstriper 以及麦吉系列,它们的共同点就是生图质量较高,并且生图的类型范围非常广泛。 最后是 prime mix, 这是一个二次元大模型,在有关动漫的图像生成上,它的表现非常卓越。 然后是建筑类的大模型, architecture realmix, 这个模型包含了建筑相关的一切领域,包括楼体创意,现搞转会、室内设计等等等等,它都能胜任。 好,我们回到康复以外,现在我们将用同一组提示词以及其他参数仅仅变化我们的大模型,来看一下生成的结果有什么差异。首先我们选择的是真实感的大模型。好,我们可以看到生成出来的图片非常的写实。接着我们换一个二次元系的大模型, 好,我们可以看到现在图片完全变成了动漫风格,那么这就是大模型的威力。接下来我介绍一下 lowra 的 使用方式, 我们鼠标左键按住模型输出,拖出来之后,我们可以看到这边有一个 lora 加载器。好的,选择了之后,我们可以看到 lora 加载器分别有模型以及 clip 的 输入与输出,那么这边我们先将它的 clip 给连上, 接着我们再将 lora 加载器的模型输出连接到 k 太阳器这里,然后再将这个 clip 连接到文本编码器。那么我们稍微整理一下工作流, 那么现在我们先设置一个 lora, 我 们其他参数同样保持不变,比如说我们来一个这个梦中花境吧,我们提示词也是没有任何变化。随后我们开始生成, 我们可以看到明明我们的提示词没有任何关于花的词汇,但是我们的结果图却出现了非常多的花,那么这也正是因为我们的 laura 起到了作用,不同的 laura 有 不同的效果,小伙伴们可以自己去尝试。好,那么本期的视频到此结束。 哈喽大家好,欢迎来到康复 u i 系列教程的第六节课,那么本期课程我们将一起学习图生图的相关知识以及高清修复。那么在介绍图生图的工作流之前,我们先来讲讲什么是图生图。在我们使用图生图功能时, 我们一般使用一张图片与一组关键词共同作为输入生成的图像将收到这两个输入的共同调节作用。比如使用下面这张初级草图以及一段指令作为输入,图生图功能会将其转化成一张完成度较高的图片。首先,第一步, 我们输入的图片会由 v i e 编码器编码从前空间图片并传入到前空间内。第二步,传感器会向其添加噪声,通过设置降噪幅度可以控制究竟要添加多少噪声到原始输 入的图像中。如果降噪幅度为零,则不会有任何噪声添加进我们的前空间图像。如果降噪幅度为一,那么我们输入的图像会因为噪声过大而起不到任何参考作用。第三步, 采集器内的噪声预测器将上一步处理后的前空间图像与文字指令作为输入传输到 unit 网络,并预测出应减去的前空间噪声张量。接下来,前空间噪声张量将会从前空间图层图像中减去并得到前空间新的图像,并且第三步的全流程会重复特定的次数,而这个特定的次数就是采样步数, 比如说二十次,而这整个过程都是在采集器内完成的。接下来到了第四步, ve 解码器会将降噪完成后的挺空间图像解码成像素空间的图像,那么也就是图生成图的最终图像。接下来我们回到 comfui 中,我们先加载一个默认工作流,随后将 comlater 给删去。 接着我们点击 later 拖出来,选择 v i e 编码,那么我们就成功加载了 v i e 编码器。接着我们将 v i e 编码器的 v i e 输入连接到 checkpoint 加载器的 v i e 输出上,随后我们将图像节点给拖出来,选择加载图像 load image, 那么这边我们上传我们需要的参考图像。这边我上传的是一个金发小萝莉,那么接下来我们要边写一下提示词。这边我们可以输入 one girl golden here, 然后再输入一个 lake, 也就是湖水作为背景。我们看一下啊,他穿的衣服是蓝色的,那我们可以说 blue dress。 接着我们可以看到它的衣服有一点点湿,那么我们可以加入 drench, 湿透的意思,还有白丝袜副象题是词,这里我们一般输入的是模糊,也就是 blur 以及低质量 low quality, 还有文字,也就是我们不希望它出现文字。现在我们回到采暖器这里, 我们可以看到这边有个降噪,我们将该值修改成零点七,而对于降噪值,零点三到零点五之间属于安全的重绘幅度区间,而零点五到零点七则赋予了 ai 更多的想象与发挥的空间,那么低于零点三或者高于零点七, 图像都有可能会发生扭曲变形。好,那么这边我们先将该值设置成零点七,生成张图片试一下。 这边我们可以看到这两张图片的背景以及这个墓栈道还有人物的部分特征都是比较相似的,但是我们可以看到他们的年龄确实不太符合。那么接下来在关键词的前方加入一些质量提示词, 在我们优化完关键词之后,我们再次生成,看下效果如何。这边图片已经生成出来了,但是感觉还是不太相像,我们要做的就是将降噪幅度改成零点四五,之后我们重新生成一次,看一下效果如何, 效果是不是好了非常多呢?如果你觉得图片不太满意,那么我们可以多生成几张,直到得到你满意的图片为止。 那么接下来我们讲一下什么是高清修复,比如说我们现在生成的这张图片我们非常满意,那么我们怎么增加它的分辨率以及图片的细节呢?好,那么我们这边回到 k 层扬尘器,我们先将种子值选择的是固定模式,随后稍微整理一下工作流, 双击界面的空白处,输入 upscale, 然后我们将该节点的 layton 输入连接到 k 层扬尘器的 layton 输出上。 好,随后我们按住 alt 键,点击 k 传感器拖出来,那么我们就复制了一份相同的 k 传感器,那么我们将这个 laten 按系数缩放的 laten 输出节点连接到我们新建的 k 传感器的 laten 输入中。 最后我们将文本编码器的条件输出分别连到 k 传感器的正面条件以及负面条件上,模型也是一样,我们回到 check point 加载器,将模型连接到我们新建的 k 传感器上。 好,随后我们回到新建的 get 检测器中,我们将步数设置成二十五, c f 居值我们设置成七。好,接下来我们点击这里选择这个 d p m p p 二 m 调度器,这里我们选择的是 carrots。 接下来我们新建一个 ve 解码器, 随后我们将 ve 解码器的 ve 输入连接到 shift point 的 ve 输出上,接着我们新建一个预览图像节点,随后开始生成, 我们可以看到这张图其实非常的不自然,那么我们该怎么去解决呢?我们回到我们新建的 k 传感器这边,我们将运行后的操作改成随机,并且将降噪幅度改成零点五五,随后再次生成。 好,我们对比一下前后两张图片,我们可以看到脸还是变化比较大的,那么我们可以适当的降低降噪幅度,比如说我们改成零点五一再生成一次看看。 好,现在我们可以看到生成的结果,五官是和原图非常相近的,我们再来对比一下图片的细节,放大之后我们可以看到右边,也就是我们新生成的经过高清处理后的图片细节要比原图多很多,比如说水面上的气泡以及这些发丝都是非常的清晰的, 我们这边可以对比一下原图,头发这一块一放大就变成一块马赛克了,而我们新生成的图片还是比较清晰的好,那么有的小伙伴可能会说,哎,这还不够清晰,那怎么办?别着急,我们还有高清修复的方法,那么接下来我们将进行第二重高清修复,我们搜索 sd upscale, 也就是这个 s d 放大,那么接下来我们将这些节点一个一个的连上。首先是图像,我们连接的是这个 ve 解码之后的图像输出,接着模型我们还是老样子, 连接的是 checkpoint 的 模型输出,那么这边我推荐一个小技巧,我们将模型拖出来之后选择转节点,我们可以看到这边有一个小小的节点,那么这个节点的意思也就是代替了这个模型的输出,我们将 s d 放大的模型输入,跟这个模型输出相连。 好,现在我们可以看到它其实也相当于跟我们的 joy 连接在了一起。接下来是正负相条件,我们也用同样的方法拖出来,选择转接点。 好,接下来我们连接 ve 模型,我们也是用同样的方法选择转接点,拖出来 连接 v i e, 这边我们选择放大模型加载器节点,接下来点击这里我们选择该选项,这个放大模型是我试用下来效果最好的。最后我们加载一个预览图像节点,接着稍微整理一下工作流,好的,整理完工作流之后变得整洁了一些,我们开始生成 图片已经生成出来了,我们可以放在一起对比一下效果,这张图的分辨率已经达到了二 k, 非常的清晰,我们可以看到细节都还是不错的。然后我们再来看一下第一次放大的图片,放大之后还是有点糊啊,对吧, 不过清晰度也还是可以得到保障,再来对比一下这个哦,确实特别的清晰。 随后我们再来看一下第一张图片的清晰度,这个放大之后就是一团马赛克了,对吧?差异还是非常大的 好,那么有的小伙伴可能会说,觉得这张图清晰度还不够,哎,那怎么办?别着急,我们还有最后一重放大,那么加上了这最后一重放大之后,也就构成了所谓的三重放大。这边我们搜索 upscale, 接着选择这个图像,通过模型放大,这个节点非常简单,只有两个输入以及一个输出, 然后图像的话就连接到 sd 放大之后放大模型,这边我们同样选择的是该模型, 随后我们将图像拖出来,选择预览图像。好,我们可以看到最终生成图像已经出炉了,我们来欣赏一下它的效果到底有多么的炸裂。这是一张四 k 的 图像,清晰度非常的夸张, 发丝都看得见,完全没有那种模糊马赛克的感觉,湖水也是很真实。 我们再来看一下对比第一张,那放大了之后全身马赛克对吧? 没法比啊,这个确实没法比,那么这就是本节课所介绍的图生图以及三重放大的效果。首先这是我们图生图之后转绘成真人的图片,接着这是第一重放大, 第二重放大,最后这是第三重放大。好,那么本期的视频到此结束,如果你觉得对你有帮助的话,那不妨给个三连加关注吧。哈喽,大家好,欢迎来到本期的康复 ui 学习频道,那么本节课我们就一起来学习康复 ui 里面最最最重要的 control net 说到 computernet 的 起源,就不得不提到他的作者张吕敏,他是二零二一年本科毕业,目前正在斯坦福读博的一位中国人。那么他所提出的是一个新的神经网络概念,也就是通过额外的输入来控制域训练的大模型,比如 stabilisation, 其本质就是端对端的训练。那么现在已经有了各种各样非常优秀的 computernet, 比如 kenny, lan on, soft edge, dips, open pose, tile 等等等等。那么在正式内容开始之前,我已经帮各位小伙伴把所有可能需要用到的 content 模型全部打包好了,需要的小伙伴可以在评论区内领取。那么这边我们先打开 comforlater 的 文件夹,随后打开 models, 接着打开 content 文件夹, 随后将我分享给大家的压缩包解压到该文件夹内。好在我们解压完后,可以看到这边一共有十多个 control 内的预处理模型。那么本期视频就先来介绍能够还原参考图大部分细节的 cany 以及 soft h, 还有能够为线稿上色并在动漫图像领域大放异彩的 line on。 我 们先加载一个默认工作流,点击这里, 最后点击默认。如果现在你还未部署好预处理模型的话,我们也可以点击这里 manager, 随后点击 model manager, 接着我们搜索 controlnet。 随后我们便可以看到这边有非常多的预处理模型可供我们下载, 我们只需要下载主要的那几种即可,也就是 kenny, dips 以及刚才说的其他。那么接下来呢,我们先讲讲 kenny 是 如何使用的,我们双击屏幕搜索 kenny, 好 的,我们找到这个 kenny, 我们整理一下工作流,腾出位置出来。接着我们再搜索 controlnet, 选择这个 apply controlnet advance。 那 么我们先稍微连接一下这些条件, 随后我们再添加加载图像节点 load image。 接下来我们把加载图像的输出节点与 kenny 的 输入连接,随后再把 kenny 的 图像输出连接。那么接下来呢?我们在 controlnet 的 这个 controlnet 输入模块这边 我们加载一个 load control net model, 这边直接有啊,我们点击即可。接下来我们 control net 的 模型,我们选择的是这个 kenny, 随后我们这边也可以拖出一个预览图像节点,那么待会工作流在运行的时候,我们就可以看到这个 kenny 处理图像之后的样子究竟是什么?接下来我们稍微编辑一下提示词, 模型这边可以根据自己的需求,这边我选择的是真实系的大模型。好的,接下来我们来到 comrade 这里,我们将它的尺寸改成高度为七六八,宽度也是五幺二,也就是和我们的参考图一样,随后开始生成。这边我们可以看到 kenny 预处理后的图像已经出来了,我们对比一下它的原图, 我们可以看到大部分的细节他都用细线勾勒了出来。我们再来对比一下原图和最终生成的图像,我们可以看到最终生成的图像的姿势以及发型,还有非常多的细节,比如说他们的服装,我们甚至可以注意到 前后两张图的蝴蝶结的形状都是完全一致的。那么我们再来看下 kenny 这边 kenny 处理之后的图像蝴蝶结这边正是因为 kenny 把这个形状给勾勒了出来,那么才能做到前后的形状保持一致,那么其他的比如说发型一致 也是同样的道理。接下来我们来讲一下看你的域值,比如说我们把域值给调成零点二吧,我们可以看到图像的细节增加了,那么接下来我们再把这个域值给调成零点五。 现在我们可以看到域处理之后的图像线条变少了很多,那么也相当于给 ai 更多的自由发挥空间。我们再来看看高域值,比如说我们把高域值从零点八改成零点九五吧, 看一下会有什么样的变化,细节又变少了,对吧?接着我们再把高裕值从零点九五调成零点五吧, 图片的细节又变多了。不过我们要注意的一点是,高裕值不能低于低裕值,比如说把高裕值调成零点四,那么现在低裕值是零点五,高裕值是零点四的话,看一下会有什么样的结果,直接报错了。那么接下来我们可以再把低裕值调整成零点一, 图像又能跑起来了。那么我们可以看到在低域值为零点一,高域值为零点四的时候,域处理之后的图像是与原图极度相似的,再看下此时的生成结果, 我们可以看到生成的结果图与原图非常的相近,无论是背后的湖水,还是这个木栈道,以及身上的各个细节都是非常相似的,但是我们可以发现头发的颜色对吧?是不同的,以及他的瞳孔 其实是有点变形的,那么这是因为什么呢?我们可以看到,因为我们的域值很低,导致图片有着过多的线条细节,那么这也会限制 ai 的 发挥,从而产生一些过几何的情况。说人话就是 域值不能太低,太低的话图像会变形,我们得把域值控制在一个合适的区间,那么我们一般的话,我们可以把域值设置成零点二, 高域值我们一般取个合理的数值零点八。随后我们看一下生成的结果,此时的图像与原来相似度其实降低了好,但是图中不自然的地方变少了,那么这也是我们需要进行一个权衡的地方。接下来我们来讲一下第二个 ctrl 内域处理模型 soft h 这边我们先把 candy 节点给删去,随后双击屏幕搜索 soft edge, 我 们选择这个 h e d 开头的 h e d soft edge lines。 那 么接下来我们将图像的输入与加载图像的输出连接,同样的我们的输出和 control 链连接 这边我们可以把输出再和一个预览图像节点连接,也是方便我们进行一个预处理之后的图像预览。接下来我们把 ctrl 键在器这里的模型选择成 soft h, 选择这个,那么接下来我们开始生成即可。 好的图像已经出来了,我们先来看一下这个预处理之后的图像,我们可以看到它和 kenny 不 同的是,它的大致轮廓并没有描绘过度的细节, 那么这也可以让 ai 发挥更多的想象空间,以及减少图像变形的可能性,所以一般情况下 soft edge 的 效果会优于 kenny。 比如说我们看一下这一张生成之后的图片,这张图的各种细节以及它们的构图,还有人物的姿势都是非常的与原图贴近的,并且最关键的一点是这张图变形的地方其实非常的少, 这点要比 kenny 强很多。好,那么接下来我带着大家一起用 soft edge 来进行一个人物转会,那么首先我们来看一下该怎么操作吧, 我们可以看到这张图生成之后的发色以及衣服的颜色,还有这个栈道的颜色背后的一些细节都是与原图还是有挺多出入的。那么这边我们先加入一些关键词,金色的头发吧, golden here, 还有蓝色的眼睛,淡蓝色的裙子,以及背景是湖水,那么就加个 lake, 我 们先跑一次看效果如何,到时候有什么问题的话,我们再进行关键词添加即可。哎,我们看到效果好很多, 但是这个衣服跟原先是有很大差异的,半透明的感觉嘛,我们的衣服非常的干,那么我们可以加入一些关键词,比如说湿透的白色的丝袜,我们再送上一次看一下效果如何, 我们可以看到他的眼睛颜色过深了,那么我们可以把这个 blue eyes 改成淡蓝色赠送一次, 我们可以看到效果好了很多,但是这个眼睛还是不够的淡,我们调成一点一的权重吧,以及他的衣服不够的湿透啊,我们也是要把这个卷曲也就是湿透的这个权重给调高,调成个一点一五吧,我们再进行生成。 我觉得图中的人物的脸过于成熟了,我那么可以加个关键词,萝莉以及 cute, 我 们可以看到身上的权重给升高到一点二吧。 好的,这边我们可以看到这张人物已经出现了一些过礼盒的情况,这个眼珠是吧有点变形,以及头发上的这些水珠。 很明显这个 sketch 不是 我们想要的单词,因为这个 kitty 模型并没有理解我们想要的 sketch 是 让衣服湿透的意思,它是直接让人物湿透,我们把 sketch 给删去,那么我们直接输入半透明的裙子。 好的,最后我们得到了一张这样的图像,不知道你觉得效果如何呢?这边要提一嘴的是,我们之所以可以把二次元图片转换成真实系,是因为我们用了真实系的大模型,那么同样的,我们也可以把一张真实系的图片用二次元风格的大模型进行转换。 好的,那么接下来我们来讲一下能够进行现稿转会的 line on。 这边我们先把这个 soft edge 的 预处理器给关闭,随后输入 line on。 这边我们可以看到有非常多的选项, standard line on, 标准的 line on 模型以及 realistic line on, 真实系的 line on 处理。还有个是 anime line on, 对 吧?动漫类的线稿处理,那么我们要进行现稿转会,现稿上色的话,我们就选择这个 anime line on。 好的,我们先输入一张现稿图吧。最后我们来到加载器这里,我们把这个模型选择成 line on。 这边有两个选项,一个是 line on, 一个是 line on anime, 那 么因为我们要进行的是动漫线稿转会,所以选择的是 line on anime。 接下来我们边写一下正向提示词,比如说我们想要这个女生有金色的头发,那么就可以写 golden here, 然后来个绿色的眼睛吧,衣服的话我们就来一个白色吧。 好的,图像已经生成出来了,我们来对比一下前后的效果。最终图像再对比一下原图确实是完美的进行了上色,比如说我们的 golden hair, 金色的头发,对吧?实现了, 以及 green eyes 也是实现了,以及 white gloss, 对 吧?效果都是非常好的。那么以上就是进行现稿转会的具体流程了,当然我们也可以换张图片再次进行生成。这边我选择的是一个高马尾的齐刘海漂亮女生。 关键词,这边我们可以来一个红色的头发吧,感觉更有动感一些。眼睛的话来一个黄铜,服装的话来一个黑色吧。好的,我们进行生成, 这边我们可以看到效果是非常好的,只不过他的背景有点缺点,对吧?比如说我们想要来个森林的背景,那就 orange background 效果出来了,你觉得怎么样呢?这视频的结尾我们把 kenny soft h 以及 line on 来做个对比,从中我们可以很直观的了解到每一个预处理器模型之间的差异,以及最终的效果到底如何。 好的,那么以上就是关于本期的全部内容了,那么下节课我们继续讲解 comscape 的 其他几个主要的预处理器,我们不见不散。 哈喽,大家好,欢迎来到本期的康复娱乐学习频道,那么本节课我们接着上节课的内容,继续来学习主要的 control 的 预处理器。那么首先我们来学习的是 open pose, open pose 即姿态控制,主要作用是可以控制人物的姿势,甚至是表情。那么接下来我们双击屏幕搜索 open pose。 好 的,现在我们可以看到加载了一个 open pose 姿态预处理器,接着我们在双击屏幕搜索 d w pose, 对, 就是这个选项。 这两个节点呢,其实都是 open pose 的 预处理器,那么它们之间有什么区别呢? dw open pose 呢?综合性强,生成的骨骼图包括了面部、身体姿态以及手部骨骼。而原始的 open pose 又分成了五个大类,分别是只包含了大致骨骼的,以及 包含大致骨骼和面部的。还有只有面部的,或者是包含全身以及面部的, 还有全身但不包含面部的。但是我们仔细看可以发现 open pose 相比 dw open pose 生成的结果不够准确,比如图中 open pose 预处理后的手部以及小腿骨骼丢失。所以说一般情况下 dw open pose 是 要优于 open pose 的。 这边我们先把这个节点给删去,留下的是 dw 姿态预处理器,接着我们把 k 采集器 其后面的节点往后拖腾出空间,然后再搜索 controlnet advance, 对, 就是这个 apply controlnet advance, 高级的 controlnet 应用。好的,这边的话我们先把一些节点给连上, 接着我们把 dw openpos 的 图像输出连接到这个 controlnet 上,接着我们再加载 controlnet 的 预处理器模型,这边我们选择该选项, low controlnet model 选择 open pose。 然后这边的话我们先来一个加载图像节点。好了,这边我们上传的图片是一个金发小女孩,然后我们接下来开始写一下正向提示词,一个男孩在花园中 garden。 好 的,那么接下来我们开始生成。 这边我们可以看到这个姿态处理图像已经出来了,是吧?和我们的原图可以说是完全一致,他连手指的骨骼以及脸部的表情都给你刻画出来了。好的,接下来我们看一下最后的结果图如何。 这边我们可以看到这个小男孩的姿势可以说跟小女孩完全一致,连这个腿部的姿势都是一样的,然后手臂撑着一个东西,他们的眼神以及这个头的偏向都是和原图完全一致的, 或者说我们再生成一张图片看一下。好的,我们可以看到小男孩的姿态还是和原图是完全一致的。这边的话,我们还有个好玩的一点是,我们可以搜索 post node 姿态节点,那么有了该节点后,我们就可以自定义人物的动作,比如说我们想让他摆一个这样的姿势, 我们可以看到这张图的尺寸应该是五幺二乘五幺二的,那么我们接下来直接把这张图的姿态节点与 ctrl n 的 图像连接。然后我们就先把这个呃 dw openpos 给放在一边,摁 ctrl 加 b, 先将它们给忽略, 然后我们调节一下这个 laten 的 比例,调整成五幺二乘五幺二,随后再次生成。我们现在可以看到生成的图像和这个姿态完全一致,或者说我们再来一个这样吧。 好的,那么以上就是关于 openpos 的 介绍,那么接下来我们来讲下一个预处理器 tips。 首先我们要明白什么是 tips。 tips, 预处理器处理的是空间关系, 和刚刚所讲的 open pose 有 点相似,都是绑定参考图某些特征的空间关系的域处理器及模型。有时候我们用 controlnet soft edge 无法准确地将参考图的空间关系表达清楚, 那么这时我们就可以用上 dips 深度域处理器了。我们先加载我们的 dips 相关节点,这边搜索 dips, 然后看到这个 z o e dips anything, 选择该选项。然后我们上传一个教堂的图片。好的,我们稍微连接一下节点,然后再把刚才的这个 openpos 给删去。这边我们可以看到这有个选项是环境,可以选择室内或者室外。那么由于我们教堂是室内的,所以我们选择 indoor。 接下来我们在这个 ctrl 键的加载器这里选择 dv 模型,然后我们调整一下图片的尺寸,我们可以看到这张图应该是高度为五幺二,宽度是七六八,然后编辑一下相关的提示词。 这边我们可以输入一些质量词,先,比如说 masterpiece, 然后再输入我们的主体,比如说我们想要做教堂是紫色的,那么我们可以写 violet color。 好 的,我们可以看到生成的图像与原图的空间关系可以说是完全一致的。 这边有一个预处理之后的图像,我们可以来仔细看看。越黑的地方则代表着深度越深,而越明亮的地方则代表着距离镜头越近。那么我们可以看到生成图像的深度关系与预处理之后的图像可以说是保持一致。如果说想增加一些细节的话,我们可以加一些关键词。 好的,我们可以看到这张图的深度关系依旧与原图是保持一致的。比如说我们再换一张参考图吧,我们来一个这个金发小萝莉。好的,图像已经生成出来了,我们来看一下这个效果,不要看这张图的这个细节怎么样,我们主要看的是空间关系, 因为我们毕竟是一个针对于空间关系的预处理器吧。现在看一下预处理图像,哎,我们可以看到把人物肢体细节的空间关系都给表现出来了,比如说这个他的腿的根部这边,对吧? 我们可以看到阴影比较重,证明他的身体是向前倾的,以及背后的背景与人物的距离都用黑与白进行了清晰的刻画,然后我们生成的图片也是 根据这张图进行的一个效果的生成。空间关系还是非常不错的,但毕竟 deep 类似于辅助类的预处理器模型,所以说单独使用的话效果可能是比较差。那么接下来我来介绍一下一些常用的 ctrl n 键,也就是将各个 ctrl n 键串联起来的意思。 对于建筑类的重绘,为了确保前后大体的一致性,我们一般用 soft edge 加 dips。 在 这套公式中, soft edge 的 作用是控制线条的分布,而 dips 是 确保空间关系与参考图一致。而对于人物, 我们一般使用 soft edge 加 open pose 加 dips 加 ip adapter。 那 么在本公式中, soft edge 的 作用还是确保线条和参考图的分布一致,而 open pose 的 作用是绑定人物骨骼。 ps 的 作用是确保空间关系与参考图一致,而这里 ipad adapter 的 作用是实现面部特征的迁移,或者是风格的一致性。 好的,我们回到康复 u r 的 界面,那么接下来我来讲解一下什么是 t l 与处理器。首先我们来加载一个全新的默认工作流吧,这边我们搜索 t i l e, 选择该选项, 那么我们先把基础节点给忽略,单独来看一下胎儿育处理器到底是何方神圣。我们先来一个加载图像节点,这样的图像的话,我们还是用刚才的剪发小萝莉吧,然后我们再来一个渲染图像节点,现在开始生成, 哎,我们可以看到预处理之后的图像变模糊了,那么这就得说到胎儿预处理器的原理了。胎儿预处理器其实就相当于分块进行重裁样,比如说我把这张图分成了四部分,然后根据每一个部分进行图生图的生成,最后面再把这些给拼在一起,最终以达成增加细节的效果。 而我们一般在使用胎儿预处理器的同时,我们一般也会伴随着高清修复。然后我们再来仔细看一下这个胎儿预处理器,这边有迭代步数以及分辨率, 我们可以试着把叠带步数设置为六,接着我们再生成一次,我们可以看到图像变得非常的模糊,那么证明叠带步数越高,我们处理之后的图像也就会越模糊,那么我们最终经过采集器所生成的图像也会有着更多的变化。这边我们保持一个合适的值即可,比如说四或者二之间都可以, 而这边我想到最后的生成结果与原图尽可能的相似,所以我把叠加布书设置成二。好的,我们来到工作流,我们先稍微整理一下,接着搜索 ctrl n, 选择这个 apply ctrl n advance, 然后加载我们的 ctrl n 的 模型,这边我们选择的是 t i l e。 接着我们再来编写一下提示词,先输入其手势, 然后 one girl lake blue dress。 好 的,封面题是在这里的话,我们就来一个 easy negative 大 模型。这里我选择的是真实系大模型。然后我们来到 colletton 这里,我们将宽度设置成幺零二四,高度的话设置成 幺五三六,也就是七六八的两倍。好的,这边我们可以开始生成图片,已经生成出来了,我们来对比一下前后的效果。我们可以看到图片多了非常非常多的细节, 无论是腿部以及这些水的波纹,还有发丝等等等等。好的,我们再换张图片试一下。比如说我们来一个这个死亡骑士吧,看的非常帅,我们稍微编辑下关键词。 好的,图片生成出来之后,我们来对比一下效果。我们可以看到这张图也是多了非常多的细节,比如说剑上的火焰,以及这个剩下的岩浆, 不过好像没有原图那么好看是怎么回事?好的,这就是 tio 预处理器,一个可以让 comfort you are 的 细节与 midori 相提并论的预处理器。可以说我们在网上看到的那些精美的图片,如果说它是 s d 生成的,那么基本上都有 tio 的 身影。 好,那么本期的视频到此结束,如果你觉得对你有帮助的话,那不妨给个三连加关注吧,我们下期再见,拜拜!哈喽,大家好,欢迎来到本期的康复 ui 学习频道,那么这节课我们一起来学习 ipad adapter。 ipad adapter 的 由来可以追溯到二零二三年,当时一位叫 motion 的 用户在 get up 上首次提出了这个概念。 ipaditor 的 核心思想是利用预训练的图像生成模型,如 steve diffusion, 通过特定的算法对图像进行编辑和修改。现如今 ipaditor 主要有三个作用,首先是人脸替换, ipaditor 可以 精准地识别参考图的面部特征,并沿用该特征到结果图上。第二是材质迁移, ipaditor 除了识别面部特征之外,还可以识别参考图的材质,并沿用到结果图上。第三是风格迁移, ipaditor 在 前两种作用的基础之上,还可以对参考图的风格进行识别,并且迁移到我们的结果图上。那么接下来我们一起看看 ipaditor 具体是如 如何使用的吧。 ipad adapter 在 web ui 中是属于 computer 里的,但是呢,它在 comfy ui 里有着自己一套完整的节点。首先我们打开 comfy ui 的 界面后,我们点击这个 manager, 最后点击模型管理,然后再搜索 ipadder, 那 么我们就可以看到这边有非常多的模型,不过要记住有这个 dedicated, 也就是气用后缀的,我们千万不要下载,不然在你使用的过程中会报错。那么这边我们主要下载的是这个模型, face id plus v two 以及 face id plus v two s d 叉 l 这两个就可以,那至于其他的,比如说 ipadder s d 一 点五这一类的,可下可不下,毕竟是老版本嘛。 然后我们在滑到下面,看到后面这些 o n x 后缀的文件,这些一共有一二三四五五个, 这五个我们都是需要下载的。然后我们看到这边这边还有 ipad 的 laura, 这个 laura 也是可以帮我们提升图像生成的效果的。然后这边一共有两个,一个是 face id 一 点五的 laura, 一个是 face id plus v two s 一 点五的 laura。 这两个我们都可以下载。当然如果说你用的是 sd 叉 l 的 模型,那我们也可以下载 sd 叉 l 的 相关 laura。 好的,接下来我们搜一个叫做 clip vision, 现在我们可以看到这边一共有五个模型。这边的话我们这两个模型是一定要下载的 b 七九 k 后缀的,以及这个 b 幺六零 k 后缀的。当然如果说你在使用 kufu ui manager 下载 ipad 过程中出现任何问题的话,我们也可以打开 hackin face 直接进行下载。在进入到 hackin face 之后,我们搜索 ipad, 来到这个界面之后,我们点击文件以及版本, 能看到这边有非常多的模型,然后我们需要下载的是这四个即可,他们是 face id plus v 2 是 最新版本。接下来我们把这两个后缀式 bin 的 文件放置在这个路径内, 然后再把这两个 laura 放置在这个路径内。接下来我们点击这个模型的作者,然后在 models 这边找到 ipad, 接着我们点击文件及版本,打开 models 后,我们把这个文件下载到刚才的路径内。 接着我们打开 sd 叉 l models, 同样的把这个文件下载到相同路径下。那么以上就是 ipad adapter 的 安装以及部署过程。 好的,我们回到 copy ui 界面,我们先加载一个默认工作流。这边我先要向大家推荐一个非常好用的节点,叫做 easy use, 看到我的这个文本框了没有,以及这些节点它们现在其实是半透明状,我们可以清晰地看到后面的节点连线到底是通往哪儿的,这个非常有用,比如说我们把这 v e 结码放在 k 三二七后面,我们还是可以看得到里面的节点,这样就不会出现一些节点我们找不着的情况。好的,接下来我向大家介绍怎么下载 easy use, 还是一样,我们点击 manager, 然后点击节点管理,搜索 easy use, 然后下载该节点即可。除此之外, easy use 还有个很棒的功能,就是这个组别管理器也可以叫管理组,这个小模块是什么功能呢?比如说现在我们创建两个组, 我们把其中各组的名字命名为 group one, 另外一个的话我们就命名为 group two, 然后现在我们可以看到关联组这边,哎出现了两个,一个是 group one, 一个是 group two, 那 么我们这边比如说点击一下该按钮, 我们可以看到 group one 的 所有节点都被忽略了,当然我们也可以再次点击,那么就是奇用,我们也可以用同样的方法去控制 group two, 比如说,哎,点击一下这个是吧 group two 整个都变成了奇用,当然我们也可以再次开启这功能呢,还是非常实用的。那么这就是 easy use 的 一些相关应用。 然后我们再说下 easy use 该如何去改变我们这些节点的外观,我们打开设置,看到这边有一个叫做 color palette, 然后我们在调色板这边选择这个 opem, 也就是黑曜石 custom, 然后我们的节点就会变成了这种半透明状,当然我们也可以选择 opem dark, 那么我们可以发现,哎背景就变成了黑色,这个根据自己的个人需求而定,我的话还是比较喜欢灰色背景。好的,那么接下来我们来讲一下 ipad pro 的 具体使用方式。这边我们先加载一个默认工作流,然后我们双击界面搜索 ipad pro, 然后我们稍微整理下工作流,为它腾出位置。这边我们可以看到 ipad adapter 一 共有四个输入以及一个输出,我们可以看到有模型, ipad adapter 图像,还有关注层遮罩。我们先把模型与我们的 checkpoint 加在一起连接, 然后再把模型输出与 k 采集器连接,接着我们在 ipad 输入这里加载一个 ipad model loader, 也就是模型加载器。这里的话我们就先选择这个 sd 一 点五的,至于上面的这个 face id plus v2, 我 们待会讲该如何使用。 好的,我们先选择这个 sd 一 点五的。之后我们把图像这边也拖出来,连接一个加载图像节点 load image。 然后我们可以看到还有最后个选项,关注层遮罩。这个我们其实可连可不连,反正他们也不会报错。如果说连的话,那比如说我把这个图像在遮罩编辑器中打开,然后我们把他的脸给涂上遮罩, 接着再把这个加载图像的遮罩输出与 ipad 的 这个关注层遮罩连接。意思就是说我们的 ipad 将侧重于我们遮罩涂抹的部分进行相关的分析, 从而来影响我们最终生成图像的效果。当然如果说我们取消连接并且删除遮罩的话,意思就是说我们 ipad adapter 分 析的是整张图像的相关细节,比如说它的发色,脸部以及穿着。然后我们这边先编辑下提示词, one girl garden, 然后负面提示词的话,我们选择 easy negative v two。 然后我们可以看到这个空位,这边我们来一个 primix 哎,一个二次元系的大模型。然后我们回到这个 ipad adapter 的 应用, 我们可以看到这边一共有四个参数,分别是权重以及开始还有结束。最后是权重类型,那么开始以及结束这个我们就不用多说了,意思就是 ipad adapter 介入的时机以及结束应用的时机,那么权重的话,我们也可以理解为 ipad adapter 的 音响强度。 最后是权重类型,我们点开后可以看到一共有 standard, 也就是标准,还有个 poem is more important, 更注重于关键词。最后一个是 style transfer 风格迁移。然后这边的话我们先来个 standard 吧,也就是标准。 接着我们回到 k 采光器这里,我们把步数设置成二十五步, c f 居直改为七。采光器的话用的是这个 d p m 加加二 m。 调度器的话选的是 caras。 这个采暖器以及调度器可以说是一个非常完美的组合, d p n 加加二 e n 以及配套 carras 效果还是非常棒的。然后我们就先试着生成一张图片,看一下效果如何, 它的意思是说 ipad 迭个模型加载有问题,请使用最新的这个 ipad 迭个的模型加载器。 ok, 那 么我们在双击界面,然后再次搜索 ipad 迭个 unifier, 这是一个最新的 ipad 加载器,而 我们可以看到这个老加载器,它只有一个 ipadder 的 输出,而这个最新的加载器一共有两个,分别是模型以及 ipadder, 我 在这里向大家展示出来的目的就是为了让大家记得都要用这个新的模型加载器, 记住啊,是有两个输入与输出的,而不是用这个老的,不然它就会像刚才一样报错。好的,我们现在在进行连接,模型与这个 ipadder 应用相连,然后再把这个模型输入与 point 连接, 最后的话, ipad 的 输出我们也是跟 ipad 应用连接,然后这边的话我们选择的是这个标准,现在我们再次进行生成,好的图像已经生成出来了, 我们可以看到这张图像还是挺还原原图的一些特征的,比如说他们这个身上的服饰,对吧?但是现在有个问题哎,大家可能没有发现,这边我再生成一次给大家看一下, 不知道你现在发现了没有,我们生成的图像整体颜色偏暗,那么这个是怎么回事呢?我们可以看到 v e 解码,这边的 v e 的 输入是直接连接到车碰的,而有时候车碰大模型的 v e 其实并不太适合,那么这个时候我们就要单独加载一个 v e, 比如说这边我们先添加个节点 load v e, 然后我们选择一个 anime v e 吧,也就是动漫系的 v e, 接着看下效果如何。 哎,是不是画面瞬间变得明亮起来,我们可以多上上几张看一下效果,那种昏暗的感觉已经没了,还是非常不错的。好的,那么以上就是关于本期的全部内容了,我们下节课接着来讲 ipad 的 其他应用,我们不见不散。 哈喽,大家好,欢迎来到本期的康复 u i 学习频道,那么我们接着上节课的内容,继续来讲一讲 ipad 的 其他应用。 参考头像换成真人,比如这边我用的是赫敏作为参考头像,大模型我们也用的是真实系大模型。这边我们来一个慢极 realistic 吧,然后 ve 的 话,这个时候我们选用的是这个八四零零零零,然后再是生成,我们可以看到这个结果与原图还是比较相似的,我们可以多生成几张对比一下, 是吧,效果还是不错的。并且的话这边我们可以发现图片的比例与原图不一定要相符,比如说我们可以把 laten 的 尺寸设置成宽度五幺二,然后高度的话我们可以来个七 u 八,这很明显与原图的尺寸是不符的, 我们可以看到,哎,图片依然起效了, ok, 然后我们再来看一下 ipadder 的 其他应用,我们先加载一个新的节点,叫做 ipadder face id, 就是 该选项, 我们可以对比一下它跟这个原始的 ipad adapter 的 区别。我们可以看到这个新的结眼一共有非常多的输入,有模型, ipad adapter, 正面图像、背面图像、关注乘车照,还有 clip 视觉以及 inside face, 这个 clip 视觉也就是 collaboration, 刚才我们已经下载过该模型了,那么接下来我们就把这个基础的 ipadter 给删去,然后再连接一下,比如说这边我们连接到这个路由器上,然后模型的话也是连接到路由器。正面图像的话,这边我们要连接一个新的接点,叫做 print image for collaboration, 然后我们稍微进行连接, 接着我们再加载一个新的接点叫做 ipadter noise, 它翻译成中文就是 ipadter 叫声。 接着我们把 ipad printer noise 的 输出与这个负面图像连接,我们可以把这个负面图像理解为负面提示词的感觉,比如说我们给 ipad 核心节点传入一张非常糟糕的图像,有着非常多的噪波以及模糊,分辨率很低, 那么它的意思和负面提示词也差不多,也就是我们不想要这些因素。然后我们类型这边选择内容重组,也就是 shuffle 模糊,我们设置为十 ok。 接下来我们回到 ipad face id, 关注乘车照,我们可以直接不用管它。 clip 视觉这里我们加载一个新的节点,叫做 load collaboration, 这边我们选择的模型是这个 b 七九 k 后缀的,最后我们看到这个 inside face, 我 们拖出来连接一个新的节点,叫做 ipad adapter inside face loader。 下面的话我们模型选择这个 antelope v 二,然后我们重新回到 ipad adapter 加载器这里, 我们把这个模型选择成 plus face, 也就是肖像。接着我们把这个清除组缩放改成最后个选项,然后我们把第一个权重改成一点二,第二个 face id v 二的权重我们改成二, 然后看到下面有个权重类型,点开了后有非常多的选项,比如说缓入缓出,缓入即缓出,还有风格迁移,强风格迁移等等等等。这边的话我们就先选择一个星星,接下来我们回到开采暖器这里,我们加载一个 roo 加载器,然后进行连接 pro 加载器的 clip 与这个转换连接,然后我们选择的 laura 是 刚才下载的 plus v 二 s 一 点五模型,强度的话我们改成零点五,然后我们稍微整理一下工作流, ok, 这样好看了很多。接下来我们开始生成,看效果如何,我们可以看到这比刚才更像我们的参考图,也就是赫敏了,我们可以多生成几张看一下平均效果, 我们可以看到效果还是非常不错的。这边我们可以试着再换一张人脸图像,比如说泰勒斯威福特,我们可以看到人脸还是比较相近的。接下来我们讲一下 ipad 其他应用风格迁移,或者说是材质迁移。这边呢,我们需要准备两张图像,一张是我们的材质图, ok, 然后我准备的就是这个黄蓝水晶。另外一张图像啊,比如这边我选择的是一张玫瑰,好的,我们把玫瑰放到下面来,接下来我们要加载一些 content 来完成我们的这个玫瑰线条的绑定,比如说我们搜索 line on, 选择这个 standard, line on 的 图像输出连接到 controlnet advance, 就是 该选项 apply controlnet advance。 好 的,接下来我们加载 controlnet 模型, load controlnet model, 然后我们选择的是 line on, 选择第一个,然后我们连接一下这个 controlnet 的 正面条件以及负面条件。 接着我们再回到 ipadder 部分,我们看到这个 ipadder 加载器,这个预设的话我们选用的是标准即可。然后来到 lower 加载器,这里我们选择忽略,因为我们并不是进行人脸替换,我们可以看到整个工作流看起来一堆节点,十分复杂, 但其实我们只分了三个模块,一个是基础的默认生图模块,一个是 ipadder, 一个是 controlnet, 这边我们做些分组来让整个工作流看起来简洁明了一些。 ok, 现在我们分了三个组,一个是基础的模块,比如说我们正向提示词以及副向提示词,还有大模型的加载。而第二个组呢就是 ipad adapter。 第三个组就是 controlnet, 这边我们可以编辑一下组,比如说修改它的名字,我们点击该选项编辑组, 随后点击标题,这边的话我们输,比如说 ipa 吧 ipadter。 当然我们也可以修改该组别的颜色,然后我们来到下面这个组,同样的也是修改名字,那么下一步就是修改我们的关键词,然后还要注意的一点是红绿灯这里我们需要把尺寸设置成与我们的这个参考图像相同, 注意是我们的需要被替换材质的参考图像,而不是我们的材质参考图。接下来就是生成,我们可以看到这个玫瑰成功变成了黄蓝水晶状,当然我们可以多生成几张,对比下效果, 是不是效果还不错吧。除此之外,我们也可以使用其他功能,比如说这边的话,我们可以把这个权重类型设置成 style transfer。 哎,我们是不是可以看到这张图片又变成了另外一种风格,此时玫瑰花的花朵以及它的叶子已经不再是水晶风格,而是替换成了与材质图相似的颜色,比如说我们再生成几张看一下, 是吧,还挺有意思的,这边可以根据自己的需要来进行相关的调整。看腻了黄蓝水晶,我们设置成其他的材质图试一下,我们可以看到图像效果还是非常不错的,很有风格。当然,如果说我们想要我们生成结果,根据风格化,我们也可以在大模型上做一些改动,比如我们来一个 二点五 d 的 大模型,我们对比一下它和原图,借用 ipad adapter 以及 ctrl 键,是不是让我们平平无奇的一朵玫瑰花变成了多姿多彩的星空玫瑰呢?好的,那么这就是本期的全部内容了,如果你觉得对你有帮助的话,那不妨给个三连加关注吧,我们下期再见,拜拜! hello, 大家好,欢迎来到本期的 cf ui 学习频道,那么这节课我们一起来学习最基础的 ai 视频生成。好的,打开我们的 cf ui。 首先我们要介绍的是一个必备节点叫做 video helper, 我 们打开节点管理,搜索 video helper。 好 的,就是这个 video helper。 安装完后,我们回到默认工作流,那么该节点有什么作用呢?我们简单介绍一下。点击旁边的这个小字典,然后我们搜索 video helper, 我 们可以看得到这边有非常多的节点,其中最主要的是这个 video combine 以及 load video。 这个 load video 是 我们上传视频的一个小节点,还挺有用的,而这个 video combine 呢,我们可以理解为视频浏览器。好的,我们主要运用的就是这两个节点,我们先删除。 接下来在正式进入今天的主要内容之前,我们先来科普一下什么是视频。视频这一概念最早可以追溯到十九世纪末,当时托马斯爱迪生和威廉肯尼迪、老李迪克森发明了活动电影摄影机, 自此开启了动态影像的时代,最早的电影有一系列静态照片快速连续放映而成,使观众产生连续运动的错觉。如今随着智能手机的普及和 ai 技术的发展,视频制作变得更加便捷和智能, 从短视频到直播,从虚拟现实到 ai 生成内容,视频的形式和应用不断创新,已经成为我们日常生活中不可或缺的一部分。回到我们的默认工作流这边我们先加载一个加载图像节点,然后我们加载 input 节点, 选择这个 impenew 处理器。好的,我们现在把它们拖到下面来,然后与图像相连。这边我们把光标移动到图片上,右键在遮罩编辑器中打开,然后我们给它的键涂上蒙版, 随后点击 safe to know 保存。接着我们连接一下遮罩节点,随后我们加载一个 control net, 选择该选项 apply control net advanced。 接着就是加载我们的 control net 模型,这边的话选择的是 impant, 然后连接一下正面条件以及负面条件。 接下来我们搜索 in paint v a e, 选择该选项 v a e in code for in painting。 我 们可以看到它不同于以往的 v a e, 是 它一共有三个输入图像, v a e 以及遮罩。对,多了一个遮罩。这边的话我们先连接一下,把图像连接到 in paint 预处理输出 v a e 的 话,我们连接到 checkpoint 加载器。 遮罩的话我们连接到加载图像节点。接下来我们看到这里,我们把这个遮罩延展设置成三十,然后再把 laten 和 k 太阳器连接。最后我们设置一下关键词,这边我们想让它的键比如说冒出火光,那么我们可以说 flame 火以及 dark power 暗黑力量负面提示词的话,我们就用 easy negative 大 模型,这里我们可以选用一个二点五 d 的 大模型, 然后我们把 c f 居值设置成六采阳器,我们选择 d p n 加加二 m 调度器的话就是 chaos, 然后我们开始生成,哎,我们可以看到整张图只有它的键发生了变化,比如我们多生成几张, 我们可以看到它的键的纹路在不断发生变化。那么接下来呢?我们要进行一个操作,就是加载一个节点,叫做 image list to h, 对, 就是该节点,把该节点连接到 v e 解码之后,然后我们再加载一个新的节点,就是刚才 video helper 的 video combine。 好的,接下来我们在这个 v a e 内部编码器的后面新增个节点,叫做 repeat later batch, 复制 later p 四,将它与 k 太阳器连接,随后我们将这个次数改为四。接下来我们开始生成,我们可以看到,哎,这张图是不是它变成了一张动图? 那么这张图的原理也很简单,我们可以看到保存图像这边一共有四张图片生成了,并且每张图片因为收到 input 的 控制,只有键这部分收到了变化,再加上我们复制 layer 的 p 四以及随机种的作用,每张图键的火焰 都是不同的。那么最后我们用 image list to batch 将这四张图变成了一个小小的图像 p 四后,传到最后面的合并为视频,我们就可以看到这个非常简易的 ai 视频。当然我们也可以调整这边的帧率,比如说我们用常规帧率吧三十, 然后我们将这个复制 laten p 四,这边我们将这个 laten 的 次数改成三十,这边我们可以把这个采用步数给降低一点十五吧,然后 cf 居值我们改为四点五。接下来我们开始生成 这张图的帧率提高了很多,并且我们可以看到相当于我们一次性生成了三十张图片,然后由于我们帧率是三十的原因,那么我们每一秒都会进行这三十张图片的轮换,当然我们也可以换一张图片,这边我们加载一张这个双十一的文字图像,然后我们在遮照编辑器中打开, 比如说我们给这些数字添加上遮照,记住我们编写一下关键词。 好的,接下来我们把这个帧率给调成十六吧,然后开始生成。 好的,我们可以看到,那么这个非常简易的 ai 视频就这么出炉了,但是我们能发现它有非常多的屏闪,并且图像与图像之间的过渡非常的不自然。那么具体该如何解决这些问题呢?我们下节课再说,那么以上就是关于本节课的全部内容了,如果你 觉得对你有帮助的话,不妨给个三连加关注吧,我们下期再见,拜拜! 哈喽,各位小伙伴大家好,今天我们要学习的是如何让照片动起来,换言之就是通过我们输入的图片生成一段 ai 视频,那么本期需要用到的节点叫做 mimic motion, 在 我们打开它的官网后,我们可以看到他们展示的案例视频, 而要想得到这样的 ai 视频,我们仅需在工作流中输入我们的参考图片以及参考动作视频即可。我们往下滑可以看到官网给出的更多参考案例,总体来说效果还是非常不错的。仔细看我们可以发现人物的嘴型甚至都是和参考视频一致的。 那么接下来我们打开 get up 搜索 mimic motion, 这里我们点击 mimic motion weapon。 接下来我们点击这个按钮, 随后卸载它的压缩包并解压到 copyur 的 custom 文件夹内。随后我们开始安装必要模型。由于各个模型的查找以及部署过程非常复杂,这里我帮各位小伙伴把所有的必要模型都给打包好了,需要的可以在评论区内领取。 这里我们打开打包好的网盘资源后,可以看到一共有四个文件夹以及一个说明文档。那么首先我们需要将这个 dwpos 文件夹下载放置到该路径内,随后我们将 face store models 下载放置到该路径内。 接着我们再将 mimic motion 文件夹下载放置到这个路径内。最后我们将 stable video diffusion 的 文件夹放置到此路径内。 按照上述过程操作完成后,我们就可以在 comui 里面使用 mimic motion 节点了。那么现在我带着大家从零开始搭建我们的 mimic motion 工作流。这里我们先把所有的默认节点给删除,我们先把所有和 mimic motion 有 关的节点给拖出来。 好的,回到我们的工作流,我们先将这些组件进行简单的连接。 好的,那么接下来我们先来熟悉一下 mimic motion 采氧器的相关参数。首先是采氧步骤以及 c f g 最小值,还有 c f g 最大值,这些我们保持默认即可。往下看是种子值以及生成后的控制方式,注意这里我们选择的是这个 phase 固定。 接下来是 fps, 也就是帧率,该数值越高,画面也就越流畅,当然预算的时间也会更长。接下来是超声强度以及上下文的影响长度,注意这里,比如我们的上下文关联长度是十六,则代表着每一帧会受到前后十六帧的影响。 往下看是 context overlap, 也就是上下文的重叠度,这里我们保持默认值即可。接下来是人物参考动作骨骼对生成视频的影响强度,这里我们也是保持一默认值即可。如果该值太低的话,那么我们生成的动作就会与原视频不符, 并且有可能会发生肢体变形等情况。最后是动作骨骼开始以及结束的影响时机。最后一项是参考图像对生成的视频的影响强度,这里也是保持默认值即可。好的,那么接下来我们先上传我们的参考图像以及参考视频, 前面有提到过,这里我们加载视频的节点叫做 video helper, 需要的小伙伴可以在 manager 内自行下载。好的,接下来我们在加载图像后连接一个 image resize, 该节点可以控制图像的尺寸以及比例。随后将该节点的图像输出连接到这个 riff image, 也就是参考图像的意思。接着我们再将视频加载器的 image 输出与 pause image 连接。随后我们添加一个 video combine, 我们可以用该节点来预览动作骨骼视频。接着我们复制一份 video combined 节点到解码器的后面,用于生成视频预览。这里我们要改一些参数,首先是帧率,我们将该值改成三十, 随后我们将文件名改成 mimic motion, 左斜杠命。接着我们把格式改成 video h 二六四 m b 四。好的,接下来我们回到这里,我们将这个 video combine 的 文件名字改成 mimic pose, 帧率改成三十,以及格式我们也是改成 video h 二六四。好的,接下来我们可以看到它们报错了啊,必须拥有相同的解析度, 那么他们的意思是图像的尺寸得相同。好的,我们可以把这个 image resize 给复制一份放到下面来,最后与视频加载节点连接, 随后便可以开始生成好的视频出炉了,我们来看看效果。 对比后我们可以发现人物的五官,服装以及体态特征还是和参考图非常相似的,除此之外,人物的动作也和参考视频完全一致,并且视频无闪烁,流畅度非常的高。好的,那么以上就是本期的全部内容了,如果你觉得对你有帮助的话,那不妨给个私信加关注吧,我们下期再见,拜拜! hello, 大家好,本期视频我们将结合前面所学的内容,用 mimicmotion 来做一个 ai 视频风格转会。最后我们再结合 ipadder 看看效果如何吧。那么首先我们先打开 comfyui, 接下来我们先拖动节点,腾出位置 搜索 load image, 这边我们加载我们需要的参考图像,然后再搜索 image resize, 随后调整相关参数。接着我们把 later 拖出来,接上 ve 编码, 随后将 ve 编码的输入和 image resize 的 图像输出连接。随后我们用 anything everywhere 来加载我们的 ve 模型,将我们的 ve 发送到局。 然后就是选择我们的大模型。我们开始编辑我们的提示词,这里我们的提示词要尽量和参考图像保持一致。 然后将采样步数修改成二十五, c f, g 值设置成七。采样器我们选择 d, p, n 加加二 m。 调度方式我们选择 chaos。 接着我们再将 d, n, o, s 降噪的数值改成零点五。这里我们先稍微整理一些工作流,方便后续的工作流加入进来的时候不会过于杂乱。 好的图像已经成功生成了。接着我们在塞巴儿侧边栏里面搜索 mimic motion, 随后将所有相关的节点拖出来。 当然我们也可以用常规的方法搜索并加载这些 mimic motion 的 节点,只不过那样子比较繁琐费时。好的,那么接下来我们将这些 mimic motion 的 组件连接。 随后我们搜索 load video。 这边我们用到的节点是 video helper, 如果还没有的小伙伴可以去自定义节点安装里下载。 接着我们将 image resize 复制一份过来。这么做的目的是为了让我们的参考视频与参考图像规范化,不然有时候会有 resolution 相关报错。 接着我们加载 video combine 用于预览视频,这里我们将帧数改成三十,视频格式我们设置成 h 二六四。 随后将文件名称改为 mimic pose。 然后我们再复制一份 video combine 用于预览最终效果视频。这里我们将文件名改成 mimic motion。 左斜杠 mean。 好 的结果已经出来了,对比原视频,我们可以看到人物的外观以及动作是非常贴合的,并且我们在原视频的基础上进行了动画化的处理。 那么接下来我更换一下参考视频与参考图像,当然提示此部分我们也需要进行修改。这边我替换完参考人物图像以及参考视频之后,我们先来对其进行一个分组整理, 同样的这边也进行分组整理好,那么这边的话我们先起用主控制器,然后把 mimic motion 给忽略。这个主控制器呢是来自于 easy use 节点的。 之后我们再搜索 ipad adapter advance。 好 的,那么接下来的话,我们加载 ipad adapter 的 模型, 然后 ipad adapter 的 模型输入,我们连接到 jackpoint 加载器。接着我们再搜索 load image, 然后再搜索 preimage for collaboration, 接着我们再搜索 ipad printer noise, 然后将类型选择的是内容重组,模糊值设置成十,然后再加载 calibration 模型。 这里的话记得我们选择的是这个 b 七九 k 后缀的,然后再把这个权重设置成一点二。 好的,接下来的话,我们在 ipad 加载器这里设置成标准,将 ipad 的 模型输出连接到 k 太阳器内, 随后我们设置一个真实系的大模型,这里我选择的是麦吉的 realistic 真实系列。我们这边来编辑一下文本。好的,接下来我们开始生成。效果还行,但是我们可以生成多几次筛选出最佳的效果。 我们可以看到这个人物感觉比例有点奇怪,是吧?那么这边的话,我们可以用到 open pose 来绑定他的人物骨骼。首先呢,这边我们先给 ipad 先先建个群组吧,以防他会混淆。 然后我们改变一下它组别的颜色,这个图像生成模块的话,我们随便换个颜色吧。然后的话我们来加载我们的 controlnet 模块。那么接下来的话,我们将 ipa 的 群组往这边移一点,为待会的 controlnet 模块给腾出位置。 好的,那么这边的话我们先搜索 controlnet, 选择 apply controlnet advance, 然后我们再搜索 dw post estimate。 随后来一个加载 control net 模型节点。 这边的话我们选择的是 open post。 好 的,我们将 dw 自带域处理器的图像输入和我们的参考图像连接。 随后我们按住 alt 键复制一份 control 内的应用,加载器也一样复制一份下来。这边的话,我们加载器的模型选择的是 soft h 搜索节点 soft h 选择这个 h e d soft hines 跟同样的,把 h e d 的 这个图像输入和我们的参考图像连接。好的,那么接下来的话,我们将 ctrl 内的应用给串联在一起,正面条件连正面条件,负面条件连负面条件。 同样的,我们把第一个 ctrl 内的正面条件给连到正面提示词文本框内,负面条件的话就是负面提示词文本框。随后我们将第二个 ctrl 内的正面条件输出连接到 k 传感器上。 然后我们再把第二个也就是这个 soft h 模块的 control 内的强度改成零点五,随后开始生成。我们可以看到现在这个人物的姿态是变得正常了很多,以及他整个身体的比例。这边同样的,我们为了得到更好的效果,可以多生成几张。 好的,我觉得这张还不错。那么接下来的话,我们就开启 mimic motion 模块,随后再次开始生成。 生成完毕后我们可以看到效果还是非常不错的,怎么说也是还原了参考人物的部分特征吧。那么这里我把 mini 个默选转会和参考视频做一个对比,大家认为哪一个效果更好呢?好,那么一生就是关于控服 u i 基础课程的全部内容了,如果你觉得对你有帮助的话,那不妨给个三连加关注吧,我们后会有期。

那么接下来这节课我们来讲解一下, 从宏观的层面去了解一个模型,以及这个模型它作为一个底模,它后续发展出来的这些模块,然后包括 laura 它都是什么样的作用? 我们从最宏观的层面去看一下他们之间的配合是怎样的,这样的话我们才能更好的去理解后续,也就是下一节课我们将讲的这个 excel 表它的一个重要性,然后包括里面的哪些值,我们需要重点关注。 好吧?那么就以万象为例,我们知道万象官方发布了两个版本的模型,万二点一和万二点二作为我们的肌底模型,可以完成一些基础的任务,比如说文声视频和图声视频, 那么我们可以这样的一个小方块来表示哈,那假如说这个是我们万象官方的模型,它可以完成我们的一个任务,叫做文生成视频,我们把视频写在这里哈,也就是输入文本,通过我们的模型可以得到我们的一个视频这样的一个流程。 那么后续呢?官方又发布了一个新的东西,叫什么叫 v a c e 模型,那么 v a c e 模型它的一个作用呢?就是能够控制我们画面的一个生成过程。比如说我们接入一个骨骼图,然后骨骼图里面是一个人物在跳舞的动作, 那么接入了 vce 模型,接入了这个骨骼图之后,我们通过文本生成的内容,就可以让最终的视频里面生成的人物也模仿我们这个动作,这个骨骼图的动作。所以说这个时候我们属于又发现了一个新的模块,这个模块呢我们叫它 vce, 可以 把它写在这里,虚线给它划开哈, 然后这里呢加一个小模块叫它 vce, 那 么它呢是基于我们的万象肌底大模型一起配合使用的, 我们换个颜色哈,也就是这两块当成一个整体的时候,我们可以再一次完成另外的一个内容, 也就是文本加上骨骼图,一个文本加上一个骨骼图,然后传到一整个黄色的模块当中,然后完成我们一个视频的生成, 那是这样的一个过程,那后续呢,又出来一个新的东西啊,比如说有一个社区的人说,他基于万象的模型又研发了一个小的模块,叫什么叫 light 叉 to v, 它能干嘛呢?能支持我们以更低的步数完成视频的生成,原来我们可能需要二十分钟生成五秒,现在我们只需要五分钟就能生成五秒,那这样的一个时间提升是巨大的,但是呢他又不影响我们的质量,那么这个时候呢,又研发出来了一个小的模块,我们把它画在这里叫叉 to v, 那么如果说我们这样进行一个配合,也就是把万象官方的模型再加上 light 叉二 v 一 起去使用,然后加一个小黄色的框, 那么他依然可以完成我们文本到视频的一个生成,但是呢,他将我们的时间极大的进行了一个缩减,而我们最终生成视频的质量又不受影响, 对吧?那所以说经过以上的两个例子,我们可以发现一个事情,也就是说后续模块的配合,他都需要基于一个肌底的大模型去完成操作,只有这样才可以把两个看成一个整体,正常的去完成我们视频的生成。 那就比如说我们视野有一个图像的生成模型,比如说千问图像生成模型,然后基于千问呢做了一个新的小模型,也是叉 to v 加速的,这样的话我们可以很快的部署去完成我们文本到图片的一个生成。但是这里我就问个问题,如果说我们把这样的一个, 也就是把左边我们万象肌底的大模型配合上千万的 let 叉 to v 一 起生成视频的话,那他能不能够文本完成视频的一个生成做加速呢?这个是不行的,这个是肯定不行的, 好吧,所以说这点大家要理解,也就是说肌底大模型的选择就决定了我们后续可以在这个工作流里面加入的模型模块能有什么?如果说配合不对,那么我们的工作流就会报错,他会运行失败, 那这个时候我们有了更宏观的一个了解,就可以再看一下左边的图片,那假如说我想把万象结合 vce, 同时结合我们的叉 to v 去进行一个加速,可不可以呢? 答案是可以的,就像这里我们可以直接把它框起来,也就是把这一个整体再当成一个新的模块去完成我们文本到视频的生成。 那这中间我们用了什么?我们用了一个万向的底膜,同时用上了一个 v a c e, 那 同时呢又用了一个 light 叉 to v, 这样的话我们既可以降低生成的步数,同时呢也可以通过骨骼图去完成控制,依然可以做到我们的纹身视频。 好吧,那这里大家了解了,我是以纹身视频做的一个例子,这是我们万象的,那我再来一个例子,我们还知道有另外一个模型,也就是万象官方的肌底模型有另外一个适用场景,也就是图声视频。这里我们来再画一个, 假如这是我们万象官方的无声视频的模型,那我可不可以在它之上加一个 v a c e 模型去完成控制,同时再加一个 light 叉 to v 模型去完成我们的生成加速。这样的话把左边这一个模块当成一个整体, 去完成我们的图片到视频的一个生成,然后能够控制人物的姿势呢? 好,这里说一下答案,答案是不行的,为什么呢?因为 vce 在 发布的时候就说了,它只基于万象的图声视频进行一个配合, 所以说肌底大模型的一个区别,就导致了我们后续模块的一个选择,一定要选择合适的模型 跟合适的模块配合,才能正常的完成视频的生成。其实好解决的问题是汇报错的问题,那个好解决。 比如说我们用了万象的图声视频,同时加了一个 vce, 那 么在运行的过程中报错了,报错我们就知道这两个不配合了, 但是呢,有一些它不会报错,但是它会影响到你的质量。比如说你一个万象基于万象 text to video 训练的 lara 模型,你可以错误地把它和万象的 image to video 模型一起使用, 那这两个他不会报错,可能他在后台报错,但是他不会让你运行过程中报错,也就不会截止,他最终还会给你输出一个视频,但这个视频的质量可能已经受到了 loo 模型的影响, 那这种情况下就属于错误的应用拿到了结果,而这个结果如果说你直接把这个结果归为万象的图声视频不好,或者说归为这个 loo 模型不好,那这种结论他也是错误的 好吧,总而言之呢,刚才讲的一系列内容,都是为了让大家建立起在人工智能或者说大模型这个时代的一个基础的关于模型的认知啊,也就是 肌底的模型很重要,他的一个选择就相当于我们搭好了一个平台,但这个平台暴露的接口,他不是任何一个模型都能插入进来的, 它必须要跟你肌底的大模型配合,能正常的进行一个运行,能正常的进行一个参数的拟合,能正常的完成我们视频的生成,这才可以。 那么这个可以插入的方式在官方发布模型的时候都有介绍,如果说大家喜欢看文字的话,可以在哈根 face 的, 比如说 v a c e 的 一个项目页面,或者说 light 叉 to v 的 项目页面,都能够看到相应的一个提示。如果说大家不喜欢看文字的话, 那就多看我发布的一些视频,这些内容都会讲,那么我们可以去验证一下这个过程。比如说我们找到万象官方哈,找到他的哈根 face 项目地址,那这个页面我先清理掉, 这是万象官方的哈根 face 页面地址,当时我们有讲过,那么万二点一呢?它有 text to video 十四 b 的, 还有 image to video 十四 b 的, 对吧?那么我们看一下这个 v a c e 模型,官方发布的万二点一 v a c e 十四 b 的 模型,我们点击进去,然后在这个页面做个翻译, 往下拉,我们找到 v a c e, 哈,那么在左边呢,我们可以看到这里有个使用 hackbase 下载模型,在这里它让你下载的是 one 二点一的 text to video 的 十四 b 模型,然后配合 v a c e 一 起用,哈, 那么再往下可以看到这里有个支持,也就是 v a c e 的 模型,它只支持 text to video 十四 b, 或者说 text to video 一 点三 b, 那 么如果你在 text video 一 点三 b 上用了 v a c e 模型,然后去生成七二零 p 的 视频,那么这个结果大概是会差的。 好的,那么这个呢,就是我们基于模型以及跟模块和 lo 二模型之间的一个配合做的一个简单讲解。那么 lo 二模型呢?大家也可以把它理解为是加在底膜上的一个小的模块,然后共同进行一个配合, 也就是加在大模型上的一个小的模块,然后共同进行一个配合,作为一个整体去完成我们相应的一个任务。后续的模型大家可以都这么理解,没有问题。好吧,那么这节课我们就先讲到这里。

那么今天这节课我们开始对整个 excel 表格给大家做一个宏观的介绍,该表格整理的内容都是基于 kj 在 hackinface 仓库里面上传的模型进行的整理,我们可以到 hackinface 看一眼, 在 hackinface 的 网址,我们输入 kj, 能够找到 kj one video comfor, 也就是它自己做的模型的量化。我们点击 files and versions, 在 这里面可以看到有非常多的文件夹,然后以及下面有非常多的模型, 这里我们先做一些宏观的介绍哈,关于模型命名名称的一些介绍,那么不会每一个参数都介绍的哈, 那么后续我们在讲到某个模型的时候,也会做相应的一个提炼哈,我们还是做一下对比。先回到 hugenface 万象官方哈, 在哈根 face 页面万象官方的地址当中,我们前面几节课给大家讲了,里面发布了很多的模型,我们可以点开其中一个来看一下,比如说以这个首尾帧的模型为例哈,这里有个万二点一 f l f two v 十四 b 七二零 p 的, 那么这个名称的意思就是 该模型基于 one 二点一底膜,然后做的首尾帧到视频生成的模型十四 b, 也就是一百四十亿的参数量,最优生成视频的分辨率是七二零 p, 也就是一二八零乘以七二零。我们点击进去,点完之后这是它的整个项目页面,点击 fields and versions 就 可以看到发布的所有模型, 那么在这里可以看到有很多的 diffusion patch model, 一 共有七个零零零零一到零零零零七,那么我们在使用的时候,如果大家之前用过万象的时候,你会发现我们下载的万象模型只有一个,对吧?那说明了什么? 说明就是社区的人员为了方便我们的使用,或者说出于一些安全性的考虑,他们会把这些模型合并成为一整个,所以说我们拿到的模型下载的一个模型就是这些模型进行的一个合并,好吧,就是把它合并成了一个模型。 所以说一般情况下官方发布的底膜我们都是不会直接进行使用的,会有社区的人员进行模型的合并,合并完之后进行一个量化,量化完之后我们才能使用。那么这个时候我们再回到 kj 的 仓库去进行一个对比,在 kj 的 仓库当中呢,我们往下找能够找到一个文件,在这里 我们能够找到这样一个文件, one 二杠一 f l f two v 十四 b 七二零 p。 可以 看到这个命名跟我们刚才看到的 hackinface 官方万象发布的那个模型命名是一致的,也就是基于 one 二点一做的首尾帧到视频生成的一百四十亿参数的七二零 p 的 模型。那么在此之上 后续 k j 又多了一个后缀,一个是 f p 十六,一个是 f p 八,那么 f p 十六的意思就是该模型合并完了之后,做了十六精度的一个量化, 那么它的模型大小可以看到是三十三点三 g b。 那 么官方的模型是有多大呢?我们看一下官方这里一到七一共七个,每一个大概都在十 g 左右,所以说官方的模型大概是在七十 g 左右,如果合并完之后, 那么七十 g 的 模型,对我们个人来说,个人的电脑很难放下这样的一个显存容量,或者说一个内存的容量,所以说呢,就需要进行一些量化。 那么这个量化我这里再做一个解释哈,也就是说我们原本的模型里面可能是比较大的一个数值,比如说模型内部他存了一些数字,是零点一二三四五六七 这样的一个数字,它可能呢占到我们,比如说举个大家能听懂的,也就是更接近我们的一个容量哈,但当然实际上它不是这样一个容量哈, 比如说零点一二三四五六七,在我们电脑里占了十 kb 的 一个容量,那么这个就太大了,怎么办呢?我损失一点精度,比如说后面的四五六七我不要了,变成了零点一二三,那么可能这个只在我们电脑里面存一 kb 就 够了, 所以说呢,我们丢弃掉一部分的精度,也就是画面的质量,然后得到了更低的一个内存,或者说显存占用。那么比如说原来我们可能七十 gb 的 一个模型,那么做了这样的一个量化之后,十除以十到一,那么相当于就变成了七 gb, 而我们呢只损失了极少的一部分精度, 那这个代价我们是愿意承担的,就是这个意思,那么这个过程呢,我们会称它为量化哈,当然量化不止这一点,这里只是做了一些肤浅的解释哈, 所以说这个时候我们看到相同的一个模型 k j 做了合并,合并完之后又做了量化,那么适配于不同的硬件系统,这里做了 lp 十六和 lp 八的两种良好方式。如果说你的显存或者说内存够大,你觉得自己的硬件很强悍, 那么你就可以选择三十三点三 g b 的 这个模型去进行一个运行,这样的话你生成的质量可能稍微好一点,如果自己的硬件不够那么的好, 但是还想用这个模型去尝试一下,看看效果怎么样,那么你就可以下载十七点一 gb 这个 f p 八量化的模型, 那么在 f p 八后面紧跟了一个方式,叫做 e 四 m 三 fn, 这个不用去过多的理解你,总而言之呢,就把它当成 f p 八量化用到的一种方法。那除此之外呢,还有一些其他的,比如说这里有 e 四 m 三 fn, 有 e 五 m 二,对吧? 那这些都不用去管它啊,总而言之呢,就把它理解为是 l p 八量化过程中用到的一种方法就可以了。那这个呢,就是关于官方的模型和社区合并后的模型,以及社区合并后的模型进行了量化之后的模型的一个对比,也就是这样的一个流程,它是一条线哈。那除此之外呢,还有一些其他的, 比如说这里会有很多我们不知道的名称,比如说 uniq 三 c 啊,什么 acc video 啊啊,还有什么 cosvid 啊,对吧?还有个 ansela 呀等等等一系列的,这些都是什么呢?这只是它们自己进行的一个命名,好吧, 就像我的名字和大家的名字是不一样的,我们的名字呢,只要符合要求,随意去起就可以,所以说这个名字我们可以不用过多的去进行一个关注。那除此之外呢,还有一个爱图 v, 这个不用多讲了,英妹级图 v 六图升视频,那 t 图 v 呢? text 图 v 六,也就是文本生成视频, 好吧,那大概呢就是这些,这就是 k j 仓库发布的一些模型哈,然后一些参数的简单讲解,那这个四八零 p 还有七二零 p 我 们就不用再多讲了, 那么剩下这些大概都是跟模型的名称,也就是个人的主观意识,或者说公司的主观意识是比较相相连的。那后续我们讲到每个模型的时候,我们再做一些解释, 那么我们可以看一下这个表格哈,在右边呢,基本上每一个哈,就像这个 bender, wave camera, clone, master, 然后以及 ecot fantasy, poetry, 然后等等一系列的非常多的一个命名。然后下面模型呢也有非常多的量化以及合并。在左边呢,我们基本都做了一个整理, 那么量化的模型我们就没必要把它再整理到当前的列表当中了,所以说大家进行一个二选一即可。就像在这最下面我们总结了关于 flf2v, 也就是首尾帧视频生成模型的,但是呢,我们并没有把它分成两个量化的模型, 好吧,你就像官方这里给我们提供了两个,一个是 lp 十六的,一个是 lp 八的,但是表格里面呢,我们就把它作为一个,好吧,那这个时候呢,我们来进行一个表格的讲解哈,这个表格我们重点关注的内容是这个肌底模型, 然后除此之外呢,就是他的一个名称,以及他对应的功能。作者这一栏大家可以咨询进行一个查找或者说观看哈,可以看一下当前开源社区的主要贡献是哪些公司,或者说哪些个人以及一些学者。那么在肌底模型当中,我们上一节讲解了万象的一个宏观的了解, 因为有了一肌底模型之后,我们才能加上一些额外的模块,去完成我们肌底模型功能的一个扩充,或者说一个扩展。所以说肌底模型的选择就决定了后续的这些小模块能不能共同的进行一个配合。比如说当前我们举个例子,这有个 fast one 的 模型, 它的类型呢?是一个 lora 模型,然后它的肌底模型是 one 二点一 text to video 十四 b 的 模型。那这个时候我们回想一下,在上一节当中给大家讲过一个官方的模块,也是基于 one 二点一 text to video 十四 b 做的是什么呢?就是我们的 vce, 对 吧?这个时候我们可以这样画出来 这样一个小模块,叫做 one 二点一 text to video 十四 b, 然后在它之上呢加了一个新的小模块,叫什么?叫 v a c e, 因为 v a c e 它可以基于 one 二点一 text to video 十四 b 去做。那这个时候又来了一个小模块,叫什么?叫 fast one, 它是基于什么做的呢?在这里有 one 二点一 text to video 十四 b, 这样过来它也是基于 one 二点一 text to video 十四 b 做的。所以说当我搭一个模块的模型共同使用可以吗? 是可以的,因为它们的肌底模型是一样的,所以说它们就大概能够共通和互用,我们把它连起来, 那这个时候我们就把它一整体当成一个模块,当成一个模型就可以完成我们的纹身视频的操作,那就比如说我 vece 还想控制骨骼图怎么办?那就在中间过程中再加入一个骨骼图,把它接入 vece 就 可以了。 那假如说这个 fast one 它需要接一些其他的预处理图呢?或者预示里视频呢?那我们依然就是把预处理的视频或者预处理的图给它交给 fast one 就 可以了。 那么这个呢,就是我们当前这个表格它的一个核心点所在,通过肌底模型的控制,我们可以完成多个模型的一个配合。但是这里还有一个点是什么呢?比如说这里我们有一个叫做 humo 的 模型,它是基于什么呢?它基于 one 二点一英寸 v 六十四 b 做的, 对吧?那在上面我们可以看到还有一个 one 二点一 image to video 十四 b 的 这个模型,然后在左边可以看到它是什么?是我们的泛 control one 二点一泛 control 十四 b 模型。 那这个时候我问个问题,他俩既然都是基于 one 二点一 image to video 十四 b 做的,那他俩能不能一起用呢?嗯,是不能的,为什么呢?因为他们两个的模型类型可以看到都是大模型, 也就是说我们有了一个肌底的大模型之后,然后结合上一些小的模块,然后他可以共同的去进行一个运行,比如说纹身视频的操作。但是呢在当前的工作流当中,大模型他只能存在一个, 是这样的,那假如说你纹身视频之后啊,再把视频传入另外一个工作流,这里面可以再接一个新的大模型,没问题,因为他是额外的一个一个可运行单元了, 那这个时候你接两个大模型是可以的,但是呢,你在同一个可运行单元当中只能有一个大模型的选择,所以说 humo 和这个 fun control 模型,它两个都是属于大模型,它们两个就没有办法在同一个模块当中共同去进行一个控制,或者说共同进行一个使用。好吧, 所以说这一点呢,大家要知道,在同一个模块当中,我们只能有一个基底,一个平台。在那这个时候我们回到 kj 的 仓库,在 kj 的 仓库当中有很多的文件夹,也有很多的模型,然后模型后面都有它相应的一个大小, 我们通过大小大概能够判断出这个模型它到底是属于模块还是属于大模型本身。 比如说在这里有个三百二十三兆的模型,它叫做 a c, c, v, i d, 然后在名称里面有个叫做 loa 的 东西,那这个 loa 呢?大家如果之前接触过 comfuly, 知道它是低至适应模型的一种名称,那指的是它是一个很小的模块,对吧?它是可以需要基于大模型共同进行一个使用的, 所以说这个内容呢,你可以理解为 logo 模型,也是属于模块的一类。好吧,那么单独使用模块的话,在这里写上啊,模块它是不能够单独用的,也就是说只有模块你是没有办法完成纹身视频图生视频的,纹身图也不行,图生图也不行, 好吧,也就单个模块必须基于大模型才能发挥作用。那么在右边我们可以看到有很多三百多兆的,那这些呢?比较小,那它可能就是模块, 那就比如这里还有一个 one 二点一、 unix 三 c controlnet lp 十六,写了它是只有两 gb, 没有写,它是基于哪个模型啊?但是呢,通过它的大小,你大概也能判断出它可能是个模块,它并不是一个大模型本身。 那么再往下呢,还能够看到一些哈,我再给大家找一些,比如说这里官方发布的 one 二点一 vce model 十四 b 的 模型,它只有六个 g。 我 们知道官方的十四 b one 二点一十四 b 的 大模型,它有多大呢?量化过,就算是 lp 十六的,它都有三十三个 g, 所以 说像这个 虽然是十四 b 的 参数量做了 b f 十六的量化,但是呢,你是万二点一的,却只有六个 g, 那 它呢大概率也是一个模块,就像这个 vce 模型一样,它是一个模块,所以说它呢需要基于一个万二点一的大模型才能完成我们视频的生成,包括控制。好吧,那这里呢, 我们知道在 kj 的 仓库中有很多这种模块,那这个模块是哪来的呢?它可以做这样一种事情,比如说我们举个例子, 有一家公司,他的名字呢叫做今天,然后呢他发布了自己基于万二点一训练的一个模型,这个模型呢跟我们刚才在万官方里面看到的一样,他是零零一到零七这样的,然后零二到零七,零三到零七,然后点点点,然后零七到零七, 一共七个模块,这是他们官方发布的,发布了之后呢, kj 就 做了一个合并,他把零一到零七、零七到零七七个模型全部合并,合并成了一个,那这就是他合并完的模型。然后同时呢 kj 还把官方的模型做了一个合并,这里我们写上官方, 这个官方指的是谁啊?就是万象的官方,那这个今天这家公司它是基于万二点一做的,那么官方呢?也有万二点一本身的模型,对吧? 零一到零七点点点,那 k j 同时呢也把官方的模型做了一个合并,那这里啊,我们写上官方,这里我们写上金,也就是代表今天这家公司合并出来的模型,然后 k j 他 就可能做这样一件事情,也就是让他俩进行一个差异的计算,这两块做一个差异计算, 然后呢去输出一个小的 lowra 模型,那这个时候他呢可以作为一个模块进行一个存在,也可以进行一个使用,但是某些模型呢, kj 就 没有去做,所以说他就是以一个大模型的形式在那里存在了。 好吧,所以说在 kj 的 仓库里面,你可以看到,有些呢是直接是 lowra 模型,有些呢是模块,有些是 lowra 和大模型合并之后的模型。那这些内容我们在后续讲的时候,大家会经常看到啊,有很多很多, 好吧,所以说这个呢,就是 kj 仓库里面这些模型的一个大概由来了。那么我们回到这个表格来进行一个大概的从头到尾的介绍哈,给大家介绍几个比较常用的或者重点的吧。首先在左边有一个 flash vsr 模型, 它呢主要做我们视频的高清放大的。接下来有一个泛泛,是指一个公司给模型类型命的名叫做泛哈,那后来呢,它有机于泛做了很多的系列,比如说泛 ctrl, 它可以通过点去控制我们摄像机的移动, 可以通过点呢去控制我们画面的旋转,它也可以通过轨迹去控制画面中某个物体的移动方向。那泛 input 呢,就可以做到我们的首尾帧。 control camera 呢,它可以控制我们镜头的一个移动,比如说镜头旋转,镜头上下移动。同时呢,范也发布了自己训练的 v a c e 模型,不是官方的哈,那这个 v a c e 呢,是基于万二点二做的,后续我们会接触到。 再然后呢,还有其他公司发布了一个,比如说 humo 模型,可以控制我们多图参考,完成视频的生成,同时呢还能插入音频,让视频当中的人物讲话。那 infinite talk 呢,直接文本驱动我们图片完成视频的生成,甚至说可以让人物去唱歌,可以让两个人进行一个对话。 那这个卡列度呢?它就类似于黑幕模型,它可以完成我们多张图片的参考,完成视频的生成,而且这个参考强度是很高的,人物的一致性也是很高的。那么再往后,这里会有一系列的 lara 模型啊,比如说 light 叉 to v 公司发布的万象生成视频加速的。 那还有呢,比如说埃尼桑,这个是 bilibili 官方发布的,更加支持生成一些动漫视频,鬼畜视频,更适用于这种场景的。 那还有呢,比如说 o v i 模型,它是干嘛的呢?它能够视频和音频一起生成,也就通过文本生成视频加音频, 那么还有非常多其他的内容,这里我们就不一个一个讲了,后续的话我们工作流会挨个进行一个讲解,好吧,那所以说大家以后,或者说大家现在在星球的网盘里面下载了这个表格之后, 那后续在使用的过程中就可以进行一个参考,然后包括自己想要搭建一些工作流的时候,那么哪些模型之间能更好的配合, 比如说我既要加速又要画面的质量,同时还要能够进行控制,那么我可以用哪些模块去完成我整个工作流的一个更高深或者说更加复杂的一个搭建?都是基于我们的肌底模型去进行一个选择, 好吧,那么今天呢,关于这个表格我们就先讲到这里,接下来的课程更新,我们将会开始基于我们的 copy y 去完成我们真正的实践以及视频的生成。