粉丝5051获赞4978

好,这节课我们来给大家讲一下常用的一些模型的放置路径啊。就是啊,我们在 ai 绘图里面经常会设计到一些概念,什么大模型,然后 roller 模型,然后 controlled 的模型,对吧?那么这个分别是什么意思啊?我们首先来给大家说,先说一下怎么用啊?就是 大模型的话,你们可以从 cbt 上面去下载,那么你在 cbt 上面你需要注册一个账号,注册账号之后呢啊,你在这个地方有一个叫过滤器啊,你给我选这个 checkpoint, 这个就是一个大模型,那么大模型呢?它是一个 底膜啊,他是什么意思啊?就是你在这个 prompt 里面呢,你去输入一些内容,他在这个底膜里面他有对应的内容,可以去啊,一一对应上去。就像我们那个搜索引擎一样,你在搜索引擎里面输入一段什么东西,你要去搜索一个什么东西,对吧?就是啊,比如你的这个 里面就是搜索啊,一个什么内容,比如说我去搜索一个天空啊,随便搜一个东西啊,这个好,他就会出来天空的这些图片。那么你首先你得保证你的这个, 你的整个这个啊,解锁的这个库里面他有这个天空的内容才行,那么这个大模型他基本上就这个意思。就是啊,我首先我要保证我的这个啊,你的这个库里面有对应的这些磁条啊,他这个磁条这些啊,这个我们叫 prompt 这些 tag, 就是他这个 啊,关键词是有对应的这个图像啊,可以跟他对应上去的。那么呃,我最推荐用的就是这个 realistic v 二零的这个版本啊,就是建筑的也有一些啊,人在去做这个大模型,但是目前为止啊,我觉得, 嗯,用 realistic 就是最好用的。就是啊,为什么呢?就是大模型他需要非常非常多的这个精力去,嗯,去训练嘛, 就是我自己也不去训练大模型,就是因为大模型你训练不好的话,反而会污染你的这个模型啊,比如说啊,就是你去拿一些很土的这个什么商业效果图啊,就是 或者说你自己的审美不在线啊,就是你你觉得那个东西很好看,但是实际上可能在甲方看来,或者说在一些啊比较有品味的建筑看来,这个东西啊,很难看啊,就是啊,然后你不停的去把那些很难看的这个图片呢,去给他啊打上标签,这个是精美的图片,精美的图片,精美的图片,不停的去告诉他这个精美的图片,然后你最后 你在这个 stable diffusion 里面去输入什么,你想啊,生成这个精美的图片出来,都是那种很土的那种商业效果图啊,就是啊,所以我建议大家就是 去下载这个 c 位太上面的这个啊, realistic v 六零啊,这个非常好用,那么你想去修改你的某种风格,用 roller 模型去做啊,因为这个,嗯,大模型的话它的体积非常大啊,一个模型下载下来,就是啊,像这个啊,三点五八 八个 g 啊这个,而罗罗模型呢,通常来说就是三十几兆啊,就是这个就非常方便。罗罗模型他是什么意思?罗罗模型他你这地方也可以勾选这地方,比如你只要罗罗你不要切破,你就可以看到,好,这个就是我们看到的罗罗模型,罗罗模型比如说像这个他其实更偏向于一个固定的人物的角色,或者说一种画风。 那我们在做建筑的时候,比如说你想要做某种特定的这个建筑类型,或者说啊某种天气场景啊,或者说某种啊特定的画风,比如说我自己训练的一个插画风,对吧?那么你就可以去加载这个 lora, 你在这个大模型的就上去加载个 lora, 就可以很好的解决。就是啊,他你 想要某种特定的类型,或者某种特定的风格,或者某种特定的这个角色啊,这这些事情就是。嗯,因为你要去训练,比如像这个罗拉,这个是一个古风的这个模型的话,你要去训练一个古风的大模型的话,其实啊一个是他的这个训练的成本会更高一些,另外 这个呢,就是他的这个体积很大。第三个你可能还会污染,就是那个大模型,因为你大模型,我们大模型更多的是强调一个通用的他的泛用性啊,所以我推荐大家去用这个 啊,就 c 站上这个下载量非常高的这些,因为他是经过检验的,你看这个 tigpong, 就像这个,这个都是啊,零点二 m, 这个就是迷恋,对吧?就是 百万啊,就是几两几十万的这个下载的,对吧?就是,好,然后这个下载下来之后呢?如果说你下载不了,你可以再用我的这个啊,我另外一个常用的就是 sd 一点五,就是这两个啊,这个是原版的这个 stable q 型,他自己啊产的这个大模型,那么这个经常是用来训练这个 lora 用的,就是,我就是常用,就这两个就行了。你把这个复制到你的安装部录下面的,这个是大模型啊,这个复制到你的安装部录里面的,这个啊, models 啊,这个下面 我们找到这个 stable diffusion 啊,把它复制到这里面来啊,这个还有一个叫 chill out mix 啊,这个这个是画人用的,就是你们如果有需要的话就是可以自己去下载啊,就是在这个地方这个 chill out mix 啊,当然这个是一个十八加的一个内容,就是我就我去展示了啊, 嗯,然后啊,罗软模型的话,你下载下来之后呢啊,我这地方下载好了一堆啊,罗软模型,罗软模型的话我从 c 站上下载了一些啊,然后我这个带有预览图的,因为我有 c 站助手,然后自训的。这个啊,我自己训练的这几个,你可以把这个模型呢一起啊复制到 models 啊,这个地方,这个罗乱, 这地方有个 loler 啊,把复制到这里面来就行了,当然你可以自己去下载一些额外的其他的你感兴趣的在这个上面啊, c 站上面有一个 architecture, 我们把这个啊这个地方不用改好,这就是建筑的一些 loler 啊,你可以去下载 有些你自己感兴趣的就是好,这个是柔软模型啊,然后下一个呢是这个 ctrl light 的模型, ctrled 模型的话是,嗯,他的下载地址呢,在这个地方啊,这个哈根 face 上面,然后我们现在用的是一点一的这个版本,那么你去把这些文件全部下载下来啊,这个 下载下来之后呢,你把放到这个路径里面去,我们放到这个安装目录下面有一个叫 extension, 然后这里找到 ctrl light, 然后这里面还有一个文件夹叫 models 啊,然后在这个里面你把它复制进来。好,你也可以直接复制我的这个模型啊, ctrlite 模型,就把这个里面的这个 ctrl a 啊,这全部复制到这里面来啊,就可以了,反正我是从这里面复制出来的。好, 那么 ctrl letter 的话,它更多的是去控制的,它跟我们出图的这个啊,风格这些没有什么关系啊,更多的是控制我们的这个图片的这个线条啊,它的这个边界啊、结构啊,这东西啊,这个是啊,这三个的区别,那么我们我 自己实测下来,我推荐大家用 realistic 这个 v 二零的这个去做建筑写实的风格啊,完全够用了。就是比如我这方加载一个我自己训练的 lola, 然后我再把这个预设加载进来。好,我再把这个 lola 加载进去啊,你看到点一下生成 好,这个就是我们这个生成的这个结果啊,除了中间这两张有点奇怪,我觉得其他的效果看着都还可以啊。就是那如果说我们不去加载这个 logo 啊,我们看到他这个表现就会啊,差很多,我们再生成一张试一下,生成一轮, 对吧?这个就是我们最开始测试的这个,这个是没有加的 over 的,那么这个大模型啊,就是为什么?就是哦,不太推荐大家去用一些这种啊 奇奇怪怪的这个建筑的模型啊,比如说他训练的他,他训练的这个底图位的全是这个高层综合体的这个图,那有时候我,比如我就想要一个低层建筑的这个,对吧?我们可以去看啊,之前 一轮的,比如说我就是想要啊,他这个是我们之前生成的穿,对吧?他就是这种这种类型的这个建筑,那有时候我就是想要这种楼层矮一点的,但他是如果训练集里面全部给的都是比如他,他全部都给这种超高层的这种建筑,然后他去给他打标签, architecture, architecture, 那你输入 architecture 对应的就是 就这种类型的,他就把你的模型给污染了,就这个意思。就是所以我觉得用通用的这种大模型泛用性会更好一些 啊,这是我啊目前的一个理解吧,就是如果说后面出现的有说啊,有一个建筑的这个大模型训练的非常非常好,那么啊,也有可能我们可以去尝试一下啊,后面再给大家去做一些更新, 包括像这个啊,车站上下载量一个非常高的一个模型,就是这个我测试下来他的泛用性并不好啊。就是啊,他只是在特定的这种小建筑上面表现还可以啊。那么关于模型我们就给大家讲到这。


在使用工作流之前,我们首先需要来了解一下 confiy 到底是什么? web ui 和 confiyi, 它俩都属于 stable diffusion, 也就是我们通常说的 s d。 web ui 的操作界面更类似于我们常用的网页界面。 web ui 通常会提供绿色的模板或者选项,类似现在文生图、 图生图后期处理等等一些预设的模块,你可以快速的开始使用。固定的模块就意味着较低的灵活性,如果你有其他需求就难以实现,所以在康菲 ui 中,你自由的组合度 就会更高。咖啡 ui 就适合我们对图像生成有更高或者是更多具体目的的用户,而外部 ui 就适合想要快捷简单生成图像的普通用户。 而康复 ui 它是一个节点式界面,意思就是你可以通过拼接不同的模块,就像拼图一样来定制图像的生成过程。 在康复 ui 中,模块的功能就比较单一和简单,例如这一个节点用来加载图像,而这一个节点只用来加载大模型, 这样的节点只用来输入我们的文本。这样单一的节点模式就意味着非常高的灵活性。 我们就可以通过拼接节点的方式,针对特定目的、具体需求和效果搭建一个完整的处理流程。在咖啡 ui 里就叫做工作流。 简单来说,康复 ui 更加的复杂灵活,而外部 ui 就更加的简洁和易用。 更高的灵活度就意味着你需要更丰富的节点知识。许多小伙伴看到复杂的连线就感到头皮发麻, 在这样的情况下,使用已经搭建好的成熟的工作流就是一个非常好的选择,你只需要上传图片,选择相应的功能,进行一些简单的操作,然后再执行工作流, 就可以生成这样高质量的图像结果。不需要复杂的节点知识,也不需要对 ai 太多深层次的了解,简单、快速、高效的得到高清高质量的结果。 现在我们就通过一个最简单的 confi ui 默认文生图工作流来了解生成一张图片的基本组成节点以及它的工作原理。 首先我们这个工作流包含大模型、 clip 文本编码器、 k 采样器以及 vae 解码和保存图像,这些节点节点的名称可能会让你摸不着头脑,那这里我来换一个说法, 假如要拍摄一张图片,我们首先需要一个摄影师,大模型就类似我们摄影师的大脑,他提供给我们足够的摄影知识和数据。那接下来我们就需要表达需求, 我们需要一张什么样的摄影照片? clip 文本编码器的作用就是理解我们的需求并传达给 aik 采样器在接收到需求之后,根据大模型也就是摄影师的丰富知识开始拍摄。 拍摄完成之后, vae 就充当一个翻译官的角色,翻译成我们可以观看的图像,最后就将这个图像保存到我们的电脑里。有了这样一个完整的运行流程,我们就只需要将这个流程运行起来,他就会从左 到右开始执行每一个节点的功能任务。当这个绿色的外框跑到了最后的保存图像,我们这个整个任务就完成了。执行最后生成的这张图像就是我们提出的需求,一个装有紫色银河的玻璃瓶, 那大模型的话,他就像是一个大佬,接受了许多的图像训练,所以他非常的占用资源。就像我们每个人擅长不同的技能,不同的大模型他也有擅长的风格。 我们可以在一些平台看到其他模型师训练的模型,以当前这个平台为例,我们在旁边这里点击筛选, 在下方你就可以看到有许多的模型类型,那这个 checkpoint 就是刚刚我们在工作流里的第一个加载的大模型。点击 checkpoint 以后,你就可以在下方 看到所有的模型都为这个类型的打模型了,我们再来查看筛选里面你可以看到切破模型, 他也会有很多的分类,比如说我们 sd 最早的是一点五模型,也就是幻语 v 一到 v 三使用的大模型,接下来 幻语 v 四使用的就是 s d 叉 l 的大模型,那现在 v 五的话,主要是 使用的就是 flax 模型,当然也保留了 sd 叉 l 的风格。参考不同的大模型,当然它的功能和效果也有很大的不同,这个从最初的版本使用到现在的小伙伴就可以知道它的区别。 不同版本的大模型他的体量也不一样,例如最初的 sd 一点五的大模型,一个模型可能只有两个 g 或者四个 g, 那 sdxl 的模型的话,他一个模型可能就在六个 g 到八个 g 左右。 现在 flax 的话,它就更加的庞大,一般在十多个 g 以上,所以说本地运行它需要的电脑配置就更高。我们 常用的除了 checkpoint 大模型,还有罗尔模型,罗尔模型就类似于基于大模型 针对某个功能或者是某个效果进行强化的一个精简版的小模型,他的目标是尽量在保持在大模型的能力范围内减少计算资源和时间。 例如从筛选的这个结果上来看,有些 loro 模型可以对质感进行加强, 有些罗尔模型针对某个角色的表情做了训练,或者是针对风光摄影有更加良好的表现。所以说如果你有特定的目的,你就可以使用 一些特定的模型。当然,使用罗绕模型也需要对应大模型的版本,例如我们可以在这个上方的标签查看,这个罗绕模型对应的是 fefe, 就是 flax 大模型, 如果这里是叉 l, 那它对应的就是叉 l 大模型,你需要和 s d 叉 l 大模型结合使用。 在我们的工作流里,你通常可以同时加载两个 lord 模型,我们可以通过上方的开关方便的管理是否加载 lord 模型。 回到工作流,我们就可以在 load checkpoint 这个节点里面选择不同版本的模型来使用,例如里面可以选择一 点五或者是 s d 叉 l。 为什么没有 flax 模型呢?是因为加载 flax 需要使用另外一个节点, 所以在 load checkpoint 这个节点你就只能选择一点五或者是 s d 叉 l。 像刚刚我们说的,上方,如果我选择了一点五,那么下面的 lora 就必须选择一点五的 lora 模型。 在了解 ai 生图最重要的大模型和 lora 模型他们的关系之后,接下来就来到了 clip 文本编码器,也就是刚刚我们所说的,需要在这里填写我们的需求, 告诉 ai 我们需要生成一张什么样的图片。描述需求当然也 也有他的一个语言规则,例如我现在想要编写一个提示词,一个穿着蓝色连衣裙的女孩站在花园里, 那使用 sd 一点五,他的提示词格式相对简单,主要使用英文单词,关键字需要着重调整权重的就用括号括起来,然后后面是数字这样的格式。正面和负面提示词需要分开编写, 如果使用 s d 叉 l, 他对提示词顺序的话会更敏感,所以重要的一般写在前面。对自然语言描述支持的更好,你可以使用简单的短语,当然也需要正向以及负面提示词。 flax 就对支持提示词 非常的友好,可以支持更为复杂的条件控制,还有对画面的超长的描述也可以解析的非常到位。他生成的图像镜头感也非常强,这也是为什么大家现在喜欢使用 flax 的原因。 对比三种大模型生成的图像,你不难发现,从 s d 到 flax 模型,不管是从真实感,细节还有美观度都有极大的提升。 填写提示词现在也不用担心,在我们的工作流里,经常都会有这样的自动反推提示词的一个开关,你也可以使用中文来填写你的需求, 例如在我们的纹身图工作流,也可以打开反推图片作为提示词,也就是图声文,或者是使用这样的平台进行图声文。也可以使用你们熟悉的豆包来为你编写提示词, 所以不会写提示词,完全不用担心有各种各样的工具帮你编写,或者是你直接找到你想要的风格进行图声文再文声图都是可以的。 或者使用我们的素材生成器,不需要提示词,只上传一张图片就可以生成相似风格的其他变体,非常的方便。 下一个视频将来简单介绍一下,作为我们整个流程最重要的执行节点,这个 k 采样器它的基本参数有什么作用?