这个是我使用 ai tokyo 训练的 atx terra 人物洛 ra 视频生成模型使用的最新 atx 二点三。
粉丝90获赞599

从本节开始,我们会新开一个系列,讲讲捞热模型训练的内容。第一节课,我们一起来看一下如何配置软件并炼制自己的第一个私人定制捞热模型。正文开始训练一个捞热总共分五步,分别是,一、 下载软件二、准备训练级。三、给训练级打标签。四、训练 laura 五、测试 laura 首先下载软件,你需要先下载秋叶的 laura 训练一件安装包,然后再下载一个 stable defusion 的基础一点五模型。 注意,这里最好是下载未经裁剪和微调的原声 sd 一点五模型,否则训练出来的 laura 泛用性会稍微有点差。当然,如果你实在硬盘空间紧张,也可以用之前下载的 sd 一点五模型替代解压 laura 训练一件安装包,路径上最好都 不要有中文。然后将第一步下载好的 sd 一点五的模型移动到 sd models 文件夹, 回到根目录下,双击 a 启动脚本, but 就可以启动软件了。启动完成后会自动在浏览器中打开 s d trainer 软件。到这里环境部分就准备完成了, 这里会有新手和专家两个模式,本节课程主要讲新手模式来训练捞啊。第二步,准备训练级你需要提前准备好二十到三十张训练图像, 比如说相同画风的素材或者同一个人物的图片素材。作为新手课素材不需要要求太多,重点需要每张图片都在五幺二像素乘五幺二像素以上,尽量清晰一点就可以了。接下来你需要将所有的图像处理为统一的尺寸,这里就统一通, 通过 photoshop 将图像处理为了五百一十二乘五百一十二的图像大小,你可以按照自己的习惯对图像进行命名,文件和文件夹都不要出现中文就可以了。复制文件夹的路径 第三步,给训练级的图片打标签在训练模型前,我们需要告诉 ai 每张图画的内容是什么,如果要手动来标记就太麻烦了, 所以 s d trainer 软件直接集成了一键打标签的能力。回到 s d trainer 软件,点击 w d 一点四标签器, 找到路径这一栏,将刚才复制的训练级图片路径粘贴在输入框里,下边的参数都不需要调整,点击启动按钮即可。看到 tiger 任务已提交提示后,就正式进入了自动打标签过程。你可以切换到后台看 下打标签的进展,这个过程一般比较快,看到识别完成就是完成了打标过程。切换到训练级的文件夹,可以看到每张图片后边都多了一个同名的文本文件,打开可以看到描述这张图的标签级。将这个文件夹整体复制或者剪切到 lower scripts 文件夹下的纯文件夹下, 重命名为你自己将要炼制的 lord 的名称,注意还是要用英文或者拼音。第四步,开始模型训练,切换到 lord 训练的新手模式下, 配置底膜文件路径,点击右边的文件夹,找到我们第一部放好的 sd 一点五模型,看到选取成功说明模型配置成功了 训练数据及路径,同样点击右边的文件夹,找到我们第三部放好的文件夹,点击选择文件夹,完成训练级的配置。模型保存名称这里修改为 想要生成捞热模型的名字,其他的参数都不要修改,直接点击开始训练就可以了。看到训练任务已提交,接下来的事情就交给显卡吧。如果不放心,也可以切换到后台,看下任务的执行情况。看到训练完成这行字就说明捞热训练顺利完成了。 打开 laura scripts 文件夹下的 output 文件夹,这个不带编号的文件就是最终训练出来的 laura。 这些带编号的 laura 是过程中产生的 laura 存档,对于 laura 训练来说,不一定最后的才是最好的,有时候过程中的 laura 会比最后的 laura 要好, 所以这些暂时不要删除。这个时候可以关掉 lower 训练的后台了。第五步,测试 lower 效果。我们复制所有的 lower 文件,复制到你 weboy 用来放 lower 的地址下。 为了跟之前常用的 laura 区分开,可以新建一个名为 test 文件夹,并将刚才复制的所有 laura 粘贴进去。启动 will be u i 切换你比较常用的大模型,关掉 fi clip, 中指层数调整为一,输入提示词并选择刚才训练好的 lord。 可以适当降低权重,选择常用负面提示词 embedding。 开启高分辨率修复。点击生成即可查看 lora 的实际效果。 可以切换不同的 lura 和权重,查看每个 lura 的实际影响和效果。还可以将之前训练集中的 tag 输入到 纹身图中进行效果验证。 那么问题来了,有了这么多 lord, 到底哪个才是效果更好的 lord 呢?除了手动测试外,有没有更高效的测试方法呢?其实是有的, 下节课我们来聊下如何高效测试 lora 或者关于 lora 训练。你还想要了解哪些内容,可以留言告诉我。这里是专注 ai 绘画的聚梦小课堂,记得关注我呀!


太逆天了!利不利不把劳拉训练的门槛降到最低了!对新手保姆级友好,没有硬件要求,有电脑就能用。现在跟着我,一分钟学会练劳拉!来到利不利点击右上角训练新手直接用预设模式,人脸动漫画风,想练什么就选哪种,然后点击上传已经准备好的素材, 比起参数,素材的质量更重要,这里为你整理了素材准备的 tips, 以人脸模型为例,我准备了二十张清晰度高、多角度的甜美图片, 上传后拖到最下面,选择素材的预处理。剪裁很好理解,尺寸建议素材大小保持一致,直接用算法自动标注描述图片,让 ai 理解特征出发词可以自行命名, 甜美模型就叫 svt。 选择完毕后,点击预处理,稍事等待,激动人心的时刻就来喽!点击右下角,免费训练开始搓手等待 在咱的滴如仙丹诞生!等待过程中可以时时看到生成样图,还可以点击日志查看 note 值,判断你何程度训练完毕后,点击在线升图测试,直接验收劳拉的升图效果是不是超级简单?

哈喽,小伙伴们大家好,那么一直以来 ltx 二点三这个模型呢?哎,它的效果非常好是吧,特别是对我们一些剧情的理解,它做的很到位,但是一直有一个问题啊,就是它经常容易出字幕,对吧?啊?出字幕? 那么昨天呢,我们群里一个大佬,就是我们的麻雀大佬,他练了一个 lara, 他 这个 lara 本意是干什么的呢?是一个古侠的一个这种侠风的这样一个 lara, 但是我们试用了以后发现他有个神奇的副作用 啊,它能够把这个字幕呢,很大概率给它屏蔽掉啊。我们之前用这个 l t r 二点三呢,就是即便加了这个呃, n a g 啊,这个节点,那么也是还是概率出字幕是吧?但是用了这个 laura 以后呢, 它能够几乎是去掉了百分之八九十的这个字幕啊,我这边跑了几个,就是很少出现字幕了。 当然不是说完全杜绝啊,特别是在这种口播视频类的,我们看一下,这口播视频类的,他还是会出字幕啊,但是这种剧情类的,他比原来的就进步非常多了啊,我们可以看一下下面这组对比。 今夜月色真美是啊,像你一样温柔 今夜月色真美是啊,像你一样温柔。 我早就说吃火锅了,你总是要选最贵的。谁说的,你想吃就吃吧,我不饿。 我早就说吃火锅了,你总是要选最贵的。谁说的,你想吃就吃吧,我不饿。 这个多少钱?太贵了,阿姨,新鲜的,今天刚到的,这个价格很公道,五块钱一斤。好吧,就卖给你。五块钱一斤, 这个多少钱?太贵了,阿姨,新鲜的,今天刚到的,这个价格很公道,五块钱一斤,可以了吧?好吧,就卖给你,五块钱一斤, ok, 那 么这就是他的整个一个对比啊,就是说我觉得这个楼啊,就是说,呃,你不光是提升了这个中式审美啊,就是说古装的这一个审美的一个效果,那么更主要的他这个副作用我觉得特别好啊, 大家可以完全试一下玩一玩啊。那么这个老二目前已经上传到网盘了,然后呢?我也准备着上传到 running huff 啊,大家都可以试试哈。 ok, 就 给大家分享到这里。

这个就是 ltx desktop 臻臻的视频。 哈喽,小伙伴们大家好,那么 ltx 二点三这个模型呢,也发布了一段时间了哈,很多小伙伴在 comfuse 当中呢,也对它运用的不错啊,得出出很多不错的效果。但是很多新手小伙伴来说呢,这个模型无论是在 comfuse 当中的工作流搭建,还是模型的一些参数调节 啊,包括一些功能的一个设置呢,都还是处于一个比较懵逼的状态。那么今天我就来介绍一个比较好的一个项目啊,就是说能够让大家像一个普通的软件一样,在你的本地去使用这个 ltx 这个模型,那么就是哪个呢?就是这个哈, l t s desktop 这个项目其实已经发布了很长时间了,就是从二点三这个模型一出来的时候, l t s 这公司呢,它就直接对做出对应的这样一个桌面工具哈,我们理解为它是一个桌面版,它把一些工作流和设置呢,都已经给你设置好了哈,你不需要去自己再设置什么东西了。 好,首先说这个项目它的安装呢,我们可以找到一个 release 啊,找到这个 release 点进来以后, 我们会看到他这边会出现很多的这个已经发布的项目啊,我们可以根据自己对应的版本,比如说我们是 windows 版或者是苹果的啊,我们在这边对应的去安装,那么我这边用的是哪个呢?用的是这个 l t s desktop desktop, 点 e s e 这个文件就可以了啊, 把它下载过来,它就像一个怎么讲正常的一个软件安装一样啊,软件安装一样,那么第一次安装的时候,他会给你要求你设置一下模型的目录哈, 还有整个的一个文件的安装目录,设置完以后呢,它会自动的下载一些模型啊,这个模型也比较大,大家需要等一等啊,因为是有九十多个 g, 它包含了什么呢?包含了这个一个 z mate turbo 的 升图模型,还有一个就是如果我们正常的 l t x 的 模型哈, 还有一些 laura 可能也需要下载,那么下载完模型以后呢,我们就可以进入我们这个软件的一个界面哈,它这里其实是可以进行设置的哈,我们随便新建一个项目,然后点击这个 new project, 然后随便起个名零零四,比如我这边哈,然后我们看到右上角会有一个小齿轮,我们点击这里, 它会要求你输入什么 api key 啊?这个是怎么回事呢?因为这个项目它本身对在本地部署的话,我们可以看到这里哈, 他是要求他是要求比较高的这样一个配置的哈,就是说对显存的要求比较高啊,这本地模型的话,需要建议是三十二 g 显存啊,如果没有三十二 g 的 话,那么我们只能使用这个 api 哈, api 这边他也分了几个,第一个就是他的这个文本的编码,还有这个提示词强化,这两个 api 他 是不要钱的,是免费的哈,可以直接用, 但是呢,如果你要调用它的模型生成的话,那就需要收费的哈,那这个 api 的 申请呢?我们可以找到下边这块,找到这个 first run and data location 这边,我们在这边有一个 ltx api key 的 这样一个申请的界面啊,这里它给了一个链接,我们点击这个 ltx console 啊,它的一个控制台, 然后我们就会进入这样一个界面啊,你注册登录,然后就可以申请你的 api 了,然后在我们这个界面呢 去填入我们这个 api 啊,就可以了。那我们来分别说一下这里边这些选项都代表什么哈,就是刚才设置里边这个选项,第一个就是一个生成设置, 那么第一栏呢,就是一个我们的资产的一个目录啊,就是路径,你可以在这边设置一个你本地资产保存路径啊,包括你的一些生成后的视频,就说你生成的结果它也会在这里显示, 那比如我这边设置的是我的勾盘的这个 l t x desk 这个目录里边,那么刚才我生成这些都会在这里边进行一个显示,而且会按照我们的这个 project 啊,就是我们的项目给它做一个分化哈,就是做一个目录的一个分化。 这里还有一个就是我们的这个文本编码,他可以选择两个啊,第一个就是你在线上用他的 api 的 一个文本编码啊,他是建议是用这个。还有一个就是用我们这个本地的一个文本编码啊,看你的一个配置。 然后第二栏就是我们的一个 api k 的 一个设置啊,就是我们刚才也提到了。 第三个就是我们这些里边的一个选择了模型,一个选择一个参数的选择哈,包括他这一个什么步数啊?放大呀, 还有这个 pro 的 模型也可以选择哈,还有就是这个啊,提词强化,我们刚才也提到了他可以用这个 api t, 对 吧?啊?就这几个,剩下就是一个信息哈,这里还有一个栏,我们看到在这个设置旁边还有一个栏是, 哎,他的一个 log 啊,他的一个整个一个运行的一个后台信息都会在这里进行显示啊? ok, 那 么具体使用的就是我们进来以后,像我刚才说的一样,我们新建一个项目,我就用我之前建的项目做一个举例哈, 他这边我们看到他的界面非常像我们一些线上的一些平台的一个操作界面哈,但是他是运行在本地的,我们这边可以选择什么呢? 第一个啊,就是图片生成,还有视频生成,为什么它有图片生成功能呢?因为它这个模型下载里边还有一个 z mage 啊 turbo, 它还有一个这个就说可以在这里个平台里面进行一个图片那个生成, 还有一个 retake 啊,这个功能啊,就是我们重拍把一些,就是对视频进行一个编辑啊,但是我试了一下,效果可能不是那么好啊, 好,这里就是我们的图片和音频的上传端口哈,这里它还有一个 bug, 就是 说你如果直接把图片往这个窗口拉呢?还是不行哈?做文声,做图声视频的时候直接拉过来,它还有 bug, 它上传不上来哈, 音频也是一样,还是需要我们在这边手动去呃,去找一下才行,然后这里就有个模型选择,还有呢就是一个时长设置,我们看到这边有五秒、六秒、八秒、十秒、二十秒这几个选项哈,可以直接去选,然后有个分辨率设置,五四零 p 还是七二零 p 还是幺零八零 p? 这里还有一个就是比例选择啊,一个十六比九宽屏的,还有一个九比十六就是一个竖屏的哈,那么就像我们正常的一个在线上的一些操作一样啊,我们直接在这边输入我们提示词,比如说一头大象在喝水 啊,这时候我们选择对应的,比如说我们这边设置五秒,我这边举个例子啊,然后五四零 p 啊,十六比九,点击这个生成就可以了哈,那我们稍微等一等,他就会生成了,这时候他也会给给你蹦出来个提示啊,就是说你如果说 想用云端的啊,可以在这边继续输入 api key, 这个打开跟我们这个设置这个界面是一样的哈,是一样的, 好,我们这边就等一等,那么他的显存占用跟我们这个普通的也差不多啊,看我们这边占了二十二点七 g, 二十二点七 g, 那 么这还是个五四零 p, 稍微提一提这个分辨率呢,就会吃到二十七八 g 啊, 好,很快他就就生成了一段这个视频,对吧?生成这样一段视频,那么这就是他的一个文生哈,图生的话就也是一样,图生的话我们看我们另外一个项目哈,图生的话就是这样啊,我们直接在这边点击上传我们这个图片, 然后呢我们在这边写一个提示词,哎,一个女人摘下墨镜,好这样,同样的哈,只是这边上传一个图片,还是选择这个,我这演示一下就可以了啊,五四零 p 就 可以了,好生成 啊,就像我们在线上的一些操作是一样的啊,比如说吉梦啊,比如说万象啊,他们这些官网的这个操作是一样的,只不过他这边的话,现在他这个全是英文的哈,他还没有一个中文界面啊,可能还需要一些大佬去做一个汉化哈, 那么很快啊,他这边也就是生成这张视频啊,我们在这边预览都可以看到,包括我们之前生成这些都可以啊。 ok, 那 么这就是这样一个简单的一个操作啊,生成的一个操作,那么他还有一个非常有意思点什么呢?他还有一个编辑啊,编辑能力,比如说我们用刚才这个大象那个项目哈 做一个,说明,就是我们现在不是生成了这么多素材了吗?我们看上面有一个什么呢?有一个 video editor, 就是 一个视频编辑。 ok, 我 们点击这个,我们会发现进入一个什么呢?进入一个剪辑这个界面啊,剪辑这个界面, 他这个有点像我们呃,一些剪映啊那些的这种模式啊,我们把我们这个刚才的这两个几个视频,我们把它拖到这个时间轴上啊, 哎,拖到我们这个唯一这个轴上啊,上面是视频轴,下面音频轴哈。哎,把我们这两段拖过来,我们会发现他没有一个自动的对齐,但是我们会发现他有一个什么功能呢?在这两个视频之间他有一个 空白的地方啊,我们点击一下这个空白,他会出现什么呢?三个选项。第一个选项是什么呢?是用图片来填充这个空白,第二个选项是用视频来填充空白。第三个选项就是直接把这两个两段之间的空白给他关闭啊,他就会自动黏贴上啊,我们把退回, 那么我们看过用图片填写空白呢,就是相当于用我们刚才的那个 z 妹子那个图片啊,那个模型来生成了,比如说我们这边写一个大象,大象在合适啊,我们这边,哎,好生成一下, 那很快他就会生成一张图片,去把这两个视频之间这个几秒钟的这个空白呢,他会给你做一个填充哈,就会出现这样一个哈, 就已经填充好了,又但是是用图片填充的,我们看在这啊,就这样一张图片,那么还可以用什么呢?用我们的这个视频来填充啊,比如说把这个大象这个图片我们先删掉, 还是点击这个,我们在这边选择,哎,用视频来填充,那么我会发现他进入一个什么界面呢?进入一个首尾,真的这界面啊,还是同样写着我们提示词,选择我们的分辨率 啊,跟我们原始的这个视频的分辨率对应上呢,然后写上我们提示词,但是哈这个功能我跟大家先说一下,他还不是特别好,哎,一看似是首尾针,但是实际上呢,他生成的视频跟这个首尾针没关系哈,没关系,只跟你的提示词有关系啊。这是 怎么讲?也是他现在的一个 bug 啊,因为他现在还是个开发版,先给社区先用了一个开发版,所以说后续还在完善啊,我看已经有人提这个遗书了哈, 啊,就是他们这样一个功能啊,这个软件我觉得还是挺好的,他是把我们这个生成加上这个编辑,一套全部做下来了哈,一套全部做下来了,就是,呃,连剪辑都在内啊,虽然说现在还是一个有一些问题啊,比如说目前我总结的几个问题是什么呢 啊?第一点就是说他这个刚才我们提到的图片的一个拖拽有有这个 bug 啊,图片拖拽有 bug 啊,就是这里啊,图片的拖拽还有 bug 哈。第二呢就是说,呃,他在一个 数字人就是加了音频的时候呢,他只能输出一个十六比九的,他如果你加了音频在数字人的话,他不能变成九比十六啊,在这个这个软件里边目前是这样啊。 第三个就是像我们刚才说的他这个刚才这个视频编辑的这个首尾针中间填充的首尾针呢?还不能用,还不能用啊,目前还不实用啊,这就是目前的这个 bug。 还有一个就是什么呢?他这个界面只是一个英文界面,还没有一个中文界面啊,对很多小伙伴不是很友好, 所以说等一下啊,但是这个我觉得这个用法还是不错的,用法还是非常好的,那么几乎是可以用一个零基础的这样一个状态呢,去使用这么一个模型啊,因为它基本上全全自动的啊,全自动的中间这些东西你都不需要自己去进行一个配置或者操作啊,全是一路 next 下来就可以了哈, 好,这个也给大家分享到这里啊,大家可以去装一下试试。那么对应这个安装的这个文件呢,就是它这 ex 文件呢,我已经放到网盘上了啊,大家可以下载下来试试啊。好,就这样,拜拜。

这是我最喜欢的咖啡店的拿铁,他们家的豆子很特别,牛奶的口感也很棒,不会太甜,刚刚好。 哈喽,小伙伴们大家好,那么 ltx 二点三呢?呃,是已经发布了有好几天了哈,那么社区呢,也慢慢发现了它这个能力啊,是非常强的,可以说甚至有种感觉就是有点小急梦的感觉哈, 特别是纹身的时候,有点那种感觉了。那么今天我们来分享一个工作流是什么呢?是这个他的一个数字人的工作流啊,那么这个工作流特点是什么呢?特点是他可以在这个纹身和图生之间进行一个切换啊,就是一个工作流就把纹身和图生都解决了, 那么这个只要我们在这个节点里边呢,把它设置成一个 false 啊,那他就是一个图生的数字人,那么如果把它点开处呢,那就是一个纹身的数字人哈, 这个也就得益于这个 l t x 二点三这个模型呢,它是个呃多模态啊,它能够就是既能纹身也能涂身,就一个模型就搞定了,而且效果非常好啊,非常自然啊,就是可能比我们之前的 inferno talk, 还有是其他的一些专门的书的人效果还要好哈, 那么得益于他这个纹身的能力呢,我们还有一个玩法,就是可以把之前 lts 二点零我们训练的这个人物 laura 呢,把它加载进来哈,在你进行纹身的时候 啊,就可以,比如说我们现在切换到纹身,然后加载我们角色 laura, 那 么就可以实现一个什么效果呢?我们指定的角色去唱歌,或者是让他的一个口播啊,或者是什么都可以哈, 它有这样一个效果,这个就是 l t s r 三,一个非常强大的一个点啊,那么我觉得这个模型很有可能会成为我们社区当中的一个全新的一个开源的视频模型的基座啊,效果又好,对吧? 提示词遵从度也不错啊, ok, 那 么这个工作流呢?我已经放到了 running habit 这边,就是我们需要调整的点不多哈,前面就是分辨率,分辨率 上面是宽,下面是高哈,然后就是这个是否切换成这个文声啊?如果点成处呢?那就是切换成文声啊, 然后就是我们这里加载音频啊,这里加载音频,你可以加载以后呢,然后设置这边长度啊,这里是设置音频长度,如果你把它设置成零呢?那就是你加载这个音频,整个他给你播放一遍哈,全部播放, 那么他会自动的计算这个帧数啊,自动计算这帧数,那么他也不是没有一个缺点啊,就说如果这个音频的时长太长,比如超过十五秒左右,他会容易出现一个,呃,怎么讲? 就是在最后几针会出现一个花屏的一个现象啊,会有这个现象,无论是文声还是图声都会有这个现象,大家留意一下啊,控制一下时长,或者说是后期的时候裁剪一下哈。好,那么就给大家分享到这里。
