假如你从二六年六月决定学习大模型多久才能学会?答案是,三个月足够让成为一个真正能干活的 ai 工程师。说句实话,只要你精力跟得上,不是三分钟热度,请疯狂按这条高效学习路线冲。第一阶段,不要想着一步到位,先把提示词写顺了,搞懂 transformer 核心架构,熟练调通 api 就 算过关。第二阶段,认真吃透 r a g 老总数据清洗,怎么专项量?数据库咋用。最后一步,真正动手做一个 a 阵,把 react 模式弄明白,让 ai 自己会调工具,再四十多个 a 阵一块配合,完成复杂任务。这套走下来,搭个聊天机器人,或者给公司整一个 ai 方案,基本没啥大问题。 我把这个流程整理成了一份详细的学习计划和视频教程。不管你是想转行做技术,还是只想让工作更轻松留下想学拿走 以前想给几十亿参数的大模型做全量微调,那是大厂和顶级实验室才玩得起的算力游戏,动不动就需要几排几柜的顶配显卡连轴转,普通开发者根本摸不到门槛。但是自从有了 laura 技术,他硬生生把微调的显存需求 直接砍掉了百分之九十以上,零成本训练出一个专属的行业大模型。今天我们就把 laura 技术彻底拆解明白。我把视频内容分为了四个部分。首先,我们会花个几分钟理清一个底层逻辑,微调的本质到底在干嘛。基调定准了,你就会知道传统的做法有多吃亏。为什么我们非得用 laura 不 可? 那我们就直接进入第一部分,来看看微调的本质,其实啊,大模型不管外面吹的有多深,它说白了底层就是一堆密密麻麻的数字,也就是我们说的权重参数。你看这个公式, w 一 撇等于 w 加上 date w, 原来的模型参数是 w, 我 们要教给它新技能,就是给它加上了一个变化量,就 这个 data w, 最后得到一组新的参数 w 一 撇 a 微调本质上就是在找这个 data w 就 这么简单。但是呢,问题来了,我们看右边这个图,以前我们做的是传统的全量微调,就是要把这几十亿、几百亿的参数全都给它重新算一遍。这就像什么呢? 假设你手里有一套几百万字的百科全书,现在你想往里面加上一点关于最新的网络这个词的解释。全量微调的做法就是拿起红笔,把整套书从第一页 b 一个字开始全部重新抄一遍。你看这个图里面红笔改的密密麻麻的,这种做法不仅费卡烧钱,而且模型还特别容易把以前学过的常识给忘了,也 就是我们说的灾难性遗忘。对我们平时在公司跑业务来说,动不动就去搞全量微调,那算力成本肯定是吃不消的,那怎么破局呢?既然整本重抄太笨了,大家就想出了 lower 这个办法。我们来对比一下这两个架构图,左边这个是常规微调,你看左边这个 w 模块 跟原来的模型一样大,更新起来特别笨重。而 lora 他 特别聪明,他直接把原来那一个巨大的预训练权重 w 给冻结住了,不让他动。然后呢,在旁边开了一条旁之路,在这条路上,他放了两个小一点的矩阵,叫做 a 和 b, 我 们在训练的时候只更新这两个小矩阵,最后把它们相成的结果, 当时那个变化量 data w 加回到原来的流程里面,效果有多夸张呢?我们来看这个饼图,绿色的这一大片,百分之九十五甚至更多的原始参数 都不用算了,我们只需要管这个蓝色这一小撮可能只有百分之几甚至千分之几的参数。你看这一下子,几张普通的显卡也能跑得动大模型微调了,对吧?那说到这里,其实很多朋友第一次接触 lora 的 时候,心里都会有一个大大的问号, 凭什么?凭什么?原来要更新几十亿个数字才能够学好的东西,现在你搞两个小矩阵就能够搞定了。模型真的能学会吗?那就涉及到了 laura 背后最核心的一个洞察,学术上叫低质。我们来看这两张图你就懂了。你看左边这个厨师,其实基础的大模型,他已经是一个上知天文下知地理的文学家了。现在我们微调, 比如让他去写你们公司的特定文案,就好比让这个博学家去学做川菜,他需要从头开始去学,什么是辣味,什么 火,什么是食物吗?完全不需要,他脑子里已经有庞大的常识了,他只需要稍微记一下花椒怎么用这种特定规则就行了。这就是为什么那个变化量 delta w 里面真正需要塞进去的新知识,其实没那么多。我们再看右边这个例子,这也特别形象,你看张三写了 一篇两千字的水文,其中真正有信息量的就一句话,今天天气不错,我们去野餐吧。大模型的参数也是一样的,虽然它可能会有几百亿个数字,看着挺吓人的,但其实数字跟数字之间有很强的关联性,大量的信息都是涌于的。所以你看, lora 其实就是抓住了大模型的这个本质,既然你本身信息就高度融合,不 需要那么多参数来表达,那我就用极少的参数去精准捕捉你那点核心的增量信息。这就解释了为什么 lora 能用这么小的代价做到那么大的模型。我们理清了大方向,现在进入第二部分, lora 的 数学原理和实现机制。大家看到数学原理这四个个先不要紧张啊, 我们其实就是要搞明白一件事情,刚才说的那两个小矩阵,它在底层到底是怎么运转的?首先呢,我们需要破除一个名词障碍,叫做低智 low rank, 听着特别学术,对吧?但其实也特别好懂。大家看这里有个例子,左边是有一个三乘三的矩阵,一共是九个数字,对吧?但是如果你稍微观察一下它的规律,第二行二四六其实就是第一行一二三乘以二, 第三行呢,就是第一行乘以三,对吧?意味着什么呢?就意味着这九个数字里真正有用的核心信息,其实只有第一行的那个一二三,剩下的全都是个固定套路,是不容的。所以啊,不 管一个矩阵看着有多么庞大,只要它的数据存在高度的关联性,它的有效信息维度其实是很低的,我们完全可以把那个核心的基底给抽出来,用很少的数据去还原它,这就是低质的本质。在一堆废话里面去找重点,顺着这个找重点的思路,我们就来到了 laura 最核心的操作 矩阵分解。既然我们上一章说了模型需要学的新知识,也就是这个黄色的 data w 信息量其实不大,是一个低质矩阵。我们直接把这个大矩阵 给它深深地劈开,劈成两个小矩阵相乘,也就是右边这个矩阵 a 和矩阵 b。 大家注意看啊,矩阵 a 呢?它是一个高瘦的柱子,矩阵 b 像一个矮胖的长条,对吧?它们俩相乘的时候,中间那个共同的维度, 也就是 a 的 宽度和 b 的 高度,而其实就是我们刚才说的那个有效信息维度。在学术上,我们管它叫 rank, 也就是志,那说到这个 rank 志, 我们在实际跑代码的时候,这个 r 设置成多少最合适呢?我这里有一条法则是说 r 应该远远小于模型的原始维度。还有刚开始接触微调的时候,可能会有个误区,觉得这个 r 设的越大,模型学到的东西就越多,效果就越好。但是你看左下角,这是原论文里面的测试数据,非常有意思。 r 从一一增加到了四的时候,各项语言的指标确实在变好,对吧?但是当你把它加到 r 十六,甚至加到一零二四的时候,你会发现效果并没有什么明显的提升,甚至呢还会掉一点点,这说明什么?这说明你要交给模型的那个新技能,它的信息量其实就那么一点大,就好比你非要开一辆大卡车, 就是很大的 r 去装,其实车厢里全是空的,所以我们平时训练 r 设置个四八十六往往就足够打了,那把 r 设小之后能省多少事呢?我们来算一笔直观的账,这也是我觉得洛尔最牛的地方。假设我们要更新一个 一零二四乘以五幺二的权重矩阵,如果是传统的微调,你要老老实实去算这五十二万多个参数。现在我们用 lower 假设,我们把刚才说的 r 设置成了三十二矩阵 a 就 变成了一零二四乘以三十二,那矩阵 b 呢,就是三十二乘以五幺二。我们只需要管这两个小矩阵,把它们的参数量加起来只有不到五万个参数 从五十二万多降到了四万九,那参数量只剩下原来的百分之九了。如果遇到更大的几百一参数的模型,这个比例甚至能降到千分之几。对 做工程落地的人来说,那就意味着你原本可能需要八张 a 百才能跑起来的训练,现在是一张消费级的四零九零就能轻松搞定了,这是实打实的本增效。最后这部分还有一个非常精妙的工程实现细节大家一定要知道,就是它的初使化。大家想一个问题啊, 刚开始微调的第一步模型,其实什么新东西都没有学进去,对吧?我们肯定希望这个时候新加进去的 a 和 b, 不要去瞎干扰原来模型的输出。所以呢, lower 的 作者非常聪明,你看他在最开始的时候把右边这个矩阵 b 用随机数出式化,但是呢,他把中间这个矩阵 a 啊, 全都设置为零了,也就是全零出式化。这有什么用呢?任何数乘零都是等于零对吧?这就意味着在训练的第一步, a 乘 b 的 结果就是等于零,对吧?也就是零,那模型刚一上来,表现跟没加 load 的 之前是一模一样的,然后随着训练的一步步推进, a 里的数字慢慢不是零了,新知识才一点一点加进去,这就保证了训练初期的极度稳定, 不容易崩。另外大家注意看底下这个公式,这里多了一个字母叫 alpha。 我 们在设置参数的时候也一定会遇到它,它其实就是一个缩放因子,你可以把它想象成一个音量的旋钮,算出变化量之后, 我们乘上一个阿尔法,除以 r 的 这个系数,用来控制新学到的知识对原模型的影响到底有多大。有个行业里面的经验值啊,我们通常会把这个阿尔法设置成 r 的 两倍,具体的我们在后面参数设置的部分还会再详细说。我们把罗尔最底层的数学逻辑盘清楚了。那么说到这里, 你可能会觉得把参数量降到百分之几,这已经很极限了吧,一台电脑就能跑了,还要什么自行车啊。其实不然,大模型这个圈子整 非常夸张的,既然能降,那能不能再降一点?这就引出了我们的第三部分, qlora 和其他的一些境界的新玩法。我们先来看目前大家用的最多,基本上可以说是平民玩家标配的 qlora, 这里面这个 q 呢,就是 quantization 量化。原本我们大模型里面的数字都是非常精确的小数,比如说十六位甚至三十二位的浮点数,非常占用显存,那 qlora 是 怎么做的呢?他直接大刀阔斧把这些精确的小数压缩成了四倍的粗略整数, 一压,好家伙,模型的体积直接缩水了好几倍,单卡二十四 g 的 显存也能够跑七十亿甚至更大的模型了。但是注意,我们用来微调的这两个小矩阵 a 和 b, 它们是不做这种极端压缩的,它们还是保持高精度的计算。这就相当于 大部队虽然因为后勤不够降级了,但是我们派出去学习新知识的特种部队,用的依然是顶配的装备。这样一来,既省了卡,又保证了微调的效果, 可以说是性价比拉满。那除了这个 q lora, 因为罗尔实在是太火了,这几年学术界还卷出了好多升级版,我给大家简单的介绍几个。比如第一个 lora, 他 觉得原来 lara 更新参数的时候有一点手脚不协调,所以呢,他在算法上做了一个解,偶啊,权重的方向和大小分开来学,这样模型学起复杂任务来,表达能力就会强很多。 看中间这个 laura 加,哎,这个思路我觉得特别有意思,刚才我们不是说矩阵 a 上来全是零,矩阵 b 是 一堆随机数吗?它的起点根本不一样,凭什么训练的时候要让他们用同一个速度去更新呢?所以 laura 加呢,就给这个 a 和 b 设置了不同的学习队,相当于是因材施教。结果发现,嘿,不仅训练变快了, 最后模型变聪明的效果还更好了。然后呢,还有 r、 s、 l、 o, 它其实解决了一个很多人微调的时候都会碰到的痛点。刚才我们说过,普通类的质设置个八或者是十六就差不多了。有时候你遇到特别复杂的任务,你硬硬把 r 开到一百二十八,二百五十六,满心欢喜地以为模型能学到更多东西,结果一跑 绕死曲线直接崩了,训练很不稳定。那么 r x l r 就是 对内部的缩放比例做了一个数据上的优化,用了它之后啊,你哪怕这个 rank 开得很高,模型也能稳稳当当地继续学, 不会轻易崩溃。这对于那些需要给模型疯狂灌输大量新知识的场景,比如说要学一门,嗯,全新的冷门语言是非常有用的。当然了,对于大部分刚上手的人来说,也不用死记硬背。这些变体你只要知道,不管外面的花样怎么变,它们底层的灵魂都是我们刚才拆解过的低质分解。如果你平时做项目的话, 你只要知道武器库里面还有这些进阶的装备,哪怕哪一天,原版的 low low 满足不了你了,你懂得,来回翻这几张牌就完全足够了。好, 前面铺垫了这么多理论和遍体,可能很多朋友已经迫不及待去跑代码了。最后一部分,我们来盘点一下在真实写训练脚本调餐的时候,那些最容易踩坑,最容易让人抓狂的地方。大家如果用开源的工具微调过,就一定会面对配置文件里这三个参数, 我们一个一个来看。首先第一个也是最核心的 r rank, 这个参数我们在前面反复的提过,它决定了模体能容纳多少新知识。我再强调一遍,真的没必要去迷信大力出奇迹,一般日常的任务设置个八十六,最多三十二,绝对够用了。诺太大不仅训练慢, 还特别容易过你河。第二个, laura alpha, 还记得我们前面打的比方吗?它就是一个音量旋钮,是用来控制新知识对圆模型的影响权重。绝大多数情况下,你直接把这个 alpha 设置成跟 r 一 样大, 或者是 r 的 两倍,是很安全的。比如说你 r 是 十六, r 法就给十六或者是三十二。除非呢?你去用我们刚才讲的 laura 加这一类特殊的变体,那就得老老实实按它们论文里的配方来。第三个, target modules, 也就是你要把 laura 挂在哪些层上。很多框架默认非常保守,只给你加在注意力的 q pro 和 v pro 上,这种做法最成,显存跑起来最快。但是你看,如果你的显卡资源稍微富裕一点,或者是你想追求极致的微调效果,那强烈建议你把括号里面这些 k pro, o pro, 甚至后面的前馈层全给它覆盖上。代价肯定是显存占用变高,但模型理解复杂指令的能力会有一个质的飞跃。 ok, ok。 最后,我们来过一遍这几个很容易被忽略的弊坑小贴士,这可都是我们用算力和时间砸出来的弊坑小贴士。这可我们来过一遍这几个很容易被忽略的开关。如 你手里的数据集特别小,比如说你只弄了几百条问答,那你把 dropout 给个零点零五或者是零点一,防止模型过你核。但如果你的数据量很庞大,几万条几 十万条,那就直接设为零,不需要开,让模型敞开了学。第二条, i r c 就是 偏置,听我的,通常情况下呢,直接保持默认的 low 就 可以了,千万别手痒去微调它,弄了反而容易出一些莫名其妙的收敛问题。第三个呢,是数据类型,这个很重要,如果你显卡支持我们, 一定你一定要选 b f 十六,千万别去选那个 f p 十六。为什么呢?因为大模型在训练的时候经常会蹦出一些极端大的数字, f p 十六的表示范围比较窄,特别容易易出,你可能跑着跑着突然涝死爆掉了,白跑几天,而 b f 十六就稳健的多。如果你结合了我们刚才说的 q l o, 钢架会自动帮你把底座压成四 beat, 但在运算这一步 的,一定还要说用 b f 十六最后一条呢。这是一个报显存的急救顺序,你看,假设你一跑,代码啊报错了, o m 显存不够,你该怎么砍配置呢?千万别一上来就去砍这个,那太伤模型效果了。你的第一步 应该是立刻换上 q lora, 这招最立竿见影,如果还报呢?第二步,再去把 r 值稍微调小一点点,实在不行了,再到最后一步,你再考虑去减少覆写的层数,如果按照这个优先级来,能在你现有的破显卡上保住最大的模型战斗力。好,那关于 lora 微调原理的拆解我们就讲到这里。
粉丝6565获赞2.8万

太逆天了!利不利不把劳拉训练的门槛降到最低了!对新手保姆级友好,没有硬件要求,有电脑就能用。现在跟着我,一分钟学会练劳拉!来到利不利点击右上角训练新手直接用预设模式,人脸动漫画风,想练什么就选哪种,然后点击上传已经准备好的素材, 比起参数,素材的质量更重要,这里为你整理了素材准备的 tips, 以人脸模型为例,我准备了二十张清晰度高、多角度的甜美图片, 上传后拖到最下面,选择素材的预处理。剪裁很好理解,尺寸建议素材大小保持一致,直接用算法自动标注描述图片,让 ai 理解特征出发词可以自行命名, 甜美模型就叫 svt。 选择完毕后,点击预处理,稍事等待,激动人心的时刻就来喽!点击右下角,免费训练开始搓手等待 在咱的滴如仙丹诞生!等待过程中可以时时看到生成样图,还可以点击日志查看 note 值,判断你何程度训练完毕后,点击在线升图测试,直接验收劳拉的升图效果是不是超级简单?


众所周知,想要很好的体验 stable diffusion, 需要一台配置昂贵的 windows 主机,甚至还有令人头疼的本地文件配置。但是我发现利不利不 ai 就很好的解决了我们这些用户的问题。 除了最基本的 ai 绘图功能以外,利布利布的炼丹功能实在太强大了,小白都能三分钟训练一个属于自己的 lower。 我们首先点击右上角训练,我的 lower 可以直接在左侧选择一个需要深层的预设,有人物, a, c, g 等等。我这边选择了人物 炼单,当然需要放材料了,我这边上传了十张素材,上传好后,右下角这个预处理很有意思,能够一键裁剪出同等大小的素材,节省了很多的时间。最后我们点击这个免费生成开始炼单。 没一会我们的丹药就出炉了,训练捞啊,能够如此简单,真的越练越上瘾!现在限时领取七天的会员体验,这么好的福利机会,还不快来试试!

着你的手教你啦!你相信吗?这是 ai 做的视频, 别眨眼,百分之九十九的人都还不知道这个 ai 神器强到可怕! live tv, 一个让设计师手抖,摄影师沉默的工具。浏览器搜索 live tv, 打开网站 右上角登录,点击开始创作。上传一张产品白底图,一张氛围感场景图。拉个图片节点出来, 再写个提示词,生成新的高级产品图片。再来个图片节点,输入提示词,看九张电影级分镜图直接出,点击宫格切分,直接可以获得高清放大的拖拽图片到一个视频节点, 输入脚本提示词,打上艾特图片选时长,点击生成,不用学建模,不用调参数,连分镜脚本都不用,自己写全。艾特一下图片, ai 自动匹配分镜,运镜。最后看全片 工具喂到嘴边了,再不会用,我只能按着你的手教你啦!


很多人训练 lara 模型最大的问题不是参数没调对,而是一开始就把方向打错了。 如果打标方式错了,素材质量不好,后面你再怎么调学习率、调分辨率,效果都会很别扭。今天我系统地讲一下怎么训练一个高质量的 lara 模型。这个方法不只是用于 animate, 也适用于大部分 lara 模型训练。 首先在你想清楚训练目标和训练内容以后,第一步就是打标。假设我们今天训练的是一个风格类模型,关于 anime 的 logo 模型,打标方式现在有很多不同的说法, 我也经常看到群里有人讨论,到底应该用短词组还是自然语言,到底应该标的细一点还是粗一点。 安利美是一个比较新的模型,对于新模型,我们不可能一上来就完全摸清他的强项和弱项,所以最稳的方法就是反过来观察他已经成功的案例。 首先我们打开 c 站,在图片区筛选安利美出图,然后从高质量图片开始往下看。 如果这些优质图片在出图时大多数用的是词组短语模式,那我们打标时也优先用词组短语模式。如果他们大多数用的是自然语言模式,那我们打标时也尽量贴近自然语言模式。 这一步不是为了抄提示词,而是为了判断这个模型更吃哪一种表达方式。 看图的时候还有一个很重要的动作,把一些相对特殊、有技巧性的图片保存下来, 比如背影、仰视角、大场景、抬头构图,或者一些结构比较极端的图。这些图后面不是拿来训练的,而是拿来测试模型的泛化能力。 所谓过你河,不是训练结束那一刻突然出现的结果,他通常是一个逐步发生的过程。 比如一开始模型还能稳定出背影、仰视角、大场景、抬头构图,但训练到后面,这些结构开始失控了, 本来应该背对镜头的人变成正对镜头,本来应该没有头的构图又把头画了出来, 这个时候就要警惕,模型可能已经开始牺牲画画能力了。所以我一般会把这些参考图的截图保存下来,最好连它用到的 lara 正向提示词、反向提示词一起截下来。 后面可以把这些截图交给智能体,让他帮你整理测试样图和提示词清单。同时看图时还要注意提示词长度。如果你看到高质量图片的提示词普遍很长很细,那你打的标也可以适当细一些。 如果他们的提示词普遍很短,那你打标也不需要写的特别复杂。还有英文表达也要注意。 很多词看起来意思差不多,但在模型里,权重和习惯并不一样。比如 girl 和 woman 都可以指女性,但很多二次元出图里, one girl 的 使用频率明显更高。 如果你看到大家都在用某个固定词组或短句,那你打标时也应该尽量贴近这种表达习惯。 当我们看了足够多的图以后,基本你就可以对这个模型的标注方式、标注长度以及标注细节有一个初步的判断。 下一步,打开模型作者页面,认真看作者对提示词和打标方式的说明。作者明确写出来的要求一定要优先参考,因为作者最清楚这个模型是怎么训练出来的,也最清楚他适合什么样的提示词。 至于作者没提到的部分,通常说明他不是最关键的变量,我们也不需要自己脑补太多。 完成这两步以后,再打开图图的超级智能打标器。打标工具有很多,但在这个场景里,我认为图图的打标器很关键,因为他可以做主体过滤。 如果训练 lol 的 时候没有做主体过滤,基本上可以约等于没有打标。至于什么是主体过滤,大家可以看我的置顶视频,这里我们不展开描述, 我们把风格图片导入进去,智能标注,选择风格,然后开始打标,因为我这里已经打过了,就不实际操作了。打标完成以后,可以先把标签翻译出来,这样更方便对照检查。 接下来不要着急导出,要逐章看。如果你用的是默认模式,基本上不会有错误,就可以直接用了。 如果你使用的是高级模式,那么就先把明显的错误重复以及无关的标签删掉,然后再逐一精修,该删的删,该改的改,该补的补。 修改完成以后,要加一个触发词,这个触发词建议放在最前面,而且一定要尽量没有明确含义。 怎么判断触发词有没有污染?很简单,实际测试用同一组提示词出一张图,再加上这个触发词出一张图。如果两张图除了随机差异以外,整体变化不大,说明这个触发词本身没有太强的映射。 但如果加上触发词以后,画面变化非常明显,那就要考虑换一个触发词。这个步骤建议一定要实测,可以减少触发词本身对模型的污染。 还有一点刚才忘了说,因为我们开了主体过滤,打完标以后也要检查过滤效果, 有些训练需要过滤的非常细,有些训练颗粒度不用那么高,这个要根据实际目标来定。 像这种风格模型我会过滤的细一点,所以打标时主体过滤可以开到零点九,打标和修改都完成以后就可以导出了。导出后打开图图的超级智能训练器。 坦诚的说,以往我适配模型时会做很多优化,但这次安利们模型我基本采用的是官方推荐的训练方案,所以和其他训练器的训练效果差异不会特别大。 后面如果有时间,我可能会再更新一版,给安妮美加入图图时间步相关。适配这个东西需要专门测算,做好以后对训练效果会有提升。 我的训练器是免费的,大家直接下载使用就可以。把刚才的训练机导入进去,选择自动模式开始训练就行。如果你想自己调参数,可以参考训练器自动配置里的参数。这里简单说几个重点, 第一,如果你的电脑配置比较好,可以把分辨率适当的调高一点,分辨率对最终质量影响比较明显。 第二,作者也提到这个模型的学习率要稍微低一点,可以使用鼻旋退火,让学习率逐渐下降。这样有两个好处, 一是降低过拟核风险,二是后期可以继续细化模型,对细节的学习。你的训练器如果有这两个选项,建议打开其他参数,更多是为了显存优化或者兼容不同机器, 只要还是 lowra 训练,整体架构差异不会特别夸张。有些朋友会加噪声,这个我不否认有作用,但一定要循序渐进,不要一次加太多。 还有人会问正则训练,对于这种相对简单的风格模型,我个人一般不建议上来就加正则,有的时候正则加的不合适,反而会把方向带跑边。 训练过程中,我最想强调的不是 loss, 不是 样图,样图比 loss 更直观,尤其是风格模型,我们除了要看 loss 有 没有继续下降,更要看风格有没有学进去,同时结构控制有没有被破坏。 比如可以看到这个训练从四千多步这里开始的时候,图片就开始发生了明显的分歧, 后面都出现了一些奇怪的问题。所以四千多步这里我们可能就要仔细的对它进行测试,同时也可以看到它的风格确实在发生明显的变化,这是我们想要的结果。 如果你想测试的更准确一些,样图里可以放一些特殊的测试图,这些提示词本身比较复杂,边界条件也更强。 如果训练过程中风格已经融入了画面,但原来的构图视角、人物结构没有明显跑掉,这就是比较理想的状态。 但如果你发现本来应该背对镜头,结果总是转过来,本来应该是才头构图,结果每次都把头补出来,反复出现这种情况,就可以考虑早停。训练完成以后怎么测试模型, 还是先用我之前讲过的 x y z 测试方法,先测出一个大概的范围,从里面挑出两到三个相对比较好的模型。这个 x y z 工作流我之前在 runnyhub 上发过,如果你本来就是在用 runnyhub, 可以 去找一下, 基于那个工作流,稍微改一改基本上就能用了。 ryan 哈布是我很常用的一个工作流平台,上面有非常多的工作流,现在还上了一些画布等功能,有兴趣的朋友大家可以去尝试一下。 下面我们继续刚才的测试,现在跳出两到三个后选模型以后,下一步要做一个很重要的测试,批量样图测试, 简单说就是把刚才整理出来的反推提示词批量放进去,只替换 lara 模型,其他条件尽量保持一致,这样每一 p 图之间的差异就更能说明模型本身的效果,而不是提示词或随机种子的影响。 通过这种方式,我们就能在比较强的边界条件下判断哪个模型风格学的更准,哪个模型结构更稳,哪个模型放话更好。 到这里,一个比较完整的训练流程就结束了。好了,本期内容就到这里,如果大家对安利们训练风格、 lara 主体过滤或者测试方法还有不清楚的地方,欢迎大家和我一起来交流讨论。

哈喽,大家好,今天这个视频给大家分享 s d x l 的 lora 训练。废话不多说,我们来看一下怎么去操作。第一步我们需要去准备训练素材,我已经提前准备好了,这个文件我命名为一,当然你也可以命名其他什么名字都可以。 这些图片需要是一零二四乘一零二四的一个大小,人物尽量要多个角度,但是我准备的很简单,就是这个只是给大家做一个演示。第二步,要去下载后亚 ss, 我是用的这个去训练的, 这个地址我会分享给大家,就在我的视频的说明栏里,来到这个页面之后,你点这里的绿色的这个图标,然后这里有一行命令,你复制他,然后我们找一个位置,比如说我们就找这个位置,鼠标右击在终端中打开, 如果你没有这个在终端中打开,你就在这里输入 powershare 或者是 cmd 都可以。然然后按 enter 键,它也可以进入这个窗口,在这个窗口我们输入 get clone, 然后把我们刚刚复制的这个命令粘贴到这里来,然后在 enter 键继续运行,它就会自动下载这个 koya s s 了, 然后这里已经下载好了,下载好了之后我们可以关掉,当然你也可以这样去下载,你直接下载他的压缩包,就是这个,然后解压之后就是这个了, 解压之后就是这个文件,下载好了之后我们点进去,进来了之后我们往下滑,找到这个 set up, 点 bet 这个文件,双击它进 进行运行,他这里会去创建环境, 然后在这个地方我们要去选择第一项,去安装 koya s s g u i 按 enter 键, 然后这里我们要选择二,然后在 enter 键这个地方呢,它是没有进度条的,需要等一下,就是这里,这里的 python 呢,尽量是三点一零版本 好,到了这个地方我们选择这台机器,就是这里默认,然后按 enter 键, 然后这边我们也是选择这个无分布训练,就是无分布式训练,也是按 enter 键就可以了,然后这个地方他问你是否仅用 cpu 去运行,然后我们选择 no, 就输入 no 就可以了,按 enter 键这个也是输入 no, 这个也是输入 no, 然后这个地方是 gpu 选择 or 按 enter 键,然后下边这个地方,这个地方如果你的电脑配置比较好,比如说像二零系,三零系,四零系,那你选择 b f 十六就可以了,如果你的 电脑一般,比如说是一零系及以下的,那你就选择 f p 十六,就是我就选择这个 b f 十六就可以了,然后按 enter 键, 然后这边就已经是好了,好了之后我们关掉这个就可以了,其他我们不用去选择,然后关掉了之后,我们再往上滑,找到 g u i 点 bet, 就是这个这个脚本,然后双击运行, 然后运行好了之后,它这里会出现一行就是地址,就是这个你打开它, 它就会进入这个页面,然后我们点这里的 laura, 因为我们是训练 laura 嘛,然后点它这个地方呢,我们自定义就 是 custom, 选择这个自定义,然后格式,我们就 set tensors 这个格式,然后这里是选择我们的底膜,当然我们就选择这个 sdxl 一点零模型,对吧?然后我们选择这个,按这个按钮,然后去找到我们的那个模型, 比如说像我之前是存到这个地方的, 就是这个 base 一点零模型, 你把它放到这里来,然后好了之后我们选择这个 s d x l model, 就是一定要去勾选这个,这个不要忘了。然后我们接下来就是选择这个 tools, 就是这个地方要去准备我们的训练级,我们选择最后这一项,就是这一项,然后这个地方呢 是你的这个 lora 的名字,你随便输一个,比如说我就美女就美女吧, 然后这边是你的一些通用的关键词,比如说就 one girl 了吧, 我只是做一个演示,然后这个地方是你的这个数据级路径,然后你可以直接点这个,然后我们的路径放到这个地方的,就是我刚刚的这个一, 就是这里你一定要点进来,然后选择这个文件夹一,然后这个地方呢是你的循环次数,也就是说,呃,你这个图片每一张图片要看多少次?比如说我就看十次,也就是说他是一张图片,他要进行十步, 就是这样的。然后下边如果你有你的正泽化的一个文件,你可以在这里上传,如果没有那就不管他。然后这个地方呢是你的输出的一些就是训练文件,还有 laura 输出的一个地址,就是保存的这个文件的一个地址, 比如说我就点这个文件夹,然后在这里我去新建吧,随便你凡间到哪里都可以,就是自己去建一个文件夹就可以了,那我就输出就输出三,就是这个名字,我们同样点进来这个是三, 这个不要弄错了,好了之后我们就是这里点击这一项,它是一个准备训练数据,然后我们可以看一下后台, 点击了之后你可以看一下他是复制我们的训练图像,然后到二到三这个文件夹里边就是一是我们的准备的数据集,对吧?他是复制到三,包括他已经是分好类的, 然后他这里已经是好了,好了之后我们点这个文件夹,你可以看一下就是这个三,刚刚我们是新建的,对吧?他是空的,但是现在我们已经把一复制到三里边来了, 你可以看一下他是有三个文件的,如果你有一个正泽化文件的话,他还会多一个正泽化的一个文件,因为我没有嘛。然后这三个你可以看一下,这里是图片, 可以点进去,你可以看一下它这里是有固定的一个格式的,比如说我刚刚的这个数字是十,对吧?那它就是表示 是我们每一次,就是每一张图片,我们都是 ai 要看十次的,就是要处理十次,就是这样的,这个地方不要去弄错了,也不要去改他。然后其他的话现在还是空的,可以看一下这是我们最终输出的这个 模型。然后好了之后我们又回到这个页面,就这个页面来好了之后我们 copy 信息到这个文件夹,就是点他点了之后我们点这里春令这个, 然后这个就是我们的刚刚复制到这个文件夹来了,可以看一下他现在就是帮我们已经设置好了,就是我们刚刚的三个文件,就是这里你可以看一下他已经设置好了,设置好了之后,这里这个是你输出的这个模型的名字,比如说 我们就美女下划线 v 二吧, 就是这个,那我就保存这个名字,随便说都可以。好了之后我们再点击这一项, 这一项呢就是我们的各种参数的一些设置,上边我们就不动,下边这里是它的一个批次大小,批次大小的话就建议一到二,就是建议一就可以了,它代表的是每一次 就是处理几张图片,就是一次性拿出几张图片来训练,就是这个,那么这个越小可能越好一些效果,那这里就一,然后这里呢?嗯,这个是我们训练的一个轮数,建议是五到十,那之前我已经准备了十六张图,对吧?然后 每张图不是训练的十次吗?之前,然后十六乘以十,也就是一百六十步,也就是说一轮他就是一百六十步,那这里就是设置轮数的,比如说我这里就设置十轮, 十轮的话那就是总共一轮一百六十步,十轮就是一千六百步,他总共就是训练一千六百步,这是最大的一个轮数,我们不管他,然后这里 他是表示的是那个你多少轮,就是没几轮自动保存一次模型就是这样的,那我这里就每一轮都保存一次模型,你也可以两轮保持一个模型等等,都是 ok 的。 然后这边呢可以选择我们刚刚的那个 b f 十六,如果你的旧的一个卡布不支持,那你就选择 f p 十六,然后这个 cpu 我们就默认二,然后这后边这两项我们都是建议勾选的,这个呢可以提高你训练的一个速度。然后下边就是这里这个是优化器,优化器的话你可以直接选择这个 pr 开头的 这个优化期,那你这里的就是学习率这个地方以及下边这里的学习率,不是这里这里的学习率都要改成一,你可以选择这个, 这个就是不用去管它的,就可以直接选择这个。当然你也可以选择这个优化器, 这个优化期呢,他训练的时候需要较小的一个显存就可以了,那这里的学习率你就要改一下了,就不能是一了,我就改成零点零零零四,然后 这个我们要选择 constant, 选择这个,然后这个我们要把它弄成零,然后这个呢它是你的这个优化器的一个额外的参数,我们可以这个我给到大家了, 就是这个是训练 s d、 x、 l 的优化器,额外的参数可以设置 也可以不设置,看自己个人,我觉得设置好好一些。然后这边呢他是你的这个分辨率一定是一零二四,一零二四, 这个一定不要弄错了。接下来我们看一下,就是这两个学习率,我们跟上边是一样就可以了, 然后其他我们就默认。然后这个地方我们 一定要去勾选这个 low half v e, 然后这里 rank rank 呢,我们设小一点,就六十四吧,因为这个越大他越占线显存,当然你也可以设置到二五六去,那么你训练的 laura 可能有一个 g 的大小,就是这个地方。 然后这里我们建议打开,然后勾选这里的一个梯度检查点,不然你的显存可能不够,然后其他我们作为新手就默认吧。好了之后我们点这个开始训练,然后你再看一下后台, 它这里就会有很多的一些数据都可以看的,然后这里稍微要等一下。 好,大家看到这里已经在训练了,因为我电脑很一般,所以这里我就不等了,我用另外一台电脑训练了,给大家看一下效果,那我就把这个地方关掉,我们看一下效果是怎么样的。 这个二,这个文件夹是我用另外一台电脑然后训练出来的,大家可以看一下,我们训练出来不是有这样三个文件夹吗?然后你训练的 laura, 它就是在最后的这个 model 这个文件夹里边儿, 然后这里边呢?我们不是一共有十轮,然后我们每一轮都要保存一个模型吗?所以他一共就保存了十个模型,这九个,然后这里是最终的这一个,然后我们把这个复制一下, 就是这个模型复制,然后放到我们的 webui 目录里边,就是 找到目录,然后找到 models, 然后找到 laura, 把我们刚复制的这个 laura 粘贴到这里边来,因为我这边已经是就是说放进来了嘛之前, 然后我这里就不替换了,就是这个我已经放进来了,好了之后我们启动我们的 v b y, 进来之后我们这个模型要改成 s d x l base 一点零,就是这个模型唯一页可以可选可不选,然后这里,然后我们输入提示词 好了之后我们要选择 laura, 那就是这个美女,这个 laura 就是训练出来的,然后反向提示词 下边参数就随便设一下,就是看一下效果, 然后其他我们就不更改了,我们点生成 好,这里生成了我们可以看一下效果,就是这个是我训练出来的这个 lora 效果还可以,大家下来可以去试一下,就是改一些它的参数等等,然后今天的一个分享就到这里。

你是否想训练一款能保持人物一致性的 lora, 却又不知道怎么去做完整的训练级?别怕一分钟教会你 如何生成用于训练 lora 的 完整训练级。首先,找到一张你非常满意的人物图片,打开 comfyui, 将图片上传到我提前准备好的工作流, 把图片尺寸最长边设置为八百四十八像素,短边会自动等比缩放。第二步,配置核心,加载一个三百六十度旋转的 logo 模型, u m t 模型选择忘二点一图声视频一四 b 模型。 第三步,在绿色框中输入提示词,点击执行后,等待几分钟就会得到旋转视频和黑白蒙版,从关键帧里挑十五到二十张,就得到完整训练级了。相关工作流和模型我已经调配好了,想体验的小伙伴来抄抄作业。

如果你去创业,一分钱广告费都没有,第一批用户从哪来?这道题其实难倒过太多创业者了,这家公司的答案呢,也很反直觉, lip lip ai 它不是先去找的用户,它是先去请的手艺人。 二零二三年的时候, ai 绘画我记得刚火,那个时候,有一批的中文创作者呢,在海外 c 站上面用 lara 去做模型,成名了。 lara 就是 low rank adoption, 有 点类似于大模型的外挂。比如说有一位呢,叫麦菊的创作者,他用几十张作品位给平台,就可以出出写实风的人像的模型,特定的风格。而这样子特定风格的绘画的模型,被 反复的附用已经上千万次了。那个时候的 ai 很 想请到麦菊过来,但是他没有钱,没有名,也没有流量。所以呢,他准备了三个技巧,给到这一些创作者、手艺人。 第一,我们是讲中文的社区,有用户懂你的。第二,我们这里是有免费的云端算力,你可以在这里一站式的生存图,不用花钱的。第三,我们可以给到你直接变现的激励,这些模型被附用了,都能给到钱的,你是可以来赚钱的。所以创作者呢,就冲着有人懂我不烧显卡还能赚钱 来了。而用户呢,又冲着我想要用麦桔画风的这样的一些绘画风格也来了。于是呢,这样子的一个小小的飞轮就转了起来。那我也其实也研究了一下 mid journey 和 c 站, mid journey 它其实也是纹身图嘛,它把整个的这一套流程先是做到 discord 的 里面,就类似于我们国内游戏玩家开黑的时候的 qq 群,再加 slack 的 这种群聊软件, 他没有花一分钱的广告费,但是却获得了数千万的用户,后面他才有了自己的网站。而 siri 其实蛮遗憾的,他其实一开始是可以支持通过 lara 模型来生成这一些绘画风格的,但是这一步没有留在平台挺可惜的。用户呢,生成模型之后呢,就下载到自己的本地, 然后在电脑上直接操作了,但是 livelive 就 能把这些用户留在了云端,类似于 c 站,是借给你出的图书馆啊,你还了就没有下文了。但是呢, livelive 像是一个持续经营的集市,有来有回,买了还会再来复购的。一句话就是,你要是想去做冷启动的,不要一开始就想着我要去买我的用户,我要花钱。 首先呢,可以先考虑你的能够有持续产出,还能够通过你这个平台赚到钱的那些创作者在哪里,当然,这是 for 我 们想去做内容的 ceo 或者是 founder 来考虑, 而且你还要想清楚,不仅是要把他的尝鲜的意愿买到,他还要把一些核心的动作也能够留在平台里,是通过免费的一些这个算力呢?还是通过能够给到一些激励呢?啊,我是友友,十年大厂营销人,用大厂经验帮中小品牌少花钱多获客,下一期会更揪心一些。拿了天使轮三百五十万美金的他,为什么半年以后只剩四千块了?关注我,下期接着看。

今天补充分享一下捞捞模型的具体操作,打开捞捞选项,找到自己要找的捞捞模型,今天我们就以这种超高清的捞捞为例, 打开后点击自己喜欢的模型,我们就以第一张图片为例,打开它的参数,第一张没有显示用哪个大模型,看看其他的,找到对应的大模型,看到对应的大模型,如果自己没有复制名字,到主页去搜索, 搜索出来后点击下载回来,然后再把这个 lolo 模型下载回来, 下载回来后把 love 模型和道模型拷贝到对应的本地文件夹内, 回到 cable defusion 界面,在左上角找到刚刚下载回来的大模型,点击按钮显示 lol 面板,点刷新拷贝过去的 lol 就会在这里显示。 我们点击这个唠唠模型,唠唠后面的是对应的名称,一是全种植,不能超过一全种植越接近一出来的效果,越接近唠唠模型的效果,把它的参数一对应的复制过去, 点击生成,看看出来的效果。 怎么出来的效果跟原来的完全不一样呢?这是因为我们上面的提示词没有 lober 参数,点击刚刚下载回来的 lober 模型,把权重值改为零点八,看看效果。 这就是今天跟大家分享的 love 模型的使用,相信大家都会了吧,记得关注我哦!

现在我们这个北京京剧脸谱的模型已经训练好了,这个 lol 模型,现在我们看一下怎么用。我们打开秋叶版本的这个启动器,打开启动器之后呢,去到这个根木路,打开这个根木路啊,进入到根木路里面的这个 模型文件夹啊,这个 models 别进错了啊, models 啊,这里有一个 lore, 对吧? lore 在哪里?好? lore 在这里对不对?有个小技巧,就是说我们这里先新建一个文件夹啊,它是可以读文件夹的,我们新建一个文件夹,嗯,再然后我们把刚刚我们训练的这些模型, 把它比如说十四直接拖进来,记得把文件夹的名字改一下啊,我们正常打开 sd 就可以了。好的,最后一 步测试一下这个罗啊啊,如你所见,这上面这个文夹看到没有?这是炼丹文夹,这是炼丹跟目录,底下有很多模型,现在这一排黑的呢,就是我们的脸谱模型,对吧?我们把这个 复制到了我的啊, s d 的跟目录模型录二里面,看到没有?我现在呢空调也打开了,我现在我们的 s d 也打开了 啊,我们点击这里的小图标来看一下这里的小技巧,就是做一下这个文件夹,我们来看一下这里不是落了吗?对不对? 诺儿,这里有非常多,看不清,点一下这个分组,这里就有我们的这个内容了,对吧?我们现在随便点一个,比如说一般是十四比较好。我们现在来直接出一张图啊, 左上角呢,我们用的是这个 magic max 这个大模型。好,你看他已经出来了,怎么说呢,我觉得还是那回事吧。