粉丝228获赞597

大家好,本节课程主要讲解如何在 l t space 中导入第三方模型。 我们使用 l t space 打开下载好的第三方 space 模型,选择模型名称,右键创建 simbo, 选择保存目录。 在 solo 编辑页面,您可以对它的模型外形以及序号进行编辑。这里使用默认的点击确定 即可。在桌面看见你所保存的 solo 以及 space 模型,然后打开 o t space, 我们可以选择仿真文件下的目录,点击即可看到我们创建的 solo 模型。 该模型与 l t space 自带模型一样,我们将 solo 放置好之后,然后抵即可运行仿真可以看到它与 l t space 自带模型一样,并没有任何区别。 假设我们需要导入第三方的预放模型,我们可以在放置元气键中选择输入 o p a m p, 点击第二个放置 编辑模型名称。我这里下载的是 ad 八二七,输入 ad 八二七,使用 space 命令,点 include, 右键点击 include, 选择模型位置, 选择模型,点击 ok 运行即可。 可以看到该模型已经顺利地在 l t spin 中运行起来。 以上就是本节课的内容,我们演示了如何在 l t spin 中导入第三方的 spin 模型。感谢您的观看。



大家好,本节课程主要给大家介绍 back 电源相关知识,以及如何在 l t space 中仿真 back 电路,并查看其中的关键节点。电压、电流波形。 back 电路结构如图所示,它主要由开关 q 一、 电感 l 一、 二极管 d 一 以及输入输出电容组成。其中电感把能量以磁场的方式进行储存。如果忽略占空比公式中二极管和开关 q 一 的压降, 输出电压等于输入电压乘以占空比。在 q u 导通第一节制的时候,输入电压给负荷以及电感提供能量。电流回路如图所示。 在 q 一 截止第一导通的时候,此时负荷所需的能量由电感提供,电流回路如图所示。电感通过二极管第一形成回路可以看到,因为 q 一 不断地开关导通,它是把直流信号转换成一个脉动信号, 其中电感 l e 和输出电容其实可以看作一个滤波器,把脉动电压转换成一个直流电压。 在了解 back 电路结构后,我们可以总结出 back 电路的性质。 back 电路可以降低输入电压值,而且输出电压的即性与输入电压相同。 开关导通时,电感储能,开关关断时,电感为负荷提供能量,输出电容电流是平滑的,且输出电容平均电流等于零。 在输出达到稳态后,电感波形与电流波形如图所示。可以看到电感在一个开关周期内,电感电压波形发生了突变,电流波形不能突变,且电感的平均电压等于零。 back 电路关键器件选型按照图表中的额定电压,电流不能低于表中的值, 否则会有损坏电路的风险。打开 l t space, 这里是一个基础的 back 电路原理图,其中 q 一 采用了一个默示管, d 一 是一个二极管,然后电感一百微亨, 然后它的信号源是用的一个风波信号源,它的信号设置为初矢电压负一伏,然后导通时十伏,延时时间一纳秒,波形上升时间、下降时间均是一纳秒, 它的占空比是百分之五十,周期五十微秒。点击仿真配置顺泰分析,截止时间设为十毫秒, 起始时间零秒,最大仿真不长一微秒,点击 ok 运行仿真。 首先看一下输出电压波形,可以看到输出电压约为二十七伏左右,当然存在细小的纹波。 然后看一下这个开关节点的波形,可以看到它的电压不停的在突变,从五十伏到零伏之间来回波动, 它这实际上是比零伏要低一点,是因为二极管存在一定的导通压降,在二极管导通的时候它会低于零伏。然后我们还可以看一下电感的电流波形, 可以看到这里的电感电流波形与我们的图中可以看到电感的电流波形与 ppt 中基本一致。然后点击电感左边, 然后再点击电感的右边,鼠标按住不放,我们可以看到电感的一个电压波形。好,这就是本节内容,感谢您的观看。

大家好,本节课程主要给大家介绍如何在 l t space 中进行传递函数分析。 直流传递函数是电路在直流条件下的传递函数,反映了电路对静态信号的响应特性。在实际设计中,直流传递函数是电路直流特性分析的基础, 与交流传递函数结合,可全面掌握电路的性能。直流传输分析是将电路在偏置点附近进行变换,并视为线性电路,从而计算出直流传输函数。 该分析会计算并报告小信号增益、输入电阻和输出电阻等参数。需要注意的是,数字器件本身并不包含在直流传输分析范围内。 例如门电路本身没有频率响应特性,所有数字器件都保留着求解偏置点时以计算出的状态值。 其实,传递函数分析就是将非限性的器件进行限性化。例如我们的三极管二极管,其本身它是一个非限性特性的器件, 当我们计算时是将它进行的一个限信礼盒,将它视为限信电路。 传递函数分析的目的是为了精准评估电路的直流增益,衡量电路对直流信号的放大或衰减能力。确定电路的静态工作点,判断电路静态工作点是否合适。 静态工作点偏离电路的限性区,可能会导致输出失真。例如,我们的运放不能超过他的一个静态工作范围。还可以进行电路的合理验证,用于优化电路参数, 确保电路在直流状态下达到设计要求,便于后续的交流分。打开 l t space, 以一个三极管插排放大电路为例,我们配置仿真, 这里有一个直流传递分析,我们需要设置它的一个输出信号,还有一个它的一个信号源, 这里我们将 v 三设置为信号源输出,我们观察它的一个微 out 一 和微 out 二,它是一个差分输出,我们点击 ok 运行仿真。在弹出的菜单中我们可以看到直流传递函数分析结果, 第一栏它显示了一个直流传递函数分析的一个争议,这里的争议是负九十九,还有就是它的一个输入主抗,这里的输入主抗为十八 k 左右, 还有一个输出主抗,输出主抗约为十九 k。 以上就是本节课的内容,感谢您的观看。

rtx 三的视频控制以及在放大流程上面的一些优化,当我们正常去使用 artx 三的视频控制流程,比如说谷歌引导视频生成, 结果上面会有一些特别的裂化,当我们过一遍后期的流程的放大之后呢,能很好的解决这一问题。这个不电图的三阶放大流程也是一样,我们透过后两阶段的后期放大,能够让非常模糊的结果呢变得更为清晰且合理。在我们之前介绍的初次渲染完成之后呢,再过一遍视频到视频的放大, 借用这样的一个空间的视频放大模型,对于人物,在放大的过程当中,因为电入人物的图像也能够追回一定的一致性,这样的一通操作下来,至少让我们的 iclora 的 e t x 二点三的控制达到一种可用的状态,这里其实非常值得让他去作为某些工具的后期。这是我电入的控制类视频, 以及进行了一个二点三的视频放大流程的更新,这来自于 air force video 的 control 插件的官方示意。接着我们来看到工作了,我这里测试和使用的是全球最大的在线 control app 平台 running hard, 也是 ai 专业用户最常用的最克制化的 ai 工作台。对应的流程已经同步更新,被测试于在线运行。 接下来说快速启动。我们可以加载视频,设置一张参考图像,如果呢不电入这张参考图像的话,我们可以进行白 pass。 就 像这个结果一样,我们这里的视频生成仅仅依赖于我们节日词的引导,而与我们的电入图像完全没有关系了。 设置一下正向提示词,那么这个 t s 呢?在整个的生成过程当中也参与一定的权重占用,过分的详细的会让我们生成结果偏离参考图像的引导。设置反向提示词简单设置不宜过多,把我们最想控制的不想出现的结果给写上去就行了。 帧数为我们加载的上限,我这里设置的是一百二十一,可以选择 erik 的 视频,以符合我们的规则,条件宽高不建议做调节。设置完成之后,我们点击运行就会获得结果。 还有一个对于视频进行放大的流程快速启动上来说,我们要去加载视频,电入一张参照图像,这是可选项,我们可以进行删除。设置一下我们日常边要放大到的尺寸,比如我这里的是二五六零,点击运行就会获得我们放大之后的结果。 给我看看,我要验牌,可以看到会非常的清晰,等图像相对内流程已经同步更新,可在线运行。 接着我们来看到细节处大模型,在进行了一段时间的研究之后呢,我个人认为应当去切换为蒸馏模型 l d x 二点三二十二 b 的 蒸馏模型,不要再去使用 d f 模型了。 d f 模型的一个问题是太慢以及它的结果的话并没有提升特别的大,我们使用蒸馏模型过多阶段的渲染明显能够获得更为优越的结果。 加载 loo 模型,这个是我之前介绍过的推理模型,可以做无缝的插入,那么既然是控制的流程,我们当然要加载我们的控制模型,让反向提示词生效。对于我们的一处理器的话,官方是给出了三个选项,一个呢是深度,一个呢是 kineer, 一个呢是 pose。 非常熟悉的,尤其是这个频道我们做这样的控制类的东西,而你 harp 线上我使用了 sdpos, 允许我们进行更为准确的检测,当然对显存要求会更高一些。像这样一个带转身的结果的话,使用 sdpos 应当能够取得更为优异的日处理后的视频。 日处理完成之后呢,我们要给送到这样的一个 i c lora 的 节点当中。在后期的放大过程当中呢,我们可以 保留 image to video 节点,但是没有必要保留该节点,该节点的加入的话会让我们的结果更为的恶劣。在生成组我基本上保留的官方的设定。 在解码之前我们可以进行一下裁剪,这个裁剪实际上裁剪的是我们的视频的长度,当我们未进行裁剪之前,这里的潜在空间当中的帧数 u a 为二百多,裁剪完成之后的话,会符合我们一开始设定的一百二十一帧。 赛后五方就是我们之前视频当中介绍过的放大部分三阶渲染流程。为什么要白 pass 掉一组呢?那么原因非常简单,我发现他去了第二次之后,再去第三次的话会裂化结果, 所以也只建议出了我们的 icloud 的 控制之后呢,做一次的渲染放大就行了。对于这个打篮球的结果来说呢,其实还尚可,但我们只要放大一看,明显能看到有 有一些网格状的物体,如果电入图像之后的话,效果应当会更差。所以后来我们就延伸到了 ltx 二的放大流程,这个流程非常的妙,妙就妙在它对于任意的视频都可以进行放大,尤其是我们现在的原视频的话,越不清晰放大效果越棒, 相当于是我们开源设置当中少有的深层式的放大工作流。这里主要在原来基础之上做了一些什么样的调节呢?那么一个呢,是自定义 c max 值,我让这样重绘更为的激进,以彰显效果。设定那个节点,想强行让繁体字生效,预留显存。 对于视频进行自动化的反推参数上面来说,其实一般情况下不需要做调节,它每一次处理的帧数应当为五十六,重叠的有二十四,所以哪怕我们设置更高的至上面的数值 性能的要求,也不会有特别的压力。最后彩钢就出结果了,而且还允许我们像之前的三 d 渲染流程一样去垫入一张图像。值得推荐,感兴趣的朋友可以在我的流程之上进行更为详尽的调节。

a r t x 官方默不作声的更新了 a r t x 二点三蒸馏模型一点一的版本,那么这是一个小版本的更新,但是效果的表现上呢,却不平常,你都知道了, 好人全都死光了,江山与我不过是身外之物。这个好难呀,我弄不来,你帮帮我嘛。那个你能不能先说点什么,不然我有点接不下去。 根据官方的表述,这个一点一的更新主要的呢,更新是在于它的画面的美感以及音频的生成, 我的使用体感是非常的明显的,尤其是对于数字人的流程以及图声视频的结果。这个视频我也把数字人的流程更新了一下。那么说起数字人,我们就不可避免的要提到音频克隆,最近关于音频克隆是出现了好几款工具,一个呢是 omilo voice vox cpm 二点零的版本,那么单对于电入一段音频来进行克隆的场景呢?我认为评测下来 no cat 会更胜一筹, 无论是对于音色还是情绪。 no cat 二九能够非常简单的只给我们一个好结果。接着我们来看到工作流和一些测试用力,我这里测试和使用的是全球最大的在线康复软件来 run hard 是 ai 专家和爱好者们最常用的在线工作台, 最新最好的技术都在同步更新,并于线上进行支持。先说到 l t s 二点三的更新,那么这更新的是一个最牛模型的一点一版本的更新,我们可以使用这个一点一版本的三八四 lora 模型,如果我们原来的流程当中未使用分体模型,可以直接使用这个四十 六 g b 的 一点一的大模型,对原来的代步模型来进行替换,不用担心,相信你的原来的大部分流程都是使用的外挂 rover 的 形式来进行流程的创建,我的建议是直接去除加速 rover 模型,去除代步模型,使用一点一的帧率模型来进行替代, 这个版本并不一般,我使用的是 k j 的 分体模型,所以我只需要把 logo 的 face model 这个地方进行一点一版本的替换,就可 无缝插入到我们以往的流程当中。使用了这种模型,我们就没有必要去使用加速的 low 二模型了。 v b vr 模型依旧保持接触的状态,那么之前对于数字的流程我们进行过一定的拓展,使用了特殊的 low 二模型以激发其效果,那么现在底模的更新 使我们的效果更上一层楼。我们再调节组加载图像,加载音频,设置一下我们取的音频的时长,设置帧率, 简单设置一下提示词。比如这个视频当中就是一个猪头在说话,你都知道了,好人全都死光了。近好友,原来我们就测试过这个猪头,那主要的问题是当时的二点三的流程的话,我们猪头的嘴巴是完全不会动的,现在的效果就和开头一样,出发的就很好了。 数字人这个地方给人的感觉就是我们使用了一点零的版本的话,会获得了更强劲的增强动态,那么现在的话,我认为二点三的数字人体系是可以对二点零的体系进行替换的。图示视频也是一样,如果我们使用的是一点零的这个模型,我们可以看到 动态的话会偏小一些,且连贯性要差一些,这个恶魔女的结果的话会更明显,尤其是武器的变换。对于二点三的模型的一点零版本的话,他在视频渲染到了后一部分,其实武器已经处于一个完全变形的状态了, 而且像火焰的效果以及整个场景的动效,都没有二点三的一点一版本更强劲。当然美中不足的地方在于一点一的模型渲染到了末尾部分的话,这个人物有一点扭曲了,相信这只是概率问题。导航至 runescape 点 cnn 视频,相对应的 ai 工作流 和可以一键启动的 ai 应用均以同步部署式,线上可以在线运行和测试。而下面我们来看到音频克隆的简单对比部分, omega voice 这个模型,它的功能呢,并不局限于音频克隆,但在这个地方,我仅仅对比的是它的音频克隆,这是先行的声明。那么这是原视频好不好嘛? 求求你了,拜托拜托,哥哥哥哥, 你就不能多哄我一下吗? 我都已经这么乖了。 vox cpm 给出的结果呢?缺少一些情绪,当然他这个地方是可以给出一个框做设定的,大家可以自己调节,相信调节之后能获得更好的结果。我这里只是一个盲测的状态, 你就不能多哄我一下吗?我都已经这么乖了,那么长猫给我们这个结果的话是非常直,给没有任何提示词的输入,直接出来的就是一个带情绪的比较好的结果。第二个词是玉帝哥哥, 你说四大皆空却紧闭双眼。农猫这个地方有点吞字,但它的结果在我看来依旧是最强劲的。对于农猫而言,我们输入的参考的音频必须要做这样的 音频统一,这直观重要。如果这个节点处于白 pass 的 状态,而我们加载的音频个别的有起伏,得到的结果将会是你想象不到的恶劣。所以 对于龙猫模型的结果的好坏,只在这一个节点的一念之差。非常建议做一个百分之一百的开启状态。那么这个频道大多数的时候呢,分享的都是 一些开源模型和项目,但闭源模型其实才是 running harper 真正猛的地方,很多热门模型的价格都被它打下来了,像 vdo, 可零外向这些模型部分的规格甚至比官方公开的价格还要低。只要用一段时间,你就会发现日积月累的真的很省钱了。

大家好,上一个视频我们介绍了 its pass 的损肽分析功能,损肽分析呢,比较类似于湿波器,它就是可以看看这个发动机电路在食欲上的这样一个表现。 那么这个视频呢,给大家介绍一下损肽分析里面的 time step, 右键点击损肽分析的指令, 那么这个对话框里面的 maxim time step 就是我们今天要啊给大家介绍的一个指标 time step 呢,它跟实际的时波器也是比较类似的啊,实际时波器在显示这个波形的 时候呢,它其实显示的也是很多个点,很多个数据点,我们数据点之间的这个时间差呢,是由 a, d, c 的采用率决定。 its price 在显示波形的时候呢,它显示的也是很多个离散的这个点, 那么点与点之间的这个时间差呢,由这个 time step 来决定。比如说我们输入十微秒的十微秒的 time step, 那么按一般的理解来讲的话,一百微秒的时间,然后十微秒的这样一个时间差,那 啊可能就只有九个点,或者是十个点这样一个,我们看看是不是 怎么看这里面有多少个点呢?我们右键 view accident points, 把这个点都给他 mark 出来,大家可以看看这个播音上的点可不止不止这个十个,那他到底有多少个呢?我们可以按键盘上的 ctrl 加 l 键, 这个地方的 accept 等于七十八,就是表示这个波形里面有七十八个点。 如果我们把这个 time step 改小一点,比如说改成零点一,那么可以预见的是它的这个点数会增加, 等出来了来看一下,现在点数呢,变成一千零三十三啊,有的人可能会啊,有问题说你这 波音上看起来没有那么多个点,没有那么多点,那么这个这有一个原因,就是 it plus 它在仿真的时候呢,它会对它仿真出来这个波形数据,它会有一个压缩,压缩的这样一个 啊,过程,如果我们对他啊不进行限制的话,他默认就会进行压缩,如果我们不希望他对这些数据进行压缩,我们可以加上一条指令,加上这条视频, 大家看现在这个点数哈,点数是这块还是比较分散, 看出来区别了吧,这个线感觉变粗了,变粗了,原因就是说他的那个点数啊,点数啊比较密集,所以看起来这个线比较粗, 我们可以拉大看一下啊,这个显然这个点数要比刚才要密集多。 那么原因呢,就是说因为我们加了一个点, options plot in size 等于零啊,这条指定的啊,结果呢,就是说他会对他算出来这个波形数据,他不会压缩了数,点数会变多 啊,这就是这个神态分析的这个 time step。 我们介绍 time step 呢,主要是为了啊,为将来的这个 f f t 分析的时候啊做一个铺垫。好,我们下期再见。

蹦出来之后,左手右手接一个慢动作,右边再直接拉到这上面,直接拉到这个轮胎上,上面再接过去之后,然后上面再直接拉到这个位置了,右边再直接这个位置直接倒过去了,再倒一下,然后右边再直接抓着。 ltx 二点三终于正式开源了,而且这次不是小修小补, 它和 ltx 二相比最大的一个提升就是更快更稳。但问题也来了,网上已经有人开始质疑二点三到底是真的升级,明显 还只是官方宣传的,看起来比较厉害。那么这期视频我们就不空讲参数,直接看它哪里做了提升,实测效果如何,以及如何在康复 ui 里面直接跑起来。 我们先说第一个升级点,画面细节。 ltx 二点三这次重新设计了 ve 模型,官方给出的说法很直接,细节更锐利,纹理更真实,边缘更干净。 翻译成人话来讲,就是人物的脸部、头发丝、衣服褶皱以及物体边缘,这些地方会比 ltx 二更清楚, 不容易糊,也不容易脏。稍后我们有实测的案例。第二个升级点是提示词更听话了。二点三这次新增了一个 greedy, attention, text, connector 模块,重点强化的就是 timing, motion, expression 这些提示词的表达。 简单来说,以前你写了一长段的 prompt 模型,可能只听懂一半,但现在呢,它就更容易抓住你真正想要的动作表情和镜头节奏。第三个升级点,我觉得对做短视频的人来说非常的重要, 就是原生做到了竖屏的支持,以前很多视频生成模型也能做竖屏的内容,但本质上还是横屏思维,人物比例、构图以及镜头的空间感都比较怪。但 ltx 二点三这次就直接补齐了这个短板, 他按照 poetry orientation 的 方式去准备了数据集。也就是说,他不再是把横屏直接裁成竖屏完成训练,而是直接按照竖屏的逻辑去完成数据的准备模型的训练。 所以 ltx 二点三这次在竖屏的生成上,支持比 ltx 二提升非常大。第四个升级点是二点三的音频更加干净的,官方提到他们清洗了训练数据, 还换了新的 vocoder, 结果就是音频里的杂音断裂和奇怪的空白片段都会变得更少,文本到视频和带音频条件的工作流里面,对其效果也会更好。所以这次升级不只是画面更强,而是整套试听体验的一个提升。 讲到这里,很多朋友可能会问,这些卖点听起来确实都很香,但到底是官方说的好,还是跑起来效果就不错?那么接下来我们就直接看实测的内容。 这里来看我们的第一个案例是徒生视频给的提示词是一个女生拿着化妆水,旁白正在讲话,同时她用手抚摸自己的脸,表现自己的皮肤状况。这个镜头最容易暴露两个问题,一个是人物面部稳不稳,另一个就是动作细节假不假。 从结果来看,二点三的人物面部清晰度很高,整体画面已经非常接近实拍。而且在人物摸脸的时候,脸部的褶皱和嘴部的肌肉变化也是符合物理规律的。但如果你以为他只是脸更清楚,那还不够,接下来我们看第二个案例。 第二个案例我们给的是人物运动和镜头的一个变化,这里我们提示词写的是一个女生正在街上最近自拍,先用手拉一下裙子,然后向左走两步,再向右走两步展示自己的衣服。这个测试其实很刁钻,因为里面同时包含了人物位仪,裙摆变化,自拍动作还有镜头尺度的一个变化。 特别是人物在手机上进行视频放大的时候,我们整个画面会根据人物的动作去完成一个放大。如果说模型不稳,最容易出现的就是裙子糊掉,或者说人物的手部变形,或者画面一缩放就直接毁坏。 但从当前的测试结果来看,二点三在裙摆动态、人物运动以及整体画面缩放时都能保持稳定, 表现非常不错,没有出现明显的模糊和毁坏,已经非常接近实拍的一个质感。到这里我们来看下一个案例,也就是首尾针工作流。这个案例我们给的提示词是一个女生正在街头逐渐走向镜头,显示出上半身的特写。 首尾针这个模式最容易看出来的就是模型在过度的过程中能不能很好的保持一致性,因为很多模型的手针和尾针都能够做好,但中间如果一旦动起来,就会出现人物漂移,节奏比较僵硬的问题。 而在当前的案例当中,二点三的整体过渡、自然度以及人物的连贯性明显是比较让人放心的。那么接下来还有一些案例大家就自行观看,用不好 l t x 二零三, 那这期视频一定要看惯, 小公子今天居然有雅兴光临寒舍,有失远迎,还请见谅。 壮族自治区爱吃红鲤鱼与绿鲤鱼 与驴的出租车司机,拉着苗族土家族自制粥,爱喝自制的刘奶奶榴莲牛奶的骨质疏松症患者,遇见别着喇叭的哑巴,打败瑶子山前四十四棵紫色栀子树的四十四只石狮子,之后碰到年年恋刘娘的牛郎,念着灰黑灰化肥发黑会挥发走出山头。从上面这些案例看下来,二点三的这次升级补的基本上都是创作者真正会在意的一些地方, 当然它也存在一些固有的问题,比如说视频生成容易频繁的出现字幕低帧率的情况下,剧烈运动会导致整个视频的画面模糊,而且工作流的参数非常的敏感,稍不留意就会出现画面毁坏, 那么二十二 b 的 参数量也会明显的导致显存的压力有所提升。但如果你更在意的是成片的质量,更在意试听体验,那么 ltx 二点三的这次升级你真的值得去做一次尝试。 最关键的是二点三已经完全开源免费,而且康复 ui 也已经获得了完全的支持,那么本期视频后续测试用到的模型以及工作流都在网盘里面有提供,大家可以直接在视频的简介区获取更系统的教程,欢迎大家加入星球学习。那么接下来我们就进入最实用的部分, 如何本地安装,以及在康复 ui 当中完成 ltx 二点三的测试和运行。 好的,那么我们就直接开始本地的安装教程。大家首先就是在小破站找到我任何一个视频,在视频的简介区这里会有啊,也就每一个视频下面会有一个展开更多。点开之后,这里可以看到有个网盘资料分享,打开这样的一个链接,这里会有一个 ltx 二点三模型以及工作流。 点击打开网盘,里面给大家提供了两套模型,第一套是 kj 的 model, 第二套是 models, 也就是 kj 的 官方的。我这里建议大家安装 kj 的 models 啊,因为我们提供的工作流是按照这个来做的,下面这两个 ltx 二点三的 image to video 和 text to video 这两个工作流是基于 kj 的 models 做的, 那么基于 kj 的 这一一套工作流是下面这两个,所以说大家可以直接就下载最上面的这几个就可以啊。每一个文件夹的名字都是按照 comui 里面 models 的 文件夹进行命名的, 大家可以打开自己本地的 comui, 在 comui 里面有一个 models 文件夹, diffusion model 就 放到 diffusion model 对 应的文件夹里面,也就是里面的内容就放到这个文件里面, loris 就 放到对应的 loris 里面。那么一共五个文件夹全部下载,放置完之后呢?然后把这两个工作流也进行下载, 然后呢,接下来就是完成更新,大家要保证自己的网络没问题,才能正常的更新 comfort ui, 大家用的是便携包的话哈,然后在包里面会有一个 update, 这里直接双击这个 update comfort ui, 点 bite, 也就是脚本去完成 comfort ui 的 更新。启动完毕之后,大家还要再做一件事, 点开 manager 管理器,在 custom node manager 当中搜索 kj, 然后找到 kj 的 一个插件叫做 comfort ui 杠 kj nodes。 如果大家本地没有安装的话,就点 install 完成安装,如果有安装的话,要点这个 try update 把它更新到最新,然后大家把下载的两个工作流拖入 copy ui 当中,就可以进行使用了。这里我们稍微讲解一下工作流的一个重点用法。 第一个工作流就是我们文声视频和图声视频二合一的工作流。前面大家正常的加载自己放置好的模型, 然后下面大家正常的加载自己生成视频的宽和高,横屏还是竖屏就在这里设置。 然后这个 lns 指的是视频的时长,这里十秒就是十秒哈,那么 lps 就是 一秒生成的图片数量,我这里给的是六十,那么十乘以六十就是一共六百帧。六百帧我们在显存里面也是可以的,我当前三十二 g 的 显存是可以跑六百帧,甚至可以跑更长到一千帧都是可以的。但是这里呢,大家要注意啊, 如果说你的视频运动状态比较激烈,比如说人物有转身,甚至说是一些汽车的极速飞驰的镜头,那么这里的帧数我建议给高,我测试下来,给到六十是比较好的,如果你给到四十八的话,可能出现重影,给到二十四也能正常生成,但是他画面可能出现毁掉,而且这个 l p s 值越高, 画面的质量会越好,这是我个人测试下来的哈。给到六十,然后这个 list 呢,大家按需去进行设置哈。一句话的话建议就是三四秒左右,两三句话有对话的话给到十秒左右这样,然后在上面呢,我们就是上传图片, 那么在这里会有一个 text to video 节点,这个值,如果你把它打开,就是整个工作流就变成了文声视频工作流,如果你把它关闭,那整个视频就是图声视频工作流,所以说上传的图片它不一定起作用,主要就是看这个点你是打开还是关闭的哈。 然后这里是有个 enhance prompt, 就是 我们提示词的增强,也就是说你打开之后,我们输入的提示词,它会经过本身自带的模型进行一个提示词扩充或者说重写,但是呢它有可能会改变你的语义,如果说大家想更强烈的自己去控制这个工作流的话,建议就把它关闭,然后提示词我们就自己写就可以了。 然后就是点击运行,完成我们视频的生成就可以了。那这个呢,就是我们纹身视频和图生视频的工作流哈,核心点就是这个针数哈,经过测试针率给到六十,效果会更好。然后呢是我们的首尾针工作流,和刚才的纹身视频图生视频基本类似, 只是说我们在这里上传两张图片就可以了,这里上传手针,这里上传尾针,然后在中间写上我们对应的提示词,设置宽高,设置视频时长,设置 l p s, 那 么点运行就可以完成我们视频的生成,其他的参数我不推荐大家更改,那么这个呢,就是我们本地安装和使用的教程了, 如果说大家想要免去这些复杂的安装步骤的话,大家可以在视频的简介区找到云端的地址,然后云端呢后续也会获得支持,大家可以直接在云端完成工作流的运行和测试。那么今天这期视频呢,我们就先讲到这里,感谢大家。

各位小伙伴们中伙伴们大家好,今天我们要给大家分享的工作流是 ltx 二点三,多图参考生成视频的工作流。 在这个工作流当中,我会为大家解决多图参考生成视频多图参考的一致性以及视频转场的流畅性和物理逻辑性。这是我们整个的工作流。工作流和模型以及网盘地址我会放在简介区,有兴趣的小伙伴可 自取。好,我们来看一下整个工作流。首先这边是图片参考的输入,我们可以输入多张参考图,当然输入参考图像的数量,我们需要在这边这个 l t x m g two video in playlist 这个节点以及 l t x audio guide metal 这两个节点中进行添加和减少。我这里是输入了三张参考图,在这里输入我们的视频时长,在这里输入我们的视频分辨率。在这一块区域替换我们 l t x 二点三的模型以及我们的两个 l t x 二点三的 ruler, 一个是转场 ruler, 一个是我们的物理逻辑 ruler, 类似于我们之前的 v b v 二。在这里对我们的视频进行一个简单的描写和输入,那么我们的这个千万三点五就会对我们的整个提示词进行一个 优化。优化之后,因为我们这个转场 ruler 需要一个触发词,所以我们在这里进行了一个文本的连接,输入在我们的克利普文本编码器这里, 接着传入我们的 l t x v。 条件,然后传入我们的 l t x 二 n a g 节点, l t x 二 n a g 节点可以在我们 c f g 为一的情况下保持提示词的遵从度。这边传入我们的 l t x 二二点三多图参考生成视频的核心区域,两步踩样以 及深频放大。这边是我们的第一次采样,采样之后传入我们的 l t s v 浅空间上采样器进行一个视频的深频放大。视频深频放大之后传入我们的第二次采样区域进行采样解码。采样之后我做了一个获取图像批次,对我们的图像尾部的一些伪阴影以及 多余帧进行一个裁切。这里我说一下这一个简易计算公式的一个意义,它这个其实是计算我们的一个视频时间帧的一个长度,它既要满足我们一个 l t x 二点三工作流当中的一个八 n 加一,又要满足我们的一个帧率乘以 时间的一个呃,计算,这个 round 是 表示四舍五入的一个呃,取舍。这边的话,我采用的是 l t v m g two video in place 和 l t x v ideal guiding motion 这两个节点进行组合,解决我们一个多图参考生成视频多图参考的一个呃,一致性,那么这两个节点的用法是类似的。首先要在这里更改一个我们参考图像的数量,这里修改每一张参考图像的强度以及 每张参考图像借助我们时间帧的一个长度,这一个节点也是一样。这边是我生成的三段视频,大家可以看一下它的视频的流畅度以及嗯,物理逻辑性和它的一个多图参考的多图一致性都是保持的比较好的。 好,我们今天的分享就到这里,喜欢的小伙伴们中,伙伴们,大伙伴们给我们来个一箭三连,感谢大家的支持与关注。

下面我们来看到 air tx 二点三的 lora 型面, air tx 二点三是一个非常强劲的音画同步生成模型,在开源设置当中,所以它的 lora 型面也直观重要,这味道还行, 到此为止,可以看到已知性保持还是非常好的。那么我们训练所使用的底模就是这个二十二 b 的 def 模型,体积巨大,所以也推荐使用。大家租用线上的镜像来进行一键训练。与其中 我们进入到优云计算平台,找到对应的镜像,点击部署实力,这里推荐使用的最低配置呢为五零九零,再低的话对质量有极大的减损就不太建议了。说明书往下拉,找到我们的启动指令, 复制,点击立即部署实力列表当中等待一下。然后呢,进入 jupiter lab 任意的地方,打开终端,粘贴启动指令回车,等到最后出了地址,八六七五回过来,点击 ai toolkit 就 可以进入我们的训练界面。 训练界面当中我们左一列呢有一个训练的队列,包含两个预设,一个对应着四零九零,四十八 g, 一个对应着五零九零,那么我这里的名字不对, 发布的版本的名字就是五零九零,我这里租用的是四十八 g 的 四零九零,也是最为具有性价比的选择。正常情况下,我们进行快速启动,创建一个训练级,任意的名称都行,点击创建,我这里是年代的声音进行训练,所以我的训练当中呢是包含音频的 e r tx 二点三的官方并没有明确地表示应当如何打标, ai toolkit 的 官方所表明的打标方式我认为符合这样的一个规则呢,应当是没有问题的, 大家可以把这个规则丢给大元模型去帮我们进行分析达标。触发词我们就不填,每一段我们描述当中呢,我都重复了一个叫做汤姆希尔比的男人,我们也可以像这样把它做得更为复杂,但一定要在每个文本当中重复同样的这一句短语 以作为我们的触发词。视频的格式我们就用普通的 mp 四,视频的宽我们就用一九二零,高就用一零八八,那么这个长度呢,就是五秒钟,也是一百二十一帧的对应数值,帧率是为二十四, 这均是我们使用 air tx 二的推荐配置。然后在训练的队列当中,我们找到一个任务,对应着我们所租用的显卡, 如四零九零四十八 g 的 版本,或者五零九零。其实这个地方如果追求质量上来说的话,四零九零的四十八 g 应当已经是最低配置了。点击进入 往下拖,选择一下我们的训练级,然后更新一下任务,直接点击运行就可以进行训练了。这里只要去切换一下训练级就行了,触发词都不用改的,如果愿意的话,可以设定一下触发词写在标签里面了。 根据我这里的观察来看,训导第三千两百五十步的话,一致性就已经保持挺稳的了, 感兴趣的可以往后看一下详细的配置。这里的配置其实对于训练的结果呢,影响并没有很大,主要的是对于性能的调节。 训练的名称不重要,它只是用来备注设定我们的任务。 gpu 设定出发词,出发词能够让模型以后呢靠一个词来稳定的召唤我们的角色啊。 模型区域明显,我们进行 l t x 二点三的设念设定一下模型,那么一般情况下我们只需要绑定这一个模型就行了。可以这么说,八十 g b 以下必须要开启低显存模式的分层卸载开关啊,我们把这个 transformer 百分之一百卸载掉。 文本编码器我做成零,那么我认为主按模型的量化至 float 八就够了,尤其是对于迷之讯而言,我认为没有必要跑到四比特这样低, 一定会出现列化减损。文本编码器我认为问题不大,就使用斯比特进行单独量化就行了。那么认可的话,我们就用六十四模型的保存精度默认没有问题,每二百五十步呢,保存一个模型最多我选择保存一万个, 那么下方的训练设置当中呢? best size 我 们就用一一,应当是最稳的。那么根据我的调查来看,对于视频的训练来说的话,还是不要超过也好, 梯度累积次数我们也用一啊,跟着这个 biosize 走步数的话,我设定为一万步。优化器保持默认啊,基本上我们一般用 ai to get 都用这个默认的, 学习日的话就用零点零零零一。后面这些部分我们其实也都保持默认,不做对比测试,其实很难评价这里的数值熟优熟劣啊。文本切入缓存建议开启啊,会降低我们对于性能的消耗啊。训练级这个地方有一个对应的选项, 内存缓存也建议开启啊。那么是否要做音频的训练呢,也建议开启啊,如果我们的训练当中包含这个人物的声音的话,就可以开启吧, 因为我这里做的是人物一致性训练,这里关闭。我们不做帧的话,是否做 iqv? 我 们也不做 iqv, 加载音频时对音频做归一优化,把不同视频之间的音量差呢拉平一些。 如果说我们加载的训练级当中的音频差呢,没有那么的大,我们就没有必要开启它,为了适配我们的训练帧数而尽量保留音高。 这里的话我也关闭啊,因为我就是用的标准的参数啊,一九二零乘以零八零乘二十四的帧率做二十四的帧率,帧数为一百二十一帧,就是五秒钟嘛,所以这种推荐设置下,我可以不开启该项。那么我也建议大家做我这样的统一的训练级的视频的配置, 可以用剪映这样的软件去做,非常简单,而且也不建议做什么自动化,因为有的时候我们想同时做这个音频的训练的话,我们得确保这个人物在说一个正常的话,我们还得给他打标。 是否要进行水平翻转或者说垂直翻转呢?没有必要,因为乱翻的话可能会破坏镜头语言了。 训练分辨率,那么我这里使用的是七六八,对于四十八 g 的 四零九零而言,我认为再提高一些的话,如到一零二四,甚至说一二八零,我们应当使用更高的显存,更强劲的配置了,五零九零就只能开五幺二了, 所以这个地方大家自己去权衡。最后方是否要采用呢?我这里选择关闭采用,因为这里采用往往不能对应我的测试结果。实话实说是这样,如果要采用的话,我们记得把提瑞斯改一下,比如确保我们的触发词再列,不然我们也很难去采用。出一个我们想看的样例吧。 总体来说, ltx 二点三的训练与 ltx 二的训练呢?没有特别更新的地方,相反, ltx 二点三的话 貌似是参数量的增加的话,会让我们对训练的要求更高。我这里训练了三千两百五十步,都运行良好,大家如果没有退出这个页面,直接点击下载就行了。如果一不小心退出了页面而在后台运行, 我们可以在工作区进入 ai to kit, 找到 auto boot, 在 一个文件夹下面可以找到我们的训练的模型。