海边的风总记得你走过的路。鳌拜,我爱你啊, 这艘船它不是在逃, 救好了没有?没有啊,还差一颗土豆, 土豆,你确定这是飞船的连线?哈喽,朋友们大家好,我是土豆。本期视频的内容我们将给大家分享 ltx 二这个模型的一个整合包也是一键启动包啊, 那这个工作流的话也没有很大的一个变化,但是呢我们还是要去说一下这个工作流的,我这边呢一共给大家提供了一个高配版和一个低配版的, 这个低配版的话,这两个工作流呢,同时都能够在八到十六 g 的 显存上面去运行的啊,那我这边的话运行下来的话是呃,十六 g 的 显存五零七零太的一个四十八 g 的 内存的这样一个配置的话, 在运行这个低配的啊,这样一个极致加速的,这个工作流的话是跑到了八秒钟的,视频是跑到了两分钟左右 啊,也就是说呃,三百秒左右的一个这样的一个时长,那这个高配的话也就多了一百秒左右,四百秒以内是能够去跑完的,那是一个八秒的, 那长视频的话十六秒或者是二十四秒的话,大家可以自行去选择啊。那这边呢我也给大家去提供了这样一个外部 u i 的 启动方式,也就是一键启动的方式, 那这边呢就是一个自定义分辨率,这个分辨率呢大家尽量是五幺二和三百,那如果说配置高一点的呢,可以尝试的去跑一下幺二八零。然后这边呢是一个时长,他的一个视频时长八十六二十四,那等会呢,我会来介绍这个时长,为什么这么来设置啊? 同时呢,我也把这两个工作流也放到了 runnyhop 上面, runnyhop 是 我常用的一个 comfyui 工作平台,那这个 平台呢,它不用配置复杂的环境,然后一些内核的一些配置,你们直接打开我的工作流就可以使用。新用户注册呢,是可以得一千个 r h b 的, 然后每天登录呢,也是会送你们一百个, 因为我们这个模型呢也是才出来的啊,那才出来三天,其实已经出了首尾帧的方式, 那图声视频呢,也是解决掉了,包括数整也是出来了,我们后面呢也会陆陆续续的把这些内容呢给它分享出来,然后并且做成整合包,也就是大家低选存的, 低显存的配置也是能够去跑这样一个工作流的,但是这个东西呢,它是非常吃提示词的啊,所以说呢,我这边呢低配置和高配置里面呢,都加了一个 这个反推,但是没有用图片进行反推啊,这边呢是加了一个这样的一个角色的提示词,这个提示词呢,大家可以去官网,也就是说这个 ltx 模型的一个提示词去做编辑的, 那可以用精明的或者是豆包帮你们去辅助生成,也可以使用我这样一个方式,但是使用我这个方式呢,可能不太稳定,他这个模型是非常非常是提示词的,那出来的效果呢,取决于你的提示词的一个呃写的,写的一个丰富的程度啊。 那这边大家可以尝试的去跑不同的版本的提示词,然后去生成,然后在呃就是低配的上面呢,我们这边使用了一个 low 这个低选存加载的模型的这种方式节点,那这个节点呢,我也会把它放到我们的网盘当中。 使用这个低选存以后呢,包括后面的一个 lower 啊,就是我们的放大的 一个 nova 也是用的这个低显存的方式,所以说你们在八 g 的 显存上面呢,也是能够去跑的。但是我测下来这个低显存的方式的话,在深层十六秒或者二十四秒的时候,它的一个效果并不是那么好 啊,可能时长的话啊,也差不多吧,就是时长会比我们的高配的要少很多,但是它的效果并不怎么好,大家取决你们自己的电脑配置去玩这两个工作流。后续呢,我们会把数字人和呃首尾帧的方式也给他生 搭建出来,然后做成整合包给到大家,然后我们来看工作流啊, 工作流的话,模型的加载我们刚才说了,那这个工作流呢,特别要注意的是一个分辨率,那这个分辨率呢,不管 是专利哈普还是说我们本地啊,我这边的一个 tt 分 辨率选择器呢,都是上传上去了,大家记得把这个更新了,我昨天已经把这个这块的分辨率选择器已经更新了,它是支持自定义分辨率的,把这个打开以后呢,它这个分辨率就是跑到下面,如果不打开呢,你们可以选择这个地方的,但是 我们跑这个工作流的话,尽量把这个地方打开啊,打开以后呢,呃,这个分辨率一定要注意的是官网给我们的一个介绍,他说宽高的设置必须是他的一个倍数,就是三十二的一个倍数啊,宽跟高是三十二的倍数, 就是这就是我们做优化的一个方式。然后这块我们设置五幺二,他就生成的五幺二,其实在 第一次产量以后,我们这个第一次产量以后,它生成出来的内容是五幺二的,但是呢我们后面会在第二次产量的时候了,通过这个模型来帮我们去做一个放大, 就是它放大以后的分辨率其实不是五幺二,所以说大家不用担心,如果说你们在这个位置设置的是九百六的话,那最后也会通过九百六的方式,然后进行放大。 这边呢就取决于大家,大家的一个电脑配置,我这边五幺二跑下来是二百秒左右,工作流呢,就是跟之前没有太大的一个区别,我这边只是多了一个就是给你们创建提示词的方式,当然你们也可以自己去创建提示词,把 把它换掉啊,把这个位置给它换掉。那接下来我们要说的是非常非常重要的就是你们的环境, 因为我们的这个节点就是不管是这个低选存的加载方式,还是说我们的高配的默认加载方式,都是有一个什么的, 都是一个有一个内核版本的,也就是说我们打开 nb 启动器,这个 nb 启动器呢是目前我用过最好的一个启动器啊,在不管是在这个地方插件管理还是说有一个 prom 的, 就是我们的提示值库也是用的非常好的,包括他还有一个本地化的 ai 助手。 然后呢这个工作流对应的是我们的一个内核版本是我是使用的八点二最新的,那大家呢可以 在这个地方刷新列表,打开你你们的梯子以后啊,就是要去刷新列表,然后在系统设置当中呢,你们需要把你的启动代理给打开,然后启动代理当中的那个端口号需要设置成跟你的魔法的端口号一致。 然后呢你们去使用外网的一些东西的时候呢,在启动器或者是 com 外环境当中就能很好的去做加载,不会出现网络的问题。好,这边呢环境,呃环境呢?内核版本是这个,另外呢还有一个就是,呃,我们的 插件管理当中有一个叫做 kjlo 的, 这个 kjlo 的 也把它更新到最新,为什么啊?是因为,呃这个 kj 大 佬呢是在对我们的这个 ltx 模型呢去做优化的,那他去扎了一些长视频的一个节点,这些节点的, 所以说呢大家尽量把这个更新一下,然后这个地方呢给大家调了一个啊,就是我们的分辨率设置完了以后呢,包括他的一个视频帧数是要以八整除的,或者是三十二整数的,他官网的一个介绍是他的帧数必须是三或者是八, 被整除以后加上一,因为我们之前做万的时候也是五秒钟的视频是十六帧的话,就是五乘以十六等于八十一帧,那这个地方呢,我为什么要把它设置为八啊? 那如果说设置为五的话,那大家一定要去计算一个他是为八整除的,他的总帧数一定要为八或者是三十二整除的,后面再加上一, 那大家呢这块呢就不需要去动,呃,如果说要改的话呢,在在 y u i 当中呢,我是把它给它设定好了,八十六二十四,那大家可以这样去设置就行了。 好,然后呢网盘当中呢我我会提供一个解压包,这个解压包里面的内容呢,我会把模型和我们的整合包分开,大家如果说去下的话就是不带模型的,你们呢就直接在 呃会有一个这样的一个解压出来,是这样一个解压包,然后呢你们把模型呢就单独放到 comui 里面的 model 里面去就行了。然后呢呃下载下来以后呢就会有一个萨特 bat, 你 们双击去使用它就行了, 至于所有的啊,内核啊,我我都会把它升级。好。那如果说你们自己去通过康复 ui 下载下来,或者是说通过其他的方式安装到你们的当前环境的话,你们就要有一个解决错误的能力。好吧, 大家我建建议大家用用我的整合包就行了。那本期的视频内容呢就到这了,我们呢就赶紧去给大家去做收尾针和一个数值人的一个方案,然后来分享给大家,大家如果说有什么问题的话可以在评论区留言,我们下期再见,各位拜拜。
粉丝1.2万获赞1.5万

超省心的 ai 音画同步生成工作流终于来了!只要你的显存满足八 g, 就 可以加载 k j 刚刚提炼出来的 g g u f 量化版 l、 t、 x 二大模型,然后输入提示词,点击运行音画同步的二十秒,四 k 高清完整视频就生成了! 先看效果,姐我今天在家睡了整整十六个小时,醒了就吃完继续玩,生活简直不要太爽啊哈哈哈!整体画面流畅不卡顿,配音和口型精准同步,镜头衔接自然,还可以根据需求自定义配音。 它采用非对称双流架构,电视频与音频的同步生成,支持 n、 v、 f、 p 四量化优化,普通家用显卡也能轻松运行原声,支持多种生成模式, i c lars 精细控制镜头和人物。 如果你正在创作 ai 短剧、商业广告或短视频,无论是真实类还是动漫类,你都可以拿去试试,轻松解锁音画同步创作新体验!

你可能听说过 open video, 这是首次有真正的开放权重发布,并且包含了整个技术站模型权重训练代码,而且它能生成带有同步音频的视频。我关心的部分呢? 我正在消费级 gpu 上本地运行它。我们要 chinese local video。 最终是否从酷炫变得实用了?如果这是真的,它将改变工作流程,同步的声音本地控制,以及你真的能买到的硬件。好了, 他们应该能找到。现在我要说的是 ltx 二。你可能听说过这个,这是一个开源且开放权重的模型,你可以立即免费下载和使用。有几种运行它的方法。你可以在本地运行它。我在这里使用的是 comfy y, 但也有其他方法。 哇,你也可以通过云端的 ltx studio 来运行它。如果你没有 gpu, 就 可以使用它们的服务器来运行,并为你生成视频。我现在用的是英伟达 rtx 五零九零现在热得很, 而且它有三十二 gb 的 显存。当你运行大型语言模型或视频生成模型时,它们通常需要大量的显存,所以这个有三十二 gb 算是不错的容量了。我还想在其他几张具有不同显存容量的 gpu 上试试。这些标记并非随意制作。 这是个警告。现在能在本地获得这样的东西真是太疯狂了。因为到目前为止, sora 二和 vo 三一直是生成视频,特别是带声音的短视频领域的领导者。 ltx 二是首个可以在本地运行的开源模型, 而且它在这方面做的非常出色。当然,如果你不想,也可以不生成声音。你可以直接制作视频。不过,虽然 l t x 在 音频和视频同步方面做得相当不错,但它并不是唯一的选择,所以我想把它和另一个叫 w a n 二点二的比较一下。 我们得走了。李奇叔叔已经开启了他的时代。这只是个阶段这只是个阶段。他说他要重塑自我,他在招募陌生人。 哈哈,这个很不错。顺便说一下,这些提示是我用 check gpt 生成的。妈妈彻底放飞自我了, 但是看看嘴唇,同步的多么好。好吧,事情发生了,老妈彻底野性释放了。不,还没有变得野麻。这里有三个角色,他们都有自己的戏份。这非常酷。 如果你好奇,想自己重现,这就是提示。现在如果你放大看,是的,他并不完美,但我还没有找到任何完美的视频生成模型,而且他们在高清状态下看起来足够好,所以这是一二八零乘七百二十。现在他在生成速度方面也做的非常好。 我一直在白弄这个。这正在生成一个十秒的视频。十秒相当不错了,我打算再进一步试试。我们用三百六十一针吧。 所以这就像一个每秒二十四针的视频,针数必须能被八整出后再加一。我不知道为什么,我们来运行一下,所以我在这里关注几个方面,一个是 gpu 在 运行。哇哦, 是啊,这里越来越吵了。那儿正在进行的一些重要的工作。所以这是一个十五秒的视频。一个高清视频分辨率是一二八零叉七百二十。看看他是否能生成一个连贯的完整视频,而不会中断。还有,这得花多久? 现在通常生成完整视频比 open 人工智能的 check gpt 生成图像所需的时间更少。 我可能不完全对,但在叉 g p t 中生成图像需要一段时间。这里面马上就要热起来了。花了一百一十五秒生成这个视频,用了不到两分钟。看看我们有没有什么好笑的东西。好吧,发生了。妈妈完全野性了。不,她没有变得野蛮,她在探索一项爱好。你不明白 她现在甚至都不煮咖啡了。 什么?好吧,这有点奇怪,但开头部分非常棒。 这看起来像是八十或九十年代的电视节目,但即便如此,那也是他们有高清电视的时候。妈妈在那里看起来有点小,但我没有评判。 他站起来,然后开始疯狂的奔跑,变得非常狂野。我觉得总的来说,这非常令人印象深刻。而且这是一个十五秒的视频。现在如果你在哈根 face 上查看 ltx 二,你会看到那里有几个不同的模型。我们刚才运行的是一个一百九十亿参数的模型,而且是 f p 八量化, 所以在英伟达处理器上运行的非常好。还有一个 f p 四版本,正如你所见,它更小,它大约小七个 g b, 而且应该会快一点。 还有一个完整版,大小为四十三 g b。 实际上我能够在五零九零上运行完整版本,但我没有看到巨大的改进,因为我期望更高的质量,但我没有看到,所以 comfy 让你能非常容易的更改这些东西,而不是 f p 八,就用那个吧。 这个可能要抱怨内存不足了,但咱们试试看。顺便说一句,这是原始的微量化 bf 十六版本。各位,这花了一百六十秒运行的是完整的 bf 十六版本,也就是四十三 gb 的 模型。真酷!不知道他怎么实现的,但不知何故成功了。看看这有什么不同? 好吧,事情发生了,妈妈彻底野性了。不,他没有变的野蛮,他在探索一项爱好。你不明白,他现在连咖啡都不煮了。来吧,咬他!咬他! come on! 结尾还有一段小喜剧音乐,所以我不觉得他比普通的 f p 八版本质量好多少,我想再深入研究一下。所以我要把帧数改回两百四十一帧,做一个十秒的视频。但我想做的是一九二零乘一零八零的, 所以是全高清的。我不明白为什么妈妈一直喊着食客,而不是晚餐。哇,真棒!顺便说一下, ltx 二支持文本生成视频,他也有图像转视频的功能,我们将会进行测试。你可能已经看过一点了,这是另一个版本, 这个花的时间稍长,因为它是一个全高清视频。看看,事情发生了,老妈完全失控了。不,他不是野蛮人,他在探索一项爱好。这家伙在抠鼻子。搞什么鬼?他为什么在抠鼻子?他是谁? 好,他把那玩意弄坏了。说真的,就像有个路人随便站在那, 看起来不错。顺便说一句,那个人看起来很像绝命毒师里的鲍勃奥登科科。你能看出来这是全高清的,你可以看到柜台上所有东西的细节倒影,以及外面的树叶。那个冰箱上放了太多东西了。到目前为止,这个模型相当令人印象深刻。现在还有另一个叫做 w a n 二点二的模型, w a n。 就 这么念 w a n 就 得这么说,这就是 w a n 系列中最后一个开源模型。那么这个一百四十亿参数的模型能生成好看的图像吗?是的,确实如此。这是一个例子。 我打算现在重新运行一下美丽的年轻欧洲女子。顺便说一句,这是默认的模板自带的默认提示词, 所以我决定留着他了。这是一个无声的模型哇,所以你只会得到视频输出。所以我们要对比一下,看看这个要花多久。用 ltx 二做完全相同的提示词又要花多久?我们会进行比较,你可以告诉我,你更喜欢哪一个?他还在运行。 我之前唯一一次测试视频模型还是在几个视频前。我不太经常做视频模型测试的原因是它太耗时了。倒不是因为我懒之类的, 但 ltx 二确实正在改变这个局面。我得以尝试了许多不同版本的古怪动画,用于本视频的开头。这还有一个奇怪的 gpus, 但我能够更快的迭代,这非常重要。 好的,两百九十四秒,就是四点九分钟, 时间不短,但这个也是每秒十六帧的视频,所以你能看出来,现在它看起来不错。不仅仅是题材,而且视频看起来也不错。 看起来你知道有头发和微笑,而且看起来像一个真实的视频。看起来不错,不过两百九十四秒。是啊,没有音频。 我们来用 ltx 二试试完全相同的提示词。顺便说一句,我已经运行过了,这是结果。我要再运行一次,因为我没记下这次的时间, 而且他们都是五秒的视频。好的,五十秒不到一分钟,但我们得到了还是同一个人。有意思哦,我根本没有改变种子,那我们来看看。 是的,看起来不错。五十秒,在我看来,这看起来很真实。你觉得哪个更好?这个还是这个?请在下方评论区告诉我。目前这些都是我们一直在测试的文本。转视频模型, 我们来试试徒生视频,我们来拍一个经典场景。如果我们去 ltx 文档,他们这里有一个提示指南,所以我准备直接复制它。 让我们根据下面的图像和我将要粘贴的提示指南转到 chat gpt。 给我一个好的提示词,让角色说些有趣的话。 咱们抓取那张图片,粘贴进我们的提示词。我不知道他会说什么,但我们拭目以待。我想让他稍微长一点。好。两百四十一针,开始吧。七十六,看看我们得到了什么,什么 什么,所以一致性实际上非常好, 而且我们知道他是终结者。他有一些皮肤瑕疵也很正常,对吧?眼镜做的非常棒,透明度是存在的,他们看起来非常逼真。随着时间推移,他的皮肤变得越来越差。但是, 但总的来说,他看起来相当不错,而且他正在进行音频同步。这真是太棒了,而且有点吓人。他在那里谈论他的眼睛缓冲。不同的人工智能之间存在某种心灵感应, 知道这是一个终结者。现在这能在 vr am 少得多的五零八零上运行吗? 二十四 g b, 让我们看看。保持所有设置完全相同,做完全相同的片段。我保留两百四十一帧,因为这是一个十秒的视频,这相当不错, 视频越长,对显存的需求就越大,有两个杠杆可以调整,以利用可用的 vr am。 一是视频的长度,二是视频的分辨率。所以现在我保持视频长度不变,分辨率为高清。看看这张显存较小的显卡是否能处理。 这块 gpu 比之前的安静多了,一百六十八秒。时间是长了不少,但我们来看看效果。我戴这些太阳镜是为了让自己看起来很有威慑力,但说实话,主要是为了让你看不到我的眼睛在缓冲, 有点吓人,更吓人了,所以它花的时间稍微长了一点,但实际上它能够在五零八零上运行。哈,五零六零, 如果真能行,我会非常惊讶的。这个 gpu 只有十六 g 的 显存。 好的,那是五零六零 t i。 不好意思,我说错了,我觉得我们得让他们说点别的,除此之外,我们保持设置不变。好的,这次花的时间有点长,三百二十五秒。 顺便说一句,我尝试的这些 gpu 不 仅 vram 越来越小,而且内存带宽也越来越低,这也导致了我们看到的几代产品之间的速度差异。看看我们得到了什么。我不是说我是英雄,我只是说我一出现 wifi 就 断了。 他为什么看起来像打喷嚏了?而且这听起来一点也不像阿诺。现在除了这些完整的模型,你只需要搜索 ltx。 二、 如果你用的是 comui, 你 可以进行图像转视频、文本转视频,边缘检测转视频,这是来自边缘检测。他们还有这些精简版,占用资源更少,所以你也可以试试那些。完成后,如果你真的想,可以用某种放大器来处理它,给你一个类似四 k 六十帧的版本, 所以这据说是阿诺德打喷嚏的四 k 放大版只是一个可能的工作流程,如果你想的话,你可能还可以使用 copy 工具来进行放大。 现在由于这是私有的和本地的,你基本上可以随意进行视频生成,而且你的数据图像 不会被用于未来训练模型,所以这非常酷,而且我非常喜欢这些在本地运行。现在 ltx 还有 ltx studio 在 线版,它提供了很多其他功能,比如你可以生成视频,生成图像,故事版,视频编辑, 他们,甚至还有音频转视频功能。我真希望这个功能也能像模型一样离线使用,但也许他们之后会发布。我不知道。到目前为止, ltx 二这模型相当令人印象深刻。在评论区告诉我你的想法。如果你已经试过了,也请在下面分享。感谢观看, 我们下次再见!

今天我们来介绍一个视频生成领域的超级模型,叫做 l t x two, 那 这个模型的能力有多强呢?首先呢它是开源的,另外呢它可以同时生成视频对话音效以及背景音乐,那同时呢支持我们的轮廓图,深度图和姿势图的视频到视频的生成。 另外的话就是它原声的支持,视频的放大和增强,所以说呢,生成视频的效率呢是非常高的。那 目前呢, confui 的 官方已经原声地支持了这个模型,那大家呢可以在 confui 官方的簿上看到相关的信息。那目前可以提供给我们下载的工作流呢,有文声视频的,图声视频的 以及视频控制的,包括深度图,姿势图以及轮廓图。那大家呢可以下载这些工作流,然后拖到你的 confui 里边直接去运行。当然还有一种方法,那大家呢可以把你的 confui 更新到最新版,然后呢我们可以点击一下视频的模板, 然后呢我们可以选择视频的工作流,然后在视频的下来列表里边我们勾选 ltx。 二,那这个时候呢,大家可以看到纹身视频的工作流, 图声视频的工作流,以及我们使用 ctrl alt 控制视频生成的工作流。那关于模型的下载呢,大家在点开每一个工作流之后, 在左侧呢有一个非常详细的说明,包括我们的主模型,文本编码器 lora 以及其他的模型都有详细的下载地址。模型下载完之后呢,我们在本地存放的目录结构这儿呢也有明确的说明。那同样我把工作流呢也构建到了 runninghub 上,大家可以通过 runninghub 来访问这个平台。 在 confui 领域, running hub 是 一个非常棒的在线工作台,因为只要有新的模型和新的扩展出现,它都会第一时间跟进。大家可以通过我视频描述区的邀请链接来注册 running hub, 这样可以获赠一千点的免费点数。另外你每天登录 running hub 也会有一百点的赠送,这样你就可以尝试你自己的工作流了。那在这个视频当中呢,我们会详细给大家讲解五种工作流,其中包括文声视频、图声视频, 使用 content 来驱动视频的生成,这里面包括轮廓图,姿势图和深度图。下面呢我们先看最简单的纹身视频的效果,我这有一段提示词,那这个提示词在描述一个科研人员,他按动一个红色的按钮,然后 引爆了一个未知的装置,那我们看下最终生成的效果,大家注意啊,这个生成的是自带背景音和音效的,那我们来听一下 may they forgive us。 通过生成的效果大家看一下啊,质量呢是非常高的,那现在的分辨率呢,是一个幺二八零的分辨率, 但是呢,这个工作流呢,相对来说呢是比较复杂的,所以说呢,大家在分析这个工作流的时候呢,必须有一定的思路。首先呢大家注意啊,这个工作流呢分成两个部分,第一个部分呢就是我们的第一阶段采样,主要负责基础视频的生成, 而第二阶段的采样呢,主要负责放大。那其实后续的工作流呢,基本上都是这样一个结构,而且在放大采样的工作流的构成呢?呃,基本上也是相同的, 而这里边最关键的其实是我们的 later 的 生成,所以说呢,大家关注这两点,在理解工作流的时候呢,重点找这个区别就可以了。好,下面呢,我们就逐一给大家解析一下。首先呢,我们先看一下主模型的加载,同样是模型的三组件, 那在这儿呢,我们通过一个变量的形式指定了主模型,那这个模型呢,是 l t x two 的 一个主模型,而且是一个 f p 八的版本儿,那我们看一下左侧的这个说明,那我们把这个模型下载完之后呢,是要放在 checkpoint 目录里边儿, 那所以说呢,我们加载这个主模型的时候,用的是 load checkpoint, 而不是用 load default model, 因为呢,它里边是自带 ve 的, 那有人说你这为什么还要加载另外一个 ve? 那 这就是我们需要注意的第二个部分, 在整个的这个工作流生成的内容,大家一定要注意,是两条线路,一条呢是视频生成的线路,一条呢是音频生成的线路,所以说呢,这跟我们传统的模型呢,也是不太一样的。 而我们这儿加载的其实是一个音频的 ve 的 编码器,而我们视频的 ve 的 编码器呢,其实是放在 checkpoint 里边的。 那下边最关键的部分,大家需要理解这个 later 的 生成的一个机制,那我们看一下,在这儿有这样一个逻辑,首先呢,我们先生成一个空的图片,那它的分辨率呢是幺二八零乘以七二零,这就是我们最终生成的分辨率。现在呢,我们先要把它缩小到原来的一半, 那为什么要这样做呢?其实很简单,因为呢我们最终生成的这个分辨率呢是幺二八零的, 但是呢我们这经过了一轮放大,而我们用到的放大模型呢是一个两倍的放大模型,那所以说作为辅助 latent 的 生成的这样的一个参考图片,那我们先需要把它缩放到原来的一半, 来进行第一阶段的采样,下面呢我们来获取到它的宽和高,然后我们设定一下生成的总帧数,这是一百二十一帧, 那下边呢就是生成一个 latent, 那 这儿呢,大家要时刻记得我刚才提醒大家的内容,那 ltxtwo 呢,它是有两条线的,一个是音频,一个视频,所以说呢 latent 也是有两个,那大家可以看到我们使用这样一个节点生成了一个空的视频的 latent, 那 这个是空的音频的 latent, 我 们现在把它联合起来,那再往下边呢其实是我们的提示词,然后我们使用 ltxv conditional 这样一个节点,把它生成正向条件和反向条件。 下边呢就是我们的第一阶段采样,那第一阶段的采样呢,我们使用了一个高级的采样器,那种子呢现在是固定的,当然呢你也可以选成随机的,然后呢是我们的 c f g, 我 们需要设定 c f g 的 值啊,现在呢是四点零,所以说呢反向提示词是起作用的, 然后呢是我们的彩样器,再往下面呢是 sigma。 看到这个节点,大家应该都知道我们为什么要使用一个高级的彩样器,因为呢这个是一个 ltxv 专属的调度器,所以说呢,我们必须使用这样一个节点来生成一个 sigma, 然后连到我们的高级彩样器里边儿,这样才可以使用。经过彩样之后呢,我们需要执行一个 latent 的 拆分操作,那拆分的目的当然是把音频和视频呢给它分开完了之后进行我们的第二阶段彩样。 第二阶段呢,我们使用了一个蒸馏模型,当然是为了加快彩样速度的,那这儿呢使用到了一个放大模型, 这个放大模型呢是一个标准的两倍放大模型,也就是说在这儿你不用指定它放大的倍数啊,它默认就是放大两倍。然后我们把第一次生成的 latent 经过处理之后,再一次进行采样,那这次的采样呢,跟之前呢就稍微有些区别了,那区别呢主要在这样两个地方, 第一个呢就是我们的 c f g 值的设置,那这里边呢是一点零原因就是因为我们这儿使用了蒸馏模型,再往下边就是 sigma 的 设置,那在第一阶段的 sigma 设置里边的话呢,我们其实是专门的一个节点, 而在第二个阶段采样里边是手动地设置了一些值,大家看一下,然后呢这是我们的采样器,大家注意啊,这个 latent 在 进行采样之前呢,需要先把音频和视频再一次给它合并起来,采样完了之后呢,我们再把它分开,然后分别进行解码, 解码之后啊,我们在生成视频的时候,再把它放到不同的输入里边啊,就可以得到我们最终的视频了,那这就是整个的工作流在纹身视频里边呢,我们觉得 l t x two 表现的是非常棒的,所以说呢,我也做了很多的测试。 第二个工作流展示的是一个夜幕降临下的梦幻的大桥的场景,再看下这个质量呢也是非常高的。第三个呢,其实是一个人物的视频,在提示词里边呢,我们会看到它 会低声的说, i miss you。 然后呢有一个比较伤心的表情,然后呢他会继续说, i hope you are doing good。 那 我们重点就看这个声音的这个设置是不是起作用, i miss you, i hope you are doing good。 呃,整个的这个提示词描述的关键的音频的内容在这呢也是得到了非常好的展现。那第四个例子呢,其实我是测试了一个非写实类的场景, 大家看一下这个屋子里边呢,有几只青蛙,那同样呢也是有一些对话设计在里边了,我们听一下 one with the mud we are one with the flies。 大家可以听到整个场景的设计呢,也是非常有意思的,那通过这四个视例足以让我们看到啊这个模型的一个强大的地方。 好,下边呢,我们进到图生视频的环节,那图生视频的工作流呢,其实大部分是一样的,那唯一不同的主要是在 latent 的 生成上边,那我们简单看一下,首先呢,我们这有一个参考图, 我们把它缩放一下啊,缩放到了幺二八零乘以七二零,也就是我们设定的分辨率,然后同样我们来获取这个图片的大小,然后用它的大小来生成一张空图片, 其实跟之前是一样的,然后把它缩放到原来的一半,然后生成一个空的视频的 latent, 然后这儿有一个节点, 在整个的图声视频里边儿,最关键的就是这个节点,那这个节点叫做 image to video in place。 那 其实呢,是将我们的参考图片的信息注入到我们的 latent 当中,那在这儿呢,我们需要对参考图片的进行一个前处理, 那我们首先按照它的最长边把它缩放到幺五三六,然后呢我们进行一个图片的压缩,然后我们拿这个图片啊来作为整个 latent 的 一个参考图,并且使用这个节点把它注入到 latent 当中去。 后续的内容呢,基本上是一样的,那我们来看一下我们的提示词,这个提示词呢,写的非常的简单,是一个漂亮的西方美女,然后有着长长的头发,那她首先呢,有一个爽朗的大笑,然后突然严肃地说, it's a secret。 那 我们来看一下最终生成的效果, it's a secret。 这个效果真的非常的棒,那能够如此精确的反映我们的提示词,不管是在画面上还是音频上能达到如此好的一个效果,呃,我觉得真的是非常惊人的。 下边呢,我们进入到第三个部分,第三个部分呢,其实你可以认为是视频到视频的生成,但是呢,我们会利用类似于 controlnet 这样的机制来控制最终视频生成的方式。那我们第一个先给大家看的是 dapps, 那 首先呢,这儿有我之前生成的一个视频,这个视频呢描述了一个调酒师在酒吧喝红酒这样一个场景,那整个的工作流呢,跟 之前的文声视频和图声视频呢,基本上是差不多的,那么它们的主要区别呢,也是在 latent 的 生成上边,首先呢,我们获取整个视频的一百二十一帧,因为我们最终生成呢,只有一百二十一帧。 然后呢,我们对它进行一个分辨率的设置,同样是幺二八零乘以七二零,然后呢,把它缩放到原来的一半 下边儿,最关键的是我们来生成这个深度图,当然深度图生成的方式有很多种啊,那在这儿呢,我们并不是用类似于 content 的 预处理模型直接来生成深度图,而是通过彩样来生成的。那在这儿呢,我们用到一个模型,叫做 lotus, 那关于模型的下载和它存放的方式呢?大家可以在这个笔记里边看到详细的信息。那由于呢,这是一个标准的 s d 模型啊,所以说呢,我们会使用到 s d 幺五的 ve。 那 经过这个采样之后呢,我们会得到一个深度图,大家看一下, 但是这个深度图呢,现在是反着的,那如果你想用的话呢,我们必须把它反转过来啊,也就是黑变白,然后白变黑。所以说呢,我们会经过这样一个节点,叫做 inverse image。 完了之后呢,其实我们就有了一个控制的视频, 那控制的视频呢,我们会连到这样一个节点,大家看一下,叫 ltxv add guide。 那 其实呢,是添加控制信号的,那同样我们这儿会生成一个空的 latent, 那 这个呢是音频的 latent, 然后呢,我们会将这个 depths 的 控制信号加入到这个 latent 当中去进行后续的采样,所以说呢,这就是 content 实现的一个最基本的机制,后边儿不管其他任何类型的 content, 基本的思路呢,也是这个样子的, 那我们来看下最终生成的效果。由于我的提示词跟刚才是一样的啊,所以说呢,还是女孩在大笑,然后突然严肃下来说 is a secret。 但是大家会发现 ltx 为生成人物的美观程度是有待商榷的。好,下面呢,我们看一下 kenny 的 部分。 那同样我们这儿有一个参考的视频啊,是一个美女在微笑,然后呢,我们同样是生成一百二十一帧,分辨率是幺二八零乘以七二零。然后在这儿的话呢,我们用了一种非常简单的方式来获取到这个轮廓图,那用的就是 can 这个处理器。 那下边儿的思路呢,基本上是一样的啊,大家来看一下。那首先呢,生成两个比较重要的 latent, 然后呢,我们使用类似于图声视频的一个节点,将我们的轮廓图的信号给它加入到我们的呃 list 当中去。但是大家注意啊,这个图片啊,是我们获取的第一帧, 同样呢,我们要把整个的控制信号加进去,还要使用这样的一个节点,叫做 l t s v ad guide, 这个跟我们刚才看到的深度图是一样的。那有人说为什么会这样操作啊?其实呢,我们不必深究,因为整个的流程呢,我们是根据官方的设置来的,我们只解释它的可能性。 完了之后呢,我们经过第一阶段的采样,然后再经过第二阶段的采样,那就可以得到最终的效果。大家看一下啊,这个人物的美观性的确是不太好,另外你要注意啊,这个工作流呢,其实是我自己改了之后的, 原版的官方的工作流是跑不起来的,因为这个节点呢,可能是空的,没有连上,但然后续呢,应该官方会有一个修正, 但是呢,我觉得大体的思路呢,就是这个样子。那最后呢,我们来看一下姿势的控制,其实呢,基本的思路差不多,那我们的原视频呢,没有任何的变化,然后呢,我们使用 dw openpos 来获取我们的姿势图,关键还是在这个地方 latent 的 生成, 这里边呢,我们同样使用 ltxv at guide, 然后将我们的控制信号呢给它加进去,进行后续的采样。那由于它本来生成的人物就不好看啊,所以说在这个提示词里边呢,我换成了一个四十岁的老男人,那我们最终得到的效果呢,就是这个样子的, 大家看一下啊,挺呆萌的是吧,那这就是我们今天给大家解析的五个工作流。这五个工作流里边,大家注意这样几点,第一个它是一个两段的采样, 第二个它所有的生成呢,分两条线路,一个是视频,一个是音频,另外就是大家掌握住所有的这种 latent 的 操作的方法啊,就可以知道啊,在不同的生成场景啊,不管是图声视频 还是纹身视频,还是我们视频到视频的生成啊,大家都能够把这个工作流呢捋得比较清楚。那总体上来讲呢,本节视频的内容呢,还是比较多的,大家呢回去之后可以自己尝试一下。好,今天呢,我们就说这么多,关注我,做一个懂爱的人。

lt。 叉 two 模型现在已经开源,它突破了以往能够生成的画面限制,直接将视频和音频生成融为一体,实现了从文本直接生成带声音的完整视频片段,而且质量非常不错。接下来大家来看一段效果演示。 你确定这次的计划不会又出问题?当然不会,我已经检查过三遍了,你上次也是这么说的。 are you sure this plan isn't gonna go wrong again of course not i've checked everything three times haha, that's what you said last time。 小 梦今天有没有好好上班?我猜他今天说了不止一次要辞职了。 想要学好空腹 e y。 应该找谁啊?我觉得啦啦啦的小黄瓜讲得非常不错。好啊好啊,这就去向以看看他的视频。一贯记者三连,你每次都这样自以为很聪明,其实根本不管别人怎么想,我不管。 那你昨天为什么一整晚都不回消息?我只是不想让你担心而已,可你不说,我可会更担心你不能别总是这样,要是我能做到,就不会站在你面前了。 confus mind grenville, two tall matt is like twokie koo jeff ey dave is a washing misery of shades ben i k today i achieve perfection golden edges soft center the gods themselves will smell these cookies and weep wait did i forget the chocolate chips nope you forgot the i didn't do it i didn't do it i'm not a murderer i'm telling you i have a feeling something is off with this kid though。 想要深入学习康复 ui 的 同学欢迎加入小黄瓜的知识星球星球汇聚了两小时入门、十二小时进阶工作流竹节点拆解等高质量课程, 后续持续更新 lara 训练康复、 u i 云端教程等实战内容,每节课后有客户作业答疑群和每月直播辅导,进阶学员可参与 u i n o 的 攻坚计划,实现技能变现。 内容丰富,感兴趣的小伙伴可在视频剪辑区联系小助理获取优惠加入。话不多说,我们直接开始本节的内容。好的,那么 l t 叉 two 模型现在已经开源了, 今天的话我就是大概给大家讲一下怎么进行一个本地的安装还有使用哈,那后续的话,我会尝试把它做到我们的云端当中,到时候我们再在云端里面使用,并且去进行一些更详细的分析。那么今天呢,就只是大概给大家看一下效果, 片头的话,大家已经看到了该模型生成的视频质量非常的不错,而且呢特别是在动画片的领域,同时呢它还能生成音频,并且在工作流内部呢,已经做了一些优化策略,生成视频的速度也是非常的快的。那么我们先看一下这个工作流的一个效果, 现在这个工作流里面我写的提示词呢,就是一个三 d 卡通风格,欧美的风格,然后提示词写的是一个对话,然后一个人说学 come on 应该找谁,然后这个人说找啦啦啦的小黄瓜,然后他说看完之后我们记得去三连, 我们看一下最终的效果哈,这个视频我们设置的分辨率是一九二零乘以一零八零的,基本上就是一 k 的 一个分辨率啊,非常的快,然后一共二百五十六帧,二十四帧每秒,我们最终这个视频的时长呢,是十秒左右, 生成的时间可以看一下我的后台哈,这个是实测的哈,然后前半段我们用了四分零六秒,后半段用了两分十七秒, 后半段的三步呢,是为了完成视频的一个放大,放大到我们对应的分辨率。第一步生成的时候,用的分辨率是原分辨率的一半,也就是一九二零乘以一零八零的一半哈,那这个工作流呢,我们一会也会大概分析一下,来看一下最终的结果哈。 阿拉拉的小黄瓜讲的非常不错,好啊好啊,这就去向以看看他的视频。一贯记者三连,想要学好空腹又,那这里呢,似乎没有凸显出对话的内容哈,这个时候给大家讲一下在我们写题词的时候的时候的一些注意事项哈, 如果说我们在写对话的时候,你加上了引号啊,比如说这样的一个双引号,那么这个双引号有可能导致最终生成的视频是带字幕的,所以说这个双引号我推荐大家把它删掉。 然后其次的话,对话的话尽量是用英文去写提示词啊,比如说这个角色把它这句话改成英文,把这句话也改成英文,然后后面的字呢,可以用中文给没问题,它能够识别 提示词呢,也能够通过中文给出,但是通过测试发现,用英文的提示词质量会相对比较好一点。那么这个模型的显存占用呢?现在还是一种比较模糊的状态哈, 因为我在做纹身视频的时候,如果用 l p 八的模型,我跑过一二八零乘以七二零的分辨率,五百一十二帧,也就是整个二十秒的视频单次生成是能够直接出的。 那现在的话,我用的是原始的模型,没有经过量化的 l t 叉 two 十九 b 单位模型,然后呢给的是一九二零乘以一零八零的分辨率,也就是一 k 的 分辨率,然后这里给的 lance 呢,也就时长是二百五十六帧,也就是十秒的视频也是可以出的,但是在图声视频的时候,显存可能占用比较多 啊,图声视频的时候大家再考虑哈,那这个呢,就是我们当前的一个工作流哈,然后模型的话已经在网盘里面给大家提供了,大家可以在视频的简介区打开小黄瓜 b 站资料分享,然后给大家讲一下这些模型怎么下载,以及下载了往哪里放哈。 然后在这个网盘里面有一个 l t 叉 two 模型以及工作流,双击打开,这里有个 models 文件夹,然后每一个文件夹的名字不需要去改,直接把四个文件夹下载,下载完之后直接把它复制到 comui 对 应的目录里面就可以了。在 comui 对 应的 models 目录里面, 比如说这个 textencounter, 你 就放到 models 对 应的 textencounter 文件夹在这里,那如果是 checkpoints, 就 把它放到 checkpoints 对 应的文件夹,等于说我们挨个进行一个放置就可以了。 然后看一下里面的模型, textencoders 就是 lt 叉 two 模型,用到的文本编码模型是 jama 三十二 b 的, 只有这一个直接下载就可以。然后 checkpoints 当中是 lt 叉 two 对 应的 lp 八的模型,给大家上传的是 lp 八的哈, 一会的话我会把这个没有量化的模型也上传一下,大家按需进行一个下载,根据自己的显存哈,十六 g 也是可以使用的哈, 或者说二十四 g 的 显存,三十二 g 的 都是可以使用的哈。然后接下来是这个 lores lores 里面给大家提供了一个十九倍 distill 的 lores 三八四,这个大家可以下载一下,可能是生成视频的速度会有所加快,这里的工作流我是没有使用的哈,然后呢,这里有个 latent obscure models, 提供了两个模型, 一个这个 s p a t i l 的 模型是在图声视频时候做前空间放大的,也就是第二步的放大,然后第一个 temporal upscale, 这个是在我们做纹身视频的时候做的一个前空间的放大,所以说这两个呢,大家都可以下载一下,在纹身视频和图声视频的工作流当中可以用的。那么当前这个工作流呢,我们来做一个简单的介绍哈, 主要给大家讲一下在哪些地方设置一些怎么样的参数,然后最终完成我们视频的生成,包括每一个阶段它完成了一些什么样的任务哈。 文声视频和图声视频两个工作流基本上是类似的,他们的区别呢,就只是我们需不需要上传手阵参考图,还有加载的那个第二部的放大模型的区别,除此之外呢,他们两个基本一致,那么我们就基于文声视频的工作流给大家大概讲一下啊,那么当前这个工作流我们可以分成两个阶段啊, 这是前面我们第一个阶段啊,可以理解为就是我们视频的一个生成纹身视频,但是是一个初步的视频生成啊,比如说我们设置的想生成一九二零乘以一零八零的分辨率,那么前面这一部分会给我们生成一个一九二零乘以一零八零除以四的一个分辨率,也就是九六零乘以五四零的一个分辨率哈。 然后第二步呢,是完成我们分辨率的放大,放大到我们指定的这个分辨率,也就是把九六零乘以五四零放大到一九二零乘以一零八零,那么图声视频也是这样的哈,那么我们接下来看一下每一个模块内部的一个作用哈,主要讲解一下它的一个核心的,就是说设置参数的问题,包括跟之前视频生成模型的一些小区别哈, 这里的 l t 叉二,它是一个合并的模型,它里面包含自带的 clip 模型, v a e 模型以及它的扩散驱动模块,所以说这个 l t 叉二十九 b 代位模型,大家要把它放到 checkpoint 文件夹,就是三个一起加载。 如果这一块有疑问的可以看一下我们上一期视频,因为刚讲过,也就为什么模型放到 checkpoint, 为什么有的分成了三块加载哈,然后放到这里之后呢?我们三个节点需要加载相同的模块,上面这个节点用的是 v a e, 再下面这个用的是 clip, 那么这些呢,它是需要合并一起加载的,那在工作流当中,大家只要模型放置进去之后,然后按需选择就可以了,这里就输入我们的正向提示词,还是之前说的 提示词书写,它有相应的一个指南,大家可以看一下你在哈根 face 的 官网,也就是 l t 叉 two 的 官网往下拉,你可以看到有一个提示词的指南, 如果说大家想要生成更优质的视频的话,那么可以自己去分析一下这个提示词的指南哈,我会把这个页面呢贴到我们视频的下方, 大家打开之后呢就会到提示词指南的这个官方给的一个网站,这当中呢会有你使用的一些方式,比如说你要想充分发挥 l t 叉二模型的性能呢,一个好的提示词就直观重要,比如说你要描述出一个完整的故事图,也就是从头到尾自然流畅的包含你想要的所有元素。然后这是官方给的一些案例,我们可以看一下, 那这是第一个案例,然后呢这个是第二个案例,这是给的官方给的提示词,大家也可以直接复制粘贴去生成一下。 然后下面呢是其他的一些指南,那大家可以在这个页面里面去进行一个学习哈,然后我自己测试下来,就是如果你加了引号,他可能出现字幕啊,字幕这一块大家记得 屏蔽掉,因为他生成的文字好像并不太好。然后呢在这个位置我们需要设置一下生成视频的分辨率,然后空图像就是我们最终生成视频的分辨率, 我在这里设置的一九二零乘以一零八零,大家也可以一二八零乘以七二零进行一个生成哈。那么接下来这个愣死设置的是你视频的总帧率哈,我这里总帧数我这里给的是二百五十六,也就是大概十秒,后续这里有个 frame rate, 上面这个你可以理解为是视频的帧率,下面这个理解为是音频的帧率,那么他们两个一定要相同,这样的话音化才是同步的,如果这两个值不一样,他是不同步的,所以说这两个值大家一定要给一样哈。然后这里是采用的步数,我们一般情况下不需要去改哈,如果你想做测试的话,可以自己修改一下,测试一下, 然后后面这一块就加载我们对应的模型就行了,这里是 distyle 的 lora 模型,在进行放大的时候做加速的,然后这个就是我们分辨率做两倍的一个放大,然后接下来这些就是我们最终视频的一个合并,这些内容也不需要改,那么这个工作流呢,也在网盘里面给大家提供了哈, 那这个呢,就是我们纹身视频工作流的一个大概的简单介绍。然后大家在用之前呢,需要更新一下康复 ui 哈,把自己的康复 ui 更新到最新版, 如果你用的是便携包的话,在 update 当中直接双击这个 update comui 脚本,把它更新到最新就可以了,大家要保证自己的网络没问题。那更新完之后运行工作流,大家可能出现一个报错,叫做矩阵尺寸不匹配的问题,那这个呢,是因为预览模型跟我们的当前这个模型不匹配哈,所以说呢,大家需要把预览关掉,在左下角有个设置, 在设置当中呢,有一个 leave preview method, 也就是 n o n e 彻底关闭,关闭之后再运行就不会出现对应的报错了, 只是说在采暖器的节点我们看不到对应的一个预览过程,就是这样的,那接下来我们看一下,如果说你的 cf ui 更新完毕之后,那么在 cf ui 左上角的 logo, 点击这个浏览模板,可以找到 l t 叉 two 对 应的工作流, 纹身视频,图生视频以及深度转视频,边缘检测转视频等等一系列的,还有蒸馏版,也就是低显存使用的工作流。那么在 l t 叉 two 图生视频当中,我们点开看一下康复 ui 官方提供的工作流,中间是一个组节点,所以说我们需要把它拆开才能看到所有节点的一个内容哈,把它拖到后面, 然后我们右键这里有个 unpack subgraph, 也就是拆开当前的节点,拆开完之后把它拖到下面,可以看到这个工作流跟我们刚才的纹身视频工作流基本是一致的,那这里我们就不做多讲了,里面的线呢,我们不要随便去随便的去动它,只是修改一下模型,然后上传一下你的图片就可以了, 然后在这里输入提示词,直接运行就可以生成。好吧,那这个呢,我们现在就先不讲, 后续的话会出一些更加详细的教程,包括一些使用指南,以及更优质的一些参数设置,包括后续我们可能还会再更新 lo 二模型的一个训练等等一系列的内容。那今天这期视频呢,就先教给大家怎么去进行使用 好吧,然后包括一些必要的资源的来源,比如说我们这里可以看到提示词的书写指南,然后以及在 heggenface 上面去下载其他的量化模型,比如说 l p 四的, l p 八的 及单位煤精量化的,还有 disco, 也就是蒸馏过的这些模型也就是在七八步的步数上,然后在一的 c f g 上可以完成我们视频的生成等等一系列的内容。那么这些呢,大家可以在哈根 face 的 model card 里面看到, 比如说这里它会有一个 model checkpoints, 它的一个简介,然后这里呢会有一个全量的,然后或者说 l p 八的,然后包括这些八步,还有 c f g 为一完成视频生成的。那么这些呢?提速,但是会影响质量,所以说大家按需去进行一个选择,以及下载 那么这个 happy face 的 网站以及提示提示指南的网站,以及我们已经分享的模型,然后以及工作流都会在视频的简介区给大家贴出来。那今天这期视频呢,我们就先讲到这里,感谢大家。

因此,今天正式发布要 tx 二整合包,并完整展示其工作流的实际使用方式。在理论条件下,十二 g 显存具备运行可能,但本次测试全部基于十六 g 显卡完成,显存低于十二 g 的 用户可以直接观看视频。后半部分关于 lxt 二的 api 工作流内容。 这是我整理完成的一件整合包,显卡性能不足或无显卡的用户可以使用 cpu 版本,该版本内置要 tx 二的 api 工作流。 十六 g 以上显存用户使用最新视频开源模型。整合版本内置要 tx 二模型的完整工作流,仅进行图片生成的用户可以使用最新图片开源模型。整合版本内置 zem 模型及对应工作流。 由于视频版本文件体积较大,我对整合包进行了分卷压缩,请将所有分卷文件下在至同一文件夹内,仅需使用七 z 解压零零一文件即可正常使用。 根目录下的 work flows 文件夹存放的是全部工作流文件。当前整合包紧内置蒸馏版本模型,因此在默认环境下只能使用对应的 distil 工作流。 distil 就是 蒸馏的意思,代表在完整模型能力基础上进行压缩取舍,以换取更低显存占用与更高推理可行性。 这一取舍基于实际硬件条件判断,大多数用户的显卡只能稳定运行该版本模型。如果你的显存条件较为宽松,可以自行下载完整版本模型,并用于匹配对应的 f 工作流。使用 f 指完整模型版本保留全部参数与结构, 以换取更高的画面上线与持续一致性表现,同时对算力要求极高,至少需要二十四 g 以上显存才能稳定运行。我们先来看 t two v 工作流。 t two v 是 text to video 的 缩写,用文字生成视频。 进入工作流后,第一步是在 check box 的 选择模型。

社区首个真正开源的音画生成模型 l t x two, 能够在一次的生成当中把视频和音频呢同时做出来。姑娘,我手机说我未识别到人脸,那我这张脸去哪了?你把金托上的手指拿开就行。明白了,我这张脸不是不值钱,是被我毛纸抢了镜,哈哈哈。 这里是落云宗,他们已经发现我了,不能再停了。那么之前我们也有 obi 这样的工具,但是明显 airpods two 要更强一些,更加的接近于 vivo 三。这不是番茄酱, 这是雪天呐!这个直式拉丝也太犯规了吧,明底外脆里软翻才又酸又香,真的很好吃。这一片完全停不下来。感兴趣的可以看到该项目相关的讯息。除了纹身视频和涂身视频之外,它也是支持控制的。 this time it's ahead of the jump shot the first shock is still it's still raining。 如果想进行更高精度,更高分辨率的推理,这性能是一个巨大的挑战, 所以我已经把它给打包成了一个镜像。进入优云智算平台,找到对应的镜像,点击部署实力。 l t x two 这个地方呢? com 以外官方是支持了的, lakes 官方呢,也支持了,它使用的是 comfyyrtx video 这样的一个插件来运行的相对的流程。该镜像可以运行这一十点它们两者所有的视力流程 说明书往下拉,找到一键启动的指令复制。这里呢?如果我们仅仅只想测一下,我们可以租用四十八 g 的 四零九零 跑康匪以外的设计流程是没有问题的。我这里为了生成一零八零 p e 以上甚至说二 k 的 视频,直接选择租用 a 八百也是一个,也是四十八 g 版本之上最具性价比的选项了。点击立即部署进控制台实体列表,进入 jupiter lab, 打开终端, 粘贴启动指令,直接回车,出了地址之后回过来点击即可进入康复 y, 在 左侧选取对应的工作流就可以在线运行。下面的五个工作流都是来自于康复 y 官方的, 先从官方的看起,那么第一个是纹身视频,纹身视频呢,我们需要输入文本,那么这个文本应当遵循一定的规范,可以去参考官方的题诗词指南, 不用看的特别详细,可以全权的把整个页面复制发送给大元模型,让他帮助我们进行书写。大模型这个地方选择 f p 八,更加去节约显内存的占用,不选 f p 八的就是四十多 g 的 模型,也更是性能 l t x 九官方这个地方呢,是给到了有一个蒸馏模型的,在蒸馏模型下,我们可以以更快的速度来获得结果, 蒸馏更低的步数,更低的精度都会降低我们对于性能的要求,设置一下视频的宽高,宽高应当为三十二的倍数加一, 那么帧数呢,应当为八的倍数加一。关留这个地方我几乎没有做任何节点上的改编,那么默认的应当是二十四帧,或者说二十五帧为一秒钟,想要去生成十秒钟就得是二百四十个帧左右吧。 尺寸这个地方他是做了一个零点五倍的缩放的,所以这个一零八零 p 就是 对应的我们出来的视频的宽高,因为后面我们不出浅的空间呢,是做了一个放大的, 尺寸会翻倍。这个纹身视频呢,我所生成的结果呢是非常的好的,与欧比相比的话,其实已经强了特别多了,一个呢是支持中文,再一个呢是足够清晰,纹身视频在同一场景下的一致性保持良好。 然后我们看到康复以外,官方的图身视频加载图像设置提示词设置一下,视频的宽高以及长几乎与纹身视频完全一致,多了一个输入像图像。官方这个地方给的三个视力流程当中,是支持开眼深度和 pose 的 控制的, pose 控制这个流程当中呢,需要加载一个视频,用来去进行骨骼的检测,设置身数,那么获取尺寸,这个尺寸呢是以至长边一二八零来进行约束。 在初次生成过程当中,官方这里是进行了零点五倍的缩放,为什么要强调初次生成,因为在不出潜在空间这个地方,他进行了一个两倍的空间上的放大。最后我们出来的视频呢,就是一个七二零 p 的 结果, the top rings ahead of the jump shot。 那 么昨天我们才对这个人偶来进行了 one 的 渲染测试,那么明显 a r t x 的 这个要更强一些,租赁 a 八百的话应当是能做到二 k 的, 那么这个最大尺寸就可以放到二五六零, can 和深度这两个流几乎是同理。那么可以非常明确的告诉大家一个结论,我们使用微蒸馏的模型, 在控制的任务当中尽参考图像,才能够获得相对比较好的结果。接着我们来看到 lyrix 的 部分, lyrix 部分的这个视频到视频的生成是可以做视频的放大的,加载视频,然后呢以至长边为约束 做视频的放大,这里的话一九二零为最长边的话应该就是一零八零 p。 那 么也可以非常明确的说这是几号?现存的 奈克斯的纹身视频,基本上与官方的流没有特别大的差别,提日词宽高、长度和帧率, 图身视频就多了一张图像的加载, i c o r 这个流物对应的就是官流当中的概念深度和 pose。 所有的模型我都已经配齐了,可以直接运行。 在进行生存的时候,可能有一些需要注意的地方,它的流程当中默认是有一个提示词的增强细化的。 个人的见解是,我们让大圆模型去写完题日词之后呢,直接输送进来,把这个题日词的增强直接给他删除掉, 是真的需要消耗较长的时间。在这个流程当中,他的视频的宽高是以智商边为一九二零作为约束,然后零点五倍的缩放送到 list 当中,作为渲染视频的宽高,那么最终视频的宽高应当为一零八零 p。 这个设计流程 like 是 错了一点地方的,应当是裁剪这个地方要给它关掉,不然它会给你直接裁成一个一九二零宽高的方块,帧率和帧数都不用 来自于我们的原视频。那么相信和大家一起看了这么多流程,从快速启动上来说,大家应当能够非常轻松地去加载图像,填写视频的宽高长以及提瑞词了。

诸位请看这款女王香水,香韵典雅脱俗,留香持久,迷心喷上,即刻化身优雅主宰。哈喽,小伙伴们大家好,那么 ltx 二呢,它也出了这么多天了,社区的热情非常高啊, 那么现在就是说呃它的链单呢,也可以正式的被支持了,就是在这个 ai two kids 啊,你在这边看一下啊,那么现在正式支持了 ltx 二的这么一个 low 二的训练, 那么这个训练怎么做呢?啊,我们先做几个准备工作啊,第一件事就是需要把我们这个呃 ai two kid 啊进行一个升级啊,升级到最新的,最新的也是支持了用图片来训练这个 ltx 二模型哈, 那么升级以后呢,它可能会报一个你的 diffuser 的 版本过低,那么如果你的这个呃训练包呢,是一个整合包,自带拍摄环境的,那你就可以去呃直接在你拍摄环境里去更新, 如果你这个训练包是虚拟环境呢,那就需要进入虚拟环境去更新的 diffuser 啊,那就可以用了哈, ok, 那 么打开以后呢,我们就可以进入这界面,以后呢,就是还是跟我们之前的那个这一妹子的训练很接近啊,就是说我们可以把我们这个训练的名字写上,然后选择我们的显卡,然后我们的触发词写上, 然后这里呢选择我们的模型啊,选择这个视频的 ltx 二,这里有一点要注意啊,我们需要下载我们 ltx 二的一个全量模型,全量模型大概八十多个 g 啊,我已经放到网盘了,大家可以去下载。 那么下载完这个全量模型以后呢,我们需要把这里啊,就是一个目录的一个路径啊,我们需要把我们刚才下载全量模型这个位置啊,把这个路径给它复制过来,然后粘贴过来啊, 那么这里还有两个重要的参数啊,就说如果你的显存低于十六 g, 你 得把这个 lo vran 打开哈,就是低显存模式打开啊,或者还有就是把这个新的一个参数啊,就是这个分层卸载给它打开哈, 那分层卸载来呢,我们能看到它这边有两个选项,一个是 transformer, 一个是 texencoder 哈,我们可以把 texencoder 整个全部给它卸载掉啊,变成零,那么这个时候它的显存占用大概不到十六 g 啊,十三四 g 就 可以练, 虽然会有点慢啊,虽然很慢,但是说至少能练哈。然后这里呢量化,这边呢,我们上边这个 transform 不 用管啊, taxencoder, 我 们如果低显存可以选择四比特量化啊,选择四比特,后面呢就不用动了哈, 这个练的是个 lara, 然后 rank 三二或者 rank 六四,你自己去设置就可以了。然后这里呢,就是按照每多少步是保存一次啊,一共保存多少次啊,保存多少次, 然后这里也就不用调了,这里把这个 cash tax on, tax embassage 啊, tax embassage 给它打开哈, 还有就是接下来是我们的数据集的一个选择啊,数据集其实跟 z 一 样啊,我这本用女王的这个训练呢,就是说用图片练的 啊,没有达标,没有任何达标,当然他也可以用视频练啊,如果用图片练的话啊,我们选择这个哈,用图片练的话,你这边的话 number frames 啊,就是帧数就选择一就可以了。然后呢你可以不带声音,这里是这个选项呢,是带声音的哈, 你可以把它关掉,然后图片的尺寸,比如说我这边选择幺零二四啊,那就可以了。如果是视频的,比如说我刚才用了一段视频的练,那么我们就可以放在这哈选择视频的,然后你的 选取它的一百二十一针,然后把我们的声音也带上,这样的话它是能够练角色这个声音的啊,然后这里就可以把我们这个五幺二打开啊,就不要用幺零二四了,因为可能会爆啊, 下面就是我们这个,呃,就是怎么讲是样彩样视频的这样一个生成,就是说他跑的时候呢,他会给你每隔多少步呢?去设置一个彩样的一个视频,就是让你看看它的效果怎么样啊?这里如果说大家那什么的话啊,就是急的话,可以把它完全关掉啊,就是把这个 disable sampling 给它关掉啊,给它关掉, 然后这里正常设置我们的一个每多少步跑一次,然后是分辨率多少啊?这个分辨率好像有的时候它不起作用啊,我试过了,它好像不起作用,剩下就是我们的 c, f, g, 还有帧数,还有帧率,还有这个跑多少步啊,还有我们的提示词, 然后呢我们点击这个啊, create job 啊,再点击这个运行就可以了, 那么它训练的话,在我这五零九零上把这个低显存,还有这个把这两个全部关掉的话呢,大概是七秒一步啊,我一直在找一个参数,是比较能够适合它让显卡 彻底跑起来的这么一个参数,那大概就是说五零九零的话,你可以把这两个都关掉,都不用啊,只把这个斯比特 offload 啊, 给他全部拿掉啊,变成零啊就可以了。那么训练的效果呢?大概是两千步左右开始,你合了,呃,我这边也试了一下,三千步甚至更多的话效果会更好一些,但是我觉得三千步啊到四千步其实应该是不错的了哈。 ok, 那 么这就是这样一个分享啊。就是,嗯,还是我之前说的那个观点啊,好模型的话永远会社区会很有很高的热情去支持他哈,包括我们这个 low 二的一个训练啊,都是非常快的,对吧?你看那个 ltx 二的训练的话, 得到的结果又没有原膜那么油,对吧?又没有说呃,又符合我们这种东方的审美更多一些,对吧?那这就是我们 这样 l t x 二一个 lowra 训练的一个这样一个方式了啊。 ok, 那 么就给大家分享到这里啊。


l t x 二加康非 u i 整合包再次火爆升级, 清晨被闹钟唤醒,推开窗让阳光爬进房间,给自 一键启动,即可全方位体验。 l t x 二以音画同步生成为核心突破, 最新版全面支持音频直接驱动数字,采用了一四 b 视频流加五 b 音频流的双流架构,无论是说话还是唱歌,数字人唇形都能与音频精准,就连呼吸节奏都自然的无可挑剔,彻底摆脱 ai 合成感。 此外,整合包还支持首尾针加中间关键针的联合引导视频声。 大家好,我是光影 ai 大家好,我是光影 ai 画面同步 大家好,我是光影 ai 大家好,我是光影 ai 流畅细腻我是光影 ai 流畅细腻我是风逼真烟在哪里跑?直接拉满去我是风专业级的影视作品 性能方面, ltx 二兼顾质量与效率,在消费级 gpu 上即可本地高效运行,生成速度提升七倍, 减存占用降低百分之六十,大幅降低使用门槛,无论是短视频创作、商业广告还是电影及片段,都能实现高效高质产出,让 ai 视频创作门槛大幅降低,赶紧一起来试试吧!

结果已注定,阁下还在犹豫什么?讨他 a herd delirium, they see heller, gorman mavari send us mine tar。 结果已注定,阁下还在犹豫什么? 点个关注吧,给你们苹果吃。哈喽,朋友们大家好,我是土豆,本期视频的内容我们将给大家分享 ltx 的 图声视频以及首尾帧图声视频这两个工作流。有了这两个工作流以后呢,大家就可以通过 图片啊加上提示词能够控制我们的视频内容输出了。然后呢,我这边呢也会把我们的本地一键启动包呢给大家提供好,这边提供了图声视频以及收尾帧图声视频的这两个功能。 然后我这边测试了一下,在本地去通过启动包去跑的话,能启动的情况下啊,我这边是十六 g 跑满,然后共享内存是跑到了九个 g, 然后他在三千秒左右是能够跑完八秒钟的一个视频的啊,这个地方的一个视频的,然后呢,在热启动的话,就是第二次去加载的话,是在一千二百秒左右,那这是我的一个电脑配置的一个情况, 那也就是说我给大家提供的这个整合包是这样一个情况,同时呢,我也会把这两个工作流放到我们的 running cap 上面, running cap 是 我常用的一个 comfui 工作平台,那你们通过我的简介下面去注册填写激活码以后呢,可以获得一千个 rp, 然后你们通过这一千个 hp 呢去直接运行我这个工作流啊,大概在两到三分钟就能够出来结果了,那这个的话会比你们本地要快非常非常多。那再给大家分享这两个工作流之前呢给大家去说一个消息,就是 在上周呢,就是 nvfp 四的精度这样一个模型呢,它是支持了五零系列的一个显卡, 然后呢他的采用速度呢是以前的 f p 八的两倍的速度,那在其他的系列的显卡上面呢,也是能够得到百分之十到百分之五十的一个提升的。如果说大家有需要这样一个包的话呢,我后面呢会给大家去做兼容,然后去兼容一下我们的千万和 呃,比如说我们的 l t x 二这样的一个环境的整合包出来,看大家是否需要,如果说需要我再去做,因为它的库大版本是需要支持十三点零的,那这个是一个题外化。接下来呢我们来看一下这个工作流,这个工作流的话跟之前有一点区别,就是我们这个地方是加载了图像嘛, 然后这款你们只需要上传一个横屏或者是竖屏,不看分辨率啊,多少分辨率都行,因为我这个地方使用了最长边的幺二八零分辨率,给你们去做了一个调整,然后在这个位置呢,并且把这个分辨率做了一个缩放,就乘以了一个零点五。 那这边如果说你们要去改这个时长的话,尽量的把这个八的倍数,比如说我们改成十六,那改成二十四,这样去改, 就是一定要是三十二或者是八的一个倍数的整除啊,他的一个倍数,然后最后加上一,如果说你们去调整这个增数的话,必须是这样的一个算法逻辑啊。 然后呢提示词方面的话,我告诉大家怎么去写这样一个提示词,如果说大家呃不太知道的话,我们就把上上这个地址, 这是 l t x r 的 一个官方的提示词模板,大家可以去看,比如说我们拿到这样一个提示词啊,这下面是他的提示词,拿到以后呢,我们到呃谷歌的 as 六六里面这个地址,大家可以去看一下。到这个里面以后呢,我们去上传一张图片, 比如说我这个地方有一个图片, 然后我们把这个图片呢呃拖进去,拖进去以后呢,让他啊这个位置我就描述啊,你需要理解这张图片图片, 然后使用 ltx 二模型的规则提示词啊的规则来帮我去创建 图深视频的提示词。以下是提示词啊,以下是 ltx 二提示词模板,那这个模板的话,大家可以自行去选择啊啊,自行去选择这个这个模板,我们就从通过这个位置去获取,然后把它复制过来, 当然大家可以选择豆包,可以选择 deepsea, 都行的。然后呢这个是模板,可以去让他帮我们去创建你想要的一个内容。 以下是我想创想创建的视频内容,那女孩挥舞刀,然后说话说了一句,来吧,赞吧, 好,这样的话就好了,它就会通过这个图片呢帮我们去生成啊 l t x 模板的一个提示词,当然它会给我们准备几套,大家可以拿到这几套呢去呃我们的整合包啊,或者是这个地方去生成, 包括首尾针的方式也一样,大家,但是呃在描述的时候呢,要告诉他是首尾针这块呢,你看他就给到了我们啊这样一个英文的提示词, 拿到这个提示词以后呢,就直接复制进去,到这个地方复制进去,然后点击生成就行了。 好,呃,因为我测试了一下,就是在第一次采纳 二十步的话,可能会,你们可以看一下它的效果可能不会那么好,那如果说想要更好的效果的话,大家可以把这个步数改成三十、四十或者是五十,但是同时的情况下呢,你们的生成的时长就会增长。 第二次采用的话啊,大家可以尝试的去啊增加一些 lowra, 就是 镜头上面的一些 lowra, 因为我这个涂鸦视频没有增加那个镜头镜头 lowra, 我 在我的首尾针里面是增加了的,大家可以把手尾针的一个 lowra 了,可以提供过来。接下来呢我们来看一下那个首尾针的一个工作流,那首尾针的工作流大家可以看啊,我们在模型加载的这个地方呢,是提供了 这个镜头的一个 lo ra 的, 这样的话能够帮助我们实现运镜的方式,他慢慢运镜到那一块的。那这个提示词呢?呃,同样的是可以在谷歌十六六里面去帮我们去创建或者是豆包。那这个位置啊,会有一个情况,就是大家在 使用首尾针的时候呢,第二次踩上以后,人物的脸部会很油,那我这个地方呢,是这个 cmos, 我 就把它调整了一下,是从零点六五开始的, 那这样的情况如还可以去调整,比如说我们调整到零点五,然后慢慢去降,这个地方是四步嘛?这个地方就相当于是四步,然后最后我们可以在这一个位置再接上一个 flash vsr 的 一个高清放大,那这个地方大家可以自行去接啊, 然后这边有一个小经验要给大家分享,我们在使用 l t x r 的 一个生成的时候, 它它的一个视频的质量,其实我们使用近景和特写的人像是能够很好的保证我们的人物一致性和它的一个防止它的视频崩坏的啊。 接下来我们来说一下一键启动包,一键启动包你们解压下来以后呢,就是这样一个目录,但是这个目录下面呢并没有带模型,我的模型 models 下面是空的, 你们要单独把模型呢给它拷贝进去才能,才能够直接点击四大的 bat, 然后启动完毕,它就会自动弹出来这样一个网页。我为什么要把模型分开放呢?是因为有些朋友们在本地呢,它是有模型的,就不用你们重复去下载了,那没有模型的话你们就可以去下载, 那这个地方要注意的是,呃,如果说你们是把环境导入到自己的环境下面的,就是这个工作流导入到自己的环境下面的,我们就需要使用 n b 启动器啊插件里面去安装插件,这个插件叫什么名字呢?就是这个首尾帧的,它叫 t t p。 好, 我们这个地方搜索一下,那就需要安装这样一个插件安装到你们的本地,否则的话就会少插件。 那你们从 roundtable 上面去下载下来的工作流了,可能会出现这个 enter 的 错误, enter 错误的话,我们就需要在你本地去拉一个 enter 下来,这个地方给八,然后呢拉到这个地方去就行了。 那大概的话,呃,出现的错误呢?就应该是这么多,我这边的一个内核是使用的零点八点二啊,这样一个内核。 好,如果说大家有什么问题的话,可以在私信或者是说在评论区留言,我们本期视频的内容呢,就到这了,我们下期再见,各位。拜拜。

兄弟们不用再给 sorry 和 vivo 三花钱了,这个刚刚开源的 ltx 二模型也能做出音画同步的视频,而且一口气最长能输出二十秒,画质最高能到四 k。 我 第一时间去给你们实测过了,用同一段提示词跑了。 sorry 二、 vivo 三和这个 ltx 模型你快点炒你不干,有的是人干! 你快点炒,你不干,有的是人干! 你快来查我,你不该有的是人干!真的完全能够做平替,而且使用也很简单,直接在 comfy 里搜索 ltx video。 第一个就是,不过这玩意很吃配置,准备让你的显卡烧起来吧。

本期教大家如何使用 lts 二大模型去生成无限时长的 ai 视频,你只需要上传一张视频的手真照片,然后呢,分段输入剧情提示词,比如第一段输入剧情,女生在用河南话说种。 第二段输入剧情,女生在用河南话说死鬼 i 不 中嘞,点击运行就能生成一段时常在十秒左右的搞笑视频了。一句话证明你是河南人,中 死鬼而不中嘞而不中嘞。如果你想生成一分钟的搞笑视频,那么你就在这里无限的续下去,输入对应的剧情提示词就可以了。 本期讲的这个 lts 二生成无限时长视频工作流是本杰明大佬昨天刚刚分享的 lt 二大模型的新玩法, 现在呢,我就教大家如何去使用这个 comfy ui 工作流去生成无限时长的视频。首先,跟着我打开 runnyhab, 搜索我的名字电磁波 studio, 点击运行工作流就可以跟着我学起来了, 整个工作流看起来是比较清爽的。第一步,在工作流的左上角上传视频的手阵画面,我在烙的隐秘之节点加载的是一张动漫女主的照片。 第二步,加载 g g u f 大 模型,在这里呢,选择的是 l t s r d c t o 的 q 四 km 版本,有同学测试了一下, n 卡和 a 卡都支持,只要你的显存满足八 g 就 能流畅运行。 第三步,设置常量,在这里呢,你只需要关注四个常量,常量一,设置每段视频的时长,我输入的是一百二十一帧,也就是每段视频的时长是五秒, 最高呢支持输入二百四十一帧。下面两个变量是设置分辨率的宽和高的。最下面的变量是设置重叠帧,也就是两段视频之间重叠的部分。我输入的是时针。 第四步就开始进行每段视频的彩样处理了。先看一下第一次彩样,你需要在 prompt 节点输入第一段视频的提示词,记住,每段视频的时长刚刚设置的是一百二十一帧,也就是五秒,因此在这里写的提示词也照着五秒去写。 我在这里呢,再次强调一下, lts 二大模型对提示词的要求非常的高,因此你要尽可能的把提示词写的详细一点。我写的提示词的大致意思是,视频开头先出现一个男生话外音,再说一句话,证明你是河南人。 女生用标准的河南话立马回答道中。完成以上操作,你就能得到第一段五秒时长的视频了。一句话证明你是河南人。中, 下面是进行第二次采样,这里呢,先进行一系列的数学计算。然后呢,使用 get image or mars rent from bench 节点获取第一段视频的末尾时针。为什么是时针呢?因为刚才你在长料里面设置的重叠针是十。 然后呢,将获取的图像针传给 lts v processor 节点作为图声视频的起始针。 之后呢,你需要在 prom 节点输入第二段视频的剧情。我输入的是镜头,从近景拉到中景。女主用纯正的河南口音在撒娇地说,死鬼 i'm 中雷。完成以上操作之后,你会得到第二段五秒短视频。 死鬼 i'm 中雷, i'm 中雷。之后呢,再用 image bank's extent with overlap 节点把两段视频拼在一起,你看,这里有个参数叫 overlap, 也就是重叠针, 把长量重叠针连到这里,就会自动的将两段视频的首尾之间的重叠的针数自动的给你去重, 再丝滑地拼在一起。另外两段视频的音频是通过 audio convert 节点连在一起的,最后呢,将拼接后的视频和音频连接到右边的 video combine 节点之后,你就能得到一段完整的长视频了。一句话证明你是河南人, 中死鬼而不中嘞而不中嘞,看起来是本事,笑搞把错。如果你想生成无限时长的视频,你就直接复制刚才生成第二段视频的彩样工作流部分就可以了。 你看,我在这里已经复制好了,你只需要在 prom 的 节点输入第三段视频的剧情,然后呢,就会生成对应的视频。再接着,你需要把这个最终输出的视频节点移到下面, 连接好对应的 video 和 audio 端口就可以了。刚才演示的是生成三段视频,如果说你想生成五段甚至十段视频的话,以此类推,复制粘贴,然后在最后一个视频彩样后面连接最终输出的视频节点就 完成了。看到这里,还等什么,赶紧跟着视频学起来吧!如果本期视频对你有所帮助,请关注、点赞、收藏,三连走一波,这里是电磁波 studio, 我 们下期视频见!

希望我在二十岁的时候能够好好的去挑战一些事情,然后呃,让自己多一点能量存在心中。那到三十岁的时候,我觉得 大家好爱折腾的我又出现了。以上你看到的视频是二零二六年首个开源多模态音视频 ltx 负二模型生成的视频。现在看本地电脑实际演示效果吧。 ui 界面有生成步数、视频帧率、分辨率、细节、 loa 等参数。只需上传图片和音频。 把要生成的视频参照图片角色输入提示词,按照图片比例调整好视频的分辨率,裁剪音频长度,然后把视频的总帧数设置好,点击开始生成视频就可以了。拖入一张美女的图片,视频分辨率这里调整为一千零二十四, 听一下上传的音频,音频总长九秒。 希望我在二十岁的时候能够好好的去挑战一些事情,然后呃,让自己多一点,总帧数要大过音频秒数乘以帧率二十五加一就行了。点击开始生成视频, i 终端显示视频生成成功了,自动播放生成的视频。我希望我在二十岁的时候能够好好的去挑战一些事情,然后呃让自己多一点能量存在心中。那到三十岁的时候,我觉得 生成的视频保存到 auto 的 文件夹,来看一下生成的效果吧。 希望我在二十岁的时候能够好好的去挑战一些事情,然后呃让自己多一点能量存在心中。那到三十岁的时候,我觉得生成的视频分辨率是一千零二四乘七三六的。现在再上传一段歌曲 我是你周夫的梦, 修改提示,此为唱歌的女人 缩小视频分辨率为八八零,点击开始生成视频, 由于分辨率降低了,任务管理器显存占用大约六 g 多点,大家可以按自己电脑配置自行调整生成视频的分辨率,出现爆显存就降低分辨率,实时 直接看结果。好了, 效果怎么样,大家说说看。好了,以上就是 ltx 二、整合包生成语音视频的演示了, 更多的参数调节,大家尽情折腾吧。整合包已经上传网盘,想要折腾的小伙伴可以下载折腾一下。我是一个爱折腾各种开源 ai 项目的逗比, 折腾不易,请动动你的小手点赞三点关注一下。好了,今天的视频就到这了,我们下次再见,拜拜!

那今天呢,我们来给大家介绍一个 l t x two 的 特殊的工作流,那我们来看最终生成的效果。 那看到这个视频,可能很多人都能猜想出来,这个工作流呢就是一个 s two v 的 工作流啊,也就是 sound two v 的 根据声音来生成视频。那这个工作流的特点呢,就是我们已经有了一段声音,然后呢我们要为这个声音 来配一段视频,而且呢要达到对口型的效果,我给大家准备了两版工作流,那一版呢就是我们说的在低显存上运行的,那主要是以 j j u f 模型来作为基础的模型运行的工作流。第二个工作流呢,则是以常规的模型作为基础模型来运行, 不管哪个模型啊,它们的工作流的基本结构和流程呢,都是大同小异的。好,下面呢我们就给大家来分析一下这个工作流。那同样我把工作流呢也构建到了 runninghub 上,大家可以通过 runninghub 点三来访问这个平台。 在 comfy 领域, running hub 是 一个非常棒的在线工作台,因为只要有新的模型和新的扩展出现,它都会第一时间跟进。关于工作流的总体结构呢,我们在上一个视频当中呢,已经给大家做了很多的讲解,如果大家不清楚的话呢,可以去看一下这个视频, 那我就简单的把工作流里边最关键的部分给大家说一下。那首先呢,我们的工作流呢是一段采药啊,并没有放大的部分,我们是直接生成一个幺二八零乘以七二零的视频,在这有一个配置项,那有我们的宽高和帧数,那在这个工作流里边最主要的就是这几个模型。大家注意, 我们的主模型和我们的文本编码器呢,是采用 j j u f 节点来进行加载的,如果你要使用这两个节点的话呢, 那大家呢需要安装这个扩展,而且尽量的把它更新到最新版。那这个节点呢,其实是 ctrl y 原生的工作流。我们加载的是视频的编码器,而这个节点呢是由 k j 开发的,它的主要作用呢是用来加载啊 l t x two 的 音频编码器。 大家注意啊,这几个模型的来源呢也是不太一样的,前三个模型呢都是 k j 提供的,后边这个编码器呢,我们是从这个仓库里边下载的, 大家注意啊,我现在下载的呢是这个版本儿,那为什么使用这个版本儿?这因为我们在主模型里边儿用的就是一个 q 四的量化版模型, 尽量的呢让它保持一致。这三个模型呢是由 k 神提供的,我们可以在 default models 里边儿找到我们的主模型。我在这儿呢用的是一个 q 四的量化版,并且是一个蒸馏模型, 而我们的 ve 呢是在这儿加载的。大家注意啊,在四个小时之前呢, k j 重新上传了一版啊视频的编码器,然后呢就是我们的编码器,这个编码器呢其实并不是一个主体的编码器 啊,而是一个 embedding connector。 那 我们同样采用的也是这个蒸馏版,那我建议大家看一下这个 model card, 那 它这儿呢有一个非常明显的标记叫 important, 代表着这个东西非常的重要,重点提到的就是这个老版本的 ve 呢,是有很多的问题的,所以说呢,他把它进行了一个更新, 那它这呢也有这几个节点的基础用法,只不过就是它这用的不是 jjuf 模型,但是关于 jjuf 模型,它这也有一个非常重要的说明,那它这提到了就是它的这种加载方法呢,也是可以加载 jjuf 模型的,但是有一个前提, 这个这只 u f 模型必须包含原数据,那有人说这个原数据到底是一个什么东西?我简单给大家解释一下啊,你可以认为原数据是这个模型的一个说明书, 这里边呢会包含一些基础的信息,比方说第一个就是基本的架构信息,那它会告诉你这是一个什么模型, 呃,另外呢有一些超参数的配置,比方说这个神经网络里边呢有多少层,然后它的注意力的投数有多少?它的嵌入式的维度有多少, 然后它的上下文的 token 有 多少,那另外呢它还会包含一些量化的信息,所以说呢,这些信息呢是非常重要的。那采样的部分呢,我们就不细说了,我这强调两点啊,第一个呢就是我这儿的采样步数是八步,因为呢我是一个蒸馏模型,那同样 c f、 g 的 设置呢,必须改成一点零, 然后彩样器呢,我建议大家选择 l、 c、 m, 别的呢,其实没有什么太大的变化,那这个呢是我们的 video latent 生成的部分,那这是我们的一个参考图,然后呢我们生成一个空的 latent, 然后再把这个图片给它注入进去,基本上就是这样一个思路, 那下边最关键的部分来了,在原来的工作流里边, auditable 是 直接生成了一个空的,那今天呢,我们就会加载一个现有的这个音频的长度呢是比较长的三十三秒, 然后呢我们截取中间的一段,比方说呢,我们就先截取五秒出来,然后呢我们使用 audio in code 把它编码到浅空间, 然后呢我们生成一个 sully 的 mask, 然后它的这个 mask 的 值呢,我们设置成了零,然后把这个 mask 呢给它连到这个节点啊,叫 set later the noise mask, 这个节点呢我们在重绘的时候经常用到,那完了之后呢,我们会得到一个音频的 latent, 直接连到啊我们这个节点啊,把音频和视频连到一块,生成一个最终的 latent, 然后进行采样就可以了,那我们可以听一下这段音频, 那其实很多人在这呢会有一个另外的处理的步骤,就是把音乐和人声呢给他分离出来,那如果你要把人声和背景音乐分离的话呢,基本的处理手法是这个样子的, 最主要的是这个节点啊,这个节点呢就是做分离的,大家注意啊,它的结果呢就是我们的人声和我们的伴奏, 它需要下载一个模型,最终分离出来之后呢,我们只要人声给它连到啊 ltx audio v o e in code 这个节点就可以了。那如果你要使用这两个节点的话呢,大家需要安装 k j 的 一个扩展, 大家看一下就是这个扩展,这个扩展的安装是比较简单的,那这呢也有模型的下载链接,那这是下载完之后的存放路径,那我这呢是没有做这个处理的,因为这个声音的效果大家刚才听到了,他本身就不带伴奏的声音,那经过踩上之后呢,我们会得到一个效果,我们来听一下, 我觉得不管是声音的效果还是视频的效果,整体的表现都是非常不错的,尤其是对口型的效果,但你会发现他口型和这个声音的拟合程度呢是非常高的。 那为此呢,我也做了很多的测试。第二个呢,其实我就把这个视频的后五秒啊,接着又取出来,然后呢我们来看看生成的这个效果, 那这个呢也非常的漂亮。那第三个工作流呢,我主要测试一个东方人物的,那我们来听一下那美女的唇形和他整体的视频和音频的表现,我们就看的更加清楚,那这是最后一个, 那经过这么多实力的测试,大家会发现每一个的表现呢都很棒,那这就足以说明这个模型的能力呢,在这方面是比较强的。 那大家有没有发现我生成的这几个视频有什么特点?我是同一段音频,然后分别取了四段,然后呢生成了四个视频,那我当然希望我能把这个视频连起来,得到一个非常完整的视频,这个呢你可以用任何的剪辑软件来处理一下, 那我们给大家尝试一下啊,那现在呢,我们按照视频的先后顺序啊,把这个视频给它拖到时间轴里边来,那我们可以听一下, 大家有没有发现有什么问题,问题就在于它每一个衔接的地方其实不那么自然,因为你必定是分段生成的, 所以说呢,我建议大家这样去处理,首先呢视频我们拿过来,然后呢我们把这个声音给它分离出去,然后你把你原来的这个声音,甚至带音乐的这个都可以取出来,然后呢我们给它对齐一下就可以,大概是从这个位置,那我们把它剪掉, 那这就是大家最终看到的那个效果。同时呢,我在 running cap 上呢,也给大家构建了一个工作流,但是这个工作流呢,并不是 j j u f 版, 因为呢 runninghub 呢,目前还没有提供比较好的 g g u f 模型,主模型倒是有啊,如果这个没有的话呢,其实 主要报显存是在这啊,那我就干脆就把它替换成了普通的模型。另外呢,我们在这增加了去除背景音乐的这个功能,那它采用的时候呢,我们依然是 c f g 四点零二十步采样,那采样器呢,我依然跟官方是保持一致的,那最终的效果大家可以看一下, the sky is plain blue is a way for you。 那 我觉得呢,这个效果不是特别的好,从目测的效果上来看呢,它稍微有点模糊,也有可能呢是这个参考图片的问题。那这就是为什么我刚才给大家说,我建议大家使用 b g u f 的 模型,和它对应的工作流怎么样?是不是觉得非常的神奇?还等什么,赶紧自己试一下吧,关注我,做一个懂爱的人。

视频,我们来看到 ltx 二人物 lowr 的 训练, ltx 二是一个可以进行音画同步生成的模型,我这里复刻的是,莫非非常有趣? we go east stand aside stop hiding, 可以看到在保持人物一致的同时也保持了音色的一致。我这里使用的工具是 ai two kit, 这个视频我将分享适用于四零九零、二十四 g、 四十八 g 和五零九零这样消费级显卡的训练参数调整,以及线上一键启动镜像的分享。我这里使用的是优云智算平台, 找到对应的镜像,点击部署指令往下拉,复制启动指令。对 ltx 二的选存和六十四 gb 的 内存, 租用二十四 g 的 四零九零是没有问题的。可以进行五幺二分辨率的训练,我这里选择去跑一零二四分辨率的,租用五零九零也是一个比较有性价比的选项,那么算力的话会更强,而且跑一零二四的分辨率恰恰是可以的。点击立即步数, 进入控制台十一列表,等待一下。那么出了这个 gdp 之后呢?我们点击进入 gdp, 找到启动指令,或者说我们刚刚已经复制过了,粘贴过来,回车 出了地址之后回过来点击 ai to kids 就 可以直接进入到我们的训练界面啊。在训练的队列当中呢,有三个预设,分别对应了四零九零的二十四 g、 四零九零的四十八 g 和五零九零。点击训练集,点击新建训练集, 简单设置一下名称,点击创建,点击添加图像,尽管这个地方写的是添加图像,我们依然可以去添加视频。视频的帧数所遵循的规则应当为八 n 加一帧, 帧率呢为二十四帧每秒钟,格式就是我们这个最普遍的 mp 四格式,运行良好。那么这个字幕标签呢,应当怎么去填写呢? 可以以我为例,我这里是跟 tokyo 的 官方对齐了的一个名字叫做汤姆希尔比的男人站在呢一个房间当中呢,说什么样的话用引号呢?给它标起来应当是这样的一个简单的要求,非常接近于我们 e r t x two 进行推理的时候的题日词的格式。 在每一个标签当中,我们都重复的一段文本是什么呢?是一个名字叫做汤姆希尔比的触发词, 可以通过这样的一个在二十个训练级当中重复出现的短语来锁定为我们的触发词。而建议去使用英文,因为像这个 jama 的 话,识别英文还是会更好一些,尽管他也可以去识别中文。 我这里是做了音频和视频的同步训练, this place is dead。 这个地方我除了人物长得很像之外,它的声音也是很像的。 训练的视频可以不包含音频。如果我们想要黏着音频一块去训练呢?我们得确保我们训练当中有音频标签呢,不一定也要做成 txt 文档呢,再进行上传。我们可以直接在这个地方手打 一样奏效。那么这个地方总结一下,视频需要一百二十一帧,二十四帧每秒钟,至少在我提供的可以在消费级显卡上运行的预设的要求是这样的,提日词遵循 l t s two 的 推理规则,我们就进行标签的填写。 训练级这个地方要做足文章,如果不想进行更为复杂的参数的调节,我们只需要我这里租用的是五零九零。 进入更换一下训练集,比如说这个,然后更新一下任务,点击运行就可以执行任务了。在三张卡上我都已经跑过了,前面的这个名字呢,并不会影响我们诺尔模型的实质,但是如果想改这个名字的话,我们可以直接复制一份,这样就可以改名字了。 切一下训练集,再次开始训练,那么这就是训练的快速启动。我的预设下,每一百步就会保存一个诺尔模型, 在 workspace ai 二 toolkit 下面的 output 文件夹下面呢,可以看到我们训练的保存的软模型可以进行下载, 那么这就是快速启动。在这个下一部分呢,我们来看到详细的参数的调节。首先我们模型这个地方选择 l t x two, 设置一下,我们 l t x two 要去训练的模型的路径已经做好了, 是否要开启低选存的这个训练呢?那么我觉得对于这个四十八 gb 及以下的显卡,几乎都是要去选择开启的,是否要将暂时不用的存卸载到 cpu 内存呢?对于 transformer 的 部分呢,我选择百分之一百卸载, 如果做该项,那我们得确保我们的这个内存呢应当要大于六十四 gb。 那 么文本编码器这个地方呢,我直接选择百分之零, 原因是在下方呢,我开启了两项,一个是缓存文本切入和缓存浅空间。那么这两项对于 l t x two 的 训练呢,事关重要,它们非常的影响我们对于显存的消耗。 后一部分对于 jama 呢,我们量化到这个四比特呢,运行良好,可以也建议对这个完美编码器进行四比特的量化,那么 transformer 这个地方的话,最好我们还是不做量化 lora 的 这个维度呢,我用的是六十四,可以干大,按道理来说这个值越大,保留的讯息呢, 尤其是我们追求人物的这种 id 的 一致啊,应当可以适当调高。六十四的话,我一个洛尔模型就已经是一个多 g b 了,我认为已经够高了。下面这个保存的精度呢,我们就选择 b f 一 六, 每一百步呢保存一个洛尔模型啊,我要求是全部保存。下面的 batch size 的 话我暂时就用一,因为在消费级的显卡上面,我好像用到一以上呢,就已经没有办法去正常运行了,其他的部分都可以保持不动。 该向我们之前的视频当中介绍过,训练级这个地方的话,我们一定要选择自己对应的训练级,是否要做这个辅道视频呢?建议开启对于这个性能的占用呢,应当是可以忽略不计的。是不是要做音频的训练呢?如果我们训练级当中有音频,我们就把该项开出来, 最大化音量要不要开呢?训练级当中我们的音频过小的话,我们可以选择开一下在下一项,如果我们严格的遵循了二十四帧每秒的帧率, 我们可以不开起改向。也建议我们在做训练级的时候就尽量的去完善。在训练的分辨率这个地方呢就是分水岭了,如果是我们 四零九零的二十四 gb 的 显卡,我们应当只能去训练五幺二,训练到七六八会比较费力,那么到了这个四零九零的四十八 g 呢?我们可以训练到一零二四,五零九零,也可以训练到一零二四。 训练分辨率的提高意味着我们可以推理分辨率也变高,这样按道理会让我们的 id 更为的一致,保留更多的细节。所以分辨率的话提到一零二十四还是不错的,这个地方能提到一零二十四就尽量提到一零二十四,更新一下任务呢? 下方的彩样这个地方的话,我建议是关闭彩样,它会大大的去降低我们的训练速度。但是如果一定要开启, 我的建议是把这些该加载的这些题日词以及图像全部给加载上去,因为他这里的采用题日词的规则是,比如我上面每一百步保存一个 word 模型,他就会把下面的这么十个测试题日词全给采用一遍, 这里是十个,我们也可以删掉另外的九个,只保留一个,应当要遵循这样的一个规则。其他的项目话比照着我们推理过程当中的参数进行理解, 更新人物点击训练呢,就可以开始训练这个视频。所有的言论都来自于官方,大家可以解锁前面的这一段字母,在邮件上面可以找到官方的账户 去查看原版的视频。如果我们租用五零九零的显卡,给到的内存是九十四点三 gb ai 视频模型的发展确实是给这个内存上了很大的强度,因为我们经常在显存当中放不下的这个模型就要放到这个内存当中去了,那么内存涨价也是非常的合理的, 可以看到现在就已经正在进行训练了,一般情况下练到五千步就可以出一个罗尔模型,这个速度在五零九零下会越来越快,三千步已经可以出效果了,五千步会比较的合适,这个结论也来自于官方 跑一零二四,五零九零刚好占满,所以这是一个比较合适的最为性价比的推荐用卡。 在 checkpoints 这个地方,如果我们每一百步保存一个模型,会在这里直接给到模型,除了在这个 autopod 当中进行下载之外,右边这个小箭头我们也是可以直接进行下载的, 这里的结果我都是我使用五千步的 low 二模型呢生成出来的,可以看到人物的一致性是非常的高的,而且它还会学习我们的音频片段当中的人物的音色, 这样的进步绝对是非常有意义的,大家感兴趣的可以自己去尝试一下,尤其是做研究和探索的。

再来看 i 土微工作流,也就是 image to video, 用一张图片生成视频,这里需要额外上传一张图片作为参考,除此之外,其余参数与文声视频的设置基本一 致。极重约罪意的闭上眼睛扇动石棒啊! 如果本地推理模型无法满足需求,想要更精致的画面或者本地算力不足,可以直接使用 api 来调用更高级的模型。 ltx 二 pro 版本,点击左侧的模板选择视频, 在使用视力中选择 api 搜索 ltx。 这里显示的两个工作流对应的就是咬 tx 二 pro 版本的模型调用, 在这里可以一次性生成最长二十秒的视频,分辨率最高支持到四 k, 帧率可达五十帧。 相比本地开员工坐流,它在画面精度、持续稳定性和复杂运动表现上更有优势,同时不受本地显卡算力限制,整体操作也更加简单,不需要配置和理解大量复杂节点,更适合直接出成片。 我生成的这段十秒五十帧四 k 的 视频一共消耗了五百个积分,折算下来大约两美元,值不值你们可以自己判断,欢迎在评论区说说你的看法。 生成的视频默认都会保存在跟目录下的 op 的 文件夹,如果你想自定义保存路径,可以用记事本打开启动文件, 把倒数第二行里的这段代码替换成你自己设置的绝对路径,下次使用时生成的文件就会自动保存在你指定的路径。以上 ltx 二的使用方法送给大家,感谢观看! next time。