are you ready to explore the stars with me look i can control all the starlight take this my superstar magic see you next time don't forget to wish upon a star。 咱们以前在做图声视频的时候,往往不能精确地去控制这段视频,比方说第一秒干什么,第三秒干什么? 第四秒干什么?那最近这个 kg 刚刚开源了一个插件,叫 prompt relay 这个插件,那它就可以做到 精确的控制这段视频的每一个小段。比如说我们以这样的一个图片为例,只需要在这里写上一个总体的描述, 下面的话就可以对他进行分段的描述。比如说我们现在给他分了四段,每一段都有这么一句提示词,就是指导他干什么。 上面这个是中文的解释。第一个就是登场完了之后说了这么一句台词。那第二个镜头是能量汇聚,女孩抬起手,空间略微扭曲,说了这么一句台词。 第三个镜头就是说释放出一股宇宙能量爆发,粒子以慢动作爆发,然后说了这么一句台词,最后收尾,能量消散完了之后,他就说了一句再见这么一句台词。 我们来看一下这个生成的效果。先看第一段, are you ready to explore the stars with me。 就 他登场的时候说的这么一句。第二个 look i can control all the starlight take some it's my superstar magic see you next time don't forget to wish upon a star。 就是 刚才的第四个说再见的那一段, 可以看到他可以精确控制这个视频里面的这么四小段。然后呢,如果说是你想调整这个分段,比方说添加这个分段的数量,你就可以点击这个爱的他,就往最后再加一个分段 拖动它,还可以去调整,点击这个可以把每个分段进行平均,如果说你想调整每个分段的时长,你就可以这样拖拽都是可以的。如果说你想删除这一个,点击这个 delete 就 可以删除了, 那我们现在把它给调成平均,那这个工作流你只需要关注这一个用户操作区这个地方第一个就是时长,你想生成多长的视频?我这里是生成了十五秒的帧率,你设置一个固定的帧率,而我这个设置是二十五帧每秒, 在这里上传一张图片,设置视频的宽度和它的高度,这样就可以了,直接点击运行就可以了。 如果说你想抽卡,可以在这里去改变他这个种子数进行抽卡。这个设置的原则是第一个就是你要对他一个整体场景的一个描述,你不需要描述太细,就是对整体的场景进行描述, 场景风格里边有哪些人等等。下面就是比方说我这个是第零到一百二十三针,他干啥,这个是一百二十三到二百四十五,他在干什么?就这样就可以了, 点击运行就可以了,这个工作流都已经搭建好了,所以说用起来都是非常的简单的。那我们现在看一下这个工作流怎么安装。那首先我们要准备一个康复 u i 的 整合包,这个就是康复 u i 的 一个纯净包, 我们可以看一下他的康复 u i 这个插件目录是空的,什么都还没有装,他的 工作流目录也都是空的,都还没有。那我们这里介绍两种安装方法,一种是一键安装,一种是手动安装。我们打开这个康复腰管理大师,进入到这个工作流广场里面,找到这个 prom 的 relate 图声视频工作流, 点击进去直接一键安装,点击开始安装就可以了,那这个时候 com 二管理大师就会自动下载这个工作流文件,以及这个工作流使用到的所有的插件,节点,依赖等等, 你只要等它完成就可以了,可以看到现在都已经安装完了,包括上面的这种插件的安装,还有这种依赖都是自动安装完了, 安装完之后点击关闭,我们在这里重启一下。好,现在是重启完了,我们进入到这个工作流这里,可以看到这里多了一个 comu 管理大师这个文件夹, 下面就是这个刚才下载下来的这个 ltx。 二点三 prompt relay 图声视频工作流,我们在这里 上传一张这个图片,这个题字词我都是保存到这个工作流里面了,你下载下来之后,这个视力的题字词都在,你参考这个题字词来写自己的题字词就可以了。然后点击运行好,现在已经运行完了,可以看一下 i can control all the starlight, take this my superstar magic。 好, 可以看到就是在康复腰管理大师里面直接一键安装,就可以把这个这么大的工作流直接在本地运行起来,那我们下面看第二种手动安装。首先进入到这个康复腰搅拌站里, 点击这个模型广场,找到这个 l t x。 二点三 prompt relay 图声视频模型和工作流,点击进去点击下载,这里可以免费下载, 点击确认下载,复制一下这个地址。那这个网盘里面有两个部分,第一个就是这个 model, 你 下载下来之后,把这个 model 直接覆盖你的 comui model 就 可以了。 第二步就是在你 comui 里面去安装这个工作流需要的插件。第三步就是重启 comui, 将这个工作流拖入到 comui 里面。再根据刚才说的,还有这个地方也有一个使用方法的,建议 按照这个步骤来操作就可以了啊,这个就是 ltx 二点三这个 prompt relay 这个插件的用法。
粉丝229获赞625

如何用 coffee ui 等开源软件完成一部 ai 短剧的制作?大家好,我是程序,欢迎来到第九期。今天我们详细讲解一下 ltx 二点三的工作流,包括纹身视频、头身视频、音乐声视频和手尾帧等, 同时讲解它对电脑配置的要求,必要插件和工作流优化等内容。内容比较长,请大家先点赞、收藏加关注。好,现在我们来到 coffee ui 的 界面, 还是一样,我们依然是选择官方的工作流。首先我们点击左边的模板,然后点进来以后找到视频。好,第一排最右边这个是他的图声视频,这个是他的音乐声视频,再往下拉,这是纹身视频, 这边这个是首尾针。那么今天我们主要以这个音乐声视频来详细讲解一下,我们点击它的工作流,大家看到左边这里是它的模型文件,包括 check point, 其实这个是颗粒布,这个是他的一个放大模型,他的工作流是采用双彩样,下面这是他的模型文件存放地址。好,我们现在看到这个工作流,他把 所有的工作流全部隐藏了,那么我们只需要把它进行解压出来,先把它拖到边上去,然后在这里右键选择解包工作流,这个时候才是他的整个工作流的真面目。好,我们现在看一下,这是他的一个图像加载区域,这个是他的音频加载区域, 这里整个是他的模型文件加载区域,毕竟他是有音频的,所以说他要比我们平常的工作流要复杂一些。这里可以输入我们的提示词, 这里设置我们的尺寸,包括这是这里是帧数,这里是时长,但是呢他这个工作流啊还是需要改造一下才能用,那么我就不展示我们的改造过程,我们直接展示我们改造结果。好,这就是我们改造的结果。 大家可以看到这个红色的节点要么是替换的,要么是增加的,比如说第一个,第一个这个是我们的音频裁剪,比如说我们输入一整段的音乐,他长达四分钟,实际上我们的视频也只能出二十秒或者三十秒,那么这个裁切工具就特别有意思,比如说我这一段视频结束时间是五十三秒, 那么下一段视频我们可以从五十二秒开始,然后再跑二十秒,然后以此类推,直到把我们这个四分钟的音频全部给他跑完。然后这个节点是预览,是用来展示我们当前所裁切的这个部分,然后这个节点就是图像压缩的节点,它这个节点还是比较好用的。 再来到上面是两个 lra, 第一个 lra 是 vbvr, 它是一个奖励, lra 对 我们视频生成这个动作是有很好的引导作用。然后后面这个 lra 是 一位大佬所开发的,它是专门解决我们 ltx 二点三 在生成视频,当在讲中文的时候,他有可能出现字幕,而且字幕还是乱码,那么这个解决方案有三个。第一个方案就是我们所有的提示词可以用英文来写,再加上我们叫仙侠的这个 lo ra, 然后再加上 k j 的 这个强制负面提示词, 因为我们这个工作流它的 c f g 值是一,所以在当 c f g 为一的时候,它的负面提示词是不生效的,我们加这个节点是强制它负面提示词生效。所以说我们一共用三种方案去解决它带字幕的问题,这里是模型加载区域,然后这里是 参数区域。这两天我在测试过程中,我发现我们尽量用幺二八零乘七二零的这个尺寸去生成我们的视频,这样的话能够保证我们的视频画面不会崩,当它的尺寸越高,它的效果越好。 然后这里是我们的彩样器,我是选择这个 c f g 的, 好像效果还是比较好的。现在我们来看一下之前我测试的时候生成的一段 mv, 就是 这个视频,它是直出七二零 p 的, 我没有进行任何的再次放大,大家先看一下它的效果, 这是一个二十秒的视频,效果还是很不错的。这个二十秒的视频用时是十分钟,过一点六百三十四秒,那么上一段生成他的结束时间是五十三秒,那么我们再生成下一段二十秒的视频,我们可以在这里把它写成五十二, 这里设成一分十二秒,刚好二十秒。那么当我们把整个视频伸出来,我们剪辑的时候,实际上我们要把它的原声关闭,用我们自己加载的原声,这样的话我们能够保证我们的音效不被污染,但是我们可以听一下我们这个原声效果怎么样。好,我们把它拉到三十三秒,然后我们听一下原声的效果是怎么样的, 非常不错,我们原声效果要比他刚才输出的效果是怎么样的,我们再对比下他刚才输出的效果, 音质确实有污染。现在我们在生成下一段的时候,我们再添加一个加速节点,双击,然后这里输入 set 好, 我们添加这个节点,这就是我们之前安装的 set 的 touch 二点二,他对我们的视频加速也是有效果的,但是我之前为什么不用呢?因为我的配置还是够的,所以说任何加速他都有可能对本身的画质有所影响。所以说我之前是没有添加,但是现在为了提速,我们可以尝试用它一下, 然后我们可以选择 cedar tension f p 十六库达的这个,然后我们把线给它连上,它就连到这里, 就连到这里,这样的话我们的连接生效。对了,我们这里还有一个非常重要的节点,就是这个东西,它这个节点就非常厉害了,尤其在这个工作流程链路生成过程中, 当工作里有完成某一段工作的时候,把它的这个模型文件和它所占用的内存显存全部给它卸载掉,然后再进入下一阶段的一个工作,这样的话减少我们的电脑负荷,甚至如果没有它可能到下一段,比如说这个 ve 在 解码分块的时候 有可能就爆掉显存或者爆掉内存。好,现在我们开始运行,看我们加了这个散热器以后,它的运行是多长。在它生成过程中,我来给大家介绍一下我们的内存和显存占用情况。大家可以看到这个内存已经爆到五十三 g, 而它的显存也只是二十二 g, 如果大家内存和显存不够高的情况下,可以适当降低它的分辨率,比如说这里可以设置九六零乘五四四,整个生成完成以后再进行一次高清放大,实际上目前我们直出的七二零 p 也是需要再一次进行放大,发达到幺零八零 p, 然后我们才可以用 好。在它的生成过程中,我们介绍一下它对我们的电脑配置的要求。它这个 f p 八的模型文件接近二十七个 g, 如果选存 小于二十四 g, 基本上是没有办法跑的,但它专门有一个针对五零系显卡的,只有二十个 g, 那 么那个模型文件我们的 十六 g 显存也是能跑的。其实内存我感觉至少要有个六十四 g, 要不然这么多模型文件根本加载不下。那么当我们显存比较低,比如说十六 g 或者十二 g 的 时候,那我们可以选择它的这个 g g u f 量化模型, 只需要在对应的位置输入它的 g g f 模型文件,然后把它的线给它连上,把这个加载器和替换掉就可以了。 包括下面这个克里普加载器也一样,我们可以选择 g g f, 但是无论显存多大,我觉得内存都应该超过三十二 g, 这样的话跑它应该没有什么压力,包括我目前跑这个工作流,我的六十四 g 内存也是勉强够用,如果我去跑三十秒的视频,可能也会包内存 好。生成完毕,我们看到是五百七十六秒,看来加了这个三者胎神,他只是提升了一分钟,比原来六百三十四秒提升了不到六十秒。我们现在看一下它的效果,这是紧接着前面一段音频的,后续的二十秒我们听一下, 大家可以看到我们这个是没有字幕和乱码的,看来我们的策略是行之有效的。好,接下来我们讲一下我们的核心的插件,要想运行这个 ltx 二点三,有几个插件是必须要安装的,我们点开 manager。 好, 现在看一下我们所有安装过的, 这里输入一下 l t x。 好, 这两个插件是必须要安装的, l t x video, 再加上它的这个插件,然后再看一下,我们还会遇到像电脑显存较低的情况下,要用到 g g u f, 这个必须要安装,还有这个 layer style 也是需要安装,包括 k g n l 子。 好,基本上就这些,那么现在这个音乐生成视频我们基本上都讲完了。 ok, 接着我们去看纹身视频,还是一样点模板视频。这里,好,这是我们的纹身视频,我们先把它的这个工作流解压出来,我们直接按照他的默认提示词。好,我们点击运行。好,生成结束,我们看一下效果,用时一百七十秒,不到三分钟, 挺不错,那么我们这样找豆包给我们一段提示词,把时间设置成十秒,它的时间在这里。十,好,我们现在得到了一组提示词,直接给它粘贴进来, 但是生成之前我们这还要加个东西,就是这个东西是防止它报现存给它连接上,然后我们开始运行。 这个工作里,我目前除了他没有进行任何改造,实际上我只是演示给大家看一下效果,这里面要改造无非就是给他夹老软,再就是限制他在输出的时候有这个中文的乱码字幕。这里还有一个细节啊, 当我们直接托官方的,无论是图声视频还是纹身视频,或者是这个音乐转视频的工作流,他不能够直接使用,我们要用的时候,我们要在这里把这个帧率的这根线给他连到这个 b 点上,然后我们的工作流就正常了。 好,出来了一个十秒的视频,我们现在看一下它的效果。 还可以,因为没有加这个 v b v r 这个奖励老软,所以说它的效果好像不是很好。 好,接下来我们看一下我们的图示视频,还是在模板里面找,这是图示视频,我们点进去一样给他工作流程解压出来时间,我们设十秒吧, 加载一张图片,随便输入一段提示词,一个男人在说话,这是他要说的话,然后我们点击生成。好,生成结束,用时是二百八十五秒,我们再看一下它的效果。大家好,我是陈旭,我们是博主的 ai 扎势产, 因为是十秒的视频,我给的话术太短了,然后导致他的语言混乱。好,我们又重新给他写了一些话术,再次运行一下。好,这就结束,我们再听一下它的效果。大家好,我是陈旭,一个 ai 形象,我还有一个搭档,他叫希然, 他这次是动作夸张,还有字幕,不过整体效果还不错,因为他脸一直没有崩,环境也没有崩。好,现在还有一个工作流没有讲,就是我们的首尾针,工作流好,点进来。好,我随便加载了两张图片提示词,我们改一下,他端着咖啡走到窗前, 一样工作流我们就不去更改了,直接用他试乘,这里有做一个十秒吧,五秒太短了。好,试乘完毕,我们看下效果, 这是在没有加任何奖励 lara 情况下跑成这样的一个状态,我觉得也还能接受,而且我们的提示词特别简单,什么都没有,那么真正要跑出好的视频还是需要在提示词下功夫 好。我们今天一共介绍了 ltx 二点三的四套工作流,第一个是纹身视频,第二个是图腾视频,第三个是音乐声震视频,第四个是首尾针视频, 而且他的能力是可以做到三十秒左右的一个视频主要是看我们的电脑配置,其实如果内存够大,我估计跑个一分钟视频应该也是问题不大。然后接下来就是我们的小浅层,用户可以选择把它两个替换成 g g f, 然后再就是我们的生成字幕的一个限制,再加上我们的一些奖励 l r, 让他动作更加连贯 和更加符合逻辑。然后再就是一些细节上的调整,比如加上一些我们清华村的一个节点,还有包括可以裁剪音频的一些小的节点,这些东西都很有用的。我们整个 coffee ui 的 全流程到这里也基本上讲完了。 接下来每一期我会给大家做一些具体的,包括视频呀,包括音频呀,包括图片的一些效果,然后给大家展示,那么今天的演示就到这里感谢大家观看,我们下期见。

哈喽,各位同学大家好,欢迎来到数字折叠,那我们之前的本地 ai 视频生成的课程用到的大模型都是万二点二, 但是万二点二的话呢,他就只能到二点二了,他有二点五,二点六也不会给大家本地开源使用了,是要去做一个线上的收费的。就在大家认为这个开源模型将要进入到一个停滞不前的阶段的时候, 咱们的 l t x 啊,这一家以色列的公司给大家开源了二点三的视频生成模型,那 这个模型相比较于万二点二,它有一个比较大的优势啊,它是可以音画同出的,也就是说我们可以出来一个完整的带有声音的 画面的视频,不用我们后期再去重新给它对口型做这个音频的一个合成了,非常的方便,也比较符合现在的一个 ai 的 视频生成的一个趋势吧。那么我们如何去使用它?对于电脑的要求是什么样子的?我们如何在本地成功的去部署它,那这节课我们就要给大家去讲了。 那首先我们来看一下啊,我使用这个 ltx 二点三制作的一个小效果吧, put your hands on the arm here open your legs not too much there you'll see why i like that very much do you want me back? ok, 那 大概就是这样的一个效果,我们可以看到它的分辨率是很高的啊,我在后期对它进行一个放大,但是我们一次就可以直出一二八零乘以七二零分辨率的视频, 并且的话呢,我们这个视频的帧数率是支持二十四帧或者二十五帧每秒的,它的时长也可以达到十秒甚至以上,对显存的要求也没有那么大,我使用的是 四零八零十六 g 的 显存,然后六十四 g 的 内存就可以跑这个效果了。那如果你的电脑比我还好,我相信它可以在一分钟之内就可以跑出一个五秒钟的视频。 如果你是十二 g 的 这个显卡的话,你可以试一下,因为我没有试过啊。那如果你的内存比较低的话,你也可以设置一个虚拟内存,这样子就会让我们的这个跑起来没有那么大的内存的压力。 那我们看完效果之后,我们来看一下怎么样一步一步的把这个效果给它复刻出来。那我们第一节课讲的就是工作流的部署, 如果你从来没有使用过 comui 的 话,你还需要先去下载我们的 comui, 然后再去给制作我们的 ltx 的 模型的工作流。 如果你不想去折腾啊,你不想一遍一遍的又配置环境,又要用这个代码去调配拍摄的各种模块,还要自己去下载工作流,安装插件,然后优化节点, 解决报错,这是所有的非程序员出身的人来去使用本地 ai 的 时候遇到的问题。那么我们数字折叠给大家提供了一套完整的开箱即用的软件,就是 comui 的 整合包,加上我们的这样一个 e f studio 的 工作流操作工具。如果你是我们输入折叠的会员的话,你可以用我们这个工具,如果你不是会员的话,你可以直接用我们的 comu i 自己去部署这个工作流。那么我们来看一下一步一步的一个操作过程。 首先的话呢,我们的 comui 整合包是可以在我们的网站上去下载的,我们首先可以进入到课程这个页面,在我们的课程页面里,我们点进来这个 ltx 二点三的课程的主页,在课程主页里面我们可以看到这边有一个这个配置链接, 首先第一步你就去点击这个 comui 的 整合包,把这个 comui 整合包下载下来,我们现在使用到的是这个零点一六点四的版本, 里边的环境是库达十三加拓十二点九,也就是说你首先要去升级你的这个显卡驱动,能够支持我们的库达十三,然后呢再去安装我们提供的库达十三点幺的这个库达驱动, 那么我们这个详细的部署的视频是在这里的,你可以到这里去下载部署一下,只不过我们这里边是十二点八,你只需要把我们的库达变成一个十三点一就可以了,如果你不是三维用户的话呢,那个侯蒂尼的安装你也可以自动的给忽略掉啊,就前期先去适配一下这个库达环境, 然后下一步的话就是安装我们的整合包,然后把它解压出来,放到指定的位置,就可以把这个软件打开了,下面给大家去看一下如何去打开咱们的这个软件啊?在你没有安装 cd 的 情况下呢,你进入到我们的 comfui 里面, 然后双击我们这个英伟达 gpu 的 bat 脚本命令,就可以把我们的 comfui 给启动起来了, 在启动的时候的话呢,大家可以再继续去下载第二个东西,就是我们的 d f studio, 我 把所有的工作流都配置好放到里面了,那这个 d f studio 的 下载链接的话,也可以直接去打开它 到这里去下载就行了。那它的一个部署的话呢,你可以看我这边这一个县城文学的课程, 这个课程上面的话呢,我们的第二节有一个部署的教程,你只要把这两个东西部署完,后面你就非常开心的去玩我们的 comu i 在 本地可以零成本的去制作各种 ai 的 一个效果了啊,这是我们的一个前期的部署, 如果你是老用户的话啊,你可能之前已经安装了我们的这一个数字折叠的 comui 整合包了,只不过你的整合包目前不是十六点四或者不是扩大幺三的系统,你就根据我们的下面这个部署教程去重新的升级一遍就可以了,你就不用再去安装其他的环境了,只需要去替换一下里面的这样的一个 is embedded, 还有我们的这个插件,还有我们的本体就可以了。那替换完之后,再把你老版本里面的你之前下载的囤积的一些大模型给它直接剪贴到我们新版本的模型文件夹里面去就可以了,这是一个比较方便,不用折腾环境的升级方式。 那现在我们看到 comui 已经打开了,那我们就直接进入到咱们的 df studio 里面去吧,我们打开我们的控制软件。 好的,现在这个控制软件我们就已经打开了啊。首先我们点击这个视频生成,里面我这边提供了有三个 l t x 二点三的工作流,分别是音画同出的图声视频,还有音画同出的文声视频, 在这个声音生成里面还有一个自定义音频的一个 l t x 二点三的图声视频的这个工作流,这三个工作流是我们要用到的, 我们今天先要给大家去讲的是这个 l t x 二点三图声视频,就这个咱们的工作流,那在去使用之前,你要下载 l t x 二点三的模型啊,我们可以直接点击查看介绍, 我们进入到这个介绍页面,我们可以看到这边有一个模型下载的链接,看到没有,你直接点击模型下载链接这边我就提供了我们的这个三个工作流共用的 一个模型,就一套模型系统吧,它的一个文件的路径我也给大家在这里梳理出来了,比如说在 models 里面,然后 different models 里面下载这一个可立普里面下载这一个 ve 下载这俩,是吧?还有放大模型,然后你就直接可以点击这个百度网盘啊,我们这个模型都是 开源的,免费分享的,在别的地方下也是可以的,没有关系的啊,那我们进入到这里面去之后的话呢,那我们就可以看到了啊,这个可立普文件夹,什么 different model 文件夹,给大家说一个技巧,我这个文件夹的名字啊,比如说可立普,就是在我们的这个 comui 的 model 文件夹里面,我们找到 model, 这里面也有一个可立普啊,你就放到同一个文件夹里面去就好了,就把它下载到这里面, 那相同的,就比如说是我们这个 latent app skill model, 那 你就找到我们 comui model 文件夹里面的相同的 latent app skill model 文件夹,然后把它给下载下来就可以了, 按照我的这个方式把这里面所有的模型下载下来,就可以使用它了。那我们首先的话点击使用该工作流,我们在使用的时候可以先创建一个工程,如果你有新的工程就直接打开就行了,比如说我们就放在我们的 l t x 二里面吧,然后这个名称的话,我们就叫做演示吧。 ok, 我 们创建一个演示的工作流,创建好之后呢,我们就选择这个图声视频的工作流,点击使用工作流就可以了。 然后我们可以先创建一个图像,那这个是我们默认的图像,那我就生成一个新的图像吧。比如说我们在工作流里面,我们选择另外一个工作流,图像生成的工作流,我们使用的是 z 妹子的这个纹身图,我们选择它就可以了。 然后我们这个图像我们创建一个古风女孩吧,一个穿着汉服的女生吧,这个的话是可以支持中文的,我们输入一个穿着古风汉服的中国女人 站在院子里,上半身特写, 就这样吧。然后我们的分辨率可以给到一二八零三七二零稍微小一点嘛。那我们这个保存路径的话,也可以放到我们自动创建的这个资产里面,你可以自己写一个文件夹,比如说叫做古风 这边的话呢,我们改变一下他的保存的前缀也行,让我们刷新一下历史记录,这个时候我们就可以执行了。那这个任意美指纹身图也是需要去部署模型的,我们之前已经部署过了,你可以看一下我之前的课程,我们点击一下执行就可以了。 好的,现在我们已经生成了,我们来看一下整个质量还是可以的啊,非常有这种古装剧的感觉。然后我把提示词的上半身特写去掉了啊,改成了面带微笑,因为只有上半身特写,他的面部没有那么完整, 那我就把它改一下,优化一下。那我们就可以点击一下标记啊,把这个图像给它标记出来,作为我们的一个图生视频的手帧图的使用用途。那下一步的话呢,我们就切换到 lts 二点三的图层视频工作流,把这个手帧图切换成为我们刚才的这个 mark 出来的图像就是它了。然后提词词应该怎么写呢?提词词其实是有一些要求的,那这个 l t s 二点三的这个提词词的格式,我们提供了一个反推工作流,就是说你把一些必要的条件给到它,把图像给到它, 它就能够给你一个适合 l t s 二点三出视频的这样的一个题词词啊。不是说你随便去写,可能随便去写出来的效果并没有那么好,那我们可以再去选择一个工作流,你看我们有了这个十六六软件之后,你就不用到处去部署工作流了,你就直接在这里面去选就行了。 那我们可以看一下,在文字生成里面有两个反推的工作流,另外一个是二点三反推的官方版, 这个是之前 lts 二的反推提词词,它的提词词是比较的完整,就是把画面也描述出来了。那这个是官方的 k z 流给到了一个提词词的反推方法,这个可能会更简洁一点,那我们就用这个官方版的,我们点击使用工作流, 如果你没有部署这个反推模型的话,你也可以查看介绍一下,看一下需要去下载什么模型。其实这个工作流里面所用到的那个模型跟我们二点三这个大模型是一样的,用到的是它里面的可立破模型,所以你就不用下载任何的模型了,直接点击使用就可以了。 那我们把刚才的那个图像给到他,就比如说这个图像,然后他的这个前置条件是有一定的格式的,比如说前面这一句是不用管的,就是让这个图像变成一个流畅的动作,然后这个主题你要改一下,动作你要改一下,场景你要改一下,如果自己改的话比较麻烦啊,你可以直接 ctrl 键加 c 键复制一下,然后我们可以进入到 excel gpt 里面去啊,那我们就进入到这里面来,然后把这个题词给到它,就是这个反推的格式,说修改一下这个这个内容 要求,然后我们就可以把下面的这些题目给到它,就是 subject 啊。这个主题是什么呢?一个女女人对着镜头打招呼, 然后再把我们下一个这个 action 再复制过来。说什么呢?说这个女人走到 镜头前,微笑着说,是吧?一日不见,如三秋兮, 这应该是一个文言文啊,就这样子,一日不见如三秋兮。 ok, 然后我们再去回车,然后这个盛世描述一下啊,盛世就是一个呃,古代的院落里, 这里就会触发他对环境或者声音的一些描述,然后点击给我们的这个大模型,他就可以把我们的题词给优化了,我们来看一下,他自动就去写了。 他给了两个版本啊,第一个版本的话他把台词也变成英文了。啊,这个我们要中文的,这个叫什么呀?呃,一日不见如三秋兮,我们复制一下,可以来去看一下啊, 粘贴是吧,让图像以流畅的运动变得生动起来啊。一个女人面对着镜头,然后微笑的说这个样子。好的,那我们就可以把这个反推的指令复制到我们的工作流里面去, ctrl 键加微键啊,如果大家觉得比较麻烦,可能更喜欢做在线的,但是我觉得,呃,如果你想要简单一键的东西可能就没有那么准确,如果你想要省钱,想要做的更专业,你还是要稍微的呃,用一些流程来去规划一下。 那这个最大制服就是说他反推出来有最大的一个反推提示词的长度啊,但是一般情况下是不会超过一零二四的,你就算给到一零二四,他可能反推到几百个就停止了啊。那我们这个路径也可以改一下, 他会给你一个提示词文档的,你后面可以发给别人,也可以自己去学习使用。那我们可以给到这个反推的文件夹里面去就可以了,这个就叫古风吧,然后我们就开始执行就可以了。 好的,我们现在已经反推完成了,我们可以看到这个提示词在我们的右边展示栏里面也展示出来了,我们可以直接 ctrl 键加 c 键,我们回到这个翻译软件里面来看一下, ok, 就 这样子的,你可以看到它又把我们这个中文给它翻译成英文了,这个我们到时候再翻译过来就可以了。 风格他先定义了,然后再定义动作。女人慢慢走向镜头,热情的微笑着,用舒缓的声音说,啊,什么什么柔和的中国传统音乐,然后与鸟儿的呃声音和远处的喷泉融为一体啊,就非常的详细吧。那我们就回到这个这边来, 然后呢我们就把咱们的这个题词给它粘贴过来,只不过你把这个他翻推出来的这个拼音再改一下啊,一日不见如三秋夕, 如三秋兮。好的,现在应该没有问题了,种子值可以随机一下啊。注意,这个是我们刚才那个音化同出的工作流,这个,这个是反推的工作流啊,他俩你不要弄混了啊,先去反推出提示词来,然后再给到我们的工作流, 然后时长五秒,五秒应该可以了,就默认五秒,帧率二十五帧每秒,然后宽度一二八零乘七二零。保存设置,这里就是你保存在我们的 alt put 里面的这个文件夹里面的。这个后面的文件夹和前缀啊,我们就叫做克拉斯演示吧, 这个不是一个绝对路径,大家注意啊,现在我们刷新一下工作流没有问题就开始执行了,那执行之前的话呢,建议大家可以到我们的 comui 里面啊,你可以去清理一下这个内存,清理一下缓存, 如果你再执行多个工作流之后,你再去执行新的工作流,它的内存来不及卸载,会造成这个 comu i 的 卡顿。建议大家可以多去点一下这里,然后保证我们的这个 gpu 还有我们的内存要干净一点,现在没问题之后,我们就开始点击执行,等待它的一个视频的生成吧。 ok, 那 我们这个已经生成了,我们来看一下啊,一日不见如三秋夕, 是不是还是可以的呀?而且我们可以发现啊,咱们的这个嘴型也能对上声音也是这种比较标准的普通话,美中不足的就是有字幕,这个字幕在中文的发音下是比较通常出现的,所以我们后面的课程当中用英文就不会有这个问题了 啊。再然后的话呢,我们接下来要做的这个效果,并不是说光用这个工作流,我们还会用到其他的工作流,像瑞米克斯呀, 像这个 client 啊等等的,所以我们接下来会利用这个大的 ltx 框架,然后再加入其他的辅助模型来去制作。那这节课的话呢,大家只要把它给部署上就可以了,那么我们也可以对它进行接下来的一个放大高清叉撑的处理,我们都会详细的去讲解的, 那下一节课我们再见。拜拜。

社区首个真正开源的音画生成模型 l t x two, 能够在一次的生成当中把视频和音频呢同时做出来。姑娘,我手机说我未识别到人脸,那我这张脸去哪了?你把金托上的手指拿开就行。明白了,我这张脸不是不值钱,是被我毛纸抢了镜,哈哈哈。 这里是落云宗,他们已经发现我了,不能再停了。那么之前我们也有 obi 这样的工具,但是明显 airpods two 要更强一些,更加的接近于 vivo 三。这不是番茄酱, 这是雪天呐!这个直式拉丝也太犯规了吧,明底外脆里软翻才又酸又香,真的很好吃。这一片完全停不下来。感兴趣的可以看到该项目相关的讯息。除了纹身视频和涂身视频之外,它也是支持控制的。 this time it's ahead of the jump shot the first shock is still it's still raining。 如果想进行更高精度,更高分辨率的推理,这性能是一个巨大的挑战, 所以我已经把它给打包成了一个镜像。进入优云智算平台,找到对应的镜像,点击部署实力。 l t x two 这个地方呢? com 以外官方是支持了的, lakes 官方呢,也支持了,它使用的是 comfyyrtx video 这样的一个插件来运行的相对的流程。该镜像可以运行这一十点它们两者所有的视力流程 说明书往下拉,找到一键启动的指令复制。这里呢?如果我们仅仅只想测一下,我们可以租用四十八 g 的 四零九零 跑康匪以外的设计流程是没有问题的。我这里为了生成一零八零 p e 以上甚至说二 k 的 视频,直接选择租用 a 八百也是一个,也是四十八 g 版本之上最具性价比的选项了。点击立即部署进控制台实体列表,进入 jupiter lab, 打开终端, 粘贴启动指令,直接回车,出了地址之后回过来点击即可进入康复 y, 在 左侧选取对应的工作流就可以在线运行。下面的五个工作流都是来自于康复 y 官方的, 先从官方的看起,那么第一个是纹身视频,纹身视频呢,我们需要输入文本,那么这个文本应当遵循一定的规范,可以去参考官方的题诗词指南, 不用看的特别详细,可以全权的把整个页面复制发送给大元模型,让他帮助我们进行书写。大模型这个地方选择 f p 八,更加去节约显内存的占用,不选 f p 八的就是四十多 g 的 模型,也更是性能 l t x 九官方这个地方呢,是给到了有一个蒸馏模型的,在蒸馏模型下,我们可以以更快的速度来获得结果, 蒸馏更低的步数,更低的精度都会降低我们对于性能的要求,设置一下视频的宽高,宽高应当为三十二的倍数加一, 那么帧数呢,应当为八的倍数加一。关留这个地方我几乎没有做任何节点上的改编,那么默认的应当是二十四帧,或者说二十五帧为一秒钟,想要去生成十秒钟就得是二百四十个帧左右吧。 尺寸这个地方他是做了一个零点五倍的缩放的,所以这个一零八零 p 就是 对应的我们出来的视频的宽高,因为后面我们不出浅的空间呢,是做了一个放大的, 尺寸会翻倍。这个纹身视频呢,我所生成的结果呢是非常的好的,与欧比相比的话,其实已经强了特别多了,一个呢是支持中文,再一个呢是足够清晰,纹身视频在同一场景下的一致性保持良好。 然后我们看到康复以外,官方的图身视频加载图像设置提示词设置一下,视频的宽高以及长几乎与纹身视频完全一致,多了一个输入像图像。官方这个地方给的三个视力流程当中,是支持开眼深度和 pose 的 控制的, pose 控制这个流程当中呢,需要加载一个视频,用来去进行骨骼的检测,设置身数,那么获取尺寸,这个尺寸呢是以至长边一二八零来进行约束。 在初次生成过程当中,官方这里是进行了零点五倍的缩放,为什么要强调初次生成,因为在不出潜在空间这个地方,他进行了一个两倍的空间上的放大。最后我们出来的视频呢,就是一个七二零 p 的 结果, the top rings ahead of the jump shot。 那 么昨天我们才对这个人偶来进行了 one 的 渲染测试,那么明显 a r t x 的 这个要更强一些,租赁 a 八百的话应当是能做到二 k 的, 那么这个最大尺寸就可以放到二五六零, can 和深度这两个流几乎是同理。那么可以非常明确的告诉大家一个结论,我们使用微蒸馏的模型, 在控制的任务当中尽参考图像,才能够获得相对比较好的结果。接着我们来看到 lyrix 的 部分, lyrix 部分的这个视频到视频的生成是可以做视频的放大的,加载视频,然后呢以至长边为约束 做视频的放大,这里的话一九二零为最长边的话应该就是一零八零 p。 那 么也可以非常明确的说这是几号?现存的 奈克斯的纹身视频,基本上与官方的流没有特别大的差别,提日词宽高、长度和帧率, 图身视频就多了一张图像的加载, i c o r 这个流物对应的就是官流当中的概念深度和 pose。 所有的模型我都已经配齐了,可以直接运行。 在进行生存的时候,可能有一些需要注意的地方,它的流程当中默认是有一个提示词的增强细化的。 个人的见解是,我们让大圆模型去写完题日词之后呢,直接输送进来,把这个题日词的增强直接给他删除掉, 是真的需要消耗较长的时间。在这个流程当中,他的视频的宽高是以智商边为一九二零作为约束,然后零点五倍的缩放送到 list 当中,作为渲染视频的宽高,那么最终视频的宽高应当为一零八零 p。 这个设计流程 like 是 错了一点地方的,应当是裁剪这个地方要给它关掉,不然它会给你直接裁成一个一九二零宽高的方块,帧率和帧数都不用 来自于我们的原视频。那么相信和大家一起看了这么多流程,从快速启动上来说,大家应当能够非常轻松地去加载图像,填写视频的宽高长以及提瑞词了。

哈喽,大家好,欢迎来到大同的康复爱系列教学视频,今天这期给大家带来前两天刚刚更新的 ltx 二点三视频模型,这是一个本地开源的音画同步音画之初的模型, 次出的二点三这个模型会比之前好了很多啊,至少在很多场景下是可以使用的。这期视频我会介绍一下啊涂声视频的用法,我觉得纹身视频没有什么太多的用处,那我会讲一讲它的使用方式还有优缺点以及使用的一些经验。首先这个工作流和所需的模型我都会放到网盘当中,然后也会尽快的上架到云飞的 镜像上面,让大家可以直接在线体验,因为这个模型所需要的配置需求还是挺高的。我们可能之前在二点零阶段会看到这个模型,说是十二 g 就 可以跑,或者八 g 就 可以跑,然后有人说他又速度很快 都是对的,但是把他们放到一起就是有问题的,显存需求低和速度快是绝对不太可能兼容的,他们都是取一个极端,我给大家看一下实际的占比,我的本地四零八零十六 g 显存加九十六 g 内存, 常规跑的时候基本上就是这样,内存全部都是占满的,第一显存能跑,实际上就是把你的虚拟内存开到极致,这种情况下速度一定是快不了的。那如果你的显存偏大一点,那我们就不需要有这么多虚拟,这个时候我们的速度就能快起来, 我跑一个这样的五到八秒钟的视频,甚至比万象二点二还要快两分钟左右,而且这些速度和显存还是要在你的分辨率,要看你跑的是多少分辨率,要看你跑的是五秒还是十秒还是二十秒,这个绝对是不一样的。 总结一句话来说,如果你的显存也很小,内存也不大,这种情况下即使能跑也是非常慢,所以这是个前提啊,优先还还是推荐大家去云端跑。然后呢,接下来看看它的效果,一些运动幅度不大的,这些带台词、台声音的这些场景,我觉得效果都很不错啊。比如像这个, 你看这棵松树,是我爷爷亲手种的,已经有几十年了,它的清晰度非常高啊。我这里跑的是长边,是九六零的分辨率,最后生成完了之后,实际上就是幺九二零的分辨率,包括这条,女人,不需要别人定义,做自己最美。 像这种呃,镜头运镜幅度不大的,这种情况几乎不需要抽卡,效果都不错。但是呢,如果你想镜头稍微大一点,就会出各种各样的问题呢?我这里还跑了一些,这个声音,我们就不放了,看看其他的,有些还是不错的,总体来说一定是一个可以玩一玩的模型。 另外有一点就是大家千万降低对人物一致性的期待,如果你的图片是一个真人,或者是现实生活当中的人,那传进来一定会非常容易变脸。如果他是个 ai 人,那我们看不出来的状态下,觉得还是不错的,快,他要追上来了, 那生成的速度,中间这几条别看啊,这里显示的一千多秒,这个是我一边录屏一边在跑的时候卡在最后的捷码,卡了很长时间,这 正常来说的话,这个地方的五秒用了一百二十一秒,标准的两分钟,十秒的视频用了四百一十八秒。那 接下来呢,看看这个工作流。首先我的模型是用的官方原版,没有用 kj 那 一套,我觉得官方原版这套好像质量更好一点,用的是 f 一 八模型,满血模型我本地十六级就跑不了了,到时候在云端的话,大家可以用满血的模型去试一下,我感觉效果应该差不了太多。工作流用的也不是官方的在模板里面的那个 l t x 二点三,而是用的这个插件。如果我们要使用这个流程的话,要安装一下插件 l t x video 这个插件它是专门给这个模型所写的,这里面自带了几个工作流,在那个基础上面去改的,我觉得它的效果也是相对比较好,连接已经算是比较简单了,因为这个模型也是先跑初时的,然后再放大,所以这个 流程少不了这部分加载上所有的模型。然后呢,这里是我们之前一直用的这个交换块的这个节点,如果你的显存不是特别大的话,这个是一定要加的。然后后面这些东西大部分是不用动的参数,这里呢我我写成一个,这样我们就不要自己去填宽和高去算你的图片比例了,直接用这个按宽高笔缩放,这里的 分辨率我建议就把它在九六零或者最大是幺零二四,再大就没必要了,因为最终出来的尺寸实际上是它的两倍。然后这个地方我直接做了一个数学表达式啊,我们就不用算什么 n 加一八, n 加一四, n 加一,直接在这里填入描述,那它会自动转成帧数。 提示词是这里面非常非常重要的,网上也有各种大佬分享了自己的提示词经验啊,如果大家不看这个结构的话,给大家几个最基本的标准啊。第一个肯定要是英文提示词输入,因为这是个国外模型。然后第二, 不要写太多的,这个氛围类的,感受类的,一定要写具象化的,有什么动作,有什么展现,一定要具象化的写出来。剩下就是一些标准的质量词,尤其是镜头连贯等等的这些效果。然后我在这里写了一个智能体的提示词,把这个东西给你的任何的大元模型,再输入你的图片, 你可以告诉他你想要的这个运镜的幅度以及预估的时长,我们要跑几秒的,然后把台词给他输入进去,如果你不输入,他就会随机根据你的情况给你生成一句台词,那我建议大家都不要运动幅度太大,因为很难得到好的画面。 ok, 那 内容就是这样,大家可以尽快去体验一下。

一分钟用 ai 就 能做出一条这种高质量的带货视频。先给大家带来一款颜值和音质都在线的复古蓝牙音箱,你还可以修改模特形象,外国人、老年人产品呢,也能够任意的切换,还能生成各个国家语言的带货视频。 this is not only inexpensive! 像这样的带货视频,不用找模特,不用拍产品,只需要上传一张模特照片,加一张产品照片, ai 就 能搞定了,一天能做几十条,操作起来也很简单,一共就两步,今天手把手带大家实操,我们打开可灵,他最近更新了视频二点六的模型,有音画同出的功能,能够直接做出画面加人物讲话加环境音的视频。 这款拿铁的奶泡很绵密哦,所以不需要你去剪辑了,做出来的视频就能直接使用,非常适合用来做电商带货。第一步,我们点开可灵的图片生成,点多图参考,把你的产品和模特添加进去,再写个提示词,例如呢,帮我生成一个我手持产品,背景是餐厅的图片,不管是站着的,坐着的,在任何场景里它都能搞定。 第二步,点视频生成,把做好的图片上传描述提示词,我指着产品说,这杯酸梅汤和火锅搭配起来真的太好喝了。背景音包含餐厅的环境声音,然后选择二点六这个模型,点击导出视频就做好了。这杯酸梅汤和火锅搭配起来真的太好喝了!你看人物的口型、动作,包括环境音, 是完美匹配的,真的非常真实。如果你是做跨境的,在提示词里呢,把人物要口播的部分打上双引号,输入英文,他就能直接说英语了,真的很强,还能够无缝衔接白雪公主的八 t 恤,也很方便。西班牙 有了这个功能,不用去其他的 ai 上生成视频对讲机,只需要文字描述就能做出这种逼真的带货视频,做电商的家人们赶紧去试试。

大家好,我是老徐,最近 comui 的 改动特别的大,版本的更新也非常的频繁,再加上最近也有很多很好的模型发布,所以我把我的 comui 也进行了一个升级,并且分享给大家。那接下来我给大家讲一下这个整合包包含的内容,以及如何在本地进行部署。 那 comui 最近的一个频繁更新,我觉得是闭源模型对它的一个冲击比较大,让它有非常大的危机感, 所以最近的康威亚的更新有一个方向,就是让大家使用起来更加简单,不管是之前发布的子机功能,还是最近这几天发布的一个 app 功能,都是奔着更简单的使用方法去的。节点式的模式虽然让我们打进工作流更加简单, 但是也让不熟悉康威亚的人觉得使用起来非常的方便,那改成这种 app 的 界面使用起来就非常方便了。 首先把整合包下载到本地,为了更方便大家使用,整合包和模型文件是分开的, 整合包的大小是十六 g, 解压之后大概是三十五 g, 不是 特别的大。这里的模型是全量的模型,就是目前我在本地使用的模型,大概是三百七十多个 g, 和整合包在一起接近就是四百 g, 这个是非常大的。 如果只是想使用二的 tx 二点三模型和 z m g turbo 模型,可以只下载这个模型包,只有六十多个 g, 加上整个包一起也就是一百 g 左右。整个包和模型文件下载到本地以后,需要用七 z 来解压整个包。 win 十一系统是直接自带七 z 的, 如果是 win 十的系统就安装一个七 z, 直接解压到当前文件夹, 不要解压到带有中文路径的文件夹里面去,那就像我这样,直接解压到当前文件夹进来之后,要保障这个 comforion 的 路径是纯英文的,这样就不会出错, 然后把模型包里面的 modus 放到这个 comforion 的 路径下面进来,就是这样的, 这样整个 comvi 就 已经下载好了。那为了大家更简单的使用,把常用的一些工具也直接内置进来了,这样就不需要大家再单独安装,也不需要再去配置这个环境变量, 真正的做到了解压即用。这里都是康维艾的启动命令,其中这个是 cpu 启动的,就是电脑没有显卡的就需要用这种,但是这个基本没人用,因为没有显卡的话,大部分的工作流都是没办法运行的。然后这个是一个正常的启动方式, 这一个是一个半精度的,速度会稍微快一点,但是在极少数的情况下可能会报错,但这种报错是不常见的,所以这个启动方式是我们用的最多的。 然后这里我是调整过的一个启动方式,因为我的整合包是安装了 xformus 加速的,但是有些工作流是不支持 xformus 的, 所以可以用这种来进行启动。我先把之前的关一下,重新启动一下, 大家可以看一下整个的这个启动过程都是非常丝滑的,所有的插件都是正常加载,整个过程中都是没有错误。 现在就进入了 comu 的 界面,二 t x 二点三模显,最低是八 g 显存就可以运行,如果显存是十六 g 以下的, 可以把这个模型换成 g g u f 的 模型,如果显存低于八 g 的, 我就不建议在本地部署,这个体验感是非常差的,只适合跑下图片。 那如果本地的配置不够,又想使用 comui 的, 或者说是想提高效率,就是同时运行几个 comui 的, 也可以到云端来使用。我把这个整行包也发布到呢应用智算上面,在上面搜索我的名字就可以找到这个整行包。直接点击部署, 这里的几种显卡都是可以选择的,然后内存要选择九十四 gb 的, 这样生成长视频的时候就不容易出错。直接点击部署大概需要一到两分钟进行初步化,初步化成功以后,这里就会出现 comu 的 入口, 这个时候还需要等待个一到两分钟,因为初次化这时电脑已经开机了,开机以后它还需要打开 comui, comui 的 启动时间大概就是两分钟。等待 comui 启动成功之后,就可以通过这个入口进入 comui 的 界面了, 这个跟我们在本地是一模一样的,我们可以对比看一下。这是本地的 comi, 这是元旦的 comi, 没有任何区别。元旦的服务器本质上就是我们在远程控制一台电脑,所以体验感是没有任何区别的。 最新的版本在左上角是可以切换成应用模式的,其实我觉得现在用子集已经让界面非常简单了, 现在可以把这个工作流构建成应用了,这里有说明,直接点击节点参数,将其添加为输入项。对于这个工作流来说,首先是需要输入图片的 图片输入,然后需要文字输入,是否关闭图片参考,也可以把它放进来, 然后宽度,高度,时长啊,其他的都不需要了,那这就是一个输入节点,然后点击下一步输入节点,就点击这个输出的结果也就是保存视频,然后下一步 现在就变成了这种应用界面了,这就非常简单,直接上传图片,然后输入题词是否开启,在这里有选择,然后设置宽度,高度,时长啊,直接点运行就可以。 然后简单的跟大家说一下这些工作流的使用。关于视频生成和自定义音频以及首尾帧,在我前面的视频里面已经有提过了,大家不清楚的也可以去看一下。 整体使用还是非常简单的,只需要上传图片或者声音,然后输入提示,点击运行就可以。这里是时长,宽度,高度,那帧率一般都是不变的,二十四帧的效果其实还是可以的, 万二点二的默认帧率是十六帧,稍微来说是比较低。这里的有些工作油如果是只下载了视频整个包的模型的话,他是用不了的,因为他的模型没有包含在里面。 如果下载的是完整版的模型包,那这些都是可以直接点击就使用的,但是原单的我是把模型都已经提前下载好了,对,都是可以直接使用的,相对来说在原单的使用就会更简单。 如果大家把模型下载之后,不知道怎么放置的,也可以参考左边的这个说明,这里是工作流里面每一个模型的放置路径,放置这个模型,然后 norris 放置这个模型,一对应的去放置就可以,那这条视频的内容就是这些。

不是,这个音画同出功能最近也太火了,只需要上传文字或者图片,就可以同时产出带有画面口型音频的完整视频,甚至可零二点六,还支持音色控制,精准复刻音色。而目前国内几个 ai 生成视频的模型也已经卷得起飞, 今天就带大家用相同的 pro 测试一下不同的模型下音画同出,音色控制表现如何。所谓音画同出,就是上传一个 pro, 点击音画同出,在生成视频的同时会完美匹配台词、口型、音效和音乐。我们用相同的 pro 来看一下可零二点六与 one 二点六和吉梦三点五 pro 的 效果对比。 我的 pro 主要是希望生成一位一边在涂精华一边在讲解的美妆博主,并且有运镜和细节展示,我们来看看生成效果。睡前用这款精华,质地像水一样清爽,吸收特别快,第二天早上皮肤摸起来又软又嫩。 睡前用这款精华,质地像水一样清爽,吸收特别快,第二天早上皮肤摸起来又软又嫩。 睡前用这款精华,质地像水一样清爽,吸收特别快,第二天早上皮肤摸起来又软又嫩。在可林中对于 poem 的 理解非常到位,能理解到我希望视频中的人在一边演示一边说话, 整个视频的节奏、环境、人物细节也很舒服,口型和音频也是匹配的,比较难看出是 ai 生成的。 但是在万二点六中,虽然它能产出视频,但是它是一个画外音的方式,并没有完全的理解我们的 pro, 而且其中有加速的过程,这就有点 ai 感了。 在极梦三点五 pro 中,虽然也是视频中的人在一边演示一边说话,但是有些细节做得不好,比如这个精华突然变形了,还是有那么股 ai 味,光是只有音画同出还差点意思。 如果我们需要控制视频中的人物用特定的音色,那么我们就可以用音色控制,在图声视频中可以添加音色,在 pro 的 主体后面加上 at, 将音色匹配进来就可以了。即梦三点五 pro 目前不支持音色控制,那我们来看看可零二点六与万二点六的对比。我们做一个单人独白的视频。 收音机前的你如果也还没睡,正在听这段旋律,我想对你说,城市的夜晚并不孤单,因为总有一个人在用声音陪你等待天明。 收音机前的你如果也还没睡,正在听这段旋律,我想对你说,城市的夜晚并不孤单, 因为总有一个人在用声。两个模型在音色控制下,表现都还可以,精准复刻音色。但是有个问题是,两个模型我都是选择生成十秒的视频,而我们看到 one 二点六并没有在十秒内念完所有台词,而可怜二点六会适配相应的语气和节奏, 将台词控制在十秒内完成,这是比较好的一点。另外,如果需要场景,需要多人的对话的情况,我发现 y 二点六并不支持多个声音控制,而可零二点六是支持控制任意声音。我们来看看可零二点六的效果。 我好像又胖了一点点,最近又吃多了。别瞎说,你在我心里的分量永远刚刚好。 我们看到可能的效果非常不错啊,画面质感很好,声音也很清晰,能清楚的理解我们的 pro, 并且现在有了音色控制的加持, 我们就可以用同一个音色来控制多条视频的输出,非常适合做 ip 角色、品牌形象、小型微电影等场景。并且它会根据 pro 的 场景适配相应的语气和节奏,使用起来也很方便。真不错,那么大家觉得哪个模型比较适合你们呢?好了,以上就是视频的所有内容,如果觉得有帮助的话帮忙点个赞,我是小卢,我们下次再见,拜拜!

超省心的 ai 音画同步生成工作流终于来了!只要你的显存满足八 g, 就 可以加载 k j 刚刚提炼出来的 g g u f 量化版 l、 t、 x 二大模型,然后输入提示词,点击运行音画同步的二十秒,四 k 高清完整视频就生成了! 先看效果,姐我今天在家睡了整整十六个小时,醒了就吃完继续玩,生活简直不要太爽啊哈哈哈!整体画面流畅不卡顿,配音和口型精准同步,镜头衔接自然,还可以根据需求自定义配音。 它采用非对称双流架构,电视频与音频的同步生成,支持 n、 v、 f、 p 四量化优化,普通家用显卡也能轻松运行原声,支持多种生成模式, i c lars 精细控制镜头和人物。 如果你正在创作 ai 短剧、商业广告或短视频,无论是真实类还是动漫类,你都可以拿去试试,轻松解锁音画同步创作新体验!

真美啊,这是一张四宫格分镜图片, 这是这个四宫格图片的分镜提示词,我们来简单看一下这个分镜提示词,提示词分为四段,每一段对应一个分镜图片,大家可以复制提示词到豆包里仿照着写。 关于分镜图片和分镜提示词的制作,大家可以看一下我三月三十日的视频,那期视频中介绍了如何通过一张图片生成宫格分镜和对应的分镜提示词。 现在我们只要在这里上传刚刚的四宫格分镜,再粘贴刚刚的分镜提示词,设置好视频尺寸和视频时长,点击下方的运行按钮,就可以得到一个精美的视频了。视频音频化同步,没有人脸限制,而且不需要排队。 如果你对工作流感兴趣,可以随我打开工作流看一下。这个工作流看着比较复杂,我们只要关注其中的几个关键点就可以了。首先从这里上传四宫格分镜图片,四宫格分镜对应的提示词填在文本框内,在这里设置视频时长,在这里设置视频尺寸。 如果你还想对视频再进一步调整,可以看一下这个参数。我用红框框起来的数值可以调节针与针之间的过渡时间越长, 类似画面之间的叠画效果,如果数值是一两个分镜之间,就是硬切效果,可以根据自己的喜好调节。想要工作流的举个手,私底下发给你好了,这是今天视频的所有内容,如果你觉得对你有帮助,点个赞呗!

兄弟们不用再给 sorry 和 vivo 三花钱了,这个刚刚开源的 ltx 二模型也能做出音画同步的视频,而且一口气最长能输出二十秒,画质最高能到四 k。 我 第一时间去给你们实测过了,用同一段提示词跑了。 sorry 二、 vivo 三和这个 ltx 模型你快点炒你不干,有的是人干! 你快点炒,你不干,有的是人干! 你快来查我,你不该有的是人干!真的完全能够做平替,而且使用也很简单,直接在 comfy 里搜索 ltx video。 第一个就是,不过这玩意很吃配置,准备让你的显卡烧起来吧。

此剑斩尽万象! hello, 朋友们大家好,我是图腾,那么本期的视频内容呢,我们将给大家分享 ltx 四二点三这样一个开源模型啊, 那全程视频内容呢?没有任何废话,我们首先呢看一下他的官网,这个官网地址是这个,大家也可以去这个万网上面体验他的一个在线版本。那官网呢,里面有说了一下我们 ltx 二跟二点三的一个区别, 那它一共更新了四个重大模块,第一个呢就是我们的 ve, ve 更新完毕以后,它的一个画面精细度和它的一个纹理逼真程度啊,它是有更强的一个提升啊,包括我们第二个模块的就是颗粒布,也就是我们非常重要的一个文本编码模型, 他是能够更强的去遵循我们的提示词。然后呢再就是我们之前的一个竖屏模块,他原本是要去做一些裁剪,然后才能得到一些竖屏的一些效果的,所以说现在啊,他做了一个竖屏的一个支持。 另外还有一个非常重要的优化点,就是在之前的 ltx 二里面,他的音频会有一些电流滋啦的声音,那现在也是得到了很大的一个提升,那这就是我们跟二的一个区别。 接下来呢,我们来看一下工作流,工作流的话我也是在 ready up 上面搭建好了,一共搭建了两套,第一套是经典版,第二套是满血版, 那在本地呢,也会给大家去提供本地的工作流,在线的这个版本和本地的工作流版本呢,也是不一样的,所以说呢,稍后我会给大家去说一下区别。那首先呢,我们看一下在线版啊,就 ready up 上面的这两个版本,那经典版和满血版的一个区别。 首先我们看经典版这两个工作流了,所有用到的主模型都是 f p 八的这样一个版本,如果说大家想要根据你们的实际情况修改呢,可以把这个去选择一个 dv 的 版本哦。 然后呢主要这两个工作流的区别是我们的精简版呢,它是一个直出的版本,它只需要一次采用,那我们就可以生成这个图片,那么这个精简版的一个速度呢,肯定是要比我们的这个高清放大版要快非常非常多的。 但是呢它的一个视频质量啊,就是在高动效的时候,它会有一些颗粒感和像素化的一些东西,所以说,呃,它质量上面肯定是没有它要好的。那如果说你们要去测各种 提示词,就是测试你的用户提示词的这样一个效果的话,可以尝试一下去使用这个经典版,测完了以后再去到高高清放大版里面去做。那这个高清放大版里面呢,我们是使用了两次采样, 就是我们的啊第一次采样和第二次采样,第二次采样的话就是对我们的视频对做了一次高清处理,那这样的话他的一个时长呢,很啊,就这个位置,他的一个时长的话就会比较长。 好在我们的云端就是在 running app 上面呢,还有一个跟本地有什么样的区别呢?我们的 running app 上面呢,是使用的 jimmy 二点五去做了一个提示时反推, 在本地呢,我们是使用的千万三,那么所以说呢,你们要把我在 网盘当中给大家提供的这个模型啊,要给他下权,那不然的话你们在这个千纬三的这块位置呢,就可以就会出现错误。 同时呢如果说你们本地的环境跟我不一样的话,那么也需要去下载一下我这个地方的一个整合包,尽量去下载我这个整合包去使用。如果说在本地去跑的话,一定一定要注意的是 你们这个位置的一个内核版本,一定要去给他刷新列表,就是把魔法打开以后刷新列表,使用 nb 启动器,然后把这个版本内核呢更新到最新的, 或者是说把开发版本呢更新到,呃,比较新的,因为在新版本里面的时候啊,他把我们的这个 ltx 二的一个兼容性做得做好了,否则的话你们在这个 切克碰的这个加载模型的时候就会出错,那这是本地版本大家要注意的。接下来呢我们看一下 running haps 上面的一个工作流使用,那这个 tt 分 辨率选择器呢,我也会放在我们的简介或者是网盘当中提供给大家,那这块就是我们选择分辨率的。 然后呢你们把图片上传完毕以后啊,这个地方有个非常重要的开关,这个开关呢是控制我们是否是纹身视频还是说图身视频的,如果说你们把这个地方打开了,那他就会去, 就会去直接在这个提示词里面进行纹身视频,而不会去参考这个图片了。那你们把这个地方关闭以后呢,他就会去参考这个图片,那这个地方的一个判断功能在哪呢?他是在这个位置 image to video, 那 这个位置我们把这个开关呢传到这个位置来,如果说是关掉的话呢,他就会去把这个啊一麦几去做一个参考,否则的话他就不会去参考的。 然后这边还需要去配置一下时长,那这个时长配置的话,大家要注意的是你的时长和你的 fps 相乘以后呢要是一个八的倍数,那这是要注意的。然后就是我们的提示词部分,提示词部分的话有几种方式啊?第一种方式呢,我这边给大家呃 准备了一个这个 sd 的 一个提示词模板,你们拿到这个模板以后呢,就可以到豆包里面啊去复制给他, 复制给他以后呢他会说明白了,然后你就上传一张图片,告诉他多少秒,然后后面的内容他就给你一套这样的一个提示词出来,然后你们把这个提示词拷贝到这个 用户提示词这一块,然后就可以进行执行了。还有一种方式呢,就是我们输入一段内容以后啊,他会根据啊这个地方根,会根据我们的克里普模型生成出来 ltx 二的一个提示词模板, 然后我们把这个模板给进去,那这个地方就是我们要想要生成的一个内容,然后呢这个里面进呢就是参考图,那大家可以尝试的这样去对他做一个链接,比如说我把这个地方拉过来啊, 那这块我是给大家留在这了,我们可以这样连到念到这边来,然后最后呢把这个提示词呢给到他,然后最终他输入出来的提示词,我们就接到这个 click 条件当中就可以了,那这是另外一种方案,大家也可以不用去使用这种方案啊,我只是给大家去做了一个备选方案,那这边呢,我就直接把这个提词模板啊放到我们这个 note 下面,好吧, 那经典版和我们的高清放大版里面都会去放一个,那这个呢就是我们对线上工作流使用的一个方式啊, 接下来我们看本地本地的一个区别,呃,没有太大,就是提示词的部分,提示词部分我们使用的是千万三的一个反推,在线上的话我们使用的界面里, 那然后呢系统提示词和用户提示词,系统提示词的话这块你们不用去动,那用户提示词的话使用方式也是跟我们刚才一样给大家推荐的那几种方式。 然后啊,呃本地的这个模型加载你们一定要注意的是啊,这块一定要注意的是,呃,加载的模型的位置一定要对,那稍后我们在介绍网盘的时候呢,也会告诉他怎么去放。 那其他的使用方式没有什么样一个区别啊,最主要的就是我们使用的千万三的一个呃,反推。好,接下来呢我们来说一下网盘和我们本地搭建要注意的一个事项,首先啊你们要去把你们的 copy y 更新到最新的版本, 其次呢就是我们本地模型的下载,大家把这个模型和模型和 cosmo lod 都都下载下来以后呢,我这个地方的模型的一个目录啊,给大家去准备好了,大家尽量去覆盖。但是呢为了大家了解,我还是把模型的位置给大家去讲一下, 你们打开你们的 com 后台,然后在 cosmo lod 下面 把所有的插件导进去,以后呢,你们重启你们的 comui, 如果说出现红色加载错误的话,那就证明你的插件并没有加载成功, 然后把问题贴到评论区或者怎么样,然后我会回来回复的啊。然后其次就是 models, models 的 话里面,呃主要的模型放在这个接头点的下面去,然后呢再就是我们的一个提示时啊,这个是这个地方是放的千万三的这样一个模型, 然后呢 latent 的 这个下面是放的一个高清放大的模型,那大家只需要把我给大家准备好的这个进行覆盖就行了,其他都不用管。然后这个地方的工作流呢也会放到我们的网盘当中, 那如果说大家有什么问题的话,也可以私信我,或者是进我们的讨论组进行交流。那么本期的视频内容呢,就到这了,我们下期再见,各位,拜拜。

l t x 二点三在 l t x 二的基础上做了很多的提升,比方说画面的细节,习字词的遵循,音频更干净,以及去除莫名的字幕等等。 那这个视频将分享 ltx 二点三所有常用的工作流,包括纹身视频、图生视频。 let's go making some great videos with ltx 二点三,首尾真生视频 以及使用音频来驱动生成视频。那此外还将介绍这些工作流三种不同的安装的方法。 首先看第一个工作流,就是文声视频和图声视频的二合一的工作流,那在这里有这个使用的手册。 第一步就是通过这个开关来切换纹身视频还是图生视频,如果说是这里打开,那就是纹身视频关闭的话就是图生视频。第二步就是输入你要生成的宽度,高度, 时长以及它的帧率。第三步就是写上这个提示词,然后点击运行就可以了。 比方说我们在这里使用这个徒生视频,就是这个跑车在追逐的一段 t 字词,点击运行,这样它就会生成一段汽车追逐的视频。 当然你也可以通过在这里和这里调整这个随机种 来进行抽卡。第二种就是图声视频,在这里关闭,这里上传一张图片,在这里再写上这个提示词,然后点击运行。 let's go making some great videos with ltx 二点三, 然后我们再来看第二个工作流,就是首尾帧的,这里也有使用手册,那首先在这里上传一张首帧的图片,在这里上传一张尾帧的图片, 在这里写上提示词,在这里写上需要生成的宽度,高度以及时长,这里还有它的帧率,这个就是一个洗发水的广告,点击运行就可以了。 然后我们再来看第三个就是通过音频来驱动生成视频, 他也是包括纹身视频和图声视频,也是通过这个开关来切换,是纹身视频还是图声视频, 不一样的点是这里多了一个上传视频的地方,让我们这里上传了一首歌,叫取为了自由的你在这里使用图声视频,在这里写上就是一个男人在唱歌,点击运行。 还有一种方式就是使用图声视频把它给关闭,再用这个音频去驱动其词不变,这里上传一张图片,点击运行,这样就可以了。 这个就是 ltx 二点三这三种常用的工作流, 这些工作流基本上就满足了绝大多数场景了。然后我们现在再来看一下这个工作流是怎么安装的。首先我们要准备一个 comui 的 整合包或者是纯净包,如果说你不是最新的话,在这里双击这个 app 的 comui, 把它升级到最新版就可以了。 那我们先看一下这个是纯净包,这里插件都还没有安装,这个工作流文件也都是空的,那我们来看一下第一种安装方法就是通过康维尔管理大师一键安装,那我们现在以这个音频驱动工作流为例, 点击进去点击一键安装,点击开始安装,那康菲尔管理大师就会自动完成这个工作流需要的所有的,比方说工作流文件、插件节点以及需要的依赖等等, 都会把这些所有的依赖全部自动安装完毕,你只要等它完成就可以了,可以看到已经完成了,我们重启康菲尔,然后点击启动, 那启动完以后,在这个工作流里面就可以看到这个康复腰管理大师的这个文件夹,下面就有一个 ltx 二点三音频驱动文或图声视频工作流,点击进去 可以看到所有的节点都是不缺的,都是正常的,根据这个使用手册,按照刚才视频开头的使用的方法点击运行就可以了,那这是一种方法, 那还有一种方法是使用工作流分析功能,我们现在把这些插件全都给删了,进入到康菲尔搅拌站里,点击这个模型广场,在这里就有这个 ltx 二点三模型和工作流,点击进去点击下载, 点击确认下载,这个是免费下载的,在这个网盘里就会有这个两个部分,第一个就是需要的所有的模型, 第二个部分是刚才演示的这三个工作流,然后你把这个 modus 直接复制到你的康复 ui modus, 那 里面就是覆盖你的康复 ui modus。 启动之后把这个工作流给拖进去,我们现在启动一下,因为我们没有安装节点,所以说可以看到这里 是很多节点,我们进入这个工作流分析,把这个工作流直接拖进来 音频驱动文或者是图声视频的工作流,点击开始分析,这样的话他就会分析出这个工作流需要的所有的插件,然后我们找到这种未安装的,点击自动安装,点击开始安装,他就会自动完成 这个插件的安装以及他的依赖的安装,然后这种看到这种未安装的,点击自动安装,点击开始安装,然后我们继续安装, 开始安装,那安装完以后再回来工作台,我们重启一下这个康复圈,可以看到刚才的这个缺失的节点,就这里第一次打开的时候,这节点都是缺失的,这样这些节点全都补上了,按照这个使用手册 视频开头的那种操作方法,点击这个运行就可以了。那还有第三种跟第二种差不太多,先把你这个 modus 覆盖你自己的 comui modus, 再把这个工作流拖到你的 comui 里面,手动去补这个需要的节点 再启动就可以了。这个就是 ltx 二点三所有的常用的节点再启动就可以了,这个就是 ltx 二点三所有的安装和使用的方法。

下面我们来看到 air tx 二点三的 lora 型面, air tx 二点三是一个非常强劲的音画同步生成模型,在开源设置当中,所以它的 lora 型面也直观重要,这味道还行, 到此为止,可以看到已知性保持还是非常好的。那么我们训练所使用的底模就是这个二十二 b 的 def 模型,体积巨大,所以也推荐使用。大家租用线上的镜像来进行一键训练。与其中 我们进入到优云计算平台,找到对应的镜像,点击部署实力,这里推荐使用的最低配置呢为五零九零,再低的话对质量有极大的减损就不太建议了。说明书往下拉,找到我们的启动指令, 复制,点击立即部署实力列表当中等待一下。然后呢,进入 jupiter lab 任意的地方,打开终端,粘贴启动指令回车,等到最后出了地址,八六七五回过来,点击 ai toolkit 就 可以进入我们的训练界面。 训练界面当中我们左一列呢有一个训练的队列,包含两个预设,一个对应着四零九零,四十八 g, 一个对应着五零九零,那么我这里的名字不对, 发布的版本的名字就是五零九零,我这里租用的是四十八 g 的 四零九零,也是最为具有性价比的选择。正常情况下,我们进行快速启动,创建一个训练级,任意的名称都行,点击创建,我这里是年代的声音进行训练,所以我的训练当中呢是包含音频的 e r tx 二点三的官方并没有明确地表示应当如何打标, ai toolkit 的 官方所表明的打标方式我认为符合这样的一个规则呢,应当是没有问题的, 大家可以把这个规则丢给大元模型去帮我们进行分析达标。触发词我们就不填,每一段我们描述当中呢,我都重复了一个叫做汤姆希尔比的男人,我们也可以像这样把它做得更为复杂,但一定要在每个文本当中重复同样的这一句短语 以作为我们的触发词。视频的格式我们就用普通的 mp 四,视频的宽我们就用一九二零,高就用一零八八,那么这个长度呢,就是五秒钟,也是一百二十一帧的对应数值,帧率是为二十四, 这均是我们使用 air tx 二的推荐配置。然后在训练的队列当中,我们找到一个任务,对应着我们所租用的显卡, 如四零九零四十八 g 的 版本,或者五零九零。其实这个地方如果追求质量上来说的话,四零九零的四十八 g 应当已经是最低配置了。点击进入 往下拖,选择一下我们的训练级,然后更新一下任务,直接点击运行就可以进行训练了。这里只要去切换一下训练级就行了,触发词都不用改的,如果愿意的话,可以设定一下触发词写在标签里面了。 根据我这里的观察来看,训导第三千两百五十步的话,一致性就已经保持挺稳的了, 感兴趣的可以往后看一下详细的配置。这里的配置其实对于训练的结果呢,影响并没有很大,主要的是对于性能的调节。 训练的名称不重要,它只是用来备注设定我们的任务。 gpu 设定出发词,出发词能够让模型以后呢靠一个词来稳定的召唤我们的角色啊。 模型区域明显,我们进行 l t x 二点三的设念设定一下模型,那么一般情况下我们只需要绑定这一个模型就行了。可以这么说,八十 g b 以下必须要开启低显存模式的分层卸载开关啊,我们把这个 transformer 百分之一百卸载掉。 文本编码器我做成零,那么我认为主按模型的量化至 float 八就够了,尤其是对于迷之讯而言,我认为没有必要跑到四比特这样低, 一定会出现列化减损。文本编码器我认为问题不大,就使用斯比特进行单独量化就行了。那么认可的话,我们就用六十四模型的保存精度默认没有问题,每二百五十步呢,保存一个模型最多我选择保存一万个, 那么下方的训练设置当中呢? best size 我 们就用一一,应当是最稳的。那么根据我的调查来看,对于视频的训练来说的话,还是不要超过也好, 梯度累积次数我们也用一啊,跟着这个 biosize 走步数的话,我设定为一万步。优化器保持默认啊,基本上我们一般用 ai to get 都用这个默认的, 学习日的话就用零点零零零一。后面这些部分我们其实也都保持默认,不做对比测试,其实很难评价这里的数值熟优熟劣啊。文本切入缓存建议开启啊,会降低我们对于性能的消耗啊。训练级这个地方有一个对应的选项, 内存缓存也建议开启啊。那么是否要做音频的训练呢,也建议开启啊,如果我们的训练当中包含这个人物的声音的话,就可以开启吧, 因为我这里做的是人物一致性训练,这里关闭。我们不做帧的话,是否做 iqv? 我 们也不做 iqv, 加载音频时对音频做归一优化,把不同视频之间的音量差呢拉平一些。 如果说我们加载的训练级当中的音频差呢,没有那么的大,我们就没有必要开启它,为了适配我们的训练帧数而尽量保留音高。 这里的话我也关闭啊,因为我就是用的标准的参数啊,一九二零乘以零八零乘二十四的帧率做二十四的帧率,帧数为一百二十一帧,就是五秒钟嘛,所以这种推荐设置下,我可以不开启该项。那么我也建议大家做我这样的统一的训练级的视频的配置, 可以用剪映这样的软件去做,非常简单,而且也不建议做什么自动化,因为有的时候我们想同时做这个音频的训练的话,我们得确保这个人物在说一个正常的话,我们还得给他打标。 是否要进行水平翻转或者说垂直翻转呢?没有必要,因为乱翻的话可能会破坏镜头语言了。 训练分辨率,那么我这里使用的是七六八,对于四十八 g 的 四零九零而言,我认为再提高一些的话,如到一零二四,甚至说一二八零,我们应当使用更高的显存,更强劲的配置了,五零九零就只能开五幺二了, 所以这个地方大家自己去权衡。最后方是否要采用呢?我这里选择关闭采用,因为这里采用往往不能对应我的测试结果。实话实说是这样,如果要采用的话,我们记得把提瑞斯改一下,比如确保我们的触发词再列,不然我们也很难去采用。出一个我们想看的样例吧。 总体来说, ltx 二点三的训练与 ltx 二的训练呢?没有特别更新的地方,相反, ltx 二点三的话 貌似是参数量的增加的话,会让我们对训练的要求更高。我这里训练了三千两百五十步,都运行良好,大家如果没有退出这个页面,直接点击下载就行了。如果一不小心退出了页面而在后台运行, 我们可以在工作区进入 ai to kit, 找到 auto boot, 在 一个文件夹下面可以找到我们的训练的模型。

l t x 二点三全新升级强势来袭!今天带来最新 l t x 二点三加康复外整合包,堪称当下音画同步视频生成的巅峰之作,而且无需任何环境配置与部署流程,一键启动即可全方位体验 l t x 二点三以高精度音画同步生成为核心突破。大家好!在 l t x 二点三以高精度音画同步生成视频的基础上,进一步优化文本编码器容量提升四倍, 能更精准理解提示词,还原镜头语言与角色动作。再加上升级后的 vip 模块,画面细节与运动稳定性大幅增强, 不仅支持首尾帧联合引导更新,增数百零八零乘一九二零输出,是短视频创作的多样化与细节表现力实现飞跃。尤其是其升级后的多模态对齐技术, 通过新生马器与噪声过滤训练,显著提升人物语音与口型的画面同步精度,每一句台词都对应更自然流畅的口部动作,影视级创作效果拉满零基础,也能轻松打造专业级影视作品。 此外, ltx 二点三兼顾生成质量与运行效率,最低八至显存即可运行,无论是短视频创作、商业广告还是电影级片段, 都能实现高效高质产出,大幅降低了专业视频制作门槛,让每位创作者都能轻松解锁无限创作可能,赶紧一起来体验吧!

真希望高考快点结束呀,想和喜欢的人一起去看海边,不知道学长今天有没有好好听课,复习进度赶得上吗?未来的我们会不会,会不会考上了同一所大学呀? 好久未见郎君了。不,他是否还念着奴家有没有喝到新采的茶?

are you ready to explore the stars with me look i can control all the starlight take this my superstar magic see you next time don't forget to wish upon a star。 咱们以前在做图声视频的时候,往往不能精确的去控制这段视频,比方说第一秒干什么,第三秒干什么? 第四秒干什么?那最近这个 kg 刚刚开源了一个插件,叫 prompt relay 这个插件, 那它就可以做到精确地控制这段视频的每一个小段。比方说我们以就是这样的一个图片为例,只需要在这里写上一个总体的描述, 下面的话就可以对他进行分段的描述。比如说我们现在给他分了四段,每一段都有这么一句提示词,就是指导他干什么。 上面这个是中文的解释。第一个就是登场完了之后说了这么一句台词。那第二个镜头是能量汇聚,女孩抬起手,空间略微扭曲,说了这么一句台词。 第三个镜头就是说释放出一股宇宙能量爆发,例子以慢动作爆发,然后说了这么一句台词,最后收尾,能量消散完了之后,他就说了一句再见这么一句台词。 我们来看一下这个生成的效果。先看第一段, are you ready to explore the stars with me? 就 他登场的时候说了这么一句。第二个 look i can control all the starlight。 第三, my superstar magic see you next time don't forget to wish upon a star。 就是 刚才的第四个说再见的那一段, 可以看到他可以精确控制这个视频里面的这么四小段。然后呢,如果说是你想调整这个分段,比方说添加这个分段的数量,你就可以点击这个爱的他,就往最后再加一个分段 拖动它,还可以去调整,点击这个可以把每个分段进行平均,如果说你想调整每个分段的时长,你就可以这样拖拽都是可以的。如果说你想删除这一个,点击这个 delete 就 可以删除了, 那我们现在把它给调成平均,那这个工作流你只需要关注这一个用户操作区这个地方第一个就是时长,你想生成多长的视频?我这里是生成了十五秒的帧率,你设置一个固定的帧率,我这个设置是二十五帧每秒, 在这里上传一张图片,设置视频的宽度和它的高度,这样就可以了,直接点击运行就可以了。 如果说你想抽卡,可以在这里去改变他这个种子数进行抽卡。这个设置的原则是,第一个就是你要对他一个整体场景的一个描述,你不需要描述太细,就是对整体的场景进行描述, 场景风格里边有哪些人等等。下面就是比方说我这个是第零到一百二十三针,他干啥,这个是一百二十三到二百四十五,他在干什么?就这样就可以了, 点击运行就可以了,这个工作流都已经搭建好了,所以说用起来都是非常的简单的。那我们现在看一下这个工作流怎么安装。那首先我们要准备一个康复 u i 的 整合包,这个就是康复 u i 的 一个纯净包, 我们可以看一下他的康复 u i 这个插件目录是空的,什么都还没有装,他的 工作流目录也都是空的,都还没有。那我们这里介绍两种安装方法,一种是一键安装,一种是手动安装。我们打开这个康复腰管理大师,进入到这个工作流广场里面,找到这个 prom 的 relate 图声视频工作流, 点击进去直接一键安装,点击开始安装就可以了,那这个时候 com 幺管理大师就会自动下载这个工作流文件,以及这个工作流使用到的所有的插件,节点、依赖等等, 你只要等它完成就可以了,可以看到现在都已经安装完了,包括上面的这种插件的安装, 还有这种依赖都是自动安装完了,安装完之后点击关闭,我们在这里重启一下。好,现在是重启完了,我们进入到这个工作流这里,可以看到这里多了一个 control 管理大师这个文件夹, 下面就是这个刚才下载下来的这个 l t x 二点三 prompt relay 图声视频工作流,我们在这里上传一张这个图片,这个提字词我都是保存到这个工作流里面了,你下载下来之后, 这个视力的提字词都在,你参考这个提字词来写自己的提字词就可以了。然后点击运行好,现在已经运行完了,可以看一下 i can control all the starlight, take this my superstar magic。 好, 可以看到就是在康复腰管理大师里面直接一键安装,就可以把这个这么大的工作流直接在本地运行起来,那我们下面看第二种手动安装。首先进入到这个康复腰搅拌站里, 点击这个模型广场,找到这个 l t x 二点三 prompt relay 图声视频模型和工作流,点击进去点击下载,这里可以免费下载, 点击确认下载,复制一下这个地址。那这个网盘里面有两个部分,第一个就是这个 model, 你 下载下来之后,把这个 model 直接覆盖你的 comui model 就 可以了。 第二步就是在你 comui 里面去安装这个工作流需要的插件。第三步就是重启 comui, 将这个工作流拖入到 comui 里面。再根据刚才说的,还有这个地方也有一个使用方法的,建议 按照这个步骤来操作就可以了。好,这个就是 ltx 二点三这个 prompt relay 这个插件的用法。