从今天起,你可以彻底告别哑巴视频了。这款火爆全网的 ltx 大 模型可以直接生成包含音效的视频文件, 并且能够让声音效果完美契合角色的动作和口型。除了可以使用文字生成视频外,这款模型还支持图声视频,甚至是视频生成。视频模型对消费级显卡十分友好,生成七二零 p 分 辨率时长为十秒的视频仅需十 gb 显存,而且仅需数分钟即可完成。 如果你的硬件资源充足,模型还支持生成四 k 分 辨率视频,效果相当惊人。如果你对模型感兴趣,可以直接通过访问 hackinface 的 demo 网站在线体验。 而如果想实现本地部署,那么可以直接使用我之前视频介绍的 pinocchio 神器一看。 c 的 安装文件可以从官网或是群内置顶链接下载,在首页界面点击第一个 one two g p 图标进行一键自动安装。 在安装时,要确保你的网络可以顺利访问 github 以及 hackinface 网站,并且硬盘至少有七十到八十 gb 的 剩余空间。安装成功后, 需要在下拉框选择 ltx v two 输入提示词进行视频生成。软件在首次运行时会自动下载体积为十九 b 的 模型文件,需要耐心等待。模型会在下载完成后自动加载,无需额外设置。感兴趣的朋友可以进行安装测试,欢迎在评论区分享您的心得。
粉丝6789获赞14.1万

这座城市那么亮,却容不下一个土豆仔。 灵域转开,无量空出 修斯顿,我我我找到了幸存者,但是,但是,但是它变成了土豆。 ok, 大家好,我是飞雪。那么果然啊,我昨天刚刚说完社区会很快做一些模型上的优化,那么今天的话,我们的那个 模型的话,本地基本上已经可以跑了。那么我们现在在本地的话,我像我十二级的话,应该是一个八秒的话,是只需要六分钟左右就能生成,然后一个十六秒的话,我目测我自己跑下来的话,是个五五百秒左右也就能生成了。 那么我是一个本地是一个十二 g 显存,一个三十二 g 的 一个内存啊,那么实测下来的话,如果你们的内存比较高,比如说有三十二 g 或者是六十四 g 左右的话,你们哪怕是八 g 也是能跑的,因为他主要的压力其实在内存上面。然后记得一定要是去设置一下我们那个虚拟内存, 内存的话其实就是你本地的内存的两倍去设置就可以了。那么具体怎么设置的话,你们其实其实那个在 b 站上面随便搜一下就可以了,非常非常简单的这个坏东西,你们很多东西跑不了,其实都是因为没有设置我们的那个 虚拟内存啊。那么这一次的工作流呢?我也已经上传到了 runnyhop 上面啊,做了两个版本,一个是高配版,一个是低配版,然后全部都是十六秒的一个生成,那么你们第一次注册的话是会送一千点的,每天登录都会送一百点。 runnyhop 上面的话,可以比较方便去做一些视频那个生成啊,因为速度也比较快, 那么我们回到我们本地这一块啊,本地的话我就做了一个低太那个低配版的一个设置,那么其实不管是低配版和高配版,其实差距就在一个模型的上面,那么其实唯一的话区别其实就在于我们的一个 那个我们的那个 clip 的 模型,那么就在这边我们用的是一个 f p 八的一个模型,然后我们加了一个就是保留我们的一个显存的一个模型,然后我们加了一个就是保留我们的一个下载的一个地址,反正你们按需去 题,按需去拿就可以了。然后模型的话我具体也会在网站当中跟大家讲你们怎么去选择,那么高配低配其实差别就在这一块,其实其他是没有任何区别的好吧, 所以如果你们想考那个跑八配的,其实只需要把我们的 vivo 模型换一下就可以了,然后如果你们配置还是够高的话,那你们可以把换成原模型,那么原模型的话基本上有一个四十多 g 了, 然然后的话四十多级的话,如果理论上的话,其实是你们是可以跑的,因为这里做了一个显存的一个设置,他一定会保留不会爆,那么可能速度上比较慢。好吧。那么 简单的那个 demo 的 话,其实你们在开头也看到过了,那么本地的话,其实你们也可以看到我已经跑出来了,但是是一个十六码的一个生成,但是他变成了土豆, 然后整体的运镜效果皮比之前都好了比较多啊,那么原因就在于我重新做了一个提示的模板,因为在跑长视频跟那个八秒跟十秒的时候,其实他的提示模板是不一样的,我们可以看一下啊, 那么在八秒的时候,我们其实输入的是一个输出的,是一个三段的一个句式的一个输出,那么在十秒的时候,其实输出的是一个五段的一个输出,这样子的话,他整体的一个 结构的输出会好很多,因为你高光靠那个三个的一个句式输出的话,其实在整体的史蒂玛的剧情当中其实是有点短的,那么在五个的话,相对来说整个剧情就比较紧凑了,然后题词上面的生成位做了个优化,但是呢, 目前来说啊,其实它虽然效果比之前好非常多了,但是呢还是相对于它的一个中性程度,我认为还是有问题的。那么我觉得可能是我的一个 那个帖子的模板设置的还不够好,那么可能肯定后面还会继续迭代的好吧,因为新模型出来,我们在第二天的时候,那么第三天的时候,等于第三天的时候基本上已经开始可以跑一个正常的视频,并且我们本地能跑,其实这个进步是非常快的, 这次的社区的活力也非常大,大家都一直在努力去做一个优化,那么包括 kj 其实已经开始做这一块的内容了,好吧,所以我们期待一下这一块的进步会非常快的。在社区的努力下面, 那么我们简单开始讲一下工作流啊,那么你们需要根据自己的一个需求啊,设定这边的一个值,那么在这边的话,我其实做的是一个八秒的一个输出啊,那么其实我柱子上面已经写的很清楚了, 二十五帧等于一秒,那么在这边其实二十五帧,二十五帧,然后有人问为什么输出出来,明明他这里改了帧数输出的之后还是一个二十五帧,那是因为你们这边没有改啊,所以这三个数据都需要改一下的。如果你们要改变这个输出的一个帧率的话, 那么在这边的话二百零一针,我其实也写了,除以二十五针,记得一定要加个一啊,就等于说二十二百除以二十五等于八,然后他二百之后还要加个一才行,这是他官方设定的啊, 然后四百零一起就是一个十六码,其实就这么简单,如果你们想要跑高的,其实也可以跑的没有问题的,就是我因为方便八 g 去做一个设定,然后输出了一个八秒的一个输出啊,其实你们完全可以把它改成四百零一秒的,但是记得十二 g 及八 g 的 话,你们跑一个四百零一的话,有几率跑完几次之后是会爆的, 好吧,因为对于本地的压力其实还是有的,虽然我们做了一个限定,但是他还是会有压力的,所以建议的话,你们八 g 的 话,其实跑一个二百零一秒,二百零一帧就够了, 就等于说跑个八秒,那么你们十二 g 及十二 g 以上的话,是可以去跑个四百零一的,那么出现爆的几率会变小,十六帧几乎不会爆哦,十六 g 显存几乎不会爆,好吧, 然后这就是我们正常的一个分辨率的一个设置,那么一定要是乘六百的话,我跑下来反正是一个四百零一帧的情况下,就是五分钟五百秒左右的一个时间, 然后对话,你们记得啊,是需要简单写一下的,就这么简单写一下就可以了,不需要很很复杂,因为后面会有自动的扩写的 啊。模型的话反正昨天去跟大家讲过了,就是在网盘里面一些模型,你们只要按需把它下载下来就可以了,我会你们到时候再选择大模型跟可立本模型的时候,你们需要做一个抉择,那么我建议大家去做个低配就可以了,没必要去跑一个包配, 因为效果的差距我感觉也不是特别大,除了大模型这一块的确有差距,你们跑原版的跟 f p 八的是有差距的,可立普的话我目前感觉差距也不是非常大。好吧,那然后这一边的话,我们 记得一定要去我的那个网盘当中去拿,或者你们自己去下载这个插件啊,这个插件我肯定会留好的给大家,然后这边过来之后就正常的一个昆山那个反推,然后会有个卸载内存,那么我这跑的其实就是个 f p 八这个版本,所以你们使用 f p 八就可以了,我觉得没有必要去用四比八,比本身模型的压力其实很大了。好吧, f p 八反推出来其实都正常的, 然后这边就正常的传导过来,其实在昨天当中已经跟大家讲过了,所以我就不细讲了,然后就这边就正常过来之后,唯一的区别就是在这边 v 一 解码我改成了一个二五六的一个解码,因为五幺二还是会爆的,二五六的话基本就能顺利的一个输出了,然后就正常一个生成。 好吧,你们视频其实就这么简单,然后到时候跟大家讲一下网盘的事情啊,那么网盘当中的话,其实基基本的内容跟之前是一样的,无非我把工作流重新更新了一下,然后我做我把那个十六秒的那个提词模板放上来了,但其实放不放都一样,因为在工作流当中,其实我已经给大家都放好了。 好吧,然后模型这一边的话,你们需要注意啊,一个是 different 模型,那么你们如果高配的话,就去选一个十二 b 的 一个圆模就行了,但我建议大家去跑这个 f p 八就可以了。好吧,这个我觉得差别不是很大,目前情况来说, 然后就是我们的那个提子的话,我建议大家也是跑一个四 b f p 八就可以,那么如果因为现在也不支持我们的破镜,所以我觉得没必要去跑四 b 啊,那么等后面有破镜了,那这个东西才有点意义。 然后 lara 的 话跟之前也都一样啊,这两个 lara。 然后这边的 check point 的 话,我们也刚刚跟大家说过了,这是原模型,这是一个量化的一个模型,那么建议大家跑个 f p 八也可以了,因为本地其实跑 f p 八我觉得已经够了。 然后这边就正常一个放大模型,那么在插件这一边的话,哦,稍等我就放了个 q 三,我到时候把那个这个插件把它放进来啊,因为你们有些人没有,然后其他的话,其基本上就不涉及到什么东西了,好吧,那么这期视频就这样子了,那么现在的话,你们本地真的能去玩这个模型了,大家可以快点玩起来, 目前纹身的话这一块还是比较惊喜的,那么后面的话社区的发展是一直在更新的,最近可能更新的频率也会比较高,在这一块的内容上面,好吧,那么视频就这样子了,谢谢大家。

哈喽大家好呀,这期视频是带来一个人物 lora, 而且是最近开源的 ltx 二点零纹身视频的,因为这个 ltx 二的纹身视频太好用了, 但是里面的亚洲或者国风人物的脸型装造都是稀烂,所以我就花时间炼制这个唐代士女的 lora, 效果非常惊艳,只出的一零八零 p, 然后只有剪映放大而已, 没有调色,没有插针。然后我还改编李白的清平调,给他写了一首歌,就是片头大家看到的歌曲和 mv, 我 非常喜欢这个 laura, 给他命名为缓缓,取的是还肥燕瘦的典故。工作流我已经放在简介和评论区了,感兴趣的朋友去二十体验一下吧。 环环这个人物 laura 算是一个尝试,一点零版本装造不算很还原,不过受益于模型的强大,在提示词将人物妆容、服饰描述的很清楚的情况下, 最后生成的结果也很不错,包括场景的想象都与提示词相符合。来玩一下这个 laura 吧。首先给大家介绍一下 ltx 二点零的工作流,主体就是提示词、模型和输出三个部分, 并且我把本地解码和放大插针也扔进来了,大家合规使用即可。放大呢,就挑选自己喜欢的去放大,毕竟放大一个视频到四 k 也需要十分钟左右。首先提示词部分, lora 触发词不用改,就按结构输入你想要的场景, 然后经过大模型优化和扩写,这里查看中英翻译扩写的提示词传入模型区 处理,我们设置好尺寸、帧率,视频时长,注意这个视频时长要是八个倍数,并且结果加一模型区,这里加载 laura k 采集器,不用调整 最后到输出,输出的帧率,我们前面设置好了,推荐二十四帧,因为这个模型对二十四帧非常友好,动态也很优秀。 但是这个简化的跑五秒以上的视频会报错,要跑长视频还是用官方版本的,这个胜在简洁。 然后其他组建我也都讲一下吧。看这个手动提示词,就是把线段连接到 clip 文本编码器,这里还要说一点,提示词列表不能用在这个,这个 clip 识别不了,然后禁用掉自动优化提示词的模块就可以了。 本地解码呢?要禁用掉合并为视频这个节点,有时候安审没过,我也会用本地解码,看看是不是真的没有合规,然后再去调整提示词 放大和插针,使用时记得把左边的模块全都禁用了,按住 ctrl 键全选,然后 ctrl 加 b 即可。再打开我们的放大模块,选择要放大的视频, 然后设置放大和插针倍数运行即可。接下来我带大家探索换换这个 lora 的 一些可能性,以及为什么我推荐大家也炼制一个 lora, 甚至炼制自己的 lora。 首先看一些视频,对比现代风格的下题诗词欢欢的不同样子,这是一些现代服装,我尽可能描述不同妆容和服饰发型,以及戴眼镜帽子等内容,可以看到人脸一致性很还原,但是服饰和环境并没有完全构建出来。这是因为我的训练数据里没有现代场景, 从 lora 训练上来说,数据越多越全面对我们表现场景就越好。所以思路上就是你想让人物穿什么衣服,有什么发型,在什么场景,你的数据集就去包括什么, 包括各个角度的脸和身材照片,这些素材我们都可以用千问 edit 二五幺幺这个图片编辑模型去做,做好之后去训练 纹身,视频的的丰富度就会得到非常大的提升。总之你想要人物相对固定的形象,就就像我这个 lora 一 样,用风格一致的图片去训练。如果你要让人物不同形象和场景, 你就把素材扩展到这些形象和场景。练制好了人物 lora, 我 们就有了一个 ai 演员,你可以让他说话、走路、演戏。 o t x 二点零是音画同步的模型, 虽然目前声音还是有点难控制的好,但是后续社区解决方案肯定会很多。假如你炼制的是自己的 lora, 那 就是更好了,你就可以出现在任何场景,想象力真正的变成了翅膀。 好,上面讲了训练素材的准备思路,我们就说说怎么训练。首先我们的图片要处理到一零二四乘一零二四以内的分辨率,比如我的是十六比九 的图片,我就处理缩放到一零五六乘五九四。然后把处理好的图片用英文打标。打标和图片处理的工作流我放在视频下方, 你也可以自己写中文,再转换为英文去打标。简单描述下人物、场景等。打标后的 txt 文件要和图片名称一致,形成一一对应,并且把你写的出发词放在打标好的词语的第一个。 然后去到云平台租用一个四零九零的镜像,这个镜像是四十八 g 的, 刚好够用,价格也便宜,二块多点。一小时等待开机完成后,在应用实力里打开云端 os, 可以 看到桌面有三个图标。首先是上传数据极,点开 image 文件夹, 我们把自己的图片和打标的 t x t 全选拖拽进来即可。然后启动训练器,这个训练器是 ai two kit, 很多模型包括 z image 千问都可以用这个训练器来炼制 lora。 我 们先看看自己的数据集显示是否正常, 图片下显示的就是我们打标的文字。然后新建一个 job, 先看第一排,填写训练名称和出发词。 model 这里选择 ltx, 二路径不用改。 接下来最右边的 save, 这里第三个的四改为一百,表示一百步保存一次,这是为了方便对比效果,如果你熟悉的话可以改高点。 第二排 batch size 改到二步数,改到一万,其实可以设置更高,我训练到一万步时还没完全拟合,不过效果已经很出色了,数据极大的话三四万步都可以跑。注意这个 batch size 为二,所以我们实际的步数要乘以二,这样一万步实际就是两万步。 第三排是 data size, 没有要改的数据集,这里如果你上传了文件夹,那就得选择你上传的第四排 sample, 这里是重点, 要把这个 sample 关闭,不让训练出预览,不然会爆显存。点击 skip first sample, 还有下方的 disable sampling, 并且下方的提示词全都删除,都设置好之后就可以 create job 了。再次点击右上角开始训练,等待一下,训练器就开始运行了, 一步耗时大约四秒,也就是跑完需要十一个小时,但是我们应该隔个一千步左右就就去做下验证,把文件下载下来,然后上传 runnyhab 去测试,记得把工作流理的 laura 选择为你上传的 laura。 ltx 二点零出视频很快,平均只要四分多钟, 所以验证还是很方便的。我的训练没有出现太多问题,目前音频 ltx 音频相关的训练教程官方还没出所,中文口音不太对的问题还是要等后面才能解决, 不过相信会很快的。好了,关于 ltx 二点零的纹身视频 lora 训练今天先分享到这里,后面我还会继续探索这个 lora 的 能力,我们下期视频见,拜拜啦!

只要你的显存满足八 g, 就 可以加载 k g 刚刚提炼出来的 g g u f 量化版 l t s 二大模型。 然后输入提示词,生成一段柴犬狗狗们在一起吐槽自己的主人累成狗的视频,点击运行,你就能得到这么一个搞笑视频了。主人今天说他累成狗了,他是不是对狗这个物种有什么严重误解?我今天在家睡了整整十六个小时,醒了就吃,吃完继续玩,生活简直不要太爽啊! 当然,你也可以用 lts 二生成一段在说着河南话的搞笑视频。死鬼,俺不争嘞!俺不争嘞! 今天就来讲 lts 二大模型 g g u f 量化版的操作指南。 kj 作为 a i g c 圈的劳模,他在第一时间就把 lts 二的 g g u f 版提炼出来了,并进行了开源分享。 在这里呢,有很多的量化版本,你就选择 q 四 km 这个版本,因为它的体积最小。如果你的显存是五零系的,你就当我没说,毕竟体积越大,生成出来的视频质量越好。另外,这个 lts 二还需要配合 gm 三大模型作为文本编码器, 它也有不同版本的 g g u f 量化版。总之就是一个原则,如果你的显存只有八 g, 那 么你就选择里面体积最小的模型就可以了。完成以上工作之后,你就可以跟着我搭建 comf u i 工作流了。 先跟着我打开 runnyhab, 搜索电磁波 studio, 点击工作流。这里面呢,有我搭建好的 l t s r 文声视频和图声视频的 g g u f 量化版工作流, 点击运行工作流就可以跟着我学起来了。进入到 lts 二纹身视频工作流之后,你会发现整个工作流只在模型加载这里做了改动。 在 unit launcher g g u f 节点这里加载的就是我们刚才说的 lts 二的 q 四 km 量化版模型。 在下面的 do clip loader g g u f 节点加载 gemma 三大模型。我在这里没有加载 g g u f 亮化版,因为我想生成出来的视频效果更好,毕竟我的显卡足够大。如果你的显卡只有八 g, 那 么请你加载 g g u f 亮化版。 下面就是设置生成视频的分辨率和时长了,记住设置的分辨率要能被十六整除,另外视频默认是二十四帧每秒,因此你想生成几秒的视频,你就带入数学公式,秒数乘以二十四加一就可以了。 我写的是二四幺,也就是生成十秒时长的视频。接下来就来到了重头戏,在 text in code 节点输入提示词了,一定要记住,提示词要写的足够详细,你看我写了多长的提示词, 包括两只狗身处什么场景,如何进行对话吐槽,主人镜头如何切换,写的都非常的详细。我建议大家好好看一下我写的提示词, 其他的不要动,点击运行,等待一分钟,你就能得到一段特别搞笑的两只狗在吐槽自己主人的视频画面了, 主人今天说他累成狗了,他是不是对狗这个物种有什么严重误解?我今天在家睡了整整十六个小时,醒了就吃,吃完继续玩,生活简直不要太爽啊! 另一个图声视频工作流跟刚才介绍的文声视频工作流基本是一样的,只是在下面加了一个 load image 节点,用于上传视频的手帧画面,通过旁边的 image scale by aspired ratio v2 节点进行视频分辨率调节, 然后在 type in code 的 节点输入提示词。还是要强调一下,要仔细写提示词。你看,我在这里是这么写的,他用很浓的河南口音,地道郑州洛阳味,脱长音,儿化音,明显的撒娇说死鬼 i'm not real。 其他的参数保用动,点击运行,等待一分钟,你就能得到一段女生在用河南口音说死鬼 i'm not real。 看到这里还等什么,赶紧跟着视频学起来吧!如果本期视频对你有所帮助,请关注、点赞、收藏,三连走一波!这里是电磁波 studio, 我 们下期视频见!

只有一颗糖了,我应该自己吃还是应该送给他呢? 哦,真抱歉,我不是故意的, 一旦你跑呢? hello, 小 伙伴们大家好,那么今天开源社区可以说是一项非常重要的事啊,就是 ltx 二点零终于开源了,那么它是开源社区里边第一个支持真正的中文对话生成 这样一个视频模型啊。本来这个头衔应该是给到万象二点五的,但是结果就是,呃,他不开源了。那么现在开源社区第一个支持中文生成语音视频的这样一个模型,那就是 ltx 二点零了啊, 很很讽刺是吧?是个以色列的一个公司啊,人家做的模型实现了第一个开源社区的中文语音对话啊。 ok, 那 么这个模型呢?他是个一个十九 b 的 这样一个模型啊,他要求配置是比较高的。我先在这边跟大家说,我首先我本地的五零六零 t 十六 g 他 是跑不动啊, 他会报险存。那么另外一个好消息也是啊,就是我的五零九零 b 也很快要修好了,厂家那边呢,就是已经在测试了,因为问题比较简单啊,在测试了,没什么问题的话,应该这两天就给我发回来了,到时候就可以愉快的跑测试了。 好,那么它这个模型其实里边集成了一个 ve, 这个 ve 能解码这个音频,也能解码这个视频啊,那么它还需要一个 textencoder, textencoder 它用了一个十二 b 的 jama 三啊,用了一个十二 b 的 模型做做这个 textencoder, 这是非常庞大的,所以它是支持中文的哈,它是支持中文的,因为 jama 三它是支持中文的, 那么他这边的有几个功能啊?具体的来说下,第一个就是最简单的纹身视频纹身视频啊,第二个呢就是蒸馏版的纹身视频啊,第三个就是我们的图生视频啊, 还有就是我们的这个线稿控制视频生成,线稿控制视频生成,还有一个就是我们这个深度控制视频生成啊, ltx 二点零,这次可以说是他的野心非常大,而且做的准备非常全面,因为我们知道 ltx 之前 他一直是处于一个零点九七或者什么这个版本的一个状态啊,就说他的这个版本一直没有正式版的发布,那么直接出来就是一个二点零, 而且这次说实话效果我觉得非常不错,非常不错。那么我们就看一下这个工作流啊,工作流的 copy y 已经给提供了视力工作流,但是它是子图这么一个,呃,打包好的,那么我们需要把子图做一个解开哈, 啊,这些工作流呢,我都已经上传到 runninhabble 了,因为我在本地现在跑不动啊,所以说只能在跑的时候占的显存是超过二十四 g 的 哈,是超过二十四 g 的, ok, 我 们看一下他这个基本的一个工作流大概的一个分布哈,像我们这个工作流的纹身视频的工作流呢,就是这里加载我们的模型,对吧?包括我们这个 textencoder, 包括我们这个主模型, 还有呢,这里设置我们这个尺寸啊,尺寸他这边会做一个缩放啊,这个没关系啊,他后边会专门有一个什么呢?会有一个在细化和放大的啊,他还会有一套放大模型,很像浑源一点五的那个感觉,一点五的感觉 啊,他这次包括也发布了一整套的 lora, 包括运镜 lora, 包括蒸馏 lora 啊,包括一个细化 lora, 他 都发布了, 我们这边就画就是有一个细化的 lora。 ok, 那 么这里就正常输入我们提词词,用中文就可以了啊,他这个模型其实对的,对这个提词词要求是比较高的啊,不过官方给了这么一个提词词的一套规范啊, 一套说明在他的官方网页上啊,我到时候会把这个也给大家拿过来哈,就是一个视率啊,一个视率, ok, 那 我们接着讲这个工作流哈,然后呢,就没什么特殊的需要设置了,他能支持到幺零八零屁视频直接生成啊, 能直接生成幺零八零屁的视频,就是效果还是很惊艳的。幺零八零屁比七二零屁的话,他的质量还是好很多啊,特别是加了这个戏化模型以后啊,戏化 low 二以后啊, 同时他增配了很多这种呃,运镜模型,包括这个摇臂的,包括我们这个拉近拉远的这些啊,他这些基本的都有了,可以说准备很充分啊。 ok, 那 么普通版的这个纹身视频模型呢,就是没有蒸馏的呢,我们这边要设置成二十步啊 啊,设成二十步,这是专门的 comfy 新增了一个 l t x v 的 一个呃,调度器,这样一个哈,我们需要就是用这个来设置就可以了,其他的就没什么特别的一个东西了哈,它会分成两段儿采用。第一段儿呢,我们看看啊,它是把这块儿 这个输出呢,做一个基础的一个生成哈,基础的生成,那么还会有一个细化的步骤啊,还会有一个细化的步骤,那么第二步就是这里啊, sample, 我 们看这个标准的纹身图,纹身视频呢,他第一步是没有加载这个 蒸馏 ror 的 啊,没有加载这个蒸馏 ror, 那 么第二步才加载这个蒸馏 ror 啊,才加载了,就是说相当于有点像万向二点二的一个高噪模型和一个低噪模型这样一个区别啊,就是高噪负责生成基本的动态和光影,那么低噪去做一个细化强化哈, 那么直接生成这样一个幺零八零 p 的 视频,效果还是很不错的,特别是他带语音对话,对吧? ok, 我 们再来看看他这个蒸馏版的工作流啊,蒸馏版的工作流就是说可以直接加载我们蒸馏版的模型了哈,他会有一个模型四十 g 比较大啊,然后其他的呢?都是一样啊,都一样, 这里我还是跑的幺零二的幺幺零八零 p 的, 只不过呢,我们后边不需要再增加我们的这个。呃,那个蒸馏炉啊,我只增加了一个细节的啊,强化这个炉啊,得出来,我们看那个幺零八零 p 的 视频,精细度非常高啊,非常高啊, 这就是模型的一个好处,而且他速度其实挺快的啊,速度其实是不慢啊,不慢就说两段彩样,我们看一下,加在一起可能也就 两百秒左右啊。如果在 runnyhop 上用四十八 g 的 跑, ok, 我 们再来看看这个图上视频,图上视频我觉得他这个表现其实比较一般啊,只不过他能输出语音,能增加语音,就他动态什么的,还是也是有点慢动作的一个感觉啊, 或者半能座,我觉得它主要是针对这个纹身的话,纹身视频的 针对性多一些。为什么呢?因为之前 ltx 一 开始放它的视频模型时候,它就是要做一个导演类的模型啊,导演类的嘛,在这做运镜啊,做这种光影这种,它是比较偏向这方面的啊。 那么图层视频呢?就我感觉就相对差一些啊,相对差一些就是这个,这个我跑来视频会有点慢动作啊,其他的大家也可以自己试一试。那比较好玩的是他这两个,一个控制生视频啊,一个是线稿控制啊,一个是这个深度控制啊, 线杆控制呢,这里会有,他可以加载一张图片啊,相当于是图层视频了啊。这里的话,如果你想要加载图片的话,你需要把这个手针去做一个生成以后呢,然后把这两个点,把这两个给他打开啊, 如果把这两个关闭,那他就是正常的参考这个线稿图。然后呢去生成一段我们提示词写的这样一个视频了啊,是跟着提示词来的啊,得出来效果也非常好,非常自然啊,非常自然,包括这个角色这种形象非常好啊。 我们还有一个就是他这个深度控制,深度控制呢,我们可以看看啊,这边我是加载了原视频,然后通过这个尺寸缩放,然后再缩放以后呢,做了这样一个控制。他这边的话是专门需要一个深度生成模型的啊, 它跟我们的那个普通的那个深度不一样啊,它是专门需要一个生成模型的,这个模型要放在我们的 diffusion models 下边啊,这个反过来啊,它是个 unit 加载器,看到没有?它需要放在 diffusion models 下边,反而主模型放在 checkpoints 下边哈, 然后这里还有个 ve, ve 的 话,这个是对这个也是对它进行一个解码的啊,对这个图像进行一个解码的生成这个控制, 那么得出来的一个控制视频是这样的啊,那么我们再在这边写上对应的一个提示词,然后就能得出来这样的一段视频啊,他的清晰度是非常高的,我的清晰度是非常高的,就是说现在只是七二零 p 啊,他可以直接生成一个幺零八零 p 的, 那个清晰度是非常好的哈。 ok, 那 么简单就给大家聊一下啊,这几个工作流呢,我都已经上传到软件 app 上面了,全部都上传了,这五条全部上传了哈,就基本包含了他目前这些功能,当然大家也可以在你这个, 特别是在文绳和图绳视频上,可以再继续加载 roger, 加载这几个运镜, roger, 运镜 roger 也都上传了,也都上传好了哈。 ok, 咱们就给大家分享到这里啊,我很开心啊,这个模型其实效果非常棒,虽然他的配置要求有点高啊,正好赶上我的显卡还不在 那么就,但是我觉得在本地能用到这样一个模型啊,我觉得是非常非常好的,对吧?还是那句话,开源社区从来不缺好模型,好模型啊,你不开就有人会开啊。 ok, 那 么就给大家分享到这里啊,大家赶紧去玩一玩,试一试啊,真的很不错啊,速度又快啊。虽然它要求配置高,但是它速度是很快的,而且质量确实很棒啊,而且能生成中文语音对话,对吧?夫复何求? ok, 就 这样,拜拜。

老板们好多日不见,甚是想念。 老板们晚上好,刚刚老板们看到的视频是由这个最新的免费开源工具 l t s 二生成的, 现在呢,我们先看一下本地的一个安装包,本地安装包的话,老板们在网盘里下载好之后先解压,解压之后会有那么一些文件, 老板们双击这个启动器就可以了,双击启动器之后会自动弹出那么一个界面,这个界面的话我简单讲解一下。 现在先说一下纹身视频,纹身视频的话就不需要上传图片,只需要在这里输入提示词,设置好这个视频的一个时长,这里的话设置好宽高, 再点击开始生成就可以了,宽高的话也就是这个分辨率,不建议太高啊,保持默认就好,如果是太高的话可能会 生成不了,这个要看自己本地电脑的一个配置。如果说老板们是想用这个图声视频的话,在这里上传一张图片,输入提示词,然后设置好秒数,点击开始生成就可以了, 这是我之前生成过的这个本地安装包的一个使用。说完之后再跟老板们说一下这个官网的 l t s 二,它是有一个免费测试的一个额度的 啊,这个是我之前生成的,在这里他有一个视频生成或者一个图片,或者说一个编辑视频都可以,免费测试的,额度不多,大概能够生成两个十秒的 呃,幺零八零 p 分 辨率的视频。这里还有一个提示词指南,这个提示词指南的话是方便我们去用这个工具,我们看个例子吧,先看这个, 看下这个例子, 这个提示词是那么写的,如果说老板们对这个提示词感兴趣的话,可以看一下, 稍后呢我也会把这个提示词同步上传到网盘里,如果说老板们对这个工具感兴趣的话,可以找我拿本地安装包,再见了。

我们看到 ltx 二的由音频驱动的图声,视频的工作流,你都知道了,好人全都死光了,敬好友, 这是这个月的前例,也可以说是数字人正在以极大的程度去开发 ltx 二模型的潜力,以及 z e m h 照相模型的 cn 的 更新。那么这是一个二点一的二六零一版本的更新, 与前代版本相比还是比较有意义的,尤其是在曲部重绘这个地方呢,我认为是有一定的特别提升的。接着我们来看到工作流物,这里使用的是全球最大的在线 comfy 平台 running hard, 也是 ai 专家和 ai 视频爱好者最常用的在线工作台。 先看到 l t x two 由音频驱动的图片到视频的对口型快速启动上来说,我们需要加载图像,因为这是一个图到视频的流程。加载一段音频,设置我们要生成的视频的帧数,然后去设置一下要去截取的音频的长度, 这里的话二十四帧为一秒钟。设置一下视频宽高,做一个图像的约束,宽高就从后面呢取出去,取到下面的空内存当中,这样简单设置一下,杰瑞斯就可以快速启动了。那个美国人啊,真奇怪,一进门看到我就急着要我嫁给他, 所以我只有告诉他,我已经跟三位飞行员结过婚了,一个死在战场上,一个是死在大西洋。 这个结果已经做得足够好了,除了吞咽食物的部分没有对上口型之外,其他部分都对上了,而且比较自然。我们来看到工作的细节处,这里是做了人身的分离的,所以我们加载的音频不一定要那么的纯粹,这个流之所以能去对上口型,很重要的一点就在于这个地方设置了 lid noise mask 挪亚,这个地方使用的是一个保持镜头固定的挪亚模型,那么其实非常合理,那么避免我们讲着讲着就已经离开了,我们的人物主体是可以白 pass 掉的,我认为这并不是必须的, 这一部分就是一个土道视频的基础流程了,感兴趣的大家可以尝试一下,我认为结果还是相当优异的。视频相对的流程已经同步更新,可在线运行。 下面我们来看到二六零幺的版本更新,除了更新一个 c n 模型之外,还更新了一个钛模型,并且对于这两个模型都有一个轻量化的版本,类似版本 体积也变得更小,更适用于低配的用户,这是一件有意义的事情,因为对于 z e 妹子的 c n 呢,我们之前并没有一个这样小体积的 c n, 我这里测试使用的是体积更大的版本,以窥见其真实的性能。那么这里是一个文人视频的技术流程,我还是可以非常明确的说,我们直接去加载 c n 以及一个对应的 rom 模型,得到的结果呢并不会那么的好, 所以我们还是得分段去做这样的流程。前百分之五十的步数,我们的 c n 作用居然一部分一个大体的框架, 然后呢在后面的步数当中呢来补足细节,这样我们其实就看得出来运行良好。虽然二六零幺是进行的更新,但我认为整体的变化并不大, 应当可以直接无缝的插入我们之前的流程当中,对于我们的线路控制,深度控制以及姿态控制是直接输入到这个节点当中的 image 当中去,如果我们要接重绘,就接 input image 和 mask。 这里有一个比较重点的更新呢,是局部重绘流程的更新。在版本更新这个地方写的是非常的明确,二六零幺版本是对于重绘的能力的进行了增强,而且对于分辨率尺寸这个地方做了优化, 更为的广泛,也更为的使用。这里是一个局部重绘的流程,我们可以去重绘任意的部分,同时也可以拿它来修脸进行为 final。 那 么首先呢,我们去涂抹脸部,相当于去遮住了脸部,经过初次和二次重绘,我们能看到更加的接近于我们的 low 二模型的实质, 这里就不单独的去使用重绘的流程去修脸了, c n 的 这个局部重绘的流的话,完全也是相当的好。 最后我们来看到放大的流程,放大流程这个地方就很有说法了,因为这一次太模型更新了,在我上一次测它的时候呢,它的表现并不好, 这次的话测一下二六零幺的版本,我认为处于一个上课接受的程度,但依然有一些过度,所以这里聚合了三种方法方式。那么第一种也是最简单的最好理解的一种,我们用 c 的 v 二来进行百万像素放大,这已经是一个老流程了,但是我们看到它依然奏效,用心良苦。 第二个流的话是做分块的放,那么做分块放大的同时,我们为了不让面部掉更多的相似度,还是应当去在模型这个地方的插入对应的洛尔模型其实呢也运行良好,而且我是比较推崇这种方法的,因为它不会过度有 ai 的 想象力,而且 能够确保我的洛尔模型稳稳的生效,再追回一点相似度。那么第三种就是用太模型的去锁定 这个图像来进行 s d 的 放大,还未有明确的结论,可以调取去尝试一下。按道理来说,这里的 denoise 值是可以再往上调一些的,因为这里有了一个所结构这样的一种内涵在里面嘛。


hi, 这里是阿边,一个普普通通的设计师,亲亲亲爱的,在这里有剩下我俩,要不我们脱道宇航服吧? 妹妹,我实在太爱你了!你就是我逆行的逆一。刚才这段视频效果怎么样?它来自一个新的多模态视频生成模型, l t x 二点零,支持纹身视频、涂身视频,甚至线稿和深度图控制。 但他到底是真王炸还是虚张声势?今天我就带大家彻底实测一遍。首先,他是个多模态模型,意味着你可以用文字、图片来直接生成带有音频对话的视频。我们一项项看第一项,纹身视频,这可能是他最好的形态。 在工作流里设置好参数,分辨率可以大胆调高。我额外加了个提示词拓展节点,确保指令能准确翻译成英文。 因为实测下来用全中文提示词,动态效果会打折扣,因此最好用英文填写提示词,只在对白上填写中文即可。 还有一个硬性门槛,他最好在云端拥有四十八 g 显存的环境下运行。不过好在生成一段五秒高清的视频只需要四分钟不到。还有,纹身视频的质量是最高的。第二项,图声视频问题开始出现了。分辨率、时长、帧率都可以自定义。 它的生成逻辑和 one 二点二很像,先高照渲染出模糊动态,再用蒸馏后的模型加上修复 lura 修复细节。但我发现了一个大问题,音频不知道为什么让角色说中文 听起来就像在演唱会对口型唱歌,英文则正常。 sister i love you so much you are the very。 所以我弃用了低噪阶段生成的音频,只保留了高噪阶段的,好歹还能听同样中文提示词,会让动态变得异常缓慢,这几乎是个减速带。第三项,线稿与深度控制目前可以直接跳过,效果非常不理想。比如这样, 显然生态还没完善,我们等他再进化一下。那么这个模型到底给我的整体感觉是什么?审美壁垒的训练级风格可能很本地化, 从徒身视频的第一步就能看出,角色常常被丑化,变了个人计算,到第二步渲染来修复细节,也很难救回来 技术既视感,它更像是一个骚扰恶风格的视频重绘器,但底层用来重绘的原视频审美可能不太符合大众口味。横向对比,我个人觉得他甚至比之前基于 y 模型做的 o v i 多模态模型还要差一些。尽管 o v i 不 支持中文, 总结一下,这是一个有想法但短板明显的模型,高显存门槛、对中文不友好、存在审美偏差是他的主要问题。 如果后续开源社区和模型团队共同努力训练 logo、 调整工作流、量化模型等等,或许能焕发出比万二点五这种闭元模型还要好的视频。深层模型只要开源就好,但离生产工具还很远。 所有测试用到的工作流和模型下载链接我已经整理在视频简介里。如果你也想亲自试试这个一键生成带音频地白的视频模型,欢迎到 running 在 线体验。 如果你喜欢这样真实带刺的评测,请务必点赞、投币收藏支持一下,这对我事关重要。你有不同的测试结果或看法吗?欢迎在评论区和我讨论,我们下期再见!

回避,回避,回避,快回,回避,回避, 回避,回避,回避,快回,回避,回避,回避,回避,快回,回避,回避,快回,回避,回避。

哈喽,各位小伙伴们大家好,我是 a i j c 小 冲哥,是什么原因能让小冲哥在发烧到三十八度嗓子哑成这个情况下还能啊,就是爬上来发一条视频啊,那么当然啊,是 我们今年啊,可以说今年开年的一个重磅炸弹啊,我们的 l t x 二终于发布了, 那么 ltx 二是什么呢?那么它是来自我们的 lyrix 的 一个这个新的模型啊,那么提到这个名字啊,这家公司,大家可能会有点陌生啊,我说一个东西啊,大家就会比较熟悉了,就是在 one 啊,在 one 的 这个视频模型之前, 有一个叫 ltxv 的 模型啊,那个模型就是来自于这家公司啊,可以说他们的历史呢,还是比较长的了啊。那么 ltx 二它主要震撼在哪呢? 近几个月呢啊,可以说不管是开源生态圈还是闭源生态圈啊,都离不了一个名字啊,叫什么?叫 sorry 啊,叫 sorry 二对不对啊? sorry 二一出来的时候真的非常震撼啊 啊,从这个视频画面儿语义理解啊,到音频上啊,那么 sora 都可以给你解决了啊,那么可以说这几个月呢,是开源视频生态圈的至暗时刻啊, 呃, ltx 二呢,跳票了一个多月之后,终于在今天开源了哈啊,首先跟大家来讲几个坑啊,几个坑就是我在今天部署的时候一个坑啊,第一个坑就是啊,你的 comfy 的 本底必须要更新到最新版本, 然后呢,如果你用这个 manager 管理器呢,更新到最新版本之后呢?你你你发现它的这个工作流还是爆红的情况下啊,大家要去到你的 control ui 的 文件夹里面啊,用命令啊去拉取一下它的最新版本啊,然后并且要对应安装它最新的依赖啊,这个是第一个坑啊, 然后第二个坑呢?是什么呢?就是啊,他的这个模型的放置结构啊,那么他的模型下载啊啊分为两个地方啊,一个呢,是在我们的这个呃 作者的这个库里面的一个这个,呃这个这个就是去下载这个这个文件啊, 然后还有一个它的 taxiin code 呢,要在我们的这个 comfyui 的 这个官方的这个呃库里面去下载啊,在我们的这个这个官方库里面有一个这个,呃 ltx two 啊,然后呢?呃去下载我们的这个 taxiin code 啊,然后呢 放置位置呢?也有一点讲究啊,因为它是它的底膜,是 checkmark 啊,它不是 unet 啊,所以说我们不能放在 unet 或者 de filter mode 下面啊,你要放映在啊 mod 四下面的 checkmark 这个文件夹啊,然后呢对应的把我们的这个, 呃它的 texting code 呢,放在 texting code 的 这个这个文件夹下面,或者是放在可立破的文件夹下,可立破文件夹下也可以识别啊, 然后呢 lara 就 正常放在这个 lara 四里面啊,然后呢?呃这个放大模型啊,放大模型呢?这里有一个小坑啊,小坑。然后,呃我一开始是放在了这个目录下啊,这个目录下是不识别的啊,一定要放在这个 latent 前缀的这个 呃文件夹下面才可以啊。然后呢?呃,再说一个,就是说它这个里面,呃有一个 lara 啊,有一个 lara 是 什么呢? camera, camera country 啊? left 这是什么呢?就是呃它它会有一些这个镜头控制的 lara 啊,在我们的这个 呃就是呃这个官方的这个目录下面,大家可以看到啊,它有一个什么 in out 啊,就是推拉啊,然后 left right 左右啊,然后这个 down 啊,向下向上啊, 那么这些呢,就是大家需要控制的情况下,你们下载如果啊你不需要控制呢,然后就把它忽略掉哈,然后啊还有一个坑是什么呢?就是呃我测试了好几组啊,然后呃我发现一个事,就是他对于 中文的提示词不是很友好啊,所以说建议大家呢要把我们的提示词翻译成英文啊,就是你用豆包啊, 你用豆包啊,然后给他个图片啊,让他去啊,把你的想法给他,让他去给你写一个提示词啊,我觉得他会比你自己写的好,因为呃他毕竟是一个这个呃呃 就是我的理解就是一个多专家组合模型吗?对不对?他里面有视频模型,有音频模型对不对?然后啊把他这个打包好,然后啊去推理生成吗?对不对啊?所以说我认为呢,就是用 ai 写的提示词会比自己写的好哈 好。那么接下来呢,我们就不说技术上的这个话题了啊,因为我自认为我的技术水平呢不是很高啊,所以说我就不在这班门弄斧啊,我们呢只在一个这个结果上来说啊。那首先来说第一点啊, ltx 二能不能平替骚让二? 我觉得有可能啊,因为它现在有一些出来的效果呢,我觉得和骚让二呢有的一拼,但是呢它的精度还是有待提高 啊,不过不要紧,因为他是开源的啊,开源就代表这些社区的小伙伴这些大佬们啊,能够为他啊进行武装啊,进行更多更多的这个延伸啊,让他变得更好用啊,至于 他的结果是什么样呢啊,大家可以参考一下万二点一刚发布的样子和万万二点一今天的样子啊,就是等于说啊,就是从一个 特别乖的孩子慢慢发展到一个小魔童,三头六臂什么都会啊,所以说我觉得 ltx 二啊,既然是开源我相信在不久的将来啊,可能也就一个月 啊,一个月以内的时间内啊,他会发展到非常非常的厉害啊,那么我们就来看几个我们跑的这个样片吧啊首先来看一个这个爱途威的,爱途威的啊就是图虫视频啊,图虫视频, 那么图中视频呢,我这个提示词的含义呢?就是啊这个美女是站定的啊,我不希望他动啊,但是呢我希望他的背景啊,这个有一种延时摄影的感觉,就是车水马龙啊,行人在跑啊,那么大家来看一下这个结果啊 啊那么这个音频呢有一定雏形啊。再来给大家看一下这个纹身的啊纹身视频的啊,呃这个是一个丧尸围城的啊, 呃我们先不评价好坏啊,就是说它整体的动态什么的,我觉得是还 ok 的 哈,然后这个这个是我跑的另一组啊,给大家看一下啊。 好啊,再给大家看一组这个带打斗的吧啊就是啊,先给大家看一个中文提示词出来的哈,这个是中文提示词出来的一个结果就是啊,我写的是就是华山论剑啊, 我觉得它中文的提示词就不太友好啊,就不太友好。然后再给大家来看一下英文提示词的啊, 哎,英文提示词他就有那个味, shoe mountain sawed out, prove your way, 那 么这个只是一个小样片啊, 然后呢,呃,我给大家展示的这些呢,我不评价啊,为什么呢?因为第一点呢是小冲哥今天刚拿到这个模型,刚部署好还没跑几条呢啊,然后就给大家 呃把这个先发出来了,所以说呢,我这条视频呢,所测得的结果啊,就是仅供参考,就是我的提示词可能没有写的很好,或者是我还没有完全的拿捏到这个模型的脉搏哈,好与坏呢,就是大家自己慢慢摸索啊,有一点我们必须要强调他是开源的, 既然是开源的,而且我认为它的这个基座还是不错的啊,它一定在未来会有更好更好更好的发展啊,所以说再次向我们这家公司表示感谢啊。然后呢,另外的就是说我们 comu i 呢做了零 day 的 支持啊, 然后,呃,我们这个里面只讲解了文声和图声啊,那么它也同步上了一些 control net 的 一些这个 啊,这个工作流啊,包括说用深度转视频啊,深度参考视频,然后边缘检测啊,然后还有我们的这个蒸馏板啊,所以说呢,大家啊就赶快来体验吧啊,因为我觉得这个是二六年啊,发布一个最震撼的模型啊,然后让我顶着三十九度的高温啊和 呃,这种公鸭的嗓子啊,也要出来做一条视频啊,那可能这条视频呢,我做的不是很好啊,也是希望就是大家第一时间能了解到这个模型,好,那么喜欢小虫哥的兄弟们点赞、评论加关注,爱你们。

那这个视频来讲一下我们在十六商店安装的这些插件,然后怎么样去制定他的名字。那首先我们可以通过十六商店举个例子,比如说抖音图层,每每个插件都可以啊,我们点这个显示软件包内容,跟着点进来 找到某个文件,它上面这些都是文件夹,没用。因为你这样去长按这个地方,靠左边区域的地方,它有一个在 pdf 里面打开,但是前提就是你要安装了 pdf, 然后我们点它会直接来到这个路径, 这里面这些文件并不是自定义插件名称的,我们这时候点左上角返回,再点一下返回,然后我们就来到这个路径了,对不对?那这时候我们找到一个 p 开头的,就这个,那我们这时候点进去 啊,我们再点进去,举个例子,比如说我们要改这个插件的,我们点它,然后我们再点一下,再点一下,那这个时候这里有个 label, 然后我们把它改成 自定义的,比如说你在后面加个六六六,然后点返回,然后点存储,记得点存储,那这时我们来到设置看了它还是没有变化,因为我们不用注销,我们要把这个设置后台划掉,然后我们重进, 那我们就看到变化了,如果这插件你重新安装了或者是更新了的话,名字他又会变回来,就是建立在你没有去重装,没有更新的前提下,他可以一直生效。然后呢 这里面大家注意啊,就是你长按的时候要长按左边,还有要到这个文件的时候才可以,如果是文件夹的话,长按是没有效果的。还有就是我们进这个文件管理器, 比如说刚才我们来到这个路径了,对吧?这里面都是改这个名字的地方,如果你经常有习惯去改的话,然后你点这五角星,点这加号,然后给他取个名字,比如说 好,然后点完成他就会在你的收藏夹,但你可以长按它排序。那你每次进文件管理器,你点这五角星就可以快速的来到这个路径啊,你可以去改好,然后就可以了。

哇,睡个觉就变大了,真好。我和月亮谁更美? 从此我封心锁爱。 hello, 大家好,我是嘟嘟。那我们今天来分享一个重磅的一个模型,是一个视频模型啊, l t 叉 二点零,那这个的公司,其实他以前就有分享这个 l t 叉 v 的 一个这种视频模型,但是为什么之前一直效果没那么好?他虽然打着极速的模式,但是他效果不好,所以我们一直把他给 呃不怎么使用啊,一直用望向的这个系列,但是呢,这次啊,他带着满满的诚意来了, 为什么他这次 l t 叉这个二点零给我们补齐了开源视频的短板啊,就是音画同步, 大家也都知道啊,就是那个万象对吧?自从开源到二点二之后,后面的二点五、二点六都不开源了,直接闭源了,那我们就 等于跟闭源模型之间就拉开了差距,因为闭源其实所有模型都已经升级到音画同步了啊,我们开源的话一这一块一直是短板,没有补齐,但今天这个意大利的公司,他终于把这个给补上了。 还有 t 三这个最大的最大的一个亮点了,就是说可以直接生成视频的时候,把这个音频被配音这些全部都给补齐了, 这个就直接啊把我们的开源的这一块的视频直接提高了一个档次,所以说必须强烈的啊,夸奖一下,非常感谢这家公司,这次带了满满的诚意的啊。 那今天的话也给大家去测试了这个所有的这个 l t 叉,它能用到的一个一个这些相关的一个工作流,它目前的话是支持 呃纹身视频、图身视频还有 control 等两种控制线稿跟深度都可以,那这边一会会给大家去做。那这边相关的这个模型啊,要求是非常多的话,看了有点晕,但是目前看其他部分测试,目前本地其实不大好测试的,因为它的显存的要求至少要三十二 g 啊,我们 像我二十四 g 的 就测不了了,所以说我们可以暂时先在线上去使用啊,到时候等社区啊开发出来更多的加速技术和降低显存使用的技术技术的时候我们先去 再去用。好吧,那这边呃网盘也先提提供给大家吧,因为可能有些有五零九零的朋友可以去体验的。这边模型啊,用到了很多一些啊, lola 是 吧,还有放大 lola 都给大家去 分享出来了,你们到时候可以先去用你,如果你们本地想要用这个的话也简单哈,你们把这个 版本更新一下啊,更新到最新就已经支持了这个 l t 叉的这个二点零的啊,更新完之后呢,你们在呃你们本地的 cos, 呃, cosui 打开之后在模板这里打开 所有模板,你看这里啊,纹身视频,图生视频,深度,还有这个线线稿啊,边缘检测,这四个的话都已经支持了,所以你们可以直接去去体验。好吧,那在线的话我也分享给大家了,在 我把这四个的工作流啊全部都分享到 money hub 上啊,大家在这边搜嘟嘟两个字,你就可以看到我发发布的这些所有工作流了,那可以都去体验,那目前测试下来还是纹身视频这个效果是最好的。另外三个的话是有一些欠缺的,一会我们来看, 那先来看这个纹身视频的那工作流,它这种也挺符合之前 l t 叉 v 的, 如果你以前也玩过这个,应该是知道了,它其实分两步骤裁样的, 第一步先出一个比较粗略的这个视频啊,那第二步的话,他再用一个高清放大两倍的这种啊,去跑,再去踩样了一次,然后他的分辨率就会提升起来,那整体的效果的话其实是还不错的啊,那我这边的话纹身视频这一块呢,我是呃 调了一下参数,给它去统一了一下,那这边啊,这边是一个啊提示词的,然后 这个是设置分辨率的,我在线的话,我为了看看他啊效果,我给他设的比较高的幺九二零分辨率的,然后这一块是提示时扩写啊,写二的话他就会自动 自动去扩写的,我这边是有加一个提示时的模板的,专门用来可以生成这种配音的。这种啊,所以大家可以去体验一改成一的话就是直接根据你的这个去跑的。那看一下这边简单的一个模型,看一下 它的大模型,它是一个 check point 的 啊,这个路径不要放错,这个是放在 check point 下面的。呃,这里用的是 f p 八的量化版本,量化版本大概是二十 g 左右吧,我看一下这边啊,我们网盘这里面是模型,这边看一下, 看这里二十 f p 八,二十七 g 也是挺大的,对吧?然后满满的模型是四十 g 的。 那这边还有蒸馏的模型啊,也是非常大的,这些的话到时候去网吧里面去下载就行。那我们回到我们的工作流,那第一个就是因为它 ve 跟那个呃大模型都是从这个 checkpoint 这边连出来的,所以这是一个,那另外一个这边运到了一个文本的是是一个 伽马的一个三的这个,这个是支持中文的,所以说到时候我们里面是提示尺是可以写中文的。那另外多的一个是一个音频的一个 ve 啊,我们现在是可以同时出音频的,所以它有一个这个东西, 那相关的提示尺什么的都 ok 了。然后采样这边的话啊,他这边是用这种啊自定义采样的形式的,所以这边基本都差不多 啊。核心的话是这里 latens 这边它这样子处理的一个控 laten 啊,然后这个帧率宽高,然后这边音频的这个 latens 也要接进来的,是吧?这边也是设置一下它的一个最终的这个视频的帧率,给它接一下就 ok 了。 然后这里的话这个 laten 是 就是把这个音频视频这个 laten 全全部给它接进来去跑就行了。那第一步跑出来之后啊,就类似这样子的一个视频,它还是比较模糊的啊,比较模糊的情况下,那它会把这一个当做啊,这个参数给它接到下一个里面去啊, 对,它会接到下一个里面,是吧? 然后的话他第二个的话,他这里是用了一个啊蒸馏的加速模型,还有个放大的啊,这这这个是放大,然后这边是一个增加清晰度的,对吧? 这边放大默认是放大两倍的,所以说这边他这个,呃,一开始这个分辨率他是先做了个零点五的缩放啊,就是前面是先出的视频是一半的, 最后再给他放两倍啊,那就等于我们这边设置的这个分辨率了,所以说这种还是挺好的。那第一第一次他先快速的给他出一个视频,之后先主要看,如果说这个构图是没问题的啊,大家就可以去去给他继续往后直行啊,就可以生成这样子的一个视频,我们来看一下效果还不错的。 我后面有只老虎是吧,这个就是音音画同步啊,终于把这个音频也多出来了,而且效果看过去还不错的。那我们来看一下这个有个赛车 怎么样,可以吧啊,他直接啊,把这个配音都配的非常好,他这个一个密封的,这清晰清晰度也是足够的啊,看幺九二零出来的这个清晰度也是相当的好的,这都会感动落泪啊。还有这个是烤箱的, 今天我达到了完美,但是这里有没有发现这个会有字幕,而有时候就是你他出来的时候里面会带一些字幕的,会乱码的这种估计他训练的素材的时候是这样子的。 哇,睡个觉就变大了,真好看呢,这个表情啊,神情这些感觉都非常不错哈, 其实这个人好像特写的时候有些油油腻感觉,就是其他其他人测的时候也也有发现这种相关的问题,这个大家可以到时候再去测一下,但是他从他的 整个视频的清晰度,还有这个神情,还有这个配音都是相当的到位的,所以大家可以去玩。那这是第一个,目前测下来其实就是纹身视频这一块的效果是最好的啊,那图身视频他现在就是啊 来了多了一张图,把这个图去给它传进来的啊,就这边会有一个这个传这个图片的参考图的传进来的,其他的话都类似这边模型的话也是一样的,然后这边也是高清的,所以这个没什么好说的, 直接看这个效果,从此我封心锁爱。 就是他可以根据这个提示词里面的一些要求,就是提示词里面有写他对的一些配音、旁白之类的,他是可以去生成的,所以这种就非常不错的。我来看下这个我和月亮谁更美, 但是,呃测下来,呃相关这个清晰度的话,呃,应该的话是没那么好,因为我这个只开到幺二八零最高,再高的话有时候会爆显存,所以说显存这块问题还需要后续去优化的。 这是两个了,这是纹身视频跟图身视频的,那他这边其实还支持这个线稿跟深度了,就是 cosplay 的 去控制的。这个使用起来其实也相对简单一点啊,就是看这边参数啊,正常的是多少帧,然后这个框高设置一下,对吧?一张参考图传进来, 然后这边像线稿的话,它是啊做了一个转成 kenny 的 这样子的一个东西,就是我们把图取过来之后,我们给它先缩小一半之后,然后转成 kenny, 那 这个图它就会作为这个入仓啊去传传过来了, 像这个就是对应这个线稿的嘛?对,对应的每一张的线稿的,那它这边能传哪里呢?看它传到这里来一个新的节点,一个 llt 叉 v, 这个 a、 d、 d 盖的这个引导的,这里面会把我们转成线稿的图都传进来就可以了。 那前面的话它是这这这个是一个参考图的一个参数啊。就是啊,这边应该是把它原图这边啊取第一张过来传进来参考的, 那这个就是就是现稿,那我这边写的话也是一个现稿,他一个流流在跳舞,那就开始去跑了,对吧?然后后面的话这些材料都是一样的哈,就是类似的都是做一个蒸馏拉啊,这边一个放大的,是吧?跑进来了, 那效果的话看一下这个效果理论上说应该是没有那么好,就是我看了他测不管是现稿还是深度,他出来这个视频啊,效果是没那么好的,看一下 这他配音有啊,是吧?但但是他按这个去生成的时候啊,我感觉效果是没有那么好,可能我要求太高了,可能 那深度的话类似啊啊,深度的话,他这边提取深度的时候是用这个模型去加载的,是用 net 这个模型去加载的,一个模型再加一个这个啊。 ve 这个有点类似 sd 一点五那样子的,我们去跑一个视频出来,但是它这个视频深度的视频的时候它是相反的,你看这边能它是这种,对吧?我们正常是白色的才是,我们需要 就是比较靠前的,它这个是反过来的,那这边给它加一个图像反转就可以了,那也是图像反转完之后,它也是最终也是传入这个啊, a、 d、 d 盖的这边来了。所以说所有 control net 的 它其实都类似,都是通过这个节点传进来的,那它就有这个正反条件, 再传到我们后续的两两次的这个分段产量里面去,对吧?那看一下最最终的效果啊,这个是深度的, 它是有时候提示词啊,再加上这个结构的参考了啊,效果也不能说非常好吧,但是它是有效果的。那我们后续的话再看社区对这一块做一些优化迭代啊,尽量把这个显存给他降下来。那大家可以本地就可以去跑, 那纹身视频我感觉应该是最最常用的哈,因为他这一块有声音的纹身视频是最常用的,做创意类的话是比较好的。 那行,那大家这次的话就先在这个在线去体验吧,因为目前的话显存要求呃,比较高,本地的话低显存的话比较难玩。好吧,那今天就到这边感谢大家收看啊,如果觉得我分享的视频对你有帮助,记得给我一键三连哦。

今天分享 zenata 插件的安装,这是我通过 zenata 插件进行管理的一个页面,大家可以根据自己的喜好进行调整。 关于 zenata 插件的安装有两种方法,一种是通过 zenata 插件市场,就是进行安装,如果你安装了 zenata 插件市场的话,这里会有一个小图标。 第二种是通过中文社区进行安装,我们一条一条的进行讲解。首先是安装这个插件市场,你需要在浏览器当中解锁贼踏入中文社区, 点进去之后点击插件商店,在这里面解锁插件市场 减速,你就得到了这个插件市场,点击下载,用这个给 t 链接进行下载, 下载之后进行保存,我之前已经下载过了, 保存好后打开这个 zata 软件,点击工具, 点击插件,点击设置,然后插入,插入刚刚下载的这个软件,打开 它就安装上这个插件市场插件市场了,然后这里就出现了那个小图标,你点击这个插件市场,会发现所有的插件在这里面都有,你双击 点击安装,这可以直接进行安装,这是安装插件的第一种方法。第二种方法 同样是打开这个中文社区,点击插件商店,这个是针对性的 进行下载,比如说你下载这个 gpt, 因为它这里面包含了所有的插件,你可以通过解锁选择你想要的插件,点击下载,同样使用这个给 t 点击进行下载, 下载之后另存同样的方法,另存之后打开工具里面插件 设置插入,把刚刚下载的那个插件插入直接打开就安装完成了。嗯,我这里我更推荐使用第一种, 这样你就不用每一次使用都重新下载了,这里可以直接安装。

l t x 二第一次让 v e o 三不再是唯一选项。 我觉得我们快到了,这里是奶奶以前住的村子对吗? l t x 二上线以来,在整体生成稳定性与常持续一致性方面已经完全可以取代 v e o 三。 由于本地推理对显卡要求较高,所以我没有在第一时间向观众推荐。在大量用户持续反馈与明确需求的推动下,该项目实际价值被反复验证。 focus close your eyes and flap 其性能优势足以支撑在牺牲部分本地推理时间的前提下完成整合与交付。 前文展示的视频即为基于该结论完成的实际测试结果,其音画同步表现稳定可靠,在节奏匹配与动作响应上具备明显优势。 因此今天正式发布要 tx 二整合包,并完整展示其工作流的实际使用方式。
