你现在看到的视频是由 sv i 二点零 pro 大 模型生成的,这个大模型最大的特点就是能够制作无限时长且一致性特别好的 ai 视频,你看整个视频的质量和时长都是其他的大模型不能比的。 sv i 大 模型全称是 stable video infinity 模型,作者在五天前发布了全新的二点零 pro 版本, kj 大 佬在第一时间跟进对模型进行了量化,我们现在在 comfui 中使用的 sv i 大 模型就是 kj 量化的这个版本 模型作者非常的贴心,在这里把康复 ui 工作流的使用说明写的非常详细,他强调生成不同时频的时候要使用不同的种子,然后呢,写好提示词用于缓解慢动作, 这两点可能在这里说的比较抽象,一会我再讲解康复 ui 工作流的时候,会给大家详细的去解释一下作者点的这两点。 最关键的是,模型作者还很贴心的帮我们整理好了康复 u i 工作流,他把社区大佬们搭建好的 sv i 工作流都放到了一块,让大家一一的去体验。接下来呢,我将会一一的对工作流进行讲解。 话不多说,本期先讲第一个工作流,也就是 kg 搭建的 sv i 二点零 pro 原声工作流。大家先跟着我打开软件 app, 搜索电磁波 studio, 点击工作流,找到 sv i 二点零 pro 大 模型升级版工作流,点击运行工作流,你就可以跟着我学起来了。 整个工作流是比较清爽的。首先我们需要在模型加载区里的 developer model loader 节点加载 one 二点二大模型,我们选择的是 smooth mix 版本的 one 二点二,因为这个版本生成出来的视频更加的动感。在旁边的 laura loader 节点加载今天的主角 sv i v two pro 大 模型。 第二步,在旁边的 laud image 节点上传视频手阵画面,我上传的是一个女生在教室里坐着的动漫风格照片。 然后你需要在 resize image 节点设置视频分辨率,我设置的是宽七六八,高四三二。 第三步设置彩样步数,彩样总步数设置为八步,高噪和低噪的彩样步数各设置为四步。 接下来就是生成长视频的部分了,我们先看第一部分,生成第一段五秒短视频,你需要在 type in code 界面输入提示词,记住你得把提示写的详细一点,这样生成出来的视频才不会有慢动作。当然你不要学我写的这个提示词啊,我偷懒了,我就简单的写了一下。 接下来大家需要学习一个新的节点, one image to video s v i pro, 它有四个输入端口,其中 positive 和 negative 是 负责接受正向提示词和负向提示词的。 anchor symbols 负责接受参考图,也就是我们上传的视频手阵画面,它主要的作用就是用来保持主角的一致性。 principles 负责接收上一段视频的浅空间。 latent 下面有两个参数,其中 lens 是 用来设置视频长度,我们设置为八十一帧。 motion latent count 是 用来设置重叠帧的。记住这里的一代表是一个 latent, 也就是四帧画面, 右边就是 k 三倍的彩霞器了。记住作者说了,在每一段视频生成的时候,高燥阶段需要设置不一样的种子,那么我们先设置种子数为六六六,其他部分不要用动,这样第一段五秒视频就生成好了,看起来是不是效果还不错?下面就是批量的进行五秒短视频的生成了。 我们在生成第二段视频,这里呢,你需要输入生成这段视频的提示词。然后呢,你需要把上一段生成视频里的 case sample 输出的 laten 连接到 one image two video svip 导入节点里的 three samples 节点。另外,你还要记住,每一段视频生成的时候的种子都要不一样哦。接下来使用 image based extend with overlay 节点,把上一段视频和第二段视频连接到一块,这样两段视频就拼在一起了,且是非常自然。 剩下的阶段呢,就是批量复制第二段生成视频这部分工作流了,记住每一次复制都能延伸五秒的时长。你只需要照葫芦画瓢,把上一段 can sample 输出的 latent 连接到下一段 one image to video sv i pro 里的 pre samples 端口。另外,你需要把上一段输出的 extent images 连接到下一段的 image bench extent with overlay 节点里的 source image 端口。 最后你就能得到一段时长特别长,且一致性特别好,又很自然的 ai 视频了。所以看到这里你还等什么,赶紧跟着视频练起来吧!如果本期视频对你有所帮助,请关注、点赞、收藏三连走一波!这里是电磁波 studio, 我 们下期视频继续讲 svio 的 用法。
粉丝7292获赞5.3万

hello, 小 伙伴们大家好,那么一直以来在我们 comfy 社区里边长视频啊,不光是 comfy 社区,整个 ai 视频社区里边 长视频都是一个刚需,对吧?就是说我们之前无论是开源的还是闭源的,大多数都只能做到,比如说十秒啊,五秒, 呃,十五秒吧,差不多也就是这样哈,那么这次呢, s v i 做了一次更新哈,那么更新了它们一个什么模型?就是它这个 s v i 二 pro 模型哈,我们看一下 啊,二点零的 pro 模型啊,强化版,那么二点零呢?他们之前已经放出来了啊,现在他又增了一个强化版,这次呢我们会得到一个更好的效果啊,同时开架也已经做了它的一个呃,就是量化版本啊,能在 control 里边进行一个加载的啊。 那我们看一下工作流开架其实提供了两条工作流啊,一条是那个就是 one v 六 rapper 版的啊,那么就是相对会复杂一些啊,相对会复杂一些, 呃,看起来是吧,有点复杂。然后还有一个呢,是这个官流的,这个看起来简单,对吧?但实际上他是做了一个紫图啊,我们打开紫图,他还是一个个独立的一个,对吧?我们的这个两个采暖器一组,两个采暖器一组的,那他拆出来以后呢,实际上是 这样的啊,一组太阳气,一组太阳气啊,一组太阳气,一组太阳气,他是这么来的哈,我们就还是用我们这个打开看吧啊,里边的话都是设定好的,他的所有参数都已经暴露出来了啊,都暴露出来了, 我们看看这个工作流啊,这里就说一下啊,模型呢,就是说两个 loa 模型,我们直接放在我们的这个 loa 那 个目录里边就可以了,然后主模型它需要用 i2v 的 啊, one 二点二, i2v 的 一个高燥,一个低燥,那么分别加载的就是什么呢?加载完主模型以后,加载我们的这个 light x2v 的 加速模型啊,四步加速模型,再加载我们对应的这个 svi v 二 pro 模型, 高噪低噪都加载。然后呢,这边会有设置一个模型啊,铠甲现在都用了这种,这种 就是设置和获取节点啊,设置高噪模型,设置低噪模型啊,这里呢加载我们正常的 um t 五啊,用 comfy 官方版的啊,然后呢也是 comfy 官方版的二点一的一个 ve 模型,这里就上传我们的图片,第一张图片,然后设置我们的一个尺寸啊, 然后就接入第一段彩样啊,第一段彩样,它这有一点不一样啊,第一段彩样我们看一下啊, 这里其实会新增一个节点啊,如果你拿到这个工作流在本地上运行,会新增一个节点,这个节点呢是 kj notes 的 一个新的节点,我们使用它的时候需要更新一下我们 kj notes 到最新版啊,就是这个 one image two video svi pro 这么一个节点, 他能够控制长度,还有一个这个动态的一个真的一个数量计算啊,动态浅空间深数量计算,那么浅空间这一个浅空间相当于四针啊,四针啊,所以说我们这一个是起步啊,那就相当于把我们上一个视频的一个四针作为一个参考。 第一段的他的区别呢,就是说他没有前面这个浅空间计算啊,这个是不是看起来很眼熟?有点像龙猫那个节点,对吧?他有一个 pre sample 啊,就是说前置的一个采暖器啊,前置的一个浅空间啊,我们第一个 第一段跑是没有前置潜空间的啊,所以这不需要连,那么它这个 motion latent count 呢?就是我们的这个动态潜空间呢,也不需要啊,零就行了,但是后面的就需要接入了啊,后面就需要接入,后面接入的话就是把我们新的产生的这个潜空间呢,接入到这个 前置浅空间里边,下一段的前置浅空间里边。然后呢?这个谋神雷跟康的啊,就是说这个前置浅空间的这样一个计算呢,选择一,那么他这个怎么延续呢?我们看一下啊,我们找到我们这个最后一段啊,找到最后一段我们可以把整个这个复制过来, 复制过来以后粘贴啊粘贴。把我们上一段生成的这个浅空间啊,把它接到这里啊,接到这个 前置前置浅空间里边啊,接到这里来。然后呢把我们刚才生成的这个延续后的图片啊视频把它再接到这里来啊,接到我们这个延续后的这个节点 啊,接到这里边这节点,然后它产生新的视频,就是上一段的整个的视频加上我们新生成的视频一个融合的了啊,就是这里啊 啊,他还需要接入一个什么呢?我们理解为一个毛点浅空间啊,毛点浅空间就是我们这张图他的解码以后啊, 他编码以后形成的浅空间啊,就是我们的毛点浅空间作为他的毛定点,那么我们为什么要有一个毛定的浅空间呢?就是因为我们看一下这段视频啊, 我们看下这个,他能做到人物出境以后再回来,他还能保持原来这个人啊,包括这个也是啊,我们看下这个啊,这个机器人把这个球扔出去以后呢,我们看一下啊 啊,他把这个球扔出去以后回来这个球跟原来这个球也是类似的啊,虽然说会有点变化,你看了没有,但他还是这样一个白的这样一个造型的啊,他是有这么一个功能,所以说他需要铆定一个浅空间,就是我们这个手针相当于啊,他是被一直被铆定的,一直作为一个参考在里边, 那么接下来就做一段的不停的导导,导导啊,那么这里还要注意点,我建议大家每次的种子都设置不一样的比较好啊,设置不一样的比较好, 因为如果设置成一样的话呢,就是可能会产生一些噪点的影响啊,就是有一些画质裂化啊,尽量设置成不一样的,你可以随机。而且这个还有一点要注意啊,他的每段题词你要 比较精确的去调整他啊,你可以随时去调整,就说你跑这段看预览不满意的话,你可以随时调整。为什么呢?他这两针之间的动作最好是有一个衔接的啊,不然的话他可能会就是说无法连贯下去啊,会产生一种拖把的现象, 所以说这个时候大家需要精确的调整每段的这样一个提示词,让他的动作有足够的连贯性,最好的每个每一次只做一个动作,而且是跟上个动作的关联性比较大的啊, 这就是这样一个操作,那么我跑了几个啊?早上的时候还会发现画质有些裂化,用铠甲那个工作流哈,但是说现在呢,铠甲这边又调整一些,我估计可能跟代码有关系哈,调整了一些以后呢,那么现在这个画质也也有保证了哈,特别是长视频的一个画质啊,裂化也有保证了,那么 整体的动态呢,也有更好一点啊,但是我跟 s v i 的 作者也聊了,因为用了 light x two v 这个加速 low 二呢,就是很容易产生慢动作啊,大家都知道啊,很容易产生慢动作,即便是新版的它也是一样容易产生慢动作,那么所有有的时候要注意啊,它可能会产生这种 整个视频当中呢,有快有慢的这么一个感觉啊,所以说这个时候就还是需要抽卡啊,你只需要单段儿抽卡啊, 但是,呃,这个情况大家可能会遇到啊,要有心理准备, ok, 那 么这个新玩具呢?呃,也给大家准备好了啊,模型和工作流我都上传到网盘,那么 runny hop 这边准备好呢,我就会第一时间上传 runny hop 啊,那么 大家在过年时候就可以假期可以开心的玩一玩这个东西了啊,长视频呢,对吧?啊,我们都有需求的,强需求,刚需对吧?好,就这样,拜拜。

那今天呢,我给大家介绍一个新的视频生成模型啊,它叫做 s y pro。 那 这个呢,本身不是一个新的模型,它经历了很多的版本,比方说 one 二点一版的, one 二点二版的,而我们今天介绍的呢是 one 二点二 pro 版的,那为什么会有 pro 版本出现呢? one 二点二的 s y 呢?是有一个致命的问题的, 这个问题是什么呢?我们来看一下。在这个工作流里边,我们用的就是万二点二的 sv i, 注意这不是 pro 版。那我们这有一个参考图片,是一个美女和一个骏马的图片,那我们现在如果生成一个视频,我们来看一下它有什么问题,大家仔细观察一下啊,可能直接看看不出来, 那我现在可以直接告诉你答案啊,它其实呢是有一种错误的循环在里边的,你有没有发现这个马呢,跳起来两次, 如果你看的不是很清楚的话呢,我们再来生成一个视频,那参考图片呢,变成了一个美女啊,她现在是跪在雪地里边,那我的提示词呢,是想让她跑起来,那我们来看一下她的效果。那你注意现在这个女孩的动作啊, 他马上要起来,但是呢又跪下了,是吧,那就是回到了原始的状态,所以说呢,这种呢就有点像这种动作循环。那新版的 s v i pro 模型,它主要关注在哪个点呢?主要关注在视频的扩展上啊,所以说呢,我们重点呢给大家讲这几种工作流。 第一个呢就是对已有视频进行扩展,那比方说我现在这有一个视频,那我可以通过 s v i pro 方式啊,对它进行扩展,大家看一下扩展的效果呢,还是非常不错的。第二个工作流,它的功能呢就更加强大一些,我们是先有一张图片,然后呢我们先会用 s v i pro 来生成一段视频, 然后呢来对它进行无限次的扩展, 那比方说我这生成之后呢,对它进行了三次扩展啊,那我们来看下最终生成的这个效果,大家看一下。哎,也是非常不错的。 那我把工作流呢也构建到了 running app 上,大家可以通过 running app 来访问这个平台。在 confui 领域, running app 是 一个非常棒的在线工作平台, 因为只要有新的模型和新的技术出现,它都会第一时间跟进。大家可以通过我视频描述区的邀请链接来注册 runnyhop, 这样可以获赠一千点的免费点数。另外你每天登录 runnyhop 也会有一百点的赠送,这样你就可以尝试你自己的工作流了。那下面呢,我们先来了解一下 svi 的 一些运行的机制, 那么大家可以打开它在 github 上的页面,在这呢我们有一个链接,这个链接的话呢是关于 svi 二点零 pro, 它整体的一个说明点, 点开之后呢,那我们大体的可以发现啊,他大概呢在三个地方进行了改进。第一个呢,我们叫做锚点的重新设置, 这的锚点呢指的是锚点真,你可以简单的认为是我们的参考图片。第二个呢,他指的是浅空间里边的条件反射,这个呢主要是为了避免重复的编码和解码。第三个呢,就是数据的错放一提, 提高啊数据的鲁棒性,那这里边儿你注意啊,它所有的都叫做 latent, 而没有 ev 出现, 所以说呢, s v i 二点儿零呢,它主要啊是针对浅空间里边儿的内容进行处理的,而不是对图片进行处理的。那下边儿呢,也有一张图,那锚点针呢,你可以认为是我们把参考图片啊进行 ve 编码之后生成的一个浅空间里边儿的内容, 这个内容呢,在整个视频扩展当中是共享的,那比方说这个锚点针,大家会发现在每一个 clip 里边它都是存在的。然后呢,还有一个非常重要的概念啊,就是前一个片段当中的最后一针,我们叫做 last latent, 可以认为是上一个视频的最后一帧经过 v e 编码之后生成的内容,这个内容呢会作为下一个视频生成的一个动作的引导,你注意还是我们说的那个原则,在 s v r 二点零 pro 里边儿不会有图片出现, 那所有的操作呢,都会在 latent 当中进行。另外大家注意啊,在这里边还有一句非常的重要啊,就是锚点针的设计机制呢,是为了解决和 light x two v 这个加速 lora 的 冲突。那这句话其实是告诉我们啊,我们在工作流里边呢, 会用到 light x to v 的 加速 laro, 那 下边呢,我们就来看一下第一个工作流,那第一个工作流呢,是我们对已有视频进行一个扩展,大家注意整体的工作流的状态,就是一个 one 二点二的 i to v 的 工作流。 那我们简单的过一遍,大家看一下,这是我们的一个视频,在这儿呢,我们先把它 resize 一下,让它和我们的分辨率保持对齐。这儿先把它第一帧拿出来啊,我现在叫做 row image, 而整个的视频内容呢,我们叫做 last image, 然后下边是模型的加载啊,这就用到了我们之前说的那个知识了。这里边的话呢,我们使用的加速模型一定是 light x to v 的, 那为什么这么说,其实呢,我们的加速模型呢,有两个版本,一个叫做 lightning, 一个叫做 light x to v。 那如果说你用的是 lightning 的 话呢,它就不太稳定,那我们可选的 light x two v 的 模型呢,其实不太多,那我在高噪模型和 d 噪模型用的也不一样,大家呢可以看一下,我在高噪模型 里边用的是幺零三零版啊,因为幺零三零版是 light x two v, 而我们见到的其他的加速模型呢,有很多都是 lightning 版的啊,大家尽量的避开说 d 噪模型,我用的是 light x two v 的 一个传统的加速模型,这个呢是由 k 神提供的。然后在这呢我们用到了两个非常重要的模型,就是我们说的 sv i pro 这个模型。 那大家可以看一下啊, k 神在抱抱脸上呢,提供了啊新版的这个模型的链接,这个是两天之前上传的,那我们的提示词呢,是一个美女放下了他的酒杯,然后站起来。 下边呢大家看一下关于浅空间生成的这个内容。呃,这儿有一个节点的替换,一般情况下呢,我们用的是这个节点,但是如果我们要使用 s u i pro 的 话呢,就要换成这个节点, 那这个节点我们从哪可以获取到呢?大家注意啊,它是 k g note 里边的一个节点,那 k g note 呢是 k 神另外一个非常重要的扩展,大家需要把它升级到最新版,然后呢你就可以拿到这个节点了, 这个节点呢就非常有意思了,大家看一下啊,这边呢除了正向条件和反向条件之外,具有两个非常重要的内容,第一个就是我们说的锚点针, 但是你要注意它是一个浅空间,那我现在怎么去生成它呢?那我现在是把我视频的第一针进行一个 ve 的 编码儿啊,然后呢给它连到这儿来,而下边呢有一个叫做啊 previous samples, 这个呢是指之前的这个彩样,那大家可以参考这张图来看,其实锚点针就是它蓝色的这个,而这个 previous samples 啊指的是上一次彩样生成的这个视频片段,当然指的也是浅空间里边的,那所以说呢,我可以把我整个的视频 进行一个 v e 的 编码儿啊,然后呢给它连到这儿来,然后这里边儿呢同样我们可以设置下一次要生成的这个视频的长度,然后它这儿有一个非常重要的点啊,叫做 motion latent count, 这个的意思也就是说我们会用你给到的这个 previous samples 里边儿的多少帧 来引导生成下一个视频,默认情况下呢是一,所以说呢,大家在设置的时候一定要注意,你提供的这个真数一定要比你这儿写的这个数要大,要不然的话呢它就容易出错,同样我们会得到新的条件和啊新的变量。 下边呢我们进行采样,这个同样是高噪模型和低噪模型的采样和传统的 y 二点二的 i to v 呢是一样的,这儿呢我们就不细说了, 经过彩样之后呢,我们下边儿需要做一个视频的拼接,那这儿我们同样用到 kg node 的 另外一个节点,那这个节点其实我们之前经常用到,那这里边儿的话呢?呃,最重要的是一个叫 overlab, 那 我们都知道在视频扩展的时候呢,经常会有帧的重叠,所以说呢, 这样我们可以设定这个 overlap, 让生成的这个视频的效果会更加的好,那在这的话,大家设置成五就可以了。那这就是我们现在看到第一个工作流,其实这个工作流里边最重要的节点就是这个东西。第二个工作流呢,相对的复杂一些,它有两个内容啊,一个呢是生成,另外一个是扩展。 那我们先看生成的部分,那我们这先有一张参考图,那我们现在把它 size 一下,分辨率呢是八三二乘以四八零, 大家注意啊,这的模型选择跟我们刚才说的是一模一样的。那我们先看一下视频是如何生成的,我们的提示词呢是一个美女在优雅的品尝着红酒, 在这呢,我们同样用到了这个节点,那这个节点跟刚才不太一样的地方是什么?我们这并没有 previous samples, 如果你较真的话,那这的这个值呢,你可以设成零,其实呢影响并不大,因为如果你这不连的话,这是没有意义的。然后其他的呢,跟上一个工作流是完全一样的。 然后经过采样之后呢,我们就会先生成第一个基础视频,大家看一下,女孩呢正在品尝红酒,那这是一个典型的图声视频的工作流啊,当然呢,我们现在用的模型呢是 s v i pro, 然后呢就进到扩展阶段,跟上一个视频讲到的扩展机制呢,是完全一样的, 最核心的节点依然是它,这个时候的 previous samples, 连的就是我们上一次生成的这个视频,而我们的锚点针是共享的,所以说呢,它始终都是这个参考图片。然后我们将两个视频合并之后呢,同样会得到一个不错的一个效果, 所以我的第二个提示词重点的动作是让女孩站起来,大家看一下,这个动作也非常的明显,那这个工作流最大的价值是让我们明确的了解到如何去生成一个视频和扩展一个视频,它的缺点就是它只能生成两段,然后再拼起来, 那能不能生成无限长的呢?当然也是可以的,那这就有了我们的第三个工作流,那第三个工作流的机制和第二个工作流呢是完全一样的,那只不过就是我这儿加了一个循环,我把上一次生成的浅空间给它连到了以内首 y 六一, 而生成的视频连到了以内首 y 六二。然后呢,我这儿有一个 pro plan 啊,提供了三个 提示词,同样还是那个概念,就是我不希望每个提示词都是一样的,由于我有三个提示词,所以说呢,我这就要循环三次,然后我可以控制 start index 来取到我想要的那个提示词,然后下边呢就是整个循环的主体的内容, 这个内容呢,其实跟我们之前讲的视频扩展的也是一样的,那大家唯一注意的就是这个节点,这个节点里边的话呢,我们的锚点针这个是不变的,同样是参考图片,关键呢就是这个 previous samples, 就是 你之前生成的这个视频。那这个呢,我们每次取的呢都是这个 y 六一, 那我们经过编码之后呢,一方面把新生成的这个 samples 给它连回到 initial y 六一,这样的话呢,我下次再取的时候就变成了新的 latent 了。 那另外的话呢,就是生成的视频我连到了 y 六二,这样的话呢,主要是方便我们后续的拼接。那经过三次之后,我们会得到这样的一个视频,那大家看一下新生成的视频,它的动作也是非常丰富的, 不能说完全遵循你的提示词。我们来看一下我们用到的三个提示词,第一个呢,我们是说女孩呢,放下他的酒杯,然后站起来,而我的第二个提示词呢,是想让他微笑着打招呼,但是这个动作呢,其实是没有的。而第三个提示词是让他离开这个房间, 那我们看一下最终生成的效果,他一开始在品红酒,然后站起来,没有打招呼的动作,然后最后一个关键动作啊,他离开了这个房间。那整体的表现呢,我觉得还是不错的,大家注意啊,就是三段视频的衔接呢,是非常顺畅的 啊,也没有偏色,没有尾影,各种各样的现象,所以说我觉得新版的 s v i pro 这个模型呢,是非常值得大家去尝试的。那在整 整个的工作流里边,大家最容易犯的错误就是大家选的这个 lara, 如果不合适的话,可能呢你的提示词在整个视频当中呢,它表现不出来,我建议大家还是选择 light x two v 的 lara, 而不要选择 lightning 的 lara。 好, 今天呢,我们就说这么多,还等什么,赶紧自己试一下吧!关注我,做一个懂爱的人。


在 cfui 里已经可以生成没有固定时长上限的视频了,是真正意义的任意长度故事。视频生成不仅支持无限时长扩展,还具备高度的时间一致性、自然的场景过度以及可控的剧情推进能力,真正的按分镜写故事,按段落拍电影。 下面来看一下效果演示。 在本节课中,我会完整拆解 s b i two pro 在 康复 ui 里的使用方式,内容包括完整工作流的主节点讲解,每一个节点负责什么,为什么要这样连接。核心参数设置逻辑包括时长扩展、时间一致性、剧情稳定性的关键参数, 工作流的本地和云端使用教程,有无算力都可以率先体验。如果你正在做故事视频、 ai 短剧连续剧情内容,或者真正的想把视频生成从片段推进到讯视级别, 那么 sv i two pro 一定是你绕不开的一套方案。想要深入学习康复 u i 的 小伙伴,欢迎加入小黄瓜的知识星球,星球汇聚了两小时入门、十二小时进阶工作流、竹节点拆解等高质量课程,后续持续更新 lo 二训练、康复 u i 云端教程等实战内容。 每节课后有客户作业答疑群和每月直播辅导,进阶学员可参与 ui note 攻坚计划,实现技能变现, 内容丰富。感兴趣的小伙伴可在视频剪辑区联系小助理获取优惠加入。话不多说,我们直接开始本节的内容,下面我们来看一下事情的经过。在上个月的时候, s v i 出了二点二的版本,也就是支持了 one 二点二的模型,可以进行一个长视频的生成, 但是在 k j 的 仓库里面,通过大家的讨论和实验就发现了一些问题,比如说当前这个评论就是 s v i 官方的作者发的 说发现如果使用 light 叉二 v 的 low 二模型,对 s v i 的 效果会有明显的一个影响,我们来看一下对比哈,那么从左上角开始到右下角结束,分别是 light 叉二 v skill, 也就是它的一个控制强度, low 二模型从一点零到零点四的一个逐步变化的过程生成的结果的对比哈,可以看到哈, 当 light 叉二 v 的 值越高的话,那么画面的运动幅度就会变得越小,那么它的 lora 的 strings 也就 skill 越小的话,那么画面当中就有可能出现重影,比如说零点四和零点五,我们可以注意看啊,在这个时候就出现了重影, 但是在零点六到一之间是没有出现重影的,但是呢,零点六到一之间呢,人物的运动幅度会变得很小,或者说不听提示词的话,文本遵守程度有所降低。我们再看一遍, 可以看到前面的两个呢,对人物向前走这种状态并没有描写的很清楚,对吧?然后有了这个原因之后呢,作者在下面就说自己测试出来了, 在左边和右边两个结果当中,推荐我们的高噪声,也就是在 one 二点二高噪声上面去应用 one 二点二对应的 s v i 模型,同时应用 light 叉二 v 的 话,那么把 light 叉二 v 的 强度呢,给到零点五,或者说给到零点六比较好,那么低噪声呢?还是给到一点零去进行细节的一个描绘,那么这是作者官方给的一些建议, 然后后续呢就在最近,也就是可能是半个月之前吧,然后就出现了 s v i two pro 的 一个配合, 同时增加我们稳稳遵守程度,同时呢不减弱人物的运动幅度,那这个模型呢,就应运而生了。然后我们来看一下刚才我在 comforion 当中跑出来的结果,那么当前这个工作流就是 sva 官方提供的 pro 模型的工作流,那么是基于 comforion 做的,也就是 kj 现在可能还没有做支持, 所以说当中用到的更多的节点是啊, comfor 官方的模型对应的节点,比如说这里的 clip 模型,我们需要加载 comfor 官方量化的 one 二点二对应的 um t 五叉叉 l 模型,因为 kj 它用的是 um t 五叉叉 l e n c 模型, 所以如果你用的是 e n c 这个工作流会报错,大家一定要注意这个地方,要加载 comfor 官方的 um t 五模型哈,那么这个工作流我们可以看一下哈。首先加载万向的高增 v 的 加速 lo 模型啊,也就是 len 的 加速 lo 模型 啊,可能不是差多微的,总而言之是万二点二的。然后可以看到强度,我们给的都是一点零和一点零,然后同时加载了 svi v two pro 的 两个模型,一个是高噪声的模型,一个是低噪声的模型, 然后呢这中间呢是就是进行我们参数的一些设置,可以看到这里是我上传的一张图片,然后给的分辨率呢是八三二乘以四八零,所以说会进行一个裁剪。然后第一段我们写的是镜头逐渐拉近,显示男生的眼睛特写,画面震惊,似乎男生想到了不可思议的事情。然后这是我们第一段,可以看到 人物开始变得震惊,然后画面有拉近啊,但是拉近的情况呢,可能没有那么明显哈。然后这里是第二段,我们写的是镜头逐渐向后拉远,显示出男生正坐在沙发上,然后用双手挠头发,显得非常焦虑。这里是跟第一段进行的合并,第一段合并之后,然后是第二段, 然后摸头发,显得很焦虑,镜头似乎没有拉远哈,可能对镜头语言的描述呢,有一些不太明确,这里说响起了敲门声,男生扭头,似乎聆听敲门声,是否在继续?让我们看一下哈, 很惊讶,然后用双手挠头,然后聆听敲门声, 然后没有表现出扭头的这个效果哈,然后最后我们显镜头向后移动,显示男生的全身,然后男生站起身往门口去打开门, 然后可以看到他有打开门的动作哈,但是没有走到门的前面,那么这个呢,是我刚才跑出来的效果哈。那么除此之外呢,我还有跑一些其他的案例,我们可以再来看一下,比如说这个 svip pro 这个提示词呢,我是让他生成了两个人,就首先两个人逐步往前走,然后呢? 女生呢是蹲下开始系鞋带,然后男生站在他的旁边看着远方,然后最后呢是女生站起来,站起来之后,两个人继续牵手往前走,我们看一下, 然后女生就看了一眼鞋带,然后开始蹲下来系鞋带, 然后两个人站起来之后呢又继续往前走,那 这个呢,也是 s v i two pro 生成的一个视频,还有一个视频表示人物动作的当前,这个视频写的是一个女生,然后在讲述自己的经历,然后呢从桌面上拿起纸巾开始擦眼泪,擦完眼泪之后开始扭头看向左边的窗外,然后呢就是拿起口红开始涂口红。 可以看到,首先在讲述经历,然后拿起纸巾开始擦眼泪,然后扭头看向窗外,然后开始涂口红。 那这一整段的视频还是不错的,而且人物的动作呢,都有表现出来,并且对文本的遵守程度呢,也是挺高的。然后我们再来看一个场景,这个提示词呢是类似的,也是一个女生在喝咖啡哈,然后后面呢就是扭头看窗外,然后就是涂口红, 哦,这里我写的是她喝了一口咖啡,然后站起来开始收拾自己的衣服,然后收拾完之后坐下开始看窗外,然后就是涂口红。 那这个提示词的尊重程度也是不错的,而且呢还有人物面部的一个特写啊,这个也是 svip 生成的, 这里写的是这个女人呢,然后是抓起了一只小猫,也就是在地上的小猫,然后开始跟这个小猫玩耍,然后小猫呢从他手上跑出去,但是跑出去这个动作好像没有表达出来,也就是偶尔的情况下会出现提示词不遵守的情况啊,首先他在笑,然后呢开始抱起来一只小猫, 然后这里我写的是小猫从他的手上跑出去啊,但是并没有表达出来哈, 可以看到整个视频呢,还是不错的,而且整个视频一共差不多二十秒的时长,我们都是用 sv 二 pro 生成的,好吧,那所以说大家如果觉得效果不错的话,可以尝试一下当前这个工作流, 那么我们来分析一下这个工作流都是什么样的一个内容吧。首先呢这里就是模型的加载,然后这是你第一张图片,也就是起始图片的一个设置哈,可以是动漫人物,也可以是真实人物。 然后中间这一块就是我们参数的一个设置,主要设置每一个阶段采用的时长这些内容,然后后续的话,每一块他都是重复的,跟我们之前的 logitech 基本上类似,只要生成长视频,基本上都会用到窗口的一个概念哈, 所以说他每一个阶段就采用你一个窗口的大小。当前这个工作流我们一共给了四个阶段哈,可以看到这里是一个一个、两个,三个四个,那每一个阶段呢,核心就是一个提示词的输入,这是他的核心,除此之外其他的设置我们按照默认就可以。 那我们深入每一个阶段来看一下都做了什么样的内容啊。首先我们看一下前面模型的加载,这里就不用多讲了,可以加载 k j 的 万象模型, 但是呢必须要加载 comfor, 也就是 comfor 官方的文本编码模型,也就是 um t 五叉叉 l, 不要有 e、 n、 c 哈, 然后下面呢就是万象的 ve 模型,用的是万二点一的。然后前面的两个 lara 呢,就是给大家提供好的,在网盘里面有哈,到时候大家自己下载, 然后 light 叉出 v 的 话,都在网盘里面,大家可以自己下载哈,然后中间的话就是我们一些采用参数的设置,这一些内容我们不用去改, 好吧,这是官方给的一个市力工作流,那这两个我们就按照这样去进行设置就可以了,可以看到它一共采用六部分成了高低噪声,那么高低噪声呢?把 sigma 也就是采用的这个值从中间进行了一个切分,可以看到啊,高方叉在三步的时候进行了一个分离,前三步呢是高方叉,然后后三步呢是低方叉,可以理解为就是噪声哈, 然后前三步是高噪声,后三步是低噪声,就是这样的,所以说这些值呢,我们按照默认就可以了,因为前面我们用了 light 叉二 v 的 加速 loa 模型,所以说这里的步数呢,我们才能给到六哈,所以说这个 loa 一定要加载。那么下面呢,就是我们图片的一个参数设置了,也涉及到我们的视频哈, 然后这里可以看到是我们加载的图像,然后是一五三六乘以一零二四的,没有关系,大家可以自己加载,主要是这个节点图像缩放节点对我们的原图呢进行尺寸的一个设置,这里给的是八三二乘以四八零的分辨率哈,那这个节点也不多讲了,如果说大家上传竖屏的,就给他改成四八零乘以八三二的, 好吧,这里的值一定要注意,然后这里就开始进行采样了哈,然后中间的每一个节点呢,它是一个组,节点内部我们会设置好一些参数哈,大家可以双击进来打开,往右边拖一拖, 在当前这个位置,然后可以看到这里会有一个 one image two video s v i pro, 那 在这个节点里面会有一个类似,指的是你这个阶段的长度,我们给的是八十一啊,一般大家不用去改它,因为你的显存一般是够的哈,如果你的显存特别低,这个值你可以相对的给低一点 啊,但是你每个阶段里面都要双击进这个主节点,然后再进行修改哈,然后其他的值就不用去改了,这反向提示词什么的我们不要去改它啊, 大家只在这里写每一个阶段的内容就可以了,所以说根据刚才的八十三呢,我们可以发现一个事情啊, 在合并为视频节点当中,我们的帧率是十六,那么在组节点当中,我们设置了每一个阶段是八十三,所以说八十三除以十六就等于五,所以说每一个阶段我们大概是五秒的一个时长。所以假如说大家想要生成更长的,比如当前工作流,我们一共四个阶段,四乘以五是多少?二十秒,对吧?那如果你想生成二十五秒的,你就把这些 ctrl c、 ctrl v 粘贴一下,粘贴过来之后呢,可以看到它前面连的东西,然后把它进行复刻就可以了。比如说把 samples 连到这个 preview samples, 然后把 extend images 连到 preview images, 然后就可以了,那这个呢,你就完成了五秒的一个延长,如果想再长的话,你就继续在这里再粘贴就可以了,那每一个阶段你的核心就是改它的提示词就可以了,那每个阶段呢?就是五秒, 好吧,那这个呢,就是整个工作流的内容了,如果说你每个阶段想时长少一点,比如说我只生成三秒的话,那你就把这个值修改,那十六乘以三是多少?四十八,所以说你就把这个值改成四十九,四十八加一就可以了。好吧,那这个呢,就是我们整个工作流的用法了, 接下来给大家讲一下我们怎么在本地进行一个安装啊。首先大家还是在视频的简介区打开我们的网盘地址,呃,打开之后呢,大家就可以看到,在这里给大家提供了 sv 变速 v 加速的 v 模型, 那么大家把这四个模型下载之后呢,放到自己 comui 对 应的文件夹当中就可以,比如说 lores, 我 们就放到 comui 对 应的 models lores 文件夹里面,然后粘贴到当前这个位置就可以了。粘贴完之后呢,可以下载 sv i two pro, 然后对应的视频生成工作流,然后把它拖入到 comui 里面。大家要记得更新自己的 keynote 插件,因为里面可能要用到一个新的 keynote 对 应的节点, 那么同时呢,把 one 二点二,也就是万象的 one video rapper 的 插件也进行一个更新,记得把 comui 也更新。好吧,一般情况下,这些你更新到最新,它们都是适配的,因为作者都是会经常进行维护的。 那么在更新完之后呢,在节点当中就选择我们对应的模型就可以了,核心点还是这个 clip, 防止出现错误哈,不要加载 kj 对 应的要加载 comui, 也就是 comui 官方的好吧, 加载完之后上传图片,然后写上自己每个阶段要生成的内容就可以了。那这个呢,就是我们本地的使用教程,如果大家要在云端使用的话,还是在视频的剪辑区打开我们云端的地址,然后呢会到达当前这个界面,可以选择一个最新的版本啊,大家看到的时候可能是一些新版本,比如说零点零点一四,零点零点一五这样的, 然后呢选择四零九零,找一张四零系的显卡,建议用四零系的,因为我的环境是按照四零九零配的,然后选一个四零九零显卡,点击去创建实力,然后点击确认作用,然后就会到达当前这样一个界面,也就实力管理当中,大概等个一分钟左右的时间,这个服务端口的康复 ui, 然后你可以点击, 点击完之后你就会进到康复 ui 对 应的界面里面呢,大家不需要进行模型的配置,工作流的话也在云端进行了上传, 大家可以点击左侧的工作流页面,然后搜索 s v i, 然后就能够找到 s v i two pro 对 应的一个视力工作流,找到对应的视力工作流,然后呢进行图片的上传,然后提示词的书写就可以了,那这个呢就是我们云端的使用教程,好吧,那今天的话我们就先讲到这里,感谢大家。

今天跟大家分享一个长镜头生成工作流。先看一个生成案例,阳光洒在街角的小餐馆里, 他轻抿一口红酒,嘴角微扬,面前的披萨香气四溢,绿叶点缀其间,仿佛是生活最美好的馈赠。用刀叉轻轻切下一块,那瞬间的满足感让他忍不住比出新型手势,这不仅是美食的味道,更是对生活的热爱与珍惜。 直出这样的长镜头只需几分钟时间,下面一起来看一下模型和工作流。模型是一个名为 s v i 的 lara, 推荐大家通过魔搭社区下载,搜索视频中展示的模型名称即可, 直接选择二点零版本,效果更好,同时支持 v n 二点一和二点二。 v n 二点二包含普通和 pro 两个版本,前面的案例是使用 pro 版本生成, 接着工作流可以通过视频中的链接下载,该页面中还有很多其他玩家分享的案例,包括一些时常长达五十秒的镜头。 我使用的是前两天社区大佬刚分享的工作流,大家可以做个参考。工作流下载好后直接导入康复 ui 即可,可能会遇到节点缺失的情况,替换缺失节点或根据提示安装缺失插件即可。工作流大致分三部分,左上角是模型加载部分, 左下角是视频基础信息配置和初识片段生成部分,右侧则是基于循环实现的长镜头生成部分。而强大之处就是循环过程中利用 s v i 实现了多段视频间的自然衔接过渡。模型加载部分比较简单,首先是 g p u 和哭打优化, 第二列是高噪模型,包括 s v i、 lara 四部加速 lara 和 one 二点二纹身图模型,第三列与第二列对应为低噪模型加载,不再赘述。 最后则是 v, a, e 和 t 五文本编码模型。第二部分左下角是视频基础信息配置,包括完整镜头的分片数量以及视频的尺寸设置, 上方则是整个镜头的手帧参考图像加载节点之后,除了与 sv i 模型对应的 swiper embs 节点,其他就是常规的图声视频工作流。最后这里将该部分生成的视频片段存储为变量,提供给第三部分使用。 第三部分跟第二部分类似,只是使用 for 循环生成了多个片段,然后进行拼接。我这里就是替换了一个未安装的节点,通过换行符分割出四段提示词, 而每个分段视频都通过 sweet pro and bass 节点将上一段彩样视频作为参考,这样就完美解决了片段与片段之间的自然衔接。接着就是高低造两次彩样,生成每个分段视频, 同时再将当前分段的帧与前面生成的所有帧进行拼接,最后再将所有帧合并为视频,就得到了一个完整的长镜头视频。需要注意的是,在 for 循环结束后,需要添加任意输出节点,不然循环运转不起来,就只能得到两个分段拼接的镜头 工作流就介绍到这里,现在我给大家展示一个完整案例。首先使用千问生成一张手真素材图像,使用了一个人物 lora 提示词比较简单, 图像尺寸设置为一二八零乘七二零,生成后就得到了这样一张素材图。打开长镜头生成工作流,首先将前面生成的素材图像加载进来,生成分辨率,同样使用一二八零乘七二零编辑手段视频生成提示词, 然后同样准备了四个分段提示词,大家可以暂停查看,现在准备工作就完成了,开始运行工作流,大概一分钟左右,首段视频就生成好了,给大家看一下, 继续等待其他分段视频生成。整个过程相对比较久,根据分段数量及每段帧数生成耗时在几分钟到几十分钟不等,该视率耗时约十三分钟,给大家看下最后生成效果, 整体动画效果和连贯性是非常不错的,点赞关注,下期更精彩!

一张图片就能生成长视频,并且支持分镜与一致性?我们先来编辑一段话来描述一件事情的经过,可以看到这个女生在环境中的一致性保持的还是非常不错的, 还有人物分镜特写方面,他就是本期视频的主角 sv i 二点零 pro, 可以 看到他能够支持无限长视频的生成。当然这里使用的是 k 街大佬的量化版本,创意则来自乌鲁,我这边修改并整理了一下。 首先生成一致性的前提,我们需要去千文二五幺幺的工作流,连续生成几张一致性的图片,需要几个分镜就生成几张图片, 千万二五幺幺工作流前面的视频讲过,这里就不过多赘述了,我们在这边加入了多段提示词,然后把这些一次性图片保存到本地,再分别上传到对应的区域, 这里注意一定要根据故事的时间线去上传。首先来看一下模型的加载,这里分别加载 k、 j 的 高噪与 v、 a、 e。 最先传入到第一段时间线,这里的图片经过缩放传入到彩样器, 注意图片的宽高,别弄反了。然后输入的提示词一定要跟图片对应的上,通过彩样去造得到视频,这里设置的是八十一帧,帧率二十四,得出来的视频就是三秒多一点,然后这个视频再传入到下一段。 之前原始版的一进到底,视频的工作流都是通过第一帧的图片作为同一个锚点采用。当然我们这边是需要分镜的视频,所以连接的是第二个分镜的起始帧图片,然后填入提示词,得到第二个分镜的视频, 后面这个视频将第一段与第二段视频串联到一起,以此类推,最终得到一段长视频, 整个故事线围绕这个女生,从开心到难过,而且质量也比较高。其实整个工作牛并不难,理论上可以生成无限时长工作牛与模型。这边已经打包好了,留言分享,那么本期视频就到这里,我们下期再见,拜拜!

小伙伴们大家好啊,好久没有更新这个视频的工作流了, 最近新出了这个 s v i 啊,我们简称的是一个长视频生成技术,我们可以看一下它的官方这个介绍啊, 它官方的这个视频我就不给大家挨个放了,基本呢每个视频都是二十多秒,并且呢在官方的卖家秀这里,这些视频长视频, 然后也没有出现裂化,或者说颜色有明显的偏色的情况,所以说效果还是很好的,并且作者呢,最近刚做了更新啊,大家可以看一下做了这个 svr 二点零的 pro 版本啊,并且作者还贴心给出了这个康菲渊的工作流, 看 coffee ui work flow 啊, kg 这边呢,也第一时间做了量化,我们可以看一下这是他之前的 v 二点零的版本,然后是将近一个月之前了啊,这是昨天刚做了这个 pro 版本,看 呃, v 二 pro 版效果也是更好的,大家可以看一下我这边生成的,当然你要说他多完美啊,也不是说很完美,毕竟每个视频对接的时候,大家可以看一下,因为他用的是对接的形式啊,你看对接的时候有时候也多少会有闪烁是吧, 但是他和我们之前的那种,嗯,就说通过一个手针尾针,然后一直无限循环生成的长视频来说,效果还是好的太多太多了,并且颜色也没有任何变化。 我们就说一下这个工作流具体怎么使用,包括这个模型,还有说节点,节点的使用啊,首先这两个工作流呢,我已经同步发布发到了 rni 哈普这里,分两个,一个是大家看的这个最终效果的, 就这个啊,这个效果比较好的是首尾对接的,你看这个效果还是不错的啊。 第二个版本呢,是比较清亮简单的啊,因为这个首尾对接的说实话有点复杂,然后这个简易的,虽然说效果稍微差一些,但是 实际测下来啊,你比如说跑个十秒,他也是能够可以的,所以说大家自己按需选择一下,这两个工作流用起来都是比之前的效果会好很多啊。然后 如果是 rng 这边新用户呢,用我这边地址注册,还能送大家一千个积分。你像是这种新技术新模型啊,昨天刚发布, rng 第一时间就更新了, 所以说适合大家玩各种新技术。康菲元生态这一边也是推荐大家玩一下这个 runnyhop 啊,我们说一下这个工作流,或者说这个就说 svr 二具体怎么去使用啊。 首先呢,大家想使用这个工作流,我们先以这个无线对接版本的跟大家做一下说明啊, 大家如果想用这个工作时候,你需要先把 kg no 的 这个节点给更新到最新啊,就这个啊,因为这是昨天 kg no 的 刚就说为它加了一个节点, 怎么去更新呢?第一啊,大家尽量不要用管理器啊,因为现在管理器实在是有点迷糊啊,找到这个 k g note 这个节点里头啊,在你卡斯特的目录里头找到这个节点,然后输入 cmd get pro, 然后就可以更新了。 如果说你出现一排什么又是增加节点,又是又是删除文件那一类的,那就说明更新成功了,因为我这更新过啊,所以说他会出现这个 就说明已经是最新版,这样的话,这个工作流就可以正常使用了。第二点呢,需要的模型和工作流我也放到网盘里了, 大家也可以自己在网盘下载,或者说直接从抱抱脸下载都是可以的。在模型这一块呢,这个没什么要说的,如果说大家喜欢用官方原声的 y 二点二高 高低噪也可以换成原声的,只不过如果用原声的,因为我这边用的是 remax 啊,我测下来, remax 比原声的更好用。 如果大家用原生的下面这两个 low 啦,你就换成那个加速的四步加速的 low 啦。我这边呢,因为 rex 已经融合了加速了,所以说直接用的是奖励的 low 啦啊, y 二点二的奖励 low 啦。 这个之前咱都讲过,就不细说了,剩下呢,就加上昨天 sv 二这个 pro 版本的 low 啦,就可以了。关于模型这一块,就这么简单, 然后其他的都是万二点二这一套的啊,这个没什么要说的,设定宽,设定宽度,高度。然后啊,每一段每一段视频生成在这里啊,大家需要为每一段单独制定提示词啊, 比如说我这一段,呃,就这个节点啊,他是八十一针,总共是跑八十一针,当然这时长取决于你最后合并为视频是多少,咱这边工作用的是二十四,所以说其实他每一段时长是三秒左右,就八十一除以二十四吗? 如果这里改成十六,那就每一段就是五秒了,就从这里,你比如说第一段视频,让他把帽子取下来。第二段呢,对着镜头微笑,你可以看这里啊,从这里看每一段效果,你看对着镜头微笑,对吧?然后第三段让他又戴上一个墨镜, 对吧?又戴上墨镜,第四段呢,让他转身去跳个舞,他会吸取上一段的啊,就说和上一段进行解码,就这个节点啊,会从这里看没有上一段的雷特,传到下一段这里, 然后从这个雷特作为一个参考,然后生成新的,所以说啊,他这就是他一直就说裂化性比较小的原因。另一点呢,还有一个啊, 就这个啊,他每一段你看都获取一个,就说原始潜空间,原始潜空间在哪呢?就是在这里啊,因为是徒生视频吗?我们从这个图片这里解析的 v e 编码,就这里啊,这个雷坦, 所以说他每一段视频,即使是获取了前一段视频的,就说最最后那几帧去做参考,但是也会一直参考着原始的 原始我们给他的雷特,这就形成了他最后会一直既参考前段视频,又参考了我们原始给他的前空间,所以说就长视频不容易裂化啊,这就是他一个基本原理,大家可以看一下。然后第五段视频,让他回身比个耶, 这个没有遵循啊,并且这个耶没有比出来,并且这个视频也有点缓慢啊, 然后最后一段让他镜头拉远,女人走远,其实大家也可以看到啊,越往后还是多少有裂化的,所以说, 呃,不能说这个项目有多完美,只能说现在来说长视频来说,这个项目已经算是不错的了,对吧?大家也可以看一下,包括接缝处,其实还是多少有一些有一点问题的,对吧?这是接六段吗?如果大家想接第七段,怎么去接呢?也很简单啊,大家把这个第六段 就说把它框一下,呃,怎么框呢?摁住 ctrl 键啊,去框一下, ctrl 加 c, ctrl 加 v, 拉出来之后呢,从这里 这里大家可以看一下这个节点啊,这个节点就和我们连接图像一样的,第一个是,呃,下面这个 new emoji 就是 新视频啊,新视频就第七段生成的,对吧?连到这里,然后上面呢就原始视频,原始视频呢,肯定是这个生成的,对吧?就把这个 把它和前面合并起来的给他接到这里,这样就可以了,然后最后再合起来,和之前所有的给合起来的这一块啊,连到这个位置就完事了。 这个呢,其实就是说最后生成的原理啊,就是这么搞的很简单啊,对接起来也很方便,大家可以试自己试一下啊, 当然这个方式呢,有可能大家感觉稍微有点麻烦啊,但是以现在来说啊,这个已经是最合理的了,其实最难的点在于说我们需要给每一段给他写个提示词啊,但是这个也没有太好的办法,我也尝试了用 ai, 让 ai 去就说自动理解每一段的提示词,但是说实话啊,就是说他理解的稍微有点傻,并且也效果也并不是太好。 如果说大家简单的玩一下这项目,可以用我做的这个简易版啊,大家用简易版的话,就直接生成时长这里改一下,然后宽高写一下,提示词呢,你可以写每一秒他做什么,这个很简单啊,就直接用简易版跑简易版,其实出来效果也是可以的, 但是这个帽子有点诡异啊,拿走了又戴上,因为他不如这个,就说我们刚才说的这个原理对吧,他每一段都会参考第一段,然后并且每一段生成都是用后一段的尾针 去截取那一段去生成的,所以说效果肯定稍微有些折扣啊。对应的模型和工作流我都会同步放到网盘,大家自己试玩一下,自己发挥一下想象力吧。 然后在网盘里大家找到十二月二十九号发布的下载就可以了。把这个 mod 子整个放到自己的 mod 子文件夹就行了。我这边需要的模型 v e, lola 还有 cleveland 都给大家放好了, 然后包括两个工作流也都放在这了啊。如果大家显存够用的话,推荐大家还是用这个无线对接的版本啊,跑一跑之后,然后再清理一下就完事了啊。好嘞,大家自己试玩一下吧,谢谢大家,再见!

今天带来最新 s v i 二点零 pro 加 one 二点二加 comfui 整合包二点零,这是当前无时长限制视频生成的旗舰工具,无需任何环境配置与部署流程,一键启动即可解锁全功能体验 整合包的 s v i 二点零 pro 一 拖 y 二点二支持彻底突破传统视频创作的时长边界, 原声支持无上限时长的视频输出,无论是多场景续是短片,还是单镜头连续动画,均可实现时间线逻辑连贯、场景过渡自然的流畅表现。不仅能稳定生成任意时长内容, 更通过 y 二点二专属的误差缓存机制为模型赋予记忆加实时纠错的双重特性。每一段新增画面都会与前置内容进行特征对齐,确保动作、表情、场景、元素的高度一致性,整体过渡丝滑无割裂,从根本上解决了长视频生成的失忆问题, 真正摆脱时长枷锁。操作是简单的一件事,仅需上传参考图,按分镜头依次输入关键词后执行流程, ai 会自动完成分镜内容适配、帧序列生成、多片段融合的全流程自动化处理,高效产出常识连贯的视频内容,在时常灵活性、画面流畅度、内容一致性 三个维度实现了均衡突破,是兼顾效率与质量的视频创作解决方案。无论是视频创作新手,还是追求高效的专业人士,不妨即刻上手体验解锁长视频创作的全新可能吧!

先看这段三十秒的视频,音频是我配的,不要在意。 在了解 s v i 长视频生成的时候,先看一下基础的单图生成长视频。咱们以官方的工作流为类,这是官方给的势利工作流,这个工作流太繁琐了。 现在就有一个问题,假如我跑完整个工作流,我现在感觉第二次跑的不好,我想重新跑,我单独执行第二个,我都需要把第一个执行完才能重新 跑第二个。假如我现在感觉最后一个不行,我执行最后一个,就需要我把前面所有的跑一遍,这样是不是太浪费时间了? 所以我这里用一个简单的方式把这个工作流重新搭建了一下,还是用到我之前讲到过的缓存。现在我以执行四次为例,这里的核心我用子图创建了组建,咱们点进去大概看一下这面核心,也就是每次传入的参考视频,取最后几帧作为下一次的参考图。 我这里设置的重叠帧为一,这里是第一次是一个参考图,然后生成的视频缓存起来,最后在下一次采用调用缓存,然后第二次生成缓存,第三次生成取第二次缓存。后面也是这个逻辑,就不多讲了, 这样可以解决我们前面说的那个问题。如果我感觉第三次跑的不行,我直接执行组就可以了,就不需要再执行前面的了。接下来我可以把它改成循环, 我们只需要输出提示词列表和执行的次数,让它自动执行起来,这是最终改进的工作流。这面是提示词列表,每一行代表我执行一次,这里是根据每次缓存的视频取当前执行的提示词, 这里是你要执行多少次?我这里以三次为主,咱们执行一下。 看这里,提示词取的是第一行, 当前执行第二次。看这里,提示词取的是第二行, 当前执行第三次。看这里,提示词取的是第三行。好了,执行完成,咱们看一下效果。 这单图理论上是可以生成长视频的,但是你如果是这种固定的镜头提示词,变化的场景不是特别大的时候,生成连续的视频是没有问题的。 那如果我的视频生成有切换场景或者取得参考帧数是这样呢?那你一直往下扩展,再次出现前面人物或者主体模型,压根就不知道你的人物主体,这样是不是没法保证人物的一致性。所以说单图来生成长视频,有些场景就不行, 所以我这里面用了首尾帧来处理,这种即可提高质量,又保证主体不变化太大。 接下来大概看一下这个工作流是怎么实现的。这面是我上传的几张分镜图,这里分镜图有好多种方式生成,这里不多说, 这里测试,我用了六张,这里可以设置你想要的图片列表、个数模型。这面用到官方的工作流, 主要是下面的循环,每次循环获取手帧和尾帧进行组合,传给大模型来推理提示词,最后到前空间,再到彩样生成视频。 工作流我已经上传 runninghub 了。在 comui 领域, runninghub 是 一个非常棒的在线工作台,只要有新的模型和新的扩展出现,它都会第一时间跟进。 大家可以通过我视频描述区的邀请链接来注册 runninghub, 这样可以获取一千点的免费点数,另外你每天登录 runninghub 也会获取一百点的赠送,这样你就尝试运行自己或者别人的工作流了。好了,今天就讲到这里,喜欢的可以一键三连支持哦!

y 二点二的 sv i pro 模型的更新,可以去对抗衰竭,对抗裂化,对我们的视频激进于无限市场的生成,这里是做了一些尝试性的结果。我们来简单的看一下,正在进行一场 boss 战, 双方对抗,那么人类站在这个劣势,忽然神乎其技的一记反击, 一个女性在天台运动跳舞,然后呢飞到天上去。 之前有介绍过非 pro 版本的模型,那么 pro 版本的模型提升其实是巨大的,人物就算是离开了镜头也可以保持一定的相似度,这里大概是一个悬疑解密的故事,还是有不符合逻辑的地方,但是总的来说是一个大的进展, 除了对这个图声视频的结果进行延长之外呢,还可以对视频进行续写 灾难片的这种效果,再接着继续延长。这个地方对于万二点二模型的能力还是进行的相对比较极致的开发,那么就像之前我们介绍过的农贸模型而言,也有类似的功能,我们这次的话万二点二是一把追平了。我们来看到工作了,我这里使用的是全球最大的在线康复医学平台 round 二, 也是 ai 爱好者最常用的在线工作台,最新最好的技术在同步更新。那么我这里构建的是一个循环的流程,直接说快速启动, 快速启动上来说,我们需要加载图像,这里是一个图到视频加循环延长的流程,所以首先我们需要去加载图像, 设置一下初次运行的提示词,设置视频的宽高,那么我这里跑的是一个七二零 p 的 结果,那么对应的在后面的循环板块当中呢,我们就应当有九段提示词,九行九段这几个输入项具备之后就可以直接启动了。每 p 四的生成是五秒钟, 考虑到有重叠部分,所以后面我们每循环一次都将去增加四秒多钟,大致是这样的一个时长算法, 初四运行和后面的循环九次一共呢是十个迭个词,我们可以让大约模型去帮助我们去写,尤其是像我们这样的结果,可以属于是一种一进到底的结果,哪怕就是说实拍呢,我们也不一定那么的轻松, 所以其实此这个地方呢,还是要打磨一下。看到细节处大模型的加载和装备,大模型这个地方呢,使用的是原版的大模型,那为什么用菩萨模型做增益呢?用菩萨模型本身就具备进行视频延长的这样一种特性在里面, mps hps 用做增益 加速模型这个地方的配置呢,使用了一种比较激进的配置,低噪用的万二一的 r 八的加速涡轮模型,高噪使用了幺零三零模型, 最新的加速模型和权重为三的万二一的软壳一二八的软模型。按道理我们不走这套流程,直接做组成视频可以触发的动态是极大的, 但是这个流程,尤其是 s v i 的 pro 模型配备之后的话会陷入一定的动态,所以我们用幺零三零模型会更加合适。 导航智能 app 视频相对内流程已经同步更新,可在线运行。这一次二点二 pro 的 更新不仅仅更新在模型上面,一更新在节点上面需要去使用专用的节点,尤其是这个节点,我们来去理解一下, 那么一个是毛采样,一个是上一段的采样,我们先看技术的应用,技术的应用当中呢,毛采样是不动的,他编码进去输送的是我们图声视频的首张图像,后面在多次循环的过程当中均是如此, 这是因为这样毛采样的编入,我们在后面的循环过程当中呢,可以保持一定的一致性。上一段的采样就是为了去接收上一段的未解码前的采样的部分,后一板块循环的构建,就是要去构建这个上一段采样的循环, 这样的话相当于不出潜在空间去做循环,减损的话,实际上就更低了,所以这也是这一次更新比较重要的地方。这个循环的流程呢,来自于 get up 进行的适当的改编,在提日词加载这个地方的话,我执念的缩影,使用缩影来进行加载 种子这个地方的话应该还是要设置为随机,随机会更好一些,最后解码出来合并为一个结果超长视频的生成。在这个流程当中呢,这个 boss 站已经是一个大动态的测试了, 当我们的人物运动没有那么大的时候呢,其实会取得极高的一致性,个人认为呢是可以做训练级的程度了。 如果把上一次的彩样这个节点断开,每一次呢都编入一张新的图像来作为毛采样,那么这个时候呢,我们就能做一个多段的图到视频的合集, 适用于做分镜视频连成一段吧。二点零的 pro 这个地方主要还是看到视频的延长,它能够很好的去对抗裂化和提高于知心 视频延长部分当中呢,循环部分的构建呢,与之前是完全一致的,视频呢延长再延长,我们需要在开头呢加载一个视频,将这个视频的末尾呢取一部分的帧数呢给编码送进去,送到上一段的彩样, 取一个尾针的送进去,作为毛材料,所以这样的性能在之前的板块当中就是存在的,不然在这个循环板块当中是如何进行延长的呢?那么对于某些情景之下呢,我们进的视频怕不是也是一个大的单人物主体视频, 原视频当中的末尾部分的人未知性可能已经没有办法保证的话,这里的话我们可以选择性的手动编入一张已知性比较高的图像,作为要送入的编码图像, 还是为了去提高与知性嘛,需要这么去独立加载的。我们可以直接 load 一 位值,然后切换为 force, 默认为 true。 我 们直接从这个视频的末尾的取一帧, 这个节点当中有一个值, motion latent count。 这个数值决定了我们前后段落结果之间的平滑程度,如果为零,前后视频的衔接将非常割裂,那么如果为一的话,我们就会让前后的衔接更为的平滑, 可以看到这个值为一的情况之下,视频结果当中的转换就已经是无缝的了,所以数值作为一的话就是足够了。他们在登到一个山顶之后呢,发现远处出现的灾难,然后呢面对镜头表现的极微惊恐, 非常的平滑,我们几乎感觉不到段落的衔接啊,保持默认设置就行。远方的这个 jack 也是有点好笑了。

他们凭什么让我心甘情愿的嫁给一个从未谋面的人,凭什么将全族安危寄在我一个女子身上? 凭什么把我像一个名贵的物件一样今天给陆家,明天给秦家,从来没有人问过我喜欢什么,以后要是穿坏了告诉师姐,师姐再给你做,你与我一同护眼月宗,别想歪啊, 我是说让你拜入本门其他接单修士门下,喜欢恢复原来的修为。 眼月宗传承千年,许多秘术可是向不外传的神妙之处外人根本无法想象。 大家好,我是飞雪,那么这期视频给大家带来的是一个 sv i 的 一个二点零版本啊,那么首先我们要感谢一下我们的 sv i 的 一个团队啊,我会把它的一个链接呢留在我的那个简介当中,大家看到的话记得去点一个 star 啊, 非常非常感谢这一次的一个 star 的 一个放书啊,对于我们长视频的一个制作提供了非常非常有意义的一个思路啊。那么现在目前的话,大家也在开头的一个制作提供了整体的一个效果, 还是非常非常好的,已经没有所谓的以前那些所谓的那种断层,每一段每一段之间。然后呢,对于题词的一个遵循程度也非常好。然后呢,大家在 看这期教程的时候啊,一定要仔细看啊,我会详细跟大家讲一下如何去写这些题日词,他的题日词非常非常重要,这个整个工作流的核心,它就在于一个题日词的一个写法, 所以我才放弃了一个自动版的一个用法,因为他对于提示词的敏感程度是非常非常强的,可能就是手指跟手的一个区别,就会导致最后生成视频的一个不同, 所以我跑了非常非常多的一些片段去调试啊,所以你们待会一定要仔细听去如何实现这些过程啊,那么我们的也要感谢下我们的 k 姐啊,很快就把这些东西都全部做好了。 那么这一期的工作流呢,我已经上传到了那个 running hub 上面啊,那么 running hub 是 我最常用的一个云平台啊,你们第一次注册的话是会送一千点,每天登录都会送一百点啊, 那么在罗尼哈尔上面的话,我们可以跑一个比较高的一个分辨率了,那么我现在开始跟大家讲一下一个工作流的一个使用啊,那么这次工作流呢是分成两个,一个呢是二十秒的一个生成,一个呢是一个十秒的一个生成,那么你们根据本地的一个需求或者你们视频的一个需求去制作就可以了, 好吧,然后呢,我现在从二十秒跟大家讲,因为二十秒跟十秒的逻辑其实是一模一样的,无非就是后面多加了几个点而已,那么你们要继续往下往下面加也可以,但是呢其实我觉得二十秒的一个长视频的一个连贯性其实已经足够了,你们通常来说呢,也不会做一个这么长的一斤到底的一个视频啊, 那么我们看一下,首先呢在这边呢是一个我们的一个模型的加载的一个区域,那么所有的模型呢,你们一定要仔细看啊。 d 照这边是分成两个模型的,如果你们是动漫类的,一定要使用这个 大丝袜的这个模型啊,那么那么他对于二点五 d 和一些 c g 类或者是简单的一些动漫类的识别能力是会超过我们的 美 max 的 啊,所以这点你们要注意啊,如果你是真实类的就使用上面的就可以了,这个是你们需要切换一下的。那么在高照这一块呢,我们用的全部都是正常的一个美 max 的 这个高照模型啊, 那么下面呢,我们用的是一个 f p 十六的一个 clip 模型,一定要用 f p 十六啊,因为我们对于题的敏感程度非常非常重要,这一个整个工作流的核心就在于题的词,其他东西都不算重要,但是题是最重要的 贴纸才能稳定的控制住我们生存的一个视频的一个动作和一个延续性,好吧,然后 v a e 这边就有常规的我们就不说了,然后这边有个正常的一个加速,那么如果你们加速会报错的话,记得去我首页下载一下我的新手的一个整合包,并且看一下他其中那个教程啊,包源关于本地部署的一些细节。 然后这边就是我们本次用的一个 lara, 一个高照,一个低照,不需要去管他,好吧,那么这边就是模型加载的一个东西啊, 然后这边的话只需要把我们的一个手图加载进来就可以了,然后这边是改变我们的一个分辨率的一个参数,那么这个是宽,这个是高,这是帧数,不需要去动它,步数也不需要动,这这三个是不需要去动的,它是固定的。好吧,你们一定要注意啊,那么我们只需要改变的是我们一个分辨率的一个参数就可以了,这边是分辨率啊, 然后就叫到了我们一个核心,最核心,最核心的一个板块了,我们可以看一下题词,现在这次变得非常非常简单,你们注意一下啊, 对吧?我们虽然还是一秒、二秒、三秒、四秒的一个生成啊,我跟大家讲一下,为什么是一秒四秒啊?四秒的话是因为这边的输出帧率变成了二十帧, 所以才会导致只有四秒了啊,这个你们要注意一下,然后因为他还会中间还会有个混合帧,每一段与每段之间他是有混合的,他会融合,所以会导致又少一些帧数啊,那么所以的话,我像这边的话一共有一二三四五段,正常应该是二十五秒,那么实际上只有个二十秒, 那么这个题如何去写呢?那么会用到一个多包了,我这一次故意不用我们的之前的那个自动题词模板,就是因为我们需要很精准的去控制我们的题词,并且我们的题词哪怕是都生成之后,我们要注意一下他的写的一个过程 一定要符合我们本身的一个剧情的一个走向和逻辑,否则的话生成出来是会很奇怪的,就是他会不符合常理的。 那么这边的话我给大家已经准备好了一个贴纸这个模板,这个模板我已经调试过非常多次了,那么你们在当中的唯一需要注意的是一点,就是这一块,就是你们对于接下来那剧情是怎么写,大概是一个内容,你们一定要自己写一下,好吧,那么首先我们先把它复制下来, 复制下来之后呢,我们进入我们的豆包,那么像这边我们先把它复制过去,那么这边自己写,比如说,嗯,关于,好吧, 这是我大概的一个剧情,很简单,你们只要写的很简单就可以了,大概描述啊,那么我们发送给他, ok, 发完之后他就生成了我们的每一段的一个剧情啊,但是呢,因为豆包呢是能识别出来这两个人是谁的,所以呢他写的是会把这些名字写上去,你们注意一定把这些名字改成男生或者女生, 就是这边你们需要自己改一下的,像这边的话肯定是个女生,这边是个男生,因为万二点二是没有办法识别这些名字的一个出处的,他不知道你说的指的是谁啊,所以这个你们需要自己改一下,那么通常如果他识别不到这些名人名的话,就比如说你们这些用的是一个常规 不是很著名的一些东西,那么正常他会正常输出的啊,这个你们需要注意一下,其他前面我们都不需要管他,我们只需要用的是这边的东西,那么我们在生成完之后呢,我们首先要去拆解一下,看一下,比如说像这边我们都很正常,这边都没问题啊,那么 像这边我们用什么手指啊什么的,记住啊,像这种指尖啊,这种复杂的一些东西,我们就直接变成了手掌, 就你们自己一定要修改过题日词才才去输出啊,就是你们这就是这个整个工作流能完美运行的一个重要的点啊,就是你们一定要自己去看一下题日词了, 然后像这边指尖这种不合理,因为他模型的话会识别有问题,就是这就是刚刚我跟大家说的手指跟手他都会出现问题,好吧,那么你像这边的话就把改成什么,改成那种手就可以了,手轻触, 然后像这边的话你们自己看一下,像这种就没什么问题,这种指尖啊什么的就不要出现这么这么精准的一些词汇啊,尽量是用大的去词汇去概括, 然后像这边没什么问题,然后这样子,懂吧?就这这个逻辑,你们在做的时候,然后什么什么洞穴火光摇曳这种东西不要出现,这样的话会突然之间出现一大堆火,在人物的背后也不要出现, 尽量就是不要出现一些特别的环境描写,但是你看整体的词汇的描述都变得非常非常简单,你们看到没有,跟以前完全不一样, 这就是这个工作流的整体的最核心那个位置,那个重要的部分啊,就是我们需要对我们所输入的提词进行非常精准的去控制, 然后对于一些没有必要的环境光的描写或者环境的描写,全部把它删掉,不要保留,因为模型的能力没有那么强,我们只需要让他针对我们所需要的一些动作去做就可以了, 好吧,这就是我们整体的一个描写啊,你们在使用过程中,这是最核心,最核心最核心的地方,你们一定要注意啊,所以你们这次的视频你们一定要仔细看, 不然的话你们生成过来,如果你们生成过来一塌糊涂的,就是因为你们这一块的内容没有注意去调节, 我是几乎每一段文字把它复制下来之后,都会进行简单的一些修改,这样子的话才能让生成的一个视频的一个动态和连贯性,他是合理的,否则的话他就会不合理。 因为我们这一次的话用的是我们这个 max 模型的话,他对于贴纸的敏感程度也非常高,他可以很精准的做到我们的很多动作, 所以我们对于题词要求会很很好,就是如果你题词写的漂亮,然后写的合理,写的正确,他的生成就会非常的符合逻辑,否则的话他就会乱来。好吧,这就是我为什么这次要用雷 max 的 原因,我需要有一个模型可以精准的完成我所需要的一些动作, 那么这一块我讲的内容非常的多啊,也讲的非常细,就是因为这一块太重要了,然后这一块过来之后,底下我们就不需要去管他了, 他都会自动生成。那么唯一需要注意点是什么呢?因为我们哪怕做了很细致的一些提示词的一些放入之后,他生成的视频也不一定是完全对的,因为每个模型对于词汇的理解程度是不一样的, 毕竟我们用的是一个开源的大模型,并且他还是一个量化果这个模型,所以他对于有些词汇他是不一定能理解的,所以我们在就这也是我为什么不做循环流的原因啊,就是我们需要一点一点自己看的, 那么像这一边我其实是加了一个给低配准备的一个东西,那么如果我们真的要用,如果你电脑配置足够高的话,其实你完全可以删掉,因为你这边已经把种子给固定了,如果说你觉得生成的东西不好,你可以改完提示词之后继续生成,那么像有一些东西他就会略过了,就可以直接跳过去了,好吧? 这样子的话我们就可以进行一个比较精细化的操作,比如说啊,我们这边全部都没有这种卸载内存的东西,那么他正常如果升到这边你觉得他不对,因为我们种子是固定的,对吧?那么前面的东西他就会自动继续跳过,然后直接生成这一段, 但是我们可以对每一段进行一个精准的一个控制啊,那么前提是你们把这东西都删掉,否则的话是实现不了的。但这样子的话对于我们本地的一个配置要求还是比较高的, 这就是我为什么要保留这些所有镜头的原因啊,就是我们可以对每一次生成的连续化的一个过程当中的一些不足的地方,我们可以把它直接暂停掉,然后重新再做一个贴纸的修改之后再继续生成,这样子可以大大加快我们做一个比较好的一个片段的一个速度啊。 因为如果你直接做一个循环,或者说你直接一键生成的话,其实是你你没有办法去控制每一个片段当中的一些精细化的操作的。 而我们这一次的教程其实做的是一些很精细化的一些动作的一些控制,就这次分享其实更多是一些操作上的一些思路啊,就和一些我们的一些具体的一些办法,反而不是一些工作流的一些讲解,因为本身工作流其实不复杂,他其实就是一次一次的生成嘛, 那么更多的是我们如何进行一个精准的控制,去生成一些我们比较想要的一些片段,我觉得才是这一次工作流当中比较重要的一点啊。 那么在十秒当中呢,原理是一模一样的,没有任何区别,无非就在下面加了几个东西。那么如果说你们觉得二十秒还是不够长,你们想要更长,那么你们其实很简单,把它复制下来之后,然后根据上面的这些节点,你们自己看一下,接着记录了哪些点,然后把它复制下来就可以。但是我建议啊,不要超过二十秒 到三十秒是明显会有变化的。其实我们在二十秒的过程当中,你们其实也可以发现十五秒以后,整体人物的饱和度其实已经开始慢慢变化了,你们如果去生成真人,你们就会发现这个问题了,好吧,所以正常来说十秒二十秒其实已经足够我们去使用了。 然后我再跟大家讲一下我们的那个网盘啊,那么网盘这边的话,就是我们这一次两个工作流,然后加一个我的一个贴纸模板,你们可以根据我的贴纸模板去做一些精准控制。然后这边的话是有几个插件的啊?不好意思,我这个位置放错了,那么插件这一边的话,稍等,我先把这个复制, 那么插件这一边的话,其实用的就是一个 kj 的 一个插件啊,然后你们如果本地已经安装过的,记得更新一下,这个需要更新的,然后还有个就是我们的那个清理内存跟显存的一个插件,其他几乎不涉及到任何东西。 然后在这边的话就是我们正常的一个模型,那么模型这边的话有三个模型,你们一定要注意啊,高照的话是不变的,那么低照这边的话,你们要根据你们的图片去选择不同的一个低照模型去使用, 其他都是一模一样的,你们自己根据这需求去做就可以了。好吧,那么这些视频差不多也就这样子了,其实内容不算多,但是更多的是一些题词上面的一些讲解啊,就是如果如何去使用我们这个工作游戏去实现一些比较好的片段的一个生成啊。

哈喽,小伙伴们大家好啊,那么 sv i 二 pro 呢,真的是好玩的停不下来啊,群里边一天都在玩啊,那么 晚上这边又研究出了一个新玩法,什么玩法呢?就是对我们现有的视频进行一个延长啊, 那么这个怎么玩呢?其实这个原理也很简单啊,就是我们把第一个生成这段呢,接入一个前置的 啊,那个 laten 啊,然后呢获取视频中的任意一帧,作为他这个锚定 laten, 那 就可以,对吧?实现这种延长了啊,让他干什么?把视频延续下去就延续下去啊,怎么干都行,对吧? 你正常的在后边接着写提示词就可以了啊,那工作流的改动呢?其实就是这边生成了一个我们这个加载的这个视频的一个节点, 然后同样的要需要过一个放大啊,尺寸就在这里控制啊,尺寸在这里控制宽和高啊,然后呢,这边的话我上面会获取五针啊,会获取他最后五针去做我们的这个 前置 laten 啊,通过编码以后呢,接入到这个前置 laten, 然后再任意选举一针,最好是正面的啊, 我一般我就选最后一针去作为一个,呃,铆钉的,一个雷特啊,作为铆钉的,然后再截入这个第一个就行了, 然后还有一点要注意啊,最后在这里这个融合这个节点呢,就两段视频融合节点呢,我们正常的话是选择的这个,呃,第二个,对吧?我们这回呢就选第一个啊,选 cut, 然后后边的就选啊,后边什么都跟原来一模一样啊,你正常在这写题的词就行了, 后面的都一样,那么这样的话就能直接对我们的视频进行一个延长了啊,效果非常好,非常好啊。 ok, 那 么这个工作流呢,我也上传到 runninghab 了,大家随时可以去玩啊,很好玩啊, s v i two pro 这个模型呢,真的是远超预期啊,效果很棒。 ok, 那 么就给大家分享到这里。

那今天呢,我们教给大家一种生成长视频的最简单的方法,在这个视频里边,我们会提供给大家一个工作流以及一个提示词工程,那大家只需要使用该提示词工程来生成对应的提示词, 然后呢运行我们的工作流,就可以得到一个质量非常高的长视频。而且整个视频呢并不是对某一个动作的简单延伸,它会涉及到整体的故事性呢,还是很强的。 那为了测试整个方法的有效性呢,我也生成了很多的视频,其中呢有横屏的,也有竖屏的,整体生成的质量呢也是比较高的。下面呢我们就给大家解析一下具体的使用方法。 那同样我把工作流呢也构建到了 runninghub 上,大家可以通过 runninghub 来访问这个平台。在 comfy 领域, runninghub 是 一个非常棒的在线工作台,因为只要有新的模型和新的扩展出现,它都会第一时间跟进。大家可以通过我视频描述区的邀请链接来注册 runninghub, 这样可以获赠一千点的免费点数,另外你每天登录 running app 也会有一百点的赠送,这样你就可以尝试你自己的工作流了。那我们还是先来看一下工作流,那大家现在看到的这个工作流,其实呢就是一个 sv i 二点零 pro 的 工作流啊,用于生成长视频。 关于这个工作流的基本结构呢,我们之前在这个视频里边已经详细给大家解释过了,那重点呢,我们说一下在哪些地方做了一些改进, 其实最主要的呢就是主模型,那在上一个工作流里边呢,我们用的是原版的 one 二点二的 atv 的 工作流,那在这呢,我们使用了一个新的模型啊,叫 smoothmix, 那 我们为什么会使用这个模型呢?那大家看一下啊,这是这个模型在 cvt 上的页面,那它有很多的系列啊,那我们现在用的主要是 atv 的 高噪模型和低噪模型,这个模型最大的特点呢,主要是在动作上做了一些优化。 那我们在之前使用原版的模型的时候,大家会发现有些动作呢,他可能完成不了,那我曾经也以为是因为时长不够,所以说呢,也把八十一帧调到了一百二十一帧,但是依然不能完成一个完整的动作。 那当我们把模型切换成这个新的模型之后,我们会发现主要在两点上有明显的改进,第一个呢就是有效的解决了视频偏色的问题。 第二个就是在动作的表现上,它可以非常完美地体现我们在提示词里边描述的关键动作。当然呢也带来了一些问题,那主要是在人物的一致性上,那待会呢,我会在具体的例子上呢,详细给大家展示它的优点与缺点。 那由于这个模型本身具有加速性质,所以说呢,我们在这并不需要使用加速 lora, 那 在这呢,我们同样使用到了 sv i pro 的 lora, 一个是低噪模型的, 然后整个视频的生成呢,有两个部分构成,第一个呢就是基础视频,在这的话呢,大家需要注意一下这个值的设置,我们常规的设置里边呢,这可以设置一或者是二,对于设置成更高值的方法呢,我们是不推荐的, 那什么时候设置成一,什么时候设置成二呢?那如果你希望后续生成的视频是在同一个环境下完成的,整体的变化呢,主要在人物的动作上, 那你就可以把它设置成二,那这样的话呢,它会以前一个视频的两个动作之一来作为参考,后一个视频和前一个视频保持的一致性会更强。那如果说你希望后一个视频和前一个视频变化比较大的话,你可以把它设置成一。那有人说你这为什么设置成了零? 因为我在这呢是生成一个基础视频,它并没有之前生成的这种彩样,所以说我这不管设置成什么, 它其实效果呢都是一样的。然后呢,我通过一个多行提示词的方式呢,提供了四个扩展的提示词,那描述了剩下的四个分镜,然后呢我们采用了一个循环的方式,那将这四个分镜呢逐一给它生成出来, 那就是大家最终看到的这个效果。在整个视频的演进过程当中,那我们不单单看到了类似于 one shot, 也就是一镜到底的这种视频,那我们也看到了类似于 svr film 的 这种模式,它是有这种镜头切换的, 所以说整体的生成呢就更加的灵活。那第二个大家看到啊,他明显是没有偏色问题的,从头至尾整个视频的表现呢都是不错的。第二个就是在我提示词里边描写的关键动作,在视频当中呢都是有体现的。下面呢我们来看一下第二个测试实力。 第二个测试时历呢,是一个竖版的,那在这的话呢,我们来看一下提示词生成器,他是如何工作的。那首先你要注意提示词接收的是我的参考图片, 然后呢,他会根据我的参考图片来生成五个分镜,每一个都会有一个详细的提示词,我们会将第一段提示词 站到这个位置,用于生成最初时的视频。剩下的四段提示词我会放在这个位置,每一个独占一行,那在经过我们的循环之后呢,就可以生成最终的视频。关于提示词生成器呢,我们重点还是给大家提供了两个版本啊,一个是英文版,一个是中文版。 那这个呢,是一个大语言模型的提示词工程,你可以把它放在任何的大语言模型当中去使用。那下面呢,我们给大家来演示一下。那在这呢,我们依然以 germania 为例,大家可以新建一个绘画。然后呢我们在右侧选择模型, 那在这呢,我们选择 germania 三 pro。 然后呢我们点开 system instruction, 将我们的提示词工程给它复制过来。那下面呢,我们来上传一张图片,不需要输入任何提示词啊,我们就直接执行。 那为了让生成的提示词更加具有故事感,那我把输出的部分呢,设置成了三个。第一个部分呢,其实是角色以及我们整个故事线路展开的一个路径分析。那第二部分呢,就是对每一个分镜做非常详细的单独的说明, 大家可以看一下,包括动作提示词和它的关注点。剩下的啊,就是把我们的核心提示词拿出来,最终我们需要的是这五个提示词,但是你要注意啊,如果没有前面的输出, 可能这个提示词的话呢,生成的质量呢,并没有那么高,那大家只需要把这个提示词给它拷贝到这个地方,但是你要注意啊,第一个提示词我们是要放在基础视频生成的提示词输入框里边的,然后呢,我们来运行这个工作流就可以了。 那我们来看一下最终生成的效果,那你会发现啊,人物一开始在走,然后他进到了一个店里边,然后再走出来, 整个的故事感呢,还是很强的。那除了这两个基本的测试之外呢,我还进行了一个东方人物的测试,那这个参考图片呢,是一个东方的美女啊,在雪山顶上练剑,那我的提示词呢,依然是用刚才的提示词生成器生成的, 那我们看下最终生成的效果。一开始呢,女孩在练剑啊,然后她用剑的挑起了一捧雪花,然后有一个镜头切换的效果,还进到了一个石门里边,然后来到了一个郁郁葱葱的新的环境,基本上就是这样一个状态。 所以说呢,使用 s v i 二点零 pro, 然后再结合我们的提示词系统,那你就可以非常简单的来生成一个具有故事感的长视频。那这种方式有没有缺点呢?还是有的啊,首先呢,就是人物的一致性,如果我们现在把生成的人物和参考图片来做一个对比, 那我们把它同步一下,大家注意啊,人物的一致性其实是有变化的,相对于原版的 one 二点二的模型来讲, smoothmix 整体人物一致性的展示效果呢,是比较差的, 但是呢它在色彩以及动作的表现上呢,会更好一些。那问题在前两个视频当中依然是存在的,我们来对比一下, 那同样我们同步一下视频,大家注意啊,一开始呢,这个问题还不大,然后镜头切换啊,到这的时候,大家注意 人物的变化呢,其实是比较大的,那我们来看竖版的表现,大家注意到这的时候,人物的一致性已经啊明显的感觉到跟原始的参考图片呢是不太一样的。那有人说这个问题有没有办法去解决呢?这个呢,我也尝试了一下, 那我先来说一下解决的思路,大家看一下这个生成的效果呢,其实比原来的一致性的就要好很多,虽然呢也达不到非常的相似,但是总体五官的感觉呢,还是比 比较像的。那解决的思路主要是这样啊,那我们都知道啊, y 二点二的模型呢,有两个,一个是高噪模型,一个是低噪模型。 那高噪模型呢,主要负责构图,而低噪模型呢,主要负责戏化动作以及整体环境的构成呢,应该是由高噪模型来负责的。而细致的像人物的五官啊,这个层面呢,是用低噪模型来负责的。所以说呢,我就做了一个尝试, 就是我把 d 造模型,又把它切换成了原版的 iv 模型,那同时我们需要加上一个加速的 lara, 那 其他的呢,不做任何的变化。那这样的话呢,我会得到一个人物一致性比较好的视频, 但是你要注意啊,如果你采用这种方法的话,对它的动作展现上也是有影响的,那它的整体的动作表现呢,会有一定的折扣,所以说呢,我们总是在一致性 和动作的流畅性之间呢,再找一个平衡。那我的建议是,这个虽然是一种解决的方法啊,但是呢,最终也没有达到我们想要的 非常好的一致性的效果,这个大家可以做一些其他的尝试。那另外视频生成还有一个局限性的地方,就是在我的提示字工程里边,提示字工程呢,我做了很多的调试,那我希望它生成的视频呢, 会更加的灵活,可以在每一个场景里边的话呢,自由的去展示一些变化。但是我发现大圆模型并没有那么智能,所以说呢,这五个分镜其实我是提前设计好的。比方说呢,第一个我们就是根据提示词来生成一个基本的场景。 而第二个呢,我主要在体现人物的运动,以及他和某一些环境当中的物体,或者是环境当中的人物来做一个互动。 那第三个呢,就是我希望他能到达一个边界,那这种边界其实指的是从一个旧环境到一个新环境,第四个其实是一个环境的过渡。 那第五个呢,其实是人物进到了新环境当中,我们做一个巩固,所以说当你生成多了之后呢,你会发现他有一些同质化的感觉啊,这个也是这个提示词工程的需要优化的地方。但是不管怎么讲,我们通过不断的尝试,其实提供给大家了一种 非常简编的方式来生成这种具有故事感的长视频。那所有的提示词工程和我们的工作流呢,几乎都是自动化的,大家呢只需要按照城市化的动作啊,来做一些基础的操作就可以了。那还等什么,赶紧自己试一下吧!关注我,做一个懂爱的人。

hello, 小 伙伴们大家好,那么 s v two pro 这个模型呢,大家应该都玩了吧,对吧?那昨天上了工作了以后,应该很多人都玩了,那么今天我们又深玩了一下啊,我又深玩了它一下,我发现它有其他更好玩的功能 啊,就是说,呃,不知道大家知不知道那个 storyman 那 个模型啊,就是它能够做一个长视频的这样连续镜头的这样一个模型的一个视频啊, 那我发现其实呢就是我们 s v i 二 pro 呢,它不单单能够做这种一个一镜到底啊, 它直接做这种分镜也非常好,直接做成一段啊,那么操作其实非常简单啊,第一步呢,我们先用我们的二五幺幺这个 那个前文编辑模型啊,然后把我们这个图输入给他,手真图输入给他,然后呢给他一连串的提字词,换成不同的角度和不同的剧情,他会生出这一串图来啊,生出这几个图来,对吧?当我们把它分别加载到我们的这个 工作流里啊,就是 sva, svi 这个工作流里啊,那么这个工作流我们要改的地方是哪呢?第一, 大家有没有印象,我们之所以做了一静到底的那个工作流,因为他这边每一段都有一个铆定的一个呃,浅空间,对吧?浅空间铆定的都是我们这个起始针,那么我们看一下啊,就是这里啊, 所有浅空间铆定的每段的都是铆定的起始针,然后根据起始针呢作为一个铆定浅空间, 同时呢他还把上一段生成的这个浅空间呢,接入了一个前置浅空间,那么当我们把这个前置浅空间给他断开啊, 我们把前置浅空间给他断开,这里没有了啊,呃,这个啊,给他断开啊。然后呢,我们每一个分段都给他加载一张图,去编码以后的 浅空间,作为一个铆钉浅空间,那么就能实现我们这个长视频的一个带分镜的这样一个视频了哈,就是不单单是一个长视频,而且是他是带分镜的,他能够丝滑的切换,而且是同一个场景,同一个角色,这个可能我觉得有时候比一镜到底 他更有用啊,他是另外一套的一个流程,对吧?很多时候我们是需要同场景同人物的这样分镜切换的啊,同时还不能太硬,我们直接丝滑切换, 表述一整个故事,对吧?那这又是一个新玩法啊,刚刚开发出来的,那么大家如果想玩呢,直接就像我刚才说的,把你每段的这个前置前空间关掉啊,拿掉,然后呢,用二五幺幺去生成这几张图, 生成同样场景不同的一个蓄势的一个图,然后呢,再把它接入到我们这个每一段的这个啊,铆钉抢空键就能生成这样一段视频了,非常好玩。 ok, 这个新玩法也给大家分享到这里啊,也跟 s v i 的 作者也聊了,他们说,哦,社区就是好啊,开源社区就是好,开源社区能把很多东西呢玩出来哈,这个其实就复现了 storyman 的 一个功能了,对吧? 那我们就可以平替了啊。 ok, 那 么这个小玩法呢?新鲜的小玩法就给大家分享到这里啊,就是大家可以玩出更多有意思的长篇出来了啊,非常好玩。好,就这样,拜拜。

视频我们看到 one 二点二的 sv i 视频延长技术的更新,那么 sv i 解决的问题是视频生成无法持续很长的时间,且会逐步崩坏的问题。 那么激进呢,是在进行一个无限时长视频的生成,同时对之前骨骼引导视频生成的 one 二点二的流程的循环的工作流的一个更新,这也并不是我们第一次去了解这个技术。在 one 二点一的版本,这一次的更新是一个二点零的版本, 支持万二点一和万二点二这几个模型,主要在办的事情还是支持我们进行长视频的生成。接着我们来看到工作流物,这里使用的是全球最大的在线 comfy 应用平台 running hard, 官方的流程是在进行一个图声视频,然后呢,每后面一个组会增加一部分视频的时长,一直往后面延长模型,这个地方官方原来用的是 smoothmix, 为什么这么办呢?因为原来的那个 i t v 的 模型, 配合上类似 suv 早期的那个非常的动态低的 lowra, 会让视频的结果激进于不动。 切了大模型之后呢,激进于解决了这个问题,加载 svi 二点零版本的高低噪模型。进到屠刀视频的节点,我们就把这里的组合组织间呢称为一个窗口,第一个窗口我们来写一个提示词,就是一个屠刀视频的生成,然后从上一个视频的尾部呢拿上一帧 送到下一个窗口当中呢,进行猪刀视频的生成,后面的话以此类推,我可以非常明确的说, 在这个地方的大模型决定了这么几个阶段视频的生成的质量,大模型是好的,那么视频生成的质量也就是高的,用官方原本的模型是不行的,很容易取得非常恶劣的结果,已经替大家试过了,后面均是同理。大概这一个流程跑完 会获得一个五十秒钟的视频,已经是非常的长了,那么既然已经有了官方流程,这里也就没有必要再去做循环了,单镜头超过五十秒钟意义就不是很大了。 快速启动上来说,加载一下图像,设置一下提示词,这里提示词还不只有一个,如果说要做十个窗口的话,我们需要有十个提示词,这就是 one 二点二的模型,加上 s v i 二点零的工作流,导航机相对内流程已经同步更新,可在线运行。 接着我们来看到姿态引导的转换循环, y 二点二,只要你的第二次是够的,那么我们参考的这个图像的复原度是非常的高的。大模型纹身视频这个地方用的是 demo 模型,之前测过了 demo 模型的大模型就是这个一体的模型,在纹身视频当中是鸡叉, 是遥遥领先的存在,所以这个纹身视频的模型是可以和 v a c e 模型合并在一块使用的。 d 造模型的话用加速模型, d 造这个地方使用一个 y r e 的 加速模型,与官方保持一致的观点。普萨模型用做增益 m p s h p s 增益 初次的生成呢,会出一个窗口,一座预览,那么第一次生成这五秒钟后面的话就会进入到循环段。在 d 藏模型这个地方之前呢是有加入 nyx 以确保面部的一致性,但是在我长期的时间下来看的话,在 d 藏模型处加入 nyx 模型, 反而会让我们的面部呢掉一定的相似度,可能调值会变好,没有必要,因为我现在本来就可以获得一个比较高的相似度的情况之下呢,这里作为一个选项,可以通过 ctrl b 来开启 初次渲染,完成之后呢,我们来进入循环,通过调整循环的次数来决定我们生成的视频的长度,那么每增加一次循环呢,应当会增加的帧数呢是八十一,减去八七十三帧, 重叠的帧数呢为八帧。那么在这个流程当中,我为什么会觉得 sv i 模型会有用呢?因为我使用了和官方的流程一样的帧数的重叠, 并且在每一次循环的过程当中的视频的手部会有几针是从上一段视频的末尾带过来的。 s v i 模型在某一段视频的生成过程当中能够提供一定的一致性的话, 做这样的电入呢,按道理是能够去对抗衰减的,我认为是异曲同工。多次渲染后的话出结果 先说一下快速启动,快速启动的话是加载一张参考图像,加载一个姿态提取的视频,等比例缩放设置一下至长边的尺寸,题二词也做成自动反推了。如果想要生成的视频呢,再长一些的话,我们只需要提高我们循环的次数就行了,应用起来还是相对比较简单的。

今天再给大家分享一个弯二点二的视频生成大模型,据说对二次元类的短视频优化效果尤为突出。先一起来欣赏两个案例, 一起来看一下工作流,该模型 unit 和 checkpoint 版本都能下载到。先来看一下 unit 版本可以附用 k 神的图声视频工作流这里就不展开了,不了解的可以去看我之前的视频。首先将素材图像加载进来, 可以直接复制粘贴,也可以点击选择文件生成视频,尺寸设置为七二零乘一二八零。 再看一下基础模型,直接替换为对应的高低噪版本即可。然后该模型是融合了加速模型的,可以直接禁用原工作流中的加速 lara 步数可以设置为四步,高低造各两步,我这里使用的是六步。再看一下提示词,很简单,大家自己看即可。一切准备就绪,我们直接来运行,看一下过程就是等待,我直接快进跳过生成效果放大给大家看一下。 个人觉得无论是清晰度、动作细节确实都很不错,但这还不够,接下来才是重头戏。上个视频跟大家分享过长镜头生成工作流使用了一个 sv i lara, 那 是否可以搭配这个基础模型工作呢? 我们一起来看一下。切换到长镜头生成工作流,先将加速 lara 忽略掉,然后将高低噪基础模型分别切换到对应的新模型,放大给大家看一下现在的模型选择情况。 接着同样先把素材图像添加进来,手段视频的提示词跟刚才的视力一样,只是在前面添加了一句场景描述, 尺寸同样使用七二零乘一二八零。另外我们生成三个子片段,子片段的提示词内容也放大,快速给大家预览一下,大概就是描述从抽烟到咳嗽再到倒地不起的过程, 现在直接运行工作流。首先确认下首段视频效果,基本和前面独立工作流演示生成的效果一致, 看起来和 s v i 搭配是完全没有问题的。我们继续看后面的子片段生成效果,同样因为耗时比较久,我直接快进到最终结果, 直接单独打开进行预览,可以看到一键生成近二十秒的视频,轻轻松松,而且画质依旧在线,丝毫看不出卡顿掉帧。 ui 版本的演示就先到这里,接下来再给大家展示一下 checkpoint 版本的工作流。 checkpoint 版的工作流要简单很多, 同样需要加载高低噪两个模型,可否模型一定要使用 f 八,这个使用 bf 十六的彩样器会报错, 其他就是常规的素材加载两次裁样,最后合并为视频就完成了整个工作流除了最后的合并为视频,其他全部为官方节点。另外这里还支持了首尾帧视频生成,将尾帧素材忽略掉。先来试一下图生视频, 跟前面一样,先将素材图像添加进来,提示词直接复制前面用的提示词,一切准备就绪,直接运行快进看一下生成效果,没毛病,跟前面演示生成的效果几乎一样。 最后再给大家演示一下手尾针生成效果,起用尾针素材加载节点,由于没准备和当前图像匹配的素材,我直接将手尾针切换为另外一组图像,结合图像素材调整一下提示词内容, 最后再次运行工作流即可。快进跳过生成过程,直接看生成效果,结果不用多说了吧,很完美,大家赶紧用起来吧!点赞关注,下期更精彩!

二零二六 ai 漫剧时代真的来了!创维文案 ai 动漫共举全新亮相,帮你搞定一部属于自己的 ai 漫剧!首先得有个故事剧本,哪怕只有一段文案或情节也没关系。然后借助创维工具,先创建草稿项目,把准备好的文案剧本直接导入,接着选择剧本生成, ai 会帮你把文字 转化为标准化动漫剧本,省掉手动改变的麻烦。下一步,点击生成预设, ai 会智能提取剧本里的人物设定和场景元素,再点击分镜,每一句剧本都会被转化成净透一言,自动生成对应的分镜提示词。分镜提示词生成完成后,点下一步,来到推理界面,先做预设绑定,这里可以上传你喜欢的人物形象和背景图, 人物素材也能直接从自带角色库调取,不用额外制作。随后点击视频描述词生成功能, ai 会针对每个分镜自动推理出适配的视频描述词。 最后点击视频生成工具,会把相关提示词和预设参数同步发给索尔二,进行视频制作。制作进度能在查看进度页面实时查看视频,做好后一键导出,就能跳转到剪辑软件进行最后润色加字幕、配音乐,完成最后的精细化剪辑。一条完整的动漫视频就搞定了,是不是很简单?