有很多粉丝都在问,万二点二和 ltx 二点三这两个视频生成模型谁的能力更强?那我先来说结论, 万二点二除了功能上,其他方面都可以吊打 ltx 二点三,因为 ltx 二点三必定具备音频生成的功能。可能很多人呢不太认同我这个观点,那今天呢,我们就用一个爆火的主题来给大家测试一下, 那这个主题是什么呢?哎,就是学院纯御风。为了方便测试呢,我也将这个工作流部署到了 running hub 上。 在 comfy 领域, running hub 是 一个非常棒的在线工作平台,因为只要有新的模型和新的技术出现,他都会第一时间跟进。经常会刷到一些第一人称视角的女友感的视频或者是照片,那总会让你的心头一颤, 手指呢忍不住就多停留几秒。那今天呢,我们就带你来揭开这一层名为学院纯玉峰的神秘面纱,同时呢,让大家在这个过程当中体会一下 这两个视频生成模型的能力到底谁更强。那为什么我们要选择这样一个主题呢?因为呢,它本身就带流量,大家感觉一下这种极具带入感的视觉感,它会吸引你不自觉的看下去。 那么纯域校园风底层的美学密码到底是什么呢?其实呢,就是反差与造势, 当然反差有很多种,比方说身份与材质的反差,用代表着规矩的西装百褶裙来掩盖因为某个动作而展现出来的成熟曲线,从而呢体现一种包裹感。那造势呢,同样也有很多种, 我们常用的就是光影与姿势的造势,大家在制作这类图片和视频的时候,要坚决舍弃那种大平光,我们要刻意的使用一些黄昏的余晖,逆光的光晕这样一种特殊的光影来雕刻五官和锁骨。 还有最重要的一点,千万不要让图片或者视频里边的人物呢,正襟危坐,全部换成微后仰,侧身回眸这些极具交互感的动作,因为只有这种动作才能带出属于第一视角的这种感觉, 给人一种致命的亲密感。我们在制作这种视频的时候呢,一般是先生图,然后生成视频,生图的时候核心就是提示词,那为了打造这种心动的瞬间, 仅仅靠抽卡这个是不行的,我们可以给大家总结一个爆款提示词的构建法则,那这个法则呢,非常简单,就四个维度,主体反差设定,加上非常规的极限视角,再加上情绪化的光影。最后呢加上微跃界的肢体语言, 只要严格的套用这个理论模型去写提示词,出图的张力呢绝对拉满。下面呢,我们用两个场景来验证一下,比方说放学后的秘密教室。 首先呢是主体和动作,我们的主体呢是制服穿搭,肢体语言设定为轻轻靠着桌子微张的外套。而视角上呢,我们摒弃了这种平视的视角, 那我们可以给定一个极低的仰视的视角,那我们再搭配上黄昏的光晕,那种极具压迫感和独占感的视觉张力呢,就直接出现了。那我们再来测试一个场景, 那这个场景的名字呢,我们可以把它叫做社团活动室里的慵懒,我们采用一个第一人称的俯拍视角,光影的使用呢就更加特殊,光透过百叶窗照在人物的脸上,形成了斑驳的光影。 而我们使用的肢体语言呢,是人物坐在窗边,把头向后靠在椅背上,然后倒着看镜头。这种极其刁钻的后仰扭动,能让百叶窗的光影精准的切割在它紧绷的天鹅颈 以及深陷的锁骨上面,这样的话呢,整个画面就极具故事感。虽然呢,我用两个场景给大家验证了一下,其实呢,我一共做了十二个场景, 对于这十二个场景呢,我们都使用了相同的规则来构建提示词,整体的感觉呢,都是非常棒的。一旦我们有了提示词,那我们应该用什么模型来生成图片呢?我这呢,实测了目前市面上非常具有代表性的两个模型,一个开源的,一个商用的。 开源的呢,当然就是纤维 image edit, 而商用模型呢,则是 nano banana two。 简单来讲,纤维 image edit 出图的色彩感呢,是非常棒的,非常的通透,画面呢,也非常的清亮明艳, 非常具有网感,生成视频的时候呢,效果也非常的棒。而 nasa 不 nasa 兔,它最大的特点呢,就是写实感,人物的呈现极其的真实自然。并且呢,对于上述的那种扭腰啊,后仰啊这种高难度的复杂动作呢,它也能够非常好地还原出来。 不过呢,有一点要注意, nintendo 兔它的审查级别呢,非常的严格,你一不小心呢,就可能触发敏感词,导致生成失败。所以说,单纯从自由发挥的角度来看呢,纤维一妹子就要随性的多, 那我们可以稍微总结一下,就像真实的素颜照和精修的艺术照,这个并没有什么绝对的好和不好, 这个完全取决于你想表达什么样的一个质感。那图片搞定了,接下来呢,我们就是让他怎么把那种暧昧的拉扯感给他表现出来,也就是图片生成视频,视频好坏的关键呢,同样在于提示词。这呢,我们还是要给大家拆解一下 编写高质量的视频提示词的底层逻辑。一个能够精准的控制人工智能视频张力与美感的提示词,它的核心结构呢,必须有三个不可分割的维度,第一个是镜头语言, 第二个呢是主体的微动作,第三个呢是氛围感。我们先来看一下镜头语言,这是决定观众带入感的关键。想要第一视角的压迫感,就不能使用固定的死定胶, 要在提示词里边明确的写上带有呼吸感的微妙手持镜头,或者是暧昧的缓慢推拉聚焦。 而主体的设计呢,是整个提示词的关键生成。类似于这种风格的视频呢,千万不要让人物做大幅度的肢体动作。真正的唇域拉扯感呢,全部在于微动作的控制。 比如我们经常使用的一些微动作,目光流转的迷离,眼神发稍被微风吹起的轻颤,或者是胸口随着呼吸产生的细微起伏感。这里呢,一定要记得,动作越克制, 视觉张力呢,就会越高级。最后呢是氛围感,这个呢,一般是靠环境和光影给的, 同样,这是视频的一个灵魂,即使人物不动,如果你的环境和氛围给的足的话,那也会让人觉得整个画面充满故事感, 当然每次去手写这种提示词呢,呃是非常费脑子的,所以说呢,我们也给大家提供了一个提示词工程,但是你要注意啊,这个提示词工程呢,并不是专门儿为唇域学院风开发的,它就是一个单纯的 l t x two 的 提示词工程,只是在应用的时候呢,有一些小的技巧, 让它在表现唇釉学院风的时候呢,整体的质感会更加的独特。那应该怎么去用呢?下面呢,我以谷歌的 as studio 为例,来给大家演示一遍。那所谓的提示词工程呢,是我们把它作为系统的提示词,给到一个大圆模型,然后让大圆模型来帮我们生成提示词。 那首先呢,我们打开 as do do, 然后新建一个聊天绘画,将模型选择为 gmail 三点一 pro。 下面呢,我们将这套提示词工程呢给它复制下来,粘贴到我们的 system instruction 里边。然后呢,也可以在对话框里边上传你的参考图片,甚至呢也可以给一些说明, 那这里边的技巧就在这个地方,我们在上传了图片之后,为了让它的意图表达更加的准确, 更加适用于唇釉学院风,我们建议大家把你生成图的时候的那个提示词呢,一并给它粘上去,这样双管齐下,大圆模型呢,就能够完美的结合原图的光影布局和你底层的一些思路和逻辑, 帮你生成一段高质量的视频提示词。那最后呢,就是模型的选择,当然你可以选择闭源模型,比方说质量非常高的 sorry 二 cds 二点零,但是呢,这样成本也会很高,我这儿呢依然使用开源模型, 那我们可用的开源模型呢,目前有三个,第一个呢就是 ltx 二点零,第二个 ltx 二点三,第三个 one 二点二,那我们让它正面对决一下,看一下,使得能力更好。 通过大量的实测,我们会发现 l t x 二点零呢,它是不适用的,虽然呢,它能够直接生成高清的视频, 但是呢,那个清晰度呢,它体现不出来,而且呢,它动不动就会给你生成一些静态的 ppt, 根本不动,而且呢,一旦有一些复杂的动作,它也不能够非常好地展现出来。另外就是在人物的面部和人物形体的产生的时候呢,也会有一些诡异的扭曲, 总体来看呢,质量是不太高的。然后呢,我又测试了一下 ltx 二点三,相对于 ltx 二点零来讲,它在生成质量上呢有了一个非常大的提升。 使用了这个模型之后呢,静态视频出现的概率呢就很少了,生成人物的面部呢,也没有明显的塑料质感。 但是我们会发现 ltx 二点三这个模型在人物的一致性方面表现的是比较差的,而且呢,它在微动作的展现以及镜头语言的多样化方面表现的也不是特别的好。 而反观我们的 y 二点二,即便我们使用的分辨率呢是五四四乘九六零,但是给人的这种清晰感并不会比 ltx 二点三要差。 而且当人物动起来的时候,人物的转身啊,动作的连贯性啊,甚至微表情的表达,以及刚才我们提到的镜头语言的多样化, 我觉得呢比 l t x 二点三呢都要好很多,那下边我们给大家展示了使用两种不同的工作流,但是使用了相同的参考图,相同的提示词生成的一个视频的效果,那这种差异性呢,是非常明显的,所以说呢,在这类视频的生成上呢,我更推荐使用 one 二点二, 这也就是为什么我们在视频的一开始,我告诉大家, one 二点二在生成能力方面是吊打 l t x 二点三的。通过这样一套流程呢,我们不光是在制作一个视频, 其实呢,也是在用人工智能拉高我们整体审美的天花板,只要你掌握了光影姿态与视角的一个深层的密码啊,你就能够创造出极具感觉的视觉产品。好,今天呢,我们就说这么多,还等什么,赶紧自己试一下吧,关注我,做一个懂爱的人!
粉丝8.5万获赞48.2万

嗨,来,过来我这里,今天学 ltx 二点三图声视频。今天我们来搭建这个图声视频工作流,这个是原图 双击,在这个对话框输入 unit, 它有两个加载器, 这两个加载器是什么意思?一个它只能加载 g g u f 的 模型,比如这个后缀是 g g u f 的, 另一个加载器,它只能加载后缀是 saturn 的 这个模型,它这里是没有 g g u f 选择的, 这里是有 gguf 选择的。我们先按双击空白处输入双 clip, 还有一个双 clip, 再最后方输入双红。 如果你显存小,就用这个 gguf 的, 如果你显存够,就用这个 unik 的, 它们是一块的, 那么他们两个模型生成的视频有什么区别?我们现在看一下。左边是 seven 生成的视频,右边是 g g u f 生成的视频, 可以看一下对比。嗨,过来我这里,我们今天学 l t x 二点三图生视频。我们现在在看 g g u f 的。 嗨,过来我这里,我们今天学 l t x 二点三图生视频。两个其实差别都不大。 clip 加载器加载的是这个 clip, 如果用 g g v f 的 加载 clip 也是一样的。有了 unit 加载器和 clip 加载器,我们还需要两个 ve 加载器,双击空白处,输入 ve 加载, 选择这个 ve 加载程序, ctrl 加 c 加 v, 复制两分,选择加载 ve。 我们在这个可立普后面还有一个线,把它拖出来,选择文本编码器 粘贴复制一份,把这个线连接好。如果你想使用 g g u f 的, 用 shift 这个线把它连接到下面这个加载器上, 再再使用下面这个 g g v f 的 加载器,再把这个模型拖出来,这里输入权重,选择这个权重洛拉,这个洛拉可以一次性加载很多个, 比如这里可以加载好几个洛拉, 也是一样的。如果你想使用上面这个加载器, shift, 选中上面这个连接点就好了,一定要按,一定要按住 shift, 如果你直接拉是拉不住的,按住 shift。 现在我们加载两个洛拉, 这是第一个洛拉,这是第二个洛拉,它们的权重设置零点五就好了。 这两个 luna 有 什么用呢?第一个 luna 的 lincoln 是 代表图像的一致性,就这个。第二个 vb vr, 这代表它训练的极。 第三个这个 lv, 这代表它是为图跟视频专门训练的模型。第四个三九零 k, 这个是训练步数。第四个 r 三十二,这个越小越好,这个全程是让镜头更加丝滑。这两个文本编码器 是输入正面提示和负面提示词的,负面提示词可以输入,这个正面的提示词是根据你的图片生视频所要的提示词再去输入。当你输入好提示词之后,他这个权重可以选一,可以选零点五,他们有什么区别? 可以看一下左边这个是权重一,右边是权重零点五。 嗨,过来我这里,我们今天学 ltx 二点三图升视频, 来看一下零点五的嗨,过来我这里,我们今天学 ltx 二点三图生视频,他们两个还是有很明显的区别的,如果权重调高了,他这个视频我们今天学。看到没?我们今天,我们今天他这个脸部,脸部有残影, 我们今天学,嗯,那一秒的时候有个残影,我们今天学,所以说这个权重 不用调这么高,调,零点五就差不多了,我们在权重罗拉这里有个模型,点击模型缺口,在这个地方输入 a s 键,选择这个注意力补丁 a z 的 节点, 这个是加速,我们选择自动就好了。在这个注意力补丁这里有个模型,来点击它,这里速度,还有 ps, 选择这个分块激活,如果你是八 g 显存,这里分块就填四,下面就填二零四八, 这里方块越大,占用显存的越低的计算时间都会越长,这个维度域值就是更加的压低显存。如果你是十二 g, 你 就填二域值,这里就填四零九六。 我们在注意力固定模式这里有个模型,戳出来,输入基础的高度, 选择这个基础雕刻器,这个雕刻器我们选择这个,然后步数四步和八步就行了。那四步跟十二步有什么区别?这是跑两个步数,左边是四步,右边是十二步, 看一下四步,嗨过来我这里,我们今天学 l t x 二点三图升视频,再看一下十二步, 嗨过来我这里,我们今天学 lx 二点三图生视频,它这个画质真是很有区别的,像这个脸部, 但是生图的时间是有区别的,步数越高,生图的时间越长,一般这里设置八步就好了。 在这个文本编码器的有个条件,点击条件拖出来,输入 l t s b, 选择这个条件,设置上面这个是正向条件,下面是负面条件,把它连接好, 然后在方块激活这个节点,这里有个模型,拨出来 lts。 二,选择这个标准化注意力引导, 把两个负面条件连接上,这个节点是专门连接负面条件的,如果你搜索不到这个名字,就可以在这里输入 nig, 这里有个一样的节点, 然后这些基础参数保持不变,然后点击模型 l t s 二选这个彩样,预览 这个的作用。就在你运行视频的时候,它会出现一个框框,这个框框是以低分辨率的形式出现,可以让你看到这个模型,它在运行到一定程度的时候出现,可以让你看到这个模型。插槽输入自定义, 选择这个自定义彩铅器,如果你不用这个模型就可以给它删除掉, 这里要说的是种子,种子可以随便填一个,这里选择固定 cf 橘子就是参考你的提示词, 一般是一到三,有什么区别呢?当你用了这个与彩铅结点,它在自定义彩铅器这里会出现一个框框, 这个就是预览框框,如果你觉得这个模型截的词跑的不对,就可以把它取消掉重新跑,如果是屏蔽了这个节点,那么你在运行的时候, 传感器这里他就不会出现这个预览图像。现在我们看一下对比 cf 居值三的和 cf 居值一的,现在我们看三的嗨过来我这里,我们今天学 i p x 二点三图升视频, 现在看一的嗨,过来我这里。我们今天学 ltx 趣点三图声视频,这个就是其实你的 cf 剧值越高,它会参考其实越多。现在我们连接一个正面条件,一个负面条件, 把这个正面条件连接,负面条件连接,还有基础调度器的复苏连接上, 在这个输出口拖出来,输入 l t s v 音频,选择这个音频分离, 在这个音频这里拖出来,输入 l t s v 音频,选择这个音频解码,再点击它的画面,拖出来,输入 ve, 选择这个 ve 解码分块。这四个参数只用调这个时间尺寸,调到最大, 调到最大就是一次性解码,如果你分批解码,它中间会产生闪烁,在 ve 解码分块这里点击它的图像,在这个对号框这里输入创建视频, 选择这个节点,把这个音频连接上视频输入口这里点击它,这里有个保存视频 视频格式,这里选择 a p 四编码,选择这个,这个就是视频的名字。我们在可立普文本编码器后面双击空白处输入加载,选择加载图像 这里选择你要加载的图像,在图像这里拖出来,输入图层工具,选择这个图层工具一二, 在这个试验模式这里选择裁剪,在这个倍数这里选择三十二。若放置边长,选择最长边,你是八 g, 就 输入这个,如果你是十六 g, 就 输入幺二八零, 这是它的宽度和高度,我们点击它的宽度,这里输入空 l t 叉,选择这个,再把这个高度连接到 下面,这个是时长,时长就是秒数,我们在下面这里输入整数量,粘贴复制一份,双击它的名字,输入帧率 这里输入秒数帧率这里填二十五秒数,这里减五,点击它的值,拖出来,输入简易运算, 粘贴复制一份。上面的值连接到 a, 下面的值连接到 b, 下面的值连接到 a, 不要连错了。上面的值这里输入 a, 下面的值,这里输入 a。 乘 b 加一,都可以把下面这个整数连接到时长这里,在条件设置这里还有一个帧率, 我们把上面这个减一运算的符点连接到帧率上,不要连错了,不要连在下面这个连接上面,这个给他改个名吧。一二,把一的符点连接到设置条件的帧率这里, 然后在缩放这里有个图像,拖出来,输入预处理, 选择这个预处理,预处理这里输入十八,下面的空 laten, 这里还有个 laten 节点,拖出来,输入 fps 视频,选择这个, 将图像转为视频,把这个图像连接上这个默认参数保持不动,再点击这个插槽。 l t s v 合并, 选择合并为视频,在合并为视频这里还有一个音频内存,拖出来这里输入 l t s v 音频,选择音频控内存有个帧数和一个帧率,把它放到这里, 把上面的一连接到帧率,把下面的二连接到帧数。现在我们就连接这个 ve, 这是 audio ve, 视频的是 video ve, 找到两个 ve, 下面是 audio, 把它连接到音频 video, 把它连接到视频, 这样任意的连接完成。 嗯,这还有个帧率没连接,把一的符号点连接到它的帧率,我们现在输入正面体式尺,我们测试一下这个体式尺是否能用。点击运行,现在我们搭建好后,伸头把视频看一下, 恭喜自己搭建完成。 ltx 二点三图声视频 工作流运行成功,没有问题,这个是提示词,如果你提示词写错误的话,他生成的视频是不好的。

最大的问题不是画面不好看,现在模型已经能够做出不少细节了,雨夜街道的反光,霓虹灯,在车窗上的颜色,人物衣服上的皮革纹理,那这些东西呢,都能够一一呈现,那真正难受的是节奏。你写了一大段 prom 的, 里面有镜头推荐,有转场,有人物,有环境变化,还有最后的反转 模型。看完以后呢,经常像听了半截故事,知道你想要什么样的氛围,但是不知道哪件事情先该发生,结果呢,就是画面动了,但是并没有节奏。 那这次呢,我用的是 comforion lt 叉二点三加 prom 的 relay, 那 prom 的 relay 呢?做的事情很直接,它就是把一整段提示词拆成多个分镜,但每个分镜呢,只负责一小段的画面, 而且可以自己单独去设置持续多少帧。那这个功能呢,看起来不复杂,但是对于视频来说非常关键, 因为视频他不是一张图拉长了,视频是时间,是顺序,是什么时候推进,什么时候停止,那测试的时候呢?我做了一个电影镜头,那开头呢,我们这里是两 个人坐在木椅上面,表情呢,迷茫不安。那背景是一个模糊的老年女性和一个荒原,体现出来的是一个复古西部电影,质感是暖金色调的。 而且呢,第二帧我是加入前景女性为视觉中心,那背景呢?还是保持这种虚化画面呢?会有一点点轻微呼吸感的一个晃动。 那随着镜头推进呢,来到了第三张画面,那这个是在一个法国乡村里面,前景是一个穿着棕色外套,戴着黑帽的一个牧师,那手持一个红边黑皮,书 情严肃,那右侧是一个穿着深绿色外套,戴着中帽子的一个年轻男性,背景呢是枯黄的灌木丛和远山,有种复古西部的电影质感,高强度的一个对比。那这三张图片呢,我在这里依次去输入了对应的提示词。 ok, 我 们来看一下它最终生成出来的一个效果。 其实生成出来的时候呢,我是有点愣住了,不是说他很完美啊,但是呢,他确实是随着我们的书写将这个顺序呢,结构上面终于顺出来了。 那以前的这种镜头我也试过啊,我可以把完整的一个描述一次性的去丢给模型,但是呢,他很容易乱。其实这个呢,也不能全部怪模型,因为呢,我们给到他的是一个一团信息,所以他只能够去猜测这个顺序。 那这个 from the relay 的 好处呢,也就在这里,它是把事情一件一件的拆开了。那比如说第一段镜头呢,我只做定格在金发女性迷茫不安的一个侧脸,并且呢,让模糊的老人逐渐的淡出, 随后镜头以叠画进行转场。其次第二帧呢,我是书写了一个切换,红发少女骑着老式电动车在蓝天绿树间穿行, 镜头跟拍其行动态。最后的镜头是直接弹入到西部方圆拉远,弹现手持圣经的牧师和身旁的年轻青年,并且呢,镜头稳定地推向两人。整体的风格呢,是这种复古胶片质感, 从情绪迷茫到自由再到宿宿命感的重重递进。那很多时候呢, ai 视频它缺的不是一个很长的 prom 的 其实,而是缺一个更清楚的一个分镜, 现在呢,去书写这一类工作流,会先把大局的这个 prom 的 写的比较克制,那大局上面呢,大家就可以只书写一些画质和风格,就不用把剧情放进去, 而且呢我们剧情放进去就很容易会和分镜互相干扰,那大局呢,他负责的是一个气质,那分镜他则是代表的一个动作,这样子就会干净的非常多。 这里面提示词呢,我比较推荐大家使用英文进行输入,那其实呢,我们的这个镜头语言,它采用的是这个 l t s 二点三的这个模型,那这个模型呢,对于英文的理解能力呢,会更加的稳,那中文呢,不是不能书写啊,但是有可能它会绕一下,就是会把一 意思理解的有点傻。大家也知道啊,就是我们在和人去沟通,镜头一样,你说慢慢拉远露出环境,那不如就是说退后几步查看房间的环境,那参数这块呢,也别太易啊,那我一开始呢,是踩中了这个帧率的坑, 那像 l t s 啊,它的一个节点,还有以及最后的合成视频节点当中的这个帧率,也就是我自己设置的二十五帧, 一定一定要一致,比如说大家如果设置的是二十五帧,那就都是书写二十五帧,那总帧数呢,也要去进行 计算,那比如说像十秒钟的一个视频呢,我们书写是二十五帧,那么总的一个总帧数也就是二百五十帧,那如果说拆成三段呢,我们就可以粗略的计算分成像八十三,八十四帧,这样子不用太精细啊,那我们可以先看节奏,哪里太快了,我们就拖到哪里就可以了, 再去进行慢慢的修改。那分辨率呢?这一次我比较推荐大家使用一千二百四十八乘七百二十,那画面细节呢,会干净一些,尤其像这一些电影镜头这种地方, 它的生成效果看起来会更加稳。那如果说你的显存不够的话,就不要硬撑啊,我们先可以降一下分辨率,再去跑通 from the relay 的 节点呢,操作其实并不难啊,这里呢会有一个加分镜的一个选项,我们直接点一下就可以去进行添加了,我们可以拖拽去调整我们的一个节点顺序,而且呢你可以在最底下去修改每段的一个帧数,控制镜头的一个长度。 而中间的这个选项呢,是可以平均的去分配时间。而你最后一个选项就是可以点击删掉多余的分镜。它其实不太像真正的那种剪辑软件,但是呢,有一点点那种时间轴的味道了,你会开始想这段要不要多给二十帧反转过来会不会晚一点更好? 那镜头呢,是不是在这里就应该收住?那其实它的安装流程啊,并不算复杂,我们只需要呢去更新一下本地上的一个 comrade, 再通过管理器去更新一下,然后下载这个插件就可以了。 测试完之后呢,我最大的感受啊,就是 ai 视频正在从一个生成结果慢慢设计成一个过程。那以前呢,我们去书写 pro 的, 然后等模型自由发挥,那现在呢,至少是可以去拆分,然后再安排每段时间,让模型按照我们指定的顺序去做。那这个变化呢,是挺重要的, 因为视频好不好看,很多时候不只是我们看画面,那画面呢,只是门票,那真正让人愿意看下去的是整个视频的一个节奏, 什么时候推进,什么时候切换,什么时候反转,什么时候把镜头收回来。这东西呢,就好像是拍一条片子。 所以 prime 的 related 价值呢?不是说让 prime 看起来更加整齐了,它真正补上的是 ai 视频一直空缺的一个时间控制, 那 lts 二点三呢,就像是负责把画面拍出来的一个摄影机,而 prime 它就是像在旁边安排视频节奏的一个人。 那这个说法呢,可能会有点粗啊,但是呢,目前老师是这么去理解的,那如果你想要尝试去做这些古风的慢剧,电商短片,带货视频短剧等等,或者是那种电影感传唱,那我觉得这一套东西一定值得大家去试一下, 尤其是从一个物体钻进另外一个世界,再从那个世界拉回现实的那种镜头,那这种结构呢,在以前来说可能会容易崩,但是现在至少是可以认真去调试了,当然还没到那种随便写写就能够稳定出片的程度,但是方向已经很清楚了, 以后做 ai 视频,也许不只是比谁的 prime 写得更长,而是比谁更会猜镜头,谁更懂时间,谁更知道下一段画面该怎么停, 怎么去推进。只是呢,我也在想啊,现在的工具越来越像导演了,那我们到底是谁在创作呢啊?还是在学着给模型排班呢?那么今天视频呢,分享到这里就结束了, 如果大家对于这个工作流比较感兴趣的话,都会给大家一一分享的,同时也非常期待小伙伴们可以创作出自己的优秀作品,那我们下期再见,拜拜!

大家好啊,录这个视频呢,是给大伙呢来分享一下啊,我们刚做的这个 mv, 嗯,我的一个制作过程和其中呢,嗯,遇到的一些问题啊, 因为做这一个呢,跟我们前两天做的啊不同,因为我我其实每天做的视频呢,主要也是在测试,嗯,一个是跑咱们的这个工作流,同时呢我们主要是在测试一些新的啰啰啊,我就看一下他们效果, 不过可能今天呢跑这个我感觉比前两天跑的稍微差点,因为用了两两个新的那个啰啰跑的啊, 嗯,现在这个 logo 有 点多,所以说也需要测测出看一下效果怎么样啊, 所以这今天跑的两个里面有些时候有那个禅意,就是感觉是没有前两天啊,前几天跑的那几个 mv 那 那种啊效果啊, 加上呢,本身我这个跑的分辨率也不高啊,跑的分辨率也不高,实际跑的是这样一个分辨率出来啊,不高。 嗯,当然这个视频呢,大部分跑出来的已经传传上去了啊,你们可以去看一下那个实际效果,也可以在咱们的这里我们也可以先看一下, 因为这后面其实是我跑了好几次啊,它里面有几个分分这个分界跑的不太好 啊,有个有些方面不太适合公开的啊,我就把它重新跑了,重新跑了过后呢, 嗯,还是有些地方呢,不太好,我就是不想跑了。确确实,这个太耗时间了,跑一次也要十多分钟,这个跑这跑这么一截啊,也需要每个分段要十来分钟吧啊,这就不用跑了,时间不够了,我们看一下最终呢,其实最终用的是这个 啊, 好 啊,这这这个呢制作过程呢?实际上如果说已经看到咱们前面视频的朋友们呢,都知道了啊,这个你可以走看一看或者听一下,我在这里面就刚才说的问题,或者你们自己去看那个视频,看一下跑出来的一些 小问题吧啊,小问题,当然呢,整个 l t x 它里面对于这个快速运动呢支持不太友好的都是个通病啊。但是 我是觉得通过咱们现在新的模型,加上我们现在工作的话,包括一些 model 的 搭配呢,我是觉得应该是到了一个可看的那个阶段吧,我们 毕竟说我们也不是那个专业搞影视的,就是是吧,能够达到一种是吧,我们普通人的这种非专业的眼睛去看的话,我觉得还是可以。还行啊, 当然这里面我主要就说一下我们的这个是在做的过程中呢啊,这个选区啊,包括生图片啊 啊,特别是新来的朋友,我就大概说一下啊,细节啊,你们可以再看一下我们前面我录的一些完整的那个视频啊, 因为可能每一次呢都从头开始详细,说的实在是有点像那个啊,说的有点腻了啊,就感觉不想说的太细,就前面就是这个视频之前面的视频呢,就说的比较细一点啊 啊,可以看一下啊,可以看一下,因为时间确实说长了,时间有点长,完了会用到的一个是我们的这个分镜工作流啊,分镜工作流 啊,第二个呢,我们呢这些分镜啊,这些分镜的设计呢,是用的咱们的 ai 伴侣里面的智能体生成的,也就是说如果装了咱们 ai 伴侣的呢?咱们的其实智能体我也在不断优化,有些时候发觉不太合适的也交给我们这些啊,他们线上的这些 ai 工具供我们在优化, 优化完了过后呢,我会更新过来这个智能啤酒是在我们的这个对话里面啊,对话里面我们可以看到他这是跟我们的生成的,就是跟我们的生成的, 我们看一下他生成的这个结果啊。嗯,打开过后是在这里啊,打开过后是在这里生成了十四个啊,生成了十四个, 这十四个分镜生成完了过后,他的描述生成完了,我们再到我们的这个工作流里面啊,这个工作流里面这边呢,指定咱们的这个头像啊,指定头像,我们这个呃 人物的头像啊,紧接着呢把我们的这里面的每一个分镜的描述放到这里面来复制进来啊。完了过后呢,我们呢把这个生成的图片存储到我们的这里指定的目录下面 啊,在我们这一个版本里面啊,我会把这个版本发一下,就是当我们呢生成错误了过后,比如哪一批哪一张图片要重新生成的话,那么这个时候你把原来这张图片可以删了 啊,删了过后呢,我们再重新生成,你不删也行,就是直接这边进行生成,比如说这个啊,你看我这里十四,十四,就是 也就是我们呢我在做的时候啊,实际上这个第十四张图片,第十四张图片啊,就是十三序号那个文件名,因为我们是从零开始的,实际上就是第这个序号十三的那但是他是第十四张, 这个对应着我们的这里面序号是十四的,我就把它重新呢生成了啊,这里面呢都写十四,十四就表示呢生成十四的这一个分镜场景重新生成,也就是也就是我们呢这下面这个重新生成的啊,重新生成的完完了过后呢? 呃呃,下一步呢就是生成完了过后啊,我们下一步呢,嗯, 就是到我们这里面生成我们的这个 mv 了,这个 mv 呢我们的音频已传到这里,这前后啊是我们的选定你需要的这个音频的实际空间, 这个空间呢就是这一部分,你要还是不要啊?这个上面呢你们拿到的工作你应该是默认是这样子的啊,就是把前面这部分跳过,后面这部分呢,我们的尾尾部的这部分呢也跳过,就不要只需要我们的这一这一部分啊,音频 最后呢进行呢,我们呢默认的是平均分段每十五秒啊,把我们的因为我们那个场景啊,啊,其实最开始生存场景的时候呢,主要就是先要在我们的音乐里面来找到最 啊合适的这一节音乐,就是我们需要做的这一段长度找好了过后再除以十五,我们自己大概算出来需要多少个场景,每一个场景呢就是一个什么呀?就是一个图片,就是一个图片, 其实很好算啊,就是你看我们的十五秒,平均分的一分钟呢,就是四个张图片,如果三分钟呢就是十二张,是吧?一般我们做的话就是到十二到十五张,因为前阵子呢做了几个长的呢,可以打到十七八张啊,就是 就要生成了这么多多张图片,这个图片我们呢智能体里面呢,已经呢就要求啊,他生成的动作幅度大一点,这样方便于我们呢,在做这个舞蹈的时候,特别是我们的那种稍微 啊劲劲舞啊,他那个动作幅度更大一点啊,方便我们的生存。这一个场景跳舞的时候啊,这个姿势更好看啊,更好看 啊。这边设计设置完了过后,设置完了过后,其实其他地方呢,你不用去动啊,不用去动,你要做的看的就是这里,看下你电脑的实际的一个 配置吧,你如果说你看像我这样是四零幺四零六零 pad 十六个 g 的 显存的,我用的是幺三零零的这样一个分辨率去跑的,它实际跑的分辨率是这个啊,因为 lts 我 们按它的那个规范做了一个三十二的那个 啊,倍速整除这样一个取的一个值出来啊,所以说是这个完了过后,嗯,我看看 初初次拿到过后,你其他都别改啊,就默认,你就也可以按照我这里你可以对一下参数,比如这里面是吧?啊,这这样子的啊,再来看一下,我们这个地方是参数应该是这样子的,这种默认的,你就跑默认啊,先跑,跑一段啊, 啊,特别是你,你如果想快点跑一段,你把这里设低点,比如设个九百六啊,或者六百七百的都行啊。就说先你把你的工作流,你看跑一小段,跑个一分钟的视频音频,能不能跑完啊?能跑完 啊,那只要他有了两个循环正常啊,那就你的工作流就能够正常在你的电脑上跑了,跑了,下次你再加大你的那个分辨率就行了啊, 我说那个方面就我的那个电脑的配置就是参考啊啊我们群友呢超过了四个 g 下面呢他五秒钟好像跑了十九分钟吧,还有反正就是十多分钟吧啊就是到了自己跟自己电脑吧啊先从小分辨率开始跑 啊,配置好了使用起这些地方呢你可以不用调啊,特别是还不太熟悉的我们那个 moore 呀,我发到线上的可能跟这个不一定是相同的,因为这里面的 moore 还有我们这一段这这两天有新找的一些我的测试的,不一定说就是你有的, 当然了这一些模型啊 moore 呀,工作流啊,带回来直接去我们那个网盘里面下载啊 啊以后我再给大家说下下载吧。嗯这这个地方呢如是什么呀,就是当我们每一段进行生成的时候会自动生成过后啊存到我们的这个目录下面啊,并且是按我们这个 就是我们每次循环的这个序号进行命名的,所以说你如果说跑了多个的项目的他也会把你墙面就会自动覆盖掉了啊 啊我们这个地方还要注意每一次呢生成的内容呢,不会自动刷新,你要点一下手动刷新啊,重新加载你生成的内容,在这里可以播放每一个段的,你就可以预览 啊,虽然说这里面也有预览的,但是有些时候我们切换界面了他这个预览就会丢啊这这个啊,我觉得在 comu i 里面他这个也有点小毛病啊,有些时候他会丢我们那个预览的,或者是你看有些图片预览他也会被丢掉了啊, 当然这个没关系,看我们这里就行了。那当我们整个音频,你的分段、分镜这些都生成完了过后,最后呢就会存到我们这个目录一样,你要刷新一下到我们的最后面啊,去找, 当然你这些项目呢,生成的多了,你可以把这个删掉啊,不用全部都保存到这里面,因为保存过了过后,每次打开了你文件多了,他其实也会拖我们那个反应速度的,没必要,因为你每次做好了过后,你一般这些做好的拷贝到你自己的对应的,是吧? 拷贝走,把这个文件拷贝走,这里面就只留下了我们的这个啊,一两个吧,最近生成的就行了啊,这样啊,也方便呢,咱们来管理特别速度也会快,这你可以不用管,因为每次会自动覆盖咱们的这个生成的啊, 整体来说呢,这是咱们整个这个工作流以及我们的操作的一个使用的大。 这个今天说的又不太细啊,一个大概的一个流程,但是呢如果说呢,你去用的话呢,你其实我觉得呀,你只要能把我们工作流就是要用到这两个工作流 拖进去过后,按我刚才大体说的那个是吧,还有我们那个操作流程,就是你去啊那个分镜场景设计,你既可以用咱们的那个 ai 伴侣里面的那个设计, 也可以使用我们的那个啊,其他的那个 ai 工具生成的,反正就是实这些场景描述嘛,是吧? 啊,说到这里我还可以说一下,当然也就是用我们这个工具的话,你进入这里是应该点开 ai 对 话啊,这里面真正点开的时候是一个新的新的时候啊, 你选择了我们的 deepsea 啊,这里面选择 deepsea 在 这里面是我经经常用用的,我我比较喜欢用 deepsea 啊,完了过后呢,有个任务,这里面选择了舞蹈这个分镜脚本设计选择这个啊。 嗯,蜜药这里面如果说你是初次用咱们的呀,你可能没有自己的蜜药,你可以去配一下,你可以临时用一下我们系统蜜药啊,这个可以先跑一跑看一看啊,这个这里面我们是有积分的,没啊, 用完了就没有了。试用密钥呢,我们的这个就是随便用啊,你自因为你自己的密钥吗?这个试用密钥怎么配呢?你也可以看一下咱们这个界面下面有一个这个安装部署的这个啊配置你的试用密钥,你自己去我们的 ai 厂商给你去申请,自己填写就可以了啊。 那 ok, 我 们呢把这一波呢说了,完了过后呢,但是如果说你还要看一个更细节的,可以看我看一个我们前面录的有一个完整的那个啊,比较那个细的一个教程可以看一下,就是上一个啊,上一个完整教程 啊,完了过后呢,我还跟大家就说一下我们的下载啊,你打开了咱们这个网盘过后,我们就以这个为例啊, 打开网盘过后呢,我们来选择我们的呀,到康复 u i 这个目录下面来啊,你把我们的最新的这个制定接点下载到你的电脑里面去,下载到你的电脑里面去, 嗯,完了过后呢,把它减压到你的,你的那个我就说一下啊,在哪里 啊?打开了咱们的你自己那个 comui 的 目录,打开你自己的 comui 的 目录,这个啊,进入到我们的一个自定义界面文件夹中,把这个内容来减压进来就行。减压过后是这样的一个啊,看到没有?是这样一个文件夹 啊,这样一个文件夹呢,进来过后,你看啊,要这样的,直接进来过后就是我们这些呢啊程序了啊,你进入这文件夹就能够直接看到了,如果说你进来过后还有一层目录,你就把那个目录提上来啊,把它移动上来 啊,把这个自定义接点呢,我们呢装好了放进了过后,你这个时候如果说开着那个啊 com 呢,你得重启一下啊,这里下载过后, 完了过后呢?当然了,你以后下次如果有更新的,同样你下载下去后覆盖就行了啊,重启或者删掉,把你那个目录删掉,重新解压下去就行。 这个安装文件呢是属于我们的这个啊,我们自己呢弄了一个整合包啊,你如果说需要装呢,那你就首先要装咱们这个软件,装了过后呢,你在咱们的这个软件里面呢,可以看到我们的 这这个教程,你去看一下这个教程啊,还有啊,这个教程也可以看一下,你自己看着安装吧啊,看着安装就行了啊,紧接着呢,我们再再来看一下这个 啊,刚才说到我们的安装文件了啊,这个安装文件呢,这里面就是这两个,你按着我们的教程说的去安装就行了,导入时间就是两个压压缩包,你直接导入就行了啊, 完了的话呢,工作流我们的坑说也有会把一些最新的工作流呢,我们就上传上来了,上传上来你可以说呢啊有有有,新的就这里下载,或者呢你如果说在咱们那个在咱们这个群里面的话啊,如果说在咱们这个群里面的话啊, 就是在咱们群里面的话可能会更先的啊,尝到我们的最新的一些版本,但是可能说问题会很大,因为一般的初试版本呢都会看我自己跑呢啊,有些时候跑出没问题,但是也需要大伙的可能跑一下有反馈过后我们再优化优化一下啊, 大家可以提早尝鲜啊提早尝鲜啊,这是咱们说的这一个工作流啊,工作流里面单采只就是只需要啊执行一次啊, 双采就是会采集两次,这个劲舞版本呢就是我们做这舞蹈我现在用的这一个版本啊, 嗯,紧接着呢这个模型那也就说大伙了你自己了是吧,根据你的需要我们工作流里面嗯有的模型呢就是用到模型的 大部分呢都在这里啊,除非最新的版本有可能说没及时上传,那你可以呃叫一下我,我有些事忘了啊,忘了上传你叫一下过后我就上传就行了啊, 在这里面去找只要我提供的工作流里面用到的模型啊, lora 呀等等啊这些这里面都必然都会都会有的啊,你只要找一下我就行了,如果这里面没找着的话啊, 那 ok 这就是我们的整个这个视频啊,给大伙介绍到这里啊,希望呢对大家有用啊。

我 ai 生成短距的成本大概是一秒钟一分钱,那我用的是 ltx 二点三开源模型, 我是租云端算力来部署这个开源模型的,所以它的成本很低。云端算力的话一个小时的成本只要啊一块三左右。

一个十六 g 的 显卡,每次只生成五至十秒钟的这个视频,能不能做漫剧?呃,咱们先说结论啊,没问题,可以做,这是我用 ai 做的漫剧的分镜 啊,咱们可以大体看一下啊,这边是做好的分镜,然后这包括分镜提示词啊,都做好了,然后咱们根据这些分镜的提示词,把它喂给 comfui, 让 comfui 给咱们生成对应的视频,每次啊也就五至十秒左右,然后咱们再把它连到一起看结果,咱们用这边的电脑上边来跑分镜, 每一个分镜大约是五至十秒左右,跑完了以后,咱们用下边的点,用下边的这个剪映,把这个分镜进行一级一级的连接,就是生成了这种玩具,一会咱们看对中结果啊。 各位父老乡亲们,首届厨神争霸赛今日正式开赛! 嗯,好香,这味道,有热闹看,还有免费的吃,赚到了, 火大了,外层焦了,里面还没熟透。嗯,刀工还行,但切的角度偏了三度,口感差了一档。 哪里来的野丫头,穿成这样也敢垫平?你师承何门何派?门派没门派,就是自己瞎琢磨的野路子, 也敢凭玉出传人?哼哼,小姑娘,不懂就别说话,丢人!

昨天找了个工作流,直接用人物就能生成动画,放到后台试下了,用的 ltx 二点三模型,感觉比之前的要强一些,但人物一致性还是个问题, 导出到剪映草稿都不用怎么编辑,音效和对的话模型就自己生成好了, 还是看下成品效果吧。后面我再看看人物一致性怎么弄吧。东汉末年,朝政腐败,连年灾荒,老百姓苦不堪言。 张角领军攻打幽州地界,幽州太守连忙张贴榜文,到处招募兵马。 大丈夫不给国家出力,叹什么气。 俺姓张明飞,字易德,就在这卓县卖酒,屠猪为生。我看你这人有点意思,走,俺请你喝一碗。 恩,在这捉现,也算有些田产愿意全拿出来做本钱与你共同。 这位壮士若不嫌弃,请过来同坐一叙。 我姓关明宇,字云长,因乡里恶霸仗势欺人,我一怒之下将其斩杀,从此流落江湖已有五哈哈哈哈,痛快,咱们三个想到一处去了,痛快 念刘备关羽张飞。虽然异性,既结为兄弟,则同心协力,救困扶危,上报国家,下安黎术不求同年。 哈哈哈哈哈哈。 将军手握天下兵马,若不近朱患官,日后必遭其害。愿将军叼四方猛将入京近。哈哈哈,要朱患官只书除其首恶一名,御力足矣。天赐我也, 天赐我也!哈哈哈。 金尚暗弱,不可以奉宗庙无将一一引获光。故事费帝为洪农王,立陈留王为帝,有不存者,战金尚基。 唉,还能哭死董卓否?如祖宗一时汉禄金,不思报国反曹丕不才,愿即断。董卓头,悬职督门以谢天下。天下藏生,皆系孟德一身 天下苍。孟德何为操有宝刀一口献上恩项,孟德何为 拿下。

兄弟们,别再死磕某梦了,要充高价 vip 不 说,还要排队,影响创作效率,不妨来试试。聚合网站不需要魔法,不需要会员, cds 二点零同样支持参考生首尾帧全能参考三种模式,而且是满血十五秒, 可批量生成五十条,不需要排队。此外,平台还汇聚了上百款主流大模型,不管是搞创作、做图片、视频生成,都能一站式搞定,而且只需做一条附一条,没有任何套路,需要的小伙伴把工具分享给你!

一小时从 ai 设计到 ai 建模实录,我只分享当下最有效的实用教程。先看时间跟结果,这是我随便生成的一个角色定稿,可以看到创建时间是晚上十一点二十六分,我用了一个小时就生成了这样的模型。 不啰嗦了,直接看实录。十一点半生成一个原话定稿之后,我首先要做的是对原话局部拆分。针对头、身体,肩甲都单独出了纯白色背景设定图,这里建议反复看下我生成的关键词, 有时你感觉跟 ai 沟通有代沟,那只能你自己找原因了,尽量把话说完整。举例,正视图、侧视图,不要说成正 侧背三式图。准备好我们的局部设定图之后,进入到 ai 建模平台,这是当下能让你白嫖质量最高的三 d 建模平台。我只用了赠送的两百积分,生成了三次,就得到了不错的结果。我们选择图升三 d, 再点多图,然后将生成的多式图放进去。 我这里选的是基础模式,开启起用纹理、 p b r 材质,然后生成等结果就行了,让它自己发挥吧。我们先看看刚才已经生成出来的两个模型,一个肩甲,一个头部,看一下质量怎么样吧,让它加载一会儿。 这边已经完成三分之一了,不管它平时发的一些引擎教程,附带说唱也不涨粉啊,不来点真格的都以为我是娱乐主播呢。 肩甲模型出来了,这个质感还可以,模型完整性也没问题,对比下设定图吧。 这个肩甲我刻意用了单张图去生成,上边的圆形纽扣也挺圆的,并没有因为一张图导致模型变形,质感太油了。这个应该是网页渲染的原因,贴图的问题都是小问题,一个 ps 条条图就搞定的。再来看看用三式图生成的头模 设定,典型的 ai 漫剧主角脸。这么看脸有点肿哈,可能是预览相机的透视比较大,这都小问题,我们要看在三 d 里的真实表现, 比刚才强多了吧,反而这张脸更适合游戏的风格。目前生成的高模一百多万面,还是挺帅的,有性格,我喜欢。再看下肩甲模型在三 d 里的表现,边缘跟转折看着有点软,下边包边的硬转折还可以, 侧面结构扭曲了,看来抽空还得用三式图给它校正下啊。总体来说还是可以的,没花钱要什么自行车啊。 身体部分也快完事了,再等一等吧。把 ai 融入到你的工作流中,最大的优势就是并行进行产出,两个 ai 各干各的同时,你还可以腾出手做些别的事。 还在手搓模型的新手朋友们真该好好想想了。身体部分也出来了,咱们看看怎么样?一如既往的由正常的,这个跟模型本身没关系。这法线质量没得说了,相较去年进步的不是一点点, 胸部那块硬表面结构也干净利索多了。现在这个高模精度,我说能达到一个终极模型师的水准不为过吧。导出时支持市面比较主流的模型格式, 导入三 d 看下比例,需要手动缩放调整。 ai 都帮你做了这么多了,你总该自己动动手吧。 目前看这个高模的精度用在手游中完全够用了。这种质量的模型当初开外包公司那会儿价格在一万五到三万之间,这个取决于一手包还是二手包。简单调下比例后,我们来看下整体效果 怎么样?效果还不错吧!这就是为啥我不出建模类的教程,因为你要跟进时代,与时俱进啊! 传统手搓模型不是没有学的必要,但看过这条教程后,你要把原来十分的建模经历让出五分留给 ai 吧。这条视频你们说说能不能拉到卖客人的仇恨啊!还有我现在操作的这台电脑是家里原来开发票的机器,显卡是一零六零的,哈哈, 你们听过这个型号吗?现在都是 ai 云算力,是不是硬件感觉又能省下一笔呢?做到这步,我看了下时间,正好是半夜十二点半,整整一个小时,唉,还是被迫出了建模的教程,关键整天嘿哈嘿哈的,真不涨粉啊!学了这么多经验干货, 点赞、收藏加关注不过分吧?后期我会把全网最干的拓扑烘焙工作流分享给大家,粉丝量给力的话,咱们就继续往下挖, 蒙皮绑定动画材质、编辑引擎、地编特效制作,我带你们拿这个角色走一套游戏研发流程,还不关注就找不到我了哈,下课!

别走,留下来陪我。 夕阳下的微风真温柔, 我一直在等你。 真美,我无法说出口。 欢迎来到倾城 lab 刚刚我们看到的这几个视频,无论是在镜头与光影,人物动态与微表情,摄影机的运动与焦段控制,还是声音与情绪设计方面,都很接近电影实拍效果了。那么这样实拍效果的视频是怎么制作的呢? 其实这些视频都是用 ltx 二点三图声视频工作流制作的, 打开这个工作流需要我们设置的地方并不多,首先我们从这里上传我们的参考图片,简单输入视频提示词,再设置视频时长和比例就可以了。 不会写提示词也不要紧,我在工作流里面内置了一个自动提示词,我们只要输入剧情梗概,它就会自动润色成专业视频提示词。我们来看一下工作流自动润色好的提示词,它其实就是遵循下面这五点来生成提示词的,可以缩写的非常专业。 我们从最终生成的视频来看,无论是运境、环境、氛围、人物的动态还是微表情,都表现的非常好。其实哪怕我们不输入提示词,只上传图片,工作流也会根据图片自动为我们写好提示词,这是输出的视频效果也是令人满意的。 我们再换一张图片,这个图片的镜头视角比较特殊,它也能驾驭的很好,生成的视频流畅,真实感拉满。再来看下这个视频,我们想测试镜头运镜和人物表情变化,从生成视频的效果上来看,无论是视频运镜还是人物表情都得到了很好的展现。 为了更好的测试人物面部表情的控制能力,我换了一张人物面部特写图片,在提示词中强调聚焦人物面部,同时给一些人物微表情提示词。从最后生成的效果来看,模型对人物表情的控制能力还是非常强的,超出我的预期。 想要工作流的举个手,私底下发给你好了,这是今天视频的所有内容,如果你觉得对自己有帮助,点个赞呗!

这种条条爆火的 ai 视频到底怎么做的?可不可以用免费模型制作来?先看演示, 你会发现它不是简单的生成一个五秒的视频,而是有分镜,有音频,有镜头顺序,最后还能组成一条完整的成片。 以前做这种视频最麻烦的就是镜头接不上,角色说话不好控制,分镜和音频对不上,甚至还要付费和排队。但这次用 kufui 的 director 导演节点,就可以把这些东西全部串起来, 而且免费本地不限量制作。这期直接从效果到流程,手把手带大家做一遍。想系统学习 kufui 的 同学也欢迎加入知识星球,带你系统的进阶。 那话不多说,我们直接开始。哈喽,大家好,上节课我们给大家讲解了 director 导演节点的大概用法,然后这节课呢,我们给大家带来三个案例的演示哈, 那么这三个案例呢,是在媒体上比较火的三个案例哈,我们可以先看一下视频的质量,这里是第一个案例哈,就是类似于这种在操场上真实实拍的场景,有一点磨砂的质感啊,整体的画面,然后也是用我们 ltx 生成的,可以看一下效果。 你踢完了累不累啊,看你都穿成这样啊,你别说话,缓一缓,你刚刚是不是太拼了呀,给你先喝点水, 踢球而已,别这么拼命。你今天已经很厉害了,你今天也学习一下吧,我们陪你。 好的,那么这是我们的第一个案例啊,可以看到每一个角色都在单独的讲话,同时整个视频呢,它是有剧情的这个发展过程的,而且这个视角呢,包括整个画面的质量,相对来说还是很不错的。然后我们来看第二个,这是一个电商带货的场景,我们演示的就是一个词盘的介绍哈, 这盘子好温柔呀,这盘子整体颜值先看整体,真精致,这个图案越看越美,细节插画好可爱,中间拍特别出片。 好吧,这就是我们大概的视频,这次抽卡运气不好,出现了一个字幕啊,大家自己去尝试的时候可能不会出现字幕,而且现在生成的视频大概率是没有字幕的哈,整体画面的质量是很不错的,而且人物也很真实。那么生成的中间图片的插帧呢,我们也是用 gpt 生成的哈, 然后在素材里面已经给大家提供好了这些图片,可以直接使用。然后我们来看最后一个案例,这个是类似于剧情一样的,做好了各种分镜头,然后以及镜头的角度,所以说生成出来的视频呢,还是比较像真实的电影的啊,我们来看一下 还会再见吗?主人,再见的时候你要幸福好不好,五一在家乖乖听话,离厕所远点知道吗?不许吃那个,我答应你,你要开心,你要幸福好不好,要开心呢,幸福啊,师傅,走吧。 好吧,这个就是我们的大概视频,这个视频因为在图片上面,我们就提供了各种分镜头,所以说呢,最终生成的视频就很像是一个真实的电影哈, 那么中间的镜头切换的用的也是硬切的情况,没有出现那种相似的转场,或者说做一个插针之类的。好吧,所以说这个视频呢,效果还是不错的,那么今天的话就给大家演示一下这三个案例该怎么用啊?在视频的简介区呢,给大家已经放好了我们案例演示的素材,这里一共有三个, 我们先从这最后一个电影镜头创作开始吧,然后一共给了五个分镜头哈,五个分镜头的话,大家还是到导演节点当中哈,然后呢先把之前这个给删掉哈,然后呢就把这些素材呢给他放放置进来,比如说这样电影镜头把第一张图片放置进来,第二张图片,第三张,第四张,第五张。 那么这五个镜头放置完之后呢,因为当前这个案例里面有音频啊,所以说我们还要再添加一个音频的轨道,所以说这里选择 add audio 啊,然后把这个音频上传上来,上传上来之后呢,就选择到合适的位置,还会再见吗?主人,再见的时候你要要开心啊,幸福啊。 好吧,可以看到我们这个音频最终大概在十七秒左右,所以说在上面的生成视频的时长这里,我们也设置成十七,设置成十七之后呢,我们就根据每一个镜头人物讲话的声音呢,给他匹配上啊,比如说第一个镜头 还会再见吗?主人,再见的时候你要幸福好不好?五一再。然后第一个镜头大概是在四五秒左右,所以说我们就把它拉到这个时长,因为是这个小狗的镜头,它在讲话,五一在家乖乖听话,离厕所远点,知道吗?不许吃那个。然后第二个呢就是女生的讲话哈, 那我们就把女生拉到合适的位置,我答应你,你要开心,你要幸福好不好? 然后这里呢啊,这只小狗讲话的声音呢,是很多的,就是说他讲话的内容很多,那么我们为了让小狗能够哭出来, 如果我们只通过提示词让他去哭出来的话,可能效果并不符合我们要求,但是呢,要借助这种夸张的方法的话,我们就可以用双图的形式,类似于首尾震控制的情况让小狗哭出来。所以说这个剧情的镜头是大家可以自己去添加的, 包括后面如果你自己要做一些视频的话,也是根据你的需求去完成图片或者说分镜图的制作,我答应你, 你要开心,你要幸福好不好?要开心呐,幸福啊,差不多到第十五秒左右的位置吧, 那么这里呢,我们这两个镜头呢,就给他连接起来哈,连接起来之后专门针对这两张图片的意思,就是类似于一个首尾针的工作流哈,然后我们再看最后师傅走吧,好,这最后这个镜头是女生的一个讲话,我们放了一个俯视俯拍的镜头啊,大概就是这样的一个镜头设计, 设计完之后呢,我们就每一张图片也就他的分镜头对应的提示词呢,给他也粘贴过来,那么在提供的素材当中也有对应的提示词, 按照顺序一的话,对应的就是我们的第一张图片啊,把这个提示词给他复制过来,因为我们已经提供了音频,所以说不需要在提示词里面再写上人物讲话的内容了, 所以说呢,通过音频的控制,我们也可以做到一长部的电影通过分镜头进行生成,并且每一个分镜头因为我们提前设计好了音音频音色,所以说可以控制人物的音色也是一致的,那么第二个镜头我们就把提示词粘贴过来,然后第三个镜头,第四个镜头,然后最后一个镜头,第五个镜头, 那么这些图片呢,都是让 gpt 去生成的,所以说大家如果以后在看到一些自己比较想去复现出来的视频的时候,也可以通过提示词的形式让 gpt 给你生成相应的素材,然后的话再去制作一些音频, 然后再去写提示词去完成这样一个镜头的生成啊,那么这里呢,我们就基本上设置完了,在最前面这里还有一个点要注意啊, custom audio 指的是你自定义音频,如果工作流当中你自己上传了音频的话,需要把这个按钮打开,它才能起到作用, 如果说没打开的话,它是自己生成的音色啊,生成的声音,所以说这里呢,我们就打开,打开完之后呢,这里我的分辨率设置的是一 k 的 哈,那我就直接运行生成一个一 k 的 视频,我们来看看最终的效果。好的,那么这里呢,我们就等待它完成视频的生成。 好的,这里已经生成完毕了,我们看一下最终的视频,还会再见吗?主人,再见的时候你要幸福好不好?五一在家乖乖听话,离厕所远点知道吗?不许吃那个, 我答应你,你要开心,你要幸福好不好,要开心呐,幸福啊, 师傅,走吧。好的,可以看到这个视频一共十七秒,是我们刚跑出来的结果是没有问题的,而且是人物的嘴型是能够对的上的,整体画面质量也是很高的,因为这次我跑的直接是一 k 的 分辨率啊,也就是一九二零乘一零八零,如果大家的电脑显存比较少, 可以尝试跑一些低分辨率的,比如说一二八零乘以七二零的分辨率。好吧,那接下来呢,我们来看下一个案例哈。那么素材呢,大家就直接在视频点进去下载就可以了, 这里呢我们就演示一下这个操场的这个镜头吧,这个镜头跟刚才我们做的视频有区别就在于这一个基本上是固定的镜头啊,或者说第一人称的视角,他会有一个旋转,但是不会出现那种频繁的切镜头啊,就是相机会移动位置的这种情况。 而且这个场景当中我们是没有给音频的,所以说生成的声音呢,是根据我们的提示词生成的,这里我们就把它的时间调短一点吧,跑一个十五秒左右的,一共七个镜头,我们跑个十四秒吧,一个镜头给两秒的时间,这样好做安排,那么通过拖拽的形式去控制我们每一段每一个镜头的时长, 然后我们还是将提示词呢给它复制过来。好的,那么这里呢,因为没有音频,所以说这个 custom audio 我 们要把它关掉,然后分辨率呢还是给一九二零乘以一零八零的分辨率,然后跑个十四秒左右的视频。这里我们设置完之后呢,就可以直接点击运行哈,那么接下来呢,我们就等待它完成最终视频的一个制作哈,和生成 好的,那么这里我们完成了视频的生成,我们来看一下最终的成片哈,你踢完了,累不累啊,先别说话,缓一缓先,刚刚是不是太拼了呀?你刚你先喝点水,踢球而已,别这么拼命, 你今天已经很厉害了,你先休息一下吧,我们赔了。好吧,我们这次生成的视频呢,怎么说?因为镜头比较多,而且时间比较短,所以它的切镜呢,就会变得很频繁啊, 那么镜头之间的过渡,如果说想让它显得更自然一点,大家可以在前面尝试把这个 loa 模型加载打开,然后加入那个 transition 的 loa 模型哈,大家也可以看一下我们前面发过的一期 关于这个 loa 模型的一个讲解。好吧,那么这一次我们跑出来的案例可能跟刚才演示的有一点点的区别啊,但是呢,画面的质量还是可以的,大家可以自己跑一下试试,在低分辨率的情况下,可以啊,生成的速度更快, 那么抽卡得到不错的结果之后,再尝试提高分辨率也是个不错的选择哈。那么我们再来看最后一个案例哈,也就是盘子相关的,反正有了这些导演节点,然后包括 prompt, relay 这些功能的出现之后呢,我发现用 ltx 生成的视频抽卡频率会变得很低哈, 我们可能一次的视频生成就能够得到相对不错的效果哈。这个词盘呢,是以电商为案例做的一个演示啊,所以说假如大家是做一些其他产品的,比如说毛绒玩具啊, 或者说一些鼠标键盘啊这种,你都可以让 gpt 通过修改的方式给你完成这个产品的替换,然后换成你自己想要介绍的产品就可以了,所以说这里呢就只是一个词盘的案例哈。 好的,因为还是没有音频,所以说这里呢,我们就把自定义音频给它关闭掉,然后使用 ltx 自己生成的音频哈,那这里呢就直接点击运行。 如果说大家想要做一个,比如说你自己专属的一个虚拟形象,那么还定制专属于它的一个虚拟声音的话,那我们可能需要用到 comfyui 里面一些声音克隆的技术去完成音频的一个制作, 那么跟我们最开始演示的那个电影镜头一样,如果说你自己制作了音频的话,就直接在这个节点上传就可以了,上传完记得把这个 custom audio 给它打开。好吧,那这次呢,我们还是等待它完成最终视频的一个生成啊。 好的,那么这个视频已经生成完了,我们来看一下最终的质量。这盘子好温柔呀,这盘子整体颜值先看整套,真精致,这个图案越看越美,细节插画好可爱,中间拍特别出片, 喜欢别处处哦。好吧,这是我们最终的一个成篇哈,那么大家呢,就可以在自己的本地进行一个尝试哈。那么素材呢,我们都放到视频简介区了,那今天这期视频呢,我们就先讲到这里,感谢大家。

只用了一招,我和老李就解决了长时间视频制作报显存的麻烦,我是放心, 我们就来聊聊这事。这段时间,我们把缝隙 ai 伴侣的工作流迁移到了 ltx 二点三模型上, 并且开发了无限时长生成工具流,还加入了多图片、多音频、多文本、多视频的自定义节点。现在它已经是一套完整的 mv 或数字人口播解决方案。 至于为啥效果能这么好,关键就在于输入图片的分辨率,分辨率越高,模型对唇部的识别就越清晰。音频驱动图片时,无论是唱歌、跳舞还是说话都会更自然。这个工作流的版本已经迭代到了 v 十三, 而且提供了几个版本,您可以根据自己的硬件情况来选择。原本我没打算在缝隙 i 伴侣里深入开发这些节点,但最早是群友做了个开头,我这才一发不可收拾,把整套功能都做了出来。基础倒好了, 后续自己再整合使用就快多了。分享到 b 站和其他频道后,大伙的反馈很不错,应用也越来越熟练。我们一直在用唱歌 mv 测试, 今天就想来录一段口播,给您展示一下它最基础的数字人播报功能。对此你有什么看法,请在评论区告诉我。对此你有什么看法,请在评论区告诉我!关注我,倾听更多我和老李的故事,咱们下次见!

今天分享一个 comfy 以图片加音频生成视频的工作流模型到 tx 二点三,打开 comfyui 工作流看一下, 这里是模型下载地址以及放置目录,点击模型文件就会进入下载界面,下载好后放入指定文件夹并重启 comfyui 就 行了。这里我们加载一张图片, 下面再加载一段音频, 这里输入提示词,尽量使用英文, 这里输入视频的宽度和高度。 file you 三是视频的帧率,第二个不要改动,第三个是生成视频的时长,这里可以看到我们加载的音频是十八秒,我们也把视频的长度改成十八秒, 我把视频的宽度改小一点,这样生成时间会短一点。如果你想用自己的录音,可以点一下录制音频,再按 ctrl 加 b, 打开录制音频节点,将 audio 连到右边的 audio。 现在我们运行看一下,运行时间较长,十九秒视频可能需要二十几分钟,这里我就加速了。需要注意的是,视频生成对显存要求较大,十六 g 以下显存,尽量把视频分辨率和时长改小一点, 我用的是魔改二零八零 ti 二十二 g 显存,看下效果。 这里还有一个 t l x 二点三的图声视频 生成的视频也是带音频的,不过是 ai 自动生成的,所需模型文件跟前面的工作流一样,需要工作流进群自取。