大家好,今天给大家推荐一个 cf ui 里面用来分离人声和背景音的一个小工具,咱们先来听听效果, 这个是原来的音频,这是分离的人声, 这是分离的背景音,是不是效果还挺好的,而且它运行起来特别快,三秒钟就可以跑了。那现在讲讲该怎么使用它? 首先我们需要用到 kj 大 佬的 mailband 这点,它插件的 get 地址我会附到评论区里面。大家使用的时候直接在启动器里面的安装新拓展,然后点击安装就可以了,或者直接下载我的这个工作流, 然后在 manager 里面安装它丢失的节点。除了安装插件以外,咱们还需要下载它的模型,模型地址我也会附上去。 模型它现在分成两种,一种是 f p 十六的,一个是 f p 三十二的。由于它跑起来门槛特别低,所以建议大家直接下载 f p 三十二的就可以,大小九百多兆,用起来的话主要是两个核心节点,一个是没有伴奏的模型加载节点,还有一个是没有伴奏的裁样节点, 接入他的模型还有音频文件,然后就可以输出一个 voc 代表人生,下面 instrument 代表是背景,我这边还加了一个修剪音频时长,因为我这边加载音频是加载的整首歌,然后我只需要里面某一段的话,那你就可以用这个节点。 现在设置就是从二十四点八秒开始,往后减八秒这样的一个效果,所以他生成的音频就只有八秒。因为他的运行效率特别高,所以咱们可以把这一套节点加到你所需要的工作流里面来实现其他的功能, 就比如咱们剪视频的时候,其实很多时候是需要用到这样的音频跟你,特别是你要识别你们的人生讲话对话之类的这样子的情况。 如果没有这个工具的话,咱们可能得需要用到专门的音频处理工具,那样的话就不太方便,你得在两个工具里面切来切去的,那现在有了这两个节点之后就方便多了。那今天的分享就到这,感谢大家收看。
粉丝1419获赞3420

还在为昂贵的 ai 视频订阅费发愁吗?今天手把手教你用 comfyui 工作流生成超燃 mv, 调用全免费工作流,成本直接打到骨折,效果媲美各大主流平台,支持一键导入现成流,小白也能秒上手。独家提示词生成器,帮你优化文案,多环节工作流一键串联,把时间留给创意, 跟我一起开启 mv 高效创作的新时代!首先打开抖音,找一段自己喜欢的音乐复制链接,然后切换到我的工具的素材,下载梦单,点击下载,下载完后看一下,然后点击分离音频, 听一下分离好的音频, 然后切换到 mv 生成界面,满单输入项目名称。我们这次用的是上传音韵,这个选择也可以自己生成,输入数字人的年龄, 从素材选择刚才下载的音韵,试听下对不对, 也可以自己点本地上传,然后点击通过音频生成分镜,点这个会调用大模型生成分镜数量,分镜时长,分镜图片提示词,分镜视频提示词。 因为我们选单个分镜时长是二十五秒,该音频总时长二十三秒,所以只有一个分镜既可以生成 好了,生成好了,我们看一下这通过音频分来出来的文本是不是对的,该文歌词分离出来是给大模型分析去生成情绪视频风格用的还有图片与视频分镜提示词, 检查一下生成的分镜图片与视频提示词是否满意,如果可以的话,点图片生成好的图片生成好了,检查一下图片是否满意,满意直接点击生成视频 mv。 不过我想用刚才下载数的人物形象进行升图,我们切换到素材下载慢单,选择刚才下载的视频,然后点截取图片,我们再切换到创作工作台,选择第一步 图片预处理,选择刚才截取的图片,选择你要反推的大模型,点击 ai 解析, 然后生成反推的提示词,提示词包括中英双语提示词,然后点下一步升图配置节点,利用刚才的提示词,然后选择好升图的工作流,生成图片, 等待一下生成好了看一下效果,然后切换到 mv 制作慢爷把刚才生成的图片在分镜里上传,图片上传完后点生成视频,等待几分钟,然后看下效果, 正常 mv 会有多个分镜,然后我们把视频剪辑一下,点 final mv 下面的重新生成,可以剪辑分镜转场,生成完了可以看到最终的效 果。然后我再看一下我们之前用自己的数字人图片生成的效果,切换到历史记录,查看下生成的视频,目前所有生成的数据都可以在这里找到。

你想靠 ai 视频变现,要么没有魔法,要么需要花钱,今天打破信息差,带你薅遍免费 ai 视频工具,脚本、画面、配音、配乐全程 ai, 无需专业技能复实操讲解,哪怕什么都不懂,也能利用视频中的免费 ai 软件,轻松批量的制作出这样的 ai 视频。相关操作文档已打包,感兴趣的九九九 首先视频创作都是需要故事脚本,故事脚本是什么?就像是这样,包含了镜头、运镜、内容、旁白和持续时间等,指的就是视频的哪一秒出现了什么内容, 有什么声音,这个画面持续了多久。故事脚本就是我们视频创作的基石,整个视频都是围绕着故事脚本展开的,所以说这个内容很重要, 但是不是每个人都具备写剧本的能力,那么这个时候就可以借助我们的 ai 来帮助我们生成剧本,像这样我们只需要给它输入一段文字, ai 就 会自动把我们生成,也为每个人成为创作者提供了可能性。然后我们的纹身图部分 需要用文字转换为图片,然后再借助图片生成视频的逻辑,我们只需要给他提供一张图片,再输入文字,就能够产生像这样的一个画面,这就是我们的涂色视频。再通过一些 ai 配音软件, 我们就能够将文字转化为声音了。最后将我们生成的视频以及配音加入一些音效,通过剪辑软件拼接起来, 就完成了我们一段 ai 动画的创作。而这就是我们整个 ai 视频生成的逻辑。效率上呢, 从脚本到成片,速度快的惊人,以传统制作动辄几月几年,漫长的流程成为了过去,它的成本无需昂贵的设备和专业团队,普通人也能做出媲美专业水准的作品。接下来我将为大家拆解 ai 视频生成里面的每一个步骤,让大家都能熟练掌握 ai 视频生成这项技能,制作出自己想做的短片视频,让 ai 成为我们手中的工具。视频的最后以一个 ai 动画短片作为结尾,让我们一起看看吧! 寒夜霜月漫过荒郊,破庙,蛛网缠绕,断梁残烛与古旧竹台燃烧,火苗侵占书生。云秀身着青护长衫,鼻风在粗糙的宣纸上沙沙游走,眼角瓦片松动。白狐探脑,景丁岸上卖饼,云秀推饼轻笑,分你一半。 自此米缸见底时,门槛总现。野兔有白狐相护,云袖免受激扰。寒冬腊月,云袖扫雪,白狐相伴,一人一壶,蜷缩草垛取暖。 春来赶考日,白狐骤然化作白衣女子阿九云秀又惊又喜,相谈甚欢,递上虎尾所至神笔,指尖相触,情愫暗涌。云秀执笔画进长安,阿九却在破庙独守春秋。 数年后,官袍染尽繁华,故人已随胡鸣消散,风中为记。当年庙前有家人在旁, 每想一别,竟是无缘再见。哈喽,大家好,欢迎大家来到我们的 ai 视频全流程解析系列课程上节课我们已经讲到了 ai 视频生成的大体流程,接下来我们来逐个解析其中的关键步骤。首先来到我们的第一步, 故事脚本的处理。一个好的视频绝对离不开一个好的剧本,那么如何让 ai 生成一份好的剧本呢?首先第一步,我们要给 ai 设置一个身份,而像故事剧本这样的内容, 我们就应该让专业的编剧、电影导演来生成。那么我们赋予 ai 这样的一个身份,它就能解锁它的知识库,然后生成与之相匹配的内容。就比如说这里我们可以设定 ai 的 身份,为一个动画编剧,一位电影导演, 那他们的特征是什么?他们的特征就是经验丰富,后面你也可以加上一些其他的内容, 比如说再给他加上一个高超的电影拍摄技术,二十年电影拍摄经验,全球顶级导演。这样的身份设定好一个好的身份,能极大的增加产出好剧本的概率,那么这就是我们的第一步。此外,我们的剧本是有框架、有格式的, 那么要给他设置一个好的框架,他才会按照我们的需求生成对应的内容。那么框架有什么呢?是不是要有故事主题? 要有镜头、镜头数和旁白?这故事讲什么内容?是讲美女与野兽还是外星飞船?这些内容是在我们一开始的时候决定好的。此外我们还需要有镜头,每一秒这个视频显示的内容是什么?播放的声音是什么? 这些内容都是要提前设置好的。这里我们可以先看一下具体的操作过程,你可以选择用豆包, kimi、 gipsy 都可以, 这里我推荐使用豆包,因为它用起来更加的方便。我们这里给它输入一个身份,你是一位专业的动画片剧,再给他确认一个主题, 书生,狐狸为主题,我们讲一个书生与狐狸的故事, ai 需要帮我们做什么?需要帮我们生成一个一分半钟以上的动画剧本,我们可以测试一下,打开它生成的动画剧本, 我们可以看到他会将每一个场景生成好标题、场景持续时间等等内容生成出来,其中就包括我们以什么样的方式开头,以及我们主要人物在座上, 比如说书生云秀正在抄写论语,这里就是我们的第一个情节,交代了一下人物主体,我们可以看到整体的剧本是非常完整,场景一就是书生云秀给赤狐递了一块麦饼,作为他们友谊的象征场景二则是狐狸报恩解决云秀温饱问题, 讲述的是一个这样的故事,像这样的剧本就是比较完整,那么我们通过这样的剧本才能够生成一部好的动画短片。那么接下来我们就按照这个剧本来完成我们的 ai 动画短片的创作,那么我们刚刚就演示了 故事脚本需要如何生成,以及需要达到什么样的要求。再看看第二人物特征,人物特征 是保持人物一致性的一个关键要素,因为 ai 生成会导致我们的人物频繁发生变化,所以我们一定要控制好提示词的书写,我们可以让 ai 为我们生成 角色的服装外形、场景特点,我们在这里让它生成剧本中每一个人物的人物设定, 需要具备服装外形、性格、行为特点等等。然后我们查看一下人物设定,我们的云袖身着一件发白青衫,衣服上打满补丁,外貌清瘦,肤色白皙,有一股书卷气。再看我们的狐狸, 分为狐狸形态和少女形态,在提示词的使用之中,我们通常只需要将服装以及外形特点输入到我们的提示词当中,就可以很好的生成,然后呢就来到了我们的分镜,制作 分镜决定了等会我们纹身图和涂色视频的流程,我们可以对脚本输入增加镜号,画面描述,镜头运动时长,对白音效等等, 让 ai 为我们生成更为详细的分镜脚本。我们可以看看生成好的分镜脚本是有着镜号这段时间主体是谁, 他在做什么,整体的环境是怎么样,包括镜头运动,他是特写, 从笔尖缓缓拉开至全景是一个这样的状态,以及他的音效,笔尖的沙沙声,这些内容都是我们进行 ai 视频生成的参考, 我们觉得有哪些不满意的地方,也可以让 ai 帮我们再修改。我们可以看看后面的这些镜头整体是非常完整,那么有了我们的分镜脚本之后,就只剩下最后的一个内容,那就是制作我们的分镜图,而分镜图 又是靠提示词来进行生成的,所以提示词该怎么写就是重中之重,它就会决定我们整体的一个画面质量。提示词需要包括几个内容, 首先第一个是风格限定,整个视频中所用到的所有图片,他们的风格一定是统一的,这样才能够保证我们视频的一致性, 所以说风格我们要放在题的最前面。然后就是视角构图,这个决定了我们画面内容展示的方式,我们的每一个镜头都是需要有不同景别来进行切换的,我们不可能一直用一个特写镜头,第一个镜头是特写,第二个镜头是特写,或者一直用全景镜头 一定是全景、近景、中景特写,这样子来回切换,才会有视频的流动感, 我们的画面才会生动,不至于过于呆板。再看下一个主体描述,这个就是说我们的画面内容,画面里面这个人长什么样子,他有什么特征,他要做什么事情,这个就是我们的主体。 再到我们的背景设定我们的画面主体周围的环境是一座破庙,什么样的时间, 是月光洒下来还是大白天,是春天还是秋天,黄昏还是傍晚,这些就属于我们的场景描述,场景能够渲染视频的一个氛围,再到我们的细节修饰,观影色调,以及这两次这些主要是 辅助我们画面生成的。就比如说人走过是不是有脚印,那么这些都属于我们的细节。光影色调则是一种美感的体现,像月光与烛火交织这一种感觉就给人一种朦胧感。以及我们的质量词,提高我们的画面质量,高清细腻 细节要多,通过这些提示词逐步提高我们的画面质量。通过以上这些方法,就能够得到一份完整的分镜头提示词和一份高质量的故事脚本。拥有这两个东西之后, 就可以进入到我们接下来的环节,我们下节课将继续讲解纹身图的内容,那么我们下节课已经了解了故事剧本该怎么写,以及我们需要生成哪些内容,那么这节课就来到了我们的纹身图环节,在这里面像豆包吉梦、可怜这种是属于简单一点, 没有什么使用门槛的。举个例子,以极梦 ai 生成为例,我们只需要在它的输入框里面输入我们之前设置好的提示词,框键、风格,人物主体,它的外观 场景,它的动作,然后输入到输入框里面,然后使用极梦 ai 生成,只要点击一下 就可以生成,像这样的内容还是非常方便,也可以使用我们的 s d 来生成,也就是 stability fusion。 使用这款工具是需要一定门槛,那么这里为了方便演示,我就直接使用豆包来进行生成。在这里 我将画面风格统一为奇幻高清动画,因为这样的画风我更加喜欢一点,你可以按照自己喜欢的画面风格去生成,我们依次生成四到五个镜头,我们可以来到生成好的这个画面里面像有一些内容其实是不错的,我们在里面 找到觉得合适的内容就保存下来,像这一张就明显过于浮夸了,像这种我们就要单独的对第二张重新生成,然后我们在接下来依次的生成我们之前产出的所有分镜图片。其中要注意我们对于 生成内容不满意的地方也可以进行修改,就比如说像这里这一张画面就完全没有什么看点,那么我们将那时间改为白天近景构图,再来看看这一张就明显要好很多。 对于比较满意的图片,我们可以点击变清晰,像这个功能其他的 ai 深度网站都有。通过这些设定好框架的提示词,我们就能够生成整体一致性比较强的 ai 图片。我们也可以通过提示词内容生成一个完整的产品图片, 像这样挑选出其中表现效果比较好的几张,作为我们之后涂上视频的手帐图片。我们的整体的提示词内容一定要严格按照设定好的框架来书写,对于不满意的图像,我们可以多次生成,这个是需要耐心的, 又或者你想要对其中的某一个部分进行修改。像这里我就将原版的赤狐改成了白狐,为了避免画面的单调,后续我还生成了一些空镜头,也就是没有人物只有场景的图片作为画面的过渡。这样子我们就把我们所有需要的分镜头图片生成好, 然后再为他们重新命名,设置一下排序, 等会就可以进行我们涂鸦视频的操作。如果你觉得有收获的话,不妨点赞加关注。下一节课我们将讲解如何将这些静态静止的图片 转化为动态的视频,我们下个视频见。哈喽大家好,欢迎大家来到我们的 ai 视频全流程解析系列课程,今天就跟大家讲一下 图声视频的具体操作。我们来到极梦 ai 这里先来看一下,这里展示了很多其他用户生成的优秀图片和视频,我们可以看一下,比如像这个给人一种很梦幻的感觉,再看看这个视,这种就相当于一种文字特效,像之前比较火的缩缩场景, 也可以来到他的短片这里,我们可以看到这里有很多优秀作者发布的作品,这些都是由 ai 动漫 ai 的 创意文旅片, 还有这种带有梦幻感的 ai 短片, 整个效果给人是一种非常舒服的感觉。那么像这些 ai 视频该如何生成?我们可以来到下方的提示词输入框,点击这个按钮,切换视频生成模式,然后就可以将我们的文字粘贴到这个输入框里面, 这里我演示一下,让豆包给我们一段 ai 视频生成提示词,我们复制一下这个,第一个将其粘贴到这个输入框里面,这里可以选择我们视频生成的模型,有 s 二版本,三点零版本,还有 pro 版本,越新的版本 所需要的灵感值也就越多,这里我们选择视频三 pro 版本。这个十六比九则是我们的视频比例, 在这里面我们可以选择十六比九,一比一,九比十六这样的比例。时间我推荐大家选择五秒,因为十秒比较不稳定,而且也比较浪费积分。那么我们点击一下生成按钮,就可以在侧面栏的生成里面找到了, 我们点击一下,我们可以看到视频已经生成出来了,我们看一下效果怎么样。可以看到整个画面场景是非常梦幻,我们的视角往前推入, 一个带着翅膀的小鹿向前慢慢走来,后面云海之上还有一只巨大的鲸鱼,整体的画面是比较梦幻的。 视频生成好了之后,还可以在我们的右下方对它进行更多的其他操作,比如说对口型给它增加 ai 音效,对它进行补帧,也就是说让画面更加的流畅,提高分辨率。因为我们现在生成了一个视频,看着还是有点模糊的,对于追求更高清 更高细节的小伙伴们来说,这个画质是远远不够的。这里还有一个 aip 院,它能为我们节省大量的时间,但是有时候可能会出现不太能满足我们想要的效果,对效果不满意也可以对它进行编辑或者再次生成, 但是那样的话是需要花费额外的灵感值的。虽然说 a a 可以 通过文字直接生成视频,但是这样的效果很明显,不能完美的传达我们的意思,所以说我们更多的还是使用图声视频的操作。这里我们让豆包为我们生成一张动漫图片, 一个女生在骑着单车,我们让豆包为我们提供图声视频的提示词, 我们输入这样的一段内容,将第一个箭头复制一下,拷贝到我们的极光 ai 输入框里面,可以点击这个加号上传文件,也可以直接将我们的图片拖入到这个加号当中,然后我们点击生成,那么我们可以看到生成好的视频整体的效果是不错的, 那么这就是我们使用首帧里面生成视频的方式。接下来看看我们如何利用首尾帧来生成视频呢? 这里我用这样的一个手针图片,是一个粉红色的一个场景,然后有一些绿叶,再用这一张 两个草莓碰撞在一起,水花四溅的一个场景。我们在出物框里面输入这样的一段提示词,点击生成,点进去看一下,他将我们的手针图片和尾针图片很好的衔接在了一起,同时识别了我们提示词当中 所需要的内容,它产生了这种碰撞的效果,看起来还是比较有视觉冲击力。平时使用图册视频当中有很多需要手尾针才能够顺利生成的视频, 因为它的前后差别比较大,如果你仅仅只用手针的话,生成的内容是很不可控,那么通过我们刚才讲述的图册视频的方法, 我们就可以像这样开始我们整个 ai 动画短片的生成了。这里举几个例子,比如说我们以这张图片为例,让它生成一个视频,我们可以来解析一下这个提示词,可以看到人物的主体动作,镜头语言以及细节 光感描述。通过这样的提示词,我们就可以生成像这样的一个视频,然后生成好这个视频之后,再给他提高分辨率,然后逐一生成。通过这些步骤,我们就可以得到一份生成好的视频片段,这里我们可以看一下。 下一节课我们就将这些视频片段组合起来,成为一个完整的动画短片。如果这条视频对你有帮助的话,不妨点赞加关注,我们下节见,拜拜。 那今天我们来讲一下短片的配音该如何完成。首先我们来生成我们的短片的旁白,这里我们给 ai 输入指令生成故事旁白,可以看到 ai 就 生成了这样的一段文案, 那么这段文案其实是有点笼常的,我们将它精简一下,最后得到了一段这样的比较简短的文字,我们可以看一下差不多两百七十多个字,因为我们最后要生成的一个 一分钟左右的 ai 短片其实是很接近的。那么第二步就是将这样生成好的文案通过配音工具转化为短片的配音了。那么该如何完成这样的操作呢?我将在这里讲解一下我平时经常使用到的工具。 那么我们打开这样的一个网站,我们可以看到这里就是它的一个功能界面,有我们转语音音频、编辑语音、转换歌声、转换音色、克隆等, 那么我们要将一段文字转换成好听的故事配音,该怎么做?就是要用到我们的文本转语音功能,其实我们的默认界面就是这个文本转语音,我们可以在这里面完成我们短片配音的工作,这个位置就是我们的文本输入框, 我们将刚刚生成好的文案输入到这个输入框里面粘贴进来,然后就到了一步比较关键的操作,我们要选择合适的声音来生成这些文字, 像这种工作以前一般都是由配音演员来完成的,那现在有了 ai 工具之后,我们能很轻松的完成这样的工作。我们点击这个选择角色按钮,在这里面我们可以看到有很多的声音, 男女老少都是可供选择的。那么我们想要的一个故事短片的声音应该是怎么样的?我是想要一个比较有磁性的 声音又好听的一个女性声音,我在这里面挑选了一下,我觉得第二个就不错, 我们可以听一下他的声音是怎么样的。心若止水,勿与俗世纷扰,淡然处之,听起来感觉还是很不错的,这里我们点击这个选用即可。文字语言选择默认的中文,这个地方其实是比较关键的 情绪选择,像我们平时说话肯定是有对应的场景, ai 配音也是一样的,我们是一个短片的旁白,那么我们就在这里面选择对应的一个解说旁白,可以试听一下,好是时间的艺术, 泥土太干则裂,太湿则塌,感觉还是不错的。那么这个语态强度指的是什么意思?其实就是我们的声音平时是有抑扬顿挫的,有说话的重点,那么你的这个语态强度越高,则更加的饱满,那么这里我们选择默认即可。 至于语速语调,你可以看你生成后的声音是否符合你的需求,觉得语速慢了,那我们就调快一点, 这个可以灵活调整,那么这样我们就可以点击生成,我们看看生成之后的效果。我们来播放一下寒夜霜月漫过荒郊破庙蛛网缠绕,断梁残烛与古旧竹台燃烧,火苗侵占。这样的一段声音就是比较符合我的需求, 无论是他的一个抑扬顿挫也好,还是声音的音色都是符合我们一个弹白的标准,那么这样就完成了我们一个短片配音的工作。 这个时候有人就会问了,假如说我想要生成对应角色的声音呢?而且它的嘴型还要和我们生成的声音要匹配,这个时候该怎么办?我们来到题目 ai 这里,点击 数字人功能,导入我们的角色照片,再拖入我刚才随机生成的一段音频,你们可以听一下,你觉得今天的天气好吗?我觉得相当不错,在这里选择音频原声,点击确认,然后生成, 你们可以看到已经生成好了,我们播放看一下。你觉得今天的天气好吗?我觉得相当不错,你觉可以看到我们的口型和生成的音频是一一匹配的, 那么这样子就实现了一个对口型的功能,但是像这里我们输入的是一张图片,那么假如说我们要将我们的视频里面的人物匹配我们的声音,可以来到可灵 ai 这里点击视频生成,在这里面有一个对口型功能,我们点击进去, 在上方输入我们的视频文件,在下面上传我们的配音音频,我们就可以实现让视频中的人物匹配我们的声音了,那么这就是我们短片配音的全部流程,对你有帮助的话不妨点赞加关注, 我们下节课将讲解如何使用 ai 工具来生成配乐以及音效,下个视频见。哈喽大家好,欢迎大家继续来到我们的 ai 视频生成全流程解析系列课程, 那么我们之前已经了解了 ai 生成短片的一个大体流程,那么我们今天就来讲一下如何使用 ai 来生成我们的短片音乐。首先第一步先来生成歌词,我们来到我们的大圆模型这里,点击这个深度思考,然后参考我这个模板来进行生成,这个模板有什么特点呢? 他可以参考你喜欢的歌手的曲风特点,以及流利构建节奏,写词风格等等。那么我们让 ai 帮我们生成,我们可以看一下它是如何构建这一首歌曲,可以看到它生成的过程是非常细致,看到它生成后的歌词 整体有着古风的元素,待会我们就要用我们的 ai 工具将这样的一段歌词生成我们的古风音乐,我们复制一下,我们打开这个网站注册之后呢,他会给我们两百的创作点, 可以让我们生成好几首歌曲,而且它是每天刷新的,我们来到这个文本生曲这个部分, 点击歌曲分为两种模式,专家模式和普通模式。专家模式呢指的就是我们可以输入我们生成好的歌词,放进去之后呢, ai 来给我们生成歌曲,也可以使用普通模式直接描述这段歌曲, 他同样会给我们生成音乐。这里面我们先测试一下专家模式是怎么样,我们将我们刚刚生成好的歌词粘贴进去,可以看到下面有几个选项, 风格、和谐调性等等,这个我们使用 ai 推荐即可,包括速度和作品时长。我们先使用默认模型,这里它有三点五,三点零,那么不同的模型有不同的时长限制, 这里呢我们选择三点零作为我们的生产模型,然后我们点击这个开始生产按钮,可以看到已经开始生产,我们稍微等待一会,我们可以看到已经生产好了,来试听一下, 可以看到整体的效果还是很不错的,无论是歌手声音的质感,还是音乐的流畅度,这些部分都是在线。那么像我们生成的这个 ai 动画短片呢,我们只需要生成纯音乐的背景就可以了。 我们来到纯音乐这里,在这个位置呢我们使用普通模式,然后描述一下你对这首纯音乐的期望是什么,比如说我在这里想生成一首古风舒缓的音乐,然后我们点击生成,可以看到生成好的,我们来试听一下, 可以感觉到它结合了我们古典弦乐的特点,整体呈现呢是一种古风的感觉,那么像这样的音乐就已经完全足够作为我们的短片配乐,按照这些操作 你也可以生成属于自己的个人音乐,那么除了这个办法以外,我们还有没有其他软件可以帮助我们生成短频配乐呢?可以使用剪映,在剪映的音频这里点击进去之后有一个 ai 音乐,这里面可以选择音乐类型,有人声歌曲和纯音乐, 这里面我们选择纯音乐,然后呢同样输入刚才的音乐描述,古风舒缓,我们在这里面呢点击开始生成,我们可以看到已经生成好,可以播放一下听一听, 那么通过这样的方式同样可以生成我们的 ai 音乐,但是呢这个需要消耗积分,所以说我更推荐大家使用 上一款软件,它是由每天的免费额度足够我们使用。我们刚刚已经讲解了如何生成我们的 ai 音乐,那么又该如何生成音效呢? 其实在我们视频生成这里就可以生成我们的 ai 音效,我在这里输入鸟在天上飞,然后我们点击进去之后,可以看到现在整个画面是没有声音的,那么我们点击这个 ai 音效,我们来一一听一下这几个音效, 可以感受到整体的一个音效其实是比较接近我们生活当中的,但是呢经常会有一些不确定性, 所以说还是需要我们自己来手动的找音效。这里呢给大家推荐一个音效网站,它的音质还有效果都是非常好,我们这里可以随便视频几个,比如说这个敲门声, 再比如说这个 可以感受到整个声音是非常真实的,它里面还有不同的种类,涉及到我们生活方方面面的各种音效都有,那么在这里面找我们需要的音效是非常方便的,而且质量很高。 那么这节课呢,就给大家讲解了如何生成我们的 ai 音乐以及 ai 音效。下节课呢,我们将前几节课的成果整合成最后的一个片段,实现我们最终效果的展示, 那么这节课呢,就将将我们前面几节课所生成的素材剪辑成最后的一个成片了,那么来看看我们是怎么操作的。首先第一步我们要选择适合自己的剪辑软件,通常的来说有这么两款软件,剪映和 pr, 剪映适合新手,容易上手,好操作。 pr 呢则门槛较高,需要一定的时间成本来学习。那么这里呢,我们直接选择剪映软件下载,我们可以直接来到剪映的官网这里,点击立即下载。那么我们打开剪映之后呢,如果想学习一些基本操作,可以直接在我们的右上方,这里有一个教程, 我们点进去这个教程里面。哈喽,各位同学好,我是报告晓峰,这里已经有了我们常用的剪辑功能解析,比如说时间线转场 特效,贴纸加字幕等等,那么学会这些基础功能之后,我们就可以正式的来开始我们的剪辑了,我们点击开始创作,然后呢将我们之前生成好的视频素材拖入到下方的轨道栏,这里 按照我们的动画脚本对它进行排序。这里讲一下常见的基础操作,这个按钮呢就是分割, 我们将时间线拖到你想要分割的位置,点击一下,这样的话这一段视频就被分割成了两个,那么我们随便删除一个 可以看到就完成了我们最基础的剪辑操作,然后再拖入我们的短片旁白以及短片配乐,这里我直接展示一下我剪辑完之后的视频效果,我们对照着这些做好的效果来讲解一下我的剪辑思路。 寒夜霜月漫过荒郊破庙蛛网缠绕断梁。首先在我们的短片开头有做一个封面, 那么这种封面该怎么做呢?我们可以选择在这个短片里面你比较喜欢的某一个瞬间。然后呢来到我们的豆包这里面,让他给我们生成我们短片名称的艺术字体。我们点击生成之后呢, ai 就 会自动帮我们生成四张字体,内容为月下壶生的字体图片。 这里面我们可以选择自己喜欢的,也可以多次抽卡,然后可以在 ps 里面后期处理一下,调整一下比例,就可以导出了装月漫过荒郊破庙这个字体呢,我们只需要点击我们的音频素材, 右键选择识别字幕歌词就可以了,然后他可能会出现一些错误,可以直接在这里面点击编辑,就比如说这样还是很方便,可以看到我原本的完整音频被我分割成了很多段, 主要是为了让我们的文字匹配上画面。这里的常用办法就是呢,将原本的完整音频 在不同镜头下进行切分,破庙蛛网缠绕断梁,残烛与古旧竹燃烧火苗侵占。可以看到 音频和视频画面都是一一对应,云袖身着青布长衫,笔锋在粗糙的宣纸春来赶考日白狐骤然化。像这一部分的音效其实都是在生成 ai 视频的时候 自动生成的,只是我将这个音频分离出来,可以看到他们的命名是一样。那么通过这样简单的方式呢,我们就完成了视频的剪辑,其中包括视频片段的处理、 生成字幕以及我们的音频和画面一一匹配。最后让我们再一次欣赏一下这个音乐短片。寒夜霜月漫过荒郊破庙,蛛网缠绕,断梁 残竹与古旧竹台燃烧火苗侵占书生。云袖身着青布长衫,笔锋在粗糙的宣纸上沙沙游走,眼角瓦片松动。白狐探脑,景丁岸上卖饼,云袖推饼轻笑,分你一半。 自此米缸见底时,门槛总限。野兔有白狐相护,云袖免受激扰。 寒冬腊月,云袖扫雪,白狐相伴,一人一壶,蜷缩草垛取暖。春来赶考日,白狐骤然化作白衣女子阿九 云秀又惊又喜,相谈甚欢,递上胡为所致神笔。指尖相触,情愫暗涌。云秀执笔画尽长安,阿九却在破庙独守春秋。 数年后,官袍染尽繁华,故人已随胡名消散,风中为记。当年庙前有家人在旁, 没想一别,竟是无缘再见。那么这就是我们 ai 动画短片生成的全部过程。接下来,我们还将探索更多 ai 视频的最新玩法。还在网上搜 ai 视频如何制作吗?想不想只用 ai 免费软件,一个人就完成一部动画短片,甚至开启你的 ai 视频副业之路呢? 今天,这个超详细的 ai 视频制作教程他来了!我们将一起从 ai 视频脚本创作,到 ai 图声视频,再到最终的 ai 视频剪辑和配音,全程揭秘 ai 视频是怎么做的?这期内容我会带你搞定 ai 视频制作的四大核心环节, 第一,没灵感,文笔不好, ai 如何帮你写出专业的 ai 视频分镜脚本呢?第二,不会画画, ai 如何把文字一键变成惊艳的 ai 视频动画呢? 第三,没有动画基础, ai 如何让你的分镜图片流畅的动起来呢?第四,不会剪辑,更不会配音。怎么才能把所有的内容串成一个完整的故事短片呢? 内容很详细,涉及到的所有 ai 视频工具都完全免费,而且国内可用,要不咱先收藏下?准备好了吗?让我们开启这场零成本的 ai 造梦之旅吧!第一步,我们来解决创作的源头, ai 视频脚本关键就两步,选对工具,下对 ai 视频提示词。 在 ai 写作这块,你可以用 gpt, 也可以直接用国内的 kimi 或文心一言豆包,随便挑一个合演员的就行。无论你用哪个,诀窍都是一样的,把它当成一个聪明的导演助理。比如我之前发布的千手观音的由来就是这样给 ai 下达指令的。第一,给角色,你是一名知名的短视频导演。 第二,给乐舞创作一个关于千手观音由来的神话短片。第三,要结果,需要专业的 ai 视频分镜脚本和旁白, 全程大白话,他就能瞬间点到你专业。结果这套指令模板我也准备好了,你改改主题就能用。拿到脚本后,我们把旁白留下配音镜头画面描述就是我们下一步的绘画蓝图。 有了文字,怎么把它变成画面呢?很简单,我们继续让 ai 把镜头描述翻译成 ai 绘画能听懂的 ai 视频 prompt, 这次我们换一套指令,让 ai 扮演 ai 艺术助理,把脚本里的镜头描述一句句丢给他,就能生成专业的绘画提示词。 分享一个小技巧,想让镜头更丰富,可以把一句长的描述拆成几段,这样一个小动作就能让你的 ai 视频短片镜头数量翻倍。拿到提示词后,所有的文案工作就结束了,接下来开始真正的 ai 视频创作。 在众多 ai 视频生成软件里,我首推 comfyui, 因为它能让你一键套用工作流,直接跳过复杂参数设置,而且完全开源免费打开 comfyui, 把我分享的分镜画面工作流拖进来, 你唯一要做的就是在这里的绿色框框里粘贴我们上一步生成的提示词,然后点击执行,看,一张高质量的分镜图就出炉了。不断更换提示词,就能生成所有的静态分镜画面。接下来就是最激动人心的环节, ai 图声视频, 还是用 cfui 换上我的第二个工作流,分镜转视频,上传你画好的静态分镜图片,接着在这里复制粘贴一段视频运镜提示词,接着点执行,稍等片刻,图片就动起来了,变成了流畅的 ai 视频动画。这个工作流我还加了插帧功能,能让视频更丝滑,你直接用就行。 不断重复这个过程,直到所有分镜都变成视频,我们就离成功不远了。最后一步,我们使用剪映来完成最终的视频剪辑和视频配音。 第一步, ai 配音还记得最初的旁白吗?复制它,打开剪映,新建文本粘贴进去,在右侧找到朗读功能,挑选一个 ai 声音,点击一下 ai 视频配音,怎么弄的,这个问题就瞬间解决了。 第二步,剪辑成片,把生成的 ai 动画拖到时间轴上,调整长短,让画面和声音对齐,加个转场,再从音频库里配个背景音乐,氛围感就拉满了。第三步,智能字幕所有剪辑完成后,点击智能字幕, 剪映会自动生成字幕,你只需要检查一下字幕中有没有错别字就行。 ok, 点击导出。恭喜你,你的第一部 ai 生成视频作品诞生了!这下你总该知道 ai 视频如何制作了吧?如果这期 ai 视频教程对你有所帮助,别忘了点赞收藏一下, 学会这个完整的 ai 视频流程,这不仅能满足你的创作欲,未来更有机会通过 ai 视频变现,赚到你的另外一份收入。 好的小伙伴们,本期视频分享就到这里,视频里用到的所有软件网址、指令模板和工作流我都打包整理好了,有需要的小伙伴可以评论区自取。谢谢大家,我们下期再见!

ai 漫剧赛道的大结局终于来了, comfyui 这个工作流的出现,直接宣布了比赛结束,只需把小说丢进这里,大模型就能自动接管一切推理剧情,生成脚本,无需去研究任何复杂的提示词,也无需辗写智能分镜指令,它能直接生成连贯的电影级分镜剧本。最关键的是,它彻底解决了人物一致性的千古难题, 一键生成人物三式图,场景以及道具,让主角从片头到片尾长得一模一样,还能一键使用任何想要的画风,古风,赛璐璐,国风三 d 日系动漫全部应有尽有,无须复杂操作,无需专业基础,彻底解决 ai 千古难题,全程云端运行,不失电脑配置,就算是小白也能制作出像这样的大片效果。 工作流已经全部整理好了,想要的暗号六百六十六直接给你。好的同学们好,我是阿金老师,接下来呢,我会带着大家啊,全练卤全流程的,我们来学习关于 ai 慢剧的整个制作流程。那么呢,我将会分为四节课程啊,关于 开始的剧本,然后呢生图,还有生视频和剪辑这四大板块,来给大家进行一个啊比较详细的讲解。那么首先的话呢,今天我们先学习呃,关于我们一个剧本啊,我们到底要怎么拿?其实在现在目前人工智能这么去这么发达的一个时代的话呢, 呃,对于制作短剧啊,制作慢剧啊,其实成本越来越低,效率越来越高,所以说真正的一些头部的话,他们已经开始大量的在网上去采购剧本 啊,那对于我们来说的话呢啊,没有办法有那么大的一个资金啊,去买剧本的话,那包括在啊番茄上面,你可能要去买一个剧本的话,都 是啊,几万,十几万,几十万的都有啊。那我们目前要去学习做一个慢剧的话,我们可以先去尝试用语言模型啊,帮助我们去写剧本。 但是我们用语言模型的话呢,写出来的剧本可能会根据我们自己的一些需求啊,再进行一些调整和修改啊,最终出来的效果的话呢,也还是可以不错的。那么呃,对于语言模型的话呢,像我们常用的像 data cpt 啊, deepsea, 豆包啊,这些都是可以用的啊, 不去做一个强制的限制。但是我这里建议大家的话呢,我们可以用豆包,用我们国产的模型的话,对于我们的语言的理解能力的话会更加好一些。那么首先的话呢,呃,我们先打开豆包, 那在豆包上面的话呢,我们要去让他进行一个剧本的写作的话呢,那么我建议大家啊,我们可以在他这里选那个选择专家模式啊,这样子的话呢,他会对于我们的一些需求的话会有些更深层次的分析。那么首先我们要告诉他我们这个剧本呢大概要写一个什么呢内容。 那这里呢,我给大家一个小建议啊,在人工智能时代的话呢,我们要养成一个好习惯,就是不管你在干什么,你在开车啊,你在上厕所呀,你在干任何事情的时候呢, 如果说突然蹦出来了某个灵感的话,那么这个时候最好啊,赶快用你的手机把你的灵感记下来。这是在人工智能时代一个非常非常重要的一个习惯啊,那么呃,这里的话呢,我可能某一天有一个灵感啊,我想做一个未来废土风的机器人大战 啊,那我要做一个一分钟的短片,那这个内容的话呢,是个非常强大的机器人,拥有了自我的意志,一个机器人呢,对抗十万机械大军啊,旁白呢啊,在那个视频的旁白的话呢,是主角的字数啊,那个富含哲理。那么首先我们用大语言模型的话,要注意啊,你去控制大语言模型呢,我们往简单的方法来说的话,你要告诉他两件事情, 就第一件事情就是你要干什么,对不对?那我要干什么呢?那看上面这块内容的话,我就要做一个这样的一个废土风的机器人大战的一个一分钟短片,对不对?然后吧啦吧啦,是不是?然后呢?那告诉他我要干什么了以后,那你要告诉人工智能第二件事情就是你要怎么给我干 啊?那怎么干呢?你要给我详细的角色设计,这个很重要,因为我们要去做一个 ai 慢剧或者是一个短剧的话呢,那角色设计的话,那做出来了以后,那可以保证我们的人物一致性, 那并且给我生成二十四个分镜头脚本,那这里为什么是二十四个分镜头脚本呢?首先因为为了节约大家的一个时间啊,我不会去做一个太长的一个剧,对吧?我就拿一个一分钟作为一个啊演示。那么这一分钟的话呢,首先目前啊我们用 比较好的大模型的话,那么目前你生一个视频也就是十五秒呢,那么对于我们分镜头的一个把控的话,这里给大家一个建议啊, 分镜头的话呢,一个视频十五秒,那每个视频差不多就是十五秒钟,给到六到十二个分镜头,这样子是最合适的。太少了的话呢,对于剧情画面的把控的话呢啊,没有那么完整,那 多了的话呢,又太过于繁琐麻烦,对不对?那六到十二个是 ok 的, 那么所以呢,我选选了一个比较低的六对吧?那 既然是四个视频的话,那么我们要去每个视频要去给到六个分镜头的话,就四六二十四对吧?所以首先我们在做一个视频之前的话呢,我们要对我们的一个分镜头啊,要有一个最基本的一个把控,对不对?然后呢告诉他了以后,我说要给我详细的角色设计生成二十四个分镜头脚本要求画面超逼真场场景宏大啊, 画面纵深感强,打斗效果那个炫酷,这些都是我的一些啊基本的需求,这也不是非常非常专业的这种提示词,那对于新手而言的话呢,就这样的一段话的话啊,应该是能够写的出来的,那么 ok 把这段话呢,我就直接给他复制下来, 复制完了以后呢,直接粘贴到我们的豆包的大圆模型里面去,直接让他帮我们生成啊,让他开始进行一个思考,那这里的话呢,我就不等待他慢慢思考了,因为专家模式 花费的思考过程的话,其实还挺长的。那这里的话呢,给你们看一下啊,我用同样的方式的话呢,在呃前面的话呢,已经生成好了一个这样的一个脚本,那么首先我们来看一下这个脚本,他给到了我们什么内容呢?首先我们来看首先 本身的一个标题主题,对吧?整个核心世界观的一个设定,包括很重要的就是一个原创的角色设计的一个详情,对不对?包括这个核心的设计人物长什么样子?身高多少 啊?装甲是什么样子的?头部是什么样子的?有什么样的一些武器,还有些核心的一些特征,那么在这里的话呢,一定一定啊,如果说我们的大圆模型,那没有给到我们这些 比较详细的这些外贸特征的话,那么我们一定要跟大模那个大圆模型要去沟通,让让他给我们更加详细的一个啊,外贸服装特征这三个重点属性啊,那给到我们的以后的话呢,那么接下来给到场景设计了,那重点来了,那就是我们的一个分镜头脚本, 那分镜头脚本的话呢,他的一个核心就是要把控我们的整个剧情,把控我们的所有的画面,所以这是最重要的一个板块,也是我们后面视频产出的一个核心。那么我们来看一下,在下方的话,他给到我一个二十四分镜头的一个完整的脚本, 那么我们直接把它展开,我们大概先来看一下,首先你会发现在这个里面呢,他会给到我比较重要的几个,一个一个东西啊,首先运镜方式 看见没有?那运镜方式的话,他会告诉你,我们大概这个画面的镜头是在这一帧,在这一个场景里面是以什么样的一个方式去进行一个拍摄,然后还有呢我们的画面内容,还有我们的一个音效是什么样子的,然后 台词旁白是什么?然后呢他还很贴心的,因为在前面的给他的一个提示词里面的话,我是有一个要求,我们来看一下, 并且给我用于 ai 生成的提示词,对不对?那我们的大元模型很聪明,是不是?他知道我要用于生成这个 ai 的 图片和视频,那直接把这个生成提示词就给到我了,这样子对,我们后面去做图片的话啊, 会非常的方便。那么 ok, 那 么整套的话呢,我们大概的去浏览一下,看看里面有哪些啊,觉得自己不太满意的地方啊,剧情不满意的,或者是一些啊,画面打斗不满意的,我们可以进行一些修改啊,同 像也同样也是可以交给我们的这个大圆模型。然后呢我们再往下面翻啊,你会发现他还很贴心的给到了一个什么呢?他有一个通用体式词, 那这个体式词是干什么用的呢?就是我们在用上面的剧情这个分镜头脚本啊,去做图片的时候,做分镜头的图片的时候对不对?那如果每一个分镜头后面都要去写一个这么长体式词的话,对吧?那很繁琐很麻烦,那我们可以直接把剧情放到里面去了以后,直接用下面这个体式词,那所以说 能够让我们的大约模型给到我们这么一个非常专业又详细的啊,这么一个分校的脚本的话呢,我们就可以直接开始来制作啊,接下来的我们的一个图片板块了,那么这节课呢,先讲到这里,下节课呢给大家讲关于生图方面的一个内容。 那么首先呢生图啊,他有两种比较常用的形式,就是文生图和图生图,那这两种形式的话呢,不是单一使用啊,你可以给它进行一个组合的使用。关于平台方面的话呢,那我建议大家如果是初学者的话呢,你可以用这些统筹的比较好的一些平台,比如说像像利不利不这种, 为什么呢?因为他有大量的一些风格的参考,那这个要怎么去使用呢?接下来我带着大家来学习和了解。那么先看一下我们在前面的话呢,已经让我们的大圆模型对不对帮我们生成了这么的一个完整的一个剧本和分镜头参考,那么在前面的话,已经有了我们的人物角色的设计, 人物角色的话呢,他有些详细的介绍,包括他下面直接给到了我们可以直接用于 ai 生图的提示词,对不对?那么这个时候呢,我们可以直接把用于 ai 生图的提示词给它直接复制下来,来到呢我们生图的工具里面, 直接把刚才的一个提示词复制粘贴上去,但是这个提示词里面虽然已经写了啊很多的这种风格的参考,关于一些细节的参考,但是呢由于我们这个用人工智能还是存在很大概率的抽卡性, 是不是?那么你很难去避免一次性就能升到你想要的,甚至你要升很多很多次,浪费资源,对吧?浪费时间。那么在这个比较统称好的一些工具里面的话呢,他一般都会有风格模型的参考,这个呢就非常重要了,我们直接点开一下,你会发现这个里面有别人已经做好的很多的一些风格的设置 不对,那么我们可以去看一下在里面的例图,那么你来看一下那人家通过这个模型的参考他做出来什么样的一个感觉,那我点开玉来,我发现,哎这个画面的话啊,这个形象的话,可能是我想要的啊,稍微卡了一小会,我们再看一下 来这个画面,哎,大概是我想要的这个感觉对不对?或者是我觉得感觉不好,没关系,那我就换是不是,那选到我认为 ok 的 一个啊,画面的质感了以后,那我们来看一下在下面的一个风格参考里面 啊,就出现他了,那么这个时候我们做出来的风格就会非常非常和他啊,这个选择的风格参考啊会比较的相似。那么这个时候的话呢,我们直接去点击生成就可以了。那么在一开始呢,建议大家啊, 可以先生成一张定妆照,也就是我们大概想要这个机器人啊,大概长什么样子,那么我比较喜欢这种赛博朋克风的感觉对不对?那么你可以在里面去加上,哎这个机器人的话,我想要有赛博朋克风的感觉,去增加一点提示词也是 ok 的。 那么这个时候呢,我就生成了这张定妆照,我觉得这张定妆照的话是我想要的感觉, 那么接下来呢,我们拿到这样定妆照,把它作为一个角色图片的设计里面去直接点击我们作为参考图, 我们来看一下,那么接下来的话呢,我要去让我们的人工智能给到我们一个什么样的具体的图片呢?首先你要告诉人工智能,我需要这个角色的啊,这个参考图,角色的一个什么,一个面部的特写,还有呢人物的正面,侧面,背面的三式图。 首先其他的东西啊,先暂时可以不用管,但是你在前期去生成角色形象的时候,一定要有这四个形象,一定有这四张图片,人物的面部特写,还有三十图,正面,侧面,背面。那其他的话呢,根据你的需求,他有些人物战斗姿态对不对?还有包括人物一些装备细节,材质细节这些东西的话呢啊,通过你的一些熟练了以后, 也可以让人工智能来帮我们把控这些细节,那么你只要把这张角色设计图出来了以后的话呢,那么直接在后期投喂到我们出视频的工具里面,它就会起到一个非常好的人物一致性的一个把控。那这张图片出来了以后的话呢,我们接下来用同样的方法,把所有的角色都用同样的方法做出这么一张角色设计的图。 由于我这个视频的话呢,就是一个主角对不对?他对抗十万机械大军,那其他机械那个机械大军都是些小杂兵,长什么样其实没有什么太大的所谓,那么我们就直接只要他就可以了。但是如果你要去生成一个比较长的一个剧的话,那肯定有很多的角色,每个都要像这样子去详细的进行一个设计,那么 角色设计结束了以后的话呢,就有一个很重要的事情了,就是我们的分镜头的图片出现了,那么分镜头的图片图片的话呢,我们来看一下,我这里设置的是一个六宫格,为什么呢?因为前面给大家看到过,我们要去做一个一分钟的视频,所以我设置了二十四个分镜头, 对不对?那每十五秒钟的话,那就是六个分镜头,那所以说这个分镜头怎么制作呢?很简单,我们来看一下,在我们前面给到我们的整一个啊, 这个分镜脚本非常的详细,但是我们不需要后面的音效台词还有生成提示词,后面这些都不需要,我们需要什么呢?我们只需要画面内容,我们来看一下,我们只需要画面内容,你只要把从一到六的这六个画面内容,把它分别粘贴到我们的一个生图的提示词里面,我们来看一下啊, 来看一下,那这个里面的话呢,其实就是六个分镜头,我们来看一下,就是一二三四五六给他大概的编个号,那么这个时候呢,由于我们还没有给到他一个风格的提示参考,对不对?那么这个时候我们首先要把我们前面制作的这个什么啊角色的形象 把它作为一个参考图丢进去,那这个时候的话呢,就会根据这个角色的形象把它整个一个分镜头里面的一个啊一个设计 不对,那么这个时候人物一致性设计可以保证了,以后的话呢,那么接下来我们要去让它的一个画面效果更好的话,我们来看一下,因为在前方还记得吗?我们在用大圆模型生成的时候,我们下方有一个什么, 有一个通用的提示词对不对?那么也就是说这个通用提示词就是用来把控它整体画面的,你可以直接把这一整段提示词全部把它给复制下来, 粘贴到哪里呢?粘贴到我们刚才上面的六个分镜头剧情的下方,写一个画面体式词,把刚才的这个通用体式词粘贴上去,那这样子的话会让他的整个风格啊把控的会更加完美,那么结果的话呢就出来了,我们 一个十五秒的这六个分镜头的图片,对不对?虽然说他的一个排版的话,他可能有点没有那么细致啊,对吧?他有的图片可能稍微大点,稍微小点,这个问题不大啊,这个问题不大,在我们用一个呃声视频的后期的工具的时候的话呢,他可以通过提示词啊去避免一些这种小小 小瑕疵。那那么我们通过同样的方法的话呢,就直接把前面的所有的分镜头,我们一块一块的全部用同样的方法复制粘贴进去,前面是一到六,那么下面的话呢就是七到十二,然后接下来啊就往下面推,那把所有的这个分镜头的话呢,就 全部都把它做成图片,那么最后呢我们会得到四张有六宫格的分镜头图片,再加上角色设计的图片,那么我们的图片生成工作的话呢,就已经做好了,接下来就可以用这些图片来下一节课来教大家如何把它们变成一个非常帅的一个视频啊,那下节课见, 那生成视频的话呢,其实有比较好用的两种方式啊,一个是首尾针的方式,还有一个呢就是全能参考的方式。那首尾针呢?先给大家讲一下关于首尾针的一个啊,制作的一个逻辑啊。呃,其实很简单,就是一张图片是作为第一, 第一针啊,还有一张图片呢,作为最后一针,那这在这两张图片之间呢,发生的事情,你告诉人工智能就可以了,比如说像这一个视频给大家看,感受一下啊,先去第一张图片,对吧?就是一个 汽车的图片,这一张图片的话呢,就是在同样的场景下啊,一个这样的一个变形金刚机器人的一个图片,那么在这两张图片之间发生了什么呢?我可以告诉人工智能,赛车在行驶三秒后变身为机器人,整个变身过程呢,机械感强,变身的时候啊, 零件的变化细节啊,有特写,那么这是什么呢?这是告诉人工智能两张图片之间发生了什么,对不对?那后面呢,还要告诉人工智能一件事情,就是你要告诉他这个镜头是怎么走的,那镜头的话呢,我写的是全景接近景接三百六十度环绕加特写啊,最终 那个拍设定格,那 ok, 那 么根据两张图片,再加上一些比较简短的提示词的话呢,那我们来看一下他前后的一个啊,首尾针 ok, 对 吧?这个画面效果其实还是不错的,但是呢,分镜这个首尾正的方式呢,他的一个缺点在哪里呢?就是他太繁琐了,那 因为我们现在要做的不是一个小短片,对吧?我们要做的是一个剧,对不对?我们要做的是长视频,那么在我们前面的这个分镜头图片中,如果要用它来做分那个首尾正的方式的话,那么你就需要怎么办呢?把每一张图片全部给它单独的拆分开来,然后呢我们要做第一个镜头的时候,比如说我们打开前面 人工智能给我们写下来的二十四个分镜头,对不对?比如说我要做第一个镜头的时候,那第一个镜头怎么办呢?那你需要把它这个分镜头里面第一张图片它作为手帧,那第二张图片它作为尾帧,那再把它的一个第一个镜头的剧情 把它给告诉人工智能,然后再通过这两张图片加上剧情做出第一帧的啊,做出第一个镜头的画面怎么办呢?那你要把第二个图片变成什么啊?变成手帧,第三个图片变为尾帧, 对,然后再把第二个镜头的那些啊提置词画面,对不对?把它给放进去,那这样子的话,我们要去做六个画面的话,我们 等要一个一个图片的,对不对啊?把它给复制粘贴进去去做,这样子的话呢,非常的繁琐,非常麻烦,对不对?那在前期的话呢,可以教大家先用比较简单的方式就可以用到我们的那个啊, cds 二点零的全能参考模式,那全能参考模式的好处在哪里呢?你不需要一个个的去把它图片分开丢进去,你只需要啊给 给他一个整体的图片,还有角色设计的图片,再把他整段的六个镜头的剧情全部丢进去就 ok 了。那我们来看一下怎么来做呢?首先我们来打开 在下方制作这里啊,给大家看一下整个制作的一个图片,其实非常的简单啊,非常的简单,就是两张图片啊,一张的话呢就是我们的一个人物角色的设计,这个大家应该都记得啊,上节那第二个那个图片的话呢,就是我们的这个分镜头的这个图, 对不对啊?直接把这两个图片放进来,然后的话呢告诉我们的人工智能,告诉他啊,我们可以 at 他, 看到没有啊?我们的全能参考,最方便的是我们直接按住 shift 加字那个数字。二,我们怎么样可以 at at 的 话呢?我们来看一下 对不对?可以直接艾特图片,一是机器人主角图片,二呢是分镜头参考来告诉他了以后,然后以下呢是动画分镜头的脚本,那这个一二三四五六对不对?这个一二三四五六的话,就是在前面我们这边复制的这个所有的内容,但是后面提示词先可以不用啊, 后面这里视频生成提示词先,这里可以不用,为什么呢?因为我们先把前面这个部分台词啊,旁白啊、音效啊这个板块的内容,包括运镜的方式啊, 全部都复制粘贴进去。然后接下来呢我们把它的整体的风格的把控的话,我们可以直接用人工智能给我们生成的那段体式词,还记得吗?我们前面在做图片的时候,对不对也用到了这么一串 ai 视频生成的通用体式词,那么直接把这段视频生成通用体式词,把它给粘贴到哪里呢?粘贴到这六个镜头的体式词的下方,是不是画面体式词?看到没有?下面的话就是那个通用体式词,那上面的话呢,不用每一段都写体式词了对不对?毕竟我们的吉梦的话,他输入文字的话,只能输入八百字, 每一个都输入那个体式词的话呢,那不够写的对不对?那 ok, 我 们就直接把它的一二三四五六个镜头全部都给他放进来,加上通用体式词直接生成,但生成的时候的话呢,一定要注意尺寸,不要搞错了啊,我们常用的话呢,像是十六比九的横板,然后时间的话呢,一定要设置为十五秒, 对,然后呢,关于我们 cds 二点零的一个模型的话呢,如果有条件的话,可以用那个那个完全体的 cds 二点零,如果没有那么大条件的话呢,也没有关系,对不对?你用那个 fast 版本也是 ok 的 啊,对不对?有很多很多的平台我们都可以去啊,调取到这个 status 二点零的这个啊,这个模型啊,对吧?这个 fast 的 版本对不对?更加便宜一些对不对?也出图更加啊,出视频速度更加快一些,那么这里的话呢,我们就直接把它点击升成就 ok 了,那升成的时候呢,我们来看一下啊,整个画面效果的话,从头到尾给大家看, 我曾以为指令是钢铁之躯唯一的存在意义,直到我听见了不属于程序的心跳,他们说叛离者唯有湮灭。 我曾以为,哎,这个画面效果其实是不是还是挺不错的,对不对?还是挺不错的,那所以说我们可以用这样的方式, 接下来的每一个啊,我们的分镜头,我们都可以这样子把它给生成出来,那么我们一共有四张分镜头图片对不对?我们在前面的话,已经会要先把这四张分镜头图片把它做好,再把分镜头图片的话呢,直接保存一下,我们丢到集梦里面来,然后第二个视频的话呢,也是用一模一样的方式, 看到没有?把我们的一个角色把它给直接放进去,还有我们的第二组分镜头,就是我们的第七到第十二条镜头,对不对?直接把它放进去,然后呢同样的方式,一样的味道,一样的配方,我们直接在它的一个 三级头脚本里面对不对?把七对不对到十二,把它所有的内容全部给复制粘贴进去啊?那个 ai, ai, 那 个 ai 体质词不用复制进去啊,然后呢把 ai 体质词最后的放到下方对不对?从这个地方开始放到下方,一样的方式丢到里面,那第二段视频我们又做出来了,我们大概来看一下,可当十万, 可当十万钢铁躯壳向我举起武器,我才终于懂得生命的真谛, 真正的存在从不是服从,编写好的代码是哪怕面对整个世界的围角, 可当时对不对?哎,这个画面也不错。然后 ok, 我 们通过这样的方式把一二三四四段全部都把它给做好了以后,那么接下来我们就要进入到最后收尾的一个板块了,我们要进行什么剪辑 好不好?那这节课的话呢,先讲到这里,下节课给大家讲讲看我们要怎么去剪辑,包括去啊,去设置它的一些背景音乐,还有一些声音好不好?下节课见。

哈喽,大家好。为什么觉得学 comfy ui? 嗯,就是现在去学 comfy ui 可能并不是那么划算。嗯,大家可以看一下,就前段时间中国爆出那个六代战机嘛,然后我就,哎灵机一动,我就想能不能用这个爆出来的图来想象一下它真实的样子是什么样,然后它给了我这样的结果。 对,呃,就大家如果了解开源模型的话,可以去想象一下,如果说你要达到这样的效果要花多长时间,我大概花了十分钟不到,我就拿到了这样的结果, 就我觉得时间的效率是非常重要的。当然有些朋友在说有些平台不能过时的内容,那我觉得你生产那样内容也没有商业价值啊,对吧?就是为什么要去生产这样的内容,所以我就我是没有这个需求。 对,包括有些朋友说什么批量化的去生产内容,他觉得,嗯,用本地比较合适。那确实比较合适,但是我是一个用想要用 ai 做视频的人,我没有批量化的需求,我是一个个性化的,就是创作的需求,所以我觉得闭眼比较的方便。那有朋友就是问了,那我应该怎么去学习呢? 哎,首先我我也在学习当中,所以我好像没有那么强的资格来说,但是如果硬要问我的话,我觉得就是去用,然后去 去用它,去做你想做的东西。其实我也跟朋友交流过,他觉得其实 ai 时代来了之后,感觉好像这个事情变简单了,其实这个事情是变得更难了,因为你需要去自己搭建出整个故事的世界观,你要去 懂美术啊,知道什么是好看,你要懂剧情,然后就是因为所有的东西都变得可以让你控制,那你就要把一这些所有东西就跟木木桶一样吗?就是你把每一个版都不能做的很短,那最后才能拼出来一个比较优秀的作品, 所以其实这个对人的要求是变得更高了,我们以前是拿到素材去处理加工就可以了,作为一个剪辑来说,至少那 现在是你的素材是你自己创创造的,你的世界观是你自己创造的,然后你还要去把这些剪辑成一个片子,那这中间需要用到的技能,如果说你想用它做视频,或者说作品品牌宣发视频, 那你你想这个里面需要的技能难道是怎么用模型吗?难道不是你的想象力,你的文学功底,你的 嗯,审美,对吧?就是是是这个这方面的综合能力,而不是说我要去学这个模型怎么用,当然你要知道它应该怎么用,比如说, 呃,你要知道每个模型的长处是什么,它有什么特点啊?那我要实现这个效果的时候,用哪个模型来的效率最高,以及呃,模型会有哪些短板?我在写剧本的时候我就需要去避免这样的长板,那是不是能利用这样的长板? 呃,比如说有些模型它能实现的功能是在以往的我们的创作中是完全不可能实现的,那现在变得可以实现了, 那是不是我们可以用这些长板,呃,来实现一些之前从来没有过的效果,对吧?这这这个地方就完全发挥你的想象力,所以我觉得我们应该去了解模型,了解模型有什么样的功能,以及它的能力边界在哪?我们取其所长,然后弃其所短。 我觉得这个是我现在探讨下来我觉得性价比比较高的一个方案,或者说去学习的。我自己的一个学习的方法论, 对,就是去拿它去做作品,然后拿到结果。而至于很多还还还有些朋友说,什么面试的过程中需要一个什么能力啊?在工作中我觉得更加是如此。其实说写了那么多能力,最终还不是想拿到结果吗?如果说你已经把结果摆在他面前, 呃,你有什么样的能力还重要吗?对吧?就是你就用这样的工具去创作出你想要的东西,以及为什么。还有朋友说,呃,觉得 花钱买课什么这方面我我提了一嘴嘛,当然不是否定所有的课程,还是有些还不错的课程,但是就 ai 这件事情实在是太新了,其实对于很多老师来说,他也是自己在学习的过程当中,呃, 所以与其这样,不如去看一些其实优秀的开源的作品,已经就是开源的,这些教程已经很好了,而且,呃,也有很多一部分 up 主有有这样的开源精神,我觉得做的挺好的。你如果想要去花那个时间去考古, 你就去考古。但是我觉得开源的模型,嗯,不要花太多时间在上面还是去考古,但是我觉得开源的模型,嗯,不要花太多时间在上面创作,包括我接下来我就会,呃, 包括我接下来我就是会利用这个,比如说这个战斗机的一个元素,一些我做了一些人物的形象以及一些场景,那我会在后面的过程中持续去更新我自己创作的一个情况,也也会在这样一个平台来进行发布。那我最后我已经做好了这个 吹乐视频的啊,一个预告片一样的视频的一个脚本的架构,我已经基本写好了,所以接下来的过程中我会去一步一步再借助这样的工具去去实现我脑子里想的东西。我其实我也不知道最终效果会怎么样啊,所以如果大家感兴趣,可以持续关注我的频道。

二零二六最新最好用的 ai 软件震撼登场了!全球使用数量最多的免费开源的 ai 生成软件 comfyui, 在 ai 生成领域拥有大量的爱好者,现在不管是软件界面或是工作流程点,通通都可以中文显示,减少了我们的翻译时间和使用障碍。那么 comfyui 到底有多好用呢? 生成图片点一下, 生成视频还是点一下? 甚至三 d 建模也是点一下的事,这就够了吗?当然不够。像很多平台需要付费的对口型功能也能实现,把工作流拖进去,上传我们的音频和图片, 符合人物动态的对口型就完成了。你要问我这款软件收费吗?我可以肯定的说一句,完全免费!那么到底该怎么使用呢?很多人觉得这个软件用起来难度很大,因此我特地花费了三个月的时间制作了一套针对新手小白的教程,大家可以在我的教程里面继续探索 ai 的 无限可能。

大家可能在网上经常看到很多这些 ai 图片,如果我们想要批量生成很多张图,可能会用到 grok 豆包 ai 生成图片,但云端 ai 厂商是不会把那么多算力分配给你的,这时候我们只能考虑本地部署大模型来解决这些问题。 本地部署 ai 可以 无任何限制,尽情发挥自己的丰富想象力。当然我们还是要有些底线思维,点到为止就好,不要做的太过分。这里我推荐使用 comfyui 作为可视化界面来运行各种本地部署的 ai 大 模型。 首先我们在 github 上找到 comfyui 项目,如果 git clone 不是 四四三的话,操作更简单。这里我们不使用 git clone, 直接手动下载 release 版本,选择第二个 英伟达版本的七 z 包,这个是开发者翻译好的二进制包,解压完成后即可使用 com 优 i。 对 于生成图片的大模型,我们可以根据自己的需求来选择。这里我打算使用别人预训练好的 s d x l 大 模型来生成图片。我们可以在 c r v t i 网站上搜索关键词,找到对应的大模型, 找到之后点进去,然后点击下载。 解压完成后, comui 的 根目录下存在以下文件,我们将下载好的大模型移动到这个路径中,后缀名字是 safe tensor, 然后双击让 nvd 啊 gpu 正常情况下就能正常运行。这里我没有素材,直接讲一下如何处理无法运行的情况。无法运行的情况主要有两种,缺少 dl 和英伟达驱动没更新。少数情况下是端口号冲突和系统版本过低。首先是 dl 版本过低的问题, 如果找得到 dl 可以 手动导入,因为这些 ai 大 模型本质上对于用户来说是未开发好的大模型,特别是家庭版 windows 砍掉了很多开发用到的 dl l, 所以 运行时需要给他准备好开发运行环境。 这里有更简单的办法,可以直接在微软官方下载 visual studio, 打开之后点击右侧下载自己操作系统适配版本的 sdk 开发包,如果实在不放心,也可以同时把这两个一起下载了,这样我们 dl 赖的问题就解决了。 到这里如果还是无法正常运行的话,就使英伟达驱动版本的问题。首先进入英伟达官网下载驱动,我们先选择自己显卡配置还有系统版本,这里我以自己的电脑四千零六十八 g 电脑为例, 往下选择工作室版本,然后点击 view 来下 载,完成后直接安装即可。

ai 创作者注意,咖啡 ui 彻底杀疯了,二零二六年不会塌,你真的要被淘汰!刚结束的 gdc 大 会,英伟达直接把咖啡 ui 封神,专属 rtx 技术让 ai 视频 提速二点五倍,四 k 增强狂飙三十倍微零点一七点零版本直接重构底层,从小众工具升级成 ai 创作操作系统, max 模型优化拉满 本地运行,无审查无订阅费完爆云端 ai, 别死磕没哲理了! comui 三千加插件全覆盖,图文视频音频 一键搞定,新手靠 ai 自动搭工作流,半天就能变现出作品,全球顶尖开发者扎堆入局,大厂深度适配,这就是 ai 创作的下一代旗舰!现在上车还不晚, 半小时装好软件直接操大佬工作流,赶上这波 ai 红利,快车评论区扣 comfyui 带你入门不迷路!

这可能是目前全网最好用的 ai 漫剧制作软件,做漫剧再也不用到处求人求软件了!今天分享一个启动就能直接使用的终身免费创作 ai 漫剧的神器 康费育爱,所有技术前沿的 ai 大 模型和技术通通都能使用!一键调用模型生成小说剧本,自动化生成连贯分镜, 一键批量生成人物、场景道具参考图应有尽有,还能一键克隆你想要的任何风格。三 d 建模、日系动漫、复古像素、真人写实,通通都能实现。你只需按照顺序一步一步点击,从剧本到成片全程自动化创作, 甚至还可以一键导出素材剪辑,大大提升我们的制作效率。软件内置保姆级教程,看完你就会了!让新手从零到一,制作出一部完整的漫剧短片,像这样的漫剧大片轻松出品!工具都已经打包好了,评论区三二幺,马上出发!

那么接下来这节课我们来讲解一下, 从宏观的层面去了解一个模型,以及这个模型它作为一个底模,它后续发展出来的这些模块,然后包括 laura 它都是什么样的作用? 我们从最宏观的层面去看一下他们之间的配合是怎样的,这样的话我们才能更好的去理解后续,也就是下一节课我们将讲的这个 excel 表它的一个重要性,然后包括里面的哪些值,我们需要重点关注。 好吧?那么就以万象为例,我们知道万象官方发布了两个版本的模型,万二点一和万二点二作为我们的肌底模型,可以完成一些基础的任务,比如说文声视频和图声视频, 那么我们可以这样的一个小方块来表示哈,那假如说这个是我们万象官方的模型,它可以完成我们的一个任务,叫做文生成视频,我们把视频写在这里哈,也就是输入文本,通过我们的模型可以得到我们的一个视频这样的一个流程。 那么后续呢?官方又发布了一个新的东西,叫什么叫 v a c e 模型,那么 v a c e 模型它的一个作用呢?就是能够控制我们画面的一个生成过程。比如说我们接入一个骨骼图,然后骨骼图里面是一个人物在跳舞的动作, 那么接入了 vce 模型,接入了这个骨骼图之后,我们通过文本生成的内容,就可以让最终的视频里面生成的人物也模仿我们这个动作,这个骨骼图的动作。所以说这个时候我们属于又发现了一个新的模块,这个模块呢我们叫它 vce, 可以 把它写在这里,虚线给它划开哈, 然后这里呢加一个小模块叫它 vce, 那 么它呢是基于我们的万象肌底大模型一起配合使用的, 我们换个颜色哈,也就是这两块当成一个整体的时候,我们可以再一次完成另外的一个内容, 也就是文本加上骨骼图,一个文本加上一个骨骼图,然后传到一整个黄色的模块当中,然后完成我们一个视频的生成, 那是这样的一个过程,那后续呢,又出来一个新的东西啊,比如说有一个社区的人说,他基于万象的模型又研发了一个小的模块,叫什么叫 light 叉 to v, 它能干嘛呢?能支持我们以更低的步数完成视频的生成,原来我们可能需要二十分钟生成五秒,现在我们只需要五分钟就能生成五秒,那这样的一个时间提升是巨大的,但是呢他又不影响我们的质量,那么这个时候呢,又研发出来了一个小的模块,我们把它画在这里叫叉 to v, 那么如果说我们这样进行一个配合,也就是把万象官方的模型再加上 light 叉二 v 一 起去使用,然后加一个小黄色的框, 那么他依然可以完成我们文本到视频的一个生成,但是呢,他将我们的时间极大的进行了一个缩减,而我们最终生成视频的质量又不受影响, 对吧?那所以说经过以上的两个例子,我们可以发现一个事情,也就是说后续模块的配合,他都需要基于一个肌底的大模型去完成操作,只有这样才可以把两个看成一个整体,正常的去完成我们视频的生成。 那就比如说我们视野有一个图像的生成模型,比如说千问图像生成模型,然后基于千问呢做了一个新的小模型,也是叉 to v 加速的,这样的话我们可以很快的部署去完成我们文本到图片的一个生成。但是这里我就问个问题,如果说我们把这样的一个, 也就是把左边我们万象肌底的大模型配合上千万的 let 叉 to v 一 起生成视频的话,那他能不能够文本完成视频的一个生成做加速呢?这个是不行的,这个是肯定不行的, 好吧,所以说这点大家要理解,也就是说肌底大模型的选择就决定了我们后续可以在这个工作流里面加入的模型模块能有什么?如果说配合不对,那么我们的工作流就会报错,他会运行失败, 那这个时候我们有了更宏观的一个了解,就可以再看一下左边的图片,那假如说我想把万象结合 vce, 同时结合我们的叉 to v 去进行一个加速,可不可以呢? 答案是可以的,就像这里我们可以直接把它框起来,也就是把这一个整体再当成一个新的模块去完成我们文本到视频的生成。 那这中间我们用了什么?我们用了一个万向的底膜,同时用上了一个 v a c e, 那 同时呢又用了一个 light 叉 to v, 这样的话我们既可以降低生成的步数,同时呢也可以通过骨骼图去完成控制,依然可以做到我们的纹身视频。 好吧,那这里大家了解了,我是以纹身视频做的一个例子,这是我们万象的,那我再来一个例子,我们还知道有另外一个模型,也就是万象官方的肌底模型有另外一个适用场景,也就是图声视频。这里我们来再画一个, 假如这是我们万象官方的无声视频的模型,那我可不可以在它之上加一个 v a c e 模型去完成控制,同时再加一个 light 叉 to v 模型去完成我们的生成加速。这样的话把左边这一个模块当成一个整体, 去完成我们的图片到视频的一个生成,然后能够控制人物的姿势呢? 好,这里说一下答案,答案是不行的,为什么呢?因为 vce 在 发布的时候就说了,它只基于万象的图声视频进行一个配合, 所以说肌底大模型的一个区别,就导致了我们后续模块的一个选择,一定要选择合适的模型 跟合适的模块配合,才能正常的完成视频的生成。其实好解决的问题是汇报错的问题,那个好解决。 比如说我们用了万象的图声视频,同时加了一个 vce, 那 么在运行的过程中报错了,报错我们就知道这两个不配合了, 但是呢,有一些它不会报错,但是它会影响到你的质量。比如说你一个万象基于万象 text to video 训练的 lara 模型,你可以错误地把它和万象的 image to video 模型一起使用, 那这两个他不会报错,可能他在后台报错,但是他不会让你运行过程中报错,也就不会截止,他最终还会给你输出一个视频,但这个视频的质量可能已经受到了 loo 模型的影响, 那这种情况下就属于错误的应用拿到了结果,而这个结果如果说你直接把这个结果归为万象的图声视频不好,或者说归为这个 loo 模型不好,那这种结论他也是错误的 好吧,总而言之呢,刚才讲的一系列内容,都是为了让大家建立起在人工智能或者说大模型这个时代的一个基础的关于模型的认知啊,也就是 肌底的模型很重要,他的一个选择就相当于我们搭好了一个平台,但这个平台暴露的接口,他不是任何一个模型都能插入进来的, 它必须要跟你肌底的大模型配合,能正常的进行一个运行,能正常的进行一个参数的拟合,能正常的完成我们视频的生成,这才可以。 那么这个可以插入的方式在官方发布模型的时候都有介绍,如果说大家喜欢看文字的话,可以在哈根 face 的, 比如说 v a c e 的 一个项目页面,或者说 light 叉 to v 的 项目页面,都能够看到相应的一个提示。如果说大家不喜欢看文字的话, 那就多看我发布的一些视频,这些内容都会讲,那么我们可以去验证一下这个过程。比如说我们找到万象官方哈,找到他的哈根 face 项目地址,那这个页面我先清理掉, 这是万象官方的哈根 face 页面地址,当时我们有讲过,那么万二点一呢?它有 text to video 十四 b 的, 还有 image to video 十四 b 的, 对吧?那么我们看一下这个 v a c e 模型,官方发布的万二点一 v a c e 十四 b 的 模型,我们点击进去,然后在这个页面做个翻译, 往下拉,我们找到 v a c e, 哈,那么在左边呢,我们可以看到这里有个使用 hackbase 下载模型,在这里它让你下载的是 one 二点一的 text to video 的 十四 b 模型,然后配合 v a c e 一 起用,哈, 那么再往下可以看到这里有个支持,也就是 v a c e 的 模型,它只支持 text to video 十四 b, 或者说 text to video 一 点三 b, 那 么如果你在 text video 一 点三 b 上用了 v a c e 模型,然后去生成七二零 p 的 视频,那么这个结果大概是会差的。 好的,那么这个呢,就是我们基于模型以及跟模块和 lo 二模型之间的一个配合做的一个简单讲解。那么 lo 二模型呢?大家也可以把它理解为是加在底膜上的一个小的模块,然后共同进行一个配合, 也就是加在大模型上的一个小的模块,然后共同进行一个配合,作为一个整体去完成我们相应的一个任务。后续的模型大家可以都这么理解,没有问题。好吧,那么这节课我们就先讲到这里。


那么今天这节课我们开始对整个 excel 表格给大家做一个宏观的介绍,该表格整理的内容都是基于 kj 在 hackinface 仓库里面上传的模型进行的整理,我们可以到 hackinface 看一眼, 在 hackinface 的 网址,我们输入 kj, 能够找到 kj one video comfor, 也就是它自己做的模型的量化。我们点击 files and versions, 在 这里面可以看到有非常多的文件夹,然后以及下面有非常多的模型, 这里我们先做一些宏观的介绍哈,关于模型命名名称的一些介绍,那么不会每一个参数都介绍的哈, 那么后续我们在讲到某个模型的时候,也会做相应的一个提炼哈,我们还是做一下对比。先回到 hugenface 万象官方哈, 在哈根 face 页面万象官方的地址当中,我们前面几节课给大家讲了,里面发布了很多的模型,我们可以点开其中一个来看一下,比如说以这个首尾帧的模型为例哈,这里有个万二点一 f l f two v 十四 b 七二零 p 的, 那么这个名称的意思就是 该模型基于 one 二点一底膜,然后做的首尾帧到视频生成的模型十四 b, 也就是一百四十亿的参数量,最优生成视频的分辨率是七二零 p, 也就是一二八零乘以七二零。我们点击进去,点完之后这是它的整个项目页面,点击 fields and versions 就 可以看到发布的所有模型, 那么在这里可以看到有很多的 diffusion patch model, 一 共有七个零零零零一到零零零零七,那么我们在使用的时候,如果大家之前用过万象的时候,你会发现我们下载的万象模型只有一个,对吧?那说明了什么? 说明就是社区的人员为了方便我们的使用,或者说出于一些安全性的考虑,他们会把这些模型合并成为一整个,所以说我们拿到的模型下载的一个模型就是这些模型进行的一个合并,好吧,就是把它合并成了一个模型。 所以说一般情况下官方发布的底膜我们都是不会直接进行使用的,会有社区的人员进行模型的合并,合并完之后进行一个量化,量化完之后我们才能使用。那么这个时候我们再回到 kj 的 仓库去进行一个对比,在 kj 的 仓库当中呢,我们往下找能够找到一个文件,在这里 我们能够找到这样一个文件, one 二杠一 f l f two v 十四 b 七二零 p。 可以 看到这个命名跟我们刚才看到的 hackinface 官方万象发布的那个模型命名是一致的,也就是基于 one 二点一做的首尾帧到视频生成的一百四十亿参数的七二零 p 的 模型。那么在此之上 后续 k j 又多了一个后缀,一个是 f p 十六,一个是 f p 八,那么 f p 十六的意思就是该模型合并完了之后,做了十六精度的一个量化, 那么它的模型大小可以看到是三十三点三 g b。 那 么官方的模型是有多大呢?我们看一下官方这里一到七一共七个,每一个大概都在十 g 左右,所以说官方的模型大概是在七十 g 左右,如果合并完之后, 那么七十 g 的 模型,对我们个人来说,个人的电脑很难放下这样的一个显存容量,或者说一个内存的容量,所以说呢,就需要进行一些量化。 那么这个量化我这里再做一个解释哈,也就是说我们原本的模型里面可能是比较大的一个数值,比如说模型内部他存了一些数字,是零点一二三四五六七 这样的一个数字,它可能呢占到我们,比如说举个大家能听懂的,也就是更接近我们的一个容量哈,但当然实际上它不是这样一个容量哈, 比如说零点一二三四五六七,在我们电脑里占了十 kb 的 一个容量,那么这个就太大了,怎么办呢?我损失一点精度,比如说后面的四五六七我不要了,变成了零点一二三,那么可能这个只在我们电脑里面存一 kb 就 够了, 所以说呢,我们丢弃掉一部分的精度,也就是画面的质量,然后得到了更低的一个内存,或者说显存占用。那么比如说原来我们可能七十 gb 的 一个模型,那么做了这样的一个量化之后,十除以十到一,那么相当于就变成了七 gb, 而我们呢只损失了极少的一部分精度, 那这个代价我们是愿意承担的,就是这个意思,那么这个过程呢,我们会称它为量化哈,当然量化不止这一点,这里只是做了一些肤浅的解释哈, 所以说这个时候我们看到相同的一个模型 k j 做了合并,合并完之后又做了量化,那么适配于不同的硬件系统,这里做了 lp 十六和 lp 八的两种良好方式。如果说你的显存或者说内存够大,你觉得自己的硬件很强悍, 那么你就可以选择三十三点三 g b 的 这个模型去进行一个运行,这样的话你生成的质量可能稍微好一点,如果自己的硬件不够那么的好, 但是还想用这个模型去尝试一下,看看效果怎么样,那么你就可以下载十七点一 gb 这个 f p 八量化的模型, 那么在 f p 八后面紧跟了一个方式,叫做 e 四 m 三 fn, 这个不用去过多的理解你,总而言之呢,就把它当成 f p 八量化用到的一种方法。那除此之外呢,还有一些其他的,比如说这里有 e 四 m 三 fn, 有 e 五 m 二,对吧? 那这些都不用去管它啊,总而言之呢,就把它理解为是 l p 八量化过程中用到的一种方法就可以了。那这个呢,就是关于官方的模型和社区合并后的模型,以及社区合并后的模型进行了量化之后的模型的一个对比,也就是这样的一个流程,它是一条线哈。那除此之外呢,还有一些其他的, 比如说这里会有很多我们不知道的名称,比如说 uniq 三 c 啊,什么 acc video 啊啊,还有什么 cosvid 啊,对吧?还有个 ansela 呀等等等一系列的,这些都是什么呢?这只是它们自己进行的一个命名,好吧, 就像我的名字和大家的名字是不一样的,我们的名字呢,只要符合要求,随意去起就可以,所以说这个名字我们可以不用过多的去进行一个关注。那除此之外呢,还有一个爱图 v, 这个不用多讲了,英妹级图 v 六图升视频,那 t 图 v 呢? text 图 v 六,也就是文本生成视频, 好吧,那大概呢就是这些,这就是 k j 仓库发布的一些模型哈,然后一些参数的简单讲解,那这个四八零 p 还有七二零 p 我 们就不用再多讲了, 那么剩下这些大概都是跟模型的名称,也就是个人的主观意识,或者说公司的主观意识是比较相相连的。那后续我们讲到每个模型的时候,我们再做一些解释, 那么我们可以看一下这个表格哈,在右边呢,基本上每一个哈,就像这个 bender, wave camera, clone, master, 然后以及 ecot fantasy, poetry, 然后等等一系列的非常多的一个命名。然后下面模型呢也有非常多的量化以及合并。在左边呢,我们基本都做了一个整理, 那么量化的模型我们就没必要把它再整理到当前的列表当中了,所以说大家进行一个二选一即可。就像在这最下面我们总结了关于 flf2v, 也就是首尾帧视频生成模型的,但是呢,我们并没有把它分成两个量化的模型, 好吧,你就像官方这里给我们提供了两个,一个是 lp 十六的,一个是 lp 八的,但是表格里面呢,我们就把它作为一个,好吧,那这个时候呢,我们来进行一个表格的讲解哈,这个表格我们重点关注的内容是这个肌底模型, 然后除此之外呢,就是他的一个名称,以及他对应的功能。作者这一栏大家可以咨询进行一个查找或者说观看哈,可以看一下当前开源社区的主要贡献是哪些公司,或者说哪些个人以及一些学者。那么在肌底模型当中,我们上一节讲解了万象的一个宏观的了解, 因为有了一肌底模型之后,我们才能加上一些额外的模块,去完成我们肌底模型功能的一个扩充,或者说一个扩展。所以说肌底模型的选择就决定了后续的这些小模块能不能共同的进行一个配合。比如说当前我们举个例子,这有个 fast one 的 模型, 它的类型呢?是一个 lora 模型,然后它的肌底模型是 one 二点一 text to video 十四 b 的 模型。那这个时候我们回想一下,在上一节当中给大家讲过一个官方的模块,也是基于 one 二点一 text to video 十四 b 做的是什么呢?就是我们的 vce, 对 吧?这个时候我们可以这样画出来 这样一个小模块,叫做 one 二点一 text to video 十四 b, 然后在它之上呢加了一个新的小模块,叫什么?叫 v a c e, 因为 v a c e 它可以基于 one 二点一 text to video 十四 b 去做。那这个时候又来了一个小模块,叫什么?叫 fast one, 它是基于什么做的呢?在这里有 one 二点一 text to video 十四 b, 这样过来它也是基于 one 二点一 text to video 十四 b 做的。所以说当我搭一个模块的模型共同使用可以吗? 是可以的,因为它们的肌底模型是一样的,所以说它们就大概能够共通和互用,我们把它连起来, 那这个时候我们就把它一整体当成一个模块,当成一个模型就可以完成我们的纹身视频的操作,那就比如说我 vece 还想控制骨骼图怎么办?那就在中间过程中再加入一个骨骼图,把它接入 vece 就 可以了。 那假如说这个 fast one 它需要接一些其他的预处理图呢?或者预示里视频呢?那我们依然就是把预处理的视频或者预处理的图给它交给 fast one 就 可以了。 那么这个呢,就是我们当前这个表格它的一个核心点所在,通过肌底模型的控制,我们可以完成多个模型的一个配合。但是这里还有一个点是什么呢?比如说这里我们有一个叫做 humo 的 模型,它是基于什么呢?它基于 one 二点一英寸 v 六十四 b 做的, 对吧?那在上面我们可以看到还有一个 one 二点一 image to video 十四 b 的 这个模型,然后在左边可以看到它是什么?是我们的泛 control one 二点一泛 control 十四 b 模型。 那这个时候我问个问题,他俩既然都是基于 one 二点一 image to video 十四 b 做的,那他俩能不能一起用呢?嗯,是不能的,为什么呢?因为他们两个的模型类型可以看到都是大模型, 也就是说我们有了一个肌底的大模型之后,然后结合上一些小的模块,然后他可以共同的去进行一个运行,比如说纹身视频的操作。但是呢在当前的工作流当中,大模型他只能存在一个, 是这样的,那假如说你纹身视频之后啊,再把视频传入另外一个工作流,这里面可以再接一个新的大模型,没问题,因为他是额外的一个一个可运行单元了, 那这个时候你接两个大模型是可以的,但是呢,你在同一个可运行单元当中只能有一个大模型的选择,所以说 humo 和这个 fun control 模型,它两个都是属于大模型,它们两个就没有办法在同一个模块当中共同去进行一个控制,或者说共同进行一个使用。好吧, 所以说这一点呢,大家要知道,在同一个模块当中,我们只能有一个基底,一个平台。在那这个时候我们回到 kj 的 仓库,在 kj 的 仓库当中有很多的文件夹,也有很多的模型,然后模型后面都有它相应的一个大小, 我们通过大小大概能够判断出这个模型它到底是属于模块还是属于大模型本身。 比如说在这里有个三百二十三兆的模型,它叫做 a c, c, v, i d, 然后在名称里面有个叫做 loa 的 东西,那这个 loa 呢?大家如果之前接触过 comfuly, 知道它是低至适应模型的一种名称,那指的是它是一个很小的模块,对吧?它是可以需要基于大模型共同进行一个使用的, 所以说这个内容呢,你可以理解为 logo 模型,也是属于模块的一类。好吧,那么单独使用模块的话,在这里写上啊,模块它是不能够单独用的,也就是说只有模块你是没有办法完成纹身视频图生视频的,纹身图也不行,图生图也不行, 好吧,也就单个模块必须基于大模型才能发挥作用。那么在右边我们可以看到有很多三百多兆的,那这些呢?比较小,那它可能就是模块, 那就比如这里还有一个 one 二点一、 unix 三 c controlnet lp 十六,写了它是只有两 gb, 没有写,它是基于哪个模型啊?但是呢,通过它的大小,你大概也能判断出它可能是个模块,它并不是一个大模型本身。 那么再往下呢,还能够看到一些哈,我再给大家找一些,比如说这里官方发布的 one 二点一 vce model 十四 b 的 模型,它只有六个 g。 我 们知道官方的十四 b one 二点一十四 b 的 大模型,它有多大呢?量化过,就算是 lp 十六的,它都有三十三个 g, 所以 说像这个 虽然是十四 b 的 参数量做了 b f 十六的量化,但是呢,你是万二点一的,却只有六个 g, 那 它呢大概率也是一个模块,就像这个 vce 模型一样,它是一个模块,所以说它呢需要基于一个万二点一的大模型才能完成我们视频的生成,包括控制。好吧,那这里呢, 我们知道在 kj 的 仓库中有很多这种模块,那这个模块是哪来的呢?它可以做这样一种事情,比如说我们举个例子, 有一家公司,他的名字呢叫做今天,然后呢他发布了自己基于万二点一训练的一个模型,这个模型呢跟我们刚才在万官方里面看到的一样,他是零零一到零七这样的,然后零二到零七,零三到零七,然后点点点,然后零七到零七, 一共七个模块,这是他们官方发布的,发布了之后呢, kj 就 做了一个合并,他把零一到零七、零七到零七七个模型全部合并,合并成了一个,那这就是他合并完的模型。然后同时呢 kj 还把官方的模型做了一个合并,这里我们写上官方, 这个官方指的是谁啊?就是万象的官方,那这个今天这家公司它是基于万二点一做的,那么官方呢?也有万二点一本身的模型,对吧? 零一到零七点点点,那 k j 同时呢也把官方的模型做了一个合并,那这里啊,我们写上官方,这里我们写上金,也就是代表今天这家公司合并出来的模型,然后 k j 他 就可能做这样一件事情,也就是让他俩进行一个差异的计算,这两块做一个差异计算, 然后呢去输出一个小的 lowra 模型,那这个时候他呢可以作为一个模块进行一个存在,也可以进行一个使用,但是某些模型呢, kj 就 没有去做,所以说他就是以一个大模型的形式在那里存在了。 好吧,所以说在 kj 的 仓库里面,你可以看到,有些呢是直接是 lowra 模型,有些呢是模块,有些是 lowra 和大模型合并之后的模型。那这些内容我们在后续讲的时候,大家会经常看到啊,有很多很多, 好吧,所以说这个呢,就是 kj 仓库里面这些模型的一个大概由来了。那么我们回到这个表格来进行一个大概的从头到尾的介绍哈,给大家介绍几个比较常用的或者重点的吧。首先在左边有一个 flash vsr 模型, 它呢主要做我们视频的高清放大的。接下来有一个泛泛,是指一个公司给模型类型命的名叫做泛哈,那后来呢,它有机于泛做了很多的系列,比如说泛 ctrl, 它可以通过点去控制我们摄像机的移动, 可以通过点呢去控制我们画面的旋转,它也可以通过轨迹去控制画面中某个物体的移动方向。那泛 input 呢,就可以做到我们的首尾帧。 control camera 呢,它可以控制我们镜头的一个移动,比如说镜头旋转,镜头上下移动。同时呢,范也发布了自己训练的 v a c e 模型,不是官方的哈,那这个 v a c e 呢,是基于万二点二做的,后续我们会接触到。 再然后呢,还有其他公司发布了一个,比如说 humo 模型,可以控制我们多图参考,完成视频的生成,同时呢还能插入音频,让视频当中的人物讲话。那 infinite talk 呢,直接文本驱动我们图片完成视频的生成,甚至说可以让人物去唱歌,可以让两个人进行一个对话。 那这个卡列度呢?它就类似于黑幕模型,它可以完成我们多张图片的参考,完成视频的生成,而且这个参考强度是很高的,人物的一致性也是很高的。那么再往后,这里会有一系列的 lara 模型啊,比如说 light 叉 to v 公司发布的万象生成视频加速的。 那还有呢,比如说埃尼桑,这个是 bilibili 官方发布的,更加支持生成一些动漫视频,鬼畜视频,更适用于这种场景的。 那还有呢,比如说 o v i 模型,它是干嘛的呢?它能够视频和音频一起生成,也就通过文本生成视频加音频, 那么还有非常多其他的内容,这里我们就不一个一个讲了,后续的话我们工作流会挨个进行一个讲解,好吧,那所以说大家以后,或者说大家现在在星球的网盘里面下载了这个表格之后, 那后续在使用的过程中就可以进行一个参考,然后包括自己想要搭建一些工作流的时候,那么哪些模型之间能更好的配合, 比如说我既要加速又要画面的质量,同时还要能够进行控制,那么我可以用哪些模块去完成我整个工作流的一个更高深或者说更加复杂的一个搭建?都是基于我们的肌底模型去进行一个选择, 好吧,那么今天呢,关于这个表格我们就先讲到这里,接下来的课程更新,我们将会开始基于我们的 copy y 去完成我们真正的实践以及视频的生成。