粉丝24获赞186


一张美女图片就可以生成多角度图像,而且人物一致性真的很强。之前已经讲过千万二五零九多角度的工作流,本期视频继续更新一个千万二五幺幺人物多角度的工作流, 虽然工作牛类型差不多,但是我们从介绍可以看出他是二五零九的增强版,主要减轻图像漂移,提高自辅一致性,以及集成 lara 功能, 甚至还增强了几何推理能力。那么对于电商或者视频二创的小伙伴来说,一致性是最重要的,可以看到官方的一致性展示确实非常棒。 我们先来看一下二五幺幺的基础工作流,这边最多支持三张图片的编辑融合, 可以看到这个男生女生还有衣服的细节融合在一张图片上,相似度真的非常高,并且完全按照提示词来的。 我这边加载的是千万二五幺幺 b f 十六的模型,本地部署的话建议使用 f p 八的模型,毕竟这里云端使用的是二十四 g 与四十八 g 的 显卡,其他节点设置跟千万二五零九差不多,这里就不过多介绍了, 只需要在这里上传三张图片,然后填写提示词,点击运行就可以了。接着再来看一下人物多角度一致性的工作流, 看起来很复杂,实际操作起来一点也不难,只需要在这里上传一张图片,然后这里可以设置你所需要的单张图片的大小,一般默认即可。上面则是一些模型的加载,然后通过人物骨骼图与提示词双重控制, 得到我们这些不同角度的人物图片,可以看到人物的一致性真的非常好。 当然这个工作牛也需要很高的电脑配置,想要本地部署的话,建议使用量化版本的模型,我这边也会把模型与工作牛打包上传到云端,右边留言分享。好了,本期视频就到这里,我们下期再见。拜拜。


我想雇你一件事,酬金百两给我闪开,小心啊。嘿。北宋汾梁三品户部侍郎之女,玉不削莲音平致,争取所报。这幅画留白很多, 有些地方不必话满。我想雇你一件事, 为妻一月,假意清目, 酬金百两啊。不悦礼,不悦戒。苏府庭院诗会寄设,文人云集,萧默以一首诗得众人称赞。今日在诗会上,你并未尽力, 我若尽力,怕你父亲未必放心。今日多谢了。二人幽步夜市,未觉危险将至,都给我闪开,小心嘿。


逼自己一个月练完,其实你很会 ai 视频生成,存下吧,真的很难找全的!即梦 ai 入门到精通教程,全程视频时长一百二十分钟,由于视频太长,本系列教程分为上下两张,相信大家偶尔会在抖音上或者各大视频平台刷到这些好看又富有创意的 ai 视频, 那么这些好看好玩的 ai 视频是如何制作的呢?我们又如何在生成 ai 视频作品时保持人物前后的一致性,同时又能精准的控制 ai 视频的画面?从这期视频开始,我会从零让大家来学习 ai 视频的制作。从 ai 视频生成平台的入门讲解,到剧本脚本的制作生成,再到生成视频片段的技巧和最终的剪辑成, 带大家由浅入深的从零开始学习 ai 视频的制作,最终让大家也能够通过 ai 视频来变现接单,或者自己来当导演,制作出想象当中的画面。那么话不多说,我们下面就开始吧。首先来介绍一下 ai 视频生成平台, 目前在市面上的 ai 视频生成平台有很多,像可林吉梦、 managerrony、 锐度这么多视频生成平台,我们该如何选择?想必是困扰大家入门 ai 视频的第一个问题,那么这里我们就说明一下。首先建议大家选择国内的视频生成平, 因为通常在书写提示词的时候,很多国外的视频生成平台都需要先写中文,然后再进行翻译,而一旦涉及到翻译,可能就会出现中文表述和翻译后的表述前后有出入的情况,最终生成的视频表现的不够可控。 目前来看,在视频生成的效果上,国内的可林吉梦等平台已经不输国外的一些老牌平台,所以无论是从语言理解能力还是从生成效果上考量 内的平台都是更好的选择。此外,在生成成本上,往往国内的平台也有更低的生成成本。我们就以这套课程要讲解的极梦 ai 为例。来到极梦 ai 的 首页,可以看到在左下方有一个开通会员的选项,通常我们选择连续包月,可以看到极梦 ai 的 基础会员每个月是六十九元, 能够生成四千三百多张图片和二百多条视频,对于正常的使用强度来说,这个格度是绰绰有余的。且目前在极梦 ai 上生成图片是免费的,而生成好的图片我们可以直接在平台内将其转化生成为视频,使用起来也非常方便,所以这个价格对比国外的很多平台都要更有性价比。我们下面来介绍一下极梦 ai 平台本身的功能。 在首页当中可以看到最上方直接就是 ai 作品,而不说是 ai 视频呢,因为它有很多项不同的功能。 首先是最新的 agent 功能,这项功能相当于是集成了极梦 ai 当前所有的生成功能。例如我们提要求先生成一张人物在喝咖啡的图片,再将这张图片升成为视频, 此时极梦 ai 就 会自动将整个工作流分成两步,第一步先生成一张人物在喝咖啡的图片,第二步再去生成一个人物在喝咖啡的视频, 这两步是自动完成的,不需要我们逐一进行操作。除了非常智能的 a g 的 模式之外,像图片生成、视频生成数字人和动作模仿同样是极梦 ai 上做的不错的功能,每项功能都可以单独使用,可以直接集成在 a g 的 模式上,通过文字描述的方式调用。在之后的课程当中,我们会对每项功能进行详细的演示,所以这里就不再赘述。 继续来看首页可以看到下方分别有三个分选项,发现短片以及活动。在发现页面,我们可以查看由其他作者生成的 ai 作品,像图片或者视频片段都可以在这里查看。在查看时,如果点击查看大图,还可以在右侧看到作者在生成这张图片时所书写的提示词。我们可以直接点击下方的做同款, 将作者在生成图片时所使用的参数导入到生成预备窗口中,也可以点击右侧用做参考图,将作者生成的作品作为我们下一张生图时的参考,也可以直接复制这里的提示词为我们所用。所以在将来,无论是生成 ai 视频还是 ai 图片,想要获取提示词还是非常方便的。我这里也准备了一些在生成图片时常用的提升质量的提示词, 需要的同学可以查看评论区的置顶评论领取。不过无论是生成图片还是生成视频片段,最终我们的目的是完成一个完整的作品,所以继续来看上方的分选项,可以看到这里有一个短片分选项,点击切换,在这个位置可以查看其他作者通过后期剪辑制作将 ai 视频片段所制作成的完整的短片作品。 比如这里可以看到有一个最近非常火的花木兰的短片,效果还是非常不错的,除了短片之外,可以看到上方的分选页还有一个活动选项,在这里可以查看由极梦 ai 主 或者参与的和 ai 相关的比赛,有些是图片比赛,还有一些是视频比赛,通常这些比赛都会有丰厚的奖励,比如说极梦 ai 的 生成点数,或者是一些现金奖励,大家在制作 ai 视频上轻车熟路之后,如果感兴趣不妨考虑参加一下。当然在主页当中,我们具体想要查看某方面的内容,也可以使用这里的搜索栏,比如这里我们就搜索哪吒, 看到在搜索结果当中就全部是和哪吒相关的结果,那么首页到了这里我们就看完了。下面来看左侧的分选项,可以看到在左侧首先第一个是灵感选项,其实这个就是首页,而第二个是生成选项,在点击之后就来到了专门的生成界面,可以看到在最下方可以选择生成模式, 刚刚在首页的上方,我们所见的生成模式一样有 agent 图片生成、视频生成、数字人和动作模仿。此外在这个页面我们可以查看过往的生成记录,以及快捷的对生成的结果进行重新生成或者重新编辑等操作。如果想要查看全部的生成记录,并按照类型查看的话,可以选择左侧分选页当中的资产选项,在这里就可以根据时间类型 进行分类来查看过往生成的 ai 作品了。在资产选项的下方有一个画布选项,在点击之后我们就来到了一个相当于是简化版的 ps 的 操作界面, 在这个界面我们可以对生成的结果进行简单的调整,比如裁切尺寸图、生图或者直接纹身图一张图片,再或者上传一张电脑本地的图片,在当前的页面对电脑本地图片进行操作。不过如果大家本身已经能够使用 ps 了,就会觉得当前的页面功能不是很多,想要编辑图片的话,还是找一个正经的传统图片编辑软件比较好。我们现在返回到首页来简单总结一下极梦 ai 平台的具体页面布局,总的来说,极梦 ai 视频生成平台在页面布局上还是非常简洁的, 首页我们就可以使用它相应的生成功能,同时也可以非常方便的查看由其他作者生成的 ai 作品,以此来汲取灵感,积累经验。相比于其他 ai 视频生成平台会多出很多涌杂的功能,极梦 ai 在 操作上会显得更加纯粹。基本上我们主要能够用到的就是图片生成和视频生成。 在实际操作当中,其图片生成和视频生成功能有着非常多的辅助选项,比如像参考图生图、参考图生视频或者是多帧生成视频等等,这些方面的选项我们都会在日后的课程当中给大家详细的讲解演示。可以看到 ai 视频发展至今,在生成的画面质量、人物的前后一致性以及人物动作的可控性上,目前表现的已经相当成熟。 但要想完成一个完整的 ai 作品,依然少不了人的创意。好的剧本,好的故事节奏、好的后期制作,这些都是完成一个 ai 作品的必备要素。 ai 视频的生成是 提供了一个更加便利的作品表现的平台,想要真正做出有灵魂有价值的作品,人的思维才是真正的决定因素。以上就是本期视频的全部内容,我也提前在评论区的置顶评论中给大家准备了非常多好用的提示词模板和大量的 ai 视频制作案例,需要的同学可以直接在置顶评论中自取。 如果觉得本期视频的内容对你有帮助,也不妨点赞、关注、支持一下,我们就下期视频再见!大家好,我们这期视频来详细的讲解极梦 ai 平台的图片生成功。 可以说在整个 ai 视频的制作环节中,图片生成是最重要也是最为耗时的,所以熟练的掌握图片生成的各项功能,有助于我们将来在制作 ai 视频时提升效率,增强最终的画面表现。来到极梦 ai 平台,我们点击左侧的生成选项,然后将下方的生成模式 改为图片生成模式。首先要讲解的自然是基础纹身图,我们可以直接在提示词输入框中输入我们想要生成的内容。当然在书写提示词时,虽然生成不同的物品,提示词也不同,但基本的生成格式是相同的。首先要描述的自然是主体,比如你要生成的是一个人还是一个动物,或者是一个建筑还是汽车。在描述好了主体之后,仅 接着就是主体当前所存在的状态,比如这个主体正在走路,这个主体正在喝咖啡,现在有了主体有了状态,下一步我们就是要描述主体周围的环境,比如说这个主体是在咖啡厅当中,还是在街道上,又或是我们只想要一个普 通的白色背景,这些都是环境。然后我们需要描述的就是画面当中的时间,时间能够决定整体画面的氛围或者光照,比如在夜晚,户外的环境往往偏暗,更多的是一些路灯、星光、月光等等, 而在室内则是灯光,而白天则光照较为强烈,通常不会有太多的人造光源。所以对于时间的描述,通常并非指的是人物具体处在哪一个时间,而是主要决定画面当中的光照的。我们要书写的就是画面当中的美术风格,比如是写实的、二次元的、三 d 的、 皮克斯的等等。这里需要注意,风格并没有固定的描述, 可能同一种风格有多种描述方法。如果大家还不清楚一些常见风格的提示词该如何描述,我们当然可以求助豆包这个 ai 大 语言模型。例如现在我们向他提出要求,给二十个常见的对于图片美术风格描述的提示词回车发送。可以看到一段时间后,豆包就给出了我们想要的答案,甚至还配上了相应的图片, 可以看到给出的风格还是非常全面的,我们根据配图能够很轻松的找到我们想要的美术风格。当然也可以不描述美术风格,在图片生成时,一次会生成四张,通常不描述美术风格,在生成图片时,这四张图片就会各不相同,这四张图片就会产生各不相同的风格。接下来我们还需要描述的是镜头,这里就有很多种不同的类型了,如果不知道镜头该如何描述, 样可以求助多报 ai。 不 过通常镜头该如何生成,和我们所描述的主体在做什么有很大的关系。比如我们描述主体在拍证件照,或者直接让它生成一个什么人的证件照。比方说我们这里输入生成一个二次元少女的证件照,回车发送可以看到最终生成的结果。即便我们没有对镜头有过多的描述,但由于证件照本身的格式非常固定, 所以生成的结果在取景框和镜头的视角上也基本完全一致。此外,在描述画面时,如果再去细分,我们还可以描述画面当中的天气。光照的方向 有顶光能够表现较为神圣的画面,底光表现较为恐怖的画面,而侧光则突出人物的矛盾。不过深入去讲的话,就会涉及到一些和审美鉴赏相关的知识了。这些知识我也整理成了一个资料包,大家如果需要的话,可以查看评论区的置顶评论领取。上面有十分专业的审美鉴赏知识相关的资料,那么了解了文生图的基本框架,我们下面再来看图 生图。不同于在 stable dev 上所使用的图生图功能,会基于原图结合提示词生成新的结果。在极梦 ai 上,图生图功能更像是参考图生 图。比如现在我们上传一张图片,就以刚刚所生成的图片为例,在上传好之后,我们将提示词更改为生成这个角色在咖啡厅喝咖啡的画面。回车发送可以看到,片刻之后,我们就成功的生成了这个角色在咖啡厅喝咖啡的画面,而角色的形象就是我们所上传的参考图的形象,除了单图参考之外,我们也可以使用多图参考, 就现在我们首先将这个角色参考图进行删除,而提示词方面,我们就要求生成一个好看的带有金丝花纹的咖啡杯进行删除。在获取了这个咖啡杯的造型之后,我们 同样将这个咖啡杯下载下来,然后回到生成页面,我们同时将刚刚的人物形象及咖啡杯通过拖拽的方式上传到参考图当中,在上传好之后,提示词我们就描述生成这个人物拿着这个咖啡杯喝咖啡的画面回车发送,可以看到一段时间后,我们就成功的生成了参考图当中的角色拿着参考图当中的咖啡杯在喝咖啡的画面了, 这就是多图参考功能,我们下面来讲解一下生成图片时能够设置的基本参数。首先是图片生成模型,这里我们之前反复强调过了,在生成图片时就使用版本标号最高的模型, 将来如果有更新的版本,像五点零、六点零版本,大家同样选择标号更高的。然后是生成图像的比例,除了常规的比例可选之外,目前极梦 ai 也更新了一个智能比例,如果选择这个选项,那么在生成图像时,会根据提示词所描述的画面来生成最匹配这个画面的图像比例。 比方说你描述的是证件照,那通常证件照选择的比例就是三比四或者二比三的比例,或者你描述的是一个电影镜头,那通常生成的就是十六比九的比例,除了比例之外,可以选择生成时所使用的分辨率,有二 k 和四 k 可选。此外我们也可以自定义生成图片的分辨率。 宽高笔在下面直接手动输入相应的数字就可以可以看到。在设置选项中还有一个最后的选项,在点击这个选项之后,上方会出现双引号,这个选项叫文字效果增强,是什么意思呢?如果直接描述让画面中出现什么样的文字,有可能我们所描述的文字会被认为是需要在画面中生成的物体,而非是文字。所以这个时候我们就需要用双引号将文字进行 选。比如现在我们在引号当中书写咖啡,同时在引号之外书写人物,衣服上印着咖啡,现在回车发送,可以看到一段时间后我们就成功的生成了人物拿着我们指定的咖啡杯喝咖啡,同时衣服上印着咖啡两个字的画面了。我们现在已经了解了基础 的纹身图图,生图以及相关的生图参数。下面来看一下在生成图片之后,我们对于图片各种操作的衍生功能。现在将鼠标放置在任意一张我们已经生成好的 图片上,可以看到下方有很多快捷选项,将鼠标悬置在快捷显,将鼠标悬置在快捷选项上方,可以显示它的功能。由第一项是智能超清,能够将图片变得更加清晰。第二项是类似的超清功能。而第三项则是局部重 绘,可以选择画面当中的部分内容,配合提示词的描述进行重新生成。第四项是破图功能,也就是改变图片的比例关系,新增画面内容。第五项则是直接将图片上传到生成视频的预备窗口当中,你看到在点击之后,下方的功能就自动切换为了视频生成 功能,且将我们刚刚生成的图像放置在了预备窗口。而下一项则是消除功能,可以选择性的消除画面当中的某些事物。在最右侧还有查看更多选项,在点击之后有细节修复和对口型功能。我们现在点击查看大图,此时能够看到更加全面的功能和更详细的信息。在图像的右上方可以点击下载这张图片, 同时向收藏功能发布到平台功能以及点击右上方的三个点,可以选择删除和举报图片。此外下方可以查看生成这个图片时所使用的提 词以及各项参数设置。而右下方则是我们刚刚已经提到过的一些功能。此外还多出了去画布编辑,而这个画布功能我们上一节课已经讲解过了,相当于是一个简化版的图像处理器,能够简单的对图像进行裁剪或者是修改简单的参数等操作。而最下方则是 重新编辑和再次生成功能,如果选择重新生成,则会以当前所设置的参数以及所书写的提示词再次生成这张图片。而重新编辑功能则会将当前的参数与图则会将当前生成这张图片的所有参数都加入到预备窗口当中,我们可以对这些参数进行二次修改,然后再次点击 生成。通过图像生成功能,已经生成好的图像可以在左侧的资产选项当中查看,上方有相应的分选项,可以选择查看的类型,比如说是查看图片还是查看视频。总的来说,和众多的 ai 视频生成 平台一样,极梦 ai 所提供的图片生成功能主要还是以纹身图为主,而像图生图的功能更多的是参考图生图,其可控性相比于 stabilty 标称还是略逊一筹。如果甲方有更为细致的要求,或者自身具备一定的美术功底,可以更加精准的修改图片, 那么在图生图时还是更加建议使用 stable development。 当然,正常生图的话,在大多数情况下使用极梦 ai 的 生图功能是绰绰有余的。接下来我们来到主页来观看其他作者生成的作品,可以看到,目前极梦 ai 的 图片生成模型在生成效果上不仅画风十分广泛,且生成的质量也实属上乘。 此外,在生成图片时,如果还想不到什么好的提示词或者增加图片生成质量的提示词,完全可以在首页查看其他作者的作品, 在右侧选择复制这个作者使用的提示词,并对其进行修改为自己所用。那么以上就是关于在极梦 ai 当中图片生成功能的详细讲解,如果觉得本期视频的内容对你有帮助,也不妨点赞、关注、支持一下,我们就下期视频再见!大家好,我们这期视频来讲解极梦 ai 的 视频生成功能。 来到极梦 ai 的 首页,点击左侧的生成选项,然后我们将下方的生成模式修改为视频生成模式。和众多 ai 视频生成平台类似,目前极梦 ai 主要的视频生成功能可以是纹身视频、图生视频,而图生视频又分为手真生视频、首尾真生视频。 同时相比于很多其他平台,极梦 ai 还多出了多真生视频的功能,我们下面就对这些功能逐一的进行演示和讲解。首先来看纹身视频, 这里大家需要有一个观念,就是在百分之九十九点九的情况下,我们想要制作一个能够准确表达自己想法的 ai 视频作品,使用的都是图声视频,因为文声视频只能通过文字描述来生成对应的画面,具体生成的结果是十分不可控的。在提示词的描述当中, 稍微有描述不到位的地方,可能就和想象的有很大的差异。例如现在我们在提示词中输入一只猫在看报纸,迪士尼风格,傍晚室内美式装修风格,在书写好提示词之后,直接点击发送,可以看到最终生成的效果。可能和大家想象的完全不同,我们所说的迪士尼风格其实有很多种类型,有三 d 的、 二 d 的, 还有真人写实的。而像当前生成的这种风格,显然更类似于猫和老鼠那种风格。所以在这个时候,我们就需要在提示词当中追加更详细的描述,比如这只猫它是拟人的,这只猫它是偏三 d 的。 同时傍晚能不能看到晚 答都需要在提示词中根据原视频的生成效果再追加描述。但目前生成一条视频,无论是资金成本还是时间成本要求都不低,所以相比于直接使用纹身视频的方式进行抽卡,不如先使用纹身图生成我们想象当中的画面,然后再对图片进行进一步的修改,使它更加符合我们的要求。再拿修改过的图片来生成视频, 这是一个既高效又能节省成本的方法。简而言之,在今后的大部分时候,大家制作 ai 视频作品时,就使用图声视频功能就对了,我们下面再来看文声视频,所以我们下面就来细致的讲解一下关于图声视频的操作。首先来看手真图声视频, 顾名思义,手真图生视频就是需要我们上传一张图片作为所生成视频开头的画面,至于之后人物在做什么,画面如何运镜,镜头当中的事物如何运动,如何变化,都是通过提示词来描述的。比如现在我们上传一个杯子,杯子本身是不会运动的,但经过提示词的描述,我们就可以让生成的结果有着无限的可能。下面来书写提 制词。不同于文声视频,在图声视频的时候,图片本身就涉及到了很多画面的详细信息,所以基本上我们不再需要对画面的内容进行过多的描述。通常描述的有两个方向,第一个方向是画面当中的运镜,例如固定镜头,镜头拉近镜头拉远,镜头环绕物体拍摄,或者像一些更加专业的镜 头,比如说西区科科变焦。不过不用担心,像这样有专业名词的镜头,可能也不过是西区科科变焦这么一个。在大部分情况下,我们想让镜头跟随主体镜头不断拉远,或者是无人机航拍视角, 这些都是在现实生活中常见的词汇,大家大可用大白话直接描述就好。在使用图声视频功能,我们在提示词中描述的第二个方向就是画面当中事物的运动,比如这个杯子它慢慢的浮空, 这个杯子突然炸裂,这个杯子逐渐变得透明等等,这些都属于在描述画面当中事物的运动状态,或者说以及画面当中的变化。例如现在我们就描述这个杯子突然爆炸,点击生成的效果还是非常不错的,我们所描述的爆炸效果,这个杯子就成功的发生了爆炸。 不过在进行手真图生视频的时候,生成的效果有一定随机性,如果第一次生成没有获得比较好的效果,不妨尝试多生成几次,或者在原有的基础上补充提示词描述的内容。因为当前这个杯子爆炸的效果可能过于柔和了,所以我们进一步在提示词中描述固定镜头,这个杯子突然爆炸,爆炸后的碎片飞速向四周扩散,然后再次点击 生成,可以看到这次生成的结果就相对符合了提示词的描述。不过在爆炸之后,杯子本身并没有出现破损,主要原因是视频生成模型生成爆炸这方面的能力还有 在完善,但不难看出,你可以看到这次的生成结果在碎片的爆炸速度上就明显优于上次,但杯子依然碎裂的比较柔软。出现这种情况主要是基于当前的视频生成模型,并不擅长生成爆炸这类效果。不过依然可以看出,我们所补充的提示词对生成的结果有了正向作用。这里顺带说一下,当大家在使用某一个平台生成某一种效果,无论如何都无法生成的时候, 考虑更换视频生成平台。每个平台所使用的视频生成模型擅长的方向是不同的,我们继续来讲解关于独生视频的相关操作。在刚刚我们讲解过,在刚刚我们说过,在提示词描述中,主要描述的有两个方向,一个是画面的运镜,一个是画面当中的事物的运动,一个是画面当中事物的运动或者变化。其实在某些情况下,我们需要描述的还有第三个,那就是画面当中可能 新出现的事物。我们还是以这个杯子为例,提示词就书写固定镜头,这个杯子里面钻出了一个小鸭子的脑袋,点击发送可以看到最终生成的效果。视频当中就出现了原本在图片里没有的内容,冒出了一只鸭子的脑袋,但我们可以注意到,当前冒出的这只鸭子的脑袋在颜色、造型、 美术风格上都是不可控的。所以当我们想要让画面当中出现新的事物,或者在运镜过程当中出现新的事物是我们指定的内容呢?自然是有的,就是我们下面要讲解的首尾真生视频。 举个例子,比方说我们现在需要让某一个人物戴上指定款式的墨镜,我们就可以提前利用参考图升图功能,上传墨镜的样式参考图和人物的造型参考图让墨镜合理的佩戴在人物的身上,并要求人物的其他部分不改变。那么此时我们就分别获得了两张图片,一张图片是原有的人物, 另一张图片是戴上了墨镜,但其他部分不改变的人物此时就有了首尾针,且首尾针之间是有强力关联的,我们分别将没有戴墨镜的人物作为手针,戴了墨镜的人物作为尾针。其实此方面我们同样描述运镜以及画面当中事物的变化,所以这里我们就描述固定镜头,人物戴上墨镜,然后点击生成,可以看到最终生成的效果就是人物成 中的戴上了我们在尾针途中指定款式的墨镜。我们下面再来介绍一下多针生成功能。在这个功能出现之前,我们想要制作一个很长的画面当中人物的运动比较丰富的镜头时,通常采用的方法就是不断的进行首尾针生视频, 在进行了一个首尾帧升视频之后,以尾帧图再作为手帧图,并新增一个尾帧图生成下一个视频片段,最终用剪辑软件将分别生成的首尾帧剪辑到一起,最终形成一个超长的画面当中人物动作较为丰富的视频片段。但使用这样的方式往往会出现一个问题,那就是在每一个首尾帧片段剪辑衔接的过程中,画面会出现微小的宽高比以及 画面色调的变化,这样的变化虽然不大,但却很容易被肉眼察觉,影响观众的观看体验。所以多帧生成功能就很好的解决了这个问题。比如现在我们需要这个人物在戴上墨镜之后继续做出一个双手比叶的手势,此时我们就可以先用图片生成功能修改人物的姿势,然后进一步的将修改好姿势后的图片 作为生成视频的第三针上传到这个位置,使用方法也很简单,直接通过拖拽的方式拖拽到这个区域,可以看到此时就会多出一个新的图片上传区域,松开鼠标就可以可以将图片上传到第三针了。在上传好之后,针与针之间都可以添加提示词来描述画面当中的运镜以及事物的变化。例如在第一针和第二针当中,我们已经描述过了 固定镜头人物戴上墨镜,那么第二针到第三针之间,我们就描述固定镜头人物双手比翼,点击确定,点击生成。可以看到此时我们就生成了一条长达十秒钟的人物先戴上墨镜,然后再放下墨镜,然后再双手比翼的画面了。当然我们今天所使用的图片演示都比较简单,画面也多为固定镜头,大家在将来生成的时候使用更加复杂的图片以及经过转场之后的镜头, 在大多数情况下也是可以轻松实现的。我们最后来简单讲解一下视频生成功能的相关参数。首先是视频生成模型的选择,这里和图片生成模型的选择一样,大家选择版本标号越高的越好,将来有四点零模型,五点零模型就选择 更高的。而视频生成模式这里有首尾帧、智能多帧和主体参考,可以看到主体参考是一个全新的功能,它有点类似于在图声图当中的参考图声图功能相当于给纹身视频添加了一些画面当中事物造型的参考,但即便有这样的参考,我依然不建议大家使用纹身视频功能,因为它的可控性依然很差,所以这项功能大家如果感兴趣就自行探索, 不过相信最后你还是会回到纹身视频。那么就是一些常规的分辨率可选,二十一比九、十六比九、四比三、一比一、 三比四和九比十六。如果使用的是徒生视频,那么宽高比是有所上传的图片决定的。而分辨率方面,最高可以选择一零八零 p, 不 过当前使用的智能多帧功能最高只支持七二零 p。 此外,生成视频的时长有五秒和十秒可选,而在多帧生成当中,每一个图片之间的间隔是五秒,比如现在我们上传了三张图片,此时就会生成十秒钟的视频。 那么以上就是关于在极梦 ai 当中视频生成功能的详细讲解。本节课我们只讲功能,不讲技巧,想要生成更优质的 ai 视频, 更好的视频画面和更好的分镜头画面,大家可以继续往下观看我们的系列课程,这些都会在之后的课程当中讲到,相关的学习资料我也放在了评论区的置顶评论当中,大家需要可以自取。那么以上就是本期视频的全部内容,如果觉得本期视频的内容对你有帮助,也不妨点赞、关注、支持一下,我们就下期视频再见。大家好,我们这期视频来讲解如何使用 ai 大 语言模型来生成剧本和脚本。 首先要明确一下,制作 ai 视频作品自然是先有一个好的点子,有一个大致的方向,比如像战争题材的、 科幻题材的,或者是日常题材的。在有了这个大致的方向之后,下一步要做的事情就是生成剧本脚本了,相信大部分人都不是专业的导演或者编剧,并没有制作脚本剧本的专业能力,这个时候我们自然就要依靠 ai 大 语言模型帮我们生成,所以此时提问的方式就非常重要。在向 ai 大 语言模型提问时, 无论是生成剧本脚本,还是向他提问任何的问题,其实都有一个通用的格式。首先就需要给 ai 定一个身份,例如现在我们在提示词中描述你是一个水果销售员, 简单介绍一下苹果的优点,可以看到此时我们获取的答案就是苹果耐储存、营养高、口味百搭。现在我们来给 ai 设定一个新的身份,你是一个手机销售员,请简单介绍一下苹果的优点,可以看到此时我们获取的结果就是苹果系统流畅稳定、性能强劲、做 工精致等等。通过这两句对话我们可以看出,虽然提出的问题是相同的,都是简单介绍一下苹果的优点,但由于给 ai 设定的身份不同,最终他所给出的答案也完全不同。所以大家需要记住,在向 ai 提问时,我们想让 ai 在 更加专业的方向 给出相应的答案。首先给 ai 定下一个身份,那么定好身份之后,在提问框架中,第二项我们要提出的就是基础的问题,我们想让它做什么?比如在之前的问题当中,我们所提出的就是介绍苹果的优点,而如果我们想要获取一个剧本或者脚本,同样提出一个简单的问题,帮我写一段脚本就可以了。所以提问框架之二便是告诉 ai 它要做什么,但在提出要求的时候, 往不同的提问方式也能获得很多不同的结果。例如我们只是单纯的让它生成一个剧本,剧本是分为很多不同的方向的,从家庭论语到战争科幻,再到写实的记录片,可以说剧本小本的分类非常的广泛,不像苹果手机或者是苹果本身这种特别具体的东西。因此在给 ai 提问时,第三点就是规定 ai 回答的格式。就比如我们刚刚的两次 提问,你是一个水果销售员,请简单介绍一下苹果的优点。可以看到,在这两次提问中,我们的要求都是简单介绍一下,因为无论是苹果还是手机, 同样有非常多的方面可以介绍,从外形方面可以介绍,从品种方面可以介绍,从产地方面一样可以介绍。因此简单介绍看似是一个在提问时的常用语,但其实是给 ai 的 回答规定了格式。所以总结一下,在向 ai 语言模型提出问题时,我们要遵循的就是三个方面,第一点就是给 ai 定身份,第二点便是最基础的向 ai 提问题,而第三点便是规定回答的格。 有了这三个点,不要说是让他帮我们生成剧本脚本,在日常生活中,我们向他提出任何的问题,通常都能得到非常规范且符合我们需求的答案。所以我们下面就基于这三个点,要求 ai 大 语言模 型帮我们来生成一个剧本脚本。首先第一句话便是你是一个具有多年拍摄和写作经验的世界顶级导演,这句话便是给 ai 设定了一个顶级导演的身份。第二句话我们就来提出问题,现在需要你写一个简单的剧本,写剧本便是我们提出的问题,而第三点就是来规定格式, 在这句话中,我们已经规定了一个简单的格式,就是要求写一个简单的剧本。如果说我们实在没什么好的点子,想要发散一下思路的话,写到这里就可以直接点击发送等待回执效果了。但如果我们有具体的想要生成剧本脚本的方向,就需要进一步的来规定 ai 回答的格 例。如要求以人与动物之间的感情为主题,最好能有动物为了保护主人受伤的情节。可以看到这些内容的加入,又决定了最终剧本生成的导向,这便是最终我们给 ai 所设定的回答框架。但此时我们还需要考虑一个问题,那就是我们制作 ai 作品时,这个作品的时长是多少?这个问题非常的关键,因为这将涉及到我们最终完成一个 ai 作品所 我要花费的时间和资金成本。所以这里我们最好来规定一下 ai 所给出的简单剧本的字数。通常来说,一分半的剧情对应的是四百字左右的剧本,当然具体看剧本当中所给出情节和分镜头画面的曲折程度来决定,所以这里我们进一步提出要求,要求故事情节尽量简单,剧本字数不超过四百字。 在回车发送可以看到一段时间后,剧本就生成好了。这个剧本所给出的内容还是非常详细的,其中包含了三个场景,即每个场景当中都发生了什么样的故事,整个故事的情节也非常简单,首先,场景一讲述了老人和狗之间感情非常好,而场景二则讲述了老人去取药的时候,有一只野狗扑向了老人,而老人所养的黄狗护主的故事。 场景三则讲述了野狗被赶跑,但老人所养的黄狗也因此受伤的情节。那么有了剧本之后,下一步便是生成脚本了。大家在这里可能会疑惑,剧本和脚本有什么区别呢?通常来说,剧本更像是一个故事的梗概,主要是给导演看的,让导演能够以短视 间内快速地了解整个故事发生了什么,有哪些情节。那作为一个 ai 视频来说,导演便是生成这个剧本的我们,所以我们十分有必要在生成保本之前,先生成一个剧本,让我们清晰地了解这个故事发生了什么。至于脚本,它更像是在生成 ai 视频分镜头图片时,作为一个指导书般的存在, 能够指导我们这个画面有怎样的构图,有怎样的内容,在生成时该书写什么样的提示词,在制作视频时该生成多长时间的视频片段。同时,在和甲方对接时,一个脚本通常显得字数很长,也很专业,同样是一个加分像,所以从多个角度考量,在写好了剧本之后,下一步生成一个脚本都是很有必要的,所以我们下一步就来书写 这个剧本。生成对应脚本要求,脚本中包含每个分镜头的详细画面描述、人物对话、镜头视角以及可以增强镜头表现力的提示词、分镜头的时长及一个脚本最基本的元素。在这段内容中,前面是我们所提出的生成脚本的要求,可以看到这些要求都是基于将来方便我们生成分镜头图片时所提的要求,例如像镜头的视角, 增强镜头表现力的提示词。而最后一句话则是基于我们并不是一个专业的导演或者写脚本的人,不知道一个脚本最基础的有哪些元素,所以这里就多提了一句,让他帮我们生成 脚本最基本的元素。在写好了这些内容之后,就直接点击发送,一段时间后脚本就生成好了。可以看到最终生成的脚本要远比一个剧本在内容上更加丰富。这里就包含了每个分镜头的镜号,时常镜头的视角,其中画面描述和增强表现力的提示 词我们都可以将其用在生成分镜头图片中,而且我们可以看到当前的脚本中一共有六个镜号,也就是说至少我们需要生成六张图片作为将来生成视频的首尾。这画面相比于只有三个场景的剧本,显然脚本要丰富很, 并能够更多展现画面的细节,也能够在和甲方对接时让甲方觉得你更专业。当然需要注意的是,通常来说我们所生成的脚本是绝不可以直接使用的,因为极有可能在脚本当中存在很多前后剧情上的矛盾,逻辑上的错误,或者由于画面描述过于华丽或是不合逻辑,导致生成的图片并非我们想象当中的图片。 因此在使用脚本当中的内容生成分镜头图片时,一定要根据自己对剧本的理解进行修改,在剪辑时,每个镜头的时长也并非要严格遵循在脚本当中所给出的时长,大家根据自己的实际观感来调整时长即可,所以往往最终的 成品会和脚本当中所描述的有不小的出入。在更多时候,其实脚本仅仅是给我们一个在生成画面时的参照,真正想要生成好的画面,我们使用的往往是我们作为导演对这个剧本的理解好的。那么现在我们已经学会了如何用 ai 大 语言模型, 通过今天所讲解的提示字框架技巧生成剧本脚本。从下一期视频开始,我们就要讲解在获得了剧本脚本之后如何具体的分成分镜头图片以及保持角色的前后一致性了。包括整个制作 ai 视频的全流程,我们也会在后续的内容当中详细的讲解。如果大家觉得本期视频的内容对你有帮助,也不妨点赞关注支持一下,我们就下期视频再见。 大家好,我们这期视频来讲解如何维持在图片生成中角色前后的一致性。上一期视频中,我们利用 ai 大 圆模型 成功的生成了一个简单故事的剧本和脚本,那么作为导演,在生成图片之前,我们就有必要了解在这个剧本脚本当中都出现了哪些角色,而哪些角色是要重复出现的, 哪些角色只出现一次,这些重复出现的角色是否会随着时间的变化,季节的更替或者是设定的要求等等出现前后造型的改变。在了解了这些信息之后,我们就可以开始生成分镜头图片,同时控制生成这些图片时人物前后的一致性了。当然,无论是使用 ai 制作还是手动制作,在制作一个故事影片时,我们要做的第一件事情就是设定人物的形象, 这里有两种方式可以生成人物的形象。第一种方式就是我们自己来设计,通过提示词的描述来生成指定的内容。在设计角色形象时,就要有诸多因素的考量了。首先是确定画面的风格,不同的风格可能适合的故事也不同, 像有些故事比较抽象,可能就适合动画的风格,而有些故事比较写实,比较真实,而有些故事比较真实,可能就需要写实的风格。想要生成指定的风格,我们可以直接点击豆包 ai 的 图像生成功能,可以看到在下方的选项中有一个 风格选项,在这里我们就可以选择很多种不同的美术风格,由这里选择卡通风格是比较适合我们当下这则李阿婆和老黄之间的简单故事的。下面就来设定形象了,我们只需要描述 具体的人物性别、年龄以及外貌特征就可以,我们这里就书写生成一个老奶奶,穿蓝色布衫,黑色裤子、黑色布鞋,一头白发。而比例方面,我们最好选择一个适合生成人物全身造型的比例,由这里我们选择九比十六,然后点击发送,一段时间后,我们就生成了符合提示词描述的 片。这些图片当中每一个李奶奶的形象可能都有所差异,所以我们可以选择其中一个,让 ai 对 这个形象进行学习,以便于后续的生成。比如现在选择第一个,在选择好之后将这张图片保存起来,然后关闭图像生成功能, 我们将其发送到豆包 ai 上。提示词方面就书写图片当中的人物是李阿婆,记住这个形象。回车发送可以看到此时豆包 ai 就 回执了一条消息,告诉我们他记住了李阿婆的形象。在之后的图片生成中,我们需要去细致的描述他有什么形象了,就只需要提及这个名字 能生成对应的结果,比如现在我们来描述生成李阿婆打篮球的画面,回车发送可以看到此时生成的结果,就按照我们刚刚所上传图片的形象生成的李阿婆打篮球的画面。对于像其他的人物动物, 想要设定人物的形象都可以用相同的方法。除了我们通过手动描述提示词的方式来设定人物形象之外,还有一种更加简单但不太可控的方法,那就是无需先设定人物形象,而是伴随着分镜头图片的生成,顺带把人物形象和画面当中出场的事物形象进行 设定。例如现在我们再次点击新对话选项,然后直接将分镜头脚本当中对于第一个分镜头画面的描述给复制下来,选择图像生成功能粘贴到这里,比例方面就选择 十六比九,风格方面依然选择刚刚的卡通风格。当然除了在豆包上给到的选项之外,也可以手动的描述想要生成什么风格,例如现在在提示词中我们来描述可以看到此时生成的结果就是我们非常熟悉的三 d 皮克斯风格了,其画面当中就直接生成了李阿婆和老黄的形象 上就是两种进行角色造型设计的方法,那我们该如何在生成后续的分镜头图片时来保持角色造型的一致性呢? 其实第一种方式我们就已经讲解过了,那就是让豆包 ai 这个能够关联上下文的大语言模型去记录某一个参考图当中人物的形象。比如刚刚我们就记录了这个卡通形象的李阿婆,最终生成了李阿婆在打篮球时的画面。而第二种方法则更加便利,那就是我们什么也不做,就按部就班的将分镜头当中的画面描述给复 粘贴过来。当然这样的做法可能会存在一定的概率导致生成人物的造型前后不统一,所以需要谨慎使用,在适当的时候及时的修改方法。我们现在再次选择图像生成功能,然后粘贴第三个分镜头的画面描述。深夜暴雨,李阿婆撑着黑伞佝偻的前行,老黄紧随其后。这次生成我们不做任何的画面风格描述以及人物造型描述,直接点击发送, 在比例上也不做要求,看一看生成的效果如何。可以看到,得益于豆包 ai 能够关联上下文的能力,我们最终生成的效果也成功的生成了在美术风格和人物造型上能够基本保持统一的画面。但很显然,豆包 ai 擅自根据我们当前描述的下雨 情形,给李阿婆更换了一身类似于雨衣的衣服。所以就像我们刚刚所说的,在使用这种方法时,存在一定的概率改变画面当中人物的形象或者是画面本身的美术风格需要我们及时的进行调整, 我们下面可以继续使用传统的方法,就是先让 ai 去记录画面当中人物的形象。我们将李阿婆的形象通过截图的方式先保存到桌面上,然后将其发送给豆包 ai, 在 发送好之后告诉他这个参考图当中的人物是李阿婆记住这个形象之后生成的,李阿婆都使用这个形象,现在回车发送。现在我们让 ai 大 语言模型记住了一个明确的李阿婆形象, 再次将第三个分镜头的画面描述复制粘贴过来,使用图片生成功能进行生成,看一看效果如何吧。可以看到此时我们生成的结果,李阿婆在形象上就符合了刚刚我们所上传参考图当中李阿婆的形象穿着一件蓝色的布衫,黑色的裤子和黑色的布鞋。如果在后续的生成当中老黄的形象也有所改变的话,我们 同样可以用这样的方法来锁定老黄的形象。不过需要我们知道的是,在实际生成的过程当中,人物的某些角度也有所改变,比如像画风突然变得不统一, 人物的比例突然变得和之前不同。在这个时候我们使用豆包 ai 或者是一些平台的参考图生图功能,想要修改就变得十分困难了。因此在这个时候,我们可以借助一些目前在保持角色前后一致性上做的比较好的 ai 模型,那就是 context 的 模型和 banana 模型。具体的使用方法可以来到 leibu, leibu ai 在 打开首页之后可以看到,在首页当中目前是找不到搜索栏的,这是当前 leibu leibu ai 的 一个 bug, 想要找到搜索栏,我们可以任选一个模型,下载页面点击进入,然后在左上方就能看到搜索栏了。 我们直接搜索 banana 或者 context, 然后在搜索结果中选择工作流选项,找到一个基础的 context 的 模型,万物迁移工作流点击运行。 至于剩下的操作就很简单了,可以看到这里有单图编辑功能、多图编辑功能,甚至三图融合功能以及基础的纹身图模块。如果我们需要生成的画面当中只对一个角色在姿势和环境上进行更改,通常我们使用的就是单图编辑功能, 直接将需要修改姿势和环境的人物作为参考图上传到这个位置,然后在提示词输入框中输入我们需要让 context 的 模型帮我们做到什么事情,比如当前作者提供的模板就是保持主体不变,将女人的黑衣服改成白色,红裙子改成黄色。而我们在生成时,因为是要制作脚本的分镜头图 片,所以这里可能更多的是关于人物姿势和环境的描述,在填写好之后,直接点击右上方的生成就能获得对应的结果,整体的操作还是非常方便的,而且往往在角色造型、 比例、风格上的前后一致性保持的相当不错,在一些特殊的使用情形下,会比豆包 ai 更加好用,所以这里要作为一个补充,大家在遇到这样的情况时,要及时想起更换一个图片生成平台。那么以上就是关于在生成分镜头图片时如何设计角色造型 以及如何保持角色造型的前后一致性,如果觉得本期视频的内容对你有帮助,也不妨点赞关注支持一下,我们就下期视频再见。大家好!在先前的课程中,我们讲解了该如何生成具 本脚本,以及如何利用豆包 ai 这款能够关联上下文的大语言模型,在保持角色前后一致性的同时,生成每一个分镜头图片。我们这期视频就来梳理一下创作整个 ai 视频作品的全流程,让大家对于整个制作环节都有一个认识。那么首先第一个环节自然就是创作剧本和脚本,这个部分想必大家已经不陌生了,需要注意的是制作的顺序,我们 首先需要制作一个剧本,然后才是制作一个脚本。剧本的作用是给身为导演的我们在短时间内详细的了解整个故事的全流程,而脚本的作用更像是一个在制作 ai 分 镜头图片以及生成 ai 视频时的一个指导书,里面包含了镜号、时长、镜头视角、画面描述、人物动画和表现力相关的提示词, 能够十分详细的告诉我们在生成 ai 图片和 ai 视频时,该如何让生成的画面更有表现力,逻辑更加严谨。而接下来我们要做的工作就是上节课所讲解的设定在剧本脚本当中出现的事物的造型。 在这个剧本脚本中涉及到的造型只有两个,一个是李阿婆,一个是老黄,另外一个则是他们在途中遇到的一条野狗。所以我们下面要做的事情就非常顺理成章了,那就是结合我们上一节课保持角色前后一致性的知识,利用豆包 ai 能够关联上下文的能力, 结合脚本当中提示词的描述来不断的生成分镜头画面。可以看到这个画面是李阿婆和老黄在夜雨中走山路的画面,是我们之前的课程中已经生成过的,再继续往下看, 我们还要生成的就是在整个故事中期需要出现的野狗的画面,这里我也是直接用到了脚本当中提示词的描述,生成图片,树丛晃动,野狗,可以看到在脚本当中有对野狗的描述是灰黑色 头发杂乱,呲牙窜出,同时眼神非常的凶狠。进一步的我们需要生成的是李阿婆被野狗精的后退散掉在地上的画面,但可以看到在生成这个画面时,画面当中的环境并不符合脚本剧本当中的设定,原先李阿婆走的是非常泥泞的山路,现在变成了水泥 地面,所以我们需要直接在提示词中对之前生成的内容提出要求,将环境改为泥泞的小路。可以看到这次生成的结果,李阿婆和野狗身处的环境就变成了符合剧本脚本当中描述的环境, 所以在之前的生成中,我们并没有设定老黄的形象,所以生成到这里下面需要老黄出场了,我们就需要通过上传参考图的方式给老黄的形象设定一个明确的身份。可以 看到这里 ai 表明已经记住了老黄的形象,下一步我们就可以来生成老黄和野狗缠斗的画面了。不过很不幸的是,由于上传的老黄的图片是没有睁开眼睛的,所以紧接着我们生成的老黄和野狗缠斗的画面,老黄依旧没有睁开眼睛,不过像这种小细节是很容易修改的,我们直接告诉豆包 ai, 让图片中的老黄就是睁着眼睛的老黄了。 进一步的我们根据脚本当中所书写的内容来生成老黄受伤的画面。像这种画面当中有多个角色的情形,其实是很难生成的,所以我们可能需要多尝试几次,比如说第一次生成的画面,老黄和野狗之间的站位关系就不是特别合理,所以紧接着我们进行了重新生成, 看到这次生成的画面,老黄在冲着逃跑的野狗叫,这样的画面布局和狗的行为就变得十分合理了。紧接着我们就生成了最后一幕的画面,就是生成了李阿婆在给老黄包扎的画面,这里我重新强调了一下三 d 皮克斯风格。因为生成到这里, ai 在 关联上下文的方面已经 逐渐弱化了,第一次生成我生成了一个写实的风格,所以我将那个生成记录给删除了,重新强调了三 d 皮克斯,不过生成的效果依然不是十分理想,可以看到李阿婆的造型和老黄的造型都发生了巨大的改变,所以接下来我们要修复在之前的画面当中存在逻辑问题的部分,以及 需要让镜头当中人物行为更加合理的部分。比如第一张分镜头,我重新进行了上传,在上传之后我的要求是让李阿婆放下菜抚摸狗头, 这样一来就可以使用首尾针生成,在固定镜头下生成李阿婆放下菜去抚摸狗头的画面,最终生成的效果也不错。之后我又需要生成李阿婆给老黄包扎的画面。一开始生成的并不理想,第二次生成同样不是很理想,所以我反复尝试了几次,最终也没能生成比较好的结果。 这个时候我们就有多个选择了,第一个选择就是更换 ai 图片生成平台,就像我们上一期视频当中所讲的 context 的 模型,用 ctrl y 的 工作流去固定风格,更改人物行为。第二个选择就是我们另起一个新对话框,在新的对话框当中可以看到我重新上传了李阿婆和老黄的图 片,让 ai 进行了学习,这次生成就十分容易的生成了我想要的画面效果,所以豆包 ai 在 关联上下文的能力上可能还有待加强,当生成的内容过多时,可能就会出现一些我们 不想要的结果。那么到了这里,我们要做的工作就是整理图片,准备生成视频了。大家最好来创建一个文件夹分类,一个来放图片,一个来放视频,这样会让你的创作更有条理。我们将生成好的图片按照从先到后的顺序进行 标号,不要小看这些标号,虽然我们这次生成的故事比较简单,能够分得清先后顺序,甚至十几分钟的 ai 作品时,可能到时就要用到成百上千张的图片了,此时标号就变得非常有帮助,能够让我们的制作变得更有条理。至于接下来要做的事情,想必大家都很清楚了,就是来到极梦 ai 视频生成屏 上传我们制作好的分镜头图片,通过图生视频的方式来生成对应的视频片段。这里的生成并没有太多技巧,和我们之前的课程中讲解的一样,在上传好手真图图片之后,在提示词中,我们要描述的有两个方向,第一个就是镜头的运动,也就是运镜,第二个就是画面当中事物的变化。可以看到,在每条视频中,除了首尾真生视频, 我书写的格式都是镜头跟随镜头怎么样,然后画面当中的事物该如何运动,比如说这条就是狗,跟着老人顺着路向前走。当然在生成这些画面时,都会伴随着一定的随机性,所以有时我们可能需要反复的修改提示词的描述,或者 重复的生成画面,以谋求更好的效果。不过总的来说,生成图片是作为花时间的环节,有了图片之后,生成视频就非常水到渠成了,也没有什么特别有难度的操作技巧。这最后一步就更加简单了,我们将生成好的视频片段上传到剪映当中,开始进行剪辑。剪辑的先后顺序要根据我们所制作的 ai 视频作品类型来决定。 比如说当前这则故事,在设定当中,人物并没有产生对话,也没有特别紧凑的剧情,所以更加适合以旁白讲述的方式来讲述这则故事。所以此时我们就要先获取一段旁白的音频,根据音频的长短,结合视频的内容来决定视频总体的长短。那么我们该如何获取音频呢? 这里使用的一个免费的软件叫做 t t s maker, 这个是它的网址,大家可以记录一下,我们可以直接在豆包当中打开这个网址,因为本身豆包也是一个浏览器,在打开之后,我们就只需要将这则故事的旁白复制粘贴到对应的输入框当中,然后在右侧选择音色,这些音色可以点击这个位置进行试听。 maker 是 一款免费的文本转语音工具, 语音合成服务,如果觉得这个音色还不错的话,就点击右下方的开始转换。当然,在此之前,我们自然是要获取一段旁白的文本的,那么这个文本该如何获取呢?方法也非常简单,在豆包 ai 当中,我们将之前生成好的剧本直接上传上来,将它作为一个豆包 ai 的 文本参考, 然后告诉他根据文本写一段故事的旁白。在写好之后,需要留意一下字数,如果字数过多的话,可能在旁白没有讲完的时候, 我们生成的分镜头画面就不太够用了,所以这里我让旁白字数再精简一些,以此来匹配我们生成的分镜头画面的时长和节奏。好了,现在有了故事的旁白,有了分镜头画面,剩下的就是精心打磨这段 ai 视频的成品效果了。因此在此基础上,我添加的内容还包括了一个背景音乐,想要添加背景音乐的话,可以直接在剪映的左上方点击音频 分选项,在这里直接搜索我们这则故事是什么类型的故事,那么在这里就搜索什么类型的音乐,比如偏童话类型的就 直接搜索童话,偏动作类型的就直接搜索动作,通常都能搜索到相对满意的结果,不过需要注意的是,在剪映上很多音乐是有版权的,如果你的作品将来要拿去商用,最好还是用 ai 来生成音乐,在豆包 ai 中同样有直接生成音乐的能力。 看到在这里有一个音乐生成选项,在点击之后,按照对应的格式来描述你想生成的音乐,就可以回到剪映上。我们当前所生成的这则故事本身比较简短,因此剧情的前后衔接其实并不是很顺畅。老人前一秒还在院子里面摘菜,而后一秒就跟老黄一起出了门,走在泥泞的道路上。所以这个时候我们就特别需要转场的工 功能,对镜头与镜头之间做一个过渡,让观众能够认为上一秒和下一秒之间发生了什么事情,以此来让分镜头之间的衔接更有逻辑。所以这里大家可以选择上方的转场效果。除了转场效果之外,在我们选中一个分镜头片段之后,可以看到右上方还有一个动画选项, 这里可以设置这段分镜头画面的入场和出场效果。比方说在这段视频中,我使用的就是一个渐入和渐出效果,我们现在点击播放看一看效果如何, 可以看到此时的镜头先按下去再亮起来,这就是渐入和渐出效果。在制作不同类型的画面时,转场效果能够给整个视频增色不少。至于最后一步,就是给当前的视频添加字幕了。在剪映中想要添加字幕非常简单,只要已经有了文本的音频, 直接右键这段音频,在右键菜单当中选择识别字幕或歌曲选项,这样一来就会自动生成字幕,并且生成的字幕也会在对应朗读的位置。而且想要调节字幕的大小和位置时,虽然在选中后可以看到只会选中这么一小段,但其实我们在调整这一小段对应的字幕之后,其余的字幕在大小和位置上也会跟着一起调整。比如说看到这里, 看到这里这些字幕都跟着我们调整第一段字幕时一起进行了调整。另外再简单讲解一下添加字幕的小技巧。在我们观看一些电影时,电影的结尾可能会有制作人员的报幕,这些报幕往往以滚动的形式播出, 那么像这样的慢慢变大或者滚动的效果是如何制作出来的呢?其实方法也非常简单,我们首先点击剪映当中的文本选项,这里有一个默认文本选项,将其拖拽到对应的位置,在拖拽好之后,选中这段文本,会看到在右上方有一个参数设置选项,我们将这个选项往下滑动,有一个位置和大小, 将鼠标悬置在这里,然后点击一下,这个操作叫添加关键帧,此时在这段文本的当前时间线上就记录了第一个位置,我们现在将下方剪辑轨道上的纸针向右侧拖拽,也 就是向后面的时间进行拖拽。在拖拽好之后,我们的预览画面当中的文本选项改变大小或者改变位置,此时我们所记录的第一个关键帧位置和当前改变了大小的位置之间就会形成一个非常平滑流畅的变化关系。我们再来播放一下看看效果, 这就是如何对我们添加的文本或者字幕进行移动位置改变大小的操作了。那这一步我们最终就通过后期的剪辑制作,将零碎的片段剪辑成片,完成了这个 ai 作品 的制作。那么以上就是本期视频的全部内容,我们最后对这个简短的故事制作的 ai 短片来结束这节课吧。黄昏小院里,阿婆摘菜,老黄扶在脚边,尾巴清扫他裤脚。深夜暴雨,阿婆撑伞去邻村取药,老黄紧跟树丛窜出野狗扑来, 阿婆惊呼后退,老黄立刻挡在身前缠斗,后腿被咬伤,肾血仍死守不退。凌晨,屋檐下,阿婆颤抖着用屋条给老黄包扎,哽咽问傻狗疼不疼,老黄用弱小身躯的守护温暖了寒夜。 大家好,我们这期视频来讲解如何让视频片段人物是不能说话的, 像这样能够说话,那往往我们后期进行的配音也和人物的口型不会匹配。我们要想让视频片段当中的人物开口说话,需要先后做两件事情, 第一件事情就是对角色所说话的内容进行配音,而第二件就是进行嘴型匹配。所以首先我们需要了解配音软件的使用方法,目前市面上的配音软件有很多,有免费的,有收费的,有在线的,也有开源的,我们究竟该如何选择合适的配音软件呢?这里大家可能就想 到了,想要获取方便好用或者免费的配音软件,我们不妨我们豆包 ai, 在 提示词中,我们输入提供五个 ai 配音网站的网址给我,要求免费额度多, 配音可以附带感情回车发送,此时我们就得到了五个配音网站的相关介绍和他们的网址。当然需要注意的是,我们在搜索时,很多所谓免费的网站只是在宣传时宣称是免费,但实际使用时有可能上来就收费,所以大家需要甄别一下,有时使用 ai 大 语言模型也并不能得到十分准确符合 我们要求的结果,所以下面我来给大家介绍一款可能大部分 windows 电脑上都装有的一个免费额度非常多的 ai 配音软件,它就是微软公司研发的 cleanchamp, 直接在任意的浏览器中搜索 cleanchamp, 找到后缀带有官方字样的,我们点击进入,然后点击深入了解,我们在任意的浏览器中搜索 cleanchamp, 在 线使用,然后选择这个选项,然后点击这里的编辑视频, 此时就会来到 clipchamp 的 登录页面,可以使用谷歌账号或者微软账号进行登录。在登录好之后,我们就来到了 clipchamp 的 操作页面,可以看到在操作页面的这个位置有一个文字转语音的选项,点击试一试,此时就来到了视频的剪辑页面。 clipchamp 本身是一个视频剪辑工具,大家在自己的电脑系统上通常就可以搜, 也可以直接在浏览器中使用。网页端来到剪辑页面之后,点击左下方的文字转语音,这样一来我们就在剪辑轨道上添加了一个空白的带录入语音的音频文件,可以看到在右上方可以选择语言和下方的声音音色,这里的语言选项非常丰富, 在展开下拉菜单之后,我们向下滑动滚轮,可以看到各种语言几乎都可以找到,甚至还有某些地方的方言。当然我们保持默认的中文普 通话就可以看到,在每一个音色选项的下方,还有一行小字来 标记这个音色的特点,比方说高兴、温暖、有表现力、乐观等等。在选择好音色之后,音色下拉菜单的下方可以点击试听,从各种语音中进行选择,帮助创建值得分享的故事。此外,在下方的高级选项的展开菜单中,我们可以选择配音的感情,通常默认的音色感情是一般在展开之后才能选择更多的感情,而 且微软也在不断的更新 click tab 这款软件,大家再过一段时间使用这个软件可能会发现可以选择的情感变得比以前更多了。比如现在我们选择兴奋这个选项,相应的声调可以选择更加高亢,同时将语速也适当调快一些,以此来迎合我们所选择的情感选项。而文字方面就输入,太好了,今天是周五,明天就可以休息了。即下方的预览就可以 试听这段文本最终的配音效果。太好了,今天是周五,明天就可以休息了,可以听出这段配音还是非常富有感情的。为了方便对比,我们再将上方的情感调整为普通,而声调也调整为默认,速度就调整为一般。再次点击率了,太好了, 今天是周五,明天就可以休息了,可以听出显然这次生成的音频在情绪上就没有那么兴奋了。在确定好这个效果是我们要选择的配音之后,点击右侧的保存选项,就可以将当前这段配音效果 添加到左侧的剪辑轨道上了。当然我们说过 clip tip 本身是一个剪辑视频的软件,所以可以看到上方还有一个添加视频片段的位置。虽说如此,在网页端它的反应速度和功能 其实都不如目前我们在电脑上所下载的剪映那么全面。所以大家如果有更熟悉的剪辑软件,或者已经在使用剪映了,那不妨把这段音频直接保存到本地,然后拖拽到自己更加熟悉的剪辑软件上去使用。要想导出这段音频,我们就点击右上方的导出选项。 在点击之后有一个下拉菜单,这里是选择导出的视频分辨率的,因为当前并没有视频画面,所以我们选择最低的四八零 p 就 足以满足对质量的要求。在导出好之后,可以看到浏览器右上方就提示已经下载成功了。在导出好之后,可以看到浏览器的右上方就显示 这段音频已经导出成功了。不过目前很多 ai 视频生成网站的对口型功能只支持上传 mp 三格式的音频文件,而当前我们导出的是 mp 四格式的最下面,需要对其格式进行转, 方法也很简单,打开剪映,将刚刚导出的 m p 四格式的音频文件拖拽到剪映中,在拖拽好之后,点击右上方的导出,可以看到在导出选项里默认是勾选视频导出的,我们将其取消勾选,然后选择下方的音频导出,点击导出,这样一来,音频文件就导出在了本地电脑我们所选的位置了,而我们下面要做的事情就是打开 ai 视频设 生成网站,比如说极梦 ai 点击生成功能。在极梦 ai 上对口型对应的是数字人功能,点击下拉菜单,选择数字人选项,然后下面将我们提前准备好的视频文件或者角色的图片,通过拖拽的方式导入到左侧的位置。需要注意的是,这里需要检测人脸,如果没有检测到的话,是不 可以进行对口型的,所以大家选择的视频片段或者是人脸的图片要尽可能保持正面清晰且完整。然后我们点击这里的上传音频选项,将提前准备好的音频上传到这个位置,这样一来就可以开始对口型了。不过需要注意,我们上传的视频秒数和音频秒数要保持一致才可以,比方说现在我上传了五秒钟的视频, 音频上传了四秒钟,这样就可以保证人物在视频的时长之内将音频文件的内容给说完,现在点击生成。在等待的这段时间,我们简单讲解一下,目前具备对口型功能的 ai 视频生成平台非常多,基本上能够生成 ai 视频片段就能够进行对口型, 大家如果在当前的平台发现对口型的效果不佳,也可以尝试更换其他的平台。此外,像极梦 ai 本身或者一些其他的 ai 视频生成平台,其实也带有一些简单的文本转音频的能力,不过可选择的音色以及可搭配的感情都比较少,所以如果需求简单的话,大家不妨尝试一下直接用 ai 视频生成平台自带的配音功能, 一段时间后视频就生成好了,来看一看最终的对口型效果如何吧。太好了,今天是周五,明天就可以休息了,可以看到整体的对口型效果还是不错的,人物的面部运动非常的自然,且在讲话时嘴部的动作也和所说的音频内容相匹配。我们再来简单看一遍,太好了, 今天是周五,明天就可以休息了,那么以上就是本期视频的全部内容,如果大家觉得本期视频的内容对你有帮助,也不妨点赞、关注、支持一下,我们就下期视频再见。大家好,我们这期视频来讲解如何进行 ai 配乐。大家在观看一些影视作品时, 作品当中的画面以及人物的对话之外,整个作品当中的配乐也是作品的重要组成部分。要想使用 ai 进行配乐,主要分为两个流程,第一个流程是使用 ai 大 语言模型生成提示词描述,来描述我们想要怎样主题的配乐,配乐的风格是什么样的。而第二步就是要使用 ai 配乐平台来生成对应的配乐。所以我们首先来看如何书写提示词描述 去获取我们想要的配乐。在生成之前,要先确定一下我们使用的 ai 配乐平台对于提示词的要求是怎样的。比如我们接下来要使用的 music hero ai, 可以 看到在提示词输入框中,它的要求是描述你想要的音乐风格和主题, ai 将为你生成歌词, 所以这里它的要求是描述音乐风格和主题。大家了解了这些要求之后,我们就可以使用豆包 ai 这款大语言模型来生成我们想要的提示词了, 当然在生成时也可以结合现有剧本当中的故事情节来生成较为契合的配乐。假设我们现在想要生成一个以科幻战斗类型的剧本为导向的配乐,现在就输入提示词。你是一个音乐创作专家,擅长各种类型的音乐创作,现在我需要你写一段用于 ai 配乐平台 music hero 生成音乐的提示词描述,要求包含歌词、音乐风格和主题, 以此来适配一个科幻战斗题材的故事短片。可以看到,在提问的格式方面和我们先前创作故事脚本剧本是一样的,同样是三段式提问给 ai 设定身份,提出我们的需求,给 ai 的 回答设定格式。 现在回车发送一段时间后,生成音乐用的提示词就生成好了,而我们下面要做的事情就是直接将这个结果复制下来,在复制好之后回到 music hero。 需要注意的是,当前的输入框我们描述的仅仅是音乐风格和主题,而歌词是由 music hero 自动生成的。如果我们需要自己来填写歌词,就需要在上方 把自定义设置打开,可以看到这里就可以来填写歌词了。而我们下面要做的事情就是分别将歌词复制粘贴到上方。将音乐风格复制粘贴到下方。需要注意这里对音乐风格的描述是不能超过两百字的, 所以这里在书写音乐风格和核心主题的描述时,我们最好提前对豆包 ai 说明,音乐风格和主题描述加起来不要超过二百字。我们现在将精简过字数的音乐风格和主题描述给复制下来,重新粘贴到下方的窗口中,最后在这个位置输入标题, 比如就叫新世纪银河战士。当然也可以让 ai 帮我们想一个,在歌词和对音乐的描述都确认无误之后,在这里来选择一个声音,我们此次生成就选择女性,然后直接点击下方的生成音乐即可。在生成带有歌词的音乐的这段时间,我们再来看一看纯音乐该如何生成,其实方法也非常简单,首先将歌词给 删除,在删除歌词之后取消自定义设置选项,然后打开下方的伴奏选项,再打开这个选项之后,我们在上方就只描述音乐风格和主题, 这样一来生成的就是纯音乐了。这个操作比较简单,这里我们就不再做荣誉的演示。在制作 ai 配乐时,除了有歌词的歌曲和纯音乐之外,一个完整的视频当中也包括由于碰撞或者是自然界中存在的自然现象而发出的音效,比如说像自行车链条的声音, 车的鸣笛声或者是东西的掉落声等等,这类音效也属于 ai 配乐。不过在很多时候,这些音效在剪映当中有着非常丰富的资源。打开剪映,选择音频选项,然后在左侧的分选项当中我们选择音效库,在这里就可以找到各种各样的音效了。例如在上方我们来搜索刚刚说过的自行车的声音,可以看到有自行车链条和齿轮的声音,也有自行车铃声的声 音,这些音效的效果还是非常还原的。当然在使用剪映上的音效时,可能会涉及版权的问题,制作好的 ai 视频 在商用时可能存在一定的风险,或者在有些时候在剪映上可能找不到我们想要的音效,这个时候就要使用 ai 生成的音效了。在 music keyboard 平台同样有音效生成的功能,在左侧的分选项当中,我们 切换到音效生成器选项,然后在上方的窗口中写下对音效的描述。例如,我们描述剪刀裁剪纸张的声音,点击生成一段时间后,音效就生成好了,一次性会生成四个,我们可以从中挑选一个满意的结果,现在来试听一下,看看效果如何吧。刀剪刀剪刀裁剪纸 上的声音可以看到此次生成的这个效果并不是十分理想,这就意味着我们使用 music pro 平台生成音效时,是不可以使用中文描述的。我们现在将描述修改为英文描述,在修改好之后,再次点击生成声音,我们下面来试听一下再次生成的音效,看看效果如何。可以听到这次生成的音效效果就非常不错了。 在生成音乐时,对于歌曲的描述如果不符合自己的需求,同样可以尝试将对歌曲的描述翻译成英文,再进行生成。以上就是本期视频的全部内容,我们最后就以这节课生成的音乐来结束这节课吧。

今天这个视频教大家怎么制作出一段流畅的奔跑跳跃斩击的 aig 机视频。做这个视频的初衷是帮学员复刻了一段想学习的小爆款,本着不发抖音白不发娱乐用的,但是却被原主以及一堆过来跟风的人盯上了。那么好,既然你感觉这个东西是你喜好的秘笈,好学,那么我就把它的制作流程分享出来。 首先我们要找一个想做的人物图,当然原创或者自制也是可以的,我这里随意用 mg 做了三张图进行测试。其次,我们通过香蕉或者极梦,将这张人物图制作成背对摄像机的奔跑模样,这里需要注意描述词要加上动态模糊。 然后我们扔到可林,选择二点六引擎,加上一句简单的描述词,这样跑步加跳跃就完成了。我们再生成一个人物特写,可以是拔刀,也可以是睁眼等等来增加帅气。同样扔到可林或是吉梦进行徒生,在之后简单做一个高空准备出招的镜头,同样是通过徒生进行攻击,发出能量,这里可以是手针直接去做,也可以首尾针来做。都所谓的 做一个能量冲向远方的镜头,可以是单纯的能量冲击,也可以让他斩断各种东西,或者发挥你的想象。在最后可以加一些收拾的安静画面,然后去剪映,导入素材,根据音乐调整速度,再加上特效,增加动感,再加上音效,最后剪辑完成。

逼自己一个月学完,其实你很会 ai 大 模型,存下吧,很难找全的,本系列视频号十三个月制作,共计一百零八集,带你一口气学完掉,打大模型面试官,这应该是目前抖音仅有全套系统 ai 大 模型面试教程, ai 大 模型面试题库,学习路线,电子书,所有资料都在主页置顶群里。 哈喽大家好,我们继续来分享 ai 大 模型面试系列。那么这套课程的话分为多个专题,包含基础篇、 lab 篇、微调篇、 transform 篇、 deepsea 篇、 agent 篇、项目方案篇,大家可以针对性的选择不同篇章进行巩固。如果喜欢这套课程的话,欢迎多多关注一键三联今天要给大家分享内容是 transform 操作相关的一些面试题, 那比如说我们如何利用 transform 去加载 bot 模型,如何利用 transform 输出 bot 指定的隐藏状态,以及 bot 如何去获取最后一层或者每一层的网络的向量输出。 那首先我们如何去利用 transform 去加载 bot 模型呢?主要是分了以下几步,我们可以使用 pad touch 跟 transform 的 一些库,然后比如说我们这里用的是 birdbase 的 这个 oncast 的 这么一个模型,然后去读取模型对应的这个 tokenizer, 然后去载录模型,然后的话去输入这个文本,通过这个 tokenizer 把文本变成 token id, 然后的话或者 bot 模型最后一个隐藏的一个结果。然后的话,啊,那这里面我们就可以看到包括 import 在 内的不到十行代码,我们就实现了读取一个预训练过的 bot 模型来 encode 我 们指定的一个文本, 对文本的每一个 token 生成七百六十八维的一个向量。如果是二分类的任务的话,我们接下来就可以把第一个 token, 也就是 cls 的 七百六十八维向量接一个这个 lin 二层,预测出分类的这个 lodest, 或者根据标签进行训练, 然后利用 transform 输出 bot 指定的隐藏状态, bot 的 话默认是十二层,但是有时候预训练是并不需要利用全部啊去做一些这个处理, 只需要预训练前面几层就可以了。那么这时候我们应该怎么做呢?我们可以下载到 bird based on case 的 模型目录,里面包含配置文件 configure 点 jason, 该文件的话包含 output handler state, 可以 利用该参数来设置编码器内部隐藏层的这么一个层数啊,下面是它参数的一个设置,然后 bird 的 话,我们可以去获取最后一层,或者每一层网络的一个设置,然后 bird 的 话,我们可以去获取最后一层网络的一层的输出的话, 这里我们可以看到一些啊,比如说像隐藏的这个层的这么一个 size, 包括这个 polar 的 一个 output, 还有一些这个啊, classification 的 一个 token, 最后一层的一些隐藏状态,它是由向量层和这个 th 几乎函数进一步处理的,这个输出不是对输入的语义内容的一个很好的总结,那对于整个序列的隐藏状态,序列的平均化的池化啊, 通常更好。那么隐藏状态的话就是一个输出的可选项,如果输出的话则需要指定。那么还有一个 output handler state, 它也是一个元组,它的第一个元素是 in body, 其余元素是各层的输出,每个元素的形状是 bit size sequence length handler size attention 也是一个输出的可选项,如果输出的话,需要指定这个 output attention, 它也是一个元组,它的元素是每一层的注意力权重,用于计算 self attention has 的 这么一个加权平减值。 然后我们可以去获取每一层的网络的向量输出啊,下面是最后一层的所有的头横向量,包括 c r s 向量,然后包括这个十三层第一层也就是锁影是零的输入的引规定的向量,后面的话是一到十二的锁影,是每一层的输出向量。 ok, 以上就是关于 transform 操作篇相关的一些面试题分享,哈喽,大家好,我们继续来分享 ai 大 模型面试系列,那么这套课程的话分为多个专题,包含基础篇、 log 篇、微调篇、 transform 篇、 deepsea 篇、 agent 篇、项目方案篇,大家可以针对性的选择不同篇章进行巩固。 如果喜欢这套课程的话,欢迎多多关注一键三连今天要给大家分享的内容是大模型 r l h f 相关的一些面试题,分享 给大家罗列了一下目前在这个 r l h f 里面啊经常被问到的一些面试题,比如说啊,介绍一下大模型的经典预训练拍不烂以及预训练。呃,你的一些这个情况是怎么样的?包括这个有监督微调 以及有监督微调的这种训练数据格式是什么样的?预训练对比有监督微调的区别是什么啊?包括这个人类对齐,然后还有这个基于人类的这个反馈式的方式进行一个学习的啊,我们叫 r l h f, 它的一个流程是怎么样的?如何在预训练好的模型上进行有监督的一个微调?如何在有监督微调模型的基础之上去创建一个 r m 模型?如何基于 p p u 算法微调 s f t 的 一个模型, 然后包括 insurance gbt 的 一些原理啊,讲讲 r l h f 和这个 reward 的 一些区别,包括 number 二中的一些 r h f 的 一些这个设计包括它的一个实现逻辑, 以及这个 magin 的 逻辑的一个实现逻辑,那么包括两个 r m 模型的一个实现逻辑,然后拒绝采纳是这么一回事儿。还有这个 r h f 替代方案,那有哪一些替代方案? 在这里的话,我们会讲到五种替代方案,包括这个 r l h 一 些实践的一些问题啊,包括这个训练过程怎么样去选择这个 point 的 一些点好,首先我们来说一下这个大模型的一些经典预训练。 playable, 那 么目前的话,基于全是 forma d code 的 大模型的话,比如说像叉的 gpt 啊,拉玛百川常常都会有记预训练的 base 模型和在 base 模型,至少使用 r a h f 微调的这个差的模型,差的模型的训练的话,一般都包括如下三个步骤,预训练,有监督的微调和对齐。 在预训练阶段,模型会从大量的无标注文本数据集中学习通用知识,使用有监督微调 s f t 优化模型,以更好的去遵守特定指令。然后是使用对齐技术,使大模型可以更有用且更安全地响应用户提示。 那么具体我们来介绍一下这个预训练,预训练的话是利用了数十亿到数万亿个 token 的 庞大文本语料库。对模型啊,继续预训练,使模型能够根据提供的文本来预测下一个单词。那下面是关于预训练这个数据集,包括任务以及输出的一些描述。 有监督微调啊,那么有监督微调的话,虽然 sft 训练的目标和预训练比较类似,但是也需要模型预测下一个单词, 但是需要人工标注的指令数据集,其中模型的一个输出的话是一个指令,它会根据任务的不同,也可能会包含一段输入文本输出,作为模型的预期回复内容。 下面是这个有监督微调的这种方式的一个啊, token 包括这个使用到一些,呃,一些这个输入输出的一些这个响应啊, 然后有监督微调的一个数据的格式是怎么样的?那比如说上面我们有一个这个指令啊,他是写一首关于这个的什么打油诗,然后输出的话是什么?什么很好,是吧?那么模型的话会把这一段话去作为输入,逐个透视进行一些预测,那么再做一个输出, 那么预训练去对比有监督微调,它的一个区别是什么呢?首先我们来说相同点, 训练目标相同。模型需要根据提供的文本来预测下一个单词,不同点的话就是训练数据量不同,有监督微调需要训练数据量比预训练数据小很多。预训练格式啊,数据 训练的数据格式不一样,那么有监督微调的话,需要人工标注的训练数据,预训练的话都不需要。 那么什么是对齐呢?对齐的话是通过微调的方式将语言模型与人类的偏好、价值观进行对齐,这也是 r l h f 机制发挥的一个地方。那下面是关于这个对齐的一个,这个 model size 包括它的一个啊, 视力啊,一个 example, 大 概是什么样一个规模?那么 r l h f 的 一个流程是怎么样呢?首先的话,它是在预训练好的模型上进行有监督微调啊,我们叫 s f t, 在 有监督的微调模型基础上创建一个 reward 的 model, 基于 reward model 的 话, 使用 p p u 算法去微调 s f t 的 一个模型。如何在预训练好的模型进行有监督的一个微调呢?我们需要先收集一个 promote 集合,并要求标注人员写出高质量的回复,然后使用该数据集监督的方式微调预训练的基础模型。 如何在有监督的微调模型基础上去创建一个 r m 模型呢?对于每一个这个 promote, 要求 有监督微调后的大模型生成四到九个回复,再由标注人员根据个人偏好对所有回复进行排序。虽然排序过程比较耗时,但是工作量还是比第一步的有监督数据基构建要少一些。 那么在处理排序数据时,使用了一个奖励模型, r m r m 来自 r l h f。 第一步有监督微调语言模型的一个输出,通过一个回归层,单个输出节点转化为奖励分数啊,也就是称为这个 r m 模型。 如何基于 r m 模型使用 p p u 算法微调 s f t 模型呢?基于 r m 模型,使用这个 p p u 算法来微调 s f t 模型啊,下面是它整个的一个这个步骤啊, r l h v f 的 一个步骤,包括这个啊,我们来讲 insert gpt 的 一个原理。 那么 insurance gpt 的 话,它其实是一种基于强化学习的文本生成模型。它的一个核心原理的话,涉及到两个概念, r l h f 和 reward 的 商品啊,叫奖励塑造。那么 r l h f 的 话,在训练 insurance gpt 时,首先使用的人类生成的视力对模型进行预训练, 然后通过人类评估进行交互收集评估结果,以创建一个用于强化学习的数据集。该数据集的话包含了人类评估者对于生成结果的评分或者反馈, 用于指导模型的强化学习训练。 reward 刷屏的话,是为了更好的去引导模型的训练啊。 reward 的 刷屏用于调整 模型的奖励信号,通过将人类评估者的反馈与模型生成的文本进行比较,可以计算出一个差异度量 作为奖励信号的一部分,这样的话,模型可以根据这个奖励信号进行训练,并进行强化学习的训练。模型根据当前状态对话历史生成文本,并通过奖励信号来评估生成文本的质量。 模型的目标是最大化的预期累积奖励,从而生成更高质量的文本。通过 r l h f 和 rewind 刷屏的结合, insurance 的 g p t 能够通过人类评估者的反馈指导模型生成的过程,并逐步地去提升文本的质量和一致性。 那我们可以来介绍一下 number 二和 r l h f number 二 chart 在 第一步 r, l, h f 微调使用相同的指令数据,但在第二步使用了两个奖励模型。通过多个阶段不同的进化,奖励模型也会根据 number 二 chart 模型出现的错误进行更新,并且的话增加了拒绝采纳的一些步骤。 那么那么二中的这个 market logic 的 一个实现逻辑是怎么样的?标准的 insurance gbt 的 r, l, h, f, p, p, u 算法的思路,对同一个提示下的四到九个模型输出并进行排序,四个回复的排序结果为 a 小 于 c 小 于 d 小 于 b, 那么就可以得到六个对比结果, a 小 于 c, a 小 于 d, a 小 于 b, c 小 于 d 跟 c 小 于 b 在 d 小 于 b。 那 么二的这个 mark 例子每次的话只能看好两个,而非四到九个的一个回复进行对比。那新增了一个编辑,我们叫 mark 啊这个标签,那么对比结果的话可以为显著更好和好的不明显这两个点。 在排序训练时,拉姆二相对于整数增加了边际损失的一个计算,那么其中的话,这个 x, y 的 话是提示 x 和生成的回复 y 的 标量的分数输出,那么还有一个是这个模型权重,然后这个的话是将呈输出转化为范围从零到一的分数的逻辑。 s 型函数 y, c 的 话是有标准人员选择更优的一个回复 y, r 的 话是较差的,回 mr 的 话是可以调节两个回复之间的差值如何?那如果对比结果显著更好的话,会增加梯度值,加快更新的一个速度。 number 二的两个 r m 模型的一个实现逻辑是怎么样的呢? number 二中的两个奖励模型侧重有用性啊和安全性。由于模型优化的最终奖励函数会将两个分数进行线系结合 啊。下面是它的一个这个关于有用性和安全性的这个流程的一个讲解啊,这个流程图的一个说明。那么 number 二中拒绝采纳的一个逻辑啊, number 二使用了一个训练流水线,同时使用 ppo 和拒绝采纳算法迭代的产生了多个 rha 模型。 从 v 一 到这个 v 五模型在拒绝采纳时会得到 k 个输出,并使用最高奖励的输出更新度,而 ppo 每次只基于单样本进行更新。 那么有监督啊,在监督微调的初始阶段之后,模型只使用拒绝采纳进行训练,然后再结合拒绝采纳和 p p u。 为什么需要 r l h f 替代方案呢?虽然 r l h f f 在 inshore 的 g p d 和拉玛尔论文中被证明是有效的,但是 r l h f 的 过程是比较复杂的。 r l h f 有 哪些替代方案呢? 那这个论文的话,它其实就提到了一种关于基于人类这个提供的规则列表自我训练的一种机制。于前面提到的这个 insurance gpt 论文类似也使用了强化学习的一个方法。那么图片中提到的这个红队的话,指的是在测试目标系统的防御能力,也就是外部或者内部专家模拟潜在对手的一个过程,通过模拟现实世界攻击者的战术和程序来挑战测试并最终改进系统。 然后我们来说这个替代方案二,它是这个提出了一种基于重新标记的监督微调方法 h i r。 该方法的话,在十二个 big bench 任务上优于 r l h f h i r 是 如何工作的呢?简而言之啊, h i r 的 方法包括两个步骤,也就是采用和训练。在采用步骤中, promote 和指令输入给 a l m 来获取获取答案。 根据对齐得分,在训练阶段适当的地方重新标注指令。然后的话,重新标记的指令和原始的 promote 用于微调大模型。 使用这种重新标记的方法,研究人员可以有效的将失败案例啊,也就是大模型创建的输出与原始指令不匹配的案例转化为有用的训练数据,用于监督微调。还有这个做一些监督学习, 那下面是它的这个流程。然后第三种方案的话,是直接偏好优化, 是具有这个 p p o 和这个二幺 h f 的 一个替代方案。其中研究人员表明啊,在二幺 h f 你 和奖励模型的交叉伤损失可以直接用于微调按摩型,根据它们的一个机制,使用 d p o 更加有效,而在响应质量方面通常也优于二幺 h f 跟 p p o。 那么第四种方案的话叫做 r e s t, 它是人类反馈强化学习一种替代方案,它使这个大模型与人类拼号保持一致。 r e s t。 使用采用方法创建改进的数据集,在质量越来越高的自己上面去迭代训练,以完善其奖励函数。根据作者的一个说法, 与标准的在线 r l h f 方法相比, r e s t。 通过离线生成与训练数据集实现更高的效率,但缺少与 insurance 或者 number 二种使用的标准 r h f p b o 方法的一个全面比较。 呃,然后是这个关于一些啊,第五种替代方案。最近的人工智能反馈强化学习研究表明, r l h f 奖励模型训练的评级不一定由人类来提供,而是可以有大模型生成 标准人员在一半案例更喜欢这个 r l a i f 模型,也就意味着两个模型的差距并不大。 r l h f 和 r l a i f 都大大优于纯通过监督指令微调训练的一个模型。 这项研究的结果非常的有用啊,也比较有意思,因为它基本上意味着我们可以更多的啊,这个基于 r l h f 的 训练更加高效和容易。然而的话, 这些 r l a i f 模型在专注于信息内容的安全性和真实性的定性研究上的表现还有待观察,而人类偏好研究仅捕捉了那个部分的这一点。 然后是 r 幺 h f 训练的一个过程。怎么选举最优的 checkpoint? 首先我们来说一下这个动机啊, r 幺 h f 训练的一个过程,因为 reward model 输出的只是一个近似奖励,导致并不能完全相信训练过程的一个 reward 的 变化。更高的 reward 的 不一定意味着更好的效果。大家可以去看一下这张图片, 这个横轴的话是训练模型和初使模型之间的一个 k l。 重轴的话为 reward, 分 数虚线的话是近似 reward, 实线的话是真实的 reward。 从上面这张图我们可以看到啊,随着训练模型和初使模型之间的 k l 越大,模型的真实分数会逐步提升,到达某个峰值之后逐渐减小。 但是这个近似分数与我这个 rewind 的 mod 打出来的分数的话,却一直在稳不上升啊,就是图里面的一个虚线。虽然的话在真实分数的曲线的最高点,也就是我们所期望的最优模型的时间点,但是的话现在问题就在于根本无法获得真实的一个分数。那我们如何找到这个最高点呢? 我们假定啊,真实的 rewind 曲线与当前模型和初识模型之间的 kl 存在某种关系。由于 kl 是 一个被实时计算的数值, 如果我们能找到这种存在的关系,那我们就可以找出真实的 rew 的 最高点对应的 k l 值是多少,从而就找出最优的模型。那么 open ai 帮我们找到这个计算公式,大家可以去看一下。 不同的训练方法对应的公式稍微有一些不同,其中的话 b o m 也叫 reject sampling, r l 使用 p p u。 我 们发现不同的训练方式对应的公式也稍有不同。 b o m 它会先让模型生成一堆 response, 然后再去利用 r m 从中挑出最好的几个回复用于后续模型的一个训练 公式里面最关键的就是三个参数啊,阿尔法,贝塔跟这个 d d 的 话被定义为初时模型和当前模型的一个 k l 开根号,这个比较好算。剩下的就是这个 a 跟这个阿尔法跟这个贝塔该等于多少。 论文中表示啊, alpha 和 beta 这两个值跟 reward mod 大 小以及和 reward mod 训练数据规模的因素有关。 alpha 和 beta 的 一个值 质变量法,为了探究 r m 的 大小与 alpha beta 之间的关系,实验固定的这个 actor 模型的大小。训练 r m 所用的数据级大小大概九万条。那么下面的话是使用 bond 去作为训练的一个方法。不同的 r m 大 小之间的一个实验结果, 那么不同的 r m 规模对应的 alpha 和 beta 的 一个值。根据图中给的点,我们挑选 e 七, e 八, e 九这三个规模的对应的 alpha 和 beta 的 这么一个值, 将上述参数带入到这个 alpha 棒的这么一个公式里面去,并尝试绘制成 rewind 的 一个曲线图,大家就可以看到下面这个结果。那么三种 r m 规模在零到三点五 k l 区间内对应的真实的 rewind 取现值 矩阵图的走势和论文中大致相同,证明该公式有效。从中中我们大致可以得出以下几个结论,相同训练数据下, reward base 越大, act 模型能够获得更加真实的 reward reward 它的一个 model 啊,这个越大, 能够支持模型在不偏离真实奖励的路途上就走得更远,即使在更大的这个 kl 处发生这个下降转折。当然,论文中的数据会存在一定的局限性, 规定在所有的任务,所有的规模都适用。不过这种研究 scaling low 的 思路以及提出用 k l 作为一种可能衡量学习程度的指标是非常有意义的。 除了上述这两个 r 跟 k l 之间的计算公式外,论文中还提了一些其他有借鉴意义的实验性结论。而 word model 训练数据集的 scaling low, 为了探究 r m data set 的 规模对最终模型的影响, 实验中固定在十二 m 的 一个 r m 进行实验,结果如下。从上图中可以看到啊, r m 的 数据级越大,对于最终的提升也就越大,但是数据级最少也需要超过两千, 因为如果训练数据极低于两 k 的 话,无论 r m 在 哪个规模,无论使用棒还是 r l, 对 于模型的最终提升都非常小。当然,论文中的二 k 这个数字只是在三 m 到三 b 大 小的模型下得出的结论,至于更大的模型大小是否还符合二 k 这个下限,我们就不得而知了。 然后是这个 policy model 的 scaling law 太君文 r m 的 一个 scaling law。 论文还对 policy model 的 大小做了对比实验文中选用一点二 b 和六 b 这两个大小的模型进行对比,固定 r m 大 小和十二 m, 结果如下,啊, 上面是一点二 b 和六 b 在 两种不同训练方式下面的一个对比训练。从上图我们可以得出两个结论, policy mode 越大,利用 r m 做提升的收益就越小。在 boom 下面一点二 b 模型提升大概是零点七分, 就是零到零点七六 b 的 模型提升大概是零点三五分。不过这是因为越大的模型初使分就较高,导致提升没有那么大。绝对分数上看来还是模型越大越好。 无论模型规模如何,最优的 reward 对 应的 k l 值是一样的,这一点比较反直觉。我们通常认为较大的模型应该能够更快地 hack 掉 reward model, 应该在更小的 k l 处就达到更高的这个 reward 峰值。但实验结果并非如此, 在 r l 实验中,两个峰值对应的 k l 几乎重合。 ok, 我 们再来回顾一下刚刚提到的一些这个面试题,再来总结。首先是这个 l m 的 经典预训练,拍不烂的话,主要是要考虑三点,就是在预训练阶段,模型会从大量的无标注文本数据集中学习到通用的一些知识。使用有监督微调时,优化模型以遵守特定的指令。使用对齐技术可以使大模型更有用且更安全地响应用户提示。 那么预训练的话,是利用数十亿到数万亿个 token 庞大的文本语料库对模型继续预训练,使模型能够根据提供的文本来预测下一个单词。 有监督微调,虽然 sft 训练目标和预训练类似啊,但是也需要模型预测下一个单词,它是需要人工标注的指令数据集的,其中模型的输入的话是一个指令,根据任务的不同,也可能包含一段输入文本输出为模型的期望回复内容。 有监督微调的一个训练数据集格式的话,大家可以去参考这种啊,就它是一个 insert 指令,再加上这么一个输出。 预训练模型跟有监督微调的一个区别,相同点的话就是他们每个训练目标都相同,模型需要根据提供的文本来预测下一个单词,不同点的话就是训练的数据量不同。有监督微调,它需要训练数据量比预训练小很多。训练数据格式不一样。有监督微调需要人工标注的训练数据。预训练的话,则不需要。 对齐的话,是要通过微调的方式将语言模型与人类的偏好、价值观进行对齐,这也是 l h f 机制发挥的一个地方。 r l h f 的 一个流程的话,主要有三步,一个的话是在预训练好的模型上进行有监督微调 s f t, 然后是在有监督微调模型基础上创建一个 reward mod 模型。基于 r m 模型,使用 p p o 算法微调 s f t 模型。 如果在一个预训练好的模型上进行有监督的一个微调,我们可以先收集一个 promax 集合,并要求标注人员写出高质量的回复,然后使用该数据及监督的方式微调预训练的一个基础模型。 如何在有监督微调模型的基础之上创建一个 r m 模型?对于每个 promote 要求有监督微调后的大模型去生成四到九个回复,再由标注人员根据个人偏好对所有的回复进行排序,虽然排序过程比较耗时,但是工作量还是比第一步的有监督数据集构建要少一些。 如何基于 r m 模型使用 p p o 算法去微调 s f t 模型呢?这是它的一个整个的一个过程。你首尔的 g p t 的 话,是一种基于强化学习的文本生成模型,它的核心原理主要是有两块,一个是 r l h f, 还有一个叫 reward shopping 啊,就是这个奖励塑造。 那么 number 二 chat 的 话是在第一步 r 幺 h f 微调上使用相同的指令数据,但是在第二步使用了两个奖励模型,通过多个阶段的不同进化,奖励模型也会根据 number 二 chat 模型出现错误进行更新,并且增加了拒绝采纳的一个步骤。 它的一个实现逻辑的话,就是标准的以数字 t p u 算法的思路就是对一个提示下的四到九个模型输出并进行排序。 那么 number 二的这个 margin loss 的 话,每次能看到两个它的一个回复的话进行对比, 但是它新增了一个叫 margin 的 一个概念啊,叫编辑,那么它对比结果的话可以显著更好,和这个好的不明显。 那么 number 二中的两个 i m 模型的一个实现逻辑的话,主要是有两块,一块是要测重有用性,还有一个是安全性,这个是它整个的一个两个流程的一个对比。 那么拉姆二中的一个拒绝采用的逻辑是什么样的呢?拉姆二中使用一个训练流水线,同时使用 ppu 和拒绝采用算法迭代的产生多个二幺 h 模型,从 v 一 到 v 五模型在拒绝采用时会得到 k 个输出,并使用最高奖励的输出更新梯度,而 ppu 每次只基于单样本进行更新。 在监督微调的初始阶段之后,模型只使用拒绝采纳进行训练,然后再结合拒绝采纳和 p p o。 为什么需要 r l h f 替代方案呢?虽然 r l h f 在 已知的 g, b, d 和 number 二论文中对证实是有效的,但是 r l h f 的 一个过程是比较复杂的,它是有哪些替代方案呢? 论文中提到了一种基于人类提供的规则列表中的自我训练机制,与前面提到了一硕人的 gpt 论文类似,也使用了这个强化学习的一些方法。那么替代方案的话是提出了一种基于重新标记的监督微调方法 hr, 这个方法的话在十二个 big search 任务上都优于 r l h f。 替代方案三的话是直接偏好优化是具有 p p o 的 一个二幺 h f 的 一个替代方案。其中研究人员表明啊,在二幺 h f 以和奖励模型的交叉商损失可以直接用于微调大模型。根据它们的一个基础,使用 d p o 的 话更加有效。 并且的话,啊,在响应质量方面通常也优于二幺 h p p o。 替代方案四的话是人类反馈强化学习的一种替代方案, 它使大模型与人类的偏好表示一致。 r e s t。 使用的材料方法创建改进的数据集,在质量越来越高的子集上面去迭代训练,以完善其奖励函数。根据作者的一个说法,与标准的在线 h f 方法, 如具有近端策略优化的 r l h f 的 p p o。 相比, r e s t。 通过离线生成的训练数据集实现了更高的效率,但缺少与 short g b t 或者 l h f p p o。 方法的一个全面比较。 那么替代方案五的话是这个,因为最近的人工智能反馈强化学习研究表明, r l h f。 奖励的模型评级不一定必须由人类提供,人士可以有大模型生成。那么标准员在一般案例中更喜欢使用 r l a h a i f 的 一个模型,那就意味着两个模型的差距并不大。 r l h f 和 r l a i f 都大大优于纯通过 监督指令微调训练的一些模型。下面是它的一个这个流程图。这项研究表明的结果啊,非常有用,更有趣,因为它基本预示我们可以 基于使用这个 hif 的 一个训练更加的高效,更容易。那么 r 幺 hf 训练的一个过程怎么样去选举最优的 checkpoint? 它的一个训练过程,因为 reward 输出的只是一个近似奖励,导致不能完全相信训练过程的 reward 的 变化。更高的 reward 不一定意味着更好的一个效果。大家可以看一下这张图,横折为训练模型和初试模型之间的 kl, 重折为 rew 的 分数虚线是近似的 rew 的 实线的话是真实的 rew 的。 从上图我们可以看到,随着训练模型和初试模型之间的 kl 越大,模型的真实分数会逐步提升,达到峰值之后会逐渐减小,但近次分数却在一直稳固上升。显然的话,在真实的分数曲线最高点,也就是我们所期望的最优模型的一个时间点。 那么现在问题是根本无法获得真实分数,我们应该如何找到这个最高点呢?我们假定啊,真实的 reword 曲线与当前模型的初设模型之间的 kl 存在某种联系 啊。所以说我们可以有一个计算公式去找到真实的 reward 最高点对应的 k l 值是多少。这个 open ai 提供了这么一个计算公式,那不同的训练方式对应的公式也稍有一些不同。那么这里会提到一个概念叫 b o m 啊,也叫 reject sampling r l 使用 p p o。 那 我们发现不同的训练方式对应的公式也稍微有些不一样。 boom 的 话,会首先让模型生成一堆 response, 然后再利用 r m 从中挑出最好的几个回复,用于后续的一个模型训练。 那这里的话,从上面这个曲线图我们就得出结论啊,相同的训练数据下, reward mod 越大, act 模型能够获得更高的一个 reward, 更真实的一个 reward。 reward mod 越大,能够支持模型在不偏离真实奖励的路途上走更远,也就是在最大的 k l 处发生下降转折。 我们可以得出两个结论, policy mod 越大,利用 r m r 做提升的这个收益就越小。 那么在 boom 下面一点二 b 的 模型提升大概是零点七分啊,右 b 的 模型大概提升零点三五分。无论模型 规模如何,最优的 reward 对 应的 k l 值是一样的,这一点比较反折确,我们通常认为较大的模型应该能够更快的 hack 掉 reward model 应该在更小的 k l 处就达到最高的 reward 峰值,但实验结果并非如此。 ok, 以上就是关于 大模型这个二幺 h f 相关面试题的一些分享,哈喽大家好,我们继续来分享 ai 大 模型面试系列。那么这套课程的话分为多个专题,包含基础篇、 rap 篇、微调篇、 transform 篇、 deepsea 篇、 a 政策篇、项目方案篇,大家可以针对性的选择不同篇章进行巩固。如果喜欢这套课程的话,欢迎多多关注一键三连今天要给大家分享内容是 大模型生成 sft 数据方法相关的一些面试题。那么首先 sft 数据集如何去生成呢? sft 数据集构建的话通常有两种方法,一个是人工标注,还有一块是使用大模型,比如说像 gpd 四来生成 人工标注对于构建垂直领域比较合适,可以减少有篇数据,但是成本略高。使用大模型生成可以在短时间之内生成大量数据, sft 数据集构建以及 sft 微调 padlan, 如下图所示。 比如说啊,像一些这个从文本标签到这个 insurance out put 啊,或者到这个 c 的 insurance, 再到这个 mo insurance, 再到 out put, 再到大模型,那这个的话是一个通用的这个 pipeline 啊,这个 off 这个 insurance 的 一个 turning, 然后第二块的话是 self instructor 片,什么是 self instructor 呢?那么这个的话是一个通过预训练语言模型来引导自己 并提高的这么一个指令遵循能力的这么一个框架。 self induction 的 这么一个处理思路的话,首先步骤一,作者的话从一百七十五个种子任务中随机抽取了八条自然语言指令作为指令,并提示啊 insurance gbt 生成更多的任务指令, 那么作者确定不做意中生成的指令是否是一个分类任务,如果是的话,他们会要求 insert 生成 gpt, 根据给定的指令为输出生成所有不可能的选项,并随机选择特定的输出类别,提示 insert gpt 生成相应的输入内容。对于不属于分类任务的指令,应该有无数的输出选项, 那么作者的话提出了输入优先的策略,首先提示 insert gpt, 根据给定的指令生成输入,然后根据指令和生成的输入生成输出, 那步骤三的话,基于第二步的一个结果,作者使用 insurance gpt 生成对应指令任务的输入和输出,采用输入优先或者输入优先的这么一个策略啊,有输出优先跟输入优先, 那么步骤四的话,作者对生成的指令任务进行了后处理,例如啊,过滤类似的一些指令,去除输入输出的重复数据,最终得到五百二十五十二 k 的 这么一个英文的一个指令。 那什么是 back translation 呢?那么回忆的话就是在传统的这么一个机器学习中,是一种数据增强的方法,比如说从中文翻译成英文,再从英文翻译成中文,这样的话生成的中文与原来的中文在语义上是一致的,但是文本不同。然而 s f t 数据生成的这么一个回忆, ok, 这个就是以上我们要给大家分享的关于这个 sft 数据及相关的一些面试题分享。今天要给大家分享内容是大模型负样本挖掘相关的一些面试题分享。 首先给大家罗列了一下一些常见的负样本挖掘相关的面试题,比如说为什么要去构建负样本以及负样本的一些这个构建方法包括随机采纳的一些策略方法啊, topk 复利彩样一些策略的方法,包括困惑,困惑度复样本彩样方法, sims 的 一些方法。利用对比学习微调方式构建复利方法。基于 批内复彩样的一个对比学习方法啊,以及相同文章的彩样方法。大模型辅助生成软标签以及蒸馏,包括一些辅助的一些知识。 首先我们为什么需要去构建复旦样本呢?那么在各类解锁任务中,为了训练一个高质量的解锁模型,往往需要从大量的获奖样本集合中采用高质量的复利, 再去配合正例一起进行训练。那么比如说第一种的话,我们常见的一个方法就是随机采用策略方法,这个方法是基于一均匀分布,从所有的获奖 doctor 中去 抽取 document。 这个作为复利存在的问题就是,由于无法去保证采样得到的复利的质量,所以经常采样得到会过于简单的一些复利,其不仅 无法给模型带来有用的信息,还可能会导致模型过拟合,进而无法区分某一些较难的复利样本。分析随机采用策略方法挖掘复利训练时对于 t 组的一些影响。对于随机采用方法,由于其采样得到的复利往往过于简单, 其会导致该分数接近于零,进而导致其生成的梯度捐值也接近于零,这样过于小的梯度捐值会导致模型不易收敛。然后是 topk 复利采用策略的一些方法 方法,基于一酌密解锁模型,对所有优选 document 与 query 计算匹配分数,然后直接选择其中 topk 的 优选的 document 作为复利优点的话,可以保证复利得到的 啊。采用得到的负利是模型未能较好的区分较难的一些负利,存在的问题是很可能将潜在的正利也误判为负利, 也就是这个假负利,如果训练模型去将该部分假负利与正利区分开来,反而会导致模型无法准确衡量快乐 document 的 语义相似度 分析 top k 负利采用策略方法挖掘负利训练时对于梯度的一些影响,由于其很容易采用得到语义与正利一致的假负利, 其会导致正负样本的右项值相似,但是的话左项符号相反,这样会导致计算得到的梯度方差很大,同样会导致模型训练不稳定。 困惑负样本采用方法 sims 方法动机的话,就是在所有的负力后选中与宽容的语义相似度接近于正力的负力,可以同时较大的这么一个梯度均值和较小的梯度方差 是更高质量的。困惑复样本方法的话,就是对正例与相似度接近的困惑复样本进行采样。采样方法的一个特点,与快乐无关的 document 应该被赋予较低的相关分数, 因此提供的信息量不足。与宽容的话,很可能相关的 document 应被赋予较低的相关分数,因此可能是用假负利。与正利与异相似度接近的 document 应该被赋予较高的相关分数,因此既需要被学习,同时是假负利的概率相对较低。 困惑样本采样分布通过以上分析可得在该采样分布中,随着快乐与优选 document 的 相关分数与正利相关分数的差值的缩小, 该优选 document 被采样作为负利的概率应该逐渐增大。顾客将该差值作为输入,配合任意单调递减函数 f 即可实现 顾客设计采样分布,如下所示,下面是这个计算公式,那么其中的话,为了控制该分布密度的一个超参数, b 的 话为控制该分布极点的一个超参数, 然后这个 d 加的话是一个随机采样的正例样本递减的话是 top k 的 一个负累,通过调节 k 的 一个大小,我们可以控制 该采药分布的一个计算开销为其。那下面的话是为该采药方法具体实现的一个伪代码,那可以看一下这个视例。 然后如何去利用对比学习微调方法去构建复利方法?对比学习是优化向量化模型的常用训练方法, 目的的话是为了优化向量模型,使其向量化后的文本相似。在向量空间距离低,不相似。在向量空间距离远。文档召回场景做对比学习有监督需要三元组问题,文档正力,文档负力。文档正力的话是和其问题密切相关的文档片段,文档负力的话是和问题不相关的。文档片段可以是 精挑细选的,也可以是随机出来的。构建方法的话,如果是随机出来的,完全可以用同一个 batch 里面其他问题的一个文档正例当做某一个问题的文档复利。如果想要效果好,还需要有较大的 batch size。 损失函数的话是基于 p 内赋样本的一个交叉商损失。如下工具啊公公式所示, q d 的 话分别是表示问题和文档正逆对应的向量, r 的 话为温度系数。 sim 函数可以是 cos 相似度或者是点击 实现方法,分别将 b 个问题与 b 个文档片段通过向量化模型变成向量形式,然后通过矩阵乘积计算每个问题和文档的相似度, 最后通过交叉商损失进行优化。如果文档复利仅来自同一个外置的其他样本的文档正例,那么 b 一 等于 b 二。如果人工的给每一个样本赔 k 个文档复利,比如我们可以通过南历挖掘得到,那么 b 二的话等于 k 加一乘以 b e, 那 么这个 q request 啊 requests 是 这个问题的一个矩阵维度,然后下面的话是文档矩阵,然后这个里面是计算相似度维度的这么一个这个相似度矩阵的这么一个维度。 那这里我们通过这个呃交叉上损失函数的一个标签考虑。文档复利不仅来自于这个 batch name 其他样本的一个文档真理,也可能人工给每个样本构造一些文档复利。 那么在 b g r 论文中做基于批内赋样本的一个对比学习时,同时考虑了多任务问题。之前也介绍过了, 不同任务加的 promote 是 不同的,如果把不同任务的样本放到一个 batch 里面,模型训练时就容易变得偷懒的一些情况,有时候会根据 promote 内容来区分正负力,降低任务难度,这是不利于对比学习效果的。因此的话可以通过人为的规定同一个 batch 里面 只能出现同一种任务的样本缓解这个问题。实际应用场景下,如果任务的类别不是非常多的话,最好还是任务训练一个模型,毕竟现代化的模型也不大,效果会更好一些。 然后是基于批内赋采用的对比学习方法,本质的话就是随机选举文档复利,如果能有针对性的可以找到文档正例比较像的文档复利模型的话,就更难区分这些文档复利加到训练里是有助于提高对比学习的一个效果的,就好比我们只有不断的去做难题,才能更好的去提高考试水平。 任何方法在文档向量空间找到文档,站立最接近的文档片段当做啊文档复历训练向量化模型,模型更新一段时间之后,我们去刷新文档向量,寻找新的文档复历继续训练模型。 然后是相同文章,采用方法思路的话,就是文档。正例所在的文章里,其他文档片段当做难复利,毕竟至少是同一主题的。当随机样本比起来比较难区分。存在的问题就是时机应用场景下,如果你的数据比较脏,蓝利挖掘的用处可能就不大了。 然后是通过大模型辅助生成软标签以及蒸馏的一些策略方法的话,就是根据用户问题召回的相关文档片段,最终要为大模型回答问题服务的。 因此大模型认为召回的文档是否比较好很重要。以下介绍的方法是 b g r 提出的,对于向量化模型的训练,可以让大模型帮助生成样本的辅助标签, 引导向量化模型训练。辅助标签的生成可用如下公式表示,在已知大模型需要输入的标准答案下,分别将问题和各个文档片段 c 放入大模型的 promote 中, 看大模型生成的标准答案的一个概率 r 大 小,当做辅助标签, r 越大,表示其对应的文档片段对生成的正确答案的贡献越大,也就越重要。 回答问题达标要求有点太高,然后很多实际应用场景的话,我们并没有拿到大模型回答的标准答案,同时的话,对每个问题的后续文档 片段都计算一个二,开销貌似有点大,那下面的话是一个计算公式。优化策略的话,我们可以利用大模型生成的标签以及 k l 散度, 那么论文这个形式的话,其实不能叫做 k l 散度。对于模型进行优化, p 为某一个问题。 q 对 应的后续文档片段 p 的 一个集合一的话表示向量,然后这个 括号这个的话,它是表示这个相似度的一个操作。 w 的 话是对所有后选文档 p 对 应的辅助标签指 r。 经过 softmax 变换后的本质是,如果大模型认为某个文档片段越重要,给他的优化权重越大, 为了进一步稳定蒸馏效果,还可以对后选文档片段根据 r 进行排序,只用排名炮后的样板进行优化。 那么辅助知识啊,这提到一个梯度计算的一个方法,以稠密检测到的 bce 的 rose 为例,正例与采纳的复历在计算完与一相似度分数之后,均会被 softmax 归一化,之后计算得到的梯度如下所示。 那么这个的话就是经过了 softmax 归一化的这么一个与一相似度的一个分数。 ok, 我 们再来回顾一下刚刚提到的一些面试题。首先,为什么要去构建复旦样本呢? 因为在各类解锁任务中,为了训练一个好的高质量的解锁模型,往往需要从大量的获取样本集合中采用高质量的一些复利,配合正例一起进行训练。那方法的话就是直接基于 均匀分布,从所有的后选 document 中随机去抽取 document 作为复利。存在的问题就是,由于无法保证采用得到的复利的质量,经常会采用得到过于简单的复利,其不仅无法给模型带来有用的信息,还可能会导致模型过黏合,进而无法区分较难的一些复利样本。 那么 topk 复利彩样策略基于稠密解锁模型对所有候选 document 的 与 query 计算匹配分数,然后直接选择其中的 topk 候选 document 作为复利, 那很可能会将潜在的正利也误判为负利,也就是所谓的假负利。那么困惑负样本采用方法 sim a n s 方法,它的一个动机是在所有的负利后选中与 cryo 与异相似度接近于正利,负利可以同时具有较大的梯度均值和较小的梯度方差,是更加高质量的。困惑负样本 方法的话,就是对于正利与异相似度接近困惑复利样本进行采样,它的一个特点的话就是与快乐无关的 document 应该被赋予较低的相关分数,与快乐很可能相关的 document 应被赋予较低的相关分数,因为可能是假福利,与正利与异相似度接近于 document 应该被赋予较高的一个分数 好。然后是利用对比学习微调方式去构建复利方法,它的目的是优化向量化的模型,使其向量化后的文本相似。在向量空间距离近不相似,在向量空间距离远完全可以啊。在同一个批次里面, 其他问题的话,文档这类当做某一个问题的一个文档复利,如果想要效果好的话,还需要有较大的这么一个 size。 那么基于批内赋采样的对比学习方法,如果能有针对性的找到和文档正例比较像的文档复利,那加到训练里面是有助于提高学习的一个效果的。 然后还有一块是相同文章采样方法,它的一个思路是文档正例所在的文章里,其他文档片段当做难复利,毕竟是至少是属于同一主题的,和随机样本比起来比较难区分。它的存在的问题是实际应用场景中,如果你的分数值比较脏, 能力挖掘用处不大。方法的话啊,就是关于大模型辅助生成软件以及蒸馏。他的方法是根据用户的问题召回相关文档片段,最终要为大模型回答问题服务的。因此大模型认为召回的文档是否比较好很重要。 以下介绍方法是 b g r 提出来的。对于向量化模型的训练,可以让大模型帮助生成样本的辅助标签,引导向量模型训练。辅助标签生成可以用这个下工具表示。 在已知的大模型需要输出的标准答案下,分别将问题和各个文档片段 c 放入大模型的 promote 中看大模型生成的标准答案的一个概率 r 大 小当做 辅助标签 r 越大的话,表示其对应的文档片段对其深层正确答案的一个贡献越大,也就越重要。存在的问题的话,达标要求有点太高,很多实际应用场景中,我们并没有没法拿到大模型回答的一个标准答案。同时对每个答案的后选文档片段都计算一个 r, 开销貌似有点大。 那优化策略的话,我们可以利用大模型生成的标签以及 k l 散度对模型进行优化,那么 p 为某个问题 q o 生成的后选文档片段 p 的 一个集合 一的话是表示向量,然后这个的话是表示相似度操作 w 是 对所有的后选文档 p 对 应的辅助标签值经过 r 萨夫 max 变化之后的值。 它的本质的话,如果大模型认为某一个片段越重要,它给它的优化权重就越大。为了进一步稳定蒸馏效果的话,还可以对后选片段偶尔进行排序,只用排名靠后的样本进行优化。那么剔漏计算算法 放这个是以稠密解锁常用的 b c e rose 为例,正例与采纳的复利在计算完与异相四度分数之后均会被 sophomax 归一化,之后的计算得到梯度的话,大家可以参考下面这种公式。那这个的话是经过了 sophomax 归一后的这么一个与异相四度的分数, ok, 以上就是关于大模型外挂知识库优化啊附样本挖掘相关的一些面试题分享。


hi, 我是 高林,我要打出一波很难的操作,打出来就是赢啊老师,我反算了哦 林你是男的女的啊?我是女孩子哦,好吗?那进行禁止打排位了哦,好吗?如果你对处罚表示不满,可以找高林工作室好吗?你瞅瞅你那个样子吧,七十多岁浓妆艳后一模一样。还欺负我。你被毕业了?
