快看,这都是我用 ai 做的封面,今天教大家用可灵做出同款的高级封面,核心公式是单一主体加明确光源加尺度反差。比如第一种,我会先确定一个非常简单的主体,在一片孤片的边缘,中间只放一扇垂直站立的发光门, 门是唯一的视觉中心,周围空间尽量留空。这种画面有力量,不是因为元素多,而是因为它本身形成的一种尺度差。然后呢,我们在可灵里面继续做动态, 动态呢,也不需要太复杂,让雾缓慢漂移,门内的光轻微起伏,镜头非常慢的往前推进。哎,你会发现,越是高级的画面,它动态呢,越加控制。第二种思路是把普通材质放到到宏大空间, 比如说把纸张放到峡谷大小,输入提词词,生成手图。可您还内置了 deepsea, 可以 帮你写提词词。同时呢,还有非常丰富的风格词库,可以根据你想要的效果进行调整。 因为纸本身就代表了信息和记录,当你把纸上放大成峡谷,抽象的信息量就会变成一种可以直接看到的空间压迫感。 第三种是具象化的诗意,比如说空旷的草地上有一个很小的人物,手里一条白色的丝带被风不断的拉长,一路卷向天空。 这画面的重点不是人物,而是一条被拉长的视觉线索。地面很空,天空很大,线条很长,尺度反差同样成立,可以绑定主体,增强人物的稳定性。所以你会发现这几个案例的题材不同,但是它底层逻辑其实是完全一样的。 第一主体要少,第二,空间一定要大。第三,必须要有明确的视觉逻辑。视频生成之后直接放进 ppt, 按照这套提置词模板生成封面文字。好了,大功告成,关注小黑,了解更多 ppt 知识。
粉丝434获赞7180

仅用一段提示词,加一张图片,自动生成分镜,包含大全景、虚焦、特写等专业电影运镜 ai 声视频发展到现在,已经从能生成走到能好用了,可您这次三点零的升级,直接喊出了 o n y 创作生态的口号,今天我们就一条视频带你上手。首先是蓄势能力的突破, 开放自定义分镜体系,支持经典影视切近语法,满足专业创作者的多景别需求,同时把时长放宽到十五秒,支持精准时长控制,让 ai 生成从素材走向成片。比如这段素材,先上传一张你需要制作分镜的图片,输入以下这段提示词, 模型选择的话,我们就选择三点零阿莫雷比例以及生成数量,根据你想生成内容的时长来进行决定。之后我们就可以拿到一批分镜头,再点击视频生成自定义分镜,把你满意的分镜头呢,直接拖到自定义分镜里面,然后再对每个分镜头单独去进行描述模型,我们就选择三点零 时长比例,根据自己的需求去进行调整。之后我们点击生成, 可以看到呢,整个镜头的调度还是非常有电影感的。音画同步一直是 ai 视频的一个痛点,这次可令三点零音画同出,把语言支持拓展到五国语言加方言,同时实现基于主体的音色绑定, 哪能忘内?实现多国语言音画同步的话,我们只需要在深视频提示词里面标注好主角需要说的话就可以。最后是关于生成人物的一致性,我们可以通过官方的主体绑定来解决这个问题。点击资产,然后选择主体资产, 选择创建,选择添加图片,然后我们点击 ai 智能补全,稍等片刻,系统就会直接帮你补全你人物的三式图。我们还可以自定义主体的名称,以及上传绑定主体的音色。主体全部创建完毕之后,我们回到视频生成模式,用自定义分镜生成一段视频来看一下效果。 你根本不是警察,你少血口喷人,你们两个都是我的妻子。 以上这种方法呢,大幅降低生成的随机性,解决了多人角色纸带混乱的一个问题。可令这次升级其实是 ai 声视频从拼接式生成到一体化创作的一个节点,对于普通创作者来说,降低了专业创作的一个门槛,值得所有内容创作者去试一试。

上期分享的当 ai 结合实拍视频,有很多小伙伴问教程和提示词,话不多说,直接开始,这是使用到的 ai 工具以及提示词。 首先我们需要一段实拍的原视频,因为视频编辑模型是按秒来算,所以把原视频多余的画面剪掉,然后导出视频和视频的第一帧图片,找一张场景参考图,使用图片编辑模型 hello banana pro 输入提示词。 然后将原视频和新生成的场景图使用视频编辑模型克隆三点零安利或 sims 二点零,输入相逢提示词。

let's go kpop ai 挑战第十期用可疑三点零打造 root 同款像素风网页世界 root 的 美式甜心念版实在太洗脑了,随着 rap coo 和 cronco 的 席卷, y two k 世界网沿拼天风成为 z 时代社交媒体趋势。今天我们将用全新升级的可疑三点零 轻松复刻 root 同款像素风爱心游戏世界在 mv 和预告中不断出现的爱心培育公司 构造了 garden of rule 的 元素。在这里我们学习相关的图片,结合提示词,利用图片三点零欧米尼生成网页拼贴风素材与场景分镜。我们将选中的概念图进一步 处理,并导入 ai 建模平台,一键生成模型,将修改好的模型发送切片软件,分别打印装饰可爱的 y 图 k 风格挂件以及 led 屏幕交互。 接下来,我们将用三点零 omni 无需复杂提示词,一键生成苏封游戏世界。选择全能参考模式,将实拍的装置图、本人照片、参考照片与灵感视频一并上传, 通过艾特相关素材的方式进行创意对应。同时我们可以勾选智能分镜,自定义分镜的功能,进一步细化 mv 场景分镜描述,轻松 get kpop 百万运镜。在这里,我们也可以通过主题生成的功能上传自己电子宠物形象,并通过 ai 智能补全, 生成不同视角。点击智能描述获得角色的特征,并一键生成。通过视频参考功能,让电子宠物主体跟跳自己的跳舞视频,完成像素世界的舞蹈 challenge。 让我们看看最后的效果吧!

把这两张手链的图片拖进来,三分钟就能生成一个这样的电商广告大片,你相信吗?这是我用 ai 制作的手链电商广告片,全程 ai 生成,没有一真实拍。接下来四步,教会你这种电商时尚广告短片的制作。首先 第一步,我们还是来到老朋友豆包这里,把开头那两张手链的时尚广告短片 让他帮我们生成十五秒的视频脚本。豆包思考完,我们复制一下。紧接着第二步,我们来到 jimmy, 把刚刚两张图片和豆包生成的脚本粘贴进去, 让他帮我们输出生成二十五公克分镜图 jason。 然后第三步,我们打开 lark, 把 jimmy 生成的 jason 以及两张图片粘贴进去, 模型还是选择 nano banana pro, 稍微等一会,我们就得到了这张二十五宫格分镜图。最后第四步,打开视频生成器,还是把两张图片和分镜图以及之前豆包生成的脚本粘贴进去, 等待一会就能得到这个 lv 手链的十五秒点上时尚广告短片。

警告,本视频耗时三个月制作,制作时长三百五十分钟,陪你系统的学习 ai 慢剧制作,这应该是目前抖音最良心的入门到进阶的 ai 视频教程了, 哪怕你是零基础也能轻松学会 ai 圈炸缸了!横空出世的 happy horse 直接踩着 cds 二登顶全球第一,它完全开源音画同出自动锁,人物一致性自动分镜, 可以说现在普通人入局做慢剧变得更加简单了。视频中用到的专属 ai 提示词、免费工具包和入门课程变得更加简单了。视频中用到的专属 ai 提示词、免费工具包和入门课程变得更加简单了。视频中我先来画个重点 积分, ai 在 免费的状态下也能够直接使用,只要每天登录即可获得免费积分。一般来讲,生成一张图片消耗一点积分,生成一条五秒的视频需要消耗十点积分,如果你是一名轻 度使用者的话,那么免费积分对你来讲基本够用了。如果你用的比较频繁,看一下会员页面,我们可以点击单月购买,可以看到基本版每个月的话有一千左右的积 分,能生成四千多个图片和两百多条视频,对于大部分的创作者来说基本上绰绰有余。好了,那话不多说,让我们回到首页,我们点击右侧的生成按钮即可进入生成页面。我们先从图片生成开始讲起,因为之前跟大家提到过,图生时, 视频是一种更可控的视频生成方式,所以在做视频之前,我们先从最基础的纹身图入手。可以看到当前页面非常的简洁,上方是图片生成的预览区,下方输入窗口就是设置参数和生成模式的地方。我们先来看一下疑似的输入技巧。极梦 ai 的 图片生成融合了 id 和 m 机 的特点,要生成图片,首先在输入光写入一段提示词,比如一只橘猫在打篮球,黄昏的球场。输入提示词之后,我们点开图片,选择像展开菜单,这里有不同生成的模型可以选择,每个模型下面还标注了它的生成特点,大家可以根据想要的风格选择适配的模型, 通常版本越新效果越好,这里我们先保持默认。接着我们在右侧比例这里点开,可以看到许多熟悉的比例选项,横版的一般选择九比 十六,一般我们使用高清二 k 即可。这里我们先选用一比一的比例生成一张两千零四十八乘两千零四十八的 图片,当然这里的尺寸也可以进行修改。现在我们直接点击右侧的生成来看一下效果。极梦 ai 一 般一次性生成四张图片,这样即使某一张效果不太理想,我们也能挑出一张最满意的保存。可以看到生成的效果还是非常不错的,它对提示词 理解也相当的准确。这时候可能有小伙伴会问,如果我想不出提示词怎么办呢?其实也很简单,可以让 ai 给你寻找灵感。这里我提前准备了几段 ai 写的提示词,用的也是字节旗下的豆包大模型,可以看到豆包帮我生成了三段不同风 格的提示词内容,我们随机挑选一段看一下生成效果。我们将提示词复制粘贴放入生成页面。在模型选项中,我们也可以尝试其他风格,比如选择二点零 polo, 可以 看到下面描写的是极具想象力,擅长写真摄影风格,选择它生成 的结果可能会更贴近摄影风格。我们点击试一下,感觉效果还不错哦。不过虽然 ai 生成的效果很不错,但是还是建议大家多动动脑筋,自己构思的。提示词毕竟是创作的灵魂,掌握在自己的手里。旧版的模型在细腻程 度上和我们刚才使用的四点零模型还是有不小的差距,好在图片生成的成本高。完成这几张图片生成的流程之后,我们再来玩点进阶的内容吧。我们可以把鼠标停留在某一张图片上,下方会弹出多个选择项。第一个选择项是智能高清, 它可以提升图片的清晰度,还能增加画面的细节。第二个选择是超轻的功能,它同样可以为我们放大图片,提高更高的清晰度。第三个功能局部重绘,除 c、 s、 d 或 m、 g 的 同学都懂,可以选择图片中的某样物品,配合提示词重新生成。第四个是扩图 功能,它可以生成取景框之外的画面。第四个功能是生成视频功能,也就是可以直接将现有的图片转为视频。在更多的选项中,我们可以看到有消除笔,消除笔可以选中置件物品进行消除, 也可以对这张图片进行更细节的细节修复,也可以对它进行对口型。对口型其实就是 ai 配音,让上传的音频和生成视频口型同步。好了,说了这么多,让我们来更具体的了解各项功能,我们点击图片,可以选择局部重绘,此时会弹出一个局部重绘的窗口,我们可以看到在左下方有一个选区,这里可以调节笔的粗细, 我们以这只鹿为例,选择好合适的画笔,按住鼠标左击不放,可以对鹿进行涂抹,松开鼠标,涂抹结束。可以在下方选择栏中只描述选区中想要生成的内容。比如变成一只鸟,我们点击生成看一下,可以看到此时已经生成完成,它准确的理解了提 示词,将一只鹿变成了一只蓝色的小鸟,之前生成好的图片也可以进行修改哦,比如我们回到刚才这张篮球场的猫,我们可以对天空进行会制,比如现在已经生成完成,由此我们可以得出, 不重绘不仅能够替换内容,还能凭空添加元素,效果还不错吧。接下来我们换一个玩法,除了直接输入提示词,右侧还能直接上传参考图 题目, ai 会对上传后的图片自动提取图片信息,我们来演示一下吧。我们点击图片上传,选择一张人物图上传,此时会弹出一个新的窗口,它提供了几个选项,我们来看一下。智能参考,导色特征,人物写真主体识别、分格参考、边缘轮廓、紧身和人物姿势。此时有 s d 基 的小伙伴应该发现了这个部分和 content 操作逻辑非常的像。我们可以随机选择一个人物姿势,此时右侧就会出现一张检测图, 这就是极梦 ai 提取的人物姿势,我们点击保存,可以在人物姿势的基础上再写一段描述人物造型的提示词,我们可以写女孩坐在公园长椅上,写好之后我们画面的比例最好跟原图比较接近,我们选择一个九比十六。最后我们来点击 生成看一下效果。总体来说,生成的结果对人物姿势的提取比较准确,但大部分人物的姿势略有残缺,这和 ctrl alt 在 sd 中的表现类似, 算得上是 openpos 功能的通病了。这也提醒我们选择人物姿势参考时,尽量避免肢体穿插或交叉的姿势,才能够生成更好的效果。现在我们把参考图模式换成人物写真,再来尝试一下,我们重新生成一次,看一下效果。我们来看一下, 我们可以看到这次的效果好多了,因为我们只对长相要求一致,对其他部分没有做太多的限制。图片参考功能的不同选项效果参差不齐,伴随着一定随机性, 生成时可能还需要后期的修改或者寻找更合适的生存方式。当我们确定一张图片时,我们可以点击右侧的超清放大钮,点击放大,超清放大的功能可以增加这张图片的清晰度。接下来我们选择下载按钮就可以下载到我们电脑上了,下载完成后,我们可以到 ps 里查看一下此时的图片效果,清晰度非常的不错,我们放大可以看到人物头发上的发 根根分明。完成这些操作以后,我们可以回到极梦的首页,可以看到在右侧的分选项中有一个资产管理,点击打开以后,我们可以看到这里统一管理了所有生成出来的作品。我们还可以点击右上 方批量操作,可以对想要的图片进行批量下载,也可以选择批量删除或者直接导到剪映里面去进行编辑,可以省去 先下载后导入的步骤。最后我们来总结一下吧。通过今天的课程,我们可以看到杰梦对于人物的控制提供了详细的调整功能,大家可以根据自己的需要做出自己想要的图片效果,课后希望大家多多尝试。欢迎大家在评论区返图,有任何问题也可以在评论区交流,我们下期再见!今天这节课超有趣,我们要一起来探索杰梦 ai 超酷的视频上 生成数字人,还有动作模仿功能,准备好开始跟我一起今天的学习了吗?我们先来介绍一下视频生成,首先我们点开左上角的生成封页对话框,从图 片模式调整到视频生成模式,它的操作逻辑其实很简单,和图片生成很像,主要分纹身视频和无声视频两种模式。首先我们来试一下纹身视频,我们可以请豆包 ai 帮忙写一段视频提示词,这里老师已经 让 ai 帮我生成了三段无力的提示词内容,我们来随机复制一条,我们将提示词复制到对话框选项。一个女生倚靠在公园的长椅上,低头整理着野餐盒,刚拿出来的草莓散发着甜香,远处湖面泛着微光,微风徐徐 不动他的发梢。接下来我们来看一下下方选区的设置区,这里可以看到有很多视频模型,模型下方也贴心的标注了它的特点,一般来说,版本号越高的模型,其出图的效果也越好,但是要消耗的积分也会越高,所以这里我们先选用三点零模型首尾针的功能,后 期我们会详细介绍,这里先不做过多表述,来看下一项比例。一般来说手机的比例为九比十六,由于我们是电脑端,所以这里先选择十六比九,当然你也可以根据你需要的尺寸自行调节。下一个选项是视频生成的时长,我们可以看到有五秒视频和十秒视频,这里有个小贴士,不太建议大家生成十秒视频的 时长哦,因为 ai 生成具有一定的随机性,时间越长出现的小状况概率就越高,所以五秒视频的效果往往更好。我们保持五秒默认设置,直接点击生成看一下效果。视频出来了,让我们一起来看一下背景的风景以及人物的造型, 非常的自然协调,完美的适配了我们提示词,给出的内容效果非常惊艳,画面中人物动作造型非常的稳定,还有建筑和人物之间的构造逻辑非常的清晰。这五秒的时长作为一个素材或者是一个分镜头,完全能够满足剪辑的需求。而且生成这样一段视频 用时非常的短,时间成本超低,就算需要修改也能快速重新开始。接下来我们来试一下图生视频,我们可以用一张人物 图片来做图生视频,点击下方输入框左边的加号按钮,上传人物图片。提示词部分同样可以请豆包 ai 帮忙生成,直接将参考图邮给豆包,请他为我们生成一段合适图片的提示词。这里我使用的一组提示词是女生坐在长椅上,风吹动头发,女生轻轻撩拨发丝。 这里还要告诉大家一个贴心的小技巧,当我们上传图片之后,宽高笔会自动匹配,生成的图片会与原图保持一致,不需要我们再动手调整了。让我们直接点击生成看一下效果, 我们来一起看一下吧,可以看到人物撩拨发丝的动作非常的自然流畅,完美的理解了我们提示词上表达的内容。接下来我们来看一下快捷生成图片转视频。 我们除了可以从电脑上上传图片,我们还能将之前生成的图片直接变成视频,我们点击任何一张已经生成的图片,在这个页面上我们可以看到右侧有一个生成视频,我们点击生成视频, 点开之后,这张图片就会自动放入提示词图片选项中,这时候我们只需要修改下提示词内容,描述画面的动态效果,就能快速的把图片变成视频啦。这里我们使用一段提示词,一个女生在公园的跑道上骑自 行车,然后我们点击生成看一下效果。这里有个小贴士,图片生成视频的时候,提示词不用过于复杂,因为图片已经展示了全部的画面信息,我们只需要描述运镜过程和需要动起来的部分就可以了。接下来我们来看一下生成效果吧。视频已经生成好了, 我们一起来看一下效果,可以看到该视频中人物骑车的姿势非常的流畅自然,这个画面展示出来的效果就像在真实的公园里拍摄一样。好了,除此之外,我们还可以看一下其他的功能,接下来我们来一起看一下数字人的功能应用。现在我们回到生成页面,可以来看一下好玩的数字人功能, 我们可以点击下方选项,将视频生成模式调整为数字人。切换之后,聊天窗口的左侧会出现两个上传入口,第一个是上传人物图片形象,也就是数字人形象, 这里要注意上传的数字人最好是正脸足够清晰,因为系统会优先识别人物,识别失败时无法上传哦。右侧是音频上传窗口,我们既可以直接使用文本生成的音频,也可以上传自己录制的声音,这里我们可以选择直接生成一段视频。接下来我们来实操演示一下,上传一张人物形象,这时候我们可以看到系统已经为我们自动匹配了一段音频 内容,我们可以点击播放按钮看一下效果,可以看到该语音跟男生的适配程度非常的高。我们可以点击音频,在这里我们可以调节音色,点击前面的播放按钮,可以随时试听。欢迎使用对口型功能,让你的故事镜头徐徐 入正。这里我们优先使用推荐的音频作为默认选项。接下来我们需要输入我希望角色输出的内容,这里我们可以给出举头望明月,低头思故乡作为提示词。动作描述,这里可以选择有动作或者无动作,这里我们可以选择设置一个人物抬头然后再低头 的动作。这里我们也可以看到数字人该有的模型,我们可以看到这里有三个模型,可以选择每一个模型,下面已经给出了具体的表现效果,这里我们先用默认模式。第三个选项是上传音频,如果你不需要系统推荐的音频,你也可以选择自己上传,如自己录制的音频。这里我们先选用系统默认的音 频,我们点击生成看一下效果。好啦,视频已经生成完成,让我们来看一下效果如何。举头望明月,低头思故乡,可以看到该人物说 出来的话与我们想让它表达的非常一致。口型与我们的提示词内容高度吻合,但是动作模仿上,人物并没有像我们提示词那样有抬头或者是低头的动作,也可能是 ai 没有正确的识别动作描述,我们可以点击右侧的再次生成重新生成一次。我们来看一下生成的效果。举头望明月, 可以看到该人物在口型上与我们的提示词高度吻合。在人物动作上面有抬头和接着低头的动作表述,整体符合我们的生成效果。接下来我们来看一下超有趣的动作模仿功能,我们点击下方按钮,选择将数字人切换到动作模仿功 能,可以看到这里同样有两个窗口,第一个是上传人物造型,第二个是选择动作。值得注意的是,角色图片可以选用半身或全身,但要尽量正面,且肢体没有交叉。我们点击上传一张图片, 我们以这张二次元人物造型作为参考。选择动作,可以看到这里出现两个选项,一个是选用系统推荐的模板,另一个选择自己自定义上传的视频。这里我们以选择系统给出的模板为例,点击可以看到里面有很多预装的动作模板,我们可以点击 右下角的小叉,即可播放该动作的预览效果。选择该动作选择好后,我们直接生成看一下效果已经生成完成,我们来看一下图片效果,可以看到人物在跳舞的时候,头部明显的跟墙面有进行重叠,看起来有一些别扭,期待未来能有更新优化这个问题。最后我们来对今天的内容进行总结,不知道大家有没有同感, 每一轮的科技创新都会带来两个方面的发展改革,其一是提高行业的下线, ai 已经开始大量替代初级内容产生的岗位,原本成本较低的制作现在被 ai 压得更低了。第二个是拓展行业的上限,在追求更加创意,更具高端品质的同时,新工具对创作效率提 出了更高的要求。简单来说, ai 时代是超级个体更容易诞生的时代,当繁琐枯燥的工作被 ai 接管后,人的价值就会更加的凸显。所以如何让我们的思维逻辑跟学习能力在更深更广的维度进行突, 这才是值得我们关注的。那么本节课的内容就到此结束,如果你认为今天的内容对你有所帮助,欢迎三连,有任何问题也可以在评论区留言,我们下期再见。这节课我们来解锁一个超实用的技能,如何用 ai 来制作视频脚本?你有没有想过 平常看到的电影广告,甚至那些有趣的短视频,他们是怎么样诞生的呢?其实无论是 ai, 电影广告、动画片、宣传片、 mv, 还是各类短剧和段子,只要是稍微长一点、优秀一点的作品, 通常都需要提前谋划,按照剧本或者脚本来拍摄制作。但对于普通人来说,写剧本和脚本不仅难度不小,而且还特别费时。既然 ai 已经能写文章和小说了,那能不能让他帮我们写一个剧本和脚本呢?答案是,当然可以,只要我们会下达命令,各种脚本都不在话下。 ai 大 模型语言有很多, 我们要做的视频类型也有很多。这节课我主要分享一套底层逻辑和框架,掌握了这个框架,你只需要根据自己的具体需求往上套就行了。在开始今天的实战训练之前,我们先来认识一下给 ai 的 提示词,我们应该如何写?应该写一些什么?如何让 ai 明白我们要对它描述的需求。这里有一个提示词的万能框架,就是是什么,做什么,怎么做。我们一起来看一下它们分别是什么意思。第一个是什么? 什么?就是给 ai 一个身份大语言模型之所以大,不是内存大,而是知识储备量大,它吸收了人类古往中外的大量知识,但这些知识没有特定的归类,所以他的回答有时候会显得很 混乱。我们需要他的帮助,就要给他先设定一个身份,让他从专业的角度给出更精准的结果。举个例子,如果同样问他献上一部经典影视作品,那么 ai 身份如果是编导或者是观众,那他给出的答案将会完全不一样。所以是什么?就是给 ai 设定一个身份的视角,进行专业的回答。第二个做什么? 明确我们的任务目标,这就是告诉 ai, 我 们需要利用它的专业知识来帮助我们解决一个具体的问题。上面那个例子看似简单,其实也是遵循了这个逻辑,我们要他做的就是答疑解惑。第三个,怎么做?设定一个输出的标准。这一步呢,就是给 ai 制定一个标准,比如请他列出三条,最重要的原因就 就是给了他一个回答的框架,像我们平常见到的字数、语言、格式类型都是属于标准。那么我们接下来用一个实战演示来说明是什么,做什么,怎么做。如果我们要让 ai 写一个三十秒左右的微电影预告片提示词,我们可以这样组 织,我们可以以恶龙骑士为例。第一步,给 ai 设定一个身份,你可以根据你的故事题材为 ai 设定一个最匹配的导演身份。我们用一个视力来说明一下,我们可以这么和 ai 说假, 假设你是一名擅长拍摄奇幻史诗与视觉大片的世界顶级导演,拥有二十五年电影制作经验,尤其精通宏大自然的场景拍摄和角色内心戏的刻画。你的作品以震撼的视觉奇观、深刻的人物刻画和富有张力的序势节奏著称。那么这一步呢,就是给 ai 设定 好了身份。第二步,我们要给他交代我们的任务细节和材料。这里我们要向 ai 清楚的交代我们的任务,并提供故事的背景与核心主题两个关键的材料。来看一下我的视力说明。 请你仔细的阅读并理解我提供的以下两份资料,并基于此创作一部时长约一分钟左右的短片预告片。在这份材料里面,我放了两个内容,一个是故事的背景, 一个是主题的核心。那么故事的背景主要是在一个被黄沙吞没的遗忘世界里,古老的王国因失去了巨龙的庇护而逐渐衰败。骑士凯尔是龙裔誓言最后的守护者,十年来,他穿越无尽沙海,寻找传说中沉睡于沙漠尽头的最后恶龙,曾记只为了唤醒他,并一同飞往中 天城堡进行命运之争。这里我们要体现出我们的核心主题就是寻求庇护并迎来最终的荣耀。在视觉参考方面,我们可以参考沙丘的宏大荒芜感和驯龙高手里的人龙羁绊。第三步呢,就是给 ai 输出,我们的标准要求 ai 按照专业分镜头脚本的格式进行结构化的输出, 保证这个成品可以直接的使用。可以来看我下面的案例,请严格按照下面的案例输出。影片名称,核心梗概,分镜头脚本最后一步就是完整的获取脚本。我们来看影片名称是龙翼黄沙与誓言。故事的梗概是最后的龙翼。骑士海尔在死亡沙漠深处找到了传说中的恶龙痕 迹,从恐惧对峙到血脉共鸣,最终驯服了恶龙,别上龙背,与这古老的守护者一同飞向暗夜笼照的中央城堡。命运之战一触 不及发。接下来 ai 为我们列出了分镜头的脚本,可以看到里面分别有景别画面描述、动作人物以及画外音音效等等。我们来看第一个镜头是大远景无尽的沙海,一道孤独的人影在沙丘脊背上剪影般的移动,主人公摸着疲惫的身躯前行。画外音可以用 十年了,沙漠没有镜头,只有回音。最后的结尾呢,我们一般会在高潮处戛然而止,是为下一集埋下了伏笔,也激发了观众的无限想象。那么到这里为止呢,一个完整的 ai 脚本就已经 全部写好了。需要注意的小细节就是, ai 对 时间观念的把控是非常模糊的。通常生成的脚本呢,总时长短于要求,目前最好的控制方法就是通过镜头的数量来评 估,比如说我要求他给我二十个镜头,每个镜头三到四秒,总时长就在一分钟左右。不同的 ai 对 同样的提示词的理解会有差异,我们可以反复观看,发现哪里不足时,可以通过提示让它继续改进就好啦。我们以刚才的如广告、 mv 等脚本原理都是相通的,这里就不一一展。 关于工具的选择,其实生成文案的工具是有很多的,他们各有优劣,具体选择哪一款还是要根据你想生成的内容来决定。生成好的脚本,我们可以直接交给 ai 生成相应的配音配乐,再通过剪辑软件把视频、 音频等元素串联在一起,一个完整的作品就诞生了。最后,让我们用这个脚本生成的成品来为这节课画上一个完美的句号吧。 希望这节课能帮你打开 ai 创作的新大门。欢迎在评论区留言,如果这期的视频对你有所帮助,也可以为我们点击三连,我们下期再见。这节课呢,我们就来聊一聊 ai 绘画。你可能会好奇, ai 视频课为什么要讲 ai 绘画呢?如果直接通过文字描述就能够生成想要的视频,那确实用不到 ai 绘画。 但正因为目前的 ai 视频技术还无法完美地实现我们想要的画面,所以我们需要借助 ai 绘画来锁定、引导 ai 视频的生成。在今天的课程开始前,我们先来回顾一下上节课最后的预告片。 可以看到老师上节课给大家展示了这个小预告片,今天这节课呢,我们就以这个预告片为例。在开始之前,我们首先要来了解一下 ai 绘画提示词的基本结构。一般来说,它包含以下六个部分,分别是主体、场景、光线、构图、色调 和风格。我们简单了解一下它们都代表着什么。先说主体,主体代表着画面核心,视觉焦点决定创作核心内容,可以是人物、动物或者其他生物,是观众视线主要落点, 需明确且有辨识度。而场景呢,是主体所在的环境空间,如自然的风景、室内场景、科幻未来等等,用于烘托主体氛围,交代故事背景的。我们再来看一下光线,光线呢,是塑造画面立体感与情绪的关键,包括了顺光、逆光、侧光等类型,可以增加层次, 凸出细节,或者是营造明暗对比的氛围。其次是构图,构图的话是画面元素的布局方式,如中心构图、三分构图、对角线构图等等。目的呢,是引导观众的视线,平衡画面主次关系。我们再来看色调,色调是代表着画面整体色彩的基调,如暖色调红橙 表示温馨,冷色调蓝青表示宁静,影响着画面情感的表达方向。风格就是艺术表现形式的统称,如写实风格、卡通风格、水彩风格等等等等。它决定着画面整体的视觉质感与艺术特色。我们结合这六点要素,可以生成几乎所有的形式图 片。我们以刚才看到的恶龙骑士微电影为例,这是脚本的第九个镜头,画面描述着巨龙坟祭他的头颅冲破沙面,鳞片如黑曜石镶嵌,溶金沙粒如铺 柱,从其头顶倾斜。海尔在漫天的沙海中仰视,几乎窒息。我们可以看到仰视俯拍是属于构图,黄昏是光线,巨龙与骑士是主体,沙漠是场景。 根据这个画面描述,我们可以生成对应的 ai 绘画提示词。这六个元素不一定要全部都出现,但想要结合精准可控的图像,就需要多元素的一个结合。我们通常可以直接使用 ai 脚本里的提示词,附 粘贴到 ai 绘画工具中,就能生成对应的画面。了解了生成逻辑之后,我们重点来看一下一致性的设计。它主要包含三个方面,风格一致性、场景一致性和主体一致性。 什么是风格一致性呢?保持风格一致性的方法有很多,最简单的就是把风格相关的提示词放到最前面,同样也适合用于纹身视频。我们还是以恶龙骑士为例,在这个片段中呢,它最核心的风格提示词是使狮 幻电影风格、沙丘美学、暖金色调与褐土色的色调混合。我们先来看一下第二条场景一致性,主要呢,它是两种方式,方法一,它是参考了重绘法,我们需要给他提供一张参考图,他就能为我们生成类似的场景, 我们再把这个场景中生成这个主体。参考图最好能够具备三百六十度可参考的视角,这样我们可以满足同一个场景不同视角的需求。我们以恶龙骑士为例,先去生成一张无尽沙海巨大的龙族遗迹其 记的场景,然后以这张图片为参考,生成不同的角度,不同的时间,如正午、黄昏、夜晚的同一场景。然后在这个场景中分别添加骑士和巨龙这个主体,这样我们就可以得到一个场景一致性的图片。一般实现三百六十度取景有三种实践方法,第一种呢是实拍,这个比较麻烦。第二种呢是谷歌地图卫星图, 它可以利用现有的拍摄数据。第三种是天空盒子,生成三 d 场景,它的自由度比较高,可以设置风格和布局。我们这里不做过多介绍,看一下方法 b。 方法 b 呢是细节描述法,就是通过详细的提示词描述生成类似的场景,多次生成之后,选景,取一张一致性的图使用。值得注意的是,这种使用方法有一定的局限性,它适合于场景一致性要求 不高的时候使用。这种方法最为简单,我们来看一下第三条。第三条是主体的一致性。这个主体呢,不只是人物,动物、物品都算主体, 其中最为复杂和最常用的是人物的一致性。不同的 ai 工具有不同的控制方法,最简单的人是通过提示词的描述,再从相似的结果中选出最接近的。这里我们还是以恶龙骑士的主体为例,在这个片段中,骑士凯尔和巨龙坟祭都是主体, 我们可以对这两个主体进行更详细的描述。比如骑士凯尔是一个三十岁左右的中年人,他有着深褐色的短发,身穿磨损的棕色皮夹和披风,详细的描述可以用作于主角的过程中,在多个场景中生成的主体 致性稳定。而巨龙缝纫我们设定的是体长三十米的黑色巨龙,鳞片镶嵌绒金色纹路,瞳孔如岩石, 翅膀有破损,整体威猛,但显得古老疲惫。通过给他们具体的描述,可以在不同的场景中保证这两个主体的一致性稳定。那么我们得出,既然风格、场景主体都能够通过提示词控制,那我们也可以把整个逻辑告诉 ai, 让它帮我们生成合适的提示词, 这样可以省去自己构思的烦恼。接下来我们针对主体的一致性对骑士凯尔做一个实操,我们把他的详细描述复制到提示框中,给他一个场景,让他在大海上,场景是大海的游轮上,我们深层看一下效果,接着我们把他的场景换一下,换到一个原始森林里。 我们再来深层对比一下,我们来看一下效果,可以看到在发海上,人物的效果符合提示词的描述,特别是他手持龙纹长剑,容易纹身,在手臂上发光,这一特点展示的非常准确。再来看一下在森林中,从直观来看,确实是同一个人比 较有特点的还是手持龙纹长剑,容易纹身,在手臂上发光。通过这个例子,我们可以得出设计人物主体可以很好的保持人物一致性。接下来我们看第三项。关于视频的首尾帧,还是以恶龙骑士的例子为例。 前面我们说过了,将所有的画面提示词的最前方写上它的风格,如史诗奇幻电影风格,暖金色调为主画面,充满颗粒感与电影质感,这个风格可以确保整部影片视觉效果的统一。我们刚才讲了关于场景与主体的设计,影片中重复出现的场景需要进行美术设计以保持一致性问题, 在这个例子中,我们主要为它设计了两个画面,一个是无尽的沙海,一个是中央城堡,因此我们对它进行了细节的描写。接着是主角部分,我们按描述生成了骑士凯尔和巨龙坟祭的定装参考图。现在我们来讲一讲关于视频的关键帧。这些用于生成视频的图片我们称为参考图或者是关键帧。 关键帧主要有四种类型,我们以恶龙骑士为例,关键帧的首帧是骑士孤独的行走在沙丘的画面,我们给到的镜头是大远景,孤独的人影在沙海中移动, 想玩手针。我们再来看一下尾针,尾针的关键针是骑士骑着巨龙飞向城堡的最终画面,在这个镜头里,我们同样给的是远景巨龙载着骑士飞往城堡。那么除了首尾针以外,我们还需要用到中间的关键针和前后双关连针。 巨龙破沙而出的震撼画面,这里我们用的是仰拍巨龙头骨冲出沙面,还有最后一个针,最后一个针是前后双关键针。这里我们给出的案例是骑士和龙从对直到建立连接的对比画面, 这里一般我们可以用到近景拍摄,突出两个对立的主体,如人物和巨龙。接下来我们对上面的做一个小节。首先,我们可以让 ai 设计一个提示词,生成人物的定妆参考图, 在以此为基础上,建立角色在各种场景和角度下的照片。最后,我们拿着这些图片生成对立的分镜头视频。这里有个小贴士,这里需要注意的是,虽然生成的结果符合提示词的要求,但前后角色在发型、长相上仍会存在差异。我们要通过进一步描述发型、脸型等细节, 描细的越精致,结果越接近。对于关键角色,可以多生成几个角度,多一些表情的角色表,来确保角色的一致性。好啦,这节课我们就先来掌握 ai 绘画与一致性的基本逻辑。下节课我们将用恶龙骑士为例, 一起来动手,让这些画面真正动起来吧!课后还是希望大家多多尝试,欢迎大家在评论区反图,有任何问题也可以在评论区交流。如果这期的视频对你有所帮助,欢迎点赞评论关注,我们下期再见!

在这个视频中,我将向你们展示一些先进的技术,用于保持运动控制。我已经用 clean 做了上百个测试,运动控制试图打破它。我得到了一些令人惊讶的结果。也请继续关注我的短片。 我用这些技术做的。在此视频中包含保持运动控制,在许多网站上广泛可用。但今天我要用 higgs field, 所以 您可以在视频选项卡中找到 clean motion control, 就 在那边。如你所见,我们这里有设置,所以你添加视频。你想复制到这里的动意,你最多可以做三十秒。 然后你想在这里换成的角色。保持运动控制主要用于把自己变成不同的角色,同时仍然保持原来的表现。 这太棒了,但我看到很多人只是在使用它。对于这种静态拍摄,虽然他们没有任何问题。我觉得缺少了什么。这就是我想带你去的地方。相机运动如何帮助提升你的镜头?所以我录了很多自己的镜头,在不同的情况下,所以这是我的一个片段。只是在花园里散步。如你所见, 相机和我一起移动。所以我只想改变我的性格,但仍然保持所有的相机运动。正如你在这里看到的,我把自己变成了模像。我认为这看起来不可思议。那个相机动作看起来真的很好,甚至像我原来的镜头一样。施胶。在这张照片里,你可以看到我穿过走廊,他做的非常好。 在那种环境中移动,随着运动,但以可信的方式改变角色。如你所见,把这个动作加进镜头里,真的有助于巩固这个角色。在那种环境下只是帮助创造一个更有活力的镜头。 您可以使用任何相机进行此类拍摄。所以我走在走廊上的那张照片。我刚刚在手机上拍摄了倒退。他有一种非常好的自然感觉, 手持移动到他。这也可以帮助销售镜头。对于他跟踪我的另一个镜头,我实际上使用了一个带有跟踪模式的云台,所以每当我移动时,他总是把我锁在相框里。这对于独唱创作者来说是不可思议的。 现在你可能在想我如何把自己变成不同的角色。使用任何图像模型都很容易做到。在 hicks field, 所以 我最喜欢的方法是使用 nano 版本 pro 或 nano。 二、我拍下视频的第一帧上传作为参考,并给他一个这样的提示。 我通常会确保添加进去,在提示中保持相同的姿势和构图,以及这使得它更容易年复。运动控制以匹配运动。从原始视频,您可以在提示中输入,无论你想变成什么。但现在,假设你也想改变背景。好吧, 你只是做同样的过程改变你的性格。但您可以添加到提示中你想要的背景是什么。所以我穿过走廊的那张照片。我把自己改成了该让他看起来像我在山洞里。这张照片看起来不可思议。 我拿着的光源真是太神奇了,照亮了洞穴在我周围。我对这张照片印象深刻,然后我想我可以换那个荧光棒吗?我拿着不同的东西。在这张照片里,我把自己变成手持紫色光剑的绝地。他绝对搞定了。 我喜欢紫色光剑铸造他的方式,角色上也有紫光,他甚至在眼罩上有反射。还有,这非常酷。那枪是我开的,并将背景更改为森林环境。如你所见,他与相机的运动完美匹配,但完全改变了环境。 对我来说,这看起来是可信的。他实际上看起来像是这个角色。在那种环境下,这是一个非常酷的一步一步的方法。从你的原始录音中一直到现在,结果非常棒。 是的,绝对是一个移动的镜头,我觉得让他看起来比静态拍摄好得多。接下来,我还有很多例子相似过程。所以我有一段我拿着枪的视频,只是稍微移动一下,我把自己变成了这种 cgi 皮克斯角色。虽然动作并不完美, 这仍然是一个很酷的镜头。然后我把自己变成仓库里的黏土间谍。我非常喜欢这张照片的美感, 我喜欢眼睛移动的方式。角色也是看起来真的很酷。我甚至尝试了我驾驶手推车的镜头。如你所见,我只是拿着这个东西,假装这是方向盘, 从左到右移动,在南东北南的中创建了一些不同的图像。 clay 谋生 control 制作了一些很棒的视频。我喜欢的事你可以看到。我显然是想上交我的录音。利用照片中的知识, 他看到我在路上,他实际上让他看起来像我正沿着那条路行驶,并随着道路上的转弯而转弯。这就是不同的地方。运动控制设置开始发挥作用。 如你所见,我没有场景控制模式。这就是两个视频的样子。使用这两种不同的设置,如你所见,他们看起来不太好。对于我想要实现的镜头类型,这就是我喜欢关闭场景控制模式的地方,并改用高级设置。 我们可以在视频中提示事情发生。所以在这个中,我只是提示他开的很快,结果看起来很棒。 比如这个马里奥赛车的视频,在录音中看起来我下去拿东西,然后把它扔在我身后。我实际上提示他取走了不同的商品并扔他们。我对可令的结果感到非常惊讶。如你所见,他按照提示操作了。他捡起一根香蕉扔到我身后。 现在他并不完美,但是我可能会花一点时间在提示上让他看起来更好,但我仍然印象深刻,将其添加到视频中,尤其是在原始录音中。我什么都没有,所以玩一下提示。在高级设置中,因为他给你很大的灵活性改变镜头。这里还有些疯狂的例子, 我来掩护未来视频中更高级的技术,所以一定要订阅, 这样你就不会错过他们了。好吧,回到视频,你可以用运动控制做一些疯狂的实验。所以再次使用这段录音。我想把自己变成一个生物,那是由低落的粘液制成的,所以我创造了这张图片。我对视频感到非常惊讶。 如你所见,我想他们抓住了那种质地,它的光泽度。如果你看着我手臂下低落的碎片和一切。 他们实际上随着我手臂的移动而移动。虽然这看起来不多,我只是对这种感觉印象深刻。有那种基于物理的运动,他在移动。那些年夜,我认为反射和角色上的灯光让他真的感觉像一件可信的事情。然后我想拥有同样的生物,但在其要高的水中, 我想看看它能不能模拟我在水里的样子。所以我用 nanoben 创造了这个图像。结果令人难以置信。如你所见,我正在四处走动。它和粘液有着相同的物理特性,但是水也在我周围互动。 看着我的手臂在水中移动,它会产生这些飞溅只是从我的手臂穿过的。这给我留下了深刻的印象。模型是观察与环境的相互作用 元素必允许您与之交互。所以从最初的视频来看,我只是在移动我的手臂,一无所有,但它实际上创造了这些很酷的从水中建起,来自像我这样的 vfx 极客。我真的印象深刻。这是我的另一张照片,但是穿着防护服在水中行走,我再次认为它看起来不可思议。 在我看来确实很逼真。自然采光,水荡漾的方式看起来真的很好。然后我尝试了类似的镜头。但是有了这个令人不安的泥人。这是一个非常奇怪的,但他看起来很棒。他定在那种粘土上。字符上的泥拧纹理,并用泥浆和垃圾填满了我的花园。 kink 运动控制非常适合嘴唇同步。如你所见,我把自己变成了食尸鬼。来自辐射电视节目。 kink 搞定了。我想指出看看我脸上的效果有多好。它完美的去除了鼻子。现在这很令人不安,但我对结果印象深刻。 现在在 higgs field。 最酷的是我们有 higgs field 的 音频。我们有能力变成不同的声音和语言改变声音。你所要做的就是点击这个小麦克风图标。在这里看这里你有话外音。因此您可以仅从文本提示创建音频。我们换了声音。 如你所见,有很多不同的声音可供选择,听起来都很不一样。真正美妙的事,我们还可以创建自定义声音,所以你可以添加你自己的录音,并创建一个自己的克隆体。这里有几个改变声音的例子。 war never changes just look at this place it's chaos a war never changes just look at this place it's chaos。 我 真的很喜欢我们现在有这个选择,因为我们可以使用年复创建自己的角色运动控制,并给他们一个独特的声音来匹配那个角色。我们还有一名翻译,所以我们要从一堆不同的语言中挑选。 这是其中几个听起来的样子。 最酷的是,他真的改变了对口型匹配语言。 这是一个很棒的接触,您甚至可以享受完秤的乐趣。所以我有这个我的视频。然后我用 nanobabyana 把自己变成这个巨兽人角色。我把这个和原始视频一起用了。这是 kling 做的。我真的对这个印象深刻,因为他与运动相匹配。他完美的抬起杯子。 这真的很有趣。如何保持相同的环境,但让角色看起来更大,并保持运动控制。这是另一个受人角色的照片,而且他还挺大的。 我想尝试另一个镜头来玩规模,所以我有这个我的视频只是在花园里散步,但我想让他看起来像个巨人 走过一片小风景。所以我以所谓风格创建了这张图片,然后在使用视频的运动时制作这个非常酷的视频。它实际上看起来像一个巨人走过风景。我甚至用慢动作拍了下来,让人觉得他是个行动迟缓的巨人。所以希望这开启了一些很酷的方式, 有规模。我最喜欢的运动控制方法之一就是使用环境中的物体。所以我有一段我最喜欢的运动控制方法之一就是使用环境中的木头,然后我把它放下。 所以看起来我在调查什么。所以我想我可以尝试一些不同的场景吗?用这个,我的第一个想法是创造一种探险家,寻找宝箱。 所以我用 nano 本 nana 创造了这张图片。这是视频。我真的很喜欢这种方法,因为它看起来真的很好,动作很完美。但是当我放下那块木头,实际上也知道放下箱子的盖子。这是同一张照片中的其他几个例子。如你所见,厨师正在看冰箱, 这个外星人正试图修复他的不明飞行物。这是我的最爱之一,赛车手检查汽车引擎的地方。 特别是这张照片。我想用同样的角色拍几张照片,让你觉得你再看一个场景有个性。这感觉很有凝聚力,是故事的一部分。如你所见,我特意拍摄了这些场景,心中有一个清晰的愿景,然后再为他们创建图像时把它放在一起。我得到了这些结果。 这是使用几个相同镜头的版本,但是改变角色和环境, 如你所见,结合所有这些元素,真的很有帮助。提升你的视频。最棒的是,这些照片你可以完全控制。 现在使用另一个很棒的工具,与可令运动控制一起是可令编辑。所以如果我们来这里,你可以看到我们有可令 oe 视频编辑和可令三点零。现在我已经测试了这两个。他们似乎给了我类似的结果,选择你想使用的任何一个。 可令编辑非常擅长编辑视频的一部分,所以你可以改变照明,你也可以更改字体。但我发现运动控制的效果更好 在角色和对口型。这是我之前拍的照片,我想在上面再加一层,所以我把这个上传到 clean edit。 我 给他的提示是在前景中添加施胶的树叶。他是无缝添加的 前景中这片多余的叶子。我真的很喜欢 kling 中的这个功能编辑,因为我们可以上传我们已经制作的视频,像这样添加额外的图层。尤其是现在我们有了前景,中景和背景 真的给你的照片增加了很多深度,只是让他看起来更有趣一点,所以一定要用。 clean 编辑已在您的镜头中添加额外的元素。如果你想做,这也很好。在这里插入像这样的镜头,所以我用手画了一个非常简单的草图, 但我想把它们换成兽人的手。这种枪法对克令没用运动控制,因为镜头里没有人,但使用克令 id, 它可以完美的工作。所以我用 nano bena 创造了这个图像,然后上传到克令。这是我使用的提示。结果看起来很棒, 如你所见,他与我的手运动完美匹配,甚至把图纸印在纸上了。这种镜头真的很适合在两者之间添加那种角色驱动的镜头,来真正帮助一点多样化,帮助充实你所讲的故事。在今天的课上,我将教你如何画画, 所以通过使用,我在这个视频中向你们展示的所有方法,我制作了这部短片。在那里,我发现一个有知觉的岩石生物。名副其实的洛奇。哪个是的灵感来自万福玛利亚钟洛基的角色,所以让我们来看看。有一天,我发现一块奇怪的石头, 他神奇的开始生长。很快我就教会了他其他的第一辆自行车。进展顺利。好吧,知道他没有,但是洛奇总是振作起来。我教他玩石头剪刀布。 我真该料到会这样。我向他介绍了他的第一杯咖啡。他有点不确定, 我甚至和他爸爸有过一次尴尬的会面。我真的为洛奇感到骄傲,因为他决定接受教育和学习,这让他成为了一名美术老师。我想他确实需要多一点时间艺术研究,但说实话,我再自豪不过了。 现在,如果你愿意对我如何制作内部短片的彻底分析,那请告诉我。 所以,我希望你喜欢这个视频并拿走了至少一件东西。这可以帮助你激发你的下一个项目。如果你有任何建议或提示,你想让我接下来试试 吗?那么请把它们留在评论区下面。如果你能给这个视频一个赞就太好了,并点击订阅按钮,这样你就可以跟上所有疯狂的人。新的创意人工智能工具,非常感谢你的收看。我叫杰克,我们下期再见。

一个人站在厨房,手里握着刀,旁边放着半块西瓜。任何三岁小孩都能看出来这个人在切水果。 ai 的 判断是暴力、威胁、危险等级高。 那个时代的 ai 根本没有同时理解多件事的能力,他看见了刀,却看不见西瓜和厨房共同构成的语境。 这就是单模态时代的根本局限,也是多模态 ai 诞生的起点。啥是模态?模态就是信息的在体形式,文字、图像、声音、视频各是一种模态。 人类从出生起就在多模态的世界里学习。你读过点赞这个词,见过点赞图标,听过点赞的音效。大脑把三件事合在一起,形成了立体的概念。 相比之下,早期的 ai 更像是互不共脑的偏科生。视觉专家只盯着像素矩阵,语音专家直数着波形频率。他们各司其职,无法理解彼此眼中的世界。 为了打破偏科,研究者们开启了一场漫长的模型进化。起初,研究者们尝试把不同模型接在一起,从直接拼接原始数据,到各自提取特征后合并,再到各自模型独立处理,最后在任务目标上协同。 ai 能一边看图一边说话,但两个模块之间更像通过翻译官交流,深层理解仍然有限。 再接着演化,从域训练之初就把文字、图像、音频混合在一起,用同一个 transformer 端到端学习,不再有模态边界, ai 开始真正拥有类似人类的通感。 但无论架构如何变迁,要让 ai 真正实现感官通感,都绕不开三把最核心的钥匙。第一把钥匙模态对齐。先理解一个核心问题,图像和文字为什么没办法直接比较? 因为它们存在于完全不同的数学空间。猫的照片是一个像素矩阵,一只猫这个词是一串符号序列,无从比较。因此,模态对其要做的就是给它们建一套公共坐标系。 二零二一年, open ai 的 click 给出了第一个成熟的解法,核心思路分三步,第一步,各自编码。 ai 分 别调用两个翻译官,图像编码器负责把图片压成一组向量文字编码器则把描述文字也压成同样维度的向量。至此,图像和文字都变成了同一种数学语言,可以在同一个空间里比较。 第二步,对比学习。接下来的关键是教模型分辨谁是谁。 ai 每次抓取一大批图文队,在坐标系里玩起了连连看。如果是原本就配对的图文,就把他们的向量坐标拼命拉近,如果不配对,就强力推开。 在四亿个样本的反复磨练下,模型形成了一种直觉,与一相似的东西,在空间里的位置就该靠在一起。 第三步,与异空间成型。当训练结束,一个奇妙的跨模态地图诞生了。 在这个共享空间里,文字猫的像量和猫的照片像量会自然吸引,紧紧贴合,而猫与汽车则会互斥。这张地图带来了一个惊喜,零样本识别。 哪怕模型从未专门学过雪豹这个标签,只要你输入雪豹的文字描述,模型就能迅速在地图里定位到对应的视觉特征。因为他学的不再是死板的分类,而是跨越模态的通用语义。 第二,把钥匙模态融合。如果说对其是让不同语言的人搬进了同一个城市,那么融合则是让他们坐下来深度参与同一场对话。 融合的核心矛盾只有一个,两种模态应该在什么时候相遇。这就好比两股激流会合,相遇的越早,融合越简单,但水花较浅,相遇的越晚,他们交织的就越彻底,但也越考验河道的承载力。目前业界演化出了三条路径。 路径一,找个翻译官代化。他把图像通过一个投影层翻译成 token, 然后直接从输入口送进去。模型的大脑结构几乎不用改动就能处理视觉。路径二,在脑回路里反复交流。 他在语言模型的每一层都插入了专门处理图像的插槽,文字每经过一层思考,都会停下来和图像信息对一下口型。这种深层交互让 ai 的 理解更细腻,但也意味着模型需要被大规模中手术。路径三,不分彼此的原生感官。 他不再区分图像和文字,而是把图像切成一个个像素方块,和文字零件混在一起吞掉。从头到尾,模型都不知道谁是图谁是字,他们在同一套架构里彻底融合。这种方式效果最强,但训练成本也最为昂贵。 融合完成后,就只差最后一个问题,模型在理解复杂指令时,如何知道该重点看图的哪个部分?这依赖于第三把钥匙跨模态注意力机制。 transformer 处理一段序列时,不会平等对待每个词,它会计算当前这个词和序列里其他哪些词最相关,然后把注意力集中在相关度高的词上。这个机制天然对 token 的 来源无感,它不在乎一个 token 是 来自一段文字还是图像中的一个像素快? 他只关心一件事,这两个信号在语义上有多相关。这个特性让 transformer 天然成了跨模态融合的理想载体。具体来说, 当模型处理图中左边穿红衣服的人在做什么这个问题时,左边这个文字 tucker 会自动和图像左侧区域的视觉。 tucker 产生高向观度,红衣服会聚焦到图中红色区域模型不需要被告知去找左边注意力权重会自动完成这个定位。 至此悲哀,第一次真正做到了边看图边理解文字。目前多模态能力已经在产生真实的影响。 在无障碍应用中,用户只需将手机摄像头对准前方, ai 就 能实时化身为他们的眼睛,读出菜单上的价格,辨认药品的名称,甚至描述十字路口的路牌。 当多模态 ai 能够同时看、听、读,并把这些信息整合成连贯的判断,下一个问题自然出现。他能不能在脑子里模拟这个世界的运行,预测接下来会发生什么,甚至在数字空间里进行实验? 这就是我们下一集要探索的主题, ai 如何在脑子里模拟现实世界?

cydenx 二点零现已在全球范围内的 hicksfield 上全面开放,所有计划均可使用。所以今天我们要把它逼到极限进行测试。我将用一系列极具挑战性的提示词让它与 colin 三点零正面交锋。我也将用自己的脸做图声视频,对叠多种元素进行视频转视频, 尝试所有可能的操作。所以让我们直接进入 higgs field。 如果你想跟进链接,在下面描述里,我将立刻开始用自己的脸配合一个极其复杂的提示词,在一个十五秒的视频里塞进每秒多次的镜头运动和大量不同的对白。 所以这就是最终结果。你答应过你会来的。我们的预约是三点,你在哪?我被工作耽搁了。没什么大不了的。没什么大不了的。我请假了。我把一切都重新整理过了。你以为我不知道那回事?你以为我不觉得很难受吗?感觉糟糕透顶也改变不了什么,这 无法抹去他。你想要我什么?道歉行吗?对不起,我不再想要道歉了。大卫不要你现在这个效果很棒,尽管它让我看起来稍微老了一点,还带点肝脏问题。 无论如何,要实现这一点,你需要在这里上传一张自己的照片。据我所知,你一次训练最多可以使用九张图片,三个视频和三种不同的音频。当你上传媒体时,系统会自动检查其资格,或者你可以点击检查资格。如果一切正常,你就能用自己的脸从图像,视频或作为元素生成视频。你看,我有资格了,现在我就可以使用了。 如果你遇到问题,可以尝试把你的图片放进 nano banana 做图生图,然后做一些其他调整再重新上传。或者用这里的图像生成功能试试,这样应该就能行。接下来是 click 三点零的结果,你承诺过会来的。钻嘴上 translation 现在这个效果很棒,尽管它让我看起来稍微老了一点,还带点肝脏问题,但无论如何,要实现这一点, 你需要在这里上传一张自己的照片。据我所知,你一次训练最多可以使用九张图片,三个视频和三种不同的音频。当你上传媒体时,系统会自动检查其资格,或者你可以点击检查资格。如果一切正常,你就能用自己的脸从图生视频或作为元素生成视频 看。我有资格了,现在我就可以使用了。如果你遇到问题,可以尝试把你的图片放进 nano banana 做图生图,然后做一些其他调整再重新上传。或者用这里的图像生成功能试试,这样应该就能行。接下来是 link 三点零的结果,你承诺过会来的。注意,原回答末尾出现了两个 b 和大括号塞,这不符合 g, s, o, n 格式规范,已在上方修正为一个正确的 j 结构。同时根据用户提供的上下文,特别是下文意义。你说过你会来的。我们的预约是三点。被工作耽搁了,没什么大不了的。我请假了。我把一切都重新整理过了,没什么大不了的。你以为我不知道?你以为我不会像屎一样改变吗?你什么意思?难道说烂屎一点都变不了吗?我不想成为我自己,我要你。其实相当不错,我自己的脸看起来更好,但镜头运动不如提示词中那样,所以那些对话之间的快速甩镜头。 现在让我们试试这个有趣的纹身视频提示词,营造战争灾难电影的氛围,包含多种运动和动作场面。十五秒,六十九九十积分用于生成。这就是我们的视频。所有提示词都会像往常一样在我的网站上提供。那就让我们看看 这是 clean 三点零的结果, 顺便做个测试。既然 w a n 二点七刚发布,我们也来看看。现在这看起来瞬间像个游戏了。但让我们看看。 这是一个史诗级的提示词,使用我自己的形象,置身于一条大龙的环境中,色调为灰蓝,电影级写实风格,并包含多种不同的镜头角度。这个相当复杂,这就是这段视频 哇,看看那龙眼的最终场景,而我只是个渺小的人类。现在这是 clink 三点零 omni 上的同一个提示词, 它确实看起来不错,但没能完整呈现我的角色。当然,使用视频作为参考也是可行的。所以我上传了一个简单的我自己站在绿幕前的视频。不一定要用绿幕,只是我觉得这样更有趣。 我们有这个视频后,又上传了想用的背景,纽约街头,接着是想要的汽车,我要穿的西装,还有另一辆车。然后我故意使用了简单的提示词,所以使用视频一作为参考,单用图片一并替换背景。 背景开始焕发生机。非常简单,汽车图像从背景中出现并停靠在左侧,来自视频一的人物穿着图片三的西装,车停好后,视频中的人物走向汽车等等。 如前所述,我想让这非常简单,现在这是其中一个结果,所以这是我站在街头。背景被替换了。我们看到了这里的人相当不错,咱们看看, 哦耶!野马登场并撞向特斯拉塞伯卡车,这是另一个相似的结果。 现在来个超酷的提示词,史诗级广角镜头推进至微距细节,我们来看看。这是 cds 二点零, 现在放大看看那些箭头细节太棒了, 完全不同的视角和整个战场。这是 clean 三点零, 小士兵们看起来还行,但你知道这里有很多不同的变形,它们凭空出现,不过整体还算不错。 这里我将尝试把六张不同的图片和一个声音元素放入快节奏提示中,制作高能量时尚视频。全程采用一百八十度远镜头拍摄。 我们依次拍摄了第一套、第二套、第三套、第四套、第五套和第六套服装,并使用附件中的音乐作为配乐, 这就是成片效果。图片与服装高度一致,即使单张图片中包含多个物品,比如眼镜、手镯等, 但所有细节都完整呈现,而且音乐完全同步。我在 clink 三点零欧尼中用了同样的方法,只是配上了自动升级的音。 现在我将进行播放,向你展示我用 c d, n s 二点零生成的众多视频,并与 peak 三点零进行比较。在某些情况下,还与 rock imagine。 你 用三点一和 b a r 二点七进行了对比。 刚才发生了什么? 刚才发生什么? 嗯嗯,你谢谢你, 救命,我打九百一十一,往后退。 can you help? help! help! hey! 救命救命! 拨打九百一十一,走起啊,往后退哈,退后 你觉得哪个模型?今天多亏了在评论区告诉我,别忘了订阅获取更多压力测试内容,我们下期见。

ai 圈炸缸了!横空出世的 happy horse 直接踩着 cds 二登顶全球第一!它完全开源音画同出,自动锁、人物一致性、自动分镜。可以说,现在普通人入局做慢剧变得更加简单了。这条视频看完,你接下来四十八小时可能都睡不着觉, 因为看完它,你再也找不着任何借口说自己不知道 ai 慢剧怎么开始。是不是觉得一集赚四位数的故事像骗局? 但更扎心的是,百分之九十的人连验证它真假的机会都没有,卡在一堆工具里,泡在杂乱教程里折腾半天,连个能上传的第一集都做不出来。今天所有破事到此为止。 ai 漫剧是什么? 就是你刷到屏幕下来的动漫短剧。它能吃上肉的关键就俩按钮,付费解锁和广告分成。你要做的不是费劲发令机器,而是学会按一下这个赚钱按钮。视频中用到的专属 ai 提示词、免费工具包和入门课程我已经全部整理完毕。感兴趣的三三三。 近年来,随着 r w、 zora、 海螺乃至国内的万万象、可灵即梦等模型的涌现,生成式 ai 视频技术经历了飞速发展,极大的降低了动态影像的创作门槛。然而,当创作者试图从生成零散的短片转向创作具有专业水准的长视频内容时, 仍然面临着两大核心技术难题。这两个挑战分别是确保跨镜头角色的一致性,以及实现视频片段无缝拼接的连贯性。那么,克服这些挑战,对于我们构建沉浸式的趋势体验和提升作品的专业水准更为重要。 这期视频我们将深入探索和剖析,并系统梳理当前主流的技术,分镜设计、涂声视频镜头动态控制、 赛道,最终的 ai 视频剪辑和配音,全程揭秘 ai 视频是怎么做的,内容很详细,涉及到的所有 ai 视频工具都完全免费,而且功力可有,要不咱先收藏一下,准备好了吗?让我们开启这场零成本的 ai 造梦之旅吧! 我们刚才给大家讲了人物设定的几种方法,我们接下来再来看一下图片的一个生成啊,就是说我们专门的一个图像生成的一个工具啊,在国内的话,咱们基本上用的都是吉梦这个平台,好吧,大家打开之后的话,然后登录一下就可以啊, 登录之后的话他会送你啊,每天会有这个六十个积分,当然大家可以去开这个会员啊,比如说基础会员的话六十九每个月,然后他会生成的图片呢,比如说有四千多张,然后生成的视频呢,有一百零八个啊,所以说基本足够我们去用了,那 如果说只是单纯的生成图片的话,是绝对够我们去用的了,四千多张图片对吧?咱们基本上呃,每天的话基本能能用个一百张左右吧,是吧? 然后接下来的话,我们来看一下他和豆包主要的一个区别啊,其实我们上一课也体验了一下这个吉梦来生成我们的人物的图片,对吧?那豆包呢,其实他是更什么现实逻辑的一些场景啊, 然后呢,这个是他的一个优势啊,而极梦呢,他是更偏向于艺术设计的一个创作。豆包的话有一个缺点就是他的中文乱码 啊,极梦呢?他的逻辑性比较好,对不对?所以说我们在做一些图片的时候,可能用极梦这个工具用的更多啊,当然还有一些其他的,比如说,呃,这个国外比较火的 nintendo 这个模型, 但是他比较贵啊,而且,呃大家在国内呢也不是特别的方便去用啊,当然如果说大家想用也可以。 好,那接下来的话,我们来用这个吉梦来体验一下,比如说我们想去生成一个三式图,对吧?那我们的题旨词就直接这样写就可以了, 比如说三 d 匹克斯风格,然后简单灰色背景人物的这个全身的一个三式图啊,一定要是全身的一个三式图, 对吧?你不可能生我们生成的这个图片,哎,没有脚,对不对?或者说没有腿啊,只有上半身,你的这个剧啊,我咱们的视频不可能只有人物的上半身,一定是有全身的,对吧?所以说生成的啊,人物的是一个全身的一个三世图, 然后 q 版三 d 的 皮克斯风格,当然我们想生成什么水墨风啊,对不对?或者说其他的一些写实风啊,都可以啊。然后啊,剩下的话,其实就是我们的那个人物形象的一个 提示走了,对不对?就是我们可以直接把我们之前的那个呃,人物提示的这个来拿过来复制过来就可以。 好吧,来,那我们就直接复制啊,呃,我直接来生成,点击生成,点击生成之后其实上块已经有,大家看一下,这是我之前已经生成过的一个啊,来,大家看这个侧面,呃,这个是前面,然后后面这个基本上就是可以用啊,这个三十图就可以用,但是这个的话可能有一点什么,呃, 这个侧面侧的不够,是不是啊?你看这里这个的话是很是一个比较相对来说比较标准的一个三式图,对不对?当然我们也可以去什么呃,根据他这个上传一个图片,然后参考,就是比如说我们想 生成一个三式图,对吧?但我这个三式图呢?哎,我不想根据文字来生成,我有一个参考的图片,对不对啊?参考图片就是这个, 我们参考图片就是这个,然后啊,大家看,哎,这个图片好像跟我们刚才看到不太一样,那为什么不太一样呢?啊?因为这里面做了一个这个去除的背景啊,我们先上传这张图片给大家看一下,就点一下啊, 你点一下,对吧?如果说你只想让他参考这个图片的一个人物的一个风格的话,那我们可以去做一个抠图啊, 对,就把这个图像人物的图像抠出来,然后让他的背景呢?保持什么,哎啊?抠图, 我们去把他这个啊,这里确定啊,大家点击一下,确定,你看这个时候背景就没有了,对不对?就是只参考这个人物形象了, 他的背景的话有的时候会影响我们,所以说我们点击一下保存,然后这个时候啊,你就不需要再去给什么风格了,对不对?你就直接啊来写这句话就可以了,对不对?就是三 d 皮克斯风格,然后简单灰啊,人物全身的三十组,自然的这个手臂下垂,然后他会生成一个什么这种, 当然这个的话是根据什么?根据这个完全是根据这个图像来的,对不对?那我们要根据这个什么自己的剧里面的,那所以说的话,大家还是要什么? 还是要把后面那个给他加上,对吧?你有这个图像的一个参考的话,你可以说啊,这是参考,根据参考的那个图像,对不对?然后来去什么来去写我们的这个是不是人物啊?然后 参考图片风格啊,你想参考什么都可以,对吧?然后接下来的话,你把,再把后面的这个把它拿过来,或者说我们刚才这里啊,都可以参考图片风格,然后这里 我们点击生成就可以了。当然这里,呃,我选择什么这个四点四点一,这个啊,因为咱们的积分啊, 然后一张图片这里面大家可以去调整,比如说十六比九,我们生成三式图的话啊,一定是横版的十六比九,对吧?你不要生成一个竖屏的,竖屏的这个三式图它放不下,对不对?然后啊,咱们人物的图像一般二 k 就 可以了,不需要四 k 啊, 好吧,当然你是会员老师,我就要高清的,那也可以,对不对?然后我们就直接点击发送就可以了。 好,那大家接下来看这个啊,就是比如说我,我觉得这个啊已经可以了,对不对?然后他有一些细节方面啊,我们能不能再去调整?可以的,比如说这里啊,细节修复你可以点一下,然后呢还可以有局部重绘,你觉得这里啊,比如说这块, 对吧?这里多了一个什么,多了一个这个绿的,然后就可以在这写橘子词啊,去掉这个框,选的这叫什么?绿色的这个框啊?这个点 就是大家可以局部的调整啊,比如说我都不需要这个,对不对啊?正常的人物上面没有这个,他应该是一个头发没有画好,是不是啊?没有画我就把它去掉就可以, 这样的话我们就可以做一个局部的重绘,来让我们的人物呢,更加的符合我们的一个需求,对吧?包括啊,你看他这块有直接对口型,还有什么,还有超清啊,然后修复完成之后啊,比如说你点那个 啊,点这个细节修复的话,来看这个他的细节,这两张图片大家来做一下对比,细节还是有一些不太一样的,对不对?好, 那这个呢,就是来参考这个图像风格来生成那个三式图,我们来看一下啊,基本也都是 ok 的, 对不对?他这个风格就是一个比较写实的一个风格,但是他的三式图啊,这两个基本上都是正面,我们来找一个,有没有 这里,那这个侧面也不够完整,对吧?但是这个背面,这两个是可以用的, 我们来找一个侧面啊,这个,这个侧面还可以,对不对啊?这个侧面还可以,然后这个是正面,这是他的一个什么背面啊?没有什么问题,你看他的头发啊细节吧。 那如果说觉得测试啊,他的一个测试图不是很好的话,我们可以单独再让他去生成一个啊,再去修改就可以,或者说我们点击再次生成也可以。他每生成一张图片的话都要消耗一积分啊,我们这个功能需要消耗四积分,就是四张图片, 那这个呢?就是我们来借助极梦来生成我们的图片。 好,我们刚才给大家讲了一个图像的生成,我们接下来看一下这个分镜图片的一个生成。那分镜图片的生成的话,有这么几种方式啊, 第一个的话就是根据我们的脚本画面描述来直接生成这个分镜的图片。那第二种呢,就是对脚本画面描述后啊修改,然后生成分镜图片。第三个的话就是根据故事的剧本,结合对画面的想象来生成这个分镜图片啊,这个其实是最 呃难的一种啊,因为他要结合我们自身的一个经验以及想象啊。那我们先来看第一种啊,就是对脚本画面描述啊,来生成分镜的一个图片啊,这个其实是一个比较简单的方式, 那他那个提示词就是啊,你是一位 ai 的 视频创作大师,现在请根据这个脚本经论中的景别和画面描述啊,生成前五个分镜的画面比例是十六比九,当然你可以让他多生成几个也可以。 然后大家拿到这个之后啊,大家还记得我们之前生成的这个故事吗?对不对啊?生成了这个神话故事分镜的一个脚本,对吧?那我们现在直接就可以让他来啊,帮我们生成五个分镜画面比例呢,就是十六比九啊,这个大家要选择什么?选择那个图像生成 啊?再把这句话复制一下,然后复制到这里,点击图像生成。那这个时候大家来看一下,我们来看一下这几张图片的一个效果。 首先第一个昆仑山啊,这个远景,然后呢云雾缭绕,山间山阴处啊,这个古松挺拔,看一下这个基本上这个画面和他的一个描述是能对应上的。然后这是一个中景啊,就是古松啊,这个松干啊,粗壮, 然后呢松枝啊,翠绿阳光透过这个枝叶洒下光斑,哎,这个,但是这句话可能没有体现出来,但是前面这个基本上是体现出来了,对不对?这是一个中景,大家看一下这个图片啊,也是 ok 的, 是不是? 好,那我们继续来看他的一个分镜啊,第三个分镜,第三个分镜的话是一个近景啊,就是呃,古松树底,然后一块青灰色的顽石静立啊,静静伫立啊,就这个这个描述的也还 ok, 对 吧? 然后第四个是一个特写啊,就是松枝顶端泛起淡绿色的灵气缓缓飘落啊,他这个,呃,没有飘落的一个迹象,是不是?他可能是往上有点升啊?然后第五个是中间这个灵气石啊, 灵气落在完石上,石身呢,泛起微弱白光,哎,这个也还 ok 啊,但这个白光的话,像是白气一样,对不对?他这个白光的话,应该是石头本身的一些白光,对不对?好, 那这个呢,就是我们的第一种方式啊,就是来根据脚本的画面描述来直接生成这个分镜图片啊,这是最简单的一种,对吧?那第二种的话,就是大家刚才看到我们的脚本呢,其实是有一定的问题的,对不对?比如说这个, 那大家看第五个,呃,灵石灵气落在玩石上,对不对?那我们的前面的图片,他的玩石其实是一个这种形状,对吧?而不是一个这种形状,对不对?他的形状可能不太一致啊, 对不对?这个就是我们在用什么,在用这种脚本生成的一个问题,他的前后啊,可能这个画面里面的这个东西啊,他的一致性不是特别的强,所以说可能我们就要去修改 啊,我们要去修改里面的一些提示词,比如说,呃,零食落在玩石上,对吧?我们要让它落在什么?这个青灰色的玩石,对不对?那我们接下来可以修改一下,比如说这里啊, 你看灵气落在青灰色的皖石上,然后石身泛起微弱白光,比如说让我们重新的来生成这个图片啊,那你看这样的话,他的这张图片是不就比较符合我们的一个啊?他的一个描述,对吧?灵气落在皖石上,然后石身泛起泛起微弱白光, 对吧?这个这个也还可以,对不对?就是我们可以去改他的一个提示词,那第二种方式的话,就是我们把这个 脚本的画面修改之后,然后来生成分镜图片。但是如果说啊,老师,哎,我觉得我改这一句呢比较好,我想让后续的这些 他的一些这个图片的一个描述啊,都改成这个样子,那大家就可以来写这句提示词,就是请模仿上述口吻,然后重新对脚本中的画面进行这个编辑, 然后要言简意赅,那就是说他接下来所有的都会采用你刚才的这一句来去什么来去从新的生成,那这样的话我们就可以什么, 然后他的一个描述呢?更加符合我们的一个啊,更加符合我们自己描述的这样那个画面的一个感觉,对不对?这是第二种方式, 那第三种的话,其实就要考验大家对于这个画面的一个想象能力啊,如果说大家平时的就是对于画面的没什么想象,尤其是大家刚开始做这种 ai 的 短视频的时候,短剧的时候啊,大家可能还是更多的是依靠什么?更多的是依靠这个, 对吧?就是我们脚板画面描述来生成分镜图片,然后针对某一个图片不太满意的话,我们就可以单独的来对这张图片进行修改。那对于图片进行修改的话,这块也有几种方式啊,就是我们可以直接使用大模型进行修改,那这种是比较简单的对不对? 就像我们刚才一样直接去改就可以了,是不是?那如果说我们这块还不满意的话,我们可以继续的来去发这个提示词,然后让他去进行一个修改,那这是第一种,那第二种的话其实就是借助什么借助我们的吉梦啊? 呃,虽然我们用豆包的话简单快捷,但是容易出现这种风格的差异啊,但是如果说我们用吉梦的话,他的美术画风保持一致效果还是比较好的。然后第三种方式的话,这里啊,呃,跟大家介绍一下,就是这个纳多布纳纳这个模型, 他再来做图上做一些比较复杂的一些图片的时候,他的效果的话,其实要比这个吉梦和豆包啊都是要好的。但是这个模型呢,我们在使用的时候啊,他是在国内,我们没有办法直接使用啊, 所以说大家可以找这种类似的网站,比如说这种这种网站就是在国内可以直接访问的,因为他这个模型是国外的,对吧?你看这个啊,比如说我想让他去做一个什么人物保持不变,然后生成人物拍桌子生气的画面啊,大家看到这个他的一个效果呢,相对来说就要好一些 啊,这是我的原图片,对不对?然后这个是我让他生气拍桌子,对不对?你看他整体人物的保持还是比较好的,但是如果说大家用这个豆包的话,可能就会出现啊,他的整体的人物的一致性呢,可能就会不太好啊。这个大家可以课后的来去试一下, 就是你用豆包或者说用这个吉梦啊,吉梦客的话,可能还会好一些,对吧?但如果说咱们用豆包想去呃,让他去修改一些人物的一些状态的话,这个可能效果并不是很好, 大家可能要借助豆包啊,借助吉梦的这种图片生成的平台,好吧,那这个呢,就是我们从呃这个分镜图片的生成,还有包括生成图片之后我们怎么来去做一些局部的微调,对吧?但这种局部微调的话,呃,我们在这块也可以做,对不对?比如说 豆包里面他也有这种什么区域的一个重绘啊?比如说我把这一块这里啊,比如说你想修改这里,对吧?你就可以把它选上,选上然后描述啊。哎, ok, 选上之后的话就可以在这描述想重绘的一个内容,但是这个效果呢?比如说我们做什么效果会比较好? 呃,你想把这个什么?你想把他的一个就是这个啊,比如说把他的一个腰带换一下,这个是可以的,好吧? 你想把这个腰带换一下,就局部的人物总体的保持不变,但是你想这种场景,场景如果要切换的话,大家最好用什么?最好用这个吉梦啊豆包的,它的效果其实并不是特别的好,好吧?好,那这个呢?就是我们分镜图片的一个生成。

你是不是还在找各种 ai 工具拼作视频?今天重码摄影的可林三零奥秘带你真正步入 all in one 创作时代,一站式颠覆现有工作流。 平常做个视频,画面用 a, 配音用 b, 对 口音用 c, 最后拼出来的视频不仅画质比音能压缩,嘴型还经常乱飞。我们需要真正的原声一体化!可林三零奥秘带来重码摄影的原声级音画同步。我们看一下 家人们,咱们新品全球首发直接爆单了!杭港区首小时销量直接破纪录! north america preorders have broken our all time brand record rippon demo hatt by chukuk come by this hanuksu san nagaki, chomapeno pork pie jiu gi oh lasmentas and espano elatino maria son ingrelo 中音字含西,多人同框,想让谁开口,谁又能完美对口型? 现在只需上传一段三到八秒的视频片段,即可创建专属视频主体,连音色都能绑定。这原视频 我们来选择嘻哈老太。 另外,全新开放的自定义分镜能力,只是长达十五秒的行程,最多六个区域无缝切换。我们看一下 推、拉、摇、移、速度、节奏完全由你掌控。真正的 aio, 让创意不再被工具喝烈。可疑,不仅仅是在深深像素,更是在还原你的全部想象力。全新可疑三零奥秘里已经上线,别再用旧时代的工具碎片了,我是安迪,这里用 a a 解锁更多自由!

接下来,我将拆解这个电影片段,并展示我构建它所用的三层架构,第一层,构思大脑,即我如何用 ai 完成所有文案构思。 第二层,视觉眼睛,即我如何在 hicfield 的 这个工具里生成视觉画面。第三层,剪辑手,即我如何通过视频剪辑把前面所有部分完美融合。 大家最常犯的一个错误就是跳过构思大脑这一步,他们总是一上来就直接生成酷炫的画面,但作品背后却缺乏一个真正的故事内核。我使用詹姆奈来完成构思这一步,当然,你也可以使用叉 gpt 或 clag, 随你喜欢,但我并不用它来拣写完整的脚本,我只是用它来梳理和搭建我的思路框架。下面就是我为这个视频使用的具体提示词,想抄作业的话,可以暂停屏幕截图, 请帮我。唯一一段电影式视频片段生成提示词,内容是关于一位牛仔从西部荒野的一家老酒馆中走出来,他踏上了一条尘土飞扬的路,和一个反派杠上了,气氛剑拔弩张。给我一些提示词,回头我好用来给故事版配图 诺,这是他给出的结果。这些提示词确实挺让人惊艳的,不过还是得再打磨打磨。要想让所有生成的视频画面风格统一,有个关键点,那就是在每个提示词里加上相机和镜头的参数信息,就跟电影片场摄影指导 e p 用的那种参数一个道理。所以我会用下面这个提示词让 gemini 把参数信息补上。在每个提示词的末尾都加上详细的相机和镜头参数。每个镜头都要用上柔光滤镜,并且根据镜头类型匹配合适的焦距。这下好多了,不过还没到完美那一步。 我把这个输出结果复制到了 google 文档里,然后手动润色了一遍,补充了细节和相机参数,让这些细节和参数相互协调,并且符合我对这个场景的整体构想。说白了, ai 好 比建筑师,而你才是室内设计师。 别跳过重写润色这一步。接下来咱们看看视觉效果。做这个视频我用了两个不同的模型,因为它们各有各的看家本领。接下来我给大家详细拆解一下开场镜头的开场镜头第一步,我 打开了 hik 六 ai 这个网站,这是我最爱用的网站,因为它能一站式调用多种 ai 模型。我们的流程是先进行图像生成,然后再把这些图像转换成视频。这个顺序非常关键,因为虽然现在可以直接用纹身视频,但以图像为起点, 能让你所有镜头的一致性大幅提升,而且成本也更低。尽管我们手头有一些效果不错的视频生成提示词,但 ai 的 出图结果依然充满不确定性,所以先生成图像,而非直接生成视频。好处是能让我们用更少的积分快速批量生成大量备选图。我选了自己最中意的图像生成模型, 可影零一,然后输入提示词,生成了多张不同的图像。我最终相中了这一张。不过这张图展现的是动作发生中的一瞬间,而我想要的镜头得从牛仔推门而入开始。所以 我需要编辑这张图。用 nano banana 这个工具,让时间倒流回到动作的起点,就在开门前的那一刻。这张图看起来就挺好。搞定第一个镜头的素材后,接下来我们切换到第二个工具,视频生成器。为了保证画面连贯,并且有更强的操控性,我们需要选一个支持设置起始帧和结束帧的模型。 一开始我试了 vivo 三,但效果不太理想,所以最终我锁定了 s e dance 一 点五 pro, 目前来看它是最佳选择。选好 c dance 后,我们把那两张图导进去,一张是门关着的起始针,另一张是门开着的结束针。再把提示词复制粘贴一遍,点击生成。 瞧,第一个镜头就这么搞定了,我们倒回去再看一眼。这个镜头现在看起来可能还有点糙,不过没关系,其他所有镜头我都会如法炮制,就是电影里要用到的所有镜头。然后我们就要进入最关键的收官阶段,精雕细琢,让一切完美。接下来才是见证奇迹的时刻。 我所有的视频都用 thewinchryzenoff 来剪辑,这是一款专业软件,但它也有功能超级强大的免费版,我强烈推荐你去试试 thewinchryzen。 当然,用 premiere pro 或者电脑版的,卡不卡也完全没问题。千万别用手机或类似设备来剪辑,你需要鼠标的精准操控。这是本视频的时间线。我来展示一下我做的三个关键剪辑步骤, 让视频变得能看。第一步,手动修剪。 ai 生成的视频很少,能拿来就直接用。等我把所有片段都拼到一起后,我会从头到尾过一遍,把片头片尾修剪整齐,这样它们才能以合适的节奏流畅衔接。有时生成过程中会出现奇怪的瑕疵或故障, 这些也得剪掉。第一轮修剪能让整个片子紧凑起来,我们也能第一次看到故事的大致雏形。 接下来就该添加音效和背景音乐了,视频的质感在这里才真正显现出来。常言道,一部好视频,六成功劳在音频,而在我看来,这个比例甚至能占到八成。音频的重要性远超你的想象。现在很多 ai 模型能自己生成音效, 我们生成的镜头力也自带音效。这些自带的音效有时能用,但大多数情况下,你从专业的音乐音效授权网站能找到质量高得多的素材,比如我正在用的 epidemic sound。 不 管你从哪儿搞音效,你需要把整个视频过一遍,然后添加海量的音效。你要做到每一步脚步声, 每一次门轴转动,每一阵风吹过,都有对应的音效。关键是要确保每个音效的音量大小都符合镜头所展现的真实感。如果是靴子的特写镜头,脚步声就得响亮一些,但如果是远景镜头,声音就得轻柔分为。音效铺成好之后,我们就要添加配乐,把所有的元素串联起来。 很明显,针对这个视频,我们会选择带有西部风情的配乐。 最后是第三步,最终润色,也就是调色和加特效。无论我们多下功夫,都很难做到让你生成的每一个视频片段都严丝合缝的匹配起来。为了让每个场景的色调保持一致, 并且让整个作品充满电影质感,我们就得打开软件里的调色工具。在这里我们可以对每个场景进行调色,让他们的色调统一,甚至可以加上暗角或胶片颗粒这类特效, 让整体效果更融合,你甚至可以尝试一些与众不同的手法。我就发现自己其实挺喜欢这个场景的黑白效果,仿佛回到了彩色电视出现之前的古老西部片时代。这是你发挥创意的最后舞台,让最终成品打上你独特的个人烙印。好了,我们来快速回顾一下用到的工具组合。 第一是大脑,用 brain gemini 来搭建视频框架,当然内容是我自己重写的。第二是眼睛,我用科应零一来生成图片,用 cdenz 一 点五 pro 来生成视频。然后第三是手,也就是达芬奇的 winch resolve, 负责手动剪辑、音效叠加和色彩校正。 我们刚做的这个视频素材虽然是 ai 生成的,但表达的想法是真实的,这就是关键。别让 ai 当导演,让 ai 去当摄像机,不仅和麦克风就好,你才是真正的导演,故事怎么讲由你说了算。

come on! let's give it a try wow, this is really smooth, i love it! ai 视频又有新的玩法,现在你可以控制任意角色,并且使用你指定的动作,这就是可零二点六的动作控制,不管是三 d 卡通、 二 d 平面还是漫画,什么风格都可以,操作也非常简单。现在马上教会你打开可灵官网,选择可灵 o 一、 将人物修改, 修改形象和被修改形象拖进对话框,并且在对话框中输入想修改的部分,我在这里输入。将学校旺旺达的元素融入到自身身上,选择生成。右边就是生成页面。 图片生成之后下载下来再选择动作控制,将保存的图片和需要模仿的视频分别拖拽进来,点击生成就可以了。用同样的方法,我还生成了两段视频,一起来看看成片吧!什么风格都可以,操作也非常简单。现在马上教会你 测试了很多动作控制 ai, 可您可以说是第一梯队了,无论是动作表情都是惊人的一致 以往很多虚拟角色都要使用动捕技术进行制作,成本高,周期长。这款 ai 完美解决了行业的痛点。 最后记住,替代设计师的不是 ai, 而是会使用 ai 的 设计师。想了解跟行业接轨更深的 ai 实战课,快来王氏教育全国都有实体校区哦!

哈喽大家好,我是郭郭大叔 a 视频圈又炸了可灵哦全新魔性正式上线,这次他是真的要把生成变成剪辑模特换装也是粉色头发女孩先看这个局部重绘,以前 ai 换衣服乱飞,现在指哪改哪,保持人物不变,蓝瓶酒换背景,还多场景切换。 再看这个主体一致性,无论是产品换背景,还是同一个人物在不同场景里做动作,脸还是那张脸纹的可怕。 君猫加冰淇淋,马车变天气指向变身最牛的来了!视频编辑给躺着的猫加个冰淇淋,给马车放个天气,甚至把石像直接改成机器人,光影还能自动融合,这简直是模仿模特特写扎皮肤纹理毛孔展示细节,细节控看这里,从全身到特写, 这皮肤的毛孔,这眼神光高清画质完全经得起放大, c g 特效师都要汗流浃背了!男模换背景,驱车猫换环境,不管是绿幕扣像级的背景替换,还是这种复杂的环境光影重塑,他都理解的明明白白。 男孩自拍变乐高,最后再来个风格转换视频转视频,丝般顺滑,兄弟们可灵傲这一波绝对是国产 ai 的 生产历史客关注我,咱们下期见!

clean 三点零最近更新了动作控制,看起来效果挺不错的。解决人物一致性,生成人物一致的视频,通过 nano banana 二加 clean 三点零的效果会如何?看下从各种拍摄角度,各种拍摄运镜中,是否都能够保持一致性, 同时达到多人物一致性。本期视频我将测试使用提示词锁定人物全角度生成图像,从单人到多人,实现多个分镜,多种角度的视频生成,看下能达到什么效果, 并且需要多少抽卡成本。点上收藏、关注、赞我们 let's go! 要做到人物一致性,首先我们要创建一张人物的多角度视图,并且这些图像必须是要高清的,要拥有丰富的细节。从前 nano banana pro 的 人物一致性 总是会跑调,换个角度五官就会不一样,现在 nano banana 二出来,一次性问题算是解决了。用人物多角度参考图来制作视频,视频就可以达到人物完全一次性了,无论什么角度, 什么运镜,都可以遵循人物的细节特征,非常好用。我们先准备一个人物图像, 最好是正面的,这个可能是你抽卡了很多次,最后才从中选出最喜欢的角色。比如我选了这张赛博风格的古风女武士,剩下的交给 nano banana 去补全人物其他角度的细节。我这里来到 polo ai 图生视频中,选择最新的 nano banana, 上传你的人物参考图,然后输入一段提示词,为一名赛博女武士角色创建专业的角色参考表。穿着有古风气息的铠甲,拿着发光的赛博刀。纯色背景排列为四个垂直列,每一列代表一个视角,每一列顶部为全身图, 正下方配以对应的特写肖像。然后下面每一列都有说明深层指定的人物角度。最后记得加上一段强化真实感的关键词,可以帮助提升图像的质量。 说明如何保持角色肖像周围间距和构图均匀,还有剪影清晰对齐一致,面板分割干净,照片既逼真。单反相机拍摄效果和色调记得要说明无文字细边框。 标准参考表包含八张图,四张面向不同方向的全身照,以及与字对应的四张面部特写。深层画面的逼真程度直接取决于参考图的真实性,因此需要深层最高质量的参考表。建议将参考表分为四个垂直列,每列代表一个角度。 成功生成了人物多角度图像之后,按照同样方法,我们只需要修改第一段的人物描述,比如改成带着狐狸面具的角色,就可以生成第二个人物。有了用于提高一致性的人物多角度图,我们还可以尝试创建故事的场景多角度图像, 看能不能达到场景的一致性。我这里用了和人物分镜图同样的方法,让 gemini 给我提示词,生成了一个赛博街道场景的多角度图像。有四个路口的图像,加上俯视图和仰视图。一共六宫格的图像 确实有四个街道,但十字路口的四个接口俯视图仔细看起来和四个街道有些不一样,但风格是相同的。之后,我们把这张图和人物多角度图一起丢进去做故事分镜图, 看下是否能提高场景的一致性。故事大概的走向是两个人物分别从路口走出来,每个人物会有一个耍刀的出场方式,然后两个人物向前奔跑,在十字路口对战,对战的时候有对白,同时有多角度展现两个人物的对战,看人物和场景的一致性 结尾两人拍完戏在街边吃盒饭,这里还会有一段精彩的对话。好了,这里我算了一下,大概需要四张图像,然后再配上一些多角度展示战斗场景的图像,比如俯视角度、侧边角度、近景特写,这样会让战斗更有层次感,有多重视觉的感受。 clean 三点零最近更新了动作控制,看起来效果挺不错的,我们就来制作人物出场的耍刀动作, 看看 clean 三点零参考生影片的效果如何。我拿了两段上次用来测试 c 单词二点零的素材,都是耍刀的 cg 动画视频, 我用提示词配上人物和场景的角度图,生成了第一个出场的图像。接下来再用这张图像配上动作参考素材,输入提示词,图一的人物快速往前走了两步,然后做着视频一中的五件动作, 镜头全程跟随人物,图一和视频一都 at 对 应的素材,我们看下生成结果, 这个效果有点拉胯,为了看下是不是一站式平台的原因,我又去到了 clean 官网,用同样的提示词生成结果还是一样。 对比上个月我用 cds 二点零生成的结果,这个效果差了一点点,可惜现在 cds 二点零没办法用了。我们回到 polo a i g 续测试下一个人物,得出长视频。这个结果也不太理想,为什么人家的效果看起来就这么好呢? 是不是得用真人做动作参考?于是我又找了一段真人动作素材来看下生成的结果, 看起来动作的效果比刚才好一些,但是人物穿模和变形的情况太严重了,抽卡了几个,还是这样的情况,打斗和快速动作这块还是没办法满足需求,只好放弃用打斗动作参考。我直接用动作提示词 生成了这两段出场视频,效果看起来自然一些,不过这个人物的刀怎么变成鞭子了?再次抽卡,他还是给我鞭子。 接下来生成一段围绕人物半圈的打斗视频,看看人物一致性。我输入提示词,镜头一,人物一和人物二在赛博朋克街道近身对战,他们的刀撞击到一起,两人在用力隔挡中, 画面定格,镜头半圈围绕人物转圈,镜头二人物一白发女人一边隔挡对方的刀,一边说,收手吧,吃饭时间到了。我抽卡了几个视频,我们来看下结果。 收手吧!吃饭时间到了! 收手吧!吃饭时间到了! 收手吧!吃饭时间到了, 收手吧!吃饭时间到了!这个刀没有接触刀一块,两把刀隔挡的位置也有些奇怪, 两把刀都是竖着的。不过这个镜头围绕了一圈,人物的一致性看起来还是不错的,和我参考图里的多角度图像保持了一致。转了一圈回来,场景也回到了原来的地方, 场景中的布景都是一样的。这个还不错,就是打斗这块是个短板。另外深层的这个打击感不错,就是怎么会突然多了一把刀呢? 还有一个问题就是口型同步的时候声音会有延时,我们继续生成最后一个画面,就是人物吃饭的对话,这里人物会摘下面具露出脸部,然后说话。我增加了一张参考图, 是摘下面具后露出的人物脸部图像,提示词中增加了人物的对话,看下这段视频的换脸和对话的效果如何? 为什么我们在虚拟世界也要为吃饭发愁? 他们在努力让世界变得真实。除去打斗画面,在文系的部分, clean 三点零这一版的表现还是不错的,人物摘下面具的过程很流畅,换脸后的人物一次性也很好,没有不自然的地方,整体视频真实感也很好,就是人物的对话话音还是不同步,话音同步功能即使在 one 二点二也是表现的很好。 clean 三点零出现这样的问题确实不应该,希望很快能改善, 收手吧。吃饭时间到了, 为什么我们在虚拟世界也要为吃饭发愁? 他们在努力让世界变得真实。好了,本期关于 clean 三点零人物和场景的一致性测试就到这里,我最后总结一下。我们先来说下优点, clean 三点零是支持参考摄影片的, 可以通过多角度参考图来保持人物和场景的一致性,不过效果看来,人物多角度参考图保持一致性的效果比场景一致性的要好。场景的一致性的问题,有时模型会根据参考图自己生成一个类似的新场景,并没有按照我参考图的去生成。 还有就是空间的变化,场景换了一个角度就没办法去到对应的场景,不过这块是值得再去尝试的,最后耗费成本这一块视频抽卡的也不少, clean 三点零成功率并没有想象中的高,失败率较高的都是动作类的视频,文系的视频成功率相对较高。好在用一站式的平台 polo ai 中生成。如果我订阅了 clean 模型却不符合我的理想,我就不用重新去订阅新的模型了。 polo ai 这里还有很多主流模型可以给我测试,每周都有各种新模型更新,确实很需要一个一站式平台。下期测试什么呢?欢迎评论区告诉我,我们下期再见。

因为一直有人在问,所以今天给大家讲两个问题,第一就是如果已经手搓了大纲,如何用 ai 扩写成完整的小说?第二是如果已经写了一半,如何用 ai 续写或者是完结?我们从第一个开始, 首先如果已经手搓了大纲,如何用 ai 扩写成完整的小说?这个呢分两种情况,首先你这个大纲是一个比较粗糙的大纲,就比如说一个阶段一个阶段的,它给一个核心剧情,然后和这个阶段的一个目标。 嗯,还有一种情况呢,就是你的大纲比较细,是分章的,每一章的什么样的剧情都是有的,这两种情况该怎么去续写?首先我们看第一种大纲,它是一个阶段一个阶段的,我们这里可以啊,用第一种方法 就是复制一下第一阶段的一个大纲,然后再续写章章这里去续写。比如说可以用这个 十张张刚的提示词,或者是用我们智语其他的一些提示词,然后去扩写张刚,把你的一个张刚后续放到这个后续剧情里,如果有脑洞的话,可以关联上你的脑洞,也就是你这本书的一个大致介绍,然后点击开始生成 好,可以看到现在张刚已经出来了,他把这个一个阶段的核心剧情分成了十张的一个张刚,也就是 跟这个细纲是一样的,就是按每一章,每一章是什么样的一个剧情,如果你的一个大纲是做到这种程度呢?也就可以省略这个第一步啊。然后我们把这刚才这个章纲复制一下,然后后续怎么去做呢?你可以看你这个章纲,如果是 你觉得它已经够详细了,就直接去用这个续写章纲这里,然后再用其他的一个提示词,比如说 这个章刚转化剧情点,这个啊,它可以再次细化你的一个章刚,在这里呢,你也可以关联你的脑洞,如果你有 前文的话,就是你写了前面几章了,也可以关联一下最近的几章啊,然后我们点开始生成好,可以看到剧情点已经生成好了,就是它每一张,然后把它括写成总共几个剧情点 啊。到这一步呢,你就可以把这些剧情点复制一下,然后到续写正文这里,选择一个提示词,把你的这个剧情点放进来,可以关联你的脑洞和这个前文, 我这里没有的话,就不关联了,然后直接开始生成,可以看到正文已经出来了,我们这里直接复制一下新建章节,把你的正文放进去,然后这里的话呢,我们就可以看到这个是第一章的正文啊 啊,后续呢,我们第二张就是跟这个一样,复制一下第二张的一个张刚,然后把它扩写成剧情点,然后再去生成正文,这样第二张,第三张,第四张顺下来 啊,然后呢还有就是已经写了一半,然后想要完结,怎么去用 ai 给它完结呢?啊?我们这里可以看啊,也是在续写张刚的地方,比如说就在这里 十张张刚啊,然后呢在后续剧情这里写一个本书要在十章内完结,帮我设计一个结尾啊,然后关联上你的 最近的几张就可以了,点击开始生成好,可以看到生成完毕了啊啊,这里呢是总共十张的一个剧情,到这里就是一个大结局的剧情了啊,这个就是如果写了一半想完结的话,就是用这种方法完结啊。至于已经写了一半如何用 ai 去续写呢?这个流程比较长,后续的话单独做视频去讲,包括我们也会讲一些,至于写作的其他的一些使用方法,一键三连,避免后续找不到了。
![可灵3.0|初体验|多镜头提示词 嗨,就在刚刚。kling3.0可以在fal平台使用了。
主要更新为:
1. 提示词支持多个片段的划分,支持时间选择。例如时长15秒内,准确表达多少秒到多少秒是什么内容。
2. 分为标准版本每秒$0.252和pro版本$0.336
3. 一致性,支持引入人物或者产品。通过4张图片和上传3到10秒内的视频。
4.
#可灵 [话题]# #可灵3 [话题]# #AI人工智能 [话题]# #AI生成 [话题]#](https://p3-pc-sign.douyinpic.com/image-cut-tos-priv/e0d69e542052a401e1bdb226f8250446~tplv-dy-resize-origshort-autoq-75:330.jpeg?lk3s=138a59ce&x-expires=2092255200&x-signature=s%2B%2BaEn21nzHHBDHUxgBbm5ZsbP4%3D&from=327834062&s=PackSourceEnum_AWEME_DETAIL&se=false&sc=cover&biz_tag=pcweb_cover&l=202604230653430A359CA76D81F0BCC39A)
嗨,大家好,呃,可怜三点零已经发布了,然后,呃,是刚刚发布了,我也是刚在副平台用了一下,然后我就还是拿之前一个一直没有解决的一个视频,就是这个 颈部按摩仪的 conrad these straps, so you don't actually have to hold it it just stays in place, oh shit。 然后三点零的话,他的更新就是把之前的二点六和欧万的融到一块,然后我们可以看到他这个 配置界面是稍微有点复杂的,但是其实还可以,就是你可以传入,呃,首先还是常规的提示词,然后但是这里是有一个亮点,就是他有一个 money prompt, 就是 有个 为了让你有多个镜头吗?因为他这一次的单次生成的视频长度提高了十五秒,所以他他可以让你分段的输入提示词,所以可以,并且你可以控制每一段提示词是展示多少秒,可以看到这里最短是三秒,最长是十五秒, 而且你还可以加,你可以看到,但是我这里为了快速测试就没加,还是然后这里的话,呃,这这次测试我是拿之前这个 conduit straps, so you don't actually have to hold it。 那 么我们还是把这个视频的第一帧截图给他,然后让他生成音频,那么下面这里就是他也支持首尾帧,但是这里我们就不传尾帧了。 然后接下来第二个重点,就是之前 o one 那 个模型,就是哎里面的对象的一个概念,然后我们这次是传了产品的前景的照片,以及你可以传最多,我看一下 你可以传最多三张其他角度的照片,然后我们这只就只传这个颈部按摩仪背面的照片,但是他还有一个就是你,你甚至可以传你这个产品,呃,你的产品我看一下,对 最长三十秒的,你的产品的一个视频给他也也可以,但是我觉得这个可能会效果更好,但是这里我们就不做啊。 然后当然了,这个 element 不 不仅是产品,也可以是人,你可以点击这里继续加,你可以看到最多传四个照片, 那么我们看一下效果,其实我还挺惊艳,但是有点遗憾,就是我这个提示词里面没有让这个产品展示这种按摩的效果,有点遗憾,其实我觉得最难的是这个,但是我们可以先看一下这个视频,一致性已经非常好了。 really good, comes with these straps, so you don't actually to hold it, it just stays in place wow, that's really good, it comes with these straps, so you don't actually to hold it it just stays in place this is a。 产品一致性非常好,但是我的,我,我的那个啥,我那个积分已经用完了,然后这次,然后因为这个还不是正式的,我测评这个模型的视频,我会在明天发一个完整的,因为这个费用直接把我那个剩余的积分给干完了, 然后费用的话就在这里我给大家,我给大家看一下,我马上要去睡觉了,我让 g p t 总结一下, 呃,我直接就说吧,就是,呃,有音频的情况下呢,每秒的价格是零点二五二美元一秒,好吧,就这么简单,没有音频的我觉得不用看了,肯定要有音频。 对,然后我明天会呃,再把我之前几个客户其中一个是卖那个麦克风的,这个当时一次性也是做的很差,包括这个 这个颈部按摩仪的也是很差,我都会打算用这个模型重新测一遍,并且做一个很正式的一个视频分享给出来,谢谢大家。