粉丝1371获赞1.0万


万木这个是阿里刚发布的一个模型,那么这个模型呢是用来实现运动轨迹控制的,它属于万二一母生产下的一个模型, 那么之前自己也出现过一个叫做 ati 轨迹控制的,就是这个和这个是同类型的,这个就是他官方的项目业,然后呢这个是他的官方仓库,有很多的子模型, 但是呢还是建议大家下载开家风装过的这个模型有两个,一个是 f p 十六的,有三十二点八 g, 它呢是有一个 f p 八的十六点四 g, 等一下我会把它的下载地址放到介绍区,然后咱们看一下它的这个界面啊,这里提到它这个模型用到两个很厉害的技术进行一个组合。首先第一个就是超级压缩数,也叫三 d v e, 因为视频太大了,一秒就有好几十张图片,比如说我们最常用的二十四针就是二十四张照片,那么这个技术就是把视频像折叠衣服一样,把它压缩成很小的数据包,让 ai 处理起来能更快更省力,而且展开之后依然可以很清晰。 那么第二个呢就是叫做时空预测术,英文叫 diffusion transformer, 以前的 ai 是 看着这一帧,然后猜下一帧,那么这个技术是同时看整体,他站在一个上帝的视角,勾好了从第一秒到第五秒的所有变化,所以生成出来动作不会做到一半就突然断片。 不知道你们有没有看过那种 ai 视频,就是一眼就能看出来是好几个收尾帧组合起来的,就是那种感觉。 然后呢咱们可以看一下它的工作流啊,开件已经给它做好了,左上角这是模型的一些加载加,包括这个加速 lora。 然后呢这是提词,这是 他的彩样,这是一个标准的八点一的工作流,然后呢加入的是这一部分,首先第一个这一块就是万木的一个彩样,就使用这个进行彩样的,然后呢出来之后这个是新加的一个节点,这里呢是使用了一个图像编码啊,这是他的上传区域,上传一张照片, 然后呢这会有一个曲线编辑器,编辑 node 之前就有的。然后呢在这里面画上他的轨迹啊,比如说这个是给他画了一个八,看到啊, 这里面可以设置他的宽高还有总帧数,这是他轨迹的一个意乱图,大家可以看一下啊,是这样画过来的,那么咱们可以看一下出来的效果 跟。第一个这可以看一下啊,这是一个全景的照片,把他的毛点放到了手套上,他是严格的按照这个轨迹来进行运行的。左边呢是他轨迹的一个预览。然后呢下面这也是一个小狗, 可以看到啊,把他的猫点放在了鼻子上,他也是按照这个来进行运动的。最后一个是在黑板上写字,看到他是按照他的轨迹来,但是呢这个呢也稍微有一些瑕疵啊,这个多抽几个卡也是没什么问题。这个呢就是他的模型介绍,大家可以玩一下。 然后呢咱们可以看一下他的啊,这个模型呢我放到了工具箱的一百一十四号啊,大家直接在这网盘里面下载也可以啊啊,这期视频就介绍到这里。

兄弟们,这是微软研究院开源的一个搜塔语音合成模型,他和常见的 tts 不 太一样,不是简单的把文字念出来,而是先用大语言模型深度理解上下文,再用扩散模型生成语音。 所以他能准确知道什么地方该用什么样的语气,什么地方该停顿,从而让生成的语音更加真实自然。还有两个版本,一个是面向长音频的,能合成长达九十分钟的语音,支持四个人轮流说话, 同一个人的音色能保持一致,不会说着说着就变声了,对话节奏也处理的比较自然,特别适合需要大量文本转音频或多人复杂对话的场景。 另一个则是流逝版本,专注于实时语音合成,它的特点是非常清亮,接收一段文本流,能在三百毫秒内快速输出第一个声音片段,之后的声音无缝连接,特别适合直播或语音助手这样的低延迟应用场景。 他对中英文支持都很成熟,并且用的是 mit 协议,完全开源,免费直接就能拿来用。 you again the next phrase we're going to learn is。 你 开玩笑吧? it's a very common way to express disbelief like are you kidding me or you must be joking i can't believe you did it again i waited for two hours two hours not a single call not a text do you have any idea how embarrassing that was just sitting there alone。

one move 模型的一个更新,通过潜在空间的轨迹引导来控制视频的生成,那么这两个点就是我们的轨迹,至少在精度上面是非常的高的。官方这个地方的表述呢,是 sata 级的,并且非常的细腻精准, 应用上来看我是认可他的。我们来看一个测试的结果,写不出这样的轨迹是否合理的,他至少是完全遵循着我的这个轨迹进行运动的,以及看到 one two o 模型的一个小更新,主要的是在看到他的一个延时的流程。接着我们来看到工作流,我自己使用的还是全球最大的在线康复药业平台 run hard, 也是我进行 ai 视频创作最常用的 ai 工作台。最新最好的技术呢,都已经在线上同步更新这样类似的技术,最早我们接触到的是这个 new york, 当时呢是由微软基于 svd 开源的一个技术,最新的是 t t m time to move, 也做过视频。个人认为 one move 模型还是非常强劲的,要强于我们网贷的所有模型,因为根据我的观察来看,轨迹只要一单的输入, 哪怕运动的效果不符合我们的预期,我们得到的结果也不会是完全失效的,在我多次的尝试当中,没有出现过失效的状况。而之前的技术呢,是可能有的, 这里的模型加载直接就是一个大模型,外幕模型,葡萄视频的技术流程依旧是 k 键做的,使线两个特殊的节点。在这里主要要看到的地方呢是这个曲线的操作方式。在曲线编辑器这个地方呢,我们一开始就是有一条线的, ctrl 加左键呢,可以增加一个点, 这个点呢是增加在线上 shift 加左键增加的点呢是可以在线条之外调节一下,最后会有一个轨迹子的预览, 去除一个点,我们右键会直接删掉,添加一条全新的线。右键万木模型应当是可以进行速度的控制的,涉及的是差值方式,在点与点之间如何进行差值,可能也就决定了我们这个小球运动的速度 极缓,我们的输出是坐标嘛,那么坐标的极缓也就对应了我们的控制的极缓。简单去评价一下结果,那么这个呢,是完美跟随第二个结果,我在人物和车上面呢,做了两个点,车向后,人物向前应用成功,它不像这个 t t m 一 样融合的那么差。 就是图上视频吗?这个问题还是从大模型层面被解决的。蜜蜂骑士,这里的这个小球的运动呢,给我们了一个镜头的控制,人物完美跟随,这里是两个轨迹,我希望是一种宇宙在旋转的效果, 那么是成功的女人跳下悬崖,那么其实呢,我自己也很难评判如何去画这个线,如果说直接画一条线往下走的话,这个女性会被压扁,但是至少是运动的,哪怕没有运动的话,他强行给了我们一个球,抛下去最后一个 表情的一个变化,一个抽象的内部充满火焰的人物表现出一种效果,惊恐的效果,这里是充分发挥了外模型的能力,以及我们的轨迹控制。 这一技术其实非常适合于做抽象的东西,因为抽象的东西很多时候我们的提示词没有办法去触及,用轨迹控制的话,能够让他去产生一定的效果。 导航智能 app, 视频相对的流程已经同步更新,可在线运行,让我们来看到 one two o 的 更新, one two o 更新呢也是一个大模型参考图像,然后跟随骨骼运动, 那么这个 one two o 模型的话,相似度就掉的非常的高,看到细节处和延长的部分,这个流程如何快速启动呢?我们可以加载一个视频来提取自拍视频,加载一个参考图像, 设置一下宽高,那么每批次的渲染呢,为八十一帧,可以往后面的进行延长,所以我们对帧数就保持默认就行了。 one two o 这个地方现在看来最主要的贡献是在于它贡献的一个节点,使得 k j 做了一个更新,已经详细介绍过这个节点了,我们可以选择 以姿势来进行对齐还是以参考图像来进行对齐,让我们可以在其他的视频模型当中也进行 更好的引导运动。延长的部分呢是这样的,其实也是大势所需,并且呢是在潜在的空间做了重叠。那么这个地方按道理来说,我们的相似度呢调的会非常的低,这里的精准是以出色的生成视频为精准,而非参照图像 后面依次去做就行了。那么 k j 这个地方原来是一个紫图,我把它从紫图当中解开,那么稍后呢会放到 running heart 上面,感兴趣的可以尝试一下。做动漫还是非常的不错的,它的强项有可能是做动漫,也许过一段时间我们能开发出更为有用,更为有趣的玩法。


一款真正开箱即用的 ai 客服 omics 来了!七乘二十四小时在线,极简到不可思议,聪明到超乎想象! 简单三步配置,您的智能客服,零门槛零负担,您将轻松获得一段专属脚本,秒变智能服务站!无缝嵌入任意网站,即刻生成实体二维码, 点击即聊,一扫即换。微信小程序完美嵌入,无缝融入私域生态,不只会说,更懂!看 后台数据实时追踪,聊天记录随时回放,服务表现尽在掌握! on my sick 不 只是客服工具,现在接入免费试用七天,开启智能服务新纪元!