粉丝3.1万获赞39.9万

这是火锅的照片,随手用鼠标一抹啊,火锅动起来了。这种堪称马良神笔的操作呢,是通过 roundwi 视频制作网站完成的。那除了 roundwi 呢?最近一张图混成一句话就能生成视频的皮卡也火了啊,甚至其中一个创始人爸爸的上市公司还在皮卡的爆火下涨停了,真就 富平女贵。而这两家的 demo, 要么贼酷炫,要么效果贼好啊,都能堪比一些大神的剑魔视频,甚至耗费几百万的电影效果。但宣传视频和实物之间呢,可能差了一堆方便面啊,所以我们还是得测试来看看效果。 首先,让位目前不是免费的啊,需要积分,免费积分有五百二十五个,一秒有五个积分,那如果一个视频按四秒来算的话,那我们能白嫖二十六个视频。而皮卡虽然能直接免费画,但正式版还需要排队啊。现在能体验的就只有纹身图和涂身视频两个功能。而让位这边呢,一开始我们直接用画笔画了一下,得到了一个奇奇怪怪的视频,看来 不是用画笔涂了就能万事大吉。参数的调整还是很重要的,像这张图啊,我想要呈现出来的是银杏叶子啊,随风飘落的画面,用画笔把一些叶子涂抹之后呢,再把吹落的方向往下方调一调,参数调完点击生成,等个一分钟差不多就好了。这效果确实有电影里慢镜头的那个味了啊。 而皮卡这边的调节呢,稍微就有点硬核了,需要用各种参数来调整,好处就是可调的东西比较多,像放大、缩小、移动、旋转以及帧数、画面变化的幅度,视频比例等啊,都能自定义。我们给了皮卡一张正在下雪的图,等个一分钟就好了,虽然效果没有 r 位那么惊艳,但至少有雪花飘落,背景的屋子也擦了一下。 然后我们就同时丢了一张经典的 mim 图啊,大伙应该很眼熟吧?我们本来呢打算能给这位老哥来一个华丽的转身,但没想到啊, roundway 全都乱套了,衬衫小伙变 polo 衫大叔女人的白眼女朋友当街变装,要素 态度啊,甚至都不知道该从哪里开始吐槽。而皮卡的画面是糊了点啊,手部动作也怪怪的,但就动作连贯性来说呢,会略胜一筹,而且起码也没有当街表演换装。然后就是大型翻车现场啊,比如这张长发美女想让头发像用了海飞丝一样飘逸,结果呢,皮卡直接在头发里面藏了个人头啊,非常的诡异。 r v 的效果就好像不少在我们的测试里啊, r v 的运动画笔在处理一些简单的自然风景上还是不赖的啊,比如海浪、白云等等。但图片的要素一多呢,就容易在细节上出问题。 而皮卡对于一些纹身图,比如生成个一比一画面的猫猫睡觉视频,算是中规中矩,但只要涉及到四肢协调运动或者手部细节时,那可真是啊,槽点满满了。不过呢,这功能放到抖音上来啊,一张图直接生成一个视频啊,想想还是挺好玩的,大家有啥好想法可以在评论区里面说一说。

我的天呐,以后可以带孩子自己在家做动画片了!这个 ai 太强大了,只需要输入一句话,一张照片就能秒变视频,这就是 ai 视频工具皮卡,可以在 disco 的里面的文字生成视频,输出的视频啊,更加具有细节和稳定性。并且他还推出了与 原图还原度极高的图片转视频功能。其实操作流程非常简单,目前国外的大使人都是先通过 me journey 或者是 stable diffusion 生成图片,再用 pick 这个插件,点击 create, 然后点击添加,点击 image, 可以上传你要让他变成动画的图片,然后在后面添加描述词就可以了。目前批看内侧邀请链接正式开放,有兴趣的小伙伴在评论区留言领取。

你是不是也刷到过这样的视频?这是用 slab defection 加 confus 做的,像素非常的高清啊,而且丝滑无闪烁。那么做这样一个视频难不难呢?需要多久时间呢?我是从一个星期前十二月十九号才下载这个 confus, 然后利用业余时间安装了插件模型 logo。 嗯,然后从昨天开始用工作流来做这个视频。 我当时是用的别人的工作流来做的,我用他的工作流在最短的时间内把这个流程剪短化,把这个视频做出来, 不过质量不是很高。如果想提高视频的质量,就得花更多的时间和更高的电脑配置。可以先给你们看一下我做的 总结一下,如果你是个新手,想要做这样的视频,如果你执行力比较强的话,在几天之内通过学习和试错,然后做出这样的视频是没有问题的。如果你需要这个安装包和教程的话,我可以发给你。


好,嗯,大家坐好啊,小本本拿出来,接下来我们就开始讲模型了。 ai 生成视频的早期阶段主要依赖于 again 生成,是对抗网络和 v a 一变灯字编码器这两种模型,但是啊,这两种方法生成的视频内容 相对数线相对的单一和静态,而且分辨率往往不太行,完全的没有办法去进行商用。所以呢,这两种模型啊,我们就先不讲啊,之后呢, ai 生成视频啊,就演变成了两种技术路线,一种呢是专门用于视频领域的扩散模型, 一种呢则是 transformer 模型。我们先来说一下扩散模型的路线,那么跑出来的公司就有 runway, 还有 pick a lobstone 的扩散模型的英文啊,是 diffusion model。 很多人不知道,如今最重要的开源模型 stable diffusion 原始模型呢,就是有 rule 和慕尼黑大学团队一起发布的,而 stable diffusion 它本身呢,也是 rule 的核心产品,视觉编辑器真忘和 gentle 背后的底层技术基础。 rule 的真外模型在二零二三年二月发布, 允许大家通过文本或者图像改变原视频的视觉风格,例如将手机拍摄的现实街景变成赛博世界。而在六月份, runway 是发布了真 two, 近一步的能够将用户输入的文本提示词直接生成为视频。 那扩散模型的原理啊,大家一听这个名字,扩散模型就能够稍微的 get 到哈,是通过逐渐扩散来生成图像或者视频。那为了更好的给大家解释模型的原理,我们也是邀请到了之前 mata 的 make up video 模型的论文作者之一,目前呢在 亚马逊 agi 团队从事视频生成模型的张颂杨博士来给我们做一个解释,之所以用扩散这个名字是他源于物理现象,比如说我们把一个墨水滴到一杯水里面去,他的那个墨水他会一个会散开,这个东西叫扩散。然后这个过程本身物理上是不可以,是不可逆的, 但是呢,我们 ai 可以学习这么一个过程,把这个过程给逆过来。就类比到图片里面来说呢,就是说我们可以一个图片,他是呃不定位加,他加噪声,不能加噪声,不能加噪声,然后他会变成一个类似于马赛克这样的一个效果,他是一个纯噪声的一张图片。 然后呢,我们学习怎么把这个造点如何变成一张原始的那个图片。我训练生秒的一个模型,然后直接去一步完成的话,这个可能会很难,他分成了很多步,比如我分成一千步,我比如说我加一点点噪声,他能够还原他的驱噪声出来 什么样子,然后你保证加的比较多的时候,我该怎么去用这个模型,怎么去预测造成,然后逐渐的去把这造成慢慢的去掉。你比如原来是一个水跟墨已经完全混合在一起了,你想办法就是怎么去预测他一步一步,他如何在变回之前的那一滴墨水的样子,就是他是一个扩散的一个逆过程。 张素颜博士解释的很形象,扩散模型的核心思想呢是通过不断的向原始噪声引入随机性,逐步生成逼真的图像或者视频。而在这个过程啊,分为了四步,第一呢是初始化 扩散模型,开始于一个随机的噪声图像或者视频针作为初始的输入。第二呢就是扩散过程,也被称为前向过程 forward process。 扩散过程的目标呢,是让图片变得不清晰,最后变成完全的噪声。第三 三步啊,叫反向过程 reverse process, 又被称为 backward diffusion。 那么这个时候呢,我们就会引入神经网络了,那比如说基于卷机神经网络 stand end unit 结构,在每个时间部预测要达到现在这一帧模糊的图像所添加的噪声, 从而通过去除这种噪声来生成下一阵的图像,以此来形成图像的逼真内容。那第四步呢,就是重复步骤, 直到达到所需要的生成图像或者视频的长度。那么以上呢,就是 video to video 或者 picture to video 的生成方式,也是呢,让位的 变万的这个大概的顶层技术运行的方式。但是呢,如果要达到输入提示词来达到 text video, 那么就要多加几个步骤了。那比如说,我们拿谷歌在二零二二年周旬发布的 imagine 模型来说明一下 哈,举个例子哈,我们的提示词呢,是 a boy is riding on the rocket 骑着火箭的男孩。那么这段提示词呢,会被转换为 topen 标记,并且传递给编码 chi text in colder。 那谷歌 imagine 模型接着会用 t five x x l l l m 编码器将输入文本编码为嵌入 imbedance, 那么这些嵌入代表着我们的文本提示词,但是呢,以机器可以理解的方式进行编码之后呢,这些嵌入文本会被传递给一个图像生成器 image generator, 那么这个图像生成器呢?会生成六十四乘六十四分辨率的低分辨率图像, 那么之后呢, image 模型呢?会利用超分辨率扩散模型,将图像从六十四乘六十四升级到二百五十六乘以二百五十六,然后呢再 加一层超分辨率扩散模型,最后生成与我们的文本提示词紧密结合的一千零二十四乘一千零二十四的高质量图像。那么简单总结来说啊,在这个过程当中,扩散模型从随机噪声图像开始,在去造过程中使用编码文本来生成高质量的图像。那么问题来了, 为什么生成视频要比生成图片困难这么多呢?它的原理实际上还是一样的,只不过唯一的区别就是多了一个时间轴,就是刚刚我们说的图片它是一个二 d 的,它是高度跟宽度。视频它多一个时间轴,它就是一个三 d 的,它就是高度、宽度还有一个时间。然后它在做这个 学习这个扩散的逆过程的过程当中呢,就是相当于以前的是一个二 d 的一个逆过程,现在变成一个三的逆过程,就是这么一个区别。所以说图片上 存在的问题,比如说你像这些个生存的人脸,他是不是真实啊?那我们如果图片存在这样的问题,我们视频也一样会存在这样的问题。对于视频来说,他有些他有些独特的一些问题,就比如说那个画面,他那个主体,他是不是保持一致的? 我觉得目前的对像风景这样的,其实效果都还可以,然后但是如果涉及到人的话,因为人的这些要求可能会更精细,人的这个难度会更高。然后还有一个目前的一个难点,我觉得也在在努力的方向,就是怎么把视频变得更长, 因为目前来说的话,只分成两秒,三秒、四秒,这样的视频其实远远满足不了现在的应用场景。扩散模型比起之前的电等模型来说,有三个主要的优点。那第一呢,就是稳定性, 训练过程啊,通常更加的稳定,不容易呢,陷入模式崩溃或者模式塌陷的问题。那么第二就是生成图像质量,扩散模型可以生成高质量的 图像或者视频,尤其在训练充分的情况下,生成的结果通常比较的逼真。第三呢,就是无需特定的架构,扩散模型呢,不依赖于特定的网络结构,兼容性好, 还有很多不同类型的神经网络都可以拿来用。然而呢,扩散模型也有两大主要的缺点,但包括,首先啊,训练成本高,与一些其他生成模型相比,扩散模型的训练可能会比较的昂贵,因为呢,他需要在不同噪声程度的情况下学习去造,需要训练的时间更久。 其次啊,生成花费的时间更多,因为生成的时候需要逐步的去找生成图像或者视频,而不是一次性的生成整个样本。我们其实现在无法生成长的视频,一个很重要原因就是我们的显存是有限的,你生成一张图片是可能带着那些部分的现存,然后你如果生成十六张图片, 那就占了可能差不多就把这些都给占满了,当你需要生成更多张图片的时候,你就得想办法怎么去,去考虑之前已经生成的这些信息,然后再去预测后面该生成什么样的信息,就是他是在首先在模型上面就提供一个更高的要求。当然算力上面也是一个问题,就是或许过很多年之后,我们的显存 会非常的大,可能我们也就不存在这样的问题了,也是有可能的,但是就目前来说,当下我们是需要一个更好的一个算法,但是可能这个问题 如果有更好的意见,可能这个问题就不存在,所以呢,这是注定了目前的视频扩散模型本身可能不是最好的算法,虽然让为何 pick ups 等代表的公司啊一直在优化其算法。那么我们接下来来聊聊另外一个派别,基于 transformer 架构的大语言模型生成视频技术路线。

大家好,接下来我会介绍以下视频是用什么 ai 来生成的。先来看下效果, 陈平安 跟大家分享下制作过程以及用的什么 ai, 每个 ai 的优点和特别的地方。 首先说下制作流程,先在 mj 中生成想要的镜头,然后根据你想要的效果用不同的 ai 来生成视频。生成视频的 ai 有三个,第一个是 gen to runway, 第二个是 leopix, 第三个是 picklabs。 我们说下怎么在 mj 中得到想要的镜头,方法很简单,就是直接用图声图的方法得到你想要的镜头。那么首先你要知道自己想要什么镜头。画面很简单,在电影中找到你想要的画面镜头,然后用图声图的方法得到你想要的画面,是不是很简单? 因为 ai 不会重复出现一样的镜头,所以不用担心有别的问题。我不会用关键词去生成镜头,要花很长时间。现在的电影参考足够多,足够能撑起你想要的东西,我们要做的就是做出 评估和选择。下面我来说下图升图的方法,在 describe 中上传参考图片, m j 会给出四条关键词句子,然后直接拖拽图片到 m j 按回车上传。 上传后我们摁 imagine, 先把上传的参考拽到 image 中,再最后摁下空格,然后去拷贝关键词句子,倒粘贴到空格后面。 这里跟大家说下画幅比例,我用十六比九的比例,然后就用二十六比九就可以了,按照这个方法,每个关键词都试一下, 就能得到你想要的了。下面说下生成视频的 ai jam two, 打开网站页面,选择进入 jam two 页面,这里有 jam one, 我另有一个视频专门分享了 jam one, 大家感兴趣可以 去看下。要想使用这款 ai, 首先要邮箱注册,注册后就有积分,大概有二十秒左右,用完了第二天还会有二十秒。这里告诉大家一个好办法,在这里可以建立一个工作室,就会有一百多秒的积分可以用,但是只有这一百多秒,不过 大家可以多申请些免费邮箱来注册,这样每天就可以获很多积分用了。好了,我们点击 jam two 进入页面,进来后右上角是所剩的时间,我这里用了一部分,刚注册的就不是这些了。 在这里导入图片,选择照片就好,不需要打入关键字,然后直接点击生成即可。这款 ai 生成视频就像开盲盒,不时有惊喜也有失望,生成视频变化比较大,靠后期剪辑较好。我们来 来看第二个生成视频的 ai, 这款 ai 比较适合产品,视频运动变化不大的,对画面本身的内容不会变,同样邮箱注册就可以使用,而且是免费的。点击这里导入图片,然后 ai 就可以自动生成,等待即可。看是不是很简单, 主要是镜头的运动,这里是镜头的运动轨迹,往下依次打开,大家可以尝试下,很容易看懂,很简单。 点击这里可以下载视频生成 mp, 四按保存即可。我们来看第三个生成视频的 ai, hicklaps, 这款 ai 比较适合风景自然,进入视频 也比较像开盲盒,他和前面两个最大的区别就是你可以输入关键词,这点真实超酷。我们在主页点击进入,加入 discore, 下面这些随意点击在里面就可以生成了。首先在下面输入斜杠,选择 create, 然后就可以输入关键词了,我们要把油画变得生动,所以输入个关键词风,再选择右边的增加,这里就可以加入图片了。放入图片后,然后回车,等下就出来了, 是不是还不错?这三款 ai 视频搭配者来生成视频会很丰富,目前就是没有能够让动作幅度变得特大的,不过我特别期待另外一个 ai 就是 s d, 也许他下一步就能解决这个问题。好了,分享到这里,希望大家能够做出满意的视频。