粉丝1.4万获赞8.6万

昨天刚出的这个视频生成技术仅次于 也不是仅次于,估计唯一可以和双耳抗衡的一个视频生成。他这个视频生成其实里边包含了很多功能的,比如文字到视频图片到视频,视频编辑声音什么之类的,他的效果和双耳 基本上是一样的技术原理,生成的效果非常完美。呃,跟 其他的那些视频生成也是不一样的。不不具,那个图像扩散模型,那个解决不了山地啊或者流畅的这种问题,一直闪他这个就很好解决嘛, 据说已经提交了安全审核,过几个月应该就可以使用了。这个唯一的优点就是跟烧奶一样的技术生成的视频基本上达到。嗯,完美了,跟烧奶一样完美。 松海不知道什么时候发布,他这个可能发布会更快,大家可以猜一下谁发布的更快,视频的效果也是超级完美。还有一个要介绍的就是这个朋友以这个 机器人今天刚更新的一个技术,就是支持他旗下所有的 i 音乐上传图片,而且他是理解图片,比如说我要是在这个朋友官方图片生成里边 上传图片,然后呢,他要求参照我这图片生成,他就可以理解了。优点是他支持到所有的应用里,不只是在这个生图里面,在其他呃呃。 gpt 也都可以用, 所以这个就非常完美增加了一个技术, 比如官方的这个 stable 的飞雪绘图软件,在这里边都是免费的啊,这些都是免费的,他支持这个之后,你上传一张图就可以生成显示性,或者他没解这个图片可以让他生成提示词, 现在详细介绍谷歌的这个 vd port 视频生产 的技术,他的优点就是广泛的视频生成,他其实收买没有详细介绍,他这个也不是一一个功能生成的,他应该是很多功能生成完复合的,比如说文本到视频,图像到视频, 视频风格化和视频修复扩展,或者视频到音频,视频到音频呃自动生成,我笔记里都有分享,其实呃已经有了,还有视频生成音乐,图像生成音乐也有了, 就是一个无声的视频自动上传,然后自动配音,已经有了,非常的厉害。还有多么太。他这个视频生成的特点,还有就是大于模型的支持,呃 多能力,他不是一个单独的能力,而且生成的过程可以用提示词去修改,这样子就编辑视频上就非常厉害。长视频生成,这个和收码是一样的,可以生成很长, 这个交互式视频编辑,也就是提示词修改,然后这个输入图像化去控制,这个就是图片生成视频,还有一个相机运动,这个就没事收买里边的三 d 那个技术其实是一样的。 所以大家可以猜一下谷歌这个目前唯一可以和 sona 抗衡的视频生成,哪家先出? sona 先出还是谷歌这个 一定要碰到线处,这个比较实用,大家可以立马就尝试。好了,今天就分享到这。

大家好,今天跟大家分享一个可以去除视频里边字幕的开源的 ai 软件, 名字叫做 video subtitle remove, 以下简称 vsr。 先介绍一下我的软硬件环境,硬件呢我用的是我笔记本的 vda 三零五零显卡操作系统用的是咱们国产的 dpr 十点九, 安装好了显卡驱动打卡以及微带容器工具包,接下来就让我们一起体验一下它的效果。首先我们打开一个命令终端, 然后呢这时候我们看到的是 dollar 提示符,也就代表是普通用户,然后呢我们先切到入的用户,然后呢执行命令,运行一个容器 回车, 这时候我们等一下, 好,现在我们看跳出了一个窗口,这个就是 vsr 的窗口了,然后呢我们点 open, 然后呢选择 这个 v 六这个文件夹,刚才执行命令的时候,我是把后目录下的 v 六,然后直接挂到容器里了,然后呢我们直接打开它,然后呢这有一个我准备好的视频, 然后呢我们能看到这有个字幕,这个视频呢是一个呃装机的赏析,它里边是用了一是一台四路的四零九零的机器,然后呢是有一个字幕,然后我们就把这个字幕去除掉,然后在这里呢我们可以调整这个字,这个 这个绿框,然后呢我们用这个绿框把这个要去除的字幕框起来,然后呢我们可以移除,移除他,然后呢在这边也一样可以调整他的大小和位置, 尽可能的就是圈子精准一点。 好,现在我们就已经把它圈好了,然后呢我们直接在这点 run 按钮, 然后我们可以看到这个时候呢,他是首先呢先寻找这个字幕,然后呢寻找完了字幕以后呢,然后下一步就会自动去除字幕,然后我们看一下显卡的使用情况。 呃,我笔记本的显卡呢是三零五零,然后呢只有四 g 的现存,然后呢现在用了一点五 g, 一点六 g, 然后使用率是百分之八十, 然后现在他 再去除字幕,其实呢这个笔记本的这个三零五零的显卡还是比较弱的。呃,也能看得出来,这个软件他对这个显卡的要求其实并不高,现在他只消耗了三点二 g, 如果能换成咱们台式机的这种显卡,他的速度可能会更快。然后呢现在我们就等着,等着他处理完, 在这个预览窗上,其实我们能看到它是可以看到原始的视频,然后和去除字幕之后的视频。 好,现在他就处理好了,用了一百七十二秒,然后我们来看一下效果在 video 下,然后呢这个是原始的视频啊,这有一个字幕。然后呢我们看处理好的, 他处理的还是很干净的。然后呢又用算法对这个去除后的字幕,然后做了这个填充,我们只需要关闭这个窗口,这个容器他自己就停掉了。然后呢我们下一次再用的时候呢,我们只需要执行这个命令, 然后等待窗口弹出来, 好,现在他就运行起来了,然后我们直接把这个窗口关掉,然后这个容器也就停掉了。今天的分享就到这里了, dp 二十点九在运行 ai 的时候,在效率和稳定性方 方面都有着很不错的表现,大家在闲暇之余不妨试一下咱们的国产操作系统,大家如果有什么疑问呢,也可以在评论区给我留言,大家一起友好的交流,谢谢大家!

所有的 ai 视频生成工具刚刚都过时了,顾客刚推出一个全新的视频生成模型 video poet, 这个模型在长视频生成上有所突破,它能够通过分析并调成视频的最后一秒内容,预测并生成接下来的一秒视频, 这一过程可以不断重复且确保内容的连贯性,所以就创造出了无限市场的视频,这完全碾压市场上的小幅动作视频生成工具。 同时他还具有高度的视频可控性,对同一视频进行二次编辑,可以实现不同的动作和场景。更令人兴奋的是,作为一个多么太模型,不仅可以生成视频,还能同步产生相匹配的音频,听上去是不是很厉害?期待他的正式上市。这里是云朵来源解决频道,下期见!

字节开源了 animate def lighting 模型,这个模型呢突出的一个点呢就是快,我们可以到达哈达哈根 face 的页面来查看详细的介绍,同样和之前所介绍的 lighting 模型呢,是一样的, 包含一步,两步,四步和八步的模型。这个地方呢,我觉得还是一样,四步可能是一个合理的值,他没有那么激进。八步呢是我推荐的值,我在这个地方是非常的保守的, 下面呢有给出模型的建议,在文件和版本当中呢,除了模型之外,还给到了工作流在 comfort 以外文件夹当中。这个地方呢,我做了一个二十秒的转会,在 k 彩能机这个地方大概是花了四分钟, 当然之后呢,我也进行了补针,速度上是一定会有提升的,这是毋庸置疑的了。注意, anymate 地府模型加载,这个地方 要和 k 彩阳器呢是与之相一一对应的。如果你用的是四部的这个 anymeady 模型的话,步数为四, cfg 为一,那我这里用的八步,我的步数用的是八, cfg 用的是一点五, 默认的采样器和调度器呢就是这两个。那么相对应的工作流和模型我会放到公众号 aksk 当中。

这期二花虚拟资源分享一款免费开源利剑视频字幕识别、翻译和配音的软件,拍 video trends, 该软件可以将一种语言发音的视频翻译为另一种语言发音的视频,并嵌入该语言的字幕。比如一个英文视频,他的发音是英文,也没有中英文字幕。如果你用这个软件处理后,该视频就可以转成不仅带有中文字幕,并且还带有中文配音, 还有非常多音视频和字幕的相关处理工具,非常强大。