ok, 欢迎大家收看本期 ai v 六版功能编织 v i t as faster fantuny, 那么我们项目的 redmi 说明文档里面就是有写的这一块, 然后我们这边既然做这个拆分版,我们就把全部的一些全部的,也不能必定全部把和线几个功能都给大家拆出来讲一下。 我们看到目录这边往下翻,补充补充到 vits faster 翻托尼。 ok, 那么有官方仓库,我训练好的模型,以及我以前的 单独的 vits fast 的一个视频教程,这期里面其实有讲怎么使用的,那么我们现在直接把接入也一起讲了,重新讲一遍。先是 vits fast 反正应的一个官方仓库这边,然后这边 release, 这边是有 inference y b y 有一个一点一和一个旧版的,我们使用一点一的版本也行,一点零也行,都是可以使用的。那么我们下载好这个 inference 之后呢? 然后就是模型了啊,我这边是有我自己的模型,那你也可以去网上找。呃,去网上找别人的 vits fast 反特尼的模型,你不要把 vits 的模型直接拿过来用,他们是不兼容的。 ok, 那不一定见证,我也不不不,不,打表保票。 ok, 然后我们来到我这边的提供的我自己确认的一些相关的模型,然后这边可以看一下有 config 点 j, s 以及 g 开头的点 p, t, h 模型文件。那么还有这个 mo modifying 的啊,这个多人的,还有这个是什么 uma 的 啊,这个门店,其实这些是不需要,只需要这个扛费一个点这一层和这个句开头的这个 pth 模型就可以了,我们下载, ok, 下载本店,我这边给大家放一个,放下看一下,我这边就是我前面训练的模型都是在这里面,都是有的,随便随便开一个,你们就是这个 模型以及配置文件,然后我们打开我们的 inference, 下载好解压,打开, 我们用旧版,然后把模型和配置文件放在这里面,一定要注意啊,因为英风认识他这个配置和这个模型路径是写死的,你必 需以这个来命名,必须以这个命名,反反特,下划线 speaker, 点 jason 和一个句下划线 last taste last, 哎,这,这怎么读啊? 点 pth 模型一定要以,这个一定要, ok, 强调了好几次了, 我们可以打开我们的配置文件看一下,这是我们的一卡的模型,编号是一千, ok, 定型,注意我们的说话人啊,说话人就在这个配置文件里面看的,如果你说话人是别的话,你一定要把它这个 说话人的这个名字给复制下来,这边是一个中文的一个编码问题啊,这其实无所谓, 给他弄下来,这个是在我们的配置室需要用的。 ok, 那么我们启动我们的 aiv table 项目, gi, 他这边还没起完,我们先配置一下,找到我们的 vits button, 然后 faster 老师读成 faster, faster, 找到我们的配置,一个是配置文件路径啊,大家可以发现是反特,反特条形 speaker, 如果你那个 不想说的话,你可以先复制下,这是 win 十一啊,可以复制文件路径的。 win 十的话,你可以先复制下这个路径,然后手动的敲一下最后的这个路径,因为最后路径是保持一致的嘛,其实你只需要替换前面就可以了,然后的话 api 端口, ip 和端口我们在启动环之后,你可以发现他这边其实有一个 run in on local url, 这个就是我们的地址,其实他运行完之后会自动弹出浏览器的,你看弹串我们直接复制这个 agdp 要带上,这是我们的 api 地址。说好人,就是刚才配置文件里面的一卡的,这个对上不能出错,语速一点零。 ok, 一定要把配置搞对,不然的话是用不了的。 随便合成一个和我一起吗? ok, 保存啊,是我默认默认配置。对的,因为是我自己的本地默认配置,我们现在测试的话就比较方便。来聊天, 双击双击。你好,现在是复读机。你好, 你叫什么?哎,儿子,有和弦的音频啊,还有音频的长度。 ok, 那么这是我们的 vits past phantoni 的一个配置和使用, 希望大家要分清楚啊,不要混用。虽然说之后可能会去做 vits 纯原生的这个兼容的,但我暂时一直都没有做,因为我自己也没有搞这个模型嘛,我都是用 fast 的,因为 fast 自己训练比较快,所以说 我是偏向 fast, 那么之后的话可能会兼容别的,反正兼容一下其实也很方便吧。 ok, 那么本次的这个 v i t s fast 的视频就到此为止,我们下期视频再见。拜拜。
粉丝935获赞7.9万

ai 孙燕姿火遍全网,以 b 站为例,由孙燕姿翻唱的各种歌曲都异常火爆,不过由 ai 孙燕姿生成的歌曲过于真实,导致互联网上出现了很多反对的声音,因为此类型的歌曲很可能会导致侵权行为。 不过,由于针对此类音乐的版权法规还未出台, ai 孙燕姿音乐仍然可以在 b 站 youtube 平台播放。 ai 孙燕姿的制作主要使用了 sovics svc, 这是一个开源的人生克隆项目,由 b 站的羽毛部团开发。 so with 可以通过输入人生样本训练模型并模拟某个人的音色。现在我就为大家演示一下操作流程。在开始前,你应该准备一 一张支持 code 现存六至以上的英伟达显卡,以及 windows 十及以上的操作系统。今天所用到的工具和数据及小微已经整理完成, 感兴趣的同学可以通过电子邮件联系小微获取百度网盘下载地址。值得注意的是,为了尊重音乐创作者的版权,请大家不要在未经授权的情况下制作音乐或者商业化使用。 第一步,下载最新版的 solids svc 四点零整合包,完成下载后解压文件即可启动 webui。 第二步,准备高清的声音素材,用于 ai 学习。值得注意的是,为了获得最好的音色, 大家应该使用无损的人物原声作为训练素材。如果你有歌手的 cd 唱片,则可以提取音轨并保存为 flac、 alac wave 等格式的文件, 或者直接下载 flac 格式的音乐。第三步,使用专用软件提取人声。 进入 google 搜索在线人声提取词条,选择第一个搜索结果 vocal remover 从本地上传一个音乐文件, 等待几秒钟后,系统就会完成人声音乐的分离,把分离后的文件下载到本地即可。如果你觉得处理的音频不够清晰,也可以使用专业开源的 ultimate vocal remover 工具,也叫做 u v 二五,完成最佳的人声提取。 uvr 同时支持 windows 和 macos 系统,大家可以点击下方链接,在 uvr 官网或 gap up 下载最新的版本, 下载并安装最新的 uvr 五点五版本,点击 select input, 从本地上传需要分离人生的歌曲。 select output, 选择输出的目录即可。 在此我建议大家选择位格式输出,选择三二零 k 的音质。关于其他的参数设置,大家可以参考右侧对照图,按照这个方法上传尽可能多的歌曲,并完成人生分离。 如果提取出的人声有杂音,也可以使用 adobe audition 或者 r x 十 adio editor 完成降噪处理。第四步,切割音频 一般来讲, vivo 格式的歌曲文件往往在三到五分钟之间,文件容量也比较大。 而在训练模型的时候,我们则需要把一个歌曲分割为十秒左右的文件,以保证模型训练的速度和质量。点击下方链接,进入该放,选择下载这个名为音频切片机的开源工具, 完成下载后,运行 audio slicer, 把分离后的音频文件重命名,建议英文和数字组合,然后批量导入分离后的人生文件。设置好输出路径,点击 start 按钮,完成音频的批量分割。 把分割后的文件夹复制到 so with the data set raw 文件夹中。第五步,训练模型完成了前期的准备工 工作,我们就可以开始训练模型了。打开 webui, 选择训练,点击识别数据及参数,保持默认值,点击写入配置文件,点击从头开始训练即可开始训练模型,点击下方数据预处理,开始训练模型。 根据显卡的性能不同,该过程会持续一定的时间。第六步,模型推理,点击刷新模型,选择一个训练好的模型,然后选择配置文件,最后点击加载模型。在此小薇选择一个训练了两万步的模型。 下一步,上传一段不带背景的人生,在此小薇使用 so 二生成一段简短的歌曲, 然后使用 vocal remover 工具完成人声和背景音乐的分离, 下载人声并上传到 service, 点击转换按钮,等待少许时间试听一下效果。 现在我们就完成了今天的操作,今天用到的工具请联系小微获取。最后再使用 sovis 的时候,一定要严格按照版权法规定,不要做出侵权的行为。今天的视频就结束了,感谢大家的观看,欢迎大家点赞、订阅、转发本频道, 如果你有任何问题可以在视频下方留言或者联系小微,欢迎大家收看本频道的其他节目,再见!

大家好,这里是博哥分享,今天我们先来听一段音频文件 task to carry on what those pioneers begin for our journey is not complete until our wise our mothers and daughters can earn a living our journey is not complete until no, and is forced to wait for hours to exercise the right table our journey is not complete until we find a better way to welt them the striving pokeful immigrants who still seem? 这是一段奥巴马的演讲音频, 我要是不告诉你哪段是原声,哪段是 a 合成的,你能听得出来吗?甚至我们也可以让奥巴马为我们来唱一首歌 see you again。 那这个是怎么做到的呢?下面跟随我的脚步,你也能合成任何你想要的声音。首先我们打开这个项目的开源地址,然后这个链接我放在我视频下方的简介中,在右侧我们找到这个 瑞丽,点击打开,这里有一个完整包的下载链接,我们点击这个链接下载完整包。下载完成后,我们会得到一个压缩文件,然后我们可以把这个压缩文件解压到任意文件夹,解压完成后,打开文件夹, 找到 go with a bet, 双击运行,启动成功后会自动弹出这个页面。初次进入我们这里是没有任何模型的,我们可以自己训练模型,或者通过 aihibi 的客户的社区下载训练好的模型。首先我们点击视频下方的链接, 加入 ai head, 点击加入,找到 voice models, 在这里你可以看到很多训练好的模型,我们搜索一个奥巴马, 然后在这个模型的下方,我们可以试听这个模型生成的声音效果, 点击链接,把这个模型下载下来,下载完成后解压,然后我们会得到两个文件,将 ptf 后置的文件复制到未此文件夹, 打开 notes, 新建一个以我们这个模型名称命名的文件夹, 然后将 index 这个后缀的文件,把它复制到我们 新建的这个文件夹中。 我们重新进入界面,然后刷新音色列表和所有路径,可以看到这个训练模型已经导入进来了,这时我们就可以进行模型推理,也就是用这个模型来刻弄声音了。 这里我们先要准备一个你想要替换声音的音频文件,然后我这里是准备了一个奥巴马的一个演讲音频, it is now our generation's task。 在推理之前,我们要先要对这个音频文件进行一下处理。我以这段奥巴马的演讲为例,我们先要去除音频中的伴奏,混响和回声,只保留干净的人声。如果你的音频文件原本就是干净的人声,然后就可以直接跳过这步,选择伴奏人声分离,去混 影响,去回声,粘贴我们准备的音频文件所在的这个文件夹的路径,然后我们也可以直接拖拽进来, 但是我们要是选择拖拽,我们需要把这个代处理音频文件将路径清空, 不然的话程序运行的时候会报错。然后我们选择模型,他这里是对这个模型进行了一个说明的,就是说我们要是这个音频文件里面没有 和声的话,我们就选择 h p 二或者 h p 三两个模型,但是 h p 三可能会轻微泄露这个伴奏。然后要是我们这个音频文件里面要是有和声的话,我们就选择 h p 五这个模型,然后下面这几个模型是用来去除混响和延迟的,推荐先使用这个 alex deriver 去除混响,然后再使用 deco aggressive 去除延迟,这样 我们就可以得到最干净的人声。然后这里我们先选择 hp 二去除伴奏,点击转换,转换完成后,我们可以在这个 opt 文件夹中看到分离后的人声和伴奏,之后去除混响,上传分离后的人声音频 这个 vocal 开头的文件,然后这个模型选择 onics the rabber, 点击转换,转换完成后的音频文件同样会被保存在这个 opt 文件夹中。最后我们去除延迟,上传这个去除混响后的音频文件。呃,就是以这个以 men vocal 为后缀的这个文件 模型,选择这个 deco aggressive, 点击转换完成后,我们这个音频文件就处理好了,然后我们现在你就已经得到这个最干净的人声了。接下来我们就可以进行这个模型推理了,点击模型推理,推理音色, 我们选择刚刚导入进来的这个模型,然后拉到最下方,这里会有一个自动检测 index 路径, 选择这个 index 模路径,然后把我们刚刚处理好的人声应聘文件拖着进来,注意是这个影确实门的 vocal 开头的这个文件,然后我们把它拖着进来,然后这个变调要是男生转女生的话,我们可以选择十二, 要是女生转男生的话,我们可以选择负十二,然后他默认的是零,这个零是代表呃,不改变我们本身的这个音调。 这个音歌提取算法,我们选择 crop, 然后点击转换,这里显示已经转换完成了,然后这个转换完成之后的文件也会保存在这个 opt 这个文件夹中。最后我们需要将深层的声音和伴奏合并成一个音频, 然后我这里使用的是这个格式工厂,这个格式工厂也是一款免费工具。点击音频,点击混合添加文件,选择 ai 生成的音频和分离的伴奏,就是我们这个 opt 文件夹中以这个 interestment 开头的两个文件,但是我们这里是有三个以这个 interestment 开头的文件的, 我们可以把这个文件按照这个时间排序,然后第一个和最后一个就是我们需要的文件啊,我们把它添加进来,添加进来之后点击确定,然后点击开始吻合,完成之后点击输出文件夹, 然后我们在这里就可以看到混合后的音频文件了。 it is now our generation's test。 然后这个就是我们利用声音克隆来合成的一个奥巴马的一个演讲音频。 下面我们来介绍一下如何自己来训练模型。首先我们要准备十到五十分钟的一个人声音频文件作为训练机,然后这个最好是安静的环境下录制,我们这个训练机的时间越长,然后他的训练效果越好。将所有的音频文件放在同一个文件夹中,然后我们复制 这个文件夹的路径,回到界面,选择训练实验名,我们可以随便输入 训练文件夹路径,我们粘贴我们刚刚复制的这个路径,然后这个模型是否带音高指道? 这个是根据你这个训练模型来的啊,这个版本我们选择 vr, 然后这个总的训练轮数可以根据自己的需要调整。呃,这个数字越高,训练的时间越久。每张显卡的批量大小,这个是根据你的显卡配置来进行调整的,你的要是配置 低的话可以调小一点,但是这个最低显卡的配置是不能低于四 gb 显存的。然后点击一键训练, 因为这个训练的时间会比较久,所以我这里就不跟大家再做演示了,当我们这里显示训练结束,就代表我们这个模型就已经训练好了。好了,这期视频就为大家分享到这里,如果你觉得对你有所帮助的话,希望帮忙点赞加关注,谢谢大家,我们下期视频再见!

我用 ai 克隆了自己的声音,能说话,还能唱歌,今天就手把手教你制作全网爆火的 ai 孙燕姿,软件已经打包,可以到粉丝群领取。你现在听到的歌声就是大法师分身演唱的。 这期视频呢,一方面是让大家能够体验和使用 ai, 另一方面呢,也希望大家能够了解现在的科技发展程度,在以后的生活中提高个人防范意识,尤其是家里有老人的,一定要给他们约定一个暗号,防止上当受骗。 本期视频的所有内容仅供学习交流,首先我们要准备两小时干升的 wav 文件,唱歌的或者说话的都可以, 如果你使用的是唱歌素材,需要先使用 uvr 五提取人声,大家可以截图按照这个操作。接下来打开奥迪 sizer 来进行音频分割。点击左上角的添加文件参数,保持默认,点 gpros 设置输出目录,右下角 start 运行后,把输出目录下的文件全部复制到这个文件夹里, 注意文件夹名称不要有中文。这里建议把所有的素材再听一遍,删除有干扰音的文件。然后打开 vits, 点击启动外部 ui, 加载成功后会在浏览器打开页面选择训练,点击识别数据级,这里会显示你的数据级名称。训练分支选择第二个,点击数据易处理。 这个过程大概三到五分钟,完成后根据你的显存修改批量大小,如果训练过程中有爆显存的情况,就把这个数值调小, 点击写入配置文件,成功后点击从头开始训练,一般情况下,训练到三万步左右的效果就比较好了,我这里为了节省时间训练了一万多步。训练完成后回到外部, ui 选择推理,点击 模型选择,这里会保留你最后的十个模型,选择数字最大的配置文件,选择第二个,点击加载模型成功后上传你要模仿的音频或歌曲,完成后就可以直接下载了。


大家好,我是超老师,一个 bhw。 大家是否在一些视频作品中看到里面的角色配音和 c v 一八五二?其实通过一些简单的操作也是可以做到这一点的。打开原声点 com, 就可以通过输入不同的句子,模拟出每一个角色的配音。你好, 我是伞逼。下面有角色的选择界面,可以用来选择不同的角色。尝试着用了一下,感觉还是不错的。推荐的第二个网站是内库,进入界面之后,点击原声语音合成,然后就可以通过输入文字获取到不同的配音效果。 你好,旅行者,我是派萌。值得赞赏的是,里面还可以调整语速的变化,但唯一不好的地方在于,如果使用的人太多了,有时候声音合成不了。分析角色素质现状,目前原声中的大多数分析角色素质都不怎么拿的出手。请听一下语音无能, 就凭你也配直视我啊,什么? 年纪大听不见?哼,别想逃开哦。感觉里面最有礼貌的也就是分神问题了,如果在跑毒的过程中使用他,还可以听到啊,好粗鲁啊。 就因为这一点,当时差点以为他是女孩子。弹牙班尼特施出土门。为什么要说弹牙班尼特施出土门呢?请看下面的招式对比。 可以看得出来前面几张一模一样,唯一不同的地方在于两个人最后一张略有不同。在角色的背景故事中,描述了身为后辈,班尼特对凯亚这位前辈信任有加,只可惜在游戏剧情中因为看到他们的互动。好了,这期的视频就到这里,我们下期再见。

你们听过派盟翻唱吗?我们的爱就像是流行落沙,哈哈哈,本派盟能够唱歌还是要归功于这个级数。做 vc, 做 vc 我相信你一定或多或少听说过。他实际上是一个简写,他的全称是这样的,我就不读了, 不妨从其中的谓词开始讲起。同样的,规则也是一个简称,我们可以把它理解成采用了对抗学习、念分推断等级数的文本转语音模型,它属于一种声超式模型,真诚式模型是个什么东西呀?我们知道图像、文本、 语音等数据都是对已经存在的复杂分布进行采样的到的,采样的方式不同,所得到的样本质量也有所不同。就比如说一个照相机,用全画幅和中画幅相机所拍到的照片,他们的相片质量并不相同而生成。我们 可以直观的理解,会通过某种手段直接生成为我们要得到的样本。跳过了对复杂分布进行采样的过程,我们可以通过这个图式来理解。简单的正态分布进行随机采样后得到了的维度的香料,他可以通过矩阵的形式来表示,而这个香料经过剑南瑞特的作用之后, 变成了一个高维度的下量。这个高维度的下量可以理解为复杂分布进行随机采药后的样本,也就是常见的二字 角色的声音,就比如哭泣猫的声音。以上就是生长式模型的简单原理,目前主流的生长式模型有三种,分别是尬 vi、 符录这三种,而我们所提到的位置的主题结构就是一颗 一模型,我们可以叫他变分子、变马七,他的大着思维框架,我们可以用这个图来表示,我们知道一段语音和一张 图像,我们都可以从中提取可观测的信息,并通过编码器停列为隐形变量,然后通过解码器输出可见信息。那么如果我们能够针对文本和语音分别构造词编码器,让他们通过引编量建立等项关系,然后交换他们的解码器, 那就可以实现文版导语音的转化了。这就是 vc 这个模型的大致原理。说完了 vc 这个模型,我们来看看 sowitssy, 实际上 sowissyswissi 是在 wiss 的基础上进行的, 他将最终的解码器转换为了害发干,并且利用造福特威塞内容编码器提取人声信息,确保在转换的时候保留原音频的音乐内容,并将其转换为目标歌手的声音特征。简单的来说,搜 作为此, svc 就是将原歌曲的音色转换为目标歌手的音色,转换出的歌曲的细节部分还是要原歌手唱出。怎样啊?你是不是对这个模型有所了解了呢?相关的模型文件我会在粉丝群分享出来。

我微发几句语音就能克隆出你声音来!最近随着人工智能的爆火,我们在想能不能克隆自己声音出来代替我们口播。看完大量资料,目前开源技术我们大概分成三种,第一种, moping bird, 号称一句话即可克隆,音色挺像但很假。第二种, sorbs, 测试效果非常逼真,甚至的模拟唱歌,但硬件要求不高, 四零九零显卡也要十几个小时处理。第三种, plus 小样本,语音克隆基础。不知道你有没有发现,当前视频你听到的全部都是克隆声音,完全线上运行,安装简单,不需要你一网复购,硬件上传几分钟的录音素材,训练几分钟就能达到逼真效果,甚至能模拟你说话习惯。那我们使用人工克隆语音的好处有什么呢? 最直接的就是能让我们的视频制作更简单,只要输入文字,不用反复录制声音和反复的去裁剪音频,后期适于患者,可以通过以前录音代替他发声,减少病患的生活困扰。最后点赞关注吧,后面会更新人工智能实战操作。

最近发现很多博主在安利微软的语音合成,效果确实不错,虽说是免费,但是想顺利白嫖下来还是有点繁琐,要么就是利用系统录音,要么就是网页抓取,这么操作着实有点耽误生产。 好在国内某知名论坛大佬又出手了,直接用微软的接口写了一个免费的配音工具,软件名叫做微软语音合成助手,塞袋好后无需安装,直接解压运行。 软件界面可以说是非常的简洁易用。左侧文本窗口用于输入你需要配音的文本,右侧为配音主播于安及一些常用的配音设置, 接下来就演示下如何使用。在左侧粘贴咱们需要配音的文本,右侧语言选择中文语音,选择一个比较热门的主播云溪语音风格根据你文案选择语速、音量和音量,没有特殊叙旧,保持默认 即可。点击试听常规 office 安装流程下载安装激活。一整套下来,是不是很熟悉的声音啊?没错,很多解说主播用的就是这个声音, 客观的说,微软的语音合成引擎还是不错的,无论从语速、感情和断句停顿上说都比较贴近真人。试听没问题后,我们点击保存,就可以把配音保存在电脑上。使用了一款非常好用的免费配音软件小棉袄,强烈推荐!
![[oeasy]so-vits人声唱歌音色转化_人工智能歌手_深度学习 #深度学习 #实战 #人工智能](https://p3-pc-sign.douyinpic.com/image-cut-tos-priv/e332fdc2e0cf22c27e7ee835a9a987e8~tplv-dy-resize-origshort-autoq-75:330.jpeg?lk3s=138a59ce&x-expires=2092003200&x-signature=ToQTvDHyPrmzt0s%2BJipbAthbk%2Fw%3D&from=327834062&s=PackSourceEnum_AWEME_DETAIL&se=false&sc=cover&biz_tag=pcweb_cover&l=202604200835576174C9F2AE0501869A5A)
好,我们这次来玩点什么呢?我们先听这么一首歌,这首歌呢是东方不败风云再起的一个插曲,叫笑红尘,是那个沧海一声笑的姊妹片 话的声音。 然后我们用这么一个东西呢,就可以把一个呃音乐里面有人声,有背景音的东西分解成两个东西, 哎,要不然呢,你要是要这个 instrumental only, 就是要要 bgm 啊,但是不要人声。 vocal only 呢,就是只要人声, 但是不要 bgm, 然后分分分开之后呢?是这种效果 会的太早。 怎么样把陈淑华的纯人声变成这个这个 oo 的纯人声呢?是需要用到这样一种东西,叫做深度学习。我们可以看到这块呢,有这么一个这个 sovis, sovis 这么一个 仓库,然后这个仓库呢就很活跃,很活跃,而且呢就是有很多的分支,有很多各种各样贡献者,挺好用东西。然后我们可以到这个扣的位置, gpu, gpu 就是显卡,去搜这个 sovics, sovics, 但是他没搜到,是吧?搜位这块我们搜到一个欧喷喷啊,欧喷喷,他,他建立了这么一个这么一个镜像,当然还有其他的各种各样的镜像,那么我们其实可以选择一个镜像,哎,那我们选择谁呢?选择这个镜像,选择这个镜像, 选择镜像之后呢,他就告诉我们这个安全声明,然后呢他呢是有一个仓库地址,这个这个仓库地址其实就是就是这个这个仓库的一个一个版本 中的一个版本,然后他有个底膜地址,底膜就是一个基础的模型的地址,然后他就会有这么一个镜像文件,哎,那什么是镜像文件呢?镜像文件就是就是他会装一个类似于 linux 的系统,然后把这个相关的环境都装好, 然后你就不用去呃设置,比如说你是用 gpu 啊还是用 cpu 啊?你的那个拍 touch 是 gpu 版的还是拍 c 这个 cpu 版的?不用,这他都给你设置好了。然后呢我们就可以在 otodl 就是自动呃深度学习里面去创建这个容器。然后呢你需要租用一个就是 gpu 的机器,就是一个帮助文件,这个帮助文件,那这个呢就是他的流程,流程的方法。那么 那么呃他做了一个什么事呢?首先他把这个 souit 这个这个仓库放到了 otodl 的 tempo 里面,所谓的叹号呢就是执行。然后是一个外部命令,就是你这些东西都可以 在一个终端里去自己做这些东西啊,比如说我们可以 l s 啊,所以为什么我们要学习 them, 学习 python, 学习 linux, 这都是 这是一个根本环境,这个是个根本环境,然后一路一路下一步,这个就是,呃,我们可以看得清楚一点,我呢是下了三个视频文件, 这视视频文件呢就是 oez 的电路教程,电路教程有一个特点,就是它的那个 bgm 音量比较小,不像不像 ps 那些音量特别大,所以它相对来说就是比较容易得到人的干声。 然后呢用 f f m p g 去得到这个纯音频,然后下了一个 aud audio slicer audio 就是音频 slicer 呢是切片, 他就是把音频切片了,因为他有一个要求,他的要求就是就是要把这个音频呢切的比较小角色的名字,然后把他们都放进来了,放进来之后呢就放这么一个文件的位置, 然后呢我们就可以对这个数据集进行预处理,预处理,然后就就就这么运行这些东西,这么运行这些东西,这个东西就是这个训练过程,当你当你执行这条之后呢,他就会 靠啊一直执行,一一直执行,然后就开始训练,最终呢你生成了模型之后就需要推理,然后你要在这,哎,我就把这个这个终端呢就把它停了,停了之后呢就可以再开一个终端, 然后去运行这么一句话,运行这么一句话就是用拍子三去运行这个这个 py 文件,然后呢我们嗯使用的是这个模型,然后呢我们使用的是这个配置,然后我们使用的是这个 这个名字,对吧?然后他的这个原始音频呢,在这我要把他这个原始音频呢上传到这个若若 弱里面,把这个东西上传到弱里面,然后就根据这个东西和模型最终生成一个你这个模型的这种这种唱歌的声音, 红尘多可笑,痴情最无量啊。我看到一些类似的作品,有还原这个马三立大师,还有刘宝瑞大师就都挺有 意思了,哎,那这次呢我们就分享到这里,我在这个领域呢,还是一个,呃,入门入门者,刚刚刚刚有一点点了解,有不懂的呢,大家多指教。有什么好玩的呢?也希望大家跟我多分享,哎,然后 也希望大家能有机会去看看这个我在这个蓝桥上放的这个 python, 那 linux 和 wem 之类的教程。好,这次就这样,谢谢大家,再见。

今天给大家带来一款安卓手机下语音合成软件,只需登录后即可免费使用。相信大家对这些声音都没见过雪,却要参加冬奥会的雪橇比赛, 村上春树曾说,每个人都有属于,这是我心中最好的逆袭电影林荒大吼出声,即便十年挣扎,他也从未敢。夏天的风暖暖的,周园瞪大眼睛的看向周围。 使用方法也很简单,首先登录,接着选择主播,输入文字,点击合成 试听一下。语音合成助手是一款文字转语音软件,可以将文字转换为 mp 三声音文件,可用来制作超市电导出音频文件,可以选择导出 mp 三或者 mp 四,点击下载到手机会告诉你导出的位置, 然后我们打开文件管理器查看一下。语音合成助手是一款文字转播放正常,可以将文字转换为 mp 三声音文件。

只要录一段你自己的声音,就可以生成你的专属语音包,以后做视频需要配音啊,就直接用这个语音包,原创度变高了,也更容易上热门。最关键的呀,这个工具目前还是免费的,操作也很简单,手机就能搞定。点个赞,我给大家演示 一下具体是怎么玩的。来,我们现在手机打开这个工具,点击声音复刻,再点下边这个定制语音包,他会先检测你的环境噪音,符合条件点开始录制,按照要求呢,咬字清晰的一段一段读出来这个小故事完事,等一会,系统就会生成一个你的专属语音包,音色非常接近你的真实声音, 不管你以后是做中视频还是电影解说类的视频,都可以直接用。这个是操作最简单的一个方法。如果你要追求目前最前沿的 ai 声音克隆技术,那你就得直接用这个 mockingboard 这个工具啊,需要你有编程基础,通过建立声音模型,对 ai 多次训练, 据说还原度可以达到百分之九十九,非常恐怖。我找来了这个作者本人的知乎,上面有提高效果的实用小技巧,也有实操大佬准备的全套资料,回复声音这两个字到主页粉丝群来拿就行了。

是跟大家去讲一讲这个 bbox b 区里面,它这个功能非常强大,然后你可以把它变成一个 server 远程调用,然后你可以在其他的这样的一些 项目里面去调用他的这 a p i, 这个的 a p i rest for 的 a p i 的话,具备这种各种各样的语音的处理的能力,还有五种能力。废纸的话呢,它是百度开源的这样一个 oenwin 的这样的一个语音的这样的一个工具箱里面有很多种的国际比较先进的一些语音的算法和一些预训练的模型,你可以在这个 工具箱里面你可以去处理各种各样的语音的任务,这个是在语音里面一个两个比较重要的任务,语音识别,语音合成,语音的翻译,语音的分类,还有一些呢就是生文的识别, 包括的话呢一些语音的一些编辑,比如说像我经常跟大家沟通的时候可能会讲错一些东西,那么它其实是可以在你讲错的章这个过程当中,可以把 这一段文字讲错的,直接把他给编辑掉,或者把他删除掉他这这个叫语音的编辑的这些工具,那么这些语音的工具都可以通过百度开源的这个那叫 purpose b 区来实现。那么今天我主要是跟大家讲这样的一个 server 啊,是 bubble speed 区,部署在服务器端,然后你可以进行私有化的部署, 然后呢大家就不需要去买那啊收费的,因为他本身是开源的,你只要有一个福气,你就可以把这些语音相关的这些各种各样的多功能的这样的一个 siver 部署在一个福气上面,然后你就下去调用啊,你通过小程序啊, app 啊,通过你的那个 webserv 啊,去调用一些应用,那么他就可以能实现各种各样的这些语音的功能,他等于是这样。 那么 bubbles b 区的话呢?它也是在国际上,也是在二零二二年也获得了一个非常重要的一个奖项,它这个奖项它主要是 easy to use all all in。 问的这个 speech to kit, 说他这个相对来讲还是比较功能强大,而且他比较容易用,他等于是这样,那么他也获得了最佳的,国际上有一个叫 naa cl, 二零二二年的这样的一个最佳的一个 demo 奖,他等于是这样。 所以我今天就跟大家讲这部分好,开场有点长,那么 bobos 必须的安装的话呢?它主要是基于 python, 呃,这个用户帮助的一个文档,你按照这个来装就可以了, 我自己在装的过程当中,我们我自己建议你们如果要用就建议安装是 bobos 必须的原原代码进行安装,你就不用去安装他的那个已经编译好的,因为编译好你有, 你有些功能就没有了,因为我们今天要演示的是 bubble speech 的一个 server 的这个功能就没有了,它的意思是这样,所以你还是要把安装啊元代码安装的,你要在 kit up 上面把这个 bubble speech 的这样的一个原码下载下来,用 get clone 这样一个 命令下载下来之后的话呢,然后你就到这个目录里面去,你就打 p i p in store 点杠 i, 然后有一个依赖的这样一个清华的这样一个库,然后你就可以把它给安装起来了,然后安装完了之后的话,你可能还要注意,因为他在他会用一些,我看到他还有三个内裤也是比较重要的,我也是 用的,使用过程当中已发现了一些问题,所以你要你还是要再安装,有一个叫 p r a a t i o 等于 五点零点零,还有一个呢叫 librrosa, 等于零点八点一。呃,这个两个文件是比较重要,这个两个内裤是比较重要,因为它最新的内裤的话呢,跟我们要安装使用的这个 bubble speech server 它是不兼容的啊。 好,那完了之后的话呢,然后你去验证一下啊,你可以啊,这个我不用讲了啊,他有一个命令,你只要在这个里面打呀,这样就可以了,我们主要是验证第一部分呢,主要是 验证他的语音识别啊,你只要把这个命令打一下,你就可以验证。第二个就是验证他的语音的这个合成。那么今天我们重点再来讲一下,因为如果你要去远程去调用语音的一些服务,最好要有一个 server 的功能,那么这个里面包包 speech 里面呢?它有一个叫 speech server, 然后这个目录下面,在你的 bubble speech 安装的这个目录下有个 demos speech server 啊,目录下它有个启动脚本叫 server 点 s h, 然后你启动起来之后, 那么它会有一个,它会生成一个 log server 点 log 的这样一个文件,它会把相应的日志都输出在这个 log 文件里面,你就可以 server 就可以跑起来了。那么跑起来之后呢,我们再来看一下它的,它有一个 server 的这样的有一个配置文件,在这个 speech server 杠 configure application 点 y a m l 的这样一个文件里面,这个文件是比较重要的,它是你这个 server 到底起了哪些 服务,起的哪些功能,它是都是定义在这个 config 这个文件里面的。第一个要讲的话呢,这个 server 企的这样一个 ip 地址和端口,它默认端口的是用的是八零九零这个端口,它是基于这个 http 的协议, 它也有一个 engine list, 它这个里面就是起了这个 server, 它到底起了多少的语音的服务,它这个里面它会定义的只是说 e s r, 那么它就是一个语音识别的功能,只是说它有个叫 t t s 杠拍审,那么他就是起了一个 tts 的杠拍审的这样的一个服务。那么还有叫 c l s c l s 的话呢,它主要是做你的声音分类的,它可以去区分出你上传一段声音,在你的这个声音库里面,他会去对比哪个声音跟你比较接近,他主要做这样一件事情, 它叫 c l s 服 c l s 杠 passion, 那么它还有一个呢叫 tax 杠 pass 的符,这个符呢它主要是 text 杠 pass 呢,它主要是做一个。呃,在你的一句句子当中 你可能给的很长,然后他主要是做那个帮你去恢复这个标点符号的,就是帮你这个语句更加通顺,是输入一些,增加一些标点符号。对,他这个功能是要做这个断句,做标点符号恢复的这个功功能。 victor 杠拍摄的话呢,就是主要是做声音真文向量的提取,像我们有些 要克隆一个人声音,你就要做一个,你要把这个音频里面的人的这个声音的这个声文,要把它给提取出来,包括你要去比较这两段声音是否是一样的,红样的,你也要去提取这个声文的这个项链,他等于是这样,他这个也是提供了这样的一些服务。好好, 那么我们再来看看啊,我们怎么来调用这个 bubbles beach server 的这些接口?它是有一个文档的,它因为也是基于这个 rest for 的这个 a p i, 那么它这个调用如果我们工程师都会比较清楚啊,都是基于这个 application 这个 jason 的这种格式,那么它 也有这种请求和返回,那么如果你请求成功,他这个扣的就返回是两百,失败的话呢,那么他会返回一些。呃,起什么?四百啊,他这个请求参数不正,四零零四啊,就是网址不正确,五百啊,这是 server。 那有错误啊,他等等等啊,他会返回这些啊,然后呢这些 result 就是结这个结果里面的话呢,他会一一些你要返回的一些参数啊,他是在这样啊。先来讲一个例子啊,语音识别他是怎么用的? 嗯,它这个参数主要是要 get url 这个 public speech, 它这个叫 a s r 啊, a s r 的话主要是语音识别, 然后它的请求参数是什么呢? audio mat 啊。呃呃,也可以是一个呃 p 神键格式,然后呢,这个是央绿,呃,取样绿的话呢,它有两个值,可以选八千六零零,一般用幺六零零会比较多。嗯,所以我们一般如果它的这个就 高了,他应该是二十二,是两万,两万,两千四百,嗯,他的那个赫兹,他这个是采样率,所以的级别的话,他会报错的,所以你要把它画成这个一万六千的这样的一个采样率,然后你再输入进去啊,那么你也要标注一下他到底是中文还是到底是英, 然后这个是否开启这样一个天成一个功能的默默认参数是关闭的啊?那么我们看看他大概是怎么调啊?首先我们先定一个这样的一个 bubble c 区 request 请求这样一个函数啊,一个 u r l, 然后返回,就是返回 ison 的这样的一个格,那么我们这请求函数里面呢,我们先把这六十四的这样码的一个声音把它输入进去,然后它的格式是 will, 然后他的请求参数是幺六零零的采样率,然后是个中文啊,你输入进去请求调这个函数之后,他马上唱了,他就会回来这样的一个,呃,这个把这个语音就自动的变成中文了的话呢 啊,这个就是语音的识别啊,他这个那么语音合成的话呢,他其实也是要的这个 u i a s 后 u i 叫 t t s, 那么他调的一些参数有些不一样啊,第一个是 tax, 就是代代合成的文本 speak d, 就是这个发这个啊,默认的话可以用零啊。然后的话呢,这个里面的话呢,因为你用同的,呃,这个你用不同的模型, 呃,模型训练出来的这样的一个数据集,可能也会有不同的这个 speak id 的它这个里面,嗯,当然这个也可以查文档啊。 另外一个的话呢, s 的呢,他也是就是合成音频的这样的一个速度语速啊,他也是可以的,包括你这个音量他都可以控制啊,然后包括你要返回人的这个采样率,一般呢?是一样啊,用幺六零零啊,六千啊, 采样率,你也这个合成的一这样的一个文件存在本地有一个 save pass 啊,你可以呃确它的意思啊,这是个例子啊,这个样例啊,我这里面也讲了, 参数启动跑,他就会返回这样的一个支付,返回了之后我就可以让让他运行他等于是这样语音合成这部分好,那么 boost speech server 呢,他也能支持,就是这语音合成,就是你去不断的会产生 呃,就是各样的这个文字,然后要让他能够产生连续不断的声音,他也是能够支持的,那你就不断的给他文字的话呢,他能够这个是的,这个音频音频流,他等于是啊,那么他这个参数啊,叫 t t s 杠冰冰啊,他这个,然后你要输入的是 tax 带合成的文本,然后 speak i 啊, 也是类似的,我就不详细讲了啊,声音费,他只是说他这个接口的参数不太。呃,就是不太一样,他用的是 c l c l s, 然后他的输入输出不太一样,但基本上他其他都是一样的啊,非常强啊,只输入两段声音,然后你去啊,这两段声音是不是同一个人? 他的相似度有百分之多少?那主要做这个 text 标点符号的恢复,他也是一样的,你可以给他一段文本,你让他这个肯定是不带标点符号的,让你让他返回一个带标点符号的这样的一个文本,他也会帮你来处理。这个一般的话呢,是在语音合成之前,他可能要去 自动的加一些标点符号,那么这个时候可能他会用这个会比较多啊。接下来的话呢,讲了再稍微再深一点,因为 语音的现在的识别值越来越准了。原来我也是介绍过用这个 whisper, 这个用 whisper 就是 open ai 开源的 whisper 引擎,可以做九九十六种语言, 它都可以去帮你去识别出来,这个能力是非常强的。那么在 bubbles beach server 当中,它也能够集成 whisper open ai 的这个 whisper 的这个功能它也是可以集成进来,那么这个不是重点,重点呢,我们主要是讲在中文当中最难 还是 tts 文字合成声音相对来讲会比较难。百度在这个方面确实是做的全球是在中文方面确实是领先的,这个是不容置疑的,这个还是很领先,因为我上次也是跟大家介绍过,因为中文的话呢,它跟英文 在发音、语调停顿方面还是有差异的,它等于是这样。所以百度是在这个返程声音这个方面,它还是有很多的自己的这个技术的积累啊,现在呢也把它给开源出来,在 bobos 必须的这个 d s 的这样的一个功能里面,它就把它集成进来了啊,所以你可以看到如果我们用 t t s 杠 python 这样的一个东西,它有能够支持很多的模型,主要部分一部分的话呢,我这个有兴趣的话呢,可以去啊,我之前 bboxsb 区里面过的啊,这样的一个一个一个原理,你要把 t t s 要转化成声音,它要会经过三个阶段,特别是中文,第一个就是要把中文要做一些规 则的优化,再输入到一个叫声声光的这样的一个模型里面去,这个是主干模型,进去之后再要再再要进一个叫 v 扣的的这样的一个模型里面去。这个两个其实都是深度学习的模型。前面第一个模型它主要是一个规则, 那么经过这三个模型之后,这个中文就可以非常好地转化成这个声音了。它是这样,在这个 bubble speech server 当中呢,它会支持非常多的这种模型,你可以看到它有叫 speed speech, 这个模型后面杠 c s m s c, 这个是什么呢?这个是一个数据集, 它有一个叫 fast speech。 二、这个其实是一个核心的一个开源的一个骨干的这个模型,这个是基于这个 transform 的这样的一个模型来做的啊, c s m s c 的话呢,它比较适合做中文。然后呢还有一个叫 l j s speech, 这个的话呢是一个也是一个, 就是数据集,他呢主要是讲英文会比较多一些。还有一个数据集叫 as a, i s, h, e, e, l l 三,这个的话呢也是中文。还有一个叫 v c t k, 这个也是英文的一个数据集,当然他们也有一个叫 mix mix, 他会把这样的数据集混合在一起,所以他可以支持中文,也可以支持英文,这个就会比较强。这个 fast speech to gun mix 啊,这个这个两个目前已经用的非常少了。这个两个的话呢,它主要是我之前也是讲过的,它的这个模型不太容易能够等于是这样啊,不稳定,这个这个叫 t a c o t r o n 二这个模型啊,录剧集啊, 那么 we code 的话呢,它的选择也是非常多的。 we code 啊,我说的这个叫做,呃 panor we gan, 对吧?啊,这个这个后面也是一样的数据集,这个是这个用的是比较多的。还有一个是这个叫 fif i f i gain high five gain, 这个用的也是比较多的。这个就是 t t s 的这个参数的配置啊。这个因为是在你的 a p i 里面是不能,就是你的 a p i 里面是不能设置的,你只能是在他的那个叫 application 点 y a m l 里面去配置配置。你的这个你所使用的模型, 这个因为你所使用的模型的不一样,对你的声音的音质是不一样的,包括它这个你用不同的这个模型和数据级, 它里面有一个对应的叫 speak id 是谁发声的也是不一样的。好,最后我就给大家再来看一下它这个 above speed 区里边因为有各种各样的模型,所以的话呢,它也已经把它训练好了。 他这个叫预训练模型,他有一个下载资源,一个文件,如果大家需要用要配置的,要要提前去下载这个东西。他有各种各样的,就像我前面讲的有五种功能,他这个也有 speech to text, 就是 asr 的这功能,就是语音识别的这些预训 训练模型。还有个是 text to speech 的,就是我前面讲的他有两个模型,大模型,对吧?这个是骨干模型,这个是 mecoder 的模型,这个我就不重复讲。还有一些你像有些声音克隆,我原来也是讲过的声音克隆,他这个模型叫 e s two。 什么声音克隆?这个 播播 spb 区里面也有 mocking birds。 我原来也是介绍过一个开源的项目啊。其实百度实现的这个克隆的这个能力和这最后呈现出来这个效果要比那个模型要比那些开源的项目要更好一些。我自己也听过啊,确实要更强一些。大家 还有个前面也是讲了什么 audio 的这个分类啊, speak 的英文的鉴别啊等这些模型都可以下载啊。好,今天的话呢,我就跟大家就交流到这,好吧。