粉丝2.0万获赞6.6万

哈喽,大家好,现在这一段声音是大家平时听到我原本的声音,这一段声音呢,是我用朋友的声音炼制的声音模型,接下来这一段呢,是我家楼下大爷的音色,接下来这一段呢,是我用自己的声音推理出来的歌曲。 没错,今天我们来分享一个关于训练声音模型的技术。其实训练声音的模型很早就已经接触了,但是一直没有准备做教程来分享,因为呃声音的训练和推理就像是这个二维码一样,都是比较敏感,容易在很多诈骗的场景被使用我所以我基本一直是自己来自娱 自乐一下。但是呢,前几天做了一件事,让我感觉这项技术其实可以拿来做很多非常有意义的事,比如说把家里人的声音训练成声音模型,或者是把照片训练成 sd 的模型。在一些非常遗憾,人力不可抗拒的情况下,这样的赛博飞升其实真的是非常有意义的。所以今天准备跟大家分享这个呃 有趣的技术吧。我们接下来进入正题,开始训练之前呢,首先要跟大家讲一下,这个软件其实还是利用 gpu 来训练的,所以对显卡有一定的要求,经过我的测试,应该是二零系的显卡基本都没问题了。 当然我们的显存尽量要大一点,最低最低最低应该是要六 g 甚至六 g, 我估计可能是训练不了模型,但是你可以用已有的模型来推理,保险一点的配置应该是八 g 的显存。首先呢,我们需要下载这个软件,软件的名字叫做 rvc, 这也是一个大佬基于这个技术原理来集成的一个这种 ui 界面,类似于 s d 的 y, 大家如果想去了解更多的这个使用知识,可以去 b 站去关注一下这位大佬,这个软件呢我也放在了链接当中,大家可以自行去下载, 下载完之后呢,我们把它解压出来,解压了之后我们打开下面这个 r v c, 在里面呢,我们找到有一个勾 v 点 b a t, 我们双击打开这个,这样的话我们就到了 ui 界面,这个 ui 界面里面呢,我们其实只要用 其中的两个功能。首先第一部分先教大家如何来训练我们的声音模型。首先需要准备素材,这个素材集呢,根据我的经验,我们需要准备至少 十到十五分钟的纯人生的素材,这个声音的质量是越高越好,而且不要有杂音,不要有混响。如果你没有专业的录制设备,其实我们现在的手机录音在一个安静的环境下就可以做得到。然后素材量呢,理论上是越多越好,但是一定是要在保证质量的前提下,呃,然后素材要注意的第二个点就是,如果我们训练出来的模型是想让他更多的用语说 话,那这个时候我们尽量就录制正常来说话沟通的这个声音。如果我们是想用来推理歌曲,想用来唱歌,那我们尽量素材就是我自己清唱的声音,不用担心唱的不好或者跑调,因为他最终训练的是我们的音色,但是尽量的要覆盖到高中低音,如果你的唱歌的声音里面全部都是低音, 或者你用纯说话的声音推理歌曲,他就会产生一些这种电子音或者是一些哑音的情况。当我们准备好了这个素材之后,接下来我们进入到这个 web ui 的训练界面里面。首先第一个部分,我们要给这个训练的模型起一个名字,然后呢这里的目标采样率我建议大家就保持默认,然后呢模型是否带有高音指导, 我们也是让他默认保持打开的状态。然后接下来版本,这里啊建议大家都是选择 v 一,因为 v 二目前不是特别稳定。然后最后这里呢就是除了在使用 gpu 处理的情况下, cpu 也可以辅助我们完成这个数据的处理,这个地方我们尽量给他拉满了,相对处理的会更快一些。第二步 这里我们要选择训练的文件夹路径,也就是说我们要把准备训练的声音素材,这个素材可以是一整段的,也可以是多段的,我们把它放到一个文件夹,然后呢复制这个文件夹的路径,然后粘贴到这里。然后第二步的其他所有的部分全部都是保持默认。接下来呢直接进入到第三个步骤,来填写一下他的训练设置。 首先我们先看一下总轮数吧,根据我的测试状态,如果你是有十五到三十分钟的素材,那么我建议这里的训练轮数是二百轮或者到三百轮,总轮数是二百轮。如果我们是五轮保存一次的话,那最后就会得到四十个模型, 其实没有必要的,所以这里建议我们改成每二十轮保存一次,这样最终我们就会得到十个模型来从中挑选。然后呢这里相当于一个并行处理的数量,这个越高的话处理的就会越快,但是越迟,我们的显存这里的话,它会自动根据我们的显卡来确定,我们保持默认就好。然后这里呢是说我们是否保存最新的一节是一般空间,也就说无论你这里填了多少, 如果你把这个勾选的话,他最后只给你保存最新的这个模型,我们当然是要选择否了,这个部分我们也可以给他选择否,然后最后这里是否在每次保存的时间点将最终小模型保存至这个文件夹。我们这里要选择是因为最终训练完的模型,我们要在这里找到他,接下来其他地方全部保持默认,然后我们点击 一键训练,这个时候我们就看到后台这里已经在处理,包括前台他正在处理数据,这里我们需要耐心做一个等待,做演示,我这里就不训练完了。训练结束之后,我们会看到一个英文单词 successful 的字样,就代表成功了,然后最后在结尾的时候,他会有一个二三三三三三这样结尾。当他整体训练完了之后,我们进入到这个 rvc 的这个根目录下面,然后我们在这个为此这个文件夹当中就可以找到我们训练完的,比如说这个是之前我训练过的,他就会显示,呃每一轮保留的一个模型,这些就都是我们训练好的模型。训练完之后,再当我们打开模型推理的时候,我们在下拉菜单 中就可以找到刚才训练的模型,到这一步我们的训练就结束了,那如果我们正常自己使用,其实在下拉菜单中找到进行下一步的推理就可以了。那如果我们想把训练好的音色分享给别人来使用,在 哪里找的?首先第一个我们需要把这个位词当中这个模型给他复制出来。然后第二个我们还要在这个 logs 里面找到我们刚才训练的这个音色,在这里面呢我们会看到非常多的文件,我们要找到其中的两个,一个是以 n p y 结尾的这个文件,另外一个就是上方的这个音 desk 结尾的这个文件,这三个文件组成了我们完整的模型文件。那第二步我们如何来进行声音的推理呢?首先我们需要把模型放到我们文件夹当中的位置里面, 然后在推理音色这里我们就可以找到刚才放进去的模型。我给大家展示一下,如果我们用这一首歌来做推理的话,首先第一个我们一般下载的歌曲都是带伴奏的,这个时候呢我们就要把伴奏跟人声 进行一个分离,这里呢推荐一个简单的工具,这个软件呢我也会把它放到链接中,他的使用其实非常简单,打开之后呢,我们直接选择他的输出路径,确认输出路径之后呢,我们就把这个想要分离的这个音乐给他 进来,处理完之后,在这个输出目录他就会生成一个文件夹,这个文件夹当中呢 ocas 就是我们的人声,然后上面一长串就是分离出来的伴奏,我们所需要用到的是这个人声,然后这个变调这个部分, 如果我们是男生转男声,或者女生转女生,音调是差不多高的,我们就默认保持为零。那如果原音是男生转为女生模型的音色,相当于他做了一个声调,那这里呢,我们就要填写十二。然后呢,如果是原音是女生,我们要转成男生的音色,那又给他填写负十二。我们这里呢,因为这个原音 是一个男生,我的这个声音也是男生,所以就不用给他做变调。然后这个地方的路径呢,就是我们之前保存那个 indesk, 如果这个模型是别人复制给你的,那我们 就是要把它放到 logs 里面,我们给它新建一个文件夹,然后把这个 indesk 给它放进来。如果是我们自己练的就不需要了,它自动已经就在这里了。然后其他的地方我们都不用去管它,直接点击转换, ok, 这样的话最终在剪辑软件里面把伴奏跟人声合在一起就完成了,学会的话就赶紧去尝试一下吧。