粉丝846获赞1.3万

终于等到了一个让我略为满意的语音克隆项目。这个项目对输入素材的要求很低,随便一个十几秒的语音就可以,而且推理速度很快,这个应该是我目前使用过的速度最快的, 因为这个优势,所以不用保存,训练好的模型根本没必要,这也是我决定把它做成整合包的原因。拿到压缩包之后,先解压,双击名为启动的 p 处理文件,然后把控制台窗口中的本地链接在浏览器中打开,在这里输入你想要生成的文字, 不要低于两个字符,同时不要超过两百个字符,否则会报错。这里上传带克隆的语音,在下面是说话风格,中文只支持默认英文,可以从八种风格里面任意选一个,最后点击生成即可。十秒不到应该就生成好了, 可以听一下,效果还算可以。 he hoped there would be stu for dinner turnips and carrots and bruised potatoes and fat mutton pieces to be ladled out and thick peppered floor fat and sauce。 以上就是原项目的所有功能,他的原理是先调用基础的 tts 模型生成语音,然后再进行音色音调转换。原生基础 tts 模型生成中文语音的效果并不是特别好,而且只支持默认风格。所有在这一步可以换成微软的 tts, 可以自由选择说话风格,语音效果也更加自然好。本期视频就到这里,关注我,后续还会分享更多 ai 实用工具,抖音粉丝群内有工具获取方式。

大家好,今天给大家介绍一个新的中文声音克隆项目,之前视频中有给大家介绍过声音克隆的项目, 克隆语言技术的开源项目主要有以下几个,五个开发的 open 半生,微软开发的 followee, 有拼音号开发的 os, 他都排队开发的 tn is colony。 声音克隆技术具有广泛的应用前景,他可以用于虚拟主播、有声读物语音合成。 之前介绍的克隆声音项目都是英语体系下训练出的模型,中文在此基础上出力,难免会有一股不自然的翻译腔。今天给大家介绍的是一个中文声音克隆项目, 这个项目只需一分钟的训练数据,就能让模型学习模仿声音,而且质量很高。另外这个项目的作者已经将这个项目整理为一个一键运行项目包,所以不用 不用担心安装的问题。现在我们下载这个项目,下载解压后双击 go a b c 大运行项目。首先让我们探讨人声和伴奏分离功能,这个功能用于去除音频中的背景音乐, its solves 已经将八分五整合到项目中, 当然你也可以用独立的 f 五来做去除背景音的工作。刚才的两段声音呢,是我用这个工具克隆的。董宇辉和陈小青的声音感觉怎么样呢?我觉得是非常棒,特别是陈小青说话的那个语气都有, 而且这个工具操作特别简单,训练速度也特别快。那我接下来继续给大家演示。接下来我们看到语音切分工具,如果我们的声音素材比较长,比如说一分钟,我们就需要用这个工具将音频 分成一句一句的,在第一个框里边,我们输入音频的路径,我的音频素材放在这个文件夹里,所以我这样复制他的路径, 然后输出的路径呢保持默认就可以,这样其他参数可以不用调,然后直接点击开启语音切割就可以,这里会有一个切割的进度, 后台会显示相应的信息,我们也可以在我们的这个输出文件夹,在在这个项目的 output 这个下边的 slinger, 这个可以看到已经有输出了,我们再回到这个页面看,这已经显示切割结束。接下来我们进行语音识别, 将文件输入文件夹路径改为我们刚刚切割的文件的这个路径,把这个路径地址复制到这个位置,然后点击可以看到后台已经开始运行, 等待进程运行结束以后,在 alt put 的 a s r alt 的这个输入目录会会输出一个文件, 这个文件里边包含了我们音频识别出来的文字信息,可以看到这显示 asr 任务完成, 我们看到我们的这个输出文件夹,刷新一下看,那我们接下来是文本校对标标注工具,这个是对我们刚才的这个识别进行一个检查的工作,我们可以把这个文件的路径复制过来, 加一个反,把这个文件拧复制过去,这样然后再点击这边的是否开启标准 ybui, 点击勾选这里,他就会新弹出一个窗口, 如果长时间没有动作的话,我们可以刷新一下,然后我们重新把我们刚才的这个路径复制到这里, 我们再次勾选这个收腹打开标准外不由外,打开以后可以看到是这样的一个页面,已经把我们的那个拆分的话给切断,然后显示出来。 在这个工具里我们可以教验刚刚识别的音频文字是否准确,我们可以听一些,我去这家餐厅还要要点什么,还有哪些菜,这个得扣几天,嗯,如果 他上来就找腮帮子的时候,鱼头第一筷子就是就是这个月牙肉啊。嗯,对于这些有杂音的或者是特别短的 这些,可以点击后边的 yes, 上面有一个 delete audio 的这个按钮,直接就可以删掉,这里最多存储的是十条,我们刚才删掉的两条,它会自动再上来补充两条, 所以我们可以接着检查问题,就是说,呃,我们这中这个, 呃,中餐这个独步天下差也比西餐高明这么多,对啊,就是所有人会有会有这种误解,不知道高到哪里去了,对吧?对于这种有杂音的,这个我也删掉它, 那我们就这样就不继续了。检查完了以后,点击这个 self feel 保存文件按钮,点击保存就可以,点击以后我们刚才 的这个文件就会有有所更新,有更新的可以看到这个时间点。完成教验音频操作以后呢,我们返回 gpd sos 的主界面,进入第二个环节,在这里我们输入模型的名字,我们可以命名一下, 这里呢我们是需要把刚才的这个文件夹的名字放到这的这个位置,这里呢是放我们的切割的文件 素材的这个文件夹复制,把这个路径复制到这也就是这里。这个 页面呢,需要这三个带星号的这三个地方填写了就可以,其他都可以保持默认,然后我们点击这个开启一键三连,现在就开始训练格式化的一个模型 程序英雄过程中呢,会在这个项目的 log 这个文件夹下会给创建一个文件夹,就是刚才我们的呃模型名,以模型名为名创建的这个文件夹,会在这个文件夹里边创建一系列的文件, 这一系列的文件是以二三四五六开头的文件,这里显示一键三连进程结束,就说明我们的这个这这一步已经完成。然后接下来进入下一步对模型进行微调, 上面的信息呢是系统自动给匹配过来的,然后我们可以我们直接点击这个开开始训练,可以看到 log 文件夹下又新生成了一些文件, 现在这里显示训练完成,我们就可以点击开启 gpt 训练,在训练完成以后我们进入第三个环节推理 在这呢,这些也是系统自动给传过来的这个模型名称,然后我们看下边 选择模型,我们选择这个啊,点击这刷新模型路径,点击后他会把加载新的进来,可以看到已经有了,我们选择这个有三个吗?我选 选择这个数字最大的,就是最新的一个最终训练的一个模型,然后这边也是这个窗口,以后可以看到这个模型也是刚才我们选择的,在这呢我们需要上传一个我们刚才切割的呃分段的语音素材,点击这里, 然后我们随机选一个希望选一个短一点的,然后我们播放一下才会有好的美食,把听到的声音的文字输入到参考音频的文本, 才会有好的美食。嗯,对,而且你我们都太,你从,嗯,中国来 说,北方人太随和了,太不挑剔了,太宽容了。有了这个以后呢,我们这就可以输入,我们的要想点击这里合成就会输出,但是下边会有一个切分的方式, 不签呢,他就正常的输出,然后我通常是选择按这个标点符号,他会更有节奏一点,我是这样认为,然后点击合成, 可以看到这里显示了一个错误哦,可以看到这是需要三到十秒的一个视频,因为我这上传了一个十一秒的,所以这里是不行的,那我们重新替换一个,这个可以,这个是六秒的,然后我们再把这删掉,这个 他家里不倾家荡产,他他肯定走。那我们再点击课程语音下边的这个内容呢,是如果我们的 云文本特别长的话,我们可以提前在这先切分,然后逐段的来输出,这样的效果会更好一些,如果特别长的话,反而效果会差一些, 这这已经生成,然后我们播放听一下,我们这里就输入响心合成的内容。文本切分工具,所以太长,建议先寝合成,会根据文本的换行分开合成,再拼起来。 怎么样?太神奇,太厉害了,太佩服了。呃,这,这就是这个工具的使用方法,这个工具呢,它其实特别简单,首先第一步呢,它是对 我们的音频素材做一些,呃,整理,然后第二步呢,在这我们输入这个模型的名字,输入这个文本的地址链链接, 这这两个文件夹就可以逐行的,这样一键三连就可以开始训练,然后到第二步就是训练这个微调这个模型,然后接下来我们就可以使用了,非常简单。 那这就是今天给大家介绍的内容,如果我的内容对你有帮助,欢迎大家订阅点赞评论,如果有任何问题可以在评论区留言,我会及时反馈,谢谢大家。