粉丝2631获赞1.5万


上两期视频分享的 tts 语音类生成软件受到了很多朋友的关注,不少粉丝留言和发私信询问此类软件如何安装使用。今天就给大家一个傻瓜式教程,告诉你如何分两步在本地电脑部署另一款热门的语音模型 index tts。 在安装的第一步,也是最重要的一步,请参考我之前的视频。先下载并安装 pinocou 工具,这是可以帮你自动安装部署 github 软件的 ai 神器,安装时候一定注意选择路径为 d 盘或是其他盘符, 避免在安装多个程序后 c 盘空间不足。现在开始第二步,一键自动化安装 index t t s 方法也很简单,进入 pinocou 程序主页, 在首页你已经可以看到很多的 github 热门程序展示。请先选择搜索栏下方的 community scripts, 输入关键词 index tts, 在 搜索结果中选择带 pinocchio 的 脚本, 点击连接后,再次点击黑色的一键安装按钮,软件会弹出一个 get 脚本的下载确认框,点击下载,剩下的工作 pinocchio 会帮你全自动完成。 在设置好虚拟环境的同时,它也会下载程序所需模型文件,无需人工干预,省时省力。如果你的显存小于八 gb, 那 么你也可以选择之前视频介绍的优秀 tts 工具 voxcm, 它的模型体积仅为零点五。 b 程序安装完成后, index tts 会自动启动,可以通过软件的网页客户端进入使用界面。 使用方法也很简单,先在左面选择你需要克隆的语音文件,中间输入要生成的文字脚本,点击生成按钮,程序就会帮你生成对应的语音文件。本次视频的音频文件也是使用了 index t t s r 生成的, 感兴趣的朋友可以对比下前面两期我用 voxcm 配音的视频,告诉我你觉得哪款软件的效果更好。音频生成后,我们来听下效果。风浪越大鱼越贵,这 ai 的 水可比金海的浑水还深几分。 你以为它只是悄悄代码吐点文字的玩意儿?错了!现在多少人挤破头想往里面钻, 有人靠它赚得盆满钵满,有人栽进去连底裤都不剩。怎么样,你对这个生成效果是否满意?欢迎在评论区发表你的意见。 此外,该语音的原始音频来自于谷歌最新发布的 tts 语音模型,下期将为大家介绍如何在没有 gemini pro 版本 license 的 情况下,免费使用谷歌最新发布的 tts 语音模型。欢迎点赞并关注我的后续更新。

朋友们,三秒克隆声音的质量又到了新高度,我可以非常开心,非常愤怒,非常伤心,他还是免费开源的哦,一起来看看吧。 那这个 index tds 呢,是 b 站团队开源的最新的声音模型,应该是目前市面上情感控制最强的声音克隆模型和最强的原声翻译模型。因为之前的模型呢,也许音色可以复刻,但是情感和时长想要保持一致是非常难做的。但是你听它这个, 臣妾要告发熹贵妃私通,会让后宫罪不容诛。 my concubine wants to accuse x's imperial concubine of fornication and filth in the harem, the crime is beyond reproach。 他这个原生原情绪保持的就非常好,时长也都是一致的。所以 b 站开发这个模型非常的合理,因为这是视频平台非常需要的一个功能。 ok, 那 我们自己来用这个模型呢,用起来也很简单,只需要在这里上传你的参考的音频,比如说我们传这一条, 别躲在里面不出声,我知道你在家,那在这里输入我们要让他深层的话。 ok, 我 们点击生成就好了,听一下。吉克洲的朋友们,好啊, 昨天有个年轻人和我说声音克隆又到新高度了,我一看,好家伙,原来是 index tts, 是 那个味儿哈,那比较有特色的是它的情感控制的,它的情感和音色是可以分开控制的,那情感控制呢?分成了四种不同的控制方式, 我们点开它这个显示实验功能就能看到。那我们刚才用的要保持跟参考一样的语气,那他这个保持呢,其实是可以帮你保留参考音频里的这个现场的混响啊,语气啊和口音的。比如说这一条 啊,接下来的讲的这个人呢,我觉得特别有意思哎,听起来他就有口音什么的,那我们让他改成说这句话, 这现在的 ai 声音克隆,哎呀妈呀,连我口音都能克隆了,赶紧整个试试呗。你看他这个语调,语速和口音和这个现场的混响都给你保留了,那这个就是最主要的声音克隆用法,多用于哎原声翻译啊,整活呀。那这里有个复刻的小技巧, 虽然说我们上传几秒钟的参考他就可以复刻,但是你如果上传更长一点的参考,生成的语气会更自然一点。 那其次这个功能最实用的就是原声翻译了,比如说国内做电商的朋友,哎,你想要出海传播中国苹果看陕西,陕西苹果看洛川。朋友们, 我们直接把翻译的文稿贴上去给他翻译。翻译什么叫惊喜,效果非常好啊, chinese apples, look at shanxi and shanxi apples, 这个吆喝的感觉都给你保留了,出海电商的朋友必备神器。所以正如用情感向量控制,因为他这个更好操控,比如我们想要恐惧 一点还是惊喜一点,情感的浓烈程度是几分?我们直接在下面这样拉分子就好了啊,我们来一个又愤怒又哀伤吧。呃,情感给他都拉满, 为什么?为什么要这样对我?到底为什么?虽然说他的音配色保持也没有那么好了,但是他的操作简单,情绪也是很有效果的,所以说他就比较适合有声书啊, 隐私啊,或者是广告的配音,这种不需要还原某个名人音色的一些场景。好了,又收获一个新利器,有问题可以再问我,我们下期见。

先试听一下这个声音克隆的效果,红楼梦告诉你上流社会有多渣,金庭梅告诉你中层社会有多烂,水浒传告诉你兄弟义气有多假,西游记告诉你,就算你有天大的本事,照样走后门拉关系怎么样? 很棒吧!重点来了,这些全是免费的,这是 b 站开源的 index tts 二,直接碾压市面所有付费工具。 ai 配音这行有个特点,开源免费的比收费的还要好用。 花钱买声音克隆工具是在交智商税,为什么?因为顶尖算法都在开源社区,商业软件只会包装收割使用超级简单。看好了,一句话,三秒 克隆任何人手拖个音频进去,输入文字,点击合成按钮搞定。想要更细腻的效果,这里还可以调整情绪、语调等细节。使用 index tts 二有三种方案,第一种在 hugging face 免费试用,但每天字数限制严格,需要不断切换 ip。 第二种 整合包,本地部署,但是对 gpu 硬件要求太高,普通电脑根本跑不动。第三种也是我最推荐的 用 google collab 白嫖专业的 gpu, 别人花几百块买的劣质效果。我用 collab 免费获得顶级方案,每天四小时免费额度,多注册几个谷歌账号,轮流切换,相当于无限白嫖。 collab 直接给你 test 了专业级显卡,几分钟就能部署完成, 能用开源工具降维打击的事,决不给资本交保护费。站内搜索关键词就能获取 collab 一 键部署链接,复制链接粘贴,跟着帖子中的教程操作就行,点个关注不迷路。我是阿杰,我们有缘再见,拜拜。

今天分享一个语音合成的工具啊, index tts, 它的上一个版本就已经很强了,然后这个二代版本呢,就比一代版本呢更进一步啊,增加了一些新的功能啊。 我们这里先把这个压缩包进行一个解压缩啊,注意一下它的这个文件目录啊,它没有一个外包的一个文件夹啊,所以我们在解压之前最好自己先创建一个文件夹啊, 并且我们的整个的解压路径啊,都最好不要有中文啊,像这样啊,打个比方,我在 d 盘的根目录我创建了一个文件夹叫 index t t s r 啊,我就把这个文件夹作为我解压的这个目标文件夹解压到这个地方。 好,然后我们可以把这个启动器呢,把它创建一个快捷方式啊,然后我们来启动一下。 有的时候啊,如果你发现这个系统窗口长期没有任何反应的话,你可以尝试按一下空格键啊, 好,然后等它这个地方跑完的话,它会自动弹出一个浏览器的界面啊,它会采用你的默认浏览器打开我们这个网址,你也可以把这个网址把它复制到其他浏览器打开,这个是一样的啊,没有什么区别。 我们这里可以上传一个参考音频啊,就是我们的目标音频啊,我随便选一个吧,然后给大家写段文本, 然后点生成。好,我们来听听看。今天天气不错,我想出去走走, 这个是他的原版,这个音频我们听原版,一进门看到我就急着要我嫁给他,然后我们还可以选择使用这个情感参考音频,就是我们可以给他一种情绪音频作为他的参考样本,像第一个啊,就是 高兴啊,第二个是惊讶、恐惧、失落,最后一个是啊,一个混合的啊,我们先随便选一个啊,比如说开心的, 然后我们再来点设置,今天天气不错,我想出去走走啊,它的整体情绪的话就会更加上扬一点,你也可以通过这个向量调节,就是一个数值去控制它的一个整体的一个情绪值。 我这个随便啊,随便给多抓一下啊,情感向量值和不能超过一点五啊,他有这个他这个要求啊, 要不然的话就太混乱了,是吧? 今天天气不错,我想出去走走,最后你还可以用这个情感描述来控制他的情感, 比如说我们这里写这个极度难过啊,今天天气不错,我想出去走走。 好,下面这里还有些参数设置,不过一般来说我们没有什么好改的,唯一要说的就这个,我们可以通过这个数字来调节我们的语音的情感的一个系数啊,这个系数越大,那我们的整个情感他可能就越生动,但是也就越不稳定啊。 然后这里还有个选项啊,叫情感随机彩样啊,就是我们每次生成的时候呢,它的这个情感呢,它是一个随机的啊。