这是最新的云厂商 tts 语音合成的一个价格,我们来看一下,一般主流的都是两块钱一万至付,大概可以连续合成一小时的语音啊输出,那实际对话的话一般在两个三小时左右。 那我们这边找到两款性价比比较高的啊,像腾讯云的精品音色和阿里云的那个千万 tts, 这个价格非常的低,是原来的十分之一啊,精品音色啊,这款我们测试下来效果也非常的好,它总共提供了十四款,音色也非常多啊,阿里的话是七款,那我们来试听一下, 这个是阿里的,我们选择模型的时候选择千万 tds, 那 我们听一下倒立了,是不是太厉害了?好呀,我们要不要用?特别喜欢这种超市,尤其是过年的时候,他们俩攀稳些,可是我觉得他们两个减肥了, 不行,你要请我一顿。好。在来往的书信中我们也无所不谈,新版的空调能效标准于今其实你就像劫持的火车,每熊宝宝哆哆嗦嗦的走着,心里想, 小池塘水清清,小象和小猪洗了个澡。目前我们智能硬件福气已经新增了这几款 音色,大家可以进行一个在线的一个测试,根据自己的实际需求配置到自己的服务器即可啊,包括腾讯的啊,阿里的火山引擎的,可以在线刷入固件体验。好,点赞收藏,谢谢大家。
粉丝7066获赞1.8万

都没人注意到小米最新大模型炸场的时候一起发布了一个语音合成大模型吗?一听就是小爱同学的声音,重点是限时免费,这必须试一试。按官方的案例,听听小爱同学唱歌。原谅我这一。

全网最牛,完全免费本地部署单音色克隆,多人对话克隆!先来看看效果,俺老猪也来说两句, 八戒你个呆子,你刚才听到的这些声音,没有一个是真人录的,而且他们不是任何付费的配音工具生成的,他们全部来自一个开源的语音合成大模型。昆三 完全免费本地部署,一键启动即可使用。它的模型参数非常小,对电脑的配置要求也不高,最低四 gb 显存就可以使用,只需要几秒钟的参考音频,就可以完美的还原你的声音。 更重要的是,这个模型在实际使用的过程中稳定性非常高,不管是语速、情绪还是句子之间的停顿,整体都非常自然, 很少会出现丢字、多字、节奏混乱的情况。它甚至还可以通过 ai 特调定制专属音色, 同时支持多角色对话,对于做内容的小伙伴来说,实用性真的非常高。所以在今天这条视频里,我会手把手的给大家演示如何通过一键安装包把困三部署到本地进行使用。同时我也会把它的一些核心功能, 包括声音克隆、音色保存、一句话定制音色以及多角色对话,全部带大家完整的走一遍。老规矩,本地部署的一键安装包下载链接我已经放在视频下方的说明栏里了, 解压即可使用。嘿,我是九姨,专注于使用 ai 自动变现,如果你想要更加系统的学习 ai 知识和运营经验,也可以加入我的课程。 我把 youtube 从定位、内容制作、发布到变现,整理成了一套系统课程,适合不想盲目试错,想要一步步搭建体系的人,相关链接我也会放在说明栏里,感兴趣的小伙伴可以自行查看。那我们继续直接进入今天的实操部分。 下载完成之后,小伙伴们会得到这样两个压缩包,我们全选所有的压缩文件, 右键解压到当前文件夹。如果有的小伙伴使用的是温系统自带的解压工具,有可能会出现解压不全或者是文件丢失的情况。如果有遇到这样的情况,可以重新用三六零解压试试。 解压完成之后会出现这个文件夹,我们打开文件夹,双击开始,稍微等待一会就会自动跳出外部界面。 接下来我先来带你看看如何克隆声音。我们先点击单人语音合成, 在文本位置可以输入需要转换为声音的文案,这里的文案可以自行选择语言,也可以混合语言,比如既有中文也有英文也是可以的。 下方这里的语言类型可以根据大家的文案语种进行选择,也可以直接保持默认的自动识别。下方是多音字矫正功能, 如果小伙伴们对于发音的准确性要求比较高的话,可以按照视力格式将文字的拼音标注出来。中间这里的模型有两个可选项,模型参数越大效果越好, 但是对于电脑的配置要求也就更高,生成的时间也就会越长。小伙伴们可以根据自己的实际情况进行选择。下方这里可以选择音色列表中的音色, 也可以选择使用参考音频克隆声音。为了方便后续的操作,小伙伴们可以将自己的音色保存下来,方便后续的使用,稍后我还会讲解如何将我们的音色保存下来,以及如何删除不需要的音色。 这里我们先来演示如何使用参考音频克隆声音,将我们准备好的参考音频拖进来,可以先点击下方的音频超分降噪,优化音频的效果。 中国的创世神话版本很多,我们最熟悉的一句就是自从盘古开天地。 在下方的参考音频文本,这里会自动识别音频中的内容,一般情况下识别出来的内容是准确的, 如果有错别字或者没有识别到的地方,小伙伴们也可以手动补充进去右上角的一些参数,保持默认的不变就可以了。这里也可以调整语速, 一般选择为原始速度就可以。下方这里的变形批次小伙伴们可以根据自己的电脑配置进行选择,如果电脑配置不够高或者是老旧显卡的话,设置成一就可以了。点击下方的开始生成, 我这里测试使用的电脑是三零九零二十四 g 显存,按照屏幕中显示的参数配置,生成一分钟的音频大概需要二十多秒,如果换成零点六 b 小 参数,速度大概会提升一点五倍。稍微等待一会音频就生成好了, 我们可以来听一下效果。楚王韩信在受封回到家乡后,送了很多钱财给那位曾在河边舍饭给自己吃的老婆婆,还认命曾让自己忍受胯下之辱的屠户为中尉,称她是一位勇士。 至于流苏过他的亭长,韩信只给了他一点点钱,并谴责他是个意志不坚的人,还是非常稳定的,也没有出现多字和丢字的情况。我们再来换一个参考音频,看看 假不假。白玉为唐金做马,按照同样的操作,稍微等待一会就生成好了。效果是这样的, 公元前一百九十七年,也就是汉高祖十年,陈熹造反的消息传进汉宫,刘邦决定亲自出马镇压,他打算让韩信随自己出征,韩信推脱身体抱样,刘邦也不勉强。 那刚才我们使用的是参考音频克隆声音的,如果我们想将这个音色保存下来,应该怎么操作呢?可以在音色名称这里输入一个音色的名称,点击保存音色模型就可以了。 我们再次回到上方的位置,点击刷新音色列表,这样就可以在列表里看到我们刚才保存好的音色模型。那有的小伙伴就会问,如果这个列表中出现了我不想要的音色,应该怎么处理?打开刚才的文件夹, 点击 versus 文件夹,删除自己不想要的音色就可以了。 我们将刚才的 web 页面向下拉,可以看到下方有一个音色设计与创造栏目,在音色设计描述这里,我们可以根据自己的喜好输入音色的特点。我在这里随便使用一个描述, 中间位置是测试文本,这里我们可以随便输入一句话,等到 ai 生成音色之后,会将这句话读出来,点击开始生成测试音频效果是这样的,你听说过克隆声音吗? 如果小伙伴们对于生成的音色不满意的话,可以修改提示词重新生成。你听说过克隆声音吗? 如果小伙伴们想要把满意的音色保存下来,可以在下方输入音色的名称,点击下方的保存音色就可以成功保存了。刷新上方的音色列表,就可以看到我们已经保存好的定制音色。 这里还有一个比较好玩的功能,那就是多角色对话。我们将页面滑到上方,点击上方的多人语音对话,按照上方的格式修改音色名称和对话的内容。 比如我这里输入的内容是这样的,下方模型这里也可以选择,我在这里选择为一点七 b。 最后面这里可以改变不同角色语音之间的间隔时长,小伙伴们可以根据实际情况进行调整, 我在这里选择为零点五秒。设置完成之后我们点击生成多人对话,效果是这样的,男人就算在荒原里迷路三个小时,也绝不会停下来问路, 这种迷之自信到底是从哪里来的?这不是自信,这是一种名为我一定能绕回去的尊严之战, 所以你们的尊严通常是靠多烧半箱汽油来维持的,也是蛮有意思的。我们再来更换角色和台词,点击生成,可以看到效果也是非常不错的。每个男人的心里其实都藏着一个仗剑天涯的英雄梦, 哪怕他现在只是挺着啤酒肚坐在沙发上吃薯片,哪怕是这样,只要手里拿个遥控器,他也能幻想自己在指挥银河战舰。 你们男人在自我催眠这方面确实拥有超凡的天赋。到这里,困三的本地部署声音,克隆音色,保存一句话,定制音色以及多角色对话,我就已经带大家完整的跑了一遍。 这个工具真正厉害的地方在于它可以长期稳定的出现在内容里。对于做内容的人来说,稳定往往比经验更重要, 因为只有稳定,你才有可能持续更新,才有可能走到后面的变现阶段。所以,如果你现在不想真人出镜,想让内容更加稳定的产出,或者想要一个人做多个账号多个角色, 那我真的建议你可以试一试昆三, ai 只是工具,变现才是王道。我是九怡。如果你也不想被工具牵着走,而是想把 ai 真正变成生产力,那一定不要忘记订阅我的频道,这样就不会错过我的更新啦!我们下期影片再见啦!

小米手机红米手机无障碍盲人模式没有声音的解决办法,文字转语音未准备就绪, 如果你身边有朋友或者你自己是智障人士,打开了无障碍,但是发现没有声音,希望这期视频能帮助到你,如果你是智障人士,可以请你的朋友来观看这个视频,帮助你设置盲人模式。 第一步,我们要下载语音引擎,首先我们打开浏览器搜索小米语音引擎,接着点击小米应用商店, 点击之后就会弹出这个界面,然后选择下载就行了,我这里已经安装好了。第二步,添加无障碍引擎,激活盲人模式。 首先我们打开设置,在设置界面下滑,找到无障碍或者辅助功能选项,点击辅助功能之后选择视觉,接着在视觉栏目里面找到屏幕阅读器,接着点击它下方的 talkback, 进去之后先不要打开 talkback, 先选择设置,然后点击文字转语音, 在首选引擎,这里偏好语音引擎,选择系统语音引擎,也就是刚刚我们下载的那一个。接着我们再返回 talkback 界面,打开使用 talkback 按钮,接着开启使用, 以下是开启之后效果示意 talkback talkback 设置如何使用 talkback 机,欢迎点按两次即可激活,用两根手点按两次即可机停止录制 检验检验员。最后,今天是二零二六年五月十七日,是第三十六个全国助残日,感谢您关爱身边的残障人士。 这是作者在解决无障碍没有声音时搜索的引用文献,感谢这位女友提供的帮助。接着这个是作者为了找到解决方法花费一晚上搜索的浏览器记录, 希望这条视频能帮助到你们,感谢观看。

踩离合,踩刹车啊,你往哪开呢?女人,你成功引起了我的注意。 哥哥,人家等你好久了,你怎么才来呀?这就是我的忍道,我绝对不会放弃的! hello, boss, where is my order? i am waiting? 这段声音不是我找外国人录的,也不是在配音网站买的,是我本地生成的。我把这个开源 tts 项目打成了 windows 整合包,今天免费分享。第一,可以用参考音频去生成音色。第二,可以直接自己设置音色。第三,他无需目标语言的参考音频。 我们先来看一下如何设计一个音色,我们用这个暴躁中年男生来试一下踩离合踩刹车啊,你往哪开?现在我们再来给大家演示一下怎么去弄小蚁种。比如说我们找了一段阿拉伯语的一个文本,我也看不懂, 好,阿拉 伯语来听一下, 直接生成,我要听一下越南语了。关注我的同学都知道,我已经把它对接到了我们的同城传音里面,这是三十个国家的语言,实时的把你的声音给翻译出来。 你好,我想确认一下今天的订单能不能发货,这个整合包会免费分享,想要的评论区打 tts, 你 也可以直接去官方把原代码弄下来自己跑,如果你不想折腾环境,直接拿过去用即可。

hello, 小 伙伴们大家好啊,今天给大家介绍一个可以在本地部署的 ai 语音对话系统,我们先不讲云,先直接看一下它部署在本地之后的实际效果啊,我现在可以通过麦克风跟它对话,比如说先让它做一个自我介绍。 hello, 你 是谁呀? 我是满岁啊,你找我聊天吗?哎,可以看到整个交互过程是比较流畅的,它不单单是一个简单的文字聊天,而是跑通了整个语音识别,语音输入,语音识别啊,还有弹幕型回答, 包括啊,语音合成和语音播放这一条一整条链子,从把麦克风采集音频到我把回答播放出来,是一整个流程。 从效果上面来看,生成这样还是比较可以的,因为它这个语音质量取决于那个 choice way 三的那个质量。呃,就是这个服务的质量。这个项目呢,一共是用到了四个核心模块, 呃,分别是我们,我们在服务这里面可以看到三个啊,分别是 a s, r l n 和 t p s。 除之外还有一个 v a d, 也就是语音活动检测,它的作用是判断你一句话有没有说完,也可以理解为,呃,判断语音结束点。整个流程大概是这样子的,首先用户通过麦克风说话 v a d, 会持续检测当前是否还在说话,如果判断这句话已经结束, 就会把这段语音交给 a s r a s r 的 作用是语音识别,是把我们说话的把说的话转换成文本,识别出来的文本会送到 l l m, 也就是本地大语言模型 l l m, 根据上下文生成回答,之后再把生成出来的文本流逝发送给 c t s c t s 的 作用就是一个 文本转语音,也就是把大模型回答的大模型生成的回答转成声音播放出来。 这里比较重要的一点是啊,他不是说等整句话全部生成完成之后才开始播放,而是边生成边合成边输出,这样用户听到第一段话回复的时间会更短,首播延迟更低,整体体验也会更像是在一个和一个实时的 啊。比如说我们让他说句话,这就不用语音了,你会很怪, 老大,我们这样熬夜真的不会猝死吗?啊,老大,天怎么亮了?你不是说才八点吗?老大,我们每天换一个国家的作息,真的是环游世界吗? 老大,我不玩了,我太奶来接我了,可以看到它这个首音,它这个延迟是很低的,就如果说你的这个 gpu 足够厉害的话,它的延迟是很低的。 好,我们来看一下这个服务管理的这个页面吧。呃,在这个页面里面,你可以看到当前在运行的三个模型图, 第一个是千万三 s r, 它负责就是语音识别,而第二个是拉拉玛点 c p p, 这边是用的是千万三点五九 b 的 一个模型,然后去做一下微调。 第三个是 choice voice, 三 t t s, 它是负责那个语音合成的,然后这边是做了一个前端的页面啊,然后做了这种小卡片,每个卡片都会显示当前的状态,进城 id 端口号以及这个健康 结果检查,如果服务正常运行的话,就会选择会会是 round, 然后这边就 ok。 这对本地部署来说就非常的有用了,因为本地语音对话并不只是要启动一个模型,它需要多个服务同时配合, 只要有只要 a s r l m t d s 里面有一个服务没有启动或者成功的话,整个语音链度链度就会断掉,所以这边做了一个统一的服务管理页面。 呃,可以比较方便呢,我们去一键启动还有去暂停这个服务,包括这边的运行录制也是很一目了然的。比如说我们说完话之后没有识别出文字,那就优先看 a s r 的 这个录制,如果识别出来了没有回答,那就是看 g t s 或者是 l m 的 设置啊,这样排插起来会比较清楚。然后第三个服务呢?是这个配置中心啊,配置中心主要分分两个部分,左边是这个对话参数,右边是服务的一些启动命令, 左侧这边可以配置 a s r l m t p s 的 接口地址,也就是说通过这个前端页面,并不是把服务模型写死,而是通过配置来决定请求发送到哪里,它其实就是一个一个的端口, 一个一个的端口,然后它会有转发地址,我们去利用好这个转发地址就可以, 比如说 a s r u a r 对 应这个对应这个语音和弦的接口,如果我们后续要替换模型的接口的话, 那只要改这边的配置就好了,比较方便。下面还有些深层参数啊,这些参数的话大家可以去了解一下,这边就不过过多介绍了啊。再往下面是这个 v a d 的 参数啊,这边还有做一个 performance 啊,不是不知道怎么样,反正就是一个相当于是一个人物的标签吧,然后你可以去制定一些嗯,对这个人物的一些想法,而且这是集成在这个大圆模型里面。 整体来看,这个项目比较有意思的地方就是在他说他不是不只是把几个模型跑起来,而是把完整的本地语对话链路做成一个可管理的工作台, 前台可以直接进行语音对话,后台可以看到每个服务每个模型的运行状态、端口日程和配置。那对于本地部署、本地调试,或者自想自己搭建一个 ai 语音助手的朋友来说,这种方式会比单纯在电影院里面跑 服务直观很多。比如说你像命令行这边去终端这边去跑一些服务的话,就没那么直观了,需要去多个端口去切换。像这样做一个前端前后端页面的话,比较方便一点。 简单总结一下它的核心流程就是用户说话 v a d, 判断语音是否结束,然后 asr 把语音转成文本, l m 伸手回答 t d s, 再把回答转成语音,并且通过流逝 方式播放出来。这样一来,本地 ai 对 话不只是能聊,而且能做到更低的延迟,更自然,语音交互也更方便我们观察和调试整条链子。后续如果大家感兴趣的话,我也可以给 大家拆解一下这个项目的这个部署流程,模型选择,以及每个模块具体是怎么配置的,包括如何微调,如何去做这些模型的微调部署。这个项目大概就做到这边了,接下来。

哈喽啊,我是佳哥,这一节视频给各位分享一下如何在 esp 三二 s 三下结合 s n 二五九八幺六实现离线语音合成。 我们在做项目的时候经常会用到语音播报,那么要实现语音播报,要么前置录制好语音,再使用 mp 三模块把它播放出来,不过这个需要前置的约定好文字, 如果在业务里面需要把某个变量播报出来,就无法实现了,而 s n、 l 九八幺六就可以实现把动态的变量实时的合成并且播报出来。我们首先看一下它长啥样的,拿到手之后呢?它是没有焊接的啊,这里是四块啊,它还没有弄开,我们把它掰开一下 啊,到手之后它还没有焊接,需要我们自己动手啊。本节视频我们用到的它,这里的五个管脚分别是 g、 n、 d 和五伏,负责与单片机连接供电, r x 脚负责获取从单片机一端 t x 抛过来的数据。这个 r x 接到我们定义的 t x 脚,这里我用的是五号脚, 这里还有 s p k p 与 s p n, 接的是一个喇叭。好,那么我已经接好线了, 我使用的是五号角,刚才也说了,我使用的是五号角作为贴纸,在录制这个视频之前,我尝试了四号角无法使用,然后我就换到了现在这个角就没问题了。那么具体原因后续有空我找到原因再跟各位说。好,我们看一下米斯奇里面, 在米思奇里面,如果我们要使用这个语音合成模块,首先我们要找到支持它的库,我这里用的是 yf robot, 这里 啊这里我已经安装了,你选择了之后呢,这里有个云端导入,你点一下,稍等片刻,它就导入完成,完成之后,在左侧我们就能看到 yf robot 这个库, 我们在执行模块下面的语音音频,在这里拖到最下面,这里就会有一个语音合成模块,这里有四个模块,四个模块都有用,下面我说一下。第一个是一个啊,语音合成的一个初步化设定,你接的是哪一个角作为 t s 角 啊,你可以选择 v 一, 一般我觉得有新的就用新的吧, v 二哈。第二个模块是设定发音,要么就男生,要么女生语速语调,这两个不好理解,不难理解哈,接下来音量直接给他干到最大。 这里是一个播报铃声,这个铃声我认为最主要的作用就是你如果在一个公开的场合突然间讲话,那就吓人了啊。先来一个铃声告诉,让别人有一个心理准备,然后在语音播报啊,这里是语音合成并播报啊, 接下来我这里有一个艾特,因为我下面要验证一下,它是可以播报变量的。我随意定义了一个艾特,这里有一个五秒钟的延时,是为什么呢?来,我们再看回镜头这边, 它这里呢,它是自带的一个 mcu, 意味着我们把这个语音合成的任务抛给他之后,然后我们自己本身单片机就可以去 该干嘛干嘛啊。它合成完了之后啊,拼命的搓,搓完之后就播报出来啊,咱们是两路,不是同步的哈,所以的话,为了啊,我让等它播报完,我这里做了一个五秒钟的延时,延时完了之后,下面是一个判断,我这里是一个嗯, 数字十一直往后往下倒数,倒数到零为止,每三秒钟倒数一次。来我们上传看一下, 欢迎使用,支持字母串及应用十九八 七六五。 目前呢他就只有女生男生啊,相对来讲是有点生硬,但是啊,比起 呃那些没办法动态合成的话,还是用起来比较灵活的,如果你对声音有所要求的话,那么可以在一些线上平台前置的录好声音,但是那样子呢就不方便啊,往里面 c u 一个变量了, 那么后续呢,我也会呃介绍一下啊,如果前置录制好语音又是呃有哪些平台可以使用的好,那么这节视频呢,就先分享到这里,谢谢。

手机也能当 t t s 服务器,新版阅读让你的手机一键成为 t t s 服务器。进入阅读,切换到朗读引擎页面,点击要服务的引擎进入详情,开启接口服务, 就看见 g t s 服务 api 地址,我们来验证一下服务接口,打开浏览器,输入刚刚的 api 地址,加上 steam, 查看一下音色列表, 记下音色也接下来验证语音合成接口,输入要合成的文本和音色,然后回车 接口成功生成语音。下面我们在阅读中试试效果。找来另外一台安装阅读的手机,切换到朗读引擎,点击右上角的菜单,选择新增 a p r 引擎, 起个名字和输入刚刚的 api 地址,开启阅读 api 选项,点击保存。下面我们来验证阅读,给阅读提供引擎的一下效果。 阅读您的朗读专属。最后演示一下新增的音色分享功能,我们先新建个音色。 晴空万里,不如你心情愉悦,今天有什么开心的事吗? 晴空万里,不如你心情愉悦,今天有什么开心的事吗? 晴空万里不如你心情愉悦,今天有什么开心的事吗?晴空万里不如你心情愉悦,今天有什么开心的事吗?

都说 j l m t t s 这个语音合成大模型很强,那么我今天就试一下把它部署在本地,看看这个效果怎么样。首先我们还是看一下这个对比结果表,可以看到在保持高度扬声器相似度的一个同时, j m t t s 呢实现了一个最低的一个制服抽率,也就是这里的 c e r 屏幕指标。 j m t t s 呢全程是可控且情感表达的零色素语音合成器。然后它的主要特征呢有四个,第一个只需要三到十秒钟的一个提示音频 就能克隆任何说话者的一个声音。第二个支持混合因素加文本输入,实现精确的一个发音控制。第三个支持适合交互式应用的一个实时音频生成。第四个对中英文混合文本进行了一个优化。然后我自己部署的一个设备是三零九零的一个显卡,二十四 g 的 一个显存。然后我是在 windows 上使用了 wsl 部署了一个乌帮图,然后库打的一个版本是十二点六,然后拍摄的一个版本是三点一二。我自己觉得部署的一个难度两颗星吧,因为中途遇到的问题我都用机密里很轻松的就解决掉了。然后它的一个功能就是文本转语音,然后它的一个调用方式呢,使用的是 grad, 然后这个是我已经按照官网的一个步骤已经部署好了,然后我们在相应的一个路径下启动相应的一个命令运行即可, 这个就已经启动好了,我们可以在八零四八的一个端口进行访问,然后下面是一个实时的一个显存在用, 然后我们输入八零四八的这个端口,然后访问这个 g m t t s 的 这个网页,进行相应的一个调用, 然后可以看到这个第一块是我们上传的一个提示音频,然后第二块这个 promap text 呢是这个提示音频所对应的一个文本内容,以及第三块这个 input 设定呢,是我们需要转成语音的一个文本,然后输入完成后,我们点击生成, 可以看到这里就已经开始输出对应哪个音频了,然后这里呢是后台的一个输出,以及我们的一个显存的一个变化,差不多花了一百秒左右,这个音频就生成好了,我们点击下载就可以了,我们来听一下最终的一个效果到底如何?我最爱吃人参果, 你喜欢吃吗?当时的一个输入文本就是这几个字,整体的效果听起来还是挺不错的,因为我觉得就是生成的一个速度还是有一点慢,下期我们再来测一测其他的一个多模态模型吧。

大家好,我是旺财,今天给大家介绍一款很有意思的开源语音合成工具 voicebox, 它最大的特点是完全在本地运行,所有的模型、文本、声音数据都保存在你自己的电脑硬盘里,不需要上传到任何云端服务器,这对重视隐私的创作者来说是个很大的优势。 首次使用时需要下载 ai 模型文件,这个模型体积不小,下载时间取决于你的网速,下载完成后就可以离线使用了,之后不再需要联网。它的高精度声音克隆功能很有意思,你只需要提供一段三到三十秒的清晰人声录音。软件能在两分钟内训练出专属声音档案。 它不仅能保留原因的情感特征和说话节奏,还支持添加人物设定描述,让声音更贴合特定角色。软件内置了多种主流语音合成引擎,包括宽三双对齐、 chatbox 等,支持中英文等三十多种语言。 输入文本时,部分引擎支持插入笑声、咳嗽、叹气等语气字标签,让人声更自然。配音软件常有字数限制,但 voicebox 支持单次提交最多五万字。遇到超长文本,它会在后台自动按句子分割生成,然后平滑拼接,直接满足长视频与有声书的制作需求。 它还自带八种专业音频处理参数,变调、混响、延迟等,可以在界面内直接预览调整左侧的多轨道时间线编辑器类似专业音频剪辑软件,可以把不同角色声音拖到不同轨道上,轻松台版对白或播客节目。 voicebox 使用 rasp 的 语言开发,体积小,内存占用低,最关键的是它支持照用显卡加速生成,真正实现了零成本、高频次的配音能力。总结一下,本地部署隐私安全、声音克隆、精准多引擎,支持长文本处理,专业后期编辑。 对于内容创作者来说,这是一个值得尝试的语音合成方案。如果你对这款工具感兴趣,可以在开源社区搜索了解。注意,使用任何软件都要从。

大家好,这里是于建,那这期呢给大家介绍一个新的语音合成的模型啊,叫做 vivo tts, 同时呢这个视频呢还是一个避坑指南, 那么咱们看一下这个模型的一个介绍啊,它这里面提到这个 vivo tts 最特别的地方就是它跳过了美尔贫普维 eletent 还有音频的 codeitoken, 它使用的是叫做 flow matching, 还有 d i t 直接生成十六赫兹的原始语音波形,所以说它这个模型的架构呢是有一些调整的,它这个模型的作用呢就是云克隆,目前呢还没有其他的功能,比如它声音的设计,还有多人物对话这些,目前都没有这些功能。 他这个模型啊安装起来呢有一些困难,咱们首先呢是需要下载一些这个插件的,安装的时候并没有单独的设置包啊,所以说可以看一下啊,当时呢报很多错啊,把之前的其他的很多的环境 都已经破坏掉了啊,光修这个环境就修了好几个小时啊,所以说大家安装的时候最好单独去设置一个环境啊。 接下来就看一下他这个模型效果怎么样啊,首先是需要下载一个模型啊,就是他这个模型,然后呢下载完之后,插件作者还给了两个其他的,这个是 f p 三十二的,这个是 b f 十六的两个模型,这两个都是需要下载一下, 看一下他的工作流。如果你的电脑配置不高的话,你可以尝试一下这个网站啊,里面的模型是非常全的,而且呢你也不需要去担心环境的问题,用起来非常方便,而且每天登录都会有一定的免费积分,通过我的分享注册呢,也会赠送一千点的积分,大家大家可以去尝试一下。 那然后呢我们看一下它的工作流,工作流呢也是非常简单的啊,首先就是模型的上传,这里面呢使用的是 mtb 的 一个语音识别,它这个模型呢是自带的,有这个语音识别的,但是呢它的存放目录不一样啊, 如果我们使用它自带的话,我们是需要把它放到这个 audio decoder 放到这个插件目录下, 但是呢我不太习惯我直接使用这个 m t b 的, m t b 的 它是会直接下载到 models, 然后 whisper 下载到这里面,因为这个目录我比较全,所以说我就给它更改了一下啊, 这里面是音频的上传,然后呢直接处理就可以了,单数啊,步数五十步 c m g 三,这里面 sp 的 sp 的 就是我们的速度啊,我们看一下它的效果。首先我们听一下我们的参考音频,常教练,我记得你背符的时候,你这两个衣服兜里啊, 跟小仓库似的啊,那变戏法似的往外掏啊,又是药啊,又是烟呐,又是打火机呀, 你那时候就是个美食家吧,嗯,这就是它出来效果,那么我们运行一下,运行的时候它这里面可以选择它的模型,比如说第一个它是 f p 三二的就是这个插件作者给出的,然后第二个是 b f 十六的啊,第三个这个可以看到 是 office 啊,也就是官方的这个就是这个,他这个是十个 g 啊,这几个呢都是二点多 g, 一 点多 g 啊,所以说,呃,它的效果可能会差一下,咱们可以先使用官方来测试一下, 就是这么一段音频,很简短的,我们出来听一下它的效果。美食家不?大家好,我的名字叫遇见 a。 哎,可以看一下, 其实我们 speed 是 正常的一个速度,但是可以看到它出来的效果是很差的,它这个上传的这个音频呢,会产生一些干扰,那么我们再重新上传一个音频, 这个是一个八秒的音频,听一下。团长拿你当兄弟,哎,这条命就是团长的,给多大的官都不干,情分比啥都重要。好,让我们再运行一下。嗯,好,出来了是三秒,这个秒数是正常的啊,再听一下。 大家好,我的名字叫遇见 ai, 现在呢就已经正常了,现在呢是使用的官方的 office。 这个三十二的啊,我们再测试一下这个插件作者。啊,上传的这个啊,现在已经出来了,听一下。大家好,我的名字叫遇见 ai, 我 们再测试几组比较有难度的啊, 运行一下,我们再听一下这个效果。今天下午三点二十七分分,我们从城市北侧的就火车站出发。啊,从这啊,三点二十七分,它这个断距有这个问题,沿着铺满梧桐落叶的石板路缓慢 向南行,这里面又断去,又有这些问题,你走道路两侧分不着独立书店、咖啡馆、唱片店和已经经营了四十多年的杂货铺 经过。第二个是,然后呢,再测试一下其他的贴纸啊,这个呢是中文英文啊,混合的一些,再加上数字也有混合,再听一下。本次测试环境为 windows 来芬专业版, 显卡型号是 nvdrtx 富人蓝机,现存容量为七百 gb, 可以 听出来他测试的时候对于这种数字啊,都读成英文了啊,而且呢读的并不是太准,然后呢我们再上难度了啊, 你听一下,是是是是是是是是是是是是是是是是是是是是是哇,可以看出来它的效果很差啊 啊,这就是这个模型的情况,那你重新再把这个音频的参考改成之前的林云龙的,然后呢再听一下效果,你那时候就个美食家吧。大家好,欢迎来到今天的模型测试。嗯,可以看到又有之前的这个里面的声音了啊,掺杂了过来,那么他这个问题呢,在这个里面也有提到啊, 啊,就是在这里面如果生成的音频内容错乱了,或者是说无法理解了,可以尝试的使用三十二精度,因为如果是使用的 f p 十六精度的话,他就有可能会出现这种情况,但是呢咱们可以看一下,咱们使用的就是 f p 三十二的精度,如果我们改成官方这个精度呢, 也是有这个问题的,那所以说我们使用官方的听一下,你那时候就是美食家吧。大家好,欢迎来到今天的模啊,也是有这问题,那么我们直接给他加一个音频裁剪的功能,因为这个模型官方给的数据是五到十二秒的录音啊,所以说我们给他裁剪一下, 我们加入了一个修剪音频时长的节点,然后直接给他改成十秒,再运行一下。大家好,欢迎来到今天的模型测试 啊,可以看到效果好了很多,所以说他这个模型呢,对于我们参考音频的长度呢,是有一定要求的啊, 这就是这个模型的情况啊,一共是两个问题,一个是说在安装的时候他可能会引起环境的报错啊,第二个就是他对于音频的上传长度啊,是有一定要求的啊,所以说这就是这个模型的一个情况啊啊!这期视频就给大家介绍到这里,一键三连,下期再见。

你听过 vi 哭吗?不是机械哭腔,是真正带着哽咽和呼吸。八十亿参数,五秒克隆任意声音五秒录音克隆任意声音,给段对话样本他接着聊,有停顿有情绪有呼吸, 八种情绪自由切换,你听啊,嘿嘿嘿。 悲伤喜悦愤怒做播客,一个人模拟对话作有声书,每个角色不同声线做游戏 npc, 实时生成 八十亿参数,底座三十二层音频码本 rtx 四千零九十本的跑,不需要 api, 一 千九百四十二颗星,十七天涨起来,完全开源传统 api, 每条五分钱,这个电费几分? 你上一次被 ai 的 声音骗到是什么时候?

之前分享过一个八 b 参数的小巧语音模型,它又有了实际性的改进和更新,它支持的语言从二十种增加到了三十一种。之前有用户反馈没有粤语的问题在一点五版本得到了解决, 下面来听听粤语克隆的效果。今日个 meeting 开咗两个钟,但其实都冇乜结论,大家讲嚟讲去都系 𠮶 几个 point, 效果是不是还不错?从功能方面上,延续一点零版本的功能基础,改进了 voice clone 的 稳定性,提高了克隆语音的说话人相似度以及长文本克隆的稳定性,增加了显示停顿控制、 手动添加停顿,让标点停顿更加的自然。改进更新后,模型参数依然是八 b 配置低的设备,本地部署依然可以流畅使用。另外, open mouse 团队提供了该模型的网页端,小伙伴可以先试试再决定要不要部署本地进行试用。

哈喽,大家好,我是千亿富翁的小孩,上一次我们讲了 v o x c p m 二点零,我们那次说的是 v o x c p m 二点零,超越了这个 index, 哈 t t s 二点四。 好,今天我们来讲另外一个声音克隆项目哈, omni voice。 好, 我们先打开这个整合包,好,进入这个整合包之后哈,我们看到的界面大概就这个样子的。 好,这里我们上传一个音频啊,我们直接开始测试这个效果。好,今天我们准备了二十五段的一个音频。好,我们随便点击一个,然后这里啊,就是输入我们的一个文案,把这个文案就可以 变成一个音频,这个音频的音色就取自于下面这个参考音频。好,我们先来听一下这个参考音频的音色,尊敬的各位评委老师, 大家好,我分享的代。好,大概是这个样子的,我们直接输入文案。好,这里直接点击生成啊,当然你也可以去选填啊,选填这个参考文本啊,就相当于是这个音频的一个字幕,我们可以跳过它直接生成,因为它会自动去生成这个字幕,点击生成,我们直接来听这个结果。大家好,我是小海, 专注于人工智能与生成式技术,致力于分享最新的 ai 视频生成、换脸、直播、模型训练、声音克隆等技术。我觉得他的这个克隆的相似度是非常高的,但是有一点问题啊,唯一有点问题就是你可以听到他这个口水音啊。 大家好,我是小海,你看会有个,就是每次读完他就会来一个哈,再听一下,专注于人工智能与生成式技术,哎,又来了, 只要他有一个气口,他都会倒吸一口气。哈。啊,这个是在之前 v o x c p n 以及这个啊, index t d s 二点四里面都是不存在这个问题的, 所以说我第一印象的就是他相似度还是不错的,很自然就是哈有这个气口,这个气口还比较严重。好,我们紧接着再测试第二段,撒娇女生二十一秒,你真的要听这个吗? 不好吧。哎呀,好,输入第二段文案,点击生成。好,我们直接来听这个结果,待会我们就不一一去重复这个。嗯,前面的这个些步骤了,直接听这个效果,如果你也对这些前沿技术感兴趣,或者 有任何合作意向,欢迎随时联系我。嗯,相似度非常非常不错,我们听一下,再听一下这个原声。你个小坏蛋 闹,真叫了,你看他这个生成出来的这个很像啊,你也对这些前沿技术感兴趣, 换成,嗯,非常棒的像啊。好,第三个来听一下这个原声,我当然知道了好声音克隆的结果,猎取一九八零至二零二零年在成都、上海、北京、深圳、杭州工作, 要用多少年才能买的起房?做一个对比表格,第三段音频他就没有这个气口了哈,可能是啊,我们给的这个参考音频的问题。有可能我们的参考音频给的哈,可能底噪比较大,就是音频的质量不好,当你的音频没有这个气口的时候,或者是没有这个啊,就是我刚刚说的这口水音的时候,他就 在第三段,至少第三段测试的结果是没有这个问题的。烈举,一九八零至二零二零年在成都、上海,这里是没有任何问题的。好,也就是说我们这个参考音频的质量非常非常重要。好,紧接着我们再测试下一条,喂喂喂,能听见吗? 现在知道我长什么样子了吧?你个大笨蛋。这个原声是音质非常的好,而且没有任何的口水音,我们来听一下他生成的一个结果。王勃在滕王阁序写,穷且易间,不坠青云之志。 年少不知其位止喜落霞与孤鹜其飞秋水共长天一色白。此今年才把这古今不变,化凡为简。 哇,他这个语气和情绪啊,很到位啊,很到位,我觉得和 v o x c p m 二点零是有的一拼的。好,紧接着我们再测试下一条,来听一下原声。说的好像您带我以来我考好过几次一样。 计算机中最经典的算法,比如规定排序算法,最短路径算法。写五个最经典的算法,并用代码示意进行说明。比我想象的要自然太多了, 反正我是区分不出来他们的和原声的一个区别了。其实从上个月开始,我觉得声音克隆都已经没有办法去区分他原音频和声音克隆之后的一个结果了。我反正是完全无法区分了,我们继续测试让全世界的男人都无法拒绝的撒娇话术,你想不想学啊? 我今天好想你啊。你看这个音频,他的原声就有一点问题啊,至少会有底噪和口水音。我们来听一下他生产的一个结果。你有没有被别人说过,你讲话可不可以大声点,说话的音量太小,会给人没自信的感觉, 尤其当你有满腹经纶,但对方听不清楚你所说也是枉然。效果真的超级好,我第一感觉是完全不输于这个 vox cp 们。二点零,哎,我服了。就是我刚开会的时候,然后我就刚讲自己的名字,然后就学弟说, 学姐是福建的吧,我普通话这么不标准吗?你可以深吸一口气,然后从牙缝里发出嘶声,平稳均匀的吐气,它可以帮助你掌握气息,不会一句话还没说完就要换气,我真的没办法分辨了,我觉得效果好的离谱哈。 好的,真的是太离谱了,我自己前后如果说放到一起,剪辑到一起,我根本就不知道。这前面这一段是原声,后面这一段是声音开聋的结果,无法分辨哈,无法分辨 好,再继续下一条。哈喽,大家好,我是景甜,你可以连续发出黑声,看一口气可以发出几声,越多越好,他可以帮助你说话更洪亮。哇,太像了,相似度太高了, 非常慢,想再听一遍。你可以连续发出黑声,看一口气可以发出几声,这个相似度非常非常离谱。来,下一条。大家好,我是小萝莉,如果你语速过快,让你讲话上气不接下气, 你要把语速稍微放慢。如果你语速过慢,让对方频频看手表,你可以把语速稍微调快。不知道你们有没有发现啊,人和人之间总会有一些莫名其妙的磁场存在, 有些人不管你认识了多久,这么好听的声音看能出来是什么样的结果。电影的最后一幕是二战爆发,乔治六世向他的国人演说,对德宣战,声调铿锵有力,咬字干净利落,最终激励了明星,鼓舞了士气, 超级好听的,真的,还是我说了,当你的这个参考音频音色非常棒的时候, 我们自己读出来的声音肯定是没有深层的。这个结构好,可以听一下乔治六世向他的国人演说对德宣战, 声调铿锵有力。哇,太好听了。可以看到哈这里的显存啊,显存占用已经来到了十五点七个 g 的 显存,哈,非常非常恐怖的一个水平,看到没有?刚刚扩大,直接来到百分之百,他对显卡的要求非常高,我刚刚测了 十二 g 到十五点七个 g 显存的在用,也就是说你还是要有十二 g 显存你才可以使用,如果低于十二 g, 可能生成速度会很慢,可 能也比较容易崩吧,反正我建议是使用十二 g 的 显存。欢迎你们使用我的声音,我很开心你们认可我的声音,也用我的声音。今天的天气非常不错,阳光透过窗户洒在桌面上,微风轻轻吹动窗帘,让整个房间显得格外安静而舒适。 非常非常甜美的女生啊,这个声音真的是太好听了。我们再测下一个,我们来测试一下这个牛啊。你好,我有一个帽衫,我要在网上问问问。北京时间二零二六年六月二日, 人工智能产业继续高速发展,多家科技企业发布了最新的大模型产品, 引发行业广泛关注。相似度很不错啊,很不错,他的音色确实是非常非常有特点。好,我们再测下一个。风声唤醒沉默者的梦境,漂浮的心事。本次测试平台采用英伟达 rtx 五零九零显卡, 搭配 amd 九九五零 x 处理器,系统内存为一百二十八 gb, 主要用于 ai 视频生成与模型训练。好,刚刚我们测试了这个 生成这个中文的文案啊,我们来测试一下英文的文案是否可以啊。我们还是用现在这个音频,然后我们让这个千禧 gpd 啊,生成了一段英文文案,我们来粘贴到这里,点击生成,再听一下这个原声,风声唤醒沉默者的梦境, 漂浮的心事。 hello, everyone, my name is xiaohai, i focus on artificial, intelligence, generative, media voice, cloning, face, swapping, and ai video creation。 嗯,没有任何问题啊,也就是说你可以用这个参考音频去生成不同的这个语言啊。好,接下来我们来再测试一个长文案啊, 长文案,我们刚刚测试的全都是比较短的一个中文啊,我们现在来测试比较长的一个中文,我们随便打开我的一个知乎啊,复制一段我的知乎文案,来看一下这个效果啊, 好,比如说复制这里到这里吧。好,现在我们来看一下这个长文案啊,他的一个显卡的占用,嗯,显存占用,然后三 d 基本上是占到百分之七十到百分之百,这库塔几乎是满载啊,巨石状啊,说明是已经触碰到了一个极限了,也就是说你必须要 十二 g 显存以上。如果你要生成长文案的一个音频转换,那你至少要有十六 g 的 显存,十二 g 显存的,嗯,显卡大概有四零七零啊,四零七零 s 啊, 包括四零七零钛啊,都是十二 g 显存。然后我们再来说这个十六 g 显存的一些显卡,比如说四零七零钛 super, 五零六零钛的十六 g 版本,然后四零八零 s 啊,都是十六 g 版本,然后包括五零八零, 好,都是十六 g, 然后二十四 g 就是 四零九零,三十二 g 就是 五零九零啊,大概就是这个样子啊,我们来听一下哈,生成的一个结果。剪辑之前做什么事 如何看素材?先梳理一遍全部素材后,找到一个逻辑,好,能够生成啊,也就是说他是能够生成这个长文案的, 这个音频的长度我们来看一下,好,可以看到哈,生成了四分一十七秒的一个音频哈,也就是说生成长文案是没有任何问题的哈,我们来听一下长文案他有没有音频的瑕疵啊?拖到最后面这些都是需要时间的, 大多数人好,没有任何问题哈,没有任何瑕疵,好,以上啊,就是我们今天关于这个 omni voice 哈,它的一个全部声音克隆的一个全部介绍了,如果需要啊,本地不熟这个声音克隆项目的话,可以后台私我关注我,我们下期聊更多的 ai 知识。

今天呢,跟大家聊点什么呢?今天和大家聊一下关于最近好多小伙伴都在讨论的一个事啊,就是有关于这个 a i 语音啊,就是所谓的这个 人工智能,然后合成声音,就是这样的一个事情。 朋友你好,欢迎来到为你读诗春天诗歌月。我是小小 童年时,听大人讲童话故事是我们最大的期待和乐趣了,比如海的女儿,阿里巴巴与四十大盗,白雪公主等等。 还记得你小时候读过的第一个童话吗?今天是世界读书日,在这个特别的夜晚,不如和我一起走进无比奇妙的童话世界吧。仔细听,故事开始了, 你们把眼睛紧紧闭起,谁也不会到我们这里来的。我记得你们总是喜欢听故事,安静的躺着吧,只是不要睡着了。 我给你们讲,爱听多少讲多少,十五个,二十个,一百个。 我给你们 讲,林边一块小草地,许多花朵一溜长得整整齐齐,那里长着一颗郁金香。他天天把海鸥想念,只凭早晨吹进花园的清风的介绍,他就任性的爱上了海鸥。 我给你们讲,一匹象棋黑马掉在香花地板上面打碎了。老鼠们把可怜的黑马装进棉絮做的小棺材,趁夜晚把它埋进舒适的必堪的食品 t 老鼠们还扫掉了自己的脚迹。 我给你们讲一位森林仙女,他的样子和你们一样的, 他是一位女和神的妹妹,他的衣裳多么离奇,那是用露水和月光的薄纱做的。这位仙女在树叶里面正要睡去,活像这个时候的你们 真是晋级了,关于我们谁也不知道,门也不会吱吱叫, 挨着仙女睡着吧,静静的睡吧,在这样的寂静里让我讲的这些预言和童话来找梦中的你。 很多小伙伴们呢,就是也是啊,最近是看到了好多人在啊说,然后也可能是从其他地方看到了一些文章或者是视频, 然后呢,所以说呢,就会产生各种各样的一个焦虑。嗯,所以说今天我在这呢也想来说一说我对这个事情的一个看法 啊,这是我的一个个人一些看法啊,就是我也不是一个专业的人士,只不过是这个平时没事喜欢多看一些,然后这个自己总结出来的一些 一些结论吧。我们先那个说下重点啊,就是我得到的结论是什么? a i 语音这个事情他最终一定是会取代个人主播, 但是他不会取代所有的个人主播,嗯,这就是我的一个结论。 嗯,我这怎么得出这样一个结论呢?这个反正是今天这个视频呢,就当做是一个啊聊天的一个 一个一个一个视频吧,我就随便说了,也没有去准备稿子,也没有什么的,就是想到哪收到哪。 首先呢,我认为啊,我们去如果要说是想要去讨论一个 事情,想要去这个,嗯,通过一个东西,然后去推断出来一个解一个什么样的一个结果。首先第一点就是我们必须要搞清楚我们要讨论的这个事是什么, 很多很多人,然后就是这个还没有搞清楚这个啊,所谓的这个 a i 语言是什么东西,就开始产生各种各样的一个焦虑了。那个反正这种焦虑是怎么来的,我是不太不太清楚, 那个既然今天收到这了,那我就简单的,然后也来说一说我对这个爱语音啊这样一个东西的一个认识啊, 什么是 a i 语音呢? a i 语音啊,就是现在大家所谓的这个 a i 语音,其实 他就是 tts, 那么这 tts 又是什么呢?是 tax to speech。 那么这一连串英文又是什么呢?就是翻译过来就是语音合成, 现在这个语音合成这样的一个东西啊,其实说白了他是啊,已经是 呃过了就是这样的一个炒作期啊,他已经是实时落地,已经成为了一个就是已经是可以实现的一种技术。而且在我们身边啊,到处也都在充斥着这样的一个技术,就比如说是 导航,嗯,对吧?开车的有导航,然后家里面有这个智能音箱啊,什么这个小啊,这个啊,名字我就不提了啊,大家都知道, 然后还有什么呢?还有就是一些智能的一些播报,嗯,甚至包括是这个在一些电台啊,可能是都在一些电台,好像包括我前段在哪看了一个新闻,说好像是 是央视还是哪啊?就是已经开始那个搞这个虚拟主播啊,虚拟主播不但是这个形象是虚拟的,包括声音也都是虚拟的, 所以说呢,这个技术啊,相对来说是已经是比较成熟啊,对,只能说是比较成熟。 另外呢就是和这个 tts 然后相关的呢,其实还有另外一种这个呃技术啊,是叫什么?是叫 a s r, a s r 是什么呢?他就是语音识别 啊,我,我在这就是把它也稍微提一下,因为是有很多那个小伙伴会把这两个干净给他搞搞混啊,就是 asr 是语音识别, tts 是语音合成,他们一个是把这个文字转化成语音,一个是把语音转化成文字, 就说白了在这个我认为啊,在这个呃至少是就是目前的这个悲哀领域的研究里面呢,他们两个一个是耳朵,一个是嘴巴,一个用来听的,一个用来说的,这也就作为了一个相对来说最容易被人接受的一个 人与 a i 相连接的这样的一个接口。 嗯,这个 a i 语言是什么呢? 就是我大概就是说了一下,因为这东西中间涉及到很多一些比较专业的东西,这个我也不多,我也不多说。然后呢?呃,我就说一下现在目前来说,呃比较 主流的这两种这个 tts, 然后基础的实现。你的方法,一种呢是拼接法,一种是参数法啊,这两种他们两个也都是各有利弊。那我这里面也是这个呃,前张者指简单的说一下 什么是拼接法呢?是拼接法,就是这个,嗯,我们事先先去录制大量的语音,然后呢选择我们所需要的这个呃单位,然后去把它拼接在一起 啊,就比如说是我们那个已经有了一个非常庞大的一个语音库啊,一个采样库,然后呢我们然后那个呃可以根据我们实际的需要,然后选择音节啊,音素或者是句子或者是词语, 然后呢从我们这个语音库里面,然后去呃把这些我们需要的这些呃需要的这些单位给他提出来,然后呢把他们给拼在一起, 这么做的话他的呃优点是什么呢?他优点就是因为是这个有了大量的这样的真实的一个采样的一个数据,所以说呢他最终合成出来的这个语音,他的语音质量相对来说是比较高的,那么 他的缺点是什么呢?缺点就是因为是同样也是因为我们要大量的去采集这样的一个这个样本,所以说呢就是数据库就会非常非常的庞大。 嗯,一般呢如果要说我们是那个,如果要是在那个企业级的一个商用的话的话, 呃,如果要说是预计可能是十几个小时或者几十个小时的一个成品的这样的一个预估,至少采样啊这样的一个工作量啊,你至少反正我估计至少差不多也得五万左右, 反正那个实现的这个费用成本呢可能就更高了,这不是一般我们个人可以承担的起的。那么现在呢,就是这个在这 这个有声啊这个行业里面应用的更多的我,我认为啊应该是第二种,就是这个参数法。 什么是参数法呢?参数法呢?就是这个,呃现在大家可能会经常听到一个词啊,就是用在这个呃 ai 领域里面的,叫做这个叫做神经网络, 就说是通过一些前期的一些呃算法啊模型,呃算法采样, 然后那个由计算机来生成一个模型啊,生成一个这样的一个模型,然后后续呢?然后我们再通过后续的一些工作,然后 把我们需要的内容放入这个模型里面啊,放入这个模型里面之后呢,然后最终然后再输出这样的一个呃音频,音频, 嗯,在参数法当中呢,其实有比较重要的三个模块,就是一个是前期,一个是前端啊,一个是后端,还有一个就是生马器 这三个东西,然后分别是什么呢?就是简单的来说就是, 呃,前期啊,不是,就是前端要做的事情。什么呢?就是把文本进行解析,然后决定每一个字,文本里面每一个字他是该读什么啊?有多音 次的。然后那个啊,我到底应该是读第一个音呢?还是读第二个音呢?然后这句话他是要用什么样的一个语气,什么样的一个语调,然后呃,甚至说是用什么的节奏来读, 哪些地方是需要我们强呃这个重点的去强调的啊,就是等等的这些东西, 包括呢就是我们这个常见的一些这个语。呃,我这里面所谓的这个语气的描述啊,里面就包含啊,像可能是我们想更像人的这样的一些,更像人去演播的时候这样的一些因素, 我想使一些呃重音,想使一些那个调值,甚至 说是一些情感之类的这样的一些因素。 所以说呢,这个 在参数法里面呢,就我认为啊,就是这个包括后端和声马器这些东西呢,相对相对来说就是更和我们更加贴近的一些东西,可能还是前端的一些东西。 其实有很多人呢认为这个恩爱语音是怎么产生的啊?是怎么从零,然后从零到一啊?从无到有这个过程是怎么产生的?就是我这边也听好多这个小伙伴,然后有提到过,嗯, 他们可能认为是什么呢?就是这个语音,就是我有一个软件,嗯,对,我有一个,首先是我 有一个软件,然后呢我需要一段文本,我把这个文本放在这个软件里面啊,然后有一个按钮啊,我一点啊,甚至说是啊,可能是再复杂一点,上面有几个参数,嗯, 对,我去选一选,然后去拉一拉,然后一点这个按钮,蹭蹭蹭蹭,他自己就开始这个生成这样的一个语音了啊,最后成成语音之后呢,然后我就把它保存成为一个音频格式,他这样的一个文件啊,这样的话我就可以拿来去用了。 其实呢就是真正的呀,我们想要有一个这个是好的一个这样的一个 tts, 是这样的一个结果呀, 就是没有那么简单啊,没有那么简单,包括我刚才说的这个前端上面,就甚至包括在前端上面都要耗费大量的 时间,大量的精力,然后去人工的去做调整啊,目前来说是人工的去做调整啊,有可能是以后啊,随着这个 啊,这个这个这个这个技术的不断的迭代啊,可能是这些东西由这个神经网络来取代啊,然后可能是更多的,然后 大部分可能百分之八十七八十的工作都由电脑自动来完成,自己来完成。而我们呢只需要在后期可能进行一些简单的一些干预,甚至说是再迭代,然后已经完全脱离人去干预了,他自己就可以来完成。 其实上面我收了这么一大堆啊,这最后最终其实总结下来也 这样来说吧,就是现在这样一个 ai 的一个技术是一个不是,呸,就是现在这样一个 tts 这样的一个技术已经是,呃,相对来说是比较落地了。嗯,就是很多行业,很多大的这个公司,他们都在向这块去发展啊,然后这个行业里面然后应用的也很多。 嗯 啊,现在,现在在收回我们这个这个这个这个这个有声行业。嗯,刚才我说是我先得出来了一个结论,结论就是 tts, 就是,哎,语音啊这个东西最终是一定会去取代这个个人主播, 但是呢他不会取代所有的个人主播。这个为什么这样来说呢?就是我姐 试一下啊,就说是。 嗯,就说目前来说吧,就先说目前,然后不说以后,目前来说这个相对来说高质量的这样的一个 tds 啊,就是生成的这样的一个语音已经是可以, 呃,基本上达到一些新手的这样的一些水平啊,甚至说是比一些新手的这个水平还要更高一些。嗯, 在以后呢继续发展的话,我估计这个可能是会取代更多的人,只能说是他一步一步的然后去取代,而不是说是。哎,突然有一天这个哪哪哪,然后就是这个把这个技术给突破了一下,然后 睡了一觉,第二天早上起来发现啊,我们都失业了,不可能出现这样一个情况,他只能是一点一点一点一点的去取代。嗯,一点点的取代,但是呢他取代,他取代不了这种,呃,专业的人士 啊,也不能说是取代不了专业的人士吧?这句话应该怎么说呢?就是不太好去取代一些专业的人士。 因为什么呢?因为是毕竟是就是。嗯,演播这个东西啊,就是一个是演,一个是播, 就是目前我认为啊,就是这个,呃,这个这个 a i, 然后去做这个播这个事已经是没有什么问题了,但是去做演相对来说还是有些困难的。 因为什么呢?因为是包括,呃,其实主要还是这个大数据的这个,这个,这个跟大数据有关了, 牵涉到只要是一旦牵涉到情感啊,就是情感就是人特有的这样的一种,呃,一种属性的一种东西。那么目前来说,呃, ai 相对来说他就不可能做那么那么好,和人比的话他还是比不上。 嗯,但是以后呢?这个事说实话真不好说,真不好说。但是这个以后具体多远,这个 我能不能看到啊?就我们能不能看到这个东西,嗯,我不知,我也不知道。 之所以说有些人去焦虑吧,其实我觉得呀,没有必要去焦虑,其实说白了就是 你这边只要是我们自身,然后这个我们自身的这个技能过得去啊,足够硬。其实我们不怕这个 a i, 然后去取代我们,甚至说是我们可以利用这个 a i 啊,然后来 为我们,然后去做更多的一些好的一些作品,甚至说是利用 ai 去来帮我们赚到更多的钱。 其实呢这个东西我,我感觉就我们要怎么样去看待呢?就是,嗯, 技术都是一步一步向前走,一步一步向前走,就是我们想一下,就是我们从小到大我们身边有 多少这个颠覆性的技术,然后来取代我们之前的这样的一个习惯。嗯,最简单的一个就是手机,嗯,可以可以,大家可以感觉一下手机,在这个 智能手机还没有这个呃,普及之前,我们就是对于这个移动互联网这一块 啊,包括我们的一些生活习惯是什么样的?有了手机之后我们的生活习惯又是什么样的? 所以说是这个科技这个东西始终,呃,因为是科技是不断的前进,所以说我们的生活习惯,我们的工作,包括 是我们的这个学习工作,这些东西都是会随着这个科技的进步,然后去发生一些变化,然后我们要做的就是不断的去调整我们自己,让我们怎么样去适应这些新的一些技术啊?怎么样去更好的去利用他们,然后为我们来创造更多的一个价值。 现在相对来说是如果要说是有一些个人主播也想要去做一个定制化的一个一个这样的一个 tts 的, 嗯,一个东西的话相对来说可能是目前来说成本还是比较高的,嗯,成本比较高的可能是随着以后这个技术呃成熟,然后普及,咳,然后成本降的越来越低啊,可能会那个更加这个呃 亲民一些。但是呢这个东西呢也相对来说是怎么来说呢?这科技这个东西啊,都是一把双刃剑,有好的有坏的,就看你怎么来用了。 就是包括真的是如果要是哪一天这个技术然后成熟了之后,然后也大量的推广了,那么在法律上面是不是也是有一些风险呢?就是存在着一些 呃,不可预知的风景,可预知或者不可预知的风险啊。如果要说是这个这个东西普及的时候呢,也没有做任何的一个约束,那么是不是也就给那些诈骗犯, 然后给他们了一个一条致命的一条路呀,哎,说这种东西呢,我认为啊,就是 我们不要太去焦虑,也不要太去在意他,也不要去不在意他,总之呢就是 自己抱着一个好的一个心态,然后不断的去完善自己,让自己的这个技能啊,这个以来,呃,自己一方面去提升自己的技能,一方面去提升自己的这个对于质量的一个关注, 关于这个事情呢,其实最后我觉得就是,一是大家不要太去焦虑这个事情,第二呢是大家也不要把他不当做一回事 啊,最终呢,其实就是还是这个打铁还要自身硬,我们把自己然后给 呃自己的技能给做的更好了,这个我们至少是短时间内,我们不怕他来取代我们, 其实有一天他取代了我们,那么他是什么?他是他是电脑,他是机器,我们是人, 他想取代我们,那我们也可以利用他,然后为我们来服务嘛。所以说这东西就是看你怎么来想啊。 啊,这个今天啊,今天就先到到这吧,反正是说了一大堆这个,因为今天没有去这个提前做一些准备啊,就是突然就是想说这个话题了,就就反正是想到哪找哪,乱七八糟的。 之后呢,然后我再去把它整理整理,整理,整理之后呢,到时候我再呃做一个这个,这个简单钙药版的啊,不像我这么啰嗦。 行, ok, 那就暂时先这个样子了,嗯。

啊,大家好,我们今天来介绍一个可以将文本变成语音的工具啊,当然这种工具应该是比较多的,但是我们这个是免费给大家用,然后呢,它支持翻译, 然后翻译的内容也可以变成语音啊,重点是我们的这个工具呢,可以把语音给它下载成 mp 三,这样可以用在一些特定场合的。 呃,插入,比如说对 ppt 的 解说啊,这个看个人的用途,然后我们现在开始介绍。呃,我们这个工具呢,是可以直接贴入文字的,那贴入文字以后呢,就可以直接按发音,然后会自动识别这个文字的语种,我们把这个清掉, 然后重新贴入,那这里就自动出它对应的语种,然后选选个音色,那中文的音色是比较多的,可以再更换,然后语速可以调整啊这里 那么呃界面可以切换成明亮模式和黑暗暗色模式,然后我们现在就直接可以按发音,在发音的过程中呢,像我刚刚贴入的是一个 markdown 的 文件,那它会有这样的标识符,有这些符号的,那这个 工具就会自动把它给清理掉,当我们点击原文发音的时候,自动被清理掉了,然后呢,这个呃文字秒变专业配音更有高精度多国语言翻译, 你是否常为视频配音不自然,外语朗读不标准,或者多语种转换繁琐而头疼? h t t s。 智能语音合成工具来帮你。 那我们的这个发音呢,是用的是微软的语音合成工具,那所以呢,它的音色会比较多。呃,然后我们就可以再把它翻译成各国语言,这里已经有几十种语言了, 我我们就简单的翻译成英语吧,然后点击翻译,它的译文呢就会出现在下方啊,下方在这,那,呃,我们就在这是这里呢,就可以点击这个译文翻译了啊,刚刚有点快,我们调回去 译文翻译,译文翻译的时候呢,它也会自动合。 turn text into professional voiceovers in seconds plus hyper precision multlingual translation do you often find yourself frustrated by unnatural sounding video voiceovers non native like foreign language readings or the tedious process of multlingual translation hts the intelligent speech synthesis 那 我们就不再全部听完了,那在这个时候翻译完以后呢,我们就可以把它下载回来,那它就很快就下载完了。 turn text into professional voice overs in seconds plus hyper precision multlingual translation do you often find yourself frustrated by unnatural 去呃做一个加工,就是你可以呃用在其他的一些场合了啊,这个工具简单的就是做这些的呃 转换工作,一个是原文发音,然后译文发音,然后会自动识别各种呃语种,可以调整语速。好,谢谢大家。

大家好,我是旺财,今天给你介绍一款超强的开源语音合成工具 chat t t s, 它最大的特点是星号,星号对话是合成星号,星号能生成带语气停顿语调的逼真语音, 支持情感标签,如 triple x 韵律调节,还有说话人克隆功能。 chat t t s 已在 github 开源,适合自媒体博主快速制作,高质量。旁白,我是旺财,下期再见。

ai 语音模型现在也开始卷可控性了,貌似 t t s v 一 点五开源,这是上海创志学院欧芬 m o s s。 团队带来的,貌似 t t s v 一 点五它不是简单的文字转语音,而是更像一个声音创作模型。从更新说明看,它保留了零样本音色克隆长文本语音生成多语言合成代码混说这些能力, 同时新增了任意时刻停顿控制。哈喽,有人在吗? okay, i'm cmo and what you just heard wasn't a human voice it was 一 点五 g 的 关注点是,开源语音模型正在从能说话走向会表达。你觉得 aip 未来最先会替代哪些内容?短视频播客?还是有声书?记得点赞关注哦!