至声云配开课啦! stomax 音频分轨 stomax 音轨分离精密解析歌曲中的主唱、和声与鼓、吉他等多种乐器,将它们逐一分离为可独立编辑的纯净音轨。上传一首歌, 选择需要分离出来的阴轨,点击阴轨分离,点击轨道旁的 solo, 即可单独聆听分离效果 下载需要的阴轨,也可一键下载全部分轨用于后面音乐的再制作以及单独阴轨的精细化处理。
粉丝4404获赞1721

这两天刷到一个开源项目,让我有点懵。 vox cpm 二,一个 tts 模型,你可能会说,语音合成有啥稀奇的,市面上一大堆,但这个不一样,它能让你用一句话凭空设计一个音色, 不需要录音,不需要参考音频,你就在括号里写一句话,比如年轻女性,声音温柔甜美,它就给你生成这样的声音。我第一反应是,这尼玛也太科幻了。 voxcm 二是清华和面壁智能搞的一个开源 tts 系统,二十亿参数,支持三十种语言,还有九种中文方言,这个语言覆盖范围已经很夸张了。 第一个核心功能,音色设计。传统的 tts, 你 想要一个特定的音色,要么用官方提供的几个预设,要么自己录一段音频,让它克隆。 voxcm 二,直接跳过这一步, 你在文本开头加个括号,写上你想要的音色描述,他就给你生成性别、年龄、音色、情绪、语速,全都可以用自然语言控制。这个设计太聪明了, 因为他把音色从资源变成了参数,你不需要提前准备一堆音频素材,也不需要在音色库里翻来翻去找合适的,你就直接告诉他你要什么,他现场给你生成。 第二个功能,更骚可控声音克隆,你上传一段参考音频,它克隆这个音色,但同时你还可以用控制指令来调节语速、情绪风格。这个功能的价值在于,它把克隆和控制解口了,你既能保留原始音色的特征,又能自由控制表达方式。 第三个,四十八千赫兹高质量音频。市面上很多开源 tts 输出的是十六千赫兹或二十四千赫兹的音频,听起来有明显的合成感。 voxcm 二原声输出四十八千赫兹,音质接近专业录音棚的水平。 voxcm 二让我觉得不一样的地方是它在可控性上的突破,它让音色变成了一个可以用语言描述的东西。这个转变看起来很小,但其实是一个范式的改变。 我自己做内容这几年,深刻体会到音频素材的稀缺性。你想做一个播客,得找配音演员。你想做一个多语言视频,得找不同语言的母女者。你想做一个有特定情绪的旁白,得反复调整录音。 现在这些问题理论上都可以用 vox cp 二解决。整个创作流程从找资源变成了写描述。这个效率提升不是限性的,是指数级的。 voxcm 二用的是无离散音频分词器的架构,直接在连续的音频表征空间里生成,跳过了离散化这一步。这个设计的好处是它保留了更多的音频细节,生成的语音更自然,更有表现力。 在 ced、 tts、 evo 这个公开水准测试上, vox cpm 二的词错误率和相似度都达到了 s o t a 或接近 s o t a 的 水平。中文 c e r 百分之零点九七,英文 w e r 百分之一点八四,相似度分别是七十九点五和百分之七十五点三。 而且它的推理速度也不慢。在 rtx 四零九零上, rtf 大 概是零点三,用 nano v l l m 加速后可以到零点一三。什么概念呢?就是生成一秒的音频只需要零点一三秒的计算时间。 最重要的一点,它是完全开源的 voxepcm 二的模型、权重和代码都基于 apache 二点零协议发布,这意味着你可以免费商用,不需要付授权费,也不需要担心法律风险。 而且它的社区生态已经起来了,有人做了 o nex 导出,有人做了 rust 重新实现,有人做了 comfy ui 节点,还有人做了 apple neural engine 后端 vox cp m 二让我想起了 stable diffusion 刚出来的时候, stable diffusion 一 开源,整个图像生成的生态就爆发了。我觉得 vox cp m 二有可能在语音合成领域做到类似的事情。 如果你想试试 voxp m 二,安装很简单, popin stop vux cpm, 然后几行代码就能跑起来。整个 a p i 设计的很直观,基本上看一眼文档就能上手。 技术的进步不是让专业的事情变得更专业,而是让专业的事情变得更普及。以前做语音合成,你得懂信号处理,得有录音设备,得找配音演员,现在你只需要会写一句话,这种门槛的降低会释放出巨大的创造力。

今天我们群里的小伙伴问我,买这个至生云配是不是有折扣,他这个终生的会员呢,还有两天就下架了,以后这个终生会员就不会上架再售卖了, 这个东西呢确实有一个折扣,如果说你是买年度会员的话,你可以在这个推荐码这里输入呢布空六六六,然后点击确认 右边的金额会进行一个刷新,大家要是买这个年度会员的话呢,他就是打了一个七折,如果说你是买这个终身会员的话, 他呢是九九九,我们呢粘贴上这个兑换码,点击确认之后呢,他右边刷新之后大家进行一个付款,这样呢到时候会有一个一百的返现,但是这个一百块钱是到时候我返给大家,其他的到没啥好说的,这个东西大家需要就买,不需要就算。

智声云配开课啦!语音转换 如果你仅仅只是想换个音色,要保留原语音的语气、情绪停顿等语音信息,可以用到我们的语音转换。上传音频文件,选择音频,选择音色模型,这里仅支持音色转换模型,点击转换,让我们来听一下转换前后的语音吧!总是喜欢吃一些高蛋白的食物, 比如说火腿肠、猫罐头之类的。总是喜欢吃一些高蛋白的食物,比如说火腿肠,猫罐头之类的。 对于不同性别之间的语音转换,还需要通过音调的调节来实现,男转女调到十至十二这个区间,女转男调到负十至负十二。您还可以根据自己的需求全选或多选语音文件进行批量转换。 官方提供丰富专业的情绪气声资源,根据需要的音色选择性别,点击即可试听。

大家好,我是苏主力,你们应该听得出来,我最近得了重感冒,但是 ai 音乐新产品的评测还是不能错过的。今天这期就是关于一个国产 ai 音乐新平台 yuki, 它是支撑云配旗下,结合了开源模型 a c step v 一 点五 turbo, 而且它有一个独特的技术是可以分离三十八轨的独立影轨,同时它也是网页客户端的产品,那就让我们一起实测一下。好,这样我们就进入到 yuki 的 页面了,那整体的页面的感觉其实是和 solo 是 比较像的,然后分为四个区域, 然后在这里面也是分 simple 和 custom 的 啊版本,不过呢它有一个比较复杂的在下面,它可以写具体歌曲的速度,它的调 啊,还有具体的一些拍号啊这些细节的东西。那做出来的音乐呢,现在是每次生成一条,呃,一次,耗费一个积分,是我生成的音乐的音质, 首先它的声控速度还是比较快的,几秒钟吧就能生成出来。然后这一部分就是我们分离轨道的一个页面,那有三种, 一个是呃人声和伴奏,然后还有一个是所有的音轨拆分,然后它这个 professional 也是它这次的主打的部分,是可以拆分三十八个音轨。我刚才拿了一首歌曲去拆分了一下它,我觉得现在的一个比较大的问题啊,并没有拆的特别好, 这首音乐是一个管弦乐的歌曲,是 time to say goodbye。 呃,它现在只拆出来了三条声音,一个是 vocal, 一个是 呃 others, 然后另外一个是鼓,而且鼓呢其实是没有拆分 drums 和 percussion 这段音乐呢,其实是有缓乐的,在 solo 里面它是可以把铜管和木管分开来拆,但是在这个里面呢,它只有一鬼 others, 所以在普通的拆音轨的部分,其实它还没有做的非常的好。那么我们进入到它的 professional 的 这个模式里面,就是它三十八轨的音轨的拆分,大家可以看到它每拆一个轨道就要耗分的点数 其实还是很高的啊。如果说我们把所有的轨道都拆分出来,它是可以拆的非常细,连声音里面的各种戏话的效果都是可以拆出来的。它的分类主要是乐器的演奏方式,而不是说西洋乐器或者是国产乐器。 后拉弦类的乐器呢,你像二胡和小提琴,它们俩是比较像的,包括它里面是可以把合唱和独唱拆分出来的,然后在鼓的细节上,它是有一些 kick 通鼓啊, snare 这些都可以拆分出来了。这里有一个人声克隆的部分,我觉得大家可以去关注。之前很多朋友说, 呃, solo 没有办法提取自己的人声,在这里就是可以的,大家可以把自己的干声放到里面,它是最短一分钟的声音, 然后就可以提取出来,然后你用自己提取的声音呢,就可以放到其他的音乐里面。另外我们要看一下它的词配标准,第一次注册可以有一百个积分,然后剩下的每天是有三十个免费积分,这样呢,第一次注册就有一百三十个积分, 然后大家看一下,这一百个积分等于十块钱,我还是觉得挺贵的,就像刚才我们要拆一个分轨,就拆几条,他的一百积分其实就没有了。然后呢?整体不是这种买断去的,我们用完了积分可以在这里买,但是确实是有点贵哈。 以上就是 uki 的 使用介绍,虽然和我们现在已有的 solo 和 ace studio 还是有一定差距的,但是作为我们刚刚上市的国产 ai 音乐平台, 并且有智声云配作为辅助,它的方向也是非常明确,它要做的是语音加音乐全场景的 ai 音频解决方案。目前 uki 已经开启了公测阶段,功能呢,也在持续迭代,有兴趣的朋友可以去尝试一下。我是苏楚丽,我们下期再见。

大家好,我是配音员折翼,今天发这个视频呢,是一个关于声音被非法克隆遭遇到侵权的这样一个求助的视频,我希望能够找到相关有经验的律师、法律界的朋友帮我维权,或者给我一些专业的建议。 因为太多人说维权很困难,时间成本和经济成本都不可控,所以我想通过这样的方式寻求一些朋友的帮助和支持吧。 首先要跟大家自我介绍一下,我从事配音行业有十一年的时间了,有大量的配音作品,包括广告、 tvc、 纪录片等,这作品都曾经在央视、爱奇艺、地方卫视等平台播出过。 声音对我们配音员来说啊,它不仅是吃饭的手艺,它其实更是我们表达自我的灵魂。我首先要声明就是我个人从未通过任何方式、任何渠道,授权过任何单位或个人对我声音进行过克隆、商用和转售。 但是在二零二五年十二月二十号的时候,通过朋友的告知,我发现一个叫做置声云配的网站,在他的音色市场当中呢,有标注了一个温暖磁性标签的音色和我的声音,是未经我授权下的克隆声音,大家可以听一下, 我是央视集宣传片配音老师阿宇,如果你喜欢我的声音,就选择我吧。 发现这个情况之后呢,我第一时间通过他们的官方 qq 群联系到了公司,也明确的告知对方,我说这个音色和我的声音很像, 他的上架售卖的行为已经涉嫌到侵犯我自己的合法声音权益了。我提出了三点我认为非常合理的要求,第一,必须在官方网站上面去登文致歉,消除一些相关的影响,第二呢是立即下架涉嫌侵权的这个音色。 第三就是呃,就已经发生的这个涉嫌侵权的行为向我作出合理的赔偿,对方当时的答复会同步相关的情况给到相关的部门和法务去处理。但是让我非常遗憾和难以认同的是, 在这个网站上面,他们公开承诺在生成式 ai 音频领域,他们率先做到了音色有授权,用户有权利使用,可选择生成可溯源上架音色均有线上或者线下签署的采集制作合同、 数字音色经济合同、音色使用授权书等必备法律文书。但是结合我自身的这个遭遇来看,我不知道是谁帮我签的啊,所以这个当中是不是存在巨大的漏洞啊,是不是没有按照他宣传的这样特别严格或者未合规, 后续呢,对方已经下架了涉嫌侵权我的这个音色啊,法官人员和市场的负责人也通过微信文字的方式告知了我这个音色的使用次数和相关的数据,但是呢, 他们始终以就是这个涉案的音色啊,是第三方上传的,并且第三方上传的时候呢,他们已经要求对方签署了授权申明的这个这个这个这个协议吧, 以这个为由去主张平台自身没有任何的相关责任,同时以用户隐私为由,他们拒绝提供上传该音色的第三方个人信息和联系方式给我,他们要求我通过律师和司法部门开局一个叫什么斜插函的东西。 以上的对话,所有的包括涉嫌侵权的这个行为啊等等,我都已经因为我最近在整理这个起诉的材料,所以也完成了这个声纹的鉴定,确认了这个音色和我自己是高度一致的, 所以这个所有的我们说证据链被告主体信息都已经准备完整了,我自己啊也查了一下这个相关的法律条款,其中我和大家想分享一个非常关键的知识点,也是我非常不认可对方抗辩理由的一个核心的依据 就是根据民法典还有相关的这个司法解释,网络平台想要适用这个叫做避风港原则、避风港规则来免除自身的责任, 他除了履行基础的比如说通知删除这个义务之外呢,他必须还要严格的证明自身不知道或者不应当知道存在侵权行为的这样的理由。 但是结合我这个事件的具体情况,我觉得是不是有这种放任无严格审核合规授权来源的克隆声音上架商用并且进行销售获利这种行为是不是已经构成了他应当知道侵权情形的一个责任?这一点其实也得到了 近年来多起 ai 侵权的这种相关的司法判例的支持。在类似的这个案件当中,法院都驳回了平台以第三方上传为由的一个免责的抗辩,也判令平台承担了相应的侵权的责任。 目前我们现在是已经下架了这个涉嫌授权的这个音色这个操作,但是对于此前已经发生的涉嫌侵权的这个行为呢,我们双方并没有达成共识,也没有和解, 我还是觉得平台应该兑现自己首页做出的音色有授权的这个公开承诺,把合规审核的义务落到实处,而不是只是表面上做了这个下架的操作之后就不再承担任何责任。所以我想说, 这条视频我会永久的保留,我的初衷并不是为了去追求那个高额的赔偿,而是在当下 ai 克隆声音侵权乱象频发的这个时候,我想借这个机会给所有配配音的同行啊。提个醒,大家其实可以主动的去排查各类 ai 音色的平台, 这个数量并不是特别多,也可以互相提醒,来守护好我们赖以生存的这个声音的权益。同时也想郑重的提醒相关 ai 音色的平台,第三方上传即可免责的这个说法,在法律框架和理想的法治环境下,他都不应该也不能成为平台逃避侵权责任的一个避风港。 可能目前针对 ai 侵权的这个相关的法律法规健全还不是特别健全,还在逐步完善的这个过程当中,维权的过程呢,也确实存在很多很多的困难, 但是我们不能只是去抱怨吧,我们应该站出来理性的维权,依法的发生,成为健全相关法律的一份子,为推动法治社会的建设出一份自己的力量,也推动 ai 音频行业可以合规的发展。 那最后呢,就希望法律界、司法界的一些朋友可以为我提供一些您力所能及的帮助,谢谢!

之前聊过 sharp onix 这个框架,但说的比较笼统,后台不少朋友留言,能不能演示一下实际效果?行,这期咱们就来点实在的,直接在手机上跑一个完整的语音识别模型。 好的,现在我们来演示一下离线实时语音识别的效果。我们可以看到手机的右上角,它是开了飞行模式的。这款手机是二一年的千元机,已经用了好几年了, 但是我们看到它的转写的速度还是很快的。此外,我们观察到转写的效果也是挺不错的。它使用的模型是阿里开源的, 它支持中文、英文、日语、韩语、粤语的语音识别,我们可以看到标点符号都能够正常的显示,当然时间戳也是支持的。 此外,这款模型还支持语种识别、情感识别、事件检测等功能。 这个模型是完全运行在 cpu 上面的,效果和速度都很均衡,非常适合生产级部署。好了,本期就演示到这里,关注我,下期继续分享实际应用案例。 这次演示用的是 sense voice 模型,简单说它是阿里开源的音频理解模型,特点是速度快、功能全、效果好,十秒音频只需七十毫秒,比 whisper large 快 十五倍。 模型这么强,为什么能塞进手机里?这就是 sharepoint onix 的 价值。它是一个跨平台语音模型部署框架,支持 android、 ios、 windows、 mac os、 linux、 harmony os, 支持十二种编程语言。 语音 ai 的 门槛正在被彻底打平,开源模型加开源部署框架,让任何开发者都能用几十行代码集成完整的语音识别能力,完全离线运行,不依赖任何云服务。
