哎呦我的妈。哈哈哈哈哈哈哈哈哈哈。 今年的目标就是比去年快乐,比去年健康,比去年有钱。不发脾气只发财。愿财神知我意,今年多赚人民币。希望在不声不响的日子里换来一个好的转弯。
粉丝1165获赞7.4万



哈喽,大家好,我是永刚,今天和大家聊一个听起来像黑科技,但已经真实发生的事。只需要几秒钟的录音,就可以完美复刻一个人的声音,甚至连开心、叹气、犹豫的情绪都一模一样。这要从微软最近发布的一个模型开始说起。 m a i voice one, 先给你一个画面感,假设你是一个播客主播,每周要录一期三十分钟的节目。以前你得一个小时一个小时的坐在麦克风前口干舌燥,现在你只需要对着手机说三句话。大家好,我是,今天我们来聊, 就三句话,几秒钟。然后 ai 就 能用你的声音替你念完一整本书、一整期播客,甚至一整部有声剧。 而且不是那种冷冰冰的机器人腔调,是你自己说话时的那种高兴、叹气、犹豫、强调这些情绪全都有, 这感觉像什么?像你给自己请了一个声音替身,比双胞胎还要像你。这个模型叫 m a i voice one, 来自微软 ai, 今年四月二号刚在 microsoft 方阵发布。 它有几个数字,你听完会记住。第一生成速度,一秒生成六十秒的音频。什么意思?你喝一口水的功夫,他已经帮你念完八百字的文章。第二,样本需求只需要几秒钟的原始录音,不是几分钟,不是几个小时,而是几秒钟。 第三,价格二十二美元,每百万字符换算一下,一本三题大概需要二十万字,成本也就不到五美元。 而且它不是实验室玩具,微软已经在自己的产品里使用上了 copilot podcast, 能自动生成双人对谈播客, 你听到的另外一个主播可能根本不存在。好,我知道你在想什么,这不就是变声器吗?很久之前就有了呀。不是的,传统的语音合成,本质是拼接录几千个音素,然后在需要的时候拼起来,所以听起来断断续续,没有情感,像机器人念经。 而 m a i voice one 做的是剑魔,它从极短的几秒音频里提取了两样东西,一个是你的身纹特征,包括音高、音色、共振峰。另一个是你的韵律规律,包括哪里停顿,哪里中毒,哪里语调上扬。 然后他用这些规律去驱动一个神经伸马器实时生成波形。我们来用搭积木做个比方,传统的方法是先切好成千上万的积木,然后一块一块的拼。新的方法是只看一眼你搭的小房子,就学会了你的搭建风格,然后用全新的积木搭成一座大厦。 风格是你的,但每一块砖都是新造的,所以他才能做到常温稳下声音,身份不漂移。 传统的克隆模型,前几句像你,但后面就开始走样了,但这个模型,一整本有声书听完,从头到尾都是同一个人。 最让人想不到的是情感,我们以为 ai 说话永远是那个调调。你好,请问有什么可以帮到您? m ai voice one 能区分你再说太好了,和好吧直接到细微差别,他甚至能学会你说话时的习惯的叹气、笑声,甚至是思考时的。嗯, 怎么做到的呢?训练数据里标注了情感标签和副语言事件模型,不止学什么字,还学用什么情绪说,所以他深沉的语音听起来像真人一样有温度。我举一个具体的场景,假如说你是一个有声书制作人,以前录一本十小时的小说 需要专业配音员,花一周的时间,成本好几千。现在只需要提供几秒钟的声音样本,选择一种情绪基调,比如悬疑或者温暖模型,就可以在十分钟内深层全书,而且每一张的情绪连贯不跳戏,效率提升了多少几百倍。当然,技术从来都是双刃剑, 对于技术的安全性又提出了很高的要求。好的,我们复盘一下今天学到的知识点。第一,声音的克隆不再需要海量的数据,几秒钟的样本就够了。第二,合成语音可以带着情感和个性,不再像机器人。第三,长文本下声音可以保持稳定,不穿帮。 第四,这种技术已经落实到了具体的产品里,而且对它的安全性有很高的要求。你可能不是播客,不是配音员,但这个技术会很快进入你的生活。你的导航语音可以换成你爱人的声音,你的语音助手可以学会你说话的节奏。 了解前沿科技不是为了焦虑,而是为了更早的看到机会,也更早的知道边界在哪里。如果这期视频让大家对 ai 语音有了一个新的认识,欢迎大家关注我,我是永刚,下期见!

啊啊哈哈哈哈哈哈哈哈。 不错差不多差不多哈哈 哈哈哈哈哈哈哈哈哈。 看徐州音乐厅瞅这俩长得跟大马猴似的。嗯?说什么?兄弟你干啥?我朋友跆拳道黑带,现在睡觉睡觉呢?你干啥?下来为我发声 报数。一一二三四五。 撵上你了撵上我了哈哈哈哈。 oh hahaha, oh, oh, oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh oh。 哎,你好,我问一下。