00:00 / 02:12
连播
清屏
智能
倍速
点赞1167
00:00 / 00:23
连播
清屏
智能
倍速
点赞4
00:00 / 18:47
连播
清屏
智能
倍速
点赞246
00:00 / 19:50
连播
清屏
智能
倍速
点赞NaN
00:00 / 01:17
连播
清屏
智能
倍速
点赞59
00:00 / 02:49
连播
清屏
智能
倍速
点赞77
00:00 / 05:14
连播
清屏
智能
倍速
点赞14
00:00 / 00:40
连播
清屏
智能
倍速
点赞119
00:00 / 00:19
连播
清屏
智能
倍速
点赞2890
00:00 / 01:57
连播
清屏
智能
倍速
点赞8260
00:00 / 00:30
连播
清屏
智能
倍速
点赞97
AI 如何识别你的声音 AI 在识别人声的时候,其实并不是在“听故事”,而是在“看图”和“算规律”。 人说话时,嘴巴里出来的是一串连续的声波。AI 做的第一件事,就是把这串声波“拍成一张张照片”。 更准确一点,是把声音切成很多很短很短的小片段,每一小段再用数学方法画成一张“频谱图”。这张图上,横轴是时间,纵轴是高音低音,不同颜色代表声音能量的强弱。 从人的角度看,那就是一块花花绿绿的“声音照片”;从 AI 的角度看,这是它能读懂的“声纹条形码”。 接下来,AI 不会直接拿整张频谱图去“死记硬背”。它会先用一层层神经网络,把这些图像压缩成一串更抽象的“特征向量”。 可以把它想象成:有人看一只猫的照片,不会记每一根毛,而是提炼出“有耳朵、有胡须、四条腿”这样的特征。 AI 也是类似的,只不过它提炼的是声音里的节奏、高低变化、共振峰等细节,最后变成一串串数字特征序列。 在这个基础上,就轮到“声学模型”出场了。 声学模型专门负责回答一个问题: “刚刚这一小段声音,更像是‘b’,还是更像是‘p’,或者是别的音素?” 它不会一下子就给出完整的词,而是把声音拆成更细的语音单位——音素,就像把一句话拆成一个个拼音声母、韵母。 每一小段音频进去,声学模型都会给出一个概率分布: “有 70% 可能是这个音,20% 是那个音,10% 是其他音。” AI 其实是在不断做这种“哪种音更像”的判断。 但只有音素还不够,因为很多音在不同语境下发音会很像。 这时就需要“语言模型”上场,相当于一个懂语法、懂常识的“语文老师”。 语言模型会看整句话的上下文,判断: “在这里,更有可能是‘银行’,还是‘迎行’?” 它会根据语言习惯、词语搭配、甚至常见短语的统计规律,给出一条最合理的词序列。 所以,从头到尾,AI 真正“听”的,并不是人耳里的那种“声音”,而是: - 先把声音变成一张张频谱图; - 再把频谱图变成一串数字特征; - 用声学模型给每一小段声音打上“音素”的概率标签; - 最后用语言模型,根据语境把这些音素组装成词和句子。
00:00 / 02:10
连播
清屏
智能
倍速
点赞2