00:00 / 03:20
连播
清屏
智能
倍速
点赞1
00:00 / 02:39
连播
清屏
智能
倍速
点赞650
恒玄BES2800的VPU与VAD与KWS语音唤醒识别技术概论 加我V hezkz17可申请加入数字音频系统研究开发交流答疑群课题组领取KWS语音识别资料 在BES2800芯片上实现语音唤醒,VAD(语音活动检测)和KWS(关键词唤醒)不是二选一的关系,而是通常协作使用的“级联”关系。 理想的技术路径是:先由VAD持续监听,初步判断有语音活动后,再触发KWS进行精确识别,确认是否为预设唤醒词。 VAD与KWS:角色与协作 我们可以从下表中清晰地看到VAD与KWS在语音唤醒系统中的不同角色和它们如何高效协作: 功能角色 · VAD (语音活动检测) · 作用:系统“耳朵”的初步过滤器。负责在持续音频流中区分“有没有人声”。 · 运行状态:常时开启,功耗极低。 · 输出结果:检测到声音/未检测到声音。 · KWS (关键词唤醒) · 作用:系统的“大脑识别器”。负责在VAD检测到的人声片段中,识别“是不是特定唤醒词(如‘你好小微’)”。 · 运行状态:仅在VAD触发后启动,功耗较高。 · 输出结果:唤醒词匹配成功/失败。 级联工作流程 1. 监听:芯片持续监听麦克风,VAD算法作为第一关,过滤掉背景噪声和无声片段。 2. 触发:一旦VAD判定当前音频帧可能包含人声,立即激活KWS模块。 3. 识别:KWS模型对包含人声的片段进行分析,判断是否匹配预设的唤醒词。 4. 响应:只有当KWS确认匹配成功,系统才会正式“唤醒”,进入后续的语音识别或命令执行流程。 基于BES2800的优势与实现方案 BES2800的强大硬件(异构计算架构、集成NPU)为高效实现上述级联方案提供了理想平台。其实现路径和关键优势可参考以下几点: · 发挥NPU优势 · 关键点:将计算密集的KWS模型部署在BES2800的双核BECO NPU上。 · 优势:利用NPU的专用AI算力进行高效推理,在保证识别精度的同时,功耗远低于使用CPU处理,这是实现“常时监听”的基础。 · 优化前端信号处理 · 关键点:在音频信号送入VAD/KWS前,充分利用芯片的HiFi 4 DSP进行音频前端处理。 · 优势:DSP可以高效运行AEC(回声消除)、ANS(噪声抑制)、BF(波束成形) 等算法,有效提升嘈杂环境下的VAD准确率和KWS的唤醒率。
00:00 / 04:54
连播
清屏
智能
倍速
点赞0
00:00 / 02:01
连播
清屏
智能
倍速
点赞21
00:00 / 03:36
连播
清屏
智能
倍速
点赞2548
00:00 / 02:37
连播
清屏
智能
倍速
点赞25
00:00 / 00:27
连播
清屏
智能
倍速
点赞13