00:00 / 02:51
连播
清屏
智能
倍速
点赞45
00:00 / 01:17
连播
清屏
智能
倍速
点赞26
00:00 / 01:16
连播
清屏
智能
倍速
点赞NaN
00:00 / 01:41
连播
清屏
智能
倍速
点赞6
00:00 / 02:12
连播
清屏
智能
倍速
点赞44
00:00 / 13:10
连播
清屏
智能
倍速
点赞174
00:00 / 02:11
连播
清屏
智能
倍速
点赞2
00:00 / 01:40
连播
清屏
智能
倍速
点赞12
00:00 / 02:11
连播
清屏
智能
倍速
点赞3
百融开源CoDeTT评测基准 揭开语音AI"听懂"假象,40%正确率竟是蒙的: 今天,百融云创团队正式开源了CoDeTT评测基准,这是一个专门针对语音AI轮次交接能力的诊断工具。测试结果显示,当前主流全模态大模型在语音交互中,有超过40%的所谓"正确操作"实际上是蒙对的——模型根本没有真正理解用户的意图,只是碰巧做对了动作。 这个发现撕开了语音AI行业的一个系统性盲区。目前全行业评测语音交互能力,最主流的方法叫端点检测,也就是判断用户说完了没有。说完了就接话,没说完就等着。这种简单粗暴的二分类问题,只看模型做了什么,从不问为什么这么做。 CoDeTT构建了一个三层诊断体系。第一层判断系统状态,是正在说话还是等待用户。第二层确定宏观动作,是继续说、停下来听、接管发言还是忽略不理。第三层是核心——判断决策理由,设置了14种细粒度意图场景作为陷阱测试。 测试覆盖了Gemini3-Pro、GPT-4o-audio、Qwen3-Omni、MiniCPM-o-4.5等当红明星模型。专用端点检测控制器在"接管话轮"上分数很高,但在"该不该忽略"场景下直接崩盘,100次该忽略的情况只判断对了不到7次。全模态大模型看起来是优等生,但MiniCPM-o-4.5在Maintain场景下语义错位率高达55.93%,意味着超过一半的"正确保持说话"是蒙对的。 CoDeTT还发明了一个全新指标——语义错位率SMR,专门揪出那些动作蒙对了但理由完全错误的案例。没有任何一个模型的SMR低于15%,最好的Gemini3-Pro也在15%到25%之间,每5次正确操作中至少有1次是碰巧做对的。 更反直觉的是,上下文历史增加到5轮后,模型性能反而变差,尤其在打断场景下,性能下降、SMR升高。这说明模型停下来不是因为听到了打断,而是因为历史惯性告诉它该停了。 CoDeTT已在GitHub开源,包含300小时中英双语数据、18000个标注实例。百融用这项研究向行业提出了一个扎心的问题:反应快有什么用?模型根本不知道自己为什么要这样反应。
00:00 / 02:50
连播
清屏
智能
倍速
点赞0
00:00 / 03:00
连播
清屏
智能
倍速
点赞19
00:00 / 01:16
连播
清屏
智能
倍速
点赞4