深度解读 | Inference-Time Scaling of Verification 🔍 研究背景: 现有的深度研究智能体(Deep Research Agents)在处理复杂知识发现时,常受困于严重的“幻觉”问题和不可靠输出。传统的测试时扩展(Test-Time Scaling)往往只是低效地重复错误,无法从根本上修正推理逻辑的缺陷。 💡 核心创新: 腾讯AI Lab与港中文团队利用“验证不对称性”第一性原理(即**验证真伪通常比生成答案更容易**),构建了DeepVerifier框架。该框架基于从555个真实失败案例中提炼的错误分类学,指导智能体进行自我进化。 1. **三段式验证架构**:通过分解模块(Decomposition)拆解复杂问题,验证代理(Verification Agent)检索高价值证据,最后由裁判模块(Judge)提供文本反馈梯度,驱动自我修正。 2. **超越闭源模型的效能**:在GAIA等基准测试中实现了8%-11%的准确率提升;发布的DeepVerifier-8B开源模型在经过多轮反思迭代后,性能表现甚至超越了GPT-4.1。 🚀 潜在影响: 这项工作证明了在推理阶段扩展“验证能力”比单纯扩展“生成能力”更具性价比。发布的DeepVerifier-4K数据集将大幅降低深度研究智能体的门槛,助力开源小模型在复杂任务上打破闭源大模型的垄断。 📄 论文原文: 标题:Inference-Time Scaling of Verification for Self-Evolving Deep Research Agents 链接:https://arxiv.org/pdf/2601.15808 💬 互动话题: 想听我们的“数字人”解读哪篇论文?评论区告诉我! 本视频由AI技术生成,数字人形象与声音为模拟,旨在科普前沿科技,无任何商业恶意,如有侵权请联系删除。
00:00 / 04:15
连播
清屏
智能
倍速
点赞0
00:00 / 08:25
连播
清屏
智能
倍速
点赞0
00:00 / 03:13
连播
清屏
智能
倍速
点赞2939