00:00 / 01:13
连播
清屏
智能
倍速
点赞0
DeepSeek-OCR 2发布模拟人类视觉的文档理解新突破 DeepSeek今天推出DeepSeek-OCR 2,提出创新的“视觉因果流”技术,模拟人类视觉的动态扫描模式,让大语言模型能够像人一样智能阅读复杂文档。该模型在关键文档解析基准上实现91.09%的SOTA性能,超越同视觉Token预算的Gemini 3 Pro。 核心创新:视觉因果流打破传统扫描局限 传统视觉语言模型采用僵化的光栅扫描顺序(左上到右下)处理图像,而人类视觉会根据内容逻辑灵活移动视线。DeepSeek-OCR 2的DeepEncoder V2编码器通过定制化注意力掩码实现“双轨并行”处理: 原始视觉Token使用双向注意力保留全局感知,而可学习查询采用因果注意力逐步梳理信息,形成符合逻辑的“新阅读顺序”。这种设计构建了两阶段级联因果推理架构。 架构突破:LLM风格编码器取代CLIP DeepEncoder V2用紧凑的Qwen2 500M架构取代CLIP,通过“前缀+后缀”的解码器式设计,让视觉Token与因果流查询充分交互。多裁剪策略动态调整视觉Token数量(256-1120个),与Gemini 3 Pro预算相当。 性能领先:全面超越前代与竞争对手 在OmniDocBench v1.5测试中,DeepSeek-OCR 2以1120个视觉Token取得91.09%综合得分,较前代提升3.73%。关键指标阅读顺序编辑距离从0.085降至0.057(降低32.9%),证明其逻辑理解能力显著提升。 与Gemini 3 Pro对比中,DeepSeek-OCR 2在相同Token预算下整体编辑距离0.100优于对手的0.115。生产环境测试显示其内容重复率显著降低,验证了架构实用性。 未来展望:迈向真正2D推理与原生多模态 该技术为实现真正2D推理开辟新路径——通过两个互补的1D因果推理子任务处理2D理解。LLM风格编码器有潜力演化为统一的全模态编码器,为原生多模态发展奠定基础。 目前DeepSeek-OCR 2的代码和模型权重已在GitHub开源,推动文档理解技术进入新阶段。
00:00 / 08:58
连播
清屏
智能
倍速
点赞9
00:00 / 08:55
连播
清屏
智能
倍速
点赞173