00:00 / 05:21
连播
清屏
智能
倍速
点赞275
DeepSeek-OCR 2发布模拟人类视觉的文档理解新突破 DeepSeek今天推出DeepSeek-OCR 2,提出创新的“视觉因果流”技术,模拟人类视觉的动态扫描模式,让大语言模型能够像人一样智能阅读复杂文档。该模型在关键文档解析基准上实现91.09%的SOTA性能,超越同视觉Token预算的Gemini 3 Pro。 核心创新:视觉因果流打破传统扫描局限 传统视觉语言模型采用僵化的光栅扫描顺序(左上到右下)处理图像,而人类视觉会根据内容逻辑灵活移动视线。DeepSeek-OCR 2的DeepEncoder V2编码器通过定制化注意力掩码实现“双轨并行”处理: 原始视觉Token使用双向注意力保留全局感知,而可学习查询采用因果注意力逐步梳理信息,形成符合逻辑的“新阅读顺序”。这种设计构建了两阶段级联因果推理架构。 架构突破:LLM风格编码器取代CLIP DeepEncoder V2用紧凑的Qwen2 500M架构取代CLIP,通过“前缀+后缀”的解码器式设计,让视觉Token与因果流查询充分交互。多裁剪策略动态调整视觉Token数量(256-1120个),与Gemini 3 Pro预算相当。 性能领先:全面超越前代与竞争对手 在OmniDocBench v1.5测试中,DeepSeek-OCR 2以1120个视觉Token取得91.09%综合得分,较前代提升3.73%。关键指标阅读顺序编辑距离从0.085降至0.057(降低32.9%),证明其逻辑理解能力显著提升。 与Gemini 3 Pro对比中,DeepSeek-OCR 2在相同Token预算下整体编辑距离0.100优于对手的0.115。生产环境测试显示其内容重复率显著降低,验证了架构实用性。 未来展望:迈向真正2D推理与原生多模态 该技术为实现真正2D推理开辟新路径——通过两个互补的1D因果推理子任务处理2D理解。LLM风格编码器有潜力演化为统一的全模态编码器,为原生多模态发展奠定基础。 目前DeepSeek-OCR 2的代码和模型权重已在GitHub开源,推动文档理解技术进入新阶段。
00:00 / 08:58
连播
清屏
智能
倍速
点赞9
00:00 / 01:13
连播
清屏
智能
倍速
点赞0
00:00 / 01:53
连播
清屏
智能
倍速
点赞3
00:00 / 00:48
连播
清屏
智能
倍速
点赞6
Qiuming4天前
DeepSeek发布革命性「因果流」视觉推理模型 DeepSeek发布革命性「因果流」视觉推理模型,登顶性能榜单 DeepSeek重磅推出新一代光学字符识别模型DeepSeek-OCR2,凭借其首创的「因果流」(Causal Flow)视觉推理技术,在多项基准测试中取得领先,性能超越Gemini等模型。 此次升级的核心是全新的DeepEncoder V2视觉编码器架构。它摒弃了传统AI固定顺序(从左到右、从上到下)扫描图像的方法,转而模仿人类的逻辑阅读习惯。模型能够根据语义内容动态调整“视线”焦点,像人类一样先读标题、再看正文、按逻辑处理表格和分栏,实现了从“固定扫描”到“语义推理”的范式转变。 这种创新使DeepSeek-OCR2在理解复杂版式文档时逻辑性更强、顺序更准。在OmniDocBench v1.5基准测试中,综合得分高达91.09%,提升3.73%。在文档解析编辑距离指标上,其成绩(0.100)优于Gemini-3 Pro(0.115)。在实际应用中也显著降低了文本重复率,提升了数据清洗质量。 遵循其一贯的开源承诺,DeepSeek已公开相关论文、代码和模型权重。该公司表示,DeepSeek-OCR2验证了“大语言模型作为视觉编码器”的可行性,是迈向真正统一、原生多模态人工智能的重要一步,未来有望用同一架构处理文本、图像、音频等多种模态信息。 https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
00:00 / 02:57
连播
清屏
智能
倍速
点赞0
00:00 / 00:20
连播
清屏
智能
倍速
点赞563
00:00 / 00:18
连播
清屏
智能
倍速
点赞16
00:00 / 00:17
连播
清屏
智能
倍速
点赞16
00:00 / 01:26
连播
清屏
智能
倍速
点赞4
00:00 / 01:07
连播
清屏
智能
倍速
点赞0
00:00 / 00:35
连播
清屏
智能
倍速
点赞3