万万没想到, deep tech 又一次冲上了热搜,这次他们开源了一个全新的 ocr 模型,直接把文字识别的效率提升十倍。这不是简单的技术更新,而是彻底改变了 ai 阅读的方式。先说结论,以后 ai 再理解文字,可能就需要先转化成图片,再像人类看书一样看图。 我知道这有点不可思议,但事实就是如此。首先,传统 ocr 就是 一个字一个字的扫描图片,先把所有的文字提取出来,再进行阅读,这样不仅会破坏原有的结构,而且遇到双栏文章和复杂的表格则直接傻眼。但 deepsea ocr 会首先阅读图片, 识别出哪里是标题,哪里是正文。即便是表格,它也会先对表格内容进行排序,然后把排序好的文字提取出来。 这样一来,识别准确率直接提升到百分之九十七。而且更重要的是,这项技术还带来了一个意想不到的成果,那就是利用视觉 token 完成对文本 token 的 压缩。当压缩率达到十倍时,仍然能保持百分之九十六点五的精度,这意味着大模型上下文的长度可以立马提升十倍。 想象一下,当我们阅读书籍时,并不是一个字一个字的阅读,而是一目十行就可以理解文章大致的意思。现在的 deep sea 就是 在模拟这个过程, 如果这项技术普及,文字将被彻底抛弃, ai 未来就只会看图了。如果你想要更高效的使用 ai 的 能力,将 ai 落地到自己的行业,不管是融入企业流程,还是策划视频进行互联网获客, 最重要的是搭建自己的行业知识库,加上我们专门优化的提示词结构,可以让 ai 真正懂你的业务。我把所有的技巧都放在了这个文档里面,需要的可以说一下。
粉丝1.9万获赞9.3万

deepseek 今天甩出的 o c 二二,直接颠覆传统图文识别逻辑。 openai 联合创始人看完都直呼要改写历史 传统 o c 二啥套路?扣字成 txt 再识别又慢又机械。但 deepseek o c 二二直接反着来,它让 ai 像人一样按逻辑顺序看图,不是死板从左到右扫,而是跟着图像含义动态重排内容。更炸裂的是效率和精度。 别人要六千个视觉 token 干完的活,他一百个 token 直接拿下,效率狂飙十倍,识别准确率干到百分之九十七。理解准确度和复制粘贴文字没差,单张 a 一 百一天狂处理二十万页, mit 协议直接开源,现在 ai 都学会用看代替读了, 这进化速度谁顶得住啊?未来所有大模型备料都可能直接扔图像,传统玩法真要被扔进历史垃圾桶了。

大家好啊,就在昨天, diffic 又发模型了,而且古代的一个很详细的论文啊,它发布了新一代的这个大语言视觉模型啊,叫做 diffic ocr 二啊,你记得几个月之前,他发过一个 ocr, 那 么这个是 ocr 二, 它是在升级版啊,而且呢,它发了同步的论文,这不仅是 ocr 技术的迭代,更是视觉编码从固定格式扫描向与因果推理的一次跃迁啊。而 且在相关的基本测试中,它以百分之九十一点零九的综合准确率刷新了相关的榜单,叫前代呢,提升了百分之三点七三,已经大幅领先 欧美其他的这些 ocr 的 模型啊,更重要,它用了一个让 ai 具备人类的阅读逻辑,而非简单的文字扫描。这个事咱们先解决什么叫 ocr, 你 们记得那个扫描仪吗? 扫描仪把那个纸放进去,或者把图片放进去,把它夸夸夸,把里面东西转成文字啊,这个东西的过程就叫 ocr, 就 把图片上的东西转成文字啊。所以他发的这个模型呢,不是 v 四,他发的模型依然是一个图形的解决模型,但这个模型的话呢,唯一的点就是说他让 ai 做了阅读逻辑,而不是以前的竹行的去扫描啊,以前的那个模型的话呢,长期依赖的这个编码器就是 c l i p 啊,这种编码器, 它就是光山扫描的顺序处理图像就是咵,扫出来发现这个东西一次是文字把它提炼出来啊,就从左上到右下,竹行呢,来 一行一行的来切分图像为固定的这样的一个一个行,然后强行将二维图像降为一维区域,忙扫,并不是这个里面有什么栏目布局,就直接把文字提炼出来,有什么样的标序什么的都不用管,段落也不管啊,甚至表格也不管啊,乱序的只要文字都提炼出来。是这样的一个东西, 这个 o c r, 它这个模型精妙在哪呢?它用了一个叫做 devin connor 这样的 v 二这样一个架构,然后这个架构用 l l m t 在 c l a p, 它实际上就让大模型自己去理解,它不用那个编码器了,用大模型就去开源相关的大模型作为这个编码的骨 啊,用重编码器而轻解码器的这个方式,将语言模型的因果推理能力注入视觉处理流程,这是一个。另外一个,他又做了一个因果查询机制,他那里面引入因果查询,通过独立的注意力机制演码策略实现两级的推理。一个全感知层,就是 把整个的东西呢感知做一遍啊,就把整个这张图上的所有东西他都理解一遍。另外一个是因果逻辑,他要推理每个部分之间是什么样一个关系啊,每个查询只能关注前面的,不能关注 其他的,他把这个因果逻辑弄明白,那这样打磨星就知道了啊。这张图上到底谁跟谁是什么关系?我是不是要给你做个表格啊?我是不是要这样留出段落,我是不是要这空格啊?他这样的最终产生的是一个非常类似于原本这样文字这样一个 o c r 结果啊, 淘汰结果,而且他在做动态的语气排语序排列,他根据大模型对这事理解,最后还是要去叫,对啊,而且呢,更关键的是什么?他在保持高精度的同时控制着计算成本? 他视觉 token 的 数量控制在多少呢?二百五十六到一千一百二十之间,也就是最多他就一千个左右的 token。 然后呢,跟那个 jimmy 三 pro 相当,但是它的规模参数呢?只是三 b 啊, jimmy 三 pro 是 多么庞大一个概念,而且它通过混合专家模式来实现的,所以在实际的生产测试环境中啊, 它在处理现行日制和 pdf 的 预训练的时候,识别的重复率分别下降了百分之二点零八和百分之零点八一, 极强的稳定性,而且得益于相关的压缩器的使用啊,它的模型支持动态分辨率是一零二四乘一零二四和一百加的语言,就是各种各样的语言的 ocr 移动端也可以实现文档处理。所以这个东西想什么啊,只要你要去识别图片中的文字,这个场景它都是可以使用的。更关键它是开源的啊,免费,它把什么都打在屏上了,而且它的成本极低,对吧?像那个拆 g p t 五点二啊,用这个事儿,它要大概要多少 token 呢?要用一万八千多个 token, 它有多少 token 呢?它最多用幺幺二零的 token, 所以 它的整个的算力的覆盖率和整体的成本的下降,那是限性的啊,而且它的开源,它的代码,它的论文全部都开出来了,所有人都可以在上面继续去 补刀,是吧?这个事就特别有意思了,而且昨天台元社区已经对这个事做了一个深度的解读,并且好多人就开始去尝试在自己的业务中接入这样的一个模型,而且我相信它逐渐的把这个事做了一个很多特性,大家都能看见了, 是吧?好吧,有朋友昨天晚上直播的人问我,老张,到哪去看你的会员视频,你会员视频好像很精致。这周的会员视频咱们着重在讲大芯片以及大芯片。为什么叫大芯片啊?为什么要用大芯片是吧?大芯片辅助有什么样的一些新的机会啊?这个东西呢?请大家关注小程序奥特斗斗与瑞克老张科普课。 关注这个啊,上面有那金卡,那是会员卡,点击那就可以了啊,咱们现在的会员幺三九九是平台给补贴的啊,一年一百八十个视频,三十二场以上的直播,是吧?所有专栏免费看,你说我不想加会员,没关系,我们有免费的专栏啊,那专栏是我们各个平台的内容精选,你就一网打尽了啊,就可以在这 进购,以后看,对吧?比如说我不知道我们会员讲的是啥,我们有会员的直播的回放,我们是特价九块九啊,可以买一个,可以先看一下,看一下对你有没有帮助,好不好啊?而且我们上面有客服的,可以加他啊,跟他好好聊。好吧,今天就到这,我是瑞克老张,关注我,带大家看中国科技的高度和温度,我们下期见,拜拜。

ai 圈的技术浮笔,往往藏在看似小升级里, deepsea 悄悄上线了 deepsea co c r, 距离上一代模型发布仅隔三个月,既不是刷新扳指 mark 的 sota 王者,也不是颠覆式架构重构。这款看似缝补式升级的模型,却让不少技术人嗅到了不简单的信号。 deepsea 频频死磕 oc 二,难道是在为传闻中的威斯模型铺路?比起前代,这次的核心改动全集中在眼睛上,也就是视觉编码器 deeppencodevr, 最关键的调整是把原本基于 clipp 的 视觉编码模块换成了 quincy 五百米大圆模型 l l m。 别觉得这只是简单替换,背后藏着对 ai 阅读逻辑的颠覆。传统视觉语言模型处理文档时就像个死板的打字员,不管是复杂表格、嵌套公式,还是多栏排版,都只会按左上到右下的固定顺序扫描,把二 d 图像强行拉平成先行序列位给模型,哪怕内容逻辑是跳跃的,也得逼着 l l m 自己去悟真实阅读顺序, 效率和准确率自然受限。而 deep c code c r 出了个新花样,给编码器加了因果查询能力。简单说就是让模型现在视觉测学会怎么看,不再机械扫频, 而是像人一样根据语义逻辑调整阅读顺序,看表格,先读表头,再看内容,看公式,先抓主干,再理分支,真正实现了语义驱动的灵活阅读。如果只看 ocr 任务本身,这次升级顶多算优化体验, 但 dpc 可在论文里的一句话,直接暴露了真实意图。 ocr 二的核心价值,是验证了 llm 作为视觉编码器的可行性, 这可不是小突破,而是通往原生多模态的关键一步。所谓原生多模态,核心是打破文本、图像、音频等数据的模态壁垒,让同一个编码器只要切换不同的模态,查询、嵌入,就能统一处理各类数据,真正实现万物皆可投垦,万物皆可因果推理。而 ocr 二正是这个宏大蓝图的技术试验田。用 llm 做视觉编码, 本质是在探索跨模态统一处理的底层逻辑。更巧的是,近期 get up 代码泄露的线索也让这一猜测更有说服力。开发者在 deep sec 的 推理优化库中发现了与 v 三点二平行的 model 一 架构标识被普遍解读为 v 四模型的前兆,且代码细节暗示即将适配新一代硬件。聚焦多模态与推理架构突破, 结合 ocr 的 技术验证,不难猜测,微四大概率会是一款以原生多模态为核心的旗舰模型。从 ocr 到通用智能, deepsea 再走一条笨路。比起直接堆参数冲榜单, deepsea 选择从 ocr 这个使用场景切入多模态,看似绕远路,实则暗藏巧思。 ocr 是 llm 时代最落地的视觉任务之一,文档中的表格公式多栏排版本身就是多模态理解的微缩场景。 现在这个场景里,验证 l l m 视觉编码因果推理的可能性,既能快速落地产生价值,又能为通用多模态模型积累实战数据。 毕竟,真正的通用智能从来不是靠实验室数据堆出来的,而是要在真实场景中打磨逻辑。正如 tipsix 在 论文中所说, o c r 只是视觉理解宏大图景的一小部分,从 clip 到 l l m 的 编码器替换,从固定扫描到因果推理的逻辑升级,每一步都在为打破模态边界铺路。 结合现有线索,传文中二月发布的 deepsea v 四大概率会搭载 mhc 新架构与多模态融合能力,而 oc 二二验证的 llm 视觉编码技术或许会成为其核心模块之一。 若能实现文本、图像、音频的统一,因果推理无疑会在国产大模型中撕开一道差异化口子。毕竟 ai 的 终极目标从不是更准的识别文字,而是像人一样看懂、读懂、想懂万物。 deepsea 的 这波操作,到底是技术铺垫,还是另有布局?咱们静待 v 四揭晓答案。

前两天呢,预热了很久的这个 deepsea 微四没有来,然后等来了 deepsea 开源了一个新的 ocr 模型 ocr 二。 然后大家可能会纳闷,就说一个搞这个大模型呢,为什么愣死磕这个 ocr 模型呢?嗯,其实这个, 嗯大模型训练的话,它需要很多的数据吗?嗯,这些数据大部分要么说来自于网上,要么说来自于书上, 然后你像这些数据很少有那种特别标准的结构化的,嗯,比如马克当啊, word 啊, t s t 啊这种这种格式的数据有很多都是论文,论文都是以什么形式呢?都是 pdf 的。 然后这些数据如果说让大模型去训练的话,总不能让人去把它抄下来吧?肯定是需要去把它快速的解析成这个 markdown 的 文档啊,或者说是嗯,训练所需要的这种这种格式文档。 这个我们很自然的就会想到用 ocr, 就 此刻这个自己的 ocr, 然后他有了自己的第一个版本,说实话就已经像比较传统的 ocr 来说有了一个很大的一个飞跃了,然后他现在又发布了自己的第二代的 ocr 模型。 以前呢,我们的 ocr 模型,嗯,更像是扫描仪在扫描,就是他是从左到右,然后就是从左上角到右下角,猪行的去扫描,然后去读取这个文本。但是你像报纸,像那种有分页有分栏的, 嗯,这些的话,它是有一些特殊格式和结构的,像这些的话,我们,嗯人一眼肯定一眼就能看出来,我们比如说先看左半边,再看右半边, 但是你传统的 ocr 它是不具备这个能力的,嗯,像现在它,嗯,新发布的这个 ocr 二模型呢, 就能够像人眼睛一样,就像说白了就是模拟人的这种习惯,然后他能够按着这个文本的意思去不对,去一边识别,然后一边理解,然后呢一边去读取后边的这个 文本,这样的话识别的准确率,还有据说他这个视觉透彻也能省很多。 这个应该是属于是在为训练更好的大模型来准备工具箱, 应该也不算是弹药。弹药的话就是数据吗?因为他这是前期准备数据的一个手段,我觉得他更更像是一个训练前的一个工具箱。其实我很不理解,就是 deepsea 他的母公司,嗯,换方量化呢,是做这种量化基金的,然后他说白说不好听点就是专门收购我们这些散户的嘛。但是他为什么在这个开元这条路上, 能够在中国这样的一个环境里边把开元这条路走这么深,而且走这么好,把这么多好的东西,好的技术都开源出来,让大家去免费的去使用。 嗯,我是说实话,我有点想不明白啊,我,我对本身对这个开元的这个模式我也没有看的特别透彻,包括像他的这个我就更没看太明白了,他是,难道说他是为了用这个 开元的贡献来去掩盖他量化嗯,镰刀的锋利吗?大家去来分析评价一下。

