我怎么感觉本地部署的这个模型要比官网上的表现效果要好一点?大家好,昨天拍的 lucia 开源了最新的 vr 一 点五版本,号称文档解析能力大幅提升。视频的后面我会讲解如何对模型进行本地部署。我们先简单看下它和前辈们的对比。 先看下对公式内容的识别,一个是 deepsea qcr 二模型的识别效果,一个是本期的主角 vl 一 点五 deepsea 杠 ocr 对 这张图片的识别是缺少一点内容的。我们重点来看一下拍的 leo kcr 一 点五模型, 可以看到这里,这里少了一个 f, 整体上的识别效果是非常好的。 来看一下 miniro 的 识别效果,这里它将 x 趋向于 x 零的位置识别,错了,应该是在下面,而不是在右侧。下面。再来看一下对杂志排版的识别效果, 这里无论是 dpc 二二还是 miniro 以及之前版本的 pad, 它们对杂志排版的识别都没有问题。 再来重点看一下派德利欧克 v l 一 点五模型,可以看到它对杂志排版的识别效果非常好。细心的朋友可以发现,我上传的这个杂志它是属于模糊版本的,它有很多字体都是模糊的, 相比其他模型对模糊字体的识别会有很多的错别字。这个 v l 一 点五模型对这张模糊杂志的识别出现的错别字不是很多,个人感觉这也是该系列模型的一的很大的进步。 接下来看一下对手写体排版的识别,可以看到 deepsea 到 ocr 的 识别顺序出现了错误, 米纳鲁的识别顺序没错,但是出现了一个错别字,无论是帕德洛 cr v l 模型还是今天的帕德洛 cr v l 一 点五模型,它们的识别效果都是非常好的。 最后来看一下模型对拍照版表格的识别效果,可以看到 mini 入对复杂表格的识别效果并不是很好。其实这里通过对比可以发现, padliakov 的 好像是优于 v 一 点五模型的。 下面说一下如何对该模型进行本地部署。在动手之前先要把架构搞清楚。这次的部署和以前不一样,它采用了微服务架构,我们需要启动两个容器, 第一个是 vlm server, 也就是大模型的大脑负责推理。第二个是 padlan, 负责 ocr 流程控制和版面分析, padlan 会通过 http 请求去调用 vlm server。 首先使用多克去拉 vlm 模型的镜像, 创建成功后看一下运行日期,当出现成功后看一下运行日期。当出现成功后,看一下运行日期,当出现成功。 接下来需要再次使用多可拉取 padlan 镜像查看日记。当看到八千端口的时候,代表模型服务已经备好,当然具体的端口号取决于自己的配置文件,不一定非要和我的一样。 完成了以上步骤,已经拥有了一个属于自己的 ocr 模型服务了,而且还是最新款的。最后根据需要简单地写一个脚本就可以使用了。我们现在让它处理一个拍照版表格看看效果, 可以看到显卡正在工作。 好,处理成功, 来看一下效果。额,感觉处理的效果好像比官网的要好一点。帕德利欧克 vr 一 点五模型仅有零点九 b 参数,对选存友好,非常适合本地部署。本期视频结束,感谢观看!
粉丝8087获赞8.4万

截止二零二六年初,结合 graph 上的 issue 反馈, omnicbench v 一 点五的榜单数据以及社区大量的落地实测,结论非常明确,当前 ocr 部署的综合首选直接上 glm ocr。 一 旦你的场景锁定在常规的商业文档,比如把 pdf 转成 marchcom 分 析研报或者处理合同, glm ocr 就是 目前的完胜者。理由很简单, 而且懂结构,它每秒能处理将近两页,而且原声支持 v i l m 加速。最关键的是,它吐出来的是结构极其规整的 mac pen 或者 j s。 做过 i a g 知识库的朋友都知道,这种不需要二次清洗,直接能喂进系统的数据,用起来有多舒服。 但是注意这个转折,如果你的输入源变成了手机拍的皱巴巴的纸、超市小票,或者是严重扭曲的发票, g l m o c r 马上就会水土不服。它容易把扭曲的字直接根据上下文脑补错。 这种脏乱差的工业场景必须切换到拍到 o c r v l 一 点五。它针对物理基变折痕侧拍做了专门的底层优化, 哪怕字都歪成波浪线了,它也能硬核地把字形给你抠出来。 glm ocr 之所以强,是因为它彻底改变了 ocr 的 底层逻辑。传统 ocr 是 在一张图上找字,而 glm 是 在读文档。 它拥有视觉大模型的语义理解能力,对于跨越的表格、复杂的排版,它不是机械的拼凑字母,而是能根据逻辑直接重组。除了脑子好使,它的手脚也极其利索。得益于现代大模型的生态红利, 你可以直接用 v l l m 或者奥拉玛这些后端来跑,一条命令就能启动。在同样的显卡下,它的吞吐量能比竞品高出百分之三十到四十, 而显存占用却只要两三个 g。 这种部署体验对开发者来说简直就是降维打击。但是作为一款视觉大模型, l m o c r 也有一个娘胎里带出来的致命硬伤,那就是语义幻觉。因为它太聪明了。遇到模糊不清的数字,传统 o c r 会给你涂乱码, 但他会根据上下文给你猜一个合理的数。比如我看过他把模糊的单据日期直接脑补成了今天的日期,这种特性做研报摘要是智能, 但如果你用在财务报销或者医疗单据上,这就是灾难。另外,目前版本在处理极度密集的 excel 截图时,偶尔会触发复读机 bug, 此循环的重复输出同一行数据,这些坑在选行之前必须心里有数。如果你被 glm 的 脑补搞怕了,需要绝对的字面精度, 那 paddle ocrv 一 点五就是你的救星。它继承了传统 ocr 最严谨的基因,主打一个死磕字型,它不管这句话通不通顺,只看这个字长什么样。所以在生僻字、文章识别这些领域,它依然是目前业内的天花板。 哪怕是医生写的潦草处方,或者盖的乱七八糟的公章,他都能给你硬生生抠出来。这种不讲语义只讲像素的轴径,在很多严肃场景下其实更安全。但是想要用上这份硬核能力,你得先过部署这一关。这简直就是地狱级难度。 这是 polka 家族的老毛病,底层依赖酷爆错, gossip 讨论区里满屏都是配环境配到崩溃的反馈, 除非你是资深老手,否则光是让他跑起来就能耗死你半条命,而且他跑起来也不省心。显存调度机制比较僵化,并发量一上来极其容易暴显存,加上他处理常温档时的逻辑拼接能力偏弱,如果你没有专门的运维团队去伺候他,我建议你慎重考虑, 别再纠结了。最后,我给你一条最清晰的路径。如果你是做 r a g 知识库或者文档解析工具,追求的是极快的速度和干净的 markdown 结构,直接上 j o m o c r, 它就是目前的最佳平衡点。但如果你面对的是报销单识别、工业仪表读数,或者是那些光照不匀、弯弯曲曲的烂图,那就只能捏着鼻子去配 pad o c r v l 一 点五。虽然环境却是难配,但目前只有它能搞定这些硬骨头。


国产 ocr 刚出了个榜一,大哥文本公式表格都能精准识别,宝藏 ai 工具分享第四十一期 智谱,最新开源 ocr 只有零点九 b 参数,直接拿下全球榜单,奥密达奔驰第一。他最狠的是把以前最头疼的欠套表格公式,重叠印章全部做到了工业级精度, pdf 每秒能跑接近两页,速度快的离谱,关键是完全开源,支持欧拉姆部署,家用电脑就能跑。感兴趣的朋友欢迎评论区交流!

现在你再也不用担心老旧发票的识别问题了,即使揉成一团的外卖订单,上面的信息也能轻松读取。 ai 界经常是起早但赶了个晚级的百度,倒是在 ocr 领域有一款公认的良心产品,就是 pad ocr, 并且在 github 已经获得了近七十 k 的 star, 即最新发布的 v 一 点五版本,在综合性能上全面超越了 gemini 三 pro、 deepsea、 ocr 以及 gpt 五点二等主流模型,成为一枝独秀的存在。 他仅仅用到了九亿参数,就在 omni 的 文档识别 benchmark 中获得了百分之九十四点五的准确率,可以说是遥遥领先。即使目标文档包含了印章、罕见字体以及各种复杂边框,他都可以轻松应对。目前有两种方式可以使用, 一是直接通过官网的 a p i 服务接入你的本地产品,二是通过 github 的 开源仓库进行本地部署,一般的家用显卡足以轻松应对。如果你只是想体验下产品性能,可以官网首页上传文档进行实际测试,地址我会放在评论区,欢迎各位给出实测反馈。


最新开源的 light no c r 二杠一 b 模型,声称体积小,性能强,我们通过 daker 部署 light no c r, 用杂志、财报、手写古诗、数学公式四种真实场景和主流开源 o c r 模型 minor u pad no c r v l 对 比测试,看看它们的处理效果怎么样。 先说结论, pada l c r v l 是 中文场景的最佳选择,在手写书法、复杂排版、表格识别上表现最强, mann 优势最稳定的全能选手。数学公式处理最准确,适合对容错率要求低的正式文档。 莱特 no c r 在 英文和数学公式上表现亮眼,但中文识别效果最差,出现大量错别字。股市测试更是直接陷入循环输出。首先看财务报表对比评测,三者都较为出色的完成任务, 数字全部识别正确,表格结构完整,复选框正确,识别,表格渲染效果好。 logon no c 二,这里将 b 种错误识别成式种, 上年同期把年识别成 e, 中英混淆。我们看第二个数学公式 o c r 对 比评测,包含大量复杂 latex 公式、 极限符号、分式、上下标签套、中文与公式混排。优点,三者公式识别正确, latex 格式简洁。 lyto nocea 将代数识别成了代人计算法则,不能应用,识别成运算是应用语句不通。 lyto nocea 在 数学公式上表现出色,但中文仍有问题,在结构化文档加少量中文场景下,可以接受 数版手协体古诗对比评测,原文是数版排列,从右向左手写书法体背景树叶图片干扰。 mineu 正确,识别,整体结构完整,顺序正确,单出现部分文字错误, 比如病如霜类、千型帕格洛、 c r v l 所有文字完全正确,数版阅读顺序正确,表现完美。来 to no c r 严重问题,文字识别大量错误,陷入无限循环。同样内容重复多次,顺序混乱, 内容碎片化。官方文档也提到用 r l v r 训练来减少 low ping, 但在中文复杂场景下仍然严重。杂志页面 o c r 对 比评测,原文包含复杂商蓝排版多张图片。 科普类文章,含专业术语,有特殊符号 manny 优。优点,整体文字准确度较高,排版清晰,标题层级正确。但也有有部分文字错误,比如香蕉识别成香草,它的 low c r v l 文字准确度最高, 图片位置信息完整。 latanos 出现大量语义混乱,诊断文字几乎不可用。该模型针对欧洲语言优化,中文识别出现严重幻觉,把香蕉识别成香烟香叶完全不可用。三个模型都没完全识别正确,中国后 padliocovl 综合最优,虽然也有错误,但整体可读性和准确度最高。另外补充两点,叶眉叶角处理方面, minoru 会智能过滤掉,输出更干净,而 padlo c r 和 lite no c r 会原样保留。图片提取方面, minoru 和 padlo c r 都支持 manner, 又打包在 vip 里拍的 lo c r。 返回临时链接, lyte no c r 官方提供了在线 demo, 大家也可以上手体验一下。最后,如果你对 lyte no c r 感兴趣,欢迎评论区留言讨论,希望本期视频对您有所帮助,我们下期视频再见!

哎,你想过没有,我们每天都会跟各种各样的文档打交道,什么收据啊,报告啊,扫描件, 你看啊,就算一张纸皱巴巴的,或者光线不太好,我们看懂它那都不是事。但是你可能不知道,对电脑来说,这些真实世界里的小瑕疵,简直就是一场噩梦。 所以今天呢,我们就来聊聊新一代的 ai, 到底是怎么学会搞定这些麻烦,真正看懂我们这个世界的。 好,咱们就从这个问题开始。为什么 ai 看到这么一张普通通的纸,就会犯迷糊,读不出来呢?这个问题啊,其实就是我们今天要解开的谜题的核心。 你看,在我们眼里,这不就是一张皱了的纸吗?没什么大不了的,但是对于 ai 来说,这简直就是一场灾难。 你可以想象一下,大多数 ai 看东西就像是透过一张网格纸在看世界,它默认所有东西都是横屏竖纸的,可这纸一弯,整个网格就全乱了,像素点的位置都变了, ai 的 整个世界观都崩塌了,数据当然就成了一锅粥。 好,我们再往深了挖一挖。这事吧,其实远远不只是把图片上的字认出来那么简单,它真正的难点在于要理解一整份文件,这才是技术上真正头疼的地方。 所以这就引出了一个核心概念,叫文档解析。你听着可能有点专业,但其实很好理解。它跟我们常说的 ocr, 也就是光学字体识别,完全是两码事。 打个比方, o c 二,就像是能认出这是一块砖儿一块瓦。但文档解析呢,是能看出来这些砖瓦搭成的是一座房子还是一座桥,它要搞明白整个文档的结构和逻辑,哪儿是标题,哪儿是正文,这个表格里的数据要怎么对应着看等等,这才是真正的理解。 那么具体都有哪些麻烦呢?来第一个就是弯曲。你看左边这张,干干净净,横平竖直,这是 ai 最爱的那种。 再看右边,就因为纸张这么一弯,原本直直的文字,现在变成了弯弯曲曲的线。好多 ai 模型看到这个直接就迷路了,不知道该从哪儿读起。 然后第二个麻烦就是倾斜。咱们用手机拍文件的时候经常会遇到,对吧?角度稍微歪一点对我们来说没啥,但 ai 就 头大了,他会搞不清楚这一行字到底从哪开始,又到哪结束,结果呢?整个阅读顺序可能就全乱套了。 第三个问题也特别常见。翻拍屏幕,你肯定有过这种经历,拍电脑或者手机屏幕上的文件,你看照片上会出现这种像水波纹一样的东西,这叫摩尔纹, 对我们来说就是个干扰。但对 ai 来说,他可能会把这些纹路当成是文件上本来就有的图案或者污渍,一下子就被带到沟里去了,迷惑性特别强。 最后,这个挑战也绝对不能小看,就是光线,光线不均匀,有阴影,这简直就是 ai 的 伪装大师。你看阴影不仅能把字给挡住,让 ai 看不清, 更要命的是, ai 还可能把阴影的边界错当成是表格的线或者是什么标记。这么以来,整个解析过程就全被打乱了。 好,说了这么多现实中的难题,那是不是就没辙了呢?当然不是,正是在这种混乱的场景下,一位新的挑战者登场了,他就是为了解决这些问题而生的, 他就是帕多 o c r 杠 v l 杠一点五这个模型的目标啊,可以说是非常直截了当,就是专治各种不服,就是要搞定那些乱七八糟的真实世界里的文档。 而且他的目标可不只是能用,而是要做到行业里最好最顶尖的水平。那么问题来了,他凭什么这么有底气呢?在其他模型都觉得头疼的地方,他到底是怎么做到的?咱们这就来揭秘一下他的独家武器。 他的方法其实特别聪明,就跟咱们人解决问题一样,分两步走。他不像有些模型那样,想一口吃成个胖子,上来就想把所有东西都读出来。他选择先看大局,把整个文件的布局结构搞清楚,然后再去细看里面的具体内容是什么。 而这个两步走的策略,最关键的真正的突破就在第一步。你看传统的 ai, 看文件就像戴了一副方框眼镜,他眼里所有东西都得是四四方方的,所以文字一旦弯了,他就彻底傻眼了。 但这个新模型不一样,它能识别各种不规则的弯弯曲曲的形状,就好像能直接顺着弯曲的文字画出它的轮廓一样。你想啊,只要第一步这个框画对了,那第二步识别里面的内容,准确率自然就高得多了,对吧? 当然啊,在 ai 这个圈子里,光说不练可不行,一切都得靠数据说话,到底行不行,咱们得拉到专业的赛场上,真刀真枪的比一比。 结果怎么样呢?我只能说相当惊人。在一个叫 omnitocbench 的 行业标准测试里,它的准确率达到了九十四点五,帕直接刷新了记录,拿个了第一。 我们来看看这个榜单。这就有意思了,它不光是超过了它自己的上一个版本,更关键的是,它还把一些大名鼎鼎的块头非常大的通用模型,比如谷歌的 jamie 和阿里的 qwen 都比了下去。这就证明了在文档解析这个细分赛道上,它就是绝对的王者。 不过你可能会想,等一下,标准测试里的文件会不会都还是比较干净的?那他要是碰到我们一开始说的那种皱巴巴光线差的数据,噩梦表现又会怎么样呢? 问的好,这就要看另一个更魔鬼的测试级了,它里面全是那种真实世界里拍出来的歪瓜裂枣的图片。 而在这个真正的考验里,帕多欧 c r v l 一 点五的优势反而更明显了,它的准确率达到了九十二点一,帕把和其他模型的差距拉得更大了。 但接下来这一点才是最让人跌破眼镜的,这简直就是一场大卫与哥利亚的对决。你看咱们今天的主角,它的参数规模还不到十亿, 你可以把参数理解成模型大脑里神经元的数量,而他的对手呢,动不动就是几千亿的参数,是个庞然大物。 结果呢,我们这个小个子选手不仅打赢了,而且赢得漂亮,这意味着他不光更准,而且效率高出了两百多倍,简直是又快又好。 好了,我们已经见识了他有多厉害,那么这项技术突破到底跟我们普通人有什么关系?为什么说他很重要呢? 关系可太大了。你想想,这意味着未来的 ai 助手就能真正看懂你随手拍下的任何东西了。不管是会议纪要还是餐厅发票,他还能让 ai 去图书馆读书,去翻阅公司的旧档案,甚至从一堆旧收据里整理出有用的信息。 这一下子就等于把海量的以前只能靠人去看的纸质信息全都给盘活了。 而且故事到这里还没完,这个模型的能力还在进化,他现在正在学习一些全新的超能力。 比如说,他处理这种复杂、不规则、长久的能力,已经不止局限在纸质文件上了。现在他能直接读取现实世界里的文字,比如你看图里这种路牌、广告牌上的字,甚至连形状和文字都特别复杂的公章,他也能精准识别出来。 这就说明它的核心技术越来越厉害,应用场景也越来越广了。所以,最后也留给你一个问题来思考一下, 当 ai 终于能像我们一样轻松地看懂这个充满褶皱、光影和各种不完美的真实世界时,你最想让它帮你读的第一个东西会是什么呢?


都说文星窥影和 deepsea 构成了国产 ai 三大家的铁三角态式,那 ocr 烧起来也算是一个切面。如果说以前的 ocr 只是会认字,那现在他终于学会了像人一样看清歪的字,读懂整份文档。 一月二十九号,百度正式发布并开源了新一代文档解析模型。拍到 ocrl 一 点五,别看它只有零点九 b 参数,却在全球权威评测榜单拿下全球综合性能第一,整体精度百分之九十四点五,超过 jam 三 pro、 deepsea 二三五 b、 airlb 等一种模型。但真正的全球首个实现异形框定位的 ocr 模型 什么意思?拍歪的、折过的、光线、乱的、扫描变形的文档,以前一碰就翻车的复杂场景,现在都能被它稳定识别,规模化解析了。也就是说, 不管是金融、票据、历史档案还是政务文件,那些最难搞的歪文档,终于有了靠谱的解决方案。而且它不只是看清楚,还更懂结构。这次拍到 o c r v l 一 点五,集成了印章识别、文本检测与识别、对生僻字、古籍文献多于种表格、下划线、复选框这些复杂结构,识别能力全面增强,还新增了对藏语、孟加拉语等语言的支持, 甚至能自动合并跨页表格识别、跨页标题,专治长文档结构断裂。当然,最后这句话是重点, pad ocr vl 一 点五已经全面开源,现在就能在 get up hugging face 获取,也可以在 pad ocr 官网体验。二零二六年了,也该让一个靠谱 ocr 帮你稳定干活了。

大家好,我是架构师雨菊。最近这段时间,我在刷视频的时候,总能刷到这三个词, g、 l、 m o c r r a g 大 模型。一开始我以为这只是 ai 圈的又一个新词而已,但后来发现这三个词出现的频率越来越高,而且每次都有文人问,这到底是什么?有什么区别?所以我决定做一期视频,一次性把这三个概念彻底讲清楚。 在正式开始之前,我很想问问你,你有没有过这样的想法,比如看到 g m a o c r, 就 又以为这是什么新的大模型,或者觉得 o c r 既然能实现文字啊,那应该就能直接回答问题吧。还有人把 r e j 当做是某种聊天机器人,我身边很多朋友都有这样的误解,所以今天呢,我们要首先纠正这些错误的认知。 那这三个概念到底是什么?有什么关系?我会从三个维度来帮你彻底理清,第一,他们各自是什么?本质区别在哪里?第二,他们之间是怎么配合的?数据流是怎么样的?第三,实际项目中应该怎么选型,什么情况?用什么? 先说 glm ocr, 它是智普 ai 开发的多模态文档解析模型,它的作用很简单,把图片里的文字提取出来。你可能会说,这不就是传统的 ocr 吗?有什么稀奇的?但关键在于 glm ocr 是 基于大模型的 ocr, 和传统 ocr 有 本质区别。 我打个比方,传统 ocr 就 像一个只会抄写的速记员,而智普 ocr 就 像一个能够理解内容的秘书。 传统 o c l 又是怎样工作的呢?他逐字逐句的识别图片里的字母,这样做有一个大问题,他不理解内容。比如说你给他一张复杂的财务表,传统 o c l 可能把表格结构搞得乱七八糟,但但 但这个质朴的 o c l 不 一样,他看文档的方式更像人类,而不是机械的识别字母,而是理解整个语页面的语义。所以他能保持表格的原始结构,能准确识别这些内容, 甚至还能看懂数学公式。那我们来举个实际的例子啊,假设你有一张手写的笔记照片,里面有文字,还有 公式,还有画的图,传统 o c l 可能会把公式识别成一堆乱码,但 g m o c l 可能能够准确的把每个公式提取出来,保持正确的格式。 或者说是你有一张复杂的财务报表,合并单元格,各种格式, j m o c l 能够把整个表格结构完美还原,这就是它的厉害之处,它不是在认字,而是在理解文档。 说完了 j m o c l, 我 们来看看 r a g r a g 呢?是 retro augmented generation 的 缩写,中文名叫解锁增强深沉。这个名字听起来很专业,但原理其实很简单,你可以把它理解为先查资料,再回答问题。 我来给你举个实际的场景,假设你是公司的法务老板,问你,我们和 x y z 公司去年的合同里违约条款是怎么规定的?如果你直接问 china g p t, 他 可能不知道,因为你们的合同是私密数据, 你训练他的时候他没见过。但如果有 r a g。 系统,流程是这样的,首先系统在你的合同文档库里搜索,找到所有和 x y z 公司相关的合同,然后他把这些合同内容和你的问题在一起打包发给大模型。最后大模型基于这些真实的合同内容,给你一个准确的答案。 那我们为什么需要 r a g? 嗯?为什么不能直接用大模型呢?这就有两个关键问题。第一个是时效性, 大冒险训练是有截止时间的,他不知道训练之后发生的事情。第二个是幻觉问题,大冒险有时候会一本正经的胡说八道,给你一个听起来很合理但完全错误的答案。二, a g 就是 来解决这两个问题的,他让大冒险在回答前先去查一下最新的准确的资料,这样就避免了胡编乱造。 现在我们来把这三个概念的关系来理一理吧。 你可以把它想象成一个技术站的不同层级,最底层是大模型,这是 ai 的 核心能力,负责理解和生成。中间层是能力增强层,包括 g m o c l 和 r e g, 它们是在大模型技术上的增强或应用。最上层是应用层,比如智能客服文档问答系统这些你可以直接使用的产品。 再举个例子,你要做一个合同智能问答系统,如果你只有 g m o c l, 那 么你只能把指定合同变成电子文档,但回答不了。如果你只有 r a g, 你 只能处理电子文档,指定合同用不了。 但如果说你把 g l m o c l 和以及 r a d 结合起来,那就能做完整的事情了。先用 g m o c l 把纸质合同变成文字,再用 r a d 实现智能问答。所以总结一下,单独使用都有局限,三者配合才能发挥最大的价值。 最后给你一个简单的选型指南,如果你需要处理图片或扫描件,用 o c l 先转换成文字。如果你需要智能问答或者知识库 功能,用 r a g 构建系统。如果你以上都有,那就用 g m o c l 加 r a g 加大模型,三者配合使用。好,今天的内容就到这里了,这三个概念现在你不会再搞混了吧?
