粉丝9003获赞12.3万


大家好,今天我们讲一讲我们 i bought ocr 新构建的一个 ocr 服务。 嗯,目前我们这个 ocr 相对于之前来讲是识别更快,而且更准确,部署方面也方便,它是支持安卓的一个 ocr 识别和 windows pc 端的识别。 嗯,模式有 gpu 模式和 cpu 模式,我们可以到群文件 就把这个 ocr 服务给下载下来,下载完之后我们解压出来,我们点击使用方法,我先给大家展示一下远程部署的方法,远程部署我们直接双击打开就好了,双击选择一个版本, 我们选择新版本双击打开,打开之后他会有一个默认的九五二七端口会监听。 好,我这里给大家已经写好代码的识别,所以我们这里初始化的话是填写我们电脑局域网的 ip, 而不是 本机的 ip, 幺二七点零零一的 ip 啊,因为我们这个属于远程部署,如果假如你在服务器部署的话,这里填写的是你服务器的外网 ip, 而且还需要将你的九五二七这个端口给开放出来,这点大家要要知道。 好,我们启动这个窗口, f 五运行 这里返回 q, 第一次它会加载日字,后面它会显示,成功啊,现在我们的 o c i 已经非常精准的识别出结果, 我们看一看它这个耗时,好吧,给大家做一个性性能测试。 f 五在运行 他这里花了将近两秒钟的时间将我们这个整个窗口给识别出来了,这是一点 六秒整个参考的一个效果。呃,远程的 cpu 模式,好,我们下面给再演示一下远程的 gpu 模式是怎么去设置参数的,这里 我们先开启 gpu, 再开启加速显卡加速这两个参数好了啊,但是我们启动之前我们可以看一看这个 gpu 怎么去处理的。首先你电脑需要有英伟达的显卡 显卡,然后呢还有一个英伟达的显卡驱动,安装好我们看一下,我们扩大版本最高支持十二点三 啊,我们还是用刚才的这个十一点八的,同样是双击打开,区别是什么呢?区别是你电脑有显卡驱动 和还有这个参数的填写,非常简单啊,使用的过程我们在 app 五运行一下,看一下效果, 第一次他会加载,这个时候他会瞬间到两百毫秒,也就是比之前提升了八倍,这里就十倍的效果了,这是远程部署的一个效果十倍。 嗯,我们再测一测安卓这一款好吗?安卓这一款 还是一样初始化 o c 啊,将我们局网的 ip 地址放过来 这里啊,填写的方式和我们在 windows 是一样的 好,也采用 gpu, gpu 的模式,我们直接 获取文字, 嗯, 打印出来,为了能测试我们这里的耗时,我 在第二次,第二次的结果去测试啊,因为第一次他可能占用了加载时间, 这里我们将手机投屏出来 f 运行啊,这里时间可能稍微长一点,因为它不是在本机传输数据,它是通过我们手机的局网 ip 传输过来这里花了四百毫秒, 他比电脑慢的原因是因为他这个手机分辨率非常大,我们可以看到他这个手机分辨率是二三四零的分辨率, 非常大的一个分辨率。一般情况下我们是选择什么呢?我们在做 o c r 处理的时候,我们会选择它的一个 区域识别,那么我们现在画个区域看一看它的识别效果好吗?我们就把这个 airpods 画下来。 好,我们在 app 运行一下, 这个时候他就会快很多啊,也已接接近一百秒,一百毫秒了, 已经有一百毫秒,已经一百毫秒以内了,而且识别是非常精准的。 呃,他去 这边能达到一百毫秒以内,这是我们 o c r 的在安卓远程部署的一个应用, 下面我给大家再再演示一下我们 o c r 的这个本地部署,就是一个吊吊用的情况,我们本地部署的话,你需要这里改成幺二七点零点零点幺。 好,改好之后的话怎么弄呢?我们这里有方法,我们将 将这个文件全部复制到我们 windows 驱动的通缉目录下。啊,这个 ese 就不用复制了, 我们程序在哪里呢?在这里把它复制到同级目录下,就它 这里,我们选择跳过。好,我们再直接运行,看一看效果 啊,他这里就两百毫秒了,已经进入了,这是我们在本地部署的一个效果,一百八十毫秒,我们再给他指定一个区域, 表示 我们识别这个取消按钮, 我们再看一个效果。好吧,看他识别时间,刚才是将近两百毫秒的样子, 现在我们在本地部署的话, ocr 区区域识别它仅需要三十毫,三十六毫秒,刚才已经测试出结果,四四十毫秒, 速度非常快啊,我们这里打个打个循环,看一下他 gt 循环处理一下输出的是多少时间 啊?都是三四十毫秒的样子。 嗯,这就是我们的 windows, 呃, i bought 的 windows ocr 以及 以及安卓 o c r。 安卓也实际上也是有一个内部 o c r 的。安卓内部 o c r 我们改成幺二七点零点零点幺再执行,看一看它打印时间 也是很快的,我们安卓内部 o c r 速度也是很快的。 好,呃,刚才我给大家展示了我们 airport 的 ocr 系统,它有有 windows 内置 windows 本地部署 ocr, 还有远程部署 ocr 以及安卓的远程部署本地部署内置部署的 ocr。 我们今天 ocr 就讲到这里。


一车传三代人走车还在三千预算,最具性价比也是最经典的入门公路车。 ocr 五三零零采用 alex sl 次顶级铝合金内走线车架,一五年上市,一九年套建改款 gmanoclorus r, 两千二乘八档变速, 搭在舒适持笔的大齿盘,让踩它不再费力。低阻力,二十三 c 高压公路车胎,加速更轻松。这黑黄的经典配色,难怪有人能把它爆改到哆瑞 s 套件,这是骚气,你觉得呢?


时隔三个月, deepsea ocl 二代模型正式发布,相比一代模型,二代模型可以说是突破了 ocl 模型性能天花板啊! 开创性的提出了视觉因果流技术,以千万二零点五 b 模型为基础训练,得到一个全新的 deep encodevr 视觉编码器, 而这也使得 deepsea ocl 二代模型具备了类似语言模型的因果推理能力,从而能够理解图像内容的逻辑关系,而不仅仅是像素的位置。 模型不再按照坐标进行扫描,而是根据语义逻辑动态的对视觉 token 进行重新排序,从而彻底解决了对于复杂文档,如报纸、论文表格等文档模型阅读顺序容易发生错乱的痛点。 最终啊, deepsea ocr 二代模型以三点六 b 的 模型尺寸,在相同的视觉 token 数量下,就能够达到这代三点零 pro 的 多模态识别能力,可以说再次捅破了 ocr 模型性能天花板。而这种性能超的差异是可以在实际使用过程中非常明显的感受到的。 例如我们围绕相同的一片 pdf 进行元素扫描,那现在看到的是 deepsea ocr 一 代模型的元素识别结果,然后看到中间的视频截图被识别成了一张完整的图片。 但是大家也能看得出啊,这是一个带有人像的视频截图,其实里边还包含着非常多的文字信息,比如视频标题、 ppt 标题、 ppt 文字和图片等相互嵌套的内容等等。 但对于这些, deepsea ocl 一 代模型是无法进行更进一步的精细化识别的。而到了 deepsea ocl 二代模型,整体的识别性能有了质的飞跃,不仅能够对这个视频截图里边的视频标题 b t 主标题进行文字识别,甚至 b t 里边的图片跟文本的二级嵌套内容也能够顺利的进行识别, 可以说这个识别精度非常惊人啊!类似情况还有很多,而这就是二代模型视觉英国推断流技术的威力。 而除了视觉识别精度有大的提升之外,如今的 d p c o c l 二代模型还支持一百多种主流语言文字的高精度识别,而且能够对各类复杂表格、数据文本进行精准的解析, 还能够对 cad 图纸、流程图、装饰图等进行语义识别,甚至还能够将数据分析的可识画图像一键识别,并还原原始的数据表格。 此外,还能够对多模态 pdf 进行高精度的版面分析,精准识别标题、正文、表格、公式等各种元素,同时还能够一键将 pdf 转化为高保真的 markdown 文档,甚至啊还能进行元素位置的解锁、目标检测以及图像深层次的语义理解等等。 可以说 deepsea ocl 二代模型就是目前最强的 ocl 模型,没有之一。本期课我带你零门槛上手!使用 deepsea ocl 二代模型, 我将带大家一站式了解目前大模型多模态与 o c r 技术全貌。横向对比 deepsea o c r 二代模型与其他热门的 o c r 模型,如麦纳优、潘豆 o c r 和千万三 vr 等模型之间性能上的差异, 并为大家详细的解读 deepsea o c r 二代模型带来的重大技术创新。视觉因果流技术。当然最重要的是,我将带大家零基础上手部署跟调用 deepsea o c r 二代模型, 详细介绍适用于个人使用的 transformers 的 调用方法与适用于企业环境部署的 vm 调用方法。同时重点介绍如何使用 dixie ocl 二代模型的魔法语言,也就是不同场景下如何使用不同的提示词来完成各类的识别任务。 并且在公开课的最后,我将为大家提供我们团队独家自研的 deepsea ocl 二代模型的前端调用工具,可以在前端网页端直接调用本地部署的 deepsea ocl 二代模型,通过设置不同的提日词来实现 pdf 文档跟图片的解析工作,并且能够实时查看 pdf 版面解析、 markdown 转化结果和图片目标检测结果等等。 如此诚意满满的公开课,还望大家多多三连支持公开课完整的课程代码外加 deepsea ocr 二代模型的模型权重、运行脚本、独家自研的网页端应用工具的完整原码等都已经上线至复范大模型,进入社区大扫码即可领取。 deepsea ocr 的 两代模型啊,本质上都是一个经过了 ocr 类型任务微调的多模态大模型。而二代模型最大的技术突破就在于视觉编码器,引入了视觉因果流技术 iso。 二代模型的编码器不再是一代模型的 clip 架构,而是一个基于千万二零点五 b 模型改造而来的一个视觉编码器。这是业内首次探索将语言模型架构直接用于视觉编码器,使其具备了类似语言模型的推理能力。 也就是说, deepsea ocl 二代模型能够根据图像的语音、内容动态的对视觉 talk 进行重排序,它不再是死板的按照坐标进行扫描,而是像人类的视线一样,会根据内容的逻辑关系来提取信息。 而这一创举啊,也使得 deepsea ocl 二代模型的视觉能力达到了 jimmy 三点零 pro 的 水准,而后者则是目前全球最强的原生多模态大模型。 并且 deepsea ocl 二代模型继承了一代模型的上架文光学字母压缩的特性,使其整个模型的运行效率非常高,实测最低仅需七 g 显存即可。使用 vr 模型框架进行推理, 在单卡四零九零上可以达到七百加 tokins 每秒的输出速度,而根据官方介绍,在单卡 a 一 百四十 g 的 显卡上更是能达到两千五百的 tokins 每秒的输出速度,可以说效率极高啊! 不过呢,由于 deepsea ocr 二代模型并不是一个传统的一问一答式的对话模型,而是发布任务然后等待文档处理结果的运行模式,所以 deepsea ocr 模型并没有官方提供的 api, 要使用的话必须本地部署。 课外课的第二部分我就将带大家手把手完全零门槛的完成模型本地部署的调用。并且 deepsea ocr 二代模型本质上其实是一个 vm 多模态大模型啊,不同于传统的 ocr 模型只能够进行光学自复识别,无法了解图像背后的真实语义, 多模态 vr 模型则可以通过视觉编码器将图像信息映受到文本空间中,并借助大模型的文本理解能力间接的对图像背后的语义呢来进行理, 例如,对于一些装饰图、 cad 图、流程图等等,典型的 ocr 模型,如 python ocr 模型是无法进行识别的,但是 deepsea ocr 模型却能够顺利地进行识别。并且啊, deepsea ocr 模型还是一个围绕着 ocr 类型任务进行了专门微调的 vr 大 模型。 也就是说,和通用的视觉模型不同的是, deepsea ocr 模型更加适合来执行例如文字扫描、表格识别、 pdf 转 pdf 等各项工作。 例如,在文字扫描方面, deepsea osea 模型支持一百多种不同类型的语言的混合识别。而对于一些数据分析的图标,甚至能够逆向识别其背后的数据,并汇总为文本格式的数据表格,从而形成高质量的检测语料。 而对于一些几何图形, deepsea osea 甚至能够汇聚坐标轴来描述各线段之间的复杂的依赖关系。而对于一些化学公式, deepsea osea 模型则能够将其转化为文本可读的 slims 格式。 此外,哪怕是对于一些 cad 图纸, dico 模型的语义理解能力也会远超其他的 vm 多模态大模型。 当然,这种基于多模态图像语义理解来实现 ocr 的 技术方案还有一个很大的优势,就是可以自由灵活的通过编写题日词来让模型在不同场景下执行不同类型的任务。 例如,我们可以输入 free ocr 来让模型进行保留版面的 ocr 识别,而如果输入 ocr list image, 则可以实现纯文字的提取。 同时还可以输入 describe this image in detail 来生成对图片信息理解的文本。而如果输入 press the figure, 则可以实现特定类型的图片到文档的转换,例如可以实现将柱状图转化为原始的数值表格等等。 甚至啊, deepsea oxy 模型还能够根据语义描述来进行实体识别,例如让 deepsea oxy 来标记图片中教室的位置,运行效果如图所示。怎么样?是不是非常有惊艳? 麦克的最后一部分,我就将为大家详细介绍不同场景下 deepsea ocr 二代模型题日词的编写方法。当然,大家刚才看到的我展示的这些基于前端的 deepsea ocr 二代模型的识别效果,其实都源自于我们团队自研的一项 deepsea ocr 前端调用工具。 基于这项前端调用工具,就可以免于每次调用 ocr 模型之前都单独修改一次后台的配置文件。然后呢,运行结束后,再手动把一个解析后的结果文件单独下载下来的这个复杂流程。 而这项效率工具的完整源码和使用方法也都包含在本期公会课的课件中,和课件代码 d p c o c r 模型权重调用脚本和测试文档一起都已经上线至覆盖大模型,进入社区大扫码即可领取。 这是我们团队老师近期熬夜通宵加班的辛苦成果呀!看在老师们庆祝如此多的心血的份上,还望大家多多三连支持。二零二六刚开年,大模型技术发展势头就势不可挡,和过去年一样,二零二六我将持续为大家提供最实用、前沿的技术教学。我是九天专为大家提供最扎实优质的技术内容,公开课马上开始!

之前出了一期关于踢卡的视频,用于内容分析,不知道的小伙伴可以看一下之前的那个视频评论区,小伙伴留言文档中存在图片,图片内容识别不了。 确实踢卡可以从图片、音频、视频文件中提取原数据,但是无法提取内容数据,这该怎么解决呢?通过踢卡的文档,咱们可以看到踢卡支持泰斯 rectocr 解析器,这里说明一下。 text rectocr 呢,它是一款开源的图像识别引擎, 这里有它的使用方法。首先呢,咱们第一步需要安装,这里我采用 windows 的版本,这是它的最新版本。这边呢,安装完成之后需要配置环境变量。这边呢,我已经安装完成了,咱们来通过命令行窗口,咱们测试一下它的版本。 ok, 可以看到已经安装完成了。台词 rect 提供了很多 多的语言训练模型,这里呢,咱们演示这种简体中文的训练模型,需要说明一下,将下载好的训练模型放到咱们的安装目录下面,也就是这个目录当中。这边呢,我已经放完了,然后咱们通过命令咱们查看一下。这里呢,咱们可以看到已经这个训练模型已经有了,咱们来测试一下。 我在一盘呢截了一张图片,这是个三点 png, 这个数据啊,咱们不需要关心,咱们通过命令在命令行运行一下,看一下效果,可以看到他的图片内容已经识别了。到这里呢, taste rect 咱们已经安装完成了,并且能正常使用。 最后呢,咱们需要将 t 卡和 types rex 进行整合,配置也比较简单,将这个官网的配置复制到咱们这个配置上一份,并且修改一下模型地址和那个安装路径。这里呢,我已经配置完成了,并且修改了模型地址,修改到咱们 地盘,还有咱们的安装地址也是地盘。最后呢,咱们来测试一下。这里呢,我有一个 word 文档,上面是文字,下面是一张图片,可以看到这是一张图片,进行一下测试方法。咱们通过控制台可以看到 word 文档中的图片和文字都已经识别了,下边是图片内容,上面是文字内容,可以对照一下。上面呢是文字内容,下边是图片内容。 nice, 最后有需要视频中源码的小伙伴关注并回复。