这是一个功能强大的图片识别文字软件,名字叫做 u m i o c r, 比企鹅微号里的还要好用。它支持离线识别,批量识别图片中的文本,而且软件开源免费免安装,双击即可打开软件使用。批量图片识别功能, 全选图片,或者把图片所在的文件夹拖到软件中,然后点开始任务,软件就能识别出内容,然后点识别内容可查看识别结果,速度超级快。 截图识别功能,软件里点击截图图标,直接截图,需要识别的区域就会自动识别内容,这种识别方式比较方便。粘贴图片识别功能,这是我最喜欢的功能,这就是你复制图片后,然后选择粘贴图片就可以了,真的很方便。此外,软件还支持繁体英语、 日语、韩语、俄语、德语和法语的识别。对于一些图片、文字、文案或者网页禁止复制的时候,这款 um iocr 软件的作用就显现出来了。 此外,当个翻译工具也是不错的选择,赶紧收藏起来试试吧!好了,以上就是本期全部内容,点赞关注,共同进步!
粉丝1459获赞1.3万

大家好,我是叶哲,今天我将介绍一下千万三点五中小模型的使用体验。这些小模型非常受社区的欢迎,而且很多人都认为他们的能力很不错。从这张图上我们可以看到千万三点五九 b, 它在多个基卷上居然是要超过千万三 s 的 八零 b a 三 b c 型模型,这两个模型呢,规模相差是非常大的, 虽然说一个是重密模型,一个是 m o e 模型,九臂呢,是主力模型,社区里用的会比较多。而且现在这些小模型它的工具调用能力也是有了一个极大的提升。 四 b 的 话也是有非常多的用户的喜欢,比如说你可以用它来和你的手机做一个连接,嗯,操作你的手机。那二 b 模型和零点八 b 模型呢,就可以在我们手机端运行,零点八 b 模型呢,甚至可以运行在浏览器上,非常方便。 而且它是有多个的格式衍生,比如说 g g u f o n n x m m m 还有 m l x 社区里常用的技术站呢,奥拉玛拉玛 c p p 之前我有详细介绍过拉玛 c p p, 嗯,它也有 webui, 使用起来也是比较好用的。 而用 g g u f 的 话,社区里呢大多数会选择啊 onslaught 的 方案,它的动态量化做得非常好。如果你是 mac 电脑的话,当然我们用 m l x 是 比较好的。 tech news 的 反馈呢,如果说你的系统提示词不够像样或者够长模型呢,就会进入很怪的 planning 或者长时间的自我检查模式。 parking face 社区呢,还分享了一个零点八 b webgl 版本,然后可以在我们浏览器上跑的,如果我开的话,我手上拿什么东西,或者说呃摄像头里面是什么场景下方它会立即识别出来。 首次进入这个页面,它会下载八百多兆的模型,那这里呢,用的就是 o n n x 的 格式,它是跨框架的计算图交换标准,主打可移植,可被多种运行时变易器加速。 g g o f 大家非常熟悉了, m n n 呢,它是阿里开源的端侧的推理引擎。 m l x, 这个大家应该也是非常熟悉。 g g o f 呢,它是文件格式偏分发部署 o n n x, 它是一个开放标准,这里有它们的核心的优势,对比大家可以简单了解一下。再来看一下各个模型不同的大小啊,不同的量化程度,它们的显存需求,推荐的硬件和速度, 零点八 b, 基本在任何的 g p u 啊手机上都可以跑起来。二 b 模型呢,如果是四比特量化的话,那需要的显存是一点五 g b, 如果是四 b 四比特量化的模型,显存需求是三 g b, 如果是九 b 四比特量化,那需要的显存是九 g b。 二十七 b a 三 b 四比特 大概是占用二十 gb 显存,在我的 mac 电脑上,我更倾向于使用三十五 b a 三 b 巴比特 m l x 格式的,那它的速度呢?大概是呃七十二 tik 每秒,同样也是巴比特,然后九 b 的 模型, 那呃速度的话,只能是五十多 k 啊每秒,这个速度的话就显著变慢了, 如果是用了二十七 b 这个重密模型的话,那速度会更慢。而我在电脑上跑零点八 b 巴比特量化的时候,速度能达到两百 k 以上,这个速度是相当快的。再看一下各个模型啊,它的性能表现,零点八 b 的 模型呢 啊,它在数学 ocr 方面的话,得分也是非常高,可以适合一些简单的 ocr 任务。之前呃千万三 vl 的 很多模型就将下方的 lvm 里面会漏掉一个字母,因为这一行的文字呢,它是比较小的。 我在本地用巴比特量化的零点八 b 模型,让他去 o c r 的 时候,发现它这里的质量是相当不错, 我肉眼看了一下,是没有什么错误的。而三点五二 b 模型呢,它的得分呢,是超过很多上一代七 b 模型的, 也是非常强。四 b 模型在 m m l u pro 得分呢,接近于千万三三十 b a 三 b 了。而在 呃 omega dos 编制得分上,它是击败了 g b t 五 nano。 再看一下九 b 模型,在长上下文基准上,它是打败上一代的千万三三十 b a 三 b 的。 而在 m m m u pro 基准上, 超过 g p t 五 nano。 那 社区的用户反馈呢,二比特和三比特量化质量又开始有明显下降,六比特呢,几乎没有可测量的性能损失。那千万的这几个模型,社区对他们有些评价, 比如说啊,很多用户对二十七 b 还是非常青睐的,认为它的知识库很丰富,能力也很强。社区呢,给到三十五 b a 三 b 是 三分。说到这里呢,非常推荐大家在使用千万三点五的时候呢,看一下 onslos 的 它的一个使用指南, 它在这里就详细介绍了啊, sync 模式下,那我们的各方面的参数怎么设置?现在就来看一下千万三点五中小模型在我本地进行的一些实际体验,那我在这里呢,用到的都是它们的 m l x 格式 巴比特量化的模型,现在看到的是让 a 三 b 模型反推 ai 绘图提示词,在下方,我们看到它回复的内容还是非常多的,我把这里的提示词发给 nano blender pro。 二、 它帮我生成的图片呢,和我一开始发给的原图非常相像, a 三 b 帮我解读图片也是比较好。 这张图呢,呃,我们可以看到各个模型,它并没有明确说这个模型。呃,它的 swbench pro 的 得分是多少,那这里 a 三 b 它是自己估摸出来说啊,千万三 coldest 它的性能达到了约百分之四十四,这张图呢,是我从网络上获取的。再讲呢,千万二点五零点五 b 模型和现在的千万三点五零点八 b 在 回答同一个问题的时候, 已经有了非常大的进步。那我现在就让 a 三 b 模型来解读一下它。在这里呢,解读的非常好啊,每个模型的名称,包括每个具体的回答, 然后还来了句幽默的话,说这张图呢,主要目的就是炫耀千万三点五相比千万二点五的进步,就模型呢,就是太听话了,你问什么他姓什么,甚至呢能编造事实。而篮筐呢,他更聪明,能识别出常识性的错误, 不会一本正经的胡说八道。我在使用 a 三 b 的 时候呢,有的时候它的思考过程会一直循环,那我们可以通过重建对话,或者在提示词里面加一句,让它不要过度思考来解决这个问题。在呃,这张图里呢,我们看到这是九 b 回答的, 我呢是希望模型识别出这张图里的所有的配件,八五四是一个垫片,九臂模型呢,它说这里是连接圆盘和固定件,这里的说法的话还有待加强。之后我又让九臂模型帮我做一个音乐格式化合成器,这是它第一次生产的效果, 点击自动演奏,点击的话是没什么反应的,当我点击粒子喷发, 那效果的话也能出来,但是和我的琴键上是不是一一对应的,而且控制台是有一些报错的,所以呢,我需要他给到完整的啊。最后修改后的文件能听出来他正在弹奏小星星,但是我们可以感知到他发出来的声音和琴键的按键的 啊,按下去是不对应的,所以这里还是有比较大的问题。再让九臂做一个赛博朋克的个人信息仪表盘,再看一下它身上的效果, 在这里的话,它身上的这个页面就要比刚刚要好很多了。再接着呢,我将一张模糊的小票发给九臂模型,让它识别一下。这张图下方呢有四个字比较模糊, 那九 b 呢,模型在这里没有识别出来,其他的文字内容的话,我看了一下,没有什么太大的问题,我再尝试了一下,这次呢,他将五音良品下方的文字都是展示出来了, 这样的千活字减字盘 a 三 b 模型也能非常很好的识别出来,这是他的思考过程,内容非常非常多, 真的就是一个一个字在识别,最终是能识别出大部分文字的。如果说你在连接 ml studio 让它识别图片的时候出现这样的问题的时候,那你可以考虑,一是将整个模型它的上下纹长度变小一点。 第二呢,是限制一下啊,整个图片的一个尺寸,我一开始给它设置的是不超过四零九六,那经常会有内存溢出的情况, 而改成二零四八之后就会好很多。这个画面里呢,我让他数一下有多少只火烈鸟模型呢?是,呃,思考了十一分钟,最终呢,一直都在重复,所以我就终止他任务了。我换成 a 三 b 呢,让他识别图片中有多少只火烈鸟。 它这里的话啊,识别还是相当不错的。同样的,剪字盘发给 a 三 b, 让它解读图片,并且 ocr 图片里的所有内容, 它能很好地指出这是活字印刷的字模,必须是反字镜像。之前是只有一些比较大的模型,它能识别出来, 那像 jammer 二点五, flash 这种,它是识别不出来的。所以现在啊, jammer 三点五,它的能力还真的是非常不错的。当我提示九 b 模型呢,让它数一数图片中有多少只火烈鸟,不要过度思考,那我们看到它思考了三分半钟, 最终就给到非常好的回答。如果说,嗯,大家也遇到同样的他模型,一直在思考,那就可以将提示词改一下。我还让零点八 b 模型呢,反推 ai 绘图提示词, 最终将这里生成的提示词呢啊,发给 ai。 最后 ai 生成的图片和原图呢,是有一些区别。 换成四 b 模型之后,将这样的提示词发给 ai 身上后的图片就和原图非常接近了。在这里呢,呃,用到了四 b 的 思考模型。而在这里呢,大家可以看一下,这里是没有思考模式的,那这个是怎么设置呢?我们来到啊 l m studio 里面找到模型, 然后右侧呢,我们可以点击一下这样的一个设置按钮,在推的这个界面有一个提示词模板,在这最上方呢,在这最上方添加一下这样的一个设置, 它就会关掉思考了。最后呢,我也测试了一下 a 三 b 模型,它的工具调用能力,我是通过在 client 里面和 open code 里页计划模式让它来编码来测试的。我们现在看到的是一个理发应用,右侧有 three js 的 元素。 在我个人看来啊 s m b 它能达到这样的效果还是非常不错的,这是它生成的方便面自动化工厂,包含多个步骤。其实和我之前用一些比较大的模型 啊生成的已经是很接近了,这是它生成的火星体数生物研究站的啊,一个场景,我们仔细看的话会有一个透明的球, 它生成的这个透明的球的话,效果肯定是比不上 mini max m 二点五或者呢是 office 四点五。 但我个人觉得对于啊,它在我本地运行这样的一个 a 三 b 巴比特的模型,质量也是很不错了。现在我们来看一下咱们在 opencode 里使用 lm studio 的 模型。那首先呢,我们可以通过这行命令 来确认一下 l m studio 当前暴露的真实模型 id。 然后呢,可以啊,打开配置文件路径修改粘贴以下部分,再之后呢,就可以重启。 以上呢,就是今天介绍的关于千问三点五中小模型的一些使用体验,我个人对它来说是非常喜欢的,因为它文本能力也强啊,原声支持二百五十六 k, 而且 它是多模态的,现在无论是 m、 l、 s 还是拉曼 c, p、 p 都是支持批量调用的, 所以大家可如果有一些批量的啊,一些任务不复杂的,那完全可用它来在本地来做,因为它输出的质量是相当不错的。四 b 模型、九 b 模型和 a 三 b 模型都是非常非常推荐的。



互联网照样文字识别还能批量处理!之前介绍过一款离线的文字识别工具,今天发现他已经更新到了二点零,而且据作者说重构了大部分的代码,功能更强大,而且界面焕然一新。非常遗憾的是,只支持到 win 七以上的系统, 暂时还不支持 mac 系统。先打开软件看看它的功能,打开软件后,在左侧只有截图 ocr、 批量 ocr 二维码和全局设置截图。 ocr 中功能非常简单,在右侧功能区可以设置截图的快捷键,移实图后直接复制结果等一些相关设置。 批量 ocr 识别这个功能非常的好用,直接可以将多张图片一次性的识别完成,比那些在线识别省时又省力。最重要的是还可以设置忽略图片中的特定区域,这样就可以省去后期编辑时的一些麻烦。二维码功能就 不用多说了,就是可以将文字内容直接生成二维码。作者还公布了开发计划,近期准备增加 pdf 识别和图片翻译,以及对其他操作系统的支持。这款工具使用的是拍森开发 元代码,全部开元。如果对 python 感兴趣的朋友可以下载元代码进行学习和研究。需要这款工具的可以在评论区里留言获取工具包。

这是一款批量识别软件,优米 ocr 项目完全开源,支持 windows 和 linux。 mark 暂时不支持解压即用离线运行,无需网络支持批量截图 ocr、 批量 ocr pdf 识别、二维码识别和公式识别。


q w e n。 三点五小模型实现手机端本地运行四 b 参数离线 o c r 兼顾效率与隐私安全近期, q w e n。 三点五大模型凭借轻量化设计引发行业关注, 其仅四 b 参数的小模型版本可在普通手机上流畅运行,还具备图像识别与离线 o c r 能力,在办公与隐私安全场景展现出显著优势。 q w e n。 三点五四 b 突破了大模型对高性能硬件的依赖,无需云端服务器,不用高端电脑,在普通移动设备上即可稳定部署与推理。 轻量化架构让模型体积更小、加载更快,同时保持了较强的理解与处理能力,大幅降低了 ai 使用门槛。 该模型最突出的亮点是支持本地图像识别与 ocr 文字提取,用户拍摄文档、表格、名片、截图等,无需上传数据至云端,就能在手机本地完成高精度文字识别、自动提取、可编辑、可复制文本 识别准确率与实用性足以满足日常办公需求。对于注重隐私与数据安全的办公场景, qwe n。 三点五的全离线运行模式极具价值, 涉密文件、敏感合同、个人信息、内部资料等无需联网即可处理,从源头避免数据泄露、云端上传风险,真正实现数据不出设备。 相较于传统 o c r 工具依赖网络,存在隐私隐患、响应延迟等问题。 q w e n。 三点五在本地完成全流程计算,响应更及时,使用更稳定,弱网与无网环境下仍可正常工作。 办公场景中,它可快速完成文档电子化、信息录入、内容校对、笔记整理等任务,大幅提升效率。 q w e n 三点五四 b 在 手机端的落地,标志着端侧 ai 进入实用化阶段。小参数、强性能、高隐私、 低硬件要求的特点使其不仅适用于个人办公,也为教育、金融、政务等对数据安全要求严苛的领域提供轻量化 ai 方案。 随着端侧大模型持续优化,未来更多 ai 功能将从云端走向本地设备。 q w e n。 三点五凭借轻量化、多模态、离线可用的综合能力,为普通用户与企业提供了高效、安全、低成本的 ai 工具,成为移动端智能办公与隐私保护的重要选择。

um i o c r 是一款开源的 o c r optical character recognition 系统,基于 pedo o c r 技术站。它支持多语言文字检测和识别,具有高精度和快速的特点。 umi ocr 提供了医用的 api 和丰富的功能,适用于身份证识别、表格文字提取等多个场景。更多推荐请关注优雅工具园。