Umi-OCR，免费、离线的OCR图片转文字识别工具#软件分享

Umi-OCR\n模型库在哪里？

40

5

33

5

举报

发布时间：2026-03-16 08:13

查看AI文稿

粉丝1459获赞1.3万

相关视频

08:41
Umi-OCR图片识别文本工具分享本视频介绍了一个非常好用的【图片转文字】的识别工具，它可以快速将图片识别出文字，可以进行复制粘贴，也可以进行批量图片识别，也可以进行二维码识别
#软件
#图片转文字
#图片识别文字
#办公工具软件
399小庄学Python
04:49
DeepSeek-OCR-Web项目开源！零门槛一键部署！团队自研DeepSeek-OCR-Web开源啦，零门槛一键部署+网页端一键OCR应用！保姆级懒人一键安装，在线调用DeepSeek-OCR！#ai新星计划 #大模型 #deepseek #deepseekocr #rag
1303九天Hector
13:29
Qwen3.5 小模型实测：0.8B 到 35B-A3B 这期视频我实测了 Qwen3.5 中小模型在本地端的真实表现：
你会看到：
- 不同量化下的显存占用与推理速度差异
- 浏览器端 WebGPU 运行 0.8B 的体验
- 视觉识别/OCR 实测表现
- 9B 与 35B-A3B 在任务稳定性与效果上的差异
- LM Studio 关闭 thinking 的实操方法
- 在 OpenCode / Cline 中做工具调用与编码测试的结果
如果你也在找一套“能在本地跑、质量又够用”的模型组合，这期会很有参考价值。
时间戳
00:00 Qwen3.5 中小模型简介
00:50 格式与部署
02:21 显存与速度实测
03:40 视觉/OCR能力对比
05:33 本地实战案例
11:00 工具调用与编码测试
#Qwen35 #本地大模型 #Ollama #LMStudio #千问
查看AI文稿
AI文稿
大家好，我是叶哲，今天我将介绍一下千万三点五中小模型的使用体验。这些小模型非常受社区的欢迎，而且很多人都认为他们的能力很不错。从这张图上我们可以看到千万三点五九 b，它在多个基卷上居然是要超过千万三 s 的八零 b a 三 b c 型模型，这两个模型呢，规模相差是非常大的，虽然说一个是重密模型，一个是 m o e 模型，九臂呢，是主力模型，社区里用的会比较多。而且现在这些小模型它的工具调用能力也是有了一个极大的提升。四 b 的话也是有非常多的用户的喜欢，比如说你可以用它来和你的手机做一个连接，嗯，操作你的手机。那二 b 模型和零点八 b 模型呢，就可以在我们手机端运行，零点八 b 模型呢，甚至可以运行在浏览器上，非常方便。而且它是有多个的格式衍生，比如说 g g u f o n n x m m m 还有 m l x 社区里常用的技术站呢，奥拉玛拉玛 c p p 之前我有详细介绍过拉玛 c p p，嗯，它也有 webui，使用起来也是比较好用的。而用 g g u f 的话，社区里呢大多数会选择啊 onslaught 的方案，它的动态量化做得非常好。如果你是 mac 电脑的话，当然我们用 m l x 是比较好的。 tech news 的反馈呢，如果说你的系统提示词不够像样或者够长模型呢，就会进入很怪的 planning 或者长时间的自我检查模式。 parking face 社区呢，还分享了一个零点八 b webgl 版本，然后可以在我们浏览器上跑的，如果我开的话，我手上拿什么东西，或者说呃摄像头里面是什么场景下方它会立即识别出来。首次进入这个页面，它会下载八百多兆的模型，那这里呢，用的就是 o n n x 的格式，它是跨框架的计算图交换标准，主打可移植，可被多种运行时变易器加速。 g g o f 大家非常熟悉了， m n n 呢，它是阿里开源的端侧的推理引擎。 m l x，这个大家应该也是非常熟悉。 g g o f 呢，它是文件格式偏分发部署 o n n x，它是一个开放标准，这里有它们的核心的优势，对比大家可以简单了解一下。再来看一下各个模型不同的大小啊，不同的量化程度，它们的显存需求，推荐的硬件和速度，零点八 b，基本在任何的 g p u 啊手机上都可以跑起来。二 b 模型呢，如果是四比特量化的话，那需要的显存是一点五 g b，如果是四 b 四比特量化的模型，显存需求是三 g b，如果是九 b 四比特量化，那需要的显存是九 g b。二十七 b a 三 b 四比特大概是占用二十 gb 显存，在我的 mac 电脑上，我更倾向于使用三十五 b a 三 b 巴比特 m l x 格式的，那它的速度呢？大概是呃七十二 tik 每秒，同样也是巴比特，然后九 b 的模型，那呃速度的话，只能是五十多 k 啊每秒，这个速度的话就显著变慢了，如果是用了二十七 b 这个重密模型的话，那速度会更慢。而我在电脑上跑零点八 b 巴比特量化的时候，速度能达到两百 k 以上，这个速度是相当快的。再看一下各个模型啊，它的性能表现，零点八 b 的模型呢啊，它在数学 ocr 方面的话，得分也是非常高，可以适合一些简单的 ocr 任务。之前呃千万三 vl 的很多模型就将下方的 lvm 里面会漏掉一个字母，因为这一行的文字呢，它是比较小的。我在本地用巴比特量化的零点八 b 模型，让他去 o c r 的时候，发现它这里的质量是相当不错，我肉眼看了一下，是没有什么错误的。而三点五二 b 模型呢，它的得分呢，是超过很多上一代七 b 模型的，也是非常强。四 b 模型在 m m l u pro 得分呢，接近于千万三三十 b a 三 b 了。而在呃 omega dos 编制得分上，它是击败了 g b t 五 nano。再看一下九 b 模型，在长上下文基准上，它是打败上一代的千万三三十 b a 三 b 的。而在 m m m u pro 基准上，超过 g p t 五 nano。那社区的用户反馈呢，二比特和三比特量化质量又开始有明显下降，六比特呢，几乎没有可测量的性能损失。那千万的这几个模型，社区对他们有些评价，比如说啊，很多用户对二十七 b 还是非常青睐的，认为它的知识库很丰富，能力也很强。社区呢，给到三十五 b a 三 b 是三分。说到这里呢，非常推荐大家在使用千万三点五的时候呢，看一下 onslos 的它的一个使用指南，它在这里就详细介绍了啊， sync 模式下，那我们的各方面的参数怎么设置？现在就来看一下千万三点五中小模型在我本地进行的一些实际体验，那我在这里呢，用到的都是它们的 m l x 格式巴比特量化的模型，现在看到的是让 a 三 b 模型反推 ai 绘图提示词，在下方，我们看到它回复的内容还是非常多的，我把这里的提示词发给 nano blender pro。二、它帮我生成的图片呢，和我一开始发给的原图非常相像， a 三 b 帮我解读图片也是比较好。这张图呢，呃，我们可以看到各个模型，它并没有明确说这个模型。呃，它的 swbench pro 的得分是多少，那这里 a 三 b 它是自己估摸出来说啊，千万三 coldest 它的性能达到了约百分之四十四，这张图呢，是我从网络上获取的。再讲呢，千万二点五零点五 b 模型和现在的千万三点五零点八 b 在回答同一个问题的时候，已经有了非常大的进步。那我现在就让 a 三 b 模型来解读一下它。在这里呢，解读的非常好啊，每个模型的名称，包括每个具体的回答，然后还来了句幽默的话，说这张图呢，主要目的就是炫耀千万三点五相比千万二点五的进步，就模型呢，就是太听话了，你问什么他姓什么，甚至呢能编造事实。而篮筐呢，他更聪明，能识别出常识性的错误，不会一本正经的胡说八道。我在使用 a 三 b 的时候呢，有的时候它的思考过程会一直循环，那我们可以通过重建对话，或者在提示词里面加一句，让它不要过度思考来解决这个问题。在呃，这张图里呢，我们看到这是九 b 回答的，我呢是希望模型识别出这张图里的所有的配件，八五四是一个垫片，九臂模型呢，它说这里是连接圆盘和固定件，这里的说法的话还有待加强。之后我又让九臂模型帮我做一个音乐格式化合成器，这是它第一次生产的效果，点击自动演奏，点击的话是没什么反应的，当我点击粒子喷发，那效果的话也能出来，但是和我的琴键上是不是一一对应的，而且控制台是有一些报错的，所以呢，我需要他给到完整的啊。最后修改后的文件能听出来他正在弹奏小星星，但是我们可以感知到他发出来的声音和琴键的按键的啊，按下去是不对应的，所以这里还是有比较大的问题。再让九臂做一个赛博朋克的个人信息仪表盘，再看一下它身上的效果，在这里的话，它身上的这个页面就要比刚刚要好很多了。再接着呢，我将一张模糊的小票发给九臂模型，让它识别一下。这张图下方呢有四个字比较模糊，那九 b 呢，模型在这里没有识别出来，其他的文字内容的话，我看了一下，没有什么太大的问题，我再尝试了一下，这次呢，他将五音良品下方的文字都是展示出来了，这样的千活字减字盘 a 三 b 模型也能非常很好的识别出来，这是他的思考过程，内容非常非常多，真的就是一个一个字在识别，最终是能识别出大部分文字的。如果说你在连接 ml studio 让它识别图片的时候出现这样的问题的时候，那你可以考虑，一是将整个模型它的上下纹长度变小一点。第二呢，是限制一下啊，整个图片的一个尺寸，我一开始给它设置的是不超过四零九六，那经常会有内存溢出的情况，而改成二零四八之后就会好很多。这个画面里呢，我让他数一下有多少只火烈鸟模型呢？是，呃，思考了十一分钟，最终呢，一直都在重复，所以我就终止他任务了。我换成 a 三 b 呢，让他识别图片中有多少只火烈鸟。它这里的话啊，识别还是相当不错的。同样的，剪字盘发给 a 三 b，让它解读图片，并且 ocr 图片里的所有内容，它能很好地指出这是活字印刷的字模，必须是反字镜像。之前是只有一些比较大的模型，它能识别出来，那像 jammer 二点五， flash 这种，它是识别不出来的。所以现在啊， jammer 三点五，它的能力还真的是非常不错的。当我提示九 b 模型呢，让它数一数图片中有多少只火烈鸟，不要过度思考，那我们看到它思考了三分半钟，最终就给到非常好的回答。如果说，嗯，大家也遇到同样的他模型，一直在思考，那就可以将提示词改一下。我还让零点八 b 模型呢，反推 ai 绘图提示词，最终将这里生成的提示词呢啊，发给 ai。最后 ai 生成的图片和原图呢，是有一些区别。换成四 b 模型之后，将这样的提示词发给 ai 身上后的图片就和原图非常接近了。在这里呢，呃，用到了四 b 的思考模型。而在这里呢，大家可以看一下，这里是没有思考模式的，那这个是怎么设置呢？我们来到啊 l m studio 里面找到模型，然后右侧呢，我们可以点击一下这样的一个设置按钮，在推的这个界面有一个提示词模板，在这最上方呢，在这最上方添加一下这样的一个设置，它就会关掉思考了。最后呢，我也测试了一下 a 三 b 模型，它的工具调用能力，我是通过在 client 里面和 open code 里页计划模式让它来编码来测试的。我们现在看到的是一个理发应用，右侧有 three js 的元素。在我个人看来啊 s m b 它能达到这样的效果还是非常不错的，这是它生成的方便面自动化工厂，包含多个步骤。其实和我之前用一些比较大的模型啊生成的已经是很接近了，这是它生成的火星体数生物研究站的啊，一个场景，我们仔细看的话会有一个透明的球，它生成的这个透明的球的话，效果肯定是比不上 mini max m 二点五或者呢是 office 四点五。但我个人觉得对于啊，它在我本地运行这样的一个 a 三 b 巴比特的模型，质量也是很不错了。现在我们来看一下咱们在 opencode 里使用 lm studio 的模型。那首先呢，我们可以通过这行命令来确认一下 l m studio 当前暴露的真实模型 id。然后呢，可以啊，打开配置文件路径修改粘贴以下部分，再之后呢，就可以重启。以上呢，就是今天介绍的关于千问三点五中小模型的一些使用体验，我个人对它来说是非常喜欢的，因为它文本能力也强啊，原声支持二百五十六 k，而且它是多模态的，现在无论是 m、 l、 s 还是拉曼 c， p、 p 都是支持批量调用的，所以大家可如果有一些批量的啊，一些任务不复杂的，那完全可用它来在本地来做，因为它输出的质量是相当不错的。四 b 模型、九 b 模型和 a 三 b 模型都是非常非常推荐的。
452kate人不错
02:50
我敢说这个神器你一定不知道！ Umi-OCR：图片转文字神器；快速高效；
#效率神器 #AI #电脑必备 #转文字工具 #实用工具
19小名笔记库
13:11
本地部署+测评最强开源企业级OCR大模型InternVL 🚀挑战Gemini 2.5！最强开源企业级OCR大模型InternVL3！本地部署教程+实战测评全纪录，轻松搞定潦草手写汉字、模糊PDF扫描件、模糊复杂表格，效果炸裂超过人眼！支持Open WebUI
🚀🚀🚀视频简介：
✅企业知识库搭建不再愁！本地私有化部署最强开源OCR模型InternVL3-14B，彻底解决敏感扫描件处理难题，保障数据安全，精准识别模糊古籍、复杂代码，附带LMDeploy本地部署与OpenWebUI交互完整指南
✅本视频详细演示了如何在本地部署开源模型InternVL 3来进行OCR识别，避免敏感数据经由第三方API泄露。
💻 从环境配置到模型部署，再到OpenWebUI交互，全流程手把手教学！
🚀 通过多场景测试，包括：
✏️ 潦草手写体识别
🧾 模糊小票内容提取
📄 复杂表格结构识别
📜 古籍文字识别
📊 流程图转Python代码
⚙️14B参数版本在识别效果与资源需求间取得完美平衡！
#ocr #InternVL3 #internvl #ai #aigc #
1178AI超元域
09:15
Chandra OCR本地部署+测评！超越DeepSeek 为什么说Chandra是目前最强开源OCR模型？我们用9个最复杂的模糊扫描件进行了极限测试，结果令人惊叹，完胜DeepSeek-OCR！轻松识别模糊手写体、复杂公式和表格PDF扫描件，效果远超想象
视频简介：
✅ OCR终结者降临！全新9B模型Chandra深度评测，9项地狱级任务（含手写/公式/表格）全通关，效果媲美商业级模型，可本地免费部署！
🚀 本期视频详细演示了一款重磅发布的9B参数开源OCR模型——Chandra！它旨在彻底解决传统OCR（如DeepSeek-OCR）处理复杂PDF时，频繁出现漏字、丢失页眉页脚、排版混乱和表格错位等顽疾。
📄 视频中，我们不仅会手把手教你如何在本地（通过LM Studio或官方Demo）快速部署Chandra，还将通过9个“地狱级”难度场景对它进行极限压力测试：
* ✍️ 模糊手写体与重叠代码
* 📊 包含数学公式、复杂表格的学术论文
* 🤯 排版混乱的笔记和带注音的试卷
* 📜 包含图表和繁体古籍的扫描件
✅ 结果令人震撼！Chandra不仅识别精准，更能完美保留原文档结构（页眉页脚、标题层级），结构化输出（HTML/JSON/MD）能力远超同类模型。
🔥🔥🔥时间戳：
00:00 开场：现有OCR模型处理复杂文档的痛点 00:56 主角登场：最强开源OCR模型Chandra介绍 01:28 核心能力：Chandra模型功能亮点全解析 02:01 本地部署：两种方法教你轻松部署Chandra 03:22 性能实测：扫描版长文档（含页眉页脚）识别 04:28 挑战一：手写体文档精准识别测试 04:46 挑战二：含重叠代码的模糊PDF识别 05:22 挑战三：带拼音的复杂考试试卷识别 05:51 挑战四：学术论文（含公式与表格）识别 06:40 挑战五：排版混乱的手写学习笔记识别 07:27 挑战六：含重叠文字的复杂表格识别 08:08 挑战七：含图表的扫描件识别 08:28 挑战八：古籍扫描件（繁体字）识别 08:51 测评总结：Chandra在复杂场景下的卓越表现 09:15 结尾：资源获取方式与感谢观看
#ai #ocr #deepseekocr #Chandra #aigc
118AI超元域
01:13
离线OCR图片批量识别文字 #OCR #文字识别 #批量文字识别
查看AI文稿
AI文稿
互联网照样文字识别还能批量处理！之前介绍过一款离线的文字识别工具，今天发现他已经更新到了二点零，而且据作者说重构了大部分的代码，功能更强大，而且界面焕然一新。非常遗憾的是，只支持到 win 七以上的系统，暂时还不支持 mac 系统。先打开软件看看它的功能，打开软件后，在左侧只有截图 ocr、批量 ocr 二维码和全局设置截图。 ocr 中功能非常简单，在右侧功能区可以设置截图的快捷键，移实图后直接复制结果等一些相关设置。批量 ocr 识别这个功能非常的好用，直接可以将多张图片一次性的识别完成，比那些在线识别省时又省力。最重要的是还可以设置忽略图片中的特定区域，这样就可以省去后期编辑时的一些麻烦。二维码功能就不用多说了，就是可以将文字内容直接生成二维码。作者还公布了开发计划，近期准备增加 pdf 识别和图片翻译，以及对其他操作系统的支持。这款工具使用的是拍森开发元代码，全部开元。如果对 python 感兴趣的朋友可以下载元代码进行学习和研究。需要这款工具的可以在评论区里留言获取工具包。
3745明哥说软件
00:48
逆天开源的AIpdf神器umiOcr 逆天开源!GitHub狂揽3万+星，模糊扫描PDF秒变高清可搜文档！#Al工具#效率神器#PDF转换器#开源神器#职场必备
1629二次螈Ai工具箱
00:17
技术圈公认的免费离线OCR神器，GitHub超3万Star，不香吗？#ocr文字识别 #ocr #umiocr #离线ocr #开源工具
446brizer
00:17
免费批量识别支持公式UmiOCR #ocr #好好学电脑网站 #好好学电脑官网 #软件分享 #软件推荐
查看AI文稿
AI文稿
这是一款批量识别软件，优米 ocr 项目完全开源，支持 windows 和 linux。 mark 暂时不支持解压即用离线运行，无需网络支持批量截图 ocr、批量 ocr pdf 识别、二维码识别和公式识别。
1好好学电脑
04:57
Umi-OCR 识别截图，文字，二维码，从 PDF 扫描件中提取文本。 #Umi-OCR
9尘中人
03:21
DeepSeek鬼才！最新开源模型DeepSeek-OCR横空出世，参数量只有3B，但精妙设计和大胆探索，剑指AI将长期记忆能力。 #DeepSeekOCR #DeepSeek #AI长期记忆 #开源
7778卡尔维闹
12:29
DeepSeek-OCR深度解读+上手指南！ DeepSeek-OCR新模来袭！仅需7G显存，本地部署运行最强开源OCR+多模态混合模型DeepSeek-OCR，表格+图片+CAD图纸高精度识别，多模态PDF到MarkDown一键转换！#ai新星
1151九天Hector
04:29
“超简单！用 Colab 部署 Nanonets-OCR 实 🎥 视频简介：
本期视频将带你在 Google Colab 平台上，手把手部署开源 OCR 模型 Nanonets-OCR-s，实现图像中的文字自动识别。无需本地环境配置，无需 GPU 本地部署，只需一个浏览器，轻松上手！
📌 视频内容包括：
Nanonets-OCR-s 简介与核心功能
在 Colab 上的环境准备与依赖安装
模型部署与运行演示
图像文字识别效果实测
常见问题及调试技巧分享
🧠 适合人群：
想快速尝试 OCR 技术的开发者 / 学生
对图像文字识别感兴趣的 AI 爱好者
无 GPU 设备也想玩深度学习的朋友
📎 参考链接：
https://huggingface.co/unsloth/Nanonets-OCR-s
#OCR #Nanonets#AI
#开源 #测试
💬 有任何问题欢迎在评论区留言，我会尽快回复！
32AGI_Ananas
02:20
Qwen3.5小模型实现手机端本地运OCR兼顾效率与隐私 #Ai #电脑 #科技
查看AI文稿
AI文稿
q w e n。三点五小模型实现手机端本地运行四 b 参数离线 o c r 兼顾效率与隐私安全近期， q w e n。三点五大模型凭借轻量化设计引发行业关注，其仅四 b 参数的小模型版本可在普通手机上流畅运行，还具备图像识别与离线 o c r 能力，在办公与隐私安全场景展现出显著优势。 q w e n。三点五四 b 突破了大模型对高性能硬件的依赖，无需云端服务器，不用高端电脑，在普通移动设备上即可稳定部署与推理。轻量化架构让模型体积更小、加载更快，同时保持了较强的理解与处理能力，大幅降低了 ai 使用门槛。该模型最突出的亮点是支持本地图像识别与 ocr 文字提取，用户拍摄文档、表格、名片、截图等，无需上传数据至云端，就能在手机本地完成高精度文字识别、自动提取、可编辑、可复制文本识别准确率与实用性足以满足日常办公需求。对于注重隐私与数据安全的办公场景， qwe n。三点五的全离线运行模式极具价值，涉密文件、敏感合同、个人信息、内部资料等无需联网即可处理，从源头避免数据泄露、云端上传风险，真正实现数据不出设备。相较于传统 o c r 工具依赖网络，存在隐私隐患、响应延迟等问题。 q w e n。三点五在本地完成全流程计算，响应更及时，使用更稳定，弱网与无网环境下仍可正常工作。办公场景中，它可快速完成文档电子化、信息录入、内容校对、笔记整理等任务，大幅提升效率。 q w e n 三点五四 b 在手机端的落地，标志着端侧 ai 进入实用化阶段。小参数、强性能、高隐私、低硬件要求的特点使其不仅适用于个人办公，也为教育、金融、政务等对数据安全要求严苛的领域提供轻量化 ai 方案。随着端侧大模型持续优化，未来更多 ai 功能将从云端走向本地设备。 q w e n。三点五凭借轻量化、多模态、离线可用的综合能力，为普通用户与企业提供了高效、安全、低成本的 ai 工具，成为移动端智能办公与隐私保护的重要选择。
6沐凌熙
04:26
【麒麟桌面系统】Umi-OCR⽂字识别⼯具麒麟桌面操作系统 V10 SP1 2503 Umi-OCR 文字识别工具的详细安装和使用方法 #麒麟系统
72通信小菜鸡
00:31
Umi-OCR 一款开源的OCR系统#程序员 #开源 #OCR
查看AI文稿
AI文稿
um i o c r 是一款开源的 o c r optical character recognition 系统，基于 pedo o c r 技术站。它支持多语言文字检测和识别，具有高精度和快速的特点。 umi ocr 提供了医用的 api 和丰富的功能，适用于身份证识别、表格文字提取等多个场景。更多推荐请关注优雅工具园。
314优雅工具猿
03:12
大白话讲透DeepSeek新模型！ #看看这是啥 #科技前沿 #AI #科技 #知识今天没洗头有点丑，但DeepSeek-OCR这个新模型太有意思了，还是录一期视频讲讲。
93亨亨的产品变量
02:36
截图文字识别工具 ShareX VS Umi-OCR #办公软件 #软件
46樊一良
00:30
OmniAl | 开源OCR神器！
#ocr文字识别 #开源大模型 #AIGC #黑科技 #科技感爆棚
711二刺猿变二刺螈

热门推荐

热门分类