00:00 / 01:12
连播
清屏
智能
倍速
点赞134
00:00 / 05:22
连播
清屏
智能
倍速
点赞32
《神器 MinerU 来袭!复杂文档解析难题轻松搞定》 #MinerU #复杂文档解析 #RAG #文档处理工具 #技术分享 一、功能特性 1. 支持多种文件处理:可处理 PDF 文档中的表格布局、公式,支持全文档导入,能精准提取表格元素,支持多格式下载。 2. 多方式使用:有官网可在线上传文档使用,也可下载 Mac 等本地客户端 。 3. 识别效果良好:以 DeepSeek R1 文档测试,文字、图片及图片中携带的公式识别效果都不错,输出文档可生成 Markdown 或 json 格式。 二、技术原理 1. 开发团队及目标:由上海人工智能实验室OpenDataLab团队开发,旨在解决 RAG 场景中高质量结构化数据的难题,对复杂网页、PDF 做统一化处理。 2. 网页处理技术:官网 PPT 介绍其内容分概述、提取等四部分。先对网页分类,再基于当前模型采用不同抽取算法做知识抽取,之后对端到端性能做评测对比。 3. PDF 解析算法:采用 PDF 和 Magic PDF 两个算法,涉及模型解析和管道处理。管道处理包括预处理、文档分类、模型化处理、OCR 等,最终统一输出。处理流程包括拆分混合 PDF,通过 API 进行文本和 OCR 提取,再进行版面分类排版,每个节点都有实现和优化方法,如布局层面能识别多种元素,公式检测使用特定算法超越开源模型,还能识别手写公式。 4. 核心技术组件:介绍了布局检测、公式检测识别、OCR 识别等核心组件,OCR 主要集成到 Paddle OCR 进行识别。 多模态能力及优势:具备多模态提取能力,可提取表格、公式,进行布局分析。具有跨平台兼容、开源的特点,提供在线 API,无需部署可直接集成。 官网地址:https://mineru.net/ MinerU 线上demo入口:https://mineru.net/OpenSourceTools/Extractor
00:00 / 05:13
连播
清屏
智能
倍速
点赞34
00:00 / 01:34
连播
清屏
智能
倍速
点赞8