粉丝2.2万获赞5.9万

最近,摩根史丹利发布了一份备受关注的研报,预测 ai 智能体将在未来撬动全球约十六万亿美元的经济价值。面对这个巨大的数字,我们需要冷静思考一个问题,这十六万亿的增量到底从哪里来?如果仅仅是把聊天机器人做的更聪明一点,显然撑不起这个估值。 事实上,这份预测背后的核心逻辑在于,企业软件架构正在发生一次待机更替。过去三十年,无论是 salesforce 还是 sap, 这些巨头,本质上都是记录系统。他们做的很好的事情是记账,记录卖了多少货,员工入职了没有。但他们有一个共同的盲区,他们只记录了结果,却无法记录决策的过程。 为什么过程这么重要?我们看一个真实的业务场景,假设你们公司给一个即将流失的客户特批了百分之二十的折扣, 在现有的 crm 系统里,你只能看到一个最终数字,折扣百分之二十。但真正有价值的信息其实丢失了。比如引用了哪条三点二版的政策,参考了上季度哪位副总裁批准的先例,以及当时为了挽留客户做了哪些跨部门的协调。这 这些逻辑以前全都在员工的脑子里,或者散落在 slack 的 聊天记录里,随着人员流动就消失了。智能体 agent 的 真正价值就在于捕捉这些信息,因为它处于执行路径上。当智能体在处理工作时,它会像飞机的黑匣子一样,把决策背后的依据、规则、例外情况全部记录下来,编织成一张上下文图。 这就意味着企业第一次拥有了可查询的决策记忆,这才是资本市场看好他的根本原因。他把一次性的自动化操作变成了可附用的数据资产。理解了这个底层逻辑,我们再把视线转回国内市场,在 a 股寻找相关机会时,建议关注以下三个具备高壁垒特征的细分板块。 第一,关注高人力密度的垂直行业软件报告指出,如果一个业务流程目前需要五十人以上的垂直行业软件报告指出,如果一个业务流程目前需要五十人以上的垂直行业软件报告指出,如果一个业务流程与财税法务板块值得重点留意。 这些领域的业务逻辑极度复杂,充满了适情况而定的例外处理。能用智能体固化这些老师傅经验的公司,将获得极大的人效提升。 第二,关注跨系统的粘合剂板块。企业内部最大的痛点是系统割裂。报告强调了像 devops 和 revops 这样的跨直能角色映射到 a 股 就是工业软件与智能运维。 a i o p s。 这些公司处于数据的交汇点,只有智能体能跨越系统孤岛,还原事故或业务变化的真相。第三,关注智能体的审计与治理。随着决策自动化程度提高,企业对合规性的需求会爆发, 网络安全与数据治理板块的逻辑将发生变化,他们将不仅仅是防火墙,更是智能体决策质量的审计局和监控室。最后,总结一下摩根施丹利的预测,通过这份关于上下文图的分析,找到了落脚点。未来的行业巨头大概率不会诞生在单纯的大模型 层,而是诞生在那些能通过智能体把隐性决策转化为显性资产的公司里。投资也好,创业也好,看懂了决策数据的价值,就看懂了下一阶段的红利。

这是国内开源的首个 ai 黑客项目,它能一键找出你的代码漏洞,在多智能体协调模拟安全专家思维的框架下,实现对代码的深度理解、漏洞挖掘,他先会指定审计计划,然后识别项目框架,再结合二 a g 知识库与 s c t 分 析寻找潜在漏洞,然后编写 p o c 脚本在刀客沙盒中执行, 最终形成一份详细的审计报告。最重要的是,它支持本地部署大模型,也可以配置惩风算力大模型市场,快来试试吧!

鲁智深要拳打工程人了, deepsea 和通信纤维被用来搞工程结算审计了,以前靠经验靠熬夜、靠嘴皮子的时代要结束了,你以为以后的工程结算审计还是工程人一页一页的翻资料吗?错了,山东的 ai 审计自媒体就上线了,取名叫做鲁智审。 这个名字取得有点意思,有种重拳出击的意思。以后你交上去的东西不是人看,而是机器扫,扫什么? 每一份工程签证,每一次的设计变更,每一条的合同条款,每一张过程资料影像台账,不是看你解不解释的通,而是看数据对不对的上。逻辑避不闭合,前后冲不冲突, 而且真正残酷的地方还在这。以前我们的工程是怎么过的?工程是熬夜,反复的过程补资料,逻辑圆,回来靠经验时间慢慢的推。现在呢?清单逻辑不一致,给你标红签证时间线异常,给你标红变更与合同冲突,给你标红资料后补,拼接拼凑, 直接给你锁定。我问你一句,你现在做的签证变更过程资料,扛得住 ai 审计智能体的审计吗?

这是一份正在被 ai 审查的劳动合同,注意看这里,当 ai 发现风险条款,不仅仅能给出建议,还能直接在 pdf 原文上画出红框,精确到每一个字。 更关键是,这里觉得 ai 建议不合适,点一下不采纳流程,立马暂停等待人工修正还不够?想调整审核标准,直接在线配置审查规则,无需修改代码,即刻就能生效, 审查结果原位高亮,人机交互协同自定义审查规则在线更新,这才是企业真正需要的智能文档审核。 大家好,我是暮雨,还记得上一期视频我们做的文档审核 a 政策吗?我们已经证明了 ai 完全有能力读懂复杂的法律条款,帮大家解决审查效率问题。但是想要在真实的商业环境中落地,光有智能还不够,我们更需要可控。 所以视频一经发出后台,我收到了很多小伙伴的私信,虽然能自动审核,但能不能做的更加精细?比如让我能直接在原文件上看到哪里错了,或者在 ai 拿不准的时候让我也插手管一下,没问题。安排 这一期,我们在上一期扎实的自动化基础上,进行了史诗级的功能迭代,基于最新的 long chain 一 点一和 long graph 一 点零,引入了更高级的交互逻辑,带你从零到一,打造一个交互体验感拉满的 fast 级智能审核平台。 来看看为了商业落地,我们做了哪些硬核升级。第一, human in the loop 人机协调 利用 long graph 的 状态管理,在工作流中植入了一个 interval 中断信号,并配合 checkpoint 对 当前现成状态进行快照保存。当 ai 遇到低执行度的条款时,工作流自动挂起。 只有当人工通过前端 api 发送指令更新状态后, agent 才会读取历史快照,恢复上下文继续执行,这才是真正的白荷花控制。 第二,基于 bbox 坐标映设的像素级高亮。结合 manuel 的 强大解析能力,在提取文字的同时,通过 layout 点 jason 拿到每一个字母在 pdf 页面上的 bbox 边界框几何坐标。 前端渲染时,通过计算看 whats 坐标映设,就能让 ai 的 审查结果精确地锚定在 pdf 原文位置上。 第三,支持在线自定义构建审查规则。为了实现规则热更新,我们将硬编码的 python 逻辑解偶重构为基于 json 的 动态配置层。 前端配置的每一条审查规则都会被实时系列化,并在运行时通过 prompt template 动态注入到 agent context 中。 这意味着你不需要重启服务,不需要重新部署,每一次请求都能加载最新的业务逻辑,这让该系统的灵活性和适用度都有了质的飞跃。 第四,全链路持久化存储。为了满足企业审计需求,我们引入了完整的 o r m 层。 不仅仅是最终结果,我们把 agent 思考过程中的中间步骤以及每一次人工修正的操作制度全部进行了结构化入库,更为未来微调私有模型积累了宝贵的 sft 数据。 如果说上一期是智能文档审核 agent 的 技术可行性验证,那么这一期就是真正的产品交付。 当然,为了实现这些高阶功能,我完全重构了整个项目的前后端架构,并把最新的项目原码进行了完全的开源,无论你是想提升技术的开发者,还是想为团队提效的产品经理,这期实战课都能给你提供一套完整的代码参考。 看在亲注如此多心血的份上,还望大家多多三年支持。今年以来,大模型技术发展势头非常迅猛,我也将持续为大家提供最前沿使用的技术教学,感谢大家的关注和三年支持。 本次公开课的课件代码、项目源码、运行脚本、知识库文件等资料都已经在赴范大模型技术社区中上线了,我是暮雨,专注为大家提供最扎实的优质技术内容。公开课马上开始 啊,那么我们第一个 part, 首先啊,需要给大家快速的梳理和介绍一下关于文档审核类的这些 ai 啊,它目前 有没有在我们的这个市场上有一些成熟落地的产品?同时成熟落地的产品,他们的一些应用的形态是什么样的?这样的一些啊,应用的架构和落地产品的形态。 实啊,无论是你自己公司内部在做文档审核来说,还是说啊,你想要去自己做一些文档审核类的 agent, 来啊去发布一些这样的产品,都会对你有很大程度上这样一个启发的作用。 当然我们的这个整个的系统呢,其实它底层的这个架构呀,包括前端的这个实验思路,毫无疑问啊,也是啊,采纳了目前已经比较成熟的这样一些产品,我们主要采用的就是 阿里的通易法瑞的啊这样一个落地的产品形态。大家一会呢会给大家去介绍一下阿里的通易法瑞,它的这个落地产品形态到底是什么样的?而且它有呃,它还是有这个免费使用的这样一个资格,大家可以去无偿的进行一些使用。 所以对于这个文档审核类,他的一个产品其实像啊大模型在发布了,发布以大模型在这个爆火以来呢,我们一直都在去探索他能够落地的一些场景,而对于文档审核类,其实早在二四年的时候啊,当时啊就已经有非常非常多的探索,而下面的这篇论文呢,如果大家感兴趣的话可以去看一下, 这个呢就是针对于法律的啊,这样一个领域构建的这样一个文档审核,其实他最低啊,他最终得到的一个啊,这个结论就是大模型在做审核类的啊,这样一个 a 证,他的成本仅为传统方法的几分之一啊,传统方法是什么呢? 人工哈,要么就是人工,要么就是人工,借助一些自动的审批,自动的一些工作流啊,这种传统方法啊,他其实他的成本仅为几分之一,而且他的成本啊是降低到了惊人的百分之九十九点九七 啊,所以他的这个成本很低,而且具有实际的这样一个落地价值,同时他在审核方面其实是超越人类的啊,所以大家不要不相信啊, a 阵的现在能做的事情已经非常非常多了, 当然关于这个它是一个啊,属于实验啊,同时呃同时给出这样最终数据的这样一个趋势性的论文啊,大家感兴趣的话可以来这个链接里面去看一下,我们就不重点给大家进行一个展开的梳理了,我们这里就主要啊看一点直观的这个东西, 那么直观的东西呢,就是看看,那我们既然大家也在去考虑想要做文档审核啊,或者是你对这方面比较感兴趣,那么现在成熟的一些文档审核他的一个应用形态是什么呢?那么我是强烈的建议大家去看一下呃,阿里云的啊,他发布的这个统一法瑞的这样一个产品。 当然对于阿里云的同意法律的这个产品呢,它并不单单是仅应用于啊合同审核或者是法务合同审核的这样单一领域,它也提供了啊,法律问答呀啊,法律标书呀啊等等一系列的这样一些功能啊,它是一个极大成的这样一个法律领域的系统,同时它底层呢也是微调了。 呃,阿里啊自家的这个模型产品的一个基于法律垂直领域的这样一个知识来去构建的这样一个服务的应用。 而我们这里所关注的其实就是阿里的统一法律里面,它是有一个这个文档审查的啊,合同审查的这样一个应用的啊,它的一个展现形式就是这样的啊,其实简单理解就是啊,它呢会允许我们去上传一些 pdf 啊,或者是 word, 然后啊 它里面因为它是基于法律的嘛,啊,所以它是基于啊,我们中国的这个法律构建了很多预制的这样一些规则啊,基于这些规则呢,它会对我们上传的这个文档,比如说这个劳动合同解除书呀啊,或者是聘用的 聘用书呀,或者是你的租赁合同呀等等等等啊,这种他有不一样的这个法,那不一样的这个法律条纹啊,他内置了这样一个规则库,可以自动的去进行审查,他呢去可以直接的给你生生,呃,这个生成出啊,你当前的这个合同有哪段话,哪句话 触犯了哪些的风险,以及给出对应的一个建议啊?上面的这样的一个截图呢?呃,大家可以啊,去实际的去试试用一下啊,这个链接,他应该是每个新用户可以用三次啊,每个新用户可以用三次,大家可以实际的去尝试一下,那么这个是第一个, 那么第二个呢?就是啊,像啊,百度啊,百度的 pad 啊,它其实有非常非常多的这些 ai 的 服务啊,它这里面就有一个关于像百物呃,财务、医疗、教育、票据的这样一个 ocr 的 识别。 那么这个呢,其实非常简单啊,就是你可以把你的这些发票呀,票据呀去上传到当前的这个系统上,那么它底层呢,其实是使用 ocr 模型来把你的这个图片里面啊,或者是啊你发票里面的这些字段,比如你的发票类型啊,发票名称,全部给你提取成结构化的这个数据,那么当你 提取出了这样的一个结构化的数据的时候,你想要对这些数据去进一步的审查啊,其实你就可以去构建一些啊固定的这些流程,比如你去检验一下他缺少了哪些字段啊,或者是他的这个利率啊,还有他的这个金额,是不是啊符合对应的一个标准等等啊,都是我们可以直接去做的啊,所以这个是啊, 这个是百度的啊,这样一个产品,那么同时啊做的有一点点啊,这个吸引吸引人眼球的啊,就是宇和科技的,他做了一个数字员工啊,当然他这个也是文档审查的这样一个方向, 他做的这个产品呢,大家可以点击上面的这个链接去看一下这个产品他是内置里面定义了很多啊,这个私有的这个数据的情况,然后呢他可以去上传一些清单,然后 他会根据清单里面内容和内置数据库里面的啊这样一些数据来去进行匹配,来去看一下你当前的这个清单里面 是不是存在一些什么库存不足呀啊,或者是一些呃这个金额的问题啊,或者是一些嗯,呃,或者是一些事实性的错误等等啊,他会根据这样的一个形形式去构建这样的一个审核的啊流程,当然他这个呢,其实,呃官方啊,大家点击这个里面, 我看我这里能不点,能不能点开啊?它这个里面其实是有一个演示的视频的啊,有演示的视频的啊,大家可以去看一下,其实还是非常有意思的, 就是这个演示的视频啊,它也是基于它做的这样一个文档审核,当然我们这里就不带大家去啊,不带大家去看了啊,大家可以自己去看一下,所以关于上面的这些啊,系统呢,本质上啊,它们底层的这些技术, 我们今天给大家讲解的都能够给覆盖到。同时我们今天给大家去能够落地的这样一项技术呢,其实是和阿里的同一法瑞,他所做的这样一个流程,还有他的一个效果是完完全全一致的, 也是我们今天给大家做的,也是啊,可以去上传我们的文档自定义规则和预构建一些规则。然后呢针对于我们筛选出啊审核出来的一个具体的问题,能在当前的这个页面上给他进行一个高量的展示,进行高量的展示,同时在右侧可以给他进行一个人工的审批。 所以这个系统呢啊大家是完完全全可以通过今天的学习来去进行复现的。而关于 ocr 啊,还有像啊啊 特别特别符合阿里同意法律的那样一个啊系统构建的流程,其实我在几周前呢,已经在公开课中给大家进行了一个讲解,那么啊大家可以啊,向大家可以找到我们的助教老师啊,来去领取 那个项目的完整的一个前后端的源码啊这个项目呢,当时对于 ocr 啊这个方向,还有像 paddle 啊,还有像 paddle 啊 manu 以及 deepsea ocr 去进行文档解析的另外一个合同类的审查的方向,这两个功能呢,在这个系统里面都有啊,非常详细的一个讲解以及对应的一个源码, 大家如果感兴趣的话,可以直接找我们的助教老师来领取完整的一个前后端的源码以及对应的课间。那我们今天呢啊就不展开来给大家进行一个说明了, 那我们现在要理解的就是针对于这类的一些文档的合规啊,其实它本质上就是基于大模型啊,能够去构建 agent 这样一个能力来去基于我们给他定义的一些规则,合理的啊,通过大模型的一个自主分析和外部工具调用的一个能力, 去生成和生呃和呃自动执行对应的一个审批的操作。所以像这类啊啊,比如说像这种法务的合同呀,或者是财务的票据啊,或者是标书文档的审核,本质上啊,我们用相同的这种技术思路都是可以实现的, 只不过因为不同的场景他们所涉及的两点不同,那么第一点就是你原本的啊,原本的这个 文件原始内容不一样,比如说你的这个法律合同文件啊,和你的这个票据,肯定是啊,这个法律合同文件更加的复杂,你的这个票据本质上就是一张图片吗?啊,他肯定是更加简单的,所以在文档的这个解析方面啊,会有很大的一个差异。另外一个就是在不同的领域,那么他的这个审查的规则啊,肯定也是不一样的, 像法律啊,各种各样的这个法律的条纹啊,那么构建起来会非常非常的麻烦。那么对于你公司个人的一些啊,这些啊, agent 啊,或者是审核的一些流程呢,那么好与问,你如果有一些啊,强制的或者是非常明确性的一些标准给他去进行一个定义,那么他就可以很快的按照你需要审查的这样一个方向来 来去进行当前文档的这样一个处理。所以在文档的这个解析啊,以及我们合同这构建上会有很大的一个差异,就导致了在不同场景下啊,在不同场景下, 那么啊构建这样一个审核 a 证上它的一个技术站啊,还有难度都是不一样的。而关于难度的等级呢,最高的毫无疑问就是法务合同类的,那么相对来说比较简单的就是像财务的报表类的这样一个审核, 而基于这样的一些啊,不同形式难度的啊这样一个场景,那本质上啊,底层都是应用到大模型 ai agent 的 这样一个技术。 那么像啊,我们接入的 ai agent 啊,可以让他去进入一个大模型,让他去进行一些自主的推理,然后通过 planning 模块来去给他进行一个规划,让他去了解应该如何针对于当前的这个文档去 执行对应的这样一个处理分析的啊,一个任务调度。那么同时呢啊,他可以去调用一些外部的工具来去执行,你去接入 啊,或者是审核这个 a 证的过程中所需要具备的一些外部的工具啊,或者是啊,他也可以通过 rec 技术来去解锁你 本地啊所构建的这样一些自定义的规则,所以所有的这些功能呢,都是非常非常标准的啊,一个构建 agent 的 核心的这样一个模块。当然我这里呢,也是给大家具体的做了这样一个拆分啊,做了这样一个拆分, 也就是说,其实无无论是哪种形式的这个啊,文档审核类,我们都需要去具备的。就是啊,第一个,你只要是涉及到文档啊,那么我们就需要 要么通过 vlr 模型,要么通过 ocr 模型把你的这个文档的内容全部解析成文本啊,像 pdf 啊, png, gpg 或者是啊 word 等等,先解析成文本,然后呢,我们去啊记使用 ai agent 对 应的四个经典的模块啊, 通过 planning 进行一个任务啊审核的一个规划,通过 to calling 调用一些外部的工具来去辅助它进行一些执行操作的啊逻辑,同时通过 memory 来去让它记住上下文的一个信息以及对应的这个 action 啊,其实就是 function calling 工具调用的这样一个实际的运行的过程。 而对于这样的一个 ai ai 政策的模块,相信大家也都听过很多个啊, ai 的 这个开发的框架,比如说像啊,狼辰呀啊,狼豹呀啊,这个谷歌的 adk 呀,或者是 autogen 等等等等,其实这些 模块啊,这些框架都是可以做的啊,都是可以做,并不是仅仅我们今天给大家讲的 long chain 可以 做,而只不过呢, long chain 在 构建这个流程上那会更加的简单,而且对于我们新手啊来说呢,会更容易去进行一个理解啊,这个是 a 阵的模块,而另外我们需要关注的就是它的一个规则的系统模块, 那么这个规则的系统模块呢,我们会把它分成两个,那么一个呢,叫做规则触发型的 prompt 啊,我们是可以去 给 agent 去定义指定的这个提示词,来去引导它在什么样的一个规则体系下,它需要去触发对应的一个审核的功能,亦或我们去需要一个 reg 系统,而这个 reg 系统它本质上指的就是如果你的这个审查的规则非常非常多的话, 而且你的这个审查的规则针对于不同类型的这个文本啊,不同类型的这个文档是有不一样的审核这个审核规则的话,那么我们就需要去构建这样的一个 reg 啊数据库,通过这个 reg 数据库呢和不同类型对应的 这个规则细节来去进行一个匹配,那么当不同类型的这个文档进来以后,他就可以在你的 red 里面匹配出对应的这个规则出来,逐条的和你传入的这个文档来去进行一个比对,进行一个审核,他是这样的一个流程, 所以在这样的一个规则系统下,主要就有两种,那么第一种呢,就是固定的这个规则库啊,比如我们想要去进行一些审查,那么啊,现在我们中国的法律就在那里,我们只要需要把 法律的这些条文给他放进去,那就是固定的这样一个规则,所有人都需要依据的。而所谓的这个自定义规则呢,就指的是啊,你个人的啊,或者是你公司的一些特有的要求,特有的标准啊,所以它是固定规则和自定义规则库。 当然如果大家要进一步拆解的话,这里面呢我再给大家去讲解上一我,我再讲上一个这个文档审核 a 证的,呃,公开课的时候画了这样的一个图啊,总总 总的来说他就需要这个文档的解析模块啊,规则的系统模块,还有 agent 的 这个编排,以及对应的一个评估的治理模块。那么大家如果感兴趣的话啊,可以找到我们的助教老师来拿到课间来详细的去进行一个了解。我们今天呢就不针对这张图啊,来展开一个详细的说明了, 所以我们要核心关注的是什么呢啊?我们要核心关注的就是当我们去构建这样一个智能审核的系统的时候,那么第一步,毫无疑问, 第一步啊,毫无疑问先把我们所需要审核的这个文档给它进行解析,那么针对于这种解析,目前就两种方案啊,就两种方案,那么一种呢,就是通过传统的这个 ocr 啊,构建这样的一个 pipeline 啊,比如大家比较熟知的 manu 啊,或者是 deepsea ocr, 或者是 pad ocr 啊,先去做你的文档的布局的检测,然后呢再去针对性的提出 提取某一个布局里面的这样一个元素块,最后形成一个结构化的文档,然后呢进入到我们的一个 agent 流程中,根据我们的规则去进行一个匹配,最后输出对应的一个审查结果。所以上面这一部分, 严格意义上来说,我们只做的就是啊信息抽取,而下面从 agent 的 规则匹配到审核结果呢,才是真真正正的应用到对应的一个 agent 的 开发框架来去构建审核的一个流程 啊,这是第一条电路,那么第二条电路呢,就是啊更加简单了,我们直接呢去把这个文档啊去转化成图片,比如你的 pdf 啊,每一个每一页的 pdf 给你转化成图片啊,你的这个 word, 每一页 word 给你转化成图片,直接给到一个视觉大模型里面啊,这个视觉大模型,比如说啊 gpt 四 o 呀啊 啊,或者是像呃呃这个千万 vl 呀啊, cloud 等等啊,都可以给到他,让他去描述你这个文档里面的信息。那么同时呢,我们也可以去使用啊, deepsea ocr 的 这个模型,这个呢也是一个小型的 vl m 模型来去做这样一个事情,所以啊,另外一条电路就相对来说比较简单,通过图片 加上提示词啊,给到大,给到视觉模型,让它输出结构化的这样一个输出,然后再给到我们的 agent 啊,来去进行一个规则匹配,并输出最后的一个审核结果啊,所以这个就是第一步来去进行文档审核的文档解析的啊这样一个流程。那我们今天啊给大家选择和使用的就是 menu 的 这个项目, 那么啊 manuel 呢,本质上是我个人啊,非常喜欢,同时我们团队在呃长期的啊这个测试中,因为我们一直在做很多的这个多模态 reg 啊,解 多肽 reg 系统呀啊,或者是做一些 agent, 都会频繁地在不同领域的这个数据下去应用到啊,现在大家比较熟知的啊,这些主流的像 manu 呀啊,派对 oc 啊, dypoc oc 啊,都做过相关的一个测试啊,那基本上来说这个 manu 呢,它的效果相对来说是比较稳定啊,而且它最好的就是 可以输出非常好的这样一个结构化的数据啊,能够让我们去做更多的事情,比如我们去给他去做对应的一个高量,就需要 manu 给我们输出每一个文本块的这样一个 test 的 这样一个坐标的信息。而对于这个 manu 呢,它其实就是两类啊,就是我们这里给大家说的不是两种方式吗?一种是通过 ocr 的 片段的形式,一种呢是通过 vl 模型的形式来去进行解析,其实对 manu 这里面它两种都做了一个集成,那 那么对于它的这个 public ocr 形式呢,它本质上就是做的第一步,先去对文档做一个预处理,然后呢会对当前的这个文本块去做一个解析,这里面就包括了啊,去拆分一下你当前文档内容的某一个块啊,都是属于什么样的一个类型。比如啊,这里面是一个图片啊,这里面是一个文本的块, 同时它也会去针对于每一块去输出一个人类阅读的这样一个顺序啊。所谓的这个阅读顺序呢,就指的是当我们在看这篇文章的时候,那么我们第一步先看它的这个标题,然后再看它的这个啊摘要,再去从左到右去看它的一段一段的啊, 这个呢,对于我们在后续进行文档存储的时候,是非常非常关键的,因为我们可以把解析出来的这部分内容呢给它啊,输出 jason 和 markdown 的 这样一个形式, 所以这个是 manuel 他 在去处理 pipeline 的 这样一个形式解析的这样一个构建的过程。而对应他主要做的这样几个阶段呢,我在课间里面都给大家做了一个非常非常详细的一个说明啊,所以大家可以找到我们的助教老师来拿了我们课间详细的去了解一下。 那么同时啊,对于 manuel 呢,他这个也是一个在 github 上开源的一个 ocr 的 项目啊,大家是可以把它 直接下载到本地来去进行使用的啊,对于一些啊,你对你的这个数据私域化比较关注的啊,不想把它上传到云端的啊,那你就可以把它下载到本地来去进行使用啊,解决你的一个数据隐私的这样一个问题, 当然啊,他要有在线的这样一个 demo 的 页面,大家可以去进行一个试用,点击这个链接就可以去进行使用了啊,然后下面呢都是关于像 啊 manuel 呀,他再去构建,他再去进行解析所应用到的一些模型啊,里面包括了一些布局的检测模型,公式识别公式,检测表格识别, ocr 模型等等等等啊,这里面对应的一个应用的方法,大家可以跟着我们的课间来去进行一个说明。 当然对于新版的这个 manu 啊,它现在最新呢,也是到了 manu 二点五啊, manu 二点五呢,它就是一个小的 v l m 的 这个模型,那么对于小的这个 v l m 模型呢,它在进行解析的时候,它做的流程是这样的啊,就是把 pdf 或者是 word 呀等等这些去转化成图像,直接给到这个 v l m 模型,由这个 v l m 模型通过内置的这个格式化的输出,最后生成 markdown 和 json 文件。 所以它的这个 v l l 的 v l l 模型的一个解析的形式,就是我在这里刚才给大家进行说明的这样一个流程,就是啊,它会通过文档的这样一个图片直接给到啊视觉模型通过提示词输出,结构化的一个输出,这个所以就是 manu, 它呢是传统的这种 pipeline 呢, 还有啊,它的 v l l 模型啊,两种都是同样可以支持的啊,所以我们今天呢给大家构建的这样一个流程,就是 你想使用哪种流程,你就通过一个参数就可以进行一个切换。毫无疑问啊,对于 v l m 型来说,它在解析的这个过程中会相对来说比较耗时,但是效果呢啊是比 public 啊要更好一些的啊,这个是需要和大家进行的一个说明,当然我们这里呢是给大家做了这样的一个, 做了这样的一个更加详细的图示啊,比如说啊使用 v l m 型,我们去解析一个图片的时候,那么就可以通过这个提示词,比如说啊,你是一个这个发票识别助手,你必须要在这个图片中去识别 什么发票的类型,发票的代码,发票的号码等等。我们通过这样的一个提示,让他去抽取图像上的文字内容,他现在啊基本上就可以按照我们所想让他抽取的文字给抽取出来啊,就像我们人眼去看,然后写在笔上一样, 写在纸上一样啊,这个过程是啊没有太大问题的,而且现在的多媒体模型呢,是可以啊,非常精准的做到这一点的。而对于这个 public 模式啊,也正如刚才跟大家说的,他有很多的啊小的模型,先对你当前的这个数据呢啊文档呢去进行一个布局的检测,告诉你 啊,哪一部分啊是图片,哪一部分是文本,哪一部分啊是对应的这个脚标啊,接下来再通过啊这个提取,把 每一个啊这个文元素类型里面的内容给提出来啊,这个是 padlan 的 这样一个形式,所以呢这个就是我们为什么在本次是使用啊这个 manu 它的一个呃, 主要的一个原因就是啊可以给大家更好的这样一个选项。同时呢我们关于啊在我们给大家构建的这个文档里面,因为想要去给它做的非常细力度的,能够根据某一个啊这个词 来去进行一个在线的高量和处理,所以我们更加的需要选择 menu 啊,因为它返回回来的这个 解析格式里面是包含了非常非常详细的啊这样一个文本块的坐标信息的。当然我们在第二小节呢就可以给大家详细的进行一个说明啊,大家就能够看到它的这个文本块的坐标到底是什么呢啊,简单来说就是它给我们解析出来的这个某一个啊文本块 是能够能够是能够对应上他在原始的某一个 pdf 中的某一页的某一个位置的,那所以这个就是他坐标的这样一个核心的意义。 ok 项目源码进行了完全的开源,无论你是想提升技术的开发者,还是想为团队提效的产品经理,这期实战课都能给你提供一套完整的代码参考。看在亲注如此多心血的份上,还望大家多多三连支持。 今年以来大模型技术发展势头非常迅猛,我也将持续为大家提供最前沿使用的技术教学,感谢大家的关注和三年支持! 本次公开课的课间代码、项目原码、运行脚本、知识库文件等资料都已经在复范大模型技术社区中上线了,我是木鱼,专注为大家提供最扎实的优质技术内容。

天呐,谁懂啊,现在 ai 这么牛了吗?我今天正式试用了一下,用 ai 作为辅助工具出审计报告,真的太绝了。 以前做这个工作大概需要半天的时间,现在只需要十几分钟,就能基本确定你想要的报告是哪种类型,需要的重点突出在哪里,只需要给他发送一个指令,就会有相当标准的模板出现在你面前,这简直是打工人的福音啊。 我记得我刚接触 ai 的 时候,我竟然用它来算命,我还跟我老公分享,我说你看他这算的好, 每次都好像有点不一致,但是第二天我老公他们公司就全面推行 ai, 但是当时我没有上班啊,我也没有继续做我的那些工作,也用不到,我今天用了一下,简直太香了。 你只需要输入指令,他就会帮你生成一份特别符合你当下能解决这个问题企业问题的一份报告出来。而且这个报告非常的精准,非常的准确,而且逻辑关联的非常强, 包括里面用到什么底稿,什么支撑依据,人家都会给你有各种模板让你去参考。我觉得不管是职场小白还是自身的这种注册会计师,都应该到里面学习,毕竟你又不是全能的,也不是万能的。你写过几十份报告,你没有写过上千份报告吧, 他上面应有尽有,而且我感觉各行各业都应该去利用起来。 ai 就是 即便你认为你这个非常不需要他,你把你现实中的问题给他,一输入,他就有非常完美的解决方案,而且是相当成功的案例。 有案例而且是成功的案例,人家才会生成一个方案,比较能够逻辑上面能够实行的,人家才会给你推荐。 我感觉后期如果你想去挣点钱呀,想去理财呀,或者你想做口播,他也能跟你分享这个文案应该去怎么说, 你只需要把它大概阅读一遍,然后自己脑子里过一遍,只要你自身这个逻辑没有问题,你就能把这个事情做到很好。又是带娃工作的一天呢,欧耶欧耶。