00:00 / 02:12
连播
清屏
智能
倍速
点赞2338
00:00 / 01:40
连播
清屏
智能
倍速
点赞0
AI产品经理面试高频问题(7)-RAG知识库文档切分规则问题 #RAG #大模型面试 #AI产品经理 #ai产品经理 #产品经理面试 你在***项目(RAG项目或者需要使用知识库的项目)文档切分是如何做的? 相似问题 - 提问方式很多,只要设计文档切分的问题,都可以按照给大家这个回答方式 - 1,既体现你的AI能力,真正落地过;2,又体现你的产品思维能力 原因: -- 总结近期的陪跑学员的面试复盘,这类专业问题开始逐渐增多的原因: -- 1、2025年企业实际落地AI项目;2、AI产品落地流程sop逐渐形成 专业问题会越来越多,所以粗放型面试后面阻力会越来越大。 全部来自VIP陪跑学员面试录音,面试复盘 面试录音展示 面试录音展示 面试复盘也是我们高offer率的保障,也是我们求职陪跑标准sop流程之一。 我们的服务流程:简历改写(重构AI项目)和投递策略【解决面试邀约量】→面试前辅导 → 面试后复盘 把面试中,面试官真实的提问以及回答策略分享给大家,而非网传的猜测的面经。 满分回答策略: 1、从需求出发:根据项目中需要处理的文档实际情况,设计切分方式。 第一步,收集和整理文档,分析文档情况,是word、pdf?是文字还是扫描件?是否带有复杂图文混排排版(比如论文) 我知道文档切分方式有非常多,比如最基本的是按固定长度+冗余的方式切分,按结构切分,按语义切分等,但是根据我的这个项目的实际情况,我选择了按文档结构切分。 2、给出AI解决方案 用自己的项目来说,具体采用的方案。 因为:项目中的文档是全部的合同,我采用的是按结构来接切分,因为合同都是带有标准格式的条目化文档,用结构化切分方式,可以最大程度上实现语义的内聚,并且不改变合同原始数据。 针对文档中的图片,因为合同的任何数据都不能丢失,我把图片设计为元数据,并且通过多模态模型对图片进行了语义理解,并整合了图片所在位置的上下文,方便在RAG中使用。 优势:依赖于程序代码,没有模型token消耗,切分结果可控等等。 3、问题要闭环 做为产品经理,一定要设计保障性方案。 我设计了一套检查机制,定期检查文档切分结果,如果发现错误,则及时调整。 4、工具使用 使用minerU工具,讲文档解析成Markdown格式,格式化之后
00:00 / 09:07
连播
清屏
智能
倍速
点赞9