【RAG实战】手把手教你快速实现一个RAG—LLM，附源代码 #RAG #LLM #大模型 #人工智能 #程序员

rag rerank如何实现

50

25

49

7

举报

发布时间：2026-01-28 08:37

粉丝4783获赞1.6万

相关视频

28:24
langchain4j知识库RAG实战演练 #程序员 #langchain4j #RAG #图灵Java #编程
518图灵程序员徐庶
03:06
落地知识库，常见的方案有哪些？ RAG知识库落地实操
#大模型 #llm #rag #知识库
136数致西瓜讲AI
00:54
RAT 思维链检索增强技术深度解析 RAT思维链检索增强技术是RAG检索增强技术和COT思维链两种技术的结合，通过分解问题并且和外部知识库建立反馈联系，RAT在多项任务上获得了远超基线水平的结果，输出答案完整而且全面。#大模型 #人工智能 #RAG #程序员 #算法
398AI大陈哥
02:30
RAG as service的实现
4MrJM
01:48
RAGFlow中不同模型的作用 #ragflow #ai知识库 #ai工具 #好物分享
658mAi小豆腐儿的
04:27
《RAG核心架构解析：重排序与混合检索》 #大模型 #AI大模型 #项目实战 #RAG #大模型学习
查看AI文稿
AI文稿
挑战，每天讲透一个大模型项目实战知识点，今天讲 r a g 核心架构解析，重排序混合剪组来。同学们，今天咱们不聊虚的，直接来看一个 red 面试里最坑的问题。大家看这行字，既然 rerun 重排序的效果这么好，为什么我们不干脆把库里所有的数据都拿来 rerun 呢？哎，你们想啊， rerun 准吗？对不对？那既然准，我为什么还要搞什么向量剪索做粗筛，直接全量 ray rank 不就完了吗？一步到位多好？大家先在心里想想，是因为技术做不到，还是因为太贵？好，带着这个疑问，咱们往下滑看第一张图，看完你就懂了。大家好，我是彭宇。来看这个漏斗，这张图非常直观的解释了咱们为什么要分两步走。大家看左边这个漏斗的形状。最上面这层是咱们的全量知识库，假设你有一千万条数据，如果咱们直接用 rerun 模型去跑这一千万条数据，会发生什么？我告诉大家，你的服务器会直接冒烟。因为 rerun 模型太慢了，它属于深度计算，所以咱们必须得有个海选的过程。大家看中间这层绿色和橙色的部分。第一步，我们先用向量剪辑 b i encoder 或者关键词剪辑，快速地从一千万条里捞出最靠谱的 top 幺零零。这一步我们要的是速度，是零烂勿缺。第二步，也就是漏斗下面这层，我们才把这一百个入围选手交给重排 cross encoder 去做精细的打分，最后选出 top 五给大模型。大家注意看右边这个轴，从上往下数据量在变小，但是精度在变高，同时计算成本也在急剧上升。所以这个漏斗架构的本质，其实就是用低成本的粗筛去换取高成本金牌的入场券。这下理解为什么要分两步走了吧？好，那有同学可能又要问了，老师，你刚才说向量解锁快，但不准， re rank 准，但是慢，这到底是为什么？他俩底层到底差在哪了？这个问题问的好，咱们来看底层架构，这才是面试官最想听的干货。大家看左边这个 b i encoder 双塔模型，注意看图中间那条虚线是不是断开的，左边是 quarry，右边是 dock。他俩在进模型的时候是各走各的路，完全不认识对方，直到最后生成了两个项链，才在最上面碰个头算一下距离。这就好比什么呢？好比相亲的时候只看照片不聊天，速度快是快，但很容易看走眼，对吧？再看右边这个 cross encoder 重排模型，看这个大大的 transformer 盒子，它把 query 和 doc 拼接在一起塞进去了。在模型内部，每一个字每一个词都在疯狂地交互，这就好比两个人面对面坐下来，深聊了两个小时，这时候什么逻辑关系啊，否定词啊，细节啊，都能被模型捕捉到，所以它准。但是因为它要处理这种复杂的交互，所以它慢。记住一句话， b encoder 是行四， cross encoder 是神四。明白了原理，咱们最后来看看在公司里写代码、做工程的时候，这个流程到底长什么样？大家看这张流水线图，在真实的生产环境里，我们通常不会只用向量剪索，因为向量有时候对专有名词很不敏感，所以看左边我们会搞缤纷两路，一路是向量剪缩，负责理解语义。另一路是传统的 b m 二十五关键词剪缩负责精确匹配。哎，那问题来了，向量剪缩出来的分可能是零点八五， b m 二十五出来的分可能是十五点六，这俩分数单位都不一样，怎么加在一起？这时候就要用到这个数，排名融合，大家不用背公式，只需要记住他的核心思想，我不看你的绝对分数，我只看你的排名，你是第一名，我就给你加个大分，你是第十名，我就加个小分，这样就把两路解锁完美融合在一起了。最后看右边融合后的 top 幺零零，再送给 rerun 截断曲，前五齐活。好，最后咱们快速总结一下，如果面试官问你 rerun 的解锁优化，你就把这三点甩给他。第一，架构上一定要提漏斗模型，用粗筛换金牌的时间。第二，原理上要能说出双塔独立编码和单塔全交互的区别，这是得分点。第三，工程上别忘了混合解锁加 rrf，这是现在落地的标配， ok！关于 re rank 的核心架构，咱们今天就讲到这，这张图大家可以截图保存一下，复习的时候看一眼就全想起来了。
34大模型项目实战
01:50
知识库RAG怎么提升准确率
#知识库 #rag
734小闲AI
02:02
Spring AI 实现朴素 RAG，检索增强生成 #AI大模型 #大模型 #Java #Spring
22成富_Alex
20:05
知识增强式生成 - 比RAG更强大的检索与推理框架 #人工智能 #大模型 #程序员 #AI #智能体
46大模型算法工程师老霍
01:54
免费开源，基于大模型和 RAG 的知识库问答系统免费开源，基于大模型和 RAG 的知识库问答系统，企业私有化构件企业内部的知识问答系统，MaxKB，让企业知识管理更智能🌟
在数字化时代，企业内部的知识管理变得越来越重要。如何高效地管理和利用企业内部的知识资源，成为提升企业竞争力的关键。今天，我要为大家介绍一款免费开源的神器——MaxKB，一款基于大语言模型和RAG（检索增强生成）的知识库问答系统，它将彻底改变企业内部的知识问答方式！
开箱即用，轻松构建知识库📚
MaxKB的使用非常简单，可以说是开箱即用。你只需要上传文档，或者让系统自动爬取在线文档，它就能快速为你构建起一个强大的知识库。系统会自动对文本进行拆分、向量化处理，再结合RAG技术，有效减少大模型可能出现的幻觉问题，确保问答的准确性和可靠性。有了MaxKB，企业内部的知识问答交互体验将大大提升，员工们可以更高效地获取所需信息，提高工作效率。#知识管理 #智能问答 #开源神器 #企业数字化转型 #ai
23软件漫游记
02:20
学会三大技术，轻松搞定ai大模型应用开发
他们是，AI agent，RAG，模型微调
#agent #ai #rag #大模型 #开发
61小闲AI
02:54
RAG技术栈隐藏王牌—Rerank模型（重排序），低调却让精度飚升的关键#人工智能 #干货分享 #AI #智能体 #deepseek
10陈俗允忍明高
10:45
基于RAG的Text2Sql 解决方案Vanna实现原理 #vanna #text2sql #RAG #LLM
48老吴聊技术
19:13
RAG 工作机制详解，一看就懂的知识库架构解读 #大模型 #ai #人工智能 #知识库 #RAG
@抖音小助手 @DOU+小助手
115讲AI的小坛
16:36
通过 Prompt Flow 实现 RAG 大模型接入内部知识库的实现方式 - 通过 Prompt Flow 实现 RAG #ai #大模型 #RAG #微软 #azure #promptflow #azureai
5李祺 Varman
05:01
RAG效果差？可能是文档切分没做好！教你5个关键技巧有了向量库，文档怎么切分才合理？固定长度切分 vs 语义切分哪个更好？元数据怎么设计？混合检索为什么比单一检索强10%？Rerank重排序是什么黑科技？本期深入讲解RAG系统的核心：文档切分与检索策略！看完让你的RAG准确率从60%提升到90%+！
#RAG #文档切分 #检索策略 #向量检索 #Rerank #混合检索 #AI技术 #大模型
查看AI文稿
AI文稿
大家好，我是架构师与局，前面两期我们讲了 r g 的核心原理和向量数据库，很多朋友问，有了向量库，文档怎么切分才合理？直接按次数切就行了吗？检测出来的结果不够准确该怎么办？今天这期视频，我们来深入讲解文档切分与解锁策略，这是决定 r g 系统效果的决定因素。首先我们引入切分的重要性，你可能觉得文档切分不就是把文档按字数切开吗？有什么难的？但实际上切分质量直接决定 r g 效果的上阶。看这个对比，好的切分保持语义完整，上下文清晰准确的能够达到百分之五十以上，而差的切分句子被截断，信息分散准确率连百分之五十都达不到。就像你读一本书，如果章节被随机打散，你还能理解内容吗？同理， ai 也需要语义完整的信息才能够回答出准确的答案。那接下来是四种切分方法，那么文档应该怎么切分呢？这第一种是固定长度切分，按照次数切分，简单高效，但可能截断羽翼，也适合于通用文档给三星。第二种是羽翼切分，按段落章节切分，保持羽翼完整，虽然实现复杂一点，但效果是最好的，我们五星推荐。第三种是地柜切分，多级切分策略，平衡大小和羽翼需要调参，四星推荐他更麻烦一点。第四种是专用切分，针对代码、表格等特定格式保留结构，我们给到他四星。那接下来是原数据的设计，切分完成后还要设计好数据，原数据是过滤和排序的基础，核心原数据包括 sales 文档来源，探讨文档标题以及 chapter 标题，还有配置页码以及 target 标签这些，这些字段是必填的实用原数据啊，包括 created at 创建实践，还有 update at 更新实践，还有分类部门这些原数据，这些支持时效性过滤和权限控制。有了丰富的元数据，你就可以精准过滤，比如只搜索 radis 技术手册，点 pdf 中包含的分布式锁标签的内容，使这个内容定位的更加精准。那第四部分呢？就是啊，解锁策略的眼镜，第一代是简单的向量解锁，准确率只有百分之六十五。第二代是 topkey 解锁，准确率提升到了百分之七十八。第三代是混合解锁，结合向量和关键词解锁，准确率呢高达百分之八十八。第四代是混合解锁，再加上 rerek 重排序，准确率就能达到百分之九十五了，从百分之六十五到百分之九十五，这是实现了质的飞跃。第五部分就是混合解锁的原理讲解，混合解锁的核心思想就是向量解锁加关键词解锁，向量解锁擅长捕捉与异相似性，但对精确匹配不敏感。关键词解锁擅长精确匹配，但理解与异能力弱，两者结合取长补短。公式呢，就是最终分数等于零点五乘以向量相似度，再加零点五乘以关键词分数，五五开。 long chain 的这个结架构提供了 in simple library 来实现混合解锁，只需要提供向量解锁器和 m 和 bm，二十五解锁器设置权重分别为零点五和零点五就可以了。那我们最后来讲这个 rerun 纯排序，这是两阶段解锁阶段，一是粗照粗牌照回用向量解锁，快速找到 top 一百个后选文档，耗时约二十毫秒吧。阶段二是金牌排序，用 rerun 模型对这一百个后选来进行重新打分，得到 top 十就是挑选出一百，再从一百中挑选出十，耗时一百八十码，属于经排序。嗯，虽然增加了延迟，但准确率大幅提升啊。就在专业文档领域，性能提升要百分之十七，从七十二从百分之七十二提升到了百分之八十九。我们呢，推荐使用 b j 一瑞瑞瑞克模型，效果是非常好的。最后我们来总结一下今天的核心内容。第一是切分质量决定， r d 的效果上线我们优先使用于一切分。第二呢，原数据是加速器，核心字段要填满，使用字段也不能少，这就涉及了原数据的两个分类，两种原数据。第三是核心的解锁策略的持续演进， topk 到讲到混合解锁，再到瑞典，可准确率从百分之六十五提升到了百分之九十五。第四就是生产环境要优化，查询缓冲，分机缓冲，还有那个监控指标，一个都不能少，做好这些，你的二 d 系统准确率啊，就有大概率的突破百分之九十。关注我，每天一个 ai 干货，我们下期再见，谢谢大家！
15架构狮与橘
26:04
17种RAG优化策略，一口气搞懂！ #人工智能 #大模型 #程序员 #AI #大模型应用
74大模型老迈
03:10
向量检索怎么实现？LangChain 结合 Neo4j 构建想知道怎么用 LangChain 和 Neo4j 向量索引构建 RAG 应用程序吗？这个视频里有超详细的 Python 实操演示，从向量检索的实现方法到最终效果，一步步带你搞懂整个过程。不管是刚接触 RAG 的新手，还是想提升技术的开发者，都能从中学到实用知识，跟着做就能上手！
16虎子AI
08:13
【Dify本地部署搭建】一键即可实现Dify本地部署搭建【Dify本地部署搭建】基于RAG私有知识库，打造本地私有AI知识库，一键即可实现Dify本地部署搭建
#大模型 #LLM #RAG #知识库 #Dify
435大语言模型
05:18
客服系统创建向量库集合 qdrant向量库RAG的实现
12变量网络

热门推荐

热门分类