本地RAG知识库(13): Embedding模型讲解小白版本期视频主要给大家介绍Embedding向量模型，Embedding模型是什么，Embedding模型原理和向量化方法，以及如何提高RAG知识库的问答准确率等，更多往期视频内容可以到主页列表下查看(程序员寒山:CxyHanShan)，欢迎大家留言关注讨论。 #程序员 #Embedding #向量模型 #RAG #知识库

embedding 词库如何生成的

2126

41

2523

389

举报

发布时间：2025-03-01 16:43

程序员寒山

粉丝2.2万获赞6.0万

相关视频

10:39
👍亲测手把手👍实操使用deepseek+dify本地知识库模型投喂训练，赶快来围观吧！！！#deepseek #模型训练 #商业知识 #大喇叭编程实训基地
62编程聂教官
01:25
Embedding(嵌入)之创建搜索索引，解决ChatGPT无法导入知识库、话术大全、解决方案、分析报告这些资料的问题#ChatGPT #OpenAI #Embedding #chatgpt应用领域
查看AI文稿
AI文稿
如何让加级 bt 从一万字的资料里找答案？官方势力明确给出了方案，使用 abending 构建销量数据库的办法来解决这个问题。知识库话术大全解决方案分析报告，这些资料导入都可以用。是不是听起来一头雾水？其实很简单，就是画整为零，话不多说，直接上干货。死磕了几天，代码又写了一个，拍成脚本，使用 openi 指定名为 test abending a 的模型来构建香料数据库用作。所以我去网上随便找了一份关于 chagbt 的报告来做演示，把包括内的文字内容全部粘贴到一个 word 文件中，不做任何的格式修改，一共七十八页，一万七千字。运行拍摄脚本，输入刚才的 word 文件路径，再输入 open ai a p i k，脚本就开始转换工作了。等十多秒左左右，项链数据库文件就生成了。可以看到刚才报告的内容已经被切分成很小的片段，并且带上了项链缩影。用这个办法，再多的文件和内容都可以进行转换和使用。当然养成习惯，记得看看又消耗了多少头啃。然后我们向 gpt 提问时，通过查询锁引库，就可以让 gpt 从锁引中找答案了。今天世界有限，我急着找 opens 开发主管解决我 gpt 是 aps 使用的问题，如何使用锁引库提问？这部分内容明后天再更新。今天的视力教程和代码还是在星球老地方，觉得有用记得点赞收藏。
727暴躁哐哐
10:09
RAG应用开发技巧揭秘表格与文字完美结合知识库问答 #小工蚁
查看AI文稿
AI文稿
半结构化的 r a g 的一个应用啊，就嗯，在目前在这个检索增强生成的应用里面，有一个比较难的，就是如何把一些文档当中的一些表格数据，然后把它进行 in bedding 的这样一个操作，相对来讲是比较难的。而且的话表格的话呢，他呃他处理起来他还是有呃，有表头，有字段啊，有行记录，所以的话一般处理起来会比较难一些。那么我们今天这篇文章呢，主要是来自于哈根 face 啊，哈根飞，呃呃，就是 kop 上面的这样呃 lanchen 的呃 cook book book 这样的一个一篇文章啊，这篇文章里面主要是讲了这个半结构化的 r a 级的这样一个应用啊，那么他这个例子里面呢，主要是讲了他他主要是用了两个技术，一个呀，用了一个 n structure 的这样的一个类啊，能够把表格的这些数据能够把它向量化啊。另外一个呢，他也用 long chain 里面有一个播种适量化的这样的一个获取啊，他通过这样的一个类啊，能够把表格和一些摘掉，能够生成这个能够把表格的数据和文本的数据能够生成摘要啊，又把这个表格和文本的数据也把它作为 in getting 啊，放在整个一个项链数据库里面啊，它其实啊话呢就是项链花了两次啊，一次的是把每一个原始的数据进行了一次向量，同时的他也把这个表格和一些文本做了一些摘要啊，进行向量化，这样的话，他在回答一些问题的时候，他可以根据这个向量化完的这些表格和文本的这个数据啊，连锁出来啊，准确度会更高啊，他这样会好，我们一起来看一看这个项目的核心观点，主要还是把文本当中能够自动的能够识别出表结构啊，表结构啊处处理成文字，文字的话自动转成文字，文字的话把它转成这个债要这种 invading 的这样一个操作啊，放在这个向量库里面，当你回答一些问题的时候，它自动的可以通过这个向量来或呃向量或数据库去查询得到相关的一些内容，联合一些内容可以去回答啊，这个是这个程序的主要的一个功能，那么他也是用到了呃啷前，同时他也用了一个新的一个库啊，这个叫 instructor 的这样的一个类啊，这样的一个开源的这样一个项目啊，这个项目的话主要是处理各种各样的各种各样类型的一些文本的，包括 pdf 啊，包括 ppt 啊，包括 word 啊，它都是可以的啊，它可以从这些文档当中自动的提取出图像、文字、表格这些数据啊，然后把它进行处理。这个两个库是最核心的，因为你我我们这次的视力主要是 pdf，所以它还要在安装这两个类啊，两个在操作系统上面需要安装这个两个东西。呃，一个是五 cr 的这样的一个 google 开源的一个软件。呃，另外一个的话呢，就是 pdf 的这样的一个处理的一个类。呃，在 mac 电脑上面主要安把这两个命令就可以了。呃，那么就可以安装完，这是它的一个基本的一些一些类的安装，安装完了之后的他这个项目他是应用了，他是讲了一个用一个拉玛 two 的这样的一个本档啊， gdf 的这样的一个论文啊，然后把它给加载进来，他用的是 instructor 的这个里面有一个 partition 杠 pdf 的这样一个类啊，这样的一个函数，通过这个函数来把这个 pdf 的这个文档能够把它给分析出来啊，这个是它的 pass，这个是拉玛兔的一个 pdf 的一个文档啊，它这个当中的话是不抽取图像的啊，它只抽取表格，然后他的这个最大的这个文文文档分割的话呢，是四千个字符啊，如果大于三百三千八百个字符的话，准备，呃，准备就创建一个新的一个创客，呃，个快，文件快，那么至少这个文件块的话呢，要两千，嗯，保持这个文文件块的这个字符的大小要两千个。嗯，图像的话呢，如果有图像的话，也是保存在这个目录下面，保存在这个目录下面，这个是他整个一个 partition 杠 pdf 的这样一个函数，这个函数掉完之后的话，自动会生成一些 pdf 的元素啊， elements 啊，这个是裸裸的元素啊，那么我们看到如果他在这个地方的话，就把每个元素进行分类啊，进行打印啊，大概相应的元素啊，大概有多少啊？他这个输出出来啊，这个表格的元素一共四十七加二就四四十九个，其他的组合的元素的话是一百八十四个啊，文本元素啊，他是等于是这样啊，好，那么他在这个地方他就是去过滤啊，去啊，便利和过滤这样 table 和文本的这样一些元素，他把它给过滤出来啊，那么这个 table 的元素大概是四十九个，文本的元素大概是一百八十四个啊，它总通过这个两个函数啊，那么这个呢，就是 pdf 文档啊，它已经完成了。呃， table 的抽取和文字的抽取，他已经抽取完成了。如果我们要把图片抽取的是可以的，你这个地方设成为 tools 啊，设设成为 tools，当你抽取出图片的一些信息的时候，你可能要用我们之前介绍过的叫啊 lava 的这样的一个文字啊，图片转成文字的这样一个模型啊，视觉的这样一个模型，把它变成文字啊，这个也是可以的。在几个例子里面呢，他是把这个图片是直接过滤掉了啊，他他没有用啊，他把 table 是把它抽取出来了。好，那么抽取出来了之后，我们一般呢是用这个 victor retrieve 啊，这样的一个类啊，但是他现在呢是用了多个 victor retrieval 的这样的一个类啊，这个类是新的一个类啊，这个类的话，主要是把它不光是把文本和 table 的这样 in bedding 扔到这个项链库里面，同时把 table 和 text 的这样的一个 summary 也放到 victor 里面去，而且形成了这样的一个主指腹的这样的一个结构啊，这种结构的话呢，是有助于把呃这个 top 呃，把这个文档拆的更细细细一些啊，它等于是这样啊，这个如果大家如果是有时间的，是可以看一下这个郎欠的这样一个文档啊，它这个文档里面也是详细讲了一个 melter victor retrieval 的这样一个类啊，它的主要一些用途啊，它主要的话呢，就是把一些每个文档啊，他通过这个多个这样的一个 victor，呃像量的，他可以把这个这个文档块切的更细一点，同时他可以生成一个摘要的块啊，能够做一些呃结构化的呃这样的一个问题，那么回答出来的话，他会更准确一些，他等于是这样。嗯，好，我们看看他这个是怎么来用的啊？用的话呢，他也是比较简单的啊，他首先写了一个呃提示工程啊，他就就是是你是一个助手啊，主要是呃啊 table 和 text 进行总结。摘药啊，在给定的这个 table block 里面，你要形成一些摘要啊，他主要是做这样一件事情啊，生成摘要的这样一个提示模板，那么他也是一样啊，把这个模板呃生成出来，生成一个提示啊，再再通过 chat oppo ai 的这这个 a p i 啊，它是用吉利斯啊，当然我们也可以用本地的一些模型，它把 print 提示工程，把这个模型和把最终的这个输出啊，都放在这个 summarize 的这个券里面。嗯，通过 table 直接 bench size 掉啊，这个 table 和 tax 啊，同时并发的话呢，最多是五个啊，然后把这个这个 table 的摘要和文本的摘要都能生成出来啊，生成出来之后他就要把它加到这个适量的数据库里面去了啊，这个这个地方的话，他还没有用到这个就是 melt victor 的 retrieval 的这样一个对象啊，这个里面还是用一些普通的生成摘药的一些功能。好，我们再来看看这部分啊，这部分他主要是要把不光要把生成摘要的内容把它给扔进去，同时要把每个文档也要子的文档块也要加入进去啊，那我们看看他是怎么做的啊？啊？首先他定义了一个矢量数据库啊，他用了 chroma 啊，这个 inbeding 的模型，他是用 oba ai 的 inbeding 的这个模型啊，然后他这个存储他是放在这个内存里面的啊，它这个子负结构的这个筷子放在内存里面了。好，然后我们看看它这个负结构里面有 doc id 啊，好啊，这个是负结构的这个文档啊，这个是 victor，是子结构的这样的一个内容啊，它的关联的话主要是通过 idk 啊，通过 doctor id 来关联的，然后它通过这个字段呃，每个文本去生成一个 d， i d，嗯，当然它也会生成一个 table 的 i d 的，它这个，嗯，然后这个是它的副文档，副文档它把它加进去啊，同时的话呢，它把它的这个指纹档啊，它这个地方是对这个地方的话呢，它是这个指文档，它把每个文档的块啊，都加在这个 deus deucy dock 里面，那么 table 这部分的话也是一样的啊，那么这个地方的话呢，它就是用了一个新的这个类，就 melt melted victor retrieval 的这样一个类，嗯，他是支付文档的这样一个关系。好，那么加入到史亮数据库之后的话呢，那么他就可以通过问题来调用了啊，他这个地方也是定义了一个提示工程啊，回答这个问题，这个是上下文 contacts 啊， con con context 的话呢，它就是通过呃 retrieval 啊，来把它给装载进来啊，它这个地方啊，它也是用来进第四的这样的一个 model 啊，这个是提示工程，然后这个是 i g 的一个 papline，那么这个 contact 呢？它就是通过 retrieval 啊，来获取 retrieval 的，就是这个啊，它有一个负，还有一个子。好，然后我们可以看看到啊，这个是他的问题，问题的话呢，他就是通过这个参数调这个 r a g 的 papline，直接就输入进来的，看他这个地方啊，所以你可以看到啊，他在这个地方就讲了一下，就是啊，问了一下，就是拉玛 two 啊，他是有多少个，有多少个数量的 token 啊，来进行，呃，是什么样的一个模型啊？他训练拉玛 two 的这样的一个模型，一共用了多少个这个 tokens 啊？他这个，那么他的回答是正确的啊，是有两两 t 啊，两 t，因为他这个里面就引用了 table 一在 paper 当中的这样的一个表结构。对，这个就是 training date parent。好，所以的话呢，就是，呃，这个话呢，就讲的就非常好啊，那么它就解决了我们在 r a g 应用里面一个比较难的一个问题，就是一些 table，一些 table 的一些数据啊，它都是一些半结构化的一些数据，怎么把它转化成文字哦，能够让这个大模型能够进行，呃呃，能够获取到它相应的值，然后回答相关的问题，好吧，好，这篇文章呢，我就跟大家就交流到这。
185小工蚁
05:39
Stable Diffusion入门知识汇总@2 ｜名词解释| Dreambooth, Lora, Embedding (Textural Inversion), Hypernetwork
#教程来了 #transformer神经网络架构
5紫薇灵动
01:33
如何建立阿里国际站词库？
——4步教你如何建立词库
#阿里巴巴国际站#阿里国际站#阿里巴巴国际站运营#关键词推广
查看AI文稿
AI文稿
做阿里巴巴国际量的小白，是不是面对新发产品时总会手忙脚乱，没有计划，甚至一堆关键词不知道怎么去整理？如果说你学会做关键词词库的话，其实这些都不是问题了。一分钟四个步骤，教会你如何建立关键词词库。我是智障干货的朱运营，请你们收藏下载本条视频，做好笔记哦！第一步，确定产品的核心关键词。具体不多呢，看我的往期视频就有了，这里就不重复了。需要注意的是，如果说你卖的是杯子，各类杯子，那么你的核心关键词就是杯子。而如果说你卖的是玻璃杯子，那你的核心关键词就是玻璃杯子。第二，搜集关键词。大家可以看一下我往期视频也有的。除此之外呢，还有以下三种方法。第三，筛选关键词。收集的关键词并非都是精准的，所以并不是每个都要用的，你可以自己先握一遍，筛选掉一些明显和自己产品不相符的关键词。对于那些拿捏不准的，可以将词放到谷歌图片中进行搜索，或说出来的图片大多和企业的产品相近，那么就是可以用的。如果说相差比较大的话，就需要进行删除。第四，根据核心关键词建立的词库，将每个核心关键词通过各种渠道收集的相关词进行整理和筛选，去掉，重复统一一个表格，这就是一个关键词库表格了。词库建立好了以后呢，我们上架产品就可以不用凭空想象了，一个一个把词库的词用完就行。需要注意的是，这个词库的话是不断完善和更新的。
92Alibaba猪运赢
00:39
只需5步搞定高质量英语笔记打开工具新建笔记
第一步：输入标题，上传视频
第二步：粘贴文章或者用AI 生成文章
第三步：点击自动分段分句
第四步：选择词库，点击开始自动标注
第五步：选择喜欢的音频，提交即可生成语音
然后你就可以下载视频，文档，默写本了
轻松高效完成高质量笔记与英语备课
#英语阅读 #英语老师 #英语备课 #AI工具 #效率神器
4海蒂英语（可教视频制作）
01:51
谁是创造成语最多的人？第一名当之无愧 #成语#王勃 #韩愈 #文学常识 #采桥讲文史
2759采桥讲文史
01:29
如何使用deepseek做好国际站？第二课！！如何使用关键词库让deepseek生成爆款标题覆盖词库中所有关键词！！#deepseek #阿里国际站 #阿里巴巴国际站 #国际站运营 #国际站运营醒目
1764国际站运营醒目【跨境外贸B2B】
00:39
就这个视奸爽！#猎奇 #视奸 #小号 #阴暗 #小众
42.4万不甘一直天真
00:56
Deepseek提示词库分享一下如何在Deepseek官网如何找提示词（貌似r1模型不需要这个？）#人工智能 #deepseek
200生活随笔
00:36
deepseek官方终于出了个提示词网站 .#deepseek #ai #提示词 #教程 #干货
278科技阿黑
00:51
Deepseek官方提示词库大公开，太香了！你还不会正确使用 Deepseek？那可能是你的提示词没用对！😱 今天揭秘 Deepseek 官方提示词库，内含代码生成、文案创作、宣传标语等 13 个高效提示词，每个都超精炼，甚至只需一句话！🔥 我们实战测试了一下，用它的代码生成提示词，让 Deepseek 30 秒内写出一个可玩的五子棋游戏！#deepseek #deepseekr1 #deepseek提示词 #AI提示词 #提示词怎么写
75AIGC 作业本
02:31
抖音搜索流量来了，热点风向词库快快查收。
查看AI文稿
AI文稿
抖音真是太贴心了，直接把找热点词整成了开卷考试，最后比谁找答案找的准，谁就拿的分高。为什么这么说呢？随着现在来抖音平台搜索的人越来越多，那大家都来搜些啥呢？有哪些热点词或者热点的趋势呢？抖音系统大手一挥啊，推出了一个新的版块，抖音风尚词库，不仅对热点词实时更新啊，还有关联的一个热词推荐，比如你是做美食的，上面直接推荐搜索热度最高的词，品牌奶茶，新品攻略，品牌蛋糕、甜品测评等等相关的热词，而且为了鼓励大家参与进来啊，还有大额的流量奖励，哎，真是太懂用户的心了，一直还抱着想在抖音大展拳脚的朋友啊，千万别再错过这次流量风口。接下来我将手把手手的告诉大家如何查看风向词库，蹭上热词流量这股东风，废话不多说，直接上实操。首先呢，我们点击右上角这个放大镜，然后搜索抖音，搜索流量来了，一定是这几个字啊，别整错了。然后就来到这个话题里边，我们不点这个立即参与，我们就点这个话题，进到这个话题里边，然后可以看到啊，这个话题具体是做什么的啊？看到风向词库，这个风向词库从哪找呢？看这个没，抖音搜索流量来了这个词条我们点进去，点进去之后我们就看到这个主要的一个页面，这就是我们所说的这个风向词库，而且是实时更新的，点到这个风向词库可以看一下，这就是现在抖音搜索一些热词，还有热词的一些推荐，比如说美食有品牌奶茶新品攻略这些，而且上面可以有这些热门城市的一个选择，直接都细化到这个城市的一个热搜词。好，下面也有这个呃，投稿的一个要求，大家都可以看一下，然后我们返回这个界面，还是来到刚刚啊？这个我们刚进来这个界面啊，可以看到啊，这有一个优质内容的一个参考啊，这都是呃咱们官方给准备的这个一些内容的一个参考，还有一些社群的一个福利啊，下面也有具体的玩法，还有这些奖励，这都是官方的一个活动，我自己预测啊。抖音这波流量也只是打个前战，随着抖音搜索功能的完善，还会有更多的板块扩增，大家可以多关注这些新的动向，早入场早挣钱，本期就到这里，有问题的话可以评论区留言。
1294苗子自媒体
00:38
大家可以去deepseek官方网址https://api-docs.deepseek.com/zh-cn/prompt-library。代码修改：修正、优化代码，轻松提升效率。
代码生成：生成一段定制化代码，提升开发速度。
结构化输出：将数据转化为 JSON 格式，便于进一步处理。
角色扮演：模拟不同场景，进行任务对话。
诗歌创作：让模型根据提示词创作美丽的诗句。
文案生成：根据需求生成合适的文案。
中英翻译：快速翻译内容，提供精准的双语支持。#利用deepseek可以做什么 #官方提示词 #deepseek #ai人工智能的前景及趋势 #科技改变生活
43xAI
00:52
我们母女俩给大家拜年啦！祝大家新年快乐，万事如意！#拜个抖音年 #新年快乐 #欢欢喜喜过大年 #春节
1.3万李开心母女
01:48
Embedding示例之构建Pinecone向量数据库，ChatGPT与OpenAI进阶#ChatGPT #embedding #Pinecone #向量数据库 #OpenAI
查看AI文稿
AI文稿
怎么解决叉 gpt 旧望的问题？当然是给他装一个记忆体。随着 ottgbt 的爆火，在 ai 应用的开发者中， open ai 加拍 com 的组合已经慢慢形成了用户心值。拍 com 作为目前向量数据库的领先者，是大模型记忆的第一选择。今天分享如何将销量数据上传到派克，话不多说，直接上干货。接下来准备好资料库，为了和之前的视力有对比，这里还是使用之前找到的 tigbt 报告内容做视力。然后不出意外的，我又写了一个派程搅拌，这个脚本是在之前创建本地所有库脚本技术上修改的，把之前创建 ca 文件的项链数据库替换为使用拍 com 创建项链数据库并上传数据，将报告内容以 report context 这段作为原数据进行上传。来，咱们运行代码看看。和之前操作一样，输入知识库 word 文件路径以及输入 open a epik。我这次加入了一个点边电影进度条，提升提升前面效果。下面数据库转化完毕后，我们输入保存好的拍 com 的 apik 和环线值，给 index 数据库命名。要注意拍 com 的 index 名称只能小写数字和连字复组合，等待一段时间后完成创建和数据上传。甲板会打印向量空间维度向量数据信息，再进入拍 conconsul 页面，就可以看到已经创建的向量数据库了。 cura 一下就可以看到已上传数据。对于向量数据我们不用关注，在 metadata 这部分就能看到 report context 的字段存出了我们的报告内容了，这样就搞定了创建和数据上传了。是不是很简单啊，可以开始评论区提问，下一期分享如何使用拍看进行 gpt 问答，觉得有用记得点赞收藏。
427暴躁哐哐

热门推荐

热门分类