ai 大 神卡帕西前两天公开了他是如何搭建个人知识库的,直接火了。他将整个搭建的逻辑写成了一篇 markdown 文档,并放在了 github 上面,可以免费下载。要怎么使用?第一步,先去他的 github 上面,点击这里下载他的 github 文档。 第二步,把这个文档直接丢给你的拷拷的或者是科 sir, 并和他说你也想搭建同样的知识库,让他帮你规划。他会反问你几个问题,比如说你的应用场景是用于学习 ai 技术还是个人成长?他会帮你设计好整个文件的框架,包括原始资料层以及这个维基层 和规则层,这里就是他执行好之后的效果。第三步,装一个 c 点藏插件,平时你看到好的文章,你可以直接一键保存。 ok, 在 下次对话时,可以在你这个保存文档的目录下来启动可可的,这样的话它会自动加载这个规则文档,然后就知道如何维护你的危机了。还可以在这里对直接对你的知识库进行提问,从今天开始,让你的收藏真正的变成知识,行动起来吧!
粉丝2125获赞1.1万

卡帕西发了一条推文,两天千万人看,四四 k 收藏。他说他最近花了大量时间让 ai 帮他处理内容,而不是写代码。这背后到底是什么思路,让这么多人觉得有用? 他在用 ai 给自己建一个私人知识库,把所有散乱的笔记和文章整理成一个随时能查的系统。不用 notion, 不 用 obsidian, 就 一个普通文件夹,加一个文本文件。今天我就带你把这套东西搭起来,跟着做,今天就能用上。 整个系统就三个文件夹,两分钟建好, raw, 放你的原始素材,文章截图、笔记,什么都往里扔,不用整理。 wiki 是 ai 帮你整理后写入的地方,你不要手动改它。 outpost 存 ai 给你生成的答案报告分析结果。 光有文件夹还不够,你需要给 ai 一 份说明书,在根目录创建一个 cloud d, 点 m d, 告诉 ai 这个知识库是干什么的,怎么整理。卡尔帕蒂自己说它的 skype 超级简单,就是一个告诉 ai 规则的文本文件, 这个文件决定了 ai 整理出来的维基质量,别跳过这一步。文件夹建好, skype 写好,现在打开 cloud code, 说一句话, 读取 raw 里的所有内容,按照 cloudy 点 md 的 规则,在 wiki 里编一个维基,然后走开,让它慢慢跑,不用盯着,跑完你会拿到一个 viki 文件夹,文章按主题整理好,还有一份 index, 点 md 缩影。维基建好之后,你就可以开始提问了, 不过 car party 也没提到一个真正能加速这个过程的工具。 virtual apps 刚发布了 agent browser, 让 ai 直接操控真实的 chrome 浏览器,低塔上二六 k 星两条命令安装,然后你的 ai 就 能自动抓任何网页存进。若 最关键的是它比 playwrite mcp 省百分之八十二的 token。 同样一轮对话能抓五到六倍的页面。那些 javascript 动态加载的页面,需要登录的内容,要不停滚动才能看完的文章,它都能处理。 karpati 的 帖子有四十四 k 收藏,但收藏和真正用起来差的只是一个周末的动手时间。 三个文件夹,一个 schema 文件,一个 ai, 这就是整个系统。今天就选一个你最想搞清楚的主题,把现有的文章和笔记扔进 raw, 让 ai 跑一遍评论区告诉我,你打算用这套系统管理什么主题。

大部分人做个人知识库,最后都做成了一个更贵的 ig。 资料是传进去了,但每次提问,系统都像第一次认识这些内容。 karpsy 在 二零二六年四月四号发了一篇 l l m wiki 的 gist, 核心不是怎么解锁,而是怎么让模型持续维护一个 wiki。 我 把这套思路直接翻成了 opencloud 的 落地流程。唉, 传统爱奇艺的问题不是不能回答,而是不会积累。今天问一个问题,他去找切片,明天再问一个稍微复杂一点的问题,他又从头再找一遍, 没有编一层,也没有结构。升级 l l m wiki 的 方法正好相反,他要求模型把原始资料持续维护成一个结构化的 markdown wiki。 如果你要把这个东西真正做起来,我建议就按四层理解,第一层是 raw, 原始资料只读。第二层是 wiki, 所有结构化页面都在这里。 第三层是 ages m d, 它其实就是 kappa 文里说的 skimmer。 第四层是 crown, 负责每天和每周的健康检查。前面三层决定结构,最后一层决定这个知识库能不能长期长大。 为什么我觉得这是特别适合 open curl? 因为它不是单纯的聊天入口,它天然把浏览器文件、系统技能规则和定时任务放进了同一个工作区里。 你可以让他抓资料,写 markdown, 维护锁影、跑 link, 还能安排定时任务做知识库体检。我这边实际装的是 open curl, 二零二六点四点二,足够对这条流程做真实落地。 第一件事不是提问,而是建工作区。我的建议是直接把目录分成 raw 和 wiki 两大层,再把 index 和 log 放在根目录, raw 是 输入层, wiki 是 编一层, index 是 入口, log 是 时间线。只要这四个概念没乱,你后面就不容易崩。 真正的关键是 a 卷尺。 md, 没有这份文件, agent 每次都在重新拆你的目录命名和流程。你要明确告诉他, raw 不 许改。 index 必须更新哪些页面 query? 先看 index 高价值问答要回写 analysis, 只有这样这个字实酷才像项目,而不是一串聊天记录。 接下来就拿一篇资料跑第一轮 ingest。 注意,第一轮不要批量为十篇。 理想结果不是它给你突出一篇摘药,而是这一篇资料进来之后,会带动五到十五个页面一起更新,把相关概念、实体和地图页都带起来,这样知识库才是在长,而不是只多了一份总结。 然后是很多人最容易漏掉的一步。问出来的好答案不应该只留在聊天窗口里。比如你让它做一次 open claw 和传统 leg 的 差异分析,这个结果本身就应该保存成 e and s。 只要你做到这一点,知识库就开始真正复利了。最后给他加上 crown, 每天跑一次清亮 link, 每周跑一次深度 link, 让他专门检查过页面过期结论、漏掉的交叉引用,以及哪些页面已经该拆了。做到这里,你的知识库才是从能用升级成能长期长大。 所以这套方法真正厉害的地方,不是把资料喂给模型,而是让模型帮你维护一个持续进化的 wiki。 你 做的不是一个能回答问题的文档箱,而是一个会自己长大的个人知识库。如果你要我下一条,可以直接把 a 键词模板和 cron 规则逐行拆开。

朋友们,这个视频你必须要收藏好!刚刚 ai 教父 and duchess 公开了一个神级方法,只用了五分钟,就能把你散乱的知识变成一个会自己长大的 ai 知识库。重点是,这套方法超级简单,不需要什么 rap, 一个文件夹加几个 macdunk 文件,百分之九十的人都能控制。 我连夜研究了整套玩法,总结了四个核心动作,特别是第四点,打透了知识管理的底层逻辑。第一步,搭建超级简单的双文件夹结构, 只需要建两个文件夹,一个叫 ro 放原始资料,一个叫 vicky 放 ai 整理后的内容,然后打开 cloud code, 把 cappsy 的 提示词丢进去,它就会自动帮你创建搜引文件和网址,五分钟搞定。第二步,微数据给 ai, 让它自动建立知识关系网, 你把一篇文章扔进肉五文件夹,告诉 cloud code 去消化它。神级操作来了, ai 不 会简单地把文章复制一遍,而是会拆解成十个、二十个相互关联的知识点。第三步,持续喂养。 这是这套方法最绝的地方。传统的 ai 聊天对话结束,知识就消失了。但用 copy 的 知识管理法,每次你添加新的内容, ai 会自动地找到和它旧知识的连接点,不断织密这张网。到这里,你是不是以为这就是一个高级笔记本?错了? 第四点,才是让我头皮发麻的地方。 copy 真正在做的不是整理笔记,而是打造一个会思考的第二大脑。你不再需要记住所有细节, 只需要问 ai, 我 之前研究过这个话题吗?它就能瞬间调出所有相关内容。朋友们,这绝对是我今年看到的最实用的 ai 知识管理方法。我是天所关注,我学习实用的 ai 玩法。

四月二号, karpsy 发了一条推文,浏览量超过八百万。 karpsy 就是 tesla 前 ai 总监, open ai 创始人团队成员那位。他这次分享了什么? 他分享了自己用 ai 维护个人知识库的工作流,核心思路是让大模型不只是聊天工具,而是一个全职图书馆员,帮你持续整理和维护一个 mock down 格式的 wiki 等等。 mock down wiki 不 用像料数据库,不用 r a g。 对,他明确说了,在它的规模下,不需要什么花哨的 r a g。 它的系统分五个阶段。 第二步,翻译是什么意思?就是大模型读你扔进去的原始资料,论文、网页、代码仓库什么的,然后自动写出一个结构化的 wiki, 包括摘要、百科式的概念文章,概念之间的双向链接,还有缩影文件。 它原话是,你几乎不需要手动编辑 wiki, 那 是大模型的领地。听起来像 notebook。 lm reddit 上确实有人问了同样的问题,呵,但有个关键区别,它的输出会反补回 wiki。 你 问了一个问题,大模型生成了一份分析,这份分析又变成 wiki 的 一部分知识是复利增长的,越用越丰富。那第五步拎听呢? 我们之前在 openclaw 为什么总失忆?聊过 agent 记忆的问题。 karpsy 这个 link 做两件事,发现不一致的数据,然后联网搜索补缺失信息,相当于给芝士库做定期体检。 好架构讲完了,我最好奇的是,它不用向量数据库,那怎么搜索? vicky 大 了怎么办? 这是最关键的问题。它却是 webcody 的 一个简单的搜索引擎,有 web 界面,也有命令行。但它没说底层用什么技术核心解锁,还是让大模型自己读一个 index? 文件就是字面意思的,读目录,选文件,读全书, 对大模型自动维护一个 master index, 里面是每篇文章的标题,加一行摘要。说到问题时,大模型先读这个 index, 自己挑出相关的几篇文章读。权威,沿着链接跳转,然后回答,本质上就是 agent 在 一个组织好的文件树上导航。 那这个 index 文件不会越来越大吗?一百篇可以,一千篇呢?一万篇呢? 你收到了社区公认的最大硬伤,所以它现在的规模是多少?大概一百篇文章,四十万英文单词,四十万单词约等于五十万 tokens。 现在前沿模型的 context window 已经到一百万 tokens, 所以 index 文件几千 tokens 轻松放进去。 但他自己用词很克制,说的是 fairly easily at a small scale ready 的 上有人说得很犀利,说你要把 wiki 分 成章节去剪辑,那不就是换了个名字的切块加向量搜索吗? 绕了一圈回到原点,没错,这就是为什么我说这条推文是一个理念宣言,不是一个技术方案。 那这条推文到底解决了什么?为什么八百多万人看我就遇什么?会有三个原因。第一,命名效应。 很多人已经在零散地做类似的事,用 cloud code 的 记忆文件,用 obsidian 加大模型,但没人给他一个统一的框架。 capac 给了一个清新的名字和架构图,大家一看,对,我做的就是这个权威效应吧。 r a g 是 行业正统,谁敢公开说其实我用不到向量数据库? capacai 作为 open ai 创始人成员,说了这话,等于给了一张反 r a g 的 许可证。对 reddit 上最高赞的评论就是,当你有无限的 tokens 和推理能力,你使用大模型的方式就变了。第三个原因是时机, context window 刚到一百万 tokens 以上,推理成本持续下降,用 token 换架构,简单性第一次变得经济上可行了。 说到这里,我想问一个更大的问题,卡帕萨斯说小规模不需要 r a g, 那 大规模呢? r a g 的 硬伤到底解决了没有? 这个问题的答案是没完全解决,但问题的性质变了。 m m n t m research 有 一个分析框架叫 r a g 分 岔论,我觉得说的最清楚,他们认为标准 rock 的 适用范围在极具手窄,分裂成两个极端。 让我猜,一头是 capacity 这种小语料直接塞进 context 的 window, 对 小于一百万 tokens 的 语料权威塞进去不剪索。 capacity 的 方案就是这个思路。在个人规模下,这个问题技术上已经不是问题了。 另一头呢,我猜是某种图结构,因为向量搜索解决不了多条推理。没错,超过一百万 tokens, 而且关系复杂的语料需要图结构。微软已经开源了 graphrek 项目, lettrand 也在降低门槛。学术上还有更激进的方向叫超图,一条边连接多个实体,已经在 new i p s。 两千零二十五发表并开源了代码,但还没有大规模生产部署,那标准的切块加向量搜索就成了中间的尴尬地带。 按这个框架看是,唉,对小语料它是大炮打蚊子,对复杂语料它又力不从心。我们之前在面试官问如何评估 r a g, 系统里详细讲过 r a g 的 评估方法论, 当时就提到了 r a g 的 几个失败模式。当然,标准 r a g 在 企业场景还在大量使用,说它死亡太绝对,但适用范围确实在缩小。所以 capacie 在 这张图里就是最左边那个店。小规模已解决,那真正的战场在最右边。 二零二三年,怎么让大模型读到我的文档?唯一答案是 rag 二零二六年,小的直接塞进去,大的要图结构标准 rag 在 被淘汰。 capacity 解决的是第一个小规模的,第三个大家,复杂的才是真正的前沿,而且目前还没有好的通用方案。所以这条推文更像是 paul graham 二零零五年写那篇 how to start a startup 改变认知框架,但没教你怎么写代码, 完全正确。上个月 capacity 刚开源了 auto research, 我 们之前在 capacity 的 auto research 那 期聊过,这个人最厉害的地方不是他写了什么代码,是他总能在对的时间点把大家隐约感觉到,但没人说出来的东西,用一个清晰的框架表达出来。呵, 所以它的真正产品是认知框架,不是代码没错,但代码呢?留给别人去写了。 shapiro 的 ceo 已经做了 q m d agno 做了 p a l。 社区在补它没做的部分。理念宣言的价值就在这里。它不解决问题,但它让一千个人开始解决同一个问题。

今天三百万人围观学习 ai 大 神卡帕西又出爆款了,他这次揭秘的是自己打造 ai 知识库的完整方法论。我给大家拆解一下核心逻辑, 他让 l l m 给自己建了一个活的 ai 知识库。整个流程说起来其实很优雅。第一步,把论文文章、 ripple、 图片这些原始资料全部扔进一个 r a w 文件夹。第二步,让 l l m 自动翻译成一个 wiki, 自动生成摘要、反向链接、概念分类文章,所以全部给你安排明白。它用的前端是 abc, 但重点是 wiki 里所有内容都是 l l m 写的,它自己基本不碰,而且输出不是干巴巴的文字,是直接生成 markdown 文章、换灯片等。你每一次提问都在给知识库续命升级。 它还会定期让 l l m 跑一次健康检查、找数据矛盾、补缺失信息挖掘新连接推荐,下一步该研究什么?整个知识库真的在自己生长。

无语,知识库原来就这,什么是知识库?解释什么是知识库?知识库将你的所有知识都存在于一个文件夹当中,或者是一个笔记当中,通过 ai 的 进行提炼总结文档或者文件夹中的内容, 相当于我们本知识库当中的内容。比如说这是我在网络上复制的一个文章,就是我们通过插件问 ai, 这是什么文章,说了什么, 他将本文章多所有内容进行了总结,也就是进行了内容提炼, 当然你可以要求他的字数,然后你觉得他说的,那我们就新建一个笔记,我们可以直接将其插入当中。好了,这就是你的提炼文章,就是你总结到内容,通过完善知识库的内容,你的 ai 会越来越聪明。 具体要怎么去下载这个黑曜石软件呢?我们怎么可以拥有这么多的功能?首先事先打开浏览器,浏览器我们去搜索 obsidian 黑曜石, 然后这就是我们出来的第一个,当然要去辨别一下,然后去点击下载就好了,选一下安装位置, 我们下载好了之后,它是一个空白的,我们怎么就可以接入 ai, 接入到像我这样的模型呢?然后就是我们需要下载另一个软件,这个软件叫做欧拉玛, 然后在这里点击下载,点击下载好后就开始复杂了,欧拉玛是这样子的一个界面, 但我们还是需要用调用命令型的方式去验证或下载,因为它这个软件当中的这个模型不是很全。然后具体怎么下载呢?就是因为我们要用 ai 工具,为什么不问 ai? 所以 我们问 ai, 问它调试的命令行是什么? 按照它的步骤下载好之后,我们需要去验证,验证是否下载好,该怎么怎么样,然后复制在桌面,点击终端,打开输入指令, 我下载的是十七点七版本,验证我们已经安装成功了,那么需要下载模型继续。问 ai 怎么怎么怎么怎么样,一直按照它的方法来,错了不要紧, 这样子的一个命令是干嘛的?我们不知道它代表的是什么意思,我问,让 ai 直接给出命令行来复制,我们复制粘贴,问它 下载完成之后看查看下载了什么模型,复制命令型,在命令行当中,这个就是我已经下载好的模型。 下载好了之后呢,就是我们需要去做一个系统配置,可以让你的其它软件都可以访问本地,访问到模型,访问到你的这个 lama 就是 你的本地大模型。然后我们具体怎么做呢? win 加二键,打开运行框, 输入这样一个命令,大家可以记一下,然后点击确认这是系统属性。在高级中有一个环境变量,环境变量的第一个就是我已经做好的配置,点击新建,然后将名称将变量值都输入进去,有需要可以截图, 当然也可以用 ai 的 其他方法,我只是认为这样的一个方法比较简单一些, ai 告诉我们的是使用命令型的方式。你的 ai 下载好了本地环境,部署完了,打开 obsidian, 下载第三方插件,社区插件市场中是官方认证的,然后我在这个官方社区中下载了两个,一个是对话框软件,一个是链接本地环境的软件,链接的就是我们刚刚设置的环境变量,大家可以跟我下载同样的一个, 当然还有其他的,你可以自己去找点击插件市场,大家搜索这个,或者在开源社区找, 看好名字,其他的都不是。点进来之后它是这样子的一个界面,我们去下载什么呢?我们去下载这个右下角这有个三点二这个版本会更新,这是打包文件,看不懂我们可以去翻译 资产的。前三个就是文件下载下来之后,我们点开这个软件,点开这个软件之中已安装插件,它旁边有一个这个文件加点进来就是创建一个和它同名的一个文件夹,将下载好的几个文件粘贴到这个新建的文件夹中, 我们点击链接软件,它是这样子的,我们点这个第二个 去添加一个 ai, 是 我们命名什么什么什么什么和我一样就可以,不会就问 ai, 这就是你本地的端口,本地的意思,这是默认地址, 然后点击一下这个就下面就设置好了,然后回到第一个界面,我们点击一下这个钥匙,这是地址刚刚设置添加的 ai, 然后我们点击这是我们下载的模型,然后去链接, 然后就是我已经链接好,然后它就会提示怎怎么判断去链接好了没有,就是点击第二个,你在这样的一个列表当中,就是有没有你刚刚下载的那个 摁开源大模型啊?然后就是点击第二个插件,我这个的也是是我们新建是将这样子的一个 这个已经链接到了我们这个软件当中,所以我们只需要它的输入它的地址就可以了,是 就是找一下就是有没有 l mac, 当然这可以其他的,比方说就是 open ai, open ai 是 这是你的链接地址,这是需要你有一个开源大模型的秘钥,因为我们没有事,我们是为了 免费的使用这个东西,所以所以我们在使用的是 o l a m, 当这一些好了之后,它这边会跳出来一个这样的软件, 最终就是我们接入 ai 的 本地知识库,那就建好了这样子一个本地子库之外,还有一个腾讯出品的,是这样子一个软件 ima, 就是 就是它有一些很丰富的 个人知识库和笔记,当然我们还可以去找到一些这样子的一个内容,比方说我们随便说一个是个本模型,说了什么, 它就是特指这个文件当中的一些内容。当然我们也可以新建个人知识库,个人知识库这个软件最大的一个好处就是我们可以上传网络链接,比方说这个是一个公众号文章,这是原文,然后我们在公众号当中 随机点击一个,然后太多了不想看,复制链接,个人知识库添加网络连接,当然可不光是公众号的文件,然后其他的也可以, 它会先解析阅读,阅读完之后我们点进来的右上角可以问问它,就是说本文说了什么, 它就会巴拉巴拉巴拉,然后好,然后呢?还有一个功能就是说,唉,我们就问问本知识库现有的内容,说什么道理,当然啦,它这个软件的弊端就是 储存空间只有五十个 g, 就是 你下载了电脑版和下载了手机版,它会送你三十个 g, 本来的二十克 总共五十 g, 然后每邀请一位又会增加十的,然后这就是全部内容了。当然我认为 这个五十 g 就 完全够我们用了,就算你,就是你拉薪去增加到一百 g, 我 就已经完全完全足够足够你未来很久很久的用了。

你花几千块买的 obsidian notion wrong research? 可能全错了。 open ai 创始人、 tesla ai 总监 karpati。 它的知识管理系统只有一个笔记文件,没有文件夹,没有标签,没有复杂工具,效率反而更高。今天带你拆解这个方法,听完就能开始用。先说说 karpati 是 谁? 他是 ai 界的传奇人物, open ai 创始人成员, tesla ai 总监,领导过 autopilot 团队 stanford 最受欢迎的深度学习课程 c s 二三一 n 就是 他创办的。 youtube 上,它的视频播放量动辄百万。 deep dive into l l m s。 是 很多人的入门首选,但它更重要的身份是什么?它是个知识管理实践者,真正用自己发明的方法每天记录和迭代,不是理论派,是实践派。 它的方法叫 upend and review, 翻译过来就是添加回顾。三个核心动作,第一, upend, 任何时候有任何想法,直接追加到笔记顶部, 手机上想到就写,电脑上随时追加。关键心态,写不整理,不用纠结放哪个文件夹,不用思考打什么标签,写下就放下,清空工作内存。 第二, review, 每隔一段时间向下浏览,周末或空闲时回顾,像逛博物馆,不是整理,是和过去的自己对话。重要内容复制回顶部不重要,自然沉下去,时间会证明什么重要。 第三, search, 按 ctrl 加 f 搜索,一秒就能找到任何内容。搜索关键词、搜索标签、搜索日期, 比分类快得多,不会分类错了,为什么这个简单的方法反而有效?四个关键词,极低门槛,任何人立刻开始,不需要学习任何工具,不需要搭建复杂系统,极低认知负担,追加时零决策成本,不消耗注意力, 你的脑力应该留给真正重要的是自然筛选机制,重要内容反复出现不重要,自然沉下去。时间证明一切,不需要你人为判断。搜索优先按 ctrl 加 f, 搜索一秒就能找到,比分类快一百倍,不会分类错了,因为根本没有分类 cover 的 原话。管理超过一个笔记,认知负担太高。一个笔记 f t w 怎么用 ai 辅助?回顾很简单,每周把笔记粘贴给叉 g b t, 让 ai 帮你找出反复出现的主题,可以合并的内容,值得深入的想法, ai 只分析,你做决定。比如,你可以这样问,分析我这周的笔记,找出反复主题,可合并内容,值得深入的想法,不要做决定,只做分析。 注意, ai 是 辅助,不是替代。 ai 可以 总结,但你要判断对不对。 ai 可以 整理,但你要决定保留什么。 ai 不 能替代你的思考,你的洞察才是核心。踩坑提醒,每条笔记都问 ai, ai 说什么都信,这样会失去思考能力。 carpatty 有 一个深刻观点, ai 为普通人带来的好处远超过对企业、政府的意义。为什么企业有专家团队?大模型只是让专家稍微高效一点,但个人只精通一个领域, 大模型让个人获得广泛准专家能力。比如 vibcode, 写代码,理解法律文档,阅读论文,做数据分析。 carpatty 用 ai 做了 menugen 应用,百分之百代码由 ai 写成,它只是指导最终上线,成为真实产品。 这就是他说的 power to the people。 ai 让普通人拥有以前只有专家才有的能力。 vip coding 的 启示,你不需要成为专家,只需要提供方向和反馈, ai 实现具体功能。在知识管理中,你不需要学习复杂工具和方法论,只需要提供想法,让 ai 辅助整理,保持简单,坚持习惯。 carpa fi 方法和其他知识管理方法有什么区别?对比 zeltec 卡片盒 zeltec 需要精心设计链接, carpa fi 方法通过回顾自然连接,不需要设计。 zeltec 适合学术研究者, carpa fi 方法适合普通人。对比 obsidian、 notion、 rome 这些工具,功能复杂,需要学习使用方法,维护成本高。 karpafee 方法极简,不需要学习,维护成本为零。 karpafee 为什么选择简单?他说,一个笔记意味着搜索简单且直接复杂,系统的认知负担太高,简单才可持续复杂,容易崩溃。怎么开始?三步,今天就能用。 第一步,创建单一笔记工具, apple notes, 微信收藏,什么都行。创建一个笔记就叫 notes, 不见文件夹,不打标签,十分钟搞定。第二步,建立追加习惯,这周只做一件事,追加,想到什么就写什么,不纠结格式,不思考分类,写在顶部就行,一句话也行,一个关键词也行。第三步,建立回顾习惯, 周末向下浏览重要内容,复制回顶部,像逛博物馆,看自己过去在想什么,时间会证明什么。重要开始之前,先避开这四个坑。第一个坑,见了太多笔记,每次记录都要想放哪消耗注意力。 解决方案,合并成一个笔记,只在顶部追加。第二个坑,过度标签化,每条都打多个标签,纠结应该打什么。解决方案,最多用一个前缀标签,其他靠搜索。 第三个坑,从不回顾,只有追加,没有回顾。系统变垃圾堆。解决方案,每周固定时间回顾,保持逛博物馆心态。第四个坑,过度依赖 ai, 每条笔记都问 ai, ai 说什么都信。解决方案, ai 辅助你决策, 一句话总结知识管理的目的是帮助你思考,不是帮助你整理。复杂系统容易崩溃,简单系统持久运行。一个笔记,一个习惯,一个信念。今天就开始打开笔记,写下第一条,未来会感谢今天的你。

那我们就开始吧,我们先来聊第一个部分,就是工具的选择和准备啊,就是说到底有哪些工具是可以用来搭建知识库的啊?然后它们都有什么亮点,适合什么场景?其实现在大家用的比较多的呢?有像 notion, 嗯,还有像非书的知识库,还有语却,嗯,还有腾讯文档, 呃,还有就是如果你是技术团队的话,可能会用 confluence 或者是 gitbook。 还有就是如果你是有一些安全要求比较高的话,可能会用阿里云的,或者是腾讯乐享的这种企业级的知识库。然后如果你是一个个人或者是一个小团队的话,可能会用板栗看板,嗯,还有就是像 obsidian 这种。还有就是如果你想要自己去定制化开发的话,可能会用 media wiki 或者是 bookstack。 哇, 这么多选择啊,那不同类型的用户到底应该怎么去挑呢?就是你如果是一个追求灵活高效的团队,嗯,那你用 notion 或者是非书会比较好。那如果你是一个技术团队,嗯,那你用 confluence 或者是 gitbook 会比较顺手。那如果你是一个有一些合规要求的大型企业,嗯,那你可能就需要上阿里云的这种或者是腾讯乐享的这种企业级的知识库。那如果你是一个 呃个人或者是一个小团队,想要简单一点,那你就可以选板栗看板或者是 obsidian, 那 如果你是想要自己去完全掌控自己的这个知识库的底层的话,那你就可以自己去用 media wiki 或者是 bookstack 去搭建。那如果我们要从零开始去搭建一个知识库的话, 具体有哪些步骤?然后在这个过程当中有哪些关键的细节是我们要去注意的。呃,其实第一步就是你要去搞清楚你自己的需求是什么,嗯,就是你是一个什么样的团队,你有多少人? 你是一个什么样的行业,你需要有什么样的工具。嗯,那在这个过程当中的话,你可能 啊安全啊、易用性啊,包括这个后续的可扩展的一些东西,都是你要去考虑的点。那这个工具选好了之后呢?接下来就是你要去规划你的这个知识库的结构,那这个结构的话,就是你要去想清楚你要怎么去分类,怎么去命名,这个其实也很重要,你前期想的越清楚,你后面管理起来就越轻松。哦, 原来准备阶段就这么讲究啊。没错没错,然后就是在这个实际的使用的过程当中的话,其实建议大家可以先去小范围的去做一些调整。那有些工具呢?他可能还支持,比如说你可以把 多种内容都整合进来,那你可能就可以把你的这个知识库和你的这个日常的协助啊,或者是说你的这个项目管理啊什么的都打通,那这个时候你的这个知识沉淀就会变成一件很自然而然的事情, 那你这个知识库也就会真正的发挥它的作用。那你觉得就是现在这个 ai 这个热潮之下,知识库这个领域有什么新的玩法,或者说新的工具是特别值得关注的。嗯,我觉得就是现在很多这种知识库都开始接入这种大语言模型了嘛。哦,对,比如说像那个腾讯乐享,它就可以做这种智能问答, 然后它可以自动地帮你生成一些内容,帮你去做这种知识推荐。还有就是,呃,像这个苏达智能知识库啊,还有这个 i o m i 知识库啊,还有这个密塔知识库啊,它们也都出来了,就是主打这个自然语言的剪辑和这个多元内容的一个管理。那其实这些东西的出现就可以让 企业的知识管理变得更智能吗?对,那也会大大提高大家的工作效率。好,我们来聊第二个部分啊,就是怎么一步一步的来搭建你自己的这个知识库。对,这可能是很多听众最关心的啊,就是说我具体要怎么开始,嗯,你觉得有哪些关键的步骤?其实我觉得,呃,首先你要搞清楚你为什么要建这个知识库?对,然后你要确定一下你要关注的领域。 对,你可以先把你自己常用的一些知识的类型先罗列一下。对对,然后就是你要去选好你的这个核心的工具 啊和你的这个收集箱。嗯,对,就你所有的这些信息,不管是从哪来的,都先集中到这个收集箱里面,再按照你的这个顶层的分类啊,中层的结构啊、标签啊、模板啊等等的一步步的去 整理好。最后就是你要通过一些定期的复盘啊,以及这个输出啊,不断的去优化你的这个知识库。就很多人可能一开始在整理自己知识库的时候就特别容易迷失方向。嗯,你觉得有哪些实用的建议可以帮大家 避过一些常见的坑呢?嗯,我觉得其实最重要的就是不要想着一步到位,嗯,就先动起来。嗯,让你的这个知识库是可以不断进化的。对,然后不要只是去堆积资料,而是要真的去 理解它,用自己的话去总结它。对,还有就是,呃,保持你的这个结构简单清晰啊,不要去迷信一些工具啊,或者说什么一定要有一个很完美的分类啊,你可以用一些 ai 帮你去自动整理啊,或者是说帮你去 深层一些内容啊,包括帮你去做一些工作流的这种设置,都会大大提高你的效率。就是说如果我们真的一步一步的把自己的知识库搭建起来了之后,会给我们的工作和生活带来哪些明显的变化?其实就是一个搭建好的知识库,就相当于你有了一个随时可以用的第二大脑。对,就是你可以把你各种 学习的内容啊,然后你的一些经验呐,都很有条理的放进去,你可以很快速的找到你想要的东西,你也可以不断的去补充它,优化它,它就会成为你一个真正的可以帮你提高效率,激发你创造力的一个 得力助手。对,而且你用的时间越长,它会越智能。好,我们来进入第三个部分啊,就是进阶与优化技巧。嗯,这一块其实大家最关心的就是怎么样让这个知识库变得更智能,更高效,那有哪些比较实用的方法可以做到这一点呢?嗯,其实这个最核心的就是你要利用好这个 ai 的 能力,帮你去自动的梳理这些内容之间的关系。 对,然后自动的帮你去推荐一些你可能需要的知识,这个是最核心的一点,包括你可以去设定一些呃规则,让这个系统自动的去帮你整理, 比如说你可以设定一些规则,让系统定期的去帮你清理一些过期的或者是说没有用的信息。嗯,对,这个也是可以让你的这个知识库保持一个比较好的活力。听起来就感觉智能自动化确实是可以帮我们省很多力气,没错没错。然后还有就是把知识拆的更细一点,就是拆成这种原子知识, 建立这种知识网络,包括你可以用一些这种动态的评估的机制来帮你去持续的优化这个结构,再配合上这种跨平台的同步以及一些安全的设置,就可以让你的这个知识库不光是高效,而且是 可以持续地净化的。再加上一些这种个性化的推送呀,以及这种反馈的循环,让每一个人都可以更高效地去找到自己想要的东西。你觉得就是这个智能自动化这个功能在实际的使用当中会给我们带来哪些具体的变化?就是比如说现在的一些这种 ai 的 知识库,它已经可以做到 自动地帮你从各种不同的来源去抓取内容,然后自动地帮你分析这个内容的价值,去帮你把一些重复的或者是说 可信度不高的一些信息自动的剔除掉,包括它还可以甚至可以帮你在你使用的过程当中,根据你和它的一些互动,不断的去调整这个内容的优先级。 就它其实是一个整个的这个管理的流程就变得非常的省心,也非常的高效,而且它可以保证你这个知识始终都是一个比较新鲜,比较准确的一个状态。如果我们把这个知识拆解的更细致一些,然后用这种复杂的网络把它组织起来, 会有哪些明显的好处?其实就是把知识拆成这种最小的单元之后,它就可以非常灵活的去组合,然后配合上这种知识图谱,它就可以不仅仅是做这种智能的推荐啊和这种联想,它还可以去做一些这种跨领域的这种推理,就它可以帮你把一些 看似不相关的内容都串联起来,那这个时候你的这个创新的能力也会大大提升。就是你无论是找答案还是说你在做一些这种创意的工作,都会变得更加高效和有成效。 是,今天我们其实聊了蛮多关于如何用各种技术手段来打造属于自己的知识库的一些方法和技巧。其实每个人都可以从现在开始动手搭建属于自己的知识库。嗯,我觉得这个东西只要你开始动手就已经迈出了非常重要的一步。对,感谢大家的收听,然后不要害怕去尝试。好吧,咱们下期节目再见,拜拜。拜拜。

hello, 大家好,我是你们的 ai 小 兵哥,你是不是也遇到过这样的问题? 公司文档堆积如山,每次找产品资料都要翻老半天,各种规章制度手册没有维护,更谈不上落地执行。每次新员工入职,总是问同样的问题,如果你是老板或者 hr, 有 没有那一刻觉得快要被问崩溃了? 本期视频教你用 iag 技术搭建一个你公司的专属知识库助理,实现七成二十四小时自动回复。对内容感兴趣的可以先收藏起来,避免下次找不到我。本期视频的目标是理解 iag 的 原理, 搭建项链数据库,配置欧文可乐,让你的本地龙虾来访问你本地的企业文档,实现智能问答,让龙虾帮你七成二十四小时自动打印。 我们先来了解什么是 r a g。 r a g 是 解锁增强生成的意思,简单来说就是让 ai 先查资料再回答问题。当有用户提问的时候,首先在内部知识库中解锁相关文档, ai 再根据解锁到的文档进行准确的回答。这看起来是个很简单的流程, 但是传统的大模型是为公共服务进行回复的,他所掌握的信息不包含你企业自己定制的规则。比如你问 ai 一个星期有几个工作日,他会回复你上午休二,但是有的企业为了体现人性化,会制定上四休三的规则。出现这种情况,你再问传统 ai 还有意义吗? 这时你就能理解,让 ai 先查你的企业资料,再给你回复,是不是更准确了。那么每次 ai 都要去查资料再回答你,这样做会不会非常耗时呢? 我们来看 iag 是 怎么工作的,这里面用到了一个提高效率的关键技术,就是将问题和资料的项链化,当用户提出一个问题,我们可以将这个问题进行项链化。 向量化的意思就是把文字内容进行的数字编码, ai 会根据这个编码的结果在知识库中进行相似度解锁, 也就是我们要将信息提前进行向量存储,当 ai 在 向量库中解锁到相似的内容,就会使用这个内容进行回复。 这个解锁过程也是使用的我们人工智能的技术,他在大幅提高解锁效率的同时,准确率还能达到百分之九十五以上。我们为什么需要 r a g? 首先第一点就是知识的时效性问题,大模型的训练是需要时间的, 大模型所具备的知识内容就是他训练数据截止的时间,比如 dbse 三点二使用的就是二四年七月以前的知识进行训练,再厉害的大模型也没法掌握你的企业随时都可能在更新的信息。第二点就是私有数据的问题, 大模型是没有办法访问你自己的私有数据的,但是 r a g 却可以读取你的私有文档。第三点就是准确性的问题,大模型回复的答案有可能是胡编乱造, 也有可能会产生幻觉输出,但是 r a g 是 基于你的真实文档进行输出。第四点是可追溯性,大模型回复的答案是不知道来源的,它是根据他的神经网络推导出来, r a g 可以 标注出这段内容的引用出处。现在大家应该对 r a g 有 一定的了解了, 如果你也想将这个技术应用到你的企业上,那么我们接下来继续往下看实现这个功能。首先第一步我们需要进行文档的收集与整理。知识库支持的格式有 pdf、 word、 excel 和 markdown, 还有 txt 都可以,只要你的文件是这些类型的其中一个, 都可以把它塞到知识库里面。我们可以对知识库的文档结构进行一个简单的分类,比如一个文件夹专门放公司的各种规章制度, 一个文件夹存放公司的各种产品资料,一个文件夹存放公司的各种技术和经验资料,诸如此类,根据你们企业自己的需求进行划分。第二个步骤就是将文本进行分块。我在这里推荐的分块配置是每块五百个字左右, 块与块之间使用五十个字的重叠风格符,按照段落进行分块。文档太长会超出模型上下文的限制, 解锁时需要精准定位相关的片段,分块大小影响解锁效果,这里就是分块的效果示意图。比如我们的原文档是一万个字的公式制度, 分块后块一是一到五百字的总则公式文化。由于我们有五十个字重叠,所以块二是从四百五十一字到九百五十字,里面可能包含的是组织架构、岗位职责等信息。 快餐是九百零一到一千四百字,里面可能包含的是考勤管理、请假制度。这样划分之后,模型就能准确的检测到相关问题的答案是在哪个文件的具体哪一块上面。 第三个步骤就是向量化的处理,这里的理解可能有一点难度,我用直白的话来给你讲清楚。向量化处理就相当于是把我们人能够理解的内容进行的翻译,翻译成机器更容易理解的内容, 也就是将它数字化。项链化所做的工作就是把文字转换成数字项链,与相近的内容项链距离就会比较近,与不同的内容项链距离就会比较远。比如红苹果和绿苹果,项链化之后就会变成数值非常接近的值。苹果和香蕉项链化之后就会离得比较远。 项链化处理也是使用的 ai 模型,但是这个 ai 模型是经过特殊训练的模型, 它是用来将文本信息进行向量化的专用模型。 in 绑定模型,我们通常使用的有 text in 绑定、三杠什么,或者 bg 一 杠三。 第四个步骤是进行向量存储,我们将内容进行向量化之后,还要将它们存储起来,这就需要用到向量数据库,常用的向量数据库有这些。 clomo 是 一个可以在本地使用的小型项链数据库,它的特点是简单,无需配置。 fast 也是一个本地使用的项链数据库,它适用于中型规模数据。 它是 facebook 开源的数据库,特点是速度比较快。 miwos, 它是一个大型的项链数据库,特点是支持企业级和分布式的管理。 plex 是 一个云服务型的项链数据库,同样也是大型数据库,它的特点是托管服务,简单易用。 这是构建向量数据库的代码示意,这是 open 卡拉的 i a g 配置,我们可以给 open 卡拉一个技能,让他可以操作 i a g 的 知识库,这是 open 卡拉 i a g a 检测的配置, 我们可以给 open 卡拉创建一个新的 a 检测来专门负责管理企业知识库内容。下面是实战环节,我来带大家搭建一个企业制度问答助手。这个实战内容背景是公司有五十多份制度文档,员工经常咨询,为企划同样的问题, 搞得 hr 烦不胜烦。我们的目标是来搭建一个七层二十四小时的自动问答助手,第一步是需要准备文档,第二步是将文档进行向量化入库,第三步是将欧本可乐和飞速进行集成。第四步我们来检测我们的结果测试用这个智能助手来回答相关的问题。来到我的云电脑, 点击零购专区,这里我搭建的一个无影工作站,它相当于一个虚拟云电脑。进入系统, 我在上面已经安装了小龙虾,通过这个地址进入龙虾的 ui 界面,龙虾已经在运行。这是我准备了一份公司管理制度文档,里面有行政管理、档案管理、请务管理、人事管理、车辆管理和会议管理。行政管理里面是一个 word 文件,差旅费报销管理制度是 dosx 格式, 它是 word 文件的一个新版格式。公司车辆管理台账是一个电子表格,一个 excel 格式。文档已经准备好了,我们要做的第二步就是要对这些文档进行分块和向量化处理。 我们前面讲了那么多理论知识,主要是为了让大家了解 ig 的 工作原理,听起来非常的深奥,实际操作起来却非常的简单,因为我们现在有小龙虾。 我做了一个 iag 的 操作技能,来到我的 gethelp 主页,点击 iag 楼里机设置等,将这个链接复制下来,输入帮我安装技能,粘贴敲回车, 小龙虾就会帮我们自己去进行安装了。我之前已经安装过,直接在这里问他,你拥有这个技能吗?能帮我做什么? 他回复了,我,有这个技能,可以帮我进行语义关键词匹配, 多格式,支持智能问答和项链搜索。这个技能安装好后,我们来到第三步,给他配置一个 in 班底模型。来到我拉玛的官网,点击这里下载我拉玛,根据你们的系统进行下载,下载之后安装我拉玛直接根据提示安装就可以。接着我们来到我拉玛的 model, 点击 in 班底 向下翻,可以找到 bgm 三的 in 班底模型。 我看了一下模型列表,有一个最新的模型,它是一个三百零五兆的小模型,适合部署在本地运行,模型大小只有九百五十八兆。在命令行输入欧拉玛普模型名称,将这个模型下载下来,已经下载成功,我们来看一下,输入欧拉玛历史, 接着保持欧拉玛在后台运行。接着来到龙虾的聊天框,输入,帮我配置 ig 知识库助手,使用本地欧拉玛诺米克模型, 龙虾已经配置好了,他说搞定 ig 知识库已配置完成,使用本地欧莱玛多米克的模型, 他直接帮我完成了所有的工作,锁影已经构建好了十个文档,六十四个片段,项链库的位置存储在 wechat 是 多配置,文件是 ig config。 接下来我可以在对话中直接向他提问的,这是一步到位,但是为了讲细一点,我们还是把后面的步骤再细化一下,如果你们不是像我这样一次到位,那么接下来的步骤应该是使用这个知识库助手 为知识库构建锁影。来到我们的知识库文件夹,将这个目录复制给他,输入为下面的文件构建知识库锁影文档目录就是我们刚才复制的目录, 敲回车之后他就会帮我们将文档进行分段并现代化保存。我们来看一下目录的结构,这个位置就是知识库的目录,这个位置就是向量数据库的目录,使用的是库洛玛小型数据库, 你们也可以根据自己的需要去给他配置其他的向量数据库。接着我让他创建一个专用的知识库助手 a 检测,帮我去管理这个知识库, 输入下面这段魔法口令,帮我创建一个知识库助手 a 箭头负责管理这个知识库,为 a 箭头创建独立的工作空间。我会将他与我的飞书机器人绑定,通过飞书与他沟通 来看一下我们的代理,这里已经多了一个知识库助手,下面是知识库助手的工作目录,来到他的 channel, 目前是没有给他配置飞速通道的,我们需要在飞速上新建一个机器人,来到飞速输入 open 点飞速点 cn, 进入开发者后台,在下面点击快速开发机器人,点击创建应用, 输入名称, r i g 自助助手应用描述,随便填选一个好看的图标,然后点创建应用,接着点下面的发布,应用就自动发布成功了,我们还要给他配置一些权限,我们来到查看应用,点击权限管理,点击批量导入,导出 让权限增加上来,点击申请开通。接着创建一个新版本,输入版本号一点零点一说明,随便写,保存发布就可以。 来个命令行,输入 open clock configure section channels, 按回车,继续回车,选择飞书,选择输入 a p p secret, 复制这个 secret, 在 这边粘贴,接着复制 a p p id, 粘贴进来, 按回车,选择 wipe socket 模式,选择飞速点 c n 主策略,选择 open, 这样就配置好了,然后我们选择 face, 完成配对码,先不配我们直接回车,这样我们就在 channels 频道这里看到了这个飞速配置。来到飞速,找到这个应用, ig 自助助手在这里随便输入一个内容,下面这个就是配对码,我们将它复制下来,粘贴到命令行,敲回车。好的,已经配对成功,接下来我们就可以在飞速中直接和他联系了。 我在这里输入,你好,你是谁?你能为我做什么?他回复了我,你好,小兵哥,我是无影小佳,你的 ai 助手,我能帮你做文件管理,飞速集成,知识库解锁等等。简单说,你动口,我动手,有什么需要帮忙的吗? 我感觉这个身份好像还没有匹配,这个应该是我的主 a 箭头,我们仅仅是给他配置了一个飞速的 charles, 接下来我们还将这个 charles 和 ig 自助库助手 a 箭头进行绑定,这就是我们为什么要创建独立的 a 箭头的原因。将这个 app id 进行复制,来到龙虾输入框, 输入框,我将飞速机器人 id 号和知识库助手 a 箭头进行绑定,他回复了我,小兵哥,我看到你的飞速机器人已经配置好了,现在有两个 a 箭头, 我来帮你配置。路由绑定,让飞速的消息由知识库助手处理。你有两种选择,方案一,所有飞速消息都路由到知识库助手,这是推荐的方案。 方案二,特定用户主群才路由到知识库助手,我选择方案二,可以方便公司其他同事访问。知识库助手,我创建了一个群,叫公司知识库助手群,我将群 id 发到群里, 将它复制下来,让龙虾帮我去配置,我选择方案二,帮我绑定到这个群聊龙虾进行了重启。接下来我们到飞书群聊看一下,给知识库助手发个消息,你是谁?你能帮我做什么?他已经收到消息了,正在响应,你们看现在身份就对了。你好,我是企业知识库助手, 是基于 r a g 技术的智能文档助手,专门帮你快速查找和解答公司文档中的信息,我能帮你做什么?第一知识解锁,第二知识文档类型,第三使用方式。第四,我的原则,他还有原则,非常好。 接着我们再来测试问他一个问题,比如报销政策有哪些规定?他已经回答了,我回复非常的详细。车费报销管理制度、报销实现与要求, 差旅费报销的标准,交通费、住宿费、伙食补助、通讯补贴。还有其他规定,他甚至告诉了我来源,请勿管理出差管理制度差旅费报销管理制度,我们找到原文件来看一下,进入知识库目录,请勿管理 出差管理制度。差旅费报销管理制度就是这个文件,一个字,绝。接下来我们还可以让他与飞书多维表格进行结合,当用户提问的时候,首先 r i g 解锁,解锁之后给客户回复, 同时将这个记录保存到飞速的多维表格。针对公司员工问的最多的高频问题,将它整理成一个优化文档。如果你是一个 hr, 拿着这份优化文档去向你的老板进行汇报,老板一定会对你刮目相看。对多维表格感兴趣的可以去考古本系列第二集视频, 这是多维表格的制端设计,我们需要记录用户的问题, ai 的 回复,还有用户的满意度调查。将表格的内容进行一段时间累积,之后再使用龙虾对这个多维表格进行数据分析, 提取出高价值内容。下面是课后作业,基础作业是收集五到十个 pdf 文档,使用克隆码创建项链库,测试问答的效果。 进阶作业是借助飞书或者钉钉配置触发关键词,收集用户反馈。这里也可以像我一样,建立一个群聊,让知识库助手来专门回答每个员工的问题。 下面是挑战作业,建立多个知识库,实现知识库自动选择,添加引用来源标注。下一集我们来讲高级工具,调用那 a 键特,会搜索,会计算,会画画。 觉得本期内容对大家有帮助的,记得帮我点赞、评论加关注,你的支持就是我更新的最大动力,谢谢大家,我们下期再见!

今天亮哥来教你们一个怎么把国际第一梯队的顶尖模型像 gpt、 五点四 cloud 的 揭秘里,这些大模型配置到自己的 opencloud 里面。 在我们国内存在一个情况,我们想要访问国外的国际大模型那些官方网站,去申请 apikey 的 时候需要翻墙 或者说是走代理。比较好的一个方法就是我们去到第三方平台去申请国际大模型的 api key, 但比较好的几个第三方平台, 现在大家用的比较多的一个是优云智算,它是一家上市公司,这里面能用到的能用到很多国际上的一些大模型,优云智算里面的套餐性价比都比较高,我开通了这个六点九元的,送两千九百万积分,从它的规格说明里面可以看到 这里面可以使用的模型 cloud、 gpt 还有智普 mini max。 这个平台用的人比较多, 你看他们的套餐都已经卖完了,要过段时间才会上线,因为他们的性价比特别高。买了他们的套餐之后,在下面有个 apikey, 点一下,创建 apikey 名称随便输,输完之后就会生成一个 apikey, apikey 就 已经得到了。 第二步就是获得他的八十 u r, 八十 u r 就是 在这个接入指南里面点一下,在 api 可以 调用指南下面快速开始 八十 u r, 就 在这个地方,像 gbt 五点四的八十 u r 就是 这个,这八十 u r 就 已经得到了。第三步模型 id 刚刚已经给大家看了, 如果说你要用 gbt 五点四就把这个复制,你要用 kol 就 把这个复制,接下来这三个部分你都得到了之后 就把这个 ipi k 和八十 u r 以及模型以及模型 id 配置到你的小龙虾里面,找到 c 盘用户一二三,你再找到这个 open kol, 再点开这个 open kol 接收文档,这个就是你的配置配置文件了。 大家可以看到模型设置就是在这这一部分,我配置了两个模型,一个是 kimi 的, 一个就是资源优选平台的 gpt 五点四模型。刚刚已经跟你们说了, 这个八十 u r 就 在这个地方复制进来, a p i k 也复制进来,这个 g p t 五点四和模型 id 配置进来。配置进来之后第二步就是把它设为默认模型,下面这个就是默认的意思,这个地方的名字就填上面的名字, g p t 五点四, 斜杠 g b t 五点四。配置好了之后保存了之后,你重启一下你的 open color 就 完了,就 open color get away restart 回车。如果说还有一个最简单的办法,你重启电脑, 重启电脑之后你输入 open color get away 啊,也是重启,这里我不给你们演示了。重启了之后就找到你的小龙虾,跟他对话, 问他你的模型是什么,这个时候他就会回复你就是 g p t 五零四。到这一步就设置成功了, 像优云智创这样的第三方平台还有很多,我的置顶视频里面也介绍了另外一个第三方平台, w w w 点 u a i 点 c n, 用自己的手机号注册登录了之后, 点右上角的找到龙虾端点,这里面也会显示八十 u r apikey 以及支持的模型 gpt 五点四 cloud。 还有国内的一些模型配置方法是一样的, 你只要知道了它的八十 u r apikey 和模型 id 就 能够用上。好的,关注亮哥,每天给你们分享一个干货。

一节课带你完成千万山加 define, 如何打造本地的 reg 之库?首先 reg 全称 retrieve augment generation 解锁增强生成,那么它是一种将我们的信息解锁与文本生成来进行结合的一种技术, 那么它的特点就在于能够实时的从外部知库当中啊,去解锁到我们相关的一些文档来增强大模型的生成能力。那么它的核心价值在于它解决了三个痛点的问题。 第一个知识固化,也就是对于我们模型本身的预训练数据,他是没有办法去更新的。第二个对于不了解的内容,他的一个深层的这样一个事实依据。第三个是我们领域的一个局限性, 对于不擅长的任务或者领域,那么他是很难去进行专业领域的一个问答。 好,那我们在了解了瑞格的基本的原理之后,那我们要知道它的应用场景是什么,非常的简单,那比如说智能客服,像阿里的 小蜜,每天基本上能够处理这个千万级别的问答,那这个数据量 他的一个累积啊,肯定是在这个模型本身能力的基础之上来完成的。第二个就是法律医疗领域的专业问答, 因为对于特定的一些领域啊,你没有相关的数据来作为支撑,他根本就不能够去进行这样一个问答的一个操作。第三点是我们企业资库的一个增强,比如说我们可以把一些 read 的 一些内容集成到我们的一些工具当中去, 对于整个 red 他的一个实现的一个原理,那么我们大致可以把它分为这几个部分,首先第一个部分由用户来提出我们的问题,接下来我们对于用户的问题来进行向量化, 那向量化之后我们需要来对于向量化的内容来做一个剪辑的内容,我们再来进行文档的一个排序, 那再把我们解锁的内容和用户的提问来构造咱们的一个上下文,接着把所有的内容给到咱们的大模型来进行我们的内容生成,最终就是我们用户能够看到的这样一个数据了,所以这他的整个的一个流程。 所以在这张图当中,大家其实可以按照我们的这个步骤我们来做一个理解。那首先第一步 我们可以非常直观的看到,那我们想要去做这个 red, 前提我们需要有对应的一些知识,那比如说我们企业当中我们的 excel 也好, pdf 文件也好等等。对于绝大多数的文档资料,那我们首先来进行切块, 切完块之后,那我们可以把这样的一个文本内容经过我们的嵌入模型,那这个嵌入模型它可以是阿里的,也可以是 open ai 的, 那都没问题,那只要统一就可以了。 那经过这个嵌入模型之后,我们就可以把我们的文本来转换成我们的向量,那存储到咱们的向量数据库当中来,那接下来由我们的用户来进行提问,那用户现在有一个问题,那我想要知道, 比如说计算机信息安全这个啊罪怎么去判的?那我有了这个问题之后,你的用户问题也会经过嵌入模型,那我们转换成像量之后来到向量数据库当中来进行解锁, 解锁完之后,那么我们会把解锁到的这样的一些文档来返回给我们的这样的一个 模型,并且把我们用户的问题组合到一起,由我们的模型来进行这样一个上下文,那上下文构造完成之后,那模型他就能够根据这个内容完成对应的一个输出,这就是他整个的这样一个流程。 那我们在了解完 reg 它的基本的一个应用之后,那接下来我们来思考一下如何去完成本地的这样一个部署,那其实逻辑还是非常简单的,那我们可以通过一些现有的工具,那比如说我们的 define, 好, define 它是我们的一个开源的大模型应用开发的一个平台, 那么在 defy 的 这个平台当中,那我们就能够非常直观地去完成,比如说像工作流也好,像我们的 red 这个支库也好,像我们的 agent 智能体也好啊等等这样的一些功能,都可以在这个平台上面去完成它。 那么对于 defi 来讲,那它不光是一个开源的这样一个应用的这样一个平台,那么我们也能够在自己的电脑当中去完成 defi 的 这样一个部署, 而且非常的简单,因为对于 defy 的 安装,它的要求是比较简单的,我们的这个 cpu 大 于两核,这个内存大于四 g 就 可以了。当然那如果我们想要在 windows 平台当中啊去完成整个的这样一个操作的一个流程,那我们需要 用到一个东西,这个东西叫什么?叫 docker, 因为对于 docker 它是我们去运行绝大多数部署相关的服务最简单的一种方式,那如果说没有安装 docker, 同学可以自行去安装这个 docker, 因为在 windows 当中安装我们这个 docker 这个桌面版就 ok 了。安装完 docker 之后,它的这一个使用的方式非常的简单,基本上只有两个步骤。 那第一个步骤我们首先要下载 defy 的 这个代码,比如说 defy, 那 我想要去下载它怎么去下载?我们可以通过这个 get 仓库的这个命令来进行下载。在这里我给大家使用的这个命令是非常简单的,大家可以来看一下。好在这里首先我们通过这个 get 命令克隆, 克隆谁,我们要给到一个仓库的一个地址,这个仓库的地址就是 define, 它的这个项目克隆完成之后,我们在当前的这个文件夹下面,它就会存在一个叫 define 文件夹,那么在这个文件夹里面它会有一个目录,叫什么叫 docker。 那 有了这个 docker 目录,我们就能够去完成我们刚刚有讲到的快速启动的这样的一个过程。那怎么去快速启动?那么 在 defy 的 官方文档当中,它给我们去提供了这样一个 docker 服务的这样的一个命令,你在下载完这个 defy 之后, cd 命令来切换目录,我们可以去切换,那比如说在这里 cd 进入到 docker 的 这样一个目录下面去, 那在 docker 的 这个目录下面,它就会有一个文件叫 docker 杠杠 compose, 那 这就是一个 docker 的 一个配置文件,就是 第一范,他需要什么样的一些内容,他需要什么样的一些环境,在这个文件里面都已经写好了, 也就是我们只需要启动这样一个文件,他就能够自动的帮我们去下载所有的环境了。接下来我们一样的来我们看一下我们的这个多尔他怎么去用的。 好在这里首先我们直接来用这个什么 docker compose up 杠 d, 杠 d 表示我们在后台去运行它,那因为我们是第一次使用这样的一个命令,所以它会去 下载所有依赖的环境,在这里面大家可以看到一共有八十个最终啊下载完之后,那可能时间大概在十分钟左右,能够把所有的环境下载完成, 那下载完成之后,这是我们的第二次启动了,就非常快了。现在咱们的这个服务那就已经启动了,那我们怎么去看?老师这个服务我能不能直接去看得见?可以我们打开我们的多客,他的一个客户端在这里。 好在这里的话有两个内容,这个 image 它是我们的一个镜像,这个输入呢就是我们的一个容器,就表示我们现在已经运行的这样一个服务啊。比如现在这个就是我们运行 define 的 这个服务,那我们点进来我们可以看到,比如说他的一些相关的一些日制的一些信息,在这里面全部都有,大家都能够看得见, 所以你不用担心,老师我这看不到结果怎么办?不存在,就你只要把它正常启动,都能够看到这样的一个结果。那这个服务我们在启动完成之后,我们怎么去使用 define 这个平台?那么很简单,直接在我们本地的电脑当中,咱们去 输入一个地址,也就是 local host, 表示你本机的意思。好,本机完了之后,我们要输一个叫 excel 的 这样一个命令, 那么 instore 的 这个命令他就会帮你去创建我们对应的一个账户,因为你就创建完账户之后才能够去使用,因为这个地方我是已经创建之后了,所以说我们就直接跳过。 ok, 好, 那接下来我就直接能够进入到当前的第一平台的主页面了,这是我的一个账号 and me, ok, 好, 现在大家可以来对比一下,它和我们在互联网当中的 defi 基本上是一模一样的。 ok, 我 们打开看一下, 好,我们再搜索 defi, 好 让我们做一个对比。 ok, 好, 这个大家可以看到 local host 表示我们本地这边是这个 def 官方的这样一个地址,如果说你要用你用这个官方的,或者用咱们本地的都 ok, 那 么为什么能够去用这个本地的?那有同学可能会问老师,那这个 code 它这个和 define 有 什么区别吗?那最大的区别就在于 define 它是开源的,各位所有的源代码你都能看得见,而扣子它是不开源的,能理解吗?它的源代码你是看不到的,也就是你用扣子只能够去扣子的官方平台, 那你是没有办法去本地去部署的。但是我们可以看到这两个基本上界面完全是一模一样的,一个是我们这个官方的。 好,接下来我们就以本地的这个 diy 平台为例,我们给大家讲一下那如何去创建我们这个企业的知识库。首先我们可以选择知识库的这样一个按钮来点击一下, 好,选完之后,那么我们可以看到它有这样一个创建知识库的这样的一个按钮,直接点击 好,点击完成之后,数据源咱们有几个部分,那第一种就是导入我们现有的这样一些文本,支持的类型有很多,比如说 text, markdown, pdf, html、 excel 这个 duccsv 等等这样的一些文件都是支持的,但是每个文件不能超过十五兆。 ok, 第二个同步我们的这一个 平台,这个地方要同步这个平台。第三步是同步我们这个什么我们 web 的 一个站点数据,但这个基本我们用的比较少,所以我们基本上就用导入本地的这个文件就 ok 了。好吧,现在我们就可以选择一个文件了,比如说那我们随便去选择,因为我这地方我其实是有了,所以我随便再选一个。 ok, 好, 那选中一个 pdf 文件之后,我们点击下一步。好,那么接下来他会有一些对应的这样一些设置,比如说因为一个完整的文档他有很大, 所以我们需要来给他做一个分割,分割我们是按照幺零二四的长度来进行分割的,每一段我们允许他有五十个制服,他是可以重复的。 ok, 为什么?因为我们要防止在进行分段切割的时候 破坏掉原本句子的一个语义,所以我们允许有一部分内容它是可以重复的,这是第一个部分。第二个部分,那咱们就是我们的这样一个嵌入的一个模型,那这个嵌入模型咱们用哪一个?咱们在这里直接选择用嵌问的这个 text 的 embedding v 三的这样一个模型, 再接下来就我们解锁的这样一个设置,那这个解锁我想也是千问的。好,其实这个权威解锁还是混合解锁,其实这个你随便点一个,你看你需要哪一种都可以,因为后续我们会去做一些测试。好,这地方咱们就可以去保存了,比如说我选混合解锁保存并处理好,我们就可以看到这边有个进度条,现在是百分之零,现在他就告诉我们, 它正在把我们的这个 pdf 文档进行一个向量化的一个嵌入。好,现在马上就要这个嵌入完成了, 没问题,我们稍等一下。好,现在已经完成了。好,在完成之后,同样的我们点击这个知识库, ok, 刷新一下,现在有了,来点一下这个文档,点完这个文档之后,那么我们可以看到这个地方它会有一个召回测试,能看得见吗? 好,那么在招回测试这里面我们就可以去进行这样一些数据的这样一个啊查看。 ok, 好, 这个地方也有我们对应的这样一些内容。好吧?这个就我们分段好吧,比如他分了一百个分段,每一段它里面大概是一些什么样的一些内容,我们都能看得到。招回测试,我们比如说这个 ai 大模型来,我们直接进行测试,看它混合解锁能不能解锁到。 ok, 那 我们可以看到基本上很多内容它都能够解锁到些这样的一些数据。好,那这我们的第一步咱们就已经完成了,因为现在咱们的知乎酷已经有了。 那有了知识库之后,接下来我们点击这个工作室,因为在工作室的这样的一个页面,那么我们就能够去做一些事情了。比如说我们可以去创建某一个应用,那我们先创建一个空白的一个应用,那这个空白的应用我们首先可以来思考一下 它的类型是哪一些类型?比如说它是一个简单的聊天机器人,还是说一个具备推理和工具调用的一个智能助手, 还是说它是一个文本任务生成的一个 ai 助手?那这个我们可以自己去选择,那我给他建议是,那如果说你是第一次,你可以先创建一个聊天助手进行一个尝试,那现在我们创建一个 a, 检测我们的一个智能体的一个应用,那这个应用比如说我们可以选择叫做 法律咨询大师。 ok, 我 们点击创建之后,那么我们可以看到我们就会来到我们对应的编排的界面当中来。那在这个编排的这个界面当中有几个部分要给大家讲一下。左边的那基本上就是我们的一些相关的一些内容,一些工具的一些使用,比如说提示词, 你的这个智能体他的人设是什么?他具备什么样那些能力,他的输出应该是什么样的?他有哪一些事情是不能做的?那这个地方你要给他写清楚。第二个来资库,这个智能体他能够去使用哪一些资库?能够去调用哪样的一些工具, 对不对?这个地方我们都可以去给它标注槽。那右边主要是我们调试,我们可以来完成这样一个沟通的一个过程,你在左边完成了这样一些配置之后,我们在右边可以马上来进行一个测试。好,包括像我们,我们我们的大模型的一个设置啊,这个地方都是可以去选择的,比如说我们因为这样我全是千问系的, 如果说你是第一次打开这个界面,你可能需要去选择一下,配置一下千问的 api k, 那 在这个地方,因为我们只是一个测试的这样一个应用啊,所以咱们就不太写这个,就不写很多的这样一个提示词了啊。我们就简单的给大家这边写一下。 好,我们让他帮我们去生成一下。好的,这边其实生成是有问题,但是我们我们先不管它。 ok 啊,因为这边还会一直卡住啊,因为你生成这个东西之后,那我们重新来一下,我们这个地方随便写一个,直接把这个内容复制过来,或者我们再写一个 法律案件咨询。 ok, 可以 了。好,我们对方点歌重新开始,我们先问一下,看他能不能正常的回答,可以看到有问题没有?没问题,对方他已经开始深度去思考了。 ok, 好, 那这个地方可以接下来我们来选择这个支库,当然我们来做一个简单的一个测试,因为这个支库我们已经添加成功了,那么要用起来。好,我们先问一下,比如大家很多同学感兴趣了,老是破坏计算机安全,怎么判?判几年? ok, 来,我们先直接问。好,那么这个就是他的一个正常的一个基于模型原有的一个能力来进行的一个回答。大家可以看到,比如说他是两个条款,比如说刑法, ok, 他 里面那些规定,这个响应速度有点慢。 好,这个就是没有使用我们这个知识库的这样一个回答,我们这边直接停了。好,停完之后接下来我们选择这个知识库来看一下,知识库里面这里有三个选,第二个是一个实际的一个案例,我给他去下载了。好,我们重新开始。 ok, 好, 我们发给他 这个地方,他还是一个深度思考的过程,咱们暂时先让他先先思考。 ok, 好, 刚才这个地方因为它没有去使用咱们这个知识库,所以说我们直接把它清掉,重新开始,我们把这个模型,我们重新选择一个叫千问 plus 的 这样的一个模型,选择这个模型我们再来问它同样的这个问题啊, 因为有一些模型它并没有去 好这个地方,回答有点不一样了。 ok, 好, 那这一次我们可以看到它已经去使用了咱们这个支库,并且我们可以点开。好,我们这个 qry, 是 咱们的一个问题,响应,这个响应是什么意思啊?响应我们经过切片之后的一些内容,我们可以看到根据我们的支库对于我们 破坏计算机信息系统最怎么去处理的。好,它的一个引用。 ok, 好, 那么这个就是我们本地的这样一个支库。当然 对于一个真正的企业级 rec 项目来讲,有没有这么简单的?那肯定没有,所以我们在这个地方还有很多的一些功能都是需要大家去注意的, 比如说我们日制的一些基本的一些信息监测。好吧,所以其实对于 defi 这个平台,就对于个人用户乃至于我们中小型企业来讲都是非常好的一个平台,因为它是开源的,所以我们很多的一些业务都可以集中在这个平台去完成。 那对于知乎我们像刚刚讲到了我们再去做一些复杂的,因为 reg 它的难点其实就在于如何去进行高效的、有质量的解锁。所以一方面呢,我们要选择我们对应的这样一个 处理的这样一个解决方案,比如说你到底要怎么去解锁他,那其他的另外一方面也需要我们去不断的去优化我们的一些,像嵌入模型也好,像我们一些解锁的算法,排序的算法也好,这一些 都是我们需要在实际的业务当中来进行不断尝试的。 ok, 好, 那我们本节课的内容我们就给大家讲到这里。

如果你在 ai 圈经营一段时间,你一定知道 andry karpsei, 他 不仅是 openai 的 创始人, 前特斯拉 ai 总监,更是一位拥有顶级教学天赋的工程师。很多人在刷他的 youtube 视频,比如著名的 z o to heal 系列时,会产生一种强烈的共鸣, 他怎么能把这么复杂的东西讲得这么透彻?而 github 上的 andrew yukuba skills 项目,以及他公开的学习路径,实际上就是一份顶级 ai 工程师的能力图谱。他不是一个简单的代码库, 而是一套关于如何从底层构建认知的哲学。大多数人的学习路径是,安装库,调用 a p i 调餐,运行 copy c 的 路径式数学原理,手动实现微型版本,理解每一个梯度地如何流动构建复杂系统。这个项目的精髓在于, 如果你不能从零开始用拍赞写一个反向传播 back propagation, 那 么你并不真正理解神经网络。我们可以将这个技能数拆解为四个关键维度, 这也是该项目潜移默化引导我们修炼的功力。在 microgrid 这个项目中, carpez 演示了如何构建一个极简的自动微分引擎,生动比喻,这就像是在学习造汽车之前,先去研究怎么锻造一颗螺丝钉。核心技能,标量梯度计算图 computational graph 练式法则感悟当你亲手写出 self grad 加等于 prep grad self backward 时,深度学习中那个神秘的反向传播瞬间变成了简单的加法和乘法。它并不直接让你用 import transformers, 而是引导你一步步走。 diagram gives m l p, gives n n gives transform 关键点,它会详细解释 attention 注意力机制到底在算什么。 它本质上就是一个根据相关性进行加权平均的操作。实战感。这种学习方式让你在面对 g p t 四这种巨兽时,心中依然清晰地知道,它内部其实就是无数个矩阵乘法和 softmax 的 堆叠。 capris 极其强调数据质量。在 nano g p t 中, 他展示了如何处理 tokenization, 如何构建高效的 data loader 金句。代码是次要的,数据才是灵魂。技能点, bpe, 分 词、张亮、形状、 tensor、 ships 的 变换、显存优化。最后,他会展示如何将模型权重保存加载,并在一个简单的循环中生成文本。这种单到端 end to end 的 能力让学习者不再是跑通了 demo, 而是具备了开发产品的能力。 很多人以为自己懂 transformer, 其实只是懂怎么调用 hugging face。 通过这个技能路径,你会发现自己之前的认知漏洞,并用代码实现来填补这些漏洞。 capacy 引导我们思考, 如果我没有 petouch, 我 该如何实现这个功能。这种思考方式能让你在面对未知的新架构时,能够迅速拆解其底层逻辑,而不是盲目搜索。教程无论是代码风格还是讲解方式,该项目都追求 用最少的代码表达最核心的逻辑。这种极简主义让学习者能专注于算法本身,而非被复杂的工程框架所干扰。如果你想复刻这种学习路径, 建议采取以下步骤,第一,不要跳步。即使你已经会用 pie torch, 也请尝试用纯拍赞实现一个简单的线性回归。第二,手绘计算图, 在写代码前,在纸上画出张量的维度是如何变化的?例如, batch sack under school lamb and bed under school dam gives batch sack under school lamb head head under school dam。 第三,边看边敲, 观看他的视频时不要只做观,重要在那行代码运行出结果之前,先在脑中预测结果。第四,尝试破坏,试着修改一个参数, 看看模型为什么崩了。理解崩溃是通往理解成功的唯一路径。 android ucapc skills 不 仅仅是一套技术战,它更像是一次认知升级。 它告诉我们,在 ai 时代,最强大的竞争力不是掌握某个工具,而是拥有能够快速从底层原理推演到顶层应用的能力。现在,关掉浏览器,打开编辑器,从 import random 开始,构建你的第一个神经元吧。

欢迎体验 buglab 再给您介绍下 wiki 功能。创建 wiki 需要用到我们的知识库功能。 知识库支持员工提前将产品知识分门别类整理,具备和非书 notion 相当的编辑和管理能力,是独立的信息管理模块。 如果需要将知识库内容对外展示,只需在 wiki 模块选择模板并映设对应的知识库即可。 比如映设产品知识库后,选择合适的首页风格,就能快速生成对外的 vicky 门户,相当于给知识库套上了可视化的展示外壳,生成后还能在站点管理中调整页面风格、 排版布局、主题颜色等所有配置都会实时同步到前端。这是我们 viki 的 核心创新点,实现内容与站点分离。传统 cms 是 内容和界面绑定的,而我们的 viki 中,内容存储在知识库,纯粹的信息在体, 站点只是展示在体,同一批知识库内容可匹配不同模板,生成多种展示形式。比如,除了常规 viki 门户 还能生成 chat 聊天界面,集成到软件系统或微信公众号的聊天窗口中,给用户提供多场景的交互体验。除了 wiki, cms 功能也很强大,可实现任意自定义界面。我们的客户常常用它做官网展示服务项目、 产品信息、新闻资讯、视频内容。也有客户将其打造成小程序风格的内部资源平台,方便员工查询产品案例资料。 还有客户用它做大型资源管理门户,比如将几十 tb 的 图片资源通过 cms 重新组织展示,支持搜索、批量下载、筛选等操作,解决资源管理难题。

好,最近 ai 做个人知识库这件事非常的火,那么起因就是卡巴基大神,他发了一条推文,他讲了自己用那个大元模型帮他自己做了一个个人知识库后,省了不少的 token。 他的做法呢,就是把所有的那个原文档放在了一个目录下面,让那个大元模型去帮他编一个 wiki 出来。 那么这个 wiki 生成的文章其实就会连接到所有的那个内容,然后之前内容就是它的数据的一些提取,一些摘要等等,它这样就能方便它查看。那么这些文章其实都是以马克当文件格式保存下来的,那么它推荐是用这个 obsidian 这个软件去查看,非常的方便。 嗯,今天呢,我同时还讲另外一个项目, 就这个面向 ai 的 一个 skill。 呃,想法就跟卡巴西大神是一样的,通过这个命令之后就会生成这四个文档。那这四个文档是什么意思呢?我们看一下它的工作原理就知道。 他说了它的 graphify, 它分成两轮再执行。第一轮呢,去做一些确定性的 esd 提取,它会对一些代码做一些结构分析。然后第二轮呢,就会去处理这些文档, 就是提取一些概念啊,关系等等,然后会生成一个图,最后用这个 lighten 设计发现的那个句类算法去生成一个可交互的 web, 可查询的 json, 以及一份我们可以读的 report 等等。然后这就是他讲的一些方法。 嗯,有兴趣的反正就可以这边去细看一下,我们就简单的略过,这就是他讲的一些内容, 真的,这,这就是他的用法,他的什么意思?他这边都讲的非常详细。 ok, 反正各位如果有兴趣的话可以去看一看,谢谢大家。