粉丝272获赞2624

如果你也想和 ai 大 神 copy 一 样,用 opposite 加大模型搭建个人知识库,那么这期视频将会带你用最短的时间把知识库搭建起来,再也不用今天学一个知识点,明天又看了一个新概念,像是学了很多,但是一问呢,又什么都不知道,焦虑感就突然间上来了。 有了这个知识库呢,点连成线,线连成面,才是搭建了知识体系,注意我的用词是体系。接下来我就带大家实操之前的视频分享过如何把收藏的零零散散的网页连封不动地按照原有的格式就可以了。 另外还教了大家如何解决图片链接失效的问题,设置快捷键,一键把图片导入到本地,比如在这里附件这里就存了一个图片,本来这个图片它是一个链接,这样的话就可以把这个图片导入到本地,即便这个链接失效,在你的本地数据库里,这张图片也可以正常的访问。还有就是如何在 opposite 中接入大模型, 也就是装上 kylin 这个插件。这三期视频之前已经发布了,还有不会的同学可以翻一翻实践一下,实际上每一个都很简单。接下来才是本期的内容。如何像夜大神 kylin 一 样搭建知识库?我们装上 kylin 这个插件之后呢?打开这个插件,输入这段提示词,去网上搜索 kylin 的 abc 加大模型搭建知识库的最新的爆火的帖子,然后按照它的思路建立文件夹体系, 然后它会自行搜索原文出处。分机之后,建好所有的文件夹,在左侧,我们可以看到它已经帮我组织好了对应的目录结构,首先是绕这个文件夹,再就是 wiki, 这个绕下边呢,又分了文章、资产、数据和论文。 wiki 下边又分了概念实体啊,招标,还有啊关联关系分析,还有 index, 还有 log。 再就是一个 schema 文件,这里边有个 cloud 的 文件,这个文件就是定义如何维护这个大模型搭建的知识库的。即便你不安装 cloud 点这个插件,在 cursor、 cloud code 这些工具中,也可以按照这个组织知识库的规范嵌入新的概念实践方案,这些知识,还有论文这些都可以被嵌入。 那除了建好了文件夹,它还新建了两个文件,一个叫大模型 viki readme, 一个是大模型 viki structure。 这个 readme 呢,它是介绍知识库的总体设计的。 这 viki structure 文件呢,是介绍知识库的知识组织方式和文件夹的设计。如果不懂的话,可以先看这两个文件。接下来演示一下。当你拿到一篇新的论文,想要学习一个新的知识,收藏了一个很有价值的网页,或者说拿到了别人的笔记,导入到我们本地之后,如何将这些知识组织进我们的知识库? 我们需要在绕这个文件夹下对应的目录,准备好你收藏好的学习资源。比如说这里我通过插件导入了这些原文件,然后在老点中输入这段提示词,请帮我摄入绕这个目录中的新的文件。然后 ai 会分析新增的文件,将其涉及到的概念、原理等知识点组织到下面的 wiki 文件夹下对应的目录,比如说概念文件夹、实体文件夹、 摘要文件夹、综合分析文件夹,还有缩影文件,缩影文件是为了大模型更快的了解到你问到一个问题的时候,应该选择性的加载哪个文件的全部内容到上下文,这样在第一次只加载缩影,搜索的效率就会极大的提高。以上就是如何用 obsidian 加大模型搭建个人知识库,后续向大模型提问题,它就会根据知识库的内容作答。 如果有你的知识库中还没有覆盖到的内容,你也可以让 ai 补充完善你的知识库,它还会自动的更新所有影响的位置和缩影,这就是我的知识库。目前加入了这些文件,然后生成了一些概念, 还有实体,比如说概念中涉及到了 harry sanderson 是 什么,然后下边呢,会有一些实体,比如说 osmotic 这个公司啊,还有 open cloud, 这是这个实体。再就是摘药,比如说我在调研 cloud code 的 相关的一些资料,还有就是概念之间的对比,比如说我想了解 harry sanderson 和 opencloud 到底有什么关系, 那他都会在这里给我进行一个总结,这套方法简单实用,而且完全免费,我已经用这个方法实践了一段时间了,真的感觉学习新知识有了章法,效率也极大的提高了。关键是我清晰的知道我学了什么,而不只是停留在像是学了很多零散的知识,实际呢又说不上来的这个阶段。如果说这期视频对你有用,记得点赞关注,我们下期再见。

你是否也好奇过,像 capassi 这样的 ai 大 脑是怎么用 ai 管理知识的?他最近发布了一个叫 l l m wiki 的 框架,火爆全网。我读完技师上的原文后发现这不是什么复杂的新技术,而是一套理念和行为准则,也没有什么高深的技术门槛,每个人都可以借鉴到自己的工作流里面。 嗨,你好,我是 blink, ai 加知识管理的实践者。接下来我就来解读 capacity 的 这套框架,并展示我在 opposite 中搭建的实力。最后再聊聊我发现的三个容易被忽视的盲点。这套框架其实可以简单的总结为三种文件,三个日常的操作和三种查询题校的工具。 我们首先来看三种文件,第一种叫原始资源,也就是 raw resource, 这里呢就是存放你收集到的原始资料,比如 pdf、 文章、视频等等, 它们构成了你知识库的原材料仓库。第二种叫维基文件,也就是 the wiki, 这些文件主要是由 ai 主导生成和维护的, 它会读取你在原始资源里面的资料,然后提取资料中相关的实体或者概念。比如实体就可以是人公司、项目或者课程,那概念的话可能就是一些方法论、技术名词这样的一些东西。 ai 为每个概念或者实体创建一个 wiki 页面,并且在它们之间添加相互之间的引用关系,这就是由 ai 主导生成的 wiki 文件。第三种文件就是规则文档 the skin 码, 它就是你和 ai 共同约定的规则,告诉 ai 从 raw 到 wiki 加工资料的结构、流程和规范,这个规范随着实际的使用,你也需要与 ai 一 起持续去维护和优化它,这三种文件加在一起就是 kapi 的 ai 知识库的基石。 好,接下来我们来看三个日常操作。首先是摄取 ingest, 就是 把新资料喂给 ai 后,让 ai 读取它,之后更新 wiki。 一 篇原始资料进来, ai 就 会根据前面生成的 schema 文档去提取 并提取出相关的实体概念,去新增或者更改现有的 wiki 页面,以及去更新缩影页面和记录日制。第二个日常操作就是问答 query, 就是你日常的问题,让 ai 基于深层的 wiki 去提问,同时给出来自于 raw resource 的 来源引用。这样的话就是避免了每次都要去读取原始资源, 因为 wiki 都是原子化关系化的,查找起来效率会更高。如果在问答的过程中产生了高质量的回答,那又可以让 ai 把它添加到新的 wiki 里面去。第三个操作是审查 link, 也就是定期让 ai 给你的 wiki 做体检。例如让 ai 扫描所有的 wiki, 查找页面间有没有明显的矛盾,有没有被新的资料推翻的,旧的表述,有没有孤立的页面,也就是没有与其他任何页面建立双向链接的页面,或者有没有提到了概念但是没有创建链接。 也可以让 ai 生成一些建议清单,例如哪些页面建议合并拆分等等。 好,那我们再来看三个查询体校的工具。第一个是 index, 也就是让 ai 自动维护一个叫 index 的 页面,上面会列出全部的 wiki 页面的名字和它的一句话摘要的介绍。这样的页面是为了方便 ai 快 速解锁。 当你向 ai 提问时,它可以首先来到 index 的 页面去浏览一番,找到可能最相关的一些 wiki, 然后再进入到 wiki 笔记里面进行进一步的查询。 第二个是 log, 就是 ai 自动按照时间记录他的每一次操作,例如几点几分他读取了某个原始文件,然后根据这个文件生成了哪些实体,哪些概念,然后又为他们之间创建了什么样的双向链接等等。 这个记录就是为了方便让 ai 知道你在某个时间段是研究了什么话题,做了什么行为。第三个是 rag, 当你的 wiki 页面大于一千个时, ai 还是用 index 页面的方式去进行浏览,解锁的话效率就会变低。卡帕索就建议使用更专业的本地搜索工具,例如它推荐的 qmd 就是 一个支持 bm 二五和向量混合式搜索的本 地工具,也也支持 c l i, 这意味着 ai 可以 直接调用这个工具进行查询。 好,接下来就直接展示我在 obsidian 上搭建的实力。首先按照 capacity 的 理念,我创建了一个 raw 文件夹,里面是存放我的原始 资料,然后又创建了一个叫 wiki 的 文件夹。根据 capacity 的 建议呢,这个 wiki 里面还分几种类型,包括实体概念、总览、对比 以及对原始资料的概述。然后创建一个 index 页面,里面列出所有的 wiki 页面,方便 ai 解锁。再创建一个 log 页面, 存放每时每刻的操作记录。那接下来就是最重要的 the schema, 那 我是 ai 辅助,结合自己的一些使用习惯创建了 schema, 里面就定义了我的整个文件结构,比如 raw 里面存放的是原始资料, wiki 里面又分几个子 文件夹,每个 wiki 上面需要增加一些 front type, 这也是我自己的习惯,特别是这个 type 要区分哪些内容是 ai 生成的,哪些是我自己创建的, 这样也会方便以后的一些管理好。然后这里就约定了我们的三个工作流,也就是前面提到的社取问答和审查。最后就是约定一些风格,比如说怎么命名内部的链接,要使用 obsidian 的 双向链接的,这个规范涉及到笔记之间的关系,查询时需要优先使用 obsidian c l i 的 这个视力的 skin 其实也并不复杂,但是它产生的效果怎么样呢?我们马上来体验一下。首先我在这个 raw 里面放了两个原始资料,一个是 openclaw 陈皮书,这是一个一百多页的 pdf, 介绍了 openclaw 怎么安装,怎么使用。第二个呢,就是 youtube 上一个介绍 pai 的 一个视频, 就是 ai 人生管理系统,这个视频也是讲的非常的精彩, blink 也是受到了很多的启发。然后这个页面是这个 youtube 视频的文字转录稿,那我是使用的 notebook l m 去转录的,然后粘贴过来。好,现在已经万事俱备了,就差开始了。 来到我们的 skype 页面,打开 cloud 点插件,当然你不用 cloud 点,用其他任何的 ai agent 也是可以的,我们就可以直接开始口述,请根据 skype 的 规范,针对我弱文件夹下的两个文档进行分析拆解,并创建出相应的 wiki, 然后以及建立这些 wiki 之间的关系。 接下来我们就来看一下当时震撼到我的 ai 自动生成 wiki 的 录屏回放。 好,现在经过了十几分钟, ai 把这个 wiki 已经创建完毕了,我们可以来看一下它的成果。首先看一下概念,创建了这么一些,比如 ai agent, 这里介绍了 ai agent 的 一些摘药,然后相关的文档加上了链接啊。然后比如说 skill 系统,这里也提到了 openclaw, skill 也有相关的 其他的页面的链接。我们可以通过查看一个页面的局部关系图,你就可以看到这篇文档还链接到了其他的哪些文档,可以在筛选里面去开启这个深度,也就是链接到的文档还链接到哪些文档,关系还是挺复杂。比如说 skill 连接到了四层记忆,他又关系到了向量记忆搜索, 那我们又可以来到向量记忆搜索这个页面,也可以看他的相关的介绍。你看这里还提供了一些。呃,一些代码段,那我们可以再来看一下实体, 比如说人物,这边有 peter steinberg, 龙虾的创始人啊,这边就是他的一些介绍,包括他的一些核心理念,京剧,对吧?一些哲学,呃,包括他的一些项目历程, daniel mister p a i。 的 作者, 那项目上也有,比如说龙虾,还有一些组织,比如 open ai 啊, sorbike。 对, 然后这有些栽药,比如说对于 open core 的 安全风险,这里还专门进行了一个总结。 open core 生态系统,感觉这个生成的质量还是挺高的,就是它把很长的一个 pdf 的 文档拆解成了原子化的概念实体, 以及它们之间的这些错综复杂的相互之间的关系。 source 就是 对原始资料的栽,要帮助你快速了解这个资料是讲什么的,这 这就是 wiki。 然后我们就可以基于这些 wiki 来进行提问,那你就可以用 ai 告诉他,在 wiki 这个文件夹里面,请基于这里面的笔记来回答我的问题。 例如我的问题是龙虾 open colo 里面有一套记忆机制,人生管理系统 p a i 里面也提到了一个记忆机制,那么它们两者的记忆机制之间是有什么样的区别?那 ai 就 会基于这些资料给到我答案,如果觉得回答的质量不错的话就保存下来。比如说我把这个记忆机制的对比整理成了一篇新的 wiki, 就叫做记忆机制对比。 p a i vs openclock, 先讲解了 openclock 的 四层记忆机制,然后讲解了 p a i 的 文件系统优先的记忆 机制,然后进行了两者的横向对比,应该说非常的具有实用性的好。然后我们刚才演示了怎么样摄取,就是从我的一个 pdf 文档,一个 youtube 的 视频文字稿拆解出了这么多的 wiki, 然后问答,就是我基于这里面去询问他两者的记忆机制有什么区别,然后他给到我一个回答,然后我又把这个回答添加成了一个新的 wiki。 那 么关于审查的话呢?就是如果我之后再添加新的资料进去,可以让 ai 比对前面生成的 wiki 啊,如果有新的孤立页面出现,那要怎么去处理这些孤立页面等等。 然后关于 index 和 log, 我 们可以再看一下实际的例子,那这个就是 index。 呃,这里面就是 ai 自动维护的一个页面,所有的 wiki 页面都分门别类的列在了这个地方,然后有链接可以直接点过去。一句话的简要的摘要,如果 ai 生成了新的 wiki 页面,就需要补充新创建的 wiki 页面的 index。 因为 index 相关的要求我是在 schema 里面提到过,每次摄取新资料的时候都要去维护 index 和 log。 然后我们再看一下 logo, 我 进行了两次的摄取,第一次是针对 oppo cola 的 这个 pdf, 然后他做了什么操作,创建了哪些相关的页面,创建了二十个概念,创建了五个对比等等,然后最后有一个统计汇总,他都把这些东西记录在案 好。然后这个资料的话,后续更多的是给 ai 看的,那 ai 就 能知道。先扫描这个目录,如果我想知道你五天内干了什么,前天干了什么,那我就可以去找这个日记。 好的,刚才我们已经从零到一,搭建起了一套知识图谱,你是否觉得这样的一个方式很酷呢?确实很酷,但是我要给你泼一个冷水,毕竟我不是一个炫技博主,我要分享的是真正能够给你带来实际价值的知识管理。 我会提出三个建议供你参考。首先,如果我们本来就要学习某一个领域的知识,那么原始资料可能比深层的 wiki 更适合你学习。 比如 opencloud pdf, 它本身就是一个教程,它的章节目录就是从浅到深的结构,那你按顺序去学习的话,是最适合初学的方式,就比你一个一个的去看单个的 wiki 的 文档,是更加适合初学的。又比如这个 youtube 视频, 视频的作者本来就是用视频的方式循序渐进,娓娓道来的给你讲述它的系统。如果你是从零开始想学习这个概念的话,那你先耐心的完整的看完这个视频,应该是效率最高的一个学习方式。 如果你已经对原始资料进行了一个完整的学习,学习完以后你再来回顾这些 wiki, 再来去找他们之间的联系,这就是更适合回顾复习或者总结的一种学习方式。也就是说你是一个从零开始的人, 你可以先去看原始资料,是更适合入门,更适合初学。那初学之后 ai 生成的这些 wiki 的 知识图谱,它是结构化、原子化的文档,它更适合你在后续进行回顾和总结。那 第二个建议我觉得也很关键,就是 ai 生成的 wiki 你 需要去验收,不要无脑的囤积,只有在验收了这些文档以后,发现了问题, 并且持续改进,你才能生成越来越多的真正对你有用的,能够指导你决策的内容,而不是持续的囤积了一堆很完美的东西。但是你从来不用也不看啊,如果只是囤积的话,就犹如你请了一个替你健身的机器人,每天在跑步机上跑步,但是你自己的身体有变得更健康吗? 我举个例子来说明就知道了。我现在生成的这个微克里面,我对这个地方就不太满意,就是他在每个页面的底部就会有一个相关页面,我练了一些别的页面,那比如说像这些地方的链接有一个上下文啊,就说这里是因为什么什么相关,所以详见啊,什么文档,这里是有一个叫做 呃,上下文关系的描述,那这里就没有描述了,为什么要念到这个文章?不知道,对吧?他们很多地方都有, 那所以我接下来我可能就会去改这个地方。我就说你每当链接到其他文章的时候,你都得有一个链接原因的一个描述,对吧?比如说你上面说了一个什么什么东西,然后你说详见什么,那这就是一种,呃,为什么要链接到它的一个关系?对,那像这些相关页面,你要么就补充链接它的关系,因为什么? 要么你就不链接?对,我觉得这个就是说你要去持续的去跟 ai 去一起改进之后生成的这个内容,这样才能产生真正的价值。 那第三个建议就是现在已经有一个事实就叫做你创建的内容不是只是给你自己看了,而是现在是要给 ai 看了。比如说 capacity 这套系统里面的 index 和这个 log, 其实它的设计初衷就是拿来给 ai 看的。 那又比如我自己喜欢给笔记加上一些属性,例如清楚地注明它的 type 是 concept, 就 为了后续去区分哪些内容是我主导编写的,哪些内容是 ai 主导生成的啊?这个很重要,我是很担心这两类混在一起。 这个 summery 也是为了方便 ai 去解锁而创建的一个自断,我们会需要有越来越多的日常的琐碎的操作要让 ai 来帮助。比如说我们要定去去检查文档 这种就是又日常又琐碎,但是对于 ai 来说又比较容易的事情啊,那它可能就很适合交给本地大模型去低成本的去处理。这个我也在探索,后面也会进行相关的分享。记住,流水的 ai 工具,铁打的个人知识库。我是 bullet, 我 们下期接着聊。

carpathi 最新一条推文炸了,一万四千赞,两万一千收藏。他说最近的投坑消耗方向变了,从写代码变成了管理知识。他搭了一套个人知识库系统,核心思路就六个字,收集、编域、查询。第一步,收集 论文文章。 gitlab 仓库数据集截图全丢进一个。若目录网页用 obsidian webclipper 插件一键转成 markdown, 图片也一起下载到本地。第二部编译, 让 l l m。 增量地把 raw 目录翻译成一个 wiki, 不是 简单的山药,它会提取概念、写独立文章、建分类目录、加反向链接,形成一张知识网络。前端用 opc 电流了,但重点是, wiki 里的每一个字都是 l l m 写的,它自己几乎不手动编辑。第三步,查询。 当 wiki 积累到大约一百篇文章四十万字的时候,事情变得有趣了。你可以直接问 l l m 复杂的研究问题,他会自己去 wiki 里翻资料,交叉引用组织答案。他说,本来以为要上 l l m 自己维护的锁影文件和摘要就够用了。 在这个几十万字的规模下,不需要花哨的基础设施输出,也不是纯文本聊天,而是 markdown 文档。 mark 格式的混帧图表,全部在 opc 店里直接渲染查看。最精妙的一步, 好的查询结果会被归党回危体。知识库越用越厚,你的每一次提问和探索,都在给这个知识库做增量贡献。他还让 l l m 定期跑健康检查、 找数据矛盾、补缺失信息,发现概念之间的新连接,甚至自己 v i p o。 的 一个小型搜索引擎,既能自己在网页上搜,也能给 l l m 当 c l i 工具调用更远的方向,他在想用合成数据加微调,把知识直接写进模型权重,而不是只靠上下文窗口。最后他说 这里面藏着一个巨大的产品机会,现在全是脚本拼凑出来的,如果有人做成一个完整的产品会非常强。

我之前用 notion 见过三次,知识库全烂尾了。不是懒,是维护成本太高了。读完一篇文章,你还要自己写摘要,手动加标签,找到相关笔记,补上,交叉引用。 这些记录员的工作枯燥繁琐,没有终点,人类天生做不长。 capacity 前 open ai 的 联合创始人、前特斯拉 ai 总监,去年提出了一个叫 lmbt 的 想法, 它的核心判断只有一句话,维护知识库最累的那部分工作,恰恰是 ai 最擅长的。 ai 不 会厌倦,不会忘记更新引用,可以一次性修改十几个文件,不需要休息。 这套系统的底层逻辑跟你熟悉的 ai 工具不一样。 notebook、 lm chat gpt 上传文件这类工具用的是 r a g 解锁增强生成。每次你问问题, ai 从原始文档里临时捞几段, 拼出一个答案,问完就散,知识不积累。 l l m viki 不是 这样,他把每一篇原始文章熔炼成结构化的 viki 页面,人物页、概念页、摘药页,然后永久存在你本地。下一篇新文章进来, ai 拿着新信息去更新旧页面,处理矛盾,补充关联。 知识在复利,不是在消耗,具体怎么工作的。系统分三层,最底层是你的原始资料、文章、 pdf、 视频字幕, ai 只读不改。中间层是 ai 全权维护的 wiki, 所有整理工作都在这里发生。最上层是一个叫 cloud 点 m d 的 配置文件,这是整个系统的说明书,告诉 ai 页面格式是什么,输入流程,走哪些步骤,遇到矛盾怎么处理。 每次新开一个 ai 对 话,他先读这个文件,行为就一直保持一致。日常用起来就三个动作,第一个 insert 摄入,用浏览器插件把文章一键剪藏,发给 ai 说, insert 这篇, 它自动生成摘药页,更新所有相关页面,记录操作日记。一篇文章可以触发十几个页面的更新,你什么都不用写。第二个叫 query 提问,直接问 kapiye 都做过什么,或者有哪些值得关注的 ai 产品。 ai 读 wiki 里已经整好的内容来回答你, 不是临时推导,是有积累的。好的回答让 ai 直接存成新的 vt 页面,你的提问本身也在给知识库施肥。第三个 link, 健康检查,定期让 ai 扫一遍, 找有没有相互矛盾的页面,固立的内容,过时的信息,给你一份带修复的清单。搭建这套系统,你需要三个工具, obsolete, 本地 markdown 编辑器,它是免费的,它的图谱试图能把所有页面和引用关系可缩化成一张网络图。随着你的摄入文章越来越多,这张图会越来越密,那是你知识在复利的样子。 opposite web clipper 官方浏览器插件,一键把网页转换成干净的 markdown, 直接存进你的目录。 cloud code, ai 执行端负责读写本地文件,做所有整理工作。整个系统搭建,把 capacity 的 原文发给 ai 说,帮我按这个搭一套,主题是商业、财经和科技 ai, 你 说一句话,目录结构,配置文件, ai 全部生成好。这套系统真正解决的问题不是整理, 它解决的是你读过的东西能不能真正变成你的 r a g。 工具给你的是搜索 l l m wiki 给你的是积累。一个是每次去矿山挖矿, 一个是把矿熔炼成金属永久存着,每次有新矿进来还会重新升级 venom bush。 在 一九四五年就试想过这种私人知识库叫 mymax, 它没解决的问题是谁来维护?八十年后,答案来了。

大部分人做个人知识库,最后都做成了一个更贵的 ig。 资料是传进去了,但每次提问,系统都像第一次认识这些内容。 karpsy 在 二零二六年四月四号发了一篇 l l m wiki 的 gist, 核心不是怎么解锁,而是怎么让模型持续维护一个 wiki。 我 把这套思路直接翻成了 opencloud 的 落地流程。唉, 传统爱奇艺的问题不是不能回答,而是不会积累。今天问一个问题,他去找切片,明天再问一个稍微复杂一点的问题,他又从头再找一遍, 没有编一层,也没有结构。升级 l l m wiki 的 方法正好相反,他要求模型把原始资料持续维护成一个结构化的 markdown wiki。 如果你要把这个东西真正做起来,我建议就按四层理解,第一层是 raw, 原始资料只读。第二层是 wiki, 所有结构化页面都在这里。 第三层是 ages m d, 它其实就是 kappa 文里说的 skimmer。 第四层是 crown, 负责每天和每周的健康检查。前面三层决定结构,最后一层决定这个知识库能不能长期长大。 为什么我觉得这是特别适合 open curl? 因为它不是单纯的聊天入口,它天然把浏览器文件、系统技能规则和定时任务放进了同一个工作区里。 你可以让他抓资料,写 markdown, 维护锁影、跑 link, 还能安排定时任务做知识库体检。我这边实际装的是 open curl, 二零二六点四点二,足够对这条流程做真实落地。 第一件事不是提问,而是建工作区。我的建议是直接把目录分成 raw 和 wiki 两大层,再把 index 和 log 放在根目录, raw 是 输入层, wiki 是 编一层, index 是 入口, log 是 时间线。只要这四个概念没乱,你后面就不容易崩。 真正的关键是 a 卷尺。 md, 没有这份文件, agent 每次都在重新拆你的目录命名和流程。你要明确告诉他, raw 不 许改。 index 必须更新哪些页面 query? 先看 index 高价值问答要回写 analysis, 只有这样这个字实酷才像项目,而不是一串聊天记录。 接下来就拿一篇资料跑第一轮 ingest。 注意,第一轮不要批量为十篇。 理想结果不是它给你突出一篇摘药,而是这一篇资料进来之后,会带动五到十五个页面一起更新,把相关概念、实体和地图页都带起来,这样知识库才是在长,而不是只多了一份总结。 然后是很多人最容易漏掉的一步。问出来的好答案不应该只留在聊天窗口里。比如你让它做一次 open claw 和传统 leg 的 差异分析,这个结果本身就应该保存成 e and s。 只要你做到这一点,知识库就开始真正复利了。最后给他加上 crown, 每天跑一次清亮 link, 每周跑一次深度 link, 让他专门检查过页面过期结论、漏掉的交叉引用,以及哪些页面已经该拆了。做到这里,你的知识库才是从能用升级成能长期长大。 所以这套方法真正厉害的地方,不是把资料喂给模型,而是让模型帮你维护一个持续进化的 wiki。 你 做的不是一个能回答问题的文档箱,而是一个会自己长大的个人知识库。如果你要我下一条,可以直接把 a 键词模板和 cron 规则逐行拆开。

上期视频发布后,有玩家表示奥拉玛推力有点慢,想看看怎么在 c c 中通过拉玛 c p p 调用本地模型,本期视频我们就一起来看一下。首先我们来看一下拉玛 c p p 的 安装与配置。在 github 上找到拉玛 c p p 这个项目,根据 red 中的描述,从 release 记录中找到自己系统对于的软件包进行下载,主流操作系统都支持, 比如我自己就是安装的这个 windows 叉六四库达十三点一的版本软件,下载好后将其安装到磁盘中。 接着需要将软件安装目录添加到系统环境变量,确保使用命令行工具时能正常找到软件提供的 lama clea 和 lama server 等可执行命令。接下来添加环境变量,点击开始打开系统设置, 点击左侧系统菜单滚动到底,找到系统信息,打开后继续点击高级系统设置,弹出窗口中即可看到环境变量设置入口,点击环境变量,将软件安装路径添加到用户变量的 pad 变量中即可。 此外,你也可以直接在此电脑图标上右键选择属性,直接进入系统信息界面,这样会更快捷一点。 环境变量配置好后,打开命令行工具,通过运行 lama 颗粒 version 或者 lama server version 命令确认配置结果。如果正常输出版本信息以及你的显卡信息,则说明安装成功。接着我们来实际运行一下模型试试。 我这里已经下载好了一个千万三点五的 g g u f 模型,大家如果想用可以前往摩搭平台下载搜索视频展示的模型名称即可。我使用的是 q 五 k m 的 量化版本,此外还需要下载这个 m m p r o j 的 文件, 这个文件的作用是多模态场景下处理视觉张亮和文本张亮之间的映射关系。回到文件目录,右键打开命令行工具 运行视频所示命令就可以在命令行中与模型对话了。试试让模型帮忙写一个简单的加法函数,并且要求他用 python 语言来编辑 回车发送模型立刻就有了响应。这确实比欧拉玛要快很多,过程就不给大家展示了,快进看一下结果吧。实现了函数,还主动添加了测试用力。 但是如何才能在 cloud 中调用呢?我们先回去看看拉玛 c p p 的 说明文档,向下滚动,找到拉玛 server 这一小节,这里明确说明拉玛 server 命令可以启动一个适配 openai 规范的大模型 http 服务,这应该就跟欧拉玛的本地服务是一回事了。 回到命令行,按照说明运行一下,看看是什么效果。服务启动后,果然得到一个带端口的 http 服务地址。不仅如此,根据文档所示,我们还可以通过 port 参数指定服务端口,记住,这个服务端口后面配置 cloud code 会用到。 现在我们继续配置 cloud code。 cloud code 的 配置文件通常在用户根目录下的点 cloud 的 目录中 先备份一下,然后打开 settings json 文件,没有的话直接新建一个就可以,这里 autoken 随便填。本地没有较验,被 c u i l 的 端口改成刚才我们设置的四个九即可。模型配置没有用,随便修改一下也会用于确认配置是否生效。 保存后,随便进入一个目录,右键新开一个命令行,输入 cloud 命令,启动 cloud t u i 界面,如果遇到安全检测提示,信任一下即可。通过这里的模型名称可以确认配置生效了。同样,先让它写个加法函数试试, 比在命令行中使用的反应要慢一些。好在还是正常响应了,可以简单检查一下生成结果,再进行一次普通的对话试试,没有问题。托肯正常跑起来了,但怎么确认调用的是拉玛而不是奥拉玛呢? 我是这么验证的,切换回 lama server, 启动窗口,停止 lama server 服务,然后回到 cloud 的 交互界面,再次对话,可以看到 cloud 的 明确给出了无法连接 api 的 提示,至此可以确认 cloud 控制中通过 lama c p p 调用大模型成功了。点赞关注,下期更精彩!


大家好,今天我们聊聊 capacity 最近开源的个人知识库方案,以及为什么说这可能改变了我们用 ai 管理知识的方式。前几天,前特斯拉 ai 总监、 open ai 创始人成员之一的 andrew capacity 发了一条推文, 分享了他用 l l m 管理个人知识库的新玩法。他把这个思路整理成了一个 gift, 短短几天就拿到了大几千个 star。 各路开发者反应非常快,已经有人用 go 写了完整的工具,有人做了 cloud code 的 插件,还有人专门为此设计了新的 i d e。 那 capace 到底提出了什么思路,让大家这么兴奋? 核心就一句话,别把 l l m 当搜索引擎用,把它当知识工程师用。大多数人用 l l m 管理文档的方式其实都差不多。你把文件上传,每次提问的时候, l l m。 解锁相关片段,然后深沉回答。这就是大家常说的 rec 方案。 notebook lm chat gpt 文件上传,大部分 reg 系统都是这个套路。 karpsy 觉得这个方式有一个致命问题,没有积累。你问一个需要综合五篇文档的复杂问题, l l m 每次都得从头来,问完了答案就没了, 下次还得重新推导一遍。知识从来没有被真正沉淀下来, karpsy 的 方案完全不一样,他让 l l m 不是 每次从原始文档里解锁,而是持续里 增量试点,构建和维护一个 wiki, 一个结构化的互相链接的 markdown 文件集合。当你往里面添加一个新的资料来源, l l m 不是 简单锁,引进去等着以后被解锁,他会读这个资料,提取关键信息, 然后把信息整合进已有的 wiki 里,他会更新相关实体的页面,修正主题摘要,并标注新数据和旧结论的矛盾之处。用他的话说,知识编一次,然后持续保持最新, 这才是关键区别。 wiki 是 一个持久的、可复利增长的资产,每加一个新来源,每问一个好问题, wiki 都会变得更丰富。那这个系统具体怎么运作? kapi 把它设计成三层,第一层叫 raw sources, 也就是原始资料层, 你收集的论文、文章、图片、数据、文件都放在这里,这层是不可变的, l l m 对 它只读不写。第二层叫 the wiki 知识库层, 这是 l l m。 生成的 markdown 文件目录,包括摘药、实体页面、概念页面、对比分析、综述等等。 这层完全由 l l m。 拥有和维护,你读它, l l m 写它。第三层叫 the schema 规则文件,它告诉 l l m 这个 wiki 怎么组织,用什么约定。对 cloud code 来说就是 cloud md, 对 codex 来说就是 agents md。 整个工作流围绕三个操作展开。第一个是 ingest 录入,你往原始资料目录里丢一个新文件, l l m 会读这个资料,跟你讨论要点。 在 wiki 里写一个摘药页,更新缩影,更新相关的实体和概念页面,一个来源可能牵动十到十五个 wiki 页面的更新。第二个是 query 提问, 你对着 wiki 提问, llm 搜索相关页面后综合回答,好的回答可以回存到 wiki 里,变成新的页面,这样你每次的探索和提问都在持续丰富知识库。第三个是 link 体检,定期让 llm 对 wiki 做健康检查,找页面之间的矛盾。被新资料取代的过时信息, 没有入列的孤儿页面, l l m。 还很擅长,建议你应该去研究什么新问题。 gaapace 的 实际用法很有意思,一边开着 agent, 一 边开着 obsidian。 l l m 根据对话内容编辑 wiki, 他 在 obsidian 里实时浏览,结果跟着链接点点看,看看图谱,试图读读更新后的页面。 他说了一句话,非常精准, obsidian 是 id 一, l l m 是 程序员, wiki 是 代码库。说实话, 维护知识库最烦人的事从来不是阅读和思考,而是那些琐碎的布局工作。更新、交叉引用、保持摘要、最新标注、新旧数据矛盾、 维护几十个页面之间的一致性。这些活,人类做着做着就烦了,然后 wiki 就 慢慢荒废了。但 l l m 不 会厌倦,不会忘记更新, 一个交叉引用可以一次性修改十五个文件,维护成本接近零, wiki 就 能一直保持健康。 carpezee 还提到,这个思路跟一九四五年 vaniva busch 提出的 memex 构想精神上一脉相承。一个个人的精心策划的知识存储,文档之间的关联,和文档本身一样有价值。 故事没解决的问题,是谁来干维护的活? l l m。 把这事搞定了。从这个案例可以看到一个更大的趋势, l l m。 正在从问答工具进化为知识工作伙伴。不是你问他答,而是他帮你把散乱的信息编成结构化的知识网络, 而且这个网络会随着使用不断增长。每一次探索,每一次提问,都在让你的知识库变得更好,这就是复利的力量。好了,如果本期视频对你有启发,欢迎点赞关注我们,下期继续分享!

哈喽,大家好呀。嗯,这周呢,我在公众号上刷到了一个一篇文章,就是这位叫卡帕西的大佬,他聊了一下自己的 r m 构建个人知识库的一个方案,感觉挺有启发的, 因为平时在网页端和 gpt 还有一些其他地方和 ai 聊的一些讨论的一些东西呢,有时候感觉收获挺大的,但是呢没有注意留痕,过段时间也就忘了啊,或者是在浏浏览网页时呢,看到一些好的技术文章,也因为感觉麻烦,也懒得进行存储和整理 啊,他这道方案呢就是解决这些问题的。然后,然后呢,我也看到一些必战其他 up 主实现的这套 r m 的 v k 方案,但是总感觉呃不太适合自己,所以说今天自己手搓了一套,也加了一些自己的想法和改进的方案, 把一些关键的流程分装成了呃 skills 和 comments, 这样呢使用起来也更加的高效,然后我整体试用下来的效果还是不错的,所以说想给大家分享一下啊,这是它的原文章,然后原文章我们就不看,我们直接看经过这个系统提炼后的内容 啊,这是它的原文,然后现在在我的 office 店里,然后我们看一下它经过这套系统,它把这这篇文章提取成了哪些页面呢?首先第一个就是它对它的一些总结, 然后我们来看一下这个总结里介绍了它的三层架构和三个核心操作。你先看一下架构,它有三层,第一层呢是原始资源层, 它存的都是一些你从网上搜集过来,或者是你自己导入了一些不可一些原文档的呃资料素材,然后呢大有缘模型对它呢只有只读的一个权限,它不能对它进行一个编辑修改。然后第二层呢是 vk 层, 就是大圆模型生成的结构化的 markdown 文档,由大 u l m 呢全权维护。呃。第三层呢是模式层,就是存的一些,就是一些配置文件,比如说 cloud 用的 cloud 点 m d, 口袋用的 agent 点 m d, 然后也定义一些呃 vk 的 结构和工作流, 然后对应的三个三种操作呢?第一个操作是 ingest, 其实这个操作有两层含义,第一层,第一层含义呢,代表你添加新来源,就是说你从网上搜集素材这个过程放到这个原始资源层。 然后第二层含义呢代表就是 r m 从原始资源层提取关键信息,整合进现有的 vk。 呃,然后它整合出的结果呢,可能有多个,然后比如说这个是它总结的一个总结,然后呢其他还有比如说这个在 atis 里还有两个文件,一个是呃对它作者的介绍,一个是它呃对比的另一个知识管理系统的一个介绍。 然后呢还有一个关键是概念,然后它总结了两个概念,第一个概念就是也是针对这套 mm vik 的 模式的一个介绍。 然后第二个概念呢是传统的呃 ig 的 方式和这个和它这种 r m v k 的 一个对比,然后有优点和缺点的一个对比和区别的一个介绍, 然后这个文件呢?呃不是它总结出来的,然后我们后面再说,然后它提到它的三种操作。之后还有第二种是查询 query, 就是你问他的时候,问他一些问题的时候,他会综合这些呃智存的 vk 去回答,如果有好的回答呢,他会回填到新的页面,比如说我刚刚说的这个界面,其实就是我问他,你认为,呃,你这套系统和现有的 lg 系统有什么优势, 优势和劣势吗?然后他就是对他的一些优势和劣势进行一个表述 啊,是,这是他这套系统的一个架构和操作流程,然后呢我没有全全部照搬,然后呢我对他进行了一些自己的改造,然后接下来介绍一下我这套系统的一个操作流程。 呃,这个是我项目的 github 地址,我也会放到评论区,然后它的使用也非常简单。呃,这有一个快速开始的一个介绍,但是在使用前呢,你需要安装几个软件?第一个呢就是 office 点这个呃知识库的管理系统, 然后第二个就是你要安装一个 code 编辑,然后可以是 codex, 然后这个视频呢是用 codex 进行演示的。然后第三个呢,你需要安装一个 office 点的 web cleeper, 一个浏览器扩展, 他的安装呢也非常简单,就是在这个呃浏览这个扩展商店里搜一下,然后就叫这个名字,然后直接安装就可以了。 然后安装之后,安装完成之后,这里有一个图标,然后我们点进去,然后这边有个设置,然后可以把它调成中文的,这样就可以了。 然后还有几个插件, office 的 插件需要安装,然后这些插件我也列在了这里。首先第一个呢,如果你使用的是 cloud 呢,你就得安装这个 cloud 点这个插件, 然后其他的插件呢,都是一些非常基础的插件,如果你是一个 office 的 长期使用者,这些插件基本上你都默认默认会安装的。 好,现在我们来做一下实操。首先呢我们把这个项目克隆到本地啊,我这里已经有了。然后呢我们去 office 店里新建一个仓库, 这里点管理仓库有一个创建,然后我们叫做 excel, 我 选一下它的位置,这里我已经选好了,然后点创建, 呃,我们可以把一些我们已经使用的一些呃插件呢直接迁移过去,比如说这是我之前的仓库,然后里面有一个 office 键的一个配种文件,然后我们把它直接移过去,进行一个替换, 可以先把它关掉,然后欢迎也删了,然后回到我们的这个 github 的 项目,就是如果正常来说我们都是,我们是使用中文的嘛,然后如果你使用的是 cloud 的 话,你直接把这三个文件呃复制过来就可以了 啊,这样的话,呃,我们再重新打开一下这个仓库,直接信任,这样的话它的插件也会自动安装过来,就是说比如我们刚刚说的 cloud 点也会自动安装过来。 呃,然后我们介绍一下这个项目的结构啊,首先我们呃通过一个 web code 再打开,因为 office 里只会显示一些呃 md 文件,然后我们看一下 这个目录的结构,是这样的,首先呢它有一个 cloud 在 这里面呢,还有一个 cloud 和一个 agents 的 文件。 呃,主要也是我们刚刚说的,它是属于模式层的文件。呃, cloud 是 给 cloud 用的 agent 点 md 呢,是给口袋子用的。然后它里面分为两个层,一个是肉层,一个是 vk 层, 我们我进行的改进呢,就是说我们这肉层呢,我们分为了三块,首先第一个是 processed 层, processed, 第二个是 enprocessed, 就是 说我们从网上搜集过来的一些内容呢,是直接先放到这个 enprocess 里面的,就说它是一个未处理过的。 呃呃,我们直接来演示一下吧,然后这里有三篇我已经提前找好的文章 用来测试,然后我们通过 office 点进行一个添加,然后这里有有一个添加的目录,这个目录是可以提前设置的,也是在 office 点的插件里, 就是在这个呃 default 里,然后这里面有一个笔记位置,然后我们直接可以填好是我们的 on process 的, 然后在 raw raw 目录下的,我们可以把这文章加进去添加添加, 我们加了三天,然后看这里面已经有了,然后我们的 vs code 里也有,也也是一样的, 这些素材到完 process 里面之后呢,我们可以看一下啊,这里面下面还有两个 index 和这个 readme 文档,这个属于也属于模式层的一部分吧,它记录了一些呃所有的维护, 然后接下来我们就开始进入了这个 index 的 第二部分,就是说从肉层提取知识到 vk 层,然后这个过程呢,我封装成了 skills 啊,也是一个直接可以使用的命令,然后对应的 cloud 呢是这个命令呢,是放在 comment comments 里面,然后 code 呢的话,它是放在 skills 下面的,其实都是都可以使用的。然后现在我们回到这个, 呃,回到 office 点,然后我们这在这里面呢,我们可以直接可以使用这个命令 insert, 你 在 throw, 这是我的第一个命令,然后我们进行一个等待, 嗯,大概用了七分半的时间呢,他完成了这个文件的处理,我们来看一下他的过程啊。首先如果用户没有指定读取哪些文件的时候,他会自动进行全部读取,然后做分类, 可以看一下他,呃,自己做这个分类,他发现这三篇素材的关系不大,所以说他决定单篇处理, 如果你想批量处理的话,你可以直接指定让他读取哪些文章进行处理就可以了。然后这是他的一个默认的一个分组读取的一个策略。然后大家有兴趣可以看一下这个提示词里面这些。呃约束是怎么写的?呃,比如说,哎,读取顺序,对,是这样,对, 好,我们回到刚刚的这个界面啊,它都取完之后做了几个处理,然后它新增了五个页面。这个时候呢,这些这个 raw 文件呢,进入了一个中间态,叫编辑 review。 这个状态呢,也是我事先定义好的,它写在了这个模式层里面。 它在这个状态之后需要进行一个呃人工的一个 review, 就是 我需要看一下它生成这些东西是不是符合我预期的, 如果不符合预期的话,我可以直接在这个写提示词,告诉他啊,我你生成内容我不满意,请进一个回滚,然后回滚完之后你再进行这个 index。 呃, row 的 时候,你可以加一些你自己的提示词,然后你自己对他的一些呃期望和建议,这样的话他可能会进行一些改正和修正。 然后,呃,进行完这一步,如果我们 review 完这些内容之后发现没有问题,符合预期,我们就进行一个 approve index 一个命令的输入,这个命令的意思就是 呃,就是确认,呃就是呃确认无物,呃它可以,它会就会把这些文档正式地从这个按 process 的 文件夹里迁移到这个 process 里面,然后并更新所有文件的呃,这个呃路径的引用, 然后他也会自己检查一下路径的引用是否进行,是否是正确的,然后这时候他还告诉你队列中还有两篇未处理素材,如果我们想继续处理的话,就直接再进行引引在 start 就 可以了,这样的话进行一个就是一个我们的说到提取的一个过程, 嗯,然后花点时间呢,我们把后面两台素材也进行了一个引用,可以看到我这里面是指定了剩余两篇素材,然后它处理的过程呢?是这样的 啊,它批次是两篇,然后用户指名它就会一起进行处理,然后它创建了这些界面, 然后处理完成之后呢产生了这些页面,也是五篇,然后这时候进行了一个待确认状态,就也刚刚说到编辑 review, 然后我这里看完之后呢,我也进行了一个 approve ingest, 就是 进行确认迁移, 然后它进行一个迁移,并且更新缩影可以。然后我们现在看一下它之后的状态是什么样的呢?就是它产生了这 sauce 里面有三篇,然后它们都是一个简对这个文章的一个总结和概括, 然后 intance, intance 里面有产生了四个这个实体概念,这其实这三篇文章主要讲的什么呢?主要讲的呃就是 clove 四点六模型呢?就是 opu 四点六模型呢?对这个发现漏洞,解决漏洞能力 呃提升了很多,就是它解决了很多问题,但是呢它下一代的模型叫 mesos, mesos pro will, 这个模型呢就太强大了, 他解决了很多,能发现很多这个系,世界上系统就是从来没有发现的领域漏洞,这个问题就很严重。如果就是把这个模型发布的话, 就是可能有一些不法分子呢,会利用这个东西去发现漏洞去进行攻击,所以说,呃,这个 s r p k 公司呢?就决定,呃暂时不发布这个模型,先解决安全的问题,这主要讲的这几个事,然后他也总结概念,呃,这个是 啊,大模大语言模型漏洞发现这是刚刚处理过的,我刚才看过了, 然后我们看一下下几个工,下面几个功能啊,就是刚才还有个说功能就是 quarry, 然后我也进行了一个调用,就是 quarry vik, 就是 我问了他一个问题,就是如何才能解决不法分子利用大模型发现有系统漏洞,有系统的漏洞进行攻击的问题呢? 然后他会总结和这些素材,和这个我的 vk 进行一个回答,然后他会说威胁有多严重,然后具体的防御策略, 然后长期的战略, 其实他回答的很长,你也可以告诉他,你可以回答的简短一点,这这都不是问题。 然后我问了他第二问题,就是埃塞雷克将重心啊打错了,重心放在解决安全问题上,是否有利于我们国内模型在性能上进行追赶?这个是不是给了我们一个时间窗口?整体来说对国内大模型的发展是好还是坏呢?啊?我又问了一下他一个这个问题, 他在分析前会先确认几个事实, 然后然后他也是分类讨论,就是短期窗口,短期的时间他认为是对我们的一个优势,就是他 s r vick 将大量的资源投入了这个防御项目,这个叫玻璃之翼的一个项目, 然后还有安全保障措施的开发,这些工作虽然重要,但不直接提升模型的通用能力,所以说短期来说对国内是个利好,但是长期呢,其实是个利空。 可以看到他一个总结,就是短期对国内模型对国内的模型是个利好。窗口中期呢是双刃剑,然后长期呢?嗯,不太确定。如果国内模型只追求性能而不建立安全体系,可能会被排除在全球高端市场之外。 其实这确实也是一个非常现实的一个问题,那如果国内模型建立了同等水平的安全框架和负责任的发布机制,那可以和 i c o v g 在 国际上正面竞争。然后关键的变化就是 安全能力本身是否可以构成互适合,互成合还是可以被快速复制的,就说他们做出来之后我们直接超过来,这也是一个怎么说呢?也是一个弯道超车,也是我们一个比较擅长的一个解决问题的方式吧。 然后我们说到的最后一个命令就是这个 infopro, 这个命令就是做一个知识的一个沉淀和一个对话的沉淀, 就是他会把,呃,就他,他也说了,就是我会把之前两轮的 quora wiki 产生的高价值分析沉淀到这个 wiki 的 这个这个文件夹里, 然后再确认当前的 v v k 状态,然后它在这里面创建了两个页面。第一个就是我刚刚说的对 s o v k 安全优先策略,对国内大模型的长期的发展的影响啊,它也是和我们刚才说的那个东西聊得差不多。 然后就是安全防御的策略,就是也是短期的行动,还有长期的行动。 所以说这就是我刚刚说的,就是如果我们在网上看到一些有价值的文章,就是我们不好存储和留痕的话,其实这就是一个很好的方式。 然后在最后之后我会给大家进行一个 link week, 这就是我们说的健康检查,就是我们可以让它再看一下这些内容里面的链接是否就是正确的缩影,就正确的缩影到了。 哦,我们可以看一下,这个主要是生成关系图不用的,但是这个东西怎么说来说呢?它用处感觉不是很大,如果内容非常多的话,其实它,呃用处不是很大,就非常混乱,其实我是不怎么用的。 嗯,还有一个就是这个 linter week, 也是对一个锁影的一个重构检查,主要是这地方的锁影对它哪些东西,哦,不是,呃,这里对已经处理的素材 排位处理,是这些都会做一个维护和监控,然后还有一个 log, 就 说每你每做一些内容,每做一次就是操作,它也会记录一个日制,这个日制也是一个很好的一个回溯和就是留痕的一个方式嘛。 这个日制我还没有做规档的功能,就是如果他日制很长的话,其实可以做一个规档的功能,这个后面可以考虑一下,所以成一个呃 skill。 然后我们还想我还想说一点,就是 这五个功能,这五 sksk skills 呢,我已经封装好了,大家可以看一下它的提示词,然后在这个,呃,在我准备的这个配轴键当中就是点可拉的和点扩展的当中呢,我还放入了这个 官方推荐安装的几个,五个,呃,五个技能就是这几个,这几个是官方推荐的,就是 o c 店官方推荐的,我觉得还是很有很有必要安装的,它可以提高你的 o c 店处理新车的能力。 好,以上就是这些就是我介绍的内容,大家有兴趣可以试一下,如果觉得可以的话,觉得挺好用的话,可以在 github 上给我点一下 star, 谢谢啊,谢谢大家。

andrew kappa 的 openai 的 创始人之一,最近在 twitter 上分享了他的笔记方法,引爆了整个 ai 笔记圈。他说把 l a m 也就是大模型指向一个文件夹就搞定了,他管这种方法叫做 l a m knowledge basis, 用大模型来管理个人的知识库。 我顺着他的思路把自己的笔记系统重新搭了一遍,用 obsidian 加 cloud code 打造了我的第二大脑。熟悉的朋友们都知道我是一个 notion 重度使用者,那么今天这一期我会结合 obsidian 和 notion 来给大家演示一下 以往我在 notion 中使用的功能。在 obsidian 里面结合强大的 ai 是 如何来实现大神的这套方法论的。 那我们在早期一直在探索的个人知识库管理的赛道上呢?我们一直在做的努力就是让知识看起来更有系统一点。不管是早期的收藏夹分类,还是我们试图把 啊画面用看板看起来更系统一点,我们都只是在分类知识上下功夫。而卡帕西呢,主张把人从知识分类的这个环节上去把它抽离出去,把这个环节交给 ai, 人呢只需要去囤,不管是网页、 pdf 或者是你的随手记把它囤积起来, 那么中间这一个管理的层面都交给 ai, 它会像给一本书编钻一个目录一样,给你的所有知识编钻一个串联起来的一个图谱。 到第三层就是我们的输出的时候,就是人和 ai 的 一个互动,就是人去问问题,然后 ai 在 调用这个知识库的时候去回答你的问题。 那么因为调用整个知识库它会非常的好, token 耗时也会非常大,所以它会基于我们刚刚它编钻的这个 wiki 层去做相关的搜索,过后再进行进一步的解答。这三个层面的应用我都会一一为大家演示。 我们的知识不是经历过刚刚的一次循环之后就存到我们的知识库里了,而是会被动态的维护。那我们可以去给 wiki 做一个定期的一个 设置,比如说会需要让他定期为我们做一个健康检查,检查里面的知识有没有相背的,检查里面有没有一些空缺的,这些都是 ai 会定期去做的一个维护。 那么随着这样的逻辑呢,他最终会产生一个知识复利的效应,因为你的好的回答好的问题都可以让 ai 在 帮你存到你的本地,时间越长,你用的越多,那么他就会越来越了解你。 每一次和 ai 的 互动,不仅仅是当时的那个对话框,而是成为 ai 越来越了解你的上下文。那么这一部分呢,我会带大家用实操来看一下这个过程是怎么实现的。 然后这里呢,我选举了同一个主题下的不同的几个知识在体,有文章,有视频,有播客。然后我们先来看一下这篇文章,这是一个公众号的文章,然后像以往的话,我会用 september 也是 chrome 的 插件去保存在文章这个类别,这些都是我提前设好的哈,然后它下面有很多字段, 当时的我就需要手动的去稍微关联一下。那么现在呢,你用 obsidian 的 话,也是在 chrome 里面有个插件,直接点击 chrome, 然后它就会自动的帮你匹配好,你只需要先预设好你要存储的路径,然后直接 add to obsidian, 它就会直接帮你 把整个文章都抓取下来,然后它的一些概要啊都是自动的,那么如果你是视频的话,像 youtube 视频,它都可以直接把这个视频的啊这个字幕都能够抓取下来。然后也是同样的,直接无脑的直接 add to obsidian, 保存到你的这个 inbox 的 这个或者是其他的路径就好了, 它也是比较完整的,整个都抓取下来了。那么如果你是像海外的一些文章,你使用了这个翻译的功能, 当下是有中英文的,然后如果你选择保存到 obsidian 的 话,它也是会保存你的中英双语的,比如说像这样子保存下来, 那么关于这篇播课呢?它本身它的中文字里面就有比较完整的知识概要了,所以你也可以选择用这样子的插件形式把这个页面的内容摘取下来。 当然还有另外一种形式就是我之前分享过的,你可以设置一个 skill, 然后通过 notebook lm, 然后这个工作流去让 notebook lm 里面去提取一些关键的信息。那么现在这里呢,我就只用减藏的功能把它先保存下来,那么现在它所有的内容都会在我的这个 inbox 里面, 那你就完成了臀的这个人工动作,那么接下来就是交给 ai 的 时候,那么因为我已经在 opc 里面插入了我的 call code, 所以 我直接点击左侧的直接输入, 请你帮我清理一下我的 inbox, 我 发送给他,他就会去扫描我 inbox 下面的所有的内容,进行以我的标准下的知识划分, 那么为什么说是按照我的规则呢?因为大家可以看到他在清理的时候,我是默认要保存我的灵感库的,因为这个灵感库就是我自己随手写的一些东西,所以我就告诉他,我的灵感库你不要清理,你只需要清理除灵感库以外的东西,那么他每一次清理的时候就保留, 那么在经过刚刚大概两分钟的等待的时候呢,这个清理就已经完成了,大家可以来看一下,他基本上把我刚刚的六条比较碎片化的信息,然后通过一个主题的关联去做了相对应的整理,然后他本次也发现了跟我之前的某一个方法论或者 知识是相关联的,所以他会推荐我进行补充,然后后续的话以及有一些卡片呀概念啊,他也会对应问我是否需要补充。 那么大家应该还记得之前我在搭建楼层的时候,就有单独的把文件夹这个分类标准, 把它单独定义出来,然后把进行各个类型的知识在底的关联,然后我觉得现在 ai 能够帮我大幅的缩小去整理的这个过程,因为它本身就抓住了内容的核心去对我的内容进行分类, 所以以往在 no 圣里首搓的这部分,我也外包给 ai 了,给他展示的他刚刚整理完后,我更新后的 viki 层,他给我做的一个像目录一样的东西, 然后这些他都是带双链的,比如说我点进去他会有具体的内容,然后这些都是来自于我会给他的知识库本身,我给这个知识库也放了很多我自己个人的东西,包括我的 啊,学历背景和职业发展。所以他会结合我的目标和我的背景来筛选出我值得学习的内容。 他每次更新过后,他会着重的跟我说,我需要注意里面的哪些东西,怎么迁移到我目前的工作或者生活中来。 notion, ai 是 有限的。 notion 的 工程师定义了 ai 的 功能可以做什么,你只需要触发预设的功能就好了。但是 obsidian 加 ai 是 无限的,你可以自己写自己的 playbook, 定义 ai 的 行为。 换句话说,用 notion, 你 是用户。用 obsidian, 你 是构建者,但我觉得工具只是影子。这套 role wiki 方法论真正解决的是一个很实在的问题。知识积累和调用之间有一道鸿沟。 大多数的人的知识管理存了不用,用了再找,找了又忘。但如果你真的按这三层走下来,每一天积累的东西都会沉淀到你的 wiki 里。每一张概念卡片,每一个主题的缩影,都是你过去思考的痕迹。 时间长了,这套系统会越来越懂你。你想做什么事,你在关心什么,你有哪些盲区? ai 都能基于你的整个知识网络给出判断依据。 知识复利就是这么来的,不是某一天突然变得更厉害,而是每一篇笔记都在为未来的某一次决策积攒弹药。工具会变,但你想清楚一件事的需求永远不会变。我们下次再见。

你花了大价钱、费了几个月搭的 r a g 知识库,可能从一开始方向就错了。这是前 open ai 联合创始人、 ai 大 神卡帕西最近抛出的一个重磅观点。他在全网爆火的新项目中直言,对于中等规模的知识库,我们根本不需要 r a g。 今天我们就来拆解卡帕西的新玩法,看看他是如何用一套极简架构降维打击传统知识库的。 过去两年,只要做知识库,大家遇事不觉就上 r a g, 但 r a g 本质上仍然只是一个临时抱佛脚的搜索引擎。你问一个复杂问题,他每次都要去海量文档里找碎片拼答案。 他就像一个从不整理笔记的学生,每次考试都要重新翻书,不会把知识沉淀下来。卡帕西的思路极其反,直觉,别让 ai 当搜索引擎了,让他当你的全职图书管理员。他提出了一套叫 l l m v key 的 系统。 在这个系统里, ai 会提前阅读你扔进去的论文、网页、代码,然后主动把它们整理成一套相互链接的维基百科。它会自动写摘要、梳理概念,建立双向链接,不需要你动手排版。 ai 全包了。这套架构非常简洁,完全不需要向量数据库。 它只有三层,第一层是 raw 原始素材层,你把收集的资料全扔进去, ai 只读不写,保证信息不被篡改。 第二层是 wiki, 当新资料进来时, ai 会认真读完,自动提炼要点,创建新词条,形成知识图谱。第三层最关键叫 schema, 也就是规则配置文件。它决定了 ai 应该用什么结构、什么逻辑来整理你的知识,并持续演进。 这套系统跑起来主要靠三个动作,第一是提取新资料进来, ai 融汇贯通,更新相关的知识页面。第二是查询,因为有了结构化的目录, ai 能极速定位并回答复杂问题。第三个动作最惊艳叫质检, ai 会定期巡视整个知识库,找出前后矛盾的地方,甚至主动建议你补充某个缺失领域的资料。听到这里,你可能会问,不用向量数据库搜的准吗?卡帕西戳破了一个真相,对于百分之九十九的个人和中小型团队,你的知识库根本没那么大, 几十万字的资料,现在的 cloud 或 jimmy, 一个上下文窗口就全装下了。而且 ai 自己通读全书建立的缩影,比那种冷冰冰的数学向量剪索要懂得多得多。 我们来直观对比一下, r a g 就 像是月后记坟的搜索引擎,它确实适合处理企业级海量的历史数据,但 l m viki 则是持续引进的第二大脑,它把重点从如何高效找出来,变成了如何持续整理好。 在深度研究场景下,这种自动整理知识的模式体验是颠覆型的。卡帕西在最后还指出了一个即将发生的终极方向, 当这个 v t 积累的足够大,质量足够高时,我们可以直接用它来微调模型,把这些结构化的知识直接刻进 ai 的 权重里。到那个时候,你的 ai 助手不再是去读取你的知识库,它本身就变成了你的专属知识库。

最近 karpathy 提到,他花在 l l m 上的 token 越来越少,是在操控代码,更多是在操控知识。这份二零二六年四月四日发布的 just l m wiki, 讲的就是这件事背后的完整方法。如果你每次提问都让模型重新去文档堆里找答案,那知识其实没有真正积累下来。 karpathy 先点破了大多数人现在的用法。我们把一堆文件丢给叉 g p t no、 波卡 lamb 或各种 r a g 系统,然后在提问时让模型去检测、拼接、回答。这样当然能工作,但它有一个根本问题,每次问题一变,模型都得重新发现一次知识,尤其是那种需要综合多篇资料、多个概念和前后矛盾信息的细问题。模型每问一次就要再拼一次, 答案可以出现,知识却没有沉淀。这篇文章真正要讲的,不是怎么把 r a g。 做得更强,而是换一套思路,在原始资料和日常提问之间插入一层 u l m 持续维护的 wiki。 新资料进来时,模型不是只做缩影,而是会读它,提炼它 关键信息,并入现有知识结构,更新实体页、主题页、摘要页,也标记新旧说法之间的冲突。知识不是每次查询时限拼, 而是先被翻译成一个持续增长的中间产物。文章把结构压得很清楚,核心只有三层,第一层是 raw source, 也就是原始资料库,文章、论文、图片、数据文件都放这里, 而且保持不可修改,它是事实来源。第二层是 wiki u l m 生成并维护的 markdown 页面,占用实体页、概念页、比较页都在这里。第三层是 schema, 也就是一份写给 l m 的 规则文件,比如 agent md 或 cloud md, 告诉模型这个 wiki 怎么组织,更新时遵守什么约定,回答问题是按什么流程来。原始资料是事实, wiki 是 工作记忆, schema 是 维护手册。这套系统最关键的日常操作不是问问题, 而是 ingest。 也就是你丢进一份新资料之后, lm 先读原文件,再和你讨论重点,接着生成摘要页,更新缩影,修改相关实体和概念页面, 最后把这次操作记进日记。 carpa 一 说,一份资料常常会同时改动十几页。 wiki 这里最重要的不是自动化本身,而是这种自动化会把一次阅读变成一组长期可附用的结构,更新你读过的东西,不会只留在聊天窗口里,等 wiki 长起来以后,查询方式也会变。 alan 不 再直接对着原始资料堆作答,而是先看 wiki 里的相关页面,再做综合回答和引用。更关键的是,这些回答本身还能继续写回 wiki。 比如你问了一次比较,分析一次关系,梳理一次结论页,这些都不该像普通对话那样消失,而应该变成新的知识页面。与此同时, carpos 还专门强调 link, 也就是让 l l m 定期给 wiki 做健康检查,找矛盾、找过时结论、找孤而业,找缺失链接、找数据空缺。为了让这件事更稳定,他还建议至少保留 index md 和 log md 两个特殊文件。前者告诉模型知识都在哪儿, 后者告诉模型最近发生了什么。这篇文章最后落下来的判断很硬,人类并不是不会搭知识库,人类只是很难长期维护知识库。最烦的从来不是阅读和思考,而是更新、交叉引用、修正摘要、处理冲突、补链接、记日记 这些机械维护工作一多,知识库就会烂尾。 carabec 认为, lm 第一次让这件事变得现实,是因为它可以稳定地承担这层疏利工作人的任务,重新回到选资料、替问题做判断。 l m 的 任务则是持续整理、连接和维护。 karpa c 刻意举了很多场景,说明这不是学术研究专用套路。你可以拿它整理个人目标、健康记录和日记,可以用它持续研究一个主题、可以边读小说边生成角色、地点和线索的 companion wiki, 也可以在团队里把 slack 会议记到项目文档和客户通话,沉淀成一个会持续更新的内部知识系统。它适合的不是某个垂直行业,而是任何知识会越积越多,但人脑和聊天记录装不下的场景。从公开讨论看,这套方法已经不只是 carabity 的 一个灵感。文件 社区里已经有人用 obsidian 加 agent 的 方式,把 pdf 网页简藏、录音、转写,持续翻译成结构化 wiki, 也有人把日记、笔记和消息记录翻译成个人百科,让 agent 更好理解自己的偏好和历史。这里最值得注意的不是某个案例规模有多大, 而是它们都在重复同一件事。不是把资料堆给模型临时回答,而是先把资料变成一个可维护、可链接、可持续更新的中间层。这篇 just 也给了不少实用建议,但 carposy 明确说,这些都不是硬依赖。比如你可以用 obsidian web clipper 把网页转成 markdown, 用固定附件目录把图片下载到本地,让模型分别读取文本和图片。可以用 graph view 看知识网络的连接结构。可以用 mark 从 wiki 内容生成演示稿。 可以用 data view 根据 friendmaker 生成动态列表。也可以在规模变大后加一个本地搜索工具,比如 qmd。 但这些建议的核心不是某个具体软件,而是让知识以文件形式长期存在,可被版本控制,可被工具处理。 所以这篇文章最值得记住的不是某个县城工具清单,也不是 r a g 已死这种情绪化结论,而是另一层更稳的判断, 当 l m 能持续维护一个文件化结构化可追踪的 wiki 时,这是第一次真的有机会像代码库一样复利。与 此同时, carpa c 也刻意留了边界,这不是固定产品说明书,而是一种模式。目录怎么分规则,要不要处理图片,要不要生成演事业,都应该按你的领域和习惯来定。