给大家来介绍一下那个 treble count, 上次我们给大家介绍过的怎么把 k v catch 做压缩,在相同的这个显存里面,可以让上下文的能力可以扩展到四倍,它是一个在线的 k v catch 压缩的算法。之前我们也给大家介绍过这个论文, google 去搜索他们发布的这样一个论文,目前在开源项目里面,在 v l l m 的 这个大模型推理的开源框架里面,目前它上周已经把它给实现出来了,当然这个实现它还不是一个完全版本,它目前 像通一千万三点五的模型,目前还不支持,因为它是属于混合 transform 跟 member 架构的这种 k v catch 它会比较复杂,所以它还还在实施中,要要支持这个混合模型的这样的一个 tobacon 的 这样一个量化,它可能还要还在开发中,但是一般的模型它不是这种混合架构的,目前已经这个功能已经合并到主干上面,大家可以来进行测试了。我们首先先给大家看一看啊它的整体的实现,我们看看它是怎么做的。首先我们看这张图啊,这张图里面简单的来讲,主要我们 transform 架构里面有 k 向量和 v 向量, k 向量它是用了一种压缩算法,它这里面讲了先通过叫 w h w h t 的 这样一个旋转,再经过这样的一个量化,再经过这个方法的量化,再缓存到它的 catch 里面,这样它会把这个像我们视频压缩一样,它会把这个数据就会压缩的比较小。还有一个 v 向量,它就用这个 我们称之为叫归一化的这样的一个量化,它就直接把它给压缩,也是一样放到这个 catch 里面去,这个是我们称之为叫,这个就是存储 kv catch 存储过程,当我们要解码的时候,那么我们就需要把这个 kv catch 压缩完的 kv catch, 通过这样的一个 catch 把它给拿出来之后,再要经过叫解压的这个过程反量化的这样一个过程,反量化它就会变成这个 qkv, 再经过这个 qkv 去算它的头肯的 这样的一个东西,这个是它的整个一个算法,那么它在 vr 里面还有一个过程,就是叫预填充,预填充它是直接用那个 flash attention 直接的去计算它的 output, 那 这样它的性能会更好一些。它是怎么来看的? 就这个是它整个一个实现的架构,我们发现它的实现的方法跟我们之前的论文里面还是有些差异的, 这个地方大家来介绍一下它这个差异主要还是讲的是什么呢?第一个它是用了叫 w h t 的 这个旋转去替代 q r 这个分解的随机正交矩阵,通过这个方法效率会更高一些。另外它把五 五个操作变成一个,合并成一个,却成的这样的一个柯诺的一个算子,所以它效率会更高。另外它也压缩了这样的一个叫 内存的这样的一个 size, 去减少百分之四十七的内存的浪费,这个是他最主要的,他在里面也发现他们社区在实践里面也发现,相对来讲 vivo 的 精度对推理质量是非常关键的,这个是 vivo vivo 的 量化,你到底用四比特还是用三比特还是用二比特?其实他这个值 对他后面的这样的一个推理的这样一个精度来讲是影响是非常大的。社区他们发现就算你这个值, 这个 vivo 的 这个值被压缩之后,你的相似性跟原来有百分之九十九的相似性,但是如果他的这个比特比较低的话,他也会造成这个模型的性能显著下降,你可以看到这个三比特跟四比特 还是有一个比较大的差异,所以一般建议是用四比特的这样一个 vivo 量化方式,用四比特的这种量化方式,通过归一化之后再进行矫正,或者他这个地方就直接用了一个归一化,那也可以 它 k, 它目前实现了也有几种方式,一种原始的 f p 八,另外一种就用一个四比特的一个军方叉做了一个量化,当然也做了一个 n c 的 一个矫正。三比特影响不是太大,这个影响不是太大,主要是这个 view 的 值,它可能 对后面的推理影响会比较大,那所以我一般用到这个程度就足够了用,用到这个程度是已经够了,或者用这种方式两种 k v catch 的 这种方式,在 vm 里面用这两种方式相对来讲也会比较简单,只要你在模型的这个启动参数里面,你增加这个叫 k v catch e type, 只要你用这个值就可以了。 turbo count k 八 v 四,或者你可以用 turbo count k 三 v 四杠 nc 那 么两个效果,它只是压缩率最好 第一个方法,它的压缩率虽然只有二点六倍,但是它的性能,它对这个推理的性能吞吐量影响是最小的,它在这个里面他们做了一个实验,用英伟达的 rtx pro 六千酷尔的这个芯片去运行通一千万三杠四 b 的 模型,它去比较各种各样的场景,比较少的 短输出,比较长,这个是长输入的 profile, 这个是比较平衡的或者高负荷的这个情况,它测了各种各样的情况,我们可以发现这个 k 八 v 四,就 k 八 v 四的这个方式,它有些时候,特别是在长上下文的这样的一个 场景下,它的性能反而要比贝斯拉要更好。所以我们可以看到它的这个算法,就是昂兰的这样的一个半程压缩算算算法,其实它对吞吐量它其实也是有提高,或者是对延迟是有降低的,也是一个非常不错的非常长的上下文。因为我们现在运行 不管是 ai 写代码,还是要 ig 还是多轮对话,一般情况都是一个长上下文的这样的一个推理过程啊。所以用这种 k 八比四的这个算法会比较优,它可以让我们的上下文可以增加二点六倍压缩,同时它的吞吐量也能达到至少百分之八十到百分之一百,这样的一个吞吐量延迟会更低一点。 这个是给大家就介绍一下,这个是他的命令,你可以看到他用起来还是非常简单的,目前他主要是支持通一千万三之前的这个模型,他几乎都能支持。如果是 像通一千万三点五后或者最新发布的三点六,可能要过一阵子他才能去支持。这个功能应该来讲是非常重要的,非常好的这样一个功能,可以让我们的显存可以更少,支持模型的上下文可以更大。 这个 v l m 里面的这个功能就是 supercon 的 这样一个在线 k v touch 的 一个缓存压缩的这样一个功能,我们就展示给大家,就介绍到这,下次如果等这个 v l m 正式发布这个功能之后,我们再给大家再来评测一下啊。好,今天我们这样一个视频就给大家就介绍到这。
粉丝4.5万获赞33.2万

在前两期内容里,我们深入探讨了写入上善乡和选择上善坊。这一期,我们来学习上善工程的第三个核心操作,压缩。 在开始之前,我们要精确界定压缩的对象,它针对的是那些即将进入上下文窗口原始且未经处理的信息流,其中最典型的就是永常的对话历史或者一次 api 返回的海量文本,其目的是在这些信息进入新一轮调用之前为其降噪和减负。 landchain 把压缩清晰地分为两大类,核心技术,上下文总结和上下文裁剪。我们可以通过宏观对比 来理解这两种策略的本质区别。从核心机制来看,总结是利用大语言模型进行智能提炼,它会理解并重写内容。 而裁剪则是基于规则的过滤,它直接丢弃部分内容。在优缺点方面,总结的优点是智能,能保留核心语义, 但缺点是速度慢且成本高,并且是一种有损压缩。相对而言,裁剪的优点是快速,成本几乎为零, 且对保留部分的信息能做到百分之一百保证。但缺点是比较笨拙,可能会粗暴地丢弃早期的重要信息。从试用场景来看,总结更适合处理那些信息量巨大且非结构化的关键节点,比如处理巨型工具返回结果总结长对话历史。 而裁剪则更适合作为一种常规的、低成本的维护手段,比如管理常规、对话历史,或者清理已消化的旧信息。接下来,我们深入了解这两种策略的具体实现。上下文总结是一种利用 l l m 自身能力来压缩信息的高级技巧,其本质是一个理解并重写的过程。 在智能体的设计中,它有三个非常核心的应用场景,一是总结对话历史。当一个 agent 与用户的交互轮次过多时,我们可以截取早期的对话部分,通过一次独立的 l l m 源调用, 将其提炼为任务概览、关键决策等核心摘药,然后用这份摘药替换掉宕长的原文。二是后处理工具反馈。 这在工程实践中极其重要。当 agent 调用了一个返回海量信息的工具,比如爬取了整个网页,我们不应该直接将几万字的 dtmail 原文作为观察结果喂给 agent。 正确的做法是先通过一个专门的总结提示,对这个返回结果进行处处理,提取出核心要点, 然后再将这份精炼后的摘要送入驻 agent 的 上限薄。三是 agent 间知识交接。在多智能体架构中, 当一个子 agent 完成研究任务需要向主 agent 汇报时,他提交的不应是完整的思考过程日记,而是一份通过总结提炼出的浓缩的工作报告。当然,总结也面临着核心挑战,那就是信息保真度。 正如原文所示的,过度激进的压缩可能导致微妙,但关键的上滑将丢失。这需要我们通过精心设计的压缩 prompt, 并配合分层的记忆系统来管理风险,确保关键的结论性信息能被写入更持久的结构化笔记中, 而不是在对话历史的压缩中被意外丢失。下面我们来看上下文裁剪。与需要 l l m 深度参与的总结不同,裁剪是一种更直接、更机械的过滤方法, 他不改变内容,只决定丢弃哪些内容。主要有两种实现方式,一种是硬编码启发式,最经典最常用的策略就是滑动窗口。我们设定一个固定规则,例如,在上下文中 永远只保留最近的十轮对话,当新的对话产生时,最旧的那一轮对话就会被自动机械的丢弃。它的优点是极其简单快速,成本几乎为零。但缺点也同样明显,这种一刀切的方式可能会粗暴的丢弃掉早期对话中砥砺任务基础的重要信息。另一种是训练一个裁剪器, 这是一个更高级的思路,可以看作是智能过滤。他不再依赖简单的硬编码的规则,而是通过训练一个专门的轻量级的分类模型,来判断上下文中的每一条信息是应保留还是可丢弃。 例如,这个模型可能会学到,如果一条消息是用户提出的核心问题,即使他很老,也不应丢弃。 这种方式比滑动窗口更智能,但缺点是需要额外的模型训练和维护,成本,实现更为复杂。总结一下, 今天我们学习了压缩上下文的两种核心策略。总结是智能但昂贵的精炼适用于高价值、信息量大的场景,而裁剪是快速但机械的丢弃适用于常规低成本的维护。在复杂的 a 阵的系统中,两者往往需要组合使用。至此, 我们已经掌握了写入、选择和压缩这三大操作。但在一个真正复杂的系统中,可能同时运行着多个任务、多个 agent, 如何确保它们各自的上下文互不干扰?这就引出了上下文工程的最后一个核心操作 隔离。下一期我们将探讨如何通过上下文隔离来构建稳定、可扩展的多任务和多智能体系统。感谢各位的观看,如果觉得有用,欢迎一键三连。

antropics 又放大招了, cloud cow work 史上最猛更新,直接把 hr、 金融设计、代码全行业卷翻天! 白领打工人岗位要量一半,五年内投行分析师席位砍一半。二零二六年刚开年, antropics 扔下核弹, cloud cow work 超级升级, 十大行业插件直接上线,从 hr 写 offer、 绩效考核,到华尔街见、财务模型、审交易文件、做路演, ppt 全自动搞定, excel 和 ppt 无缝联动,你一句话分析这份财报,更新模型做总结,换登篇, cloud 自己跑 excel 算数据,拉上下文,直接生成 ppt, 数据一变全自动更新,零切换窗口。金融圈最惨, factset、 msci、 sp global、 lseg 这些大老数据平台全接入实时市场数据、财报、电话会议、 dcf 模型调仓,建议 ai 一 键完成。 以前分析师熬夜干的活,现在对话框里几秒搞定,程序员也跑不掉。 cloud code 新增手机远程遥控,你在星巴克喝咖啡、遛狗晒太阳,手机扫码就能继续操控电脑里的 ai。 写代码、 修 bug、 跑翻译。以前配置插件要懂技术,现在超级简单点模板可高的像产品经理一样,问你几句就自动配好技能命令连接器。企业还能建私有 ai 智能体市场,按人分配权限,超级安全可控。按 self fetch 的 口号, 我不取代你的软件,我只是帮你调度它们。数据还在 salesforce、 google workspace、 fact、 sadly, 订阅费照交。但中间那些拉数据整理格式粘贴到 ppt 的 白领文员、初级分析师、代码仔岗位可能悄无声息没了。金融大 v 一 句话扎心 结束了。五年内投行分析师席位消失一半,对比 open i 更狠,他们直接说要取代 salesforce、 adobe 这些巨头。 antroprax 说,我帮你用 open i 说,以后都归我。 ai 比你快,比你便宜,永不加班,永不抱怨。 你的公司没事,你的软件没事,但你的饭碗可能真要凉了。普通上班族醒醒, ai 不是 工具,是最勤快的同事。他来了,你还在卷加班吗?你岗位会被 ai 取代吗?下方评论区说说你的工作 ai 能不能干?点赞收藏,下期继续扒 ai 职场真相!

分享一个 kol 的 小技巧,在你这个 kol 的 code 里面,使用第三方模型的时候,比如说 deepink 四 v 四 pro, 它明明是有一千个 k 的 上下文,但实际上这里它只会写成两百,为什么?因为 你的这些第三方模型的 kol 它不认识,它并不知道你的上下文是多大,所以它默认都是给两百,直接切成两百,这样的话你问一个问题就能耗掉接近五十,你这个一个对话 基本上四五个问题,他就要被墙压住了,那肯定是很不爽的,那怎么办?有个小技巧,其实就是你要选择模型的时候, 你要跟他讲你的上下文长度是多少,那怎么讲呢?他是这么约定的,你后面跟个中括号就这样子, 如果你是要改成三百 k, 你 就改成这样子,如果你要一千个 k, 你 就直接写成一个 m 就 行,这样子他就会被识别的一千个 k 就是 一个 m 的 上下文, 这样的话,你记在这个里面,可以完整的问他几十次问题,五十次问题,他才会触发上下往下缩,这样的话你的这个使用的会很舒服。对,就这么一个小技巧,一分钟教给大家。


为什么同样是大窗口,代理有的能连跑很久,有的二十分钟就开始绕圈?差别往往不在窗口本身,而在窗口满了以后,系统怎么压这段历史。所以这条视频只讲一件事,为什么压缩器比上下文窗口更重要? 先把两个问题分开,上下文窗口解决的是这一轮能装多少压缩器,解决的是下一轮还能不能接着干。一个是容量问题,一个是连续性问题, 而容量这个问题,迟早会自己找上门。真实代理回合里, system history、 retrieval tools 和 output 会一起去窗口。窗口从来不是只拿来装聊天记录的, 所以在常任务里,压缩不是锦上添花,而是必经步骤。真正的问题不是要不要压,而是谁来压,以及按什么规则压。 那压缩器到底在做什么?他不是简单删几句聊天,而是在把当前工作现场改写成下一轮还能继续读取的短历史。这一步一旦改错,后面轮次看到的就不再是现场,而是现场的一个失真解释。 压错之后,代理通常不会先忘掉走目标。他先忘的是文件路径、函数、签名、错误码,还有刚刚跑过的测试。所以真正先坏掉的不是任务方向,而是工作现场。 这也是为什么很多代理不是停住,而是开始绕圈。他还记得继续修这个 bug, 却忘了自己刚刚读过什么,改过什么,验证到哪一步。于是下一轮又重新读文件,重新跑测试,重新走。就分支 这件事不是体感,而是能测出来很多压缩方案的 instruction retention 其实不差,真正签掉的往往是 artifact tracking 这类现场状态。 把 retention 和 artifact tracking 放在一起看,结论会非常直观,总目标大多还能记住,但和工作现场直接相关的信息掉分会更明显。 所以评价压缩器别先看它压得多短,先看它能不能把关键状态推理延续性和弓箭轨迹留下来。压缩率只是结果,状态保留才是生产指标。 行业里为什么会出现自我摘药、延后压缩、 handoff 和边界触发这些不同路线?因为大家已经把压缩器当成独立运行时系统,而不是一个顺手加上的摘药功能。 但这里还有一个边界必须分清。压缩器解决的是绘画内连续性,解决不了隔夜多绘画和长期经验沉淀,所以 compaction 和 memory 必须分开设计。 如果你今天做代理,我会先做五件事,先保工作状态,再在任务边界压缩,先清理再压做。贝斯兰对绘画内压缩和长期记忆分层设计, 这些动作通常比继续加大窗口更接近真正的工程结法。所以以后再看一个代理系统,不要先问他窗口有多大,先问他窗口满了以后谁来决定什么能活下来,那个决定才真正定义了这个代理的上限。

通过源码谈谈 hermes agent 到底先进在哪里?这个 hermes 它不像普通的 agent 像龙虾那样,就是每次的都是思考完了,然后每次都重新的思考之前循环这个过程,它有一个复盘存储提取的一个过程,相当于一个闭环的状态。 我仔细看了一下它的源码,源码大概核心的源码大概是一万多号,你可以把它的 get 项目发个下来,主要的源码就在那个 y 杠 agent 那 个点文件里边, python 文件里,大家整个项目基本全是 python 写的。首先我总结了一下它的点,七个比较先进的点,第一个就是说它是 热备切换在后在在那个软件工程学有一个叫热备切换,你因为你的服务器,比如说一台服务器挂了之后,你一般肯定会有多台服务器来做切切换,就像比如说你做分布式,你的节点肯定至少要三台,三台服务器是吧? 来作为一个这个热备切换是不是它?第一个就是说当你那个模型报错的时候,它会自动地去切换到一个你可以配置的一个可选的模型的一个链路, 然后它主要会调用这个这个类自己声明这个类你可以去搜一下,就能看一下原版。你刚才说 switch to the next four bag 这个,这个 of the chain 就是 说你有一个模型链路吧,你可以配置多吧,比如说 cloud gpt, 还有 deep safe 这种,然后某一个失败的话,它自动会切换到某 其他的模型,这样可以保持一个服务的可用性。还有就说他这个上下回压缩,他这个做了一个很精巧的点,就说他监控到你某一个模型,当时你的透坑消耗达到最最大量的时候,他会起一个现成, 会将一个比较廉价的小模型来对你的所有的你当前绘画的内容进行一个 summary 总结,然后并将那些总结完了可用的信息,关键信息存入一个长期记忆里面, 这个对应的就是这个,我看一下,你看它这个就是 compress 这个 convention, 那 个 split session in the circle, 这个它存在这个 circle lead 这里面,你看它这个还学了写了,嘿,写的挺搞笑,你看它 inspired by cologne code, 它是这里受了 cologne code 的 启发,是借鉴了它们的实现,应该就是这个 ok, 下一个后面的我就不用指示代码太麻烦了,代码这个代码太多了,一般都好。下面就是一个 b 型操作,你像龙虾这种传统的那个 agent 就是 他的,一般都是串行,他是基于那个艾特来玩那种说他是你,比如说你都是那个输入一个对话,思考、执行,再循环这个过程。其实你有些任务其实是可以并行的,比如说你同时读取五个文件, 你这个任务完全是可以并行的。他做了这一个优化,就说你的你的对话,你的模型的任务是可以并行执行的,下一个就是这个挫折触发,我把它叫为挫折触发。你这个他会统计你与某一轮对话,比如说你想完成一个任务,这个任务可能他重试了很多次, 他会进行,他会统计这个数量,每次试一次,他会那个统计 ctrl 就 会加一。比如说你达到了一个他设定好的域值,比如说五十次或九十次之后,他会认为这一个你执行的这一这一个整长的链路是否具有一个可存储的教学的目的就是说你是否具备下次可用性,就是说他会把这整个过程这个链路给存下来,结果就是一个静默复盘,你每次 在进行这个大模型的绘画的过程中,他会在后面偷偷拍一个呃,独立的一个县城,他来监控整个你整个这一步步对话整个任务的执行的过程,分心这个路径,然后总结一个最优的路径存下来。这就是为什么说这个 hermes 它可以自主学习,它其实就偷偷地在后台有一个现场,它记录了你的思考,思考的过程。 第六步就是这个固知识固化,它会把你那个思考的过程相当于把整个这个步骤给存下来,相当于作为一个 skills 存下来。 下一个就是精准唤醒说你的 skill 存下来之后,下次你在下次同做同样的任务时候,他首先会去查你的 skill 有 没有对应的,可以附用这个实战经验,然后就会重新的直接调用那个不用再走之前的那一步步重试的错误了, ok, 大 致就是这一个结束。

好,大家好,我是小刘。呃,今天我们一起来聊一下在 codex 中上下文管理的一些技巧,那这里呢,我会讲我平时在使用 codex 当中,我是怎样进行上下文管理的。那我们先说一下背景, 什么上下文管理呢?就是我们知道我们在一次对话的过程当中,它的绘画窗口是有限的,可以看到这里是共二百五十八 k, 那 已经使用了三十二 k, 当这个上下文满的时候呢,扣代码,它会自动的压缩这个背景,这样呢我们的这个整个上下文会失真。什么是压缩背景呢?比如说猫和老鼠四个字,那就是我们绘画的主要内容,他会把它压缩一下变成猫老鼠,你看是不是压缩了,对不对? 但这样就会产生一个通病,就是产生 ai 幻觉,那也就是我们的功能开发会越用越不好用,你会发现你跟他说一个点,他就是不明白,然后呢会导致我们很崩溃。 那我们来看一下这个网友是怎么解决的,然后我再讲我自己的方案,他的方案就非常的简洁易懂,就我们都知道每一次对话呢,它会产生一个绘画的 id, 那 我们这次绘画它是存储到我们本地内存当中或者数据当中,这时候我们可以选择复制这绘画 id, 那 这个绘画 id 呢?本身上是一堆的这种字母,就我们扣带子可以根据这个字母找到我们当前上下我们所有对话, 他拿到绘画呢,可能是压缩库的,可能是不准确的,所以呢他就遇到了这个情况,他就把他哎复制到一个新的窗口当中,比如说新对话,这时候你看跟他说对吧?请你帮我进行这个功能继续开发是不是?那这个时候是不是就拿到了我们的青山崖纹?这个也可以,只是说开发的时候,那他需要去浪费更多的图层,因为他需要加载数据库,加一个内存,对吧? 好,首先我先说一下我的方案,就是这里呢,我会回顾一个上下文的文档,进行定期的总结。举个例子,比如说像这个绘画呢,他都满了,那我就跟他说,请你帮我根据当前这一次的绘画呢进行总结出一个 markdown 文件,这个 markdown 文件呢是包含了这一次的一些所有的关键信息,那你可以看我思路这样的,请你帮助我, 请你总结当前项目的关键决策已经完成的部分和代办事项,便于我下次听话加的一定要加这句话,如果说你不加这句话,他给你的可能就是一个总结性的文档,如果说你加这句话的话,他会按照 call 代词能够处理的绘画格式给你一个哎,一个合理的 bug 档,所以就相当于固定的一个格式给他。那如果说,哎,我这时候跟他说这句话对不对? 尽量用五点五模型,用最好的模型实现的效果可能是最好的。然后你比如说用五点五超高你发送一下,那这时候呢,他就会根据你当前的这个项目进行总结一个 bug 大 文件,那收下一次开启的时候呢,你就可以把这个 bug 大 文件哎给他 就是丢进去,然后这个时候呢,他就可以直接的进行上一次上下文的复用,而且呢失真不会失的很严重,那最起码会比直接使用 codex 压缩的方式会好一点,那这是我的第一种方法。第二个呢,就是使用这 codex 内置的压缩功能呢,这个我刚刚说过了,对吧?我们 正常来说 codex 也会进行自动压缩,但是它会进行四帧,但是进阶技巧就是我们可以直接让 codex 呢,每次都生成这个 prompt, 就是 给它设定一个这个啊, ajax, ajax, markdown, 这种,对吧?让它自动生成,而不是让我们手动去指定它。 那这里呢,再分享一下我自己的这个 codex 技巧,因为有小伙伴他会问我说,你视频当中平时使用 codex, 那 我先说我怎么使用呢?首先我不会把一个项目 丢到一个上下绘画里面,一个上下文绘画里面我会把它拆成多个小的功能,在每一个小的功能对应一个绘画,这样呢,我这个绘画可以赞成很大,并且呢它总结出一个 markdown 文件,再把这个 markdown 文件丢给一个新的绘画,这样呢,我们就基于这个功能在进行优化,不会去影响整个的大局。啊,能懂我意思吧? 那第三种就是我们可以使用外部的持久化工具,那这个外部持久化工具有很多,比如像我们之前说的 context 上来说,就是把原先我们的 markdown 给它缔造了外部的这种 社区部里面去,你可以这么去理解,然后通过一些更好的方式去把它读取到这个 collect。 那 每一个开源项目都有自己的方式,大家可以自行研究,因为篇幅有限,所以我这里呢就讲这几种,好吧。 然后呢?呃,这种方式呢?其实我还是建议大家使用 bit 进行管理起来,因为当我们用 bit 进行管理起来之后,我们整个上下文呢,能够更加有链路的去回溯,就是每一个版本都有对应的回溯, 我们能够很清晰的看到,对吧?这是我们整个流程,你可以看到通过这样的方式,那就是像上下文的这个管理,好吧,这呢是。呃,好了,那以上就是本期视频的全部了呢,我是小刘,我们下期再见。

今天测试一下本地大模型加 turbo coin 的 技术,开启长上下文的表现到底怎么样? 我先让他讲一百个笑话,看看他的速度如何。这里二十六 tokens 每秒,显存占用十八点六 g 上下文。一百二十八 k 也已经开启了 我的硬件配置,显卡 amd radion 二 x 七九零零 x tx 二十四 gb cpu ryzen, 七五八零零 x 八 c e 十六 t 系统不蹦出二十四点零四到 ts 加 rock 六点一。什么是 turbo quad? 简单说, 这是 google 刚放出来的炸弹级算法,它放弃了传统的切多浮量化,改用极坐标变换 pro quad, 就像把杂乱的数据旋转到一个完美的角度,用三比特就能实现近乎无损的 kb 卡式压缩。原本一百二十八 k 上下文要占八 gb 显存,现在只要一点六 gb。 这哪里是压缩,这是降维打击。 这是在 openclock 下开一百二十八 k 上下文,调用本地大模型运行的效果。日常用,我觉得这个速度够用了。我现在用的千问三点五,二十七 b 加 clock code, 四点六摩改稠密模型,速度大概在二十到二十五 tokens 每秒。有了这个,说真的,我觉得 token 自由了。 下面我们看看写代码能力,我让他给我写一个塞伯贪吃蛇的小游戏,他写了五分半左右,平均每秒二十五 tokens, 我们看看效果如何,看看这个仅仅二十七 b 的 本地模型能教给我什么样的结果。说真的,我觉得这个贪吃蛇小游戏还是不错的,他自己加入了难度等级, 我觉得比我最近用的几个线上模型做出来的效果都要好,并且我还没有给他很多的提示词,完全由他自由发挥。我觉得成品效果还是审美在线的。今天就先测试这么多吧,我觉得二十四 gb 显存的显卡部署的本地模型在解决了上下文问题后,真的有一战之力的能力。

子 agent 与上下文管理,上下文是最稀缺的资源, agent 工作时,每条消息都在累积,文件内容命令输出,上下文窗口不断膨胀,这是所有 agent 的 根本限制。 解决方案,子 agent 获得全新消息空间,独立工作完成后只返回摘药,整个历史被丢弃。副 agent 上下文保持干净 三十次,工具调用压缩成一段话,只返回必要信息,其余全部丢弃,这就是上下文层面的最小权限。 当无法用子 agent 时,还有压缩,三层压缩叠加精简工具输出摘要,历史对话,压缩系统提示,大幅回收上下文。 上下文是 agent 的 呼吸空间,此 agent 隔离压缩回收循环不变,下一级任务持久化。

跟 clock code 学顶级 harness, 大家好,我是老崔,今天我们继续扒开 clock code, 来看一下它是怎么做上下文管理。像 clock code 的 这种编程智能题,其实它本身上就是一个跟大模型多轮交互的循环, 但只要涉及到多轮对话,就有一个非常麻烦的问题,因为每一轮对话产生的中间结果都会进入下一轮的上下文,这就会导致我们的上下文不断的膨胀。 而半维形的上下文窗口,我们知道它是有一个固定的限值,比如说二十万 token 或者一百万 token, 所以 它是没法应对上下文这种无限膨胀的问题。那这个问题的解法就是我们今天要讨论的主题,上下文管理。 上下文管理它直接影响到 a 诊做任务的效果,尤其是做长任务效果。 alphabet 内部就做个测试, 一个好的上下文管理,它能使智能体的性能提升百分之二十九,而 pop 的 消耗能够减少百分之八十四。那怎么做上下文管理呢?它通过动态的调整模型能够看到的信息,从而让模型能够更好的完成指定的任务。 大模型在一轮对话中能够看到的信息可以分为这三个部分,第一部分是系统提示词,这个在之前的分享里边,老杰跟大家系统的拆解过,感兴趣的可以翻一下我前面的视频。 第二部分是多轮消息,也就是每一轮和大模型的交互过程中,我用户发的信息,模型的回复产生的中间结果,全部编成了一个多轮消息的簇组, 它在源码里边就是以 message 的 序组来存储的,那每和大模型完成一轮对话,这个序组就会多加一些元素。第三类是工具信息,是告诉大模型我有哪些工具可以供你使用。 在大模型看到的这三种类型的消息中,我们主要管理的是中间这一种多轮消息 bug 的,是怎么管理的呢? 总结下来就是这五级上下纹压缩,你上下纹在不断的膨胀,那我就通过各种各样的压缩来缩短你的上下纹长度,同时我又保证重要的信息能够保留下来,这就是上下纹管理的关键所在。 他获得的这五级压缩,从左到右也是他执行的顺序,依次会压缩的越来越重,保留的信息也会越来越少。他分别是上下纹的裁剪操作, 然后第二步有一个尽量的压缩,第三步有一个中等压缩,第四步重度压缩,最后还有一个补救的压缩。下面我们一个一个来看一下。第一集是裁剪,这个最简单粗暴,他就是直接把一段旧历史给裁掉,比如我现在消息列表里边有六条消息, 通过裁剪之后,我把三条没用的消息直接裁掉,最后就剩下三条,这个非常好理解。第二步是一个轻量的压缩,他针对的对象只有一种,就是工具调用的结果。 举个例子,我用查看工具查看了本地一段非常长的时间代码,比如几千行甚至上万行,几千上万行的代码就会进入消失列表。 短期看它很重要,因为模型要根据代码来定位问题,解决问题,但是任务往后面推进之后,这一大段代码就已经没什么价值了,而且它占用的 token 又非常多,很容易污染上下文,所以克拉扣的会优先处理这类臃肿的工具输出。 在具体的实现层面,克拉扣的分了两类,第一类是对于冷绘画,就是我六十分钟已经没有任何操作了,那我在这一步只保留最新的五条工具执行的结果, 其他的全部替换成一段默认的自辅传。那对于热绘化,就是我一直不停地在跟 colocod 进行交互,那这个时候 colocod 不 会直接改本地的 message 这个序组,而是在请求模型的时候,告诉他模型哪些工具的结果是需要剔除的,在模型层面做一个删除。 这样分冷热两种情况,其实是为了在热绘化的时候做一个缓存的优化,因为我们知道大模型会有一定的命中缓存的几率, 那我请求的消息数值不变的话,那就更容易命中缓存,从而节省计算成本。接下来第三种压缩类型叫折叠式图。折叠式图这个名称可能比较抽象,比较难理解一点,但其实我举个例子说明一下就很清楚了。比如 我用户发了一个提示词,修一个 bug, 那 在这个 bug 修完之后,其实我们就可以把中间大量的消息折叠起来。比如这里折叠后的信息就是已经读取了文件定位到了问题,并且通过了测试,已经完成修改了,并且给出了一个关键结论。 这里要注意还有一个关键点,他叫折叠仕途,仕途的意思就是他没有直接去改那个消息列表,而是在调用模型的时候,只给模型看这一条信息,但是我完整的消息还是存在我原来的那份消息列表里面,这样既减小了模型的输入, 也保留了完整的上下文。接下来第四步重度压缩。这一步就要直接改变我的消息数值了,我们还是举例来说明,比如说在压缩之前,我有很多轮的历史消息,有大量的工具调用的结果 token 已经逼进上下文窗口的预值了, 那这个时候就会执行一次重度压缩。压缩之后他会生成一条边界信息,以及一到数条的对前面的历史消息进行了总结信息,同时他也会原样保留最近几轮的信息, 最近的上下文细节还在,这样任务就还能继续往下跑。最后是一次补救压缩,如果通过前面四步的处理,在最后调用大模型的时候,还是出现了上下文过长的错误,这个时候克拉扣不会马上报错,而是会再进行一次压缩,然后重试之后 再决定是否把错误报出来。这次补救压缩的逻辑和上一步重度压缩的逻辑是一模一样的,只是他们在运行的时机上有所差别, 可以理解为前面的重度压缩是常规操作,而最后的补救压缩是用于失败之后的重试。好了,以上就是克拉蔻的上下文管理的全部内容。

介绍一个改变 ai 编程助手工作方式的新工具, graphify。 在 日常开发中,我们常遇到一个问题, 当把整个项目喂给 ai 时,他每次回答都要重新读取几万甚至十几万行代码。这不仅消耗大量 token, 响应慢, 而且 ai 很 容易在大量文件中迷失方向。 graphify 的 出现就是为了解决这个痛点,它能把任意文件加一次性翻译成可查询的知识图谱。之后 ai 每次查询只需读取图谱结构,无需再碰原始文件。 官方称可实现七十倍以上的 toc 压缩。 graphify 本质上是一个 c l i 工具与 agent skill 的 组合体,你只需要在终端执行 p i p 这一行命令, 然后用 cf 发音哨注册,它就会自动注入一份 skill 点 m d 到你的 ai 编程助手中,助手会明确知道何时如何调用图谱。它的亮点非常直接。第一,七十一倍 token 压缩。 原来 ai 回答一个问题要读十万字,现在只需一千四百字,省钱更省时。第二,支持多模态输入代码, pdf 截图、录音全部能处理并混入同一张图谱。 第三,改了代码自动更新,无需手动重跑,图谱会实时同步项目变化。第四,完全本的运行,零数据库,依赖数据隐私,绝对安全。图谱是怎么生成的? graphify 采用了确定性加概率性双轨策略,在源码 extract 文件下, 确定性路径依赖 chasis 进行静态 a s t 解析,精准提取函数类调用关系,概率性路径则由 l l m 并行提取语义处理文档、决策逻辑等非结构化信息, 整个流水线非常清晰。首先, detect 识别文件类型应 just 排队入库。接着进行跨文件解析,用 build 整合成图。随后 cluster 执行卢维社群检测自动化分代码模块 analyze 负责架构关系计算, report 生成 markdown 报告。 最后 export 交付可用图谱。音频文件会有本地的 whisper 模型转录,视觉内容则调用多模态识别能力, 所有数据最终统一入图。我们看一下实测,让 cloud code 用 graphify 给我们的 graph memory 文件生成知识图谱。第一步,确保 graphify 已安装。第二步,检测结果发现文件数量和词数在域值内, 直接进行提取,无视频文件跳过。第三步,提取实体和关系五个文件需要羽翼提取,枪可以已已写入完成羽翼合并, pad c 合并 a s t 加羽翼,结果一百六十七,节点五百六十一边。第四步,构建图具类分析。 第五步,读取社区节点,命名社区标签,生成 html 格式化返回处理结果。当我们运行完 graph file, graph report 点 m d, 这是最重要的知识摘要,里面汇总了项目的架构全貌,核心节点关系以及关键业务决策。当你问 cologeco 的 这个项目怎么回事时,它读的就是这份文件。 graphd html, 这是图谱格式化看板,它是网页格式,你双击在浏览器里打开, 就能看到你的代码库变成了一张网状的互动地图。它是用来帮你直观感受项目结构的,这就是我们记忆项目的 index 文件,我们可以详细查看它们之间的关系。 garp 点 jason 图谱的原始数据源,它存储了完整的图结构信息,如果你想自己写脚本去查询这个图谱,或者把数据导进数据库,就读它。 catch 文件夹,这是增量翻译的核心,里面存着上一次扫描的结果。 graphify 通过对比这里的数据,保证你下次运行只需处理变动过的代码,极大节省了时间。 cost jason, 这是账单记录, 它记录了你这次翻译过程中调用 l, l m 进行语义提取,消耗了多少资源或 token。 这对于企业及用户或需要精细控制成本的开发者非常有用。 manifest 点 jason 图谱配置清单,它记录了这次变异任务的原数据,比如处理了多少文件变异的时间戳,以及使用的是哪种配置模式。它是系统校验图谱是否版本最新的凭证,生成的图谱,不是黑盒。 gufeifei 内置了严格的信信度分级,明确定义的源码关系,标记为 infotain, 属于合理推论,无法完全确定的连接标记为 ambiguous, 会高亮提示人工审核底层结构,采用标准的 nodus 加 e g s 股价,并由 validate p y 进行完整性校验,确保图谱逻辑闭环。在一个多月前,我们开源的 graph memory 也是通过知识图谱优化 a 键的记忆 对比,两者整合工作流本质不同。 graphify 处理的是项目文件,构建的是代码的确定性逻辑, 解决的是局视野受限和勇于偷坑问题。而 graph memory 处理的是对话历史与决策日制,它解决的是记忆断层和个性化缺失, 维护的是你们聊过什么,踩过什么坑。 graph file 数据源代码多模态输入 graph memory 的 数据源是对话、历史、用户偏好以及决策日制 graph file 构建方式,静态扫描加自动监听更新。 graph memory 是 动态追踪加 ai 摘要提炼 graphify 的 技术栈是 a s t 加图谱格式化。 graph memory 是 向量数据加知识图谱。 graphify 在 cloud code 等助手中直接定位模块调用链与数据流。比如这个项目的支付模块是怎么工作的,使用 graph memory 使用时遇到相似的 bug 时, ai 主动调取历史决策与排错记录,比如上次装的那个库的报错是怎么解的?讲到这里,大家可能会好奇,如果项目规模再大一点,代码库演变成数百万级的知识图谱,目前的解锁技术还能扛得住吗? 最近推特上有一篇非常硬核的深度长文,系统性的梳理了大规模图数据的高效查询范式。作者总结的这套理论,恰恰是工业级知识图谱能够实现毫秒级响应的关键。它揭示了在面对海量数据时,我们应该采取的四种优化策略,第一,建立分类所引, 通过预设标签直接定位,决不全量便利。第二,选择性优先。多条件搜索时,先执行过滤结果最少的条件,最大限度削减后续数据量。第三,双向搜索 路径查找,从起点和终点同时向中间推进,实时比对交汇点,大幅缩短耗时。第四,缓存与雾化,高频查询结果预计算并持久化,后续直接读取,跳过重复计算。 graphify 这个工具在目前的实现中, 虽然还不涉及分布式集群查询,但已经引入了这套思想的先行版。比如它通过看似 d i p y 实现了数据的部分物化,通过文件类型的分类识别实现了初步的缩影过滤。 graphify 让 ai 从盲目读文件进化到结构化读图谱配合 graph memory 的 记忆能力。你的编程助手将真正具备大局视野与历史经验我们的编程助手将真正具备大局视野与历史经验。我们的编程助手将三连获取。点个免费的私大吧,感谢观看,我们下期见!

这是一款开源的图像压缩软件,专注于在不显著损失质量的情况下减少图像文件大小。他最厉害的地方在于 能在几乎不影响视觉效果的前提下,大幅缩减图片文件大小,让模糊和压缩不在话等号。支持单个文件和文件夹批量处理,不管是单张还是文件夹里几十张工作图,他都能批量处理,效率直接拉满,无需安装,双击就能用。 临时需要压缩图片时不用等繁琐的安装流程。导入图片后,右边是压缩选项以及压缩后的图像输出位置,根据自己需要调整,最后点击压缩即可。不管是经常发图的自媒体人,需要处理工作素材的职场人,还是单纯想省内存的普通人,这款工具都能帮你省不少时。 觉得实用的话赶紧点赞收藏,免得下次需要时找不到。关注我,后续还会分享更多好用的开源工具,咱们下期见!

这个工具能把视频压缩掉百分之八十以上的空间,这个是原视频八百五十五兆的大小,而右边这个是他压缩后的视频,只有一百三十六兆大小,各位能看出来画质上有什么区别吗?那么这种效果怎么做呢? 就是这个视频压缩神器,打开后直接把视频文件拖进去即可,右边会出现一排设置选项,可以无需理会,直接点右下角开始压缩。压缩速度取决于你的电脑配置和视频大小, 压缩完成后会显示画质对比效果以及文件大小对比,再次点击右下角就可以保存导出了。当然了,在设置界面里还可以在压缩前进行相关调整,包括调整音量、画质尺寸、格式、帧率这些就非常的方便。

大家好,我是大叔,只说真话,只做实在事,只给干货。各位好,今天分享一个 opencloud 的 功能, context engine 智能上下文管理器。说实话,我每天都在用,用了几个月了,真心好用,必须分享给你们。 你们有没有遇到过,跟 ai 聊得正嗨,突然他就二失忆了,前面说的全忘了,为啥呢?对话太长了, tiktok 超限消息被截断,上下文没了, ai 直接蒙圈。 更坑的是,就算用压缩,传统压缩太糙了,关键细节丢光了, ai 抓不住重点回答开始跑偏,你得反复解释累不累,反正我是累了,别慌,就信来了。 context engine dot opencloud 的 智能上下文管理器, 它能干啥?智能筛选消息,精准压缩历史,突破了空限制,还能自己扩展?一句话让 ai 真正记住你说的话,咋用呢?三步超简单。第一步,看看当前引擎,在终端里跑一下 opencloud doctor 命令,这个命令会检查系统状态,或者直接用 kate 命令看配置文件, 文件位置在用户目录下的 open call 点 j 上,用 jq 工具筛选出 case 键的配置。如果返回直是 legacy, 说明用的是内置引擎。如果是插件 id, 说明已经装了插件引擎, 就这么简单。第二步,装个插件引擎,还是在终端里跑 open call in store 这个命令后面跟插件名字,插件名是 losloslog, 来自 motion engineering 这个组织, 这是从 npm 安装,强烈推荐 lostslaw 这个插件,无损压缩效果杠杠的,也可以从本地安装加个横杠 l 参数,后面跟上本地路径就行,适合开发调试。第三步,配置一下,打开 openclaw, 点接上这个配置文件,找到 plugins 配置,像 在 slot 下面加上 context engine, 直设成 lostslaw, 然后在 entries 里面加上 lostslaw 的 配置,把 enable 设成 true 保存就完事了。 记住了啊,改完配置必须重启 gateway, 不 然白搭。重启命令是 opencall gateway restart。 想切回内置引擎,把 context engine 的 值改回 legacy 就 行,或者直接删掉。这横配置 效果咋样?三个字爽翻了!超长对话随便聊,关键信息全保留,还能自己定制策略,我用下来感受对话顺畅多了, ai 理解也更准了。这总结一下,三步走,检查安装配置激活、告别 token 限制,让 ai 真正记住你的话。觉得有用,关注我,大叔大更多 openclaw 干货,咱们下期见!

最近网上有许多分卷解压形式的文件,许多人不知道如何在手机机上解压这些文件。今天这个视频将用 m t 管理器来解压以七 z 零零一为后缀的文件。首先下载 m t 管理器, 下载完成后解压并安装, 打开 m t 管理器并给予权限找 找到文件的位置,再在 收息的路径创建文件夹解 解压带有零零一的压缩包,打 开解压后的文件夹,再次解压 完成了。如果中途解压的格式不是七 z, 将其改为七 z, 你 你。