绘画管理做不好,再大的上下文,真的就能一路聊到底吗?很多人一看到一百万上下文,第一反应就是终于可以一路聊到底。但绘画管理这件事,反而更容易被忽略。但 cloud code 核心开发者那张绘画管理图,反而是在给大家泼冷水。 窗口越大,不一定越强。很多时候, ai 不是 越聊越聪明,而是越聊越糊涂。上下文拉太长,就像桌子,越堆越乱,文件还在眼前,你反而更难一眼抓住重点。 他也像人脑进了脑雾,前面说过的话没真消失,但线索馋成一锅汤,都快糊了。所以问题不只是能装多少,而是上下文一藏模型就会越聊越糊,这才麻烦。 那张图最重要的不是教你背五个按钮,而是把每次输出后的分叉口直接摊给你看。截图里五个选项并排放着,就是在提醒你,默认继续只是其中一条路,不是唯一答案。 继续硬聊最省事,走歪了就回退垃圾先清掉,压成提纲再上路,杂活分出去它真正要你学会的,不是按钮名字,而是绘画异常时,先判断,再选更干净的路。 同样用 cloud code, 有 的人一路越聊越顺,有的人十分钟后就开始重复跑偏,自己打自己脸。 差别通常不在模型大不大,而在你会不会主动停一下,决定该继续回退、清空、压缩还是分工。真正拉开差距的,不是模型有多大,而是你会不会管理上下文,差别往往就出在这里。 所以,别再把大上下文想成护身符,它更像一个更大的工作台。台子再大,东西乱堆,最后也只是更乱,不会自己变聪明。真正拉开差距的是你会不会管理上下文。
粉丝2.1万获赞11.2万

分享一个 kol 的 小技巧,在你这个 kol 的 code 里面,使用第三方模型的时候,比如说 deepink 四 v 四 pro, 它明明是有一千个 k 的 上下文,但实际上这里它只会写成两百,为什么?因为 你的这些第三方模型的 kol 它不认识,它并不知道你的上下文是多大,所以它默认都是给两百,直接切成两百,这样的话你问一个问题就能耗掉接近五十,你这个一个对话 基本上四五个问题,他就要被墙压住了,那肯定是很不爽的,那怎么办?有个小技巧,其实就是你要选择模型的时候, 你要跟他讲你的上下文长度是多少,那怎么讲呢?他是这么约定的,你后面跟个中括号就这样子, 如果你是要改成三百 k, 你 就改成这样子,如果你要一千个 k, 你 就直接写成一个 m 就 行,这样子他就会被识别的一千个 k 就是 一个 m 的 上下文, 这样的话,你记在这个里面,可以完整的问他几十次问题,五十次问题,他才会触发上下往下缩,这样的话你的这个使用的会很舒服。对,就这么一个小技巧,一分钟教给大家。

cloud 四点六杀疯啦!高强度用了不到三天,我已经把所有界面的三的工作切到了四点六。这个更新有多大?打个比方, cloud 四点五像是你手机里导航软件,可以告诉你怎么走, 而四点六就是你请的专业司机,只要一句话,目的地到了,老板请下车。这次更新只围绕两个字,效率 来用数据说话。上下文窗口从二十万 token 暴涨到一百万五倍,推理能力二和 agi 二从三十七点六跳到百分之六十八点八,几乎翻倍。 百万 token 下的长文本解锁准确率达到了百分之七十六,是四点五 solo 的 四倍,这在以前是不可想象的。可能你对数字没有什么概念,那么在实际工作中,四点六到底强在哪里? 第一点,一百万上下文窗口它真能用了。四点五虽然编程很强,但是一次生成的应用程序或者网站,它的二十万 token 上下文窗口存在一个上下文衰减的问题,写着写着就忘了前面的, 导致最近很多程序用一种叫做奇怪的叫爸爸的方法来验证 cloud 是 不是丢失了上下文。通俗的来讲, 以前的四点五像是端着一个小碟子去吃自助餐,加了二十样就放不下了,想吃新的就得把前面旧的倒掉。而现在的四点六是推着购物车进场的,一百道菜全部打包带走,你问他第三排第二个菜是什么,他可以给你报出菜名来。第二点, cloud 从思考者变成了一个执行者。四点五是一个思考者,而四点六是一个会把事情做完的思考者,他不再停留在思考阶段,而是会自主行动,跨多个任务自主完成。以前需要多轮对话才能搞定的事情,现在一次就搞定了。 而且四点六引入了一个叫做自适应思考模型,会自己判断这个任务的难度,来决定他思考的深度。作为你的 ai 同事,他已经从事事都要请示你的实习生,变成了自己会做决策的项目经理。 更狠的是,以前一个 cloud 只能干一件事儿,现在你可以让它自己拆成一个小团队,缤纷多路同时干。而且每一个 ai 单独享用独立的一百万 token 的 上下文,干完了再自己把任务合在一起交给你。 第三点, cloud 不 再是程序员的专属,它可以是任何人的同事。 asp 同步推出了 cloud in excel, 支持条件、格式、数据验证等原声的操作。以前是 ai 帮你做 ppt, 做出来的东西像是在路边打印店做的,那么现在他会直接去看你公司的 ppt 模板长啥样,做出来直接丢给老板用, 到了这个时候一定是有转折的。对,我们来谈一谈价格,四点六的 api 价格和四点五完全一样,但是我要说但是了,四点六推出了一个 fast 模式,输出的速度是普通情况下的二点五倍, 以前要写十分钟的东西,现在只要三到四分钟,但是价格直接飙升到普通模式的六倍。你没有听错,输入三十美金,百万投资,输出一百五十美金,百万投资。价格涨了这么多,他变强了吗?没有, 完全一模一样,而且如果你用了超过二十万头寸的长上下纹,价格还要额外再涨一点五倍到两倍,这让有人调侃说 cloud 四点六造成亏损和破产,从未如此之快。六倍的价格换来二点五倍的速度,从数学上来说,这完全不合理, 但在商业的世界里,从来就不是纯数学。这就好比你的飞机要起飞了,你是狂踩共享单车,还是立马叫辆专车,以最快的速度去机场?路还是那条路,人还是那个你,但你愿意付这个费用,因为那个场景下,快就是一切。 这大概也是 ai 行业第一次这么明确的告诉你,你的时间值多少钱,你就付多少钱。所以回到最开始, 为什么我三天就从界面的三切过来了?因为四点六不是一个更聪明的聊天机器人,他是一个真能帮你落地干活的同事。而且 ospec 这次用定价告诉了所有人, ai 这个同事你的时间值多少钱,他就收多少钱。

用可乐的扣子写项目,聊着聊着就会蹦出来一句话,提示你上下文窗口快满了,一旦压到上下文, ai 就 开始抽风,出现上下文腐烂的问题。问题是在命令行里边,你压根看不到上下文用了多少,等提示的时候就晚了,尤其是你在这个绘画里面已经取得了一些项目进展的时候。 如果你有这个痛点,强烈建议安装可乐的哈的这个插件,执行三条命令就能用了。装上之后,在终端底部会出现一个实时的状态栏, 以进度条的形式显示当前窗口的上下文使用情况,还会显示 ai 正在调用什么工具,跑什么 a d 的。 当可乐的卡住不动的时候,一眼就知道它是在思考还是在调用工具,还有显示当前项目的 get 分 值,任务代办进度。 这种感觉就像给开车从没有用过仪表盘的人突然撞上了仪表盘。使用可乐的扣子,心里面就有数了,可以很清楚的看到可乐的在做什么,剩余的上下文有多少,哪些工具处于活动状态。当你管理多个变形的可乐的绘画的时候,会非常有用。点赞关注,每天获取一个新知识!

cloud 的 一百万头梗上下文正式开放了,很多朋友在问,这到底有什么用呢?那么今天就从一个每天用 cloud code 写代码的开发者视角聊聊我的理解。先说一下问题,那么用 ai 写代码最大的痛点不是说他写的不好,而是他容易忘记。 比如说你跟他聊了很多龙之后,前面定好的架构决策讨论过的边界条件他全部都忘了, 那么因为上下文窗口就那么大,满了之后就会自动压缩,压缩就是有损的,就像把一份详细的会议基要压缩成几句话的摘要,那么信息在这个过程中必然会丢失。 一百万 token 本质上就是把这个工作记忆扩大了五倍。以前二十万 token 大 概可以放一万五千行代码一个小项目的量,但是现在一百万 token 大 约可以放七万五千行,中大型项目都可以基本完整的放进去。 对我们来说,最直观的变化是,我不再需要替 ai 来管理记忆了,以前得精心来设计哪些的时候需要去压缩上下文,什么时候该 clear 一下,重新开始 怎么分批去投喂信息,现在这些心智负担会大幅的减少。那么大家最关心的问题是,装得下这么多的东西,就意味着它可以快速的找得到这些东西吗?在 cloud 官方中有一个数据, 他们做了一个叫 m r c r 的 测试,在一百万 token 的 文本里面顶藏八条关键信息,看模型能不能全部找到。那么 opus 四点六的准确率是百分之七十八点三,上一代 solo 四点五只有百分之十八点五, 那么这不是说上下文变大了,但是变得笨了,而是上下文变大了,并且还变得更准。最后说一个很多人都关心的是, 就是它的费用有没有贵,那么我用的是 maxplus, 每个月一百美元的这样的一个费用,包含 cloud code 的 使用的额度,那么这次更新之后,一百万上下文自动开启,不需要加任何的配置,也没有额外的费用。 之前 api 用户超过二十万的话, token 要付双倍的价格,那么现在这个溢价也取消了。 总结下来就是一句话,一百万上下文不是一个你需要去刻意去用码的功能,他是让一个你不需要再去操心上下文够不够的保障, 当你需要的时候他在那里,当你不需要的时候他不碍事,这就是体验上的一个质变好的。那么本期视频就到这里了,关注我以后为大家带来更多的 ai 的 编码的教程,我们下期视频再见。

今天啊,给大家分享五个最实用的技巧,帮你的可用 code 节省至少一半的 token。 建议你先点赞收藏。第一,选对模型,日常写代码,改 bug, 用 sonet 就 够了,那复杂的推理呢?价格问题,再用 opus, 那这中间就是一两倍的差价。建议你把 sonata 设置为默认模型,避免大材小用。第二,控制上下文,那避免一直在同一个对话里面聊,你聊得越久啊,越费 token。 那 任务结束的时候,直接用斜杠 clear 清空上下文,开启新对话。那长对话呢?用 compact 来压缩上下文。 第三,善用 cloud 点 md。 那 cloud code 的 作者就表示啊,要像优化提示词一样优化 cloud 点 md。 那 些需要反复强调说明内容,比如说项目说明,代码规范,使用习惯 都可以写进去,卡拉扣的启动的时候都会自动去读取,不需要你反复去和 ai 说明了。那我在之前的视频中有专门讲到过卡拉点 m d, 不 熟悉的同学可以去翻一翻。第四,表达要具体,不要说帮我修复登录错误啊,要说清楚错误信息是什么,附件错误的操作步骤是什么, 正确的返回应该是什么样的,那 ai 猜测你的意图的过程啊,就是在浪费偷看。第五,开任务,不要一上来就让他帮你直接实现一个个人网站。那复杂的任务呢?往往隐藏的细节太多了, ai 很 容易走偏或者忽略掉一些关键细节。 那当你耗费了大量的头肯得到了结果可能不达你预期,那你可以把一个复杂的任务拆分成多个子任务。比如说你可以先去搭建网站的框架,实现首页的基本布局,具体模块详细实现啊,可以放在后续的子任务中执行。那这个就像流水线上的每一步都有质检一样啊,避免一步走错,步步走错。 总的来说啊, set token 就 等于选对的模型,加上控制上下文,再加上控制任务的力度。那你还知道哪些 set token 的 技巧吗?欢迎你在评论区分享,我是欣琪,每天分享一个 web coding 的 小技巧。

我相信百分之九十九的人都不知道这八个可乐扣子的隐藏指令,大家耐心看完这个视频,绝对会让你大开眼界。 第一个, btw 命令,今年三月份刚出的,就是让可乐扣子在干活的时候插一个问题进去,但这个问题不会被写进历史上下文。以前你问一句可乐扣了就停下来了,上下文被污染,干活就容易跑偏。现在问完直接回车,这对对话直接消失,任务照跑, 历史干干净净,并且几乎不费掏开,用完了就回不去那种命令。第二个,瑞万的命令,可以理解成 ctrl z 撤销,打开这个命令,会弹出一个菜单来,让你选只回退代码,还是只回退对话,还是两个一起, 还是压缩上下文释放空间,这个命令非常实用。第三个,隐菜的命令,这个命令我觉得被严重低估了, 他会生成一份 h t m l 报告,分析你过去一个月用可多扣的习惯,看你常用哪些指令,有哪些重复的操作,然后给你推荐自定义的命令,说白了就是可多扣可多扣的在反向观察你, 给你优化建议。这个我建议人每个月都要跑一次,他会让你重新认识你自己的工作习惯, 非常有意思。第四个, see you plan 命令。你打开这个命令, cloud code 会同时启动三个平行的 agent, 分 别从代码附用、代码质量、运行效率三个角度帮你审核改动,然后汇报结果,相当于找了三个同事帮同时帮你 re 要代码。 我现在的习惯就是每次写几个大功能,更新之后顺手跑一遍,因为 ai 的 代码经常有种鱼,这个命令基本上都能把那些种鱼挑出来,写代码的一定要用这个命令。 第六个半尺命令,原来他是叫 fork, 现在改名了打,但是打旧名还能用,会自动跳转。作用就是把当前对话分叉出一个新的绘画来,原来的绘画不受影响。他跟 rewind 的 的区别就是, rewind 的是后悔药,半尺是平行宇宙, 如果你想同时试两种不同的方案,就是分叉一下,两边各走一边,最后就是选一个效果好的就可以。 第六个落魄命令,他可以让可乐定时重复执行某个任务,用法就是在这个命令后面跟上时间间隔和你和你要他做的事。比如说每五分钟检查一下部署状态,他就自动跑,不用你盯着, 默认时间间隔是十分钟,并且结果直接在上下文里。可乐可以基于结果做判断和后续操作, 但是要注意,定时任务在创建三天后会自动过期,最后触发一次,然后自我删除。第七个 remote ctrl 命令,就是打 r c 或者是完整的命令。 remote ctrl 它会生成一个 url, 手机打开这个链接,你整个 cloud 的 绘画就出现在手机上, 完全同步。你在手机上发指令,终端那边也能看到你在终端操作,手机实时更新终端代码,始终在你电脑上跑。手机只是个遥控器,所以很安全,非常好用,这点就像那个龙虾。 第八个 export 的 指令,打开这个指令,当前整段对话直接导出 markdown 文档,听起来不起眼是吧?但是有时候你会发现这个功能真的很实用。你跟可乐扣了讨论了半天的架构方案,中间有大量的来回推敲, 如果不保存,回头找起来非常麻烦,直接导出来存着,作为更详细的上下文,下次直接用这八个隐藏的指令,非常实用,建议大家使用起来。好,今天的视频就到这里,感谢大家观看。

有没有办法让你的卡扣一直不停的工作,直到你给他设置的对应的条件之后他才停止, 一分钟之内跟大家说清楚。首先官方出了一个插件,就是 rap, 这个插件有什么作用?当卡扣回答停止之后,他会把这个提示再发一遍给卡扣,等于说不停的循环的让卡扣工作,我实测下来可以让卡扣一直不停的工作,甚至是五到六个小时。 当然前提是你的上下文字过多,它具体怎么安装也非常简单。斜杠之后这里出现了一个 plug in, 只要装上这个插件就可以了。 red look 使用上也非常简单,安装完了之后 reload 的 一下,这个完了之后你写入你的提示词,这几个参数的意思是你最大要循环几次 设置一个停止条件,那这个插件非常适合那种,你已经知道怎么改,你已经确定好了你的需求文档,你的设计文档,还有你对你的任务,你已经确定好要怎么改之后,你直接给他提个词,让他不停的去循环的去验证,不停的循环,一次不行,两次或者多次,防止模型每次都偷懒的情况。

工作流程,你想让 closed 直接写代码,还是先头脑风暴做个计划,还是让他迭代?心里要有数,这样你就知道该怎么给 closed 下指令,来达到你想要的效果。 更深入之后,除了工具,你还需要给 closed 更多上下文。上下文越多,他做出的决策就越聪明。 作为在代码库中工作的工程师,你脑中有大量关于系统和历史的上下文,有不同的方式可以把这些传递给 cloud, 给的上下文越多,它就表现越好。有几种方式,最简单的是我们叫做 cloud md 的 文件。 cloud md 是 一个特殊的文件名,最简单的放置位置是项目根目录,就是你启动 cloud 的 那个目录。放一个 cloud md 进去,它会在每次绘画开始时自动读入上下文。 本质上,第一轮用户消息会包含 cloud md 的 内容。你还可以有一个本地的 cloud md, 这个通常不提交到版本控制。项目根目录的 cloud md 应该提交到版本控制和团队共享,写一次大家都能用,而本地的只属于你自己。 c l a u d e m d 里放什么呢?常用的 bash 命令,常用的 m c p 工具架构、决策重要文件任何你在这个代码库中工作,通常需要知道的东西 尽量保持简短,因为如果太长,会占用大量上下文窗口,通常也没什么用,所以尽量精简。比如在我们的代码库中,我们有常用的 bash 命令,有代码风格指南,还有一些核心文件之类的东西。其他的 cloud md 文件你可以放在其他嵌套的子目录中, cloud 会按需加载它们,这些是会被自动加载的 cloud md 文件。但同时你也可以把 cloud md 放在嵌套目录里,当 cloud 在 那些目录中工作时,它们会被自动加载。 当然,如果你是一家公司,可能希望有一个 cloud md 在 所有代码库之间共享,你想替你的用户统一管理它,你可以把它放在企业根目录下,这样它就会被自动加载。 有很多种方式可以引入上下文。其实我在做这张换登篇的时候费了很大劲,就是为了展示你能用多少种方式来做这件事。 c l a u d e md 是 自动加载的, 你还可以使用斜杠命令,这就是 dcloud 目录下的 commands, 它可以在你的 home 目录里,也可以迁入到项目中,这是用来定义斜杠命令的。 在这里我们有一些斜杠命令的例子,这些是我们在 cloudcode 的 项目本身中使用的。举个例子,如果你在 cloudcode 的 仓库里看到 issue 被打上了标签,那实际上就是这个工作流在运行,它会给 github issue 打标签。 我们有一个 get up action 在 跑,就是我们今天早上讲到的那个 cloud code 会运行这个命令,它就是一个斜杠命令, 运行之后就会给 e q 打标签,这样人工就不用自己来做了,这帮我们节省了大量时间。当然,你也可以通过 at 提及文件来把它们引入上下文。就像我之前说的,嵌套目录中的 cloud md 会在 cloud 工作,在那个目录时被自动加载。所以给 cloud 更多上下文吧,花时间去调优上下文绝对是值得的。 你可以用 prompt 优化器来处理它。考虑一下这个上下文是给谁看的?你是想每次都加载它,还是按需加载?是想跟团队共享,还是个人偏好,一定要花时间去调优,如果做对了,这会极大的提升性能。随着你的进阶,你会需要更多的思考这种层级结构,也就是不同方式来引入各种内容。 所以不仅仅是 cloud md, 还有配置文件,以及关于 cloud 的 所有东西,你都可以用这种层级化的方式来引入。 项目级别的是针对你的 get 仓库的,你可以迁入版本控制,也可以只留给自己用。你还可以设置跨所有项目的全局配置或者企业策略。企业策略本质上就是一个全局配置,你可以推送给所有员工,团队里的每个人都会自动生效。 这张焕登片信息量很大,但关键点是它适用于很多场景。你可以对斜杠命令这样做,也可以对权限这样做。 比如说,如果你有一个 bios 命令,想让所有员工都能用,比如所有员工都会用这个测试命令。你实际上可以直接把它迁入到企业策略文件中,然后任何员工运行这个命令时,它就会被自动批准,这非常方便。你也可以用它来屏蔽命令。 比如说有一个 url 是 永远不应该被请求的,只要把它加到这个配置里,就可以让员工无法覆盖它,那个 url 永远不会被请求。所以这既方便解除限制,也能保护你的代码库安全。 mcp 服务器也是一样的道理。 创建一个 m c p json 文件,迁入代码库,这样任何人在你的代码库中运行 cloud code 时,都会被提示安装 m c p 服务器,并与团队共享。 如果你不确定该用哪个,这确实是一个很复杂的矩阵。因为我们支持很多功能工程师的工作流非常灵活,每家公司都不一样,所以我们想尽量覆盖所有场景。 如果你不确定怎么开始,我建议从共享的项目上下文开始,你写一次,然后分享给团队所有人,就能获得这种网络效应。一个人做一点工作,团队里的每个人都受益。 cloud 内置了很多工具来管理这些。 比如说,如果你运行 memory, 你 可以看到所有被加载的记忆文件。也许我有一个企业策略,有我的用户记忆,有项目级的 cloud md, 还可能有一个嵌套的 cloud md, 只在特定目录下才会被加载。 类似地,当你执行 memory 时,你可以编辑特定的记忆文件。当你输入警号来让它记住某些东西时,你可以选择把记忆存到哪个文件里。好的,这就是下一步,花时间去。

每次你跟 cloud 对 话,除了你打的那句话以外,他脑子里面还装着另外八样东西,你可能完全不知道他们的存在。那这八样东西啊,决定了对话的输出质量, token 的 消耗,看看你能说出几样。那第一个也是最先加载的,叫做系统提示词, 这是写在 cloud 里面的一套规则,告诉他该怎么行事,什么能做,什么不能做,用什么样的语气来说话,它是系统内置的,对用户不可见。那第二个是 cloud 点 md 文件,你可以把它理解成写给 cloud 的 项目说明书。 比如你可以在里面写这个项目的背景是什么,架构,怎么设计,风格偏好是什么。那这个文件啊,放在项目的根目录里面,每次对话开始时都会自动加载。那第三个是 memory, 也就是记忆,这是 clark 在 之前的对话里, 自己给自己写的笔记,比如他上一次帮你调试代码,发现了一个特别容易犯的错误,那他就会把它给记下来。下次对话时候碰到类似的问题啊,他就不会再重复踩坑了。但有一个限制,每次他只能读前面二十五 kb, 那 超出部分啊,他就看不到了,所以这个记忆啊,是有容量限制的。 那第四个是 skills 技能描述,你可以理解成是一份能力的清单,可好的先知道自己有哪些技能可以调用,但不会一开始啊,就把每个技能的完整内容全部加载进来, 等真正用到某个技能的时候,才把它的详细说明读进来。这样做啊,是为了节省上下文空间。第五个啊,是 m c p 的 工具列表, m c p 啊,是一种协议,让 cloud 可以 连接外部的工具,比如 github, 数据库,浏览器等等。那跟 skill 一 样啊,默认也只是先加载工具的名字,等 cloud 真的 要用到某个工具的时候,再去加载它的完整配置,这个就叫做延迟加载,目的是为了让上下文窗口不被撑爆。第六个啊,是 hook 钩子函数。 钩子这个概念很好理解啊,就是在某个固定的时机自动触发一段脚本,就像门上挂了一个感应器,有人进门就自动开灯,不需要手动按开关, 你可以设置一个。当 cloud 每次编辑完文件就自动格式化,文件脚本跑完之后啊,结果会反馈给 cloud, 他 就能够知道哦,这次格式化出了什么问题,然后继续去修改它。第七个, cloud 的 回复,那 cloud 做过的每一件事情,主要哪个文件写的什么代码给了你什么回复,都会留在上下文里面, 认为他接下来判断的依据。但要注意啊,上下文窗口是有容量限制的,对话一旦太长,早期内容就会被挤出去,那 code 就 真的不记得了,就像白板上面写不下了,你只能擦掉前面的内容。那最后一个啊,是 code 点路由子里面的规则文件,那这是用户或者项目级别的自定义约束, 有点像合同条款,比如永远不要删除测试文件,提交代码前必须先跑一遍,单元测试之类的规定都可以写在这个里面。 好了,现在你知道啊,每次你跟可乐说话,他看到的不只是你打的那句话,而是与这八层内容叠在一起的总和。那理解了这个,你就 明白为什么可乐有时候会忘事,不是他变笨了,而是白板就这么大,装不下他就看不见,你也知道应该从哪里入手去影响他的行为,不是每次都在对话里反复跟他交代,而是一次性的写进可乐点。 md, 让他每次开口之前就已经知道你的规则。那如果你想深入了解某一层啊,评论区告诉我,我会单独出一起来介绍。

本期视频来分享如何将 deepseek 的 vs 模型接入 cloud code, 并解锁 em 的 上下文以及 max 思考等级。我目前已经将 deepseek 的 最新模型 vs flash 和 vs pro 通过 ipad 的 方式来接入了 cloud code。 vs pro 模型在降价之后性价比也越来越高了,并且对 a 键的也有做专门的适配, em 的 上下文对于大多数人来说也更加友好。 视频内容主要分为四个部分,第一需要先安装一下 cloud code。 第二,安装开源工具 c c switch。 第三,需要购买一下 deepsafe 的 api 并完成配置。最后再来测试一下 deepsafe。 v 四 pro 加 cloud code 这套组合表现怎么样。废话不多说,我们现在开始 首先来说如何安装 cloud code。 大家常说 cloud code 经常被封号,那其实封的是拥有模型能力的个人账号,但 cloud code 作为一个单独的软件是可以正常下载和安装的。 没有订阅官方的模型,我们依旧可以使用它的框架当成是 opencloud 或者 hermes nint 这种。在他们的项目官方网站这里也有明确的说明。终端 cli 和 vs code 也支持第三方提供商。 本期视频演示的是安装 cio 版本,也就是最通用的版本。这里有一行中的命令,它支持 macos、 linux 和 windows 这几种不同的系统版本。 windows 这里分为 power shell 命令和 cmd 命令,并且 windows 用户需要先下载安装下 get, 如果没有安装的话,可以到 get 的 官方网站下载安装包进行安装。 这里复制这一行命令,然后打开终端 app 或者 power shell, 输入他们提供的命令回车执行就可以了。我这里已经安装过,所以不再演示具体的步骤。安装好之后可能会出现一个提示,大致意思是安装已经完成,但是 control 的 安装位置并没有加入到电脑的环境变量中。 这里直接复制这行他提供的命令,在终端执行一下,搞定之后输入可拷的 code 杠杠微刃来确定当前的版本号。后续使用的话,直接在终端输入可拷的命令就可以打开了, 但是你那里可能会提示不能连接官方服务。接下来我们来安装第二个工具 cc switch。 cc switch 是 一个开源工具,它能够让 cloud code codeys、 opencloud 这类的 a i a 检测,方便地切换模型。累计下载量有三百多万,在 github 上面也有五万多个 star。 它有很多实用的功能,比如一份配置同步到多个应用,支持热切换,不需要退出应用切换模型。还有用量仪表盘,能够查看你的请求数和头克用量等等。 我们在项目的首页这里有一个已发布的安装包链接,点击进去,然后在这个界面直接划到最下面。这里有很多的安装包版本,如果是 mac os 系统就下载这个 mac os 点 dmg 的 版本,如果是 windows 就 下载这个版本。下载好之后直接点击安装包进行安装就可以了。 它这个项目的说明文档也有比较详细的安装教程。第三步,到 deepstack 的 开放平台购买 api。 我们来到 deepsafe 官网,点击 api 开放平台,我这里之前已经充值了一些,在网页和 deepsafe 对 话是完全不收费的,但是想要调用 api 就 需要进行充值。他们目前没有推出类似 tokpline 这样的按月订阅的套餐,好处就是用多少花多少。 目前他们对 v 四 pro 模型打二点五折,每百万 tokens 缓存命中情况下输入是零二五元,未命中是三元,输出是六元, 这个折扣目前是到五月三十一号截止。 v 四 flash 模型和 pro 模型的价格对比可以在官方的 api 文档里查看,这里点击充值按钮,然后选择金额和支付方式。建议先小额买一笔,用完之后根据自己的实际使用情况再进行补充购买。 付款完毕之后,点击左侧的 api case, 点击创建,然后复制这个 key 的 密钥, 注意这个 k 的 密钥只能够在创建的时候查看,关闭这个页面就看不到了,如果丢失的话,就需要重新创建一个 k, 然后打开 cc switch 这个应用。我这里已经添加好一个 deepsea 的 模型了,选中这里的 cloud 的 图标,然后点击添加, 在预设供应商这里找到 deepsea, 在 api k 这里填写 k 的 密钥,然后这里需要修改一下这几个模型,可以直接参考我这个填写 默认模型就是 deepsafe。 v 四 pro 后面加上 em 是 因为之前的公告有说明,这样才能够开启 em 的 上下文,然后点击添加就可以了, 这里就会多一个 deepsafe 的 模型,点击这个按钮来测试当前 api 是 否可用。点击这里可以配置用量查询,查看当前还剩多少余额, 勾选这里,然后点击保存配置,这样的话就能够看到还剩下多少钱了,然后点击起用,就能够正常的使用可绕的扣子了。左上角有一个设置按钮,通用,这里建议打开开机自启使用统计,这里也能够查看 ai 模型的使用情况和成本。 我们打开终端应用,输入可绕的指令,那这个呢?就是 deepsea v 四 pro 的 模型,并且是一百万的上下文, 我们输入指令斜杠 context 能够查看,这里确实是一百万的上下文 tokens。 这里的默认思考等级是 medium, 可以 使用命令斜杠 effort, 然后空格后面的话就会显示哪些等级可选,这里输入 max 回车确认,这样的话思考等级就会调到最高。还有一个命令可以快速的切换模型, 输入斜杠 model, 然后回车。默认模型其实就是 v 四 pro, 我 们之前配置的 apps 和 sonata 都是 v 四 pro, 嗨酷模型是 v 四 flash, 通过键盘的上下按键来选择,选中这个模型,然后回车确认, 这样的话模型就切换到了 v 四 flash, 这里输入命令 context 能够看到它的上下文,显示是两百 k 的 tokens。 最后一部分来测试一下 cloud code 搭配 deepsea v 四 pro 到底贵不贵,干活效果怎么样。 首先说一下,它是基于文件夹的工作模式,所以你需要先通过 cd 命令跳转到你想要它打开的文件夹,比如我的项目文件夹的路径是这个,就需要输入屏幕上完整的指令回车,到了这个文件夹后,输入 cloud 的 命令来启动它, 如果路径很长的话就比较麻烦。有一种方法可以简化一下, windows 用户应该可以直接在文件夹右键从当前文件夹位置打开终端, mac 用户右键的话是没有的,但是可以直接将文件夹拖拽到终端 app, 那 当前终端打开的文件夹就是这个项目文件夹, 输入 cmd 命令,可以查看当前文件夹的路径,然后输入 cmd, 启动 cmd 的 code。 第一次打开的时候需要确认一下这个文件夹,点击 yes, 后续退出的话需要连按两次 ctrl 加 c。 这里安装一个归藏老师最近开研的一个 ppt skill, 设计是比较美观的。 来到他的项目仓库,这是一个电子杂志风的网页 ppt skill, 纯网页形式,适合线下分享,但是不适合培训课件。这个 skill 的 名称叫做归藏 ppt skill, 这里提供了多种的安装方式, 最方便的就是直接复制这一段话,然后发给 ai, 选中这一段话, command 加 c 复制,然后来到 kol 的 对话界面, kol 加微复制,然后直接发送。 kol 在 执行任务过程中会需要一些权限的许可,遇到的时候直接选中 yes 就 可以了,它的框架对于安全保护还是比较好的。 整个的执行过程我就直接跳过了这里提示安装好了触发词,就是帮我做一份杂志封的 ppt。 ok, 我 在这里输入这句话,然后告诉他要做的内容就在当前文件夹中。在当前的项目文件夹中,我放入了一个 mail 文件, 内容是关于 code 的 使用方法论,然后回车执行。他会先查看项目文件夹的内容和 skill 的 使用说明,执行过程中可能会问一些问题,根据个人的需求选择就行。 我这里也跳过过程,大概直行了六分钟左右,一共生成了九页 ppt, 并告诉了我每页的布局和内容,以及怎么操作。 ok, 我 们直接打开浏览器来查看一下这个网页的 ppt。 这是第一页 codex 的 方法论,整体的设计风格确实是比较美观的,如果是个人制作的话,可能要花费比较长的时间,并且效果还不一定有他这个好。 第二页这里的话可能会有一点点问题,下方的文字有一部分被遮挡了,后面的页数大家可以具体去看一下内容觉得怎么样。 最后再来看一下安装这个 skill 以及制作这九页的 ppt 一 共花费了多少钱。 我在做之前是九点八九的余额,刷新一下网页,那现在还有九点三九的余额,一共是花了五毛钱。这里有一个每月用量的图标,展示每个模型花了多少钱。下面也有 token 的 使用详情,包括输入和输出的具体数量。大家觉得 deepsea v 四 pro 的 性价比怎么样?

有没有想过, cloud code 的 大脑到底能装多少东西?每次你打开 cloud code, 它并不是从零开始的,而是先把一堆东西全塞进脑子里,这个脑子就叫上下文窗口。 它装着你说的每一句话,读过的每一个文件,执行过的每一步操作。但它有个致命问题,容量有限,装满了就开始丢东西。就是很多人觉得 cloud 越聊越笨的根本原因。 在你还没打字之前, cloud 就 已经加载了一大堆东西。项目根目录的 cloud 点 md 规则、自动记忆文件、 mcp 工具列表和技能描述,还有你的各种设置,这些全部自动进入系统提示,一个词都没说,上下文就已经占了一大块,你甚至不知道它们已经进去了。 当 cloud 开始工作,上下文还在不断膨胀,每读一个文件都在往里塞。路径专属规则自动加载,每次编辑后, post to use 勾子还会再塞一段指令。 如果让子代理去做调研,它用的是完全独立的上下文窗口,结果只返回摘要和一小段原数据,主窗口就不会被大量文件读取撑爆。这就是高手和新手的区别,懂不懂用子代理? 当上下文快爆的时候, cloud code 会自动压缩绘画,把对话历史浓缩成一份结构化摘要。但问题来了,你写的指令压缩后还在吗?这取决于它们是怎么加载的。系统提示和自动记忆。从磁盘重新注入, 但带路径前缀的规则和子目录的 cloud 点 md 压缩后就丢了,直到再次读到匹配文件才会回来。所以,如果规则必须持久化,就别加 pass 前缀放到项目根目录。 最后怎么知道你的上下文用了多少?随时输入 slash context 就 能看到实时的分类用量和优化。建议 输入 flash memory, 可以 看到启动时加载了哪些 cloud, 点 md 和记忆文件。记住,上下文是你最重要的约束,控制好它, cloud 才能持续高效。关注我们,持续获取实用技巧,让你的开发更高效。

可劳斯扣的核心成员最近发了一篇文章,主题呢,很直接。怎么正确使用一百万的上下文窗口?很多人看到这件事情,都以为上下文越大,模型就越强。但真正值得关注的,不是他能够塞进去多少内容,而是当上下文变得足够长之后,管理上下文本身 开始变成了 agent 的 核心能力。为什么我这么说?因为很多人对上下文窗口的理解还是偏向于聊天记录,觉得窗口更大, ai 就 能够记住更多。 但如果你真从系统角度看的话,上下文根本不只是聊天记录,它里面还有什么呢?包括系统提示词和模型的对话、历史工具调用,甚至他做过的错事注意。这些东西呢,全都会放在上下文里面,影响着他下一步。怎么判断 上下文越长,不代表系统就越轻松,很多时候恰恰相反,越长呢,越容易分散,越容易迟钝。这就是硅谷反复提到的概念, context rot。 上下文退化,你可以把它理解成上下文越来越大以后啊,模型的注意力被摊薄了, 不是他完全忘了,而是信息太多之后,重点被噪音给稀释掉了。说白了,就是你看的东西越多,不一定判断的越准。所以第一个真正该看的点呢,不是一百万上下文很大,而是怎么处理好上下文污染这个事情。 第二个点,我觉得是对 session 的 理解,很多人还是把 session 当成一个持续聊天的地方。但真正做 agent, 你 会发现, session 更像是一个运行时的工作区,只要任务发生变化,哪怕上下文还没吃满,也最好不要一直跑下去, 因为你关心的不是上下文还能不能装下,而是这些信息啊,还值不值得继续留在上下文里面。 那第三个点我觉得特别关键,就是 rewind 的 功能。很多人发现 ai 做错了,第一个反应是补一句,哎,这个不对,你换个方法。但从系统角度看呢,这种修正方式其实很贵,因为很多发生过的错误啊,还是留在的上下文里面, 那就变成了在一个被弄脏的上下纹呢,继续错下去。而 rewind 的 价值就在于,它不是纠正,而是去做减脂,直接回到了更早的节点,把失败的分支呢砍掉,然后即有效的信息重新开始。这个差别非常大,前者呢是人工补丁的修复,后者才是真正的上下纹治理。 那第四个点是 compet 和 clea 的 区别。很多人觉得这两个差不多,反正都是清一清嘛,再继续。但实际上完全不是一回事。 compet 是 让 模型自己总结刚才的历史,然后拿着摘药呢。继续跑下去。好处呢是审视,坏处是他有一定的损耗,因为你在相信模型,自己判断什么重要什么不重要,可立则不一样,可立是你自己写一份新的 brief, 告诉他呢,当前的任务是什么,约束是什么? 哪些文件相关,哪些错误路径已经排除。一个是模型替你压缩上下文,然后另一个是你自己重建上下文,这背后的控制权完全不同。 而且最麻烦的地方在于,坏的 compact 往往呢不是随机出现的,它最容易发生在任务方向还不稳定的时候。因为模型刚刚经历了很长的调试,排错试错, 注意力本来已经被严重的拉散了,但这时候你再让它去做总结,它很可能把接下来真正有用的东西给丢掉了。 第五个点是 subagent。 subagent 真正值钱的地方呢,不是并行,而是隔离。也就是说呢,有些任务会产生大量的中间输出,这些过程本身是没有必要回到主上下文的, 你真正需要的只是最后那个结论。那最好的方法呢,就是让它留在独立的上下文里头,跑完再把结果带回来。 所以这不是一个小技巧,这是 agent 系统里面非常核心的架构能力,所以你会发现一个更底层的趋势上下。我们窗口变大了,不代表 agent 系统变强,真正让 agent 变强的是你有没有能力治理好它的工作记忆。

用可乐的扣子写项目有个痛点,复杂的点任务。一个绘画里面聊了三五十轮之后,他就开始抽风,原始目标会被遗忘。还有你半个小时前定的规则,他要么是忘了,要么是弄混了, 你还得再提醒一下他才能想起来。如果你有这个痛点,强烈建议安装普兰蒂威 feel, 这个是 q, 这个是 q, 完美复刻的麦纳斯的上下文管理方法,装上之后会在你的项目里面自动创建三个 markdown 文件, 这三个文件并不是让 ai 变得更聪明,而是让 ai 学会积累经验。第一个用来存储计划任务,相当于任务清单, ai 必须看完这个再干活。当前的进度在哪,最终目标是什么? 第二个用来存储调研结果与关键发现,相当于 ai 的 笔记本,比如发现了某个库的 bug, 或者是某个 api 接口变了,都会记录到这里。假设再遇到类似的问题, ai 会直接从这个文档调取记录,避免再次犯错。第三个用来存储操作过程的详细日子,相当于流水账,记录所有尝试的结果。 刚才跑测试挂了。挂在哪一行代码?上一次尝试修改了哪个函数,这主要是为了防止 ai 陷入死循环。有时候 ai 会反复的尝试同一个错误的修复方案。安装方法很简单,执行两条命令就能用了。 这个时刻就是对麦纳斯上下文管理哲学的完整复刻,简单但非常有效。点赞关注,每天获取一个新知识!

我们都知道大模型的 context 上向窗口是有限制的,比如说字节的这个 app 模型,它就是二十万 token, 不要以为二十万很多, 我就经常会触发这个上限导致 compact, 那 一旦压缩信息就会丢失,所以我们要及时的执行 clear 啊,尽量不要超过这个窗口的百分之五十。 那如何验证大魔星有没有忘记太早之前的信息呢?有一个小技巧, 就是我们在绘画最开始的时候给大魔星说一句话,随便说一句话,比如说你就告诉他我家门前有三棵枣树和两棵梨树,然后开始出正事,开始工作。那对话进行到中途时,你突然再去问他, 我家门前有几棵枣树,几棵梨树,看他还记不记得,如果不记得了,就证明你这个 context 可能已经瘫痪了,太长了。但问题是说,你很难保证你每次打开 cloud 都能记得 给他说这样一句这句话,怎么办呢?哎,可以借助有 hook 来完成。比如说我这个 hook, 它的触发时机是 session start, 每一个绘画开始时就会去触发这个 hook, 就是 echo 向终端去打印一个字母串, 那么我们在终端里面产生的这个字母串会直接作为 prompt 告诉 ai 大 模型。所以这样就方便嘛,好看下效果。比如说打开一个全新的 cloud, 一 上来我说你好哎,他给我回了个消息, 然后突然问了一句,我家门前有几棵树?他说,根据之前信息,你家门前总归五棵树,三棵枣树和两棵梨树。其实在整个对话里面,我并没有告诉他我家门前几棵树, 但其实呢,是在户客里面,我暗地的告诉他了,这是一个使用户客的小技巧。另外还有一个就是我们经常会开多个窗口,这是一个 cloud, 这是一个 cloud, 当这个 cloud 在 这个窗口内执行某项工作持续时间比较长时,我们很容易切换到另外一个窗口里面去。 而如果在原始窗口里面 cloud, 他 停下来询问我们某项工作要不要继续执行,他卡住了。而我们呢,一直在第二个窗口里面工作,没有回头看第一个窗口,导致第一项工作就一直暂停在那儿,无法继续。 那能不能够当它暂停时给我们发个通知呢?也是可以的,也可以通过 hook 来实现。 那配置 hook 除了直接去修改你的这个 settings, 接收配置文件之外,也可以直接在这个里面来完成。我们输入 hooks 回车,那这个地方它让我们选择什么时候触发这个 hook 啊?有很多时机, 比如说调用工具前,调用工具后, notification 只发送通知。好,我们就选择这个四,或者这边让我们选择 match 匹配器,就说刚才只在选择时机,那即使命中这个时机,也不一定就一定要执行这个回合, 它还得满足某些个 match。 那 此处呢,我们忽略这个 match, 我 们直接使用 match, 喔, 就不加过滤器嘛。回车,选择一,添加一个新的 hook, i 的 new hook 回车,好,那每个 hook 实际上就是一个 set 命令,我们直接把 set 命令输入在这个框里面就可以了。下面给了一些例子,比如说去格式化代码呀, 比如说去运行一个写好的 shell 脚本呢,比如说去运行一个 python 文件呢?都可以,那这个地方呢?我们让它通过 partial 给我们发一个通知,这个命令该怎么写呢?对于 windows 来说,这个命令就是,其实这个命令也是直接从官网上 拷贝过来的, mark linux 和 windows partial 好, 直接把这个命令再拷贝出来,然后呢,直接粘贴在这个方框里面。 回车,然后让你选择你要把这个 book 保存在什么地方,是保存在本项目里面,还是保存在本用户下面? project 就是 指针对本项目生效, user 就 针对这个用户,下面的所有项目全部生效。 这边 project 还分为 local 跟非 local, 那 local 的 话,这个配置是不会通过 get 提交的。同样是这个项目,你换台机器,这 book 就 没了, 而非 logo 模式,它是会提交到 github 上面的,就算换了机器,这个 hook 依然生效。此处我选择第一个好,然后就可以 escape 返回了。好,返回到最初这个主界面, 我来触发一下试一试。比如说写一个 hello world 的 go 代码,把代码写入文件回车,然后呢,我切换到其他窗口去工作去了, 就没管第一个窗口了。那么过了一会呢,他突然就会有这样一个弹窗,他说 close 需要你的 attention, 确定我返回到第一个窗口看这边是吧?他在等着我回复呢,是否要执行这个 go run? 我 选择第二个 yes, 执行,执行这个 shell 就 得到这样一个输出嘛? 插播一条上岸信息,我录制了一些编程课程,包括 python, 勾语言,区块链变化,还有智能体。我是一个人,一个公司,没有立即变轻的压力,所以呢,我可以花更多时间去打磨一门课程,我做事情可以考虑的更长远, 所有课程都是经过我的精心剪辑的,尽可能让大家花更少的时间达到一个更深的高度。感兴趣的可以进我主页橱窗进行了解,或者呢直接私信咨询。

cloud code 有 七十五个官方斜杠命令,但真正让你效率翻倍的其实就这十九个。今天我把每个命令的用法都给你讲清楚,最后还会给你一份完整的七十五个命令树杈表,记得截图保存。 先说对话管理,第一个是 clear 清空对话历史,你写完一个功能之后,最好新开一个对话,搞完一个东西就清空,再继续大模型会聪明很多,不要一直用一个对话搞到底。第二个是 compact 压缩对话历史,但保留在内,要当你上下文用到百分之六十到百分之八十的时候,就可以提前压缩。你可以指定保留什么,比如 compact, 保留数据库相关的讨论,这样其他不重要的就压缩掉了。接下来三个也是对话管理相关的。 resume 恢复之前的对话,直接输入就会打开一个选择器,你可以选之前任何一次对话继续 b t w 快 速提问你的 c c 正在运行的时候,输入 b t tiler, 加上你的问题,它会快速回答你,不会打断正在运行的任务。 rewind 回退对话,有时候对话搞错了,或者帮你改坏了东西,输入这个,就可以选择回退到之前的节点,代码文件也会帮你恢复。 effort 设置模型的思考深度,遇到复杂任务的时候,输入 effort high, 让模型多想想。简单任务用默认就行。 config, 打开设置面板,别名是 settings, 在 这里可以调整主题模型这些偏好,还可以把语言设置成中文。三个实用工具,命令 add dir, 添加额外的工作目录,比如你有关联项目,直接加进来 c c 就 能同时看两个项目的代码。 copy 复制 c c 的, 最近回复到剪贴版,太好用了,直接复制输出内容,不用自己选文字,复制格式也不会乱。 export 导出整个对话为纯文本文件, 比如 export chat dxt, 方便存档。 permissions 管理工具权限在里面,设置,哪些工具调用不需要确认,减少大量弹窗。不过我个人喜欢直接用 danger 模式跑省事。 review 审查 poor request, 提交 pr 之后,让 c c 帮你审查一下,管它有没有问题,审查一下总没错。 m c p 管理 m c p 服务器连接,你可以添加各种 m c p 工具来增强 c c 的 能力。 chrome 连接 chrome 浏览器做调试,前端开发必备。 loop 这个很有意思,让 c c 按时间间隔自动运行命令。比如我会设半小时检查一下 open c l a w 小 龙虾是否正常运行,不正常就自动修复。 in it 初步项目指南, 开始新项目的时候先跑一下这个,让 c c 了解你的项目结构,做到一半也可以。找一些大神的记忆文件,这个非常重要,你可以找一些大神的记忆文件,然后慢慢改成适合自己的记忆文件。越好, c c c 就 越懂你。最后两个命令, lock in 进入插件市场, c c 有 一百多个官方推荐的插件,都非常棒,选你需要的安装就行。如果没有插件市场,先让 c c 帮你安装一下。 excel 生成使用分析报告,每周用一次,它会分析你的使用习惯,还会推荐新功能和新用法,非常棒。最后,我把七十五个官方命令全部整理成表了, 先截图保存,这张包含了绘画管理、模型设置、上下文成本、文件操作权限、安全相关的命令。还有这张也截个图,用好这些命令,你的 cloud code 效率至少翻一倍。关注我,了解更多 ai 提效机。

跟 clock code 学顶级 harness, 大家好,我是老崔,今天我们继续扒开 clock code, 来看一下它是怎么做上下文管理。像 clock code 的 这种编程智能题,其实它本身上就是一个跟大模型多轮交互的循环, 但只要涉及到多轮对话,就有一个非常麻烦的问题,因为每一轮对话产生的中间结果都会进入下一轮的上下文,这就会导致我们的上下文不断的膨胀。 而半维形的上下文窗口,我们知道它是有一个固定的限值,比如说二十万 token 或者一百万 token, 所以 它是没法应对上下文这种无限膨胀的问题。那这个问题的解法就是我们今天要讨论的主题,上下文管理。 上下文管理它直接影响到 a 诊做任务的效果,尤其是做长任务效果。 alphabet 内部就做个测试, 一个好的上下文管理,它能使智能体的性能提升百分之二十九,而 pop 的 消耗能够减少百分之八十四。那怎么做上下文管理呢?它通过动态的调整模型能够看到的信息,从而让模型能够更好的完成指定的任务。 大模型在一轮对话中能够看到的信息可以分为这三个部分,第一部分是系统提示词,这个在之前的分享里边,老杰跟大家系统的拆解过,感兴趣的可以翻一下我前面的视频。 第二部分是多轮消息,也就是每一轮和大模型的交互过程中,我用户发的信息,模型的回复产生的中间结果,全部编成了一个多轮消息的簇组, 它在源码里边就是以 message 的 序组来存储的,那每和大模型完成一轮对话,这个序组就会多加一些元素。第三类是工具信息,是告诉大模型我有哪些工具可以供你使用。 在大模型看到的这三种类型的消息中,我们主要管理的是中间这一种多轮消息 bug 的,是怎么管理的呢? 总结下来就是这五级上下纹压缩,你上下纹在不断的膨胀,那我就通过各种各样的压缩来缩短你的上下纹长度,同时我又保证重要的信息能够保留下来,这就是上下纹管理的关键所在。 他获得的这五级压缩,从左到右也是他执行的顺序,依次会压缩的越来越重,保留的信息也会越来越少。他分别是上下纹的裁剪操作, 然后第二步有一个尽量的压缩,第三步有一个中等压缩,第四步重度压缩,最后还有一个补救的压缩。下面我们一个一个来看一下。第一集是裁剪,这个最简单粗暴,他就是直接把一段旧历史给裁掉,比如我现在消息列表里边有六条消息, 通过裁剪之后,我把三条没用的消息直接裁掉,最后就剩下三条,这个非常好理解。第二步是一个轻量的压缩,他针对的对象只有一种,就是工具调用的结果。 举个例子,我用查看工具查看了本地一段非常长的时间代码,比如几千行甚至上万行,几千上万行的代码就会进入消失列表。 短期看它很重要,因为模型要根据代码来定位问题,解决问题,但是任务往后面推进之后,这一大段代码就已经没什么价值了,而且它占用的 token 又非常多,很容易污染上下文,所以克拉扣的会优先处理这类臃肿的工具输出。 在具体的实现层面,克拉扣的分了两类,第一类是对于冷绘画,就是我六十分钟已经没有任何操作了,那我在这一步只保留最新的五条工具执行的结果, 其他的全部替换成一段默认的自辅传。那对于热绘化,就是我一直不停地在跟 colocod 进行交互,那这个时候 colocod 不 会直接改本地的 message 这个序组,而是在请求模型的时候,告诉他模型哪些工具的结果是需要剔除的,在模型层面做一个删除。 这样分冷热两种情况,其实是为了在热绘化的时候做一个缓存的优化,因为我们知道大模型会有一定的命中缓存的几率, 那我请求的消息数值不变的话,那就更容易命中缓存,从而节省计算成本。接下来第三种压缩类型叫折叠式图。折叠式图这个名称可能比较抽象,比较难理解一点,但其实我举个例子说明一下就很清楚了。比如 我用户发了一个提示词,修一个 bug, 那 在这个 bug 修完之后,其实我们就可以把中间大量的消息折叠起来。比如这里折叠后的信息就是已经读取了文件定位到了问题,并且通过了测试,已经完成修改了,并且给出了一个关键结论。 这里要注意还有一个关键点,他叫折叠仕途,仕途的意思就是他没有直接去改那个消息列表,而是在调用模型的时候,只给模型看这一条信息,但是我完整的消息还是存在我原来的那份消息列表里面,这样既减小了模型的输入, 也保留了完整的上下文。接下来第四步重度压缩。这一步就要直接改变我的消息数值了,我们还是举例来说明,比如说在压缩之前,我有很多轮的历史消息,有大量的工具调用的结果 token 已经逼进上下文窗口的预值了, 那这个时候就会执行一次重度压缩。压缩之后他会生成一条边界信息,以及一到数条的对前面的历史消息进行了总结信息,同时他也会原样保留最近几轮的信息, 最近的上下文细节还在,这样任务就还能继续往下跑。最后是一次补救压缩,如果通过前面四步的处理,在最后调用大模型的时候,还是出现了上下文过长的错误,这个时候克拉扣不会马上报错,而是会再进行一次压缩,然后重试之后 再决定是否把错误报出来。这次补救压缩的逻辑和上一步重度压缩的逻辑是一模一样的,只是他们在运行的时机上有所差别, 可以理解为前面的重度压缩是常规操作,而最后的补救压缩是用于失败之后的重试。好了,以上就是克拉蔻的上下文管理的全部内容。

在我们使用 cloud code 的 时候,如何在底部实时显示这个状态栏的信息呢?今天给大家详细说一下。就是第一行,它主要是大模型的名称,然后当前的时间点。 effort low 指的是推理努力程度, thinking 就是 当前是否思考模式,这个是 cloud code 的 当前的版本号。 然后第二行指的是当前的工作目录。第三行,这个 c t x 就是 context, 就 上下文的信息,百分之十七就是当前已已经使用的上下文的占比,百分之八十三是剩余的。这个 size 就 指当前呃上下文窗口的总的数量,然后 in 和 out, in 就是 总的输入的量和 out 是 总的输出的量,就是 大模型从你这个绘画窗口所有的输出就 total, total in, total out。 第四行 in and out 其实就指的是单次的 它的输入输出,单单单次印是十二 k, 然后输出只有九个,就像我刚刚说的,你好,你问有什么我可以帮你的吗?其实这就是九个投屏的量,然后 crt 和 r d 我 给大家列在这了。 crt 就 指的是 cash creation, input tokens 就是 写入缓存的投屏的数量,然后 k 呃 r t 就是 指从缓存读取的投屏数量,都是 api 响应的。对,然后这里面的信息它是实时变化的,我给大家演示一下,如果我们想切换 model 的 话,当前是 k 二点六,我把它换成智普的五点一, 这样就会实时的变化,然后 effort 也是实时变化的。对, effort 当前是 low, 把它调成 medium, 这样就会变成 medium。 对, 然后呃当前的输入输出,这是本,这是当次调用的嘛,所以我就用 kliya 来试一下 kliya 清空,清空之后这样应该是 你看 kliya 之后,它这样就会变成零和百分之一百,就当前的上下文只有百分之零和百分之一,呃,剩余的是百分之百,如果输入你好之后 刚有点卡住了,输入你好之后,它第四行就会有本次绘画的输入,输出嘛,所以第四行就会展示,呃,就会实时展示出来 in out, z, r t 和 r d。 对, 这就是这个我觉得是比较好用的,因为我们在使用模型的时候,其实上下文越多的时候,有很多研究人就是发现,当我们的 token 数量超过百分之三十到四十的时候,其实大模型就会出现,呃,语音信息不清啊,或者幻觉一些之类东西就会丢失掉,关键信息就会出现这种信息的缺失的问题。 然后,呃,这个怎么安装?我给大家也写成了一个,整理成了一个文档,也可以看一下。就是这边它是 stencil, 因为这个东西它本来就是为了适配 glotcode 的 官方的,所以我们本地安装适配的时候其实是会有点问题的。 然后这边采集点也给大家记录了,就是直接拉你状态,状态来的话,它就在终端底部的信息条嘛,它可以显示模型的名称,时间,这些上下文的使用率, api 的 用量等等。但我们最主要的其实就是上下文窗口的使用率,剩余空间以及 api 的 令牌,输入,输出缓存,数据限制等等。然后核心的字顿都是列在这了。对, 可以看一下它的字顿啊,它有绘画 id, 它当前的工作,工作的目录 current workspace, 呃, direct to directory, 然后这个是成本啊,是否使用思考模式脱离努力程度啊?包括这个累计输出,呃,累计输入 窗口的上限,然后这个有几个问题给大家,就是确认一下,就上下文窗口这边为什么始终是两百 k 呢?就是因为它这个是 cloud code 的 默认值,但第三方模型实际显示可能不同。但,呃, 之前他这边是为了适配 cloud code 的 官方的模型 versus, 但是像我们我买的是火山引擎的 coding plan, 他 就不会实时的变化。对,他这边就两百 k, 其实就是 比较不准确的,包括他这个刚刚这个百分比的计算,其实就是 in out 除以这个他这个标的这个两百 k, 所以 这边比如十二除以这个十二加三十六除以两百 k, 大 概是百分之十七的样子,所以他这边百分之十七。但我们主要是看第四行,就是当前输入了多少,输出了多少呢?就单词绘画 这样,其实对我们就帮助就比较比较大了。然后速率限制的话,它也是仅限于格拉库的 ai, 就 你这也是我当前在 这个使用模型过程中的一些体验啊,就是我们在适配一些,呃,比如国外的一些东西的时候,其实我们要很清楚的理解它的自身,才能明明白如何更好的落地化帮助我们使用,而不是只有这样一个形式。但是我目前比较清楚了,这些自身就可以让它调整一版自己使用的这个东西,也可以跟我这不一样。 对,然后这些颜色的代码啊,这些坑点我已经给大家踩过坑了,大家直接呃在我们这些借鉴其实就可就可以了。像它中文路径,它显示乱码,因为有的文件夹里如果是中文的话,它会显示乱码方块,它这个脚本就会显示不出来,就是脚本就会失效,就显示不出来,比如这个字顿的位置。搞错呀, 它不是顶层子盾,它是这个 context window 内部的这个子盾其实就是,呃,就 context window 它是顶层子盾,但底下还有一个,还有一些嵌套的子盾这种这种坑已经帮它大家踩过了,大家配置的时候注意一下就可以了。

让 cloud 做一个稍微复杂的任务,他做到一半会忘了自己在干嘛。不是 ai 笨,是上下文窗口就那么大,塞满了就开始丢东西。 planning with files, 把文件系统当 ai 的 外部记忆,做完的状态不会丢。 上下文窗口是 r a m, 文件系统是硬盘, r a m 会丢数据,硬盘不会。 minus 就是 用这个模式做到被收购的,把任务状态全部持久化到,文件不留在上下文里。 planning with files, 把这个模式打包成 scale, 装上就能用,不用自己配。装完以后,每次多步骤任务它先创建三个 markdown 文件,再开始干活。 卡斯特下划线 plan, 点 m d 是 任务计划目标,拆成可勾选步骤,每步有验证标准,做完打勾。 findings, 点 m d, 即分析过程中发现的信息不会被上下文压缩挤掉,随时可查。 progress, 点 m d 是 进度日制。 clear 之后读一遍,三十秒恢复上下文,接着干 光写文件不够, cloud 不 主动读文件,写了也白写。 hooks, 解决这个 pre to use hook, 每次执行工具前自动重读 task。 下划线 plan, 点 md, 防止跑偏。 post to use hook, 提醒更新进度。 stop hook, 验证所有步骤完成才允许停止。还有 action rule, 每两次浏览操作后,必须把发现写到 fiddings。 点 md 适合用的场景,三步以上的任务,研究型任务,需要大量工具调用的任务。简单问答单文件编辑不用装,创建三个文件的开销比直接做还大。判断标准就一句话,任务复杂到 cloud 可能会忘记目标,就该用。