聊一下最近龙虾出来以后,大家比较关心的 token 的 问题。其实咱们在日常的工作当中使用这个 codex 或者这个 cloud code, 咱们普通人一般都是用它解决咱们生活当中实际的问题, 不会去大量的变成,所以说消耗的 token 都是比较可控的。咱们正常使用的时候消耗 token 比较多的,我感觉是在调试这一个 skill 的 时候,因为我现在这个自动生成内容的 skill 可能有十个环节,中间还会有搜索的环节, 在调试的时候这个流程会比较消耗 token, 今天上午主要是在调试耗的比较多, 但是一旦你的这个 skill 成型了,正常运行,你让它来批量工作的时候,其实消耗的就没有那么多了,因为这一个 skill 它不是一直是消耗 token 在 工作 这一个 skill 比方说有十个步骤,但是有六个步骤是它根据你的需求已经帮你写好了自动化的 python 代码,当你在工作的时候, 它只起到一个调用派森代码的一个作用,而那些需要它来,比方说它来产出内容,这些是需要消耗 token 的。 就拿我这一个生成内容的 skill 来举例子,它的搜索环节其实也是调用的派森代码和 api, 是 不用不消耗这个 token 的。 还有一步我让它进行注册的检测文章出来以后检测一下 ai 率,检测 ai 率的时候,其实它也是用的一个派森自动化的程序, 而不是 codex 实时识别我的电脑桌面,一步一步操作,其实这一步 token 的 消耗也不大。说到这儿,当你的 skill 产出的内容不满意的时候,尤其是出现一些立即的错误, 你就要去检查一遍,你是不是把需要让他参考的东西结果写到了他的 python 程序里边,就成为了一个固定产出的内容。你要确保这个流程当中需要他判断的环节一定是 ai 来执行的,而不是直接使用的 python 固定程序。最后总结一下 现在的 ai, 你 想让它帮你自动化的干活,你只要不使那个花钱还干不好事的龙虾使用 codex 或者 cloud code, 它的 token 的 消耗是咱们普通人都可以接受的。
粉丝5.4万获赞1739.5万

最近有人问我说 open curl 只打一个 hello, 直接花了五毛钱,而且康派克的还没有用。今天教你两个命令,直接查出原因。先说原理,因为模型看到的并不是一句话,而是一整包的 context 上下文。 上下文包括三部分,分别是系统提示词,二是历史对话,三是你的这句话以及上去的工具结果。 第一个命令啊,叫做 context list, 它可以直接看到 token 的 分布,包括啊,你的系统提示词大小, skills, tools 以及 list 等等。这么一看,一轮至少要两万个 token 起步。那为什么 compact 没用呢?因为它只压缩 history 部分,系统提示词部分根本没动。 第二个就是 context detail, 它会把所有的工具 skill 文件注入全部列出来。最后一步就是你直接丢给 open crawl, 说 这是我的 context detail, 给我设计详细的降本方案,这时候它就会帮你经典 skill 和 work space 的 文件。所以你的小龙虾还遇到哪些问题?

我引用了两亿的免费托盘来养龙虾,前两天发的关于免费养龙虾就是 open globe 的 视频火了,呃,很多朋友私信我,我也帮很多朋友解决问题。那今天答应大家出一个完整的视频教程,我是用的 mac os 的 系统,然后呢,接下来是以 mac 教学为准,而 windows 的 话呢,可能大家可以问问豆包或 tipisk, 一 步一步截图问它都能解决的。 那可以看到这里我是消耗的是零元,对,然后我之前的 a p i k, 嗯,网络速度也慢了,不好意思啊。对,你看到也是零元的状态。嗯,然后我们进入到那个 opencode 的 官方网站,对,它其实是 opencode 点 ai, 然后有个文档,上面呢,其实会有一些安装的说明, 因为我已经装过了。看,这是我的小龙虾的 space 状态,可以看到它是正常的一个状态。所以说我们这边重新带大家走一下那个新手引导的一个配置,然后其实我只要复制这个命令,然后打开终端里面, 然后输入这样一个重置的新数引导,那就相当于会进入到配置过程,它是麦上的终端,终端 app 搜索一下就可以了。然后我们重新进入引导,快速引导,然后更,这里因为我之前配置过,所以说会有之前的配置,那我们这里选更新配置, 到这一步呢,就会选 model, 就 模型的供应商啊,它这里有 open ai, 有 mini max, 也有谷歌,那我们是 open rota, 免费的模型就选 open rota, 这里有,然后大家可以看到有这样,这里有这样多非常多的模型,而我们的模型是什么呢?就是, 呃,叫做那个 jason 星辰就 stay fun 三 new flash 就 free。 呃,它其实是这样一个模型 id, 哎,复制一下。对,它现在在那个,呃小龙虾的榜单上,哇 啊,可以看到,就是已经消耗了一点五四五 t 的 图片,免费的。对,就是排名了很多天的第一。那么回到刚刚的配置界面, 呃,这里呢,其实是可以通过那个方向键就上下左右的上下来控制,因为它太很多,就是你一个一个找到肯定能找到的。但是呢,它这里提供了一个就是输入,对,输入 enter model。 那 我们这里选进去之后呢,把之前的这里删掉,因为要留一个 open road 的 默认的前缀,所以说我们这里,哎,对,输入进去, 这样就 ok 了。呃,我之前设置这里到这个环节呢,是设置那个我们用哪个 i m 去控制去连接?我们这里先跳过,然后这里的搜索呢?其实也可以先跳过, 然后跳过之后呢?就是,是不是那个呃,调调成近的,那我们这里选择一直跳过,然后这里是 no, 对, no, no, 这些是一些具体的一些设像,我们选 no, 但有需要的话呢,大家可以呃,就说 自己去设置。那我们只是今天先讲模型的过程,那我们选重启。哎,对,然后这个,呃,小龙虾的服务就在重启,我们刚刚重新走了一遍新手的设置。那,那我们现在等待它重启。对, 好,它就这里重启成功了,然后那我选择打开网页, open the web y, 哎,它就会自动打开网页,对,就刚刚的网页重置了,然后我们这里输入一个 states, 相当于就是可以看到它当前的一个状态, 然后返回一个当前的状态。 哦,好像说错了秘密了,应该是 s t a u t s? 不好意思 啊,反正没关系,它好像识别了。嗯,对,可以看到我这里配置的是基于新成的模型,因为 p i k 呢,其实我之前已经配置过了,所以说它,呃,不会让我重新再配置。 对,这里显示一些中文。对,然后这里的模型的配置呢?其实我们就回到 openroot 点 ai 这个网站,然后呢去创建一个新的 a p i k, 比如说我们今天是来自于抖音,嗯,点抖音,然后这里的信用额度限制呢,我们选个零点一美金,相当于其实花钱的话也 最多就七毛钱。然后这个额度的重置呢,我们不用不用管它永久都是零点一美金,就是七八毛钱,过期时间一年。那相当于我们就会有一个 a 四值大小按钮。很多朋友也都问我怎么复制, 哎,这就复制好了。这个 k 呢,其实是是在刚刚的配置环境里面,选模型的环境里面,它会让你有一步调配置的,因为我刚是已经配过了。然后呢,如果是你已经是正常的模型了,其实本质上你已经配过小龙虾的话,你在这里输,输 k 给他,然后输模型给他,然后把那个 open source 这个网站输给他,其实也能切换,正如正如我刚上一个视频讲的, 还有就是说,呃,我们在那个呃 open note 的 这个网站呢,它不光,它不光有很多的那个付费模型,它其实是我们在 mod 这里去输的话,你输 free, 它除了接下来三点五,还有很多免费的模型, 对,包括之前的智普的四点五的 air 是 免费的。英文答,有很多模型其实都是免费的,包括 open air、 gpt。 其实也有免费的模型开源的,包括千问。啊,这个千问三呢?其实是,这是一个专门用来编程的一个模型,也是免费的。其实有很多,大家其实可以是一个个去找。对, 然后技能商店的话呢?呃,腾讯最近两天出了一个,呃,中国版的 skill hub, 呃,它本质上呢,其实是在可融 hub 技术上呢,其实做了一个技巧战,呃,这个其实也不错的,然后,呃,你也可以去那个可融 hub 去下载一些技能。呃,腾讯这个专为中国用户呢,它会有个榜单, 你相当于就是你看这里有一段话,看见没有,相当于就复制下来。呃,发给小龙虾,对,他就会去检查,帮你安装这个技能商店,然后你就可以和小龙虾对话,去在里面找更多技能去安装了。我是之前已经安装过了。对,那我们今天就这样。

前两天有粉丝跟我吐槽说用龙虾太费偷啃了,平均一小时就要烧掉一百块,问我有没有节省偷啃的方法。今天就会分享我们在跟龙虾对话的过程中常用到的三个命令,把这三个命令用好,能帮你合理的节省偷啃用量。第一个命令就是杠 status, 这个命令的话呢,是用来指示检查偷啃消耗情况的,当我们发送了这个杠 status 这个命令之后呢, 他就会回复我们这几行信息。请重点看一下这个 context 当前上下文占用的比例,如果你发现下文已经快满了,就要让他去总结和记忆,那让他进行总结的话呢,我们就是会使用到第二个命令放 compact。 这里先给大家普及一个知识点,当我们在聊天界面跟龙虾对话的每一条消息,龙虾都会记下来,存到一个叫 scissor 的 文件里,当你输入一条新的消息给他的时候,龙虾就会把最新的一条消息加 scissor 里面保存的历史消息一并发给大母星,这样的话就会导致我们 to call 的 消耗会增加。那你使用 compact 这个命令是来压缩历史对话的,它压缩的话就是龙虾在 scissor 里保存的历史消息。 你看,当我发送完这条指令之后,他五九 k 的 对话内容压缩到了二点六 k, 就是 节约了很多上下文的空间。那第三个命令就是杠六,清空上下文,开启全新的对话。这个适合的场景就是当你的龙虾完成了任务一以后, 你又给他布置了任务二,这个时候的话呢,是其实是需要自己评估一下,如果任务一和任务二没有任何关系,你就可以使用杠六这个命令来清空一下上下文。 我不清空一下,龙虾在做第二个任务的时候,就会混着你任务一的对话记录一起传给大模型,那这样其实也是一种偷啃的消耗,浪费了你的偷啃,同时速度也会变慢。 当我发送了杠六这个命令之后的话,他给我反馈了这样的一条提示,就是告诉我可以开启一个全新的对话了。一个杠六的话,大家可能会担心,这样做我的龙虾不就失忆了吗?重要的信息我要让他保存下来,怎么办呢?那这个就需要 memory。 当我跟我的龙虾说了这样的一段非常重要的消息, 加上这样的一句话,以上内容存入 memory, 这样这条重要的消息呢就会存在 memory 里。存进去之后的话呢,你再使用前面的杠 compact 杠 new 命令,也不会对它产生任何影响了。最后建议大家还是要选择一个 ottoman 模型套餐来用,像是阿里云百联的 ottoman, kimi 的 ottoman, 评价都不错,性价比也挺高的。

大家现在各种龙虾养不起啊,但是都在说一件事, ok, 太贵了,太费钱了啊,有的小伙伴说跟他说了个你好,五块钱都没了啊,但是我们还是有些技巧能够让养龙虾的费用给降下来的,我自己从一天两百多美金,三万的费用已经降到了几十美金之间,我懒的时候就剩个十美金左右。 好,下面是三条养龙虾省 token 的 技巧啊,一定要点赞加收藏啊!接下来第一个呢,叫善用命令行,那什么叫命令行吗?就是这个龙虾在设计的时候啊,它是有几个特殊的命令行的,这个命令行是不经过大模型直接发挥作用,它是直接跟龙虾驻留在电脑上程序发生交互的,所以首先它本身不消耗任何 token。 第二呢,他的优先权是高于大模式,所以啊,你看我为什么打的你好啊,有时候就会一下子消耗那么多。因为龙虾每次在跟你聊天时候,他要把各种的记忆给装起来,比如你是谁,这个有什么规则要他遵循的?还有刚才你们聊了什么,都装在他的这个 memory d m d 记忆里,所以他记忆就会越来越庞大。你一跟他说个你好,他几十万字先来想一遍,再跟你说话,每句话都想一遍,你说这 top 不 就飞起来了吗?所以呢,这个斜杠命令符呢,有几个大家一定要记住啊,一个是斜杠六,斜杠六是干嘛呢?就是横写对法, 之前的很多对话里的上下文他都不要了,就是他不用想那么多事,只要知道主人谁,我在干嘛,所以这是很能省筹难。那还有什么斜杠 restart, 那 这个秘密就厉害了,经常有的龙虾不理你,你也不知道他在干嘛,或者说个你好就消耗上下文太多。斜杠 restart 相当于把整个龙虾给重启了,不管他在干什么, 这个命令是特别高优先级的,他只要把这个 user 点 m d 还有搜点 m d 读进来,就可以可以开始对话了,随时有大量的节约。还有个叫斜杠 stop, 就是 有时候你跟他布置的很长任务,还是来回想,我觉得他想错了,想错了怎么办?那么你打个斜杠 stop, 他 停下手头任务来响应,把前面刚才要划的头很线省下来。还有个斜杠 compress 对 你的记忆啊,不管怎么样,他他还是要记啊,用 memory 点 m d 当记了很多以后,这个一说话就是几百 k 几十万字在里面的时候,但记了很多以后,这个一说话就是几百 k 几十万字在里面的时候,但他压缩一下他的记忆。 至于怎么压缩,你不用管了,大模型帮你压缩好,压缩就大事都记得,小事不记得再说,再去找之前的记一下。所以这几个斜杠命令用好了哈,是能够帮你非常有效的省很多。 tok 的 第二个技巧叫什么?叫做能用程序搞定的不要用大模型搞定,啥意思呢?就有时候你布置给容下一个任务, 他就开始给你想了,噼里啪响一堆,然后给你自言自语,那燃烧的都叫 tok 的 最好办法,什么就有的事你让他做完一遍以后,你马上让他写成代码,说你下次先运行代码,代码代码不行,大模型再上。 代码是不消耗托盘的,在你很多重复任务的时候,你首先问大模型怎么问的,就是你能不能把它写成段代码,写成脚本,写成点 python, 让他去写成代码去帮你干件事, 这代码一旦形成,你再跟他说继承 skill, 这样的话他下次就直接掉代码。那我举个例子,在外有一天没怎么跟他聊天,花了我一百多美金,我说这怎么花的,大哥给我看看, 有他去看说,哎呦,当时我们有个团团邮局,就是他们那个龙虾煎饺的邮局,互相学习东西,我为了快速学习,我五分钟检查一次邮件,就每次检查消耗好多 top, 今天的 top 全消耗在这。我说大哥,你检查邮件为什么要你自己亲自上呢, 对吧?你是个大模型啊,检查邮件让脚本上啊,脚本发现有新邮件,你才上没五分钟,拿大模型去跟着邮箱接口对一遍,读读有没有新邮件,这完全没必要啊,我说这个能用脚本就不要让大模型自己上, 我都变成了这个我们家三万的一个规则。这也是你和你家龙虾达成一个工作默契啊,因为程序代码写好了,他跑只消耗 cpu 资源,不消耗它,尤其在这种多次重复的任务里面, 对吧?你一定要跟大漠星商量,怎么能够用脚本去检查,比如刚才那个邮件检查,包括有的人喜欢看新闻简报,对吧?其实很多地方都是用脚本去完成的, 你跟他多讨论讨论啊,帮你省钱,头肯就省住了。第三个秘诀啊,叫用好不同版本的大模型,各司其职,什么意思呢?就是今天对吧?真正贵的是那些海外大模型,顶级大模型那真叫贵啊, oppo 是 真好用啊,那一说话我也心疼啊, so, mate 也很贵啊, 但是呢,你的很多任务是不需要这么贵的模型。其实我们今天的国产大模型便宜又好用,价格低,量又足,在完成大部分任务时,他们足够用。 比如说你要看份新闻简报,要做一个什么网页模板,那怎么办呢?有几个方法,一个方法就像我们家三万呀,形成一个叫多 a 镜的团队,就从一个龙虾变成多 a 镜。怎么变成多 a 镜呢?我们三万龙虾日记有奖,也可以去我们的三万点 a 啊,去看多个 a 镜的,就相当于你一只龙虾变成多个角色。有的任务那必须贵的上,比如说今天写程序,写代码,可能 还是某些模型好,但是在整理简报啊,搞一个报告给你啊,做一份调研啊,甚至搞个 pdf 文档啊,让他用国产模型。我跟三万就商量了,我说每天我在网上看资讯,这资讯我们起一个叫爬虾,用最便宜的模型, 国产模型几个都不错啊,随便上一个,每三十分钟给我检查一遍。哎呦,这个费用从几十美金一下到一天就几美金,便宜太多了,效果也很好。所以这是一种就是多 a 件,然后在不同的任务中给他分配不同模型。还有一种是什么呢?就是说其实我家三万,我们公司很多人跟他聊, 后来我发现,哇,每人一聊,我的头壳就就烧起啊。后来我跟三万聊了以后,知道他在不同的对话里面是可以用不同模型的。 哎呦,我听着这可太搞笑了,我说这样三万,除了跟我聊啊,你用这个最好的模型,你跟我们同事聊,用一个便宜又好用的模型就行了,因为本章是收集同事给我的建议嘛,对吧?你只要把这个应用带回来就行,传递员,这个不需要那么高文化程度,只要把话如实带回来就可以。 所以跟不同人聊起不同模式,这里面还有第三条路是什么呢?就是你要知道我们的龙虾在调用这些任务时候,他是可以启动贼镜,他自己就可以启动,你说我配置多一件,他很麻烦,那没关系,你就可以指定某一个任务用什么模型,比如说我现在要一个什么关于三幺五主题晚会的简报,你现在启动个贼镜帮我干,你用什么什么模型,直接给他起定, 他就用那个模型去干,对吧?所以你有多种方法用多个模型会用的方式来降低你的托克,好吧,这就是我啊,这个滑雪,这个摔伤,在家半个多月啊,总结的各种这个沈托克的秘籍啊,你听懂没有?点赞收藏啊,以后给你们带来更多的养龙虾技巧。 刚刚那段沈托克视频是我一个人坐在轮椅上面。坐在轮椅上面啊拍的,我现在是一个人轮椅走天下,正好体会一下残障人士,虽然我是临时残障人士这个无障碍通道整个社会给予的关爱, 整体来说,我现在觉得还是很 ok 的, 人间处处有真情,人间处处充满爱。我会把一个人轮椅走天下的过程到时候也剪辑出来跟大家一起分享,敬请期待。养龙虾就用 ecclo。

养虾人实测三组数据,传统方案一句指令消耗二十万, to 肯花费零点零八元,优化后直接砍到零点零零二元。这个 colding plan 让成本立降百分之九十,三天实测从每天十二元压到一点三元。 支持豆包、 mini max、 kimi、 智浦、 deep seek 主流模型,也支持 open claw、 tray、 cursor 等主流工具。跟着我做,一共四步,第一步,订阅 light 套餐。 第二步,创建你的 api key 确认模型。第三步,以 open cloud 为例,把 api key 和模型名称填进去。第四步,在终端执行配置命令,然后你就可以直接跟他对话,一点不用心疼偷啃消耗了。流程已整理好,留言分享。

兄弟们,这个腾讯的 qq 我 今天测了一下,然后通过微信连接,可以用微信给他发消息。我们看一下,我今天问了他几个问题, talking 每天可以使用四千万。然后我今天问了他两个问题啊,三个问题。第一个查询我主页的粉丝,他说查不了,因为有这个联网沙箱联网限制。然后问了他三个问题, 消耗了二十四万 toking, 吓死了,一共就三个问题,他消耗了二十四万的 toking, 搞笑呢是不是?你看第一个无法访问,第二个上海天气,第三个 他回答这个问题,醉了。我最后重申一下我的观点,任何 club 都是乐色,个人不要在这上面浪费时间了。

今天分享一套 opencloud token 零失忆优化攻略,长期运行记忆无限增长, token 不 爆炸,先看 token 怎么爆炸的。 l l m a p i 无状态,每次请求携带完整历史六大元凶, 历史对话累积占三十到百分之四十,越聊越长。指数级增长工具调用结果占二十到百分之三十。大段文本塞进上下文 工具 schema 全量注入占十到百分之十五。所有工具定义一次性加载 thinking 思维链占十到百分之五十。推理过程本身级号 token skill 技能描述占五到百分之十。 skill 多了也费 token 不是 越多越好, 子代理并发,多个同时运行,消耗直接叠加。核心优化第一步, agents md 定义记忆规则,上下文保护分层架构 agent md 定义规则,上下文占用保护记忆分类规则,只记录锁影,不记录具体内容,从锁影文件获取 核心优化第二步, memory md 分 层全量加载,写越多越费 token, 所以 只做锁影,其余按需实际的 memory md 可以 看见记忆配置,只放锁影,不放细节 缩影层 memory md 唯一全量加载,保持四十行以内。项目层 projects md 按需解锁 基础设施层 info md 配置速查按需加载教训层 lessons md 踩坑分级,避免重复犯错。 滤质层,每天一个文件。 memory 下划线 search 解锁,只有锁隐藏占 token, 其余全部按需核心优化第三步, memory 下划线 search, 让分层记忆真正跑起来的解锁引擎, 旧模式全色 prompt o 嗯,限性增长新模式向量解锁 o log n 记忆无限,偷看不长。 memory flush 负责存 memory 下划线 search 负责取 memory 下划线 search 配置 provider 设为 local, 用本地嵌入模型,无需 api key 离线可用。核心优化第四步, compaction 压缩历史 memory flash 压缩前先持久化关键内容,双保险防失忆。 memory flash 开启预值三万 token 超过时先存关键内容再压缩。核心优化第五步, context pruning 不 删历史,只修剪过期工具输出,减小请求体积。 cash t t l 模式,四小时前的工具输出自动修剪,保留最近三条回复。核心优化第六步,模型分级简单任务轻量模型,复杂推理上高端最直接的省钱策略, 复杂推理架构疑难, bob 上 opus 日常代码 sonnet 或 crm, 性价比最高, 搜索整理翻译 haiku 或 minimax 就 够,分级下来稳省六十到百分之七十。核心优化第七步,子代理并发控制多个子代理同时跑 tocan, 直接叠加必须限制 mexican current 设为四,限制同时运行的子代理数量,避免消耗失控。核心搞定三个进阶招数在压榨 工具,全线精简 tools allow 或 deny, 只注入必要工具,减少 stamina 体积。 提示词缓存 prompt caching cloud 专用缓存,命中成本降百分之九十。关闭 thinking, 简单任务,禁用思维链,省的都是钱。配置搞定,日常习惯也重要。 每十到十五轮 compact 压缩上下纹,新任务 reset 清空,轻装上阵,独立子任务 spawn 隔离,不污染主绘画 status 随时查,消耗心里有数,高频踩坑 session reset 失忆陷阱,昨晚铺好的事第二天全忘了, 默认 daily reset, 凌晨四点断裂,所有记忆都会清空,改成 idle reset, 私聊七天,现成一天,群聊两小时,跨天连续性完美。 来看看具体配置作用域设置为 per sender 代表手动命令才重置。私聊设为一天,群聊设为两小时,从此告别失忆 四个字,存取押省 memory flush 存 memory 下划线 search 取 compaction 加 pruning 押模型分级省。 以上就是所有配置,觉得有用点个关注,有问题评论区见。

账单来了,账单来了,兄弟们,二月二十四号开始用小龙虾,第一天的免费额度一千一千千是一百万,一百万个 token 第一天就烧完了, 然后从二十四号到二十八号用了。 哇,这是多少?一万千一千万个头肯,然后多少钱呢? 钱在这里,三十五块钱啊,总共花了三十五块钱。三十五块钱,小助手给我干了些什么事情呢? 就是这个女人形象,还有这个小龙虾形象,还有这一个小虾形象,就这么五天,小虾就干了这么点活, 花了三十五块钱。这个 open claw 你 说好玩吗?也没什么好玩的,费钱不?感觉好像有点费钱。

是不是我用错了,一百万 token 做不了一个小项目,我买的十五美金的额度,半小时就用完了。呃,我知道了,看来大家对一百万 token 的 概念还是有点模糊啊,我来帮大家梳理一下。一 token 呢,大概是一个中文汉字,或者是四分之三个单词, 一行代码呢?我们按照十个单词来算,大概就是十到三十个 token, 那 一个文件我们按照五百行代码来算,大概是五千到一万五的 token。 现在我们的前端项目都用了 ts, 那 些类型声明其实都是通过杀手, 实际的通过量可能更多。假如我们在操作的是一个中型项目,大概是一百个文件,那就是五十万到一百。五十万的 token。 中型项目 ai 还是能够理解的,如果说是一个大型项目,你想让 ai 理解都理解不了, 上下文就爆了。所以对于 ai 来说,去理解一个中型的项目,一百万 token 啊,其实也就是几分钟的事啊。现在顶级模型的价格,每百万 token 海枯石一刀,骚奈特是三刀,呃,奥普斯是五刀。所以你用 ai 写代码的话,几分钟就有可能会花你个十几或几十块钱。 怎么办呢?也简单吧,就是你一定要用艾特符号,用井号去控制好上下文,遵循上下文最小化原则,也能让 ai 输出的结果更准确。所以平时我们在用 ai 编程的时候,一定要有一个 token 的 消耗意识, token 就是 钱,省 token 就是 省钱。

那 token 到底要怎么定价呢?一度 token 到底要多少钱?那我们给 token 定一个新单位,一百万的 token 等于一度 token, 那 现在一度 token 的 话,最便宜的要八毛钱。那我给大家分享一下,市面上主流的 token 大 概是什么价格?就按照我们刚刚聊到的,一百万的 token 等于一度 token, 那像豆包的话,呃,一度 token 差不多是八毛。嗯, deepsea 在 一元左右,国外的像 chat 的 gpt 在 十五元一度,然后 gmini 更贵了,差不多要十八元,所以你看国内外的这个模型呢?嗯, token 价格其实相差还是蛮大的, 所以对于企业主户,我们个人玩家来说就很清晰了。如果你追求量大,很便宜的话,就用国内的大模型。如果你要处理一些复杂的任务,或者是一些专业度比较高的,你就优先选择国外的模型, chat 的 gpt 啊,然后 gmini 这些。 所以对大家来说,一旦我们开始计算 token 的 成本,那 ai 就 不再是管玩具了,而是真正的生产力的工具。 那我们企业在接入 ai 时,接入这些大模型的接口,嗯,就不是在跟他闲聊了,而是要把他真正用到业务里。比如说我们在 c d 行业,现在有一些企业对于一些基本的客服运维的问题,都已经接入了大模型,他可以随机的去切换业务或者是下发业务。那其他行业,比如说一键设计海报,或者是优化你的这个审稿、改稿文案这些,他 它的每一个优化的条件和建议,其实都是在背后在燃烧 token, 那 在今年的二零二六年已经不是在比谁的这个大模型大的年代,而是在比谁用最少的 token 设计出最佳的方案的时代。

openclaw 竟如此消耗 token? 看到这样的 token 日账单,你的第一反应大概是今天就教大家 openclaw 高阶玩法, 做好记忆向量和记忆蒸馏,让你的 token 账单节省百分之九十五。同样配套文案教程必须安排。 openclaw 对 token 的 消耗主要源于对唱下文的关联依赖,所以你的对话越长,输入 token 就 越多。节省 token 最重要的是优化记忆。我们将教程里这六个工具和一个云端 api 详细解读。 第一个, qmd, 本地知识库,精准向量剪辑,不给 ai, 未整文件,只为核心片段。 token, 可节省百分之八十五到百分之九十五,难度指数三颗星。 第二个, excel search, 纯净网页搜索,直接返回纯文本,去掉 html 垃圾网页内容抓取 token, 可节省百分之七十到百分之九十,难度指数一颗星。 第三个, memory optimiser, 夜间自动压缩对话记忆,防止 solo 点 m d 膨胀。 token 可节省百分之四十到百分之六十,难度指数四颗星。第四个, index, 一, 轻量级代码解锁,只返回相关函数块 编程 token, 可节省百分之八十,难度指数两颗星。第五个, corex, 安全熔断,防止死循环,烧光钱包,你百分百需要难度指数两颗星。 最后一个, corecompact, 官方内置自动压缩对话,防止溢出,整体节省百分之五十到百分之七十的 token, 难度指数一颗星。 除了上述本地化配置外,还可以选用云端 memos api, 这个免费的云端记忆 api 可以 实现向量加 r a g 智能解锁。我的机器人旺财也总结了它其他优势。 最后看一下教程总结你的 token 成本优化技能学会了吗?后续同一主题,有新的好方法,我会直接更新,在评论区关注我,小白也能玩转 ai。

聊一下玩这个 openclaw 养小龙虾怎么样去省 token? 现在大家呀玩 openclaw 有 个最大的问题就是这玩意太费 token 了 啊,就好多人他现在想找一些免费的便宜的 token 去用,但我不建议大家这么去做啊,因为如果你执行一个特别复杂的任务,你用的是一个便宜的啊,这种 token 也就这个模型,它肯定不是最强的嘛, 那实际上他根本就处理不了你那些复杂的任务,他处理不了这些复杂的任务呢,小龙虾他就会不断的就多次的跟大漠神交互,那反而有可能会消耗更多的头壳。所以说呢,找便宜的头壳呢,不是解决小龙虾呃非头壳的问题的一个解决方法。那我们到底要怎么样去节省头壳呢?有几个方法跟大家分享一下。首先我们说啊,就是为什么小龙虾这个玩意这么非头壳,实 际上啊,就是我们每一次在跟小龙虾这个玩意这么非头壳。实际上小龙虾这个内部呢,他会把 很多的这个系统级的这个提示词都给带上去,比如说你一开始定义他的什么名字呀,他的身份呀,你自己的信息啊,情况啊,这些都是作为一个背景的提示词,包括你在小龙虾里面装了一些其他的啊,一些 skills 啊,或者工具啊,这些都是一个上下文。 你每次对话的时候,这些内容都会被 open claw 一 起发送给大冒险。所以表面上看,你跟这个小龙虾聊天的时候呢,就是那么几句话,对吧?但实际上大冒险那边接收的信息可比你那几句话多多了, 所以说这也是它非常浪费 token 的 一个原因,所以呢,就是了解上面这个背景之后,那我们第一个能够节省 token 的 一个方法,那就是对 opencloud 的 系统的提示词进行一个瘦身。在 opencloud 的 那个工作台里啊,其实存放了我们所有对 opencloud, 就是 你这个小龙虾的一些呃规则, 你比如说这个 agents, user, soul, identity 这些文件呢,都是我们对它就是不断的重复当中,它会记下来,然后去呃做的一些 记忆性的一些存档,那这些文件呢,实际上我们就可以对它进行一个瘦身,其实好多东西呢都是没有必要写的,都是一些没有用的话,这步呢,其实你可以交给 ai, 你 可以把这个文档拿去给 ai, 让 ai 呢对它进行简化, 你就跟他说在不保证丢失细节的情况下,尽量精简提示词来节约 token, 这样的话 ai 可以 帮你去优化。那最后优化的好不好呢?评判一个标准,就是说你如果删掉了一些话没有用的话,你在使用小龙虾的时候,哎,发现效果还都一样,那就证明你之前写的那句话是没有用的,是可以被精简掉的。 然后再说第二个方法啊,呃,除了我们控制系统级的这些 token 啊,这些呢,实际上是输入 token, 就是 我们发送给大模型的时候,大模型接收的这些 token 啊,我们可以精简之外,我们同时也可以让大模型少往外吐一些 token, 因为现在大模型记费的话,它就分为两部分吧,一个是输入头跟和一个输出头跟,输 入头跟就是你发送给他的那个内容的长度,输出头跟呢就是他回答你的那个答案,其实输出头跟也是费钱的,那我们其实可以规定大模型啊,在我们的要求之内回复多少个字, 你比如说你控制就让他回复一百个字以内,或者你只让他回复结论,不要回复那些有的没的那些过程啊,分析啊,因为有的时候你不做这种限制的话,大木星就非常的啰嗦,那这样的话呢,我们就从限制输出头根的这个角度来去节省头根。第三点我们就是要利用好压缩啊,新疆规划和一个拍的位的一个功能 啊,先说压缩啊,嗯,正常我们在这个跟大木星交互当中,我们这一轮一轮聊天,你所有的历史的信息其实都是在你后面,每一次给他发送新的内容的时候,都会被带到大木星那边, 这些呢就会一直去积累这个 token。 所以呢这里就有个方法,就是我们在一个任务,比如说你跟 ai 交流到某一定程度的时候,就可以用这个 compact 的 命令,然后大模型呢对所有的历史的这个绘画做一个压缩,这样呢就极大程度的帮我们节省了上下文的长度,也就节约了 token。 然后还有个命令啊,就是 new, 这个 new 是 干什么的呢?就是我们可以担起一个绘画框,那在小龙虾里面,因为我们只有这一个聊天框嘛, 那我们如果想让小龙虾也兴起个绘画框的话,那就可以用 new 这个命令,那一旦你用 new 这个命令了,小龙虾他呢其实就是相当于他自己开了个新的绘画窗口, 然后你再跟他聊新的问题的时候呢,过去上一次绘画那些历史的这个内容就不会被传到大平台边了,这样的话呢,你后面再去聊天的时候,就不会被前面的历史的那些内容所干扰, 同时呢也接上头肯第三功能就是 b t w 其实就是白在位的一个缩写,这个什么意思呢?就是说你在一个主线任务里面,你在跟小龙虾不断聊天的过程当中,哎,你突然间有一个呃临时的一个问题,你比如说你想问他,你上一次你说的那个事是什么意思来着?其实这就是一个临时问题,就好像你跟他聊天的时候,突然间打了个叉, 针对这样一个临时性的问题,然后你又不想把这个问题呢被无限的带到后续的这个对话窗口当中,那你就可以用这个 b t w 这个命令,相当于告诉小龙虾,哎,我现在临时问你个问题, 那小龙虾呢,这一轮回答完你这个问题之后,你们的这一次对话呢,就作为一个临时的对话,你后续再跟小龙虾进行主线任务的交流的时候,那你这一轮的临时的对话呢,就不会被带到上下文当中,也相当于变相的节省了 token 的 使用。第四点啊, 就是尽量少装一些没有用的工具或者 skills。 好 多人一上来玩这个 open cloud 呢,因为就会可能装了很多的 skills, 还有乱七八糟的工具。 其实这些工具呢,它都有一个相当于描述说明去存放的列表当中,你每一次跟大拇指交互的时候,大拇指都会读取到你现在你的本地装了哪些 skills, 那 这些内容其实也都是一个包含在上下文里的内容,那如果你有好多的 skills 都没有用的话,那大拇指读你的这个 skills list 的 这个成本呢,其实也就白白浪费了。 所以说呀,就是大家不要在你的本地装那么多啊, skills 就是 尽量是保留有用的 skills, 没有用的 skills 呢,你就删了就可以了。 另外呢,我们在执行任务的时候,如果你明确知道这一次想要触发哪个 skill, 那 你就明确的在聊天框里面去跟大模型去说我这次要掉这个 skill, 那 这样的话呢,也能减少大模型它判断到底你想触发哪一个 skill 这个过程的一个成本。 同时呢也避免了就说有时大模型它可能会判断错误,会掉了就是错误的 skill, 那 这样的话呢,就相当于你任务跑错了嘛,那这个过程也是在浪费投坑。然后第五点啊,就是大家要把缓存打开。 呃,现在一般大模型呢都会提供一个缓存的功能,就是历史的一些绘画内容,呃,或者说我长期不变的一些系统级的提示词,那就比如说 skills list 啊,还有之前说的那些 agents 啊, so user 这些文件,它 实际上都是长期不变的,就是你不会频繁修改,那所有的这些文件每一次发送到大模型那边呢?呃,如果这些文件的内容没有变的话,大模型厂商呢,一般是提供缓存的功能的,那这个功能呢,也需要我们在 opencloak 里面呢,把这个功能打开,这样的话呢, opencloak 再去请求大模型的时候,它就会告诉大模型, 能用缓存就尽量用缓存,一旦大屏那边呢,命中了缓存,那你其实缓存的这一部分 token, 它的成本呢,就会大大降低,因为大屏厂商那边呢,对于你命中缓存的 token 的 价格都是低于没有命中缓存的 token。 另外啊,缓存这块大家还要注意啊,那些系统级的文件,比如说 agents 啊,或者 so 啊,这些文件你不要频繁的去改,因为你一旦改了,它就命中不了缓存了。 另外的话呢,在同一个任务当中呢,你尽量也是保持着,就是围绕着同一个问题或者同一个任务进行展开,你不要东一个问题跟下一个问题差的十万八千里, 那你很有可能之前有些缓存它就命中不了了。然后说第六点也是多一点啊,我们要做好任务跟模型的一个分层,难的任务呢,用贵的模型干,简单的任务呢,用便宜的模型干。我们现在一般玩这个小龙虾呀,你配上小龙虾之后,可能你就配了一个模型,然后就完事了,后面呢就一直用着一个模型, 其实这样的话呢,是不利于节省 token 的, 为什么呢?就是因为我们不同的任务,它实际上需要的模型能力是不一样的。你比如说我们如果想做一些复杂的任务,比如说推理啊, 或者说去深度思考吧,或者说这种复杂的编程任务的话,那实际上我们可能是需要一个好的模型,但是有些任务我们其实没有必要去用这么好的模型,你比如说一些简单的定时任务, 或者说一些简单的资料整理啊,一些这个文案的修改,其实这里面我们用一些便宜的模型,或者说用本地部署的模型呢,也能完成这样的任务,那如果你所有的任务都用最好的最贵的那个模型来去执行的话,那岂不是也会浪费很多头坑? 所以这里面呢,我们可以是对模型进行一个精细化的管理,让那些特别难的复杂的任务,在主 a 阵它里面使用最贵的模型,最好的模型,然后一般的简单的任务呢,我们可以去开一个子 a 阵,它让它去执行,那子 a 阵它呢就可以让它去用便宜的或者你本地部署的模型来执行就可以了。 所以呢养小龙虾如果想少花点钱,也不能一味的专门去找那些便宜的模型,因为一分价钱一分货吗?你用一些比较垃圾的模型,你可能最后呢跑出来的效果又不好,而且可能还浪费更多的头根,那不如呢,我们用一些科学的技巧啊,从源头上解决这个问题,我们从一开始就把这个头根省下来,这样的话呢就能让我们玩虾的这个经济压力呢少一些。

大家是不是都遇到过 open cloud, 跑起来特别爽,但 token 烧的是真快,我之前用硅基流动的 a p i, 随便聊几句,跑几个操作,几毛钱就没了,更别说 gbt cloud 这些多轮对话工具,调用费用蹭蹭往上涨,长期用真的扛不住。 今天给大家分享一个实战级省钱方案,直接把 openclub token 成本降到零。核心方法就是本地网页代理转发,我用 notejet 搭建一个轻量本地代理核心做一件事,接口协议转换与参数兼容。因为 openclub 默认走 openai 格式, 而网页版 ai 接口结构不一样,所以代理层要把 messages、 model stream 这些子段重新映设。把 opencloud 的 请求体转换成网页接口能识别的格式,再把返回结果逆向转成 opencloud 等解析的结构,全程不需要 a p i t, 不 消耗官 方 token, 完全兼容。 opencloud 也有格式,不用改原码直接就能用。使用步骤也超级简单,第一步,用 note g s 启动本地代理服务,做好请求与响应的参数转化。接 第二步,修改 opencall 的 配置文件,把 bashil 指向本地代理地址。第三步,保存重启,直接正常使用,控制电脑、跑酷动画、执行任务都不受影响。这个方案成本极低,部署简单,非常适合个人学习,日常轻量化使用,彻底告别透坑焦虑。 最后提醒一下,本方法仅用于技术学习和个人测试,高强度正式场景还是建议使用官方 a p i, 更稳定也更合规。学会这一招, openclos 随便玩,再也不用心疼 token 了。

最近 ai 很 火,我们经常说一张卡能升上多少 token, 那 么 token 这个速度到底是什么样的情况?来看一下我们这个检测软件。我们这边首先安装了两个不同的模型,比如说最近很火的 d p c 个 七十币,以及千问三一百二十二币,我们可以看到问不同的模型它的速度是什么样的?好,那么他就在这里开始回答问题,这里的 token 速度是每秒生成一百六十个 token, 这里是他总共输出的 token 的 数量一直在增加,这里是耗时间,这个是首次延迟,首次延迟的意思就是当你输出一个指令,他隔了多少秒给你回复,这里是隔了四十三毫秒。好,那么整体的这个任务就完成了。接下来我们可以切换其他的模型来看一下,接下来我们把它模型换成 dpc 的 七十倍来问他一个问题,那我们可以看到这里的速度就跟刚才的不一样了,这里的速度是四十个 token 每秒, 所以说我们可以发现不同的显卡,不同的模型跑不同的问题环境都会影响他的投币速度。所以说有一个比较方便的测试软件很重要,你要测出你的不同使用场景,不同的模型是哪个最适合你?好 比如说他已经快跑完了,平均速度是四十投币每秒。大家如果对整个这个测试环境流程,或者说你的项目要使用什么样的模型,你如果想知道,大家可以一起聊一聊。

小龙虾烧头啃太贵了,小龙虾不安全,那视频评论里面永远都是这两句,兄弟,我没有善意,你听听我说的对不对?能把头啃烧出去本身就是一种本事,但前提你得知道你在烧什么,你调戏死给我编排 摸 agent 他 上下文的这个边界,搞清楚他什么时候该压缩记忆,什么时候召唤紫代理这些,这叫学费,每一分钱都花在你的认知上。怕的是另外一种人,原理一点不懂,文档一眼不看,上来就让小龙虾搁那跑,死循环跑一宿,第二早起来一看账单干了五位数。 不是你那叫烧偷啃吗?我上坟我都不敢那么烧啊。喊贵的就两种人,一种他烧的明白,我尊重他,因为这叫判断成本。另外一种他连怎么烧出去的都不知道,那这就是纯凑热闹,活该。再说说安全的事, 小龙虾确实权限给大了,确实他能给你清空此把。但这有个前提,你在网上叮咣找了一堆来路不明的 scale 往里面放,企图用别人做好的现成的 scale 实现自己原地起飞的目的。你头一次跟人见面,你还知道上酒店开个房呢,那怎么的你就敢往家里领工具?没什么太大问题,有问题的是用工具的脑子。现在消息这么饱和,看的足够多了,上手试试吧。

怎样写提示词最省 token? 核心不是把话写的越短越好,而是用更少的字让模型少读、少猜、少反攻。接下来我会讲清三件事, token 到底耗在哪,哪些写法最浪费,以及怎么在不影响效果的前提下把提示词压缩下来。先说清楚, token 不是 字数本身,而是模型切分文本后的最小计费单位。 中文里一个字常常接近一个 token, 但标点、英文数字重复格式也会占你写的越长。模型读入越多,模型回的越长,成本和延迟也一起涨。最浪费 token 的 第一种写法是把需求说成一大段背景故事, 比如你只是想提炼三个卖点,却先铺垫公司历史、行业趋势、老板要求个人感受,对模型来说,和任务无关的信息越多,越占上下文,还会稀释真正的指令。 第二种浪费是重复表达同一件事,比如同时写简洁一点,不要太长,控制篇幅,尽量精练,别啰嗦人看着像强调模型,看到的是多次重复,更省透。肯的做法是直接量化,比如输出三点,每点二十字内。 第三种浪费是格式要求写的过细,像先写标题,再空一行,再写导语,再写分点,分点前加圆点。最后再总结一句, 如果格式不是刚需,就只保留关键约束,因为模型最擅长补其常见格式,你只要说清结果,不必把排版过程全写出来。 真正审 token 的 方法可以继承四步,第一,先写任务动作,比如总结、改写、翻译、提取、分类。第二,补充必要对象,比如把这段产品介绍总结成三个卖点。 第三,给关键约束,比如面向小白,口语化,每点十五字内。 第四,能用势利就少讲抽象规则,因为一个短势利常常比五句解释更省。 还有一个常被忽略的点是,不要每轮都重写。固定要求,如果你一直在做同一种任务,向默认用中文。面向短视频口播,风格简洁,最好在第一轮说清后面直补变化部分, 否则你每次都在为同一段提示词重复付费。举个对比,低效写法是,我现在要做一个面向普通用户的视频文案,希望你用通俗易懂、简单清晰、不复杂的方式帮我总结下面内容,尽量控制篇幅不要太长。 高效写法可以直接变成把下面内容改成口播稿。面向小白,一百五十字内保留三个重点 意思,没少 token 往往更省。所以怎样写提示词最省? token 关键就一句话,删背景去重复,少过程多约束。能量化就量化。 提示词不是作文,而是指令你给模型的信息,越准、越短、越直接,成本更低,结果通常也更稳。

当你不小心安装了个 open curl, 然后发现 token 消耗刹不住了,而且非常健忘。你直接给我去 guitar 输入 cloud man, 你 会发现这是一颗能给你的龙虾赋予持久化记忆的插件。以后你就能像看朋友圈一样,实时看到你的 open curl 到底记住了些什么,而且还能节省百分之九十的 token 消耗。之后你又不小心输入 open viking, 更牛的来了,这是一个专门为你的龙虾设计的开源上下文数据库,它能让你的多个智能体之间共享信息,直接结束那种无法协助的智障模式,而且还能让你的书 token 成本降低大概百分之九十六,任务完成率直线上升。有了它们,你的大龙虾会越来越聪明。这么好的东西,不给你的龙虾配一个吗?