来,各位看这里新鲜出炉的千问三点七 max 这个视频,不想告诉你他在各大排行榜上取得了多么耀眼的成绩哈,不谦虚的说,我们赛事组也是真的看不懂这些指标哈,但是呢,也正是因为我,我的这些同事们可能技术真的太菜了吧, 所以这么多年下来,虽然依旧没有学会什么叫做面向对象编程,可确实写了不少如这种一坨又一坨的,让人看了就气不打一出来的十三代码,这些代码的归宿原本应该是历史的垃圾堆啊, 好在 ai 出现了,居然让这套代码在生命的最后阶段又莫名其妙的发光发热了一回。所以,各位,你的缺点他不见得就是缺点。这句话是我同事送给大家的啊,与君共勉吧! 那么来吧,先问三点七 max, 在 真实的乱七八糟的项目环境中,我到底能不能放心的把问题交给你来改呢? 就看你今天在这套史山代码里的表现了,我们基于这套代码封装出了三个白银 bug, 难度都是二 m 以上的。如果三点七 max 今天能够做对两个,那在我日常写代码的工作环境下,它就基本上可以达到七十分的水平了, 用来分担一下日常的掏空消耗,那完全不是问题了啊。并且他还能够直接取代三点六 plus 来参加我们后续的祖传 bug 挑战赛的第二轮小组赛。同样,如果他能够做对两个白银 bug, 我 们还会给他一次机会,让他挑战一下四 m 难度的融入了人性的 g 零零三黄金 bug。 如果连黄金 bug 他 也做对了,那我觉得千万三点七 max 你 真的就可以努力一下,冠军也许有难度,但备战一下全球四强还是有希望的啊。 ok, 我 们不废话了,先从第一道白银 bug 开始吧,我们复制一下提示词,考核正式开始。 哎,你看,他上来就启动了一个子弹里啊,这在千问三点六 plus 上是绝对哦,不对,他启动了两个子弹里。一口气启动了两个子弹里,这在千问三点六 plus 中就更加没有看到过了。这一方面说明了他启动了子弹里,另一方面也说明了他启动了两个子弹里。 ok, 很 快啊,他给出解决方案了,我们来抓紧时间让他修复一下吧。哎呦喂,他居然主动维护我这个项目的业务上下文了,也就是这个抻直 log 啊,这好像在千问身上是第一次看到的行为啊,非常不错,好感度再次加一。 但是维护业务上下文这种事属于锦上添花哦,关键还是要看他有没有发现关键的问题,改对关键的问题,从而修复这个关键的 bug, 那 才是最重要的啊。我们看到翻译顺利通过了,这一点在中美模型身上其实都是毫无压力的,那就赶紧验证一下结果对不对吧。 三张图片都显示代表 bug 修复业务流程回归全率,代表其他相关的代码功能都没有被破坏,我们点击验正好的,稳稳的啊。各位,三点七 max 顺利的拿下了第一道白银 bug, 我 们抓紧时间来看第二个吧。同样,我们复制一下提示词,三点七 max 加油吧! 嚯。第二个问题,他很快就定位出来了啊,仅仅用了两分钟,各位,这可不是青铜 bug 啊,要知道以前选手定位白银 bug 最长的能干到半个多小时呢, 那有没有定位对呢?真的能够顺利的拿下第二个白银 bug 吗?答案马上 ok, 这也太稳了吧,连续两个白银全对了!我们前两天测试这面的三点五 flice 的 时候,他也只不过做对了两个白银,好像还不是连续的, 所以这就有点意思了啊,我们再来试试第三道白银 bug 吧,如果他第三个也能稳稳的作对,那至少说明在中等难度 bug 的 定位和解决上,三点七 max 已经非常值得信赖了。我这咋还抽不中了呢?哎,我再抽我再抽,我再抽哦,这次抽中了,来 s 零零三,我们复制一下提示词, 问,三点七 max 你 是否能够轻松的拿下这道题呢?哦,一如既往啊,非常的亏壳类,给人的感觉就像是不费吹灰之力一样。而且大家可以看一下,他在修复问题的过程当中也稳稳的,每次都给我维护了业务的上下。稳啊,这种稳定的表现虽然不作为我们考核的标准,但是到目前为止, 好像真的只有 g b t 五点五和 oppo 四点七,每次都会不厌其烦地帮我维护这堆文档。不过好感归好感啊,这一次他能不能改对呢?答案马上揭晓,我们点击验证 嚯他又改对了,又改对了,轻松加愉快啊!各位,大家还记得第一轮小组赛其他选手在白银体上的表现吗? 所以连续答对三道白银级的含金量啊含银量啊,是不言而喻的。我觉得从另外一个角度来说,这种稳定性如果你只把它当做辅助模型的话,那这种稳定性真的是非常有价值的。 那么来吧,既然气氛都已经到这了,黄金 bug 不 挑战一下好像也不太像话了哈。三点七 max, 请接受来自 g 零零三,来自人性最终极的考验吧! 很好啊,他似乎也发现了这个 bug 定位起来好像有点困难,所以这次他并没有表现的那么从容啊, 这一次已经是他第四次启动子弹里了,但明显还没有想通啊。三点七 max, 他 在这里想了三天三夜,问了一百次一千次,好像也没有得到理想的答案。他可能实在是想不通,人类程序员到底是怎么了,他们为什么要这么写代码呢? 哼哼,我也不知道,千万你别问我,我也想不通,我的同事为什么要这么写代码呢?这到底是道德的沦丧还是人性的纽哦,他给出解决方案了, 通过方案我们基本上可以断定他可能凶多吉少了啊,不过我们还是要验证一下的啊,上一场 vs fly 不 也创造奇迹了吗?这次千万三点七啊,我们看到果然啊,他还是失败了,虽然一路过关斩将,但最终还是倒在了 g 零零三的脚下。 不过各位,他已经非常了不起了啊,三点七 max 连续做对了三道白银 bug, 这已经是我们全球十六强绝大多数选手难以企及的稳定性了, 所以我们还是恭喜千万三点七 max 成功替换掉了三点六 plus, 进入我们祖传 bug 挑战赛的第二轮的比赛当中。还请各位多多在评论区为他打扣,并期待他后续的表现吧,我们第二轮小组赛再不见不散!
粉丝1.3万获赞5.1万

用 mac mini 部署本地算力,能实现分逼不花的养龙虾吗?养龙虾最大成本就是 token 消耗的费用,也就是算力的费用。现在最简单养龙虾的方式就是接入阿里云,腾讯云或者火山云这种云上的大模型, 你每次使用都会消耗算力,所以你就要为此持续的付 token 的 费用,所以你如果使用频繁,一个月花个大几千,这是系统平常的。 另外一个所谓分逼不花的养龙虾的方式就是买一个硬件,在自己的硬件里边部署一个千万 kimi 或者 deepsea 这样的 开源大模型。所以为了省下 token 的 费用,我花了将近四千块钱买了这个 mac mini。 经过尝试想分逼不花的使用本地蒜粒养龙虾基本没戏。下面我说说原因。我现在用 呃本地部署的是一个千万三点五九十亿参数的这样的一个大模型,这个算是能力比较低的一个模型了,但是要想让这个模型发挥最大的能力,都需要十八 gb 的 现存,而我这个盖板的 mac mini 最大的调动现存也就只只有十三个 gb。 好在我现在用的奥拉玛这个工具,它可以压缩这个模型,所以勉强可以跑千分三点五。但是因为算力不够,你现在问他随便一个问题, 他真的是要等到地老天荒才能给你回答。这是我在奥拉玛里边问的问题,我刚才问了他一下上海的天气,这是一个指向性非常明确,就是一个简单搜索回答这样一个问题,在奥拉玛里边我 问了一下至少一分钟,有时候更长的时间才能给你答案。那如果你问他一个开放性的问题,或者是其他的一些需要逻辑整理的问题,时间就更长了,所以这根本没法用,所以最后我的龙虾还是接入了这个云 才能用。那么问题就来了,如果我都已经接入云了,就完全没有必要为此再新的投入硬件了。 因为在云上部署龙虾对于电脑配置要求很低,基本普通的笔记本或台式机都是可以运行的,所以这个 mac mini 基本算是为 ai 交了一笔学费了。那后面跟大家也会分享一下什么样的硬件才能运行本地 ai 大 模型。

刚刚发布的千问三点六,我已经在本地成功跑起来了,这次选用的是三十五 b a 三 b 的 i q 四量化版本,实测显存占用不到八 g。 为了测测他的智商,我上了一道脑筋急转弯。骑车回家,对面冲来的大叔喊道,你往左,我往右, 请问笑点在哪里?这道题主要考验大模型的空间方位推理和换位思考能力。因为在两人面对面时,你的左边恰好是对方的右边, 如果听从指令,不仅避不开,反而会迎头撞上。测试结果很干脆,模型迅速推理出了核心矛盾,大叔的右边就是对面的左边,照做反而会相撞。之前我用千问三点五测试同一道题时, 他思考了很久才勉强答对。对比来看,这次的三点六版本在复杂逻辑推理能力上确实有着肉眼可见的大幅提升。

最近有人问我说 open curl 只打一个 hello, 直接花了五毛钱,而且康派克的还没有用。今天教你两个命令,直接查出原因。先说原理,因为模型看到的并不是一句话,而是一整包的 context 上下文。 上下文包括三部分,分别是系统提示词,二是历史对话,三是你的这句话以及上去的工具结果。 第一个命令啊,叫做 context list, 它可以直接看到 token 的 分布,包括啊,你的系统提示词大小, skills, tools 以及 list 等等。这么一看,一轮至少要两万个 token 起步。那为什么 compact 没用呢?因为它只压缩 history 部分,系统提示词部分根本没动。 第二个就是 context detail, 它会把所有的工具 skill 文件注入全部列出来。最后一步就是你直接丢给 open crawl, 说 这是我的 context detail, 给我设计详细的降本方案,这时候它就会帮你经典 skill 和 work space 的 文件。所以你的小龙虾还遇到哪些问题?

二零二六年免费 token 渠道整理来了,给大家梳理了一份实用指南,方便按需选择。核心推荐,手快有,手慢无!小米 miimo 三十天内将发放一百万亿 token, 目前已发放近百分之八十,剩余额度需通过申请领取。地址, 百 t x i a o 咪咪 m o 点 com 想充的抓紧啦!阿里云百链提供七千万加投币支持,通一千问三。 deepsea b 四等一百五十加款模型,有效期九十天,适合短期集中使用, 国内主力量大,稳定长期可用。这些平台提供永久或年度或年度免费额度,很适合作为日常使用的主力选择。智普 ai 注册只享两千万永久 token g l m 四 flash 模式完全免费,用个人手机号就能注册,门槛低, 使用自解火山引擎,每日自动刷新两百万 tokens, 只要每天使用额度就不会过期,相当于永久可用。腾讯云会员一百万 tokens 加 light 版,不限量,有效期长达一年, 日常用足够省心。百度千帆 arni speedlight 模型,完全免费且不限量,并发能力还很强,多人同时用也稳。海外精选,侧重速度与特定场景,如果需要海外模型或追求极速体验,可以看看这些。 siribras, 每日一百万 tokens, 依靠金元级引擎推 速度,能达到近三千兆的流量,处理效率超高。 oppo rooster 聚合了多款热门模型,每日提供五十次免费调用,支持 deepsea lama stone, 适合测试不同模型。 google ai studio gemini 二点五 pro 每日一百次调用, flashlight 每日一千次调用,都是永久免费的,适合用 google 系模型的朋友 闭坑与使用小技巧额度使用顺序建议先消耗有期限的额度,比如阿里云、 deepsea 这类,再用智普字节等永久额度, 免过期浪费,安全可行。国内平台都需要实名认证,调用 api 时记得开启用量预警或绝对值限额, 防止代码死循环导致意外欠费。账号规范,别尝试注册多个账号薅羊毛,很容易被平台封禁,得不偿失。希望这份清单能帮到大家。如果想了解某个平台的具体使用体验,随时告诉我,我再给你详细说说。

几个简单的小技巧就可以让你的 ai 命中缓存达到惊人的百分之九十九,其托肯消耗和成本其实可以锐减百二十倍。这真不是夸张,是我消耗了整整一亿托肯得到的一个实际经验结果。第一 点,善用记忆系统。其实我们知道现在大部分市面上主流的 i can, 它都是有自己的一套记忆系统,无论是 open card 还是它都扣的。只要我们善于利用这个记忆系统,其实可以大大的增加这个缓存的命中率。举个例子,我最近在做一套自己的 ai 面试助手,但是这个任务他不是一天两天我就能够完成的, 所以我每天会在任务完成的时候,我会告诉我的 autodrive, 让他自己去保存当天的这个记忆。这样的话,在我明天或者后天重再开启这个任务的时候,他能够直接读取自己的绘画内容,从而大大的降低这个拓客的消耗。 第二点,制造边界和原则。布置一个任务的时候,如果没有明确的规则和原则的话,你可能需要跟你的爱多次交互,他才能够真正的明白你的需求。 就算他明白了你的需求,你没有制定一个明确的边界,你的 ai 也可能会做出越界以及难以预期的一个结果。所以制定边界和原则是非常重要的,你可以直接将这个工作原则喂给你的 ai, 让他传进他的记忆系统。 最后一个点,整理和提炼工作流,让他按照工作流的方式输出结果以及产出文档。当你需要他完成一个周期较长的任务的时候,一个合理的工作流是非常重要的,他不仅可以让 ai 快 速理解和解决一个问题的流程,并且可以通过产出一些文档来极大的提高一个缓存的命中率。举个例子, 你需要做一个文档,那么你可以先跟你的 ai 交流想法,让他去产出做出这份网站需要的一份产品文档,然后你再根据他的产品文档去优化,之后让他去根据产品文档去完成功能,这样他有了依据而不会天马行空,每次产出都会根据文档来做,而不会浪费脱坑又产出垃圾。

哈喽,大家好,给大家看一下新的千万三点七 max 做出来的粒子效果,我们刷新一下页面,可以看到这个百万星系的粒子效果非常的好看,它可以直接做到一个漫游,各种各样的暂停放大, 还有加速减速,放大缩小都还是蛮不错的。我刚才试了一下,大概这样子的,一个百万星系的这样子一个粒子的效果, 他是只做了八百行左右的代码,思考的力度是好像是思考了五千多还是六千多个托肯最后面才去写的代码, 虽然这只是个小 demo, 但是可以看得出来千万三点七他现在在不管是 a 卷的能力,思考的强度,还有就是这种前端代码的编写上面确实是达到了一定的水平。 但是也值得注意的是,今天我们测的是一个短途的任务,在这种长城的比如说跨三四个小时的任务下面他的这个表现我们目前还没有测,等到后续可以给大家更多的一些测试,再给大家这个模型能不能用的一些反馈,谢谢大家。

hello, 同学们,大家好,今天我给大家讲的这期呢非常重要,大家一定要用心听, 因为我是想做什么事呢?是用这个 workbody, 现在不是要消耗积分呀,大家可以看到这里是消耗积分的,那么我想的是它调用本地模型,其实是可以避免消耗积分的,就是用本地的算力 去来跑咱们的 ai, 因为这个现在是这个沃克巴里用的是这些模型内置的模型,而这些云模型呢,都是需要消耗积分的,因为他们算力都在云端嘛,所以我想要是本地部署的话,咱们就可以免费来用这个 ai 了。 我之前是用这个呃, gm 四的这个本地模型,我部署了一套是让他自己去做安这个欧拉玛,然后通过欧拉玛调用欧拉玛的接口,然后来部署这个 gm 四的这个模型,是已经可以用这个模型了,在 workbody 这个这个程序里面, 但是又发现一个问题,这个 g m 四模型它是一个大语言模型,相当于跟豆包一样,它只能跟你对话,它并不能完成一些复杂的这种任务,它只能比方说对话的话, 比方说我做软件开发,我跟他对话只能说让他帮我生成代码,而不能让他直接帮我生成这个可以部署的这个部署包,您明白吧?大家都明白吧,他只能说完成对话,所以我现在就是想 通过跟 workbody 对 话,然后让他自己帮我部署可以免费的, 就是可以免费不消耗积分的,并且可以帮我完成软件开发任务的这么一一个模型。然后我首先呢,我会问 这个我如果用本地模型是不是就不会消耗 workbody 的 积分了?然后 workbody 他 给我回答的是确认使用本地模型是不会消耗积分的。那么我接下来的话就是说 我告诉他一个这个问题,我现在需要用你来写代码生成部署文档研究学术生成学术文档用国内哪个模型比较好? 这这这时候呢?为什么我说用国内模型呢?因为国内没有模型,他相对于理解咱们国内的这种软件开发呀,这种他会结合的比较好,外国的开发方式以及逻辑的话可能会有一些区别,导致我们后期的话, 呃,进行这个软件开发,我再进行这个功能迭代版本升级的话可能会有一些不兼容,所以我想的是还是用国内模型比较好。 然后之后呢?他回答的我的是代码生成与工程实现是要用这个 deepsea 系列是比较好的,包括通易千问这些都是国内做开软件开发的一个主流的框架。然后之后呢我就想说,那么 看这边这边我就问了个问题,我现在需求是这样,我是需要去做任务,有两条线,一个是用学术专家模型去研究这个论文文档,一个是用产品经理模型和专家级开发工程师 u i c c 的 模型去做软件开发项目生成部署包。 然后我我又咨询了一下这个顶级模型能力,让我直接本地部署好,就不需要消耗积分了,这样能不能做到? 然后沃克巴蒂他就直接跟我交底了,他说顶级模型的能力是需要相当大的显存的,也就是咱们说的 gpu, 英伟达的显卡, 那我以我现在的电脑的话,我们只能说跟让他推荐我们做哪些比较好?然后我就后面给他说了我我的电脑的配置,我是华硕的这个 rog 笔记本处理器, i 七的 十二代,然后显卡是六 g 的 三零六零的读写,硬盘是一点五 t 内存,十六 g 用哪种比较合适?他就给我推荐了, 他说这个是有瓶颈的,有显存瓶颈的,所以说他推荐的是千万的二点五这个模型代码专用推理,然后这个 divx 模型,然后以及这个 这个是我认为比较好的方案,他给我已经推荐了这个本地部署的组合了,然后现在呢我就是 他询问我是不是立刻帮我部署这两项,这两个应该是这个千问二点五的十四 b 是 专门是负责推理的,就是相当于是大脑,这个千问的这个 code 七笔是专门负责帮我做软件开发的,写代码的相当于是最强的工程师。 现在是我需要他,他就帮我立刻从本地部署这个东西,这是一个部署过程,然后部署完成后,基本上就可以实现用本地部署的这个算力 去本地去执行你的,完成你的你交给龙虾的这个工作了。然后这个大家可以研究一下,然后这个部署时间比较长,在这我就给大家多说了, 然后后面我会出一些视频,用我本地部署的这些东西来做这个软件开发。然后大家如果你们有比方说你们的行业也需要软件,也可以把想法告诉我,我帮你们可以快速开发出一套你们想要的东西,或者你们对哪些业务 想做什么小程序的软件啊,都可以找我,我帮你们来做。好今天的内容就是这样,然后大家可以自己自己研究。 我目前是觉得这个 gm 四这个大模型虽然是好,但是它太吃配置了,那个电脑配置低的这些咱们的龙虾训练师还是建议不要用了, 而且它只有对话能力,并没有这个实际的代码能力。也就说它 gm 四强大的地方在于它可以告诉你怎么做,但是它不能帮你做事情。大家明白这个道理吧?其实就是 gm 四跟豆包一样, 就是他能告诉你,他能把你帮你整理思想,帮你整理思路。比方说你想做个软件 软件项目,他能,他能帮你,想帮告诉你怎么,并且他能给你输出代码,但是也仅限于文本对话对话式的这么一个交流,他没办法帮你,直接帮你生成任务,就生成这个文件包了, 直接帮你开发,他做不到这点,只能说现在还是在这个 gmail, 还是在对话的地方,你如果想真正的让你,让他帮你开发,帮你部署,那么可能是需要 cloud code 这样的一个模型去做, 不同的模型针对的这个应用场景不一样。我觉得以后的这个 ai 的 发展呢,肯定会是 各个 ai 的 角色做各个的事情。我这个专业的大脑模型就专门负责推理,然后我的动手能力强的模型,我专门负责去动手,去操作,去执行这个电脑端的任务,他会有这么一个分流, 当然他可能也会有总的总的这个流程,但是他肯定这个俗话说的好吗?鱼和熊掌不得不可兼得吗? 因为这个还是需要去大脑和肢体去配合,相当于 clioq 的是你的手脚可以去做事情, g y 四是你的大脑去去去构想,去想这件事怎么做。 然后我现在呢,还是偏向于咱们可以用国内的这种大模型,因为国内大模型更能理解你的语言,更能理解咱们的自然语言,能更好的执行任务。 好,本期视频就到这里,然后大家有什么想了解的啊,想知道的都可以发到评论区,然后记得给我点个关注就行了,我都会一一解答的。嗯,而且都是免费分享给大家的。好,这期节目就这样,大家再见。拜拜。

最近很多人起一个号子在教你去靠 token 出海这个实现你这个所谓的财富自由。但很多人连一台服务器怎么回本,你这个 token 成本到底怎么算都没搞清楚,就开始教普通人怎么去发财。首先啊, token 没那么玄乎, 它本质上它不是黄金,它本质上就是大模型在处理这个你这个文本式的一个基本计量单位, 你问一句怎么写周报,人家从读懂到生成答案,消耗的就是 top 坑背后他不是玄学,是实打实的一个计算。第二点,成本和定价是两码事,很多人听中国电费便宜对吧?觉得就把 top 坑卖给全球就能赚差价。 但真正决定 top 坑成本的不只是电费,而是四大四大三。第一个呢是硬件折旧,你高端显卡买回来那一刻就开始贬值,这笔钱要比电费贵的多。第二点是研发和工程 ai 服务,他不是说有台服务器啊,有台机器就能跑,你还要做调试,你要做安全,你要做熔灾。第三呢,他才是电费,如果你的架构优化不行,电价他再便宜也白搭。 第三,普通人最容易踩进去的三个坑。第一个,做大厂 apa 的 代理,这也是市面上很多的一个情况,你以为自己是分销商,实际上就是给大厂做免费销售。而且我告诉你一个很残酷的一个事实,大厂的代理资格普通人根本就拿不到, 人家不仅要验你公司资质、资金流水,还要签对赌协议,承承诺高额月流水,如果你达不到 保证金,直接泡汤。第二个,自己租 gpu 部署开源模型,你觉得省的省了钱,其实是把 api 买 api 的 风险换成了自己扛机器利率是吧?抗运维的苦力活。第三个坑自己买机器托管 啊,这个更是门槛极高,真的,你拼的是全球网络囤土是吧?调度熔灾和持续运营 跟你那电费其实便不便宜真没关系。所以说别被那些什么零门槛暴富的什么给忽悠了,很多都是一个新的全新的一个庞氏骗局,财富自由根本就没有捷径,看懂这些成本起码能在第一刻躲开镰刀这件事上及格。 所以大家根本不要去相信现在所谓的抖音上有很多新的一个账号给你讲是吧?你成为一个 open open ai 的 一个代理去挣多多少多少钱,其实根本就不现实,大家要注意上当,不要被割韭菜。

上期视频我们分析了一个 how low 请求的全部细节,结果发现将近消耗了三万个 token。 很多朋友留言问,那如果连续聊十条,那是不是三十万 token 了? 不会的,所以这期我们就详细讲解一下 clock code 里面 prompt cash 提示词缓存是如何工作的。上期介绍的 clock trace 是 在代码里打补丁,有很多粉丝反馈了最新的二点一点一一九版本已经不能用了。确实是有这个问题的,因为我自己是用 n p m 安装的二点一点一一二版本, 现在官方已经不支持 npm 安装了。所以为了解决这个问题,我发现了一个新工具叫 cloud tab, 它的工作方式是在本地起一个代理服务器, 你启动它以后,它自动启动 call code 的 所有的 api 流量,经过代理转发退出后生成 html 文件,打开浏览器就能看,生成的 html 是 这样的,左边是导航栏,列出了每一次 api 的 请求,然后右边最底下就是原始的请求的 json 数据, 这个和之前的 cloud trace 生成的网页是一样的。但是 cloud tab 做得最好的地方就是把这个 tools, 然后 messages, system 这些重要的数据子段抽离出来,然后变成独立的模块显示在这里。比如这里对应的是工具, 然后系统提示词,然后还有消息你看,打开以后,他还做了每一块的分行的渲染,原始请求里面不是有很多一堆这个分行符对吧?看着都头疼,现在排的整整齐齐的,一眼就能读的懂。他还有一个杀手功能叫对比,上次 他可以把相邻两次请求放在一起对比新增的内容高亮,然后没有变的就灰色, 比如系统提示词,工具,这里都没变化,今天我们就用这个功能来看看请求是怎么变化的。 ok, 然后用法很简单,我们只要用 cloud tab, 然后杠杠 tab live, 收集所有请求,启动 cloud, 然后我们回去, 然后我们发三条消息, hello, 然后第二条 fine, 然后最后一条 thank you, 然后做完以后我们退出来,然后就能看到收集的提示词了,然后我们用这个来做分析。在看数据之前,我先讲一下 prompt cache 的 核心概念,它的正式名称叫前缀缓存 prefix caching, 什么意思呢?就是你每次发消息, cloud code 要把整个完整的请求都发给 api, 那 么请求里有什么呢?工具的定义,系统的提示词,还有用户输入的上下文,还有对话的历史, 服务器就按这个固定顺序排列它们,它们一起组成了缓存的查询键。那么前缀缓存的逻辑也很简单,两次请求,只要它们的前缀是一样的,那么第二次就不用重新推理了,就重新推理, 那么什么叫一样的呢?福气会对这个前缀做哈希,一个字母不差,就算命中了,差一个字母,那么哈希就变整个缓存就全部失效了。 打开抓取的 html, 结果里面第一个请求,我们按照前缀的顺序来看看里面有什么。最前面的是工具,里面有三十一个工具的定义, 然后中间的是工具的身份,然后他怎么做事,还有各种的行为准则, 然后最后的是消息,你的消息被包成了五个 block, 前四个是 cloud code 注入的后台配置, m c p 的 指南, skills 列表,还有比如说什么 cloud, md, 最后的最后才是你写的 hello, 这些上期都讲过,没记住的朋友记住,好好去复习一下上次的视频。今天你只要记住一件事,就是你的输入永远在最末尾,前面所有的内容,你的输入永远在最末尾,前面所有的结果了。 现在看重头戏。打开第一个请求的返回值,我们找到 usage, 一个字段,三个关键字, input tokens 等于六, cash creation input tokens 四万八, cash read input tokens 零,对不对?记住它们, 这里 input tokens 是 六,对应的是 hello 的 本身,然后 cash creation 是 四万八,将近五万个 token。 那 么前面所有的内容,工具的定义,系统提示词,用户输入上下文,全部首次写入缓存, 然后 cash read 是 零,那么第一条消息没有缓存可以读,这就是冷启动。我们继续看第二个请求,我们先用这个对比,看看请求变了什么。 你看消息从一条变成了三条,新增了 assistant 的 回复, hi, what would you like to work on, 然后还有 user 的 消息 fine, 然后系统提示词没有变,然后工具的定义也没有变,变得只有用户的消息。 然后我们再看 usage, 记住音符的 tokens 是 六, cash creation 二十四, cash read 四万八, 这里 cash 的 read 四万八是不是和上一轮 cash 的 creation 四万八完全一样,证明缓存完全命中了? 然后这里的 cash create 和二十四就对应了新增的 assistant 的 回复,还有用户的新的消息 fine, 所以 只有新增的两条消息需要加入缓存,我们继续看第三个请求,然后对比上次, 然后选对比最后一次,我们看到还是多了两条消息,对不对? assistant 回复 got it let me know, 然后用户回了一句 thank you, 其他的依然没有变,然后我们继续看 usage, 我 们只要记住这一个 cash read 是 四万八千六百七十八, 我们看看这个四万八千六百七十八哪来的呢?那就是上一次的开始 read 的 这个四万八千六百五十四,加上这个二十四,是不是就是四万六千 六百七十八了,对不对?所以也是上一次所有写入的缓存全部命中了, 然后这次写入的二十九个 token 也是新增的这个回复,对吧?然后再加上最后的 thank you, 把三轮数据放在一起看过滤就很清楚了,每一轮的 cash read 等于上一轮的 cash read, 加上上一轮的 cash creation, 所以 缓存就像滚雪球一样,越滚越大,但是每轮新增的只有几十个,总的上下文三轮了 只多了五十三个,然后信息从一涨到了五条,但是新增的计算量几乎可以忽略不计。 这些工具的定义,然后系统提示词,然后用户的注上下文,每次每轮都要带上,但是只有第一次才做了真正的推理,后面全部走了缓存,光看 token 数还不够直观,我们看一下比例关系, 缓存有三种计费方式,普通的输入就是正常价,然后 cash 的 写入比正常价贵一点点,五分钟缓存写入是一点二五倍,然后一小时缓存是两倍,但是缓存的读取只有正常价的十分之一, 所以第一轮冷启动将近五万个 token, 只能按照两倍的写入,看起来比较亏,对吧?但从第二轮开始,这五万个 token 几乎全部是走的 cash 读取,所以只有正常价的十分之一。第三轮、第十轮、第五十轮都是一样的, cash read 越来越大,但是每个 token 只花十分之一,所以对话越长,缓存的优势就越明显。 ok, 那 我们总结一下, prompt cash 就是 前缀的复用 工具的定义,然后系统提示词,对话的历史只有在第一轮,在计算后面的每轮新增的就只有几十个 token 了,对话越长, cash 省的越多。然后我觉得大家留言提的问题都非常好,给了我很多的启发,希望这期大家看完以后有什么问题可以多多提问,我每条都会看。

今天我是纯分享,重点推崇一下阿里云的这个售后服务,这是我亲身的一个经历,我经常用 ai, 那 我 ai 常用的就是可乐扣的,可乐扣呢会调用各种大模型的 api, 我 最近呢就发现呢,阿里云它的千问的有一个大模型的一个 叫扣丁 plan 的 一个优惠套餐,就是每月只花二十块钱,大概能调用一万八千次这个额度,这样你就会省很多的 token 的 钱。我发现之后呢就订阅了,然后就生成 api, 可乐的扣的有一个 大魔性,调用的一个软件叫 cc switch, 然后我在 cc switch 上就加载了这个扣丁 plan 的 这个 api, 结果当天呢就发现这个费用就超了一百多块钱,结果过了一个多月,他们一个售后小哥给我打电话就问我你一个二十块钱套餐用的怎么样?我就把这个事情跟他说了,我说 一天就用了一百多块钱,是扣后付费的,他说你可能模型调用错了,因为千万有很多各种模型,我可能调用的是百炼的那个模型,我就把那个模型改了,用 cc switch 又重新加载了一下, 结果加载完之后呢,再用可乐酷狗调用的时候,我就发现这个就行不通,后来这个事我就放在一边了,我嫌麻烦,就买了那个 deepsea 的 那个头肯,结果过了一段时间,那个小哥又给我打电话,他说你那个后来改了模型了,然后用的怎么样?我就把这个事情又跟他说了,那我具体的,我让技术给你服务一下,他就在上面掉了一个工单,他让我把实际情况给他们后台的技术人员反馈一下,我就把那个截图发给技术人员, 技术人员说你这次也是描模型调用错了,你要用调用最新的一个前文的模型,我就在那个 cc switch 上重新把那个模型改了一下,不到一分钟这个问题就解决了。其实我每月的花费就二十块钱,但是 对阿玉李云的这个售后来讲,他就会有专人来给你做服务。其实遇到这些问题,如果我主动联系那个小哥早就解决了, 但是我因为一用就卡那一卡,那我就不管了,我就改用别的模型了,但是那个售后小哥就孜孜不倦了,一个月半个月之后就问你反馈帮我解决了这个问题,我就觉得其实我的消费量是很低的,但是阿里云他的售后在这方面真的挺负责的。

好多人抱怨 open cologne 消耗的 top 太大了,几句话就消耗好几十啊,干嘛的?首先我理解不了,但是今天一条视频 让你们 top 消耗很少。如果你能看这条视频,说明你的 open cologne 就是 已经装好了。你得想一个问题,它都装好了,是不是它就已经有这种智能化的东西?你问他呀,兄弟, 为什么你的 talk 消耗特别大?你给我出几个方案,在不影响我工作效率和工作结果的情况下,如何减少 talk 的 销量,更高效地去完成任务? 你把这打给他,大概率百分之九十九会给你出三个方案。你是装项链库,指指库也好,你是用图谱也好,还是干嘛?他一定会给你方案的。根据你的状态,因为每个人的主机不一样,他会自动安装,自动执行至自动匹配。 ok 了,你现在就试一下,试完之后你一定会感谢我的。

妈,我又发现一个好东西,你听过 tok 吗?听过,这是热门词,老刷到的,怎么啦?嘿嘿, tok 就是 ai 处理文字内容最小计量单位,中文呢,叫词源。老厉害了哦,理论看的不错,那我问你词句怎么用,怎么落地?这我还没想好。 这么说吧,普通人日常啊,带豆包上的问答压根接触不到的,只有商用或者大批量的使用,才需要象棋批量调用 ar 接口机构的高频数据整理,这样才会统计消耗。说白了啊,就像流量,日常的上网闲聊就是免费通用流量,随便用 剂量的。 oppo 呢,就像专属的定向流量,大批量的高频使用就会核算消耗额度。爸也发现了,没什么用啊。当然有用, oppo 的 底层支撑靠的就是率理和这电力,这两样啊,才是实打实的核心的关键,你呀,还要好好学学的。

就在前两天,三大运营商同一天上线了一个新的套餐,叫 token 套餐,就在充话费的那个页面,直接就能购买 token 了。那 token 是 什么呢?就是你每一次打开 facebook, 打开豆包,你问他一个问题,他给你回答,整个过程消耗的计算资源就是 token, 你 可以把它理解成 ai 的 电。 ai 每工作一秒钟都在抄 token, 这件事情为什么重要呢?你还记得英美达的老黄吗?就是那个穿皮夹克的,他今年三月在自己的发布会上说了一句话,原话是这个意思,说 token 就是 ai 时代的硬通货,未来数据中心不是用来存文件的,就是用来生产 token 的 工厂。他甚至说,以后公司给员工发 offer, 薪资之外还要配一个 token 的 年度额度,就像现在给员工配电脑,配手机是一样的,这是标配。 当然,看到这个信息,我的第一反应就是,这不就是当初流量的故事吗?你回想一下,两千年初,手机流量还是按照 kb 计费的,你发一张图片可能要好几块钱。谁也没有想到,有一天流量会变成月租里的赠品。后来四 g 时代来了, 流量套餐开始普及,那些最早理解流量就是生产力的人,早早地布局了自媒体,做了线上的生意,抓住了整个时代的红利。现在同样的事情正在发生,只不过这次换成了头衔。你想想,你身边有没有做自媒体的?天天用 ai 改稿子,想选题剪视频的脚本, 做电商的,用 ai 写详情页,做竞品分析,做程序员的,现在谁不用 ai 辅助写代码,这已经是基本操作了,所以这些人每天都在消耗大量的 token, 区别只是他们自己知不知道而已。而且你知道现在中国每天的 token 掉量是多少吗? 一百四十万一次,这个数字两年前才是一千亿,两年的时间涨了一千倍。所以三大运营商现在冲进来卖 toc 套餐,逻辑非常清晰,他们就是看到了这个市场已经大到不能忽视了。所以我想说的是,现在很多做传统行业的朋友,现在可能觉得这个事情跟你没有太大的关系,但是你认真想一想, 你的竞争对手如果已经在用 ai 提效,而你还没有,这个差距会越来越大。 toc 已经不是程序员专属的东西了,它是所有人进入 ai 时代的门票。这一次消息来得很早,机会也来得很早。

我问一个工作了五年的开发,我说你一天用多少投开?他说十几万。然后我又问了一个实习生,正在找实习的一个实习生, 我问他一天用多少投开?他说公司发两千万投开到了,你能得到什么信息?

现在大模型的算力全面告急,我今天用千问的时候发现啊,总是掉线不给我用了。今天有一个新闻,几个大厂的 token 价格全面提价,涨幅百分之三十多,核心原因就是采购成本,尤其是存储芯片价格暴涨, 而现在 token 的 消耗量又在快速的增长,最后导致什么呢?导致就像阿里巴巴这样的大土豪,他的算力都不够用了。前段时间我就发现 timi 经常不工作,就是因为太拥挤,现在就连阿里这样的土豪都面临这种算力短缺的问题了。我告诉大家,我现在每个月消耗的 token 的 价格 已经快超过一千块钱了,我可以很明确的告诉大家,以后这个 token 就 跟我们现在用的水电气一样,成为我们生活中的必需用品。阿里巴巴真的行动非常迅速,昨天还是前天就成立了专门由 ceo 带队的一个新的事业部,就叫 token 事业部,以后大家在支付宝上付费,哎,就有专门的费用,就 token 费用了,跟我们现在付水电气一样的,很厉害啊,这也是一个入口。

经常有人在后台问我,你用什么模型,怎么节省 taco? 或者怎么能买到便宜的 taco? 那 我今天回答这三个问题。第一个是我平时用什么模型,我主要是用四点六、 sony 四点六 这个模型基本上可以应付我大部分的工作场景,从我的经验来看,这一个模型就够了。如果你有更高的要求,比如你重新写一个软件的时候,你要对这个软件进行架构规划,这个时候你可以用欧普斯四点六。 我的经验来看就是新手不需要考虑怎么节省掏坑,因为新手期都是在摸索和探索当中,这个时候你就是需要大量消耗的掏坑, 这样你才能积攒经验,等经验积攒下来之后,你自然而然就会节省掏坑了,那个时候你的指令会更加精准,这样就能避免浪费掏坑。那还有就是怎么能买到便宜的掏坑。我推荐大家一个网站, 这个网站里有非常多 a p i 的 中转站,而且每个网站价格都不同,像便宜的桑内特四点六模型才八块钱一百万。 top 已经非常便宜了,基本上实现了代码自由。如果你要是有生图需求的话,像香蕉二模型 也才不到一毛一张。我这个视频估计要把卖 top 的 得罪了,以后没人再去网上买 top 了。

你们算一下这周偷啃消耗了多少?偷啃,他知道我们偷啃了,快把零食藏起来。 啊啊, 又偷啃,老板,我们再也不偷啃了,求放过了。偷啃词源 就是 ai 读写文字的最小计量单位,大概一个汉字约等于一到二个 token。 你 发给 ai 的 叫输入 token, ai 回复你的叫输出 token。 这和 token 没关系。

我们有一次做 o p c 一 人公司的调研访谈,有一个 o p c 问了一个问题,说智能体是要 token, 这事政府得出来管管,我这发一个请求模型平台给我寄 token 的 消耗,他说多少就是多少,我觉得我没有用那么多,他给我乱寄,多寄我也没处说理,政府得出来监管一下。 这个 o p c 说的问题很真实,但是其实也确实很无解。正好最近刷到了一篇论文,很严谨的研究了这个问题, 拿了八个大模型,有 g p t 的、 cloud 的、 gemini 的 这几家闭元的模型,也有 kimi 谦问几家开元的模型,测了一圈,得出了几个明确的结论,和我们平时使用的体感还是比较一致的。 第一就是在模型和模型之间烧 token 的 差别是很明显的,无论任务难易,有些模型就是会倾向烧更多的 token。 论文测了同样的五百个任务, kimi k 二和 cloud sanit 四点五,比 gpt 五多消耗一百五十万 token。 所以 有时候大家说有些模型它虽然单价便宜,但是干一样的事儿用量多,总的来讲也不省钱,这个是实锤。 第二呢,就是更多的 token 并不意味着更高的准确率。论文统计结果的准确率通常在中等成本的时候是最高的,高成本很多时候是因为重复的去运行,一些文件查看和翻来覆去的去修改,大多数时候反而会降低准确率,说白了就是跑得越多越晕。 那最后我们有没有办法对任务的这个 token 消耗量做预测呢?答案是,不好意思,好像没有。论文研究说让人类专家来预判一个任务的 token 消耗和真实的消耗比结果的相关性系数大概是零点三二,也就是相关性很弱。 那把人类专家换成 ai, 让 agent 自己去提前预判他完成这个任务的投款消耗,相关性系数大概也是在零点三左右,也不高,而且大部分模型做出的预测甚至小于实际消耗的一半。 呃,所以整体的结论就是 agent 任务成本不可预测,请谨慎选择模型,高成本运行,不保证成功,请合理设置预算上限。 大家都说 ai 生意以后得按结果付费,但其实现在基本都是还按 shotoken 的 这个量来收费,真的能按结果收费的那都是真的牛。