不用查,不用搜,每天都有孩子听得懂的新闻,关注我,育儿更省心!认识数字世界的小凭证 token 小 朋友们,你们有没有和 ai 聊天机器人聊过天呀?问他怎么画一只可爱的小猫,他马上就能给出答案。 问他彩虹为什么有七种颜色,他也能娓娓道来。那 ai 到底是怎么听懂我们的话,又怎么想出答案的呢?这里面就藏着一个超有趣的小秘密,磁源 token 最近,全国科学技术名词审定委员会给 ai 领域的 token 定了官方中文名,就叫磁源。他就像我们搭积木时用的小积木块, ai 处理我们的化石, 会把长长的句子拆成一个个小小的词源,再根据这些小积木的意思来理解回应。比如我们说我想折一只纸飞机, ai 就 会把这句话拆成我想折一只纸飞机这些词源, 然后根据每个词源的意思告诉我们折飞机的步骤。词源是 ai 理解语言的基础单位,就像我们学汉字要从一个一个的字开始, ai 学语言也得从词源开始。不同的语言词源也不一样哦, 中文的词源多是词语或字,英文的词源可能是单词,也可能是字母组合。而且词源还有个小特点,相同的词在不同句子里可能会变成不同的词源。 比如苹果,在我吃苹果里是一个词源,在苹果手机里也是一个词源,但 ai 会根据周围的词源判断它的意思。有了词源, ai 就 能精准理解我们的需求啦。 小朋友们在和 ai 学习工具互动时,词源会帮他准确捕捉我们的学习问题,给我们讲有趣的知识。和 ai 绘画机器人聊天时,词源会把我们说的可爱的小猫,彩色的云朵拆解开,画出我们想要的画面。 如果让你用 ai 画一幅画,你会说出哪些词语,让词源帮 ai 画出你心中最棒的画面呢?点赞收藏不丢失!关注我,陪孩子一起看懂这个世界!
粉丝1189获赞4541

哈喽,大家好,我是 paper, 那 今天我们来说一下我们最常用的 token 本地模型和外部的模型该怎么样去使用?就是 token, token 是 什么呢?一方面它是有这个最小计算机处理文本单元, 另一方面它也是其他的,还有很多身份认证啊,指令串密密实都百度的话,你要使用在我们的 ai 大 模型中,你就记录这个最小文本处理单元就可以了。我们再来看这个本地模型去哪里找啊?一般的话,像这个最常见的开源社区 hackin face, 我们在这里面去找本地模型,我们登录进来,然后找到这个 browser two m 加 models, 或者说你直接在搜索栏中搜索对应的名称,像这个主页,它这个首页里已经有这些,比如说像这个 minimax 的 二点一,千万的三点三,还有一些各种各样的 模型, open i 的 gptos 啊,你可以或者说这个 kimi 二点五等等,你可以点击这里去我们要找的像一些文本到图片的模型, 就是 ai 绘画模型,还有像这个文本到视频的模型啊, text to video, 还有像这个文本到文本,也就是我们的语言模型,就像豆包,千文,这些都是语言模型,我们只要去搜一下这个 text generation 文本生成,我们就可以在这里看到有千文,三点五啊,还有各种各样的 emoji 三啊,各种各样的 mini max 等等啊,只要是你所熟悉大厂,那基本他发了都在这里面啊。你看这个 b 嘛, 这个币数越大,比如十七币,八十币,三十二币,一百九,十九币,甚至这个二十八币,或者说这个四币的,这肯定效果没有那么好,是吧?那因为达到六十七币,一二一百二十四币都很大, 这东西像这个 mini max, 二点五,二点二十九币啊,二百二十九币,这个更大,这个你要是下下来,你会发现 你可能你的电脑用不了啊,就是这么简单哈。 ok, 我 们再看这个像一些其他的开放的 a p i 怎么去使用?那这里我以这个 g m 举例啊,我们直接去找到 a p i k, 点一下就进入到这个页面了, 这个页面就是你的 a p i 密匙了,我们在这个项目管理 a p i key 中找到它,像这个已经有的 a p i, 你 用到别的地方可以去,这样子你也可以直接删除,我们再可以添加个新的 a p i, 比如说你这个 a p i, 你 要去用到自己的 call 啊,那么龙虾上我们就点击 call, 然后把它复制过来,然后粘到这个 call 里,你就给它充钱就可以了哈。 你还想还想要再用一个 a p i 去做别的项目,那比如说我这个叫这个 agent agent, 那 这个 a p i 呢?我们给它复制过来,去放到别别的调用的端口里给它充钱就可以了哈。 像这个 open a d b c 的 a p i 啊,页面也差不多哈,你可以在这里点击 create new c c 啊,你也可以在这里点一样的啊,这里 name 我 写 call 啊。这个 project 你 可以放到你的默认 project 里,不过一般只有一个啊,点击 quit 就 可以了哈, 配置完之后呢,一样的,你就给自己的套餐充钱就可以了。那这个 api 呢?它不同于你的和你的传统的大模型,你直接问它那种网页对答模型不一样的啊,因为 api 呢?它 是啊, api 它是实时计费的,就说你要是用的话,你可以用到很多层面上不同,不停去调用这个模型。而你的网页因为问答呢,只要你这个模型啊,只要你这个网页关了,你就用不了了,是吧?你要是想用它,你是不是得二十四小时数在电脑前啊?你在电脑前你才能用它,但 api 不 一样,你可以做成全自动化的东西, 这样子呢,它的费用就会很高了。所以说 a p i 是 单独收费的啊。 ok, 那 今天呢,学完这课,咱们这个玩龙虾啊,或者说玩什么都会更轻松一些哈。咱们就先到这里啊, ai 啊,一定要去关注这些啊,最基础的东西,如果说这些基础东西你都不知道,那你去你就很难玩得转这些东西哈。

大家好,我是你们的科普达人,今天咱们来聊聊个人开发者怎么低成本入门 tocan 生产。很多朋友可能觉得 ai 模型部署门槛高,成本贵,其实只要配置得当,咱们普通人也能玩转。先说说硬件怎么选, 如果预算在一万五以内,想先试试水,那 rtx 四零九零 d 或者四零九零显卡是首选。二十四 gb 或十三 b 的 模型,搭配 i 五或 r 五的 cpu、 三十二 gb 内存, e t b 的 nvme 固态硬盘,再加上一千瓦的电源和一套散热好的机箱,总价大概一万一到一万六就能稳定运行。模型 托肯吞吐量能到每秒两百到五百个,日常测试和小流量使用完全够了。要是预算能到两到四万,想搞小批量生产,那就可以考虑上双卡四零九零 b, 或者直接上 a 一 零零,内存加到六十四 gb, 这样吞吐量能到每秒八百到两千个,接下小 b 客户的需求也没问题。硬件搞定了,软件和模型怎么选呢?模型方面,七 b 规模的 q 文二七 b instruct 或者 lama 三七 b 就 很适合入门,显存占用小,延迟低, 聊天、写文案、生成代码都在行。十三 b 的 模型像 q d r 杠一三 b instruct, 复杂推理和行业知识库的应用效果更好。这里有个小技巧,优先用 i n t 四量画板,显存占用能降百分之七十五, 速度还能提升两到三倍,效果几乎没损失,性价比超高。推理框架推荐 v l l m 开源免费,吞吐量比原声 pie torch 高十倍以上,个人开发者首选。部署工具方面, fast api 或 flask 用来封装 api 接口, prometheus 和 grafana 监控性能, e l k stack 记录日记这些都是免费又好用的工具。大家最关心的成本问题来了,按三年折旧算,入门级硬件每月折旧大概四百一十七元。电费方面,单卡四零九零币,满载运行 每月电费差不多一百九十四元,总成本约六百一十一元。按每天产出两千五百九十二万 token 算,单位 token 成本约零点零零零零二三六元,也就是二点三六分。每千 token 对 比 openai 的 gpt 三点五 turbo, 成本只有它的四分之一,价格优势很明显,想快速上手, 一天内就能跑通,先装 uber 二二点零四 lts 系统,然后安装 cuda 十二点一 cuda n, 再装 python 三点一零和 vl l m。 接着用命令启动模型服务, 最后用 qiro 测试一下生成 token, 看看返回结果里的 usage 词段,统计 token 数就搞定了。最后给大家几个进阶优化建议,用 v l l m 的 批量请求功能提升吞吐量,尝试模型蒸馏,降低显存占用和延,使用 radis 做请求队列应对高流量 在整个数据库记录用户 token 消耗,实现自动计费。这样一套下来,你的 token 生产系统就既高效又经济了。怎么样,是不是觉得个人搞 token 生产没那么难?你最想先用这个系统来生成什么内容呢?评论区告诉我吧!

token 是 什么?今天这期视频,我们把 token 彻底拆开来讲,先搞清楚它有几种以及各自是什么含义,再深入讲 ai 大 模型里的 token 到底是怎么运作的,以及如何帮你省钱。 token 这个词在计算机领域至少有两种完全不同的含义,很多人混淆就是因为没有先区分清楚。第一种语言 token language token 也叫 nlp token, 这是 ai 大 模型处理语言时的最小单位,是模型理解和生成文字的基本碎片, 我们今天重点讲的就是这种。第二种,身份验证 token, off token, 比如 access token、 jwt token, 这是一串加密字母串,用来证明你的身份和权限,相当于服务器给你颁发的数字门禁卡。两者唯一的共同点就是都叫 token, 这就好比苹果手机和苹果水果名字一样, 但完全是两个领域的东西。以后遇到 token 这个词,先看上下文,在 ai 和大模型的语境里,它是语言单位, 在登录 api 健全的语境里,它是身份凭证。搞清楚这个分类,你在这两个领域都不会再被绕晕了。接下来我们重点来讲语言 token。 在 ai 领域,特别是大语言模型 l l m, 像 chat、 gpt、 cloud、 gemina 一 类的系统里, token 是 模型看懂和写出语言的最小单位,它不是密码或凭证,它是 ai 内部真正处理文字的基本快,是模型理解和生成语言的原材料。 通俗的讲, token 就 像乐高积木,我们写一句话给 ai, 看起来是一个完整的句子,但 ai 不 会像我们一样理解整个句子,它会把文本拆成一个个小块及 token, 这些小块可以是一个完整的词,一部分词,甚至是一个符号或标点,每一块就是一个 token。 模型不是按人类的语法去理解,而是按这些 token 一 步步分析和预测下一个最可能出现的 token。 为什么要这样做?因为 ai 模型内部只能处理数字,不能直接看懂文字。先把文字拆成 token, 然后把每个 token 转换成一个数字 id, 再把这些数字送进模型进行计算和预测,这样模型才能理解上下文并生成回答。在实际使用中, token 还有两个非常重要的作用, 第一,它决定了 ai 能处理的内容范围大模型对话时有一个上下文窗口,就是说模型一次最多能看到多少个 token, 如果超过了这个限制,最早的 token 会被丢掉,这会影响模型理解整个对话。第二,它关系到成本和计费。 很多 ai 服务是按 token 计费的,包括你发送的输入 token 和模型返回的输出 token。 token 越多,成本越高。 那如何节省 token? 在 ai 模型使用中, token 是 直接影响成本和效率的核心指标,控制好 token 的 使用,能省钱又提升速度。下面是最有效的几个方法,帮你在实际使用时节省 token 消耗。一、精简输入内容,别把所有背景都丢进 prompt, 只把真正相关的信息留给模型,让每个 token 都有价值。缩短指令,去掉庸俗描述,可以显著降低 token 消耗。 精简上下文相当于少用 token。 二、限制输出长度,提前设定回答长度上限,避免生成宕长啰嗦内容,这样模型不会自动扩展答案,从而减少输出 token 数。 三、做缓存与复用对于重复查询或者经常用到的内容,可以先将结果缓存起来,后续类似请求直接从缓存返回,不再重新调用模型,从而节省大量输入和输出 token。 四、选对模型分阶段处理任务, 不同模型价格差异巨大。把大任务拆成两步走,先用小模型或简化逻辑生成摘药或关键内容,然后再用更强模型处理简化后的内容, 这样整体消耗的 token 更少。五、只保留重要上下文历史对话长篇内容会不断重复发送给模型,快速占满 token 上线,所以只保留与当前任务直接相关的上下文就够了,其他历史可以省略或者按需摘药再传入。 最后总结一下, token 在 计算机里有两种完全不同的含义,语言 token 是 ai 处理文字的最小单位。身份验证 token 是 证明身份的加密凭证,两者只是名字相同,本质毫无关联。在 ai 大 模型的世界里,语言 token 是 一切的基础。 ai 不是 看单词,而是看 token, 它靠一串串 token 来理解世界作判断,生成结果。这就像我们拼积木一样,模型把语言拆成一块块小积木,然后用它们组合出回答。理解了 token, 你 就掌握了和 ai 打交道的底层语言。无论是调用 api、 优化提示词,还是控制成本,都离不开这个基础概念。 token 是 ai 世界里的基本单位,是 ai 语言理解与生成的起点。好了,本期的分享就到这里,如果觉得这期内容对你有帮助,记得点赞、关注和收藏,我们下期见!

看到富盛在分享怎么让小龙虾整 token 的 视频,基本上我听完这条分享之后, 其实我的小龙虾就已经拥有了节省 token 的 能力了。我不知道大家能不能理解这件事情,当你看到知识的时候,其实你就已经拥有了知识,很有意思,这是可能在 ai 时代新的一种学习范式。其实这就是一个建 skill 的 过程, 我给大家演示一下,你现在这个界面是我自己 cloud 的 命令对话框,我现在就把不剩的视频的文案发给我的小龙虾,让他自己学,就用魔法打败魔法。现在我用的是 kimi, 我 们看一下,他现在已经学完了 脚本替代,我们现在是在用的多模型在用。我要问他,你能不能建 skill? 对 我而言,其实它应该属于一个简单任务, 米干活很糙的,就是他建好之后他也不跟我说个结果,所以我决定还是要让 cloud 看一下,我会更放心一点,怕是已经查出来一个严重 bug。 我 刚刚也是试测了,其实写 skill 这种事情还是需要博士生上的,现在 他问我要不要帮我来修复这些问题,那我就告诉他说,别,你先别干,因为不像很多人说你有了小龙虾你什么都不管了,不是那样子的,我觉得在定规则这个阶段还是要管的,他得了解你的工作习惯,了解你的标准。所以呢,我现在就会告诉他 不行,因为首先第一,我需要看到完整的规划,第二,你得明确告诉我,你什么时候来提醒我这个上下文需要 compress 了?你的标准是什么?你是到一百万 tock 的 时候,那钱都烧的不知道到哪去了,包括他要帮我去优化怎么选择模型,那我也会告诉他你都不知道我要处理什么任务,如何去分配。因为一开始那个 kimi 也是写的很离谱, 说让 kimi 帮我写代码,让 opas 帮我看图片,然后就神经病啊哈哈哈。相当于就是你找了一个错的人去干他不擅长的事,即使是 opas, 我 得需要让他 很清晰的把他准备怎么干他的计划先给我看,不然那完全就是一个黑箱子,他在里面搞东搞西你都不知道。所以我们把这个命令发出去,好像我们的反馈已经开始出来了。首先,必要的和不必要的可选的是什么?你看 他会告诉你压缩上下文出发条件是什么,提醒的形式是什么样的,你看这就很好,执行后费用可降低百分之五十到八十,包括责任务的分配,他会给我看到整个的执行流程,调度机制是怎么样的, 那我就心里很有数,现在这个 skill 已经开始在工作了,就刚就是我问他这个 talk manager 的 skill 有 没有已经在开始运作了,那你判断这是一个复杂问题还是简单问题? 你看 ai 就 咔咔咔咔就给我回答了一串,我套了一下他的话,我就套套说这个对话,你已经有开始按照我们的 token manager 这个 skill 开始判断模型了吗?就我的言下之意就是你是不是还在让我再烧 opus, 用很贵的模型在处理简单任务?刚刚还在讲,哼,你这个 skill 都没有好好工作, 结果你看人家说你说的对,但是我刚刚查了一圈,你现在用的模型其实已经是二点五了,也就是我们的这个 skill 其实已经在起作用了。它没有提醒我,但是它悄悄地已经把那个模型给我从 opus 换回了二点五。 接着提醒,现在这个对话窗口的上下文已经超了,那就问我要不要开始执行压缩,他已经开始按照 skill 制度自己在开始运作了。那我刚刚也看了一下后台的 a p i 的 消耗量,确实止血了,不像前几天那样真的让人血压飙升,所以 我们的这个 token manager 就是 谢谢富顺老师的贡献。如果你对这个 skill 感兴趣,也可以留意评论区,那我们下次分享见,拜拜。

什么是 token、 agent、 api? 我 今天就用一笔贷款,把这几个词儿给你讲明白。文末最后我会放对应的专业术语,一个 token 是 啥? 你发一个指令,就向企业提一笔提款申请? ai 收到指令就向系统开始理解思考。生成每一步都在消耗资源,这些资源怎么算?按笔算,按量算,实时扣,你用多少,用完即止,车单不退手续费。 什么意思?就是企业提了申请,你已经既提了拨备,占用了收信突然说我不提了,对不起,已经占用的头寸,已经发生的成本退不了, ai 也一样,你指令发出去了,他已经开始计算了,你突然说算了,不弄了,已经消耗的 toc 照扣不误。第二个 agent, agent 是 啥?你想,以前批一笔贷款,得有人看报表,查征信,算额度,写意见, 现在呢?系统自己调数据,自己跑模型,自己出结果,钱出去之后,系统自己盯着账户抓流水,抓报警异动,真的也是这个意思。你给他一个指令,比如说帮我定下周去上海的机票, 他自己打开浏览器,自己登录网站,自己填信息下单,干完了还告诉你票订好了,已截图。只不过他批的不是贷款,是任务,盯的不是账户,是操作。第三个 api, api 是 啥?你想想 又不是人,怎么说话呢?不靠人传话,靠接口。你发一个报文过去,他回一个数据过来, 格式固定,自断,标准自动对账。 api 也是这样,两个软件之间怎么说话呢?不靠人点来点去靠 api, 你 调一下它的接口,它给你返回的数据,标准化、自动化、可追溯。 就像咱们报征信,你发个查询报文,征信中心就回个报告,报文中间没有人传话,全是接口自动走。 所以你看什么是 token agent api, 翻译成金融银行的话就是以上这些。行了,今天这笔贷款我放出去了,你们听懂了吗?

第四集呢,我们来科普一下关于 token, 也就是前面我讲说喂龙虾要喂的饭,很多人不理解说,哎,这个到底是怎么算的?我怎么感觉好像都不太够用。 所以我今天我来讲一讲这个 token 的 底层逻辑,同样是用说人话的方式,一次性讲清楚为什么要有 token, 它是什么都有,谁在用。 首先先讲为什么要拖更,你平时对着电脑用手机打字的时候呢?文字对我们来说是很直观的,但是计算机完全看不懂啊, 计算机他只认识什么呢?认识数字。于是大家就定了一个规定,把字词、标点和符号切成一小段一小段的,然后这个每一个小段给他编一个唯一的编号, 这个被切好的文字的小段,再加上这个对应的编号,合在一起就是头梗。 好。第二个,头梗到底是什么?头梗其实是 ai 世界里面的文字最小单位,它不是字,也不是词,而是模型能够直接读的最小的片段。 呃,比如说一段中文或者一段英文,会被模型自动切成很多很多个头梗。举个例子,恭喜发财。呃,这句话对于 ai 来讲呢,它像一个完整的土豆, 哎呀,是没有办法直接啃的,没有办法直接吃的,必须要被先切成土豆丝。这一根一根的土豆丝就是头梗,为什么要切呢?就吃不下一整段话,所以他只能一段一段的处理,这就是计算机。目前计算机都是这样, 必须要有统一的大小,统一的格式, ai 才能算得快,算得准。有了统一的单位呢,才能限制长度啊,算价格,算算利。 所以呢,你发给 ai 的 字,呃,加上 ai 回给你的字都是要算透肯的,你就当是你给 ai 干活,那你就要给他发工资啊,你说的越多,他回复的越长,工资就越高。就是这么个道理 啊,谁在用 togg 呢?所有你正在用的 ai 大 模型,只要是处理文字的 ai, 底层全是 togg。 好 呢,我们前面有讲到说龙虾,上一节有讲到说龙虾 它是一个需要不停的去砸装备升级技能的这么一个工具,那么会不会导致消耗很多的头梗,需要喂很多的饭哦,发很多的工资呢?这取决于,呃, 取决于他的干多少活吧,本身 skill 他 是不占用 token 的, 但是你给他加的 skill 越多,比如说他现在身上有一百个技能对不对?我又会算数,我又会英语,我又会翻译,我又会这又会那又会查天气,又会帮你买机票等等, 他本身的这些所有的技能是不会消耗头梗的,什么情况下会消耗呢?你给他发一个指令,你说,嗯,帮我查一下今天去北京的机票。好,他这个时候他是会消耗的,他查完了以后给你,也就说你在第一个指令 你没有很明确的给到他,你想需要什么?你在同一个问题上面反反复复的去问他,他给你发了这几盘,说,啊,不行,这个时间好像有点早了,你能不能找个晚一点的给我,那就会导致他不明白你的需求的情况下,他在后台他会 用很大的这个算力去找,也就说当你的指令越模糊,当你给他提出的需求越来越多的时候,那他后台消耗的吃的饭那肯定会越来越多。什么样的情况下我们可以去节约托克呢? 就是刚才我举的这个买机票的这个例子。你在发出指令之前,你需要自己清楚的知道你要给他下达什么命令, 所以你不要只管着。哎呀,自己迭代,我觉得县级段也好,呃,未来也好,我们最重要的技能一定是自身的一个知识系统的迭代,你脑子里面思维的迭代, 你自己首先要足够厉害,因为不管是什么样的工具,从零到一的过程一定是你自己,你才是最终的总指挥。

token 是 如何被计算出来的?之前呢,我们用了五期视频全面讲解了 token 到底是什么,全网呢有一百万播放,感谢大家的催更。这次呢,我们继续出发探讨 token 到底是如何被算出来的,最后的结果一定会让你发出原来如此的惊叹。 在模型推理阶段呢,完整流程一共分为七步。第一步呢,用户输入提示词,比如我们输入用苹果手机拍苹果这句话。第二步呢,模型将这些提示词切分成一个个托管,并得到每个托管的数字 id, 切分的依据呢,就是这个文件中的词表。 第三步,模型根据这节 token id, 从词切入矩阵中取出对应的词切入向量。比如手机的 token id 是 八五四九,对应的切入向量是这样的,苹果也是这样的。一大堆数字,为了方便演示呢,我们只取前四个数字作为演示势例。 到这里,一句话就被转为了多个数字向量。熟悉限限待数的朋友可能已经意识到,我们可以用一个矩阵来表示这句话,模型呢,也可以通过矩阵运算实现并行计算。第四步呢,模行为每个 token 呢添加位置编码,标记它们的先后顺序,否则模型无法区分你爱我还是我爱你。 位置编码的公式呢,不同模型会略有差异,具体公式呢,这次我们就不展开了,实际的效果就是在没有添加位置编码的时候,这两个不同位置的苹果向量都是一样的。添加了位置编码后呢,两个苹果的向量就变得不一样了,这样模型就能区分不同位置的 token。 第五步,模型读取这些添加了位置编码的向量,通过多层 transform 计算,最终得到了一个理想的预期向量。具体的算法细节呢,可以查看我之前发的 transform 模型讲解视频。 第六步模型呢,将这个理想向量与词表中所有的拓客向量进行比对,计算它们之间的相似度。 这就好比相亲亲友智囊团先定义出理想型男友的标准,身高一八零,有房有车、大城市户口等等,但实际情况是,没有人能百分之百符合这个条件。模型呢,就拿这个标准作为打分依据,对每个后选男嘉宾呢进行打分,也就是计算相似度。 第七步模型,根据计算出来的相似度,取出其中一个后选托肯作为模型。本次的输出 分越高,被选中的概率呢就越大,得分越低呢,选中的概率就越低。这也就是之前说的模型输出具有一定的随机性,不同时间问同样的问题,回答可能会不同。比如这个例子中,候选词照片十逗号,得分相对比较高,都有可能被选到。 最后,模型把选中的 token 拼接到已有的输入中,重复第三步到第七步,一个接一个的输出后续内容,直到模型输出结束符,这才停止输出,结束整个回答。所以你看,模型不是凭空生成内容,而是在做选择题,而每一次的落笔都是一次十万分之一的遇见。

mac mini 暴涨,这纯属是跟风买错了。来讲个硬核知识点,这个叫龙虾的 agent, 它的本质其实是一串 pad 脚本,它不吃显卡, 也不吃本地算力,它真正的大脑在云端 cloud api。 所以 这跟你是 mac 还是 windows, 甚至是一台十年前的破烂笔记本毫无关系。那些加价买 m 四芯片的,怎么说呢,这就好比是吃了顿外卖,非得把五星级大厨请回家里住,太败家了。真正的成本在这里。 toker, 他 每一步操作都在烧钱,省下买电脑的钱去充 a p i。 余额才是正的工具,指在内,算力才是核心,别被硬件厂商收了税。

jwt 的 神奇一段 token 如何解决认证问题?你有没有发现一件事,现在的网站 app 接口 好像都不怎么用 session 了,取而代之的是一个看起来乱七八糟的字母串 jwt token。 它没有登录态,没有服务器记忆,却能让你一路畅通无阻的访问接口。今天我们就来揭开它的真面目, jwt 到底神奇在哪? 第一幕,传统认证的烦恼先回到远古时代, session 认证流程是这样的,用户登录服务器创建 session, 把 session id 存到浏览器 cookie 之后,每次请求都靠这个 id 认人。听起来没毛病, 但问题来了,服务器要存状态, session 爆内存,分布式部署很难搞。多台服务器 session 不 同步,跨端麻烦, web app 小 程序各一套。于是后端工程师开始集体投突。第二幕, jwt 登场这时 jwt 走上了历史舞台,他只干一件事,把用户是谁这件事直接写进 token 里,服务器不再记住你,而是让你随身携带你的身份说明书,这说明书就叫 jwt。 第三幕, jwt 长什么样?一个 jwt 看起来像这样? x x x x x y y y z 别慌,它其实只有三段, header 头说明用的算法,比如 h s 二五六 payload 载荷,用户信息 id, 用户名,过期时间 signature 防伪用的最关键一句话总结, j w t 等于铭文信息加加密签名。 第四幕, jwt 的 认证流程 jwt 的 流程非常潇洒,用户登录服务器生成, jwt 返回给前端,前端保存 token 之后,每次请求请求头里带上 authorization, 冒号 bearer token 服务器收到后,只做三件事, 验签,看有没有过期,从批漏的里取用户信息。重点来了,服务器完全不需要存任何登录状态。第五目, j w t 为什么这么香? j w t 的 优势简直是为现代架构量身定做, 无状态天然支持分布式前后端分离,友好跨平台通用接口认证统一。一句话,只要你拿着合法 token, 我 就信你。第六目 j w t 的 坑你也要知道, 但 j w t 也不是万能的 token, 一 旦签发无法主动失效,不能存敏感信息,呸!漏的是可读的 token 泄露等于身份泄露,所以现实中常见组合式短有效期。 j w t refresh token 黑名单版本号控制。 最后总结一句话, session 是 服务器,记住你 j w t 是 你向服务器证明你是谁。 一段 token 解决的是认证的去状态化问题。如果你在做前后端分离,微服务、 app、 小 程序、 api, 那 j w t 几乎是必修课。

你有没有遇到过这种情况,明明感觉自己没写多少字, ai 却告诉你超长了。你删了又删,改了又改, 最后勉强挤进去。但你始终搞不明白,它到底是怎么技术的?为什么一篇八百字的文章,在 ai 眼里可能是两千个字?这个问题的答案藏在一个你可能听说过,但一直没搞懂的词力 tucker, 今天我们用一条视频 彻底把它讲清楚。第一部分, token 到底是什么? token, 中文翻译叫令牌或词源,但在大模型的世界里, 你可以把它理解为 ai 阅读文本时的最小计量单位。我们人类阅读是暗字或词来计数的。你好,是两个字,你好,世界是四个字,但 ai 不 一样,它不认字,它认的是 token。 一个 token 可能是一个完整的单词,也可能是一个单词的一部分,甚至可能是一个标点符号。具体怎么切分, 取决于大模型使用的分词器。举个例子, chat gpt is amazing 这句话,在 i i 眼里,它可能会被切分成这样, chat 一个 token g, 一个 token pt, 一个 token is 一个 token。 注意,空格也算 amazing 一个 token, 总共五个 token, 你 发现了吗? 一个完整的单词 chat gpt 被切成了三个 token, 而一个空格也占一个 token。 这就是 i i 的 阅读方式,它不读字,它读碎片。第二部分,中文 token 为什么更费钱?如果你是中文用户,有一个坏消息要告诉你。 同样的意思,中文消耗的 token 比英文多。为什么?因为中文的信息密度更高,但分词器对中文的处理方式相对粗糙。画面演示,我爱吃苹果的分词我爱吃苹果这五个字在大多数中文分词器里可能会被切分成,我一个 token, 爱一个 token, 吃 一个 token, 苹果一个 token, 总共四个 token, 五个字等于四个 token, 比例接近一比一。但如果是英文, are like eating apples are 一个 token like 一个 token eating 一个 token apples 一个 token 也是四个 token。 看起来一样。问题在于,表达同样的复杂内容时, 中文需要的字数往往比英文的单词数更多,但分词器对长词的切分又可能产生额外开销。综合下来,中文对话的 token 消耗通常比英文高出 twenty percent 到 fifty percent, 这意味着什么?意味着用中文和 ai 聊天,同样的上下文长度,你可能花得更快。 第三部分,上下文窗口 ai 的 短期记忆理解了 token, 就 能理解另一个重要概念,上下文窗口每个大模型都有一个最大 token 限制,比如 gpt 四的上下文窗口是一二八 k token, cloud 是 二零零 k token, gemini 是 em token 这个数字决定了 ai 的 短期记忆 有多长。当你和 ai 对 话时,每一次你输入的内容加上 ai 回复的内容,再加上系统提示词,所有这些加起来的 token 总数不能超过模型的上限。一旦超出, ai 就 会忘记最早的那一些对话内容。这就是为什么有时候聊着聊着, ai 突然失忆了。 不是他故意的,是你的 token 窗口满了,最早的对话被挤出去了。用一句话总结, token 就是 ai 的 记忆容量。第四部分, token 怎么算钱?如果你用过 ai 的 api, 你 会发现它的计价方式很特别,按 token 计费, 而且输入和输出价格不一样。以 gpt 四 o 为例,假设价格是输入每百万 token 二点五美元,输出每百万 token 十美元。为什么输出更贵?因为思考比阅读更费力。 ai 生成内容的过程需要更多的计算资源来算一笔账。三体三部曲 总共约九十万字,按照中文一比一点五的 token, 如果让 ai 把这三本书读完,输入费用约等于一百三十五万, 除一百万乘二点五,约等于三点四美元。如果让 i i 根据这三本书写一篇一万字的读后感,输出费用约等于一点五万 token, 除一百万乘十,约等于零点一五美元,加起来不到四美元。这样一看, token 计价其实并不贵。但如果你做的是大规模应用,比如每天处理百万级用户请求, token 就是 一笔需要精打细算的成本。第五部分,普通人为什么要懂 token 有 什么用? 至少有三个地方用得上。第一,省钱。如果你再用付费 a p i 优化提示词的长度,能直接降低你的成本。 同样的任务,用更精炼的语言表达,少用几百个 token, 积少成多。第二,避免失忆。当你需要 ai 处理长文档,比如一整本书、一份年报、一份合同,了解 token 限制,能帮你提前做好分段处理,避免聊到一半 ai 断片。第三,提升效果。 研究表明,把重要信息放在提示词的开头和结尾,更容易被 ai 记住,因为 transformer 架构对两端的关注度更高, 中间的 token 容易被忽略。懂一点 token, 你 就能更好地指挥 ai。 第六部分总结 token 是 ai 时代的度量衡。 token 是 什么?它 是 ai 的 计量单位,是 ai 的 记忆容量,也是 ai 服务的计价货币。它不是汉字,不是单词,而是 ai 自己的一套语言系统。理解 token, 你 就能理解为什么 ai 会失忆, 为什么中文对话更费钱,为什么你的提示词需要精心设计。更重要的是,理解 token 是 普通人进入 ai 时代的第一课。当所有人都在谈论大模型,谈论 a g i 时, 你只需要搞清楚这一个概念,就能比百分之九十的人更懂 ai 到底是怎么工作的,以及我们该怎么用好它。

这是我的绘画记录,你看二月十日,一个一点七兆,一个一兆,封面几天更大?二月二十五日二点九八兆,二月二十六日二点四八兆,这些都是优化钱的。现在三月份的绘画将到几十到几百 kb, 我是 怎么做到的呢?问题出在哪?我的记忆文件有五千八百多字幅,全量加载要三千多 tokyo, 每次对话都加载一遍,这就好像在找资料把整个图书馆搬回家。第一招, qmd 模式。在 agent 点 markdown 文件里,我写好了记忆访问规范,核心原则是按需解锁,不全量加载。具体怎么用呢?我在 opencloud 里面配置了智普的 i'm betting three 模型,做向量化的解锁。选智普是因为中文友好,性价比高, opencloud 里面也支持 openai、 gemini 等其他的向量服务。用 opencloud 自带的 memory search 输入关键词,系统会在 memory 点 macdunk 文件和所有的日期文件里面进行搜索,找到最相关的片段,最 后再用 memory 点 get 精确的读取,不用全量加载,就可以省掉百分之八十到百分之九十的 token。 第二招,精简记忆。你看,这里有二十多个日历文件,我在 agent 点 macdunk 里面设置了定时任务,每天结束后自动沉淀一份日历,定期合成到主记忆的文件里面, 这样 memory 点 markdown 就 不会越来越臃肿。总结一下, q m d 模式是向量解锁加精确读取清剪记忆可以定时的归档,保持精剪使用。这两招可以省掉百分之八十到百分之九十的 token。 关注我,后续讲解更多 open klo 玩法,这里是 ai 共生格,我们下期见。

赶紧薅羊毛,英伟达免费送无线头肯免费用缤米 k 二点五, mini max m 二点五,流量无上限。一个视频教会你怎么免费注册领取,怎么接入锅锅捞小龙虾,使用干货两分钟,先收藏后观看,总共分为三步,第一步,我们先访问英伟达的官网,接受 我们的 qq 音箱 autolok 邮箱,点击下一步, 点击进去,点输入我们的密码,选择我们的验证模糊,点击创建。去邮箱,接受我们的验证码,粘贴验证码,点击确定,点击下一步, 这里随便取个名称,点击创建账号。第二步,获取免费 ipikey, 这里需要认证过后拿到我们的 ipkey, 这里点击 wordify, 这里就需要我们填写我们的手机号,加八六,一定要加上八六点深扣子, 输入我们的短信验证码,点击 word。 好, 这下我们就成功注册,接下来我们去得到 a p i t 我 们选择我们需要的模型, 这里选择 mini max 二点五,选择右上角的 vioq, 点击 jerry 的 api key, 生成我们一个秘钥,我们需要保存 api key model 备用。第三步,接入我们的小龙虾,我们打开 opencloud, 点击 ai 与代理,点击 model, 点击添加 entry。 划到最后,我们看你这个名字,取一个名称, 选择 open api competition, 输入我们的 api key, 打开我们开关,输入 base url, 然后添加, 选择我们的 open api complete id, 名称就是我们的模型名称,点击添加,这里要选择 text 好, 名称选择好,点击保存,这儿点击 open, 打开我们的接收文件。我们可以搜索 primary, 在 models 中添加和我一样的内容,然后再更改 primary 为我们的新节点名称, ctrl s 保存关闭,重启我们的 get, 选择我们新加的模型,询问它。 如果这个视频帮助了大家,请点赞收藏,关注我,多一个程序员男朋友点赞收藏。

哈喽,大家好,欢迎收听我们的播客。然后今天咱们来聊一聊这个 token 到底是个什么东西啊?为什么最近大家都在说这个东西?对,就是这个 token, 真的 最近就是好像这个人工智能领域的这个新宠儿一样啊,到处都在说, 那我们就来好好聊一聊它到底是个什么东西?我们第一个聊的是官方怎么去定义这个 token, 以及它在市场上的表现。 ok, 那 首先第一个问题就是这个 token 它到底是一个什么样的东西啊?官方是怎么去看它的?这个 token 其实它的官方的中文名字叫磁源,嗯,就是它是那个, 呃, ai 大 模型里面处理信息的一个最最基础的单位,就你无论是一句话还是一张图片,它都会被这个 ai 拆分成一个个小的 token, 然后去理解,所以说它就像是 ai 世界里面的一个基本的积木块。对,没错,而且这个 token 它是有计价的,有计量的,有交易的这样的一个功能的, 所以它也是这个 ai 服务的一个结算的标准,就它已经成为了这个智能时代的一个新的价值的锚点。那现在就是说最近这两年咱们中国的这个日军 token 的 掉用量到底涨得有多快?呃,其实这个数据是非常惊人的,就是从二零二四年年初的一千亿次, 到二零二五年年底就直接飙到了一百万亿次,然后到二零二零年的三月已经到了一百四十万亿次, 就是两年时间涨了一百多倍。哇,这个速度真的是太吓人了。更厉害的是我们中国的这个钓用量在二零二六年的三月连续三周超过了美国,成为了全球第一,这也意味着, 呃,围绕这个 token 已经形成了一个新的商业模式和价值体系。对,就 ai 这个产业在中国已经进入了一个高速爆发的一个阶段。对,那现在就是说咱们中国的这个 ai 大 模型在全球到底处于一个什么样的水平? 呃,其实现在我们中国的这个大模型在国际上面的表现还是非常亮眼的,就是我们的这个调用量已经是全球领先了, 然后包括我们的这个产业生态和商业模式其实也是比其他的国家要成熟的,就是我们已经实现了这种从技术的突破到市场的广泛应用的这样的一个转化,所以说不光是技术强,落地也做得很好。没错没错,而且就是呃,中文的这个 token 的 标准也已经被确立了, 然后也会推动这个多语种和多模态的这种能力的一个提升,那其实这个也会让中国的这个 ai 在 全球的影响力会越来越大。然后我们来进入到第二部分啊,就是我们想要去深入的了解一下这个 token 它的技术原理到底是什么啊? ok, 对, 那第一个问题就是 token 在 这个 ai 大 模型里面,它到底是一个什么样的定义啊?它有什么样的作用?其实 token 就是 ai 大 模型能够去理解和处理我们人类的语言的一个最基本的单位。 ok, 就是 它会把我们输入进去的无论是中文还是英文还是什么其他的语言,它都会先拆分成一个一个有意义的小片段, 然后每一个小片段就是一个 token, 对, 它其实就类似于呃,让这个 ai 能够去识字的这样的一个积木块哦,所以它就像是一个翻译,把我们的语言翻译成了 ai 能够懂的一种数字的语言。没错没错,对,就是每一个 token 都会被映射成一个唯一的数字编号, 然后这个 ai 就 会用这些数字来进行计算啊,来进行预测啊等等的。同时呢,这个 token 也是这个 ai 进行计费的一个基本的单元,就你用了多少 token 就 决定了你要付多少钱,同时呢,这个 token 也决定了 这个模型的这个记忆的上限,以及它的这个处理的效率啊等等的,所以它是一个非常非常核心的东西, 是这个大模型的一个动力的引擎。哎,那这里面就有一个问题了,就是不同的大模型在对这个文本进行 token 切分的时候,这个规则会有很大的区别吗?其实差别还挺大的,因为比如说有的模型它是用 bpe 的 算法啊,它就会把这个单词拆分成更小的一些子词, 那比如说是一些常用的词,它可能就会整个的作为一个 token, 但是一些生僻的词它就会被拆得很碎,那像 b r、 e, 它用的是 word peace, 它可能就会更倾向于去保持一些词的完整,所以就同一个句子,可能在不同的模型下面切出来的 token 数量和内容都不一样, 完全有可能。就比如说中文的话,可能有的模型就是一个字一个 token, 有 的模型就是一个词一个 token, 然后英文的话,可能有的模型就是一个单词会被拆成好几个 token, 所以这个就为什么大家说要了解自己的这个 chosen model, 它是怎么切分的,你才能比较好地去 控制你的这个成本和效果。现在主流的这种大模型的服务,一般是怎么给用户算 token 费用的?一般都是按照每一千个 token 来计价, 然后呢,这个输入和输出是分开算的,输出往往会更贵一些,那不同的模型它的这个价格可能会差好几倍,甚至几十倍都有可能。 那就是说我如果是一个多轮的对话,或者说我要处理一个很长的文档,那这个 token 是 不是就花的特别快?没错没错,因为你这个多轮的对话,或者说这个长文档,它是要把你的这个历史的内容都要算进去的, 所以你很容易就会超过这个模型的这个上下文的限制,然后你就会要么就是被创建掉,要么就是你要额外的付费。 所以就是说这个优化你的这个输入的内容以及选择合适的模型就特别重要。咱们来聊一聊这个 token 对 这个 ai 产业的商业模式的影响吧。嗯,第一个问题啊,就是 token 出现之后, ai 产业的商业模式都发生了哪些变化?就是 token 出现之后呢?其实呃, ai 产业的这个商业模式最大的一个变化就是呃,它的这个计价的方式变了, 就是现在大家都是用 token 来作为这个计价的单位啊,那云厂商也不再是卖算力了,云厂商现在直接就是卖 token, 哦,对,就是我给你提供一个 token 的 订阅服务, 然后我可以针对不同的场景来进行一个定价,比如说你是要啊高并发的还是要低延迟的等等的,它可以进行一个灵活的定价, 那这个就会彻底的改变这个产业的格局啊,所以说就不光是卖的方式变了,整个竞争的方式也变了,对啊,因为,呃现在大家拼的就不是说我有多少硬件资源了,大家拼的是我谁能够把这个 token 的 成本做的最低,效率做的最高。 然后数据中心也从一个单纯的提供算力的一个地方,变成了一个类似于 token 工厂这样的一个东西,就是它的整个的价值链条也变了, 就你这个电费变成了你最大的一个成本项。所以这个时候呢,就是像中国这种有绿电优势的地方,就可以把这个头肯卖到全球去,那这个时候其实就带来了一个新的全球的数字贸易的规则, 那也带来了一个新的这个所谓的能源加算力加 token 加应用这样的一个一体化的商业模式。你觉得就现在这个 token 的 这个用量暴涨之后,对这个算力和能源的格局带来哪些新的变化?就是现在这个全球的这个 token 的 用量啊,是呈指数级的增长, 那这个时候呢,就导致这个 ai 推理的这个需求啊,直接就引爆了,那这个时候呢啊,高端的 gpu 就 变得非常非常的紧缺, 那这个时候呢,租金也涨的非常厉害,交付周期也变长了,那这个时候呢,整个这个算力的市场就变成了一个卖房市场,所以说这个数据中心也得跟着升级呗,对,没错,就是这个新一代的这个数据中心就是要成为一个 token 工厂啊,那他就要追求极致的吞吐和极致的能效。 所以说现在就是这个夜冷啊,等一些技术就变成了一个刚需,那这个市场呢,也会在今年就会翻倍, 然后呢,这个算力的成本其实百分之七十都是用电,所以说啊,中国的这个绿电的优势啊,就可以让这个 token 的 生产更便宜。 那这个时候呢,算电携同和绿色能源也变成了一个新的产业的热点。你觉得就是未来这个 token 在 技术和产业上会有哪些新的趋势?首先就是我觉得未来大家会更关注的是每单位能耗能够产生多少 token, 就大家会把这个能效作为一个最重要的指标,那包括从芯片到整个系统的设计都会围绕这个来进行。然后呢就是这个硬件和算法的协统会成为一个主流, 那这个时候呢,就是这个推理的效率会得到极大的提升,这不单纯是拼这个硬件的性能啊,对,就是边缘的 token 工厂啊。然后这个分布式的计算会满足这种实时的和爆发式的这种需求, 包括这个整个的 token 的 流通的环节会被平台方牢牢的掌控啊,那包括这个规范出口啊,包括这个分层的定价啊,会成为一个新常态, 那这个时候呢?呃,安全和国际规则也会变得越来越重要。今天我们聊了这个 token 从技术原理到它如何改变了这个 ai 的 商业模式,然后再到它未来的一些新的趋势,其实我们看到的是 token, 它不仅仅是一个计量单位,它更像是一把钥匙, 他正在开启 ai 产业的全新未来。那就是这期节目咱们就到这里了,然后感谢大家的收听,咱们下次再见,拜拜。

最近 togan 到底怎么翻译?在互联网上引发了一波热议。起因是一条来自国家官网的新闻,相当于官宣了 togan 的 意法。词源 一时激起千层浪,先别急着站队,我们先把 togan 这个词捋清楚。 togan 本意是象征,比如情人节送人玫瑰就是 a token of love, 爱的象征。在不同领域中,它隐身出了不同的含义。玩阶级时,那种圆圆的 token 意为游戏币。计算机安全领域中的 token 意为令牌。加密世界里的资产单位意为代币。到了 ai, 这意为词源。那么这个词源到底怎么去理解呢? 根据官方的解释, token 是 大模型处理信息时的最小单位。大模型处理一个文本时,不是整段整段的读, 而是会把它拆成一个个更小的单元,再逐步处理。从这个角度来看,词源这个翻译其实在强调它既跟词有关,又是一个基本单位源。这有点理工男的风格啊,不浪漫,但是也确实抓住了本质。不过一些网友不太买账啊,有人说词源太别扭了,并且提出了像智源等更有科技感的议法。 也有人觉得,不管叫什么,有中文名字总是一件好事。因为这一波 ai 浪潮里,大量底层概念都是来自于英文世界。什么 chatbot、 prompt agent、 token, 如果不进行一轮中文重构,那么这些词就会变成一种圈内的黑化,懂的人越懂,不懂的人呢,直接劝退, 久而久之,就会形成一个隐形的门槛,把大量普通人挡在门外。正如当年我们把 laser 翻译成激光,把 computer 翻译成电脑就挺成功的,既好记又突出了特点,还极易传播。所以给 token 找一个好的中文名啊,本质上是在做一件更大的事, 是用我们的母语去构建数字世界的底层认知。但另一派的观点也很鲜明,就是 togel 作为一个外来的专有名词,没必要用中文硬翻。这个评论倒让我想起了 dna 这个说法,貌似没有简洁的译法,但也不妨碍大家交流使用,对吧? 这样争论还挺有意思的,它不只是一个词的翻译问题,背后其实藏着一个更大的命题,就是我们要不要为新技术建立一个属于自己的语言体系呢?词源或许不是一个最优解,但是它至少是一个开始。你接受词源这个翻译吗?还是更愿意直接说 token 评论区聊聊?

使用 openglue 呢,如何让每一个 token 都花在刀刃上?先问一个问题啊,就是你用 openglue 一个月花了多少钱?有的人可能花了六百美金,有的人呢,花二十美金,但是他们干的活有可能是差不多的。差距在哪里啊? 差距就在于你有没有让每一个 token 呢,都花在这个刀刃上。今天这条视频,我把社区里面验证过的是, token 就是省钱的方法呢,全部浓缩成三部,看完你立刻就能用。我们先说一个真实案例啊, reddit 上呢,有一个老哥跑了一个自动化新闻分析的 agent, 他 以为呢,每天的消耗呢,是很低的,结果呢,外部 a p i 返回了一个异常数据, agent 开始无限循环重试,结果一觉醒来,账单已经 一万两千八百四十七美金。所以 opencube 的 透视消耗呢,有一个最大的坑,就是上下文累积。你每发的一条信息,它会把之前所有的当前的筛选的对话历史,系统提示工具定义,还有 skill 的 定义,全部重新发一遍。注意啊,这里面系统提示词可不是说几句话或者几段话的。这种事我之前有个视频详细讲过 opencube 的 五大配置文件,那里面也提到了,就是我们每次对话开始呢,这五个文件呢,全部内容 都会加载到系统提示词里面,包括这个 agent, m d, sun m d, u s m d, heartbeat m d 以及 open clue 点 jason 这五大文件。 现在你对话一百轮之后,光 token 输入呢,就是两万多 token, 一个月下来几百美金就这么烧掉了,那我们要省钱怎么破呢?三步走啊!第一步,做模型的分层,不要用大炮打蚊子。 open clue 二零二六年最近的一个重要更新,就是支持了 自适应的模型路由。简单说呢,就是我简单的任务呢,我用便宜的模型,然后复杂任务呢,我才上贵的。给大家一个社区验证过的五层方案啊。第一个就是心跳检测,简单分类这些,用 gemna flash 这个模型,一百万 token 才一毛钱。第二个呢,你做日常分析讨论,用 kimi k 二点五或者是 deepsea v 三六毛钱,一百万 token 呢,不到一块钱。第三个,你做内容创作,内容创作呢,对表达是有要求的,那你上 cloudsonet 这个模型啊。第四就是最难的决策,采用 cloud operas。 那 从开源社区的反馈来看,用户呢,就靠这一招,月份呢,就可以从八十七美金降到二十七美金,省了百分之七十。 第二步啊,砍掉隐形的浪费。三个最容易忽略的 token 黑洞。第一个呢,就是 send 点 m d 文件太长了,很多人写了这个两三千字的系统提示,每次调用都要重新发,我们要把它砍到三百字以内,这样历省百分之三十到百分之五十, 怎么来压缩呢?首先,你得懂 sao m d 的 构成,可以看我往期的这个视频,或者看我们的蓝皮书。第二呢,有可能你没有开 prompt capture 的 提示词缓存功能,能够把重复内容的费用呢,降低百分之九十,通过 catch retention 这个参数可以一行配置的。是呢,很多人却不知道。第三个,心跳任务用了贵模型,那 open cool 呢?这个心跳任务呢,是每半个小时它就要触发一次的,如果你用的是 opengool, 那 一个月光心跳,那就得烧几十美金。 所以我们要把心跳模型呢,单独设成着 hico 或者更便宜的模型,这笔钱呢,你就省下来了。那还有一步呢,就是设安全网,防止翻车。大家要记住这个三道防线啊。第一个就是 opencloud 的 层面,设置,单独的请求上线,每小时上线和每天的上线。第二呢,还可以在 api 平台层面来设置,比如说 osmic 或者 openai, 或者第三方的中转,比如说 apprutor, 他 们在后台你都可以设置使用的上限的限制的。再一个呢,就是支付层面,用预付费的账户可以充多少呢?用多少,不要透支。前面讲的那个一晚上烧了一万二的脑壳呢,就是因为这些防线呢,他一道都没有做啊。 所以最后我们总结一下,第一个模型分层,第二个砍掉浪费,第三个设好防线,这三步做完,社区的平均数据呢,是这样的,月费呢,能够从六百美金降到 五十美金左右,不是省一点,而是省下了一个数量级。 opencube 的 核心理念是让 ai 帮你干活,帮你赚钱,但前提是呢,你得管好成本对吧,这样你才有利润,虽然它有收入,但是呢,你成本太高,可能你利润没有了,所以呢,只有你的 r o i 大 于百分之百,那这个 token 呢, 挖的才值, ok。 以上这些完整的配置方案和踩坑的清单,都更新在了一百八十九页的 open clue 蓝皮书的最新版本里面。如果这条视频呢,对你有用,可以点赞收藏,我们下个视频呢,继续聊,当然最重要的就是你看完得马上用起来。

套圈怎么用会最省钱呢?今天早上起来看到了一些人问我,现在养龙虾成本真的很高啊,要不断的充值,比想象的充值更多。问我怎么才能少钱?要想少花钱呢,其实有一些技巧, 也就是说你要把问题问的要简单一些,或者说要把它拆成步骤来去问问一些核心的, 别问的太广了,其实你想解决一个问题,但是你想的太大了,这个时候他就会来去调用更多的考察来去实现,当然了,也会有一些 agent, 他的架构 形成了高的托管产生,所以说这个时候当我们问问题还是广泛的,这个时候我们花的钱自然而然就会比较多。 所以说呢,在这里边呢,我感觉在 m c p 选择上也要去看一看,要有大量算力的。所以说呢,当我们去用 agent 的 时候,一定是切合自己的业务或是场景来去选择, 这样的话可以来去减少一些不必要的损耗,这就是我想给大家来句说的,面积别太大,要不然他是烧钱。当然如果爱我是因为费用高而选择了放弃,那你想想,当你把你的 a 阵的调好了之后, 你所带来的这些的花费其实比你的时间精力更宝贵。然后呢,更关键的是你对于这方面的新的技术,我感觉尝试优先的习惯,我感觉这是最核心最重要的。