粉丝3.2万获赞9.0万

面试的时候,十个候选员里八个说不清楚 token 到底是啥,今天一分钟给你讲透!很多同学刚开始接触接口验证的时候,都会听到 token 这个概念。其实我们可以用游乐园的手环做类比,你 去游乐园买完票,工作人员给你带个带防伪的手环,之后玩项目只要出示手环就行,不用每次套身份证购票凭证。 token 的 作用和这个手环完全一致,它是服务端生成的一串特殊字符串,作为客户端访问接口的身份凭证, 用户第一次登录验证账号密码通过后就能拿到 token, 后续请求不用反复提交密码,能大幅降低密码泄露的风险。 这里要特别注意, token 本身不具备加密属性,只是身份标识,千万不要把它当成加密工具来使用。那为什么会出现 token 这种验证方案呢?早期的 web 系统大多用 session 做身份验证,服务端要给每个登录用户存一份 session 数据。就像景区把所有游客的身份信息都存在入口的记录本上, 只有一个入口的时候没问题。可如果景区开了十几个入口,每个入口同步游客记录会非常麻烦。 token 就是 为了解决分布式场景的身份验证问题,诞生的 所有身份信息都存在 token 里,由客户端保管,服务端不需要存储用户的状态数据,多服务部署时也不需要做数据同步。当然,它不是 session 的 替代品,如果是内部单节点系统,用 session 反而更易维护。现在行业内最常用的 token 是 j w t 格式 完整的 jwt 分 为头、载客、签名三个部分,中间用点分隔,头部分记录 token 的 类型和签名算法。载客用来存储用户 id、 权限、有效期这类非敏感信息。签名则是服务端用私有密钥对前两部分生成的防伪标识。 这里要提醒大家,这三个部分里的头和载荷都是用 base 六十四编码的,相当于只是把铭文转成了方便传输的格式,没有做加密处理,任何人拿到都能解码看到内容,所以绝对不能在载荷里存密码、身份证号这类敏感信息。 了解了结构之后,我们再看 token 的 生成逻辑。 token 必须由服务端生成,用户第一次提交账号密码时,服务端先较验信息是否正确,确认是合法用户后,会用只有自己知道的私有密钥, 结合用户 id、 权限、有效期等信息,生成完整的 token 再返回给客户端。整个流程就像游乐园售票处核对你的身份证和购票信息无误后,给你发印有专属防伪章的手环,只有园区官方发的手环才有效。 私自打印的手环过不了工作人员的叫宴。大家一定要记住,不要在前端生成 token, 没有服务端密钥签名的 token 没有任何可信度。客户端拿到 token 之后,通常有两种存储方式,要么存在 local storage 里,要么存在 cookie 里。 存在 local storage 时,每次发请求需要手动把 token 放到请求头里,就像你每次玩项目,主动抬手给工作人员看。手环存在 cookie 时,可以配置自动随请求携带,不需要手动处理,但要额外做好 c s r f 攻击防护。 这里要避开一个常见误区,不要把 token 存在前端的普通 g s 变量里,页面刷新或者关闭后,变量会被清空, token 就 丢失了,用户就需要重新登录。 存储完成后,客户端每次向服务端发请求时都要带上 token。 服务端拿到 token 后的校验分为三步,首先把 token 的 头和载鹤用同样的密钥重新生成签名,和传过来的签名比对,确认是自己发的合法 token, 再检查 token 的 有效期有没有过。最后读取载荷里的用户信息,判断有没有当前接口的访问权限。整个过程,服务端不用查任何存储的用户状态,只要叫验通过,就可以直接处理请求,响应速度更快。 千万不要跳过签名校宴,只读取载贺内容,否则很容易收到伪造的非法 token。 所有的 token 都会设置有效期,短的十五到三十分钟,长的最多七天。就像游乐园的手环,通常只有当天有效,过了日期就算防伪没问题,也不能用。 有效期到了之后,常见的处理方式有两种,要么让用户重新登录账号获取新 token, 要么搭配 refresh token 使用。用户不需要输密码,直接用有效期更长的 refresh token 向服务端换一个新的普通 token。 不要把 token 的 有效期设置得太长,一旦 token 泄露,其他人可以用它冒用你的身份操作账号,风险很高。 除了控制有效期,我们还要注意 token 使用过程中的安全问题。 token 传输过程中必须走 http 协议,避免 http 明文传输被中间网络节点劫获。就像你不要在公共场合大声念自己的手环编号,避免被别有用心的人抄下来伪造。 拿到 token 后,不要随便存在公共缓存、第三方云同步目录里,涉及转账、修改密码这类高风险操作时,除了叫验 token, 还要加短信验档者类的二次验证。不要觉得 token 有 签名就绝对安全,只要 token 被别人拿到,就能直接冒充你的身份发起请求,和拿到密码的效果差不多。 最后我们来看 token 的 试用场景。现在 token 的 使用场景非常广,前后端分离的 web 应用、手机 app、 小 程序的接口、身份验证基本都用 token, 第三方开放平台的授权也会用。比如你用微信账号登录其他 app 时,微信就是给第三方 app 发了一个带你的身份信息的 token, 第三方不用拿到你的微信账号密码就能识别你的身份。当然,也不是所有场景都必须用 token, 如果你做的是只有几个用户的内部小系统,用传统的 session 验证实现成本更低,不需要硬套 token 方案。以上就是今天关于什么是 token 的 全部内容。

是不是我用错了,一百万 token 做不了一个小项目,我买的十五美金的额度,半小时就用完了。呃,我知道了,看来大家对一百万 token 的 概念还是有点模糊啊,我来帮大家梳理一下。一 token 呢,大概是一个中文汉字,或者是四分之三个单词, 一行代码呢?我们按照十个单词来算,大概就是十到三十个 token, 那 一个文件我们按照五百行代码来算,大概是五千到一万五的 token。 现在我们的前端项目都用了 ts, 那 些类型声明其实都是通过杀手, 实际的通过量可能更多。假如我们在操作的是一个中型项目,大概是一百个文件,那就是五十万到一百。五十万的 token。 中型项目 ai 还是能够理解的,如果说是一个大型项目,你想让 ai 理解都理解不了, 上下文就爆了。所以对于 ai 来说,去理解一个中型的项目,一百万 token 啊,其实也就是几分钟的事啊。现在顶级模型的价格,每百万 token 海枯石一刀,骚奈特是三刀,呃,奥普斯是五刀。所以你用 ai 写代码的话,几分钟就有可能会花你个十几或几十块钱。 怎么办呢?也简单吧,就是你一定要用艾特符号,用井号去控制好上下文,遵循上下文最小化原则,也能让 ai 输出的结果更准确。所以平时我们在用 ai 编程的时候,一定要有一个 token 的 消耗意识, token 就是 钱,省 token 就是 省钱。

token 是 什么?今天这期视频,我们把 token 彻底拆开来讲,先搞清楚它有几种以及各自是什么含义,再深入讲 ai 大 模型里的 token 到底是怎么运作的,以及如何帮你省钱。 token 这个词在计算机领域至少有两种完全不同的含义,很多人混淆就是因为没有先区分清楚。第一种语言 token language token 也叫 nlp token, 这是 ai 大 模型处理语言时的最小单位,是模型理解和生成文字的基本碎片, 我们今天重点讲的就是这种。第二种,身份验证 token, off token, 比如 access token、 jwt token, 这是一串加密字母串,用来证明你的身份和权限,相当于服务器给你颁发的数字门禁卡。两者唯一的共同点就是都叫 token, 这就好比苹果手机和苹果水果名字一样, 但完全是两个领域的东西。以后遇到 token 这个词,先看上下文,在 ai 和大模型的语境里,它是语言单位, 在登录 api 健全的语境里,它是身份凭证。搞清楚这个分类,你在这两个领域都不会再被绕晕了。接下来我们重点来讲语言 token。 在 ai 领域,特别是大语言模型 l l m, 像 chat、 gpt、 cloud、 gemina 一 类的系统里, token 是 模型看懂和写出语言的最小单位,它不是密码或凭证,它是 ai 内部真正处理文字的基本快,是模型理解和生成语言的原材料。 通俗的讲, token 就 像乐高积木,我们写一句话给 ai, 看起来是一个完整的句子,但 ai 不 会像我们一样理解整个句子,它会把文本拆成一个个小块及 token, 这些小块可以是一个完整的词,一部分词,甚至是一个符号或标点,每一块就是一个 token。 模型不是按人类的语法去理解,而是按这些 token 一 步步分析和预测下一个最可能出现的 token。 为什么要这样做?因为 ai 模型内部只能处理数字,不能直接看懂文字。先把文字拆成 token, 然后把每个 token 转换成一个数字 id, 再把这些数字送进模型进行计算和预测,这样模型才能理解上下文并生成回答。在实际使用中, token 还有两个非常重要的作用, 第一,它决定了 ai 能处理的内容范围大模型对话时有一个上下文窗口,就是说模型一次最多能看到多少个 token, 如果超过了这个限制,最早的 token 会被丢掉,这会影响模型理解整个对话。第二,它关系到成本和计费。 很多 ai 服务是按 token 计费的,包括你发送的输入 token 和模型返回的输出 token。 token 越多,成本越高。 那如何节省 token? 在 ai 模型使用中, token 是 直接影响成本和效率的核心指标,控制好 token 的 使用,能省钱又提升速度。下面是最有效的几个方法,帮你在实际使用时节省 token 消耗。一、精简输入内容,别把所有背景都丢进 prompt, 只把真正相关的信息留给模型,让每个 token 都有价值。缩短指令,去掉庸俗描述,可以显著降低 token 消耗。 精简上下文相当于少用 token。 二、限制输出长度,提前设定回答长度上限,避免生成宕长啰嗦内容,这样模型不会自动扩展答案,从而减少输出 token 数。 三、做缓存与复用对于重复查询或者经常用到的内容,可以先将结果缓存起来,后续类似请求直接从缓存返回,不再重新调用模型,从而节省大量输入和输出 token。 四、选对模型分阶段处理任务, 不同模型价格差异巨大。把大任务拆成两步走,先用小模型或简化逻辑生成摘药或关键内容,然后再用更强模型处理简化后的内容, 这样整体消耗的 token 更少。五、只保留重要上下文历史对话长篇内容会不断重复发送给模型,快速占满 token 上线,所以只保留与当前任务直接相关的上下文就够了,其他历史可以省略或者按需摘药再传入。 最后总结一下, token 在 计算机里有两种完全不同的含义,语言 token 是 ai 处理文字的最小单位。身份验证 token 是 证明身份的加密凭证,两者只是名字相同,本质毫无关联。在 ai 大 模型的世界里,语言 token 是 一切的基础。 ai 不是 看单词,而是看 token, 它靠一串串 token 来理解世界作判断,生成结果。这就像我们拼积木一样,模型把语言拆成一块块小积木,然后用它们组合出回答。理解了 token, 你 就掌握了和 ai 打交道的底层语言。无论是调用 api、 优化提示词,还是控制成本,都离不开这个基础概念。 token 是 ai 世界里的基本单位,是 ai 语言理解与生成的起点。好了,本期的分享就到这里,如果觉得这期内容对你有帮助,记得点赞、关注和收藏,我们下期见!

每一次工业革命,都有一样东西在背后疯狂燃烧。第一次工业革命,蒸汽机来了。蒸汽机本身不值钱, 值钱的是让它跑起来的东西。煤。煤从地里挖出来烧掉,变成蒸汽,蒸汽推动机器、机器生产商品。整个英国的矿山、铁路、钢铁厂,全都围绕着怎么挖更多的煤,怎么运更多的煤来建立起来。煤就是那个时代的核心消耗品。 第二次工业革命,电来了,电本身也看不见摸不着,但他改变了一切。爱迪生建发电厂,特斯拉搞交流电,全世界开始拉电网、发电、输电、配电、用电,一条完整的产业链,养活了成千上亿的人, 创造了通用电器这种巨无霸公司。电就是那个时代的核心消耗品。第三次石油、内燃机、汽车、飞机、塑料化工。整个二十世纪,全球经济都建立在石油上,围绕着石油打了多少仗?中东为什么重要?因为那里有油,石油就是那个时代的核心消耗品。 现在 ai 时代来了,它的核心消耗品是什么呢? token, 你 可能听过这个词,但不太理解。简单说, token 就是 ai 处理信息的最小单位。 你跟 ai 说一句话, ai 会把你的话拆成一个一个的 token, 然后逐个处理,逐个生成回答。每一次你问 ai 一个问题,每一次 ai 给你写一段文字,画一张画,生成一段代码,背后都在消耗 token。 一个中文字大约是一到两个 toc, 你 让 ai 写一篇一千字的文章,大概就是消耗了两千个 toc, 听起来不多,对吧?赶紧把这个数字乘以全球的用户量, chat gpt 每周九亿活跃用户,豆包 kimi 千万, 中国五点一五亿生成式 ai 用户,每个人每天跟 ai 对 话好几轮,每一轮都在烧 toc。 再加上企业端自动驾驶的 ai, 每秒处理海量的传感器数据,全是 token。 金融公司的 ai 交易系统,每毫秒做一次决策也全是 token, ai 写代码, ai 做客服, ai 审核合同, ai 看片子,全都是 token。 英伟达为什么一年赚两千一百多亿美金?因为生成 token 需要 gpu, gpu 就是 token 的 发电机。英伟达卖的每一块芯片,最终都是在帮客户生产更多的 token。 openai 为什么要花六千亿美元建数据中心?因为数据中心就是 token 的 发电厂。越多的人用 ai, 就 需要越多的数据中心,就需要越多的电力,就需要越多的芯片。 google 为什么要签一百五十兆瓦的地热能协议?因为 ai 的 数据中心太吃电了,生产 token 这件事,最终还是要烧真实的能源。所以 token 这条产业链从上到下是这样的, 最底层是能源发电厂,电网、地热核能给数据中心供电。往上一层是芯片,英伟达、 amd 含五 g 造生产 token 的 发动机。 再往上是云计算,亚马逊、微软、阿里云建 token 工厂,把算力租给别人。再往上是大冒险公司 open ai、 ospec、 deepsea、 月之暗面,它们把芯片和算力变成可以使用的 ai 服务。 最上面是应用层, chat、 gbt、 豆包 kimi 各种 ai 工具,它们是 token 加油站,每个用户来一次就烧一次。煤的时代,谁控制了煤矿,谁就是亡。石油时代,谁控制了油田,谁就是亡。电力时代,谁建了发电厂,谁就是亡。 token 时代,谁能更便宜、更高效的生产和分发 token, 谁就是王。这就是为什么英伟达市值全球第一,所有的科技巨头疯了一样的砸七千亿建数据中心。这就是为什么 deepsea 一 出来,全世界都撼动,因为它证明了用更少的算力能生产同样质量的 token, 等于用更少的煤烧出了同样多的蒸汽。但 token 跟煤石油炼里有一个根本区别,就是 煤你能看得见,能称重,一吨多少钱清清楚楚,石油你能闻到?一桶多少美元,全球统一报价。 电你虽然看不见,但电表会转,每个月你都会收到电费单 token 你 看不见,摸不着,闻不到。你跟 ai 聊天的时候,他不知不觉的会在消耗这个东西。每一次对话,每一次生成,背后都有真实的芯片在运转, 真正的电力在燃烧,真实的成本在产生。 openai 去年收入一百三十一亿美元,亏了八十亿。收入从哪儿来?卖 token 亏的钱花在哪了?生产 token 按 so pick 给 cloud 的 定价,按输入 token 和输出 token 分 别收费。 google 的 gmail 三点一 pro, 两百 k 以下的 token 一个价,两百 k 以上的 token 另外一个价。整个 ai 行业的商业模式底层逻辑就是一句话,生产 token, 卖 token。 未来十年, token 的 价格会像电价一样成为一个关键的经济指标。哪个国家的 token 成本更便宜,哪个国家的 ai 产业就更有竞争力。中国为什么拼命搞国产芯片?因为用英伟达的芯片生产 token 太贵了,还随时可能被卡脖子。 deepstack 为什么重要?因为它把每个 token 的 生产成本打了下来。当年煤价涨价,工厂就停工。油价涨了,航空公司就亏钱,电价涨了,铝厂就关门。未来, token 成本涨了, ai 应用就用不起。 token 成本降了, ai 就 能渗透到更多应用场景,替代更多人力,创造更多价值。 我是文思,你每天用 ai 的 时候,可能从来没有想过这些,但从今天开始,你可以换一个视角看 ai。 你 用的每一个 ai 工具,背后都连着一条从能源到芯片到数据中心到大模型的完整产业链。你敲下的每一个字, ai 回复你的每一句话,都在消耗一种你看不见的资源,这种资源就是 token, 它是 ai 时代的煤, ai 时代的石油, ai 时代的电,只不过这一次烧的东西,你看不见。觉得涨知识了,可以转发给你的朋友看看。关注我,每天带你看懂 ai!

现随着 ai 应用的遍地开花, ai 的 talk 消耗量越来越大,甚至有人开玩笑,今天赚了多少个 talk, 还有一个应用场景,大家每天在使用 openclo 的 时候, 它的消耗量也是非常惊人,今天为大家分享一种方式,可以白嫖 talk, 而且它不是那种小模型,而是我们国内的 gim 五, 接下来我们看一下如何使用。哈喽,大家好,这里是二 pop openclock, 相信大家现在已经人手一只了吧,但是它的 talk 消耗量就非常大,今天我们分享一种可以免费获取 talk 的 办法,这就是互联网大善人英伟达免费开放的, 之前我也在公众号分享过,今天我们来手把手实操一下。我们打开英伟达官网的模型列表,大家可以看到这里有各种各样的模型,像千万三点五,还有智普五点零, 还有 kimi 二点五等等,这些都是可以免费试用的,使用方式也非常简单。我们先点击这里的注册,当然在这里注册的时候,我们要注意一点,我们要使用海外的邮箱,就比如 gmail 或者是微软的 outlook, 不要使用 qq 邮箱,这种是没法通过的,我已经给大家试验过了。 我这里粘贴我的谷歌邮箱,点击下一步,这里输入你觉得合适的密码,我们点击创建一个账户,这里他会给你的邮箱发送一个验证码,输入验证码,点击继续。这里是按选择是否接受通知,我们直接提交就可以, 没有任何影响。这里输入一个名字,这里也没有任何限制,直接输就行,这时候我们就注册完成了。回到了这个页面,大家可以看到最上边有一行,请验证你的获取 api, 我 们这里点击一下验证, 这里验证是需要输一个手机号的,这个手机号我们也试验过,输入国内的手机号,也就是加八六的,前面我们选择中国 china, 这里我们输入八六,这里我们选择中国。以后输入一个我个人的手机号,点击提交,这时候你的手机就会收到这样一条验证码, 是优速通发的,我们输入进去,点击验证,可以看到这里基本上是秒通过的,我们在这里随机选择一个模型,就比如智普的这个五点零, 然后点击这里的 welcome, 这里获取 api k, 可以 看到已经能拿到了,接下来我们验证这个 api k 到底可不可以用呢?在之前我分享过一个很好用的工具, cherry studio, 就是 这个樱桃的,它是一个开源项目,我们可以在 github 上直接下载到,然后在这里测试一下这个 api k 到底可不可用,我们点击左下角这个齿轮, 这里选择添加模型供应商,我就添英伟达下面供应商类型,我们选择 open ai, 点击确认,这里需要填密钥还有地址,我们粘贴 api k, 粘贴 url, 添加模型,这里要注意这是英伟达自定义的一个模型名称,就这个 z 杠 ai glm, 我 们拷贝过来,点击添加,这时我们打开对话试一下, 这里要注意模型切换,我们切换成刚才添加的,因为答的这个 z a i g m i 五,我们问它是什么模型,看一下它的反应,这里因为我的网络问题,可以看响应速度稍微有点慢,但是它是完全没问题的,可以看到它是由 z 点 ai 训练的大约模型,然后是 g a m, 这时我拿到这个模型大家就知道怎么用了吧,比如我们把它绑定到我们的小龙虾,或者是绑定到我们的 agent 上,这时候就可以无限的耗羊毛了, 而且我还没有碰到过说使用限流或者是 taco 被用完的情况。大家如果需要更多的账号,完全可以按照我这个方式注册几个谷歌账号,然后并且做一个手机绑定就可以了。更多 ai 和变现的方式我们一起来研究。

哈喽,各位小伙伴们好呀,我是小八,上一期咱们聊的 token 是 什么?后台好多朋友留言说听的云里雾里,什么项链词嵌入,完全搞不懂。 嗨,都怪我上次太想把知识点讲透,结果不小心用了好多专业术语,把大家给绕晕了。那今天咱们就专门做一期加根彻底,用大白话给你讲明白, token 到底是个啥,它怎么收费?咱们平时用 ai 的 时候又该怎么省钱? 首先啊,你就把 token 想象成咱们去网吧上网的网费,或者说就像你去游乐场买的代币券,又或者是你买的电影票, 你用 ai 聊天,每说一句话,听一句 ai 的 回答,其实都是在消耗这个 token 流量。就好比你去网吧,每上一分钟网就扣一分钟的网费,你买了电影票,入场之后才能看电影, ai 的 token 也是这个道理,你得先有这个入场券,才能让 ai 帮你干活。 那可能有人会问了, token 到底是怎么算的呢?它不是咱们平时说的字,也不是词,而是 ai 眼中的文字。乐高块什么意思呢?就是 ai 在 处理文字的时候,会把一段话拆成一个个小小的固定的单元,这些单元就是 token。 举个例子你就明白了,英文里 hello 这一个单词,在 ai 眼里就是一个 token, 但像 unhappiness 这个词, ai 会把它拆成三个部分, unhappiness, ness, 所以 这就是三个 token。 那 中文呢?中文就更有意思了,咱们说你好, ai 会把它拆成你和好两个 token, 也就是两个 token。 那 人工智能这个词呢,可能会被拆成两到四个 token, 具体要看 ai 模型的训练情况, 那为什么中文比英文更费 token 呢?这里面其实有个很重要的原因,就是 ai 模型的训练数据。目前主流的 ai 模型,它的训练数据里,英文占了百分之七十到百分之八十,英文单词更容易被合并成完整的 token, 而中文因为本身是表意文字,每个字每个词儿都有自己的含义, ai 更容易把它们拆得更碎。所以啊,同样表达一个意思,中文消耗的 token 差不多是英文的两到三倍,也就是说,你用中文跟 ai 聊,可能要比用英文聊花更多的钱。 说到花钱,那咱们就得好好讲讲 token 是 怎么收费的。这个收费规则其实也挺简单的,有个基础公式,总费用等于输入的 token 乘以输入的单价,再加上输出的 token 乘以输出的单价。 这里面有个钻见点,你一定要记住,输出的 token 通常比输入的要贵三到十倍。为什么呢?因为 ai 生成内容需要更多的计算资源。你输入一句话, ai 只需要理解你说的是什么,但输出的时候,它要从海量的训练数据里找到合适的信息,然后组织成通顺的语言, 这个过程要比理解你的话复杂的多,所以成本也就更高。咱们再举个具体的例子,你问 ai 一 句话用了五十个 token, ai 给你回答用了一百五十个 token, 那 这次调用总共就是两百个 token, 那 这两百个 token 要花多少钱呢?不同的模型价格差异可太大了, 就拿二零二五年主流的模型来说吧, gpt 五点四 pro, 它的输入单价是三十美元每百万 token, 输出单价是一百八十美元每百万 token。 那 国产模型呢?像通一千问三点五 plus, 输入单价是零点八元每百万 token, 输出是四点八元每百万 token。 你算一算,国产模型的价格,差不多只有 gbt 的 十八分之一,这差距可太大了。还有 mini max am, 二点五输入单价是零点三零美元每百万 token, 价格只有 cloud opus 的 十分之一到二十分之一。所以啊,咱们平时用 ai 的 时候,要是一些简单的任务,完全可以考虑用国产模型,能省不少钱呢。 那说到花钱,我最近看到几个真实的案例,特别有意思,跟你分享一下。有个网友,他用 openclaw 查肉价数据,就问了三十个问题,不到两个小时就把一百万 token 给烧完了,最后欠费零点三七元。 你看,虽然钱不多,但也能感觉到,要是用的多了,这个费用还真不少。还有富盛,他每天花在 open cloud 上的费用超过一百美元,差不多就是七百块人民币。为什么这么费钱呢?因为智能体在后台持续执行多步骤任务的时候,每次调用都要携带完整的对话历史。 就好比你跟 ai 聊天聊了好多轮之后, ai 要记住你之前说的所有话,才能根据上下文给你准确的回答。那这些历史对话都会被算成 token, 所以 单次绘画的 token 消耗可能会放大十到二十倍,费用自然也就上去了。 那咱们平时用 ai 的 时候,该怎么省 token 省钱呢?我给你总结了三个实用的技巧,都是小白也能轻松上手的。 第一个技巧就是精简你的 prompt 直击要害。很多人跟 ai 说话的时候,总喜欢先客套一下,说,你好,我想请你帮我分析一下这个问题。这个问题是关于我的工作的,我觉得有点复杂,其实完全没必要你直接说请分析这段代码的内存泄露问题就好了, 这样一来,你输入的 token 就 少了很多,自然也就省了钱。而且 ai 也能更快速的理解你的需求,给你更精准的回答。 第二个技巧就是控制上下圆长度。咱们跟 ai 聊天聊个十到十五轮之后,就可以考虑开启新的绘画了, 不然的话,历史对话会无限累加, token 消耗会越来越多,费用也会越来越高。就好比你写作文写了好几页之后,再回头看前面的内容,自己都觉得费劲, ai 也是一样的。所以啊,及时开启新绘画,既能省 token, 也能让 ai 的 回答更准确。 第三个技巧就是按任务选模型。不是所有任务都需要用最贵、最强大的模型, 百分之八十的日常任务,比如写个文案,查个资料、翻译个句子,用轻量模型就足够了。像 gpt 五、 mini、 deepsea v 三,还有咱们国产的 kimi k 二点五,这些模型都能很好地完成任务。 只有那些复杂的任务,比如写代码,做深度分析,再用旗舰模型,这样一来,你就能用最少的钱,办最多的事。我自己实测过,百分之八十的日常任务,用 kimi k 二点五、百分之二十的高难度任务再切换到 cloud, 性价比真的很高。 说到国产模型,最近还有个好消息,就是咱们中国的 token 正在逆袭。二零二六年二月,中国大模型在 open router 平台的周掉用量达到了五点一六万亿, token 首次超越了美国。而且四款国产模型包揽了掉用量前五中的四席, 分别是, minimax m 二点五、 kimi k 二点五、智普 g l m 五、 deep sec v 三点二。 为什么咱们国产模型能这么厉害呢?除了技术在不断进步之外,价格优势也是一个很重要的原因。咱们国产模型的价格只有美国同类产品的十分之一到二十分之一,这让更多人愿意去使用国产模型。 而且随着咱们自己的 ai 技术不断发展,国产模型的性能也在不断提升,越来越多的人开始认可国产模型的实力。 那最后我想问问你,你平时用 ai 的 时候会注意 token 的 消耗吗?有没有遇到过 ai 失忆的情况?就是聊了好几轮之后, ai 好 像忘记了你之前说的话,或者有没有遇到过账单超预期的情况,本来以为花不了多少钱,结果一看账单吓一跳。 如果你有什么省钱的小技巧,或者有什么有意思的 ai 使用经历,都可以在评论区跟大家分享一下,咱们一起交流交流,让更多的人能更高效、更省钱的使用 ai。 好了,今天咱们就把 token 的 事儿给聊透了,从什么是 token, 到它怎么收费,再到怎么省钱,还有咱们国产模型的逆袭。希望这一期加更能帮你彻底搞懂 token, 以后用 ai 的 时候也能少花冤枉钱。那咱们下期刚搞懂,赶紧跟你说系列再见啦,拜拜!

这几年,我们每天都在跟一个看不见的东西打交道,你问他问题,他能写文案,写代码翻译,还能陪你聊天。我们叫他 gpt, 或者更宽泛一点叫大语言模型。 但大多数人对他的理解还停留在一句话,他很聪明,很像人,会不会有一天统治世界这一集,我们不聊意识玄学,我们只做一件事,把他的工程细节摊开,从你敲下第一个字,到屏幕上弹出回答,服务器里到底发生了什么? 对我们人类来说,语言是被粉碎后的数字, 当你输入一句话,他看到的是一串小单元,叫 token。 token 有 时候是一个字,有时候是一个词的一部分,甚至是一个标点,一个空格。 gpt 背后常用的一种切法叫 bpe, 它从海量文本中统计高频出现的字母组合,合并成更大的单元。 这里有一个关键的成本事实,早期模型的分词器对英文效率较低,导致中文 token 数量激增。 就比如这句话, artificial intelligence is rewriting the world。 如果用 gpt 二系列那种英文为主的分词器,英文这一句可能只要八至十个 token, 而中文往往要多出百分之五十甚至更多。 这不仅让中文用户成本更高,还变相挤占了模型的上下文窗口。好在这一情况正在改变。随着 gpt 四采用更高效的词表以及 tiktok 等高性能工具的出现,中文编码效率大幅提升。 现代模型通过扩充词表,极大地缩小了这种差距,让中文在 ai 时代变得更加经济实用。 gpt 运行时的核心任务只有一件,根据已知的前文计算下一个 tock 出现的概率分布,并从中抽出一个结果。你可以把它想象成 gpt, 再玩一个超大规模的玩行填空游戏。 具体来说,模型会根据已有的上文计算出词表中每一个后选托肯出现的概率,最终输出的是一个概率分布。然后模型从这个分布中选出一个托肯作为结果。 一个贴切的类比是, gpt 就 像一个读过全人类海量文本的超级复读机,当你给他看前半句时,他并不是在思考真理,而是在进行统计,推演人类在这种语境下最常往后写什么。 他完全基于概率和模式,通过预测下一个词,最终拼凑出看起来极具逻辑的回答。 g p p。 最大的能力之一是在很长的一段话里,保持对谁是谁前面说过什么的记忆。在工程上,这靠的是自注意力。 想象一个高校会议,每个 tucker 都是参会者,当轮到某个 tucker, 比如他这个词发言时,为了弄清楚自己到底指代谁,他会启动三个步骤。第一步,拿着搜索卡去提问。他带着自己的需求向所有人发问,谁可能和我有关。 第二步,匹配大家的缩影标签。会议室里其他 tucker 都举着自己的标签,他会迅速进行匹配度打分。匹配度高,比如前面的小王,就会被多听一点,分配极大的注意力。权重匹配度低,比如桌子直接被忽略掉。 第三步,提取内容价值。他按照权重把大家的信息进行加权平均。最终他得到了一个融合了小王特征的综合表示, 这就是自注意力的本质。每个 token 在 理解自己时,都会回头审视前面出现过的每一个 token, 只不过关注的程度各有不同。一个 transformer 模型就是把这种看一圈算权重综合信息的操作堆叠了几十层。 模型是怎么吐出一整篇长文章的?答案是自回归生成。这意味着模型无法瞬间完成整段话,而是严格遵守时间顺序,一格一格的往前蹦字。 它无法瞬间完成整段话,必须严格遵守时间顺序。预测第一个词,把词接到原句后变成新前文,预测下一个词, 循环往复直到撞上结束符。在这个过程中,有一个决定悲哀性格的细节,我们如何从概率分布里抽出那个词?这就涉及到了几个关键参数的调配。 temperature, 温度越高,分布越均匀。低概率词被选中的机会增加,温度越低,分布越尖锐。模型更倾向于高概率词。 greedy, 永远选概率最高的那个 token, 输出会很稳,但也很无聊。 topk, 从得分最高的前 k 个后选词里随机挑一个 topp, 它只在累积概率达到 p 的 那些核心词汇里筛选。 高 temperature 加较大的 top 会让生成结果更多样,有创造性,但同时也更容易跑偏,甚至胡说。现在你已经大概明白了 gpt 的 内部世界。你看到的每一行流畅回答,本质上都是在昂贵的硅片上以每秒数以千万亿次的浮点运算堆出来的。 我们随便拎两块现在最有代表性的芯片, a 一 百和 h 二百。 更大的显存意味着同一块卡上能放下更大的模型,能处理更长的输入上下文更高的贷宽,意味着矩阵乘法里的数据搬运更快,同样,一轮前向传播和反向传播所需时间更短。 然而,一块 gpu 是 三百到七百瓦级别的耗电,一整个大模型训练集群往往要用到数千块。这样的卡连跑几周,这背后是非常具体的一张电费账单。 逻辑通了,芯片到位了,万事俱备,就差开机。下一章,我们将拆解大模型的诞生之路。

ai 时代天天说 token, 中文里愣是没有一个像样的翻译。这不是小事,一个词的混乱背后,是整个 ai 话语体系的被动。 有人叫令牌,像古代幺牌太古典,和今天的 ai 使用场景脱节。有人叫词源太技术,又太像语言学作业,把 token 锁死在 nlp 细节里,更多人干脆直接念英文,省事,但也窝囊。中文世界连一个基础概念都要仰仗英文,具体叫什么比较合适呢? 在技术定义上, token 当然是模型处理文本的基本单元,但在普通用户的使用体验层面,他更像是一种计价单位。你买会员充额度,本质上是在购买可消耗的 token。 他 决定了你能问多少问题,生成多少内容。对大多数人来说,他承担的是算力计量单位的角色。 既然如此,他就不该只是个冷冰冰的技术名词。我说几个,大家一起看看是否合适。逗比行不行? 发音贴近 token 的 前半段,逗有颗粒感,画面感很强,但问题也明显,谐音逗币难以上台面。更要命的是,逗已经被某些品牌绑定,其他平台不可能在官方文档里用逗币,他天然不具备跨平台通用的条件。逗币呢, 发音契合透,有穿透解析之意,技术意味十足。但透这个字给人的感觉偏虚,不够稳,而且技术味太重,普通用户未必买账。思来想去,可能还是要换个思路。传统信达雅的翻译逻辑是以外文为基础,想着怎么准确对译。 但 token 这个概念,中文世界完全可以以我为主。既然中文有个天然优势叫望文生义,我就直接用圆璧 看到元币,不用解释大概就能猜出意思。元是起点,是基本单位。币是计价工具,它不是被神话的东西,不是身份象征,不是投资品,它是人和机器之间真实发生的交换单位, 它天然就指向基础计量单位与交换尺度。而且圆本身就是人民币的计量单位,圆与币叠合,更强化了它作为计量尺度的属性。这不是从英文 token 反推出来的,而是从中文使用场景里自然生长出来的。 至于为啥不是原币,发音是进了,但我怕是很多人第一反应会变成元神启动太出戏。命名及权力 token 怎么被翻译决定了中文世界如何理解 ai, 也决定了我们在 ai 时代拥有多少主动权。原币这个词今天听起来或许陌生, 但语言的形成从来都是先有人提出,然后慢慢被使用。与其等别人定规矩,不如现在就把话说清楚。这不是一个简单的翻译问题,这是一个定义权的问题。 中文世界如果想占领 ai 国际标准的珠穆朗玛峰,首先得有自己的概念体系,原币就是扎实的一步。希望以后国际上说到中国出口的可交易的算力,不再使用 token, 而是 u n b。

都先别着急去安小龙虾,我有一个更重要的事情要去说,你看啊,很多就是安完龙虾的人去试的时候你会发现龙虾做一个简单的任务,他吃都要吃掉很多的 tokyo, 然后呢,然后我们就付费不了,你知道吧,所以说都变成了,哎,好像这东西是一个聪明的废物。哎,是吧,但是呢,你好好,我静下心来好好又想了一下,我发现就是投分这个事情还是人便宜对吧,你就是网上就是插上一个推特上一个呃,段子说是 研究生才是廉价的, tokyo 才是超级龙虾啊。指的是啥意思。就是啊,每个月多少多少额行的月薪,然后可以微信随时回复,然后无限消耗 tokyo 啊,无限制的对不对,你的时间都是你的,你看而且还能处理一些啊复杂任务 啊,所以说人可能才是啊, tokyo 也不用太担心啊, tokyo 那 个龙虾暂时代替不了你啊,你比龙虾要便宜的多。其实我在想这件事情的时候两件事情我联系在一块想我发现啊就是。嗯 嗯,怎么说呢,就是龙虾是需要蒜类的,它需要 toking 人,有没有 toking 人是有的,你这么说的话人也是有的,它有无限的 toking 决定了你的你,你的 toking 用在什么样的事情上你就把你决定了是什么样的人。如果你的 toking 一 直处于一些乱七八糟的事情上, 或者与人争吵与人分争的事情上,或者在关心一些别人的八卦,明星的八卦,陌生人的一些和你没有关系的事情上,那你的 talking 就 被浪费掉了。那同样的是呢,你拿你的 talking 让自己变得更加的聪明,还记得我们之前说过吗?如果你有一万块钱,你要去怎么做成最大的一环?第一个 包括但不限于的是让你变得更加的聪明,投资你的大脑,对吧?去听一些别人的呃言论,看一些别人的书,对吧?听一些别人的课,找一些老师让你变得更加的聪明。第二个 让你变得更加的健康,你有一个好的身体,对吧?办一张健身卡啊,办一些私教课对吧?买一些器材对不对?学习一些新的方法啊,对你自己的饮食结构有做一个调整 啊。第三个是什么呢?让你自己变得更加漂亮啊,这个漂亮指的是让自己的外在形态更好,这样指的是因为现在毕竟是有内涵的人,没有那么多了,我们尽可能都是及时的,对吧?所以说让自己的形象变得更好一些, 对吧?女女孩子可以让自己变得更加漂亮,可以把自己收拾一下,男孩子也是可以稍微啊给自己几分啊。体面点的衣服我觉得也是没有什么太大问题的。让自己变得更加的漂亮,对吧?外在形象更好,就是这三点,我觉得目前对我来说是有用的,当然,但是呢,就是但包括不太限于就是这些东西,你看是不是 你像龙虾,嗯,对吧?你像啊,你的滔天你该怎么办?你打算用在什么样的身上?你看陌生人,你给他少了一点点就是零都行,因为他跟你没关系 啊,熟悉一点的人你可以少量的,对不对?亲爱的人啊,就是身边的人,家里的人常常共事,同共事的同事你可以多给一些啊,那家里人肯定是最多的啊,那给自己的成长 最多最多最多,重心全部放在自己身上。你看我们去想了,我们从龙虾聊到了更成长,那多数其实就是没有人在乎自己的淘品,你的淘品在什么刷视频啊,对吧?你看算力,你会让一个龙虾去刷视频吗? 不会吧,那你为什么你要去去做这种啊?很就是,怎么说呢?对不对?浪费自己的 toking 是 一件愚蠢的事情。 浪费龙虾的 toking 也是一件极其愚蠢的事情,因为你知道龙虾是有成本的,你要花钱的,但你浪费自己的时间是你默认你已经拥有的东西,但是这个东西它不会再深的。 所以说通过这个视频给大家想清楚了,你怎么利用自己的头品决定了你是一个什么样的人,你是想把它花在哪里呢?娱乐上?游戏上?还是成长上? 这决定了你是一个什么样的人。如果你不知道,你就要好好问问自己,五年之后我想成为一个什么样的人,从现在开始就开始构建自己。

兄弟们,我跟大家好好说说 talk 到底是什么意思? talk 呢?这个词的原本意思就是带 b, 就 像世界 b, 就 像游戏 b 一 样。但是在 ai 的 世界里,它指的是文字处理的最小单位。举个例子, 就像你小时候玩的拼图,每一小块拼图就是一个,是一样的道理。 ai 理解文字时候也是一样的道理。 大家看到你输入的文字,他不会一个字一个字快,而是会把文字切成一小块一小块的,每一小块就是一个掏坑,你可以把掏坑想象成 ai 的 文字积木, ai 就是 靠这些积木来理解你的意思。你用滔客越多, ai 要处理的积木就越多,你的工作量就越大。占用的资源,算力成本不会降,算力成本不会降。大模型训练一次要几百万美金, 每次推理都需要大量的二两的 gpu。 技术进步更快,但用户的增长更快, 人均成本反而上升。商业模式成熟,按滔坑收费是验证过的,可持续模式,如果改成订阅制,那么重度用户的多,平台就会亏的多,轻度用户用的少,会觉得不划算。 质量提升需要更多的滔坑。未来的 ai 更聪明,但处理更复杂的问题需要更长的上下文。 同样的任务需要滔滔可能减少,比如 ai 更懂你的需求,提示词从五百字会降到五十字,省了百分之九十的滔滔,你觉得呢?

talk 是 什么?它就是 ai 数字的计费单位,用一句话来说就是你打进 ai 的 字和 ai 回你的字都会被拆开来算。不是一句话算一次,而是按照字, 按照词来算。你问的越长,他就回的你越多,用的也就越快,所以你的额度没了。不是你点错,是用字来堆出来的 token, 就 等于 ai 用了多少字。知道这个就不会再担心用着用着没有额度了。

酷狗官方可能要连夜修 bug 了,我发现了一个能让 cloud o p u 四点六 max 彻底不限量的糟操作,二十美金的酷狗 pro 会员,硬生生的被我耗出了上亿的 token 价值。而在那个发布的 o p u 四点六确实太猛了, 但是正常用在酷狗上,二十多的订阅也就能跑个中型项目,大概能跑两千五百万 token。 但是重点来了,酷狗新出了一个 cloud agent 功能, 默认就是 opu 四点六 max 模式,虽然它限制一个环境最多聊六次,但是关键的是它不计 token 的 消耗。 最糟的操作就在这。聊完五次之后,我们直接把代码末置到 github, 反手就把这个环境删了,重新再开一个新环境。代码还在,但五次全新的不限 token 的 顶级算率又回来了, 这不是在写代码,这是在指挥一个不要命的数字劳模,只要你会 get up, 简单动手点一点,酷 sir pro 就是 你的无线提款机。趁官方还没反应过来,赶紧去把你的大项目跑起来!转发给那个天天加班的兄弟评论区,告诉我你今天薅了多少头啃! 总有一种不祥的预感,总感觉我在 被无数双眼睛盯着,但是又看不到人。不对!

open 可乐的烧投屏速度可能多数人养不起,我的 open 可乐安装完成之后呢,我给他了几个简单的小任务,比如说浏览网页,然后解托发送给我,简单的几轮对话就花掉了几美元,而且我用的还是性价比非常高的 mini max m 二点五模型。 我一位朋友,他用的是公司免费的 app 无限投屏吗?那每天的账单都在大几百美元,这个数字还是非常具体的。 那 open 壳为什么这么烧 token 呢?我想核心有两点原因,第一是屏不理解 open 壳,它本身无法理解屏幕上的像素,那么当你做一些具体的指令,比如说去发小红书,它只能去对小红书网页进行截图,然后发送给大模型和问询大模型这个发布的按钮在哪里? 大拇指识别之后呢,会返回对应的坐标,然后 open color 再执行对应的点击操作,所以这个过程是极其高频,而且极其消耗透杆的。那第二点原因,我们知道 open color 有 非常完整的上下文系统,它能够记住你说的每一句话,记住自己做过的每件事, 那么这是一个优势,也是一个劣势。那么在他进行新的对话的过程中,他会把尽可能把完整的上下文都塞给大模型,那这就导致了大模型的 input token 数量是非常恐怖的。我去 open core open router 的 后台看我每一轮对话的一个记录,发现基本上每一轮的 input token 都在几万甚至十几万的这么一个量级,这基本相当于一本书的大小了啊,所以这个消耗的透光的速度也是非常快的。