大家好,今天咱们来聊聊一个特别重要的概念, token。 你 可能经常听说这个词,但它到底是什么呢?其实啊, token 就是 大语言模型处理文本时的基本积木块。想象一下,我们搭积木最小的那块零件就是 token, 模型就是用这些小零件来理解和生成文字的。那这些积木块是怎么来的呢?其实啊, token 就是 大语言都记的向量,最后模型会把这个向量和词表里所有 token 的 向量比对,找出最相似的,这就要靠分词器了。分词器会把我们输入的文本切成一个一个的 token, 不 过 切分方式可不是固定的哦,它可能是一个完整的单词,也可能是一个字,甚至是一个字母。具体怎么切要看模型的规则。 比如说中文人工智能,有的模型可能切成人工和智能两个 token, 有 的可能切成人工智能四个字。中文就更直观了,像 i like apples 这句话,通常会被切成 i like apples 和这四个 token。 了解了 token 是 什么,咱们再来看看它是怎么工作的。当你给模型输入一段文字,比如问个问题, 模型首先会把这段文字切成 token, 然后给每个 token 分 配一个独一无二的数字 id, 就 像给每个积木块贴个标签,接着模型会根据这些 id 从词嵌入矩阵里,找到对应的向量。这就像积木块的说明书,告诉模型这个 token 代表什么意思, 光有意思还不够,模型还得知道这些 token 的 顺序,所以会给他们加上位置编码,这样模型才明白谁先谁后。然后就是模型内部的 transformer 大 显身手了,经过一系列复杂计算,生成一个预期的向量。最后,模型会把这个向量和词表里所有 token 的 向量对准,找出最相似的那个 token 作为输出,然后重复这个过程,直到生成完整的回答。说到这里,就不得不提上下文窗口了, 这就像模型的工作记忆,指的是模型一次性能处理的最大偷坑数量。如果你的输入太长,超过了这个窗口的容量,模型就会记不住前面的内容,就像我们脑子一下子塞太多东西会混乱一样。而且这个窗口也不是一成不变的, 有的模型会动态滑动,更关注最新的信息。但总的来说,窗口越大,模型能记住的东西越多,但计算成本也越高。那 token 和我们的钱包有什么关系呢?当然有关系啦,用 api 调用大模型的时候, token 数量可是计费的关键。 一般来说, api 成本就是 token 数量乘以单价,再乘以调用次数。这里要注意的是,输入的 token 和输出的 token 都会算钱哦。而且中文和英文消耗的 token 数量还不一样,中文通常更费 token 大 概一到两个汉字就相当于一个 token, 而英文呢,差不多四个字母才。 所以学会省 token 就 等于省钱了。给大家几个实用小技巧,首先,指令一定要精确,别啰嗦,直接说重点。其次, 提供信息的时候只给关键的,别把整个文档都粘贴进去,模型也看不过来。还有,如果开启新话题,最好新建一个绘画,这样可以避免之前的荣誉信息占用 token。 最后,如果你对回答长度没特别要求,可以限制一下输出长度。好了,今天关于 token 的 知识就讲到这里,相信现在你对 token 是 什么,怎么工作,为什么重要,以及怎么省 token 都有了一定的了解。 那么问题来了,你平时在使用 ai 工具的时候,有没有注意过 token 的 消耗呢?或者你还有哪些关于 token 的 疑问,欢迎在评论区告诉我,我们一起讨论。
粉丝133获赞68

哈喽,大家好,我是 paper, 那 今天我们来说一下我们最常用的 token 本地模型和外部的模型该怎么样去使用?就是 token, token 是 什么呢?一方面它是有这个最小计算机处理文本单元, 另一方面它也是其他的,还有很多身份认证啊,指令串密密实都百度的话,你要使用在我们的 ai 大 模型中,你就记录这个最小文本处理单元就可以了。我们再来看这个本地模型去哪里找啊?一般的话,像这个最常见的开源社区 hackin face, 我们在这里面去找本地模型,我们登录进来,然后找到这个 browser two m 加 models, 或者说你直接在搜索栏中搜索对应的名称,像这个主页,它这个首页里已经有这些,比如说像这个 minimax 的 二点一,千万的三点三,还有一些各种各样的 模型, open i 的 gptos 啊,你可以或者说这个 kimi 二点五等等,你可以点击这里去我们要找的像一些文本到图片的模型, 就是 ai 绘画模型,还有像这个文本到视频的模型啊, text to video, 还有像这个文本到文本,也就是我们的语言模型,就像豆包,千文,这些都是语言模型,我们只要去搜一下这个 text generation 文本生成,我们就可以在这里看到有千文,三点五啊,还有各种各样的 emoji 三啊,各种各样的 mini max 等等啊,只要是你所熟悉大厂,那基本他发了都在这里面啊。你看这个 b 嘛, 这个币数越大,比如十七币,八十币,三十二币,一百九,十九币,甚至这个二十八币,或者说这个四币的,这肯定效果没有那么好,是吧?那因为达到六十七币,一二一百二十四币都很大, 这东西像这个 mini max, 二点五,二点二十九币啊,二百二十九币,这个更大,这个你要是下下来,你会发现 你可能你的电脑用不了啊,就是这么简单哈。 ok, 我 们再看这个像一些其他的开放的 a p i 怎么去使用?那这里我以这个 g m 举例啊,我们直接去找到 a p i k, 点一下就进入到这个页面了, 这个页面就是你的 a p i 密匙了,我们在这个项目管理 a p i key 中找到它,像这个已经有的 a p i, 你 用到别的地方可以去,这样子你也可以直接删除,我们再可以添加个新的 a p i, 比如说你这个 a p i, 你 要去用到自己的 call 啊,那么龙虾上我们就点击 call, 然后把它复制过来,然后粘到这个 call 里,你就给它充钱就可以了哈。 你还想还想要再用一个 a p i 去做别的项目,那比如说我这个叫这个 agent agent, 那 这个 a p i 呢?我们给它复制过来,去放到别别的调用的端口里给它充钱就可以了哈。 像这个 open a d b c 的 a p i 啊,页面也差不多哈,你可以在这里点击 create new c c 啊,你也可以在这里点一样的啊,这里 name 我 写 call 啊。这个 project 你 可以放到你的默认 project 里,不过一般只有一个啊,点击 quit 就 可以了哈, 配置完之后呢,一样的,你就给自己的套餐充钱就可以了。那这个 api 呢?它不同于你的和你的传统的大模型,你直接问它那种网页对答模型不一样的啊,因为 api 呢?它 是啊, api 它是实时计费的,就说你要是用的话,你可以用到很多层面上不同,不停去调用这个模型。而你的网页因为问答呢,只要你这个模型啊,只要你这个网页关了,你就用不了了,是吧?你要是想用它,你是不是得二十四小时数在电脑前啊?你在电脑前你才能用它,但 api 不 一样,你可以做成全自动化的东西, 这样子呢,它的费用就会很高了。所以说 a p i 是 单独收费的啊。 ok, 那 今天呢,学完这课,咱们这个玩龙虾啊,或者说玩什么都会更轻松一些哈。咱们就先到这里啊, ai 啊,一定要去关注这些啊,最基础的东西,如果说这些基础东西你都不知道,那你去你就很难玩得转这些东西哈。

嘿,朋友们,今天咱们来聊一个特关键,但很多人又搞不太明白的概念, token。 你 要是想看懂 ai 的 成本,速度,还有它的能力边界,那搞懂 token 就是 你的第一步。来,咱们把它掰开了,揉碎了,讲清楚。来, 问你个问题,你跟 ai 聊天的时候,是不是觉得它跟你一样能看懂人工智能这四个字?嗯,其实吧,完全不是那么回事。在 ai 的 世界里,根本就没有什么文字,只有一堆拼来拼去的恶搞积木。 这种乐高积木啊,它有个学名叫做 token, 中文叫词源,你就可以把它理解成 ai 思考和说话的最小零件。记住这个核心啊, ai 不 认识字,它只认识 token。 好, 那问题来了,这块积木到底是个啥样?它跟我们平时说的一个词是一回事吗?你看,这就有点意思了。 从我们的角度看, unhappiness 是 一个完整的词,对吧?从 ai 的 角度看,他会很聪明地把这个词分成三块积木。 unhappy 和 ness, 中文也一样,人工智能,他可能会拆成人工和智能这两个头衔。这样做的好处是什么呢?就是模型会变得更加灵活,技能 word, 常用词,也能通过拼接去理解他那些他没见过的新词。 既然 token 这么神奇,那它们到底是怎么被生产出来的呢?这家提到一个算法,叫做 b p e 字节对编码算法。现在大名鼎鼎的 g p t 系列模型,用的主要就是这种方法来制造 token 的。 它的生产逻辑说白了简单又高效。第一步,先把一整篇文章打造成最最基本的单个字母或者汉字。第二步,在这里面找,看谁和谁最长挨在一起,比如 a 和 n 老是同时出现。第三步,好, 那就把 a n 合并成一个新的积木,一个新的 token。 最后一步,不停地重复这个合并过程,直到 token 的 仓库里装满,比如装满了五万块不同形状的积木为止。 好了,了解了 token 是 啥,也知道它是怎么来的了,现在咱们聊点最实际的,这东西为什么这么重要?它和我们每个用 ai 的 人到底有啥关系?重点来吧! token 可以 说是 ai 世界里的硬通货, 首先,它决定了你的钱包,你每次用 ai 服务花的钱就是按你输入和输出了多少个 token 来算的。其次,它决定了响应的快慢。咱们常说这个模型快不快,衡量指标就是它每秒能吐出多少个 token。 最后,它决定了记忆力, ai 能进入多少你之前的对话,它的上下文窗口容量,也就是用 token 的 数量来算的。 没错,你每一次和 ai 互动,背后都有一张用 token 计算的账单。咱们来看一个真实的例子,你就能感受到所谓的 token 效率是怎么影响钱包的。你看这张图,两个模型, deep seek 账面单价是零点二八美元,每百万 tokens g l m four, 它的账面单价是输入,输入是零点一五美元,它的输出是零点六亿美元。 再一看 deepsea 是 不是要比 glm 四便宜多了?但如果你观看标价就做决定的话,那很可能就要掉进坑里了。 咱们再来看外星人干同一个活,跑一千次任务下来, glm 大 约用了八十二万个 token, deepsea 用了快一百五十万个,这下你发现了吧,虽然 g l m 单价贵,但因为它用的 token 少,效率高,最后算下来总成本几乎没差,这就是核心差异,干同样的活, g l m four 能用少百分之四十五的 token, 这说明它的回答可能更精炼,绘画更少。 所以大家一定要记住,一个关键节目的 token 的 效率往往比 token 的 单价更重要。我给大家总结了以下三点,记住, token 是 ai 计算的基本单位, token 的 数量直接跟你的钱包挂钩,选模型时别观看单价, token 的 效率更关键。 所以下次你选 ai 服务,可以先拿个小问号考考看哪个消耗的 token 更少。平时写提示词也尽量简洁精准一些,少点废话也能帮你省下不少 token。 最后,有一个开放性问题给大家思考,既然 token 是 ai 的 语言,那你想想,当 token 变得越来越聪明以后,他们会不会为了追求更高的 沟通效率,干脆后面一种我们文外完全听不懂,但他们之间交流起来超高效的构想语言呢?这可不只是科幻片语的细节,已经是科学家正在研究的方向了。关于这个,你怎么看?

token 是 什么?今天这期视频,我们把 token 彻底拆开来讲,先搞清楚它有几种以及各自是什么含义,再深入讲 ai 大 模型里的 token 到底是怎么运作的,以及如何帮你省钱。 token 这个词在计算机领域至少有两种完全不同的含义,很多人混淆就是因为没有先区分清楚。第一种语言 token language token 也叫 nlp token, 这是 ai 大 模型处理语言时的最小单位,是模型理解和生成文字的基本碎片, 我们今天重点讲的就是这种。第二种,身份验证 token, off token, 比如 access token、 jwt token, 这是一串加密字母串,用来证明你的身份和权限,相当于服务器给你颁发的数字门禁卡。两者唯一的共同点就是都叫 token, 这就好比苹果手机和苹果水果名字一样, 但完全是两个领域的东西。以后遇到 token 这个词,先看上下文,在 ai 和大模型的语境里,它是语言单位, 在登录 api 健全的语境里,它是身份凭证。搞清楚这个分类,你在这两个领域都不会再被绕晕了。接下来我们重点来讲语言 token。 在 ai 领域,特别是大语言模型 l l m, 像 chat、 gpt、 cloud、 gemina 一 类的系统里, token 是 模型看懂和写出语言的最小单位,它不是密码或凭证,它是 ai 内部真正处理文字的基本快,是模型理解和生成语言的原材料。 通俗的讲, token 就 像乐高积木,我们写一句话给 ai, 看起来是一个完整的句子,但 ai 不 会像我们一样理解整个句子,它会把文本拆成一个个小块及 token, 这些小块可以是一个完整的词,一部分词,甚至是一个符号或标点,每一块就是一个 token。 模型不是按人类的语法去理解,而是按这些 token 一 步步分析和预测下一个最可能出现的 token。 为什么要这样做?因为 ai 模型内部只能处理数字,不能直接看懂文字。先把文字拆成 token, 然后把每个 token 转换成一个数字 id, 再把这些数字送进模型进行计算和预测,这样模型才能理解上下文并生成回答。在实际使用中, token 还有两个非常重要的作用, 第一,它决定了 ai 能处理的内容范围大模型对话时有一个上下文窗口,就是说模型一次最多能看到多少个 token, 如果超过了这个限制,最早的 token 会被丢掉,这会影响模型理解整个对话。第二,它关系到成本和计费。 很多 ai 服务是按 token 计费的,包括你发送的输入 token 和模型返回的输出 token。 token 越多,成本越高。 那如何节省 token? 在 ai 模型使用中, token 是 直接影响成本和效率的核心指标,控制好 token 的 使用,能省钱又提升速度。下面是最有效的几个方法,帮你在实际使用时节省 token 消耗。一、精简输入内容,别把所有背景都丢进 prompt, 只把真正相关的信息留给模型,让每个 token 都有价值。缩短指令,去掉庸俗描述,可以显著降低 token 消耗。 精简上下文相当于少用 token。 二、限制输出长度,提前设定回答长度上限,避免生成宕长啰嗦内容,这样模型不会自动扩展答案,从而减少输出 token 数。 三、做缓存与复用对于重复查询或者经常用到的内容,可以先将结果缓存起来,后续类似请求直接从缓存返回,不再重新调用模型,从而节省大量输入和输出 token。 四、选对模型分阶段处理任务, 不同模型价格差异巨大。把大任务拆成两步走,先用小模型或简化逻辑生成摘药或关键内容,然后再用更强模型处理简化后的内容, 这样整体消耗的 token 更少。五、只保留重要上下文历史对话长篇内容会不断重复发送给模型,快速占满 token 上线,所以只保留与当前任务直接相关的上下文就够了,其他历史可以省略或者按需摘药再传入。 最后总结一下, token 在 计算机里有两种完全不同的含义,语言 token 是 ai 处理文字的最小单位。身份验证 token 是 证明身份的加密凭证,两者只是名字相同,本质毫无关联。在 ai 大 模型的世界里,语言 token 是 一切的基础。 ai 不是 看单词,而是看 token, 它靠一串串 token 来理解世界作判断,生成结果。这就像我们拼积木一样,模型把语言拆成一块块小积木,然后用它们组合出回答。理解了 token, 你 就掌握了和 ai 打交道的底层语言。无论是调用 api、 优化提示词,还是控制成本,都离不开这个基础概念。 token 是 ai 世界里的基本单位,是 ai 语言理解与生成的起点。好了,本期的分享就到这里,如果觉得这期内容对你有帮助,记得点赞、关注和收藏,我们下期见!

token 是 如何被计算出来的?之前呢,我们用了五期视频全面讲解了 token 到底是什么,全网呢有一百万播放,感谢大家的催更。这次呢,我们继续出发探讨 token 到底是如何被算出来的,最后的结果一定会让你发出原来如此的惊叹。 在模型推理阶段呢,完整流程一共分为七步。第一步呢,用户输入提示词,比如我们输入用苹果手机拍苹果这句话。第二步呢,模型将这些提示词切分成一个个托管,并得到每个托管的数字 id, 切分的依据呢,就是这个文件中的词表。 第三步,模型根据这节 token id, 从词切入矩阵中取出对应的词切入向量。比如手机的 token id 是 八五四九,对应的切入向量是这样的,苹果也是这样的。一大堆数字,为了方便演示呢,我们只取前四个数字作为演示势例。 到这里,一句话就被转为了多个数字向量。熟悉限限待数的朋友可能已经意识到,我们可以用一个矩阵来表示这句话,模型呢,也可以通过矩阵运算实现并行计算。第四步呢,模行为每个 token 呢添加位置编码,标记它们的先后顺序,否则模型无法区分你爱我还是我爱你。 位置编码的公式呢,不同模型会略有差异,具体公式呢,这次我们就不展开了,实际的效果就是在没有添加位置编码的时候,这两个不同位置的苹果向量都是一样的。添加了位置编码后呢,两个苹果的向量就变得不一样了,这样模型就能区分不同位置的 token。 第五步,模型读取这些添加了位置编码的向量,通过多层 transform 计算,最终得到了一个理想的预期向量。具体的算法细节呢,可以查看我之前发的 transform 模型讲解视频。 第六步模型呢,将这个理想向量与词表中所有的拓客向量进行比对,计算它们之间的相似度。 这就好比相亲亲友智囊团先定义出理想型男友的标准,身高一八零,有房有车、大城市户口等等,但实际情况是,没有人能百分之百符合这个条件。模型呢,就拿这个标准作为打分依据,对每个后选男嘉宾呢进行打分,也就是计算相似度。 第七步模型,根据计算出来的相似度,取出其中一个后选托肯作为模型。本次的输出 分越高,被选中的概率呢就越大,得分越低呢,选中的概率就越低。这也就是之前说的模型输出具有一定的随机性,不同时间问同样的问题,回答可能会不同。比如这个例子中,候选词照片十逗号,得分相对比较高,都有可能被选到。 最后,模型把选中的 token 拼接到已有的输入中,重复第三步到第七步,一个接一个的输出后续内容,直到模型输出结束符,这才停止输出,结束整个回答。所以你看,模型不是凭空生成内容,而是在做选择题,而每一次的落笔都是一次十万分之一的遇见。

大家好,我是你们的科普达人,今天咱们来聊聊个人开发者怎么低成本入门 tocan 生产。很多朋友可能觉得 ai 模型部署门槛高,成本贵,其实只要配置得当,咱们普通人也能玩转。先说说硬件怎么选, 如果预算在一万五以内,想先试试水,那 rtx 四零九零 d 或者四零九零显卡是首选。二十四 gb 或十三 b 的 模型,搭配 i 五或 r 五的 cpu、 三十二 gb 内存, e t b 的 nvme 固态硬盘,再加上一千瓦的电源和一套散热好的机箱,总价大概一万一到一万六就能稳定运行。模型 托肯吞吐量能到每秒两百到五百个,日常测试和小流量使用完全够了。要是预算能到两到四万,想搞小批量生产,那就可以考虑上双卡四零九零 b, 或者直接上 a 一 零零,内存加到六十四 gb, 这样吞吐量能到每秒八百到两千个,接下小 b 客户的需求也没问题。硬件搞定了,软件和模型怎么选呢?模型方面,七 b 规模的 q 文二七 b instruct 或者 lama 三七 b 就 很适合入门,显存占用小,延迟低, 聊天、写文案、生成代码都在行。十三 b 的 模型像 q d r 杠一三 b instruct, 复杂推理和行业知识库的应用效果更好。这里有个小技巧,优先用 i n t 四量画板,显存占用能降百分之七十五, 速度还能提升两到三倍,效果几乎没损失,性价比超高。推理框架推荐 v l l m 开源免费,吞吐量比原声 pie torch 高十倍以上,个人开发者首选。部署工具方面, fast api 或 flask 用来封装 api 接口, prometheus 和 grafana 监控性能, e l k stack 记录日记这些都是免费又好用的工具。大家最关心的成本问题来了,按三年折旧算,入门级硬件每月折旧大概四百一十七元。电费方面,单卡四零九零币,满载运行 每月电费差不多一百九十四元,总成本约六百一十一元。按每天产出两千五百九十二万 token 算,单位 token 成本约零点零零零零二三六元,也就是二点三六分。每千 token 对 比 openai 的 gpt 三点五 turbo, 成本只有它的四分之一,价格优势很明显,想快速上手, 一天内就能跑通,先装 uber 二二点零四 lts 系统,然后安装 cuda 十二点一 cuda n, 再装 python 三点一零和 vl l m。 接着用命令启动模型服务, 最后用 qiro 测试一下生成 token, 看看返回结果里的 usage 词段,统计 token 数就搞定了。最后给大家几个进阶优化建议,用 v l l m 的 批量请求功能提升吞吐量,尝试模型蒸馏,降低显存占用和延,使用 radis 做请求队列应对高流量 在整个数据库记录用户 token 消耗,实现自动计费。这样一套下来,你的 token 生产系统就既高效又经济了。怎么样,是不是觉得个人搞 token 生产没那么难?你最想先用这个系统来生成什么内容呢?评论区告诉我吧!

一个视频告诉你什么是 token。 你 有没有发现,用 ai 现在是越来越贵了,明明是同一个模型,有人用一百块能干一个月,有人用三天就没了,差距在哪?就两个字。 token 这个词呢,很多人听过,但没有几个人真的能搞懂。今天我用三分钟把它讲透。 你想象一下,你去餐厅吃饭,菜单上写的不是一盘菜多少钱,你吃了多少口就付多少钱。 talk 就是 ai 世界你的口,你说的每一个字是一个 talkin, ai 回复你的每一个字也是 talkin。 你 们来回对话的所有内容全都是在计算 talkin, 那 具体怎么算?中文大概是一个汉字约等于一个 talkin, 英文大概是一个单词约等于一到两个 talkin。 你 问 ai 一个问题,写了两百个字, ai 回答了你五百个字,这一来一回就消耗了大约七百个 talk。 那听起来不多,但如果你是一家公司啊,每天有一万个用户在用你的 ai 产品,每人平均一次对话七百个 token, 那 一天就是七百万个 token。 按照现在主流大模型的 a p a 价格呢?这一天光 token 的 成本就可能是几千块。那不懂 token, 你 根本不知道钱烧在哪里。 更关键的是, token 不 只是钱的问题,它还决定了 ai 到底能看多远。每个大模型都有一个上下文窗口,就他一次能看到的 token 总量啊。比如某个 token 的 上下文窗口是一百二十八 k token, 意思是他一次能最多记住大约十万字的内容, 超过这个范围的,他就直接忘了。就好比你雇了一个助理,他的桌子只有这么大,你把一百页文件堆上去,他只能看到摆在桌面上的那些,其余的他根本不知道存不存在。 所以你现在明白了,为什么有时候你跟 ai 聊着聊着,他突然开始答非所问。不是他变笨了,是你们的对话太长,早期的内容已经超出了他的 token 窗口,被推出桌子了。这就是 token, 它是 ai 的 货币, 也是 ai 的 记忆边界啊。你不懂它,你就永远不知道自己在用 ai 的 哪个层面吃了亏。我想问你一个问题,你现在用的 ai 工具,你知道它的 token 上限是多少吗?你有没有因为不懂 token 踩过坑?评论区告诉我?

一九五六年,美国人发明了集装箱,在那之前,全球贸易的成本一半是装卸费。集装箱一出现,世界变了,货物被标准化,运输成本暴跌,全球贸易爆炸。今天 ai 时代也出现了一个集装箱,它叫 token。 很多老板听到 token 只当技术名词,但如果你是做生意的,你要看到的是,这是一次电力的重新定价。 什么是 token? 简单说就是 ai 处理文字的技能班位。你问一句话,写一段代码,生成一份报告,背后都在消耗 token。 重点在于, token 可以 被计量,被计费、被出口。这就像集装箱,把原本难以交易的智能服务装进标准化容器,从此脑力可以像货物一样卖到全球 来。算一笔账,一度电直接出口大概卖零点五元,炼成铝定大概卖一点五元,翻三倍。如果拿去跑大模型推理呢? 一度电大概能产出五百多万。 tokyo 按国内模型定价算,可以卖到十一元,十一元是直接卖电的二十二倍。如果按 open i 的 价格算,将近四百元, 七百八十五倍。你看到中奖了吗?同样是一度电,换个皮价值差几十倍上百倍。这不是能源生意,这是算力生意,是标准化的脑力出口。更关键的一点,电不能装箱,但 tucker 可以 跨国流动, 不用电网,不用特高压,不用对方国家批准,只要一根网线。印度创业者调用中国 api, 背后是甘肃的风电,青海的光伏在转电没出国,钱出国了,这才是结构性机会。 很多老板问, ai 这么卷,价格都打烂了,还赚什么钱?你要明白一件事,现在的二十二倍,不是天花板,是价格战的结果。美国把价格毛在高位,中国用工程能力把成本打下来。一个负责教育市场,一个负责规模收割,这就是新的全球分工。 真正值得你思考的,不是模型谁更强,而是在这个时代,你是卖店的,还是卖 token 的,是卖原材料还是卖标准化能力。 所有产业都会被 token 重构,教育变成按 token 计费,客服变成按 token 计费,编程变成按 token 子计费,营销、法务、设计、咨询全部变成可计量的智能服务。一旦被计量,就可以规模化, 一旦规模化,就会诞生新的巨头。生意的本质从来没变,谁掌握标准,谁赚溢价,谁只卖原料,谁被压价。 一九五六年,集装箱改变了全球制造业。二零二六年, taco 正在改变全球脑力市场。电力过剩不是问题,算力过剩才是机会。美国把 taco 价格炒上去,中国把 taco 成本打下来,悉数东算的战争才刚刚开始。 如果你是老板,现在真正该问自己的,不是要不要用 ai, 而是你能不能把自己的行业装进 tokyo 里卖。

最近有个话题悄悄热了起来,全世界都在用中国 token, 这听起来有点技术,但说白了,他跟我们每个人的关系,可能比你想象的要近的多。先讲明白一件事, token 到底是什么? 你可以把它想象成 ai 世界的基本颗粒。就像我们说话写字,最小的单位是笔画和字母。 ai 处理信息时,最小的单位就是 token, 它可以是半个字、一个字、一个词,甚至一个标点符号。你跟 ai 聊天时,你说的每句话, ai 给出的每个回答,都被拆成了成千上万个 token, 像流水线上的零件一样,一个个被计算、被生成。很多人消耗的 token 数量比去年一年加起来还要多。 有人开玩笑说,以前交水费、电费,以后可能要交 token 费了。这不是玩笑,当 ai 成为像水电一样的基础设施, token 就是 它的计量单位。 你每一次用 ai 写邮件、做 ppt、 查资料,背后都在烧 token。 那 么问题来了,这个 token 跟中国有什么关系?第一个关系叫效率。你可能听说过,大模型处理中文和英文效率是不一样的。 同样一句话,中文拆出来的 token 数量通常比英文要多一些,因为中文没有天然的分词空格, ai 需要更细的切分来理解语义。那为什么还说中文有优势?关键在于信息密度, 一个字能顶英文好几个字母,虽然切得更碎,但每个 token 里装的东西更实。这就像快递,中文的包裹数量多,但每个包裹里塞的满满当当。 英文包裹少,但有的包裹里可能只装了个小零件。更重要的是,中国的大模型在算法上下了狠功夫。以 deepseek 为例,它用了谋易混合专家机制。 你可以理解为他不是一个全能的大个子在干活,而是一群专家各司其职,谁擅长什么就让谁上。这种精打细算的设计,让处理同样数量的 token 消耗的算力大幅降低。反映到价格上,同样一百万 token 的 输出, deepseek 不 到三块钱, 有的国外模型要九十多块,差了三十多倍。这意味着什么?意味着中文虽然在 token 数量上不占便宜,但中国厂商用更聪明的算法,把每一分算力都榨出了更高效率。当全世界都在用 ai, 谁家的 token 更省电,谁就能让 ai 更便宜、更普及。 中国在这条路上跑在了前面。第二个关系叫根基。 ai 不是 凭空变魔法,它需要三样东西,算力,电力算法。 算力靠芯片,电力靠能源,算法靠人才。中国在这三样上都有底气。算力方面,虽然高端芯片有瓶颈,但国产替代正在快速追赶。 电力方面,中国的电网规模和稳定性全球领先,训练大模型那种吞电兽,离不开强大的电力基础。算法方面,这几年中国 ai 人才的产出已经站在世界前列, 这三样加起来,才撑得起全世界都在用中国 token 这句话。但让我在意的不只是技术本身,还有这件事。 token 终于有了一个中国名字,词源。前阵子,官方把 token 的 中文译名定为了词源。源是开始,是基本单位,词源就是词的基本单元。这个翻译准确、简洁,比音译的同根更直观。 但有意思的不是它叫什么,而是当一项技术开始拥有自己的中文名字,说明它正在从柏莱品变成日用品。你不会希望看到自己的账单上写着本月消耗 token 幺二零零零零零零, 那跟天书没区别。但如果写的是词源用量,旁边配上简单的解释,至少你知道自己花了什么。 更重要的是,命名权,也是一种话语权。过去很多技术概念,我们都是跟着西方走, cpu、 gpu、 ai、 token, 中英混杂,说习惯了, 但总有种薄来品的感觉。现在 ai 这个赛道,中国是主要玩家之一,我们有能力也有必要用本土的语言去定义它,这不仅是文化自信,更是让技术真正落地,走进千家万户的必经之路。汉字不是技术的障碍,恰恰是技术的优势。 汉字的信息密度、表意能力,在处理语义这件事上天然有优势。说到底, t 肯也好,词源也罢,它代表的是一种趋势, ai 正在从实验室里的高冷技术,变成每个人生活里的水电煤。而在这个转变过程中,谁能把技术讲的通俗,用的便宜,让普通人也能上手,谁就能真正赢得未来。全世界都在用中国 tok, 这不是一句口号,而是正在发生的事实。 但比用更重要的是懂。只有当每一个普通人都能理解什么是资源,为什么它重要, ai 才真正从技术圈的黑化变成了全社会的共识。 每一次技术概念的中文化,都是一次全民科普的气息。而科普的终点,从来不是让每个人都成为专家,而是让每个人都觉得这东西跟我有关。

中国找到了一种新的出口方式,不出口一度电,不出口一块芯片。但全世界都在为中国的电力买单,听起来不可能,对吧?但这件事已经发生了,而且有一个专门的名字,叫做 token 出海。我之前那条五十四万播放的视频讲过, token 是 ai 时代的消耗品。 ai 每回答你一句话,每执行一个动作,背后都在燃烧 token。 黄仁勋刚刚在三万人面前说了同样的话, token 是 新时代的大宗商品。 那么现在问题来了,这些 token 是 哪里生产的?谁在为他买单?答案越来越多地指向中国。一个美国的程序员打开电脑,调用 deepsea 的 api 写代码。他敲下回车的瞬间,请求数据通过太平洋海底光缆到达中国西部的数据中心。中国的 gpu 集群消耗着中国的电力, 让他把代码跑出来,结果再传回美国。整个过程不到一秒钟,电没有离开中国,芯片没有离开中国。但是这个美国程序员这次的服务付了美元,他买的是什么?就是 token。 token 的 成本就是电,中国的电通过 token 这个主体,变成了美元收入。这就是 token 出海 规模到底有多大?我给你几个数字,你感受一下。二零二四年初,中国 ai 日军 togo 消耗量是一千亿,二零二五年中突破三十万亿。 二零二六年二月一百八十万亿,十八个月暴增了三百倍。在全球最大的 ai 模型平台 openroot 上, 中国模型的调用量已经占到了百分之六十一,前五名里,中国占四个。 mini max 上市前,百分之七十的收入来自海外。 kimi 的 海外 a p i 收入增长了四倍,已经超过国内。这些公司赚的是什么钱?是全世界的开发者调用中国大模型时,一个 token 一个 token 浮的费。 为什么全世界要买中国的 token, 而不买美国的?一个字,便宜。 mini max token 价格是每百万 token 零点三美元, cloud 同样的服务要五美元,差了近二十倍。能力差多少? mini max 的 代码能力测试拿了八十点二分, cloud 是 八十点八分, 只差零点六分,价格差了二十倍。你是开发者,你会怎么选?为什么中国能做到这么便宜?因为 token 的 成本百分之七十以上是电力和算力。 华泰证券说了一句话,中国低电价优势正在转化为全球 ai 服务的定价权。中国全社会用电量超过十万亿千瓦时,是美国的两倍多。新疆的绿电成本低到零点二元一度, 这些电大量闲置着,因为当地用不完。现在通过东数西算,把数据中心建在这些电力富裕的西部地区,用便宜的电生产 token, 再通过光缆卖给全世界。电没出境,钱进来了。这件事为什么现在爆发了?因为 ai 的 用法变了。 以前大家用 ai 就是 聊聊天,一个人一天消耗几千个 token。 现在 open cloud 火了, agent 火了, ai 从一问一答变成了自己干活,一个 agent 执行一个任务,可能从消耗上亿个 token。 有 人算过,从聊天模式切换到任务模式,人均 token 消耗量翻了一百倍。一百倍的需求增长,谁的 token 最便宜,谁就吃到最大的市场。中国模型的价格是美国的几十分之一。直接接触了这波需求爆发。你可能会问,这跟我有什么关系? 如果你是做生意的, tokyo 出海告诉你一件很重要的事, ai 的 使用成本在快速下降。如果你今天觉得用 ai 太贵,可能半年后就便宜到你用得起了。因为中国的 ai 公司正在用低成本的电力和钻力把全球的 ai 价格打下来,你的竞争对手可能很快就会用上几乎免费的 ai 工具来降本增效。 如果你关心中国经济的大方向, token 出海可能是继中国制造之后下一个出口引擎。过去三十年,中国出口的是衣服、鞋子、手机、汽车。以后中国出口的可能就是 token, 用中国的电,中国的芯片,中国的大模型,生产全世界需要的 a f 五、 政府工作报告里写的算电协同智能经济新形态落到产业层面就是这件事儿。 minnes 的 创始人算过一笔账,海外用户为软件付费的意愿是中国用户的五倍,再乘以七的汇率,就等于三十五倍大的市场。 token 出海就是吃这个三十五倍市场。 之前我说 token 是 ai 时代的石油,现在可以加一句, token 出海就是把中国的电变成全世界的石油。我是文思,关注我,每天带你看懂 ai。

你有没有想过,为什么 ai 能读懂你的问题,还能写出那么长的回答?秘密就藏在 token 这个词里。今天花三分钟带你彻底搞懂大模型的核心 token 技术,欢迎来到 ai 科普系列 基础篇。今天我们要聊的是大模型 token, 它是 ai 理解世界的词汇表。接下来我会带你从概念应用到核心意义,全面解析 token 技术。 token 就是 文本的基本单元,你可以把它想象成人类语言中的单词。 ai 通过将连续文本拆分成一个个有意义的 token, 才能开始阅读。比如英文单词 hello, 中文汉字,你还有子词 an 和 happy 组合成的 an, happy 都是 token 的 典型例子。 token 的 工作流程很简单,输入文本分字处理。 token 工作流程 很简单,输入文本分字处理 token 就 有一个唯一的数字 id 模型,就是通过这些 id 来理解文本的。 token 主要有三种类型, 词级 token、 字词 token 和字母 token。 词级 token 用完整单词,语意明确,但词汇表庞大。词词 token 通过拆分词词来平衡效率与覆盖。比如 bpe 算法, 字幕 tucker 以单个字幕为单位,词汇表极小,但续列过长。 tucker 在 大模型中的应用非常广泛,文本生成如 chat、 gpt、 对 话、机器翻译、中英互译、情感分析、评论分类、代码生成、自动编程都离不开它。 tucker 是 连接文本与模型计算的桥梁。常见的 tucker 化算法 有 byte parent code, n b p e, word piece 和 sentence piece。 b p e 通过统计高频次复队逐步合并用于 gpt 系列。 word piece 基于概率合并,子词用于 part sentence piece 语言无关直接处理原始文本, token 长度直接影响计算成本。输入文本越长, token 数量越多, 计算时间和内存占用就越高。模型都有上下文窗口限制,如四零九六八一九二。 token 处理长文本时需要采用摘要、分段等技巧来平衡语义完整性与计算效率。 token 技术的核心意义在于统一了不同语言格式的文本表示,实现了跨语言模型训练。 通过子词 token 平衡了语义与计算效率,还能适应新词汇和领域术语,支持持续学习。 token 和字母有什么区别? token 是 由语义的,单元 字母只是书写符号。一个 token 可能包含多个字母。 token 长度有限制吗?模型有上下文窗口限制,但 token 本身无固定长度。中文 token 如何处理?常用汉字单独成 token, 生僻字可能拆分为子词或字母。记住四个关键点, token 是 文本的基本表示,单元分词算法影响模型效率。 token 技术统一多语言处理,理解 token 有 助于优化 ai 应用。建议你亲自使用 tokanizer 工具体验分词过程。阅读 bird gpt 论文,了解细节,并关注新分词技术的进展。谢谢观看, 希望这期内容帮你真正理解了 token。 ai 科普系列持续更新中,下期你想了解哪个 ai 概念?评论区告诉我。

来,亲爱的朋友们,最近网络的小龙虾除了用电还需要啥?用 talkin 这个 opencry 啊,很多人呐,说起来呀,它就是一头雾水,那 talkin 呢,到底是个啥呢?跟咱们炒股有啥关系?普通的散户,哎,能不能跟着赚点小钱?今天重点呢,就用大白话给你说一下,不绕弯,也不搞专业的术语,我还做了一张表,你也可以去收藏着去看一下,听完了 咱们再可以讨论。先给大家说一下, talk 呢,就是数字世界的通用的计量的单位,你可以把它理解成上网的流量,游戏币,加油卡,它就是用多少算多少,充值 越多的人用,那需求就越大,价格呢?和相关公司的业绩呢?那肯定就要涨了。而现在大火的这个 open cloud, 它就是直接大量的去消耗 talk 的, 它的核心的应用, 那小龙虾一火那 tucker, 他 这个需求就直接爆了相关的股票。咱们来说一下,首先分论点,一,我用最普通俗的话讲啊,这个 tucker 呢,很多人一听啊,就觉得他是一个虚拟币, 那有点大错特错了,咱们股市里说的 pok 呢,和炒币呀,完全是没有关系的,它是互联网云计算智能应用里的这个使用的计费的一个单位,你用一次功能,跑一次程序,查一次资料,它都要消耗, 就像你手机用流量一样的,用的越多,那就扣的就越多。服务商呢,当然就能赚到钱了,简单的是 top 呢,就是数字服务的计费的筹码,谁能提供 top 的 服务呢,谁就能够支撑 top 的 运行,那他就是风口上的, 哼!六点二,奥根可乐和 talk 它到底是个啥关系?前面已经基本上说了一下,再说一遍,奥根可乐,它是现在最火的一个应用的,它是一个项目,它运用一次呢, 就要消耗一次,比普通的软件多很多倍。他越火呀,使用的人越多,需要的 top 可能就越多,卖 top 的 服务,提供运行支持的公司,他的订单和业绩就会大幅的增长。这就是股价上涨的核心了, 不是炒作,是真的有需求的支撑,你只要用,你就得买。论点三,二零二六年三月当前市场上核心受益的股票,我们大家说一下当前的价格,一家算力支撑的红薄的那个, 昨天收盘价十六块八毛三,他负责提供运行的算力, blockchain 的 用量越大呀,他就越受益。第二家呢,就是做计费服务的,昆仑,现价五十点五,一直接做 blockchain 的 相关的服务,业绩那就相当直观了。第三家呢,就是做全球网络服务的,首都, 现价三十一块八毛五,专门适配啊, opencloud 这类的应用,需求增长相当快。这三家呀,是当前 talk 加 opencloud, 它的主线里面最稳的几家的标的。最后呢,给普通的咱们散户啊一个建议,不要买仓,小仓位的分批进仓,当然也追不了大涨了,现在已经回调到啥时候了,四号止损位,严格的执行纪律。这个方向呢, 应该是二零二六年实打实的业绩的风口,它不是短期的概念,就像当年的移动啊,通讯啊这些一样的 talk 的 逻辑,你就抓住了今年的一波啊重要的机会。 好,今天就说这些,觉得有用你就点赞收藏一下,下次呢再给大家深挖一下细分的第一位的标点,让大家的这个小资金呢也能跟上风口,我们这期就聊到这,再见。

大模型中的 token 指什么?简单说, token 是 大模型读和写信息时使用的最小处理单位。 理解它,你就能看懂为什么模型有限长,为什么计费长。按 token 算也能明白,模型其实不是按字数在思考。 先把最关键的一点说清楚。 token 不 等于一个汉字,也不等于一个单词,它更像是模型把文本切开以后,一块一块拿来处理的片段。 这个片段可能是一个字、半个词、一个词,甚至一个标点和空格。比如英文里 apple 可能是一个 token, 但 unbelievable 也可能被拆成好几个部分。中文里,一个汉字经常会接近一个 token, 但并不绝对。 人工智能有时会拆成人工和智能,有时也可能拆得更细。为什么模型不直接按字或者词处理?因为不同语言差异太大,英文有空格,中文没有天然分词,代码、数字、网址、表情符号的结构也都不同。 所以模型需要一套更统一的切分方式,这套方式就是 tokenization, 也就是分词或切 token。 你可以把它想成快递打包,原始文本是一大堆货物,模型不能一次把整车货都塞进去,它得先装成一个个标准箱子,这个标准箱子就是 token。 模型看到的不是连续文字,而是一串 token 编号。这里还有一步常被忽略, token 进入模型之前,不是直接以文字存在的,它会先被映射成数字 id, 再进一步变成向量,也就是一组可计算的数字表示。 模型真正计算的,其实是这些数字之间的关系,而不是我们眼里的字面文字。 token 为什么重要? 第一,因为上下文长度就是按 token 算的,你看到支持八 k 上下文,或者支持一百二十八 k 上下文,意思不是八千字、十二点八万字,而是最多能处理这么多 token, 如果文本被切得更碎,同样内容就会占更多空间。 第二,因为费用通常也按 token 计算,你输入一段内容会消耗输入 token 模型深层回答会消耗输出 token。 所以 同样一句话,换一种表达方式, token 数可能不一样,成本和速度也会跟着变。 第三,因为 token 会影响模型理解效果,文本如果切分的合理,常见词组能作为整体出现,模型更容易抓住模式,如果切的过碎,信息就会被打散,理解和深层都可能变差。 举个常见场景,你给模型一句话,请帮我总结这篇文章在人眼里这就十来个字,但在模型内部,它会先被拆成若干 token, 再逐个处理。模型不是一口气看懂整句,而是根据前面的 token 预测下一个最可能出现的 token。 这也是大模型生成文字的核心机制,它每次不是直接写一句完整的话,而是在当前上下文基础上,先预测下一个 token, 再接着预测下一个。很多 token 连起来,最后才变成我们看到的句子、段落,甚至整篇回答。 那一个 token 大 概对应多少内容,没有绝对固定的换算。粗略理解,英文里一个 token 常常接近零点七五个单词, 中文里一个汉字经常接近一个 token, 但标点、空格、数字、英文混排都会让结果波动,所以精确数量通常要靠分词器实际计算。最后可以把 token 记成一句话,它不是字数单位,而是大模型处理语言的基础颗粒。 你只要理解了 token 是 怎么切、怎么记、怎么影响上下文和成本,就等于抓住了大模型输入输出机制里最底层的一把药。

token 究竟是什么东西?为什么给它汉化成词源?还有大模型公司都在说消耗 token 就是 在烧钱,但还是想用户在它的大模型里消耗,那这个词源究竟啥意思? 用通俗大白话来说,我们和大模型聊天发送一段话,大模型读文字,不是一个字一个字读的,它有一个专门的分词器,呃,会把你说的一段话切成一块一块的,每一块就是一个 token。 就 例如这段话,它的今天和奖励和自己和了吗? 是分成了四个 token, 也就是四个词源。举个例子,就好比你去一家餐厅吃了一百次饭,服务员已经记住你了,你一坐下,他不等你开口就问,还是老样子红烧牛肉面,因为这个组合出现的频率太高,已经被他打包成了一个整体记忆。 但如果你哪天突然点了一个他从没见过的冷屁菜,他就只能一个字一个字的确认是这个菜吗?分词器就是这个服务员常见的组合,直接整体认, 罕见的组合只能逐字拆,整个词汇表,就是他脑子里积累了几十年的老客户点赞记录。再比如,这段话在大模型里可能会被切成这个样子, 前三个字是一个头啃,然后单独的一个字是一个头啃,包括这个标点符号和后面这个英文单词也是单独的一个头啃。再例如,你给朋友发消息打了五个哈,即使你不是在认真打五个字,你大脑直接把这串字当成一个情绪来处理, 它等于我现在很开心。分词器也是这个逻辑,它统计了海量文字,发现,哈哈,这个组合出现的频率极高,就把它打造成了一个 token, 但五个哈不常见,就会被切成两个 token。 所以 同样是哈,数量不同,消耗的 token 也不同。 这里有个网站可以看对话的 token 数量,我们来看看。例如诸葛亮,他是只消耗了一个 token, 然后再来一个司马懿,他就会显示消耗了是两个 token, 因为前面两个字是一个姓氏,然后后面那个字是单独出现的,出现的频率没有那么高。所以在 deepsea 里面,他显示的是两个 token, 包括刚刚的,呃哈哈哈哈哈 啊,五个分成了两个头肯,四个就是一个头肯,三个也是一个,两个也是一个,包括吃了吗?两个头肯包括马。再来一个马到成功消耗的是三个头肯,他的马是一个,到是一个,成功是一个,再来一个。今天 奖励自己了吗?这是我们刚刚开头的那一段话,它是分成了四个头肯,这里还有个今天奖励自己了吗?这是一个今天奖励自己了吗?就是同样的语义, 中文 token 消耗远低于英文,因为中文一个字甚至两个字就能承载一个完整概念。英文是拼英文字,一个词需要靠多个字母拼出来,分词器切的次数自然更多。同样的语义, 英文需要一千到一千二个 tock, 中文只需要五百到七百个,几乎省了一半。举个例子就是今天很开心在中文里是两个 tock, 然后换成英文的话,嗯,这句话换成英文就消耗了六个 tock, 是 中文的三倍。 然后为什么数据局把 token 汉化成词源?词源这个翻译很精准,拆开来看我们就懂了。先看词词,说的是 token 的 内容属性,它是语言的基本单位。不管是一个汉字、一个词语、一个英文词缀,还是一个标点符号, 都是语言里有意义的最小片段。这个词告诉你, token 不是 随机切出来的碎片,它是有语言含义的单位。再看源源,说的是 token 的 地位属性, 它是基础的、最小的、不可再分的单位。中文里的元这个字天然带有根本起点基础的意思。比如元素单元、货币单元。数据局把 token 定义为智能时代的基础单元,这个元用的非常到位。所以数据局把 token 叫做词元, 其实是在用一个中国人最熟悉的计量单位来做类比。就像你买东西要花多少元,用 ai 要消耗多少磁元,这两个元背后是同一种思维,把复杂的东西量化成一个可以数、可以计价的最小单位。 而且消耗托管本质上是在消耗算力、电力和内存,消耗的是现实世界的能源。那为什么这些大模型公司烧钱也要抢用户量?因为用户量本身就是最核心的资产, 上线抢用户量,是在抢未来的定价权和数据权。现在很多 ai 服务是免费或者极低价的,本质是在用补贴换市场份额,等竞争格局稳定下来,剩下的几家头部公司才会开始真正收费。到那时候,谁的用户基数大,用户依赖深,谁就有定价权。 这就跟当年网约车烧完补贴之后开始涨价是完全一样的路数。很可能在未来世界里,每个人做年终记账时,不再是今年你花了多少钱,而是今年你消耗了多少 token。

今天我们要讨论的呢,就是在人工智能领域,特别是自然语言处理这个领域非常重要的一个概念叫做 token。 对, 这个 token 到底是什么东西?为什么它会影响到 ai 的 表现,包括成本以及效率?没错,这个其实是一个很多人在跟 ai 互动的时候都会忽略的一个关键点。对, 那我们就直接开始吧。咱们先来说说 token 它到底是个什么东西,以及它在 ai 的 这套认知逻辑里面扮演一个什么样的角色。为什么 ai 要把我们的这些文字拆成 token, 而不是直接像人一样一个字一个字或者一个词一个词的去理解呢? token 其实可以说是 ai 专用的最小文字单位哦,就不管是中文的汉字,还是英文的单词或者各种标点符号, ai 都要先把它们拆成一个一个更小的,这种 token 才能去认,去思考,甚至去记忆。所以说 ai 其实它看到的文字和我们看到的文字是完全不一样的,是吗?完全没错,人类可以一眼就识别这个汉字或者单词,但是 ai 它只能处理这些 tiny 的 token 啊,这是因为 人类的语言实在是太多样了,你想想,汉字有八万多个,英语单词也有上百万,还有各种符号,如果让 ai 一个一个字去处理的话,它的内存和算力根本扛不住。对,所以 token 其实就像是把所有的这些文字都统一标准化,切成了同样大小的小碎块。嗯,这样的话 ai 处理起来会快很多,然后也很省内存,同时成本也降低了。 所以 token 其实就是 ai 的 数据压缩包和加工原料。明白了,那 token 和我们实际的文字之间是怎么换算的?就是一个 token 大 概会对应多少个汉字或者多少个英文单词呢?其实这个换算关系也不是特别的复杂啊,在中文里面的话,基本上就是一个汉字对应一个 token, 哦,比如说你好,就是两个 token, 我 今天上班好累,就是七个 token。 嗯,非常的直观。那英文里面也是这样吗?就是一个单词一个 token 吗?英文的话就稍微有点不一样了,就是 一般的短单词是一个 token, 比如 hello 就是 一个 token, i love you 就是 三个 token。 但是如果是那种特别长的单词,比如说 supercatfragileistic spiracles, 它就会被切成两到三个 token。 嗯,对,但是这些都只是估算啊,就大部分情况下 误差不会超过百分之十,就没有说一一对应的。好的,那为什么我们跟 ai 聊天聊到一定长度之后,它就会不记得前面的内容了?或者说为什么有时候我们发一个很长的文档,它就直接给我们报错了?这个跟 token 到底有什么关系?对,这个其实就是因为每一个 ai 它都有一个固定大小的记忆盒子, 我们叫它上下文窗口哦,然后这个盒子呢,是用 token 来计算容量的,那不同的 ai, 它的这个盒子的大小也是不一样的,有的可能是四 k token, 有 的可能是八 k token。 那 高端一点呢?可能会到一百二十八 k, 甚至两百五十六 k token。 嗯,就你每发一句话,或者每发一段文字,它都会被拆成 token, 然后丢到这个盒子里面,所以就说这个盒子一旦被 token 装满了, ai 就 要开始删东西了,是吗?是的,就是一旦这个盒子满了之后, ai 就 会把最早进来的那些 token 给删掉,腾出空间来装新的内容。 所以这就是为什么你会聊着聊着发现,哎, ai 突然不记得你们最开始在说什么了,或者说你发一个很长的文档,它就直接给你报错,说内容过长, 嗯,那就是因为它的这个记忆盒子已经被 token 塞满了。哦,我懂了,那就是说这个 token 的 多少,到底是怎么影响 ai 的 这个记忆能力和它处理长文本的表现的。简单来说就是 token 上线越高, ai 能够记住的对话内容就越多。嗯,那它自然也就可以处理更长的文章或者书籍。 比如说这个一百二十八 k 的 token, 就 像一个很大的盒子,可以装下这么多发光的方块,那它就可以装下一本厚厚的书,然后在你需要的时候就可以翻到前面的内容,而不会说像那种小容量的,它就只能记住几页纸,然后就忘了原来是这样。 那我们接下来要聊的就是 token 是 怎么影响 ai 使用的费用的。就比如说,我们在使用一些付费的 ai 服务的时候,这个 token 到底是怎么来计费的?它是分输入和输出吗?是的,大部分的这种付费的 ai, 它其实都不是包月或者包年这种,它是你每用一次就会按照你这次对话所产生的 token 数来实时计费的。嗯, 然后这个 token 呢,它又分输入和输出,就是输入 token 是 要计费的,然后 ai 给你回的这个它也是按 token 来计费的,而且一般来说 ai 回复的这个输出 token 的 单价还要更贵一些。所以我们在使用这些付费 ai 的 时候,有没有什么办法可以通过管理 token 来帮我们节省一些费用呢?呃,有几个小技巧吧,就比如说你在提问的时候,尽量的直击重点, 把那些没有用的废话都删掉,然后还有就是你这个对话如果已经聊完了,就及时的把它清掉,不要让这个上下文越来越长,因为它也是会累计 token, 然后算钱的。嗯, 还有就是你可以在你的 prompt 里面就明确的告诉 ai 说你要简短的精准的回答,这样的话它就不会给你输出一大段,然后让你花冤枉钱。 好的,然后咱们展开聊一下,就是 token 是 怎么影响 ai 的 这个响应速度和用户体验的。就是我们经常会觉得有些 ai 它回复的特别快,有些 ai 它就半天蹦不出一个字儿,这个跟每秒生成的 token 数到底有什么关系?其实我们感受到的这个快慢它背后就是这个 ai 每秒能吐出来多少个 token 哦,你比如说有些 ai 它的 tps 能到一千多, 那你就感觉你每打一个字,他马上就给你回,非常的流畅,就像跟一个反应特别快的人聊天一样。但是有些他可能就只有几十的 t p s, 那 他就是一个字一个字慢慢的蹦,那你就会觉得等的很着急,而且你思路都被他打断了。这么说的话,是不是就是说这个 token 的 生成速度越快,我们跟 ai 的 互动就会越自然,越流畅。对,就是这个 t p s 越高, 这个 ai 就 会给你一种一气呵成的感觉,你根本就不会觉得有任何的延迟或者卡顿。嗯,那你的整个体验就会非常的顺滑。然后我们再来说说,就是 token 是 怎么决定 ai 任务的复杂程度和它的这个处理上限的? 就这个 token 的 容量到底是怎么影响 ai 去写报告、写小说、写论文这些东西的?是这样的,就是每一个你想要让 ai 完成的任务,它都是需要一定的 token 来支撑的哦,比如说一个四千 token 的 这样的一个限制, 那他可能就只够写一个短篇或者说简单的问答,那你想要让他写一个稍微长一点的,比如说几千字的报告,那可能八 k 的 toc 就 会比较合适。那你如果是想要 ai 来帮你通读一整本书,然后写一个十万字的小说,或者是说写一个几万字的论文,那你肯定就需要一百二十八 k 这样的一个大 toc 才能够 hold 住。对, 所以就说这个 token 就 像是 ai 的 一个燃料,它越多, ai 就 可以干越多越复杂的事情。没错没错, token 其实就是 ai 用来处理信息的燃料。嗯,你的这个容量越大,能燃烧的信息原料就越多,那它最后能给你吐出来的这个成果也就越复杂,越完整。对,所以 token 多了, ai 才能扛得住这种长篇大论的重活。懂了 这个芯片的算力和 token 到底是怎么配合来影响 ai 的 这个思考速度的?可以这样比喻啊,就是 token 是 这个米粒,然后芯片就是这个位位的容量越大, ai 每秒钟能够消化的 token 就 越多,它思考的速度自然也就越快 哦。比如说手机芯片,它可能就是一个小位,它每秒可能就只能处理几十个 token, 那 电脑的显卡就会大一点,它可能能处理几百个,那服务器的芯片就更夸张了,它可能就是上万的 tps 这种大胃王。 所以说这个算力基本上就直接决定了 ai 它吃 token 有 多快。所以说,芯片的这个算力是不是直接就决定了有多少用户可以同时跟这个 ai 进行流畅的对话? 对,这个是很直接的,因为,呃, token 它是 ai 处理信息的最小的单位嘛。然后芯片的性能就决定了它一秒钟能生成多少个 token 哦。比如说一个芯片,它一秒钟可以生成一万个 token, 然后每个用户要想体验流畅的话,它可能每秒钟需要二十个 token, 那 这个系统就可以同时支撑五百个人在线。 所以芯片越强,它每秒钟生成的 token 就 越多,它可以服务的人也就越多,大家就都会觉得很快很流畅。明白了之后,咱们来看看一些关于 token 的 常见误区。就很多人在使用 ai 的 时候,对于 token 的 计算计费,包括它的作用都有一些错误的理解,那常见的有哪些误区?比如说很多人会认为 token 的 数量就等于汉字的数量, 就一个字一个 token, 嗯,其实不是的, token 它只是一个约等于汉字数的一个计算值,它并不是一个精确的对应关系。还有别的误区吗?就除了这个 token 和字数的关系之外,还有人觉得只有 ai 回复我的时候才会消耗 token, 其实不是的,就是你输入的问题和 ai 输出的答案都是要消耗 token 的。 嗯,然后还有人觉得 token 越多说明这个 ai 越聪明,其实不是的, token 它只是代表了这个 ai 能够记住多少上下文,它跟这个 ai 的 智商是没有关系的。 对,然后还有一些人会觉得标点符号、空格表情这些东西是不算 token 的, 其实他们都是算的,就这些符号也是会占 token 名额的。好的,那我们在实际使用 ai 的 过程当中,有哪些方法可以通过合理的去管理 token 来提升我们的效率,并且节省我们的费用呢?比如说你日常跟 ai 聊天的时候, 你可以把你的问题尽量的控制在五百字以内,然后你也不要一次性丢太多东西给他,嗯,你就保持在二三十句就清理一下对话, 这样的话就可以避免它的这个语境变得很混乱,同时也可以节省 token。 但如果是要处理那种很长的文章,或者说要写一个很长的东西呢?这种情况你就需要选择那种上下文窗口比较大的模型,比如说一百二十八 k 以上的,然后你把你的这个内容拆分成几个章节,分批次地发给 ai, 这样的话 ai 也会比较容易理解,然后你也可以节省 token。 那 如果你用的是付费的 ai 的 话,你最好就是把你的问题写得很精简,直接问你最关心的那个点,然后优先去获取那种短而精准的答案, 这样的话可以帮你最大限度的节省 token, 然后也可以帮你省钱。 ok 了,那今天我们聊了这么多关于 token 的 东西,它在 ai 里面其实就像是文字的米粒,它是 ai 用来认字说话记忆的最小单位。 然后我们也聊了 token 跟我们的这个实际的文字到底是怎么换算的,以及它是如何影响 ai 的 这个记忆速度、费用,甚至包括我们跟 ai 互动的体验的。 最后我们也给大家分享了一些非常实用的小技巧,就是如何在日常使用 ai 的 时候,能够通过管理 token 来提升效率,节省费用。好了,那这期播课就到这里了,然后感谢大家的收听,咱们下次再见,拜拜!拜拜!

最近我收到最多的后台私信就是 token。 既然是个新的大众商品,那普通人能不能自己生产 token 自己卖?今天一条视频给你讲清楚。先说结论,能生产,但你算完账,你就不会干了。我们来算一笔账, deepstack 目前最火的大模型,它卖 token 的 价格是多少?输出,每百万个 token 三块钱。 一百万个 token 是 什么概念?大约相当于五十到七十万个中文字,一本书大概十万字,也就是说, ai 帮你能写将近七本书的内容,只收你三块钱。反过来说,你自己要生产这一百万 token, 至少得花几十万买个 gpu, 装一台服务器, 二十四小时不断电。就这样,你的一台机器大概需要十几个小时才能生产出这一百万个 token。 而且这个你还没有算你的工程师维护机房电费和宽带费。 deepsea 为什么能卖三块钱?因为它拥有几万张 gpu, 同时跑,一天处理上千亿个头梗,成本被摊到几乎为零。这就好比你自己在家养了一头牛,挤了奶想拿出去卖,一瓶卖五块, 你觉得能赚,但是你一算,买牛花了两万,饲料每月两千,一天只能挤几斤奶,隔壁蒙牛一天出几千吨,一瓶卖三块钱还能赚?你的奶不比它的差,但是你的成本是它的一百倍还要多。 这就是普通人生产 token 面临的问题,不是做不了,是做了一定亏。所谓普通人在 token 这门生意里的正确姿势,不是自己生产 token, 而是用便宜的 token 去创造贵的服务。 举个例子,你用 deepstack 花三块钱买一百万个 token, 让 ai 帮你写十篇小红书文案,通过小红书的文案带货去赚钱,那么你的成本就是三块钱。 你赚的不是 token 的 差价,是你知道怎么用 token, 而别人不知道的信息差。再举个例子,你用 ai 帮一个小型企业搭建一套 ai agent 的 token, 成本可能不到十块钱,但你收企业五千块钱的咨询费, 企业买的不是你那十块钱的 token, 而是你的判断力和方案。不要去跟巨头抢着生产 token, 要去想怎么用三块钱的 token 创造三千块钱的价值。生产 token 的 钱留给巨头去赚,用 token 去做赚钱的生意,才是留给普通人的机会。我是文思,关注我每天带你看懂 ai。