大家好,今天咱们来聊一个恩爱圈里面常常被提起但很多人听不懂的词, talking, 很多人第一次听到这个词,要么是以为,以为是某种货币啊,以为是咱黑科技啊。比较听不懂的话,其实它特别简单,我今天用最接地气的话给大家讲明白。首先读一是 talking, 你 可以近四里读成托肯, 你不用拼写,只需要记住, toki 就是 ai 眼睛里面的字。我们人类看书啊,打字呀,用的汉字句子,但 ai 看不懂汉字,也看不懂句子,他只能读懂他的基本单位 toki。 你可以把 tony 理解成爱世界里的米粒,我们吃米饭是一碗一碗的吃,爱处理文字就是一粒一粒的吃 tony。 举个简单例子,你发给爱一句话,今天天气真好,在我们看来是六个字,在爱眼睛里面 会被切成一小段一小段的,大概就是四到六个 tony, 你 发的越长, tony 就 越多。再比如, hello, how are you, 在 我们看来是四个单词, ai 看来就是几个 tokyo。 那 么 tokyo 有 啥用呢?为什么要讲它?第一, tokyo 是 ai 的 脑子,荣耀就是按 tokyo 算的,就像你的手机短信有字数限制, ai 一 次性能记住的内容也就是 toky 的 上线, 你跟安野聊的越多,前面内容他就忘了,不是他傻,而是他的 tiktok 额度满了。第二,我们用安野,其实都是在花 tiktok, 不 管是唱的 gpt 无心言, 还是各种的安野写作,安野绘画,背后都是在消耗 tiktok。 很多免费软件额度用完要充值,其实就是在买 tiktok。 你可以这么记住, tucker 等于艾艾的粮食,你问一句话,就是喂艾艾吃几口粮食,艾艾回一句,又吃了几口。吃的越多,成本越高,收费也越贵。 比如让你写一篇一千字的文章,消费的 tucker 就 比你问一句,你今天吃的啥?多的多。还有一个很形象的比喻, 人类用字说话, ai 用 talk 思考,他不认识字,只认识 talk。 我 们打字转换成 talk, 爱处理,再转成文字给我们看,整个过程很像, 就像你说中文翻译成爱的语言,爱一算完,再翻译成中文,中间那个翻译单位就是 talk。 总结一下,今天记住这三句就行。掏给不是货币,不是钱,是处理字的最基本单位。你跟爱聊天、提问都是在消耗,掏给话越长,掏给消耗的内容就越多。
粉丝25获赞58

大家好呀,这两天有个新闻,不知道大家有没有留意啊?国家给 open 取了一个中文名字叫词源,上了一个人民日报,当天的一个概念股都涨了百分之十五。但是作为大众而言,看到词源两个字是不是还是有点懵的?词源是什么? token 是 什么啊?它们到底是什么意思?今天我们就用一句话来讲透 token, 它其实就是 ai 能够读取的最小的单位。 token 本身呢,它有可能是读到的是字或者是词,这个就很像我们以前计算机语言里面最小的单位 but, 但是一个 token 呢?它不等于一个字 ai, 它有自己的猜词规则,比如说像人工智能,一般会拆成两个头肯,人工和智能,那像吃饭两个字就是一个头肯了,它不会拆。所以我们中文里面呢,一个头肯大概是等于一到两个汉字。头肯现在其实是 ai 行业的一个电力表,用任何的 ai 工具背后都是在算这个头肯的。 你问一句话就会消耗头肯, ai 回你一句话也消耗了头肯,这个中间其实它就是一个衡量,它就是一个消耗品。给大家一组数值感受一下,就二零二四年初,我们全国每天消耗的大概是一千亿个头肯,但是到了今年二零二六年的三月,已经突破了多少呢?一百四十万亿 啊,那两年它增长了多少啊?一千多倍是不是?它既然是一个消耗品,它已经变成了跟我们的一度电、一吨水一样的一个基础计量单位,它其实就是对一个算力的一个计量单位。那你日常用 ai 的 话, took 跟你有什么关系呢?直接关系着你的钱对不对? 第一就是花钱,你现在去买的一些 ai 包月的套餐里面都会有包含基础的,要么就是次数,要么就是 took 的 具体数额,所以你聊的越多可能花的就越多。对, 那第二个呢?我们知道 ai 它其实是每一轮对话都是有一个上下文限制的,上下文的限制其实就是 token 数量的限制,比如说一百个字是这轮对话的上限,那么你讲到一百零一个字的时候, ai 就 会把最前面的那一个字忘掉了,聊着聊着你就会发现 ai 降智了, 对不对?第三个就是质量了,对,你塞太多的内容给 ai, 它的一个整个注意力就会分散,每一个话背后它都是要去拆成它的自己的一个 token 数,它的中文名呢叫词源, ok, 它 其实是我们这个 ai 时代的一个度量衡,以后看到 token 或者是词源,你就知道在说什么了,对吧?那这里有一个小问题,就是明明我们说的你好在 ai 里面拆的是一个 token, 为什么我跟 ai 发一个,你好,背后它消耗的是几千个 token 呢?这个问题带回去思考一下,今天就分享到这里,拜拜。

最近啊, token 这个词是彻底火了啊,国家数据局呢,还专门给它定了一个官方中文名啊,叫词源啊,前两天大家都已经听说吧, 那这个 token 呢,其实在计算机里一直都有这个词儿,那为啥最近就突然火了呢?那刚刚呢,黄日勋做客的非常著名的 lex framman 的 一个播客啊,它进行了一个长达三个小时的深度访谈, 这就是被称为 token 之王的老黄啊,他对当前的 ai 行业逻辑最通透的一次底层的推演啊,信息量非常大。那今天这个视频呢,我就给大家彻底的讲清楚,那在开始之前呢,不妨呢,你先问一下自己三个问题。 第一呢,就是为什么硅谷有的大厂呢,已经开始把 token 当做工资发给程序员了?第二呢,为什么你的公司还在买存储,买服务器,而聪明人呢,已经在建立自己的 token 工厂。 第三呢,就是像 openclaw, 小 龙虾这样的 ai 智能体啊,满天飞的时候,咱们普通人的饭碗啊,到底还在哪里?如果你对这三个问题还有些模糊,那么一定要把这个视频看完,因为老黄呢,把答案呢全部脱底了。 首先呢,老黄呢,提出了一个颠覆性的认知啊,计算现在正在从解锁变成了生成,而计算机呢,从仓库变成了工厂。 在旧世界里面,我们需要的是存储,大家把文件呀,照片呀,预先的存进去,用的时候呢,就去搜,这本质上呢,是一个死气沉沉的仓库,赚不了什么大钱。但是在新世界里面, ai 计算机呢,它是一个日夜轰鸣的工厂,它的原料是电力和数据,而产出就是 token。 toker 呢,就是 ai 生成的每一个字儿,每一行代码,每一个决策。这就意味着,英伟达根本就不是单纯的芯片公司,它们呢,是在建造一个新型的基础设施。算力就是产品,而 toker 就是 这个时代最值钱的大宗商品。 其次呢,既然 toker 是 商品啊,它就有价值,有分级。那老黄呢,给出了一个非常性感的类比, toker 呢,未来会像 iphone 一 样进行一个细分市场的划分。 未来呢,你会看到很多免费的投坑,高级的投坑,甚至呢,有专门用于医疗、法律等高价值领域的专家级投坑。有人呢,会愿意为每一百万个投坑呢,支付一千美元。这不是会不会发生的问题啊,而是何时发生的问题。 当智能变成一种可以规模化的生产,按纯度定价的商品的时候,这就是一个极其可怕的生意。再者呢,为什么现在大家都在拼算力啊,过去呢,大家都觉得训练大模型最难,而推理呢,最简单。但是老黄啊反驳说,推理的本质是思考,而思考的是极其困难的。 愈训练呢,只是在海量的数据里面去读啊,读啊,去找记忆啊,找规律啊。但是推理它是在处理从来没有见过的全新的体验,把问题进行拆解,规划,搜索,然后呢,用第一性原理去解决。 所以,现在的 ai 的 瓶颈已经不是什么数据,而是推理端的算力。我们要的不是 ai 读得快,而是让它想得深,想得快。 那最后呢,老黄提到了最近爆火的 opencloud 啊,他说 opencloud 对 于智能体系统的意义,就像拆了 gpt 对 于生成式系统的意义一样。 agent, 它不再是一个聊天工具,它是一种持续运行的算力消耗。而智能体呢,可以延伸出一大堆的子,智能体就自己去查数据库来调用工具,这就是 ai 的 乘法效应。 如果你是一个木匠、水管工或者是程序员,不要觉得 ai 会抢你的饭碗。老黄说啊,未来的每一个木匠都是有 ai 辅助的建筑师,你的价值刚刚被放大了无数倍。 老黄在访谈啊,最后说了一句话啊,非常打动我,他说,智能将被商品化,但是人性不会当满大街呢,都是廉价的、聪明的头啃的时候, 人类应该真正提升的是我们的品格,我们的同情心,还有决心,而这些呢,才是不可替代的超能力。好了,我是 c 哥,如果觉得今天讲的对你有帮助,别忘了点赞关注,这对我非常重要。好了,咱们下期见!

token 是 人工智能大模型理解和生成语言的最小语义单元,也可以通俗地理解为 ai 世界的语言源址,故翻译为词源。需要注意的是, token 并非等同于我们日常使用的字或词, 其划分规则由模型自身决定,既可能是一个完整的汉字、英文单词,也可能是汉字的偏旁、英文单词的词根,甚至是标点、符号、空格等。当 ai 处理文本时,它并不像人类一样直接理解完整的句子, 而是首先将输入的文字打碎成这些小片段,这一过程称为 token 化。 token 化的核心目的是让大模型能够将复杂的自然语言转化为可计算、可处理的结构化数据, 进而完成理解、推理和生成任务。用个更直观的类比 ai, 大 模型就像给人类做饭的厨师,人类的提问是食材,回答是菜品。但是它有个规矩,只能一盘一盘把食材往后厨里运,做好了菜也只能一盘一盘端出来。 这里的每一盘食材就相当于一个 token。 厨师处理食材的过程就是模型对 token 进行分析、计算的过程。一、 token 的 作用 token 贯穿 ai 与人类交互的全流程,是大模型运行的核心基础,其作用主要体现在三个方面, 一、 token 是 ai 的 计价器和电费。绝大多数商业大模型都按照 token 数量收费,用户输入提问和输出回答的 token 总和 决定了每次交互的费用。不同模型的 token 单价差异巨大,国产模型价格可能仅为海外模型的六分之一。此外,部分模型会对输入和输出的 token 分 别计价,输出 token 的 单价通常高于输入 token。 二、 token 决定了 ai 的 记忆力。每个大模型都有一次性能处理的 token 上线,即上下文窗口。 例如,一个模型可能支持幺二八 k token, 大 约相当于三百页书的内容,超出这个范围的对话内容 ai 就 会忘记,无法在后续交流中引用。这也是为什么长时间对话后, ai 可能无法回应之前提到的细节。 三、 token 是 驱动 ai 执行任务的能源模型,每进行一步思考和推理也都需要消耗 token。 任务越复杂,消耗就越大。 比如简单的问答,如一加一等于几可能仅消耗十几个 token。 而复杂的论文、拣写、代码生成、逻辑推理等任务可能会消耗上千甚至上万个 token。 同时, token 的 消耗速度也与模型的推理速度相关,通常消耗 token 越快,模型的响应速度也越快。二、 token 相关疑问一、为什么养龙虾消耗的 token 多? 因为在 openclaw 这类能动手干活的 ai 智能体中,它们需要将一个复杂指令拆解为数十个步骤, 每一步都需调用大模型进行决策和执行,导致其 token 消耗量是传统聊天 ai 的 一百到一千倍。一个复杂任务可能消耗数万乃至上亿的 token。 二、不同语言的 token 消耗有差异吗?有差异。 通常情况下,中文的 token 消耗略高于英文,因为一个汉字约对应一点三个 token, 而一个英文单词平均长度约对应一个 token。 标点符号、空格、换行符等也会被记入 token, 但其消耗占比极低。三、如何减少 token 消耗?可通过精简提问去除荣誉信息、分段提问避免一次性输入过长内容明确指令减少模型无效推理等方式 降低输入和输出的 token 总量。同时选择适配任务的模型,如简单任务用基础模型,复杂任务用大上下文窗口模型,也能避免不必要的 token 浪费。四、 token 越多, ai 的 回答质量越好吗?不一定, token 数量仅决定模型能处理的内容长度和推理步数,回答质量主要取决于模型的训练数据参数规模和优化程度。若提问容易指令模糊,即使消耗大量 token, 也可能得到不准确、不精准的回答。

还是有很多大聪明不停的问我,博士,我如何跟你卖托肯?托肯到底是啥啊?我觉得你想跟我卖托肯可以,你首先要理解什么叫做托肯,很多人根本就不明白,以为托肯是一件很简单的事情,其实并不是这样 啊,有的人说是字节,有的人说是字数,其实我觉得都不对吧,用通俗的话,普通人能够理解的话就是啊,托肯就是 ai 世界的律师费吧, 你想想,你去问一个大律师,人家可能是按照分钟来收费,对吧?你一问一答, ai 也一样,但是 ai 他 没法一个定量的去按时间来,因为有的 ai 快, 有的 ai 慢,就是根据背后的算力 啊。 ai 不 看你问了几个问题,他是把你这些问题打碎之后,然后在他脑子里面赚了多少颗粒度? 呃,比如说在中文里面,我们大概一个 token 就是 一个一个字,然后在英文里面,一个 token 大 概是零点七五个字。所所以说,比如说 brightness, 它叫 bright, 然后 ness, 然后 darkness, 它这个你看,呃, brightness 和 darkness 它里面相似度就是一个 n e s s, 这就是一个具体解释, 在 ai 里面, token 就是 处理逻辑的最小代价。如果你问,比如说吃了吗,你问博士吃了吗?我可以秒回 ai, 也可以秒回,它不需要呃,用太多的算力,但是如果你让它写个什么对赌协议, 什么销售协议,它还是得调动很多的神经元。 token 记录的,其实某种意义上讲就是说,哎,它在它脑子里面运转了多久 好?这时候关键问题来了,很多人都不明白 token, 他 觉得 token 是 个标准品,其实 token 不是 一个标准品, ok, 它是根据不同的模型,它会产生不同的 token, 你 比如说你有 deepsea, 你 有 jamaican, 你 有 john cloudy, 你 还有这 gorn, 对 吧?不同的模型。 所以呢,很多人在这建这种机房的话,去卖这个,卖这个,托肯,我觉得这也不 make sense, 本质上这些只有大公司在做,因为你要有自己的模型。当然了,你说,哎,兄弟,我不怕,我自己有把开源模型 放到我自己的机房里去让,然后给别人提供也 ok, 但是开源模型是在不停的演化的,所以你有自己的技术力量去不停的去开源模型嘛,对吧?都是一些问题,实际的问题。 然后呢?还有还有说不同的模型,我再解释更清楚一点,他就想找律师,你找一个刚毕业的实习律师,他可能问一个问题,收你五百块钱, 然后他给你建议,可能赵本山哥,甚至可能还不如大模型,对吧?如果你是去找一个身价千万的顶级合伙人,他跟你的回答的问题他可能完全是不一样,而且他每一个回答他可能都是根据他处理了很多问题啊,根据他几千个真实的案例来。 所以大模型也一样,大模型有有七 b 的 小模型,就像现在所有人都说,哎, mac mini, 呃,我去,让这种小模型,这种出海三裂,那都是小模型,它产生吞坑速度很快。其实 mac mini 也不快啊,但是它脑子里没有深度,它给你的逻辑可能根本就不通的, 像 gbt4 啊。然后 jimmy 这种大模型,它每一个,呃,大模型,它不是升级,它其实升级的过程中它也是融合了很多的各种各样的最新的这些知识,它其实在其实某种意义上讲,其实我就为什么说其实做垂直领域的大模型其实没有多大的 啊?一,因为你会发现我刚搞一些 dota 出来,然后一些大厂,他马上就把这些新的 dota, 新的垂直行业的领域的东西放到他的大模型里面, 而且他自己有很多自己的算力中心。如果你单纯的用一个呃开运的模型去做的话,开运模型大部分人我都说过是真流出来的,几乎是没什么用的,其实本质上就是说你你你用什么样的模型也会对应着什么样的算力,对吧? 呃,其实某种意义上讲,我们再来讲一讲大模型,为了突出一个头肯,它其实也有需要很多的 gpu 的 协调合作, 它不是说不是说一个一个小 mac mini 就 就可以去卖了,其实你你想想的大模型它都是几几个几个逼量的参数,它肯定要进行很多的这种举矩阵运算, 就为了你一句提问,比如说你问一个问题很简单,问题它可能秒回,但是大的东西的话它还是要很多做协助呢。 小模型呢,就是一个 mac mini, 他 自己在这想速度快,他其实质量也很差,所以呢, token 的 成本其实本质上取决于你这个模型的大小 和你这个算力的这个这种消耗。如果你的需求大,这种问的问题很深,你就需要这种顶级的律师事务所的合伙人,所以你就要更更强的算力,更强的大脑。如果你只是问一个博士吃了吗?我跟你可以卖 token 吗?这种话,那肯定话就很很很简单, 所以呢,在这我们这个时代,你不要想着就是单纯去卖 token 啊什么的,你要想去卖 token, 你 首先要想好 你 token 的 客户是谁,他会问到什么样的问题,你需要用什么样的模型去解决,你需要匹配什么样的算力?而往往这些东西都是我们这种云厂商,比如我们代理亚马逊云云厂商来解决的。不是说一个小白什么都不懂,然后,然后上来说我跟你卖 token 嘛?这这这简直就不 make sense。

全网都在说 tok, 他 到底是个啥?这是你,这是你的 ai, 你 可以叫他菜包,他啥都知道,但他是个文盲,不识字,只识数。你直接问他谁是最帅的博主,他只会哇哇哇,那他是怎么跟你唠嗑的呢? 过程是这样的,第一步,拆。先把你的句子像拆积木一样,拆成几个小块,每一块可能是一个字,一个常用词,也可能是标点符号。接下来就是第二步,翻译。菜包眼里没有文字,只有数字,所以它有本词表, 专门把这些小积木翻译成对应的数字,而这串数字就是 ai 能看懂的语言。这时候呢, ai 就 可以读懂你的信息,进行思考,然后再把结果反向翻译成你能看得懂的文字。在这个过程当中,拆分出来的每一块小积木就是一个 tokken, 现在它有了中文名叫词源。很多收费的大模型,就是按照输入思考过程输出中的 tokken 数量来收费。 拆分的积木越多,花的钱也就越多。比如这句话呢,我们用了六个 tokken, 一 块钱的话, ai 读懂你这句话就花了六块钱,你学会了吗?

用 ai 的 时候总能看到 token 这个词,那到底是什么呢?搞懂它真的能帮助你省钱的,你可以把 token 理解成为乐高积木啊,我们平时说话用的是文字, 但是 ai 它是读不懂文字的,它需要先把说的话拆成一小块一小块的积木,那每一块就是一个 token, 那 到底怎么拆呢?我来给你看一下啊。我们随便找一个 token 的 计算工具,输入这段话 看一下。这段话被拆成了三十四个 toc, 而且每一块积木都有自己的编号,这里边有几个比较实用的参考数字啊,就是大约四个英文等于一个 toc, 一 百个 toc 大 约是七十五个英文单词, 其实中文他是更费 toc 的, 同样的意思,中文消耗的 toc 通常会比英文的多。为什么我们要关心这个呢?因为每次你跟 ai 对 话的时候,你输入的 toc 通常会比英文的多。为什么我们要关心这个呢?因为每次你跟 ai 对 话的时候,你都在消耗 toc, 而 toc 就是钱,你打的字越多, ai 回复的越长,花的就越多。其实就跟我们用手机流量上网是一个道理,五 g 更费流量。所以下次用 ai 的 时候呢,提示词尽量的写清楚,写精准,既能够拿到好的回答,也能够省偷看。 而且最近呢,官方给 token 做出了一个解释,说它叫词源,但是我觉得这个解释比较中规中矩吧,并不是所有的这种单词都是需要有一些中文的翻译的。好啦,我是开心关注我每天进步一点点。

哈喽,大家好,欢迎收听我们的播客。然后今天咱们来聊一聊这个 token 到底是个什么东西啊?为什么最近大家都在说这个东西?对,就是这个 token, 真的 最近就是好像这个人工智能领域的这个新宠儿一样啊,到处都在说, 那我们就来好好聊一聊它到底是个什么东西?我们第一个聊的是官方怎么去定义这个 token, 以及它在市场上的表现。 ok, 那 首先第一个问题就是这个 token 它到底是一个什么样的东西啊?官方是怎么去看它的?这个 token 其实它的官方的中文名字叫磁源,嗯,就是它是那个, 呃, ai 大 模型里面处理信息的一个最最基础的单位,就你无论是一句话还是一张图片,它都会被这个 ai 拆分成一个个小的 token, 然后去理解,所以说它就像是 ai 世界里面的一个基本的积木块。对,没错,而且这个 token 它是有计价的,有计量的,有交易的这样的一个功能的, 所以它也是这个 ai 服务的一个结算的标准,就它已经成为了这个智能时代的一个新的价值的锚点。那现在就是说最近这两年咱们中国的这个日军 token 的 掉用量到底涨得有多快?呃,其实这个数据是非常惊人的,就是从二零二四年年初的一千亿次, 到二零二五年年底就直接飙到了一百万亿次,然后到二零二零年的三月已经到了一百四十万亿次, 就是两年时间涨了一百多倍。哇,这个速度真的是太吓人了。更厉害的是我们中国的这个钓用量在二零二六年的三月连续三周超过了美国,成为了全球第一,这也意味着, 呃,围绕这个 token 已经形成了一个新的商业模式和价值体系。对,就 ai 这个产业在中国已经进入了一个高速爆发的一个阶段。对,那现在就是说咱们中国的这个 ai 大 模型在全球到底处于一个什么样的水平? 呃,其实现在我们中国的这个大模型在国际上面的表现还是非常亮眼的,就是我们的这个调用量已经是全球领先了, 然后包括我们的这个产业生态和商业模式其实也是比其他的国家要成熟的,就是我们已经实现了这种从技术的突破到市场的广泛应用的这样的一个转化,所以说不光是技术强,落地也做得很好。没错没错,而且就是呃,中文的这个 token 的 标准也已经被确立了, 然后也会推动这个多语种和多模态的这种能力的一个提升,那其实这个也会让中国的这个 ai 在 全球的影响力会越来越大。然后我们来进入到第二部分啊,就是我们想要去深入的了解一下这个 token 它的技术原理到底是什么啊? ok, 对, 那第一个问题就是 token 在 这个 ai 大 模型里面,它到底是一个什么样的定义啊?它有什么样的作用?其实 token 就是 ai 大 模型能够去理解和处理我们人类的语言的一个最基本的单位。 ok, 就是 它会把我们输入进去的无论是中文还是英文还是什么其他的语言,它都会先拆分成一个一个有意义的小片段, 然后每一个小片段就是一个 token, 对, 它其实就类似于呃,让这个 ai 能够去识字的这样的一个积木块哦,所以它就像是一个翻译,把我们的语言翻译成了 ai 能够懂的一种数字的语言。没错没错,对,就是每一个 token 都会被映射成一个唯一的数字编号, 然后这个 ai 就 会用这些数字来进行计算啊,来进行预测啊等等的。同时呢,这个 token 也是这个 ai 进行计费的一个基本的单元,就你用了多少 token 就 决定了你要付多少钱,同时呢,这个 token 也决定了 这个模型的这个记忆的上限,以及它的这个处理的效率啊等等的,所以它是一个非常非常核心的东西, 是这个大模型的一个动力的引擎。哎,那这里面就有一个问题了,就是不同的大模型在对这个文本进行 token 切分的时候,这个规则会有很大的区别吗?其实差别还挺大的,因为比如说有的模型它是用 bpe 的 算法啊,它就会把这个单词拆分成更小的一些子词, 那比如说是一些常用的词,它可能就会整个的作为一个 token, 但是一些生僻的词它就会被拆得很碎,那像 b r、 e, 它用的是 word peace, 它可能就会更倾向于去保持一些词的完整,所以就同一个句子,可能在不同的模型下面切出来的 token 数量和内容都不一样, 完全有可能。就比如说中文的话,可能有的模型就是一个字一个 token, 有 的模型就是一个词一个 token, 然后英文的话,可能有的模型就是一个单词会被拆成好几个 token, 所以这个就为什么大家说要了解自己的这个 chosen model, 它是怎么切分的,你才能比较好地去 控制你的这个成本和效果。现在主流的这种大模型的服务,一般是怎么给用户算 token 费用的?一般都是按照每一千个 token 来计价, 然后呢,这个输入和输出是分开算的,输出往往会更贵一些,那不同的模型它的这个价格可能会差好几倍,甚至几十倍都有可能。 那就是说我如果是一个多轮的对话,或者说我要处理一个很长的文档,那这个 token 是 不是就花的特别快?没错没错,因为你这个多轮的对话,或者说这个长文档,它是要把你的这个历史的内容都要算进去的, 所以你很容易就会超过这个模型的这个上下文的限制,然后你就会要么就是被创建掉,要么就是你要额外的付费。 所以就是说这个优化你的这个输入的内容以及选择合适的模型就特别重要。咱们来聊一聊这个 token 对 这个 ai 产业的商业模式的影响吧。嗯,第一个问题啊,就是 token 出现之后, ai 产业的商业模式都发生了哪些变化?就是 token 出现之后呢?其实呃, ai 产业的这个商业模式最大的一个变化就是呃,它的这个计价的方式变了, 就是现在大家都是用 token 来作为这个计价的单位啊,那云厂商也不再是卖算力了,云厂商现在直接就是卖 token, 哦,对,就是我给你提供一个 token 的 订阅服务, 然后我可以针对不同的场景来进行一个定价,比如说你是要啊高并发的还是要低延迟的等等的,它可以进行一个灵活的定价, 那这个就会彻底的改变这个产业的格局啊,所以说就不光是卖的方式变了,整个竞争的方式也变了,对啊,因为,呃现在大家拼的就不是说我有多少硬件资源了,大家拼的是我谁能够把这个 token 的 成本做的最低,效率做的最高。 然后数据中心也从一个单纯的提供算力的一个地方,变成了一个类似于 token 工厂这样的一个东西,就是它的整个的价值链条也变了, 就你这个电费变成了你最大的一个成本项。所以这个时候呢,就是像中国这种有绿电优势的地方,就可以把这个头肯卖到全球去,那这个时候其实就带来了一个新的全球的数字贸易的规则, 那也带来了一个新的这个所谓的能源加算力加 token 加应用这样的一个一体化的商业模式。你觉得就现在这个 token 的 这个用量暴涨之后,对这个算力和能源的格局带来哪些新的变化?就是现在这个全球的这个 token 的 用量啊,是呈指数级的增长, 那这个时候呢,就导致这个 ai 推理的这个需求啊,直接就引爆了,那这个时候呢啊,高端的 gpu 就 变得非常非常的紧缺, 那这个时候呢,租金也涨的非常厉害,交付周期也变长了,那这个时候呢,整个这个算力的市场就变成了一个卖房市场,所以说这个数据中心也得跟着升级呗,对,没错,就是这个新一代的这个数据中心就是要成为一个 token 工厂啊,那他就要追求极致的吞吐和极致的能效。 所以说现在就是这个夜冷啊,等一些技术就变成了一个刚需,那这个市场呢,也会在今年就会翻倍, 然后呢,这个算力的成本其实百分之七十都是用电,所以说啊,中国的这个绿电的优势啊,就可以让这个 token 的 生产更便宜。 那这个时候呢,算电携同和绿色能源也变成了一个新的产业的热点。你觉得就是未来这个 token 在 技术和产业上会有哪些新的趋势?首先就是我觉得未来大家会更关注的是每单位能耗能够产生多少 token, 就大家会把这个能效作为一个最重要的指标,那包括从芯片到整个系统的设计都会围绕这个来进行。然后呢就是这个硬件和算法的协统会成为一个主流, 那这个时候呢,就是这个推理的效率会得到极大的提升,这不单纯是拼这个硬件的性能啊,对,就是边缘的 token 工厂啊。然后这个分布式的计算会满足这种实时的和爆发式的这种需求, 包括这个整个的 token 的 流通的环节会被平台方牢牢的掌控啊,那包括这个规范出口啊,包括这个分层的定价啊,会成为一个新常态, 那这个时候呢?呃,安全和国际规则也会变得越来越重要。今天我们聊了这个 token 从技术原理到它如何改变了这个 ai 的 商业模式,然后再到它未来的一些新的趋势,其实我们看到的是 token, 它不仅仅是一个计量单位,它更像是一把钥匙, 他正在开启 ai 产业的全新未来。那就是这期节目咱们就到这里了,然后感谢大家的收听,咱们下次再见,拜拜。

你有没有想过,为什么 ai 能读懂你的问题,还能写出那么长的回答?秘密就藏在 token 这个词里。今天花三分钟带你彻底搞懂大模型的核心 token 技术,欢迎来到 ai 科普系列 基础篇。今天我们要聊的是大模型 token, 它是 ai 理解世界的词汇表。接下来我会带你从概念应用到核心意义,全面解析 token 技术。 token 就是 文本的基本单元,你可以把它想象成人类语言中的单词。 ai 通过将连续文本拆分成一个个有意义的 token, 才能开始阅读。比如英文单词 hello, 中文汉字,你还有子词 an 和 happy 组合成的 an, happy 都是 token 的 典型例子。 token 的 工作流程很简单,输入文本分字处理。 token 工作流程 很简单,输入文本分字处理 token 就 有一个唯一的数字 id 模型,就是通过这些 id 来理解文本的。 token 主要有三种类型, 词级 token、 字词 token 和字母 token。 词级 token 用完整单词,语意明确,但词汇表庞大。词词 token 通过拆分词词来平衡效率与覆盖。比如 bpe 算法, 字幕 tucker 以单个字幕为单位,词汇表极小,但续列过长。 tucker 在 大模型中的应用非常广泛,文本生成如 chat、 gpt、 对 话、机器翻译、中英互译、情感分析、评论分类、代码生成、自动编程都离不开它。 tucker 是 连接文本与模型计算的桥梁。常见的 tucker 化算法 有 byte parent code, n b p e, word piece 和 sentence piece。 b p e 通过统计高频次复队逐步合并用于 gpt 系列。 word piece 基于概率合并,子词用于 part sentence piece 语言无关直接处理原始文本, token 长度直接影响计算成本。输入文本越长, token 数量越多, 计算时间和内存占用就越高。模型都有上下文窗口限制,如四零九六八一九二。 token 处理长文本时需要采用摘要、分段等技巧来平衡语义完整性与计算效率。 token 技术的核心意义在于统一了不同语言格式的文本表示,实现了跨语言模型训练。 通过子词 token 平衡了语义与计算效率,还能适应新词汇和领域术语,支持持续学习。 token 和字母有什么区别? token 是 由语义的,单元 字母只是书写符号。一个 token 可能包含多个字母。 token 长度有限制吗?模型有上下文窗口限制,但 token 本身无固定长度。中文 token 如何处理?常用汉字单独成 token, 生僻字可能拆分为子词或字母。记住四个关键点, token 是 文本的基本表示,单元分词算法影响模型效率。 token 技术统一多语言处理,理解 token 有 助于优化 ai 应用。建议你亲自使用 tokanizer 工具体验分词过程。阅读 bird gpt 论文,了解细节,并关注新分词技术的进展。谢谢观看, 希望这期内容帮你真正理解了 token。 ai 科普系列持续更新中,下期你想了解哪个 ai 概念?评论区告诉我。

怎样写提示词最省 token? 核心不是把话写的越短越好,而是用更少的字让模型少读、少猜、少反攻。接下来我会讲清三件事, token 到底耗在哪,哪些写法最浪费,以及怎么在不影响效果的前提下把提示词压缩下来。先说清楚, token 不是 字数本身,而是模型切分文本后的最小计费单位。 中文里一个字常常接近一个 token, 但标点、英文数字重复格式也会占你写的越长。模型读入越多,模型回的越长,成本和延迟也一起涨。最浪费 token 的 第一种写法是把需求说成一大段背景故事, 比如你只是想提炼三个卖点,却先铺垫公司历史、行业趋势、老板要求个人感受,对模型来说,和任务无关的信息越多,越占上下文,还会稀释真正的指令。 第二种浪费是重复表达同一件事,比如同时写简洁一点,不要太长,控制篇幅,尽量精练,别啰嗦人看着像强调模型,看到的是多次重复,更省透。肯的做法是直接量化,比如输出三点,每点二十字内。 第三种浪费是格式要求写的过细,像先写标题,再空一行,再写导语,再写分点,分点前加圆点。最后再总结一句, 如果格式不是刚需,就只保留关键约束,因为模型最擅长补其常见格式,你只要说清结果,不必把排版过程全写出来。 真正审 token 的 方法可以继承四步,第一,先写任务动作,比如总结、改写、翻译、提取、分类。第二,补充必要对象,比如把这段产品介绍总结成三个卖点。 第三,给关键约束,比如面向小白,口语化,每点十五字内。 第四,能用势利就少讲抽象规则,因为一个短势利常常比五句解释更省。 还有一个常被忽略的点是,不要每轮都重写。固定要求,如果你一直在做同一种任务,向默认用中文。面向短视频口播,风格简洁,最好在第一轮说清后面直补变化部分, 否则你每次都在为同一段提示词重复付费。举个对比,低效写法是,我现在要做一个面向普通用户的视频文案,希望你用通俗易懂、简单清晰、不复杂的方式帮我总结下面内容,尽量控制篇幅不要太长。 高效写法可以直接变成把下面内容改成口播稿。面向小白,一百五十字内保留三个重点 意思,没少 token 往往更省。所以怎样写提示词最省? token 关键就一句话,删背景去重复,少过程多约束。能量化就量化。 提示词不是作文,而是指令你给模型的信息,越准、越短、越直接,成本更低,结果通常也更稳。

核心名词解释, token r a g agent m c p 是 什么? token r a g agent m c p 你 有没有刷到过这些词?感觉每篇 ai 文章都在用,但就是没人好好解释过。今天我们来读这篇文章,我保证看完你能跟任何人讲清楚这五个词。 好,从最底层开始。你打一句话给 ai, 他 不是像你一样一个字一个字读的,他先把你的话拆成一块一块的积木,这每一块就叫 token。 中文一个汉字大概对应一到两个 token。 你 每次用 ai 的 费用就是按这些积木的数量来计算的, 而且每个 ai 模型能同时记住的积木数量是有上限的,这叫上下文窗口。 gpt 四 turbo 能装一百二十八 k 的 token, 大 概就是一本中篇小说的量。超过这个上限,它就开始忘掉最早的内容,就像桌子太小放不下,就得把最老的东西推到地上。 不过光把文字拆成积木还不够, ai 还得理解这些词的意思,这就要用到 embedding, 说白了就是给每个词标上一个羽翼。地图的坐标。 猫和狗在这张地图上挨得很近,因为都是宠物,猫和汽车就离得很远。这样 ai 搜索时找的是意思相近的内容,而不只是你打的那几个字。 那问题来了, ai 不是 什么都知道吗?其实不是,他的知识有个截止日期二零二三年训练的模型,二零二四年发生的事,他完全不知道。 r a g 就是 解决这个问题的,让 ai 考试的时候可以翻书,先去知识库里解锁,再把查到的内容拿来回答你,这叫解锁增强生成。 这个设计真的很聪明,它解决了 ai 最让人头疼的问题。胡说八道。用了 r a g 之后, ai 的 回答能追溯到具体是哪篇文档。说的就像考试答案旁边标了参考书页码。企业把内部文件接进去, ai 客服就能准确回答公司专属问题,而不是给你一堆通用废话。 说完二 a g 再来看 agent。 普通 ai 聊天只是一问一答,但现实任务往往需要好几步,先查资料、再分析,再发邮件、再记录结果。 agent 就是 能自己把这些步骤都做完的 ai, 它有四个核心能力,感知任务、规划步骤、调用工具、行动、检查结果、自我纠错。 说白了, l l m 就是 agent 的 大脑,负责想清楚该怎么做,搜索网页、发邮件、查数据库,这些工具就是他的手和脚,负责真正去执行原来要人工好几小时的任务, agent 几分钟就能搞定。这才是 ai 真正有用的地方,不只是说,而是做。 这里有个有意思的地方。 agent 它要用各种工具,但 m c p 出现之前,每个 ai 平台接同一个工具,都要单独开发一套,就好像每个电器都有自己的专属插头。 mcp 就是 ai 世界的 usb 接口工具,开发者只需要按规范写一次,所有支持 mcp 的 平台都能直接用,再也不用重复造轮子。 mcp 是 antropics 在 二零二四年底提出的,到二零二六年三月, cloud、 openai、 google 这些主流平台都已经支持,数百个常用工具也完成了适配。 这个速度说明什么?说明大家都觉得这个标准值得,跟有点像当年 app store 出现标准化之后,整个生态的创新就爆发了。 那说到这儿,我觉得最值得说的一点是,这五个词不是各自独立的,它们是一条流水线。 ai 先用 token 读懂你的字,用 embedding 理解你的意思,用 r a g 查最新资料,再由 agent 规划并执行任务,最后靠 m c p 调用各种工具,每一层都建在上一层的基础上,缺了哪块都转不起来。 不过说实话,这套技术现在还不完美,而 ag 如果知识库整理的乱七八糟,查出来的内容就会偏,最终答案也会跑偏。 a 阵做多步骤任务,一旦中间某步出错,后面全错,纠错能力现在还不够强。 token 费用和窗口上限也是实际用起来绕不开的坎儿。这些问题大家都知道,也都在解决好收个尾。 token 是 积木, embedding 是 坐标, r a g 是 图书馆, agent 是 会做事的手脚, m c p 是 统一插头。这五个词串在一起,就是现在 ai 系统运转的基本逻辑。也许不久之后,你身边每一个 ai 工具里都有这五个东西在默默配合,只是你以前不知道它们叫什么名。

不用查,不用搜,每天都有孩子听得懂的新闻,关注我,育儿更省心!认识数字世界的小凭证 token 小 朋友们,你们有没有和 ai 聊天机器人聊过天呀?问他怎么画一只可爱的小猫,他马上就能给出答案。 问他彩虹为什么有七种颜色,他也能娓娓道来。那 ai 到底是怎么听懂我们的话,又怎么想出答案的呢?这里面就藏着一个超有趣的小秘密,磁源 token 最近,全国科学技术名词审定委员会给 ai 领域的 token 定了官方中文名,就叫磁源。他就像我们搭积木时用的小积木块, ai 处理我们的化石, 会把长长的句子拆成一个个小小的词源,再根据这些小积木的意思来理解回应。比如我们说我想折一只纸飞机, ai 就 会把这句话拆成我想折一只纸飞机这些词源, 然后根据每个词源的意思告诉我们折飞机的步骤。词源是 ai 理解语言的基础单位,就像我们学汉字要从一个一个的字开始, ai 学语言也得从词源开始。不同的语言词源也不一样哦, 中文的词源多是词语或字,英文的词源可能是单词,也可能是字母组合。而且词源还有个小特点,相同的词在不同句子里可能会变成不同的词源。 比如苹果,在我吃苹果里是一个词源,在苹果手机里也是一个词源,但 ai 会根据周围的词源判断它的意思。有了词源, ai 就 能精准理解我们的需求啦。 小朋友们在和 ai 学习工具互动时,词源会帮他准确捕捉我们的学习问题,给我们讲有趣的知识。和 ai 绘画机器人聊天时,词源会把我们说的可爱的小猫,彩色的云朵拆解开,画出我们想要的画面。 如果让你用 ai 画一幅画,你会说出哪些词语,让词源帮 ai 画出你心中最棒的画面呢?点赞收藏不丢失!关注我,陪孩子一起看懂这个世界!

哈喽,各位朋友大家好,我是 ai 观察员小徐,今天来跟大家聊一个 ai 里超基础但又超重要的概念,偷坑。其实想理解偷坑,咱们先回到小学的基础知识点,断句。大家看这句话,今天你吃饭了吗?咱们普通人理解这句话,会自然把它拆成今天你吃饭了吗?这样拆完语义清晰,咱们能准确理解每一部分的意思, 但是如果把这个句子拆分成今天你吃饭了骂,就非常的难理解。 ai 理解人话第一步其实和咱们的断句思路很像,也是先作分词,把一句话拆成一个个小单元,就像把今天你吃饭了骂拆成今天你吃饭了骂。而这些分词后的小单元,就近似于 ai 眼里的偷啃。 当然,这是为了方便大家理解的通俗说法。从定义上讲,偷啃其实就是 ai 眼里的文字小碎片,是 ai 处理语言时的最小单位, ai 所有的语言理解和生成都是基于这些小碎片来完成的。 那投坑具体咋计量呢?给大家两个实用的参考标准,记下来就行。在中文里,大概一个投坑约等于一点五个汉字。英文里,大概一个投坑约等于四个字母,或者说半个单词。 平时大家随口说一句话,打一段文字背后都能换算成对应的投坑数量,这就是 ai 的 语言计量单位。讲到这,可能有人会问,为啥 ai 非要搞出投坑这个东西?直接看文字不行吗?当然不行,投坑对 ai 的 运作,对咱们使用 ai 工具都有实实在在的影响,主要体现在三个方面。大家一定要知道, 第一, ai 的 算力是按 tock 收费的,不管你用查找 gpt、 豆包还是其他的大语言模型工具,后台的计费逻辑都是按 tock 来算的。你输入的文字, ai 给你回复的内容都会换算成 tock。 tock 数量越多,对应的成本费用也就越高。简单说, tock 就是 ai 服务的计价单位。第二, ai 模型有 tock 长度限制。 每个 ai 模型都有自己的上下文窗口,常见的有八 k、 幺六 k。 偷看啥意思呢?就是 ai 能同时记住处理的文字碎片是有上限的,一旦你的提问对话内容超过这个偷看数, ai 就 会记不住前面的话,回答也会出问题,这也是为啥有时候和 ai 聊太久,说太多,他会答非所问的原因之一。 第三, ai 回答的长短由偷看决定。咱们和 ai 互动时,输入的文字会算偷看, ai 给我们的回复也有对应的偷看上限。简单说,模型能生成的回答篇幅 早就被 token 数量定好了,这也是为啥有时候我们让 ai 写长文,它可能写一半就停了,本质就是触碰到了 token 的 限制。好了,今天关于 token 的 ai 基础小知识就给大家讲到这,如果有其他问题,评论区留言,我们下期再见!

嘿,朋友们,今天咱们来聊一个特关键,但很多人又搞不太明白的概念, token。 你 要是想看懂 ai 的 成本,速度,还有它的能力边界,那搞懂 token 就是 你的第一步。来,咱们把它掰开了,揉碎了,讲清楚。来, 问你个问题,你跟 ai 聊天的时候,是不是觉得它跟你一样能看懂人工智能这四个字?嗯,其实吧,完全不是那么回事。在 ai 的 世界里,根本就没有什么文字,只有一堆拼来拼去的恶搞积木。 这种乐高积木啊,它有个学名叫做 token, 中文叫词源,你就可以把它理解成 ai 思考和说话的最小零件。记住这个核心啊, ai 不 认识字,它只认识 token。 好, 那问题来了,这块积木到底是个啥样?它跟我们平时说的一个词是一回事吗?你看,这就有点意思了。 从我们的角度看, unhappiness 是 一个完整的词,对吧?从 ai 的 角度看,他会很聪明地把这个词分成三块积木。 unhappy 和 ness, 中文也一样,人工智能,他可能会拆成人工和智能这两个头衔。这样做的好处是什么呢?就是模型会变得更加灵活,技能 word, 常用词,也能通过拼接去理解他那些他没见过的新词。 既然 token 这么神奇,那它们到底是怎么被生产出来的呢?这家提到一个算法,叫做 b p e 字节对编码算法。现在大名鼎鼎的 g p t 系列模型,用的主要就是这种方法来制造 token 的。 它的生产逻辑说白了简单又高效。第一步,先把一整篇文章打造成最最基本的单个字母或者汉字。第二步,在这里面找,看谁和谁最长挨在一起,比如 a 和 n 老是同时出现。第三步,好, 那就把 a n 合并成一个新的积木,一个新的 token。 最后一步,不停地重复这个合并过程,直到 token 的 仓库里装满,比如装满了五万块不同形状的积木为止。 好了,了解了 token 是 啥,也知道它是怎么来的了,现在咱们聊点最实际的,这东西为什么这么重要?它和我们每个用 ai 的 人到底有啥关系?重点来吧! token 可以 说是 ai 世界里的硬通货, 首先,它决定了你的钱包,你每次用 ai 服务花的钱就是按你输入和输出了多少个 token 来算的。其次,它决定了响应的快慢。咱们常说这个模型快不快,衡量指标就是它每秒能吐出多少个 token。 最后,它决定了记忆力, ai 能进入多少你之前的对话,它的上下文窗口容量,也就是用 token 的 数量来算的。 没错,你每一次和 ai 互动,背后都有一张用 token 计算的账单。咱们来看一个真实的例子,你就能感受到所谓的 token 效率是怎么影响钱包的。你看这张图,两个模型, deep seek 账面单价是零点二八美元,每百万 tokens g l m four, 它的账面单价是输入,输入是零点一五美元,它的输出是零点六亿美元。 再一看 deepsea 是 不是要比 glm 四便宜多了?但如果你观看标价就做决定的话,那很可能就要掉进坑里了。 咱们再来看外星人干同一个活,跑一千次任务下来, glm 大 约用了八十二万个 token, deepsea 用了快一百五十万个,这下你发现了吧,虽然 g l m 单价贵,但因为它用的 token 少,效率高,最后算下来总成本几乎没差,这就是核心差异,干同样的活, g l m four 能用少百分之四十五的 token, 这说明它的回答可能更精炼,绘画更少。 所以大家一定要记住,一个关键节目的 token 的 效率往往比 token 的 单价更重要。我给大家总结了以下三点,记住, token 是 ai 计算的基本单位, token 的 数量直接跟你的钱包挂钩,选模型时别观看单价, token 的 效率更关键。 所以下次你选 ai 服务,可以先拿个小问号考考看哪个消耗的 token 更少。平时写提示词也尽量简洁精准一些,少点废话也能帮你省下不少 token。 最后,有一个开放性问题给大家思考,既然 token 是 ai 的 语言,那你想想,当 token 变得越来越聪明以后,他们会不会为了追求更高的 沟通效率,干脆后面一种我们文外完全听不懂,但他们之间交流起来超高效的构想语言呢?这可不只是科幻片语的细节,已经是科学家正在研究的方向了。关于这个,你怎么看?

今天我们要讨论的呢,就是在人工智能领域,特别是自然语言处理这个领域非常重要的一个概念叫做 token。 对, 这个 token 到底是什么东西?为什么它会影响到 ai 的 表现,包括成本以及效率?没错,这个其实是一个很多人在跟 ai 互动的时候都会忽略的一个关键点。对, 那我们就直接开始吧。咱们先来说说 token 它到底是个什么东西,以及它在 ai 的 这套认知逻辑里面扮演一个什么样的角色。为什么 ai 要把我们的这些文字拆成 token, 而不是直接像人一样一个字一个字或者一个词一个词的去理解呢? token 其实可以说是 ai 专用的最小文字单位哦,就不管是中文的汉字,还是英文的单词或者各种标点符号, ai 都要先把它们拆成一个一个更小的,这种 token 才能去认,去思考,甚至去记忆。所以说 ai 其实它看到的文字和我们看到的文字是完全不一样的,是吗?完全没错,人类可以一眼就识别这个汉字或者单词,但是 ai 它只能处理这些 tiny 的 token 啊,这是因为 人类的语言实在是太多样了,你想想,汉字有八万多个,英语单词也有上百万,还有各种符号,如果让 ai 一个一个字去处理的话,它的内存和算力根本扛不住。对,所以 token 其实就像是把所有的这些文字都统一标准化,切成了同样大小的小碎块。嗯,这样的话 ai 处理起来会快很多,然后也很省内存,同时成本也降低了。 所以 token 其实就是 ai 的 数据压缩包和加工原料。明白了,那 token 和我们实际的文字之间是怎么换算的?就是一个 token 大 概会对应多少个汉字或者多少个英文单词呢?其实这个换算关系也不是特别的复杂啊,在中文里面的话,基本上就是一个汉字对应一个 token, 哦,比如说你好,就是两个 token, 我 今天上班好累,就是七个 token。 嗯,非常的直观。那英文里面也是这样吗?就是一个单词一个 token 吗?英文的话就稍微有点不一样了,就是 一般的短单词是一个 token, 比如 hello 就是 一个 token, i love you 就是 三个 token。 但是如果是那种特别长的单词,比如说 supercatfragileistic spiracles, 它就会被切成两到三个 token。 嗯,对,但是这些都只是估算啊,就大部分情况下 误差不会超过百分之十,就没有说一一对应的。好的,那为什么我们跟 ai 聊天聊到一定长度之后,它就会不记得前面的内容了?或者说为什么有时候我们发一个很长的文档,它就直接给我们报错了?这个跟 token 到底有什么关系?对,这个其实就是因为每一个 ai 它都有一个固定大小的记忆盒子, 我们叫它上下文窗口哦,然后这个盒子呢,是用 token 来计算容量的,那不同的 ai, 它的这个盒子的大小也是不一样的,有的可能是四 k token, 有 的可能是八 k token。 那 高端一点呢?可能会到一百二十八 k, 甚至两百五十六 k token。 嗯,就你每发一句话,或者每发一段文字,它都会被拆成 token, 然后丢到这个盒子里面,所以就说这个盒子一旦被 token 装满了, ai 就 要开始删东西了,是吗?是的,就是一旦这个盒子满了之后, ai 就 会把最早进来的那些 token 给删掉,腾出空间来装新的内容。 所以这就是为什么你会聊着聊着发现,哎, ai 突然不记得你们最开始在说什么了,或者说你发一个很长的文档,它就直接给你报错,说内容过长, 嗯,那就是因为它的这个记忆盒子已经被 token 塞满了。哦,我懂了,那就是说这个 token 的 多少,到底是怎么影响 ai 的 这个记忆能力和它处理长文本的表现的。简单来说就是 token 上线越高, ai 能够记住的对话内容就越多。嗯,那它自然也就可以处理更长的文章或者书籍。 比如说这个一百二十八 k 的 token, 就 像一个很大的盒子,可以装下这么多发光的方块,那它就可以装下一本厚厚的书,然后在你需要的时候就可以翻到前面的内容,而不会说像那种小容量的,它就只能记住几页纸,然后就忘了原来是这样。 那我们接下来要聊的就是 token 是 怎么影响 ai 使用的费用的。就比如说,我们在使用一些付费的 ai 服务的时候,这个 token 到底是怎么来计费的?它是分输入和输出吗?是的,大部分的这种付费的 ai, 它其实都不是包月或者包年这种,它是你每用一次就会按照你这次对话所产生的 token 数来实时计费的。嗯, 然后这个 token 呢,它又分输入和输出,就是输入 token 是 要计费的,然后 ai 给你回的这个它也是按 token 来计费的,而且一般来说 ai 回复的这个输出 token 的 单价还要更贵一些。所以我们在使用这些付费 ai 的 时候,有没有什么办法可以通过管理 token 来帮我们节省一些费用呢?呃,有几个小技巧吧,就比如说你在提问的时候,尽量的直击重点, 把那些没有用的废话都删掉,然后还有就是你这个对话如果已经聊完了,就及时的把它清掉,不要让这个上下文越来越长,因为它也是会累计 token, 然后算钱的。嗯, 还有就是你可以在你的 prompt 里面就明确的告诉 ai 说你要简短的精准的回答,这样的话它就不会给你输出一大段,然后让你花冤枉钱。 好的,然后咱们展开聊一下,就是 token 是 怎么影响 ai 的 这个响应速度和用户体验的。就是我们经常会觉得有些 ai 它回复的特别快,有些 ai 它就半天蹦不出一个字儿,这个跟每秒生成的 token 数到底有什么关系?其实我们感受到的这个快慢它背后就是这个 ai 每秒能吐出来多少个 token 哦,你比如说有些 ai 它的 tps 能到一千多, 那你就感觉你每打一个字,他马上就给你回,非常的流畅,就像跟一个反应特别快的人聊天一样。但是有些他可能就只有几十的 t p s, 那 他就是一个字一个字慢慢的蹦,那你就会觉得等的很着急,而且你思路都被他打断了。这么说的话,是不是就是说这个 token 的 生成速度越快,我们跟 ai 的 互动就会越自然,越流畅。对,就是这个 t p s 越高, 这个 ai 就 会给你一种一气呵成的感觉,你根本就不会觉得有任何的延迟或者卡顿。嗯,那你的整个体验就会非常的顺滑。然后我们再来说说,就是 token 是 怎么决定 ai 任务的复杂程度和它的这个处理上限的? 就这个 token 的 容量到底是怎么影响 ai 去写报告、写小说、写论文这些东西的?是这样的,就是每一个你想要让 ai 完成的任务,它都是需要一定的 token 来支撑的哦,比如说一个四千 token 的 这样的一个限制, 那他可能就只够写一个短篇或者说简单的问答,那你想要让他写一个稍微长一点的,比如说几千字的报告,那可能八 k 的 toc 就 会比较合适。那你如果是想要 ai 来帮你通读一整本书,然后写一个十万字的小说,或者是说写一个几万字的论文,那你肯定就需要一百二十八 k 这样的一个大 toc 才能够 hold 住。对, 所以就说这个 token 就 像是 ai 的 一个燃料,它越多, ai 就 可以干越多越复杂的事情。没错没错, token 其实就是 ai 用来处理信息的燃料。嗯,你的这个容量越大,能燃烧的信息原料就越多,那它最后能给你吐出来的这个成果也就越复杂,越完整。对,所以 token 多了, ai 才能扛得住这种长篇大论的重活。懂了 这个芯片的算力和 token 到底是怎么配合来影响 ai 的 这个思考速度的?可以这样比喻啊,就是 token 是 这个米粒,然后芯片就是这个位位的容量越大, ai 每秒钟能够消化的 token 就 越多,它思考的速度自然也就越快 哦。比如说手机芯片,它可能就是一个小位,它每秒可能就只能处理几十个 token, 那 电脑的显卡就会大一点,它可能能处理几百个,那服务器的芯片就更夸张了,它可能就是上万的 tps 这种大胃王。 所以说这个算力基本上就直接决定了 ai 它吃 token 有 多快。所以说,芯片的这个算力是不是直接就决定了有多少用户可以同时跟这个 ai 进行流畅的对话? 对,这个是很直接的,因为,呃, token 它是 ai 处理信息的最小的单位嘛。然后芯片的性能就决定了它一秒钟能生成多少个 token 哦。比如说一个芯片,它一秒钟可以生成一万个 token, 然后每个用户要想体验流畅的话,它可能每秒钟需要二十个 token, 那 这个系统就可以同时支撑五百个人在线。 所以芯片越强,它每秒钟生成的 token 就 越多,它可以服务的人也就越多,大家就都会觉得很快很流畅。明白了之后,咱们来看看一些关于 token 的 常见误区。就很多人在使用 ai 的 时候,对于 token 的 计算计费,包括它的作用都有一些错误的理解,那常见的有哪些误区?比如说很多人会认为 token 的 数量就等于汉字的数量, 就一个字一个 token, 嗯,其实不是的, token 它只是一个约等于汉字数的一个计算值,它并不是一个精确的对应关系。还有别的误区吗?就除了这个 token 和字数的关系之外,还有人觉得只有 ai 回复我的时候才会消耗 token, 其实不是的,就是你输入的问题和 ai 输出的答案都是要消耗 token 的。 嗯,然后还有人觉得 token 越多说明这个 ai 越聪明,其实不是的, token 它只是代表了这个 ai 能够记住多少上下文,它跟这个 ai 的 智商是没有关系的。 对,然后还有一些人会觉得标点符号、空格表情这些东西是不算 token 的, 其实他们都是算的,就这些符号也是会占 token 名额的。好的,那我们在实际使用 ai 的 过程当中,有哪些方法可以通过合理的去管理 token 来提升我们的效率,并且节省我们的费用呢?比如说你日常跟 ai 聊天的时候, 你可以把你的问题尽量的控制在五百字以内,然后你也不要一次性丢太多东西给他,嗯,你就保持在二三十句就清理一下对话, 这样的话就可以避免它的这个语境变得很混乱,同时也可以节省 token。 但如果是要处理那种很长的文章,或者说要写一个很长的东西呢?这种情况你就需要选择那种上下文窗口比较大的模型,比如说一百二十八 k 以上的,然后你把你的这个内容拆分成几个章节,分批次地发给 ai, 这样的话 ai 也会比较容易理解,然后你也可以节省 token。 那 如果你用的是付费的 ai 的 话,你最好就是把你的问题写得很精简,直接问你最关心的那个点,然后优先去获取那种短而精准的答案, 这样的话可以帮你最大限度的节省 token, 然后也可以帮你省钱。 ok 了,那今天我们聊了这么多关于 token 的 东西,它在 ai 里面其实就像是文字的米粒,它是 ai 用来认字说话记忆的最小单位。 然后我们也聊了 token 跟我们的这个实际的文字到底是怎么换算的,以及它是如何影响 ai 的 这个记忆速度、费用,甚至包括我们跟 ai 互动的体验的。 最后我们也给大家分享了一些非常实用的小技巧,就是如何在日常使用 ai 的 时候,能够通过管理 token 来提升效率,节省费用。好了,那这期播课就到这里了,然后感谢大家的收听,咱们下次再见,拜拜!拜拜!

你有没有遇到过这种情况,明明感觉自己没写多少字, ai 却告诉你超长了。你删了又删,改了又改, 最后勉强挤进去。但你始终搞不明白,它到底是怎么技术的?为什么一篇八百字的文章,在 ai 眼里可能是两千个字?这个问题的答案藏在一个你可能听说过,但一直没搞懂的词力 tucker, 今天我们用一条视频 彻底把它讲清楚。第一部分, token 到底是什么? token, 中文翻译叫令牌或词源,但在大模型的世界里, 你可以把它理解为 ai 阅读文本时的最小计量单位。我们人类阅读是暗字或词来计数的。你好,是两个字,你好,世界是四个字,但 ai 不 一样,它不认字,它认的是 token。 一个 token 可能是一个完整的单词,也可能是一个单词的一部分,甚至可能是一个标点符号。具体怎么切分, 取决于大模型使用的分词器。举个例子, chat gpt is amazing 这句话,在 i i 眼里,它可能会被切分成这样, chat 一个 token g, 一个 token pt, 一个 token is 一个 token。 注意,空格也算 amazing 一个 token, 总共五个 token, 你 发现了吗? 一个完整的单词 chat gpt 被切成了三个 token, 而一个空格也占一个 token。 这就是 i i 的 阅读方式,它不读字,它读碎片。第二部分,中文 token 为什么更费钱?如果你是中文用户,有一个坏消息要告诉你。 同样的意思,中文消耗的 token 比英文多。为什么?因为中文的信息密度更高,但分词器对中文的处理方式相对粗糙。画面演示,我爱吃苹果的分词我爱吃苹果这五个字在大多数中文分词器里可能会被切分成,我一个 token, 爱一个 token, 吃 一个 token, 苹果一个 token, 总共四个 token, 五个字等于四个 token, 比例接近一比一。但如果是英文, are like eating apples are 一个 token like 一个 token eating 一个 token apples 一个 token 也是四个 token。 看起来一样。问题在于,表达同样的复杂内容时, 中文需要的字数往往比英文的单词数更多,但分词器对长词的切分又可能产生额外开销。综合下来,中文对话的 token 消耗通常比英文高出 twenty percent 到 fifty percent, 这意味着什么?意味着用中文和 ai 聊天,同样的上下文长度,你可能花得更快。 第三部分,上下文窗口 ai 的 短期记忆理解了 token, 就 能理解另一个重要概念,上下文窗口每个大模型都有一个最大 token 限制,比如 gpt 四的上下文窗口是一二八 k token, cloud 是 二零零 k token, gemini 是 em token 这个数字决定了 ai 的 短期记忆 有多长。当你和 ai 对 话时,每一次你输入的内容加上 ai 回复的内容,再加上系统提示词,所有这些加起来的 token 总数不能超过模型的上限。一旦超出, ai 就 会忘记最早的那一些对话内容。这就是为什么有时候聊着聊着, ai 突然失忆了。 不是他故意的,是你的 token 窗口满了,最早的对话被挤出去了。用一句话总结, token 就是 ai 的 记忆容量。第四部分, token 怎么算钱?如果你用过 ai 的 api, 你 会发现它的计价方式很特别,按 token 计费, 而且输入和输出价格不一样。以 gpt 四 o 为例,假设价格是输入每百万 token 二点五美元,输出每百万 token 十美元。为什么输出更贵?因为思考比阅读更费力。 ai 生成内容的过程需要更多的计算资源来算一笔账。三体三部曲 总共约九十万字,按照中文一比一点五的 token, 如果让 ai 把这三本书读完,输入费用约等于一百三十五万, 除一百万乘二点五,约等于三点四美元。如果让 i i 根据这三本书写一篇一万字的读后感,输出费用约等于一点五万 token, 除一百万乘十,约等于零点一五美元,加起来不到四美元。这样一看, token 计价其实并不贵。但如果你做的是大规模应用,比如每天处理百万级用户请求, token 就是 一笔需要精打细算的成本。第五部分,普通人为什么要懂 token 有 什么用? 至少有三个地方用得上。第一,省钱。如果你再用付费 a p i 优化提示词的长度,能直接降低你的成本。 同样的任务,用更精炼的语言表达,少用几百个 token, 积少成多。第二,避免失忆。当你需要 ai 处理长文档,比如一整本书、一份年报、一份合同,了解 token 限制,能帮你提前做好分段处理,避免聊到一半 ai 断片。第三,提升效果。 研究表明,把重要信息放在提示词的开头和结尾,更容易被 ai 记住,因为 transformer 架构对两端的关注度更高, 中间的 token 容易被忽略。懂一点 token, 你 就能更好地指挥 ai。 第六部分总结 token 是 ai 时代的度量衡。 token 是 什么?它 是 ai 的 计量单位,是 ai 的 记忆容量,也是 ai 服务的计价货币。它不是汉字,不是单词,而是 ai 自己的一套语言系统。理解 token, 你 就能理解为什么 ai 会失忆, 为什么中文对话更费钱,为什么你的提示词需要精心设计。更重要的是,理解 token 是 普通人进入 ai 时代的第一课。当所有人都在谈论大模型,谈论 a g i 时, 你只需要搞清楚这一个概念,就能比百分之九十的人更懂 ai 到底是怎么工作的,以及我们该怎么用好它。

为什么强如 g p t 五点四也数不清 strawberry 的 字母 r? 为什么最近科技圈都在讨论养龙虾?答案啊,都指向同一个词, token i 并不认字。在他的眼里啊,世界是由羽翼积木组成的,他看不到积木内部的零件,只能通过预测概率来猜下一个积木是什么。 这就是 token, 它是 ai 思考的最小单位。在主流的大语言模型当中,子词分词是常用的策略。其中 strawberry 通常被拆分为两个主要 token。 在 ai 的 眼中啊,里边的字母是汉字的。这就是为什么你问 ai, strawberry 有 几个 r, 它总是数错数。当你输入一段话给 check gdp 或者 zip 时,它并不是直接看懂这些文字,而是把整段文字拆分为一个一个 token。 这些 token 可能是半个单词,一个标点或者两个汉字。每个 token 啊,都可能被转换成一个数字编号,再变成一堆数学向量,最后让计算机 进行计算。像最近爆火的开源智能体 open core, 就 让大家第一次感受到了 token 焦虑。如果你只是跟豆包聊天,一次消耗几百个 token, 成本很低。但是像龙虾这种能干活的智能体啊, 它的逻辑是指数级爆炸的,它每做一个决策,都要反复地翻看历史记录,调研外部工具。你让它自动做个 ppt 的 token, 费啊,可能就要花上三位数。随着 ai 大 模型的发展,为了竞争市场,一方面以 deepsea 为代表的厂商通过技术优化实现了低价, 其他家也相应的下调了推低成本。但另一方面,如 gbt、 五点二等旗舰模型,为了覆盖 hbm 成本,反而上调了部分 api 价格。在二零二六的 gtc 大 会上,英伟达就正式定义了 tock 经济学。 toc 成为了全球经济的新型初级商品,地位等同于工业时代的电力和石油。未来的数据中心不再是机房,而是 toc 工厂。衡量一家公司牛不牛,不在看服务器有多少,而是看每瓦他电力啊,能产生出 多少 toc。 ai 时代未来老板除了发工资,可能还会给你一份,年度 toc 的 员工将能调用成 五百上千个 ai 代理。一个人就是一个高效团队,人类创造价值的基本方式,从体力的付出、简单的搜索,转向了大规模、低成本的智能生成。你准备好你的 to 肯预算了吗?

很多人知道 token, 但不知道它为什么重要。一句话解释, token 是 ai 计费的最小单位,不是按字也不是按句子,而是按切分后的计算单位。举个例子,一句话会被拆成多个 token, 英文更细,中文相对更粗。 关键点来了,你的成本等于 token 数量乘以单,而 token 来自三部分,一输入内容。二、上下文历史。三、输出内容。所以你为什么用着用着变贵?因为你带着历史在聊天。优化思路只有一个,控制 token 长度。

为什么问 ai 同一个问题,每次得到答案却不一样?原因啊,就在于偷看。今天啊,我用最简单的话给你讲明白, ai 并不是先想好一整段话,然后一次性的发给你,他是边生成边想,也就是每一步他只预测下一个最可能的偷看。比如你说我今天想吃, 可以是火锅,米线、面条在语法上都合适, ai 就 在这里边随机选择一个返回给你,这个随机就是 ai 每次回答不一样的根本原因。第二,偷看不是汉字,也不是单词, 它是 ai 理解语言的最基本单位。排举同样的例子,我今天想吃火锅,那就会被拆分成我今天想吃火锅这四个偷看。因为偷看可以是一个字, 也可以是一个词。所以啊,在中文里,大约一个偷看等于一点五个汉字标点符号也都算偷看。 所以,当你问 ai 的 时候,你所说的每一句话都会被先拆分成一段一段的偷看。 ai 啊,然后再根据这些偷看去预测下一个最可能的词。说白了,有点像你手机的输入法,根据你书的内容去预测下一个字是什么字。怎么提问才能让 ai 不 跑偏呢? 其实啊,就两句话,给身份和打个样,你不要直接问, ai 说给我做个攻略。 要说你是一个拥有十年经验的金牌导游,请帮我做个攻略,你想要爆款文案,直接把你的爆款给他,告诉他按照这个格式和语气去写,听懂的评论区扣一,关注我,大白话教你玩转人工智能!