哈喽,大家好,我是小英,就在今天的早上,新华社刚刚把 token 的 中文名给定了,那中文名是词源,哎,为什么是这两个字呢?为什么是这样翻译呢?来,我给大家解释一下。 首先啊, token 不是 随便的字母,它是有意义的语言片段,可以是字,可以是词,也可以是子词,所以说用词的这个字,那么源呢,是最小的单位,基本单位的意思一起词源就是 ai 处理文字的最小语义单位 啊。我觉得这个翻译想了想还是挺妙的哈,那么你看一下其他的这个呃,可能的备选项,比如说令牌呀,标记呀,模圆和质圆呐, 它的覆盖性好像都差了一下,就它已经有了适用的场景了。那么所以说哈,我觉得,呃,这个官方的翻译是很给力的,我给他点赞。大家以后再看到词源就知道这是 ai 拆成文字的最小单位了,是不是准确又好记呢?
粉丝6687获赞625

为什么大模型不直接读懂汉字?为什么大模型不直接处理单词?为什么说大语言模型处理的是 token? 今天我们来聊一聊 token。 在 大模型眼里并没有文字这个概念,不管是我们输入的聊天内容,还是它的回答, 中间都必须经过一个关键步骤, tokenizer 分 词器,简单来说,它的作用就是把文字转化成 token。 数字编号为什么要这么麻烦?因为电脑只认识零和一。如果直接用字母训练模型,不仅要处理更多的数据, 还要先学会把这五个字母拼成苹果。这个概念效率太低了,所以聪明的人类发明了词典,例如 一代表 apple, 二代表 banana, 三代表 peach, 这些数字就是 token。 token 仅仅是单词的对应吗? token 和单词并不是严格的一对一,为了让模型认识没见过的词, tokenizer 还会像拼积木一样拆分单词。比如 highest 可能会被拆成 high 加 est 最高级。哪怕是自己创造的词 goodest, 模型也能通过拆解理解它的意思。常见的 tokenizer 有 哪些?如果我们询问大模型今天的天气怎么样?每家大模型的拆分方式都不一样,千问系列用的是 q 问。 tokenizer 库,它将这句话拆分为今天的 加。 tiktok 库,它将这句话拆分为今天加的 加天气、加怎么样加问号五个部分。不同的算法会得到不同的拆分效果,虽然算法不同,核心功能都是文字到数字。为什么以前大模型写中文慢?这就要看词表大小了。 gpt 三的词表很小, 很多,省略汉字,一个字就要拆成好几个 to, 处理起来很慢。而最新的 gpt 五词表扩充到了近十五万, 囊括了绝大多数中文词汇,所以现在他处理中文的速度快了很多。 tokenizer 就 像是把人类语言翻译成机器语言的 欲处理,翻译官将文字变成数字。接下来大模型就要把这些数字扔进那个超级复杂的神经网络里计算了。科技不玄学,算力有尺度,关注我们看懂数字背后的硬核世界。

最近 togan 到底怎么翻译?在互联网上引发了一波热议。起因是一条来自国家官网的新闻,相当于官宣了 togan 的 意法。词源 一时激起千层浪,先别急着站队,我们先把 togan 这个词捋清楚。 togan 本意是象征,比如情人节送人玫瑰就是 a token of love, 爱的象征。在不同领域中,它隐身出了不同的含义。玩阶级时,那种圆圆的 token 意为游戏币。计算机安全领域中的 token 意为令牌。加密世界里的资产单位意为代币。到了 ai, 这意为词源。那么这个词源到底怎么去理解呢? 根据官方的解释, token 是 大模型处理信息时的最小单位。大模型处理一个文本时,不是整段整段的读, 而是会把它拆成一个个更小的单元,再逐步处理。从这个角度来看,词源这个翻译其实在强调它既跟词有关,又是一个基本单位源。这有点理工男的风格啊,不浪漫,但是也确实抓住了本质。不过一些网友不太买账啊,有人说词源太别扭了,并且提出了像智源等更有科技感的议法。 也有人觉得,不管叫什么,有中文名字总是一件好事。因为这一波 ai 浪潮里,大量底层概念都是来自于英文世界。什么 chatbot、 prompt agent、 token, 如果不进行一轮中文重构,那么这些词就会变成一种圈内的黑化,懂的人越懂,不懂的人呢,直接劝退, 久而久之,就会形成一个隐形的门槛,把大量普通人挡在门外。正如当年我们把 laser 翻译成激光,把 computer 翻译成电脑就挺成功的,既好记又突出了特点,还极易传播。所以给 token 找一个好的中文名啊,本质上是在做一件更大的事, 是用我们的母语去构建数字世界的底层认知。但另一派的观点也很鲜明,就是 togel 作为一个外来的专有名词,没必要用中文硬翻。这个评论倒让我想起了 dna 这个说法,貌似没有简洁的译法,但也不妨碍大家交流使用,对吧? 这样争论还挺有意思的,它不只是一个词的翻译问题,背后其实藏着一个更大的命题,就是我们要不要为新技术建立一个属于自己的语言体系呢?词源或许不是一个最优解,但是它至少是一个开始。你接受词源这个翻译吗?还是更愿意直接说 token 评论区聊聊?

token 翻译成中文叫什么?叫词源,是模型处理文本的最基本单位。 token 和字呢?有什么区别? token 呢,可以是一个字,一个词,甚至半个字,那这是谁规定 的?是模型看了大量人类文字统计出来的,这样表达呢,更省事。常见的字和词就用一个 token 表示,其他的就用多个 token 拼接。 一个 token 到底是多少钱? deep 呢?输出一百万 token 呢?约等于三本新华字典只需要三块钱, gpt 五呢更贵,超过九十块 token 和上网流量收费是一样的道理吗?不是的, token 收的是计算费,是生产成本,而流量收费呢,是搬运费,不是一回事。为什么养龙虾要烧 token? 是 因为龙虾要用大模型思考和回答问题,因为大模型按 token 收费,所以就说烧 token。 本地部署大模型是不是就不用烧 toon 了?还是要用到 toon, 因为 toon 机制本身和部署方式无关。本地部署呢,不需要按量付费,但电费得自己掏,算上硬件成本不一定划算。如果我把一段话复制粘贴进去,是不是就算一次 toon 不是 文字越多呢?计算的输入 toon 数量就越多? 我问的问题很长,但答案很短,是不是只扣答案的 token 不是, 输了 token 呢?也要算钱?表情符号算几个 token 会不会比一个字还贵?常见的表情呢,是一个 token, 不 常见的会用两到四个 token 拼接表示。 deepsea 和 gpt 的 token 是 一样的吗? 不一样,互相不认识。 y, y, d, s 这种网络词是几个 token, 一 般拆成 y, y 和 d s 两个 token, 要是这个词足够火,也可能被模型当做一个整体。同样的问题,我上午问和下午问,输出的 token 数会不一样吗?不一样,模型输出具有随机性,每次输出的 token 数量不同。 那小龙虾帮我下载电影是否要按 token 计费?小龙虾思考怎么下载?打开下载网站,执行下载命令,这些都需要消耗 token, 但是下载电影本身不消耗 token, 因为电影不是大模型生成的, 电影是存在第三方服务器上,只消耗下载流量,不消耗 token。 为什么我和 ai 聊得越久,回复同样一句话,花的钱就越多? 模型是基于对话历史进行回答的,所以你所有说过的话呢,都会参与计算,计算成本就越高,这也是 ai 还需要按照输入 token 数量计费的原因。 怎么才能少用点 token 输入更少的提示词去掉?你好,请问这类废话规定模型输入长度,加一句五十字以内回答,但很有可能问题没有说清楚,回答呢也不够准确。如果前后问题呢?不相关也可以新开对话,避免历史对话参与计算。 托管是加密的密码吗?不是,托管只是一种文字编码方式,虽然你看不懂,但他并没有加密。 图片和文本的托管是一样的吗?不一样,图片会切分成很多小小的方块,每个方块呢?当做一个视觉托管,就像拼图一样。托管是为了收费而发明的吗? 不是,托管是技术发明,是为了能表达和能计算,只是计算的成本和托管数量正相关,所以就按照托管数量收费。我使用豆包没有付费啊。为什么说托管是收费的?大厂为了抢占市场让你免费使用,成本呢?暂时不用你出, 如果你是企业用户或者养龙虾就需要支付费用。我在一段话里疯狂敲空格, ai 是 视而不见还是会偷偷扣我的钱? 空格也算钱,虽然有的模型会把几个空格打包,大部分时候你多敲一个空格就再多烧一份算力。那 ai 产生的废话是不是能退费?不能,因为废话也是显卡辛辛苦苦算出来的。

token 这个词中文名该叫啥?网上已经炒炸锅了,有人说叫词源,有人说叫令牌,还有人说啊,干脆别翻,就叫 token。 token 到底是啥?为啥一直没有中文翻译呢? 其实呢, token 就是 ai 理解和处理文本的最小单位,它可能是一个字一个词,也可能是标点符号,只要让 ai 帮你干活,它就会消耗 token。 但如果说 token 没有中文翻译,那其实是一个非常大的误区啊, 人家几十年前就有名字了,在加密货币的领域啊,人家叫代币,在计算机的领域里,人家叫令牌。只不过啊,这些名字作为专业术语使用的人很少,而且呢,也并不符合现在 ai 行业的需要。所以啊,得有一个新名字。这时候就有人问了,那为啥争着要给偷看起中文名呢?在清华大学教授的嘴里,他都快成了关乎产业升级、技术落地的大事了。 原因呢,也很简单啊,在 ai 时代, tocan 太重要了。那我们现在在使用大模型的时候,也经常会把 ai 对 tocan 的 消耗量啊作为收费的依据。而前两天的时候呢,黄仁勋更是把 tocan 的 地位提高到了一个前所未有的高度。 在英伟达 gtc 上,老黄就说啊,过去几年里,人类的计算需求增长了一百万倍,换句话来说,就是 tocan 的 消耗量增长了一百万倍。而在未来呢,所有企业都有推理需求,都将为 tocan 付费。市场庞大, 谁能生产出更多的头肯,谁就更有价值。但头卡也不会凭空产生,需要由一个个的芯片、超节点、服务器、 ai 数据中心计算出来。所以啊,它还会推动历史上最大规模的计算基础设施建设。另外一位科技巨头呢,也拿出了行动。 在 t t c 的 同一天,阿里就宣布成立了 at h 事业群。千万告诉我,这个以 token 命名的事业群,在地位上跟阿里的云服务和电商都是并驾齐驱的。这就说明啊,阿里已经把 token 当成了企业的顶级战略资源,是由 ceo 直管的核心业务。 值得注意的是呢, token 不 光对企业有影响,更左右着东西方两个大国 ai 行业的走向。要知道啊, token 不 同于电力或者手机流量这些只有数量差异的资源,它还有等级之分呢。能力强的 token 呢,可以完成商业决策。能力差的 token, 那 就只能做做小学数学题了。所以呢, token 越强,价格越贵, 受制于物理因素的影响呢, tok 的 生产,它不光需要 ai 的 芯片,更需要耗电。在漂亮国和我们发电能力的差异下呢,漂亮国的 tok 定价普遍都是我们的四倍或者更高。 所以呢, openclaw 爆火之后,全球消耗 token 的 排行榜里啊,前五里有四个都是咱们中国的大魔镜。那 token 这么重要,那跟我们普通人有什么关系呢?那关系可大了啊,二零二三年,只有程序员玩得起 a p i, 才用得上 token。 但在二零二六年,六十岁的老人和十岁的孩子都在和 ai 聊天儿,默默消耗着 token。 像我自己,完全没有编程基础的小白,今年开始配置自己的大龙虾,开通了一堆的 a t i, token 的 消耗量那是直线上升,可以说呢, token 未来就像交电费、话费一样的成为我们生活当中的必需品,所以说啊,这么重要的一个产品,你觉得中文名该叫啥呢?

token 的 中文官方译名定了词源大模型时代。 token 一 指模型处理语言的最小语义单位,比如硬核派,在模型眼里就是硬核派两个 token, 也就是说模型理解世界是按语义单位来处理。从这个角度看,词源翻译得确实挺贴切,词的基本单元不就是最小语义单位吗? 在词源这个官方译名出现之前,大家其实已经给 token 想过一堆五花八门的中文名语源指词算点算 b 魔源,还有大聪明直接喊托肯,这个过程其实挺有意思的。从一堆民间叫法到最终官方定名词源,我们可能现场见证了一个技术概念在中文世界完成命名的过程。

token 是 什么?今天这期视频,我们把 token 彻底拆开来讲,先搞清楚它有几种以及各自是什么含义,再深入讲 ai 大 模型里的 token 到底是怎么运作的,以及如何帮你省钱。 token 这个词在计算机领域至少有两种完全不同的含义,很多人混淆就是因为没有先区分清楚。第一种语言 token language token 也叫 nlp token, 这是 ai 大 模型处理语言时的最小单位,是模型理解和生成文字的基本碎片, 我们今天重点讲的就是这种。第二种,身份验证 token, off token, 比如 access token、 jwt token, 这是一串加密字母串,用来证明你的身份和权限,相当于服务器给你颁发的数字门禁卡。两者唯一的共同点就是都叫 token, 这就好比苹果手机和苹果水果名字一样, 但完全是两个领域的东西。以后遇到 token 这个词,先看上下文,在 ai 和大模型的语境里,它是语言单位, 在登录 api 健全的语境里,它是身份凭证。搞清楚这个分类,你在这两个领域都不会再被绕晕了。接下来我们重点来讲语言 token。 在 ai 领域,特别是大语言模型 l l m, 像 chat、 gpt、 cloud、 gemina 一 类的系统里, token 是 模型看懂和写出语言的最小单位,它不是密码或凭证,它是 ai 内部真正处理文字的基本快,是模型理解和生成语言的原材料。 通俗的讲, token 就 像乐高积木,我们写一句话给 ai, 看起来是一个完整的句子,但 ai 不 会像我们一样理解整个句子,它会把文本拆成一个个小块及 token, 这些小块可以是一个完整的词,一部分词,甚至是一个符号或标点,每一块就是一个 token。 模型不是按人类的语法去理解,而是按这些 token 一 步步分析和预测下一个最可能出现的 token。 为什么要这样做?因为 ai 模型内部只能处理数字,不能直接看懂文字。先把文字拆成 token, 然后把每个 token 转换成一个数字 id, 再把这些数字送进模型进行计算和预测,这样模型才能理解上下文并生成回答。在实际使用中, token 还有两个非常重要的作用, 第一,它决定了 ai 能处理的内容范围大模型对话时有一个上下文窗口,就是说模型一次最多能看到多少个 token, 如果超过了这个限制,最早的 token 会被丢掉,这会影响模型理解整个对话。第二,它关系到成本和计费。 很多 ai 服务是按 token 计费的,包括你发送的输入 token 和模型返回的输出 token。 token 越多,成本越高。 那如何节省 token? 在 ai 模型使用中, token 是 直接影响成本和效率的核心指标,控制好 token 的 使用,能省钱又提升速度。下面是最有效的几个方法,帮你在实际使用时节省 token 消耗。一、精简输入内容,别把所有背景都丢进 prompt, 只把真正相关的信息留给模型,让每个 token 都有价值。缩短指令,去掉庸俗描述,可以显著降低 token 消耗。 精简上下文相当于少用 token。 二、限制输出长度,提前设定回答长度上限,避免生成宕长啰嗦内容,这样模型不会自动扩展答案,从而减少输出 token 数。 三、做缓存与复用对于重复查询或者经常用到的内容,可以先将结果缓存起来,后续类似请求直接从缓存返回,不再重新调用模型,从而节省大量输入和输出 token。 四、选对模型分阶段处理任务, 不同模型价格差异巨大。把大任务拆成两步走,先用小模型或简化逻辑生成摘药或关键内容,然后再用更强模型处理简化后的内容, 这样整体消耗的 token 更少。五、只保留重要上下文历史对话长篇内容会不断重复发送给模型,快速占满 token 上线,所以只保留与当前任务直接相关的上下文就够了,其他历史可以省略或者按需摘药再传入。 最后总结一下, token 在 计算机里有两种完全不同的含义,语言 token 是 ai 处理文字的最小单位。身份验证 token 是 证明身份的加密凭证,两者只是名字相同,本质毫无关联。在 ai 大 模型的世界里,语言 token 是 一切的基础。 ai 不是 看单词,而是看 token, 它靠一串串 token 来理解世界作判断,生成结果。这就像我们拼积木一样,模型把语言拆成一块块小积木,然后用它们组合出回答。理解了 token, 你 就掌握了和 ai 打交道的底层语言。无论是调用 api、 优化提示词,还是控制成本,都离不开这个基础概念。 token 是 ai 世界里的基本单位,是 ai 语言理解与生成的起点。好了,本期的分享就到这里,如果觉得这期内容对你有帮助,记得点赞、关注和收藏,我们下期见!

token 未来会被翻译成什么中文词呢?魔源?智源那为什么在这个时候突然想到这个啊?因为就在几天前,二零二六年英伟达 gtc 大 会上,黄仁勋做的主题演讲里面, token 这个词出现了超过七十次。 那黄仁勋说, token 是 ai 时代的基石,数据中心正在变成 token 工厂,算力消耗要用到 token 去计量,智能服务的价值也要用 token 去衡量。 那这么高频的就使用这个词,意味着它接下来不再只是一个技术术语,它正在变成一个新时代的基础单位。就像工业时代的电,互联网时代的流量,那么 ai 时代就是 用来交流的。但有一些翻译好的词,是可以用来理解和升华原来要表达的意思。历史上这种给新词起中文名的,是有过很多经典的一些案例,那比如几何。 一六零七年,徐光启翻译古希腊数学家欧吉里德的数学著作几何原本时面临一个难题,如何去翻译这 omrit 这个词。 那徐光启呢?没有执意,也没有因意成晦涩的词,他借用了中文里原有的疑问词几何, 那这一名的精妙之处就在于音韵上,几何以 geometry 的 发音近似,那么在意义上,几何又天然带有数量度量的意味。文化上,它又接上了中文原有的语境。 曹操的短歌行里就有对酒当歌,人生几何。那比如另外一个词,基因。谭家珍先生把基因意为基因,基是基础,因是因子两个字精准传达了遗传的基本单位这样的一个内涵。再比如图腾, 严副老师把北美印第安人的 toton 意为图腾,图是图案腾,有上升崇敬之意。这两个字完美契合了被崇拜的图形符号这层含义。那么所以回到最开始的问题,我们为什么要费这个劲给 token 找一个精准的中文译名? 我觉得可以从两个角度来去理解。第一个呢,是从个人能力的角度,能够给新事物一个准确、简洁甚至是有艺术感的名字,代表你有洞察本质的能力。 名字是依附于实体的,能取出一个好名字,说明你看清了那个实体到底是什么,因为名字不是标签,名字是对本质的压缩。 第二个角度呢,是从话语权命名,就是定义权,谁抢先命了名,谁就划定了这个赛道的边界。一个很近的例子是原宇宙, 二零二一年, facebook 改名为 meta, 那 么原宇宙这个词也火遍全球。但其实呢,腾讯在更早时候就提出过一个类似的概念,叫做全真互联网, 描述的呢,是同一个方向,但是因为没有能成为那个被记住的名字,在公众认知里就始终隔着一层,那这就是定义权的力量,谁能给一个新事物起名字,谁就拥有了解释他的第一话语权。所以 talk 到底会叫什么呢?

嘿,朋友们,今天咱们来聊一个特关键,但很多人又搞不太明白的概念, token。 你 要是想看懂 ai 的 成本,速度,还有它的能力边界,那搞懂 token 就是 你的第一步。来,咱们把它掰开了,揉碎了,讲清楚。来, 问你个问题,你跟 ai 聊天的时候,是不是觉得它跟你一样能看懂人工智能这四个字?嗯,其实吧,完全不是那么回事。在 ai 的 世界里,根本就没有什么文字,只有一堆拼来拼去的恶搞积木。 这种乐高积木啊,它有个学名叫做 token, 中文叫词源,你就可以把它理解成 ai 思考和说话的最小零件。记住这个核心啊, ai 不 认识字,它只认识 token。 好, 那问题来了,这块积木到底是个啥样?它跟我们平时说的一个词是一回事吗?你看,这就有点意思了。 从我们的角度看, unhappiness 是 一个完整的词,对吧?从 ai 的 角度看,他会很聪明地把这个词分成三块积木。 unhappy 和 ness, 中文也一样,人工智能,他可能会拆成人工和智能这两个头衔。这样做的好处是什么呢?就是模型会变得更加灵活,技能 word, 常用词,也能通过拼接去理解他那些他没见过的新词。 既然 token 这么神奇,那它们到底是怎么被生产出来的呢?这家提到一个算法,叫做 b p e 字节对编码算法。现在大名鼎鼎的 g p t 系列模型,用的主要就是这种方法来制造 token 的。 它的生产逻辑说白了简单又高效。第一步,先把一整篇文章打造成最最基本的单个字母或者汉字。第二步,在这里面找,看谁和谁最长挨在一起,比如 a 和 n 老是同时出现。第三步,好, 那就把 a n 合并成一个新的积木,一个新的 token。 最后一步,不停地重复这个合并过程,直到 token 的 仓库里装满,比如装满了五万块不同形状的积木为止。 好了,了解了 token 是 啥,也知道它是怎么来的了,现在咱们聊点最实际的,这东西为什么这么重要?它和我们每个用 ai 的 人到底有啥关系?重点来吧! token 可以 说是 ai 世界里的硬通货, 首先,它决定了你的钱包,你每次用 ai 服务花的钱就是按你输入和输出了多少个 token 来算的。其次,它决定了响应的快慢。咱们常说这个模型快不快,衡量指标就是它每秒能吐出多少个 token。 最后,它决定了记忆力, ai 能进入多少你之前的对话,它的上下文窗口容量,也就是用 token 的 数量来算的。 没错,你每一次和 ai 互动,背后都有一张用 token 计算的账单。咱们来看一个真实的例子,你就能感受到所谓的 token 效率是怎么影响钱包的。你看这张图,两个模型, deep seek 账面单价是零点二八美元,每百万 tokens g l m four, 它的账面单价是输入,输入是零点一五美元,它的输出是零点六亿美元。 再一看 deepsea 是 不是要比 glm 四便宜多了?但如果你观看标价就做决定的话,那很可能就要掉进坑里了。 咱们再来看外星人干同一个活,跑一千次任务下来, glm 大 约用了八十二万个 token, deepsea 用了快一百五十万个,这下你发现了吧,虽然 g l m 单价贵,但因为它用的 token 少,效率高,最后算下来总成本几乎没差,这就是核心差异,干同样的活, g l m four 能用少百分之四十五的 token, 这说明它的回答可能更精炼,绘画更少。 所以大家一定要记住,一个关键节目的 token 的 效率往往比 token 的 单价更重要。我给大家总结了以下三点,记住, token 是 ai 计算的基本单位, token 的 数量直接跟你的钱包挂钩,选模型时别观看单价, token 的 效率更关键。 所以下次你选 ai 服务,可以先拿个小问号考考看哪个消耗的 token 更少。平时写提示词也尽量简洁精准一些,少点废话也能帮你省下不少 token。 最后,有一个开放性问题给大家思考,既然 token 是 ai 的 语言,那你想想,当 token 变得越来越聪明以后,他们会不会为了追求更高的 沟通效率,干脆后面一种我们文外完全听不懂,但他们之间交流起来超高效的构想语言呢?这可不只是科幻片语的细节,已经是科学家正在研究的方向了。关于这个,你怎么看?

今天人工智能领域发生了一件影响一定会非常深远的事情, token 这个词第一次有了正式的中文名字,为什么说这个事情非常重要呢?你想啊, token 呢,它是衡量一个企业 智能化水平非常重要的一个指标,就像我们现代社会用电量一样。过去呢,我们虽然也有人用词源这两个字的是国家数据局, 此前国家数据局其实针对数字经济领域出过两批名词解释,有一些数字经济领域的术语。在国家数据局推出这些名词解释之后,如果你没有针对性的去做调整, 那么在后续的交易成本中会有比较高的解释成本。国家数据局也许在不久的将来就会再推出一批名词解释,把 token 和词源这两个词的关联关系进一步的固定下来。那么到时候呢,可能你的合同文本,你的官网,你的 bp 等等这些正式的文件就要进行针对性的调整。 对于我们正在筹备的这家专注于 ai 法律律师事务所来说,我们非常荣幸的通过我们的食物和理论工作,直接或者间接的参与到对这个时代很多新鲜事物的定义里面去。 每一次在人工智能领域这种全新的赛道里面去探讨各种各样的没有被定义的事情,其实都在无形中推进这个事物的发展。如果你在人工智能领域有任何的法律问题,可以跟我们联系,我们多交流。

你知道大模型接口的收费标准都是按 token 数量计算的吗? token 与自然语言中的词语是不是一回事?有什么区别吗? 今天咱们就花一分钟时间聊聊与 token 相关的知识。 token 在 自然语言处理中一般翻译为词源,它是模型处理语言的最小单元。 token 与自然语言中的词语非常接近,但在力度上却与它们完全不同。 从统计学意义上来说,词语是自然语言中出现频率较高的字母组合。比如说高铁一词,在高速铁路出现之前压根就不是词语,但在高速铁路普及后,由于频繁被用来简称高速铁路,所以才逐渐被人们接受为新词。 模型识别词源的方法也是如此,只不过采用了更严格的统计算法。模型在训练开始前,会在整个语料库中统计不同字母组合的出现频率, 然后将出现频率较高的字母组合放到一个巨大的高频词汇表中,这些字母组合就是模型理解自然语言的偷啃。 由于采用了严格统计计算,模型识别出来的词源力度会更加精细。比如说 generate 这个单词在模型看来就是由 generate 和 type 两个 token 组成。 其实这是非常合理的,因为在 general、 generate、 generation 等单词中都含有 general 这串字母组合,所以 general 的 出现频率一定会比 general 更高。汉语的情况也是如此, token 并不一定单个汉字对应,而是有可能对应多个汉字。 由于计算机在统计时的最小单元是字节而非整个汉字,所以一些复杂的单个汉字甚至有可能被拆分成多个 token。 此外,不同模型使用的统计算法和语料库可能不同,它们统计出来的 token 词汇表也就可能不同。 所以说, token 不 仅与自然语言的词语存在差异,在不同模型之间也不尽相同。现在你明白了吗?更多请参阅生成师 ai 开发揭秘大模型详解!

ai 系统,你的 talking 究竟是什么东西?简单来说, talking 就是 ai 计费时使用的数字单位,你说的内容和 ai 回复的内容会被拆解成一个一个的 talking, 然后按照 talking 的 数量来收费。 不是说一句话算一次,而是按字按词算数。你说的越多, ai 回的越详细,那么 talking 就 用的越快,额度没了。并不是你点错了,而是因为 talking 数量累积用完了。 换句话说, talking 就是 你跟 ai 说话时消耗的字数,理解这个之后就不会被额度突然用完了吓倒啦。关注我,用 ai 快 速提升自己,掌握未来!

这里呢,快速同步一个概念,到底什么是 token? token 的 中文呢,可以翻译为词源,可以是一个字、一个词、一个分词,甚至一个字节。在大模型中呢,被表达为一组数字序列,用于计算下一个 token。 token 越多呢,模型的计算的时间就越长,占用的算力和资源呢,自然就越多。所以,按照 token 数量收费,本质上是一个多用多付少用呢少付的计费方式, 非常直观呢,也非常合理。这像什么呢?就像我们每个月交的水电气一样。从这个角度看呢, ai 正悄悄完成一个转变,它正从一项技术产品呢,演变成一种基础服务。

别再乱喊了, hoken 已经正式被命名为词源了。在语言学中,词是语义的基本单位。但在计算机处理中,一个完整的词往往需要被拆解为更小的片段,比如子词字母或标点,让模型更高效地理解深层。 如果执意成令牌或代币,肯定不能体现语言结构中的层级关系。如果只翻译成词,又忽略了小于一个完整单词的特性,而词源就巧妙地结合了词的语义属性 和圆的结构属性。它表明了无论是完整的汉字、英文单词,还是单词的一部分,只要模型能识别最小,独立片段都是构成圆大厦的基本元素,这才成为了学术界和业界的标准公式。

token 究竟应该翻译成什么中文名比较好呢?截至此生啊,我只在新闻联播听到主持人说过两次英文词汇, 一个是当年电商引领的 b two c 浪潮,被主持人说成了 b 二 c 啊。另一个就是 token 了 啊,要知道 cctv 是 连 nba 都要说成美国男子篮球联赛的,难道 token 就 真的要直接叫 token 了吗?啊,我们中华文化博大精深,难道真的无法精确地形容这个单词所表达的意涵了吗? 啊,其实最早遇到 token 这个词呢,是在我小学玩游戏王的时候,有个卡牌能力需要用到史莱姆带币。我当时很不理解带币这个词,这是能花的钱吗?啊,我当时查到英文原版就是 token, 后来是在我大学期间搞开发啊,知道 token 是 前后端交换的一个凭证。当时我就在想,不对呀, token 不是 代币吗?为什么有两个意思。也不知道这是英文的优点还是缺点。有些单词可以用在很多不同的领域, 可以很抽象,也可以很具象,就像 demo 一 样。我之前也讨论过 demo 的 最佳中文翻译,它在代码里是指某个功能模块不完善的试错版本。在音乐领域, demo 又叫小样样片,在房地产领域又是样板房也是同样的感觉,好像只要是一个最小展示版本,跨领域都可以用一个 demo 来表达。 那么话又说回来,托肯翻译作代币也好,凭证也好,好像都是一个代指某种权力信息或者价值的凭证单位,它本身不是那个你最终想要的东西,但是你可以凭它换取你想要的东西, 而且它能换来的还是一个十分有创造价值的东西啊,那甚至可能是曾经不存在。但是你一旦使用了 token, 它能创造无限可能,拓展无尽可能的边界。我一直觉得翻译一定要符合人的直觉, 他可以张口就来,同时在你脱口而出的时候发现,哇,好顺嘴啊啊!就像曾经 humor 的 最佳翻译是幽默,他不是搞笑,他是幽幽的一个小魔。 说到逻辑,你就想到逻辑,把你的万千思绪罗列集录起来,慢慢理出头绪。 而 token 在 这个词汇已经在如今大家都在使用的情况下,我们要把它汉化出来。我觉得最佳的翻译就是保留它的原始发音,这也是保留它在口语交流中的符 合直觉的特性。因此我把它翻译为拓肯。如果要给这个翻译限定一个领域,我们就现做在 ai 这个领域, token, token 是 用来消耗算力为我们创造价值的一个单位。你可以说 token 是 算力单位,也可以说 token 是 智能单位。 但我想 token 就 像我们的老祖宗当年在这片土地上勤勉的开荒拓土一样,我们如今也是在算力的世界里开拓一片新天地。 所以我愿意把 talk 翻译为 talk。 欢迎喜欢的朋友在评论区留言。

token 到底是什么?普通人怎么理解?很多人用 ai 的 时候,都会看到一个词, token, 但大多数人其实不知道这个东西到底是什么。大家好,我是伞登,今天我们就讲一件事,普通人应该怎么理解 token。 如果要用一个最简单的东西类比 token, 其实很像早期互联网的流量。以前我们上网每个月只有几十兆流量,看一会网页就没了,看个视频更是奢侈。 而 ai 现在的状态其实跟那个阶段非常像,你用一次 ai 问一个问题,生成一段文字都会消耗 tokin, 所以 很多 ai 产品其实是在燃烧算力。 如果你这样理解,就很简单了, ai 就 像互联网, tokin 就 像流量,而那些智能体、工作流这些应用每运行一秒都在消耗流量。 所以现在很多个 ai 产品其实还处在一个流量很贵的阶段,就像当年我们每个月只有几十兆流量的时候。 但历史有一个规律,当技术发达到某一天,流量不再是问题,应用就会爆发。你看,今天我们几乎不会再为流量发愁,真正赚到钱的也不是那些基站建设者,而是短视频、电商、游戏、各种互联网应用。 而呼和浩特恰恰是一个算力节点城市,这就意味着未来这里会有大量算力基础设施。但普通人其实不需要去建机房,也不需要去研究模型,真正的机会往往出现在更上层, 也就是怎么用这些工具解决现实问题。所以 talking 这个词,你不用把它想得太复杂,它就像早期互联网的流量,而 ai 可能正处在那个应用爆发前的阶段,我是伞登,我们慢慢把这些事情聊清楚。

token 是 什么?这个 ai 零的概念被翻译成词源,而且已经被中国政府网人民日报等官媒确认为标准中文译名。那它到底是什么意思?又有什么用呢?说白了,它就是你使用付费 ai 工具的收费计量单位, 就像你的手机流量一样,一个 g 就是 十块钱。你使用付费 ai 工具,就按照你消耗的投坑数量,也就是资源的数量来收费, 也就是说它是一种国际互联网的通用货币。我看到有一个人一天就消耗了等额两千块钱的投坑, 本来想让 ai 替自己打工,结果却发现根本就养不起,只好含泪卸载了付费 ai。 你 已经使用过付费 ai 了吗?欢迎在评论区聊聊。

ai 里的桃肯到底是什么?你是不是也遇到过 ai 用着用着突然就没额度?明明没问几句,额度就见底了, 到底是谁在偷偷扣你的钱?今天一句话给你讲透 ai 里的桃肯,说白了是 ai 计费算次数的最小单位,在以为问一句话算一次费,大错特错。你发给 ai 的 每一个字每一个词, ai 回复你的每一句话每一段内容,全都会拆成掏坑悄悄扣额度。 你输入的越长, ai 回的越多,掏坑消耗的就越快。你的额度不是凭空消失,也不是点错了,全是被字数堆没的。就记住一句话, tock 等于 ai 用了你多少次?搞懂了这个,再也不会被额度清零!搞心态,想知道怎么省 tock 高效用 ai 不 花冤枉钱吗?关注我,带你用 ai 高效提升自己!下期教你一招,让你的 ai 额度直接翻倍!