今天是二零二零年三月二十四号, talking 已经有了中文词,叫词源,那 ai 呢?到现在还没有征集到一个统一的中文名字。 我自己对此啊特别纠结,啊,为什么呢?我一直在讲一个概念嘛,人和 ai 深度写作,共同创造出双方都想不出的全新的价值。 如果把以上的概念叫人与人工智能共创,太啰嗦了。我当时就觉得最好的办法应该是新造一个汉字,比如知识的知呀,左边加一个单人旁代表人加智能,专门只带 ai 嘛。那实在造不了字,我也有个建议,就是用智这个字,在新时代嘞, 给他要多加一层含义,专指人工智能。所以我把刚才那个概念界定成人智共创。在今天 ai 这个时代,最高级别的用法是人智共创,人和人工智能一起创造出双方都未知的价值。大家觉得这样界定怎么样呢?
粉丝1456获赞3.8万

最近 togan 到底怎么翻译?在互联网上引发了一波热议。起因是一条来自国家官网的新闻,相当于官宣了 togan 的 意法。词源 一时激起千层浪,先别急着站队,我们先把 togan 这个词捋清楚。 togan 本意是象征,比如情人节送人玫瑰就是 a token of love, 爱的象征。在不同领域中,它隐身出了不同的含义。玩阶级时,那种圆圆的 token 意为游戏币。计算机安全领域中的 token 意为令牌。加密世界里的资产单位意为代币。到了 ai, 这意为词源。那么这个词源到底怎么去理解呢? 根据官方的解释, token 是 大模型处理信息时的最小单位。大模型处理一个文本时,不是整段整段的读, 而是会把它拆成一个个更小的单元,再逐步处理。从这个角度来看,词源这个翻译其实在强调它既跟词有关,又是一个基本单位源。这有点理工男的风格啊,不浪漫,但是也确实抓住了本质。不过一些网友不太买账啊,有人说词源太别扭了,并且提出了像智源等更有科技感的议法。 也有人觉得,不管叫什么,有中文名字总是一件好事。因为这一波 ai 浪潮里,大量底层概念都是来自于英文世界。什么 chatbot、 prompt agent、 token, 如果不进行一轮中文重构,那么这些词就会变成一种圈内的黑化,懂的人越懂,不懂的人呢,直接劝退, 久而久之,就会形成一个隐形的门槛,把大量普通人挡在门外。正如当年我们把 laser 翻译成激光,把 computer 翻译成电脑就挺成功的,既好记又突出了特点,还极易传播。所以给 token 找一个好的中文名啊,本质上是在做一件更大的事, 是用我们的母语去构建数字世界的底层认知。但另一派的观点也很鲜明,就是 togel 作为一个外来的专有名词,没必要用中文硬翻。这个评论倒让我想起了 dna 这个说法,貌似没有简洁的译法,但也不妨碍大家交流使用,对吧? 这样争论还挺有意思的,它不只是一个词的翻译问题,背后其实藏着一个更大的命题,就是我们要不要为新技术建立一个属于自己的语言体系呢?词源或许不是一个最优解,但是它至少是一个开始。你接受词源这个翻译吗?还是更愿意直接说 token 评论区聊聊?

token 的 中文官方译名定了词源大模型时代。 token 一 指模型处理语言的最小语义单位,比如硬核派,在模型眼里就是硬核派两个 token, 也就是说模型理解世界是按语义单位来处理。从这个角度看,词源翻译得确实挺贴切,词的基本单元不就是最小语义单位吗? 在词源这个官方译名出现之前,大家其实已经给 token 想过一堆五花八门的中文名语源指词算点算 b 魔源,还有大聪明直接喊托肯,这个过程其实挺有意思的。从一堆民间叫法到最终官方定名词源,我们可能现场见证了一个技术概念在中文世界完成命名的过程。

你每次跟 ai 说一句话,背后都在烧一种东西,中国人教了他三年。词源上周引起热议,有人说这个名字不好。先说 token 是 什么?它是 ai 处理信息的最小单位。你打一个字,说一句话,发一张图, ai 看到的不是你,是一个个 token 大 模型,消耗 token 深沉, token 按 token 计费,按 token 定价。 老黄在今年 gtc 大 会上说,数据中心已经变成了 token 工厂。英伟达是 token king。 openclaw 爆火之后,普通用户第一次真实感受到 token 在 烧钱。让 ai 帮你跑几个任务,几百块可能就没了。 toc 是 这个时代真正的计量单位。但问题来了,它叫什么好呢?词源这个一名来自二零二一年,那时 toc 主要出现在自然语言处理领域,翻译成词源还说得过去。但现在是多模态时代,图像有 toc, 音频有 toc, 视频有 toc, 代码有 toc, 思维链有 toc, token 早就不只是词了。词源这个名字已经脱节了。腾讯研究院的研究员发文说,给 token 确定中文译名已迫在眉睫。就在这天地初开之时,一个新名字浮出水面。智源最先系统。提出这个名字的,早在二零二四年,是上海财经大学教授胡延平、新加坡国立大学教授刘杨刚授人。 token 中文叫智源, 一篇文章就引爆 ai 圈,把智元这个选项拆解得非常清楚。智锁定 ai 智能计算的领域属性。 token 服务于智能系统这个字,精准定位元对应 token 的 核心性质,元素、单元、元、数据, 都在指向同一个意思、不可再分的基础。构建计算机的基础单位是字节,那人类智士的计算单元就是智源。百川智能创始人王小川看到之后说叫智源挺好的。资深开源人士陈旭做了初步总结,这几天提出了各种 x 源,就觉得智源能打动我。顺便说一下背景,中国是全球消耗头肯最多的国家之一, 国产大模型在全球 a p i 平台上已经拿下了头部掉用量的大半席位。这个时代最核心的计量单位理应有一个自己的名字。磁源是二零二一年的翻译,智源是二零二六年的命名。一个字的差距背后,是 ai 从语言工具变成通用智能基础设施的整个时代跨越。关注新智源,秒追 a s i。

全网都在说 tok, 他 到底是个啥?这是你,这是你的 ai, 你 可以叫他菜包,他啥都知道,但他是个文盲,不识字,只识数。你直接问他谁是最帅的博主,他只会哇哇哇,那他是怎么跟你唠嗑的呢? 过程是这样的,第一步,拆。先把你的句子像拆积木一样,拆成几个小块,每一块可能是一个字,一个常用词,也可能是标点符号。接下来就是第二步,翻译。菜包眼里没有文字,只有数字,所以它有本词表, 专门把这些小积木翻译成对应的数字,而这串数字就是 ai 能看懂的语言。这时候呢, ai 就 可以读懂你的信息,进行思考,然后再把结果反向翻译成你能看得懂的文字。在这个过程当中,拆分出来的每一块小积木就是一个 tokken, 现在它有了中文名叫词源。很多收费的大模型,就是按照输入思考过程输出中的 tokken 数量来收费。 拆分的积木越多,花的钱也就越多。比如这句话呢,我们用了六个 tokken, 一 块钱的话, ai 读懂你这句话就花了六块钱,你学会了吗?

中国 ai 的 规矩,中国人自己定。 talking 有 中文名了,词源,你可能觉得叫什么名无所谓,不影响我用。但你错了, 名字谁定的规矩就听谁的。以前英文世界叫 talking, 规矩黄仁勋定,现在我们自己定。先说 talking 是 啥? 大模型,处理信息的最小单位,你输入一句话, ai 把它切成几块,一块就是一个词元,按块计费跟电费按度算,水费按吨算一个道理。但就这么一个计量单位,学界和产业界吵了五年, 不是翻译之争,是在争一件事, ai 的 未来到底该怎么定义?主流有三种叫法,第一种,词源,复旦邱西鹏教授最早提的词是文本源,是最小单元,描述 talking 最基础的功能, 朴素准确,不讲故事。第二种,智猿,搜狗创始人王小川推的 talking 等于智能的载体,卖词源就是卖智能, 听起来高级,但问题来了,烧的越多就越智能吗?把计量单位和价值判断绑一起有点危险。第三种,模猿,从模型中心视角出发,意思是 talking 的 价值来自大模型,谁有模型谁主导。 但万一技术路线变了呢?万一未来不拼模型拼别的呢?名字先把自己锁死了。还有人叫复原,回到计算机最底层,技术上最干净,但太学术没声量,甚至有人称三体叫智子。浪漫是浪漫,但官方命名不能跟着科幻 ip 走。 吵了五年,最后国家选了磁源,不是因为他最好,是因为他最中立。魔源压住大模型,制源压住智能服务,磁源啥都不压住,国家级术语不能压住技术路线。 今天大模型火,明天可能 a 级的火,后天可能别的火磁源像个空容器装啥都行,不会因为技术迭代而过时。但我真正被震撼到的不是这个翻译,是那个数字,一百四十万亿。你品这个句式 日产出钢三千万吨,日均磁源一百四十万亿,看出来了吗?这是把 ai 从黑科技重新定义为工业产物。 以前大肠跟你讲通用人工智能改变世界,现在国家把 ai 拉回工业流水线。别讲故事,爆产量一百四十万亿磁元就是 ai 时代的出钢产量。 我是抠脚大叔,四十岁学 ai 不 追概念追本质,说错了你别骂我,说对了你留着。

老林百科今天是第一期,这两天国家刚刚定了一个人工智能领域的新名词,叫词源。 词源啊就是之前大家在聊 ai 时绕不开的一个概念,就是 token。 那 token 到底是什么呢?今天老林来给大家讲一讲。 首先 token 它本身啊,其实就是 ai 世界里面最小的货币单位,那怎么来理解它呢?大家看, 比如这个英文短语 i love ai 这三个词,如果让 ai 来切,它可能会切成 i love ai 三个词组, 如果按字母来切呢,就是 i l、 o v e, ai 就是 七个字母。 ai 通常呢是用第一种按语义来切块。再看中文我爱人工智能这句话, ai 可能会把它切成我爱人工智能三组,也有可能是六个字,所以 token 最简单的理解是 ai 阅读文本的时候,把文字切成最小的语义单元,一个词, 一个字,一个短语,甚至是一个标点,都有可能是一个 token。 那 token 在 ai 世界为什么这么重要呢?因为两点,第一成本,所有的大模型 api 都是按照 token 来收费的,比如 cloud 三点五, 他的输入计费是一美元百万托克,输出计费是五美元百万托克。你看问一个问题, ai 回答一段话,花的钱就是托克数,如果你问什么是托克,那可能只花了几分钱, 但如果你让他帮你写一篇五千字的论文,那托克数就蹭蹭的往上涨,是不是有点像网络流量计费?第二个就是能力,就是我们经常说的上下文长度, 比如 g p t 四支持一百二十八 k token, cloud 支持两百 k token 什么意思呢?就是 ai 一 次性能够记住多少文字,像一百二十八 k token, 大 约相当于一本三体。第一步炮,上下文越长, ai 能处理的信息就越多, 比如一口气读完一本书,分析一份超长的财务报表。所以 token 它既是你的花费, 也是 ai 的 内存能力。那像普通人怎么去估算 toon 的 使用数呢?其实不用你自己数,网上有免费的 toon 计算器,比如你写一段一百字的文案,输入进去,他会告诉你大概对应了多少 toon, 给大家一个经验值啊。英文大约是一个单词约等于一点三个 toon。 中文呢,一个字约等于一到两个 toon。 长一点的文章,一篇大概一千字左右的中文文章大约是一千五到两千个 toon。 那 知道了这个有什么用呢? 第一,你平时在使用大模型 api 的 时候,可以先预估一下费用。第二,用 ai 写长文的时候,你知道会不会超过上下文限制。比如你想让 ai 帮你写一篇两万字的报告,先算算托根也写到一半,超限了。 总结一下, token 就是 ai 世界里的最小货币单位,它是成本,也是 ai 的 能力边界。现在明白什么是 token 了吧?我是老林,还有什么想了解的,评论区留言。

token 翻译成中文叫什么?叫词源,是模型处理文本的最基本单位。 token 和字呢?有什么区别? token 呢,可以是一个字,一个词,甚至半个字,那这是谁规定 的?是模型看了大量人类文字统计出来的,这样表达呢,更省事。常见的字和词就用一个 token 表示,其他的就用多个 token 拼接。 一个 token 到底是多少钱? deep 呢?输出一百万 token 呢?约等于三本新华字典只需要三块钱, gpt 五呢更贵,超过九十块 token 和上网流量收费是一样的道理吗?不是的, token 收的是计算费,是生产成本,而流量收费呢,是搬运费,不是一回事。为什么养龙虾要烧 token? 是 因为龙虾要用大模型思考和回答问题,因为大模型按 token 收费,所以就说烧 token。 本地部署大模型是不是就不用烧 toon 了?还是要用到 toon, 因为 toon 机制本身和部署方式无关。本地部署呢,不需要按量付费,但电费得自己掏,算上硬件成本不一定划算。如果我把一段话复制粘贴进去,是不是就算一次 toon 不是 文字越多呢?计算的输入 toon 数量就越多? 我问的问题很长,但答案很短,是不是只扣答案的 token 不是, 输了 token 呢?也要算钱?表情符号算几个 token 会不会比一个字还贵?常见的表情呢,是一个 token, 不 常见的会用两到四个 token 拼接表示。 deepsea 和 gpt 的 token 是 一样的吗? 不一样,互相不认识。 y, y, d, s 这种网络词是几个 token, 一 般拆成 y, y 和 d s 两个 token, 要是这个词足够火,也可能被模型当做一个整体。同样的问题,我上午问和下午问,输出的 token 数会不一样吗?不一样,模型输出具有随机性,每次输出的 token 数量不同。 那小龙虾帮我下载电影是否要按 token 计费?小龙虾思考怎么下载?打开下载网站,执行下载命令,这些都需要消耗 token, 但是下载电影本身不消耗 token, 因为电影不是大模型生成的, 电影是存在第三方服务器上,只消耗下载流量,不消耗 token。 为什么我和 ai 聊得越久,回复同样一句话,花的钱就越多? 模型是基于对话历史进行回答的,所以你所有说过的话呢,都会参与计算,计算成本就越高,这也是 ai 还需要按照输入 token 数量计费的原因。 怎么才能少用点 token 输入更少的提示词去掉?你好,请问这类废话规定模型输入长度,加一句五十字以内回答,但很有可能问题没有说清楚,回答呢也不够准确。如果前后问题呢?不相关也可以新开对话,避免历史对话参与计算。 托管是加密的密码吗?不是,托管只是一种文字编码方式,虽然你看不懂,但他并没有加密。 图片和文本的托管是一样的吗?不一样,图片会切分成很多小小的方块,每个方块呢?当做一个视觉托管,就像拼图一样。托管是为了收费而发明的吗? 不是,托管是技术发明,是为了能表达和能计算,只是计算的成本和托管数量正相关,所以就按照托管数量收费。我使用豆包没有付费啊。为什么说托管是收费的?大厂为了抢占市场让你免费使用,成本呢?暂时不用你出, 如果你是企业用户或者养龙虾就需要支付费用。我在一段话里疯狂敲空格, ai 是 视而不见还是会偷偷扣我的钱? 空格也算钱,虽然有的模型会把几个空格打包,大部分时候你多敲一个空格就再多烧一份算力。那 ai 产生的废话是不是能退费?不能,因为废话也是显卡辛辛苦苦算出来的。

token 是 什么?这个 ai 零的概念被翻译成词源,而且已经被中国政府网人民日报等官媒确认为标准中文译名。那它到底是什么意思?又有什么用呢?说白了,它就是你使用付费 ai 工具的收费计量单位, 就像你的手机流量一样,一个 g 就是 十块钱。你使用付费 ai 工具,就按照你消耗的投坑数量,也就是资源的数量来收费, 也就是说它是一种国际互联网的通用货币。我看到有一个人一天就消耗了等额两千块钱的投坑, 本来想让 ai 替自己打工,结果却发现根本就养不起,只好含泪卸载了付费 ai。 你 已经使用过付费 ai 了吗?欢迎在评论区聊聊。

这里呢,快速同步一个概念,到底什么是 token? token 的 中文呢,可以翻译为词源,可以是一个字、一个词、一个分词,甚至一个字节。在大模型中呢,被表达为一组数字序列,用于计算下一个 token。 token 越多呢,模型的计算的时间就越长,占用的算力和资源呢,自然就越多。所以,按照 token 数量收费,本质上是一个多用多付少用呢少付的计费方式, 非常直观呢,也非常合理。这像什么呢?就像我们每个月交的水电气一样。从这个角度看呢, ai 正悄悄完成一个转变,它正从一项技术产品呢,演变成一种基础服务。


大家好,这里是风声解读。最近国家数据局正式给 tucker 定了一个官方中文名词源, 很多人一听 tucker 词源,觉得特别专业,听不懂。今天咱们就用最通俗的话来讲一讲 tucker 到底是什么,跟我们普通人有什么关系? tucker 也就是词源,它是 ai 大 模型理解和生成语言的最小语义单元。 toc 调用量是衡量 ai 模型活跃度和产业价值的一个关键指标。 toc 调用量越高,意味着这个模型用的越多,创造的实际价值也就越大。 你可以把 ai 想象成一个刚学会说话的小朋友,你跟他说一整句话,他听不懂,必须要拆成一个字、一个词、一个标点,才能慢慢地去理解。 ai 也是这样,他不会直接处理一整段话、一篇文章,而是先把内容切碎,切成一个一个的小片段,这个最小的片段就叫做词源,也就是 token。 给大家举几个最简单直观的例子啊,一个汉字大约就是一个词源,一个英文单词大约就是一到两个 token。 比如说我爱中国,其中我 爱中国,这就是三个 token。 跟 ai 聊天,问问题,写文案,做总结,包括你生成图片啊,生成视频, ai 回应你的每一句话,本质上都是在读取 token、 计算 token 和输出 token。 可以 说,没有 token, ai 就 没有办法工作, 它就像 ai 的 口粮,就像数字世界的基础货币,用 ai 越多,场景越复杂,消耗的 token 量也就越大。简单聊几句,可能只花几千个 token, 但是你要用 ai 去写代码,做长文,生成视频,一次可能就消耗上百万上千万的 token, 所以 token 掉用量就是衡量 ai 火不火,用的多不多的一个最核心的指标。据官方数据,我国现在日军 token 掉用量已经超过了一百四十万亿,对比两年前暴涨了一千多倍,三个月又涨了百分之四十。 这说明 ai 已经加速走进我们的生活和我们的工作里。且还有一个关键信号,中国大模型的 token 掉用量已经连续三周超过美国,靠的就是性价比高、场景落地快、爆款应用多,让 token 经济真正跑了起来。 魏达老板黄仁勋还提出了一个新的概念,叫 token 工厂经济学,意思很简单,就是未来的数据中心不是存数据的仓库,而是专门生产 token 的 工厂。 token 会变得像电力、石油一样的基础数字商品 有统一的标准,可以定价,并且可以交易。国内阿里也专门成立了 token have 的 事业群,权力布局 token 经济。总结一下今天核心的知识点就两个,第一, token 中文名称、词源,是 ai 处理信息的最小的一个单位,就像 ai 的 文字积木。第二,我们用 ai 的 每一次交互,本质上都是在消耗 token, token 就是 ai 时代的通用基础单元。 token 被官方定名,意味着中国 ai 产业进入了更规范、更规模化的全新阶段。这里是风声解读,我们下期再见!

这几年,我们每天都在跟一个看不见的东西打交道,你问他问题,他能写文案,写代码翻译,还能陪你聊天。我们叫他 gpt, 或者更宽泛一点叫大语言模型。 但大多数人对他的理解还停留在一句话,他很聪明,很像人,会不会有一天统治世界这一集,我们不聊意识玄学,我们只做一件事,把他的工程细节摊开,从你敲下第一个字,到屏幕上弹出回答,服务器里到底发生了什么? 对我们人类来说,语言是被粉碎后的数字, 当你输入一句话,他看到的是一串小单元,叫 token。 token 有 时候是一个字,有时候是一个词的一部分,甚至是一个标点,一个空格。 gpt 背后常用的一种切法叫 bpe, 它从海量文本中统计高频出现的字母组合,合并成更大的单元。 这里有一个关键的成本事实,早期模型的分词器对英文效率较低,导致中文 token 数量激增。 就比如这句话, artificial intelligence is rewriting the world。 如果用 gpt 二系列那种英文为主的分词器,英文这一句可能只要八至十个 token, 而中文往往要多出百分之五十甚至更多。 这不仅让中文用户成本更高,还变相挤占了模型的上下文窗口。好在这一情况正在改变。随着 gpt 四采用更高效的词表以及 tiktok 等高性能工具的出现,中文编码效率大幅提升。 现代模型通过扩充词表,极大地缩小了这种差距,让中文在 ai 时代变得更加经济实用。 gpt 运行时的核心任务只有一件,根据已知的前文计算下一个 tock 出现的概率分布,并从中抽出一个结果。你可以把它想象成 gpt, 再玩一个超大规模的玩行填空游戏。 具体来说,模型会根据已有的上文计算出词表中每一个后选托肯出现的概率,最终输出的是一个概率分布。然后模型从这个分布中选出一个托肯作为结果。 一个贴切的类比是, gpt 就 像一个读过全人类海量文本的超级复读机,当你给他看前半句时,他并不是在思考真理,而是在进行统计,推演人类在这种语境下最常往后写什么。 他完全基于概率和模式,通过预测下一个词,最终拼凑出看起来极具逻辑的回答。 g p p。 最大的能力之一是在很长的一段话里,保持对谁是谁前面说过什么的记忆。在工程上,这靠的是自注意力。 想象一个高校会议,每个 tucker 都是参会者,当轮到某个 tucker, 比如他这个词发言时,为了弄清楚自己到底指代谁,他会启动三个步骤。第一步,拿着搜索卡去提问。他带着自己的需求向所有人发问,谁可能和我有关。 第二步,匹配大家的缩影标签。会议室里其他 tucker 都举着自己的标签,他会迅速进行匹配度打分。匹配度高,比如前面的小王,就会被多听一点,分配极大的注意力。权重匹配度低,比如桌子直接被忽略掉。 第三步,提取内容价值。他按照权重把大家的信息进行加权平均。最终他得到了一个融合了小王特征的综合表示, 这就是自注意力的本质。每个 token 在 理解自己时,都会回头审视前面出现过的每一个 token, 只不过关注的程度各有不同。一个 transformer 模型就是把这种看一圈算权重综合信息的操作堆叠了几十层。 模型是怎么吐出一整篇长文章的?答案是自回归生成。这意味着模型无法瞬间完成整段话,而是严格遵守时间顺序,一格一格的往前蹦字。 它无法瞬间完成整段话,必须严格遵守时间顺序。预测第一个词,把词接到原句后变成新前文,预测下一个词, 循环往复直到撞上结束符。在这个过程中,有一个决定悲哀性格的细节,我们如何从概率分布里抽出那个词?这就涉及到了几个关键参数的调配。 temperature, 温度越高,分布越均匀。低概率词被选中的机会增加,温度越低,分布越尖锐。模型更倾向于高概率词。 greedy, 永远选概率最高的那个 token, 输出会很稳,但也很无聊。 topk, 从得分最高的前 k 个后选词里随机挑一个 topp, 它只在累积概率达到 p 的 那些核心词汇里筛选。 高 temperature 加较大的 top 会让生成结果更多样,有创造性,但同时也更容易跑偏,甚至胡说。现在你已经大概明白了 gpt 的 内部世界。你看到的每一行流畅回答,本质上都是在昂贵的硅片上以每秒数以千万亿次的浮点运算堆出来的。 我们随便拎两块现在最有代表性的芯片, a 一 百和 h 二百。 更大的显存意味着同一块卡上能放下更大的模型,能处理更长的输入上下文更高的贷宽,意味着矩阵乘法里的数据搬运更快,同样,一轮前向传播和反向传播所需时间更短。 然而,一块 gpu 是 三百到七百瓦级别的耗电,一整个大模型训练集群往往要用到数千块。这样的卡连跑几周,这背后是非常具体的一张电费账单。 逻辑通了,芯片到位了,万事俱备,就差开机。下一章,我们将拆解大模型的诞生之路。

哈喽,大家好,我是小英,就在今天的早上,新华社刚刚把 token 的 中文名给定了,那中文名是词源,哎,为什么是这两个字呢?为什么是这样翻译呢?来,我给大家解释一下。 首先啊, token 不是 随便的字母,它是有意义的语言片段,可以是字,可以是词,也可以是子词,所以说用词的这个字,那么源呢,是最小的单位,基本单位的意思一起词源就是 ai 处理文字的最小语义单位 啊。我觉得这个翻译想了想还是挺妙的哈,那么你看一下其他的这个呃,可能的备选项,比如说令牌呀,标记呀,模圆和质圆呐, 它的覆盖性好像都差了一下,就它已经有了适用的场景了。那么所以说哈,我觉得,呃,这个官方的翻译是很给力的,我给他点赞。大家以后再看到词源就知道这是 ai 拆成文字的最小单位了,是不是准确又好记呢?

这盘菜是菜谱做出来的成品,案板上这些小丁小块是真正下锅的原料。 ai 读文章就像炒菜,先把句子切成一个个最小的原料块,每块就叫词源。记住啦, token 就是 ai 能处理的最小信息块,而游戏币 是钱的一个具体例子。我说,你好,这两个字是词的一个具体例子。在 ai 眼里,你输入的每个字每句话都被拆成一个个最小单位,这就是词源。简单说, token 就是 ai 能看懂的最小信息块。

今天我们讲什么是 token? ai 圈的硬通货, token 词源到底是啥?朋友们, ai 圈天天挂在嘴边的 token, 终于有了官方中文名了。词源, 二零二六年三月,国家数据局正式官宣,这个 ai 世界的最小语言积木,就是咱们和 ai 打交道绕不开的核心。词源呢,是大模型处理信息的最小信息单元,相当于 ai 的 原子。 它不是汉字啊,也不是单词,可能是一个单字,一个词语,甚至是一个标点,或者说是英文词的直根直坠。 比如我爱中国, ai 会把它拆分成我爱中国三个词源。为什么说词源它是 ai 时代的结算单位呢?比如说,你让 ai 写文案、聊天、画图,每一次输入输出都在消耗词源。 所以 ai 产品按磁源的消耗量收费,就像手机流量按 gb 收费,它可计量、可定价、可交易,是智能时代的价值核心。中国磁源调用量已超过一百四十万亿,首次超越了美国, 标志着 ai 从聊天走向了实干。送大家三个实用的小技巧,让 ai 创作不花冤枉钱。第一呢,精简提问,把长问题拆成短句,减少无效词源的消耗。第二, 精准指令,明确输出格式,比如说字数分段,避免 ai 乘余输出。第三,中文优势,中文词源的密度更高,同样内容呢,比英文更省钱。 词源啊,是一个高冷的技术词,是咱们日常用 ai 的 通行证。记住这个名字,以后跟 ai 打交道更明白!

核心名词解释, token r a g agent m c p 是 什么? token r a g agent m c p 你 有没有刷到过这些词?感觉每篇 ai 文章都在用,但就是没人好好解释过。今天我们来读这篇文章,我保证看完你能跟任何人讲清楚这五个词。 好,从最底层开始。你打一句话给 ai, 他 不是像你一样一个字一个字读的,他先把你的话拆成一块一块的积木,这每一块就叫 token。 中文一个汉字大概对应一到两个 token。 你 每次用 ai 的 费用就是按这些积木的数量来计算的, 而且每个 ai 模型能同时记住的积木数量是有上限的,这叫上下文窗口。 gpt 四 turbo 能装一百二十八 k 的 token, 大 概就是一本中篇小说的量。超过这个上限,它就开始忘掉最早的内容,就像桌子太小放不下,就得把最老的东西推到地上。 不过光把文字拆成积木还不够, ai 还得理解这些词的意思,这就要用到 embedding, 说白了就是给每个词标上一个羽翼。地图的坐标。 猫和狗在这张地图上挨得很近,因为都是宠物,猫和汽车就离得很远。这样 ai 搜索时找的是意思相近的内容,而不只是你打的那几个字。 那问题来了, ai 不是 什么都知道吗?其实不是,他的知识有个截止日期二零二三年训练的模型,二零二四年发生的事,他完全不知道。 r a g 就是 解决这个问题的,让 ai 考试的时候可以翻书,先去知识库里解锁,再把查到的内容拿来回答你,这叫解锁增强生成。 这个设计真的很聪明,它解决了 ai 最让人头疼的问题。胡说八道。用了 r a g 之后, ai 的 回答能追溯到具体是哪篇文档。说的就像考试答案旁边标了参考书页码。企业把内部文件接进去, ai 客服就能准确回答公司专属问题,而不是给你一堆通用废话。 说完二 a g 再来看 agent。 普通 ai 聊天只是一问一答,但现实任务往往需要好几步,先查资料、再分析,再发邮件、再记录结果。 agent 就是 能自己把这些步骤都做完的 ai, 它有四个核心能力,感知任务、规划步骤、调用工具、行动、检查结果、自我纠错。 说白了, l l m 就是 agent 的 大脑,负责想清楚该怎么做,搜索网页、发邮件、查数据库,这些工具就是他的手和脚,负责真正去执行原来要人工好几小时的任务, agent 几分钟就能搞定。这才是 ai 真正有用的地方,不只是说,而是做。 这里有个有意思的地方。 agent 它要用各种工具,但 m c p 出现之前,每个 ai 平台接同一个工具,都要单独开发一套,就好像每个电器都有自己的专属插头。 mcp 就是 ai 世界的 usb 接口工具,开发者只需要按规范写一次,所有支持 mcp 的 平台都能直接用,再也不用重复造轮子。 mcp 是 antropics 在 二零二四年底提出的,到二零二六年三月, cloud、 openai、 google 这些主流平台都已经支持,数百个常用工具也完成了适配。 这个速度说明什么?说明大家都觉得这个标准值得,跟有点像当年 app store 出现标准化之后,整个生态的创新就爆发了。 那说到这儿,我觉得最值得说的一点是,这五个词不是各自独立的,它们是一条流水线。 ai 先用 token 读懂你的字,用 embedding 理解你的意思,用 r a g 查最新资料,再由 agent 规划并执行任务,最后靠 m c p 调用各种工具,每一层都建在上一层的基础上,缺了哪块都转不起来。 不过说实话,这套技术现在还不完美,而 ag 如果知识库整理的乱七八糟,查出来的内容就会偏,最终答案也会跑偏。 a 阵做多步骤任务,一旦中间某步出错,后面全错,纠错能力现在还不够强。 token 费用和窗口上限也是实际用起来绕不开的坎儿。这些问题大家都知道,也都在解决好收个尾。 token 是 积木, embedding 是 坐标, r a g 是 图书馆, agent 是 会做事的手脚, m c p 是 统一插头。这五个词串在一起,就是现在 ai 系统运转的基本逻辑。也许不久之后,你身边每一个 ai 工具里都有这五个东西在默默配合,只是你以前不知道它们叫什么名。

汉语又增加了个新词,叫做词源,词源就是前几天我说养龙虾这个话题的时候说的 tokin, 那 个时候 tokin 还没有统一的汉语名称,当时我说 tokin 的 英语意思就是代币的意思,就是符号啊,象征啊,这么个意思, 还类比了游戏机的游戏币,我们要玩游戏机,先花钱买游戏币,投币进去机器开始运转, 差不多的意思,我们要让龙虾给我们干活,我们要花钱买头啃龙虾,给我们干了多少活,我们点点花了多少头啃,就能算出来花了多少钱。 在三月二十三日的时候,我们国家数据局明确地给 tokyo 起了个汉语名字,就叫磁源。 磁源就是人工智能大模型运行的最小信息单元,就是我们使用人工智能的最小的计量单位。 说几辆单位,就如同我们用水说用了几吨,用电用了几度,用流量用了多少字节 一样。有了它,我们用人工智能给我们干活,我们用了多少投垦啊,现在来说的话就是用了多少磁源啊。 这样呢,就把人工智能技术和人工智能的商业化使用连接起来了,他两个接上头了, 相当于在技术和使用方面架了一座桥梁, 从此人工智能大模型的使用就进入了快车道。现在有龙虾了,是不是以后还会有 螃蟹,还会有鲨鱼啊?那很有可能,谢谢。

嗯,哈喽,大家好啊,今天呢咱们给大家讲一个最基本的概念叫做 tool 啊,最近的话,咱们国家的数据局把这个词给它翻译成呢叫词源啊,我觉得这个翻译呢,其实是非常准确, 因为在实际的这个讲课的过程中的话,我一直也是把这个词呢翻译成当成这个词源用词源,而且这个翻译当然不是我来翻译的啊,这个是呢,在一个圈内,咱们其实已经用的非常多的通用的一个词, 那么这个 token 呢,这个词啊,除了被翻译成词源以外的话,当然其实还有很多种的翻译啊,比如说包括有些通俗的翻译成什么令牌哎,代币 啊等等呢这些词,那么这些翻译成这些词的话,为什么咱们这次国家数据局要把它做一个完完整整统一呢?而且我觉得个人觉得啊,这个词呢,其实翻译的是非常的一个准确啊,今天呢咱们就来 来聊聊啊,就是这个词这个 token 呢到底是什么含义?以及呢,咱们为什么要把它翻译成这样一个词? ok, 嗯,首先呢咱们这个大模型呢, 它在处理各种各样一些信息的一些文本信息的时候,咱们计算机呢是没有办法直接呢去理解的啊,这是第一个问题。第二个呢,咱们呢实际过程中我们的这个语言呢,它包含了有很多种,比如说, 哎,咱们中文、英文、法语等等,哎,不同的这个语言呢,它的一些特点有些不一样哎,比如说呢,像这个英文的话,它是有天然的这个分格, 有空格,是吧?天然去分格的,那咱们这个中文的话,甚至包括像日语这些这些的话,它是没有这个天然分格的啊,每一个字啊,它要组合起来的话,它承担这个语义信息不一样啊。比如说咱们中文里面, 通常情况我们现在这个汉语里面一个字的话,通常已经不承担真正的一个语义了,我们要把它组合起来变成一个词,是吧?有些呢一个成语可能是四个字,一个歇后语的话,可能呢词的含量会更多,是吧?那么也就是每一种语言里面它包含这个词的信息最小,这个单元不一样 哎,于是呢,咱们大模型呢,要处理这种多语言的时候,就涉及了一个问题,我把最小的这个处理单元, 欸,叫什么?这里面就叫做 token, 就是 我们要对输入的一段文本内容啊,咱们要做一个分词, 在一,在我们技术上呢叫做 tokenizer, 欸, tokenizer 做完以后,每一个的独立的语,这个语义的最小的一个单元呢,就叫做 token 啊,所以说这个就是 token, ok, 就是 token 呢,就是承载了欸最小的一个语义单元。 那么对于中文里面,咱们为什么要把它翻译成元哎元呢?其实在这个中文里面呢,这个词的丰富性呢,非常多, 比如说,对吧?咱们在这里面的话,有一个在化学里面,我们有一个哎,组成物质最小的一只嘛叫元素哎,咱们除此之外,其实我们在这里面还有一个叫什么元元气,元气,或者说呢,咱们叫是吧?犯罪的这个凶手叫什么叫元凶? 一年最初的一天,咱们叫做元元旦,是吧?所以说元旦它其实呢包含咱们这里面的根本基本 啊,或者最初的这个含义,所以说这个元的这个含义呢?哎,感觉这就是非常的一个准确啊,包括咱们在计算机里面,我们使用这个,呃,有一些最基础或者最原始的一些数据啊,我们叫做元数据, 哎,所以说大家看看这个圆这个词的话,就非常的一个贴切啊。但是呢,咱们这个大模型里面,他拆成了一个个文本片段,他跟我们实际用的这个词啊,他又有点不一样,所以说呢,我们把这个大模型能够处理的 最小的一个词的单元叫做词元,哎,就是词最小的这个余单元。 ok, 好, 那在这里面咱们就说清楚了,这个词元是什么意思呢? 那么有的人肯定会说,哎,那我为什么咱们不能够把它拆成一个个中文的这个字呢?这行不行? 当然从技术上可以实现,但是带来一个问题是什么呢?我们不仅仅只能够考虑咱们的中文的生成或者中文的使用,咱们还得考虑多语言的场景。那如果说咱们要把多种语言 全部都当成一个一个的字,哎,一个个单词啊,咱们都把它塞到大模型的这词表里面去以后,就会带来一个问题啊,大模型的词表非常非常的庞大,大模型的词表又庞大,以后呢,导致呢咱们这个大模型啊生成的这个速度啊,就会非常非常的慢。 那于是呢咱们就要想个办法,哎,我既能够考虑到多语言,同时呢我能够做一个拆分呢, 能够考虑多元,同时呢咱们拆分,哎,我能够保持呢咱们最小的这个语义的这个信息,哎,词表呢又不会大,于是这里面呢就有了一些哎分词,或者说咱们叫做 tokenizer 的 一些算法。 ok, 那 么如果说感兴趣的同学啊, ok, 可以 在评论区咱们打下来, 咱们呢可以留言,如果说对咱们这个分词这个算法呀,或者怎么去分感兴趣同学大家可以留言,那么我们到时候的话也可以,哎做一期专门这个介绍这个分词的这一些算法。 ok, 好, 那么在这里的话,咱们这个视频里面就给大家说清楚了这个词源是什么含义,哎,就是咱们的大模型处理最小的这一个单元。