token 是 如何被计算出来的?之前呢,我们用了五期视频全面讲解了 token 到底是什么,全网呢有一百万播放,感谢大家的催更。这次呢,我们继续出发探讨 token 到底是如何被算出来的,最后的结果一定会让你发出原来如此的惊叹。 在模型推理阶段呢,完整流程一共分为七步。第一步呢,用户输入提示词,比如我们输入用苹果手机拍苹果这句话。第二步呢,模型将这些提示词切分成一个个托管,并得到每个托管的数字 id, 切分的依据呢,就是这个文件中的词表。 第三步,模型根据这节 token id, 从词切入矩阵中取出对应的词切入向量。比如手机的 token id 是 八五四九,对应的切入向量是这样的,苹果也是这样的。一大堆数字,为了方便演示呢,我们只取前四个数字作为演示势例。 到这里,一句话就被转为了多个数字向量。熟悉限限待数的朋友可能已经意识到,我们可以用一个矩阵来表示这句话,模型呢,也可以通过矩阵运算实现并行计算。第四步呢,模行为每个 token 呢添加位置编码,标记它们的先后顺序,否则模型无法区分你爱我还是我爱你。 位置编码的公式呢,不同模型会略有差异,具体公式呢,这次我们就不展开了,实际的效果就是在没有添加位置编码的时候,这两个不同位置的苹果向量都是一样的。添加了位置编码后呢,两个苹果的向量就变得不一样了,这样模型就能区分不同位置的 token。 第五步,模型读取这些添加了位置编码的向量,通过多层 transform 计算,最终得到了一个理想的预期向量。具体的算法细节呢,可以查看我之前发的 transform 模型讲解视频。 第六步模型呢,将这个理想向量与词表中所有的拓客向量进行比对,计算它们之间的相似度。 这就好比相亲亲友智囊团先定义出理想型男友的标准,身高一八零,有房有车、大城市户口等等,但实际情况是,没有人能百分之百符合这个条件。模型呢,就拿这个标准作为打分依据,对每个后选男嘉宾呢进行打分,也就是计算相似度。 第七步模型,根据计算出来的相似度,取出其中一个后选托肯作为模型。本次的输出 分越高,被选中的概率呢就越大,得分越低呢,选中的概率就越低。这也就是之前说的模型输出具有一定的随机性,不同时间问同样的问题,回答可能会不同。比如这个例子中,候选词照片十逗号,得分相对比较高,都有可能被选到。 最后,模型把选中的 token 拼接到已有的输入中,重复第三步到第七步,一个接一个的输出后续内容,直到模型输出结束符,这才停止输出,结束整个回答。所以你看,模型不是凭空生成内容,而是在做选择题,而每一次的落笔都是一次十万分之一的遇见。
粉丝3.3万获赞9.6万

哈喽,大家好,我是 paper, 那 今天我们来说一下我们最常用的 token 本地模型和外部的模型该怎么样去使用?就是 token, token 是 什么呢?一方面它是有这个最小计算机处理文本单元, 另一方面它也是其他的,还有很多身份认证啊,指令串密密实都百度的话,你要使用在我们的 ai 大 模型中,你就记录这个最小文本处理单元就可以了。我们再来看这个本地模型去哪里找啊?一般的话,像这个最常见的开源社区 hackin face, 我们在这里面去找本地模型,我们登录进来,然后找到这个 browser two m 加 models, 或者说你直接在搜索栏中搜索对应的名称,像这个主页,它这个首页里已经有这些,比如说像这个 minimax 的 二点一,千万的三点三,还有一些各种各样的 模型, open i 的 gptos 啊,你可以或者说这个 kimi 二点五等等,你可以点击这里去我们要找的像一些文本到图片的模型, 就是 ai 绘画模型,还有像这个文本到视频的模型啊, text to video, 还有像这个文本到文本,也就是我们的语言模型,就像豆包,千文,这些都是语言模型,我们只要去搜一下这个 text generation 文本生成,我们就可以在这里看到有千文,三点五啊,还有各种各样的 emoji 三啊,各种各样的 mini max 等等啊,只要是你所熟悉大厂,那基本他发了都在这里面啊。你看这个 b 嘛, 这个币数越大,比如十七币,八十币,三十二币,一百九,十九币,甚至这个二十八币,或者说这个四币的,这肯定效果没有那么好,是吧?那因为达到六十七币,一二一百二十四币都很大, 这东西像这个 mini max, 二点五,二点二十九币啊,二百二十九币,这个更大,这个你要是下下来,你会发现 你可能你的电脑用不了啊,就是这么简单哈。 ok, 我 们再看这个像一些其他的开放的 a p i 怎么去使用?那这里我以这个 g m 举例啊,我们直接去找到 a p i k, 点一下就进入到这个页面了, 这个页面就是你的 a p i 密匙了,我们在这个项目管理 a p i key 中找到它,像这个已经有的 a p i, 你 用到别的地方可以去,这样子你也可以直接删除,我们再可以添加个新的 a p i, 比如说你这个 a p i, 你 要去用到自己的 call 啊,那么龙虾上我们就点击 call, 然后把它复制过来,然后粘到这个 call 里,你就给它充钱就可以了哈。 你还想还想要再用一个 a p i 去做别的项目,那比如说我这个叫这个 agent agent, 那 这个 a p i 呢?我们给它复制过来,去放到别别的调用的端口里给它充钱就可以了哈。 像这个 open a d b c 的 a p i 啊,页面也差不多哈,你可以在这里点击 create new c c 啊,你也可以在这里点一样的啊,这里 name 我 写 call 啊。这个 project 你 可以放到你的默认 project 里,不过一般只有一个啊,点击 quit 就 可以了哈, 配置完之后呢,一样的,你就给自己的套餐充钱就可以了。那这个 api 呢?它不同于你的和你的传统的大模型,你直接问它那种网页对答模型不一样的啊,因为 api 呢?它 是啊, api 它是实时计费的,就说你要是用的话,你可以用到很多层面上不同,不停去调用这个模型。而你的网页因为问答呢,只要你这个模型啊,只要你这个网页关了,你就用不了了,是吧?你要是想用它,你是不是得二十四小时数在电脑前啊?你在电脑前你才能用它,但 api 不 一样,你可以做成全自动化的东西, 这样子呢,它的费用就会很高了。所以说 a p i 是 单独收费的啊。 ok, 那 今天呢,学完这课,咱们这个玩龙虾啊,或者说玩什么都会更轻松一些哈。咱们就先到这里啊, ai 啊,一定要去关注这些啊,最基础的东西,如果说这些基础东西你都不知道,那你去你就很难玩得转这些东西哈。

token 究竟是什么东西?为什么给它汉化成词源?还有大模型公司都在说消耗 token 就是 在烧钱,但还是想用户在它的大模型里消耗,那这个词源究竟啥意思? 用通俗大白话来说,我们和大模型聊天发送一段话,大模型读文字,不是一个字一个字读的,它有一个专门的分词器,呃,会把你说的一段话切成一块一块的,每一块就是一个 token。 就 例如这段话,它的今天和奖励和自己和了吗? 是分成了四个 token, 也就是四个词源。举个例子,就好比你去一家餐厅吃了一百次饭,服务员已经记住你了,你一坐下,他不等你开口就问,还是老样子红烧牛肉面,因为这个组合出现的频率太高,已经被他打包成了一个整体记忆。 但如果你哪天突然点了一个他从没见过的冷屁菜,他就只能一个字一个字的确认是这个菜吗?分词器就是这个服务员常见的组合,直接整体认, 罕见的组合只能逐字拆,整个词汇表,就是他脑子里积累了几十年的老客户点赞记录。再比如,这段话在大模型里可能会被切成这个样子, 前三个字是一个头啃,然后单独的一个字是一个头啃,包括这个标点符号和后面这个英文单词也是单独的一个头啃。再例如,你给朋友发消息打了五个哈,即使你不是在认真打五个字,你大脑直接把这串字当成一个情绪来处理, 它等于我现在很开心。分词器也是这个逻辑,它统计了海量文字,发现,哈哈,这个组合出现的频率极高,就把它打造成了一个 token, 但五个哈不常见,就会被切成两个 token。 所以 同样是哈,数量不同,消耗的 token 也不同。 这里有个网站可以看对话的 token 数量,我们来看看。例如诸葛亮,他是只消耗了一个 token, 然后再来一个司马懿,他就会显示消耗了是两个 token, 因为前面两个字是一个姓氏,然后后面那个字是单独出现的,出现的频率没有那么高。所以在 deepsea 里面,他显示的是两个 token, 包括刚刚的,呃哈哈哈哈哈 啊,五个分成了两个头肯,四个就是一个头肯,三个也是一个,两个也是一个,包括吃了吗?两个头肯包括马。再来一个马到成功消耗的是三个头肯,他的马是一个,到是一个,成功是一个,再来一个。今天 奖励自己了吗?这是我们刚刚开头的那一段话,它是分成了四个头肯,这里还有个今天奖励自己了吗?这是一个今天奖励自己了吗?就是同样的语义, 中文 token 消耗远低于英文,因为中文一个字甚至两个字就能承载一个完整概念。英文是拼英文字,一个词需要靠多个字母拼出来,分词器切的次数自然更多。同样的语义, 英文需要一千到一千二个 tock, 中文只需要五百到七百个,几乎省了一半。举个例子就是今天很开心在中文里是两个 tock, 然后换成英文的话,嗯,这句话换成英文就消耗了六个 tock, 是 中文的三倍。 然后为什么数据局把 token 汉化成词源?词源这个翻译很精准,拆开来看我们就懂了。先看词词,说的是 token 的 内容属性,它是语言的基本单位。不管是一个汉字、一个词语、一个英文词缀,还是一个标点符号, 都是语言里有意义的最小片段。这个词告诉你, token 不是 随机切出来的碎片,它是有语言含义的单位。再看源源,说的是 token 的 地位属性, 它是基础的、最小的、不可再分的单位。中文里的元这个字天然带有根本起点基础的意思。比如元素单元、货币单元。数据局把 token 定义为智能时代的基础单元,这个元用的非常到位。所以数据局把 token 叫做词元, 其实是在用一个中国人最熟悉的计量单位来做类比。就像你买东西要花多少元,用 ai 要消耗多少磁元,这两个元背后是同一种思维,把复杂的东西量化成一个可以数、可以计价的最小单位。 而且消耗托管本质上是在消耗算力、电力和内存,消耗的是现实世界的能源。那为什么这些大模型公司烧钱也要抢用户量?因为用户量本身就是最核心的资产, 上线抢用户量,是在抢未来的定价权和数据权。现在很多 ai 服务是免费或者极低价的,本质是在用补贴换市场份额,等竞争格局稳定下来,剩下的几家头部公司才会开始真正收费。到那时候,谁的用户基数大,用户依赖深,谁就有定价权。 这就跟当年网约车烧完补贴之后开始涨价是完全一样的路数。很可能在未来世界里,每个人做年终记账时,不再是今年你花了多少钱,而是今年你消耗了多少 token。

全网都在说 tok, 他 到底是个啥?这是你,这是你的 ai, 你 可以叫他菜包,他啥都知道,但他是个文盲,不识字,只识数。你直接问他谁是最帅的博主,他只会哇哇哇,那他是怎么跟你唠嗑的呢? 过程是这样的,第一步,拆。先把你的句子像拆积木一样,拆成几个小块,每一块可能是一个字,一个常用词,也可能是标点符号。接下来就是第二步,翻译。菜包眼里没有文字,只有数字,所以它有本词表, 专门把这些小积木翻译成对应的数字,而这串数字就是 ai 能看懂的语言。这时候呢, ai 就 可以读懂你的信息,进行思考,然后再把结果反向翻译成你能看得懂的文字。在这个过程当中,拆分出来的每一块小积木就是一个 tokken, 现在它有了中文名叫词源。很多收费的大模型,就是按照输入思考过程输出中的 tokken 数量来收费。 拆分的积木越多,花的钱也就越多。比如这句话呢,我们用了六个 tokken, 一 块钱的话, ai 读懂你这句话就花了六块钱,你学会了吗?

普通人到底要如何参与到算力租赁这个风口呢?今天这个视频呢,就完整的教给大家。那最近算力租赁头肯出海,这些概念就跟着 ai 一 起火出圈了。像算力啊,或者 api 租赁到底是什么?要怎么赚钱呢?简单说呢,其实就是租你电脑的算力给别人用。 我举个例子啊,比如说你想跑一个 ai 大 模型,或者用 ai 做批量的视频生成,但是呢,是能实现这种目标的设备啊,你光买显卡就得花几十万,但假如此时此刻你租别人的算力,按小时付费,那成本呢,就直接可以省百分之七十。那租算力给别人的那一方呢,也可以通过源源不断的订单来赚钱。那 api 租力呢,就更简单了,他就像是租别人的 ai 能力,比如说你想做一个聊天机器人,你不用自己直接搞技术, 租一个 api 呢,直接用别人的,非常方便。那现在 ai 可太火了呀,像做 ai 视频,搞大模型,开发智能应用,全部都得靠算力,但好的显卡呢,一台就几十万,普通人和小企业呢,其实根本是承受不住的,所以租算力呢,就成了刚需。那对于我们普通人来说呢,最简单的入局方式其实就是去大厂代理 空手套白狼。那意思呢,比如说你去当腾讯自结这些大厂的算力,或者 a p i 代理,就像帮他们卖算力套餐,你不用花一分钱啊,只要能拉到客户呢,就能拿百分之十到百分之三十的返点。 我举个例子啊,就是你推荐客户买了一万块的算力套餐,最少呢也能挣一千块,客户越多赚的越多,享用门槛非常低啊,我觉得几乎每个人都可以干。 第二种呢,就是线上平台托管算力卡,基本上等于躺着收租了,要是你手里有闲置的一些高端显卡,可以放到一些线上平台上去托管,那平台呢,会帮你把显卡租给需要的人,你什么都不用管,每天看着租金到账就行。 第三种呢,其实是适合有实力有资金的朋友啊,你们可以租个正规的 a、 i、 d、 c 机房,比如说像阿里云、华为云的机房,然后呢,自己去买一对高端显卡,配置好后呢,租给企业客户。但是 a、 i、 d、 c 机房是受国家严格监管的,所以必须要有 a i、 d、 c 的 资质,企业才可以搞,个人呢,可千万别瞎折腾。

怎样写提示词最省 token? 核心不是把话写的越短越好,而是用更少的字让模型少读、少猜、少反攻。接下来我会讲清三件事, token 到底耗在哪,哪些写法最浪费,以及怎么在不影响效果的前提下把提示词压缩下来。先说清楚, token 不是 字数本身,而是模型切分文本后的最小计费单位。 中文里一个字常常接近一个 token, 但标点、英文数字重复格式也会占你写的越长。模型读入越多,模型回的越长,成本和延迟也一起涨。最浪费 token 的 第一种写法是把需求说成一大段背景故事, 比如你只是想提炼三个卖点,却先铺垫公司历史、行业趋势、老板要求个人感受,对模型来说,和任务无关的信息越多,越占上下文,还会稀释真正的指令。 第二种浪费是重复表达同一件事,比如同时写简洁一点,不要太长,控制篇幅,尽量精练,别啰嗦人看着像强调模型,看到的是多次重复,更省透。肯的做法是直接量化,比如输出三点,每点二十字内。 第三种浪费是格式要求写的过细,像先写标题,再空一行,再写导语,再写分点,分点前加圆点。最后再总结一句, 如果格式不是刚需,就只保留关键约束,因为模型最擅长补其常见格式,你只要说清结果,不必把排版过程全写出来。 真正审 token 的 方法可以继承四步,第一,先写任务动作,比如总结、改写、翻译、提取、分类。第二,补充必要对象,比如把这段产品介绍总结成三个卖点。 第三,给关键约束,比如面向小白,口语化,每点十五字内。 第四,能用势利就少讲抽象规则,因为一个短势利常常比五句解释更省。 还有一个常被忽略的点是,不要每轮都重写。固定要求,如果你一直在做同一种任务,向默认用中文。面向短视频口播,风格简洁,最好在第一轮说清后面直补变化部分, 否则你每次都在为同一段提示词重复付费。举个对比,低效写法是,我现在要做一个面向普通用户的视频文案,希望你用通俗易懂、简单清晰、不复杂的方式帮我总结下面内容,尽量控制篇幅不要太长。 高效写法可以直接变成把下面内容改成口播稿。面向小白,一百五十字内保留三个重点 意思,没少 token 往往更省。所以怎样写提示词最省? token 关键就一句话,删背景去重复,少过程多约束。能量化就量化。 提示词不是作文,而是指令你给模型的信息,越准、越短、越直接,成本更低,结果通常也更稳。

ai 时代,大家都在说 token, 这是什么意思呢? ai 的 token, 国内专门给它起个名字叫词源,它是 ai 大 模型处理文本的最小单位。 token 呢,可以是一个字一个词,也可以是半个字,这是大模型根据人类文字统计出来的。比如说你好可以拆分成你和好两个 token。 我 喜欢 ai, 可以 被拆分成我喜欢 ai 三个 token, 常见的字和词就用一个 token 来表示,其他的就用多个 token 拼接。而图片呢,会切分成很多小小的方块,每个方块当做一个视觉的 token, 就 像拼图一样。那 token 具体是怎么收费的呢?为什么我们使用豆包或者其他大模型都没有收费呢? 但你使用 a s 记费呢?通常是按 token 的 数量来计算的,一般以百万 token 为计算单位。一百万 token 呢,约等于三本新华字典。 根据目前各大模型的收费价格,输入价格是在八毛钱到八块钱一百万 to k, 输出价格在两块钱到八十元一百万 to k。 目前各大 ai 应用为了抢占市场,让你免费使用,成本呢,暂时不用你出,如果你是企业用户或者演龙虾,就需要你支付费用。

token 是 什么?今天这期视频,我们把 token 彻底拆开来讲,先搞清楚它有几种以及各自是什么含义,再深入讲 ai 大 模型里的 token 到底是怎么运作的,以及如何帮你省钱。 token 这个词在计算机领域至少有两种完全不同的含义,很多人混淆就是因为没有先区分清楚。第一种语言 token language token 也叫 nlp token, 这是 ai 大 模型处理语言时的最小单位,是模型理解和生成文字的基本碎片, 我们今天重点讲的就是这种。第二种,身份验证 token, off token, 比如 access token、 jwt token, 这是一串加密字母串,用来证明你的身份和权限,相当于服务器给你颁发的数字门禁卡。两者唯一的共同点就是都叫 token, 这就好比苹果手机和苹果水果名字一样, 但完全是两个领域的东西。以后遇到 token 这个词,先看上下文,在 ai 和大模型的语境里,它是语言单位, 在登录 api 健全的语境里,它是身份凭证。搞清楚这个分类,你在这两个领域都不会再被绕晕了。接下来我们重点来讲语言 token。 在 ai 领域,特别是大语言模型 l l m, 像 chat、 gpt、 cloud、 gemina 一 类的系统里, token 是 模型看懂和写出语言的最小单位,它不是密码或凭证,它是 ai 内部真正处理文字的基本快,是模型理解和生成语言的原材料。 通俗的讲, token 就 像乐高积木,我们写一句话给 ai, 看起来是一个完整的句子,但 ai 不 会像我们一样理解整个句子,它会把文本拆成一个个小块及 token, 这些小块可以是一个完整的词,一部分词,甚至是一个符号或标点,每一块就是一个 token。 模型不是按人类的语法去理解,而是按这些 token 一 步步分析和预测下一个最可能出现的 token。 为什么要这样做?因为 ai 模型内部只能处理数字,不能直接看懂文字。先把文字拆成 token, 然后把每个 token 转换成一个数字 id, 再把这些数字送进模型进行计算和预测,这样模型才能理解上下文并生成回答。在实际使用中, token 还有两个非常重要的作用, 第一,它决定了 ai 能处理的内容范围大模型对话时有一个上下文窗口,就是说模型一次最多能看到多少个 token, 如果超过了这个限制,最早的 token 会被丢掉,这会影响模型理解整个对话。第二,它关系到成本和计费。 很多 ai 服务是按 token 计费的,包括你发送的输入 token 和模型返回的输出 token。 token 越多,成本越高。 那如何节省 token? 在 ai 模型使用中, token 是 直接影响成本和效率的核心指标,控制好 token 的 使用,能省钱又提升速度。下面是最有效的几个方法,帮你在实际使用时节省 token 消耗。一、精简输入内容,别把所有背景都丢进 prompt, 只把真正相关的信息留给模型,让每个 token 都有价值。缩短指令,去掉庸俗描述,可以显著降低 token 消耗。 精简上下文相当于少用 token。 二、限制输出长度,提前设定回答长度上限,避免生成宕长啰嗦内容,这样模型不会自动扩展答案,从而减少输出 token 数。 三、做缓存与复用对于重复查询或者经常用到的内容,可以先将结果缓存起来,后续类似请求直接从缓存返回,不再重新调用模型,从而节省大量输入和输出 token。 四、选对模型分阶段处理任务, 不同模型价格差异巨大。把大任务拆成两步走,先用小模型或简化逻辑生成摘药或关键内容,然后再用更强模型处理简化后的内容, 这样整体消耗的 token 更少。五、只保留重要上下文历史对话长篇内容会不断重复发送给模型,快速占满 token 上线,所以只保留与当前任务直接相关的上下文就够了,其他历史可以省略或者按需摘药再传入。 最后总结一下, token 在 计算机里有两种完全不同的含义,语言 token 是 ai 处理文字的最小单位。身份验证 token 是 证明身份的加密凭证,两者只是名字相同,本质毫无关联。在 ai 大 模型的世界里,语言 token 是 一切的基础。 ai 不是 看单词,而是看 token, 它靠一串串 token 来理解世界作判断,生成结果。这就像我们拼积木一样,模型把语言拆成一块块小积木,然后用它们组合出回答。理解了 token, 你 就掌握了和 ai 打交道的底层语言。无论是调用 api、 优化提示词,还是控制成本,都离不开这个基础概念。 token 是 ai 世界里的基本单位,是 ai 语言理解与生成的起点。好了,本期的分享就到这里,如果觉得这期内容对你有帮助,记得点赞、关注和收藏,我们下期见!

大家好,我是你们的科普达人,今天咱们来聊聊个人开发者怎么低成本入门 tocan 生产。很多朋友可能觉得 ai 模型部署门槛高,成本贵,其实只要配置得当,咱们普通人也能玩转。先说说硬件怎么选, 如果预算在一万五以内,想先试试水,那 rtx 四零九零 d 或者四零九零显卡是首选。二十四 gb 或十三 b 的 模型,搭配 i 五或 r 五的 cpu、 三十二 gb 内存, e t b 的 nvme 固态硬盘,再加上一千瓦的电源和一套散热好的机箱,总价大概一万一到一万六就能稳定运行。模型 托肯吞吐量能到每秒两百到五百个,日常测试和小流量使用完全够了。要是预算能到两到四万,想搞小批量生产,那就可以考虑上双卡四零九零 b, 或者直接上 a 一 零零,内存加到六十四 gb, 这样吞吐量能到每秒八百到两千个,接下小 b 客户的需求也没问题。硬件搞定了,软件和模型怎么选呢?模型方面,七 b 规模的 q 文二七 b instruct 或者 lama 三七 b 就 很适合入门,显存占用小,延迟低, 聊天、写文案、生成代码都在行。十三 b 的 模型像 q d r 杠一三 b instruct, 复杂推理和行业知识库的应用效果更好。这里有个小技巧,优先用 i n t 四量画板,显存占用能降百分之七十五, 速度还能提升两到三倍,效果几乎没损失,性价比超高。推理框架推荐 v l l m 开源免费,吞吐量比原声 pie torch 高十倍以上,个人开发者首选。部署工具方面, fast api 或 flask 用来封装 api 接口, prometheus 和 grafana 监控性能, e l k stack 记录日记这些都是免费又好用的工具。大家最关心的成本问题来了,按三年折旧算,入门级硬件每月折旧大概四百一十七元。电费方面,单卡四零九零币,满载运行 每月电费差不多一百九十四元,总成本约六百一十一元。按每天产出两千五百九十二万 token 算,单位 token 成本约零点零零零零二三六元,也就是二点三六分。每千 token 对 比 openai 的 gpt 三点五 turbo, 成本只有它的四分之一,价格优势很明显,想快速上手, 一天内就能跑通,先装 uber 二二点零四 lts 系统,然后安装 cuda 十二点一 cuda n, 再装 python 三点一零和 vl l m。 接着用命令启动模型服务, 最后用 qiro 测试一下生成 token, 看看返回结果里的 usage 词段,统计 token 数就搞定了。最后给大家几个进阶优化建议,用 v l l m 的 批量请求功能提升吞吐量,尝试模型蒸馏,降低显存占用和延,使用 radis 做请求队列应对高流量 在整个数据库记录用户 token 消耗,实现自动计费。这样一套下来,你的 token 生产系统就既高效又经济了。怎么样,是不是觉得个人搞 token 生产没那么难?你最想先用这个系统来生成什么内容呢?评论区告诉我吧!

open core 里的 token 指的是什么? token 是 对于句子元素的划分。 open 有 个网站展示的大模型是怎么划分 token 的? 在上面输入 hello world, 可以 看到被划分成了两个 token。 如果改为 hello, 怒 world, 那 么 token 会变成三个, 似乎是看单词分的,那我们看看 beautiful 这个词会如何? beautiful 是 一个 token, beautiful 则变成了两个,说明不是与单词一一对应,太长会划分成新的 token。 再看看中文,程序员被划分成一两个 token, 包工头分化为三个 token。

如果你在用 openclaw 或任何 ai 自动化工具,却不懂 token 的 计费逻辑,你的信用卡随时会报。今天不讲故事,只讲三个核心事实, token 怎么算钱? openclaw 哪里在偷偷扣费?未来会更便宜吗? 看完这三分钟,帮你省下真金白银。第一部分, token 是 什么? token 就是 ai 把人类语言翻译成它自己能消化的数字之前的最小切分单位。 token 不 等于字,也不等于词, 它是介于字和词之间的一种智能切片。 ai 不 认识字,它只认 token。 想象语言是一张大披萨, token 就是 切好的小块。英文 pizza 切法比较规则, 通常一个单词约等于一点三个 token。 例如 hello 是 一个 running, 可能被切分为 run 加 name 就是 两个 token。 中文披萨切法比较碎,通常一个汉字约等于一点五到两个 token。 比如这个词,人工智能可能被切成人工加智能,可能会计算成七到九个 token。 第二部分,收费标准与三大致命坑,这里有三个烧钱的坑 坑一,输出比输入贵三到五倍。 ai 读你的话很便宜,但写出回答很贵, 无论模型多便宜,输出永远更贵。 g p d 四,输出是输入的三倍, cloud 甚至高达五倍,对测试永远加上限制,比如限一百字坑二,隐形消耗巨大 system prompt 每轮对话必收 我们普通的聊天室,你问一句,我答一句。但在 openclo 里,每次对话都会自动打包三样东西,第一是系统指令,告诉 ai 它是谁。第二是历史记忆,就是你过去的聊天记录。第三才是你提出的问题, 哪怕你只是和 openclo 打个招呼,发了你好两个字, openclo 后台可能已经偷偷发送了三千到一万五千个 token 的 背景信息给 ai, 这意味着你还没开始聊就已经欠费了。 对策,定期清理记忆库,别让书包太重坑。三、自动化死循环这是最可怕的,如果你的脚本出错,陷入到死循环,即 ai 生成代码,到运行报错,再到 ai 修复之后系统再报错, ai 再修复, 有用户脚本死循环,一周跑出一点八亿 token 的 天价账单。更有 ai 后台崩溃,重洗四千六百七十一次,主人却完全不知情,你没操作,电脑在空转,钱在狂烧。 对策,必须设置每日消费上限。第三部分,未来 token 会便宜吗?结论,单价必跌,总账难审,为什么跌?因为以后算法会更强,芯片会更便宜,大厂会进行价格战,现在价格已经是两年前的百分之一。 那为什么总账难审?因为杰文斯贝论越便宜,你用的越疯。以前只敢问一句话,以后会让 ai 读完整个图书馆,结果单个托肯像自来水一样便宜,但你家的水费账单反而更高了,别指望免费,要指望控制用量。 第四部分,立刻执行的四条止损指令,一、切换模型简单任务,如翻译总结,强制使用经济型模型,如 deepsea quiz。 问 turbo, 别用旗舰版杀机二、设置应限额,去云厂商后台设置 daily budget, 每日预算超支自动停机。 三、限制输出长度,在所有提示词末尾加上回答,严格控制在两百字以内。四、清理上下文,每周清理一次 opencloud 的 长期机密库,减小背景包体积,不做这四步,你的下一次账单爆炸只是时间问题。 节语 token 是 ai 时代的电费, opencloud 给了你超级算力,但也给了你超级账单的风险。懂规则才能驾驭它,不懂规则就是为它收割。觉得有用点赞收藏,转给你那个正在乱用 ai 的 朋友。

你如果用这个 open cloud, 肯定会消耗很多 token, 那 最好的方法就是用免费的模型,这里它就会支持 onigravity。 千问还有 open code, 咱们这里就教一下怎么设置这个 onigravity。 用它里边的免费模型装上了之后就 out bought config, 这里边就点选 logo, 这里边儿选 model, 这个再选里边儿的模型。因为 onigravity 是 谷歌的,所以这里边儿选谷歌,选 onigravity。 当然你可以选这个 google gemini c l l, 这个也是因为 gemini c l l 也是免费的,但是 onigravity 它有更多模型,包括 cloud code 的 模型,还有 gemini 的 模型,所以这个 咱们选 onigravity, 它会跳一个网页让认证,所以这里你就选你的谷歌账号儿就可以了。 三音这很快就认证成功了,就可以选模型了。这里它选的模型比较多,所以就会需要一直往下拉, 它在谷歌 on the gravity 里边往下走,走走走,这是 coco 的 get up, 对, 这里就是大家可以看到谷歌 on the gradient。 我 这里边是把谷歌 on the gradient 下边的模型全都选了之后选,直接按空格就可以选和反选, 选完之后按那个回车就可以选定了,这里话直接跟 t 钮,然后它结束之后就可以自动地使用 anti gravity 模型了。这样 clubbot open cloud 就 可以免费使用 anti gravity 里边的 cocoon 了,就不用自己买 cocoon。 当然你可能配置完之后想选自己的首选模型,因为 integrative 里边儿有很多模型,咱们可以在这里边儿配置。在这个尼加目录点 cloud bot, cloud bot, 点 jason, 我 这里边儿直接打开,咱们就往下走,这里边儿你可以看 a 阵词,下边儿这有一个 default, 这就是你默认用的模型,这里有个 primary, 就是 它首选的模型。就是啊, google on the gravity 里边儿这个 color whoops, 四点儿五 thinking, 这个比较慢,所以我想要把它改成 gemini flash 这个模型,咱们呢? sun flash 对 这个模型会比较快,所以我想把它改成这个模型,当然你可以自己改,它就会首先尝试的模型是这个,如果不行,它会用 fallback。 这边的模型我现在已经改好了,之后我就可以保存重启一下 clubbot, 它就可以 clubbot play the gateway start, 我 又拼错,然后这就重启了,就可以开始用我新设置的这个 drama 三 flash 这个模型了。咱们看一下它具体的情况, 你就会看到你的模型已经开始用。呃,首选模型,这个有时候它算比较慢,但是总体来说它会遵循你的配置的。今天就到这来谢谢大家,希望可以帮到你们。

大家好,今天咱们来聊聊一个特别重要的概念, token。 你 可能经常听说这个词,但它到底是什么呢?其实啊, token 就是 大语言模型处理文本时的基本积木块。想象一下,我们搭积木最小的那块零件就是 token, 模型就是用这些小零件来理解和生成文字的。那这些积木块是怎么来的呢?其实啊, token 就是 大语言都记的向量,最后模型会把这个向量和词表里所有 token 的 向量比对,找出最相似的,这就要靠分词器了。分词器会把我们输入的文本切成一个一个的 token, 不 过 切分方式可不是固定的哦,它可能是一个完整的单词,也可能是一个字,甚至是一个字母。具体怎么切要看模型的规则。 比如说中文人工智能,有的模型可能切成人工和智能两个 token, 有 的可能切成人工智能四个字。中文就更直观了,像 i like apples 这句话,通常会被切成 i like apples 和这四个 token。 了解了 token 是 什么,咱们再来看看它是怎么工作的。当你给模型输入一段文字,比如问个问题, 模型首先会把这段文字切成 token, 然后给每个 token 分 配一个独一无二的数字 id, 就 像给每个积木块贴个标签,接着模型会根据这些 id 从词嵌入矩阵里,找到对应的向量。这就像积木块的说明书,告诉模型这个 token 代表什么意思, 光有意思还不够,模型还得知道这些 token 的 顺序,所以会给他们加上位置编码,这样模型才明白谁先谁后。然后就是模型内部的 transformer 大 显身手了,经过一系列复杂计算,生成一个预期的向量。最后,模型会把这个向量和词表里所有 token 的 向量对准,找出最相似的那个 token 作为输出,然后重复这个过程,直到生成完整的回答。说到这里,就不得不提上下文窗口了, 这就像模型的工作记忆,指的是模型一次性能处理的最大偷坑数量。如果你的输入太长,超过了这个窗口的容量,模型就会记不住前面的内容,就像我们脑子一下子塞太多东西会混乱一样。而且这个窗口也不是一成不变的, 有的模型会动态滑动,更关注最新的信息。但总的来说,窗口越大,模型能记住的东西越多,但计算成本也越高。那 token 和我们的钱包有什么关系呢?当然有关系啦,用 api 调用大模型的时候, token 数量可是计费的关键。 一般来说, api 成本就是 token 数量乘以单价,再乘以调用次数。这里要注意的是,输入的 token 和输出的 token 都会算钱哦。而且中文和英文消耗的 token 数量还不一样,中文通常更费 token 大 概一到两个汉字就相当于一个 token, 而英文呢,差不多四个字母才。 所以学会省 token 就 等于省钱了。给大家几个实用小技巧,首先,指令一定要精确,别啰嗦,直接说重点。其次, 提供信息的时候只给关键的,别把整个文档都粘贴进去,模型也看不过来。还有,如果开启新话题,最好新建一个绘画,这样可以避免之前的荣誉信息占用 token。 最后,如果你对回答长度没特别要求,可以限制一下输出长度。好了,今天关于 token 的 知识就讲到这里,相信现在你对 token 是 什么,怎么工作,为什么重要,以及怎么省 token 都有了一定的了解。 那么问题来了,你平时在使用 ai 工具的时候,有没有注意过 token 的 消耗呢?或者你还有哪些关于 token 的 疑问,欢迎在评论区告诉我,我们一起讨论。

用 ai 的 时候总能看到 token 这个词,那到底是什么呢?搞懂它真的能帮助你省钱的,你可以把 token 理解成为乐高积木啊,我们平时说话用的是文字, 但是 ai 它是读不懂文字的,它需要先把说的话拆成一小块一小块的积木,那每一块就是一个 token, 那 到底怎么拆呢?我来给你看一下啊。我们随便找一个 token 的 计算工具,输入这段话 看一下。这段话被拆成了三十四个 toc, 而且每一块积木都有自己的编号,这里边有几个比较实用的参考数字啊,就是大约四个英文等于一个 toc, 一 百个 toc 大 约是七十五个英文单词, 其实中文他是更费 toc 的, 同样的意思,中文消耗的 toc 通常会比英文的多。为什么我们要关心这个呢?因为每次你跟 ai 对 话的时候,你输入的 toc 通常会比英文的多。为什么我们要关心这个呢?因为每次你跟 ai 对 话的时候,你都在消耗 toc, 而 toc 就是钱,你打的字越多, ai 回复的越长,花的就越多。其实就跟我们用手机流量上网是一个道理,五 g 更费流量。所以下次用 ai 的 时候呢,提示词尽量的写清楚,写精准,既能够拿到好的回答,也能够省偷看。 而且最近呢,官方给 token 做出了一个解释,说它叫词源,但是我觉得这个解释比较中规中矩吧,并不是所有的这种单词都是需要有一些中文的翻译的。好啦,我是开心关注我每天进步一点点。

今天不讲故事啊,今天讲点干货,讲一个英文字母,呃,可能你现在不了解它啊,但是在几年之后你一定会了解这个词语,这个词语就叫 token 这个英文字母,大家,呃,可以去私下的去了解一下啊。 talk 是 什么呢?就从很简单的一个逻辑来说,他就是一个算力的计量单位,但是这样说也不全面啊,我简单给大家讲一讲 talk 的 意思到底是什么? 假如你给 ai 输了一条指令,你说,呃,我要吃饭, ai 会把我要吃饭,我分成一个模块,要分成一个模块,吃饭分成一个模块。然后 因为 ai 他 是看不懂我们的汉语的啊,他是会把我们写的文字转换成数字,比如说我,呃,一二三四五啊什么的,或者说举例,一三二一五啊,这个是就下面会组成数字,这个这个 过程就是 ai 把它转换成数字的过程,是需要消耗算力的,这个算力简称 top。 为什么我要讲 token 呢?是因为我们现在每使用的 ai 就是 你每给他输入的一条指令,他都会消耗无限的 token。 为什么?嗯,现在那个 token 算力没跟我们要钱呢?因为现在各大的 ai 平台在抢数据,抢用户,所以说暂时还没有给我们要这个 money, 但是在以后发展到一定程度,一定会给我们要 算力,就是我们需要支付 token, token 所消耗的那些资源。算力就我们现在用的货币,那以后肯定会以 token 为主流货币。我们现在应该关注的是什么? 我给大家画一个大三角啊,就是如果你以后要了解呃,关于算力这方面的知识,呃,就是分成一个三角,最底层是什么? 这个三角的最底层就是能源、风能、电能或者石油天然气,然后就各种这种,就是他们是用来发电的,就比如说我们在 呃石油时代发明的那个发动机,就是他们是给发动机提供氧料的,就是给呃给 ai 算力提供氧料的,这个是最底层。那么第二层 就是我们的芯片,比如说大家电脑应该都听说过 gpu 啊,就是处理速度,比如说 ai, 我 们有些 ai 它处理速度慢和快,就是因为芯片就是目前出现的,就比如说我们好五 g, 还有国家现在做的芯片工厂就是芯片第二层,这就是我们第二层的工业。然后第三层就比如说阿里云、 微软储存数据中心的,第三层是储存数据中中心的,就相当于是做一遍加工,就把芯片算出来的东西做一遍加工,给到最上端就是大模型,我们平常做的豆包, 然后还有嗯, deepsea, 然后还有国外的 open ai, 就是 呈现给我们的,他们就是大模型,就是服务大众的,服务大众。那我们为什么要关注这一层面呢?就是因为这个大三角 是制造出 token 的 主要来源,就是他们就是 token 的 主要工厂。我们为什么现在要这么专注 token 呢?一定要对算力,对国家的发展 去关注,去了解,我们每个人都想要过上好的生活,过上漂亮的生活,那如果你不去学习,如果不去关注国家政策,你连国家现在的发展方向都是都不知道,你如何跟上国家的脚步去行动,去走下一步?不可能的, 所以说大家一定要去了解,在以前啊,我们出海电力出海是很难的,但是一旦有了饕餮, 我们国家的算力出口是会很快很快很快的。我再简单给大家讲个逻辑啊, 就是,呃,我们现在为什么涛肯出来了,我们国家会大力发展,比如说在国内,我们假如以前要运商品啊,要先经过海运,我们国内要先经过加工,然后经过海运, 最后到外国,那现在 tucker 出来了,就我们不需要中间经过这个海运了,就是我们比如说老外用大模型,用 ai 给我们输了一条指令,通过电缆一秒就可以到达 我们国家,然后我们国家经过电力算力重重的结构得出来结论,直接把这个答案 发给外国就可以了,就中间省去很多步骤,然后中间的成本能耗啊,各种消耗,会很损耗很多很多成本,然后我们自己国家的方向就在这里, 所以大家一定要关注算力国家以后的货币政策可能就跟头婚有关。嗯,如果大家想要见证不一样的世界,一定要去学习学习,学习学习再学习啊。今天这个视频很长,但我讲的都是干货, 大家如果有不懂的问题可以及时来找我了解,我也希望能把我自己的经验更多的给大家沟通。好吧,今天的干货讲讲到这里啊,希望大家能多了解我,真的真的真的希望大家一定 站到更高的层次,我们一起去共同建造这国家,构建这个美好的国家啊,加油!

企业怎么用 top 放大收入?大家好,我是程序老张,前两期我们讲了 top 怎么赚钱,普通人怎么参与。这一期我们回答第三个问题,企业怎么用 top 放大收入?很多老板还在把 ai 当工具, 觉得就是帮员工省点时间,这也太保守了。真正的机会是用滔凯重构商业模式。我总结了三个杠杆模型,模型一,成本杠杆换成滔凯,把原来按人收费的业务换成按滔凯收费。举个例子, 传统萨斯软件按账号收费,一个月几百块。换成 ai 驱动的服务,按掏粉收费,客户用越多,你赚的越多。现在客户增长十倍,掏粉可能增长一百倍,收入增长一百倍,这就是从现行到指数的奇幻 模型二,规模杠杆用 top 把你的人效拉到极致。一家一百人的公司,用 ai 做客服、做销售、做设计,原来只能服务一百个客户,现在可以服务一千个、一万个客户,人没变,收入翻了十倍,这就是 top 带来的规模化能力。 模型三,产品杠杆把 tokken 变成产品本身,比如 ar 简历优化工具、 ar 合同审核工具、 ar 视频剪辑工具,每一个工具背后都在烧 tokken。 你卖的不是软件,是 token 的 封装服务,用户用的越多,你赚的越多,而且边际成本几乎为零。所以你看,企业用 token 放大收入,本质上就是把固定成本变成可变成本,把人工服务变成规模化服务。关注我,一起探索 ar!

toker 到底怎么赚钱?大家好,我是程序老张,上一集我们说了 toker 就是 ai 的 电费加流量费,那这一集我们就来拆解一个核心的问题, toker 到底怎么赚钱?先说一个简单的公式,收入 等于 toker 单价乘以 toker 消耗量。听起来很简单,对吧?但里面的逻辑跟以前完全不一样, 以前软件怎么赚钱?卖许可证?一个账号收一分钱,用户用多少,你收入都一样,但头肯不一样,你用的越多,我就赚的越多。这导致一个结果,在 ai 时代,你的收入上限不再被用户数限制了。 我给你举个例子,假设一个企业用 ai 处理客服,以前招十个客服,成本固定,现在用 ai 成本按 top 算,业务增长十倍, top 销货也涨十倍, 你的收入也涨十倍。这就是 top 生意的本质,它是按使用量收费的规模化生意。现在你回头看一个数据,中国 ai 大 模型一周调用量五万亿, top 五万亿乘以 toker 单价收入是多少?这就是为什么云厂商母婴厂商全部都在讲 toker 入口,因为谁掌握了 toker 的 出口,谁就掌握了 ar 时代的水龙头。 那问题来了,这个生意普通人能不能分一杯羹呢?下一集我们就讲普通人怎么参与 toker 经济。

使用 openglue 呢,如何让每一个 token 都花在刀刃上?先问一个问题啊,就是你用 openglue 一个月花了多少钱?有的人可能花了六百美金,有的人呢,花二十美金,但是他们干的活有可能是差不多的。差距在哪里啊? 差距就在于你有没有让每一个 token 呢,都花在这个刀刃上。今天这条视频,我把社区里面验证过的是, token 就是省钱的方法呢,全部浓缩成三部,看完你立刻就能用。我们先说一个真实案例啊, reddit 上呢,有一个老哥跑了一个自动化新闻分析的 agent, 他 以为呢,每天的消耗呢,是很低的,结果呢,外部 a p i 返回了一个异常数据, agent 开始无限循环重试,结果一觉醒来,账单已经 一万两千八百四十七美金。所以 opencube 的 透视消耗呢,有一个最大的坑,就是上下文累积。你每发的一条信息,它会把之前所有的当前的筛选的对话历史,系统提示工具定义,还有 skill 的 定义,全部重新发一遍。注意啊,这里面系统提示词可不是说几句话或者几段话的。这种事我之前有个视频详细讲过 opencube 的 五大配置文件,那里面也提到了,就是我们每次对话开始呢,这五个文件呢,全部内容 都会加载到系统提示词里面,包括这个 agent, m d, sun m d, u s m d, heartbeat m d 以及 open clue 点 jason 这五大文件。 现在你对话一百轮之后,光 token 输入呢,就是两万多 token, 一个月下来几百美金就这么烧掉了,那我们要省钱怎么破呢?三步走啊!第一步,做模型的分层,不要用大炮打蚊子。 open clue 二零二六年最近的一个重要更新,就是支持了 自适应的模型路由。简单说呢,就是我简单的任务呢,我用便宜的模型,然后复杂任务呢,我才上贵的。给大家一个社区验证过的五层方案啊。第一个就是心跳检测,简单分类这些,用 gemna flash 这个模型,一百万 token 才一毛钱。第二个呢,你做日常分析讨论,用 kimi k 二点五或者是 deepsea v 三六毛钱,一百万 token 呢,不到一块钱。第三个,你做内容创作,内容创作呢,对表达是有要求的,那你上 cloudsonet 这个模型啊。第四就是最难的决策,采用 cloud operas。 那 从开源社区的反馈来看,用户呢,就靠这一招,月份呢,就可以从八十七美金降到二十七美金,省了百分之七十。 第二步啊,砍掉隐形的浪费。三个最容易忽略的 token 黑洞。第一个呢,就是 send 点 m d 文件太长了,很多人写了这个两三千字的系统提示,每次调用都要重新发,我们要把它砍到三百字以内,这样历省百分之三十到百分之五十, 怎么来压缩呢?首先,你得懂 sao m d 的 构成,可以看我往期的这个视频,或者看我们的蓝皮书。第二呢,有可能你没有开 prompt capture 的 提示词缓存功能,能够把重复内容的费用呢,降低百分之九十,通过 catch retention 这个参数可以一行配置的。是呢,很多人却不知道。第三个,心跳任务用了贵模型,那 open cool 呢?这个心跳任务呢,是每半个小时它就要触发一次的,如果你用的是 opengool, 那 一个月光心跳,那就得烧几十美金。 所以我们要把心跳模型呢,单独设成着 hico 或者更便宜的模型,这笔钱呢,你就省下来了。那还有一步呢,就是设安全网,防止翻车。大家要记住这个三道防线啊。第一个就是 opencloud 的 层面,设置,单独的请求上线,每小时上线和每天的上线。第二呢,还可以在 api 平台层面来设置,比如说 osmic 或者 openai, 或者第三方的中转,比如说 apprutor, 他 们在后台你都可以设置使用的上限的限制的。再一个呢,就是支付层面,用预付费的账户可以充多少呢?用多少,不要透支。前面讲的那个一晚上烧了一万二的脑壳呢,就是因为这些防线呢,他一道都没有做啊。 所以最后我们总结一下,第一个模型分层,第二个砍掉浪费,第三个设好防线,这三步做完,社区的平均数据呢,是这样的,月费呢,能够从六百美金降到 五十美金左右,不是省一点,而是省下了一个数量级。 opencube 的 核心理念是让 ai 帮你干活,帮你赚钱,但前提是呢,你得管好成本对吧,这样你才有利润,虽然它有收入,但是呢,你成本太高,可能你利润没有了,所以呢,只有你的 r o i 大 于百分之百,那这个 token 呢, 挖的才值, ok。 以上这些完整的配置方案和踩坑的清单,都更新在了一百八十九页的 open clue 蓝皮书的最新版本里面。如果这条视频呢,对你有用,可以点赞收藏,我们下个视频呢,继续聊,当然最重要的就是你看完得马上用起来。

哎,大家好啊,咱们现在天天都跟 ai 聊天,用它搜东西,对吧?但是你有没有想过一个问题,这机器它到底是怎么听懂我们说话的?它怎么就能明白我们话里头那个意思呢? 今天呢,咱们就来聊个好玩的,一起揭秘一下机器的这种数字感官到底是个啥玩意?好,咱们直接来看看谜体,你看屏幕上这两句话,你仔细看看是不是一个字都不一样,但是 ai 就 能立马知道,这两句话说的其实是一码事, 这简直了,就像 ai 会读心术一样,对不对?今天咱们的任务就是把这个戏法给它拆穿了,看看它到底是怎么做到的。来具体看看这两句话, 第一句很简单,我想买部手机。第二句呢,推荐一款好用的移动通信设备,你看,从字面上看,真的一个共同的词都没有,但是 ai 就是 知道这两句话的意图是一样的, 那他是怎么做到的呢?别急,咱们一步步来把它拆开看好。要解开这个谜,咱们得先明白一个最最根本的道理, 那就是电脑啊,它其实是个文盲,它不认识汉字,也不认识英文字母,它唯一能看懂的就是数字。所以说第一步咱们必须得给它做个翻译, 这个翻译的过程形化叫 tokenization, 说白了就是分词,这个分出来的最小单位呢,就叫 token。 你可以这么想,这个 token 啊,就好像是大模型自己发明的一套拼音系统,它看我们的文字,不是一个字儿一个字的读,而是把它拆成自己能理解的一块儿一块儿的词,块儿,也就是 token。 哎,说到这个 token, 就 有个特别有意思的事儿了,这直接关系到咱们的成本。 你看这个例子, i like ai 和中文的我喜欢人工智能,意思一模一样,对吧?但是你猜在机器的眼里,这两句话的长度或者说大小一样吗? 答案可能跟你想的不太一样,咱们直接看图,这就很清楚了。你看啊, i like ai 被分成了三个 token, 没毛病,但是 我喜欢人工智能,你猜怎么着,居然被分成五个,多出来两个。这背后的原因,简单说就是中文的分词规则要复杂一些,所以啊,往往同样一个意思,用中文表达,会用掉更多的头感。 所以说, token 数量不一样,这有什么关系吗?关系可大了,主要有两点都跟咱们的钱包和效率有关。第一就是成本, 现在的大模型服务基本都是按 token 数量来收钱的,那你想啊, token 用的越多,花的钱就越多,这很直接。第二呢,是模型的记忆力,型号叫上下文广。譬如一个模型说自己有十二 k 的 记忆,这个 k 啊,指的就是 token 的 数量。 那中文消耗 token 更快,就意味着你给他一篇长文章,他能记住的内容实际上比处理英文时要少。好, 第一步完成了,我们成功地把文字变成了数字,也就是 token。 但是新的问题又来了, 你想啊,就算猫的编号是幺零五,狗是幺零六,那机器还是不知道它俩有关系啊,它看到的就只是一堆孤零零的数字。所以,下一步,咱们得给这些冷冰冰的数字注入灵魂。 为了搞明白怎么注入灵魂,咱们来玩一个思维游戏,想象一下,我们现在有一个巨大的空白的宇宙,一个意义宇宙。首先咱们先给这个宇宙画一条轴,一个维度, 这条轴代表什么呢?我们就叫它是不是活物这个维度吧。好,有了一条轴还不够,我们再加一个维度,画第二条轴,让它跟第一条垂直。 这条轴呢?代表体型大小。你看现在我们的意义宇宙就不再是一条线了,它变成了一个平面,开始有空间感了,对吧?接下来就是最关键的一步了,咱们开始往这个空间里放东西, 比如说猫和狗,它们是不是活物?是,那在活物这条轴上得分就很高,体型大不大?不大,所以在体型轴上得分就比较低。那它们是不是交通工具呢?肯定不是,得分就极低。 这么以来,你看猫和狗在这张地图上的位置是不是就挨得特别近?那汽车呢?它在火雾上得分极低,在交通工具上得分很高,所以它的位置就跟猫和狗离得十万八千里来。 看到这儿你应该就明白了,我们刚刚玩的这个游戏其实就引出了一个超级核心的概念,叫 embedding, 中文翻译成磁响亮, 它说白了就是我们刚才画的那个坐标。只不过 ai 用的那个异宇宙,它的维度可不是咱们这两个三个,而是成百上千个。比如说现在主流模型用的是一千五百三十六个维度, 你能想象吗?所以每个词它就对应了一长串,比如一千五百三十六个小数,而这串数字就成了它在 ai 那 个高维宇宙里独一无二的,精确到不行的地址。 好的,现在厉害了,宇宙建好了,每个词儿每句话也都在里面找到了自己的位置,有了坐标,那还差什么呢?还差最后一步,我们需要一把尺子,一把能测量这个宇宙里两个点之间一丝远近的尺距。 这把神奇的尺子名字叫鱼弦相似度。他的想法特别聪明,他量的不是两个点之间的直线距离,而是把每个点的坐标都想象成一个从宇宙中心点划出去的箭头, 它真正测量的是这两个箭头之间的那个夹角。你想想,如果两个箭头指的方向差不多,那夹角是不是就特别小?夹角越小,就代表它们的意思越接近,就这么简单。 好了,工具齐了,我们现在有了意义,宇宙有了每个句子的坐标,还有了一把叫鱼弦相似度的尺子。 那咱们就回到最开始的那个问题,看看那两句完全不同的话。我们现在知道了,它们各自都会变成这个宇宙里的一个坐标点,或者说一个线头。 见证奇迹的时刻到了。当我们用鱼弦相似度这把尺子去量一下这两个箭头之间的夹角,得出的分数是多少呢?高达零点九八, 这几乎就是一了。这说明什么?说明这两个向量,也就是这两个箭头几乎是重叠在一起的,指向了同一个方向。所以,这就是机器懂我们意思的秘密,它根本不是在读字,它是在算数学题,在计算这些点在空间里的几何关系是不是很括 好。理解了上面这些,你就会发现,这可不是什么遥远的科学理论,恰恰相反,这个原理已经悄悄地变成了我们每天都在用的各种 ai 工具的心脏。 咱们最后来快速地捋一遍,整个过程你看就是四步,第一,你打字输入的文本被切成一块一块的一个坐标,也就是 embedding。 第三,也是最关键的一步,系统用鱼弦相似度来计算你的这句话和他知识库里其他话的夹角, 最后他就把那个夹角最小的,也就是意思最像的作为答案给你。所以你看咱们平时用的那些 ai 搜索,你在电商网站上看到的,猜你喜欢。还有那些能跟你对答如流的聊天人机七人, 它们最最核心的底层引擎就是咱们今天聊的这一套东西。所谓的 ai 语义搜索,说白了就是在那个几千个维度的空间里,帮你找到那个在意思上离你最近的答案。那么最后也留给大家一个问题一起思考一下, 既然 ai 已经开始用这种深层的意义,而不是简单的关键词来组织和理解我们这个世界了, 那你想想看,在未来这种能力会给我们的工作,我们的生活,甚至是我们的创造,理解索哪些我们现在可能根本想象不到的新玩法呢?