你知道吗? ai 模型竞靠 token 这个小单位,把人类语言变成了机器能懂的计算语言。 token 这个看似简单的概念,实则是大模型处理文本的基石,它就像翻译中的暗自收费,是文本处理的最小单位。 不仅在自然语言处理中大放异彩, token 在 计算机、科学、金融等领域也有着广泛应用。 实现 token 化的技术多种多样,比如 word piece、 bpe 等,它们各有千秋,也各有挑战。在 ai 模型中, token 经过分词和编码,摇身一变成为数字 id, 助力模型理解并生成人类可读的文本。这种处理方式让大模型能够游刃有余地处理各种长度的文本信息。 然而实际应用中也并非一帆风顺,分词力度和上下文窗口的限制就是两大难题。比如处理中文时,一个汉字就是一个 token, 但新造词就可能让分词变得棘手。 值得一提的是, token 还广泛应用于身份验证、安全访问控制等场景,成为连接现实与虚拟世界的桥梁。 token 的 概念正随着 ai 技术的发展不断扩展,成为跨领域的重要工具。你对 token 还有哪些了解?快来评论区分享你的看法吧!
粉丝66获赞2981

最近 togan 到底怎么翻译?在互联网上引发了一波热议。起因是一条来自国家官网的新闻,相当于官宣了 togan 的 意法。词源 一时激起千层浪,先别急着站队,我们先把 togan 这个词捋清楚。 togan 本意是象征,比如情人节送人玫瑰就是 a token of love, 爱的象征。在不同领域中,它隐身出了不同的含义。玩阶级时,那种圆圆的 token 意为游戏币。计算机安全领域中的 token 意为令牌。加密世界里的资产单位意为代币。到了 ai, 这意为词源。那么这个词源到底怎么去理解呢? 根据官方的解释, token 是 大模型处理信息时的最小单位。大模型处理一个文本时,不是整段整段的读, 而是会把它拆成一个个更小的单元,再逐步处理。从这个角度来看,词源这个翻译其实在强调它既跟词有关,又是一个基本单位源。这有点理工男的风格啊,不浪漫,但是也确实抓住了本质。不过一些网友不太买账啊,有人说词源太别扭了,并且提出了像智源等更有科技感的议法。 也有人觉得,不管叫什么,有中文名字总是一件好事。因为这一波 ai 浪潮里,大量底层概念都是来自于英文世界。什么 chatbot、 prompt agent、 token, 如果不进行一轮中文重构,那么这些词就会变成一种圈内的黑化,懂的人越懂,不懂的人呢,直接劝退, 久而久之,就会形成一个隐形的门槛,把大量普通人挡在门外。正如当年我们把 laser 翻译成激光,把 computer 翻译成电脑就挺成功的,既好记又突出了特点,还极易传播。所以给 token 找一个好的中文名啊,本质上是在做一件更大的事, 是用我们的母语去构建数字世界的底层认知。但另一派的观点也很鲜明,就是 togel 作为一个外来的专有名词,没必要用中文硬翻。这个评论倒让我想起了 dna 这个说法,貌似没有简洁的译法,但也不妨碍大家交流使用,对吧? 这样争论还挺有意思的,它不只是一个词的翻译问题,背后其实藏着一个更大的命题,就是我们要不要为新技术建立一个属于自己的语言体系呢?词源或许不是一个最优解,但是它至少是一个开始。你接受词源这个翻译吗?还是更愿意直接说 token 评论区聊聊?

一个视频告诉你什么是 token。 你 有没有发现,用 ai 现在是越来越贵了,明明是同一个模型,有人用一百块能干一个月,有人用三天就没了,差距在哪?就两个字。 token 这个词呢,很多人听过,但没有几个人真的能搞懂。今天我用三分钟把它讲透。 你想象一下,你去餐厅吃饭,菜单上写的不是一盘菜多少钱,你吃了多少口就付多少钱。 talk 就是 ai 世界你的口,你说的每一个字是一个 talkin, ai 回复你的每一个字也是 talkin。 你 们来回对话的所有内容全都是在计算 talkin, 那 具体怎么算?中文大概是一个汉字约等于一个 talkin, 英文大概是一个单词约等于一到两个 talkin。 你 问 ai 一个问题,写了两百个字, ai 回答了你五百个字,这一来一回就消耗了大约七百个 talk。 那听起来不多,但如果你是一家公司啊,每天有一万个用户在用你的 ai 产品,每人平均一次对话七百个 token, 那 一天就是七百万个 token。 按照现在主流大模型的 a p a 价格呢?这一天光 token 的 成本就可能是几千块。那不懂 token, 你 根本不知道钱烧在哪里。 更关键的是, token 不 只是钱的问题,它还决定了 ai 到底能看多远。每个大模型都有一个上下文窗口,就他一次能看到的 token 总量啊。比如某个 token 的 上下文窗口是一百二十八 k token, 意思是他一次能最多记住大约十万字的内容, 超过这个范围的,他就直接忘了。就好比你雇了一个助理,他的桌子只有这么大,你把一百页文件堆上去,他只能看到摆在桌面上的那些,其余的他根本不知道存不存在。 所以你现在明白了,为什么有时候你跟 ai 聊着聊着,他突然开始答非所问。不是他变笨了,是你们的对话太长,早期的内容已经超出了他的 token 窗口,被推出桌子了。这就是 token, 它是 ai 的 货币, 也是 ai 的 记忆边界啊。你不懂它,你就永远不知道自己在用 ai 的 哪个层面吃了亏。我想问你一个问题,你现在用的 ai 工具,你知道它的 token 上限是多少吗?你有没有因为不懂 token 踩过坑?评论区告诉我?

token 是 什么?今天这期视频,我们把 token 彻底拆开来讲,先搞清楚它有几种以及各自是什么含义,再深入讲 ai 大 模型里的 token 到底是怎么运作的,以及如何帮你省钱。 token 这个词在计算机领域至少有两种完全不同的含义,很多人混淆就是因为没有先区分清楚。第一种语言 token language token 也叫 nlp token, 这是 ai 大 模型处理语言时的最小单位,是模型理解和生成文字的基本碎片, 我们今天重点讲的就是这种。第二种,身份验证 token, off token, 比如 access token、 jwt token, 这是一串加密字母串,用来证明你的身份和权限,相当于服务器给你颁发的数字门禁卡。两者唯一的共同点就是都叫 token, 这就好比苹果手机和苹果水果名字一样, 但完全是两个领域的东西。以后遇到 token 这个词,先看上下文,在 ai 和大模型的语境里,它是语言单位, 在登录 api 健全的语境里,它是身份凭证。搞清楚这个分类,你在这两个领域都不会再被绕晕了。接下来我们重点来讲语言 token。 在 ai 领域,特别是大语言模型 l l m, 像 chat、 gpt、 cloud、 gemina 一 类的系统里, token 是 模型看懂和写出语言的最小单位,它不是密码或凭证,它是 ai 内部真正处理文字的基本快,是模型理解和生成语言的原材料。 通俗的讲, token 就 像乐高积木,我们写一句话给 ai, 看起来是一个完整的句子,但 ai 不 会像我们一样理解整个句子,它会把文本拆成一个个小块及 token, 这些小块可以是一个完整的词,一部分词,甚至是一个符号或标点,每一块就是一个 token。 模型不是按人类的语法去理解,而是按这些 token 一 步步分析和预测下一个最可能出现的 token。 为什么要这样做?因为 ai 模型内部只能处理数字,不能直接看懂文字。先把文字拆成 token, 然后把每个 token 转换成一个数字 id, 再把这些数字送进模型进行计算和预测,这样模型才能理解上下文并生成回答。在实际使用中, token 还有两个非常重要的作用, 第一,它决定了 ai 能处理的内容范围大模型对话时有一个上下文窗口,就是说模型一次最多能看到多少个 token, 如果超过了这个限制,最早的 token 会被丢掉,这会影响模型理解整个对话。第二,它关系到成本和计费。 很多 ai 服务是按 token 计费的,包括你发送的输入 token 和模型返回的输出 token。 token 越多,成本越高。 那如何节省 token? 在 ai 模型使用中, token 是 直接影响成本和效率的核心指标,控制好 token 的 使用,能省钱又提升速度。下面是最有效的几个方法,帮你在实际使用时节省 token 消耗。一、精简输入内容,别把所有背景都丢进 prompt, 只把真正相关的信息留给模型,让每个 token 都有价值。缩短指令,去掉庸俗描述,可以显著降低 token 消耗。 精简上下文相当于少用 token。 二、限制输出长度,提前设定回答长度上限,避免生成宕长啰嗦内容,这样模型不会自动扩展答案,从而减少输出 token 数。 三、做缓存与复用对于重复查询或者经常用到的内容,可以先将结果缓存起来,后续类似请求直接从缓存返回,不再重新调用模型,从而节省大量输入和输出 token。 四、选对模型分阶段处理任务, 不同模型价格差异巨大。把大任务拆成两步走,先用小模型或简化逻辑生成摘药或关键内容,然后再用更强模型处理简化后的内容, 这样整体消耗的 token 更少。五、只保留重要上下文历史对话长篇内容会不断重复发送给模型,快速占满 token 上线,所以只保留与当前任务直接相关的上下文就够了,其他历史可以省略或者按需摘药再传入。 最后总结一下, token 在 计算机里有两种完全不同的含义,语言 token 是 ai 处理文字的最小单位。身份验证 token 是 证明身份的加密凭证,两者只是名字相同,本质毫无关联。在 ai 大 模型的世界里,语言 token 是 一切的基础。 ai 不是 看单词,而是看 token, 它靠一串串 token 来理解世界作判断,生成结果。这就像我们拼积木一样,模型把语言拆成一块块小积木,然后用它们组合出回答。理解了 token, 你 就掌握了和 ai 打交道的底层语言。无论是调用 api、 优化提示词,还是控制成本,都离不开这个基础概念。 token 是 ai 世界里的基本单位,是 ai 语言理解与生成的起点。好了,本期的分享就到这里,如果觉得这期内容对你有帮助,记得点赞、关注和收藏,我们下期见!

一九五六年,美国人发明了集装箱,在那之前,全球贸易的成本一半是装卸费。集装箱一出现,世界变了,货物被标准化,运输成本暴跌,全球贸易爆炸。今天 ai 时代也出现了一个集装箱,它叫 token。 很多老板听到 token 只当技术名词,但如果你是做生意的,你要看到的是,这是一次电力的重新定价。 什么是 token? 简单说就是 ai 处理文字的技能班位。你问一句话,写一段代码,生成一份报告,背后都在消耗 token。 重点在于, token 可以 被计量,被计费、被出口。这就像集装箱,把原本难以交易的智能服务装进标准化容器,从此脑力可以像货物一样卖到全球 来。算一笔账,一度电直接出口大概卖零点五元,炼成铝定大概卖一点五元,翻三倍。如果拿去跑大模型推理呢? 一度电大概能产出五百多万。 tokyo 按国内模型定价算,可以卖到十一元,十一元是直接卖电的二十二倍。如果按 open i 的 价格算,将近四百元, 七百八十五倍。你看到中奖了吗?同样是一度电,换个皮价值差几十倍上百倍。这不是能源生意,这是算力生意,是标准化的脑力出口。更关键的一点,电不能装箱,但 tucker 可以 跨国流动, 不用电网,不用特高压,不用对方国家批准,只要一根网线。印度创业者调用中国 api, 背后是甘肃的风电,青海的光伏在转电没出国,钱出国了,这才是结构性机会。 很多老板问, ai 这么卷,价格都打烂了,还赚什么钱?你要明白一件事,现在的二十二倍,不是天花板,是价格战的结果。美国把价格毛在高位,中国用工程能力把成本打下来。一个负责教育市场,一个负责规模收割,这就是新的全球分工。 真正值得你思考的,不是模型谁更强,而是在这个时代,你是卖店的,还是卖 token 的,是卖原材料还是卖标准化能力。 所有产业都会被 token 重构,教育变成按 token 计费,客服变成按 token 计费,编程变成按 token 子计费,营销、法务、设计、咨询全部变成可计量的智能服务。一旦被计量,就可以规模化, 一旦规模化,就会诞生新的巨头。生意的本质从来没变,谁掌握标准,谁赚溢价,谁只卖原料,谁被压价。 一九五六年,集装箱改变了全球制造业。二零二六年, taco 正在改变全球脑力市场。电力过剩不是问题,算力过剩才是机会。美国把 taco 价格炒上去,中国把 taco 成本打下来,悉数东算的战争才刚刚开始。 如果你是老板,现在真正该问自己的,不是要不要用 ai, 而是你能不能把自己的行业装进 tokyo 里卖。

欢迎朋友们来到八 tb 全新的直播间,今天我们聊一下大家朋友圈经常会看到的一个词, token。 也就是在昨天国家数据局的刘局长在中国发展高层论坛年会上面宣布, 人工智能领域的术语偷看的中文名正式定义为词源,并强调其作为智能时代价值锚点以及商业结算单位的重要性。那当然也有网友叫它为字源,甚至有人叫会跟这种调侃的说法,但说到底它是什么呢? 它是驱动眼下所有 ai, 尤其是各种小龙虾、 ai 助手运转的数字燃料 模型。每思考一步,每输出一个词,都在消耗 token。 那 问题就在于了,这一场由 ai 掀起的效率革命,正在被一个最现实的问题给卡脖子。 token 太贵了,真的,我都不敢养小龙虾 这种贵,它不是在单价,而是当你处理一个复杂任务,比如说生成一段视频脚本或设计一套方案的时候,消耗的 token 量会 成百上千的翻倍。那有用户就测试了一句,简单的,你好可能都会花掉几十美元。行业里面的工程师每个月养 ai 助手花费上千元已经是常态,更别说个人用户,对吧?拆算下来,日均成本轻松超过十美元,一年就是两万多了。 那对比我们熟悉的任何一款消费消费级别的软件会员,这都是一道难以逾越的成本门槛。那为什么这么贵?本质上是算力成本,这背后是昂贵的芯片、暴涨的内存以及惊人的能耗。 尤其是储存硬件,作为 ai 的 量仓价格在过去几个月内就飙升了百分之五十甚至更多,而且巨头们的订单据说已经排到五年之后。这意味着短期内 tko 呃降成本,缺少一个关键的外部杠杆。于是呢,压力就给到了技术本身哈,行业正在两条路上努力,一个就是让模型模型变小变强,用更少的参数来做更多的事情。 第二个就是拼命去压榨硬件的效率,比如把芯片实际用于计算的时间比例从百分之三十提升到百分之五十以上,或许可以省下一半的成本,但是这种技术的红利可否转到用户端,让价格下降,依然是一个商业的未知数。 就让我们想起了二十年那场激烈的 ai 价格战,那当时呢,有厂商就把价格打到接近免费,用巨额的补贴来换市场。今天的局面当然是不一样。一方面,随着小龙虾 这一类的应用爆发, b 端和 c 端的海量需求同时袭来,那稍前补贴的初选模式 模式已经不可不可同日而遇了。那另外一方面,就是,在储存硬件全球涨价的背景下, 云厂商自身也有承受成本的压力吗?打价格战的动力明显不足,但当软件端的成本暂时无解,一部分目光就投向了硬件。有人尝试哈在本地的电脑部署开源模型,这个门槛不低。更有创业公司选择一条很激进的路,就是把整个 ai 模式 焊死在专用的芯片上面。这就像特定的任务,定制一台永不磨灭的机器,效率极高,但是代价就是他只能干这件事情,没有办法升级。这就是用极致的专业性来换取极致的效率和成本, 这是一种大胆的豪赌,那归根结底我们要讨论是什么?其实就是一个简单的经济问题吗?投入产出比? 当 ai 巨头们鼓励工程师,哎,每年至少要烧掉相当于一半年薪的托肯,他一周消耗掉三十三个维基百科的体量。托肯的案例引发大家争议的说,一个核心问题又被悬置了, 多少消耗才是真正有效的?如果做一张动图的价格远超于人工成本,那这种效率意义又何在是吧? tokyo 是 ai 时代的新能源,这已经是大家的共识,但是当我们在鼓吹使用本身制造了过过剩的焦虑,那当成本的高强将绝大多数的普通人都挡在门外,或许我们应该冷静的去想一想。 那大家记不记得,上一轮的价格战中,正是 dc 用极致的性价比扮演了鲶鱼的角色来搅动了市场。 当现在市场再次陷入了 token 焦虑的时候,人们自然会期待是否有新的力量来打破这个僵局。我们下期再见。

托肯以后叫词源了,这个东西会对加密有什么影响吗?咱们今天先聊一聊什么是托肯?托肯这个词呢,对于加密圈或者对 word 三行业的玩家来说都不陌生,这个之前啊,叫代币,也叫它通,正是用户呢为区块链网络做出贡献之后拿到的奖励。 但是呢,在 ai 的 世界里面,托肯是模型处理信息的最小的计量单位,无论是用户的提问,还是 ai 生成一段代码,最终都会被拆解成托肯来完成运算。托肯呢,最早是伴随区块链行业的发展诞生的,但是啊,区块链行业到今天已经有十八年了, 也就意味着托肯带币公正的关联也已经关联了十八年了,这么长的时间都没有个定义,怎么现在突然就叫它词源了呢?这个还要和现在热门的 ai 关联在一起。 今年咱们都知道,身边都是大范围的 ai 进行普及的一年,尤其是养龙虾,现在是养的热火朝天,你要把自己的智能体养好,那就需要调用大量的数据进行相关的训练, 每次使用大模型都要消耗托肯,再加上现在 ai 趋势正猛,所以呢,托肯这个使用频率的单词就被赋予了一个新的名字啊,叫做词源。 很多加密圈的朋友都在问了,你说有没有可能托肯他不适用加密这个行业,以后要走下坡路了。恰恰相反啊, ai 的 发展他一定和沃三和区块链会紧密的结合。 举个例子,那现在是 ai 创作,它的门槛极低,不管是你是出图出视频,那都很简单对吧?但对应的就会带来假新闻泛滥或者深度伪造等等问题,但是 woop 三的核心,它是去中心化、透明和不可篡改, 解决的是信任问题, ai 接下来会创造大量的价值。而 woop 三的作用呢,就是试图去解决价值到底归谁,以及如何防止 ai 作恶等等的问题。那好了, 我们再回到加密和 ai 的 关系上面,加密对 ai 的 作用是提供激励和流动性的层面,而 ai 对 加密的作用呢,是提供智能化的决策以及自动化的执行。 加密是 ai 的 血液,负责价值的流通,那 ai 呢?是加密的大脑,负责智能的决策。回到这个逻辑,你就不用担心加密以后是不是不行了,而是加密以后会变得更好。那根据最新的新闻数据可以看到,咱们这边东大日军托肯的掉落量已经超过了一百四十万亿, 到三个月前呢,增长超过百分之四十。而托肯钓用量也已经成为了衡量这个 ai 模型它的活跃度以及产业价值的关键指标。托肯钓用量越大,也就意味着模型被用的越多,创造的实际价值也就可能越大。 现在的 ai 啊,亦如当年咱们区块链刚兴起的时候呈现出的,不管是这种势头还是状态都是非常好的。 但是如果想要参与其中的话,最好是想一想现在自己想要做什么和自己现在能做什么。你的业务模型是 ai 加还是加 ai? 感兴趣的朋友呢?咱们可以一起来深入探讨和交流。

分享了很多期关于 oppo 可乐的,我们今天来说一个热点词汇啊, token, 我 们来看一下什么是 token? token 其实最早的理解就是词源啊,其实按照我们中文来说就是最小的语义单元,其实它就是一个词组,我想我想去北京啊,这就可以变成三个, 这是三个偷看啊,这就是偷看的最早的定义。那么偷看是怎么产生的?只要我们跟大模型进行交互,不管是输入和输出,它都会产生偷看。那么最近为什么大家会疯狂的在说偷看的词语呢?因为偷看已经发生了本质上的变化,现在的偷看等于等于模型能力加 算力综合投入,其实它是 ai 时代的计价与结算单元,也其实是 ai 时代的通用货。模型能力是指的什么呢?就是算法体系啊,回答的精准度啊,那算力的综合投入呢?包括了我们常见的基建了,机房了,贷款了,包括芯片里边 gpu, tpu, 包括 所指的电力啊,这些都是算力的综合投入,其实抽根等于模型能力加算力的综合投入。我们来 呃看一下目前 tok 的 这个提供商呢?都有哪些呢?一种是模型原厂,咱们也可以叫它原声 tok, 再来就是算力厂商或算力集成商,那么模型的原厂呢?有哪些厂家呢?就大家耳熟能详的,比如说 gopro, gpt 啊, 吉米尼啊,可沃达等等,这些模型厂家产出的模型呢,相对来说质量是比较高的,当然也包括我们国内的天安门,豆包,他们相对来说因为一直在对模型不停的进行升级、优化和训练,那么他回答的这个精准度啊,包括质量都是非常高的。 还有一种就是算力厂商和算力集成商,那么比如说我们现在知道的像亚马逊,阿里啊,华为啊,英伟达这些都属于算力厂商,因为他们直接生产的是芯片啊。还有一些就是算力集成商,比如说我们知道的国内的浪潮啊,或三大运营商,因为他们本本质上他们不生产芯片, 他们是将所有的这个算力做成集权,那么他们是将所有的这个算力做成集权,那么他们是将所有的算力千万的 太原的各个版本的模型,那么他们主打的是什么呢?性价比,尤其是这个算力集成商,因为他们自己本身不生产模型,也不生产芯片啊,他们只是把这些算力齐全在一起,那么他们输出的就是这种透肯呢,可能从质量上 并没有原生模型的透肯的质量高,但是相对来说就比较便宜啊。那么来看一下国家最近在鼓励的所谓的透肯出海啊。透肯出海是什么意思呢?就是因为 整个全世界目前在 ai 上投入的最大的两个国家,人工智能这块真正竞产生竞争的其实就是中美啊。那么为什么我们要通过出海呢?本质上约等于电力出海啊,为什么这么说呢?我们来看一下,其实我们国内的整个基础配套设施是比较发达的啊,也比较完善, 尤其是什么我们店里的价格非常低,因为我们大量的发展这个光伏发电和风力发展,所以呢我们整体的价格是比较低的,所以我们通过偷啃出海的方式呢? 其实也是店里出海,国内的模型跟国外的模型有没有差距?我们要客观的承认是存在差距的。但是 针对一般型的企业,国内的模型比如说像通一千,他其实已经可以满足大部分企业的日常使用,其实我们出海还是非常具备竞争力的。那么最后来看一下 hokken 竞赛,其实就是中美的竞赛,那么后期呢?可能美国呢?主要是以什么以模型能力为他的进化方向。那么我们国内呢?其实就是在酸利成本上我们不停的去 优化啊,还是有很大很大的优势,那么包括我们也在不停的去升级优化训练我们现有的模型, 后期的主要竞争就是这两块。呃,最近不管是各大厂商也也罢,还是厂家也罢,都在说 top, 包括黄仁勋近一次的发布会也在说到 top 就是 未来时代的结算货币。今天我的分享就结束。

ai 模型为何离不开 token? 它竟然是文本处理的关键? token 是 ai 模型处理文本的基础单元,相当于暗自收费的翻译佣金。在自然语言处理中, token 被拆分成子词字母甚至标点符号,形成序列。公模型理解,以你好世界为例,它会被分解为四个 token。 toker 不 仅是文本的最小语义单元,还是衡量模型计算效能的重要指标。能源是 ai 基础设施的第一性原理,芯片则是将电能高效转化为计算能力的关键。大模型的 toker 处理能力受限于上下文长度, 因此需要灵活调整分次策略。随着技术的发展, toker 化在多语言和跨模态处理中展现出巨大潜力,如将文本与图像特征对齐,实现图文统一表征。

token 是 如何被计算出来的?之前呢,我们用了五期视频全面讲解了 token 到底是什么,全网呢有一百万播放,感谢大家的催更。这次呢,我们继续出发探讨 token 到底是如何被算出来的,最后的结果一定会让你发出原来如此的惊叹。 在模型推理阶段呢,完整流程一共分为七步。第一步呢,用户输入提示词,比如我们输入用苹果手机拍苹果这句话。第二步呢,模型将这些提示词切分成一个个托管,并得到每个托管的数字 id, 切分的依据呢,就是这个文件中的词表。 第三步,模型根据这节 token id, 从词切入矩阵中取出对应的词切入向量。比如手机的 token id 是 八五四九,对应的切入向量是这样的,苹果也是这样的。一大堆数字,为了方便演示呢,我们只取前四个数字作为演示势例。 到这里,一句话就被转为了多个数字向量。熟悉限限待数的朋友可能已经意识到,我们可以用一个矩阵来表示这句话,模型呢,也可以通过矩阵运算实现并行计算。第四步呢,模行为每个 token 呢添加位置编码,标记它们的先后顺序,否则模型无法区分你爱我还是我爱你。 位置编码的公式呢,不同模型会略有差异,具体公式呢,这次我们就不展开了,实际的效果就是在没有添加位置编码的时候,这两个不同位置的苹果向量都是一样的。添加了位置编码后呢,两个苹果的向量就变得不一样了,这样模型就能区分不同位置的 token。 第五步,模型读取这些添加了位置编码的向量,通过多层 transform 计算,最终得到了一个理想的预期向量。具体的算法细节呢,可以查看我之前发的 transform 模型讲解视频。 第六步模型呢,将这个理想向量与词表中所有的拓客向量进行比对,计算它们之间的相似度。 这就好比相亲亲友智囊团先定义出理想型男友的标准,身高一八零,有房有车、大城市户口等等,但实际情况是,没有人能百分之百符合这个条件。模型呢,就拿这个标准作为打分依据,对每个后选男嘉宾呢进行打分,也就是计算相似度。 第七步模型,根据计算出来的相似度,取出其中一个后选托肯作为模型。本次的输出 分越高,被选中的概率呢就越大,得分越低呢,选中的概率就越低。这也就是之前说的模型输出具有一定的随机性,不同时间问同样的问题,回答可能会不同。比如这个例子中,候选词照片十逗号,得分相对比较高,都有可能被选到。 最后,模型把选中的 token 拼接到已有的输入中,重复第三步到第七步,一个接一个的输出后续内容,直到模型输出结束符,这才停止输出,结束整个回答。所以你看,模型不是凭空生成内容,而是在做选择题,而每一次的落笔都是一次十万分之一的遇见。

大家好,我是你们的科普达人,今天咱们来聊聊个人开发者怎么低成本入门 tocan 生产。很多朋友可能觉得 ai 模型部署门槛高,成本贵,其实只要配置得当,咱们普通人也能玩转。先说说硬件怎么选, 如果预算在一万五以内,想先试试水,那 rtx 四零九零 d 或者四零九零显卡是首选。二十四 gb 或十三 b 的 模型,搭配 i 五或 r 五的 cpu、 三十二 gb 内存, e t b 的 nvme 固态硬盘,再加上一千瓦的电源和一套散热好的机箱,总价大概一万一到一万六就能稳定运行。模型 托肯吞吐量能到每秒两百到五百个,日常测试和小流量使用完全够了。要是预算能到两到四万,想搞小批量生产,那就可以考虑上双卡四零九零 b, 或者直接上 a 一 零零,内存加到六十四 gb, 这样吞吐量能到每秒八百到两千个,接下小 b 客户的需求也没问题。硬件搞定了,软件和模型怎么选呢?模型方面,七 b 规模的 q 文二七 b instruct 或者 lama 三七 b 就 很适合入门,显存占用小,延迟低, 聊天、写文案、生成代码都在行。十三 b 的 模型像 q d r 杠一三 b instruct, 复杂推理和行业知识库的应用效果更好。这里有个小技巧,优先用 i n t 四量画板,显存占用能降百分之七十五, 速度还能提升两到三倍,效果几乎没损失,性价比超高。推理框架推荐 v l l m 开源免费,吞吐量比原声 pie torch 高十倍以上,个人开发者首选。部署工具方面, fast api 或 flask 用来封装 api 接口, prometheus 和 grafana 监控性能, e l k stack 记录日记这些都是免费又好用的工具。大家最关心的成本问题来了,按三年折旧算,入门级硬件每月折旧大概四百一十七元。电费方面,单卡四零九零币,满载运行 每月电费差不多一百九十四元,总成本约六百一十一元。按每天产出两千五百九十二万 token 算,单位 token 成本约零点零零零零二三六元,也就是二点三六分。每千 token 对 比 openai 的 gpt 三点五 turbo, 成本只有它的四分之一,价格优势很明显,想快速上手, 一天内就能跑通,先装 uber 二二点零四 lts 系统,然后安装 cuda 十二点一 cuda n, 再装 python 三点一零和 vl l m。 接着用命令启动模型服务, 最后用 qiro 测试一下生成 token, 看看返回结果里的 usage 词段,统计 token 数就搞定了。最后给大家几个进阶优化建议,用 v l l m 的 批量请求功能提升吞吐量,尝试模型蒸馏,降低显存占用和延,使用 radis 做请求队列应对高流量 在整个数据库记录用户 token 消耗,实现自动计费。这样一套下来,你的 token 生产系统就既高效又经济了。怎么样,是不是觉得个人搞 token 生产没那么难?你最想先用这个系统来生成什么内容呢?评论区告诉我吧!

闭圈炒 took, 经济科技圈拼 took 出海,全网都在吹 took 为王。抛开这些高大上的资本,包装在 ai 大 模型底层, took 到底是个什么鬼?坦白讲,它就是被算法提前切好的文本块,也是所有 ai 经常智障翻车的罪魁祸首。 就拿草莓这个词来解释,让你拼写英文单词 story。 在 咱们人类眼里,这就是十个清晰的字母,扫一眼就知道里面有三个 r, 很 简单对吧? 但在 ai 眼里,根本没有十个字母,他只看到了 straw 和 barry 这两个 token 区块内部的字母全被折叠隐身了,他根本算不出有几个 r, 因为他从头到尾都没见过单个字母长什么样。这真不是什么 bug, 这是所有大元模型的底层宿命。 在 ai 启动任何智能推理之前,你的问题就已经被一套冷酷的机制暴力切块了。这套玩法业内叫字节对编码,也就是 bpe 算法。 想象一下,丢给 ai 几十亿 g 的 海量语料,第一步,全碾碎成单个字母。第二步,找最高频的组合,比如 t 和 h, 总粘一块就打包成一个新 token th, 再扫一遍 th 和 e, 老是碰头继续打包成的。 就这么死磕几万次,硬生生拼出一本完整的词表。这本词表越搞越大, gbt 二大概有五万个头,肯 gbt 四有十万个,到了 gbt 四 o 直接干到了二十万。这里面有单个字母,有高频词,还有 i o n i n g 这种词根词缀。 但最让人细思极恐的是,分词器和模型本身是分开训练的,必须先用 b p 算法烧制好分词器,再去喂养大模型。也就是说, ai 甚至没资格决定自己该怎么看这个世界。 在它诞生之前,认知规则就已经被一套它根本没见过的数据定死了,命运早就被安排的明明白白,它对人类语言的全部理解,必须穿过这些文本快的过滤网,而这场网的设计初衷只有极致压缩,根本不在乎什么语义表达。 其实往深了想,这跟咱们人类也差不多,你没法选择母语的发音规则,一切在你出生前就被几百年的文明演化清定了。 咱们和 ai 其实都在用一套继承来的系统去理解现实,唯一不同的是,咱们系统进化了上千年,核心是为了传递意义,而 ai 这套系统可能就是工程师周末加个班暴力算出来的,它的终极目标仅仅是把文件体积压到最小。 想感受这种降维打击,去搜个开源工具 tiktok nice, 输点中英文进去,亲眼看看你的画是怎么被切碎的。 试过一次,你对 ai 的 滤镜就彻底碎了。因为每一次对话,在他跟你共情顿悟之前,那个冷酷的分词器早就悄无声息的把你的满腹经纶切成了碎片。他根本不在乎你画里的悲欢离合,他只在乎你的字能不能完美卡进他的算法齿轮里。

大家好,如果你用过任何 ai 工具,那你肯定见过 token 这个词,它好像无处不在,特别是在看价格的时候,哎,这到底是个啥东西?今天咱们就来把这个词背后的神秘面纱给揭开。 很多人可能心里都在犯嘀咕,哎,为啥就不能简单点,直接按我们熟悉的字数或者字母数来算钱呢?要回答这个问题啊,咱们得先潜入到 ai 的 大脑里,看看它到底是怎么阅读和理解我们说的话的。 好,要搞明白为啥用 token 算钱,那第一步必须得弄清楚一个 token 它到底是什么。简单来说呢, token 就是 ai 看见语言的基本单位,它不完全等于我们平时说的单词或者汉字,而是机器在处理我们输入的文字时,觉得最有意义的最小的那个小碎片。 其实啊,这跟咱们自己的大脑工作方式还挺像的,你想想,你读书的时候,肯定不是一个字一个字的蹦着读对吧?为了省事,你的大脑会自动把天气真好这种常见的词组当成一个整体来理解。 大型语言模型呢?没错,它也是这么干的。那 ai 具体是怎么把我们的话拆成这些有意义的小碎片的呢?光说可能有点抽象,咱们来看一个特别直观的例子, 哎,注意看,有意思的地方来了。 tokenization 这个词, ai 并没有把它看成一整个,而是拆成了 token 和 isation 这两部分。 这是为啥呢?就是因为模型在他之前读过的海量文本里发现, token 这个词根和 isation 这个后缀都特别特别常见,完全可以当做独立的积木块来用这种把词拆成更小的子词的方法,就是 ai 提高处理效率的独门秘诀。 这种子词的切分方法,其实啊,是为了解决一个特别经典的问题,咱们可以俏皮的管他叫金发姑娘。难题 就像那个童话故事里一样,所有东西都得刚刚好。你想要是按完整的词来切分,那语言里的词也太多了,这个词汇表就太烫了,可要是按单个字母或者笔画来切呢?那又太碎了,一句话变得老长老长,这碗粥又太凉了。 这张图就把这个平衡点展示的非常清楚,你看,如果按完整的词来分,词汇表大的吓人,而且总会遇到不认识的新词直接卡住。 反过来,如果按单个字母来分,一个简单的句子就会被拉的特别长,意义信息也丢的差不多了。所以说,子词这种方式,就像这个天平一样,找到了那个最完美的平衡点。 那问题来了, ai 到底是怎么学习到这些刚刚好的子词的呢?咱们来看看现在最主流的一种方法是怎么做的。 这个方法叫 b p e, 它的核心思想其实非常简单,甚至有点贪心,说白了就是让算法去扫描海量的文字,看看哪两个字或者哪两个片段最喜欢手拉手待在一起,然后就把它们合并成一个新的更长的片段。 整个过程就跟滚雪球一样。一开始啊,词汇表里只有最最基本的那些字母和汉字,然后算法就开始疯狂的读文章,他发现天和气老是一起出现。好,那就把它们合并成一个新词汇,天气。接着可能又发现天气和预报也经常挨着,那就再合并。 就这么一步一步滚拉滚,直到建立起一个包含几万个高频词块的最终的词汇表。这个英文例子就更直观了, 在一堆包含 deep 和 seek 的 文本里,算法一眼就发现 e 和 e 这个组合出现频率最高。于是先把 e e 合并成一个新的 token, 然后在这个基组上,他又发现 deep 和 seek 也是高频组合。就这样一步一步地模型自己就学会了如何最高效地去拆分语言。 好了,说了这么多技术细节,那最关键的一点来了,我们为什么要这么关心这个东西呢?很简单,因为它直接关系到两件大事,你的钱包,还有 ai 的 记忆力。 你可以记住这么一个大概的换算关系。一般来说,一千个 token 差不多等于七百五十个英文单词。那对中文来说呢?情况复杂一点,一个汉字差不多是一到二个 token, 所以 你看 token 和字数根本不是一回事儿。也就是为啥 ai 服务要用 token 来计价,因为它才能真正准确地反映模型到底干了多少活儿。 你可能还发现了,一般输出的 token 会比输入的 token 更贵。这是因为啊,它们的计算方式是完全不一样的。处理你发过去的指令,模型可以像看书一样,一目十行,一次性并行处理完。这个叫预填充,但是当它要生成回大的时候,就必须一个字一个字地往外蹦,这叫叠码。 每生成一个 token, 都需要进行一次独立的复杂的计算,成本自然就更高了。 token 的 数量还决定了另一个非常关键的概念,上下文荒。这玩意儿说白了就是模型的短期记忆, 它规定了模型在一次对话里总共能记住多少信息,这里面既包括你问的问题,也包括他给出的回答。 你看这个图,不同模型的记忆力可以说是天差地别。从早期几千个 token 到现在像三点五这样的模型,上下文框口已经飙到了惊人的二十万 token, 这是什么概念? 这就好比你可以把一整本小王子扔给他,然后跟他从头到尾深入讨论,他都完全不会忘记前面的情节。 当然了,我们刚才花大篇幅讲的 bp 算法,虽然是绝对的主流,但它也不是唯一的玩法, 这个世界还是很多源的。你看,除了我们刚刚说的基于谁最常见就合并谁的 bpe, 还有其他的流派,比如 word piece, 它不光看出现频率,它更关心的是合并之后能不能让模型更好地预测下一个词。 还有 ungram。 思路就完全反过来了,它像个雕塑家,一开始先搞出一个包含所有可能组合的巨大词库,然后一点一点把最没用的部分给砍掉。可以说,不同的模型背后都藏着它们对语言不同的舌学思考。 所以绕了这么一大圈,咱们归根结底要记住一件事, ai 模型它本身并不理解文字,它理解的是 token, 它所做的一切本质上都是在计算这些语言源字之间的数学关系,然后预测下一个最有可能出现的源字是什么。 我们看到的所有那些天花乱坠、对答如流的对话,都源自于这个最底层的逻辑,这就给我们留下了一个特别引人深思的问题。 如果说 token 是 我们今天这个时代 ai 的 基本原子,那么当大家越来越擅长去定义和操控这些原子的时候,明天我们又将用它们构建出怎样全新的分子,也就是怎样全新的理解和创造形式呢?这个问题值得我们每一个人去思考。感谢收看。

听人说 token, token, 可真要问一句, token 到底是个啥?很多人当场就蒙了。今天我就用最通俗的方式,一次性把它给你讲明白。你可以把 ai 想象成一个只会算数学题,完全不认汉字的超级学霸,你给他发一句你好, 他根本看不懂。那怎么办呢?就得有个翻译官,把我们的话翻译成他能听懂的语言,这个翻译官就叫分词器。 他做的事情很简单,把你说的话切成一小段一小段,这每一小段就是 token, 比如人工智能这四个字,翻译官一看这词经常出现,就直接打包成一个 token, 如果是很生僻的字,就拆成单个字来算,切完之后,再给每一小段编上一个数字编号, ai 看到的不是文字,全是数字,它算完一堆数字再扔给翻译官,翻译官再把数字还原成文字,就是你看到的 ai 回答。很多人会问,那 token 跟字数怎么算?大规律是这样的, 中文里一个 token 差不多等于一个半到两个汉字,英文里大概四个字母算一个 token。 知道这个有啥用呢?用处可大了。第一, ai 收费就是按 token 算的,你输入多少,它输出多少都要算钱。第二, ai 的 记性也是用 token 衡量的,一次最多能记住多少, token 就是 它的上下文窗口装不下了,前面的内容它就会忘掉。第三,切的越合理, ai 跑的越快,越省钱。所以说白了, token 就是 ai 世界里最小的语言单位,是他吃饭、干活、算账的基本单位。搞懂 token, 你 才算真的会用 ai。

token 翻译成中文叫什么?叫词源,是模型处理文本的最基本单位。 token 和字呢?有什么区别? token 呢,可以是一个字,一个词,甚至半个字,那这是谁规定 的?是模型看了大量人类文字统计出来的,这样表达呢,更省事。常见的字和词就用一个 token 表示,其他的就用多个 token 拼接。 一个 token 到底是多少钱? deep 呢?输出一百万 token 呢?约等于三本新华字典只需要三块钱, gpt 五呢更贵,超过九十块 token 和上网流量收费是一样的道理吗?不是的, token 收的是计算费,是生产成本,而流量收费呢,是搬运费,不是一回事。为什么养龙虾要烧 token? 是 因为龙虾要用大模型思考和回答问题,因为大模型按 token 收费,所以就说烧 token。 本地部署大模型是不是就不用烧 toon 了?还是要用到 toon, 因为 toon 机制本身和部署方式无关。本地部署呢,不需要按量付费,但电费得自己掏,算上硬件成本不一定划算。如果我把一段话复制粘贴进去,是不是就算一次 toon 不是 文字越多呢?计算的输入 toon 数量就越多? 我问的问题很长,但答案很短,是不是只扣答案的 token 不是, 输了 token 呢?也要算钱?表情符号算几个 token 会不会比一个字还贵?常见的表情呢,是一个 token, 不 常见的会用两到四个 token 拼接表示。 deepsea 和 gpt 的 token 是 一样的吗? 不一样,互相不认识。 y, y, d, s 这种网络词是几个 token, 一 般拆成 y, y 和 d s 两个 token, 要是这个词足够火,也可能被模型当做一个整体。同样的问题,我上午问和下午问,输出的 token 数会不一样吗?不一样,模型输出具有随机性,每次输出的 token 数量不同。 那小龙虾帮我下载电影是否要按 token 计费?小龙虾思考怎么下载?打开下载网站,执行下载命令,这些都需要消耗 token, 但是下载电影本身不消耗 token, 因为电影不是大模型生成的, 电影是存在第三方服务器上,只消耗下载流量,不消耗 token。 为什么我和 ai 聊得越久,回复同样一句话,花的钱就越多? 模型是基于对话历史进行回答的,所以你所有说过的话呢,都会参与计算,计算成本就越高,这也是 ai 还需要按照输入 token 数量计费的原因。 怎么才能少用点 token 输入更少的提示词去掉?你好,请问这类废话规定模型输入长度,加一句五十字以内回答,但很有可能问题没有说清楚,回答呢也不够准确。如果前后问题呢?不相关也可以新开对话,避免历史对话参与计算。 托管是加密的密码吗?不是,托管只是一种文字编码方式,虽然你看不懂,但他并没有加密。 图片和文本的托管是一样的吗?不一样,图片会切分成很多小小的方块,每个方块呢?当做一个视觉托管,就像拼图一样。托管是为了收费而发明的吗? 不是,托管是技术发明,是为了能表达和能计算,只是计算的成本和托管数量正相关,所以就按照托管数量收费。我使用豆包没有付费啊。为什么说托管是收费的?大厂为了抢占市场让你免费使用,成本呢?暂时不用你出, 如果你是企业用户或者养龙虾就需要支付费用。我在一段话里疯狂敲空格, ai 是 视而不见还是会偷偷扣我的钱? 空格也算钱,虽然有的模型会把几个空格打包,大部分时候你多敲一个空格就再多烧一份算力。那 ai 产生的废话是不是能退费?不能,因为废话也是显卡辛辛苦苦算出来的。