今年 ai 很 火,算力也很火,那么算力它到底能干什么呢?以我们这里提供的一个算力硬件为例啊,比如说这个是 a 一 百,这个是 h 两百, 那么 h 两百它的参数是怎么样呢?这个单卡是一百四十一 g 的 选存,八张卡呢,就是一千一百二十八 g 的 选存,总 体的算力在 f p 八情况下能够达到三十二 p, 什么意思呢?也就是它一秒钟能够执行三点二亿亿次的浮点预算。那么它在运行大模型的时候,比如说我们拿它来测试 deepsea, 六百七十一币,基本上每秒钟能够生产五千个 token, 像三体这种小说,它基本上一分钟就可以写出一本了。
粉丝4565获赞6289

如果你到现在还觉得英伟达只是一个卖显卡、卖芯片的硬件公司,那你根本就没有看懂这个 ai 时代的财富逻辑。前几天, 黄仁勋在播客中说了一句足以引发整个 ai 圈大地震的话,他说英伟达从来都不是一家卖 gpu 的 公司。老黄对自己公司的定位极其可怕,他说,我们这套生意的本质是输入端吃进去的是电力,输出端吐出来的是 token, 而中间就是英伟达。 建议大家先点个赞,今天这条视频,我用三分钟把你对英伟达的认知彻底提升一个维度。咱们先搞懂什么是 token。 以前我们用水按立方收费, 用电按度收费,打电话按分钟收费,但在未来的 ai 时代,一切信息的最小计价单位就叫 took, 一个字、一张图的像素,甚至 ai 思考时的一段推理过程,全都是按 took 来计价的。在这个崭新的商业世界里,谁能把哪怕一度电用最高效的方式转化成 took, 谁就卡住了整个 ai 产业的命运咽喉。而英伟达造出来的 gpu 的 took 印钞机,虽然台积电帮他代工, 三星给他供内存,但把这套极其庞大复杂的印钞机拼装起来,全世界只有英伟达一个人指挥得动。这时候肯定有人要杠了,那谷歌也有自己的 t p u 啊,亚马逊也在造自己的 ai 芯片啊,他们自己造难道不香吗?凭什么还要排队去 求着买老黄的硬件?这就牵扯到投资界的一个核心概念了, t c o, 也就是总拥有成本。你以为那些大厂只算买芯片的钱吗?他们还要算后期的运维费、 机房的电费,以及成千上万个程序员重新适配代码的人工费。如果你买了一块所谓的专用 ai 芯片,可能他跑 ai 确实厉害,但他什么别的活都干不了。 而英伟达的 gpu 就 像超级全能王,平时跑跑大模型,闲下来还能去干其他活,整体看下来性价比就很高。这就是为什么就算英伟达的产品再贵,大厂依然会乖乖掏钱。老黄在这套生态上整整死磕了快二十年, 现在全球有几亿块 gpu 在 日夜不停的跑数据,每一块 gpu 跑出来的经验和算力,都在反哺他的下一代产品。这是一个极其完美的,外人根本插不进去的正向闭环。别的公司现在想来追,对不起,从你手写第一行代码,到攒够这上亿的装机量,没个十年八年的冷板凳, 你连上桌打牌的资格都没有。就像老黄在播客里说,如果我不做云服务,别人也会做,但我正在干的这些事,如果我不干,地球上没人能干成。 所以英伟达现在的战略是什么?就是把挖矿的铲子做到极致,然后卖给全世界的淘金客。不仅如此,他还花重金投资了像阔维这种新兴的算力公司,说白了,这些公司如果没有英伟达的扶持,活都活不下去。老黄把他们养活了,英伟达的铲子才能源源不断的卖出去, 这就叫教科书级别的生态终极绑定。现在市场上很多人天天在瞎操心,觉得英伟达的潜能被卡脖子了,供应链有危险了。但老黄就能信誓旦旦的表示,只要给两三年的时间,什么光刻机买不到,什么封装线建不起来,这些统统都能用钱解决。英伟达在这个世界上真正的瓶颈 是能源,是电,你不可能在没有大电网的地方建算力中心,一个顶级的 ai 数据中心,吃掉的电量相当于一整个三线城市,这电从哪来?电网能不能扛住当地政策批不批?解决这些问题比造一颗芯片要难上十倍、百倍。所以回到我们开头那个问题, 英伟达到底是干嘛的?他不是卖硬件的,更不是个卖软件的,他是一个把电力转化为算力,把算力转化为 token, 最终把 token 转化为真金白银的超级转换器,整个 ai 时代的命门就死死卡在这个转换效率上。英伟达凭什么值三万多亿美金?你去看看他现在手里握着的采购承诺单就知道了,接近一千亿美元, 未来甚至要冲到两千五百亿美元。全球的顶级科技巨头,整个半导体的供应链全都在围着他一个人转。当你彻底看懂他的定位,你就会明白,英伟达从来都不是这个 ai 时代的受益者,他本身就是这个时代。

ai 疯狂消耗 token, 英伟达股价大涨,偷看什么老爸, token 是 啥玩意?咋跟英伟达还有关系呢?因为如果说啊, token 是 ai 大 语言模型的口粮的话,英伟达卖的显卡就相当于是炒口粮的锅呀。你还记得小时候你是怎么学习认字的吗? 就一笔一画,开始一个字一个字的学呀。那你看啊,这几个字你认识吗?这些肯定都是生僻字啊,我一个字都不认识啊。那要是换成这样,你认识吗? 嘿,你把它放到词组里,我就认识了呀。这些词组啊,就可以理解为 token, 人老不可能记住每一个字,为了效率啊,大脑就会把常见的组合当做一个整体去记。 ai 啊,也是同样的道理。所以一个 token 可能是一个字,也可能是两个字或四个字啊。比如武汉市长江大桥,武 武汉市长江大桥是一种 token 组合,武汉市长江大桥也可以是另一种 token 组合。那这一个外国人来了也学不会,那 ai 怎么学会的呀?关键就在于, ai 不是 学习文字, 而是记住统计规律。 ai 根本不认识汉字英文,他只认识数字吧。数字?那我输入中文他咋懂的呀?因为有一部翻译的过程,你 输入一句话,先被分词器切成 token, 每个 token 啊,都会有一个对应的数字编码, ai 实际理解的就是这一串数字输出的时候, ai 同样是先输出数字编号,然后再把编号翻译成 token 输出给你。 那 ai 怎么知道这些编号之间的关系呢?靠海量训练, ai 学习过几千句人类文本,他记住了每个 token 后面接什么 token 的 概率是最高的,他把这些概率啊,全部都记录成了几千亿个权重的数据手册。这个手册就是所谓的大模型参数。 所以 ai 回答问题是,一个字儿一个字儿蹦啊蹦得快,就相当于查自己的速度快啊。这难道不是 cpu 的 速度快吗?那跟显卡有什么关系呢?因为 ai 售出的过程啊,本质不是在查哪个字最合适,而是在翻阅啊之前学习过的每一页手册,给每一个后面可能出现的偷看打分。 每轮啊,只生产一个 token, 每一轮都要扫描手册的全部参数,并给全部字典打分。比如啊,第一个 token 是 点模型,会继续给所有下一个可能的 token 打分,出现赞的分数是九十八,鸡的分数是零点八,钱的分数是二十八,最后发现啊赞的分数最多,于是输出 点赞。那这不还是挨个打分吗?还是 cpu 更快啊。但 cpu 啊,像一个顶级的数学教授,他再快啊,也只能一页一页翻手册。那 gpu 呢,就像几千个训练有素的小学生, 虽然当个人没有教练聪明,但 gpu 啊,可以把这本手册拆成几千块,大家同时去算核心一,负责给手册的第一页到一百页打翻核心二啊,算第一百零一页到二百页, 核心三,核心四,继续往下同时开工,瞬间就能给上亿的参数打完分。呐,我明白了,显卡就是核心越多算的越快呀。显卡还有一个算的快的关键就是显存。显存啊,就相当于是一个大仓库,必须要足够大,才能存得下 ai 大 模型的所有参数。 如果仓库不够大,放不下的参数就只能放到隔壁仓库,那众多小学生去算的时候,还得两个仓库跑来跑去,计算效率那肯定慢呐。 所以现在全世界疯狂消耗 token, 本质上就是无数的显卡在后台疯狂查手册打分儿啊。没错,所谓 ai agent 支付的 token 费用,就是租用显卡计算的算力费用,而显卡运行要耗电,数据传输要存储。所以业内有句话叫 ai 短期缺算力,长期缺能源, 永远缺存储啊。这么看,这些都是投资机会啊,我得赶紧下手啊。可别着急啊。这不是人类历史上第一次生产革命,什么蒸汽革命、铁路革命,但每一次生产革命都无一例外的带来了经济萧条,因为经济学家朱格拉曾经说过,萧条的唯一原因就是繁荣啊。

最近 token 工厂这个概念很火,算力也很火,那么到底算力是什么呢?就比如说拿这个举例子,这是最近非常火的 h 两百,像 h 两百的话,他单卡是一百四十一 g 的 选存,也就是说八卡的话是一千一百二十八 g 的 选存, 这整个八卡的算力是三十二 p, 也就是说三十二千万亿次浮点预算每秒。那么 token 的 生产速度呢?我们之前测了一下,他去跑这种 deepsea 六百七十一 b 很 大的模型呢,他每秒钟大概能生产五千多个 token, 刚好我们有一批货在给客户交付,我们看一下测试的情况。
![关于token经济,我的6个小白问题 什么是Token经济?
我整理了6个小白问题,一起学习一下。
欢迎大家评论区拍砖[抱拳][抱拳][抱拳]
#AI #Token token #词元 #教育#巫师嘚啵嘚](https://p3-pc-sign.douyinpic.com/tos-cn-p-0015/oghelnqDLEgYOA2IBzAAfXQCAAMrwyJeH8wfQI~tplv-dy-resize-origshort-autoq-75:330.jpeg?lk3s=138a59ce&x-expires=2097417600&x-signature=coWGRzy36D3MICeIY8QI26z8VI8%3D&from=327834062&s=PackSourceEnum_AWEME_DETAIL&se=false&sc=cover&biz_tag=pcweb_cover&l=2026062200052177DCB2DD99FBD3B1CC5B)
什么是 token 经济?那今天呢,我就整理了六个问题,咱们一起来捋一下啊。这个词其实听起来有点绕,但是它会改变我们赚钱和花钱的方式。 第一个问题, token 到底是个啥?哈,我先举个例子,就是你对着某一个 ai 工具,然后你问他一个问题啊,你打电脑输入说我讨厌你,然后呢,他会非常认真的分析,哎,我为啥讨厌他的方案啊?你又说了,哎,这不就是有互动的普通聊天吗?是吧? token 藏在哪啊? 首先你要明白一个事,就是 ai 其实它不认人类的语言啊,就像电脑的二进一样,它只懂零和一,是吧?那 ai 脑子里面只有信号, 它会把你说的话拆成一段一段可以计算的小碎片,这个最小的碎片就叫 token, 咱们中文叫做词源,对吧?那就像你刚刚跟他说的中文,我讨厌你是四个 token, 但是英文的 s、 k、 two 是 三个 token, 是 吧?字数不一样,所以 token 的 数量也不一样,也就是说 token 不是 字,也不是词,它是 ai 理解世界的最小计量单位啊,它把人类的语言拆成机器能懂的碎片。 所以第二个问题,那 token 跟钱有什么关系啊?不就是技术名词吗?我告诉你,关系大了啊,当你输入我讨厌你的时候,那些 token 其实就会被 ai 开始计算了,然后 ai 回复你,也是一个生成 token 的 过程。也就是说,人和 ai 每一次对话,本质上都是 token 资源的流动。 流动就意味着消耗啊,比如说你让 ai 给你做一个 ppt, 它消耗了多少 tok 呢?完成了多少工作量呢?当工作量可以用 tok 衡量的时候,成本和价格的计算方式就彻底变了。 第三个问题,用 ai 做个 ppt, 现在不是免费的吗?怎么会有成本呢?啊,对吧?我现在用 ai 做个 ppt, 一 分钱也没有花过呀,哪来的成本啊?这里其实有一个大误解哈,免费不等于没有成本啊,你没花钱,那是因为有人替你花钱 啊。你想一想,那些大模型的后台数据中心在烧电对吧?服务器在运作,然后每一次生成都在消耗真实的资源呀,是吧?消耗电呀,算力啊,还有设备的损耗啊, 以及他们的员工工资呀,办公场地的租金啊等等等等,这些都是成本啊,各位,只不过在现在这个阶段,是平台在补贴你, 补贴你是为了让你长期使用下去,不要更换别的 ai 产品。他们的核心目的跟年前的外卖大战和当年的滴滴快递大战是一样的,都是为了抢占你这样的用户,抢占市场。而且你看一看国外那些 ai 厂商,他们早就已经开始按月收费了,咱们也迟早会一样的, 等到哪一天竞争稳定了,补贴也就会结束了,我们也要开始按月付费了。天下不可能一直有免费的午餐,你说对吧?所以一个 ai ppt 的 成本不是零,而是消耗了多少 token? 这就引出下一个重要的问题。第四个问题, 那这个消耗它怎么计算呢?跟以前算成本有啥不一样啊?比如说你以前请一个设计师帮你做 ppt, 那 么你每个月要给他开工资,开九千块钱,那现在呢?你可以直接用 ai 来设计啊,用 token 来支付。 哎,那你说用托根算有什么不同吗?这个问题的核心其实就是一句话,那就是核算成本将从时间函数变成计算函数。什么意思呢? 就是过去我们人类劳动的报酬几乎都是按时间算的,对吧?比如说月薪啊,时薪啊,因为人的生命是单向的,一天我们只有二十四个小时,那一个设计师他做了这个 ppt, 就 不能同时去做另一个 ppt, 所以老板付他三百块钱,买的是八个小时,他不可逆的一天的人生。而且这八个小时里面,他还有发呆啊、走神啊、摸鱼啊,这些都属于消耗嘛,而且是不可避免的消耗。 但是 ai 们他不需要出卖时间,因为他不知道疲劳,不知道休息,不会焦虑,他只需要做好一件事情就好了,那就是计算, 当 ai 给你生成一件事情,然后消耗了一段头困,仅此而已 啊。所以所谓偷看经济,就是整个底层价格体系的重塑啊。第五个问题,这样的话,听上去好像做个 ppt, 其实付出的成本更便宜了,对吧?那是不是以后我们所有的东西都会变得很便宜?还有更深的影响吗? 如果你只是看到变得更便宜,那就太小看这件事情了啊。咱们再换个案例啊,比如说手机,一台几千块钱的手机,拆开来看 屏幕、电池外壳,可能它就值一千多块钱,然后组装费也就几十块钱,那剩下的钱去哪里了呢?答案是,剩下的钱我们需要付费给芯片设计,付费给系统架构和算法优化啊,因为我们需要为 ai 的 思考付钱。这里有个定义叫做智力溢价, 但是现在这件事情也在变。以前呢,设计一个手机模块是需要几十个工程师去开会试错,然后花好几个月时间。 现在呢,你只需要输入指令, ai 模型就开始运行,然后消耗海量的 token 就 行了。也就是说,思考本身也在被工业化。这个趋势将会带来四个更深层次的变化。 第一,效率的定义变了啊,过去效率高是因为用更少的时间赚更多的钱,那现在时间不是成本了。第二,竞争的本质也在变,过去我们做家公司,我们需要拼人、拼团队,但是现在不用了,现在比拼的是谁的 token 更便宜、更智能。第三,权力的分配规则也会跟着变。 过去不管是企业还是政府,是吧?我们最重要的资源其实是人,所以我们有了各种各样的管理架构,什么矩阵架构,什么扁平架构,什么金字塔架构等等等等。不管什么架构,其实都是想让这个组织更高效,然后产出更多的价值。但是现在已经不一样了, 现在最重要的资源是 token, 就 像石油时代的资源垄断一样,谁有更多更便宜更智能的塔尖啊,其他所有的架构都会消失了,都不重要了。 所以第四,我们的劳动将会被彻底的标准化,以后越来越多的工作可以被还原成计算流程。当劳动被拆解成偷根之后,一件几乎不可逆的事情就发生了,劳动将会被彻底的标准化, 过去因为我们每个人的能力不同,所以我们每个人的作品都带着人的差异性,但是以后越来越多的工作可以被还原成一段计算的流程,这意味着什么呢?意味着脑力劳动可以像支付水和电一样被使用了,用户只需要根据实际消耗去支付费用就 ok 了。 那么这段话该怎么理解呢?有点烧脑对吧?你想一想,现在你家里是怎么用电,怎么用水的?你不会关心电是哪个发电厂发的,对吧?你也不会关心水是哪个自来水厂的管道给你送的,对吧?你只需要关心一件事情,你每个月用了多少度的电,然后用了多少吨水,然后要付多少钱, 然后就行了。而 ai 正在把办公室的劳动变成了同样的东西。过去你用一个人,你要面试,要管理,要沟通,要发工资,是吧?还要承担他的情绪和状态。 现在呢?你用 ai 只需要输入一句,结果就可以出来,然后中间发生了什么呢?你不需要知道,你只需要知道一件事情,就是这次生成是消耗了你多少头肯。所以同样的,你也不需要关心你要的那个 ppt 是 哪一个设计师给你做的,做了多久, 你只需要关心一件事情就够了,那就是做出这个 ppt 它要消耗多少头肯。 第六个问题,那这跟国家跟普通人有什么关系啊?听起来都是大公司的事情呀,我一个普通家长需要关心偷看经济吗? 各位宝子,各位老铁,如果你把这件事情再往上看一层,你就会发现,这已经不是你做个 ppt 的 账本的问题了。这个就是国家层面的事情。过去咱们中国是工业大国对吧?咱们向全世界输出商品啊,比如说家电呀,服装啊,汽车啊等等等等这些商品。但是 ai 时代来了, 生产资料正在从物质转向计算,未来的竞争不是谁的工厂更大,而是谁能生产更多、更便宜、更智能的 token。 那 这一点怎么理解呢?就是你可以把这个状态理解成一次角色转换啊,那就是我们需要从工业国走向制算国。 其实中美的竞争也在换战场啊,过去争石油、争航道、争能源,那现在其实很多人还在用旧思维去争关税,争制造业。但是新的石油已经不是黑色的液体了,而是 token。 谁能控制 toker 的 生产,谁能控制 toker 的 成本,谁掌握定价权,谁就能掌握这个时代的新能源。 toker 就是 数字时代的石油。 好了,六个问题说完了,我不知道我有没有表述明白哈,但是如果你听懂了成本将会从时间变成计算这句话,那你今天就没有白听。而且我告诉你,其实我也是个初学者啊,也是个刚刚开始实践的地方,欢迎你们来评论区拍段。

token 翻译成中文叫什么?叫词源,是模型处理文本的最基本单位。 token 和字呢?有什么区别? token 呢,可以是一个字,一个词,甚至半个字,那这是谁规定 的?是模型看了大量人类文字统计出来的,这样表达呢,更省事。常见的字和词就用一个 token 表示,其他的就用多个 token 拼接。 一个 token 到底是多少钱? deep 呢?输出一百万 token 呢?约等于三本新华字典只需要三块钱, gpt 五呢更贵,超过九十块 token 和上网流量收费是一样的道理吗?不是的, token 收的是计算费,是生产成本,而流量收费呢,是搬运费,不是一回事。为什么养龙虾要烧 token? 是 因为龙虾要用大模型思考和回答问题,因为大模型按 token 收费,所以就说烧 token。 本地部署大模型是不是就不用烧 toon 了?还是要用到 toon, 因为 toon 机制本身和部署方式无关。本地部署呢,不需要按量付费,但电费得自己掏,算上硬件成本不一定划算。如果我把一段话复制粘贴进去,是不是就算一次 toon 不是 文字越多呢?计算的输入 toon 数量就越多? 我问的问题很长,但答案很短,是不是只扣答案的 token 不是, 输了 token 呢?也要算钱?表情符号算几个 token 会不会比一个字还贵?常见的表情呢,是一个 token, 不 常见的会用两到四个 token 拼接表示。 deepsea 和 gpt 的 token 是 一样的吗? 不一样,互相不认识。 y, y, d, s 这种网络词是几个 token, 一 般拆成 y, y 和 d s 两个 token, 要是这个词足够火,也可能被模型当做一个整体。同样的问题,我上午问和下午问,输出的 token 数会不一样吗?不一样,模型输出具有随机性,每次输出的 token 数量不同。 那小龙虾帮我下载电影是否要按 token 计费?小龙虾思考怎么下载?打开下载网站,执行下载命令,这些都需要消耗 token, 但是下载电影本身不消耗 token, 因为电影不是大模型生成的, 电影是存在第三方服务器上,只消耗下载流量,不消耗 token。 为什么我和 ai 聊得越久,回复同样一句话,花的钱就越多? 模型是基于对话历史进行回答的,所以你所有说过的话呢,都会参与计算,计算成本就越高,这也是 ai 还需要按照输入 token 数量计费的原因。 怎么才能少用点 token 输入更少的提示词去掉?你好,请问这类废话规定模型输入长度,加一句五十字以内回答,但很有可能问题没有说清楚,回答呢也不够准确。如果前后问题呢?不相关也可以新开对话,避免历史对话参与计算。 托管是加密的密码吗?不是,托管只是一种文字编码方式,虽然你看不懂,但他并没有加密。 图片和文本的托管是一样的吗?不一样,图片会切分成很多小小的方块,每个方块呢?当做一个视觉托管,就像拼图一样。托管是为了收费而发明的吗? 不是,托管是技术发明,是为了能表达和能计算,只是计算的成本和托管数量正相关,所以就按照托管数量收费。我使用豆包没有付费啊。为什么说托管是收费的?大厂为了抢占市场让你免费使用,成本呢?暂时不用你出, 如果你是企业用户或者养龙虾就需要支付费用。我在一段话里疯狂敲空格, ai 是 视而不见还是会偷偷扣我的钱? 空格也算钱,虽然有的模型会把几个空格打包,大部分时候你多敲一个空格就再多烧一份算力。那 ai 产生的废话是不是能退费?不能,因为废话也是显卡辛辛苦苦算出来的。

最近偷看的概念很火,因为大模型生产偷看未来可能是一个计算标准,那么什么东西才能生产?偷看?这就是算力,像这个是 a 一 百的八卡总机, 这个是 h 两百的,以及后面的 h 一 百、 h 八百、 a 八百等等。那么这些算力到底运行什么?大模型每秒钟能跑多少?偷看,关注我,我们后面每一个都会测给大家看。

现在这个 token 工厂的生意非常火,那么去生产 token 需要什么东西呢?其实就是像这种 gpu 算力,现在很多机房都开始建设了,很多用的型号,像这种 a 一 百, 这种是 h 一 百, h 两百,目前比较火的就是 h 两百这个型号,那么它的参数是怎么样的?像这里演示的是一个八卡的 h 两百模组,由八张卡组成,单张卡的显存是一百四十一 g, 八张卡就是一千一百二十八 g, 八张卡加在一起,那 p 八的算力是三十二 p, 这什么意思呢?就是它在一秒钟的时间内能执行三点二亿亿次浮点计算,那这么大的算力用来生产 token 能生产多少呢?那经过我们的测试,跑这种大模型,比如说像 deep secret 六百七十一 b 的 模型,每秒钟能够生产五千个 token, 也就是说我们写一本几百万字的书,可能几分钟就会写完了,而且它在极端的情况下能够同时承担几千甚至上万个用户的同时请求。然后我们有 ph 两百正在测试交付,大家看一下测试的环境。

token 工厂时代,谁是那个最赚钱的卖产人家?人们听好了,最近几天,科技圈被一个大家都懂的词直接刷屏。 token 工厂英伟达。老黄说,未来的数据中心就是生产 token 的 工厂。阿里直接成立 token hop 事业群,高盛预测五年内 token 消耗量暴增二十四倍。但是等等, 这里藏着一个极其要命的扎心反差,所有人都在疯狂抢显卡、建机房、堆算力,却几乎没人关注。一个致命问题,工厂里的水电表谁来装?每百万 token 烧了多少钱谁来算?全凭感觉跑 ai 生意 算不清账,再多算力也是白烧。时间拨回。二零二六年三月十六日,英伟达 gtc 二零二六大会,老黄扔出一颗炸弹级概念叫 token 工厂经济学。 原话很直接,未来的数据中心不再是存文件的仓库,而是生产 token 的 工厂。每一座数据中心都受电力限制, e g w 的 工厂永远不会变成二 g w, 谁的每瓦 token 吞吐量最高?谁的生产成本就最低? 新华社、上海证券报等主流媒体第一时间跟进报道。整个硅谷直接炸锅。顺着线索往深扒, token 变成硬通货之后,工厂运营暴露出三个致命盲区。第一,成本算不准,每百万 token 烧了多少电,折合多少钱,大部分企业两眼一抹黑。 第二,产能不能掉链子,延迟报错、对话中断,工厂停机就是天价损失。第三,浪费看不见。据 datdog 二零二六年 ai 工程报告,近百分之五的 ai 模型请求在生产环境中直接失败,近百分之六十由容量瓶颈引发。 这不就是工厂一边漏油一边狂踩油门吗?老黄说的那个核心指标,每瓦 token 吞吐量,直接决定你是赚钱还是亏到裤衩都没了。 问题来了,这几个盲区怎么破?答案就是, token 全链路可观测性。注意,它不是简单的服务器 cpu 监控,而是必须钻进 ai 模型的每一次推理调用,精准追踪 token 消耗定位推理延迟还原、完整调用链。而且最要命的是,这种监控必须中立。 大模型厂、出海企业,谁敢把核心成本数据全丢给竞争对手的云平台?所以谁能做到从基础设施到 ai 模型层的统一监控,谁就卡住了 token 工厂的中控台。好,顺着技术拆解,咱一层层扒出投资赛道。 token 工厂就三块,核心 监控、中控算力底座、能耗管家。一、 token 全链路监控端一、博瑞数据,国内 a p m。 老大,二零二五年是占比百分之十九点八 断层第一,五月十二日, bonry o n e 四零全球发布,主打 token 计费深度绑定加 ai 故障自动定位,唯一全站可观测第三方厂商华为深度认证,已干到马来西亚。二、基调听云, 二零二五年七月参与制定国内首个面向 a o m。 应用的可观测性能力要求标准 token 分 析与响应延迟追溯一把抓,已全面接入 deep seek, 从被动监控冲到主动智能。 三、阿里云 arms, 二零二四年九月推出国内首个云上 ai 原声全站可观测平台 defy blockchain, 这些主流框架全支持,商业化落地,极其成熟。 二、算力基础设施端,光环星网字节跳动 token 核心伙伴润泽科技 a i d c。 超级底座,一季度营收暴增超百分之五十三、大卫科技、奥菲数据持续卡位。 三能耗管控端英维克数据中心、温控龙头高栏股份、叶冷核心供应商科华数据、 ups 及微模块全配齐, 再加上优克德、青云科技、协创数据,算力租赁开年直接进入涨价周期,机构们怎么看?开源证券蒋颖三月十九日发布,重视 tok 工厂三大投资主线, 点对点规范 a i d c。 算力租赁 c d n 三大方向,中信箭头严贵成团队持续推荐 g p u c p u 官模块、夜冷等算力链。 华泰证券四月十七日研报,直接提出 token 三层定价结构,家人们,评论区捞起来,监控平台持续收费,算力租赁直接涨价,你觉得哪个方向最先兑现业绩? 另外,国产模型 token 消耗全球占比已首次超越美国,这背后的算电协调和律电枢纽也是一条隐藏主线。把你的真知灼见砸在评论区,新来的朋友点个关注。免则声明, 文本内容谨记于公开信息整理,只在传递行业逻辑探讨,不构成任何投资建议。投资有风险,入市需谨慎。

全网争议不断的 dj spark 如今又涨价了,英伟达这是飘了还是真有底气?上期我们拿它打了游戏热了身,今天我们就深度实测下大模型推理,看看 spark 到底怎么样。我们先通过英伟达 think 登录进去,这个就是它的控制台界面,左边是内存和 gpu 占有率,右边是控制台,后续的所有测试配置全在这搞定。另外它还系 统出厂就把 ai 环境给你装好了,开机直接就能用。那测试结果我们也会在结尾全部展示出来。接下来我们开始测试,我们先测试一下千万三零 b 模型,分别有 f 幺六 p 八、 n v f p 四这三种精度,上下文从一百二十八到两 k 并发从一到五百。先说 n v f p 四,一百二十八,上下文 五百并发下,生成速率五千七百七十七 toky 每秒,首延迟零点一秒,完全没有跑满性能。不过随着上下文增加到两 k 时,性能瓶颈卡在了两百并发左右,总的来说,在两千上下文以下并发不超过两百, 可以随便跑。再看 f p 八量化生成速率明显下滑,那建议并发在两百以内使用。最后是 f p 幺六量化两 k 上下文,两百并发,调到了六百七十六抖屏每秒,但手延迟依然低于零点三秒, 还算优秀。接下来我们跑下脸书的七零 b 模型,我们测试了 f p 八、 n v f p 四两种精度,先看 n v f p 四版本,整体的生成速度偏低,低并发下勉强够用,但手脱屏延迟还不错,那 f p 一八精度和想象的一样,扩音速率继续下滑,引发刚到一百首,延迟已经超过了一秒,这个模型推荐还是低病发的测试使用,因为 f p 幺六版本太大,需要显存高达一百四十一 g b, 单台 g b 幺零完全跑不了,下期我们再串联一台 g b 幺零试试。再聊一点额外干货,如果你需要大模型的 n v f p 四的量化版本,可以去 h f 下载文件,里面带有 n v f p 四的就是 如果找不到,也可以用英伟达的容器手动量化。那为啥 dj s bug 强烈建议用量化版本呢?因为 gb 幺零的 blackwell 架构对这类的低精度推理有原生的优化支持, 这是它最核心也最容易被忽略的能力。另外有评论区的小伙伴提到了黑神话悟空,一起来看看效果吧。最近 open color 很 火,那 dj s bug 是 不是配呢?我们下期再来看看。

今天和大家聊一下最近比较热门的话题,什么是 talking, 以及未来发展的前景。简单说,它就是人工智能 ai 处理信息的最小计件单位,你可以把它类比为手机上网时的流量, 家里用电时的度数,打车时的里程数。在 ai 的 世界里,无论你输入一句话,还是生成的一段代码或一张图片,都会被系统拆解成一个个微小的单元进行计算,这些单元就是 talking。 简单来说,电力是生产 talking 的 能源基础,而 talking 是 电力在 ai 时代的数字化宅体。 在这个链条中,算力的尽头是电力,不再是一句口号,而是成本结构的事实。 ai 模型的每次思考,每一个字的生成及脱贫的产生,背后都是在显卡在进行高速的数学计算,而这需要消耗大量的电能,那么每消耗一度电需要多少个脱贫呢? 这是目前最让人震撼的经济账。通过电转算力,算力生成 talking, 原本廉价的电力实现了价值的几十倍甚至上百倍的增长。根据了行业书册算呐,我们可以算一笔账,我们投入一度电。在中国西部,绿电的成本大约是在两毛到五毛钱人民币 转换可以产生约五百五十万个 talking, 产生的价值约十一元人民币。这是按照国内当前的 api 定价估算,那么价格征服啊,约二十二倍,相比直接卖店,价格直接翻了二十多倍。 如果参照美国这个部分的高昂的定价标准,那么这个增值的倍数可以达到数百倍。这意味着中国正在通过西部的廉价风电光伏转换成 tokyo, 实现一种新型的高负价值输出。 中国啊,有独特的优势,算电协同为什么大家都在讨论 tokyo 和电力的关系呢?因为 中国在电这一端拥有全球独特的竞争优势,这直接决定了未来我们产生的透平是否足够便宜,足够有竞争力。 中国西部如贵州、内蒙、甘肃等地拥有丰富的风能和太阳能,电价极低,部分地区低至零点二元每度。相比之下,美国的工业电价普遍较高,且电网老化。 国家通过东数西算工程,把东部的数据需求送到西部去处理,西部的绿卷就地转换成算力生成 tokyo, 再通过光纤网络瞬间传输给全球用户。电力不出境,价值却出海。以前啊, 我们想出口电力很难,需要加设跨国电网。但现在,我们把电变成 tokyo, 海外用户调用。于是中国的数据大模型实际上就消耗了中国的电,这是一种隐形的、高利润的能源出口。 好了,有对这个话题感兴趣的小伙伴可以给我留言,我们相互探讨。

如果我问你怎么判断一块 gpu 好 不好?大多数人可能会看参数,它的核心数、显卡大小、计算峰值等等等等。但在 ai 时代,这些指标正在变得越来越不重要,而真正重要的只有一个数字,每晚能产出多少 token。 为什么是这个指标呢?我们上期说过,数据中心是 token, 为什么是这个指标呢?一座数据中心,电力是有上限的,你不可能无限拉电、 土地、电网、散热,每一个环节都在限制你的用电量。所以问题就变成了,同样一瓦电,你能产出多少酬勤?这才是这座工厂真正的生产效率。打个比方, 两家工厂用的电一样多, a 工厂每小时生产一百件商品, b 工厂每小时生产五件,你会选择哪个工厂?答案显然一件。但在 gpu 行业,过去大家比的是机器跑的多快,而不是同样的电能产出多少。 ai 时代把这个逻辑彻底翻转了,因为推理是持续不断的工作负债,电力成本是永远在跑的,账单效率才是真正的竞争力。 所以当你下次听到有人说某块 gpu 性能强,你可以多问一句,每瓦能跑多少 token。 这个问题比任何参数表都更能说明它值不值得买每瓦 token 数是 ai 时代衡量算力的新标尺。

最近有一次频繁出现 token, 有 人把它比作 ai 时代的水电煤,有人说它是未来最重要的资源。甚至有人预言, token 将是互联网行业第一个真正意义上的全球大众商品。但 token 到底是什么? 它为什么突然变得这么重要了?今天我们就来深度科普这个正在重塑 ai 和金融两个领域的核心概念。 要理解头肯,首先要明白这个词正在被两个截然不同的领域同时使用。在人工智能领域,头肯是大语言模型处理信息的基本单位。简单来说啊,当我们像叉、 g、 b、 d 提问的时候,你的问题会被切分成一个个头肯 ai, 再根据这些头肯深层回答,一个头肯可以是一个字、一个词,甚至是一节 标点符号。在金融科技领域,头衔则是数字资产的主体。通过代币化的过程,现实世界的资产,比如股票、债券,甚至充电中,可以被印射到区块链上,变成可编程、可交易的数字代币。 而今天啊,我们直讲 ai 领域的头肯,有一个比喻很形象啊,如果把大模型想象成一个知识电厂,头肯就是他发出的度电。你的每一次提问都是在合上电闸消耗一定数量的头肯。这个比喻精准的揭释了头肯的经济学意义。就像电力公司按度收费一样,几乎所有大模型厂商都按头肯计价, 你输入给模型的指令要花钱,模型输出的答案也要花钱。 token 就是 ai 服务的计价单位。那么 token 的 消耗量有多大呢?一组数据,二零二四年初,中国日军 token 的 消耗量仅为一千亿, 到二零二五年六月底,这个数字月升为三十万,也足足三百倍。 open ai 的 掉用量同样惊人。二零二四年六月至二零二五年六月, 微软 ag 云的日均 token 式的调用量从零点五五万亿上涨至四点四万亿。与此同时, open ai 的 年化营收从五十五亿美元增长到突破一百亿美元。 token 消耗量与营收同步增长,这说明什么呢?说明 token 已经成为 ai 公司最核心的商业模式。 有观点认为, token 比水电煤更厉害,因为水电煤是金属资源,而 token 本身是可以直接交易、储存和运输的数字货物,它是互联网行业第一个真正意义上的全球大宗商品。 这个类比很精彩,因为大宗商品的特点是标准化、可批量交易,价格随市场波动。石油、铁矿石是这样,头肯也是这样。 更值得关注的是头肯的套利逻辑。有分析指出,头肯生意短期是模型和显卡的生意,谁有好模型,谁有强算力,谁就赚钱。但长期看,他会变成电费和贷款的套利。 什么意思?当 ai 模型成熟,算力变成基础设施后,成本的大头就变成了电费和网络贷款。哪里电便宜,就把数据中心建在哪里,哪里网速快,就在哪里处理数据。 就像当年加密货币的矿场主扛着矿机跑到水电站旁边一样。未来的 ai 巨头可能本质上是在赚电费差价。这是一个脱虚向实的预测,把 ai 从神坛上拉下来,看作是一种可以靠地理优势和资源成本来赚钱的全球贸易品。好了,让我们回到开头的问题, 头肯到底是什么?在 ai 世界,他是信息的最小单位,是 ai 服务的计假期,是正在成为全球大众商品的 虚拟原有。就像当年理解贷款成本对互联网的重要性一样,今天理解投肯经济学对投资者、创业者、观察者来说事关重要,因为投肯不仅关乎技术,更关乎成本、效率、商业模式以及未来的财富分配。

家人们,今天我们聊一个这几天超火的新名词, token, 中文名叫词源。我们用最简单、最接地气的方式聊清楚什么是 token, 它是干什么的,有什么价值。聊完我们去运动跑步。 首先,什么是 token? 简单地说,就是 ai 算账和收费的单位。你问 ai 一 句话, ai 回你一段话,都是按 token 算的, 字越多, token 越多,成本就越高。原理是什么呢?你的请求输入数据,系统 服务器启动 gpu 开始计算,电力币被消耗,算力被使用,最后生成答案。整个过程就是算力到电力到智能服务, token 都是这些算力生产出来的。算力的背后就是电, 训练一次大模型,耗电量大到吓人,后期天天推理天天用,更是无底洞。所以谁有电,谁电便宜,谁就能玩转 ai。 这时候,咱们国家的东数西算就起到了大作用。 东部数据多,需求大,但电费贵。西部分电、光伏、水电充足,电价低。国家把算力中心往西部建,用西部的绿电带东部的数据,直接把大模型的成本打下来。应从 ai 从聊天机器人 进化到智能体以后,全球开发者发现,美国的大模型的成本使用太高了。在今年年初 openclos 这类开源智能体框架爆火之前, ai 对 大多数人来说只是个聊天工具,你问一句,他回一句, 单次交互消耗几千个 token, 每月就二十美元的费用,大家还能轻松承担。而现在, ai 已经进化成能承担工作的全自动化数字员工你给一个指令,它能在后台运行几个小时,单次任务 从几千飙升到几百万,这种消耗量对开发者来说简直就是财务黑洞。如果调用美国头部模型,每百万 token 的 输出价格约为二十五美元,输入也要五美元。 一旦让 ai 全天候自动运行,一个月的账单轻松突破上万美元。而我国大模型凭借好用又便宜的双重优势,成了硅谷开发者的首选,我们的价格是美国二十分之一, 这种极致的性价比,让全球的开发者集体倒戈我国的大模型。所以大模型比拼到最后,拼的是电力规模、电力成本、电网调度能力。而这些正好是我国的强项。我们的发电量世界第一, 装绿电装机量世界第一,特高压电网独一份, 东数西算,又把算力和电力完美结合。我国去年发电量是十点四万亿度电,什么水平呢?接近 美国加印度、加日本,加欧盟加俄罗斯,妥妥的电力帝国。 之前我们从出口衣服、家电、玩具,到这几年出口电动车、 锂电池,拿下个十年, token 成为我们最具爆发的数字。出口不需要海运,不需要受贸易壁垒限制, 却能将我国的算力、算法和能源优势直接转化为服务贸易收入。换句话说,我们正将我们的电力通过 token 卖向全球。那问题来了,我们最终卖了多少钱呢? 这个账我们来算一下,一度电约为三百六十万焦耳,在 ai 推理的情况下,一块 gpu 生成一个 token, 大 约消耗零点三九焦耳,除去损耗, 保守计算可以至少生成五百五十万个 token。 再看我们的大模型 deepsec, 一 百万个 token 收费 二元人民币,那五百五十万个 token 收费就是十一元,相当于一度电卖了十一元。如果纯卖电,一度电只能卖到五毛左右,如果进到算力再到 token, 一 度电就可以卖到十一元,这还是充分竞争后的价格, 电力价值被放大二十倍以上。这就是为什么我们都在疯狂地建设数据中心。之前类似的就是比特币,我们用便宜的店生产比特币,再卖向全球店,没有出国,但以另外一种形式以高价值卖出去了。 过去是矿机加比特币,现在是 gpu 加 ai, 过去是生产数字资产,现在是生产智能。逻辑是一样的。 看到这个,我们现在新能源的生态光伏加分电加电网加数据中心,形成一个新的形态,算电协通,把新能源的波动用算力中心吸收进去,这样我们就可以通过生产出的 token 被全球消费, 也可以说中国的分店和光伏被全球消费,成为最抢手的资源。所以最后的结论很简单, ai 的 尽头是算力,算力的尽头是电力,电力的尽头是中国,我们的新能源发展有大有前途。

现在这个托肯工厂的生意非常火,那么去生产托肯需要什么东西呢?其实就是像这种 gpu 算力,现在很多机房都开始建设了,很多用的型号呢,像这种 a 一 百, 然后这种是 h 一 百, h 两百,目前比较火的就是 h 两百这个型号,像这里演示的是一个八卡的 h 两百模组啊,由八张卡组成,单张卡的显存是一百四十一 g, 八张卡呢就是一千一百二十八 g, 三张卡加在一起呢, f p 八的算率是三十二 p, 这什么意思呢?就是它在一秒钟的时间内能执行三点二亿亿次普点预算,那这么大的算利用来生产 token 能生产多少呢?那经过我们的测试啊,跑这种大模型,比如说像 deep secret 六百七十 e b 的 模型呢,每秒钟能够生产五千个 token, 也就是说我们写一本几百万字的书,可能几分钟就会写完了,而且它在极端的情况下,能够同时承担几千甚至上万个用户的同时请求。

token 到底是什么?普通人怎么理解?很多人用 ai 的 时候,都会看到一个词, token, 但大多数人其实不知道这个东西到底是什么。大家好,我是伞登,今天我们就讲一件事,普通人应该怎么理解 token。 如果要用一个最简单的东西类比 token, 其实很像早期互联网的流量。以前我们上网每个月只有几十兆流量,看一会网页就没了,看个视频更是奢侈。 而 ai 现在的状态其实跟那个阶段非常像,你用一次 ai 问一个问题,生成一段文字都会消耗 tokin, 所以 很多 ai 产品其实是在燃烧算力。 如果你这样理解,就很简单了, ai 就 像互联网, tokin 就 像流量,而那些智能体、工作流这些应用每运行一秒都在消耗流量。 所以现在很多个 ai 产品其实还处在一个流量很贵的阶段,就像当年我们每个月只有几十兆流量的时候。 但历史有一个规律,当技术发达到某一天,流量不再是问题,应用就会爆发。你看,今天我们几乎不会再为流量发愁,真正赚到钱的也不是那些基站建设者,而是短视频、电商、游戏、各种互联网应用。 而呼和浩特恰恰是一个算力节点城市,这就意味着未来这里会有大量算力基础设施。但普通人其实不需要去建机房,也不需要去研究模型,真正的机会往往出现在更上层, 也就是怎么用这些工具解决现实问题。所以 talking 这个词,你不用把它想得太复杂,它就像早期互联网的流量,而 ai 可能正处在那个应用爆发前的阶段,我是伞登,我们慢慢把这些事情聊清楚。