啊,我这两天一直在用 cloud 的 跟 codex 一 直在写东西啊,我使用下来的感受就是真的很费 token 啊。那包括还有像 opencloud 的 也是使用下来真的是 token 一 直在爆炸燃烧,想想写的东西永远写不完。然后刚刚呢, cds 也发了一个公告说呃价格真的是使用下来是一秒钟一块钱。我觉得这个 呃实际的价格应该是不止因为你呃一条片子你不可能是一遍就过。那我也是非常看好接下来两会的不断的会有一些 ai 的 国产算力的一个呃力好。好吧,国国产算力今年肯定是腾飞。
粉丝2343获赞7829

两只龙虾究竟要花多少钱?如果你没有算过经济账的话,千万别一时冲动, 听我给你算一下吧。首先就是硬件嘛,呃,以最现在最火爆的那个虾龙 mac mini 来算的话,低配就得四千三百块了, 甚至全网卖断货了。再者就是安装,网上的安装费从几百几千不等,几千因你想多便利,上周腾讯他不是也免费排队安装龙虾吗? 在那,在这里恭喜你花费了五千块钱拿到了养虾资格证。接下来认为才是无底洞。 token 是 ai 的 计算单位,中文一个字要烧两个。两个 token open call 每一次启动就要断掉数千到数万个 token, 相当于你车还没启动,五块钱的油费就烧没了。更加变态的是它的复制模式,处理任务的时候,每一次都要把之前所有的信息都读一遍。就是上下文嘛, 抖音实测一天四百块钱,六个小时一千多块钱,有开发者首页一点一,一八亿个托肯,账单两万多, 月薪两万还不够龙虾超十五天?这可能就是最讽刺的那个时代倍论。你装 ai 是 让他替你打工,结果更拼命,你得更拼命打工才能养得起他。 open color 每一台机器就像一个印钞机,只不过印的是你的账单,它运行的时候你无法监控了吗?等你发现跑跑偏了喊停时,它已经背着你刷掉了几百块钱了。所以 对对于大多数普通人来说,与其担心被 ai 替代掉,不如先担心怎么赚够这个月的托管费吧。

cloud 模型它有多贵啊?我现在才知道为什么好多业余的,他想搞开发,想做点东西,一花就是花几千块钱啊。 我昨天想调整一下我的页面,因为 cloud 的 这个模型它效果比较好,所以我就买了这个工具,因为这个工具它能充九块九美金,所以我充了九块九美金,花了将近七十块钱。 然后我用的是 cloudsonic 四点六,应该是新出来不久的模型啊。我调整了一下我的页面,然后有的地方加了一些滚动分页,结果花了百分之四十的 toc 啊!百分之四十的 toc 是 什么概念? 也就是我稍微让它改一改页面,我已经花掉了三四十块钱,真是太贵了,就毫无性价比可言。


家人们,摩根是单利最新研爆炸了!二零二六,中国 ai 云赛道大机会来了! 核心数据,龙头玩家、行业逻辑一次性讲透,三分钟看懂未来五年的黄金风口。谁能想到,中国 ai 云市场二零二四到二零二九年,复合增速直接干到百分之七十二,从一百五十亿人民币飙到两千一百八十亿, 在相关云市场的占比从百分之六冲到百分之三十九,这增长速度直接拉满。核心就是 toc 用量疯涨,尤其是推理需求, 年复合增速高达百分之一百零三,比训练需求的百分之二十六翻了四倍。二零二九年,推理业务直接占下百分之七十七的市场份额,字节豆包日均 toc 从四万亿暴涨到五十万亿,互联网、汽车、金融全行业都在抢算力, 这风口直接吹满。更关键的是,中国云市场时隔二十年首次迎来涨价潮,全球头部云厂商 awus、 gcp 先涨为敬, a w u s 机器学习相关服务直接涨百分之十五。国内也紧跟步伐,网速 c d m 涨价百分之三十五到四十,腾讯自研模型最高涨了百分之四百,研报精准预测,云产品每涨百分之一, 企业利润直接提一个点,别逼特直接涨百分之十一!头部云厂商乐观场景下,二零二七年业务增速和利润还会双提升,行业盈利拐点直接来了, 赛道火了谁在吃肉? ai 云赛道彻底变天,双雄格局直接锁定,两家企业凭全占产品能力和激进的投入速度霸榜,其他玩家根本追不上 第一家。阿里云直接封神,全站布局拉满,自研芯片加旗舰大模型加 mas 平台,全套配齐 智能 i a a s 市场份额百分之二十三点五,稳居第一,也是企业最认可的 ai 云服务商。二零二五年要吞掉百分之五十三的 ai 云增量之初,实力直接拉满。第二家自解火山引擎呈最大黑马, 此前在云市场几乎没份额,现在直男 ai a s 占比百分之十四点二,稳居第二。 mark 市场更是拿下百分之三十七点五的份额,排名第一。多模态模型斩获全球认可,豆包生态直接带飞海量偷啃需求, 二零二六年投入规模远超行业同行,妥妥的赛道颠覆者。至于其他玩家,腾讯有强大的社交生态,但缺顶尖前沿大模型, 投入也相对保守。百度虽有全站布局,但投入规模和模型能力都落后头部运营商和华为等玩家,更是因创新速度慢、高端芯片供应受限,成了市场份额的主要流失方。 为啥说 ai 云厂商接下来要赚翻?行业净利润从高个位数直冲低双位数?三大核心逻辑太硬了! 第一,业务重心从训练转推理,按 token 计费,还能多任务弹性调度,资源利用力拉满,还能捆绑增值服务, 利润直接翻倍。第二,自研芯片降本超百分之五十,和自研模型完美适配,算力利用率能干到百分之七十五以上,远超行业百分之四十到五十的平均水平。第三,数据中心迁往偏远地区, 店价租金直接砍半,再加上架构创新持续提效,成本端直接卷死对手。 最后划重点,这份研报也明确了行业的核心催化剂和潜在风险利好催化剂超明确 头部云厂商的重磅投入规划、云产品提价落地、 ai 代理应用大规模普及,每一个都能助推赛道在上台阶。而潜在风险也得警惕, 行业竞争加具 ai 应用普及速度不及预期,数据安全担忧影响工友云普及,这些都是赛道要迈的坎。总结一下,中国 ai 云迎来黄金五年, tok 用量激增是核心增长引擎, 涨价潮加业务结构优化推动盈利大幅改善全站产品布局,加大手笔投入能力是企业的核心壁垒。双雄争霸的格局已经形成,整个 ai 云赛道的机会真的来了! 觉得有用的家人们,点赞、收藏、关注,后续持续拆解热门行业重磅严爆,带你抓准每一个风口!

今天咱们聊一个正在重塑全球科技格局的趋势,为什么全球开发者突然疯了一样开始狂用中国模型?大家可能以为是咱们技术碾压,但其实除了编程和智能体领域确实表现过硬外,最核心的答案就两个字,便宜。 咱们来算笔账,真相让人热血沸腾。在输入成本上, memo max m 二和智普 g l m 五每百万 token 只要零点三美元,而美国顶级模型 cloud ops 四六要价五美元。这是什么概念?人家是咱们的十六点七倍, 差距在输出端更大。中国模型输出成本约一点一到二五十五美元,而美国模型高达二十五美元,成本差距直接拉到二十二倍。 这背后是中国独有的算力与规模红利。低廉的电价、规模化的算力集群,让我们用中国制造的成本优势,开始收割全球 ai 服务的市场。 这种成本优势直接引爆了 token 的 爆炸式增长。看数据,火山引擎的大模型日军掉用量从二零二四年底的两万亿飙升至二零二五年底的六十三万亿,一年增长三十多倍。 阿里云更是目标明确,二零二六年外部客户日均调用要达到十五到二十万亿。放眼全行业,二零二六年二月,中国主流大模型合计日军 token 消耗已经达到了一百八十万亿的恐怖级别。 这股 token 出海的浪潮绝不仅仅是科技圈的事儿,它正在为我们普通投资者打开一扇巨大的财富窗口。那么,机会到底在哪里?第一,算力击剑。 toc 爆炸算力就是新石油芯片服务器,击贵厂商是最直接的受益者。第二,模型与平台头部大模型厂商和开放平台将凭借成本优势抢占全球市场份额就是利润。 第三,智能体应用模型便宜了开发 agent 和行业工具的门槛大幅降低,轻量 sars 垂直智能体将迎来警喷。一句话总结,中国模型正用一场成本革命改写全球 ai 游戏规则,你看懂了吗?

如果你花了三十块钱买了三百道的 cloud 的 流量包,你要小心了,它可能正在摧毁你的数字资产和浪费掉你宝贵积累资产的时间。 今天我们来讲一下 cc 反向代理的代价。那我们知道啊,这个 cc 的 话,在国内你很难去买到正版的,或者即使你买到的话,你会花很多时间在网络的连接,连通信以及这个高昂的费用上。 那很多呢,在某鱼上边儿就有卖这种的流量包,比如说买可洛的话,去充值二十八,或者说三十的话,就获得三百刀这样的 一个优惠包。那当你使用的时候呢,你当然你可以直接接到那个 c c 里边去用啊,但是它最大的问题呢,它是通过反向代理 出来的,这些 a p i 接到了你的 c c 上。那什么叫反向代理呢?就比如说我们现在呢,有很多的开发工具 ide, 比如说 kro 啊,或者按按 t grip 啊, 然后这些 ide 的 话,它们本身是支持很多种不同的模型的,那这些模型的 ip 和调用的方式呢?通过一些网络的方式,其实我们是能抓取到这些接口的,那从而呢,我们可以把这些 ide 的 模型的调用呢,我们给它暴露出来,暴露出一个正常的一个 api 出来, 那这些 api 呢,从而让它支持 cloud cc 的 这种兼容模式,那它就可以放在 cc 的 cloud 中去使用了,那这样的方式呢,就变成了一个反向代理的方式, 那它价格呢,就变得极其便宜。就比如说 kiro 或者 angelgrati, 你 办一个比较大的会员,或者使用学生账号或者其他途径的话,它是有很多免费版本的,所以呢, 即使这个商家在做三十元三百刀的时候,其实还是有利用空间的。那这里边我们需要关心的是这些 ide 暴露出来的 cloud code 这些模型的话,为什么对我们构建数的资产是有影响的呢?我们知道这些 ide 里边其实都是自己设置了一个 system prompt, 就是如果你去给它暴露出来的时候,你调用的时候也是带有这个 ide 的。 呃,里边的 prompt, 比如说是如果是 kiro 的 话,它就会 system 里边 prompt 会写着说你是 kiro, 是 一个编程助手。什么什么?这是基于 kiro ide 的 一些规则, anti gravity 其实是一样,包括后边 curso 也都是一样的。 然后它们的 system prompt 的 话,就对我们原来的这些模型呢,其实是进行了一个系统提示词的一个污染,那所以结合克拉扣,它自己也有提示词,我们就变成了这样的。 就原始的 cloud code 呢,是我们有一个 c 自动 cloud code, 这个就是 c c 自己的系统提示词,下边接着我们 u 的 这些信息就可以了。那我们通过反代去使用的这些 a、 p、 i 呢,它就会在 我们 c c 的 这个提示词下边呢,也追加到这个 i、 d、 e 里边的提示词,所以你看啊,上下文就进行污染了,它在最顶层上下文的提示词中呢,其实是 c c 自己的系统提示词中间这一部分和下边这部分 实际才是我们真正调模型这些提示词,那下边两部分是 i、 d、 e 通过反向代理出来的,那你会发现啊,那系统提示词就有两部分,那我们的整个的提示词呢?就进行了一个污染, 那当这个系统提示词进行微污染的时候,我们有很多的 skills, 我 们有很多需要复利工程的让模型去帮我们处理的这些内容呢, 实际上呢,我们就在污染的涉案文里边继续进行操作了。那你说那我污染涉案文,如果我都是 k 肉情况下,我自己也是可控的。其实这里边最大的问题是什么?当我们购买了这种流量包的时候呢?其实它是一个路由的,它一会是 k 肉的,一会是 antigravity 的, 就你很难去数字资产化你的提示词也很难去呃 复利化,你整个的数字的一个债务资产。我给大家举个例子啊,你看这里边呢,是我用了购买流量包的反向代理的 c c, 那 这里边你去问他你是谁的时候,因为他是有两层提示词的嘛,所以他就会说我是 kiro。 那 你知道这个我是 kiro 的 计划,其实是 kiro 里边的 id 反向出来的 api。 然后呢后边有一部分呢,是关于 cc 的 提示词里边的这个身份认证,你发现它就会有两部分的身份认证。当然它去操作的时候,因为 kiro 本身是有它自己的工具调调用的方式,然后 cc 是 有它自己调用工具的方式的,所以你整个的呃关于工具的调用方式也是混乱的。 所以如果大家在使用的话,如果真的觉得 cc 我 们原生去氪金来讲的话,它非常贵的话,我们其实是可以使用国内的这些模型的,最起码里边的上下文其实是不受污染的,不受在不受污染的上下文中呢,我们去构建 我们自己的数据资产,那这个东西才是可持续、可迭代的一种方式。那也希望呢,今天内容对你有收获,关注雷哥,关注 ai 工程化落地。

我第一反应不是技术牛逼,而是这俩巨头终于把算力这门生意玩明白了,而且开始收精细化租金了。来, 我给你拆开讲,但我不走那种教科书路线,我带你看点更狠的东西。这事本质是啥?一句话,算力从买房模式变成拼房加按小时付费。这次的主角是 google cloud, 乘 nvidia, 他 们干了一件很 资本家,但很聪明的是把一张顶级 gpu 切碎。卖。什么概念?过去企业用 gpu, 就 像你非得整租一套豪宅,整卡 gpu, 哪怕你只用一个房间,跑个小模型,钱也得全付。现在呢?二分之一 gpu, 四分之一 gpu, 八分之一 gpu。 你可以像点奶茶一样选中杯、小杯、迷你杯,这玩意儿叫分数 gpu fractional gpu。 听起来很技术,其实一句人话,算力开始零售化了,它们到底在解决谁的痛?说实话,现在 ar 行业最大的问题不是模型不够强,而是用得起的人太少。以前你要搞 llm 推理 a 阵的系统、机器人仿真,你得先过一道门槛。 gpu 成本动不动几十万一台服务器或者原上烧钱向点火,结果就是只有大厂在狂欢,中小企业在围观。这次 google cloud 和 nvidia 干的事,本质是把入场门票从 vip 价打成散票。 最值得玩味的一句话, token is the new commodity。 李 jason huang 说 token 是 新的商品,很多人听了觉得是鸡汤,我反而觉得有点冷, 什么意思?过去的世界,石油是资源,电力是资源,未来世界可能变成托肯模型,计算量就是资言。你问一个问题,生成一段话,本质上都在消耗资源。 所以, gpu 等于发电厂,云厂商等于电网, ai 公司等于用电大户。这套逻辑一旦成立,算力就是新时代的能源经济。我自己的判断,带点主观偏见,我其实有点兴奋,也有点警惕。 兴奋的是 ai 终于开视频。没话,不是只有 open ai 这种剧头能完蛋。警惕的是,这套体系有点像温柔的垄断,你以为你在自由选择,其实你已经在别人设计好的轨道上 奔跑。就像高速公路,你可以开得很爽,但你下不了车。最后我给你一句总结,带点狠劲。这次 google cloud 和 nvidia 干的不是简单的技术 升级,他们在做的是一件更野心勃勃的事,把算力变成像水电空气一样的基础设施,但收费权牢牢攥在自己手里。

我昨天跟大家讲过,说 opencloud 它非常消耗 token, 对 于我们普通人来说还是比较浪费钱的,因为你充个一百多块钱的 token, 一 两百块钱的 token 可能一两天就哦,用完了就非常的快啊。 就是这我说的一两天,还是说你不怎么重度使用的情况下,如果你重度使用的话会更夸张。那现在呢?我看的这个国家超算,就是超算互联网这这个平台,它是有让你 可以一键部署的,一键部署,然后他是免费的,免费的,然后你部署完以后,他,呃送给你的有那个一千万的一个头啃,你可以去点啊,现在还在,还在活动期间,他的活动,嗯, 还在进行。然后你现在,因为我,我也是昨天在看到,然后我就赶紧去录这个视频给你们分享一下。然后的话你看他的,他赠送的, 嗯,我现在内置的一个模型啊,是 mini max, 呃, m 二点五,就是因为我领了他的这个 mini max 二点五的,呃,一千万的头盔在这里啊,我领了,现在活动还在进行中啊,大家 需要领的话赶紧去领。然后他这个平台呢,主要比较侧重于那种算力啊,就是说,嗯,他不像阿里云和腾讯云那样,他比较倾向于算力这一块, 就是说,呃,你也足了他的算力,然后可以做一些训练啊,或者是像他这种,他会搞一些活动,和那个 mini max 联合做一些活动,然后,呃,促进这个 open cloud 它的推广这一块他都会做。 然后你看他的一个网站里面还做了一些,就是比较比较好的一些模型啊,他都有这些。 嗯,做这些网站去支持,你看他还能上传,对于支持 m c p 和支付什么之类的,然后他还在做一些活动,你看他这个易购的,呃,加速的,加速卡,这些活动啊,你看这里都可以领的, 如果你是,嗯,小型企业啊,可能暂时的,呃,想要去跑一些,验证些想法,或者跑一些想法就可以先跑,然后这上面是可以买的啊,你当然你不感觉比较好的话你可以买,它只是租算力的哈,它不是租服务器,它会在服务器上给你分配一个实力, 你在实体里面跑,嗯,算力是租给你的,然后你买了,买的话是算力和不是买服务器,他不像阿里云和腾讯一样买服务器,然后他这里还在卖这些一体机,有兴趣的话可以看一下啊,这个东西你可以慢慢的每个都点开去看一下我。 嗯,时间有限,我就讲这么多,这里面好多东西。嗯,都可以去看一下,包括社区啊、商城啊都可以去看一下。


大家好,今天我要和大家分享的是 token 的 本质与消耗机制,这可是计算机求助面试里的必备知识,相信大家肯定有疑问,为什么大模型运行要消耗 token 呢?还有每一千个 token 到底能处理多少文字? 首先我们来认识一下 token, 它相当于大模型理解文本的最小语义单位,就像是 ai 用来搭建认知世界的一块块砖块。那它和我们日常的文字怎么换算呢? 一般来说,一千个 token 大 概相当于七百五十个英文单词或者五百个中文字母,平均下来一个汉字大概对应零点五到零点七个 token。 从技术本质上来说, token 是 文本转换为数字向量序列的中间表示,是大模型读懂文字的关键环节。 接下来我们聊聊为什么大模型运行会消耗 token, 这核心原因就是注意力机制带来的计算代价。首先是注意力机制,它需要计算每个 token 之间的相关性,以此来理解文本的语义。 然后是计算复杂度,它是 n 的 平方级别的复杂度, n 就是 token 的 数量, token 越多,计算量就会呈指数级增长。 还有存储需求,运行过程中需要缓存上下文向量,这会占用大量的显存资源。最后是工程限制,为了防止服务器资源耗尽,确保服务稳定运行,也需要对 token 的 使用进行管控。简单来说,每一个 token 都要参与计算,文本越长,对应的成本就越高。 下面我们来看大模型的计费机制。这里要分输入和输出两部分来说。首先是输入 token, 也就是我们发送给模型的 prompt, 也就是我们的提问文字,这部分的单价相对较高,比如我们输入翻译这段代码,大概会消耗五十个 token。 然后是输出 token, 也就是模型生成的 completion, 也就是回复内容,这部分的单价更高,比如刚才那句,指令对应的翻译结果,大概会消耗一百五十个 token。 最后要注意的是,输入和输出都会计费,总消耗的 token 数量是两者的总和。 不同的大模型在价格和性能上也有不同的侧重,我们需要根据需求做好权衡。比如 gpt 四,它擅长代码生成和数学推理,适合复杂的专业任务。 gpt 三点五更适合文本生成和简单问答这类基础任务。 cloud 二则在文档分析和长对话方面表现出色, 大家可以根据自己任务的复杂程度来选择合适的模型,既能满足需求,又能控制成本。那我也给大家分享几个节省 token 的 实用技巧。 首先是 promp 工程,我们要精简指令,去除笼鱼内容,直击要点,比如把请帮我详细分析,改成分析就能减少 token 消耗。然后是分块处理,遇到长文本时,我们可以把它分成小块,逐批输入模型,充分利用模型的上下文窗口。 最后还是模型选择,我们要根据任务的实际情况,在成本和效果之间做好权衡,用最适合的模型来完成任务。 最后我整理了两个面试里关于 token 的 高频问题,大家可以提前准备好答案。第一个问题是如何优化 token 使用成本, 对应的答案可以从这几点来回答,一是精简提示词,去除笼鱼内容。二是用少量势力替代详细指令。三是选择性价比高的模型。四是对长文本进行分块处理。第二个问题是 token 限制如何影响对话? 答案可以这么说,当 token 数量超出模型的上下文窗口时,会丢失之前的历史信息。解决办法,可以采用滚动窗口策略,定期对关键信息进行摘要处理。 好的,今天的内容到这里就接近尾声了,我们来总结一下核心要点, token 是 ai 理解文本的最小单位,注意力机制决定了它的计算成本。通过优化提示词和合理选择模型,我们可以大幅降低 token 使用成本。 关注七倍编程能帮大家更好地准备计算机求职面试,感谢大家的聆听!

全球大模型价格战的第一枪已经打响了,如果你是 ai 产品的创业者或者产品经理,一定要打起精神,开始做足准备了,因为这将是十年难得一次的大机会。就在前天, astropica 和 open ai 两家公司同时大幅 送福利,可乐百万 token 上下文不加钱了,闲时的时候用量直接翻倍, openai 的 codex 限量翻倍送两个月,这就意味着二十美金的月卡实际上能用掉六百美金的 token。 从千万三点五 plus 的 百万 token 几块钱,到现在 osnoop 和 openai 大 幅的让利,都很明确地说明 token 越来越便宜,这是一个趋势,没有例外。这就是底层特有的商业逻辑。一年前百万 token 要几十块钱,今年开始百万 token 已经降到了几毛钱。也许明年百万 token 只需要几分钱,最后变成跟水电一样不要钱似的。但是大多数人只知道薅羊毛,不知道要赶紧趁便宜囤资源。那囤什么呢? 三样?第一囤内容。现在用 ai 生成一条四五十分钟的视频只需要几毛钱,为什么不趁机把内容库建立起来呢?一旦建成了, 就是我们的永久资产,即使模型降价也抢不走。第二囤,用户,趁着成本低,多做免费增长,把种子用户攒到手,用户在你手里面比什么都值钱。第三囤,认知,用最便宜的成本疯狂试错,搞清楚什么商业模式跑得通,什么样的产品能得到用户的喜欢, 疯狂的积累行业的 noho, 这些装到你的脑子里,大模型拿不走,经验无价。还记得当年的外卖补贴大战吗?巨头烧钱的时候,人人都在薅羊毛,烧完了之后你就会发现,趁补贴期把流量做起来的商家后来越做越大,但是只知道薅羊毛的用户 什么都没剩下,只知道薅羊毛的普通商家也什么都没剩下。风口不在,倒闭了一批又一批,大模型越来越便宜这件事情在今年就会发生,所以赶紧利用起来,这就是十年难得一遇的机会。如果这条视频能够启发你,评论区六六六让我能够感受到,感谢观看到这里的你。


别划走,龙虾要涨价了!就在马化腾凌晨两点官宣腾讯龙虾全家桶的同一天,腾讯云智能体平台发了一条公告, ai 模型全面涨价,会员二点零,模型从零点零零八涨到了零点零零四五, 涨幅超过了百分之四百。 dm 五、 mini max 二点五、 kimi 二点五。这三个模型三月十三号全部结束免费公测,以后全都要收钱了。 意思就是龙虾本身免费,但你喂它吃的偷看越来越贵了。就像你养一只猫,猫是免费领养的,但猫粮每个月涨四倍,你能受得了吗? 对个人来说,这是几百块钱的事,但对企业来说,你一天跑几十万次的 api 调用,偷看的成本可能瞬间从每月五万变成了二十五万。企业用 ai 第一件事不是选工具,是先算账,你有没有用?你用的了吗? 还有,你的模型是否分层,简单的任务用便宜模型,复杂的任务再用顶级模型,这个策略能帮你省一半以上。白皮书里有一张完整的模型分层省钱方案,你们现在每个月 ai 花多少钱?评论区聊聊。

昨天三月十八号发生了一件大事,阿里云和百度云同一天宣布涨价,阿里云最高涨了百分之三十四,百度云涨了百分之五到百分之三十。这不是估地事件。 往前看,一月份亚马逊云打破了近二十年只降不升的传统,涨价百分之十五。 谷歌云更狠,部分服务直接翻倍。腾讯云前几天也涨了,有个模型涨幅超过百分之四百六。计算发展了二十年,从来都是降价抢市场。为什么现在集体转向?答案只有两个字, token。 就在刚刚结束的英伟达 gtc 大 会上,黄仁勋抛出了一个新概念,叫 token 经济学。他说,数据中心不再是存储文件的仓库,而是生产 token 的 工厂。 token 就是 ai 时代的数字原油并通货。为什么这个节点提出来?因为 ai 的 驱动力变了。 过去两年是训练时代,大家比谁买的芯片多,谁建的模型大。但从二零二六年开始,行业正式进入推理时代。黄仁勋的原话时,生成式 ai 的 实验阶段已基本结束,工业化的生产时代已经开启。工业化生产意味着什么? 意味着每一秒钟都在消耗 token 模型不再是静态的,而是二十四小时运转的智能生产线。你肯定想问, token 都去哪了?答案是被智能体吃掉了,就是咱们之前聊过的 open claw 那 只小龙虾。 cloud 的 数据显示,你给 ai 智能体执行任务时, token 消耗量是普通聊天的十五倍,因为它要自主规划、调用工具,多步推理、自我修正,每一步都在烧 token。 opencloud token 消耗量从二月三号的八百零六亿,一个月飙到三月四号的三千五百八十亿,增长了三点四倍。到三月二日当周,全平台周度 token 调用量已经冲到了十四点八万亿。 i d c 做了一个预测,到二零三零年,全球年度 token 增长将超过三亿倍。三亿倍,这哪是增长,这是爆炸。 需求炸了,供给呢?跟不上。 sk 集团的会长崔泰元在 gtc 大 会上说,全球内存芯片的短缺可能持续到二零三零年, gpu、 hbm、 ssd 核心硬件价格全部飙涨。 本轮涨价本质是 ai 需求爆发与供给瓶颈带来的量价共振,市场已经进入卖方市场。 这一轮涨价不是一个简单的价格波动,它标志着一个时代的结束,大模型免费公测时代结束了以后,按量付费会成为常态。你的每次 ai 对 话,每个智能体任务都会变成账单上的数字,有用户实测充足使用,一个月费用轻松过百美元。 黄仁勋开玩笑说,未来硅谷招聘标准会是,你的 offer 里带了多少 token? 这听起来像段子,但逻辑是对的。 token 正在成为新的价值单位。 对咱们普通人来说,这意味着两件事,第一,学会精打细算,搞清楚什么场景用什么模型,怎么配置能省钱。第二,接受这个现实。免费的午餐吃完了, 接下来才是真正的价值交换。摩根斯坦利预测,中国 ai 云市场二零二四到二零二九年的复合率高达百分之七十二,从一百五十亿跃升到两千一百八十亿。这么大的蛋糕,不可能永远免费。

今天,一个消息悄悄出来,但我觉得它比很多头版头条都重要。国家超算互联网突然宣布,面向所有 openclaw 用户,限时两周,每人免费送一千万 token。 养龙虾的朋友看到这条消息,大概是这个反应,什么?国家队开始支持养龙虾啦? 这是什么信号?我们先了解一个概念,一千万 token 到底值多少钱? token 是 大模型思考和说话的最小单位,你说的每一个字, ai 回的每一句话,背后都是 token 在 计费。 一千万 token 是 什么概念?按字来算,大概能和 ai 进行,相当于写几十万字长篇小说的对话量。那这些 token 值多少钱呢?取决于你用哪个模型。你要是用 chat gpt 那 个级别的 gpt 四 o, 市场价大概是每百万 token 三四十块钱人民币。一千万 token 换算下来差不多三四百块。 用国内像 kimi 这种主流模型,均价也有十几块,一百万一千万也得一两百块。就算是目前国内价格最能打的 deep seek, 也要两三块钱。一百万一千万 token 折合二三十元。 也就是说,这次免费送的东西,市场价从几十块到几百块不等,取决于你用什么模型去类比。同日,国家超算互联网还顺手公布了续费价格,零点一元每百万 token, 这个价格是什么水平?比目前国内最便宜的主流模型还便宜一半都不止,比国际主流模型便宜了几十倍。 但我想说的是,这件事的意义根本就不在那几十块钱上。打个比方你就懂了,当年国家要推广新能源汽车怎么干的?直接把补贴砸下去,买车给钱充电免费,高速路不收费。那个时候你说买电动车是因为省了几千块吗? 不是,是因为国家在告诉你,这条路是对的,跟着走就行了。今天国家超算互联网送 token, 逻辑一模一样。 国家超算互联网是什么?是国家部署的顶级算力基础设施,全国最强的一批超级计算机都在里面,是货真价实的国家队。 这支国家队今天选择了用手里的算力去主动喂养 open claw, 等于是在用行动告诉所有人,智能体这条路,国家看好,国家在背书,国家要推,这对企业和开发者来说,信号意义远大于钱的意义, 你可以放心去用,放心去投。政策的风向已经非常明确了。上一个有同等信号意义的事件,是政府工作报告头一次写进智能体三个字,这一次是国家算力基础设施直接下场书写。那这件事对 a 股有什么具体影响? 从产业链角度可以拆成三层来看,最直接的那一层是算力基础设施。国家超算互联网背后是一批超级计算机中心,这些中心的算力扩张、设备更新、国产替代,都是看得见的硬需求。 中科曙光作为国家超算中心的核心设备提供商,可以说是最近这条产业链里距离政策最近的一家公司。 浪潮信息是国内服务器龙头,超算互联网的规模扩张,意味着服务器需求持续放量。 韩五 g 和海光信息在 ai 芯片领域深耕多年,超算国产化趋势下,国产 ai 芯片的使用比例只会越来越高。中间这一层是大模型和 ai 平台,国家超算互联网送 token 用的是自家算力去跑大模型, api 掉用量增加,意味着整个模型生态的活跃度提升。 科大讯飞长期深耕政务、教育、医疗的 ai 应用场景,这些恰恰是国家主推智能体落地的重点领域。昆仑万维在 ai 大 模型业务上持续加注 agent 生态的活跃,对它们的调用量也是实质性利好。 最后这一层是下游 ai 应用公司, token 成本大幅降低,等于降低了整个 ai 应用开发的门槛。金山办公的 ai 办公助手、用友网络的 ai 财务系统,这些有大量企业客户的公司,会因为 ai 使用成本下降而加速推广。 当然,冷静看这件事也有一些值得关注的地方。超算互联网的 token 是 限时两周免费,用完了之后能不能真正培养出稳定的付费用户群体是关键的考验。 另外, token 价格战的持续,对大模型公司来说是把双刃剑,用量上去了,但眉笔收入也薄了。所以这件事利好的更多是上游算力硬件,而不是中游的模型公司。但最关键的一句话就是,国家下场了,方向定了,剩下的只是时间问题。

你有没有这种感觉,网上所有人都在聊 ai, 但没有人跟你说清楚一件事,免费的和付费的到底差在哪? 那个叫 token 的 东西,凭什么让那么多人掏钱?今天我把答案一次性告诉你。先说实话,我以前也是免费的, check gpt 免费用, cloud 免费用,国内的能用免费的绝不会开会员。心想,这不都一样吗?不就是聊个天,写个东西吗?凭什么让我掏钱?直到有一次打脸了, 我帮客户看一份合作合同,扔进免费 ai, 他 扫了一眼,没问题,可以签,我不放心,又找了个用付费 ai 的 朋友帮我看看,他看完直接给我打电话, 这条看到没,引用了一份附件,附件里有个违约金条款,百分之三十,如果签了,就等着赔钱吧。我当场愣住,免费 ai 看了十分钟,把藏在角落里的坑给我挖了出来。 从那天起,我开始认真研究这俩到底差在哪,研究来研究去。我发现一个特别贴切的比喻,免费 ai 像一个特别热情的实习生,你问他问题,他反应巨快,你说小王帮我分析一下这个市场,他说好的, 然后十分钟后给你一份从百度上扒下来的资料,你一看,好像有点用,但又没啥深度。你再问他,那你觉得我们该怎么做?他挠挠头,嗯,让我再查查。 他不是不想帮你,是他不知道怎么看,他没有经验,没积累,没思考深度,他能给你信息,但给不了你洞察。 最关键的是,他不烧钱,但他烧你的时间,烧你的试错成本。他给你的答案可能是错的,可能是过时的,可能是片面的。但你不知道啊,你拿去用了,踩坑了,最后买单的是你自己。那付费 ai 呢? 付费 ai 像一个你花钱请来的行业专家,你问他问题,他不会马上说话,他会先沉默一会,然后问你几个问题,你分析这个市场目的是什么, 重点关注哪个维度,有没有历史数据可以参考。然后他开始工作,他不是去百度搜,是在自己脑子里调取知识库、行业报告、案例库。他不是只给你一个答案,是把思考过程拆给你看。 我看了三个维度,第一,市场规模近三年增长百分之十五,但要注意,这个数据可能偏乐观。第二,竞争格局,头部三家占了百分之六十,但最近有一家在悄悄布局。 第三,用户需求,我建议做个调研,因为公开数据可能滞后,他说的每一个字都是他思考的痕迹,这个过程就是 token。 talk 就是 专家脑子里转的每一个圈,一个汉字,一个单词,一个标点,都是一个 talk。 专家转的圈越多,你得到的洞察越深,但专家转的每一圈都得你买单。好问题来了, 这一个圈到底值多少钱?我扒了扒目前主流模型的价格,给你看个数,免费 ai 零元,但他只赚很少的圈,就给你答案,有时候赚少了,答案就浅,甚至错。普通付费 ai, 比如叉 g p、 d plus, 每月二十美金,他愿意多赚一些圈,答案质量明显高一截。 顶级推理模型,比如 openai 的 零一 pro, 每百万输出 token 要六百美金。这玩意儿贵在哪?贵在它拼命转圈。你问一个问题,它先转五千圈,自己理解,再转五千圈找信息,再转五千圈,推演逻辑,再转五千圈,组织答案,一圈没少,全在账单上 算一笔账。普通模型回答一个问题,背后可能是几百上千个 token。 推理模型回答一个复杂问题,背后可能是几万甚至几十万个 token。 差了多少? 差十倍,上百倍。那你可能会问,我凭啥要为那些看不见的圈花钱?因为这些圈就是深度,你买的是他替你思考的过程,这个过程越深,你踩坑的概率越低, 你做对的概率越高。那咱们普通人到底什么时候该用免费,什么时候该花钱?我自己的经验是,按事情的重要性分三层。 第一层,纯日常用,免费就够了。写朋友圈,问菜谱,查常识,这些事不需要深度,免费 ai 完全能搞定,别杀鸡用牛刀。第二层,半中药,可以考虑普通付费 写工作邮件,做 ppt 大 纲,整理会议纪要,每月二十美金,换来更准更稳的答案,性价比挺高。第三层,真重要,别省那个钱,审合同,看财报,做投资分析,写重要报告。这种时候,宁可花钱,也要用最好的模型, 因为一个决策的失误,损失的可能是几百上千倍的会员费。我是老王,陪你搞懂每一个烧钱的科技。

龙虾 openkull 我 花了一万多刀,消费了六十亿的头啃,那有人会说啊,你就是一个大聪明,浪费这么多的钱。那你看一下他帮我做的事情吧。首先第一个,他帮我搞了一个外面报价一万六的官网。第二个,原本公司的天猫淘宝一共四个运营,现在岗位砍掉变成一个,一个人八千,三个人就是两万四。因为 openkull 小 龙虾直接帮我把数据整理全部都弄好了,试了一个月,发现只需要一个岗位就可以了, 销售额 r o i 完全没有变化。第三个,原本公司六个 b d 对 接打人的,现在直接变成了两个,一个人的工资是七千,这里就是两万八。最近我又在弄一个小龙虾的人士,直接让他帮我筛选简历,预约人过来面试就好了, 这里到时候是不是又能省下一笔?而且这个 token 是 因为我一开始在测试,所以才花费了这么多,后面稳定了之后,这些钱都可以省下来。很多人说小龙虾 open class 现在只是一个噱头,没什么实际用途的, 那是因为他刚出来,现在很多想法都没有去验证,等过半年后你再来看,我感觉他起码能砍掉大部分公司百分之三十以上的人工。我也整理了一份 ai 的 资料,欢迎大家评论区交流一下。

token 大 模型背后的文字压缩术?大家好,你有没有好奇过 chat、 gpt、 闻心一言,这些大模型是怎么看懂我们输入的文字,还能精准回应的? 其实在他们大脑里藏着一种超厉害的文字压缩术,核心就是今天的主角 token 令牌。接下来五分钟,带大家揭开 token 的 神秘面纱,看懂大模型处理语言的底层逻辑。一、 token 到底是什么?首先搞懂核心问题, token 到底是什么? 简单说,它就是自然语言和机器语言之间的翻译官,是大模型能读懂的最小语言单位。我们说的中文、英文对机器而言只是一串杂乱字母,而 token 化就是把这些字母 拆成机器能识别的数字密码。打个比方,自然语言就像堆满图书馆的杂乱书籍, token 化就是按照规则给书籍分类编号上架,让机器能快速找到并理解。这里要注意, token 既不是单个汉字字母,英文里 unhappiness 可能拆成 unhappiness, 灵活拆分就是它的关键优势。 二、 token 化的三步魔法从文字到数字,大模型是怎么把文字变成 token 的? 其实就三步魔法。第一步,文本预处理,先给文字大扫除,去掉无用符号,统一格式。比如把 hello 人工智能 变成 hello 人工智能,扫清后续拆分障碍。第二部,分词拆分,这是核心环节,英文靠空格分词,中文没天然分格符,就靠算法判断边界。不同模型拆分规则不同, 但目标都是既不拆分过多增加负担,也不拆分过少丢失语义。第三步,数值映射。拆分后的 token 还是文本,得变成数字才能被模型运算。大模型会用词表给每个 token 分 配为一 id, 再转化为高维数值向量,这样机器就能捕捉语义关联了。 三、 token 的 三大核心作用 token 可不是简单拆分,它是大模型高效运行的底层支撑,主要有三个作用,第一,提升运算效率。 一篇一千字中文文章,字幅数约三千个, token 数仅五百到八百个,相当于压缩了文字,大幅降低模型运算压力,让大模型能快速处理长文本。第二,捕捉羽翼信息。每个 token 都是羽翼拼图块模型,通过分析 token 之间的关联,就能还原文本完整意思, 比如知道国王和王后相关,苹果属于水果。第三,控制文本长度。所有大模型都有上下文窗口,也就是最大 token 数,限制 token 化,让模型能精准计算文本长度, 避免超出限制导致语义断裂,这也是常温本会被分断处理的原因。四、三个常见误区,你中招了吗?四分钟到四分五十秒。误区一, token 等于单词 错 token 可以 是单词、子词或短语,比如螺蛳粉是一个 token, chat gpt 拆成两个 token。 误区二, token 数等于字母数不对。一个中文 token 约对应两个汉字,一个英文 token 约对应四个字母, 没有固定换算关系。误区三,所有模型 token 规则都一样,不一样,不同模型的分词、算法、词表不同,同意文本拆分后的 token 可能不同。看到这里,你应该明白 token 的 重要性了吧,它就像大模型背后的文字压缩术,是连接人类语言与人工智能的关键桥梁, 理解了 token 不 仅能更好地使用大模型,还能看透 ai 处理语言的底层逻辑。如果觉得今天的内容有用,别忘了点赞关注,下期带大家解锁更多 ai 底层技术,我们再见!