最近偷看的概念很火,因为大模型生产偷看未来可能是一个计算标准,那么什么东西才能生产?偷看?这就是算力,像这个是 a 一 百的八卡总机, 这个是 h 两百的,以及后面的 h 一 百、 h 八百、 a 八百等等。那么这些算力到底运行什么?大模型每秒钟能跑多少?偷看,关注我,我们后面每一个都会测给大家看。
粉丝955获赞1888

全网争议不断的 dj spark 如今又涨价了,英伟达这是飘了还是真有底气?上期我们拿它打了游戏热了身,今天我们就深度实测下大模型推理,看看 spark 到底怎么样。我们先通过英伟达 think 登录进去,这个就是它的控制台界面,左边是内存和 gpu 占有率,右边是控制台,后续的所有测试配置全在这搞定。另外它还系 统出厂就把 ai 环境给你装好了,开机直接就能用。那测试结果我们也会在结尾全部展示出来。接下来我们开始测试,我们先测试一下千万三零 b 模型,分别有 f 幺六 p 八、 n v f p 四这三种精度,上下文从一百二十八到两 k 并发从一到五百。先说 n v f p 四,一百二十八,上下文 五百并发下,生成速率五千七百七十七 toky 每秒,首延迟零点一秒,完全没有跑满性能。不过随着上下文增加到两 k 时,性能瓶颈卡在了两百并发左右,总的来说,在两千上下文以下并发不超过两百, 可以随便跑。再看 f p 八量化生成速率明显下滑,那建议并发在两百以内使用。最后是 f p 幺六量化两 k 上下文,两百并发,调到了六百七十六抖屏每秒,但手延迟依然低于零点三秒, 还算优秀。接下来我们跑下脸书的七零 b 模型,我们测试了 f p 八、 n v f p 四两种精度,先看 n v f p 四版本,整体的生成速度偏低,低并发下勉强够用,但手脱屏延迟还不错,那 f p 一八精度和想象的一样,扩音速率继续下滑,引发刚到一百首,延迟已经超过了一秒,这个模型推荐还是低病发的测试使用,因为 f p 幺六版本太大,需要显存高达一百四十一 g b, 单台 g b 幺零完全跑不了,下期我们再串联一台 g b 幺零试试。再聊一点额外干货,如果你需要大模型的 n v f p 四的量化版本,可以去 h f 下载文件,里面带有 n v f p 四的就是 如果找不到,也可以用英伟达的容器手动量化。那为啥 dj s bug 强烈建议用量化版本呢?因为 gb 幺零的 blackwell 架构对这类的低精度推理有原生的优化支持, 这是它最核心也最容易被忽略的能力。另外有评论区的小伙伴提到了黑神话悟空,一起来看看效果吧。最近 open color 很 火,那 dj s bug 是 不是配呢?我们下期再来看看。

大家好,我是你们的科普达人,今天咱们来聊聊个人开发者怎么低成本入门 tocan 生产。很多朋友可能觉得 ai 模型部署门槛高,成本贵,其实只要配置得当,咱们普通人也能玩转。先说说硬件怎么选, 如果预算在一万五以内,想先试试水,那 rtx 四零九零 d 或者四零九零显卡是首选。二十四 gb 或十三 b 的 模型,搭配 i 五或 r 五的 cpu、 三十二 gb 内存, e t b 的 nvme 固态硬盘,再加上一千瓦的电源和一套散热好的机箱,总价大概一万一到一万六就能稳定运行。模型 托肯吞吐量能到每秒两百到五百个,日常测试和小流量使用完全够了。要是预算能到两到四万,想搞小批量生产,那就可以考虑上双卡四零九零 b, 或者直接上 a 一 零零,内存加到六十四 gb, 这样吞吐量能到每秒八百到两千个,接下小 b 客户的需求也没问题。硬件搞定了,软件和模型怎么选呢?模型方面,七 b 规模的 q 文二七 b instruct 或者 lama 三七 b 就 很适合入门,显存占用小,延迟低, 聊天、写文案、生成代码都在行。十三 b 的 模型像 q d r 杠一三 b instruct, 复杂推理和行业知识库的应用效果更好。这里有个小技巧,优先用 i n t 四量画板,显存占用能降百分之七十五, 速度还能提升两到三倍,效果几乎没损失,性价比超高。推理框架推荐 v l l m 开源免费,吞吐量比原声 pie torch 高十倍以上,个人开发者首选。部署工具方面, fast api 或 flask 用来封装 api 接口, prometheus 和 grafana 监控性能, e l k stack 记录日记这些都是免费又好用的工具。大家最关心的成本问题来了,按三年折旧算,入门级硬件每月折旧大概四百一十七元。电费方面,单卡四零九零币,满载运行 每月电费差不多一百九十四元,总成本约六百一十一元。按每天产出两千五百九十二万 token 算,单位 token 成本约零点零零零零二三六元,也就是二点三六分。每千 token 对 比 openai 的 gpt 三点五 turbo, 成本只有它的四分之一,价格优势很明显,想快速上手, 一天内就能跑通,先装 uber 二二点零四 lts 系统,然后安装 cuda 十二点一 cuda n, 再装 python 三点一零和 vl l m。 接着用命令启动模型服务, 最后用 qiro 测试一下生成 token, 看看返回结果里的 usage 词段,统计 token 数就搞定了。最后给大家几个进阶优化建议,用 v l l m 的 批量请求功能提升吞吐量,尝试模型蒸馏,降低显存占用和延,使用 radis 做请求队列应对高流量 在整个数据库记录用户 token 消耗,实现自动计费。这样一套下来,你的 token 生产系统就既高效又经济了。怎么样,是不是觉得个人搞 token 生产没那么难?你最想先用这个系统来生成什么内容呢?评论区告诉我吧!

最近我收到最多的后台私信就是 token。 既然是个新的大众商品,那普通人能不能自己生产 token 自己卖?今天一条视频给你讲清楚。先说结论,能生产,但你算完账,你就不会干了。我们来算一笔账, deepstack 目前最火的大模型,它卖 token 的 价格是多少?输出,每百万个 token 三块钱。 一百万个 token 是 什么概念?大约相当于五十到七十万个中文字,一本书大概十万字,也就是说, ai 帮你能写将近七本书的内容,只收你三块钱。反过来说,你自己要生产这一百万 token, 至少得花几十万买个 gpu, 装一台服务器, 二十四小时不断电。就这样,你的一台机器大概需要十几个小时才能生产出这一百万个 token。 而且这个你还没有算你的工程师维护机房电费和宽带费。 deepsea 为什么能卖三块钱?因为它拥有几万张 gpu, 同时跑,一天处理上千亿个头梗,成本被摊到几乎为零。这就好比你自己在家养了一头牛,挤了奶想拿出去卖,一瓶卖五块, 你觉得能赚,但是你一算,买牛花了两万,饲料每月两千,一天只能挤几斤奶,隔壁蒙牛一天出几千吨,一瓶卖三块钱还能赚?你的奶不比它的差,但是你的成本是它的一百倍还要多。 这就是普通人生产 token 面临的问题,不是做不了,是做了一定亏。所谓普通人在 token 这门生意里的正确姿势,不是自己生产 token, 而是用便宜的 token 去创造贵的服务。 举个例子,你用 deepstack 花三块钱买一百万个 token, 让 ai 帮你写十篇小红书文案,通过小红书的文案带货去赚钱,那么你的成本就是三块钱。 你赚的不是 token 的 差价,是你知道怎么用 token, 而别人不知道的信息差。再举个例子,你用 ai 帮一个小型企业搭建一套 ai agent 的 token, 成本可能不到十块钱,但你收企业五千块钱的咨询费, 企业买的不是你那十块钱的 token, 而是你的判断力和方案。不要去跟巨头抢着生产 token, 要去想怎么用三块钱的 token 创造三千块钱的价值。生产 token 的 钱留给巨头去赚,用 token 去做赚钱的生意,才是留给普通人的机会。我是文思,关注我每天带你看懂 ai。

黄仁勋在 gdc 二零二六大会上扔出了一颗震撼全球的炸弹,到二零二七年,英伟达看到的需求至少是一万亿美元, 这是什么概念?哈,去年这个时候他说的数字可是五千亿啊,仅仅过去一年时间直接翻倍,这可不是画饼,这是已经摆在桌面上的订单。今天这期视频啊,我会帮大家拆解三件事,第一,为什么是一万亿?这个数字背后的底层逻辑是什么? 第二,黄仁勋说的 tock 工厂经济学那是什么?为什么称之为未来十年最重要的投资范式?第三,当然最关键的就是咱们普通人怎么从这场 ai 革命中分到一倍更。 首先,我们先讲讲这一万亿需求的本质,其实是 ai 从玩具变成了工厂。很多人听到一万亿,第一反应是 ai 从玩具的诞生, ai 从感知、 进化到生成,他能写文章、画图片、写代码。第二次是二零二四年推理, ai 的 出现以 o n 为代表啊, ai 学会了自己思考, 不再是你教他做,而是你说他想把复杂问题拆解成步骤,一步步推理给你看。第三次就是现在叫 a 诊智能体的爆发,就像当下最火的 o n、 curl 小 龙虾,哈用上的人都发现, ai 不 再只是回答问题了,他能主动理解你,理解你想做的一系列任务,之后自主干活,并 记住你每一次提的要求和改进。刚用的时候,你可能觉得他像个大学实习生,做啥都好像有点错,用久了你会深刻理解 agent 这个词,你仿佛真的请了一个私人助手一般,他能够在一次次的任务之中 学习进化和迭代。所以黄仁勋在演讲中说了这么一句话,我认为值得所有的投资人都要记下来。英伟达现在百分百的工程师都在用 ai 写代码, 没有例外。这意味着 ai 已经从可选项变成了必选项,就像当年企业必须要用电脑,必须上网一样,现在企业必须用 ai。 那 重点来了, ai 干活用的是什么呢?是 token。 token 就是 ai 生成的一个基本单位,你让 ai 写一段代码,它可能要生成几百个 token, 你 让它分析一份财报,那可能要生成几千个 token。 所以, 未来的数据中心不再是存储文件的地方,而是生产 token 的 工 工厂。这就是接下来要重点拆解的话题了。黄仁勋这次演讲最核心提出的叫 tock 工厂经济学。 g d c 上啊,黄仁勋打了一个比方, 非常形象,每一座数据中心,每一座工厂,从定义上来讲都是受电力限制的。一座一 g 瓦的工厂,永远变不成两 g 瓦,这是物理和原子的定律。什么意思?就是电力,它是一种应约束,你不可能无限的扩容。在固定功率下,谁的每瓦吞吐量,谁的每瓦 投肯产出最高,谁的生产成本就最低。这就好比两家工厂都用一万度电, a 工厂生产了一万件商品, b 工厂生产十万件,你说谁的成本更低, 谁更有竞争力?答案是显而易见的。所以黄仁勋就把 ai 服务分成了五个商业层级。第一层叫免费层,高吞吐、低速度,每百万投肯几乎不要钱。中级层叫每百万投肯 三美元,高级层六美元,高速层四十五美元,超高速层每百万 token 要约一百五十美元。所以在这个 token 工厂里面,你的吞吐量和你的 token 生成速度将直接转化为你每年的精确收入。这段话就完美全释了,为什么英伟达拼了老命都要提升芯片的性能?华而勋公布了如下这么一组数据啊,在短短两年时间内,英伟达将 token 的 生成率从两千两百万提升到了七个亿, 实现了三百五十倍的增长。作为对比啊,摩尔定律在同时期仅能带来约一点五倍的提升。三百五十倍,一点五倍,这就是英伟达的护城河。另外,还有一个特别重要的事情啊,就是这一次 g d c 里面啊,英伟达发布了史上最复杂的 ai 计算系统,叫 vera ruby。 黄良勋说啊,过去提到 hopper, 它会举起一块芯片,它说它很可爱。但提到 vera ruby, 大家想到的应该是整个系统有多强啊。第一,它百分百热了,彻底 消灭传统的限量。第二,过去需要两天安装的这个机架,现在两个小时搞定。第三,在一 g 瓦的数据中心里面啊, tocan 生产速率能达到七亿每秒。更关键的是啊,因为它整合了被收购的 grogloo 的 这个技术哈,所以黄仁勋解释了两者的分工。 verubiu 付 择海量的计算,还有显存的预填充阶段, core q 一 就负责对延迟极度敏感的解码阶段。所以他说的这种非对称式分离推理很复杂,但结果很惊人,让整体性能提升了三十五倍。如果你的工作主要是高吞吐,那百分百实用。 vero ruby, 如果你有大量高价值的编程级别的 token 生成需求,那拿出四分之一的数据中心规模给 gucci。 所以呢,这个就是黄仁勋给到很具体的 ai 应用企业的建议。 但同时呢,也有很多投资人关心的小龙虾,我自己也在用啊。这次演讲,黄仁勋也花了很多篇幅讲 open crawl。 他 说 open crawl 是 人类历史上最受欢迎的开源项目,仅用几周时间就超越了 linux 在过去三十年取得的成就。但这么长篇的论文里面,我给大家抓取了一个最值得关注的点, 不是 open crawl 是 什么,而是黄仁勋对未来职场做了一个描会。在未来哈,他说,我们公司的每一位工程师都需要一个年度 token 的 预算,他们的基础年薪可能是几十万美元,但会在这个基础上, 公司拿出大约一半的金额作为 token 的 额度给到他们,让他们实现十倍的效率提升。这已经是硅谷的新招聘筹码了。 想象一下,在以后的 hr 的 面试里面哈,他可能问你的不是上一个东家给你多少薪水,而是上一个东家给了你多少 token 的 预算,因为这比薪水更能反映你自己的价值,这是正在发生的现实。 好了,说了这么多,那咱们普通人应该怎么从这个 ai 浪潮里面分一辈更呢?对投资者到底意味着什么?我给大家五条最具体落地的投资策略。 第一,咱们要死盯每瓦性能的这个核心指标,未来 ai 公司的竞争力啊,不是看你有多少模型,不是看你有多少用户,就是看你在固定功率之下到底能生产多少 token? 这一定是一个硬指标,而且骗不了人。 第二,我们要关注头肯分层定价的商业模式哈,那个免费层、中基层、高级层、高速层、超高速层,不同层级对应不同的应用场景,谁能占据高价值的层级,谁就有定价权。第三,我们看到传统的萨斯的公司啊,可能面临 生死转型,要么它变成 a a s, 要么就被淘汰。还有那些在卖软件许可证的公司啊,未来可能就会非常非常艰难了。第四,在投资的这个赛道上,电力 伴热一定还是隐形冠军。托管工厂啊,会受电力限制, e g o 啊,可能是上限,谁能提供更高能效的电力解决方案,更高效的夜冷技术,谁就是那个卖铲子 的人,这里有着中国巨大无比的优势啊,以后我们再讲。第五啊, a 准应用呢,就会是下一个爆发点,基础设施已经 就位,接下来是应用爆发。那些用 open crawl 构建垂直领域的智能体公司啊,就有机会成为下一个 salesforce, 下一个 surface now。 而对于个人而言很重要。今天,无论你从事什么工作,如果你不去拥抱这种 agent 的 应用,或者你连小龙虾都不愿意了解,那你跟你身边人的差距,很有可能在 在这一两年时间内被瞬间拉得无比远。所以最后啊,我想用黄仁勋演讲中的这么一句话来结束今天的内容。我们正处于某件非常非常重大的事情的起点,一万亿美金的需求,它不是终点,它是起点。 open 工厂的时代已经到来了。

二零二六,一种狠心的 token 出海正在悄然暴利。不出国不运货,靠家里的显卡做 token 出海,这门生意,今年或许真的能跑通。现在,美国硅谷正陷入一场前所未有的电力饥荒。 一边是 ai 算力的需求爆炸,一边是老旧的电网根本承载不了这么大的负荷。在弗吉尼亚州和加州,很多数据中心想要扩容并网,排队已经排到了两三年后。这种有钱买卡没电开机的窘境,正在推高全球的 ai 产业的底层成本, 而这恰恰给了一种全新的跨境贸易模式留出了巨大的套利空间。它不是简陋的倒卖硬件,也不是复杂的软件外包, 这本质上是一场利用两国资源禀赋差异进行的数字能源套利。我们来做一个最直观的对比,在美国,工业电价受限于能源转型和基建之后,很多核心地带已经涨到两三毛美金一度。 而在国内,一托完善的能源工业体系,我们的电费成本只有人家的几分之一。更重要的是人的红利。 同样一套分布式算力集群,美国聘请专业运维工程师的成本极高,而国内拥有大量懂架构、会调优的自动化和计算机专业人才。这种工程师配置的性价比是全球任何地方都比不了的。 你用最低成本的店,配上最高效率的人,跑的是国产最强的 mini max。 开源模型生成的 token, 通过云端 api 卖给对价格敏感的美国独立开发者。你在境内完成生产,他们在海外完成消费,赚回来的是真金白银。 算力正在变成像煤炭、石油一样的基础商品,美国虽然在芯片制成上领先,但是在 ai 竞争中拼到最后,拼的是单位算力的综合成本。未来,谁能把低廉的电费和高校的人才红利转化为全球通用的 api token, 谁就掌握了印钞机的摇杆。这种分布式数字出口,正在打破地理和政策的边界, 这不仅是技术的较量,更是能源效率和人才密度的对撞。当然,这种路子对一般人来说也是有门槛的,跨海传输的延迟如果控制不好海外客户的体验就会直接崩掉。美国最新的法案虽然复杂,但是只要搞清楚服务贸易和算力租赁的界限,空间依然很大, 更别说还有资金回笼时的合规审查,每一步都得踩准节奏。这门生意是留给一些既懂底层技术又懂国际贸易规则的国际数字玩家的。

大家好,今天我们用三分钟讲透 ai 产业底层商业逻辑。黄仁勋提出的 token 工厂经济学,首先明确核心概念。这里的 token 中文意思叫磁源,和虚拟货币、区块链没有任何关系,它是 ai 大 模型处理信息的最小数据单元,是 ai 时代的标准化产品。 黄仁勋这套理论的核心,就是把 ai 算力变成了一套标准化、可量化、可盈利的制造业体系,它彻底重构了数据中心的价值。 传统数据中心是存文件的仓库,而 ai 时代的数据中心就是一座二十四小时不间断生产 token 的 智能工厂。这座工厂的完整逻辑非常清晰, 电力是生产原料, ai 芯片与算力集群是生产核心的硬件底座, ai 服务器、高速光互联、液冷散热、高端 pcb 是 核心生产设备,最终产出的产品就是 ai token。 而整个工厂的核心 kpi 也是核心盈利密码就是 token w, 也就是每瓦电力能产出的 token 数量。核心目标就是在固定电力上限下最大化 token 产出,最小化单位 token 成本。为什么这个指标是行业黄金标准?因为黄仁勋点破了 ai 产业的物理铁律, 是 token 工厂不可突破的天花板。一个数据中心的供电总量是锁死的,单纯堆显卡、堆积柜没有长期意义。未来 ai 算率的竞争,本质就是效率的竞争。同等电力下, token w 越高,生产效率越高,单位成本越低,盈利能力就越强。这套经济学彻底改写了算力行业的游戏规则, 全产业链的价值平台都围绕能不能提升 token w 展开,而算力租赁就是 token 工厂产能的商业化分销出口。在这套思维下,行业竞争的核心早已不是单一芯片的比拼, 而是算力集群整体系统能力的提升。在这一赛道中国具备全球领先的核心竞争优势。首先是无可替代的电力成本优势。 剔除西部丰富的绿电资源与东数西算工程的全国算力网络布局,我们拥有全球极具竞争力的低电价,直接击穿 tiktok 工厂的核心成本线,从根源上拉高磁源瓦的核心效率。其次是全链条自主可控的配套优势,我们拥有光互联、 pcb、 叶冷等 tiktok 工厂全环节的全球核心产能, 供应链稳定性与成本优势独步全球。更关键的是全球顶尖的系统级优化能力,以华为 atlus 九百五十算力集群为典型代表,通过算力调度、网络协调、能效管理的全占优化,实现了万卡集群百分之九十以上的限行加速比, 把算力损耗降到最低,直接将磁源瓦效率拉至全球第一梯队。这些从能源底座、硬件配套到系统优化的全闭环优势,让中国在全球 toc 工厂的竞争中掌握了核心的效率话语权。 也正是基于这套核心逻辑,我们准备了三期系列节目,带大家完整梳理 tiktok 工厂的全产业链机会。第一期聚焦 tiktok 工厂的传输神经网络光互联赛道。第二期拆解工厂的硬件载体 与散热心脏, pcb 与夜冷赛道。第三期落到产能变现中局算力租赁赛道筛选同步高成长标地。感谢收听我们系列节目,再见!

大家有没有发现一个现象,就是这两年全世界都在抢一个东西,叫 token, open ai 按 token 收费, cloud 按 token 收费, 英伟达的芯片供不应求,也是为了更快的生产 token。 有 的人啊,把 token 比作 ai 时代的石油。那问题来了, token 到底是什么? 为什么突然就变得这么值钱了呢?今天咱们来把这个事情说说明白。先说概念, token 最早是 ai 模型处理文本的计量单位,你问 ai 一 句话, ai 会把它切成一个一个的小块,每个小块就是一个 token。 那 今天我想聊的不是技术层面的 token, 而是经济学层面的托克。在经济学上的托克啊,有三大核心属性,这三个核心属性让他从计量单位变成了经济资源。第一个就是托克的价格意志性,同样是一百万的托克, 价格可以从零元到一百五十美元,相差巨大。为什么呢?因为不同场景对于岩石可能性的要求不一样。就像如果你是在深夜写代码,让 ai 帮你比全一句代码,那可以等两秒。 这个呢,就属于免费层,但是自动驾驶汽车需要毫秒级响应,这就得用最高级别的付费层了。 这个呢,就是经济学里经典的价格歧视。于是 ai 厂商就把 token 分 成了五档,从免费到一百五十美元,精准收割不同的需求。第二呢, 就是边际成本持续递减。传统的制造业啊,产品造的越多,单位成本呢,是先降后升,但 token 不 一样, 它是越造越便宜。英伟达最新的 virar rubin 平台,把单个投客的推理成本降到了前代产品的十分之一。温 ai 的 gbt 三点五,从刚发布时候的二十美元百万投客, 降到了现在最低七美分,降幅高达两百八十倍。这大概是个什么概念呢?就相当于一辆一百万的豪车,现在降价降到三百五十块。但车真能这么降价吗?不能, 但是 token 可以, 因为它的成本啊,主要是研发跟硬件的摊提,一旦技术突破,编辑成本几乎为零。第三 就是高需求弹性,价格降了,需求会涨多少?经济学里有个概念叫需求弹性, token 的 需求弹性呢,略高于一,也就是说,当价格下降百分之十, 需求会涨超过百分之十。这就导致了一个反直觉的现象,单位成本下降了,但是总支出反而增加了。 这背后呢,藏着一个经典的经济学辩论,叫杰文斯辩论。这个概念啊,下一集再给大家讲,现在继续讲 talkin。 talkin 呢,不只是一串数字, 而它背后呢,现在有一条完整的产业链。清华大学的报告把这条产业链拆成了五环。第一环呢, 是硬件制造,也是整条产业链的基础底座,代表着厂商,像英伟达呀,华为呀, amd 啊,因为没有芯片, token 就是 空中罗格。第二环呢,是基础设施建设,包括数据中心,算力租赁等等。 像微软、谷歌、亚马逊这些云厂商,还有 openroot 这样的算力聚合平台啊,算力资源变成了可以交易的投客服务。第三环就是算力提供那些基础模型厂商,比如说 openai, astropac, 他 们租用第二环的算力,训练自己的模型,铲除 token。 第四环是平台运营与模型及服务,这就是 token 商品化的核心环节了, 像 open ai、 astropac, 把模型能力包装成 api, 按照 token 定价对外输出。第五环是应用开发与服务,这个呢,其实就是 token 需求的源头,像 crypto、 ocean 这些 ai 原生应用,直接面向终端用户,把 token 变成我们每天用的功能。刚才说的这五环啊,环环相扣,共同决定了 token 的 共济能力、 成本结构和市场格局。那 token 市场到底有多大呢? open router 平台的数据显示,二零二二年中期,全球 token 的 处理量大概是十万亿,到二零二五年中期,这个数字已经突破了一百万亿, 三年增长了十倍。我来帮大家算笔账,二零二二年中期,单价大概是六美元百万托克,总支出是六十亿美元。 二零二四年末,处理量突破了五十万亿,单价降到了三美元,总支出是一百五十亿美元。而二零二五年终的时候,处理量已经突破了一百万亿,单价降到了一美元,总支出却达到了一百亿美元。注意看啊, 这个单价从六美元降到了一美元,但是总支出从六十亿涨到了一百亿。这就是我刚才跟大家说的价格降, 总支出增长的反直觉现象。为什么呢?因为便宜了,大家就用的更多了。原来呢,只有一些头部的大厂用的起,现在的小公司、个人开发者,甚至普通的用户, 都能用 ai 写邮件、做 ppt、 编代码了。以前呢,是偶尔用用,现在对于很多用户来说,几乎是天天在用,而且这个趋势还在加速。国际能源所预测啊,到二零三零年, ai 算力相关能耗将占全球数据中心总能耗的百分之六十以上,这对应的可就是海量的托克。当托克变成了新的石油, 影响的可不仅仅是科技圈。第一,他重塑了全球算力产业链。英伟达凭借芯片跟扩大生态,拿走了整个市场百分之八十以上的利润。各国政府呢,也开始把算力视为国家战略资源, 就像当年争夺石油一样的争夺芯片跟电力。第二,他改变了企业的商业模式,从卖软件到卖订阅制到安量付费,企业开始用每瓦 tucker 吞吐量来衡量自己的核心竞争力。三 就是 token 正在重构劳动力市场,重复的低技能岗位将被自动化替代,而高技能岗位呢,会借助 ai 效率倍增,劳动收入在 gdp 中的占比将开始下降,资本的收入将会上升, 这就是所谓的幽灵 gdp 的 现象。大家感受到的呢,可能就是经济在增长,但是工资没有涨。这些个话题呢,我们后面几集会给大家讲的透。所以呢,我们回到了最开头的那个问题, token 是 什么? 它不仅仅是 ai 的 计量单位,更是 ai 时代的生产要素、价值主体和战略资源。从零美元到一百五十美元的价格分层,从二十美元到七美分的成本暴跌,从十万亿到一百万亿的市场暴增,这些数字背后啊, 是一场正在发生的经济革命。那这一场革命的下一个关键点会是什么呢?为什么 token 越便宜,我们花的就越多呢?还有,为什么英伟达能卡住全世界的脖子呢?我是老林,关注我,明天我们接着聊。

很多人一直好奇, mac mini 和英伟达显卡机究竟谁更适合生产,偷啃谁的运营性价比更优?又为何当下众多企业和轻量化 ai 模型会选择 mac mini? 今天抛开主观偏向,纯讲场景是配于底层逻辑,客观理清二者的核心差异。首先要明确 算力设备没有绝对的优劣,只有场景式配度的区别。滔垦生产的核心诉求并非极致的峰值算力,而是长期稳定运行、低成本运维、规模化落地以及系统环境的匹配度,这也是我们判断的核心标准。先厘清二者的专业定位, 这是一切逻辑的基础。英伟达是大模型训练领域的绝对首选。针对超大规模深度学习重型科研计算、大模型研发训练,英伟达显卡的算力强度、计算精度、专业适配性无可替代,是行业内公认的重型科研算力标杆优势及其突出专门服务于高算力需求的专业研发场景。而 mac mini 主打轻量化、稳定型算力输出,完美适配轻量化 ai 模型、日常生活类 ai 应用、手机端应用、小程序及云端小型 ai 服务。这类场景不需要极致算力,更看重稳定、低功耗、长期在线与合规出海的能力。再来看 tok 生产与运营性价比的核心对比。第一, 系统环境适配性不同,并非设备强弱问题,而是生态赛道不同。当下主流的 tok 生产工具 open call 以及各类轻量化 ai 模型均基于 mark mini 的 原声系统,能让这些工具和模型七成二十四小时稳定运行,不闪退、不掉任务。因为达显卡机虽算力强悍,但系统生态与这类 tocan 生产场景不匹配,并非设备本身不行,而是专业方向不同,更擅长大模型训练,而非常期稳定的 tocan 量产。第二, 长期运行与功耗设计适配不同需求。英伟达显卡机功耗高,性能爆发力强,适合短期、高强度、高负债的专业计算工作。 mac mini 功耗仅三十到五十瓦,低温静音,硬件损耗小,天生适配 tocan 生产所需的二十四小时不间断挂机。二者只是设计方向不同, 分别对应不同的使用场景。第三,运营性价比取决于业务场景,因为达硬件投入电费,其运维成本偏高,更适合有专业研发需求的大型机构。 mac mini 硬件成本亲民,体积小巧、机柜部署密度高、运维简单, 个人、小团队及企业都能轻松规模化。在滔垦生产、电算出口这类场景下,运营性价比更占优,这是场景匹配带来的结果,而非设备本身的差距。最后再讲为何企业与轻量化模型偏爱 mac mini? 企业做生活化 ai 手机应用、云端服务、电算出口,核心需求是快速落地、合规出海,成本可控,稳定变现。轻量化 ai 模型本身也无需极端算力, mac mini 系统纯净搭配海外 mac web、 mac ui 等专属平台, 整套算力调度和归结算跨境输出、生态闭环完整,刚好契合这类业务的全部需求,所以成为了优选方案。总结下来,英伟达是大模型训练、重型科研计算的王者,专业重型算力的不二之选。 mac mini 是 轻量化 ai 手机端应用、 偷肯量产、电算出口及企业规模化部署的最优实配,二者各有所长,定位不同,赛道、不同,适配对应的业务场景才是最理性的选择。

以后每一家除了要交网费、水电气费这些以外,还要交一笔 toc 订阅费,这是百分之百要发生的事。嫁妆可能以后就不叫五金一钻一果了,黄仁勋的英伟达显卡以后也会变成新婚家庭的硬通货, 那么嫁妆就会变成五金一钻一果一卡了。为什么这么说呢?首先今天也看到了一个不知道真假的消息,今年企鹅鹅厂给员工发放了二十二万元的 toc 套餐, 具体套餐有什么,我放一张图片大家看看。然后是在 gtc 年会上,皮衣哥黄仁勋说,以后 公司不止给员工要发放工资,还要留出一笔预算给每个员工配备 top。 员工在入职的时候也会考虑这家公司会不会提供 top, 如果这个公司不给员工 top, 那 是不是员工自己需要花钱去买这些 top 才能利用模型工作呢? 还有的例子就是最近人人都在尝试装的那个 openclo 龙虾插件,这个插件全天运行下来也需要不少 token 呢。另外现在很多个人开发者也需要包括 coloco 的 这种模型的 token 额度, 所以现在整个互联网和工作流有关,和代码有关的所有事情都需要 tok。 然后讲到最开始的话题,为什么说以后 tok 会变成居家旅行的基本生活物资, 就像是大家用的水电气、米面油这些东西一样。你甚至以后可以看到小区里面的大爷大妈都会在讨论最近桃坑涨价了,用不起了这些话题。这是因为在最近二零二六年 a w e 上海家电展上,已经有很多家务机器人展出了 这些机器人,虽然他不是人形机器人,他没办法跳舞翻跟头,但是他们这些机器人的专业性非常强,比如说把脏衣服放进洗衣机里,收拾地上的玩具, 收拾厨房的卫生,这些工作基本上差不多都能做了,只是速度有点慢,等后面这些产品等待它功能完善之后,肯定会在每家每户出现的。这些机器人在我理解肯定是 toon 在 驱动他们工作,因为比方说一个机器人他在切菜,他肯定要识别这个菜的图像, 那么一张图像大概折合下来是多少, toon 就 会把这个 toon 送给后台的算力卡,算力生成结果, 结果的这些 token 再去发送给机械币,完成抓取操作,这些功能也就是这张图片上呈现。当你提供电力和显卡算力卡之后, 你所拥有的算力会得到 token, 这个 token 可以 驱动各个大模型去运行,处理一些软件层面的操作。 那么以后滔肯将会驱动机器人去做比方说做家务,做饭,照顾孩子,照顾病人这些现在看起来比较麻烦的家务。所以你就会想象到一个场景,在你工作一天之后,你回到家,带着你今天挣到了算力, 充值到机器人的身上,机器人会帮你把所有的家务料理的非常周到,你回到家之后只需要去学习或者是娱乐。当然了,以后大家如何去赚这些滔肯我也说不上来,因为现在 ai 去替代人的这个趋势 实在是阻挡不住,可能程序员再一次迟到了时代红利,程序员、工程师这些职业有可能在工作期间使用的 tucker, 没有使用完的情况下,把它带回来 再充值给自己的家庭机器人,这也不是没可能的。所以说驱动这些机器运行的算力 tucker 从哪来呢?无非是两种模式,一种模式就是你直接买到算力卡,在你家专门会有一块地方放大量的算力卡, 恨不得有一墙的显卡,然后这些各种各样的家务机器人通过 wifi 和这些显卡连接显卡计算得到 toon, 再去指挥这些机器人干活,这样这些机器人才能处理复杂的场景, 而不是去完成一些机定化、程序化的简单操作。第二种模式就是订阅厂家的 toon, 厂家或者给你推出一个包月的套餐,或者是按照流量去计费,这种方式呢,不用你去买显卡这些硬件, 但是你每个月如果想使用这些高级的家务功能,肯定你要付钱买 tock。 可能以后大家就要算一笔账, 如果你在家囤了很多算力卡,通过这些算力卡驱动机器人干活比较划算,还是说订阅厂家的 tock, 你 的家务不是很多的情况下,可能订阅 tock 这种方式更省钱一些。最后总结,电器工业革命时代之后,每家每户都要使用电力, 互联网革命之后,每家每户都需要装宽带了,这次 ai 技术革命之后,每个月都要有预算去购买 tucker 时代的洪流马上就来了,你准备好了吗?

toc 工厂里的 toc 是 怎么生产出来的?它和电一样可以存到电池里面吗?还是和手机流量一样不能存? 答案是后者。 toc 只有在你发送问题和回答问题的时候才会计算和产生。当你给 deepsea 发问题的时候,以及他回答你答案的时候, deepsea 这个大模型所在的那台 ai 服务器在高速的消耗电力来思考和回答你, 服务器会计算你的问题和答案一共用了多少个字和标点来进行收费。由于碳模型是英文优先,你的问题大部分时候翻译成了英文,再翻译成数字来计算消耗,通常的结果差不多是一个中文字消耗一点二到一点五个 token。 你 问问题的时候差不多是两块钱, 而他回答你的时候可能是八块钱,每一百万个字,因为回答是经过思考的,所以更贵。另外你用豆包和 dipstick, 为了回答的更好,他通常会把你之前的问题和答案和你新的问题一并发过去,就会消耗大量的图腾。 所以你会发现生产 token 这个说法其实是打比方。为了好理解,实际上 token 只是计量单位,就像手机的流量用了多少 k 多少兆一样,是黄仁勋给大家打的一个比喻。我们消耗 token 的 背后其实是在消费 ai 芯片的折旧数据中心的算力,基础设施的折旧 电力, ai 大 模型工程师的研发和数据中心维护工程师的巡检。一句话, token 是 计算单位,不是一件商品。

普通人怎么参与 token 这项业务呢?首先要明确一个逻辑啊,就是 token 生产的这件事情是大厂的专属赛道, 不管是算力 token 还是用模型去调用 token, 这个背后其实都需要很大的这个服务器集群 技术研发合规的这个资质,普通人既没有这个能力,也没有资金参与,强行入局的话呢,只会血本无归。所以普通人要做的就是避开生产端,你去聚焦这个流通端,做上下游之间的链接器,全职的时间呢?去代理 tokken 的 销售,或者搬运一些便宜的 tokken 的 a p i 呢?去海外的这个市场去销售。我给你们四条建议啊, 第一个就是千万不要去找那些不靠谱的算力设备平台去托管投资,投个几万几十万的跟你说,哎呀,能在一年到两年回本,三年到四年翻番的, 你们记住了啊,没有那么多天上能掉馅饼的事情给你。第二,如果你是云服务算力或者是 ai 相关行业的人,那么快速调整到托肯工厂的这个赛道, 这个赛道的发展速度其实是会很快的,现在 ai 的 建设进场速度呢,非常非常的高,你们需要提前在技术和岗位上进行调整,要等待时机。然后第三的话呢,如果你既非技术人员啊, 那么可以选择在电商平台或者分发平台进行 token 的 销售,但是它不能像卖房子那么简单,它有一定的学习的门槛啊,不过我认为在现在 ai 工具的驱动下,一般人都是可以学的会 学的懂,而且学的很快,并不是只有那些学大模型算法的那样子高不可攀。然后第四,如果你不想投资建设,也不想学技术,甚至不愿意去做这个 token 的 销售, 那么你就把 token 的 场景融入到你的工作当中,比如说用它去写一个 ppt, 用它去做个短视频啊,做文案就是能让 ai 做的,你自己就不要去再参与了。就是你再用豆包 deepstack 的 时候,其实就是在用别人免费给你的 token, 所以 这个也是普通人参与 token 的 工作方式之一。

咱们今天呀就来聊聊人工智能世界里头一个你可能天天在用,但又不一定真正了解的东西,它可以说是 ai 最最核心的价值单位了。对,就是词源或者说构想。你想过没有,每次你跟 ai 聊天,让他写个文案或者画张画,你真正在消耗的是什么呢?这背后可不是什么玄学啊,而是一种实实在在,能被算的清清清楚楚的。 嗯,可以说是一种经济单位。这个单位呢,就叫词源,英文就是 token, 你 可以这么想啊,它就是 ai 模型能处理的最小的一块信息积木,就好像我们做饭得先把菜切成丁,切成块儿,模型才能下锅去烹饪,去理解和计算我们说的话。那这个概念到底有多大呢?来看个数字,你感受一下,一百四十万亿, 这可不是一年的量,这只是到二零二六年三月份,中国市场每一天就要消耗掉的资源数量,你听听这数字多吓人。所以你看,所谓的资源经济,根本就不是什么未来的概念了,它就是现在,就是此时此刻在驱动我们整个数字世界高速运转的一个巨大引擎。 好,为了把这个事彻底给你说明白,咱们就顺着这么一条线索一步步往里挖。首先为啥说磁源是 ai 时代的新石油?然后呢,生产这些磁源的工厂到底长什么样?接着咱们再看看这工厂的能源命脉是啥?再往下看他怎么颠覆传统的能源出口。最后咱们再大胆的想一想,如果什么东西都能被磁源化,这世界会变成什么样? 行,那咱们就先从第一部分开始有句话说石油驱动了工业时代,那么今天磁源它正儿八经的也在成为驱动人工智能时代的核心燃料。 哎,说到 token, 咱们得先做个重要的区分啊,非常重要。我们今天聊的这个 ai 词源,跟 blockchain 里那个大家可能更熟的通证 token 它不是一回事。你看啊, ai 词源是一种消耗品,就像电一样,你用它来换 ai 的 符,用完就没了。但 blockchain 那 个 token 呢?它是一种资产,代表你的所有权,有点像股票。 你一定要记住这个区别,因为这是理解后面所有内容的关键。而且你一会会看到这两个看似不相干的东西,最后竟然奇妙的走到了一起,那这种消耗速度有多夸张呢?咱们看个例子, 就拿字节跳动的豆包大模型来说,你看这图标啊,就短短半年多,它的日均资源使用量从一万二千亿直接飙升了三十三倍,达到了四万亿,这个天文数字 为什么涨这么快?你想啊,现在的 ai 已经不只是跟你简单聊聊天了,它开始变成能自己干活的智能体,也就是 ai agents。 要驱动这些智能体去完成复杂的任务,那消耗的资源可就是指数级往上涨了。每天几万亿、几十万亿的资源,它们到底是从哪冒出来的?行,咱们现在就去它们的生产车间看一看。 关于这个问题啊,殷伟达的 ceo 黄仁勋,他给过一个特别牛的比喻,可以说是一语道破天机。他说数据中心不再仅仅是数据中心了,他是一座磁源工厂,你往里头输送数据和电力,他给你吐出来的就是磁源。 你看这个比喻简直太精准了,他告诉我们,磁源不是什么虚无缥缈的代码,它就是一种实实在在的需要消耗能源和资源的工业产品。 那这个工厂的生产线是什么样的呢?其实很简单,原料就是海量的原始数据。核心的机器呢,就是我们常说的算力,主要就是 gpu 经过这台强大机器的加工出来的成品就是咱们说的包含着智盟的资源。 好,既然算力是机器,那驱动这台机器的燃料又是什么呢?咱们接着往下挖,马上就要触及到整个产业链最底层,也是最关键的那个命脉了。 科技圈里流传着这么一句话,特别直接,也特别深刻, ai 的 尽头是算力,算力的尽头是电力。这句话可以说是把真相摆在桌面上了,不管你的算法有多牛,芯片有多厉害,把所有这些技术外衣一层层剥开,你会发现,驱动这场 ai 革命的终极能源就一个电。这 可不是随便说说,这背后是冷冰冰的成本账。你看这张图就一目了然了。在 ai 模型生产磁源的所有成本里,超过百分之六十的部分都是电费, 这是什么概念?这就意味着,谁能拿到更便宜、更稳定的点,谁就拿到了 ai 时代最核心的成本优势,就能在竞争中占据绝对的主动。正是因为看清了这一点,算电谢桐这个词,现在已经从一个行业里的说法,上升到了国家战略的层面。 他的核心逻辑其实很直白,就是把数据中心这种算力工厂,直接建在中国西部这些电力资源最丰富的地方,这样一来,那些风电、光伏发的绿电就不用远距离输送了,直接在当地就转化成了算力,迈向全国乃至全世界。你看,这不就把能源和数字经济完美的结合起来了吗? 好,当我们把资源、算力、电力这三样东西串在一起看的时候,一个非常有颠覆性的经济模式就出现了,它正在从根本上改变全球能源和价值的流动方式。你琢磨一下,过去一个国家要是想出口自己的电力得怎么办?得修跨国电网吧,那玩意成本又高,传输还有损耗,更别提各种复杂的地缘政治问题了。 但现在呢,一种全新的玩法出现了,一个国家的电力可以先在本地的数据中心转化成算力,然后把算力再打包成 ai 资源服务,最后通过光纤网络搜的一下,瞬间就能送到全世界任何一个需要他的客户手里。 这个模式最本质的变化是什么呢?就是我们不再出口物理的电子了,而是通过数字网络出口,附着在电力上的价值。打个比方,中国西部有大量便宜的风能和太阳能,以前这些绿电可能因为消纳不了就浪费了,但现在他们可以被高效的转化成全球开发者都想要的算力服务,也就是物美价廉的资源,这不就把劣势变成优势了吗?所以咱们可以得出一个挺大胆的结论, 便利的未来就是资源。这话的意思是,一个国家的能源优势,现在可以被封装成一种数字化的智能服务,用几乎零成本的方式卖到全世界,这绝对是一种前所未有的高附加值的能源变现方式。好,咱们的思路再往前走一步,现在我们有了生产资源的工厂,也有了卖资源赚钱的模式, 但是建这些数据中心、发电站都是要花大钱的,钱从哪来呢?这里就出现了一个全新的思路,既然 ai 服务可以被词源化,那么建设这些设施的资产本身是不是也可以被代币化,然后向全世界融资呢?这就引出了我们今天要讲的另一个关键概念而得呢,也就是真实世界资产代币化。 他的逻辑其实挺好理解的,就是用区块链技术把现实世界里那些很值钱但不太好交易的重资产,比如说一座发电站或者一个算力中心,给它进行数字化的拆分,变成一个个数字通证,这样一来,全世界的任何人都可以来投资,资产的流动性一下就盘活了。 而且啊,这种模式能用的地方非常多,小到金融资产,比如把美国国债打包成代币,大到咱们刚才说的物理基础设施,像发电厂、算力中心,甚至还包括像碳排放额度这种无形的资产,通通都可以被做成 rwa, 拿到全球市场上进行融资和交易, 这对实体竞技来说意义就太大了。你想想,很多中小企业,他可能很有潜力,但达不到传统上市 ipo 那 么高的门槛儿,那 rwa 就 等于给了他们一条全新的路,一个轻量级的迷你 ipo, 它不仅能帮企业对接全球的资本,而且因为用了智能合约技术,整个融资交易过程都是自动化的,成本大大降低,效率也高得多,还能七天二十四小时不间断交易。 好,现在咱们把所有线索都串起来。你看,物理世界的能源可以被转化成 ai 磁源这种消耗品在全球提供服务,而支撑这一切的真实资产又可以被转化成通证这种使用权凭证在全球进行融资。 当这两种托根,一个代表使用权,一个代表使用权,形成一个完美的闭环,让能源、算力、资本都能在光篮里以接近光速的速度自由流动时,你觉得我们所熟悉的这个世界经济的规则将会被怎样深刻的改写呢?这可能是一个刚刚拉开序幕的未来。

显卡是如何生产出来的,一起来看看吧!第一步,检查电路板外观是否正常,然后贴上高温胶来保护金手指,避免沾到灰尘和其他的东西。 处理完成之后啊,将电路板摆放整齐,开始进入头板站,把电路板放到制具当中。根据工作人员的介绍啊,这样做的好处呢是可以提高产能,一次可以打两片出来。在生产之前需要做一些准备工作,先给电路板贴一层膜, 这样做的原因呢是为了调试好机器,看一下吸高印刷的位置是否对的上。经过工作人员多次的确认和调试之后啊,才可以正式的头版生产。 虽然生产的过程基本是全自动的,不过为了确保万无一失,会有技术人员来回巡视等机器把大大小小的原件,比如芯片、显存等等贴好之后呢,就会进入到下一个区域回流焊。在跟工作人员的交谈中得知啊,回流焊区域一共 共有十二个温区,可以设置不同的温度,经过回流焊区之后,贴好的原件就会和电路板紧密的焊接到一起了,最后经过多重的检查和测试,确认没有问题,显卡最重要的电路板就制作完成了, 后面再把散热风扇、外壳等零件组装起来,一张显卡才算做好了。那么这个显卡的生产流程就给大家介绍到这里了,大家以后还有什么问题可以在评论区留言给我。

别人做 token 业务顺风顺水,你却处处碰壁,核心原因是很多人连基本常识都没搞懂。不少人以为 token 分 三六九等,实际各类大模型的 token 都是文字切片,差异极小,生成质量只由模型决定。 显卡选择上,四零九零、五零九零、 h 一 百、 h 两百均可用于 token 业务,同模型输出质量一致,区别仅在算力、效率与成本。 h 一 百是主流优选, h 两百为高端方案,小单入门可选四零九零系列,无需挂靠平台,自建 api 即可按量收费,实现自动化盈利。全国日均 token 量超一百四十万亿,市场空间广阔。如果你有 token 相关业务需求,可随时找我交流方案。

如果 ai 时代有一种新货币,你觉得会是什么?三月十六号这一天呢,东西方两个巨头同时盯上了同一个词。西边呢,英伟达 gtc 大 会,黄仁勋站台两个半小时,提出一个概念,叫 token 工厂。他说未来的数据中心呢,不再是存文件的地方,而是生产 token 的 工厂。那东边,阿里巴巴也发了一封内部信, ceo 呢, 吴永明亲自宣布成立了一个新的事业部,名字就叫做阿里巴巴 token。 他 们的任务只有三个,创造 token、 输送 token、 应用 token。 你 可能要问, token 是 什么?为什么两家公司同一天?哎,把它当成了战略核心。 token 这个词啊,听起来很技术,但说白了,它就是 ai 思考的最小单位。你问 ai 一 句话,这句话呢,会被拆成一个个小碎片喂给模型。那 ai 回答,你也是 抽出一堆的小碎片去拼成一个答案,每一次体温呢?每一次生成,本质上都是 token 的 消耗。那过去两年, ai 圈呢,讨论最多的是模型参数,算你规模。但现在风向变了。 黄仁勋在 g t c 上面算了一笔账, ai 从能理解、进化到能干活,哎,计算的需求增长了一百万倍。二零二七年前,这个市场啊,至少是一万亿美元。这一万亿啊,不是卖芯片的钱,是整条产业链的钱,而这条产业链的核心就是 token。 先看看英伟达在做什么?黄仁勋呢,提出了一个词,叫 token 工厂经济学,什么意思呢?他把数据中心呢比作工厂,电力是成本上限,那 token 呢,是产出品,同样的电 能产出多少 token, 直接决定你能赚多少钱。它公布了一个新指标,叫每瓦 token 数。那听起来技术啊,其实就是能耗产出比你的工厂的效率高不高?因为它下一代的架构 weber ruby, 能让一个一级瓦的数据中心呢? token 产出提升三百五十倍,这意味着什么呢?意味着同样的店收入能翻几百倍。那黄仁勋还在演讲里透露了一个细节啊,硅谷呢,现在招人,这份工作附带多少 token 额度? 已经要写进 offer 里了。未来每个工程师都需要年度的 token 预算,公司呢,要给相当于半个基础薪水的 token, 让他们获得十倍的生产力。英伟达在做的就是造印钞机哎,把 token 生产出来,然后卖给全世界,再看看阿里在做什么。吴永明的内部信里写了一段话,当下正处在 a g i 爆发的前夜, 大量数字化工作啊,将由数以百亿级的 ai agent 来支撑,而这些 ai agent 将由模型产生的 token 支撑运行,成为人类与数字世界交互的主要主体。这句话翻译一下就是啊,未来会有几百亿个 ai 替身替我们去干活, 他们呢,每干一件事都要消耗 token。 所以 啊,阿里成立了 token hop 事业群,核心就三件事啊,创造 token、 输送 token、 应用 token。 最值得关注的是一个新名字,叫 悟空事业部。这是阿里啊,第一次把 b 端的 ai 原生平台单独立出来,要把模型能力深度融入企业工作流。如果说英伟达呢,是造印钞机的,那阿里想干的事情更复杂,他既要自己发电,又要建电网,还要啊造各种的电器,让老百姓用上电。 这套打法呀,很像当年阿里云的路径,就是把算力变成水电煤。然后呢,让企业按需付费。把两件事啊放在一起看,你会发现一个有趣的对照,英伟达呢,站在产业链的最上游,定义 token 怎么生产?他 想让全球企业都用它的印钞机 in token。 那 阿里站在产业链的中下游第一, token 怎么流动?怎么用?他想啊,搭建一套发电、输电、用电的完整体系,一个呀,在造发电厂,一个呢,在建电网和电器。他们在同一天同时用 token 这根主线, 重新创起了自己的 ai 战略。这当然不是巧合啊,这说明 ai 产业正在发生一个关键转折,从模型的能力竞赛转向 toc 的 商业闭环。谁能让更多人更高频地消耗 toc, 谁就能掌握下一个时代的注闭权。那回到开头那个问题, 如果 ai 时代有一种新货币,它会是什么?三月十六号的这一天,东西方两个巨头给出了同一个答案。当然, toc 呢,能不能真的成为石油,还要看有没有足够多的应用去消耗它,有没有足够多的人需要它。 再有一点呢,可以确定,当阿里啊,把 token 写进组织结构,当英伟达呢,用 token 工厂重新定义数据中心这个词就不再只是一个技术概念,它正在成为 ai 时代的通用货币和一场新战争的起点。 科技衍生,冒的是思想焰火。

今天把闲置的那些 h i 零显卡部署了这个两百三十币的这种大语言模型,然后做通过六 a p i 呢,做了一个站点,可以就提供给大家,这个价格非常优惠哈,就是非常的爽,就是,嗯, 输入的话大概是零点二八美金,然后一百万托肯,输出的话是一点一八美金,一百万托肯啊,还他其实还是有还有缓存的,这缓存的正常计费的价格很低很低, 性价比超高,用来跑这个,呃,像跑这种卡的扣的,还有就是龙虾呀,都非常的爽,就是这个模型两百三十币的超爽哈,有兴趣的话大家可以可以玩玩,有兴趣的,好吧。

the token 产业链以及在这个产业链当中啊,我们到底要去关注哪些核心的投资机会?今天呢,我们来聊一聊什么是 token 以及它的重要性,然后顺便梳理一下这个产业链到底是怎么分布的, 包括它的上中下游都有哪些关键的环节?呃,其实 tok 它就是 ai 大 模型里面处理信息和生成内容的一个最小的标准化的单位。嗯,它被称为是这个 ai 时代的数字燃料和硬通货。那这个产业链具体怎么划分呢?每个环节都在做什么?整个产业链的话,就是围绕着 token 的 生产、传输、消耗和变现形成一个闭环, 然后它的上游主要是提供算力基础设施的,比如说硬件和能源。中游呢,是负责 token 的 生产和分发, 比如说像算力运营啊,大模型平台啊,那下游就是各种 ai 的 应用场景,包括智能体和多模态等等。既然说到 tokun 产业链的上游,那咱们就先来讲讲上游环节的细分领域,以及它们各自的盈利模式都是什么。好的 上游的话,其实主要就是硬件和能源供应商嘛。嗯,那硬件的话就包括 ai 芯片,像推理芯片啊, lpu 啊, ac 啊这些,还有就是 ai 服务器,高速光模块,高端的 pcb 和连接器,然后能源这块的话,就有绿电的供应, 夜冷系统和供电设备等等。明白了,那这些领域的企业,他们都是靠什么赚钱的?这很简单,上游的这些企业啊,他们主要就是靠卖硬件产品来赚钱,所以他们的盈利模式是比较稳定的,像英伟达这种芯片系统,然后还有一些国产的算力芯片厂商都是属于这个领域的。光模块这块的话,有中积蓄、创新力,盛 叶冷的话有英维特、高蓝股份啊,还有做绿电的一些运营商,都是在各自的细分赛道里面比较有代表性的。哎,那中游环节都有哪些关键的参与者?他们是怎么协助的?中游的话就是 token 的 生产和分发平台 啊,说制算中心,算力租赁和 a i d c 啊,这些都是负责把上游的算力资源进行整合,然后生产出 token, 接着再分发给下游的应用。 些平台是怎么盈利的呢?它们主要是靠赚加工费、渠道费或者是中间的差价来盈利的。嗯,比如说阿里云、腾讯云、华为云这种云服务平台,还有就是 opai、 智普、 mini max 这种大模型平台,它们都提供模型训练和推理的服务,然后还有一些专门做算力调度和超根结算的平台,也都属于中游环节。懂了懂了, 那下游环节有哪些具体的应用场景?这些场景又是怎么通过 token 来实现价值创造的呢?下游的话主要就是 token 的 消费者和价值创造者,比如说各种 ai 智能体,像企业服务啊,自动化办公啊,代码生成啊,还有多模态的一些应用,像图像音频视频生成啊,三 d 建模啊,以及金融、医疗、教育等各行业的垂直大模型, 这都是下游的应用场景。那这些下游的应用场景,他们的盈利方式是不是也不一样?没错没错,下游的这些企业,他们有的是靠收取应用服务费,有的是靠会员费,还有的是通过帮助企业提升效率来间接创造价值, 但最终其实都是通过脱坑的消耗来实现商业变现的,所以就是说这个产业链的上中下游是缺一不可的。好,那紧接着我们要聊的就是核心投资逻辑的梳理,这个也是很多听众比较关心的,就是说 现在这个 token 经济的投资主线跟之前相比有哪些明显的变化。其实这个投资主线已经从早期大家拼模型的参数大小,慢慢的转向了拼谁能够用更低的成本,更快的速度,更低的工号去生产 token, 对, 就是已经变成了这样的一个竞争, 所以说现在大家不再去盯着模型的大小了,而是更看重 token 的 效率。是的是的,现在一切 ai 服务都是以 token 作为计价单位,不管是输入还是输出都要收费,然后推理算力的占比已经超过了百分之九十, 并且还在继续升高。投资的话就要重点去关注头肯的吞吐量,每把头肯上的一些关键的指标。在目前这个头肯效率竞争的大背景下,哪些赛道是最有可能率先受益的呢?呃,最受益的赛道首先就是推理算力芯片 啊,就是那种专门为推理设计的低功耗高吞吐量的芯片。像 lpu、 aicc 这种,除了芯片之外,还有哪些领域会比较受益呢?还有几个领域也很重要,比如说一点六 t、 三点二 t, 甚至更高速的光模块,以及硅光、 cpo、 lpo 这些高速互联的技术, 然后就是高端的 pcb 基板连接器,还有就是数据中心的液冷和供电,这些都是非常重要的, 就是模型压缩高效框架,以及像 ai 智能体波模态视频生成自动化办公行业大模型这种高 token 消耗的应用也会是非常重要的赛道。现在市场上大家公认的投资主线有哪些?有没有什么比较简单明了的投资口诀可以参考? 投资口诀的话有这么几句,嗯,不追大模型,追 token 效率,不炒纯算力,炒推理,算力 不看概念,看单 token 成本下降,发基础设施光板电冷芯。这个口诀总结的真的很到位啊,那具体到投资的方向有哪些是被普遍看好的呢?目前券商们普遍看好的投资主线有三条,嗯,第一个就是算力底座,就是那些提供 ai 芯片、服务器、光模块、液冷等硬件的企业。 第二个是模型出海,就是国产的 token 利用低成本的优势去抢占全球的市场,预计到二零三零年出海的比例会超过百分之六十。 第三个是算电协同,就是通过绿电储能和算力调度的结合来降低 token 的 生产成本。我们再来说说这个未来规模的预测和风险提示吧。 首先就是全球 token 的 消耗量和市场规模在接下来的五年会有多大的增长空间?根据目前的数据来看的话,全球 token 的 年消耗量会从二零二五年的五百万亿暴增到二零三零年的十五点二七亿亿 啊,就是它是一个超过三亿倍的增长,然后对应的市场规模的话是从九万亿元人民币增长到三百八十万亿元人民币。 哇,这个增长速度真的是太夸张了,今天我们把这个投更产业链的全貌,包括投资的要点都给大家梳理了一遍。嗯,其实说白了就是不管是做研究还是做投资,都要抓住投更效率这个核心,然后紧盯基础设施和平台这两个环节,对,才能在这个快速变化的市场当中去把握一些比较确定性的机会。

家人们,今天我们聊一个这几天超火的新名词, token, 中文名叫词源。我们用最简单、最接地气的方式聊清楚什么是 token, 它是干什么的,有什么价值。聊完我们去运动跑步。 首先,什么是 token? 简单地说,就是 ai 算账和收费的单位。你问 ai 一 句话, ai 回你一段话,都是按 token 算的, 字越多, token 越多,成本就越高。原理是什么呢?你的请求输入数据,系统 服务器启动 gpu 开始计算,电力币被消耗,算力被使用,最后生成答案。整个过程就是算力到电力到智能服务, token 都是这些算力生产出来的。算力的背后就是电, 训练一次大模型,耗电量大到吓人,后期天天推理天天用,更是无底洞。所以谁有电,谁电便宜,谁就能玩转 ai。 这时候,咱们国家的东数西算就起到了大作用。 东部数据多,需求大,但电费贵。西部分电、光伏、水电充足,电价低。国家把算力中心往西部建,用西部的绿电带东部的数据,直接把大模型的成本打下来。应从 ai 从聊天机器人 进化到智能体以后,全球开发者发现,美国的大模型的成本使用太高了。在今年年初 openclos 这类开源智能体框架爆火之前, ai 对 大多数人来说只是个聊天工具,你问一句,他回一句, 单次交互消耗几千个 token, 每月就二十美元的费用,大家还能轻松承担。而现在, ai 已经进化成能承担工作的全自动化数字员工你给一个指令,它能在后台运行几个小时,单次任务 从几千飙升到几百万,这种消耗量对开发者来说简直就是财务黑洞。如果调用美国头部模型,每百万 token 的 输出价格约为二十五美元,输入也要五美元。 一旦让 ai 全天候自动运行,一个月的账单轻松突破上万美元。而我国大模型凭借好用又便宜的双重优势,成了硅谷开发者的首选,我们的价格是美国二十分之一, 这种极致的性价比,让全球的开发者集体倒戈我国的大模型。所以大模型比拼到最后,拼的是电力规模、电力成本、电网调度能力。而这些正好是我国的强项。我们的发电量世界第一, 装绿电装机量世界第一,特高压电网独一份, 东数西算,又把算力和电力完美结合。我国去年发电量是十点四万亿度电,什么水平呢?接近 美国加印度、加日本,加欧盟加俄罗斯,妥妥的电力帝国。 之前我们从出口衣服、家电、玩具,到这几年出口电动车、 锂电池,拿下个十年, token 成为我们最具爆发的数字。出口不需要海运,不需要受贸易壁垒限制, 却能将我国的算力、算法和能源优势直接转化为服务贸易收入。换句话说,我们正将我们的电力通过 token 卖向全球。那问题来了,我们最终卖了多少钱呢? 这个账我们来算一下,一度电约为三百六十万焦耳,在 ai 推理的情况下,一块 gpu 生成一个 token, 大 约消耗零点三九焦耳,除去损耗, 保守计算可以至少生成五百五十万个 token。 再看我们的大模型 deepsec, 一 百万个 token 收费 二元人民币,那五百五十万个 token 收费就是十一元,相当于一度电卖了十一元。如果纯卖电,一度电只能卖到五毛左右,如果进到算力再到 token, 一 度电就可以卖到十一元,这还是充分竞争后的价格, 电力价值被放大二十倍以上。这就是为什么我们都在疯狂地建设数据中心。之前类似的就是比特币,我们用便宜的店生产比特币,再卖向全球店,没有出国,但以另外一种形式以高价值卖出去了。 过去是矿机加比特币,现在是 gpu 加 ai, 过去是生产数字资产,现在是生产智能。逻辑是一样的。 看到这个,我们现在新能源的生态光伏加分电加电网加数据中心,形成一个新的形态,算电协通,把新能源的波动用算力中心吸收进去,这样我们就可以通过生产出的 token 被全球消费, 也可以说中国的分店和光伏被全球消费,成为最抢手的资源。所以最后的结论很简单, ai 的 尽头是算力,算力的尽头是电力,电力的尽头是中国,我们的新能源发展有大有前途。

今天在硅谷 g d c 现场听完黄仁勋两个半小时的演讲,我有一个非常强烈的感觉,全世界最懂龙虾是托克大熔炉的人,其实不是魔性公司,而是黄仁勋。如果你把老黄这两个半小时的演讲全部浓缩成一句话的话,其实就是欢迎来到疯狂消耗托克的时代。 而问题是,谁来生产这些托克呢?老黄的答案其实非常直接,只有英伟达的 ai 工厂。很多人今天听完演讲,可能觉得心机量特别大,又是发布新的芯片,又是什么飞思格 ai, 还有老黄最后大谈特谈的龙虾。但其实这些记录细节背后啊,老黄一直在讲的都是一个更底层的逻辑, ai 已经不再只是软件了, ai 是 一门工业,而工业的核心是什么呢?工厂?老黄今天反复提到一个词, ai 发个群。他说未来的数据中心不再是 data center, 而是拓客。发个群,也就是拓客的生产工厂。过去互联网公司的核心资产可能是服务器, 但未来 ai 时代,核心资产不再是服务器,而是拓客的生产力。为什么这么说?因为 ai 已经进入了一个新的阶段。老黄在演讲里提了三个关键点,先是深圳市 ai 掐着 gpt 能让 ai 生成内容, 在这推理 ai 模型,开始会思考,会拆解问题。第三是 a 技能 ai。 ai 不 再只是回答问题,而是可以做文件、写代码,调用工具执行任务,真正开始下地干活。一旦 ai 开始干活了,问题就来了,顺利需求爆炸。老黄今天说的特别夸张,过去两年, ai 计算的需求增长了一百万倍。为什么? 因为 ai 每一次思考,每一个行动,本质都是一件事,疯狂消耗托克。所以 ai 的 商业模式其实很简单,你问一次问题,消耗一堆托克, ai 思考再消耗一堆托盘, a 进了执行任务,再继续消耗托盘。于是托盘就变成了一种新的商品,就像水,就像电力,就像石油, 已经成了 ai 时代的基础设施。这就是老黄今天反复提到的一个概念,托盘经济学。 ai 公司在卖什么?不是模型,不是 api, 而是托盘。 open ai 在 卖托盘, osloopy 在 卖托盘, 谷歌也在卖 token。 但这里面啊,有一个更底层的产业链,那谁在卖铲子?答案就是英伟达。因为不管谁在卖 token, 都需要算力,而算力从哪里来? gpu? 而 gpu 的 生产者是谁?英伟达?所以老黄今天说,未来每一个数据中心都会变成一个 ai 工厂,而 ai 工厂的 kpi 只有一个, 每瓦电力能生产多少 toc? 它甚至给了一个很工业化的指标, toc 是 per, what? 每瓦电可以生产多少 toc? 这就回到了传统工业思维,你建一个 ai 数据中心,其实就像建了一个发电厂,最后目的也只有一个,生产 toc。 未来所有公司都需要思考一个问题,你的 toc 发过去,效能是多少? ai 时代, toc 就是 最新的生产燃料。所以听完今天的演讲,老黄最关心的问题其实只有一个,谁来消耗 toc? 因为只要拓客在消耗算力,就要继续买, gpu 就 要继续卖啊!所以老黄的这个商用车盘也打得非常响, ai 越聪明,就越要消耗算力, ai 越耗算力,就越需要英伟达。所以二零二六年的 gpc 更像是 ai 工业革命的宣言。老黄在说, ai 已经不是互联网产品, 而是一门工业,而英伟达就是这场工业革命的工厂设备商。我是鬼谷美强,关注我,带你了解鬼谷每天的最新动态。