听我说关于滔凯代理这个项目,很多人都觉得滔凯代理呢,就是个二道贩子啊,没有什么技术含量。但你可能不知道,如果是没有代理啊,滔凯这边生意呢,可能做不大,因为大厂缺的不是技术,是渠道。 你像阿里云、腾讯云、火山引擎,他们的销售体系呢,定的是大客户,一个单子几十万几百万,但中小企业呢,一年可能花个几千,甚至不到一万块钱,大厂呢,看不上,但是这个市场会非常大, 于是中间出现了一层人,就是滔凯代理。还有一个更现实的原因就是中小型企业呢,根本看不懂这些技术。那么你做的事情其实不是倒卖,是翻译,就是把你的技术变成生意啊,这才是滔凯代理的真正价值,而且这个模式不会很快消失。 你可以看云计算发展了十几年,那么代理商呢?依然活着。 ai 时代呢?可能也是一样的逻辑,就是底层技术越标准化,中间层越需要懂场景,懂客户的人。 top 代理可能不是那种短期的机会,会是一个长期的项目。所以不要小看 top 代理, 技术是矿啊,渠道呢,是路,如果没有路,矿挖出来可能也运不出去。如果你也在研究 top 代理,跟谁聊一聊,我看还有多少人已经在关注这个机会。下一期呢?我讲最现实的问题,普通人的第一个 top 客户从哪里来?
粉丝446获赞2321

很多人觉得涛肯代理就是二道贩子,但你可能不知道,大厂其实非常需要你做代理,甚至可以说,没有代理,涛肯这门生意很难做大。 为什么?因为大厂缺的不是技术,而是渠道。阿里云、腾讯云、火山引擎,他们的销售盯的是大客户,一个单子几十万、几百万,而中小企业一年可能只花几千块钱,大厂不会去做,但这个市场非常大,于是就出现了一层 投很大力。还有个原因,中小企业根本看不懂这些技术,大壮说 api, 企业说帮我赚钱,大壮说推理服务,企业说帮我省人。你做的事情就是把技术变成生意, 这就是滔腾代理的价值,而且这个模式不会很快消失。云计算发展十几年,代理商依然存在, ar 时代可能也是一样的逻辑。所以说,滔腾代理不是短期机会,而是长期生意。如果你也在研究滔腾代理,评论区打代理,我看看多少人 已经开始关注这个机会。下一期,我讲最现实的问题,普通人第一个滔腾客户从哪里来?关注我,一起探索 ar。

toker 出海怎么出?四种模式,你会如何选择?一、传统模式,你通过电话邮件或者是聊天工具告诉海外的云服务商,你有一个定量的 toker 包,比如一千亿的千万 g l m 或者 cds 的 toker, 然后让海外的小伙伴线下去销售。但这个沟通商务时差,老外的效率、邮件方式和收付款都很低效,在做这件事情的时候未必划算,只适合大客户和大订单才能这么做。 二、聚合分发模式,把你的 token api 接入到大的聚合分发平台,它们根据稳定性和价格进行调用,低价就多调用一些,高价就少调用一些。 c 端统一一个 api 可接入的平台, 我们其实已经做好这些平台的接入要求,但在缓慢的排队中,接入的效率以及商务其实不太开放。 三、打包借通道的模式,这个需要你的 token 包很大很稳定,这几个小的 token 工厂的包 打包在一起,通过大厂和运营商进行一个合规的备案,出海到海外的大 b 端或者 c 端。四、 toc 模式,哪怕你只有几十亿的 token 价值在数千,你可以通过电商或者社交媒体进行少量的 toc 转售。 总结一下,托肯出海和磁源经济是一个三月份才开始进入大众视野的事情,还很早期受制于 openroot 的 不 open。 我 们团队决定做一个中国版的 openroot 是 有很多挑战,但我认为磁源经济和托肯需要一个更开放的生态和宅体。月十一号的广州线下沙龙,我们将发布这个中国版的 openroot。

随着龙虾的爆火,那么 token 这个名字也被家喻户晓,那么网红经济学家也出来作妖了,说我们也可以把 token 搞成一种商品,然后用于出口呢? 这明显是一种概念混淆,我们原来时候讲的商品,如果说非常廉价,那么就非常有出口竞争力,只要改变它的属权,然后通过运输的方式出口就完成了,非常简单,这里面唯一要求的出口的标准达到验货才可以完成。 今天说的头肯也就是算力真的一样吗?不得不承认,我们在这上面有非常大的优势。第一个,店便宜。众所周知,我们是一个基础建设非常强大的国家,所以说店天生就便宜,所有的东西都要在建立在店的基础上去运作,那么就导致最后的算力可能会比较便。 第二点是我们的工程师多,也就代表着用人成本低,那么最后也是会算到上面电力,呃,这个算力会比较低。第三点就是工程优化做得比较好,比如说我们可以把 gpu 的 这个算力拉到最大,或者说我们把算法提升啊,本质上也是卷工程师的一种表现。在 ai 算力的时代,真的便宜代表一切呢,并不是 真正的客户。看算力是怎么看?第一点,上游的稳定供给,比如说你的芯片来源是否稳定,是否能保持所有的交付的东西得到一种稳定。在二零二四到二零二五之间,美国出台了一系列芯片法压制我们,导致你登录不了服务器和网站。第二个是法律问题,可明显新加坡和欧洲制定了 ai 的 相关法律, 这就要求你的工资必须要在法律框架下才得以运行,这样又筛掉了一大批算力供给平台。第三点是什么?是安全问题,因为算力的供给本质上你要去拿到甲方的所有日制,所有的客户信息,以及一些敏感词,一些数据库都在这里。 第四点本质上是生态,因为欧美客户如果你做过外贸的话,都知道欧美客户一般会用一家供应商,如果用的好的话,他不会换,除非用的不好,他会才会考虑换第二家,这就代表着你所提供的廉价。算力不是第一梯队的选择, 可能是第二梯队的选择,那要不你把算力卷的更加便宜,但是也很难。为什么呢?因为在整个 ai 产业中,很多的一个公司啊,他固执很大,他没必要在这种成本上去审,那审的话,可能他的一些安全、法律生态或者上游的稳定性出现了一些问题了,以后他的股价的损失可能远远大于花这一点算力的价 格。所以说,再也不要被这种网红经济学家给忽悠,背叛的人我都送他一百万,将来忠诚于我的人,那就是几个亿了。听懂掌声, 对于很多事情,我们要静下心来,稍作研究,再去做判断,喜欢就点个关注吧!

还是有很多大聪明不停的问我,博士,我如何跟你卖托肯?托肯到底是啥啊?我觉得你想跟我卖托肯可以,你首先要理解什么叫做托肯,很多人根本就不明白,以为托肯是一件很简单的事情,其实并不是这样 啊,有的人说是字节,有的人说是字数,其实我觉得都不对吧,用通俗的话,普通人能够理解的话就是啊,托肯就是 ai 世界的律师费吧, 你想想,你去问一个大律师,人家可能是按照分钟来收费,对吧?你一问一答, ai 也一样,但是 ai 他 没法一个定量的去按时间来,因为有的 ai 快, 有的 ai 慢,就是根据背后的算力 啊。 ai 不 看你问了几个问题,他是把你这些问题打碎之后,然后在他脑子里面赚了多少颗粒度? 呃,比如说在中文里面,我们大概一个 token 就是 一个一个字,然后在英文里面,一个 token 大 概是零点七五个字。所所以说,比如说 brightness, 它叫 bright, 然后 ness, 然后 darkness, 它这个你看,呃, brightness 和 darkness 它里面相似度就是一个 n e s s, 这就是一个具体解释, 在 ai 里面, token 就是 处理逻辑的最小代价。如果你问,比如说吃了吗,你问博士吃了吗?我可以秒回 ai, 也可以秒回,它不需要呃,用太多的算力,但是如果你让它写个什么对赌协议, 什么销售协议,它还是得调动很多的神经元。 token 记录的,其实某种意义上讲就是说,哎,它在它脑子里面运转了多久 好?这时候关键问题来了,很多人都不明白 token, 他 觉得 token 是 个标准品,其实 token 不是 一个标准品, ok, 它是根据不同的模型,它会产生不同的 token, 你 比如说你有 deepsea, 你 有 jamaican, 你 有 john cloudy, 你 还有这 gorn, 对 吧?不同的模型。 所以呢,很多人在这建这种机房的话,去卖这个,卖这个,托肯,我觉得这也不 make sense, 本质上这些只有大公司在做,因为你要有自己的模型。当然了,你说,哎,兄弟,我不怕,我自己有把开源模型 放到我自己的机房里去让,然后给别人提供也 ok, 但是开源模型是在不停的演化的,所以你有自己的技术力量去不停的去开源模型嘛,对吧?都是一些问题,实际的问题。 然后呢?还有还有说不同的模型,我再解释更清楚一点,他就想找律师,你找一个刚毕业的实习律师,他可能问一个问题,收你五百块钱, 然后他给你建议,可能赵本山哥,甚至可能还不如大模型,对吧?如果你是去找一个身价千万的顶级合伙人,他跟你的回答的问题他可能完全是不一样,而且他每一个回答他可能都是根据他处理了很多问题啊,根据他几千个真实的案例来。 所以大模型也一样,大模型有有七 b 的 小模型,就像现在所有人都说,哎, mac mini, 呃,我去,让这种小模型,这种出海三裂,那都是小模型,它产生吞坑速度很快。其实 mac mini 也不快啊,但是它脑子里没有深度,它给你的逻辑可能根本就不通的, 像 gbt4 啊。然后 jimmy 这种大模型,它每一个,呃,大模型,它不是升级,它其实升级的过程中它也是融合了很多的各种各样的最新的这些知识,它其实在其实某种意义上讲,其实我就为什么说其实做垂直领域的大模型其实没有多大的 啊?一,因为你会发现我刚搞一些 dota 出来,然后一些大厂,他马上就把这些新的 dota, 新的垂直行业的领域的东西放到他的大模型里面, 而且他自己有很多自己的算力中心。如果你单纯的用一个呃开运的模型去做的话,开运模型大部分人我都说过是真流出来的,几乎是没什么用的,其实本质上就是说你你你用什么样的模型也会对应着什么样的算力,对吧? 呃,其实某种意义上讲,我们再来讲一讲大模型,为了突出一个头肯,它其实也有需要很多的 gpu 的 协调合作, 它不是说不是说一个一个小 mac mini 就 就可以去卖了,其实你你想想的大模型它都是几几个几个逼量的参数,它肯定要进行很多的这种举矩阵运算, 就为了你一句提问,比如说你问一个问题很简单,问题它可能秒回,但是大的东西的话它还是要很多做协助呢。 小模型呢,就是一个 mac mini, 他 自己在这想速度快,他其实质量也很差,所以呢, token 的 成本其实本质上取决于你这个模型的大小 和你这个算力的这个这种消耗。如果你的需求大,这种问的问题很深,你就需要这种顶级的律师事务所的合伙人,所以你就要更更强的算力,更强的大脑。如果你只是问一个博士吃了吗?我跟你可以卖 token 吗?这种话,那肯定话就很很很简单, 所以呢,在这我们这个时代,你不要想着就是单纯去卖 token 啊什么的,你要想去卖 token, 你 首先要想好 你 token 的 客户是谁,他会问到什么样的问题,你需要用什么样的模型去解决,你需要匹配什么样的算力?而往往这些东西都是我们这种云厂商,比如我们代理亚马逊云云厂商来解决的。不是说一个小白什么都不懂,然后,然后上来说我跟你卖 token 嘛?这这这简直就不 make sense。

哈喽,大家好,我是 paper, 那 今天我们来说一下我们最常用的 token 本地模型和外部的模型该怎么样去使用?就是 token, token 是 什么呢?一方面它是有这个最小计算机处理文本单元, 另一方面它也是其他的,还有很多身份认证啊,指令串密密实都百度的话,你要使用在我们的 ai 大 模型中,你就记录这个最小文本处理单元就可以了。我们再来看这个本地模型去哪里找啊?一般的话,像这个最常见的开源社区 hackin face, 我们在这里面去找本地模型,我们登录进来,然后找到这个 browser two m 加 models, 或者说你直接在搜索栏中搜索对应的名称,像这个主页,它这个首页里已经有这些,比如说像这个 minimax 的 二点一,千万的三点三,还有一些各种各样的 模型, open i 的 gptos 啊,你可以或者说这个 kimi 二点五等等,你可以点击这里去我们要找的像一些文本到图片的模型, 就是 ai 绘画模型,还有像这个文本到视频的模型啊, text to video, 还有像这个文本到文本,也就是我们的语言模型,就像豆包,千文,这些都是语言模型,我们只要去搜一下这个 text generation 文本生成,我们就可以在这里看到有千文,三点五啊,还有各种各样的 emoji 三啊,各种各样的 mini max 等等啊,只要是你所熟悉大厂,那基本他发了都在这里面啊。你看这个 b 嘛, 这个币数越大,比如十七币,八十币,三十二币,一百九,十九币,甚至这个二十八币,或者说这个四币的,这肯定效果没有那么好,是吧?那因为达到六十七币,一二一百二十四币都很大, 这东西像这个 mini max, 二点五,二点二十九币啊,二百二十九币,这个更大,这个你要是下下来,你会发现 你可能你的电脑用不了啊,就是这么简单哈。 ok, 我 们再看这个像一些其他的开放的 a p i 怎么去使用?那这里我以这个 g m 举例啊,我们直接去找到 a p i k, 点一下就进入到这个页面了, 这个页面就是你的 a p i 密匙了,我们在这个项目管理 a p i key 中找到它,像这个已经有的 a p i, 你 用到别的地方可以去,这样子你也可以直接删除,我们再可以添加个新的 a p i, 比如说你这个 a p i, 你 要去用到自己的 call 啊,那么龙虾上我们就点击 call, 然后把它复制过来,然后粘到这个 call 里,你就给它充钱就可以了哈。 你还想还想要再用一个 a p i 去做别的项目,那比如说我这个叫这个 agent agent, 那 这个 a p i 呢?我们给它复制过来,去放到别别的调用的端口里给它充钱就可以了哈。 像这个 open a d b c 的 a p i 啊,页面也差不多哈,你可以在这里点击 create new c c 啊,你也可以在这里点一样的啊,这里 name 我 写 call 啊。这个 project 你 可以放到你的默认 project 里,不过一般只有一个啊,点击 quit 就 可以了哈, 配置完之后呢,一样的,你就给自己的套餐充钱就可以了。那这个 api 呢?它不同于你的和你的传统的大模型,你直接问它那种网页对答模型不一样的啊,因为 api 呢?它 是啊, api 它是实时计费的,就说你要是用的话,你可以用到很多层面上不同,不停去调用这个模型。而你的网页因为问答呢,只要你这个模型啊,只要你这个网页关了,你就用不了了,是吧?你要是想用它,你是不是得二十四小时数在电脑前啊?你在电脑前你才能用它,但 api 不 一样,你可以做成全自动化的东西, 这样子呢,它的费用就会很高了。所以说 a p i 是 单独收费的啊。 ok, 那 今天呢,学完这课,咱们这个玩龙虾啊,或者说玩什么都会更轻松一些哈。咱们就先到这里啊, ai 啊,一定要去关注这些啊,最基础的东西,如果说这些基础东西你都不知道,那你去你就很难玩得转这些东西哈。

其实现在还是有一些确定性的机会,甚至可以称得上是风口的。刚刚跟好多前几年做出海业务赚到大钱的朋友们聊天,现在都打算做这个事,而且这个事情是明确的,在两会都被提出来,未来绝对会成为一个非常庞大的产业的,但是说实话还是挺有门槛的, 我觉得可以大家聊一下,就当知道一下当下此时此刻这些赚到大钱的人们都在干什么,世界到底发展到什么进程上了?这个事情叫做 talk 出海。首先大家都知道 talk 是 什么吧,就是你现在用的所有的 ai 软件,什么豆包,什么 open ai, jimmy, 什么千问,他每回答你一个问题,每帮你产出一条图片, 都是需要消耗 talkin 的, 而 talkin 是 需要花钱买的。很多人说,哎,我用豆包不用花钱,而是因为大厂还没有跟你收费,而且文字内容消耗的 talkin 太少了。我这么说吧,就前段时间特别火的龙虾,我们身边朋友聊起来都说为什么龙虾突然火了, 而且一瞬间大家觉得所有大厂都在推,因为这些 ai 大 厂 ai 公司变不了现,你用的什么豆包 ai, 这种文字对话消耗的 talkin 太少了,所以它要推出一个 talkin, 消耗的多的。动用过龙虾的都知道,一旦真的要用 ai 给你工作了, 你就要消耗很多的 token, 就 需要开始充钱了,你就得充钱买 token。 然后这里有一个非常牛逼的数据啊,在二零二五年,中国 token 的 消耗量是三十万亿, 而二零二六年上半年才截止,到现在啊,就已经消耗了一百八十万亿,就这个增长速度,知道为什么大厂都在布局 ai 了吧?为什么春晚哐哐砸广告,现在什么行业能有这样的增长? 而且甚至现在都还没到 ai 大 爆发的时候呢?那 talkin 这个东西值多少钱呢? talkin 出海是什么呢?首先啊,为什么我们说 ai 时代绝对就是我们中国的时代,因为只要你用 ai 就 需要消耗 talkin, 而中国是全世界 talkin 成本最便宜的地方,因为 talkin 的 成本就是电力和算力,如果你在新疆买一度电可能只需要两毛钱, 那这一度电通过算力能够生成五百万的 tok。 五百万 tok 在 国内的大厂就卖你十块钱左右,已经是从两毛变十块二十倍了。但是现在在美国,像 oppo, n i 这些 ai 大 厂,五百万 tok 可能需要卖到四百人民币,新疆两毛钱的电通过算力变成 tok, 然后卖到美国就变成了四百块, 八百倍的利润。我们一再强调, ai 时代绝对就是中国的时代,因为中国的电力的低价优势太强了,以前这些电都是大量闲置,而现在 通过算力变成 talk, 能赚几十倍,甚至是八百倍。所以 talk 出海是什么?就是当中间商,就是把我们国内这些便宜 talk 卖到全世界去。很多人说 talk 出海就是新时代的大宗商品贸易,那 talk 出海这东西怎么做呢? 普通人来说呢?就是去,就是去拿到大厂的 talk 分 销权,然后去卖给海外公司。那富豪都会怎么干这个事呢?买发电站? talk 工厂。所以你还记不记得去年我跟你们说,全世界最有钱的这帮富豪都在干嘛? 孙雨辰在干嘛?年我问孙哥的时候,他说在看发电,孙雨辰为什么要自己买发电站?我靠,我觉得我我我人还是认知不够,我当时我去年我早就知道电未来会很值钱,我当时也买了很多的电,当时我甚至还发过视频让大家看看电, 不过后来都被平台吓掉了。但是我当时就咱们就说这个认知还是不够,是没有想过去深挖背后的这条店的产业链,还是没有想到说能有什么样的更多的赚钱渠道,所以真的还是这个认知决定赚钱的上限啊。那很多人说,那你说的这个东西,我们普通人听起来也干不太了,其实时代留给普通人的赚钱机会就是越来越少, 但这个时代有一个最大的好处就是所有的信息差和认知差都在慢慢的被消灭,就像这样的赚钱机会,可能我们做出海的朋友去年几个亿收入,放在以前这种信息都是大家钱都赚完了,可能我们都还不知道,现在的好处就是他们刚开始做你就也知道了,对吧?

滔腾出海那点事啊兄弟们,就自从这个小龙虾出来了以后,这抖音就老给我推送那种好几千台 mac mini 的 那种算力集群,然后说这是算力出海,再配上那种慷慨激昂的 bgm, 我 一看以为说,我靠,这不是新的风口又来了, 就和早几年那种早期的挖矿矿场的场面很像,你知道吧?我寻思是不是我又错过什么风口了,有什么信息是我不知道的吗? 一看这个我就着急了,马上针对所谓的算力出海和东数西算这个大的框架进行了一一通的深入研究啊,就为了看清他这个到底是不是割韭菜。所以呢,今天就有这个话题呢,来给大家聊一聊。应该会是二零二六,二零二七,二零二八。接下来三年的一个大热门的一个风口,就是算力托肯出海 以及所谓的东数西算。好,然后在最后呢,我也会聊到说,这种 mac mini 的 这种算力集群,忽悠你去参加的是不是割韭菜,实际上就是割韭菜,但是它和算力出海是两码事,它是两码事,所以我把这个放到已经给他定性就是割韭菜,我把它放到最后去讲。那我们主要是来讲讲算力出海和东数西算啊,这两个实际上是正经的 风口,而且是在国家政策里面超级扶持的一个很好的内容。好吧,那咱们今天这个视频呢,和往常有点不太一样,往常咱们节奏比较快,咱们今天就以唠嗑的方式来,慢慢来,大家听我跟你们讲。呃, 讲一下我的理解,来聊聊这个事。啥是托肯啊?怎么这算力他又是怎么说?从中国又能算力又能出口,他说怎么出的了这个口呢?对吧?他又是怎么挣的这个钱呢?对吧?什么东树?东树,他又怎么来西算呢?他咋算怎么变西算了呢?南水北调,这个水是可以 物质吗?他可以运到北边来,西电东送,大家也听说过西边的地,他通过电线送过来,他东树,他怎么能跑到西边去算呢?好,我们今天就来讲讲这个话题啊,欢迎收看 tst 我是 柱子,让我们开始今天的节目。 好,首先第一个就是讲到这个算力啊,就离不开这个 took, 很多人对 took 这个一直想给他找一个中文的翻译,就是到底什么是 took 呢?这对于很多小白来讲,他也非常的难以翻译啊。 took 有 人说是通称,有人说是平称,有人说代币, 实际上都没有讲到它的点子上,实际上 token 这个词儿呢,它原来是从迈步三那边过来的,原来一个 token 就 对应的一个代币啊,就这么一个意思。但是现在这个 token 呢,放到 ai 的 这个世界中,它有点不太一样,我个人的理解呢,实际上大家把它理解为一张票就可以了,就跟 早几年用的那种什么粮票啊,布票,或者现在火车票,演唱会的门票、电影票差不多一张票上呢,它有数据,有信息,对不对?那 token 也是一样啊,一一票 token, 它就对应的零点七五个英文单词,或者是半个汉字左右啊,这就是一票 token, 对 应的是这么多,那么 这个 ai 的 这个算力呢?信息数据的这个传递啊,主要就是通过,对吧?文字嘛,大模,文字,大模型,是不是?所以呢?一票一票,一票一票的就是这么去传播的,所以就有了 tucker 这个概念,哎,我这么一说,你是不是 就稍微有点明白了,对吧?那么随着 ai 时代这个到来啊,就是,尤其从二三年,可能还是一个开始期,到现在二六年,尤其是这个 open call 开发出来了以后呢,这个 tok 的 用量就在全球范围内激增了啊。目前呢,中国主流模型的日军消耗是一百八十万亿个 tok, 一 百八十万亿个 tok, 比如像豆包这种单个的 a i a 卷,一天就可以消耗五十万亿个 tok, 全球在两年里面 tok 的 消耗量上涨了三百倍,这因为什么呢?因为各种各样的 a i a 卷都出来了啊。讲白了,我现在 比如说我对 ai 说一句话,说,哎,帮我查一下明天的天气,那这个时候 ai 收到这句话了以后,他就得得在自己的脑子里面开始运作啊,那说白了,我跟他说十个字,但他得在脑子里面,你看过一亿一万个信息流,所以,所以他这个头肯的消耗是很快的。比如说我,我像之前开发一个宇宙人的评级系统,我就开发一个网站,对吧?但是 一个网站开发出来,我当时消耗了多少头肯呢?我消耗了,就单单那一个网站,我消耗了一亿多的头肯,通过 ctrl, 那为什么它会暴涨呢?就是因为像各种各样的 ai 软件目前都出来了,像什么小龙虾,然后像 ai 的 a 卷,或者是比如说像 codex 啊,然后嗯, cursor 啊等等等等,还有视频生成的,比如说像 cds, 对 吧?啊?奇梦 ai 是 纹身图的图啊,图生纹的这些,这些都要消耗 token, 都要消耗这个票, 所以这个 ai 消耗这个 token 就 暴涨,暴涨暴涨,好,那么现在的问题来了,就是有了这么多 ai a 就 暴涨暴涨,好,那么现在的 ai 消耗 token 来 处理问题,对吧?那 token 的 背后呢?是字和字母,但是还对应了一个很重要的东西是什么?还对应个很重要的东西就是电力, 这个应该不难理解吧?那是电脑,我现在在电脑开着,或者是我在摄像机录的,都得消耗电力,那这些 ai 的 处理器它也得消耗电力,这个应该很好理解吧,所以 token 消耗的暴涨,也就意味着电力消耗的暴涨, 就就这么回事。好,那我们接下来就来聊聊啊,说到用电呢,那就到我们咱们中国的一个主产座上来,大家都知道,在中国的西北地区,实际上他的 电量是非常非常丰富的,对吧?有光电,有风电,各种各样的,呃,电站啊,有水电,电的资源很丰富,但是一直以来他就面临一个问题, 就是西北的电很丰富,但他消化不了,因为那边人口少嘛,城市少,所以你看大家课文里面就有学像西电东送啊,对吧?把西面的电通过特高压,哎,咱们国家特高压技术特别牛逼,千里给他送到东部的城市,然后来进行消耗。但是目前为止呢,这种方式他还是有问题的, 就比如说西北的这些绿电啊,就是不是烧煤的这些电出厂价是零零点二一度,但是呢,送到东部就要变成 六毛钱到八毛钱一度点,因为你这中间有传输的成本啊,还有你建设特高压这种电网,也是需要非常大的这种投入在这里面,所以就在这种情况下呢,在这些啊,西北部或者是西藏啊,新疆这些地区,青海、甘肃这些地区仍然会存在百分之十以上的气垫。 那么现在 ai 时代到来了就好了,就踩中这个风口了呀,就我们完全可以把这部分的气垫给它充分的利用起来。怎么利用呢?哎,就是国家说的这个啊,东数西算,这个大工程怎么弄呢?就很简单,就是现在好,我们也不传出了,就直接把数据中心给它建到西部去。兄弟,直接把 数据中心东东部这些公司对吧?公司你都爱东部对吧?但是我技术中心,数据中心全部都建到西部区,那你这样子你就连传输都不用传输,你在当地产生的电能,你通过当地的数据中心算完以后,变成了 tok 以后,直接通过互联网给全球的用户来使用, 所以这就是东数西算。那目前在西北地区已经有非常多的数据中心落地了,比如说像内蒙古的乌兰察布啊,就有中金数据的零碳源,还有世纪互联的一些 企业对吧?还有像宁夏中卫对吧?大唐就在那边落地了一个两百万千瓦的新能源的并网,年供率可以达到四十一点四亿度,对吧?然后算力可以超过十三万匹啊, 像甘肃庆阳,算力就已经突破了十万匹啊,再建基价达到三十九万加,目前还要投资三百六十六亿元建成国内首个纯国产的十万卡集训,还有像贵州的贵安,目前再建的项目就有四十九个,总规模总算力超过九点二万匹啊,智算比例超过百分之九十七, 所以这么看来呢,未来这个大西北啊,就会成为 ai 数据智算的一个大中型。那么我们讲完这个东数西算以后,那么算出来这个托肯为什么它可以出口呢?这边实际上就要讲到咱们国内的这些 啊,国产的这些 ai 大 模型的一个迎头赶上了呀,因为这边就有一个问题,就是说,如果说我智数中心算出来的这些算力,他的智商不够的话,那么老外他还是会选择贵一些的, 国外的那些大模型,对吧?像 gmail 啊, cloud, gbt 大家常用的这些确实也都是比较好的大模型,但是呢,如果说他们的智商情况差不多,智力情况差不多,他们得分差不多的情况下,然后我们的价格就是它的十分之一, 哇,那我就肯定会选择中国,中国的这些大模型对不对?在二零二六年三月最新的 l m s y s arina 的 盲测中的数据就是像 g l m 五啊, kimi 二点五千分,三点五 d p c u b 三点二的 e l o, 分 数已经杀到了 一千四百五十以上,直比 cloud 四点六,均在三点一。 pro gpt 五点四,落后三十到七十分,但是总分是一千五百分,一千六百分啊,所以实际上它的整个性能差距也就是差了百分之多少,可能差了百分之十不到,所以差距非常非常低。 但是呢,中国模型的 api 价格却只有美国的十分之一到三十五分之一,像啊, gbt 五点四或者是 cloud 四,它的每百万的 token 啊,定价多少呢?差不多是在十四到十六美金。千万 是多少呢?一美金多一点, kimi 二点五不到两美金也是一一美金左右。 dbc v 三点二的版本更低,比一美金还要再低, 然后中国西北绿电还无限量的供应,然后美国那边还要等二到三年,像微软啊,谷歌 mate 他 们还要去买,小心核反应堆,还要再重启三 d 核电站,还要这么搞,还要等三到五年才能并网,所以这个时候我们的优势就出来了, 那我们接下来讲就是这个算力,是怎么样去出海啊?怎么样去出海呢?有两种方式,其实很简单,第一个就是通过,呃,一个满钻叫 openroot 啊,这个 openroot 呢实际上就是给全球开发者去调用 api 的 一个网站。根据二零二六年二月的一个真实数据呢,中国模型一周掉用量已经首次超过美国了。 二月十六到二月二十二日,中国有五点一六万亿的头肯,而美国只有二点七万亿,而且在这个网站上有百分之四十七点一七的美国开发者,中国开发者只有百分之六,所以就中国人几乎不用这个网站。会用这个网站去调用 a p i 的 全部都是外国 人,而且在高峰期呢,甚至还导致国内的服务器因为海外流量过多而宕机啊,所以就通过这个去出海。还有一个其实就非常非常简单了,就是那些 a i a 选项的直接调用, 就是前阵子有个特别有一次性就是 curso 啊, curso 就是 啊,我们用来编程的一个 ai 代理吧,是国外的一个 ai 代理,然后他就说啊,我发布了一个新的模型,叫 cursor 二啊,结果这个模型被扒出来是调用了我们的 timi 二点五,然后来进行预算的。所以这边就是你看到看到没有,其实用外国的 ai, ai 其实就是一个壳,你调用谁的 api 这个很重要,结果我们中国的 api 便宜,它就调用中国的 api, 对吧?还有像 openkey 这种调用巨量 token 的 这种软件也是啊,你你做,不管是中国开发者也好,还是国外的开发者也好,都希望谁不会希望便宜点呢?那实际上每次调用我们中国 token, 最后用到的都是我们中国西部的这个零 廉价的绿点,所以你看,这么一来的话,实际上就是非常神奇,就是莫名其妙就是从店然后变成了 ai 计算,再从 ai 计算它打包好变成 token, 然后 token 以后大家又有这个需求,这个市场上的这个需求对 token 需求又特别的强烈,大家用 ai 智能体要用龙虾什么的,要养虾,结果这个 店就莫名其妙变的 token, 然后就卖出去了。所以这就形成了真正的所谓的 token 出海,算力出海这一整个逻辑。就这么壁画, 二零二六年的政府工作报告里面呢,首次就帮算电协同列为了新基建的核心工程啊,而且有一个指标就是国家算力枢纽节点新建数据中心的绿电占比必须不低于百分之八十啊。 那么这个的生意绝对是未来一个大风,那有没有一些风险呢?实际上就是,对啊,美国的一个政策风险,一个就是对于我们的算力封锁,但是如果说 他继续把我们的算力芯片封锁了,不让我们的这些数据中心用更好的芯片或者国产芯片,没有办法迎头赶上的话,那实际上就是我们有电,那算力跟不上模型的智商就会被慢慢拉开差距,那大家就不会用我们的 a p i, 那 这个算力就出不了口了,这个很好理解吧?还有个就是政策主导的,如果说西方的国家出一个政策,说 把头肯变成一种出口的东西,把它正式定型一种出口的货物,然后这在这上面搞什么关税站或者是壁垒的话,那么这也会是一个风险。 我们现在讲完全部的东西以后,我们再回头来讲讲它这个 mac mini 这个算力集取啊,实际上就是摆明了就是杀猪盘了。因为其实很简单一句话,就是说我要做算力出口的话, 那么我的这些 ai 的 厂商本身就有数据中心,那数据中心产生的这些算力是最直接最源头的,相当于是源头厂家,对吧?那么国外的用户要使用这些 偷看,那我肯定找源头厂家去买,何必绕一个去你这个私人搭建的这种库房里面去买,何况你也调用的是源头厂家的 epi, 所以 没有必要绕这一步来这么去走嘛,这是他的一个,这是我认为他的一个核心的矛盾点, 所以你如果去买这种东西呢?你这套路其实就很明显了,就让你交电费,交库房费,然后交设备使用费,你交了一堆钱,一进去以后,然后人家可能通过什么方式慢慢返给你,然后再 说白了就是和传销一样吗?在忽悠更多人进来,然后再慢慢返钱就变又变成一个资金游戏了。所以这个我觉得明眼人一眼就能看透,这个咱们就不需要过多的去赘述了。那么普通人如何参与这个算力出海的这个这个事情呢?这背后有这种商业机会,我们可以参与吗?第一个呢,实际上就是坦转这个宏观的红利了,那说白了就是像一些 好企、优秀的企业的股股票啊,或者一些好的 e、 t、 f 啊,我们可以去参与,对吧?然后第二个就是用 ai 去提升我们的生产力啊, ai 提升怎么提升呢?像我现在做的视频,我就大量借助这个 ai 圈来帮我完成这些视频, 所以这个就是提升我们生产力,按以前的话,我肯定一个人做不了这么长的视频。而第三个就是 ai 带来的一些就业机会啊,就业机会像 it 啊,算法工程师啊、 a 卷开发提示词工程师啊,这些大量的就业机会,当然它肯定也会导致非常多人被失业,被淘汰掉,这肯定也是无法避免的。 所以就是我现在发现这个 ai 风口到来了以后,会引发非常多人的错失焦虑综合症,然后一些人在这个错失焦虑综合症下就瞎投资,然后就给了这些杀猪盘又一个新的可以包装吸引人的东西,然后又有很多人会踩进去。我想告诉大家,千万别脑子一热去干这种事情啊,千万别脑子一热去干这种事情,咱们普通人 跟着这个风口慢慢的去走,然后跟着喝喝口汤就行了,一口气吃不成胖子,别着急啊。好,那么以上是本期视频的全部内容,欢迎收看。 t c f m 我是 柱子哥,让我们下期再见。

我引用了两亿的免费托盘来养龙虾,前两天发的关于免费养龙虾就是 open globe 的 视频火了,呃,很多朋友私信我,我也帮很多朋友解决问题。那今天答应大家出一个完整的视频教程,我是用的 mac os 的 系统,然后呢,接下来是以 mac 教学为准,而 windows 的 话呢,可能大家可以问问豆包或 tipisk, 一 步一步截图问它都能解决的。 那可以看到这里我是消耗的是零元,对,然后我之前的 a p i k, 嗯,网络速度也慢了,不好意思啊。对,你看到也是零元的状态。嗯,然后我们进入到那个 opencode 的 官方网站,对,它其实是 opencode 点 ai, 然后有个文档,上面呢,其实会有一些安装的说明, 因为我已经装过了。看,这是我的小龙虾的 space 状态,可以看到它是正常的一个状态。所以说我们这边重新带大家走一下那个新手引导的一个配置,然后其实我只要复制这个命令,然后打开终端里面, 然后输入这样一个重置的新数引导,那就相当于会进入到配置过程,它是麦上的终端,终端 app 搜索一下就可以了。然后我们重新进入引导,快速引导,然后更,这里因为我之前配置过,所以说会有之前的配置,那我们这里选更新配置, 到这一步呢,就会选 model, 就 模型的供应商啊,它这里有 open ai, 有 mini max, 也有谷歌,那我们是 open rota, 免费的模型就选 open rota, 这里有,然后大家可以看到有这样,这里有这样多非常多的模型,而我们的模型是什么呢?就是, 呃,叫做那个 jason 星辰就 stay fun 三 new flash 就 free。 呃,它其实是这样一个模型 id, 哎,复制一下。对,它现在在那个,呃小龙虾的榜单上,哇 啊,可以看到,就是已经消耗了一点五四五 t 的 图片,免费的。对,就是排名了很多天的第一。那么回到刚刚的配置界面, 呃,这里呢,其实是可以通过那个方向键就上下左右的上下来控制,因为它太很多,就是你一个一个找到肯定能找到的。但是呢,它这里提供了一个就是输入,对,输入 enter model。 那 我们这里选进去之后呢,把之前的这里删掉,因为要留一个 open road 的 默认的前缀,所以说我们这里,哎,对,输入进去, 这样就 ok 了。呃,我之前设置这里到这个环节呢,是设置那个我们用哪个 i m 去控制去连接?我们这里先跳过,然后这里的搜索呢?其实也可以先跳过, 然后跳过之后呢?就是,是不是那个呃,调调成近的,那我们这里选择一直跳过,然后这里是 no, 对, no, no, 这些是一些具体的一些设像,我们选 no, 但有需要的话呢,大家可以呃,就说 自己去设置。那我们只是今天先讲模型的过程,那我们选重启。哎,对,然后这个,呃,小龙虾的服务就在重启,我们刚刚重新走了一遍新手的设置。那,那我们现在等待它重启。对, 好,它就这里重启成功了,然后那我选择打开网页, open the web y, 哎,它就会自动打开网页,对,就刚刚的网页重置了,然后我们这里输入一个 states, 相当于就是可以看到它当前的一个状态, 然后返回一个当前的状态。 哦,好像说错了秘密了,应该是 s t a u t s? 不好意思 啊,反正没关系,它好像识别了。嗯,对,可以看到我这里配置的是基于新成的模型,因为 p i k 呢,其实我之前已经配置过了,所以说它,呃,不会让我重新再配置。 对,这里显示一些中文。对,然后这里的模型的配置呢?其实我们就回到 openroot 点 ai 这个网站,然后呢去创建一个新的 a p i k, 比如说我们今天是来自于抖音,嗯,点抖音,然后这里的信用额度限制呢,我们选个零点一美金,相当于其实花钱的话也 最多就七毛钱。然后这个额度的重置呢,我们不用不用管它永久都是零点一美金,就是七八毛钱,过期时间一年。那相当于我们就会有一个 a 四值大小按钮。很多朋友也都问我怎么复制, 哎,这就复制好了。这个 k 呢,其实是是在刚刚的配置环境里面,选模型的环境里面,它会让你有一步调配置的,因为我刚是已经配过了。然后呢,如果是你已经是正常的模型了,其实本质上你已经配过小龙虾的话,你在这里输,输 k 给他,然后输模型给他,然后把那个 open source 这个网站输给他,其实也能切换,正如正如我刚上一个视频讲的, 还有就是说,呃,我们在那个呃 open note 的 这个网站呢,它不光,它不光有很多的那个付费模型,它其实是我们在 mod 这里去输的话,你输 free, 它除了接下来三点五,还有很多免费的模型, 对,包括之前的智普的四点五的 air 是 免费的。英文答,有很多模型其实都是免费的,包括 open air、 gpt。 其实也有免费的模型开源的,包括千问。啊,这个千问三呢?其实是,这是一个专门用来编程的一个模型,也是免费的。其实有很多,大家其实可以是一个个去找。对, 然后技能商店的话呢?呃,腾讯最近两天出了一个,呃,中国版的 skill hub, 呃,它本质上呢,其实是在可融 hub 技术上呢,其实做了一个技巧战,呃,这个其实也不错的,然后,呃,你也可以去那个可融 hub 去下载一些技能。呃,腾讯这个专为中国用户呢,它会有个榜单, 你相当于就是你看这里有一段话,看见没有,相当于就复制下来。呃,发给小龙虾,对,他就会去检查,帮你安装这个技能商店,然后你就可以和小龙虾对话,去在里面找更多技能去安装了。我是之前已经安装过了。对,那我们今天就这样。

token 是 什么?今天这期视频,我们把 token 彻底拆开来讲,先搞清楚它有几种以及各自是什么含义,再深入讲 ai 大 模型里的 token 到底是怎么运作的,以及如何帮你省钱。 token 这个词在计算机领域至少有两种完全不同的含义,很多人混淆就是因为没有先区分清楚。第一种语言 token language token 也叫 nlp token, 这是 ai 大 模型处理语言时的最小单位,是模型理解和生成文字的基本碎片, 我们今天重点讲的就是这种。第二种,身份验证 token, off token, 比如 access token、 jwt token, 这是一串加密字母串,用来证明你的身份和权限,相当于服务器给你颁发的数字门禁卡。两者唯一的共同点就是都叫 token, 这就好比苹果手机和苹果水果名字一样, 但完全是两个领域的东西。以后遇到 token 这个词,先看上下文,在 ai 和大模型的语境里,它是语言单位, 在登录 api 健全的语境里,它是身份凭证。搞清楚这个分类,你在这两个领域都不会再被绕晕了。接下来我们重点来讲语言 token。 在 ai 领域,特别是大语言模型 l l m, 像 chat、 gpt、 cloud、 gemina 一 类的系统里, token 是 模型看懂和写出语言的最小单位,它不是密码或凭证,它是 ai 内部真正处理文字的基本快,是模型理解和生成语言的原材料。 通俗的讲, token 就 像乐高积木,我们写一句话给 ai, 看起来是一个完整的句子,但 ai 不 会像我们一样理解整个句子,它会把文本拆成一个个小块及 token, 这些小块可以是一个完整的词,一部分词,甚至是一个符号或标点,每一块就是一个 token。 模型不是按人类的语法去理解,而是按这些 token 一 步步分析和预测下一个最可能出现的 token。 为什么要这样做?因为 ai 模型内部只能处理数字,不能直接看懂文字。先把文字拆成 token, 然后把每个 token 转换成一个数字 id, 再把这些数字送进模型进行计算和预测,这样模型才能理解上下文并生成回答。在实际使用中, token 还有两个非常重要的作用, 第一,它决定了 ai 能处理的内容范围大模型对话时有一个上下文窗口,就是说模型一次最多能看到多少个 token, 如果超过了这个限制,最早的 token 会被丢掉,这会影响模型理解整个对话。第二,它关系到成本和计费。 很多 ai 服务是按 token 计费的,包括你发送的输入 token 和模型返回的输出 token。 token 越多,成本越高。 那如何节省 token? 在 ai 模型使用中, token 是 直接影响成本和效率的核心指标,控制好 token 的 使用,能省钱又提升速度。下面是最有效的几个方法,帮你在实际使用时节省 token 消耗。一、精简输入内容,别把所有背景都丢进 prompt, 只把真正相关的信息留给模型,让每个 token 都有价值。缩短指令,去掉庸俗描述,可以显著降低 token 消耗。 精简上下文相当于少用 token。 二、限制输出长度,提前设定回答长度上限,避免生成宕长啰嗦内容,这样模型不会自动扩展答案,从而减少输出 token 数。 三、做缓存与复用对于重复查询或者经常用到的内容,可以先将结果缓存起来,后续类似请求直接从缓存返回,不再重新调用模型,从而节省大量输入和输出 token。 四、选对模型分阶段处理任务, 不同模型价格差异巨大。把大任务拆成两步走,先用小模型或简化逻辑生成摘药或关键内容,然后再用更强模型处理简化后的内容, 这样整体消耗的 token 更少。五、只保留重要上下文历史对话长篇内容会不断重复发送给模型,快速占满 token 上线,所以只保留与当前任务直接相关的上下文就够了,其他历史可以省略或者按需摘药再传入。 最后总结一下, token 在 计算机里有两种完全不同的含义,语言 token 是 ai 处理文字的最小单位。身份验证 token 是 证明身份的加密凭证,两者只是名字相同,本质毫无关联。在 ai 大 模型的世界里,语言 token 是 一切的基础。 ai 不是 看单词,而是看 token, 它靠一串串 token 来理解世界作判断,生成结果。这就像我们拼积木一样,模型把语言拆成一块块小积木,然后用它们组合出回答。理解了 token, 你 就掌握了和 ai 打交道的底层语言。无论是调用 api、 优化提示词,还是控制成本,都离不开这个基础概念。 token 是 ai 世界里的基本单位,是 ai 语言理解与生成的起点。好了,本期的分享就到这里,如果觉得这期内容对你有帮助,记得点赞、关注和收藏,我们下期见!

token 经济第二期产业趋势拆解与景气度深度排序?哈喽大家好,我是温之言,上期发完 token 经济那期,我后台直接炸了好多私信我一条一条都看完了。你们追着问的最多的三个问题,今天我一次性给你们唠明白,全是上期没讲过的干货,一句废话没有, 先跟大家把丑话说在前面。咱所有内容纯纯是 ai 产业逻辑科普,不构成任何投资建议,不推任何标地,就是跟我的老粉们掏心窝子分享,千万别瞎跟风,市场有风险,投资一定要谨慎。首先先给你们说透接下来三年 token 经济三个板上钉钉的大趋势, 这直接决定了钱先往哪流,谁能先吃到肉。第一个趋势,别再盯着 c 端那点零散流量了, 真正的大头全在 b 端企业级需求上。上期我跟你们说过,现在推理 token 占比超百分之九十七,但你们没看懂的是,这里面的结构正在天翻地覆的变。之前都是咱们普通人聊个天写个文案,用那点 token 一 次也就几百几千,花不了几个钱,还不稳定。 但今年开年以来,企业端的 token 用量每个月都在以百分之十二的速度疯涨,你们知道啥概念不?银行的智能投研系统,一天就能用掉十亿次 token, 工厂的智能调度系统,一个月的用量是咱们普通人的上百万倍。中国信通院的公开数据摆着呢,企业客户的客单价是个人用户的七百二十倍,续费率高达百分之九十二, 这才是真真正正的长期基本盘。说白了,能扎进企业里做深度服务的,远比做 c 端娱乐的稳太多了。第二个趋势,别再盯着按次收费那点小钱了,真正的天花板是价值分成。之前 token 就 跟流量包似的,用多少花多少钱,卷价格卷的要死。 但今年开始,头部玩家已经换玩法了,给银行做风控,不按用量收钱了,按帮银行省下来的坏账拿分成 给工厂做调度,按帮工厂多赚的钱,拿年度分红抽肯不再是个计费的工具,成了 ai 给实体产业赋能的价值标尺。这一下,市场空间直接从万亿级干到了十万亿级,再也不用卷低价了。 说白了,能给客户真真切切赚到钱省到钱的,远比那些只会低价卖算力的赚得多,还站得稳。第三个趋势,国产化。这是接下来最大的红利。咱们国家的 token 调用量早就超过美国了,但之前很多核心环节还得靠海外的供应链。 但今年不一样了,政策明明白白说了,政务、金融、能源,再到安全管控,全要自己的。 现在已经二十三个省市把这个事列进了今年的数字经济重点任务。接下来三年,国产化就是最大的风口。说白了,有自己核心技术的远比靠海外供应链的吃的红利多,订单也稳。接下来我直接给你们排好了 产业链五个环节,谁先吃肉谁只能喝汤。就看四个核心点订单稳不稳,政策给不给力,天花板高不高?国产化空间大不大?第一,最稳最香的就是 token 生产端,也就是算力芯片和智算机房。为啥?因为它吃的是双重红利, 不仅有 token 需求增长的增量订单,还有国产化替代,直接把海外厂商的份额拿过来,增量加存量,别的环节根本比不了。第二,接下来爆发最快的就是 token 安全合规,上期我把它放最后,这期必须给它提上来。为啥? 因为没有合规,你连入场的资格都没有。国家数据局三月刚发的新规,六月底之前所有上线的 ai 服务必须有 token 全流程追溯审计的能力,不然直接下线,这是硬红线,没得商量。 全行业都要在三个月内装合规系统,这需求是集中爆发的,兑现速度最快。第三,确定性拉满的就是传输调度端光模块和算力网络,这个不靠国内的需求波动,靠的是全球技术迭代的死节奏。现在全球都在从八零零 g 往一点六 t 光模块升级, 今年二季度北美大厂就要大规模招标,咱们国内厂商的全球试战率超百分之八十,订单基本稳了,再加上国内算力网络下半年也要启动双重订单托底,稳得很。第四, 天花板最高,但分化最大的就是应用和出海,这个能不能成全看有没有落地场景和合规资质。国内能扎进企业做深度服务的远比做 c 端泛流量的强, 出海有合规牌照的远比倒腾零散算力的强,做得好的一飞冲天,做不好的直接被淘汰。第五,需求稳,但壁垒最低的就是数据预处理,也就是 ai 数据加工需求一直在涨,但门槛不高,竞争太散, 只有能做视频、三 d 这些复杂数据的才能跑出来,纯做文本的没啥核心竞争力。接下来给你们三个照妖镜,一眼就能分清哪些公司是真有东西,哪些是纯蹭热点割韭菜的, 全是中性避坑标准,不针对任何公司。第一,看他有没有硬资质。这个行业很多环节都是有政策门槛的,出海要有跨境通讯牌照,合规要有官方认证,政务项目要有国产化资质,有资质才有资格拿订单, 没资质吹的再天花乱坠都是白扯。第二,看他有没有实锤的合作,譬如真有业务的,都会在官方渠道明明白白说清楚跟谁合作,订单规模,合作周期, 蹭热点的只会说跟头部大模型有合作,半个具体信息都不敢说,全是空话。第三,看他的研发投没投对地方。真做这个业务的,年报里明明白白写着这个业务投了多少钱,多少人,有多少专利, 蹭热点的研发跟这个业务半毛钱关系没有,就靠嘴说一分钱都没投。最后跟你们掏心窝子说四个行业风险,这些风险到底会坑到谁,你们一定要记牢,别踩坑。第一, 技术迭代,坑的是低端算力厂商大模型优化只会减少没用的 token 消耗,反而更需要高端算力和高速光模块,那些没技术只会低价卖,低端算力的迟早被淘汰。 第二,价格战,坑的是同质化的 c 端应用,价格战全卷。在 c 端娱乐场景里, b 端的定价一直稳得很,那些没核心场景只会靠低价拉用户的利润只会越卷越薄。第三,监管收紧,坑的是没合规资质的, 这个行业监管只会越来越严,合规是唯一的入场券,有资质的会越做越大,没资质的直接被清出去。第四,需求不急,预期坑的是纯炒概念的,哪怕行业增速慢了,有真订单真客户的公司照样能稳得住, 那些没业务纯靠炒概念的,只会直接跌回原形。最后再跟大家说一句心里话, 咱做这个内容从来不是为了教谁赚快钱,就是想跟我的粉丝们一起,把市场的底层逻辑摸透,避开坑,抓住真正的确定性机会。我是温之言,每天给你们分享最接地气,没有半句废话的财经干货,关注我,咱们一起在复杂的市场里稳稳往前走,不踩坑,不迷路。

这两天网友说我的透更纯度不够,我去检查了一下,确实是纯度有问题,然后我就换了高纯度的透更,终于解决了部分问题。现在发现这些厂商一个比一个坏,每次写的是 百分百纯度的头肯,就后面发现一去检查百分之七十纯度的,百分之五十纯度的。各位在用 ai 工具的时候,是不是也遇到了这一些黑心厂家,打着打着四点六的版本,给的是你是三点五的版本, 要么就打着五点四的版本,给的是五点一的版本。无论是做中转的还是做原厂的,出来混的没一个讲实话的,这也是正常的,毕竟这种头梗消耗量这么大, 在里面给你偷偷的降点质,降点版本你也不清楚,希望有关部门出一个消费者维权的,他要是给我们降版本,偷偷的降质,要制裁一下, 这个是不是间接的也算是诈骗,把我们忽悠的这么惨。说好的这五点四的,给的是五点零的,说好的是四点六的,给的是三点五的, 估计以后这个方面也会有相关的惩罚机制,总不能一直让我们当大冤种对不对?怪不得我的代码经常出各种新的 bug, 原来是这么回事。你们有没有买到那种掺水的透坑,评论区打出来我们都看看是哪一些黑心厂商做的事情。

token 是 如何被计算出来的?之前呢,我们用了五期视频全面讲解了 token 到底是什么,全网呢有一百万播放,感谢大家的催更。这次呢,我们继续出发探讨 token 到底是如何被算出来的,最后的结果一定会让你发出原来如此的惊叹。 在模型推理阶段呢,完整流程一共分为七步。第一步呢,用户输入提示词,比如我们输入用苹果手机拍苹果这句话。第二步呢,模型将这些提示词切分成一个个托管,并得到每个托管的数字 id, 切分的依据呢,就是这个文件中的词表。 第三步,模型根据这节 token id, 从词切入矩阵中取出对应的词切入向量。比如手机的 token id 是 八五四九,对应的切入向量是这样的,苹果也是这样的。一大堆数字,为了方便演示呢,我们只取前四个数字作为演示势例。 到这里,一句话就被转为了多个数字向量。熟悉限限待数的朋友可能已经意识到,我们可以用一个矩阵来表示这句话,模型呢,也可以通过矩阵运算实现并行计算。第四步呢,模行为每个 token 呢添加位置编码,标记它们的先后顺序,否则模型无法区分你爱我还是我爱你。 位置编码的公式呢,不同模型会略有差异,具体公式呢,这次我们就不展开了,实际的效果就是在没有添加位置编码的时候,这两个不同位置的苹果向量都是一样的。添加了位置编码后呢,两个苹果的向量就变得不一样了,这样模型就能区分不同位置的 token。 第五步,模型读取这些添加了位置编码的向量,通过多层 transform 计算,最终得到了一个理想的预期向量。具体的算法细节呢,可以查看我之前发的 transform 模型讲解视频。 第六步模型呢,将这个理想向量与词表中所有的拓客向量进行比对,计算它们之间的相似度。 这就好比相亲亲友智囊团先定义出理想型男友的标准,身高一八零,有房有车、大城市户口等等,但实际情况是,没有人能百分之百符合这个条件。模型呢,就拿这个标准作为打分依据,对每个后选男嘉宾呢进行打分,也就是计算相似度。 第七步模型,根据计算出来的相似度,取出其中一个后选托肯作为模型。本次的输出 分越高,被选中的概率呢就越大,得分越低呢,选中的概率就越低。这也就是之前说的模型输出具有一定的随机性,不同时间问同样的问题,回答可能会不同。比如这个例子中,候选词照片十逗号,得分相对比较高,都有可能被选到。 最后,模型把选中的 token 拼接到已有的输入中,重复第三步到第七步,一个接一个的输出后续内容,直到模型输出结束符,这才停止输出,结束整个回答。所以你看,模型不是凭空生成内容,而是在做选择题,而每一次的落笔都是一次十万分之一的遇见。

为啥跟 ai 聊天要按 talking 收费,而不是按字数算?那 talking 又是什么?那今天就把这个 ai 底层逻辑给你讲透,再也不怕被算计收费绕晕!我们先要理解一个概念,人和人的交流是用文字,对吧? 但是计算机呢?它看不懂文字,它只会处理数字。如果计算机想要和人去进行交流,那么就需要一个媒体去进行转换,那这个媒体就叫做 talking。 talking 是 大语言模型文本处理的基本单位,在 ai 大 模型词汇表中都有唯一的序号。比如我先说句话啊, 我想去旅游,放假就出发,我想旅游,放假出发,这四个词啊,就会算作四个 talking, 去就也被算作两个 talking, 那 中间这个标点符号呢,也是一个 talking, 所以 这句话就是七个 talking。 哎,那我们就发现了,并不是一个文字啊,就等于一个 talking 的, 有时候是一个,有时候是两个啊,那像这种,你我他 吃喝玩,哎,这种是算作一个 talking 的, 但是一些高频词汇,你们我们吃饭喝水, 这也是算作一个 talking 呢,我想就是一个经常出现的词组,那这样输出的时候呢,就通过一次计算就可以了,对吧?不用先算,我再算,想分两次去计算了,节约了推理的时间和成本,从而提高了计算的效率。为啥要这么分呢?其实核心就是省算力,提效率,两步变一步。 就像西红柿炒鸡蛋这道菜一样,吃的人多了, ai 就 可以提前预制食材了,不然每次还得先准备西红柿,再准备鸡蛋,哎,就这意思。当然也有特殊情况,生僻字、拼接字一般是要占两个窍门的,毕竟用的少,没必要提前预制,能减少系统的负担。 还有英语因为有动词复述形态这些,那 talking 的 拆分规则也会不一样。咱们国内的 ai 大 模型,比如说 deepsea, 相比于拆 gpt, 对 中文的 talking 会处理的更精准,这毕竟是母语嘛,所以理解的可能会更到位。那 ai 到底是如何用 talking 去工作的? 很简单,你输入的每一句话都会被先拆成 talking, 转换成对应的数字序号。那 ai 读懂了这些数字后呢?再逐一转换成新的 talking, 再输出成文字。这就是为啥看 ai 回答,它是像打字一样逐行显示的。其实啊,它就是在逐个深层 talking。 所以 咱们用 ai 大 模型的 api 收费是按输入和输出的 talking 总数去进行计算的,可不是按实际文字数去计算呢,这一点在算账时候呀,可要分清楚。 ai 还有很多看似抽象的小概念,其实扒开底层啊,都很简单。你们还想了解啥?评论区直接打出来,带你轻松看懂每一个 ai 风口。

大家好,我是你们的科普达人,今天咱们来聊聊个人开发者怎么低成本入门 tocan 生产。很多朋友可能觉得 ai 模型部署门槛高,成本贵,其实只要配置得当,咱们普通人也能玩转。先说说硬件怎么选, 如果预算在一万五以内,想先试试水,那 rtx 四零九零 d 或者四零九零显卡是首选。二十四 gb 或十三 b 的 模型,搭配 i 五或 r 五的 cpu、 三十二 gb 内存, e t b 的 nvme 固态硬盘,再加上一千瓦的电源和一套散热好的机箱,总价大概一万一到一万六就能稳定运行。模型 托肯吞吐量能到每秒两百到五百个,日常测试和小流量使用完全够了。要是预算能到两到四万,想搞小批量生产,那就可以考虑上双卡四零九零 b, 或者直接上 a 一 零零,内存加到六十四 gb, 这样吞吐量能到每秒八百到两千个,接下小 b 客户的需求也没问题。硬件搞定了,软件和模型怎么选呢?模型方面,七 b 规模的 q 文二七 b instruct 或者 lama 三七 b 就 很适合入门,显存占用小,延迟低, 聊天、写文案、生成代码都在行。十三 b 的 模型像 q d r 杠一三 b instruct, 复杂推理和行业知识库的应用效果更好。这里有个小技巧,优先用 i n t 四量画板,显存占用能降百分之七十五, 速度还能提升两到三倍,效果几乎没损失,性价比超高。推理框架推荐 v l l m 开源免费,吞吐量比原声 pie torch 高十倍以上,个人开发者首选。部署工具方面, fast api 或 flask 用来封装 api 接口, prometheus 和 grafana 监控性能, e l k stack 记录日记这些都是免费又好用的工具。大家最关心的成本问题来了,按三年折旧算,入门级硬件每月折旧大概四百一十七元。电费方面,单卡四零九零币,满载运行 每月电费差不多一百九十四元,总成本约六百一十一元。按每天产出两千五百九十二万 token 算,单位 token 成本约零点零零零零二三六元,也就是二点三六分。每千 token 对 比 openai 的 gpt 三点五 turbo, 成本只有它的四分之一,价格优势很明显,想快速上手, 一天内就能跑通,先装 uber 二二点零四 lts 系统,然后安装 cuda 十二点一 cuda n, 再装 python 三点一零和 vl l m。 接着用命令启动模型服务, 最后用 qiro 测试一下生成 token, 看看返回结果里的 usage 词段,统计 token 数就搞定了。最后给大家几个进阶优化建议,用 v l l m 的 批量请求功能提升吞吐量,尝试模型蒸馏,降低显存占用和延,使用 radis 做请求队列应对高流量 在整个数据库记录用户 token 消耗,实现自动计费。这样一套下来,你的 token 生产系统就既高效又经济了。怎么样,是不是觉得个人搞 token 生产没那么难?你最想先用这个系统来生成什么内容呢?评论区告诉我吧!

今天的中国找到了一种更隐形的出口方式,你可能以为中国出海卖的最多的还是手机、汽车这样的实体商品,但今天这种更隐形的出口方式可以实现了,电没出国,芯片没出国,可全世界都在为中国的电力买单,听着有点离谱对吧?但这门生意甚至还有了一个更流行的名字, 叫 token 出海。哈喽,大家好,这里是客观分享的青州,那到底什么是 token 出海呢?他对我们普通人的生活或者投资有没有什么启发呢?先别被 token 这个词吓到,如果用最简单的话来举例,你就把它理解成 ai 时代的计量单位。平时你问一句豆包,豆包回答一句 背后其实都在烧 token。 如果你让 ai 做一个任务,比如找资料,写文案,改表格,那烧的需要花费的 token 就 更多。讲清楚什么是 token, 那 token 出海是什么呢?一句话概括的话,把中国的算力和电力以 token 的 形式卖给海外用户, 具体怎么运行呢?我给大家举一个例子,海外的某个用户在使用中国大模型公司服务的时候,点一下运行,那它背后其实是通过海底光缆进到中国的数据中心。中国的 g、 p、 u 开始快速计算,并且开始消耗电量,得到结果之后,再通过海底光缆回到他们的电脑上,然后他们按掉用量结算,刷卡付费。 在这次交易里,直接卖出去的不是电,也不是芯片,卖出去的其实就是 token。 那 到这你就明白了, token 出海其实就是算力和电力变现的服务出口。那这个 token 出口的涨幅大概是什么样的呢?根据 openroot 全球模型掉用量的最新数据,目前中国厂商的大模型几乎包揽了全球掉用量的前五名。 什么?大家都在用中国的 token 呢?中国的核心优势是什么?答案其实就是性价比。在足够可用的前提下,中国大模型的单位智能的成本更低。我把这个具体的优势拆解为三层,大家就可以听懂了。第一层,成本,端电和算力。 token 的 成本大头不是灵感,是电费,是 gpu 时间,是散热的运维。 你越到后面越会发现, ai 竞争说到底会回到一个应约束,谁的电更便宜,谁就更有定价权。第二层,供给端交付能力,出海不是点点鼠标就完事的,因为你要卖的是稳定的 a p i 服务, 数据库的吞吐延迟、可用性、计费、容灾,能把这一整套做到便宜、稳定、不断供才是硬实力。第三层,需求端 agent 把便宜放大了。以前大家用 ai 式聊天,问一句答一句,现在越来越多是让 ai 自己干活, 流程越长,工具越多,回合越多,消耗就越大。当你从偶尔问问变成让他一天干八小时,你最在意的就不是他会不会写京剧,而是每完成一个任务要花多少钱 时候,谁更便宜,谁就会被更大规模的调用。所以你看,大家选择中国 token, 本质上就是因为中国的 token 服务单位智能成本更低,加上能规模化稳定的交付。最后再说说 token 的 出现对普通人究竟意味着什么? openclo 出现后, ai 会从回答问题变成完成任务, 因为回答问题是一次性的,而完成任务是一条长长的流水线。流水线也意味着 token 消耗更大,单位成本更敏感,所以低成本 token 的 优势只会被进一步放大。那这跟大家有什么关系?对普通人来说,你会明显感到 ai 从偶尔用一下变成可能未来每天都在用,做简历、做 ppt、 整理资料、做表格等等。 以前你觉得贵或者觉得麻烦,但当成本和安全性得到解决,你会发现你相当于按月雇了好多随叫随到的数字助理。最后总结一句, tucker 出海,就是把中国的算力和电力优势变成全球可结算、可规模交付的智能服务。这里是客观分享的,青州,我们主页还有很多有趣的干货视频分析,我们下期见。

最近,一个看起来有点无聊的话题突然上了热搜,托肯被正式翻译成了词源,于是争论开始了。有人觉得不如叫志源,有人坚持保留英文。但我想说的是,我们真正应该讨论的不是他该叫什么,而是他到底是什么,以及他为什么值得有一个中文名字。 因为一个东西一旦被翻译,往往意味着他已经进入日常,需要被更多人理解。而词源这个译名背后,藏着一个正在发生却很少有人意识到的变化, 那就是获取知识。搞明白问题这件事正在从免费变成收费。过去二十年,大家已经习惯获取知识、理解。一件事是免费的,你在搜索引擎里输入问题,不需要付钱,你在网上查资料、看教程、找答案也不需要付钱。 大多数时候,唯一付出的只是时间。久而久之,我们习惯认为,只要愿意花时间,世界上的大部分知识都可以免费获得。但这件事其实非常反常,因为在互联网出现之前,获取知识一直是昂贵的。你想知道一个专业问题,需要买书、订报纸、参加课程,或者向专家付费咨询。 信息的传播依赖纸张运输和印刷。人类获取理解的过程本身伴随着真实的物理成本。互联网改变的不是知识本身,而是成本结构。他把信息复制的成本降到了接近零, 一篇文章写出来之后,可以被无限复制给无数人阅读。而服务器多承载一个读者,增加的成本几乎可以忽略不计。这时候,互联网公司就遇到一个问题,既然用户不付钱,公司靠什么活? 答案是广告。但广告并不是简单的卖广告位,而是一种非常巧妙的交换。当你刷内容时,你没有向平台付钱,但平台会记录你的停留时间,你点击了什么内容,你在哪些内容前停留更久,甚至你可能对什么商品产生兴趣。 这些数据本身并不直接赚钱,他们真正的作用是帮助平台判断你此刻的注意力集中在哪里,而广告主购买的其实不是广告位,而是被注意到的概率。 在信息过剩的时代,内容并不稀缺,真正稀缺的是人愿意停下来看的时间。一个人一天只有有限的清醒时长,当注意力被某段内容占据时,其他信息就自动被排除在外。 因此,对广告主来说,比把广告放出来更重要的是,把广告放到一个已经被吸引住的人面前。这也是为什么广告愿意为用户的停留时间付费。 因为注意力本质上是一种稀缺资源。于是互联网逐渐形成了一套隐形逻辑,获得信息免费,理解知识免费,但用户的注意力有价格。互联网平台真正售卖的不是内容本身,而是用户在内容上停留的时间。这就是为什么各大平台不断优化推荐算法,让你停留更久。 停留时间越长,可以展示的广告越多,平台获得的收入也就越高。这个模式运行了二十多年,我们已经习以为常,但进入 ai 时代,这套商业模式就走不通了。很多人把 ai 当成更聪明的搜索引擎,这其实是误解, 因为搜索引擎是帮你找到别人已经写好的答案,而 ai 是 现场生成一个答案。这两件事的成本完全不同。当你搜索一个问题时,服务器只是从数据库里调出已经存在的网页,就像从书架上拿一本已经印好的书。但当你问 ai 一个问题时,并没有一本现成的书在那里等你,答案是在那一刻被计算出来的。 为了生成那段回答,数据中心里的 gpu 需要进行大量的计算,而不是简单的读取。计算就意味着要消耗电力。 这听起来是一个很小的变化,但它改变了互联网的规则,那就是获取信息,理解知识,不再免费。每一次搞清楚一件事,开始产生真实成本。当使用行为本身不断产生新增成本时,企业就必须知道自己究竟消耗了多少能源。 是 token 这种新的计量方式出现了。很多技术解释会说, token 是 语言的最小单位,比如一个字或几个字母,但真正重要的不是语言,而是计量。它记录的是 ai 为了理解你的问题并生成回答,进行了多少计算。问题越复杂,推理越深,计算的就越多, 消耗的 token 就 越多。所以 token 本质上不是文本单位,而是计算消耗的计量方式。现在有些 ai 公司开始按 token 收费,而不是按账号收费,就是因为他们发现思考,开始产生编辑成本。在传统互联网产品里,多一个用户几乎不会显著增加成本。 但 ai 不 同,每一次使用都像启动一台机器,用户越多,用户用的越久,机器运行越久,成本几乎限行增长。这意味着互联网第一次不再只是信息产业,而开始变成一种计算产业, 商业逻辑也会因此改变。互联网时代,平台公司希望你停留更久,因为注意力可以卖广告。 ai 时代,公司必须计算你消耗了多少透支,如果不计量,每增长一个用户,公司就多亏一份钱。当成本与思考直接绑定,一个更深的变化出现了。 过去公司扩张规模通常意味着要增加人数,员工越多,组织的生产能力就越强,同时成本也随之上升。 但在 ai 出现之后,这种关系开始松动。一家只有十人的公司,如果持续使用 ai 写代码、分析数据生成方案,消耗的计算资源可能反而超过一家百人公司。公司的成本第一次不再与雇佣了多少人绑定,而与进行了多少认知活动绑定。 思考也因此从一种难以衡量的行为,变成可以被记录、优化和预算的生产投入。当思考和认知活动需要被生产时,那么世界就必须为这种生产建立基础设施。 于是,一些原本看起来分散的行业变化开始在同一时间发生。科技公司不再只强调用户规模,而是疯狂建设数据中心,因为真正限制 ai 能力的不再是信息,而是计算产物。 能源企业开始与科技公司签订长期供电协议,因为稳定电力正在成为智能系统持续运行的前提。芯片产业的重要性迅速上升,则因为所有认知活动最终都必须通过计算硬件完成。这 些变化表面分散,本质却指向同一件事,人类正在为思考为生产认知能力建立新的工业体系。 在这个体系中,一条新的生产链逐渐清晰。电力被输送进数据中心,芯片执行,计算过程生成 token, token 转化为 ai 服务,供人类使用。 这意味着 ai 不 再只是软件行业的一次升级,而更像一次新的工业化过程。能源影响计算成本,计算成本影响 token 价格,而 token 价格决定 ai 能否大规模普及。 当一种资源同时成为成本单位、能力单位和使用单位时,它就不再只是技术指标,而会变成整个系统运行的基础尺度。工业时代,用千瓦时衡量电力,用桶衡量石油。而在 ai 时代,越来越多的智能活动开始被换算为 token, 于是世界开始围绕 tokacon 重新组织,就像工业时代曾围绕电力与石油重新组织一样。很多人说 tokacon 是 ai 时代的石油,这个比喻有启发,但并不完全准确,因为石油是自然资源,越用越少,而 tokacon 不 会枯竭。 tokacon 真正的特点不是稀缺,而是可扩张,只要计算能力提升,它的供给就能增长。当 tokacon 成本下降后,人类会进行更多思考,对 tokacon 的 使用会持续放量,就像搜索引擎出现后,让问题数量爆炸式增长,而不是减少问题。 ai 也是一样,当分析一份报告只需要一分钟,人们就会分析十份。当写代码变得容易,软件数量反而暴涨,需求不会被满足,只会被放大。 所以 token 不 像资源,更像基础设施,就像电一样。当年电力刚出现时,人们以为只是替代煤气灯,但后来制造业、汽车、商场等几乎所有行业都依赖电力运行。未来, token 会逐渐渗透进社会的各个角落,计算将像电力一样,成为看不见却无处不在的基础能力。 当一种能力真正成为基础设施,人们往往不再讨论它是什么技术,它叫什么,而只关心如何使用它。 ai 正在走向这一刻。 也许再过一段时间,人们不会再争论 token 翻译的准不准确,却会自然地计算一次分析需要多少成本,一次提问消耗多少额度。那时候,获取知识、搞明白一件事,将不再只是找到信息, 而是一种需要被生产、被计量,也需要被分配的资源。就像今天的人,不会讨论电力这个词是否翻译准确,却每天在电费账单上直观的感受到它的存在一样。语言的变化往往晚于现实一步。 词源的出现并没有创造新的时代,他只是给已经到来的新时代补上了一个名字而已。点赞关注不迷路!

为什么说大圆模型处理的是 token 而不是文字?为什么大圆模型都有一部叫做 embedding? 我 还听说 rug 中也有一个 embedding, 它们两个是一回事吗?今天我们就聊聊 token 和 embedding。 在和大语言模型聊天的时候,我们都是直接输入文字的,但是实际上,现在基本所有的 ai 模型却要先通过一个叫做 tokenizer 的 东西把文字转化成 token。 而所谓 token 呢,其实就是一个一个代表字词的编号。 那为什么要进行这一步呢?直接处理文字不好吗?原因很简单,为了提高效率,因为在电脑之中,文字都是一个字母一个字母存储的,比如说 apple 计算机存储的并不是 apple 这个词,而是 a、 p、 p、 l、 e 五个离散的字母。 如果用离散的字母来训练模型,那就先要求模型从 a、 p、 p、 l、 e 这五个字母中识别出它是苹果, 然后再用苹果这个概念进行下一步处理。不是说不行,但在算力有限的情况下,这样做效率太低了。所以说,人们就给大模型做了一个词典, 用数字来代表单词,比如说数字一就代表 apple, 数字二就代表 banana, 三代表 pear, 而一、二、三这些数字就是所谓的 token。 当然了, token 和单词也不是一一严格对应的, 有时候一个单词可能会被拆分成多个 token, 比如说 oldest 这个单词就可能被拆分成一个代表 old 的 token 和一个代表最高级 e、 s、 t 的 token。 这样做的好处是可以帮助大模型认识一些没有见过的词,比如说 goodest 这个词本身是不存在的,但是却可以被拆解成 good 和 e s t, 大 模型也就理解了。这样一来,大模型处理的就不是单独的字母了,而是一二三这些代表某些单词或者单词片段的数字, 于是效率就高多了。而这些把文字转化成一二三四,又把一二三四转化回文字的程序就叫做 tokenizer。 现在比较常见的 tokenizer cool 有 open ai 的 tiktok 和谷歌的 word piece 等等等等。这些 tokenizer 的 内部实现原理都不尽相同,比如说 tiktok 使用的算法叫做 bpe, word piece 使用的算法就叫做 word piece, 但是它们的功能其实都是一样的,就是把字词转化成数字。一个 tokenizer 认识所有的 token 数量,叫做词表大小 vocab size。 tiktok 库中最小的词表,也就是 gpt 二的词表,只认识五万零二百五十七个 token。 因为词表太小,所以多数中文都是一个字对应一个 token, 甚至有些不常见的字要好几个 token 才能表示,很少会像英文那样直接把一个单词映射成一个 token。 这样一来,中文的处理效率自然就变得很低了,这也是 gpt 二对中文支持不好的原因之一。 而对中文支持更好的 gpt 四 o 不 仅模型本身变大了,它的 tiktok 词汇表也增大到了二十万,基本囊括了所有的中文单词,从根本上增加了中文的处理效率。 这里注意一下,转化 token 的 过程属于数据的预处理,这个过程本身并不是大模型的一部分,训练大模型的时候, token neither 本身是固定不变的。 好了,现在我们有了 tokenizer, 就 可以把任何文字转化成数字,并放入大模型进行计算了。 而大模型本身则可以近似的被看成一个超级复杂的连续函数。 token 就是 函数的输入,而函数的输出也就是大模型的回复。对大模型生成回复的完整流程感兴趣的同学可以参考这期视频, 从更加宏观的角度介绍 transformer 和大语言模型是如何工作的连接,我会放到视频简介之中。我们回到主题,这里的关键点是大模型是一个连续的函数,连续这个特性天然就决定了,如果输入的数值离得很近, 那输出的数值通常也会离得很近。还是因为算力有限,所以我们希望在有限的计算资源下,利用这个特点来增加训练的效率。比如说老王爱吃苹果,老王爱吃 apple, 老王爱吃 lingo, 它们都是同一个意思,所以我们期望模型输出的内容应该也是差不多的。老王爱吃,都是相同的文字,所以 token 肯定也是相同的。那么如果说苹果、 apple、 linggo 对 应的 token 本身也很相近的话, 那根据函数的连续性,模型天生就会输出比较相似的内容。如果我们能够利用这个特点,在训练的时候就可以省下不少的算力。 但是 token 本身只是一个数字,也就是一个维度,我们在设计 tokenizer 的 时候,当然可以让苹果、 apple、 linggo 对 应的 token 离得比较近。那香蕉呢? 它和苹果并不是一个东西,但又都是水果,又都是中文,似乎应该离中文的苹果是比较接近的。那香蕉和 apple 呢?它们既不是同一个东西,又不是同一种语言, 似乎应该离得又比较远。但是香蕉离 apple 远了,离苹果也就远了。可以看到,只使用一个数字,我们根本没有办法表达这种既近又远的关系。那么解决方法是什么呢? 既然一个数不行,那我们就多用几个数呗。于是,人们也不管 token 到底是多少了,他们把 token 又做了一次转化,变成了一个多维的向量。 项链中的每个数字都代表了 token 的 某些特征,比如说第一个数代表语言,第二个数代表形状,第三个数代表颜色,第四个数代表类别等等等等。于是,苹果可能就是中文加圆的,加红的、加水果一一一一。 日文因为和中文比较接近,零勾可能就是二一一一。 apple 则是三一一一。而香蕉呢,就是中文加长的,加黄的,加水果,一二二一。 这样一来,我们就可以很容易地表达出香蕉、苹果、 apple 这些既近又远的关系了。而这个把 token 转化成一串数字的过程,就叫做 embedding。 在 g p d 二 x l 模型之中, embedding 后的向量包含了一千六百个数字,而 deep seek r 一 更是高达了七千一百六十八个数字。 至于 jimmy 三和 gpt 五这些顶尖的模型,它们虽然没有公布架构,但猜测它们的 embedding 长度应该已经上万了。维度越高,代表模型看世界的角度也就越细腻。一千六百个维度,就是从一千六百个不同的方面去描述一个词。 enabiding 中数字的多少,通常被称为 d model 或者 n embed。 所以 tokenizer 是 把用户文字转化成数字,也就是 token, 而 embedding 是 把 token 转化成像量。这两个东西的功能虽然看起来是比较相似的,但它们有一个本质上的不同。当人们设计 tokenizer 的 时候, 我们可以写程序统计单词的频率,甚至麻烦一点手工设计也未尝不可。但是 embedding 就 不一样了, embedding 后的向量包含了几千几万个维度,然后还要为每一个 token 合理地分配这些维度对应的数字, 这显然不是一个手工可以完成的任务。没错, embedding 模块是训练出来的, embedding 本身就是大圆模型的一部分,我们以 transformer 模型的基础架构为例, embedding 就是 图中的这一部分。 再说一遍, embedding 本身就是大语言模型的一部分,那么既然 embedding 是 训练出来的, embedding 向量中每个数字代表的意义也就不是人工设计的了。每个数字的含义人类暂时还没有办法解释, 甚至就连是不是一个数字代表一个特征,还是多个数字组合起来代表一个特征,人类也都还没有弄清楚。 训练的时候,模型会自动识别出如何划分特征,并且为每一个 token 自动分配特征对应的数字。我们不知道这些数字背后代表着什么,我们唯一知道的就是这么做效果还不错,我想这也是 ai 的 魅力之一吧。 好了,说的这么玄乎,那么 embedding 到底是如何实现的呢?这里我们假设词汇表的大小 o cap size 是 五万零二百五十七,而 embedding 的 维度呢,是一千六百。那我们就先把每一个 token 都写成一个长度是五千零二百五十七的向量, 向量中几乎所有的数字都是零,只有 token 对 应的那个数字是一。这种编码的方式叫做 onehot 编码, 于是 token 本身就变成了一个向量,而 embedding 的 实线就是一个最最普通的限性变化层 linear, 它的输入是五万零二百五十七位向量,也就是经过 onehot 编码后的 token, 它的输出是一千零六百位向量,也就是 token embedding 后的结果。对腺性层 linear 不 太了解的同学,这里只要知道腺性层是最最普通的神经网络的基本结构就好了,它没有任何的特殊之处, 想要深入了解细节的同学则可以参考我这一期的视频连接,我会放到视频简介之中。虽然在工程上, embedding 的 实现可能并不是简单的腺性层, 比如说还可以通过查表或者稀疏矩阵来实现,不过这些都属于优化的范畴了,它们本质上的数学原理是一样的。 最后一个问题, embedding 之后,原本是一个数字的 token 变成了一千六百个数字的向量模型,自己理解起来是方便了,但是人类却理解不了了, 所以大多数大模型在最后会增加另外一个向量。这其实就相当于 embedding 层的逆操作, 比如说 transformer, 中间这一大坨东西,处理的都是 embedding 本身,最后输出的还是 embedding, 而最后的这个现象层则是把输出的 embedding 转化回人类方便理解的 token。 对 ai 比较了解的朋友听到这里可能就要掀桌子了,老王老王,你说的这些都不对,我学过 raag, raag 里的 embedding 明明是把一整段话转化成一个向量, 不是像你这样一个 token 一个 token 的 转化的。没错,你说的没错, rug 的 embedding 和大语言模型的 embedding 确实是不一样的。 rug embedding 的 作用是把一整段话转化成一个概括大意的向量,而大语言模型 embedding 的 作用是把 token 中内涵的特征打散成一个向量, 但是它们二者之间其实又是有关系的。你还记得 transformer 模型的最后一步做的是什么吗? 通过一个限性层把模型输出的 embedding 转化回方便人类理解的 token, 而这个没有经过转化的模型输出的 embedding, 它基本就是 rug 的 embedding 了, 而刚刚我们介绍的 token embedding 则在模型最下边的位置。但是这里我要特别澄清一句,并不是说我们训练一次模型就能同时得到 token embedding 和 rug embedding。 oken, embedding 是 训练大语言模型的一部分,而想得到 rug embedding 则是要单独训练的,只是它们二者的模型结构大致相同。 当然了,就和大语言模型最后把 embedding 转化为 token 一 样, rug embedding 的 模型最后一般也还会做一些后续的处理,比如说词化什么的。 最后还有一点小区别,和大语言模型不同, rag 的 tension 结构一般不会进行 mask, 也就是所谓的 encode only 架构,或者说 burt 模型。 如果对它们的细节感兴趣的同学,依然还是可以参考这一期视频。当然了,上面其实都是一些小修小补,它们二者最大的不同来自于训练方式的不同。 在训练大语言模型的时候,我们期望的输出是文字接龙游戏中的下一个 token, 所以 在训练的时候,我们提供的是文字接龙的素材。 输入老王训练模型输出爱输入老王爱训练模型输出吃输入老王爱吃训练模型输出苹果。 而在训练 rug embedding 的 时候,我们的目的就不是文字接龙了,而是概括文字的含义,所以训练的素材就变成了一对一对的文本片段。假如我想训练老王爱吃苹果的 embedding, 我 们就应该输入老王爱吃苹果本身 和另外一个和老王爱吃苹果意思相关的句子,比如说小王爱吃香蕉,由于这两个句子都是描述某人爱吃什么的片段,所以我们在训练的时候就应该让模型输出的 embedding 差距足够的小, 在这里,小王爱吃香蕉也被叫做正样本。而假如输入变成了老王爱吃苹果和老李找到了女朋友,考虑到老王既不是老李,老王也不可能找到女朋友, 所以这两段文字可以说是毫无关联,所以我们在训练的时候就应该让模型输出的 embedding 差距足够的大。在这里,老李找到了女朋友也被叫做负样本,而这种训练方式被叫做 contrastive learning 对 比学习。 于是,明明是同一种架构,换了一套训练方式,就得到了完全不一样的功能。 正像我们每个人的底层架构其实都是一样的,但正因为不同的经历,才有了此刻正在屏幕前学习 ai 底层原理的你,也有了躲在屏幕后面看着你们流言鼓励而偷笑的我, 亦或是那个在世界的某个角落,正在为生活而努力的他。这些截然不同的人生轨迹,训练出了世界上独一无二的我们。如果你坚持看到了这里,那大概我们的训练都挺好的。 这里是程序员老王,很高兴在万维的向量空间中与你产生交集,我们下期再见。本期视频的文字版已经上传到了知识星球里面,除了视频的内容之外,我每周还会定期更新原创的 ai 和 python 文章。非常感谢你能看到这里。