我在二零二二到二零二三的时候,靠 ai 中转站赚了大概有三十万左右,不要觉得这很多,这很多巨头笔我简直就是个屁。但是在今年年初的时候,我退出了这个生意啊。退出的逻辑也很简单,就是因为这个东西它不赚钱了。 不赚钱的底层逻辑是因为 openai 和 arslabik 这些大厂都开始收紧了它的风控,尤其是今年年初啊,只要检测到批量注册的痕迹,呃,或者说 ip 或者账号归属对不上,直接就跟你一锅端了。那 cloud 那 边更离谱啊。如果你经常用 cloud code 你 就知道, 我可能昨天刚开的会员,今天就被封了,你不知道该怎么规避这些东西。就三月下旬开始啊, cloud code 基本上就是一个集体重要的情况, 因为 osrapp 现在对第三方的模块就是 ip 跳跃零容忍的态度了。就你用住宅的 ip 还好,但是只要你短时间从一个 ip 跳到另一个 ip, 那 么系统直接就是秒封你的账号。所以那些低价的中转站隔三差五就炸,就是封号成本直接就翻倍了,补上没两天,然后又挂了。我年初退出的那一波正好就是赶上了。 这是我以前囤的一个共享池子,卡号就一夜之间挂了七八成啊,客户那边用着用着直接就是锁死了,然后要我退钱补号解释, 嗯,但是如果你要说补货的成本呢?以前几毛钱一个?现在干净的住宅加上那个接马的平台,成本直接飙升到了几块钱,而且还得挑纯净的节点,不然你当天就会死。就简单来说,这这门生意,二零二六年这个中本站生意已经不是赚不赚的问题了,而是能不能活下去的问题。 就以前你可以躺的时候捡,现在你天天得盯着那个风控的日制换 ip 尺子,然后养号,而且你的补货特别容易,吃的一干二净,容易被骂。 但现在回头看 ai 中转这行,从二零二三到二零二五算是一个黄金期,到二零二五年底就已经开始难搞了,但二零二六基本上已经搞不了了。就就聪明的你可能会问, 就是,哎,我感觉这个生意其实是最近才火起来的,他最近确实火,但是火的不是中转站本身,而是卖中转的机会就是很多。现在他已经不靠透根赚钱了,他们改成靠代理费赚钱, 他们会在闲鱼上先给你发放一堆嗯,日入几千啊,月入几万的一些那些虚假的盈利截图,告诉你这是 ai 时代最容易上手的赚钱项目。但是你仔细想想,那些截图和教程本身就是这门生意的一部分。 当你卖透坑赚不到钱的时候,他们发现了一个更赚钱的方法,就是我不去卖透坑,我去卖做这门生意的机会,他们 开始招代理,然后你交几千块的加盟费,我们就给你账号,教程、话术,然后再教你去发展下线。他会明确的告诉你们,我只提取你所要的抽成的百分之二十三十,有的甚至会提取百分之五十,但是你是可以赚钱的,但其实你只是这条食物链上最新的一环, 交的那几千块才是他们真正的利润来源, token 只是一个幌子,代理费才是核心。就到了这个时候,生意开始逐步的降级了,一开始卖的是真实的产品, 有真正的用户在用,后来产品不好卖了,就开始卖,做生意的机会,客户从使用者变成了想快速赚钱的人。再后来连代理都懒得招了,那我们就继续往下层次代理, 你每往下走一层,你这个生意就离真实的需求远一步,离收购就更近一步。当一门生意开始主要靠招人而不是卖货而活着的时候,它就已经不是生意了。你想想,你教别人学会,你不就多了一个竞争对手吗?除非教别人本身比卖 token 更赚钱,那本质上其实还在收学费。 我讲我一个真实的案例,我之前在金融杂志出版室的一个同事啊,靠股票赚了很多钱,就我一直很好奇,就是 我就问他,你也不是金融出身,为什么你能在就是股市里拿到这么好的成绩呢?他说我上班这个杂志还是流量很大的,就是每次, 呃,大家会推荐一个很大的方向或者一个股票啊。这个杂志每次推荐的时候就是我准备要卖的时候,我一开始不懂啊,后来我越想越厉害,大家可以细品一下这个逻辑,大家懂了。为什么我不建议你去做中转站, 因为中转站卖的是规则造成的缺口,而不是你创造的价值。这个缺口是平台规则砸出来的,就是规则只要一变化,你的缺口就消失了,你的生意也跟着消失了。我不是反对赚快钱,而是你 至少得知道你自己是赚的是什么钱,是创造真实的价值,还是钻一个随时可能会被堵口堵死的窗口? 借用天道里的一句话,你得在狼嘴里有肉的时候下筷子,还得在衙门拔刀之前抽身。如果你在二四二五去做中转站这个生意,我 绝对要给你鼓掌,一定要去做这个生意很赚钱,但是现在衙门的筷头都已经伸过来了,狼都吃完肉了,你这个时候跑去蹭,你还想赚钱?那我觉得你是在扯淡。
粉丝6597获赞3.2万

tock 工厂代理是一项什么样的业务?对于看好 tock 工厂但是无法投建的小伙伴,这是一项低门槛的参与方式。如何参与呢?首先,你需要拿到折扣够低的 tock, 而折扣低基本上不是靠关系请客吃饭, 而需要你有足够大的消耗。预购和承诺,预购和承诺的包越大折扣越低,这点和传统的原服务是一样的。其次, 云服务商的 token 包也来自于 token 工厂,找云服务商采购 token 包不如直接给 token 工厂做代销。因此和我们一起代理 token 工厂有更加优势的源头价格,再次,销售到终端用户海外用户和招投标用户会有更加高的价格,而这些离不开 token。 聚合分发平台 不可能只靠线下,目前我们并没有找到好用且低门槛的平台,只好自己基于 new api 来做聚合分发平台并且开源。我虽然不想做这件事情,但是我觉得实在有需要。我们开源也是为了让生态更加开放。磁源经济是一项足够大的蓝海赛道,我们需要各种伙伴和我们一起共建生态。

最近有很多粉丝问我啊, talk 出海这个事情看普通人能不能做啊。花了两天时间调研了五家主流的 api 中转站,柏拉图 api、 eclipse api、 polo api、 四 s api。 今天我把账算给你听。 先说说收入段,中转站的核心收入就是差价啊,你从官方那里购买 api, 加价卖给用户,目前市场上的加价空间是多少? 便宜的模型,比如说 deepsea, 官方已经极低了啊,你能加的空间非常的有限。贵的模型,比如说 cloud opus, gpd, 五点四,官方价格很高,你可以加百分之二十到百分之五十, 但问题是用贵模型的用户少,用便宜模型的客户多,但利润薄啊。再说说成本呢,第一就是服务器, 你需要一台稳定的代理服务器,海外节点月租至少五百到两千块。第二个就是 key 池,不能只有一个 api key, 你 要维护几十上百个 key 做轮询,单个 key 被限流了自动切换,这些 key 本身就是成本。第三个就是宽带和 cdn。 第四个就是客服和运维啊,用户调用失败了,找你,官方接口改了,你要跟半夜服务器挂了,你得修毛利。百分之二十到百分之五十,听起来不错啊,但是扣完这些硬成本,竞争力可能只剩百分之五到百分之十五,除非你能做到很大的量。 但量大了,问题又来了,现在市面上超过五十家中转站在抢客户,价格已经卷到比官方便宜百分之八十八,你不降价没利润。而且最大的风险不是竞争,是官方政策。 郭鹏阳去年改了三次 key 的 并发规则,每次改完一批中转站直接歇业。所以结论是什么?普通人能做吗?能,技术门槛不高, keyhobby 有 现成的框架, 能赚钱吗?能,但不暴力是辛苦钱,适合什么人?懂?因为有技术底子,能接受薄利多销啊,并且心里清楚这是一个随时可能被掐的生意,不适合什么人呢?就那推特的截图就感觉能躺赚的人啊,你觉得这个生意值得做吗?

为什么最近都在推 codex 呢我狗都不看一眼的东西对不对。我还是好奇还是下了一下。然后你发现点问题啊他这个账号 啊这个这个 gmail 或者什么邮箱是不是可以批量跑注册啊这样贩子的话他去批量注册这个邮箱他就可以撸这个额度了 然后再搞一个好吃搞一个什么什么的插件在这所以他的很多人都在推这个扣袋子啊。其实好用吗我觉得没怎么用过。我觉得不一般。 我觉得一般啊然后今天我的那个恐龙 max 也是普通 想用的小伙伴们联系吧。啊可以测试这个官方原版那个纯写的这个模型呃然后的话呃不限量都是不限量没有什么费率限制啊你也不用掏坑焦虑 啊这这些模型都可以用包括这个 o p u s 四点六的这个一照上下门 直接就是通过这个二十倍的这个二十倍的这个这个这个这个 max 的 账号就是穿透出去的然后给了一个小伙伴用了刚刚反馈还挺好的反馈说不错 这是昨天发给他用的然后呃 这个酷还挺爽快的我打算给他便宜了很多然后唠了唠了一些。唠唠唠嗑挺好的质量什么的可以看一下后面后面应该我会我会我会裁剪一些视频放上去。就是说真正的质量是什么样的 啊。你去对比一下你之前用过的是什么什么什么什么垃圾产品哈哈哈。哎哎哪去了。 嗯阿总投降吧外面全是警察。行吧反正反馈是很好用的啊。我才不怕妹妹我转够三千万就收手。祝你后如轮转一百万利你还年轻三千万不够,三亿 三亿就一辈子不愁了,不过够不够看自己,如果到时候你觉得不想做了就过来找我 放小枪,阿总投降吧,外面全是警察,什么我才不怕妹妹我赚够三千万就收手,祝你后如轮转一百万 你还年轻三千万不够,三亿吧,三亿就应该不愁了,不过够不够要看自己,如果到时候觉得不想做了就过来找我一块钓钓鱼好保险。枪 阿祖投降吧,外面全是警察,什么我才不怕妹妹我赚够三千万就收手,祝你后路轮转一百万里 三亿就应该出手了,不过够不够看自己,如果到时候你觉得不想做了就过来找我一块钓钓鱼好放下枪, 阿祖投降吧,外面全是警察,什么我才不怕,妹妹我转够三千万就收手,祝你后如轮转一百万里 你还年轻三千万不够,三亿三亿就一辈子不抽了,不过够不够看自己,如果到时候你觉得不想做了就过来找我一块钓钓鱼好放下枪, 阿总投降吧,外面全是警察,什么我才不怕,妹妹我赚够三千万就收手,祝你后日轮转一本万利 你还年轻三千万不够,三亿三亿就一辈子不抽了,不过够不够看自己,如果到时候你觉得不想做了就过来找我一块钓钓鱼放下枪, 阿左投降吧,外面全是警察, 我才不怕,妹妹我赚够三千万就收手,祝你后如轮转一百万,利你还年轻三千万不够!

哈喽,大家好,我是 paper, 那 今天我们来说一下我们最常用的 token 本地模型和外部的模型该怎么样去使用?就是 token, token 是 什么呢?一方面它是有这个最小计算机处理文本单元, 另一方面它也是其他的,还有很多身份认证啊,指令串密密实都百度的话,你要使用在我们的 ai 大 模型中,你就记录这个最小文本处理单元就可以了。我们再来看这个本地模型去哪里找啊?一般的话,像这个最常见的开源社区 hackin face, 我们在这里面去找本地模型,我们登录进来,然后找到这个 browser two m 加 models, 或者说你直接在搜索栏中搜索对应的名称,像这个主页,它这个首页里已经有这些,比如说像这个 minimax 的 二点一,千万的三点三,还有一些各种各样的 模型, open i 的 gptos 啊,你可以或者说这个 kimi 二点五等等,你可以点击这里去我们要找的像一些文本到图片的模型, 就是 ai 绘画模型,还有像这个文本到视频的模型啊, text to video, 还有像这个文本到文本,也就是我们的语言模型,就像豆包,千文,这些都是语言模型,我们只要去搜一下这个 text generation 文本生成,我们就可以在这里看到有千文,三点五啊,还有各种各样的 emoji 三啊,各种各样的 mini max 等等啊,只要是你所熟悉大厂,那基本他发了都在这里面啊。你看这个 b 嘛, 这个币数越大,比如十七币,八十币,三十二币,一百九,十九币,甚至这个二十八币,或者说这个四币的,这肯定效果没有那么好,是吧?那因为达到六十七币,一二一百二十四币都很大, 这东西像这个 mini max, 二点五,二点二十九币啊,二百二十九币,这个更大,这个你要是下下来,你会发现 你可能你的电脑用不了啊,就是这么简单哈。 ok, 我 们再看这个像一些其他的开放的 a p i 怎么去使用?那这里我以这个 g m 举例啊,我们直接去找到 a p i k, 点一下就进入到这个页面了, 这个页面就是你的 a p i 密匙了,我们在这个项目管理 a p i key 中找到它,像这个已经有的 a p i, 你 用到别的地方可以去,这样子你也可以直接删除,我们再可以添加个新的 a p i, 比如说你这个 a p i, 你 要去用到自己的 call 啊,那么龙虾上我们就点击 call, 然后把它复制过来,然后粘到这个 call 里,你就给它充钱就可以了哈。 你还想还想要再用一个 a p i 去做别的项目,那比如说我这个叫这个 agent agent, 那 这个 a p i 呢?我们给它复制过来,去放到别别的调用的端口里给它充钱就可以了哈。 像这个 open a d b c 的 a p i 啊,页面也差不多哈,你可以在这里点击 create new c c 啊,你也可以在这里点一样的啊,这里 name 我 写 call 啊。这个 project 你 可以放到你的默认 project 里,不过一般只有一个啊,点击 quit 就 可以了哈, 配置完之后呢,一样的,你就给自己的套餐充钱就可以了。那这个 api 呢?它不同于你的和你的传统的大模型,你直接问它那种网页对答模型不一样的啊,因为 api 呢?它 是啊, api 它是实时计费的,就说你要是用的话,你可以用到很多层面上不同,不停去调用这个模型。而你的网页因为问答呢,只要你这个模型啊,只要你这个网页关了,你就用不了了,是吧?你要是想用它,你是不是得二十四小时数在电脑前啊?你在电脑前你才能用它,但 api 不 一样,你可以做成全自动化的东西, 这样子呢,它的费用就会很高了。所以说 a p i 是 单独收费的啊。 ok, 那 今天呢,学完这课,咱们这个玩龙虾啊,或者说玩什么都会更轻松一些哈。咱们就先到这里啊, ai 啊,一定要去关注这些啊,最基础的东西,如果说这些基础东西你都不知道,那你去你就很难玩得转这些东西哈。

大家好,我是你们的科普达人,今天咱们来聊聊个人开发者怎么低成本入门 tocan 生产。很多朋友可能觉得 ai 模型部署门槛高,成本贵,其实只要配置得当,咱们普通人也能玩转。先说说硬件怎么选, 如果预算在一万五以内,想先试试水,那 rtx 四零九零 d 或者四零九零显卡是首选。二十四 gb 或十三 b 的 模型,搭配 i 五或 r 五的 cpu、 三十二 gb 内存, e t b 的 nvme 固态硬盘,再加上一千瓦的电源和一套散热好的机箱,总价大概一万一到一万六就能稳定运行。模型 托肯吞吐量能到每秒两百到五百个,日常测试和小流量使用完全够了。要是预算能到两到四万,想搞小批量生产,那就可以考虑上双卡四零九零 b, 或者直接上 a 一 零零,内存加到六十四 gb, 这样吞吐量能到每秒八百到两千个,接下小 b 客户的需求也没问题。硬件搞定了,软件和模型怎么选呢?模型方面,七 b 规模的 q 文二七 b instruct 或者 lama 三七 b 就 很适合入门,显存占用小,延迟低, 聊天、写文案、生成代码都在行。十三 b 的 模型像 q d r 杠一三 b instruct, 复杂推理和行业知识库的应用效果更好。这里有个小技巧,优先用 i n t 四量画板,显存占用能降百分之七十五, 速度还能提升两到三倍,效果几乎没损失,性价比超高。推理框架推荐 v l l m 开源免费,吞吐量比原声 pie torch 高十倍以上,个人开发者首选。部署工具方面, fast api 或 flask 用来封装 api 接口, prometheus 和 grafana 监控性能, e l k stack 记录日记这些都是免费又好用的工具。大家最关心的成本问题来了,按三年折旧算,入门级硬件每月折旧大概四百一十七元。电费方面,单卡四零九零币,满载运行 每月电费差不多一百九十四元,总成本约六百一十一元。按每天产出两千五百九十二万 token 算,单位 token 成本约零点零零零零二三六元,也就是二点三六分。每千 token 对 比 openai 的 gpt 三点五 turbo, 成本只有它的四分之一,价格优势很明显,想快速上手, 一天内就能跑通,先装 uber 二二点零四 lts 系统,然后安装 cuda 十二点一 cuda n, 再装 python 三点一零和 vl l m。 接着用命令启动模型服务, 最后用 qiro 测试一下生成 token, 看看返回结果里的 usage 词段,统计 token 数就搞定了。最后给大家几个进阶优化建议,用 v l l m 的 批量请求功能提升吞吐量,尝试模型蒸馏,降低显存占用和延,使用 radis 做请求队列应对高流量 在整个数据库记录用户 token 消耗,实现自动计费。这样一套下来,你的 token 生产系统就既高效又经济了。怎么样,是不是觉得个人搞 token 生产没那么难?你最想先用这个系统来生成什么内容呢?评论区告诉我吧!

普通人怎么参与 token 这项业务呢?首先要明确一个逻辑啊,就是 token 生产的这件事情是大厂的专属赛道, 不管是算力 token 还是用模型去调用 token, 这个背后其实都需要很大的这个服务器集群 技术研发合规的这个资质,普通人既没有这个能力,也没有资金参与,强行入局的话呢,只会血本无归。所以普通人要做的就是避开生产端,你去聚焦这个流通端,做上下游之间的链接器,全职的时间呢?去代理 tokken 的 销售,或者搬运一些便宜的 tokken 的 a p i 呢?去海外的这个市场去销售。我给你们四条建议啊, 第一个就是千万不要去找那些不靠谱的算力设备平台去托管投资,投个几万几十万的跟你说,哎呀,能在一年到两年回本,三年到四年翻番的, 你们记住了啊,没有那么多天上能掉馅饼的事情给你。第二,如果你是云服务算力或者是 ai 相关行业的人,那么快速调整到托肯工厂的这个赛道, 这个赛道的发展速度其实是会很快的,现在 ai 的 建设进场速度呢,非常非常的高,你们需要提前在技术和岗位上进行调整,要等待时机。然后第三的话呢,如果你既非技术人员啊, 那么可以选择在电商平台或者分发平台进行 token 的 销售,但是它不能像卖房子那么简单,它有一定的学习的门槛啊,不过我认为在现在 ai 工具的驱动下,一般人都是可以学的会 学的懂,而且学的很快,并不是只有那些学大模型算法的那样子高不可攀。然后第四,如果你不想投资建设,也不想学技术,甚至不愿意去做这个 token 的 销售, 那么你就把 token 的 场景融入到你的工作当中,比如说用它去写一个 ppt, 用它去做个短视频啊,做文案就是能让 ai 做的,你自己就不要去再参与了。就是你再用豆包 deepstack 的 时候,其实就是在用别人免费给你的 token, 所以 这个也是普通人参与 token 的 工作方式之一。

toker 出海怎么出?四种模式,你会如何选择?一、传统模式,你通过电话邮件或者是聊天工具告诉海外的云服务商,你有一个定量的 toker 包,比如一千亿的千万 g l m 或者 cds 的 toker, 然后让海外的小伙伴线下去销售。但这个沟通商务时差,老外的效率、邮件方式和收付款都很低效,在做这件事情的时候未必划算,只适合大客户和大订单才能这么做。 二、聚合分发模式,把你的 token api 接入到大的聚合分发平台,它们根据稳定性和价格进行调用,低价就多调用一些,高价就少调用一些。 c 端统一一个 api 可接入的平台, 我们其实已经做好这些平台的接入要求,但在缓慢的排队中,接入的效率以及商务其实不太开放。 三、打包借通道的模式,这个需要你的 token 包很大很稳定,这几个小的 token 工厂的包 打包在一起,通过大厂和运营商进行一个合规的备案,出海到海外的大 b 端或者 c 端。四、 toc 模式,哪怕你只有几十亿的 token 价值在数千,你可以通过电商或者社交媒体进行少量的 toc 转售。 总结一下,托肯出海和磁源经济是一个三月份才开始进入大众视野的事情,还很早期受制于 openroot 的 不 open。 我 们团队决定做一个中国版的 openroot 是 有很多挑战,但我认为磁源经济和托肯需要一个更开放的生态和宅体。月十一号的广州线下沙龙,我们将发布这个中国版的 openroot。

toc 工厂里的 toc 是 怎么生产出来的?它和电一样可以存到电池里面吗?还是和手机流量一样不能存? 答案是后者。 toc 只有在你发送问题和回答问题的时候才会计算和产生。当你给 deepsea 发问题的时候,以及他回答你答案的时候, deepsea 这个大模型所在的那台 ai 服务器在高速的消耗电力来思考和回答你, 服务器会计算你的问题和答案一共用了多少个字和标点来进行收费。由于碳模型是英文优先,你的问题大部分时候翻译成了英文,再翻译成数字来计算消耗,通常的结果差不多是一个中文字消耗一点二到一点五个 token。 你 问问题的时候差不多是两块钱, 而他回答你的时候可能是八块钱,每一百万个字,因为回答是经过思考的,所以更贵。另外你用豆包和 dipstick, 为了回答的更好,他通常会把你之前的问题和答案和你新的问题一并发过去,就会消耗大量的图腾。 所以你会发现生产 token 这个说法其实是打比方。为了好理解,实际上 token 只是计量单位,就像手机的流量用了多少 k 多少兆一样,是黄仁勋给大家打的一个比喻。我们消耗 token 的 背后其实是在消费 ai 芯片的折旧数据中心的算力,基础设施的折旧 电力, ai 大 模型工程师的研发和数据中心维护工程师的巡检。一句话, token 是 计算单位,不是一件商品。

最近最火的新名词词源是 ai 时代真正的印钞厂,那词源也就是 token 工厂到底是怎么运行的呢?今天这个视频我准备分三步让大家彻底理解 token, 并且呢,开启属于你们的 token 工厂。 黄仁勋在 gtc 二零二六有一句话说的特别经典,他说未来的数据中心不是存文件的仓库,而是二十四小时不停产 token 的 智能工厂。什么意思呢?就是你往里面投电力,投数据,投模型,他就往外产出 token, 而你拥有的计算能力呢,就直接等于你的收入。这个呢就是 token 工厂的核心逻辑。 既然是工厂,咱们就从开工厂的第一步说起。看懂啊,怎么开这样一家印钞厂,就是先定产品,也就是选对 token 赛道,这一步呢,我觉得直接决定你以后赚多赚少。开工厂首先要知道自己生产什么, token 工厂也是一样的。 那第一种呢,就是通用 token, 就是 用千问啊, deepsea 这些开源大模型,生产门槛特别低,谁都能上手,价格呢也特别透明,大家都在买,那竞争呢,已经杀成红海了,这种铜壳呢,单价低,只要靠走量,利润特别薄。第二种就不一样了,就是做垂直高附加值的 token, 简单说呢,就是不贪多,你专门盯着一个行业做深做透,比如说专门做代码生成的头肯给程序员用,专门做影视动漫的头肯给设计师用。还有医疗诊断呀,工业设计这些领域,用专用的模型产出的头肯,价格呢是通用型的三到五倍,而且客户特别稳定,利润高,竞争对手也少。 这里呢,我给大家一个核心原则啊,就是千万不要去通用市场瞎选,选你自己有客户资源的垂直领域,比如说你懂医疗,你就要做设计领域的,这样呢才能稳稳赚钱 好产品呢。接下来就是第二步就是选设备,买对真正能干活的生产力工具。 tok 工厂的核心设备呢,就是 ai 服务器,大家一定要记住啊,不是训练机,而是推理机,这两者差别很大, 优先呢,要选这个推理型 gpu 服务器,比如说 h 两百、 rtx 五零、九零,这些机器的优势特别明显,单位时间里产出的 tok 呢,是训练机器的两到三倍,更适配现在大模型推理的刚需,能够帮你多赚钱省时间。 还有成本结构,我也给大家算一笔明白账, gpu 硬件呢,占百分之五十,电力加散热占百分之三十,运维加网络占百分之二十。 而且咱们国内呢,有个天然优势,就是电价和工程师,成本呢,只有美国的五分之一,这是咱们中国偷看工厂能够在全球立足的关键。当你设备选好了呢,第三步就是建工厂了,也就是搭建 a i d c。 建这个工厂呢,有几个核心要求缺一不可, 一个是要高密度电单机柜呢,要达到六十到八十千瓦,不然呢,带不动这么多 gpu。 一个呢是夜冷散热,传统的风冷呢,根本扛不住高密度 gpu 的 热量, 今年夜冷的渗透率呢,已经直接破百分之五十了,降温快,能效高,还能把蒜粒跑满,不浪费。选址也非常有讲究啊,像西部的这个绿电基地,比如青海、内蒙、宁夏,定价便宜,适合大规模量产,偷啃走量为主。东部的枢纽城市,比如说上海、深圳实验低,适合做低延迟高价值的偷啃业务, 比如说实施的 ai 客服啦,或者是在线设计啊,这样就能赚更多的溢价。工厂建好了,设备也装好了。第四步呢,就是装生产线,也就是做模型部署和调度优化,相当于给工厂装上了大脑。然后呢是智能调度系统,也叫 token hop, 作用呢就是统一管理所有的模型和服务器,相当于工厂的调度员。简单的任务,比如查天气啊,写短句就用小模型,便宜的算力。 复杂的任务呢,比如说写论文,做工业设计就用大模型,高算力,动态分配资源,不让 gpu 闲着,把控载率呢,压到百分之五以下,最大化利用每一分算力。生产线装好了呢,托肯也能稳定生产了。接下来第五步就是拓市场了, 把生产出来,托肯卖出去,变现赚钱。一台 h 两百服务器呢,成本大约是二百四十万,满负荷的运转,一年呢,能生产大约十到十五万亿的托肯,按现在的市场价,每 每百万十元的托管算呢,一年的收入就是一百到一百五十万,去掉电费啊,运维费啊,设备折旧费,静态回本时间大概是两到三年。如果做的是垂直高附加值的托,可能价格更高,回本时间呢,能压缩到一点,五年以内还是很可观的。 但是这个行业呢,看着暴利,风险也非常大,最关键的呢就是芯片迭代风险,大家看 h 一 百刚出来没多久, h 两百就来了,现在又有了 b 三百,一年以换代,硬件贬值特别快,如果你三年内回不了本,那这些服务器啊,就直接报废了,血本无归。所以呢,一定要控制好回本周期。

有一个电站能不能做 token 工厂?怎么做?我很明确的说可以,但也很明确的说,这个其实不是标准的工厂,更像是 token 做法,使用场景和销售是完全不一样的群体。 怎么做?一、你首先需要招商引资。电只占 token 工厂成本的一小部分,在推理场景下,电力消耗占比在百分之十左右,百分之九十的成本来自于设备的折旧和维护, 你卖多少店就倒算一下要招商多少。我们也确实看到了很多基金在准备这件事情和在找电站。二、你需要做一整套的规划,包括硬件的建设、软件的部署、销售和维护的方案,还有一个长期的团队,我们在做这件事情的过程中发现其实比想象的要难。三、销售。 现在主流的云服务厂商和分发平台对上家的 token 的 稳定性和并发性要求很高,普通 token 工厂或者说是做坊是无法接入的,只能选择小的分发平台或者电商平台合作。 总结一下,对于持有电站或者廉价电力的小伙伴来说, token 工厂能做,但也有难度。比较好的消息是,多个大型公司正在建立支持小型电站的 token 分 发平台和调度系统,这一进度将会很快,电站的小伙伴确实可以密切关注和做好准备。

大模型是怎么识别这些文字的?它要把这些所有的文字用一种切割的方式把它变成 token。 tokenization 文字的切割啊,也就是我们如何把我们看到的文字,不管你是中文还是英文,还是意大利文,泰文,最终大模型是怎么识别这些文字的? 它要把这些所有的文字用一种切割的方式把它变成 token。 而 token 这个词呢,我们现在用的非常多,特别是这个龙虾火了以后,大家都说烧 token, 对 吧?这个 token 就是 我们今天给大家介绍的这个 token, 所以 讲了今天的课程以后,大家就大家就知道了,到底这个每天我们烧的 token, 中国的 token 便宜,外国的 token 贵啊,它是为什么?到底是怎么回事?是怎么去计算的啊?大家就清楚了, 所以呢,我们为了让大家更好的去理解呢,呃呃,我们先来看一个实力吧,先来看一个实力啊,呃,假设海南麒麟瓜这五个字,那么在我们人去读他的时候,那就是五个字喽, 而这五个字,如果让大模型去看他的时候,他是什么样子呢?等于什么样的 token 呢?好,我们实际带入我们就会发现,海 他是一个头啃,南他是一个头啃,而麒麟瓜分别是每个都是三个头啃啊,这是一个很有意思的事情, 这实际上是由于编码的方式,像这两个常见字,我们就通常给他按照一个头啃,但是麒麟呢,他是比较这个生僻的一些字,我们就会成三个头啃,所以这五个汉字呢,我们最终是大模型把它变成了十一个头啃, 那这种 token 的 编码方式呢,实际上是我们的算法工程师给它人为去设定的,那不同的模型呢,其实它的 token 的 数量是不同 的啊,因为国外的模型呢,通常来讲它对汉字来说呢,它的 token 的 数量就比较多啊,但是我们国内自研的模型,比如说像 deepsea 啊 啊,有阿里千问啊这样的一些模型呢,他的头肯就不像这个海外的这些模型啊,数量那么多,他就会精简和压缩了更多的一些编码方式,因为我们国人所做的大模型,他更对中文有更好的一个理解, 那有了这些头肯以后呢,计算机才能更好的去识别啊。呃,我们举个例子而言, token 的 过程,把把文字变成 token 的 过程,就像厨师切食材的一个比喻, 我们厨师在炒菜之前呢,肯定要把食材的这个切成标准的大小啊,所以它就像 gpt 在 处理文字的时候呢,先把文字切成各种各样的一些碎片啊,但是碎片不一定是完整的字或者词,有的时候是字节这个层面的一些片段,实际上我们英文也是如此,比如说我们英文 想思想想这个词, think, 如果是 thinking 的 话,那么 think 可能是一个词,那后面 ing 这个后缀,那就变成另外的一个 token, 所以 中文和英文它大致的原理是一样的,总之就是要把这些文字切成小的片段啊。 那么我们实际在大模型眼镜和发展的一个过程中呢,我们可以看一下,就是大概这些大模型,它把我们的文字呢,用了多少个 token 啊? 我们以 g p d 三为例,这是二零二年,二零二零年发明的,他用了五万零二百五十七个头啃啊, 那么到了 g p d 四的时候,二零二三年他就用了,呃,十万零二百五十六个头啃啊。那如果是这个拉玛三,二零二四年他用了十二万八千个头啃,那么这些头啃他就已经能够含带了人类的所有的文字 啊,不管是什么用语言啊,全球各种各样的语言和文字他都包含了。呃,那么这个,这个,这是我们 这个整个大模型要在处理这些文字的时候所做的第一步。所以回到我们刚才的案例,我们那六百五十个字的法律文书,那大模型根据他 token 的 一个设定就把它变成了一千三百个 token 啊,对于 gpt 三这样的一个模型来说, 好,那有了 token 以后呢?那计算机能不能看懂呢?实际上还是不够的,他还是看不懂的。那计算机要做什么样的一件事情才能真正的去读懂这些 token 呢?我们要把它向量化。

token 是 如何被计算出来的?之前呢,我们用了五期视频全面讲解了 token 到底是什么,全网呢有一百万播放,感谢大家的催更。这次呢,我们继续出发探讨 token 到底是如何被算出来的,最后的结果一定会让你发出原来如此的惊叹。 在模型推理阶段呢,完整流程一共分为七步。第一步呢,用户输入提示词,比如我们输入用苹果手机拍苹果这句话。第二步呢,模型将这些提示词切分成一个个托管,并得到每个托管的数字 id, 切分的依据呢,就是这个文件中的词表。 第三步,模型根据这节 token id, 从词切入矩阵中取出对应的词切入向量。比如手机的 token id 是 八五四九,对应的切入向量是这样的,苹果也是这样的。一大堆数字,为了方便演示呢,我们只取前四个数字作为演示势例。 到这里,一句话就被转为了多个数字向量。熟悉限限待数的朋友可能已经意识到,我们可以用一个矩阵来表示这句话,模型呢,也可以通过矩阵运算实现并行计算。第四步呢,模行为每个 token 呢添加位置编码,标记它们的先后顺序,否则模型无法区分你爱我还是我爱你。 位置编码的公式呢,不同模型会略有差异,具体公式呢,这次我们就不展开了,实际的效果就是在没有添加位置编码的时候,这两个不同位置的苹果向量都是一样的。添加了位置编码后呢,两个苹果的向量就变得不一样了,这样模型就能区分不同位置的 token。 第五步,模型读取这些添加了位置编码的向量,通过多层 transform 计算,最终得到了一个理想的预期向量。具体的算法细节呢,可以查看我之前发的 transform 模型讲解视频。 第六步模型呢,将这个理想向量与词表中所有的拓客向量进行比对,计算它们之间的相似度。 这就好比相亲亲友智囊团先定义出理想型男友的标准,身高一八零,有房有车、大城市户口等等,但实际情况是,没有人能百分之百符合这个条件。模型呢,就拿这个标准作为打分依据,对每个后选男嘉宾呢进行打分,也就是计算相似度。 第七步模型,根据计算出来的相似度,取出其中一个后选托肯作为模型。本次的输出 分越高,被选中的概率呢就越大,得分越低呢,选中的概率就越低。这也就是之前说的模型输出具有一定的随机性,不同时间问同样的问题,回答可能会不同。比如这个例子中,候选词照片十逗号,得分相对比较高,都有可能被选到。 最后,模型把选中的 token 拼接到已有的输入中,重复第三步到第七步,一个接一个的输出后续内容,直到模型输出结束符,这才停止输出,结束整个回答。所以你看,模型不是凭空生成内容,而是在做选择题,而每一次的落笔都是一次十万分之一的遇见。