现在这个 token 工厂的生意非常火,那么去生产 token 需要什么东西呢?其实就是像这种 gpu 算力,现在很多机房都开始建设了,很多用的型号,像这种 a 一 百, 这种是 h 一 百, h 两百,目前比较火的就是 h 两百这个型号,那么它的参数是怎么样的?像这里演示的是一个八卡的 h 两百模组,由八张卡组成,单张卡的显存是一百四十一 g, 八张卡就是一千一百二十八 g, 八张卡加在一起,那 p 八的算力是三十二 p, 这什么意思呢?就是它在一秒钟的时间内能执行三点二亿亿次浮点计算,那这么大的算力用来生产 token 能生产多少呢?那经过我们的测试,跑这种大模型,比如说像 deep secret 六百七十一 b 的 模型,每秒钟能够生产五千个 token, 也就是说我们写一本几百万字的书,可能几分钟就会写完了,而且它在极端的情况下能够同时承担几千甚至上万个用户的同时请求。然后我们有 ph 两百正在测试交付,大家看一下测试的环境。
粉丝2154获赞3471

大家好,我是你们的科普达人,今天咱们来聊聊个人开发者怎么低成本入门 tocan 生产。很多朋友可能觉得 ai 模型部署门槛高,成本贵,其实只要配置得当,咱们普通人也能玩转。先说说硬件怎么选, 如果预算在一万五以内,想先试试水,那 rtx 四零九零 d 或者四零九零显卡是首选。二十四 gb 或十三 b 的 模型,搭配 i 五或 r 五的 cpu、 三十二 gb 内存, e t b 的 nvme 固态硬盘,再加上一千瓦的电源和一套散热好的机箱,总价大概一万一到一万六就能稳定运行。模型 托肯吞吐量能到每秒两百到五百个,日常测试和小流量使用完全够了。要是预算能到两到四万,想搞小批量生产,那就可以考虑上双卡四零九零 b, 或者直接上 a 一 零零,内存加到六十四 gb, 这样吞吐量能到每秒八百到两千个,接下小 b 客户的需求也没问题。硬件搞定了,软件和模型怎么选呢?模型方面,七 b 规模的 q 文二七 b instruct 或者 lama 三七 b 就 很适合入门,显存占用小,延迟低, 聊天、写文案、生成代码都在行。十三 b 的 模型像 q d r 杠一三 b instruct, 复杂推理和行业知识库的应用效果更好。这里有个小技巧,优先用 i n t 四量画板,显存占用能降百分之七十五, 速度还能提升两到三倍,效果几乎没损失,性价比超高。推理框架推荐 v l l m 开源免费,吞吐量比原声 pie torch 高十倍以上,个人开发者首选。部署工具方面, fast api 或 flask 用来封装 api 接口, prometheus 和 grafana 监控性能, e l k stack 记录日记这些都是免费又好用的工具。大家最关心的成本问题来了,按三年折旧算,入门级硬件每月折旧大概四百一十七元。电费方面,单卡四零九零币,满载运行 每月电费差不多一百九十四元,总成本约六百一十一元。按每天产出两千五百九十二万 token 算,单位 token 成本约零点零零零零二三六元,也就是二点三六分。每千 token 对 比 openai 的 gpt 三点五 turbo, 成本只有它的四分之一,价格优势很明显,想快速上手, 一天内就能跑通,先装 uber 二二点零四 lts 系统,然后安装 cuda 十二点一 cuda n, 再装 python 三点一零和 vl l m。 接着用命令启动模型服务, 最后用 qiro 测试一下生成 token, 看看返回结果里的 usage 词段,统计 token 数就搞定了。最后给大家几个进阶优化建议,用 v l l m 的 批量请求功能提升吞吐量,尝试模型蒸馏,降低显存占用和延,使用 radis 做请求队列应对高流量 在整个数据库记录用户 token 消耗,实现自动计费。这样一套下来,你的 token 生产系统就既高效又经济了。怎么样,是不是觉得个人搞 token 生产没那么难?你最想先用这个系统来生成什么内容呢?评论区告诉我吧!

r x 四零九零能跑大模型吗?实测告诉你它的显足有二十四 g, 现在加载七十 b 模型试试,实测推理速度大约每秒十五个 token, 推理速度每秒生产的十五个 token 基本可以满足个人需求。消费级显卡确实能跑大模型,对比专业卡速度有 h 一 百的百分之三十,但是成本只有它的十分之一。适用场景, ai 助手图像生成代码补全, 局限是眼存不太够,需要进行量化压缩,精度有轻微损失。但是四零九零性价比极高,确实是个人开发者的优选项。

最近偷看的概念很火,因为大模型生产偷看未来可能是一个计算标准,那么什么东西才能生产?偷看?这就是算力,像这个是 a 一 百的八卡总机, 这个是 h 两百的,以及后面的 h 一 百、 h 八百、 a 八百等等。那么这些算力到底运行什么?大模型每秒钟能跑多少?偷看,关注我,我们后面每一个都会测给大家看。

ai 疯狂消耗 token, 英伟达股价大涨,偷看什么老爸, token 是 啥玩意?咋跟英伟达还有关系呢?因为如果说啊, token 是 ai 大 语言模型的口粮的话,英伟达卖的显卡就相当于是炒口粮的锅呀。你还记得小时候你是怎么学习认字的吗? 就一笔一画,开始一个字一个字的学呀。那你看啊,这几个字你认识吗?这些肯定都是生僻字啊,我一个字都不认识啊。那要是换成这样,你认识吗? 嘿,你把它放到词组里,我就认识了呀。这些词组啊,就可以理解为 token, 人老不可能记住每一个字,为了效率啊,大脑就会把常见的组合当做一个整体去记。 ai 啊,也是同样的道理。所以一个 token 可能是一个字,也可能是两个字或四个字啊。比如武汉市长江大桥,武 武汉市长江大桥是一种 token 组合,武汉市长江大桥也可以是另一种 token 组合。那这一个外国人来了也学不会,那 ai 怎么学会的呀?关键就在于, ai 不是 学习文字, 而是记住统计规律。 ai 根本不认识汉字英文,他只认识数字吧。数字?那我输入中文他咋懂的呀?因为有一部翻译的过程,你 输入一句话,先被分词器切成 token, 每个 token 啊,都会有一个对应的数字编码, ai 实际理解的就是这一串数字输出的时候, ai 同样是先输出数字编号,然后再把编号翻译成 token 输出给你。 那 ai 怎么知道这些编号之间的关系呢?靠海量训练, ai 学习过几千句人类文本,他记住了每个 token 后面接什么 token 的 概率是最高的,他把这些概率啊,全部都记录成了几千亿个权重的数据手册。这个手册就是所谓的大模型参数。 所以 ai 回答问题是,一个字儿一个字儿蹦啊蹦得快,就相当于查自己的速度快啊。这难道不是 cpu 的 速度快吗?那跟显卡有什么关系呢?因为 ai 售出的过程啊,本质不是在查哪个字最合适,而是在翻阅啊之前学习过的每一页手册,给每一个后面可能出现的偷看打分。 每轮啊,只生产一个 token, 每一轮都要扫描手册的全部参数,并给全部字典打分。比如啊,第一个 token 是 点模型,会继续给所有下一个可能的 token 打分,出现赞的分数是九十八,鸡的分数是零点八,钱的分数是二十八,最后发现啊赞的分数最多,于是输出 点赞。那这不还是挨个打分吗?还是 cpu 更快啊。但 cpu 啊,像一个顶级的数学教授,他再快啊,也只能一页一页翻手册。那 gpu 呢,就像几千个训练有素的小学生, 虽然当个人没有教练聪明,但 gpu 啊,可以把这本手册拆成几千块,大家同时去算核心一,负责给手册的第一页到一百页打翻核心二啊,算第一百零一页到二百页, 核心三,核心四,继续往下同时开工,瞬间就能给上亿的参数打完分。呐,我明白了,显卡就是核心越多算的越快呀。显卡还有一个算的快的关键就是显存。显存啊,就相当于是一个大仓库,必须要足够大,才能存得下 ai 大 模型的所有参数。 如果仓库不够大,放不下的参数就只能放到隔壁仓库,那众多小学生去算的时候,还得两个仓库跑来跑去,计算效率那肯定慢呐。 所以现在全世界疯狂消耗 token, 本质上就是无数的显卡在后台疯狂查手册打分儿啊。没错,所谓 ai agent 支付的 token 费用,就是租用显卡计算的算力费用,而显卡运行要耗电,数据传输要存储。所以业内有句话叫 ai 短期缺算力,长期缺能源, 永远缺存储啊。这么看,这些都是投资机会啊,我得赶紧下手啊。可别着急啊。这不是人类历史上第一次生产革命,什么蒸汽革命、铁路革命,但每一次生产革命都无一例外的带来了经济萧条,因为经济学家朱格拉曾经说过,萧条的唯一原因就是繁荣啊。

全网争议不断的 dj spark 如今又涨价了,英伟达这是飘了还是真有底气?上期我们拿它打了游戏热了身,今天我们就深度实测下大模型推理,看看 spark 到底怎么样。我们先通过英伟达 think 登录进去,这个就是它的控制台界面,左边是内存和 gpu 占有率,右边是控制台,后续的所有测试配置全在这搞定。另外它还系 统出厂就把 ai 环境给你装好了,开机直接就能用。那测试结果我们也会在结尾全部展示出来。接下来我们开始测试,我们先测试一下千万三零 b 模型,分别有 f 幺六 p 八、 n v f p 四这三种精度,上下文从一百二十八到两 k 并发从一到五百。先说 n v f p 四,一百二十八,上下文 五百并发下,生成速率五千七百七十七 toky 每秒,首延迟零点一秒,完全没有跑满性能。不过随着上下文增加到两 k 时,性能瓶颈卡在了两百并发左右,总的来说,在两千上下文以下并发不超过两百, 可以随便跑。再看 f p 八量化生成速率明显下滑,那建议并发在两百以内使用。最后是 f p 幺六量化两 k 上下文,两百并发,调到了六百七十六抖屏每秒,但手延迟依然低于零点三秒, 还算优秀。接下来我们跑下脸书的七零 b 模型,我们测试了 f p 八、 n v f p 四两种精度,先看 n v f p 四版本,整体的生成速度偏低,低并发下勉强够用,但手脱屏延迟还不错,那 f p 一八精度和想象的一样,扩音速率继续下滑,引发刚到一百首,延迟已经超过了一秒,这个模型推荐还是低病发的测试使用,因为 f p 幺六版本太大,需要显存高达一百四十一 g b, 单台 g b 幺零完全跑不了,下期我们再串联一台 g b 幺零试试。再聊一点额外干货,如果你需要大模型的 n v f p 四的量化版本,可以去 h f 下载文件,里面带有 n v f p 四的就是 如果找不到,也可以用英伟达的容器手动量化。那为啥 dj s bug 强烈建议用量化版本呢?因为 gb 幺零的 blackwell 架构对这类的低精度推理有原生的优化支持, 这是它最核心也最容易被忽略的能力。另外有评论区的小伙伴提到了黑神话悟空,一起来看看效果吧。最近 open color 很 火,那 dj s bug 是 不是配呢?我们下期再来看看。

为什么我给粉丝做本地大模型,硬件只推 max studio? 选它从不是看颜值,是它跑 ai 的 硬实力。 m 系列芯片加统一内存架构,说白了就是别的机器跑大模型,又要外接显卡,又要折腾散热,甚至得专门腾地方。 max studio 往桌上一放就能用。安安静静跑模型,二十四小时不间断工作,甚至连风扇声都听不见。功耗低,性能稳,体积小,部署起来省心太多了。 这套方案刚给一个医美老板配了两台,他把销售订单、采购记录、库存数据、直播数据、员工信息全部喂进去。平时在手机上直接问, 帮我分析一下最近的销售订单,这个月业绩比上个月有什么变化,员工绩效怎么分配更合理?整理一版逼单话术给我,全在这台 max studio 上,跑不掉任何外部, a p i, 不 花一分钱偷坑费。最主要的是,本地部署后, 所有私有化存储,不上传云端客户信息,订单数据牢牢掌握在自己手里,锁在他自己的设备里,谁也拿不走,根本不用担心泄露硬件。你的模型,你的数据,你的能力,你的,你是老板,不是租客。 报价我打好, c 格我写好, max studio 配好直接寄收到之后有工程师一对一陪你跑通。你拿到的是整套解决方案,不是一台冷冰冰的机器。想自己养 ai 部门的老板在评论区扣方案。

哎呀,终于淘垦自由了,我真是服了,一晚上给我干了六千万淘垦,你说养个小龙虾能破产啊,不过现在好了,一分钱不用花了,全部欧拉玛本地部署啊,就用谷歌最新的 jumbo, 号称三十一币击败了三百九十七币的那个变态模型啊,本地跑,买小龙虾是真香啊, 欧拉玛现在有桌面版了,你把它安装好,打开以后啊,你看一个本地的 ai 聊天窗口对吧,这里有各种大模型,云端的也有啊,本地的也有,你就根据你自己的显卡性能选,我就用这个 gmail 二十六 b 这个吧,你选中它啊,跟他说句话你好, 然后它就开始自动下载了啊,非常简单啊,这就是你的这个本地大模型,都是免费的,淘款随便用啊。你要说显卡性能不行的话啊,你可以选云端模型,比如这个 mini max, 你 看它后边带 cloud 的 啊,都是云端模型,而且都有免费额度,能薅羊毛 给你们看一下吧啊,在这个设置里点 manage 管理啊,这里你就能看到你已经消耗的免费额度有多少,它每小时都会重置啊,你就又能得到新的免费额度,跑小熊任务肯定是够用的啊。然后怎么给这个小龙虾用啊?还是打开欧拉玛,在这个 lunch 这个菜单里 啊,这么多的应用都能支持。第一个就是咱小龙虾的啊,你就直接把这个命令你放到命令行里运行就行,根据提示选择你欧拉玛里的模型啊,就就这么一步,我选这个 mini max 吧,然后后边直接就回车就可以了。好啊,打开小龙虾问一下你是哪个模型? 没问题啊,是欧拉玛的 mini max, 然后咱飞书再操控一下,打开淘宝, ok, 搞定。这不就 talk 自由了吗?你找谁说理去啊?

如果你到现在还觉得英伟达只是一个卖显卡、卖芯片的硬件公司,那你根本就没有看懂这个 ai 时代的财富逻辑。前几天, 黄仁勋在播客中说了一句足以引发整个 ai 圈大地震的话,他说英伟达从来都不是一家卖 gpu 的 公司。老黄对自己公司的定位极其可怕,他说,我们这套生意的本质是输入端吃进去的是电力,输出端吐出来的是 token, 而中间就是英伟达。 建议大家先点个赞,今天这条视频,我用三分钟把你对英伟达的认知彻底提升一个维度。咱们先搞懂什么是 token。 以前我们用水按立方收费, 用电按度收费,打电话按分钟收费,但在未来的 ai 时代,一切信息的最小计价单位就叫 took, 一个字、一张图的像素,甚至 ai 思考时的一段推理过程,全都是按 took 来计价的。在这个崭新的商业世界里,谁能把哪怕一度电用最高效的方式转化成 took, 谁就卡住了整个 ai 产业的命运咽喉。而英伟达造出来的 gpu 的 took 印钞机,虽然台积电帮他代工, 三星给他供内存,但把这套极其庞大复杂的印钞机拼装起来,全世界只有英伟达一个人指挥得动。这时候肯定有人要杠了,那谷歌也有自己的 t p u 啊,亚马逊也在造自己的 ai 芯片啊,他们自己造难道不香吗?凭什么还要排队去 求着买老黄的硬件?这就牵扯到投资界的一个核心概念了, t c o, 也就是总拥有成本。你以为那些大厂只算买芯片的钱吗?他们还要算后期的运维费、 机房的电费,以及成千上万个程序员重新适配代码的人工费。如果你买了一块所谓的专用 ai 芯片,可能他跑 ai 确实厉害,但他什么别的活都干不了。 而英伟达的 gpu 就 像超级全能王,平时跑跑大模型,闲下来还能去干其他活,整体看下来性价比就很高。这就是为什么就算英伟达的产品再贵,大厂依然会乖乖掏钱。老黄在这套生态上整整死磕了快二十年, 现在全球有几亿块 gpu 在 日夜不停的跑数据,每一块 gpu 跑出来的经验和算力,都在反哺他的下一代产品。这是一个极其完美的,外人根本插不进去的正向闭环。别的公司现在想来追,对不起,从你手写第一行代码,到攒够这上亿的装机量,没个十年八年的冷板凳, 你连上桌打牌的资格都没有。就像老黄在播客里说,如果我不做云服务,别人也会做,但我正在干的这些事,如果我不干,地球上没人能干成。 所以英伟达现在的战略是什么?就是把挖矿的铲子做到极致,然后卖给全世界的淘金客。不仅如此,他还花重金投资了像阔维这种新兴的算力公司,说白了,这些公司如果没有英伟达的扶持,活都活不下去。老黄把他们养活了,英伟达的铲子才能源源不断的卖出去, 这就叫教科书级别的生态终极绑定。现在市场上很多人天天在瞎操心,觉得英伟达的潜能被卡脖子了,供应链有危险了。但老黄就能信誓旦旦的表示,只要给两三年的时间,什么光刻机买不到,什么封装线建不起来,这些统统都能用钱解决。英伟达在这个世界上真正的瓶颈 是能源,是电,你不可能在没有大电网的地方建算力中心,一个顶级的 ai 数据中心,吃掉的电量相当于一整个三线城市,这电从哪来?电网能不能扛住当地政策批不批?解决这些问题比造一颗芯片要难上十倍、百倍。所以回到我们开头那个问题, 英伟达到底是干嘛的?他不是卖硬件的,更不是个卖软件的,他是一个把电力转化为算力,把算力转化为 token, 最终把 token 转化为真金白银的超级转换器,整个 ai 时代的命门就死死卡在这个转换效率上。英伟达凭什么值三万多亿美金?你去看看他现在手里握着的采购承诺单就知道了,接近一千亿美元, 未来甚至要冲到两千五百亿美元。全球的顶级科技巨头,整个半导体的供应链全都在围着他一个人转。当你彻底看懂他的定位,你就会明白,英伟达从来都不是这个 ai 时代的受益者,他本身就是这个时代。

别再死磕显卡了,二零二六年搞钱的核心是算力 token, 今天给大家分享三种 token 的 商业模式,看懂直接变现。第一种是 api 按需付费,这是目前最成熟现金流最稳的模式,就像交水电费一样,企业用多少算力就付多少钱。只要快速搭建好集群, 客户调用 ai 越频繁,流水进的越快,那这里主要是针对一些弊端客户,他是有技术能力去调用 api 接口的。那第二种商业模式是投坑工厂模式,是针对有超大规模的算力需求,这里拼的不是机器多,而是店价, 它的核心就是一度电能产出多少价值的计算,业务的毛利提高,掌控着算力基建的核心话语权。那第三种商业模式呢?就是合规的 token 出口,利用我们现在政策最大的红利,把中国算力和 ai 技术通过合规的 a p i 形式输出给全球,按 token 量结算,这个是镇静的 跨境数字贸易,赚全世界的钱。像国内的豆包一百万 token 在 一元左右,海外的机迷你啊,差不多在十五元左右,那这样我们把国内的算力 token 输出给海外的这些需求方,这个利润空间就是相当可观的。 最后我们一句话总结,算力 token 是 智能时代的价值硬通货,我们要赚服务的钱,赚规模的钱,赚钱全球的钱。想要了解更多关于算力 token 的 信息,可以后台私信我们,我们下期见,拜拜!

现在这个托肯工厂的生意非常火,那么去生产托肯需要什么东西呢?其实就是像这种 gpu 算力,现在很多机房都开始建设了,很多用的型号呢,像这种 a 一 百, 然后这种是 h 一 百, h 两百,目前比较火的就是 h 两百这个型号,像这里演示的是一个八卡的 h 两百模组啊,由八张卡组成,单张卡的显存是一百四十一 g, 八张卡呢就是一千一百二十八 g, 三张卡加在一起呢, f p 八的算率是三十二 p, 这什么意思呢?就是它在一秒钟的时间内能执行三点二亿亿次普点预算,那这么大的算利用来生产 token 能生产多少呢?那经过我们的测试啊,跑这种大模型,比如说像 deep secret 六百七十 e b 的 模型呢,每秒钟能够生产五千个 token, 也就是说我们写一本几百万字的书,可能几分钟就会写完了,而且它在极端的情况下,能够同时承担几千甚至上万个用户的同时请求。