兄弟们,这事有点大,苹果终于松口了,英伟达 e g p u 区中正式批过 apple silicon 平台,风靡靠谱软件直接过程啥概念?现在你拿个 mac 外接个显卡,就能跑 ai 大 模型了?安装流程简化到啥程度?连千万都能完成,隔去年五月,你还得关闭系统 完整型保护,现在不需要了。说实话,这事挺离谱的。 tony pop 是 谁? tony pop 的 开发商,专门搞 ai 加速设备的,他家在售两款 red vr 四块, amd 九零七零 xt 一 千两百美元, green vr blackwell 四块 rtx pro 六千, blackwell 六万五千美元。还计划二零二七年推 excelbox, 七百二十块, rnda 五 gpu 一 千万美元。这帮人就是奔着 ai 算力去的。 用大白话讲,这驱动是 tony cop 自己开发的,主要面对 ai 大 模型,预算不是给你打游戏的。但对于 ai 开发者来说,这意义太大了,普通 mac 就 能完成训练推理工作,这门槛直接降下来了。 更关键的是趋势信号, oppo 这些 ai 智能激活,高端 mac 需求直接爆来,大容量统一机型,交付周期直接从六天干到六周。苹果直接取消 mac studio 五百一十二 gb 配置, 二五六版本还涨了四百美元。这说明啥? ai 算力的需求在疯狂挤压硬件补给。兄弟们, 你们看清这一件事,这不是简单的驱动更新,这是苹果在算力布局上的关键让步。以前麦克斯太封闭外兼嫌把这条路堵死了,现在呢?不开了。为啥呢?因为 ai 开发者用脚投票,需求摆在这,苹果不得不松绑。 再说一个数据,你们感受一下 tony cop 的 tony box, 最便宜的 red vr 都要一千两百美元,四块 amg 显卡,现在你用 mac 加 e g p u, 成本能压到多少?这算力民族化的速度比咱们想象快得多。 可能有人会问,这事对普通用户有啥影响?说实话,影响不大,你又不跑大模型,你又不搞 ai 开发。但你值得注意的一点是, ai 算力正在成为基础设施。今天 mac 能接 e g p u 跑 ai, 明天其他厂商会不会更进? 今天叉 e box 卖一万二,明天会不会有更便宜的方案呢?大白话来说,这事儿是个信号, ai 算法的门槛在快速下降, mac 生态从 d 环走向开放,这是个趋势的变化。你不需要现在就上车,但你知道这车往哪开。 最后问兄弟们一句,你觉得麦家 d g p o。 的 方案能干翻专业的 ai 服务器吗?评论区聊聊,我看看有多少人还愿意砸钱搞硬件。这事没完,咱们下期继续掰扯。
粉丝23获赞188

如果我说只花了两千块的显卡有三十二 gb 显存,一 tb 每秒的显存带宽,那跑 rtx 五零九零才能跑得动的三十五 b 大 魔星,这到底是个什么操作? 二零一九年发布的 md 锐志 seven 单卡,十六 gb 显存,特别的是这张卡有四颗 hbm 二显存颗粒,封装在 gpu 核心旁边,这让它拥有了夸张的四零九六比特位宽显存,带宽达到了一 tb 每秒。 即便放在今天,这个贷款也仅次于部分顶级工作站卡。所以对于现在热门的大模型方面,会比十六 gb 的 rtx 四零八零还快吗?上期节目里,我竟给我的 mate pro 二零幺九加了一块 winen 七 mps 接口,前半段就是普通的 pci 槽码,第三方卡直接插上去就好了。 二主版上也预留了电源接口,在 mate os 部署一个 get up 上的沃兰马魔改版本,魔改是针对英特处理器的 mac 运行。千万三点五九 b q 四,这个模型只有六点六 g b 的 大小,问你个脑筋急转弯,可以看到,九 b 的 模型,一张卡可以做到二十 tocs, 而同样十六 g b, 现存的 rtx 四零八零,同 样奥拉玛部署千万三点五九 b 的 模型, rtx 四零八零有九十 tocs 左右。虽然带宽比 vgn 七 f 低,现存是 gd r 六 x, 但同一个模型的速度, rtx 四零八零的速度快一大截啊。 用 lm studio 交叉验证一下,可以看到模型加载进显存,把显存空间都吃完了,问同一个问题, 好吧,也是九十 tocents 左右,其实也很正常。 rtx 四零八零虽然是 gd 的 二六 x, 但因为它有显存无损压缩技术,通常比 md 老旧的 gcn 架构更高效, 而且现在绝大多数模型框架都是基于英伟达的扩大优化的。虽然 amd 有 lcm 框架,但 rayden seven 属于巨星五点一架构, 在最新的 lcm 版本中支持优先级已经非常低,但好像还有点性价比,毕竟 rayden seven 现在一千块不到。可能大家注意到了,我桌面上这么好看的这么大的键盘是什么呢? new 的 note 七五 好看简约。首先是外观点阵的风格,设计语言其实走的是波浪风,灵感来自波浪的 t 三,上面一排装饰孔,左上角有装饰灯。其实 apple 也是学了 t 三的设计语言,一个是形状,一个是点阵的设计。 最让我惊喜的设计不仅是设计,还融入了功能。右上角的点阵是自定义触控调左右滑动调整音量,双击静音,三机切换下一首歌,还能通过网页设置更多的快捷键功能。 在 newfio 里, newfio 的 网页设计非常简约,不管是调节音量亮度,还是通过网页驱动自定义快捷键,交互体验都非常顺滑且高效易懂。 带粉 nano 轴属于紧凑型 i 轴,青春段触地快,手指轻松,适合长时间打字声音偏静音。手感的话, note 采用了 gas kit 结构的,配合全 p o m 材质的轴体,如果追求极致的输入舒适度, 仅是三点八毫米前高的凹凸版本,无需要额外的掌托,手腕自然摆放,是长期把字的不二之选。配合 mac 在 桌面使用,绝配。支持 mac 加 windows 三模,支持链接四台设备,通过 fn 加一二三四键可以切换,而且 note 七五可以在蓝牙模式关灯做到一千小时续航, 这对需要外出携带桌面整洁的用户来说还是挺重要的。从 mac 的 妙控键盘转到 note 没什么不适应的。 如果你正在为你的 mac 寻找一款坚固轻薄、高效输入的机械键盘, note 七五只需三九九七,在同个价位里能把工业设计和交互体验做到这个水准,它的性价比确实能大。如果你厌倦了千篇一律的工具感想,给桌面增添一点极简的艺术气息,这把键盘值得一试。 那么回到这台机器,九 b 的 模型可以跑,而在网上呢,就是二十七 b 了,二十七 b 的 大小是十七 gb, 这十六 gb 显存的卡根本没办法。而 mac pro 那 么多 pc 槽,如果是两张 md 7 呢,同样花了不到一千掏了第二块 md 7 7, 这样组合起来就会有很唬人的三十二 gb 现存,那就可以把原本的 m s 模组给移出来了,暂时不需要这个老旧的五八零 s md。 锐志 seven 这个金属外壳设计还挺大, mac pro 的 机箱就是电源线的话不可避免了, 好重新启动。现在系统可以识别到两张卡一共组成三十二 gb 的 现存, 虽然没有单张四零八零快,但两张只要两千块的价格就可以跑四零八零都跑不了的模型,要什么自行车 前吻三点五三十五 b 的 模型。 q 四量换后是十七 g b 大 小,不过 myos mojang 玛奥拉玛双卡会识别不到报错,只能 windows 操作,这也算是英特尔 mac 的 劣势吧,或者是优势。 windows 下在 mm studio 里面按 ctrl 加 shift 加 h, 可以 打开 gpu 控制面板,可以看到两张卡一共三十二 gb 现存选择模型,在任务管理器里可以看到同时吃掉这两张卡的现存运行成功了。 还是那个老问题, 速度是大概四十五 tocents 左右吧,三十五币。感觉一些简单的翻译润色。总结一点点,复杂的问题是够用的,那么推荐怎么干嘛? redon seven 捡漏成本算在两千块上下,但功耗非常大, 光是两张卡满在大概六百瓦,相当于两个 max doodle 的 功耗了。 max pro 一 千四百瓦的电源肯定没问题,不过确实很费电啊, 光是显卡一小时零点六度电,二十四乘七,不间断的话,一个月光显卡能吃掉四百度电。按照中山市的定价,一个月费用接近三百块, 不如买 tokens。 最后我的结论是,现在模型常用 f p 十六或者 b f 十六格式,甚至更高级的 i n t 四 i n t 八量化加速。 bandon seven 虽有很强的 f p 六四双精度的能力,但缺乏现代显卡那种专门针对 ai 的 tensor curl, 这会导致它的计算效率跟不上它的搬运速度。我的评价是显存大,贷款极高, i 算力不如现代卡,这桶成本也太高了。 如果想单纯折腾一下 o c m 驱动和边缘环境两张威登 seven 是 个极佳性价比的玩法,低成本调教二十多 g b 级别的模型,在这显存越大越好越贵的 ai 时代非常有吸引力。但如果是发 paper 或者是干活,就走正经的采购流程吧。


为什么我给粉丝做本地大模型,硬件只推 max studio? 选它从不是看颜值,是它跑 ai 的 硬实力。 m 系列芯片加统一内存架构,说白了就是别的机器跑大模型,又要外接显卡,又要折腾散热,甚至得专门腾地方。 max studio 往桌上一放就能用。安安静静跑模型,二十四小时不间断工作,甚至连风扇声都听不见。功耗低,性能稳,体积小,部署起来省心太多了。 这套方案刚给一个医美老板配了两台,他把销售订单、采购记录、库存数据、直播数据、员工信息全部喂进去。平时在手机上直接问, 帮我分析一下最近的销售订单,这个月业绩比上个月有什么变化,员工绩效怎么分配更合理?整理一版逼单话术给我,全在这台 max studio 上,跑不掉任何外部, a p i, 不 花一分钱偷坑费。最主要的是,本地部署后, 所有私有化存储,不上传云端客户信息,订单数据牢牢掌握在自己手里,锁在他自己的设备里,谁也拿不走,根本不用担心泄露硬件。你的模型,你的数据,你的能力,你的,你是老板,不是租客。 报价我打好, c 格我写好, max studio 配好直接寄收到之后有工程师一对一陪你跑通。你拿到的是整套解决方案,不是一台冷冰冰的机器。想自己养 ai 部门的老板在评论区扣方案。

最近有一个基于千问三点五二十七 b 的 cloud 蒸馏版大模型,在开源圈刷的很猛,号称本地最强大模型。很多人已经下了,更多人还卡在第一步,不是下载慢就是装玩跑不起来,或者跑起来以后发现根本不是自己想要的东西。 这期我只解决三件事,它到底藏在哪?什么人该装? windows 显卡和 mac 到底分别用什么方案?还有国内网络环境下,怎么把最实用的版本拉下来,别在第一步就耗一晚上,先把话说死。这个模型不是拿来陪你聊天的, 你要的是情绪价值,自然闲聊,写点轻松内容,它不占优。它真正有价值的地方是代码、数学和硬逻辑。 你可以把它理解成一把偏科,非常严重但是刀口特别锋利的工具,用对地方效率很夸张,用错地方你会觉得它怎么这么拧巴。很多人对它评价两级,不是模型不行,是场景没对上。 他最能打的地方不是打的多花,而是思路更像干活的人。很多模型碰到复杂问题,前面看着挺唬人,后面就开始绕,换个说法,把同一句话讲三遍。 q opus 这一类蒸馏的好的模型,价值就在这里,他会更快进入拆任务的状态, 先抓目标,再拆步骤,再看边界条件。这个差别在代码场景特别明显。比如你让他改一个项目里的报错,不只是让他给你一段代码,你要的是他先判断问题在哪一层,是依赖冲突,是输入格式不对,还是你整个调动链写歪了。 他如果会把思路按步骤展开,后面给出的修改方案就更稳,不是玄学,就是因为他少了很多来回打转的废话。再说那个最直观的标志就是 think 结构,你会看到他不是直接甩答案,而是先把过程铺开。这个过程本身就很有用, 因为你能看见他是不是走偏了,他要是第一步就理解错题,你马上能发现,不用等他输出一大头结果再返工。 对于做代码、做逻辑题,做复杂规则判断的人,这个透明度很值钱。还有一点容易被忽略,他不是只会做单一题型,社区里对他评价高不只是某一道 benchmark 分 高,而是他在逻辑、数学、编程这些需要连续推理的任务里表现比较均衡, 这种跨任务稳定性才决定他适不适合真拿来干活。如果你不是单纯在终端里问答,而是拿它接近 agent 流程, 这个模型还有一个很实用的点,它原生支持 developer 角色翻成大白话就是你少折腾很多俄式兼容和模板修补的问题。对于接工作流的人,这种省事比参数多两分少两分更重要。实际用法也很直接,你可以把它看成一个本地代码,大脑 挂到 defy 这一类工作流工具里,或者放进骗代码的执行链里。以前你可能接的是云端模型,现在只要机器带得动,就能把一部分代码任务搬到本地。这样做的好处很实在,响应稳定,隐私可控,而且不依赖外部接口受封。这个点对写代码的人吸引力很大。 最后直接给结论,你手里如果是三千零九十、四千零九十这一档的显卡,或者是三十二 gb 内存级别的 mac, 就 刚好需要一个离线的代码和逻辑助手,这个模型值得装。它的强项很明确,干活能力也够硬。 如果你主要是聊天解清内容,想要一个说话自然又会陪伴的模型,那就别把时间花在他身上,他不是这个方向的优等生。这期先把定位讲清楚, 后面的下载部署和参数设置,按简介群的内容直接照着做就行。跑起来以后第一件事不是闲聊,先拿一道代码题或者逻辑题试它,你会很快看出差别。

一台 m 三 ultra max 六六已经是算力天花板了,如果我们把四台集合在一起,组成一个两 tb 的 便携式 i g 群,它的效果会怎么样呢? 首先必须得说,这东西是真的有点猛,像伊伟达的顶配专业卡 h 一 百单卡通常也就八十 gb 显存,遇到现在动不动就六百 gb 甚至千亿参数的大模型根本吃不消。但在这台机器上,它可以毫 费力的把 kimi k 二这种六百多 gb 的 模型完整吃进显存里。性能上,他利用 macos 六点二最新的黑科技, 直接把四台机器的内存连接成了一张逻辑上的超级大内存。经过我们实测,跑 deepsea 微三点一这种超级大模型,每秒能跑出三十二点五个 tokyo 的 速度,跟他对话几乎感觉不到延迟,非常丝滑。而且这堆料满满的四台电脑塞进一个迷你机架里,比很多企业的机房服务器都要安静省电多了。 但是,但是朋友们这种神仙组合的代价也是非常大的,这四台顶配 macdoodle 算下来差不多要四万刀了,折合人民币就要小三十万了,并且它的操作门槛非常高,根本不适合新手小白使用。 那这套东西到底适合谁呢?如果你只是个人玩家或者小公司,像泡泡七币七零币的普通模型,完全没必要硬上这套, 那如果你有钱有闲,这套变现 ai 机群绝对能给你带来无限的交通乐趣。好了,咱们关于这四台 m 三 ultra 的 机群体验就聊这么多,如果你有三十万,你会买它吗?评论区聊聊。

这个是杭州做电商的老板,配着一台本地大模型 ai 服务器,搭好了准备划走。很多粉丝问我为什么部署本地大模型,不愿意用 max 运行。你们看这台机器就知道了,它是 m 点二凹球芯片, 六十四 g 的 统一内存。重点来了, mac 的 cpu 和 gpu 是 共用内存的,六十四 g 全部可以当显存跑,千万三点五二十七 b, 量化,速度和智力都在最佳状态。像这个做电商的老板,他有三十多家店铺, 每天都要盯大量精品的爆款,以前哪有这么省心,全靠运营,一个个去换精品店铺,人家啥时候上心,啥时候能爆,全靠猜,靠运气, 又费时间又费人力,经常错过最好的时机。但现在不一样了,这台 ai 服务器二十四小时不休息,不用人盯着,自动筛选出精品高销量的款,还能精准预判哪款能成爆款,直接深层分析报告中小卖家拿到这个就是降维打击。 更狠的是,他可以直接关联 erp, 有 哪些订单还没发货,上个月哪些品亏钱了,采购成本、品牌佣金、物流费、退货率全部拉进来,不用等财务做报表,问,一句话直接出结果。最关键的一点,所有业务都存在老板自己的机器里,不上云端也 不会泄露,全程都是自己本地管控,安全性绝对拉满。整套模型框架我都帮他搭建好了,还手把手教他建了企业私有数据库,后续模型有更新,直接远程升级,用 ai 实现清晰化、高效率的业务管理,是老板的核心必修课。

谷歌刚公布了基于二零二六年初实测的 demo 四本地部署指南。想在自己电脑上跑大模型,门槛其实比你想象的低得多。 只要你有一张六 g 显存的普通显卡,或者一台十六 g 内存的 mac, 就 能轻松上车。这个底线配置足够你流畅运行,量化后的一四 b 版本,它满打满算也就占四到六个 g 的 显存。那如果你手里的设备配置更高, 具体能跑多大的满血模型?接下来我们直接按硬件档位对号入座。我们先看大部分人用的六到十二 g 显存的中低端显卡,比如三千零六十到四千零七十这个档位,老老实实跑一四 b 版本最稳。很多人显存有个七八 g, 就 想硬去尝试大模型的量化版, 结果往往是一对话就报错卡死。因为你必须从这点显存里扣出一块空间,留给 ai 处理上下文。 如果你手里是十二 g 到十六 g 的 高端卡,比如三千零八十或者四千零八十,这就跨过了二十六 b 模型 a 四 b 量化版的最低门槛。显存容量算是过关了,但别高兴太早, 模型加载进去之后要随时盯着,每秒能吐几个词。简存刚够的情况下,推理速度有可能会让你等的很心焦。至于二十四 g 甚至更大简存的四千零九十或五千零九十,土豪玩家可以直接上三十一 b 的 满血大模型,它的基础占用在二十到二十四 g 左右。 但这里有个大坑,即便你显存再大,如果你一次性喂进去几万次的长温档,或者进行疯狂的多轮长对话,照样会把显存撑爆爆错退出。接着看苹果 mac 用户,十六 g 或者十八 g 统一内存的基础款,统统优先跑一次币。苹果不同带芯片的区别在这里,很明显, m 二和 m 三因为起步是十八 g, 它的实际推理效率会明显压过老款的 m 一。 如果你硬拿十六 g 的 m 一 去跑二十六 b 模型,电脑会被榨干,整个系统都会变卡。 预算充足的 mac 用户优势就完全体现出来了。三十二 g 内存以及能非常流畅的玩转二十六 b 量化版到了六十四 g 以上,这就成了目前最强的便携推理机。二十六 b 和三十一 b 随便跑。要是上了幺二八 g 的 m 三 ultra, 不但能跑顶级大模型,几个人同时发请求都不会排队卡顿。选好硬件后,有一个多数新手必踩的坑。模型页面标称的显存占用只是个起步价。当你开始聊天,历史记录越来越长,内部的 k v k 机制就会像无底洞一样治疗你的剩余显存。 系统本身还要占用一部分,官方给的都是刚加载完的静态数据,真跑起来,必须预留几笔额外的显存帐,最后破除一个对硬件的误解。 mate 的 内存确实动不动就能配到几十上百 g, 功耗也低的吓人。但是苹果的统一内存受限于物理带宽,它就像一个水库很大但出水管不够粗的系统,跑同一个模型,它的生成词汇速度通常还是比不过同容量的 pc 独立显卡的。

为什么我给客户做本地大模型,硬件只推 max studio? 不是 因为它好看,是因为跑 ai 这件事情,它是真的能打 m 系列芯片,统一内存架构,说人话就是别的机器跑大模型要外接显卡,搞散热,配机房, max studio 往桌上一放,安安静静跑模型,二十四小时不关机, 连风扇声都听不见。功耗低,性能稳、体积小,但他干的却是运营总监和财务总监的活。光有硬件和模型还不够。我在 opencloud 上面写一个 skill, 需要汇总直播带货。写 skel, 需要 ai 帮你做销售计划。写一个 skel, 需要自动提醒合同到期。写一个 skel, 不是 那种通用的 ai 助手跟你尬聊,而是真正理解你公 司业务的 ai 员工。那这套方案刚刚给一个医美老板配了两台,他把销售订单、采购记录、库存数据、直播数据、员工信息全部喂进去,平时在手机上就可以直 学问,帮我分析一下最近的销售订单,这个月业绩比上个月有什么变化,员工绩效怎么分配更合理?整理一版必当话术给我,全在这台 max 九九上跑,不调用任何外部 app, 不 花一分抽空费。他还把爆款、素材库、创意灵感、新人培训手册、公司 s o p 全部丢进 opencloud 的 知识库里。这些东西加在一起,叫什么?叫公司的数据资产,而这个资产所在,他自己的设备,你谁也拿不走。硬件,你的模型,你的能力,你的,你是老板, 是租客。框架我搭建好, skill 我 写好, max studio 配好直接寄收到之后,有技术工程师一对一陪你跑通。你拿到的是整套解决方案,不是一台冰冷的机器,想自己养, ai 部门的老板在评论区扣方案。

为什么我给客户做本地大模型,硬件只推 max studio? 不是 因为它好看,是跑 ai 这件事,它真的能打 m c 的 芯片,统一内存架构?说人话就是别的机器跑大模型要外接显卡, 搞散热配机房。 max studio 往桌上一放,安安静静跑模型,二十四小时不关机,连风扇声都听不见。功耗低,性能稳, 体积小。但他干的活是运营总监和财务总监的活,光有硬件和模型还不够。我在 openclaw 上面写 skill, 搭 agent 需要分析投放数据,写一个 skill, 需要汇总直播带货,写 一个 skill, 需要 ai 帮你做销售计划,写个 skill, 需要自动提醒合同到期写一个 skill, 不是 那种通用的 ai 助手跟你尬聊,是真正理解你公司业务,吃你公司数据的 ai 员工。这套方案刚给一个医美老板配了两台,他把销售订单、采购记录、库存数据、直播数据、员工信息全部喂进去。 平时在手机上直接问,帮我分析一下最近的销售订单,这个月业绩比上个月有什么变化,员工绩效怎么分配更合理?整理一版逼单话术给我,全在这台 max studio 上跑, 不调任何外部, a p i 不 花一分钱偷坑费。他还把爆款素材库、创意灵感、新人培训手册、公司 sop 全叼进 opencloud 知识库里。这些东西加在一起叫什么?叫公司的数据资产,而且这个资产锁在他自己的设备里,谁也拿不走。你是老板,不是 租客。框架我打好, skill 我 写好, max studio 配好直接寄收到之后有工程师一对一陪你跑通。你拿到的是整套解决方案,不是一台冷冰冰的机器,想自己养, ai 部门的老板,评论区扣方案。

五百一十二 gb 的 麦克斯六六不是挺惨的吗?那现在对比还有二百五十六 gb 的 这个顶配及我用来做多 a 剑客一人公司的六十四 gb 的 版本,一挂在大模型的话,他到底能跑出个什么效果呢? 如果你能抢到二百五十六 gb 的, 那你就开这个一人公司,完全够了。用这个 mini max m 二点五现成刚刚搞满,跑起来效果怎么样呢?看一下他的速度啊,你看我现在问他的 这边本机大模型开始疯狂的思考他的这个速度啊,其实并不算很快啊,因为迷你麦子虽然是 mo 一, 但是他这个模型参数非常的大, 可以看一下图图腾的这个速度啊,几根线上模型也没有说慢很多吧,而且他的回复也是很强势啊,都可以干看一下这个速度。 g g token 三十二, pp token 五十二,去对比你线上模型,在高峰时期这速度可能还会更快,而且他放你家里没有一分钱的消耗,永远稳定,而且数据不出站。 如果你着急二百五十六确实搞不到,我们就卸载这个,用个六十四测试一下。如果你只有六十四 gb 的 现存的 max 九九,无论是 m 二 m 三,那我就要放出我的天选模型纤维三点五的这个模型呢,非常强, 给他调好默认参数看一下啊,这个占用空间并不大,我们直接读取,这速度明显比迷你 max 快 快很多啊。我们实际在 open color 里面测试一下。切换这个默认模型的时候,发现一个细节啊,所有用 open color 的 你一定要记得啊, 这个信可的一定要打开,打开你的智力提升一倍,非常有效,你可以试一下,然后我们重启一下客户端,等会这个页面刷新了,我们要同来问一下,看一下,你们可以感受一下这个,这个速度有多快,我说六十四 g b 啊,用这个纤维三点五,简直是天旋模型啊。你看我现在把这个东西 这段话发进去,你去看一下他,这速度我还没切过去就出来了,而且回复跟刚刚 mini max 的 这个超大的没有说差很多吧。你看一下这个速度,我们对比一下, g g tok 居然跑到了七十二点一八 pp tok 居然跑到了三百,这个速度 直接翻倍了。哥们,我们再问一下他刁钻一些复杂的问题一点,立马开始思考,我这还是开了思考模式啊, 你看这图纸的速度跟线上没有什么很大的区别,做一个 a 键他,你看我这跑三个 a 键,他,这个模型,我再开一个辅助的小模型,三个 a 键他,可以并法去干。 告诉你这六十四 g b 显存的这个 max, 六六现在是神一样的存在,八百的贷款,跑这个模型轻轻松松跑到七十多度,坑,我就问你因为啥?你怕不怕?

这套本尼大模型已经搭建好了,准备发去广州,用的是 mac studio ultra m 二六十四 g 的 内存。有很多粉丝会问,为啥不去用 n 卡去搭建,因为 n 卡的优势是可以串联起来,而并非单个使用。但是 mac 是 统一的内存架构,也就是说六十四 g 可以 全部当显存使用,但单块四零九零显存也才二十四 g, 六十四 g 去跑千万三点五二十七 p q 八量化的都可以, 其实 q 四量化也是够用了,速度和智力都在真假状态。这台 mac 是 给一位做电商的粉丝搭建的,他一共有二三十家店铺,每天需要有大量的竞品以及自己的爆款需要盯。以前都是人工一个一个的去看,去收集,去整理, 非常的麻烦,但是现在这台机器二十四小时可以全程自己盯,看到那些有爆款潜质的,每天按时生成分析报告,卖家拿到这个就是降维打击。最爽的地方是 erp, 也直接接入了哪些订单没有发货,有多少退回的人工成本,退货率,还有物流费用,也都不用 等财务的回复了,直接问你的 ai, 马上就能回复每年双十一双十二什么的,让他预测一下哪些 sku 可能会是大爆品。本地大模型最重要的一点就是所有的数据都存在于自己的本地,不会有任何泄露的风险, 到模型框架全都会搭建好才会寄出,等设备到了也会工程师一对一教学怎么训练最适合自己的大模型。其实用 ai 去做数据分析的效率比人工要高太多了,减少人工成本,同时效率提高,错误率也无限趋近于零,这不就是每个管理者需要的吗?


要一台本地大模型 ai 服务器,搭好了,准备发走。机器是 m 二 ultra, 六十四 g 统一内存。有很多粉丝问,为什么不用英伟达 mac 的 cpu 和 gpu 共用内存架构,六四 g 全部可以当显存,四零九零显存才二十四 g, 同等配置代价是它三倍。六四 g 正好流畅运行千万三点五,二七 b 的 q 八,量化 推理速度与模型效果都处于最优状态。这台是给做电商的粉丝定制搭建的,它三个线上平台有三十多家店铺,每天都要盯海量竞号,什么时候上新, 什么时候出爆品,全靠经验碰运气。现在这台本地 ai 服务器可以二十四小时不间断自动监控,自动筛选竞品、高销量潜力款,一键生成完整数据分析报告。对中小卖家来说,这就是实打实的降维打击。更实用的是,直接打通了它的 erp 系统, 哪些订单还未发货,上月哪些产品处于亏损状态,采购成本、平台佣金、物流费用、退货运等数据全部接入,不用等财务月底汇总做报表, 一句话提问 ai, 直接给出精准结果,大促前还能让模型预判爆单 sku。 最关键的一点是,所有数据都存在本地服务器,数据完全不出公司,绝对安全可控。我帮他把整套 ai 模型框架完整部署好, 手把手教他搭建企业私有数据库。后续模型版本更新,我先测试,稳定后再帮他升级。用 ai 实现清晰高效的业务管理,已经是每个老板的必备能力。

这是给本地一位电商老板搭好的本地大模型 ai 服务器,马上发走。机器是 mr ultra, 六四 g, 统一内存。很多人问我为什么不选英伟达, 核心原因就两条,第一, mac 的 统一内存架构, cpu 和 gpu 共享内存,六十四 g 全部可以当显存用,五千零九十才二四 g, 想兑到同性能成本翻三倍不止。第二,这六四 g 刚好跑千万三点五,二七 b 的 q 八量化速度和智商都在线,丝滑得很。收回正视, 这个电商老板手底下有三十多家店铺,以前想盯竞品爆款,得招一堆运营人肉,盯着眼睛都快瞎了。现在机器一放二十四小时全自动监控竞品,新上的高销量款自动抓能不能爆的前置智能算最后一键生成分析报告。 对中小卖家来说,这基本就是降维打击。更狠的是,这台服务器已经打通了它的 erp 系统,订单,还有哪些没发货,上个月哪些产品亏钱了?一句话问出去精准结果直接回来。最核心的一点,我必须强调,所有数据都在它自己的服务器上,绝对不往外走, 从模型框架搭建、企业私有数据库建立,到后续模型更新、测试和升级,全程一站式服务。现在做生意,用 ai 实现清晰高效的业务管理,已经是老板的必备技能了,你说呢?