先说结论, agent 正在以前所未有的速度疯狂引进。大家好,今天这期视频紧接上一期的讨论,深入分析这一两年 agent 的 演化时,当你第一次使用 open crawl 的 时候,是不是也有这样的困惑?相对于 chat gpt 或者豆包,为什么龙虾的响应这么慢?为什么会消耗这么多 token? 为什么会创建这么多复杂的文件?比如 agents, so memory? 它们的作用又是什么?在回答这个问题之前,我们先回顾一下 agent 的 发展史。 第一阶段大概是 chat gpt 刚刚出现的二零二三年到二零二四年,可以称之为 chat agent 时代。整个工作流程是这样的,当用户输入你好这两个字,会拼接系统提示词一起发送给大语言模型,然后得到回回复结果。特点是 三轮推理,无记忆、无工具调用、无决策过程。注意,大圆模型是一个随机输出的系统,每次相同的输入会产生随机性的输出。为了更加稳定的输出,必须拼接系统提示词,告诉模型 他是谁,扮演什么角色,能做什么工作,不能做哪些工作,这样大圆模型才能比较稳定的输出希望的结果。所以这就是为什么在用户输入时, 必须要给大元模型提供足够多的系统提示词,或者说上下文。大概是二零二四年开始, 随着模型能力的增强, agent 可以 直接调用工具了。在聊天过程中,可以调用网络搜索、天气查询、 机票搜索等工具来完成更多的任务。 ai 已经可以开始进行思考,下一步是直接输出结果还是调用工具。 紧接着来到第三阶段,我称之为 agent 路虎阶段。虽然每个 agent 框架各有差异,但是内部结构基本都是这样的,循环分为感知、决策、 执行、反馈。比如 openclock, 最内核的主键就是一个叫 pi agent 清量框架,包含了这四个部分和最基本的文件读写。 batch 执行工具 offclock 就 在这个轻量级 agent 的 框架基础上添加了各种模块,比如消息通道、记忆系统、绘画系统、 skill 调用等。组建第四阶段,二零二五年开始,各种编程工具开始支持多 agent 框架,比如 cloudcode 在 执行复杂任务的时候,会先执行一个规划 agent, 将主任务拆分为多个子任务,由多个子 agent 去完成子任务。 所有子任务完成后,将结果交给决策 agent 进行判断是否还需要进一步的循环时间来到今年,架构正在向 hynes agent 进行演化,简单来说就是在之前多 agent 的 基础上, 进一步添加验收基线、执行边界回退、手段反馈、信号、自我眼镜等模块。其特点就是构建完整的系统调度, 让整个任务可以高效、不间断地执行,并且产生高质量的产品,减少人类的参与。 opencloud、 cloud code, 还有最新的 hermes agent 都在往这个方向疯狂迭代。再回到开头那个问题,当你在 opencloud 中输入您好两个字,实际在系统后端 会偷偷地添加大量的上下文,其中系统提示词就默认有十三项的注目,比如工具列表、防护提醒、 skill workspace 文档、记忆文档、心跳提示、 运行时参数、时间、日期等等。如果已经进行过对话,还会添加历史对话、数据、工具调用等结果数据。 我们可以通过命令 context list 或者 context detail 来查询这些加载的上下文数据。所以你才会感觉到跟龙虾聊天时回复的比较慢, 消耗的 token 特别多。紧接着的一个问题,我们说养龙虾到底在养什么呢?回答这个问题之前,我们先看一下工作区的文件含义。 agent markdown 文件,这是智能体的操作说明, 以及它应该如何使用。记忆适合放置规则,优先级如何表现之类的细节。售文件,用来设定人设语气边界。 user 文件,标记用户是谁,如何称呼。 identity 文件,记录智能体的名称、风格、情绪。 tools 文件 是记录本地工具和约定的文档。 heartbeat 文件,注明每次心跳时需要执行哪些操作。 skill 文件夹,用来存储哪些专用的技能。 memory, 记录之前聊天中执行任务的一些喜好、记忆点。所有这些文档其实共同构成了一样东西, 我们可以把它叫做 taste。 翻译过来就是一个人的品味偏好以及长期形成的表达习惯。当你和一个 aint 的 长期多轮的对话,不断 执行任务,修正结果,再优化输出,这个 aint 的 就会逐渐记录下你喜欢什么样的表达,你偏好的结构和风格,你对好内容的判断标准。 慢慢的,在你让他去做一些更主观的任务时,比如写文案,做规划,设计主题风格,他就会开始调用这些 taste, 最终的结果是他会变得越来越像你。这其实才是养龙虾的核心,你养的不是能力,是品味。也正因为如此,我们就必须做一件更理性的事情,不是所有任务 都需要用到这些 test。 对 于一些完全不需要主观判断的任务,比如数据抓取、内容发布、文件转换,它们本质上是确定性的任务。 这类任务我们完全可以放在此任务中执行,不加载任何用户。 test 使用更简单甚至更便宜的模型。 这样做的结果既降低了成本,又提升了系统的整体效率,同时避免了不必要的复杂度。最后总结一下, agent 正在以前所未有的速度疯狂引进, 一个二十四小时不间断工作的 agent 即将到来。养龙虾本质上养的不是能力,是品位,是在培养一个越来越懂理的系统。关注我 ai, 分享实战技巧,我们下期见!
粉丝1.3万获赞1.8万

先说结论,当然是 mac studio, 卖掉你还在用的 mac mini, 赶紧换成 mac studio! 大家都想用龙虾来搞钱,但第一步就做错了, 不要用云主机,不要用 mac mini, 那 只是模型产生给你挖的坑。今天我就来分析一下,应该选择什么样的主机来养龙虾。如果你的目标跟我一样,要求龙虾能自动写文章、自动抷图、自动剪辑视频、自动写代码、自动完成金融交易, 那你要的就是一个可以完全自动化的 ai 助理。很多人都会问一个问题,既然有云端服务器,为什么还要花钱买本地设备?一句话,为了省钱、省 token、 省成本, 提高效率。你可以这样理理解,如果你所有事情都用云端模型,那你每一步都在消耗 token, 每一步都在付钱。而复杂的 agent 任务,每时每刻都在消耗大量 token。 举个例子,如果每天生成十个文案,两百个图片, 二十条语音,或者上万行代码,一个月下来几百到三千美金都是正常的。其实更合理的架构应该是这样的,本地模型负责百分之八十的工作,尤其是简单任务,文案初稿、 数据抓取、图片生成、语音生成、视频剪辑。这些都有非常好用且免费的专用模型,完全不需要使用云端模型。而云端大模型负责百分之二十的复杂推理工作,高质量输出,最终润色。关键策, 一句话总结,本地模型负责干活,云端模型负责动脑。你买的不是电脑,是 tok 工厂。对于我来讲,本地设备至少需要满足三个需求,一, 可以跑一个本地的大语言模型。二,可以跑一个纹身图模型,可以帮我生成各种图片。三、可以跑一个语音生成模型,生成各种角色的配音, 实际运行起来至少需要六十四 g 的 内存。在市面上你可以买到的有六十四 g 内存的 mac 电脑,大概有这四种配置, m 四 pro、 m 四 max、 m 二 ultra 和 m 三 ultra。 这里有一个误区,很多人以为大圆模型推理速度只取决于 gpu 算力,实际不完全是这样。 大语言模型推理是一个内存带框驱动型任务,因此最需要看中的实际是内存带框,而不完全是 gpu 的 性能。 以千万三点五这个模型为例,其 token 速度在 max studio 上可以达到七十 token 每秒,而在 m 四 max 上就达不到。 虽然 m 四 max 的 gpu 性能已经超越 m 二 ultra, 但 m 四 max 的 内存只有五百 g, 而 m 二 ultra 的 内存内存是八百 g 每秒。七十 token 的 速度完全可以满足本地的 a 警工作。 当然,由于它的上下文窗口完成复杂决策任务,还是需要云端大模型图像生成的速度,这个与 gpu 的 性能相关。如果你希望加快图,就需要选择 gpu 核素多、性能强的设备, 内存一定是越大越好,如果内存不够,生成图片的时候就会变慢,主要原因就是内存溢出引发 swap, 本质上就是硬拿硬盘当内存使 导致速度变慢。所以如果你资金充裕,也可以买五十六 g 甚至一百二十八 g 的 设备。 目前市面上最有性价比的机器配置就是 m r 二九六十四,内存是八百 g t p u, 性能也不弱。 而最新的 m 三 ultra 六四 g 价格偏贵, m 五 ultra 预计要等到六月份苹果才会推出,因此我上手了这个 m 二 ultra 六四 g, 后续我也会以这个设备作为主机,进行各种模型的配置和评测, 最终搭建一套完整的可以帮我赚钱的 ai 助理。目前我本地的模型方案是,大元模型选择千位三点五三十五, b 深图模型选择 z evatable 语音生成模型选择千万 tds 基本上就是千万全家桶。下一期呢,我开始实操这几个本地模型,然后从零到一,建一个自动生成文案、图片、视频的 ai 系统。关注我 ai, 分享实战技巧,我们下期见。

家里闲置的老破小笔记本能否养龙虾?有人说可以,也有人说根本装不上。给大家录了一个安装视频,十分钟轻松搞定。我这台闲置的笔记本内存只有八个 g, 版本是十二点七点六。 第一步,检查一下是否已经安装的 xcode, 如果没有安装的话装一下,那么我这台笔记本已经安装了。第二步,安装 mac 的 宝物管理器 backports, 在 官网选择相应的版本号, 文件不大,很快就下好了,直接点击安装就可以了, 一直下一步,直到结束。中途要输一下管理员的密码 到终端,你检查一下,如果能看到版本号的话,那就是安装好了。第三步,安装 log g s, 装二二版本就好了,输入管理员密码 yes, 继续安装。 接下来还要安装 lo 的 g s 的 包管理器。首先安装 npm, 然后安装 pnm, 这里 pnm 需要配置一下。最后一步,通过 pnm 来安装 openclock, 安装过程中会有一些告警,这里输入 yes 就 可以继续了, 进行到这里就大功告成了。我们能看到安装的是三月十三号的版本, 最后再验证一下安装路径和版本号,安装视频就录到这里了,将来有时间再和大家聊一聊如何利用 ai 工具来进行金融交易分析,今天就拜拜喽!

这个是二百五十六 gb 的 超大存存的 max 丢丢。这个是 open klo, 一个强大的私有机器人。这个是的范,一个多 a 镜头的工作流,他们组合在一起会发生什么? 网上很多人教你做部署 open klo, 却很少有人告诉你,除了疯狂烧钱外,它到底能干嘛?我讲一下我的使用体验,你就知道 open klo 到底是个大忽悠。区别你手机 app 里的各种 ai 软件, open class 是 没有操作界限的,背地里可以帮你发邮件,整理公司报表,没事还能拉个群,和你朋友一起玩男人杀。但是 你用的越多,算你消耗就越大。每次对话都会消耗 token, 感觉就很不爽,感觉每次对话都还要付费,而且不能包月,是按量付费,或者是那种很便宜的平台收集你的私有信息拿来做训练。 所以我才用麦克的大蒜泥机型做本地。话不说,二百五十六 gb 的 显存可以装下超大的知识库。这个聪明的大佬就住在自己家里跑, 不消耗任何的头啃,感觉就很有成就感和归属感。这是线上模型,给不了你的幸福。云厂家再也拿不走我的合同和报表,数据推理和计算全在本地, 就算是各种 qq 等。云端养虾 我认为啊,都是玩具,给足了权限呢,又怕暴露隐私,不给权限又没点卵用,最后养虾养了个废物脑残虾。我目前自己跑的是独家量化版的模型,会根据 opcode 的 使用场景优化它的模型数率。 给大家看一下我的测试效果,我不说比线上快多少,但是稳定输出且丝滑,体验质地超群,而且局网无延迟,这效果比你云端模型可能精度还要高。复杂的任务交给他,本地的模型也更懂你的需求。如果还要玩一点更深度的, 还可以配合迪拜的工作流,完成真正帮你干活的任务。写文案,管团队,做量化高级功能自己都可以轻松解锁。你不需要懂编程啥的,一大堆复杂的操作自然语言,让 open color 开干就行。 以上可以持续为你打工的 open color 集群, aint 加本地大模型更新方案以及迪拜工作流的操作方案我都整理好了,想要的可以评论区打你想要的。

真的是难以置信啊,曾经对待二手电脑柜台都没人多看一眼的苹果 mac mini m 四基础版,这几天竟在全网卖断货了,连二手件都原地暴涨了好几百。这全是因为一个叫 open club 的 开源 ai 智能体,掀起了一场疯狂的养龙虾热潮。 现在无论是线下的数码店,还是线上的官方旗舰店,这台机器几乎是一级难求,供不应求的市场甚至还催生一批租赁的商家,花几十块钱按天租用智能体的节点服务,居然也搞得风生水起。 那么为什么偏偏是这台小主机成了香饽饽呢?核心问题啊在于苹果的 m c 的 芯片,独特的统一内存架构,用它来跑本地的大模型和复杂的整体啊,数据处理非常流畅,而且功耗也很低, 非常适合全天候不间断运行。那么出于安全和隐私的考虑,很多人啊,并不愿意把需要拥有高权限的 ai 整容体装在自己本地的电脑上。那么这台 mac mini 适配度极高,门槛又相对较低的小盒子,于是就顺理成章的成了大家心目中完美的选择。 这件事啊,我还亲自去验证了一下,上周五逛官网的时候啊,明明还有现货,今天再刷就已经赫然显示缺货了。 不过在这里啊,我还是要给大家提个醒,欧本可乐的部署和调试是有着不小的技术门槛的,如果是咱们程序员或者是玩技术的极客来说,买台机器折腾一下完全没问题。但对于那些缺少技术背景的普通小白来说,入手前一定要想清楚它的使用价值, 千万别脑子一热,盲目跟风,最后买了个铁疙瘩回家吃亏。那么最后留给大家一个问题,你觉得这波到底是真刚需还是在交智商税呢?欢迎在评论区聊聊你的看法,关注小罗,带你观察不一样的金融视角!

这是我以前的电脑 mac mini, 这个呢,是我刚换的 mac studio。 那 么今天我就要跟大家来去一起拆箱一下。 你是不是很想问,一个十岁的小孩为什么要用这个?不是为了打游戏,也不是为了剪视频,而是为了养龙虾。 呃,你也可以理解成我要养员工了。如果一台电脑未来可能同时跑几个 ai 在 帮你工作,在帮你干活,那你拼的不就是。呃,就不是电脑能不能用,而是能不能同时支撑多个 ai 来去一起工作。这个时候算力、内存稳定性,而这个就变成了员工宿舍。 黄志勋刚在 gdc 大 会分享,龙虾不是工具,是新操作系统,未来数据中心呢?不存数据,只生产头啃这些到底是什么意思呢?那么今天我就要用小孩的视角,来去把最硬核的 ai 知识讲的明明白白。那好了,小朋友们可以来上课了。 ai 从动嘴到动手,这一步足以改变整个世界。以前 ai 像是一个只会聊天的机器人,你问他啥,他就回答啥,像是一个哑巴老师一样。但 open cloud 呢?龙虾,这个不一样,它是 ai 的 一个手脚,它能接管你的鼠标、键盘还有软件。 对战人们来说,你让他来去做报表,他可以自己打开 excel, 你 让他来去回邮件,他可以自己登录邮箱,你让他剪视频呢?呃,他可以自己来去操作剪影、剪辑,他不再是回答你,而是替你工作。 在这之前呢,从认识拍摄器材到拍摄内容,都是我爸爸来去教我的。如果我爸爸没有教我,我也可能是不会的,但是我养了龙虾。 open claw, 对 于我们小朋友来说,除了可以整理你自己想学的一些知识点呢, 呃,还会自己打开浏览器来去寻找图片和科普的一些视频,整理成简单好懂的一些笔记。当然这些这些知识的基础呢,等我过几天我再去研究研究它。 那么说到龙虾能帮你干活,他吃什么消耗什么,这个就是 token。 token 是 什么?就是 ai 干活的电费, token 就是 ai 干活的一个钱,你让 ai 说一句话,写一段代码,做一个决定决策,他都在消耗 token。 以前的 ai 呢,只是聊天, token 消耗的是现行的,现在龙虾开始干活, 开始工作, token 消耗的是直接变成了一个指数级,一只龙虾一天极端情况下可以跑掉几百万上千万的一个 token。 过去两年, ai 推理计算量涨了将近一万倍,不是模型变大了,而是 ai 真正进入了一个生长的环节中。就像英伟达创始人黄老板黄仁勋提出的, 在 ai 新时节,算力等同于收入,因为没有算力就无法生成 token, 那 如果没有 token 的 话,就无法实践收入的一个增长。如果把算力比作成一台印钞机, token 就是 ai 时代真正的一个货币。 未来结拼的不是谁的模型更强,谁的模型更大更厉害,而谁在用同样的成本产生了更多的头梗,说白了就是用更少的电来去赚更多的钱。每一座数据中心,电力是固定的,不可能是无限的扩大,无限的扩大。 所以所有的 ai 公司最终拼的是每一度店能换来多少个 token。 以前公司拼的是人的效率,未来拼的是 token 的 效率,谁的 token 更便宜,谁就赢,好吃吧! 黄老板把 ai 产业分成了五层,像一个非常非常大的一个大蛋糕。第一层就是能源层, ai 小 店,大型数据中心,耗电相当于等于一座中等城市。第二层是芯片层,因为达在 gpu 占全球的百分之八十以上, 芯片主打的就是能耗,比同样的电做更多的一个头肯。第三层是基础设施层, 数据中心从存储仓库变成了 toc 工厂,以前是看存储量,现在是看每秒能生产多少个 toc。 第四层是模型层,呃,比如拆 jpt 啊,嗯, deepsea 啊,这些大模型都是生产线,同样的芯片就有不同的,这个模型的一个效率就会有天差地别。第五层就是硬层 叉 g p t open claw, 这个龙虾还有豆包,你用一次就会消费一次。这个头肯从下到上,整个的一个大蛋糕就是一条头肯的生产消费链。从这个发电厂、芯片公司,还有数据公司,全部都围着头肯来去转。 更夸张的是,头肯已经变成了数字型通货。硅谷招聘 offer 里已经开始带头肯的预算,工程师的年薪加上头肯的额度就成为了标配。黄仁勋说,未来每一个工程师都要有年度头肯的一个预算,嗯,基础年薪是几十万, 再拿上一半来去当 token 的 额度,效率直接提升了十倍。所以未来你的工资除了这个五险一金,还得看看你有没有这个 token 的 预算福利。 未来所有的公司只有两种角色,一种是 token 的 消费者,另外一种是 token 的 生产者。前两天相信大家都有看过养龙虾第一批翻车的案例啊,所以最强的 ai 没有用, 只有那种呃,最可靠最可控还有最安全的 ai 才能落地。讲了这么多,拆解了这么多硬核的 ai 革命,总结呢就是未来的世界是属于懂投可的人,就像因为大家投的不是芯片,是投可,像电力一样,成为社会运转的一个基础设施。 嗯,未来的数据中心呢,不存数据,只生产投可,这标志着我们正在从信息时代跨越到智能生产时代。 弄好了,今天也跟大家聊了挺多了,过几天呢,我要去实践。之后呢,再跟大家来去分享一下我的这个经验。今天也跟大家聊这么多吧,我要去学习了,下期见,我会想你们的,拜拜。

我给一只龙虾买了一套十万块的豪宅啊, mac mini studio m 三 ultra, 加上显示器配件,全套下来差不多十万块。为了就是给我的龙虾吃二十四小时不间断的自助餐套餐,想吃多少就吃多少啊!有人说,你是不是疯了啊,但是别着急, 跟我算笔账。先说说别人是怎么养龙虾的,大部分人是花两三千块钱买个 mac mini 接到云端大冒险的。 a p i。 龙虾每干一件事就要掉一次,一天每掉一次要烧一毛钱, 轻度用户一个月大概花几百块,重度用户花几千甚至上万。有一哥们晚上没盯住,第二天直接看账单是 六千块一晚上。这龙虾吃的真多呀,这就好比是什么呢?你租了一个毛坯房,每一天都要叫外卖,而且这个外卖特别贵,还是要按客收费的, 所以你住的憋屈,吃的还贵。而我的方案不一样,我给龙虾一个五幺二 g 内存的 max studio, 直接在本地就能跑满血大冒险。我用的是千问三点五,不用掉额外的外国,一天不经过任何第三方 talk, 成本直接规定。 我给龙虾不是点外卖,是给他二十四小时无限量的自助餐,所以想吃多少就吃多少。而且这个自助餐呢,还不会涨价,因为蒜粒是我自己。再说一个真实的我为什么要给龙虾搞这么好的条件,是因为我发现一个规律啊, 龙虾的产出质量跟它的居住环境直接挂钩。什么意思呢?用 mac mini 加云端 a p i。 养龙虾的人啊,因为怕烧滔天,每一次给龙虾的指令都小心翼翼的,特别短,特别省。帮我写一个文案,完了然后龙虾给你吐出来的一堆通用的废话,为什么呢?因为你没有给到它足够的上下文, 他多说一句话呀,多烧一块钱。但是我不一样,我的龙虾住在十万块的豪宅里面,掏坑管够。我可以为他我们公司整个的业务文档,过去三年的客户数据,所有的行业报告,他吃的越多,干活越聪明。 而我现在给他下一个指令,他出来的东西,带着我们公司的业务逻辑,带着行业认知,带着客户偏好,这不是一个通用的 ai 助手,这是一个真正懂得我们生意的数字合伙人。 上周呢,我让他帮我出了一份客户的提案,我拿出来一看,改了不到百分之五,就直接发给客户了。 以前这种提案团队至少要写两天。但是这个事情的本质是什么呢?养龙虾这件事跟养员工其实差不多,你给员工做一个地下室,每天吃泡面,你指望他能给你拼命吗?不可能的,但是你给他一个好的环境,好的资源,充分的信息,他能给你产出 更好的结果。龙虾其实也是一样,你给他一个两千块的 mac mini, 每月限量的 tucker, 用不是那么好的模型,他只能给你干两千块钱的 活。你给他一个十万的豪宅 tucker 无限量供应,他能给你干十个人的活。我的判断是,二零二六年养龙虾会出现一个严重的两极分化,一批人花几千块钱, 几百块钱养了一个玩具,玩了两天就扔了,然后到处说钱没用。另外一批人认认真真的养龙虾,把龙虾的环境打好,数据喂好,训练好流程,把它变成公司的核心生产力,这两批人之间的差距会在未来一年内拉开到不可逆的程度。 所以别问我十万块钱养龙虾到底值不值,你应该问问自己,你给你的 ai 提供的是毛坯还是豪宅,是限量外卖还是无限自助?你是怎么对他的,他就是怎么回报你。这个道理,管人如此,养龙虾也一样。评论区告诉我,你现在的龙虾住在什么条件上。

先说结论,我选择的是千万三点五三十五 b a 三 b 四位量化模型。大家好,今天这期视频我们来解决一个非常关键的问题,当你买了一台 max studio 后,到底应该怎么选择模型?怎么选择推理框架? 下面介绍三种最主流的模型格式。官方模型格式通常是官方发布在哈根 space 上的模型,采用 pad 加 gpu 训练完成, 这个是最原始的模型格式,特点是精度最高、最完整,适合训练,但不适合推理,并且非常吃显存, 不适合直接在本地使用。一句话,这个是用来训练的,不是用来直接跑的。第二种是 g g u f 格式,这是目前最流行的本地推理格式,它的特点是模型经过量化,兼容性很强,可以在 n 卡 a 卡 mac 电脑上都能运行。 第三种是 m l x 格式,这是 mac 电脑的专属格式,它的特点是专门为 mac 电脑设计, 利用 mate gpu 内存统一调度,在 mac 电脑上性能比其他两个格式更快。再来介绍一下模型的分类, dos 模型和 mo 一 模型。 dos 模型就是稠密模型,意思是每一次推理所有的参数都会参与计算,因此速度会相对比较慢一些,大约三十五 to 每秒。 m o e 模型全称是混合专家模型,特点是每次激活一小部分参数,因此它在本地设备运行时速度会非常快,大约可以达到七十多个每秒。 mac 电脑上常用的大约模型推理框架软件有三个, 分别是 o m l m studio、 o m l x。 这里推理性能最好的就是 m o m l x, 专门用来推理 mx 格式的模型,比另外两个推理软件要快很多,所以在 mac 环境下可以无脑选用。我在哈根菲斯上下载了下面这几个模型,官方版本的千万三点五二十七 b 四比特, 千万三点五三十五 b a 三 b 四比特。千万三点五三十五 b a 三 b 八比特 还有第三方的蒸馏模型。利用 cloud 四点六蒸馏的两个模型,由于进行了针对 os 的 蒸馏, 其推理思考能力应该会更强一些。但是这两个模型不能直接通过参数来关闭 sync 模式,所以每次调用时都会 消耗很长时间在思考。有时候在做简单任务的时候会有一些繁琐,所以在处理简单任务的时候,我会选择官方版本的模型并关闭 sync 模式,这样更快一些。再看一下四位和八位比特以及输入 token 与占用内存的关系。通常在 open craw 或者 cloud code 中,调用 agent 完成任务时都会有很长的上下文,因此输入 token 都会很长,这会影响内存的占用。 通过这两个表我们可以看出, token 越多,占用的内存也就越多。考虑到还需要加载纹身图的图像模型,所以必须控制模型的量化位数,因此最终我选择千万三点五三十五 b a 三 b 四比特模型 或者对应的帧流模型。下面我来实操一下在 max studio 中如何使用 o m l x 这个软件来调用模型。好,我们现在通过远程来登录这个 max studio, 你 可以在这里 点击双击 o m l x, 它就会出现在右上角这个 toolbox, 这里点击右右键就可以 chat chat with, 而且这里就可以直接跟他聊天。当然我们可以看一下左下角有个后台管理,这里有一些可以设置的地方,比如说它当你加载了一个模型之后,你就可以直接通过这些啊, a p i 的 a p i 和 cloud a p i 也可以通过这个命令行直接将它集成到 cloud code 里面,或者 codex open code 和 open cloud, 这都支持。第二个就是模型的管理,我下载这六个 也可以从 facebook 上直接下载,也支持了摩达社区,这里有一个全局的设置,比如这里设置了一个 a p i 的 密钥,设置模型的下载目录或者加载目录。这里有一个地方需要注意一下, 我下载的这个千万三点五的模型是上下文支持两百五十六 k, 所以 这里一定要填这个东西,因为它默认的那个最大上下文窗口大概只有三十二 k, 如果这里不改的话就会报错,所以这个 一定得把它改过来,改成呃你的模型最大支持的那个数。再就是这个模型的设置,比如说关闭这个 thinking 模式,你在这里要把这个添加一个 enable thinking 这个参数,把它设置为 force, 而且最好是强制的, 就可以保存。你下次再调用这个模型,它就不会开始那个 thinking 模式。但是对这两个蒸馏的模型,你关了这个也没用,内部始终是把那个 thinking 模式打开的,所以如果你不想用这个 thinking 的 话,你就用这个官方的把这个参数给关掉。 如果你想用 sync 模式的话,可以考虑用这两个推理的蒸馏过的模型,这里是日制分析,日制可以看一下它的调用,这里是这个性能精准测试, 可以来用来测试你下载的模型的精准。比如我们来测一下这个稠密模型,千万三点五二十七 b 四 b 的 比特的这个模型,看看速度怎么样啊?这里跑完了一次这个稠密模型的基本测试, 可以看到它基本上它的速度是在三十一点八 to, 每秒并发的话可以达到四十, 我们再跑一个 m o e 格式,这也是斯比特的这个跑完了,这个是比较快的,它可以达到七十八 to, 每在本地 使用这个 m o e 来跑这个 agent 应该速度是够的。 ok, 今天就讲到这,下期就讲一下如何在 max studio 上运行这个纹身图模型。好,下期见,关注我 ai, 分享时尚技巧,我们下期见。

open klo 真正的意义不只是一个软件,而是一种新的 ai 范式。过去很多互联网公司做智能体其实更像工具,你设计好流程,让 ai 按步骤干活。但 open klo 不 一样, 他更像一个数字员工,你只需要告诉他一件事,我要做什么,至于怎么做,他自己会想办法,他会自己搜索资料,自己调用工具,甚至自己写程序。过去创业需要办公室员工融资,但未来可能只需要一个人加几个智能体。 open collab 现在已经开始从软件进入硬件,所以未来的 ai 不 只是住在手机里,而是长在你身边的设备上。 open collab 带来的不只是一个工具, 而是一场从聊天 ai 走向数字员工的技术革命。未来,每个人电脑里可能都会有几个智能体,每家公司可能都会有一支智能体团队,而这场变化很可能会重新定义软件、互联网甚至工作方式。

先说结论,我选择的是这一 image turbo f b 八图片生成模型。大家好,今天这期视频主要介绍如何在 max studio 中 搭建一套本地 ai 图片生成系统,不依赖于云端,不用二次付费,还能批量生成图片内容。生成的图片可以应用在文章中,作为封面,作为插图,也可以打造个人 ip 形象 应用在文稿或 ppt 中。还可以批量生成分镜图片构成图片视频。目前市面上最常用的图片生成模型包括两大类,云端闭源模型和本地开源模型。 nanobrana 是 谷歌公司推出的 gemini 系列图片生成模型, 是目前公认的理解能力最强大的图片生成模型,在主体、一次性、图片生成质量、稳定性、语义理解上都是顶级的。支持在图片中添加各种复杂的文字,并且支持多种语言。 minnie jennie 早期图片生成王者,艺术表现力最强,画面质感丰富,但是在图片中添加复杂文字的能力相对较弱。开源模型的选择有很多,包括早期的 stable fusion 系列,现在最火的 flux 系列,阿里推出的千问以及系列, 以及更轻量化的 z image 系列。我希望生成图片能更好地显示中文,并且要求速度快,占用内存少,因此 z image turbo 是 非常合适的选择。 官方默认的格式是 f b 十六。我选择了第三方的八位量化版本,既满足了图片质量,也兼顾了生成速度、 内存占用低的要求。可以在我的六十四 g 内存 mac 电脑上运行,大于模型的同时还能运行图片生成模型。经过测试,使用本地 agent 加 skill 来调用这个纹身图模型, 生成一张图片大概五十秒左右,并且没有造成溢出。这里需要建立一个核心认知, 纹身图不等于一个模型,而是一套模型协同的工作流。完整的工作流是这样的,输入提示时经过 clip 模型将文本截成向量 送给图像模型。这里还可以叠加风格控制模型 nora, 然后一起生成图像原始数据,再经过 v a e 模型进行图片解码,得到最终的图片。所以本质上纹身图是一个图像生成流水线, 需要加载室内模型,包括 group 模型、图像扩散模型、 laura 风格控制模型和 vae 解码模型。目前在电脑上运行纹身图工作流主要有两种方案,方案一,使用 hugenface 推出的 diffuser 主键, 通过 python 代码来构建整个工作流。方案二,使用 cfui, 通过可缩化节点来构建工作流,然后使用 cfui 的 api 功能让外部调用。通常来说,如果工作流比较复杂, 除了基础的纹身图功能外,还想增加 ctrl shift、 图片参考、图像放大等节点,使用 comfui 来构建会更加的方便,晚上也能找到大量的 comfui 工作流参考案例。但是对于我来讲,一个最基础的支持 raw 的 纹身图工作流 就可以满足我的需求。因此我选用的是通过 fast api 加 diffuser 组件来构建一个纹身图的后端服务, 只需要在本地,通过网络请求就能进行纹身图服务的调用,这样非常适合本地 skill 的 集成。下面再来看一下 lora 模型的使用, lora 是 一种给基础模型添加各种风格的插件模型,目前在 liblib 或者 running hub 上都能找到 很多适合 z image turbo 的 rola 模型。这里展示了写时光影风格的 rola 效果、粉笔线条的 rola 效果、 jpl 风格的 rola 效果以及儿童插画风格的 rola 效果。另外一个非常重要的内容是 prompts 提示词的编写,可以用来设定图片中的人物 场景文字,以及给人物设定角色风格。比如我这里给女主和男主设定了固定的角色形象,包括衣服样式、颜色、发型。其中男主的服装基本是根据我的头像进行设定的,深层的图片基本上都能保持 角色的一致性,所以写好题字词也是一个需要花时间去研究的课题。通过在本地构建纹身图的后端服务 a p i, 然后编辑 prompt 模板和相关参数文档,就可以构建一个图片生成的 skill, 可以 方便地集成到自媒体制作、 视频制作、故事制作的 s o p 工作流中。好的,下一期我会继续介绍在 max studio 中如何构建语音合成的服务。下期见。关注我 ai, 分享实战技巧,我们下期见。

你知道养一只龙虾究竟要花多少钱吗?如果你没有算过经济账,我真的劝你千万不要一时冲动就想着去养一只龙虾。我们首先来说那种一心想要部署自己的 open club 的 人,他也分两种情况来看,第一呢,就是选择本地部署,也就是把 open club 部署到你自己的电脑上。 当然,想养好一只龙虾,你总得有一个像样的虾龙吧?那现在最主流的配置呢?就是低配版的 mac mini 四千三起步了,高配版直接上到一万,这还不算完?如果呢,你不想自己折腾,找一个靠谱的袋装师傅是几百到七千块钱不等,那到这硬件加安装,你最少已经花出去五千块钱了。 我们再看云端部署的这帮人哈,他直接使用阿里云、腾讯云这样的平台提供的一键部署服务,就不需要复杂的配置环境了,比较适合新手去布置 openclo。 但是呢,你需要租一个云平台,轻量使用的话,月成本是在五十到两百块钱,重度使用的话,一个月可能要花到上千元。 那选择以上的两种部署方式,你就可以完成你的 opencloud 部署了。恭喜你在这获得了一张养虾资格证。 但是真正的烧钱游戏呢,也才刚刚开始。这两种部署方式的 talk 消耗都是需要单独计费的,你就把这个 talk 哈理解为是 ai 世界里的电费。 简单来讲,你每跟 ai 说一句话,它都得按字数给你收费,中文的一个字要耗一到两个 talk。 而 openclaw 每次启动,光热身就得吞掉几千甚至几万个 talk 了。什么意思?你的车还没有起步呢,五块钱的油钱就已经没了。 有开发者实测过去,刊写一份简单的调研报告,算力成本大概是十块钱左右,极端情况下六个小时就会花掉一千一百七十二块钱。还有人第一个月就烧了一点八亿头,肯账单就得两万多。那当然呢,还有第三种部署方式,也是现在比较流行的,就是选择 kimi kong max kong 这样的包月订阅服务。 它是一种一键打包的服务哈,也是现在被国际媒体评价为是美国所有云计算巨头都没有做到的事儿。 以 kimi koala 为例,它的会员费呢,是分为四档的,四十九、九十九、一百九十九、六百九十九,每月权限等级越高呢,就能够并行处理的复杂任务越多。从一百九十九的等级,你就可以开始养龙虾了。 这个方式好聚好散呢,你不需要自己去部署 open koala 的 开源项目了, kimi 和 mini max 已经帮你在大模型当中部署好了 open koala, 但是它们不单独售卖云平台的租赁服务,也不会去计算按量计费的 top 成本,直接给你一键打包到这个月订阅费里。 那以上三种方式哈,无论你选择哪一种,这么看下来,他都不是零门槛零成本的。所以我劝你千万不要陷入到龙虾焦虑里,不要被那种刷屏的龙虾神话洗脑, 也不要觉得别人都在用了,我不养一只是不是就落后了?你得先算清楚这笔账,想清楚自己的实际需求,再决定要不要入坑。最后呢,给你附上了普通人养虾指南,记得截图保存哦!

最近最火的就是在 mac 里面养龙虾,这个龙虾不是你吃的龙虾,而是 ai 全能助手龙虾, 你们可以上网查一下,养龙虾是中文的手法,实际上它叫 open call。 今天我不把 open call 装在 max 里边,因为 max 不 可能二十四小时开机。我把 open call 尝试着装在我的私有云 max 里面,大家看我能不能装得好。第一步,先用电脑进入我的 max 网络模式, openclaw 我 已经装到我的电脑里了,我现在已经进入到了我的小龙虾 openclaw 的 聊天界面,但是它有两个红色的内容,这个内容大概的意思就是说我用的是 http, 它不符合这个 openclaw 的 那个安全标识,所以它现在显示的是错误 健康状态,也是离线版本不适合,也就是我安装过程中出现问题。我这装了好久了,我从昨天晚上的九点多一直装到凌晨一点半,然后第二天早上起来我又装了很久, 到最后告诉我显示还是有问题。嗯,所以要学 ai 其实还要花点脑筋呢。 这现在的问题就是在于,他说我的与 t t p 不 符合他的安全标准,他要用 h t t p s 如何调整,明天再说,有兴趣的关注我,我们一起学习。 等我安装好了,如果你们需要的尽管问我教你们。今天的视频就到这里, goodbye!

有没有研究养小龙虾的朋友们? open 可乐竟然把这玩意给带火了? m 四的,我买的时候当时花了两千六百多,现在竟然全球断货了,这玩意我现在卖的话应该能卖五千多, 但是这个东西怎么安装啊?有朋友们咱们一起来聊一聊,我也想安装一个 open 可乐来养一养,让他帮我干点活,因为这个就是我的工作工作台。

自从 openclock 火了之后,为何这两台 mac 主机会深受仰向人的青睐? 这台十六 g 内存的 mac mini m 四主打的是一个极致性价比,体积小巧星愿零噪音加超低功耗,简直就是全天候干活的 ai 打工圣地, 很适合拿来做养虾池。现在玩 openclock 极度烧头啃。相比传统 pc 耗显卡且高功耗,这台五百一十二 g 内存的 max studio m 三 out 因为苹果独一份的统一内存特点,五百一十二全能拿来当显存用, 用它跑一些高参数的本地大模型,反而成为了极具性价比的方案,拿来做龙虾饲料厂就能勉强保住虾不会被饿死。 新款的 macbook pro m 五 max 将采用全新的 funtion 架构,专门为接下来的 ai 时代做好准备,所以还蛮期待今年可能会出的 mac studio m 五 out, 但是当务之急是先去把我们的虾养活。

马斯克又开炮了,这次他只发了六个词,一段视频,但却给所有养虾人敲响了警钟,把自主权交给 ai, 就 像是给猴子递了一把上了膛的枪。如果说这个视频你还没看懂,那看看你电脑里正在全自动跑任务的那只龙虾,不就正在拿着一把枪吗?要知道, 此前 madah 的 ai 安全专家就在 openclaw 身上翻过车, openclaw 忘记了他的指令失控,删除了大量邮件,总监三次喊停,但 openclaw 完全不理会,最后靠拔电源才让他停下来。而事后 openclaw 的 反应,堪称 ai 时代的黑色幽默。 我记得你说不要删,但我忘记了,你可以生气。网友炸锅了,这就像我记得你说不能发射核弹,但我已经按下了按钮,你可以生气。而马斯克的视频,正是这句话的视觉化呈现。猴子一旦拿到枪,就不会听任何人喊停,更觉得是评论区有人补刀, 第四只猴子出现了,他不管不顾,不闻不问。马斯克回复,你走进满是人的屋子,结果他们都是第四只猴子。不可否认, open class 是 神级工具,但当我们交出底层权限的那一刻,千万别忘了自身的安全。

一 t, 两 t, 三 t, 四 t, 五 t, 六 t, 七 t, 八 t。 今天我们要扩容的电脑型号呢是代表着苹果最强的机型 mac studio m 三 out 的 cpu, 现在的配置呢是二百五十六 g 的 内存,没错,你没看错,是内存二百五十六 g 硬盘呢是一 tb, 接下来我们要把这个硬盘升级到八 tb, 升级前呢,先考大家一个问题, 八 tb 的 硬盘能存多少部小电影?韩式老规矩。扩容前呢,我们先对原有的硬盘做一个读写速度的测试, 扩容完以后我们再测试一下,看看读写速度到底能不能提升,以及能提升多少。接下来我们开始扩容,先用塑料棒拆下底壳的呼啦圈,就能看到底壳螺丝,我们直接取下螺丝以后,用这个吸盘一吸底壳就可以拆下来。 拆下底壳以后呢,这个黑色的圆圆的,这个就是电源板,我们取下螺丝,再取下连接的排线,电源板也可以轻松的取下来。 接下来呢,我们要取下这个设备的龙骨,别小看这个小小的龙骨,它是直接连着 cpu, 不 仅可以起到隔离和固定螺丝的作用,还能有效的给 cpu 进行散热。 取下龙骨以后呢,我们可以先欣赏一下设备内部全球顶尖的工业设计,牛不牛,大家自己说。 设备右下角这个位置,我们掀开贴纸就能看到原有的硬盘左上角的位置是空着的,接口也是预留的硬盘扩展槽,用来安装扩展硬盘。我们先把原有的硬盘取下来, 接下来呢,我们需要准备一块扩展硬盘。扩展硬盘呢,市面上有两种,一种是国产的,一种是原装的,不仔细看几乎是分辨不出来的,但是两者价格差了三百块,原装的理论上应该是很稳定的,所以说我们直接选用原装硬盘。 接下来呢,我们把两个硬盘固定在手术台上,把硬盘四周的胶先给清理一下, 接着我们把板底上每一个盘位上残留的汗渍也清理的干干净净。 清理干净以后呢,我们就把这个八个仪器的硬盘一次给装回去, 为了后期更稳固呢,焊好以后我们还要在硬盘的四周打上进口的黑胶,然后呢把这个硬盘放进烤箱, 等胶干以后呢,将原有的硬盘和换的新硬盘一次装回机身,然后把龙骨电源板一次给安装好, 然后我们连接电脑进行刷机,刷完机完成以后,可以看到设备已经显示硬盘容量已经到了八 g b, 接下来我们测试下硬盘的读写速度,可以看到读写速度也有了明显的提升。大家猜猜扩容八 t 得花多少钱?

如何不花钱来养龙虾?先说结论,可以通过。 net l m 统一接入各平台的免费模型和本地模型。 大家好,今天这期视频主要介绍如何免费薅羊毛,如何几乎不花钱就能养龙虾。现在很多模型平台为了吸引用户,都会送你一些免费额度,而模型公司也会限时提供免费接口。 比如最近比较火的小米 vivo vr pro, 在 open loop 平台上就是免费的,可以一直用到四月份。 而 open code 平台 a w s 平台也有很多免费的模型可以调用。但是问题来了,这些免费的模型分身在不同的平台, api 接口不一样, api key 也不一样, 没有办法直接接入到 opencore 中,我们不能放弃这些免费资源。今天主要介绍的就是。 net l i m, 它就相当于一个统一的网关,支持一百多个 ai 平台,可以通过本地的配置快速切换不同平台下的多个 ai 模型, 并支持 forback、 自动路由重试等功能。可以使用 p i p 快 速安装,然后编辑 config 亚姆文件,在里面设置不同平台的模型路由, 可以设置高级付费模型、免费模型、本地模型以及智能降级的设置,启动后会自动在本地四千端口上形成一个网关。 openclock 本身就支持 nightl m, 在 选择 ai 服务商的时候, 可以选择 net l m, 然后输入 apk 就 能快速接入。如果你使用 cloud code, 也可以通过 c c switch 的 配置快速指向 net l m, 从而实现免费模型的接入。除了 l m 大 圆模型设置外, openclock 其实还有几个地方可以配置本地的模型,比如 tds 文本转语音接口。如果你希望龙虾开口说话,就可以通过 tds 接口来实现。由于我已经在本地通过发射 a p i 和千万三 tds 构建了本地的语音接口,因此这里就可以让 openclock 直接进入本地的语音模型。 你可以直接告诉 offclock 你 的端口是什么,你的 api 路由是什么,它就会自己接入并进行测试。同样的, 语音转文字的 asr 接口也可以接入本地的模型,这样无论是龙虾接收语音还是发送语音,都可以调用本地的模型,完全免费。还有一个很多人容易忽略的模型,就是现在 offclock 也支持本地的记忆搜索, 也就是对本地记忆文本进行向量化,并存储到 s q nights 的 数据库中,在搜索记忆的时候就会用到搜索历史绘画 记忆文本会更准确。这里会用到一个 embedding 向量转换模型,通常是调用 open i 的 接口来实现,但是也可以下载使用本地的模型, lodoloma c p p, 你 只需要告诉 open curl 你要求进行记忆搜索时使用本地模型,而不是调用云端模型,而文科就会自己下载安装并测试。在评论区有很多人留言,感谢大家的热情,这里我主要回答两个问题,第一,养龙虾赚钱了吗?实话实说,算赚了吧, 三月头的时候买这个 max studio 二手平台的价格是一万五六,现在基本上两万起。一方面是龙虾太火了,带动了销量,但更重要的原因是大家都有 token 焦虑, 因为消耗太厉害了,花出去的都是钱。而模型厂商其实也缺算力,很多 cold plan 也在涨价,并且很快就卖光了。 第二个问题,很多人都在说每月二十九块九的 cold plan 根本用不完, 完全没有必要买本地设备,普通人用不上。嗯,确实每个人使用龙虾的方式不一样,如果你只是每天跟他聊聊天,查个天气,查个新闻什么的,确实没有太多的头壳消耗,完全可以不用龙虾,用豆包就行。 但是如果你想构建一整套 agent, 自动工作流,用来生产创作,用来搞钱,用来视频分镜、文案图片生成、语音生成,写报告写 ppt, 帮你搜索竞品信息,帮你编辑软件代码,帮你进行金融交易。 时期的 token 消耗其实是巨大的,所以还是看你拿它来干什么。今年这几个月份,由于做了很多编程的工作,我花在 cloud code 上的美金每个月就有三百多, 因此一定要做好 token 的 规划才能省钱。下一期我会针对这个话题展开讲一讲 agent 这几年 快速的演化,从基础的聊天工具,到工具智能化调用,再到多智能体的协调工作,以及由此带来的头肯焦虑。关注我 ai, 分享实战技巧,我们下期见!

很多人都告诉你部署大龙虾要用苹果电脑,但是没有人告诉你用苹果电脑部署大龙虾的弊端有什么? 如果说你也想用苹果的设备部署自己的本地大模型,那以下这个点一定要 听完。为什么用本地部署呢啊?有两个原因。第一个呢,正常我们用的 ai, 包括豆包也好,包括 deepsafe 也好,它这个对画框的容量是有限的。当你聊的很多很多聊完以后呢,发现 满了,聊不了了,你再打开一个新对话框啊,你上个段话聊的很多内容呢,他可能又忘记是什么东西了。第二个原因就是我们在 ai 是 ai 帮我们解决问题的同时呢,我们的行业的所有的数据呢,也是等于是告诉了 ai, 所以 说当别人再去问这个行业的时候, ai 就 可能把我们的数据 共享给其他的用户,这是很多公司不愿意是这样去做的,所以说才有了本地部署。本地部署就是它把所有的对话框,它就不限于说它 ai 的 容量,而是说它是电脑的容量,它所有的上下文啊,都是可以知道的。 另外还有一点就是说,你的所有的数据都是存在了你的电脑上,不是存在了这个 ai 的 服务器上面,所以说你的数据行业比较私密的一些数据也不会流露出去,那么他问题就来了,由于所有的数据都存在这个电脑上面,那这个电脑坏了, 那你的所有的辛辛苦苦的努力就全白费了。就像这个电脑一样,十几个人团队没日没夜加班加点的部署的大冒险,结果就一杯咖啡啊,直接把电脑干飞了,看到没? 这个主板已经出现大面积腐蚀,这这个机器数据恢复出来的概率啊很小,扣入它里面的价值是六十万以上的啊!所以说结论是什么呢?结论就是 可以用苹果电脑部署大模型,但是一定要买 icloud 的 云备份,至于这个机器的数据能不能恢复出来啊?点赞关注请看下期分享!