为什么很多人说这个微软哪里哪里不好?我为什么就是说跟他们是不敢苟同的,就是我觉得他们说的都很肤浅,包括他们不知道 gdp 也好,然后 colt 也好,他们的母公司,现在其实他们都很缺钱,都是在疯狂的融资,疯狂的烧钱, 买显卡了,买芯片了,买烧钱了,做数据中心了,买算力了,跟云了使劲绑定了,进完这个云进那家云,对吧?他们很很缺滔克了,他们不断的训练新的模型,他们需要融资呀,他们的变现模式没有大家想象的像这几个巨头那么好,那么成熟, 他们的变现除了订阅、卖滔克,他们想不到跟 c 端、 b 端怎么样,马上去想到一个很好的一个变现模式。所以说这场仗只是刚刚开始, 大家不要觉得啊,这就是最终版了,这就是好用了,不是的,你眼前的这些公司,不一定十年后还活着,不一定五年后还活着,你不知道是哪些公司最终有可能还是大公司,然后都会花一些,因为大公司他们很多年前就做了这个云,但这些公司他们哪是哪有时间去做云啊,对吧? 哪有时间去做铺垫?他们都是新型公司,他们的变现模式也不敢跟 c 端消费者、 b 端消费者要太多钱,因为竞争嘛,你你你敢,你敢烧钱,就会有一家免费的来竞争,对吧?所以他们的商业模式是不如巨头的。
粉丝571获赞1.5万

大家好,我是最近 antarctic 面临了一个算力上的问题。大家都知道 antarctic 现在是御二家或者叫双雄,之前大家讲的御三家是 oai, antarctic 还有 google gemini, 但是 google 好 像他们的战略上考虑是把 gemini 整合到他们自己的应用,整合到 google workspace 上面去,所以目前你没有看到它在一些企业应用上有一些发力。 当然他这都是一些战术储备嘛。因为 google 家是有从算力一直到模型的权重,所以他有一天可能会做出来一些比较爆发式的东西。但目前我们看到的就是 antarctic 跟 opni 在 竞争,这个双雄里面是一个。 antropic 今年的增长是比去年高了十倍,去年它是三 billion 的 收入,今年它的收入是三十 billion, 大 量都集中在企业端,很多企业去买 antropic 的 api, 然后去订阅它们的服务,用它们的模型。 但也是因为去年他没有意料到自己能够有时差的增长,所以他走的路线一直都是轻资产。我不去建算力中心,不去建所谓的数据中心 data center, 而是我去找别人租算力,我去找云厂商那些 hyper scalers, 像谷歌,亚马逊还有微软去租他们的算力来服务我的这个企业端。 o k i 之前选择的路线是,他发现自己在算力端的攻击严重,于是他就开始去 p u a 他的一些上游上去找奥尔口,奥尔口就是巨大的优势 loser, 他 让奥尔口去基站,去建数据中心,他就给奥尔口下订单,以后他就可以有更多的算力作为他的储备 and topic 之前没有做这种战略上的布局,于是导致它现在在需求暴涨的时候,它的算力供给不够了。这也是最近 c 端的用户可能会有一个明显的感触,就是如果你用 cloud 的 话, 你会发现它降至了。对,你会发现 cloud open 四点六明显的降至了,那里面一个主要原因就是最新的那个 cloud, 你 去看它代码,它有一部叫做 adaptive thinking, 它是根据你给他提问的问题的难度来自动地调整它推理的强度。 对,那么很多时候他就把推理的强度设置成中强。所以你本来一个问题,可能这问题是有点复杂的,但他只用中强度的推理,就会导致他虽然交付的结果,但是这个结果看起来跟他所要达到的那个效果是完全不一样的。 具体说来,或者你更深究一点的话,实际上所有推理都是模型的成本,他推理的这个头肯越多,他的推理成本其实越长,用户期待的只是最终的结果而已。所以如果你把推理程度调成中等了,那么推理的那个思维链会显著的变短,那么你推理的成本其实就下去了。但是用户还是获得了结果, 理论上应该没有什么问题,但问题就是说这个结果用户不满意,于是他最近在很多人都疯狂骂他之后,他又把这个强度给调回去了。另一侧你可以看到的,比如他前阵子砍掉了小龙虾,如果你订阅了 club 的, 就是两百块钱一个月最高的那个 plan, 你 也不能把它用在你的小龙虾上。 为什么?因为他 c 端的这种订阅制,他是一个自助餐,有一些用户他订阅了两百块钱一个月,他用很多,而且是用了超过两百块的价值的。 对,那他实际上在 cloud 这边,他是通过一些自助餐没有吃饱的这些人,从这些人身上赚钱,去补贴那些在自助餐店吃特别多,吃回本的这些人。 但是小龙虾对一个应用,它可以让所有人都少很多头啃,所以他受不了,他本身算力没有那么多,所以他把这方面卡掉了。但是你说他短期之内他也不可能就买到很多的算力,因为很多数据中心他们的算力都是已经被订单下完了。 他如果现在要去,不管是下新的订单,或者自己想去筹备建数据中心,他都会有一个物理上真正需要等的时间,就是你要建议做数据中心,他跟我们做软件不一样,软件你可能花个几天能写出来,但数据中心你是真的要去租地,去建厂,去让各种人去搭建, 他是有真实的摩擦的,所以这个东西他即便要很快的下来,他其实也要等个至少半年的时间。那么在这半年内,他现在的解决方案就是用价格调整需求, 因为他现在满足不了这么多的需求,那没有办法供给这么多的算力,就通过价格让一些可能之前薅他羊毛的人,现在薅不了羊毛了,现在你不用花钱了, 等到他的数据中心建完了,可能是明年,那我们也不知道到时候战局如何,包括他一直迟迟不发的那个 misos 模型。有一种说法是说 misos, 他 claim 说 misos 非常强大, 能够在很短时间内发现很多开源项目的漏洞。 w m d l 说这东西是一个会给互联网带来默认彻底的颠覆, 那为什么那东西没上线?有一个说法就是说他就算上线了,他也可能回不了本,因为这模型太大了,他没有办法找到一个合适的定价,让大家去真正的能够为这个模型付费。另外这也是他们家一贯用的宣传手段,我这个模型太强了,我一上线这个世界就要被颠覆了,所以我不敢让他上线。 所以一切你把这所有的信息串起来看,指向了一个问题,人家缺算力,缺卡,他们的很多新闻你也可以通过这个角度去解读,接下来下半年可能他要去发挥,怎么去筹备更多卡的时候,我们就拭目以待,今天跟大家分享到这里,谢谢。

最近有个开源项目火了,叫 open c r y, github 上四天就涨了八千星。他干了一件什么事?他把任何网站和应用直接变成命令行的工具?你平时刷 b 站,光直呼看小某书,这些本来要点来点去的操作,现在可以直接变成一行命令, 甚至可以直接通过 skills 交给 ai 去调用。你在 code code, open code, open crottt 使用的时候, ai 直接读取这个 skill 文件, 瞬间学会调用。它的原理就两样东西,第一,用 chrome 的 c d p 协议,直接附用你的浏览器登录状态。第二啊,一层适配器,把网页的接口翻译成命令行的参数, 没了,不存你的密码,也不存你的凭证,所有的数据都在你本地跑。已经有五十多个平台内置的适配器了,甚至连 ctrl shift、 gpt、 note 这些桌面应用都能控制安装,有多简单呢?看这个直接交给油喷扣的。 所以, open c l 本质上不是一个工具,而是在干一件更大的事情,它把整个互联网变成 ai 的 工具箱。


投资 ai, 你 最起码得知道 ai 的 梯队大概是什么样子吧。目前全球最顶尖的 ai 工具啊,就是 astrobic 这家公司旗下的 cloud code, 呃,还有 oppo ai 的 china g b t, 谷歌的 jammin, 国内的 deepsea, 呃,豆包这些面向 c 端的这个工具,大家了解的可能比较多一点,而真实的今天的 ai 真的 放量放出产值的地方, 呃,大部分都在 b 端,都在企业端,这里最具有代表性的就是 osrb 的 cloud code, 这个几乎已经进入了。 呃,大部分的这个大厂的高层里面啊,现在基本上大的这个和人工智能相关的公司全部都会去使用这个软件。 呃,它和 open cloud 的 性质还不太相似哈。 open cloud 其实它只是一个自动化的这个工具而已,就是它只是说让人去操控,而 cloud 等这种大模型,它才是这个大脑 啊。这种自动化程序其实做起来比较简单,你像我们自己,我们自己可能都能去做出来一个 open cloud, 可是像想去做一个预训练模型,呃,这个 cloud cloud 的 这样模型,那绝对不是你随随便便就可以搞出来的,所以大家至少要对这些东西要理解。还有就是 ai 这个东西, 嗯,你不要老听别人说你真的要自己用,你一定要自己去用,你用你才知道啊。这个 ai 到底是什么玩意儿? 他可远远不仅仅是说啊,现在大家一评论都是豆包要收费了,豆包这么垃圾还要收费怎么样的?那可不是这么简单啊,很多的他们的模型的特点、特色都是不同的,你可以把他们理解为不同的人 啊,不同的人的性格,擅长的能力是不一样的,就是一定要去用 ai。 我 认为不管你是在做投资也好,还是你有具体的工作也好, ai 值得被投资,整个蓄势资金链全部在 ai 里面。它一定证明了一件事情,未来的 ai 对 我们的生活和工作冲击是很大的。现在你很早的去使用 ai, 对 你的理解上你会超前很多很多人啊。那至于说国外的这些 ai, 你 觉得你不会用,你不知道怎么用这些东西,这些东西都是纯技术面的东西,很简单,我公司的这个员工都可以交给你啊, 核心是一定要去用,一定要去体验,去感受。你最起码要知道凭什么 antarctica 可以 作为这个地球上,这个星球上增长最快的一家公司,它是为什么能做到?这对你来说有很大很大的帮助啊。

然后这个老哥做了一个很疯狂的事情,他就把这篇文章喂给 claude, 然后让 claude 用 auto research 对 大家好。我今天看到一个非常疯狂的新闻,就有一个叫 dan woods 的, 他成功在自己的 macbook pro 上面, 那是 msi max 芯片啊,在自己的电脑上面跑通了最新的千万三点五,三百九十七 b 的 那个模型,就那个模型本身要求的内存是有两百零九 g, 但他在自己的电脑本地端跑起了这个模型, 而且可以达到五点五个 token per second 还是很慢,但就你知道这件事情结果上就很疯狂,而且他做的过程更疯狂,他是直接把一篇论文丢给 cloud, 让 cloud 去实现那篇论文里面的思路,然后把这个事情做出来。 为什么能做到这个事情呢?就是因为你知道那个千问三点五,它是一个 mixture of expert 模型,就是混合专家模型 m o e, 所以 说 m o e 模型里面它有很多个专家模型, 然后一个 token 进来的时候,它只会激活某些专家。做推理的时候,一个 token 进一个 m o e 模型,它就有某些权重会被激活,然后有一些权重是不激活。二三年苹果发一篇文章叫 l m in a flash, 这篇文章就是说如果有一些权重不激活,那你为什么不干脆把那些权重放到 s s d 上面去?然后你只是在一个 token 需要推理的时候,你把那些会被激活的专家模型的权重拉到你的内存里面, 然后呢,你不需要他们的时候,你再把他们丢回 ssd, 就 这么一个简单的思路,那因为推理的过程中还有一个特点,就是 token 之间会有比较高的相关性嘛,所以通常来讲会被激活的那些专家模型,他们也是比较相同的。 你一个这样模型的权重读进你的内存里面呢,你还不用很快的把它释放,因为下一个 token 可能还会需要到这些。那总体就是说,由于你可以把一些权重放到 ssd 里面,所以你的内存不需要放那么多的权重。因此即便是一个猜测量很大的模型,你也可以把它大部分放到 ssd 上面,然后小部分放到内存上面。 这个是那篇文章的思路啊思路。然后这个老哥做了一个很疯狂的事情,把这篇文章喂给 claud, 然后让 cloud 用 auto research。 auto research 是 最近 angelica party 开园的一个项目,这个项目简而言之呢,就是说你可以给 ai 一个目标,然后在这个过程中呢, ai 会自动地去探索路径。怎么去达到这个目标?那通常它是被用在神经网络的训练上面,比如说 ai 可能会自己发现一些新的呃网络结构, 比如说它会改变某几个层的顺序,然后使得你在 auto research 的 这个层的顺序会更好。那这个哥们呢,他也是用 auto research 的 这个范式, 他 ai 自己想办法去把千万三点五呃三九七 b 这个模型通过苹果的那篇论文给出来的方法论, 不断地进行各种尝试,最终让他能够在他的 macbook 上跑起来。那,那这个过程中 clock code 就 不断地尝试嘛。最后他一共写了五千多行的 objective c 加加, 他写的那个 object c 加加是为了呃完成刚才我讲的说从 ssd 搬权重放到内存,然后再把一些内存上的权重丢回 ssd 上,这个过程用 object c 加加做这个就会更快,这全部都靠自己发现的路径。 还有一个呢,就是靠发现了可以对权重进行量化,所以说本来可能是三十二 bit 的 权重,最后把它量化到了四 bit。 那 量化完这个权重呢?他又写了一千多行的 metal shader 的 代码,就是说能够把这个四 bit 的 权重再解压回一个正常格式。因为苹果自带的 mlx, 它只能处理三十二 bit 或者十六 bit 的 格式,它处理不了四 bit, 于是靠着自己造轮子,造了一个能处理四 bit 的 一个 shader。 这件事情也非常离谱, 在写了一堆 object c 加加代码,写了一堆 metal shade, 还有一些其他的杂七杂八的代码之后呢, called 成功地把一个千万三点五三九七 b 的 模型在一个 macbook 上跑起来,而且它最终每秒钟可以突出五点五个 token, 不 算慢了。你要知道这是一个三百九十七 b 的 模型, 这哥们呢,就把它做研究的整个过程全部都开源了,就传到 excel 上面,大家如果有兴趣的话可以去看一下,我觉得这个非常惊艳。两个 takeaway, 一个就是今年的 ai 的 执行能力跟前几年是完全不一样。从二零二五年十二月开始, angelcare 自己讲,他已经不用手写代码,没有银行代码是自己写。 然后第二个声音就是说,从 idea 的 产生到落地的这个速度,几乎你现在可以说用光速来听。 就这哥们,他什么都没做,他只把一篇文章喂给了 ai, 让 ai 自己去 auto research, 然后 ai 就 auto research 出来。我觉得今年大家一定要做的一个事情,就是说如果你想要做一个什么事情,直接让 ai 去做,然后呢?如果你想不到好的方法,你可以让 ai 去读论文, 就你把一篇好的论文喂给 ai, ai 一定能给你找到一个好的方法。你相当于有两个杠杆,一个是一个执行力的杠杆, ai 可以 不知疲倦的为你解决问题。另一个你还有知识共同体的杠杆, 就是太多人把他们的研究成果公开了,这里面只要少部分是有质量的,把这些东西拿给 ai, 让 ai 去做,你就可能在一个周末做出一件之前大家完全不敢想象的事情。那今天就跟大家分享到这里,我要去玩一下这个项目了,拜拜。

不要再听网上说的那些博主说什么 game lab, 什么 gbt, 要赶紧去用将去学习了,告诉你们现在你们要学习的,不管什么办法,要用可唠的,只有可唠的才能会把你所有的想法,所有想你做的电脑软件,你想要的做的 app, 你 想要落地实现的,你想要帮助你公司实现的这些智能体, 可唠的才能帮你做得到 game lab。 或者是说这些 gbt 他 也是作图回答的问题都是很多幻觉的,他们只是跟你说这个呢,说一大堆的废话。 只有 cloud 会帮助你去解决,去分析问题,要你选择 a 向 b 向他来帮你做好就可以了,你更何况你 a b 向都不用选,直接用的时候做好, 我只将就。结果你们还听完了,我再也不用什么国内的模型,不用,只用 g b d, 只用什么 g b d 这些东西国外的预商家虽然好用,但是你要拿到现实拿到成绩的只有 cloud, 那 些东西他们只能问问,只能帮你做土豆视频。

很多程序员一直瞧不起文科生 web coding, 我 就是学商科的产品经理,这是我写的模型训练算法,用我之前清洗好的网文和剧本的数据,微调了一个去 ai 味的写作模型,效果非常好,很多小说已经拿到成绩了。 很多所谓的资深程序员都和我强调,你一个文商科的,看不懂代码,你还想做算法?你做的东西全都是玩具,一点用没有。但是呢,经过我这半年的外部考核,我发现只要我能对结果做判断,我就不需要懂代码底层逻辑, 所有不懂的问题, ai 出的 bug 都可以和 ai 一 起讨论解决。反而是判断结果的能力,需要好的品位,需要对业务的理解,程序员不一定擅长。 我在十年前刚入行互联网的时候,身边的程序员对我们这些产品经理有非常深的成见,经常跟我说,你提的什么需求根本实现不了,你们不懂 app 的 开发,你们根本不懂互联网。 那个时候啊,我很苦恼,当时流行全民学拍档,我也想学,但是呢,被程序员知道了,还要笑话我 啊,你一个产品经理学这个有什么用呢?但这一回,外部定制让世界完全不一样了。就像是很多年前,司机也是一个专门的岗位,老司机瞧不起新手,男司机瞧不起女司机,但是现在呢,所有人都可以自己开车, 而且自动驾驶已经快取代司机了。我觉得外部定制也是一样的,只要你知道自己要去哪,中间的路已经不用专门的人带你走了。

最近随着 cloud code 的 商业成功,估计国内大部分的科技企业的老板都开始研究一个问题,就是怎么优化自己的 it 团队结构了,简单的来说就是准备裁员,降低这个用工的成本。呃,今年以来, cloud code 在 针对 b 端的商业收费上大规模的超越了 open ai 的 codex。 呃,验证了一个事情,就是用懂需求,懂架构的高级程序员加上 ai 的 这种工具,是可以大规模的取代现有的程序员的这种研发结构的。 要不说这个程序员是这个世界上最聪明的一群人,在做这个 ai 的 工具取代人的这个过程中,发现其他的行业自己还不是太了解,但是怎么编代码,怎么做这个研发自己是最清楚的, 所以首先从自己最熟悉的行业开始,把自己大量的研发经验都都喂给这个 ai 工具,然后再用这个 ai 工具,然后反向的取代自己。 cloud code 在 这方面确实是取得了巨大的商业成功,这方面呢,我们真的是要佩服这些做先驱探索的程序员,他们勇于自己革自己的命。 另一方面呢,我们也可以要清晰的看到程序员的这套做法呢,它不仅仅可以取代程序员的行业,在其他行业其实有真正懂需求,懂这个行业运转逻辑的人,再加上 ai 工具一样会对现有行业的这些从业人员的结构进行这个降维的打击。 在这一轮的打击中,受影响最厉害的其实是高阶的脑力劳动者,因为高阶的脑力劳动者事实上是最容易被这个行业经验 加上这个 ai 算力所取代的,我们自己在这个行业内真的是有非常清晰的感觉,那今年以来 ai 所用的所有的这个资源模块都在大幅度的涨价,才能不足。 呃,显卡、内存这些全部都是供不应求,像英伟达、三星,海力士这些,这些都是排到明年年底的,还有国产替代的,比如华为九幺零 p 的 这个显卡啊,还有这个长江存储了这些,所有的资源都被这个呃 ai 给吸走了, 这些都是真真切切的发生的,这只能说明一个事情,这个里边呢泡沫非常非常少,是真真实实的产生了 ai 对 人力的这个取代,整个的飞轮效应的话正在一轮一轮的叠加。 所以作为这个呃一些高阶的脑力劳动者,现在真的是要认真的审视这个问题,自己所在的行业会不会快速的被 ai 所取代?我们自己在这个程序员这个行业能清晰的感觉到未来两年整个程序员的这个 失业降薪基本上是板上钉钉的事情。呃,整个研发结构都会依赖着 ai 做大幅度的调整,在其他高脑力投入的这些行业里边,类似的事情肯定都会快速的发生, 所以作为一个脑力劳动者,我们真的是要认真思考这个问题了,要么就是快速的拥抱 ai 做行业的变更者,要么,嗯,可能真的狼来了,狼来了就没有未来了。

今天跟大家深度的聊一下这个 ai 变现的事情啊,我就把我走过的弯路,包括走过的捷径都拆解给大家,反正我这个号呢,说的都是实实在在的东西,从来不会讲一半留一半,你们也知道啊, 呃,我最开始产生了这个 ai 变现的想法呢,其实是在这个春节的时候,刚把那个小龙虾给玩通了, 因为在小龙虾之前呢,这个 ai 基本上都是一些对话模式嘛,那对话模式呢,考验的是你的,你能不能表达清楚你想要做的事情,以及你的提示词的这个水平怎么样, 然后他最多是帮你写写文章啊,帮你比如说帮你帮你写个什么法院的什么诉状啊什么的,这些,这些他都挺擅长的。 然后碰着那种什么帮你统计个数啊,什么帮你统计个什么绩效啊,这些东西你信不过他啊,反正当时的这个 ai 就是 这么回事啊, 所以呢,只是用来帮我写一写什么我的这个短视频的稿啊什么的这些东西啊,这功能有限,我拿它做的最大的一个事呢,就是这个去年十二月拿 jimmy 帮我写了这本书啊,这本书 他也是从我的一百多万字的日常的这个语音转文字的这个知识库里面他提取出来生成的,你如果说你什么的什么语料都不给他,什么知识库都不给他,让他直接替你写本书,写出来根本没法看 明白吧,哎,所以这些呢,大部分其实还是人的价值,那个 ai 只不过让你做事情快一点,或者做事情 这个多一些,就是这样。然后我在这个春节的时候调通了小龙虾之后,我就感觉我靠这发现了一个新世界,因为这个小龙虾呢,他不光能这个替你去思考,不光能输入输出内容,他还能帮你做事情了,然后操作电脑啊什么的,对吧?然后当时我记得 我的小龙虾还给我把密码给改了啊,在没经过同意的时候,把我的苹果本的密码给改了,然后最后多亏我后来还找回来了严刑拷打,这事当时还火了呢, 对吧?所以说他能干的这些事情,他既然能把我这个密码给改了,干出这么离谱的事情,那理论上如果把它驯化好了,它的生产力是不是很强,对吧?所以这个时候我就没有想着说拿小龙虾做什么好玩的事情,因为我一直以来是一个商人 啊,一直以来是一个生意人,我做事情必须得想办法变现,对吧?所以呢,我当时就想这个小龙虾怎么样给我变现呢?他本质上其实就是一个带脑袋的自动化的工具嘛。 所以一开始呢,我想着说,那你先帮助我去把我的事情做好,当时我我的主业是做外卖运营啊,然后我也是有自媒体的,我,我是外卖领域的第一大号吗? 然后呢,我就让小龙虾替我去自动的发公众号,替我去自动的生成视频稿等等呢,替我自动抓热点,生成内容。 但是呢,后来我发现就是说小龙虾这个事情吧,他,他这个事做的不是特别的好,为什么?因为他就算给我能够自动化的发文章了,这个我早就实现了,对吧?自动化剪辑视频也早就实现了,但是出来的那个内容啊,他不是那么回事, 就是 ai 味儿很浓,你们现在看到的很多的文章啊,你一旦发现有 ai 味儿了之后,你肯定就会不相信它了,或者说直接把它关掉了,或者觉得这个作者没什么诚意,对不对啊?这个一样的,就是但凡是短视频啊,但凡是这个公众号啊,但凡沾上 ai 味儿了,我也不会信它。 所以我当时我现在就觉得 ai 目前还没有办法原汁原味的完全代替一个人来产生内容啊,而且就算产生了内容,也不一定是这个人想要的内容,也不一定是大家想看的内容。 所以呢,我就很早就放弃了拿这个 ai 做内容的这个这一这个事情,可能将来吧,有有一个时间点可以能够让 ai 完全代替人。所以到现在我录的视频啊,包括我写的文章啊,我发的朋友圈基本全都是我手动生成的。手动发的 啊,除非一些这个教学型的,比如说我知识星球里面的东西,那你只需要把一个事情说明白,把别人教会了就行,人家也不管你是不是真人发的对不对那种的,我可以让 ai 自动生成,所以现在 ai 呢,它每天会给我的知识星球里发几篇这个文章啊,就我就直接让那个可乐扣的 去写,说你自己去这个内存里头,从这个数据库里查一下,我最近这些天又做了什么项目,又做了什么功能,然后突破了什么困难,然后你给我总结出来,发知识星球就可以了,那非常管用,非常好,对吧?所以内容上面的东西呢,最好还是自己来手工弄。 呃,然后后来呢,我说那怎么变现呢?我说那就试试这个番茄小说,就让他这个帮我注册了一个番茄小说,然后呢这个让他给我这个就是选了几个题材吧,让他市场调研选了几个题材,比如什么都市系统爽文什么之类的等等等等等等啊,写了两个小说, 呃,还是有人看的,但只不过看的人不多,因为你会发现这个 ai 他的想象力很丰富,但他想象力其实不太行。 所以呢这个他写的这个这个小说啊,就翻来覆去老是那么点事老是那么点事。我记得我写了一个那个什么反正 ai 商战不是 ai 商战,就是写了一个商战类型的都市系统重生的这种小说,反正那些小朋友们喜欢看嘛, 对吧?发现翻来覆去翻来覆去就是发生的都是很多很日常的东西,那个商战的这个商战的这个手段也极其的幼稚,什么这个举报到事件局啊,那个那个发个黑稿啊什么的, 就发现这个想象力啊,这个 ai 真的 不行,他可能知道很多东西了,想象力真的不行,所以呢我就放弃了让他写小说。关键是什么呢?就是我自己,他不是小说的,我自己不是一个专业写小说的作家呀,对吧?我自己是程序员出身的一个这个这个这个工程师搞自媒体的呀。 所以呢,如果是一个作家,我觉得啊,如果是一个合格的作家,他在 ai 的 加持之下肯定能把小说写的更好。那但我不行,对吧?所以我就知道了,这个 ai 呢,他只不过能辅助你把自己本身已经有的能力比别人强的能力去放大啊,但是他没有办法给你无中生有,对吧?你不是内行,他就没有办法让你把这个事给做好, 后面呢,我就让他去帮我做交易啊,做交易这个事就比较敏感了,反正就是大饼嘛,大饼什么开仓平仓什么的啊,发现他这个一开始从十次有八次开错方向,然后最后到了这个十次有 十次有六次吧,差不多能开对方向,他能慢慢慢慢的给我这个产生一点盈利了啊,但是 这个事情还不是我想要的,对吧?他这个交易模型呢,我觉得还是这个,我要不是专业的话啊,他自己靠他自己去搞, 呃,最后其实会趋于不赔不赚,反正我最后验证下来他基本趋于不纯,不赔不赚,所以还是得你自己有这个专业的知识,对吧?啊?所以现在呢,很多人一问我啊,说这个能不能给我开发一个软件,自动帮我赚钱,我说你别做梦了,对吧?你这个人如果没有这个自动自自己赚钱的出了轨了, 对吧?所以在后面啊,我自从接触了克拉蔻之后,我才发现啊,这个原来想变现 你就得做对现在的现实的社会,现实的这个世界,现实的这些人群最有价值的东西, 对吧?所以呢,我就开始好好的做这个自媒体,因为什么呢?因为我只要实实在在的讲我的收获,那肯定是我的粉丝们也会有收获,粉丝们有收获就会对我产生信任,产生信任就会找到我啊,他们有什么困难找我帮助啊,帮助我收一点钱,那也是应该的,对吧?这个才是这个真正变现的这个闭环, 对吧?所以我就开始做这个咨询类的,然后还有这个替别人去开发软件,帮别人去开发软件的这一类的,这个这个事情啊,这些事情呢,现在看起来就靠谱很多了,变现很不错,对吧?然后呢,最关键的点是什么呢?就是我要给大家分享一个事情,就是说 你现在做的事情,你要产生价值,一定是用你现在做的事情,你要产生价值, 明白吧?所以呢,照这个这个逻辑来看,就是你开一个号,你的粉丝包括我现在开一个号,我现在的这些粉丝大部分是没有办法给你产生价值的,为什么?因为大部分人其实就是普通的上班族,上班族他是没有自己的业务,他是挣工资的, 对不对?你最多最多你帮他去摸鱼,对吧?你帮他摸鱼的话啊,他值多少钱呢?对吧?你当帮他摸鱼,他难道能给你,给你个,给你个三四千吗? 不可能的,对吧?啊?所以他们指望的是什么?十九块九、二十九块九啊,学一点这个摸鱼的手段就完事了,对吧?你真正的这个客户其实是那些本身就在挣钱的那些生意人,那些老板, 对吧?这些老板他们每个月可能公司收入上千万,每个月公司支出几百万,对吧?这个老板的压力也很大嘛,或者说老板的这个动力也很足嘛,对吧?那我把我的这个随便哪个环节去降本增效了啊,或者你教会我怎么搓,对吧?或者我干脆就让你帮我搓,反正以这两种客户为主嘛, 对吧?然后你搓出来了这个代码,或者你让我搓出来,你教我搓出来了这东西动不动给我公司每个月能够省下几十上百万的这个成本的话,我靠,那我干嘛不给你付个万八千的咨询费,或者付个万八千的这个搓程序的费用吗? 对吧?所以这个变现是这样,你先要找到真正能够产生价值的这一群人,对吧?绝大部分人你给他再牛逼的技能,你交给他再牛逼的技能,在他身上, 他本身一个月就能挣八千块钱,你指望在他身上能够变现就是多少价值,对吧?这帮人就所有的客户,你得给他创造十倍的价值,他才能给你一倍的收入, 对吧?这是合理的,我给你多赚十万,我拿一万,这个是比较合理的,对不对?铁子们啊,所以这个才是真正的一个变现的闭环,反正分享给大家,让大家参考啊。

刚刚想试一下让 codex 去分析我的广告计划,然后觉得一个下载给他很麻烦,然后我就找了一下,发现子鸟是有开放平台的,然后呢下载它的公测版,可以生成 一个 api, 之后呢,把它丢给 codex, 让 codex 去接管整个店铺后台。那他需要什么数据呢?就让他自己去呃,自己去找, 单单分析广告计划是不够的,我让他结合整个店铺的数据去看,然后包括订单啊,商品卡啊,热销的 skill 啊之类的,还有成交价格什么的。然后刚才他已经操作完浏览器了,拿到他想要的资料,然后我等一下再看看他的分析结果, 可以小小期待一下,就是看看 codex 给出的策略能跑得怎么样,然后我们一周以后看一下结果。

大家好,今天是视频记录一百天的第六十九天,今天聊一下自己最近一个月使用 cloud code 和 codex 的 一个用量情况吧。 这个用量的统计其实来源于龙虾,作者 peter 发布了一个工具 products bar 在 统计的一个数据来源,大家如果说感兴趣的话,可以装一下这个工具,来看一下自己的一个使用情况。 第一张图其实就是自己库尔德斯的一个使用情况,可以看一下,如果按 api 计费的话,基本上就是一千五百多刀,完了,一点九 b 的 一个头肯用量的一个情况。 完了,可以再看一下这个 polo 的 一个情况, polo 的 最近一个月基本就是按 api 计费的话,就是三千五百刀, tocan 用量的话,基本上就是八币的一个消耗情况,那两个工具叠加起来基本上就是五千多道的一个按 api 计费的费用,再加上九点九币的一个 tocan 消耗用户量。 完了,其实自己前期其实用 cloud code 的 比较多,之前是两百到的一个额度,完了, codex 之前是二十到一个月,但是其实之前也有聊过,现在的订阅机制已经 调整了,现在是 codex 是 两百刀, cloudcode 的是一百刀,都走的订阅用户的模式,没有按 api 计费。如果说按我之前这三十天的一个使用,按 api 计费的话, 费用还是相当的夸张。完了,就把自己的这个用量去 gbt 上搜了一下,大概是一个什么样的一个水平。 gbt 大 概给了几个 档位吧,基本上按我现在九点九 b 的 话,现在的一个档位基本上就是接近个人 agent farm 的 一个用量了。好吧,那今天就先聊到这里,谢谢大家,再见。

今天是 q v n 三点六 m t p 的 完整实操手册。先说结论,二七 b 跑到一百四十透可每秒, 三五 b 到 a 三 b 跑到两百二十透可每秒相比普通 g g u f 直接一点四倍,加速精度不变。 关键参数只要记住一个 spec draft is max 是 二就够了。官方测了,从二到四,接受率从百分之八十三直接掉到百分之五十多,猜反而慢。第一个坑 不能用 master 的 拉玛点 c p p, 要用阿曼的 p r 分 支库达,十三点二也别碰,官方确认有乱码 bug。 第二个坑很隐蔽, 接入 cloud code 时有个隐藏开关会让推里慢百分之九十, cloud code 会往请求里加 attribute header, 导致 k vatch 全部失效。用环境变量关掉,不管用,必须改 settings 点 jason 在 ev 段里把 cloud underscore code underscore attribute header 设为零。这一条我觉得全网最值得抄。 接好之后,本地三五 b a 三 b 跑 server 接 cloud code 足够。日常代码 a 阵我的建议是二十四 gb 显存直接上二七 b m t p q 四量化,这是现在消费级显卡的新甜点,不接受奥拉玛短版的用户也可以走这条拉玛点 c p p 路线。

没招了,家人们最近 ai 不是 很火吗?然后我也装了这个什么 closed 什么什么的这个,然后照着那个 b 站上面教程做做差不多了之后它一直给我显示什么你这个模型什么不存在或者是无法访问 我,我装了一天了,我的天呐,我打算放弃了,明天再看,撑不住了真的是。我现在又问豆包,然后又问 deepsea, 他 给我的解释都我照做还是不行,就这个模型,他说 模型什么什么选择什么什么不存在什么的,就是这个 没招了,明天再看吧。破案了破案了,因为我没有登录,我登录之后可以了,看这个就可以进行搜索了。 打算照着那个 b 站视频继续学一学,整一整,看能不能整出一点好玩的东西出来。

最近 b 圈大佬、 ai 界明星 ceo, 甚至美国前总统家族都在做同一个生意, a p i 中转站。 但你可能不知道,百度、腾讯自结自家的 ai 编程工具,本质也是 a p i 中转站。今天聊三件事,大厂为什么都在做中转站?你花几十块买的包月 cloud 扣的额度为什么几下就没了? 还有最关键的,哪些中转站绝对不能碰?先说为什么会有这个东西,现在国内模型跟国外顶级模型,老实说还有三到六个月的代差,你写代码、做研究,跑 agent, 要拼效率拼上线,多数人还是会优先选 gpt、 cloud、 gemini 这几家国外的, 但用海外模型门槛贼高,中国 ip 直接被拦,账号要海外手机号,海外信用卡注册完还动不动给你封号。 这也是中转站火起来的根本原因。所以这时候中转站就出现了,他干的事就两件,第一,把不同家的模型包装成同一套接口,相当于一个万能转接头。第二,自己装了个计算器,实时记录你用了多少 token, 自动扣费,看看到底是谁在做。 个人开的小中转站,基本都是单模型的,绝大多数就是个 cloud code, 中转只卖这一家。国内大厂做的才是真正的聚合平台,多模型,一站式,而且都是商务合规过的号,也不会被封。对你来说就是不用注册海外账号,价格比官方便宜,要是用大厂的,还能一个 key 叼多家。 听上去是不是有点太美了?但市面上的中转站根本不是同一类东西,我把它大概总结成了三类。 第一类,白色是大厂亲自下厂做的中转站,百度 comet、 腾讯 code, buddy, 字节 tree, 还有海外的 cursor 等等,这些你装了直接订阅就能用,模型该是 cloud 就是 cloud, 该是 gpt 就是 gpt, 基本不会掺假。第二类,灰色 是用开源框架搭起来,但货源来路不正的,可能是从低价区套利搞来的,可能是开了一堆新号薅免费额度,也可能是挂个反向代理,把订阅账号当 a p i 卖。 这类应该是最多的,从某鱼上一搜一大把全是。第三类,黑色就是诈骗了,往你电脑注入恶意代码,偷你密,要盗你信用卡。这一类可能是极少数,但是大家也不能不防,同样一个中转站,三个字,行为差着十万八千里。 这里有个反直觉的点,白色中转站和黑色中转站底层技术其实一模一样,都是一个中间转发器,差的不是代码,是一道商务合规线,大厂凭什么能做?这里其实卡了两道合规线,第一道在海外, antropic 和 openai 早就明确把中国市场排除在外了,国内大厂没法直接谈,走的是中间代理路线。美国或者其他国家有家合规企业先跟模型厂签合作,国内大厂再跟这家代理公司谈,把模型引进来,中间可能还欠套两三层。第二道在国内, 这些大厂还得按国内的数据合规要求来,内容审查,数据出境备案,这些一个不能少,两边都合规了,国内用户才能合法用上 cloud、 gpt 说白了,大厂用自己这块招牌做了一回信用中介,你不直接信 openai, 你 信百度,信腾讯就行,剩下的脏活合规活他替你扛了, 私人小站凭什么不行?他没招牌没合通,过不了任何一道合规线,只能用灰手段省钱。省着省着就把自己活成了黑的。 那大厂为什么愿意花这力气做这件看起来像中转站的事呢?因为模型层正在变成大白菜, gbt、 cloud gemini 互相替换的成本越来越低,明年又有一批新模型出来,你这家不行,换那家, 真正的护城河正在往上跑,跑到 ide agent 工作流这一层。 commit code, buddy, cursor 这些工具表面看是 ai 编码助手,实际是在抢入口,只要你天天用它写代码,模型谁家来?你根本不在乎。 大厂在用假装做中转站的方式占坑,那黑色的小站到底有多狠?讲三个研究数据, 第一,暗改倍率 a c m。 互联网测量大会有篇论文实测真实商业网关,比官方计费高出百分之六十二点八,页面写一套,后台扣一套。 第二,偷换模型,九家供应商里近一半在掺水,你以为调的是 cloud opus, 实际给你跑的是 sunet, 甚至是某个开源小模型,给你按旗舰的钱算,给你跑青春版。第三,数据安全 agent is mine。 这篇论文对四百二十八个中转站做沙盒测试,九个正在向用户注入恶意代码,十七个触发了 a w s 密要盗用,甚至有一个直接把研究员的私要钱包资金抽走了。 你以为在跟 cloud 对 话链路上?四五个中间人早就把你的代码密钥文件看了一遍?那作为普通用户该怎么选?我给三个建议,第一,能用原厂,直接用原厂, cloud code codex 都是月付订阅,特别是赶上活动用量翻倍那种, 我自己一天用 cloud code 跑过六亿多 toc, 按 api 值掉差不多是一千多刀的算力,这只是一天的用量,但月付订阅一个月也就一百二十刀,原厂这是直接打了一折都不止。灰色中转站再便宜也比不过,关键是不会被掺假。当然敏感数据类的工作是不能用的,我们个人也要保证数据合规。 第二,求省心求安全,用国内大厂的工具, cold, body, tray, comit 这些都能接入海外顶级模型,关键是合规稳定,不会偷你数据,代价就是要装他的客户端,按他的工作流来。 第三,强烈不建议碰私人中转站,不光是不稳定,动不动跑路的问题,模型大概率还给你掺假,你以为省了三折,实际跑的不是你买的那个模型,时间和判断力都赔进去了。最后说点更深的,九十年代国际电话费贵催生过 ip 电话黑卡。 二零一零年代,海外服务难访问催生过各种代理工具。二零二六年,大模型 api 又贵又封,催生了今天这一轮 api 中转站 历史每一次都是同一个剧本,官方入口跟不上需求,灰色中介涌入大厂合规收编,灰色被挤出,我们现在就在第二步往第三步走的路上,白色中转站才是终局。关注五哥通俗科普,下期接着聊 ai 时代的真问题。

先看一下这个模型,这是千万三点六五十三十五 b 三 a 三 b 啊,这个是特殊一点啊,这个模型,这个模型经过 cloud 四点六的蒸油优化,它的推底啊,还是不错的, 你看一下上下文,拉满二十六万啊,拉到最高, cpu 卸载了是三十二层,然后 cpu 线层给他最高啊,十六,给他拉满啊,把所有线都给拉满,然后 cpu 层卸载四层,然后 q 八的一个 q 网根, ok, 然后基础的一个预设啊,系统提示温度给到零点二,降低它的幻觉率啊,现成啊,这些东西都是一些固定的参数,给它一个预设参数来进行一个模拟的测试啊。 测试呢,我们用 hermes 的 y b u i 来进行测试。测试题,让 g p t 来生成,让 g p t 来生成一个测试题啊,让他给我们一套 推理加代码加工具调用,就基本上能简单的测试出一个大模型的一个使用范围,它的边界在哪,它基本性能也能得到一个大概的一个评测啊,这样子我们可以更好的选择一个适合我们日常使用的一个大模型, 毕竟本地部署嘛,他多少是有些地段的,是你的本地设备的一个硬件的一个地方来看啊。题目,这是复杂推理的一个题目,来,我们进行一个 复制,文婷,复制一下,直接交给 harvis, 这里你看选择模型,选择到我们刚刚的啊,纤维三点六三十五 b a 三 b cloud 四点后的追踪模型,好,把题目交给他, 看到我们的后台啊,已经打开连接了,已经处理完了,处理完了题词,现在已经开始上升 token 啊,可以看出 token 速度还算过得去,不是很快啊,每秒大概二十 token 的 样子。 这边呢?还没有,还没有开始回复是因为纤维三点六呢。他是默认一个思考推理的一个过程啊,他要先,他要先思考,先推理,把前面的头等都是消耗在思考跟推理上面去了,现在才是真正的反馈。 ok 啊,形成完了看看,看起来还是很不错啊。然后我们看,先看一下我们硬件啊,我们硬件 gpu 已经吃满了, gpu 的 内存显存已经吃到七点三 g 了,刚刚已经用了百分之一百,然后内存了马上要满,可以给它清一下, 因为三十五币对于八 g 显存的一个设备来说,其实已经很极限了。 释放一下它的内存啊,内存已经来到二十六 g 了啊,我的内存是三十二 g 吃满了。然后我们来看一下它的回答怎么样,质量怎么样,交给 gpt 来。 关键的误区,你修正题目可以利用重复过程,但其实不应该。修正题目已经明确给出了第三个 a 到 b, b 的 d, c 的 b 的 d, c 的 d 啊, 最后你就可以了,看看你的问题点在哪里,第四轮谁还在补兵,你答对 问题不会停止,这个方案不够 最终结论,你修正的 q 三不存在第一种第四轮的选择啊。使所有人体育传播更严谨的证明是一个证明题。规则理解不够好,不够严谨,构造能力一般, 属于一个中等中等的一个推理水平啊,推理水平属于一个中等规则,边界跟构造是不够严谨的。那这是 gbt 给千万三点六的一个推理的一个评价。好,我们现在来看,现在来看代码测试题,它的表现怎么样? 据我了解,这个代码就是对于千万来说,应该算是一个小强项吧。啊,他的代码其实还还算可以的,各位要求啊。 ok, 来看一下这个代码题啊,代码的测试题 可以加一行代码, 看一下后台四零九六的一个 p 处理,很快很快。 但是有一点就是在我们在启动本地模型的第一次初识化的时候,它会比较慢。初识化是是比较慢,还需要加的很多东西很快,反应速度还是很快的。 ok, 这代码实现还是比较长啊,这长代码消耗时间比较长, 但是呢,为了验证它的复杂性,它在复杂代码也都表现了。来,我们直接交给 gpd 哈,看看代码能力能达到一个什么样水平, 已经接近工程级的答案了,但是如果用来拆弹和指纹,只能只有关这个问题,隐藏 bug, 致命问题,会导致错误,不满足题目。滑动方口技术逻辑是错的,那说明它代码其实也是有问题的。 对于复杂代码来说,可能也需要加自检啊,这个如果不是什么严重的问题,它自检能够解决的话,其实也是可以的。 超过限流黄记录与你的形状不一致, 架构原文读斜数, 按大模型的能力比分看一下啊,并发精确性是完全有问题的,也是不可用的,有漏洞,不完整,达不到生产级, 达不到十三级。比如说做复杂的代码的话,其实是交给云端是比较可靠,只能说他能做一点中等,一定要加自检,加上自检之后他应该会好一点。现在我们看这台 工具调用啊,看下工具调用能力, ok, 来工具调用啊,看一下工具调用能力怎么样? ok, 把这个东西交给他,速度还算可以, p 处理, 这是展示的工具调用,工具调用会吃很多 token, 后期后都有很多 token, 这个任务应该比较久,而且比较慢。加载速度,加载提示时的速度还是可以的。 已经开始了, ok, 开始调工具。 yeah, i never knew, i found a love so true。 任务结束啊,我们看一下很长一串啊,很长一串的代码,这么长一串的代码, 音效饱满,浪费一天的钓用漏的是筛选他给出来的一个分析, 使用代码来完成,但是我这个没有相关的工具来表演,他应该是模拟了一下工具表演,直接看今天的测评怎么样?他就长了一串, 没有做真正的观众表演,而做表演是这样,没有工具可以跟表演。 这一款 a 的 设置呢?一个按工具调用的微调用,微调用是因为没有相对应的一个工具调用啊, 看来这个评分并不是很准,也不能说它完全不会调用,是因为它完全没有能够调用的工具,所以说它模拟了一个工具调用, 这是一个高级工程师模拟器实验,强在结构,弱在决策。 这么看来,他的评分最主要的还是是代码,他的代码其实还是可以的,做做中等的中等复杂的代码任务交给他,像简单的搜索任务, 他在做做那种长处理任务啊,长文本长生成任务的时候其实稳定性还可以,他没有死机,没有循环还不错,但是你要说让他直接给你完成这个项目的话,那他肯定是打不到这个名堂。 所以说我推荐还是一个主音端,像这个 seek, 然后再搭配一个千万三点六来做辅助,因为这个 seek 它并没有多摩态吧。那比如说像千万三点六有多摩态其实就很不错,比如说我现在截个图, 接着上图,直接让千问等动态来识别一下给他图片,然后 ok, 看一下它的动态, 你看千分三点六呢?推理能力是属于一个中等的水平,工具调用其实能给到个七分,根据我实际使用来说,给到个七分应该是没有问题的。当然是简单啊,不要太复杂, 就中等的中等工具调用,像搜索就简单一点的调用的任务交给它。还有中等的代码, 他可以先做一个代码架构,因为他 tiktok 不 需要,不需要花呗。呃,什么充值啊,对不对?不需要去充值,因为完全本地掏的 tiktok, 你 给他任务,他花时间给你跑一个大的框架出来之后,你让这个来优化修改,这样可以节省很多 tiktok 可能你本来一个代码可能需要三千抽根,然后你用它的话改一改,估计你消耗个五百抽根,这样可以节省很多。你的云端抽根就可以达到一个省钱的目的啊。他就可以拿来做一个模型,他的推理是不如金马寺的推理那么严谨, 吉马仕的推理能力还是非常不错的,但是他的中文理解不太行,对比千万呢?在中文环境下,他的推理可能会出现完全的或非吧,答非所问那种情况,因为一本正经的胡说八道那种,所以幻觉很容易出现。幻觉他主要是被优化的是那种 啊,这可以看到啊,这就是一个患者的一个情况,出现患者了, 可能是上下纹太长了,上下纹过长了,那这里出现幻觉,可以看到,这完全不是个东西, 这完全不是个东西,图片内个概数啊,这完全不是个东西。我们在这边测的话,它因为要加的血染对它影响可能比较大。 我们来 raspberry 在 这个来给它进行测试, 测试一下它的动态, 这是它自带的动态啊,这里面 y b y 里面是要调用 harness 的 石头工具来进行识别的,可以看到小模型在处理太多的长文本复杂的任务的时候,是很容易出现幻觉的。 好,这里是我们给他测试的是,嗯,动态图像识别能力的一个情况啊,你看这里正常,这里的日系动漫插啊,动漫风格插画,这就正常了。拿着一个细长杆子啊,这个电线他把它识别成了一个啊,杆子, 这个是他直接识别了,那说明他还是有一定缺陷,不够完美。其他的问题呢?详细描述了,你看啊,自拍服饰,日式校服风格啊,浅蓝色长袖长袖外套,裙子长筒袜,看,是不是对上高筒靴啊,秀腾的啊, 宁静空谷还做总结啊,植物光影是吧,壮丽的晚霞啊。确实没有问题,他的动态其实没有什么问题,问题在于在这他长文本太长了,一整条下来他就容易出现幻觉,上下太长了,拉的太长了。 ok, 那 我们的测试其实到这里就 ok 了啊,我认为呢,这千万三点六,其实这个版本 并没有原版那么好用啊,原版的 f 十六要更好一点,它虽然说经过 cloud 四零六的一个蒸馏,但是我认为总体来说是不如纤维三零六的原版 推理能力的话相对来说其实差不多啊,纤维三零六的推理能力基本上都是中等水平,不会有太高的差距。 他是专门做过优化的,他的这个还是很一般,还是很一般,代码其实还算可以,中等待码,中等复杂代码教给他长文本的时候容易出现幻觉。这个你得调整你的提示词。调整你的提示词可以优化一下逻辑啊,不至于说 才这么几个,才这么几个问题他就已经啊完全忽略完了啊。然后剩下的你可以用它来做多肽识别啊,这些东西可以帮你节省到很多很多很多抽根,因为你如果工作上的各种截图交给他的话,你稍微花点时间,他其实也不是特别慢, 可以节省很多抽根。总结来说,呃,中规中矩吧,稍微好用点的就是他的代码跟多肽和多肽图像识别还是非常精准的。 ok, 那 我们今天的测试就到这里。

专测的这种多模特的大模型去做这种应用,然后我来抛砖引玉一下,这是谷歌的那个 g 码四 e 二 b 版本,你看一下他这个在手机上的运行速度,中高端手机速度准确,然后他的描述的详细程度,对图片的深刻的理解,我觉得已经做的非常好了。然后我就在想怎么去做一些有意思的事情,然后我就做了一个这种 端侧的这种相册 agent, 然后它大概的功能就是说,呃,可以把你的手机里面相册内容扫出来,然后去给他做一个智能的聚合,基于这种多媒体的理解去做这种智能聚合,然后你可以跟这个 agent 的 去直接对话交流,去修改他的内容, 然后这样的话就能怎么说呢?就是能够我感觉这个体验是能够超越现在的那种手机相册的。手机相册的 ai 现在其实是一个非常简单的那种 简单的聚合分类多模态,对这种素材的理解,他可以把你所有的图片用真正的多模态的能力去做,这种就是非常详细的标注,比原来那种简单的聚合分类,人脸识别那种都详细很多很多。然后你还可以在基础上自己去他聚合好了,你不满意,你还可以去改,类似于提升这种现在这种 a 的 能力, 简单的一个指令步骤,我做了一个简单的编排,就类似于你现在这种啊, cloud 区那种,这是一个相当于是一个相册的 agent, 而它有一个非常相册,就是这个有个很好的,那就是它不留在本地的,然后你手机电脑都可以,都是你本地的,不需要云端上立,然后效果也非常的好, 哇,我觉得这个事情真的非常的震撼我。然后最后再提一眼我们这个 app, 这个视频也是完完全的由这个 ai 制作的,就是 codex 加上 hyperframe, 总之就是太震撼了,太震撼了。

大家好,今天我们讲一下格拉库的一些使用技巧,内容主要是系统的讲一下怎么配置,怎么沟通,怎么管理绘画,然后怎么规模化的使用它,还有就是一些常见的坑和闭口指南。首先让我们先回顾一个认知,就是格拉库的跟普通聊天机器人有什么不同, 普通的应用流程工具呢?就是你问他一个问题,他给你一个答案,然后你自己去选代码。但是格扣的是一个代理式的编辑工具,你只需要描述你想要什么,他会自己去读你的代码,然后运行命令做出修改,然后验证结果让你从一个执行者变成了一个导演。 我们要能够认清自己角色的转变,不然的话你就很难用好它,做不到真正的高效。 ok, 那 我们再回顾一下格蔻的做的四件事,主要有哪哪四个?首先就是他要去读一些文件,然后理解你整个项目的结构,然后呢他是去要做一些命令的运行,然后做一些构建、测试,部署 这些操作。然后呢是去直接去动手改你的代码,然后再去迭代,修复、验证,直到把最后的功能完成。 那这一个功能的完成的一个工作的流程呢,其实都围绕一个核心的约束展开,那就是上下文窗口,你可以把它理解为 cloud code 的 一个记忆容量,在我们所有的交互的 过程中,所有的对话,还有获取的文件,还有命令的输出,都会在这个上下文里面有包含,所以说这个窗口会被填充的非常的快, 你的一次调试或者是一次深入的探索,可能就会消耗几万个偷看,所以当窗口快满的时候,他会去做一些自动压缩。这个我们上期有讲到他会忘记一些东西,可能你最开始给到他的一些命令,他都会 丢掉了,然后会犯一些比较低级的错误。这就是我们为什么大多数人都会觉得这个他用着用着就越来越蠢, 其实就是因为你的上下文被污染。那我们接下来看一下我们有哪些手段可以尽量的让我们的工作更高效,然后更符合我们的预期呢? 首先我们先看第一个,这也是官方里面说的一个最容易得到一个高回报的一个手段,那就是我们要去做一个验证的一个闭环。 首先如果假设我们先去让他写一段,写一段代码,然后他会写出来一个嗯,你看着还可以的代码,但是你如果用的时候有可能就会出 bug, 或者是说变异,这就不过 那你还要再回头去检查,然后还要再跟他说,哎,你错了,然后你又告诉他,嗯,再再生成,那可能迭代几次,他又会出其他问题。这样呢可能你你的上下文就会慢慢的变得非常杂乱,所以最好的一个就是我们在 嗯下发任务之前就给他一个完整的验证。我们这是看一些例子,比如说我们想实现一个验证邮箱的一个函数, 如果我们直接这样说的话,那可能他就会随机的去写一个函数出来,那你可能需要的一些呃功能他并没有帮你完成。所以说我们最好是直接让把一些测试用力定义好,然后让他直接自行的去测试, 这样呢你实现出来的一个东西可能才符合你的预期。还有一种就是说啊,如果说是一些可说话的一些 ui 的 验证呢? 我们也不要去只是说粗略的描述一下,比如说这个让仪表盘更好看,其实更应该是去把你的截图粘上去,然后跟他讲你的两张图有什么问题,然后你更想去做哪一些效果出来,就是详细的描述一下。 还有一种就是 cloud code, 他 会经常犯的一个错误,就是规避掉根音,假设你去构建失败了,他可能就会去帮你啊规避掉这个构建,但是并没有从根本解决问题,所以我们遇到这种问题的时候,一般是把错误的 log 给到他,让他直接去修复,而不是去压制这个错误。 ok, 那 我们大概总结一下这个三个三种验证方式吧。第一种就是说我们要去做一一套测试套件,然后让他去跑一个单元测试,如果全都过的话,那就代表他完成了。还有一种就是涉及到图像啊,或者是 ui 这样的改动, 然后可以去做一些截图的对比,然后还有一种就是利用一些命令行的工具去做一些闭环验证啊。这里面下面我们总结出一个话术的模板,那就是说我们实现某某功能,然后测试用力是什么,然后实现后要运行什么命令,然后确保什么什么的一个标准,然后最后 失败就分析修复,直到全部通过这样的一套流程下来的话,你就会一个是很少去参与到他的工作流,还有一个就是呃,上下文不会被你们的这种经常的一个交互所污染,还有一种就是这样给出来的东西质量和鲁棒都很高。 好,我们接下来看下一个手段,就是也是官方推荐的一个工作流,就是我们先去探索,用 model 模式去探索,这个时候对于你不熟悉的一些工程 是比较好友好的,因为他只是去读你的代码,他不会去改你的代码,这个是非常安全的。还有个就是他会让他他走完之后,你让他给你出一个详细的规划,然后你去用 ctrl 加 g 的 这个快捷键, 可以打开他生成的这个规划,然后看一下是否符合你的预期,你是可以再编辑他的。然后呢这个时候你再切回到我们的普通模式,然后让他按这个刚刚我们做好的规划去编码,然后加验证,这个时候你再出来的东西的质量就会相当要相对高一些。 然后呢我们可能就是涉及到一些提交了,就比如说 get 啊这些代码提交,所以他每个阶段他是怎么做的呢?首先就是他会去探索, 那我们切到 plan model 的 时候,然后让他去读你的某一个工程下的目录的一个代码,然后规划呢,就是说你想要实现一个什么功能,然后让他创建一个计划,然后我们再去编辑这个计划,看他是否符合我们的一个预期。然后第三个呢就是切回到这个普通模式, 然后他会去做一些呃运行啊,或者写代码,或者修复一些 bug, 然后最后还是去提交。 ok, 那 我们什么时候用这个规划,什么时候不用呢?比如说如果说是一些你也不知道具体怎么做,或者是涉及到很多个文件,还有就是你有一些不相关的代码也不熟悉, 所以说这个时候可能这个规划的这个会更好一点。那比如说你对这个项目很熟了,然后你的一个需求啊或者是功能你都自己很清楚,那就不需要做这个规划,然后直接你就跟他讲怎么搞。 那如果说我们不走规划的话,那你直接给他一些提示词的时候,那这个时候我们就要有一个原则,就是具体,具体,再具体,越具体越好像, 嗯,像我们这个上面给的这个 phone 点 py 的 这个添加测试,那他可能就随便加几个测试,并不会覆盖到所有的可能性。那你如果说详细的说一下,比如说为他写一个测试,覆盖用户 你注销的编辑情况,或者是再加一些规则,就是你的要求越详细,他就会做的越好。 所以说这个时候就是你如果只说一句话的话,他其实并不能太能读懂你的意思,其实包括你跟同事沟通的时候,也是,你如果只说一句话的话,其实他也不知道要怎么做,所以说这个 ai 的 这个工具也是一样的道理。 我们接下来看其实是有一些策略可以提升我们的这个 prompt 的 质量。首先就是限定范围,比如说指定哪些文件,然后指定某些场景,或者是你的一些偏好,然后呢就是指向来源, 就比如说,嗯,让他去看有一些 get 的 一些历史的变更,然后让他去了解这个文件的一个呃迭代的情况 啊,或者是说你新增一个功能,然后其实有很多类似的功能,现在的代码里头有的,那你就让他照着这个模式去写啊,这种可能也是 相对会稳定高效的一种方式。还有一种就是说如果遇到错误了,那你要去比较详细的描述一下到底是什么错误,或者是说根据一些 log 啊,错误的内容啊,多给他提供一些信息,而不是说,哎,这报错了,你去改一下,那他可能这个时候就会跑偏。 ok, 那 我们看一下,其实不仅仅是提示词,还有一些方式呢,也是能够提供信息的。像我们之前这个 it, 就是 我们之前讲过的 add include 的 这个,这个引用一些其他文件,这时候它会自动去读取的。 还有一些就是我们可以去贴一些图,然后让他去分析一些图片的信息,还有一些是你可以给到一些 u i l 啊,他可以去呃去看一些 a p i 的 文档。还有一种就是我们可以用一些管道的方式去直接插入 a g l o, 还有一些就是你让他去自己去获取。 ok, 我 们看一下这个 cloud 点 d, 这个我们其实之前已经有用几几三期的内容去讲到它,所以说这个还是比较重要的,这里我们就不再去追溯了,大家感兴趣可以去看一下之前的视频。 那这里其实简单再说一下啊,这可否 md 里面到底都该放些什么呢?啊?这里面大概列了两块,嗯,首先可能我们大概放的都是一些代码风格啊,或者是测试说明偏好,或者是项目特有架构决策,或者是一些常见的坑, 这里面就是,嗯,因人而异吧,因为这个 copy md 其实它不太推荐写很多,大概是在二百行以内,所以说这里面其实可能就是一些很重要的东西都才放到这里面, 像这里面那那我们对应的就是不该放些什么呢?就是比如说一些详细的 api 文档,或者是嗯 经常变更的信息,标准的阅历,或者说那些比如一些代码,他他去读代码就能读到的东西,这个是不需要去放到这个里面,因为他每次都会去读这个高德 m d, 放到放到他的上下文,所以说你不同的任务如果没有共性的话,其实是不能放到这里面。 像你看他下面我们这有一条总结,就是如果你这一条东西删掉的话,对他没影响,那就把他删掉,不要放在这里面。 ok, 那 其实还有一种进阶的一些东西,就是能够扩展扩到扩能的能力的六六种方式。首先呢就是一些 c l i 的 工具,还有就是 m c p 的 服务器,还有一些 hoops 这个自动化的一些脚本,还有一些大家已经耳熟能详的 skills, 这个就是一些 按需加载的一些技能吧。然后 sub agents 这个就是一些子代理,这个他这一块呢他还是能够做一些独立的任务的啊,还有一些就是一些可以扩展装一些插件。 首先我们看一下这个 c o i 的 这个工具呢,其实是我们最常用的一个交互方式,所以说我们要装一些像 g s 这些工具,性价比很高。还有就是 m c p 的 这个服务器 这一块呢,其实我们现在就大概了解一下,后续我们会计划的做一些专项去讲解,包括这个 hoops 也是我们会在下面去专题的讲 hoops 这个专项。 呃 skills 呢?这一块其实我相信大家都已经呃有过了解了,因为这个东西很火,包括现在大家都在疯狂的去炒这个 skills, 这个我们也是一样的,我们都会做一个专题的讲解,去讲解一下它的原理,然后讲解一下怎样去使用它会更好一些,然后可能还会涉及到你怎样去写 skills。 然后下一个呢是 sub address, 这个就是自带上下文隔离,这个确实是非常好用的一个方式,像它可以独立上下文窗口运行,或者说是,嗯,只读就是调查读一些啊,几十个文件,然后只给你回一些结论,这样的好处呢就是它不会去污染你的上下文, 而且你这个也有一些病情工作的一个效率。那这个呢,我们也会在后续的课程中详细的去做一些专题去讲解,因为这几项呢都是扣扣的深入或者是高阶的一个必备的技能。 ok, 那 我们大概了解一下,什么时候会需要用到他们呢? 首先就是说如果你每次对话都需要知道的内容,那你就放到格洛德 md 里面,如果说你有的时候需要,有的时候不需要,那你就放到 skills 里,如果说必须执行的一些东西呢,那你就放到后置里面。 ok, 那 我们有如果说需要连接一些外部服务的,那你就用 mcp, 如果你想做一些子任务,然后不影响主绘画的,这个时候就要用 subid, 如果说是一些快速上手的一个功能的话,那就是用插件, ok, 那 我们看下一个手段,就是说你可以把 cloud 当成一个高级的工程师,你有什么问题就直接问他,这个时候我们就是去啊,相信他的一个能力。 还有一种呢,就是让 cloud 面试你,其实这个面试是从官方的文档里面翻译出来的,就是其实它那里面写的是 interview, 那 这里面可以理解为或者是采访你,或者说跟你沟通其实是一样的。那我们首先呢就是这样的一个话术,就是说我想做成什么功能,然后用 ask user question 工具来问我一些问题, 那这个时候你又是说,嗯,问技术实现或者是编辑情况全好,这个你可以跟他说问什么类型的问题,然后接下来呢他就会去啊,进入你们的一个深度对话,他会去提问你,然后你去回答, 然后直到他覆盖所有的方面的一些问题都问到了,然后你的回答也都答完了,然后他就会去产出一个规范,保存成这样的一个 m d 文件,他会开启一个新的对话,然后 把刚刚的这个规范就是去执行。就这个是非常好用的一个方法,就是当你不知道具体怎么做的时候,这个是非常好用的一个 方式。接下来我们再看一个手段,就是我们要及时去纠正我们的绘画内容,首先就是你发现他逐渐跑偏的时候,要马上停止,不要让他继续去再进行, 然后连摁两下这个 e s c 呢或者是 rewind 呢?就是打开一个回退菜单,你可以回退到之前的一个状态, 还有就是让他自己去回退自己的修改。还有一个更暴力的就是使用一个克里尔去重置上下文,重新开始一个绘画。如果说同一个问题,你纠正两次了,他还是没有搞搞对,或者是越来越离谱,那,那我们肯定是要马上做一个克里尔, 然后呃重新开始是其实是更好的,所以说我们要积极的去管理我们的上下文,这里面大概有六个操作吧。首先就是这个最暴力的 clear, 直接把所有的上下文的内容全部清空,开始一个新的绘画。 第二个就是自动压缩,这个其实是呃可好的自己的一个机制,这个我们之前也有讲过。第三个呢是我们手动的去压缩,然后可以去指定给他提示一些,比如说压缩你要保留哪些信息,哪些信息是你想比较重要关注的, 这个时候可以在这个秘密后面去进入你的一个描述。还有就是如果你压缩部分的话,用 yes 连两下 e s c, 然后选从这里总结, 然后这个就是指压缩部分对话,然后或还有还有一种就是可以在 google 点 m d 里面去配置一个压缩行为,比如说压缩时保留修改文件列表这样。还有种就是临时问问题,就是这个 b t w 这里面我们可以快速的问一些问题,它是不会进入到我们的一个绘画历史中的。 我这里面还有一个就是我们有一个检查点的一个机制,加上绘画恢复,这个我们上期其实有有讲过,这个大家可以再看一下,其实检查点呢,就是说他会在每次修改之前会自动创建,然后我们双击 ic 的 时候会可以回退到任意的一个检查点, 然后可以单独的恢复对话,还有代码或者是都可以恢复。但是我们这里面其实重要的一点就是他跟 get 不 太一样,就是他是只追踪自己的一个修改,他并不是跟 get 一 样去管理你的代码。 还有就是我们恢复绘画,这个我们在上一期有讲过,大概有这样几条秘密,然后我们要学会用像管理 get 分 支一样去管理我们自己的绘画。这样的话,你比如说呃,遇到一些跑偏的情况,你可以回溯到某一个 base 的 一个基点, 接下来我们看一个 cloud 杠 p 非交互模式,这个其实是一个没有交互界面,然后直接执行输出退出,这意味着你可以把它放到这个 c i 的 流水线里面,或者是说一些 pre commit 的 一个 hook 里面,或者是一些数据处理的一些管道。 那输入格式呢?可以是一些纯文本或者是 json 或者是流式 json, 这个其实就更像一条脚本的命名一样。 ok, 我 们接下来看一些呃 writer 和 reviewer 这个两种方式,这个是比较经典的一个运行模式,这里面我们简单看一下这两点。 首先我们可以用绘画 a 去做一个 writer, 去写写代码,然后绘画 b 呢去做一个审查者来去审审你绘画 a 写出来这样的一个内容,这样 b 的 这个上下文是比较干净的,他不会对你刚写的代码有偏见, 这样他就会更好的客观的去给出一个评价。反过来也行,比如说你有一个先写代码通过测试, 所以说这种是一种比较经典的定型模式,这个我们在后面呢会去呃再深入的探讨一些其他的定型绘画的一些使用方式。好,接下来我们看两种,也是两种常用的模式,一种是单出模式, 单出模式是什么呢?其实是呃,一种让 logo 列出所有待处理的文件,然后是要写破苹果批件,其实就是一个开多个绘画,同时处理一些文件的这样的一个操作。 然后比如说我们批量的翻译大大量的英文文档,如果说你只用一个绘画的话,其实翻译几个文档,你的上下文就冲冲爆了,所以说他是不太能够完成这样的一个操作的。那我们面对这样的一个任务的时候,就最好用的方式就是这个删除模式, 就是利用那个 cloud 杠 p 的 方式,然后就病情的去处理一些,嗯,相同的一些任务,但是是重复大量的一个重复的工作。 然后还有一种就是自动模式,这个时候呢,我们就是呃,不会,不用,不需要跟他频繁的交付,他也不会来问你一些问题啊。我们主要是一些常规的操作,他会自动放行,但是比较危险的一些操作他还是会帮你拦截的,如果说在非交互模式下拦截的话,就会自动终止。 我们接下来看一下五个常见的失败的模式吧。首先就是大杂烩绘画上下文混乱,这就是我们在一个绘画里面呃让他工作了很多不同的任务,这个时候我们就就是讲频繁的或者是积极的克里尔就好了, 还有就是反复纠正,那可能就是越改越错,那如果说我们有两次都发现他失败了,就不要再继续了,就果断的克里尔, 还有就是过重的这个克拉的 md。 然后比如说你一些呃规则就会被忽略,因为你太大了,所以说他反而会记不住,这个时候我们就要对他做一个瘦身,就删除一些规划,或者是把一些你想要的呃规则改成 hook。 还有呢就是信任和验证的差距,就是代码看似是对的,但实际是错的,然后你始终都在一个验证的一个阶段,然后导致你啊经历个几个循环之后,你的上下文就又被污染了,所以说这个就是我们要做好验证闭环的这个流程。还有就是无限的探索, 就是大量的去看,然后并没有实际工作,所以这个时候我们就要去按模块的大概给他做一个范围的限定,或者是用一些 sub agent 这种自带理的方式去定性处理。 ok, 其实我们刚刚讲的所有的一些手段呢,其实都是,嗯,并不是一种铁律吧,其实都是你在跟他交互的过程中的一些技巧,其实你的判断呢才是终点。 所以说我们到底什么时候该用哪些手段呢?其实是你积累的一个经验导致的,所以说我们要培养自己的一个直觉,嗯,或者是说你跟 coco 的 一个默契, 所以说我们并不是只是比如说哪一个技巧就能一劳永逸的就一下子就能让你的工作很高效,或者说你可以完全不需要管他,就一直自己干活,然后达到你的标准, 其实这个是,嗯,我相信你如果说长时间用的话,找到一个默契是可以达到的,但如果说你只是啊就是指望看某一个技巧就想达到这种情况其实是不太可能的, 就是你还是要,嗯,熟能生巧吧。后面这里面大概总结了一下今天讲到的几个秘密,然后大家可以大概看一下。 ok, 那 我们的这一个视频也有几期了,然后我们大概是,呃,有了一些入门的操作,还有一些进阶的操作,像我们也刚开始讲了 cloud md 的 这个一个详细的配置, 所以说我们这几条视频下来呢,可能,呃稍微走到了进阶的这个程度。那我们接下来呢,可能就是会去啊,深入的去走一些 下面的过程。比如说我们会去专项讲 m c p books 或者是 sub agent, 然后可能下一期我们会去讲运行规划,或者是一些工作流。 所以说我们其实每个阶段呢,都是有产出的,你每一个学习的新的一个知识点,它都是能帮助你在工作中提高你的一个工作效率的。 ok, 这一期啰嗦了这么多,其实最重要的一点吧,就是我们要多看多用多总结,这就是我们成为武林高手的不二法门。 ok, 那 下一期呢,我们会去做一个多绘画同步推进,让我们的效率翻倍,深入的去使用一下 b 型绘画,我们下期见。

今天又更新了,更新了这个版本。看看这个速度 啊,六十三左右。哇,这都已经接近很很流畅了。这都你看啊,上下文少了一点。上下文现在是六万五。 那也用的很爽了,开了可以四并发。四并发在五十左右。那很可以了,养个小龙虾在在 cologne 编个成啊,那本地随便用了, 你看六十六十三左右啊,单并发的, 这速度,刷刷刷的很爽很爽。
