今天我们来分享一下 agent 和 sub agent 的 区别和工作流程。但 agent 就是 一个只管记不管对的减肥教练。 假如你正在执行减肥计划,你发了一张午餐照片给 ai 记录,顺便问他,我下午要开四小时的车,中间饿了能吃什么?还有,帮我查查我昨天剩的那半瓶酸奶过期没? 当 agent 的 反应就是,他可能在分析照片里的热量,或者在查酸奶保质期。让你抓狂的点是,结果他回了,你开车可以喝酸奶。照片里的炸鸡看起来很好吃,建议你今天别动了。 他把热量记录、开车补充体力和检查食品安全全搅成了一锅粥,给了你一个毫无参考价值的废话回复。 最痛苦的是,你把他当管家,他把你当傻瓜。他看似什么都回了,但其实什么都没解决。这种无效沟通带来的心累,比你自己算热量还猛。这个场景如果换成 agent 加 subagent 的 架构,他就不愧是一个听不懂人话的复读机,而是一个分工明确的专业私教团队。 当你发出那句乱如麻的需求时,主 agent 不 会急着回复,他会进行任务重组,去识别你真实的意图。 他可能会得出一下意图,视觉分析、场景规划继续解锁。到第二阶段,主 agent 会唤醒专业的小弟,让他们各司其职。那么这些 sub agents 他 们是怎么辟邪工作的呢? 其中,针对视觉分析的热量精算时,他能识别照片里的炸鸡、沙拉和米饭,计算出这顿饭大约七百五十卡路里,并自动更新进你的当日消费额度。然后,场景规划的子弹里呢?他是一个路况能量官, 他会针对开车四小时这种融入疲劳且久坐的场景,筛选出低升糖提神的零食,用坚果、冷萃咖啡,然后支持检索的子弹。他是一个食品安全员,他会调取数据库中关于酸奶开放后存放时间的专业指标,判断昨天剩的酸奶是否有变质的风险。 然后到了第三阶段,主 agent 拿到三个小弟的报告后,会进行逻辑整合,防止出现建议吃炸鸡这种侮辱。 他会进行交叉核对,发现你中午吃了炸鸡,热量已经超标了。于是他会驳回场景磁带里建议的能量棒,将其修改为无糖无盐肠,以平衡全天热量,并且会给出风险警告。他会把食品安全作为最高的优先级,最终你会收到一份比较清爽、专一而又有效的回复。 为什么这个方案能解决之前的烦?因为子弹之间有物理隔离,算热量的不会去管酸奶过没过期不会失忆。主 a 系统拿着全局账的他知道你中午吃多了,下午的建议就会跟着变,从废话变成方案。他给你的不是三个答案的拼接,而是一套基于你现状的定制行动之名。 这也就是为什么要以 sub agent 的 原因可以减少犯错,让大模型在一个小范围内思考,也让它同时思考全职更容易保持清晰逻辑,突破上下文的限制。主 agent 不 需要处理每一个代码细节的 contacts, 它只需要管理各个 sub agent 的 家,要汇报 可以并行处理。多个 sub agent 可以 同时工作,大幅提升响应性。简单来说, agent 是 一个具备独立思考和行动农业的数据员工, 而 sub agent 则是为了完成某个特定目标被组织能拆分出来的专项小警或者底层执行者。他们的关系就像上司负责人和智能主人。那么他们的相同点是什么呢? 与大脑相符,两者底层都是基于大圆模型,核心闭环相同,都遵循感知、思考、行动的基本逻辑。 工具调用都可以通过调用外部 api 搜索工具和代码解释器来解决问题。其实 sub agent 和 agent 的 能力是一样的,只不过一个是负责控制权限,另一个是专一智能的工作。
粉丝102获赞290

最近 agent 很 火,这期视频重点讲清楚一件事, agent 到底有哪些主流的设计模式,它们分别适合什么场景,以及在真实工程里我们应该怎么选。首先我们来明确一下什么是 agent? 简单来说, agent 它不只是单纯的会聊天的一个大模型,而是能够感知环境、调用工具, 而且还能够决策最终能完成任务的这样一个系统。它和普通对话式的 ai 的 关键的区别就是在于,它不只回答问题,而是为了完成目标去做事。 agent 的 通常有四部分,包括大模型,这个呢就是 agent 的 大脑,他负责理解用户意图和进行逻辑推理。比如说我们经常看到的豆包的这个大模型啊, deepsea 的 这个大模型啊,这些都是呃大脑这个层面的。第二个呢就是工具, 我们有了大脑之后,我们需要指挥我们的身体去做一些事情,那这个工具呢,就是手脚,它能够联网搜索,能够调用数据库或者说执行代码,这就突破了大模型本身的知识和能力的限制,开始能够做事情了。 第三个呢就是记忆,这是 agent 的 经验,也就是说它会保存历史对话和任务的状态。最后一个呢就是决策循环, 这部分呢就是 agent 的 一个执行的流程,它能够根据工具反馈的结果,然后再进行反思,并且再去调整下一步的动作,直到任务完成结束这个循环。 那么为什么我们要研究 agent 的 设计模式呢?因为一旦任务从回答一个问题升级为完成一个目标,系统的复杂度就会上升,我们就会面临很多的问题,比如说要不要先规划再执行,要不要让多个 agent 分 工合作,如果说出了错怎么重试等等。就像我们现实中 分配一个任务给多个人去做一样,或者是分配给一个人去做一样。目前主流的 agent 的 设计模式大致可以分为以下几类,包括单 agent, 也就是一个 agent 负责全部的任务。再一个呢就是 react, 就是 边推理边行动,在推理的过程中行动,行动之后呢,再进行思考,思考之后再进行呃,一个行动的调整。 还有就是 plan and execute, 就 先拆解规划,然后再分布执行。还有就是 router multi agent, multi agent, 这个也是目前嗯,比较热门的比较主流的一个设计模式,就是多给 agent 共同协助完成一个复杂的任务。 has software workflow, memory reflection 这些主流的设计模式在这里进行了一个嗯,对比吧, react 是 最经典的 agent 设计模式之一,这个名字呢,就是来自 reason 和 act, 它的核心思想就是不要一次性给答案,而是边思考边行动。 比如说用户提一个复杂的问题, agent 先判断是需要查资料,于是说调用这个搜索工具,拿到搜索结果之后再决定下一步, 它比较适合那种信息不完整,需要边查边判断的。这种任务优势是灵活,但是问题很明显,如果说你给他的约束不够, agent 呢,可能会反复的绕圈,调用过多的工具,甚至会越走越偏。所以说 react 适合做中等复杂度的任务,但是上线的时候呢, 一般我们要加很多的限制。相比于 react 边想边做 plan and execute 就 更像我们人类处理复杂任务的这种方式了,我们在做工作的时候,是不是会先列一个清单,先列一个计划,然后按照这个计划逐步的执行?这种模式呢, 就更适合常列入的任务,因为它更容易让我们看清楚到底是在哪一步我们卡住了,我们需要重新地调整这一步的实现,方便我们做这个进度的这种管控吧。 那他的问题呢,就是,如果说一开始假如说我们的这个任务有偏差,那么后面的执行也会跟着垮掉,就是完全走偏了。所以说一开始计划的制定就显得格外的重要。 如果说当一个 agent 已经不够用了,系统呢,通常就会走向分工协助。这里有三个常见的层次,第一层呢就是 root, 就 先判断一下任务类型,再交给最合适的子智能体进行一个处理。 第二层呢是 multi agent, 是 多个角色直接写作。第三层是 cooperate, 它相当于是项目经理负责分配任务,检查结果啊,失败重试啊,最终再进行一个汇总。 那在真实的业务场景里边呢?如果说一定要做多 agent, 通常会优先选择第三种,而不是让多个 agent 自由的聊天。 如果说前面的模式更强调智能体的自主性,那么 walk flow 这种模式呢,强调的就是工程的可控性。在这种模式下,我们不会把所有的角色都交给 agent, 而是先把流程设计好,模型只是流程中的一个节点, 这也是目前很多企业级落地的主流的方向。因为真正上线之后,大家最关心的往往不是智能体看起来有多么聪明,而是能不能稳定的执行追踪问题,然后控制成本,并且呢,能够满足和微性的要求。 所以说很多所谓的 agent 的 产品底层其实更接近 walk flow 加 force calling 的 这种模式,而且再加上这个护栏的这种机制,可以满足我们生产级的这种应用。 除了前面的设计模式呢, memory 和 reflection 也是提升 agent 的 能力的关键, memory 可以 让智能体能够记住过去的交互和用户的偏好,从而提供更连贯更个性化的服务。他知道你是谁,你之前说了什么,你是什么性格,之前犯过什么错误。短期记忆呢,能够帮助他理解当下的语境,而长期的记忆呢,就会让他记住用户是谁,喜欢什么。 而 reflection 就 会让 agent 具备了自我总结和学习的能力,他不仅能够做事,还会复盘,会从错误中吸取教训,总结一些成功的经验,并且呢,将这些应用到未来的任务中,这也是迈向更加通用的智能体的最重要的一步。 实际做系统的时候,一个常见的误区就是一上来就设计多 a 阵的,但是经验上更好的方式通常是从最简单能跑通的方案开始。如果说任务简单,那么单 a 阵的就足够了,我们不要过多的这种设计,如果说需要多步的推理,那就用 react, 如果说任务长,那就用 plan and execute, 如果说能力多,那就加 root。 如果说要稳定的上线,那我们就给他制定这个 walk flow, 用这种方式去控制他执行的,最终的结果是稳定的,只有在单 agent 明显做不到,并且分工能够带来显著的提高的时候,我们再考虑 multi agent 或者 superviser。

只要你有一个可以调得通的大模型,你就可以开发属于自己的 agent。 agent 开发总共就分这么几步,第一步,对用户的意图进行识别,识别用户到底要干什么,比如说他是要查黄金价格,还是要执行编码,还是要看天气之类的?第二步,构建执行计划并执行。 嗯,比如说用户要查黄金价格,执行计划里面就包含去哪里查,用什么工具去查啊,然后对查的结果进行整理,反馈给用户。第三步就是 持久化的记忆,把我们对话的内容持久化的存储下来,这里用到的是向量数据库或者是一些本地的文档进行存储,这样的话大家都可以开发属于自己的 agent 了。祝大家生活愉快!

嘿,大家好,今天咱们来聊个特别有意思的东西,怎么牵手做一个更聪明更主动的 ai 队友?嗯,一个能真正自组织的智能体准备好了吗?那我们马上开始。 我想先问问你,你有没有觉得你手上的 ai 队友,或者你平时用的那些 ai 工具有点?怎么说呢?太听话了,就是你让他干嘛,他才干嘛,你不说他就停在那不动了。 那如果换一种玩法呢?想象一下,根本不用你管,你的 ai 队友会自己去看那个任务版,看到有活自己就给领了,这感觉是不是一下就不一样了?这就不是简单的命令和执行了,而是一个能自组织的团队,这就是咱们今天要深入聊的核心。 那要搞明白这个新模式到底牛在哪?咱们得先回头看看老方法到底有什么问题,也就是当你的队友只会听命令的时候,会卡在什么地方。 你看啊,在以前那种比较简单的系统里,就是这么个情况,你作为领导,必须一个一个的给 ai 队友派活,这个 ai 呢,他自己是不会动的,就干等着你发指令,这就成了一个瓶颈,对吧? 比方说就这么个任务板,上面堆了十几个活等着干,要是用老办法,你就得一个一个的去点,哎,这个你来做,那个他来做,这得多麻烦呀?人一多,任务一多,你这个领导非得累死不可。 那怎么办呢?解决办法其实挺酷的,就是给这个智能体一点自我意识。哎,别怕,不是科幻电影里那种,咱们说的是让他有自己找活干的能力。所以咱们说的这个真正的自制到底是个啥意思呢? 简单说,就是这个 ai, 他 能自己主动地去看任务吧,然后自己判断,嗯,这个任务我能干,而且还没人接,然后嗖一下自己就给领了。你看,这跟坐在那傻等命令完全是两个概念。 不过啊,在实现这个功能的时候,开发者们碰到了一个挺有意思的技术难题。就是说啊, ai 为了省事,会把很长的对话记录给压缩一下, 但这么一压缩,有时候他就晕了,忘了自己是谁,忘了自己该干嘛了。咱们管这叫身份遗忘,不过别当心,后面我们会讲一个特别聪明的办法来解决,他叫身份重注入。 好,那现在啊,咱们就来揭秘一下,这个听起来很神奇的自制工作流,他内部到底是怎么跑起来的? 其实啊,这个新的 ai 队友,他的生命周期就两种状态,第一种咱们都熟,就是工作状态,吭哧吭哧用工具干活。但关键的是,第二种叫空闲状态, 活一干完,他可不会闲着,而是立马进入这个模式,开始主动给自己给团队找下一个活,这就是自组织的核心所在。 那他空闲的时候到底在想啥呢?你看,他就像一个超级勤奋的员工,会不停地跑一个检查清单, 他会先看看自己邮箱有没有新消息,然后呢,就去扫描整个团队的任务看板,他会特别关注那些待处理的任务,然后确认一下这个任务是不是没人领,再确认一下这个任务是不是被别的任务卡住了, 所有这些都检查完了,没问题,他才会把任务领过来,然后切换回工作状态。你看这个流程是不是很严谨? 还记得咱们刚才提的那个身份遗忘的问题吗?解决方案就在这儿,你看,没处理之前,上下文一压缩, ai 就 可能蒙了,不知道自己是谁。 而身份重注入这个机制就特别聪明了,系统一旦发现这个对话记录太短了,它就会自动地在最开头把 ai 的 核心身份重新塞进去。就像有人在旁边拍拍他肩膀说,哎,哥们,醒醒,你是个程序员,你的任务是写代码,这么一来,它就绝对不会跑偏了。 说了这么多,可能还是有点抽象,没关系,咱们来做个直观的对比,看看新旧两种模式,这个 ai 队友的能力到底差了多少? 这张表就非常清楚了,简直就是个进化史。你看这个自治性,以前得靠领导派活,现在呢?自己组织为什么能自主组织?因为他多了个空闲阶段,会自己去看任务版了,任务认领也从只能手动变成了全自动。 还有身份,以前就靠一个系统提示,现在呢,多了个重注入的保险。最后,为了干这些新活儿,它的工具箱里也多了两个新工具, idol 和 claim task。 你 看,每一步升级都是一个质的飞跃啊! 好,理论部分咱们就聊到这儿,接下来就是最让人兴奋的部分了。现在轮到你自己上手,去感受一下这种自组织的 ai 团队到底有多少。 你可以直接试试屏幕上的这些指令。比如说,你先创建三果任务,然后叫出 alice 和 bot 这两个 ai 队友,你就在旁边看着,看他们俩怎么自动把活给分了。或者你弄一个程序员队友,看他怎么自己去任务池里捞活干。 更好玩的是,你还可以创建那种有前后顺序的任务,看看他们是不是真的那么智能,会按顺序来。过程中呢,你可以随时用杠 tasks 这个命令去看任务版,或者用杠 team 这个命令去监视你的队友们,看看谁在忙,谁在找活儿。 好啦,今天咱们的分享就差不多到这里了,随后我想留给大家一个问题,可以一起想一想,当咱们的 ai 队友真的都能像这样自组织起来的时候,我们人类的工作方式会发生一场什么样的革命呢? 这个问题啊,我觉得答案非常值得期待。好,咱们下次再见哦!

如何划分推理逻辑与 a 键的工具?这道题表面上问的是 ai, 实际上考的是系统架构能力。如果近期有需要去到面试或者准备去到面试的,可以来领取一份去到面试宝典。题目很多都有详细的解答, 涉及复杂计算、 ui 渲染、本地存储的逻辑应规划为工具,涉及自然语言理解、动态参数提取、任务编排的逻辑化类为推理。 agent 模式的核心是 react 循环。 lm, 根据上下文判断用户意图,输出符合特定格式的指令, 指明要调用的工具。前端执行该工具,并将结果返回,看一下详细代码。首先通过描述一些文字,告诉每个工具能做什么,建立一个 map 结构,当 lm 返回 name update 时, 前端逻辑能够触发相应的 cs 变量修改。在执行工具前,前端需要对 lm 提供的参数进行验证,防止大模型幻觉,生成无效参数。 现在行业里最火的就是本地模型加边缘工具,以前我们要把用户的请求发到服务器, 现在通过外部 gpu 可以 在浏览器里直接跑模型,意味着推理和工序调用都在扣端递还。这就是为什么我们啊,我们这个妙码呢,给大家准备了八个八大项目实战, 八大项目实战啊,并且每一个项目实战里面的内容呢,都是告诉大家怎么把这个内容学完之后去写到简历里面。 我给大家随便先看一个例子啊,就是给他呃简单看一眼来告诉大家,在比如说你,你把这些优秀的项目学完之后,你接下来自己去面试的时候,怎么样把它包装到你的简历里面去, 怎样把它包装这一步呢?其实非常关键,他比你做这个项目把它做出来都关键啊。我们就以这个我们给大家讲完的有一个项目啊,叫可视化平台的这个 d 代码啊,或者或者无代码平台吧。最后学习完之后啊,你看这个需求背景介绍啊,包括我们还有 facebook, facebook 链接都有啊,我待会可以给大家,给大家看一下,包括我们做 ui 库的过程中,就整个炼度环节的,因为其实我 呃不只是带前端团队啊,像早期像 u e d 团队,整个这个设计啊,前端啊,全链路的,包括其实都都有管管理过。所以呢,从需求层面啊,再到设计,再到开发,再到最终的整个项目管控,其实整个流程呢,全部通的,所以我们现在的项目呢,基本上是对标到这个 要求的啊,所以我们从这个内容也能看得出来,学习成果,学习产物学完之后有哪些东西啊?这个产物是什么?在这个项目里面我们用了哪些技术选型? 简历描述里面,初级的同学学完这个做什么啊?中级的同学学完之后写什么?高级的同学学完写什么?然后呢?课程内容里面,第一部分,我们比如说先熟悉需求,再熟悉架构设计,再了解构建流程啊,再深入了解 model rap, 然后呢再掌握项目的规范约束手段啊。第二部分 由浅入深的啊,因为你去在开源项目里面去看,在 gtr 上面去看,你确实能够看到那些开源的项目,但是呢,开源项目说实话也是参差不齐的,大家想要去找到一个写的非常优秀的那种开源项目呢,比较困难, 并且要追求到这种在国内啊,相对比较高 level 的 那种代码呢,还是比较困难的啊。所以为什么我们有这八大项目实战,并且呢这八大项目实战是我一个代码一个代码敲出来的,就是完全对于质量方面,对于代码的一些规范方面的内容呢,大家完全不用担心是直接对标到字节的啊, 对标到字节的整个 code review 啊,还有 code 整个规范的,大家其实后续从我们的那个呃脚手架啊,也能看得出来,脚手架呢是这周马上实战课的一个内容。呃,脚手架的内容呢,其实 是完全类似于这个 rspec, rspec 呢里面有一个脚手架,这个其实也是有部分内容呢,可能是直接对标到它,但是呢有很多功能写的比这个 rspec 呢, 可能会更精洁一些啊,这个地方有一个 r s pak 的 脚手架工具,或者说是叫控制台工具吧,叫 r s p。 这个 r s pak c o i c o i 里面呢,整体的这个规范编辑内容啊, s r c 还有里面的这些命令怎么去设计,怎么去弄这个呢,我也可以给大家看一眼,我我们的那个实战项目啊,都是完全对标的。 好,大家稍等一下啊, 好,这个呢是大家可以看到吧,可以看到同学扣个一啊,就我们的这个项目实战的。呃,那个浇水架的项目实战。好,给大家先看一眼,这个是 vip 这周的那个实战课,这这周末的啊,呃,构建这些都是用的 turbo。 呃整体的 c o i 工具的一些构建呐,什么我们是用的 t s up, t s up 来去做构建 t s up 呢?其实在我之前讲那个 es build 的 时候,都有跟大家去说过,怎么去自己封装一个 t s up, 基于 esbuild 来去做封装啊,这也是比较精益的内容。然后呢,这个里面我们同样啊,比如说 c o i, c o i 里面呢,呃,具体做什么工作啊?在 commands 里面怎么定义好这些?全部定义好之后,这里有个并文件,并文件妙码啊,怎么去做执行最后生成的这个内容呢?比如这个 disk, disk 里面怎么去做处理?最后我们在 app 里面有一个演示项目 来综合把它们整体抛起来啊,最终呢,就是这个效果。好啊,先只说这么多哈,意思呢就是,呃,这八个项目实战大家学完之后,其实对于大家的这个内力的修炼呢, 帮助非常大啊,这基本我截了个图放在这了,然后呢,对标的项目在这里大家都可以看得到,一个一个在完善,然后,呃,整体的这个课程大纲在这里呢,也给大家写这个列出来了啊,就是整个的项目时呢,其实就包含这里的这些内容,大家看到的就这些内容, 脚手架啊等等啊,好,这是关于这个开源项目啊,还有整个项目的一些准备方面的内容啊,好,这是关于这个开源项目啊,还有一点没看完,一共 四节课,四部分,那远程物料的加载格式化物料的加载聚量表格,我们怎么去做这个 canvas table? 还有呢,在 u 项目中间使用 react 的 一些技巧 啊,还有聚量表格渲染方案,我们怎么自己去通过 canvas 来实现一个聚量表格?然后呢第四部分,第四部分是渲染器的抽离, model ripper 拆包的逻辑啊, es 九的具体配置细节,端到端测试的方案啊, c i c d 整体的部署流程, 还有呢就是更高级别的这个同学啊,呃,优化构建,深入端端端测试啊,比如说 surprise 或者是配,呃,这个 play right 啊,怎么去做这个端端端测试?还有呢 turbo ripper 和 n 叉的实现 好,呃,以及这个自动证书的生成,呃,怎么用 candy 去做这个证书托管?包括这个地方面试的同学啊,有很多,呃,比如说在面试过程中遇到一些问题啊,比如说这个具体的一些问题啊,这个上面呢都给大家去列出出来了,然后呢跟大家去做一个详细的解答你的问题,也可能是其他很多同学的问题啊,我们都会在这里给大家去整理 啊,这个是持续更新优化的啊,这其中的一个实战。然后呢其他所有的这个实战内容呢,基本上都是按照这个内容来的啊,所以我认为啊,就是大家把这八个项目实战学完,把这些知识点全部看完之后,你到不了二十五 k, 我 觉得都都挺难的啊,这不是我说说大话,好吧, ok。

你辛辛苦苦写了一个 skill, 装上去之后 ai 压根就不用它,触发词说了,场景描述也写了,但就是没反应。 今天我就来拆解这个问题。九零百分号的 skill 从不触发,根源在 description 没写对本期是真。我会带你搞清楚三层批录模型 description 怎么写,才会触发工作流阶段结构是什么,以及五大反模式怎么识别和修复, 全是干货,建议一点五倍速看。先说今天要学的四件事,第一,搞懂三层渐近式,譬如模型,明白 l 一、 l 二、 l 三各放什么内容, token 不 浪费。 第二,学会写能触发的 description, 这是 skill 的 唯一入口,不会写等于白写。第三,掌握工作流阶段结构,记住四个要素,编号、入口条件、操作步骤、出口条件。第四,识别并修复五大反模式,让 skill 能通过质量审查上线。 这四件事搞定了,你的 skill 质量会有质的飞跃。三层渐进式批录模型是 skill 设计最核心的原则。 l e 式 description 始终在上下文里大约一百个词放触发关键词和使用场景。 l 二是 skill m d 正文 skill 激活的时候才加载,控制在五百行以内,放核心工作流和速查表。 l 三是 reference 目录下的文件, agent 按需读取,长度不限放详细规范和完整式例。 核心原则就一句话,每层内容只放一层,绝不跨层重复。很多人把工作流步骤写进 description, 这是最常见的错误, l e 根本就不是放这个的地方。 接下来说 description 怎么写,这是整个 skill 里最关键的部分。一个坏的例子是这样写的, description 等于帮助处理文档,这有什么问题?没有触发关键词, ai 不知道什么时候该用,它永远不会触发。 正确的写法是这样,从 pdf 提取文字和表格,填写表单,合并文档,当用户需要处理 pdf 文件或提到 pdf 表单文档提取时使用,看出区别了吗? 功能描述加上触发场景,再加上具体关键词,格式上有几个硬要求,双引号,单行字符串不超过一千零二十四个字服用。第三人称不写工作流步骤。 工作流阶段结构,每个阶段必须有四个要素,第一是编号,让 ai 知道执行顺序不能乱。 第二是入口条件,就是开始这个阶段之前必须满足什么,防止跳跃执行。第三是操作步骤,编号的具体动作越精确越好,消除歧义。第四是出口条件,怎么判断这个阶段完成了?必须是可以用 yes 或 no 回答的标准。 举个例子,阶段二生成报告入口条件式阶段一的数据已提取到指定文件,步骤是读取数据渲染模板,保存文件。出口条件式报告文件存在且非空,这样写 ai 执行起来不会卡壳。 五大反模式遇到了就必须修,这是硬标准, a p e skill m d 超五百行。 修复方法是把详细内容迁移到 reference 次目录下。 a p 二, description 里写了工作流步骤, description 只放触发条件,步骤放正文。 a p 三,工作流阶段,没编号,没出口条件,每个阶段编号明确定意,完成。标准 a p 四,引用链, 就是从一个文件引用,另一个文件再引用。第三个修复方法是所有引用句 skill m d 只有一跳 a p 五指令不可验证,写高质量代码这种说法完全没用,改成通过 lint 测试,覆盖率不低于百分之七十。 这五条写完对照检查一条都不能放过。自由度设置很多人没想过这个问题,但它很重要,简单说就是操作越不可逆,指令就要越精确。低自由度适用于删除、迁移、部署这类不可逆操作, 写法式精确执行某个脚本,不做任何修改。中自由度适用于有推荐模式但允许变化的场景,比如报告生成,给一个模板说明哪些字段可以自定义。高自由度适用于探索性任务,比如分析代码结构。写文档 直接说分析结构,提出改进建议就行。同一个 skill 里可以混用不同自由度,关键是要匹配操作的风险等级。 可验证性原则是工作流质量的底线,所有出口条件和指令必须能用 yes 或 no 来回答,主观表述要全部消灭。我来举几个对比, 写高质量代码,改成通过 lint 测试,覆盖率不低于百分之七十,合理组织结构改成每个函数不超过五十行目录按模块划分足够详细。改成包含问题、解决方案、事例三个部分, 表现良好,改成 p 九九,响应时间不超过两百毫秒。记住一个判断标准,出口条件要能被程序或人直接验证是或否没有中间态。 说几点我自己的感悟,纯第一人称,聊聊学完这套最佳实践之后的变化。最大的收获是认知转变。 skill 本质上是给 ai 写的 sub, 不是 给人看的文档改变了这个认知,整个写法就变了,以前很多废话自然就删掉了。踩坑最多的地方是 description, 我 一直写的是功能说明结果 skill 从不触发。 后来加上了具体的触发关键词,命中率立刻就上来了。意外收获是三层模型,让我意识到 token 也是成本。 l 三、按需加载是对 ai 的 一种尊重。接下来我要把现有的 skill 全部对照这套标准重审一遍,发现反模式就修。 最后是发布前的质量检查清单,写完 skill 就 对照这个打勾。 l 一、 触发部分, description 有 具体触发关键词,不包含工作流步骤,双引号,单行格式不超过一千零二十四字母 l 二、正文部分 skill m d 不 超过五百行。工作流所有阶段有编号和出口条件,每个引用文件有使用上下文说明。 质量部分不存在五大反模式,所有指令可客观判断工作流。最后有验证步骤,有一项,不过就先别发。 skill 写得好, ai 用得妙。今天的内容就到这里,我们下期见。

hey, 各位,欢迎来到哎,二零二六年,如果你觉得过去几年就是那个 ai 编程刚起步的时候,变化已经够快了,那你可得坐稳了,因为啊,一个全新的时代已经来了。 今天咱们就来聊一个说实话,已经彻底颠覆了软件开发这回事儿的概念, vibe coding, 咱们可以叫它氛围编程或者感觉编程, 咱们先花个几十秒快速捣蛋一下。还记得吧,就两年前,二零二四年,那时候有个抠拍了的能帮你写几行代码,咱们就觉得,哇,未来已来。然后到了二零二五年,一下子冒出来各种各样的 ai 智能体,他们能自己搞定一些小任务了,当时就觉得不得了。 结果呢,这才刚到二零二六年,整个游戏规则都变了,我们现在谈论的是什么?是意图及架构?这听起来可能有点悬,但它就是我们今天要聊的核心。 好,那为了让你能快速跟上节奏,今天这个解析呢,咱们就分这么几步走。首先带你感受一下二零二六年写代码到底是什么感觉,然后咱们得搞清楚 vibody 究竟是啥。 接着我会给你看看现在大家手里的 ai 神兵利器都有哪些。然后呢,重点来了,走一遍全新的工作流程。最后聊聊你需要点亮哪些新技能,还会带你亲手写下你的第一条 vibe 指令怎么样?准备好了吗? 行,那咱们就正式开始了。第一部分,欢迎来到二零二六年,在这里,你的意图就是新的原代码,对,你没听错,你最需要忘掉的一件事就是那些烦人的代码语法了, 这一点你一定要理解,因为这是最核心的改变。你想想看,过去我们一行一行写的那些代码,什么扎哇、派森,现在它们的作用更像什么呢? 就像编纂后的二进制文件一样,他只是个中间产物,一个过程而已。那真正的元素码是什么?就是你脑子里的想法,你的那个意图。这可不是小打小闹的改变,这是我们跟机器打交道的方式,从根上就变了。 好,那问题来了,这个听起来神神叨叨的 web coding 到底是个什么东西?咱们就来揭开它的面纱。简单说,它不仅仅是一种新技术,它更意味着我们这些创作者的角色要从编码员变成一个测展人。 vibe coding, 它的定义其实就是一种全新的开发方法。你看,你不再是那个吭哧吭哧写具体指令的人了。你的新工作是管理三样东西,意图、审美、还有逻辑边界。你就像一个电影导演,你告诉 ai, 我要一个赛博烹客风格的,用户体验要丝滑的,但是绝对不能有安全漏洞的应用。你把这个 web 给出去,然后 ai 这个超级执行团队就会帮你生成整个系统,你负责的是什么方向、品位,还有最终派板。 你看这个角色的转变就很清楚了。以前的程序员更像是一个顶级的建筑工匠,得亲手把每一块砖、每一行代码都精确的码好,对吧?但现在呢?你成了一个系统测展人, 你不再关心砖头是怎么麻的,你关心的是整个建筑的蓝图,是它的风格,是它给人的感觉。 ai 会给你生成好几个设计方案,而你的工作就是从中挑出那个最对味儿,最符合你最初那个 vibe 的 方案,你的品味现在变得至观重要。 所以啊,圈子里现在流传着这么一句话,也是 vibe coding 的 核心准则,相信氛围,验证结果。 什么意思呢?就是一方面,你要大胆地相信你的直觉,相信你对项目整体感觉的把握,这个 vibe 就是 你的罗盘。但另一方面,你又必须像个严谨的工程师一样,去仔细验证 ai 交上来的作业,看看它到底可不可靠,安不安全。 这是一种艺术直觉和科学逻辑的完美结合。聊到这,你可能想说,哇,听起来很酷,但这真的能实现吗?当然能,不过工友想法肯定行,你手上得有家伙事。 接下来,咱们就来看看在二零二六年,我们这些创作者的 ai 工具箱里都有些什么样的神级装备。 基本上,你的 ai 工具箱主要由这三大支柱构成,你可以把它们想象成一个听你指挥的超能团队。 第一个是像谷歌 project astra 这样的东西,它的超能力是什么?几乎无限的记忆力,它能把你公司所有的设计、文档、代码、规范、会议纪要、全技术,所以它能扮演一个完美的自主架构师,完全理解你的风格和需求。 第二个就是像 openhands 二点零或者 devon 三点零这样的 ai 智能体系群,它们不是一个人在战斗,它们会自己组成一个虚拟的软件公司。对,你没听错,它们会内部开会,讨论方案,分工合作,最后把代码给你交上来。 第三个是 mcp 二点零这种工具,它就更厉害了,它能打通虚拟和现实,让 ai 直接操作你电脑上的软件,调用真实的 api。 这三个家伙凑一块简直无敌了,好工具咱们看过了,那到底该怎么用呢?别急,现在就到了咱们今天这个解析最最关键的部分了,全新的工作流,对于一个新手来说,你到底该怎么一步一步的去写出一个程序来? 整个流程其实就三步,特别直观。第一步叫意图投影,这个名字很酷,其实做起来更酷,你根本不用打开 id, 一 敲代码,你直接拿起手机,对着一个你喜欢的设计用嘴说,嘿,给我做一个类似这种风格的 app, 或者你画个草图扔给他,就是用你最自然的方式,把脑子里的想法和那个 web 直接投影给 ai。 接下来第二步,自主循环。 ai 收到你的意图之后,他不会傻等着那个虚拟软件公司就开始自己忙活了,他们会去上网查资料,设计结构,写代码,然后他可能会弹个窗口问你 老板,你看这个配色够不够,你确认审美和感觉上的东西。最后一步叫实时重构,这是最爽的。 你在测试的时候,觉得这个列表滑动起来有点卡,不够带劲儿,你直接跟 ai 说,让这个滚动更有能量感一点儿。你都不用告诉它怎么改代码,它自己就会在后台分析优化重构。整个过程你几乎感觉不到,但结果就是滑动变得丝般顺滑了,从想法到实践就是这么行云流水。 听到这,你是不是觉得,哇,这编程也太简单了吧,好像什么都不用干了?嗯,如果你这么想,那就错了,他不是变简单了,而是对咱们的要求从纯粹的技术实现转移到了一个更高维度的层面, 也就是说你需要掌握一些全新的硬核技术技能。不过再说新技能之前,咱们得先明白这为什么是一个颠覆性的变化。有三点, 第一,写代码的语法门槛基本可以说没有了,这就意味着任何有创业的人都可以成为创作者。 第二,以前要一个团队,前端后端测试未运,现在你一个人就是一个全站团队,这效率太恐怖了。但最最关键的是第三点,你的创意,你的那个点子现在变得前所未有的值钱,因为实现它的成本大大降低了。 所以这就是你的新编程基础,一共四项。第一,叫逻辑拆解,你得能把你脑子里那个模糊的外吧拆解成一个个清晰的功能模块儿,告诉 ai 先做什么后做什么。 第二,提示词架构,也就是结构化意图,你不能随口一说,得学会用一种清晰有条理的方式,把你的需求完整地表达出来。 第三,也是我觉得最重要的就是顶级的用户体验和审美评价能力, ai 能给你一万种方案,但哪个是最好的,哪个能让用户用了,就离不开这个判断力,只有你才有。 最后别忘了,你得有安全和合规审计的能力, ai 毕竟不是人,他写的东西有没有漏洞,有没有胡说八道,你得是最后那个把关人。 好,理论咱们说了不少了,光说不练假把式对吧?现在就让我们来实际感受一下你的第一个程序,或者说你的第一条 vb 指令长什么样? 看,这就是二零二六年最常见的代码了。它不是拍丧,也不是招网,它是一份用简单标记语言写的结构化意图文件。你看这里,你可以定义整个项目的 web, 比如字体用什么整体,感觉是极简。未来风 技术站你也可以指定,比如用最新的框架。然后在 action 这里,你就用大白话下命令,创建一个带社交账号登录的页面。 最妙的是这个 feedback loop 返回循环。你可以在这儿给 ai 定个规矩,比如持续监控并优化用户的加载速度,目标是低于两百毫秒。你看,你不是在写代码,你是在给 ai 设定目标和原则,这才是真正意义上的合作。 所以咱们得捉入这个观点点, web coding 它绝对不是所谓的无代码,代码儿一直都在,只是你看不到而已。 它真正的意义在于,我们人类的角色被晋升了。以前我们是什么?是翻译,把人的想法翻译成机器能懂的语言。 现在呢?我们是创作者,我们终于可以把所有精力都放在创造这件事儿本身了。在这个全新的时代,所有关于怎么做的反锁问题, ai 都帮你搞定了。 那么一个终极的问题就留给了我们每一个人。当工具和技术再也不是限制你手脚的枷锁时,你的想象力到底能创造出一个什么样的世界?

这是个让某鱼卖家集体破防的自动卖货助手,在 getop 上有五千多个赞。它是专为某鱼卖家打造的自动化直手系统,全年后帮你回答客户问题,而且会根据客户属性自动切换角色进行问答 溢价,直到成交,再也不用焦虑没有及时回复而流失客户。更关键的是你可以设置底价,它会用阶梯降价谈判策略,成交的同时让你的收益最大化。嗨,大家好,闲鱼上面最近有一个开源项目很火,它已经获得了六点一 k 的 star, 但是像这个程序在使用的过程当中,第一个你得在电脑上面装 python, 然后第二个你得克隆这个库, 第三个你得安装依赖。还有呢,你要配置这个变量环境,那么这个对于很多计算机新手来讲,他其实是不太具备这个能力的,但是真正的问题还不出在这里,因为像这个开源的大佬啊,他说这个是七乘二十四小时无人值守的,实际上他有个核心的问题没解决, 就是闲鱼的凡机器人认证,就是每一次都要有一个手动滑块的过程。基于以上的这些问题,我把这个程序进行了一个改装,现在第一个呢,他有那个界面,第二个呢,就是我直接把它打包成了 exe, 可执行文件就大家习惯的就在电脑上面,你把它拿 拿过去之后直接双击运行就可以了。那么原先的这个程序在执行的过程当中只有这样的一个命令行窗口,那么现在呢,它是一个带有界面的一个程序啊。然后前两天我发了两期视频,有很多人找我要这个程序,但是在使用的过程当中,我发现 还是需要出一些教程的,所以这个就是一些教程。简单的跟大家讲一下,第一个你打开了那个 excel 文件之后呢,它就会启动这样的一个窗口,这个你可以不用管它,这个是一个 日制的输出了,然后呢会启动这样的一个网页的页面,网页的页面你就可以当成程序的那个 ui 的 操作入口就好了。然后大家前期要做的工工作是什么呢?这里面集成了一些大模型, 像通易、千问、 kimi、 deepsea、 智普、腾讯红源。那么你要去对应的平台申请一个 api t, 没有这个的话,这个程序是运行不了的,当你配置好了之后,你一定要点保存,然后第一次运行的过程当中,大家一定要从这个位置启动这个浏览器, 就是它会自动打开闲鱼,如果你没有登录,它会要求你登录,如果你已经登录了,就会像这样子自动进入。啊。还有一个在第一次登录的过程当中,闲鱼会跳出一个窗口,就是 关闭还是保持,你一定要点保持,因为保持的话,你第二次系统自动打开它就不需要扫码登录了。在这个情况下,你登录完成了之后,那么我们做一下 f 二,点一下 network, 比方说这个有的时候如果你是中文的话,你是要按这个,呃,这个叫应该叫网络吧,点这个 network 之后,你再点这个 fetch, 然后这个时候你再按一下 f, 它会刷新出很多的链接,其实是最新的一个网络动态,你随便点一个就好了,点一个往下滑,找到这个 cookie, 把这个 cookie 给 复制过来, ctrl 加 c, 把它复制过来,然后你把它这里把它给复制进去。 当然第一次启动的时候,这里肯定是机器人还没有启动的啊,你复制进去的时候,然后你点这个应用, 呃,就保存配置或者应用,然后你再点启动机器人显示连接注册完成,那么你第一次的登录就完成了。之后这个程序只要出现就是咸鱼,检测到这个可能是机器人在使用, 那么它就会触发这个滑块的功能。当闲鱼触发了滑块的功能,就是你刚刚录入的这个 cookie, 它就连接不上网络了,连接不上网络,那么这个时候程序就会自动的去更新,这个更新是全自动的,不需要你人为的介入, 像那一个滑块的操作,它会自动完成的。好,大家可以看一下啊,这个闲鱼的整个滑块执行过程啊,它是这样子的,你看它会自己刷,主动刷新网页。 好,他鼠标已经滑到那上面了。这个其实并不是我人工在操作的,这是一段代码实现的, 当滑块执行完了之后,他会关闭窗口,关闭窗口之后,他会把新的 cookie 注入到这个系统里面,那么大家可以看到这个下面显示连接完成, 解决了这个问题,他才能真正实现七成二十四个小时的无人之手。然后再跟大家讲一下,就是这里面一些细节的功能,像这个接管切换关键词, 你把它打开一下,就是逗号、冒号、警号、叹号,呃,这个艾特的符号没关系的,你随便选一个就好了。 那么这什么意思呢?就是 ai 在 跟客户聊天的过程当中,有的时候你手机上也是可以看得到的,当你看到手机上跟 ai 在 跟客户聊,哪怕是他聊得不好,或者说你觉得这个客户意向很高,需要你自己人工介入的时候,你就在手机上直接回复一个句号过去, 你的信息一发过去, ai 就 不接管这个客户了,就是会直接就交给你了。下面这里一个开启模拟打字延迟效果,那么这什么意思呢?就是说我们人类在回复信息的过程当中,其实是没办法做到像 ai 这样子秒回的, 那么这个时候呢,就是他会根据你输出的内容的长短,他会在一到十秒之间做一个随机的一个延迟,这样子在后台看来也更加像一个真人在操作。第三个,这个单一提示版本是我自己添加的,什么意思呢?就是有些人卖的是一种服务, 他其实不太适合用原先卖商品的那一套逻辑去卖,所以呢,我就加了一个单一提示词,就是你不想要那个什么动不动很复杂的,那么 ok, 那 你就自己 呃写一套提示词上去。那么写这个提示词有什么技巧跟窍门呢?很多人其实不会写提示词的,所以呢,你其实也只要打开一个 ai 网站啊,我自己比较喜欢用这个呃,叫预制暗面, 就是你打开一个,你告诉他你是卖什么东西的,然后你现在有个 ai 机器人,你需要写一个, 你需要写一份提示词,很多人不知道如何写这个提示词啊,所以呢,就是有的时候我是让 ai 协助我来写的,整个的过程当中就是让他弄好了,我就写好了丢给 ai。 如果是常规做一个产品销售的啊,那么其实你可以起用这个 原有老的这个业务模式,我把这个保存一下好,整个使用基本上就这样子,没有什么太复杂的东西。而另外一个呢是这样的, 这里面有一些高级设置,呃,这个呢是浏览器跟这个闲鱼的服务器之间的一个心跳包的一个发送过程。其实我们常规在使用浏览器的过程当中,他也是定期跟内边做交互的,不然的话客户有时候信息发过来,浏览器就会检测不到, 然后我在这里面加了一个随机抖动。随机抖动是什么意思呢?不然的话他这个频次是以标准的十五秒时间发送的,那么这个又很像机器人,所以加了个随机跳动之后,是在十五秒的基础上,大概有百分之二十左右的一个误差,他有可能会到十八秒,也有可能是到十二秒, 大概就这样子。然后另外一个呢,大家在使用的过程当中,这个 token 的 刷新时间默认应该是三千六百秒,大家把它直接调成八万四千六百秒就好了,因为这样子的话就不会一个小时触发一次这个 token, 基本上就这样子,那么有需要的直接可以进群里,我这边可以分享给大家啊,我并不是想要做一个什么 ai 博主,我只是单纯做了这么一个东西,如果对有些人有用的话,我觉得挺好玩的。

我看你简历上负责过那个智能助手的项目,里边涉及不少复杂的交互,那咱们聊聊具体的,在你负责的这个项目里,意图识别这块你们是怎么落地的?另外,对于意图识别最核心的准确率指标,你们当时是通过哪些手段去优化的?在这个项目里,意图识别其实是我们整个 n l u 模块的守门员。 简单来说,我们采用的是一套规则兜底加深度学习、模型分类、加大模型语义理解的组合方案。在项目初期,我们先定义了核心的意图术,为了保证响应速度和可控性,我们并没有一上来就全交给模型。 对于一些高频且格式非常固定的指令,比如打开某功能或者退出,我们用的是高性能的正则匹配或词典预过滤,这样能省掉不少计算资源。 而对于占大头的用户自然语言,我们主要依靠于 bird 类的向量化模型去做多标签分类,我们会把用户输入的句子映射到预设的几百个意图分类上。在实际落地的过程中,我发现单纯靠分类模型是不够的,因为用户说话非常随意, 所以我们后来引入了大模型作为语义补充。当分类模型的知性度处于一个微度区间,也就是模棱两可的时候,我们会把上下文丢给大模型, 让他结合当下的语境去做二判。说到如何提升准确率,这确实是我们花精力最多的地方,我总结下来主要是从四个维度去死磕的。第一是数据质量的精细化治理, ai 圈有句话叫垃圾进垃圾出意图识别也是一样的,我们当时发现准确率上不去,很大程度是因为训练级的标签有噪音,或者是意图定义的边界太模糊了。我带团队重新梳理了意图体系, 把重叠度高的意图做了合并,对容易混淆的意图做了拆分。同时,我们建立了一套标注反馈机制,每天我们会抽检 bad cases, 把那些模型识别错的语料拿出来分析,如果是标注错了就纠正,如果是模型学的不好,就通过数据增强, 比如同义词替换、回忆等手段,定向补充这一类意图的训练样本,让模型多见世面。很多时候,单看用户这一句话是没法判断意图的。 比如用户说再来一个,他在听音乐时和在点餐时意图完全不同。我们通过 session 管理,把前几轮的对话状态作为特征输入给模型,通过给意图加上时效性和场景权重,我们大幅度降低了跨场景下的识别误撞率。第三是针对巨石 和 o o d 的 专项优化准确率,不只是要把对的认对,还要把不在服务范围内的东西挡出去。以前模型总是强行把用户的 闲聊归类到某个业务意图中,导致回复很莫名其妙。后来我们专门训练了一个二分类的句式模型,先判断这句话是不是在我们业务的服务区内。对于那些确定不了意图的请求,我们设计了婉转的澄清话术,引导用户重新表述,而不是瞎猜。 第四是建立了一套线上闭环的自动化评测体系。我们不仅看整体的 f e score, 还会针对核心高频意图设立专门的金标准级,每当模型迭代时,必须通过这套准入测试。同时,我们在线上接入了用户反馈信号,比如用户如果连续问了两次同样的问题, 或者在机器人回复后点击了没帮助时,这些信号会自动触发报警,我们会把这些 bad cases 自动捞取出来,进入下一轮的优化循环。通过这套组合拳, 我们项目在半年内把核心意图的 top 一 准确率从最初的百分之八十二左右提升到了百分之九十四以上,基本上解决了大部分用户听不懂的抱怨。最后,我整理了一份近期各大厂 ai 产品经理高频面试提文档,大家可以来看看。

直接说结论, cloud 在 昨天更新的 computer use 这个插件是没有办法投入生产的,现在还远远没有达到可以用的程度。 昨天推特上 cloud 更新了一个 computer use, 我 看到这个推送,我就迫不及待打开电脑尝试了一下,那具体的打开方式呢?就是在你桌面的这个 desktop 的版本里面,然后打开 cloud code 里面有一个设置,你把这个设置里面的 browser use 下面的 computer use 给它打开,打开之后你就可以使用了。然后我也尝试在 c u i 里面打开它, c u i 现在是不支持这个插件的,那我对于这个场景非常感兴趣的点,呃,就用这个个人微信回复去做了一个测试,这个就是你们看到的测试结果, 呃,我让他给我微信里的一个联系人发送一条消息,你中午吃了什么?我在这里给大家做一个这个详细的这个讲解。第一是他直接输入了消息,因为他这个时候打开了我的电脑, 那其实它后面识别到这个群聊不是我想要发送的联系人,它就再次切换到这个我想要的指定的联系人的对话框。但这里问题来了,我就发现了这个 computer use 它真正的这个操作逻辑,它是在不断的截图,然后截图识别图像上面的要素,然后判断这个控制点,然后通过键盘操作的方式 来进行选用。那键盘操作会有个什么问题呢?就是我最终其实这个进程没有跑完,我就给他放弃掉了,他会遇到一个非常严重的问题,他在搜索框里面搜索我想要联系的这个联系人,一旦这个联系人搜索的结果是多个,因为微信的搜索联系人一定会出现多个,只要你跟这个人有群聊, 那出现的第一个结果就是,呃,这个你,你的这个联系人第二个结果就是你跟这个联系人存在的一系列的群聊,那这个时候这个键盘的搜索就会一直出错,就导致我只是让他简单的在微信里面给我的这个联系人发送一条消息,这件事情都做不到。 所以 computer use 它真正要落地在你的电脑里面去操作你的软件,这一条路我觉得还有很长的路要走,但是我觉得 browser use 已经非常好用了,因为 browser use 明显它对于控件选举的精确度是要非常高的。

![[补档]自动化不是终点 自动化不是终点:如何构建以 Agent 为核心的“意图驱动”投放中台?(有人私信说为啥不发上一期)#claude #agent #openclaw #mcp #增长知识](https://p3-pc-sign.douyinpic.com/tos-cn-p-0015/okQTUobwd8AUBIsOCKvAaVOmPiIONiDIWTBGz~tplv-dy-resize-origshort-autoq-75:330.jpeg?lk3s=138a59ce&x-expires=2092122000&x-signature=XU2ghX5SH1edjtMaa09qBOMRRSQ%3D&from=327834062&s=PackSourceEnum_AWEME_DETAIL&se=false&sc=cover&biz_tag=pcweb_cover&l=202604211714125FE3064C9ADD6003CFD3)
大家好,今天我们来聊聊一个核心话题,自动化不是终点。我从二十一年开始做投放自动化,经历过完整的建设周期,这篇文章是踩过坑后的复盘。核心问题只有一个,投放自动化的尽头在哪里?我的答案是, agent 不是 用来替代自动化,而是用来处理自动化做不了的事。 第一章我们来看看自动化的三大局限。首先是审美断层、批量合成、效果差强人异。最后是上下文缺失,无法处理、模糊判断。 这三大问题构成了自动化系统的逻辑僵化困境。投放侧的自动化理想状态讲的是从素材生产到广告创编,再到效果追踪的全链路自动化。这里面每个 part 面对的问题都相当复杂。 过去我们尝试尽可能去堆积一座完美的堡垒,但随着业务深入,我发现过度自动化的陷阱正变得越来越明显。这种重度研发、缓慢交付的模式在日新月异的投放战场上已经显得力不从心。 第一个陷阱是素材生产的审美断层。自动化可以实现批量合成,但所谓混剪的效果总是差强人意,不管是 aigc 还是多模态,内容理解,在当前阶段已经成为了成本黑洞。 第二个陷阱是广告创编的逻辑爆炸。当我们适配了多套投放逻辑,多个业务线底层的代码逻辑已经膨胀到了难以维护,代码门槛极高的程度。 第三个陷阱是效果追踪的上下文缺失。自动化只能做到看到 a 触发 b, 但他无法处理因为大盘竞争激烈导致的瞬时 roi 波动这种需要模糊判断的场景。 所以自动化系统的瓶颈不在于功能的多寡,而在于逻辑的僵化。我们投入了大量的研发资源,却只是在用代码去死磕那些瞬息万变的业务 sop。 第二章从硬编码到解偶执行,我曾经寄希望于规则引擎来解决无止境的适配,但最终发现规则引擎有两个深坑,配置成本的自身灾害和飞镖场景的逻辑踏梭。 这一刻,我意识到我们应该寻找一种解偶执行的新范式,把逻辑处理的权力移交给 agent。 规则引擎没有落地,我预判到了两个无法避开的深坑,第一是配置成本的自身灾害,运营学习配置语法的门槛并不比直接提需求低,最终研发还得帮运营写配置。 第二是飞镖场景的逻辑塌缩,带有强烈上下文背景的判断,规则引擎极难覆盖,强行去写只会让规则库变成黑盒。 与其花三个月造一个可能上限及过时的规则引擎,不如直接把逻辑处理的权力移交给更具通用推理能力的 agent。 我们要做的是能力的原子化研发,不再负责写死逻辑,只负责提供原子化的执行能力。这种结偶带来的改变是颠覆性的,研发的工作从适配运营的每一个奇思妙想,变成了维护一套稳定、标准、高性能的底层工具库。 第三章 inforce 是 基本功这部分是落地 a 阵最关键的一部分。 openai 温家易提到模型差距的三个大因素是算力、数据和 inforce。 对 于我们普通公司而言, inforce 的 基本功是一切的大前提,我们需要分钟级的数据响应作为视神经,全链路的监控预警作为安全阀,以及语义化的报错处理。作为闭环能力。 看看 infr 监控中心数据服务、监控预警、语义反馈三项核心能力全部运行正常。这里我要强调一点,没有实时性, agent 的 灵活性就是伪命题。如果数据链路延迟半小时, agent 就 会根据过去的信息指挥现在的动作。 我们从二十一年开始构建分钟级别的数据系统,这个基本功是一切的大前提。看看我们的数据时效性提升趋势。从二十一年开始构建分钟级数据系统,到二十五年使用动态 rds 订阅解决千万存量账户的分钟级数据变更,数据延迟从三十分钟降低到一分钟以内,降低了百分之九十七。 没有实时性, agent 的 灵活性就是伪命题。如果数据链路延迟半小时, agent 就 会根据过去的信息指挥现在的动作。第四张 mcp 是 过度期的最强神经元。在确定了节偶执行的方向后,最现实的问题是 agent 怎么调动我的 inforce? 如果只是写一堆私有的 ap skill, 那 我们就又回到了为每个 agent 定制逻辑的老路。这时候 mcp 成了我们的破局点,我把它定位为 agent 的 时代的神经元,因为它解决了三个最棘手的落地难题。 我把它定位为 agent 的 时代的神经元,因为它解决了三个最棘手的落地难题。第一是资产的即插即用,拒绝烟囱式开发。我们将内部树仓和投放 api 封装成独立的 mcp server, agent 看到的只是标准化的动作指令。 第二是安全与权限的物理隔绝, mcp server 运行在独立的宿主环境, agent 接触不到任何底层敏感信息。 第三是语义化的自愈能力, m c p 接口会返回语义化信息, agent 能理解错误并修正动作。 m c p 有 四大核心能力,第一,资产即插即用,实现标准化能力资产。第二,安全物理隔绝, agent 接触不到敏感信息。第三,语义化自愈, agent 能理解错误并修正。 第四,工程安全感精准控制 agent 的 操作权限。这四者共同构成了 m c p 的 本质价值,让 agent 真正具备工业化落地能力,从玩具变成生产工具。这是 m c p 相比于传统 api 最硬核的地方。当自动化系统报错代码四零零幺时,传统系统就死机了。 但我们的 m c p 接口会返回语义化信息,当前计划处于审核中,无法调整预算, agent 读到这个反馈后会自我修正逻辑。既然在审核,那我先去检查同组的其他计划,或者记录下该状态,十分钟后重试。这种理解错误并修正动作的能力是过度到纯托管的关键。 第五章给模型长出眼和手如果说 m c p 解决了百分之八十的标准化数据和 api 操作,那么剩下的百分之二十则是最令投手头疼的飞镖深水区。这些地方 api 触达不到,是传统自动化无法逾越的鸿沟。 为了填补这最后的百分之二十,我们引入了 open claw。 如果说 m c p 是 agent 的 神经接口,那么 open claw 就是 给它装上了模拟人眼的视觉和模拟人手的触觉。 open claw 是 眼手合一的解决方案, 演自动化系统看到的是计划已关停的状态码,而 agent 通过 openclaw 看到的是具体的诊断详情页截图能识别出是因为文案存在夸大宣传还是图片背景过于杂乱。 手在没有 api 开放的旧系统, agent 可以 驱动 openclaw 模拟鼠标点击完成重新提交申请复合等动作。 这种严守合一的架构让 agent 真正具备了处理业务 case 的 闭环能力。我们的实战闭环逻辑分四步,第一步,感知自动化底座触发异常告警, agent 通过数据 mcp 确认消耗与 roi 异常。 第二步,诊断 agent 的 驱动, openclaw 亲自去投放后台看一眼,通过视觉分析锁定剧审原因。第三步,决策, agent 结合数据与截图信息,判断是该换素材重发还是调低出价观望。第四步,执行最终通过操作 mcp 一 键下发指令, 这种严守合一的架构让 agent 真正具备了处理业务 case 的 闭环能力。第六章边界划定在落地过程中,我最先解决的是权力分配问题。 agent 不是 来取代自动化的,它是来接管自动化处理不了的模糊地带。对于那些非黑即白、高频触发的逻辑,我们依然坚定地留在自动化规则里。 但当规则进入灰色地带,或者需要看树加看图加看趋势进行综合判断时,才是 agent 出场的时刻。对于那些非黑即白高频触发的逻辑,我们依然坚定地留在自动化规则里。比如预算垄断秒级,监控执行成本几乎为零,且对响应时间要求是毫秒级。 如果这类活也叫 agent 去思考一下,不仅浪费 token, 更会因为 llm 的 推理延迟导致超支风险。但当规则进入灰色地带,或者需要看书加看图加看趋势进行综合判断时,才是 agent 出场的时刻。调动一次 agent 的 成本虽然远高于自动化规则,但它节省的是昂贵的人工决策时间。 第七张算清楚这笔成本虽然远高于自动化规则,但它节省的是昂贵的人工决策时间。第七张算清楚这笔成本账。作为一个技术负责人,为什么不继续写代码实现? 我的答案是,研发成本与维护损耗的账必须算在内。这里有三个关键数字,效率提升十倍。偷看成本只占百分之一,解决百分之九十的枯燥工作,避免万倍的错误损失。 agent 有 三大成本优势,第一,研发成本的杠杆效应。传统自动化增加一个复杂规则,研发周期以天计,人力成本过万。 agent 架构下研发只需提供 mcp 接口运营,通过 prompt 描述策略分钟级上线,效率提升十倍。第二,动作与思考的成本剥离。我们用自动化脚本进行二十四小时全量扫描,只有当数据触发异动预值时才唤醒 agent。 这样我们用百分之一的 token 成本解决了百分之九十需要人工盯着屏幕的枯燥工作。 第三,避免硬代码导致的坏账。错误的规则适配造成的直接损失往往是 token 费用的几万倍。 agent 具备的语义理解能力,本质上是为投放买了一份逻辑保险。第八章未来的护城河在从自动化向 agent 过度的过程中,我最深刻的感悟是,代码不再是护城河,逻辑才是。过去一个投放团队的壁垒,可能是他们拥有一个多重多复杂的自动化中台, 但在二零二六年,这种壁垒正在瓦解。随着 agent 架构的普及,任何公司都能在短时间内通过标准的 mcp 接口组装出一套具备执行力的系统。在从自动化向 agent 过渡的过程中,我最深刻的感悟是,代码不再是护城河,逻辑才是。 过去一个投放团队的壁垒,可能是他们拥有一个多重多复杂的自动化中台,里面堆砌了无数个研发熬夜写出来的规则。但在二零二六年,这种壁垒正在瓦解, 真正的护城河正悄然转移到如何将顶尖投手的盘感进行数字化复刻。首先是盘感提炼,以前老投手的经验是口传心授,现在我们可以将其转化为 agent 的 system prompt。 然后是 mcp 封装转化成 mcp 工具的调用逻辑。接着是 sop 沉淀,转化成 open cloud 的 巡检 sop。 最后是持续净化,看着这些 agent 在 投手的指挥下,在千变万化的市场中自我演化。 总结一下,我们提供了最稳固的 infa 底座,最标准的 m c p 接口。然后看着这些 agent 在 投手的指挥下,在千变万化的市场中自我演化。从招人到育种,未来增长团队的核心资产是沉淀了多少套高质量的 skill 库,让 agent 成为你的增长伙伴?谢谢大家!

大家好,今天给大家介绍一下 news diy, 一个带有 ai 智能信息源发现功能的新闻聚合平台,在主界面顶部可以快速添加各种信息源, 点击标签栏进入详情, 这里即可看到文章的缩略介绍,也可以跳转原文右上角点击可以登录支持邮箱登录注册, 登录之后就可以添加自定义信息源,比如我们这里输入,让他帮我找一下东华理工大学研究生院的招生公告,此刻就会由 agent 来启动浏览器来查找目标, 此时来看到浏览器端自动查询,并且翻页识别页面元素,由于主播有魔法,所以搜索出来的东西多多少少带点英文, 这里终于找到相关,成功进入官网,并且点击招生工作, 这时前端就可以看到详细的步骤以及前几条信息,选个自己喜欢的颜色,改个名字就可以保存这个查询路径,同样可以点进去选择条信息进行 ai 分 析。 以上就是 news diy 的 主要功能演示,这个项目已经在 github 上开源了,欢迎大家 star 项目地址在视频简介里,感谢观看!

然后我们刚刚在本地部署了那个千文三九 b 的 那个 q 四模型,因为它是一个全模态的一个模型,它可以进行视觉,嗯,它可以进行那个对图图像的识别,那么利用它这个特征呢?我们就可以 呃利用它来操作我们的浏览器。呃,我们借鉴的是那个凹凸 g l m 他 们的那个,呃,手机操作浏览器的那个整个一套系统,然后我们给他移植在了 windows 上面,在这个 windows 上面呢,我们就可以看到它那个是如何操作我们系统的啊? 首先我们第一步也是运行我们的这个主脚本,我们的任务我们之前有设置过,比方说我们现在桌面上是没有浏览器的啊,没有浏览器。然后我现在就是让他搜索这个帕布麦的,去找那个肝癌相关的文献,然后选择近五年的文献。 呃呃,这个下载可能是有点困难啊,让他找找那个点击进去的吧,下载的话,因为有些文献他没法下载啊啊,他链接不太那啥, 我们是给他一个任务呢,就直接去拍卖的里面搜肝癌相关的文献啊,找就是找近五年的文献,上下翻找,然后找到那个肝相关的文献,然后让他点击进去,就这一整套流程,然后我们测试一下, 你看他直接打开了我们的这个浏览器,然后他先那啥了一下, 看他会不会输啪啪麦的啊,我们把他那啊,他输了啪啪麦的,我们先不干扰他啊,马上我们把这个流程给他看一下,他点击了进去,然后在这里选了开始。首先他这应该是一年的啊,直接就是五年的,他直接上下翻找, 他找的话估计有点找的难找到,找不到的话我们看他会不会选择第二页啊?嗯, 他想点这个,但是好像这个模型呢,没把它啊点到了啊,他直接搜 ctrl 加 leave, 这这个是更好的一个选择 啊,他直接点了第一个,第一个呢我们可以看到啊,这个是四 d 的 一个,那个在这个干细胞癌,实际上他已经成功了啊,这个 hcc 他 就是干细胞癌,他已经选选择成功了,这个就是他那个操作的一个系统 啊,这个任务呢,它是一个流逝的一个任务,我们可以看一下它的后端的一个占用啊,刚刚我们用的 cpu 它一直在调用,那整个内存占的是二十四 gb, 整个那个显存的占用呢,大概是十二 g。 然后我们可以看一下它的这个操作的一个流程啊, 他刚刚就是先是我们交给他的任务是搜索这个文献,然后点进去找到干相关的文献,他还挺聪明的,他把这两个结合在一起,这样相当于一起搜的,这样会更更那啥一点。 首先呢看我们的模型处理了多少,一般都是全截屏,然后思考,思考完之后呢给出动作,这个就是模拟那个奥拓 g l m 他 们那个项目里面也是他操作手机也是这个流程。然后我们把这个虽然这个视觉没有经过微调,没有经过微调操作这个 电脑界面,但是呢我们可以结合那个浏览器中的那个搜索术啊,就是他有那个元素自带的一个搜索术,然后结合到模型的视觉,然后我们就可以达到这样的一个效果。嗯,我们再给他一些,再给他一些那啥。呃,一些任务吧, 比方说搜索斗罗大巫,拉尔爵士堂门的漫画,点击进去。呃, 他一般的就会开一个新的网页啊,直接就开一个新的。呃。客户端, 我们看他怎么搜。一般这个点击搜索的话应该还是比较简单的啊。啊,这怎么搞了?这个查找你看他不知道为什么会把这个调出来啊。我们先给他查掉,我们看他会不会搜索啊,他自己点进去了。 嗯,好,他已经点击进来了,我们再测试一下,让他点击进淘宝看一看。这个。我这个任务,我们。 嗯,搜索,点进,进淘宝网站,搜索最新的 djs mark 的 价格 对比,至少三个页面啊,我们看他会不会对比啊,给出最最低的价格和商家的名袋和商家的名字啊, 看他能不能搜索。这个任务我也是第一次尝试啊,如果不行的话我们后期也可以优化一下,对于这个进行优优化一下,看他会不会啊。 嗯,首先进淘宝网,对的,然后他会点,他只会点第一个。哎,淘宝点进来了啊,看他怎么说。这是淘宝吗? djs mark, 哎,怎么又返回了?对选,他选择了第二个的 djs mark, 对, 进来了,哎。 啊,这是淘宝的那个弹窗,这是很烦的啊,我点个允许吧。不点允许的话允许啊。淘宝的弹窗,不然的话他没法操作。要登录啊,登录的话我扫个码吧。 他一直在帮,想帮我们搜啊,但是淘宝好像要登录啊,搜到了,哎呀,算了,我还是给他登录一下吧,等他再出现这个二维码的时候我来给他登录一下,没办法啊,不登录他没法操作好了。 嗯,他点了这个,好让他自己操作,允许 看他搜的是什么啊,我看他任务有没有结束呢? 哈,搜的是主线啊,我们要的是模型他主机,他给我们搜的那个红生生物科技的科技线啊,这他也是能做一些东西的啊,我们重新让他来 主机没讲好, 不知道这里面有没有我的淘宝页面,让他再试一次吧。哎,这些购物网站呢,他对这个限制可能还比较大。 嗯,他搜了 d g x spark 主机。是的, 这个页面是多少钱来着啊?我没看着啊, d g x spark 主机?对,这里我好像这个商品我好像登录了,登录了,我们看它选了几个啊? 这个是多少钱来着?三万两千多,这个呢是多少钱?到最后我们看他返回啥啊?啊,还是可以的他他在跟我们进行对比啊,应该是结束了。嗯,我们看他返回的 收到了啊,已完成对比, 虽然没有动作输出啊,但是他已经完成了,但是我们这个可以看到高效 mini 一 一一,我看是哪一个啊?这个是三万两千多,这个应该是这个。 嗯, mini 一 体机,桌面高效 mini 一 体机,他说的是这个,确实比这个便宜啊,这个是三万八千多的, 其他的我看是不是他最低呢?三万两千多,这里有一个三万零九百的,不知道他那个是怎么选的,可能是在第一页最低的嘛。 嗯,这就是他的那个功能啊,我们初步实现的功能还还可以还可以。

应用产品经理在意图识别这个节点,他需要产出的需求是什么?就是他的 p r d 文档里面跟开发区审审的时候,他要产出什么,他要写什么, 所以你是没概念的吗?不,不光光说是啊,就五个意图把它定下来好,意图怎么整理的,意图怎么设计的?意图的边界怎么定义的?意图体系怎么设计?技术实践方案是怎么什么 front 是 怎么写的,以及怎么优化的,以及说如果你这个智能客服肯定是支持多轮对话吗?对不对上下文? 呃,那个叫什么纸带消解,然后意图切换,这些异常的分车情况如何处理的,这些东西实际上都是你的需求嘛?所以这些东西其实都是 prd 的 过程部分,你现在这部分你是缺的,看上去是因为你没有写 prd, 但实际上是因为 你没有深究过里面具体的落地的细节,你不知道每个节点需要 ai, 产品经理实际需要产出什么样的需求,而 prd 它只是一个承载的东西,一个壳,一个结果嘛。 在 prd 里面的,里面的各个节点的内容你一定要门清好,还有对工程优化,还有你这个简历里面说你还有 qa, qa 数据库和文档数据库该怎么样去做问答特别的设计,这些东西都是需要考虑的。还有你的整个的智能客服系统评估体系如何搭建,数据评测以及如何构建,模拟效果评估怎么做? 你现在二零二四年十月到二零二五年十月做了一年起码做三个版本吧,这三个版本达成的里程碑事件,当时你怎么规划的?以及每个版本叫上一个版本之间模型效果的优化提升是怎么实现的,结果是什么其实都要有, 还能通过面试,还有 a 准 a 准的很多能力,一个是规划的能力, plan 规划你一个用户一个块进来,你怎么样去规划拆解任务?一个是执行动作的能力,然后执行动作,执行动作调接口,不管是方声 calling 的 能力,还是说你引入 m、 c、 p 有 多少工具,每个工具需要去梳理入餐是什么,出餐是什么,因为你要去构造你的方声 call 的 api 的 调用函数, 倒推过来,你的槽位该如何设计,你的槽位跟你的意图识别还有关联的关系,该如何去进行设计,这些东西都是需要去考虑的。就是围绕 agent 的 话,它的评估体系不光光是知识问答这么简单了,你还要去额外的去评估它本身的调用成功率, 草位抽取的准确率,工具函数构造的准确率,对话平均论数这些乱七八糟的评估体系还要加要工具,工具返回以后还有很多很多的正常状态和异常状态,需要去做很多的策略和兜底机制。

集合竞价是高手捕捉涨停板的核心战场,想要跻身短线高手行列,不仅要读懂集合竞价,更要能通过集合竞价精准判断各股当日能否冲上涨停。 游资大佬之所以敢开盘就介入轻松封板,核心秘诀就藏在集合竞价里。今天胖哥就把竞价抓涨停的实战技巧拆解成五大经典形态,用大摆话抓涨必跌不踩雷。 先把集合竞价基础规则讲透。为方便大家理解,胖哥专门找了徒弟,一时间划分,九点十五分到九点二十分可挂单可撤单,属于主力试盘制造假象的阶段。九点二十分到九点二十五分只能挂单不能撤单,这才是真金白银的真实博弈。 二、亮柱解读,上方是未匹配亮红柱,代表主动买单,想买却没成交。下方是已匹配亮柱子越长,代表成交越活跃,市场人气越足。重点来了,给大家拆解五大集合竞价形态。 第一种,最强形态,一字涨停,即进价时,上方红柱密密麻麻,下方成交量极低,几乎没有卖盘,说明买房疯狂抢筹却买不到,开盘大概率直接封死涨停,上车机会转瞬即逝,一定要提前紧盯。 第二种,四强形态,资金抢筹集。九点二十分之后,下方红色亮柱持续放大,说明资金在大局抢筹,即便中途有小幅波动,也能快速回升,开盘后冲高甚至涨停的概率极高,是多数资金重点博弈的标的,必须重点关注。 第三种,主力跑路级竞价先锋涨停,但九点二十分之后,下方绿柱越堆越多,卖单疯狂涌出,这是主力暗地出货的信号,开盘很容易从涨停回落,遇到,一定要果断离场,千万别犹豫。第四种陷阱形态,主力又多级, 九点十五分到九点二十分,主力挂大单顶涨停,制造强势假象,一到九点二十分立马撤单改挂卖单,下方绿柱瞬间放大,这时候冲进去开盘大概率直接被套在高位。第五种捡钱形态,右空洗盘棋, 九点二十分前股价疯涨停,之后小幅回落,但下方成交量极少,嚎牙几乎没有,这是主力故意打压,制造恐慌,实则在头头吸筹,开盘后大概率直线拉升涨停,这种捡钱机会别错过, 胖哥在偷偷分享两个关键技巧,能让你的胜率肯定再提升一步。第一个,看人气,分时图上的小白点越多,说明进价阶段交易越活跃,股票人气越足,后续涨停概率越高。第二个,辨真假, 九点二十分前的涨停,跌停都别当真,重点看九点二十分后的涨停,跌停都别当真,重点看,九点二十分后的多是真出逃, 回落时没抛压是捡钱机会,抛压大的回落才是真下跌。集合竞价,就像短线资金的侦察兵,能提前暴露主力意图,让你开盘就知道该主动进攻还是持股观望。 只要持透这五种竞价形态,再结合当下市场环境判断,短线操作的成功率会大幅提升。关注胖哥带你看透 a 股底层逻辑!