今天跟大家分享一下让 openclaw 更好用的三个 skill。 第一个, toily search, 很多朋友发现在用龙虾做一些资讯和信息搜索的时候,它搜不到最新的新闻, 原因是 openclaw 它本身默认的搜索功能其实是不好用的,要么搜不到,要么无法搜索网上最新的信息。安装方式也很简单,直接在这里跟它说对应的插件名称,它就会自动地去执行安装。第二个, self improving agent, 这个是可以让 openclaw 越来越聪明的 skill。 如果你经常用 openclaw, 会发现有的时候它会犯一些错误,或者没有按照你的要求执行,导致最终的结果也不是你想要的。那你安装完这个技能之后呢?你看它这里的功能,说明你这个 skill 的 核心就是帮你自动完成 agent 的 自我学习和迭代。 最后一个是 skill writer, 它太重要了,它是一个安全检查工具,每次你在安装新的 skill 时,它都会自动地帮你检查和评级。最后的话,你最好是跟它补充一句,以后每次安装 skill 前都走这个流程,它就会把这条规则呢写到它的长期记忆里。在安装任何技能前都会走这个 skill 的 审核流程。
粉丝9434获赞5.5万

我非常建议每一位创业者都把 y c 的 技 tech 这个 skill 装进你的电脑,任何新项目、新产品都跟他聊一聊,相当于你把 y c 的 创神请回家帮你看项目, 他一定能够给你高于你认知维度的启发。这个 skill 在 github 上非常受欢迎,一周就拿了四十 k 的 收藏。安装方法非常简单,大家只需要找到我截图上面的这个网址,复制给你的 aintech。 技 tech 有 大概 二十五个 skill, 哪怕你只安装最前面的这一个 office hours, 你 就已经相当于有了一个咨询费过万的顶级顾问。住在你的 ai 里面。 我也把使用的完整流程分享给大家。那现在这是我 curses 的 界面,我做好了一个品牌视觉的应用,叫 kris。 kris 还有需要优化的地方。那我就想看一下, kris 是 不是可以在它的帮助下变得更好。 首先呢,它是会读取我的背景信息,因为我所有的代码都在 cursor 里面,所以它能够读得比较完整。这个产品的定位、核心功能它都已经显示出来了。接下来,我们进入 officears, 这个 skill 的 作用呢,是模拟 y c 的 产品辅导,它会质疑我的产品框架,提出方案, 真正让我的产品变得具有商业的潜力。第一步,它问我做 create 这件事的主要目标是什么?不同的出发点,它后面的问题也不一样的,那肯定是 a 喽。它现在开始计划下一步。 然后第一个问题,如果 cream 明天消失,谁会真的慌?他们会因为找不到替代品而受到实际损失。这个真的很那个投资人视角哎,我已经回答给他了哦,好犀利哦,直接说这些在 y c 的 语境里一文不值哇,还好我不是玻璃心的创始人, 我需要的证据,有没有人付过钱给 kry? 有 没有在 kry 出故障不好主动联系你抱怨?这四个问题通通都是 yes, 把我给问兴奋了, kry 看来是很受欢迎,很 ok 的。 好,给你一个值得关注的洞察, kry 不 只是工具,本身是工具加品牌视觉认知的打包。 现在第二个问题就是,我的目标用户的上一个解决方案是什么?花了多少钱?花了多少时间,哪里让他们最痛苦? 我也告诉他了,他给我总结出来了,他甚至发现了我前后矛盾的地方。他说我的用户其实两类人,实际上我在服务的是第一类人,但是我描述的最大市场痛点其实来自于第二类人。确实是这样,就我脑海里是有这个认知的,但是我没有去透透的想过他。第三个问题, 用一句话描述谁在做什么具体的事情,愿意为 kry 付钱。我来回答他,他又发现了一个需求方向不一样的点,这确实很大模产品。第四个问题,老扎心了,你有没有亲眼坐在用户的旁边,看一个用户在不受我指导的情况下,独立打开 kry, 看它是怎么使用的,就是有没有被卡住了? 哦,没有这样观察过,确实还没有它这个提醒非常好。这直接给了我一个启发, kry 的 内测我不应该放到线上,第一次要做成线下, 这个启发价值上万。他真的看到了 kry 很 深层的一个问题,我感觉 kry 的 内测要退后了,朋友们,哈哈,要是面对一个真实的投资,我都快要冒汗了,我这才第一个 office。 二啊,我都还没有进入 ceo 视角,根本都不需要去看 ui 部分了, 因为这几个问题问完肯定就是产品结构上的调整。然后最后结合我现在的情况,给了我三个非常落地且直接的解决方案。建议有三条不同的路, 一,以方法论为主导,把课程和工作流放到正中央, create 作为课程的配套工具来销售。是是是,方案 b, 把专业认知嵌入工具本身,对努力就 do x l, 一 旦实现,竞争壁垒极高, 翻 c, 先找到工具能独立跑起来的最窄场景。我喜欢这样的反馈,犀利且专业,一针见血。他的每一个问题其实都指到一个真需求和刚需上面就是,看完这我就完全知道我的 core 应该往哪个方向去进一步思考和迭代。有,他现在给了我一个建议,顺序求求我的执行计划, 简直就是一个创业导师。第一步,本周找用户线下观察。第二步,观察完之后做 u n 上的调整。我觉得这个价值太高了。建议大家不管有任何的想法,还是你有完整的产品,都交给 fox。 二,看一下,如果你想和我交流更多 ai 工具的应用,请留意评论区,我们下次分享见,拜拜!

hi, 亲爱的宝宝们,大家好,很高兴见到大家,今天呢我们来给大家讲一个知识点叫 skills。 其实大家很多时候呢在 agent 里面会提到 agent 也是一个非常喜欢造新名词的场景。我们今天呢是想给大家从这几个方面吧,一来一去地给大家解释一下到底什么是 skills, 它的本质定义是什么?大概有哪几个组成的地方, 然后呢分为几层结构,这几层结构呢本身大概又是怎么样组织的,以及就是我们为什么需要 skills, 包括呢还会有一些它整体在实际实操的时候,大概代码和执行流程是怎么样的,以及包括横向来对比 skills 和 tour action 的 一些关系,以及一些经验的总结。 这个呢是我根据就是市面上大家所有能接触到的 skills 资料,帮大家抽象提炼出来的一套就是最简洁的方法论, 然后但是整体大家能看到就是 skills 的 概念和相关的知识其实还是很多内容的,所以呢,我们把它会精简成几节课, 每节课呢带大家能够最好的最快速的来理解知识, 也希望大家感兴趣的小伙伴可以点点关注不迷路,这样的话你能够得到系统的知识的更新和新课程的提醒,包括如果大家有任何的问题,欢迎评论区给我留言,我都会及时翻牌子帮大家尽快答疑的。 skills 大家可以理解为 其实它就是一个提示词,但为什么我们要来用 skills 代替我们传统的提示词架构呢?其实这个最大的问题就是 我们如何解决全面性的问题?你比如说像你在做一件事情的时候, 我如果把所有你可能遇到的情况都给你眉举出来,然后一口气的来告诉你,那人不可避免的就会陷入混乱,因为呢,太多的这种输入会导致注意力的缺失,人反而有的时候知道的东西太多,反而不知道该选哪个了。 你遇到的问题呢,大模型其实也会遇到,而他不光会损失他的认知,同时还会损失你的钱袋子。因为一方面呢,如果要是这个知识给同事灌入的太多, 它会导致模型的注意力没有办法加载到正确的位置。一方面对于大模型的效果而言会造成缺失,另外一方面,它整体如此之长的输入,会导致它 p d 分 离阶段的 perf 阶段非常的耗时长,进而导致 t t o t 的 时间加深。 感兴趣的宝子可以看我们上节课提到的 p d 分 离,你就明白了。如果用大白话来讲呢,就是你获得大模型响应的时间就会更慢。 除了时间和效果上的消耗,还有一点就是你得读这么多的 token, 你 的 token 消耗量也会暴增, 那大家买的套餐就不知道还够不够用了。所以说,基于以上的三个缺点,但我们又希望让大模型有一种更全的方式来去构建,这个就回到今天 skills 了。 skills 的 本质呢,其实就是一些可以附用的能力单元,简而言之,就是把一些方法论能够沉淀下来, 它是通过源信息、指令和资源来实现的。这个呢,大家可以用一个比较有趣的小例子来给大家讲,你比如说把大象装进冰箱需要几步?这是一个很有意思的梗了, 我们大家都知道,就是我拿这个例子来类比一下原信息、指令和资源,让大家理解一下它到底是什么意思啊?你比如说我现在面临问题了,我要把大象装进冰箱,那我的原信息其实就是啊,我刚才提到的, 把冰箱门打开,把大象塞进去,把冰箱门关上。什么叫原信息?原就是基本的意思啊,就是我无论这个 a 键的执行多少次指令,原信息呢,都是我一定会加载和读取的部分,它是一部分固定的非常有用的东西,所以我每次都会看。 也有点类似于像我们翻字典那个目录,就是你每次得从目录开始查,所以目录肯定是不能省略的。但你比如说我如果要查 b 开头的字,那我 a 开头的是不是就可以省略了啊?所以说它们后面其实就是指令的部分了。 回到把大线装进冰箱,这个我无论做哪一次的话,我都需要查这三步啊,我先要把冰箱门打开,然后把大烟吸进去,就把冰箱门关上,这是原信息的三条。 而什么叫指令呢?指令就是我,好,我现在读完原信息了,我判断我现在是在第一步,我需要把冰箱门打开,那我需要看什么指令呢?就是 我需要就是把冰箱门打开之后,我读一下我的指令,发现啊,我这个时候得去查一下,就是我的冰箱门的型号,那这个时候其实就涉及到资源了,我去查把冰箱门打开, 然后以及冰箱门对应的型号,这个估计也可以算为一条指令,而资源则是指这个资源其实有很多种,比如说类似于我们编文本陈述的知识库,那对应到这里可能是 整个冰箱型号的一个对照表,嗯,可以是一个 excel 表的形式。或者呢,你比如说你的数据库非常大,或者你有天气更新的需求,那这个资源可能是一个 bash 脚本,或者是一个 python 脚本,我们是实时拉取的, 所以说它的资源形式也会有不同的情况,但是呢,我通过我的源信息,哎,我先通读一遍,然后我定位到我具体的指令, 结合指令呢,我去拉取对应的资源,这个其实就叫可以调用,然后因为我有我的最后一个资源,很到位的这一步我可以直接查到我到底怎么执行, 这就叫可调用可执行的最小功能模块。而通过这个呢,我就可以实现。第一步把冰箱门打开 啊,我看到是海信的冰箱,它是双开门的,左边空间比较大,适合冷藏保鲜啊,所以我现在需要把它的左侧门打开。这个我打开了之后就完成了第一步。而我第二步的时候呢,同样也会看原信息来去做指令和资源。 原本你比如说可能需要写非常容易的这个提示词来去提示它,如果要是什么我就怎么样。这其实特别像代码里面的 f l 的 这种模块儿, 但是呢,相当于我们通过这种方式把它这种 ifelse 的 代码来规划成大家能够通过文本来理解的东西,方便大家能够用自然语言的方式实现代码才能实现的功能。这个其实是 skills 现在为什么这么火的原因, 我们后面的课程呢,还会给大家介绍它具体展开就是这三层结构,大概是什么?本身资源层的一个, 呃,不同资源之间有什么样的区别?有静态的,动态的,包括还会给大家看一下就是代码怎么执行,以及它 skills 和比如 tour action 的 一些关系,以及我们整体对它的一个总结。 还会后面如果大家感兴趣的话也可以给我留言,还会加一些实战的例子来给大家真正看一下,就是在调用的时候会怎么样。然后感兴趣的小伙伴也欢迎点关注,不迷路。今天我们就到这里啦,然后下节课再见喽,拜拜!


今天是周六,博主的工作是双休的,闲着也是闲着,博主把之前学过的 agent skills 演示一遍,简单地写了一个获取系统信息的 skill 开始运行, 博主在命令窗口敲入获取设备的系统信息,然后敲回车键,待会代码执行的时候,就会命中博主写的这个 skill。 md, 然后 skill 会使用 run exact 工具执行 system info 命令。 run exact 是 博主写的一个用于执行系统命令的工具, ai 获取到系统信息后,会按照 skill 里的要求,将系统名称、系统版本、处理器型号这三个信息提取出来,然后以接送的格式返回给博主。这里还需要等一等, ai 的 处理速度有点慢。 ok 了,可以看到结果已经出来了。再看看左边这个,这个是博主在命令行窗口手动敲写 system info 命令的返回结果,可以看到 ai 返回的信息是准确无误的。本次分享就到这里,下次再见。

最近爆火的 agent skills, 一个多月时间数量从三万充到了二十七万,翻了将近十倍。有做产品动画的 skill, 有 可以整理文档做 ppt 的 skill, 还有可以设计网页的 skill。 那 今天我们就来搞清楚什么是 skill, 有 哪些好用的 skill, 怎么找和安装 skill, 以及怎么创建自己的 skill。 每个 skill 就是 这样的一个文件夹。以这个周报 skill 为例, skill 点 md 是 核心文件。很多人会问,这跟平时的提示词有什么区别? 其实 skill 本质上也是提示词,但它真正的威力在于特殊的加载机制。这个机制分为三层,第一层是 skill 点 md 里顶部的 name 和 description, 它们叫做原数据, 如这里就记录着这个技能,是用来写周报的,下面的这些信息叫做指令,记录着写周报的流程。第三层是文件夹里其他的文件,叫做资源与代码, 比如这里的周报模板和制作表格的代码脚本。我们可以把一个 skill 理解成给 cloud 招了一个员工, 数据就是员工的名片,记录着员工的名字和能力,他们会长住在系统中, cloud 每一次接到任务会先扫描一遍所有员工的名片,匹配上了才叫那个员工来,员工来了才会按照工作手册,也就是指令去干活, 干到某一步需要什么才去取对应的资料或者工具。这个过程在技术上就叫做渐进式。譬如这样一来,就算你装了几十上百个 skill, 也只有在用到的时候才会加载,不仅极大节省了 token, 也保证了 ai 在 能力变强的同时不会被稀释掉注意力。 首先是 cloud 官方推出的办公四件套,可以让 ai 帮我们处理 word、 ppt 表格和 pdf。 比如我最近看到了一篇关于 web coding 的 深度长文,我就让 ai 帮我进行要点提炼,方便沉淀,形成自己的知识库, 还能快速生成 ppt, 整体结构非常清晰完整。第二个,动画视频生成 remote, 原本是程序员才能驾驭的动画工具,有了这个 remote skill, 你 只需要告诉 ai 每一段想要呈现什么画面,剩下的交给 ai。 海外已经有网友用它做出了这样的产品视频, 我自己也用这个 skill 做了两段,一句话特效,整体效果还是很不错的。第三个,网页设计。这个 skill 可以 避免 ai 的 通用美学, 做出一些风格化的页面设计,这是我没用 skill 生成的个人薄客网页,非常朴素,这是我用了 skill 之后设计出来的网页,大胆撞色,页面瞬间生动起来, 装上这个,让你的 ai 瞬间升级为设计师。第四个,头脑风暴。每当你有一个模糊的想法需要落地,这个 skill 就 派上用场了。它会使用苏格拉底式提问,帮你一步一步把想法具体化,最终形成一个方案。比如我想开发一个记账 app, 它就会一步一步的追问细节, 核心功能是什么, ui 风格是什么样的,形成设计文档之后才会进行开发。来看看效果,可以记下自己的支出,也可以记录收入、账本统计设置,该有的功能都有了。 说了这么多,那我们怎么自己找技能和安装技能呢?我给大家推荐两个网站, skills m p 和 skill s h。 skill m p 里输入了大量的 skill, 可以 按名称解锁 skill, 也可以按分类去浏览 skill six 点 s h 更适合看最近的热点 skill, 它有一个下载量的排行榜,也可以实时看到最近二十四小时内爆火的 skill, 随时都能尝鲜。那么问题就来了,这么多的 skill, 每次用的时候去找也太麻烦了。不用担心, find skills 就是 为此而生的。我们把这个网址给 ai, 让他大局安装 find skills, 安装好之后告诉他你想要什么样的 skill, 这个 skill 就 会自动在 skills 点 s h 上帮你寻找。比如我想找一个制作小红书封面的 skill, 可以 看到它会自动调用 find skill 这个技能去帮我们寻找。技能找到之后,我们就直接让 ai 安装就好。 它还有一个安全评级,可以帮你对 skill 做一个风险的初步判断。有时候我们可能需要把自己的工作流程做成 skill, 那 ansore pick 官方的原技能,也就是创建技能的技能就派上用场了。 skill creator 可以 帮助你按照 skill 规范生成 skill。 比如我想创建一个写周报的 skill, 它就会自动调取这个 skill creator, ai 会对我们进行一步步的引导,如这里它会提问使用场景、输出方式、 输出风格。比如这里我们就可以说包装一下语言,显得工作量多一些。这里他还会向我们提问需要包含哪些模块,那最后他就帮我们生成了一个周报 skill。 ok, 我 们来测试一下。 怎么说呢,这字还是很多的,本期就到此结束了,如果对你有帮助的话,记得点赞、收藏加关注。

网上都吵翻天了,说 agent skills 要把 m c p 干掉,如果你还在为这次刷各种碎片信息,那今天这条内容你可得看好了,咱们就用最短的时间一次性给你讲明白,让你彻底搞懂这场技术路线之争核心到底是个啥。 你肯定在网上刷到过这句话吧, skills 已经杀死了 m g p。 哎呦,这口气相当绝对啊,很多技术博主都这么说,听起来好像这次已经板上钉钉了,但这真的是全部的真相吗?还是说这里面有什么我们不知道的故事?它俩之间真的就是有你没我你死我活的关系吗?来,咱们今天就来深挖一下。 行,要想看懂这一出戏啊,咱们得先来认识一下第一个主角, m c p, 这到底是什么来头? m c p 全称叫模型上下文协议。哎,你别被这个名字给糊住了,它的概念其实特别简单,你就把它想成是 ai 界的 type c 接口行不行? 它就是开放标准,一个通用的语言,让所有的 ai 模型都能用一个法子去连接外部五花八门的工具和数据,多方便。 看它的工作原理也超级直接。你的 ai 应用就是那个宿主,它里面呢,会有一个客户端,然后这客户端就一对一的连上一个外部的服务器,最后这个服务器就把各种工具啊数据啊全开放给 ai 用,就这么三步,清清楚楚明明白白。 那 m c p 的 超能力是啥?我告诉你,它解决了一个让所有程序员都头疼的不行的问题,就是那个 n 乘以 m 的 集成噩梦啊!你想想看,以前啊,你有 n 个 ai, m 个工具,你就得搞 n 乘以 m 四的对接,那工作量简直了。现在呢,有 m c p, 只要 n 加 m 四就够了,这效率直接是指数级的提升啊!酷步 好,咱们搞懂了 m c p 这个万能连接器。接下来我们再来看看另一位主角, agent skills, 也就是 ai 的 私家战术手册。 agent skills, 你 完全可以把它想象成一个专门给 ai 装备的技能包,或者说武功秘籍。它其实就是一个文件夹,里面装满了各种指令和资料,目的就一个手把手的教会 ai 到底怎么一步步的去完成一个特定的任务,就像一本超级详细的操作手册,或者说高手给你喜好的游戏攻略。 那这个技能包里都装了些啥呢?说出来你可能不信,简单到家了。核心就是一个叫 s k l 点 m d 的 文件,你看,上面是名字和描述,下面呢,就是用大白话写的一步步的操作指南。当然了,你也可以往里头塞点脚本啊,参考文档啊,让它变得更厉害。 而 skills 的 超能力,我跟你说更绝。它有个设计叫渐进式批录,这个设计简直是天才,它直接就解决了早期 ai 工具调用最大的一个痛点,那就是 token 太高,你看它怎么做的。第一步,发现 ai 就 只看个技能名和简介,几乎不发 token。 第二步,激活,哎,真要用这个技能了,它才去加载那个详细的指令文件。最后一步,自信需要什么参考文件,再读什么,用多少读多少,这不就是把每一分钱哦,是每一个 token 都花在了刀刃上吗? 所以你看一个呢,是负责连接外部世界的外交官,另一个呢,是负责传授内部知识的老师傅。那他俩到底是死对头还是天生一对?别急,最精彩的反转马上就来,准备好了吗?答案可能会让你大吃一惊,搞出这两个标准的根本就是同一家公司!对,就是那个大名鼎鼎的 on topic, 人家当初创造他们就是为了解决两个完完全全不同的问题,根本就不是让我们来玩二选一游戏的。来看这张对比图,一下就全明白了。 m c p, 你 可以理解成是 ai 的 手和脚,他的任务就是伸出去连接外部世界,搞定工具和数据。而 agent skills 呢,更像是 ai 的 大脑和剧本,是给他灌输内部的专业知识和工作流程的。所以你看,一个管外部能力,一个管内部智慧,这俩压根就不是竞争关系,他们是天生的黄金搭档啊! 好了,现在真相大白了,那咱们在实际开发的时候到底该怎么用呢?来,别想了,你的行动计划在这直接操作页就行,什么时候用 m c p? 记住这几点, 第一,你要跟外部系统打交道,比如 a p i 数据库、各种下册工具。第二,你对安全性和进城隔离的要求特别高。第三,你想要一个工具,能被好几个不同的 ai 平台一块用,只要满足这几点,想都不用想,直接上 m c p。 那 什么时候轮到这个优势上场呢?也记住三点,第一,你想把你们团队独有的工作流程、专家经验交给 ai, 比如说咱们团队的代码审查流程。 第二,你需要保证 ai 干活的步骤是统一的、规范的,不能瞎来。第三,透坑成本是你最关心的问题,得省着花。那这种时候, skill 就是 你的不二之选。 但是最牛的、最高级的玩法是什么?当然是两个都用。记住这终极模式,先用 m c p 给 ai 和外部工具之间搭好一座坚固的桥,然后再用一个 skill 来仔仔细细地告诉 ai 应该如何按照你的规矩去走过这座桥,去使用这些工具。这才是构建顶级 ai a 阶的正确知识。

如果大龙虾只装一个 skill, 就 装这个 skill self improving agent 中文翻译很奇怪啊,但是这个 skill 就是 一个让你的小龙虾学会自己复盘的 skill, 每一次他做错了任何事情,他都会 自己去记录正确的操作是什么,下一次的时候他就会使用这个记忆。你看每一次的时候我就说复盘使用提升 skill, 你 看看他是怎么说的,他说好怎么怎么怎么样,现在执行自我进化,把这次教训写到系统里面,这个真的非常 ok。

大家好,之前有人问我 agent 到底是什么,还有人问我 agent 和 lolm 有 什么区别,更有人觉得工具以及 skill 的 调用都是大模型自己来调用的。所以今天我就来把 agent 和 lolm 它们两个的分工以及交互流程讲清楚。你有没有想过你对 ai 说一句话,它为什么真的能去读文件,去跑命令? 先来说一下他们的分工, lolm 式决策是在给定上下文下生成,要说什么,要补要条,工具参数是什么? agent 是 执行,是真正去调用模型。解析, to cause 在 你的环境里跑工具,写回 to 消息干活发生在 agent 这一层,不是模型自己在读文件,跑命令。 agent 在 流程上其实就五 步,先组装上下文,再调用调大模型,这一步把球交给 lolm 生成。下一步如果返回里带了 to cause, 接下来执行工具的是 agent, 不是 模型本身,执行完把结果作为 tool 消息追加进历史,再发下一轮请求,一直到模型不再要工具或者碰到轮数长度上限为止。对话里有四种角色比较关键, system 放系统提示和规则,比如 skills 怎么用, user 是 用户问题, assistant 是 模型回复里面可以欠 tool cost, tool 是 工具执行结果,而且必须带上和 tool cost 对 齐的 tool cost id, 如果顺序错了很多, a p i 会直接报错。看一个协议实力, 首轮请求里除了 system 和 user, 还会带上 tools 组,里面用 dos schema 描述每个函数叫什么,参数长什么样。 tool choice 设为 auto, 表示由模型自己决定要不要调用 模型,读完用户问题和工具说明就能规划下一步视力是按 openai 的 协议来写的,其他各个厂商的 api 字段名可能略有不同。模型如果决定读文件,响应里 finish reason 会是 to cause, 表示要走工具 assistant 这条消息里会带 to cause 树组。 to cause 里有 type function, function 里有 name 和 arguments。 arguments 在 协议里是字符串,里面会再包一层。 jason agent 会解析这个字符串,再去真正读盘或调接口。 这里已经离开模型了,是本地代码。在执行工具跑完之后,要再调一次大模型。上一轮模型说我要调工具的那条 assistant 的 消息,里面记着他想调什么,以及每次调用对应的 id。 在 这条后面会再加一条新消息,角色是 to, 这条消息里的 to call id 要和上一条 assistant 里某一次 to call 的 id 对 得上。像回执单编号一样, content 里写工具真正跑出来的结果。比如读到的文件内容。 如果模型一口气要调好几个工具,就每个工具各发一条 to 消息,每条都对应的 id 拼好以后,再 post 一 次模型,看见执行结果就能用正常话回答用户了。 那 skills 在 哪一层?通常不会多出一种神秘协议,常见做法是在 system 里告诉模型有哪些 skill, 路径在哪,什么时候要读全文,真正读 skill md, 还是走读文件这类工具调用。所以 skills 本质上是规则加文档,仍然落在同一套 to 循环里。 串起来看用户提问, agent 拼消息调 lolm, lolm 的 响应里可能代表用意图,真正执行工具链的是 agent, 再把结果以 tool 消息回关,再调 lolm, 直到结束。 ok, 我 们来最后回顾一下三个核心要点, lolm 再上下文理深层下一句回复或 to cause 急打酸调什么参数是什么,但不执行具体工具。 agent 在 运行时真正执行 ping messages post 模型,跑工具写 tool, 消息循环直到结束。协议本质就是多轮 messages 加可选 tools 标准 http 对 话并没有玄学。

今天简单来说一下 agent 与 skill 的 区别。我们以生活中常见的一个场景来举例,假如你对你的 ai 助理说了一句话,我下周三要去上海出差两天,帮我安排一下预算,两千元,要离外滩近一点, 记得帮我把日程同步到日历。那在这个需求里面, skill 充当了什么角色呢?他就是助理桌子上那些专业的工具或者单项本领, 它们每个只负责解决一个死板的步骤。比如说 skill a, 它调用了携程的 api, 只能查机票、高铁票,你给它日期和目的地,它吐出车次和价格。 skill b 呢,是调美团或者酒店的 api, 只能查酒店,你给它经纬度和价格区间,它吐出酒店列表。 skill c 呢,墨迹天气,只能查天气,你给他尝试,他告诉你下不下雨。 skill d 呢,是谷歌或者是系统,日历只能往日历里面填空位。 那么这里面 agent 在 干什么呢? agent 就是 那个听得懂人话,会思考、会拿主意的助理本人。他拿到你的指令后,大脑里会发生如下的推理过程。 开始是拆解任务,他意识到要完成这件事,需要查票,查房、算总价、查天气、提醒带伞、写日历。 然后他调用 skill a, 他 就查了机票,发现下周三往返要一千五百元。他一思考,坏了,用户的总预算只有两千元,机票去的一千五,剩下的五百住不到外滩附近的酒店,他就会自动修正。他决定不看机票,会去调用 skill a, 查高铁票, 发现往返只要八百元,然后剩下了一千二百元预算,他去调用 skill b, 找外滩附近的星级酒店。 然后呢,他又发现下周三上海有雨。在最后的汇报里自动加了一句,帮您订了高铁,剩下的钱住到了和平饭店附近,记得带伞。最后,他调用 skill d 把所有的信息填好。那么在这个的应用场景里面, agent 做的就是 充当你的真人助理,听懂你的模糊需求,并自动去拆解参数,然后调用 skill 这些工具。在半路遇到一些问题,他会拐弯,他会想办法换个方案来满足你的目标,他会解决怎么做最好的这个问题。 其实在这个场景里面, agent 和 skill 的 区别已经出来了,那再来总结一下, agent 就是 一个具有自主意识的实体,它利用大圆模型作为核心引擎,能够通过推理、规划和记忆来完成复杂的目标导向的任务。 你只需要给他一个目标,他会自己思考步骤,然后将大任务拆解为子任务。如果在执行过程中报错,他会尝试换一种方法。他拥有短期记忆和长期记忆, 通常也会被赋予一些特定的角色,比如说是文案专家或者资深的程序员等等。那么 agent 就是 一个大脑, 那 skill 呢?就是手。 skill 是 agent 可以 调用的一项具体的功能,它通常是一个预定义的程序代码、 api 接口或者特定的知识库。一般一个技能通常只负责一件事,并且技能本身是不会思考的,只有当 agent 决定使用它时,它才会被触发。 可以把 agent 想象成一个人,而 skill 想象成这个人学会的技能或使用的工具。一个 agent 可以 拥有多个 skill。 agent 的 强大程度取决于他推理能力的上限,以及他拥有 skill 的 丰富程度。 agent 是 指挥官,而 skill 是 兵器库。

哈喽,朋友们,我是阿水, a 正的 skill 最近真的太火了,但是很多朋友肯定想知道到底啥是个 skill, 凭什么这么火?那朋友们莫慌莫慌, 我呢已经为大家整理好了一套小白必读的 skill 大 全,今天的内容呢,我们将从简单到困难,一路升级打怪。首先呢,我们来看 skill 的 结构和它的原理, 然后呢,我们通过学习来定制自己的 skill。 这个 skill 呢,我们只需要简单的一句话,帮我根据这篇文章生成 ppt 分 析和内容规划,那它就会自动去执行和生成我想要的资料。 另外呢,我还会给大家推荐一些好用而且必用的 skill, 比如说帮你的文章配图,把杂乱的知识变成一个教学网页, 一句话处理表格等等等等等等。这期所有的资料我都已经整理成了文档,只需要一步一步跟着做,跟着看,就一定可以学会。那还在等什么呢?赶快点赞收藏关注呀! ok, 那 我们就 let's go! 那说了这么半天,到底什么是 agent skill 呢?直译过来呢,其实就是技能呗,比如可以把它看成一只小狗,这只小狗呢,它会记路线,听指令,使用工具,能听懂你的语气。那 agent 呢,也是同理,它要和你和平相处,也是要会这些东西的。 所以在 a 证的 skill 的 术语里面呢,它最最最核心的文件就是 skill 点 m d ai 的 工作手册,当然呢,还会有其他的文件,最后将这些文件集合在一起,打包成一个文件夹,这就是一个技能,一个 skill 了。 那有同学就要问了,阿水看着挺复杂的呀,这么做的好处是什么?本质上来说, skill 对 不懂代码和不懂怎么去创建软件的小白群体来说, 是大大降低了门槛的来,如果还是不懂,我们做一个超级简单的 skill 就 好了。这里呢,我用到的是谷歌的反重力工具 模型呢,因为可多扣的真的封号太严重了,我就用 jimna。 那 这个软件的下载方式呢?我已经放进了文档里面,可以说是非常的 perfect, 比如说我们打开反重力,在这里呢,选择模型 jimna pro 就 可以, ok, 我 们就可以开始创建了。那我们就先创建一个可以制作 ppt 的 skill 吧,可以根据我输入的文章链接或者文字帮我生成一个 ppt 内容规划。那按照反重力的创建规范呢?局 skill 必须在这个目录下面, 那我们先用最基础的方式手动创建这些文件夹,这个文件夹的名字呢,就是我们的 skill, 名字就叫做阿水 ppt 吧。这里的文件夹里面呢,必须有一个核心的文件,就是 skill 点 md, 文件 内容我已经创建好了,我们只需要把它粘贴过来就可以了。好了,这就是一个 skill 了啊啊, 有同学就会问了,这么多内容代表什么呀?别着急,我们一个一个来看。那这个文件里面呢,上面两条横线里面的内容,它叫做原信息,里边呢,有两个信息,一个是 skill 的 名字,一个是描述,就是它用来干嘛的,什么时候可以用它? 那我这里呢,直接写的,用 ppt 的 时候可以用。下面这一大段信息呢,就叫做指令,其实这里就是告诉 skill 它应该怎么做。那这里呢,我就直接写到怎么用,输出的格式是什么?那这个时候呢,就有同学又要问了,你这和自己写提示词有什么区别呢?嗯, 其实呢,还是稍微有点区别的,比如我们之前在用 jimmy 里面去生成,每次都是需要去重复输入提示词, 那如果现在去用 ide 文件,那我们只需要去输入需求就可以了。当然上面这个案例呢,是最最最初级的创建方法,简单的 skill 完全可以这么实现。那在做这个的时候,我就在想,有没有创建 skill 的 skill 呢? 果然不出我所料呀,可罗得克的官方出了一个创建 skill 的 skill, 它可以通过你的自然语言描述帮你创建一个 skill。 那 这个 skill 的 安装方法呢?大家可以去看我上期视频,巨简单。 当然这期的文档中呢,我也整理了安装方法。安装好了之后呢,我们只需要在这里用大白话描述帮我创建一个可以根据我提供的文章链接 pdf word 帮我生成 ppt 图片。这里呢,因为我们需要用到 nintendo 的 模型 api, 我 们就直接将 api 输入进去就好了。那通过我们这么一番描述,可以看到 ppt scale 就 创建好了,现在的 scale 就是 一个完整的 scale, 可以看到有说明文档,有脚本,还有输出文件夹。嗯,奇怪,我怎么感觉高级版创建起来怎么还比初级版创建起来更快更方便,更简单呢?对,主要是我们使用了创建 skill 的 skill 工具, 那我们来试试效果,出来的效果图呢,都是很不错的。那其实这个案例看下来呢,我们更多的是在用自然语言去写程序的一个功能,降低了代码的难度,而且拉近了普通人和创建软件的距离。所以只要你有明确的输入要求,或者有明确的方法 规范流程知识,创建 skill 工具呢,都会帮你创建出来一个定制的 skill 文档,里面呢,我整理了一些收集 skill 的 网站,里面有成千上万的 skill, 并且呢,我也给大家搜罗了一些普通人常用必备的 skill 工具,比如做 ppt 处理,文档表格处理,我们可以直接拖进文件夹就可以使用了。还有这个就是前端设计的 skill, 还有这个动画生成 skill, 可以 帮你做一些数学上难懂的演示动画。 当然大家也不用太焦虑怎么去把所有的东西都创建一个 skill, 我 们每个人呢,都不是必须成为技能开发者, 我们只需要把自己已经掌握的小技能或者已经沉淀出来的一些方法,重复性的事情交给让他去帮你做一些重复性的劳动力就可以了。那最后呢,资料链接我都放在了评论区, 大家快去手动创建试试吧。这个时候呢,大家就不要吝啬自己的点赞收藏关注技能了,我们下期再见,拜拜!

这是你的人工智能助手,记性比鱼还差,同样的错误能犯八遍,直到它装了这个插件。 self improvement agent 自我进化智能体 self improvement agent 是 智能体的错题本,它的工作原理是什么样的?你纠正它记下来,命令翻车记下来,想要新功能还是记下来?这记性 比你前任靠谱多了。它还配了个 hook 功能,就像你妈在门口喊,作业写完了没,每次对话前它就会自动提醒自己, 诶,有没有学到什么?别又白干了。当然了,最有价值的学习还能升职加薪,从临时工 learnings 晋升到正式编制, so am two's amt! 这就叫一招被蛇咬,永远不踩坑。不仅如此, 如果同一个错误出现三次,系统直接拉响警报,兄弟,这都第三次了,咱要不要改改?比你的健身教练还执着。 self improvement, 让 ai 从屡教不改变成知错能改,毕竟 吃一堑长一智才是好虾。好了,今天的分享到此结束了,后续我会分享更多关于 openclaw 的 技能使用,记得关注我,拜拜!

各位开发者朋友们大家好,今天我要给大家分享的主题是每一位 adk 开发者都必须掌握的五种 agent skill 设计模式。 这篇内容来自 google cloud tech 在 二零二六年三月发布的技术文章,一经发布就获得了超过一百七十三万的观看量,可以说是当前 agent 开发领域非常核心、非常实用的一套实践方法论。在正式开始讲这五种模式之前,我们先把文章的核心背景讲清楚。 当开发者们在编辑 skill 点 md 的 时候,大家往往会把注意力集中在格式本身,比如把 eml 写对,把目录结构搭对,严格遵循官方给出的规范。 但是现在整个生态已经发生了变化,市面上已经有超过三十款 agent 工具,包括 cloud code、 gemini、 c l i、 cursor 等等,全都统一采用了相同的 skill 布局格式。这意味着格式问题其实已经基本不再是问题了。 现在真正的挑战变成了内容设计规范只会告诉我们如何去打包一个 skill, 但是它完全没有提供任何指导,告诉我们应该如何去设计 skill 内部的逻辑结构。 举个很直观的例子,一个封装了 fast api 开发规范的 skill 和一个包含四个步骤的文档流水线 skill, 它们外表的 skill 点 md 文件看起来完全一样,但是内部的运行逻辑、执行方式却是完全不同的。 作者通过研究整个生态里 skill 的 构建方式,从 antropic 的 代码仓库,到 versale, 再到 google 内部的开发指南,总结出了五种反复出现的设计模式,能够帮助开发者更规范、更可靠的构建 agent。 这篇文章会针对每一种模式都配上可直接运行的 adk 代码势力。这五种模式分别是, tool rapper, 让你的 agent 快 速成为任意代码库的专家。 generator 基于可附用模板生成结构化文档。 reviewer, 按照检查清单与严重等级对代码进行评分评审。 inversion, 让 agent 先采访你,再执行操作。 pipeline, 通过检查点强制执行严格的多步骤工作流。 接下来我就按照原文的顺序完整详细地为大家逐一讲解。遇到代码示意,我会专门讲解它的架构逻辑,讲清楚这段代码是如何贯彻对应设计模式的。 pattern one the tool wrapper 工具封装器 首先我们来讲第一种模式, tool wrapper 工具封装器。 tool wrapper 的 作用是让你的 agent 能够针对某个特定代码库按需获取上下文。 我们不再把各种 api 规范开发约定硬编码在系统提示词里,而是把它们打包成一个 skill agent 只有在真正需要处理这项技术的时候,才会去加载这部分上下文,这也是实现成本最低最简单的一种模式。 它的运行机制是这样的, skill 点 md 文件会监听用户提示词里的特定库关键词,一旦命中,就会动态地从 references 目录下加载内部文档,并且把这些规则当做绝对标准来执行。 这也是我们把团队内部的编码规范特定框架的最佳实践,直接融入开发者日常工作流的核心机制。势利代码架构逻辑讲解 下面我们来看这段 fast ipi 专家 skill 的 视力代码,我给大家讲清楚它在架构上是如何贯彻 tour rapper 模式的, 这段代码的架构逻辑完全贴合 tour rapper 模式,我给大家拆解清楚。一、文件结构与触发设计 它把 skill 放在固定目录,通过 name 和 description 明确触发场景。只要用户在构建屏审调试 fast api 相关内容时,这个 skill 就 会被激活,这是典型的按需触发架构。 二、原数据标记模式在 meta data 里明确标注 pattern 为 tool wrapper, 让系统识别这是工具封装模式,同时指定 domain 为 fastapi, 限定作用域,避免无关场景被误用,这是模式标准化的关键设计。 三、外部规则加载核心指令里强制要求加载 references conventions 点 md, 而不是把规则写在 skill 内部。这是 tool rapper 最核心的架构思想。规则外置动态加载,不污染主题式。 四、场景化执行流程代码把行为分成评选代码和编辑代码两种场景,每种场景都先加载规范,再严格执行,确保 agent 永远基于外部规范工作,而不是凭空生成答案。 五、模式贯彻整个设计,没有任何复杂流程,只做一件事,绑定技术领域监听触发加载外部规范,强制执行规范,完全贯彻了 to rap 温州轻量化封装库知识,按需提供专家能力的设计意图。 简单说,这段代码就是用最小化的指令结构,把 fast ip 的 专家能力封装成可插拔、可附用、可更新的 skill, 完美体现了 tour rapper 模式的核心价值。 part 二, the generator 生成器接下来我们进入第二种设计模式, generator 生成器模式 如果说 tool rapper 的 核心是应用已有的知识,那么 generator 模式的核心就是保证输出结果的一致性和标准化。 在实际开发中,我们经常会遇到这样的困扰,同样是让 agent 生成一份文档,第一次输出的是另一个完全不同的结构,输出结果完全不可预测,不可复用。 generation 模式就是专门用来解决这个问题的,它通过一套严格的填空式标准化流程来完全把控 agent 最终输出。 这个模式在架构上通常会使用两个可选的目录,第一个是 assets, 专门用来存放输出模板,也就是最终产出物的骨架。第二个是 references, 用来存放风格指南、语法规范等约束性文件。 generator 模式的工作逻辑就像一个自动化的生产线, skill 文件里的指令充当生产线的总调度,它会指挥 agent。 第一步,先加载风格指南,第二步加载输出模板。第三步,向用户询问模板中缺失的关键变量信息。第四步,严格按照模板和风格把信息填充进去,最后输出一份结构完全固定、格式完全统一的结果。 这个模式的应用场景非常广泛,无论是生成格式统一的 api 文档、规范的 get、 提交信息标准化的项目脚手架,还是任何需要固定结构的输出内容, generate 都是最佳选择。势利代码架构逻辑讲解 下面我们来看这段技术报告。生成器的势利代码,我来给大家拆解它在架构上是如何彻底贯彻 generator 模式的。 这段代码的架构逻辑完全贴合 generator 模式的设计思想,我给大家讲透。一、模式声明与职责专一在原数据中明确标记 pattern generator, 从系统层面定义,这是一个标准化生成工具, 职责专一到只负责生成结构化 markdown 报告,不掺杂其他逻辑,这是 generator 模式的基础架构设计。 二、资源与逻辑分离代码本身不包含任何报告的具体模板内容,也不包含任何风格语法,而是把模板放在 assets 目录,把规则放在 references 目录,实现了执行逻辑和生成资源的完全解偶,这是 generate 最核心的架构特征。 三、强制执行限性步骤代码用 step 一 到 step 五、定义了一套不可跳过、不可打乱的固定流程, agent 必须严格按顺序执行,彻底杜绝了自由发挥,从逻辑上保证了生成过程的标准化。 四、主动补齐信息在生成之前,强制 agent 向用户收集模板缺失的信息,避免因为信息不足导致生成内容残缺,这是 generate 模式保证输出完整性的关键设计。 五、输出强约束明确要求模板中的每一个章节都必须出现在最终结果里,用硬性规则保证最终输出的结构百分之一百符合预期,彻底解决输出不可预测的问题。 整体来看,这段代码完美贯彻了 generator 模式的核心意图,不创作、不发散,只做严格的流程化、模板化、标准化生成,把 agent 腾变成一个稳定可靠的内容生产工具,完全符合 generator 的 架构设计哲学。 part 三, the reviewer 审审器 接下来我们讲第三种模式, reviewer 审器。 reviewer 模式的核心设计思想是把要检查什么和怎么检查彻底分离开。 在过去,我们做代码审,往往要写一段非常长的系统提示词,把所有要检查的代码、坏味道、规范规则全部写进去。这样做不仅难以维护,而且想换一套审标准时,必须把整个提示词重写一遍。 reviewer 模式完全解决了这个问题,它的架构做法是把所有评选用的检查清单、评分规则、验收标准以模块化的形式存放在 r e f e r c e s 斜杠 review 杠 c h e c k l i s t 点 m d 这个外部文件里。 skill 本身只保留固定的评审流程,不包含任何具体的检查规则。当用户提交代码时, agent 会加载这份检查清单,然后有条理地对代码进行评分分析,并且按照严重等级对发现的问题进行归类整理。 这种设计有一个巨大的优势,你只需要替换掉 review checklist, 点 md 这份文件,把拍丧风格清单换成 owsp 安全清单,同一个 skill 框架,就能立刻从代码风格审批器变成安全漏洞审计工具,不需要改动任何执行逻辑, 它是自动化 pr 审查、提前拦截漏洞、做质量门禁的最高效模式。势利代码架构逻辑讲解 下面我们来看这段 python 代码评选器的视力代码,我给大家讲清楚它在架构上是如何严格贯彻 reviewer 模式的。 这段代码的架构逻辑完全贴合 reviewer 模式,我给大家拆解透彻。一、模式与分级声明 meta data 明确标注 pattern reviewer, 同时定义三级严重等级,让整个评分输出有统一标准,这是 reviewer 模式的基础架构。 二、规则与流程彻底结偶 skill 文件里完全不写具体检查规则,所有规则依赖外部加载。这是 reviewer 最核心的架构设计流程,固定规则,可插拔、可替换、可维护。 三、标准化审协议用 step 一 到 step 四定义一套不可修改的审流程,先加载清单,再理解代码,然后逐条较验,最后结构化输出,保证每次审动作一致。 四、问题输出强规范对每一个问题都强制要求位置、等级、原因,修复代码四件套,避免模糊评价,保证评选结果可落地、可执行。 五、结构化结果输出,固定输出总结分级问题评分 top 三、建议让评选结果清晰专业,可直接用于 c i c d 门禁,这正是 reviewer 模式要实现的工程化能力。 整体来看,这段代码完美贯彻了 reviewer 模式的核心流程稳定规则,外置分级评分,结构化输出,可无缝切换检查标准。 part 四, the inversion 反转模式接下来我们讲第四种设计模式, inversion 反转模式,这个模式非常特别,它完全颠覆了我们平时使用 agent 的 常规逻辑。 大家都知道,普通的 agents 在 接收到用户的指令后,本能反应就是立刻开始猜测,立刻开始生成内容。 但这种行为往往会导致一个很严重的问题,用户的需求还没说清楚, agent 就 已经开始干活了,最后做出来的东西完全不符合预期。而 inversion 模式就是把这个逻辑彻底反转过来, 他不再是用户下达指令, agent 主动充当一个严谨的面试官角色。 这个模式的核心架构是依靠一系列明确不可妥协的观察指令来控制流程,最典型的指令就是在完成所有阶段之前禁止开始构建 a 政必须严格遵守这个铁律,先按顺序向用户提出结构化的问题,收集完整的上下文信息,明确所有的需求和部署约束之后,才会开始生成最终的方案。 它是确保项目规划、系统设计等高价值任务不跑偏不返工的最有效模式。视力代码架构逻辑讲解下面我们来看这个项目规划器的视力代码,我来给大家拆解它在架构上是如何完美贯彻 version 反转模式的。 这段代码的架构逻辑是 version 模式的教科书籍实现,我给大家讲透。一、核心禁令 guard rail 代码一上来就立下了最核心的规矩, do not start building。 这是一道绝对不能逾越的架构屏障,从根源上禁止了 agent 先行动后思考的本能,这是反转模式的灵魂。 二、多阶段强隔离整个流程被严格划分为 face 一、 face 二、 face 三,并且明确规定了只有完成上一阶段才能进入下一阶段。这种架构彻底杜绝了信息收集的混乱和遗漏。 三、可控的交互节奏强制要求 ask one question at a time, 一 次只问一个问题,等待回答后再继续。这种设计保证了用户能清晰准确地提供信息,避免多线成对话导致的需求失真。 四、信息收集前置所有的核心逻辑加载模板生成方案都被放在了最后的 synthesis 阶段,也就是说,百分之一百的信息收集完毕之前不执行任何生成逻辑,这正是反转的核心体现。 五、闭环确认机制最后还加入了用户确认和迭代反馈环节,确保最终输出的方案完全对齐用户需求。 整体来看,这段代码从架构层面彻底贯彻了 inversion 模式,先收集后生成,先明确后执行,用强关卡反转 agent 默认行为。 part 五, the pipeline 流水线模式 接下来我们来到最后一种设计模式,也是处理复杂任务最强大的一种 pipeline 流水线模式。 在我们面对文档生成、代码发布、数据处理这类复杂的工程化任务时,最容易出现的问题就是 agent 跳过关键步骤,忽略重要指令,直接给出未经验证的结果。而 pipeline 模式就是为了彻底杜绝这类问题而生的。 它的核心设计思想是把一个复杂的大任务拆解成严格按照顺序执行的多个工作步骤,并且在关键位置设置硬性检查点,只有当前步骤完全通过检查才能进入下一个环节,任何一步失败都不允许继续执行。 这个模式在架构上会用到 skill 体系里所有的可选目录 references, 存放各阶段需要的模板文件, 并且他只会在特定步骤才去加载对应的资源,让 a 阵的上下文窗口始终保持干净高效,不会因为信息过载而出错。 pie plan 模式是真正意义上工程化生产级高可靠的任务执行模式。势利代码架构逻辑讲解 下面我们来看这段 api 文档生成流水线的势力代码,我来给大家完整拆解它在架构上是如何不折不扣的贯彻拍拍烂流水线模式的这段代码的架构逻辑,是流水线模式最标准的实现,我给大家讲透彻。 一、强顺序不可跳过原则,代码开头就立下铁律,必须按顺序执行,不允许跳过任何一步,一步失败就不能继续,这是流水线模式最核心的架构约束。 二、固定步数,限性执行原数据明确标注,一共四个步骤,整个任务被拆分为限性不可打乱的执行流,从解析、生成、组装到质检,完全符合工业级流水线设计。 三、强制人工检查点在 step 二设置了最关键的架构卡点,生成的文档注视必须经过用户确认,不确认就绝对不能进入第三步,这是保证结果符合预期的人工闸门,也是 pipeline 模式区别于其他模式的标志性设计。 四、分阶段加载资源,不同步骤加载不同的外部文件。第二步,加载注式风格。第三步,加载文档模板。第四步,加载质检清单,实现了最小化上下文加载,既精准又高效。 五、闭环自检机制最后一步不是直接输出,而是执行自动化质量检查,对照检查清单自我校验修复问题后再交付,这让整个流水线形成了完整的执行加校验加修复闭环,保证最终输出的结果是生产可用的。 可以说这段代码从架构到执行逻辑是生产可用的。可以说这段代码从架构分布、加载、闭环、质检, 如何选择正确的模式?到这里五种设计模式就全部为大家讲解完毕了,文章里也给出了非常清晰的选择指南,我们可以根据自己的真实场景直接对应,想让 agent 成为某个库或框架的专家,按需加载规范选择 tour rapper, 想让 agent 输出结构统一、格式固定的标准化内容。选择 generator, 想让 agent 对 代码文档做自动化审审与审计。选择 reviewer, 想让 agent 先问清需求,收集完整信息再动手。选择 inversion, 想让 agent 严格分布执行,不跳步,有检查点。选择 pipeline 模式组合使用。文章中特别强调了一个关键点,这五种模式并不是互斥的,完全可以组合使用。 比如,你可以在 pipeline 流水线的最后一步加入 reviewer 审审器做自动化质检。也可以在 generator 生成器开始工作前先用 inversion 反转模式收集必要信息。还可以在 pipeline 的 某一个步骤里嵌入 tooler wrapper 获取专业库知识。 得益于 adk 的 skill toolset 机制和渐进式上下文批录, a 政只会在运行时为当前需要执行的模式消耗资源和令牌,整体运行非常高效、轻量化。结尾总结 各位开发者朋友们,文章最后给了我们一句非常核心的忠告,不要再把复杂、永长、脆弱的执行逻辑全部印编码到一个巨大的系统提示词里了。 我们真正应该做的是利用今天讲的这五种 skill 设计模式,把复杂的工作流拆解开来,用标准化、结构化、可维护、可附用的架构去设计 agent 能力,这样构建出来的 agent 才是稳定的、可靠的、可落地的。真正适合工程化使用的 这五种模式源自 anthropophocus、 微软、 google cloud 等一线科技公司的真实内部实践,经过了大量工具与开发者的验证,是当前 agent 开发最具价值的一套设计准则。 我相信掌握了这五种设计模式,你的 adk 开发能力、 skill 设计能力都会迈上一个全新的台阶。今天的分享就到这里,谢谢大家, 感谢大家收听中英 fm 今天的节目,希望我们的讨论能为您带来启发。如果你有任何想法或问题,欢迎随时留言互动,我们下期节目再见,祝大家生活愉快,再会!

最近刷了一篇博课,讲了五个 agent 的 skill 的 设计模式,那以前我们在讨论 skill 的 时候,往往大家都还在讨论这个 skill 整个的组织,比如像我们一些有哪些文件夹啊,以及我们 skill md 里面有哪些模块,那很少有讨论到我们在具体写一个 skill 的 时候,它里面的内容应该是一个什么样的逻辑去写啊?就是 instruction 该怎么展开。那这篇论文就讲了五 个设计模式,来帮助我们在设计一个具体的 skill 的 时候,该应用哪种模式,或者混合使用的这种模式。那我们一个一个一个给大家来讲。那第一个是 to rapper, 这个模式下主要用在我们把一些现有的工具或现有的 a p i 文档包装成一个 skill, 那 这个是比较简单的,那我们直接把这个呃 a p i 文档放到我们的 reference 下面啊,形成一个新的 md 文件,然后我们在我们的 sql md 里面对它做一个引用,那这个呃就是我们的 topper 模式。那第二个模式呢?就是我们的 generator, 那 这个模式下往往是去产生一个有固定格式的一个文档的时候去使用。那 那在这个模式下呢,我们有两个文件呢,第一个是我们的风格引导文件,这个我们放在我们的 reference 下面,那还有一个文件是我们的模板文件,我们把它放在我们的 size 下面,那在我们的 instruction 里面,我们会啊,第一步先漏到我们的风格引导,第二步再漏到我们的啊这个模板文件,然后并且下面告诉模型呢啊,告诉我们的 agent, 我 们在啊,没有,就我们 template 里面如果有没有提供的字段的信息的时候,我们一定要跟用户去 确认,然后让用户提供给我们这个信息。第三个模式是我们的评估一个标准的时候啊,那嗯,这个常用在一些 call review 里面,对吧?那 啊这个去怎么设计啊?那首先我们有一个核心原则,就是我们要把这个要评估的项或者要检查的项跟你要检查的这个规则或者是协议是要区分开的,就这两个你要把它们不要写在一起。 那具体来说就是你的要检查的这些项,你用一个 check list 的 md 把它放在 reference 里面,然后你的整个的检查的规则,你可以把它放在 instruction 里面,那这样的话有一个好处,比如像 code review 的 时候,有些可能是检查你的语法错误,有些可能是检查你的安全性,那这个时候你的检查的协议不需要变,你只要改变你的 check list 的 引用就可以了,就能得到两个不同的 review。 第四个模式就是 inversion, 就是 反过来让呃 skill 去采访用户,那一般来说我们都是用户去触发一个 agent, 告诉 agent 去做什么, agent 就 去做,如果 agent 有 不知道的事情,他可能自己就会猜,那这个就是为了避免模型去或者 agent 的 去猜一些信息。那这个关键的点就在于前面的一句话,就是你要告诉他, 直到你确认完了我们所有的阶段,你才去构建,就不要乱去构建。然后呢,你要在你的 instruction 里面写完你有哪些阶段,每个阶段有哪些问题,然后呢就让这个模型去一个一个问题的去确认,那最关键的就是上面那一句话,就是直到你确认完了所有阶段所有问题,然后你才去开始构建。 那第五种,也是最后一种就是我们的拍 plan 这个模式,那这个模式是用在一些你希望就按照固定的流程去走,不希望这个模型去跳过一些阶段的时候, 那这个里面比较重重要的一个设计的点就在于我们要一开始就告诉他你不要跳过 step, 然后并且如果一个 step 处理失败,你就结束,你不要再继续进行,那这个是很关键的一句话,你要放在你的 instruction 的 top 啊的位置,然后并且你可以在每个 step 下面,然后写上啊,如果这个直到用户确认你才去啊执行接下来的一个 step 啊,告诉这个 agent, 这个就是拍 plan 这个模式啊。那同时啊整个的簿册也给出了我们在何时应该使用什么样的模式的一张表,并且给了一个流程图啊,你可以根据这个流程图啊,对比你现在的这个需求,应该用什么样的一个设计模式来设计这个 skill, 同时我们可以怎么做呢?我们可以用 to rap 这个模式把这个文档包装成一个 skill, 然后给到我们的 agent, 那 我们 agent 在 设计 skill 的 时候就可以参照这五种模式来进行设计。

最近 agent skill 这个词真的火得一塌糊涂,但说实在话,真正懂它本质的人是少之又少。上周末我参加四三 college 的 活动,当时一位分享者终于让我把 skills 的 本质用大白话理解了。他说,这三年 ai 圈变化那么快,但是有一件事情从来没变,本质上都是 prompt。 当时全场都懵了,就明明从这个 prompt engineer 提示词工程,到上下文工程、 context engineer, 再到最近很火的 agent skills 概念换了一轮又一轮,怎么还是 prompt? 然后他笑了笑说,太多人把 prompt 狭隘的理解为用户提示词就是你跟大模型聊的对话,但其实无论概念再怎么包装,其实在模型的眼里,这些概念都从来没有变过本质。这句话让我整个人都清醒了。 然后他就开始拆解 agent skills 的 本质。他说,本质上, agent skills 就是 一个 markdown 文件,是对大模型窗口的一种工程学的改造。 这是什么意思呢?就是你知道现在大模型的上下文窗口能做到多大吗?两百万头肯听起来很厉害对吧?但是这时候问题来了,就是资源是昂贵的,而且注意力是分散的, 就像你同时打开一百个网页,那你的电脑即使再好也会卡顿,对吧?所以怎么精心地呃设计、裁剪跟拼接,未给模型的文字去列,就成了非常关键的事情。这时候他开始拆解 agent skills, 他 画了三个框,然后他说, agent skills 本质上就是由这三个部分组成。 第一个框叫做原数据,有点类似于你通讯录里面的花名册,他可以告诉模型说,哎,这里有一百个技能,那么谁是做算力的,谁是做餐饮的,而且只会消耗几百个头肯,所以非常的省钱。第二个框叫做指令,也就是我们熟悉的提示词, 这里的提示词不是用来聊天的,而是用来塑造一个工作环境。第三个框叫做资源,这里面装的是代码文档和数据库,只有当你举手说,哎,我要买算力,那那个做算力的技能才会激活,他的指令,才会开始加载,然后他背后的团队工程师、供应商,也就是他的资源 会被暗区调取出来。那如果你不触发呢,那些庞大的资源就会静静的待在那里,完全不会消耗你的头肯,费用,也不会占用模型的注意力。你看,这就是 agent skills 渐进式疲劳的魅力。 然后那个老师说了一句话,他说过去的 prompt 是 你问,大模型答是一个聊天,但是现在的 agent skills 是 给了大模型手和脚,这什么意思?就是 agent skills 可以 访问你的电脑文件系统,它可以调用你的代码解释器, 甚至可以在你电脑的 bash, 就是 那个黑框框里面直接执行命令。你现在可以跟大模型说,欸,遇到你不懂的,你可以打开我电脑第一盘里面的某个文件夹的文件,欸,那大模型它真的能做到, 所以它不再是一个聊天工具了,而是你的数字员工。所以你可以看到,其实这三年 ai 圈的概念满天飞,但其中始终不变的就是那个 prompt 提示词,从 prompt 到 context engineer, 再到呃, agent skills, 名字在变,但其实它的本质是不变的,我们现在做的所有努力都是在抢占,还有精心装修那个非常宝贵的模型上下文窗口。 那现在很多 ai 圈人还在追新概念啊,今天学 gbt, 明天学 cloud, 后天又学一个什么新出的新工具。但真正懂行的人早就看透了,在模型眼里,众生皆为头肯, 仔细输了一点的 no 号,然后把它提炼为简练的提示词,这才是 ai 圈里不变的道理。听懂了这个逻辑,你才算真正拿到了 ai 下半场的入场券。那么周末的呃,关于 agent skills 的 小笔记我也整理好了,需要的跟我说。

如果你的 android skill 安装了,但是发现并不好用,比如说总是不触发,大概率是 description 没有写对。今天分享六个呢, skill 创建的技巧,全部是从 ospec 官方仓库里面扒出来的实战经验。第一个 skill md, 要有黄金结构。很多人写 skill md 呢,就是一坨文字糊上去, cloud 其实根本看不懂。 正确的写法是分块, purpose, when to use process, decision, logic, output。 每一块呢,都用标题和列表写清楚。 cloud 呢,一看就知道该怎么执行。 第二点啊, description 的 写法是否正确,直接决定了处罚率,这是最容易踩的坑啊。你写帮助用户处理 excel, 这太模糊了, ai 不知道什么时候该调用你,你得写清楚两个关键信息,第一个呢,叫做能做什么?第二个呢,是什么场景来调用?比如正确的写法呢?是这样的 好,你看前半句,列出了四个具体能力,提取数据,执行透视表,生成图表。后半句呢,写明了处罚的场景,分析表格数据或者自动化工作流,具体化,以 才能被精准触发。而且第二个信息点更关键,因为很多人会写干什么,但是常常忘记写什么时候来触发这个 script。 第三啊,重复的活呢,封装成 scripts。 比如说你经常要抓取网页内容,每次呢,让 ai 现写代码又慢又不稳定,直接写一个脚本呢,扔进 scripts 文件夹,然后在 s q m d 里面呢,告诉 ai 调用脚本就行。注意啊, scripts 文件夹里面的内容再多都是不加载到上下文里面的,而只是执行,因此 intoken。 而且由于是代码逻辑呢,是前后一致的,完全是稳定的。第四个, reference 文件夹要按需加载, qmd 里面超过了多少字就要拆分呢?从时间来看呢,最多不要超过五千字啊,如果超过就 把详细文档呢放进 reference 文件夹里面,在 qmd 里面写上需要时读取某某文件,这样 ai 不 会一次性的塞满上下文,只会在用到它的时候呢才加载。第五个, 直接抄官方的优秀案例, ospeak 官方的 skills 仓库呢,有六万多的 star, 里面的 m c, p, builder, web app, testing, internal, commerce 这些呢,都是生产级的 结构,怎么组织,指令怎么写,资源怎么分配,全部呢,都是现成答案,抄完改成你的领域就行。第六个,打包分享出去, skill 则遵循开放的标准,一个 skill m d 呢,加上 scripts, reference, assets 三个文件夹,打包呢就能给别人用。你做的 skill 呢,越专业,附用的价值呢就越高,对你带来的影响力呢也就 越大。总结一下, description 决定了触不触发,触发率是多少, skill m t 的 结构呢,决定了执行的质量, scripts 和 reference 呢,决定了效率的上限。 ok, 这一期呢,讲到这儿,觉得不错的点个赞,后续呢,还会拆解更多的 skill 的 实战的玩法。

hello, 大家好,搞懂 skill 的 三层存储,你才算真正吃透 skill 系统。今天一分钟讲清每一层的作用,新手也能牢记三层存储,分别是,第一层, building skills, 官方内置 skill, 只读不能改。 第二层, customer skills, 用户自定义 skill, 可修改。第三层, active skills, 当前激活的 skill agent 只能用这一层的流程很简单,官方内置 skill, 同步到 customer, 你 在这一层编辑修改启用后就进入 active, 只有 active, 你 的 skill agent 才能调用核心设计逻辑 building, 保护官方文件不被误。改 customer, 让你自由定制 active, 控制 agent 加载效率。三层分工明确,既灵活又高效。关注我下一条,我们拆解提示词工程不要错过哦!

掌握 agent skill, ai 再也不用重复解释工作流程,一次配置,永久附用。今天我们来学习 agent skill。 agent skill 是 一个可附用的知识包,它是 antropic 在 cloud 的 内部使用的规范, 后来扩展成 ai 代码 agent 的 通用标准。 skill 基于文件系统,为 cloud 提供特定领域的专业知识、工作流程、上下文和最佳实践。 通俗来讲, skill 就 像为 agent 准备的一份份专门的工作说明书或操作手册。当 ai agent 识别到你的任务与某个 skill 描述相匹配时,它会自动按需加载,并运用该 skill 中的知识来帮助你。 一个完整的 skill 由三个部分组成,核心文件是 s k i l l m d。 它定义了整个技能的内容。 s k i l l m d。 包含两部分, metadata 原数据和 instructions 指令原数据始终加载在对话内,提供技能的发现信息。 scripts 目录存放可执行的辅助脚本,让 ai 真正动手执行操作。 references 目录存放参考资料,例如数据库模式、 api 文档和模板视例。这三者共同构成了一个完整的可附用的 ai 专家知识包。 skill 的 运行分为四个阶段,触发、加载、执行、输出。触发阶段,你提出任务, ai agent 将其与所有 skill 的 描述字段进行匹配。加载阶段,匹配成功后, ai agent 先加载核心指令 s k i l l m d。 这是渐进式加载执行阶段。 ai agent 按照说明书中的步骤工作,必要时调用 scripts 目录下的脚本 输出阶段,最终交付一个符合预设标准的高质量结果。这里有两张官方流程图,清晰展示了 skill 的 核心原理。简单来说, agent skill 就 像给 ai 配了一本专属操作手册,你只需要写一次, ai 每次遇到相关任务就会自动翻出来,用 来看一个贴近生活的案例。天气助手 skill 通过 agent skill 让 ai 自动查询今日天气,并整理成出行建议报告。 s k i l l md 描述字段写明查询指定城市天气,深层包含穿衣建议和出行提示的报告。 script 目录下的 weather report。 脚本自动调用天气 api 获取实时数据, ai 拿到数据后,按照 skill 中预设的模板,自动生成一份完整的出行建议报告。这就是 skill 的 魔力,从查询到整理,全程自动化,你只需要说一句话。 cloud 的 官方给出了编辑好 skill 的 三大原则,第一,简洁是关键描述,必须清晰说明做什么和何时触发。 第二,设定适当的自由度,指定方向,但不要限制走哪条路。第三,完整的测试需要在对应 ai 模型进行完整测试。好的 skill 还应该结合工作流和反馈,循环 运行验证器,修复错误重复,把复杂逻辑拆分成一个个步骤,每步完成后打勾确认,确保输出质量。 最后来总结 agent skill 的 四个关键点,第一,它不是超级提示词,关键区别在于脚本执行能力, ai 能真正动手运行代码。第二,触发取决于描述,百分之九十取决于 s k i l l b 顶部的 description 字段。 第三,三种技能位置,个人技能对所有项目有效,项目技能仅针对当前项目插件技能功能更强大。 第四,避免技能肥胖症。一个 skill 只做一件事,拆分为多个小技能, cloud 可自动组合使用。在 astropik 官方解释中, mcp 是 连接大模型与世界的桥梁,而 agent skill 是 大模型操作世界的手。你觉得 agent skill 会如何改变你日常使用 ai 的 方式? 欢迎在评论区分享你的想法,我们下期见。五分钟 ai, 每天搞懂一个知识点。