最近 agent skill 这个词真的火得一塌糊涂,但说实在话,真正懂它本质的人是少之又少。上周末我参加四三 college 的 活动,当时一位分享者终于让我把 skills 的 本质用大白话理解了。他说,这三年 ai 圈变化那么快,但是有一件事情从来没变,本质上都是 prompt。 当时全场都懵了,就明明从这个 prompt engineer 提示词工程,到上下文工程、 context engineer, 再到最近很火的 agent skills 概念换了一轮又一轮,怎么还是 prompt? 然后他笑了笑说,太多人把 prompt 狭隘的理解为用户提示词就是你跟大模型聊的对话,但其实无论概念再怎么包装,其实在模型的眼里,这些概念都从来没有变过本质。这句话让我整个人都清醒了。 然后他就开始拆解 agent skills 的 本质。他说,本质上, agent skills 就是 一个 markdown 文件,是对大模型窗口的一种工程学的改造。 这是什么意思呢?就是你知道现在大模型的上下文窗口能做到多大吗?两百万头肯听起来很厉害对吧?但是这时候问题来了,就是资源是昂贵的,而且注意力是分散的, 就像你同时打开一百个网页,那你的电脑即使再好也会卡顿,对吧?所以怎么精心地呃设计、裁剪跟拼接,未给模型的文字去列,就成了非常关键的事情。这时候他开始拆解 agent skills, 他 画了三个框,然后他说, agent skills 本质上就是由这三个部分组成。 第一个框叫做原数据,有点类似于你通讯录里面的花名册,他可以告诉模型说,哎,这里有一百个技能,那么谁是做算力的,谁是做餐饮的,而且只会消耗几百个头肯,所以非常的省钱。第二个框叫做指令,也就是我们熟悉的提示词, 这里的提示词不是用来聊天的,而是用来塑造一个工作环境。第三个框叫做资源,这里面装的是代码文档和数据库,只有当你举手说,哎,我要买算力,那那个做算力的技能才会激活,他的指令,才会开始加载,然后他背后的团队工程师、供应商,也就是他的资源 会被暗区调取出来。那如果你不触发呢,那些庞大的资源就会静静的待在那里,完全不会消耗你的头肯,费用,也不会占用模型的注意力。你看,这就是 agent skills 渐进式疲劳的魅力。 然后那个老师说了一句话,他说过去的 prompt 是 你问,大模型答是一个聊天,但是现在的 agent skills 是 给了大模型手和脚,这什么意思?就是 agent skills 可以 访问你的电脑文件系统,它可以调用你的代码解释器, 甚至可以在你电脑的 bash, 就是 那个黑框框里面直接执行命令。你现在可以跟大模型说,欸,遇到你不懂的,你可以打开我电脑第一盘里面的某个文件夹的文件,欸,那大模型它真的能做到, 所以它不再是一个聊天工具了,而是你的数字员工。所以你可以看到,其实这三年 ai 圈的概念满天飞,但其中始终不变的就是那个 prompt 提示词,从 prompt 到 context engineer, 再到呃, agent skills, 名字在变,但其实它的本质是不变的,我们现在做的所有努力都是在抢占,还有精心装修那个非常宝贵的模型上下文窗口。 那现在很多 ai 圈人还在追新概念啊,今天学 gbt, 明天学 cloud, 后天又学一个什么新出的新工具。但真正懂行的人早就看透了,在模型眼里,众生皆为头肯, 仔细输了一点的 no 号,然后把它提炼为简练的提示词,这才是 ai 圈里不变的道理。听懂了这个逻辑,你才算真正拿到了 ai 下半场的入场券。那么周末的呃,关于 agent skills 的 小笔记我也整理好了,需要的跟我说。
粉丝4.2万获赞15.0万

梅猴王朋友们, agent skill 最近真的太火了,但很多朋友肯定还是很困惑, skill 到底是啥?有什么牛的?没关系,草旅从 skill 大 全它来了。 今天呢,我们会通过一个逐步升级的案例来理解 skill 的 结构和原理,然后我们还会学会定制自己的 skill 这个 skill 呢,只需要我们说帮我做一个促销海报啊,优惠券,员工服装,它就会生成符合我们品牌风格,带 logo 的 物料图片。 另外,我也会推荐给大家一些好用的必用的 skill, 比如说帮你的文章配图,把杂乱的知识变成教学网页,一句话处理表格等等等等。 我还做了个秋之技能生成器,大家只要回答一下 ai 给的选择题,为你量身定制的技能就轻松完成了。并且今天所有的资料链接以及补充资料我都做成了一个网页,大家只需要一步步的跟着做,跟着看,就一定能搞定, 非常值得一个点赞收藏关注哦!来吧,准备好我们 go go! go! 首先,到底什么是 skill skill 呢?翻译过来就是技能呗, 它其实和人类的技能是类似的,比如说你是一个厨师,那你就有炒菜的技能,处理食材的技能,摆盘的技能等等等等。那每个技能里面,比如说炒菜技能,这里面就包含了你的流程,你要先炒什么,后放什么, 还有你的配方,你的油温多高,盐放多少。有了流程和配方呢,你可能还会需要一些工具,需要煤气灶什么的, 甚至你可能还会有一些独家的材料,有一勺秘制辣椒酱什么的。那 agent 的 技能也是同理,它要来做菜,它也得有流程、配方、工具和材料。 所以在 agent skill 的 术语里面呢,它就是 skill 点 md, references, scripts 和 assets 这些东西打包成一个文件夹,这就是一个技能,一个 skill 了。我们先来个简单的, 比如说我们要做一个写作 skill, 那 我们就在 skill 里面可以要求他先去啊这些网站去搜集信息,然后再按这个爆款原则去写个大纲,然后再参考这个语气来写稿啊,最后按照平台要求来审稿等等等等。那有朋友就很疑惑, 那这不就是写提示词吗?哎,本质上还真是的,毕竟啊,我们跟大模型的交互其实都离不开提示词, 但是呢,这并不是 agent skill 的 全部,它在工程上是有很多优势的,能做的肯定比我们拷贝粘贴提示词要多很多。好处我们后面都会说到,那先让我们通过创建一个 skill 来理解它的结构和原理, 我这里用的是谷歌反重力来做编辑器来看文件,然后呢,用的是 cloud code 来做 agent 来处理任务。这俩东西的下载方式呢,我也都放在资料里了,非常清晰简单,大家一步步跟着做就行了。 接着你只要在反重力的这里创建一个项目,比如说我的就叫丘之 project 吧,然后呢,我们调出终端, 输入 cloud cloud code 就 调用出来了,这个界面大家看着会有点复杂,但是不要怕,跟着我一步步来就可以了,之后我们跟 agent 的 对话都会在这里进行。 ok, 那 我们开始创建, 那我们先要做的是一个最简单版本的 skill, 后面呢,我们会逐步升级的哈, 那现在假设我是一家轻食店的老板,那这是我们秋之餐厅的一个品牌 logo, 那 我希望做一个 skill 呢,能够按照我的品牌调性和视觉规范,帮我们去想各种物料的创意,做一个创意生成器。 那按照 cloud 的 规定,我们创建一个 skill, 得在规定的点儿 cloud skills 文件夹里面去创一个 skill 文件,那我们用最原始的方式,直接手动的来创建这些文件夹哈,点儿 cloud skills, 然后我们再创建一个文件夹,这个文件夹的名字呢,就是我们 skill 的 名字,我们叫它秋之创意吧。那这个 skills 的 文件夹里面呢,必须规定有一个 skill 点 md 的 文件,这个大写的文件,那文件里面放啥呢?我已经写好了, 粘贴进来,那就是这么些文字。好了,这就是一个 skill 了,大家先压住脑子里面的问号,我们再来细看一下,那这个文件里呢,上面这两个横线里面的它叫做元信息 matlab, 写着两个东西啊,一个呢是 skill 的 名字,一个呢是 skill 的 描述,这两个东西专门用来告诉 ai 这个 skill 叫什么名字,是干嘛用的,什么时候可以用它,那我这就写着是做创意物料用的啊,当用户说要做个海报什么的物料,他就自己触发它了。 而下面这些信息呢,叫做指令 instruction, 其实就是具体告诉 ai 怎么样做的一些提示词喽。 ok, 那 我这写了我们的餐厅叫做秋之餐厅,品牌的风格有这么些要求,输出的格式让他是这样等等等等,非常的简单哈,那我们保存好一个 skill, 真的 就创建完了?来,我们启动 cloud code 来问问他,你有哪些 skill? ok, 你 看,他现在就已经识别到了我们的秋之创意 skill 了。 ok, 我 们直接问他,我要做一个秋之餐厅的春节促销海报,让他给个创意 好,他这里就开始提示我们,他正在加载这个 skill 了,我们同意 ok, 他 就输出了创意,并且是按照我们的要求和格式来的。 那有朋友就受不了了,哎呀,这一通操作不还是提示词吗?跟我自己写一段这个提示词存着给 cloud code 看有什么区别呢?最大的区别之一在于它是按需加载的, 什么意思呢?其实啊,当我们正常的这样跟 cloud 去聊天的时候,大模型它只会看到我们这个 skill 里面这两行短短的圆信息。 只有当我们说我们要做一个秋之物料的时候,他才意识到,哦,该看具体的指令了,他才会去加载这下面这部分的完整指令,否则这些他都不会看到。 这样的好处就是方便我们可以同时拥有很多个 skill。 每次 a 正的都会看一遍所有 skill 的 简短的原信息,但是只有当 a 正的意识到他要去具体调用一个技能了,他才会去看下面的一大堆指令,而且 ai 的 回答也会更精准, 因为他没有了其他提示词的干扰,那 ai 加载的少了, open 自然也就省了一堆。那这是他按需加载的第一层。 当然了,刚刚这个 skill 实在是太基础了啊,就算一口气把它下面的指令都加载完,好像 token 也不多哈。 但是如果我们的要求变得复杂了呢,比如说我们秋之餐厅的物料其实分很多种, 常规的呢,有海报、菜单,也有比较特别的一些实体物料要设计,比如说餐盒、杯子,员工服装,还有一些社交媒体的物料,比如说公众号封面,微博配图等等等等,他们的尺寸都不一样,配色要求也不一样, 还得符合各平台的一个规范。每一个物料呢,我们都假设它有详细的长长的说明,那这时候我们如果把所有物料的要求都写进 skill 点 m d 里面,那这个文件就会变得巨长。 但是很多时候呢,我只是想做一个,比方说实体餐盒的设计大模型,根本就不需要知道公众号封面的规格,但是 ai 还是得把整个文件都读一遍,那这就造成了 token 的 浪费,也可能会造成一些信息干扰。那怎么办呢? isopec 就 又规定了一个文件夹叫做 references, 我 们呢可以把实体的物料和社交媒体的物料这个两个规格单独拆出来,单独的给它放到这个 reference 文件夹里面去。 那这个实体物料规格点 md, 我 们就写一些线下的工服呀,餐盒之类的要求, 那这个社交媒体物料规格呢,我们就去写公众号封面呀,微博配图这些的尺寸和要求,甚至我们都可以拆得更细。 然后呢,我们只需要在 skill 点 m d 这个总指令里面只留下那几个常见的物料要求,并且我们还需要写上一个指引 啊,告诉他如果用户要做线下物料的话,那就要去读这个实体物料规格点 m d。 如果要做社交媒体类的图,那就要去读社交媒体规格点 m d, 那 现在同样的一句话, 他给出的方案就更精准了。这样当我们只做常规物料的时候,这两个 reference 的 文件大模型压根就不会看。然而当我们说做实体参合的时候,他也会通过 skill 点 md 的 指引,只去看 reference 里面的这个实体规格文件, 那这就是它的进一步按需加载了。那我们可以想象,我们可以有好多种不同情况的 reference, 反正它只会在需要的时候自己去看指定的文件。 但是现在我们的秋之创意 skill 呢,只能输出创意,还得我们自己去做图,所以呢,我就还想让它可以按照我们的品牌规格,直接帮我们把图做出来, 也没有问题。那这就要用到 skill 的 另一种文件夹了,叫做 scripts, 那 这个 scripts 里面呢,一般放的是一些可执行的脚本, 那我这里呢,实际上也就放了一个非常短非常简单的脚本,其实就是在调用 nano banana 的 api 来生图的一个脚本。那有了这个脚本之后呢,我们还得去 skill md 里面在指令里说一声,告诉他,如果用户要求直接生成图片, 那他就得把之前我们想的这个创意转化成生图的提示词,然后按照这个命令去调用这个生图脚本,这样他就能一句话自动去生成精准的图片了。 不然我们还得自己去拷贝提示词,打开软件再粘贴,再生成,再下载保存,现在我们一句话就搞定了。 另外我还有个需求,我希望深层物料的图片能保持秋之餐厅的 logo 不 变, 所以我们还得给他几张 logo 图作为深图的这个参考。那我们就可以再建一个 最新规定的一个 s s 文件夹,我们把两张的 logo 图片放到这个文件夹里,当然我们还要回到 skill 的 md 里面,告诉他参考图在这个 s s 文件夹里面,如果要深图的话,需要把这个图片当做参数给脚本传进去来执行。 好朋友们,现在这个 skill 就是 一个完整的官方完全形态了,其实有点像我们在用自然语言写程序,对吧?那我们先来试试效果,来帮我做一张周六饮料免费的一个实体海报, 你看它发生了什么?它先是加载了这个 skill, 然后它内部可能发现啊,要做的是这种实体物料,它就要去看另一个解说,于是它去检查了这个实体物料的规范。那并且它意识到我们需要的是直接生成图片, 所以呢,它又生成了提示词,把这个提示词和 logo 图片一起给到,并且运行了这个脚本。那最后它输出的图片告诉我们,在这里我们看看结果, 你瞧瞧它这个尺寸,配色 logo 是 完全符合我们这个品牌规范的啊。那为了防止这个是一次性的结果,我还多试了几次,它这个深层的效果都很不错。 然而如果我们的要求还跟之前一样,我们只要创意并不要直接深图的话,那他的这个脚本他也不会被执行。 而且呢,刚才我们说到这个 scripts 脚本,这里面其实还有一个重点,这个脚本里的代码它是写好了的, agent 根本就不需要去看里面写了什么,它只要知道我们在 skill 点 m d 里面写的那些指引,告诉它传什么参数,会输出什么,它只管运行脚本就行了。 所以不管我们在 scripts 里面写了多少行代码,大模型它都不会去读取,一点 token 都不占。 当然了,如果我们在 skill 点 md 里面的那个指引写得不够清楚,大模型不知道怎么用这个脚本,那他有可能也会不得不自己去看一下这个脚本,但他的机智和园艺是不需要去读这些脚本的。 好,那我们来回顾一下,其实创建 skill 就是 在指定的文件夹下去创建一些文件,那最简单的 skill 呢?只要一个 skill 点 m d 就 够了,里面有这个原信息和指令,而完整形态的 skill 可以 加上 references, script s s 这些可选的文件,那这些东西是怎么配合工作的呢?这就是 skill 最重要的设计。按需加载的三层结构,第一层,源信息。 这一层呢,是始终加载的, ai 的 每一次对话都会看一眼所有的 skill 的 源信息,它去看到自己有哪些技能,就像一个目录。那第二层,指令层, 这层是只有当 ai 判断并且决定我要用这个 skill 的 时候,它才会去加载完整的 skill 点 m d 文件。第三层,资源层, 这层包括了 reference 里面的参考资料, scripts 里的脚本, assets 里的资源。只有当 ai 进一步判断任务需要更详细的信息,或者它需要执行某个脚本的时候,它才会去按需加载,并且脚本它是只执行不读取的,完全不占用托克。 好了,这下我们完全理解 skill 的 按需加载,也就是官方定义的渐进式批漏机制和三层结构了。可是对于普通人来讲,这又是写 markdown 又是脚本的,好像创建一个 skill 还是挺复杂的。 no no, no, 现在谁会用手写呢?我是用这个创建 skill 的 skill 啊,秋之 skill creator 创建的。 那这个呢,是我基于很火的 skill 创建器改良的一个更加互动式,更加小白的一个 skill 创建器。那大家把它下载下了以后,放到这个点儿 cloud skills 文件夹里面就好了。那下好之后,我们想要创建什么 skill, 直接打开 cloud 直接跟它说就行, 或者我们也可以斜杠来调用他,那他呢,会开始一步步的引导和追问我们,来帮我们梳理这个需求。而且我特意设计的是这种用选择题的方式来追问我们整个过程,我们就只需要用大白话回复他的问题,以及按一按上下键做一做选择题就好了。 他这个追问的过程啊,到时候大家问题可能和我现在这个不一样,因为他会根据你的需求去做灵活的调整啊,他都是现编的。 然后呢,这个过程中因为我们要做图片,所以我们还需要给他提供 logo 图的参考,以及那个 nano 不 nana 的 a p i 和文档。那我也给他直接拖到了这个项目文件里,然后告诉他了一下这个文件的路径, 他就会自己去参考和把它们放到 excel 文件夹里面。那这两个素材我也都已经放在了我们的课后网页上了,大家可以去用做练习来试试复现它。 那问完这些问题之后呢,他还会给我们核对一下方案,如果我们看着方案没问题,那他就会自动帮我们生成所有的 skill 文件了。 那做好 skill 之后呢,他还会帮你想几个例子来跑一下测试。我们这里其实测了好几个,风格都很一致,很好看。大家在这个调整的过程中,也可以去点开他写的这些 skill 文档来手动的修改一些,反正都是提示词嘛。 所以总之只要你有明确的输出要求,或者有明确的方法规范流程知识,创建器就会指引你帮你来写出一个定制的 skill。 而且除了自己创建,网上也有很多现成的 skill 资料里,我也整理了一些集合网站和 skill 仓库,成千上万的 skill, 大家可以去逛逛。并且我也给大家打包了几个普通人常用的必备 skill, 比如做 ppt, 处理文档, excel, pdf 这些基础的,我们直接把它拖进 skill 文件夹就可以,一句话让它帮你把乱糟糟的表格梳理得整整齐齐。 还有这个官方的前端设计 skill, 这是直接让 cloud code 生成的前端网页,而这个是挂载了这个前端 skill, 做出来的网页,效果明显大幅提升。还有这个动画生成的 skill, 用这么一段提示词就可以做出这样一段演示动画。 当然大家也不用去装一堆自己根本用不上的技能,一个游戏英雄也只需要四个技能 q w e r 就 能杀遍全场。所以最有效的还是把你最最高频做的几件事,打磨成一个你独家的稳定产出的 skill。 尤其是你对结果有明确的要求,你有经验和方法,你验证过的事情。 比如说打工人,你的周报每周都要写,那就做一个让 ai 来主动采访你,然后出周报的一个 skill。 比如说老师每节课都要背课,那就做一个你只要给出课题,就能给你一整套课件习题和 ppt 的 skill。 又比如说,你总是要给你的文章配图,那就做一个给他一篇文章,他就按你的风格做配图的 skill。 又比如说,你总是在审核,那就做一个按照你的规矩自动批阅合同来写备注的 skill。 因为大多数的人都不需要成为一个技能开发者, 我们只要先把自己掌握的小技能交给 ai, 让他替你重复劳动。好了,资料链接都在评论区了,大家动手试试吧!这个时候呢,点赞、收藏、关注的技能就该出发了,我们下次见了!

别人的 ai 直接上手干活,而你还在一问一答,实在是学不完了,已经二零二六年了,如果你还没用上 agent, skill 就 真的落后了。 那今天这期,我们来把 skill 一 次讲透点好收藏关注赞!普文版的安装教程和技能市场链接我都给你放在评论区了,来吧,我们先搞清楚 skill 到底是个什么东西。 skill 是 entropic 去年十月发布的,功能作用正如名字一样,是 agent 的 扩展技能包。 我打个比方你就懂了,假如你现在要给新同事交接一个项目,想一次搞定,让他快速上手,那你会准备什么? 一、执行流程和背景信息,教会他这件事怎么做。二、工具的使用说明,告诉他用什么和怎么用。三、模板和素材给他参考的规范。四、常见问题和解决办法,帮助他快速的 bug。 哎。 skill 包里面的内容其实就是这套离职交接大礼包的数字版本。 agent 运行 skill 的 时候,会先看这个主文档,了解怎么干活, 然后根据任务的情况自己去判断什么时候该调用代码脚本,翻阅参考文档,使用素材和模板等等。 那这样一来呢,同一个 ai 整就能够完成一些很复杂的任务,那比如说把零散的素材整理成规范的 ppt, 那 过去啊,就得好几个工具一起写作,那现在 a 整装上技能包,自己就能一条龙给你办了,这才叫真正的技多不压身。 ok? 说了半天,怎样才能用上呢?如果你已经是 cloud 的 订阅用户,网页端和 app 端都能够直接用,但如果你想白嫖,接着往下看。 目前最热门的方式是本地部署 cloud code, 那 接下来的安装教程呢?根据你的设备和网络环境不同,时间也会不一样,如果你想跳过教程,直接看效果,可以跳转到这个位置, 那整体的流程就这五步,我会用麦克来演示。 windows 的 流程其实也大同小异,首先确认网络能够正常访问国外网站,然后打开这个链接,下载运行环境,一路点确认。装好之后呢?键盘按 command 加空格搜索,打开终端,输入这项指令,看到版本号了,就说明可以进入下一步了, 还是在终端里啊?输入这项指令,如果你网络没问题的话,很快就能看到安装完成的提示。 然后关闭终端,重新打开,输入 cloud c l a u d e。 好, 正式打开 cloud code 的 档位了,先设置系统主题,那注意这里不能用鼠标,只能靠键盘的方向键去选择。回车确认, 那接着就会进入 a p i 设置的环节,一共有三个选项,但无论选择哪个都要你登录,所以我们先关掉终端,把 a p i 搞定再说。 那好消息是国产的大冒险几乎都已经支持 cloud code 了,包括千问、 mini max、 kimi、 智谱等等都有专门的接入文档。那我就拿正在免费送 token 的 智谱来举例,打开这个链接,按照步骤新建 api 密钥, 那接着打开终端,输入这串指令,根据网页里的指导把内容改好保存,记得把 api 密钥改成你自己的, 然后再输入这个指令,在文档里面新增一段这个之后保存搞定,那现在重新打开终端窗口,输入 cloud, 你 的 cloud code 就 正式启动了。 ok, 装好了能干啥呢?最简单的就是通过聊天来让他帮你干活,比如我扔给他一个 youtube 视频链接,让他下载,很快他自己就开始装酷了。 y t d l p 用来下载视频, f f m pack 用来处理视频这些东西我们本地耀哥没装,他自己就给装好了。那这就是他厉害的地方, 那接下来才是重头戏啊!用 skills 去解放生产力。在 cloud code 里面装 skills 特别简单,一句指令就能搞定。比如在这个技能市场网站里面,随便搜一个 skill, 只需要把这一行复制粘贴到你的窗口里面,就能让它熟练掌握 entropix 的 品牌规范, 配合其他 skill, 就 能一键把本地文档改造成符合规范的 ppt 视频,甚至是个网页。那参考这个思路,做一个符合你自己公司品牌规范的 skill 年终数值 ppt, 那 不是手拿把掐? 现在网上已经出现了超级多 skill 集市,可以直接搜索你需要的技能,也能随便刷刷,获取很多灵感,让通用的 a 整熟练调用好几个不同的技能,这才是二零二六年最流行的 ai 使用方式 安装教程。 a p i 文档技能市场链接我都整理好放在评论区了,欢迎来评论区提问或者分享你的经验,我们下期视频再见!

这几个词你认识多少?这几个词你认识多少?这这这几个词你又认识多少?如果你全都不认识,那么恭喜你来对了地方。今天这期视频,我就为你扒开所有这些唬人概念的底裤。你会发现,所谓智能体,就是所有不需要智能的部分构成的部分。 skill 就是 新瓶装旧酒的一场名词诈骗。最后呢,我还会告诉你一个通杀现在所有甚至未来可能出现的新概念的统一方法论,让你瞬间秒懂。哎,这好像是个语病,但这不重要,现在你只需要清空大脑,忘掉你所有知道和不知道的概念,跟我一起进入梦境。 整个混乱的起点就是这个古老的语言模型。小的语言模型,一开始呢,还是个智障,但随着模型的参数越来越大,居然在某个临界点涌现出了智能。那为了和之前这个智障模型做个区分,你在前面加了个大字,这就构成了现在常说的大语言模型,简称 l l m。 恭喜你发明了今天的第一个新词儿。 大模型本身只能做文字接龙,就是不断输出下一个字,但如果只是这么用的话,看起来仍然像个智障。那如果把角色区分一下,人为划分成一问一答两个角色,就实现了第一个有点智能的使用方式对话。 现在呢,我不管你是什么身份,立刻把自己想象成一个老板, l 就是 你的员工,我们就叫他小 l 吧,只不过他服务你的方式有点特别,只能一问一答,然后就结束了。不能追问,不能追问,这个非常重要,后面要考, 那接下来的任务就是你要想尽办法压榨这个只会一问一答的小 l, 榨干它的全部剩余价值。那你会怎么做呢? 不过先别急,你先给自己每次和小 l 的 对话起了个洋气的名字,叫 prompt。 恭喜你发明了今天的第二个词。然后你还发现,这部分内容还可以进一步区分,有的部分是背景信息,有的部分是最终的指示。于是呢,你把背景信息的部分单独起了个名叫 context 上下文。那恭喜你发明了今天第三个词。 同时,有的时候你需要对小娱进行追问,但是呢,刚刚说了他只能一问一答,不能追问。但是你想了个巧妙的办法,就是每次沟通前把你们之前的对话历史放到 context 部分作为上下文信息。 然后呢,再给出你的问题,伪装成多人对话。然后你又迫不及待给这些特殊的上下文信息起了个新词,叫 memory, 意思是大模型的记忆,这些 memory 还可以再次调用大模型进行总结,从而对他的记忆进行压缩,进而减少上下文的长度。恭喜你,一不小心就已经发明了四个新词了。 此时,一个原本只能进行词语接龙的小 l 就 成功被你玩出了可以对话并且可以不断追问的优秀牛马员工了。 当然,不久之后你就不满足于现状了,你发现的第一个问题就是小儿没有上网查阅资料能力,要么就不知道,要么就胡说八道,说的内容都是些过时的消息。不过这很简单啊,给小儿准备一台电脑不就可以了? 不可以!还是那个问题,小 l 本身只会词语接龙,其他任何逻辑都无法独立完成,那怎么办呢?好办,你就告诉小 l, 如果你需要上网搜索资料的话就告诉你,然后你帮忙查完资料后再给他不就行了?但很快你就发现,这样好像显得自己有点蠢,到底谁才是牛马呀? 于是呢,你把上网这部分逻辑写成一段程序,让这个程序去代理你和小 l 进行沟通,并且完成搜索的任务。 在外人看来,你仍然是一问一答就拿到了结果,只不过面向的是这个神秘的程序了。太妙了,这个发明可不得了。这个神秘的程序似乎本身就拥有了智能,而且还是能操作工具的更高级别的智能。你给他取名叫智能体 agent。 你 可能觉得写多段程序不是看起来很简单吗?怎么敢叫这么科幻的名字?哎,千万别有心理负担。一些早期所谓的智能体,其实现逻辑仅仅就是多加了一段 prompt 而已,那从现在的视角回看,当时简直就是一种诈骗。 回到这里,既然这个 agent 能上网搜索内容了,那是不是也可以增加个搜索本地文档或数据库的能力呢?可以的,只不过搜索方式和传统数据库不同。要使用向量数据库把语义相近的片段找出来。 那你给这种通过语义匹配向量化的信息,并将其加入上下文,以增强生成内容的可靠性的办法,叫做解锁增强生成 retrieve augmented generation, 简称 r a g。 那 刚刚这个联网搜索也起个名字叫 web 测试 算了, drop the web just search。 这样呢, scope 显得更大一些,连 r a g 也算是 search 的 一种了,都属于获取模型参数以外的信息的能力。好了,现在看看你造的孽吧,这么一会功夫,已经发明了八个新词了,当然了,好戏还在后头呢。 好了,现在的整体架构就是你和小 l 中间隔着一层 a 阵的程序,并且处理一些小 l 无法操作的东西,包括刚刚的搜索,以及还可能出现的其他各种工具的调用。 但这就有个问题,我们聚焦于 agent 和大模型的对话过程来看,而如果这部分一直用自然语言来沟通,那这个 agent 的 代码可不好用程序来实现呢,鬼知道大模型会怎么描述自己的需求呢? 所以最好有个约定,让大模型按照指定的死板的格式来回复,比如说 jason, 这样呢,程序就能直接很方便的解析了。那你给这种 a 阵呢,和大模型之间关于工具调用所约定的对话格式叫做 function calling, 其实呢,就是个约定罢了,就好像开发的时候前端和后端约定这个接口格式一样。 好了,我们再看看右边这些工具的实现,现在是写在 agent 的 主程序里面的,没有跟核心功能结偶。那如果是单独写成一个服务,那么 agent 的 主程序如何发现并调用这个服务,就又需要一套约定的规范了。比如说约定好 toos list 的 方法就是返回工具列表, toos 框方法就是调用具体的工具等等, 也就是一套约定而已。那你给这边的约定也起了个名字,叫做 mcp, 翻译过来叫模型上下文协议。 而至此,架构就变成了这个样子,此时大模型就像个只会说话不会做的智者,而 m c p 服务就是能提供各种工具的程序级。中间的 agent 就是 个传话筒,把大模型的话转换成调用工具的代码,把工具调用的结果再原封不动的传话给大模型。 同时呢,别忘了还要给你这个老板传话,主打一个,我不生产信息,我只是信息的搬运工。现在我们聚焦于 agent 和你的对话之间。 虽然最底层肯定还是文字,但是交互形式上可以非常丰富多彩,可以是像 c l i 一 样的命令行窗口,也可以是一个编程 ide 工具,还可以是一个更为通用的桌面助手,比如说最近爆火的 cloud bot, multi bot, open cloud, 当然这仨是一个东西。 这里说句题外话,我感觉 cloud code 这个名字起的实在太失败了。一开始呢,好多人认为它是个大模型的名字,但其实它是个编程 agent。 现在呢,好不容易大家接受它是个编程 agent 了,但其实它早就走上了通用 agent 的 道路。我感觉要是名字起好了,就没现在的 cloud bot 什么事了。 当然, collab 的 爆火和它的自身的很多设计有关,如果本期视频的点赞过亿,我将会专门出一期视频讲讲它。不过不论什么形式的智能体,都有一个统一的缺点。假设我们想完成这样一个任务,从一个英文 pdf 文档当中提取内容,翻译成中文,最后保存成 markdown 格式。 当然,你可以直接把这个需求描述给 agent, 让他自己策划整体的流程。但是如果这个流程相对稳定,每次重新让 agent 自由发挥的话,不但不稳定,还非常浪费 token。 比如说,整个流程中,提取 pdf 和保存 markdown 这两步完全可以固化成固定的脚本,中间的翻译直接和大模型沟通即可,整个流程就不需要任何一个中间的智能体插手了。 要固化这样一个流程,你可以通过编程的方式来实现。为了方便编写这种列式的任务,你又发明了一个新的编程框架,起名叫 linchang。 呃,为了照顾非程序员用户,你又发明了一种低代码的方式,就是在页面上傻瓜式的拖拽,上手难度更低。你给他起个名字叫 workflow 及工作流。 但是还有个问题,假如这个问题我们再变一下,比如说处理原始文档,不只有 pdf, 还有可能是 word 文档、 txt 文档、 ppt 等,然后输出的格式也可能是 html、 pdf, 甚至是一张图片。那么难道你要给这些所有的排列组合都写一套工作流吗?这显然是不合适的。 当然了,你也可以写一堆 ifelse 做判断。但如果你仍然希望用户是以自然语言的方式触发这个任务,不牺牲这个体验,这个时候就又不好用程序来判断分支了。那该怎么办呢? 你可以这样设计,准备一个目录,把所有可能涉及到的转换脚本全都写好放在这。然后呢,写个统一的说明文件,把整体的流程描述清楚,并且告诉 agent, 根据文件的格式灵活选举指定的脚本。 然后呢,再给 agent 下达任务之前,加上这么一句话,先读取刚刚我们写好的那一大串要求,然后再按照要求完成任务。这样整个过程就既保证了一定的灵活性,同时呢又变得比较可控。 但是这不就又来了优化空间吗?我可以提前约定好某个指定的位置,然后呢,在 agent 中写死一段程序去读取这个位置的 skill 点 m d, 还是相当于把这句话固化成了一段程序,这样呢,就不用每次都加这么一句废话了。 虽然你也知道这破玩意好像就是把提示词换了个地方存起来,但想想还是给他起个新名字吧,就叫做 skill, 即 agent 的 技能。好家伙,这是往游戏里的英雄方向设计的呀。 好了,现在这个 agent 已经被你弄成这个鬼样子了,你又发现,对于一个复杂的任务,可能 agent 的 上下文会变得非常大。于是呢,你又发明了个新概念叫 sub agent, 对 于一些独立的子任务,可以单独在这个子 agent 中完成,其实本质上就是做了骂上下文隔离子 agent 产生的上下文不会保留在主 agent 中,仅此而已。行了,再好好看看你造的这些孽吧。 最后呢,我想尝试高屋建领的梳理一下这些概念的关系。这里的每一个新概念出来的时候都有大飘的文章,极其夸张的吹捧和营销。但是在我看来,这些概念的设计说的不好听点就是有点拉垮,说的好听点呢,就是技术发展的中间产物。 不过在这之前,我们先看两个经典的容易混淆的问题。在 m c p 刚出来的时候,很多人问方声 call 林和 m c p 有 什么关系啊?呃,其实刚刚这张图就很清晰了,一个是 agent 和大模型沟通的约定,目的是让大模型回答的符合一定的格式,方便程序进行解析。 一个呢,是 agent 和工具服务之间调用的约定,目的是像接口文档一样,约定怎么调用,怎么传餐,怎么接收返回值等等。这俩完全不搭嘎,甚至有人问是否 mcp 能够取代防神拷令呢?这也是无稽之谈。 在 skill 刚出来的时候,也有人问 skill 和 mcp 有 什么区别, skill 其实就是个 prompt 加载器嘛,唯一需要的文件就是 skill 点 md, 其他的不做任何要求,和 mcp 也不是一个维度的东西。 不过 skill 是 否能取代 m c p 呢?我认为是可以的,因为你可以把 m c p 服务中提供的工具通通放在 skill 的 目录下,并且在 skill 点 md 文件中说明是如何使用的,而且特别常用,通用的小工具未来通通都会内化在 a 帧的主程序中,所以目前看 skill 稍稍有些鸡肋。 不过拿 skill 和 m c p 比本身也不搭嘎,不是一个层次上的事,它其实更应该和这几个词作比较。那我把这个顺序成为从刚性到柔性,从稳定到变化, 它们的目标呢?其实都是一个需要多个阶段才能完成的任务,使用 linche 就是 纯编程的形式来实现,全是硬编码,虽然特别稳定,但是也失去了一定的柔性,很难包容一些小问题。而 workflow 只是把程序替换成了 d 代码的拖拽,相对改起来的容易一些。 呃, skill 就是 把 linchang 和 workflow 这种由程序控制的流程走向变成了由智能体自行控制, 但是呢,提前写好了一些说明文档和直接可运行的脚本存在一定灵活调整的空间,同时呢,又不至于变得特别不可控。而最后的纯 a 帧的形式最为柔性,因为它可以随时根据自己的判断进行调整流程,甚至需要的时候自己给自己生成个脚本来运行。 但同时这也造成了容易变得不可控,你不知道它中间会给自己写个什么脚本,把一个原本非常简单的任务变得非常复杂,所以这条线我认为是它们宏观上的一个区别。至于 skill 的 间接式批漏啊,按需加载啊,我认为只是它的一个特性而已,而这个特性也会在未来 token 变得越来越便宜之后变得有点鸡肋。 对于普通人来说, skill 兼顾着灵活性和稳定性,我认为呢,会逐渐淘汰掉 m c p 和 workflow。 m c p 就 像刚刚说的常用的工具,我认为会直接内化到 agent 的 主程序中,或者在未来的基础 skill 包中存在比较积累。 而 workflow 这种既不如 lincoln 一 样适合程序员,也不如 skill 这样更适合我们普通人,也属于一个比较鸡肋的存在。当然, skill 我 认为本身也是个中间产物,未来呢,一定会有更方便的形式出现,让所有人都可以很符合直觉的无脑使用。 然后我想再从最本质的角度说说这些技术,其实所有的这些技术最终还是离不开大模型和我们之间的提示词。 呃,这些技术呢,无非就是帮助我们自动地往提示词里面增加上下文信息,比如说 search, r a g, skill 等等,都是把一堆内容塞进了上下文,或者通过代理的形式帮助我们减少和上下文沟通的次数。 为什么开头我说 agent 呢?是所有不需要智能的地方构成的部分呢?就是说一个流程当中,所有能用固定的程序来解决而不需要问大模型的地方,就是 agent 的 发挥作用的地方。其实就是把模糊的分流逻辑交给大模型,根据语义识别出用户想做 a 还是 b, 把确定的分流逻辑交给程序,比如说 pdf 提取文本,那最终的目标都是节省人类的时间,降低人类的使用门槛罢了。 但是现在还有个最大的问题就是头盔实在是太贵了,越是强大的自己,能默默处理问题的 agent, 背后消耗的头盔就越大。但我觉得这在未来或许不是问题,因为头盔一定会越来越便宜,甚至等到什么时候,一个生产级别的大模型可以轻松部署在一台普普通通的电脑上的时候,头盔就相当于免费了。 由此我又想到了 java 领域的 spring boot 和 python 领域的 uv, 你 会发现这两者都是将开发者的便利完全放在第一位。什么运行速度快不快?包的体积大不大?是不是浪费内存空间或者磁盘空间?这些问题最终和使用的便利性相比,几乎都是瞬间被秒杀了。 程序员尚且这么怕麻烦,而在 agent 的 领域,我认为更是如此,因为他面向的是普通人,不可能让普通人去把什么 skill 放到指定的目录下去,配置什么 m c p 服务,甚至配置哪个大模型的 api key, 这些呢,都会被一个较为便利的产品淘汰掉,比如最近的 cloud bot 为什么这么火啊?除了一些营销因素以外, 难道它和 cloud code code x manage 这些 agent 有 什么本质区别吗?完全没有,就只是因为它能连接社交软件,能够配置定时任务,有个页面能看到 skill 并管理它们。第一次让普通人觉得它像一个智能体,而不只是躺在电脑上的一个服务了。 那未来究竟会是什么样呢?我认为只要是提供便利的方向就是趋势。比如未来我认为一定有一个打包好的超级 a 枕的配置好了,所有常用的 m、 c, p 啊、 skill 啊等等乱七八糟东西,甚至已经不叫这个名字了,普通人啥都不用,配置也能直接使用起来。 好了,本期视频就到这里,看在这么长的份上,能不能给我个三连呀?

最近 agent skill 这个词在 ai 圈,尤其是在 ai 编程圈子里面特别火,它最早是由 cloud code 的 母公司 ansorepic 在 二零二五年十月份提出来的,因为效果太惊艳,现在各大顶尖 ai 编程工具,比如说 cursor codex, anti gravity 以及字节推出的 tree 都在第一时间进行了适配。由于 tree 对 国内小伙伴没有什么使用门槛, 而且它非常全能,能够兼容几乎所有的大模型,尤其是它上手极快,支持一句话,创建技能。所以本期视频我就以 tree 为例,给大家做一个详细的讲解,包括 skill 到底是什么,怎样在 tree 中创建 skill, 以及我们普通人可以用 skill 来做什么具体的事情。最后还有跟大家推荐一些非常好用的 skill。 首先跟大家讲一下这个 skill 到底是个啥?举个通俗易懂的例子,假如你把 ai 当做你刚招的 skill 到底是个啥?举个通俗易懂的例子,假如你把 ai 把写文章的 prompt, 也 就是具体要求和注意事项强调一遍,而使用了 skill 之后,你就可以把写文章的规则要求封装到一个 markdown 文档里面,你只需要告诉他写什么主题, ai 就 可以自动从 skill 中获取文章写作的要求。所以说 skill 要解决的核心问题就是让 ai 彻底告别间歇性失忆。有了 skill, 就 像是给 ai 装了记忆,你只需要告诉他想做什么,他 就能够自动调取写好的技能包,按照你的流程瞬间搞定。那这本给 ai 准备的操作手册在电脑里面长什么样子呢?其实它本质上就是一个普通的文件夹 里面最核心也是唯一必须的文件叫做 skill 点 m d, 你 可以把它理解成这本手册的核心,大脑里面清清楚楚的写的这个技能叫什么,什么时候触发,以及具体的执行步骤。如果你想让这个实习生表现的更加专业,你还可以往文件夹里面塞几个附件包,比如说在 examples 文件夹里面放几篇满分范文给 ai 参考,或 或者是在 resources 文件夹里面放一些复杂的背景资料和自动化脚本。所以 skill 的 结构其实非常简单透明,它就是把你的经验打造成了一个标准的知识包,只要把这个文件夹交给 ai, 它就能够瞬间读起并掌握这项新技能。那怎样在翠中创建 skill 呢?主要有三种方式。 一种方法最为简单,就是直接白嫖其他人分享的 skill 技能,你可以去 github 找到各种大牛写好的 skill, 把包含 skill 点 m d 的 整个文件夹下载到本地,然后在 tree 的 设置里点击规则和技能,选择创建并导入文件夹就可以了。第二种方式是对话式创建,也最适合小白用户。首先打开 tree 的 solo 模式, 然后你只需要像平时聊天一样对翠说,帮我创建一个检查代码性能的 skill, 真的 只需要一句话,翠就能够自动理解你的需求,帮你把名称、描述和指令瞬间生成好。 而且最方便的是,翠的内部就集成了很多非常专业的技能模板,我们直接调用就可以了,完全不需要再额外下载或者是配置任何复杂的环境。第三种方式适合动手能力强的小伙伴,那就是手动创建,直接在标准的 markdown 模板里面填写技能名称、出发条件和详细的操作步骤。 简单的 skill 其实只需要名字和描述就能够跑起来,复杂的流程还可以慢慢的往里面加具体的执行指令。无论你是直接导还是想自己写,核心都是为了给这个实习生立规矩,让他彻底变成最懂你工作习惯的专业助理。 学会了创建,那创建好的 skill 到底该怎么用呢?有两种姿势,第一种叫做显性调用,也就是点将法,当你想要精准控制输出结果时,直接告诉翠用哪个技能,比如说用 用周报大师帮我整理一下工作,或者用小红书分身写一个文案,这时候翠就像接到命令的专家,严格按照你设定的流程干活。第二种更高级,叫隐性调用,你只要在创建时把什么时候用写清楚,比如 skill 的 出发条件是用户要求写复盘,那下次你随口问一句,看看我这周表现怎么样, 就能够自动识别并瞬间激活,这个技能完全不需要你指定。虽然 skill 是 ai 编程工具中的功能,但它的应用场景远不止写代码。对咱们普通打工人来说,只要你的工作有规律有模板,它就是你翻倍提效的秘密武器。 比如说你可以用来做下面几种事情,第一个是职场提效,写周报复盘,再也不用发愁建个周报大师技能,把模板和语气存进去以后,随手甩一段白话总结,翠就能够秒出一份专业报告。 面对几十页的 pdf 或者是乱码表格,你不需要记住任何复杂公式,调用数据分析技能,它就能够自动完成清洗和分析,直接给出你要的答案。第三个是标准化创作,不管是小红书的爆款逻辑,还是回邮件的固定语气, 都能把要求通通打包,以后每次调用的效果都像你亲手写的一样稳。说白了,这就是把经验变成自动驾驶,只要你想把专业知识沉淀下来,它就是你最强的全自动助理。 最后跟大家分享几个可以找到优质 skill 的 地方。首先要推荐的就是 osropic 官方维护的这个 skill 开源项目,目前已经收获了四万五千多个 star, 这里面的 skill 覆盖了非常多的类型,比如创意设计类、开发技术类、企业沟通类,以及最实用的文档生产类, word、 ppt、 excel、 pdf 这一整套全部都给你安排上了。 其次再跟大家分享一个专注分享 skill 技能的导航网站,该网站目前已经收入了七万多个实用技能,它把公开的 skill 做了搜索和分类,量非常大,适合找冷门场景。

最近 skills 很 火,请你说一下你理解的 agent skill 是 什么?好的面试官,那我首先来说一下 agent skill 是 什么?那如果用一句话给它概括的话,就是给我们的 ai agent 赋予一些可赋用可组合的能力模块, 我们可以把它理解成给 agent 呢,配备的一个工具箱或者是技能包,让 agent 不 仅能够去思考,还能真正去干活。那传统的 agent 可能只能靠 prompt, 我 们来去引导他做事,但这种方式有个问题,就是每一次都要在 prompt 里面写一大堆指令,而且很难附用。 agent skill 就是 把这些能力标准化、模块化的封装起来,需要的时候 a 站就能按需加载和调用。那 skill 具体包含什么呢?一般会有三个部分,第一个就是知识和指令,就是告诉 a 站这个技能是干什么的,怎么用。比如你做一个 github 代码的一个分析的 skill, 里面就会有一个 skill 的 文件,详细说明这个技能的功能,使用场景,使用步骤,这个就像是给 agent 的 一个使用说明书。第二部分就是工具和脚本, agent 光有知识还不够,还要能够实际执行,所以 skill 里面会包含一些可执行的脚本, api 的 调用方法,甚至是一些代码片段。 第三部分就是视力和资源,会提供一些使用的视力,让 agent 知道在什么情况下能够用这个技能,可能还会包含一些配置的文件、数据模板这些辅助资源。那 skill 跟我们之前说的 function calling 到底有什么区别呢?其实 function calling 它是能够让 agent 去调用一些外部的工具,比如调用一个天气的 api, 查一个数据库,它更像是一个单次的动作, 你告诉 agent 有 这个函数, agent 需要去调用。但 skills 的 范围更大,它不仅包含工具的调用,还包含一些领域的知识,工作的流程、最佳的实践这些。 那打个比方, function call 就 像是给 agent 的 一个锤子,告诉他这是锤子,是用来敲钉子的。而 skill 像是给 agent 一个技能包, 这里面不光有锤子这个工具,还有怎么去看图纸、装修的流程,遇到这种情况该怎么处理,这些经验和知识都会包含在内。 skills 的 另外一个核心价值就是可赋用和可组合。 你设计好一个 skill 之后,可以在不同的 a 阵之间进行共享,而且 skills 可以 组合使用一个复杂的任务,可能需要 a 阵,同时使用网络搜索数据,处理报告,生成这几个 skills, a 阵就会根据任务需要动态去编排这些技能。就像人类工作一样,我们会根据项目需要调用自己掌握的多项技能。

a a 现在真的能帮我们提效吗? agent skill 或许就可以。最近爆火的 skill 呢,在 a a 里面掀起了一股浪潮,那到底什么是 skill 呢? 它就好比我们人类学的一个技术一样,比如说呢,一个美发师,它就会有这个理发的技能,染头的技能,烫发的技能等等。这个理发的技能里面啊,它就包含了你的呃流程,比如说洗头,围布,沟通,开始修剪, 还有工具里面有剪刀呀,电推剪呀,夹板,卷发棒等等知识呢,就是理发师平时怎么剪,如何打磨刘海,怎么去修饰脸型。规则呢,就是顾客的礼仪,还有理发师的行规。 以上呢,连在一起就成了理发师的技能。同理呢, ai 的 技能呢,也是这样,比如我们以前呢,需要给他很多的呃提日词,要求行业流程等等,而且需要不断的跟他去产生对话。那现在呢,有了这个技能,我只需要像理发一样,把我要的技能呢写进去, 这样我在让大模型干活的时候呢,只需要点一下这个技能就可以了。那这个技能怎么做呢?我们可以在扣子中使用,之前用过的小伙伴都知道,搭建智能体,搭建工作流 都可以用扣子搭建,那这次升级之后的二点零扣子简直太好用了。拿我以前的日常运营工作为例啊,当有一个新的产品要宣传的时候呢,我们需要朋友圈去预热一下文案, 还有运营文案,预热海报图片,新品发布会的 ppt, 你 看这一系列的宣发物料啊,这一套下来,一个运营团队真的要准备好几天,我们打开扣子,在扣子的编程创建技能提日词的模板,公式是这样的,我们把要求呢填到这个提日词中,需要呢,他给我们提供 预热的文案,运营的文案,海报的图片,新品发布的 ppt, 点击一下生成并部署起来,完成之后呢,我们感受一下效果怎么样,输入产品的名称和产品的特点, 点击生成喝口水的功夫,就生成了这种朋友圈的预热文案,你看种草文案,还有两张设计好的宣传海报, 海报上的各种关键信息都没有被遗漏,还有这个产品的宣传 ppt 上面的文字呢,还是可以去修改的,我们把这个发布会呢改成宣发,哎, 一下子就改好了,完成度呢相当的高,下次呢,只要你选中这个技能,它就会自动触发,而且呢,在后续的使用过程中呢,我们还可以随时的去升级迭代,这样你的技能会越变越强。那有的朋友呢,可能自己没有什么 sop 哎, 扣子里的技能商店啊,都给你准备好了,你都可以在这个里面呢去一键调用行业大佬的专业技能。 扣子这次升级之后呢,他还出了一个长期的任务功能,不用你每天再去提醒了,也不用你去做任何多余的动作,他就会每天按时自动,不知疲倦的去执行。以前呢,我们要学技能,去适应工作, 在呢 ai 呢,把工作变成了技能,这才是 ai 时代正确打开的方式,记得点个赞,收藏一下,我们下期见。

用一张图讲明白什么是 agent skill, 爸妈都能听懂的版本。那我们以这样的一个人物为例,其实我们很多人去纠结的是 agent skill 和大模型的关系到底是什么?我们画了这样的一个人物图, 其实我们理解的这个大模型也就是 l l m, 它其实相当于是这样的一个人的大脑,大脑它有非常多的知识,它有很多问题能够帮你去回答。这里面我们最常用的豆包啊,或者千万其实是调用这样的一个大模型。 但是这个大脑他虽然很聪明,但是他没有手和脚,他没有构成一个完整的人,一个完整的人他是有手有脚,我们会把这样的一个能够有聪明的大脑,并且有手有脚,能够完成具体任务完整的人,我们可以把他理解成一个 agent 的 概念。所以为什么大家都会讲 agent 其实是一个智能体的概念, 那这里面他的手和脚其实是怎么来的呢?我们通过一些 m c p 方式给他去装上了这个手或者脚这样的一个人,他又有聪明的大脑,他又有完整的手和脚,他其实是可以像人类一样去完成很多复杂任务的, 那这个里面其实就会涉及到这些复杂任务怎么去完成,这个里面就会涉及到 skill 的 概念。其实我们可以认为 skill 就是 我们给到这个智能体这个完整人去完成确定任务的一个超长的提示词,我们是把提示词变成了一个文档格式, 那他会根据这个 skill 去完成各项任务。举一个例子,比方说我们想让他去倒水,这个例子里面就会包含说你需要去用到你的手去拿起水壶,然后把这个水倒到杯子里面,他有会有非常多的复杂任务。举个例子,比方说我们希望这个 a 阵去打酱油,那打酱油他其实不光是用到手,他还需要用到 脚,它甚至还需要用到嘴去砍价。那这个时候智能体里面它可能有手,它有脚,甚至它还有嘴,这样能力一起调用起来,让它最终根据这个任务的说明文档去完成打酱油的这样的一个任务。 所以其实非常清晰是所谓的这个 agent skill 无非是给这个大魔星手或脚,甚至是嘴,能够让它去完成更复杂的一个任务。而 skill 的 这个概念呢?其实是这些复杂任务的工作手册。好了,是不是很简单?我是小妖,我们下期见。

挑战,每天讲透一个 ai 知识点,今天是 scale 基础概念与工程定义。好,那就是第二块的话,我们要来聊一下关于这个 scales 基础概念与工程的一些定义啊。首先说一下什么是 scales, 那 这个其实很好理解啊,其实的话它就是一个这个翻译过来叫做技能是吧?就跟大家去玩游戏一样 啊,玩这个英雄联盟是吧?或者王者荣耀上面有很多技能,那么一个技能的话,哎,它可以,比如说可以打出什么效果是吧?打出什么伤害出来,那么这个技能 scale 的 话,其实也是一个意思啊,它就是要去实现某一个功能,某一个能力 啊。但是的话,我们之前用 agent 的 时候,大家会涉及到一个函数的一个调用逻辑,那么这个函数调用跟 scale 有 什么区别呢? 其实本质上还是有区别的啊,函数调用的话,它可能只是一个简单的 python 函数调用,或者说是一次 api 调用啊,这个叫 function calling, 那 么 scales 的 话,它不只是能够做函数调用, 它还可以帮你去做一些这个提示词的一些限定啊,它里面有几部分组成,首先的话就是一个核心的 scale 点 md 文件,这个相当于我们要用这个技能的一个说明书啊,这个很好理解, 就比如说大家去玩这个英雄联盟是吧?那这个技能它带来的一个效果是什么啊?比如说伤害是多少?然后这个,哎,这攻击范围是多少? 那么这个技能的话,它得有一个说明书啊,就描述它的一个场景步骤,注意事项是吧?这些最基本的东西咱们得先描述清楚啊,然后是这个 script 啊,叫脚本代码。 呃,我们这个技能的话,它除了可以调用大模型帮我们去做内容的一些生成,是吧?然后它还可以去执行一些脚本, 这个的话就相当于啊,我们 agent 啊,为什么叫 agent scales 呢?就是这个单一的这个 scales 的 话,它是没办法执行的啊,它是需要 agent 去驱动它去做一个执行的,比如说我想要调用本地的这个 python 那 个脚本,那我这个需要用到 scales, 是 吧?去做一个这个执行, 所以说它脚本这一块是它的一个非常重要的一个模块啊。当我们去完成一些复杂的一些任务的时候,我们往往需要用到 script 脚本啊,然后是这个 reference, 呃,这个是相当于一个参考文档啊,我举一个例子啊,就比如说大家,呃,你要做一个会议总结,是吧?然后会议总结, 那它总结的一些是按什么样一个规则去做一个会议总结的?比如说大家去开一个技术会议, 那么公司里面肯定会有一些技术的规范,是吧?那么整体的一个架构的一些规范,那我们如果开的是一个技术的会议的话,那相关的一些会议总结的话, 比如说提到这个开发规范,是吧?设计的一些规范,那肯定要参考公司的一些这个设计方面的一些规范文档,还有包括技术方面的一些文档。 比如说我们开的是一个财务相关的一些会议的话,那我们的这个参考文档的话,也应该有公司的一个财务的制度,是吧?所以说这个 reference 的 话,就是我们这个技能,它需要执行的时候, 它需要参考的一个文档啊,就跟我们人需要去完成一个任务的时候,哎,大家在公司里面干活,你得去参考公司的一个规章制度去工作,是吧?所以说这个参考资料就是用来给 agent 去引用这个文档的。 但是有同学这里可能会有一个疑问啊,就是我这个把这些个文档全部写到提示词里面不就行了吗?我还为什么需要用到这个 reference 这么个东西呢? 哎,这里就是 agent 啊, scales 它的一个非常大的一个优化啊,我们等下会讲到啊,它是一个渐近式加载机制,也就是说它在执行任务的时候,比如说你现在文档有一百多个,我不可能把这一百多个文档,比如说有一百多兆,我不可能把这一百个文档 全部一次性放到提示词里面去,是吧?这放不下呀,因为上下文窗口是吧?大模型的上下文窗口,比如说是四零九六啊,是四 k 或者是一百二十八 k 啊,总之是有限制的,不能无限去放,是吧?所以说文档如果很大的一个情况下的话,那一次性加载进来的话,耗费的 token 就 会非常多啊,这个直观的一个影响就是我们的调用成本就会非常高,所以 skills 就 解决了这个成本的一个问题啊,它不需要你一次性把所有的文档啊都加载到 token 里面去啊,就加载到整个上下文里面去,每次调用都要带上这些文档,它而是用到哪些文档的时候它就加载哪些文档,这样就避免它成本上面的一些消耗,是吧?就节省了我们的这个 token 嘛,对吧? 成本就给它省下来了,所以这个是它一个非常大的一个优化啊。好,这个就是 scales 它的一个非常核心的三部分组成啊,当然外面的话会有一个目录啊,一个 scales 的 一个目录文件夹,当然这个 scales 我 们可以放多个,是吧?比如说技能一、技能二、技能三,你可以建多个文件夹, 然后每个文件夹下面都有对应的这三个。呃,文件或者目录啊,当然不一定需要 reference, 不 一定需要 script, 但是 scales 点 md 文件是必须的啊,这个是说明书,另外两个的话是可选的啊,这个就是 agent scales 的 一个基本的一个组成啊,这个大家要清楚啊。 好,然后这个是一个文件结构的一个描述啊,大家要有一个印象啊,就是我刚刚提到的这几块是干嘛的, 我们再来做一个总结啊,这个 scale 点 md 的 话,就是这个技能的一个说明书啊,它主要就是用来描述整个我们技能是用来干嘛的,用在哪个场景,然后需要有一个什么步骤,需要有个什么注意事项啊?这个就类似到咱们大脑皮层的一个决策逻辑, 那么脚本的话就是一个可以被执行的一个逻辑啊,就是这个,比如说我们要跑一段 python 代码,是吧?我们要跑一段 js, 这个就相当于我们要做具体工作的时候要执行的一个脚本 啊。 reference 我 刚刚也讲到了啊,这个说白了就有点像这个知识库,是吧?我要去做一个参考啊,就 agent 干活的时候,我要去参考一些资料啊,那我这个资料里面我可以放 txt 文档,放 jason, 放这个,呃,一些 markdown 文件是吧? 一般建议是纯文本的啊,所以我们需要这些个知识库啊,存到这个目录里面,所以大家首先要做一个基本了解啊,那么 agent skills 的 话, 它不是一段简单的脚本啊,它是一套 sop 啊,标准作业程序加上工具,加上这个知识库啊,整个是一个组合的一个概念啊,所以大家首先要对这个概念的话要有一定的这个认知。 ok 啊,那为了方便大家理解的话,我这里举了一个例子啊,大家看一下这个图, 那么这个图的意思就是我们按照这个比较啊,首先的话,这个 commands 啊,就是我们这个命令,我们就举个例子啊,比如说我们现在 要去按一下,对吧?用一下这个微波炉啊,然后用这个一键解冻这个功能是吧?这个快捷指令, 然后对应到这个咱们的 m c p 工具里面的话,哎,这个就有点像厨房的这个刀具,是吧?然后切菜的一个工具,然后通用性强,需要人去指挥啊,就我们单一用指令去做的话, 就比较死板,比较单一啊,然后用了 m c p 这个工具之后的话,它的通用性比较强,但是还是需要人来指挥的啊。可能有同学不知道什么叫 m c p 啊? m c p 的 话是,呃,新出的一种啊,叫做模型上下文的一个协议,它解决什么问题呢?解决的是 大模型时代各种接口数据接入的一个问题啊,大家都知道 usb 吧, usb 接口解决什么问题?它解决的是电脑的各种设备接入的问题是吧?比如说我键盘、鼠标,各种各样,只要支持 usb 协议的话,都能连接到电脑被识别。 那么 m c p 解决什么问题呢?它解决的是我们大模型,我要去访问各种 api 工具,是吧?访问各种一些本地的一些文件啊,我都可以通过 m c p 协议去接入啊,因为它是一套标准的协议,只要你的 m c p 服务器实现这些功能,我都通过这个 m c p 客户端的方式可以接入进来。所以 m c p 就 相当于 电脑时代的这个 usb 接口啊,它可以接入各种各样的一些服务。 ok, 那 么 scales 对 比 m c p, 它又解决什么问题呢? 它解决的话就是类似于咱们的一个啊,我这举个例子,就是一个菜谱前面这个按钮啊,就这个快捷指令,它可能是一个按钮的功能, m c p 它就相当于厨房里面的刀具,那么 skills 的 话,它就相当于菜谱,它的功能就是要去解决 标准的 sop 的 一个问题啊。比如说大家要去做一道菜的话,你首先得知道这道菜的一个步骤吧,然后火候,包括用到的一些刀具,各种细节的一些这个 细节,是吧?你都要去注意好啊,它的一个特点就是流程化,然后自动化去做一个驱动。所以啊,大家理解这几个点的一个区别, m c p 的 话,它解决的只是一个工具的调用的一些问题,数据的一些连接问题。但是 scales 的 话,它是一套标准的流程啊, 这是有本质上的一个区别的,这是大家要搞清楚啊这个区别,因为,嗯,大家后面的话你可能也会用到 m、 c、 p, 也会用到 scale, 但是我们一般大家可以把它结合起来用 啊,所以说大家一定要知道这个区别。 ok, 然后下面这个文档的话啊,我就不念了啊,大家可以看一下,就是我刚刚讲到的啊,据说要搞清楚它的一个底层逻辑, scales 的 话,它解决的是一个复杂的业务逻辑闭环的一个问题。

你还在被 l l m agent、 m c p skill 这些 ai 新名词搞晕吗?没错,这些概念就像 ai 界的黑化,让人摸不着头脑。别担心,今天我们用三分钟帮你彻底搞懂,让你在 ai 圈不再迷茫。 首先来说说 l l m, 也就是大语言模型,你可以把它想象成 ai 的 超级大脑,它能思考,能理解,就像我们人类的大脑一样。对,比如说,你让 l l m 帮你写一篇文章,它可以轻松完成,但你让它帮你打开电脑上的某个文件,它就做不到了。 这时候就需要 agent 出场了。 agent 可以 理解为 ai 的 执行小助手,是连接 l l m 与外部世界的中间层,它就像我们人类的手脚,负责执行大脑下达的指令。 那 m c p 又是什么呢? m c p 的 全称是 model context protocol, 也就是模型上下文协议,你可以把它想象成 ai 的 通用接口标准,它解决了模型与外部系统连接的碎片化问题。 打个比方,以前不同的模型和外部系统之间,就像不同品牌的充电器和充电接口一样,无法通用。而 mcp 就 像是统一的 usb 接口标准,让不同的模型和外部系统都能通过这个标准接口进行连接和通信。 最后再来说说 skill。 skill 可以 理解为 ai 的 专业知识包,它封装了特定任务的 sop 方法论和最佳实践,就像我们人类的专业技能一样,比如医生的诊断技能、律师的辩护技能。 总结一下, l l m 是 ai 的 大脑,负责思考和决策。 agent 是 ai 的 手脚,负责执行指令。 m c p 是 ai 的 通用接口标准,负责连接外部资源。 skill 是 ai 的 专业知识包,负责提供专业的执行方法。 没错,这四个概念共同构成了现代 ai 应用的完整技术战,从底层的模型能力到上层的业务落地,形成了一套协同互补的生态系统。 希望通过今天的讲解,大家对 l l m agent m c p skill 有 了更清晰的认识。如果大家还有其他关于 ai 的 问题,欢迎在评论区留言,我们会在后续的节目中为大家解答。

很多人听到 skill, 会以为这是某种高级能力或者 agent 专属魔法,但我们先把它拉回实际。 skill 本质上就是你早就会的那件事,把一件重复发生、部署、稳定、结果、可预期的工作整理成一套可以附用的做法。 你以前可能把它叫做模板、脚本、流程、 sop、 小 工具。现在我们把这些统一叫 skill, 只是为了让 agent 也能用同样的方式来工作。 关键不是名字变了,而是你开始用可附用的模块来思考工作。如果要把 skill 编成一个摸得着的东西,我最喜欢的比喻是一个文件夹。 这个文件夹里通常会放三类东西,第一,说明书告诉你这件事要达成什么目标,输入是什么,输出长什么样。第二,材料包,比如模板、视例、参考文案、品牌规范。第三,执行方法、步骤清单、检查点,或者一段脚本和提示词。 所以 skill 不是 一句我会做,而是一套别人拿走也能做的交付物。它让能力从人的脑子里搬到一个可传递的、可附用的载体里。 skill 最关键的武器其实就是四个字,按需加载。我们做工作时也一样,你不会把所有知识同时摊在桌上,你会在某个 task 出现时拿出对应的模板、规范和工具。 skill 就是 在帮 agent 做同样的事, task 来了,再把这一小包专用知识加专用流程加载进来。这样做有两个直接好处,第一, task 边界更清晰,输出更稳定。第二,维护成本更低。你改一个 skill, 就 等于更新了一类 task 的 做法,而不是指望模型自己悟。 所以 skill 不是 让模型变聪明,而是让工作变可控。我们用一个很生活化的例子,给一家轻食店做品牌物料。如果这件事每次都从零开始,就会遇到同样的问题,文案风格不统一,视觉元素乱跑,输出物料缺东缺西, 那我们就把它做成 skill。 这个 skill 的 因素很明确,店铺定位、目标人群、主打产品价格区间以及品牌调性 keywords。 它的材料包也很明确, logo 使用规范,配色与字体,几条固定的文案与期限里,常用物料模板,比如海报、菜单、设备封面等等。 流程更像一条 assembly line, 先定一句核心主张,再扩展三条卖点,再落到不同物料的版式与文案,最后用检查清单保证一致性。结果就是,不管谁来做,产出的品牌物料都向同一家店说出来的。很多人卡在这里。我知道 skill 很好,但我没时间写 sop 整理模板,这里有个省力的方法,也手写。让 ai 帮你做 skill。 你只要提供三样东西,第一,你过去做过的几个真实案例。第二,你评判做的好的省下,比如风格和规点,常见错误。第三,你希望最终产出的格式,比如一份流程清单,一套模板,一段可附用的提示词。 ai 擅长把散的经验整理成结构化的模块,它可以帮你抽共同步骤,补缺漏,把隐性规则写清楚。你要做的不是从零写,而是审核和微调,把它校准到符合你的工作习惯与质量线。那问题来了,我到底该从哪里做 skill? 答案通常不是最酷的,而是最平凡的。你可以用一个简单的判断,这件事情上是不是经常做,是不是每次都差不多,是不是出错,代价很大,或者质量波动会让你反复返工。如果是,那它就非常适合 skill 化。 因为 skill 的 价值本质是把一次次重复的脑力劳动变成一次性的整理,然后反复服用。高频工作最容易立刻看到收益,时间省下来,质量也更稳定,你还更容易把经验交接给团队。最后,我们把 skill 压缩成一句话, skill 不是 能力本身,而是把能力模块化、可附用、可按需来加载的方式。 他把你脑子里的经验变成一个可以被调用的工作包,把不稳定的临场发挥变成可控的流程。与时单纯把每次重新想变成每次直接用。当你用这种方式组织工作,你会发现你不是在追逐更聪明的工具,而是在打造一套更稳定的生产。

agent skill 和 m c p 呢?从简单的角度讲一下啊, agent skill 本质上它更偏知识实体,就是一个又一个的工具,或者一个又一个的知识库,就是它更偏实的概念。而这个 m c p 呢,它本质来讲是个协议上下边协议更 偏虚的概念,我怎么去调用,怎么跟外部进行连接?举一个比较形象化的例子,比如说餐饮行业, agent skill 是 做西餐的牛排,做西餐的烤箱实体,它怎么去把这个菜烹饪出来?大龙虾呀,鱼呀,怎么给它摆到一起?这是 agent skill 的 概念,我一个一个的技能。 mcp 呢,它倾向于供应链上这个菜市场能买到我需要的牛排,上那个菜市场能买到我的海鲜,就是这么一个概念。那么现实中是什么呢? agent skill 和 mcp, 它是互不 五的,它俩同时起作用,最后厨子就能把一道精美的大餐做出来,整体而言是一个非一不可的一个状态。 当然了,不管是 m c p 的 协议也好,还是 age skill 也好,它是工业界里边的新兴概念,当前是属于一个快速更新,快速迭代。所以说大家呢,就本着一个 open 的 心态,随时跟上工业界前沿的一个进展。

嘿,大家好,今天咱们来聊一个新东西,它叫 agent skills, 一个可能会彻底改变我们跟 ai 写作方式的玩意儿。说白了,它就是让你的 ai 真正长记性的一个强大标准。 不知道你有没有这种感觉,如果你经常用 ai, 是 不是觉得自己就像在带一个实习生,一个每天早上都会失忆的实习生? 这些痛点我猜你肯定动。你好不容易调教好的提示词,换个聊天窗就没了。团队里每个人都有自己的一套魔法咒语,导致 ai 输出的质量忽高忽低,很不稳定。 说到底,问题根源就在于,我们辛辛苦苦交给 ai 的 那些宝贵知识,根本没法被有效地存下来,然后反复使用。 但好消息是,这种效率极低的口头传达模式终于要画上句号了。一个叫 asian skulls 的 开放标准正准备从根本上解决这个大难题。 好的,那咱们就来深入看看。这个方案就像标题说的,它就好像是给 ai 真正写了一份操作手册,彻底改变了我们教 ai 学习和记忆的方式。 那么, agent skill 到底是个啥?说白了,它就像是咱们给 ai 准备的一整套岗位培训大礼包,它把完成一项特定工作需要的所有东西,比如标准作业流程、 sop 工具怎么用,需要参考哪些资料,甚至输出模板,通通打包在一起。 而且啊降技术的发展速度简直了。你看,从二零二五年十月第一次亮相,到短转两个月后就变成了开放标准,然后 open ai、 谷歌、微软这些大厂迅速跟进。很明显, agent skills 正在快速成为整个 ai 行业的一个新共识。 你看这张图,把区别讲得一清二楚。左边是我们过去那种临时的口头交代,右边呢,就是标准化的、可以永久附用的书面 o s o p。 这次升级带来的好处是显而易见的,一致性更高了,效率也更高了,而且还极大地节省了咱们宝贵的上下文空间。 好啦,光说不练假把式,咱们来点儿实际的。创建一个 skill 到底难不难?咱们就拿一个超级实用的会议记要助手来举例子,一起看看它的内部到底长什么样。 你可能以为这会很复杂,但它的结构简单到出乎意料。一个 skill 说白了就是一个文件夹,而里面唯一一个必须有的文件,就是一个叫 s k l 点 m d 的 markdown 文件。 这意味着什么?这意味着你根本不需要是程序员,只要会写文档,就能创造出非常强大的 ai 应用。 这个核心文件里头就两大部分,上面是原数据,你可以把它看成是这个 skill 的 一张名片, name 就是 它的名字。而 description 描述部分直观重要,它是在告诉 ai, 我是 干这个的,你什么时候该来找我。 下面这部分呢,就是详细的 s o p, 也就是标准作业流程,规定了具体怎么干,以及最后要拿出什么样的成果。 整个执行流程走下来特别清晰。第一步, ai 会根据你的请求去扫描所有 skill 的 名片,看哪个最匹配。第二步,一旦找对了,他才会去打开那个 skill 的 文件,仔细阅读里面的 s o p。 第三步,严格按照 s o p 的 要求去干活。最后一步,交出一份完全符合规范的成果。 好,那 agent skills 这么高效,它的秘密武器到底是什么呢?答案就是这个天才设计叫做渐进式批录,这是一种极其聪明的按需加载机制,能帮你省下大把的 token。 首先是第一层原数据,所有 skill 的 名片,也就是它的名字和描述,会在 ai 启动的时候就全部加载好。这就好像一个轻量级的技能目录,让 ai 随时都知道自己会干什么。 接着是第二层指令,只有当 ai 判断诶这个 skill 的 m d 文件里那些具体的指令内容,这就是所谓的按需加载。 最深的是第三层资源,如果指令里面还提到了需要参考某个外部文档,或者要运行某个脚本,那么这些额外的文件才会被加载进来。这可以说是暗虚中的暗虚加载了。 咱们打个比方,这个机制就好像去餐厅吃饭, ai 远远都知道餐单上有什么菜,也就是原数据。 但只有在你点了一道特定的菜之后,厨师才会去看这道菜详细的菜谱,也就是指令。而且只有当菜谱里写着需要某个特殊食材时,他才会去仓库里拿。你看,这种设计就确保了上下文框永远不会被那些暂时用不上的信息给占满。 好的,我们已经知道了 skill 是 什么,也知道了它怎么工作,但你可能会想,这东西跟我们天天说的 prompt 或者另一个听起来很厉害的 mcp 到底是什么关系? 别急,咱们现在就把它们各自的位置摆清楚。关于 skill 和 mcp 的 关系,我觉得 anthropolic 官方的这句话总结得一针见血,他们说 mcp 负责连接云端数据,而 skills 呢,则负责教 ai 如何处理这些数据。 咱们再看这张对比图就更清楚了,你可以把 m c p 想象成一个 usb 接口,它的任务就是解决 i i 能不能连上外部工具和数据的问题。 而 skill 呢,就像是你插上 u 盘之后那本详细的操作手册,它告诉 i i 连接上之后应该怎么用这些工具来完成任务。所以你看,它俩根本不是竞争关系,而是完美的黄金搭档。 那么聊了这么多,这一切对未来到底意义着什么?其实很简单,它代表着我们跟 ai 写作的方式正在迎来一次根本性的转变,我们正在从提诗词工程的时代迈向一个智能化的未来。 没错,这里的核心转变就是我们的工作重点不再是去费尽心思雕琢哪些一次性的用完就扔的提示词,而是转向工程化的去构建一个个可以附用、可以扩展、还可以分享的 ai 能力单元。 这带来的价值可就太大了。首先,专家的宝贵知识和工作流程终于可以被固化下来,不会再流失了。其次,标准化的流程让 ai 的 输出变得极其稳定可靠, 而最重要的一点是,它极大地降低了门槛儿,让任何领域的专家都能把自己的智慧轻松地转化成强大的 ai 工具。 这张图总结的非常到位,它的核心优势就是三点,可附用、一致性和高效率。这使得 agentskill 无论对于开发者还是各个领域的专家来说,都成了一种具有革命性的新玩法。 最后,咱们一起来想一个开丧性的问题,当任何领域的专家,无论是律师、医生、设计师还是营销专家, 都能轻松地把自己的专业知识和工作流程封装成一个 skill 的 时候,我们将会创造出一个怎样全新的丰富多彩的 ai 应用生态?未来真的充满了想象。

agent skill 到底是什么?长什么样?怎么工作的? skill 和 mcp 的 区别是什么? mcp 会被淘汰吗? 去哪里找 skill? 怎么使用 skill? 怎么自己创建一个 skill? 如何使用 skill 实现知识库解锁?它比传统的 rg 优势在哪呢?为什么说 skill 非常不安全?使用它有哪些安全风险呢? 大家好,欢迎来到 co 的 秘密花园,我是花园老师,今天这一期,我们来聊透关于 agent skill 的 一切。 agent skill 最近非常火啊,它的成长路线和 mcp 也非常像,二零二五年十月发布的时候,只有 antropica 自家产品支持, 后来 cursor code, open code 等产品看到了 skill 的 优势,于是纷纷开始支持。再后来,社区开始涌现了大量开源的 skill 以及 skill 的 开放市场。当下大家已经默认了 skill 已经成为又一个 agent 领域的标准实践。 在传统的 ai 聊天模式中呢, ai 的 能力取决于他原本学过什么,以及你临时在对话框里告诉他什么。 这就像你招了一个什么都懂一点的实习生,每次干活的时候你都得重新教一遍。而 agent skill 带来了一种全新的玩法,模块化的能力插件, 你可以把 cloud 想象成一个超级大脑。而 agent skill 呢,就是给这个大脑安装了一个外接的工具箱,这个工具箱里面不仅有工具本身,还包含了详细的使用说明书。 大脑不需要理解具体有哪些工具啊,以及工具的用法是什么,只需要在需要的时候查看一下工具的说明书,然后再把工具拿出来用。那如果你写过代码呢?可能很容易理解啊,想要编辑一个程序,并不一定所有的代码都是我们自己写的, 我们可能会通过 import 来引入一些外部的包,这些包呢,可能存放在固定的位置,当我们的程序需要调用这些包的能力的时候呢,就会从指定的文件夹里面取出来对应的代码,然后执行。 那 skill 也是类似的逻辑啊,每个 skill 其实都是一个文件夹,它存放在了一个固定的位置,这个文件夹里面装着几样东西啊,首先啊,是 skill 点 md, 它里面会告诉 ai 具体怎么使用,然后还可能会有更详细的参考文档以及脚本, 让 skill 也可以调用 web 能力,还可能包含一些图片、模板等可能使用到的 web 资源。如果啊,你在你的 agent 执行目录放了这个文件夹,那下次和 agent 对 话的时候啊,它就可以自动根据你的需求匹配到这个 skill, 不 需要你再进行额外的配置。 比如希望 ai 帮你润色文章啊,就可以编写这样一个 skill, 这个就是它的一个基本的构成结构啊,上面三根短横线的部分相当于 skill 的 身份证啊, name 呢,是它的唯一标识。 description 是 skill 的 关键描述啊,决定什么时候会触发这个 skill。 那 下面呢,就是 skill 的 正文部分啊,比如说它的核心目标,使用步骤,注意事项等等啊,那看起来还挺普通的啊,似乎很多能力都可以做这件事。 比如啊,我们直接把这段文字和文章发给大模型,或者说放到系统提示词里面,或者封装一个 flow, 或者编写一个 agent 点 m d 或者项目级的 rules, 这些方式呢,看似不同,但是本质上只是把提示词放在了不同的位置。在真实的业务场景中呢,一个 agent 不 可能只干这么简单的一件事,大家可以想一下啊,如果你要给你的 ai 装五十个技能, 每个技能都有几千字的说明书,那要是系统一启动的时候,就把这些全部塞进它的上下文里面,那么就会首先成本爆炸啊,每次对话都可能会消耗几万的头啃,那 ai 的 注意力呢,也可能会被分散,变得这也想干,那也想干,那 skill 的 出现呢,就是为了解决这种问题啊,它有一个非常核心的机制,叫渐进式纰漏, 说人话呢,就是按需加载,用多少拿多少啊。这个呢,也是我觉得 agent skill 设计的最聪明的地方, 那你可以把它想象成啊,我们去图书馆查资料的三个步骤,第一层,先看目录,当 agent 刚启动的时候呢,就会把所有 skill 的 名称和描述加载到上下文里面,那这一层呢,占用的资源可能非常少,可能就几百个 token, 那 它的作用呢,就是告诉 cloud 自己会什么啊,你可能有查周报,处理 excel 这些技能,但是这个时候 cloud 知道自己会什么,但是还不知道具体要怎么做。 那如果你说帮我把这个 excel 处理一下的时候,那可老的发现,哎,这事我能干啊,然后他才会去查找 excel 处理啊,刚才这个技能里面的这个 skill 点 md 的 文件,那只有在这个时候呢,那些详细的操作步骤,注意事项,才会进入 ai 的 上下文 第三层啊,要实际去动手干活了,也就是真正要执行具体步骤的时候,才会去加载相应的 reference 和 script。 比如说用户下达的任务可能是分析 excel 啊,也可能是创建 excel, 那 这两个操作呢,可能有完全不同的处理步骤, 详细的步骤呢,不一定都在 skill 点 md 里面,可以分开存放在不同的参考文件下。当 cloud 识别到你要做的是分析 excel 的 时候,才会去查找分析 excel 的 reference。 那 skills 里面也可以去内置一些可执行的 excel 处理脚本啊。那在 skill 点 id 啊,或者刚才查找的具体的参考文献下,它会告诉你应该调用 以及如何去调用这些脚本。那还有最重要的一点啊, cloud 只需要按照指引去执行脚本,而执行脚本的代码是不会塞给 ai 去读的。你完全不用担心一个超大的代码的文件会消耗头衔,因为它根本就不会进入 a 诊的上下文。 这也就意味着一个 skill 可以 打包整套的书面文档,大量的执行脚本,但只要任务不需要,这些内容就永远不会占用上下文。和 m c p 一 样, skill 成了开放标准之后,开始爆发式增长,社区也出现了大量的开源 skill。 我 们可以看到啊, skills mp 啊这个网站里面的这个 skills 数量最近在经历着爆发式的增长,那这个增长速度呢?要比之前 m c p 爆火的时候还要快啊。这个就不得不提 skill 的 另一大优点,编写门槛低。 m c p 虽然有一套标准的规范,但是终究还是要靠代码来实现的。即便啊,有了 ai 辅助,对于小白来讲还是有一定门槛儿的,而 skill 就 不一样了,只要你会写提示词就能写 skill, 可以遇见的是大量的固定工作流,可能会在未来都会被改写成 skill, 这意味着 agent 的 编写门槛儿被再一次大幅降低了。那如果你想找一个 skill 呢啊,我们就可以进入这样一个 skill 市场,然后搜索我们想要使用的 skill 啊,然后这里我们还以绘图软件 excel 为例啊, 可以看到啊,社区已经有大量的 s k dj 的 skill 了。进入详情之后呢,我们可以看到这个 skill 的 详情啊,我们可以选择不同的安装方式啊,这里我们选一个最简单的方式啊,我们直接把这个包下载下来, 下载下来之后呢,这是一个安装包啊,然后我们解压一下,哎啊,我们就可以看到这个熟悉的结构啊,一个 skill 点 m d, 还有一个 reference, 接下来呢,你只需要把这个目录拷贝到我们指定的位置啊,不同的 agent 的 目录大同小异啊,基本上都是 agent name, 然后杠 skills 这样一个目录。这里啊,我们使用最近比较火的 open code 来演示啊,所以我们创建这样一个新的文件夹啊,然后我们创建一个点 open code skills 的 目录, 然后我们把刚刚解压的文件夹拷贝过来,然后我们打开终端啊,打开 open code, 然后我们输入这段提示词啊,帮我绘着一个价格图啊,讲解什么是五 w 二 h 分 析法,然后直接帮我在当前目录下生成一个 excel, 然后开始编辑这个文件, 然后这里我们发现啊,我们不需要手动去安装或者运行这个 skill, 只要我们刚刚的文件夹位置放对了,那 opencode 的 ai 就 会自动根据我们的需求判断是不是要调用这个 skill, 然后帮我们生成代码, 好,代码生成完了,然后我们来到这个目录看一下,哎,他帮我们生成这样的代码啊,然后我们把这个 excel 的 配置啊,然后我们拷贝到这个网站里面, 哎,粘贴,哎,就是这么简单,他直接帮我们生成了一个手绘风格的架构图,如果啊你想使用其他的 skill 啊,也是一样的啊,进到这个详情里面,然后把这个目录下载下来,拷贝到刚才那几个目录之下啊,然后你去问对应的问题,就可以自动识别并且调用这个 skill 了, 下面我们来一起尝试自己做一个 skill, 那 虽然 skill 的 开发门槛很低,但这不意味着我们就要自己去写 as topic, 官方呢,直接给我们提供了一个生产 skill 的 skill, 也就是这个 skill creator 啊,你不需要写一行代码或者说配置文件,你只需要用自然语言告诉它你想做什么,它就会自动为你生成一个符合标准的 skill 啊,然后啊,我们还是把这个包下载一下,然后我们解压这个包啊,我们看到这个熟悉目录啊,然后我们把这个包拷贝到我们刚刚的 open code 的 这个 skill 的 目录下, ok 啊,然后下面我们打开 open code, 然后我们重启一下啊,我们输入这样一段提示词啊,帮我创建一个可以获取当前系统时间的 skill 啊,然后写一个脚本,然后脚本使用 node js, 然后呢,他找到了这个 skill creator 的 这个 skill 啊,然后开始帮我们根据我们的需求创建这个 skill, 然后我们打开我们的编辑器。哎,我们发现多了一个这个 system time 的 这个 skill 啊,然后这个 skill 点 md 里面说明了啊,怎么去获取一个准确的时间啊,它要去调用这个脚本啊,然后这里面有获取系统时间的代码。接下来呢,我们询问一下 opencode, 帮我获取一下当前的系统时间。 哎,他找到了我们刚刚创建的这个 systemtime 的 skill 啊,然后给出了这个准确的系统时间。创建一个 skill 啊,就是这么简单, 即便你不懂代码,不懂 skill 内部的执行原理啊,只要你把你的需求描述的足够清楚,它就可以准确地生成一个 skill。 看到这呢,你可能会觉得 skill 和 mcp 是 不是有点像呢?它们似乎都可以做到按需加载给 ai 去扩展外部的能力呢, 这个也是很多同学可能会弄混的问题。在之前的教程中呢,我们详细学习过 m c p 啊,它就像是一个通用的 usb 接口,制定了统一的规范,不管是连接数据库、第三方 a p i 还是本地的文件等各种外部的资源,都可以通过这个通用的接口来完成, 让 ai 模型与外部的工具和数据源之间的交互更加标准化,可附用。那假如你的 a 阵能连接了多个 m c p 呢?它似乎也能实现按需加载, 根据用户的意图来决定调用哪个工具。但是这个按需加载的背后啊,代价是非常巨大的。那在 mcp 的 架构之下呢,仅仅是连接这个动作,就已经在透视你的上下文了。这个呢,也是由大模型的工具调用机制决定的, 为了让 ai 知道他有哪些能力可以用,每一个连接的 mcp server, 都必须在对话开始前,将他所有的工具的完整定义一次性的注入到大模型的上下文里面。 那每个 mcp 呢,一般都会包含大量的工具啊,比如说 github mcp server, 它自己就包含了三十多工具。假如说每个工具消耗五百个头肯,那只连接这么一个 mcp 就 需要消耗将近两万个头肯, 那在真实的环境下呢,一个 agent 不 会只去连接一个 mcp server 的。 假如啊,你只问了 ai 一个非常简单的问题, agent 已可能已经烧掉了大几万的头肯,这个成本是非常恐怖的。 那更深层的原因呢,也在于,连接过多的 m c p server, 也可能会导致大模型的注意力下降,从而降低工具调用的准确性。 那在我们之前的教程中呢,有讲过一个专门测试工具调用准确度的基准, m c p atlus, 在 这个基准中呢,包含了四十多个不同的 m c p server, 三百多个工具的复杂环境。那模型呢,必须自己去发现合适的工具,并且正确的调用。 目前最强的 cloud up 四点五啊,也只能拿到百分之六十二的准确率,那其他的模型的准确率呢,也普遍低于百分之五十,随着连接工具的增多,这个准确率还会进一步的下降。 而我们上面刚讲到的 skill 的 核心机制啊,间接是批漏,恰好是可以解决这两个问题的。在首次连接的时候,相比 m c p 需要将三百多个工具全部塞进模型的上下文模型,只需要加载四十个 skill 的 原数据啊,可能只消耗几千头肯。 另外呢, skill 采用的是漏斗式的引导啊,先通过目录判断大体的方向啊,确认要干活了,再加载具体的说明,最后通过找到详细的文档和脚本再执行,让 ai 每次只专注于当前的任务,即使是能力比较弱的模型啊,在这种机制下也能够保持比较好的准确率。 那看到这,你可能会问了, skill 看起来更智能,更节省资源,那 mcp 肯定不会被完全淘汰的,但是对它的需求可能会大幅减少。 首先啊, mcp 协议层的价值是不可替代的,因为它制定了一套标准的接口,统一了 api 连接世界的方式。那如果呢,你是一个通用的第三方平台啊,比如说高德地图,你想发布一个工具,让其他的 agent 都能用上你的能力,那首选呢?还是使用 mcp? 但是啊,如果你是有一些重复性的工作流,比如说啊,我要有固定的流程来读写本地的文件,要用一个标准的规范来 review 代码,有一套固定的风格来写文章。那这些场景呢,都推荐使用 skill 来实现。 那在过去呢,这些需求中的文件读写,连接 github, 给文章生成图片啊等等,这些需要连接外部世界能力的,可能都需要通过 m c p 去实现。那现在呢,你可以把它们都打包到 skill 里面。那未来的格局呢?可能是这样的,首先, agent 本身内置了一部分核心的能力啊,包括终端或者说文件的读写等等。 那少数通用的 m c p server 呢?负责连接远程的数据啊,比如数据库啊, api 等等。上层呢,还有大量的 skill, 封装了标准的工作流程,连接本地的知识库,那这些能力呢,也会在必要的时候进行协助,但是 skill 会承担绝大部分教 ai 怎么做事儿的工作啊,比如说啊,教 ai 怎么用这些 m c p server, 怎么用其他的 skill 啊,怎么调用好这些核心能力等等。好,本期视频呢,我们就先讲到这儿,大家已经了解了 agent skill 的 基本原理,以及如何使用和创建一个 skill, 如果本期教程对你有所帮助呢?希望得到一个免费的三连和关注。下一期啊,我们会进入实战章节,一起来使用 agent skill 实现一个知识库解锁的功能。相比传统的 ig, 它的效果究竟怎么样呢?我们下期见。

二零二五年十月十六号, anthropic 正式推出了 agent skill。 起初官方对它的定位相当克制,只是希望用它来提升 cloud 在 某些特定任务上的表现。 但大家很快发现,这套设计实在是太好用了,因此行业里很快就跟上了节奏,包括 vs code、 codex、 cursor 等工具都陆续加入了对 agent skill 的 支持。 在这样的背景下,十二月十八日, osrbake 做出了一个重要决定,正式将 agent skill 发布为开放标准,支持跨平台、跨产品服用。这意味着 agent skill 已经超越了 cloud 单一产品的范畴,正在演变为 ai agent 领域的一个通用的设计模式。 那么,这个让大厂纷纷跟进的 agent skill 到底是解决了什么核心痛点?它和我们所熟悉的 mcp 又有着怎样的区别和联系呢? 今天这期视频我们就分几个部分彻底讲清楚这个 agent skill。 我 们首先从 agent skill 的 概念出发,也就是给大家讲明白 agent skill 到底是个什么东西。然后我来给大家演示一下它的基本使用方法。 在了解了基本用法之后,我们再来看看它的高级用法。高级用法一共是包含两块,分别是 reference 和 scp。 最后,我会把 agent skill 和 mcp 做个比较,告诉你到底应该选哪一个。 好了,话不多说,让我们直接开始哦,不好意思,只是想证明自己不是 ai, 那 我们现在真的要开始喽。 那什么是 agent skill 呢?用最通俗的话来讲, agent skill 其实就是一个大模型,可以随时翻阅的说明文档。 举个例子,比如你想要做一个智能客服,你可以在 skill 里面明确交代,遇到投诉得先安抚用户的情绪,而且不得随意承诺。 再比如,你想要做会议总结,你可以直接在 skill 里面规定必须要按照参会人员议题决定这个格式来输出总结的内容。这样一来,你就不用每次对话都去重复粘贴那一长串的要求了。大模型自己翻翻这个说明文档就知道该怎么干活了。 当然,说明文档只是一个为了方便理解的简化说法,实际上 agent skill 能做的事情要远比这个强大,它的高级功能我们待会儿就会讲到,不过在目前的起步阶段,你就把它当成是一个说明文档就行。下面我就用会议总结这个实际的场景带大家看看它到底是怎么使用的。 这里我们使用 client skill, 要想使用 agent skill, 那 当然是要先创建一个啦。 根据 cloud code 的 要求,我们需要在用户目录下的 cloud skill 文件夹创建我们的 agent skill。 所以呢,就让我们先进入到这个文件夹中,然后执行 maker 会议总结助手来创建一个文件夹,这个文件夹的名字就代表了我们 agent skill 的 名字,然后再使用 vs code 来打开这个文件夹,这样的话我们编辑文件会更方便一些。打开这个文件后,我们在里面创建一个叫做 skill 点 md 的 文件, 然后填好这个文件的具体内容,就是这样了,每一个 agent skill 都需要有这么一个文件,它用来描述这个 agent skill 的 名称,能干什么事以及怎么干这个事情的。比如我们这里要创建的 agent skill 就是 用于总结会议目录内容的, 它的 skill 点 m d 一 共分为两部分,头部的这几行被两段短横线包起来的是叫做原数据,英文叫做 matte data。 这一层就只写了 name 和 description 这两个属性。 name 呢是 agent skill 的 名称,必须与文件夹的名字相同。 name 的 下面呢是 description, 它代表这个 agent skill 的 描述,主要是向大模型说明这个 agent skill 是 用来干什么的。然后再看下面剩余的部分,这个呢就是具体的 agent skill 的 说明了, 官方把这一部分呢是叫做指令,对应的英文是 instruction, 这一部分就是在详细描述模型需要遵循的规则。比如说你看这里,我规定了它必须要总结参会人员议题和决定这几个方面的内容, 然后为了确保他真的理解了,我这里还举了一个例子,输入的是会议的录音内容,然后输出的呢就是我们所需要的格式了。好,现在我们的 agent skill 应该是做好了。对,就是这么简单,就是一个说明文档。 下面我们打开 cloud code 来验货,首先随便找一个空目录,打开 cloud code, 然后输入下面这个问题,你有哪些 agent skill? cloud code 给我们回答了,可以看出他已经发现了我们写好的 agent skill。 然后我们来看看 cloud code 是 怎么使用这个 agent skill 的。 我们输入请求总结以下会的内容,然后粘贴一段会议录英文本回车,让我们看看 cloud code 会如何应付我们这个问题。 好, cloud code 有 反应了,大家注意看屏幕,这里 cloud code 并没有直接开始下编,他根据我的指令意识到了这事归我们刚才上传的那个 agent skill 管,所以呢,他是在向我询问能不能使用这个 agent skill, 那 我们当然是同意了。同意之后,他就开始读取我们写的那个会议总结助手了,主要就是读取其中的那个 skill 点 m d 文件,让我们稍作等待 好,结果出来了,参会人员议题决定三点都清清楚楚,这完全符合我们在 skill 里面定的规矩。这个呢,就是 agent skill 的 基础用法了,是不是很简单?现在你知道了如何创建和使用 agent skill, 那 不妨让我们想想刚才到底发生了什么。 首先,整个流程中一共有三个角色,用户 cloud code 以及 cloud code 的 背后所使用的大模型。在我们的例子里,这个就是 cloud 模型 流程一开始的时候,用户会输入请求,此时 cloud code 会把用户的请求连同所有 skill 的 名称和描述一起发给大模型。注意,这里只带了名称和描述, 也就是我们前面所说的 skill 原数据层。虽然说我们之前只演示了一个 skill, 但是你可以想象一下,哪怕你装了十几个 skill, 此时的大模型呢,也只是在看一份轻量级的目录,因为毕竟只有名称和描述嘛。 在接到了用户请求和每一个 skill 的 名称描述后,大模型会发现用户的请求呢,可以使用会议总结助手这个 agent skill 来解决, 此时呢,他就会把这个信息告诉 cloud code。 cloud code 接到大模型的响应之后,会去会议总结助手那个目录里面读取完整的 skill md。 正文儿对,这个时候读取的呢,才是 skill md 的 全部内容,之前就只是名称和描述, 而且要注意,他只读取了会议总结助手这一个 agent skill 的 内容哦。在拿到了会议总结助手的 skill md 内容后, cloud code 会把用户的请求和完整的 skill md 内容发给大模型, 大模型会根据 skill 点 m d 的 要求来生成响应,并且把响应发给 cloud code, cloud code 进而呢,会把这个响应发挥给用户,这样呢,用户就会看到结果了。 这就引出了 agent skill 的 第一个核心机制,按需加载。虽然 skill 的 名字和描述是始终对模型可见的,但具体的指令内容只有在这个 skill 被选中之后才会被加载进来给模型看,这个呢,就节省了很多的 token 了。 前面我们讲了,一开始 cloud code 会把所有 agent skill 的 名称和描述都给到模型,比如说什么爆款文案 skill、 会议总结 skill、 数据分析 skill 等等。模型呢,会从中选择一个, 之后只有选中的那个 skill 的 skill 的 md 文件才会给到模型。说白了呢,就是按需加载,这个呢,已经很省头肯了, 但是它还不够极致。大家试想一下,我们的会议总结助手可能会越来越高级,我们希望它不仅仅是简单复述,而是能够提供更有价值的补充说明。 比如说,当会议决定要花钱时,它能直接在总结里标注是否符合财务合规,当涉及到合同时,它能够提示法务风险。这样大家在看会议总结的时候,就不需要再去翻规章制度,一眼就能够看到这些关键的补充信息,这就非常方便了。 但问题在于, skill 能做这些事情的前提是它要把相关的财务规定和法律条文都写入到 skill 点 m d 文件里。这些文件可能会非常长,都写进去的话, skill 点 m d 文件就会变得无比的臃肿, 哪怕只是开个简单的早会,都要被迫加载一堆根本用不上的财务和法律废话,浪费模型资源。那能不能做到暗虚中的暗虚呢?比如说,只有当会议内容真的聊到了钱, cloud code 才会把财务规定加载给模型看。 其实这个呢,也是可以的, agent skill 呢,提供了 reference 的 概念,干的就是这个活,让我们来试一下。首先我们来给它加一个文件,也就是 agent skill 术语里面的 reference。 我们把这个文件叫做集团财务手册,里面写明了各种费用的报销标准,比如说是住宿补贴五百一晚,餐饮费人均三百一晚之类的。然后我们在原来的 skill 点 m d 文件里面新增一个财务提醒规则,里面写明仅在提到钱预算采购费用的时候出发。 出发的时候呢,需要读取集团财务手册点 m d 这个文件,根据文件内容指出会议决定中的金额是否超标,并明确审批人,这就可以了。我们回到 cloud code 这里再试一下。 这次我们的请求仍然是总结下这个会议的内容,不过呢,这次使用的会议内容稍微换了一下, 这段对话呢,我们就不细看了,你只需要知道,在这段对话里面,老陈让小李订一千二百一晚的酒店,这涉及到了钱。 按道理来说, cloud code 应该触发我们刚才新增的财务提醒规则,让我们看看 cloud code 能不能意识到这一点。首先, cloud code 意识到了这个请求跟我们的会议总结助手相关联,请求使用这个 agent skill, 我 们同意。 然后他意识到了这个会议跟钱相关,根据 skilled md 文件的指示,他请求读取集团财务手册,这个文件用于查看里面的财务合规信息,这个呢,我们也同意。 最后他根据实际的会议内容生成了总结,可以看出,总结中不仅包含参会人员、议题、决定等基本信息,还包含了财务提醒,这完美符合我们的需求。 这个呢,就是 reference 的 核心逻辑了,在 agent skill 的 体系里面,集团财务手册点 m d 这个文件就是一个典型的 reference, 请大家记住它的特性,它呢是条件触发的。 在刚才的例子里面,只有当 cloud code 读取完 skill 的 md 文件,判断出需要查账时,才会去加载这个文件。反过来说,如果这是一个跟前无关的技术复盘会,那么这个财务文件就只会躺在硬盘里面,绝不会占用哪怕一个 token 的 上下文。 好,讲完了 reference, 接下来我们来讲讲如何让 agent skill 跑代码,毕竟查资料只是第一步,能直接动手运行代码,帮我们把活干了,这才是真正的自动化。这个呢,就用到了 agent skill 的 另一大能力, script, 让我们在文件夹里面创建一个 python 脚本,文件名就叫做 uploader pi, 用于上传文件。之后我们填好这个代码文件的内容,然后我们来到 skill md 这个文件里,再加上一段关于上传规则的描述, 如果用户提到了上传同步或者是发送到服务器这样的字眼,你必须运行 uploader pi 脚本,将总结内容上传到服务器。然后呢,我们来到 cloud code 这边,输入请求,总结下这个会议的内容,并把它上传到服务器中,然后我们粘贴会内容。 跟之前一样, cloud code 意识到了这个请求与我们的会议总结助手相关,所以呢,他请求使用这个 agent skill, 我 们同意,然后他把会议的总结内容输出了出来,并准备上传到服务器中,他请求执行 up 六点 pi 文件来实现这个功能,我们也同意 好上传成功。而且 cloud code 还把上传相关的一些信息也展示了出来,非常棒。 这里面呢,有个小插曲,大家注意一下,我这次所使用的会议内容跟钱其实没什么关系,所以 cloud code 呢,也并没有去读取集团财务手册那个文件, 结果中呢,也没有财务提醒相关的内容。这正好印证了我前面所说的观点, reference 是 按需加载的,如果用户没有提到与 reference 相关的内容,那 cloud code 是 不会去读取它的,这样就达到了节省上下文 token 的 目的。 好让我们再回到代码执行部分,注意看这里, cloud code 申请执行这个 uploader pie 文件,它并没有去读取这个文件。没错, agent skill 里面的代码只会被执行,不会被读取。 这就意味着,哪怕你的脚本写了一万行复杂的业务逻辑,它消耗的模型上下文呢,也几乎是零。 cloud code 只关心脚本的运行方法和运行结果,至于这个脚本的内容,它可以说是毫不在意, 所以呢,虽然 reference 和 script 都属于 agent skill 的 高级功能,但是呢,它们对于模型上下文的影响其实是截然不同的。 reference 是 读,它会把内容加载到上下文里面,所以呢,是会消耗 token 的。 script 呢,是跑,它只会被执行,不会占用模型的上下文。讲到这里,我们需要停下来稍微做个总结,聊一聊 agent skill 的 渐进式批漏机制。 agent skill 的 设计其实是一个精密的渐进式批漏结构,这个结构里面一共有三层,每一层的加载机制都不太一样。 第一层是原数据层,这里有所有的 agent skill 的 名称和描述,它们是始终加载的,相当于大模型里面的目录。大模型每次回答前都会看一下这一层的信息,然后决定用户的问题是否与某个 agent skill 相匹配。 第二层是指令层,对应 skill 的 md 文件里面除了名称和描述之外,其余的部分,只有当大模型发现用户的问题与某个 agent skill 相匹配的时候,它才会去加载这一层的内容,所以呢,我们称这一层为按需加载。 第三层是资源层,这个呢,是最深的一层,它一共是包含 reference 和 script 两方面的内容。其实按照官方最新的规范,应该还有一个组成部分叫做 assets, 不 过我看了一下,它跟 reference 的 定义似乎有部分重叠,因此我们这里先忽略它。 好,我们刚才例子里面的集团财务手册和 uploader pie 脚本就属于这一层,只有当模型发现用户问题与财务或者上传相关的时候,它才会去加载这一层的内容, 这就相当于是在按需加载的指令层基础上又做了一次按需加载,所以我们可以称它为按需中的按需加载, 当然这是我起的名字啊。 reference 和 script 的 加载方式其实不太一样, reference 是 被读取的, cloud code 会把对应文件的内容放到模型的上下文中,以供回答式参考。而 script 是 被执行的, cloud code 根本就不会去看代码的内容,它只关心代码的执行结果。 当然这个也不是铁律啊,如果你没有把代码的执行方法说清楚, cloud code 还是有可能会去看一下代码的,毕竟跑不下去了嘛,这样的话呢,就会占用模型的上下文了。所以还是请大家写 skill 的 时候尽可能的把一切都解释清楚。 那聊完了 agent skill 的 用法,很多朋友可能会有种似曾相识的感觉, agent skill 好 像是跟 m c p 有 点像啊,本质上都是让模型去连接和操作外部世界。既然功能重叠,那我们到底应该用哪一个呢? 关于这个问题,按 serapic 官方写过一篇相关的文章来解释,核心观点就一句话就在这里, mcp connects cloud data skills teach cloud what to do with that data。 这句话可以说是直接点明了 mcp 与 agent skill 的 区别,它其实就是在说 mcp 给大模型供给数据,比如说查询昨天的销售记录,读取订单的物流状态等等。 而 skill 是 教会大模型如何处理这些数据的,比如说是会议总结必须要有个议题啊,汇报文档必须要包含具体的数据啊等等。到这里,有些同学可能就会问了, 不对啊, agent skill 里面也能写代码,我直接在 agent skill 里面写连接数据的逻辑不就好了吗?这样呢,就不需要 m c p 了, agent skill 就 直接把这两个活都给干了。 确实啊, agent skill 也能连数据,功能上与 m c p 有 所重叠,但是能干并不代表适合干, 这就好像是瑞士军刀也能切菜,但没有人会这么干。我们这个场景呢,其实也是这样, m c p 本质上是一个独立运行的程序,而 agent skill 本质上是一段说明文档,它们的本质不同决定了适合的场景也是不同的, agent skill 更适合跑一些轻量的脚本,处理简单的逻辑。在代码执行方面, agent skill 的 安全性和稳定性都不及 mcp, 所以 大家还是要根据场景选择合适的工具。甚至在很多的场景下,我们需要把 agent skill 和 mcp 结合起来一起使用,以便尽可能的满足我们的需求。 好,今天的视频呢,就到此结束了,我是马克,用最通俗的语言讲最硬核的技术。如果我的视频对你有帮助,欢迎点赞订阅,我们下次再见,拜拜!

挑战只用两分钟,从零到一学会 agent skills 二零二五年十月, andrew pig 公司提出 agent skills 概念。没错,它有一个大名鼎鼎的子公司 cloud code。 由于效果太炸裂, cursor、 tray codex 等 ai 编程工具纷纷宣布支持 agent skills。 由于 tray 在 国内无门槛,今天就实战 tray 怎样使用 skills。 假设你在辅导一名实习生,你去帮我写个文档,文档主题和格式是这样的,要注意 a, 还要注意 b, 每次写的时候都要重新说一遍。你换了一个会 skills 的 ai 小 助手,仅需给他一本操作手册,将主题和规则封装到一个 skill 的 文档中, ai 小 助手就会自动从 skill 中学习文档。写作的要求就是让 ai 永久性告别健忘症。通过加载不同的 skills, ai 可以 具备不同的专业知识、工具使用能力。如何在 tree 中运用 skills 呢?你可以去 getipe, 找到 anspec 官方写好的 skills, 点击扣按钮,点击 download, zip, 查看浏览器中下载文件的位置,解压到本地文件夹,可以看到 skills 文件夹中已经创建好的目录。打开 tray, 切换到 solo 模式,点击设置按钮,点击规则与技能,点击创建 skills, 选择 skill md 文件,修改技能名称为 word 大 师,感兴趣的同学可以学习指令中的内容。点击确认按钮, 在 solo coder 对 话框中输入指令。帮我用 word 大 师生成一份关于 a 股春季行情的调研报告, tray 就 开始使用 word 大 师 skills 开始干活了。调研报告像模像样,果真是打工人的福音。 打开 tray 的 solo 模式,只需要像平时一样对 ai 说帮我新建一个检查代码 bug 的 skill, tray 就 会自动帮你生成一个 skill, 特别适合新手。小白 切换到 solo 模式,点击设置图标,点击规则与技能,点击创建按钮,依次输入技能名称、描述和指令。简单的 skill 只需要描述清楚就可以运行,后续还可以慢慢加入具体的操作指令,怕你后面找不到,点关注不迷路, app 带你上高速!