你知道为什么现在的 ai 越来越能干了吗?搜网页,执行代码,操作文件,他不是突然变聪明了,是因为他有了技能。今天我来讲一个真正重要的东西, agent skills。 简单说, agent skills 就是 给 ai 智能体装上的能力插件,把 agent 想象成一个聪明但手脚不变的人,他脑子好使,但没有工具,什么都干不了。 skills 就是 他的工具箱。每一个 skill 的 核心是一个叫 skill md 的 文件,里面写清楚名字、功能描述,以及 agent 应该怎么执行这项任务。 这套格式最早由 entropic 提出,现在 cloud code vs code cursor github 都已经支持。大语言模型本身只能生成文字,没法直接行动。你让他帮你查今天的天气,他不知道,你让他发一封邮件,他做不到。 你让他在网页上填表,他束手无策。 skills 就是 专门来打破这个限制的,装上搜索技能,他能上网查资料,装上代码执行,他能写代码跑程序。有了 skills, ai 才能真正和外部世界交互。 创建一个 skill 其实不复杂,就三步,第一,写一个 skill md 文件,用 y m l 头部写清楚名称和描述。第二,在论文里用 markdown 详细说明 agent 该怎么执行这个任务。第三,如果需要跑代码,把脚本放到 scripts 目录里就行。说白了就是给 ai 写一份操作手册, 不想自己写,现在已经有专门的社区了。 skills s h 是 verso 开发的一个开放生态,可以理解为 agent skills 的 m p m 市场异形命令,直接安装别人写好的技能, m p x skills add 作者,斜杠级农民, land chain, auto, g p t dfi 这些主流框架里也有大量内置工具,本质和 skills 是 一回事,只是叫法不同。 一句话总结, skills 是 让 ai 从只会说到真正干的关键。关注我下次讲 agent 是 怎么用 skills 完成真实任务的。
粉丝791获赞4909

以前为了让 ai 写个符合格式的周报,我们恨不得要手写五百字的提示词,结果它还能给你瞎编。现在呢,你只需要挂载一个封装好的 agent skill, 效率直接提升十倍不止。 很多人还在傻傻地跟 ai 聊天,但真正的高手早就开始配置 ai 了,从聊天的伴侣到干活的牛马,中间到底差了什么呢?其实就是我们今天要讲的核心, agent skills。 我 把视频内容分为了四个部分。首先第一部分,我们会过一遍交互方式的眼镜, 搞懂了这个源头,你对 ai 的 理解就不只是停留在表面了。接着第二部分,我们就直奔主题, agent skills 到底是什么,我会把它拆开给你看,就跟我们平时用一个万能工具包差不多。 然后第三部分,顺理成章的我们看看 skills 的 工作流程。也就是说,当 ai 真正接到你的任务时,他脑子里是怎么思考怎么挑工具,最后怎么把活干完的。 这个流程你看懂了以后,你调 bug 或者是看系统日制,一眼就能够看出问题出在哪里。最后这一部分绝对是面试和实战中最容易被问到,也是最容易踩坑的地方。我会把 m c p, workflow 这些词拿出来对比一下, 理清了这些啊,以后,再看到外面出了什么新的框架或者是什么协议啊,我们都能一眼看透本质,做到心里有底。好话不多说,我们直接进入第一部分。其实呢,要搞懂 age 呢,为什么能干那么多复杂的活?我们得先往回看一眼,理一理我们是怎么一步一步把大模型调教成现在这样的 这个交互方式的眼镜啊,其实就是一个从结果经常失控到效率高度固化的过程。你看,最开始也就是 level 一 的时候,大家都在研究 prompt 提示词最左边这个图啊,普通的 prompt, 就 像是你随口跟 ai 说了一句,帮我写个简历,结果呢,它可能洋洋洒洒的给你写了一堆的废话,排版也是乱七八糟,重点很明显就是结果根本不可控,对吧? 为了解决这个呢,我们摸索出了右边这种结构化 prompt, 给它设定具体的 role 角色, task 任务,还有 rules 规则。那就像是你平时点外卖,以前你只说弄点吃的,现在备注上写得清清楚楚,扫蜡不放香菜,加个煎蛋, 加上这种结构化的约束之后啊, ai 给出的东西就规矩多了,那马上我们就发现了新的问题,于是进化到了 level 二 come on 的 命令。你看,结构化的提示词虽然好用,但是什么呢?但是它太长了对吧? 我们平时干活总不能每次写需要写简历的时候都去复制粘贴,或者是手敲几百字的要求进去,那也太反人类了。所以我们解决方案是什么? 就是把那些长篇大论的好用的提置词直接封装成一个文件以后再用的时候啊,只需要敲一个快捷指令,比如说图上的,嗯,反斜杠 resume, 瞬间就能调出那一整套复杂的规则。其实呢,这一步就是把我们摸索出来的最佳实践,变成了可以随时调用的快捷键,把效率给固化下来了。不过啊,指令虽然快捷,但如果是长篇大论的聊呢, 这就碰到了 level 三的痛点,所以呢,就引出了 system prompt, 也就是系统提示词。你看平时聊天聊得一长,上下文一多, ai 就 特别容易断篇,把你一开始提的规则全给忘了。 这时候怎么办?我们就得用点 cursor rules, 或者是嗯 cloud, 点 md 这样的文件。你看右边有个架构图, system prompt 永远在最上面,它享有一票否决的最高优先级。不管下面这个灰色的那个用户输入框里怎么瞎聊, ai 脑子里那根弦总是绷紧的,因为它知道头上总有一个系统级的规则在压制着它。 然后我们顺着往下走,等业务再复杂一点呢,我们就来到了 level 四 mate data 原数据阶段。 大家想象一个场景,如果我们的 ai 助手要处理一百种不同的任务,有简历,有周报,有邮件,我们总不能把这一百个场景的背景资料全都塞进他的脑子里吧?那不仅模型上下文称报了,每天消耗 token 的 钱我们也烧不起啊,对吧? 所以你看中间这一个像安检门一样的闸机。我们的做法是啊,给每个文件贴上一个智能标签,贴上一个 tag, 我们只把少量的 mate data 发给模型模型一看,哦,你现在要写简历是吧?行,那我就只把那个简历那个文件给拽过来看看。这就实现了万虚加载。对于我们做这一行的人来说,意味着你系统的扩展能力一下子就被彻底打开了,再也不用抠抠搜搜的去算 toon 上线了。 最后就到了现在的 level 五, references and scripts 参考资料与脚本在这个阶段, ai 的 能力不再是一把抓,而是通过渐进式批录来扩展的。什么意思呢?就是他知道怎么去一步步找答案。 你看图上这个结构,一边是 references 或遇到不懂的,他可以去按需加载产品手册啦,还可以读工程文档。另一边就更厉害了,是 scripts。 ai 现在不但知道你要干什么,它还能直接调用右边这些 python 脚本去帮你生成 pdf, 去跑数据分析。它不仅能动嘴,还能真刀真枪地动手了。 说到这里,你可能发现了,从最开始的一句闲聊,到现在能挂载标签,能跑代码大模型,越来越像一个带着万能工具箱的资深员工了。但是这个工具箱里到底装的是什么呢?它是怎么运转的?这就来到我们第二章节, agent skills 的 本质与构成。 首先,什么是 agent skills? 官方定义叫它被封装的动态能力单元,听着有点绕,对吧?其实说白了,一个 skill 就 像是你手机里的一个独立 app, 或者是一个打包好的标准工作包。 你看,这里有个蓝色的文件夹,比如我们管它叫 resume writer, 简历代写员,它不是一个光秃秃的一句提示词,把它拆开看,里面其实装了四样东西。第一样是最左边的 skill 点 md, 也就是入口,或者是系统提示词。 这就像是技能的岗位说明书,它提前规定好了你现在的角色啊,是一个资深 hr, 你 要按照 star 法则来写,语气要专业。 第二个呢,是 mate data 路由标签,这个特别关键,你可以把它当成这个技能包的门牌号,或者是自我介绍的标签。你想啊,系统里面如果有几十个技能, ai 怎么知道什么时候该掉哪个呢?掉的就是这个。 比如说标签上写着简历、求职排版,那用户一提到找工作,系统立刻就能把它揪出来。第三个是 references 数据素材,这就相当于发给 ai 的 参考资料,比如说你们公司的业务白皮书,或者是标准的简历模板文件。 ai 干活之前,可以先翻一翻这些资料,心里就会有数了,不会胡编乱造。最后一个最右边这个 script 执行工具,这就是发给 ai 的 干活工具箱。比如说给他配一个 python 脚本, 他能上网搜一下最新的行业动态,或者是能直接把写好的文本转成一个漂亮的 pdf。 所以你看最底下这个公式就很直观了, bill 就 等于岗位说明书,加上门牌号标签,加上参考资料库,再加一个干活工具箱, 把它们给打包在一起,就成了一个能够随时能用的独立技能。对于我们平时做业务开发来说,这意味着你系统的能力可以高度附用。你想加一个新功能,不用去改底层的核心代码,直接塞个新的技能文件夹进去就可以了,非常清爽。 好,那么既然技能包已经打包好了,真正用起来的时候,系统是怎么运转的呢?这就到了我们第三部分 skills 的 工作流程, 我们来看一下这个流程图,其实弄懂了这五个步骤以后,不管你是用什么炫酷的 agent 的 框架,你脑子里的主线都是清晰的,排查 bug 也特别快。你看最左边第一步,用户发了一句话帮我写简历, 这时候呢,你看第二步,这个框,我们的客户端 clients 其实并没有把用户的这一句大白话,连同那一堆复杂的工具啊,长篇大论的提示词,一股脑的全扔给大模型,没那么傻,全扔过去,太费 token 了吧,太费钱了。 他其实只是把所有 scale 的 matter data, 也就是我们刚才说的门牌号标签收集起来,发给模型去挑。那就好比老板拿到一个新项目,他不会把你们公司几百号人的详细简历全都看一遍吧,他只会看大家挂在脑门上的技能标签。 接着呢,到第三步, model, 也就是大模型,一看这些标签,秒懂,哦,你是要写简历是吧?这个活呢,得归那个叫做 resume writer 的 技能包来管。于是模型就把这个决定告诉了客户端。 然后第四步,客户端一听好,马上去把 resume 这个文件夹给翻出来,把里面详细的 skill 点 md, 也就是岗位说明书给加载进来。直到这一步,这个简历代写员的这个角色啊,才被真正的激活。 最后一步, execute ai 开始真正干活了,遇到不懂的,去读取刚才说的那个参考资料 references, 遇到需要动手操作的, 去运行代码脚本 script, 一 道行云流水的动作搞完,最后把一份排版精美的简历结果 result 拍在用户面前。所以你看整个流程,其实特别符合我们的直觉。先看标签分发任务, 备上号了,再去加载详细说明书,最后拿工具干活。这是一个非常优雅的按需加载的过程。好,我们趁热打铁,直接进入最关键的第四部分,核心概念变期。 刚才我们看完了技能是怎么一步步被调用的,这时候你可能要问了,他现在外面满天飞的新词,什么 m c p 啦, workflow 啦,那么跟我们今天讲的 skill 到底是个什么关系,是不是一回事儿?其实真不是,这一部分我们必须要理清,不然以后看技术文档或者是做技术选型的时候特别容易蒙。 我们先来看第一组对比 deal 和 mcp, 这两最近经常被放在一起讨论,我给他们的比喻是大脑与手的区别。你看左边这个 mcp 听得很多,对吧? 本质上是什么呢?它就是一套标准化的工具接口,相当于你给大模型配了一双特别灵活的手,或者是丢给他一个极其全面的工具箱。 first, 有 了它,模型能去查数据,能去读本地文件了。 但是这里有个什么问题呢?他手里有工具,但是他未必有经验。这就好比你给我发了一套米其林大厨的定制的刀具,但是我本人根本就不会做饭啊,那我肯定是做不出法式大餐的呀。这时候呢,就需要右边的 agent skill 了。 skill 相当于什么呢?相当于这一本厚厚的操作指南和行业经验,它规定了遇到什么情况该用拿把刀切多厚,也就是何时使用工具以及如何组合工具。 所以你看 m c p 解决了能不能干的连接问题,而 skill 解决的是干得好不好的经验问题。大脑和手,它们是配合的关系,不是替代的关系。 好,那我们再来看第二组容易混淆的 skill 和 workflow 工作流。很多人都喜欢拿 n 八 n define 或者是扣子里面那种连线工作流来做 agent。 你 看左边这个图, block flow 就 像是铺好的铁轨,它是固定编排的,也就是说第一步干什么,第二步干什么,遇到 a 走上面,遇到 b 走下面,这全是你在这个系统设计的时候啊,人为把它锁死的,哪怕跑的过程中呢,遇到点没见过的新情况,它也只能死板的按着这个轨道走, 很容易卡壳报错。但是右边这个 agent skill 就 不一样了,它完全是由模型驱动的,你看它像不像一个神经元的网络?它的执行路径啊,不是写死的,而是 ai 每走一步,看看周围的情况, 及时决定下一步该干嘛。打个比方, walk flow 就 像是你坐地铁,路线早就定好了,到哪站停都是定好的。而用 skill agent 就 像是你打了个网约车,司机知道你的终点,但是前面如果遇到堵车了,它自己会灵活地绕路。 对于我们做架构设计的人来说,这意味着你的系统真正具备了处理复杂、未知异常的能力,不再是那种一碰就碎的流水线了。聊到这里,其实最让人迷糊的概念我们就拆解完了。现在我们把视角拉高,来看一看这个金字塔。这就是我们今天讲的整个架构眼镜的浓缩, 从最底下的 level 一 三八八的提示词,到 level 二用快捷命令固化效率,再到 level 三拿系统提示词去压制聊天的遗忘。接着往上走 level 四,我们引入了原数据 mate data, 实现了给各种文件贴上标签,按需加载。 最后终于到了金字塔间的 level 五,也就是带着参考资料和执行脚本的完整的 agent skill。 你看右边这个箭头,随着我们一步步往上搭,大模型的智能化程度啊,还有它能够处理业务的复杂度是直线上升的。所以最后我们来总结一下, 其实呢,今天我们见证的是人机交互方式的一个根本性的质变。以前我们总觉得用 ai 嘛,不就是在那个聊天框,也就是左边这个气泡里面跟他聊天说话吗? 其实到了 agent skills 这一步啊,对于我们做这一行的人来说,意味着我们不再仅仅是向 ai 发送文字,而是在配置 ai 的 专业能力。你看,我们把提示词,公司的业务数据还有执行代码,像拼乐高一样封装成了一个一个的 skill, 就是 右边这个齿轮。 通过这种配置,我们硬生生的把一个通用的只会讲车轱辘话的聊天伴侣,变成了一个具备你们公司特定领域经验的专家代理,这才是真正的 agent 时代的做事方式。好,那今天关于 agent skill 的 深度拆解就先聊到这里,我们下期再见。

这两年的 ai 领域,具象化体现了什么叫用概念的堆砌来演示技术能力的匮乏。最近又又又出现了个很火的新词 skills, 它的本质是什么?跟 workflow、 prompt、 mcp、 command 又有什么关系?接下来我们就一次性将这些概念串起来,带大家看清楚。看之前你点赞了吗?关注了吗?谢谢! 提示词我们知道,要让 ai 干活,最简单的办法就是给他发一句指令,也就是 prompt 提示词。比如帮我写个简历,但 ai 吐出来的结果可能在格式和内容上都不太符合我们预期。 为了让效果更好,你可能会加入很多规则,比如个人信息要居中、教育经历要用表格列出,项目经历要用 star 法则拆解。这种详细规定步骤的提示词,我们称为结构化提示词。 come 的是什么?但提示词这么长,每次都说 手敲,不太现实。所以很多 ai 客户端,比如 cloudcod, 会支持把常用提示词固化成文件,需要时就通过类似快捷键的命令换出。这种用短命令替换一段固定内容的功能就叫 comend。 system prompt 是什么 come on 让我们更方便输入长提示词,但提示词变长后,我们会发现 ai 越来越不听话。让他用表格,他给你纯文本,你让他居中,他直接忽略, 那有没有办法让他更听话?有,我们在输入框输入的内容在大模型领域叫用户提示词 user prompt。 他还有一层优先级更高的指令,叫系统提示词 system prompt。 一般来说,同样的要求放进系统提示词,大模型的指令遵循效果,遵循效果会比用户提示词更好。但我们平时用 ai 的时候,就一个输入框,敲进去的内容默认都会被当成用 提示词发给大模型。系统提示词都是 ai 客户端在背后发的,怎么才能将输入的内容作为系统提示词发给大模型呢?一些 ai 软件特地留了个口子,让我们可以用文件的形式记录要发的系统提示词,比如 cursor 的 ctrl cloud code cloud 点 m d, 最常见的里面可以放,请用中文回复我看爽了吗?那来个一键三连不过分吧? met data 是什么?我们平时需要面对很多场景,比如写简历、写周报、写邮件,对应的要求各不相同,将他们全塞进一个系统提示词文件里,明显不合适怎么办? 最直接的做法就是按场景拆成一个个独立的 m d 文件。那问题就来了, ai 怎么知道该用哪个文件?将文件全部给大模型读一遍再做判断也不现实,毕竟文件内容会转为数字,也就是 token 文件阅读 多,运费脱肯太贵了,怎么办呢?我们可以在每个文件的开头加一段很短的描述信息,写清楚这个文件是干什么的,什么情况下该被调用。这种提示型的数据叫原数据 met data。 这样,当用户在 ai 客户端里发送帮我写个简历时, ai 客户端只需要将这些 mate data 发给模型。由于 mate data 很小,所以也不费什么 top 模型,判断出是简历场景并返回 ai 客户端,就会自动加载简历专家的全部内容进系统提示词发给 ai, ai 根据提示词开始生成简历内容,然后返回给客户端,这样既保证了提示词效果,又省下很多 token。 看到这里,还没睡着的弹幕扣个零,让我看看还有多少人? reference 和 script 是什么?随着需求越来越细,单个文件依然会变得很大。比如同样是写简历,不同岗位 有不同写法,产品需要突出业务理解,开发岗要体现工程复杂度,算法则更关注论文成果怎么办?继续拆,我们可以在写简历点 md 中留一个岗位入口,不同岗位路由到不同文件。 如果单个岗位文件还是太大,那继续拆,这样 ai 客户端就会用 cat 等系统命令读取文件总纲,再根据岗位方向一路下钻,只查看需要的那一小撮文件,用不到的文件完全不消耗。 tok 这种按需加载数据的读取方式,也就是所谓的渐进式披露。 这些被拆分出来的文件,我们可以作为参考资料,放入到一个叫 references 的文件夹底下。顾名思义,只要大模型有需要,就可以参考里面的材料。既然能调动系统命令读文件,那按理说也能执行命令跑代码,那写个 python 脚本,将文本写入 word 文档里,再导出成 pdf, 也就顺利 成章了。同样将这些代码文件放到一个叫 scrap 的文件夹里,在提示词里写清楚什么情况该执行什么脚本。这样大模型就能和 ai 客户端配合,通过代码脚本实现纯文本聊天之外的功能。看到这里,你已经超越百分之九十九的观众。扣个一,让我看看到底有多少人 skill 是什么?到这里,我们已经把自己常用的用户提示词变成了一段段以文件形式存在的系统提示词,再通过 metadata 和拆分文件,实现按条件和场景加载数据,大大减少托肯消耗量。 并将提示词可能用到的参考资料和代码分别放入 reference 和 script 文件夹,一个负责读参考资料,一个负责跑代码。将提示词文件主入口改名为 skill, 点 m d, 再将他们共同打包为一个文件夹给个命名。比如写简历的叫 resume writer, 写文章的叫 article writer。 这个被外化为文件夹形式存在且可动态加载的系统提示词,其实就是所谓的 skill。 我们来看一下 skill 的完整工作流程。首先将它放到 cloud code 的 skills 目录底下,这样就算完成了安装,此时 cloud code 就能识别到它的命令。 然后我们像往常一样在聊天框里发送自己想做的事情。比如帮我写个简历 pdf, cloudcod 就会加载本地的多个 scale 文件,将他们的 met data 一起发给大模型, 大模型识别返回当前需要哪个 skill, 告诉 cloud code。 cloud code 加载对应 skill 文件到系统提示词里发给大模型。 大模型根据需要,让 cloudcod 依次读取可能需要参考的多份资料,甚至是执行本机代码脚本,生成 pdf, 并将结果给到大模型,大模型最终输出完整结果给用户,完成整个流程。那 skill 跟 mcp workflow 的区别是什么呢? skill 和 mcp 的区别我们知道,大模型就像大脑,为了让他能够操控外部工具,大佬们引入 mcp 协议,他就像给大脑配的手一样, mcp 插件就是手上的工具, 给一个大学生一堆工具,他也不一定能修好车,毕竟他缺的是经验和流程。所以才有了 skills。 你可以将它理解为是操作经验,规定在什么场景下,按什么顺序组合,使用哪些工具。注意,这里提到的工具既可以是 mcp 插件,也可以是本地的 script 脚本。 看上去 skill 像是编排工具,那他跟 workflow 又有什么区别? skill 跟 workflow 的区别我们知道,很多任务其实可以拆解成好几个步骤,比如做视频,可以分为找选题、写文案、做分镜等几个步骤。为了解决这类流程化需求,不少大佬开源了一些低 代码工具,比如 n 八 n, 通过拖拉拽的方式快速构建一条流水线。这种通过规则配置,把多个步骤进行编排和调度的流程就叫 workflow。 skills 本质上也是做逻辑编排,但跟 workflow 不同的是, workflow 的流程结构在设计阶段就确定好了,而 skills 的执行流程则由大模型驱动,灵活性相对更高,两者最终都能做到类似的功能。所以不那么准确的说, skills 可以简单理解为是大模型驱动的 workflow。 现在大家通了吗?好了,如果你觉得这期视频对你有帮助,记得转发给你那不成器的兄弟。文字版的笔记见评论区最后遗留一个问题,哎,算了不留了,提前祝大家新春快乐呀,祝大家暴富暴美暴帅! 评论区告诉我你还想了解什么?这里是小白的 bug, 我们聚焦一切可能影响人类历史进程的技术,如果你感兴趣,记得关注我们,下期见!嘟嘟嘟嘟嘟嘟嘟嘟嘟。

在 oslopec 发布 agent skills 两个月之后, openai 现在终于支持 agent skills 了, 现在我们就可以在 codex 的 最新版中使用 agent skills。 同时 openai 官方还发布了 gpt 五点二 codex 模型, 我们只需要确保 codex 已经升级到最新版,然后用斜杠命令加 model 就 可以查看。 g p t 五点二 codex 模型我这里选择的它的推理级别,选的是 high, 这里也支持 extra high。 通过我一上午的使用发现 g p t 五点二 codex 模型它最大的缺点就是速度太慢了,像一个简单的任务,它可能需要耗费五分钟甚至更长时间。 本期视频我们将在 codex 中测试一下 agent skills 的 使用方式以及效果,并且在 codex 中重点测试 gpt 五点二 codex 模型的编程能力。 好视频呢,开始我们可以先简单回顾一下 agent skills。 对 于不了解 agent skills 的 用户来说,我们可以先通俗地讲解一下什么是 skills。 aging skills 的 本质就是把人类的专业知识还有工作流程用机器可以理解的方式固化下来,让 ai agent 呢能够稳定可控可附用的来执行任务, 这样的话就能将 ai 从聊天助手变成了可控的工程工具。我们可以将没有使用 skills 的 ai 或者 ai agent 呢理解为一个非常聪明但没有经过培训的员工, 每次布置任务都需要口头讲一遍规范。有了 skills 就 相当于给员工配备了工作手册,所有流程和规范都写在 skills 里面, ai agent 就 可以随时翻阅。比如说我们在让 ai 写测试的时候,如果没有 skills, 每次我们都要告诉 ai 帮我写测试,要使用 test 覆盖率达到多少以上,命名规范是怎样的,每个测试都要怎样怎样,然后 ai 就 会按照我们的提示词来写测试。 当后续我们再要求 ai 来写测试的时候,我们还需要重复一遍之前所用到的提示词,像这样的话非常浪费时间。但是有了 skills 之后,我们可以将测试做成 skills, 也就是将所有的测试规范脚本还有模板都放入 skills 文件中。当给 ai 配置好这个 skills 之后, 我们再需要测试的话,直接告诉他帮我写测试,那么 ai 就 会完全按照这个 skills 里的这些测试规范脚本还有代码自动为我们执行测试。相比 mcp agent, skills 非常节省。 token, 当启动时只加载 skill 的 名称和描述,而且可以根据任务自动匹配。 而且 skills 在 执行时才会完整地加载 skills 里的所有内容还有附属资源。所以有了 skills 的 支持,我们就可以为 codex 增加各种技能以及增加各种知识。在 codex 中使用 agent's skills 非常简单。 首先我们要确保将 codex 升级到了最新版本,然后我们再用命令打开 codex 的 配置文件。 在 features 这里我们要将 skills 设为 true, 下面这里还给它设置了权限,这些设置好之后,我们直接保存并且关闭就可以。然后我们再启动 codex, 再使用斜杠命令来查看 skills。 这里有自带的三个 skills, 这个 pptx, 还有这一个都是我手动安装的。 想安装 skills 非常简单,我们只需要选择这一个 skills, 在 后面我们就可以输入 skills 的 仓库链接,比如说我这里使用 oslopec 的 skills 仓库,我们可以进入这个文件的路径,这里面就列出了非常多的 skills, 比如说我这里找一个前端设计的 skills, 然后直接完整地复制它的链接,再回到 codex, 我 们直接粘贴这个链接,直接运行就可以,它就会为我们安装我们刚才选择的这个 skills。 这里安装成功,我们只需要重新启动一下 codex, 就 可以看到我们刚才安装的这个前端设计的 skills, 然后我们就可以选择这个 skills。 在 后面我输入了提示词,开发一个登录页的 ui, 可以 看到这里它读取了 skill 点 md 文件,这里提示它使用前端设计的 skill 完成了登录页的 ui, 然后我们打开这个页面看一下效果, 打开之后我们就可以看到这个登录页设计的非常不错,非常美观。下面我们还可以测试一下,让它为我们制作 ppt, 然后我们输入命令,找到做 ppt 的 这个 skill。 我 输入的提示词是把这篇关于介绍 agent skills 的 文章做成十页的 ppt。 受众是开发者,风格是极简,深色,语言是中文,这里是要输出的文件名, 这里就是介绍 agent skills 的 文章链接,也就是这一篇文章,然后我们直接发送,好在等待了几分钟之后,它终于制作完成,然后我们打开这个 ppt 看一下效果,它确实制作了十页 ppt, 可以 看到它制作的这个 ppt 效果还是比较不错的,完全符合我们要求的深色极简风格,并且用中文介绍了 agent skills。 下面我们就可以在 codex 中测试 gpt 五点二 codex 模型的编码能力。 在测试之前,我们可以先看一下官方给出的 gpt 五点二 codex 模型的基准测试。在 swebench pro 这个基准测试中, gpt 五点二 codex 达到了百分之五十六点四,超过了 gpt 五点二以及 gpt 五点一。在另一个基准测试中, gpt 五点二 codex 也超过了 gpt 五点二以及 gpt 五点一 codex max。 好, 下面我们开始在 codex 中通过几个案例测试一下 gpt 五点二 codex 模型它的真实能力到底怎样。 好,下面我们准备一张 ui 截图,然后让 codex 为我们复刻这个 ui, 然后我们看一下它复刻的 ui 效果怎么样, 然后我们就可以输入提示词,用最适合的前端技术复刻这个 ui 页面后面我们就跟上这个图像,然后直接运行。在这里可以看到它调用了前端设计的 skill, 在 等待了十九分四十五秒之后,它终于为我们完成了这个 ui 的 复刻。 复刻这个 ui 的 耗时真的太久了,我们如果用 cloud code 的 话,基本上不到一分钟就能复刻完成。然后我们打开看一下它复刻的效果, 可以看到它复刻的这个 ui 总体还算可以,然后这些表格内容跟原图相比效果还算可以。它复刻的第二个表格跟原图相比的话,确实非常不错, 它基本保持了原图中的这些布局,还有样式。好,接下来我们再用一个非常简单的智能体框架转换题来测试,让它将微软的智能体框架 out 站编写了一个旅游智能体的简单代码, 重构为谷歌的 adk 智能体框架。可以看到这个旅游规划的智能体代码非常少,甚至不到一百行,但是我们上次在测试 gpd 五点二的时候,它没有实现将这个智能体代码非常少,甚至不到一百行,但是我们上次在测试 gpd 五点二的代码非常少,甚至不到一百行,但是我们上次在测试 gpd 五点二的代码非常少,甚至不到一百行,但是我们上次在测试 gpd 五点二的代码。 好,下面我们可以看一下这个提示词,先让他阅读谷歌 adk 的 官方文档,然后告诉他将这个旅游规划的智能体代码重构为谷歌 adk 框架的智能体代码, 要求保持原有智能体的逻辑和功能,并未重构后的智能体加入 ui 操作界面。然后下面这里就是刚才我们查看的不到一百行的旅游规划的智能体代码。我们直接完整地复制这个提示词,然后粘贴到 codex 并且执行。 像这个简单的任务,我们就直接用 web 扣领的方式让它直接阅读文档和代码,并且直接进行改写。 像这个测试题可以测试 gpd 五点二 codex 模型的信息解锁与文档理解能力,还有代码理解与分析能力,以及跨框架迁移,还有重构能力,还能测试多任务协调能力。所以这个题目用来测试 gpd 五点二 codex 模型还是非常适合的。在等待了九分五十三秒之后, 他终于完成了将旅游规划智能体的框架重构为谷歌 adk 框架。下面我们就按照他给的步骤运行一下这个项目,打开之后我们看到了这个 ui 界面,然后再输入框,我们就可以输入任务,让他规划三天的尼泊尔旅行,我们直接发送。 下面我们看一下这个智能体的执行步骤,还有结果是否正确。首先是输出的三天的尼泊尔旅行的一个简单计划,第二部分是当地特色,还有深度体验, 这个是没问题的。然后第三部分,它给出了一个最终的旅行规划,在微软智能体代码中,这里还包含这个当地的语言专家会给出当地的这些常用语, 但 gpt 五点二 codex 它改写后的这个代码就缺少了语言专家这个智能体。所以这个测试题虽然它耗时将近十分钟,但它并没有复刻微软的这个旅行规划智能体所有的执行流程还有逻辑。 好,下面我们准备一个更加复杂的开发项目,让他开发一个 ios 原声背单词应用,这里给出了应用名称,目标用户。这里是具体的技术要求,而且要遵循 mvvm 架构模式,并且使用 swift data 进行数据持有化,还要实现单词发音功能, 还支持深色浅色模式。这里是具体的界面结构,包括首页练习,还有进度还有设置。下面这里就是核心的功能,包括单词卡片, 还有发音功能,还有收藏等。这个测试题我用来测试 cloud code, cloud code 能一次给出完全可以正确运行,而且包含所有功能的代码。在开发之前,我们先用 x code 初步化一个项目,这里我们就选择 ios, 选择 app, 下一步这里我们就输入项目名称,然后我们选择一个文件夹, 然后我们打开终端命令行,切换到刚才的路径,再打开 codex, 我 们先用 edit 命令让它来创建 agent 文件,这样的话它就能学到我们部署化后的这个项目的这些内容。好,这里运行完成耗时将近两分钟。 由于这个测试题目比较复杂,所以在 codex 中我们可以先让它为这个开发任务制定计划,我们直接调出它的计划模式,然后粘贴这个提示词直接运行,先让它根据我们的开发需求来制定一个完整的计划。 好,可以看到这里它调用了制定计划的 skills, 它这里只耗时四十八秒就完成了计划的制定,这个速度还是非常快的,然后这里它询问是否需要调整细节,第二个就是直接实现,第三个就是保存到这个目录,然后我们这里就让它根据计划直接实现。 由于这个项目比较复杂,它开发估计需要非常长的时间,我们直接略过这个开发步骤,直接跳到它开发完成的步骤,这里耗时将近三十三分钟,终于完成了这个项目的开发。下面我们在 xcode 中测试一下这个项目能否正常运行, 我们先点击运行,看一下能否正常的翻译好,这里提示报错,然后我们直接先复制一些报错发给他,让他来修复,这里修复完成,我们再测试一下。好,这里提示翻译成功。 好,这里又出现了报错,然后我们将报错发送给 codex, 这里提示修复完成,然后我们再运行一下,看一下这次能否正常的执行,然后还是出现了报错,我们还是让他来修复 好,这里提示修复完成,我们再运行这里,还是报错,我们还是发送错误给他,然后我们再运行, 还是出现报错,我们还是让他继续修复好,这里修复完成,我们按照他的提示清空一下模拟器,然后我们重新运行好,这里终于能正常打开这个 app, 但是这个界面竟然是英文的,他没有用中文的,可以看到这里可以正常做练习,这里终于加载出了单词, 可以正常翻转 line, 可以 听到能够正常播放声音。下面我们让 cloud code 分 析一下他开发的这个项目是否遵循了我们提示词中的 mvvm 架构模式, 然后我输入提示词,检查这个项目是否符合 mvvm 架构模式,直接发送 cloud code 很 快输出了回答,我们看一下他说这个项目部分符合 mvvm, 然后这里提到了所有代码都在这个文件中,约两千多行。然后我们在 xcode 中查看一下,可以看到这个文件中的这些代码真的达到了两千多行。然后这里就是需要改进的地方,应该拆分为多个文件,并且这里给出了典型的 mvvm 势利。 通过 cloud code 的 分析,我们就发现了这个非常不应该存在的问题,它将两千多行代码都放在了这个文件中,这是非常不应该的。好,通过测试可以发现 g p t 五点二 codex 它确实相比之前的 g p t 五点一有了一些提升。

现在市面上所有的 a 键的工具都配备了 skill 功能,如果你还没用过 skill, 或者用了以后感觉依然有点懵,那这期视频请一定不要错过。哈喽,大家好,我是专注于动画科普 ai 的 阿 k, 今天我站在新手角度跟大家好好唠唠 skill 到底是什么,怎么用,以及使用过程中要注意哪些坑。 skill 其实就是一个 markdown 格式的文本文件,注意,这里的 skill 必须大写哈,这个文件里存的其实本质上还是提示词,只不过这里的提示词必须按照画面上的这个固定格式书写。 这个部分是配置区,它属于是 skill 的 身份证, name 是 它的名字,一定要用英文哈,因为你的 skill 点 md, 文件必须放在 name 同名的文件夹内,这个文件夹又必须放在 a 键的指定的目录,比如我用的 cloud 就 必须放在它的根目录下的 skills 文件夹中。如果没有这个文件夹,就自己创建一个, 那如果你的 name 是 中文,文件夹也是中文,意味着你的文件路径会包含中文。这样 a 键呢,在调用的时候是有可能报错的,所以 name 必须用英文。那如果不理解文件路径跟目录和文件夹结构的小伙伴,一定要抓紧时间恶补一下哈,这些知识既基础又重要。接下来的 description 是 描述定义它是干嘛的和什么时候调用, 这个部分是指令区,也就是写提示词的地方。它规定的是这个 skill 遵循的规则和采用的流程。之所以一定要用 skill, 是 因为它能实现按需加载。简单说就是没活的时候,它不占用任何 token, 只有匹配到任务了, ai 才会把这个 skill 点 m d 文件加载进来。这不仅能极大的节约 token 消耗,最重要的是能让 ai 随时根据你的需求切换不同的专家身份。总而言之,它就是好,就是棒,棒棒,就是该用。 那这里就又有个问题了,既然它本质还是提示词,那到底该怎么规划逻辑,才能让它按照我的需求老老实实干活呢?放心, cloud 官方早就帮咱准备好了一个专门生成 skill 的 skill, 跟紧我一分钟学会部署和使用。 大家直接把整个仓库下载到电脑理解压,找到 skills 文件夹中的 skill creator 文件夹,把它复制粘贴到 a 键的指定位置。比如我用的 cloud code, 就 直接扔进根目录的 skills 文件夹里。如果你用的是其他 a 键的工具,直接问他你的 skill 文件夹在哪,他会告诉你 配置好以后,我们启动 agent, 直接输入斜杠 skill, 就 能呼出这个顶级专家了。接着我们只需要用大白话描述你想创建一个什么 skill, 注意哈,你对需求描述的越清楚,沟通的越细,它生成的 skill 就 越贴合你的需求。如果你没有思路,也可以跟他一步一步探讨,也能得到非常不错的成果哈。 比如我平时经常要用 a 键的开发一些自用小工具,我就用它创建了一个名为 project manager 的 项目经理 skill。 它能让我这种不懂代码的人也能构建出结构科学、功能清晰且具备可扩展性的工具。这玩意用起来真的很顶那聊到这,估计大家心里都在犯嘀咕,这 skill 到底能帮我解决什么具体的问题呢? 我结合自己的实战经验,给大家盘了三个应用场景,相信总有一个能戳中你的痛点。第一个场景主要应对那些繁琐的杂活。 举个例子,大家平时经常开会吧,开完会总得总结会议纪要。以前咱得录音加笔记,会后还要花大量时间去腾抄归档,特别心累。现在有了 ai, 咱们可以直接做一个叫 meeting 的 skill, 把工作留定死。 第一步, skill 只会转写工具,把原始录音瞬间变成文字。但注意, skill 本身是没办法直接做语音找文字的,但这类工具往上一搜一大把,你随便部署一个到电脑里以后是可以用 skill creator, 它会自动帮你写好调用逻辑。 然后是第二步,剔除文稿中那些语气词。接着是第三步,深度分析会议内容,按需整理成档。最后是第四步,把文件自动保存到你电脑里的指定位置。那有了这个 skill 以后,开完会你只需要把原始录音直接甩给他,他自己就去调兵遣将跑完整个流程。 这种一键扫荡的爽感,你用过一次就再也离不开了。甚至如果你的需求更复杂,比如要经常查找不同会议里的重要节点,或者要合并拆分不同的文件,都可以塞到提示词里。 第二个场景是一个真实案例,我每周日都会发一个 ai 新闻回顾的视频,我专门做了一个 skill 来把这个视频生产的各个环节串起来,让我不用在各种工具和网站中切来切去。具体的大家可以看看我这期视频讲的非常详细。 第三个场景就属于是高级玩法了,它是通过同时加载多个 skill, 构建一个完整的生产流水线,这适用于需要多个专业环节配合的复杂任务。 比如在内容生产场景下,你可以配置三个 skill, 一个负责通过数据检测来分析选题,一个负责按固定风格创作文案,最后一个负责排查违禁词和逻辑漏洞。这种模式的核心优势在于,你不再需要分布输入指令,也不需要手动把上一步的结果复制给下一步。你只需要下载一个初始任务编辑呢,就会自动按顺序调用这三个 skill 来完成。 这种模块化的写作,能极大降低大模型在处理长任务时容易出现的逻辑偏移,也就是我们常说的幻觉。这个场景其实还蛮复杂的,我自己也在慢慢构建,以后有成果了会第一时间跟大家分享。 最后有小伙伴想让我聊聊 skill 和 mcp 的 区别,其实一句话就能说明白, skill 是 提示词、是指令,是流程,而 mcp 是 工具,是接口。 skill 可以 调用 m c p 来扩展自己的能力边界,但 m c p 永远只能在 skill 划定的规则下干活。 ok, 那 以上就是本期视频的全部内容了,我专程用动画科普 ai 的 阿 k, 无惊无险又到六点,下了个班儿。

这是你朋友给你发的神秘工具,有的能生成好看的照片,有的能让 ai 越狱,还有的能一键复活。老大,离谱的 ai 用法总是离不开离谱的提示词和工具,渴望学习的你是在评论区找大佬分享,还是晚上偷偷来我家让我教你呢?其实这些都不用,因为这个 game 上爆火的 skills 项目可以解决一切问题。 不过在说它之前,我们首先要知道,最近全网吹爆的 skills 真的 那么万能吗?它背后的原理又是什么呢?小白又要如何用它?本期视频将带你一探究竟,同时也会分享几种离谱的玩法,建议各位在父母的陪同下使用。在使用之前,我们先来诉通一下 skills 究竟是什么。 二零二五年十月份的时候,一家叫 ansopik 的 公司先提出了名为 cloud skill 的 技术,然后基于这个技术又推出了 agent skill 开放标准,让起初只能在自家软件上使用的 skill 也可以在其他软件上使用。不 过即便这么良心,这个标准制作完成后,它还是不温不火。但是随着时间的流逝,它的好处也在慢慢显现,因为 skill 可以 很方便地分享给别人使用。于是有不少人自发的将自制的 skill 上传到 github 上,吸引网友下载, 结果好评如潮。有人夸他的功能非常离谱,有人夸他非常节省偷啃。这是因为他用了一种叫做渐进式批漏的技术, 也就像洋葱一样,一层一层一层的把提示词给 ai 看。例如,这是一个 pdf 处理技能,可以分为三层,第一层叫做原数据,包含技能的名字和描述。第二层叫做指令,这里写着给 ai 看的工作流,比如让他用什么工具从 pdf 中提取文本。 第三层是参考资料和代码,让 ai 在 执行工作流的时候按需阅读。所以相较于传统提示词按需加载的特性,让它不仅能实现复杂的功能,而且占用上下文的长度会更小,也就更节省。头等, 如果你没有听懂的话也没有关系,会用就可以,除非你对 skos 的 底层细节非常感兴趣。那么你可以看看这篇官方文档和架构图, 我在这里只讲它最核心的几点。那么接下来呢?我们讲讲 skills 有 哪些离谱的用法和技巧。我们先来看几个案例,例如你想做一个产品动画,只需要像这样抒你的需求,完全不需要你懂剪辑就可以达到很好的效果,还可以拿来做软件宣传片, 或者那种高大上的数据动态演示,是不是非常香?再看这个剪辑技能,它能帮你下载播客这类长视频,再剪辑出其中的精华,然后生成带双语字幕的短视频,还能配上发布文案,非常适合做切片。另外还有这个漫画技能,想要批量生成漫画,只需要输入一个编好的故事, skill 就 会将 ai 加载特定的提示词,让 ai 一 连串的执行操作,生成这样的效果,看起来是不是画面非常精美,还有分镜和对白。 最后再推荐一个去 ai 味的技能,要比我之前推荐的提示词会智能不少。这里还有一个技能,下载的排行,热门的 skill 都可以在这里找到。以上提到的技能链接以及安装教程我也都整理好了,放在了视频的下方,你可以自取。 看到这里,想必你对 skyo 有 了一定的了解,但我还想提醒的一点是, skyo 并非适用于任何场景,因为简单的任务提示词就够了,复杂的系统需要写代码才行。而 skyo 适合处理中等难度的任务, 当流程繁琐但又不值得为它开发一个 app, 使用它就好了。好了,以上就是本期视频的全部内容了,如果你觉得有所收获的话,不要忘记点赞收藏。最后,我是元宝,一台 ai 和黑科技的挖掘机,我们下期见!

梅猴王朋友们, agent skill 最近真的太火了,但很多朋友肯定还是很困惑, skill 到底是啥?有什么牛的?没关系,草旅从 skill 大 全它来了。 今天呢,我们会通过一个逐步升级的案例来理解 skill 的 结构和原理,然后我们还会学会定制自己的 skill 这个 skill 呢,只需要我们说帮我做一个促销海报啊,优惠券,员工服装,它就会生成符合我们品牌风格,带 logo 的 物料图片。 另外,我也会推荐给大家一些好用的必用的 skill, 比如说帮你的文章配图,把杂乱的知识变成教学网页,一句话处理表格等等等等。 我还做了个秋之技能生成器,大家只要回答一下 ai 给的选择题,为你量身定制的技能就轻松完成了。并且今天所有的资料链接以及补充资料我都做成了一个网页,大家只需要一步步的跟着做,跟着看,就一定能搞定, 非常值得一个点赞收藏关注哦!来吧,准备好我们 go go! go! 首先,到底什么是 skill skill 呢?翻译过来就是技能呗, 它其实和人类的技能是类似的,比如说你是一个厨师,那你就有炒菜的技能,处理食材的技能,摆盘的技能等等等等。那每个技能里面,比如说炒菜技能,这里面就包含了你的流程,你要先炒什么,后放什么, 还有你的配方,你的油温多高,盐放多少。有了流程和配方呢,你可能还会需要一些工具,需要煤气灶什么的, 甚至你可能还会有一些独家的材料,有一勺秘制辣椒酱什么的。那 agent 的 技能也是同理,它要来做菜,它也得有流程、配方、工具和材料。 所以在 agent skill 的 术语里面呢,它就是 skill 点 md, references, scripts 和 assets 这些东西打包成一个文件夹,这就是一个技能,一个 skill 了。我们先来个简单的, 比如说我们要做一个写作 skill, 那 我们就在 skill 里面可以要求他先去啊这些网站去搜集信息,然后再按这个爆款原则去写个大纲,然后再参考这个语气来写稿啊,最后按照平台要求来审稿等等等等。那有朋友就很疑惑, 那这不就是写提示词吗?哎,本质上还真是的,毕竟啊,我们跟大模型的交互其实都离不开提示词, 但是呢,这并不是 agent skill 的 全部,它在工程上是有很多优势的,能做的肯定比我们拷贝粘贴提示词要多很多。好处我们后面都会说到,那先让我们通过创建一个 skill 来理解它的结构和原理, 我这里用的是谷歌反重力来做编辑器来看文件,然后呢,用的是 cloud code 来做 agent 来处理任务。这俩东西的下载方式呢,我也都放在资料里了,非常清晰简单,大家一步步跟着做就行了。 接着你只要在反重力的这里创建一个项目,比如说我的就叫丘之 project 吧,然后呢,我们调出终端, 输入 cloud cloud code 就 调用出来了,这个界面大家看着会有点复杂,但是不要怕,跟着我一步步来就可以了,之后我们跟 agent 的 对话都会在这里进行。 ok, 那 我们开始创建, 那我们先要做的是一个最简单版本的 skill, 后面呢,我们会逐步升级的哈, 那现在假设我是一家轻食店的老板,那这是我们秋之餐厅的一个品牌 logo, 那 我希望做一个 skill 呢,能够按照我的品牌调性和视觉规范,帮我们去想各种物料的创意,做一个创意生成器。 那按照 cloud 的 规定,我们创建一个 skill, 得在规定的点儿 cloud skills 文件夹里面去创一个 skill 文件,那我们用最原始的方式,直接手动的来创建这些文件夹哈,点儿 cloud skills, 然后我们再创建一个文件夹,这个文件夹的名字呢,就是我们 skill 的 名字,我们叫它秋之创意吧。那这个 skills 的 文件夹里面呢,必须规定有一个 skill 点 md 的 文件,这个大写的文件,那文件里面放啥呢?我已经写好了, 粘贴进来,那就是这么些文字。好了,这就是一个 skill 了,大家先压住脑子里面的问号,我们再来细看一下,那这个文件里呢,上面这两个横线里面的它叫做元信息 matlab, 写着两个东西啊,一个呢是 skill 的 名字,一个呢是 skill 的 描述,这两个东西专门用来告诉 ai 这个 skill 叫什么名字,是干嘛用的,什么时候可以用它,那我这就写着是做创意物料用的啊,当用户说要做个海报什么的物料,他就自己触发它了。 而下面这些信息呢,叫做指令 instruction, 其实就是具体告诉 ai 怎么样做的一些提示词喽。 ok, 那 我这写了我们的餐厅叫做秋之餐厅,品牌的风格有这么些要求,输出的格式让他是这样等等等等,非常的简单哈,那我们保存好一个 skill, 真的 就创建完了?来,我们启动 cloud code 来问问他,你有哪些 skill? ok, 你 看,他现在就已经识别到了我们的秋之创意 skill 了。 ok, 我 们直接问他,我要做一个秋之餐厅的春节促销海报,让他给个创意 好,他这里就开始提示我们,他正在加载这个 skill 了,我们同意 ok, 他 就输出了创意,并且是按照我们的要求和格式来的。 那有朋友就受不了了,哎呀,这一通操作不还是提示词吗?跟我自己写一段这个提示词存着给 cloud code 看有什么区别呢?最大的区别之一在于它是按需加载的, 什么意思呢?其实啊,当我们正常的这样跟 cloud 去聊天的时候,大模型它只会看到我们这个 skill 里面这两行短短的圆信息。 只有当我们说我们要做一个秋之物料的时候,他才意识到,哦,该看具体的指令了,他才会去加载这下面这部分的完整指令,否则这些他都不会看到。 这样的好处就是方便我们可以同时拥有很多个 skill。 每次 a 正的都会看一遍所有 skill 的 简短的原信息,但是只有当 a 正的意识到他要去具体调用一个技能了,他才会去看下面的一大堆指令,而且 ai 的 回答也会更精准, 因为他没有了其他提示词的干扰,那 ai 加载的少了, open 自然也就省了一堆。那这是他按需加载的第一层。 当然了,刚刚这个 skill 实在是太基础了啊,就算一口气把它下面的指令都加载完,好像 token 也不多哈。 但是如果我们的要求变得复杂了呢,比如说我们秋之餐厅的物料其实分很多种, 常规的呢,有海报、菜单,也有比较特别的一些实体物料要设计,比如说餐盒、杯子,员工服装,还有一些社交媒体的物料,比如说公众号封面,微博配图等等等等,他们的尺寸都不一样,配色要求也不一样, 还得符合各平台的一个规范。每一个物料呢,我们都假设它有详细的长长的说明,那这时候我们如果把所有物料的要求都写进 skill 点 m d 里面,那这个文件就会变得巨长。 但是很多时候呢,我只是想做一个,比方说实体餐盒的设计大模型,根本就不需要知道公众号封面的规格,但是 ai 还是得把整个文件都读一遍,那这就造成了 token 的 浪费,也可能会造成一些信息干扰。那怎么办呢? isopec 就 又规定了一个文件夹叫做 references, 我 们呢可以把实体的物料和社交媒体的物料这个两个规格单独拆出来,单独的给它放到这个 reference 文件夹里面去。 那这个实体物料规格点 md, 我 们就写一些线下的工服呀,餐盒之类的要求, 那这个社交媒体物料规格呢,我们就去写公众号封面呀,微博配图这些的尺寸和要求,甚至我们都可以拆得更细。 然后呢,我们只需要在 skill 点 m d 这个总指令里面只留下那几个常见的物料要求,并且我们还需要写上一个指引 啊,告诉他如果用户要做线下物料的话,那就要去读这个实体物料规格点 m d。 如果要做社交媒体类的图,那就要去读社交媒体规格点 m d, 那 现在同样的一句话, 他给出的方案就更精准了。这样当我们只做常规物料的时候,这两个 reference 的 文件大模型压根就不会看。然而当我们说做实体参合的时候,他也会通过 skill 点 md 的 指引,只去看 reference 里面的这个实体规格文件, 那这就是它的进一步按需加载了。那我们可以想象,我们可以有好多种不同情况的 reference, 反正它只会在需要的时候自己去看指定的文件。 但是现在我们的秋之创意 skill 呢,只能输出创意,还得我们自己去做图,所以呢,我就还想让它可以按照我们的品牌规格,直接帮我们把图做出来, 也没有问题。那这就要用到 skill 的 另一种文件夹了,叫做 scripts, 那 这个 scripts 里面呢,一般放的是一些可执行的脚本, 那我这里呢,实际上也就放了一个非常短非常简单的脚本,其实就是在调用 nano banana 的 api 来生图的一个脚本。那有了这个脚本之后呢,我们还得去 skill md 里面在指令里说一声,告诉他,如果用户要求直接生成图片, 那他就得把之前我们想的这个创意转化成生图的提示词,然后按照这个命令去调用这个生图脚本,这样他就能一句话自动去生成精准的图片了。 不然我们还得自己去拷贝提示词,打开软件再粘贴,再生成,再下载保存,现在我们一句话就搞定了。 另外我还有个需求,我希望深层物料的图片能保持秋之餐厅的 logo 不 变, 所以我们还得给他几张 logo 图作为深图的这个参考。那我们就可以再建一个 最新规定的一个 s s 文件夹,我们把两张的 logo 图片放到这个文件夹里,当然我们还要回到 skill 的 md 里面,告诉他参考图在这个 s s 文件夹里面,如果要深图的话,需要把这个图片当做参数给脚本传进去来执行。 好朋友们,现在这个 skill 就是 一个完整的官方完全形态了,其实有点像我们在用自然语言写程序,对吧?那我们先来试试效果,来帮我做一张周六饮料免费的一个实体海报, 你看它发生了什么?它先是加载了这个 skill, 然后它内部可能发现啊,要做的是这种实体物料,它就要去看另一个解说,于是它去检查了这个实体物料的规范。那并且它意识到我们需要的是直接生成图片, 所以呢,它又生成了提示词,把这个提示词和 logo 图片一起给到,并且运行了这个脚本。那最后它输出的图片告诉我们,在这里我们看看结果, 你瞧瞧它这个尺寸,配色 logo 是 完全符合我们这个品牌规范的啊。那为了防止这个是一次性的结果,我还多试了几次,它这个深层的效果都很不错。 然而如果我们的要求还跟之前一样,我们只要创意并不要直接深图的话,那他的这个脚本他也不会被执行。 而且呢,刚才我们说到这个 scripts 脚本,这里面其实还有一个重点,这个脚本里的代码它是写好了的, agent 根本就不需要去看里面写了什么,它只要知道我们在 skill 点 m d 里面写的那些指引,告诉它传什么参数,会输出什么,它只管运行脚本就行了。 所以不管我们在 scripts 里面写了多少行代码,大模型它都不会去读取,一点 token 都不占。 当然了,如果我们在 skill 点 md 里面的那个指引写得不够清楚,大模型不知道怎么用这个脚本,那他有可能也会不得不自己去看一下这个脚本,但他的机智和园艺是不需要去读这些脚本的。 好,那我们来回顾一下,其实创建 skill 就是 在指定的文件夹下去创建一些文件,那最简单的 skill 呢?只要一个 skill 点 m d 就 够了,里面有这个原信息和指令,而完整形态的 skill 可以 加上 references, script s s 这些可选的文件,那这些东西是怎么配合工作的呢?这就是 skill 最重要的设计。按需加载的三层结构,第一层,源信息。 这一层呢,是始终加载的, ai 的 每一次对话都会看一眼所有的 skill 的 源信息,它去看到自己有哪些技能,就像一个目录。那第二层,指令层, 这层是只有当 ai 判断并且决定我要用这个 skill 的 时候,它才会去加载完整的 skill 点 m d 文件。第三层,资源层, 这层包括了 reference 里面的参考资料, scripts 里的脚本, assets 里的资源。只有当 ai 进一步判断任务需要更详细的信息,或者它需要执行某个脚本的时候,它才会去按需加载,并且脚本它是只执行不读取的,完全不占用托克。 好了,这下我们完全理解 skill 的 按需加载,也就是官方定义的渐进式批漏机制和三层结构了。可是对于普通人来讲,这又是写 markdown 又是脚本的,好像创建一个 skill 还是挺复杂的。 no no, no, 现在谁会用手写呢?我是用这个创建 skill 的 skill 啊,秋之 skill creator 创建的。 那这个呢,是我基于很火的 skill 创建器改良的一个更加互动式,更加小白的一个 skill 创建器。那大家把它下载下了以后,放到这个点儿 cloud skills 文件夹里面就好了。那下好之后,我们想要创建什么 skill, 直接打开 cloud 直接跟它说就行, 或者我们也可以斜杠来调用他,那他呢,会开始一步步的引导和追问我们,来帮我们梳理这个需求。而且我特意设计的是这种用选择题的方式来追问我们整个过程,我们就只需要用大白话回复他的问题,以及按一按上下键做一做选择题就好了。 他这个追问的过程啊,到时候大家问题可能和我现在这个不一样,因为他会根据你的需求去做灵活的调整啊,他都是现编的。 然后呢,这个过程中因为我们要做图片,所以我们还需要给他提供 logo 图的参考,以及那个 nano 不 nana 的 a p i 和文档。那我也给他直接拖到了这个项目文件里,然后告诉他了一下这个文件的路径, 他就会自己去参考和把它们放到 excel 文件夹里面。那这两个素材我也都已经放在了我们的课后网页上了,大家可以去用做练习来试试复现它。 那问完这些问题之后呢,他还会给我们核对一下方案,如果我们看着方案没问题,那他就会自动帮我们生成所有的 skill 文件了。 那做好 skill 之后呢,他还会帮你想几个例子来跑一下测试。我们这里其实测了好几个,风格都很一致,很好看。大家在这个调整的过程中,也可以去点开他写的这些 skill 文档来手动的修改一些,反正都是提示词嘛。 所以总之只要你有明确的输出要求,或者有明确的方法规范流程知识,创建器就会指引你帮你来写出一个定制的 skill。 而且除了自己创建,网上也有很多现成的 skill 资料里,我也整理了一些集合网站和 skill 仓库,成千上万的 skill, 大家可以去逛逛。并且我也给大家打包了几个普通人常用的必备 skill, 比如做 ppt, 处理文档, excel, pdf 这些基础的,我们直接把它拖进 skill 文件夹就可以,一句话让它帮你把乱糟糟的表格梳理得整整齐齐。 还有这个官方的前端设计 skill, 这是直接让 cloud code 生成的前端网页,而这个是挂载了这个前端 skill, 做出来的网页,效果明显大幅提升。还有这个动画生成的 skill, 用这么一段提示词就可以做出这样一段演示动画。 当然大家也不用去装一堆自己根本用不上的技能,一个游戏英雄也只需要四个技能 q w e r 就 能杀遍全场。所以最有效的还是把你最最高频做的几件事,打磨成一个你独家的稳定产出的 skill。 尤其是你对结果有明确的要求,你有经验和方法,你验证过的事情。 比如说打工人,你的周报每周都要写,那就做一个让 ai 来主动采访你,然后出周报的一个 skill。 比如说老师每节课都要背课,那就做一个你只要给出课题,就能给你一整套课件习题和 ppt 的 skill。 又比如说,你总是要给你的文章配图,那就做一个给他一篇文章,他就按你的风格做配图的 skill。 又比如说,你总是在审核,那就做一个按照你的规矩自动批阅合同来写备注的 skill。 因为大多数的人都不需要成为一个技能开发者, 我们只要先把自己掌握的小技能交给 ai, 让他替你重复劳动。好了,资料链接都在评论区了,大家动手试试吧!这个时候呢,点赞、收藏、关注的技能就该出发了,我们下次见了!

最近 agent skill 这个词真的火得一塌糊涂,但说实在话,真正懂它本质的人是少之又少。上周末我参加四三 college 的 活动,当时一位分享者终于让我把 skills 的 本质用大白话理解了。他说,这三年 ai 圈变化那么快,但是有一件事情从来没变,本质上都是 prompt。 当时全场都懵了,就明明从这个 prompt engineer 提示词工程,到上下文工程、 context engineer, 再到最近很火的 agent skills 概念换了一轮又一轮,怎么还是 prompt? 然后他笑了笑说,太多人把 prompt 狭隘的理解为用户提示词就是你跟大模型聊的对话,但其实无论概念再怎么包装,其实在模型的眼里,这些概念都从来没有变过本质。这句话让我整个人都清醒了。 然后他就开始拆解 agent skills 的 本质。他说,本质上, agent skills 就是 一个 markdown 文件,是对大模型窗口的一种工程学的改造。 这是什么意思呢?就是你知道现在大模型的上下文窗口能做到多大吗?两百万头肯听起来很厉害对吧?但是这时候问题来了,就是资源是昂贵的,而且注意力是分散的, 就像你同时打开一百个网页,那你的电脑即使再好也会卡顿,对吧?所以怎么精心地呃设计、裁剪跟拼接,未给模型的文字去列,就成了非常关键的事情。这时候他开始拆解 agent skills, 他 画了三个框,然后他说, agent skills 本质上就是由这三个部分组成。 第一个框叫做原数据,有点类似于你通讯录里面的花名册,他可以告诉模型说,哎,这里有一百个技能,那么谁是做算力的,谁是做餐饮的,而且只会消耗几百个头肯,所以非常的省钱。第二个框叫做指令,也就是我们熟悉的提示词, 这里的提示词不是用来聊天的,而是用来塑造一个工作环境。第三个框叫做资源,这里面装的是代码文档和数据库,只有当你举手说,哎,我要买算力,那那个做算力的技能才会激活,他的指令,才会开始加载,然后他背后的团队工程师、供应商,也就是他的资源 会被暗区调取出来。那如果你不触发呢,那些庞大的资源就会静静的待在那里,完全不会消耗你的头肯,费用,也不会占用模型的注意力。你看,这就是 agent skills 渐进式疲劳的魅力。 然后那个老师说了一句话,他说过去的 prompt 是 你问,大模型答是一个聊天,但是现在的 agent skills 是 给了大模型手和脚,这什么意思?就是 agent skills 可以 访问你的电脑文件系统,它可以调用你的代码解释器, 甚至可以在你电脑的 bash, 就是 那个黑框框里面直接执行命令。你现在可以跟大模型说,欸,遇到你不懂的,你可以打开我电脑第一盘里面的某个文件夹的文件,欸,那大模型它真的能做到, 所以它不再是一个聊天工具了,而是你的数字员工。所以你可以看到,其实这三年 ai 圈的概念满天飞,但其中始终不变的就是那个 prompt 提示词,从 prompt 到 context engineer, 再到呃, agent skills, 名字在变,但其实它的本质是不变的,我们现在做的所有努力都是在抢占,还有精心装修那个非常宝贵的模型上下文窗口。 那现在很多 ai 圈人还在追新概念啊,今天学 gbt, 明天学 cloud, 后天又学一个什么新出的新工具。但真正懂行的人早就看透了,在模型眼里,众生皆为头肯, 仔细输了一点的 no 号,然后把它提炼为简练的提示词,这才是 ai 圈里不变的道理。听懂了这个逻辑,你才算真正拿到了 ai 下半场的入场券。那么周末的呃,关于 agent skills 的 小笔记我也整理好了,需要的跟我说。

一分钟搞懂大语言模型、 ai agent 以及 skills 的 区别。 ai am 也就是大语言模型,是靠海量文本书记为出来的高级人工智能,主要用来理解和生成人类语言。当你用文心语言豆包或者 kim 的 时候,你就是在用 ai am。 而 ai agent 它是一个软件系统,能感知周围的环境,自己做决定并采取行动,有一定自主性的去完成特定的目标。想通一灵码定定的 ai 助理都是很好的例子。 再聊聊他们的用途。 alim 特别擅长根据训练学到的模式来生成文本,你给个指令,它就给你个回复,一来一回啊,默认是单次交互,而且不带记忆的。而 ai agent 就 不一样了,它其实把大约模型当成自己的一个核心大脑,同时又给自己加上各种新的能力,它们能自己分步骤去行动,去完成目标。 大约模型只能在自己吃进肚子里的数据和预设功能里打转。而这里提到的外部工具和资源,就是所谓的 skills。 如果说 l a m 是 大脑, agent 是 用这个大脑的数字员工,那 skills 就是 这个员工手里掌握的工具包了。单靠 l a m 是 没法直接帮你发微信领高铁票的,它必须调用特定的 skills, 才能打破自身数据的限制,跟真实的外部世界打交道。所以 一句话总结啊,大约模型负责跟你聊天,生成文字, skills 是 用来干预现实世界的具体工具,而 ai agent 则是负责拿着工具,但是大脑真正帮你把事搞定的。


接下来我们将用一个 hello 的 小例子来理解 skill, skill 呢有几个组成部分,一个是 skill 的 文本文件,文本文件里包含了它的 metadata, 比如名字啊,比如说它描述,这个描述是作为所引来给大模型,让大模型在合适的时机来调用这个 skill。 那 么接下来部分呢,是一些引用文件, 比方说我们想解手一些 token, 在 合适的时机去调用引用文件,那么这时候呢,就可以用到引用的文本文件。第三个部分是 script, 我 们可以告诉大模型 scripts 的 使用方法,当它有合适的时机的时候去调用这个 scripts。 然后其他就是一些 这样文件了,当我说 hello 的 时候,它会返回一个固定格式的内容,当我说 hello word 的 时候,它会返回 hello word, 加上当前的时间。当我说你好的时候,它会每次返回一个鼓励的话夸奖我。 那我们来看一下它的实现,特别特别简单。首先呢一个 skill 文件夹,文件夹下面有个 skill 点 md, 这么一个文件 name, hello, 和文件夹上层目录的名字一模一样。 description 可以 有些关键词,让大模型决定在合适的时机来调用这个 skill。 比如我用的就是 hello, when user input hello, 还有 text, hello hi, 你 好, ok, 那 具体的呢?给它解释。当我输入 hello 的 时候呢,就仅仅回复这个, 加上 version, 那 version 调到这个,当我输入 hello world 的 时候呢,它就调用脚本,把脚本的输出内容返回给我,那脚本在哪呢?就在这里, hello world 加当前的时间,当我输入你好的时候呢,它会从这个引用文件里边选择一段话发给我, ok, 是 不是非常简单呢?你学会了吗?

hello, 大家好,我是文墨啊,我们最近拉了一个团队,是专门做 webcoding 类创业的,那么有很多人很好奇说我们已经讨论了这么久的 webcoding, 那 么什么是 webcoding 呢?什么是 agent? 什么是 skill? 什么又是 web? 四点零, 我今天用两分钟时间给大家讲一下最近的科技趋势吧。 webcoding 呢,中文就叫做氛围编程,那什么叫氛围编程呢? 就是以前 ai 只会回答你的问题和信息,比如说今天天气怎么样,或者说呢,我问的这个问题答案是什么?但是外部限定呢,是一类 ai 工具,也就是说你跟这类 ai 工具说出你具体的需求,它就会自动帮你写代码。当然在一年前,两年前,在 cloud 和 cuda 诞生之后呢, 外部定制一直是不怎么被人看好的,但是随着 codex 五点三,甚至是最近两天 codex 五点四模型的诞生,其实很多就是程序员,甚至 可以说是对代码一窍不通的文科生,都可以通过特别准确的 prompt, 也就是提示词去生成想要的东西,而且这个处理信息的速度和生成代码的准确度是肯定要比一年前要强上好几倍的, 所以说大家也应该逐渐放下对 web coding 的 偏见了。然后第二个就是 agent, 什么是 agent 呢? agent 就是 能帮你干活的 ai, 比如说去帮我预定一下外卖,去帮我看一下今天大盘走势,或者说去帮我做一些什么事情,这种以任务型为导向的 ai, 它们叫做 agent。 然后第三点,什么叫做 skills, 也就是说 agent 是 你的 ai 助手,但是他本身是没有能力的 skill 呢,就像他的技能一样,比如说我给 agent, 比如说我给啊 codex 上一个 skill 叫做 ui u 叉 pro max, 这个东西是专门美化小程序或者说美化软件界面用的,如果没有这个 skill 呢,它就会生成特别丑的界面,但如果你给它装上这个 skill, 它就能生成一个特别好看的前端,或者说你给它加一个可以读 pdf skill, 所以 说 skill 呢,就是 agent 的 技能库。那么什么又是 web 四点零呢? web 四点零呢?是我孙哥,就是孙雨辰,他最近在一个社交媒体上说 all in web 四点零, 当然他一年前说过,奥, in web 三点零哈,但是还是简单介绍一下, web 一 点零呢,就是可以读不能写的,这互联网也就是类似于报纸。 web 二点零呢,是每个人都能参与进来,比如说小红书,评论可以点赞可以评论可以留下自己痕迹。那么 web 三点零呢,就是区块链技术,主张人人都可以拥有互联网资产。那么 web 四点零呢,就是以 ai 为导向,现在就是啊, web 四点零的目前的情况就是说以 ai 作为最高生产地去做很多东西,所以说 啊,大家应该也对目前的趋势有个了解了。那么最近非常火的 open klo 小 龙虾是什么呢?可能前几天的新闻也比较火,比如说广东深圳免费去装 open klo 小 龙虾,小龙虾,然后呢,在这个 某个办公楼面前都已经排满了 open collab 呢,它本身就是一个 agent, 但它非常聪明,比如说你让它查天气,如果你没有安装天气 skill 的 话,它会自己去联网帮你搜索,比如说你让它完成一件事情,你给它全部权限之后,它会动用你电脑里所有资源,会去上网搜索,会去下载文件, 会去以一种就是黑客帝国的形式去帮助你达到你的目标。所以说 open klo 会受到很多人的欢迎,有人用它去预测天气,有人他当做自己助手,甚至有人用它去操作,让他去玩啊,股票啊什么的啊。但是我个人还是, 呃,目前没有尝试过 open klo, 因为他要的 token 特别多,包括他要服务器也特别多,目前对我们团队没有什么特别大的帮助啊。但是后面我可能会 发几期部署 open 可乐小龙虾的模型,然后这就是本期的视频内容,也就是说一下我断更的这一个月我们大概在做什么啊?好,再见。哈哈。

为什么普通 ai 只会聊天,而 open class 能直接帮你学习写代码、做自动化?核心就是 agent skills 智能体技能。它是给 ai 装上的专业技能包,让 ai 从被动应答 变成能主动思考、调用工具完成复杂任务的智能助手,也是 open core 高效提效的关键。简单来说, agent skills 是 一种模块化的、可附用的能力单元,它将完成特定任务所需的领域知识、操作流程、工具调用方式及最佳实践全部封装在一起, 你可以把它想象成 ai 智能体的技能包或插件,让 ai 能够像人类一样掌握各种专业技能。从技术角度看, agent skills 被定义为一个四元组, s 等于 c pi t r, 其中 c 是 适用性条件。 applyability condition 用于判断技能是否适用于当前上下文。 pi 是 可执行策略, executable policy 定义了如何执行任务的具体步骤。 t 是 终止条件 termination condition 指定技能何时完成。 r 是 响应函数 response function 定义了如何生成最终输出。 agent skills 具有几个革命性的特征,使其成为 ai 发展史上的重要里程碑。 模块化设计是 agent skills 最核心的特征。每个 skill 都是一个独立的文件夹,包含必须的 skill m 文件和可选的资源文件。这种设计就像搭积木一样,开发者可以将不同的技能组合起来,快速构建出具有复杂能力的 ai 智能体。 例如,一个 ai 助手可以通过加载天气、查询 skill、 邮件发送 skill 和日程管理 skill, 瞬间变身为一个全能的个人助理。渐近式透露机制是 agent skills 的 另一个创新设计。与传统的一次性加载所有指令不同, agent skills 采用三层架构,第一层,原数据层, 只加载技能的名称和描述,约一百个 token。 第二层,指令层,当需要使用时才加载完整的操作指南。第三层,资源层,包含脚本和参考文档,按需加载。 这种设计带来了巨大的优势。根据实测数据,一个管理五十加 skills, agent 爱豆时的 token 消耗减少了百分之九十以上。这意味着 ai 可以 记住更多技能,而不会因为内存限制而无法使用。可附用性和标准化使的 agent skills 具有强大的生命力。 一个精心设计的 skill 应该能够跨不同的 agent 重复使用,在不同项目间共享,进行版本控制和集中改进, 作为人类意图和模型执行之间的标准化接口。要理解 agent skills, 我 们必须先弄清楚 agent 智能体和 skills 技能之间的关系。简单来说, agent 是 拥有执行能力的主体, 而 skills 是 赋予 agent 特定能力的模块。你可以把 agent 想象成一个数字员工,而 skills 就是 这个员工的各种专业技能。没有 skills, agent 就 像一个没有受过任何培训的员工,虽然有基本的理解和沟通能力,但无法完成具体的工作任务。 而当 agent 加载了各种 skills 后,他就可以像一个经验丰富的员工一样胜任各种专业工作。更形象地说, tools 工具是 ai 的 手,负责具体执行操作,而 skills 是 ai 的 大脑培训,负责思考如何做。在 agent skills 出现之前, ai 应用面临着诸多挑战,上下文窗口限制是最主要的问题之一。大语言模型的上下文窗口是有限的,通常只有几千个 token。 如果把所有的任务逻辑都塞进这个窗口,很快就会撑爆。例如,一个包含数百个操作步骤的复杂任务, 根本无法完整地传递给模型。既能赋用困难是另一个痛点。在传统模式下,每次创建新的 ai 应用都需要 从零开始编辑所有的指令和逻辑,这不仅效率低下,而且容易出错。例如,你为一个电商 ai 编辑了商品推荐逻辑,当你想在另一个项目中使用类似功能时,必须重新编辑代码。专业知识难以沉淀也是一个普遍问题。企业中的专家经验和最佳实践往往 存在于员工的头脑中或零散的文档里,很难系统地传递给 ai。 即使能够传递,也很难保证 ai 能够准确理解和执行。 agent skills 的 出现完美解决了这些问题。通过模块化封装、渐进式加载和标准化格式, agent skills 让 ai 能够轻松处理复杂的多步骤任务, 快速附用已有的技能和经验,像人类一样学习和积累专业知识,在保持高性能的同时大幅降低成本。好了,本期的分享就到这里,有想了解的技术或疑问评论区请留言,我们下期见。

最近爆火的 agent skills, 一个多月时间数量从三万充到了二十七万,翻了将近十倍。有做产品动画的 skill, 有 可以整理文档做 ppt 的 skill, 还有可以设计网页的 skill。 那 今天我们就来搞清楚什么是 skill, 有 哪些好用的 skill, 怎么找和安装 skill, 以及怎么创建自己的 skill。 每个 skill 就是 这样的一个文件夹。以这个周报 skill 为例, skill 点 md 是 核心文件。很多人会问,这跟平时的提示词有什么区别? 其实 skill 本质上也是提示词,但它真正的威力在于特殊的加载机制。这个机制分为三层,第一层是 skill 点 md 里顶部的 name 和 description, 它们叫做原数据, 如这里就记录着这个技能,是用来写周报的,下面的这些信息叫做指令,记录着写周报的流程。第三层是文件夹里其他的文件,叫做资源与代码, 比如这里的周报模板和制作表格的代码脚本。我们可以把一个 skill 理解成给 cloud 招了一个员工, 数据就是员工的名片,记录着员工的名字和能力,他们会长住在系统中, cloud 每一次接到任务会先扫描一遍所有员工的名片,匹配上了才叫那个员工来,员工来了才会按照工作手册,也就是指令去干活, 干到某一步需要什么才去取对应的资料或者工具。这个过程在技术上就叫做渐进式。譬如这样一来,就算你装了几十上百个 skill, 也只有在用到的时候才会加载,不仅极大节省了 token, 也保证了 ai 在 能力变强的同时不会被稀释掉注意力。 首先是 cloud 官方推出的办公四件套,可以让 ai 帮我们处理 word、 ppt 表格和 pdf。 比如我最近看到了一篇关于 web coding 的 深度长文,我就让 ai 帮我进行要点提炼,方便沉淀,形成自己的知识库, 还能快速生成 ppt, 整体结构非常清晰完整。第二个,动画视频生成 remote, 原本是程序员才能驾驭的动画工具,有了这个 remote skill, 你 只需要告诉 ai 每一段想要呈现什么画面,剩下的交给 ai。 海外已经有网友用它做出了这样的产品视频, 我自己也用这个 skill 做了两段,一句话特效,整体效果还是很不错的。第三个,网页设计。这个 skill 可以 避免 ai 的 通用美学, 做出一些风格化的页面设计,这是我没用 skill 生成的个人薄客网页,非常朴素,这是我用了 skill 之后设计出来的网页,大胆撞色,页面瞬间生动起来, 装上这个,让你的 ai 瞬间升级为设计师。第四个,头脑风暴。每当你有一个模糊的想法需要落地,这个 skill 就 派上用场了。它会使用苏格拉底式提问,帮你一步一步把想法具体化,最终形成一个方案。比如我想开发一个记账 app, 它就会一步一步的追问细节, 核心功能是什么, ui 风格是什么样的,形成设计文档之后才会进行开发。来看看效果,可以记下自己的支出,也可以记录收入、账本统计设置,该有的功能都有了。 说了这么多,那我们怎么自己找技能和安装技能呢?我给大家推荐两个网站, skills m p 和 skill s h。 skill m p 里输入了大量的 skill, 可以 按名称解锁 skill, 也可以按分类去浏览 skill six 点 s h 更适合看最近的热点 skill, 它有一个下载量的排行榜,也可以实时看到最近二十四小时内爆火的 skill, 随时都能尝鲜。那么问题就来了,这么多的 skill, 每次用的时候去找也太麻烦了。不用担心, find skills 就是 为此而生的。我们把这个网址给 ai, 让他大局安装 find skills, 安装好之后告诉他你想要什么样的 skill, 这个 skill 就 会自动在 skills 点 s h 上帮你寻找。比如我想找一个制作小红书封面的 skill, 可以 看到它会自动调用 find skill 这个技能去帮我们寻找。技能找到之后,我们就直接让 ai 安装就好。 它还有一个安全评级,可以帮你对 skill 做一个风险的初步判断。有时候我们可能需要把自己的工作流程做成 skill, 那 ansore pick 官方的原技能,也就是创建技能的技能就派上用场了。 skill creator 可以 帮助你按照 skill 规范生成 skill。 比如我想创建一个写周报的 skill, 它就会自动调取这个 skill creator, ai 会对我们进行一步步的引导,如这里它会提问使用场景、输出方式、 输出风格。比如这里我们就可以说包装一下语言,显得工作量多一些。这里他还会向我们提问需要包含哪些模块,那最后他就帮我们生成了一个周报 skill。 ok, 我 们来测试一下。 怎么说呢,这字还是很多的,本期就到此结束了,如果对你有帮助的话,记得点赞、收藏加关注。

大家好,呃,今天呢,想跟大家分享一下,什么是 agent, 什么是 tools, 什么是 m c p, 什么是 skills? 那 它们之间有什么样的联系,有什么样的区别?它们分别是解决了什么样的问题从而出现的? 那首先呢,说一说 agent, agent 其实不是一个非常新的概念,在大模型出现之前,其实就已经有 agent 这个概念存在了。但在大模型出现之前, agent agent 的 这个概念更多的是 automation, 也就是自动化,它做的一个事情就是自动化地去执行。 那它里面的这个逻辑呢?就是人来思考,人思考了之后来制定规则,然后 agent 呢,主要负责去执行。 比如说呢,一个典型的案例就是数据爬虫,那我先把这个页面里面我需要用到哪些数据,怎么去跳转的这个逻辑,人先思考了,先写好了,然后呢交给这个 agent, 这个爬虫的这个 agent 去执行,然后爬虫自动地去把我想要的数据给抓下来, 这是第一种。第二种呢,比如说像挂单交易,像呃股票里面,我让他二十三块钱的时候给我买进,二十五块钱的时候给我卖出,那他呢,也是人先制定好了一个规则,然后 agent 只是帮我们去符合这个规则的时候去执行。 还有一个非常典型的一个例子,就是自动回复的机器人,但这个里面呢,呃,人负责了前半部分的思考, agent 负责了后半部分的执行。 而大模型出现了。大模型他擅长的是什么呢?他就擅长思考,他擅长理解我们的语义,而且呢,理解语义之后,他是擅长把这个东西拆分出来的,但是呢,大模型他不擅长计算,不擅长执行, 所以说呢,我们就有了一个想法,那能不能说让大模型去替代前面这半部分的一个内容呢?也就是大模型自己去思考,自己去制定规则,然后自己去执行,那我们把这种呢也称为自主执行,那这个就是大模型出现之后,我们对智能体 啊它的一个概念的一个引申吧,就是也是一个愿景,就是智能体的一个自主执行。但是呢自主执行里面就出现了一个问题,那就是思考和执行之间,它中间是有 gap 的, 要怎么去解决这个 gap 的 这个问题呢? 还记得我们上一次在说,呃,大模型去调用代码的时候,那个时候呢,大模型的这些厂商,它使用的一种方式是使用特殊的 token id 来去标示说,哎,我现在要开始使用写代码了,我现在要开始要搜索了,我现在要开始查天气了。 之后呢,因为这些工具啊太非常非常的多,它不可能一直去加特殊的 id, 于是呢就衍生出他们把这个东西抽象出来了一个东西,那就叫做 function core 或者是 tools, 那 通过这样的一个呃抽象出来的一个 api 接口,那外面呢就可以对接各种各样不同的这个工具了, 那这个东西呢,也就让 agent 上面所说的思考和执行之间的 gap, 那 自主智能体就有了一种可能, 但是呢方程库和 tools 它有它自己的一个问题,就是它很难满足非常多的这个大模型非常复杂的一个场景, 比如说我这里有 gbt、 千问、 deepsea、 豆包等等,当然我们还有很多很多不同的模型,那如果只是用方程库和 tools, 那 我要用网络搜索的时候,呃, gbt 它要适配一次,千问要适配一次, deepsea 要适配一次,豆包要适配一次。 那如果我是一个查询天气的一个工具,他们四个又要全部都重新适配一次,那就又要适配四次。那翻开日历这个功能,假设啊,他们又要适配四次,那这边的模型其实也不止四个,会有很多很多。这边的工具其实也不止这三个,也会有很多很多。 那如果说在真正的使用的这个过程中,一定是出现这种非常复杂的场景的,那这样一个一个的去适配呢,就会导致非常的混乱,于是呢就有一个新的东西出现了, 那这个东西呢,就是 m c p, 它就是来解决这个问题的,那它是怎么解决的呢?它就是一个,我们可以把它理解成它就是一个中间商,它是一个中间转换,万能转换插头。它在这边呢,把所有的工具 啊,跟他们说,你全部都按照我的这个格式来规整,要支持我这个 m c p, 然后另外一边呢,跟所有大模型说,你所有大模型也按照我这个规则来去来去呃适配, 于是呢它就能把两边连起来了。那这个网络搜索只要我适配过一次 mcp, 我 就既可以在 gpt 上用,也可以在千万上用,也可以在 dsp 上用,也可以在豆包上用, 只要是所有的大模型,只要这个大模型它兼容 mcp, 我 就可以在它这个上面用,那这样的话就极大地简化了这两边相互对接、相互调用的这个复杂性。所以说我们经常也会看到说 mcp 呢,它是大模型的一个 usb c 接口,其实这个比喻还是非常形象的。 那前面这种情况呢,其实就有点类似于说,呃,以前 usbc 没有统一的时候,那苹果是苹果的那个接口,安卓是安卓的接口,而现在呢,就出现了一个 us types usbc, 这个接口把所有的 大模型和工具之间都归一化了啊,所以说,呃,这个比喻还是非常形象的,它解决了一个这样的一个问题。然后呢,我们再来看一看。呃,第四个这个概念就是技能。 前面我们说到了什么是智能体,什么是 m c p 啊?什么是工具。那这个地方我画了一个图,中间这个地方是大脑啊,负责思考,负责调度,负责嗯,理解语义。那我们中间这个大脑呢,就是大模型,旁边呢有 m c p, 它是一个标准化的一个接口 啊,把大模型跟各种各样的工具结合在了一起。那这个里面可能有斧子,假设有斧子,有剪刀,呃,有锯子,有绳子。但是呢,因为这个大脑它是一个通用的大脑,它没有很多的专业知识,所以这个时候就衍生出来一个新的东西,叫做 skills。 skills 呢,我们也可以把它看作是一个新人培训手册啊,就相当于这个大模型,它是一个刚来的实习生。 呃,他虽然可以学习,他虽然有学习能力,但是呢,他也知道一些基础的东西,但是呢,他不清楚咱们公司的流程是什么样子的 啊,他也不清楚,说这件事情他要怎么去动手?要怎么去做?所以说 skills 呢?他解决的一个问题就是他是一个新人培训手册,假设我这个里面有三个,或者其实有更多啊,比如说第一个如何砍树,第二个要做客户跟进,第三个要买最低机票的这个机票啊,这个三个不同的 skills。 假设我来了一个问题 大模型,他去判断说,哎,我现在需要砍树了,他就去解剖,哎,发现说我这里有一本砍树的新人培训指导手册,然后砍砍树的这个新人培训指导手册一打开,然后里面先介绍了,啊,我如何砍树,我这个 skills 大 概的一个简介啊,我是来介绍告诉你你要怎么去砍树的, 哎,然后大模型看了这个简介之后就发现说这个很对,现在的呃,我需要干的这件事。于是呢,他就继续往下深入,然后这下面就会继续写啊,我要砍树,我需要先用哪些工具?假设他需要三个工具,第一个是需要斧头,需要锯子,需要绳子,只需要这三个, ok, 然后呢,第一步,假设我先用斧头先去砍一下那个树,先砍出一个那个小的凹凹槽出来,然后呢,我在第二步再用锯子不断的去锯它。 之后呢,呃,差不多了,我再用绳子去拉这个树。呃,假设啊,假设它的步骤是这个样子的,那我这个如何砍一棵树的?这个 skills 里面的这个步骤就是按这三步去写了, 那这个时候 deepsea 呢,他就会一步一步地去阅读,首先他找到这本书看里面的简介,看了之后呢,哎,发现这本书对胃口之后,他就会继续往下看。他第一步,呃,我需要用斧子了,然后他就通过 m c p 去调斧子,把斧子给调出来, 调出来之后他砍完了斧子,他做完了,做完之后又去看这本书,然后这本书告诉他。第二步,需要用句子,然后大模型再通过 m c p 再去把句子给调过来,调过来之后句子的事情干完了之后再看,哎。第三步,要用绳子,然后再用 m c p 去把绳子给调过来,最后完成了这个工作。 所以说这个 mcp 呢,我们就把它其实就可以当成一个新人培训手册来去使用。那这个地方有一个问题啊,就是我可以把如何砍树这个东西写成一个 skill, 那 我能不能直接把它写成一个提示词呢? 其实呃,可以,但是呢它会出现一个问题,就是如果你直接把这所有的东西全部都写成提示词了,那也就意味着你需要把如何砍树里面所有的东西全部都写成提示词了,那也就意味着你需要把如何砍树里面所有的东西全部都要提前的写在这个 大模型的提示词里面去,那它首先会导致,呃大模型里面的提示词的量会变得非常的大啊,如果这个技能不是非常的复杂,呃,可以这样,但是它会好 token。 但如果说这个 skills 非常的复杂,那就很有可能会出现上下文爆炸的这么一个情况,也就是说你的上下文 会超出这个模型能承载的上下文的极限,因为你一次性把所有的东西全部都要写进去。而使用 skills 它有一个什么好处呢?就是大模型可以渐进式的去看,哎,他第一步先去找先看简介啊,这个简介符合我的要求,我才会深入的去看。第二步啊,要要要先去掉辅 子,然后他就只把辅子给调进来,然后再看啊。第二个步骤是要句子,然后再把句子给调进来。那如果说 我不用 skills, 直接用 prompts 的 话,那你就需要把这所有的步骤,把斧子、锯子、绳子,一口气一股脑子全部都要丢给这个大模型,它要一次性的去做这所有的思考啊。所以说呢, skills 它还有一个非常重要特性,就是渐进式批录, 也就是它是一层一层的啊,需要我才往下看,我不需要。其实这个 skills 它就放在这儿了,它不会进到上下文里面,那这个呢,其实也就构成了一个完整的一个智能体,中间是大脑通过 m c p, 然后对接了非常多的工具,这些工具其实是可以去做执行的, 而怎么去用这些工具呢?我可以用这个 skills 来去培训这个大脑,让这个大脑知道说,诶,第一步要用到什么东西,你第二步要用到什么东西?第三步要用到什么东西。而且呢它是渐进式批录的一个过程,也就是它每次只取它需要的东西,你不需要每次都一股脑的把所有东西全部塞到这个大模型里面, 那这个呢?就是一整个智能体的呃,大概的一个情况,那其中的大模型 m, c, p 工具 skills, 它分别代表的是什么样的一个意思?呃,这是跟大家今天分享的内容。

agent skills 到底是什么?别再把它当成工具。最近很多人都在聊一个词, agent skills 丛林构建 ai agent 这本书把 skills 给你讲的明明白白。很多人会把 skills 当成 tools, 其实不是 tool, 是 能力接口, m c p 是 工具接入协议。而 agent skills 是 在大模型参与推理的前提下封装好的可附用的执行能力模块。 书里讲的很清楚, skill 不 负责思考,它负责执行,大模型负责推力决策, skill 负责把任务稳定地完成。这一步其实是在解决一个工程问题。如何把推力和执行结合, 苏里用了一个非常具体的例子,一句话,生成 powerpoint。 在 真实大语言模型参与推理的情况下,模型先理解需求,再决定调用对应的 skill skill 完成确定性执行流程。它不是简单的函数调用式例,而是完整的工程实现流程, 你能看到从推理到执行的整个链条。如果你是入门者,苏里还给了一个扣子的案例。 agent skills 不是 一个流行词,它是一种工程,分层次路。如果你正在做智能体开发,想弄清楚 skills, tools, m c p 的 区别,从零构建 ai agent 的 这本书的内容非长此得志,细读一遍。

用 agent skills 做知乎检测是一种什么体验呢?它能比传统的分块儿加向量匹配的 r a g 效果更好吗? 大家好,欢迎来到库德明花园,我是花园老师。这一期呢,我们进入 agent skill 的 实战章节,上一期视频中啊,我们介绍了 skill 的 工作原理和使用方法啊,下面我们简单做一个回顾。 skill 是 最近 astropok 推出的一个 a 证领域的行业标准,它呢本身就是一个文件夹,里面存放着具体的使用说明啊,也就是 skill 点 md 更详细的参考文档以及可执行的脚本。 它的核心特性呢,就是渐进式加载策略。在 a 证启动的时候啊,它只会将所有 skill 的 基本描述加入 ai 的 上下文。那当用户发出需求的时候呢, 大家会根据 skill 的 描述啊来判断具体要调用哪个 skill, 对 了之后呢,再去读取这个 skill 的 具体的使用说明,然后啊,根据这个使用说明,进一步的读取更详细的参考文档,以及决定是否要执行某个脚本来连接外部世界。 那通过这样的模式呢,可以让 agent 既能节省大量的上下文,又能精准地响应用户的需求,找到并执行某个技能。 那 skill 的 使用呢,也非常简单啊,你只需要把它的文件夹放到特定的 agent 的 目录之下啊,比如说而 cloud 杠 skills, 那 ai 呢,就会在下次启动的时候自动识别到这个 skill, 并且根据用户的需求判断是否需要调用啊。下面呢,我们就来实战探索一下 skill 啊,有哪些有意思的玩法, 有我的粉丝都知道啊,我本人对传统的通过 truck 加 and bidding 这种实现 ig 的 模式有比较大的偏见啊, 虽然呢,这种模式最后也能调教出比较好的效果,但是啊,调教过程实在是太痛苦了。那我是真正的经历过这个过程的独胆啊,才会有这种感觉啊,相信很多同学也是感同身受的。所以呢,我一直觉得这种方案啊,只是当下的一种妥协模式啊,他终究会被时代淘汰的。 那最近呢,浪漫 index 的 创始人啊,他发表了一条 twitter 啊,我刚才的观点是比较类似的啊,他说 r g 啊,本身是没有死的啊,但是固定的 trunk 加 and binding 这道模式应该已经死了。如果 agent 可可以动态地去扩展周围文件的上下文,那么过多地考虑出一块的大小就没有意义了。 哎,我们可以想象一下啊,这个 agent skills 的 渐进式批量策略是不是有点这个意思呢?所以呢,我们考虑借鉴一下 skill 的 设计模式,来实现一个专用于知识解锁的 skill。 我 希望啊,他能帮我解决下面这些问题。 首先啊,他能够在指定目录里解锁我们关心的问题,比如啊,我让他从公司内部的智库找出最近三年的销售趋势,或者啊,从某个项目资料里找出所有性能优化的建议。 第二点啊,它能够跨多种文件格式进行联合查询,也就是啊,能够根据不同的文件类型选择适合的方式来进行读取和理解。比如说啊, macdown, pdf, excel 啊,这些不同的格式,它处理的方式是不一样的,但是啊,对于使用者来讲,是不应该去操心这些内容的。 第三点啊,不能一上来就把所有的文件全部读取出来,而是需要像人一样,先按一些关键词来逐步的缩小范围,最后再精准的打开少量的相关文件,快速的定位答案。这样呢,可以确保 ai 只需要用到比较少量的头藤啊,就可以准确的找到答案。 第四点啊,他不能简单的给出一堆命中行,而是呢,需要结合上下文,把问题相关的内容拼在一起,尽可能啊给出一条可读的啊,成段的这种回答。 最后啊,他需要能够支持在复杂的问题上进行多人查找,那比如说你问的是对某个政策的关键影响啊,他可能先在目录里锁定几分核心的 pdf, 然后在这些 pdf 里面按章节进行解锁,最后再结合所有之前解锁到的内容啊进行总结回答。 下面我们先来演示一下这个 skill 的 具体效果啊,然后这个呢,是我们在本地创建的一个数据之库啊,它里面包含了几个不同领域的知识,然后也包含多种不同的文件类型。那比如这目录啊,它主要是一些上市公司的具体的财报的数据,然后是 pdf 格式的, 然后这个目录里呢,包含了一些电商的订单的数据啊,比如说这个顾客信息,员工信息啊,订单信息之类的啊,主要是 excel 格式的。 然后啊,还有一些 ai 领域的行业的资料啊, pdf 格式的,然后以及安全领域的一些专业知识啊,有 back down 和 t s t 格式的,那可以发现啊,这个知识库它是非常的分散,并且包含多个不同的格式的,那我们的 skill 的 实际效果怎么样呢? 我们先来问一个金融领域的具体数据问题,我们让他解锁一下致富啊,三一重工前三大股东是谁呢?那首先啊,这个数据啊,存储在我们这个三一重工 q 三的财报的这个数据里面啊,这是个 pdf 文件,这里面有他前十大股东啊,在这个季度的具体的持股的情况。 哎,我们看到解锁成功了啊,这个具体的结果呢,跟实际这个文档里面的结果是完全一致的 啊,我们来看一下它的解锁的步骤啊,首先啊,它找到了我们这个 skill, 然后啊,它通过一些命令找到了我们这个知识库的文件夹,然后啊,它读取了我们这个知识库的目录的文件啊,然后啊,它应该是看到了这个海报的数据是一个 pdf 的 格式啊,然后它进一步的读取了 这个 skill 的 reference 啊,这里面有具体怎么样去处理这个 pdf 的 数据哎,然后它把我们这个 pdf 原本的 pdf 的 数据转换成了 txt, 然后下面啊,他根据用户的问题啊,拆解除了一些关键词,然后开始在这个文件夹之内进行剪辑啊,然后剪辑的过程中呢,他还是分段进行剪辑的,他并不是直接会去读取整个文件内容的,整个过程啊,看起来是非常的智能化啊,并且呢花费的 token 啊是非常少的。 然后下面啊,我们紧接着在这个文件夹追问一些问题啊,比如我问三一重工的母公司的附带表,他的情况具体是什么样的呢?哎,然后这个过程他就快很多了,因为前面他已经把这个 pdf 处理完成了啊,接下来呢,他只需要去使用啊相应的关键字进行剪辑就可以了。 那所以说呢,如果啊,我们本身这个知识库所有的文件就已经是纯文本的,使用这个 skill, 它的剪辑效率应该是非常高的。 然后我们再问一下另外一个文件里面的问题啊,问一下航天动力的啊,他这个前十大股东的持股的情况,哎,然后这个过程也非常快啊,他直接把这个 pdf 处理成了 tst, 然后去匹配里面的内容,很快的给出了结果啊,下面我们尝试问另外一个电商领域的问题啊,正确买了啥? 想要回答这个问题呢,他需要分析两个 excel, 首先啊,是这个顾客表,他需要在这张表里面找到啊,这个名叫证券的人,他的 id 是 什么?然后再去这个订单表,根据用户的 id 找,找到啊,他具体购买的商品是什么? 哎,啊,我们看一下分析结果啊,啊,依然准确地找到了数据啊,是蓝牙耳机。然后啊,我们再看一下它的步骤 和刚刚过程的区别呢,就是他额外去读取了 excel 的 具体啊,如何分析和处理的这个 reference。 然后呢啊,他根据这个 reference 里面给到的方法呢,去具体分析了这个这两张表里面的数据啊,然后正确的给出了结果啊。然后我们再问一个更复杂一点的问题啊,有哪些用户买了儿童绘本,在什么时间? 哎,这次 a 阵更快的给出了结果啊,这个过程啊,已经比较接近于我理想的 ai 智能知识解锁的形态了,其实呢,啊,这个过程也比较像我们正常的一个人啊,去一个大的文件夹里面去找,首先逐步的去缩小范围,然后啊,找到了不同的文件之后, 根据具体的这个参考文档啊,使用不同的脚本,然后去处理啊,然后最后啊,再把这个解锁的知识总结一下,大家觉得怎么样呢? 下面我们来看一下这个 skill 的 实现原理。首先啊,对一个能执行 skill 的 agent, 比如说 open code, 它本身就已经具备了一些基础的文件解锁能力, 比如 l s grab look。 那 我们要做的呢,就是在这个 skill 中教会如何更好地使用这些能力。首先啊,第一步,定位领域,通过分析用户的问题,然后结合知乎的目录导引,定位出知识可能存在的领域啊,也就是文件夹。 然后第二步,定位文件啊,使用 grab 这样的命令,在指定的目录文件里面进行查找,筛选出可能相关的文件。下面啊,再按照不同的工具去读取和分析这些文件的关键部分。比如说不同的文件类型呢,我们有不同的策略,比如啊,对于 markdown 啊,那我们就直接定位到匹配的段落,结合上下文进行分析就好了。 如果是 pdf 呢,我们需要编辑专门的代码去把 pdf 解析成纯文本,然后按页按章节去提取内容。如果是 excel 呢,我们需要编辑代码去提取和分析 excel。 然后啊,只看跟我们本次问题相关的表行和列,而不是把整份表格都提取进来。 那这里呢,还有两条关键的设计原则啊,第一个啊,间接式的解锁啊,尽量少读啊,但是读的要准确,优先去查找最可能有答案的文件。提取文件内容的时候呢,仅提取相关的行,必要的时候再进行扩展范围,避免无意义的投屏消耗。 第二,保持简单可控,那用户呢,只需要告诉他数据库在什么位置,其余的解锁策略都由这个 still 自动去完成。 另外啊,想要让这个知识解锁更高效和精准,还有两个技巧,首先啊,文件夹尽量我们需要按领域去划分,每个文件夹之内呢,只包含特定领域下的文件,比如说啊,金融数据,电商数据啊,另外啊,最好每一个文件夹之下啊,都有一个目录所有的文件 啊,也就是这个 data structure 点 and d。 那 如果说啊,我们文件命名不是很规范,而且呢,包含 pdf 等存件格式啊,这个就是必要的。那这个文件中呢,描述了当前文件夹下每个文件的用途, 比如说我们看一下我们的支付的数据啊,在这个电商的表里边,我们就通过这个目录所有文件啊,告诉他了每个文件里面都大概是一个什么样的数据。那这里呢,我们也参考了 skill 的 电竞式批漏的设计原则,如果有多几欠套的领域呢, ai 找到了这个领域之后,才会去读取这个领域的目录导引。 那这个 skill 具体是怎么实现的呢?其实啊,你把我们上面提到的核心流程,设计原则,关键技巧给到我们上个教程中讲到的 skill creator, 这个 skill 自己就可以帮我们创建出来了,我们只需要经过细微的调整,下面我们来看一下我们这个 skill 的 目录结构啊。首先是 skill 点 md, 它是这个技能的使用说明书啊,里面描述了如何去找本地的知识库, 如何根据目录缩影去逐层的剪索知识,对不同的文件的处理方式啊,具体去参考哪个 reference 以及啊最终的回答风格等等。那这个 reference 呢,具体放置了,具体去分析一个 pdf 或者 excel 的 时候, 再去阅读这个 reference 的 具体文档,会节省 token 和大冒险的注意力。那 script 里面呢,放置了一些 pdf 的 特殊的数据脚本啊,比如说解析 pdf, 或者说 pdf 转图片等等。 那如果我们的本地入户比较复杂啊,比如说后面你还会有其他的格式,我们就可以用这样的思路去扩展 reference 或者 script。 那 我们这个 skill 以及刚刚我们演示过程中使用到的这个 github 上,大家感兴趣呢,可以自己去克隆这个仓库,然后在本地自己去实验啊, 我们可以把这套方案理解为不需要预见向量数据库,本地目录级渐近式剪缩的 r g 啊,它的优势呢,主要在于,首先啊,不需要预见向量数据库 更清亮简单啊,适合快速搭建本地的个人数据库的场景。另外,剪缩更智能啊,传统的 r g 呢,主要靠向量匹配内容,大模型只做总结,而在这个过程中呢,大模型可以参与分词上下文的匹配和决策,并且可以智能进行调整。其实这就是一个典型的 agent 和 r g 的 工作模式啊。 当然呢,当前只是一个初步的尝试,它还有一定的缺陷,首先是首次解锁效率的问题啊,如果啊,我们分析的文件是一个 p f 或者说其他特殊的格式, 它需要先调用脚本进行转换,所以首次效率是比较低的。所以啊,如果你使用这套方案的话,推荐预处理为纯文本,它的它的解锁效率呢,会高很多。第二点啊, skill 的 调用稳定性 在多轮的检测之后呢, ai 可能会去忘记调用这个 skill, 从而丢失一些关键的处理步骤啊。这个呢,在很多其他的 skill 上也会有类似的问题,就要我们从这个 a 帧的扣端层面去解决。 第三啊, token 消耗是要更大一点的,因为整个检测过程是 ai 控制的,当第一次没有检测到想要的答案的时候, ai 会继续切换一些新的参数或者文件进行检测,直到找到最终的结果, 虽然结果更准确,但消耗的 token 可能要更多一点了。刚刚我们介绍的这个 skill 呢,是一个通用的知识解锁的尝试啊, 但是如果你已经有一个固定格式的支库,比如这样一个文档站啊,里面可能已经包含了多个本地的文档了,那我们还可以通过 skill creator, 让它去自己分析我们这个文档站,然后创建出符合我们文档站风格的知识解锁的 skill 啊。 然后啊,我们下面在这个 ezdecet 的 文档站这个仓库里面来测试一下。这个呢,就是我们 ezdecet 本地的这个文档站的仓库了啊,里面其实都是一些 macdown 的 文档。然后啊,我们在这个 skill 里面加入这个 skill creator 这个 skill, 然后啊,我们在这个文档站下打开 open code, 输入这样一段提示词, 我们告诉他当前项目是一个文档占包含多个 markdown 的 文档。我想创建一个专用于知识剪辑的 skill, 它可以替代传统的 r g 用于当前文档占的知识剪辑啊,你来帮我创建这个 skill。 使用中文 skill 的 基本思路是,先根据用户的问题提取出需要剪辑的可能关键字,然后使用 graph 命令找到对应的上页文,然后分析上页文。 如果解锁到的信息和问题不符呢,需要继续解锁其他可能的关键词,最大重试五次。好啊,我们看到这个 skill 已经创建成功了啊,它里面具体介绍了在我们当前这个文案站进行知识解锁的一个最佳实践啊, 因为这个文案站主要就是 markdown 的 格式,没有什么特殊的文件啊,所以它这里面只有一个 skill 点 m d, 没有其他的 reference 或者或者 script, 非常简单啊。下面我们尝试问一个问题啊,解锁支付如何使用 e z desc 生成评估数据集? a i 准确的给出了答案。然后我们再问一个 easy to set 有 哪些分块策略的问题,回答很快,而且答案非常完美啊。 通过这样的思路呢,大家就可以在任何一个你已经在本地建好的一个知识库里面去实现一个知识解锁的 skill 啊。好,我们本期教程呢就讲到这,如果本期对你有所帮助,希望得到一个免费的三连和关注。感谢大家,我们下期见。

hi, 大家好,我是西西, ai 圈又出新词了, skill, 上个月出的词,但现在好像不懂的话,别人聊天你都听不懂它在聊什么,尤其是当大家都在用龙虾的新天, 那 skill 到底是什么?说白了,它就是给 ai 准备的技能包,工具包,它不同于提示词,不同于工具,就是 tool 方圈括,也不同于智能体,它是一个一整套的方法论,就是当你遇到这个问题,你要怎么做这一套方法论。 所以呢,它一般包含三个东西,第一个就是一整套的操作步骤,第二套就是每个节点要调用哪些工具。第三套就是专业知识,我让 ai 去写合同,我可以让它去掉合同的 skill。 当我让 ai 去做财务分析、运营分析,我可以让它分别去掉财务分析、运营分析的 skill。 所以 skill 就是 一句话, 让 ai 遇到指定的命题的时候,知道要用什么办法,什么工具去解决。你可以把 ai 想象成一个全能实习生,像之前说的那样,那 skill 就是 它的专业技术证书,技能证书。下一条我继续讲它跟提示词 工具 agent 分 别区别在哪里,以及它的坑和案例。我是西西,记得点赞收藏关注哦,拜拜!