如果 ai 只能聊天,他其实什么都做不了。你让 ai 查天气,他不会真的去查。 你让 ai 分 析数据,他也不会打开表格。你让 ai 写报告,他甚至没有真正读过任何网页。听起来有点反直觉对吧?很多人以为 ai 像一个全能助手,什么都能做,但实际上,大语言模型本身只会一件事, 生成文本,那问题就来了,如果 ai 只能生成文字,它是怎么做到搜索资料、分析数据,甚至自动完成任务的? 答案是两个关键概念, tools 和 skills。 理解这两个概念,你就会明白 ai 为什么开始向数字员工。 一、什么是 tool? 先说第一个概念, tool 也就是工具。在 ai 系统中, tool 指的是一种外部能力接口, 简单来说就是 ai 可以 调用的工具。这些工具并不是 ai 自己拥有的能力,而是计算机系统本身提供的功能,搜索互联网,访问数据库,运行 python 代码,读取文件。 举个例子,假设你问 ai 帮我查一下今天北京的天气,如果没有 to, ai 只能回答你可以去天气网站查询,因为模型本身无法访问互联网。 但如果系统给 ai 提供了一个天气查询 to, 情况就不同了, ai 可以 调用这个工具查询天气 api, 获取实时数据,然后再把结果告诉你。 所以可以这样理解, tool 就是 ai 连接现实世界的接口,没有 tool, ai 就 像一个只会聊天的人,有了 tool, 他 才开始拥有行动能力。 二、什么是 skill? 接下来是第二个概念, skill, 也就是技能。如果说 tool 是 工具,那么 skill 就是 封装好的能力模块。什么意思呢? too 通常只完成一个简单操作,搜索网页、读取数据库、运行代码。但现实任务往往不止一步, 例如写一份市场分析报告,这个任务可能需要先搜索行业资料,然后抓取网页内容,接着分析数据,最后整理成报告。 如果每一步都由 ai 单独调用工具,流程会非常复杂,于是就出现了 skill。 skill 的 本质是把多个工具和逻辑组合在一起,形成一个完整能力, 例如一个叫做 market analysis。 skill 的 技能可能包含搜索行业数据、抓取网页内容、分析数据趋势、生成报告总结。 当 ai 调用这个 skill 时,系统会自动完成这一整套流程。因此 tool 更像是单个工具, skill 则是封装好的。能力模块 三、 tool 和 skill 的 区别如果用一个简单比喻来理解, tool 就 像是一把工具,例如锤子、扳手、螺丝刀,每个工具只能完成一种操作, 而 skill 更像是一项技能,修理汽车、安装家具。这些技能会用到很多工具,但最终目标是完成一个完整任务。 在 ai 系统中也是一样, tool 是 基础工具,例如搜索数据库、 python。 skill 则是组合能力,例如数据分析技能、市场研究技能、报告生成技能。 这也是为什么很多 ai a 阵的系统会同时包含大量 tools 和 skills。 四、 ai 是 如何调用工具的?现在问题来了, ai 是 怎么知道什么时候该使用哪个工具? 答案是 function coin, 也就是函数调用机制。在现代大语言模型中,系统可以提前告诉模型,你可以使用这些工具, 例如搜索工具、数据库查询工具、拍损执行工具。当用户提出问题时,模型会先进行判断,这个问题需要用工具吗?如果需要,模型会生成一个工具调用请求。整个流程通常是这样的, 用户提出问题,模型分析任务片段,需要调用工具。系统执行工具返回结果,模型生成最终回答。 例如,用户问北京今天气温是多少,模型会判断需要调用天气。 a p i。 系统执行工具获取数据, 然后模型根据结果回答,北京今天气温十八度,天气晴朗。整个过程看起来像是 ai 在 查询信息,但实际上是模型在选择工具。 五、为什么 tools 和 skills 让 ai 能力爆发?理解了 tools 和 skills 之后,就会发现一件非常重要的事情, ai 的 能力并不仅仅来自模型本身,很大一部分能力其实来自它能调用多少工具。 如果 ai 只能生成文字,它只是一个聊天机器人。但如果它可以搜索互联网,分析数据,访问企业系统运行程序, 那么它就可以完成越来越复杂的任务。例如,自动生成市场报告、自动分析销售数据、自动编辑程序、自动整理数据库。这也是为什么很多人开始把 ai agent 称为数字员工, 因为它不仅能回答问题,还能参与工作流程。六、未来的 ai 技能生态 随着 ai agent 的 发展,一个新的趋势正在出现。未来的 ai 系统很可能会拥有一个完整的技能生态系统,就像手机有应用商店一样, ai 也可能拥有大量可安装的 skills, 例如法律分析 skill、 财务分析 skill 数据建模 skill 科研助手 skills 开发者可以构建新的技能模块,而 ai 可以 根据任务自动调用。 在这种模式下, ai 不 再只是一个模型,而更像是一个可以不断扩展能力的平台。 七、总结今天我们讲了两个非常重要的概念, tools 和 skills。 tool 指的是 ai 可以 调用的外部工具,例如搜索数据库或 python。 skill 则是在这些工具基础上封装的能力模块,用来完成更复杂的任务。 通过方深 coin 机制, ai 可以 根据用户需求自动选择工具并执行操作。正是这些工具和技能,让 ai 从一个聊天模型逐渐变成能够完成真实任务的系统。换句话说,语言模型负责思考, tools 负责行动, skills 负责完成任务。 ai 也因此开始从回答问题走向执行工作。 最后留给你一个问题,如果 ai 拥有越来越多的技能,它会不会在未来取代人类的一些职业? 你觉得 ai 会取代老师吗?评论区告诉我 two, 也就是工具和技能 b 不 会取代,为什么?
粉丝73获赞474

cloud 他 们发了一篇文章,教大家怎么样去区分 skills 技能和提示词和它的一些项目,还有词,智能体和 m c p 工具。因为 cloud 他 们在智能体上面是发了非常多的一些工具,而且这些工具使用量都非常的广,为了避免大家有混淆,他们推出来这篇文章, 他就列了这样一个表格,今天给大家分享一下。首先就是最近非常火的 skills, 也是我个人认为他这个 skills 是 二零二六年会非常火的一个内容。 skills 技能 他提供的就是一些知识,其实相当于一个知识库,或者你的一些知识原则,他是有可以持久的,他并不是这种上下文, 包含着这种指令,或者也可以叫做提示词加代码,加一些资源文件,加载的时候是动态的,由智能体自己去选择并加载,可以包含代码,也可以对这些代码进行执行,并不是只是拿来作为参考的。 比如说专业的技能,你的工作流程都可以写成这样的一个技能提示词,它是主要用于 用户对智能体的一些提示,或者是这个智能体的一些系统提示词,它持久只能在单次对话里面,但是系统提示词不是,主要是这种自然语言为主,每个回合都会加载,不包含代码,快速请求, 主要是它的一个应用了,但是这个跟我们的也差不多,主要就是某一个项目里面它会有,比如说 cloud code, 它里面会有这种 cloud 这种初尺的一些文件系统,每一个项目里面的呃持久性,在每一个项目里面包含着文档和一些上下文,这个就是你的项目是什么样的就是什么样。 还有一个比较重要的就是子智能体,特别是在编辑程序的时候,做这个 cloud code 的 时候,使用好子智能体是验证是否能真实用好或者用对 cloud code 的 一个非常重要的指标。 它主要是提供任务的委派,比如说你要做某一个这个模块,那么你就可以创建一个子智能体,专门去做某一个模块。因为你如果在你的主智能体里面去呃做,既要规划又要做某一个模块,那么它的上下文就会被打乱了。 m c p 主要就是某一些工具具体的工具,然后由智能体自己去选择是否执行这个工具,它可以叫做代码的脚本, 让大模型自己去执行这个代码的脚本,但是它是使用 json 去调用的,而且它是不能查看这个 m c p 里面具体的代码的,只能由一些工具提示词去提示智能体是否要调用它。如果需要调用它,它就会输出一个 json, 然后去监控大模型或者智能体是否有 输出这样一个 json 的 格式,如果有输出的话,它就会调用具体的工具,这就是大概这样的一个区别。其实个人认为 skills 是 非常重要的, 它甚至要远远地大于 m c p 和可以结合这个子智能体来使用,因为 m c p 它的工具其实也可以把它作为代码放在技能里面,由技能去直接执行这个代码就可以了。 只需要一些比较特殊的 m c p, 比如说去查看文件,去编辑文件的 m c p 工具可以继续保留, 像很多具体的一些工具都可以使用技能的方式去把它内化下来,而且技能它比较轻,你可以随时去改动去更新,所以说技能是二零二六年应该会比较火的一个方向。

很多朋友问我呀,龙虾装好之后,感觉跟豆包没什么区别,可能呢,是因为你没给他装 skills。 今天呢,就给大家盘点一下 cloud hub 上面下载量最高的五个热门 skill。 那 第一个呢是 tavila search, 这个是龙虾的千里眼,装好它之后呢,它就能 实时搜索全网最新的动态,不再受大模型支持断层的限制。那第二个呢,是 self improving agent, 这个是最神奇的,我们叫它自我进化,它会记录报错和你的偏好。龙虾呢,能根据失败经验自己改代码,调提示词,真的用得越久,它就越像你,越来越懂你。那第三个呢是 fight skills, 龙虾的技能是超市,你不知道该装啥直接问它,它能根据你的任务,自动去 cloud hub 上面搜索并推荐最匹配的技能。那第四个呢是 summarize 啊,就是帮你总结内容啊,不管是一篇文章,一个视频还是一段对话,丢进去马上就给你提炼出重点。那第五个是 agent browser, 它能帮你打开浏览器,帮你点击翻页填表啊,那些重复的网页操作以后全部交给它跑自动化。那这五个 skill 非常实用,大家可以装起来。然后大家还有什么好的这个技能 skill 分享吗?可以回复一下。

ai 相关的概念层出不穷,比如说 r, e, g, m, c, p, prompt, scales, rolls, tools, 这些概念大家看起来都很像,自己知道它们是有区别的,但是又不明白区别到底在哪里,所以导致我们在使用 ai 或者说进行 a 准的开发的过程中,不知道自己应该加强哪一点的侧重的优化。 那今天这期视频就带你区分这几个概念,以及这几个概念具体都应该是侧重哪方面。首先我们先了解一下 prompt, 这个是最简单的了,就是我们在使用大模型进行对话的过程中,我们给他的提示词,这个提示词呢会给到大模型,也就是 l l m l l m 就是 large language model, 它就相当于是一个大脑,然后它会经过模型的一些思考给你返回出答案。第二个呢就是 rules, 这个呢就是一个大的规章,比如说我们在写代码的过程中需要定一个大的原则,比如说你不能随意删我的文件,在删之前你必须要经过我的确认,或者说哪些配置文件你是不能够修改的。 这些大的规章呢,作为它的一个总体的框架的约束,必须是在这个框架内进行,这就是一个 rules, 相当于你在一家公司,你要守这家公司的规章制度。 然后就是 toos, 我 们知道大模型呢,其实就是一个大脑,他只能够思考,但是他没有手脚,也就是说他不能够做一些事情,比如说你问他,我现在想点一份外卖,能不能帮我推荐一下并且下单,他能够给你推荐,但是呢大模型他不能帮你下单, 那这个 toos 就 相当于大脑之外的手和脚,大脑下达指令给这些 toos, 也就是让这些手脚帮你去做具体的事情,比如说帮你下单,比如说操作手机的相关的接口,然后录制屏幕 啊,并且呢接受你的确认,然后最终完成下单的这样一个过程。这就是 tos。 比如说稍后开发的朋友用到 ai 相关的模型呢,就是 spring ai 和 spring ai, 阿里巴巴还有 longchain four g, 这里边呢都有对应的。如何声明一个 tos 的 方法?比如说在一个方法上面加一个注解,然后给这个方法加上一些描述,这个方法具体功能的一些描述。那你在发起大模型调用的时候,把这些工具都调用到你的这个绘画中,他就会去思考,根据你提供的这些工具可以选择性的调用哪些方法。比如说 大模型它是不会计算的,它是只能够思考。如果说你给他定义了一个加法的这样一个函数,把它升为了一个 tos, 那 这样的话大模型就认识到你提供给我的有这样一个工具,那我就可以调用你的这个工具,其实就调用你的这个方法完成加法,并且给用户展示。那这个呢就是 tos, 你可以把它理解为一个人的手和脚,它是完成具体事情的最小的一个单元。然后就是 functions, 这个就是函数定义,比如说你想给当心提供一个工具,那你得告诉他这个工具应该怎么使用,也就是这个函数的一些定义信息。然后第三个呢就是 scales, 这是最近特别火的一个概念, 这个呢就是说把一系列的复杂的业务流程,把它整合成为一个功能包。我们如果说做一些简单的问答,直接问大冒险就可以了,或者说做一些简单的操作,用一些单一的工具就能够完成了。但是有一些复杂的业务流程,它是固化的,我们就可以把它抽象为一个功能的包,也就是技能包, 把这个技能包给到大模型,大模型会根据这个 scales 中的 markdown 文件,然后判断什么时候去加载这个 scales 包中的相关的 reference, 还有 size, 还有 scripts, 也就是资产引用和脚本,这些资产也好,这些脚本也好,是能够让大模型去调用的。大模型会根据你的要求,然后使用这个技能包中的指定的脚本。 比如说你封装了一系列图像处理相关的 python 脚本,那大模型知道你本次需求是要用到这样一个 scales, 那 他就会去这个 scales 的 包里找到对应的脚本,调用这些脚本完成你所交代的图像处理的任务。 所以说 skills 呢,它就是一个一整套的标准的工作流程。然后就是 mcp, 这个就相当于是一个协议。举个比较行的例子,比如说普通厂商生产的手机的接口都是不一样的,那如果说我买了一个手机,你买了一个手机,我们想要充电,我只能用我的充电口,我不能用你的充电口,因为两个手机的充电口协议不一样。现在安卓呢,就是统一了都用 type c 的 这个接口,就相当于统一了一个协议。 那在大模型里面呢? mcp 就是 这样一个身份,它是 iso 提出的一个通用协议,大家都按照这个协议开发自己的工具, 这样大家互相调用的时候就能够实现一个适配。原来可能是十个厂商分别提供了自己的一个工具,这些工具呢需要互相的调用,那十个厂商分别要和另外的九个厂商分别都要建立这种协议的适配,那这样的话就会很复杂,对于各个厂商来讲都是成本和负担很大的。 但是如果说现在有了这 m、 c、 p, 那 十个厂商都按照这个标准来开发,那标准是一样的,大家在开发和调用的过程中就能够实现完全的一致。再有就是 r a g 解锁增强生成, 你看他的名字就体现了他是用来解锁相关的数据,并且增强生成文本的能力的这样一个工具。我们知道大模型他在训练的过程中是需要一些数据的,但是这些数据他不可能实时更新。 比如说训练好了一个大模型,然后你要用这个大模型去解锁你自己公司的一些业务信息,或者说内部文件信息,那大模型在训练的时候其实是没有拿到你这部分私有的数据的。那这个时候怎么办? 我们就可以通过这个 r、 e、 g 把我们内部的资料,内部的数据,我们私有的这些数据,把它通过项链化的形式存储到数据库里。然后用户在向大部行提问的时候,首先会把用户的问题先转化成为项链,然后去项链库中和你保存的那些公司内部的文件,他们对应的项链进行一个相似度的解锁, 比如说用户的问题是什么最好吃,然后在此之前呢,你往数据库中插入的数据呢?包含了什么最美味这样一个问题,以及对应的答案。 用户的问题和数据库中这段话,他俩的向量的相似度就会很高,这样的话就会通过解锁的方式,把相关的文本从向量数据库中解锁出来,然后把用户的问题和从数据库中解锁出来,相关度最高的这些数据一并给到大模型,然后大模型再给予这些数据给出回复, 这样的话就能够实现实时的查询你给他提供的这些数据,根据这些数据回答你的问题。然后就是几个概念在几个维度上的对比,算是一个总结吧。 prompt, 它就是一段指令,你告诉 ai 当下做什么,它就给你对应的回复。 rose 呢,就是规定一个边界,你做什么事情都不要超过这个大的框架,大的限制,就像公司的规章制度一样。 toast 呢,就是我们大脑之外的手和脚,大脑发出指令,让这些手脚去做具体的事情,比如说帮我们点外卖方式呢,就是帮助大模型理解 toast 是 在什么时候被调用,它就是对于函数的这样一个定义。 再一个就 scales 就是 封装了一系列复杂的业务流程,这些业务流程是被固化了的,也可能是提供了一些比较针对性的技能包,可能是一些脚本,可能是一些引用,可能是一些资产,比如说一些前端开发的相关的 scale, 它里面会封装一些前端优化的技巧,或者说提示词,或者说图片,或者说一些脚本, 然后用这个 skills 呢,就能极大地增强你的大语言模型处理你具体的这个 scale 对 应的问题的能力。然后就是 m c p, 这个解决的就是大模型的工具之间互相调用,或者 a 阵的之间互相调用,它们要遵守一个相同的协议,这样的话就能够统一标准,极大地降低了调用方和被调用方之间沟通和开发的成本。 再就是二 a j 解决私有领域知识不能够被大模型了解的这样一个问题,你可以把你私有领域的知识向量化存储到向量化数据库中,然后在向大模型提问之前,先去这个数据库中查找和问题相关的数据,然后把相关的数据和你 用户提出的问题一并交给大元模型,然后让他给出你回复。下面是这几个概念之间的关系图,大家可以了解一下。比如说这个 scale, 它就是一个整个的流程,这工具呢就是最小的执行单元, scale 呢就封装了这个流程,并且在里面写好了在什么情况会调用什么工具的这样的提示词。再就是刚才提到的 m c p, 它解决的就是接口一致的这样一个问题。我是不吃辣的 chris, 关注我,带你了解更多 ai 相关的开源项目和知识。

一天一个 skills, 今天分享的是 agent tools。 为什么你的 ai agent 看起来很努力,但做复杂任务总是翻车?因为 ai agent 默认只能思考并输出文本,但现实任务通常需要调 api, 读写文件,执行脚本。 这个 agent tools, 他 让你的 agent 从会说话变成会做事。他把一百五十多种前沿 ai 模型能力封装成 ai 助手可以理解并执行的操作。他的思路特别像真实团队,不是让一个人从头干到尾,而是给其他 agent 派活。 他就是一个项目经理,负责拆任务,验收合并结果。然后他会把任务丢给能具体干活的 agent, 研究的只写作,审稿的只挑问题。 比如我让他研究 opencloud 的 赚钱机会,他他会搜集资料,分析总结,拷写文档,最终生成一个研究报告交付给你用了。你会感觉到不是我在用 ai, 而是我像带了一个小团队,我只负责目标,他们负责分工,把事情做完。如果你现在的 agent 总是写着写着跑偏,你就该试试这个 skill, 把一个大脑拆成一只队伍。

嗨,我是 al 酱,今天和大家聊一下 skills、 智能体、工作流的本质区别。很多人认为 skills 可以 替代工作流,我并不这么认为。智能体工作流 skills 并不是替代关系,而是互补关系。你用什么工具,取决于你的需求、任务复杂度和你自己本身的技术能力。 如果你还在纠结这三个东西怎么选呢?给大家一个非常直观的比喻,那智能体就像是一个会聊天的 ai 助手啊,还能帮你干活儿。 你给智能体一个系统提示词,你跟他对话,他会根据你输入的那句话来跟你进行交互。所以说智能体的核心是对话交互,他的强项是理解你的需求,解决你的问题。就像你跟一个顾问聊天一样,你问什么他答什么。 当然,如果你想让他帮你完成一个固定的流程,帮你干活,比如说每次都要按照 a、 b、 c、 d 这四个步骤帮我整理笔记,就需要你在设计智能体的时候,就让他调用固定的工作流,拓展他的能力范围,让他直接自主执行。所以说 工作流更像是一个可量化的任务剧本,每一步做什么啊?遇到 a 走哪条路?遇到 b 怎么办?不管懂不懂代码,都能按照自己的想法,在各个节点中编排这些数据, 导演整个流程。所以说工作流非常适合一些任务复杂的编排,适合一些高定制的任务,比如客户定制某个项目,需要多分支决策,需要动态的一些循环,还需要人工经常去调整一些提示词,那这些场景工作流就很上场。 而且工作流画布中的每一步都是自己编排的,这就代表着我们每一步都可以自己修改,自己完善。所以说,工作流的强项是可控性和复杂性,你可以精准地控制每一步应该怎么执行? 那 skills 呢?更像是现成的技能按钮,每一个按钮会对应一个固定的功能,比如生成原创的绘本,生成一个 ppt, 一个文案,不用编排节点,点了就直接可以用,更像是一个可以拿来即用的小工具啊。所以 skills 的 优势是非常容易上手,适合新手小白。 但是也有个缺点,当你使用别人的 skills 生成的内容不符合你的预期的时候,反复调整还是不符合你的要求。当你不懂代码,你是没有办法直接修改 skills 的。 这一点上其实并不太灵活,小白只能做一些简单的需求,根本替代不了主流的工作流搭建。 所以总结一下,智能体适合需要聊天互动啊,灵活响应的场景,比如客服问答、内容咨询、创意对话。那工作流更适合复杂的 固定步骤的任务,像多步骤的数据处理、自动发周报、企业级的定制等等。那 skills 更适合简单重复的活,现成的小工具,点一下就能用,比如快速生成文案,翻译文档等等。

ai agent, 也就是 ai 智能体,要真正的让它跑起来呢,离不开三件东西。上一期呢,我们讲了 prompt 提示词和 toots 工具。今天呢,我们讲第三件事, agent skills, 没有它的话,前两天事情全白搭,有没有发现啊,就是我们在给 ai 配置了这种身份,也就是系统提示词 system prompt 之后,也给它装了像 mcp 这样的强力的工具, 看起来也挺像那么回事了,对吧?但是我要给各位同学泼一个冷水,就是能干活和干好活中间啊,还差着十万八千里了,它缺的不是什么工具,而是具体的方法论。这就是我们今天要讲的最后一块拼图, agent skills, 也就是教 ai 怎么用好工具的 sop 操作手册。有同学可能会问了,我把这个怎么干好活的 sop 写到这个系统提示里面不就行了吗? 啊?不行,原因有两个,第一个就是塞太多信息的话, ai 会精神分裂,你就好比说你让一个会计一边在迪厅里边蹦迪,然后再一边给你算账, 你说他能算吗?他肯定能算出来,但是问题是他的错误率肯定也很高。 agent skills 其实就是做的是把 ai 关进一个静音的图书馆里边,这一刻他的世界里边就只有会计准则了,专注度肯定是百分之百,这叫做什么上下文卫生 a 证 skills 呢,可以做到物理隔离,保证了每一个垂直领域下的专业度都能够是百分之百输出的。第二个呢,就是 ai 啊,都会有一些上下文限制,也就是我们所谓的大脑的容量是吧?也就是他每一次对话都能够记住的信息总量是有上限的, 你把几百页的这种税务法规全塞给他,他只会记住开头和结尾,把中间最关键的条款直接给忘了。 a 证 skills 呢?不强迫 ai 把这些内容全都给背下来,而是 像书一样给它放到一边,遇到具体的问题呢,专门去找对应的那页去读。听到这呢,可能有时候就有点懵逼了,是吧?那是不是要我去写一个很复杂的程序,根本就不需要 agent? skills 最性感的地方其实就是在于你不需要是个程序员,你只需要是一个懂规则的好领导,或者说是懂流程的一个好管理。 哎,知道怎么去做就 ok 了。所以这里边只需要四步就行,第一个就是见文件夹,第二个就是写说明书,第三个就是 c 资料,第四个就是放工具脚本。我们直接用三个最真实的场景案例带你走一遍。首先我们先拿一个职场场景的案例来说啊,最简单的一个就是我的嘴。替给大家举个例子, 你是一个客服,每天要回几百条的微信,想让 ai 呢,用你的语气帮你进行回复,而不是这种 ai 味儿是吧?只需要新建一个文件夹,里边放上一个 skill, 点 md 文件在里边写清楚,你是九五后创业者,说话只有干货,不讲客套话, 结尾呢,要给对方一个明确的下一步行动,禁止用亲啊家人这类词汇,这样一个 skills 就 完成了。具体的文件内容和效果大概是这样的, 给到我们的需求,他就可以给我们不同的选择。是不是很简单,你只要把你的脑子里边的规则变成一个文档就可以,只要有了这个文档, ai 瞬间就会从一个路人甲变成你的私人助手了。 接下来呢,我们稍微进阶一下,就是让 ai 变成一个专属的数据画图师,老板甩给你一个 excel 表格,让你简单分析一下,然后你不想打开 excel 表格进行画图,你想让 ai 帮你画,而且要画的专业好看, 不能随机生成一些丑图啊。那怎么办呢?第一步就是新建一个文件夹,第二步呢,就是在文件夹里边放上一个画图的脚本,这就是给 ai 的 一个工具了。第三步就是编辑 skill, 点 m d 文件, 在这个文档里边说清楚脚本调用的一个逻辑,具体的使用也一样,明确我们的需求,它就能输出合适的表格。所以终极 skill 的 精髓其实是在于用确定性的代码管住随机性的 ai, ai 只负责去摁按钮,而摁钮呢,是我们提前已经设计好的。 最后,我们来讲一个高阶的案例,竞对情报官要写一份竞品分析报告,不仅要搜集信息,还得严格的符合公司几十页的行研规范, 格式错一点肯定就得被你老板骂了。所以高阶的 skills 就 可以帮我们输出一份优秀的报告了。首先啊,第一步一样的就是新建的文件夹。第二步呢,建立一个 子文件夹,在文件夹里边放上两样东西,公司的排版规范 pdf, 再加上去年的得奖的优秀的报告范文。第三步就是编写一个我们的老朋友 skills, 点 m d 文件,让 ai 呢写之前先读规范, 模仿范文的逻辑结构,输出之前呢,先自查一下,不达标呢就自动重写,使用的方法依旧是说出我们的需求,他就能根据我们投喂的东西给出结果。你不用废话连篇的去教 ai 什么叫好的报告,直接把满分的答案 c 给他,让他进行开卷考试就可以。 ok, 那 这么看来的话,构建一个 agent skills 其实还是有一定门槛的是吧?但是它的门槛不在于技术,而在于你对于业务的理解深不深。你会写代码,但是你如果不懂财务的话,你也写不出来一个财务审计的 skills。 你 会 ai 原理的话,但是你如果不懂什么叫爆款文案的逻辑,也写不出来一个小红书的这种 skills。 所以,只要你能够把你的工作经验总结成文档的形式,你就能够通过 skills 的 方式把你的经验克隆给 ai。 这也正是 agent skills 最大的一个革命性的原因所在,它把员工的经验变成了一种可拷贝的代码。 以前老员工离职啊,十年的经验跟着人就走了,现在呢,只要让他把经验写成一个 skills 文件夹,人可以走,但他的销售灵魂,他的销售技能,他的销售经验,永远都留在了公司的服务器里边了。新来的实习生加载这个 skills, 立马就能成为销冠了, 这才是企业拥抱 ai 的 一个终极形态。未来谁能把工作拆解成 skills, 谁就能够用 ai 放大十倍的效率。你觉得你最想让 ai 学会你的哪一项技能呢?欢迎在评论区告诉我。

agent skill 到底是什么?长什么样?怎么工作的? skill 和 mcp 的 区别是什么? mcp 会被淘汰吗? 去哪里找 skill? 怎么使用 skill? 怎么自己创建一个 skill? 如何使用 skill 实现知识库解锁?它比传统的 rg 优势在哪呢?为什么说 skill 非常不安全?使用它有哪些安全风险呢? 大家好,欢迎来到 co 的 秘密花园,我是花园老师,今天这一期,我们来聊透关于 agent skill 的 一切。 agent skill 最近非常火啊,它的成长路线和 mcp 也非常像,二零二五年十月发布的时候,只有 antropica 自家产品支持, 后来 cursor code, open code 等产品看到了 skill 的 优势,于是纷纷开始支持。再后来,社区开始涌现了大量开源的 skill 以及 skill 的 开放市场。当下大家已经默认了 skill 已经成为又一个 agent 领域的标准实践。 在传统的 ai 聊天模式中呢, ai 的 能力取决于他原本学过什么,以及你临时在对话框里告诉他什么。 这就像你招了一个什么都懂一点的实习生,每次干活的时候你都得重新教一遍。而 agent skill 带来了一种全新的玩法,模块化的能力插件, 你可以把 cloud 想象成一个超级大脑。而 agent skill 呢,就是给这个大脑安装了一个外接的工具箱,这个工具箱里面不仅有工具本身,还包含了详细的使用说明书。 大脑不需要理解具体有哪些工具啊,以及工具的用法是什么,只需要在需要的时候查看一下工具的说明书,然后再把工具拿出来用。那如果你写过代码呢?可能很容易理解啊,想要编辑一个程序,并不一定所有的代码都是我们自己写的, 我们可能会通过 import 来引入一些外部的包,这些包呢,可能存放在固定的位置,当我们的程序需要调用这些包的能力的时候呢,就会从指定的文件夹里面取出来对应的代码,然后执行。 那 skill 也是类似的逻辑啊,每个 skill 其实都是一个文件夹,它存放在了一个固定的位置,这个文件夹里面装着几样东西啊,首先啊,是 skill 点 md, 它里面会告诉 ai 具体怎么使用,然后还可能会有更详细的参考文档以及脚本, 让 skill 也可以调用 web 能力,还可能包含一些图片、模板等可能使用到的 web 资源。如果啊,你在你的 agent 执行目录放了这个文件夹,那下次和 agent 对 话的时候啊,它就可以自动根据你的需求匹配到这个 skill, 不 需要你再进行额外的配置。 比如希望 ai 帮你润色文章啊,就可以编写这样一个 skill, 这个就是它的一个基本的构成结构啊,上面三根短横线的部分相当于 skill 的 身份证啊, name 呢,是它的唯一标识。 description 是 skill 的 关键描述啊,决定什么时候会触发这个 skill。 那 下面呢,就是 skill 的 正文部分啊,比如说它的核心目标,使用步骤,注意事项等等啊,那看起来还挺普通的啊,似乎很多能力都可以做这件事。 比如啊,我们直接把这段文字和文章发给大模型,或者说放到系统提示词里面,或者封装一个 flow, 或者编写一个 agent 点 m d 或者项目级的 rules, 这些方式呢,看似不同,但是本质上只是把提示词放在了不同的位置。在真实的业务场景中呢,一个 agent 不 可能只干这么简单的一件事,大家可以想一下啊,如果你要给你的 ai 装五十个技能, 每个技能都有几千字的说明书,那要是系统一启动的时候,就把这些全部塞进它的上下文里面,那么就会首先成本爆炸啊,每次对话都可能会消耗几万的头啃,那 ai 的 注意力呢,也可能会被分散,变得这也想干,那也想干,那 skill 的 出现呢,就是为了解决这种问题啊,它有一个非常核心的机制,叫渐进式纰漏, 说人话呢,就是按需加载,用多少拿多少啊。这个呢,也是我觉得 agent skill 设计的最聪明的地方, 那你可以把它想象成啊,我们去图书馆查资料的三个步骤,第一层,先看目录,当 agent 刚启动的时候呢,就会把所有 skill 的 名称和描述加载到上下文里面,那这一层呢,占用的资源可能非常少,可能就几百个 token, 那 它的作用呢,就是告诉 cloud 自己会什么啊,你可能有查周报,处理 excel 这些技能,但是这个时候 cloud 知道自己会什么,但是还不知道具体要怎么做。 那如果你说帮我把这个 excel 处理一下的时候,那可老的发现,哎,这事我能干啊,然后他才会去查找 excel 处理啊,刚才这个技能里面的这个 skill 点 md 的 文件,那只有在这个时候呢,那些详细的操作步骤,注意事项,才会进入 ai 的 上下文 第三层啊,要实际去动手干活了,也就是真正要执行具体步骤的时候,才会去加载相应的 reference 和 script。 比如说用户下达的任务可能是分析 excel 啊,也可能是创建 excel, 那 这两个操作呢,可能有完全不同的处理步骤, 详细的步骤呢,不一定都在 skill 点 md 里面,可以分开存放在不同的参考文件下。当 cloud 识别到你要做的是分析 excel 的 时候,才会去查找分析 excel 的 reference。 那 skills 里面也可以去内置一些可执行的 excel 处理脚本啊。那在 skill 点 id 啊,或者刚才查找的具体的参考文献下,它会告诉你应该调用 以及如何去调用这些脚本。那还有最重要的一点啊, cloud 只需要按照指引去执行脚本,而执行脚本的代码是不会塞给 ai 去读的。你完全不用担心一个超大的代码的文件会消耗头衔,因为它根本就不会进入 a 诊的上下文。 这也就意味着一个 skill 可以 打包整套的书面文档,大量的执行脚本,但只要任务不需要,这些内容就永远不会占用上下文。和 m c p 一 样, skill 成了开放标准之后,开始爆发式增长,社区也出现了大量的开源 skill。 我 们可以看到啊, skills mp 啊这个网站里面的这个 skills 数量最近在经历着爆发式的增长,那这个增长速度呢?要比之前 m c p 爆火的时候还要快啊。这个就不得不提 skill 的 另一大优点,编写门槛低。 m c p 虽然有一套标准的规范,但是终究还是要靠代码来实现的。即便啊,有了 ai 辅助,对于小白来讲还是有一定门槛儿的,而 skill 就 不一样了,只要你会写提示词就能写 skill, 可以遇见的是大量的固定工作流,可能会在未来都会被改写成 skill, 这意味着 agent 的 编写门槛儿被再一次大幅降低了。那如果你想找一个 skill 呢啊,我们就可以进入这样一个 skill 市场,然后搜索我们想要使用的 skill 啊,然后这里我们还以绘图软件 excel 为例啊, 可以看到啊,社区已经有大量的 s k dj 的 skill 了。进入详情之后呢,我们可以看到这个 skill 的 详情啊,我们可以选择不同的安装方式啊,这里我们选一个最简单的方式啊,我们直接把这个包下载下来, 下载下来之后呢,这是一个安装包啊,然后我们解压一下,哎啊,我们就可以看到这个熟悉的结构啊,一个 skill 点 m d, 还有一个 reference, 接下来呢,你只需要把这个目录拷贝到我们指定的位置啊,不同的 agent 的 目录大同小异啊,基本上都是 agent name, 然后杠 skills 这样一个目录。这里啊,我们使用最近比较火的 open code 来演示啊,所以我们创建这样一个新的文件夹啊,然后我们创建一个点 open code skills 的 目录, 然后我们把刚刚解压的文件夹拷贝过来,然后我们打开终端啊,打开 open code, 然后我们输入这段提示词啊,帮我绘着一个价格图啊,讲解什么是五 w 二 h 分 析法,然后直接帮我在当前目录下生成一个 excel, 然后开始编辑这个文件, 然后这里我们发现啊,我们不需要手动去安装或者运行这个 skill, 只要我们刚刚的文件夹位置放对了,那 opencode 的 ai 就 会自动根据我们的需求判断是不是要调用这个 skill, 然后帮我们生成代码, 好,代码生成完了,然后我们来到这个目录看一下,哎,他帮我们生成这样的代码啊,然后我们把这个 excel 的 配置啊,然后我们拷贝到这个网站里面, 哎,粘贴,哎,就是这么简单,他直接帮我们生成了一个手绘风格的架构图,如果啊你想使用其他的 skill 啊,也是一样的啊,进到这个详情里面,然后把这个目录下载下来,拷贝到刚才那几个目录之下啊,然后你去问对应的问题,就可以自动识别并且调用这个 skill 了, 下面我们来一起尝试自己做一个 skill, 那 虽然 skill 的 开发门槛很低,但这不意味着我们就要自己去写 as topic, 官方呢,直接给我们提供了一个生产 skill 的 skill, 也就是这个 skill creator 啊,你不需要写一行代码或者说配置文件,你只需要用自然语言告诉它你想做什么,它就会自动为你生成一个符合标准的 skill 啊,然后啊,我们还是把这个包下载一下,然后我们解压这个包啊,我们看到这个熟悉目录啊,然后我们把这个包拷贝到我们刚刚的 open code 的 这个 skill 的 目录下, ok 啊,然后下面我们打开 open code, 然后我们重启一下啊,我们输入这样一段提示词啊,帮我创建一个可以获取当前系统时间的 skill 啊,然后写一个脚本,然后脚本使用 node js, 然后呢,他找到了这个 skill creator 的 这个 skill 啊,然后开始帮我们根据我们的需求创建这个 skill, 然后我们打开我们的编辑器。哎,我们发现多了一个这个 system time 的 这个 skill 啊,然后这个 skill 点 md 里面说明了啊,怎么去获取一个准确的时间啊,它要去调用这个脚本啊,然后这里面有获取系统时间的代码。接下来呢,我们询问一下 opencode, 帮我获取一下当前的系统时间。 哎,他找到了我们刚刚创建的这个 systemtime 的 skill 啊,然后给出了这个准确的系统时间。创建一个 skill 啊,就是这么简单, 即便你不懂代码,不懂 skill 内部的执行原理啊,只要你把你的需求描述的足够清楚,它就可以准确地生成一个 skill。 看到这呢,你可能会觉得 skill 和 mcp 是 不是有点像呢?它们似乎都可以做到按需加载给 ai 去扩展外部的能力呢, 这个也是很多同学可能会弄混的问题。在之前的教程中呢,我们详细学习过 m c p 啊,它就像是一个通用的 usb 接口,制定了统一的规范,不管是连接数据库、第三方 a p i 还是本地的文件等各种外部的资源,都可以通过这个通用的接口来完成, 让 ai 模型与外部的工具和数据源之间的交互更加标准化,可附用。那假如你的 a 阵能连接了多个 m c p 呢?它似乎也能实现按需加载, 根据用户的意图来决定调用哪个工具。但是这个按需加载的背后啊,代价是非常巨大的。那在 mcp 的 架构之下呢,仅仅是连接这个动作,就已经在透视你的上下文了。这个呢,也是由大模型的工具调用机制决定的, 为了让 ai 知道他有哪些能力可以用,每一个连接的 mcp server, 都必须在对话开始前,将他所有的工具的完整定义一次性的注入到大模型的上下文里面。 那每个 mcp 呢,一般都会包含大量的工具啊,比如说 github mcp server, 它自己就包含了三十多工具。假如说每个工具消耗五百个头肯,那只连接这么一个 mcp 就 需要消耗将近两万个头肯, 那在真实的环境下呢,一个 agent 不 会只去连接一个 mcp server 的。 假如啊,你只问了 ai 一个非常简单的问题, agent 已可能已经烧掉了大几万的头肯,这个成本是非常恐怖的。 那更深层的原因呢,也在于,连接过多的 m c p server, 也可能会导致大模型的注意力下降,从而降低工具调用的准确性。 那在我们之前的教程中呢,有讲过一个专门测试工具调用准确度的基准, m c p atlus, 在 这个基准中呢,包含了四十多个不同的 m c p server, 三百多个工具的复杂环境。那模型呢,必须自己去发现合适的工具,并且正确的调用。 目前最强的 cloud up 四点五啊,也只能拿到百分之六十二的准确率,那其他的模型的准确率呢,也普遍低于百分之五十,随着连接工具的增多,这个准确率还会进一步的下降。 而我们上面刚讲到的 skill 的 核心机制啊,间接是批漏,恰好是可以解决这两个问题的。在首次连接的时候,相比 m c p 需要将三百多个工具全部塞进模型的上下文模型,只需要加载四十个 skill 的 原数据啊,可能只消耗几千头肯。 另外呢, skill 采用的是漏斗式的引导啊,先通过目录判断大体的方向啊,确认要干活了,再加载具体的说明,最后通过找到详细的文档和脚本再执行,让 ai 每次只专注于当前的任务,即使是能力比较弱的模型啊,在这种机制下也能够保持比较好的准确率。 那看到这,你可能会问了, skill 看起来更智能,更节省资源,那 mcp 肯定不会被完全淘汰的,但是对它的需求可能会大幅减少。 首先啊, mcp 协议层的价值是不可替代的,因为它制定了一套标准的接口,统一了 api 连接世界的方式。那如果呢,你是一个通用的第三方平台啊,比如说高德地图,你想发布一个工具,让其他的 agent 都能用上你的能力,那首选呢?还是使用 mcp? 但是啊,如果你是有一些重复性的工作流,比如说啊,我要有固定的流程来读写本地的文件,要用一个标准的规范来 review 代码,有一套固定的风格来写文章。那这些场景呢,都推荐使用 skill 来实现。 那在过去呢,这些需求中的文件读写,连接 github, 给文章生成图片啊等等,这些需要连接外部世界能力的,可能都需要通过 m c p 去实现。那现在呢,你可以把它们都打包到 skill 里面。那未来的格局呢?可能是这样的,首先, agent 本身内置了一部分核心的能力啊,包括终端或者说文件的读写等等。 那少数通用的 m c p server 呢?负责连接远程的数据啊,比如数据库啊, api 等等。上层呢,还有大量的 skill, 封装了标准的工作流程,连接本地的知识库,那这些能力呢,也会在必要的时候进行协助,但是 skill 会承担绝大部分教 ai 怎么做事儿的工作啊,比如说啊,教 ai 怎么用这些 m c p server, 怎么用其他的 skill 啊,怎么调用好这些核心能力等等。好,本期视频呢,我们就先讲到这儿,大家已经了解了 agent skill 的 基本原理,以及如何使用和创建一个 skill, 如果本期教程对你有所帮助呢?希望得到一个免费的三连和关注。下一期啊,我们会进入实战章节,一起来使用 agent skill 实现一个知识库解锁的功能。相比传统的 ig, 它的效果究竟怎么样呢?我们下期见。

大家好,呃,今天呢,想跟大家分享一下,什么是 agent, 什么是 tools, 什么是 m c p, 什么是 skills? 那 它们之间有什么样的联系,有什么样的区别?它们分别是解决了什么样的问题从而出现的? 那首先呢,说一说 agent, agent 其实不是一个非常新的概念,在大模型出现之前,其实就已经有 agent 这个概念存在了。但在大模型出现之前, agent agent 的 这个概念更多的是 automation, 也就是自动化,它做的一个事情就是自动化地去执行。 那它里面的这个逻辑呢?就是人来思考,人思考了之后来制定规则,然后 agent 呢,主要负责去执行。 比如说呢,一个典型的案例就是数据爬虫,那我先把这个页面里面我需要用到哪些数据,怎么去跳转的这个逻辑,人先思考了,先写好了,然后呢交给这个 agent, 这个爬虫的这个 agent 去执行,然后爬虫自动地去把我想要的数据给抓下来, 这是第一种。第二种呢,比如说像挂单交易,像呃股票里面,我让他二十三块钱的时候给我买进,二十五块钱的时候给我卖出,那他呢,也是人先制定好了一个规则,然后 agent 只是帮我们去符合这个规则的时候去执行。 还有一个非常典型的一个例子,就是自动回复的机器人,但这个里面呢,呃,人负责了前半部分的思考, agent 负责了后半部分的执行。 而大模型出现了。大模型他擅长的是什么呢?他就擅长思考,他擅长理解我们的语义,而且呢,理解语义之后,他是擅长把这个东西拆分出来的,但是呢,大模型他不擅长计算,不擅长执行, 所以说呢,我们就有了一个想法,那能不能说让大模型去替代前面这半部分的一个内容呢?也就是大模型自己去思考,自己去制定规则,然后自己去执行,那我们把这种呢也称为自主执行,那这个就是大模型出现之后,我们对智能体 啊它的一个概念的一个引申吧,就是也是一个愿景,就是智能体的一个自主执行。但是呢自主执行里面就出现了一个问题,那就是思考和执行之间,它中间是有 gap 的, 要怎么去解决这个 gap 的 这个问题呢? 还记得我们上一次在说,呃,大模型去调用代码的时候,那个时候呢,大模型的这些厂商,它使用的一种方式是使用特殊的 token id 来去标示说,哎,我现在要开始使用写代码了,我现在要开始要搜索了,我现在要开始查天气了。 之后呢,因为这些工具啊太非常非常的多,它不可能一直去加特殊的 id, 于是呢就衍生出他们把这个东西抽象出来了一个东西,那就叫做 function core 或者是 tools, 那 通过这样的一个呃抽象出来的一个 api 接口,那外面呢就可以对接各种各样不同的这个工具了, 那这个东西呢,也就让 agent 上面所说的思考和执行之间的 gap, 那 自主智能体就有了一种可能, 但是呢方程库和 tools 它有它自己的一个问题,就是它很难满足非常多的这个大模型非常复杂的一个场景, 比如说我这里有 gbt、 千问、 deepsea、 豆包等等,当然我们还有很多很多不同的模型,那如果只是用方程库和 tools, 那 我要用网络搜索的时候,呃, gbt 它要适配一次,千问要适配一次, deepsea 要适配一次,豆包要适配一次。 那如果我是一个查询天气的一个工具,他们四个又要全部都重新适配一次,那就又要适配四次。那翻开日历这个功能,假设啊,他们又要适配四次,那这边的模型其实也不止四个,会有很多很多。这边的工具其实也不止这三个,也会有很多很多。 那如果说在真正的使用的这个过程中,一定是出现这种非常复杂的场景的,那这样一个一个的去适配呢,就会导致非常的混乱,于是呢就有一个新的东西出现了, 那这个东西呢,就是 m c p, 它就是来解决这个问题的,那它是怎么解决的呢?它就是一个,我们可以把它理解成它就是一个中间商,它是一个中间转换,万能转换插头。它在这边呢,把所有的工具 啊,跟他们说,你全部都按照我的这个格式来规整,要支持我这个 m c p, 然后另外一边呢,跟所有大模型说,你所有大模型也按照我这个规则来去来去呃适配, 于是呢它就能把两边连起来了。那这个网络搜索只要我适配过一次 mcp, 我 就既可以在 gpt 上用,也可以在千万上用,也可以在 dsp 上用,也可以在豆包上用, 只要是所有的大模型,只要这个大模型它兼容 mcp, 我 就可以在它这个上面用,那这样的话就极大地简化了这两边相互对接、相互调用的这个复杂性。所以说我们经常也会看到说 mcp 呢,它是大模型的一个 usb c 接口,其实这个比喻还是非常形象的。 那前面这种情况呢,其实就有点类似于说,呃,以前 usbc 没有统一的时候,那苹果是苹果的那个接口,安卓是安卓的接口,而现在呢,就出现了一个 us types usbc, 这个接口把所有的 大模型和工具之间都归一化了啊,所以说,呃,这个比喻还是非常形象的,它解决了一个这样的一个问题。然后呢,我们再来看一看。呃,第四个这个概念就是技能。 前面我们说到了什么是智能体,什么是 m c p 啊?什么是工具。那这个地方我画了一个图,中间这个地方是大脑啊,负责思考,负责调度,负责嗯,理解语义。那我们中间这个大脑呢,就是大模型,旁边呢有 m c p, 它是一个标准化的一个接口 啊,把大模型跟各种各样的工具结合在了一起。那这个里面可能有斧子,假设有斧子,有剪刀,呃,有锯子,有绳子。但是呢,因为这个大脑它是一个通用的大脑,它没有很多的专业知识,所以这个时候就衍生出来一个新的东西,叫做 skills。 skills 呢,我们也可以把它看作是一个新人培训手册啊,就相当于这个大模型,它是一个刚来的实习生。 呃,他虽然可以学习,他虽然有学习能力,但是呢,他也知道一些基础的东西,但是呢,他不清楚咱们公司的流程是什么样子的 啊,他也不清楚,说这件事情他要怎么去动手?要怎么去做?所以说 skills 呢?他解决的一个问题就是他是一个新人培训手册,假设我这个里面有三个,或者其实有更多啊,比如说第一个如何砍树,第二个要做客户跟进,第三个要买最低机票的这个机票啊,这个三个不同的 skills。 假设我来了一个问题 大模型,他去判断说,哎,我现在需要砍树了,他就去解剖,哎,发现说我这里有一本砍树的新人培训指导手册,然后砍砍树的这个新人培训指导手册一打开,然后里面先介绍了,啊,我如何砍树,我这个 skills 大 概的一个简介啊,我是来介绍告诉你你要怎么去砍树的, 哎,然后大模型看了这个简介之后就发现说这个很对,现在的呃,我需要干的这件事。于是呢,他就继续往下深入,然后这下面就会继续写啊,我要砍树,我需要先用哪些工具?假设他需要三个工具,第一个是需要斧头,需要锯子,需要绳子,只需要这三个, ok, 然后呢,第一步,假设我先用斧头先去砍一下那个树,先砍出一个那个小的凹凹槽出来,然后呢,我在第二步再用锯子不断的去锯它。 之后呢,呃,差不多了,我再用绳子去拉这个树。呃,假设啊,假设它的步骤是这个样子的,那我这个如何砍一棵树的?这个 skills 里面的这个步骤就是按这三步去写了, 那这个时候 deepsea 呢,他就会一步一步地去阅读,首先他找到这本书看里面的简介,看了之后呢,哎,发现这本书对胃口之后,他就会继续往下看。他第一步,呃,我需要用斧子了,然后他就通过 m c p 去调斧子,把斧子给调出来, 调出来之后他砍完了斧子,他做完了,做完之后又去看这本书,然后这本书告诉他。第二步,需要用句子,然后大模型再通过 m c p 再去把句子给调过来,调过来之后句子的事情干完了之后再看,哎。第三步,要用绳子,然后再用 m c p 去把绳子给调过来,最后完成了这个工作。 所以说这个 mcp 呢,我们就把它其实就可以当成一个新人培训手册来去使用。那这个地方有一个问题啊,就是我可以把如何砍树这个东西写成一个 skill, 那 我能不能直接把它写成一个提示词呢? 其实呃,可以,但是呢它会出现一个问题,就是如果你直接把这所有的东西全部都写成提示词了,那也就意味着你需要把如何砍树里面所有的东西全部都写成提示词了,那也就意味着你需要把如何砍树里面所有的东西全部都要提前的写在这个 大模型的提示词里面去,那它首先会导致,呃大模型里面的提示词的量会变得非常的大啊,如果这个技能不是非常的复杂,呃,可以这样,但是它会好 token。 但如果说这个 skills 非常的复杂,那就很有可能会出现上下文爆炸的这么一个情况,也就是说你的上下文 会超出这个模型能承载的上下文的极限,因为你一次性把所有的东西全部都要写进去。而使用 skills 它有一个什么好处呢?就是大模型可以渐进式的去看,哎,他第一步先去找先看简介啊,这个简介符合我的要求,我才会深入的去看。第二步啊,要要要先去掉辅 子,然后他就只把辅子给调进来,然后再看啊。第二个步骤是要句子,然后再把句子给调进来。那如果说 我不用 skills, 直接用 prompts 的 话,那你就需要把这所有的步骤,把斧子、锯子、绳子,一口气一股脑子全部都要丢给这个大模型,它要一次性的去做这所有的思考啊。所以说呢, skills 它还有一个非常重要特性,就是渐进式批录, 也就是它是一层一层的啊,需要我才往下看,我不需要。其实这个 skills 它就放在这儿了,它不会进到上下文里面,那这个呢,其实也就构成了一个完整的一个智能体,中间是大脑通过 m c p, 然后对接了非常多的工具,这些工具其实是可以去做执行的, 而怎么去用这些工具呢?我可以用这个 skills 来去培训这个大脑,让这个大脑知道说,诶,第一步要用到什么东西,你第二步要用到什么东西?第三步要用到什么东西。而且呢它是渐进式批录的一个过程,也就是它每次只取它需要的东西,你不需要每次都一股脑的把所有东西全部塞到这个大模型里面, 那这个呢?就是一整个智能体的呃,大概的一个情况,那其中的大模型 m, c, p 工具 skills, 它分别代表的是什么样的一个意思?呃,这是跟大家今天分享的内容。

最近我也开始吹 skills 了, skills 多酷呀,英文名是吧?工作流?什么老土,三十年前的东西了吧,早就该丢到垃圾桶里去了。 有人在问我说工作流和 skills 到底有什么区别?我今天都想捋一捋我一眼圈,这几年到底玩哪些概念啊? 最初二三年,欧佩安推出了它的 g p t s。 哇,当时多少人吹牛逼改变世界了哇,有多少有? github 上有好多人收集了几万个,什么 g p t s, 后来也不是死得悄悄的了吗?现在还有人提吗啊?再后来就是工作流了,工作流这个产品其实还是很持久的,我觉得是真正落地解决了些问题的,虽然它老土, 我觉得老土反而是能落地的。再后来是 m c p 吧, m c p 这个概念也是太牛逼了,吹得大江南北。 今年最火的应该就是 weber coding 啊,这个概念应该最早是 koser 推出来的,但是 koser 现在看起来好像果子被别人摘了呀。现在明显是 cloud code 最牛逼,不像 openai 推了这么多概念,好像一个也没有玩起来。你看 现在 cloud 的 一个 code, 一个 work, 一个 skills mcp 也是他们家推出的,还是挺牛逼的。像这次的 skills 是 不是真的不一样呀?我觉得还要看 cooke cooke 的 发展到底会怎么样。现在 cooke cooke 吹牛说, 未来所有的白领,所有使用电脑办公的白领,在电脑上做工作的人,他的工作都会被 co work 取代。 co work 要起来,那必然需要大量的 skills 所支撑。目前不知道啊,我觉得 co work 好 像是不一样,所以大家可以关注起来。

最近全网爆火的 skills 跟 agent 这两个概念确实容易混淆哈,我今天来给大家简单分析一下。我首先会讲一下这两个东西的概念分析,为什么在实际的工作场景中,尤其是自用的场景中,更推荐律师去用这个 skills。 什么是智能体啊?有点类似于一个数字的助理,它是一个完整的系统啊,助理是完整的,它拥有自己的,我们叫角色的设定, 有调用知识库或者其他工具的这个能力。比如说你创建了一个咨询回复的智能体,那么他在收到这个问题的时候,他会去思考如何去回答,并决定什么时候去查法条,然后去完善这个回答,它实际上是一个虚拟的岗位或者是职位。那 skill 呢?跟这个智能体完全不一样哈, 你可以认为是一个四面一封装了某一个专项的技能,它其实不涉及到一些复杂的思考逻辑,而是一套确定性的执行流程,有点类似于你定义了一个 s o p, 虽然这里面的某些步骤它会用到 ai。 比如说你现在做一个一键生成证据目录的 skill, 它的特点呢,就是一次只具体的解决这一个生成证据目录的问题, 就是一个 skill, 它只关心的是输入是什么,以及输出到底是什么样的格式。那么我为什么推荐律师在自用的时候多开发 skill, 而不是做这个智能体呢?首先做 skill 的 难度还要远远低于你去做一个智能体,这是第一点。第二点呢,其实我们具体在这个工作当中,法律工作要求是比较精准的,但智能体其实在对话的过程中啊,还是可能会产生 一些所谓的幻觉,但 skills 因为你把一些标准的流程定义好了,第一步什么,第二步什么,它最终的结果是更加可控的,所以这一定程度上可以帮你去对 抗这个 ai 的 幻觉。第三个呢,就是其实你可以在一个对话里面,或者说一套流程里面先调 skill 一, 再调 skill 二,再调 skill 三,一步一步的去干活。它是一个轻量级模块化的一个工具,所以会比较方便。但是如果说你的一个工作里面要涉及到多个智能体 的话,你点完智能体 a, 然后要跳出来,再进入另外一个智能体 b, 然后还要把那边的东西复制过来去做,就非常的麻烦。但是你可以在一个对话里面接连调几十个上百个 dues 都没有任何的问题,尤其是有一些重复性高的工作,你完全可以用 skill 去解决。 最后一个呢,我觉得 skill 非常棒的一点是,它能够把你一些重复性很高的一些工作由这个提示词转向一键去触发,你点一下它,哪怕你就说一句话给我干,它就按照你的标准的流程把你的这个工作就干好了。我觉得综上四点原因呢,如果说你真的是工作中自用的话,去解决你工作中效率的问题,我觉得 skill 是 比这个智能体更好的解决方案。律师伙伴们想要掌握 skills 一 键生成案例分析报告、普法漫画生成吗?点击加入 google ai 进化导,跟做了十五年技术的我学习最新法律 ai 工具。

大家好,我是小摩托。在最近的视频分享中,我们介绍了许多关于 agent skills 方面的内容,结合在半年前非常热门的 m c p 概念,最近有许多小伙伴好奇,究竟 agent skills, m c p 工具它们之间是什么关系呢? 是否有相互替代的关系呢?那本期视频我们就花五分钟结合一个实战案例来搞清他们之间的关系,那现在咱们就开始吧。 在今天的演示中,我们就不自己来创建 skill, 会用到宝玉老师一款非常优秀的 skill, 这个技能包呢是基于文章的内容来生成封面图片,现在所分享的就是它的代码仓库,感兴趣的朋友呢也可以来安装测评一下。 在 close skills 聚合站点,我也同步了宝玉老师所有的技能包,在这个站点呢,也聚合了许多目前已经验证过的技能包,感兴趣的朋友呢也可以来浏览体验一下。回到今天的话题, 我们所要分享的技能包呢,就是这一款宝玉 cover image。 首先来看看 skill 到 md, 这里面约定了目前这款技能包的具体的工作流程。 从原数据可以看到,这款技能包为文章生成优雅的封面图片,它首先呢会分析文章的内容,再来生成吸引眼球的手绘风格的封面图片, 并且提供了多种的样式的支持。因此大家要注意的是,这个技能包生成的是手绘风格的图片,如果大家想要扩展到其他风格呢,可以尝试改造这个技能包来扩展它,那我们来看看它的工作流程, 在这个技能包中约定了样式的知识情况,自动的样式的选择的机制,文件的管理机制以及工作流。最后生成图片,并且输出摘要信息,对这次的任务执行呢做一番总结。 这就是这个技能包所提供的一个封面图片生成的机制。要安装它也很简单,我们可以使用 mpx art skill 这个非常好用的 vassel 工具来安装技能包, 它会安装到 core skills 目录之下。我们来尝试一下,在控制台这里输入这个命令, 它会首先克隆这个代码仓库。代码仓库中有八个技能包,选择了一个, 那咱们来决定究竟装到哪里范围呢?我想约定。在局 global 细心的朋友或许注意到了这里,他提到 will overwrite, 这表示其实我在之前已经安装过了。不要紧,我们继续一下这个安装流程, 现在呢,就安装完成。现在我们在当前这个 clock code 目录中启动 clod。 这个代码仓库是 clock code 原代码,我想了解一下它究竟是如何处理的? skills 如何处理的? mcp tools, 在这个目录中我整理了一些文档,比如现在这个零一 agent skills guide, 这是基于 clock code 源代码整理出来的 skills 的 概念,以及它在 clock code 中是如何实现的。 我想为这份文档生成一张封面图片。首先我们来到 court, 引用到这篇文档来看看它的处理情况。 我并没有指定要用到什么技能包,看起来呢?它识别到可以使用的薄玉 cover image 技能包加载成功,它对内容做了分析。接下来期望创建目录, 目录中会用来保存深沉的提示词,文件等等。在这里它首先加载了技能包中的参考文档,它读取的是 styles tag 到 md。 看起来呢,他应该会基于科技风格帮助我们来构思这张封面图。分析完毕,接下来他尝试去寻找有没有什么图片生成的技能或能力可用,比如工具等等。 现在他提示我图片工具方面的问题,我们来看看他说的什么。截止目前,他已经生成了提示词,并且保存在了文件中,但是呢,没有图片生成工具,比如像 banana, banana pro 等等。 那接下来要做的事情是什么呢?给到了几个选择?一个呢,是使用提示词文件中的提示词手动去生成这张图片。 另一方面就是跳过图片的生成,仅仅得到提示词。比如我现在选择跳过图片生成,原因在于当前技能包中并没有包含,比如脚本 scripts 来实现图片的生成。 我们可以看看这个生成的文档,这里面就包含了刚才处理以后得到的所有的数据。 如果我们回到这个技能包,大家应该能发现这里面呢,只有 md 文档,并没有脚本。通常我们可以将 图片的生成或 api 的 调用呢,以脚本的形式存储在技能包中,这样呢,需要的时候,它就可以通过执行脚本来生成图片。那这就是脚本或工具在技能包中的使用,我们需要手动去编辑。 那接下来就需要引入 m c p 的 概念了。为什么我们可以使用到 m c p 呢?因为它为我们提供了方便的工具。在开源、生态或商业化的服务商已经提供到许多非常好用的 m c p 工具或接口, 这使得我们不需要再去编辑任何的代码,通过简单的配置就可以方便地将这些工具的能力集成到 ai 的 应用场景中。我们来举个例子,目前所分享的是一个非常小巧的拍摄包,它实现了基于 replicate 所提供的 nano banana pro 模型的 图片生成机制。提供了唯一的一款工具生成图片。我们只需要准备一份 replicate api key, 配置这个环境变量 replica ipa token。 将它配置到 clockcode 来看一下吧。我提前已经做好了配置。那么在演示前呢,我将 replica nano banana mcp 关闭了。 我们现在起用它,选择它来查看工具。它有唯一的一款工具 generate image, 它会使用到 replicate 所提供的 nano banana pro 模型,它接受一系列参数 prompt, 这是必须的。提示词, resolution, aspect, ratio, outperformant 等等。 这个工具就可以被咱们刚才的这个封面图片生成的流程所引用。那现在我们关闭这个绘画,尝试重新再做一次。我们再度为同样的文档生成封面图片,他依然会加载这个技能包,做同样的事情。 好了,封面图片呢?生成完成,我们首先来看一下封面图片是什么样,大家觉得这个图片如何呢?我们重点来关注一下整个工作流程。 在刚才的这个轮次的生成中,首先加载了技能包,分析了文件的内容,生成了提示词。 在生成提示词后,并没有与我进行对话交互,而是直接地调用到了已经起用的 replicate none of none 的 mcp 调用的工具 general image, 这里能看到它所使用的参数 提示词是长长的这么一段,并且约定了长宽比,分辨率以及输出格式。通过一番调用, 得到了一张复印件给到咱们的编辑图片,再通过 curl 命令将图片下载到本地。这样呢,在本地文件夹中就有了 cover image 这张图片, 整个过程非常的流畅,并不需要咱们任何人工的干预。我们可以在目录中查看到这张图片。大家现在是否对技能包以及 m c p 有 了更加清晰的认识呢? 通过配置 m c p, 我 们可以很好地重用生态中或商业化已经非常成熟的 m c p 工具,不需要我们再手动去编辑脚本。 当然了,在这个应用场景中,我们完全可以编写一份小小的编程脚本,调用 replica api 同样的生成图片。但是既然已经有了生态中的一些成果,那么我们完全不需要再去自己造轮子,直接把 m c p 工具配置进来就好。 另一方面,我们可以很灵活的做选择。我们如果并不想用 banana pro, 我 们还可以使用 matriney, 使用其他的纹身图模型。如果他有 mcp 的 支持,我们只需要将 mcp 配置进来这些工具就可以为这些技能包所用。 那技能包中是如何约定的使用什么样的纹身图工具呢?在视频分享结束前,我们马上来介绍一下。 在宝玉老师的这个技能包中,在 references 这个目录中的 base prompt md 文件中作了约定。我们来看最后这句话, please use nano banana pro to generate the cover image。 在 这里面就约定了使用这个橡胶模型来生成,我们在 m c p 配置中又很好地提供到了这么一款工具,因此 clock code 在 执行中智能体就能够很好地识别到究竟该用什么样的工具。 工具又给到了很明确的参数的规范,这使得图片生成过程中非常的顺利流畅,必要的参数都给提供工具的调用完成,最终得到了图片。 那这就是 skills 技能包与 mcp 工具的配合或者合作关系,通过工具提供了外部服务的接口,技能包用来描述整个工作流是什么样的。 那感兴趣的朋友可以来重现一下这么一个过程,更好地理解 skills mcp tools 这些概念究竟是什么样的关系。 那有什么问题也还是欢迎大家在评论区给我们留言吧,希望本期视频能够真正帮助到大家,那咱们就下期视频分享,再见同学们,拜拜!