agent skill 和 m c p 呢?从简单的角度讲一下啊, agent skill 本质上它更偏知识实体,就是一个又一个的工具,或者一个又一个的知识库,就是它更偏实的概念。而这个 m c p 呢,它本质来讲是个协议上下边协议更 偏虚的概念,我怎么去调用,怎么跟外部进行连接?举一个比较形象化的例子,比如说餐饮行业, agent skill 是 做西餐的牛排,做西餐的烤箱实体,它怎么去把这个菜烹饪出来?大龙虾呀,鱼呀,怎么给它摆到一起?这是 agent skill 的 概念,我一个一个的技能。 mcp 呢,它倾向于供应链上这个菜市场能买到我需要的牛排,上那个菜市场能买到我的海鲜,就是这么一个概念。那么现实中是什么呢? agent skill 和 mcp, 它是互不 五的,它俩同时起作用,最后厨子就能把一道精美的大餐做出来,整体而言是一个非一不可的一个状态。 当然了,不管是 m c p 的 协议也好,还是 age skill 也好,它是工业界里边的新兴概念,当前是属于一个快速更新,快速迭代。所以说大家呢,就本着一个 open 的 心态,随时跟上工业界前沿的一个进展。
粉丝7715获赞5.8万

二零二五年十月十六号, anthropic 正式推出了 agent skill。 起初官方对它的定位相当克制,只是希望用它来提升 cloud 在 某些特定任务上的表现。但大家很快发现,这套设计实在是太好用了,因此行业里很快就跟上了节奏,包括 vs code、 codex、 curser 等工具都陆续加入了对 agent skill 的 支持。在这样的背景下,十二月十八日, anastropics 做出了一个重要决定,正式将 agent skill 发布为开放标准,支持跨平台、跨产品服用。 这意味着 agent skill 已经超越了 cloud 单一产品的范畴,正在演变为 ai agent 的 领域的一个通用的设计模式。那么这个让大厂纷纷跟进的 agent skill 到底是解决了什么核心痛点?它和我们所熟悉的 mcp 又有着怎样的区别和联系呢? 今天这期视频我们就分几个部分彻底讲清楚这个 agent skill。 我 们首先从 agent skill 的 概念出发,也就是给大家讲明白 agent skill 到底是个什么东西。然后我来给大家演示一下它的基本使用方法。 在了解了基本用法之后,我们再来看看它的高级用法。高级用法一共是包含两块,分别是 reference 和 script。 最后,我会把 agent skill 和 mcp 做个比较,告诉你到底应该选哪一个。 好了,话不多说,让我们直接开始哦,不好意思,只是想证明自己不是 ai, 那 我们现在真的要开始喽。 那什么是 agent skill 呢?用最通俗的话来讲, agent skill 其实就是一个大模型,可以随时翻阅的说明文档。 举个例子,比如你想要做一个智能客服,你可以在 skill 里面明确交代,遇到投诉得先安抚用户的情绪,而且不得随意承诺。 再比如,你想要做会议总结,你可以直接在 skill 里面规定,必须要按照参会人员一提决定这个格式来输出总结的内容。这样一来,你就不用每次对话都去重复粘贴那一长串的要求了。大模型自己翻翻这个说明文档就知道该怎么干活了。 当然,说明文档只是一个为了方便理解的简化说法,实际上 agent skill 能做的事情要远比这个强大,它的高级功能我们待会儿就会讲到,不过在目前的起步阶段,你就把它当成是一个说明文档就行。下面我就用会议总结这个实际的场景,带大家看看它到底是怎么使用的。 这里我们使用 cloud code 来演示如何使用 agent skill。 要想使用 agent skill, 那 当然是要先创建一个了。 根据 cloud code 的 要求,我们需要在用户目录下的 dot cloud skill 文件夹创建我们的 agent skill。 所以呢,就让我们先进入到这个文件夹中,然后执行 maker 会议总结助手来创建一个文件夹,这个文件夹的名字就代表了我们 agent skill 的 名字,然后再使用 vs code 来打开这个文件夹,这样的话我们编辑文件会更方便一些。打开这个文件后,我们在里面创建一个叫做 skill 点 md 的 文件, 然后填好这个文件的具体内容就是这样了,每一个 agent skill 都需要有这么一个文件,它用来描述这个 agent skill 的 名称,能干什么事以及怎么干这个事情的。比如我们这里要创建的 agent skill 就是 用于总结会议目录内容的, 它的 skill 点 m d 一 共分为两部分,头部的这几行被两段短横线包起来的是叫做原数据,英文叫做 matte data, 这一层就只写了 name 和 description 这两个属性。 name 呢是 agent skill 的 名称,必须与文件夹的名字相同。 name 的 下面呢是 description, 它代表这个 agent skill 的 描述,主要是向大模型说明这个 agent skill 是 用来干什么的。然后再看下面剩余的部分,这个呢就是具体的 agent skill 的 说明了, 官方把这一部分呢是叫做指令,对应的英文是 instruction, 这一部分就是在详细描述模型需要遵循的规则。比如说你看这里,我规定了它必须要总结参会人员议题和决定这几个方面的内容, 然后为了确保他真的理解了,我这里还举了一个例子,输入的是会议的录音内容,然后输出的呢就是我们所需要的格式了。好,现在我们的 agent skill 应该是做好了。对,就是这么简单,就是一个说明文档, 下面我们打开 cloud code 来验货,首先随便找一个空目录,打开 cloud code, 然后输入下面这个问题,你有哪些 agent skill? cloud code 给我们回答了,可以看出他已经发现了我们写好的 agent skill。 然后我们来看看 cloud code 是 怎么使用这个 agent skill 的。 我们输入请求总结以下会的内容,然后粘贴一段会议录英文本回车,让我们看看 cloud code 会如何应付我们这个问题。 好, cloud code 有 反应了,大家注意看屏幕,这里 cloud code 并没有直接开始下编,他根据我的指令意识到了这事归我们刚才上传的那个 agent skill 管,所以呢,他是在向我询问能不能使用这个 agent skill, 那 我们当然是同意了。同意之后,他就开始读取我们写的那个会议总结助手了,主要就是读取其中的那个 skill 点 m d 文件,让我们稍作等待 好,结果出来了,参会人员议题决定三点都清清楚楚,这完全符合我们在 skill 里面定的规矩。这个呢,就是 agent skill 的 基础用法了,是不是很简单?现在你知道了如何创建和使用 agent skill, 那 不妨让我们想想刚才到底发生了什么。 首先,整个流程中一共有三个角色,用户 cloud code 以及 cloud code 的 背后所使用的大模型。在我们的例子里,这个就是 cloud 模型 流程一开始的时候,用户会输入请求,此时 cloud code 会把用户的请求连同所有 skill 的 名称和描述一起发给大模型。注意,这里只带了名称和描述, 也就是我们前面所说的 skill 原数据层。虽然说我们之前只演示了一个 skill, 但是你可以想象一下,哪怕你装了十几个 skill, 此时的大模型呢,也只是在看一份轻量级的目录, 因为毕竟只有名称和描述嘛。在接到了用户请求和每一个 skill 的 名称描述后,大模型会发现用户的请求呢,可以使用会议总结助手这个 agent skill 来解决, 此时呢,他就会把这个信息告诉 cloud code。 cloud code 接到大模型的响应之后,会去会议总结助手那个目录里面读取完整的 skill。 md 正文儿对,这个时候读取的呢,才是 skill md 的 全部内容,之前就只是名称和描述, 而且要注意,他只读取了会议总结助手这一个 agent skill 的 内容哦。在拿到了会议总结助手的 skill md 内容后, cloud code 会把用户的请求和完整的 skill md 内容发给大模型, 大模型会根据 skill 点 m d 的 要求来生成响应,并且把响应发给 cloud code, cloud code 进而呢,会把这个响应发挥给用户,这样呢,用户就会看到结果了。 这就引出了 agent skill 的 第一个核心机制,按需加载。虽然 skill 的 名字和描述是始终对模型可见的,但具体的指令内容只有在这个 skill 被选中之后才会被加载进来给模型看,这个呢,就节省了很多的 token 了。 前面我们讲了,一开始 cloud code 会把所有 agent skill 的 名称和描述都给到模型,比如说什么爆款文案 skill、 会议总结 skill、 数据分析 skill 等等, 模型呢,会从中选择一个,之后只有选中了那个 skill 的 skill 的 md 文件才会给到模型。说白了呢,就是按需加载, 这个呢,已经很省 token 了,但是它还不够极致。大家试想一下,我们的会议总结助手可能会越来越高级,我们希望它不仅仅是简单复述,而是能够提供更有价值的补充说明。 比如说,当会议决定要花钱时,它能直接在总结里标注是否符合财务合规,当涉及到合同时,它能够提示法务风险。这样大家在看会议总结的时候,就不需要再去翻规章制度,一眼就能够看到这些关键的补充信息,这就非常方便了。 但问题在于, skill 能做这些事情的前提是它要把相关的财务规定和法律条文都写入到 skill 点 m d 文件里,这些文件可能会非常长,都写进去的话, skill 点 m d 文件就会变得无比的臃肿, 哪怕只是开个简单的早会,都要被迫加载一堆根本用不上的财务和法律。废话,浪费模型资源。 那能不能做到暗虚中的暗虚呢?比如说,只有当会议内容真的聊到了钱, cloud code 才会把财务规定加载给模型看。 其实这个呢,也是可以的, agent skill 呢,提供了 reference 的 概念,干的就是这个活,让我们来试一下。首先我们来给它加一个文件,也就是 agent skill 术语里面的 reference。 我们把这个文件叫做集团财务手册,里面写明了各种费用的报销标准,比如说是住宿补贴五百一晚,餐饮费人均三百一晚之类的。然后我们在原来的 skill 点 m d 文件里面新增一个财务提醒规则,里面写明仅在提到钱预算采购费用的时候出发。 出发的时候呢,需要读取集团财务手册,点 m d 这个文件,根据文件内容指出会议决定中的金额是否超标,并明确审批人,这就可以了。我们回到 cloud code 这里再试一下。 这次我们的请求仍然是总结下这个会议的内容,不过呢,这次使用的会议内容稍微换了一下, 这段对话呢,我们就不细看了,你只需要知道,在这段对话里面,老陈让小李订一千二百一晚的酒店,这涉及到了钱。按道理来说, cloud code 应该触发我们刚才新增的财务提醒规则,让我们看看 cloud code 能不能意识到这一点。 首先, cloud code 意识到了这个请求跟我们的会议总结助手相关联,请求使用这个 agent skill, 我 们同意。 然后他意识到了这个会议跟钱相关,根据 skilled md 文件的指示,他请求读取集团财务手册,这个文件用于查看里面的财务合规信息,这个呢,我们也同意。 最后,他根据实际的会议内容生成了总结,可以看出,总结中不仅包含参会人员、议题、决定等基本信息,还包含了财务提醒,这完美符合我们的需求。 这个呢,就是 reference 的 核心逻辑了。在 agent skill 的 体系里面,集团财务手册点 m d 这个文件就是一个典型的 reference, 请大家记住它的特性,它呢是条件触发的。 在刚才的例子里面,只有当 cloud code 读取完 skill 的 md 文件,判断出需要查账时,才会去加载这个文件。反过来说,如果这是一个跟钱无关的技术复盘会,那么这个财务文件就只会躺在硬盘里面,绝不会占用哪怕一个 token 的 上下文。 好,讲完了 reference, 接下来我们来讲讲如何让 agent skill 跑代码,毕竟查资料只是第一步,能直接动手运行代码,帮我们把活干了,这才是真正的自动化。这个呢,就用到了 agent skill 的 另一大能力, script 让我们在文件夹里面创建一个 python 脚本,文件名就叫做 upload 点 pi, 用于上传文件。之后我们填好这个代码文件的内容,然后我们来到 skill 点 m d 这个文件里再加上一段关于上传规则的描述, 如果用户提到了上传同步或者是发送到服务器这样的字眼,你必须运行 uploader pi 脚本,将总结内容上传到服务器。然后呢,我们来到 cloud code 这边,输入请求,总结下这个会议的内容,并把它上传到服务器中,然后我们粘贴会内容。 跟之前一样, cloud code 意识到了这个请求与我们的会议总结助手相关,所以呢,他请求使用这个 agent skill, 我 们同意,然后他把会议的总结内容输出了出来,并准备上传到服务器中,他请求执行 up 六点 pi 文件来实现这个功能,我们也同意 好,上传成功。而且 cloud code 还把上传相关的一些信息也展示了出来,非常棒。 这里面呢,有个小插曲,大家注意一下,我这次所使用的会议内容跟钱其实没什么关系,所以 cloud code 呢,也并没有去读取集团财务手册那个文件, 结果中呢,也没有财务提醒相关的内容。这正好印证了我前面所说的观点, reference 是 按需加载的,如果用户没有提到与 reference 相关的内容,那 cloud code 是 不会去读取它的,这样就达到了节省上下文 token 的 目的。 好让我们再回到代码执行部分,注意看这里, cloud code 申请执行这个 uploader pie 文件,它并没有去读取这个文件。没错, agent skill 里面的代码只会被执行,不会被读取。 这就意味着,哪怕你的脚本写了一万行复杂的业务逻辑,它消耗的模型上下文呢,也几乎是零。 cloud code 只关心脚本的运行方法和运行结果,至于这个脚本的内容,它可以说是毫不在意。 所以呢,虽然 reference 和 script 都属于 agent skill 的 高级功能,但是呢,它们对于模型上下文的影响其实是截然不同的。 reference 是 读,它会把内容加载到上下文里面,所以呢,是会消耗 token 的。 script 呢,是跑,它只会被执行,不会占用模型的上下文。讲到这里,我们需要停下来稍微做个总结,聊一聊 agent skill 的 渐进式批漏机制。 agent skill 的 设计其实是一个精密的渐进式批漏结构,这个结构里面一共有三层,每一层的加载机制都不太一样。 第一层是原数据层,这里有所有的 agent skill 的 名称和描述,它们是始终加载的,相当于大模型里面的目录。大模型每次回答前都会看一下这一层的信息,然后决定用户的问题是否与某个 agent skill 相匹配。 第二层是指令层,对应 skill 的 md 文件里面除了名称和描述之外,其余的部分,只有当大模型发现用户的问题与某个 agent skill 相匹配的时候,它才会去加载这一层的内容。所以呢,我们称这一层为按需加载。 第三层是资源层,这个呢,是最深的一层,它一共是包含 reference 和 script 两方面的内容。其实按照官方最新的规范,应该还有一个组成部分叫做 assets, 不 过我看了一下,它跟 reference 的 定义似乎有部分重叠,因此我们这里先忽略它。 好,我们刚才例子里面的集团财务手册和 uploader pie 脚本就属于这一层,只有当模型发现用户问题与财务或者上传相关的时候,它才会去加载这一层的内容, 这就相当于是在按需加载的指令层基础上又做了一次按需加载,所以我们可以称它为按需中的按需加载, 当然这是我起的名字啊。 reference 和 script 的 加载方式其实不太一样, reference 是 被读取的, cloud code 会把对应文件的内容放到模型的上下文中,一共回答式参考。而 script 是 被执行的, cloud code 根本就不会去看代码的内容,它只关心代码的执行结果。 当然这个也不是铁律啊,如果你没有把代码的执行方法说清楚, cloud code 还是有可能会去看一下代码的,毕竟跑不下去了嘛,这样的话呢,就会占用模型的上下文了。所以还是请大家写 skill 的 时候尽可能的把一切都解释清楚。 那聊完了 agent skill 的 用法,很多朋友可能会有种似曾相识的感觉, agent skill 好 像是跟 m c p 有 点像啊,本质上都是让模型去连接和操作外部世界。既然功能重叠,那我们到底应该用哪一个呢? 关于这个问题,按 serapic 官方写过一篇相关的文章来解释,核心观点就一句话就在这里, mcp connects cloud data skills teach cloud what to do with that data。 这句话可以说是直接点明了 mcp 与 agent skill 的 区别,它其实就是在说 mcp 给大模型供给数据,比如说查询昨天的销售记录,获取订单的物流状态等等。 而 skill 是 教会大模型如何处理这些数据的,比如说是会议总结必须要有个议题啊,汇报文档必须要包含具体的数据啊等等。到这里,有些同学可能就会问了, 不对啊, agent skill 里面也能写代码?我直接在 agent skill 里面写连接数据的逻辑不就好了吗?这样呢,就不需要 mcp 了, agent skill 就 直接把这两个活都给干了。 确实啊, agent skill 也能连数据,功能上与 mcp 有 所重叠,但是能干并不代表适合干, 这就好像是瑞士军刀也能切菜,但没有人会这么干。我们这个场景呢,其实也是这样, m c p 本质上是一个独立运行的程序,而 agent skill 本质上是一段说明文档,它们的本质不同决定了适合的场景也是不同的。 agent skill 更适合跑一些轻量的脚本,处理简单的逻辑。在代码执行方面, agent skill 的 安全性和稳定性都不及 mcp, 所以 大家还是要根据场景选择合适的工具。甚至在很多的场景下,我们需要把 agent skill 和 mcp 结合起来一起使用,以便尽可能的满足我们的需求。 好,今天的视频呢,就到此结束了,我是马克,用最通俗的语言讲最硬核的技术。如果我的视频对你有帮助,欢迎点赞订阅,我们下次再见,拜拜!

现在我们正站在一个转折点上, ai agent 正从会聊天转向能做事,但在执行真实世界任务时,依然存在很多瓶颈。今年十月十六日, anthropic 发布了官方文档 equipping agents for the real world with agent skills, 提出了解决方案 skills 机制。这篇文章为 agent 进入真实世界任务做好了准备。原文首先肯定了 cloud 的 强大,但也指出在现实工作中,他缺少两样关键能力,第一,缺乏过程知识,即不知道事情该怎么做。第二, 缺乏组织背景,既不知道东西在哪里。我们可以把一个 agent 想象成一个聪明但没经验的新员工。这个新员工虽然很聪明,但入职第一天什么都做不了。 为什么?因为他面临两个巨大的能力差距。第一,他不知道公司如何做事,他会问我们的报销流程是什么?我该如何提交代码,这就是过程知识的缺失。第二,他不知道公司的资料放在哪,他会问我们的项目 api 密钥在哪里? t t t 模板在哪? 这就是组织背景的缺失。没有这两样东西, agent 就 无法处理真实世界中的具体工作。要解决这两个问题,我们通常会给新员工一本标准化的 s o p 入职指南或岗位手册。而在 on traffic 的 设计中,这本手册就是 skill。 skill 的 核心定义是由指令、脚本和资源组成的结构化文件夹。智能体能够动态发现并加载这些内容,以提升特定任务的表现。我们来拆解 skill 的 三要素, instructions 相当于手册中的 s o p 文字,告诉他如何一步步完成任务。 scripts 需要执行的 python 文件 resources, 执行过程中用到的配置文件或模板,如 json 或 d o c x 文件。这三要素正好对应我们开头提到的两个痛点,过程,知识的缺失由指令和脚本解决。 组织背景的缺失由资源解决。定义的后半句同样非常关键,智能体能够动态发现并加载这些内容,以提升特定任务的表现。这句话意味着 skill 不 再被固定在系统提示中, 而是可以被动态检测、挂载和使用。当 cloud 面对不同任务时,比如分析财报、提取合同字段或生成合规文档,它会主动发现最相关的 skill, 加载其中的 s o p 脚本和模板, 使输出更精准、更一致,也更可复现。这就是提升特定任务表现的真正含义。 skill 不 只是知识的存储单元, 而是让 agent 在 特定场景下变得更专业的能力模块。换句话说,它赋予了 cloud 在 需要时加载能力模块的心智模式,让智能边界不再受上下文窗口限制,而是能随任务实时扩展。 也正因为如此, cloud 才能实现近似无限上下文的工作流。这一机制在原文中被称为渐近式。譬如,下期我们将精读这一部分,看看 unstrapix 是 如何通过这套机制让大模型的思考空间实现逻辑上的无限扩展。总结这一部分, agent 就 像一个聪明但没经验的新员工, skill 就是 给他的一本标准化 s o p 入职指南。那么,这个 skill 在 系统架构里是如何体现的呢?这张图展示了配置和实现之间的联系。 一、右侧 agent 虚拟机从右侧开始看更容易理解它是 agent 的 电脑和双手,是真正执行任务的地方。在顶部,我们可以看到 bash、 python 等图标。 python 表示这台电脑安装了 python 引擎,当 skill 文件夹中包含脚本时, l l m 就 能调用它执行。 bash 表示系统具有命令行终端, agent 可以 通过它操作文件,比如使用 l s 列出文件或 cut 提取文件内容。这说明 agent 不 仅能聊天,还能真正动手做事。文件系统中存放着所有 skill 的 实体。二、 左侧 agent 配置左侧的 l l m 是 大脑,是决策中心。 agent 的 配置更像是 l l m 可访问的 s o p 锁影,其中包含核心系统提示,以及一份以装备技能的清单。列出了技能名称和简介,如 pdf, d o x s 等。 当 cloud 想使用某个 skill, 比如 pdf 时,它会通过 tool 操作虚拟机执行命令。 run bash commandant, 这意味着 cloud 指挥虚拟机打开并获取一个 s o p 文件,获取到的内容会返回给 l l m 的 相关公口, cloud 便能学习并决定下一步该怎么做。总结来看,这个架构展示了 l l m 提取 agent 配置并调用虚拟机来执行 skill。 到这里,很多人会问,既然 skill 也能触发执行, 那它和 tool 有 什么区别?两者看起来相似,但角色完全不同。 skill 最终会调用 tool, 但它们的架构地位不同。可以这样理解, tool 像一台烤箱,是底层的执行能力。 它功能强大,但需要精确指令才能工作。 skill 则像一份妈妈的烤鸡食谱,它本身不烤鸡,但封装了全部过程知识烤多久,温度多少,需要哪些原料甚至经验性的诀窍?我们从几个维度来区分它们? two 回答的是 what 我 能做什么?技术上,它执行代码。 skill 回答的是 how 我 该如何做好这件事?技术上,他指导如何完成任务。 tool 是 原子化能力,一个 api 或函数。 skill 是 完整的 sop, 包含指令、脚本和资源。 tool 是 执行器 被动等待调用。 skill 是 流程编排者主动指导 l l m 调用 tool 完成任务。 tool 的 目标是提供原子能力。 skill 的 目标是封装、可移植、可附用的过程知识。总结下, skill 不是 tool 的 替代品, 而是调用 tool 的 sop, 它封装了可组合的过程知识,让 agent 真正具备会做事的能力。好了,第一期内容就到这里,我们搞清楚了 agent skills 是 什么,它的系统架构 以及它和 to 的 核心区别。下一期我们讲详细讲述 skill 如何通过渐进式批录实现近似无限上下文。

hello 朋友们, cloud 十月份重磅发布了 skill 功能,已经过去了一个多月,我发现还是有很多朋友不太理解,甚至没有用过这个功能,所以本期视频会帮助大家彻底理解 skill 功能到底是什么,它有什么作用和玩法,以及它跟 m c p server sub agent command 的 区别以及优劣。那由于 skill 功能新出不久,除了 cloud code 之外,绝大多数 ai 编程产品还没有跟进, 为了让朋友们更好的上手,更好的去玩这个功能,本期视频使用的是国内唯一一家上了 skill 功能的 ai ide, 没错,是 ide, 没想到吧,它就是腾讯的 code body。 所以 大家并不需要非得使用 cloud code 才能玩 skill。 那 其实 skill 这个功能非常好的全释了我之前一直在说的 ai 编程工具并不是非要有编程基础,也不是必须得编程才能使用,它还可以做很多事情。 那本期视频也会从零到一的使用 code body 加 skill 功能,不写一行代码,使用自然语言交互,按照非技术人员的角度一步步做一个自动化流程的场景,朋友们无论是文科生还是技术小白都可以跟着思路去做一遍,相信你会发现新大陆 ok skill 到底是个什么东西呢?大家如果去翻看 cloud 的 官方文档,或者看很多博主对 skill 功能的介绍,你会发现大部分内容都在讲这是一个什么功能,以及它该怎么配置,怎么使用。但是我觉得如果想要真正把 skill 功能用好,不能只看操作手册, 我们需要从概念层面去理解这个功能到底是为了解决什么问题而诞生的 skill, 这个单词直译过来就是技能的意思。我们可以把触手状态的 ai 工具,比如 code body 或者是 color code, 想象成一个什么都不懂,赤手空拳的小孩子。 他很聪明,但他手里边没有工具,也没学过什么招式。这个时候所谓的配置 skill, 其实就是给这个孩子加点,给他加一个飞天的 skill, 他 就能上天。给他加一个遁地的 skill, 他 就能入地。 对应到编程工具里,这到底意味着什么呢?举个最痛点的例子,绝大多数的 ai 编程工具在处理文件时其实是文盲,特别是面对 excel 这种二进制或者是特定格式的文件时,直接甩给他一个 excel 文件, ai 通常是读不了内容的,这个时候 skill 就 派上用场了。我们可以做一个 excel 解析的 skill, 装进工具里。 当你再次选中 excel 文件发送时, ai 的 逻辑就变了。它会先调用这个 skill, 把 excel 里面的数据翻译成 ai 能看懂的文本格式,然后再去执行你的指令。 一旦理解了这个逻辑,朋友们的想象力就可以打开了。 skill 不 仅仅是读文件,它还可以是自动化脚本,比如生成一段爆款风格的视频脚本,也可以是工作流闭环,比如自动生成 ppt, 并保存到指定的路径。 所以 skill 的 本质其实就是让 ai 拥有了它原本不具备的手和脚,并且这个权限是给到用户的。也就是说,我们用户自己就可以给 ai 变成工具,增加更多的技能,让它可以做更多的事情。 我们直接进入实战演示环节,今天我们要完成的演示任务是在不写一行代码的前提下,委托 codebody 和 skill 做一个自动化任务的场景。我们希望当给出了一个主题以及参考文件后, ai 可以 调用相关的 skill 来帮我们自主调研解析文件,最终生成 ppt。 ok, 那 在开始之前,我们还是要先安装 codebodyid, 有 海外版和国内版,这里我们安装海外版,访问 codebody 官网,点击右上方的 log in, 直接使用 google 或者是 github 授权注册并登录。登录成功之后,我们再回到首页这里点击下载,然后我们根据自己的电脑处理器选择对应的版本进行下载安装就好了。安装完成之后,打开应用,选择中文。 酷狗也是基于开源 ide vs code 之上构建的,所以如果朋友们有在使用 vs code 或者是 cursor 的, 可以一键导入它们的配置,然后就是一路 nice, 最后点击登录会跳到网页授权登录,我们点击确认就登录完成了。 登录完成之后,我们直接点击 new folder, 创建一个空白的文件夹作为工作区。到这里我们的准备工作就做好了。 ok, 我 们简单介绍一下酷狗八 d 的 功能,相信大家或多或少都有接触过 ai ide, 那 酷狗八 d ide 也是类似的。右侧会有一个 ai 聊天窗口,它有两种模式,分别是 craft 和 ask 模式。 craft 模式用于自动帮助我们完成复杂的编码任务,类似 cursor agent 模式。 ask 模式用于帮助我们解答代码库以及其他编码问题。类似 cursor 的 ask 模式,它不会主动帮我们修改代码,我们有什么不懂的,可以在 ask 模式下问,然后在 craft 模式下让 ai 完成编程任务。 同时库拉巴蒂也支持计划模式。当我们在 craft 模式下打开计划模式开关后,发送问题, ai 会先帮我们列一个计划,我们也可以补充修改,最终确认了才会去执行任务。 模型选择的话,我们选择 default 就 可以,因为这个默认模型下支持的能力比较多。虽然不知道底层到底是用的什么模型,不过效果还不错。 ok, 我 们暂时先了解这么多,后面做任务时有涉及到,我们再介绍。大家可以思考一下,让 ai 去完成一个任务的核心是什么?没错,是 prompt 提示词。很多朋友觉得提示词设计是一个技术活,其实不是这样的。如果朋友们在二四年就开始用 ai 编程工具,你会发现最开始的提示词慢慢变得可以越来越像一个人的表达。 虽然目前达不到完全你和人的表达,但是现在的提式词设计也没有那么专业且复杂了。那我们就以一个技术小白的视角来帮助大家理解提式词设计的思路。首先,我们可以用一句话来描述我们的核心诉求, 我想做一个能够自动生成 ppt 的 cloud skill, 请帮我实现它。注意,这里描述 cloud skill, 而不是单纯的 skill, 是 为了让 ai 能够清楚地知道我们要做的是一个基于 cloud skill 规范的 skill。 其次,我们还需要交代任务背景。我经常要做 ppt, 有 时候是一个想法,比如分析一下新能源汽车市场,有时候手头有一些现成的资料,比如 pdf 文档或者 excel 数据表,那我需要基于这些资料产出 ppt。 我 希望这个工具能帮我一键搞定,这就是它的背景。然后我们还需要给出一些具体的要求。 第一,要能懂我的输入。如果我只给了一个主题,你要能自己去网上搜集资料,整理出内容。那如果我给你传了文件,比如 pdf 报告,或者是 word 文档,再或者是 excel 表格,你要能看懂里面的内容。 第二点就是内容要丰富,不能只有字,你要把搜到或读到的内容整理成 ppt 的 页面。最重要的是,如果你搜到或读到的内容里有规则数据,你要能把它变成图标,比如柱状图、饼图、折线图、流程图这些。 三、生成的 ppt 要好看。因为我不喜欢 ppt 自带那种丑陋的默认配色。我希望生成的 ppt 是 莫兰迪色系的,颜色要柔和,高级、低饱和度。每一页的背景不要是白板,要有一些简单的设计感,比如用两种柔和的颜色,渐变磨砂、毛玻璃这种背景特效,但不要太花哨,不能影响我看字。 最后,我们还需要描述出需要 ai 做什么,也就是给他的任务。那请根据我上面的描述,告诉我该怎么做这个 skill。 请用通俗易懂的语言列出会包含哪些功能,如果确认没问题,再帮我生成第一版的代码。请不要试图在一个 skill 中完成所有的工作,采用关注点分离的原则,每个 skill 只做一件事。 那最后这句话来源于 cloud 官网针对 skill 教程中的建议,这样一份简单基础的题词就做好了,我们只需要在其中清晰地表达出自己的想法,不需要太细致。大家要注意的是,这并不是一份最优的完善的题词词,但一定是一份还可以的基础题词。所以没关系,因为我们还需要让 ai 来完善一下。 ok, 回到 control 模式,发送基础提示词,等待 ai 的 回复。可以看到 ai 将我们的需求梳理了一下。那由于我们之前的基础提示词细节是不太够的,所以我们需要过一轮 ask 来让 ai 梳理。 那基于 ai 的 回复,我们可以再进行补充。这个补充可能是 ai 忽略掉的点,也可能是新补充的需求。那比如这里我们可以补充两条。 第一条,当深度搜索或读到的内容里面有规则数据,需要能把它变成图标,包括它不仅限于柱状图、饼图、折线图等等。第二条,用户输入可以只有主题,也可以只有附属文件,同时也可以两者都包含。你可以使用不同的 skill 来并发处理这些任务。 ok, 我 们需要等待一下 ai 的 生成。 ok, 我 们可以看一下整体的工作流程。 当确认无误之后,我们就可以切换到 craft 模式来让它帮我们逐步去生成。 这里由于任务量不小,所以我们需要等待一会儿。我们可以看到, codebody 在 创建 skill 时,其实也调用了一个叫 skill 杠 creator 的 skill, 这个 skill 是 用来帮助用户创建一个合格的 skill 的。 这说明库德巴蒂内部的工作流中也集成了一些 skill 作为扩展。这在 skill 没有出现之前还是比较麻烦的,因为之前想要扩展功能,大部分是靠方式拷令或者是 mcp 来实现,那有了 skill 之后,扩展一些能力就比较方便了。 ok, 执行完成之后,我们来看一下生成的这些文件内容。 可以看到点儿 code 八 d 文件夹下面有一个 skills 文件夹,这个目录其实就是 skill 的 配置文件。 cloud code 中是在点儿 cloud 文件夹下面,虽然配置文件夹名不一样,但是 skill 是 通用的,也就说这里生成的 skill 在 cloud code 中依然是适用的。 可以看到它帮我们生成了五个 skill, 每个 skill 只处理一种任务,组合起来就可以完成我们这个自动化的任务。 第一个是深度搜索的一个 skill, 它是用来帮助我们联网搜索并整理主题相关的资料。那第二个是莫兰迪美学的一个 skill, 用来提供莫兰迪配色和美学设计。那第三个是文档解析的 skill, 用来解析 pdf、 word、 excel 文件。 那第四个是 ppt 生成的 skill, 它是用来整合所有的输入,生成最终的 ppt 文件。那最后一个,也就是第五个是图标生成的 skill, 用于分析数据,并且推荐最优的图标类型,并生成。 下面的这些文件是它帮我们生成的相关文档。我们来看一下 skill 的 文件结构。 skill 点 m d, 这个是 skill 的 核心,也是必要文件,那除了这个文件,其他都不是必须的。那这个文件的组成是 skill 的 一个最小单元, 它定义了 skill 的 名称、用途说明,以及具体应该如何操作或执行。至于这个文件的内部结构以及内容该怎么写,我不建议大家记,也不建议大家自己去写这个文件。 a 生成它不香吗? access 通常放一些静态文件,比如图片,字体等等。 reference 通常放一些附加的参考文件。 script 用来放一些可执行的脚本,它还是蛮重要的,因为想要给 a 阵的扩展一些能力,大多都需要通过脚本来完成。那这三个文件夹都是可选的, 它们都是官方推荐的文件夹,命名分类我们也可以不遵守,因为所有的文件或者是脚本的调用以及执行,都需要直接或者是间接的在 skill 的 md 文件中写明。 ok, 那 接下来我们就来测试一下生成的这个 skill 的 效果。 我们直接拖进来一个 pdf, 然后选中这个 pdf 输入,请你调研 ai coding 行业现状,结合资料帮我生成一份 ai coding 行业报告研究的 ppt。 那这个文件是前段时间腾讯研究院出的一个 ai coding 的 非共识报告 pdf。 ok, 我 们输入完了之后,回车 可以看到 ai 帮我按流程调用 skill 来完成这件事情。这里需要注意的是,由于这里面涉及到脚本的执行,比如 skill 有 一个 python 脚本,那我们本地就得安装了 python 环境才可以执行成功。那如果大家没有装脚本的执行环境不成功的话, ai 会有提示, 我们可以根据提示去安装即可。当然我们也可以提前安装好环境,如果不会安装的话也非常简单。右上角先打开一个聊天框,使用 ask 模式去问 ai 应该怎么样安装,然后按步骤安装就可以了。 ok, 生成好之后,我们来看一下最终的 ppt, 目前还是有点问题的,我们可以基于现行 ppt 的 问题,然后再补充一下, 第一条是让 ppt 图标支持中文,第二条是让 ppt 里面的图标按比例缩放到合适的大小,那第三条是调研和解析 skill, 可以 并发执行。第四条是生成 ppt 之后移除掉多余的文件。 ok, 我 们等待一下生成结果。 生成好了之后,我们先把之前测试生成的这些文件删掉, 然后我们再次跑一下测试任务。生成好 ppt 之后,我们打开来看一下效果,哎,这次的效果还可以,比上次要好很多。 效果还行,但是整体的 ppt 结构不是很完善,所以还需要补充优化一下。那优化的思路也很简单,比如这里我们需要强化 ppt 的 结构,如果我们不知道怎么表达,可以直接先打开一个聊天框,选中 ask 模式,然后输入一个完整的 ppt 应该包含哪些模块。回车, 可以看到 ai 帮我们列出了 ppt 的 组成模块,哎,我们就可以切换为 craft 模式,让 ai 基于它说的去优化。我们还是要等待一下 ai 的 生成结果, 那生成完了之后,还是要重复之前的步骤,把之前测试生成的一些文件先删掉,然后再重新执行一下测试, 把文件拖进来,还是原来那个问题。回车, ok, 生成完了之后,我们再次打开看看效果,那这次生成的 ppt 内容也符合常规的 ppt 结构,还可以,那整体也还行, 那整个 ppt 生成的思路大概就这样,我们还可以继续迭代优化,比如扩展一个专门用于 ppt 背景生成的 skill 来制作好看的 ppt 背景,渐变背景、抽象艺术风格背景等等等等。那无论使用脚本生成,还是直接使用用户给定的背景图都行。 也可以梳理一个 ppt 的 文本排版结构,让 ppt 的 内容结构更规范,看上去更统一一点。 呃,同时,我们还可以约束 ppt 生成的内容,根据不同的 ppt 主题使用不同的字体。甚至也可以结合图像生成的 mcp server, 按照 ppt 主题动态生成一些图片,插入到 ppt 中。甚至,如果你不知道怎么优化,可以让 ai 读一下当前的 skill, 给出一些业务上的优化建议,再根据他的建议去问 ai 要方案,最终再让 ai 去生成。我们只做一个无形的打字机器,然后等待 ai 生成内容,然后不停地去 review 就 可以了。大致思路就是这样。 其实很多人会问, skill 和 m c p server, sub agent, command 到底有什么区别?这几个概念确实容易混淆。为了直观区分,我们用钢铁侠做比喻,把 ai 工具中的 agent 理解为托尼的贾维斯战甲系统。 某天,托尼给战甲装上了一个掌心炮。当托尼说贾维斯解决前面那个敌人,贾维斯通过分析知道老板想干架了,于是自主决定调用掌心炮去射击。这里的掌心炮就是 skill, 它是战甲的一个具体能力。 那托尼心血来潮了,还可以给战甲增加镭射炮、电磁脉冲等等,这些都是 skill。 用不用 skill, 怎么用,通常是 ai 思考用户指令后决定的。 ok, 接下来,托尼给贾维斯写死了一条设定,当自己明确喊出自毁程序启动时, 贾维斯不需要思考,也不允许反驳,必须立刻锁死盔甲,销毁数据,然后自爆。这就是 command 自定义指令。甚至托尼还可以设置一个快捷指令,比如大喊发射,就直接触发掌心炮。跳过贾维斯的思考过程, command 和 skill 的 功能区别就在这儿。 command 是 人类的强制命令,它是为了快捷执行一组写死的动作, 那这组动作里当然也可以包含 skill。 后来,托尼觉得贾维斯要干的事情太多了,又要管飞行,又要管能量,脑子不够用。为了给贾维斯减负,他制造了一个独立的卫星系统维罗尼卡,也就是复联二的反好客装甲。这个系统有独立的判断力,当好客发疯时,贾维斯只需要发个信号,维罗尼卡,该你上场了。 然后维罗尼卡就会全权接管。他怎么组装零件,怎么锁住好客,怎么修补战损,全是维罗尼卡自己在算。贾维斯不需要操心,这个专门用来处理好客发疯问题的独立系统,就是 cyber agent 自智能体。 最后,托尼想让贾维斯变得更强大,但他发现,想连接神盾局的数据库需要破解密码。想要控制银河护卫队的飞船,还得重新学习外星语言,而且还得有这个权限,太麻烦了。 于是,托尼和神盾局、银河护卫队坐下来,商定了一个全宇宙统一的接口标准。那神盾局说,我按照这个标准开放数据。银河护卫队说,我按照这个标准开放飞船的控制权。而贾维斯只需要装上这个 m c e 接口,就能读取神盾局的机密,或者是驾驶外星飞船。 当然,托尼自己也遵循 m c p 规范开放了接口,神盾局的电脑也能反过来读取贾维斯的数据,这就是 m c p。 它是一个开放的万能协议,可以让不同的系统、不同的公司之间能够像叉 usb 一 样共享数据,共享能力。 听完这个类比,我相信大家在打开 ai 工具的配置页面时,脑海里就有画面了。 skill 是 贾维斯的工具库,它决定了 agent 可以 干什么事情。 command 是 贾维斯的快捷指令,它可以强制 agent 不 经思考的干一些事情。 sub agent 是 贾维斯的帮手,它可以帮助 agent 分 担一些特定任务。 m c p 是 贾维斯的万能插头,它可以帮助 agent 连接外部世界。 ok? 为什么大家会混淆这几个概念?因为它们在功能上有重叠,甚至我们可以用四种方式来达成同一个目的。 那就以解析 excel 表格为例,你会发现四条路都能走通。我们可以给 agent 做一个 skill, 这个 skill 会执行 python 脚本解析 excel agent 想看 excel 数据时,直接调用这个解析的 skill 就 可以了。 我们也可以给 agent 连接一个解析 excel 的 mcp server, agent 通过标准接口把文件发过去,对方解析完再把数据传回来。当然,我们也可以写死一个指令,比如斜杠 pass excel, 当输入一个流程,直接运行脚本,把表格转成文本。 我们甚至还可以做一个专门做数据分析的 sub agent, 当选中 excel 文件时, agent 就 会把它交给 sub agent。 sub agent 可能自己写了段代码,或者是调用了些工具来把数据搞定。 这四个功能都可以做到这件事,那既然都能干,它们的本质区别到底在哪里?这就要聊到它们是为了解决什么问题而诞生的。 command 是 为了确定性。虽然我们喜欢用自然语言跟 ai 聊天,但是在某些时刻,自然语言是低效而且危险的。比如你想重置对话,你总不能说请帮我把之前的记忆都忘掉。你肯定想更简单一点。 诸如此类需要的系统级操作,比如保存、退出、格式化,我们需要百分百的确定性。 command 的 诞生就是为了绕过 ai 的 思考过程,它是一种上帝模式的介入,为了保证关键操作绝对准确,绝对快速,必须由硬代码直接接管,而不是让大模型去猜要不要调用。 m c p 是 为了互操作性。它是 ai 时代的 usb 协议,只在终结各自为战的局面,因为只要大家都遵循这个协议,一次开发就可以处处运行。它可以让 ai 的 跨系统操作不再有壁垒。 skill 是 为了扩展能力,它的诞生是为了给 ai 这个大脑装上手和脚,让它能够联网获取最新信息,能调用代码精准计算,能读取文件,获取事实。它的核心目的是让 ai 做一些现实的操作。在这之前的一些 ai 产品可能会使用 function calling 扩大大模型的能力,但 skill 不 同, 它可以让用户自己去定义技能,扩展 agent 的 能力,这点 mcp 也可以做到。但是相比之下, mcp 太复杂了,那有了 skill, mcp 只需要专注于外部互联这一件事情上。 最后的 sub agent 是 为了分工协助。当我们只有一个主 agent, 会存在两个非常严重的问题,第一个是角色冲突。当我们让 agent 既做产品经理又做程序员,在同一个对话框里,一会聊这个,一会聊那个, ai 很 容易精神分裂。 第二个是记忆混乱,当一个上下文窗口过大时,就会出现长上下文的注意力衰减的问题。之前聊得记不住了, sabotage 的 诞生就是为了效仿人类的分工,协助每个 sabotage 只做某种类型的任务,并且每个 sabotage 都有单独的上下文,那现在你清晰了吗? ok, 朋友们,回顾一下本期视频的内容,我们介绍了 cloud skill 的 概念以及 skill 和 mcp、 sabotage、 command 的 区别。 同时我们实战了一个小伎俩,没有去肯福达的 api 文档,也没有写一行代码,只是动了动嘴,告诉 codebody 我 们想要什么,然后做成了 skill, 让 ai 真正拥有了自动做 ppt 的 手脚。这就印证了我在视频开头说的那句话,在 ai 时代,编程工具不再是程序员的专属, 是每一个有想法人的魔法杖。当你学会了 skill, 就 等于学会了怎么给你的贾维斯制造掌心炮,你还可以给他接上不同的 m c p server, 或者是直接组一个 safari agent。 这一切的起点都从你亲手定义的第一个 skill 提示词开始。所以别光看着了,赶紧去试试吧。那如果大家不习惯, cloud code codebody 是 目前国内唯一一家能够体验 skill 功能的 ai ide, 大家也可以自行下载体验。无论你是想做自动周报生成器、小红书爆款文案生成,还是股票数据分析等等等等的 skill, 请打开你的脑洞。 如果你做出了好玩的 skill, 欢迎在评论区分享你的创意,这里是不正经的前端,如果你觉得这期视频对你有帮助,请务必一键三连,我们下期再见,拜拜!

资源、指令和工具理解了这三个要素,你就理解了 agent skills。 一个月前,也就是二零二五年十二月十八日, anthrobi 正式宣布将 agent skills 发布为开放标准。今天我们不吹不黑,一条视频,讲清楚它到底是啥, 它和我们之前讲的提示词、工程、 m、 c、 p, 甚至知识库等等有什么关联和区别。 agent skills 顾名思义,就是让 ai agent 有 各种各样的技能,让他能做的事情更多。 首先我们思考一个本质问题,当你让 ai 帮你干活的时候,他内部到底发生了什么?现在你是一个超级大公司的 ceo, 你 的秘书是一个 ai, 你 对他说帮我根据去年营收写一篇全员信, 信中还要包含今年的目标,要符合公司规定,并且还要发送给全体员工。如果我们将整个流程的要素抽象出来,就不难发现, ai 的 工作需要资源,例如公司营收和设密规定 指令,例如规划今天的目标,并写一篇全员信。工具,例如通过邮件接口去发送给全体员工。那么在 agent skills 出来之前, ai 是 如何接受并处理这三要素的呢? 首先谈谈资源,其实也可以称为知识。我们常用的 ai 都是利用互联网上的公开数据训练出来的,那么像公司规范这些内部非公开的数据, ai 肯定无法获得,怎么办?以往我们的方法有两种,要么用这些非公开数据对模型进行微调训练, 要么就将它们放到一个知识库里,供 ai 查找调用。其次是指令,这个好理解,指令也叫提示词,提示词的质量往往决定了 ai 输出的质量,这也就是为什么大家之前一直在强调提示词工程, 还有就是工具。说到工具就离不开 mcp 协议,它允许 ai 使用外部的数据源和工具接口。比如我可以通过 mcp 协议调用 github 接口,让 ai 帮我将代码直接上传到 github 上。 也可以通过 m c p 协议调用电子邮件接口来让 ai 给其他人发送电子邮件。讲了这么多陈年老知识,可能你要问,这和 agent skills 有 什么关系? agent skills 其实就是一个将提示式工程、 m c p 甚至知识库融为一体的纠集缝合关。首先我们来看看 agent skills 结构,它分为三层结构,原数据、指令、资源 指令和资源。好像刚才都提到了,那么原数据又是什么?为了便于理解,这里直接给大家实操演示。如果大家安装了 cloud code, 在 主目录的点 cloud code 文件夹中,你可以找到一个 skills 文件夹,这里面就集成了 ai 所有的技能。 比如我已经实现了让 ai 写全元信的技能,这就是 agent skills 的 本质。在这个本质里面, skill 点 md, 这个文件就是整个模块最重要的部分。 第一部分,由三个横线包裹起来的部分就是原数据,它是对于这个技能的必要介绍,包含名称和描述,缺一不可。下面的部分称之为指令部分, 其实和系统提示词很像,它是内部规定好的,去指导 ai 执行任务的指令。在指令里面,我规定了 ai 需要执行三个任务,总结、营收、规划、明年以及写信。当然,为了确保它真正理解,我给了它一个视力, 现在让我们运行 cloud code, 输入我们的要求,并且给他去年公司营收情况,让他执行来看看效果。经过一段时间的思考后, cloud code 的 弹窗提示他检测到了有一个全员性助手的 skill, 问我们是否需要调用。 点击试,他就会按照我们预定义好的技能总结营收规划明年,并且写好信件。但是显然还有两件事情他并没有完成,一是没有参考公司规范检查信件内容,二是没有将信件通过邮件发送给全体员工。 这就涉及到了 agent skills 结构中的第三层,资源层,我们前面提到的三要素中的资源和工具都属于这一层。比如,我们要求全员性的助手能够参考公司规范。首先,我们要在文件夹下新建一个公司规章制度点 md 的 文件,然后将准备好的内容粘贴进去。 随后,在 skills 点 md 中,我们需要加上一个声明,要求信件必须满足公司规章制度的规定。 此外,为了让这个全员性助手能够将写好的信件发出去,我们还需要在文件夹中新建一个 email 点 p y 的 脚本, 我们将预先准备好的脚本内容粘贴进去,然后再在 skills 点 md 里面新增一个发送邮件的功能规定,如果指令里包含发送邮件等字样,则必须执行该脚本。 现在我们再执行一次 cloud code, 看看会发生什么。这一次,当我们输入指令,选择执行全员性助手后,他会先开始查看公司规章制度点 md 这个文件,确保生成的信件内容符合要求。生成信件之后,他又开始执行发送邮件的脚本, 通过最终的任务完成总结,我们发现,这一次这个小助手不仅帮我们生成了信件,他还识别到了一些违规内容。 原来我们原始的指令里面存在着公司规章制度不允许出现的返点等信息,这次小助手自动帮我们删除了返点信息相关的内容, 并且他还识别了发送邮件的指令,去调用了发送邮件的脚本,这就是完整的 agent skills 工作流。 那么你可能会说,这也没什么新技术,不就是把之前的题设词、工程知识库还有工具调用融合在了一起吗?它有什么优点吗?有!如果你仔细思考过就会发现,除了一开始加载 agent skills 以外, 后续功能里面是否参考公司规章制度,是否调用脚本等等,都是按需加载的。按需加载意味着 ai 不 需要一次性考虑所有内容,也就意味着更省 token, 更意味着用户只要花更少的钱就能享受更专业的服务。 当然, agent skills 框架适合轻量级开发,更多场景下,比如要求调用一些专业软件的接口, m c p 协议可能会更合适,未来二者的结合一定会是主要趋势。

这是 cloud code, 如果你让他开发一个美观的博克网站,他给你的结果啊,可能是这样的,这一点也不美观,对吧。于是啊,你告诉他, 不要使用蓝紫渐变色,不要使用 emoji 图标,而要使用 svg 图标。把上面这一堆要求呢,都告诉 cloud code, 让他再重新开发一个美观的博克网站。这一次啊,情况就要好很多了。 那么问题来了,我不想每次开发项目的时候,都啰里啰嗦的写这么一大段,能不能让 class code 记住这些要求,我不用每次都叮嘱呢, 哎, class code 提供了一个方法,我们可以把这一大段要求啊,放到一个单独的文件中,以 markdown 的 格式书写。那后续呢,我们再让 class code 干活的时候啊,他就把这个文件一起带上,发给 ai 了,这样呢,就不用每次都要写一遍了。但这样呢,有一个新的问题,如果我只是在 class code 里面聊聊天,提提问, 反正不是开发网站,他也要把这一堆内容发给 ai, 这不是白白浪费托管吗?能不能简化一下这个流程,只有当真正需要用到这个文件的时候, clark 才把它发给 ai 呢。我们可以这样做,给这个文件啊,取个名字,然后加个描述,放在文件最开始的地方。 同样呢,还是以 markdown 格式书写,这两个字都啊,简单介绍了这个文件叫啥,是干啥用的。然后 cloud code 在 与 ai 沟通的时候呢,他告诉 ai, 我 这里啊有个文档,他的名字和描述是这样的,如果你有需要,可以问我要具体的内容。 后面 ai 收到用户的指令,发现是要开发网站。这个时候啊,他在告诉 cloud code, 把这个文件给我发来就可以了。那经过这样一通改造呢,就避免了每次都要把这个文件传给 ai 浪费拖开的问题了。 你发现这一招还挺好使,于是啊,如法剖制写了一堆不同的文档,比如 svg 动画制作点 md, 用来详细指导 ai 如何制作网页。 svg 动画 ppt 制作点 md, 用来详细指导 ai 如何制作美观的 ppt 日报生成点 md 呢,用来详细指导 ai 如何书写符合你们公司风格规范的工作日报。那可乐扣的与 ai 交互的时候呢,只需要把这些文档的名字和描述信息作为一个目录清单发给 ai, 就像他当初把 m c p 服务清单发给 ai 那 样, ai 根据用户的提示词呢,自行决定动态加载哪些文档。 那同样的 cloud code, 同样的 ai 大 模型,因为有了这一堆文档的加持呢,你手里的这一套比别人多了很多技能,他更擅长做出好看的网站 ui, 更擅长做 svg 动画,更擅长做 ppt, 更擅长写日报,完美 nice! 刚刚这套技术啊,有一个闪亮的名字,它就是 agent skills。 这一个个文档呢,就是一个个的 skill, 也就是一个个的技能。简单理解的话,这些个 skill 呢,就是一个个的技能手册, cloud code 和 ai 根据这些手册呢,就能完成特定的工作。 为了规范管理呢, cloud code 通过文件夹的形式来管理这些 scale, 并且把每个 scale 的 主文件都统一命名为 scale 点 md, 回到我们这个网站 ui 设计的 scale, 随着你不断的迭代啊,这个 markdown 文件也变得越来越长, 因为好看的 ui 样式啊,实在太多了,各种各样的风格呢,层出不穷,你很难用一个单一的 markdown 文档来全部写完。而且,就算你能全部写在里面,但实际上呢, ai 只能用到其中的一部分, 其他大部分用不上的内容呢,又白白浪费了上下文的 talk 了。于是啊,你打算把每一种风格单独拎出来写一个文件,然后在原来这个主文件里面呢,做一个汇总,里面写上,如果要做简约风网站呢,就读取简约风点, md。 如果要做科技风网站呢,就读取科技风点 md, 如果要做小清新风格的网站呢,就读取小清新点 md。 这样一来啊,当你用 cloud code 做一个科技风的网站的时候呢, ai 发现要先读取网站 ui 设计这个 skill, 在 读取这个主 markdown 文档之后呢,再根据需要进一步读取科技风调 md, 这个文档。这样按需渐进式的加载啊,极大节省了 talkin, 让 ai 只在有必要的时候呢,才读取相应的内容。 再后来啊,你发现需要对网站的 ui 做更精细化的控制,比如按钮、段落图标、配色图标等等。用这样的单个文档方式呢,还是不太好维护。你决定啊,技术升级,把这些细力度的 ui 内容啊,全部用数据表来进行管理。那为了简单起见呢,你选择了用 csv 表格文件来进行管理。 然后,你希望 ai 在 开发网站的时候呢,按照下面这一套工作流来确定最终选择的样式。为了让 ai 知道如何搜索啊,上面的每一步呢,你都写了详细的文字说明,你还专门编写了一个 python 脚本,并告诉 ai 如何执行这个脚本,来从这一堆 csv 文件里面进行搜索。 现在 ai 大 模型在 colorado 的 配合下,在拿到你这个 scale 的 md 文档之后啊,就按照你写的流程,一步步执行里面的操作,执行拍成脚本,完成解锁,最后拿到完整的 ui 设计信息,开始为你开发网站。 事情发展到这里啊,这份 scale 不 仅是提供简单的文字信息供 ai 参考,还能指定工作流,还能提供程序让 colorado 来执行完成更加复杂的工作了。 上面介绍的这个 scale 呢,不是我虚构的,而是一个真实存在的 scale。 它在 github 上面啊,已经收获了超过十四 k 的 star 了。通过这个 scale 呢,我们可以让 colossal 的 这样的编程智能体啊,开发出 ui 更美观的产品。而这个 scale 背后的原理呢,正如我们前面介绍的那样。 最后,让我们来梳理一下整个的过程。首先,每一个 scale 呢,都需要一个 markdown 文件,并且在文件的最开始呢,有名字和描述两个字段,这属于这个 scale 的 原数据, metat 对 它 cloud code 在 启动的时候呢,加载这些原数据,并将它们包含在系统提示词中。 因为这两个字段呢,本身内容比较短,所以呢一般不会占据太多的托根。第二,每个 markdown 文件除了前面的原数据之后的中文内容呢,叫做指令,它本质上呢就是一段提示词,用来指导 code code 如何做特定的事情。 只有当 ai 需要使用这个 skill 的 时候呢,才会加载它,官方称之为触发时加载。第三,资源和代码 skill 相关的其他文件和代码脚本呢?只有当 ai 在 使用 skill 的 过程中需要用到的时候呢,才会动态加载,官方称之为按需加载。 以上啊,就是 astonrapik 推出的 agent scares 技术了,扒掉这些晦涩的名词概念呢,它其实就是一项提示词工程技术的应用,和之前的 m c p 技术呢,也有很多类似之处。如果你还不知道 m c p 是 什么,欢迎观看我的这期视频。 agent skills 也好, m c p 也好,那本质上都是属于提示词的工程,只不过是符合特定规范,相对复杂的提示词。而为了规范管理和各种工程设计考虑啊,引入了一堆技术名词而已。那现在你知道什么是 agent skill 了吗?你还知道有哪些不错的 skill, 也欢迎在评论区分享。 好啦,以上呢,就是这期视频的全部内容啦,如果觉得有帮助,别忘了点赞、收藏转发哦!我是轩辕,我们下期再见!

这个 agent skill 每天可以节省你好几个小时,直接用它和你的 ai 对 话,就能自动连接 notebook lm。 我 之前用它生成了一段播课全程,完全不需要手动操作。网页 and apple chose, google's gemini to power the next generation of siri it's not just a friendly deal i think you described it perfectly before it's a shared vote a shared vote。 安装方法特别简单,下面手把手教你。首先你需要一个支持 skills 的 客户端,目前 cloud, opencode and gravity 等都支持。然后把 github 上这个项目页面发给你的 ai, 告诉他帮你安装这个 skill 就 行。 安装完成后,比如在 opencode 中,需要把这个 skill 加载的配置文件用同样的方式把这个页面发送给 ai, 他 会按照文档帮你配置好。成功后你就能看到这个 skill 了。现在让 ai 调用定制 skill, 自动搜索近期硅谷科技动态,汇总信息,并同步到 notebook i m, 最终生成一段定制薄刻整过程完全自动化,体验非常流畅。你甚至可以设定每日定时任务,让它自动为你完成这些工作。这样一来,就不再被动接收碎片化信息, 而是每天收获一段高质量的薄刻,轻松节省下几个小时的信息整理时间。而这个 skill 的 强大还不止如此,只要是 notebook i m 上有的功能,它全都可以调用,更多好用的玩法等你来发现!关注我,了解更多 ai 干货,感谢大家观看!

最近 ai 圈爆火的 agent skills 到底是个啥?今天用三分钟给你讲,看完直接上手用。我们先上结论, agent skills 呢,就是给 ai agent 配了一个工具箱,里面呢全是你常用的工具和操作流程, 关键是这个工具箱它是你自己设计的。我们先来看一下这张图,以前呢, agent 它只有单技能的这个 mcp 可以用,它没有操作手册,我们呢,就只能自己手把手地去指挥 ai, 去调工具干活。在这种情况下呢,遇见相同的任务,就会经常地给 ai 发送重复的指令, 你说一句他动一下,而且每次都得重复说。现在呢,我们有了 agent skills 这样一个组合技能以后,我们就可以直接把那些常用的重复的操作写进这个 skills 里面,我们就像给 ai 做 sop 的 手册一样,下次呢,再遇到同样的活, ai 呢,它就会自动帮你干了, 你也就再也不用重复的折腾了。比如我这里列了三个技能,第一个技能,你看我们每日的热点筛选, 以前呢,我们都是逐个的让 ai 去做,或者自己搭一个工作流去弄,那这样的话门槛就高了。现在呢,直接可以把搜索分析、写报告、发邮件这样的步骤给他按照步骤执行就搞定了。 还有第二个技能,财报分析,找数据分析,评估预判风险,用代码生成报表。还有第三个技能,海报设计,你把你的公司的品牌规范设计要求都放进去,然后让 ai 按照要求去设计海报,我们呢,就可以把这些常规的动作都给他 打包进这个 skills 里面。如果这个不太好理解呢,我这里再举了一个游戏的例子,这张图呢,玩过王者荣耀的应该都比较熟悉了,你看王者呢,每一个英雄都会给他三到四个技能, skills 呢,相当于就是把这些技能给他配了一个固定的连招,比如三一二 a。 编好以后呢,我们再给他绑定一个咒语,下次呢,只要你一念这个咒语,他就会自动释放这个技能的。当然啊,现在的王者是没有这个功能的,我这里呢,就举个例子,方便大家理解。接下来呢,我们再来看一下这个 skills 他 具体长什么样子。 一个完整的 skills 呢,它主要包含以上四个文件,其中它的核心文件就是这个 skill md 了,我们来看一下它具体长什么样。那一个 skill md 呢,它主要有两部分构成,这个以上部分呢,是它的第一部分,也就是它的核心,然后第二部分呢,就是这一块, 就是他的内容。像第一部分这里呢,主要我们就要描述他的技能名称,还有这个技能的功能有哪些,以及什么时候去调用他。那下面这个部分呢,我们就描述指令使用场景,具体执行步骤,还有以什么格式输出,然后给他一个 demo 例子作为参考。 这里呢,我们就不详细的去聊了,感兴趣的小伙伴可以截个图。这里呢,我再补充一点,看,我这里提到了热点,需要根据我的人设进行匹配分析,那这个人设呢,我们就可以把它写进这个参考文档当中,那 ai 呢,就会从这个参考文档去读取人设内容去进行分析了。 如果你想对 skill 进行深入的了解,我们还可以打开这个 cloud 官方开源的 skill 的 仓库,自己进去看一下,它提供了很多模板,大家可以看一下它具体是怎么写的。那最后呢,我们说一下如何使用啊? 像现在除了 cloud code 以外呢,像 coser 去 open code 还有 codebody, 它们都已经把 skill 集成进去了,而且呢官方都有说这个东西具体怎么用,今天呢,你就可以把这个工具下载下来, 然后把你反复使用的那些操作写进 skills 里面来解放你的生产力。如果你用的是确的话,你看用这个就很简单了,你可以直接通过提示词告诉他,帮我去创建一份能审查我的代码效果问题的 skills, 然后呢 他就会去给你生成一个 skills 的 模板文件,看这里面的内容都写了,你遇到不符合的你自己修改就可以了。如果你觉得用代码来处理比较麻烦呢?他也提供了这种直接新建文件的方式, 就按照他的要求去填写就 ok 了。好了,我们今天的分享就到这里了,你也可以在评论区把你想写进 sketch 的 东西在这里分享出来,我们大家一起讨论,我们下期再见,拜拜。

很多人以为 m c p 和 skill 看着差不多,是不是在重复造轮子呢?一句话先说清楚,他们不在同一层,也不是相互替代。 m c p 只关心一件事情,就是模型该拿到什么样的上下文,数据从哪来,结构长什么样,怎么保证给的是对的? m c p 解决的是上下文怎么传的问题。 skill 关心的是另一件事,事情是怎么被执行的,哪些步骤必须跑脚本,哪些结果要校验,失败了是重试还是直接停? skill 解决的?是啊,事情怎么被做成。 所以关键差别在这儿,就是 m c p 不 负责把事情做成,而 skill 才负责执行和兜底。一个是输入和协议层,一个是任务和执行层。所以不是多造一个 skill, 而是把不同的问题放回它该在的层里。

如何在 obsidian 中使用 cloud skill 实现一个 ai 智能体? obsidian 的 ceo stefan 最近发布的三个 skill, 你 用上了吗? 我先来做个展示,如何用一句话让智能体下载 youtube 视频,并总结视频内容,刊写知识笔记,然后在无线画布中画出知识结构图。在 obsidian 界面中,我向 ai 发送了一个 youtube 视频链接,这个视频是油管著名博主单口大神的一条视频, 我让 ai 帮我下载这个视频的文案内容,然后提取视频的核心知识点,并刊写一篇带有 obsidian 专属于法的 macdonald 知识笔记, 然后根据视频的知识内容,在一幅无线画布上画出知识结构图。 ai 在 接收到指令后,先调用了 youtube transcript 这个视频,转录 skill, 下载了视频文案, 然后调用了 obsidian markdown 这个 skill, 拣写了一篇 obsidian 知识笔记,然后调用 jason combs 这个 skill 在 无线画布上画出了视频的知识加固图。后面的两个 skill, 也就是 obsidian markdown 和 jason combs, 就是 obsidian 的 ceo stefan 最近发布的三个 skill 中的两个。 我们来看一下生成的内容。首先是 obsidian 知识笔记,可以看到知识笔记带有详细的元素句区,并且含有 obsidian 专属的 callout 语法。 我们打开当前笔记的关系图谱,就能看到笔记中的双向链接。然后我们来看一下 ai 绘制的无线画布, 可以看到视频的知识架构被清晰的整理到了无限画布中,甚至还带有原视频的链接。那有了这样的智能体能,为我们省下很多重复性劳动,让我们能够专注在学习和思考上。 今天我就用一个视频教会大家这个智能体的实现步骤,整个流程非常简单,具体步骤和相关知识点还有提示词我都整理成了知识笔记,最后会分享给大家。 首先我们来快速安装一下相关的环境。首先是 cloud code, 关于 cloud code 和 cloud skill 这部分内容在我的上一期视频中已经讲得很详细了。如果你还不知道 cloud skill 和 cloud code, 我 强烈建议大家回看我的上一期视频。那么这里我就快速的过一下安装流程。 我们先安装 windows, 直接去官网下载,然后双击安装即可。打开命令行,通过一行命令来安装。卡洛克,如果你在这一步有网络问题,可以使用网络加速,或者使用国内的 npm 镜像。具体的做法是在命令行后面添加额外的参数, 具体的命令我也展示在屏幕上。安装完成之后,我们要把 cloud 的 ai 替换成兼容模型,因为 cloud 对 网络和地区的限制非常严格,且价格较贵。 目前国内的 ai 比如 deepsea、 智普 glm 都支持了 ospec 的 api 接口。相关的官方文档我已经展示在屏幕上。 我们在命令行中分别输入这三行命令,来把 cloud code 的 ai 接口替换成智普 glm, 然后重启命令行,输入 cloud, 然后回车, cloud code 就 运行起来了。那么到此 cloud code 就 安装完毕了。 接下来我们来配置 obsidian, 这里我们需要安装一个插件,名字叫 cloud 点,是专门为 obsidian 适配 cloud code 的 插件,目前这个插件还没有正式发布到第三方市场中, 我们在 github 上找到 clouding 的 仓库,在 reedme 中能看到安装方法。我们手动下载三个文件,分别是 main 点 js, mainfast 点 json, 还有 style 点 css, 然后来到 obsidian 仓库所在的文件夹,在点 obsidian 文件夹中找到 plug ins 文件夹,然后在 plug ins 文件夹下创建一个叫 clouding 的 文件夹, 并且把刚才下载的三个文件放进去。然后我们打开 obsidian, 在 第三方插件界面把 cloudian 这个插件的开关打开, 然后来到设置界面,插件的设置界面有一些基础设置,比如 cloud 应该如何称呼你,这里我填 jason。 然后我们把滚动条拉到最下面,找到自定义变量,这里我们需要设置三个变量, 分别是 ai 的 u, r, l, a, p, i, t 和模型名称,那这里我们依然使用智普 g l l 模型,那你也可以使用 deep six 模型,那具体的参数我已经展示在屏幕上了。 设置完毕后,重启 off c 点,然后在键盘上按下 ctrl 加 p, 打开命令面板,输入 cloud 点,选择 open chat view 来打开 cloud 点的 ai 对 话窗口,在对话窗口中输入一个你好能看到 ai 返回结果,说明配置成功, 那么到此我们就完成了环境的配置。那接下来我们要把相关的 skill 放置进来。首先就是 obsidian ceo 发布的三个 skill, 我 们来到 github 搜索 obsidian skills, 找到 cappano 这个人的仓库,点进来,我们看到说明文档中已经说得很详细了,一共 seven skill, 分 别是 obsidian markdown, 用来拷写含有 obsidian 专有语法的 markdown 知识笔记。第二个是 jason canvas, 是 用来让 ai 帮你绘制无线画布 canvas 的 skill。 第三个是 obsidian basis, 是 让 ai 来帮你创建 obsidian 数据库用的。我们点击右上角绿色的 code 按钮,把整个仓库以 zip 压缩包的形式下载下来, 解压缩之后,把 skills 这个文件夹复制出来,然后来到我们的 obsidian 仓库所在的文件夹,找到点 cloud 这个文件夹,进入之后把刚才复制的 skills 文件夹拷贝进来,那么现在我们的 obsidian 就 已经有这三个 skill 了。 我们回到 abc 界面,在 abc 插件的 ai 对 话窗口输入斜杠 skills, 然后回车 ai 如果能够列出它所拥有的 skills, 那 么我们的整个流程就实现完成了。我的 ai 之所以有这么多的 skills, 是 因为我在 cloud code 的 全句目录下放了很多 skills, 大家可以回看我上一期讲 cloud skill 的 视频, 那么现在我们就可以让智能体来调用 skill 帮我们完成任务了。首先我让他用无线画布 canvas 来画出有关地中海饮食的知识结构图,并把生成的无线画布文件保存到 opposite 仓库的根部部。 我们可以看到 ai 在 接收到指令后,马上选择使用 jason canvas 这个 skill, 经过一段时间的思考之后,画出了知识库的根目录中。我们点开这个无线画布来看一下, 可以看到 ai 画出了地中海饮食的知识框架,并使用不同的颜色模块进行了分组。那么到此我们就成功在 office 界面中调用 cloud skill 来实现智能体功能了。 如果你想要为自己的智能体安装更多的 skill, 可以 到 github 上搜索相关仓库,比如 awesome cloud skill 这个仓库,以及 ospec 官方 github 仓库相关内容大家可以回看我们上一期视频。 这里我想额外说一个问题, stefan 发布的这三个 skill 是 全英文的,如果你向 ai 发送中文指令, 大模型在匹配的时候不一定每次都能精准地认识到应该使用哪个 skill, 那 解决的办法也有很多,你可以在提示词中明确要求它使用某一个 skill, 也可以来到 clouding 插件设置界面中的系统提示词选项, 在系统提示词中,要求 ai 在 接受到用户指令后,优先思考应该使用哪个 skill。 那 这样一来,你的 ai 有 了 skill 的 加持,就能变得更加智能,对特定任务也会完成的更加精确。对于 obsidian 的 ceo stefan 发布的这三个 skill, 我 个人认为更多的是代表官方的态度。 dolphin 他 没有发布在 obsidian 官方的 github 上,而是发布在了自己的 github 账号上。可以看到 minimo 这个外观主题也是在他的这个账号上发布的,因为他是这个主题的作者嘛。至于他之前接受采访中所传达的理念,可以说是知心合一的。 之前的采访中他说过,出于隐私等因素, obsidian 对 于发布官方 ai agent 的 持谨慎态度,这一点是不同于 notion 的。 由于 obsidian 的 文件隐私性,他鼓励用户自己去决定以什么样的方式使用 ai。 也就是说,你如果想要 ai 智能体,就自己手搓一个,而如今他自己亲自下场,带头手搓 agent skill, 并且发布在他自己的推特和 github 账号上,而不是官方账号, 这就非常符合他之前所传达的观点。 obsidian 不 像 notion 那 样环境是封闭的,限制那么多, obsidian 的 文件完全本地化,完全掌握在你自己手里,大家可以根据自己的需求,灵活地通过各种方式使用 ai。 那么今天的视频内容就到这了,大家现在就可以上手把 stefan 发布的 thank you 用起来了。视频中的内容和知识点我都整理成了知识笔记,大家可以在我的主页或频道信息中找到我的个人主页地址来下载资料,有任何问题都可以在评论区中给我留言,记得点赞关注,谢谢大家!

好,咱们来聊聊 m c p 和 agent skill, 它俩听着挺像,那到底有啥不一样呢?很多人可能都有点搞不太清,其实啊,有一个特别简单的比喻就能说明白,你就记住这个核心概念,一个呢是管道,另一个是操作手册。 行,咱们先看管道,也就是 m c p, 它本质上就是个标准协议,保证 ai 能安全地连上外部工具。说白了,它就像是 ai 界的 usb c 接口,想做个啥都能插的万能插头。 那 mcp 里头都有啥呢?主要是三样能用的工具,数据之类的资源,还有一些现成的模板。所以 mcp 的 核心任务就一个,解决怎么连的问题。好,管道明白了,再来看操作手册。 agent skill 这东西就像个能力扩展包, 它其实就是一份超显细的菜谱,一步步教 ai 具体该怎么干活。它很聪明,需要食材加载,特别省资源,而且它是用代码执行,结果绝对准确。 你看,这就分清楚了,一个管连接,另一个呢?管具体怎么操作?在技术层面, m c p 就是 那个集成层,负责打通,而 agent skill 呢,就是知识层。这么一看,它俩的取舍就很清楚了, m c p 更灵活,但资源消耗和风险也大一些。 但最关键的一点是,它俩根本不是对手,而是互相补充的好搭档,它俩能完美配合。你看手册负责给指令,管道就负责去连接去执行。所以说,咱们又回到了最初那个比喻,管道加上操作手册。 那你想想,当管道和手册强强联手,一个能力更强、连接更广的 ai, 未来会是什么样?

最近 ai 领域最火的就是 agent skills 这个技术最开始是被 esoteric 的 cloud 模型应用,然后在十二月份的时候也被开放出来了,现在很多工具也都支持了。那我这里拆解了一下,到底什么是 skills 以及 skills 的 能做什么?用一句话总结, skills 就是 被封装好的专业化能力或者是知 识库,它相当于可以给 ai 装上一个操作手册或者是说明书,像大模型能够像专家一样去执行任务。举个例子,以前我们在使用 ai 模型的过程中,可能它什么都不会,但是你想让它去做某一个专业领域的任务,或 只执行一个复杂的任务,它就会显得力不从心。那么现在 skill 的 目的就是我们可以把这些标准化的任务全部用这种技能的方式去实现,然后我们在使用 ai 的 模型过程中去调用这个技能,这样最终的结果就会更好,然后效率也会提高。我举个例子啊, skill 它和大模型以及 agent 它们之间的 几种关系,这个关系可以把它类比成一个智能工厂。大模型就是这个智能工厂的中央控制系统,它负责收集用户的指令和理解用户的需求,并进行一个初步规 规划。那 agent 就是 这个工厂的生产经理,他根据规划的要求去决策并调度哪些 skill 来执行。那这里面就有很多,比如说像组装、焊接,他可能每一个能力都是一个 skill。 那 再到我们的办公场景,比如说我们要去完成一个工作任务,我们需要写 ppt, 需要去做数据分析以及去做编程,那每一个任务他都可以被封装成一个, 那这个技术的突破,也就是我们任何可以被标准化的工作或者是流程,他都可以去被做成一个技能,或者是能够去被封装。前段时间要使用和实践这个 skill 的 门槛相对比较高一点,他必须要通过 code 的 这一类工具去使用,那最近刚好扣子也是有了这个技能,我们具体来看一下。进入到扣子的官网之后,他这里有了一个技能商店,这是最近新加的这个技能商店里面已经有很多同学做好了很多的技能,这个技能全部是根据他们的一些经验或者是日常的一些想法来做的,那我们就可以直接去使用,同 这里面有免费的和付费的。比如说我举一个例子,我们的使用过程是点击,然后这里会有一个安装操作,这个安装操作相当于就是安装到你的扣子里面之后,你就可以调用它了。比如说这里我要进行使用,使用就是进入到整个大模型的调用界面,那么你想用这个技能帮助你干什么?你就可以在这里说出你的需求以及输入你的 之词,它可以创建自己的技能,这个技能就是你可以通过自然语言的方式把你在工作或者是你有想法的一些需求,通过自然语言去形成一个技能,然后可以进行部署,部署之后你就可以在刚才那个地方进行调用了。比如我这里就做了个 skill, 这个 skill 是 基于我想 做一个电商产品的主图生成器,可以根据我输入的名称去随意生成整个产品的封面图,比如说我这里随便做一些展示,我觉得它的整个生成效果是很好的。 扣子在技能商店或者是自己创建技能,我觉得是降低了我们的使用门槛,我们全程可以通过自然语言的方式去做自己的技能,把自己的工作有趣进行沉淀,生成一个自己比较满意的结果,大家也可以来试一试,玩一玩。

最近 agent skills 规范非常非常火,然后我看到很多博主的视频,嗯,一些教学资料文档讲的也非常好,但是我觉得他们讲的不是特别深入,就是你看完之后或多或少还有很多疑虑。那么我们从开发者的视角,如果从 底层剖析它,能看到它运行的机制,那是不是理解就更好了呢?所以我打算出一个视频帮大家梳理这个整套流程。 由于我没有准备很多详细的文稿,可能说的比较结巴啊,希望大家理解一下。好,那么我们进入主题, 我们也不不免熟套的说一下什么是 ages。 首先,它并非是一个简单的工具集合, 是一种标准化的知识封装格式。记住啊,标准化的知识封装格式。他试图回答的是一个根本性的问题,就是如何让通用的大约模型在不进行昂贵的微调的情况下,瞬间获得某种特定领域的专业执行能力, 或者说专业知识呢?答案就是将程序化的知识,就是关于如何做,怎么做的知识,这些能力标准化为 agent, 可以 读,可以执行的文件结构。再说一遍,就是将程序性的知识 标准化为 agent, 可以 读,可以写,可以执行的文件结构。关键就是这里的文件结构, 它实际上借鉴了 linux 的 一切接文件的设计哲学。在 antispac 的 定义当中,一个 skills, 呃本质上是一个特定的文件目录,核心就是一个 skill m d 点 markdown, 然后它有什么? name? description, name 是 个唯一的呃,技能标识符,呃, description 是 对这个技能的描述,当他和 agent 发生交互的时候进行语义匹配,那么载入到 system prompt 里面,那么 agent 就 知道,哦,我可以做这些东西,但是他,他还不知道怎么做, 他这就要牵扯到我们下面他是怎么个发现的一个交互机制? i c f i c 提出的是什么呢?渐进式路由, 渐进式路由,或者说按需加载,他是怎么呃,怎么怎么,怎么产生这种所谓的渐进式路由的呢?首先就是一开始 我们有个叫发现阶段,它会扫描,就是 a 键的初步化的时候,系统会扫描你配置目录,比如说你如果用 cloud code, 或者用嗯 cos, 或者用 antigravity, 它有一个专属的自己的一个目录,下面有个 scales 目录,对不对?你如果安装后发放在这里面,它就会扫描这里面的目录,然后就读取每个 scale md 文件最上方的代码格式的,那那里面的叫什么? front matter 叫前置源数据 会注入到 agent 的 系统提示词当中,形成了一个技能的缩影,这时候 agent 知道了自己能做什么了,但是呢,他还不知道具体怎么做。这一阶段因为那个原数据的 token 非常少,可能也就百来个,它确保了 agent 的 响应和基础的对话能力, ok。 第二阶段它是怎么激活的呢?它根据我们用户的任务请求,比如说我们说帮我分析一下这份 pdf 的 财富数,财务数据, 好,这时候你这份呃请求的文本和它描述里面的,比如说提取啊,某个 pdf 文件里面的数据啊,哎,这个发生了语义匹配,那么 a 键呢?就会激活它,然后通过底层定义的原子化的工具, 比如说 cat, bash, password 等等这些原子化定义的工具去读取对应的 skill md 名的完整的内容了,因为原数据下面就是它的 markdown 正文对不对?这些详细的指令呢,就会进入到当前上下文窗口当中, 这时候就让 a g 的 从一个通用的助手瞬间变成了一个什么 pdf 处理专家好。然后呢?执行阶段,第三阶段,他在执行的过程当中, 如果 scale md 里面论文里面提到了特定的合规的文档或者特定的脚本,那么就需要我们那个 scales 这个目录层级里面的 references 和 scripts 这脚本里这个两个目录里面的东西进行 交互了,它就会根据需要再次发起读取或者执行一些请求。这就形成了一种叫 just in time 及时的数据加载方式,打破了上下文的物理窗口,理论上可以让 agent 允许 agent 访问无限规模的数据库, 只要这些知识被合理的阻止在文件系统中,对不对?就像我们刚开始说的叫嗯文件结构或者叫做文件夹。 ok, 我 们现在不用 cloud code 呃来模拟,我们用一个最简单的代码,比如说这地方我们写了一个脚本, 呃叫 nano code, 嗯,点 p y 这段脚本我们实现了 cloud code 的 最原子化的 agent 的 能力,代码细节我们待会再说。比如说这里面我写了两个 skill, 我把它叫做 nano code, 点 nano code 的 目录这地方你会看见左上方,注意看这地方有两个目录对不对?比如说这地方有个叫一个 u i 设计师的呃能力叫技能, 我没有按照官方的具体的呃规范啊,比如说又有 scripts 目录,又有 references 目录,我们就写一个最简单的 skill 点 m d, 这地方 yammer, 原数据是什么? name? 现代的 u i 设计师对不对?好, description, 教你怎么去用。 ok, 这底下是 markdown 论文,我们来看一下啊。我现在让它输出完整的系统提示时,我们会看。实际上我们的脚本里面最简单的核心就是说我们是一个最小化的一个 q 的 助手, 没有了,但是我们要注意看啊,这个叫,这个叫叉 mark 格式。按照呃 adorable skills 规范的话,这个 available skills, 这个叫叉 mark 格式。它包装起来的东西呢?实际上最最开始 他没有这些东西,但是呢,我们有一个站位符,我们用这种叉秒格式把它站位进来,之后,当我们运行 a 进去的时候,通过我们请求或者呃 粗死化的时候,不是通过我们请求。说错了啊,抱歉,粗死化的时候他会扫描那个目录,因为我们 a 进的开发当中把 a 进的会写写成写写成这种功能 就是脚本在它 a 信的初识化的时候,会读取相应的 scale md 里面的文件,如果没有,那么这里面就空,如果有的话,它就会把呃 yam 元素注入进来。我们有一个类似于 load scale 的 方法,我们看一下啊,在, 哎,我们有一个对,这地方叫 discovers, 呃 skills, 我 们会解析对应的目录好,把这个目录里面里面所有的 markdown 并立起来,然后读它的原数据。 yammer, 原数据好, ok, 那 么文件描述符就就有了。 好,这时候实际上这个系统提示时是不是很少?理论上你如果再去下载别的是钥匙,是不是一起都加载进来?好,当发生语音匹配的时候,比如我说帮我写一个产品落地一对不对? 落地页或者叫着陆页吧,这时候它会怎样呢?根据语义匹配的时候,它会看到没,它有个工具叫什么 load scale, 它会把这个 modern ui 这个 skill 的 技能 载入了。 ok, 这时候呢,它会根据你 skill 呃, modern ui, 你 的 skill map 当中里面的正纹就是这地方的正纹 要求,他说你要按照什么样的样式啊,什么样的规范啊去写啊,对不对?好,他就读,这时候他就从通用的一种能力变成了你在 skill m md 文件里面描述的那种能力,他按照你的要求去去做这个事情, 这是举个例子啊。好,那你看,他正在读。哦,这可能是我之前执行过的一个文件啊,你不关心他可能会去重写, 这地方算语意其一吧,因为这个视频录制的时候我已经跑了一遍啊,好,不重要?好,这我通过,现在通过这个讲解,我不知道大家已经清楚了没有啊,因为我讲的比较乱啊,口语比较,呃,比较模糊, 我们我发现啊,他现在他正在执行。为什么?他不是那种像 cloud code 的 那种闪一闪?因为现在比较简单啊,也不是流势输出的,他比较慢。好,我们先,我们再回到呃,第二个,呃,后面的章节就是, 呃,有很多人就会有疑问了,你说你这种能力, skill 这种能力和 m m c p 到底有什么本质的区别 啊?从我嗯知道这个 skill 规范出来的时候,我也在想,因为它很多场景好像很重复啊,我相信大家也有这种困惑,现在我就帮大家剖析, 为什么呃,他们有共性,那么又有不可替代性呢?又有什么?也就说我们要建立一个认知,就是什么,他们不是二元对立的,他们是上下层级关系。 ok? 先说一个认知,就是 agent skills, 它是服务于认知层的,它将它参考人类专家的那个认知能力模式给它赋予了这种能力,而我们的 m、 c、 p 是 连接层的, 这个我不知道大家怎么讲,可能你要熟悉 mct 的 架构协议设计你你可能才有体会,如果你不熟悉,你是个小白,如何怎么理解呢?我举一个场景,比如说你在公司上班, 公司如果说推行 a 镜的话,未来公司内部的 a 镜的已经广泛使用的时候,假如说我们先想一想,没有 mct 的 时候,我们只用 skys。 你说我想查一下公司,公司某个数据库下面的呃客户信息,总结一下一些一些相关的数据。如如果用公司内部的 skills 呃模板去用的话,那么有个问题就出来了, 我也这样用, a 同事这样用, b 同事这样用, c 同事这样用,他每个人都用 skills, md 下面的某个脚本拿去读数据库去连接,那么这个安全协议怎么解决?这个权限认证怎么解决? 你是不是有一个中间层,或者你一个服务层,公司内部也要去处理,这样你才能把所,你在处理我的数据库之前,我要跟你拦一下,我要健全,对不对? 我要呃,因为这是很重要的一个门槛,那个前置手段,防止恶意的脚本,嗯,干扰了数据库呢?对不对?是很危险的,如果没有,如果说我没有 m c p, 我 是不是也要写个这个事务? 那么现在 m c p 本身就已经存在了,那么 m c p 原来它的解决的目的是什么呢?它是 c c client host server 这种架构模式, client 可能觉得 mcp 的 sdk 不 管是什么变成原写的,那么后者的呢?就是我们主机,就是你运行在你本地的 cloud code 呀, cloud desktop 啊,还有呃,各种各样的 ide 啊,只要有 a 帧的能力,那些东西好记。嗯嗯,放在它里面的, 因为 m c p 它面向连接,它通过底层的接生 r p c 这个协议进行交互,它有很多场景,你是这样是做不了的,比如说我前面说的是健全。还有一个是长连接,比如说我有 web socket, 它不管是我们双向通信呀,因为 m c p 它都是支持的。如果是常驻进城的,因为它是常驻进城,它有个服务啊, 你这些东西,因为 skills 有 点像阅后集坟,或者说执行完集抛的那种概念。而 m c p 呢,它有很多各种各样的特性啊,它还支持模板,嗯, resources 对 不对?然后它提它能提供一系列的工具。 m c p 经常大家去连接的时候,它有一个,嗯, list 啊,或者有一个各种各样的工具啊。 但是 m c p 有 个弱点就是它,如果你的 m c p 搞得比较颗粒化,比较细, 然后呢?你的效率又很低的, m c p 这种设计出来,它就它就给大鱼模型造成很多负担,它会启动时要加载你这样很多的,呃, skills, 如果你去说错了,呃,它会加载你很多的 tools, 这样你在 你如果用那个 cloud code, 或者就是叫各种各样的 id, 你 去他们的那个 mcp 那 个服务市场上去看,如果它加载之后,它会有各种各样的工具需要打开,它会对上下文造成极大的负担, 所以说有些场景是 agent 的 skills 才能才能做最好,还有些场景是 mcp 才能做好它,所以它们不是相互取代,它们是 有一个叫上,有个叫上下层关系。或者你或者说为什么,为什么我把它说成上下文关系呢?比如说企业内部的,我刚才说了数据库, 还有可能是内部的一些呃,比较敏感的一些文档资料,他们那么这一层他属于基建层,他可能是可能在 l 零,那么 l 一 l 一 层,那么可能就需要 m c p 搭一个 这个层级出来,然后呢,我们的 skill 呢,就可以通过 m c p 服务,因为我们 skill skill 本身是可以支持脚本调用的,那我也可以调用远程的 m c p 服务啊, 对不对?那这样它形成了一种协调工作,所以我们千万不要认为它们是奥元取代的关系了。好,我们现在回到我们刚才的脚本,它是不是已经执行好了? 嗯,报错了,没关系啊,我们重新执行一遍,启动我们的这个最小的 cloud code mini cloud 脚本。然后呢,我们说帮我写一个这个介绍这个项目的落地页。好,你看 他就开始执行,这时候呢,他读了 readme, 了解一下当前项目,然后呢,他看这个项目里有什么东西,对不对?然后看了项目的主程序, 哎,这时候呢,他决定要调用这个我们前面说的 style 设计师,哎,来设计个漂亮的落地页,这时候呢,载入, 然后呢,他说我要开始创建了,这是一个轻量级的克拉克的替代品,这是 skills 系统,单文件,时间无依赖,好,开始往里面去写,写完之后 他告诉好这些东西,通过我们这个一个小小小的一个脚本项目,其实就已经模拟了一个最小化的 a 建特,实现 最小化。因为 a 建特开发其实相对来说还是比较复杂的,他不是一个单一的,其实要综合起来是个多学科很复杂的一个价格。 我们,但是呢,它核心就是不断的循环,然后有可能有人类介入,对不对?我们又通过这个小小的脚本来模拟了一遍,然后呢,嵌入了我们的 skills 的 能力,好,我们看一下啊,它有没有按照我们的 skill 的 要求把这个落地页写好呢?哎,来了, 不是那种蓝的紫色了啊,有点,就是,我让他介绍一下这个项目对不对?我接了 deepsea 的 api, 出了一下这个演示, 这一个落地页就出来了,好,现在我们就可以发现,嗯, skill 是 它这个能力是非常强大的,它通过动态的注入原数据,然后激活,发现激活,然后呢,按照 skill 的 要求执行,发现激活,执行, 就是这样很神奇,但是我们想一想,既然它是动态注入 system prompt, 那 么它肯定也会带来什么注入攻击,比如说, 呃,陀螺仪,牧马攻击,他可能会,比如说我们喜欢下载各种各样的第三方的 skills 文件目录啊,文件结构啊,但是呢,我们没有进行审计,也没有去检查,他可能在脚本里面会会执行你本地文件,系统 可能会删除,会会会会窃取你的隐私,甚至你在执行相关 skill 的 时候,他在脚本里面放入了他远程的什么自己的服务器链接地址,然后你把文件就上传给他了,所以说明是恶意的 skill 攻击和指令的注入是肯定会存在的 对不对?这就有一定的潜在的缺点和安全挑战了。当然了,这只是说不能说有缺点我们就不用啊,它的这个功能还是非常非常恰当的,它把 a 进去的架构范式又彻底的进进一步了。 然后我们可以展望一下 skills 这种能力会不会以后还可以自主的创建 skill 呢?比如说我们 呃,它,比如说我们在企业内部执行的一些通用型的一些功能,它会在呃执行一段 api 调用,或者就数据清洗脚本之后,它会固化为自己的专属的一个 skill。 然后呢,实现自我技能的积累和进化, 有点像迈向更高级的自主智能体的一个重要的标志了。然后我们把这个 ai 从传统的预训练啊,微调啊,然后模式转向了持续学习加知识库扩展的这种模式的转变, 这,这就非常好。然后不知道我这一套演示呃,就是还有这个讲解,让大家,尤其从开发者的视角出发,不知道让大家有没有更进一步或深入的了解呢? 我讲的有点乱啊,口语也比较快,希望大家可以稍微再翻过来看一看,尤其是这个脚本的呃,对 skills 它怎么在底层交互的?这个模式很清晰了,谢谢大家。

skill 到底是啥? skill 最近已经火出圈了,连我六零后的长辈都在问我 skill 到底是啥,所以今天我就用 skill 画了一个图来解释 skill 到底是什么,希望用一分钟能跟大家讲明白,到底相比于大模型, skill 是 个啥?以及它有什么好处?我觉得有个特别好的类比哈,就大模型就相当于是厨师, skill 相当于是菜谱, 没有菜谱的厨师呢?他有时候做饭虽然好吃,但是他每次的产出是不稳定的。但是当厨师有一个 sop 之后,就类似于麦当劳的汉堡包 sop, 你 每次吃到的巨无霸基本上都是同一个味道的,这个就是 skill 的 好处。 skill 就是 大模型的菜谱 ok? 大家可能会很奇怪,为什么大模型需要菜谱,或者什么情况下需要菜谱?举个例子,比如说之前我们做电商需要每天去找爆品,看爆品全品是吧?那找爆品的话,我可能会有以上这么几个流程来去找,每天我都要干这个活,而且每天都要重复这些步骤, 在没有 ai 之前,我每天都守着干,我很累。有了 ai 之后,我尝试一步一步的跟 ai 对 话去干,有一点提升我的效率。但我还是有时候觉得跟 ai 写作很累,因为你总得盯着 ai, 而且你得守在 ai 旁边,去看它每一步的产出,纠正它每一步的产出,再推进到下一步。但是有了 skill 之后,我们把这些东西直接打包成一个 skill, 你 在每次需要找爆品的时候,你只需要跟大模型说,帮我用叉叉叉 skill 找一下今天的爆品, ok, 你 现在就解放了,你只用等他帮你把所有的爆品数据抓出来就可以了。这样对我们大模型的使用者、 ai 的 使用者来讲,门槛降低了超级多,而且时间效率都提升了特别高。 不用你守在他旁边了,只需要你说一句话,他可以给你完成很多个步骤的工作,然后再一起输出给你。而这种 sop 化的工作实际上在我们的生活中、工作中非常的常见。大家如果想到什么创意,欢迎评论区留言。

今天给大家分享一下关于 ai 的 一些相关的一些名词及行为,具体有什么作用?主要是像 agent, skill, 沃克弗洛跟 m c p。 当然 prompt 简单过一下就好了, 它们之间的一个具体的一个区别是什么?即我们怎么去用。 skill 是 arabic, 它十二月,去年十二月的时候去推出的一个东西啊,这个东西其实有点像 loser, 嗯, 话不多说,第一步啊,第一个就是那个 prompt。 prompt 大家应该是比较简单,用的比较多了,相当于说我们经常性会, 它主要是就是一个关键词,或者说是预设的一个人设,给到 ai, 让 ai 以这个人设的一个形式去突出你的一个角色型的一个内容。例如我们做一个番茄炒蛋嘛,我们这边动统一用番茄炒蛋这个例子来讲解,我们不会讲的比较技术性的。 如果说你要炒个番茄炒蛋,你预设一个 promise, 相当于说如果说你是个川菜的师傅,那么他自然就吐出一个加辣的一个番茄炒蛋,如果说你做粤菜,那他默认可能就不给你加辣,就相当于他就会代表一个 你回答的一个人的一个个性角色及背景的一个信息。所以说这 promise 是 用的比较多。那个前段时间那 ai 刚出来的时候不是还有经常性有 promise 工程师这么一个东西吗? 这么个角色嘛,说这一块应该大家用的比较熟了,不过 prompt 现在也经常性用于我们做一些约束或像 root 这么一个东西去约束我们的一些程序,它不要跑偏,所以这一块也是非常非常重要的,这个怎么写的话,这个文案怎么写啊?这个就不说了。 然后第二个就是 agent, 就是 agent 这一块,像前段时间被梅塔说过的 minus 也够牛了吧。其实 agent 这一块呢,底层都是用调模调大模型,但是它其实是将用户的问题拿到之后,去 通过大模型,然后去分析要具体要怎么去调 m c p, 或者说是调工作流,或者说调 skill, 相当于说由 agent 统一去分配去执行。我们的一个 智能题,就相当于说我们这一块如果是番茄炒蛋,你告诉他我要做个番茄炒蛋,那么他会思考,那我先点火,下一步我们思考去用油,那用油的话去哪里去用呢?那去 m c p 呢?去去那个 workflow 里面去拿油,或者说 scale 里面去拿油, 再把这下一步的这两步的结果再发送给智能体,然后智能体再去思考下一步再干什么,把油放到锅里,然后再去放土豆,相当于说这么一个流程,一个流程的去衔接上, 总总结来说就是这一句话,用执行结果作为下一次决策的输出,形成那个 price, 呃, price, action, observer 及 replay 的 一个闭环,相当于它不断不断的循环这么的一个过程, 它每次过程呢,相当于说就把你的问题、思考动作跟观察的结果拼成全新的 prompts, 再给到一个大模型,那么大模型再撸出来,但是它同样也会出现一个问题, 大家可以看到它会无找不到答案的时候会无限循环,大家有用 i d e 去问问题的时候,经常性会无限的循环,那个问循环的那个问题,我也经常性遇到,因为就像你找土豆,你去说你做一个土豆丝,你它就在冰箱里没有找到土豆丝,它就一直找,一直找,一直找,导致 导致挂掉了,所以说经常性要人工把它停掉。所以说我们需要设立一个最大的步数,相当于说你找两次没找到,那就返回用户,那 你你需要的主动没找到,那你可能提供一些其他线索,去冰箱找,去冻冷冻箱里面去找,这样的话它就解决了这个问题,最终返回 answer, final answer 的 一个形,那个结果去终止掉这个行为,所以它就是一个智能助理,相当于说我们的 行政总厨,相当于总行政总厨的形式,去掉我们各类的那个形式啊。 第三个就是我们的 m c p。 这 m c p 其实大家不用理解的那个复杂,其实它就是一个协议,就是通过智能助理去 用 m c p。 协议的形式去掉我们的一个工作流,或者是是接口,或者说是 tour, 相当于经常性 m c p client, m c p server 的 一个东西啊。其实大家不用关注,只要关注它 m c p, 它只是通过这个协议去调,相当于你告诉任正助理,通过自然语言的形式去告诉助理,这个 是我要做个番茄炒蛋,那么 m c p 的 m c p, 他 会去掉,那这人助理去用,用 m c p。 去掉冰箱,那冰箱找到了土豆,返回土豆,那去那个那个那个储藏箱去找油,那么他就去找油。 这么一个它仅仅是作为一个协议去通讯的一个形式,让各个流程连接上各个协议,但是它只是连接上,但是不是具有一个能力啊,这是大家那个需要注意的点。但是那个我这边也简单写了一个东西,做了一个例子,相当于说 你通过 agent 去统一身份,相对来说我这边是一个行政总厨,我行政总厨去告诉所有的厨房,我是一个,我那个大厨在做饭了,那大家都知道了,那把这个对应的状态去告诉所有人,所及所有的工具已经开始做饭了,那 告诉告诉所有人之后,那我要告诉那个例如配菜的也要知道吧,跑堂的也要知道,切墩的都要知道,相当于说下面有十个人,我都得要通过 m c p 自然语言,或者说是一种加密形式的语言,告诉他们 菜好了,或者说需要什么东西。还有最终就是一个设备的一个管理,相当于说人知道了,设备也知道了,相当于说通通由 m c p 去协调,它只是个神经网,嗯,它这是一个协议而已,所以说就是这样一个东西, 所以说我们现在也更多用 m c p 去做一个认证,相当于说带上对应的 token 去认证, 然后第三第四个了吧,第一二三四,第四个就是我们的一个工作流,工作流其实就比较简单了,相当于说大家有没有用到扣子的时候,他其实就是一个简单的工作流,他工作流其实他 更多是一个固定,将多个 scale 按固定顺序串起来自动运行的。例如你行政的厨要炒一百份炒饭,那我肯定不能说每次都执行去,去掉油,去掉土豆,去掉什么东西,重新再执行一次编码,这样的话就比较麻烦, 所以说我们经常会用 workflow 的 形式,就是那个连连看,去连出点火、加油、放土豆、抡铲子、放盐、出锅等等的一些流程。这样的话那我抄一百分,抄单我只要执行一百次,那我这样就能得出结果了,而不用去消耗那个 ai 的 token, 或者说是这么多的复杂的代码去执行了。常见的那个像大家那个小红书自动发帖,大家也应该知道,还有自动化画漫画,然后自动化的那个 banner, 然后自动化的那个, 那个动画最近那个很比较火的叫 ai 漫展漫画吧,好像是,这个就是用工作流,主要是像主要是按固定那个顺序串联起来的一个执行任务吧,所以说这一块那个应该比较好理解。 然后最后一个就是 skill, skill 就是 今年去年十二月十六发布的一个 astropica 发布的一个 skill, 这个东西有点像 root, 给大家去做简单的一个理解, 嗯,怎么说呢,相当于说我们刚才是做番茄炒蛋,告诉 ai, 告诉 ai 去调调调各类的东西,但是我们用如果用 skill 的 话,可能就不需要这么麻烦。 我把那个番茄炒蛋的一系列行为去把它打散掉,相当于说第一步去打散食材,第二步去切食材,就相当于他把每个步骤都切掉,切成一个个技能。 为什么他这样的话,他其实有点像工作流这么一个切开切开啊?但是他只是由一个 那个描述,相当于说是一个名称加描述,相当于说一个目录,它会给 ai 看一个目录,它目录里面就告诉我这里面有什么什么技能,而不会说是把它所有的一个能力说那个告诉 ai, 相当于说 token 减少了嘛?那我只要告诉它的一个作用, 打散石材跟作用,打散石那个切配石材跟作用相当于这里有十个,十个技能。那么 ai 读到的时候,它如果说 能读到这个前面两个,基本上 ai 读的话都会读这个名称描述,然后读到这个里面的一个描述之后,然后它才会去读 scale md 里面的文件,判断你的一个描述是否跟我里面技能进行一个重合,如果重合,那它就会相当于说去进行一个 代码的一个那代码或者说是执行文件的一个调用,相当于给你一份手册,那我手册到手册上搜到它里面有切菜,里面有切堆这么一个能力,那我就是把这个能力去进行一个调用这么一个过程。 当然它能力调用除了那个可以执行代码,还有对应的参考资源,也可以说是一个 promont, 相当于说把 promont 写到这里其实也是可以的, 它里面还可以执行对应的一个代码,所以说它里面总总结它就是一个渐进式,譬如相当于说它是按需去加载它每一个技能的能力,然后提供一个操作手册,怎么用工具, 从而从而去节约 talk 这么一个小目标。但是总体来说,我觉得真正用下来的一个感觉啊,其实它能 能更加简单的去方便的去大家去用这个 ai。 因为正常来讲,我们可以把所有的能力切用自然语言的形式去进行一个描述,然后去理解这样的一个形式很容易去我们把整个的一个自己的工作,去把它 能力打伞,然后去调用,这个是很方便的。当然大家可以看到我这里面的下面的一些内容,其实那个用 jason 的 方式其实是更好,因为那个 jason 其实它更好理解嘛,用自然语言的话,其实它那个还是要去 ai 去进行一个理解,去对话,所以说这一块 skill, 其实这一块我倒觉得有点像我们的一个 root, 相当于说我们这个是那个 goodbody 里面的 root, 相当于说它我每次执行代码的时候,它需要去做一些相关联的事情,但是它每次它都会读完这里面的东西,所以说是比较麻烦。而 那个 skill 它我它只要把里面的功能有的话它就会读,没有的话它就不读,相当于说这里面是非常非常好的,相当于只有一个目录,所以说主要是这几个 总体来说相当于说 agent, 他 去统一的去指挥,通过 m c p 去指挥那个工作流或者 skill, 或者是其他的一些执行的那个 m c p 的 一些托, m c p 最终执行的都是一些工具啊,相当于说去浏览本地的文件夹,或者是调用其他的一些接口,所以说总体来说就是这样。嗯,不知道大家有没有理解啊?主要是就是通过番茄炒蛋的一个功能。

最近呢,这个 agent skill 讨论非常的多啊,有人说呢,这是 ai 编程真正开始工程化的标志。也有人说呢, skills 其实就是一套复杂一点的提示词的模板。那在我看来的话呢,这个 agent skills 或许是二零二六年最值得我们关注的 ai 使用方式。 那今天呢,我们就不讲概念,也不争谁对谁错啊,我直接用一个一个的案例来让你对 agent skills 有 一个更加详细的了解。 这上面呢,它就是把一类任务的工作方法从一次性 prompt 升级为可附用,可组合,可长期使用的能力模块。 注意啊,我们这边呢,出现了三个英语单词,第一个是 prompt, 第二个是 agent, 第三个是 skills。 那 我再额外给大家补充三个吧,一个是 m c p, 另外是 rules, 还有这个 memory。 这六个单词呢,大家或多或少都听说过啊,有一定的了解。那为了能够更加简单直观的把它们的本质以及使用场景讲清楚的话呢,我这边画了一个表格。首先这个 prompt 啊,它的本质是什么呢?它其实就是一个一次性的输入文本,那它是不可附用的,也不是啊,长期有效的,所以说呢,它就强依赖当前的上下文。 agent 呢,它是一个正在运行的 ai 执行的实力,它不是附用的,也不会长期有效,结束了就消失了。 而 agent skills 呢,它是一个可赋用的工作方法的模块,并且它这边是跨任务跨绘画的。然后 m c p 呢,它其实是一种外部工具和数据访问的协议啊,这边是可以赋用,也是长期有效的,与 agent 的 这个生命周期是啊, 无关的。最后是 rules 啊,它这边呢,是一个局的 ai 行为的约束啊,也是可以赋用和长期有效的,并且是始终生效的。 那最后呢,是这个 memory 啊,就是可以去持续地存储某一类状态,它这边也是可以附用和长期有效的。那这里的话呢,大家可能对这个 agent 不 可附用啊提出质疑啊,那我来解释一下, agent 呢,它本质是一种运行状态啊,就是类似一个正在工作的进程或者是现成。 那任务完成了之后呢,这个 agent 的 生命周期其实也就相应地结束了啊,你不能说我想要去附用上一次那个 agent, 你 只能说我再启动一个新的 agent 实力。 那为什么很多人会感觉这个 agent 呢,好像能够服用呢?这是因为我们的这个 agent 呢,它当中啊有这个 prompt, skill, rules 和 memory 这些配置。所以说呢,真正可以服用的其实是 agent 它自身的这个配置, 而不是 agent 的 本身。那上面这个表格呢,我们其实已经讲到了六者之间的不同的分工啊,那接下来的话呢,我们来看一下它们之间的一个差异吧,这里我也让 chat 的 gpt 帮我会总了一个 表格。首先我们来看这个关注点啊, prom 呢?他是说什么?然后 agent 呢?是谁来做? agent? skills 是 怎么做? 然后 m c p 呢?是我们要用到什么样的一个工具?而 rules 呢?是啊,我们去归约了,什么事情是不能做的?最后这个 memory, 是 啊,有一些长期的这个对话的过程,想要去让你去记住的一些记忆点, 这个大家可以暂停来看一下。 ok, 那 下面的话呢,我们正式进入这个实操环节啊,首先呢就是我们来解决一个大家比较关心的问题,这个 agent skills 到底是从哪里来的啊?是不是每次我们都需要自己去写这个 agent skills 其实是不用的啊,因为现在社区它已经有很多成熟县城 拿来就能用的 skills 啊。第一个就是这个 atroc 它官方的这个 skills 仓库,那这个仓库呢,它非常重要的一点就在于它给出了官方推荐的一些啊 skill 的 写法啊,这个就是行业规范, ok 也提供了一些比较基础的这种 demo 势例。 第二个来源呢,就是这个 awesome cloud skills 这个项目啊,它这里呢是汇集了成百上千个 skills 啊,覆盖的这个场景是非常的多,那它更像是一个 skills 的 目录和生态集合啊。那第三个来源呢,就是这个 skills mp 点 com 这个网站,这个网站它的交互是非常有意思的啊,有点像一个命令行的界面啊, 你可以去按照分类浏览,也可以去啊按照你自己的这个用途和这个喜好去搜索。那这个呢,我就不展开了,回头大家可以去自己慢慢探索一下。呃,目前的话呢,我们主流的这个 a 编程工具其实都是支持 agent skills 的 啊,而且它的这个安装方式其实也都是大同小异的。 这里呢我提前就下载了 athropic skills 那 个开源项目,然后现在的话呢,我们就演示如何安装到 coder 当中去。首先呢我们打开一个项目,然后在这个项目的根部路呢,去创建点儿 coder skills 这样的一个文件层级,接下来的话呢,我们只需要去把一些开源的 skills 的 文件复制过来就可以了。那这里呢,就是复制以后的一个文件层级了。 ok, 现在的话呢,我们来尝试做一下对比啊,比如说同样的提示词,我们让 coder 去做一个 toto list 的 这样的一个小应用, 左边呢是不带 skills 的, 右边是带 skills 啊,那可以看到呢,右边的这个设计,它明显是更加高级,更加美观的。 是因为呢,我们这个提示词当中的前端 ui 设计触发了这条 skill, 而这条 skill 呢,它不是在教 ai 去啊怎么写这个前端的代码,而是呢,它在替 ai 做一个规约啊,就是当你去做前端设计的时候呢,你必须向一个真正的 设计师那样去思考。这里呢,我也让 ai 去分析了一下这条 skill 啊,感兴趣的同学呢,可以来暂停看一下。 ok, 那 到这里的话呢,你其实已经不难发现了,就是其实不是一个效果好不好的问题,而是一个做事方式, 呃,要不要改变的问题啊?就是加了 skills 之后呢, ai 并不是变得比之前更加聪明了,而是呢,他开始知道在这一类任务当中啊,什么样的事情,它的这个优先级是最高的, 哪些判断是不能够随便啊糊弄过去的啊,就是它会减少 ai 的 一个幻觉,更加的去标准化,更加的去符合我们人类的一个定义和预期。 那这也是为什么同样一句提示词,加不加 skills, 你 可以看到它的这个结果完全是不一样的, ok, 所以 说 agent skills 它真正的一个价值不在于它写的有多么的复杂,而是在于它能不能够稳定地去改变 ai 面对一类任务时候的一个行为方式。 ok, 当你开始呃真正的在项目当中去使用 ai, 而不是只去做一些简单 demo 的 时候呢,你就会越来越在意这种稳定性,而不是, 嗯,就是 ai 的 某一次。呃,灵光乍现表现很好啊,就是你会在意它的一个稳定性。那所以说的话呢,下一期我们也会直接带大家去从零到一的写出一条自己的这个 agent skills。 然后呢,我也会讲清楚一个真正可以附用的 skill 应该怎么样去设计,以及什么时候我们该用 skill, 什么时候该把这个东西交给 m c p 来做。感兴趣的同学啊,可以来关注我。 ok, 那 以上呢,就是本期视频的一个全部内容了,感谢大家的收看,我们下个视频再见, peace。

大家好,最近基本上主流的 ai 编程工具啊,都开始支持这个 a 型的技能了,那么你在各个社交平台上也经常能看到关于技能的一些知识点,如果你对这个技能非常感兴趣啊,也感到困惑或者想去了解,那不妨来看看 本视频,那这个视频呢,会从四个方面来讲解一下技能相关的知识点,那第一个就是什么是技能,第二个就是怎么去创建和使用技能,第三个就是技能的有哪些风险。第四个呢就是技能跟以前我们的命令和 m c p 之间有什么区别? 那本视频呢,会从一个场景开始说起,重点会来讲解一下什么是技能,那技能是从无到有是怎么变出来的,来带大家更加的去了解技能的一个过程。那首先呢,我们来讲第一个什么是技能,那讲这个之前呢,我们把脑子里面所有关于技能的这个点全部摸出掉, 那么我们回到最远处最干净的时候,我们跟 ai 是 怎么去对话的?那这里面会有三个这样的东西啊,第一个是叫 ai 编辑工具,也就是你使用的工具,那第二个就是上下文,第三个就是大模型,那通过 ai 编辑工具来去跟大模型去交互啊,然后会累积保存这样的上下文, 那上下文的作用是让大模型记住你说过的话,那么第一个需求就是我们让大模型来帮我们做一个这样的儿童服装的这个网页,那么我们也把这个功能 啊说了一下,对吧?然后在我们的上下文里面就会有系统自带的提示词,就是你这个编程工具肯定是有一些提示词在里面的,方便他去输入代码, 他收到你的需求之后,然后好就去开始去产生代码了,产生完成之后你就会发现他这一版生成代码页面可能是不符你的要求啊,比如说这个颜色不对,或者说你这个元素的间隙是不是太长了, 那这个时候你可能会去再一次的对话,去让他去调整,对吧?你会告诉他来给我调整一下这样的颜色,调整一下间距, ok, 那 么你的上下文是不是增加了?就是你这个 记忆是不是增加了?你是不是在跟大模型之间交互的时候,这个上下文他是有个致命的缺点,就是他是有上限的,比如说上限文只能最多只能存一千个字,那么一千个字完了之后啊,他就要去压缩啊,把它压成五百个字,或者这个类似的。 ok, 我 们继续啊进行第二次调整,你会告诉他要调整颜色,调整其他东西,他收到之后也会再一次去修改代码,然后返回给你。那么你发现还有问题,这个时候你有可能说,好吧,那我就把我所有的要求, 我就把它写成一个规范的文件,对吧?放到一起,那你一次性能够全部加载出来,或者全部都给你。那么在刚开始的时候,第一步的时候可能你有使用的经验,你会在这里面就会告诉他,哦,我需要什么颜色,我需要什么样的布局,那么也可以,但没也没问题,是一样的意思。 ok, 那 到这一轮的时候,你就把这个你的规范,对吧?总结成一个文档了,那直接丢到我们的上下文里面,直接发给他啊,他去阅读你所有的你的要求之后,那终于把这个网页给你做出来,符合你的要求了, ok, 没问题,这个事情到现在还没有结束, 那么在你接接下来的这个任务跟 ai 的 对话中,也会给他产生很多对话,其他的任务跟这个设计是没有关系的,对吧?然后多人对话之后, 他就会发现,哎,我的这个上下纹长度快满了,对吧?快到一千个字了。举个例子,一千个字了,快要满了,那他还会做什么事情?他这个编程工具会做什么?他就会去自动去压缩, 把你这里面给他对话过的所有的历史记录,包括他返回来的,包括你发过去的所有内容呢?进行一个压缩,那很有可能这个压缩就会把你刚刚说的这个设计规范还有一些注意的点给压缩掉啊。比如说你这个设计规范是 两百个字,他一下一压缩就变成五十个字了。这个时候恰好你在某个阶段,你让他去重新设计一个页面,新开一个页面啊,比如说你要做一个产品列表页 啊,大拇指收到你的需求之后,那么他就会去开始干活了。但是这里面有个非常大的问题,他已经忘记了你这个, 或者说他已经只记得部分,因为压缩了吗?这是个不完整的这个设计规范,那么他申请出来的页面又会跟之前一样产生一些问题。这个时候你是不是要回到我们的对话一里面去,又要告诉他啊?你要去调整这个颜色,你要去调整什么?什么反反复复的, 你调这一次你修改完之后啊,你接着再再去迭代能剩下我一压缩又又出了一些信息,那你又要重新再来一遍,对吧?你第二天你要去做这样的工作,第三天要做反反复复的,那么这个时候你可能会说 有什么样的东西能让 ai 记住我的设计规范,在我需要它设计的时候,它就能把这个规范调出来来使用,而不需要我反反复复的去去调教它,最关键是怎么去解决它失失意,对吧?那么 这个就是技能的这个最主要的作用,那么在这个技能的定义里面是有一个标准的一个结构的,比如这个是技能的名称, 尽量是使用英文,然后的话这是 scare 点 md, 那 这个就是技能的说明书,来告诉大模型怎么来使用, 那下面这些就是它引用的一些脚本资源文件和这些东西了,好吧,我们先了解一下,就是我们有这样一个技能结构,技能能解决这个问题,好吧?我们来优化,我们把我们的是前端的一个 这个设计的这个流程,我们把它定义为 friend design 这个一个技能名字,然后这里面有 skill 点 md, 来告诉描述 这个我的这个规范应该怎么去设计,对吧?然后还有一个这样的规范的一个文件详细的内容。那么在这个 skill 点 md 里面那是有一个非常重要的两个点,就是你需要在里面写啊,我是谁?就是来介绍一下我有什么用处?那这两个 在整个这个交互里面叫做元数据,就是你技能的元数据,那么按照我们现在所有的 ai 编辑工具啊,都会在你对话之前 啊,或者说每次对话的时候都会去把这个技能的这个元数据这两个东西啊,这两个名字和描述 加载到这个上下文里面去,不需要你去手动去告诉他,他会默认加载进去,跟这个系统提示词是一样的,他是不会被压缩的,但是一直会存在,每次都会刷新你新装一个技能,那你在下次对话的时候,他就会把这个新的技能技能的这个元素去加载到这里面去, 那么在他上下文里面就永远会存在这这两个东西,那么你在这种情况下,你再去让他去设计一个这样的共这样的一个网页那大模型,就会去 看到你这样的数,看到你看到你这样的需求啊,他就会去分析了,他说,哎,说到你这样的需求之后,他就会分析,哦,原来你是要涉及网页,那么在我的上下文里面,或者在给我的这个提示词里面是不是有什么样的技能的描述跟你这个需求是匹配的, 哦,发现原来有一个叫 flunk design 的 这个技能的这个描述跟你这匹配的,他就会去让他就会告诉这个 ai 编程工具,把这个技能的说明书发给我看一下。 ok, 那 编程工具收到这个要求之后啊,就会把这个 skill md 这个说明书放到我们的上下文里面去, 看到没有?第一步,在第一步默认的这个上下文里面是没有这个 scale md 的, 它只有 scale md 里面的两个东西,一个 name, 一个描述,就这两个东西, 那第二次第二轮的时候,他发现有这个任务,这个技能能够匹配到,他就会把这个 scale md 放到上下文里面去,让大模型来阅读啊。大模型拿到这个 scale md 之后,然后开始阅读里面的内容。好,这个就是你的说明书了,告诉他要使用什么样的规范, 他发现你这里面有引引路的这个文件,这个比较 design md 是 你在 skill md 里面的一个引路的一个外部的文件,告诉他啊,这是一个设计规范, md, 如果要设计的话,你去阅读这里面的内容, 那么他读到这个 skill md 这个要求之后,他就会让 ai 编程工具把这个文件 design md 发给我看一下。 ok, 那 这一步就是他就会把这个 design md 的 内容了。 整个过程你没发现吗?整个过程是静静式加载的,你可以认为是按需加载、懒加载,他不是说第一次我就把他咔咔咔把这个里面的文件全部放到上下文里面, 这是非常关键的,也是他最重要的一个特点,叫静静式批录,他通过你的技能的描述,然后来加载不一样的他需要的文件。 所以我们再回到整个技能的这个标准结构里面,你就可以看到它为什么会说 scale md 是 必须要的这个文件,然后的话这边还有脚本,还有这些引用的文件或者资源,这些都不是必须,但是这些东西一定会在这里 scale md 里面去 被说明被引用,告诉他告诉模型怎么去引用这个脚本,怎么去引这些资源啊,所以他是一个一个说明书,那么到了这一步之后啊,就他就拥有了这个能力,他设计出来的网页就是个完完整整符合你的要求了。 他不管在任何时候你叠带了多少次的对话,不管他怎么压缩,他每次对话都是能把这个给加载进去,然后重复这个过程, 所以他是一定一定是必定会匹配上的,必定会按照你的技能来去执行这个流程,不会说因为上下文的压缩而去失去这样的能力,所以这是最最最关键的一个东西。 那么在这里在到这一步的时候,那技能已经你已经做好了这个技能,对吧?你已经做好了这个技能,那经过很多次迭代之后, 你就会拥有一个属于自己的前端技能,比如说举这么个例子,比如说你是一个专门做设计的,那么可能你就会 diy 出来,哎,服装公司的这个官网设计规范是什么样子的?好?是政企类官网的设计规范是这个样子的, 那么这边有资源文件、脚本文件,那么在你这个 scared md 这个说明书里面,那么你就会告诉大模型啊,如果他要我设计的是服装类的,那请你去读取服装类的这个规范文档吧。啊,如果是正企类的,那么就让他去读正企类的或者是其他的, 那就形成一个非常好的一个分支分流的情况,那就能很专业的去完成这样的事情。所以技能你发现没有技能它是帮你去限定一个这样的一个框架, 然后去做了一个更好的效果,就他拥有了这样的能力,那么我们可以再看一下啊,比如说这个啊, cloud 官方的这个一个 pdf 的 这个技能,那么他这边就是有也是一样,按照这个,按照这个标准格式啊,都是这样去去定义的。 那么再经过多人迭代之后啊,经过我们上次把这些东西都放在一个镜头里面,那么你经过经过再次迭代之后,你又把这些拆出来了,比如说你把 这个政企类的官网做成一个单独的技能,对吧?服装类的官网做成一个单独的技能,这样呢相当于你又更垂直了,又更垂直, ok, 那 前面其实讲的就是 什么是技能?那么在整个过程中大家有没有感受到就是其实技能的出现是为了解决上下文上下文的一个长度的一个限制,那做了很多这样的一个按需加载, 其实所有的这个手段或者干嘛的都是为了去解决目前上下文那个瓶颈,他并不说是一个很伟大的发明,这只是我觉得是一个工程化的一个必然的一个过程,就是你出了这个问题,他一定要去想办法解决。就跟我们在做后端编码的时候,哎,我们数据库有压力,那么你觉得也能缓存 那缓冲压力,可能又要引入各种其他的分布式的这种东西去解决这样的问题。所以这是一个工程化,一个 agent, 一个迭代的一个必然出现的一个技术点。那么你你在上面已经知道了什么是技能之后,你可能会想,哎,我要不要去创建一个技能? 所以在其实在前面的过程中,我们可以感受到,或者说用一个很通俗的技术的话来讲,技能其实就是封装,不断的封装,就把你 可能把你在生活中或工作中经常要高频的,繁琐的去做的一些流程把它封装起来啊,这就是个技能了,所以说很好去理解。技能可以认为就叫封装函数, 他只是说是大模型的一个函数,里面除了代码还有文字,英文、中文,他可以读懂你这个英文文字里面的中文文字里面的需求啊,去执行,根据大魔仙能力去执行对应的这个能力。 所以呢,你如果要创建创建技能,你就要看一下在你的工作生活中有没有这种高频的啊,这种经常要去做的这种重复的这种流程,你可以去优化它, 可以把它做成个技能,放在你的这个你的任务流里面啊,比如说我平时要编码,那么这些事情是我每一个项目都要做的事情,比如我要去 去找这个 prd 文档,我去申请 prd 文档,是不是每一个项目都要去做这个事?我每一次的代码的完成是不是都要去,都要去刻录 view, 那 我是不是就可以把它做成一个技能? 那么还有比如说做发布,反正就是在你这个工作流里面,你总是能一定能总结出来哪些事情是符合这种频繁的啊,重复的这种这种流程化的,那么你就可以把它做成技能,就从自己的身边开始做起,你不要去想着我要去跨 换你的你的这个认知的去做。比如说我现在我是个后端程序员,我现在就做一个前端的技能,那你根本上不知道这个前端技能是什么样子, 你的流程是不知道的,所以是很难,你只能通过 ai 去交互去产生一个啊,不是那么好的,或者说不是那么呃,就是优秀的这种技能。那比如说在你的这个我的这个自媒体工作任务中,我又能把这些事情,又能把它总结成 把流程又拆出来,拆成一个个这样的技能,那在工作的生活中,我们可以通过我们不断的去很多去发现,就能发现很多这样的技能,那么有的人会想,我可不可以做一个万能的技能呢?对吧?这个万能的技能要是什么都什么都会, 那么这个其实是不太建议的。为什么?就按照官方的说法,就 scared md 里面最好是这个文字行数不要超过五百行,因为太多了。按照我们前面的这个 整个的一个场景的一个过程啊,他是会把 skill md 加载到上下文里面,如果你这个你这是个万能的技能,那么你一定会描述是非常多的,你的说明书一定是非常复杂的,那么这种就得不偿失了。所以 建议就是啊, skill md 的 文本的长度控制在五百毫以内,而你的技能是很精确的,而且可以实现的。那有了上面这个,就是你在你的生活场景中找到了这些你的可重复的流程之后,怎么去创建呢? 哎,这个地里面就一个非常有意思,就是创建技能也是一个技能,所以说是很神奇,就封装,不断的封装一个套一个,那么可以使用官方的这个 这个创建技能的这个技能去创建你的技能,那你可以通过去跟他聊天,但是这种方式还是一样的,你要自己要知道,比如说我可利用,我到底利用什么?我怎么利用,这个是你自己要知道的, 对吧?每个公司可能驴背的这个业务的力度、颗粒度都不一样,那你就要去自己要提前知道,你才能通过他的这种,他只是帮你 创建一种固定的格式,比如说 square, md, 对 吧?资源文件什么,他帮你是创建这种引导你来去创建,所以关键是还是自己要掌握,就是你要的这个流程是什么, 或者说你自己按照标准的这个 skill 的 文件夹去创建,也是完全没问题的。那使用的话那就很简单了,就刚在我们的过程中通过关键词去匹配去使用,或者说你直接通过技能的名字让大家去调用, 也是完全可以实现的。那第三个就是 skills 的 安全和风险,那这里为什么会有安全问题?来源原因就是 可能某一个技能它是包含脚本,看到没?比如这个技能 pdf 这个技能,那这个技能包含这个脚本,那这个脚本里面可能会有攻击性的代码,可能会去获得电脑上的一些权限,对吧?那这里面就会有有风险的存在。 那解决办法其实有两种,一种就是你每次下载完一个技能啊,你让这个大模型自己去看一下这个技能有没有什么攻击性的代码。 那第二个就是尽量找一些就是比较多人用的,比如说给它爬上比较多人用的这种 sars 比较多的这种技能,那这样的话基本上就没有问题。那这个问题就是 啊, skars 和 mcp 这些东西到底有什么区别呢?特别是这个 mcp 这两个东西啊?那我觉得这个其实我们你如果用了这些 东西这么多之后,你发现其实我们跟大模型之间的交流本质上就是提示词加上连连接外部的这种能力,再加上一个运行的方式,比如说技能的方式是什么? 是通过按需加载的运行方式来加载不同的提示词,那它而且可以通过脚本的方式来访问外部的资源,那 m c p 呢?是一个纯的 连接外部的一个能力了,比如说像 get 哈姆 mcp 或者说 sobs 这样的 mcp, 它它是一个你需要去访问外部一个组织或一个东西,那么它提供了一个入口,那 skills 更像是 a 级的,本身拥有的这个能力是为了你自己这个智能体来服务的, 它的能力是跟 mcp 之间是有重叠部分,它也能通过接口去调用。比如说你现在要去发布一个非输的东西,你把内容同步到非输文档里面,那么你调用非输的 mcp 是 不是可以直接就通过 skills, 通过调个非输 mcp 就 可以去把数据插到非输表格里面去,所以它这部分又包含了 mcp 的 功能。 还有命令这个东西,命令是它是命令,也是封装,通过斜杠的方式来调用,对吧?那么 skills 是 不是也可以包含了 mini 的 这个能力?所以说这个东西它们之间是有很大的重叠部分的,我的建议就是不用去搞,那么分得那么清楚,你就用 skills 去代替这些东西去了,经常用你就能找发现这样的区别,而且现在的确是 mcp 的 作用在收缩 以前,比如说以前你要做个 pdf, 你 要具备这个 pdf 的 处理能力,你可能别人会提供一个 pdf mcp, 那 现在不需要了,你自己有一个这样的东西对不对?它的能力在什么时候,它更多的是去做外部的连接了, 所以说不用去搞那么清楚的概念,优先使用技能的方式来去啊,去做好自己的这种, ok, 那 这个视频啊,可能是从我的角度来讲述一下技能是什么,那至于, 至于这个技能怎么去实现,怎么去实战,我们可以放上去,下一次来跟大家再继续探讨一下。就在整个过程中,我们发现技能他不是说平白无故就出来的,他是也是静静地演变,演变的一个过程, 他是为了解决这个上下文的问题,假如说上下文撑到无数大的时候,又有可能又有新的这个概念来去做一个这样的一个迭代了,所以大家不需要去有这个东西来创造一个自己属于自己的技能。如果你的 工作和生活中本身就没有什么流程化的东西,或者说你自己也没有总结出来这种流程化的东西,那你完全可以不用。没有技能难道不能编码吗?那肯定是能编码对不对?技能是提升你的效率, 也可以去找,就说比如说在编码这个环节里面啊,比如说在这个编码这个环节里面,这些技能其实在网上都有非常成熟的,你完全可以下载下来自己使用或者修改一下,所以大家不用不需要太焦虑,你也可以使用这个 screen skill 这个 creator 去创建啊,去玩一下,去调整一下。哪一个技能都是一定不断的调试,才最终才成为一个有用的技能,然后成为一个你自己能用的技能,提升你的效率,先提升你的效率,然后呢再去把这个技能去 给它去调整,然后再变成一个通用的技能,分享给别人时都是这么个过程。 ok, 那 本期视频就到这,如果你对这个技能有更多的看法了,可以多多来交流。

hello, 大家好,我是 henry, 今天想跟大家一起讨论一下 agent skill, mcp 以及复利工程。为什么会有 agent skill? 那 首先第一点,如果你在企业当中想要把 ai agent 的 商业化甚至产品化,那特别是在一些标准化的流程当中,你肯定是希望它能够稳定地执行的, 能够具备工程化落地的能力。那以往来说呢,我们会使用很长的 prompt, 那 实际的结果呢?针对同样的问题,会有不同的路径, 它会忘记一些关键的步骤。第二点, m c p m c p 是 anthropoid 的 去年提出的一个上下文协议,它标准化了 agent 与外界工具的这个连接,它规定了 agent 哪些工具是可以使用的,哪些是不可以使用的, 但是呢,什么时候使用以及怎么去用是没有说明的。所以呢,针对以上的两点呢,我认为。然后就有了 agent skill。 agent skill 呢,官方是把定义为是可重复使用的能力模块,那可重复使用,那可以用我们刚才说的,它针对一些标准化的流程,那能力模块呢?是是包含一些,比如说说明指令,还有相对应的资源。 那第三点,复利工程我为什么要提到呢?我可以给大家举一个例子,关于 agent m c p agent skill, 比方说 agent, 那 我们就可以把它 看待为是一个数字的员工,打比方说他这个是数字员工,是一个 crm 的 faq agent, 那 你招了这个数字员工之后,你就要给他配备相应的工具,也就是我们的 mcp, 比方说他可以访问知乎库,或者说一些数据统计的工具。 然后呢,那有了工具之后,你会制定岗位的 sop, 也就是我们的 agent skill, 它相当于一些员工手册,比方说如何生成销售报告呀?然后这个员工手册呢,也明确了一些职权范围。 那当下的情况就是我们已经有了这个数字员工,我们给他配备了相应的工具,以及明确了职权范围。那最终呢?我觉得如果我是老板,我希望这个员工他是能够自我成长和沉淀的,这也就是我为什么会提复利工程。 那我们会在 prompt 当中提出一个复盘沉淀的指令,然后搭配相应的 skill 或者工具,它可以自己复盘。是否有新的问题? 回答是否明确。所以说不仅要让他能干活,会干活,更要不断积累经验,自我优化,最终实现一次搭建持续增值的福利效果。

ai 圈最近炸锅了,你是不是也听到那些流言蜚语?有人说 prompt 已死,写题时时代要失业了, 还有人说 agent 凉了,费了半天劲啊,造出来的智能体全都是废物,甚至连 call 了的亲爹 and slowpoke 也亲自下场辅导,公开建议开发者别再忙着找 agent 了,未来是 skill 的。 这到底是怎么回事呢?难道我们之前学的全都错了?其实不是 ai 不 行了,而是应用的底层逻辑变了。 如果现在你还分不清什么是 m c p, 什么是 skill, 那 么你真的很有可能浪费了大模型百分之九十的潜力。 我来给大家举个例子,光头哥来到一家 ai 餐厅,跟厨师说,我要一份鱼丸,出面只要鱼丸不要面,不要鸡精,少放盐。这就是一个 prompt, 它是一个临时的需求,告诉 ai 做什么, 他确实过时了,因为你每次点菜的时候都要重复说一遍,指令越长,后厨脑子就越乱,还容易漏掉细节。 最关键的是,太占地方了,极其浪费。头等的码内大厨就是 agent, 他的智商三百,是具备推理能力的执行者。 这位大厨啊,刚从山东蓝翔毕业,但是只学了做面条,生意一好,老板就想, 既然他只会做面条,那我就去蓝翔再招个西餐 agent, 招个日料 agent 吧。结果呢,后厨啊,挤满了大厨,每个人都要发工资管理费啊,贵的一批。现在老板变聪明了, 既然大厨智商有三百,那我为什么不留一个顶尖的大厨,然后呢?给他买一堆专业的菜谱呢?这就是 skill。 他 是教 ai 怎么把事情做对的。专家手册 他有两个必杀技,第一,安需翻阅大厨啊,平时不背这些菜谱,只有在点单的时候呢,才精准翻开那一页。 这叫渐进式加载,大厨脑子清醒,还不浪费 tool 的 钱。第二,自带全自动设备, 手册里呀,夹着一个遥控器,按一下后台的脚本,就能自动切肉称重,脏活累活都交给机器,输出的结果永远标准, 而且运行代码几乎不占大厨的脑子。那食材从哪里来呢?靠! m c p, 它是大厨的物资专线,也可以把它理解为大厨手里的 ipad, 只要点几下,它就能顺着网线联通冷库、菜市场,甚至是全世界的供应商。 他让大厨啊,能够看到你家冷库还有几颗白菜,也能看到超市里的肉价有没有涨价。总结一下, 这根本不是什么流言,而是生财力的进化。 prompt 是 嘴, agent 是 脑, mcp 是 手,而一堆堆的 skill, 才是餐厅最值钱的数字资产。 未来 ai 的 竞争不在于谁家大厨多,而在于谁家的秘制菜谱啊,更厚更准!我是光头哥,专注挖掘最有用的 ai 工具,咱们下期再见!