现在我们正站在一个转折点上, ai agent 正从会聊天转向能做事,但在执行真实世界任务时,依然存在很多瓶颈。今年十月十六日, anthropic 发布了官方文档 equipping agents for the real world with agent skills, 提出了解决方案 skills 机制。这篇文章为 agent 进入真实世界任务做好了准备。原文首先肯定了 cloud 的 强大,但也指出在现实工作中,他缺少两样关键能力,第一,缺乏过程知识,即不知道事情该怎么做。第二, 缺乏组织背景,既不知道东西在哪里。我们可以把一个 agent 想象成一个聪明但没经验的新员工。这个新员工虽然很聪明,但入职第一天什么都做不了。 为什么?因为他面临两个巨大的能力差距。第一,他不知道公司如何做事,他会问我们的报销流程是什么?我该如何提交代码,这就是过程知识的缺失。第二,他不知道公司的资料放在哪,他会问我们的项目 api 密钥在哪里? t t t 模板在哪? 这就是组织背景的缺失。没有这两样东西, agent 就 无法处理真实世界中的具体工作。要解决这两个问题,我们通常会给新员工一本标准化的 s o p 入职指南或岗位手册。而在 on traffic 的 设计中,这本手册就是 skill。 skill 的 核心定义是由指令、脚本和资源组成的结构化文件夹。智能体能够动态发现并加载这些内容,以提升特定任务的表现。我们来拆解 skill 的 三要素, instructions 相当于手册中的 s o p 文字,告诉他如何一步步完成任务。 scripts 需要执行的 python 文件 resources, 执行过程中用到的配置文件或模板,如 json 或 d o c x 文件。这三要素正好对应我们开头提到的两个痛点,过程,知识的缺失由指令和脚本解决。 组织背景的缺失由资源解决。定义的后半句同样非常关键,智能体能够动态发现并加载这些内容,以提升特定任务的表现。这句话意味着 skill 不 再被固定在系统提示中, 而是可以被动态检测、挂载和使用。当 cloud 面对不同任务时,比如分析财报、提取合同字段或生成合规文档,它会主动发现最相关的 skill, 加载其中的 s o p 脚本和模板, 使输出更精准、更一致,也更可复现。这就是提升特定任务表现的真正含义。 skill 不 只是知识的存储单元, 而是让 agent 在 特定场景下变得更专业的能力模块。换句话说,它赋予了 cloud 在 需要时加载能力模块的心智模式,让智能边界不再受上下文窗口限制,而是能随任务实时扩展。 也正因为如此, cloud 才能实现近似无限上下文的工作流。这一机制在原文中被称为渐近式。譬如,下期我们将精读这一部分,看看 unstrapix 是 如何通过这套机制让大模型的思考空间实现逻辑上的无限扩展。总结这一部分, agent 就 像一个聪明但没经验的新员工, skill 就是 给他的一本标准化 s o p 入职指南。那么,这个 skill 在 系统架构里是如何体现的呢?这张图展示了配置和实现之间的联系。 一、右侧 agent 虚拟机从右侧开始看更容易理解它是 agent 的 电脑和双手,是真正执行任务的地方。在顶部,我们可以看到 bash、 python 等图标。 python 表示这台电脑安装了 python 引擎,当 skill 文件夹中包含脚本时, l l m 就 能调用它执行。 bash 表示系统具有命令行终端, agent 可以 通过它操作文件,比如使用 l s 列出文件或 cut 提取文件内容。这说明 agent 不 仅能聊天,还能真正动手做事。文件系统中存放着所有 skill 的 实体。二、 左侧 agent 配置左侧的 l l m 是 大脑,是决策中心。 agent 的 配置更像是 l l m 可访问的 s o p 锁影,其中包含核心系统提示,以及一份以装备技能的清单。列出了技能名称和简介,如 pdf, d o x s 等。 当 cloud 想使用某个 skill, 比如 pdf 时,它会通过 tool 操作虚拟机执行命令。 run bash commandant, 这意味着 cloud 指挥虚拟机打开并获取一个 s o p 文件,获取到的内容会返回给 l l m 的 相关公口, cloud 便能学习并决定下一步该怎么做。总结来看,这个架构展示了 l l m 提取 agent 配置并调用虚拟机来执行 skill。 到这里,很多人会问,既然 skill 也能触发执行, 那它和 tool 有 什么区别?两者看起来相似,但角色完全不同。 skill 最终会调用 tool, 但它们的架构地位不同。可以这样理解, tool 像一台烤箱,是底层的执行能力。 它功能强大,但需要精确指令才能工作。 skill 则像一份妈妈的烤鸡食谱,它本身不烤鸡,但封装了全部过程知识烤多久,温度多少,需要哪些原料甚至经验性的诀窍?我们从几个维度来区分它们? two 回答的是 what 我 能做什么?技术上,它执行代码。 skill 回答的是 how 我 该如何做好这件事?技术上,他指导如何完成任务。 tool 是 原子化能力,一个 api 或函数。 skill 是 完整的 sop, 包含指令、脚本和资源。 tool 是 执行器 被动等待调用。 skill 是 流程编排者主动指导 l l m 调用 tool 完成任务。 tool 的 目标是提供原子能力。 skill 的 目标是封装、可移植、可附用的过程知识。总结下, skill 不是 tool 的 替代品, 而是调用 tool 的 sop, 它封装了可组合的过程知识,让 agent 真正具备会做事的能力。好了,第一期内容就到这里,我们搞清楚了 agent skills 是 什么,它的系统架构 以及它和 to 的 核心区别。下一期我们讲详细讲述 skill 如何通过渐进式批录实现近似无限上下文。
粉丝2718获赞6211

二零二五年十月十六号, anthropic 正式推出了 agent skill。 起初官方对它的定位相当克制,只是希望用它来提升 cloud 在 某些特定任务上的表现。但大家很快发现,这套设计实在是太好用了,因此行业里很快就跟上了节奏,包括 vs code、 codex、 curser 等工具都陆续加入了对 agent skill 的 支持。在这样的背景下,十二月十八日, anastropics 做出了一个重要决定,正式将 agent skill 发布为开放标准,支持跨平台、跨产品服用。 这意味着 agent skill 已经超越了 cloud 单一产品的范畴,正在演变为 ai agent 的 领域的一个通用的设计模式。那么这个让大厂纷纷跟进的 agent skill 到底是解决了什么核心痛点?它和我们所熟悉的 mcp 又有着怎样的区别和联系呢? 今天这期视频我们就分几个部分彻底讲清楚这个 agent skill。 我 们首先从 agent skill 的 概念出发,也就是给大家讲明白 agent skill 到底是个什么东西。然后我来给大家演示一下它的基本使用方法。 在了解了基本用法之后,我们再来看看它的高级用法。高级用法一共是包含两块,分别是 reference 和 script。 最后,我会把 agent skill 和 mcp 做个比较,告诉你到底应该选哪一个。 好了,话不多说,让我们直接开始哦,不好意思,只是想证明自己不是 ai, 那 我们现在真的要开始喽。 那什么是 agent skill 呢?用最通俗的话来讲, agent skill 其实就是一个大模型,可以随时翻阅的说明文档。 举个例子,比如你想要做一个智能客服,你可以在 skill 里面明确交代,遇到投诉得先安抚用户的情绪,而且不得随意承诺。 再比如,你想要做会议总结,你可以直接在 skill 里面规定,必须要按照参会人员一提决定这个格式来输出总结的内容。这样一来,你就不用每次对话都去重复粘贴那一长串的要求了。大模型自己翻翻这个说明文档就知道该怎么干活了。 当然,说明文档只是一个为了方便理解的简化说法,实际上 agent skill 能做的事情要远比这个强大,它的高级功能我们待会儿就会讲到,不过在目前的起步阶段,你就把它当成是一个说明文档就行。下面我就用会议总结这个实际的场景,带大家看看它到底是怎么使用的。 这里我们使用 cloud code 来演示如何使用 agent skill。 要想使用 agent skill, 那 当然是要先创建一个了。 根据 cloud code 的 要求,我们需要在用户目录下的 dot cloud skill 文件夹创建我们的 agent skill。 所以呢,就让我们先进入到这个文件夹中,然后执行 maker 会议总结助手来创建一个文件夹,这个文件夹的名字就代表了我们 agent skill 的 名字,然后再使用 vs code 来打开这个文件夹,这样的话我们编辑文件会更方便一些。打开这个文件后,我们在里面创建一个叫做 skill 点 md 的 文件, 然后填好这个文件的具体内容就是这样了,每一个 agent skill 都需要有这么一个文件,它用来描述这个 agent skill 的 名称,能干什么事以及怎么干这个事情的。比如我们这里要创建的 agent skill 就是 用于总结会议目录内容的, 它的 skill 点 m d 一 共分为两部分,头部的这几行被两段短横线包起来的是叫做原数据,英文叫做 matte data, 这一层就只写了 name 和 description 这两个属性。 name 呢是 agent skill 的 名称,必须与文件夹的名字相同。 name 的 下面呢是 description, 它代表这个 agent skill 的 描述,主要是向大模型说明这个 agent skill 是 用来干什么的。然后再看下面剩余的部分,这个呢就是具体的 agent skill 的 说明了, 官方把这一部分呢是叫做指令,对应的英文是 instruction, 这一部分就是在详细描述模型需要遵循的规则。比如说你看这里,我规定了它必须要总结参会人员议题和决定这几个方面的内容, 然后为了确保他真的理解了,我这里还举了一个例子,输入的是会议的录音内容,然后输出的呢就是我们所需要的格式了。好,现在我们的 agent skill 应该是做好了。对,就是这么简单,就是一个说明文档, 下面我们打开 cloud code 来验货,首先随便找一个空目录,打开 cloud code, 然后输入下面这个问题,你有哪些 agent skill? cloud code 给我们回答了,可以看出他已经发现了我们写好的 agent skill。 然后我们来看看 cloud code 是 怎么使用这个 agent skill 的。 我们输入请求总结以下会的内容,然后粘贴一段会议录英文本回车,让我们看看 cloud code 会如何应付我们这个问题。 好, cloud code 有 反应了,大家注意看屏幕,这里 cloud code 并没有直接开始下编,他根据我的指令意识到了这事归我们刚才上传的那个 agent skill 管,所以呢,他是在向我询问能不能使用这个 agent skill, 那 我们当然是同意了。同意之后,他就开始读取我们写的那个会议总结助手了,主要就是读取其中的那个 skill 点 m d 文件,让我们稍作等待 好,结果出来了,参会人员议题决定三点都清清楚楚,这完全符合我们在 skill 里面定的规矩。这个呢,就是 agent skill 的 基础用法了,是不是很简单?现在你知道了如何创建和使用 agent skill, 那 不妨让我们想想刚才到底发生了什么。 首先,整个流程中一共有三个角色,用户 cloud code 以及 cloud code 的 背后所使用的大模型。在我们的例子里,这个就是 cloud 模型 流程一开始的时候,用户会输入请求,此时 cloud code 会把用户的请求连同所有 skill 的 名称和描述一起发给大模型。注意,这里只带了名称和描述, 也就是我们前面所说的 skill 原数据层。虽然说我们之前只演示了一个 skill, 但是你可以想象一下,哪怕你装了十几个 skill, 此时的大模型呢,也只是在看一份轻量级的目录, 因为毕竟只有名称和描述嘛。在接到了用户请求和每一个 skill 的 名称描述后,大模型会发现用户的请求呢,可以使用会议总结助手这个 agent skill 来解决, 此时呢,他就会把这个信息告诉 cloud code。 cloud code 接到大模型的响应之后,会去会议总结助手那个目录里面读取完整的 skill。 md 正文儿对,这个时候读取的呢,才是 skill md 的 全部内容,之前就只是名称和描述, 而且要注意,他只读取了会议总结助手这一个 agent skill 的 内容哦。在拿到了会议总结助手的 skill md 内容后, cloud code 会把用户的请求和完整的 skill md 内容发给大模型, 大模型会根据 skill 点 m d 的 要求来生成响应,并且把响应发给 cloud code, cloud code 进而呢,会把这个响应发挥给用户,这样呢,用户就会看到结果了。 这就引出了 agent skill 的 第一个核心机制,按需加载。虽然 skill 的 名字和描述是始终对模型可见的,但具体的指令内容只有在这个 skill 被选中之后才会被加载进来给模型看,这个呢,就节省了很多的 token 了。 前面我们讲了,一开始 cloud code 会把所有 agent skill 的 名称和描述都给到模型,比如说什么爆款文案 skill、 会议总结 skill、 数据分析 skill 等等, 模型呢,会从中选择一个,之后只有选中了那个 skill 的 skill 的 md 文件才会给到模型。说白了呢,就是按需加载, 这个呢,已经很省 token 了,但是它还不够极致。大家试想一下,我们的会议总结助手可能会越来越高级,我们希望它不仅仅是简单复述,而是能够提供更有价值的补充说明。 比如说,当会议决定要花钱时,它能直接在总结里标注是否符合财务合规,当涉及到合同时,它能够提示法务风险。这样大家在看会议总结的时候,就不需要再去翻规章制度,一眼就能够看到这些关键的补充信息,这就非常方便了。 但问题在于, skill 能做这些事情的前提是它要把相关的财务规定和法律条文都写入到 skill 点 m d 文件里,这些文件可能会非常长,都写进去的话, skill 点 m d 文件就会变得无比的臃肿, 哪怕只是开个简单的早会,都要被迫加载一堆根本用不上的财务和法律。废话,浪费模型资源。 那能不能做到暗虚中的暗虚呢?比如说,只有当会议内容真的聊到了钱, cloud code 才会把财务规定加载给模型看。 其实这个呢,也是可以的, agent skill 呢,提供了 reference 的 概念,干的就是这个活,让我们来试一下。首先我们来给它加一个文件,也就是 agent skill 术语里面的 reference。 我们把这个文件叫做集团财务手册,里面写明了各种费用的报销标准,比如说是住宿补贴五百一晚,餐饮费人均三百一晚之类的。然后我们在原来的 skill 点 m d 文件里面新增一个财务提醒规则,里面写明仅在提到钱预算采购费用的时候出发。 出发的时候呢,需要读取集团财务手册,点 m d 这个文件,根据文件内容指出会议决定中的金额是否超标,并明确审批人,这就可以了。我们回到 cloud code 这里再试一下。 这次我们的请求仍然是总结下这个会议的内容,不过呢,这次使用的会议内容稍微换了一下, 这段对话呢,我们就不细看了,你只需要知道,在这段对话里面,老陈让小李订一千二百一晚的酒店,这涉及到了钱。按道理来说, cloud code 应该触发我们刚才新增的财务提醒规则,让我们看看 cloud code 能不能意识到这一点。 首先, cloud code 意识到了这个请求跟我们的会议总结助手相关联,请求使用这个 agent skill, 我 们同意。 然后他意识到了这个会议跟钱相关,根据 skilled md 文件的指示,他请求读取集团财务手册,这个文件用于查看里面的财务合规信息,这个呢,我们也同意。 最后,他根据实际的会议内容生成了总结,可以看出,总结中不仅包含参会人员、议题、决定等基本信息,还包含了财务提醒,这完美符合我们的需求。 这个呢,就是 reference 的 核心逻辑了。在 agent skill 的 体系里面,集团财务手册点 m d 这个文件就是一个典型的 reference, 请大家记住它的特性,它呢是条件触发的。 在刚才的例子里面,只有当 cloud code 读取完 skill 的 md 文件,判断出需要查账时,才会去加载这个文件。反过来说,如果这是一个跟钱无关的技术复盘会,那么这个财务文件就只会躺在硬盘里面,绝不会占用哪怕一个 token 的 上下文。 好,讲完了 reference, 接下来我们来讲讲如何让 agent skill 跑代码,毕竟查资料只是第一步,能直接动手运行代码,帮我们把活干了,这才是真正的自动化。这个呢,就用到了 agent skill 的 另一大能力, script 让我们在文件夹里面创建一个 python 脚本,文件名就叫做 upload 点 pi, 用于上传文件。之后我们填好这个代码文件的内容,然后我们来到 skill 点 m d 这个文件里再加上一段关于上传规则的描述, 如果用户提到了上传同步或者是发送到服务器这样的字眼,你必须运行 uploader pi 脚本,将总结内容上传到服务器。然后呢,我们来到 cloud code 这边,输入请求,总结下这个会议的内容,并把它上传到服务器中,然后我们粘贴会内容。 跟之前一样, cloud code 意识到了这个请求与我们的会议总结助手相关,所以呢,他请求使用这个 agent skill, 我 们同意,然后他把会议的总结内容输出了出来,并准备上传到服务器中,他请求执行 up 六点 pi 文件来实现这个功能,我们也同意 好,上传成功。而且 cloud code 还把上传相关的一些信息也展示了出来,非常棒。 这里面呢,有个小插曲,大家注意一下,我这次所使用的会议内容跟钱其实没什么关系,所以 cloud code 呢,也并没有去读取集团财务手册那个文件, 结果中呢,也没有财务提醒相关的内容。这正好印证了我前面所说的观点, reference 是 按需加载的,如果用户没有提到与 reference 相关的内容,那 cloud code 是 不会去读取它的,这样就达到了节省上下文 token 的 目的。 好让我们再回到代码执行部分,注意看这里, cloud code 申请执行这个 uploader pie 文件,它并没有去读取这个文件。没错, agent skill 里面的代码只会被执行,不会被读取。 这就意味着,哪怕你的脚本写了一万行复杂的业务逻辑,它消耗的模型上下文呢,也几乎是零。 cloud code 只关心脚本的运行方法和运行结果,至于这个脚本的内容,它可以说是毫不在意。 所以呢,虽然 reference 和 script 都属于 agent skill 的 高级功能,但是呢,它们对于模型上下文的影响其实是截然不同的。 reference 是 读,它会把内容加载到上下文里面,所以呢,是会消耗 token 的。 script 呢,是跑,它只会被执行,不会占用模型的上下文。讲到这里,我们需要停下来稍微做个总结,聊一聊 agent skill 的 渐进式批漏机制。 agent skill 的 设计其实是一个精密的渐进式批漏结构,这个结构里面一共有三层,每一层的加载机制都不太一样。 第一层是原数据层,这里有所有的 agent skill 的 名称和描述,它们是始终加载的,相当于大模型里面的目录。大模型每次回答前都会看一下这一层的信息,然后决定用户的问题是否与某个 agent skill 相匹配。 第二层是指令层,对应 skill 的 md 文件里面除了名称和描述之外,其余的部分,只有当大模型发现用户的问题与某个 agent skill 相匹配的时候,它才会去加载这一层的内容。所以呢,我们称这一层为按需加载。 第三层是资源层,这个呢,是最深的一层,它一共是包含 reference 和 script 两方面的内容。其实按照官方最新的规范,应该还有一个组成部分叫做 assets, 不 过我看了一下,它跟 reference 的 定义似乎有部分重叠,因此我们这里先忽略它。 好,我们刚才例子里面的集团财务手册和 uploader pie 脚本就属于这一层,只有当模型发现用户问题与财务或者上传相关的时候,它才会去加载这一层的内容, 这就相当于是在按需加载的指令层基础上又做了一次按需加载,所以我们可以称它为按需中的按需加载, 当然这是我起的名字啊。 reference 和 script 的 加载方式其实不太一样, reference 是 被读取的, cloud code 会把对应文件的内容放到模型的上下文中,一共回答式参考。而 script 是 被执行的, cloud code 根本就不会去看代码的内容,它只关心代码的执行结果。 当然这个也不是铁律啊,如果你没有把代码的执行方法说清楚, cloud code 还是有可能会去看一下代码的,毕竟跑不下去了嘛,这样的话呢,就会占用模型的上下文了。所以还是请大家写 skill 的 时候尽可能的把一切都解释清楚。 那聊完了 agent skill 的 用法,很多朋友可能会有种似曾相识的感觉, agent skill 好 像是跟 m c p 有 点像啊,本质上都是让模型去连接和操作外部世界。既然功能重叠,那我们到底应该用哪一个呢? 关于这个问题,按 serapic 官方写过一篇相关的文章来解释,核心观点就一句话就在这里, mcp connects cloud data skills teach cloud what to do with that data。 这句话可以说是直接点明了 mcp 与 agent skill 的 区别,它其实就是在说 mcp 给大模型供给数据,比如说查询昨天的销售记录,获取订单的物流状态等等。 而 skill 是 教会大模型如何处理这些数据的,比如说是会议总结必须要有个议题啊,汇报文档必须要包含具体的数据啊等等。到这里,有些同学可能就会问了, 不对啊, agent skill 里面也能写代码?我直接在 agent skill 里面写连接数据的逻辑不就好了吗?这样呢,就不需要 mcp 了, agent skill 就 直接把这两个活都给干了。 确实啊, agent skill 也能连数据,功能上与 mcp 有 所重叠,但是能干并不代表适合干, 这就好像是瑞士军刀也能切菜,但没有人会这么干。我们这个场景呢,其实也是这样, m c p 本质上是一个独立运行的程序,而 agent skill 本质上是一段说明文档,它们的本质不同决定了适合的场景也是不同的。 agent skill 更适合跑一些轻量的脚本,处理简单的逻辑。在代码执行方面, agent skill 的 安全性和稳定性都不及 mcp, 所以 大家还是要根据场景选择合适的工具。甚至在很多的场景下,我们需要把 agent skill 和 mcp 结合起来一起使用,以便尽可能的满足我们的需求。 好,今天的视频呢,就到此结束了,我是马克,用最通俗的语言讲最硬核的技术。如果我的视频对你有帮助,欢迎点赞订阅,我们下次再见,拜拜!

哈喽啊, chu 友们,这个和这个是我用 solo 加同一段 prom 做出的头像生成器网页,我们对比一下,看一看是不是右边的这个整个 ui 上看着更精致更高级。其实做它俩时的唯一区别就是我在开发右边这个网页的时候加了 skills。 是 的, chu 现在已经支持 skills 了。 skills 是 基于高标准的重复工作沉淀的可复用技能包,可以持续稳定地按照你的要求输出高质量的产物。 那么如何在 tree 里创建 skills 呢?有两种方式,第一种,直接在对话中描述你的需求,比如我这里对 ai 说创建一份能审查我的代码效果问题的 skill, 你 看 ai 会直接帮我写一个 markdown 文档,然后放在 tree skills 下面的对应文件夹中。第二种,从设置中创建, 点击设置按钮,进入规则和技能页面,在技能模块处点击创建。这里你可以直接导入现成的 skill 文件进行智能解析。因为 tree skills 是 基于开放的 agent skills 标准构建的,完全兼容社区生态。 当然,你也可以手动输入技能名称描述和指令,添加更符合你需求的工作流及工具调用。现在我添加好了一个前端设计的 skill, 我们在做图像生成器的时候就可以用到它了。你看在 ai 对 话流中可以看到它自动调用了这个前端设计 skill。 如果你的任务比较复杂或者需要持续稳定输出的时候,你也可以在 prompt 中明确告诉 ai 要用哪个 skill, 这样你就可以更精准的控制输出结果了。就像这个网页前端设计的优化一样, 使用 skills 是 可以帮你稳定地按照你的标准输出高质量结果的。除此之外呢,还可以自动化你的重复性工作流,甚至成为专业能力规范知识进行沉淀和分享的方式。所以快去吹 solo 中试试吧!中国版和国际版都有哦!

谷歌 antigravity ide 现在终于支持 agent skills 了, 这是 open ai codex 支持 agent skills 之后,又一个 ai 巨头的编程之手,加入了 agent skills 阵营。所以说二零二六年正式成为 skills 元年。 ai 编程从传统的给 ai 编程工具一句提示词,让 ai 临时发挥, 升级为给 ai 编程工具装一套技能,让 ai 按照技能稳定产出代码。 agent skills 是 osopik 最初开发现已成为开放标准的智能体能力扩展格式。 它解决了一个核心问题, ai 虽然越来越聪明,但它缺乏你的领域知识,你的工作流程,你的最佳实践。 而 skills 的 作用就是把公司、团队甚至个人的工作流以及最佳实践,还有脚本等工具像模块一样打包进去,让 ai 编程助手等智能体按需加载,反复复用。所以我特别喜欢用一句话来区分 agent skills 和 prompt, prompt 是 临时指令,而 agent skills 才是长期资产。这次 anti gravity 支持 agent skills 的 意义非凡,尤其是对于非专业开发者,福利最大。 哪怕你完全不懂编程,不会写代码,也可以通过安装现成的 skills, 打造一个真正懂你业务的专属 ai 编程助手。 aging skills 的 本质就是 ai 专用业务手册,通过文件夹和 markdown 文件来打包知识工作流,最佳实践还有脚本、 ai 编程助手等 ai 智能体会,自动发现并且按需加载特定的 skills 来实现能力赋用,还有标准化, 而且是渐进式加载,从而避免上下文爆炸。好,本期视频教大家详显式我们如何在 anti gravity 中使用 agent skills 以及如何创建 agent skills? 并且我选择了一个最具代表性的 agent skills uix pro max。 我们将借助这个 skills 让 anti gravity 创建最为现代化,最为美观的 ui。 这个 skills 能让你在做界面时自动获得专业的配色,排版,布局,还有交互建议,来解决很多开发者做出的产品能用但不美观的难题。 好,想在 anti gravity 中使用 agent skills 非常简单。首先我们要确保我们已经将 anti gravity 升级到了最新版。 好,下面我们可以先测试一下在 antigraph 中使用 anselpic 官方发布的 skills。 anselpic 官方发布了多个 agent skills, 在 官方给出的这些 skills 中包含前端设计的 skill, 还有创建 ppt 的 skill。 下面我们只需要将这个项目克隆到本地。下面我们打开终端命令行,直接用 get 克隆的命令将这个项目克隆到我们本地。好,这里克隆完成,我们直接用 cd 命令进入到这个项目的路径。 根据 anti gravity 提供的官方文档,我们可以将 agent skills 放在这两个路径下,其中这一个就是我们当前的项目路径。如果只允许 agent skills 在 当前项目路径下加载,那么我们就可以放在我们当前的项目路径下。 如果希望 agent skills 在 所有项目中都能调用,那么我们就可以放在这个大局路径下。好,下面我们回到终端命令行,我这里直接用这条命令将 agent skills 放在官方推荐的这个大局路径下,我们直接运行就可以。 然后我们用 cd 命令进入到这个大局路径,然后用 l s 列出这些 skills。 好, 可以看到这里成功将这些 skills 都放在了这个大局路径下。 然后大家如果不习惯执行命令,也可以直接将这些 skills 文件夹全选复制,然后粘贴到 antigravity 存放 skills 的 这个路径下。像这样的话,在 antigravity 中,我们只要创建了新项目, 它都能调用到这个大局路径下存放的这一些 agent skills。 好, 下面我们就测试一下 ansopek 这一些 skills 中的前端设计 skill。 我们回到 anti gravity。 好, 下面我们就可以输入提示词,这里我输入的提示词是创建一个咖啡店的落地页,并且使用这个前端设计的 skill。 在 模型这里,我选的是 gemini pro 模型,因为这个模型非常适合用于前端 u i u x 设计。然后我们直接点击发送, 可以看到这里它正在搜索 skill。 这里它需要运行命令,我们允许它执行。好。非常神奇的是,它这里自动调用了 nano banana 模型来生成了这个网站所需要的这些图像。 然后我们点击打开,这是它生成的第一张咖啡馆内的这个景象的图像,这里放着一杯冒着热气的咖啡。这里它生成了第二张图像,这张图像是咖啡豆的图像,我们可以放大看一下。 anti gravity 自动调用 nano banana 模型来生成图像。这个功能是其他 ai 编程助手所不具备的,因为无论我们在使用 codex 还是使用 cloud code, 它们都不会自动来生成图像,而 anti gravity 它为我们开发这种前端 ui 的 时候,它能自动生成最为适配的图像。 好,这里提示这个咖啡馆落地页,这里已经创建成功,并且使用的是 next j s 还有 telenovela css。 然后下面我们就可以根据他给出的命令来运行一下,看一下效果。我们直接复制他给的命令, 然后打开 anti gravity 的 终端,粘贴这条命令,并且运行好,运行成功。我们直接打开这个链接,打开之后我们就看到了他为我们创建的这个咖啡馆的落地页面,然后这个页面的背景图像就是他刚才调用 nano banana 来生成的这个图像。 这里是这个页面的导航栏,可以看到设计的非常不错。然后我们继续往下拉,在这里他还将刚才生成了这个咖啡豆的图像 也加入到了这个页面中。可以看到它设计的这个咖啡馆的落地页非常精美,而且它用 nano banana 生成的这种配图效果也非常不错,这可以说是 anti gravity 独有的技能。 这样的话我们测试的是在 antigravity 中来加载已有的这一些 skills 项目。好,下面我们还可以测试一下手动创建这些 skill。 在 antigravity 官方文档这里,它给出了手动创建 skill 的 这些步骤,而且这里还给出了一个用于代码审查的最简单的 skill。 下面我们就可以使用官方给出的这个例子,在我们当前的项目路径下来创建这个 skill。 在 当前项目中,创建 skills 非常简单,我们只需要按照官方他给出的这个文件路径进行创建就可以 在 anti gravity 的 终端命令行,我们直接执行这条命令来创建用于存放 agent skills 的 路径。 好,这里创建成功,下面我们就可以将官方给出的这个案例放入到刚才我们创建的路径中,然后我们直接复制这个内容回到 anti gravity。 在 anti gravity 中我们就看到了刚才我们创建的这个路径,然后这里我们新建一个文件 昵名为 skill 点 md, 然后将刚才复制的内容直接粘贴并且保存就可以了。下面我们就可以测试一下调用这个 skill 进行代码审查,输入梯式词,使用 code review 审查当前项目的代码,然后我们运行可以看到这里它正在读 skill md 这个文件,正在分析这个项目的代码。 好,这里完成了代码审查,这里输出了代码审查的这个结果,这里还给出了用于优化这个项目性能的这些建议。这就是我们在 anti gravity 中通过手动创建 skill 并且调用 skill 的 方式。如果想创建更加复杂的 skill, 然后我们可以使用这个开源的项目 skillseeker, 我 在之前的视频中为大家详细演示过,然后如果不熟悉的话,可以查看我之前发布的这一期视频, 它可以一键将任何开源项目或者网站转为 agent skill。 好, 下面为大家演示这一款最强大的用于 u i u x 设计的 agent skill u i u x pro max, 而且它支持多种技术站,包括默认的 html 加 tailwind, 还支持 react next js, 甚至还支持 swift, react native, 还有 flutter。 想在 antigravity 中使用 ui ux pro max 非常简单,然后我们只需要按照官方给出的命令去执行就可以。我们直接先复制这条 npm 命令用于安装这个项目, 然后汇到 antigravity 中。我们直接在 antigravity 的 终端命令行粘贴这条命令并且运行就可以。好,这里安装成功。 下面我们就可以运行这条命令,针对 anti gravity 的 命令进行安装,然后在 anti gravity 的 终端直接粘贴这条命令并且运行就可以。好,这里提示已经安装成功。 在 anti gravity 中,我们只需要用斜杠命令就可以调出 u i u x pro max。 下面我们就可以来输入一个提示词。我这里输入的提示词是让它使用 react 构建一个 to do list, 要求使用拟物化的风格, 包括添加任务,完成任务,删除任务,而且还要具有柔和的阴影和微妙的紧身效果。然后这里我还是使用 jimmy 三 pro 模型,我们直接点击发送。像这样的话,在 anti gravity 中它就能够使用 u iux pro max 这个 agent skills 来获得 u iux 设计的经验还有最佳实践,从而为我们生成更加美观,更加现代化的 u i。 好 在等待了几分钟之后,这里完成了这个项目的创建,然后我们运行一下,查看一下效果。 可以看到这里他成功为我们开发出了这个你物的 to do list 的。 然后我们可以测试一下添加任务。注入这个任务之后,这里就会出现这个按钮,然后我们点击添加好,这里添加成功。然后下面的任务当完成之后,我们就可以点击完成,我们再添加一个任务测试一下。 好,这里添加成功,当完成之后,我们就点击完成。可以看到他设计的这个你物化的 u i 效果确实非常不错。 这样的话我们就实现了在 antigravity 中使用 u i u x pro max 这个 agent skills 项目实现 ui 设计。 agent skills 还有更多更实用的应用场景。 由于时间有限,本期视频只为大家演示了用于 ui 设计的 agent skills。 后续的视频中,我将为大家演示更多更实用的 agent skills 以及 agent skills 的 使用技巧和最佳实践。

如果你觉得现在的 ai agent 还不够好用,那很可能你还没用过 agent skills。 它是 snoop 及 m c p 之后推出的新一代 agent, 开发标准是基于通用 ai agent 的 工程扩展包。通过加载不同的 skill, ai agent 就 可以分装成具备专业知识的垂直 agent, 从而稳定可靠地完成特定领域的具体工作。比如加载一个金融类的 skill, 它就可以帮我们自动完成财务分析以及日常费用报销等等。加载一个法律类的 skill, 它就可以帮我们自动处理合同审查、 准备诉讼材料等等。可以说不论你从事哪个行业, agent skills 都能帮你把工作中重复的那些流程封装成一个 agent, 让它去自动执行,帮你节省大量的时间。而且随着它的使用范围越来越广,目前主流 ai 编程工具几乎都已经支持了 agent skills, 比如像 cursor、 cloud code codex 等等。 那这期视频我们就来为大家详细介绍 agent skills, 包括它的使用方法、运行原理、资源查找以及技术优势。好了,下面我们就来开始今天的视频内容。 接下来我们使用 cloud code 来介绍 it 的 skills, 如果还没有安装 cloud code, 可以 按照这个文档去安装,首先安装 root js, 然后如果是 windows 用户,还需要安装 git, 接着执行这条 npm 命令安装 cloud code, 安装完成以后可以执行 cloud, 刚刚默认验证一下是否安装成功。那如果是国内用户,直接使用 cloud 模型可能不太方便,我们可以给 cloud code 设置一个国产 ai 模型,比如像 deepsea、 千问 kimi k 二都可以。 那这里我们以 g i m 四点七这个模型为例来演示一下,这个 i 模型呢,有提供一些免费额度,而且效果也挺不错,那可以看到它这里支持三种配置方式,分别是自动化助手、自动化摇本,还有手动配置, 我们选择。第一步,我们需要在用户目录下的点 cloud 文件夹里面的这个 settings, 点 jason 这个文件中添加上下面这段 jason 配置。 我们先打开用户目录,那由于点 cloud 是 一个隐藏文件夹,默认是不显示的,要让它显示的话, mac 用户可以同时按下 command 加 shift, 加点这三个键。 windows 用户呢,可以在文件资源管理器中点击查看,然后显示,然后勾选上隐藏的项目, 这样就能看到这个点开了的文件夹了。然后我们打开这个文件夹,找到 settings 点 json 这个文件,如果没有这个文件,可以自己手动创建一个,那接着我们把这段 json 配置复制过来,注意这里这个 api key 要替换成我们自己的 api key, 在 这里新建一个,然后复制过来就可以了。 然后第二步,我们需要在用户目录下的这个点 cloud 点 json 这个文件中添加上这个配置参数。我们回到用户目录, 然后打开这个点 cloud 点 json 文件,我们可以在这个文件中先搜一下是否已经配置了这个参数,那可以看到这里显示它默认是包含这个参数的,那我们就不需要再去配置它了。好了,完成配置以后,我们就可以正常使用 cloud to code 了, 执行 cloud 命令,启动 cloud code, 然后选择信任这个配置文件,那可以看到它就成功绕过了这个 astropica 的 身份认证,直接进入到了 cloud code 它的对话页面,我们执行斜线 models, 那这里显示的模型呢?依然是 cloud 模型,它和 glm 模型的对应关系是这样的, cloud ops 四点五和 cloud solid 四点五对应的都是 glm 四点七,而这个 cloud hq 四点五对应的是 glm 四点六。 我们选择使用这个 solid, 也就是 glm 四点七模型来测试一下。好了,现在这个 cloud code 就 可以正常使用了。 那接下来我们来介绍一下如何在 cloud code 中使用这个 it 的 skills。 这是 esoteric 官方维护的一个 get up 项目, 打开这个 skills 这个文件夹,那这些就是 esoteric 给我们提供的一些 skills 势例,比如设计前端的 skill、 操作 pdf 的 skill, 操作 ppt 的 skill。 那这里面对我们最有用的是这个 skill creator, 那 这是一个用来生成 skill 的 skill。 没错, isrook 官方推荐的使用方式呢,就是使用这个 skill 去自动生成你需要的任何 skill。 那 要怎么使用这个 skill creator 呢?我们回到这个项目页面,点击这里,先下载代码, 可以使用 get clone, 或者直接下载这个压缩包,下载完成后,把代码解压出来, 找到这个 skill creator 这个文件夹,然后把它复制到我们当前用户目录下这个点 cloud 文件夹下面的这个 skills 文件夹里面就可以了。如果这个点 cloud 下面没有这个 skills 文件夹,可以自己手动创建一个, 那其他 skill 呢?如果有需要也可以复制过来,比如这个操作 pdf 的 skill, 还有这个操作 ppt 的 skill, 我 们也一并复制过来。好了,这样这三个 skill 就 配制成功了。那接下来我们就可以在 cloud code 中去使用它们了。 我们用 vs code 打开用户目录下的这个点开了的文件夹,那第三个就是刚才配置的 skill。 那 接着我们打开命令行,切换到这个用户目录,启动 cloud code。 好 了。下面呢,我们根据一个真实的工作场景,从零开始来生成一个 skill, 来帮助我们自动化处理重复性的工作。那具体的场景是这样的, 比如我们是一家公司,负责招聘 hr, 每天都要筛选很多份辞职简历,然后根据公司的招聘标准筛选出符合条件的简历,并根据筛选的结果生成一份分析报告,并通过邮件发送给你的上级。 这套流程你可能需要经常执行,那针对这类重复性的工作,我们就可以把它封装成一个 skill 来自动处理。回到 copy, 粘贴上相应的提示词,让它根据我们的工作场景来生成这个 skill, 要求它从一个本地文件夹读取文件夹内的所有 pdf 简历,然后分析简历内容并进行筛选。 筛选过程需要参考公司的招聘标准文档,包括销售、开发这些岗位。接着分析完成以后,要根据这个报告模板生成一份分析报告,并通过 email 发送出去,而且发送 email 的 操作要求是可选的。好了,我们来执行任务, 那可以看到它,这里提示它会使用我们前面配置的这个 skill creator 这个 skill 来完成这个任务,然后它就会引导我们去一步一步完成创建。首先它问我们是否准备了这个招聘标准文档,还是需要让 ai 去生成一个视屏模板, 那这里我们让他去生成数据模板,如果有自己公司的招聘文档的,也可以直接使用。然后他让我们选择邮件发送使用什么方式,我们选择使用 python 脚本。好了,确定方案以后,我们点击提交让他去执行。 执行结束后,我们来看一下这个 resume skinner, 就是 skill creator 给我们生成的这个 skill。 打开这个文件夹,这就是一个典型的 skill 的 结构。首先这个 skill 点 m d, 这是一个 markdown 文件,它里面存储的就是这个 skill 的 主体逻辑。 那可以看到它的内容呢?主要有两部分。首先是这个 skill 的 原数据,包括这个 skill 的 名字还有描述,那 ai 呢?根据这些原数据就可以确定这个 skill 的 功能是什么,什么时候可以调用它。比如我们给 ai 发送消息, 需要筛选某个文件夹下面的简历,那 ai 就 会去匹配所有 skill 的 原数据。当匹配到这个 skill, 通过对比它的描述信息就可以确定这个 skill 呢就能满足我们的功能需求。接着它就会去使用这个 skill, 那 可以发现它的这个匹配原理和 m c p 是 一样的, 但是相比于 m c p 呢, agent's skills 有 一项非常明显的优势,就是投币消耗明显降低,这些我们在后面会具体介绍 好了。在 skill 点 m t 中,除了原数据,剩下的就是这个 skill 的 具体执行逻辑。首先是需要准备的数据包括三个部分,一是存放这个简历的文件夹,二是这个招聘标准的文档, 它这里使用的是这个 reference 这个目录下的这两个 markdown 文件。三是一个报告模板,使用的是 size 目录下的这个 markdown 文件。那准备完数据以后,接着就是读取简历内容,然后分析简历。这里需要注意,在分析简历这一步呢, 它使用了这个 pdf 这个 skill 来读取这个简历的内容。也就是说多个 agent 的 skills 呢,是可以互相联动使用的。我们来看一下这个 pdf skill, 在它的这个 skill 点 m d 文件中,这个表格总结了它知识的功能,这里面包括合并 pdf, 切分 pdf, 提取 pdf 内容等等。我们这个简历筛选 skill 使用的就是这个 extract text 的 这个功能来提取 pdf 简历的内容。 在 skill 中,除了脚本文档,默认都是 markdown 格式的,如果不熟悉 markdown 语法,可以先去了解一下。在我们之前的这期视频中有介绍过 markdown 语法使用也非常简单,只需要几分钟就能快速掌握 好了。我们回到这个简历筛选 skill, 那 在新的 skill 中是否需要调用其他 skill 的 能力呢? 我们可以根据使用需求来决定,比如新的 skill 只是给自己使用,这时候就可以选择调用已有的 skill 能力,那这样可以减少开发和调试的时间,因为已有的 skill 它的能力已经经过了验证。但是如果这个新的 skill 除了自己使用,我们还要分享给其他人, 或者需要多个人去联合开发。最好就不要选择调用已有 skill 的 能力,而是应该告诉 ai 使用脚本去单独实现这部分功能,这样可以确保这个 skill 的 独立性,分享或联合开发都会更方便。分析完简历以后,接着使用这个模板去生成报告, 最后使用这个 scripts 这个目录下的 send email 这个 python 脚本来发送 email。 最后他还给了几个使用视例,只需要这样和 ai 对 话,他就会调用这个 skill 帮我们自动筛选简历。 我们可以选择只筛选简历或者筛选简历并发送报告。那可以看到通过结合 ai 模型的语义理解, ai skills 的 使用是非常灵活的,他可以通过对话内容灵活选择需要的功能,避免浪费 token。 那接着我们再来看一下这几个文件夹,这个 scripts 里面存储的就是可以被 skill 调用的脚本,比如这个发送邮件的脚本,然后 reference 里面就是 skill md 需要参考的文档, 一个是开发人员招聘标准,一个是销售人员招聘标准,里面罗列了很多细色,包括专业背景、工作经验等等。我们可以使用自己公司的招聘文档替换到这些模板,或者直接在模板中按照自己的需要去进行修改。 这个 assess 文件夹里面存放的是 skill 的 一些素材资源,比如像模板文件,公司的 logo, 字体文件等等。这个就是简历筛选后生成报告的模板,可以看到里面的内容还是很详细的,包括通过筛选的人员,未通过筛选的人员,以及每位应聘者在各个方面的具体表现, 能够帮助 hr 快 速掌握应聘者的具体情况。好了,下面我们来测试下这个简历筛选的 skill, 看一看效果怎么样。这里我用 ai 生成了两份开发人员的简历,打开来看一下,左侧这份简历的应聘者呢,没有软件开发的相关工作经验是不符合招聘标准的, 而右侧这份简历的应聘者就有比较好的开发经验,符合公司的招聘标准。我们就用这两份简历来进行测试。把这个简历文件夹拖到这个 id 号框, 然后我们让它去分析这个文件夹下面的所有简历生成报告,但是不要发送邮件,可以看到它提示可以调用这个 resume scanner 这个 skill 来进行处理。我们点击执行, 执行结束以后输出了一个分析结果,而且在这个简历文件夹下面生成了一份 markdown 格式的分析报告。我们把这个报告拖进来看一下, 点击这个预览,这个就是生成后的分析报告,那可以看到内容也非常详细,里面包括报告预览、数据汇总,通过筛选的人,未通过筛选的人以及应聘者在各个方面的评估。那通过这份报告就能帮助我们快速了解所有应聘者的具体情况, 并及时给符合条件的应聘者安排面试。接下来我们再来测试一下这个发送邮件的功能。先来配置一下发送邮件的参数,我们直接问 ai 如何配置这些参数, 按照他给出的说明,我们需要配置这些参数。先来创建一个邮箱的应用密码, 然后复制这个密码保存下来。接着我们让它修改一下这个发送的脚本,我们让它改为从本地环境变量去读取这些参数。 好了,修改完成以后,我们执行 exit, 先退出 client code, 然后执行这几条 export 命令,设置一下这个发送邮件的参数,这里面包括发件人、收件人,还有这个邮箱的英文密码,注意这个密码中间的这个空格要删掉。 然后我们再重新启动 cloud code, 再来重新执行一次这个简历分析任务。但是这次我们要求它在生成报告之后,需要发送电子邮件。 执行结束来看一下这个收到的邮件,那可以看到这里面它没有附带上那个生成的报告,而且这个邮件的内容也过于简单,我们让它来优化一下,要求还是从环境变量读取参数, 而且在邮件中要以附件的形式带上生成的报告,还有所有的 pdf 简历,并且这个邮件的内容要优化一下,需要能够体现这个邮件的用途。 好了,修改完成以后,这个 ai 它自动完成了测试。我们来看一下收到的邮件,这次就没有问题了,首先这个邮件的内容包含了这个邮件的用途,然后附件也包含了这个生成的报告, 还有这些是所有的 pdf 简历,方便去对比查看。好了,那这样我们这个简历筛选的 skill 再经过一些详细的测试,就可以用来帮我们自动筛选简历来处理一些重复的工作了。 那接下来我们结合这个简历筛选的 skill, 来介绍一下 it skills 的 工作原理。在 it skills 的 工作过程中呢,一共有三个角色参与其中,第一就是作为用户的我们, 第二就是我们使用的 ai 工具 cloud code, 第三就是 ai 工具背后使用的 ai 模型,在这里是 g m 四点七, 整个过程大概是这样的,当 cloud code 启动以后,里面所有的 agent skills 都会先把自己 skill 的 原数据加载到 ai 的 上下文窗口中,那这些原数据我们在前面介绍过, 就是 skill 点 m d 这个文件中 skill 的 名字和描述信息,那这些原数据可以用来匹配 skill 的 调用,而且这些原数据呢,通常都很短,长度只有几百个 token, 所以 它们是常住在 ai 上新闻窗口中的,不会造成负担。 然后当用户发送消息要求筛选简历,这个消息就会通过 cloud code 转发到 ai, ai 就 会检测上下文窗口中所有 skill 的 原数据,当检测到这个 resume scanner 这个 skill, 通过匹配描述信息发现这个 skill 恰好能够满足需求, 接着他就会去使用这个 skill 来完成这个任务,那这时候他才会去真正把 skill 的 主体逻辑,也就是 skill 点 md 读取过来,然后按照这个 skill 点 md 里面的设定开始进行处理。 首先调用 pdf skill 提取简历的内容,然后提取这个招聘标准的文档进行简历分析, 接着根据这个分析结果读取这个报告模板去生成报告。最后就是调用邮件发送这个脚本去发送邮件,而且这个发送邮件是可选的,这就是 agent skills 的 执行过程。那可以发现这套设计呢,遵循了一个理念, 就是只有在真正需要的时候,才会把数据读取到 ai 的 上下文窗口,这样就可以大大减少拖延消耗。 比如在 cloud code 启动后, ai 只会获取 skill 的 原数据,而只有在确定调用某个 skill 之后,才会去真正获取 skill 的 各种文档。这种工作方式叫做间接式批录或者延迟加载,主要目的就是减少拖坑的消耗。而且在这个过程中,脚本并不会全部读到 ai 上下文, 只需要读取调用脚本所需的最小信息就可以。那我们这个简历筛选的 skill 后期还可以继续扩展,比如添加面试规划的功能,但是需要注意,一个 skill 不 宜过大,最好合理划分多个 skill, 然后去联动使用多个 skill 来完成复杂的任务,这样更方便管理和扩展。 下面我们再来介绍一个可以查找 agent skills 的 免费网站,就是这个 skills mp, 这里收入的都是 github 上开源的 agent skills, 目前为止一共收入了六六五四一个。要使用它,我们可以点击这个搜索功能, 比如我们搜索关于交易类的相关 skill, 这里就返回了我们需要的。我们打开一个,可以看到这些就是 skill 的 内部文档,包括 skill md, 还有 reference 下面的参考文档 scripts 下面的 shop 脚本。 要使用这个 skill 也非常简单,只需要点击这里下载文件,然后解压出来,把这个 skill 文件夹复制到点 cloud 下面的 skills 文件夹下面就可以了。 我们执行斜线 skills, 可以 看到这个生成交易计划的 skill 就 已经配置完成了,那下面我们用它来生成一份贵金属的交易计划来试一试。 执行结束后,它就给我们生成了一份 markdown 格式的计划文档,我们拖进来看一下, 这个就是生成的这个交易计划文档了,内容还是比较详细的。我们回到这个网站,如果想要查看这个 skill 对 应的 github 项目,可以点击这里跳转到 github, 这些都是可以使用的 skill。 那除了搜索,我们还可以点击这里按照分类来查看 skill, 这里面包括生产工具类、自动化工具类等等,在这里还可以按照 star 树或者更新日期来排序。那这个网站用来快速查找需要的 skill 还是挺不错的。 最后我们来对比一下 agent skills 和 m c p 这两项 ai 技术使用起来让人感觉非常相似,那我们应该选择哪一个去使用呢?其实它们都是 astropica 推出的开放标准,两者的区别主要体现在设计理念和适用场景这两方面。我们先来看一下 agent skills, 结合我们前面这个简历筛选的例子,那可以发现 agent skills 是 在做什么呢?它是在封装一系列需要重复执行的步骤,把这些步骤封装成一个 skill 去自动处理。比如发票报销,也是一个需要重复执行的多个步骤的流程,同样可以封装成一个 skill。 那 mcp 又是怎么回事呢?我们在之前的这期视频中有介绍过 mcp, 有 需要的话可以去看一下。 mcp 的 核心设计理念是什么呢?一句话就是连接万物,也就是把各种外部服务通过 mcp 这个万能的 usb 接口全部接入到 ai 里面,比如各种软件、各种社交平台、网站以及各种数据库等等,所以这两者在最初的设计理念上就是截然不同的。 我这里总结了一个表格,来对 agent skills 和 mcp 做一个对比。先看作用上的区别, agent skills 主要解决的是一件事,就是把步骤、规则、逻辑判断封装起来,也就是说,它是把一套专业的流程直接做成一个可以附用的能力。 而 mcp 干的事情不一样,它的核心作用呢,是给 ai 提供标准化的工具接口,让 ai 可以 安全规范地接入外部的系统,比如像 api、 数据库、底层服务。 再来看适用场景, agent skills 呢,它更适合用在流程固定,需要反复执行,而且依赖专业经验的人物,本质上就是把专业知识固化下来,然后让 agent 按照规则去稳定执行。 而 mcp 呢,更适合用在 ai 需要获取外部数据,或者需要调用外部系统去完成某个操作。比如像查询数据、发送消息、调用接口这些事情,那如果看典型的应用,比如像筛选简历、报销审批、流程审核, 这些都是多步骤、规则强的任务。而 mcp 的 典型场景呢,比如像查询 github, 发送 select 消息、访问数据库,它本质上呢,是在帮助 ai 去使用工具。那再往下看一下使用门槛, agent skills, 它的使用门槛相对比较低, 通常使用 markdown 加一些脚本就可以定义清楚流程,还有能力,但 mcp 的 门槛就要高不少,你需要理解协议配置接口, 有时候还需要去自己部署 m c p server, 对 工程能力的要求更高。最后是我们最关心的偷窥消耗, agent skills 呢,采用的是见进披露的方式, 只有在需要的时候才加载对应的步骤还有信息,所以整体的偷窥消耗相对比较低。而 m c p 往往是一次性加载全部的数据,它的偷窥消耗明显会更高。所以我们可以这样理解 agent skills, 它负责的是怎么把工具用起来, 它们两者并不是替代关系,而是在一个 agent 系统里面各自解决不同层面的问题。那关于 agent skills 我 们就介绍完了,可以说这绝对是一项非常实用的 ai 技能,大家可以想一想在自己工作中存在哪些重复性的流程, 是否可以封装成 skill, 让它去自动执行,然后呢,可以去动手试一试。好了,最后感谢大家的观看和点赞支持,我们下期视频再见,谢谢!

扣子在二零二六年啊,全新的更新,二点零的版本,无论是整个页面还是功能啊,都焕然一新,同时增加了非常多的 agent skills 供我们去使用,可以自动化的搭建工作流和智能体。当然手动搭建工作流的方式依然存在,还是同样的网址啊,但是整个的页面会发生了很巨大的变化。首先啊,我们左侧是你的图标,然后在这里边 默认会有一个新建的对话,这个对话就是这个位置啊,当然了,我们想做任何的事情都可以在这里边去发布消息。那其实这次更新的最主要的就是这里边有一个技能商店,就是我刚才提到的 agent skills, 它这里边有非常多的技能啊,你可以点开它,然后 这里边我测试了一个新年的绘本啊,当你直接点击它,然后呢,第 第一步你需要安装,安装完成之后再点使用,他就会跳转这个页面,然后你看这个对话框里边啊,就会有这个技能了,那么你直接在后边输入内容就行了。那我的测试是说,在这里边我只输了一个,给我设计一个 哪吒故事的儿童绘本,你看他经过他的思考和处理之后,最终给我生成了这样的一个内容啊,那么在这里啊,我们可以直接点击自动播放看一下,同时啊,你还可以一键打印啊, 自动播放太乙真人,用莲花、莲藕和荷叶为哪吒重新塑造了身体, 莲花绽放,哪吒重生了,比以前更加英俊强壮。 哪吒骑着风火轮要去教训东海龙王, ok, 可以 暂停一下,有声音,有画面,同时我们可以啊手动的去看一下他产出的内容, 这个就是我们扣子的一个非常大的更新啊,那其实啊,在我们的技能商店里边有非常多的技能,你可以去点开它去使用啊,但是有的地方你需要去仔细看一下,好吧,那么在这里啊,你直接点击这个技能,然后啊直接点击安装, ok, 然后我们现在再点击一下使用,在这里边历史课间生成,你想生成什么样的历史,你就直接输入就好了,比如说明朝的, 汉朝的好不好,唐朝的都可以啊,这里边就是快速的使用 agent skills 这样的功能啊,来帮我们生成内容。那么其实最重要的一点还是在 cos 编程里边,当然不要被它的名字所吓到啊,点开它你会发现这里边有一个新的界面了,对吗?点击右上角啊,你可以展开它, 这里边会有非常多的内容,跟我们之前的扣子的页面是有不同啊,这里边可以通过一句话,自动的搭建智能体工作流网页,移动的应用,还有技能, 如果这个页面你看着不舒服,你可以返回到旧版啊,当我们点击返回旧版的时候,他就会返回到我们原来的扣子的页面了,那么在这里啊,还有一个更新是说 你看这里边 ai 编程对话可以免费七天啊,在这里边他有一个套餐的升级啊,右上角点击这个按钮啊, 没有更新之前啊,我们用到的都是个人进阶版,那如果说你对于资源点有需求,或者功能上有需求啊,你可以看一下这两个内容啊,同时啊,还有企业的版本, ok 也在这里啊,大家根据情况去设定就好,其实整体的更新呢,我觉得是增加了非常多的 agent skill, 还有呢就是它还是可以我们手动的去构建工作流的啊,在我们这里边有个资源库啊,你直接点进去,其实这里边就可以构建工作流,点击资源找到我们的工作流。 那其实跟我们老的版本啊,返回旧版,其实它的逻辑是一样的,依然是在资源库里边创建工作流。 同理啊,也可以创建我们的智能体和应用,这个就是它的一个更新啊,其实我们可以着重的去尝试一下金融商店里边的这些技能啊,还有扣子编程里边的这些,通过一句话怎么去搭建智能体和工作流?

来,大家看一下这是什么界面,哎,这是 obsidian, 但是呢,很神奇的一幕是右边这是什么东西? cloud code。 然后接下来更神奇的一幕即将上演,我们请莫总来操作一下。一个斜杠美女,等会,这是啥玩意啊? 这什么东西? agent skill agent skills? 好, 我们继续演示。可以选择一个好的,比如说我来一个话题, ai 不 会替代程序员。 嗯,好神奇的一幕,看一看会发生吗?他的调用 skill 啊,三种风格文案,他先去读三个参考文件。哇,定型,三个指令,我,啊, 你这是掉了什么一卷吗?嗯,牛逼啊,这个我还没学会,我要偷吃一下。对其中的一种风格。这些风格的名称啊,或者是对应的提示词,其实都是可以自己自定义的。三个指令在后台 运行,运行。等一下,你还有文章配图呢?对,他会掉在路上的,或者是急梦,他这过程会比较慢一些,因为一般我都让他定时自动启动,或者是在后台自己跑,但是输入什么呢?嗯,如果是一些重复性的,比如说你每天让他去采集指定的这些人的 信息,然后去总结选择题的话,就可以每天固定的时间点去图,如果说是新的话题的话,可能就需要通过这种形式。哦,那这其实已经出来了。文,文字已经写好了两篇了。已经已经写好两篇图也出来了吗?从一个没写,比如说,我现在一点发现,哎呦,这已经已经生成一篇了, 那他存在哪呢?就是奥地利嘛,就是本地嘛,中间两两个也都写完了。就比如说这一个,可以看到他是一个故事风格工具会进化,但是提出问题、定义问题,判断问题,值不值得解决的问题呢?属于人,他会生成对应的金句。嗯,插入到这个金句里面去, 然后这时候他会去进行配图, 然后可以让他在每一篇不同的文章,不同的风格去配不同风格的图。而且还可以,比如说每篇文章让他生成三张图片,让他分别插到不同的位置,也可以只选择去生成一个封面图,这个时候他其实已经生成完了。 嗯,看一下他在哪。哎呦,插出来了,那就整个任务就完成了啊。对,可以在 ip 点中直接打开,然后说明这个时候已经执行完。牛逼,对, 怎么样?朋友们想不想要这样的一个插件啊?我们即将在线下上课,来教会大家手把手的啊。好,写完之后下一步 还能干嘛呢?来,我们点一点。一般来说,其实写完了之后我们可以进行针对性的修改,修改完成之后就可以去选不同的模板。卧槽,不同的一个模板,然后 你说是深色或者其他颜色,然后也可以去呃,调整一些字体,然后一些大小, 然后包括背后的一些网格,然后可以直接点击发布到公众号,然后就可以选择。其实在就可以选择不同的公众号,也可以发布到小绿书,直接点击发布。就我这个时候后台就已经有他是草稿箱还是直接发布了草稿箱。 ok, 怎么样?丝滑吧,大家 已经添加到了这公众号的扫描箱。好的,然后当然小红书也是可以的,比如说我们看,哦,他已经生成了这一个纯图片,然后我们可以看,然后其实可以选不同风格,比如说我想来一个黑金风格, 嗯,我想去调一下,比如说这个小红书的比例,还有这个抖音的九比十六,然后我还可以调一下这个内边距有多大, 然后他的眼角的半径,嗯,然后调整好了之后呢,直接点击一下确认,然后发现已经。嗯嗯,也可以去选不同的,比如说备忘录的风格,然后备忘录风格,备忘录风格好,嗯,然后包括默认的风格, 然后还有其他的一些极简的风格等等,就是默认的系统备忘录也是支持的。嗯, 好的。然后也可以比如说加上自己的一些 logo, 然后同时每一种不同模式也可以去设置这一个背景模板,去选择不同的颜色。卧槽,这么复杂,搞这么多。然后抖音把我调整,这个编辑就可以出来了。 然后呢?怎么发?比如说发布到小绿书,点击发布到小绿书之后,我选择一个啊,它就会自动的把所有的八张图片去进行一个自动渲染,然后这个时候就直接到我的小小绿书的一个仓库箱, 好看。同样,如果说是发布到小红书的话呢,也是点击一下发布到小红书,嗯,他也会开始上传所有图片,然后呢去给到一个二维码,这个二维码直接一扫码就会自动去进行发布。卧槽,嗯,就使用小红书二维码去扫码,这个时候就可以发布成功,牛逼。嗯, 好的。嗯,还有吗?还没有,我都不敢停了,哈哈哈。 然后呢,大家肯定有个疑问说啊,所有这些都要手动干嘛?有没有自动的?嗯,有的,来我们给演示一下。 对,我们在右上角,这其实可以新建一个定时任务,比如说,呃,我说每日 ai 报告吧,每日 ai 报告,然后请你查询 oppo ai 和 ancreatic 最新的 vlog 信息,帮我写文章。然后呢可以勾选 user skill, 比如说我这一个,对于 user skill 是 这一个哦,然后呢?每天几点执行?比如说我想让他 啊,凌晨,比如说现在我每我希望他每天八点四十去执行啊,然后就可以直接去创建,然后 下一次呢,他就十二月二十九日八点四十,然后就自动执行,然后执行完成呢,其实就是会可以看到,比如说,嗯,我找一个吧,就可以直接点击就 看到这个,然后他会调用这个 skill, 然后获取网页的内容,然后然后去网页逐步的去看,然后比如说有没有最新的消息,然后并且呢通过 w 一 阵 pass 的 形式进行了生成文章, 其实这个时候他就会自动给你放在这个里面,并且去进行配图看,他这是技术专家风格,就是科技加购蓝白色调,然后幽默犀利版的就是可爱的机器人卡通风,然后故事描述的这种人机写作,就这种文化艺术风格。然后呢并且还可以去, 嗯,就可以直接跟着官方流程进行一些发布,然后其实他是不仅局限于这一高品质的,还有 可以去执行一些其他的一些定时化的任务,比如说你的自动化营销呀,你的一些自动化操作呀,卡拉扣的都是可以定时去执行,只不过是把卡拉扣的放到了 c 点中作为一个插件而已。 嗯,他既然我单独做一个职位呢,也是完全没问题的。嗯,因为背后是卡拉扣的在提升, ok。


tiktok 上最近出现了一个非常火的项目, agent skills for contest engineering, 发布不到一周就斩获了二点三 k stars。 为什么它能瞬间引爆社区?今天我们深入来聊聊这个项目。你可能有过这样的经历,用 ai 编程时,明明给了足够的上下文,可 ai 要么答非所问,要么被永长的历史信息绕晕。最近 github 上的一个项目或许能解决这个痛点。 这个叫用于上下文工程的智能体技能的项目,发布不到一周就拿下了二点三 k 星。为什么他能这么火?我们从二零二五年末的技术背景说起, 这些年大厂白皮书里反复提到上下文工程,但对每天敲代码的开发者来说,那些理论太飘了。 我们需要的不是什么是上下文的论文,而是能直接用到 cloud code 里的工具。这个项目恰恰填补了这个空白,它把灰色的上下文管理策略打包成十个即插即用的智能体技能,借助 cloud 的 自动加载和触发机制, 让 ai 终于能像资深工程师一样自己管理内存。这就是一套上下文工程的最佳实践工具库。怎么理解它的核心逻辑?项目把上下文拆解成五个部分, 系统指令、工具定义、查找文档、消息、历史和工具输出。其中工具输出是最拖后腿的。研究显示,原始工具返回结果往往占了上下文百分之八十以上的体积,就像你电脑开了太多网页导致卡顿。 ai 的 上下文也有注意力,预算 一旦超支,性能就会下降。项目提出的渐进式路由策略就是解决这个问题的关键。初始状态下,智能体只读取所有技能的名称和简短描述,就像你手机桌面只显示常用 app 图标。 当你输入 prompt 后,智能体会自动进行语义匹配,找到相关能力,再加载详细内容。这跟操作系统的液交换机制很像,确保模型始终处理最相关的高信号信息。 你可能听说过 ai 的 迷失在中间现象,当信息放在上下文中间位置时,召回准确率比两端低百分之十到百分之四十。 除了这个,长对话里还会出现上下文中毒、干扰、混淆、冲突等问题。比如你先问 ai 怎么写 python 爬虫,再问怎么优化 java 性能。旧的爬虫信息可能干扰 ai 对 java 问题的回答。项目里提到的压缩优化技术能帮我们解决这些问题。 比如观察掩码技术,读取原文后提取核心结论,把原文从上下文里替换成引用 id, 这样上下文体积能骤降百分之九十。就像你把厚厚的参考手册换成一张锁影卡,需要时再去查详情。还有铆钉、叠带、摘药技术, 维护结构化的状态快,包括绘画意图、状态清单、决策记录和下一步行动向,让 ai 始终记得对话的核心目标。在多智能体协助场景里,上下文隔离很重要。比如一个项目分三个智能体, 写前端的,写后端的,做测试的。如果写前端的智能体看到后端的代码细节,可能反而会影响它的工作效率。 项目建议,每个子智能体只关心自己的任务,拥有专用工具,减少后选工具数量,实现故障阻断。 就像工厂里的流水线,每个工位只做自己的事,互不干扰。记忆系统也是上下文工程的重要部分。传统的向量检索有个时态盲区,它能找到相关的知识,但不知道这些知识的时间顺序。比如, ai 可能会把二零二三年的旧技术和二零二五年的新技术混在一起。 项目里提到的时态知识图谱就是给知识加上时间戳,让 ai 能区分旧方法和新进展。在工具设计方面,项目提出了一个反直觉的建议, 不要为每个细小功能写一个工具,而是把高度藕合的步骤合并。比如,你要做读取文件加分析代码加生成报告,与其写三个工具,不如合并成一个,这样能减少工具调用次数,提升效率。 项目还建立了完整的评估体系。智能体性能的百分之九十五变异由三个因素决定, token 使用量占百分之八十,工具调用次数占百分之十,模型本身选择占百分之五。这意味着优化上下文比换模型更能提升性能。 最后,项目给出了从 demo 到生产环境的五阶段流水线方法论。第一阶段,先用人肉方式跑通流程,再写代码。第二阶段,利用文件系统作为状态机,管理任务进度。这跟软件开发的最小可行产品思路类似,先验证流程可行,再投入开发。 通过这个项目,我们能看到,智能体开发已经进入了系统工程时代。以前我们可能只关注模型本身,现在发现,上下文工程才是构建确定性系统的关键。就像造房子,模型是地基,上下文工程就是框架, 没有好的框架,再好的地基也建不起高楼。这个项目的意义在于,它把抽象的上下文工程理论变成了开发者能直接用的工具,让更多人能用上高质量的智能体。说到这里,你可能会想, 以后 ai 会不会自己变得越来越会管理自己?我们会不会不再需要花太多时间调整 prompt? 这些问题或许会在未来的技术发展中找到答案。好了,今天的内容就聊到这里了,如果你有什么想法,欢迎在评论区交流,我们下期再见。

这是 cloud code, 如果你让他开发一个美观的博克网站,他给你的结果啊,可能是这样的,这一点也不美观,对吧。于是啊,你告诉他, 不要使用蓝紫渐变色,不要使用 emoji 图标,而要使用 svg 图标。把上面这一堆要求呢,都告诉 cloud code, 让他再重新开发一个美观的博克网站。这一次啊,情况就要好很多了。 那么问题来了,我不想每次开发项目的时候,都啰里啰嗦的写这么一大段,能不能让 class code 记住这些要求,我不用每次都叮嘱呢, 哎, class code 提供了一个方法,我们可以把这一大段要求啊,放到一个单独的文件中,以 markdown 的 格式书写。那后续呢,我们再让 class code 干活的时候啊,他就把这个文件一起带上,发给 ai 了,这样呢,就不用每次都要写一遍了。但这样呢,有一个新的问题,如果我只是在 class code 里面聊聊天,提提问, 反正不是开发网站,他也要把这一堆内容发给 ai, 这不是白白浪费托管吗?能不能简化一下这个流程,只有当真正需要用到这个文件的时候, clark 才把它发给 ai 呢。我们可以这样做,给这个文件啊,取个名字,然后加个描述,放在文件最开始的地方。 同样呢,还是以 markdown 格式书写,这两个字都啊,简单介绍了这个文件叫啥,是干啥用的。然后 cloud code 在 与 ai 沟通的时候呢,他告诉 ai, 我 这里啊有个文档,他的名字和描述是这样的,如果你有需要,可以问我要具体的内容。 后面 ai 收到用户的指令,发现是要开发网站。这个时候啊,他在告诉 cloud code, 把这个文件给我发来就可以了。那经过这样一通改造呢,就避免了每次都要把这个文件传给 ai 浪费拖开的问题了。 你发现这一招还挺好使,于是啊,如法剖制写了一堆不同的文档,比如 svg 动画制作点 md, 用来详细指导 ai 如何制作网页。 svg 动画 ppt 制作点 md, 用来详细指导 ai 如何制作美观的 ppt 日报生成点 md 呢,用来详细指导 ai 如何书写符合你们公司风格规范的工作日报。那可乐扣的与 ai 交互的时候呢,只需要把这些文档的名字和描述信息作为一个目录清单发给 ai, 就像他当初把 m c p 服务清单发给 ai 那 样, ai 根据用户的提示词呢,自行决定动态加载哪些文档。 那同样的 cloud code, 同样的 ai 大 模型,因为有了这一堆文档的加持呢,你手里的这一套比别人多了很多技能,他更擅长做出好看的网站 ui, 更擅长做 svg 动画,更擅长做 ppt, 更擅长写日报,完美 nice! 刚刚这套技术啊,有一个闪亮的名字,它就是 agent skills。 这一个个文档呢,就是一个个的 skill, 也就是一个个的技能。简单理解的话,这些个 skill 呢,就是一个个的技能手册, cloud code 和 ai 根据这些手册呢,就能完成特定的工作。 为了规范管理呢, cloud code 通过文件夹的形式来管理这些 scale, 并且把每个 scale 的 主文件都统一命名为 scale 点 md, 回到我们这个网站 ui 设计的 scale, 随着你不断的迭代啊,这个 markdown 文件也变得越来越长, 因为好看的 ui 样式啊,实在太多了,各种各样的风格呢,层出不穷,你很难用一个单一的 markdown 文档来全部写完。而且,就算你能全部写在里面,但实际上呢, ai 只能用到其中的一部分, 其他大部分用不上的内容呢,又白白浪费了上下文的 talk 了。于是啊,你打算把每一种风格单独拎出来写一个文件,然后在原来这个主文件里面呢,做一个汇总,里面写上,如果要做简约风网站呢,就读取简约风点, md。 如果要做科技风网站呢,就读取科技风点 md, 如果要做小清新风格的网站呢,就读取小清新点 md。 这样一来啊,当你用 cloud code 做一个科技风的网站的时候呢, ai 发现要先读取网站 ui 设计这个 skill, 在 读取这个主 markdown 文档之后呢,再根据需要进一步读取科技风调 md, 这个文档。这样按需渐进式的加载啊,极大节省了 talkin, 让 ai 只在有必要的时候呢,才读取相应的内容。 再后来啊,你发现需要对网站的 ui 做更精细化的控制,比如按钮、段落图标、配色图标等等。用这样的单个文档方式呢,还是不太好维护。你决定啊,技术升级,把这些细力度的 ui 内容啊,全部用数据表来进行管理。那为了简单起见呢,你选择了用 csv 表格文件来进行管理。 然后,你希望 ai 在 开发网站的时候呢,按照下面这一套工作流来确定最终选择的样式。为了让 ai 知道如何搜索啊,上面的每一步呢,你都写了详细的文字说明,你还专门编写了一个 python 脚本,并告诉 ai 如何执行这个脚本,来从这一堆 csv 文件里面进行搜索。 现在 ai 大 模型在 colorado 的 配合下,在拿到你这个 scale 的 md 文档之后啊,就按照你写的流程,一步步执行里面的操作,执行拍成脚本,完成解锁,最后拿到完整的 ui 设计信息,开始为你开发网站。 事情发展到这里啊,这份 scale 不 仅是提供简单的文字信息供 ai 参考,还能指定工作流,还能提供程序让 colorado 来执行完成更加复杂的工作了。 上面介绍的这个 scale 呢,不是我虚构的,而是一个真实存在的 scale。 它在 github 上面啊,已经收获了超过十四 k 的 star 了。通过这个 scale 呢,我们可以让 colossal 的 这样的编程智能体啊,开发出 ui 更美观的产品。而这个 scale 背后的原理呢,正如我们前面介绍的那样。 最后,让我们来梳理一下整个的过程。首先,每一个 scale 呢,都需要一个 markdown 文件,并且在文件的最开始呢,有名字和描述两个字段,这属于这个 scale 的 原数据, metat 对 它 cloud code 在 启动的时候呢,加载这些原数据,并将它们包含在系统提示词中。 因为这两个字段呢,本身内容比较短,所以呢一般不会占据太多的托根。第二,每个 markdown 文件除了前面的原数据之后的中文内容呢,叫做指令,它本质上呢就是一段提示词,用来指导 code code 如何做特定的事情。 只有当 ai 需要使用这个 skill 的 时候呢,才会加载它,官方称之为触发时加载。第三,资源和代码 skill 相关的其他文件和代码脚本呢?只有当 ai 在 使用 skill 的 过程中需要用到的时候呢,才会动态加载,官方称之为按需加载。 以上啊,就是 astonrapik 推出的 agent scares 技术了,扒掉这些晦涩的名词概念呢,它其实就是一项提示词工程技术的应用,和之前的 m c p 技术呢,也有很多类似之处。如果你还不知道 m c p 是 什么,欢迎观看我的这期视频。 agent skills 也好, m c p 也好,那本质上都是属于提示词的工程,只不过是符合特定规范,相对复杂的提示词。而为了规范管理和各种工程设计考虑啊,引入了一堆技术名词而已。那现在你知道什么是 agent skill 了吗?你还知道有哪些不错的 skill, 也欢迎在评论区分享。 好啦,以上呢,就是这期视频的全部内容啦,如果觉得有帮助,别忘了点赞、收藏转发哦!我是轩辕,我们下期再见!

大家好,我是小木头。如果你是一个开发者,你可能遇到过这样的场景, 花了几个月时间开发了一个很棒的开源项目,或者一个有意思的 sas 产品。代码写得很优雅,功能也很实用,但是没有人知道。 或许此时你需要一个推广视频,那传统的做法是什么呢?第一种,找设计师或者视频制作的外包, 但问题是他们不懂你的技术栈,不理解你的产品特色,你需要写很长的文档解释,沟通成本也非常的高。最后做出来的视频很有可能还达不到你的预期。 第二种,自己学习 after effects 或者 premium, 但是这类产品的学习曲线很陡峭,而且改一次要重新渲染,等半天。你是个开发者,不是设计师,为什么要花这么多时间在非核心的技能上呢? 第三种,用模板工具,比如 camera, 剪映。这些确实很方便,但太通用了,没办法体现你产品的技术特色。 或许这些都不是最要命的,最要命的是,你的产品会迭代,功能会更新,每次迭代视频就意味着要重新做一遍,这完全无法规模化。那有没有更好的方式呢? 今天我想和你分享一个全新的视频制作范式。开发者用 agent skills 生态来轻松地完成视频的制作,这不仅仅是一个新的工具,而且是一种思维方式的转变。 在视频分享中,我会用一个真实的项目来演示如何快速地基于代码仓库直接生成一个专业的推广视频。那现在我们就开始吧。 在近期的视频分享中,我们介绍了许多 agent skills 方面的内容,那它是什么呢?简单来说就是给 ai 助手预装的技能包, 就像 npm 之于 javascript。 agent skills 是 ai 助手的包管理器,你可以安装不同的技能包,让 ai 在 特定的领域拥有专业知识。 remotion 是 一款非常流行的视频制作工具,可以使用 react 来创建真实的 mp4 视频,非常非常的强大。感兴趣的朋友可以来到官方网站了解一下究竟它有哪些优秀的应用场景。 在一月二十号,他们就发布了自己的 agent skills, 使得开发者能够在 ai 场景中轻松地利用 remote 来制作视频,不需要了解 remote 的 技术细节,通过自然语言交互,就可以轻松生成非常精彩的视频片段。 那本期视频我们来寻找一个项目,看看它生成的视频效果究竟如何。我们就利用 session 这个产品来做演示,为它生成一份推广视频。 session 是 我最近开源的一款浏览本地 clockcode 绘画的桌面应用,希望能够以一种非常优雅方便的方式帮助大家浏览在本地众多的 clockcode 绘画。它会以项目为单元,组织过去所有的历史绘画, 在绘画中能看到所有的交流信息,不仅仅是 ai 的 响应,还包含了工具的调用,思考的过程。 大家也可以来到官方网站点击下载尝试,也欢迎大家来到代码仓库提意见,提合并请求。 作为一个新上线的项目,我希望呢能够为他做一款推广视频。咱们现在就来到 session 代码仓库,给他这么一个需求,我期望他阅读当前的代码仓库,了解这个项目的本质,抓住他的亮点和主要的功能和特性, 然后使用 remote skill 来生成一款推广视频。我们呢给他一些时间,看看他的生成效果。 到现在, remote 技能包完成了他的视频准备工作,现在呢,会启动一个开发服务器,我们可以在本地预览生成的视频效果。 在这个网页环境中,我们可以预览这个效果,如果没有问题呢,再在本地通过命令的执行来生成 mp 四版本的视频。我们先来看看它的效果吧, 大家觉得这个效果怎么样呢?我个人还是非常满意的,它已经抓住了 session 这个桌面应用主要的功能特点。对于目前这个项目来讲呢,这个推广视频应该足够了。当前呢, cloud 还在利用 chrome 开发者工具来测试推广视频的开发环境,我觉得已经很不错了,就让它终止了。 如果需要,大家还可以引入在过去视频分享中我们介绍的 ui ux pro max 这类技能包,对当前生成的这个视频的效果风格样式呢进行自定义, 尝试使用一些更加不同的风格来生成不同的推广视频版本,从而选择最符合自己需求,最满意的一款来推广。 我告诉他这个视频已经足够好了。接下来我想要生成 mp 四的版本该怎么做? 很简单,来到对应的目录,运行 mpm run build 就 可以生成 mp 四版本。在底下,它还给到了我们一些满足我们不同需求的视频规格,比如更高质量的,四 k 的 等等。我们就生成一个标准版的吧,大家来看看效果。 好了,视频生成,打开看看效果吧, 大家觉得怎么样呢?这跟刚才我们阅览的是一样的,如果期望更高清分辨率的呢,我们可以选择添加参数,在这里呢咱们就不再演示了,接下来我们或许可以再配上一些精彩的背景音乐,这样就有了一个非常非常完善的推广视频。 好了,今天的视频分享呢就先到这里,感兴趣的朋友一定要来尝试一下,特别是个人创业者,你的产品是否需要一款精彩的推广视频呢?除了找人帮你完成, 你还可以使用 remote agent skills, 非常方便的就能够帮助作为开发者朋友的你做出一款完美的视频哦。那大家在使用中有什么心得和体会,也欢迎在评论区给我留言。那今天的分享就先到这里,我们下次视频分享再见同学们,拜拜!

最近 ai 圈爆火的 agent skills 到底是个啥?今天用三分钟给你讲,看完直接上手用。我们先上结论, agent skills 呢,就是给 ai agent 配了一个工具箱,里面呢全是你常用的工具和操作流程, 关键是这个工具箱它是你自己设计的。我们先来看一下这张图,以前呢, agent 它只有单技能的这个 mcp 可以用,它没有操作手册,我们呢,就只能自己手把手地去指挥 ai, 去调工具干活。在这种情况下呢,遇见相同的任务,就会经常地给 ai 发送重复的指令, 你说一句他动一下,而且每次都得重复说。现在呢,我们有了 agent skills 这样一个组合技能以后,我们就可以直接把那些常用的重复的操作写进这个 skills 里面,我们就像给 ai 做 sop 的 手册一样,下次呢,再遇到同样的活, ai 呢,它就会自动帮你干了, 你也就再也不用重复的折腾了。比如我这里列了三个技能,第一个技能,你看我们每日的热点筛选, 以前呢,我们都是逐个的让 ai 去做,或者自己搭一个工作流去弄,那这样的话门槛就高了。现在呢,直接可以把搜索分析、写报告、发邮件这样的步骤给他按照步骤执行就搞定了。 还有第二个技能,财报分析,找数据分析,评估预判风险,用代码生成报表。还有第三个技能,海报设计,你把你的公司的品牌规范设计要求都放进去,然后让 ai 按照要求去设计海报,我们呢,就可以把这些常规的动作都给他 打包进这个 skills 里面。如果这个不太好理解呢,我这里再举了一个游戏的例子,这张图呢,玩过王者荣耀的应该都比较熟悉了,你看王者呢,每一个英雄都会给他三到四个技能, skills 呢,相当于就是把这些技能给他配了一个固定的连招,比如三一二 a。 编好以后呢,我们再给他绑定一个咒语,下次呢,只要你一念这个咒语,他就会自动释放这个技能的。当然啊,现在的王者是没有这个功能的,我这里呢,就举个例子,方便大家理解。接下来呢,我们再来看一下这个 skills 他 具体长什么样子。 一个完整的 skills 呢,它主要包含以上四个文件,其中它的核心文件就是这个 skill md 了,我们来看一下它具体长什么样。那一个 skill md 呢,它主要有两部分构成,这个以上部分呢,是它的第一部分,也就是它的核心,然后第二部分呢,就是这一块, 就是他的内容。像第一部分这里呢,主要我们就要描述他的技能名称,还有这个技能的功能有哪些,以及什么时候去调用他。那下面这个部分呢,我们就描述指令使用场景,具体执行步骤,还有以什么格式输出,然后给他一个 demo 例子作为参考。 这里呢,我们就不详细的去聊了,感兴趣的小伙伴可以截个图。这里呢,我再补充一点,看,我这里提到了热点,需要根据我的人设进行匹配分析,那这个人设呢,我们就可以把它写进这个参考文档当中,那 ai 呢,就会从这个参考文档去读取人设内容去进行分析了。 如果你想对 skill 进行深入的了解,我们还可以打开这个 cloud 官方开源的 skill 的 仓库,自己进去看一下,它提供了很多模板,大家可以看一下它具体是怎么写的。那最后呢,我们说一下如何使用啊? 像现在除了 cloud code 以外呢,像 coser 去 open code 还有 codebody, 它们都已经把 skill 集成进去了,而且呢官方都有说这个东西具体怎么用,今天呢,你就可以把这个工具下载下来, 然后把你反复使用的那些操作写进 skills 里面来解放你的生产力。如果你用的是确的话,你看用这个就很简单了,你可以直接通过提示词告诉他,帮我去创建一份能审查我的代码效果问题的 skills, 然后呢 他就会去给你生成一个 skills 的 模板文件,看这里面的内容都写了,你遇到不符合的你自己修改就可以了。如果你觉得用代码来处理比较麻烦呢?他也提供了这种直接新建文件的方式, 就按照他的要求去填写就 ok 了。好了,我们今天的分享就到这里了,你也可以在评论区把你想写进 sketch 的 东西在这里分享出来,我们大家一起讨论,我们下期再见,拜拜。

这个 agent skill 每天可以节省你好几个小时,直接用它和你的 ai 对 话,就能自动连接 notebook lm。 我 之前用它生成了一段播课全程,完全不需要手动操作。网页 and apple chose, google's gemini to power the next generation of siri it's not just a friendly deal i think you described it perfectly before it's a shared vote a shared vote。 安装方法特别简单,下面手把手教你。首先你需要一个支持 skills 的 客户端,目前 cloud, opencode and gravity 等都支持。然后把 github 上这个项目页面发给你的 ai, 告诉他帮你安装这个 skill 就 行。 安装完成后,比如在 opencode 中,需要把这个 skill 加载的配置文件用同样的方式把这个页面发送给 ai, 他 会按照文档帮你配置好。成功后你就能看到这个 skill 了。现在让 ai 调用定制 skill, 自动搜索近期硅谷科技动态,汇总信息,并同步到 notebook i m, 最终生成一段定制薄刻整过程完全自动化,体验非常流畅。你甚至可以设定每日定时任务,让它自动为你完成这些工作。这样一来,就不再被动接收碎片化信息, 而是每天收获一段高质量的薄刻,轻松节省下几个小时的信息整理时间。而这个 skill 的 强大还不止如此,只要是 notebook i m 上有的功能,它全都可以调用,更多好用的玩法等你来发现!关注我,了解更多 ai 干货,感谢大家观看!

最近呢,这个 agent skill 讨论非常的多啊,有人说呢,这是 ai 编程真正开始工程化的标志。也有人说呢, skills 其实就是一套复杂一点的提示词的模板。那在我看来的话呢,这个 agent skills 或许是二零二六年最值得我们关注的 ai 使用方式。 那今天呢,我们就不讲概念,也不争谁对谁错啊,我直接用一个一个的案例来让你对 agent skills 有 一个更加详细的了解。 这上面呢,它就是把一类任务的工作方法从一次性 prompt 升级为可附用,可组合,可长期使用的能力模块。 注意啊,我们这边呢,出现了三个英语单词,第一个是 prompt, 第二个是 agent, 第三个是 skills。 那 我再额外给大家补充三个吧,一个是 m c p, 另外是 rules, 还有这个 memory。 这六个单词呢,大家或多或少都听说过啊,有一定的了解。那为了能够更加简单直观的把它们的本质以及使用场景讲清楚的话呢,我这边画了一个表格。首先这个 prompt 啊,它的本质是什么呢?它其实就是一个一次性的输入文本,那它是不可附用的,也不是啊,长期有效的,所以说呢,它就强依赖当前的上下文。 agent 呢,它是一个正在运行的 ai 执行的实力,它不是附用的,也不会长期有效,结束了就消失了。 而 agent skills 呢,它是一个可赋用的工作方法的模块,并且它这边是跨任务跨绘画的。然后 m c p 呢,它其实是一种外部工具和数据访问的协议啊,这边是可以赋用,也是长期有效的,与 agent 的 这个生命周期是啊, 无关的。最后是 rules 啊,它这边呢,是一个局的 ai 行为的约束啊,也是可以赋用和长期有效的,并且是始终生效的。 那最后呢,是这个 memory 啊,就是可以去持续地存储某一类状态,它这边也是可以附用和长期有效的。那这里的话呢,大家可能对这个 agent 不 可附用啊提出质疑啊,那我来解释一下, agent 呢,它本质是一种运行状态啊,就是类似一个正在工作的进程或者是现成。 那任务完成了之后呢,这个 agent 的 生命周期其实也就相应地结束了啊,你不能说我想要去附用上一次那个 agent, 你 只能说我再启动一个新的 agent 实力。 那为什么很多人会感觉这个 agent 呢,好像能够服用呢?这是因为我们的这个 agent 呢,它当中啊有这个 prompt, skill, rules 和 memory 这些配置。所以说呢,真正可以服用的其实是 agent 它自身的这个配置, 而不是 agent 的 本身。那上面这个表格呢,我们其实已经讲到了六者之间的不同的分工啊,那接下来的话呢,我们来看一下它们之间的一个差异吧,这里我也让 chat 的 gpt 帮我会总了一个 表格。首先我们来看这个关注点啊, prom 呢?他是说什么?然后 agent 呢?是谁来做? agent? skills 是 怎么做? 然后 m c p 呢?是我们要用到什么样的一个工具?而 rules 呢?是啊,我们去归约了,什么事情是不能做的?最后这个 memory, 是 啊,有一些长期的这个对话的过程,想要去让你去记住的一些记忆点, 这个大家可以暂停来看一下。 ok, 那 下面的话呢,我们正式进入这个实操环节啊,首先呢就是我们来解决一个大家比较关心的问题,这个 agent skills 到底是从哪里来的啊?是不是每次我们都需要自己去写这个 agent skills 其实是不用的啊,因为现在社区它已经有很多成熟县城 拿来就能用的 skills 啊。第一个就是这个 atroc 它官方的这个 skills 仓库,那这个仓库呢,它非常重要的一点就在于它给出了官方推荐的一些啊 skill 的 写法啊,这个就是行业规范, ok 也提供了一些比较基础的这种 demo 势例。 第二个来源呢,就是这个 awesome cloud skills 这个项目啊,它这里呢是汇集了成百上千个 skills 啊,覆盖的这个场景是非常的多,那它更像是一个 skills 的 目录和生态集合啊。那第三个来源呢,就是这个 skills mp 点 com 这个网站,这个网站它的交互是非常有意思的啊,有点像一个命令行的界面啊, 你可以去按照分类浏览,也可以去啊按照你自己的这个用途和这个喜好去搜索。那这个呢,我就不展开了,回头大家可以去自己慢慢探索一下。呃,目前的话呢,我们主流的这个 a 编程工具其实都是支持 agent skills 的 啊,而且它的这个安装方式其实也都是大同小异的。 这里呢我提前就下载了 athropic skills 那 个开源项目,然后现在的话呢,我们就演示如何安装到 coder 当中去。首先呢我们打开一个项目,然后在这个项目的根部路呢,去创建点儿 coder skills 这样的一个文件层级,接下来的话呢,我们只需要去把一些开源的 skills 的 文件复制过来就可以了。那这里呢,就是复制以后的一个文件层级了。 ok, 现在的话呢,我们来尝试做一下对比啊,比如说同样的提示词,我们让 coder 去做一个 toto list 的 这样的一个小应用, 左边呢是不带 skills 的, 右边是带 skills 啊,那可以看到呢,右边的这个设计,它明显是更加高级,更加美观的。 是因为呢,我们这个提示词当中的前端 ui 设计触发了这条 skill, 而这条 skill 呢,它不是在教 ai 去啊怎么写这个前端的代码,而是呢,它在替 ai 做一个规约啊,就是当你去做前端设计的时候呢,你必须向一个真正的 设计师那样去思考。这里呢,我也让 ai 去分析了一下这条 skill 啊,感兴趣的同学呢,可以来暂停看一下。 ok, 那 到这里的话呢,你其实已经不难发现了,就是其实不是一个效果好不好的问题,而是一个做事方式, 呃,要不要改变的问题啊?就是加了 skills 之后呢, ai 并不是变得比之前更加聪明了,而是呢,他开始知道在这一类任务当中啊,什么样的事情,它的这个优先级是最高的, 哪些判断是不能够随便啊糊弄过去的啊,就是它会减少 ai 的 一个幻觉,更加的去标准化,更加的去符合我们人类的一个定义和预期。 那这也是为什么同样一句提示词,加不加 skills, 你 可以看到它的这个结果完全是不一样的, ok, 所以 说 agent skills 它真正的一个价值不在于它写的有多么的复杂,而是在于它能不能够稳定地去改变 ai 面对一类任务时候的一个行为方式。 ok, 当你开始呃真正的在项目当中去使用 ai, 而不是只去做一些简单 demo 的 时候呢,你就会越来越在意这种稳定性,而不是, 嗯,就是 ai 的 某一次。呃,灵光乍现表现很好啊,就是你会在意它的一个稳定性。那所以说的话呢,下一期我们也会直接带大家去从零到一的写出一条自己的这个 agent skills。 然后呢,我也会讲清楚一个真正可以附用的 skill 应该怎么样去设计,以及什么时候我们该用 skill, 什么时候该把这个东西交给 m c p 来做。感兴趣的同学啊,可以来关注我。 ok, 那 以上呢,就是本期视频的一个全部内容了,感谢大家的收看,我们下个视频再见, peace。

用好 ai, 不 一定要死磕题日词了,如果你还在为写题日词而掉头发,那么这个爆火的项目可能就是你的救星。这个叫 agent skills 的 东西,居然让我再也没有费力写题日词,我只用给 ai 说六个字,就可以让他开始今天的工作,一边访问我的电脑,一边帮我干活,直到绘画结束,一份完整的文件便出现在了我的桌面。 这么说吧,大家其实苦传统题日词久矣,因为 ai 是 很难一句话就听懂你想要什么的,得把一大坨一大坨的题日词搬来搬去,把背景、需求、格式交代一遍,还得把各种成就老文件喂给 ai, 看着它学。 结果还没开始, ai 的 上下文就顶不住了,聊天框又得重开了。这次爆火的 agent skills 并不是说不用写提示词了,而是把那些常用的提示词给打包封装了。这就好比写代码,以前我们每次都要从底层代码开始手搓,现在有了封装好的标准化函数,你只需要直接调用 skills 就 能激活对应能力。 虽然这看起来只是工程上的小优化,但可能对 ai 的 产业化影响极大。一个是不需要再手打涌泉的提日词了,大家可以把更多的精力放在需求和创意上了。另一方面,就像强大的函数库构建了今天的互联网,标准化的 skills 也能让 ai 的 能力变成了可以随意组合的积木。 这种从手抄题日词的 ai 手工时代到工业标准化时代转变的那味道了。叽里呱啦说了一堆,这玩意到底怎么用?我们直接用最原生的 code 来做演示。首先,你得在设计里找到 skill 这个功能,接着你会发现它早就内置了一堆初设 skills, 像什么文档处理、网页设计等等,你只需要打开上面的开关,就可以在对话中使用了。比如,我可以直接让它做一个苹果公司风格的 ppt, 而它的技能文档会指导它直接使用 html 加 css 写换灯片,所见即所得,然后自动转换成原声, powerpoint 的 格式直接导出。我 又用 jimmy 三试了一下,在接到我的要求后,它居然说不能直接生成 ppt, 但可以通过以下三种方式协助我。 我还可以直接调用他的前端技能,做一个老板 qq 的 前端页面,这蓝底风格还真没问题,甚至还有经典的开会员环节。 甚至你只给他一段 python 函数代码,他就参考 dog's dream 技能里的规范,帮你补上符合 python 官方标准的 dog's dream, 再也不用被代码规范困扰了。当然,如果你觉得技能不够用,你还可以自创武功, 只需要调用 ai 本身的 skill create 技能,用你的语言描述自己的需求,让 ai 自动帮你生成一门技能,使用起来非常友好。 ai 会一步步引导你说出你的需求,你只需要回答问题就行。 有的人就要问了,这不还是提日词吗?我还得噼里啪啦一顿敲吗?错误的比起提日词,它的优点可太多了。若是提日词,你每次都得自己敲或者搬,还疯狂吃你的上下文。但使用 skills 后,你只需要在创建 skill 时描述一遍你的上下文了。 而且在创建 skills 的 过程中, ai 会对你逐步进行引导,比从零开始错题日词友好太多。最方便的是,这玩意可以直接打包成压缩包,分享就像个 u 盘,即插即用,丝滑无比。因此,你可以从社区里薅到不少大佬分享技能包,而我也用自己的数据搓了个差评。写作助手 在上班之前,我只需要发一句话,帮我写篇稿子。装了技能包的 ai 瞬间就开始工作了,他是直接在自己的技能库里搜索了这个写稿技能,接着像个老练的编辑一样,自己去里面翻题,自己去对风格。然后不到一分钟,一份大纲直接甩到了我脸上。 当我同意继续写作后,一份完整的文章就送到我的面前,我就有更多的时间做微调工作了。如果不用 skills 呢?我得打开 gmail, 先粘贴一个八百字提示词模板,后面还得加点关于我们频道的限制词, 然后上传资料、论文、素材、文章, ai 就 开始输出了。一顿操作下来,上下文就已经塞了几十万 tokens 了,修改几轮就到上线了。 最后,总的来说,自从用上了 skills, ai 来了全干了,那叫一个舒适。而且 anthropomorphic 这次又想做带头人了,直接把 skills 做成了一个开放标准。这意味着这玩意儿绝对不止 cloud 能用,理论上可以直接拿去给别的 ai 用。 目前已经有这个趋势了,像 cloud code、 open i 的 codex 都支持 skills 了,连 chat gbt 也有跟进的消息。 有的人就要问了,你上次也是这么说,什么叫 m c p? 咋又来这套,换个屁筐我是吧?还真不是。简单来说, m c p 定义了 ai 如何访问外部数据, 如本地文件、数据库、 github 等。而 skill 定义的是 ai 在 获取数据后如何处理的问题。因此,如果没有 m c p, ai 就 不能操作我的桌面。但如果没有 skills, ai 也不知道怎么操作才能让我满意。当然,这玩意儿也不是百分百安全, skills 本质上赋予了 ai 读写文件和执行代码的权限, 如果技能包中包含恶意脚本,可能就会很麻烦。要是哪个神人在包里藏了个删完库,还得问你需要其他帮助吗?那就得不偿失了。 总的来说, skillster 出现让 ai 越来越像个正经干活的打工人了。虽然现在各家 ai 还没有完全适配,但相信我,这绝对是跟 m c p 差不多的新趋势。

资源、指令和工具理解了这三个要素,你就理解了 agent skills。 一个月前,也就是二零二五年十二月十八日, anthrobi 正式宣布将 agent skills 发布为开放标准。今天我们不吹不黑,一条视频,讲清楚它到底是啥, 它和我们之前讲的提示词、工程、 m、 c、 p, 甚至知识库等等有什么关联和区别。 agent skills 顾名思义,就是让 ai agent 有 各种各样的技能,让他能做的事情更多。 首先我们思考一个本质问题,当你让 ai 帮你干活的时候,他内部到底发生了什么?现在你是一个超级大公司的 ceo, 你 的秘书是一个 ai, 你 对他说帮我根据去年营收写一篇全员信, 信中还要包含今年的目标,要符合公司规定,并且还要发送给全体员工。如果我们将整个流程的要素抽象出来,就不难发现, ai 的 工作需要资源,例如公司营收和设密规定 指令,例如规划今天的目标,并写一篇全员信。工具,例如通过邮件接口去发送给全体员工。那么在 agent skills 出来之前, ai 是 如何接受并处理这三要素的呢? 首先谈谈资源,其实也可以称为知识。我们常用的 ai 都是利用互联网上的公开数据训练出来的,那么像公司规范这些内部非公开的数据, ai 肯定无法获得,怎么办?以往我们的方法有两种,要么用这些非公开数据对模型进行微调训练, 要么就将它们放到一个知识库里,供 ai 查找调用。其次是指令,这个好理解,指令也叫提示词,提示词的质量往往决定了 ai 输出的质量,这也就是为什么大家之前一直在强调提示词工程, 还有就是工具。说到工具就离不开 mcp 协议,它允许 ai 使用外部的数据源和工具接口。比如我可以通过 mcp 协议调用 github 接口,让 ai 帮我将代码直接上传到 github 上。 也可以通过 m c p 协议调用电子邮件接口来让 ai 给其他人发送电子邮件。讲了这么多陈年老知识,可能你要问,这和 agent skills 有 什么关系? agent skills 其实就是一个将提示式工程、 m c p 甚至知识库融为一体的纠集缝合关。首先我们来看看 agent skills 结构,它分为三层结构,原数据、指令、资源 指令和资源。好像刚才都提到了,那么原数据又是什么?为了便于理解,这里直接给大家实操演示。如果大家安装了 cloud code, 在 主目录的点 cloud code 文件夹中,你可以找到一个 skills 文件夹,这里面就集成了 ai 所有的技能。 比如我已经实现了让 ai 写全元信的技能,这就是 agent skills 的 本质。在这个本质里面, skill 点 md, 这个文件就是整个模块最重要的部分。 第一部分,由三个横线包裹起来的部分就是原数据,它是对于这个技能的必要介绍,包含名称和描述,缺一不可。下面的部分称之为指令部分, 其实和系统提示词很像,它是内部规定好的,去指导 ai 执行任务的指令。在指令里面,我规定了 ai 需要执行三个任务,总结、营收、规划、明年以及写信。当然,为了确保它真正理解,我给了它一个视力, 现在让我们运行 cloud code, 输入我们的要求,并且给他去年公司营收情况,让他执行来看看效果。经过一段时间的思考后, cloud code 的 弹窗提示他检测到了有一个全员性助手的 skill, 问我们是否需要调用。 点击试,他就会按照我们预定义好的技能总结营收规划明年,并且写好信件。但是显然还有两件事情他并没有完成,一是没有参考公司规范检查信件内容,二是没有将信件通过邮件发送给全体员工。 这就涉及到了 agent skills 结构中的第三层,资源层,我们前面提到的三要素中的资源和工具都属于这一层。比如,我们要求全员性的助手能够参考公司规范。首先,我们要在文件夹下新建一个公司规章制度点 md 的 文件,然后将准备好的内容粘贴进去。 随后,在 skills 点 md 中,我们需要加上一个声明,要求信件必须满足公司规章制度的规定。 此外,为了让这个全员性助手能够将写好的信件发出去,我们还需要在文件夹中新建一个 email 点 p y 的 脚本, 我们将预先准备好的脚本内容粘贴进去,然后再在 skills 点 md 里面新增一个发送邮件的功能规定,如果指令里包含发送邮件等字样,则必须执行该脚本。 现在我们再执行一次 cloud code, 看看会发生什么。这一次,当我们输入指令,选择执行全员性助手后,他会先开始查看公司规章制度点 md 这个文件,确保生成的信件内容符合要求。生成信件之后,他又开始执行发送邮件的脚本, 通过最终的任务完成总结,我们发现,这一次这个小助手不仅帮我们生成了信件,他还识别到了一些违规内容。 原来我们原始的指令里面存在着公司规章制度不允许出现的返点等信息,这次小助手自动帮我们删除了返点信息相关的内容, 并且他还识别了发送邮件的指令,去调用了发送邮件的脚本,这就是完整的 agent skills 工作流。 那么你可能会说,这也没什么新技术,不就是把之前的题设词、工程知识库还有工具调用融合在了一起吗?它有什么优点吗?有!如果你仔细思考过就会发现,除了一开始加载 agent skills 以外, 后续功能里面是否参考公司规章制度,是否调用脚本等等,都是按需加载的。按需加载意味着 ai 不 需要一次性考虑所有内容,也就意味着更省 token, 更意味着用户只要花更少的钱就能享受更专业的服务。 当然, agent skills 框架适合轻量级开发,更多场景下,比如要求调用一些专业软件的接口, m c p 协议可能会更合适,未来二者的结合一定会是主要趋势。