那常用的 skill 有 哪些呢?我比较常用的啊,第一个就是 skill creator 啊,这个可以帮我去创建 skill, 因为网上的 skill 可能有一些不符合我的要求,那这个时候 我想创建 skill, 怎么创建呢?我就跟 ai 说,我说,呃,我这有什么需求啊?然后现在你去帮我创建 skill 啊,我后面还会加一句啊,就是说 你创建的过程中不明确的地方呢,你可以问我。 ai 听完之后他就会问我问题说,哎,第一步,呃,应该具体是什么样?第二步应该做哪些命令,第三步,导导入哪个目录啊,等等等等啊,我们俩会 商量,商量完之后, ai 说,啊,我懂了,然后他就用这个 skill creator 去帮我把这个 skill 给创建出来,那这样我就有了一个自动化的流程的一个 skill 给创建出来,那这样我就有了一个自动化的流程的一个 skill。 呃,第二个呢,就是 github 的 这个 skill, 它可以帮我去管理远程仓库,呃,帮我下载仓库,帮我分析仓库,帮我提交代码 啊,它都能做。第三个就是 find skill 的 一个 skill 啊,它可以帮我去到网上去查有哪些好用的 skill, 然后还有 browser agent 啊,或者叫 browser user 啊,有两个 skill 都能做相同的事,就是可以操作浏览器。那这个 browser 的 skill 呢?它具体能干什么呢?就是它可以打开浏览器,比如说你想到谷歌、百度去查一些东西,或者是去 呃分析网上的一些数据,让他去抓取数据。那你跟这个 ai 说完, ai 就 会调用这个 browser agent 这个 skill, 呃,然后他去打开浏览器,去访问相应的一一些网页,去抓取相应的一些数据,然后抓到本地电脑里呀,或者是直接帮你分析完给你结果呀,都可以。总之就是 你有一些操作浏览器的一些任务工作,都可以用这个 browser user 或者是 browser agent 这个 skill 去完成任务,甚至它可以帮你操作一些表单,比如说你的工作是在浏览器里面添一些表单啊,然后你把这个地址给这个 skill, 如果需要登录用户名和密码的话,你得手动登录啊,然后登录完成之后,它就可以操作浏览器去做这个事了 啊。当然还有一种方式就是你可以把用户名和密码跟这个 ai 说, ai 会调用浏览器 skill 去添入用户名和密码,那当然这个是有一定安全风险的,我不推荐这么做,但是它是可以实现的。那这个就是呃浏览器的 skill 比较常用的。还有就是 呃,像帮我检查文档,帮我检查文案,还有就是平时写项目的时候,按照我自己的习惯去帮我生成一些架构的一些通用的东西, 都可以用 skill 来做。所以大家平时用电脑工作,你是办公室人员也好,数据分析人员也好,电商人员也好,呃,你的工作里头你都可以告诉 ai, 让它帮你生成一些对应的 skill 来帮你干活。而如果说这个工作是标准化的任务的话,它绝对能帮你提升效率。
粉丝3.5万获赞9.9万

有很多小伙伴是不是在苦恼费劲装好后,自己的 opencr 在 做任务时总是完成的很慢?今天一个视频给大家解决问题, 我用的是七二四跨涌洞虾,想轻松安装部署的小伙伴可以看我视频主页的置顶,并且右上角输入兑换码 x x 五百,还可以免费领 token。 opencr 完成任务慢,那可能是两点原因, 一是你给他安装了各种各样的 skill, 发出一个问题时,他可能同时触发好多技能,都给小龙虾搞爆炸了。 二是没有搭建工作流,形成多 action 模式,别人的小龙虾都是团队协助,只有你的十单打独斗。那么小龙虾究竟要安装什么 skill 呢? skill one skill vader, 它相当于技能审核员,你在 open class 里面装各种拓展技能时,它会帮你审查代码安不安全,避免恶意脚本偷数据搞破坏。对本地部署注重隐私的人来说,真的非常关键。 skill 啊! find skills find skills 就是 open cloud 的 技能小雷达,你随口说想要什么功能,它立马帮你搜到能用的插件,不用自己翻仓库找半天。并且它可以精准地知道你需要什么技能,帮你自动安装,省心又省事。 skill three tablet web search cavalley web search 就是 opencloud 的 专业联网搜素小能手, ai 想查最新消息全靠它出码。它不止会搜,还会自动晒广告八正文,给你的都是干净能用的真实信息, 不用你自己翻网页找半天。 skill four self improving agent self improving agent 是 opencloud 的 自我进化外挂, 干完活会自己复盘。总结,哪里做得烂就默默改哪里,越用越聪明。 skill five skill create 是 open 克拉内置核心元技能,相当于技能制作工具,不用写代码,靠自然语言就能创建、优化、审核、打包各类自定义技能,把工作流程封装成可附用、可分享的技能,包装完这五个死 q 就 可以让你的龙虾安心工作了。 然后就是多 agent 模式,我直接给他发送一套工作流程,让他帮我自动配置一套 a 肩 t, 以我目前的实际情况帮我改一套 agent。 目前我的工作流程为自媒体视频制作题材和 open coin 相关,平时需要自己写视频脚本,找视频素材剪辑和发布。他就根据我的实际情况自动帮我配置了一套 agent, 效率比单个的 agent 快 很多。 给大家演示一下,我让他帮我写一个 open kala 测评的脚本, 生成速度还是很快的, 内容丰富,调理清楚,并且还有分镜头。 好了,今天的视频就到这里了,点赞关注,带你玩转更多 ai 神器!

今天给大家介绍一下 cloud code 里面原生自带的两种多 agent 协同的两种方式啊,一个叫 sub agent, 一个叫 agent team, 然后我也会说明为什么这两种方式在某些业务场景下,它没有办法解决多 agent 的 协同的问题。然后啊,为此我自己做了一套 agent 的 写作流程, 能够很好的解决这两个问题。对,首先首先介绍一下啊, cloud code 自带的两种 agent 写作的方式吧。第一种叫做 sub agent 的 词代理, 子代理,就是当你跟 agent, 当你跟 cloud code 会对话的时候,这个主会话,他在完成你的任务的过程中,可以去派发一个子代理帮他去啊,完成他这个任务里面比较边缘的那一部分事项 啊,然后子代理把这个事项完成之后,得到一个执行的结果和招标,把这个招标返回一个主代理,主代理拿到这个招标之后,就可以把他的工作重心聚焦在你给他的这个任务里面比较核心的那个部分,这就是子代理的实现方式。 那他的启动方式也很简单,就是你直接在绘画里面在跟主代理对话的过程中显示的声明,像这样的声明说 啊,帮我启动一个或者多个子代理,或者具体多少个帮我去做一件什么样的事情,然后它就会自动地去启动子代理,帮帮他去做了啊。然后第二个 cloud code 的 原生自带的就是 agent team, agent team 呢,其实就是你在绘画中也是在跟主代理的这个绘画的过程中显示的声明说你想要拉起一个 agent team, 然后去帮你做一件什么样的事情,解决一个什么问题。比如说你要做一个网站,那这是一个比较大的需求, 你可以让他拉起一个 agent team, 这个 team 里面你去定义成员,有产品经理,有程序员,有 u i 设计师,有测试啊,这几个角色,他们分别的角色定义他们的职责,他们的工作流程, 然后让 cloud code 去组织他们帮你把这个网页做出来。啊,那这两个模式他有什么问题呢?或者说他有什么缺点呢? 啊?我觉得在业务实现上是有两个比较大的痛点的。第一个就是不管是 sub agent 的 子代理还是 agent team 里面的这个成员代理,他都没有办法,他们的绘画都是无法回溯的, 这就意味着你没有办法去看到他们的推理过程和他们的思考过程,你只能看到他们的一个结果,那当你对这个结果不满意的时候,你很难去 通过绘画,通过 session, 通过这个 agent 的 他的一个思考过程来判断到底是哪里有什么问题,怎么去优化它,我觉得这是在业务上是一个比较大的问题。然后第二个问题就是 不管是 sub agent 还是 agent team, 他 设计的初衷都是为了去解决一个任务,这个任务就是你在主绘画里面给 cloud code 抛出的那个任务,或者让他要解决的那个问题 啊。但是在很多业务场景下啊,我们更多需要的是一个重复性的去执行一个任务的能力, 那比如说我今天要,今天要玩,今天要做这件事情,明天也要做,那这种事情其实就不适合 sub agent 的, 或者 agent team 去合作去去完成。 那为了解决解决这两个问题,我自己设计的这套多 agent 的 协同的方案,我觉得是能够比较好的解决这两个问题的。首先就是你我们可以在这个 agent 里面去定义你需要的这个 agent 的 的角色, 他的身份,他的定义,他的工作流程啊,甚至是说他的 skill 有 哪些。 然后第一个问题怎么解决呢?就是你直接进入到这个 agent 的 文件里面,然后去启动 cloud, 那 你你其实就等于在一个新的绘画里面启动了这个 agent, 那 这个 agent 你 让他做任务的过程,他的思考过程,他的推理过程, 都是通过可以通过 cloud resume 的 方式去啊回溯的。对,那那这样的话你就可以知道 你的他的任务执行过程中有遇到什么问题,那你可以直接的在绘画里面让他去解决,比如说优化他的 skill, 优化他的工作流,优化他的身份设定,优化你的 prompt 等等 啊,来来达到来让这个 agent 的 这个执行的交付质量是更好的,符合你的业务预期的。 然后关于第二个问题,就是当我们的这个工作流程,工作流打磨的比较好了的时候,每个每个 agent 它的输出质量都已经不错了的时候,那你就可以直接通过定时任务的方式 啊,进入这些文件夹,然后驱动这些 a 帧的工作,这样的话你的整个工作流程,整个流水线就是可以一直重复的去产出结果的。 对,这样的话就解决了第二个问题就是啊原啊 cloud code 的 原声自带的两种多 a 帧的写作方式,它 都是为一次性的任务去服务的,那这样的架构其实就可以啊,不停的去驱动每每一个代理为你工作,然后不断的去重复性的产出 结果,并且这些结果因为你已经打磨好了他们的工作流程,他们的 skill, 那 他们产出的结果大概率也是符合你的业务预期的,这样的话就是他的工作结果既是好的,并且他又可以不断的重复的为你工作。

合着 square 在 你们眼里就是一个一点就跑的小程序是吧?那这误会可就大了,来,把手准备好,我们一起来盘一下 square 到底是个啥玩意?我们假设这是小嘚一个你死气白来费半天劲才装上的智能体, 虽然你俩是人机殊途,但是这并不妨碍他成为你做梦迈向人生巅峰的好基友。于是你大手一挥,命令说,去把我老板给我安排的活干了带我飞,完事你就翘着二郎腿等着捡现成的。 但我告诉你,这时候但凡你对小嘚有一丁点期待,你就输了。人家小嘚也就是没长嘴,要是长了铁定一怼你。 哥们,我是智能体,不是你家选池里的王八,您老让我干活,好歹得告诉我干什么怎么干,干成什么样吧?你这一琢磨也是啊,人家小邓说的也没毛病, 于是你只能默默的作废,电脑前超出快磨秃噜皮的键盘,噼里啪啦的又敲了几千字,把你老板平时 pua 你 的什么流程标准工具、参考资料巴拉巴拉一大堆,一股脑的塞给了小邓。 这时候小嘚确实是能干了,但你也快自闭了,为什么?因为你一想到下次再让他干活,还得把这坨堪比论文的东西重新敲一遍,心中就有一万头神兽狂奔。 不过聪明如你,高低不能被一群牲口吓住,于是你脑瓜子一转,把这坨每次都要重敲的东西按照不同任务整理成了说明书。然后告诉小嘚,以后干活前先看看有没有对应的说明书,有就按这上面写着干。 而这种说明书在 a 智能的世界里就叫 skill。 所以 现在大家明白了吗?你家智能体能不能当牛马,关键就在 skill, 至于它干起活来嘚不嘚,就看你有没有在 skill 里写清楚,啥活用它活咋干,用啥工具看啥资料这四件事我知道这玩意你们写不利落,我写了个 demo。 想晓得评论区。

别再纠结是 codex 还是 cloud code 了,我在实测了数十个 agent 之后,发现真正决定生产力上限的不仅仅是 agent 工具,还有你手里的 skill 配置。如果你的 skill 没配对,换再强的 agent 也是在浪费时间。 所以我根据实际开发场景和我的日常使用,筛选出了这四组最核心的顶级 skill, 包含了原能力扩展、工程化开发、前端设计和内容创作。 它们完全不挑平台,不管你以后切换到哪个 agent 装上都能用。先讲最根本的两把钥匙,我称为原 skill。 你 可以把它理解成让 ai 自我进化的能力,它不负责具体的活,而是专门用来扩展 agent 的 能力边界的。不管你用 ai 做什么,这都是你第一天就应该打好的地基。 第一个是 skill creator, 来自 antropic 官方。如果你想把一套成熟的工作流变成一个新的 skill, 便于后续调用,那么选它就对了。 以前想自己做个 skill 特别麻烦,得先去研究半天复杂的格式,不然可能写出来的 skill 还会报错。就算写出来了,使用效果也不一定尽如人意。但现在有了它,你不需要去研究什么复杂的格式,也不用手动改文件, 你只需要像给同事交代工作一样,用大白话把你的流程说一遍,或者直接把你的操作手册丢给他,他就会自动帮你起草、测试、反复迭代。在你自己完全不用看开发文档的情况下,一分钟就能写出一个既标准又好用的 skill。 安装和使用方式也很简单,在安装完成后, 只需要在 agent 里选中 skill creator, 然后输入你的需求,和它一步步地进行沟通就好。建议直接局安装,这样无论你在哪个项目里,都可以随时进行调用。第二个是 find skills, 大家千万别把它当成一个普通的搜索插件, 觉得还得自己手动去查。真正的用法是你直接给 agent 派任务就行了。比如你让他帮你做个 ui 设计,要是他发现自己不会,他就会自动把你的需求拆解成 ui 抵赞你这种关键词,然后自己去全网搬救兵。他在后台连接的是 skill 点 s h 这个平台,他会自己查看哪个 skill 安装量大,哪个作者靠谱, 然后挑出最好的那个供你进行选择。在你选择好之后,它还能直接一行命令帮你安装上 skill。 creator 是 让它能自己造工具,而 find skills 是 让它能去外面找现成的,这两个配合使用,一定能大大提升你的 agent 的 工作效率。接下来是针对具体场景的 skill。 先说软件开发, 我选了这三个, superpowers, j stack 和一个前端大神的 skill, 它们针对的场景略有区别,但核心都在解决同一个问题,就是终结那种看似逻辑闭环,实则无法落地的代码幻觉,帮你守住工程底线。第一个 superpowers, 他的杀手锏在于他把测试驱动开发这套严苛的工程标准,直接变成了 agent 必须遵守的硬规则。其实很多人刚开始用 ai 编程,最容易上手的场景就是让他写测试,而 superpowers 顺着这个逻辑直接把开发流程给正规化了,他 会强制 agent 进入一套标准的红绿重构循环,先写一个必然失败的测试,证明功能还没实现,然后写最少量的代码,让它变绿,最后再进行优化, 而且它非常稳。 agent 写完之后,它会自动开启两轮内部审计,一轮看代码,实现跟你的需求对不对的上。另一轮则专门盯着代码的质量挑毛病。这种慢思考的模式能帮你抓出很多隐藏的边界问题。 虽然看起来多花了一点点时间,但因为它第一遍就能把代码写到八十分以上,省掉了后面无数次反复抵 bug 的 时间,长期来看反而更省头肯也更省钱。它的整个工作流程大致如下, 首先他会拉着你做头脑风暴,把需求细节彻底磨清楚,先出一份整体的设计文档。然后他会把大任务拆成一个个几分钟就能搞定的小碎活儿,每个活儿都有明确的验证标准。接着就是让紫 a j 特自己去跑, 他自己写,自己查,严禁跳步,你只要在旁边关键节点确认一下就行。最后等测试全部通过了,他会把选项丢给你,是直接合并代码,还是先留着分支,或者觉得不行直接丢掉?第二个是 j stack, 作者是 y c 的 总裁 gary 谭。如果你还不知道 y c 是 什么,简单说,它就是全球最牛的创业孵化器,像 airbnb、 dropbox 这种巨头都是它孵化出来的。所以这位大佬出的工具,骨子里带的就是那种硅谷创业者的实战基因。这个工具有一点不同, 它不是那种功能单一的 skill, 而是在 agent 里内置了二十三个不同的专家角色,从 ceo、 设计师到发布工程师,你都可以通过斜杠命令直接调用,这相当于给 agent 配齐了一整支团队,让他不再是单兵作战。为什么要搞这么多角色? 因为真正做商业系统,代码行数不值钱,能跑通才值钱。有了这群专家帮你交叉审计, agent 就 能在不同的专业视角下, 把你揪出那些隐藏极深的问题。我来向你介绍一下它的实战流程。首先,在你动手写第一行代码之前,先跑一下 office hours 命令。这就是 yc 最出名的灵魂拷问。 ai 不 会立刻写代码,而是像个严厉导师一样, 反问你六个最尖锐的问题,把不靠谱的假设先掐死。接着可以用 plan ceo review 命令,让 agent 站在 ceo 的 高度审视计划,看看有没有更优解。到了代码复合阶段, review 命令就是你的资深工程师,他不光找小 bug, 更盯着那些 c i 能过,但一上线就可能爆炸的工程隐患。另一个具有实战特色的是 q a 命令,以前 a 阵呢,只能在代码里纸上谈兵,但这个命令是真的,会打开浏览器,像真人测试员一样去点击验证, 直接把 bug 抓出来修掉。最后活干完了,直接执行 shift 命令,它会自动同步跑测试、推代码、开 pr。 整套发布动作一气呵成。该瑞坦统计过,二零二六年,它的代码产出是二零一三年的二百四十倍。这不是说 ai 写的代码行数多就是厉害,而是同样的需求, 他一个人现在能顶一支小团队在干活,这就是角色分工带来的本质变化。第三个是一套前端大神 mod, 自己日常工作用的 skill, 作者是 typescript 的 布道者,如果你平时前端开发比较多,那么可以试试这个。 这套工具重点解决的是人与 agent 之间沟通对不起的问题。 mark 总结过,如果没有好的引导规则, agent 写代码很容易陷入几种困境。首先是理解偏差, agent 可能根本没听懂你需要什么,或者写得太啰嗦,废话很多。然后是执行失败,好不容易写出来的代码,结果发现根本跑不通。最后是架构隐患, 虽然代码能跑,但因为缺乏整体规划,后期维护起来会非常痛苦。所以他的这套 skill 核心逻辑很简单,宁可在前期多花几分钟对其需求, 也不要在后期花几个小时去处理这套低质量的代码。具体到这套 skill 里面的指令,我建议你重点关注这几个。首先是 graeme 系列的命令,这就是刚才提到的拷问模式,当你提了一个模糊的需求,比如说想加个登录功能,他不会马上动手,而 是会回过头来不停地拷问你细节。可能问完之后,他发现你真正想要的是 sso 环境下的多租户登录,这就把隐患消灭在开工之前了。接着是 tree 命令,也就是 aure 分 诊,他会帮你把所有的任务都过一遍, 分清楚轻重缓急,确保你不是在修一些细枝末节的小 bug, 而忽视了真正堵塞进度的核心问题。最后还有一个 improve 命令,这是代码库的架构急救包, 你可以每隔几天就跑一次,让 agent 站在大局的视角审视你的代码库,找出那些以后可能会越来越难改的地方,并给出重构的建议。接下来是前端页面设计,这是最开始编程 agent 出来时,他做的最差的一个领域之一。 agent 化 u i 出来的永远都是那些固定的套路, 固定的字体,蓝紫色的渐变背景、圆角卡片、特定的按钮样式。你在网上看到的那些 ai 生成的界面,十个里面有十二个长的都一样。解决这个问题的 skill 有 两个,第一个是 frontend design, afropic 官方出品。如果你受够了那种千篇一律的 ai 审美, 那它就是你的救星。以前的 ai 画 ui, 一 眼看过去全是圆角卡片加紫色渐变,就像是在共用一套廉价的模板。 而 front and design 的 核心是帮你洗掉这些 ai 位。它不是机械的套用组建,而是根据你的产品调性去推敲更有质感的纹理,或者尝试那种更有呼吸感的非对称布局。比如你给他提一个具体的风格要求,想要一个杂志感带点硬核感的页面,他给出的方案里, 字体的比例和模块间的留白都会处理的很到位。有了这种对视觉细节的把控,你的 ui 就 从一眼 ai 变成了真正意义上的耐看。 第二个是 u i u x pro max。 如果说前面的工具是帮你找灵感,那这个就是直接帮你配了一个设计总监。它的特点在于,它不是在靠直觉画图,而是把专业设计的那些条条框框全部变成了底层的逻辑。比如你要做一个金融或者医疗类的界面,它会非常明确地告诉你 什么样的配色能体现安全感,什么样的字体更显专业。他甚至还会给你列出一份避坑指南,直接点出哪些设计在商业场景里是绝对不能碰的。之所以能这么专业,是因为他后台内置了一百六十多个行业的深度规则, 不管你遇到多冷门的业务,他都能拿出一套成体系的方案,从交互细节到动效走位,都给你安排的明明白白。 而且它有一个很实在的功能,就是能帮你生成一套可以持久化附用的设计系统。有了这套规范,你下次再开发新项目, 直接把文件丢给 agent 就 能用,不用每次都从零开始打磨风格。而且它的上手门槛很低,无论是装插件还是用命令行,都能快速跑起来。 这两款工具的分工也很明确, front and 底钻负责把画面画得出彩,而 u i u x pro max 负责把产品做的更专业。有了它们, ai 的 输出就再也不会有那种廉价感了。最后一类,内容创作。如果你用 agent 做内容创作,那这组宝玉老师的 skill 我 一定要强力推荐给你。 它首先解决的就是内容本身的高质量产出,比如它能帮你生成一张极具审美,完全不输专业设计师的封面图,或者把一大段枯燥的文字直接变成一张高信息密度的格式化信息图。 在内容做漂亮之后,他还会顺手帮你搞定后面那些讨厌的碎活,比如说转格式、做排版,最后还能直接一键发布到各个平台,他把从生产到发布的全流程都打通了,有了它,你就能真正实现生产和发布一体化,把所有的精力都集中在打磨好内容上。 宝玉老师的这套工具箱里包含了十几个好用的 skill, 我 这里简单带大家看几个。首先是用于生成封面图的 cover image skill, 它最强的地方在于有一套五维控制系统,从构图类型、色调方案、渲染风格到文字排版和情绪基调, 全都能精准调优。这七十七种预设组合,能让封面彻底告别开盲盒的随机感,每一张出来的效果都像是为你的文章量身定制的专业设计。 如果你平时觉得画逻辑图、架构图很头疼,那这个信息图相关的 skill 绝对是神器。它内置了二十一种专业的信息布局,像分析原因的鱼骨图、做转化的漏斗图、梳理层级的金字塔图应有尽有。更聪明的是, 它能自动读懂你文案里的逻辑结构,直接推荐最合适的布局方案。以前要在设计软件里磨半天的信息大图, 现在只需要几秒钟就能产出出版级的可量化成果。如果你经营小红书,那么可以使用小红书 image skill, 它能将长文章自动拆解为一到十张卡通风格的轮播卡片。通过内置的十一种视觉风格和八种排版模式, 如对比、清单、流程等,可以快速生成符合平台排版习惯的图文内容。针对排版环节, 这个 markdown to html 的 skill 解决的是一个非常具体的痛点,那就是在微信公众号这种不支持 markdown 的 平台上,如何保留精致的排版。它内置了多套公众号主题,能自动处理代码、高量和数学公式。 最实用的一点是,它能把文中的普通外链自动转为文末的底部引用,彻底解决了公众号里链接打不开或者被截断的尴尬。如果你平时还有翻译文章或者精读外文资料的需求,那这个翻译 skill 就 派上用场了。 他最强的地方在于提供了一个正式出版级的模式,这个模式不是直接进行翻译,而是会走分析、翻译、校正再到润色这整整四步的流程。 而且他有一个非常人性化的功能,就是能让你指定你的读者是谁。比如你告诉他你的读者是资深开发者,他就会自动省略掉那些庸愚的解释, 翻译出来的语气读起来就像是真正的圈内人写的。最后,当你把内容全部准备妥当,可以通过发布微信或者发布微博这两个 skill 来实现一键跨平台分发。 它区分了不同的分发逻辑,你可以发长文形式的文章,也可以选择只发几张图片配一段摘药的贴图模式。它把那些复杂的后台操作全都变成了 agent 里面的一行指令, 从本地草稿到最终发布,整套流程都可以在 agent 里面直接闭环完成。今天分享的这些 skill 只是个开始,其实最关键的是大家要根据自己的工作流程和使用场景,去打磨出真正适合自己的 skill。 如果觉得视频对你有帮助,别忘了点赞和订阅,我是俊旺,我们下期再见!

最近特别火的 agent、 mcp、 skill、 open claw、 rag 大 模型到底是啥意思?今天一次性讲明白。先给大家举个例子,你把自己想象成一个老板,想搞一家完全不用人动手的全自动化的公司,这个时候你是不是需要一个全能的执行者?他不只是动动脑子,他还能统筹安排落地执行。 这里先澄清一个关键,真正管事的做决策的,那背后的核心,他是大模型,相当于我们人的大脑。咱们说的 agent, 也就是智能体,就是这个大脑的执行者的化身,他能听懂你想干啥,把你交代的环拆成一个一个的小任务,定好详细的执行步骤, 再指挥后续动作的落地。当然,他一定会借助各种各样的工具,相当于带着大脑的指令干活的统治者。准确的说,大模型是核心的大脑, agent, 他 是大脑的执行主体,是能自主决策、调度任务的智能执行者。那 skill 又是什么呢? 其实就是这个 agent 就是 执行者,他手里的硬本事是他自带的一些本地知识,标准化的能力能让他把活干的更漂亮。不只是凑合着完成 agent, 他 具有的硬本事可真不少哦。 比如说怎么写周报,怎么整理电脑里的文件,怎么打开浏览器查东西,怎么发邮件,怎么做内容的生成和发布,他可以写前后端的代码, 这些相对比较固定的流程,不用我们反复琢磨的一些标准化的动作和常规工作,每一个都可以是一个 skill。 简单说, skill 就是 agent 的 基本功,是它能落地执行任务的基础。接下来是 m c p, 它的全称 model context protocol 模型上下文协议。咱们还是举个例子,在没有 m c p 之前,你想让 ai 帮你干活。比如说你让 ai 查你的非书表格,非书文档,你要专门写一套代码去适配非书。你要让 ai 读你百度网盘里的文件,你要重新写一套去适配百度网盘。 你想用 ai 去高德地图查路线,或者给你的微信发消息,你每一个都得单独写一套代码。想让 ai 在 淘宝、京东给你下个单写套代码适配电商。所以你看,每连一个工具都要重新开发,重新适配, 正在重复的造轮子。现在有了 m c p 统一标准的协议了,它就像 ai 界的通用 usb 数据线,什么飞书、百度网盘、高德、微信、支付宝、京东,全按 m c p 的 标准插上去就行。那 ai 不 用学每一家的方言,一套标准接口适配所有的工具,不用写任何额外的适配代码了, 就实现了一次适配,多平台通用。在这里就是万物互联。那 red 又是什么呢?他翻译过来是解锁增强生成,其实核心就是让 ai 具备查资料的能力。 你像我们传统的 ai, 当生成内容的时候,可能会因为知识的不足,他就胡编乱造,产生幻觉。 red, 他 会先通过互联网,然后我们自有的知识库进行信息的查询,然后基于这些已有的内容再重新生成,那提供的信息他一定是更可靠的。 最 lag 的 本质是什么呢?为 ai 增加了搜索引擎的功能,类似于我们写论文,你先去图书馆查资料。最后我们说 openclot, 它到底是个啥?如果说大魔行驶大脑 agent 是 统筹的执行者,那 openclot 就是 承载这两者的一个躯体, 它是一个开源的、可以自己托管的 ai agent 网关。简单点说,你可以把它下载下来,安装在我们自己的电脑或者是服务器上,它就是一个能让 ai 跑起来的运行环境。 open code 里边已经自带了 agent 的 核心执行逻辑,它能通过我们刚才说的这个 mcp 协议 去调用各种现成的 skill。 而它所有的核心决策,比如说我怎么拆分任务啊?我先执行哪个呀?遇到错误之后怎么换其他方法呀?它其实背后都是靠接入的大模型,但可以再通俗一点, open color 就 像一个开箱即用的数字员工套装,哪怕你不是技术大神,你只要简单设置一下,说出你的最终目标,就能把 大模型 agent、 mcp、 skill、 rank 等等整合起来,拥有一个能够自动帮你干活的 ai 助手,你不用自己写代码搞开发。最后总结一下,大模型是核心的大脑,负责思考、做决策 agent, 它是统筹的执行者,像一个核心高管, 承载大脑的指令,拆分任务、定步骤、指挥执行 skill。 agent 的 基本功内置了标准化动作帮, 让你把具体的活给干了。 m c p 通用接口相当于通用的 usb 数据线,帮着 ai 去连接各种外部工具,不需要重复适配。 open call 躯体加运行环境,把大脑执行者、基本功、通用接口都整合到一起,让咱们普通人能轻松用上。

hello, 大家好,今天几分钟带大家彻底搞懂 skill 到底是什么,以及我们怎么创建自己的 skill。 首先第一点,什么是 skill? 我 们该怎么去通俗地理解它?那简单来说的话, skill 就是 给 ai 智能体配置好的专属技能插件,也叫做 agent skill 一 开始是 anastrophic 二零二五年十月十六号推出的,是一种轻量级开放的格式,结合专业知识跟工作流程来扩展 ai ai 阵的能力,相当于是给 ai 装上各种各样的使用技能,但它不再只是单纯的靠提示辞去工作,那能够更精准更稳定的完成指定的专项任务。 第二, skill 是 由什么组成的呢?那 skill 其实最主要的就是 skill 点 md 这个文件,它其实也是个 markdown 的 文件,但是它是比较特殊的 skill 文件,它一般包括原数据层和指令层。那前段时间很火的 gas tech skill 举例上面这部分呢,就是原数据层,包含了名称和描述, 下面就是具体的指令层,概括了这个 skill 整个工作流是怎么跑的。那除了 skill 点 md 这个文件之外,其他的都是一个 optional, 就是 可有可无的一个文件,但比较强大的和常用的会有 script 和 reference, 指的就是脚本和参考文件。说到这里的话,我想要提一下,那每次使用 skill 的 话, ai 的 一个加载逻辑是原数据层始终加载,指令层按需加载,但如果说有一些特殊的场景或者需求, 比如说需要额外加载其他的文件来回答跟实现的话,那 ai 就 会按照需求场景去提取 reference, 然后按照 script 的 这个脚本去执行, 那这个加载逻辑就叫做渐进式。譬如那要先说 reference, 大家可理解成是给 ai 查询学习的专属资料库,里面可以导入各种各样的格式文件,比如说 md, pdf、 txt 都支持。但是这里重点建议大家优先使用 md 格式,因为它整体的排版更简洁, ai 的 读取也更加顺畅,后期调用也会更省心。 那我们也可以用一些工具,把 pdf 跟 txt 等文件去转换成 m d 格式。 reference 里面可以放什么呢?比如说 ai 在 执行这个 skill 时,可能需要查询一些背景资料、规则范例或说业务知识,那它解决的问题就是,如果你有太多的信息没法在单个 skill 点 m p 的 文件里去添加,那你就可以放到 reference 里面,这样子的话,你可以不用把所有的资料都塞进呃 skill 文档,这样可以避免它加载时间过长,消耗 token, 那 整体的使用体验也不会很好。那放到 reference 里面的话,它可以按需加载,根据你的需求,然后再读取详细的资料。比如说像这样的一个结构,你可以把一些 m p 文件,然后放到 reference 里面,让它按需去参考。 然后是 script, 它和 reference 完全不一样,你可以理解成 script 和 reference 都是 ai 的 一个外挂。 script 的 点就在于说它是给 ai 直接调用的一个实用工具箱,因为平时我们只用提示词来下达命令的话,结果很容易不稳定,容易跑偏。所以你把固定的流程写进脚本,放进 script 里面,那它的执行效果就会极度的稳定。 它是 ai 能够直接运行,反复复用的一个固定的执行流程,一键就可以去落地。所以总结来说, skill 里面 reference 和 script 都是给 ai 补能力的,但是作用不一样, reference 可以 理解成是给 ai 看的资料库用来读取,那 script 的 话是给 ai 调用的工具箱 拿来执行。以上就是 skill 的 概念跟组成,那再教大家一下日常怎么快速去调出使用 skill 呢?最简明的方式就是在 agent 对 话框里面直接输入斜杠就可以快速唤起,然后找到你想用的 skill, 也可以通过 find skill 这个内置的技能去查找。第三呢,还能通过专属的关键词去唤醒对应的技能, 因为涉及到很多技能,所以很多时候关键词的对应不是很准确,所以建议优先使用斜杠调取就足够实用了。那如果你用的是 context 的 话,你还可以直接在插件技能这边找到相应的一个 skill。 那 最后教大家三种自制专属 skill 的 方法,新手也能轻松上手。第一种就是 prompt to skill, 可以 直接把成熟的提示词 一键转化成专属的技能,可以直接和 ai 说帮我把这个输出成一个 skill。 第二种,通过日常和 ai 多轮的对话打磨流程,然后跑出满意结果之后可以直接规范整理成一个 skill。 第三种可以直接使用 skill creator 这个 skill, 然后根据它的引导一步步去创建,零基础也能快速做出自用的 skill。 那除了自己创建 skill 之外,网上还有大量现成的很优质的开源 skill, 大家可以去 app 搜索一下使用。那以上就是本期 skill 的 全部基础干货,下期视频我给大家盘点分享一下好用高效的一些优质 skill, 感兴趣的话可以关注我是露露,下期见。

多 agent 最容易翻车的瞬间,不是他们不干活,而是他们一起干活。一个改后端,一个改前端,一个补测试,一个做审查。听起来像一个 ai 工程团队, 但如果边界没拆清楚,最后可能不是效率提升,而是多份上下文,多处文件冲突,多个半成品,最后全丢给人类收拾。所以 cloud code agent teams 真正值得看的不是同时开几个 agent, 而是他把问题推到了更工程化的一层。任务怎么拆?权限怎么控?证据怎么收。先说一个核心判断, 不是所有并行任务都该上 agent teams。 cloud code 现在有几类并行能力, sub agent 解决的是上下文隔离,比如查调用链,做安全审查,找测试缺口。这种任务噪声很大,适合丢给独立 agent 去探索,主会话,只拿回结论和证据。 agent view 解决的是后台任务管理, 比如一个查 flaky test, 一个看 pr 评论,一个补文档,它们彼此不用交流,你只需要回头看状态, pick attach 收结果。 work trees 解决的是文件隔离,只要多个 agent 都要改代码,文件边界就比角色名称更重要,否则两个 agent 同时改同一个文件,最容易互相覆盖。 而 agent teams 真正适合的是需要共享状态的任务,比如后端接口变了,前端和测试要同步,指导安全审查,发现风险,实施任务要能被打回,测试挂了失败,上下文要回到对应成员那里,这时候才需要 agent teams。 所以判断标准很简单,能隔离的先隔离,互不依赖的后台跑。要并行改代码,先用 worktrees, 只有需要共享状态依赖协调成员通信时再用 agent teams, 这里最容易误解的一点是, agent teams 多出来的不是角色名,而是协助状态。 你只是创建 back, end, friend, end, tester, reviewer 四个名字,不叫团队,那只是岗位扮演。真正的 agent teams 要有 lead, 要有 team mates, 要有共享任务列表,要知道哪个任务 pending, 哪个 in progress, 哪个 completed, 还要知道谁依赖谁依赖。没完成后面的任务不能乱跑。 团队感不来自名字,而来自信息能不能正确流动,任务能不能被阻塞和解锁,最后结果能不能统一验收。所以在并行之前,一定要先问四个问题。第一, 文件边界能不能切开?如果几个 agent 都要改同一个核心文件,那不要硬拆,先让一个主会话小部修改,再派 sub agent 做止读审查,通常更稳。 第二,信息依赖是不是来回的?如果只是帮我看安全问题, sub agent 足够,但如果后端影响前端,前端影响测试审查,还能反向打回实线,这才接近 agent teams。 第三,验收证据是什么?多? agent 并行后,每个成员都可能说自己完成了,但完成依据是什么?是 dev 测试结果类型、检查截图、日记、风险清单。如果证据不能收回,同一处 lead 的 已完成,就只是乐观担忧。 第四,权限和预算怎么收住?并行会消耗更多 token, 也会触发更多工具调用哪些文件能读,哪些文件能写,能不能读点因微能不能改,数据库迁移能不能 get push, 能不能调用外部服务,这些不能靠一句请谨慎,要提前写进边界里。 所以如果真要让 agent teams 做一个功能,不要只写创建四个 agent, 分 别做后端、前端测试和审查。更好的写法是目标是什么,本轮不做什么。每个 teammate 能改哪些文件,谁依赖谁,哪些动作允许,哪些动作禁止,最后必须交什么证据。 如果发现 scope i 修改,必须停下来说明原因,不能自行扩大范围。这才像工程写作落地,也别一上来拿核心炼炉开刀。第一步,先从 research 和 review 开始, 比如一个大 pr, 让几个 team mate 分 别只读检查、安全、性能、测试覆盖和文档,影响风险低,也能看出并行探索的价值。 第二步,再视文件边界清楚的小功能,比如一个不涉及数据库迁移的小页面,后端补接口,前端补展示测试补用力 review 做风险清单。 第三步,才考虑更长的功能开发,这时候要配合 work trees 局部测试、命令权限、规则、任务日制和人工 review, 不要指望利的自动兜住所有混乱。 一句话总结, cloud code agent teams 真正重要的不是并行开几个 agent, 而是把工程工作拆成边界清楚,权限可控、证据可回收的多个工作面。多 agent 的 难点不在数量,而在结构。 你觉得未来 coding agent 真正的瓶颈是生成代码还是拆分、隔离验证?和 review 评论区聊聊,关注我,下期继续带你拆。

这是一家首个 skill 化的视频 agent, 他 把自家工作流开源成各个类型的 skill ai 短视频。门口是泥塘里有吃的,林小满你饿疯了吧?那塘臭的狗都绕着走,狗绕着走,是狗不识货。完了,真疯了,以前懒,现在还脏。 娘,那是白的能吃吗? t v c 广告源自天性的营养,强健体魄,柔亮毛发,由内而外呵护您的爱宠 和商业旅拍。我沿着冰川的脉络行走,听见风 在经纬上抄写古老的誓言。你也可以用这个 skill 学习优秀影片里的电影语法,做个同类型的影片。传说在千年之前,混沌魔物肆虐九天。 我还总结了两个 skill 的 使用技巧。 第一招,先在 fora 选合适的 skill 跑效果。当发现这个 skill 不 能完全符合你的内容要求,我们可以创建副本,修改提示词里面的内容。第二招,我们把平时做视频的流程做成新的 skill, 在 fora 输入下面这段提示语, 他就会帮你总结你的口味、镜头节奏和影片风格。然后这些就是新的 skill 了。以前每做一个新视频都要跟 ai 解释一遍,做成 skill 他 就记住了。比如说这里我融合了十部水果短剧, skill 里面已经有他们的分镜思路。我们也不需要担心一句话的流程消耗的积分太多,我们可以随时接管 进行调整,持续去优化这一个 skill, 这样你也可以做出水果。慢剧了 三年了,我的家我回来了。大家用的都是同一个模型,能够真正拉开差距的已经不是提示语了。是谁能够提前把自己的审美训练成 skill, 你 学会了吗?我的天呐,这里还有更多 ai 玩法!


现在 ai 概念满天飞,你是不是也有点懵?一会是大模型,一会是 agent, 还有工作流 skill, 今天用普通人能听懂的话,一分钟讲清楚。先说大模型,比如 gpt 的 五点五模型、 cloud 的 opus 模型、 deepsea 模型,它们像 ai 的 大脑,最核心的能力 是理解你的问题,然后生成图文代码、方案、创意。但大模型做事的范围和连续性有限,使用场景大多是你问一句,他答一句,你要个方案,他给你生成一个。而 agent 就 不一样了, agent 像是大脑加上手,比如 codex、 cloud code, 你 给他一个目标, 他会自己拆成一系列步骤逐步执行,可以打开你本地的文件,或者调用你其他的软件。说到 agent 了, skill 也是经常提起的概念 skill, 像是你给 ai 写了一个说明书, 明确告诉他遇到某些任务要用什么格式,按什么标准来输出。比如做项目复盘的 skill, 做视频文案的 skill。 再进一步, 工作流是一个更高级的玩法,工作流其实就是你的一套固定工作流程,可以通过一些平台来搭建,来实现 ai 自动跑流程, 比如做短视频,让 ai 自动抓取灵感,生成脚本,生成视频帮你发布,特点是更加可控。总结一下,普通人学 ai 不要纠结概念,先找到自己工作里重复劳动的部分,找一个 ai 方法用起来。后续我们还会介绍更多 ai 方法和干货。

上一期我们讲了 agent, agent 是 能接任务并自己走流程的 ai 助手。那这一期就接着讲 skill。 你 可以先把 skill 理解成 agent 的 工作手册,它不是一个新模型,也不是一个外部插件,更不是自动帮你接入所有工具的开关。 skill 做的事很朴素,就是把一套重复使用的说明步骤、资料和脚本整理成一个固定包,当 a 正遇到相关任务时,就可以按这份手册来做。 在官方文档里, skill 通常会有一个核心文件叫 skill and, 你 可以把它理解成这个技能的说明书,它写清楚什么时候该起用,以及起用后应该遵循什么说明。 举个简单例子,你每次都要让 ai 写短视频,每次都要重复说,先查资料,再写术语表,再写口播,再做分镜,再配字幕,再检查画面。这套流程说一两次还行,每天说就很浪费。 这时候就可以做成一个 scale, 里面写清楚三件事,第一,什么时候该用这个 scale。 第二,用的时候要按什么步骤走。第三,需要哪些资料或脚本。 所以你可以把 scale 看成一个小目录,入口是 scale and, 旁边可以放参考资料、模板、脚本和检查清单。 a 阵不需要一开始就把全部内容塞进脑子里,而是在需要时再打开。 skill 和普通提示词最大的区别不是它更神秘,而是它更稳定。普通提示词像临时口头交代, skill 像写好的工作流程,下次再做同类任务,不用从头解释, 它和 m c p 也不是一回事。 m c p 更像让 ai 接外部系统的接口,比如数据库飞书 get help。 skill 更像告诉 ai 接到这个任务以后应该怎么干活。 一个很好判断的方法是,如果你发现自己反复复制同一段要求,反复强调同一套规则,反复让 ai 走同一个检查流程,那这件事就适合做成 scale。 但也要注意边界, scale 不是 万能按钮,它不会让模型突然变聪明,也不会替你绕过权限, 他只是把正确做事的方法提前写清楚。所以这一期你只要记住一句话, skill 就是 给 agent 用的可赋佣工作手册。下一期我们再讲 m c p。

别再纠结是 codex 还是 cloud code 了,我在实测了数十个 agent 之后发现真正决定生产力上限的不仅仅是 agent 工具,还有你手里的 skill 配置。如果你的 skill 没配对,换再强的 agent 也是在浪费时间。 所以我根据实际开发场景和我的日常使用,筛选出了这四组最核心的顶级 skill, 包含了原能力扩展、工程化开发、前端设计和内容创作。 它们完全不挑平台,不管你以后切换到哪个 agent 装上都能用。先讲最根本的两把钥匙,我称为原 skill。 你 可以把它理解成让 ai 自我进化的能力,它不负责具体的活,而是专门用来扩展 agent 的 能力边界的。不管你用 ai 做什么,这都是你第一天就应该打好的地基。 第一个是 skill creator, 来自 antropica 官方。如果你想把一套成熟的工作流变成一个新的 skill, 便于后续调用,那么选它就对了。以前想自己做个 skill 特别麻烦,得先去研究半天复杂的格式,不然可能写出来的 skill 还会报错。就算写出来了,使用效果也不一定尽如人意。 但现在有了它,你不需要去研究什么复杂的格式,也不用手动改文件,你只需要像给同事交代工作一样,用大白话把你的流程说一遍, 或者直接把你的操作手册丢给它,它就会自动帮你起草测试、反复叠带,在你自己完全不用看开发文档的情况下,一分钟就能写出一个既标准又好用的 skill。 安装和使用方式也很简单,在安装完成后,只需要在 agent 里选中 skill creator, 然后输入你的需求,和它一步步的进行沟通就好, 建议直接全职安装,这样无论你在哪个项目里,都可以随时进行调用。第二个是 find skills, 大家千万别把它当成一个普通的搜索插件, 觉得还得自己手动去查。真正的用法是你直接给 agent 派任务就行了。比如你让他帮你做个 ui 设计,要是他发现自己不会,他就会自动把你的需求拆解成 ui, 点赞你这种关键词,然后自己去全网搬救兵。他在后台连接的是 skill 点 s h 这个平台,他会自己查看哪个 skill 安装量大,哪个作者靠谱, 然后挑出最好的那个供你进行选择。在你选择好之后,他还能直接一行命令帮你安装上 skill。 creator 是 让他能自己造工具, 而 find skills 是 让它能去外面找现成的,这两个配合使用,一定能大大提升你的 agent 的 工作效率。接下来是针对具体场景的 skill。 先说软件开发,我选了这三个, superpowers, j stack 和一个前端大神的 skill, 它们针对的场景略有区别,但核心都在解决同一个问题, 就是终结那种看似逻辑闭环,实则无法落地的代码幻觉,帮你守住工程底线。第一个 superpowers, 他的杀手锏在于他把测试驱动开发这套严苛的工程标准,直接变成了 agent 必须遵守的硬规则。其实很多人刚开始用 ai 编程,最容易上手的场景就是让他写测试,而 superpowers 顺着这个逻辑直接把开发流程给正规化了, 他会强制 agent 进入一套标准的红绿重构循环,先写一个必然失败的测试,证明功能还没实现,然后写最少量的代码,让它变绿,最后再进行优化, 而且它非常稳。 agent 写完之后,它会自动开启两轮内部审计,一轮看代码,实现跟你的需求对不对的上。另一轮则专门盯着代码的质量挑毛病。这种慢思考的模式能帮你抓出很多隐藏的边界问题。 虽然看起来多花了一点点时间,但因为它第一遍就能把代码写到八十分以上,省掉了后面无数次反复抵 bug 的 时间,长期来看,反而更省 token, 也更省钱。 他的整个工作流程大致如下,首先他会拉着你做头脑风暴,把需求细节彻底磨清楚,先出一份整体的设计文档。然后他会把大任务拆成一个个几分钟就能搞定的小碎活,每个活都有明确的验证标准。接着就是让紫 a 着呢,自己去跑, 他自己写,自己查,严禁跳步,你只要在旁边关键节点确认一下就行。最后等测试全部通过了,他会把选项丢给你,是直接合并代码,还是先留着分支或者丢掉?第二个是 j stack, 作者是 y c 的 总裁 gary 谭。如果你还不知道 y c 是 什么,简单说,它就是全球最牛的创业孵化器,像 airbnb、 dropbox 这种巨头都是它孵化出来的。所以这位大佬出的工具,骨子里带的就是那种硅谷创业者的实战基因。这个工具有一点不同, 它不是那种功能单一的 skill, 而是在 agent 里内置了二十三个不同的专家角色,从 ceo、 设计师到发布工程师,你都可以通过斜杠命令直接调用,这相当于给 agent 配齐了一整支团队,让他不再是单兵作战。 为什么要搞这么多角色?因为真正做商业系统,代码行数不值钱,能跑通才值钱。有了这群专家帮你交叉审计, agent 就 能在不同的专业视角下,帮你揪出那些隐藏极深的问题。 我来向你介绍一下他的实战流程。首先,在你动手写第一行代码之前,先跑一下 office hours 命令。这就是 yc 最出名的灵魂拷问。 ai 不 会立刻写代码,而是像个严厉导师一样, 反问你六个最尖锐的问题,把不靠谱的假设先掐死。接着可以用 plan ceo review 命令,让 agent 站在 ceo 的 高度审视计划,看看有没有更优解。到了代码复合阶段, review 命令就是你的资深工程师,他不光找小 bug, 更盯着那些 c i 能过,但一上线就可能爆炸的工程隐患。另一个具有实战特色的是 q a 命令,以前 a 阵呢,只能在代码里纸上谈兵。但这个命令是真的,会打开浏览器,像真人测试员一样去点击验证, 直接把 bug 抓出来修掉。最后活干完了,直接执行 shift 命令,它会自动同步跑测试、推代码、开 pr, 整套发布动作一气呵成。该瑞谭统计过,二零二六年,它的代码产出是二零一三年的二百四十倍。这不是说 ai 写的代码行数多就是厉害,而是同样的需求,它一个人现在能顶一只小团队在干活, 就是角色分工带来的本质变化。第三个是一套前端大神 mod, 自己日常工作用的 skill, 作者是 type script 的 布道者。如果你平时前端开发比较多,那么可以试试这个。 这套工具重点解决的是人与 agent 之间沟通对不起的问题。 mark 总结过,如果没有好的引导规则, agent 写代码很容易陷入几种困境。首先是理解偏差, agent 可能根本没听懂你需要什么,或者写的太啰嗦,废话很多。然后是执行失败,好不容易写出来的代码,结果发现根本跑不通。最后是架构隐患, 虽然代码能跑,但因为缺乏整体规划,后期维护起来会非常痛苦。所以他的这套 skill 核心逻辑很简单,宁可在前期多花几分钟对其需求,也不要在后期花几个小时去处理这套低质量的代码。具体到这套 skill 里面的指令,我建议你重点关注这几个。 首先是 green 系列的命令,这就是刚才提到的拷问模式,当你提了一个模糊的需求,比如说想加个登录功能,他不会马上动手,而是会回过头来不停的拷问你细节。可能问完之后,他发现你真正想要的是 s s o 环境下的多租户登录,这就把隐患消灭在开工之前了。接着是 tree 指令, 也就是一手分诊,他会帮你把所有的任务都过一遍,分清楚轻重缓急,确保你不是在修一些细枝末节的小 bug, 而忽视了真正堵塞进度的核心问题。 最后还有一个 improve 命令,这是代码库的架构急救包,你可以每隔几天就跑一次,让 agent 站在全区的视角审视你的代码库, 找出那些以后可能会越来越难改的地方,并给出重构的建议。接下来是前端页面设计,这是最开始编程 agent 出来时,他做的最差的一个领域之一。 agent 划 u i 出来的永远都是那些固定的套路,固定的字体,蓝紫色的渐变背景、圆角卡片、特定的按钮样式。 你在网上看到的那些 ai 生成的界面,十个里面有十二个长的都一样。解决这个问题的 skill 有 两个,第一个是 fronten 的 design, optropic 官方出品,如果你受够了那种千篇一律的 ai 审美, 那他就是你的救星。以前的 ai 画 ui, 一 眼看过去全是圆角卡片加紫色渐变,就像是在共用一套廉价的模板。而 fronten 的 design 的 核心是帮你洗掉这些 ai 位, 他不是机械的套用部件,而是根据你的产品调性去推敲更有质感的纹理,或者尝试那种更有呼吸感的非对称布局。 比如你给他提一个具体的风格要求,想要一个杂志感带点硬核感的页面,他给出的方案里字体的比例和模块间的留白都会处理的很到位。有了这种对视觉细节的把控,你的 ui 就 从一眼 ai 变成了手作设计,让整个页面从单纯的能看变成了真正意义上的耐看。 第二个是 u i u x pro max, 如果说前面的工具是帮你找灵感,那这个就是直接帮你配了一个设计总监。它的特点在于,它不是在靠直觉画图,而是把专业设计的那些条条框框全部变成了底层的逻辑。比如你要做一个金融或者医疗类的界面,它会非常明确的告诉你 什么样的配色能体现安全感,什么样的字体更显专业,他甚至还会给你列出一份避坑指南,直接点出哪些设计在商业场景里是绝对不能碰的。之所以能这么专业,是因为他后台内置了一百六十多个行业的深度规则, 不管你遇到多冷门的业务,他都能拿出一套成体系的方案,从交互细节到动效走位,都给你安排的明明白白。而且他有一个很实在的功能,就是能帮你生成一套可以持久化附用的设计系统。有了这套规范,你下次再开发新项目, 直接把文件丢给 agent 就 能用,不用每次都从零开始打磨风格。而且他的上手门槛很低,无论是装插件还是用命令行,都能快速跑起来。 这两款工具的分工也很明确, fronten 的 底赞负责把画面画得出彩,而 uix pro max 负责把产品做的更专业。有了它们, ai 的 输出就再也不会有那种廉价感了。最后一类,内容创作。如果你用 agent 做内容创作,那这组宝玉老师的 skill 我 一定要强力推荐给你。 他首先解决的就是内容本身的高质量产出。比如他能帮你生成一张极具审美,完全不输专业设计师的封面图,或者把一大段枯燥的文字直接变成一张高信息密度的格式化信息图。在内容做漂亮之后,他还会顺手帮你搞定后面那些讨厌的碎活, 比如说转格式、做排版,最后还能直接一键发布到各个平台,它把从生产到发布的全流程都打通了,有了它,你就能真正实现生产和发布一体化,把所有的精力都集中在打磨好内容上。宝玉老师的这套工具箱里包含了十几个好用的 skill, 我 这里简单带大家看几个。 首先是用于生成封面图的 cover image skill, 它最强的地方在于有一套五维控制系统,从构图类型、色调方案、渲染风格,到文字排版和情绪基调, 全都能精准调优。这七十七种预设组合,能让封面彻底告别开盲盒的随机感,每一张出来的效果都像是为你的文章量身定制的专业设计。 如果你平时觉得画逻辑图、架构图很头疼,那这个信息图相关的 skill 绝对是神器。它内置了二十一种专业的信息布局,像分析原因的鱼骨图、 做转化的漏斗图、梳理层级的金字塔图应有尽有。更聪明的是,它能自动读懂你文案里的逻辑结构,直接推荐最合适的布局方案。以前要在设计软件里磨半天的信息大图, 现在只需要几秒钟就能产出出版级的可式化成果。如果你经营小红书,那么可以使用小红书 image skill, 它能将长文章自动拆解为一到十张卡通风格的轮播卡片。通过内置的十一种视觉风格和八种排版模式, 如对比、清单、流程等,可以快速生成符合平台排版习惯的图文内容。针对排版环节,这个 markdown to html 的 skill 解决的是一个非常具体的痛点,那就是在微信公众号这种不支持 markdown 的 平台上, 如何保留精致的排版。它内置了多套公众号主题,能自动处理代码、高量和数学公式。最实用的一点是,它能把文中的普通外链自动转为文末的底部引用,彻底解决了公众号里链接打不开或者被截断的尴尬。 如果你平时还有翻译文章或者精读外文资料的需求,那这个翻译 skill 就 派上用场了。它最强的地方在于 提供了一个正式出版级的模式,这个模式不是直接进行翻译,而是会走分析、翻译、校正再到润色这整整四步的流程。而且它有一个非常人性化的功能,就是能让你指定你的读者是谁。比如你告诉他你的读者是资深开发者,他就会自动省略掉那些庸愚的解释, 翻译出来的语气读起来就像是真正的圈内人写的。最后,当你把内容全部准备妥当,可以通过发布微信或者发布微博这两个 skill 来实现一键跨平台分发。 它区分了不同的分发逻辑,你可以发长文形式的文章,也可以选择只发几张图片配一段摘药的贴图模式。它把那些复杂的后台操作全都变成了 agent 里面的一行指令, 从本地草稿到最终发布,整套流程都可以在 agent 里面直接闭环完成。今天分享的这些 skill 只是个开始,其实最关键的是大家要根据自己的工作流程和使用场景,去打磨出真正适合自己的 skill。 如果觉得视频对你有帮助,别忘了点赞和。

你有没有发现最近 a i a g 呢?相关的词越来越多, token 啊, q 啊, rank, m, c, p, s, d, d, 系统看法,哈的意思,这些到底是什么呢?最重要的是它们放在一起是什么样的关系呢?这节视频我彻底的从底层到少层,彻底的让你搞懂 a i g 的 整个工程的全景图。整个 这块其实就分这五层,第一层就是工具的调用, m c p, 第四层 s, d, d, 规范驱动开发,还有哈尼斯,具体咱们一个一个看。要理解 ai 政策,必须要先理解 toky, 因为它是整个系统的最小的单位。 toky 它不是吃啊, 它也不是治,它是模型切分文本的最小单位。比如说这个 hello 是 一个 toky, 你 好,通常是两到三个 toky, 一 代代码可能需要几百个 toky。 为什么我们要关心这个 toky 呢?因为我们上下,我们窗口,因为模型每次看到的信息,它是有上限的, 比如一二八 k 的 tok, 超出的话它就会截断。还有成本的计费,因为 api 收费,它是按照 tok 收费的,就 agent 跑多久,花多少钱,它是要计算 tok 的。 还有性能瓶颈, tok 越多,响应越慢,推的成本越高,延迟越大。 接下来 skill 封装,光有 tokyo 还不够。 agent, 你 要会做事情, agent, 你 要干活的话,他要引入这个 skill 的 概念。 skill 是 什么呢?就把一个特定能力封装成可服用的一个单元。比如说 一个 agent, 他 要帮用户分析简历,分析简历,那么他需要先解析 pdf 文件,提取 pdf 里面的关键字,对比岗位的要求,输出,整个平铺,高输出,平 输出,评估报告大概是需要这四步,每一步它都需要对应的 skill。 skill 的 核心就是把复杂的这种提示词包括逻辑包装成一个文档,文件调用方不需要关注里面内容,你只要调用就可以了。 这些 script 可以 被多个 a t 的 共用,比如说你用 code 叉或者可乐库的 script, 通常是一个 markdown 文件,就类似这样的,里面描述文件包括时间代码,就 ai 在 执行前它先独占的文件按规范行动。这就是为什么我们在用可乐的写代码或者可乐叉里面,你会看到 markdown 文件。接下来 run 解锁增强生成 skill 解决了会做什么? run 解决的是知道什么,因为模型的训练它是有截止日期的,你公司内部的文档它不知道,最新的行业动态,它也不知道怎么办呢?这时候我们需要用到 剪辑增强,它的核心思路是先解锁再生成用户先提问,把问题转化成向量,因为这里面还需要用到向量模型,你就去向量库里面找相关的文档片段,然后把剪辑到的片段我们塞给 计时和用户的原始问题一块的给到模型,然后模型基于这些参考资料进行回答。这里面注意的点,你这个文档啊, 你需要拆分的,你的拆分的大小,你的文档怎么切块的,每块有多少 to k 直接影响你的剪辑的质量,还有你要选择你的项链的模型,还有你要涉及到 重排,精确排序,这样的话你回答问题更精确。接下来就是模型上文协议, m c p rank 解决了知识问题, skill 解决了能力的风霜。其实我们真正的业务里面, agent 对 你的工具太多了,比如说你要查数据库, 还有读文件,还有查第三方的服务,比如说 github, 各种 api, 每一个都要写一套对应的代码。所以说 可乐扣的团队退出了 m c p 模型参与协议,也就是说它统一了 agent 调不同服务的,你要传递数据,它的这种格式,那么 m c p 核心 就三种能力。第一种工具 agent 可以 调用函数,比如说搜索数据库,发送邮件,那么这地方我定义工具还有 资源 a 键呢,可以读数据,读文件的内容啊,数据库的记录啊,或者对应的文件。第三个就是梯子词,我们可以预定义这个梯子词,然后注入到我们对话当中,等于是我们有了整个 m c p, 有 了 m c p 之后, 作为工具提供方,只需要写一个 mcp server 就 可以了,任何支持 mcp 的 id 呢,都能直接调用这个 server, 不 需要重复开发。这是为什么?我们看到好多 rte 工具啊,它们配置里面可以加上对应的 mcp server, sdd 规格启动开发啊。 我们传统的开发需求,写代码,测试上线 s d e 这种方式思路就变了,就是需求 ok, 你 先详细的说明你的需求,先写 spc, 然后这时候 ai 会给你这个你写的这个 spec 生成队的代码,然后再人工验收,再上线。当然这个 spec 啊,不是说单纯的写几行约束就可以了,它是有相应的格式规范的。首先你要明确你这个 指标规范他的目标是干嘛的,你的输出格式,还有你的边界,还有你的测试用力,比如你的验收标准,为什么我们现在都是这种 sdd 驱动开发呢?因为 ai 生成代码的速度是非常快的,而且它很容易跑偏,所以说这个指标等于是我 教你怎么样把你的需求,把你提一次描述清楚,让 ai 的 偏差会越来越小。同一个需求,不同的人 调不同的模型,生成内容可能不一样,那么我尽量的让同一个人,同一个需求,不同的人调不同的模型生成是一样的内容。 所以你看一下这种可乐扣的或者扣的叉,他们都是先读这种史派克,然后再分解内容,再逐步实现你验收就可以了。最后新出来的概念,哈密斯,我们传统的开发哈,你所有的项目开完之后,你肯定要测试的,你在写代码过程中,我们要写测试单元,对吧?你先测试输入输出,看符不符合我的规范。 同样的,我们做 edit 也是一样的,因为模型的输出是概率性的,每次跑的结果可能不一样,那么我们怎么撤呢?所以它就出现了这个 hash, 它其实就是解决你一个测试的问题,它里面有这种测试的工具机,覆盖各种输入场景,包括这种边界。还有评估模型,就评估你生成的准不准确,够不够好,合不合适。 还有梯子词,你修改了一个梯子词,有没有影响到之前的正常 case? 还有整个 int 多 int 协助的时候,你 a 调 b, b 调 c, 整条链路的输出是不是符合我们的预期?就一个没有哈尼斯的这种 int 的 项目不敢轻易上线的, 有可能说 ok, 你 今天功能好好的,可能明天因为你改了一个梯子词,改了一句话,突然就不行了。比如说这整个,它是一整套体系的整个,你可以看一下这个 tokin 其实是 d g, 再到下面呢 c q rank, 再到标准化接口,再到我们驱动开发,再到焊点结束,它是层层递进的一个关系。学东西的时候就像我一样,大家一定要什么形成一个知识点,而不是说单独去学某一个概念,单独学你有可能会忘,我们要系统化的去学。