大家好,今天给大家讲一下 skill, 然后呢,我主要是通过一个实际的例子给大家讲一个 skill 是 如何运转的, skill 是 什么?以及 skill 和 mcp function call 的 含义。然后呢,一会我会给大家讲一下具体的实际的例子。 先说一下啊, skill 是 什么 skill? 它其实是一个啊,一些功能的组合吧,然后呢,它其实封装到一起去,呃,完成一个即插即用的这么一个功能。 嗯,那为什么会引入几个问题?第一个问题就是上下文爆炸与 token 的 成本,那其实呢,之前呢,我们把所有的功能都封装到一个 system prompt 里边,这样的话呢,又带来两个问题,第一个就是 token 爆炸成本很高,第二个呢就是 system prompt 很 很多了,之后呢, 指令的可执行就降低了。第二就是功能不可移植性,现在我们改成 skill 的 形式呢,每一个文件夹就是一个 skill, 它即插即用。 第三个呢,其实就是复杂任务承载单一,现在我们分成多个,之后呢,也是每个可以走独自执行自己的脚本与资源。嗯,这是一个 skill 的 结构, 一个 skill 就是 一个技能,我们把一个技能封装到一起叫 skill, 其实我们可以有多个 skill, 那 这是其中一个 skill。 skill 里边呢,首先是一个 skill 点 m d, 这个是最最最重要的是是 q r 的, 其他的都是 optional, 对, 然后呢啊,其他还有些脚本之之类的,你可以用也可以不用。嗯 嗯,这个是必须填写的,其中呢 skill 的 里边呢,它包含样原原数据的格式和 markdown 的 正文。嗯,从这可以看到这是一个具体的 skill, 然后下面呢我们其实是会,呃,会有一个正式的例子,专门叫健身课销售的一个场景。 嗯,然后呃比如说上面这这部分东西呢,其实就是样 亚格式,这里边呢有 name, description 啊,这两个其实没那么重要,最主要是 name 和 description, 这个呢是里边会有一个方式 call 的 一个 感觉,就是具体的一个调用函数,它自己去判断。当比如说当查询到呃问到呃健身课教练剩余名额的时候呢, 呃,其实呢它就会自动的调用这个函数。嗯,下面的是 markdown, markdown 就 比较大家都比较属于他角色定位啊,你是一个什么健身房的顾问,对吗?然后你最终的目的呢?其实是为了让用户去买你的课。嗯, skill 的 亮点呢?其实第一个呢就是说 它首先呢是渐进式的第一步呢,只只解锁原数据,什么意思呢?就是说你比如说以这个例子为例,它下面 skill 下面有三个文件夹,就是有三个 skill, 三个 skill 每个下面都有一个 skill 点 m d, 但是它每次加载只加载这部分东西,下面东西不加载, 这下面都不加载, 这个也是只加载,只加载这么多东西,下面都不加载。它通过这上面去做路由,尤其是通过 description 去做路由,路完油之后,比如说确定要走这个了,然后再加载这个,这就叫渐进式加载, 再回到这儿,对,这叫渐进式加载,加载完了以后再去执行。对,嗯,然后具体给大家讲一个例子啊,这个是健身课的销售,网上有一个机器人专门做教健身课的一个销售, 嗯,其实呢我们分了三块,第一块呢就是说啊,健身课的推荐告诉你啊,介绍私教啊,体验课啊,以及排气啊,价格呀之类的,对吗?第二个呢就是化解你的顾虑, 就比如说,呃,你有价,觉得太贵了,时间不 ok 啊,社恐啊,或者说对比其他家的一些优惠啊之类的,他就是做意义的处理,就是意义就是不同意义的处理,对不同意见的处理。最后一块呢,其实就做收口,然后最终是让你给你签单的这个地方就是要下单啊之类的, 然后我们看一个具体的例子吧,大家看到了吗?这个其实就是一个 project, 就是 一个啊具体的 skill 啊,接这个是 mer skill second project 啊,然后呢下面呢,其实有三个 skill, 对,那那大家一定会很好奇,那 skill 的 话呢?它其实,呃,既然刚才提到了用这个去做路由,那它路由具体是怎么做的呢?啊,其实这个也主要是给大家去魅一下 这个呢,其实如果说你直接调用 cloud 里边的 skill 的 话,其实它如何路由你是压根看不到的,那为了可控呢,你就得写出来。对,我下面给大家写出来了, 具体呢是这样做路由的可以看到哈,这样你就说你是一个啊 skill skill 路由器负责为每个用户选择一个最合适的 skill, 对 吧?然后当下面是当下 skill 的 列表,每个 skill 表只能从某列表中内幕,内幕中列选,那么这个 skill block 是 什么呢? skill block 就是 这三个 skill 的 每一个的这个部分合到一起叫三个 skill skill block, 那 他就去会做 skill, 但是呢, skill 呢?也有一个问题,就是他有可能会失败,那怎么办呢?我们完了,我防止他失败呢?其实做了这么件事情,做了一个关键词兜底, 如果说这个,你看 l m 路由未返回有效的内容,那就用关键词兜底,就用这个这个去做我们的关键词的兜底了。 啊。关键词兜底呢,其实就是里边的关键词里边一旦包含了一些呃相关的,它就会去帮你去路由到这个这个 skill 下面去。嗯,那我们具体看一下,呃,具体我的执行, 嗯,比如刚开始呢,其实这儿可以看到你,你可以说一个问题,说,啊,你们健身房一般课程有哪些?私教怎么收费?哎,这其实就是它的思考, 他首先做路由 skill, 看路由原始输出,他,你你,你问的是私教内容,这个属于技能推荐,所以放到了 course recommendation 下面。嗯,然后呢,他这是他的回复, 护肤完之后你接着问,你说体验课还有几个名额,他又做原始路由,他说用户问的是什么,又符合 costcommodation, 这个时候呢,就直接调用了咱们的 function 方法了,调用了咱们的 function call 了,也就是说在这个里边,这个里边的这个方法它会调用。 对,这个方法在哪里呢?它其实定义到自己的 script 下面这个里边去。目前呢,其实我写的是,我写的是让它去呃随机去生成一个, 生成一个随机数,生成一个几到几之间的随机数就可以了。嗯,三到二十五之间的一个随机数,然后返回,这是做了个模拟, 然后再回到这儿,然后我就说,哎呀,你这个私教太贵了,我觉得不划算。然后呢,他就换到第二个 skill 里边去了,他觉得用户在将私教课与竞品做对比,明确表达了贵和不划算的意义,符合意义处理,所以这个地方就做意义处,他就到这里边了。 然后他就回复了一堆说助手认为怎么怎么,到时候可以把助手去掉,我非常理解你的想法,这个其实也也可以让他短一些。然后呢,我就说,我说我回去商量一下,他就说用户表示要回去商量一下,属于销售决策后期跟进的挖虚场景, 那你需要再考虑挖需的描述,他就放到第三个 skill 里边,叫 celltalk, 他 怎么回复?他说好理解,你去商量一下,这是好的选择,方便问一下你在商量哪方面呢?其实就是在挖需嘛,挖需就是说挖掘用户的需求,搞清楚它到底是因为什么。 对,然后呢?这个呢,我其实还写了一个,呃 redmi, 然后里边有项目背景,然后如何使用,如何执行都有,对大家感兴趣可以下载。 呃,如果大家对这个呃具体的这个实力感兴趣呢,可以在评论区回复我,然后我会私信发给大家。呃,大家如果觉得我讲的比较感兴趣,有用可以关注我一下,我叫勇敢杜兰特,谢谢大家。
粉丝3634获赞1.5万

skills 确实好用,你有没有发现自己花了很大功夫写的 skills? cloud code 有 时候根本不用,你写得很认真,每个步骤都理清楚了,结果他跑任务的时候自顾自的干,你的 skills 就 那么静静地躺在那里,像从来没存在过一样。 lincoln 最近把这件事测出来了,他们给自己的工具写 skills, cloud code 全程一次都没调用,但同时他们发现有 skills 没用,是根本没被用上。 lanchain 搭了个评测管道,思路很简单,先跑没有 skills 的 基线,再跑有 skills 的 版本,对比完成率, 结果出来,没有 skills 完成率百分之九。有了 skills 且正确调用百分之八十二,这不是小涨,这是重生币。但这里有个大坑, skills 不是 你写了就自动有用。他们明确告诉 cloud code 去找 skills, 调用率也只到百分之七十三次里还有一次 agent 直接当 skills 不 存在,自己上了。 所以问题的核心不是我写的 skills 质量够不够好,而是它到底有没有在用我写的 skills。 这两件事你得分开看起 long chain, 找到了两个根本原因。说出来你可能会心一笑。第一个 skills 太多了, agent 选错了二十个相似的 skills 放进去, cloud code 会挑错,缩到十二个就能稳定选对。 就像菜单太长,服务员不知道推荐什么,随手一点点了。到最不合适的十二个,大概是上限超过了就开始乱。第二个 skills 放错地方了, skills 是 动态解锁的,但 agent 的 流程有时候直接跳过解锁,你的 skills 就 这么被晾在那里,没人请他出场? 最可靠的位置是 agents md 和 cloud md 这两个文件, agent 它启动必读,不会漏。你要把什么时候用哪个 skill 写在这里,不能只靠 skill 等着被人发现,那就像手册锁进档案柜,还没告诉任何人里面有什么。 还有个意外发现, skill 内容格式的影响其实没那么大,真正决定 agent 调不调,用的是 skill 的 名字和描述够不够准,这才是关键。 三条结论, luncheon 踩了一堆坑才总结出来的。第一, skills 总数控制在十二以内,相似的合并,别让 agent 在 一堆相似选项里迷路。第二,使用指导写进 agents md 或 clod md 不要只靠 skill 自己等着被发现。 第三,用 xml 标签给 skill 内部分 section, 可以 单独替换某一段最有效,不用每次改了全扔重来。 还有条零号。结论也是最关键的。先测基线,你不知道没有 skills 时完成率是多少,就没法知道加了 skills 有 没有涨。 lincoln 要不是做了这部,还以为自己写的 skills 挺管用的呢。 你写的 skills 有 没有被用上?测一下就知道了。 lincoln 测出来百分之九和百分之八十二差了九倍,不是 skills 没用,是没被用上 skills 总数别超过十二。使用指导进 agents md 先测基线,关注我,每天一个技术深浅。

通过前面的学习,我们已经学习到了如何从 crawl harbor 社区去部署一个我们所需要的 scale 啊。今天呢,我们就要来通过一个手搓我们自己手搓的一个 scale 来学习一下 scale 在 open crawl 的 内部的一个工作流程。大家看一下,这是我自己写的一个 scale, 这个 scale 的 工作内容就是说将我们发送给他的数字转大写,那这边我给他发送了一个三六八点六转大写,然后他返回给我们一个将数字转换成人民币汉字大写的一个结果。 好了,我们一起来看一下这个 scale 的 文件结构。我们先从 manifest 的 这个文件开始,这个文件呢是 opencloud 的 入口文件,它决定了这个 scale 叫什么名字,然后这个 scale 是 如何使用的。首先 opencloud 会去读取这个 scale 的 名字,对不对?那么第二个会来读取这个 scale 的 一些简介,然后会来通过 interpret 来看这个 scale 是 如何工作的。 那么第一个你看这个地方,我看可以看到 interpret 指向了我们的这个 py 脚本文件, 在这个脚本文件里面又后面又跟这个冒号指向了这个脚本文件里面里面的一个函数,就是这个函数,它通过调用这个函数来执行工作,然后在这个函数的内部呢,我们先获取了上面这个 number two rmb upper 的 这个函数来获取结果 啊,这就是它输出的结果这个地方,然后呢它将执行的结果 return, 也就是返回给我们, 就是这个返回给我们。好,这是第一个。那么第二个就是 sigma 的 这个,这个呢就是决定了这个,呃 scale 它的 执行方式是什么?我们可以看一下 sigma 的 节省,这里面就决定了最主要的,我们可以看一下这个 amount 这个参数,这个参数就告诉了这是我们所需要的, 所需要传入的参数是什么,其中参数的类型我们这里说的是字母串,那么这关于这个参数的一个简介,然后呢,这是一个 required amount, 这个就告诉 amount 是 必须的,不能空,如果为空,这个 scale 就 调用不成功的 好了,这是最重要的三个文件,一个是我们的程序执行主体,由它来完成如何去进行工作,就点 py 文件,当然也可以去试其他的任何脚本文件也是可以的。 那么 manifest 这个是让 open color 来知道如何这个 scale 是 如何工作的,这个 scale 包括有哪些功能可以做什么都是由它来操作的。然后这个 scale 是 一个说明文件,它告诉我们人类 这个 skill 可以 做什么,这是很重要的一个东西,包括下面我们可以挑一点重点的去看一下,这上面是一个执行方式使用方法是怎么使用的。然后最下面一个关键触发词, 当我们给他的东西里面包含这些的时候,他会进行一个匹配,如果匹配成功,他就会把这个就会这个 skill 就 准备开始工作了。 在前面我们简单地说明了一下,当 open color 调用 scale 的 时候, scale 去如何工作的。就深入到另外一个问题,就是说 open color 是 如何知道完成某项工作的时候是去调用哪一个 scale, 或者是调不调用 scale 去完成工作, 那么这是你就深入到另外一个话题了,就是 open color 与大模型之间的沟通一个问题,当用户输入一二三四五点二转大写这么一条信息的时候, open color 它首先会筛选它本地的所有的模型去进行 一个初略的匹配,那么匹配的主要的文件呢?是哪些?是 manifest 里面中的 exclamation, 这个里面的内容进行匹配,包括 sigma 点 jason 的 匹配,还有 scale 点 md 中间的信息进行匹配,比如像我们刚刚展示了,我们可以看一下, 我们可以看一下这一个触发关键词,当这些关键词匹配上的时候,那么它就会将匹配到的 scale 的 信息发送给 大模型,那么发送的信息包括用户的输入,一二三四五点二转大写这个用输入信息还有 test 的 描述,描述信息,记住并不是说整个内容全都发送给大模型,大模型收到过后 就会进行判断,当大模型去进行判断,这个工具就是这个 scale 和用户想要的结果是否匹配,如果不匹配的话,它最终它就直接输出一个我们想要的结果给我们交给 open curl, open curl 再返回给我们。那么还有种情况就是匹配到了, 就是说大模型判断为用户想要的结果和这个 scale 功能匹配的时候,那么大模型就会传一个 toker 的 一个信息给我们的 open curl, 大 模型 里面就包含了用户的一些信息,大家这里你看,大家看一下,这里就直接传入了一二三四五点二这么一个信息给我们的 open curl, open curl 呢?再去调用我们的呃 scale, 要用 scale 和 scale 再把信息给让 open curl 传输给大模型,大模型将我们的结果进行加工过后 再传输给 open curl, open curl 最终返回我们的结果。那么这里听起来有一点绕,其实也很简单,我给大家看下这个地方,大家就明白了。大家可以看下这个地方, 我给他 open color 发送的消息是五三八点六转大件,那么这个时候这条信息会直接在这个地方, 而 open color 将用户输入直接发送给大模型,这个地方会。大模型过后,当匹配到这个 scale 的 时候,那么它会提炼结果,将 它实际上得到的输入是它将三五三六八点六这个字母串,把后面的转大写几个字直接去去掉了,然后发送给 open claw, open claw, 然后再将五三六八点六这条信息发送给 这个 scale 去工作,当 scale 完成的时候,它就将这个 scale 生成的结果信息再交给 open core, open core 交给大模型,大模型 将加工后的输出再发送给 open core, open core 再发送给我们。这也就是为什么这条信息为什么会有一条五三六八点六元等于五千三百六 十八元六角这条信息,而不是直接给我们的。我们也就是说在整个过程中,其实 open 格勒和大模型进行交互了,其实是交互了很多次的,所以这就是为什么我们一个简单的工作会消耗很多的 talking 的 一个原因,就在这个地方。

面试官问, coskill 这种外部工具真的能实现大模型的无限上下文吗?为什么?哎,各位同学,听到这个问题,你可千万别只回答一个能或者不能。 这道题背后考的其实是你对大模型底层架构和工程化落地的深度理解。 ai 大 模型学习资料可以在主页置顶群里。大家好,我是彭宇,咱们先给结论啊,从模型原生的底层逻辑来看, 绝对的无限是不存在的。为什么呢?大家可以跟我一起想一下。现在的模型大多是 transformer 架构,它的注意力机制计算复杂度是大 o n 的 二次方,也就是二次方增长。这意味着什么?意味着你输入的 token 每增加一倍,计算量和显存占用就是翻倍再翻倍。所以不管你外挂什么 skill 模型,最终那个负责处理信息的大脑,也就是它的上下文窗口。受限于物理显存和算力,它永远有一个物理上限。 这就像咱们人类,脑容量再大,一次性盯住的信息也是有限的。但是如果面试你只说不能,那你就离挂掉不远了。在应用层, 我们完全可以靠 skill 模拟出无限上下文的体验。大家看我屏幕上这张架构图,这里我用了一个非常经典的操作系统隐喻,我们可以把大模型看成是电脑的上下文窗口看成是内存。而所谓的 skill, 比如解锁搜索数据库,其实就是硬盘。 当内存装不下的时候,我们会怎么办?对,换页,通过 skill 把暂不需要的信息存到硬盘里,需要的时候再精准的捞回内存。这呢就是目前所有无限上下文方案的本质,那既然有方案了,是不是就万事大吉了?大家思考一个问题,如果你在读一本一百万字的小说, 我把小说切成一千个碎片塞进数据库。现在我问你,这本小说的核心思想是什么?这时候你那个负责搜索的 skill 还能精准召回吗? 恐怕很难吧,他可能只给你找回了几个具体的片段。这就是 skill 方案在工程落地时的第一个大坑,见数不见零。 咱们结合架构图里的四个解决方案,一个个拆解。第一个,大局视野缺失。刚才说了切片剪缩会丢掉大局感,那怎么办?现在的顶尖方案有两个,一个是搞层次化摘要,就像看书有目录,有章节大纲一样,我们用 skill 地归地给文档写摘要,大问题看摘要术, 小问题搜细节快。另一个大招是引入知识图谱,也就是 graphreg, 提前把实体关系理清楚,并生成社区摘要。这样不管是搜细节还是问宏观,都能解决宏观的问题。第二个,多跳推理断裂。这在面试中非常高频。比如用户问 a 的 邻居的二舅是谁, 你的 skill 第一次可能只找回了 a 的 邻居是谁?逻辑断了。这时候你需要赋予模型动态规划的能力,也就是咱们常说的 agent 模式。 模型得先搜一下,读完发现信息不够,再主动发起第二次搜索。还有 selfask 机制引导模型,把大问题拆成小问题,逐个调用 skill 击破。 第三个,羽翼红勾。有时候用户问的和文档里写的字面上完全不一样,羽翼解锁也会失灵。解决方案就是查询词改写和混合检所。在调 skill 之前,先让模型把问题多变出几个花样来,同时用关键词解锁补位,最后再加一层重排,确保未给模型的信息是最准的。 第四个,延迟和成本不停地调 skill, 反复读长文本,那 toki 烧起来可是肉疼啊,响应也慢。这里咱们有两个策略,首先是原生长窗口与技能的混合架构, 别死磕 skill, 高频的重要的数据直接塞进模型原生的超长窗口里,只有海量冷数据才调用 skill。 其次就是黑科技上下文缓存,对于那种经常要读的文档, 我们直接把它的计算状态缓存起来,下次用的时候秒开,不仅快,还省钱。好了,讲到这里,咱们给面试官一个最有深度的总结, 大家看最后的这个总结区, coskill 实现无限上下文,其实是在构建一套分层记忆系统。未来的大模型一定不是盲目追求那个无限长的原声窗口,而是像咱们人类大脑一样分为,第一,快速记忆,也就是极大的原声上下文, 负责当前正在思考的高频逻辑。第二,慢速记忆,也就是靠各种 skill 支撑的外部知识库,负责海量的背景信息, 这种原声基座加上智能调度 skill 的 异构系统,才是实现无限上下文的终极答案。所以以后再遇到这种问题,你就把操作系统引诱和这四个工程挑战甩给面试官,保准他会对你刮目相看。

大家好,上一次呢给大家分享了大模型是怎么去解决他自己原本不擅长的技术的这个问题的。 那第一种方式呢?呃,就是通过预训练阶段,随着互联网上面相关的语料变得越来越丰富,那有一些问题和答案在互联网上也出现的越来越多,那大模型呢,他就能够有更大的概率去回答正确这个问题,那并不是因为这个大模型变得更能去计算这个数量了, 而是呢在互联网上有更多相关的问题以及它对应的这个答案了,那大模型能更好的去把它对应起来。那这是上一次分享的第一种啊,今天就给大家分享呃,第二种和第三种这个方式是我个人认为也可以去解决这个大模型的这个,呃两种这个方式,这两种方式都是在微调阶段去进行的, 那微调阶段做的事情呢,就是去帮助大模型去标识出呃最高质量的这个呃回答的这个内容,或者是人为去写一些高质量的一问一答这个内容,把它形成一个训练级。然后呢这个训练级也是通过这个 transformer 的 整个这个模型训练的这个东西再重新丢给 大模型去训练训练出来,然后呢大模型就能够呃知道这个训练集里面内容了。所以第二个方式呢,就是通过在训练集里面直接告诉大模型他的这个相关这个问题的解析思路,或者是他答案应该是什么 啊?比如说如果是计算一个单词里面某一个字母有多少,那这个时候就可以直接在训练机里面去告诉大模型,你可以,你需要把这个东西拆成一个一个字母,然后再去做什么样的一个事情,就告诉他方法。或者说对于像 strawberry 这样的问题,被大家呃问的非常多的直接告诉他这个答案是什么, 但这个就是在微调阶段可以做的第一种方式,但这样做呢,他会还是会有一个情况啊,就是他解决了当下的这个问题,但是呢他并没有根本上去解决大模型呃不擅长去计数这个问题,所以说一旦我换一个更复杂的要去计数的这个问题,那大模型可能会又打不出来了 啊,比如说啊,让让大模型去计算我后面这个地方有多少个点,那对大模型其实对他来说就是难的,因为这个东西,呃最核心其实就是大模型他不擅长去做技术,那就算他答对了,他也是基于这个 token 的 这个概率去 这个关联。对了,那有没有一种方式是可以去帮助大模型去解决这样的一个问题呢?就这是他的弱项。那 有一个东西,虽然说计数是大模型的弱项,但是呢计数和计算是代码的强项,而大模型能做的一个事情呢,它能理解语义,它能把各种各样 token 拼在一起,也就是说大模型是擅长去把各种各样代码结构粘进来的, 但是呢,他不擅长去做中间的这个计算过程,而代码擅长去做中间的计算过程。那有没有一种方式就是让大模型和代码去做一个结合,然后大模型去拿到这个代码生成的这个结果,然后再去做后续的这个输出呢?那后面这个地方啊,我也截了一张图,这个是一个, 这样是一个例子,那也是呢,让这个问这个大模型下面有多少个点,那直接让大模型去回答的时候,他会告诉你有一百六十一个,但是你让大模型去写代码去解决的时候,那写完代码之后去计算,其实最终是有一百七十七个点。 那这个里面我觉得,呃一个非常重要的一个点,就是我们要知道说大模型他不擅长做什么事情,那比如说大模型就是不擅长去做计数的, 而如果说碰到这样的问题我们要去解决的时候,实际上呢是可以让大模型去用代码来去做解决的。那这个里面呢,大模型是怎么样去掉这个代码工具的呢?那在最开始的时候,因为大模型它本质上它就是只有 token, 它只认这个 token 这个 id。 呃,那大模型它是怎么去让这个大模型去写代码的呢? 那开始的这个呃大模型的场上肯定也面临着这个问题,那他们的解决的这个方式呢,其实就是在大模型它要去写代码的时候,会在这个呃微调这个阶段去教这个大模型一些特殊的 token id, 那 原来的这个 token id, 比如说它是一万零两百七十七个,那这个时候我就会再去加一万零两百七十八,它可能就是让 code star 啊,那这个对应的可能就是要开始写代码, 那它就会教这个 gpt, 你 碰到了代码这个词的时候,要要关,要关联的那个相关的这个 token id 可能是一万零两百七十八啊,假设,那这个时候 gpt 它呃要输出对应的这个,呃一万零两百七十八的时候,它就知道后面应该是要去开始写代码了。 那通过这样的这个一些特殊的这个 token id, 把它内嵌到原有的那个,呃 token id 的 那个体系里面去,让大魔镜知道说,哦,这个大这个 token id 开始是要开始写代码了,呃,然后在这个地方再去做一些特殊的一个处理,但是呢,嗯,这个地方其实还可以去做继续的衍生。那写代码呢?只是碰到了第一种场景, 我们也非常常见的。第二种就是去做搜索,那大模型它的预训练,它可能是基于去年的数据,它的数据不是最新的,那要增加它的这个可用性,那它必须要去做。呃,有,有的时候是需要去互联网上去搜索的, 那这个时候其实搜索也可以也用这样的模式,那我就再给它加一个特殊的这个 token id, 那 原来是一万零两百七十八,那这个搜索可能就是一万零两百七十九, 那后面呢?可能又来了一个需求,让他去查天气,然后后面又来,然后又往后面加这个 token id, 但这样的话这个无休无止的这个需求就会导致无休无止了,这个 token id 一 直不断地在往后特殊的这个 token id 往后加。所以说呢, 后面就想了一个办法,那把这所有的这些的 token id 能不能把它封装成一个更高维度的一个东西?那,那这个时候能不能说直接把这个地方改成 tour 杠 star, tour 杠 end, 那 它就是一个统一的一个,那你中间的这个内容才去写,你是要去呃调代码,你是要调搜索,你是要去调天气,还是你是要去干什么?那这个东西呢?就衍生出来了一个新的东西,就是 function core 或者是 tools。 因为这个方程库或者 tools 一 般是呃在不同的模型里面,它的叫法不一样,但是它要做的事情是一样的,就是当模型它很多时候它自己不是万能的,它需要借助外界的一些东西来弥补自己的不足,来填充自己的信息,那这个时候呢,我们就把它封装成了一个标准的 一个接口啊,像 openai, 它就把它封装成了 function core, 它是一个接口这种形式来去供外界的第三方应用来去做调用。 但是这个地方呃方向括,虽然它又临时解决了这个问题,解决了大模型自身去对外调用的问题,但是呢,这个时候又会有一个新的问题出来了,那这个新的问题呢?就是 比如说我有一个查天气的这个应用,但是我查天气这个应用跟叉 cpt 对 接了之后啊用这个方向括去做对接了,但是呢,我用跟 jimmy, 我 可能是用要用 tools 这个这个函数去跟它对接,那我呃用,比如说用逗包,可能又是一个新的这个接口,那也就说同样是我要干一个查天气这件事儿, 那我去跟叉 c p d 去对接的时候又是 a, 我 去跟 jam 来对接的时候,又是又要写一遍我的这个适配代码,我要去跟豆包适配的时候,我又要适配一遍代码,那这种时候呢,就对于这个呃应用端来说就会非常的麻烦,于是呢就衍生出来了一个东西,就是 m c p, m c p 呢,它解决了一个东西,就是它就是个中间商,那它这边呢,接的是大模型,这边呢接的是各种各样的应用, 那也就说你这边的应用,你是一个查天气的应用,你是一个搜索的一个应用,那你都接到这个 m c p 里面来,然后这个 m c p 呢,它作为一个中间商,帮你去转换一下,这边能接大模型 a, 接大模型 b, 接大模型 c 都是可以的,你就只需要去写一遍你的这个 呃搜索的这个代码,那这边呢,你去接豆包也可以,你去接切 ppt 也可以,那这个就是 m c p 干的一件事情,实际上他们要解决的问题是相同的一个问题, 而 mcp 呢,它也有它自己的一个问题。那现在呢,又衍生出来了我们非常火爆。另外一个东西就是 skills, 那 skills 它就有点类似于一个包含了多个 mcp 的 一个说明书。那具体的这个里面相关的这个内容呢,我就下一次再跟大家进行一个分享。

不知道大家有没有跟我一样好奇, sku 它底层是怎么实现的啊?我们今天就一起来研究一下,研究对象呢,就是这 cloud code。 首先呢,我自己之前尝试过抓包,但是呢, cloud code 用的这个 http 协议呢,它是双向验证的,所以呢,我们很难用中间人去抓他的包,所以后来我想了想,索性呢,我把它的这个网关地址改一下,因为它不是可以给它配置成 http 的, 然后我也试了一下火山,它就支持 http, 所以呢,把它配成 http 就 好抓了,然后接下来就好办了哈,我们为了抓包,先把代理设上这个八八,八八呢,就是抓包工具的端口,然后把抓包工具起来好,然后呢,我们把 cloud 起来, 可以打开,有请求了,我们把它先关一下,然后 mod, 我 把模型切换一下。 你好,随便说一个,你好好,大家看有请求了,好,我把这个请求的 jason 请求体抓出来,消息,消息内容我们不细看了哈,然后系统提示词, 然后兔子,这是 function 的 模块,大家看啊,我们一个一个看啊, text text output 背式 logo, 这不看啥呢? grape 推出计划模式, read edit 行键 no book edit web fight, 这个不知道干啥。 to do right web search, 应该是联网搜索 q shell, 这应该是杀死一个 shell, 传一个 shell id ask you a question skill, 大家看,这有一个 skill, 后边 enter plan 进入一个计划模式,相当于倒数第二个 function 提供的名字叫 skill。 然后呢,我们把它描述漏出来看一下, 它现在是在字幕串里,不好看,我们把它输出出来。好,我把它复制出来啊, 翻一下,这是 cloud code 提供的一个名叫 skill 的 function 给大模型调用,然后它的描述是这样的,大家看啊, 我们就不细看了,这里面有一些,比如说这个,当某个技能相关时,你必须立即调用此工具作为第一个操作。然后就是一些重要的一些说明吧,主要是这打开从这开始 可用 skill 就 可用的技能。这是一个这马克当格式, excel 的, pdf 的, ppt 的, 然后 m, c, p, build 的, 都是我本机现有的一些 skill。 相当于它在传给大模型的这个请求里边,它构建 skill 的 这个 function 的 描述的时候,它就会把 skill 文件夹里的那些 skill 的 头里边的 description 描述拿出来,然后拼到这个可用的 skills 里边, 这样的话,下边那些东西他还没有拼进来,等我们再调用某一个的时候,比如 ppt, 那 他会把 ppt 详细的思路再二次的再传给他。所以现在看来,说白了, skill 它底层也是一个 function calling, 只是呢,它这个 function 名叫 skill, 然后描述做了一些动态的拼接,像这样。最后哈,我想再感叹一下,大家看,就是我在页面上只是说了一个你好,两个两个字,但是他底层发了这么多东西, 这还不包含回复,这都是需要消耗 token 的, 所以 token 对 我们来说是真的越来越重要了。而且大家别忘了, 随着对话轮数的增加,它这些历史的聊天记录必须带着,因为大模型是无状态的嘛,所以呢,随着我们对话的回合不断增加,它这个 token 的 消耗真的是指数级增长,所以未来 token 对 我们来说真的是越来越重要了。

兄弟们,如果你的小龙虾不会主动给你发消息,那你的虾等于养废了。兄弟们,下午一点多的时候,我的虾噔噔噔连续给我发了条好几条消息,我拿起手机一看,我靠,他提示我的股票跌了好多。后面事大家都知道了,今天的股票就是暴跌,但这不是重点, 重点是大家有没有发现,我没有给我的虾发任何一条消息,是他在主动给我发消息,原因是我配置了一个无人之手任务,让他二十四小时不间断的去帮我盯盘,看我账户里的股票,一旦出现一些大的波动,就赶快提示我,然后帮我分析是该买入还是卖出。 ok, 那 不仅如此,他还时刻帮我盯着我比较关注的 ai 活动或者政策怎么说?兄弟们, 自从给我的虾配好这些任务之后,我已经把早上拉屎的时间从刷抖音变成了刷龙虾的简报了。有这种秘书的感觉,你就别提多爽。作为杭州养虾王,今天也不藏着掖着了,我就把我这套如何给你的虾配置好,无人值守的二十四小时执行任务,给大家做一个保姆级的教程,让你的虾也能不停的干活,然后给你主动发消息, 其实原理特别简单,让你的龙虾主动找你,核心就三件事,第一,配置一个触发器。第二,一股需要一个稳定的信息来源。第三,我们需要一个通知龙虾的工具。这我们一个一个来说。 首先触发器很好理解,你希望当某一个条件成立的时候开始干某件事,这就是触发器。 其实我们每天跟小龙虾对话,这也是种触发,只不过我们的触发条件是,当我给龙虾发消息的时候,龙虾要回我消息,那此时我们的需求变了,我是不是可以把这个条件改成帮我监控某一只股票的价格, 当这个价格达到某一个预值的时候,让龙虾分析原因,并且把结果推送给我。接下来我们的问题就是如何实现一个触发器,那你可以用小龙虾本身的 content 命令执行。那我们之前也教过大家,在龙虾里配一,在小龙虾里配一个定时任务,让他每天帮你搜索新闻。这件事并不难,咱 们今天教你一个新的方式,你除了用它的定时任务,你还得用脚本来实现。这里有一个核心的原则要告诉大家,如果能这个事能用脚本来解决,那就不要用 a 阵来解决。 那到此,我们的问题是不是就变成了如何写的一个脚本?兄弟们,你不会写脚本没关系,麦当已经把这个能力封装成了一个 skill, 你 只需要把这个文件丢给他,装进你的虾,告诉他你想监控什么事就好。事情一下就变得简单了很多。 好了,兄弟们,触发器搞定了,接下来一步非常关键,我的龙虾如何准确、精准、实时地拿到我这个股票的信息?稳定的信息来源是我们做无人之手任务的关键。那我再教大家一个技能,你直接拉到这个地址,把 q virus 的 一句话执行命令复制下来,丢给你的龙虾,让它去学习。 那 q virus 这个东西是什么?你可以把它理解为它是专门给 a i a 阵准备的 api 聚合器。 拿到了这个聚合器,你的龙虾需要拉各种外部数据,比如说金融行情,资讯、新闻、天气或者体育赛事, 那这些数据 qs 基本都给你封装好了,你不需要一个个的去找这些 api, 在 qwares 里,我甚至还找到了 cds 二点零的 api, 也就是说你用它生除生视频,理论上也是可以的。那今天这个任务中,我用到的这个 api 叫 fmp, 它是专门获取股票详情的 api, 实时数据成功率基本百分之百, 当你安装好了之后,你的虾就能直接调用这里面所有的数据接口了。金融赛事,新闻是加密货币行情,一千多个来源统一管理,你不用再碰任何乱七八糟的 屁了。兄弟们,两个必备的 skill 我 都装好了,那接下来就是告诉大家我们刚才这个定时任务怎么实现的。当你把我的 skill 文档喂给他,他应该已经学会了这个 openclock monitor 的 技能,那此时此刻你只需要告诉他这样的指令,就是斜杠 openclock monitor, 使用这个技能,然后通过 q y s 创建一个 e t f 的 监控指令,帮我盯盘某一个 e t f, 然后每五分钟帮我检查一下走势,并且分析我现在该做什么。我后面还跟了一句啊,创作好了之后告诉我的脚本放在哪方面有管理,这里是为了方便我调整我对某只股票的监控预知,你也可以根据你自己的心情去创建。 ok, 那 后面的事你就都清楚了,它会自动的帮你创建好一个监控任务,并且告诉你脚本放在哪,你可以手动的执行敲命令去触发,也可以让它后台自动去跑, 整个脚本都通过刚才的 skill 帮你生成好了,那数据你可以放心的交给 roos 这种稳定的数据平台,你不需要懂任何一项代码,整条链路完全自动,我们后面什么都不用做, 这就是我主动对话虾的完整流程。你可以按照这个思路创建 n 多个无人之手,比如说用它监控你的邮箱,定期做一些摘药,比如说通过 q y s 监控你喜欢的明星球星演员,当他们有一些活动的时候,立刻通知你, 告诉你个神奇玩法,你甚至可以让他连进你的智能手表,那手表判定你睡醒的时候,让他通知龙虾,帮你根据他起床时间帮你规划今天的行程。这个功能真是太爽了,兄弟们,当你学会了这套无人止手的创作思路,那你的虾就会在真实场景里主动的为你创造价值,以至于你能玩成什么样,上线就是你的想象力。 ok, 兄弟们,如果你想了解这个触发器的脚本具体是如何实现的,那你可以在我的智站里下载并找到对应的课程。那如果你想学到更多的 openclaw 的 实战技巧,那你一定要关注我,我是麦当,带你玩点吃鸡的点赞关注!

最近 sky 很 火,请你说一下你理解的 agent。 sky 是 什么啊?我认为它本质上就是 ai 智能体的专业知识和操作流程的结构化封装, 就是让大模型能够像领域专家一样去思考和执行任务。它的核心价值就是解决传统提示时工程的几个痛点,比如同一个任务要反复写,复杂的提示时输出不稳定,团队之间知识传递效率也低。 the skill 能够让能力变成标准化单元,可以即插即用。那一个标准的 skill 一 般会包含哪些部分呢?我这里也整理了一份十一万字大模型高频的面试题,感兴趣的小伙伴可以带回家学习。嗯, 一般就是三个部分,第一个就是原数据文件,嗯,就定义这个技能的名称,适用场景,还有触发的条件。 第二个就是知识文档,包括领域知识,操作步骤,还有最佳实践。第三个就是可选的执行脚本,比如自动化代码工具,调用逻辑或者条件判断的规则等等。嗯,那你觉得在实际的产品当中,它到底要怎么样去应用? 嗯,也是有三类场景,第一就是规范输出格式类,像生成法律文书或者是财务报表,确保这个结构的统一。第二个就是固化工作流程内,像按客服 sop 的 处理工单,或者是自动生成软件,测试用力 啊。最后一个就是注入领域知识类,嗯,像在这个医疗或者是金融的场景里面,提供诊断辅助或者投资分析框架, 就是通过 skill, 我 们就可以让这个大模型快速的具备垂直领域能力,而不同的 agent 之间还能够共享和组合这些技能。

ai 只是工具,搞钱才是最终目的,别再拿国内大模型当普通的聊天机器用了。今天直接揭秘高级 agent 的 核心底牌, skill! 什么是 skill? 它本质上就是一个 markdown 格式的文本文件,但它不是普通的提示词,它必须遵循严格的底层结构,分为配置区和指令区。重点来了,配置区的名称必须是全英文,为什么?因为这个文件必须放在你本地 agent 的 专属 skills 目录下。如果你用中文命名, 一旦路径包含中文,大模型在自动调用时极容易爆错崩溃。记不住路径逻辑的赶紧去补补基础。另外一个必须写好的叫 description 描述,它是告诉 ai 什么时候该触发这个技能。为什么要这么折腾?为了省钱和精准, 把几万字的标准 sop 全塞给大模型,不仅极其消耗 token, 还容易让它产生幻觉。 skill 能做到按需加载,没活的时候不占内存,触发任务了瞬间变身专家,怎么让大模型乖乖听话干活? 国内开源社区早就有写好的 skill 生成器模板,你把它下载解压,直接丢进你本地 a 证的框架的指定目录里,启动你的终端或界面,直接输入指令,呼出这个生成器。专家,接下来就是大白话沟通,我想建一个帮我管理短视频矩阵的技能, 你需求描述的越细,它给你生成的 skill 文件就越精准。哪怕你完全不懂代码,也能靠它构建出逻辑极其严密、可扩展的自动化工具。这玩意用起来简直降维打击。 那这东西到底能干嘛?盘三个实战场景,第一个解决繁琐的脏活,比如你要拆解同行的爆款视频, 传统做法是自己听、自己抄,自己总结。现在你做一个爆款拆解 skill, 把工作流锁死。第一步,调动插件,把视频转文字。第二步,洗掉口语废话。第三步,提取黄金前三秒钩子。第四步,按固定格式存入你电脑的地盘, 以后你只要把视频链接往里一扔,它自己调兵遣将走完流程,爽感拉满。第二个场景项目统计,我手里目前有多个 ai 变现项目, 绝对不只是盯着某一两个赛道,为了全自动承接这些流量,我给每个赛道都定制了专属的生产线。 skill 不 用在各种国内大模型网页之间切来切去,一套底层逻辑全部跑通。 第三个,高级玩法,同步协助。在内容生产时,我们同时挂载三个 skill, 一 号负责爬取全网热搜找选择题,二号按我固定的爆款逻辑写脚本,三号负责审核违禁词。你只需要下达一个出师口令, agent 呢?就会像老板一样,自动按顺序指挥这三个 skill 干活。 这种模块化拆分,能极大降低国内大模型处理涨任务时的逻辑偏移。最后一句话讲透 skill 和最近很火的 m c p 的 区别。 skill 是 大脑 sop, 它是提示词,是指令,是工作流程。 m c p 是 手和脚,它是外部工具,是接口。 skill 负责调用 m c p 去执行动作,但 m c p 永远只能在 skill 划好的规矩里干活,懂了吗?干货都在这儿,马上行动起来,别再做技能内耗下课!

ai skill 设计实战四步,写出高效能 agent 插件,你是不是也困惑, ai agent 用起来还是笨?问题的本质是你没搞懂 skill 结构, ai 中的 skill 就是 给大模型安装的专业工具包,但百分之九十的人写 skill 只写一句话,调用成功率不到百分之三十。 第一招, skill 结构要完整,包含五个要素,场景描述、目标定义、触发条件、调用案例、输出格式。 场景,让 ai 知道什么时候用目标,让 ai 知道要完成什么。触发条件,设定关键词调用案例,给 ai 示范输出格式,规定返回结构。第二招,场景描述要具体, 不要写处理邮件,要写收到客户投诉邮件,情绪负面需要安抚并记录问题,加上用户画像情绪状态,调用准确率提升三倍。第三招,触发条件要设计 设置关键词组合,比如查一下,分析一下生成报告,还要设计上下文触发,比如上一句提到数据,下一句说格式化,就调用图标 skill。 第四招,调用案例要丰富,给 ai 看三到五个真实对话,视例覆盖正常请求边界情况错误处理,案例越多,执行越稳定。写好 skill 的 本质是结构化思维,把模糊需求翻译成 ai 能理解的精确指令,今晚就试试 选一个重复最多的工作环节,按五个要素写一个 skill 场景,五十字目标,一句话触发条件,三个关键词调用案例、两个输出格式,用 mark 等。关注我,获取更多 ai skill 设计实战方法,收藏起来,随时找到写好 skill 的 进阶技巧!

朋友们好啊,这两年呢,这个 ai 圈的新词啊,真的是一个接一个的往外冒,什么提示词、工程智能体,感觉脑子都有点不够用了。所以今天呢,咱们就花几分钟时间,用大白话来聊明白一个最近特别火的概念,它叫 skill。 要想搞懂这个 skill 是 什么,咱们得先回头看看提示词儿这东西,你想想啊,一开始你问 ai a 豆浆怎么做, 他可能就给你三个词,泡豆、研磨、煮沸。这说了跟没说一样,对吧?后来呢,你就学精了,开始写那种特别长、特别详细的提示词,什么精确到刻,精确到分钟,这样一来, ai 给出的答案这样就高多了, 慢慢的,你手里就攒了一大堆这种宝贝提示词,做饭的、写报告的、敲代码的,啥都有。但问题马上就来了,这么多提示词,管起来也太麻烦了,有时候甚至都忘了自己存过哪个。 那怎么办呢?我把我所有的提示词一股脑全扔给 ai, 行不行?那肯定不行啊,你想这得多浪费资源,而且一堆不相关的信息,反而会把 ai 给搞糊涂。 所以,咱们就需要一个更聪明的办法,让 ai 能自个儿看情况,从你那一堆宝宝提示词里挑出最合适的那个来用。 你瞧,这个办法,它就来了,这也就是咱们今天要聊的 skill 机制,它要解决的就是这个问题。来,咱们深入看看,它到底是个啥? 说白了,一个 skill 啊,它本质上就是一个收纳盒,它帮你把你那些写的特别好的,针对不同任务的提示词都给分门别类地装好。这样一来, ai 就 能特别智能地根据需要自己去找到并且调用它。 那这个收纳盒具体长啥样呢?你可能觉得会很复杂,但其实呢,它非常简单,就是一个普普通通的文件夹。这个文件夹里头最重要的就是一个叫 skill 点 m d 的 文件。咱们那些详细的提示词啊,就写在这里面。 为了让 ai 能一眼就看明白这个提示词是干嘛的,我们就在文件最开头加小段内容提要,专业点说,就叫原数据。当然了,这个文件夹里还能放别的东西,这个我们待会再说,它可是个关键哦。 好了,结构我们知道了,那他到底是怎么跑起来的呢?整个过程啊,大概可以分成三步。最有意思的是,这三步里面大部分复杂的操作,你作为用户是完全感觉不到的。 第一步叫发现,你想想啊,当你问 ai, 我 想做一杯甜豆浆,这时候你电脑上的应用就会把你所有 skill 的 那个内容提要,也就是原数据打包一下,跟着你的问题一起发给 ai 大 模型。 这里头的关键是,他发的只是招标,不是全部内容。你想啊,这些招标都很短,所以就算你有成百上千个 skill, 这个过程也特别快,特别省资源。 好了,第二步来了,叫激活。 ai 那 边收到了你的问题和一大堆 skill 的 摘药,他就开始分析了,嗯,做豆浆啊,这不就跟那个菜谱 skill 的 摘药最匹配吗?于是,他不会立刻回答你怎么做,而是先悄悄地给客户端发回一个指令。 这条指令翻译过来就是,嘿,快,把那个叫菜谱的 skill 里面完整的 skill 点 md 文件发给我,最妙的是什么呢?这一切都是在后台自动完成的,客观端收到指令,二话不说就把完整的提示词发过去,然后 ai 就 能根据这个详细的菜谱给你一个完美的答案了。 哎,听到这,你可能会觉得,这不就是个智能的提示词管理器吗?嗯,虽然挺有用,但好像也没那么神。如果你只想到这一层,那可就小看它了。 skill 真正的厉害之处在它的第三个阶段, 这一步直接让 ai 从一个只会动笔的秀才变成了一个能动手的干将。这就是第三步,执行。 到了这一步, ai 发出的指令就不再是给我文件这么简单了,它可以直接下命令,让客户端去运行一个程序,或者执行一个脚本。这就意味着什么?意味着 ai 不 再只能说它还能做。 咱们来看个实际的例子,比如你跟 ai 说,帮我把这个 pdf 文件转成一堆图片。好,第一步, ai 通过原数据发现了你有一个专门处理 pdf 的 skill。 第二步,他激活这个 skill, 读取了里面的 skill, 点 m d, 然后发现,哦,原来这个 skill 的 文件夹里还放着一个现场的转换脚本。那接下来就简单了。第三步,他直接执行命令,告诉客户端去运行那个脚本,把文件给我转了, 然后任务就自动完成了。整个过程对你来说就是一句话的事儿。那说到这儿,你可能就会想了,既然现在的 ai 写代码都那么溜了,为啥我们还得辛辛苦苦提前把脚本都准备好呢?能不能再懒一点儿啊,让他自己动手写呢? 问得好,没错,这才是 skill 配合执行能力最炸裂的地方。我们可以在那个 skill 的 md 文件里不光写提示词,还可以告诉 ai, 嘿,我这台电脑上装了 python, 还有这些处理图片的库,你都可以用,甚至还可以给他看几个代码例子。 有了这些信息,就算你没有现成的脚本, ai 也能根据你的要求,现场给你写一段全新的代码,然后立刻执行它。你看,这才是它真正强大的灵活性,它从一个只会照章办事的执行者,变成了一个能创造解决方难的创造者。 好了,讲了这么多,我们来简单梳理一下 skill 这个概念到底给我们带来了什么不一样的东西。 你看啊,跟咱们以前手动复制粘贴提示词比, skill 的 优势是全方面的。管理上,它从手动变成了自动发现。能力上呢,从只能生成文字扩展到了既能生成文字又能执行代码。但最关键的是灵活性, 它让 ai 从一个只能执行固定指令的工具,变成了一个能根据情况自己编程解决问题的动态助手。 所以你发现了吗?这里的关键就在于协同。 skill 就 像是给了 ar 一 张地图,告诉他该往哪儿走,该用什么工具。而执行能力呢,就等于给了他能跑能跳的双腿,让他能真的去到那个地方。 当地图和双腿结合在一起,当知识和行动力统一起来, ai 就 不再只是一个聊天机器人了,它向着一个能真正解决现实世界问题的智能体迈出了一大步,这也许就是属于 ai 自己的智行合一。 那么最后也留一个问题给大家思考一下,既然现在的 ai 已经拥有了行动的能力,如果它能为你做任何事,你最希望它为你完成的第一件具体任务会是什么呢?

hi, 大家好,我是西西。为什么 skill 突然火了?是因为大家终于发现, ai 最大的问题不是不够聪明,而是会的太多太杂了,容易乱。先说说 skill 为什么有用,以及怎么用。第一种用法,它可以用来拆解复杂的任务, 比如医药、客服、财务、法务这些场景。规则越多,如果全都塞进一个大的提示词模型,很容易乱。 但如果我们拆成不同的 skill, 该用哪个就用哪个,就稳定很多。第二个用法是接企业内部的数据库和知识库,把公司的内部规则、业务知识查出规则,封装成一个一个的 skill。 边回家的时候呢,就不容易胡编乱造, 因为他只会查他该查的那一部分。但问题很现实,最大的问题就是请神容易,送神难, skill 加进来容易,清出去很难。 skill 一 旦挂多了,上下文就会乱,再加上多个 skill 之间还会相互干扰。比方说 skill a 说要查的全面一点, skill b 说要简单一点,查听谁的,到现在都还没有完全解决。所以呢, skill 不是 万能药, 它就是代表一个事情, ai 产品从会聊天往会干活走了。我是西西,记得点赞收藏关注哦,拜拜!

这个 still 是 什么呀?我们先看一下这张图,这张图很漂亮,是吧?啊?告诉大家这个图是谁画的呢? ai 画的这个现在的 ai 它能够理解想法了,能够用这种漂亮的这种彩色图来画出来了啊。那么我们在这张图上跟大家介绍一下它大体上的几个架构啊, 就是你用 qq 去指挥,或者你用微信去指挥,这个叫做 channel, 是 你可以把这个 opencloud 和我们的其他的 这个叫即时通讯啊,跟这些东西结合起来,所以呢,这个消息即时通讯的消息就能够和我们的这个 open curl 进行一个交互,那么谁去接收这个指令呢?这里有一个词叫做网关 gateway, 由它来进行总体的接收信息和交互。那么真正干活的是谁呢?叫做 agent 智能体,那么这个智能体的意思就是它要调用背后的这个 ai 的 这个大脑,然后呢把你的任务分解,我先做什么后做什么? 我有哪些工具可以用?养虾养得最了不起的地方就是右下角这个东西,它叫 skill 技能,也就是我们今天所讲的重点一个 open crawl, 它的完整的 ai 系统是这样的,第一,它的大模型是它的思考模块儿, 它的 agent 是 它的架构,它的这个运转的逻辑,怎么运行是这个东西来决定的,而 skill 是 我们的专业话。那么经常有人问说,老师,现在这个听说这个龙虾比较烧钱, 他消耗这个 token 啊,消耗的量特别大,老师,这样子行不行?我自己本地部署一个大模型,我用我自己的模型,然后我这个就节省 token 嘛,那我告诉大家,你在你整个的这个小龙虾的体系当中, 你得有足够聪明的大脑,你才能够驱动他,对不对?你本地部署的那些模型,你是可以跟他聊聊天,但是他没有办法去做一个叫做长任务链的管理。 为什么叫长任务链呢?因为这件事情你说完以后,他不是一次性就能生成的,他要反复的调用工具,他要对比工具的结果,他要再思考, 那么这些内容会越来越长,你的模型不够聪明,它是解决不了这个问题的。那咱们说有很多人讲,我们科尔可以连欧拉玛,可以连 v l l m, 确实如此,但是您的硬件投入会更大。 第二个就是这个 agent, 就是 你要告诉大模型我有哪些工具,然后呢?我去执行它,这里面会有一些 agent 的 架构设计体系。那么这个 skill 是 什么呢? skill 是 咱们普通人也可以动手的事情,因为这个 agent 在 执行的时候,它是自己思考问题, 你比如说我要跟他说,我要你去上网去找一些资料, ok, 那 可能这个指令很清晰,他就先打开网页。那么如果说那给他一个相当复杂的问题,你说我现在有一个研究课题, 你帮我写通数,哈哈哈,那他要会反复的尝试,对不对?那个过程其实也是在消耗你的电,这个电就是 token, 所以你会发现他可能花了好长时间在思考,最后结果都不好,没有什么结果,光花钱了,对不对?那这时候就需要的是我们的 skill, 我 们的专业啊, skill 是 这么一个意思,所以呢,我们说 open crawl 最强的武器就是这个 skill, 当我们的这个龙虾背上了这个 skill 以后, 这个龙虾会成为你个人最强大的一个助手。其实不只是这个龙虾的问题了,只要是智能体和这个 skill 结合起来,那么这个智能体在做这件事情的时候,它就有一个明确的指引。

首先我们打开火山的模型开通管理页面, h t t p s 冒号斜杠斜杠 c o n s o l e 点 v o l c e n g i n e 点 com 斜杠不知道怎么开的同学可以看我前面的教学视频,打开后选择视觉模型,然后找到屌爆 see dream 四点五模型, 未开通的会显示开通服务按钮,点击开通服务,找到 crem 四点五勾上,然后点击确定开通即可。接下来我们点击 cdrem 四点五模型进入详情页,我们点击 api 接入,点击快速接入测试, 然后点击红框框起来的复制按钮。接下来我们转到飞书或者你的 open call 界面,这里两个页面都演示一下。首先是飞书,将视频中的一大串内容艾特你的飞书员工,他就会开始创建 skill 了。这里说一下 apikey, 直接在火山控制台 apikey 管理页面创建即可,然后点击对应 key 的 眼睛即可出现复制按钮,点击即可复制 pip, 填写好后点击回车。如果出现这个问题,则需要检查一下飞书开放者平台的权限是否开通, 直接复制他给出的链接即可到达对应权限页面,开通后如图所示,这样告诉他等待执行完毕即可。 聊天界面是一样的,输入内容回车等待他执行即可。在稍等几分钟后,正常情况你的非署员工会告诉你如下内容,表示 skill 生成成功了,如果还有权限不足的提醒,我们复制他给到的链接,直接浏览器打开授权即可。 完成后我们试一下图片生成,稍等片刻后就可以拿到结果了,之后只需要给他 prompt, 让他执行生图即可。大家如果训练过程中遇到了什么问题,欢迎评论区留言,我基本会逐个解答。训练的 prompt 放在评论区了。

为啥你家的 skill 越多, agent 越不听话?核心问题就出在 prompt 上。 prompt 不是 随便写的话术,是指导 agent 用 skill 的 操作手,特定好规则, skill 才不会用错。你可以把 agent 当成厨师, skill 是 锅碗瓢盆这些工具, prompt 就是 菜谱, 没菜谱,厨师再全的工具也做不出指定的菜。就看这一行核心代码,它专门构建系统的规则喂给 agent。 新手想稳住 skill 执行就三步, 一,写清 skill 适用场景二,把规则写进 prompt 三,按顺序加载 skill 和 prompt 搞定。你是不是也遇到过 agent 乱掉 skill 的 情况?评论区说说是啥场景,我是卷毛,每天一分钟拆解 ai 原理,小白也能听懂。关注我,拆透 agent 不 踩坑。

hello, 大家好,最近找到了一个包含十四万个 skill 的 开源网站,里面包含了大量好用的 skill, 今天分享给大家。 输入网址,打开后,在这里可以将语言调整为中文,然后我们可以拉到按分类浏览这里,按类别解锁,选择你想要的 skill 进行下载。我这里下载一个健身教练 skill, 在 解锁框输入 coach, 找到这个 skill, 然后打开, 点击右侧的下载按钮即可。下载完成的 skill 是 一个压缩包,我们可以将这个 skill 导入扣子二点零使用,打开扣子二点零,点击这里的更多点击,发现更多技能,点击右上角创建技能, 这里它会打开扣子编程页面,这时候点击这里的上传 skill 文件包,选择刚刚下载下来的 skill 压缩包,点击打开, 系统会自动解读这个 skill 技能包,等待系统自动处理完成即可。 ok, 系统解析完成。点击右上角部署,直接点击开始部署,部署完成后,我们才能在扣子聊天界面使用该技能,然后点击立即体验就能直接使用了。如果你发现了更多好玩的 skill, 都可以上传到扣子上,尝试一下, ok, 以上就是这期视频的全部内容了,如果大家有什么问题的话,可以在评论区留言,会有专门的老师为你解答。