粉丝1240获赞1.2万


cloud code 最新版现在已经原生支持调用 chrome 浏览器了,我们只需要将 cloud code 升级到最新版本,然后在 cloud code 中使用斜杠命令加上 chrome, 就 可以进入 chrome 浏览器的设置。 在是否默认起用这里我这里设为了起用,而且这里还可以管理权限,点击之后这里就会自动打开浏览器,并且在这个扩展这里我们就可以设置权限。如果大家没有安装扩展的话,到这一步应该会提示安装扩展,大家只需要按照它的提示安装扩展就可以。 当这些设置好之后,大家就可以在 cloud code 中原声调用 chrome 浏览器。在之前的视频中,我为大家演示过 chrome devtools 在 chrome code 中以及在 codex 中的使用,用来实现浏览器自动化以及 ui 调试。 但是 chrome devtools 为了安全,它打开的浏览器是一个新的实力,当我们需要执行浏览器自动化任务的时候,我们就需要重新登录所有的账号,像这样的话就非常麻烦,而且非常浪费时间。 但 cloud code 它原生支持的 chrome 浏览器调用它打开了浏览器就保存了我们日常使用的一切信息,包括账号登录状态以及浏览记录,还有 chrome 的 扩展插件等功能。 所以我们在 cloud code 中直接调用 chrome, 既适合 ui 验证,也适合端到端的自动化。而且它支持多种交互操作,包括点击输入,表单填写, 还有多标签管理,还可以对标签进行分组管理,而且它可以读取 cancel logs 还有 network requests, 并且可以结合盗墓状态来定位 ui 以及逻辑问题。好,本期视频将为大家深度测试 cloud code 调用 com 浏览器 完成自动化任务、 u i 调试任务以及 api 接口自动化测试等任务。下面我们可以先用一个最简单的任务进行测试,我这里直接输入任务,让它打开我的簿刻,点击进入第一篇簿刻,并将它改写为一篇 x post, 然后发布到我的 x 账号, 我们直接运行,先测试一下它最简单的浏览器自动化能力。好,可以看到这里它自动打开了我的簿刻, 然后它自动点击了我博客的第一篇文章,然后我们回到终端,就可以看到这里它正在执行这个任务,现在已经阅读完了博客文章,正在改写帖子。然后这里它需要申请权限,我们直接给它权限,然后它就自动打开了 x 平台。 好,可以看到它自动点击了发布, 这样的话这篇 x post 就 发布成功。整个过程不需要我们重新登录 x 账号,因为它会自动调用我们日常使用的 chrome 浏览器的配置。我们再测试一下 cloud code, 调用 chrome 浏览器 实现信息搜索,并且将搜索到的信息填写到谷歌的表格中,我们看一下他能否准确操作谷歌表格。这里我们输入提示词,使用奎姆搜索特斯拉近七天的股票信息,并且打开谷歌表格,将内容填入到表格中,我们直接运行 自动打开了谷歌浏览器,然后这里需要我们授权给他。好,可以看到他打开了谷歌,并且搜索了特斯拉的股价相关的内容。 好,这里他进入了雅虎 finance。 好, 可以看到他能准确点击并且复制相关内容。 好,可以看到他提取了特斯拉七天的股票数据,现在他打开了谷歌表格,我们看一下他能否将这些数据准确的填入谷歌表格中。 好,可以看到他在第一个单元格中输入了日期,然后定位到了第二个单元格。好,现在又在第三个单元格中输入了内容,现在这个表格的表头已经输入好了,然后这里提示他开始点击第二个单元格,开始输入数据。 好,这里他填完了十二月十八号的数据,现在在填十七号的数据 好,这里提示所有数据已经输出完成,这里我们就看到了它填入的特斯拉股价相关的信息,而且整个过程都是由它自动化完成。这样看来这个效果还是非常不错的,因为它能对这些非常复杂的表格进行精细化操作, 通过测试可以发现它的浏览器自动化能力还是非常强大的。好,刚才我们测试的是浏览器自动化任务,下面我们还可以测试一下让 cloud code 调用 chrome 实现 ui 调试。我们可以先在 cloud code 中让它为我们开发一个 react 组建。 我们可以先看一下这个提示词,让它使用叉款 ui 创建一个语言学习的 react 组建。这里是技术站 里,是页面结构,还有核心功能,还有设计要求,包括主题字体等,还有响应要求,以及数据结构,还有交互细节,还有性能。在最后这里我们让它创建一个完整的可交互的应用原型,要求任务完成之后,使用 crm 自动测试所有功能是否正常。 然后我们完整地粘贴这个提示词发送给 cloud code, 让它为我们开发这个 react。 组建,并且自动调用 chrome 浏览器进行测试,这是它生成的开发任务。最后一个任务就是在 chrome 浏览器中进行测试。 好,为了节省时间,开发步骤这里就略过,我们直接跳到它打开 chrome 浏览器的步骤。 five minutes later。 好,这里他已经完成了开发,现在正在安装依赖,这里他需要我们授权他权限,现在他就自动打开了浏览器,我们看一下他能否自动点击页面上的这些内容,对页面进行测试。 好,可以看到他自动点击了单词卡片,单词卡片翻转之后,这个单词出现了镜像翻转,我们看一下他是否会修复这样的问题。 好,这里他提示他看到卡片翻转有一些 css 效果的问题,他需要修复这个问题,这样的话,他就通过调用浏览器自动点击发现了这些问题。好,现在他正在测试练习页面。 好,他还选择了一个正确的答案。这里点击了进度。好,可以看到这里他输出答题反馈功能完美。好,这里提示进度页面非常漂亮。他继续测试设置页面。好,这里他提示页面显示空白,他需要检查控制台是否有错误, 然后这里他发现了这个错误,他正在修复这个错误。好,这里提示修复完成,他刷新页面, 可以看到他现在点击了设置。好,这里他提示设置页面所有功能都正常,他现在需要修复首页单词卡片翻转的问题,他需要创建一个简单可靠的翻转实线,替换当前的三 d 动画。 好,现在他又切换到了首页,然后我们看一下这次单词卡片的翻转是否修复好, 可以看到它自动点击了单词卡片,这次单词卡片翻转就正常,就显示了单词的中文翻译好,这里提示单词卡片翻转效果现在完美工作, 并且提示所有功能都测试通过,然后这里就输出了已经完成的这些功能。这样的话,我们没有经过任何干预, cloud code 就 调用 chrome 浏览器实现了自动开发,自动测试,并且发现了单词卡片翻转出现了问题,然后 cloud code 进行了自动修复, 可以发现整个步骤非常流畅,完全由 cloud code 全自动完成。刚才我们测试的是在 cloud code 中调试前端 ui 项目,下面我们还可以测试一下用 cloud code 调用 chrome 对 api 进行测试。 我们可以先看一下我准备的这个开发任务的提示词,让它创建一个 node js 加 express 的 代办事项, api 包含 get 请求获取所有代办事项, post 请求创办代办事项,还有 put 与 delete, 并且集成 swag ui express 自动生成 api 文档。 启动服务后,在 com 中进行下面的操作,并且将测试结果汇总,如果测试过程发现 bug, 直接修复并且验证。 然后我们回到 cloud code, 直接粘贴刚才的提示词,直接运行。像这样的话,我们使用 cloud code 调用 chrome 对 api 进行测试,在一定程度上甚至可以取代 postman。 这里它生成了开发任务,这里我们要稍等一下。 five minutes later 可以看到这里他开始对 api 进行测试,然后这里提示 get 端点已展开,他将点击这个按钮,这里提示点击 execute 执行 get 请求,并且提示需要滚动查看响应,这里他又重新点击了 execute 按钮, 好,这里提示 get 请求。测试成功,返回了两个代办事项,现在它需要测试 post 的 端点,创建新的代办事项。这里点击了 post 进行展开,然后这里提示它需要使用 find 工具定位 post 按钮 好,可以看到他将 post 进行了展开,这里提示他需要点击这个按钮,这里提示 post 的 成功,他创建了代办事项,现在他需要继续测试 put 还有 delete, 然后这里提示 put 和 delete 都创建成功, 这里提示他需要在 swag ui 中执行一个请求来捕获网络请求,这个任务执行完成,这里是生成的测试结果汇总报告, 包括 api 端点测试结果,这些端点都测试成功,而且这里还有响应时间,这里就是错误处理测试。下面这里就是 network 面板验证, 这里给出了总结,所有测试都通过,没有 bug, 发现 api 功能完整,错误处理,正确响应时间均在毫秒级。这样的话就在 cloud code 中自动调用 chrome 浏览器完成了 api 的 测试, 而且整个过程全部都是由 cloud code 自动完成的,不需要我们进行任何干预。通过我们在 cloud code 中调用 chrome 浏览器测试浏览器自动化以及前端 ui 调试,还有后端 api 的 测试,可以发现在 cloud code 中调用 chrome 浏览器效果非常不错, 它们全自动为我们完成各种复杂的任务。 cloud code 有 了 chrome 浏览器的加持,就变得越来越实用,越来越强大了。

hello 朋友们, cloud 十月份重磅发布了 skill 功能,已经过去了一个多月,我发现还是有很多朋友不太理解,甚至没有用过这个功能,所以本期视频会帮助大家彻底理解 skill 功能到底是什么,它有什么作用和玩法,以及它跟 m c p server sub agent command 的 区别以及优劣。那由于 skill 功能新出不久,除了 cloud code 之外,绝大多数 ai 编程产品还没有跟进, 为了让朋友们更好的上手,更好的去玩这个功能,本期视频使用的是国内唯一一家上了 skill 功能的 ai ide, 没错,是 ide, 没想到吧,它就是腾讯的 code body。 所以 大家并不需要非得使用 cloud code 才能玩 skill。 那 其实 skill 这个功能非常好的全释了我之前一直在说的 ai 编程工具并不是非要有编程基础,也不是必须得编程才能使用,它还可以做很多事情。 那本期视频也会从零到一的使用 code body 加 skill 功能,不写一行代码,使用自然语言交互,按照非技术人员的角度一步步做一个自动化流程的场景,朋友们无论是文科生还是技术小白都可以跟着思路去做一遍,相信你会发现新大陆 ok skill 到底是个什么东西呢?大家如果去翻看 cloud 的 官方文档,或者看很多博主对 skill 功能的介绍,你会发现大部分内容都在讲这是一个什么功能,以及它该怎么配置,怎么使用。但是我觉得如果想要真正把 skill 功能用好,不能只看操作手册, 我们需要从概念层面去理解这个功能到底是为了解决什么问题而诞生的 skill, 这个单词直译过来就是技能的意思。我们可以把触手状态的 ai 工具,比如 code body 或者是 color code, 想象成一个什么都不懂,赤手空拳的小孩子。 他很聪明,但他手里边没有工具,也没学过什么招式。这个时候所谓的配置 skill, 其实就是给这个孩子加点,给他加一个飞天的 skill, 他 就能上天。给他加一个遁地的 skill, 他 就能入地。 对应到编程工具里,这到底意味着什么呢?举个最痛点的例子,绝大多数的 ai 编程工具在处理文件时其实是文盲,特别是面对 excel 这种二进制或者是特定格式的文件时,直接甩给他一个 excel 文件, ai 通常是读不了内容的,这个时候 skill 就 派上用场了。我们可以做一个 excel 解析的 skill, 装进工具里。 当你再次选中 excel 文件发送时, ai 的 逻辑就变了。它会先调用这个 skill, 把 excel 里面的数据翻译成 ai 能看懂的文本格式,然后再去执行你的指令。 一旦理解了这个逻辑,朋友们的想象力就可以打开了。 skill 不 仅仅是读文件,它还可以是自动化脚本,比如生成一段爆款风格的视频脚本,也可以是工作流闭环,比如自动生成 ppt, 并保存到指定的路径。 所以 skill 的 本质其实就是让 ai 拥有了它原本不具备的手和脚,并且这个权限是给到用户的。也就是说,我们用户自己就可以给 ai 变成工具,增加更多的技能,让它可以做更多的事情。 我们直接进入实战演示环节,今天我们要完成的演示任务是在不写一行代码的前提下,委托 codebody 和 skill 做一个自动化任务的场景。我们希望当给出了一个主题以及参考文件后, ai 可以 调用相关的 skill 来帮我们自主调研解析文件,最终生成 ppt。 ok, 那 在开始之前,我们还是要先安装 codebodyid, 有 海外版和国内版,这里我们安装海外版,访问 codebody 官网,点击右上方的 log in, 直接使用 google 或者是 github 授权注册并登录。登录成功之后,我们再回到首页这里点击下载,然后我们根据自己的电脑处理器选择对应的版本进行下载安装就好了。安装完成之后,打开应用,选择中文。 酷狗也是基于开源 ide vs code 之上构建的,所以如果朋友们有在使用 vs code 或者是 cursor 的, 可以一键导入它们的配置,然后就是一路 nice, 最后点击登录会跳到网页授权登录,我们点击确认就登录完成了。 登录完成之后,我们直接点击 new folder, 创建一个空白的文件夹作为工作区。到这里我们的准备工作就做好了。 ok, 我 们简单介绍一下酷狗八 d 的 功能,相信大家或多或少都有接触过 ai ide, 那 酷狗八 d ide 也是类似的。右侧会有一个 ai 聊天窗口,它有两种模式,分别是 craft 和 ask 模式。 craft 模式用于自动帮助我们完成复杂的编码任务,类似 cursor agent 模式。 ask 模式用于帮助我们解答代码库以及其他编码问题。类似 cursor 的 ask 模式,它不会主动帮我们修改代码,我们有什么不懂的,可以在 ask 模式下问,然后在 craft 模式下让 ai 完成编程任务。 同时库拉巴蒂也支持计划模式。当我们在 craft 模式下打开计划模式开关后,发送问题, ai 会先帮我们列一个计划,我们也可以补充修改,最终确认了才会去执行任务。 模型选择的话,我们选择 default 就 可以,因为这个默认模型下支持的能力比较多。虽然不知道底层到底是用的什么模型,不过效果还不错。 ok, 我 们暂时先了解这么多,后面做任务时有涉及到,我们再介绍。大家可以思考一下,让 ai 去完成一个任务的核心是什么?没错,是 prompt 提示词。很多朋友觉得提示词设计是一个技术活,其实不是这样的。如果朋友们在二四年就开始用 ai 编程工具,你会发现最开始的提示词慢慢变得可以越来越像一个人的表达。 虽然目前达不到完全你和人的表达,但是现在的提式词设计也没有那么专业且复杂了。那我们就以一个技术小白的视角来帮助大家理解提式词设计的思路。首先,我们可以用一句话来描述我们的核心诉求, 我想做一个能够自动生成 ppt 的 cloud skill, 请帮我实现它。注意,这里描述 cloud skill, 而不是单纯的 skill, 是 为了让 ai 能够清楚地知道我们要做的是一个基于 cloud skill 规范的 skill。 其次,我们还需要交代任务背景。我经常要做 ppt, 有 时候是一个想法,比如分析一下新能源汽车市场,有时候手头有一些现成的资料,比如 pdf 文档或者 excel 数据表,那我需要基于这些资料产出 ppt。 我 希望这个工具能帮我一键搞定,这就是它的背景。然后我们还需要给出一些具体的要求。 第一,要能懂我的输入。如果我只给了一个主题,你要能自己去网上搜集资料,整理出内容。那如果我给你传了文件,比如 pdf 报告,或者是 word 文档,再或者是 excel 表格,你要能看懂里面的内容。 第二点就是内容要丰富,不能只有字,你要把搜到或读到的内容整理成 ppt 的 页面。最重要的是,如果你搜到或读到的内容里有规则数据,你要能把它变成图标,比如柱状图、饼图、折线图、流程图这些。 三、生成的 ppt 要好看。因为我不喜欢 ppt 自带那种丑陋的默认配色。我希望生成的 ppt 是 莫兰迪色系的,颜色要柔和,高级、低饱和度。每一页的背景不要是白板,要有一些简单的设计感,比如用两种柔和的颜色,渐变磨砂、毛玻璃这种背景特效,但不要太花哨,不能影响我看字。 最后,我们还需要描述出需要 ai 做什么,也就是给他的任务。那请根据我上面的描述,告诉我该怎么做这个 skill。 请用通俗易懂的语言列出会包含哪些功能,如果确认没问题,再帮我生成第一版的代码。请不要试图在一个 skill 中完成所有的工作,采用关注点分离的原则,每个 skill 只做一件事。 那最后这句话来源于 cloud 官网针对 skill 教程中的建议,这样一份简单基础的题词就做好了,我们只需要在其中清晰地表达出自己的想法,不需要太细致。大家要注意的是,这并不是一份最优的完善的题词词,但一定是一份还可以的基础题词。所以没关系,因为我们还需要让 ai 来完善一下。 ok, 回到 control 模式,发送基础提示词,等待 ai 的 回复。可以看到 ai 将我们的需求梳理了一下。那由于我们之前的基础提示词细节是不太够的,所以我们需要过一轮 ask 来让 ai 梳理。 那基于 ai 的 回复,我们可以再进行补充。这个补充可能是 ai 忽略掉的点,也可能是新补充的需求。那比如这里我们可以补充两条。 第一条,当深度搜索或读到的内容里面有规则数据,需要能把它变成图标,包括它不仅限于柱状图、饼图、折线图等等。第二条,用户输入可以只有主题,也可以只有附属文件,同时也可以两者都包含。你可以使用不同的 skill 来并发处理这些任务。 ok, 我 们需要等待一下 ai 的 生成。 ok, 我 们可以看一下整体的工作流程。 当确认无误之后,我们就可以切换到 craft 模式来让它帮我们逐步去生成。 这里由于任务量不小,所以我们需要等待一会儿。我们可以看到, codebody 在 创建 skill 时,其实也调用了一个叫 skill 杠 creator 的 skill, 这个 skill 是 用来帮助用户创建一个合格的 skill 的。 这说明库德巴蒂内部的工作流中也集成了一些 skill 作为扩展。这在 skill 没有出现之前还是比较麻烦的,因为之前想要扩展功能,大部分是靠方式拷令或者是 mcp 来实现,那有了 skill 之后,扩展一些能力就比较方便了。 ok, 执行完成之后,我们来看一下生成的这些文件内容。 可以看到点儿 code 八 d 文件夹下面有一个 skills 文件夹,这个目录其实就是 skill 的 配置文件。 cloud code 中是在点儿 cloud 文件夹下面,虽然配置文件夹名不一样,但是 skill 是 通用的,也就说这里生成的 skill 在 cloud code 中依然是适用的。 可以看到它帮我们生成了五个 skill, 每个 skill 只处理一种任务,组合起来就可以完成我们这个自动化的任务。 第一个是深度搜索的一个 skill, 它是用来帮助我们联网搜索并整理主题相关的资料。那第二个是莫兰迪美学的一个 skill, 用来提供莫兰迪配色和美学设计。那第三个是文档解析的 skill, 用来解析 pdf、 word、 excel 文件。 那第四个是 ppt 生成的 skill, 它是用来整合所有的输入,生成最终的 ppt 文件。那最后一个,也就是第五个是图标生成的 skill, 用于分析数据,并且推荐最优的图标类型,并生成。 下面的这些文件是它帮我们生成的相关文档。我们来看一下 skill 的 文件结构。 skill 点 m d, 这个是 skill 的 核心,也是必要文件,那除了这个文件,其他都不是必须的。那这个文件的组成是 skill 的 一个最小单元, 它定义了 skill 的 名称、用途说明,以及具体应该如何操作或执行。至于这个文件的内部结构以及内容该怎么写,我不建议大家记,也不建议大家自己去写这个文件。 a 生成它不香吗? access 通常放一些静态文件,比如图片,字体等等。 reference 通常放一些附加的参考文件。 script 用来放一些可执行的脚本,它还是蛮重要的,因为想要给 a 阵的扩展一些能力,大多都需要通过脚本来完成。那这三个文件夹都是可选的, 它们都是官方推荐的文件夹,命名分类我们也可以不遵守,因为所有的文件或者是脚本的调用以及执行,都需要直接或者是间接的在 skill 的 md 文件中写明。 ok, 那 接下来我们就来测试一下生成的这个 skill 的 效果。 我们直接拖进来一个 pdf, 然后选中这个 pdf 输入,请你调研 ai coding 行业现状,结合资料帮我生成一份 ai coding 行业报告研究的 ppt。 那这个文件是前段时间腾讯研究院出的一个 ai coding 的 非共识报告 pdf。 ok, 我 们输入完了之后,回车 可以看到 ai 帮我按流程调用 skill 来完成这件事情。这里需要注意的是,由于这里面涉及到脚本的执行,比如 skill 有 一个 python 脚本,那我们本地就得安装了 python 环境才可以执行成功。那如果大家没有装脚本的执行环境不成功的话, ai 会有提示, 我们可以根据提示去安装即可。当然我们也可以提前安装好环境,如果不会安装的话也非常简单。右上角先打开一个聊天框,使用 ask 模式去问 ai 应该怎么样安装,然后按步骤安装就可以了。 ok, 生成好之后,我们来看一下最终的 ppt, 目前还是有点问题的,我们可以基于现行 ppt 的 问题,然后再补充一下, 第一条是让 ppt 图标支持中文,第二条是让 ppt 里面的图标按比例缩放到合适的大小,那第三条是调研和解析 skill, 可以 并发执行。第四条是生成 ppt 之后移除掉多余的文件。 ok, 我 们等待一下生成结果。 生成好了之后,我们先把之前测试生成的这些文件删掉, 然后我们再次跑一下测试任务。生成好 ppt 之后,我们打开来看一下效果,哎,这次的效果还可以,比上次要好很多。 效果还行,但是整体的 ppt 结构不是很完善,所以还需要补充优化一下。那优化的思路也很简单,比如这里我们需要强化 ppt 的 结构,如果我们不知道怎么表达,可以直接先打开一个聊天框,选中 ask 模式,然后输入一个完整的 ppt 应该包含哪些模块。回车, 可以看到 ai 帮我们列出了 ppt 的 组成模块,哎,我们就可以切换为 craft 模式,让 ai 基于它说的去优化。我们还是要等待一下 ai 的 生成结果, 那生成完了之后,还是要重复之前的步骤,把之前测试生成的一些文件先删掉,然后再重新执行一下测试, 把文件拖进来,还是原来那个问题。回车, ok, 生成完了之后,我们再次打开看看效果,那这次生成的 ppt 内容也符合常规的 ppt 结构,还可以,那整体也还行, 那整个 ppt 生成的思路大概就这样,我们还可以继续迭代优化,比如扩展一个专门用于 ppt 背景生成的 skill 来制作好看的 ppt 背景,渐变背景、抽象艺术风格背景等等等等。那无论使用脚本生成,还是直接使用用户给定的背景图都行。 也可以梳理一个 ppt 的 文本排版结构,让 ppt 的 内容结构更规范,看上去更统一一点。 呃,同时,我们还可以约束 ppt 生成的内容,根据不同的 ppt 主题使用不同的字体。甚至也可以结合图像生成的 mcp server, 按照 ppt 主题动态生成一些图片,插入到 ppt 中。甚至,如果你不知道怎么优化,可以让 ai 读一下当前的 skill, 给出一些业务上的优化建议,再根据他的建议去问 ai 要方案,最终再让 ai 去生成。我们只做一个无形的打字机器,然后等待 ai 生成内容,然后不停地去 review 就 可以了。大致思路就是这样。 其实很多人会问, skill 和 m c p server, sub agent, command 到底有什么区别?这几个概念确实容易混淆。为了直观区分,我们用钢铁侠做比喻,把 ai 工具中的 agent 理解为托尼的贾维斯战甲系统。 某天,托尼给战甲装上了一个掌心炮。当托尼说贾维斯解决前面那个敌人,贾维斯通过分析知道老板想干架了,于是自主决定调用掌心炮去射击。这里的掌心炮就是 skill, 它是战甲的一个具体能力。 那托尼心血来潮了,还可以给战甲增加镭射炮、电磁脉冲等等,这些都是 skill。 用不用 skill, 怎么用,通常是 ai 思考用户指令后决定的。 ok, 接下来,托尼给贾维斯写死了一条设定,当自己明确喊出自毁程序启动时, 贾维斯不需要思考,也不允许反驳,必须立刻锁死盔甲,销毁数据,然后自爆。这就是 command 自定义指令。甚至托尼还可以设置一个快捷指令,比如大喊发射,就直接触发掌心炮。跳过贾维斯的思考过程, command 和 skill 的 功能区别就在这儿。 command 是 人类的强制命令,它是为了快捷执行一组写死的动作, 那这组动作里当然也可以包含 skill。 后来,托尼觉得贾维斯要干的事情太多了,又要管飞行,又要管能量,脑子不够用。为了给贾维斯减负,他制造了一个独立的卫星系统维罗尼卡,也就是复联二的反好客装甲。这个系统有独立的判断力,当好客发疯时,贾维斯只需要发个信号,维罗尼卡,该你上场了。 然后维罗尼卡就会全权接管。他怎么组装零件,怎么锁住好客,怎么修补战损,全是维罗尼卡自己在算。贾维斯不需要操心,这个专门用来处理好客发疯问题的独立系统,就是 cyber agent 自智能体。 最后,托尼想让贾维斯变得更强大,但他发现,想连接神盾局的数据库需要破解密码。想要控制银河护卫队的飞船,还得重新学习外星语言,而且还得有这个权限,太麻烦了。 于是,托尼和神盾局、银河护卫队坐下来,商定了一个全宇宙统一的接口标准。那神盾局说,我按照这个标准开放数据。银河护卫队说,我按照这个标准开放飞船的控制权。而贾维斯只需要装上这个 m c e 接口,就能读取神盾局的机密,或者是驾驶外星飞船。 当然,托尼自己也遵循 m c p 规范开放了接口,神盾局的电脑也能反过来读取贾维斯的数据,这就是 m c p。 它是一个开放的万能协议,可以让不同的系统、不同的公司之间能够像叉 usb 一 样共享数据,共享能力。 听完这个类比,我相信大家在打开 ai 工具的配置页面时,脑海里就有画面了。 skill 是 贾维斯的工具库,它决定了 agent 可以 干什么事情。 command 是 贾维斯的快捷指令,它可以强制 agent 不 经思考的干一些事情。 sub agent 是 贾维斯的帮手,它可以帮助 agent 分 担一些特定任务。 m c p 是 贾维斯的万能插头,它可以帮助 agent 连接外部世界。 ok? 为什么大家会混淆这几个概念?因为它们在功能上有重叠,甚至我们可以用四种方式来达成同一个目的。 那就以解析 excel 表格为例,你会发现四条路都能走通。我们可以给 agent 做一个 skill, 这个 skill 会执行 python 脚本解析 excel agent 想看 excel 数据时,直接调用这个解析的 skill 就 可以了。 我们也可以给 agent 连接一个解析 excel 的 mcp server, agent 通过标准接口把文件发过去,对方解析完再把数据传回来。当然,我们也可以写死一个指令,比如斜杠 pass excel, 当输入一个流程,直接运行脚本,把表格转成文本。 我们甚至还可以做一个专门做数据分析的 sub agent, 当选中 excel 文件时, agent 就 会把它交给 sub agent。 sub agent 可能自己写了段代码,或者是调用了些工具来把数据搞定。 这四个功能都可以做到这件事,那既然都能干,它们的本质区别到底在哪里?这就要聊到它们是为了解决什么问题而诞生的。 command 是 为了确定性。虽然我们喜欢用自然语言跟 ai 聊天,但是在某些时刻,自然语言是低效而且危险的。比如你想重置对话,你总不能说请帮我把之前的记忆都忘掉。你肯定想更简单一点。 诸如此类需要的系统级操作,比如保存、退出、格式化,我们需要百分百的确定性。 command 的 诞生就是为了绕过 ai 的 思考过程,它是一种上帝模式的介入,为了保证关键操作绝对准确,绝对快速,必须由硬代码直接接管,而不是让大模型去猜要不要调用。 m c p 是 为了互操作性。它是 ai 时代的 usb 协议,只在终结各自为战的局面,因为只要大家都遵循这个协议,一次开发就可以处处运行。它可以让 ai 的 跨系统操作不再有壁垒。 skill 是 为了扩展能力,它的诞生是为了给 ai 这个大脑装上手和脚,让它能够联网获取最新信息,能调用代码精准计算,能读取文件,获取事实。它的核心目的是让 ai 做一些现实的操作。在这之前的一些 ai 产品可能会使用 function calling 扩大大模型的能力,但 skill 不 同, 它可以让用户自己去定义技能,扩展 agent 的 能力,这点 mcp 也可以做到。但是相比之下, mcp 太复杂了,那有了 skill, mcp 只需要专注于外部互联这一件事情上。 最后的 sub agent 是 为了分工协助。当我们只有一个主 agent, 会存在两个非常严重的问题,第一个是角色冲突。当我们让 agent 既做产品经理又做程序员,在同一个对话框里,一会聊这个,一会聊那个, ai 很 容易精神分裂。 第二个是记忆混乱,当一个上下文窗口过大时,就会出现长上下文的注意力衰减的问题。之前聊得记不住了, sabotage 的 诞生就是为了效仿人类的分工,协助每个 sabotage 只做某种类型的任务,并且每个 sabotage 都有单独的上下文,那现在你清晰了吗? ok, 朋友们,回顾一下本期视频的内容,我们介绍了 cloud skill 的 概念以及 skill 和 mcp、 sabotage、 command 的 区别。 同时我们实战了一个小伎俩,没有去肯福达的 api 文档,也没有写一行代码,只是动了动嘴,告诉 codebody 我 们想要什么,然后做成了 skill, 让 ai 真正拥有了自动做 ppt 的 手脚。这就印证了我在视频开头说的那句话,在 ai 时代,编程工具不再是程序员的专属, 是每一个有想法人的魔法杖。当你学会了 skill, 就 等于学会了怎么给你的贾维斯制造掌心炮,你还可以给他接上不同的 m c p server, 或者是直接组一个 safari agent。 这一切的起点都从你亲手定义的第一个 skill 提示词开始。所以别光看着了,赶紧去试试吧。那如果大家不习惯, cloud code codebody 是 目前国内唯一一家能够体验 skill 功能的 ai ide, 大家也可以自行下载体验。无论你是想做自动周报生成器、小红书爆款文案生成,还是股票数据分析等等等等的 skill, 请打开你的脑洞。 如果你做出了好玩的 skill, 欢迎在评论区分享你的创意,这里是不正经的前端,如果你觉得这期视频对你有帮助,请务必一键三连,我们下期再见,拜拜!

