分享一点这个使用的小技巧吧,然后本来在这我有一个专为针对我给他安排的一些知识型工作去做事情的一个 idea, 然后我觉得他一个不够用吗?因为我想让他主要对内, 然后刚才我就跟我这边的这个管理对话的去说,就是我这个现在系统呢也有个特点,他这里要顺便提一下,就是它里面的功能呢,不是通过操作了,因为我们是 ai 啊, ai 技术的话呢,我尽量所有的动作就是让 ai 去做,那我让他去帮我 把它复制一份,因为我们之前有那个绘画重置的一个能力啊,一个功能他会先去采访他, 对,这是他刚刚采访的,然后让他去把他的东西总结一下,总结完了之后啊,就会让他去学习,然后来接收。同时的话我们还会让这个新的对话去读取他那个 code 的 一些上下文的内容, 然后几个方面来做交接。这样的话他就是在知识储备上面啊,跟上了当前的这个 a 键。那同时他们因为在同一个那个通道里面, 我们的通道里面也是会去沉淀那个知识的,所以说啊,它们两个在很多上下文的规范层面,它就已经达到了相同。除了接下来的话,我就可以用它 啊,比如说再去做一些什么事情啊,因为我想要让它开始整理一些我们这个平台的一些理念,然后再去调度那个 notebook l m, 因为我们有那个技能嘛,可以这么去调度, 然后把我们这个平台的一些深度的架构理念给它再整理一下啊,那个可能就下一次再跟大家去分享这个内容,这的话就分享一个使用上的一个小技巧, 就大家用起来的时候一定要注意一个点,就是我们这个是 ai 八 t 五平台,所以说你更多事情让它去做,你就别在系统里面找了,系统里面有些功能 他可能还不是那么完善,所以说你有什么需求你直接问现在系统里面已经有的 ai 啊,就比如说那个我们放出来的版本,会提供一些内置的初步的能够开展协助工作的啊,这个大家可以用的时候先去试着用一下,直接让 ai 去帮你做里面任何你想去做事情,然后你也可以问他,然后这个系统里面能做什么事, 他也会给你去找相关的答案。那之后你的工作尽量让他去帮你开展,比如说再新增一个通道啊,或者是再去新增一个 agent 啊,那这都可以让他去做 好,并且以及那个技能的管理啊,这些我也会再补充几个 agent 来辅助你们去使用,就是尽可能的工作都是让他们去做啊,这样就达到了一个 a l a t 的 一种工作方式。
粉丝1009获赞2763

今天我将带大家体验如何在一个简单的电子日历项目当中使用 kiro ide 的 基础功能,帮助大家高效开发。我们现在已经将整个最基础的一个个人电子日历的项目已经运行起来了, 我们可以看到我们可以对这个事件去进行一个创建,但我们不能做删除或者是修改。接下来我们会在这个项目的基础上面去新增修改和删除的功能。好,我们现在进入到了我们这个项目当中,先找到 kill 的 这个小鬼的这个插件这里, 然后我们再到下面的 steering agent 的 steering 呢,它是保存在我们 steering module 下面的一个 markdown 文件,它能为我们整个开发环境提供持久的整个项目的一个支持。我们无需在每一轮和 ai 的 一个沟通当中去解释你对整个项目的一些约定。我们首先可以利用 kiro 当中的这个生成 steering box 的 按钮去生成最基础的一些 steering。 我 们可以看到 开始去生成 steering 的 一些文档。现在我们的最基础的 steering 文档已经产生了,一共有三份。在左侧,其实我们也可以看到在 workspace 的 下方有三个 steering file, 呃,分别是 product, structure 和 tech。 product 介绍了呃我们日历项目当中的一些用户故事,它能够帮助你更好地在接下来开发的环境当中去生成更加合理的一些建议。 在 structured 这一个 steam 当中呢,会帮您去梳理整个项目的一个文件结构,包括命名的一些规范。 techmd 的 话,这份说明文件能让 ai 完全掌握你现在整个项目的技术细节不再需要去询问你使用的是什么框架,建议也会更加贴合你现在所使用项目的技术。

今天给大家分享一个我的开源项目,因为之前讲 ui agent 接到这个 open curl 里面的时候,大家非常的感兴趣,所以说把话已经夸出去了,所以说给大家也汇报一下进度。首先我们先讲一下为什么要做这样一件事情,因为我在用这个 open curl 的 时候,我发现这个 open curl 它非常的 鸡肋,因为像国外它的各个平台之间都有 a p i, 而且都是打通的比较 open, 所以 说它用起来是比较 ok 的。 但是我们国内,比如说像微信,比如说像这种抖音,其实它操作起来都限制很多, 所以说你必须要使用这种 r p a 或者说直接进行图像点击的方式,它的准确度才高一点,或者说它给你限制才少一点。如果你是使用这种 比如说浏览器进行操作的方式,它其实限制很多的,比如说抖音的,它后台其实专门给这种做了一些限制,首先容易封号。第二个点就是它没有办法进行具体的操作,比如说你评论的时候,它会给你做一些操作,把你限制掉。 第二个点就是现在是有一些 u i agent, 它是可以接到这个 open curl 里面的,比如说之前分享的 torx, 还有一个是这个 agent s。 第三个版本这个东西你做一些小的修改就可以直接接到这个里面,我也是做了一个开源的地址,我看一下开源的地址在哪?开源的地址这个名字叫这个 curl u i s s, 就是 skills 加那个 agent s, 基于它的这个版本做了一个这种技能,可以直接接到这个 open curl 里面,但是它还是很大的问题,就是它非常的慢, 非常的慢,所以说它只能拿来作为一个玩具,你比如说你做一些简单的操作,比如说你坐在这个微信里面去发一个消息,可能它就要五分钟,十分钟就非常的慢,而且不实用。 所以说我就在想能不能做这样一件事情,可以把它一些固化的东西,可以把它弄来使用之前的 rpa 的 方式, rpa 它速度就非常快,而且它的准确度也高,也也不需要耗 talk, 但是它有一个问题,就是 rpa 存在着巨大的问题,就是它没有这种 ui agent 的 泛化能力,它没有理解能力,只要执行在哪里错了它就错了,它就永远不会进行这个反思,或者说去进行优化。 所以说我今天想要做的一件事情,就是把这种操作,比如说给某一个人发微信,然后这样的操作把它固化成一个 rpa, 当里面某一个步骤是需要去思考,需要逻辑判断的,就直接用 ui agent 去做这个插入。 第二个点就是如果说 rpa 出了问题,那么就用 ui agent 去做兜底,这样的话就能结合两个的优点。 所以说我想要做的是这样一件事情,我也把思路也跑的差不多了,但是只是一个进度,还没有真正的完成我的想法, 整个我是使用了 rpa 的 一个项目, rpa 还没接进来,但是像录屏我是想的整个流程是首先你自己操作一下,比如说给某个人发消息,然后操作录屏,然后使用生成指导,把你录屏的这种过程生成一个指导,然后使用这个 agent 去执行, 执行的时候也会录屏,然后记录下来执行的过程,然后分析之前的这个指导和执行的这个过程的差异,如果这个会更加的好,那么就会进行净化,所以说它整个过程会越来越净化,你就可以把类似于一个 skills 把它固化下来。下一个版本的话就需要把 r p a 弄进来,因为其实像这个它能达到进化,能进行指导的速度,因为这个 android s 三 它是需要有一个反思机制的,所以说它托管的思考吐出非常多,这个也是它速度很慢的一个一部分原因,但是它的执行的效率非常高,如果我加上这个指导,再加上它的一个反思的机制,应该是能达到它 它的指标的,因为这个 agent s 三它是能达到我们人类平均水平的,但是它需要好像是五步的一个执行还是怎么样, 这两个加起来应该是能达到我们人的平均水平的,因为我做了这样一个记录,有这样的一个指导的时候,它思考的时间就变慢了,其实这个速度已经大大的缩减了,但是我个人认为它还是不太 ok 的, 直接用现在的这种 大模型,比如说 kimi k 二,它性能是 ok 的,是能执行的,但是它速度会非常慢,所以说我后面还要加一个 rpa 的 东西,就是它执行出来了之后,哦应该加上一个 rpa, 把这里面某一些步骤直接给它量化成 rpa, 将里面需要判断的直接使用这种 ui agent 的 方式再进行判断执行,并进行优化净化。还有就是出现 rpa 问题的时候能做 ui agent 的 兜底,这就是给大家汇报一下今这个工作, 我把它做出来了之后也会进行开源,但是如果只是这样的话,其实都够了,它的速度已经远远的超过了这个秀秀 u i 的 aloha 哈一 aloha, 然后也速度远远的大于了这个 agent s 的 执行速度,因为它的反思会更加的慢了,因为它有了指导的这个东西, 我相当于把这个秀 ui aloha 和这个 a d s 是 两个进行了结合,这秀 ui aloha 它就是专门用于录屏,然后生成指导,然后执行,我是接了这个 a d s 的, 这大概就是这样。

安装完 oppo 壳不会用一分钟教会你从零到一,普通人也能直接上手。首先我们要搞懂什么是 oppo 壳,简单来说他就是一个本地 ai 执行助手,能听懂人话,并且能够操控你的电脑,帮助你干活。当我们安装好之后,我们可以检查一下他是否成功运行, 只需要打开终端,然后我们运行这个代码,在这里就可以看到他是否在运行的状态,可以看到他是在正常运行的, 下面我们就来测试一下,给他一个命令,然后看他是否能够正常运行。这里我们让他在桌面创建一个文档,文档内容是我成功启动 open code, 然后让他执行 好,这里可以看到他已经完成了,然后我们来到桌面看一下,可以看到桌面就已经建好了一个文档,我们打开看一下内容,可以看到与我们的要求完全一致,好。测试完成之后,我们来认识一下他的一个主要功能, 我们只用记得这三个,第一个就是概览,在这里我们可以看一下他的状态,检查一下是否正常,同时在这我们也可以修改他的语言 好。然后第二个就非常重要的 skus, 他的一个技能就像我们人一样,需要不断的学习各种技能才能提升自己,那可口可乐也是一样的,我们需要在这个地方去安装各种各样的技能,当然也可以从外部导入, 这也是养龙虾的第一步,给他增加技能。这里的话给他一个建议,就是可以根据你的行业或者需求,然后去安装对应的一个技能。而第三个的话就是 agent, 也就是你的一个团队员工,然后默认的话他只有一个主要的能力, 然后我们点击这个 tos, 可以 看到它的一个基本配置,在这里我们可以修改它的一个权限,从左边的话是默认最低,然后我们可以点 for, 然后权限给它开满。 那我们如何增加多位镜头呢?我们可以直接根据自己的行业或者需求,然后让 open 可乐帮你设计一套多位镜头, 我们可以直接在聊天窗口告诉他我们的需求,然后让他帮你设计,就像这样。那我们应该怎样去增加一个 app 呢?下面我就为大家实际演示一下。首先我们打开终端,然后输入这个代码, 最后的话是他的名字可以自行设定好,设定好我们按回车,在这里就打开了一个配置界面, 好,这里我们按回车,这里我们选择 yes, 然后同样的按回车, 这里的话我们因为出于演示,在这位置我们选 no, 直接跳过,然后这里也是选 yes, 到这里就选择你需要接入的一个 a 帧,就比如你要接入飞书,你就选择飞书,那这里我们直接跳过。好,下面我们来到 ctrl 界面,然后点这个代理, 可以看到我们刚刚配置的 a 帧就已经配置好了。好的,那么本期视频就到这里。

啊,这个如果大家经常用 ai 编程工具的话,比如说 cloud code, cursor, 一 般都会接触 plan mode 的 这个功能,那我觉得这个功能其实也是最坑的一个功能之一啊,因为你如果用不好的话,那实际上是减分的啊,可能会让你的效率大打折扣。 那接下来我就来就我自己的一些使用经验,来跟大家分享一下容易踩的一些坑啊,以及我们如何去高效正确地去使用这个 plan mode 啊。首先是两种常见的错误的使用方式啊,第一种是甩手掌柜型的啊,很简单,就是你面对任何一个任务,你都有一句话, prompt, 让 ai 去自行的脑补你的决策啊,然后最后肯定是 这个南辕北辙的,很多时候这个具体的执行和你预想的是偏差很大的啊。然后第二个是毛模型的就离开,是写一个巨长的 prompt, 然后给到模型输出一个 plan, 然后发现这个 plan 呢,哎,不符合你的预期,然后你来回的去修改啊,最后搞得自己非常疲惫, 更要命的是呢,最后还有坑。那我们不禁在思考啊,这些问题的本质在什么地方呢啊,在于你对 plan mode 这个功能的理解啊, plan mode 它本质上来讲,它是对具体的执行步骤的一个拆分啊,那这个之前呢, 其实是有一个决策的部分的,那大部分人把这个决策的部分给跳过去了,所以会产生这一系列的问题啊,因为这个决策实际上大家可以看这个冰山的这张图啊,冰山以上的部分就是模型产出的不烂,但是冰山以下呢,是有多个假设来构成的,就说你在做一个项目的时候, 推荐一个功能,或者说一个 bug, 它其实包含了很多的这种假设在里面的,那这些假设如果 ai 不知道,那他可能做出来的一些角色就是有问题的。那更好的方式呢,就是 我们把决策啊和规划这部分给分开。首先呢我们让 ai 去理解我们项目的现状,比如说让他读代码,分析架构,然后呢抛出你的看法啊,比如说你跟人家说,呃,你对这个问题怎么看啊?然后呃给出你的理解,然后有没有现成的一些解决方案,你就这么问他。 然后第三个呢,是让 ai 给你一些备选的方案,这个非常重要啊,因为 ai 的 输出它是有锚定效应的啊,就是说它在输出一个方案之后,后续所有的这种回答都是基于原来的方案进行微调或者迭代, 那可能刚开始给你这个方案可能是有问题的,那最好的方式呢,是让他多给你几个方案,让你去判断和决策选一个正确的方向啊,在这些决策做完之后呢,你就可以让他去写 plan 了,那这个时候 plan 的 质量就是非常高的了啊,因为关键的决策是你和 ai 一 起做的,而不是让 ai 自己猜的。 好,这里有一个详细的啊, sop 啊,就是可以让 ai 自己猜的。好,这里有一个详细的啊, s o p 啊,了解现在的现状啊,以及一些背景信息, 然后抛出你的想法,征求 ai 的 意见啊。在 ai 的 这种呃回答的过程当中呢,你可以对它进行纠篇啊,然后明确一下限制,给它补充一些信息 啊,然后逐步的去确认一些关键的决策,然后让 ai 和你啊,就一些关键的决策点达成一致啊。这些做完之后呢,你就可以这个接到 plan mode, 让它去写这个 plan, 那 这个时候 plan 就是 相对来讲是比较完整和准确的了,让它去直接啊,基于这个 plan 去执行,一般都是没有问题的, 或者说问题非常非常少,那只需要进行细小一些微调就可以啊。所以整体来看呢,你的讨论和决策的部分是占比是比较高的啊,可能占到百分之七十到百分之八十的时间,但是这保证了啊,执行层的后续的这个准确性啊。其实是啊,提升了你的效率的 啊,当然这里也得叠个假啊。这个 plumb 的 也不是说不能直接用啊,在一些特定的场景呢,你是可以直接用它的,比方说改动范围非常明确,那比方说只改某一些文件,然后这个改动规则也比较简单 啊。然后第二呢,是你的方案已经非常确定啊,你已经有完整的这个 plumb 的 细节了,你直接输给他没问题啊。然后,呃,一些小范围的修改呢,其实也可以直接的这个用 plumb 的 交给他。 对,但是如果涉及到架构的决策,或者说多个方案的选择和权衡啊,而且改动面比较广的话,这个时候我强烈建议大家还是先讨论,然后再 plan。 ok, 那总结一下,就是遇到一些稍微复杂的问题呢,大家可以先和 ai 聊啊,然后去追问他,就一些关键的角色点呢,和 ai 达成一致啊,然后再进行 play, 这样的话呢,会达到一个事半功倍的效果,极大的降低后续 agent 的 反攻率。今天就分享到这里,希望能对你有所启发。

在 cursor 中怎么使用 agent skill 的 功能?咱们一个视频说明白啊。上个视频咱们聊了 agent skill 的 基本概念,今天咱们继续来做实操。 首先咱们打开 cursor, 点击文件首选项 cursor setting, 然后选择这个 root subagent commands 这个选项啊,就可以看到里面有 input agent skill 的 这个开关儿哎,但是大部分小伙伴可能会发现,哎,我的 cursor 怎么就没这个功能呢?啊,为什么呢?我已经更新最新版本了 啊,因为截止我视频发布,这 cursor 的 正式版还没这个功能哎。不过不要紧啊,大家可以切换到开发版来使用 skill 功能, 大家可以在 cursor setting 中点 beta 这个选项啊,然后把第一个选项,哎,这个大家应该是 default 给它改为 nightly。 nightly 是 开发版的意思啊,大家就当做是像游戏内测的版本就行,能提前体验一些功能,但是功能可能不太完善, 如果大家体验完了,不想用这个开发版了啊,也可以回来把这个 nightly 改为 default, 再重新更新一下就回来了啊,所以这个大家可以放心修改 啊。那咱们继续啊,改完这个 nightly 之后呢,再点击帮助选项,点击检查更新啊,然后等程序更新完成之后,再回到 cursor setting 里面这个 rules subazon 这个选项,就能看到 import asian skill 开关了。打开这个开关, cursor 的 环境咱们就配置完了。 那具体要如何在 cursor 里用 skill 的 功能呢?我先创建一个新的项目,在 cursor 中打开一个空的文件夹。那要想使用这个 skill 的 功能,咱们需要在项目中先创建一个点 cursor 的 目录, 点 cursor 里面我们再创建一个 skills 的 目录,那这个 skills 目录里面存放的内容就是智能体可以使用的 skill 了。 大家看,我这里有一个写好的项目啊,里面我放了好几个 skill 啊,有操作 excel 的, 有操作 pdf 的, 还有将 markdown 转换成 stm 毛的各个 skill。 那 我们打开一个 skill, 看看里面到底具体有什么东西,我们就打开这个 text converter, 它是一个把 markdown 转换成 stm 的 skill 啊, 打开之后可以看到里面有一个 skill 点 m d 文件,那这个文件就是 skill 的 主文档,里面描述了这个 skill, 它能干什么活?文档开始的内容呢,叫做原数据,那这个很重要啊,里面定义了 skill 的 名字描述,还有版本 curser 的 对话框。如果调这个 skill, 其实就是根据这个描述来决定什么时候来调这个 skill 来工作的啊,比如我这个 skill 里面描述是当用户询问把 markdown 转换成 atm 等等。问啊,那如果用户说了这些的话啊,这个 agent 呢,就会调这个 skill 来干活了,那我们来调一下试一下啊。 呃,我打开 cursor 的 ai 对 话模式,咱们得调成 agent, 我 对这个 agent 说呢,将 pip 的 这个教程的 markdown 文档转换成 a。 天毛,大家可以看到 agent 就 开始干活了, 他会先读这个 skill 点 m d 啊,然后按照文档里面的要求执行任务啊,执行过程中还会参考 skill 目录中 example 文件夹来参考里面这个事例来操作, 那这样的话,它就可以按照我们给的这个视例来更准确地完成任务,那这样 agent 工作的准确度就会更高了。而且 agent skill 还有一个巨大的优势, 就是 skill 目录里面的所有内容,包括这个主文档,还有 example, 可能还有一些代码,它都是这个 skill 被调用之后才加载的,相当于是一个懒加载,不会在初始状态占用大模型的过多上下文,那这样性能就上来了 啊。那最后呢,大家可以看到啊,我得到了一个想要的 atm 文件,这就是 cursor agent skill 的 用法。那有朋友可能问了,说,那这个 skill 都得自己写吗?啊,当然不是啊,我们还可以使用第三方的 skill, 比如我这个 skill 目录里面的 excel pdf 的 skill 呢, 其实就是 as topic 在 github 上发布的 skill 啊,都是官方的 skill, 大家可以到 github 上直接下载下来。你想用哪个 skill 呢?就把这个 skill 复制粘贴到自己的 cursor 的 这个 skill 目录里面啊就行,直接复制粘贴就行啊,特别方便。所以大家以后如果让智能体干什么事儿的话 啊,以前咱们可能需要 m c p 啊,然后填写配置文件啊,参数错了还得改,就很麻烦。但是以后呢,直接复制一个 skill, 哎,这功能就能实现了,是不是特别方便 啊?当然不是说 a n 的 skill 就 可以代替 m c p 啊,它们还是各有各的优势。那具体 skill 和 m c p 有 什么区别?下个视频咱们再来做详细的介绍啊,不知道我讲的清不清楚啊,朋友们有问题可以给我留言啊,我是小周,分享 ai 开发知识,咱们下期再见。

今天来配置多 agents 智能体协通工作,在这之前我们已经创建了两个智能体 命,肖二命是主体,龙虾指挥者绑定了飞书一号,肖二是辅助龙虾,我们可以称它功能性龙虾绑定了飞书二号。 第一步,创建一个群,把它们拉进来并配置进 open clan, 这个时候在群里我们已经可以跟他们单独聊天及分发任务。 接着我们需要实现的目的是控制小转一号指挥者,控制小转二号行动。 第一步,我们先让 opencla 自动配置 agent, agent 完成以后设置 toes sessions, visibility 设为 o, 这样就打通了他们之间的交互功能。 接着我们在 main 小 爪一号页面进行定义, 以后处理图片的任务全部让小爪二号执行, 这样就对小爪二号的身份进行了定义。 最后我们来进行测试, 可以先指定任意位置新建一个 pick 文件夹,用来存放生成的图片,生成结果放入 pick 文件夹, 在 main 小 爪一号页面输入生成一个草原图片并发到群里, 可以看到它会自动把任务交给小爪二号执行。 小爪二号成功生成图片并发送到了群里,文件会自动保存到 pick 文件夹。 后期可以添加多个 a 阵死兵为其指定不同模型,以实现各种专业能力。

勾喷科奥如何调用可灵来画图和声视频?勾喷科奥调用可灵有两种方法,一种是直接调用可灵的 api, 一 种是通过大模型 api 集成平台间接调用可灵, 普通人通过大模型 api 集成平台比较方便。 openlnitor 是 全球第三方平台中最大的,支持六十种大模型。在 openlnitor 的 网站上创建 api key, 然后写入到 opencall 的 配置文件中,写配置文件时记得换上 openlnitor 的 api key。

嗯,大家好,今天给大家带来一个脚本猫 ai agent 版本的一个签摘。 嗯,首先我们打开脚本猫这个主页,然后可以看到有新增的一个 ai agent 的 一个菜单。然后我们首先要配置好一下模型,点击到模型服务这里来。呃,大家可以先到我这个网站获取一些呃 token, 然后有免费为大家提供一些 token, 可以 尝试一下。 嗯,我这里面的话是选择了一个机密的模型啊,获取完之后这边是要添加一下模型,根据这些指引来填写啊。我这边已经配置好了,我选的是一个机密三 flash 的 这个模型啊,我体验下来这个模型性价比还是挺高的。 嗯,配置好完成之后就可以开始我们后续的操作了。然后首先呢是需要呃安装一些 skill, 呃,我这边的话是安装的这个网页操作的一个这个 skill, 然后还有一个 patch company 的 一个用户脚本。 呃,这个用户脚本呢,相当于就是把这个网这个绘画印刷到那个页面中去。嗯,我们可以来试一下这一个问卷调查的一个场景。呃,首先我们把这个 copy 的 就是一个对话框给它发行起来。 嗯,我们直接让他帮我填写这份问卷调查。 嗯,把我们的需求填填写进去,然后他这里就开始呃加载技能,然后进行一些操作了。 呃,同时的话我们也可以在这个网页这边,就是在主就是小本猫的这个主页这边可以看到更详细内容,看这边技能他都工具,他都可以点开看他一个详细的一个操作情况。 呃,他这里还是先问了有一次要我怎么填,然后给了我一个填写的方案,我可以让他直接开始。 嗯,等一会你看他这已经。 呃开始在调用一些填写。哇,一下子我都没看清。呃, 不知道,不知道他填写的什么。我我我在后,我可以在后台看一下。啊,这是第二份,然后他填写的是每天都是啊这些, 然后像这么一些重复的场景的话,你可以直接那边完成之后,然后再到这边来让他给我编写一个。呃用户脚本,就是相当于把上面的内容总结一下。 呃,把上面的内容总结一下,编写成一个用户脚本,这样的话以后我们就不需要呃再等它再次分析或者是怎么回事了,这样直接就可以附用我们之前的流程,也不用再继续的烧 token 了。 嗯,我们来试一下。呃,我先打开这个原始的问卷, 然后把我那个脚本给它安装下来。 呃,刷新一下页面,就直接把上次有些操作给它提交起来就填写进来了。呃,这里我们可以总结成一个脚本,同时也可以总结成一个 scale 去做一些其他的操作,一些就是更加精准的让它更加精准的运行一些操作。 然后像另外的话,我们也可以和 qq 机器人或者是呃其他一些机器人进行对接,这里可以使用一个后台脚本,我这边编辑了一个 qq bot 的 一个 agent, 这样的话我就可以连接到我的 qq 这边来,让直接在 qq 这边进行一些绘画。我首先呃把这个绘画之前的绘画清空一下, 然后其实这个绘画也是绑定到这边来的。嗯,我先把这个需求给他发一下, 假设就是让他帮我去淘宝买一下 bbc 的 一个纸尿裤啊,刷新一下,嗯,不,不知道他绑定了哪个对话,我找一下。 嗯,他现在已经列出了他的一个大概的执行计划,我可以直接同意就让他执行。 啊。对,他绑定的是这这这一个绘画, 他绑定的是这一个绘画,可以看到他正在调用中。呃,这会很快他就直接帮我找到我要买的商品了。 对,已经找到我们我想要买的这个商品了,然后再继续的操作。 嗯,他在刚刚在给我选 s 码,然后已经选啊,然后已经进入确定定订单了。那边的话有一些敏感信息,我就不再继续打开那个页面查看了。 呃,像这里他已经知道了我的一个地址,还有一些价格商品之类的信息,然后之后我之后直接再确定一下订单,那么他就可以帮我提交了。 然后像我们还有一些可以让他帮我们做一些公众号的一些编辑,或者是小红书运营之类的。嗯,这边我可以看。打开一下公众号之前,我有一些测试等等,我给他先删掉, 我是刷新一下这个页面,让他重新来。也是也可以继续右键给他把那个 copy 的 助手给他唤醒起来,然后输入我们的需求。 呃,像公众号、小红书这些的话,我们其实也可以做一些自己专有的,让它熟悉我们自己的拍版风格的一些 skill, 而且还可以让 ai 它能去生成图片,就找一些可以生成图片的模型生成。 嗯,这边它已经录好内容了,那我就直接给它,让它开始帮我开始写吧,我也没仔细看这些内容。 嗯。像一些排版啊,一些素材,你可以写成一些专有的 skill, 就是 自己用的。 呃。之后就可以很好就让他按照我们自己的一个习惯来进行排版或者是语气编写。嗯。现在的话我让他开始帮我编写了,看看他能完成一个怎样的效果。 呃。一样的,在这个绘画这边也可以看到他的一个大概的一个进程 啊。我过来的时候他已经帮我填好了,然后像这些排版你们几他也比较好的放上了,还有一些这些其他的内容。 呃。如果再就是按照自己的需求来的话,也可以按照就是增加更多自己的需求,应该是能够非常好的帮助自媒新媒体运营这些去完成他的一个文章的编写。 然后假设一个脚本开发的需求。呃。也可以直接让 ai 他 来帮我把这个脚本完成。呃。像这里我再新建一个绘画,然后把我的需求给它弄上去。呃。我想写一个这个三角洲的一个一个数据网站的一个优化脚本。 嗯。然后他会先看一下这个网站大概是个什么情况,然后再看一下了解一下我的需求。像我的话我想把这个输出卡在背的一些数据把它放到首页来。 呃。不然每次都需要点进去,或者是把一些其他的数据给他放到首页去,这样就不用每次都还要切换一些不同的 type, 或者是打开一些打开很多个 type 去查看这些数据了。 嗯。可以看到的进度。他现在的话 啊已经开始生成脚本代码了。 那我来试一下 啊,他把这个数据给我放到最下面了,不过,呃,应该给我放到最上面去,不过没事,这个关于这种的样式话,我们可以继续给他提问,就是把发送需求要要他把这个脚本继续的调整。 嗯,大概就是演示这一些内容,大家感兴趣的话也可以加一下这个 qq 群或者是 discord 啊,我们也可以聊一下 小本猫 ai agent 的 后面这个发展的一个方向,也可以做一些大家可能日常工作中啊用的比较多的一些 skill。 嗯,大概就这样,感谢大家的一个观看。

大家好,今天咱们来简单测试一下最近阿里开源的这款 page agent 网站操作员啊。首先我们打开这个网站,把网站中的这个按钮给它拖到书签栏这里,然后打开需要进行自动化操作的网站, 再点击这个标签,在网页中就会出现这个输入框,下面我把我想要做的事情粘到这回车这个网页就开始进行自动操作了啊, 他要先进行思考,然后开始动了, 现在就填好了,现在就根据我的指令把有的信息该填的就都填了,然后现在点提交就可以了。

现在的职场,谁还不会用两下大模型啊?但你发现没有,天天变着花样写提示词,遇到复杂任务, ai 还是会翻车。为什么?因为你只是在把 ai 当做高级的问答机器用。 真正拉开差距的是懂 ai a 智能的人,他们已经在给大模型装上手脚,让它变成一个全自动干活的数字。牛马了。听懂了今天这期视频,你就不再是那个跟 ai 抢饭碗的人,而是那个坐在后方指挥 ai 带兵打仗的老板。 这就是我们今天的整体脉络。首先第一部分,我们先来搞清楚 agent 到底是个什么概念,最重要的是我们要看看他是怎么做判断,怎么拍板的,也就是他的核心决策流程。 搞懂了这个,你就懂了他的灵魂。嗯,不过光讲理论肯定有点干。所以第二部分呢,我会拿一个智能家居的例子,带你随战推演一下,来看看 agent 是 怎么像一个真人管家一样,一步一步去帮你把空调调好的。 有了直观的感受之后呢,我们就进入到真正的硬核拆解环节了。我们会把 agent 的 大脑拆开, 看看里面最关键的三大组建,看看它是怎么做任务规划的,怎么拥有记忆的,以及遇到难题时呢,是怎么自己去调用外部工具的。把这三块拿下,你对 ai 的 认知绝对会超过身边百分之九十的人。 好了,我们正式进入第一章,来看一下 agent 的 概念,还有它的核心决策流程到底是怎么转起来的。 其实很多朋友可能会有个困惑,就是现在大家都在谈大模型,那么大模型和 agent 的 界限到底在哪里?今天我们就从最底层的逻辑把这件事给讲清楚,我们先来看一下究竟什么是 agent。 其实呢,用一句话来概括它就是把我们人类的思维习惯给量化了,变成一道程序了。 那你看上面,这是我们平时最熟悉的标准的大圆模型,也就是大家常用的那一种聊天框,你给一个输入,然后呢,他在脑子里面单纯的思考一下,然后就甩给你一段文字输出,这就完了,非常直接。 但是呢,你看下面一个真正的 age 的 智能体是怎么干活的,这就完全不一样了,他除了要去感知外部环境,最核心的是中间这个过程,遇到复杂任务时,他不仅仅要思考,还要翻看过去的记忆,还要做规划,还要去调用工具, 把这几样凑在一起,最后才变成一个实际的行动。也就是说,他不是一个只会陪你聊天的打字机,而是一个能够自主理解,然后去把复杂任务搞定的数字员工。 好,我这么说呢,可能会有一点抽象,不过没关系,你看下面这个例子就特别形象。假设呢,我现在给你一个任务,把一颗钉子钉到墙上, 如果是纯 l m 的 思维,他就在那疯狂的空想,嗯,这个钉子应该以多大的角度倾斜,用多大的牛的力, 想的再完美,这个钉子呢,也进不去,因为他只有脑子,没有手脚,无法完成任何的真实的物理动作。但如果是换做我们人类的思维呢?或者是说 age 的 思维,他是怎么做的, 他会去规划。哎,光靠手按肯定不行,我得去拿一把锤子,然后呢,我的左手先去把这个钉子扶正固定好,接着用右手拿起锤子,最后呢,对准钉子砸下去,你看规划顺序,拿工具,然后分布行动。 这其实就是 agent 的 区别于普通大模型最大的魅力,长了手脚能够干活好。既然知道他像人类一样会干活了,那么在代码层面或者说架构上,他是怎么搭起来的呢? 我们来看看这个核心的架构图,想构建一个真正好用的智能体,其实就是靠这四个基础的组建配合,缺一不可。 正中间这个粉色的就是这个核心大脑 agent, 围绕它的有四个模块。我们先看左边 tools, 也就是工具,你看这里面有日历,有计算器,有代码执行器,有搜索等等。 这就像是给大模型发了一部连着网的智能手机,还遇到不会算的题,就知道自己去调用这个计算器。那上面这个呢,是 memory 记忆,记忆又可以分为短期记忆和长期记忆,要让它能够记住你上一秒刚刚说了什么,或者是记住你上个月定下的喜好。 右边这一块是 planning 规划,你看它包含了思维链,任务拆解,还有自我反思等等等等。遇到一个大难题,他不会一口吃个胖子,而是会拆几个小目标,一步一步来, 我们再到下面这个,下面呢是行动 action, 所有的思考最终都要落地成实际的操作。其实对于我们搞 ai 的 人来说, 弄清楚这四个组建的结构非常有用。以后不管市面上出了什么号称颠覆性的 ai 应用,你套用这个图一看就能一眼看穿它的底子到底有多深。 那么关于这四个组建是怎么配合起来运转的?我们可以来看一下下一页 agent 的 决策循环。你看这张图,这其实就是一个不断纠错、打怪升级的闭环。第一步你看绿色,这里是感知,先从外部环境接收到输入, 弄清楚用户到底问了什么,或者是遇到什么麻烦。接着进入第二步规划,大脑开始高速运转,把这个大任务拆解掉,生成第一步、第二步、第三步。 然后第三步是红色这里行动,他直接拿着工具去执行规划好的第一个小任务,但是他干活就结束了吗?并没有,这就是他和死板程序不同的地方。然后到蓝色这一部分观察, 还要去看看刚才这一下弄完之后,外部环境的反馈到底是好是坏。这个时候呢,你可以看左边这个菱形,就有个分叉了,如果反馈良好,那就顺理成章的继续执行下一步规划, 那万一反馈不佳呢?比如任务搞砸了,或者遇到了报错,这时候它就会触发最右边的这个 replay 重新计划,它会停下来反思,并且修改后面还没有做的规划。然后再一次去行动,去观察,这个循环会一直转, 直到当前的这个 task 彻底完美的完成。你看,知错能改,还能自己改方案,这就是 agent 最迷人的地方。 好了,我们就把 age 的 底层流程,也就是这个感知规划行动的循环图给讲完了,但是说实话, 光看图还是有点干,脑子里面没有画面,对吧?那么我们现在进入第二部分,直接拿一个我们平时很熟悉的场景智能家居来做一个实战推演,来看一下这个底层循环套到现实生活中,到底是怎么一步步转起来的。 你看这里有个具体的 task, 它的任务呢?很简单,系统要根据家庭成员的需求去调节室内的温度和灯光。那第一步肯定是感知 sense, 系统得知道你想干嘛。最常规的情况,比如说你下班回家随口说了一句,哎,我有点冷,把温度调高一点, 就是最基础的语音输入,把声音变成了指令。但是如果是一个非常高级的 agent, 它的感知就不只是听懂字面意思这么简单了,它还能够做情感分析。你想,如果你今天在外面冷得不行,回家一推门,非常暴躁的喊了一句,你能不能把温度给我调高一些, 然后冻死我了。这个时候,系统灵敏地捕捉到了你强烈的愤怒情绪,它就不会是慢慢地去处理,而是会立刻准备一个非常快速甚至呢带有一点安抚情绪的响应动作。这就是精准感知。 好了,感知完了, age 呢,就开始用大脑去规划了,也就是 plan。 那 其实是一个结合记忆去综合评估的过程,不是说你想调高它就闭着眼睛调,它会怎么想呢?首先,它得确认一个基准线吧, 他会去读一下当前的室内的温度哦,然后发现现在是二十度。接下来重点来了,会去调用记忆翻看了一下历史的偏好和生理数据,发现去年冬天你大概一百二十斤的时候, 觉得冷,会通常设置为二十九度。但是他一看最近的数据,哎,你今年长胖了,长到了一百六十斤,可能变得相对怕热了,所以他综合一评估,觉得直接干到二十九度可能会让你出汗。于是他的最终规划出来了,决定不升到二十九度,先调到一个比较折中的目标温度, 并且自己生成了一套语音告知你的话术。好,规划好了,那下一步自然就是行动 act。 这其实就是真正的去干活,去做执行了。你看,他具体的动作是控制空调把温度升至二十六度。 同时呢,给出一个情绪稳定的反馈,语音播报说,我已经将温度调高到了二十六度,请您稍等,房间将逐步的回暖。即使到这一步,市面上普通的智能音箱也就结束了。他不理你了,但是 agent 不 会停,他马上会进入下一步观察 observe, 还要去验证自己刚才干的好不好。他会持续监控环境温度的变化,更关键的是,他在等用户的后续反馈。 如果过了几分钟,你很舒服的叹了一口气说,嗯,现在温度刚刚好, ok, 那 么完美。结果系统判定任务成功,然后结束。 可是万一不完美呢?万一你过了五分钟,啰嗦着又来了一句,哎呀,怎么还是感觉有点冷啊?这时候, agent 最核心的 replay 机制就被触发了,他会自己进行反思,看来二十六度有点保守了,或者他今天确实冻得太厉害了,原计划行不通, 接着他就会进行策略的调整。比如说,他可能决定一度一度稳妥的往上加,或者一看你语气又开始烦躁了,干脆直接一步到位,拉到二十九度。他会不断去循环刚才这些动作,直到最终获得你的完美反馈为止。 你看,其实把这整个流程走一遍,我们会发现,真正聪明的 ai 就 应该是这样,能够自己思考,自己就错的。对于我们做产品或者是做技术的人来说,理解的这一套逻辑,你其实就能够明白,我们未来要做的不是死板的代码程序,而是真正懂用户的数字管家。 好,那场景推演完了,大家心里有数了,下面呢,我们就把 a 阵的大脑扒开,仔细来看一下它里面的这几个核心组建到底是怎么运作的。 那我们就先来看第一个,也是最核心的大脑中枢纽 planning 规划。其实一提到规划,听起来好像挺虚的,对吧?其实呢,规划的核心就只有两点,第一,怎么把一个特别大的任务给细化成一个个小任务。 第二,在执行每一个小任务的时候,万一搞砸了,怎么去反思?这其实呢,就跟我们在职场干活是一模一样的,你看右边就有一个职场任务分解映射图, 假设今天你的老板突然给你下发了一个大型的视频运营项目,你拿到手第一反应肯定不是直接开干,而是自我审视。哎,这活好像有点大,仅靠我自己的能力肯定是不行的,我得找人帮忙, 找谁呢?比如你不会剪辑,那你就得去找一个会剪辑的同事。在 a 帧的视角里面,这个会剪辑的同事其实就被我们视为一个可以调用的工具。 工具选好了,任务就开始拆解了,第一步,我来写脚本,第二步,调动同事,也就是工具去剪辑。第三步呢,我拿着成片去发布,很清晰对吗? 但是如果在第二步执行完你一审篇,发现你的同事剪的并不好,完全没法看,怎么办呢?这时候就会触发我们所谓的反思机制,你会停下来换一个人,也就是换一个工具,让他重新进行剪辑。这第三步,直到剪满意了,你才会继续往下去, 你才会继续往下走,去发布就是规划。说到底呢, age 的 底层,其实呢,就是在模仿我们人类这种遇事拆解,知错就改的打工人思维。 那么具体到人工智能的技术上,大模型是怎么拥有这种人类思维的呢?大家看这张图,这里有四块,虽然都是英文啊,但是不用怕,这其实就是我们大模型从单细胞生物进化到最强大脑的四个阶段,我们一个一个来看。 首先我们来看一下最左边这个最基础的,也就是单纯的输入输出,它就是个直肠子,你给个 input, 大 模型直接给你推一个 output, 这种方式最基础,我们根本不用去干预它的思维。 如果你问他一加一等于几,他能够解决,那如果你要他去写一个复杂的商业计划书,这种单线脑回路啊,必定翻车。 所以呢,后来大家就发明了后面这种技术, chain of thought, 也就是大家经常听到的思维链,简称 c o t。 它其实就是引入了一句魔法提置词指令, think step by step, 请一步一步地思考。 加上了这句话之后,大模型就不会直接去瞎猜答案了,他会把问题拆成 step one, step two, step three, 一 步一步推倒,最后输出结果,那确实让它的准确率大幅提升了。 但是思维链有一个非常致命的缺点,他是一条单行道,你看图上这个箭头,是一条线走到底的。如果他在第一步想对了,第二步脑子突然抽风想错了,那对不起。哪怕后面第三步逻辑再完美,最终的结果也是满盘皆输。 为了解决这种一步错,步步错的问题,技术专家们又升级了。你看后面这个叫做 self consistency, 自洽性。其实呢,它就是思维链的延伸。既然一条线容易出错,那么我就同时去生成好多条思维链。 就好比我遇到一个数学难题,我找了四个算数专家同时去解析,最后大家都算出结果了,我怎么选呢?我取种数,也就是选出现次数最多的那个答案,听起来好像很稳妥,对吧?但是呢,他有一个风险,就是从众心理,有时候真理是掌握在少数人手中的。 如果有三条推导链都算出了一个错误的答案,两百,只有一条算出了正确的一百,那么模型一看,哎,有三个人都说是两百,那他就会去盲从去选两百。 那么怎么才能解决这个问题呢?我们就迎来了目前最强的大招,右边这个 tree of thought, 也就是 t o t 四位数。 你看这个结构,他就不再是一条线了,他长得像一棵大树一样。他的机制是,在走每一步的时候,他都会推导出好几个不同的分支,并且他会自己给自己打分评估。这里我们用走迷宫或者是玩二十四点游戏来打个比方就懂了。 那模型走到第一步十字路口,他会先评估向左走会怎么样,嗯,然后向右走会怎么样?如果他预判出向左走两步会是一个死符, 如果他预判出向左走两步会是一个死胡同,也就是评分极低,他绝对不会像思维链那样死磕到底。他会触发一个回溯机制,就像是毁棋一样,再回到上一个节点,重新去走右边那条路。 像这种拥有广度和深度前瞻视野,还懂得回头是岸的技术,才是真正高级的规划能力。当然了,这么聪明的代价也是有的,就是它的计算量很庞大,非常非常消耗 token, 直白一点说就是比较费钱,成本很高。 好,那这就是 agent 的 大脑里面负责做计划的组建,但是要你想想,光会做计划肯定不够,对吧?如果他做完就忘,或者连你上一秒交代的什么都不记得了,那不就成了鱼的记忆了吗? 所以接下来我们就来深度拆解一下 age 的 另外一个核心大件 memory, 也就是它的记忆模块。要理解人工智能的记忆,其实我们可以先回想一下,我们人类自己的脑子是平时是怎么记东西的, 你看呢?我这里把人类的记忆分成了好几个层级,最上面这个叫做感觉记忆,这其实是我自己定义的,也就是最早阶段的记忆,它非常非常短,可能就几秒钟。 就像你下班以后刷短视频,你刷到一个特别好看的美女的视频,如果划走之后马上问你,哎,刚才那个视频里面,美女左边那个柜子上放了什么东西,你肯定一脸懵对不对?因为你眼睛确实看到了,但是脑子根本没去存它, 还有像敲你膝盖会条件反射这种肌肉记忆也是不过脑子的。再往下看,我们黄色的这个是短期记忆,或者叫工作记忆,这就很好理解了。比如说你去菜鸟驿站拿快递,你女朋友飞快的给你报了一个取件码,五杠二杠四十一, 你在走向快递柜的这十几秒里面,嘴里会一直念叨着,可是你拿完快递呢?拿个响指的功夫, 这串数字你就忘得干干净净了。这就是短期记忆,只有你在执行当前这个任务的时候有效。最后,蓝色的长期记忆,从几分钟甚至到记一辈子都行。长期记忆还可以分两种,一种是显清记忆,就是你有意识去回忆的。 比如问你初恋长什么样,叫什么名字,或者问你中国有多少个民族,六个,对吧?这些你都能够脱口而出。另一种叫做隐性记忆,就像是你熟练之后骑自行车,或者是闭着眼睛在键盘上忙打, 根本不用去想先敲哪个键,身体自然就动了。 ok, 弄明白了人脑是怎么运转的,我们再来看一下 a 只能是怎么把这套机制给扳过去的。 首先呢, ai 其实自带了一种非常强大的先天记忆,就是大模型在出场之前被映塞了海量的互联网数据,他利用深度学习调整了几百亿甚至上千亿的神经元参数,他把中国有五十六个民族这种客观知识直接刻进了自己的参数里面。 当然了,它回答你问题的时候,并不是像我们人类那样,在脑子里面去放电影,去回忆,它是基于语义去预测下一个词该说什么?最关键的是,因为这些知识是存在硬件里的,只要不出 bug, 它永远不会忘。 这方面呢,它比我们人类强太多了。那么 ancient 的 短期记忆在哪里体现呢?其实就是我们常说的理解上下文,也就是 context, 你在和 agent 的 对话,交办任务的时候,你发给他的指令,或者是他刚才调用工具返回的结果。在程序里面,我们一般是把它塞进一个临时的一个变量容器里面,比如说存到一个列表里面, 或者读取这个列表,它就能够跟你进行连贯的对话了。但是啊,请注意,这种记忆是暂时的,一旦你这个任务跑完了,或者是程序一关,网页一刷新, 那不好意思,内存一释放,他的记忆就彻底清空了,又变成了一张白纸了。那这就带来一个很现实的问题,如果我想要一个懂我的专属管家,我总不能每天一上线都重新告诉他一遍,我不吃香菜,我喜欢室内温度设在二十五度吧, 那就需要给他构建真正的长期记忆了。我们来看下一页,那就是我们现在做 a 制的非常核心的一项技术,叫做记忆的持久化。 这通常需要用到一个外部的存储戒指,叫做向导数据库 vector db。 这个我们前面也讲过,其实它的原理并不复杂,就是把你的聊天记录,你的个人喜好,通过一种叫做虚拟化的技术,变成计算机,能懂得向量代码,然后死死地存进硬盘里。 我给大家举个最常见的例子,你看右边这个图,这就是 deepsea 的 历史绘画窗口,比如说你昨天问他衣服上有油渍怎么处理,今天你点开昨天那个聊天框,接着问一句, 哎,除了上面写的,还有其他方法吗?他立刻就可以顺着你昨天的思路往下面答,为什么?因为他其实是去后台的下到数据库里,把你昨天的记忆给重新捞了出来,再一次喂给了大脑。 不过对我们做开发的来说,这里面有个策略权衡的问题,用户的废话其实是很多的,比如说,你好在吗?嗯嗯,那我们总不能把这些毫无意义的废话全都塞进昂贵的数据库里吧? 所以呢,我们在设计 agent 的 时候,通常会在嗯,把它存进数据库之前,先让大模型对刚才的那个对话去做一个总结。招标 summarization, 把核心招标提炼出来,然后再进行持久化存储, 这样一来,既省了存储空间,又提高了他以后去回忆和解锁的一个精确度。好了,那我们就已经把 a 整的大脑给拆解完了, 他现在能做计划了,也有长期记忆了。但是你看,如果一个人,哪怕他有智商,有一百八,仅此聪明,但是他的手脚被绑在椅子上,那他想的再多,记性再好,也是干不了活的,对吧?所以今天我们这套 a 整的架构的最后一块拼图就是 tos 工具使用,给智能体装上四肢。 目前在开发中,我们用到的工具大体分为这么三类,第一个是左边这个预制工具,顾名思义就是大模型官方,比如说 openai 啊这种直接给你封装好的现成的能力。这就好比你买了个新手机入场,自带了浏览器、计算器、天气这些基础的 app, 拿来就能用, a 只能遇到不会的东西,可以直接去调用官方的联网搜索,或者用内置的代码解释器。第二种是自定义工具, 你想啊,官方的工具再牛,他也不可能知道你们公司内部的事情,对吧?比如说你想让 a 政的帮忙查一下你们公司上个月的员工考勤,或者是调取你们公司 erp 系统里面的财务数据,官方肯定是没有这个工具的, 这就需要我们自己公司的程序员把内部的 api 接口包装一下,做成一个特定的工具,递给大模型去用,就完全是量身定制了。第三种呢,是工具级, 其实呢,它就是一个打包好的全家桶,比如说我们用啷称这种开发框架,或者是微软的云服务,它里面直接塞了,它里面呢,就直接给你塞了几十上百个五花八门的现成工具,你只要一接入这个生态,那么 a 整的能力就瞬间丰富起来了。那说到这里,可能有人要问了, 现在的大模型不是号称上知天文下知地理吗?那你想不行吗? 其实原因很简单,在模型出场的那一刻,他的脑神经,也就是参数权重已经固化了,我们不可能每天花几百万的算力去重新训练他。所以呢,我们必须通过一种叫做 function call, 也就是函数调用的技术来给他开外挂, 主要是为了弥补他三个非常致命的短板。第一就是他没有实时信息,你问一个没有联网的模型,今天外面下雨吗?他脑子里的知识可能还停留在两年前,他怎么会知道今天的天气?但是呢,有了工具,他就能自己去调用外部的天气。 a p i 现查现报。 第二,大模型做不到绝对精确的计算。实际上呢,大模型本质是一个文科生,他是靠概率去接话的, 你让他做微积分或者去算特别复杂的财务报表,他极其容易一本正经的胡说八道。那么有的工具怎么办呢?他就不自己去死算了,他会很聪明的写一段 python 代码,然后把代码扔给代码执行,继续跑, 跑出来的结果那绝对是精确的,他再拿回来告诉你,这准确率直接就拉满了。第三个短板是什么呢?就是他没法去访问专有信息。模型用的都是网上公开的资料,不可能知道我们个人的银行卡余额,也不可能知道我们企业内部的机密数据,只有通过挂在私密数据库当做他的工具, 他才能真正变成我们贴身的私有管家。 ok, 到这里,工具讲完了。其实讲了这么多,我不知道大家有没有这种感觉, 就是现在 ai 的 进化其实和我们人类自身的进化真的是一模一样的。回想一下,我们人类是怎么走过来的? 其实呢,我们人类的身体力量非常有限,我们跑不过猎豹,力气也比不过大象。但是呢,我们聪明啊,我们通过造了锤子,造了汽车,发明了电脑,硬生生的用工具突破了我们肉体和认知的物理限制,对吧? 那现在的 ai 呢?大鱼模型其实就像是一个刚刚觉醒的超级大脑,他非常聪明,但是一开始他只有脑子,没有手脚。 可是现在,当我们给这个超级大脑配齐了四大组建,就是我们今天讲的有了记忆,去沉淀经验,有了规划,去拆解任务,有了行动力,还递给了他各种各样的外部工具。这一下,他的潜能就被彻底激发,彻底涌现出来了, 它不再是被关在网页里只能陪人聊天的打字机了,而是真正能在这个复杂的外部世界里帮你独立去干活的数字员工了。 那么所以到底什么是 agent 的 核心本质呢?其实 agent 绝对不仅仅是一堆冷冰冰的代码程序, 说到底,那是对我们人类解决问题逻辑的一次完美的量化。在我们人类遇到问题时,那种本能反应,先去感知外部环境,然后在脑子里面去做规划拆解,接着亲手去物理执行,做完了以后还要观察反思,去看看做的好不好。 他把这一套循环闭环完美的复制到了机器身上,而正是因为有了这一套机制,那模型才真正摆脱了那个你戳一下,他才动一下的那种被动的对话框形态,真正进化成了能够自主应对复杂外部世界的一个智能体。 对我们经常要跟 ai 打交道的人来说,理解的这一套底层逻辑,以后不管市面上又出了什么天花乱坠的 ai 新概念新产品,你套用今天这一套框架,一看就能一眼看穿它的股价。 好,那到这里,我们今天关于 ai agent 的 核心原理解析就全部讲完了。从最基础的概念流程,到智能家居的实战演练,再到大脑里的规划记忆和工具,这三大核心组建我们都过了一遍,希望大家听完能够真正搞懂大模型到底是怎么自己去干活的。好了,我们下期再见。

刚安装完蝌蚪的时候,是不是觉得啥都干不了,甚至反应还有点笨?不用怀疑啊,因为你还没有去蝌蚪的 hop, 给它装上 skill 技能!蝌蚪的 hop 上一共有一万七千多个 skill, 我 从下载量前三十名里结合自己的高频使用经验,做了一个深度的交叉筛选,只推荐了十个,全部装完,你的 a 阵的战力至少翻三倍!第一个, gela rita 安全审查员,你的数字保镖,安装任何 skill 前自动扫描风险,拦截恶意代码,把好安全第一关。 find skills 技能,管家技能中的技能,用大白话告诉 a 证的需求,它会自动地从云端找到并帮你安装好对应的 skills memory。 净化记忆库,解决大模型失忆症啊!自动存储成功经验和错误日记本地向量存储,让 ai 越用越聪明。 tailorrent search ai 搜索引擎,让 agent 学会上网,不同于传统搜索,它会直接返回干净结构化的数据,让 agent 拿到就能用。 samui 全能摘药内容的粉碎机,网页 pdf 音频一口吞,瞬间提炼,精准摘药信息获取效率直接翻倍。 free 子全自动化首眼,打破资源壁, 让 ai 像真人一样打开网页,点击按钮,填写表单截图,实现端到端的自动化。 superpower 行为管教 ai 的 紧箍咒,强制 agent 先审查 skills 再行动, 杜绝偷懒和瞎搞,让执行更加的严谨。 get up 仓库管家,程序员的摸鱼神器,直接接管 s 九 p r 和 c r 流程,一条指令全自动搞定代码仓库杂活。总结一下, opencode 的 强大不在于它本身,而在于你如何组合这些 skills。

大家好, cloud 在 发布这个 open 四点六的时候, cloud code 也有一个新的功能,叫 cloud agents teams, 就是 你可以自己开启一个这样的团队去开发功能。那本期视频呢?将从四个方面来介绍一下 agent teams 是 什么, 然后我也结合了一个网页,里面有一些动画特效,来给大家详细的讲解一下 agent teams 和 sub agents 的 区别是什么。因为这两个问题就是什么是 cloud agent teams。 在了解这个 claw 的 teams 之前,我们来看一下整个我们跟 claw 的 进行对话,或者说跟类似的 a 技能对话的一个发展的历程。 那么一开始的时候,当你启动一个这样的 claw 的 实力,那说明对话的时候只有你和这个 claw 的 主主 agent, 我 们把它标志成叫主 agent, 主代理,那这个阶段叫做啊,我们叫做主代理进行对话,那这个阶段叫做独行侠时代,就是只有你和主代理进行一对一的对话, 那这个总对话方式优点就是简单,你说什么他就做什么,大家都是创新的去执行,就是你发布任务执行完成,你看结果,然后再接着发布第二个任务。 那这样的缺点是什么?就是你的上下文窗口有限,就是上下文很容易就被塞满了,比如说你现在要让他进行一个 p r d 文档的书写, 那么生成的这个 prd 文档可能有一万个字,那这一万个字就会占用你跟它对话的这个上下文,那就会触犯压缩,而且你每一次只能做一件事情,对吧?写 prd 文档的时候写 prd 文档,写代码的时候写代码,那为了解决这个三个问题呢? 那就进入了我们的这个 safari 子代这个时代,那子代的时代就是你的有些事情可以分配给其他的这种代理去执行。比如说我刚刚说到的 写 prd 文档,那么你可以有一个叫产品经理的子代理,你发给他,让他去创建这样的 prd 文档,那么他创建 prd 文档生存那一万个字,他是不会在跟跟你的主对话,跟你的主代理之间是不会影响的,不会影响的, 我们假设一下,你跟主代理之间进行了十次对话,产生一百个字,这个时候你需要去创建一个文产产品说明文档,这个时候如果你发给这个 产品经理,让他去创建了吗?产品经理创建了一个一万次的这个文档,他创建完成之后,他自己的上下文就销毁了,然后你这边的上下文还是那十轮对话的上下文, 如果不使用这种子代理,那么你就会把这个 p r d 的 这个整个生成过程产生的上下文塞到这个主对话里面去。所以呢子代理 的出现就解决了这么个非常大的问题,就是断线纹隔离,而且他能并行执行。你在写代码的时候边写边测试,那么你可以设置一个写代码的主代理,主代理就是你写代码,然后子代理去测试你的代码,那这样的话就并行执行,然后还选能选择不同的模型, 对吧?你测试可能是你要求没那么高,要求快速的,那么你会选择一个这种 flash 啊,或者其他的这种型号的模型。但是这种子代理也有什么问题呢?就是每一个 agent 子 agent 之间是不不能沟通,不能交流的, 大家都是独立完成任务,然后告诉一个这样的摘药,给到我,给到你,然后你其实你如果你需要完成的是一系列的任务,比如说你现在做一个从零到一,做一个产品,那这里面涉及到 prd 文档,涉及到前端代码,后端代码, 对吧?测试,那大家其实都是围绕怎么从零到一完成这个产品这一系列的任务来的, 那这个时候你可以想象一下,在一个公司里面,如果你要做一个产品,那么肯定是一个协助的过程, 那前端开发,开发完之后如果有什么问题需要跟后端去对接去沟通,那后端弄完之后可能要找测试去测试,那需每一个人之间是有沟通的。所以呢, it 的 teams 就是 拥有了这些 teams 的 这个优点, 它除了有 sub agents 的 这个特点之外,它又新增了个,新增了些,每一个这样的子代理 agent 之间都是可以发消息来沟通的,那有一个 team leader 来负责整个的这个协调, 整个队伍的这个任务分配协调啊,这个消息的发送啊,或者其他的这种东西,它有一个总的这样的一个去管理,就跟我们真实的团队是一样的,那 这种就做到了真正的就像一个很强大的一个这样有效的这种工作运行的工作方式。所以呢, teams 比这个 subteams 又进行了一个升级。 那我们再往下看,就是用一个公司来比喻理解的话,那普通模式就是你只有你一个人,只有你一个人,你一个人能力是有限的,你只能创建去执行,按顺序执行这个任务。 那纸质问题就是你是一个老板,你派人去帮你查资料,审代码,那么你关注的是这个结果, 你关注的是结果,而且他们各自的这个做的这些事情是没有任何联系的,是断开的。查资料是查资料, 省大脑,省大脑,这两之间是没有任何关联关系的,是不存在,他们需要沟通,不需要去协助,非常独立,所以他们能有拥有独立的上下文,能够干完这个事情就把上下文销毁掉,会影响那 tips, 就是 这些人需要去沟通,去共享或整个任务列表的。所以说 teams 就 非常适合你。这一个大任务里面有很多这样的小任务,那每一段的小任务需要一个人去参与, 而而且是共同去参与,去讨论,而不是像组织人体三倍镜词一样去可以他们的每一个组织人体是没有任何的交流的,零交流 是没有没有这共性的,所以这是两个是非常非常大的区别,你只有把这两个区别搞清楚了,你才能知道什么情况下我要用子代理,什么情况下要去开启一个 teams。 所以 一定要抓住这一点,队员或者说你子代理之间需不需要沟通, 他们是不是做的是同一个事情,只是不同的阶段,不同的角色。那这个时候你就要开启 teams, 如果不需要沟通, 他做的是个独立的事情,那么这个时候就是开启的是紫代理。如果你要开启,或者说开启一个这样的一个 team, 是 吧?他是有这些,比如说有这样的一个三个这样的一个队员,前端后端测试,那么还有一个队长,那队长的任务就是负责创建团队分配任务和协调, 那队员的话就是你要各个去完成自己的这个角色了,那这边呢?还有个任务任务版,那还有个消息可以去沟通, 去沟通,那这这个是他的步骤,创建团队任务拆分,那在后面的实战例子里面可以看到他这个过程,创建团队任务拆分、并行执行、沟通、协调、汇总、清理,那完成之后他是需要去做一个清理团队资源的, 那我们可以来通过这样一个动画来进一步来加深大家对这个 sub agencies 和这个 agent teams 的 一个区别。如果我们现在是子正人体,那我们可以开始来演示,然后点一下,开始演示。第一步就是你自己啊,主对话就是我们刚刚说的开启的这个 cloud code。 好,第一个 ok, 你 现在需要子代理做这三样事情,安全审查员、性能分析师、测试检查员,这三个子代理派出去,那么这三个子代理之间是不存在任何的这个联系的。好,开始干活了, 开始干活了没有? ok, 他 正在干,干活了啊,干完了,这是他的一个结果。第二个这三个是可以并行执行的,这是演示,我们就可以让他那个 是这样。 ok, 他 执行完成之后呢,每个人都会有个结果,看到没有,那这个结果的摘药就会同步给 我们的主绘画,就是你同步给我们的这个主绘画,那么我们可以最后一步就是会,他会把这个生成一个这样的结果啊,就会告诉他,哎, 每一个人不同的结果,让他去拿到,拿到这个摘药去使用。那你对于这个主绘画来说,他是不用关心安全审查员里面到底是怎么去做的,他不用,他只要关注 这一部分东西就行了,他只要关注这本,这部分是会传给先前摘药,是会传给我们的主对话的,就回到我们的跟 cloud, 就 回到我们这个 cloud 的 对话里面去。那么 teams 呢?是什么区别呢?我们也可以看一下。这个好,开始,那这边队长开始组建团队了, 比如说现在要创建一个团队来开发用户登录功能,它这个功能非常小啊,那实际的场景里面这么小的功能是不适合用来开启个 tims 的。 ok, 好, 开始分配任务啊。前端后端测试,那么就会创建一个这样的一个任务列表, 那这个任务列表的话就会分配好谁干什么,谁干什么。那这边的话会有一个这样的一个,比如说测试的话可能会依赖 后端,或者说前端的一些步主要完成它才能测试,那这个时候它就会处于一个 block 状态就阻塞的状态,它是等待的状态啊,它是依赖前面完成之后它才能去完成的。你在开启这个 teams 的 时候, cloud 那 边会告诉你这个有一个 等待的一个状态。 ok, 我 们下一步开始。好,现在就是前端后端同时开始去领任务去开始开发了,对吧?前端前端后端开始领任务去开发了,那只有这个测试现在还在等再进行下一步。好,这个时候我们的前端 在问啊,前端在问,哦,我们需要一个这样的一个接口,他问这个后端我们需要一个接口,那后端就会把这个接口啊告诉他,发给他, 注意啊,这就是一个最大特点,他们之间会通信啊,会沟通,会对话的,他他这边前端拿到之后,他就开始去开发了,所以这一块是非常非常重要,他们之间是可以沟通的。 下一步好,前端他要完成,后端他要完成,前端他要完成后完成,这个时候测试的这个条件已经满足了,这个时候他就需要去进行一个这样的测试了,他就可以开始进入测试了。 ok, 那 整个测试完成之后,那整个任务就完成了,就会告诉队长任务已经完成了, ok, 完成。所以在整个两个对比的过程中,我们就可以明显的看到子正体跟 tms 之间最大的区别就是子正体跟子正体之间,他是 一个是不能沟通,一个是能沟通,他能沟通的,这个为什么能沟通?就在于 teams 的 每一个 agent 都会继承这样的上下文,每个人的上下文都是一样的, 就说相当于你在一个公司里面,你的 teams 每个团队成员对于你现在要做的事情是一定是了解的很清楚了,不然的话就会偏题了,所以这个是非常大的区的区别的。那我们再回到这个啊文档当中, 在前面我们已经讲过了,怎么去,什么是 teams, 什么是 smartins, 相信大家已经有啊,有一定的认识了,那这个时候我们就来个实战,那这个实战呢?就是我们要去开启这样的 cloud agent team, 那 有两种方法,一种是你可以通过这种房间变量的方式去设置一个这样的零使用的,那么你再下一次开启终端设置,这个又没没有了,那么一种永久使用的,就是通过配置的方式就配置到这个 cloud 的 这个 settings 的 目录里面去,那注意啊,就是如果没有的话,你可以新建一个, 然后的话把这个内容保存一下就行了。但是呢,目前因为 cloud agent team 还是个实验性的功能,所以还是比较建议大家使用这种这种方式,如果你想一直用的话,也可以这种方式没问题。 那刚刚说了,终端你可以使用这个啊,自己系统自带的终端,或者使用 v s code 啊 cos 这样的终端也可以使用像 t max 这样的终端,我看这个 t max 好 像不支持 windows, 所以 说大家用普通的终端也可以, 然后使用 agent teams 的 话,就是用关键词啊 agent team 这种方式去使用就行了。 ok, 那 我们就开始看一下这个整个的效果吧,当你把这个 agent teams 在 你的设置文件配置好之后,或者说设置临时变量,那我们就可以开始去使用 agent teams。 那 么在使用 agent teams 的 时候,你可以使用各种终端,比如说你系统自带的终端,或者说使用 vs code, 也可以使用 cos 这样的,它们都有这种终端,那么这些终端的话, 你开启这个 agent teams 之后,是需要通过 shift 加 page up page down 就 上下键来去观看每一个队员的情况,那么你如果需要在一个屏幕里面分屏去显示的话,那么你可以使用这种 tmax 这个这种终端方式。 那如果是你是 mac 电脑端,你装完之后直接启动 tmax 就 行了,那启动完之后呢?那么你就可以去开启我们的 cloud code, 开启完之后, ok, 那 么你就可以去开始我们的这个呃任务了。那么我这边是让他阅读我们这里面有一个 prd 文档,那 这个 prd 里面的文档啊,就是具体的这个网站的内容啊,然后他创建一个这样的 agent teams, 那 这就是一个触发这个关键词,让他知道我们他要去创建一个这样的 teams 去完成开发。那么我是指定了三个这样的队员啊,一个是前端开发,一个这样的 teams 去完成开发。那么我是指定了三个这样的队员啊,让他也可以根据情况来设置队员。 那么这里就是使用关键词的方式去出发的。那么这里呢有为什么会有个 prd 文档?其实我刚开始是也是创建一个团队,团队里面是有产品经理,让产品经理去啊,去生成这样的 prd 文档。但是我发现 所有的队员都会在等待产品经理把 prd 文档写完之后才开始去做,开始去干活,那这样其实是一种变成一种创新的方式了,那所有的队员都在等待一个去完成,就会被堵塞, 那我觉得这样的一个流程是不太适合用 agent teams 的, 所以呢,我用其他的方式去生成这样 p r d。 文档,那么你在生成 p r d。 文档的时候,你也可以开启一个这样 teams, 你 可以去设置一个什么市场调查员,或者说一些行行业的一些分析员,他们这种不同的队员去 通力去协助,然后去生成一个 p r d 文档,那最后再进入到这个开发流程去设置一个,这样我目前的这种 agent teams, 那 这样是比较合适的,就是 teams 最大的用处是 并行去开发,而且能互相沟通,这是他最大的优点,如果你这个任务是串行的,那就会出现很多问题。 ok, 他 这边已经去开启了这个啊,多个这样的考的实力,大家可以看到 会有三个这样的实力啊,分别代表了这三个不同的这个队员,那第一个是前端开发工程师,看到没有?第二个是这个后端开发工程师,那这边的话应该是一个测试 测试工程师,那么他这边就开启呢,就开始去沟通,去沟通了,他们就是相当于是并行去执行这样的事情,那么这边多个队员就开始在这边去 做事情了,比如说测试工程师,他就会去制定这样的测试用力,那么前端就在正在开发前端,那如果说他们之间需要去协调的话,比如说前端在等待后端的接口,他就会给他发信息,告诉他我需要一个后端的接口来帮我去实现, 那它是人们之间是可以互相去沟通交流的,那么在这个后端开发这边的话,它是使用的是 java, 那 其实在我们的 p r d 文档,或者说我们其实应该在里面说明就是使用什么技术栈,这样是更更加好一些, 它自己去根据情况去选了一个这样的技术栈。那么在前面例子里面我使用的是这个啊智普和这个 kimi, 我在整个例子里面其实就是我开始使用的是 kimi, 但很快它这一天的用量就用了,所以它是消耗 token 是 非常非常多的,所以我又把它切成了这个质朴的这个模型。那么之前我也用 opus 四点六,那 那的确是用用不起啊,真的是用不起太太,消耗 token 实在是太多了啊。最后我们来总结一下,就是啊,我们使用 cloud agent teams 的 缺点和使用建议啊,第一个缺点, 第一个缺点这 talk 消耗巨大。第二个就是呢,缺点就是上下文是笼鱼的,就是以我们现在来设计的角度来看,因为每一个 队员他是一个独立的实力,他都要把这些上下文都加载一遍,比如说你的 cloud md 文件,对吧?你的这个 m c p 的 描述,你的 skills 的 这个技能的描述,每个人都是一样的, 每个人都是这样就开启了,你开启了五个队员,那就五个窗口,五个实力,那五个这样的一个上下文。第三个就是我觉得是非常大的一个问题,就是文件冲突, 比如说你如果没有分好每个队员去做什么事情,比如说你开两个后端开发工程师,那么这两个后端开发师可能会对针对同一个文件进行编写,就会产生文件冲突,大家都在抢占这一个文件, 写的东西都在一个文件里面,那就会有问题,所以说这个是一个非常大的问题,你在开启要去使用这个 agent team 的 时候,一定要把模块规划好,或者说你的每一个队员到底要做什么事情,这一定要想好,如果你都没有想好去做的话,那就是跟你不开是一样的, 或者说开之后反而效果没有那么好,所以第四个就是怎么去分配,就我刚刚说的怎么去分配队员,每个队员应该做什么事情,如果存在依赖性强的对吧?你要要 队员 a 完成之后你才能去,队员 b 才能开始去完成,那这样 team c 意识不大的,你创新没有,并且的效率高, 所以这种这也是非常的要依赖经验去来做这个事情。还有一个就是 agent teams 啊,现在是实验功能,就具体以后会发生什么样,或者是具体怎么个样子还不知道, 所以这个东西大家可以去用,但是不建议就说把它作为一个常规的一个开发的东西了,这里非常推荐大家使用三维剑士去完成很多功能,去如何的去利用三维剑士可以极大的提高你的这个效率的。 这边呢,我也是给出自己的建议啊,就是其实根据官方文文档中提到的这个 tims 最佳实践啊,他也在大多都是偏向于探索和辩论, 就是你可以让他多个队员去针对同一个主题来发表自己的意见,那最后得到一个这样综合性的一个结果,这种是没问题,因为 你辩论的话是不存在说去,比如说上面这些问题去文件冲突啊,干什么,大家各抒己见。还有一种像这种多维度的,就大家在不同的维度不同的方向去做事情,也可以避免冲突,然后也可能极大的发挥每一个队员,每一种队员的这个特色或特长。 然后呢,从零到一做 mvp 这个阶段也是适合,因为这里面就是啊,你能够很快去拆分不同的模块,比如说我刚刚引衍生的例子就是一个 mvp 的 产品,它就有几个功能,那你就可以分配 前端后端测试,那很快就是这个东西,就是这个过程就非常的清晰了,前端发展前端,后端开发,后端测试做测试,它不存在有相互交叉的地方。第四个就是 tim 饲料,作用是多个队员并行开发,所以 我一直在强调,如果你这个任务是创行的,互相等待的,那么是不太建议,那这个就是不要为了换个灯泡去召开这个董事会,什么意思呢?就是你不要一个小功能,也是开启这样 team, 那 这样是得不偿失,而且非常非常浪费的。那 ok, 那 本期视频到这里,如果你对 ai 编程有兴趣,可以多多关注。

当你一不小心在 skills 后面加了个 s h, 然后你就进入这个全球最大的 skills 网站,有帮你做数据库的,有帮你做 ppt 的, 有帮你写文章的,有帮你做海报的。面对着浩如烟海的七万个 skills, 文科生出身的你突然想通过 web coding 制作一个网站,然后你选择了一个名字叫头脑风暴的 skill, 并点击了复制,随机打开了软件 cursor, 并把刚刚的代码直接丢进了对话框。什么多余的话也不用说,下一秒这个头脑风暴 skill 就 装好了。 然后聪明的你对科室说,我想设计一个网站,适合家长带着孩子学习英语,咱们先头脑风暴下,然后再写代码。这个时候因为你提到了头脑风暴, 科室就激活了刚刚安装好的头脑风暴 skill, 并变身咨询顾问,并像产品经理一样开始和你沟通产品功能和需求,然后输出了一份 p r d 文档让你确认。再次确认后,科室就开始编程了,只需要三分钟,聪明的你发现你的第一次 web coding 之旅完美结束了。 严谨的你看了看功能,有阅读库,有生词库,阅读的文章有五种难度供选择,而且阅读库还支持随时更新,阅读过程中遇到的生词可以随时查询中文,还能一键加入生词库。 家长有单独的家长账号,登录后能看到孩子学习动态、时长以及生词库的学习情况。那聪明的你现在明白了什么是 skill, 而且怎么用了之后,你又想起来这个网站上有七万多条都这么牛的 skills, 然后你想赶紧用起来?别着急,我已经把适合非技术背景的我们最需要的十个 skills 使用代码打包整理好了。 其中有专门搜索好用 skill 的, 有用于生产 skill 的, 有做数据库的,有做 ppt 的, 有写文章的,有做海报的。有了它们,我们再也不用每次都从零去用提示词教 ai 做事了。学会了 skill, 就 等于培训了一个可以直接上岗的员工。我是拉斐尔,这是带你 web coding 系列的第二期,咱们下次见。

每日拆解一个 openclaw 热门 skills, 今日拆解 agent browser star 六八幺,下载量十五点五万以上技能定位,由 versal apps 出品的前端测试自动化工具,堪称 ai 时代的开发提效神器。核心功能包括 u i 自动化测试、模拟点击和工作流测试。 完整使用方法步骤一,一键安装 n p m install 记 agent browser, 然后运行 agent browser install。 步骤二,打开网页 agent browser open, 加上测试网址。 步骤三,获取页面元素运行 agent browser snapshot i, 系统会返回带有编号的 dom 结构列表。步骤四,自动化测试可以使用 fill 命令填入内容, click 命令点击按钮 screenshot 命令截图,保存测试结果。 使用场景场景一,开发阶段连调测试,快速进入测试环境场景二,复杂页面功能排查自动化执行交互流场景三,网页结构调试分析 dom 结构场景四,测试用力边斜辅助场景五,页面加载性能分析,及时发现白屏卡顿 技能总结, agent browser 是 ai 时代的前端测试利器,配合多模态 ai 模型,可以实现开发联调、交互测试、结构排查等操作。互动话题,作为开发者,你最想用它来测什么功能?点赞收藏关注,不错过每一期热门 skills 拆解!

你平常用 ai 的 时候会不会遇到这种问题?让他帮你做一个 word 文档,或者是帮你处理一个 excel 表格,亦或者是帮你制作一份 ppt, 你 会发现到最后他好像并没有办法去完成你的指令,然后到头来你还得自己去做。 其实说白了,这并不是这个 ai 的 能力问题,而是我们使用的方式可能不太对。那今天这个视频呢,我将教会你一个非常有用的技能,叫做 agent skills, 基于 anthropopy 的 cloud 大 语言模型。然后呢,你只要学会了这个 agent skills, 你 就可以让他帮你完成很多的事情,像是做 ppt, 做 excel 或者是设计海报都是不在话下的。那我们废话不多说,直接进入正题。 那首先第一个部分呢,我想跟大家讲解一下到底什么是 agent skill, 就 像 deepsea 拆的 gpt 和 jammer 一 样,其实这些语言模型呢,它可以帮助你完成很多的任务,可以帮你去编程,写作业,写论文,写各种各样的事情。 归根结底,他只能在有限的聊天框里面去进行一个输出,一旦你让他去做一个具体的事情的时候,他就没有办法了。 但是 skills 呢,就相当于给他安了一双手一样,你可以让他去帮你做更多的任务了。比如说你可以让他去亲自的帮你去做 excel 表格,或者是如果你想的话,还可以让他去帮你生成一些小红书的爆款。然后最有趣的就是,他还可以根据你的需求去定制化你个人需要的工作流, 是不是非常的有趣。那接下来呢,我们就看一下如何在 cloud 的 官网三分钟搭建一个属于你自己的 skill。 那 我们首先来到 cloud 的 官网,你可以在左下角发现这个地方有一个 skill 的 图标,然后点击它呢,你就会发现这里有三个分类,第一个呢叫做公共 skill, 这个地方呢都是官方出品的一些 skill 的 模板。 第二个呢就是视力 skill, 就是 它会有一些 skill 的 模板,你也可以去选择进行使用。还有一个呢就是用户上传的自定义的 skill, 那 三个分类呢,你可以根据自己的需求去选择你想要使用的功能。那接下来呢,我们来看一些实际的案例哈。第一个当然就是 ppt 的 制作了,首先呢,我们点击公共 skill, 然后选择这个 ppt x 点击开启,我们就可以使用它了。然后呢,我们就可以把我这一长段的提示词都输给他,让他去帮我完成这个 ppt 的 制作。我们可以看到哈,我这个 ppt 他 花费了不到一分钟就生成出来了, 大家呢也可以看一下他的排版,他的配色,以及他最后制作出来这个 ppt, 你 会给他打几分?欢迎在评论区留下你的看法。 虽然说这个 ppt 呢,对于一些大神的这种制作来说可能不是特别的好,但是我觉得它最大的用处呢,就是它可以在一定程度上节省你制作 ppt 的 时间。那可能以前你要完成这样的一份 ppt 制作需要几十分钟吧,那现在呢,不到一分钟就可以先生成出来一个,然后自己再慢慢改。 那第二个我要强烈推荐的 skill 的 功能呢,就是组合使用,比如说如果你有一份销售数据的报表,你可以让 skill 先去分析这个报表,然后呢帮你做一个 word 文档,进行一个总结, 然后最后呢再根据这个 word 文档去帮你生成相应的 ppt, 你 看到了吗?其实三个不同的功能是可以被整合进一个工作流的,那这样的话呢,就可以极大程度上的节省你的工作时间,提高你的工作效率。 那官方的 skills 呢?还有很多,大家都可以一个一个的去尝试一下,但如果你发现这个 skill 它满足不了你的需求怎么办呢?你还可以自己去写 skill, 那 有的观众可能就会觉得说,呃,那会不会很难?会不会需要一些编程的基础?其实都是不需要的。 那在这个 cloud 里面呢,有一个叫做 skills creator 的 工具,你只需要点击它,然后输入你的一个需求。比如说我这个地方,我想制作一个小红书的爆款文案生成器, 输入我的需求,然后呢它就会自动的去帮我生成相应的代码,你自己呢在润色一下,改一改就可以直接进行使用了,非常的方便。那除了可以自己去制作这些 skill 之外呢,其实还有一个进阶玩法,就是如果你能够接一些 a p i 的 接口的话, 其实你可以打造一个自己的全自动的工作流,那比如说你就可以做一个能够实时抓取热点,然后根据热点去生成小红书爆款文案的这么一个工作流的工具。那同样的,如果你想要完成更多的需求,你都可以去进行一个定制化的操作。 欢迎大家在评论区留言,你感兴趣的玩法,我们可以专门做一期深度的全自动 skills 工作流的一个讲解。 ok, 那 接下来呢,我们来测试一下 skills 的 一个能力边界。第一个就是数据分析,我们刚刚看到了 skills, 它是可以进行数据处理的,那如果说老板让你加班,你周末的时候不想去改这种 excel 的 报表怎么办呢?你也可以利用它,只需要上传你原始的 csv 文件,然后 log 呢会自动的去帮你进行数据的清洗, 还可以帮你输出 excel 加 word 的 这种双格式的一个报告,这让我觉得真的是有一点降维打击了哈。然后 还有一个场景呢,就是对于学生党来说,可能有的时候你需要完成各种各样的学术作业,或者是学术论文,那当然在这个地方呢,我们不推荐大家就是直接使用 ai 去进行你的论文创作,但是你可以使用 skill 的 功能去帮你完成论文框架的一个搭建,或者是去帮你做一个论文的选择题, 也可以非常大程度上去节省你这种机械重复劳动的时间。比如说 colloud, 它是可以自动地去掉取这个 pdf 的 格式,然后呢去帮你阅读文献的,你就可以不用自己从头到尾 一个一个的去读了,省了非常多的时间。 ok, 那 以上呢就是一些简单的 skills 案例的一个分享了,那如果你有一些比较有趣的 skills 案例呢?也欢迎大家分享在评论区啊,如果你对一些进阶的案例比较好奇的话呢,也会大家留言,我们会给大家出一个更加详细的教程 好了,那如果你觉得今天这期视频对你有帮助的话呢?欢迎大家进行点赞、评论、收藏,我们下期再见!

周末在家无聊搭建了一个自己的 agent, 好 用到哭,你是不是也有这样的困惑?信心满满,准备好设备和算力,真要上手去搞一个 agent 的 时候,就坐电脑前发呆。别担心,今天给你分享的这六十八页教程 就靠它!我从菜鸟进阶到了 agent 的 大神。之前我也觉得搞 ai 智能体超难,代码看懵、教程劝退,直到刷到这个六十八页神级攻略照着练一周就搓出了一个会反思、能规划的智能体文档,有图有文有代码,可以说是新手小白最好的启蒙教程。完整版来个六十八通通抱走!