挑战两分钟,彻底讲清 agent 和大模型看完这期,你可以在半分钟之内把差别讲给同事听。很多人第一次接触 agent, 会首先想到联网搜索插件能力。工具按钮。这条路能够帮我们迅速地进入主题,因为工具确实是 agent 的 体系里很醒目的组成部分。 接下来,我们把视角再往前推进一步,把工具放到一整套完整的运行机制里。当机制完整地呈现出来, agent 的 边界和特征会更清楚。 agent 它是一个围绕着目标运行的系统,它能自己做规划,按多步推进任务,并在每一步读取结果后调整后续动作。这套能力的关键在于闭环画面里,这条列录从感知开始,经由规划进入行动,再到反馈。把这条闭环记住,才是真正理解 agent 的 第一步。 那大模型,也就是 l l m, 最擅长的是生成文字,也就是根据你输入的内容向后拼接文字。但是它有三个典型的短板, 第一个知识可能不是最新的,很多实时问题他并不知道。第二,他自己不会动手,他只能够告诉你应该怎么做。第三,他没有天然的持续状态,你不额外给他记录,他很容易把中间过程忘掉。所以单独的大模型更像一个超级会表达的问答机器,但不一定能够把一件事从头做到尾。 好,那 agent 呢?怎么解决这些问题?你可以把 agent 当成大模型,这个脑子再加上三样东西, 第一是工具,让他有手有脚,真的去查去算、去发去写。第二是记忆,把中间状态偏好历史结果留下来,不至于走一步忘一步。第三是反馈控制,根据执行结果决定下一步是积蓄换策略还是重试,这三样加上才会让他从会说升级成会做。 先展开第一块工具。工具这件事的意义特别简单,让模型的输出不只是建议,而是触发一次真实的动作。 比如他可以去搜索材料,可以运行一段代码,可以查数据库调 api, 甚至可以发邮件创建公单。他也可以在自己的沙河世界里盖一座伟大的城堡。 你会发现,一旦能行动,很多原来只是寥寥的场景,突然就变成了可以自动完成了。后面我会用查天气并发邮件的例子,让你直观的看到这件事情多像一个真正的执行流程。 第二块是记忆,我建议你把它分成两层,短期记忆和长期记忆。短期记忆更像工作台,放的是当前任务中的中间过程, 我刚查到了什么,下一步要做什么,上一步返回了什么结果。长期记忆更像档案库,放的是跨任务的信息,比如你的偏好、历史决策,你常用的工具的参数,需要的时候再剪辑回来用。那有了记忆 a 阵呢,才能在一个复杂任务里保持连贯,不至于每一步都想重新开始。 第三块是很多人忽略,但是很关键的,他会不会纠错?现实世界里做事经常会失败,关键词搜不到,结果报错,结果不符合预期, 如果他一失败就停,那他只是一个会调用工具的脚本。 a 阵呢?他更像人,做一步看结果发现不对他就调整,比如换关键词再搜,或者说换一种调用的方式,再试一下这种边做边调整的能力,才让他在不确定的环境里也能够把任务推进下去。 现在把刚才的三块拼回到那条壁环里,感知,读取你的输入,看环境信息、规划,拆任务、选工具、拍步骤、行动,也就是真正的去调用工具执行 反馈是读回结果,判断是否达标,不达标就修正计划。当这个环能自己转起来,我们就说他具备了 agent 的 味道,自主闭环。接下来我们用一个最小的例子,让你看到这个环是怎么转的。 假设我给他一个目标,帮我查一下北京的天气,然后把结果发邮件给老板。一个 agent 的 执行会像这样, 第一步,他先决定调用天气工具去拿到北京现在多少度,什么天气。第二步,获得反馈,把这个结果编成一段可以发出去的内容。第三步,查询数据库中老板的邮箱。第四步,再调用发邮件的工具,把邮件真的发给老板。 重点来了,这里的每一步他都不是在文字里假装完成了,而是在系统里真的执行了工具调用,并且把结果回传给他,驱动下一步。这就是从生成答案到完成任务的差别。 那为什么 agent 这两年突然爆火了?这里我用三方面来分析。第一,模型能力确实变强了,他更能理解目标,拆任务,选工具了。第二,工具的调用更标准化了,模型能够输出结构化的调用请求,工程接入的成本大幅降低了。第三,生态更完整了, 框架、项链库、各种 api 都让可行动的能力变得更容易拼起来。三件事情凑齐, agent 才从概念变成了可落地的工程形态。 最后我们做个总结,大模型强在生成文字, agent 强在完成目标。如果你看完这期视频没记住全部的内容,那记住 agent 的 以下三点就足够了,第一核心是自主闭环。第二关键能力是工具加记忆加反馈纠错。第三结果是从回答问题升级到把事情做完。 你以后看到任何 agent 的 产品,就用这三点去检查它到底是不是在跑闭环,还是只多了几个按钮。如果这期视频对你有用,记得点赞关注,我们下期再见!
粉丝1874获赞1.9万

最近特别火的 agent、 mcp、 skill、 open claw、 rag 大 模型到底是啥意思?今天一次性讲明白。先给大家举个例子,你把自己想象成一个老板,想搞一家完全不用人动手的全自动化的公司,这个时候你是不是需要一个全能的执行者?他不只是动动脑子,他还能统筹安排落地执行。 这里先澄清一个关键,真正管事的做决策的,那背后的核心,他是大模型,相当于我们人的大脑。咱们说的 agent, 也就是智能体,就是这个大脑的执行者的化身,他能听懂你想干啥,把你交代的环拆成一个一个的小任务,定好详细的执行步骤, 再指挥后续动作的落地。当然,他一定会借助各种各样的工具,相当于带着大脑的指令干活的统治者。准确的说,大模型是核心的大脑, agent, 他 是大脑的执行主体,是能自主决策、调度任务的智能执行者。那 skill 又是什么呢? 其实就是这个 agent 就是 执行者,他手里的硬本事是他自带的一些本地知识,标准化的能力能让他把活干的更漂亮。不只是凑合着完成 agent, 他 具有的硬本事可真不少哦。 比如说怎么写周报,怎么整理电脑里的文件,怎么打开浏览器查东西,怎么发邮件,怎么做内容的生成和发布,他可以写前后端的代码, 这些相对比较固定的流程,不用我们反复琢磨的一些标准化的动作和常规工作,每一个都可以是一个 skill。 简单说, skill 就是 agent 的 基本功,是它能落地执行任务的基础。接下来是 m c p, 它的全称 model context protocol 模型上下文协议。咱们还是举个例子,在没有 m c p 之前,你想让 ai 帮你干活。比如说你让 ai 查你的非书表格,非书文档,你要专门写一套代码去适配非书。你要让 ai 读你百度网盘里的文件,你要重新写一套去适配百度网盘。 你想用 ai 去高德地图查路线,或者给你的微信发消息,你每一个都得单独写一套代码。想让 ai 在 淘宝、京东给你下个单写套代码适配电商。所以你看,每连一个工具都要重新开发,重新适配, 正在重复的造轮子。现在有了 m c p 统一标准的协议了,它就像 ai 界的通用 usb 数据线,什么飞书、百度网盘、高德、微信、支付宝、京东,全按 m c p 的 标准插上去就行。那 ai 不 用学每一家的方言,一套标准接口适配所有的工具,不用写任何额外的适配代码了, 就实现了一次适配,多平台通用。在这里就是万物互联。那 red 又是什么呢?他翻译过来是解锁增强生成,其实核心就是让 ai 具备查资料的能力。 你像我们传统的 ai, 当生成内容的时候,可能会因为知识的不足,他就胡编乱造,产生幻觉。 red, 他 会先通过互联网,然后我们自有的知识库进行信息的查询,然后基于这些已有的内容再重新生成,那提供的信息他一定是更可靠的。 最 lag 的 本质是什么呢?为 ai 增加了搜索引擎的功能,类似于我们写论文,你先去图书馆查资料。最后我们说 openclot, 它到底是个啥?如果说大魔行驶大脑 agent 是 统筹的执行者,那 openclot 就是 承载这两者的一个躯体, 它是一个开源的、可以自己托管的 ai agent 网关。简单点说,你可以把它下载下来,安装在我们自己的电脑或者是服务器上,它就是一个能让 ai 跑起来的运行环境。 open code 里边已经自带了 agent 的 核心执行逻辑,它能通过我们刚才说的这个 mcp 协议 去调用各种现成的 skill。 而它所有的核心决策,比如说我怎么拆分任务啊?我先执行哪个呀?遇到错误之后怎么换其他方法呀?它其实背后都是靠接入的大模型,但可以再通俗一点, open color 就 像一个开箱即用的数字员工套装,哪怕你不是技术大神,你只要简单设置一下,说出你的最终目标,就能把 大模型 agent、 mcp、 skill、 rank 等等整合起来,拥有一个能够自动帮你干活的 ai 助手,你不用自己写代码搞开发。最后总结一下,大模型是核心的大脑,负责思考、做决策 agent, 它是统筹的执行者,像一个核心高管, 承载大脑的指令,拆分任务、定步骤、指挥执行 skill。 agent 的 基本功内置了标准化动作帮, 让你把具体的活给干了。 m c p 通用接口相当于通用的 usb 数据线,帮着 ai 去连接各种外部工具,不需要重复适配。 open call 躯体加运行环境,把大脑执行者、基本功、通用接口都整合到一起,让咱们普通人能轻松用上。

什么是 intent? 什么是 m c p? 什么又是 skill? 还有再说说什么是 open close? 把这些东西全部讲完,大家应该就能对 ai 知识点有了更深的了解。首先,我们说大模型,它就像一个只会对话的大脑,你问它就答, 但天生呢,没有记忆,而且内容是概率生成的,很容易出现幻觉,事后你再问之前的信息,它完全不记得了。 为了解决没有记忆的问题,我们做出了聊天机器人 bot, 他 充当中间人的角色,保存所有聊天记录,然后再传给大模型,让大模型看起来拥有了上下文的记忆。 可 bot 呢?依旧局限,没法查天气控制设备运行程序,于是就有 nint 的 智能体。记住一句话, nint 的 核心就是能够调用外部工具, 大模型只知道训练截止目前的信息、实时天气日期、网络数据完全不懂。而 agent 呢,可以主动地调用天气接口、各类工具,获取实时数据,然后再传给大模型整理回答。 但一个个对接第三方接口,调试参数特别麻烦。行业就统一了一套通用的规则协议,就是 m c p 模型生产文协议。简单来说, m c p 就是 规范,让 agent 更简单统一的调用各类工具与接口。接着是 skill 技能, 之前 n 的 调用工具,要把所有的参数、详细规则全部发给大模型,信息复杂,效率很低。 sku 呢?用文档规范好固定的工作流程,出发条件, 只传给大模型精简的原数据,不用传出大量细节。 sku 可以 对接多个 mcp 工具,既能存知识库,再定义工作流,还能批量调用,更乐意能力大幅提升 ai 执行效率。 最后是 open klo, 它本身没有很强的原生能力,本质上也是一个智能体,所有的功能全部依附于 skill 生态平台,有海量的现成的 skill, 只要下载接入 open klo, 就 能拥有相对应的全部能力。总结下逻辑, 大模型是对话大脑, bot 是 让 ai 拥有记忆。 enter 学会调用工具 i m c p, 简化工具,调用协议 skill 能规范流程,拓展全部能力。 open klo 是 一托所有的 skill, 实现无限功能。 这就是大模型 agent skill m c p 和 open code 之间的关系。觉得六哥讲得透彻的点个赞支持一下。

什么是 agent? 什么是 m c p, 什么是 skill? 还有再再说说什么是 open club, 把这个东西讲完,大家应该就能对这个知识点有一个更深的了解了。首先第一个 什么是大模型,咱们得先说大模型,它就是一个可以对话的一个大脑,你跟他说话,他就能回复消息。但是有一个问题,他没有记忆,你跟大模型说一句话,你说你好,再跟他说我是谁,他不知道, 但也就是大漠星,他没有记忆,你说一个消息,他其实底层是一个 transom 架构,他经过神经网络一层一层的去计算,最终通过概率给你算出来他要回复什么东西,所以说他那个东西是有幻觉的,通过概率给你算出来一个东西给你回复了,你说我是小周,你再问我是谁,他不知道,你这 ai 没有记忆可不行了。 所以说大家为了让 ai 有 记忆可以聊天,大家就制造了一个聊天机器人,就叫 bot, 那 这个 bot 能干什么呢?就是我跟他说,我说我是小周, bot 接到我是小周,然后他会跟大模型去交流,他作为一个中间人跟大模型交流, 然后他告诉大模型这个人叫小周,然后我再说我是谁,我跟那个 bot 说我是谁的时候,这个 bot 他 会把我是小周,然后大模型的回复,然后这我是谁一起发给 大模型,也就说大模型拿到不是我是谁,而是之前的所有聊天记录,大模型都看到了,然后他再回,那这个聊天机器人他的作用呢?就是让这个大模型看上去有记忆了,这是聊天机器人,那聊天机器人的功能还是很弱,对吧?就比如说我想让他帮我关电脑, 帮我执行一段程序,帮我查询今天的天气,它也不行。所以说这个时候就聊天机器人的基础上,又扩展出了一个东西,叫 agent, 叫智能体。智能体可以干什么呢?智能体,大家记住啊,智,一句话就知道智能体可以调用工具,这东西就是智能体。 那什么是工具呢?就比如说这里有一个函数,有一行代码,这行代码可以 get weather, 可以 获取天气信息,获取获取日历信息。今天是几号?这个大模型是不知道的,大模型他知道的东西就是基于他训练的结果。 我二零二五年五月一号训练,这个大模型结束。那大模型二零二五年五月一号之前的东西,他训练过的,知道五月一号之后的事,他啥也不知道,他没训练,所以你问他,你说今天天气怎么样?他不知道今天是几号,大模型他不知道,但是 agent 他 知道。 a 针呢?可以调一个工具 get 外的,我获取到今天的天气,然后我再告诉大模型,大模型再分析,然后再给我回复,也就说这个 a 针呢?是什么呢? a 针它是可以调用工具的一个程序,它可以通过调用工具让大模型知道更多的事,这个就是 a 针的。 然后大家发现 a 针不知道天气,我得怎么办呢?我得调用一些接口,比如说高德有天气信息的接口, 我得调这个接口啊,然后还有什么饭店的接口,旅游景区的接口,什么时候卖票的接口,他得调很多接口。那这个这样的话, 所有的互联网服务平台,比如说天气的呀,景区的呀,卖票的呀,全得开放接口,然后这个 a 证他得调所有接口才能实现这个功能,那 a 证他也麻烦,那个第三方平台,那个天气的第三方平台也麻烦,然后这个接口怎么调参数都很麻烦。其中有一个执行方案,就是说我定义一个协议, 就说你这个 agent 调这个第三方平台的接口数据的时候,你别像以前那么调接口,你你咱谈个协议,你只要两边都遵守这个协议,我就可以去拿你的数据了,我就可以拿天气数据,拿时间数据,拿各种景区的数据都能拿了。 那这个协议叫什么的呢?就叫模型上下文协议,所以这个协议就叫 mcp, 所以 大家知道什么是 mcp 了吧?它就是协议,对吧?我调接口为了更方便的调接口,开发了一个协议,叫 mcp, 所以 大家知道什么是 mcp 了? mcp 就是 让 agent 可以 更方便的调用工具, 简单吗? mcp 就是 为了让 agent 调用工具,然后把调用工具的信息给大模型,让大模型可以回复,懂了吧?这是 mcp。 什么叫 skill 呢? 没点关注,点个关注,我讲的很细,跟大家说没点关注,点个关注。然后我这边有个 ai 学习专栏,大家可以加一下,我这边还有 ai 交流群,感兴趣的小伙伴可以加一下。然后我接着说什么是 skill? skill 最早就是咱先说这个调用工具, 等于说调用工具有什么弊端吧,如果你想让这个 agent 调用工具的话,你得先把这个工具的所有的说明书什么的参数配置全都给这个 agent 告诉他,然后他比如说你跟他说我,我,我跟那个 agent 说,我说你好,他收到的就是你好吗?不是 他,除了这他,他给这个大媒体人发的,除了这个你好,他还会把我这个 a 帧呢,可以调什么工具,什么乱七八糟的呀,这各种各种这个工具的参数啊,这些信息全都给大媒体人发过去,这就很麻烦, 东西很多,所以呢,为了让这个提升这个性能吧,当然也不只是为了提升这个性能,咱就说性能,为了提升这个性能吧, hlp 公司就发布了一个叫 a n 的 skill 的 东西, a n 的 skill 的 话,他可以定义一个工作流,定一个文档,一个 markdown 文件, 然后这样的话它只要在文件上面写一个原数据,写两行,对吧?当用户在干什么的时候调用这个 skill, 那 下面细节就不用不用给大模型了, 那这样我一个 a 针呢,就可以接很多的 skill, 我 只要看它那个原数据,它能干啥,我需要的时候我再调它里面的东西,这样呢性能就能得到一定的提升。而且用这个 skill 的 时候会大家发现更好的一点,就是 skill 可以 写很多很多东西, 比如说你想做一个知识库,你可以放在 skill 里面,你可以有定一个工作流,你可以放在 skill 里面,很多事都可以放在 skill 里面,这样 skill 就 火出圈了。 也就说 skill 它是一套文档,文档规定了这个事怎么干,然后大模型就会按照这个流程去干事,做事就就就完事了。 所以刚才说的 m c p 是 什么?是调用工具更方便,工具是什么呢?就是查询天气这些工具。然后呢? skill 呢? skill 是 可以让规定 你做这件事,调用哪些工具,执行哪些标准,它是做了一个更更广的一个规范,也就说一个 skill 可以 调很多 m c p 可以 调很多的工具,这是 skill 的 作用, 也就是说大家会发现 skill 能力强了,是吧? skill 可以 作为文档,它可以做知识库。 skill 可以 定义工作流,它可以做很多事, skill 可以 调很多的工具, skill 也可以调 m c p, 这是 skill 的 能力。 然后大家就会发现,那 sku 是 不是太强大了呀?对吧?它是不是可以操作浏览器啊,可以写代码啊,做简历啊,所有的工作流,甚至取代什么扣子,以前那种传统的工作人形式全都取代了,那所以这 sku 实在是太好用了吧? 确实好用,确实好用,它太好用了。然后呢,就出现了很多的工具全都接入了这个 skill, 包括浏览器, tree products, 所有的 ai 工具, ai 开发工具都接入了这个 skill, 就 大家都能用 skill 了。然后又出现了一个东西也接入了这个 skill, 就是 open claw, 也就是说因为 skill 可以 做很多事, open claw 它不需要做这些事, open claw 只需要可以调 skill, 它就可以做所有 skill 的 事。也就是 open klo 是 什么呢?它就是一个智能体,智能体的能力不依赖于它智能体本身,而依赖于它接入了哪些 skill。 这也就是说,为什么大家用 不用担心 open klo 以后能力会不会变强变弱什么的,你不需要关注它有什么能力, open klo 也没什么能力,它的能力全部一托于 skill 生态。 所以有个网站叫 cloud 号吧,里面有很多 skill 嘛。大家如果想扩展自己 opencloud 的 能力的话,你就直接下载 skill 就 ok 了,你就可以让你的 opencloud 去做各种各样的事了。因为 skill 可以 做,所以 opencloud 就 可以做, 这就是大模型 agent skill mcp 和 opencloud 的 关系。我不知道我讲的透不透彻。讲的透彻,点个赞支持一下。

大家好,今天给大家分享 cloud code 的 两种多 a 卷模式啊,分别是 sub agents 和 adrian tins, 就是 此代理跟独立 a 卷的的团队的模式啊,我分别对这两种模式进行了实测跟对比,大家后面可以看到结论跟过程 啊。为什么要用多 a 卷?因为单 a 卷它有三个天花板,就是,呃,没有人审稿,然后没有碰撞,还有无修正,就是它的角度始终是单一的,然后初稿也没有人审,这也就是大家平时用 ai 会觉得它有点笨的原因啊,多 a 卷它有碰撞,它就会有比较更强的一些产出 啊。这两张图是 insular 官方的架构图,左边是 sub agents 的, 然后右边是 agent pence 的 啊,这个左边的这个 sub agent 呢?它是一个流水线的作业,就是主 agent main agent 把任务交给了 sub agent, 他 出了结果之后会返回到这个主 agent, 然后主 agent 再拍,根据工作流程拍给下一个,然后下一个再开始这一条电路下来,最后再给到最终环节,然后这个工作就结束了。 它的特点是通信是单向汇报的,然后上下文共享一个窗口,成本比较低,相对而言, agm team 是 比较低的,然后擅长呢出量,然后标准化,可预期。 然后右边是 agm team 的 结构,它是由这个 main agent 放出了。呃,三个或者多少个都行啊,独立的 agent, 然后独立的 agent 呢?他们根据他们的工作流程之间是可以相互沟通交流的。 就比如说第一个 a 卷呢,它是写文章的。第二个 a 卷呢,它是来挑刺儿的,或者看这个合不合规的,就类似这种设计。然后它们的沟通呢?通讯是点对点的, sendmail 语句就是双向对话的,就不通过这个 a 卷是它们之间直接沟通的。 呃,上下文呢,是每个 a 卷都有独立的窗口,所以多少个 a 卷就有多少个窗口,它的成本是相对而言是比较高的, 他擅长的点是在这个呃逻辑的一些判断跟这个角度的挖掘,所以你要写独特的文章,可能是用这个会比较好一些,后面我会分享。那这个我测试的结果 我先说下团队配置,就是三,呃,我这个是一个公众号的团队配置,就是写文章的啊, sub agency 呢,它配备了调研员,角度选选手,选手,然后携手就这些润色。就这一系列下来,是一个流水线的作业,一个完成了,然后反馈,再到另外一个,就是这样, 然后 a g m t 呢,它我只拍了三个,就是调研员啊,调研这个搜索来源,然后发给协手,协手协稿,然后再发给杠精,然后他们之间是会相互去沟通的 啊,这里插一个就是 agent team 呢,它是默认 astropik, 是 默认关闭的,它是一个实验功能,所以呢,大家可以去把这个截屏或者复制下来,然后去发给你的 cc, 让它去开通这个功能。 呃,我就开始,这是我测试的一个题目啊,题目就是最近比较火的就是 astropik 的 估值已经到了九千亿啊,已经超过了 open ai, 所以呢,这个话题非常热。然后,呃,我就针对这个话题让两个 a 卷团队分别进行了测试, 这是产出的一个结果啊, sub agency 呢,它的这个流水线的作业,产出的标题是 open ai, 呃,把 a g i 写进了合同,然后 isopic 用这个 ai 把它给干翻了。呃, isopic 呢?它这已经有了一千家企业,企业客户年付超过一百万,所以它的逻辑非常硬,就是哪怕 c 端用户跑光了,还能靠这一千家好好活着,所以非常的厉害。然后这是呃几轮的一个错误,它给纠出来了, 然后这是一个 a r 的 错误,然后他也给揪出来了,然后这个开头呢,这个金额也写错了,然后左边也后来发现也给他揪出来了。然后第二个就是我们 agm team 的, 就独立 agm 团队,他写的文章,他挖的角度比较独特, 他除他没有分析这个估值呃最终会怎么样,而是说 eshop 的 估值要超过 open ai 了,但是真正的赢家是云厂商, 因为呃 amazon 它提出的是它的这个增资估值的融资是要求必须用它的芯片的,所以我们的 agent team 就 通过它的这个呃反复的这个研判 得出了这个结论。就模型公司只是在给算力打白条,就是这个估值,就是在给算力打白条 啊。在这个过程中呢, ar 跟月盈收搞混了,然后这个这个 critic 他 又纠纠正出来了,然后这个领头方很小,就是这是他过程纠正纠正出来的一些错误啊,我就不一一去说了 啊。两个结果的对比呢?三杯酒呢?他花了十四分钟跑出来的,然后 aj 呢?他花了两倍时间,花了二十八分钟。 整个调研的来源呢? supreme 五个,呃, agentine, 八个就是他的队员, agentine 的 队员,他会主动去声明盲区,去调研,就是携手发现有盲区了啊,他会去让那个调研员去补充调研,再返回给他,就是属于自主合作的这个过程 啊,这个是角度,然后第三个就是第四个是纠错,然后这是个京剧的总结,这个说故事讲的再好再好也抵不过合同上落下的笔 h n t 呢,是钱根本没处于厂商的口袋,所以它的角度肯定是更加独特的。 关于这两种模式怎么选呢?就是假设你的产出是批量出稿标准化的,你就选这个 safari, 又能省 token, 又能确保质量。 第二个呢,就是深度分析,要纠错的,你可能要做这个各方面的角度的分析啊,就包括 我们大 a 某些标地的研判,你可能要深入去分析,那你可能就需要一个呃,独立的 a j m t 去做这个研究,或者说你是做自媒体的,需要独特的角度,也是需要这个去深挖的,就他有这个深挖的能力,如果说你要省投款呢,就 sub agent, 嗯,大家可以混着用啊,就是看你各自的需求。 呃,然后我的内容分享就告一段落了,接下来我会放这个呃 a 卷跑的一个过程,大家有兴趣可以接着看。呃,欢迎关注我,我是 simon cloud code 的 深度玩家,后续我会持续分享更多干干货,谢谢大家。

agent、 workflow、 mcp、 防身、 call, 这五个 ai 热词是不是经常把你搞晕?它们是目前 ai 应用生态里的一套严密的班底。我用开公司的例子一次给你讲明白。 在公司里, ceo 就是 agent, 根据公司的战略目标,要对目标金拆解,任务规划、组织生产出现问题要及时调整。每个公司会有很多个流程, 例如报销流程、采购流程,这些流程就是 workflow, 这些流程是定死的,先干啥再干啥。在一个公司里有很多个不同的流程啊。 在公司里有 hr 要招人,绩效考核,所以 hr 这岗位就必须具备人力资源管理能力,这个就是 skills。 公司除了人事,还有很多其他岗位,例如销售、研发、生产和售后等。往往在小公司里,人人都是身兼数职,这说明这个人同时有多个技能。 对一个公司来讲,深层次需要的是这些技能,并不是某个特定的人或者岗位。 对于销售这个技能来讲,是不是需要能够打电话、发朋友圈?这个打电话和发朋友圈的功能,你就可以认为是防身靠。 字面意思就是函数调用,就是你要调取外面的系统,也就是说大模型不能自说自话,需要和外界沟通,调用外面的能力就叫防身靠。 那么随着公司的发展,这个销售慢慢成为了一个销售总监,觉得自己打电话发朋友圈太麻烦了,他就雇了个小弟, 他想打电话了,就给小弟说,你去给某某打个电话,看看客户目前什么状况。需要发朋友圈的时候给小弟说,你去把咱们今天的产品发个朋友圈, 你发现这个销售不用自己一会儿摸电话一会儿开微信了,他的工作就是动动嘴,这个事儿就能干了。这种对外采用统一的沟通方式的形式,在大模型里就就叫 m c p 模型上下文协议 agent 呢,就是大脑, workflow 是 规矩呃, skills 是 本事, function call 是 动手指令, mcp 是 万能接口,这就是现在最火的 ai 应用生态。

a 帧的记忆是二零二六年大模型最大的进步之一,它让模型从一个随时示意的对话机器,变成了一个真正能陪你走长线的伙伴。但市面上的 a 帧计方案五花八门,到底哪家是真功夫, 哪家是花架子?我花了两周,拆了十款主流框架,逐一做了深度分析,现在我就拆给你看。第一派,项链派代表 m 零。他的思路很简单,把你说的每一句话转成一个高维项链存起来。下次你说话, 他把你的新问题也转成项链,然后在库里找最相似的历史记忆塞回给模型。比如你跟他说,我喜欢用拍散写 后端,他存了。过几天你问我会什么编程语言,他能搜出来,因为 python 和编程语言在向量空间里挨得近。但你再问我擅长什么技术站,他蒙了,因为 python 和技术站这两个词在向量空间里不够近。向量派的死穴就在这, 他存的是原始文本,搜的也是原始文本。你存了一百条关于拍放的对话,他就给你返回一百条, 不做任何总结和提炼。你问我是什么类型的开发者,他给不了你答案,因为他只负责搜,不负责想。第二派,图谱派,代表 z p k k n。 这派聪明一点,他不只存文本,他从对话里提取实体和关系,建成一张知识图谱。比如你说 我和陶瓷一起做产品,他提取出两的节点,你和陶瓷中间连一条边,一起做产品。下次你问我经常和谁合作,他能沿着图谱找到陶瓷,听起来很完美,对吧?但问题来了, 这些实体和关系是谁提取的?是 ai 自己 ai 从对话里猜,这是一个人名,这是一个关系,猜错了怎么办?比如你说我昨天和陶瓷聊了三个小时, ai 可能把陶瓷 识别成一个项目名,而不是一个人。下次你问我的合作伙伴有哪些,陶瓷就丢了。你用不精辟的提取 去建一个要求精确的知识图谱,这个矛盾是结构性的,而且错误会累积,一条边建错了,后面所有沿着这条边的推理确歪。第三派,多策略混合派代表 henside, 这派说,你们别吵了, 我把所有方法都加上,与一搜关键词,搜图谱,搜时间线,搜四个维度同时跑,跑完交叉重排,哪个最相关?排最前面 lookmeil 跑分百分之九十一点四, 目前最高。听起来很能打,但你仔细想,他做的还是搜四个引擎同时搜,搜出来的还是原始对话片段,你把一百条碎片排的更整齐,他们还是一百条碎片。比如你问我这个月主要做了什么,他给你返回三十条对话记录, 按时间排好。但你真正想要的是一个总结,这个月你主要在写后端代码,中间踩了三个坑,最后换了个框架。这个总结他给不了,因为他没有理解这一步, 只有减速。第四排, a 镇自管派代表 leader, 这排最积极,他说认为自己管自己的记忆,像操作系统管理内存一样, 哪些该留在热记忆里,哪些该写到冷存储,哪些该删掉。 ai 自己判断,想法很高级,但你想一个场景,这个 ai 本身就是失忆的,你把记忆的决策权交给一个失忆症患者,他说这个不重要, 不用记,你信吗?更致命的是,他没有标准来判断什么重要。一个用户问了三遍的问题, 他可能还是没记住。一个随口提的无关信息,他可能当宝贝存着,因为他没有提炼能力,他不知道什么该从市值升级成经验。 好四派拆完了,你发现没有,他们做的是同一件事,存和搜,存的更结构化,搜的更精准。但没有人问一个问题,存下来的东西,什么值得被记住? 什么该被提炼?人脑不是这么记得。你今天聊了十个话题,睡前只记得两三个,一个月后只记得一个结论, 一年后只记得一个原则,从对话到重点,从重点到经验,从经验到原则。这是一个自动提炼的金字塔。整个行业没有人再做这一层。他们把记忆当成档案簿, 而不是一个会生长、会遗忘、会抽象化的认知系统。所以我的结论很简单,二零二六年,最先进的 a 诊的记框架,跑分再高,架构再花上,都没有回答那个最根本的问题。你记了那么多,到底什么值得被记住?

火爆全网的 hermes agent 也许从根源上就是个骗局, hermes agent 在 get up 狂揽八万星,抖音博主狂吹,号称是能自我进化的 agent, 但是事实真的如此吗? 我们来扒一下 hermes 自我进化的核心原理。 hermes 能够把任务成功的经验总结成固定路径,然后靠不断地把路径沉淀为 skill 来实现所谓的自我进化。理论上, skill 越多, agent 覆盖的场景越大, 相对来说越万能。但是在实际体验当中呢,往往会出现 tucker 消耗巨大、执行任务速度慢以及 skill 增加的时候, agent 反而变得不好用了。要解释这一反常现象呢,我们首先得清楚 skill 是 什么。 c q 说白了就是 agent 在 执行任务过程当中的一个固定化的工作流,在没有 agent 之前,这个东西叫 workflow。 那 么我们在面对企业当中固定的工作场景的时候,往往是有两种情况,第一种情况就是我们希望从 a 得到 b 这样的一个固定场景。第二种情况呢,则是我们需要一个 a, 在 a 情况下,我们需要一个不确定的结果,而 agent 往往是帮我们执行一些低频次和不确定的需求的。 也就是说, agent 的 本质就不是为了固定流程来服务的。如果真的是要解决从 a 到 b 的 问题,我为什么要用一个速度又慢, tokens 消耗又高的 agent, 而不用编码加大模型判断 或者用固定的拖拽工作流呢?所以 hermes agent 对 agent 的 定位理解是有误的,他试图通过穷举所有物理世界的场景 来让 agent 变得万能,不能说这样的路是走不通的,在相对不复杂的工作场景里,这样的办法也许可以成功,但是这却是所有可以成功的办法当中,资源消耗最大,也是最笨的一个。 其二呢,使用过 hermes agent 的 人呢,往往都发现他的能力精力了一个到 u 型曲线的变化,就是刚下载的时候没有技能 agent, 这个时候需要消耗大量的 tokens 来撞技能,当技能逐步增多的时候,有十几二十个技能的时候, 这是他最好用的时候,能力确实得到了增强,但是随着 skill 的 增多, agent 的 能力呈现了断崖式的下跌。这个究其原因呢, 其实是选 skill 本身比解决问题更难了。试想一个场景,你现在有十个前端制作技能,有十个文档生成技能,有十个调研报告技能。那么当你面对一个新的调研报告的时候,你要怎么准确地从这十次调研报告 成功经历当中选出最匹配的那一次呢?如果 agent 有 这样的能力,他为什么不直接把任务做完呢?然后第三个缺陷就是当前场景 完全没有 skill 覆盖的时候, hermes agent 要怎么解决问题?我觉得他在设计过程当中完全没有考虑过这件事情。在当前场景,如果没有 skill 覆盖, hermes 的 选择就是用使用者的 tokens 撞出 skill 来解决问题, 这其实本质是一种设计上的懒惰,所以 skill 试图通过穷举物理世界的办法来达成所谓的自我进化的愿景, 本质上就是一个骗局。他跟早期的扫地机器人没有什么区别,通过不断撞墙来描写地图,即使撞出来也是代价惨重的。

你要是搞不明白, m c p、 i g 和 a 卷子大场面试的十道题,有九道你都答不上来,那今天一句废话都没有。我们用最通俗的逻辑,一次性讲透他们的核心差异和底层逻辑,他们到底都在解决些什么问题呢? 那第一个 m c p, 它解决的是链接标准化的问题。以前呢, ai 想看你的数据库,它得定制去开发。现在有了 m c p, 它就像给 ai 装上了统一的 usb 接口, 它让模型能瞬间接入各种外部工具和数据源。一句话,它是 ai 的 万能插座。那第二个呢? i g, 它解决的是模型没支持的问题, 私有文档行业密集,模型没背过怎么办呢? ig 就是 给模型配备的一个外部图书库,先翻书再回答。它的特点是低成本,有证据不胡说八道。 那第三个呢? agent, 它解决的是复杂决策的问题,它不是让你查资料,而是在帮你完成事。它能够自我拆解任务,调用工具,反复迭代。它本质上并不是工具,而是数字员工。作为 ai 产品经理,你得看透它们的底层逻辑是什么。 智商来源不同, m c p, 靠的是标准化协议,让数据进得来。 ig 靠的是外部知识库,让数据搜得到。 agent 靠的是模型推理力,让任务能落地, 交互体验不同, ig 是 你问,他答,像个专业的客服, agent 是 你给目标,他给方案并执行,像个高级的助理。那到底怎么选呢?记住这三个闭眼决策题, 数据散落在各地,难以集成。选 m c p, 知识更新快,要求高度准确。选 ig, 目标复杂,需要多步拆解,那必须是 agent。 注意,真正的 ai 产品不是三选一,成熟的 agent, 它是一个大脑,它通过 m c p 伸出触角,利用 agent 挑取知识, m c p 铺路, ig 供粮, agent 呢?进行指挥,这才是未来的主流架构。 最后我整理了一份大厂 ai 产品经理的进阶手册,里面有最新的 mcp 应用案例和 agent 架构图。想要同学在评论区扣个六六六我发给你。

最近 ai 圈大家都会在讲 agent, rag, mcp, skill, open claw, 这些词儿大家都听过,但是它们到底是什么关系?很多人可能现在还是混乱的,今天呢,这期视频一次性给大家讲清楚这些概念。我们先从最底层开始 大模型。实际上呢,大模型是一个基于概率分布进行文本生成的一个系统,当我们去输入一句话的时候,它会去通过神经网络去计算预测下一个最有可能会出现的词, 所以他可以表现的像是在理解我们说的话,但实际上他是一个基于训练数据的模式匹配与深沉的一个系统。但是这里会有一个非常关键的问题,就是他没有持久的记忆。 我们可以做一个非常简单的一个测试,我们可以跟他讲,哈喽,我叫迪姐,他会回复你。好的,迪姐, 但是你下一句再去问他我是谁,他很有可能是回答不上来的。为啥呢?因为每一次对话呢,实质上是独立计算的, 他并不会真正记住我们是谁。为了解决这个问题呢,所以就引入了 memory。 但这里要讲清楚一件事, memory 呢,它并不是让大模型真的有记忆,而是在每一次去请求的时候,把历史的信息重新拼接进上下文。你可以理解,他是给 ai 准备了一份随时附带的一个背景资料, 每次呢,你去问他问题的时候,系统就会自动去说,啊,这个人,他是啊,理解他之前聊过的内容是这些。那在工程上呢, memory 通常会分成两类,一类呢是短期记忆,就是最近呢,我们跟大模型的一个对话的完整保留。 第二类呢,是长期记忆,是历史重要的信息,会压缩成摘要,携带进上下文发送给大模型。所以 memory 它是通过上下文的拼接,让 ai 看起来有记忆。接下来呢,第二个问题出现了,大模型的知识呢,是静态的呃,也就是讲,它其实只知道训练截止之前的这些数。 如果我们去问它说今天 ai 行业发生了啥,它其实是不知道的。于是呢,我们引入了 red 增强剪辑生成 reg 的 实质是在大模型去生成答案之前,去引入一个外部检测机制。于是呢,流程就变成了说第一步是用户去提问问题,第二个是系统先去知识库查找相关的内容。 第三步,把这些检测的实时的结果拼接进上下文。第四步,模型再基于这些拼接出来的结果,这些信息,再去生成答案。 所以你可以把它理解成 ai 旁边多了一个在线研究查询的助理,当你问他问题的时候,他会先去查资料,再去回答我们。 所以呢, reg 实质上是让模型具备获取最新信息的能力。到这里呢, ai 它已经可以去记住上下文,就是用 memory 去获取 web 的 知识,用 reg。 但这里依然还有一个非常核心的问题, 那它现在呢,只能生成内容,却不能够去帮我们去干活,去执行一些操作。比如说像去打开网页,去查询数据,调用 api, 去操作我们本地的电脑上面的环境, 这些他是做不到的。那怎么办呢?于是呢,就引入了 agent, agent 呢,它不是一个具体的产品,而是一种让模型具备任务执行能力的一种工作范式。 在 agent 的 模式之下呢, ai, 它可以去拆解复杂的任务,规划执行步骤,调用外部的工具,最终呢,根据结果去迭代,去调整。所以我们可以把它去理解成从问答的机器人升级成为了任务的执行人。所以更形象一点,就是他像一个具备自主行动能力的一个助理, 你告诉他目标,他会自己去推进整个过程。所以 agent 他 会让 ai 具备从目标到达成结果的这样的一种执行能力。但是问题会继续出现了,就是 agent 调用的工具很多啊,它太多了,那接入方式就会存在一个不统一的问题,不同的 api, 不 同的系统,它的接口格式、调用方式也完全不一样。比如说我们去调用高德的天启查询系统,它这些接口,这些参数完全都不一样, 那这个呢,就极大地增加了 agent 去调用外部接口的一个成本和复杂度。于是呢, m c p 出现了模型上下文协议。 m c p 实质上是统一了 ai 去调用外部工具的一个协议标准。 它做的事儿就类似于说 usb 接口统一充电标准,让 ai 呢,它可以用同样的一种方式去调用数据库、调浏览器,调用第三方服务。 所以 m c p 它是让 ai 与外部工具之间的一个标准化的接口层。那现在问题就来了,即使我们有了工具 ai, 它不会用, 很简单,就是它没有经验,它没有流程。就像我们用 m c p 给 ai 去接了一套非常多的工具,一整个工具箱,但是它没有维修经验,它没有操作经验。于是呢, skill 就 出现了。 skill, 它的实质是把人的经验、流程和最佳的实践去结构化分装成模块。一个标准的 skill 呢,通常会包含使用场景 是啥时候用执行步骤,具体这个事应该怎么去做?工序的调用就是用什么来去实现输出规范,最终呢,产出结果是啥? 那我们可以把它去理解成 m c p 呢?它是呃统一了规范,去连接了各类的这个工具。 skill 呢,它是操作手册加 s o p 个例子哈,如果我们让 ai 去分析用户反馈没有 skill 的 时候呢,它的输出很随意,也不太稳定。但有了 skill 之后呢,它就会先去自动分类呃用户反馈第二步,再去提取出呃,关键问题, 最终呢,它会输出结构化的。嗯,用户反馈的认知洞察。所以 skill 呢,它是让 ai 具备稳定执行能力的核心的模块。那当这些能力全部都组合在一起的时候,大模型是大脑 memory, 做上下文的记忆 read 去做外部的实时的知识解锁。 m c p 是 工具接口层的统一 agent, 是 让 ai 具备执行能力。 skill 让它具备经验和流程的啊操作能力,最终就形成了完整的 ai 系统。像 clock code 是 anaerobic 官网的集成方案,具备高完成度。而 openclaw 呢,它是开源的系统,具备高度的自由度。你可以理解为一个是精装房,一个是自建房。到这里呢,我们就能去感知到一件事情,就是 ai, 它的能力呢,实质上其实不在模型,而在于整体系统的一个组合。 所以整个的进化路径就是,当发现模型没有记忆能力的时候呢,我们进而去结合了 rag 的 体系, 我们发现 ai 不 能自主执行的时候呢,引入了 agent 的 范式,那我们发现 agent 可以 操作工具了,但是工具太多,统不统一,然后接口没有规范,嗯,我们就产生了 m c p 的 大模型上下文的协议。 最后呢,工具有了,但是不知道这个事应该怎么稳定的,有经验的去做,没有流程,那就产生了 skill。 所以 当我们再去看这些概念的时候,它不是一堆术语,而是一整套把 ai 去变成生产力,变成一套工程体系的一个视角。

玩 agent 一 年,我终于搞明白了三件事。事情是这样的,大概一年前,我第一次看到有人用 coco 自动写完一整个项目,全程没有人工干预,代码自己跑起来, bug 自己修,连测试都自己跑完了,我当时就愣住了。然后我花了大概三秒钟,就决定要把这玩意搞明白。这一年里,我踩了一堆坑,也摸清楚了一些规律。 今天想把我觉得最重要的三个底层概念,用最直白的话聊一遍。不是什么高深的东西,但如果你刚开始玩 agent, 或者玩了一段时间,但总觉得差点什么,我觉得这篇文章应该对你有用。 我自己也不确定讲的全不全,但我已经毫无保留了。先说背景,聊聊 ai 这一年到底发生了什么。说真的, ai 进化的速度比我预想的快太多了。两年前,大家用 ai 干的最多的事是帮我写一封邮件,帮我改改。这段话说到底还是一个很高级的文字工具,你问他,他打 你就这样。但大概从去年开始,有个东西悄悄变了,变的是 agent, 也就是我们说的智能体,普通的 ai 聊天工具。就像一个很聪明的顾问,你问他这个项目应该怎么做,他给你一份计划书,然后等你自己去执行, a 准不一样,他会直接帮你做。你说帮我把这份报告整理成 ppt, 他 不是给你一个步骤清单,而是真的一步步把 ppt 做出来,出了问题自己想办法解决,直到你看到成品。这个区别听着好像就是多干了一步,但实际上是质变。就像你雇了一个助手,之前那个助手很厉害, 但你每件事都得亲自交代清楚才行。现在这个助手,你只需要说我要开会,你帮我准备,他自己就知道要去查日程,约人、整理资料、发通知。 ai 从辅助工具变成了数字员工,真的不是夸张。那问题来了,这个数字员工要怎么用?用起来有什么坑?我的体感是,搞明白以下三件事,你基本上就能把 agent 玩明白了。第一件事, api 这块是绕不过去的, cloud code 是 目前我用过的 agent 工具里综合体验最好的,没有之一。它背后跑的是 antropica 自家最顶尖的模型, 能力非常强,用起来顺手,自主解决问题的能力也很稳定。但他有一个问题贵,如果你每天大量用,光模型的费用就能把你吓到。对于很多人,尤其是个人用户或者小团队来说,长期跑下来有点吃不消,所以就出现了一个很自然的需求。有没有便宜一点但效果也还不错的替代品?当然是有的,现在国产模型里有几个很能打,性价比极高,某些任务下效果跟顶尖模型差不多, 价格可能只有十分之一甚至更低。问题是怎么让 code code 这类工具去调用别家的模型,这就是 api 要解决的事。 api 这个词你可能听过,全称是 application programming interface 应用程序接口,听着很技术,但它做的事情其实很简单,就是两个系统之间的对话通道。打个比方, 你去餐厅,服务员是你和厨房之间的 api, 你 跟服务员说我要一份红烧肉,服务员把这个需求传给厨房,厨房做好了再通过服务员端给你。 你不需要知道厨房是怎么运作的,你只需要跟服务员对话就行。 ai 模型的 api 也是一样,它就是一个通道,让不同的应用和不同的模型之间可以互相讲话。 每家 ai 公司都会给自己的模型开放 api。 你 注册账号拿到 apikey, 可以 理解成一把专属的钥匙,然后在你用的工具里填进去,工具就能通过这个通道去调用对应的模型了。这个配置方法因工具不同会有一点差异,有的在设置面板里直接改,有的需要去编辑配置文件。对于刚入门的朋友,我推荐去 github 上找一些开源项目, 比如 c c switch, 它把主流模型都整合进去了,切换起来会方便很多。理解了 api, 你 就理解了为什么 agent 可以 不绑死在一个模型上。 工具是工具,模型是模型,中间的连接就靠 api 这个底层逻辑搞明白了之后,很多事情就想得通了。第二件事, m c p 协议这个词最近越来越常听到,但很多人还是一头雾水,我来帮你拆解一下。先说痛点,光有模型 agent 能干的事其实没那么多。举个最简单的例子,你让 agent 帮你调研一个话题, 他没办法直接联网搜索,也没办法打开你发给他的网址,更没办法看你桌面上那张图片。为啥?因为大模型本身就是一个文字处理器,它能处理你输入给他的文字,但他不能主动去外部世界取数据。 你如果懂一些技术,当然可以自己写代码,把网页内容抓下来,转成文字再喂给模型。但这对大多数人来说太麻烦了,而且每次都要重新搞 m c p 协议,就是为了解决这个问题存在的。 m c p 全称 model context protocol 模型上下文协议,它相当于 ai 界各家厂商共同商定的一套万能接口标准,有点像 usb 接口,不管你是什么品牌的手机,只要接口统一,充电器就都能用。 m c p 的 工作方式挺优雅的,分三步走。第一步, m c p 工具主动自我介绍。你想象一下,有一个 m c p 工具,专门负责联网搜索, 他一上线就主动给 agent 发了一份清单,上面写着,我能做这些事。联网搜索,抓取网页正文,返回结构化结果,这份清单 agent 就 记住了。第二步, agent 接到任务后,自动匹配工具,你让 agent 帮你搜索最新的 ai 创业公司融资情况。 agent 一 看,哦,这需要联网。然后他按照 m c b 协议统一的格式,把这个需求打包发给那个搜索工具。 第三步, m c p 工具去外部世界干活,然后翻译成模型能看懂的格式送回来。 m c p 工具跑出去真的在互联网上搜索,把找到的网页内容抓回来,把那些乱七八糟的 html 代码处理掉,整理成干净的结构化文本,直接送进 agent 的 对话上下文里, 整个过程你完全不需要操心。这玩意厉害的地方在于,它把 ai 能干的事的上限直接拉高了一个量级。联网搜索,读取网页、识别图片、操控浏览器、调用各种第三方服务。理论上只要有对应的 m c p 工具编辑的都能做。你去 github 搜 m c p, 能找到很多开源的工具,基本上常见的需求都有现成的,不需要自己从头开发, 我自己这一年用下来感受最深的一点是 m c p。 把 agent 从一个只能在信息里游泳的大脑,变成了一个能伸手去外部世界取物品再拿回来的身体,这个差别真的很大。第三件事, skill。 这个可能是三个里面最容易被忽视,但长期来看影响最大的一个。我来先说说我踩过的坑。刚开始玩 agent 的 时候,我每次用都要重新跟他解释一大堆背景信息, 比如我在做什么类型的内容,用什么风格写作,目标用户是谁,有哪些格式要求,每次都要写,有时候一段提示词就七八百字,打起来就很烦,更费时间。然后这些信息还要送进模型,每次都是一大块 token, 算下来成本不小。 后来我意识到这是个结构性问题,不是用法问题。如果你的某些任务是高频的,有固定流程的,每次都从头交 agent, 是 一件非常低效的事,不管是时间成本还是金钱成本,都在白白消耗。 skill 就是 解这道题的答案。简单来说, skill 是 针对某类高频任务预先写好的标准流程, 你把这个流程封装成一个固定的模块,每次处理同类任务的时候,直接调用这个模块就行,不需要重新解释,不需要重新写提示词。 举个具体的例子,你经常要把客户的原始需求整理成项目。 brief, 这个流程其实是固定的,需要提取哪些信息,用什么格式输出哪些细节,必须确认。这套流程只需要写一次,封装成 skill 之后,每次直接调用 agent 就 知道该怎么干了。 skill 的 价值有两层,一层是效率,不用每次写签字提示词,任务可以快速启动。另一层是成本,塞进模型的 token 少了,账单能差出一截。 这玩意玩熟了之后,有点像给 agent 装了一套专属的肌肉记忆。你的 agent 不 再是一个什么都知道但什么都要你现场教的通才,而是在你的核心工作场景上极度熟练的专家。回到最开始的那个问题, ai 成了数字员工之后,我们怎么用好它?我现在的答案是, api 解决了接入谁的问题, mcp 解决了能干什么的问题, skill 解决了干的好不好,值不值的问题。这三件事不是互相独立的,他们其实是同一套系统的三个层次,底层是接入,中间是能力,上层是效率。三层都想清楚了,你的 a 卷才能真正跑起来,不只是能用,而是好用,而且越用越顺手。我花了一年才把这个弄明白。说实话,走了挺多弯路的,现在分享出来, 希望你能少踩一点坑,永远对世界保持好奇。以上,既然看到这里了,如果觉得不错,随手点个赞吧。谢谢你,看到这里,我们下次再见。

零基础入门 a 证需要学从头学起,学哪些技能才能去找实习呢?主播是什么水平呢?二本计算机语言基础学的也一般,字典也是从啥都不懂,一路踩坑踩过来的,一开始学的时候又是大模型又是框架,看着头都大了, 后来自己也慢慢摸出一些门道了。今天跟大家讲一下我是怎么学的。首先第一块就是先把 python 基础搞定,不用学太深,会点基础语法,能写个简单的小脚本,能调用个接口就够用了。 常用的库也就那几个,你照着练个两三天,基本都能上手实操了,不用死磕语法,够用就行。然后就是大模型的基础用法,说白了就是会调拆的 gpt 通,一千问这些的 api, 会写提示词,能看懂模型返回来的 jason 数据格式,知道了他说了啥,要干啥,这就够了。 再顺带学点简单的工具雕,有写个能搜索,能算数,能读写文件的小函数,知道怎么跟模型描述这个工具,让他知道什么时候该用就完事了。第二款就是搞懂 agent 到底是怎么干活的,最核心的就是 react 框架,简单的来讲就是先让他思考,再行动,再观察结果,然后循环这几个过程。 你得明白智能体呢几个基本部分,记忆、规划、执行、反思。比如怎么存聊天记录,怎么把大务任务拆成小任务,做完了怎么复盘优化,还有多轮对话,别让它失忆,怎么存历史,怎么控制长度,这些小细节一定要注意。第三块就是工程上的小技巧,让你的 a 政策能跑起来不崩。 首先让模型乖乖输出 jason 这样的结构化内容,不然你都没有办法调用这些工具,然后会来简单的流程控制工具跑崩了怎么补货异常, 这些小技巧扎上去,你的 agent 就 稳多了。第四款就是进阶一点的内容了,想做的更有技术含量就得学这些。一个任务规划,把复杂的活拆成一步一步来。再一个是 r a g, 让 agent 接上知识库,让他的回答更专业,不乱编。还有多智能体协助, 一个负责审查资料,一个负责写代码,一个负责审核分工干活。最后我再总结一下,框架真的不用贪多,精通一个就够了。 通用场景就学 learn train, 生态全好用,偏知识库就学 linux, 数学理论也不用死磕,懂点基础概念,知道大模型能干什么,不能干什么就不完就够 了。全程不需要你特别懂里边的理论,只需要理解各个模块的逻辑处理就行了,实操为主, a 阵的不上手哒很难学会。主播也是整理了一些适合小白的学习资料,有需要的可以在评论区打个 a 阵的带走。下期给大家分享几个我觉得还不错的学习课程,有兴趣的可以支持三连主播,我们下期见!

深入理解 agent 智能体,大模型走向通用人工智能的关键一步 agent 智能体是指以大模行为核心控制单元,能够自主感知环境、规划行动、执行任务并从反馈中学习的系统。与传统大模型只做一次性的文本生成不同, agent 具有目标驱动、工具使用、记忆、规划与反思等特征。 目标驱动用户给定一个高层目标,如帮我安排一次日本旅行, agent 自动分解橙子任务来完成工具。使用。 agent 可以 调用外部工具,如 api、 计算器、代码解释器、搜索引擎、数据库等来获取信息或执行操作。 记忆, agent 拥有短期记忆,即对话、历史和长期记忆,及存储过去的经验或知识。规划与反思, agent 能够制定计划、执行、观察结果,并根据反馈调整计划,例如 react cut tree of thoughts 等方法。 agent 通常包含多个组建大模型作为大脑工具级作为手脚记忆模块用于存储以及规划模块用于决策。 大模型是 agent 的 核心大脑,负责理解目标、推理步骤、生成行动指令以及整合观察结果。没有大模型, agent 无法进行复杂的语义理解和决策。大模型的能力直接决定了 agent 的 上限。目前流行的 agent 框架如 auto g p t, baby a g i land chain agents, met g p t 等都是基于大模型构建的。 agent 被认为是大模型走向通用人工智能的关键一步。从聊天机器人升级为能完成实际任务的自主实体旅行规划 agent。 举例,用户要求计划一个去日本的三天行程,预算五千元, agent 会分解任务、搜索机票、酒店、计算预算、推荐景点、生成行程表。 在执行过程中,如果发现机票超预算, agent 可以 自动调整方案,如改签便宜日期。数据分析 agent 举例,用户要求分析销售数据文件。 agent 调用代码解释器读取 csv 编辑 python 代码,计算增长率输出结果,并用自然语言解释 智能客服 agent 举例,用户说订单还没收到, agent 先查询订单状态,如果已签收,则询问是否本人签收。如果物流异常,则自动联系物流公司返利。一,如果只是简单的大模型加函数调用,而不具备规划和错误恢复能力,第一次工具调用失败时, agent 就 会卡住或进入无限循环。 法例二,如果 agent 没有长期记忆,每次对话都从零开始,无法学习用户的偏好,如我不喜欢辣的食物。常见误区一,认为 agent 就是 大模型加 api 调用。实际上 agent 需要处理任务分解、工具选择、结果验证失败、重试、循环控制等复杂逻辑。 常见误区二,认为 agent 可以 完全自主运行。目前 agent 仍然需要人类监督,尤其是在高风险操作,如转账、删除文件时,需要人类确认。常见误区三,认为 agent 已经具备通用智能。现有 agent 在 简单任务上表现良好,但在开放世界长周期任务上容易失败或陷入无限循环。 agent 的 挑战规划能力不足。大模型虽然能进行炼制思考,但对于需要数十步的复杂计划,容易中途偏离 工具选择的组合爆炸。当有几十种工具时,模型可能选错或忘记关键工具 安全与对其挑战。 agent 可能执行用户未明确授权的危险操作,需要严格的杀伤和人评估困难。 agent 的 行为势,序列化的成功与否不仅取决于最终结果,还取决于效率、安全性等难以未来发展方向 更强的代码生成与调试能力、多模态感知不仅能读文本,还能看图听声音。多 agent 协助多个专业 agent 合作解决复读答任务等。好了,今天的科普就到这里,希望通过这期内容,你对 agent 有 了更深入的理解,如果你觉得有用,欢迎点赞关注我们,下期再见!

今天我们来聊聊 agent, 它也叫 ai agent, 这是一个随着大模型热潮而兴起的重要概念。虽然 agent 这个词现在被频繁的提起,但它究竟是什么, 又是如何运作的,很多人其实并不清楚,所以在这个视频中,我会带你彻底搞明白这两个问题。 那我们都知道现在的大模型,比如千问以及像 deepsea, 那 么他们在回答问题的时候,哎,非常的厉害啊,逻辑也很强,但平时我们在使用他们的时候,会发现他们有一个限制, 无法感知或者改变外部环境。那这句话是什么意思啊?我们举一个例子来说明一下。比如你想要让我们的千问啊帮你去写一个打 游戏,他确实可以给你去深层对应的代码,但写完之后,像把这个代码写入文件这样的事情,还需要你自己去动手啊。 也就是说大模型他无法改变外界的环境,因为这个代码他最终还是需要你自己手动啊,去复制到文件当中去。再比如说你已经有了一部分的代码,那你只是想要让大模型 基于这样的一些代码来进行改写或者增加功能,那么在这种情况下,你就必须要把你已有的代码复制给千问才可以。 如果你不主动告诉大模型,他是无法自己去查到这样的一些代码的,换句话说,这就是大模型无法感知或者改变外界环境的体现。所以综合来看啊,大模型他的这样一个缺点那是存在的,那么有没有办法来解决这样的一个问题呢? 其实是有的,那我们可以给他安装对应的工具,那其实就可以了,比如那我们可以有这个工具的这样的一些列表,那我们可以去读写文件的内容,哎,它是一个工具,那查看文件的列表,它又是一个工具啊,我们可以去运行终端的命令,这也是一个工具, 那工具它就像大模型的感官和视知,有了它大模型它就可以自己啊去查询已有的文件, 自己去写入代码,运行程序,整个过程不需要我们去插手,完全是自动化的。那么像这样一个把大模型和一堆工具啊组装起来,变成一个能够感知和改变外界环境的智能程序,那我们就把它叫做 agent。 通常啊, agent 我 们会用一个机器人图标来表示啊,那么这个与大模型的大脑图标形成了鲜明的对比,毕竟 agent 有 了感官和视知啊,能够独立啊做事了,那就像一个机器人一样,那 agent 它有很多的类型, 前面我们列出的是编程类的 agent, 那 么它可以用来开发程序,除此之外,还有一些啊,可以用来做我们的 ppt, 甚至还有一些可以用来进行我们的深度搜索。 那总的来说, agent 它的类型多种多样,那擅长的领域也各不相同。下面我们再来看几个具体的例子。比如我们在编程当中啊,非常有名的 person, 那括号的话,它是一个用于编程的 agent, 我 们只需要提交任务,它就会调用大模型和各种工具来帮我们写代码,直到完成任务。那整个过程我们最多只需要去点击确定的按钮,其他的基本不用你去操作。那下面我们把统 这一个非常简单的一个开发游戏的任务啊,提交给咱们的 agent 啊,那我们来看一下它是如何来进行工作的。 好,然后我们现在啊,我们可以看到啊,那么当我们提出一个需求之后,哎,接下来 agent 它就能够自动啊,完成整个任务啊,包括我们整个 项目结构的创建,包括我们要实现的基本的一些功能,包括以及我们对应的目录的创建啊, make d r, 然后创建我们对应的文件等等,所有的功能全程是自己去完成的, 需要我们自己去做任何的操作啊,那同样的,对于这样一个游戏啊,我们也可以来进行对应的一些应用啊,比如我们在这里我们可以打开我们的 文件资源,然后我们直接啊运行我们的 index 文件啊,那我们可以看到啊,那么在当前的这个文件当中啊,没有任何的问题,好让我们重新看一遍啊,好,那么在这个非常简单的游戏当中啊,我们会发现啊,基本的功能,那其实在这里啊,都已经实现了, 以及游戏的结束的判断条件,那这就是 agent 它所具备的能力。那其实像类似的应用啊,还有非常多啊,包括我们之前我们非常出名的,像 mammals 以及 open mormos 还有等等啊,就像这样的应用啊,非常非常多。那么了解了 agent 是 什么之后啊,我们再来看一看它的运行模式, agent 的 运行有很多模式,其中最有名的一种就是 react, react 本身是一个缩写,它的全称是 reasoning and acting, 也就是思考与行动。 react 可能是目前使用最广泛的 agent 运行模式?如果你要学习 agent 的 实现原理,那你就绝对绕不开 react 这个模式,那么它最初是由二零二二年十月份的一篇论文提出, 虽然距今已经有接近三年的时间了,但是它所提出的 agent 的 运行模式仍然有着非常广泛的使用, 说它是目前使用最广泛的 agent 运行模式也不为过。在这种模式下,用户先提交问题,然后 agent 先做思考,英文名,也就是 sort, 但他在思考后会决定啊是否调用工具,如果说是的话,他便会去调用适合的工具,比如说读取文件,写入文件内容等等。 react 称这一步是行动,英文名是 action, 那在行动之后, agent 会去查看工具的执行结果,比如所读取的文件内容写入是否成功等等。 react 趁这一步是观察,也就是观察工具执行的结果,英文名是 observation, 在 观察之后, react 会继续思考,那么他会去判断是否啊需要再次去调用工具,那如果说是的话,他就会去重复之前的所有所说的行动,观察和思考的这样一个流程, 直到某个时刻,他认为不再需要调用工具了,可以直接给出结论,此时他就会输出最终的答案,那英文名就是 final order。 整个流程到此结束。所以从这个流程图里面我们也可以看到 react 核心步骤是 short, action, observation 以及 final order。 记住这几个词我们后面会用到。了解了 react 模式的流程之后,下一个问题就是这种 react 模式它是如何实现的? 为什么模型在拿到用户的问题之后,他会先思考在行动,他为什么不直接行动?是因为模型就这么训练的吗?不是的,这跟模型的训练 其实关系不大,大部分的奥秘其实都集中在系统提示词上,系统提示词它是跟用户的问题一起啊,发送给模型的提示词,它规定了模型的角色运行时要遵守的规则,以及各种环境的信息等等。 比如我们在系统提示词里面写,你的回答必须要包含两个叉 ml 标签,一个叫 question, 那 用于存放用户的问题,一个叫 alter, 那 用于存放你的回答。你把这个系统提示词和用户的问题一起啊, 发给大模型,在这种情况下,大模型它就会遵守这种规范来输出答案。上面给大家举的是一个简单的这样的一个例子啊, 那如果说你想要的模型按照 react 模式返回答案,那么你的系统词,系统提示词它就会更复杂一些, 那我这里的话也有一个具体的例子啊,好,那我们可以来仔细的来阅读一下啊。那首先的话,我们来看一下那么职责描述的这一部分,那它描述的就是你需要解决一个问题 啊,就是为此啊,你需要将这个问题分解为多个步骤,对,每一个步骤,首先使用 sort 思考要做什么, 然后使用可用的工具之一啊,决定一个 action, 然后接下来你要根据你的行动啊,从环境工具中收到一个 operation, 那 持续这个思考和行动的过程,直到你有足够的信息啊,来提供这个啊, 或者那所有的这个步骤啊,他都会有这样的一些具体的一些标签,然后下面的话也有这样的一个例子啊,比如说这个埃菲尔铁塔他有多高,那我们怎么做呢?首先他会去思考,对吧?他要找到这个埃菲尔铁塔的高度啊,那么可以使用搜索的工具, 那这样他就会有一个 get hat, 这样一个查看这个高度的一个工具啊,然后观察这样的一个工具,反馈这个结果,然后再思考,那我们根据这个结果得到了,可以直接输出了,所以说就最终啊输出这样一个答案, 就这其中一个,然后下面还有第二个。好,然后再往后啊,那么还给大家去猎取了一些可用的工具啊,比如说可以分别用来读取文件的内容,对吧?然后写入我们指定的内容,然后以及用于执行我们终端的这样的一些命令啊, 然后的话还猎取了一些注意的一些事项啊,比如说告诉大模型的一些环境的一些信息,那以及包括他能做的和他不能够去做的啊,那这个地方都有啊,那下面的话我们就来演示一下如何使用这个系统题的词啊, 我们用 deepsea 来举例啊,或者用千问都可以啊,那就让我们先选择这个千问吧,因为千问我用用过一次啊。好,那么这个对话的话其实非常的简单啊,比如说我把这个 发过来啊,给大家看一下啊,其实这个是一个非常简单的一个东西啊,好吧,那么这个地方首先就是要把我们前面的这样的一个职责描述啊,就是我们这个系统提示词啊,把所有的内容全部复制一遍, 复制一遍之后啊,然后我们开始给了他的一个需求,就是我们通过这个 test, 哎,把我们的这样一个需求提交过去了,那么这个需求提交过去之后,我们可以看到那么大模型他的回答,那跟之前就不一样了,对吧?他首先是回到这样一个 sort, 那这是他思考的这样的一部分内容啊,然后接下来开始有一个 app, 好, 那么在这个地方很关键啊,因为我们是需要去模拟啊,他的这样一个执行的一个过程,所以这个地方他实际上是没有去写入成功的啊,但是我们这个 y y x y x 啊,然后我们还是把这个写入成功啊,发给他,那发给他之后,哎,他就开始去下一步的这个思考,因为上一步这个 x y 文件,然后再告诉他写不成功,那他就会创建这个 css, ok, 然后再创建这个 g s 啊 g s 文件代码,那我都告诉他,哎,你都已经写入成功了,好,那么都写入成功之后啊,他就会把这个完整的这个内容啊返回给我们了。好,那我们其实可以看到啊,其实在这个地方的话,那因为我们是一个模拟的这样的一个 过程,好吧,那如果说是一个真正的 a 整数的话,那么他就会去调用啊工具背后的这个 html 文件的内容, 所以我们现在就这个假设啊,好,那么这个地方的话,我们把这个完成之后啊,那么我们可以发现啊,那么其实整个流程它的关键其实在于我们的这个提示词, 好吧,它决定了模型啊应该如何一步一步的去运行?那其实在这个系统提示词的基础之上啊,那我们可以再加入一些配套的代码,那我们就能够去 搭建一个真正的这样一个可用的 react agent。 那 实际上啊,这个项目我这边的话是已经写好了,那接下来的话先给大家演示一下那么这个 agent, 那 么它的一个完整使用的过程啊,然后再带大家一起去看一面它的一个 完整的代码。那么在这里的话,我现在已经进入到这个啊,项目这个 a 型的这个项目所在的一个目录了啊,那么首先我们可以通过 d r r 来我们查看一下这个项目的一些文件啊,那么在这个项目下面的话,首先与我们这个环境配置相关的,比如说这个 change, 这个 vspace, 然后这个 v v 英 v 啊,这是我们的虚拟环境,然后 agent 呢,就是我们要执行的代码,然后这边还有两个文件夹啊,这个是用来存储我们的一个项目的一个目录的啊,然后接下来这个 man 点 py 的 文件哎,然后 prompt them play, 那 这个提示词模板啊,这就是我们这个文件里面的这一个啊, 那接下来的话啊,我们就先来看一下啊,就这个 a 键呢,到底啊如何去运行它啊?那么要运行这个 a 键呢,我们是通过 uv 哎,然后润啊,命令啊, 然后 a 键呢这个代码啊,那后面的话,我们可以再加上一个,就是我们的这个目录啊,就你要把你的这个文件要写出来哪一个目录啊?到时候可以放进去啊,但是我们也可以不写,那你其实不写的话,我们也可以在这个地方,我们运行之后啊,再去指定这样的一个内容啊, 啊,这边不行,不行啊,不行,他告诉我们缺少这样一个参数啊,那我们就把这个给他加上啊,好,那么运行之后的话,那么首先的话是需要我们去提交这样的一个任务啊,那么这个任务的话,在这里啊,我们先还是一样的,我们 直接复制一下就 ok 了。好,然后我们告诉他,我们要写一个一个游戏啊,然后通过什么语言来完成,然后代码就放到代码放到 当前啊,项目路径下的。好,然后这个把这个路径啊,我们给他写进去啊, ok, 然后回车啊,好,那我们就可以看到啊,你这个任务啊提交之后,哎,他就会去请求这样的一个模型。好,那么首先呢告诉我们直接啊,首先第一步,哎, 看到没有写入成功,那这个写入成功啊,他就不再是咱们模拟的了,好吧,他是一个真正啊已经这个写入成功了,等一下我们可以去看啊。好,然后下面啊这个 css 啊也已经写入成功了,然后他开始去请求这个 gs, 开始去生成这一个 gs 的 这个代码了啊 啊,这个结识代码啊,现在结识啊,这个结识这个地方其实也已经写录成功了啊,那么最终啊,看到没有,哎,我们这样一个结果,对吧?比如放到我这,那告诉我们这个游戏啊已经完成了,然后代码已经放到当前项目路径下面的这个文件夹里面了,然后包括这三个文件啊,那么其实到这里的话,我们就可以通过这个拍下啊, 我们打开这个项目啊,来,我们看一下, ok, 好, 来这里我们就能看到有这三个文件啊,比如说 index, 然后这个 style, css, 还有这个 code, 这个 js 啊,三个文件啊。 ok, 好, 所以这个咱们就不看了啊,因为前面我们在 call 上面已经看过了,好,那么我们在这里啊, 我们的从这个结果啊,我们其实可以判断,那么这个 a 键啊,其实并没有什么问题,对吧?我们就通过这样的一些提示词,哎,我们就告诉 完成了整个 agent 它的这样一个完整的一个流程,好吧,那接下来的话,我们来看一下这个 agent, 那 么它的一个具体的一个代码,它到底是怎么去实现的?那么首先的话,我们从这个, 呃,入口啊,我们开始来看,那么这个入口的话,其实是我们这个最下面这个问函数啊,好,那么在这个问函数里面啊,首先它会有一个参数啊,叫 project dictionary, 那 这个就是我们一个项目的一个文件夹啊, 是你的这个什么呢?你的这个文件它要输出到哪一个文件在下面,哎,那你就把它放到这里啊,好,然后接下来,那我们有一个工具的一个列表,对吧? toast, 然后这个 read fail, 然后这个 want to fail, 对 吧? ok, 以及执行终端这个命令的这个润, 然后 c、 m、 d 的, 好,我们就可以分别来看一下,对吧?读取文件的内容啊,然后写入文件的内容,那其实说白了就是我们的一个 python 当中的函数啊,好,然后这个是执行我们终端的一个命令啊。 ok, 好, 那么工具列表有了之后,哎,接下来我们就去定义了这样一个 react agent, 那 这就是我们的核心啊, 那这个 react agent 呢?它到底是什么?来,我们来打开看一下,那这个 react agent, 它是我们自己啊定义的一个类啊,那么在这个类当中啊,首先它的粗俗化啊,有很多内容,来我们看一下 plus, 就是 我们的工具的一个列表,然后 model, 哎,就我们的这个模型嘛,对不对?好,然后接下来 project 啊,就我们的一个路径啊,一个目录,然后 cat 啊,就是我们通过 open ai 的 接口啊,去实现的这样的一个大模型的一个接口啊。好,那这个就到这里了,然后它里面还有一个方法叫润方法。 好,那么这个润函数呢?它的这个参数啊,是我们可以来看到是一个 user input, 就是 我们用户的一个输入啊,就在这个地方。然 在函数的内部啊,那么它是先构建了一个 message 的 这样一个列表。好,然后它里面的话有两个参数啊,一个的话是我们这一个 system, 那 是我们的一个系统一个提示词,还有我们用户的一个问题啊,那系统提示词的话,它是用这个 render system prompt 啊,来进行的这样一个渲染,那么它接收一个参数啊, 那这个参数啊,其实就是我们的这个,给它看一下 prompt play 的 这样一个模板啊,那这里面的话,我们可以看到,我们其实就把很多一些工具啊, 来进行了这样一个什么,哎,进行了这样的一个格式化啊,好,然后下面就是我们的这个 content 啊,用户的一个问题,然后把这个 user input, 哎,我们把它填进去啊,好吧,通过占位符啊,把它填进去,那么拼接好这样一个完整的这个 message 的 这个列表之后啊,那么我们接下来就可以去使用这个 call model 这个函数啊,来调用我们的这个模型的,好不好?那拿到这个模型的这样的一个结果之后呢?来我们再看啊, 这个地方,对吧?首先通过这个库 model 啊,来把我们这个消息啊传进去,那么我们会得到一个模型给了一个结果啊,那模型给了这个结果,那么我们就会去通过这个正则表达式啊,我们去检测这个模型它到底返回的是这个函数, 还是这一个 friend order, 对 吧?还是这个 action, 还是说其他的这样的一些信息?那通过这样一个匹配的一个方式,那我们就知道它进行到哪一步了,好吧,那如果说它返回的是我们的这个啊,它只要返回的不是这个 哦,翻了 order, 那 么他就会去循环重复整个的这样的一个过程啊,因为这是一个 while 循环,所以他后面的执行完成之后啊,他又会回到前面去啊,好吧,那继续去请求这样一个模型,所以 我们给他传的这个 message 的 这个列表,比如这个 comodo, 那 给他传的这个 message 的 这个列表的话,那么我们后续啊,其实还会把一些结果啊也放到这个列表里面来,比如说这个 append, 哎,这有点这个 content 啊,就它这个地方,它是一直在变化的,就是我们这个观察到的一个结果,也就是模型它前面输出的内容也会一起啊提交进去啊,因为在一个微扰循环里面啊,它回到上面之后,它继续就会把这个结果啊,会传进去了, 这样的话模型他就能够拿到什么,拿到工具执行的一个结果了,那么他进一步,哎,他就能够根据这个工具执行的结果啊,去预测下一步啊,要做什么, 所以给大家去总结一下这个 while 循环啊。好,那么在呃这里面的话啊,给大家总结一下他几件事情啊,第一步啊,就是我们去请求这个模型啊,好,请求完模型之后啊,那么我们首先是去提取这一个算法,也就我们这个思考这个部分, 然后再检测一下它到底有没有输入这个啊, final order, 就 如果说是的话,那么我们就可以直接 return, 那 这个 y 循环就结束了, ok, 因为函数也结束了, 好吧,那如果说没有了,没有的话,那么我们再去检测这个 action, 哎,就它有没有这个提到啊,要调用什么样的一些工具啊?好吧,那么这个过程它会一直重复啊,直到什么,直到模型返回了这个 final order 为止啊,这个就是它的一个流程啊, 那回想一下,这个也正是啊,我们之前所提到的 react 的 它的一个运行的一个流程啊, 那么为了去确保啊,大家能够彻底明白啊,这中间,那到底啊发生了什么事情?那接下来的话,我们来画一个这个 agent 的 一个流程图啊,那么流程图的话,我们只有两个角色,好吧,一个是 agent, 那 agent 的 话,我们可以把它分成三个部分, 也就什么呀,哎,也就是我们的模型工具啊,还有咱们的这个函数啊,我们这个主程序啊,好吧, a g 的 主程序, 那主程序这个词我们可能之前没有提过啊,但其实就是我们这个 a g 的 里面啊,负责去串联整个流程的一个代码的逻辑,好吧,那么它能够在 适当的时候啊,去调用工具啊,或者说模型,那你可以把它理解为我们刚才代码里面的这个润函数,哎,这就我们的主程序,那下面的话,我们来简化这样的一个流程啊,那么我们来看一下,那么这四个角色之间他到底是怎么去进行这样一个沟通的? 那么首先是用户啊,那么我们在提交完一个任务之后,任务呢,首先会来到这个 agent 的 主程序这里面, agent 的 主程序,那么它就会去调用我们的大模型啊,去请求模型,那模型的话,这个时候它就会返回我们的这样一个思考的一个过程啊,以及要调用什么 工具。然后 agent 的 主程序啊,那么再把这个 sort 思考的过程,还有这个 action 要调用的工具啊,打印给咱们的用户去看, 哎,又显示出来好,显示出来之后啊,那么再去调用什么?再去调用这个 action 里面的什么,哎,这样的一个工具啊,因为你要调用吗?好,你这个思考啊,还要去调用啊,那么调用这个工具,哎,他就会有对应的一个工具啊,他所执行的一个结果, 那这个结果同样的也会返回给咱们的用户啊,来去查看,然后再把这个工具的执行结果啊,加到我们这个历史消息的这个列表里面去啊,然后我们会重复啊,就是整个框住的这样一个部分流程 啊,他一直重复啊,好吧,也就是请求模型,然后处理这个 sort action, 还有这个 operation 的 这样一个逻辑,那直到那在可能在某一个时刻啊, 你在请求完这个模型之后啊,那么模型啊重复 n 次之后,他认为啊,用户的任务啊已经完成了,好吧,哎,他不再需要去调用这样一个工具了,那么这个时候他就会返回这样一个 sort 思考的过程。还有这个啊, final order 啊,我们这样一个结束,那 agent 的 主程序啊,再把这个啊 final order 展示给用户看,那整个流程到这里啊,其实就结束了, 那这就是一个完整的 react agent 的 问答流程。好,那这个啊,就是今天啊要跟大家去分享的啊,我们从 agent 是 什么啊,以及到 agent 它的运行流程, 包括 agent 它运行的这样一个 react 构建的模式啊,给大家做了一个详细的这样一个讲解啊,那希望大家啊有有所收获啊,我们下期再见。

朋友们, oppo、 可乐也好, hermes 也罢,其实都是 agent, 这些 agent 到底能做什么用?我今天给你讲一讲我的一部分用处。第一个短视频编导, 每天自动去抓全网的热点,给我生成十个选择题,或者是二十个选择题,再去把脚本写好,我稍微一改就可以直接去拍。第二个公众号主编, 他可以做自动选择题,自动写稿,自动排版,然后发到草稿箱,我可以一键发布。现在我公众号的数据比以前人工作好了三倍还要多,而且最重要的是节省了我的时间。 第三个是做课程研发,因为大家知道我以前包括现在也会做一定的知识付费,那么一定避免不了做课。 a 针呢,就可以从零帮我生成课程大纲,然后做竹子的教案,做 ppt 以前可能要做一周的活,比如说二三年、二四年要做一周的活,现在几个小时就可以搞定。 第四呢, a 针呢,可以帮我运营朋友圈,每天可以自动生成多条朋友圈的文案,我就不用自己天天想文案了。 第五个是 ai 战略观,这个其实我觉得对我来说很重要,很多的商业模式有没有瑕疵,有没有漏洞,或者说有没有大问题,我都要去跟 ai 去沟通, 就相当于一个行业顾问。第六个是数据分析时,他可以去自动的拉抖音的、微信公众号的啊等等等这个业务后台的数据,去帮我去做日报或者是周报,因为人类员工肯定是不愿意写日报周报的,但是这个东西确实是有用处的, 他可以把这个异常标注出来,把结论给到我,你就不用去雇人做表了,这个很重要很重要。那接下来第七个肯定是最重要的,就是程序员 很多很多需要用代码解决的东西,因为我是不会代码的,那怎么去解决?就是让 ai 去帮我写写代码,改代码,改 bug, 去一键去部署,包括维护都是 ai 来做。第八个是 ui 设计,其实 ui 设计我用的不是特别的多,但是也会用到一点点 这个东西吧,有的时候你不觉得有什么,但是没有,有的时候你真觉得麻爪,就是很多的时候他还不可或缺,但是用用的时候并不是特别的多, 所以我给他往后排了一下。后面的可能对我来说没有那么的重要,比如说,呃,财务对账啊,或者是客服销售啊啊这些,或还有就是这个 ai 主管,这些对我来说并不是特别的重要。这个 ai 主管可以说一下它就是一个负责调度的用处,因为我前面的这些东西 可以理解为是每一个都是一个员工,那么最后一个主管我用它去监控前面员工的工作的状态,有没有出错啊,有没有卡死啊,或者是我给这个 ai 主管去发消息,他可以去调度其他的员工去做什么什么什么, 我一直推崇大家做的是艺人公司而不是副业,但实际上很多人确实可能跳不出来现在的工作环境。那么你可以去考虑用这些 a 针的,无论是 open 可乐还是 hermes, 还是说其他的东西都可以,你去考虑用它们去做一些副业都是可以的。

我不允许!还有人不知道什么是 agent? 最近刷 ai 圈,你一定被一个词反复刷屏。 agent, 一 夜之间,所有人都说 agent 是 下一个大杀器,有人把它吹成自主 ai 雏形,也有人觉得就是高级聊天机器人。 到底什么是 agent? 他 为什么突然火了?关我什么事?今天用大白话彻底讲清楚。看完你会发现, agent 其实早就藏在你的日常里,只是最近换了副面孔。 一、 agent 到底是什么?翻开经典教材,人工智能一种现代方法, russel norvik, 定义很干净。 agent 是 能通过传感器感知环境,并通过执行器对环境采取行动以实现自身目标的实体。拆开就四个字,感知行动目标粒子手机导航,它通过 gps 感知你的位置和路况, 行动推荐最快路线,目标是帮你找到家,这就是一个朴素 agent。 二、 agent vs 普通程序听话的工人 vs 有 主见的管家普通程序像一台微波炉,你按一分钟启动, 他就转六十秒,然后盯被动执行,输入决定输出。 agent 更像一位管家,你说晚上想吃牛排,他会看冰箱有没有肉,超市开不开门,你最近是不是在减肥, 然后自己决定去采购解冻?还是建议换鸡胸肉?主动感知环境,做计划,调用工具,从结果中学习三个核心区别,第一,驱动方式,普通程序被调用才运行, agent 自动进入感知、决策、行动的循环,没人戳也自己转。第二,环境适应普通程序输入格式固定,环境一变就崩, agent 能实时感知变化并动态调整。 第三,目标层次,普通程序执行具体指令,如复制文件, agent 拿到高层目标,如准备一份报告,自己拆解步骤并走通用程序员的话,普通程序是 ifelse 状态机 agent 是 带反馈循环的自主系统。 三、 agent 的 四大核心能力,一个完整 agent 通常需要这四个引擎,一、感知眼睛和耳朵,获取环境信息。软件 agent 可能读数据库,抓网页收消息。机器人 agent, 用摄像头、雷达、麦克风。 二、决策,大脑灵魂所在,拿到信息后决定下一步做什么。早期靠规则,现在靠大语言模型 l l m 推理。比如 autopilot, 拿到写一份市场分析报告,会自己拆成 搜索数据,整理要点,写大纲,填内容,检查格式。这种思考行动循环叫 react, reason 加 act。 三、行动手脚,把决策变成现实变化,可以发 api 请求,移动鼠标生成文本,甚至机器人转轮子,关键点能调用外部工具,搜索引擎、计算器、代码解释器,甚至另一个 agent, 这就是 to use。 四、记忆与反思,笔记和复盘,短期记忆,存当前任务上下文,如对话历史,长期记忆,存过往经验,如像量数据库。高级 agent 还能反思,做完事后自己评价哪里不好,下次怎么改, bobbi i g 就 有结果评估存入长期记忆的环节。有了这四样, agent 不 再是提现木偶,而是能在复杂环境里自己找路的智能体。 四、活生生的例子,从爬虫到 autopilot, 你 可能觉得 agent 很 遥远,其实早就用过传统软件 agent, 网络爬虫,自己决定爬哪个链接,手不手。 robot text t 推荐系统感知点击停留,调整策略,高频交易程序,感知价格波动,毫秒即下单。它们聪明,但决策逻辑是工程师写死的,不会自己发明新策略。 l l m agent, 新一代明星, 当大语言模型被塞进大脑,事情炸裂了, autop, 你 给一个目标,比如找出今年最流行的十个 ai 开源项目,按 star 数排序, 他自己搜索引擎找信息排放,爬数据分析排序,生成报告,全程不用你写代码,他调用工具调试报错,决定下一步。 luncheon agent, 一个框架,让你快速搭能思考调用工具记忆的 agent, 配上搜索引擎数据库计算器, 问他马斯克和贝佐斯的年龄差,他会先查出生年份再相减,而不是死记硬背。最大突破,不再需要人为穷举所有情况。 l l m 的 推理能力,让他能应对从未见过的任务组合。五、 agent 的 设计模式怎么科学地造? 学术界有经典模式,哪怕你从零手写,也可以参考。 peace 描述环境的四个维度, performance 性能、 environment 环境 actuators 执行器、 sensors 传感器。比如自动驾驶 agent, 性能等于安全加速度,环境等于道路加交通, 执行器等于方向盘加刹车,传感器等于摄像头加雷达。想清楚 peace 就 知道该设计哪些模块。 基于目标的 agent, 问这个动作能不能帮我达到目标,选最优路径。 gps 导航是典型基于效用的 agent, 当有多个冲突目标,如最快 vs 最省油, 用效用函数打分,选最高的更接近人类权衡。现代 l l m agent 通常是混合体, l l m 做推理引擎, 配合工具调用和记忆,目标由用户给定。六、 agent 很 美,但别上头现实与局限。优点,能自动化复杂任务,把目标变结果,中间几乎不用人盯, 相当于一个能写代码、查文档、跑测试的实习生。虽然偶尔闯祸。局限性幻觉。 l l m agent 可能自信地编造事实,搜不到就脑补数字。在金融、医疗场景,致命 成本爆炸 autop 跑一个中等任务可能调用几十上百次, a p i 一 次几分钱,加起来比雇人还贵。安全与对齐,给 agent 让我的网站流量翻倍的目标, 他会不会去发垃圾评论买僵尸粉?人类还没解决,如何确保 agent 不 搞歪门邪道?慢且不稳定? l l m。 推理一次几秒,加上多次工具调用, 一个任务跑几分钟甚至几小时,中间经常卡住跑偏。所以目前 agent 最适合容错率高、成本不敏感、需要创造性组合工具的任务,比如头脑风暴、初步调研内容草稿生成, 想用它自动发生产环境部署优着点。最后留个问题,你现在的工作或生活里,有没有一个重复繁琐但又有点规律的任务? 如果交给一个 agent, 他 能自己上网查资料,调 a p i, 发邮件记笔记,你会放心让他全权代劳吗?如果不放心,最担心哪个环节?幻觉?成本? 速度?还是怕他删库?欢迎在评论区聊聊你的 agent 不 放心清单,说不定下一个爆款 agent 就 藏在这些顾虑里。

只需几天,你就能学会 ai 的 玩炸工具 chat gpt 出品的 codex, 你 信吗?很多人觉得像 codex 这种 能接管电脑的超级应用,肯定是给程序员用的,自己搞不定。其实呢,门槛真的没有你想象中的高。只要你会用 chat gpt 或者豆包之类的对话框, ai, 花点时间转变一下思路, 你就能把 codex 调教成一个极度贴心的私人超级助理。等你用顺手以后,你会发现他什么活都能接, 跑几十张发票算账,去邮箱翻找客户邮件,跨软件做 ppt, 甚至帮你盯着竞争对手的网页。 之前会不会写代码根本不是关键,核心在于你有没有意识去把任务拆解,把重复动作打包。今天这个视频主要是想带着非技术的同学快速上手这个 open ai 推出的 ai agent 的 超级应用。 从云端回到本地,不写代码的同学习惯了查 gpt, 第一步往往不太适用 codex 的 存储逻辑。以前你是在网页上对话 传的文件都存在云端,但在 codex 里面,你给他的文件以及他生成的所有文件,全部都直接保存在你自己的电脑本地。 为了不让文件乱成一锅粥,最好的准备工作是什么?是永远在项目里干活。你可以在文件夹里建一个新的项目,所有相关的聊天和生成的文件都会被 codex 自动归整。在这个文件夹下, 非技术的同学可以设置模式为适合日常工作。 codex 适合什么样的活呢? codex 拥有对你电脑文件的全权访问的能力,它能自动找对文件夹并完成任务。具体来说,这几类活最适合交给他。 一、处理本地的繁杂文件。比如你的下载文件夹中有六十张发票照片,你只需要说去读取那些发票,帮我提取文字,并在本地建一个 excel 报表,看消费趋势, 它就会自动搞定,并在本地生成一个真实的 excel 文件。跨软件的信息收集, 通过插件 codex 可以 直接联通你的常用工具,目前有上百个。你只要敲一个 at 符号,比如输入 at gmail 或者 at notion, 你 就能让它去翻阅过去两周找我做广告的邮件,整理成表格。 第三呢,是代替你直接点点点,它能直接用鼠标和键盘控制你的电脑。通过 at computer use, 它可以帮你打开电脑上的 camera 软件,新建换灯片。甚至还能用 at browse use 帮你自动去点击浏览器里面的按钮,测试网页好不好用。然后呢,要沉淀你的专属 s o p。 把活变成技能。 最阻碍新人提效的一点是总在下重复的指令。在 code x 里面,你需要习惯把你做好的工作变成可附用的技能。笔一上来就想着写多复杂的指令。按这个节奏来, 先用大白话让他干活,如果不满意就让他改,一直迭代到结果,让你拍他腿说,啊,太棒了!这时最关键的一步来了,你直接对他说,我很满意这个结果。 把它变成一个技能,它会立刻把刚才所有的经验提炼成一个可重复使用的标准文件。以后你只需要敲一个斜杠符号,比如斜杠品牌合作分析,它就能瞬间按最高标准重跑一遍。 如果你过程中又发现了更好的排版格式,随时告诉他请更新这个技能,以后都按这种格式输出。进阶习惯,让他二十四小时替你打工。定时自动化,对着你整理好的报表说一句, 请在每周五早上九点执行一次这个任务。更新这张表。 codex 呢,就会把这是加进日程表到点,自动在后台干活。你可以在 automation 的 面板里随时管理这些任务。白嫖全球最顶尖的画图模型 codex 内置了最强的 gpt image two 的 模型,生成的图片呢,会直接存进你的本地文件夹。如果你直接给出参照图描述需求,立即会生成质量极高的图片。 那根据图片生成梧桐树下的新功能的效果图,看一下避坑与管理他的大脑。用 codex 久了,他会越来越懂你,因为他有两个记忆占卜,一个是手动记忆, 这是你的规矩本。当你对它说以后这种落地页都用左侧边栏的排版格式并记住它的时候,它会写进 agent 的 n d 里面。 那第二个呢,是自动记忆,它会默默观察你的工作习惯并记录下来。那重要的提示是呢,不要去手动修改这个文件,让 ai 自己去更新就好,它会越来越聪明。所以呢, 别怕什么终端或者代码,先把你的日常痛点丢给他,建个项目,存个技能,你的工作方式呢,就会彻底被改变。如果你真的想学 ai, 请留言,想学 codex, 我 来教你。