兄弟们,我们今天来聊一下多 agent 打开方式,那很多人以为多 agent 就是 把模型给堆上去,结果跑起来还是不稳,那邪道一复杂就会崩。 其实问题不在模型的大小,而在有没有组织结构。那单 agent 在 复杂的任务里为什么会失效呢?首先信息断层,运行不足,风险集中,那一个 agent 呢?他要扛全部的链路,所以说会导致出错不可控,交付也不可追溯的情况。 真正能跑起来的呢,是结构化的编排,那就需要先拆任务,再调流程,退后做闭环拆解,让目标能执行。那调度呢?让斜坐有秩序,闭环的话可以让整个结果都可控。那这里我们看一个典型的流程入口,拆解,斜坐、审计、 交付,每一步都能追溯责任,清楚流程才敢规模化。那所以说多 a 阵的本质不是多几个模型,而是搭一套完善的系统,那需要结构化,可编排,可调度,这才是真正的壁垒。 一句话总结, ai 的 未来不是单点能力更强,而是系统能力的更稳,这个其实就是多 a 阵的正确打开方式。
粉丝915获赞3031

探击文明的秘密从来不是个人的智商,而是组织,包括分工协助规模化对于归机生命来说也是这样。 ai 发展到今天,我们见过薄纹墙记的模型,他们有着超大的上下文窗口,也见过深思熟虑的模型,他们有着超强的推理能力, 但是这些都还是天才,还处于单体智商的极限竞争。就在昨天, kimmy 发布了 k 二点五模型,并带来了一个名叫 agent swarm a 卷集群的重磅炸弹, 这个新的功能把国产 ai 推向了组织智能的新高度。先说 k 二点五,用一个关键词来概括这个模型的话,那就是全能。 怎么个全能法? k 二点五把视觉和文本对话和 a 卷调用,思考和非思考,所有你目前能想到的关键能力全都集中到了一个模型里边,而且在全能的情况下,他在各项评测当中都取得了极佳的表现。 另外你别忘了, k 二点五还是一款开元的模型,他在多项评测当中,由于 gpt 五点二 xhi, 但是成本只有对方的几分之一, openai 万亿美元的护城河又塌了一些。那么问题来了,模型的发展有那么那么多方向, kimi 为什么非要把所有的能力全都塞进一个模型呢?因为只有全能的模型,才能驱动得了最新的 a 卷集群功能,才能实现 kimi 在 这个阶段的野心。 我不知道 kimi 是 不是一开始就规划好的,但是你回过头来看的话,确实啊,它们的模型发展路径特别有一种 scale 三部曲的感觉。三部曲的第一阶段是 kimi 一 点零时期,那个时候模型的代表能力是 memory, ai 学会像人类一样去记忆。在这个阶段, kimi 卷的是长度,上下文的长度。第二阶段是 reason 和 tour use, ai 学会像人一样去思考和使用工具,尤其是在长城任务当中。在这个阶段, kimi 卷的是深度推理的深度。 前两个阶段提升的其实都是单体智商,但是啊,你要实现 agi, 光靠一个超级天才是不够的,你必须把一群的天才都给组织起来,有组织的智能才是文明,这才是 agi 要达到的高度。 于是第三阶段的 kimi 开始卷写作,也就是让 ai 自己组织 ai。 代表模型就是这次推出的 k 二点五。有了全能的 k 二点五,无论你需要什么样的子 a 卷,要并发多少个它都能实现,都能协调。我给你们演示一下就明白了。 第一个例子,我让 kimi 去所有主要学术和技术资源库做一次大规模的文献扫荡,然后识别并编目所有论文报告和官方文档。这个任务需要 kimi 具备极强的专业能力,否则你连找都找不着,更别提之后的整理了。 另外,因为是文献扫荡,所以工作量很大,很考验并行处理的能力。接到任务后, kimi 生成了四个子 agent, 分 别负责不同的渠道,比如 archive, github 等等。 每一个子 a 卷都交代了非常详细的要求,比如时间的范围、作者、主题、关键词等等。然后四个子 a 卷领了,任务就同时开工了。在主界面的下方,你可以看到他们的工作进度,点进去可以看到详情,知道他们进展到了哪一步。 当某一个子 agent 完工了,下方会有气泡提示,左边栏的进度条也会走满。当所有子 agent 都完成任务之后,一切都会汇总到主 agent 这边。它会整合所有搜索结果,开始创建最终的报告,包括可量化分析等等。 这个过程会涉及到文档的状写,也经常会需要编辑代码。还好背后的模型是 k 二点五,足够全能,否则根本不可能这么顺滑。当一切搞定之后,交付物会存在虚拟机的文件夹内,其中包括几十篇高质量文献,以及一份非常非常详尽的报告。 如果是人来干,且要在短时间完成的话,你肯定得来一个课题小组吧。刚才这个例子非常有代表性,因为几乎所有专业领域的人才实心都非常非常高,你要是想请他们帮你找找资料,做点分析,你得付出大的价钱。 那现在有了 kimi 的 a 卷集群,你就可以用算力换实心,只需要付出一点点的算力成本,你就可以让 ai 专家帮你干活,随叫随到,毫无怨言。 这个在以前是根本不敢想的。而且 kimi 的 a 卷集群可以处理高达一千五百轮的工具调用,在短时间内就能完成高负荷的工作。刚才的例子属于理工科的,咱们再来看一个文科的例子。 我希望 kimi 针对高达动画闪光的哈萨维的第一场战斗做一个拉片分析,也就是一帧一帧的拆解镜头语言。接到需求后, kimi 做了两件事。第一,生成 sub agent 一共有四个,分别是战斗分析师、视觉分析师、构图分析师和身份分析师。你看,从这四个分析师的配置就看得出来, kimi 对 这次的任务做了拆解,他知道要从哪几个方面切入,于是才有了战斗、视觉、构图和身份四个部分。第二,分配任务, 四个专业分析师同时开工并行工作,这样能保证效率。等他们都完成之后,主 agent 再进行整合,形成完整的拉片报告。 最终的报告还是挺有料的,包括对战况、节奏、试听语言的分析,尤其是还点到了导演的核心意图。这个特别棒,但是光有文字的分析好像还差点意思。我在想能不能加点配图呢?于是我让 kimi 创建表格形式的分析报告,并且附上手绘风格的分镜图。 这个就是全能模型的好处,当你需要图片的时候,他可以调用多模态的能力直接生成。 这种手绘的感觉还挺好的,不是吗?通过刚才的演示,你就知道什么叫真正的 a 卷集群。第一,它是角色涌现的。真正的 a 卷集群绝不是被程序员写死的流程图。过去两年,有无数的团队在做 multi agent system, 他们定义角色,设计流程,编写规则,但是这本质上还是人在组织。 ai 只是很初级的机群,只能做一些现性的任务。而 kimi 正在做的 a 卷机群是像人类社会一样,可以根据任务临时组建一支特种部队。 有的 a 卷负责看财报,有的 a 卷负责收新闻,有的 a 卷负责写代码。 a 卷永远跟随需求流动,它们欣赏得了动画,也看得懂 ai, 论文不会被锁死在固定的岗位上边。第二,它是三 d 编排的,以 minus wide research 为代表的 a 卷是二地并发的, 他让一百个实习生同时去搬砖,各干各的,最后再把结果堆在一起,只有分头,没有协助。而 kimi 的 a 卷集群拥有动态中继站, 他们可以在关键节点停下来交换信息,互相校准,然后再开始下一阶段的创作。有分工,也有对齐,所以我才说这是一种三 d 编排式的写作。 今天的 ai 面对的是更加复杂、更加通用的场景,靠单独的 a 卷不行,靠像预制菜一样的多 a 卷也不太灵, 真的需要因地制宜实时生成。所有角色分配、任务拆解都由 ai 在 现场及时决定。 对于用户来说,你拿到的不是一个更加聪明的模型,而是口袋里的字节跳动。对于 ai 这种归机生命来说,这是从天才进化到文明的开始。目前 a 卷集群功能还处于贝塔阶段,如果你是 kimi 会员的话,一定去试一试。 ok, 以上就是本期内容,想了解 ai, 想成为超级个体,想找到志同道合的人,就来我们 newtype 社群,那咱们下期见!

看看我的 agent 团队们,有写图文的、网站运营的、监控金价的、记账的,还有提供情绪价值的,后面还要增加一个视频剪辑的 open cloud 小 龙虾 用上多 agent 的 模式了吗?但像我这样每个 agent 对 应一个机器人的配置是有点广泛。在飞书上其实有一种更简单的方式,就是通过拉群,实现一个机器人多个 agent 多个群聊分别管理的模式。我们来以选择题、写作和神稿三个事情为例,完整的配置一遍, 一共三个步骤。首先用这样的命令创建多个 agent, 分 别负责不同的工作,然后给每个 agent 的 职责拉一个飞书群,并且把我们的唯一的这一个 飞书机器人添加到群里面。接着把每一个群聊和 agent 绑定起来,在这里查看群的 id, 通过这样的 bindings 配置把两者映设起来。最后不要忘记给飞书 channel 增加这两张配置,开放群聊和群聊中,不需要艾特机器人也能回复。 配置完成之后,在各个群里和 agent 对 话,给他们安排好职责和身份,让他们记录下来,你就可以在不同的群里指挥不同的员工工作了。像这样的流程,先选择题再写作,审稿,审完再改, 最后得到一篇完整的内容就可以发布了。这样做配置简单,效果强大,快来把你的 agent 军团也安排起来吧!关注我,带你玩转 open club!

这是我的一人公司的五个 ai 智能体,现在已经到货了,连我这两台已经完全不够用了,那么我买这么多 max studio 做本地智能体本地大模型到底是为了做什么呢?我之前是一个二百五十六 gb 显存的 max studio, 这个非常的强啊, 但是我会发现在使用 opencloud 的 时候,我有多个 agent, 因为一个是我的 ceo, 还有几个我的财务主管,还有我的运营总监,那么他们全部用我这一个智能器,就会导致我这个达摩型压力非常的大,哪怕我有这么大的显存,但是它的内存贷款已经受限了,所以说我安排这么多这个 max 六六, 这样就可以让我的一个智能体就用一个大脑,那样我有五个大脑,加上我之前的两个大脑,就有七个大脑,完成我的自动化工作流,自动帮我做视频,自动帮我找资料,自动帮我汇总我的财务数据,这样的话我只用给我一个主的 agent, 就是 我这台机器二百五十六 gb 的 这个大模型去发号指令, 就可以控制我所有的 a 经理帮我去干活,二十四小时不停歇。再给大家分享一下我是如何配置的。首先这个英伟达新出的这个它的能力是非常强的,我准备用它去做我的核心 ceo 的 大佬,然后这 g m l 就 有点弱了,然后这个负责我的编程,因为有时候我会做一些开发, 那么我就会让我上面这个弱一点的这个去做一些基础的开发,帮我去做一下报表啊,一些很基础的一些呃 erp 的 软件的设计。然后这个 mini max, 我 觉得它的文案能力特别强,像我的运营总监,我就准备用这个 mini max, 但是它的缺点也很强啊,它占用一百三十八 gb 的 这个容量,所以说显存的话,一跑的话基本上占到我一百八十 b, 所以 说我会优先用我这个二百五十六 gb 的 这个下面的去跑这个呃我的主 a 镜头, 然后这两个 agent 配合去做我的一些主要工作,完全没问题。至于这样的一些模型,比如说下面这个 vl 啊,千万三的 vl, 它就跑到我这一台三十二 g 的 显存完全足够,因为它主要是帮我分析图片,特别是啊抖音呐,小红书啊,它上面一些图片帮我看一看, 以及一些呃新闻,还有一些带图的这样的资讯,用它就完全够了。然后下面还有个 gbt 的 这个一百二十 b 的, 它的裸机推演能力是特别强的,所以说我可以用这一台六十四 g 的 这个显存的机器 去跑我的这个模型。那他主要做什么呢?就是有一些关于财务报表啊,一些呃网上的一些黄金啊,股票信息,用它来分析是绝对没问题的。这样的话我大概有七个机器去跑,我七个不一样的模型完成不一样的分工,他们独立的 agent 我 也会给他们配置好, 包括它的这个工具使用,我全部都给它配置好,每一个 agent 有 独立的,它的工具,它的灵魂,它的 agent 设定,以及它的我的用户的一些账户密码全部都在这个里面,而且这一切全部都是要本地, 我完全不需要任何线上 a p i 平台,就算是 mini max 和千万这些平台全部倒闭,我家里这些 agent 和大模型永远为我服务。这样的拥有感和归属感才是本地大模型真正的玩法。配合 open call 一 人公司这样就搞定了。

一分钟教你拥有多个龙虾你肯定看到别人有多个龙虾,而真正的多个龙虾只有一个。 open cloud 今天教会你拥有多个龙虾。 open cloud 中多个龙虾指的是 sub agent, multi agent。 视频结尾,我将具体分析 open cloud 中关于 sub agent 和 multi agent。 我 们先来配置 multi agent, 打开终端,输入命令 open cloud agents add 加你的龙虾名 会撤,然后你会看到 workspace directory, 这是新的龙虾的工作目录,可以不用修改它。继续回车,第一个选 yes, 之后全部选择 no, 这样你就完成了第一步。然后我们龙虾目录里多了一个新建的 workspace。 我 们来到 opencloud 配置文件, opencloud 点 jn 中,我们看到 agents 中多了个 list, 其中包含我们现有的 agents。 可以 看到网页中代理里也多了一个我们新建的 agent 图案。 官网中有两段关于飞书的配置,我们来跟着配置一下。首先指定默认的 account 复制到我们的配置文件中,然后我们根据配置创建 account 字段,再改造我们原有的飞书配置。到 concons 中复制一段飞书配置,用来配置新的飞书机器人, 注意飞书机器人字段名不能一样。最后修改新的飞书机器人的 app 多和 app secret, 注意这里我的 dm policy 使用了 allowist 推荐,还是用 dm policy pairing 模式更便捷。最后我们添加 bindings 段, 绑定 agent 和飞书通信。其中 agent id 指的是我们的 agents 中 list 里包含的 agent 列表里的 id 字段, channel 则固定为飞书 account id 则为 channels 中 accounts 下的 key, 也就是区分飞书机器人的字段名。最后我们测试一下,就可以和新的飞书机器人通信,而它使用的就是新的 agent。 根据以上步骤,我们可以拥有更多的龙虾,从事不同的工作。注意, opencloud 官方暂时不支持多个机器人在一个群里互聊。 刚才我们用到的是 multi agent, 还有一种叫做 sub agent, 它们有什么区别呢?你可以理解为 sub agent, multi agent 的 员工。每一个 multi agent 都可以一句话开启 sub agent, 每个 multi agent 都可以专注做不同事,而 multi agent 下的所有 sub agent 只能围绕着 multi agent 做事。十分感谢你的关注与点赞,我将持续输出更多 ai 内容。

今天聊一个最近 agent 的 开发领域,最火的概念叫 harness engineering。 如果你最近在关注 ai, agent 的 技术圈一定到处都能看到这个词, 但大部分人对它的理解停留在给 agent 加约束这个层面,这远远不够,今天我们把它彻底讲清楚。看完之后你会发现,业界一直以来对 agent 做的技术优化,本质上还是做同样的事情。 先从一个反直觉的事实说起, land chain the coding agent 在 terminal bench 排行榜上从三十名开外,一路冲到了前五。整个过程中,底层模型一行没换,始终是同一个模型,它们只动了三个东西,系统提示、工具配置和中间箭钩子。 这个结果直接挑战了 ai 开发中一个根深蒂固的假设,就是更好的性能,需要更大或更新的模型。 lincoln 用实际数据证明模型不变的前提下,光靠优化模型周围的系统就能带来数量级的提升。它们用的方法论就叫 harness engineering。 那 harness 到底是什么意思?这个词来自马距,比如江绳、马鞍等用来引导马匹朝正确方向走的装备。这个比喻是刻意的。马是 ai 模型,强大、快速,但它自己不知道该往哪走。骑手是人类工程师提供方向,而不是亲自跑。 harness 就是 骑手和马之间的那套控制系统。 这个词最早的定义非常简洁,每当你发现 agent 犯了一个错误,你就花时间设计一个解决方案,让 agent 永远不会再犯同样的错误。 lanchain 在 此基础上给出了一个更精炼的公式, agent 等于 model 加 harness, 模型包含智能 harness 让这个智能变得有用。 把模型想成引擎, agent 就是 整辆车,而 harness 就 好比方向盘和刹车,最好的引擎没有方向盘和刹车,去不了任何有用的地方。这里有一个关键区分,你可能听过另一个类似的概念,叫 context engineering, 上下文工程,它们是什么关系? 一句话讲清楚, context engineering 问的是我们给 agent 看什么, harness engineering 问的是系统预防了什么,测量了什么,修复了什么。 更准确地说,上下文工程主要关注怎么管理 agent 的 上下文窗口,给他看什么信息不看什么信息什么时候看。而 harness engineering 的 范围更广,它还包括架构约束、自验证、循环商治理和系统的可研进行,两者之间互相包含。 好概念,讲清楚了,那 harness 具体包含什么?我用六个关键词来概括。第一个,上下文架构,前沿团队一致发现,给 agent 塞太多信息反而有害。有研究表明, agent 的 性能在上下文利用率超过大约百分之四十之后开始下降。 所以关键不是给 agent 的 一本百科全书,而是给他一张地图,让他按需查找。 open ai 的 做法是把 agent 的 d 文件控制在大约一百行,只充当目录,指向更深层的文档。 agent 需要什么信息自己去查,而不是一开始就全部塞进去。 anthropic skill 的 渐进式加载理念也是为了解决这个问题。 第二个,架构约束。大多数人靠 prompt 来约束 agent 的 行为。写,请遵循以下规则。但 prompt 里的规则本质上是建议模型可以听也可以不听。 前沿团队的做法是用确定性的工具来机械式执行约束,比如自定义的 linter 和结构化测试规则,一旦编码,就在所有 agent 的 绘画中同时生效,不依赖模型的自觉性。这里有一个反直觉的发现, virso 一 开始给 agent 提供了大量工具,什么都能用,结果 agent 反而变得困惑,做荣誉调用。 后来他们移除了百分之八十的工具,只留最必要的 agent 反而更快更可靠,约束解空间反而提高了产出。 第三个,自验证循环。 agent 有 两个常见的失败模式,一是陷入死循环,对同一个文件反复编辑十几次,但问题始终没解决。二是交付时跳过验证,第一个看起来合理的方案就直接输出了。 line chain 的 方案是用中间键钩子来解决,一个中间键跟踪每个文件的编辑次数,超过预值就提醒 agent 重新审视方案。另一个中间键在 agent 准备退出时拦截它,强制执行一轮完整验证。他们还发现了一个非常有价值的策略,叫推理三明治。 规划阶段用最高推理强度充分理解问题,执行阶段降到高等推理强度保证速度。验证阶段再拉回最高推理强度补货错误。全程最高推理强度反而成绩更差,因为会超时把蒜粒花在刀刃上,效果最好。 第四个,上下文隔离。当任务复杂到需要多个 agent 的 协助时,关键不是按角色分工什么前端 agent、 后端 agent, 而是把子 agent 当做上下文防火墙。 父 agent 只看到他给子 agent 的 指令和子 agent 的 最终结果,中间所有的工具调用和中间产物都被隔离掉了,这样每个执行单元的上下文都保持干净,不会被无关信息污染。第五个,商治理。 agent 持续运行的时间越长,系统的混乱度就越高。文档过时,架构漂移,知识库和代码不一致。 openai 的 方案是引入一个后台运行的文档,梳理 agent, 定期扫描过时的文档,并自动提交修复。为 agent 服务的文档由 agent 来维护,形成自维护的闭环。 第六个,可拆卸性。这是最高维度的一层,更好的模型会让某些 harness 组建变成瓶颈。二零二四年需要复杂流水线的任务,二零二六年可能一个 prompt 就 搞定了。 所以 harness 必须是模块化的、可拆卸的。 line chain 的 中间件架构是目前最好的参考,每个中间件独立添加特定能力,不需要的时候直接移除,不影响其他部分。最后说一个关于投资回报的关键认知, harness 的 投入是以复利形式生效的,你今天加一条 linter 规则之后,所有绘画中这个错误都被预防。你今天加一条验证中间件之后,所有任务的交付质量都提升。这意味着 harness engineering 的 投入越早累积收益越大。 但同时也要警惕过度工程化。有一个很务实的原则,只在 agent 确实犯过的错误上投入 harness, 不要预防性的去解决还没出现的问题。 一句话总结, harness engineering 的 核心主张是, agent 的 可信瓶颈不在模型,在模型周围的系统。模型是引擎, agent 是 整辆车。引擎再强,没有方向盘和刹车,到不了目的地,这就是 harness。

你只需要上传一张分镜图,就能得到角色一只故事连贯的动画分镜。一句话就能得到音画同步丝滑过渡的动画。 你只需要轻轻框选一下,就能把多张图完美融合,点一下就能精准替换任何元素。没有原文件,想改文字,直接点编辑文字, ai 自动提取画面中的文字,想怎么改就怎么改, 还能完美保留原来的字体风格。这些全都是我在一张无限画布上做的,他就是 lowbirth 最近爆火的 nono 不 nono 二模型也能满血使用。接下来一个案例带你演示, 点击新建一个项目,然后你就会得到一张无限画布。这里有六条 tips, 积累了大量顶尖设计团队的审美和经验。选择分镜故事版,上传一张我们的角色设定图, 简单输入自己的故事风格和分镜需求,选择 none of none 二模型开始深沉, a 杠着会根据你的角色深沉、故事连贯、角色一致的方案,并找你确认大纲,满意直接点确认故事继续深沉。 接着 a 杠着会根据故事大纲深沉对应的分镜图片。三十二张分镜就这样批量深沉了,即便有这么多角色,深沉的分镜一致性保持的也非常亮眼。接下来在对话里导入刚刚深沉的分镜,输入简单的提示词 选择可零三点零模型开始生成,你看丝滑过度的漫画大片就制作好了。 logo 加 nano 和 nano 二丝滑,创作效率拉满,设计师必备神器,赶紧用起来!记得点赞收藏!关注我,解锁更多 ai 新玩法!

大家好,今天给大家讲解一下关于 agent 的 一个系统工作,跟系统对话的一个内容啊。相对性,如果做艺人公司的话,那么请人就是一个巨大的成本,就相当于说我们这边要用 openclaw 去建立自己的数字员工,那么这边就有很多个数字员工, 那个去进行一个对话沟通。之前我给大家讲解了,也就是欧盟俱乐部去建立了一个,但是一个这边的话会引起很多问题,相当于说是那个上下文,他没法隔离,然后模型也没法选择,然后权限跟执行都是有问题的,将他说一个做一个永远跟他对话,他没法实现 多智能体的一个协调工作。相当于说我这边可能是进行了一个股市分析部门,我这边里面有对应的角色,是这样的, 这些人这边是有一个决策者,相当于说他是你领导,他是我们我下面的领导,那么对应的有分析员, 然后还有风险员,然后还数据采集员,他们如何协调工作,需要用我告诉他我要知道什么股票的信息,那么数据采集员去采集对应的信息,然后市场分析,分析完, 然后风险,然后再进行评估,然后再最终得到了一个结论,再发送给股市决策者,然后决策者再把对的结论发送给我。其实我这边建立了两个团队,一个是前端研发,一个是那个那个产品研发群, 产品研发群其实也是,就是相当于说就是前端、后端跟测试,这里面的几个人员其实道理都是一样的,就是相当于说如何让他们去进行一个功能性的一个隔离,是这么一个内容, 但是大家也不要想把这个想的这么完美啊,一个是他的一个好投分量,因为我这边之前用股票做了一个测试啊。嗯,我给大家看一下, 我这边做了个测试,因为我这边不是调用他那个自身的一个搜联网搜索,而是调用了三方的那个 travis 里的一个搜索,仅仅是去调研了一个其中一只股票里面的数据,然后去市场分析, 光这一块这边 token 量就消耗的很大。第二点就是你如果说去做一些市场调研的一些那个那个 agent, 它就会有个很大的一个问题,相当于说我这边其实是建立了一个这样的一个群 机器人,相当于说你去市场分析跟数据采集,它需要有对应的 api。 如果说像我这样一样去做了之后,然后我就发现一个巨大的问题, 他没有数据来源,就导致他在网上瞎搜,搜到结果很大,而且 token 量一直在噔噔噔噔在在消耗,而且给不出来我对应的一个结果,就导致我对应的结果其实不是特别好,最终我把它关掉了。然后最后呢得到了一个结论,就是那个 对的一个结论,就是他的数据很老,他的数据非常非常老,就导致我现在呢这里面写了的二零二四年末就现就导致这个数据一个老。所以说如果说要做市场调研,你尽量去威胁那个 同花顺货之类的一些,哦,我这里是股票,你你可以去其他的一些里面去找 epi, 去把那数据拿到去再进行分析,不然的话它就会漫无目的的去向后 token, 呃,像网上有人去做富力业那个猜想,就导致整个 token 给炸掉了,那这个点是一个一个重要点啊, 现在说你要给他明确的指标跟你的明确的 a p i, 这样才能达到你想要的一个效果,所以说那个大家有兴趣可以去了解一下。我把这个这一块的一个配置也放到了我对应的那个链接下面。 还有一个问题,就是关于 agent 这一块啊,就是那个他 agent, 那 个他现在是在 opencloud 里面,他没法做到团队的隔离啊,相当说我所有的一个 agent 啊,其实是可以相互那个联通的。所以说我现在是把他 agent 这边 那个加入到一个群里面之后,然后去通过手动的形式去把这个那个 agent 一个个加,不然的话那边我之前因为只有设置了一两个嘛,那个可能就那个每个团队只有三四个人,那么就没问题。如果说我整个有十个 agent, 那 我就像那个每个群里面他要区分每个 agent, 通过人工的形式把它加入,不然的话他现在是没法去做区分的。现在新版本,不管是新版本、老版本,它就是这样的一个逻辑。哦, 然后第二点呢,就是关于那个上次跟大家讲的一个注册一人公司安卓这一块,安卓这边是有是有个坑,它那边需要一个授权书,就相当于说你申请 a p p 的 时候是有个授权书, 他这边需要有公章,那相当于说你上次注册了那个艺人公司之后吗?那么你这边就需要用去申请个那个公章,因为公章有公法人章、财务章,然后还有责任的那个公章有四个章吧?反正办下来大概是三两百到五百之间,每个章不一样嘛,反正一次性办完, 你只有那个盖章之后,这边才能够那个去申请对应的那个那个软件开发。 第二点就是关于纳税,二零二七年之前啊,那个关于个体工商户,他这边纳税是那个减半的。像上上次我给大家讲的,如果说你赚十万,那个标是两千五,其实现在是一千二百五了这一块, 然后其他的那个关于这个,关于这一块 agent 配置这一块, agent agent 配置这一块其实最重要的一点,我, 我那个录下来之后,其实是你的 agent 去怎么去写,相当于说它每个 agent 去相互调用这么一个协助的一个规则,这样的话它才能去进行一个协助,不然的话它那个协助不起不起来的,这也是一个问题。

今天给大家汇报一下之前说的做 ui agent 的 那个项目,它主要的功能是由人录制视频,然后由 agent 去执行,并把执行出来的这个过程轨迹去把它整理成一个 rpa 加 agent 共同进行执行的一个过程。 它我现在已经把它开源了,叫 curl s 杠 uis, 但是整体是这样一个项目,其实是借鉴了这个嗅 ui aloha 和那个 agent s 三这两个项目来构建的,然后也借鉴了 rpa 的 相关的一些内容。 主要的方式有三种,第一种录制视频由人为去录制,录制了之后它自己会学习轨迹并进行这个 edit 的 执行,然后还有一个就是纯 edit s 三进行执行,然后就是 edit s 三执行了之后,它会生成这种 rpa 加 edit s 三的协作的脚本, 然后可以进行执行。第四个是人工录制了,直接把人工录制的整个过程把它编辑成一个脚本,然后下一次可以附用这个脚本。 第五个模式混合执行的脚本可以直接进行重复的使用,比如说这两个生成的脚本可以重复进行使用,他会更加快一点和便宜点,他会很多托管,他是没必要去做消耗, 但是这个里面使用起来都还是比较简单。模型的话目前使用的两个模型,当然如果一个模型也是可以的,但是我个人建议用国内的一些多模态的模型去做执行,特别是他在微信这种国内的一些生态,他会识别的更好一点。还有 可以配一下国外的一些模型,比如说 jammy, 比如说 gpt 这种模型,它在元素定位它会更加的准确一点,但是它在具体执行的时候效果没有国内的模型那么好。 然后这是详细的介绍,其实这个东西它的准确度还是不高,特别是后面生成的那个脚本,准确度还是有限的。 为什么要做这个东西?是因为 ui 帧它的速度会比较慢,而且它的准确度是可以的,但是总体来讲还是没有那么好。 这前面是修 ui 和 loha 的 一些内容,我们的这个内容是建立在这两个之间的,但是它还是属于呃,效果没有想象中那么好。我尝试去做了一下,特别是它在这个混合执行 r p a 加 ui agent 进行混合执行的时候,它翻译出来的内容还是有时候它会把某些参数,灵活的参数,它会把它 硬编码。还有就是它的这种泛化性还是没有 ui agent 那 么好,但是它可能会更加快一点,因为很多步骤它直接使用了 rpa 的 方式,但是它虽然出现了问题之后,它是由 ui agent 进行兜底的,但是它恢复到之前那个步骤,它的泛化性还是没有那么高,可以给大家演示一下。 这个用起来也是比较简单的,我们可以让他先跑一下,其实就是到微信发一个消息,然后我准备这种脚本的话就可以直接生成,生成了之后以后就可以附用,比如说你给谁发一个什么样的消息,就可以生成这样的一个脚本,以后就可以附用 整体的一个框架,就是这样的,整体的一个思想是希望人教一次,然后机器学会了之后,可以把它弄成一个脚本,脚本的话它会更加机械一点,这个脚本不光有 rpa, 还有 u i agent, u i agent 可以 在 rpa 出问题的时候,或者说有一些是需要灵活操作的时候,可以把它填充进去, 可以看到这就是 u i agent 的 进行操作的。这个任务的话,相当于是先让 u i agent 的 进行一遍,然后自动把 u i agent 的 整个轨迹把它翻译成一个 那这种混合执行的脚本,然后这个脚本再能去做执行。现在 u i 镜头可能会稍微慢一点,它发送一套一条消息,这样整体的一条消息,我算了一下,应该是在三分多钟左右,每一步都需要消耗 token, 编辑出来也总共的时间大概在五分到十分钟。 如果是编辑出来的 r p a 加这个 agent 和 s 三的混合执行的话,应该在四十秒钟左右,它速度还是可以的,但是比如说它有一些特殊的情况,比如说有一些消息把它打乱呢,这些乱七八糟的时候就有可能会报错,我给大家可以演示一下,可以看到这就直接再跑了。 现现在他还没执行完,那下面应该会点击发送,发送了之后他应该就执行完了,执行完了他就会开始翻译这个混合执行的脚本,重点是把这个混合执行的脚本把它翻译出来,其实他也就类似于一个 rpa 的 脚本了。 好,这相当于他就已经执行完了这个纯 ui 进程的操作。 ok, 我 们也来继续看一下这个东西,五种运行模式,一种是人类去录屏,然后整理成轨迹,然后由这个 ui 进程去执行任务,这样他的可能准确度就会高一点,特别是你用一些比较好的模型,但是像 kimi、 kimi 这些模型 准确度都还是算蛮高的,特别是用了这个 ui agent, 这个 agent s 三的这个引擎它执行准确度还是蛮高,但是速度很慢。还有这个就是纯 agent s 三,也没有什么录屏操作啊,这些直接一个任务描述,就像我刚才一样,让他给这个发一个消息,这个就是一个纯任务描述的, 直接发消息他就可以完成这个任务,这个纯任务描述的他可能自己的能力要求就比较高一点。如果你没有录屏,我们刚才执行的就是第三个模式, 任务描述描述了之后 x 四三执行,使用这个多模态大模型进行翻译,翻译了之后做成一个混合的脚本,后面可以重放,这个就是重放第四个人类录屏,然后解析成一个轨迹,然后直接用这个 v o m 进行编辑,然后混合的脚本大家可以按照自己的一个想法进行操作,但是整体讲只能说它可以用, 但是想要达到非常成熟的效果还是有一定欠缺的,因为它的泛化性还是我个人感觉还是没有办法达到顶尖的。这种 ui agent 的 操作它没有办法达到,比如说你用 gpd 四点五,然后去执行 ui agent 的 效果,但是它比 rpa 它的泛化性要高一点,速度要比 rpa 要慢一点, 反正它就介介于 rpa 加这个 ui 镜头的中间,不管是优点还是缺点都是这样的。目前是用的双模型的架构,一个模型是这个 jimmy 的 flash, 它做定位会好一点,因为很多我是使用的这个图像定位,我甚至没有用这个 uid 这种 元素的 uid 数这种去定位,就用的纯纯图像定位的方式来做的,因为像国内很多这些软件啥的,它都是没有非常清晰的 uid 的 方式来做的,因为像国内很多这些软件啥的,它都是没有非常清晰的方式来做的,因为像国内很多这些软件啥的,它都是用的 kimi, 然后整个架构也是比较简单。最后其实这个轨迹生成执行这个脚本执行的时候还会有一个自动化,自己把它这些执行度弄来编辑出来。如果你执行非常多次的时候,那个步骤他会记录一下他之前执行的准确性,特别是有些元素,他点击起来,如果准确度比较高的话,他也会进行记录下来, 然后后面其实你是可以进行拆分的,希望大家如果有感兴趣的也可以进行二次开发。总结来讲,这个东西 r p a 的 部分直接进行生成,它还是没有那么好, 所以说这个东西也有点烂尾了,也有点烂尾,可能有两个比较好的点,就是录屏,然后用 ui 点的去操作,但是这个是羞辱秀 ui apollo 已经完成的。 还有一个比较好的一个点,就是 r p a 加这个 agent s 三进行协助运行的,这个混合引擎是已经成熟了的,如果哪一步执行失败,然后这个 agent s 三它会自动的衔接去兜底,把这一步进行执行,然后再进行 r p a 的 下一步。 但是这个不能接受特别大的变动,比如说前面的所有步骤都失败了,然后这一个步骤要把前面的步骤全部去实现,而且要实现到能做下一步的这种程度,这种就达不到 ok。 但是他这个翻译啊,翻译这个脚本,这个混合执行的脚本还是时间非常长的,可以看到我们在三分多钟的时候已经执行完了,但是他现在翻译还没有翻译完好,现在他已经翻译完成了,差不多就消耗掉了十分钟左右。然后可以看到他一共其实是六步, 然后它把它整理成的是五步,其中点击微信的这个使用的 rpa 搜索是使用的 agent, 还有输入也是使用的 agent, 最后发送按钮和最终的验证,这个过程其实它没有翻译特别多的 rpa, 有 时候它会翻译多一点,有时候会翻译少一点。这个是纯多模态大模型,它自己提取的,这一次它 提取参数,其实按理来说它是可以把这个名字和对应的小本里面的内容我们可以执行一下, 整体来讲它的效果还是没那么好的,只能说功能实现了,但是实际的这个方案的效果,呃,没有想象中那么好,因为它首先这个用多模态大模型去做判定,这个是不确定的事情, 而且它的这种泛化性或者说准确度,它是没有 u i a 的 直接进行执行它的确定性那么高的,但是它的速度又没有 r p a 那 么好, 他说正好就介于了两个之间。如果说自己手动的去调整一下这个 rpa 的 一些功能,或者说重新用用这个编程智能体去改一下,去加一下,这样的话它的准确度可能会更高一点,把这个 rpa 的 部分可以写得更加的稳定一点,可以看到它现在就在执行了, 由于它是使用的这个 ui 键的,所以说它的速度非常的慢,它只有两个 rpa, 只有第一个这个任务栏的微信图标点击的时候使用的 rpa 和最后一个这个使用的 rpa, 所以 说它速度太慢了, 确实也是使用这种多模态模型的一个不确定性。还有就是提示词它要优化的也很多,可以看到它现在已经输入进去,然后进行了发送。其实由由于它这个选择 rpa 的 步数太少了,所以说它的速度并没有提升特别多。 整体来讲这个东西还是属于一个玩具,没有办法达到自动化的很很好的实用性,使用的效果不是那么好。 总结就是这样,这也是实际试了一下,呃,测试出来比想象中的这种难度还是很大的, 特别是它在这种多模态大模型的一些调整里面,它的难度还是非常的大,而且它功能实现起来是很简单的,而且速度也很快,由于现在有可拉的扣这些变成程序来实现,但是它能 编辑出非常好的 r p a, 非常稳定的 r p a 和图像的选择这个东西,呃,不管是提示词也好,还是那些也好,它的效果调整都还是比较麻烦的,整体来讲这个效果不是特别。

请看实力 一个 agent 打工人安装好 opencloud 的 ui 界面,视频结尾有安装实操 opencloud 配置多智能体。 首先要创建多个 agent, 设置它的名称、 code 所在的空间以及对应的模型。 第二个就是写他的人设,这个人设的存放位置在你的工作空间下的这个路径,你可以按照这个模板来写,也可以根据自身需求调整。第三个是填写自己的信息, 在 text 栏里写明对应的信息即可。 第四步是激活,激活当前路径下的这个 code。 然后第五步是测试,通过相关信息进行测试,测试后系统会返回一个信息给你。 这个步骤完成之后,在代理界面里就能看到 新创建的 ajni 已经存在,如果能看到 ajni 就 表示创建成功,如果没有显示就说明创建未成功。 接下来在飞书当中新建群组, 在对应位置点击新建,这里做一个演示,先给群组取个名字,创建完成后 就能看到新增的这个群聊,然后在这个群里把对应的机器人 boss 加进去,我的机器人是这个名字, 单击按按钮添加即可,这样群聊与对应的机器人就绑定建立好了。 如果是 windows 系统, 你会看到绘画的 id, 在 这里把这个绘画 id 复制下来, 后续会用得上。如果是其他版本的非书 看不到这个 id 的 话,可以通过以下命令解决, 在对应位置输入指定命令。 在任意输入位置执行命令后, 就能在对应位置看到群 id, 显示出来,这个 id 就是 群组的 id, 把它保存好。 创建好一个群组之后,打开对应的文件, 在类似列表当中添加对应的工作配置, 找到这个配置项, 在绑定设置里加入该配置, 绑定好后保存, 之后重启对应的飞书和欧本 call, 此时机器人还不能进行回答,需要在对应位置进行调节设置, 在 channel 中添加一个配置项, 这个配置项里填写的列就是之前保存的群组列。 重启完成后,回到对应的操作位置,再次操作,机器人就会回应了, 这样就完成了 agent、 coder、 tester 这三项核心配置。使用打工人 tester 完成 opencloud 的 域外部署, 部署完成,点击地址打开, 玩的愉快!

在我有二十多家公司作为 ai 框架的选型之后呢,我总结出了六个多 a 键斜坐的框架,每一种呢都适合不同形制的业务。那今天呢,就一个视频和大家讲清楚,在上两期视频里呢,关于我说 a 键 pad 的 视频,就有很多小伙伴提问,就问我,我说 为什么我们不让一个大模型去分批次的处理问题呢?那其实咱们搞一个数学就能想明白哈,如果 ai 去做单次任务的准确率是百分之九十,那在五次之后,我们的准确率就会降到百分之五十九,这是一个非常大的降幅。 所以说咱们去设计一个多个大模型共同协助的框架,其实呢,本质上就是让 ai 去上一个轨道,防止它去跑偏。 那到底什么样的任务类型,该怎么去分我们的协助框架呢?就问自己一个问题就可以了,你这个任务的步骤能不能够提前写清楚, 你如果能够写清楚了,它就属于叫做静态业务,它如果写不清楚,你要做一步看一步,做一步看一步的,它就是属于我们的动态业务。好,那我们先从静态业务的 bat 模型开始讲起。 w a t 模型泛指的是 work, flow agent and tools, 核心思路呢就是说你用一个 md 文档把你的整个工作步骤给写好,然后呢让你的 a 键让你的 ai 去读这个工作步骤,然后根据工作步骤里的指示呢,去调用不同的工具帮你完成任务。 w a t 模型呢,特别去适合那些重复性特别强的固定任务,比如说每周我要爬十个竞品网站的数据,整理进表格,并且发报告,这个的好处呢,就是非开发者也能够轻易地维护,不过如果你要去做每次任务都不一样的场景,你千万不要去用它,因为 那样的话你去写这个呃规范文档的成本会比你的产出还要高很多。那么第二个适合静态业务的 整个框架呢?就叫 linchang 或者是 lingr, 其实 linchang 呢跟 lingr 就是 咱们平时经常说的链式思考,那它的核心逻辑呢?其实就是开发者用代码把每个步骤串成流水线,或者是串成一个个的循环, 在你去给客户去定制 ai 应用的时候,它特别特别的好用,就比如说一个基于知识库的 rack 搜索的 回答机器人,这个东西就特别特别的好用,我的每一步都是代码写死的,遇到这个问题该怎么办?遇到下个问题该怎么办?整个流程呢?非常的稳定,非常的好测试。但是如果你并不是一个非常熟悉开发的人,千万不要去碰它,而且如果你的任务逻辑经常变的,也不要去碰,你每次要改代码的话,成本太高了。 那么因为视频的长度关系啊,这期视频咱们就讲静态业务的两个框架,那关于动态业务的下面的 react plan, execute, auto gen 和 crew ai 的 这四个框架呢?我们下期视频再聊。好吧,我先听,我是一个大家一起学习 ai, 一 起进步的普通人,我们下期视频再见。

workbody 具备多 agent 并发任务处理能力。我们先开发一个势力网站, 然后新建多个任务,同时对该网站进行改版。如我们连续增加了色调风格转变中英文切换内容新增这三个任务。 在运行过程中,我们可以看到各个任务的进度以及 diff 信息。 网页改版完成,来看看最终的效果吧,所有的变更需求都完成得非常不错。 使用 workbody 发送小红书图文,首先提出参照爆款图文生成类似的内容, workbody 开始自动调研和仿照编辑。 第二步,要求 workbody 发布到小红书, 等待片刻就完成了。 外语音视频转成中文速记、一句话提需求,剩下的交给 work body markdown, pdf, word 等均可生成。

如果你在 skills 后面加个 s h, 你 会发现这里有四万多种 ai skills, 网站开发,做内容,做 ppt, seo, 全部能用,全部免费。比如我现在用这个很火的 remote best practice 这样子操作,我只演示一遍复制地址,然后新建一个文件夹,打开你的 ai 编程工具,告诉他帮我把这个 skill 安装到这个本地文件夹。 接下来注意看,把 excel 放进文件夹,这是一个全球主要国家的失业率,让它做个近速图 好了,是不是蛮酷的?

如果你正在做多 agent, 或者还在犹豫要不要做,我建议你可以先停下手里的活儿,花几分钟的时间听听 as ropy 的 经验。它们的实测经验显示,多 agent 的 系统比单 agent 系统性能要高出百分之九十点二。 我们还是用一个例子来看一下 esploic 是 怎么做到的。现在你让 ai 来调研一下二零二五年全球 ai 芯片的市场份额,如果只用一个单 agent, 你 丢给他两百份财报,五十篇行业研报会怎么样呢? 第一个问题是注意力稀释,当他读到第一百五十分的时候,他可能就忘了前面十分的核心数据了,即使是天才也会被淹没在海量的数据里。 第二是串行效率低的问题,他只有一双手,搜一个看一个,读完了再搜下一个,等他看完,二零二六年可能都快结束了。 第三是路径漂移的问题,他又要干活,又要做计划,搜着搜着就可能钻到细节里出不来了,完全忘了你最最开始想让他做什么。 snake 的 发现,其实单纯的堆模型能力是没有用的, 真正的解法是把一个人变成一个团队,这个团队里的老板也是核心的大脑,他来负责战略的决策。 老板是不需要亲自读网页版文档的,他的工作是来制定计划,统筹全区分配任务,而且要把这个计划写在一个本子上,防止他忘了。 员工就是 sub agent, 来负责具体的执行,每个员工只专注做一个具体的任务,有的负责提取财务数据,有的负责做做政策,有的来负责对比产品。 他们是不需要操心大局的,只需要把自己的那块工作做好,做快做准就行。这套架构最精妙的地方在于它运行的不是一个事先写好的固定流程,而是采用一个循环的模式。 首先老板要先观察已经有的数据和员工的反馈,然后再做定位,分析一下现状问题出在哪,判断一下离目标还差什么,再做一个决策决定。我们是继续深挖还是说换个路子。 最后是把指令下发给下属来进行一个具体的执行。一直循环到老板觉得没问题了,资料够了,可以发给客户出报告了,那这个循环就结束了。 我们来看一下一次典型的运行是什么样子的。当用户发送了一个调研的需求给智能体,智能体首先是先创建了一个主 agent, 也就是我们所说的老板。这个老板会生成一个初步化的研究大纲,然后把这个大纲存入到 memory 当中, 然后就根据这个大纲创建了多个子 agent, 进行一个全网的搜索。每个 sub agent 在 返回结果之前,都需要进行一个自我反思,我搜到的东西好不好,对老板有用吗? 最后老板会把所有的 sub agent 的 信息进行一个汇总,交给最后的这个 citation agent。 这个角色非常重要,他不写内容,只负责做检查, 保证报告里的每句话都能在原文里找到证据。那 agent 内部是黑盒的,多 agent 就是 多个黑盒的叠加,我们怎么能保证输出的可控性呢?实验室的版本和工业级的版本往往就差在这最后一公里上。 第一个问题是上下文的阶段导致系统失忆的问题,因为每个 sub agent 的 信息最终都会汇总给这个主 agent, 海量的数据就可能会导致对话历史迅速突破上下文 token 的 限制,一旦发生了阶段,主 agent 就 会失忆。 解法就是我们前面提到的加入一个 memory, 将核心的计划存入到外部存储当中。第二是工具调用失败的问题。 elastic 内部发现工具调用失败往往不是因为模型的问题,而是人为写的说明书是存在歧义,导致 ai 误解了工具的用法。 这个问题的解法是 astropic 内部是通过 ai 来写说明书的,他们开发了一个 tool testing agent, 让他来多次使用这个失败的工具,在失败中摸索工具的坑和逻辑漏洞,重新去写工具的说明书, 就这一项任务的整体耗时就能降低百分之四十。然后就是交错思考的方式,在提示词中强制模型在调用工具的前后进行一个显示的思考,调用前要说明你调用的理由和预期,调用之后要进行一个评估和反馈是否符合预期。 第三是路径的随机性导致评估失灵的问题。多 agent 是 非限性的,同样的查询可能跑两次路径是不一样的。传统的准确率是没有办法衡量系统好坏的。 这个问题的解法第一是模,引入模型的辅助评估,我们可以引入一个高阶的模型,作为一个裁判,针对报告的事实性和引用准确性进行一个逻辑的打分。 第二个方式是小样本快跑,不需要创建一个完整的评估体系再进行评估。我们早期的时候可以选用二十个比较有代表性的真实案例测试,那这几十个案例就可能帮我们揪出系统中存在的百分之八十的问题。第四是任务规模难控制的问题, 多 agent 的 系统有可能会为了一个简单的问题盲目的就开几十个 sub agent, 导致 token 的 消耗指数级增长。这个问题的解法是在提示词中嵌入了规模自适应的规则。 比如说简单的事实,我们可以调用一个 sub agent 三到十次的工具调用,复杂的研究可以起用十个以上的 sub agent。 最后一个是信息的归音和可信度的问题, 信息过于碎片化,可能就会出现结论和原来的信息源无法对应的问题。这里就是我们前面提到的 cetacean agent, 用来专门负责饮用喝茶。 那这整套架构的核心思想其实很简单,不要期待一个超级大脑去做所有的事情,要让专业的人做专业的事。就像一个公司老板不可能一个人把所有的事情都做完,必须要依靠团队的协助。

今天给大家介绍一款我自己修改出来的 opencloak 桌面端 gui 软件 stefancloak, 它是基于开源项目 cloak x 做的。大家都知道 opencloak 后台原本只有网页端,很多操作用起来其实没那么顺手, 所以我做了这个桌面端来解决这些问题。它不只是一个助手,它把多个 agent、 模型、技能频道还有任务都整合进了一个本地桌面应用里。 先看首页, welcome 页现在不只是一个欢迎界面,左侧还整合了绘画管理,你可以直接按 agent 查看历史绘画,也可以筛选绘画,控制显示数量,清理就绘画, 这样在多 agent 的 场景下就不会因为历史记录太多显得很乱。聊天页是日常使用最核心的部分,这里不是简单问答,而是一个真正的工作区。右上角可以看到当前对话对象, 同时还能看到上下文容量显示,这样你就能判断当前绘画是不是太重,避免上下文过长影响回复质量。 模型业用来统一管理模型提供商,你可以接入不同模型,比如 gemini、 g l m 这类能力,后面也可以按照自己的使用场景分配不同模型,这样整个软件就不依赖单一模型,它更像一个可切换、可扩展的模型控制台。 agents 业是这个软件最核心的地方,因为 stefan 库奥不是单 agent, 而是多 agent 协助结构, 比如 main 负责日常对话, stefan 负责核心调度和验收。 dev content, ops 则分别承担开发内容核运为直能 点进 agent 设置之后,你可以看到每个 agent 都能独立配置,包括 agent 名称、模型、上下文容量,还有它归属的频道。这里的上下文设置不只是写在配置里,在实际聊天页右上角也会同步显示出来, 这样你在对话的时候就能直接知道当前 agent 的 上下文容量情况。技能页相当于给 agent 扩展能力的地方, 你可以把技能理解成可插拔的专业能力模块。装上之后, agent 不 只是会聊天,它还可以按技能定义去完成更具体的任务和流程。 频道页解决的是怎么把 agent 接到外部平台这个问题,比如你可以把它接到非书,这样桌面端的 agent 不 只是在本地使用,它还能真正进入团队,协助场景里对接外部消息和群聊工作流。 定时任务页让 ai 不 只是被动等待提问,你可以让它按时间自动执行任务,比如定时巡检、固定汇总、自动提醒,或者周期性处理某类工作。这样一来, stefan 克奥就更接近一个自动化工作台,而不只是单纯的聊天工具。 这个场景是我最看重的地方。在非书群里,不同 agent 可以 用不同身份分别发言,比如 stefan 负责分发任务和验收结果, d f content ops 按各自直能写作, 这样你看到的就不是一个 ai 在 自言自语,而是一个真正有分工的 agent 团队。 所以 stefan cloud 的 核心不是做一个更花的聊天界面,而是把多 agent 模型、技能频道还有自动任务整合到一个桌面端工作台里。

昨天我在视频里讲的是在一个 opencloud 里面创建多个飞书的机器人,然后把几个飞书的机器人, 每个飞书的机器人配置一个一个 agent, 然后把他们拉到一个群组里,然后来干活,这是一种方式。评论区和 后台的私信的有朋友在问,有没有试过在一个机器人里面让它自己配置多个 agent 来来配合工作的,不需要创那么多机器人。 我,我今天晚上试了一下,可以我给大家看一下实际情况。奶油是我在腾讯云的,腾讯云服务器上的 opencloud, 它是线上的,跟我线下不冲突, 你知道我这个电脑上有两个 opencloud, 一个是腾讯云服务器里的,还有一个就是本地的。我问了他一句话,我说你可以化身多个 agent, 代理协代理协助,这还错别字儿,打快了, 他说可以,他可以化身多个 agent, 他 有多 agent 协助的能力,他的子 agent 可以 同时使用多个,最多好像是八个吧, 他可以协调他们工作,汇报结果,并行处理任务。完了他下面我把之前在豆包里面生成的我对一个团队的配置的几个角色,他们应他们是干啥的?他们的职责能力是什么?他们的工作流程是啥,什么风格什么之类的。我一股脑的又扔给了他,你看他的回复, 他说他看到已经有了这个完整的团队架构,非常专业。团队配置,他自己的角色是什么?他需要分配出几个人分别干什么? 他的角色是监督,他需要来汇总结果来汇报。他现在问我说让我告诉他品牌产品信息,以及具体需要完成什么任什么任务,这个团队 我告诉他这些任务不着急。我说请将这个团队的配置常态化,每天早晚各一次,定时提醒我同步计划和验收结果就是 一个团队的一个正常的一个工作流程。他说收到,首先他配置了配置了那个工作的文件,设了定时提醒,早上九点提醒,我做了一下验证,最后给我生成一个这个。他已经成功地配置了整个团队的一个工作 团队的架构、标准的工作流、定时提醒以及整个的工作模式。我提需求他来接受分析拆解,拆解之后是多 agent 并行执行,成果交付, 提醒时间是早九晚九,下一步就等我给他布置任务。 ok, 这个是在一个机器人里面,就在这一个机器人里面创建的一个情况。我之前有一个群组,里面是 一堆机器人,我这两种情况都配置了,我不知道这两种有什么区别,就是这两种模式他们的优劣势各是什么?我就去问了一下 ai, 我 问他一个问题是我说在飞书中创建多个机器人,为每个机器人配置对应 ai 阵和创建一个机器人让他分身多个 ai 阵的工作。 两种情况各有哪些优劣势?他分析了一下,总的来说,如果是多机器人,多 agent 这种是相对来说,它隔离做的彻底一点,就是比如它这里提到的身份隔离,用户可以清楚地识别身份权限隔离提高安全性, 消息隔离独立处理,避免混淆。故障隔离一个机器人故障不影响其他机器人的运作灵活性,但它的劣势就是配置复杂,也容易出问题,资源消耗大,这个大家可能比较关心的,因为每个独立的机器人都是独立的 api 调用的, 单机器人多 a 证的这种方式就是配置简单,维护成本低,只需要管理一个就可以了。它的劣势就是它的身份容易混淆,它的权限是共享的,所有的 a 证它共享一个机器人权限,消息路由复杂,这个有点看不懂,故障影响大,它只要有一个故障就是活,什么都不用干了。 它适用场景是对多多机器人多 agent 的, 适合这种对安全性要求比较高,而且需要区分角色的这种场景单机器的资源,单机器人多一种的就是资源有限的,或者对成本敏感的,或者是决策区分没有那么重要的,就可以一股脑的信息全放在一个地方的。 所以他给了这样一个建议,我不知道他给的这个建议大家认不认同,大家也可以讨论一下。

二零二五年, agint 成为了 ai 的 主流形态,模型开始会规划、拆解任务,自己调用工具。但当问题变得复杂时,再强的 agint 也只能同时思考有限的事情。本质上它仍然是一个单体智能, 但复杂问题从来不是靠一个大脑就能解决的。就像人类文明的跃迁,靠的不只是更聪明的人,还需要分工和写作。 ai 已经足够聪明,所以 ai 的 下一步进化方向很可能不再是更强的单体 agent, 而是让多个 agent 协同工作,形成真正的 agent 的 集群。我们已经看到各个大模型厂商在新一代大模型中探索落地这种多 agent 的 写作模式。比如 cloud code 的 agent teams, 它允许多个 cloud agent 像一个团队一样, 在一个项目上并行工作,每个 agent 负责自己的任务部分,并且能直接互相沟通和协调,压缩传统串行工作所需时间。 国内的 kimi 大 模型甚至更早就开始探索多 agent 的 方案,在大模型训练的时候就引入了并行设计能力,在这个基础上推出了 agent swarm 功能 open ai, 在 gpt 五点三 codex 相关的文章里也暗示了下一步 agent 迭代将朝着多 agent 的 交互上做努力。那么问题就来了, agent teams 和 agent swarm 的 区别是什么?和 sub agents 有 什么区别?我们先从单 agent 的 情况说起。 从单 agent 到 agent teams, 我 们知道 cloud code 最基础的功能就是在一个窗口上让一个 cloud agent 替你干活,如果有多个任务,就在一个窗口里依次串行执行,但这样所有对话都挤在一个聊天框里,有上下文过长的问题, 所以我们一般会自己拆分任务,手动开多个窗口并行执行。但这样要是各个窗口改动出现冲突,就需要自己手动和代码。 于是 cloud code 又引入了 sub agents 功能,通过一个主 agent 来控制多个子 agent 的 工作,效果上相当于让主 agent 替你开多个子窗口,独立进行执行,最后由它来自动汇总结果。 但子 agent 之间没法直接交流,所以更适合改动相对独立、偶合较少的任务。于是 cloud code 又又引入了 agent teams。 在 agent teams 里,依然有一个主 agent 的 角色,他将任务通过共享任务清单的形式把任务给到各个子 agent, 子 agent 并行申领并执行任务,并且可以互相通信,这样多 agent 间协作可以更紧密。 agent teams 实测大概原理懂了,我们用一个实际例子看一下 agent teams 的 工作流程。我们先执行 cloud update, 确保 cloud code 是 最新版本。然后在 cloud settings 点 json 文件里将 team 相关的环境变量打开。在 cloud code 输入框里提到 agent team 关键词就可以触发相关功能。 比如使用 agent team 创建多个 agent, 从不同角度讨论二零二六年还适不适合在上海买房, cloud code 就 会创建多个 agent, 并行的从不同角度去做头脑风暴。最后给出一份讨论结果看起来挺好,但我认为短期内它依然只能是个实验性功能,因为它有两个比较严重的问题, 首先是 token 量爆炸。 sub agent 方案里,子 agent 会把执行上下文总结后返回给主 agent, 所以 上下文长度更可控。而在 agent 的 teams 里,则会让所有子 agent 的 共享上下文,每个 agent 的 每一轮提示词都要包含所有 agent 的 历史消息,任务越往后,执行。 agent 的 的历史消 息任务越往后,执行。 agent 的 成员通常在任务开始时就根据角色定下来了,很难在任务中途根据工作量动态扩容。 比如,我一直想做一个关于硅基文明简史的话题,讲述从二进制到计算机,再到 transformer 等一系列推动 ai 发展的一百个事件。 它分成几个阶段任务。首先是需要一位研究员收集人类历史出现过哪些关键事件,审核员筛选事件 图片生成源,生成一百张图片,图片审核员教演图片风格是否一致,再让 ui 设计师生成网页风格。最后才是给程序员开发网页。 这个例子中, agent team 只会创建六个 agent, 尤其是在图片生成阶段,可能还是由那一个图片生成员慢慢画一百张图,他不会因为发现任务量大,就临时裂变出多个 agent 同时开工。那有方案可以解决上面提到的两个问题吗?有。让我没想到的是,国内的 kimi agent swarm 把问题给解决了。 kimi agent swarm 功能实测,我们先来看一下执行效果,再了解下 kimi agent swarm 和 agent teams 的 区别。先将上面提到的归机文明简史任务描述粘贴到 kimi 下拉框,选择 agent swarm 执行, kimi 会启动一个叫 kimi's computer 的 虚拟机, kimi k 二点五会作为主 agent, 像项目经理一样,将复杂任务拆分成多个步骤的子任务,并现场决策生成六个子 agent, 每个子 agent 只负责这一个阶段子任务的上下文,这样 agent 的 上下文更短,注意力更聚焦,可以大大降低幻觉和出错概率。 点击每个 agent 都能看到它对应的照片和角色描述,就像一个电子员工一样。其中,研究员会在互联网上发起多轮搜索,从国内知名技术资讯站点获得几千条搜索结果,再从里面筛选出一百三十八个候选事件,生成一个 md 格式的结果文档交付给审核员。点击底部的 all files, 可以找到这个结果文件。点击查看文件内容,可以看到研究员已经将收集的内容按年代进行排序,并给出事件的历史意义。审核员淘汰三十八个,留下一百个真正改变世界的技术。以 md 文档格式给到图片生成员, 图片生成员拿到审核员筛选过的文件内容后, kimi k 二点五发现多张图片。生成一百张图片的任务时间会很长,于是将子任务进一步拆分成五个小批次,临时创建五个新的子 agent 并行去执行生图任务。 比起单个 agent 挨个串行执行任务改成并行之后,任务的实际运行时间会明显变短。 点击列表里的任务,可以看到每个任务的具体执行情况。注意看,这里面会有一些失败和报错, a 警的内部会不断调整策略,重试并最终完成子任务。 这要是在传统多个单体的 a 警的架构中,一个 a 警的内部报错,就算内部有重试,也会大大增加执行耗时。而 a 警的 swarm 架构中,局部任务的失败并不会严重影响大局,这样系统稳定性更高。之后经过图片审核员、 ui 设计师和程序员的写作完成了网页可以看到,网页按时间线给出了每个年代影响 ai 的 重要事件,且美术风格一致。 kimi agent swarm 通过多个 agent 的 互相协助,只花了几分钟时间就完成了我可能需要花一天甚至几天才能完成的任务。 agent teams 和 kimi agent swarm 的 区别最后总结下 kimi agent swarm 和 agent teams 的 差异。首先是架构逻辑不同, kimi agent swarm 逻辑上更接近 sub agents 的 增强版。 子 agent 之间上下文物理隔离,只负责局部的子,任务生产的中间结果会被总结后再返回给主 agent, 这样既保证了任务聚焦,又把 token 消耗压到了最低。 其次,支持动态并行。 kimi k 二点五在训练时引入了并行代理,强化学习技术,也就是 p a r l, 这让他具备了动态编排的能力。他像一个聪明的项目经理,能根据工作量现场摇人,比如身徒任务多,他会动态创建几十个 a g 的 并行跑,效率能比传统串行提升四倍以上。 最后是集成度不同, cloud code 更像是一个程序员的专业工具。想用好 a g 的 teams, 你 需要自己配环境,安装各种 skills。 而 kimi agent swarm 自带 kimi's computer 虚拟机,申图、搜索、写代码、运行网页,全是开箱即用,对普通用户来说更友好。从单体智能到群体协助, ai 正在复刻人类文明的跃迁路径,不是更聪明的大脑,而是更聪明的协助。 当无数 a 警特学会像团队一样并肩作战、分工配合, ai 就 不再是工具,而是队友,而这可能才是通往通用人工智能的真正基点。现在大家通了吗? 好了,如果你觉得这期视频对你有帮助,记得转发给你那不成器的兄弟,文字版的笔记见评论区,这里是小白的 bug, 我 们聚焦一切可能影响人类历史进程的技术,如果你感兴趣,记得关注我们,下期见!嘟嘟嘟嘟嘟。

二零二五年, agint 成为了 ai 的 主流形态,模型开始会规划、拆解任务,自己调用工具。但当问题变得复杂时,再强的 agint 也只能同时思考有限的事情。本质上它仍然是一个单体智能, 但复杂问题从来不是靠一个大脑就能解决的。就像人类文明的跃迁,靠的不只是更聪明的人,还需要分工和写作。 ai 已经足够聪明,所以 ai 的 下一步进化方向很可能不再是更强的单体 agent, 而是让多个 agent 协同工作,形成真正的 agent 的 集群。我们已经看到各个大模型厂商在新一代大模型中探索落地这种多 agent 的 合作模式。比如 cloud code 的 agent teams, 它允许多个 cloud agent 像一个团队一样, 在一个项目上并行工作,每个 agent 负责自己的任务部分,并且能直接互相沟通和协调,压缩传统串行工作所需时间。 国内的 kimi 大 模型甚至更早就开始探索多 agent 的 方案,在大模型训练的时候就引入了并行设计能力,在这个基础上推出了 agent swarm 功能 open ai, 在 gpt 五点三 codex 相关的文章里也暗示了下一步 agent 的 迭代将朝着多 agent 的 交互上做努力。 那么问题就来了, agent teams 和 agent swarm 的 区别是什么?和 sub agents 有 什么区别?我们先从单 agent 的 情况说起。 从单 agent 到 agent teams, 我 们知道 cloud code 的 最基础的功能就是在一个窗口上让一个 cloud agent 替你干活,如果有多个任务,就在一个窗口里依次串行执行,但这样所有对话都挤在一个聊天框里,有上下文过长的问题, 所以我们一般会自己拆分任务,手动开多个窗口并行执行。但这样要是各个窗口改动出现冲突,就需要自己手动和代码。 于是 cloud code 又引入了 sub agents 功能,通过一个主 agent 来控制多个子 agent 的 工作,效果上相当于让主 agent 替你开多个子窗口,独立进行执行,最后由它来自动汇总结果。 但子 agent 之间没法直接交流,所以更适合改动相对独立、偶合较少的任务。于是 cloud code 又又引入了 agent teams。 在 agent teams 里,依然有一个主 agent 的 角色,他将任务通过共享任务清单的形式把任务给到各个子 agent, 子 agent 并行申领并执行任务,并且可以互相通信,这样多 agent 间合作可以更紧密。 agent team 实测大概原理懂了,我们用一个实际例子看一下 agent team 的 工作流程。我们先执行 cloud update, 确保 cloud code 是 最新版本,然后在 cloud settings 点 json 文件里将 team 相关的环境变量打开。在 cloud code 输入框里提到 agent team 关键词,就可以触发相关功能。 比如使用 agent team 创建多个 agent, 从不同角度讨论二零二六年还适不适合在上海买房, cloud code 就 会创建多个 agent, 并行的从不同角度去做头脑风暴。最后给出一份讨论结果看起来挺好,但我认为短期内它依然只能是个实验性功能,因为它有两个比较严重的问题, 首先是 token 量爆炸。 sub agent 方案里,子 agent 会把执行上下文总结后返回给主 agent, 所以 上下文长度更可控。而在 agent 的 teams 里,则会让所有子 agent 的 共享上下文,每个 agent 的 每一轮提示词都要包含所有 agent 的 历史消息,任务越往后,执行。 agent 的 的历史消息任 务越往后,执行。 agent 的 成员通常在任务开始时就根据角色定下来了,很难在任务中途根据工作量动态扩容。 比如,我一直想做一个关于归机文明简史的话题,讲述从二进制到计算机,再到 transformer 等一系列推动 ai 发展的一百个事件。 它分成几个阶段任务。首先是需要一位研究员收集人类历史出现过哪些关键事件,审核员筛选事件 图片生成员生成一百张图片,图片审核员教演图片风格是否一致,再让 u i 设计师生成网页风格。最后才是给程序员开发网页。 这个例子中, agent teams 只会创建六个 agent, 尤其是在图片生成阶段,可能还是由那一个图片生成员慢慢画一百张图,他不会因为发现任务量大,就临时裂变出多个 agent 同时开工。那有方案可以解决上面提到的两个问题吗?有。让我没想到的是,国内的 kimi agent swarm 把问题给解决了。 kimi agent swarm 功能实测,我们先来看一下执行效果,再了解下 kimi agent swarm 和 agent teams 的 区别。先将上面提到的归机文明简史任务描述粘贴到 kimi 下拉框,选择 agent swarm 执行, kimi 会启动一个叫 kimi's computer 的 虚拟机, kimi k 二点五会作为主 agent, 像项目经理一样,将复杂任务拆分成多个步骤的子任务,并现场决策。生成六个子 agent, 每个子 agent 只负责这一个阶段子任务的上下文,这样 agent 的 上下文更短,注意力更聚焦,可以大大降低幻觉和出错概率。 点击每个 agent 都能看到它对应的照片和角色描述,就像一个电子员工一样。其中,研究员会在互联网上发起多轮搜索,从国内知名技术资讯站点获得几千条搜索结果,再从里面筛选出一百三十八个候选事件,生成一个 md 格式的结果文档交付给审核员。点击底部的 all files 可以找到这个结果文件。点击查看文件内容,可以看到研究员已经将收集的内容按年代进行排序,并给出事件的历史意义。审核员淘汰三十八个,留下一百个真正改变世界的技术。以 md 文档格式给到图片生成员, 图片生成员拿到审核员筛选过的文件内容后, kimi k 二点五发现多张图片。生成一百张图片的任务时间会很长,于是将子任务进一步拆分成五个小批次,临时创建五个新的子 agent 并行去执行生图任务。 比起单个 agent 挨个串行执行任务改成并行之后,任务的实际运行时间会明显变短。 点击列表里的任务,可以看到每个任务的具体执行情况。注意看,这里面会有一些失败和报错, a 警的内部会不断调整策略,重试并最终完成子任务。 这要是在传统多个单体的 a 警的架构中,一个 a 警的内部报错,就算内部有重试,也会大大增加执行耗时。而 a 警的 swarm 架构中,局部任务的失败并不会严重影响大局,这样系统稳定性更高。之后经过图片审核员、 ui 设计师和程序员的合作完成了网页,可以看到,网页按时间线给出了每个年代影响 ai 的 重要事件,且美术风格一致。 kimi agent swarm 通过多个 agent 的 互相协助,只花了几分钟时间就完成了我可能需要花一天甚至几天才能完成的任务。 agent teams 和 kimi agent swarm 的 区别最后总结下 kimi agent swarm 和 agent teams 的 差异。首先是价格逻辑不同, kimi agent swarm 逻辑上更接近 sub agents 的 增强版, 子 agent 之间上下文物理隔离,只负责局部的子,任务生成的中间结果会被总结后再返回给主 agent, 这样既保证了任务聚焦,又把 token 消耗压到了最低。 其次,支持动态并行。 kimi k 二点五在训练时引入了并行代理,强化学习技术,也就是 p a r l, 这让他具备了动态编排的能力。他像一个聪明的项目经理,能根据工作量现场摇人,比如身徒任务多,他会动态创建几十个 a g 的 并行跑,效率能比传统串行提升四倍以上。 最后是集成度不同, cloud code 更像是一个程序员的专业工具。想用好 a g 的 teams, 你 需要自己配环境,安装各种 skills。 而 kimi agent swarm 自带 kimi's computer 虚拟机,申图、搜索、写代码、运行网页,全是开箱即用,对普通用户来说更友好。从单体智能到群体协助, ai 正在复刻人类文明的跃迁路径,不是更聪明的大脑,而是更聪明的协助。 当无数 agent 学会像团队一样并肩作战,分工配合, ai 就 不再是工具,而是队友,而这可能才是通往通用人工智能的真正基地。现在大家通了吗? 好啦,如果你觉得这期视频对你有帮助,记得转发给你那不成器的兄弟,文字版的笔记见评论区,这里是小白的 bug, 我 们聚焦一切可能影响人类历史进程的技术,如果你感兴趣,记得关注我们,下期见!嘟嘟嘟嘟。

兄弟们切腿 gbt 的 这个 plus 免费试用一个月的优惠活动预计会在二月底结束,还没有薅到这一波羊毛的一定要抓紧了,目前这个优惠活动不管你是新用户还是老用户 都可以去领取,很多朋友可能还不了解这个活动,今天主播教你们怎么把这个活动百分之百的刷出来,以及怎么成功领取到这个免费试用。首先的话,如果你想参与这个活动,咱们需要 在网页端里面操作,手机或者电脑的浏览器都可以在浏览器里面打开切的 g p 的 这个官网,然后把我们的网络切换成日本、 英国、韩国、新加坡等等地区,因为他只有一些特定地区的用户才能够看到这个免费试用的活动。切换了网络之后,我们登录上自己的账号,或者 重新去注册一个全新的借的秘密账号,这样的话你就一定能够看到这个免费试用活动。接下来主播讲一下怎么把这个试用活动领取到手。点击这里的免费试用进来以后会进入到 活动的主页面,在 plus 这一栏咱们可以看到,目前只需要零元 就可以领取,但是零元领取的话会有一定的条件,咱们点进去看看, 点进来以后我们会看到官方会要求我们绑定一张海外的信用卡才能够成功领取,当然如果你自己有的话,咱们只需要把信用卡的信息完整的填上来, 点击订阅就能够领取成功。我相信大部分朋友应该都没有这种信用卡的绑定 去领取千的 gb 的 直播优惠,咱们可以来到这个网站,然后购买一张千的 gb g plus 免费试用的卡密, 购买以后网站会自动给你发送一张用于激活免费试用的卡密。然后我们点击进入商品的详情,在商品详情里面找到 这个自助充值的网站,从这里点进来,进来以后把我们刚刚获取到的卡密粘贴进来,然后点击验证卡密, 接着咱们点击这里的获取托肯,这里会有一串我们自己账号的托肯代码,咱们需要完整的复制下来,一定要完整的复制,复制以后回到自助充值的网站,把刚刚 复制的卡片粘贴到这里,然后点击解析账号,接着我们核对一下这个账号是不是我们用来领取切的 g p g plus 会员的账号,如果是的话点击确认充值。 好的,它现在提示我们充值成功了。然后我们回到切的 g p g 的 这个官网刷新一下,刷新之后你再看一下,现在我们已经出现了五点二的模型,然后我们点 头像这里点升级套餐,再去看一下 plus 会员,这里咱们的套餐已经变成了 plus 会员的套餐。这个方法目前是非常稳定的,领取千里 app plus 试用的方法, 不管你是注册的新账号还是以前的老账号,都可以用这个方法去领取,当然为了我们账号的安全,咱们还是尽量注册全新的账号去操作。如果你想 体验切的 g p g 的 最新模型不受回复次数的影响,那么你可以通过这个方法去领取一个月的切的 g p g plus 试用。

基于 oppo 的 多 a 卷斜坐框架终于跑通了,而为了理顺这里面的逻辑,我花了很多钱。但是当这一切真正运转起来的时候,我知道 ai 真正进入生产领域。这套多 a 卷斜坐框架是我设想中的具备生产力智能体的最终形态。 你可以基于这个框架定制属于自己的生产力团队,不是一问一答的聊天机器人,而是几十甚至上百个的 a 卷军队。那么,为什么需要多 a 卷的呢?新原因是上下文。 ai 起作用的方式本质上是上下文构建 a 卷的越多,分工越细,意味着每个环节上的上下文就越清晰、越专业。问题来了, 人是管不来这么多 a 卷的,所以我的核心思路是卷的去管 a 卷,由一个主 a 卷的去统计底下几十上百个子 a 卷,而我只需要和这个主卷沟通任务,验收结果。而一套框架中, open core 的 核心作用是网关和协调者, 它负责分发指令、监控状态,让盘闸的协助变得井然有序。你可以看我贴在屏幕上的这张图,中间的是主 a 杆,它是由 open curl 提供的,然后它是网关和协调者。 而底下非常多、密密麻麻的则是主 a 杆,它一直存在,只能由主 a 杆跟主 a 杆进行通信,我们只能跟主 a 杆进行通信。呈是这样子的, 这是我的项目经理,我只跟项目经理对接。项目经理负责统治大局,他下面主要有三种类型的纸 a 卷,产品经理、开发和测试。比如在这个对话中,我让项目经理去找 pm, 让 pm 给项目经理最近写完的需求文档的地址, 他找到了,发在这里,然后项目经理把需求文档给到开发,让开发完成编码,开发卷的开始转写代码,码完成后由测试人员接手,同样对接 code, 完成复杂任务的测试工作。那么这里其实有一个关键点是,为什么我给开发和测试对接了专门的 codex ai 编程工具。这些任务属于极度复杂的长任务,而 open core 作为协调网关,但是在专业编程领域, 我们还是要接入最强的外部生产工具,这样才能保证这些长任务能被顺利执行。我最近将尝试一个更具挑战性的场景,开发一个全自动剪口播视频的网站。 很多朋友都是基于这个项目才认识并关注我的。一次我将不再守在电脑面前深度参与,我更多只是在 telegram 上发送信息,与 applecare 完成必要信息的确认,其余的让它独立去完成所有的工作。 从调研到代码,从测试到上线,我认为这才是真正的生产级 ai, 不 需要你时时看护它,能独立对话,独立思考,独立借助工具解决问题。那么视频的主要内容是这些。 最后说一下,是,我相信很多人装入 open core 之后,觉得这是一个简单的聊天工具,或者只能跑几个定时任务, 出不了生产级的内容。如果你也有这种疑问,我建议你可以关注下我接下来的更新,带你看看当 ai 真正动起手来,到底能产出什么样的生产力。

上个视频我们介绍了 astropik 在 做 deep research 场景时使用的多 agent 的 架构,以及在使用过程中踩过的坑和避坑指南。那有很多小伙伴会提出疑问, 我应该在什么时候起用 sub agent? 什么样的工作适合分配给 sub agent 去做?而针对竹子 agent 上下文隔离的问题,我又应该怎么去管理上下文和记忆,来确保任务的尝试运行? 我结合 astropik 最近发的一篇博课,以及谷歌的 agent sdk 在 do agent 上下文管理的经验,通过这个视频一次性把这几个问题说清楚。 首先是什么场合适合做 do agent, 并不是越复杂效果就越好。往往一个设计良好的单一 agent, 配合你改进的提示词,能达到同样甚至更好的效果。 就像是你本来可以一个人高效完成的工作,你却非要组建一个团队,结果大家要花更多的时间在开会和协调上,反而效率更低。 那多 agent 的 架构只在解决单 agent 没有办法克服的一些特定限制时,它才会有价值。根据 astropic 的 经验,有三个场景使用多 agent 可以 持续展现出正向的收益。 第一是上下文保护。我们知道,当 agent 的 上下文积累了大量与后续任务无关的信息的时候,就会发生上下文污染,导致推理质量下降。 比如说智能客服需要通过查询客户的订单历史来诊断问题,你去查订单记录,系统会返回大量的信息,订单的详情、历史的购买记录、物流信息、支付信息等,这些信息就会占用你的工作记忆,造成上下文污染,那 agent 分 析问题的能力就会退化, 这个时候就可以通过一个订单查询的子 agent, 子 agent 处理完订单历史,提取关键信息,只返回五十到一百个 token 的 招标给到主 agent, 那 主 agent 的 上下文始终保持清爽,专注客户的问题。 所以如果你的子任务会产生大量的信息,但是大部分信息对于主任务无关,并且你的子任务是有明确的标准,不需要依赖复杂的上下文,就知道该提取什么信息的时候,就可以起用子 agent。 第二个场景是并行化,有些任务可以分解成多个独立的不相关的子任务,并行执行可以探索更大的搜索空间。 比如说你要研究一个复杂的问题,气候变化对全球经济的影响。那这个问题可以分为多个角度,对农业的影响,对能源的影响,对房地产的影响。如果你用一个 agent, 它就只能一个一个研究,如果用多个 agent, 它就可以同时去研究不同的角度, 那 deep research 是 非常典型的多 agent 的 场景之一。这里通过此 agent 并行化带来的价值不仅仅是速度的提升,更重要的是分析的会更加全面。 但是正是因为全面,总的计算量也会增加, token 的 成本也会很高,大概是单 agent 三到十倍左右。 所以是否要用多 agent 还需要考虑它的任务价值。杀鸡不要用牛倒。第三个场景是智能化, 专业化也有几个典型的维度,比如说工具的专业化,如果你的 agent 有 很多的工具,并且这个工具要跨很多个不相关的领域,很难选择,也可以根据的专业领域,工具的专业领域来划分。 第二个是提示词的专业化,不同的任务有的时候是需要不同的角色的,不同的约束以及不同的指令, 比如说客户支持需要共情和耐心,但是代码审查则是需要精确和批判。一个智能体,它不能同时兼顾这种冲突的行为模式,那分离成专业化的 agent 可能会产生更一致的效果。 最后一个是领域的专业化,这个就比较常见,比如说有些任务像法律、医学,他是需要某个领域非常深度的上下文,这种也是适合去做拆分。 ok, 经过上面的判断,现在你确定你就是需要做 agent, 那 作为老板,我们又该怎么去分配任务呢? 核心的原则是按照上下文的边界拆分,而不是按照问题的类型拆分。这个是多 agent 的 架构设计中最重要的一个决策。 astropic 观察到很多团队都经常在这里犯错,导致协调的开销抵消了多智能体的好处。 比如在软件开发的时候,你按照问题的类型来拆分产品,一个 agent 开发,一个 agent 测试一个 agent, 看起来很合理, 大家解决的问题不同了,但是实际上呢?开发不知道为什么要这么设计测试,不知道开发的时候做了哪些权衡取舍,就像一个传话游戏,每传一次信息就失真一次,那你要让信息不失真,就要花大量的 token 去做协调,协调的 token 可能比工作消耗的还要多, 所以要按照上下文的边界来拆分。比如负责这个功能模块的开发,也需要负责这个功能的测试,因为他自己有所有的上下文,只有在上下文可以真正隔离的时候才去拆分工作。哪些是有效的拆分边界呢? 比如说可以按照功能模块拆分用户认证,一个 agent 支付,一个 agent 用户认证去处理登录注册权限的问题,支付去处理支付的流程。也可以按照数据源去拆分,一个 agent 去查数据库,一个去查 api, 一个去查文件, 或者是按照系统来拆分,前端一个,后端一个,以及还有最常见的按照独立研究方向去拆分。 那反面的典型案例呢?前面说到的按照开发阶段去分,每个阶段都依赖上个阶段的上下文, 还有是按照技能去分的,一个写代码,一个写文档,那每个都需要去理解用户的意图。还有按照步骤分的步骤一一个,步骤二一个,那各个步骤之间也是有依赖的,那这些场景只是增加了协调的开销,并没有带来任何的好处。 按照上下文来分,能保证每个 agent 各自的上下文都会相对独立,可以并行执行,也不会被其他方向的信息干扰。 子 agent 只需要提炼自己的发现,返回信息就可以了,最大限度地降低了协调的成本。上述的拆分方案是最大化的减少 agent 的 协调问题。但是主子 agent 总是要通信的,依然会面临上下文管理的问题。 在每次交接时传递完整的上下文,或者让子 agent 去访问主 agent 完整的历史,没有监控上下文的限制,让 agent 在 接近限制的时候持续运行,这些都会让系统去陷入上下文爆炸或者信息丢失的困境。 那如何在隔离和共享之间找到一个平衡?如何在尝试任务中去保持连贯性?谷歌的 agent sdk 的 经验是把上下文分成四个层级来进行管理。 第一个是工作上下文把模型调用时候需要的上下文信信息进行一个临时的拼装,这些信息包含系统的指令、 agent 的 身份、你的工具调用、输出的结果记忆以及文件的引用等。这些信息都是临时的,月后记分,不用存储。 那长期记忆是包含绘画记忆还有文件,绘画主要是用来记录系统的交互日记需要的信息,压缩之后拼装进 working context 记忆是存储长期可解锁的知识。比如说主 agent 的 任务规划,即使上下文超过限制,任务规划也不会因为截断而丢失,可以随时加载 记忆也会存储长时运行的任务,产生的阶段性的工作总结等。还有一个是独立的这个文件系统, 它的场景是自 agent 产生了大量的输出给到主 agent 的 药物,满足不了需求的时候,就可以调用工具将这些内容存储成外部的文件,返回一个轻量级的引用给到主 agent, 主 agent 按需加载渐进式批录。 当然像 open cloud 这样的产品,它的记忆本身也是用 markdown 文件存储的,那记忆和文件就是可以合并成一个。 当然在具体的实践过程中,可能还会碰到很多细节的问题,如果想快点上手,也可以基于一些开源的项目去做搭建。比如说 launching 团队的 open deep research, 它是基于 long graph 搭建的一个多智能体架构, 这个产品是 launching 团队官方认证的复刻的 astropica 的 架构,它的流程是,当你系统启动之后,首先是进入与用户需求澄清的节点,先澄清需求, 需求澄清之后会进入到这个 right 节点去钻研研究。检报嵌套的子图是一个独立的多智能体循环系统, supervisor 会根据检报 调用工具执行具体的工作,然后通过 react 的 进行循环,最后再进入到一个生成的节点,生成内容加信息源的整合。 我自己用这个模式,整体上的体验还是比较好的。有一个卡点是最后在生成环节会非常慢,因为要汇总的内容特别多。这个我目前还没有想好怎么优化,大家如果有好好的方案也欢迎跟我分享。