二零二五年,这个时候 deep sea 的 浪潮刷爆屏幕,造就了我们很多人对于 ai 的 狭义认知。而今年 open crawl 横空出世, 掀起了全民养虾的社会浪潮,同时也在塑造大众对于 aint 的 认知。但究竟什么是 aint? 你 了解吗?本期视频就带大家一探究竟。不知道大家有没有这样的困惑,我们在网页上和 ai 聊天的时候,发现它非常聪明,但是 它不能帮我们写文件,也不能帮我们执行命令,不能帮我们搜索代码,它只能说不能做,知难解易,它就像一颗坐在轮椅上的大脑,足够聪明,但是只能对话,却无法行动。 正是由于这个痛点,所以我们的 agent 诞生了。我们 agent 不 仅拥有聪明的大脑,并且拥有了手脚和眼睛,它能思考,也能行动了,在极大程度上弥补了我们 ai 的 局限性, 这样我们的 agent 就 名正言顺地推出来了。我们的 agent 是 什么呢?就是我们的大语言模型,加上它的规划能力,加上记忆,再加上它可以使用工具,然后再加上它可以感知,这五点相融合,它就成为了一个能主动思考并且能够行动的 ai, 也就是我们的 agent 了。 接下来就介绍一下我们 a 镜子的四要素。首先最重要点就是规划,规划就是 a 镜子的核心决策能力,使他面对复杂问题的时候能够拆分任务,制定策略。比如我们要求他编辑一个网站,他就会把任务拆分成编辑数据库,然后编辑前端,编辑后端这三个部分,如果某一步失败了,他还能反思修正,然后再调整我们的计划。 第二点就是记忆,它能让我们的 agent 具备连续性和上下文理解能力。在跟我们的对话中,他把短记忆保存在上下文之中,把我们的长期记忆就会总结成知识和经验,写入到我们的向量数据库之中,这样你会发现它越用越聪明。第三点是工具,大模型本身只是一个聪明的大脑,但它不具备直接联通外部世界的能力。 工具就能让我们的 agent 调用外部的工具,比如网络搜索、执行代码读写文件、调用 api 之类的,这就是 agent 从能说到能做的关键。 第四个就是感知,它是 agent 获取信息的入口,它不仅能读懂文字,还能够看懂图片,还能听懂语音,包括感知环境和用户的反馈,这四个要素在一起就构成了 agent 能够自主完成任务的逻辑闭环。说了这么多,大家可能觉得 agent 听起来很玄乎,很复杂,但是其实很简单,我们看这个循环, 其实它就是在这个循环中不断的思考、选择工具,执行,观察结果,直到它的任务成功了,它就可以停止了,就是这么简单, ai 不 断思考,选择工具,然后观察它的结果,再思考,直到这个人完成。但是 agent 它也不是万能的, 它也有一定的能力边界,它能够帮我们写代码,修改 bug, 什么搜索网页操作数据库啊,网页浏览 api 调用啊,什么 get 自动化,那都是非常容易的。但是当有些任务它完不成的时候,就需要你自己思考了, 你有没有真正的把我们的需求说清楚,你有没有把这个复杂的场景处理成他能懂的样子,他有没有超过你给予他工具所达到能力的边界的范围,而且他也不能够代替你进行判断。所以用好 agent, 你 需要跟他明确需求,并且给他提供正确的工具,这样他干起事来才能事半功倍。 我们来看 agent, 历史上最成功的一个案例,也就是我们的 open crawl 小 龙虾相信大家都不陌生,它已经成功登顶了我们 github 的 star 榜,但是它很牛吗?很复杂吗?其实也不是,从本质上来说,它其实就是一个 agent, 它能长期保存你对话、拆解复杂的任务,调用工具完成任务,这不就是一个典型的 agent 吗? 其他做的那些都是锦上添花罢了。接下来我们再看第二个案例,再来看我们第二个案例。 cloud code 相比 open crawl 更像一个大家手中的玩具。 我们的 cloud code 可以 说是工程化 aint 的 典范,他在编码方面的能力可以说是领头大哥了,但是他能力远远不止编程了,他是一个通用的 aint, 不 止程序员可以使用,我们其他任何行业的人都可以来使用。 cloud code 的 强大就在这些精挑细选,优中选优的工具之中。工具并不是越多越好,你只要给足他最基础的工具,剩下的让他自己创造就可以了。如果你给他过多的工具,反而会造成他上下文过长的困扰, 当他在执行任务的时候,反而有些束手束脚,效果变差。我们应该做的就是给他合理的工具,让他自己思考,自己发现选择他需要的工具, 因为他的那颗大脑比我们百分之九十九的人都聪明,你的过度干涉就是禁锢他的枷锁罢了。口头上说那么多,但其实还是很干燥的,我们光说不练,还是不能真正的了解我们 aint 到底是个什么东西,所以我决定开启一个系列,从零实现。我们的 aint 其实并不神秘,所以他的核心代码其实不到短短的一百行。 在这里我就希望带大家每一个人都实现一个专属于自己的智能体,也就是 agent。 这同样对我对大家来说也都是一个非常好的学习过程,因为我们后期几乎会涉及到所有和 ai 相关的名词, 帮助你读懂它,但是最重要的是用好它,这样在 ai 时代我们才能不落下风。从下一集开始,我们就开始从零实现你的第一个 agent 了,兄弟们,希望你们点赞、收藏、关注!
粉丝748获赞6007

当你跟龙虾对话的时候,他不理你了,但是你打开龙虾的网页版呢,又好像是正常的,这个时候呢,大概率是上下文满了,你就输入这个指令,开启一个新对话就可以了。 如果你觉得当前页面的对话不适合留下来了,有隐私的问题了,你就输入这个指令清除他。 如果你既不想开启一个新对话,也不想删除当前对话的内容,那你就输入这个指令,这是上下文压缩。 如果你有点担心,想了解实际的使用情况,你就用这个指令。这个指令输入之后呢,就会告诉你当前的机器人用的啥模型,上下文总共使用了多少,百分比等等都在这里了。 如果你觉得你的龙虾是个话痨,你希望他回答的简洁些,你就用这个指令。但有些时候呢,你又希望他能够对一个问题进行深度的解释,你就输入这个指令。 如果你的龙虾配置了好多个模型,但是你想切换那个默认的模型,你就输入这个指令,先查询,查询完之后呢,你再输入这个指令,就可以切换到 glm 五了。 输入这个指令呢,你的智能体就会告诉你他具体能为你干什么。输入这个指令呢,他就能够帮你列出来他现在可以用的所有技能。 输入这个指令,选择昂或者 off, 就 会开和关。他的推理过程就是你在用推理模型的时候,那个推理的过程显示还是不显示。 当你跟龙虾聊天,你觉得聊不下去了,或者你想换个话题的时候,你就让他闭嘴,输入这个指令, 看完了大白的视频,你还是记不住这些指令,你就输入 help, 所有的指令就都跳出来了。

如何设计一个支持多轮对话的 ai ai 阵呢?这个呢,是近期大厂 ai 产品经理面试的高频期之一,今天呢,我就用一条视频讲清楚什么叫做多轮对话。那首先呢,我们先明确概念, 多轮对话的核心不是 ai 能够多说几句,而是它能够保持上下文的连贯和一致性,它能够去理解和记住用户曾经说过的话,并在不同回合之间保持逻辑的连贯性。 比如说,你在电商客服的场景当中,用户说请帮我查一下昨天我买的蓝裙子的这个订单的物流,那这个时候他的意图可能就是物流查询。如果此时用户继续说 我想换成 s 码,那么如果是一个支持多轮对话的 a i a 证呢,他就能够理解用户其实想表达的是他昨天买的那个蓝色的裙子想要换成 s 码,而且这个时候意图已经进行了切换, 这时候的意图已经不再是物流查询,而是商品的 s k u 的 变更。所以呢,从产品设计的角度来看,多轮对话的 agent 本质上是三件事情,第一,用户问题的理解。第二,记忆的管理。第三,对话状态的管理。首先呢,一个支持多轮对话的 ai agent 呢,必须能够明确地去知道 用户此时想表达的需求和意图,那对应到我们的产品设计上,其实就是我们经常听到的意图识别和槽位的抽取。那假设我们还是以刚刚的这个电商客服的场景为例,用户说我要退货,首先一个 a i a 证,它必须能够识别用户的 q r 的 意图是退货,再从对话当中去提取关键的槽位信息,比如说要执行退货的操作,它必须要能够去收集到第一,订单的编号,第二, 用户退货的原因,第三,商品的名称。如果这个时候信息不全, ai 应该能够主动追问,比如说请问你想退货的是哪一件商品, 退货的原因是什么?直到补全了所有的信息之后,才帮助用户去执行对应的退货操作。比如这个时候他就会去掉取退货的 a p i, 去执行对应的退货行为,或者是发起一个退货的公单。那么对于 ai 产品经理来说,在这一步你就需要做到 定义真实用户夸瑞下可能会出现的所有的意图以及意图,对应需要收集到的草位,并能够设计缺什么我就问什么的这种机制, 这样就能够提高任务的成功率,同时能够保持对话的连贯性。第二点呢,就是 ai 证的需要支持记忆管理,需要支撑上下文的理解。在多轮对话当中,我们讲记忆一般分成两类,第一种是短期记忆, 第二种叫做长期记忆。什么叫做短期记忆呢?就是离开这个对话就消失了,就跟你有一个日记本一样,你把你收集到所有信息去填在日记本上,然后你一擦掉就没了。那么这个时候如果用户切换了对话,那么过去的短期记忆将会不再适用。比如说刚刚用户提到退货流程,那么退货流程其实只针对当前的对话生效, 新开一个对话就失效了。什么是长期记忆呢?长期记忆顾名思义就是它相对比较长期和稳定的被保存下来,你即使新开一个对话的话,这部分的记忆也不会被抹去。还是以刚刚那个例子为例,比如你上次换过的那条蓝色的裙子,那作为产品经理,你就需要定义哪些信息需要暂时的存下来, 哪些需要相对长期的存下来。在记忆的实线上,我们可以通过 memory 这个公共的模块来实现短期记忆和长期记忆的存储。 longchain 里面也有对应的 memory 的 组建,你的信息在记忆当中存下来,那么 ai 在 每一轮处理你的对话 不仅仅是读取,而且还在写入的时候,都会结合记忆来进行处理,从而保持上下文的一致性,同时收集到的信息也避免重复地找用户提问再次收集。 那么从产品经理的角度, memory 记忆的这个组建,它不仅仅是一种技术实现,更是一种体验设计。没有记忆的 a i a 证,它只是机械的回答,有了记忆能力之后,它才能够对用户的 quarry 做到个性化的服务,从而真正地理解用户的需求。第三呢,就是 ai 要能够控制对话状态, 能够去明确的识别用户在对话当中的意图、切换等等异常的分支流程。比如说在电商退货的场景下,我们一般把这个业务流程梳理成确认订单、确认商品,再到确认退货原因,再到提交退货申请这么四个步骤。 agent 每完成其中一个步骤,那它的状态就往前推进一层。如果用户在中途问,那我能不能换货呢?这个时候 ai agent 需要能够明确的识别到用户的意图,从原来的退货切换到了换货所, 所以它需要暂停当前的退货流程,切换到换货流程。这背后的实现逻辑实际上就是通过意图识别,再加上对话状态的管理,判断是否需要重置任务,清空记忆,并重新进入新的流程。而且一个聪明的 agent, 他 还会去做异常的恢复。假设 用户这个时候又问,啊,那我还是退货吧。 ai 会从长期的记忆当中恢复最近的一个节点,重新进入到一个退货的流程。 那么作为 ai 产品经理呢,我们就需要去产出对话状态的流程图,让 ai agent 的 每一步都有下一步具体的执行操作,这样才能让对话既有逻辑又有上下文的连贯性, 也能应对中途的切换以及异常情况。所以呢,如果你在 ai 产品经理的面试当中被问到这道题,你应该从以下至少三个大的方面来进行回答。第一个点呢, 一个真正支持多轮对话的 ai agent, 需要能够去理解用户的真实意图,并抽取相关的关键信息,也就是我们讲的草尾。第二呢,就是拥有记忆能力,所以我们需要对 ai agent 实现记忆管理的相关的能力,包括短期记忆和长期记忆,从而支撑上下文的理解。第三点呢,就是我们需要对对话状态 去进行管理和控制,支撑流程的推进,支撑意图的切换以及中断的恢复。只有这三项能力共同的结合起来, a 阵的就能从单轮的问答升级成为支持多轮对话,它既能理解你的用户意图,也能够灵活的应变。 多轮对话的核心不是说让 ai 只会说,而是让它更能够去理解用户的需求,真正好的 ai 产品是懂流程,更懂人。如果你对于 ai 产品经的面试、转行有相关疑问的话,可以点我右下角的头像找到链接我的方式哦。今天就这样啦,拜拜。

扣子在二零二六年啊,全新的更新,二点零的版本,无论是整个页面还是功能啊,都焕然一新,同时增加了非常多的 agent skills 供我们去使用,可以自动化的搭建工作流和智能体。当然手动搭建工作流的方式依然存在,还是同样的网址啊,但是整个的页面会发生了很巨大的变化。首先啊,我们左侧是你的图标,然后在这里边 默认会有一个新建的对话,这个对话就是这个位置啊,当然了,我们想做任何的事情都可以在这里边去发布消息。那其实这次更新的最主要的就是这里边有一个技能商店,就是我刚才提到的 agent skills, 它这里边有非常多的技能啊,你可以点开它,然后 这里边我测试了一个新年的绘本啊,当你直接点击它,然后呢,第 第一步你需要安装,安装完成之后再点使用,他就会跳转这个页面,然后你看这个对话框里边啊,就会有这个技能了,那么你直接在后边输入内容就行了。那我的测试是说,在这里边我只输了一个,给我设计一个 哪吒故事的儿童绘本,你看他经过他的思考和处理之后,最终给我生成了这样的一个内容啊,那么在这里啊,我们可以直接点击自动播放看一下,同时啊,你还可以一键打印啊, 自动播放太乙真人,用莲花、莲藕和荷叶为哪吒重新塑造了身体, 莲花绽放,哪吒重生了,比以前更加英俊强壮。 哪吒骑着风火轮要去教训东海龙王, ok, 可以 暂停一下,有声音,有画面,同时我们可以啊手动的去看一下他产出的内容, 这个就是我们扣子的一个非常大的更新啊,那其实啊,在我们的技能商店里边有非常多的技能,你可以去点开它去使用啊,但是有的地方你需要去仔细看一下,好吧,那么在这里啊,你直接点击这个技能,然后啊直接点击安装, ok, 然后我们现在再点击一下使用,在这里边历史课间生成,你想生成什么样的历史,你就直接输入就好了,比如说明朝的, 汉朝的好不好,唐朝的都可以啊,这里边就是快速的使用 agent skills 这样的功能啊,来帮我们生成内容。那么其实最重要的一点还是在 cos 编程里边,当然不要被它的名字所吓到啊,点开它你会发现这里边有一个新的界面了,对吗?点击右上角啊,你可以展开它, 这里边会有非常多的内容,跟我们之前的扣子的页面是有不同啊,这里边可以通过一句话,自动的搭建智能体工作流网页,移动的应用,还有技能, 如果这个页面你看着不舒服,你可以返回到旧版啊,当我们点击返回旧版的时候,他就会返回到我们原来的扣子的页面了,那么在这里啊,还有一个更新是说 你看这里边 ai 编程对话可以免费七天啊,在这里边他有一个套餐的升级啊,右上角点击这个按钮啊, 没有更新之前啊,我们用到的都是个人进阶版,那如果说你对于资源点有需求,或者功能上有需求啊,你可以看一下这两个内容啊,同时啊,还有企业的版本, ok 也在这里啊,大家根据情况去设定就好,其实整体的更新呢,我觉得是增加了非常多的 agent skill, 还有呢就是它还是可以我们手动的去构建工作流的啊,在我们这里边有个资源库啊,你直接点进去,其实这里边就可以构建工作流,点击资源找到我们的工作流。 那其实跟我们老的版本啊,返回旧版,其实它的逻辑是一样的,依然是在资源库里边创建工作流。 同理啊,也可以创建我们的智能体和应用,这个就是它的一个更新啊,其实我们可以着重的去尝试一下金融商店里边的这些技能啊,还有扣子编程里边的这些,通过一句话怎么去搭建智能体和工作流?

大家好,今天我们来聊一个 cloud 刚发布不久的新功能, agent teams, 抛弃单打独斗,开启团战模式。一句话概括,以前你和 ai 是 一对一结对编程,现在你变成了项目经理手下一群 cloud 同时干活,而且它们之间还能直接互相沟通。准备好了吗?我们开始学习了。 我们先来看一下 agent teams 的 定义。 agent teams 是 cloud code 的 多 agent 写作模式,你作为项目经理,只会多个独立 cloud 实力同时工作,互相通信,共享任务看板。将一对一结对编程升级为团队项目写作三个关键点,成员之间直接通信,共享任务看板,协调,用户可与任何人对话。 agent teams 的 三种角色 lead, 团队协调者负责分配任务,汇总结果向你汇报。 你的主 cloud code 会化自动成为力的 teammate, 独立 cloud 实力执行具体此任务可互发消息。每个 teammate 都是一个完整的 cloud code 的 进程,有自己的两百 k 上下文窗口。 u 项目经理可随时与任何成员对话,介入决策。 注意,这里强调的是,任何成员你不需要通过立的中转。下面是四大核心特征,一、成员直接通信 gigabyte 之间可互发消息,无需经过立的中转。二、共享任务看板,所有成员共享 to the right 看板,自主认领和更新。三、独立 context, 每个 team mate 有 独立两百 k 上下文窗口和工具权限。四、用户授权启动 cloud, 不 会未经你同意就组建团队,你保持控制权。最后,这一点很重要, agent teams 不 会偷偷给你拉团队,必须你同意才行。这是 antropics 在 人类控制权上做的设计。 接着我们看一下哪些任务是由 agent teams, 对, 就是任务能否拆成互不依赖的此任务,这个是核心判断标准,比如研究与审查任务,可以进行多人同时调查,互相质疑,这个就适合 agent teams。 其他比如新模块开发、 竞争假设调试,跨层协调,那比如顺序任务这种有严格依赖同文件编辑、高偶合任务等则不适合。 接着我们学习 agent teams 的 架构设计,首先是四大核心组建, team lead 加 teammates 加 task list 加 mailbox。 team lead, 你 的主绘画自动成为 lead, 负责创建团队分配任务汇总结果, teammates 独立 cloud 的 实力完整 context 自动加载 cloud md 文件和 mcp skills。 注意不继承力时,这点很关键。队友,不知道你跟力的之前聊了什么? tasklist 全员共享 total write 看板任务任领加依赖自动解锁,上游任务标记 completed, 下游任务自动从 blocked 变成 pending, 不 需要人工干预。 mailbox, agent 间直接通信系统 推送模型,完成自动通知。打个比方, tasklist 就 像团队的 giro 看板, mailbox 就 像团队的 slack 频道,只不过这些人都是 cloud 的 实力组建有了,还得看一下是如何通行协调。通信机制有三个设计亮点,消息自动投递,推送模型。 le 的 无需轮询,空闲自动通知,完成后自动通知。 le 的 依赖自动解锁,上游完成,下游自动解锁。学习了基础概念和架构后,肯定有同学会有疑问,那 agent teams 和 sub agencies 的 区别是啥呢? 我们可以看这个对比表格, context 都是独立窗口,但 subserves 结果要返回调用者, agent teams 完全独立运作。通信 subserves 只能单向汇报 agent teams, 队友之间可以直接互发消息协调, subserves 靠主 agent 管一切, agent teams 共享任务列表,自协调,适合场景要结果用 subagens 要协作用 agent teams token, subagens 较低, agent teams 较高,因为每人都是独立实力,怎么学快速聚焦拿结果, subagens 需要讨论质疑,自主协调 agent teams。 接着我们来深扒下 agent teams 的 底层运行机制。首先是完整流程,分成三个阶段,组建团队并发执行汇总报告。下面是六步讲解。一、 team create 定义团队名称和角色配置,深沉接送团队描述文件。二、 task create 拆解此任务,通过 blocked by 设置任务依赖关系。三、 spawn, 为每个角色深沉独立的 teammates 尽成实力。四、 assign 加 send 分 配 owner, 并通过 send message 通知开工 work, 加 sink 队友并行干活,完成后进入 idol 状态通知 lead。 六、汇总加报告 lead 综合所有观点输出报告并询问用户。下一步整个流程你不需要手动操作,你只要用自然语言告诉 clod, 你 想组什么团队,干什么事。这六步 clod 会自己编排,如果有队友忘了更新任务状态, lead 会主动发消息去催。 在看运行时的核心机制,任务生命周期 pending in progress completed 支持 blocked by, 依赖上游完成时,下游自动解锁启动消息类型有两种, message 点对点发给指定队友, broadcast 广播全员慎用,成本 o n 然后是四个关键运行规则,权限记尘上下文隔离并发执行消息通信。 你可以把每个 teammate 想象成一个远程工程师,他有自己的电脑,独立上下文,通过 slack 收发消息, send message, 通过 get 共享代码文件系统,他看不到你跟别人的聊天记录。 说了这么多元理,我们来上手操作。其实只要四步,第一步,更新 cloud code, 第二步,启用实验功能。第三步,重启 cloud code, 最后用自然语言创建。然后是两种运行模式, in process 默认所有队友在主终端内运行, shift 加 up down 切换零配置。 split pans 推荐每个队友独立窗格,需要 tmax 或 item。 二,推荐用 split pans, 因为你可以一眼看到所有队友的实时工作状态。 讲完理论安装,我们接着来进行实战。这里有四大实战场景,并行代码审查、竞争假设调试、新功能并行开发技术方案,多角度评估。 当我们主要来看一下 anthropic 自己的疯狂实验,用 agent teams, 十六个 cloud opus。 四点六 agent 组队,从零开始,用 rust 两周时间写一个 c 编辑器。你可能会觉得这个 c 编辑器估计也就是一个 demo, 不 能实战使用,但实际上它可以编辑 linux 六点九内核,还有一些别的复杂代码。 最后这点特别有意思,十六个 agent 没有被强制分配角色,他们自发形成了分工,有人写核心编辑逻辑,有人消除重复代码,有人优化性能,有人维护文档。这个涌现分工让人联想到以群算法。 作者 kalini 从这个实验里总结了三条深刻的洞察,都是来自十六个 agent 的 写 c 编一级的实战经验。洞察一,测试基础设施决定天花板,说白了就是你的测试写得多好, agent 团队就能走多远,没有好的测试, agent 会走偏,还自认为做对了。 洞察二,为模型特点设计工作流,他提了两个具体问题和解法上下文污染 agent 的 context window 有 限,勇于输出,挤掉重要信息。 解法详细日制写文件终端只显示关键信息。时间感知缺失, agent 不知道自己跑了多久,可能卡在一个测试上几小时。解法提供 fast 选项,随机抽样,一到百分之十快速迭代。这两个问题都是实战里非常容易踩的坑, 尤其是时间感知缺失, agent 不 像人类会看表,他可能在一个测试上卡了三小时,自己浑然不觉。第三条,洞察也是最重要的一条, agent teams 是 力量倍增器,不是自动驾驶,人类的判断力和架构能力才是团队真正的天花板。自主不等于不管测试通过,不等于工作完成。 最后总结一下, agent teams 带来的最大变化不是技术上的,而是角色上的。你需要从 code 角色,也就是一对一结对编程转到 tech lee 的 角色, 也就是指挥 ai 团队携手作战。好,这就是 agent teams 的 完整解读,如果觉得有帮助,欢迎点赞收藏,我们下期见!

哈喽,大家好,今天给大家分享一个比较有意思的小项目,这个小项目就是运行在这个到客栏上的一个 ai 小 助手的小项目,他会有两个小人在这个到客栏上不停的移动,大家随便点击就会打开一个对话窗口,他这个对话窗口的所有内容就跟你克洛的在终端里边运行的 内容是一样的。我们平时你比方说我想起用这个克洛的,在根据命令进入这个克洛的, 然后给他授权,但是我平时需要一些翻译了,或者一些简单的问题,我不想去用这样复杂的操作,我就可以直接点击它来使用。那这个项目呢,是在 github 上面的开源的项目,它就是驻留在这个 macos 大 可蓝上的一个小型的 ai 助手, 这两个特工一个叫布鲁斯,一个叫巧子,他会在这个大可蓝上来回的移动,点击,随便其中一个就可以打开我们可洛的终端。 这还是一个比较好玩的开源小项目吧,能它的实用意义不如它的美观意义,但是我感觉这个还是比较可爱的。 那随着 ai 的 到来呢,这种有创意的这种项目,我们可以通过 ai 来简单的实现,真正的做到千人千面的一些应用,后续呢这些 app 可能会渐渐的消失,那全是带枝的呢,就是一些这种比较有创意的这些智能体。 那这个 ai 呢,其实大家是要把它当成一种兴趣来使用,你不要去把它当成一种任务来完成,那可能我们在应用 ai 这些创意的 agent 的 过程中,可能会发现一些新的创意,那这些都是可以变现的一些内容, 今天的分享就到这里了,大家有需要的呢,可以去我主页群里边领取这个开源项目,谢谢大家。

用 ctrl 的 时候,你是一个对话从头聊到尾,还是经常开心的。这个选择直接决定了 a 俊好不好用。 很多人一个对话聊几十轮,结果越到后面 agent 越不听话,因为对话太长,上下文噪音越积越多, agent 注意力就被分散了。 记住这个口诀,三开三流!先说该开新对话的三种情况,第一,切换任务, 你要做一个完全不同的功能了,果断开心的。第二, a 证犯傻,他反复犯同一个错误,说明上下文已经被污染了。第三,完成闭环,一个完整的功能做完了,干净收尾,下次轻装上阵 再说。该继续聊的三种情况还在迭代,同一个功能,需要之前的上下文,正在调试刚写的代码,这三种别断继续聊。还有一个高手技巧,开新对话的时候,用 at paschat, 引用之前的聊天记录, agent 会自动提取需要的上下文,比你复制粘贴高效十倍。 记住,三开三流,对话不乱,觉得有用就收藏起来,下次 a 阵犯傻的时候翻出来看看。关注我,每天一个单词实战技巧!

是不是还在这样,在给欧盟科奥发出一个命令后,等着他处理这个命令,而不能下发新的一个任务?那我今天讲的多 ag 字就可以帮大家解决这个问题。 大家在网上经常会看到博主发的龙虾军团是怎么实现的呢?今天我们就带大家完整的走完,走一下这个流程。为什么需要多个 ag 字来干活?因为 opencloud 的 对话是单线成的,你下发一个指令之后,他没有做完之前,你是看不到他在工作的一个进度的,而且你也没办法帮他兴起一个任务,我们再给他下发一个任务,去处理我们的视频之后,然后想让他帮我 处理一下文件,那就需要多 a 键词来处理了。还有两个 a 键词,一个是巴巴塔,巴巴塔是我的日常工作的一个助手,他主要负责编程呢,做一些科学比较严谨的事情。一个 a 键词是音乐,音乐现在主要是我的私人助理,主要是未来为我提供情绪价值的,可以看一下, 它是以音乐的角色的语音给我发消息的。哎呀,不要这样嘛,人家会不好意思的。添加 agent 的 方法也很简单,比如说我们现在需要添加一个 agent, 名字就叫慕佩宁,我们把它的工作区也定义好,就这样。 ok, 我 们现在就已经创建好了慕佩宁的这个 agent, 我 们可以在界面上看一下, 看到没?木佩林,这是新建的一个 agent, 新的 agent 木佩林已经创建好了,然后我们就开始对接飞书,我们在这个地方创建企业,自建应用,为木佩林准备一个机器人。然后我已经创建好了这个木佩林,在 opencloud 的 界面频道飞书 这个地方添加一个目配零的配配置,把这个 a p i d o a p a secret 填进去,新建一个目配零的渠道,然后回到目配零这个地方,在订阅方式这个地方选用长链接点确定,然后添加事件, 然后把配对码进行一个授权, 现在我们就可以跟它进行对话了,让它自我介绍一下它是目配零。

其实每一次新的请求有百分之九十八点七的内容都是旧的缓存,只有百分之一点三是新的东西,但是呢,传统的架构每次都要把所有的历史数据重新加载一遍,对,就相当于你每次看书你都要从第一页开始翻, 所以这就导致了这个预填充引擎的网卡一直都是满负荷的,但是解码引擎的网卡却经常是闲着的, 所以整体的效率就被拉低了。这个多 pass 到底是通过什么样的方式能够让这个推理的效率一下子提升这么多呢?多 pass 它其实就是给这个数据传输开了一条新路哦,就是它让这个存储可以直接把这个缓存的数据通过 r d m a 技术送到解码引擎里面去, 然后就不需要再经过预填充引擎了,所以它就把这个网络的瓶颈就彻底的打破了,相当于你一下子把这个原本堵死的路变成了一个双向的高速公路。没错,然后这个 dcep 六六零 b 的 生产模型上面,它的这个离线推理的吞吐提升了一点八七倍, 然后在线服务的吞吐提升了一点九六倍,端到端的延迟降低了百分之四十二,然后每 token 的 能耗降低了百分之五。

今天聊 openclaw 的 agent 和工作区,很多人装好 openclaw 之后,不知道 agent 是 怎么工作的,工作区又是干什么的,这期视频一次讲清楚,小白也能看懂。 先说工作区,也就是 workspace, 它是 agent 的 家,默认路径是 openclaw。 workspace agent 的 记忆人设工具说明全都放在这里,注意它核存配置的 openclaw 目录是分开的, 工作区里有几个核心文件, soul 文件定义 agent 的 人设和语气。 agents 文件是操作指南和记忆规则。 user 文件存用户信息。 identity 文件是 agent 的 名字和风格。每次新绘画开始,这些文件会自动注入上下文, 每次对话都是一个绘画存在斜杠。 open call agents agent id sessions 目录下格式是 jason l 同一渠道同一对话对象连续对话算同一绘画。 绘画 id 由 openclaw 统一分配,稳定为一。当你同时发多条消息, agent 怎么处理?这就是队列模式。 steer 模式,新消息立刻插入当前处理,可以打断 agent follow up 模式,等当前回答完再处理新消息。 collect 模式,把多条消息合并一起处理,适合防抖。 沙箱是安全隔离机制,基于 docker 有 三种模式, off 是 关闭沙箱,直接在本机执行。 none man 是 只有群聊或者 agent 走沙箱。 off 是 所有绘画都隔离,还可以控制沙箱对工作区的访问权限。 none 止读读写 技能系统让 agent 有 了专属能力,技能从三个地方加载,第一是安装包自带的内置技能,第二是 openclaw skills 下的用户技能。第三是工作区 skills 目录下的专属技能。工作区技能优先级最高可以覆盖同名技能。 一个 openclaw 可以 管理多个 agent, 在 配置的 agents list 里,每个 agent 可以 设置不同的工作区路径,彼此完全独立调用时,在 model 字段填 openclaw, 冒号加 agent id 就 能指定用哪个助手。 总结一下, workspace 是 agent 的 家,核心文件定义,人设和记忆绘画,自动存储,队列模式控制并发沙箱做安全隔离。技能扩展能力多 agent 各自独立。搞懂这些,你的 agent 就 真正火起来了。有问题评论区见。

哈喽,大家好。最近我经常给小龙虾布置一些任务,但是呢,有的时候他会执行很久,这个时候我就想我能不能新开一个对话呢?然后跟他聊天。后来我找了一下,真的很简单,特别是在飞书里面,我们只需要新建一个群啊,创建一个群组,直接创建就可以了。然后在这里面在设置里面,因为小龙虾机器人嘛,我们要在这里面添加机器人。 对,在这里面把这个小龙虾拉进就可以了。对,然后,呃,你拉拉之后呢?你要给小龙虾拉进就可以回复。好的,谢谢大家。

今天来配置多 agents 智能体协通工作,在这之前我们已经创建了两个智能体 命,肖二命是主体,龙虾指挥者绑定了飞书一号,肖二是辅助龙虾,我们可以称它功能性龙虾绑定了飞书二号。 第一步,创建一个群,把它们拉进来并配置进 open clan, 这个时候在群里我们已经可以跟他们单独聊天及分发任务。 接着我们需要实现的目的是控制小转一号指挥者,控制小转二号行动。 第一步,我们先让 opencla 自动配置 agent, agent 完成以后设置 toes sessions, visibility 设为 o, 这样就打通了他们之间的交互功能。 接着我们在 main 小 爪一号页面进行定义, 以后处理图片的任务全部让小爪二号执行, 这样就对小爪二号的身份进行了定义。 最后我们来进行测试, 可以先指定任意位置新建一个 pick 文件夹,用来存放生成的图片,生成结果放入 pick 文件夹, 在 main 小 爪一号页面输入生成一个草原图片并发到群里, 可以看到它会自动把任务交给小爪二号执行。 小爪二号成功生成图片并发送到了群里,文件会自动保存到 pick 文件夹。 后期可以添加多个 a 阵死兵为其指定不同模型,以实现各种专业能力。

hello, 大家好,我是月涵,今天教大家如何在飞书群里面就是让 openclaw 互相沟通啊,就不在网关内了,直接在外面, 在这个飞书里面,首先我们需要飞书官方的插件,然后我这里有一个一键转换的 scale, 可以 用这个 scale 来直接使用,就改成官方插件了。 然后多 agent 嘛,要创建多个 agent, 我 这里有一个飞书多 agent 自动配置 skill, 就是 跟着它的交互式提示的话,一步一步的就可以配置出来多个的 agent。 然后配置出来之后呢,然后我们需要这个插件了,这个 skill 飞书多 agent 协助管理。 skill, 就是 让多个 agent 进行在群里面进行写作, 然后简单说一下,这个群里面如果要获得这个,必须要获得一个 openid 的 啊,我们要直接跟他们说,让他们发出来自己的 openid, 然后他们就直接在这里面发出来了,看到了吗?他们每个都有,然后呢就复制他的吧,说 我给他哦,我发给这个知识库在线员这个小龙虾了,然后他说已经发送, ok, 我 们在群里面他也是成功用我们的账号来艾特了 open 了, 嗯,然后就相当于发任务的话,他就可以全自动的发,但是要回馈的话,他必须要就是在一个表格里面进行汇报,你看一下 它会就是创建那个 skl, 刚加进去的时候它会创建一个表格,然后你把那个 opid 配置好的话,它会一个个的 就是给它们发消息,让它们在心跳里面添加对这个表表格的循环访问, 然后就可以进行多 agent 在 飞书里面的写作,就是需要这些 skill 的 话,可以去 呃我的抖音粉丝群里面进行领取,我稍后会发进去的,谢谢。

给大家看看我们现在新创建的 agent 他 是怎么选中工作的啊?我在这里给他约束了一个暗号,当我说家人们的时候,他会问我出一个那个调查报告,就是今天的行情分析跟这种交易机会,那他就把这个工作 交给了那个 agent, 他 也会把这个工作交给叫什么交给期货交易员 啊?教教员又开始分析 fiona 在 给的这个信息,就是我们现在已经可以实现多媒体他之间的协作,协调工作让你不放心。目前你也需要,就是再做一个人工的筛选就 ok 了, 整个它的输出的逻辑也可以你自己去约定和设定啊,你需要怎么样觉得更合适按你的交易系统去。 嗯,整个生存的过程中可能会调用很多啊,本地的,我们的啊, scale, 你看这个东西是我一个非程序员去做的这个事情,所以说未来领导者一定会是个趋势。那看你怎么样去选择应用好这个东西。

家人们刚刚看到 cloud 支持了一个新的功能,在对话里面可以支持交互式的 ui, 让我们看看到底是什么功能,以及它是怎么实现的吧。 在对话框中输入你的问题,它可以根据你的问题生成对应的 ui, 帮助你快速地理解你问题中的概念,甚至还能够生成一些按钮,帮助你继续去追问问题。 我非常好奇他们这个 u i 是 怎么做到的,于是我问了他这个问题,原来他们是新增了一个 soviet 工具,本质上就是生成了一段 html 代码,再把这个代码通过工具发送给前端,前端 再通过 ipham 炫长出这个 html 代码。接着我继续追问 soviet 这个工具,可以看到这个工具总共有四个参数,一个是 是否已经阅读了工具的使用说明书,第二个就是说这个前端 ui 的 这个标题名,第三个就是渲染期间的加载文案。最后的就是这个前端 ui 的 代码。 比较有意思的是这个阅读说明书的工具,它能够保证 ai 在 画不同的图的时候能够遵循它们的 ui 规范,比如颜色、布局、字体等等。最后我们可以简单看一下这个查看说明书的工具, 其实很简单,无非是对不同的以外主见,分门别类的写了一个说明书,让 ai 在 画的时候能够去参考。今天的分享就到这里,我个人认为在 ai 时代,友好的人际交互非常重要,希望今天的分享能够给你带来一点启发。

很多粉丝私信,为什么 ai 越用越笨?明明刚开始挺聪明,聊着聊着就开始跑偏。更怪的是,重新开一个对话,他又恢复正常。看完这期,你会知道什么时候该开。子弹里把大任务拆开,让 ai 重新变清楚。 同一条对话里,旧结论失败,尝试临时判断会越对越多,后面每一步都容易被带歪。 openai 也专门区分过两种情况,一种是杂讯盖住重点,另一种是聊久了判断越来越飘。 重新开对话会突然变好,就是因为桌面清空了, ai 终于只看当前问题子代理说白了就是分几个小助手,把脏活单独拎出去,不让他们挤进主对话。 sam wilson 讲的 explore 例子就是这样,先让一个小助手去找相关页面逻辑和样式,再回来交一份招标。主对话只看结果和下一步,整个过程会清楚很多。 只要一件事能拆成几条独立小任务,子代理就值得开。查资料、做对比、找问题、整理摘药,这些都很适合分出去。比起省这点 token, 更该省的是让一个对话在脏记录里反复兜圈子的时间, 一句话就能问完的事,或者步骤强依赖的事,别急着开。此代理拆的太碎,沟通成本会上来,时间没省多少,仪式感倒是拉满了。好用的标准很简单,主对话清了,结论更稳了,反攻更少了,这才叫拆对。 所以这期真正要记住的不是某个按钮,而是一个习惯,大任务别硬塞进一个对话,该拆就拆,该汇总就汇总, ai 才不会越聊越糊。

我来完整介绍一下 newtype os 的 安装和使用方法。 newtype os 是 我今年做的新产品,我看到很多人,包括以前的我使用 cologold 来做支持的消化内容的产出,那 newtype os 就是 专门干这个的, 因为它是定制化的,所以它会干得比 clockcode 更好。现在我的 ai 主力工具就是 newtypeos, 我 日常有百分之六十的时间都在使用它,那百分之三十是使用 perplexity, 剩下的百分之十使用 grog 和 gemini。 它已经帮我产出好几万字的内容了,所以大家如果用了觉得不错的话,记得去 github 上帮我加个星, ok。 先说安装和配置, 安装很简单啦,只需要在终端里输入一行命令, n p m install 等等等等,这一行等个几秒钟就搞定了。 这一步基本上不会有问题,如果安装不了,那很有可能是你的机子里还没有装 note g s, 那 你去官网下载一个就好。当安装完毕之后,你在终端里输入两个字母 nt, 也就是 new type 的 缩写,那 new type os 就 启动了。 第一次使用一定要先做好配置,这个是很多人会卡住的地方,其实很简单,你就做两个动作就好。第一,连接模型供应商,要么你直接走 api, 也就是输入你的 api key 用多少花多少,要么你去走订阅。 在输入框里输入斜杠 connect, 就 会出现一个列表,市面上主流的模型供应商都在这个列表里边,比如国外的 openai, 国内的智普, mini max 都在里边。我用的是 github copilot, 虽然上下文窗口有限制,但是主流的模型都在,没那么多的破设,用起来很省心, 我在列表里选择这个,然后根据引导完成账号的绑定就可以了。第二,给 a 卷配置模型。 newtype os 的 底层是一套多 agent 编排系统,我特意按照内容创作场景设计了八个 agent, 每个 agent 都有不同的角色和分工,那很自然的,它们也有最适合的模型。并不是每个 agent 都要用最好的模型,那就太浪费了,而且可能速度也不够快。 所以给 a 卷配置模型,你有两种方式,一种简单的,也是我最推荐的,你直接在输入框里输入斜杠 a 卷 models, 你 会看到 a 卷列表以及它们现有的模型。 然后你选择其中的一个 agent, 就 会看到可以分配的模型。你看,我在上一步连接的是 github copilot 这个模型供应商,所以在可分配的模型列表里,我可以选择的范围很大。 那当你给每一个 agent 都配置好模型之后,这一套系统就可以正常运转了。 ok, 安装和配置完成之后,接下来就是使用了。 new type os 是 一个在终端里运行的 ai 工具,那理论上你可以用系统自带的终端去运行,也可以用 vs code 之类的工具。 我的选择是 dead, 有 三个原因,第一,它可以正常渲染 t u i, 我 之前用 v s code 就 遇到了渲染的问题,界面要么卡顿,要么不连贯。第二,在运行 new type os 的 同时,我还需要浏览文档以及做一些手动的修改编辑, 我肯定不会让 ai 做所有的事情。第三,它好看,大家所看到的界面就是我在在里边运行的。这款软件是免费的,大家可以试一试。 那么当你用 new type o s 打开你的内容仓库之后,该怎么使用呢?我建议你先做这两步。第一,在输入框里输入斜杠 i n i t 横杠 deep。 这是一条内置的命令,它会让 ai 去读取你整个仓库的所有文档,了解这些内容的方方面面,然后创建一个 knowledge 点 md 文档, 这样一来, ai 就 知道你项目的基本情况。第二,在输入框里输入斜杠 i n i t so, 这也是我内置的命令,它的作用是创建一个叫做 so 点 md 的 文档。如果你用过 opencl, 就 知道这个文档是用来定义趣否的性格的。 我给 chief 也就是主 agent 设计了两层人格,里人格属于底层人格,用户不可更改,有一些基本的行为规范需要始终保持,那表人格就是四二点 m d 里定义的, 用户可以根据自己的偏好进行编辑。这两个命令都属于对项目的初步化,让 ai 知道项目的情况以及你个人的偏好。接下来就是实际使用了,其实很简单啦,你完全不需要去考虑调用哪个 agent, 你 就跟 chief 对 话就好, 它会根据你的需求进行判断和拆解,让相应的 agent 去干他们最擅长的事情。除了多 agent 编排之外,我还内置了好几个 skills, 用来增强某些方面的能力, 比如需要深度分析的时候, chief 就 会自动使用 super analyst。 除了 skills, 我 还内置了几个 mcp, 这个我就不多说了。 最后我再讲两个可能会很有用的,一个是连接微信,我把爱豆比做的 vcl 项目整合进来了,所以你安装完之后,在终端里运行 ntwechat set up, 用微信扫码连接,然后再运行 ntwechat start 就 搞定了。 另一个是支持别的 a 卷调用,比如 opencl, 我 之前特意添加了一系列命令行,就是为了让别的 a 卷可以通过命令直接调用 newtypeos, 这相当于是配了一个专业的内容团队。如果你在使用 openclaw 的 话,可以试试运行 nt i n i t 这条命令,会自动把命令行的用法以 skill 的 方式注入到你的 a 卷当中。刚才我介绍的这些在 github 仓库里都有, 大家如果还有不明白的地方,可以去那边看一看,如果还有什么问题,或者建议到星球里跟我说, ok, 以上就是本期内容, 想了解 ai, 想成为超级个体,想找到志同道合的人,就来我们 newtype 社群,那咱们下期见!

嘿,欢迎回来,我们继续来打造自己的 ai agent。 不知道你有没有遇到过这种情况啊?就是你给 agent 布置了一个稍微复杂一点的任务,结果呢?他干着干着,哎,就跑偏了。 今天咱们就来搞定这个最头疼的问题,怎么才能让我们的 agent 记性好一点,专注力强一点,能踏踏实实地把复杂任务一步步搞定? 这句话简直说到了点子上,对吧?一个没有清晰计划的 agent, 真的 就像一个没带地图的探险家,走着走着就不知道自己在哪了,很容易就在任务的半路上迷失方向。 好了,那我们今天的路线图是这样安排的,首先,我们得搞明白 agent 它到底为什么会迷路,这背后的技术远比是啥。 然后呢,我会给你介绍一个特别巧妙的解决办法,给他一个代办清单。接着,我们会深入看看这个清单是怎么工作的,再对比一下新旧代码,你马上就能感觉到这次升级有多厉害。最后嘛,当然是让你自己动手试试,体验一下这个变聪明了的 agent。 行,那我们就先从问题的根源开始看,当我们给 agent 一个好多步骤的复杂任务时,它到底是在哪个环节掉链子的呢? 核心问题其实就一个,任务越长,步骤越多,模型就越可能忘了自己干到哪了。这其实跟我们人很像,对不对?你想想,你正在做一个大项目,吭哧吭哧干的正起劲,突然有人过来打断你一下,等你再回过头,哎,我刚才坐到哪了, agent 也会碰到一模一样的问题。这个现象背后有一个技术名词,叫做上下文框口息式,听起来有点专业,但你完全可以把它想象成这样。 agent 的 注意力或者说短期记忆就像一个容量有限的小篮子。 最开始我们把最重要的任务目标放进这个篮子里,但随着他开始工作,各种工具返回的结果,他自己的思考过程就像一个个新苹果被不停的往篮子里放。 结果呢,篮子满了,最开始放进去的那个任务目标就被挤出来了,所以他不是真的忘记了,而是注意力被占满了。咱来举个具体的例子啊,比如说,现在有一个需要十个步骤才能完成的代码重构工作, 你看, agent 可能一开始干的特别漂亮,第一步、第二步、第三步都没问题,但是因为最初那个完整的任务列表已经被后面新的姓习挤出了他的注意力栏子。干到第四步的时候,他就开始即兴发挥了,因为他已经完全想不起来接下来该干嘛了。 那这个头疼的问题,我们到底要怎么解决呢?欸,答案其实出奇的简单,跟我们平时管理自己的工作一模一样。给他一个代办清单,也就是一个 to do list。 为了实现这个功能,我们会引入一个全新的核心组建,这个组建我们就叫它 to do manager, 你可以把它理解成是 agent 的 专属项目规划师。他的工作很简单,就是死死地盯住所有任务,并且清楚地知道每个任务是没开始、正在做,还是已经搞定了。我们再往深挖一层,看看这背后是怎么运转起来的。 total manager 之所以这么神奇,其实是靠两个特别巧妙的设计,这两个设计一结合,就能保证我们的 agent 老老实实地待在正确的轨道上。 整个工作流程是这样的,我们一步步来看啊,首先, toto manager 就 像一个保险柜,把整个计划都存得好好的。然后最关键的一点来了,他会强制 agent 同一时间只能有一个任务是进行中状态,就像给他打了一盏聚光灯,让他必须专注。 接着, agent 的 工具箱里会多一个新工具,叫 toto, 专门用来查看和更新这个清单。最后,也是我最喜欢的一个设计,如果 agent 跑神了,连续好几轮都没来查看他的代办清单,系统就会主动提醒他一下,像个贴心的小闹钟。 所以你看,实现一切的核心技巧就这两个。左边这个强制专注,保证了他必须干完手头的活才能想别的。右边这个问责唠叨就是我刚才说的那个小闹钟,如果 a 进特不主动汇报进度,系统就会一直催他,给他一点压力,让他回到正轨上来。 这套组合拳下来,计划就能被严格执行了。好了,理论我们都明白了,那落到代码上,这次升级和我们之前的版本到底有什么不一样呢?我们来看看 这张表,总结得特别清楚。你看,我们多了一个 to do 工具,但更重要的是,在规划这一块,我们从无变成了有待状态的 to do manager, 同时还多了一个提醒机制,并且在 agent 的 主循环里加了一个小小的计数器。就是这些改动,让我们的 agent 从一个只知道埋头干活的执行者,升级成了一个有计划有监督的项目经理。 好啦,理论部分就讲到这里,现在是时候让你亲眼见证一下这个更智能、更专注的 agent 到底是怎么工作的了。 这里有几个例子,你可以直接拿去用,亲自测试一下 agent 全新的规划能力。哦对了,给你个小建议啊,目前大多数大圆模型对英文指令的理解和执行会更精确、更稳定一些,所以我们建议你优先使用英文提示语来测试。 这次升级可以说是巨大的一步,它让我们的 agent 第一次真正拥有了规划的能力,但这仅仅是个开始,这也给我们留下了一个很有意思的问题,算是为我们下一次分享做个预告吧。 既然我们的 agent 已经有计划了,那么下一步它还需要学习什么样的新技能,才能更好地和外部世界互动,甚至实现自我完善呢?咱们下期再聊。