一个很恶心但是能让你四周吃透 a 阵的方法,你要做的第一件事就是把网上那些杂乱无章的课程丢掉,只要年龄在二十四岁以上会使用电脑,那我告诉你一条最快的学习路线,建议收藏,避免以后走弯路。第一周,打基础,先啃透 a 阵的核心理论,搞懂核心组 建,吃透大语言模型、规划模块、记忆模块和工具及这些基础概念。第二周,专攻 agent 的 工作原理和难点解决方案,拓展学习 react 调优技巧,让你的 agent 更精准的理解你想要的结果。 四周练实战,结合前面所学知识,自己动手完成几个小项目,掌握这些足够让你胜任百分之九十以上的 ai 岗位。如果你还不知道从何开始,我这里整理了大模型及 a 阵子学习路线以及配套视频教程,实战项目留下学习双手奉上。
粉丝3441获赞1.6万

openclaw, 对 不起,我怕 hermes 误会!最近 ai agent 圈子里发生了一件大事, github 上一个叫 hermes agent 的 开源项目,两个月时间狂揽六万星,平均每天新增几千个关注, 直接冲上 github 川定第一名。更夸张的是,很多原本用 openclaw 的 开发者都在悄悄地迁移到 hermes。 今天就来聊聊 hermes agent 到底是什么?为什么这么多人开始移情别恋? hermes agent 是 什么? 先说结论, hermes agent 是 一个会自我进化的 ai 智能体,是一个会自己变聪明的 ai 助手。从你使用 hermes 的 那一刻开始,它就会开始自动写入记忆,自动提炼 skill, 自动优化工作流。简单来说,你用的时间越久,它对你的理解越深,工作越高效。 不是你在训练他,而是他在训练自己。 hermes agent 是 news research 在 二零二六年二月发布的开源 ai agent 框架。 hermes agent 的 核心特点用官方的话说叫 the agent that grows with you。 一个和你一起成长的智能体。这个项目被社区认为是 openclaw 上线以来第一个真正意义上的竞争对手。那 hermes agent 和 openclaw 具体有哪些区别? 这里我总结了四个方面的区别。区别一,龙虾是网关, hermes 是 引擎。 open cloud 的 核心是一个 gateway, 它通过一个强大的系统来协调多个智能体,通过复杂的编排来完成任务。 你可以把它理解成一个指挥官,它告诉每个 agent 该做什么,然后把结果整合起来。这种设计的好处是灵活、强大、可扩展。你可以接入多个平台,可以运行多个 assistant, 可以 处理复杂的多 agent 协助任务。但是它有一个问题,每次任务都是从零开始。 openclock 没有原生的技能学习层, 你让它做一百次同样的任务,它还是会用同样的方式处理,不会变得更快更好。它有工具,有指令,但是它不会积累经验。 hermes agent 的 核心则是 agent 自身的执行循环,它不是通过外部系统来增强能力,而是把能力内化到 agent 的 本身。工具调用、记忆、交互、执行模式都是 agent 自己的能力,不是外部系统赋予的。 这种设计的核心优势是 agent 会学习、会进化、会适应。区别二, hermes 是 会自己写技能的 agent。 这是 hermes 最有意思的地方,当他完成一个复杂任务后,通常涉及五次以上。工具调用会把整个过程沉淀成一份结构化的技能文档,存成 markdown 文件,下次遇到类似任务,直接加载这份技能,不用从头解决。 更关键的是,这些技能在使用过程中会自我迭代。如果 agent 在 执行技能时发现了更好的方法,它会自动更新技能文档。 openclaw 也有技能系统,但主要依赖人工编辑和社区贡献的技能市场。 clawhab hermes 这边等于把写技能这件事也交给了 agent 的 自己。区别三,记忆体系的差异。 两者都声称有跨绘画记忆能力,但实现方式不同。 hermes 用 sq lite 数据库配合全书解锁,把所有历史对话存下来,需要时通过搜索加摘要召回。他把记忆分成两层,一层是常驻的关键信息,写在 memory 点 md 里,每次对话都带上。 另一层是全量历史解锁。 open cloud 的 记忆则是工作区里的 markdown 文件,走的是文件及记忆的路线,通过语义解锁工具来查找, 在上下文压缩前会执行一次静默记忆写入,防止压缩丢信息。简单说, hermes 更像是给 agent 装了一个搜索引擎式的大脑, openclaw 更像是给他一个笔记本。 区别四,安全思路也不一样。 hermes 搞了一套五层纵深防御、用户授权、危险命令审批、容器隔离、屏距过滤、上下文注入扫描、 默认对高风险操作,比如执行终端命令、写文件要人工审批,超时未批准就自动拒绝。 openclaw 这边则更强调信任模型和配置审计,它提供了 openclaw security audit 命令, 可以一键扫描网关配置的安全隐患。但 openclaw 在 安全方面的历史记录不太好看,今年二月被曝出多个高危漏洞,十三点五万个实例暴露在公网上, 技能市场也有超过三百个恶意技能被发现。这也是为什么很多安全意识强的开发者从 opencloud 迁移到 hermes 的 重要原因。那 hermes 就 完美无缺了吗?当然不是,它的生态还很年轻,社区技能库远不如 opencloud 丰富, 如果你需要大量现成的工具集成, opencloud 仍然是更好的选择。另外, hermes 的 学习循环需要时间积累,前期体验可能不如 opencloud 那 么开箱即用。但关键在于, hermes 代表了一个新的方向, ai agent 不 应该只是工具的集合体,而应该是一个会成长的数字伙伴。 open club 的 哲学是我给你足够多的工具,你自己组合。 hermes 的 哲学是 我跟你一起工作,从经验中学习,变成你的专属助手。这两种哲学,哪一种更符合未来市场?正在给出答案。好了,本期的分享就到这里,我们下期见。

大家好,我是麦东。最近 emulus engine 在 github 上非常火,很多人拿它和 openclaw 做对比,甚至有人说 emulus engine 已经可以完全替代 openclaw 了。 这两天我也下载安装了 emulus engine, 自己深度体验了一下。先说结论,第一点, emulus engine 整体确实比较清亮,响应速度也比较快,用户的直观体验会比较好。第二点,也是我觉得最核心的一点,就是它的自我净化能力, 当你让他去处理一些比较复杂的任务,如果这个任务完成了,他会自动把这次已经跑通的任务过程分装成 skill, 后面再遇到类似的任务的时候就可以直接服用, 整个过程是完全自动的,不需要你做任何操作。这个点我自己实测下来还是挺惊艳的。第三点,他的执行过程是比较透明的,你能比较清楚的看到他是怎么思考怎么工作的,这点我自己也比较喜欢, 因为很多时候不怕 engine 工作慢,怕的是你根本不知道它现在卡在什么地方。当然, emulus engine 作为一个新项目,它现在也有很明显的短板。 和 open color 相比,它在模型接入平台支持这些地方性阶段还是有很大的差距的。比如它现在就不支持接入国内常用的飞书解微信。 另外,在安装这块, emulus engine 目前只支持在 linux 和 macos 上直接安装,如果你想装在 windows 上,那就要通过 str 来部署, 不能直接原声装在 windows 里。还有一点, amazon 是 纯命令行运行的,没有 u i 界面,所以如果你本身不太习惯命令行,或者你更喜欢那种可直观一点的使用方式,那前期可能会有一点适应成本。再往后还有一个差异,就是在多 a 键的协助这块儿, urmars engine 和 openglar 的 差异其实还挺大的。 openglar 原生就支持更复杂的团队调度和角色分工,而 urmars engine 的 核心更像是单体自动化的 engine。 如果你想搭一个固定角色的团队,那通常就需要同时运行多个完全隔离的 urmars engine。 不 过它也提供了 profiles 这套机制,可以用来跑多个互相隔离的 engine。 这个点如果大家感兴趣,我后面也可以单独再出一期视频来讲。 所以如果你问我 airspace engine 现在是不是已经可以无缝替代 openclaw, 我 自己的判断是还没有。它确实有很亮眼的地方,尤其是自动沉淀 skill、 自我净化这个点。但如果你已经深度依赖 openclaw, 并且围绕它搭了一整套工作流,那你现在想直接无缝切过去其实还是比较困难的。 好了,前面先把结论讲清楚了,接下来我们就来带大家一起从安装到配置再到使用实际体验一下 amazon。 首先是部署,我们参考官方文档,复制安装命令,打开终端,粘贴命令,按下回车即可。 amazon 已经开始自动安装了, 安装时间受网络因素影响,不太固定,大家耐心等待即可。 好了, emirates engine 已经部署好了,部署好了之后,它会检测你当前系统里面有没有安装 openclaw。 如果安装了,它可以直接导入一部分 openclaw 相关的内容。这里提示我们是否需要看一下哪些可以被导入的,我们直接选择 yes, 可以看到这边有一个物理 import, 这里面的内容就是即将从 openclaw 导入 emersonant 里面的内容。我们可以看到导入内容包含 openclaw 的 sword 点 m d, daily memory memory 点 m d, user 点 m d 以及一些 skills。 接下来我们同样输入 y, 按下回车即可。好, openclaw 相关的配置已经成功导入到 emersonant 了,下面我们就开始进行 emersonant 的 一些触手化配置。 我们选择第一个 quick setup, 也就是快速配置。首先第一步选择模型,可以看到首页默认都是国外的一些模型厂商,我们选择 more providers。 在 这边我们可以看到国内的一些厂商了,比如智普, kimi, mini max 等等。如果你当前就是使用的这些厂商的模型,那么你直接选择就可以了。如果你所使用的模型厂商不在这里面也没关系,我们选择 custom endpoint 自定义就可以了。 应用模型只要是兼容 open ai 格式的都可以的,国内模型厂商提供的透根不烂,基本都是可以满足需求的。 我们只需要去它对应的控制台里面拿到 url 以及 api key 就 可以了。 url 输入完成之后,按下回车继续出 api key。 api key 输入完成之后,它会自动检测当前模型,并且询问你是否使用该模型。 我们输入 y 按回车即可。接下来还会让你输入上下文的长度,这边大家也根据自己模型实际支持的最长上下文,以及你日常的使用情况去自定义就可以了。这里我输入二十万 按下回车。接下来我们还可以配置一些即时通讯平台去连接 emirates engine, 我 们可以看一下当前支持哪些平台,可以看到基本上都是一些国外的通讯平台,当然这里面还有个微信,但是我去查了一下,微信官方并没有直接声明支持 emirates engine。 我 们按下 esc, 退出当前配置好,基础配置已经完成了,接下来我们启动 emirates, 在 emulus 启动的过程中,我们可以看到很多的异常信息,不过我实测下来,大家可以直接忽略这个报错。手动输入 emulus, 按下回车, 可以看到已经进入到了 emulus engine 的 对话界面了。接下来我们向它发起一个非常基础的问题,你是谁? 好了,可以看到已经得到响应了,但是从它的响应结果来看,之前从 opengl 迁移过来的配置文件似乎丢失了一部分。 因为我在 opencloud 里给我的 agent 设置的角色是我家的一只小猫咪糖糖,这边它并没有把角色信息成功地带入进来,这个大家在使用的时候需要去注意一下。接下来我们向它发起第一个任务,搜索 emulus agent, 并且总结搜索到的第一个网页。 我们可以看到 amazon 已经开始尝试多个搜索引擎去进行解锁了。你在当前它所输出的日记信息里面,也可以清晰地看到它在干什么,这个也是我之前讲的,它的执行过程是比较透明的,我们能够比较清楚地知道它现在在干什么 好了,可以看到解锁结果已经出来了。这边有一点需要跟大家提一下, amazon 呢,是内置的一个无头浏览器的,你可以看到当前的网页解锁任务,它完全是在后台静默运行的,下面我们再让它执行一次解锁任务。解锁 openclock。 大家有没有发现,再次让它执行解锁任务的时候,它的解锁路径就比之前短了很多了。下面我们再次重复让它进行解锁任务。 大家有没有看到神奇的事情发生了,在我们多次让 emerson 重复进行任务的时候,它自动根据我们当前的这个重复任务创建了这个 skill。 在 skill 创建之后,整体的执行路径变得更短了。这个就是我们在前面提到的 emerson 最让我惊艳的一个点。 当你让他去执行一些复杂任务,或者是多次重复让他执行某类任务的时候,他就会在后台自动将这些任务沉淀为 skill, 下次调用的时候就会更加的快速,更加的准确,也就是我们所讲的自我净化。 好了,本期视频到这边也要结束了。整体体验下来, emerson 确实是一个非常值得尝试的工具, 但如果说他现在已经可以完全替代 open class, 我 觉得这个结论还太早了。毫无疑问,他是一个非常值得关注的新选择,只是性阶段还不太适合直接无缝切过去。本期视频到这边就结束了,工具会变,但方法更重要,我是麦冬,下条继续。

这是香港大学开源的轻量级 a i a 证框架,开源短短几天时间就拿下了七千零多新标项目用纯拍算实现仅一万一千七百三十三行代码,你可以理解为马就是 ai, 马的工具就是将神和安具给马套上,将神和安具也就是让 ai 更加可控可用。 而港大就是把江旋安具全部开源了,四十三个工具,五十四条命令,执大紫代理 web 搜索、持久记忆、浏览器自动化以及多 a 帧 t 协调等等都给你整体打包好了,只要一条 o 命令就能启动并解锁所有代理,哈尼斯就非常有用。

最近 ermis agent 很 火,火到已经有人开始卖袋装服务了。但普通人真正需要搞清楚的不是他有多火,而是他到底和 openclaw 差在哪儿, 以及你到底有没有必要再装一个 agent, 还是只是在追一个新的热词。所以今天这期我不吹概念,直接把它拆成一个新手也能照着走的完整安装指南。我们就只讲三件事,它是什么,它和 open cut 的 区别,以及怎样用 ws 二二最稳的把它装起来。 hermes agent 本质上不是一个聊天 app, 而是一个常驻运行、会自己积累经验的 agent。 它最特别的点不是会调工具,而是会在执行任务后沉淀技能,把成功过的方法总结成可附用的工作流。所以你可以把它理解成一个带学习循环的个人智能体,而不只是一个能回消息的 ai 机器人。 如果你已经用过 open call, 那 最直观的区别不是功能菜单,而是学习方式。 open call 更像消息中加个人工作台, hermes 则更强调把经验沉淀成技能,让他以后越来越像你的做事助手。 说白了, openclaw 解决的是连接和调用, hermes 更往前走一步开始解决。记住和成长, 不是每个人都需要再装一个 hermes, 关键看你想解决的是连接问题还是长期复用问题。如果你只是想把消息工具和模型接起来,现有 openclaw 够用。但如果你想要技能沉淀、迁移和长期自动化, hermes 才真正有意义。 所以别把它当成必须换代,而是把它当成一个更偏长期复利的 a 振的选项。如果你是 windows 新手,最稳的路线不是折腾原生环境,而是先把 ws 二跑通。 先在管理员 power shell 里执行 wsl install, 进到 linux 环境后再跑官方安装脚本,这样依赖和命令链路最稳定。对新手来说,安装主线就记住两个阶段,先把 wsl 二装好,再在 linux 里装 hermes, 别一上来就被环境问题绕晕。 装完 hermes 之后,别急着先折腾花活,先把模型迁移和诊断这三件事走通。 你可以先跑 hermes setup 走向导,再用 hermes cloud migrate 导入 opencloud 的 关键配置,最后再用 hermes doctor 做一次诊断。把这几步走通,你就不只是装好了,而是真正能用起来了。 hermes 真正有价值的,不是让你多一个聊天窗口,而是让重复工作开始自动积累方法。像每日简报、网站监控、自动研究、长期知识整理这类本来就需要反复执行的活,正适合教给它慢慢学会。 所以你装它不是为了今天多省一分钟,而是为了把以后反复做的事,交给一个越用越顺手的 agent 去接管。 hermes agent 不是 人人都必须装,但如果你已经开始认真搭自己的 agent 工作流,它确实值得研究。 尤其是已经用过 openclaw 的 人,更应该把它当成一次判断题,看看你要的是消息中书,还是一个会持续沉淀技能的系统。而对新手来说,别怕,先按 wsl 这条最稳的路线装起来,真正跑通一次,你自然就知道它值不值。

最近 ai 圈有个很有意思的现象,技术更强的东西反而没有引起应有的轰动。二零二六年一月,一个奥地利开发者用一个小时做的小工具,在三周内 狂揽二十五万 github stars, 连 jason 黄都亲自站出来说,这是他有史以来见过最重要的软件发布。同一个月,另一个开源 a 阵的项目也悄悄上线了,它支持两百多个模型,有真正的自旋 a 阵的多。结果呢?四个月过去了,它的 stars 还不到前者的六分之一。 这就是 hermes agent 和 openclaw 的 故事。今天这期,我们来好好儿拆解一下,为什么技术更扎实的东西反而没有火。先说 openclaw, 因为它太特殊 了。它的创始人 peter steinberger 是 个传奇人物,花了十三年做出 ps pdf, kate 卖了一亿美元,然后 burnt out 消失了三年。二零二五年底,它回归 ai 领域, 做的第一个项目就是 opencloud。 一 开始它叫 cloud bot, 因为太像 cloud, 被 ansorepic 发了商标投诉改名 modbot, 三天后又改名 opencloud, 然后就爆炸了。它发布的时机特别好。二零二六年一月, 整个 ai 圈都在找一个真正能帮用户做事,而不是只聊天的 agent。 opencloud 刚好填了这个空,而且当时还延伸了 modbook, 一个社交网络只允许 ai agents 发帖, 一条新闻在全球媒体刷屏了。创始人本身呢? steinberger 卖掉公司 burnout, 回归做出世界最快的开源项目,被 open ai 招聘。这个趋势好到连编剧都编不出来。 然后是 hermes agent, 他 二零二六年二月底发布来自 north research, 一 家融了七千万美元,专注去中心化 ai 的 实验室。技术层面,他几乎在每一个维度都 都比 o p p 可靠强。它有自改进循环,每完成十五个任务会自动复盘,把成功的模式写成可复用的技能,下次遇到类似问题直接调用。它有四层记忆系统,热数据长柱、上下文、冷数据走向量解锁,还能自己保存重要信息。它支持两百多个模型,不绑定任何提供商,而且它是零遥测的,数据永远不会离开你的服。 那为什么没有人那么热烈地讨论它呢?首先,它没有 modbook 等价的引爆事件。 hermes 的 自改进需要几周才能感知到价值。 opencloud 安装后五分钟你就知道它能干什么,而且它缺少故事。 stevenberger 有 卖掉公司 burnout 回归改变世界的完整故事。 north research 只是一个公司背后没有引发共鸣的个人趣事,再加上它推出的时候不太好, openclaw 已经吸走了所有注意力。 hermes 发布时,整个社区已经在讨论下一个 openclaw 是 什么,而不是 openclaw 的 挑战者来了。但我真正想说的是, hermes 的 故事 其实是一个关于技术价值和传播能力的经典案例。技术更强,不等于一定会赢。 openclaw 证明,能在客厅里讲清楚的产品,就是比需要看文档才能理解的产品更容易传播。如果你看过他的原码,就会发现 peter 没说错,他 从来不亲自 review 代码。 hermes 证明了在特定场景下真正有价值的技术创新可以安静地存在,不需要 viral。 对 于真正需要他的人来说,在乎隐私的开发者,需 要本地运行的团队,想要 agent 真正学会自己工作流的人, hermes 可能才是答案。但是如果你已经不是一个新手,并且工作流也稳定了,或许并不需要再安装一个 hermes 来消耗你的 token。 这期的本质上是一个选择题, 你是要一个五分钟内让你惊叹的工具,还是一个六个月后让你离不开的系统?没有标准答案取决于你要什么。千万别没需求,创造需求。

openai 推出了它的最强模型 g p t 五点四,可以说直接粉碎了 java 三点一 pro 和 cloud open 四点六的神话。这里面最有强力的是 g p t 目前已经可以真正的原声地实现电脑使用了,办公的效率可以说直接拉满。这个我觉得跟 open cloud 推动的方向呢,也是比较一致的。 先快速看一下它的一些基础数字。本次呢, g p t。 推出的是五点四的 thinking 和 pro 开发测呢,推出了 api 和 codex, 并且附带极速版的五点四 fast。 在 一些指标上,比如 g d p l s w e h pro a r c a g i 二这几个指标上都拿到了第一名,超过了 jimmy, 超过了 office。 比较有想象力的呢,是一个所谓叫原生电脑使用能力,什么意思呢?就是 g p 五点四可以通过 playwrite 等酷编辑代码来控制计算机,也能直接通过看屏幕截图,动用鼠标和键盘,比如说发邮件,排日程,填表格,好流程这些以前需要点来点去的活呢,在 g p t 五点四上面都能直接实现了。这份很多工作原来是通过工具的,比如说 browser use g p t 呢,现在是把这份能力内化到模型里面。在 o s word verified 这个指标上, g p g 五点四呢,刷出了百分之七十五的成功率。一个月前登顶的 cloud ops 四点六呢,也不错,是七二点七。而人类呢,在这个指标上的成绩呢,只有百分之七十二。换句话说呢,其实它们都超越了人类控制屏幕上的效果了,比人更会使用电脑。 直接影响呢,就是整个的分析师的这个行业,应该说华尔街的一系列的分析人员呢,都可以被 ai 替代了,这里面呢,包括比如说销售的演示文档,会计的电子表格,急诊排班表,制造图表、短视频等,全部要求 ai 真刀真枪的交付工作产出。 目前呢, g p t。 五点四呢,已经能非常成功的做出 ppt excel, 比绝大部分的专业人士还要更好。有内部的班主榜表示呢,人类在百分之六十八的情况下,更培养 g p t。 五点四胜任 ppt, 而不是人类自己胜任 ppt, 因为它的美观度更强,视觉更丰富,图像使用也更高效。换句话说呢,现在每一次的模型的升级,都把一些 ajax 的 能力,包括一些办公的能力以及功率使用的也都累化了。 g p d。 五点四也是 open ai 迄今为止 token 效率最高的推理模型, 解决同样的问题的情况下,所需 token 大 幅下降。 codex 在 fast 模式下,其 token 的 生成速度最高可以提升一点五倍,同样的智力,同样能力,只是快了百分之五十。 这里重点介绍一个他们很有趣的一个场景,就是 g p d。 五点四呢,发布了一个实验性的 play right interactive 技能,让 codex 一 边构建 web 应用,一边呢,在浏览器上通过 play right 格式化的调试测试,可以理解呢,这是一个双方拉扯的关系, 生成者呢,就是 codex 通过网页来构建,而测试者或者说是评估者呢,是通过他的 play right, 通过屏幕操控电脑来测试效果。所以呢, open 团队也给了一些比较有意思的案例,比如说主题公园的模拟游戏, 凭一个提示词呢, gpt 五点四就能独守的搓出一个完整的经营类的游戏,在游戏的建立过程中呢, gpt 自己呢,又作为一个裁判员 来实现一个全自动运行的检测,从扩建到拆除的整个流程的检测,保证呢,整个的功能呢,是足够丝滑,体验的足够优质,还算达标。所以呢,其实是一个自我进化的,有点像强化学习的一个能力。类似的,比如说战旗 rpg gpt 五点四通过一款回合制的网络战斗游戏, 包含移动行动、站立和遭遇战等完整系统。 playrite 呢,又充当了每一轮携带中的验证界面交互检查并微调 u i 行为的检查员,直到战斗手感、视觉表现和整体的体验全部调优为止。下一个场景叫做金门大桥的飞行体验, g b 五点四呢,可以生成一个超写实的三 d 场景,而 playrite 呢,化身成一个王牌飞行员,作为一个模拟用户的体验,来通过多视角的全自动的巡航的测试,最终呢,保证产品的渲染的效果的稳定性。 通过一小时的高频的迭代呢,最终完成了整个效果的验收。当然还有一系列的 g p t 五点四的性能提升,包括 token 达到了一百万的上下文,包括整个速度和效率的提升,以及幻觉的下降。这些呢,我就不一一来分享了。 有一个比较有意思的产品上的一个功能, g p 五点四编辑呢,是支持随时介入,也不会打断思路。换句话说,你在运行 g p t 输出答案的过程中呢,你可以随时加入新的条件跟注意因素,如果 g p t 还没有输入结果之前,它在编辑的过程中是可以接收更多的信号和信息的。 接下来我觉得 g p t。 五点四的发布呢,是 openai 对 于 jammer 三点一 pro 跟 cloud opera 四点六的一次全面的反击。虽然目前的价格还是很贵,但是可以看出整个的 g p t。 五点四的芯片呢,是没有短板,从推理到编程到视觉的工具使用计算机操作,网络搜索支持工作,每一条线呢,都拉到了顶级的水平。 价格呢,当然短期还不是 g p t 需要优化的点,但是他们回到了真正的铁王座之后呢,对市场也是一个非常有效的回应。当然了,随着 ai 这一波竞争呢,大家能看出来,整个的 ai 颠覆 目前数据来看的话,整个炸子行业呢,已经跌到了二零二四年疫情刚结束这段时间的一个低谷了,按照目前的趋势来看的话,整个的 ai 的 发展速度只会越来越快,无论是 openclaw 还是 cds, 还是这轮的 gbt 的 五点四的提升, 以及一系列的开源模型的升级,我们也希望呢,能看到巨源的速大模型不断的去开启新的领域的升级,让我们看到更多的可能性。这样呢,让整个 ai 发展呢,不至于局限在目前能看到这应用场景。这次呢,我觉得 oppai 的 g p t。 五点四对于电脑屏幕操作的这一个方向呢,又开启了新的里程压力。

今天简单来说一下 agent 与 skill 的 区别。我们以生活中常见的一个场景来举例,假如你对你的 ai 助理说了一句话,我下周三要去上海出差两天,帮我安排一下预算,两千元,要离外滩近一点, 记得帮我把日程同步到日历。那在这个需求里面, skill 充当了什么角色呢?他就是助理桌子上那些专业的工具或者单项本领, 它们每个只负责解决一个死板的步骤。比如说 skill a, 它调用了携程的 api, 只能查机票、高铁票,你给它日期和目的地,它吐出车次和价格。 skill b 呢,是调美团或者酒店的 api, 只能查酒店,你给它经纬度和价格区间,它吐出酒店列表。 skill c 呢,墨迹天气,只能查天气,你给他尝试,他告诉你下不下雨。 skill d 呢,是谷歌或者是系统,日历只能往日历里面填空位。 那么这里面 agent 在 干什么呢? agent 就是 那个听得懂人话,会思考、会拿主意的助理本人。他拿到你的指令后,大脑里会发生如下的推理过程。 开始是拆解任务,他意识到要完成这件事,需要查票,查房、算总价、查天气、提醒带伞、写日历。 然后他调用 skill a, 他 就查了机票,发现下周三往返要一千五百元。他一思考,坏了,用户的总预算只有两千元,机票去的一千五,剩下的五百住不到外滩附近的酒店,他就会自动修正。他决定不看机票,会去调用 skill a, 查高铁票, 发现往返只要八百元,然后剩下了一千二百元预算,他去调用 skill b, 找外滩附近的星级酒店。 然后呢,他又发现下周三上海有雨。在最后的汇报里自动加了一句,帮您订了高铁,剩下的钱住到了和平饭店附近,记得带伞。最后,他调用 skill d 把所有的信息填好。那么在这个的应用场景里面, agent 做的就是 充当你的真人助理,听懂你的模糊需求,并自动去拆解参数,然后调用 skill 这些工具。在半路遇到一些问题,他会拐弯,他会想办法换个方案来满足你的目标,他会解决怎么做最好的这个问题。 其实在这个场景里面, agent 和 skill 的 区别已经出来了,那再来总结一下, agent 就是 一个具有自主意识的实体,它利用大圆模型作为核心引擎,能够通过推理、规划和记忆来完成复杂的目标导向的任务。 你只需要给他一个目标,他会自己思考步骤,然后将大任务拆解为子任务。如果在执行过程中报错,他会尝试换一种方法。他拥有短期记忆和长期记忆, 通常也会被赋予一些特定的角色,比如说是文案专家或者资深的程序员等等。那么 agent 就是 一个大脑, 那 skill 呢?就是手。 skill 是 agent 可以 调用的一项具体的功能,它通常是一个预定义的程序代码、 api 接口或者特定的知识库。一般一个技能通常只负责一件事,并且技能本身是不会思考的,只有当 agent 决定使用它时,它才会被触发。 可以把 agent 想象成一个人,而 skill 想象成这个人学会的技能或使用的工具。一个 agent 可以 拥有多个 skill。 agent 的 强大程度取决于他推理能力的上限,以及他拥有 skill 的 丰富程度。 agent 是 指挥官,而 skill 是 兵器库。

最近 ai 圈有个热门话题,我放弃 openclaw, 转头 hermes 了。听起来像是个二选一的故事对吧?但真相远没那么简单。今天我们来深入对比两个当下最火的通用 a 阵系统, openclaw 和 hermes, 它们到底是同类竞品还是互补方案? hermes 真的 能直接替代 openclaw 吗?花八分钟看完这条视频,你会有答案?先说个有意思的事儿,最近 github 上有个高赞评论, i ditched openclaw for hermes, 我放弃 openclaw, 投奔 hermes 了。这话一出,评论区直接炸锅。但这个表态其实暴露了一个非常普遍的误解, 很多人把 openclaw 和 hermes 当成了同一个赛道、同一类产品,它们真的是二选一的关系吗?今天我们就来拨开这层迷雾,看看这两个系统的本质区别到底是什么?各自又在解决什么层面的问题?先说共识, openclaw 和 hermes 确实都属于通用 agent 系统。什么叫通用 agents 系统?三个核心模块儿, d 一 l l m 大 模型,系统的大脑负责理解、推理、决策。第二, loop 循环, agent 的 节奏 思考、行动观察的闭环。第三, harness 运行框架, agent 的 工位集成、工具链、权限管理、安全刹箱。从工程视角看,这两个系统都已经超越了简单的模型包装器阶段。 他们的共同目标都是把 agent 深度嵌入到一个可长期运行、高可用的工程化环境里。这也正是他们容易被混淆的根本原因。表面上看都在做 agent 框架, 但关键问题来了,他们的工程重心长在了完全不同的位置。重点来了,一句话总结核心区别, open club 管入口和秩序, hermes 管执行和经验先看 open club, 定位是本地优先的 agent gate, 核心资产是强大的 gate 控制面。它解决的问题是如何把真实世界的入口、绘画设备权限安全高效地连接起来。关键词,多渠道接入、绘画路由、设备节点、权限治理。 再看 hermes, 定位是学习型 agent, wrong time 核心资产是持续迭代的学习型执行循环。它解决的问题是如何让 agent 在 执行过程中沉淀经验,实现自我改进,下次少走弯路。关键词, 闭环学习、技能、沉淀经验复用、自我改进看到区别了吗?一个再接进来,一个再记下来。先展开讲讲 open club, 它的设计哲学是厚入口,薄 agent 什么意思? 先把入口和控制面做厚,再让 agent 在 秩序里工作。它解决的是我们在真实使用中最朴素的问题。我想在 telegram 发消息控制 agent, 同时在 discord 也能用微信还有接进来,甚至还要控制家里的智能家居设备。这些入口怎么统一管理权限怎么隔离? 绘画怎么路由? open call 的 核心定位就是 agent 的 通信与控制平面,它不是简单的工具箱,而是一个处理多渠道状态、绘画隔离、全线管理的复杂工程中台目前支持二十五家主流渠道原声接入、 telegram、 discord、 slack、 飞书、微信,甚至还有 webchat 和移动端 app。 一句话, open call 让 ai 真正具备了连接真实世界的能力。再看 hermes, 它的定位是 the self improving ai agent 自我改进的 ai 代理。 核心痛点是什么? jason 每次执行复杂任务都像从零开始编辑,成本太高了。 hermes 的 解决方案是一个四步闭环,第一步,执行任务,通过 the loop 调度工具运行时完成当前指令。第二步,记录历史,存储所有交互绘画,用 f t s 五引擎建立锁影,实现文快速解锁。 三步,沉淀技能,把成功的任务路径和错误修复方案自动封装为可附用的技能资产。第四步,用户建模,基于 onchat, 持续分析用户的长期偏好和行为模式,实现个性化响应。核心价值就一句话, 沉淀复杂经验,拒绝重复造轮子。接下来我们从三个维度详细对比。第一个维度技能, open club 的 技能更像团队的 sop 标准化手册。另一方式是人工编辑, 开发者创建 skill 点 m d 文件,明确定义功能、边界、输入输出、执行逻辑。核心特点是强调治理与分层,系统级、本地级、个人级、项目级、多层级管理,严格控制加载优先级和访问权限。优势是高度可控,逻辑清晰可审计, 非常适合企业级团队合作。再看 hermes 的 技能,更像个人的工作笔记,经验沉淀。定义方式是 a 阵自动生成, 完成复杂任务后自动把成功步骤总结保存为可附用技能。核心特点是过程记忆,记录的是如何做某件事的具体操作流,支持权威搜索,随时附用。优势是敏捷,与实战完全贴近,真实任务场景迭代速度快。 一句话总结, open club 的 技能是人教会机器的规则, hermes 的 技能是机器自己学会的方法。第二个维度,记忆, open club 的 理念是文件及记忆,所有记忆以文件形式固化 saw 点 md 定义性格身份, us 点 md 记录用户偏好。 memory 点 md 是 精选场 景, logs 是 按日期规党的日常毁画设计侧重与 agent 身份绘画、历史工作区边界紧密绑定, 直观稳定,异于人工干预。 hermes 的 理念是三层系统化记忆,构建的是搜索引擎大脑,不仅记录信息,更强调锁引召回。结构化复用。三层架构,绘画记忆,持久记忆技能记忆 设计侧重主动记录,怎么做结合执行轨迹和搜索能力实现经验复用。总觉 hermes 的 记忆系统更复杂且主动 侧重经验复用。 openclaw 更直观且稳定,侧重结构化记录和边界管理。第三个维度,安全策略, openclaw 的 核心思路是信任模型加配置审计,前提,假设操作者是可信的 one trusted operator, 通过静态审计确保配置安全。 关键手段 dm 配对机制,严格的命令白名单,提供 security audit 命令,进行自动化漏洞扫描。核心关注更多,在 人该怎么管 a 阵。这一层做文章侧重事前的规则设定。 hermes 的 核心思路是纵深防御加容器隔离。前提,假设执行环境充满风险,必须通过物理隔离和多层检测,层层设防,运行时防御 高危操作,人工审批,频距自动过滤,上下注入扫描,防止 prompt 攻击。核心关注更多,在 agent 运行时该怎么被约束。这一层做文章侧重适中的动态拦截,一个重治理,一个重防御,出发点完全不同。最后做个总结,速查。 openkeyup 核心定位,本地优先助手,聚焦 getme 控制面核心优势, 超强连接,二十五家渠道原声接入适用场景,个人助理、团队治理智能家居联动技术站 node js type script hermes 核心定位,自进化学习 agent 持续迭代的学习型执行循环核心优势,记忆复用与技能进化 school l 加 f t s 五、深度语义解锁 适用场景,科研工作流长期重复任务、个人经验沉淀技术栈 python 三点一一核心结论来了, open club 的 价值在于接入复杂世界。 hermes 的 价值在于沉淀复杂经验,它们不是二选一的关系,而是互补的解决方案。如果你需要连接多端管理权限控制设备,选 open club。 如果你需要 agent, 越用越聪明,自动沉淀经验,减少重复劳动,选 hermes。 甚至你可以两个都用 openclaw 当入口, hermes 当执行,这才是真正的答案。很多人关心能不能从 openclaw 迁移到 hermes, 答案是能,但不是简单换壳。 hermes 官方提供了迁移工具,可以导入核心数据,但我们必须明确,迁移配置不等于迁移整套使用方式。我们的建议是把迁移当成试用 hermes 的 低成本入口,先尝试一两个工作流,看看它是否真的适合你再做决定。 那么到底该选谁?这里有一个简单的决策框架,你可以问自己三个问题,第一,你的主要复杂度在哪里?是入口复杂还是任务复杂? 第二,你更担心不可控,还是更担心不成长?第三,你是一个人用,还是要带进团队?根据这些问题的答案,你就能做出更适合自己的选择。当然,你也可以两者结合使用,让它们各司其职。总结一下今天的分享,首先, openclaw 和 hermes 解决的是不同层面的问题, openclaw 解决了 agent 如何进入世界的问题, hermes 解决了 agent 如何积累经验的问题。其次,未来的 agent 系统,这两种能力缺一不可,一个只有经验没有入口的系统是混乱的,一个只有入口没有经验的系统是低效的。这场对比的真正价值是提醒我们, agent 框架的竞争已经进入了一个全新的阶段,那就是管理入口,治理风险和沉淀经验。

反正我是觉得国内就真的很垃圾,就是目前能用的模型只有国外的模型,并且我是觉得还是要用国外最强和最贵的模型,就不要用傻子模型,没有意义。 为什么会出现这个问题呢?我也在思考。就是因为国内的模型大部分全是真流和海外的这些优质的模型,所以真流出来的效果是你去跑分的时候,他的分数跑的很高,但你实际用下来,你发现说他这问题一大堆,这就是真流出来的问题,这是一个 第二呢,我觉得这个可能跟中国公司咱们的这个理念有关系,咱们做的东西还是太急功近利了,就前两天那个千万的一个负责人不是走了吗?对,我就觉得都政治问题吧,对中国公司就太急功近利了, 就做东西不细,因为我原来做投资呢,我离实际业务员我感觉不明显,我但凡自己现在抠定了一点东西之后,我才发现就我一直在强调这个工程化能力,其实 idea 非常非常努力, idea 都不值钱, 当然好的也还是很重要,但是实际上是你工程化的东西能不能把它做的能用、可用和好用非常重要。 我是觉得中国人在这方面就是挺差的,就为什么我的大国行做不好,全是细节,你细节优化不到位。就像我刚讲就是这两天特斯拉的 f、 s、 d 不是 在美国也很多人不是在吹吗?都很牛逼吗?你这东西其实从基础的角度中国人也不差,但为什么我们产品做不好, 我觉得跟这些东西是有关系,再就是说我觉得还是生产效果,就是说你还是要把它用在你自己的工作和生活环境里,尽快先把它做出来用啊,好用再说。 第第三个坑是啥呢?就是开源工具的这个代价,就是今天我认为绝大部分人对 open call 的 认知是有问题的,就是这个东西它本质上是一个框架,而且它完全开源,它的开发者只有一个人。 所以就跟咱们当时的技术老板讲的问题是一样,他的 bug 非常非常多,所以我在这个过程中我也踩过这种坑,就是我解决 bug 的 时间,其实在这两个月的时间已经远远超过我做生产本身了,其实是不对的,因为你长期看,要用发展眼光看,就有的时候有问题,你不要管他,他可能就多好,对,迟早会有人解决的,你不要去钻这个牛角尖。 然后第四个问题,其实老板已经讲过了,我们用来用人的思维,人类公司的组织去做,其实是不对的,就你让 a 转换身份就好了。 一一句指定的问题,一句 promise 的 问题,是吧?特别简单。多 agent 呢?意味着什么呢?因为他 open file 里面的这个构架啊,那个机器人他其实是有个 work space 的, 他这个 work space 里面有很多的 md 文件,就 memory, md 文件, agent 的 md 文件、 id 文件,就是存储你的个人信息,但是呢,他知道你,所以你如果要做了多 agent, 就 意味着你必须多 work space。 嗯,多了一个 work space, 你 就多了一份儿工作量,然后就多了一份儿记忆,然后他的这个记忆是彼此都互通了,本身在当下的构架下,他的记忆就成问题。 如果你再做多 a 证,他这个记忆其实问题就会更大,所以我就见到很多推特上的人发的东西,就这几周还陆续有人发,我就一眼我就知道了,大家都很嗨。做个截图说我又做了一家艺人的 ai 公司,很牛逼,然后 cpu 非常嗨。但我很快就知道,我就说这纯自嗨, 他只是做了一个他很嗨的这么一个构想而已,但实际上生产不可用,真正生产的不是工厂,所以我就说这个就是他是来解决问题的,他不是为了让给你当赛道公司老板,自嗨的就没有意义。

这条视频我们用五分钟把 open core 多 agent 的 最小可用方案讲透,目标很明确,第一,知道多个 agent 的 怎么隔离部署, 第二,知道消息怎么稳定路由。第三,知道两个 agent 怎么开始协助你第一次上手,别一开始就做三层专家组。最稳的起点就是一个主控 agent 加一个执行 agent。 正式配多 agent 的 之前,先把环境起好,先用 on board 把 gateway 服务装起来, 然后用 gateway status 确认它在运行,再打开 dashboard 看配置是否能正常加载。如果你要把不同账号分给不同 agent, 就 先把频道账号登录好,比如一个 personal, 一个 base, 只有当 get 位正常,面板正常,频道账号也正常的时候,后面写的 bindings 才有意义。 do agent 最关键的第一步不是写 prompt, 而是目录隔离。最少要拆三个东西, workspace 要独立, agent 的 要独立, sessions 也要独立。因为每个 agent 都有自己的身份文件,自己的绘画历史,自己的工作资料。 如果你附用了同一个 agent, 最常见的结果就是认证串调,角色串调,绘画也串调。 agent 创建出来以后,别只停留在名字,至少要给每个 agent 写清楚两类信息, agent 点 md 定义职责边界, so 点 md 定义语气优先级和工作风格。比如 home 负责清亮聊天和提醒, work 负责项目执行, review 只负责复合。这样后面即便三个 agent 同时存在,也不会出现谁都想接手同一件事。接下来是 bindings, 它作用很简单,消息进来以后到底交给哪个 agent? opencloud 的 路由是确定性的, 而且越具体的规则,优先级越高。如果你写到了单个联系人或者单个群这种 peer 级规则,优先级最高,再往下才是 account channel 通配,最后才是默认 agent。 所以 你想做精准分流,优先写具体匹配, 不要只靠默认。实际落地时,建议你先按账号分流,比如 personal 进 home business 进 work, 然后如果某个群或者某个联系人需要单独处理,再用 p 尔规则覆盖,最后保留一个默认 agent 兜底。这样配的好处是基础分流稳定,重点对象又能单独接到更专业的 agent。 消息已经送对以后才轮到协助。 openclo 的 多 agent 写作本质上是跨 session 工作,最常用的能力有四个, 看绘画、读历史、发消息、启智任务。其中 sessions send 适合主控把任务交给执行, sessions spawn 适合开一个独立子任务去后台跑。 另外要记住, session 可见性和通信权限不是一回事,能看到不代表能互发。第一次做多 agent, 最稳的协助顺序是先单向再双向,也就是先让主控 agent 把任务发给执行 agent, 执行完把结果收回来。如果你一开始就让两个 agent 互相自动回复,最容易出现的是死循环。绘画、串线 或者一个小问题被放大成无限对话。所以最小配置里先把 allow 写清楚,再把 sessions 的 visibility 放到 all, 先跑通 home to work, 再扩。第三个 review。 配置写完以后不要直接上真实业务,先做验证。 第一步,指测 routine 确认, personal 指进 home, 壁纸指进 work。 第二步,再测一次 sessions send, 让主控发一个简单任务给执行 agent, 看结果能不能收回来。 第三步,最后才加 review 或者自动往返,如果出问题,先看 get 尾状态,再看深度状态,再看 house 和日字。日字里重点看消息到底进了谁,以及绘画 key 有 没有串,最后收个尾。 do agent 想跑稳你只要记住六件事, 目录独立,职责清楚,先按账号分流,再按对象覆盖。先单向斜坐,再双向 allow, 只给必要的 agent, 每次只加一个变量,并且用日制验证。 多 agent 的 本质不是模型越多越强,而是路由清除,协助清除,验证清除。做到这一步,你在网上扩散角色,专家组才不会失控。

用一张图讲明白什么是 agent skill, 爸妈都能听懂的版本。那我们以这样的一个人物为例,其实我们很多人去纠结的是 agent skill 和大模型的关系到底是什么?我们画了这样的一个人物图, 其实我们理解的这个大模型也就是 l l m, 它其实相当于是这样的一个人的大脑,大脑它有非常多的知识,它有很多问题能够帮你去回答。这里面我们最常用的豆包啊,或者千万其实是调用这样的一个大模型。 但是这个大脑他虽然很聪明,但是他没有手和脚,他没有构成一个完整的人,一个完整的人他是有手有脚,我们会把这样的一个能够有聪明的大脑,并且有手有脚,能够完成具体任务完整的人,我们可以把他理解成一个 agent 的 概念。所以为什么大家都会讲 agent 其实是一个智能体的概念, 那这里面他的手和脚其实是怎么来的呢?我们通过一些 m c p 方式给他去装上了这个手或者脚这样的一个人,他又有聪明的大脑,他又有完整的手和脚,他其实是可以像人类一样去完成很多复杂任务的, 那这个里面其实就会涉及到这些复杂任务怎么去完成,这个里面就会涉及到 skill 的 概念。其实我们可以认为 skill 就是 我们给到这个智能体这个完整人去完成确定任务的一个超长的提示词,我们是把提示词变成了一个文档格式, 那他会根据这个 skill 去完成各项任务。举一个例子,比方说我们想让他去倒水,这个例子里面就会包含说你需要去用到你的手去拿起水壶,然后把这个水倒到杯子里面,他有会有非常多的复杂任务。举个例子,比方说我们希望这个 a 阵去打酱油,那打酱油他其实不光是用到手,他还需要用到 脚,它甚至还需要用到嘴去砍价。那这个时候智能体里面它可能有手,它有脚,甚至它还有嘴,这样能力一起调用起来,让它最终根据这个任务的说明文档去完成打酱油的这样的一个任务。 所以其实非常清晰是所谓的这个 agent skill 无非是给这个大魔星手或脚,甚至是嘴,能够让它去完成更复杂的一个任务。而 skill 的 这个概念呢?其实是这些复杂任务的工作手册。好了,是不是很简单?我是小妖,我们下期见。

这几天 ai 圈有个项目很猛,叫爱马仕 hermes agent it now, 推荐它的人明显变多了,我自己也装了试了一下。说真的,能火不是没原因, 因为它打的点和很多 agent 不 一样。现在很多开源 agent 都在比谁接的平台更多, telegram, discord, slack、 whatsapp 这些当然重要,但真正用久了,你会发现问题不是它能不能接进来,而是它能不能越用越顺手,能不能记住你, 能不能下次做的更快。 hermes agent 这波起来,核心就不是接入,而是成长。 你可以把小龙虾、 openclaw 和 hermes 理解成两种路线, openclaw 更像一个网关,重点是把不同聊天平台接进来,像一个多渠道助理平台。 hermes 更像一个引擎, 他更关心的是 agent 做完事情以后能不能把经验留下来,下次再遇到类似任务,能不能直接附用。 这也是 hermes 最吸引人的地方,他会把做过的复杂任务沉淀成技能,下次遇到类似问题直接调出来用,不是每次都从零开始。说白了,很多 a 阵子像临时工, 你每次都得重新教。 hermes 更像一个会复盘的助理,做过一次,下次更熟。还有一个点,他的记忆做的也更像长期助手, 不是只记一点点聊天记录,而是会慢慢形成对你的使用习惯、任务偏好、工作方式的理解。所以很多从 opencloud 转过来的人,看中的不是界面,也不是平台数量,而是这个越用越聪明的感觉。 避坑提示,但这里也别神话。第一, harmis 不是 装上就无敌,它只是更强调学习能力,不代表它自动就比别的 a 阵子强很多。 第二,如果你现在的 a 阵子已经很好用,没必要为了追星立刻全换。第三,如果你更看重多平台接入,生态成熟, 欧滨科尔还是有它的优势。但如果你更在意长期记忆,自我进化,重复任务越做越快, hermes 确实值得关注。结尾, cta。 所以 我对 hermes agent 的 判断很简单,它不是又一个普通开源 agent, 它真正有意思的地方是把重点从能做什么推到了会不会成长,这才是它最近势头这么猛的原因。 你更喜欢哪种路线?是 opencloud 这种平台型,还是 hermes 这种成长型?评论区告诉我, 如果你想看我下一条,直接讲 hermes agent 的 安装和实测,记得关注我。

最近市面上有非常多的 ai 工具,比如说 ermus agent, cloud managed agent, cloud code codex cursor, open cloud lanqing lan graph。 那 么对于普通人而言,怎么样去选择对应的工具来做我们的开发助手呢?今天就来和大家聊一聊这个问题。 首先为了让大家更好地去理解如何选择,我想先和大家聊一下我自己总结的 ai 的 七层架构。 首先在最底层呢,有我们的 model, 那 比较出名的也就是 openai 底下的 g p d 五点四和 anthropomorphic 底下的 cloud open 四点六。 model 呢,是所有事情的核心,也是我们的大脑, 那它本质上就是一个推理的工具,你给他一个输入,他就可以通过推理给你一个相对应的输出, 那么工具永远是工具,需要有一个人去调用它,所以与 l 零对应的就有我们的 l e primitive。 最早期的 chart g p t。 作为一个例子,这个时候呢,其实我们和 ai 的 交互方式大多是你问我答的方式,我给他一个输入,他会思考一阵,然后就告诉我一个输出, 那这也就是最早期的这种无状态原子调用的方式。或者说在现在呢,如果说你就是直接给 ai 发一个 api, 那 其实也是这种方式。 但是在这个阶段呢,其实我们还没有到达 agent 的 门槛,因为 agent 是 需要帮我们去完成一个固定的任务的,而不是执行一个单词对话。所以呢,到 l two 这里,我们就有了最早期的这一些 agents。 这些 agents 的 目标呢,并不是解答你当前的问题,而是根据你给他的指示,尝试去帮你完成一个任务, 所以说呢,它可以有一些外在的工具,它可以去调用这些工具执行这些工具,它可以去把一个任务拆分成多部,并且通过串行或者并行的方式去达到它最终想要实现的这个目的。 那可以看到在 l two 这里呢,我其实还分了 a 和 b, a 就是 我们现在熟知的一些 call code, codic, c, o, i, cursor 之类的工具。那么 b 呢,其实是这些工具为自己家的系统做的一些拓展,比如说 cloud md 和 call hooks, 那这些东西其实都会对于我们的 cloud code 有 一定的限制能力和一定的增强效果,但是它们是依附于这个工具而存在的。如果你把 cloud 点 m d 这个东西放到 codex 里面,那其实它就是一个废文件,没有任何的用。同理 cursor rules 呢,其实也是去增强了这个 cursor 这个工具。 那到这里为止呢,其实我们就有了一个初步的 agent, 但是我们依旧有问题,如果 agent 在 执行任务的过程中,在某一步失败了,这个时候我们应该如何去处理呢? 如果说没有底下的 l 三、 l 四、 l 五,那其实最简单的处理方式就是我们会尝试去重头做一遍,但是第一这个肯定是不高效的, 第二呢,这可能会有一些不好的负面效果。打一个比方,如果在执行任务的过程中,我需要在腾讯云上面去创建一个资源, 然后呢,我发现这次任务调度失败了,我就从头来过,我就又新建了一个资源,那这个时候呢,其实我就有多余的资源被建出来了,我需要同时去为几个资源买单,一定是不合理的,所以解决这个的方式呢,就是我们需要去引入一些状态机的概念, 来记录说我们当前已经做到了哪一步。这样子,当我们发现有任务失败的时候,我们只需要从最新的节点去做就好了,这里呢就会有我们的 l 三和 l 四。 先聊一下这个 l 三, l 三解决这个问题的方式呢,就比较简单,它给了你框架,告诉你说只要你使用我的框架,你就可以非常快的把一些 look 的 概念和一些状态机的概念都加到你自己的 agent 中。 但是前提是你需要自己去写这一部分的代码,且你需要自己去实现你的运行时,那 l 四相比 l 三呢,其实就更加的干脆了。代表人物就是这个 openclaw 和我们的 hermes agent, 你 其实不需要去写任何一行代码, 你只需要去把这个东西安装下来,在本地跑一下就可以了,它自动呢就帮你实现了多一整编排持久化,以及这些状态机的所有东西。 到这一步为止呢,其实 agent 能力已经非常强了,但依旧有一个痛点,就是这个东西需要我们自己部署在我们自己的机子上。 如果大家记得的话,前段时间其实 mac mini 的 价格是疯涨的,原因就是因为当 open cloud 这样子的工具出来之后,大家都想要去有一个可以部署的地方。 那我之前其实也反复地提到过,因为像 open cloud 这样的工具在安全性上不是非常的可靠,所以呢,大家又不想要在自己已有的电脑上去部署,那就会出现这种疯狂去买 mac mini 的 热潮,那么 cloud manage 的 agents 出现呢?其实从某种程度上就解决了这个问题。 你现在也不用自己去部署了,所有的东西呢,都会在 anthropic 的 云端跑,你只需要去告诉这个 agent 它需要去解决什么,任务其实就完成了, 那么最终在所有东西之上呢,其实就是我们的 application。 那 这就是我自己总结出来的七层架构。接下来我会再和大家聊一下,我们怎么去选择最适合我们的层级,以及在这个层级中怎么去选择最适合我们的工具。下期见。

面试官问,说说 agent skill 和 mcp 最根本的差异,哎,各位同学注意了,听到这个问题,你可千万别只盯着代码实现去聊, 如果你回答一个是函数,一个是协议,那在面试官眼里,你充其量只是个会掉 a p i 的 熟练工本视频的代码笔记。我整理进了一百万字的 ai 大 模型学习笔记里了,里面包含了传感器架构、蓝衬 red 模型训练与微调、 ai 的 智能体开发等二十多个技术站与一百多个 ai 大 模型企业落地项目实战笔记。 大家好,我是彭宇,现在的行情已经进化了,只会给 ai 搓几个 skill 函数的那是脚本小子,能站在底层协议高度去做标准化的,才叫真正的大模型架构师。面试官抛出这个问题,其实就是在筛选你到底有没有大规模工业化落地的思维,也就是所谓的架构分流器。 今天我带大家把这层窗户纸彻底捅破,咱们不谈虚的,直接看这张架构图,带你从烟囱式的开发死胡同一把跳进标准化总线的生态大门。这套逻辑绝对是价值百万的架构经验。咱们开讲, 大家看这个标题带劲吧,从烟囱到总线,这就是两者的灵魂差别。咱们先看左边这块红色的区域, agent skill, 也就是智能体技能。其实说白了, skill 就是 你教给某个特定 agent 的 专门招式,比如你用特定的开发框架给他写个 python 函数抓天气,这就是一个 skill, 但他有个致命伤。大家看图上的红虚线高藕合,你想想看,你给 agent a 写的技能换到 a 阵 b 或者换个模型接口可能就不认了,这就好比以前你家每个电器都要配专用的充电头,非常麻烦。这种烟囱式的开发,导致了大 o 的 n 与 m 的 成机的复杂度。你有 n 个模型, m 个工具,你就得写 n 乘以 m 次配,这活干的累不累?再看右边这个绿色的 m c p, 也就是模型上下文协议, 这玩意简直就是 ai 界的 usb 接口,它不关心你用什么模型,它定义了一套公约,它不仅能接工具,还能把资源、 prompt 模板都变成标准化的资产。只要你把工具做成一个标准的 m c p server, 不 管你是用 i d e 插件还是自己写的 agent, 只要支持 m c p 协议,直接插上就能用。这复杂度一下就降到 o 的 n 与 m 的 和,这就是从手工作坊到了标准化工业总线的跨越 方案。听起来很美,但真正落地的时候,坑多的能让你怀疑人生。咱们重点讲四个硬骨头。第一个坑,上下文膨胀,你想想,你手里有几百个工具全塞给 ai 吗?那 prompt 提示词比书都厚,模型还没开始干活,光看说明书就迷糊了,这叫模型迷失。咱们的方案是 动态路由,引入 reg 的 思路,用户问什么,咱们就去工具库里,通过语义搜索,找到相关的几个说明,按需加载,这才是高手玩法。 第二个坑,安全风险,这个最吓人,你给 ai 接了 mcp, 他 万一执行个命令把数据库删了怎么办?尤其是涉及到写操作或者转账,咱们绝对不能把核按钮直接交给模型解决方案。人机回还和权限分级,在 mcp server 端加一道过滤层, 关键操作的人点一下按钮,确认权限,得做精细化控制,别让 ai 变成一匹脱缰的野马。第三个坑,存量代码怎么办? 公司里以前写了几百个 skill, 难道全推倒重写成 m c p? 这就不厚道了。方案是适配镜模式,咱们可以用 a s t。 抽象语法术分析,自动把原来的函数签名和文档转化成 m c p 协议要求的标准格式,一键转换,老树发新芽,既保住了存量资产,又接轨了未来。 第四个坑,参数幻觉模型。在调用复杂的工具时,经常丢个参数或者返回的数据,格式不对,方案结构化,输出强,校验,利用帕拉丁这种工具卡死他, 错了就立刻反馈给模型,让他重试,直到格式完全正确为止。好,最后咱们来个格局拔高的总结,这也是你面试时最能打动面试官的部分。大家记住这三点,第一,别把 m c p 当成 skill 的 替代品, 他们是一个硬币的两面 skill 侧重于怎么做,是能力的具体实现,而 mcp 侧重于有什么是能力的接入标准。第二,要向面试官展示你的全剧观。 大模型应用开发正从首创 api 的 农业时代迈向标准化即插即用的工业时代。现在的技术迭代太快了,今天学个框架,明天可能就过时,但掌握了 mcp 这种协议思想, 你就能在大模型的任何战场上做到一处编辑,到处运行。第三,给老板省钱。采用 m c p 架构,本质是为了实现生态解偶,降低后期的维护和迁移成本。好了,同学们, agent 的 未来一定是标准化的, 如果你能把今天这套烟囱 vs 总线的逻辑讲清楚,我敢保证你的架构能力在面试官眼里绝对是专家级别的。那么下次再见了。

今天给大家分享一下 skill 的 一些高阶用法啊,包括 skill 的 组合,也就是套娃,还有 skill 的 一个 agent 的 分配。 首先第一个就是 skill 的 组合和套娃是什么意思呢?其实我们日常生活工作中的很多工作流,它都是由小到大的,就是小的工作流组成, 组成大的工作流,大的工作流组合,再变成更大的工作流。我这里举一下我实际在做的这个知识库搭建的一个项目,那我的 我的这个知识库的这些知识的采集,它是有不同的 skill 构成的。比如说这里有 notebook l m l l m 的 这个知识库,然后有 比如说我跟 cloud 对 话的过程中,让他去调研某一个主题,这里我在做的去调研一个主题,他在调研的过程中收集到的有价值的信息,会自动的通过这个 skill 落到我的本地的知识库里面。然后比如说有 twitter 的 文章,或者是 twitter 我 主动收藏的一些 啊这个帖子或者是信息。那这里我有不同的渠道去构成我的知识库。那 skill 的 组合是什么意思呢?这些都是某一个渠道的 skill, 那 其实它就可以构成一个 知识库采集的 skill, 在 这个 skill 里面主要就是做一个编排啊,比如说第一步我去去去取这个 notbook lm 的 这个知识,然后第二步去取这个 cloud 的 对话过程中产生的有价值的一些信息的知识, 然后第三步去取 twitter 的 知识,第四步去取 reddit 的 知识等等,那它就可以通过一个 skill 去把这些 skill 给它包进来, 然后在网上包。其实思路也是一样的,你有了采集,那你比如说你还需要分类,对吧?分类也是一个大流程,它里面可能也分成不同的小的 q, 小 的 q 通过组合或者是套娃便,然后给它套到这个分类的 q 里面,然后比如说 这个产输出,这个输出的话可能有图文形式的,有视频形式的,那它其实也是一个大流,大的工作流,这个大的工作流可能也可以通过小的工作流变成 skill, 然后再包到这个 输出的这样一个 skill 里面就层层套娃。这样做有什么好处呢?就是 你不用一步步的去自己去做操作,而是它类似于一个 pipeline, 这个 pipeline 你 只要让 agent 直接去执行这个 pipeline, 它就会自动的一二三四五步去把所有的渠道的知识库都刷新一遍采集过来, 这样的话你就不用说人工的去让 cloud code 帮你去执行四五次,五六次啊,不同渠道每个渠道去执行一次。然后第二个高级用法呢?就是这个 skill 的 agent 的 分配。 就是正常来说,我们会把 skill 放在主目录下面的点 cloud 的 文件里面,对吧?那你的 skill 可能会非常多,它的用途又不一样, 那 skill 的 分配是什么意思呢?比如说我的知识库采集是在这个文件夹里面进行的,对吧?那我其实就可以在点 cloud 的 里面把我的采集 skill 分 配给这个 分配给这个知识库采集的这样一个目录,那这样,那这个目录我同一同样也可以在点 cloud 的 文件里面去通过 cloud 点 md 去定义它,比如说你就是负责采集的, 对吧?去定义它的身份,或者是定义它的一些啊角色,那就会让这个 其实这个就是一个 agent 了,然后你每次都在这个目录下去启动它,它自动就会读到你的 cloud md 以及它所拥有的这些技能,那相对来说它去执行采集任务就会更聚焦一些,因为它不会受到其他 skill 的 一些上下文的 一些污染嘛。那而且它有自己的 cloud 点 md 的 一些约束,那它执行任务的过程中也会啊更聚焦,那它交付的结果也会更好。 对,这个就是我前面几个视频有一直在讲的,就是把 skill 和 cloud 点 md 赋予给某一个目录下的子目录,让这个子目录成为一个新的 agent, 成为一个,成为一个独立的 agent, 那 这样的话他的工作效率会更高,他做的事情也会更聚焦,并且我们去管理这些文件也会更加的清晰, 而不是所有不同的流程的 skill 都堆在这个主目录下的点 cloud 下面的 skill 文件里面,那很多时候你自己都管理不好,你如果把它分配到 啊对应的一些节点,然后这些节点啊各自有自己的目录,这些目录能够啊给它分配 skill, 那 其实它就变成一个独立 agent, 它的分工也会更加明确,然后执行的效果也会更好,你去管理它也会更加的清晰。