粉丝3.5万获赞30.9万

openclaw 最大的对手来了,最近有个新项目叫 hermes agent github 已经拿了三万 star。 很多人跟我说这是 openclaw 的 平替,但我扒完它的原码后,发现这两条路根本不是一个方向。今天我把它们的底层架构拆开给你看,看完你就知道该选谁了。 先说 open cloud, 它的核心叫 harness 策略,简单说就是工具编排,你给他一个任务,他去规划要用哪些工具,然后一步步执行。这套系统的强项是工程化,四十多个内置工具, mixp 协议扩展审批流审计、日制多 agent 协助,全是生产级功能。 但 harness 有 个前提,工具得你先写好,策略得你先定好。 agent 本身不会创造新能力,它只会调用你准备好的东西。 所以, open club 的 终极是什么?是成为最强的工具调度器。但 hermit's agent 走了一条完全不同的路,他搞了个叫 k e p a 的 系统,全称是 knowledge evolution through prompt adjustment, 通过提示调整实现知识进化。说人话就是,他会让 agent 自己写 skill, 自己优化 skill, 而且越用越强。我拆他的原码看了 k p a 有 三个核心循环,第一,经验收集, agent 每次执行任务,会把成功和失败的经验存下来。第二,技能生成, 基于这些经验,它会自动写新的 skill 文件,不是调用现成的,是创造新的。第三,自我验证,生成的新 skill 会经过测试,有效的保留,无效的淘汰。这套机制最狠的地方在于 agent 的 能力边界不再由开发者决定, 而是由它自己的学习过程决定。现在你看清楚了吗? openclaw 是 我给你工具,你帮我调度。 hermes 是 我自己造工具,自己进化。一个是外部扩展,一个是内部进化。 harness 策略的优势是可控、稳定,适合企业落地。 k e p a。 自学习的优势是潜力无限,理论上可以突破人类预设的能力边界,但代价也很明显。 openclaw 的 harness 是 经过大量工程打磨的, hermes 的 k e p a 还在早期,自学习的效果能不能稳定还需要时间验证。听到这里,你可能要问了,那到底该选谁?我的判断是,这不是二选一的问题, 这是两个阶段的答案。阶阶段,如果你要做生产环境团队协助企业落地, opencloud 的 harness 策略更成熟。 但如果你想赌未来,赌 agent 真的 能自我进化到超越人类预设的能力, hermes agent 的 k e p a 路线值得密切关注。而且我怀疑 open claw 团队已经在研究怎么把 k e p a。 的 思想融进 harness 了。中局可能不是谁取代谁,是两者融合。 最后留一个问题,如果你现在选型,你会压 open claw 还是 hermes agent? 评论区聊聊?关注我,下期继续带你拆!


大家好, hermes agent 都用上了吗?觉得怎么样呢?那今天来分享一下我最近使用的十个技巧,比较适配新手。 那第一个就是我们去安装 hermes 的 时候,只要执行这一条命令就行了,但是呢, windows 用户一定要特别注意啊,必须得安装这个 wcl 这个环境,那其实安装也非常方便啊,只要打开你的这个 pro shell, 那输入这个 install 命令就可以了。安装完之后输入这个 wc 要启动,然后再去执行这条命令,那么就 ok 了。那第二个就配置这个主模型啊,那么在 hermes 里面是其实是有主模型和辅助模型的,那我们怎么去配置这个主模型呢?那配置也是非常简单,只要执行 hermes, 然后 model 模型,那么你就可以选择,那第一个是它自己自家这个订阅,第二个是 open rotter, open rotter 非常建议大家使用,这个 open rotter 里面其实有非常多免费的模型,然后的话你就可以等它出来,就是它会先加载一些。就是啊,模型 我们可以拉到最下面啊,就是你可能这个模型不在这里的,你可以拉到最下面,然后对话输入模型的名称啊,输入模型名称点确定, ok, 这样的话你的模型就变成这个应用达这个模型呢,因为我之前已经输入过密钥了,所以他没有提示我输入密钥,比如说我们再看一下他是不是变了, ok, 你 看这个名字是不变了,我问一下, ok 啊,它这个模型是这个,那我们在设置模型的时候有一个小小的问题,比如说我们如果说设置的模型需要输入这个 key, 但是这个 key 其实在它这个终端输入里面我们是看不到的,经常我们复制过去之后看不到这个字母出来, 那你不知道,你可能又复制,导致可能这个命要输错了,那怎么办呢? 那么在这个 hermes 这个啊,目录里面有一个环境的这个配置的文件叫这个点 e n v, 那 么在这个文件里面是保存了所有你配的这个模型的密钥。所如如果说你这个模型调不通,那么你建议你去这个文件里面看一下你的密钥是不是配置的,对不对?那第三个就是啊,配置这个辅助模型,那为什么它会有辅助模型呢? 因为它设置了不同的任务模块啊,比如说这个第一个任务模块叫啊试图就是说啊,你如果发了这个截图啊,给这个 homeys 发了截图,不管你是通过什么聊天工具发了截图的话,如果你专门给它适配了模型,它就会调用这个专门的模型, 那比如说这个外部网页的搜索也是一样的,那么他这边有八个任务都可以去配置不同的模型啊,那这里就会有一个这样的事情呢,就是可能像有一些他是高频的,但是我们不需要那么好的模型去处理,比如说像搜索网页,其实这是这是一个可能是一个 m c p 的 活, 并不需要你这个模型有多厉害,那么你就可以选用一个便宜的模型,那比如说像这种啊,比如说这种记忆类的啊,他要去 总结记忆的,那非常重要,因为记忆和这个技能的这个深层非常依赖于这个模型的能力,不然的话他的这个效果就很差,那么这种时候你就可以去选一个比较好的模型, 还有说这种搜索类的,那么都是比较好的模型,选好一点的模型,所以你可以去根据这个去配置不同的模型,那么你也可以不配置啊,如果不配置的话都会使用默认模型,也就是你配置的那个默认模型,那如果你想配置的话,你可以这么来配置,只要进入对话,然后你告诉他是哪一个任务,比如说请你 这个压缩的啊,辅助模型, 你复制给它就行,就首先你得知道自己这个模型已经配置好了,在我们前面这一步,他这边啊,看到没有,他把 auto 能换成这个,就是我们的这个模型。 第四个就是写好这个 sword, md 啊,就是这个是个灵魂的文件,那这个文件是写什么字呢?就是定义你这个后面字的这个风格 应该写什么呢?比如说你这个性格说话的方式啊,做事的风格,价值观和边界,所以呢这个是非常适合你去定义好,这样的话你的这个后面字就比较有人味了,那么格式你可以这样按这种格式啊,比如说你是谁,你怎么说话,你做事的风格是什么样子的?你遇到问题优先怎么处理 啊?比如说举个例子啊,比如说你现在要做一个这种研究型的 ai 助手,你就把后面字定义成这种助手,那么你可以按这种方式去让它给你去对话,那么你也可以让 ai 去帮你走。比如说你跟后面字已经对话了一段时间了,那么你就可以让它根据我们的对话技术风格 让它去重新设置啊,你的这个灵魂文件,或者说你自己知道叫 so d m d, 那 么直接叫 so d m d, 或者重新设置我的灵魂,它是能识别出来 啊,你这个设置灵魂就是去修改这个 so md, 它会去根据你的对话就去总结你要求的这种风格,因为你跟它对话,你会不断去纠正它的问题嘛,那么它就知道你喜欢什么样的风格啊,就是这个样子,所以这个文件是非常适合大家在刚开始使用时去定义的。去定义好的, 那第五个就要搞懂这个 home md, 这个就是定义了 home md, 这个就是定义了 home md, 就是他是怎么跟你说话,是定义他那 user 点 m d 是 他对你的了解,就是你是用的人,他对你的长期观察,会把这些你的画像,你的习惯,你的偏好,然后落入,然后总结到这个文件里面,所以这个是会被被动形容的,那么你自己也可以去编辑啊。 那 memory md 就是 通过我们长期的对话,他会把这个一些事情总结,就针对事情来总结到这个 md memory md 里面,然后呢,每一次对话都会把这个文件的内容注入到上下文里面去,这样的话他就会记住啊,你曾经喜欢这个,喜欢那个,喜欢,喜欢做什么?喜欢这个事的流程是什么样子的, 那 skill 就 更具体了,就是他对你的对话进行总结之后,发现有些事情是可以啊用流程固化下来的,那么他就他就会固化到这个 skill 的 文这个文件夹里面去形成技能,那么这你的方法就可以被附用,流程就可以被附用了, 那么这种你也可以自己去安装,那么后面字也是可以被动去创建去啊,进行一个修改的。 那 state db 呢?就是你跟它的所有的对话记录全部都保存在这里面,那其实最重要的是这个所有的 md 啊,是去定义你这个 home 字是什么样的人格,那这个文件是我们主动要去维护的,那其他的文件都是 home 字可以自动去处理的,可以不用管。 那第六个就是我们配置这个聊天通道,那么也是非常简单,那我们配置这个聊天通道也是非常简单,只要执行这个 homeis getway setup 就 可以了,那进来之后我们可以看到它支持非常多这样的聊天的通道, 然后的话这边也是飞书钉钉还有企业微信,然后这边的话是可以去配置的,比如说配置这个飞书的话,你可以进来,进来之后,比如说我这边已经配置过了,那我就让他重写。 那这句话是要输入这个 app id, 那 么你如果之前用过 open core 对 接过飞书,那么你肯定创建了很多这样的飞书的应用啊,比如说我们打开这个飞书的应用,就可以看到这样的 app id, 那 我们只要复制过去啊,输进去,然后再把这个密钥 再输过去, 然后再选择飞书啊,我们用的是国内版飞书, 然后就确定,然后不管,那这样就配置好了,那这边的话他有一个这样的一个配对的这个命令,配对的这个码 你可以选择选择之后你你如果说是第一次的话,他是会啊,你跟他对话的话会输,会生成一个这样的配对的密钥啊,你输进去就行了, 那这样就配置就完成了,你就可以去对话了,然后你可以选择,然后让它重启。它目前的话支持基本上主流的这个聊天工具啊,而且飞书的话它支持的这个维度能力的维度都是非常全的,所以说还是比较推荐使用飞书。 那第七个就是我们可以使用这个 homeis doctor 这个功能啊,去做一个全面的检查,看一下我们到底配置上有什么问题,我们可以输入这个,然后它就会去 如果没有问题的他就会打勾,如果有有问题他就会打叉,然后告诉你这个哪一个是啊?有什么具体的问题,那比如说这有个警告,这个有一个 browse 插件没有装好, 就是如果你这边遇到什么问题,你可以先执行这个,然后让他去看一下,检查一下有没有什么问题。那第八个就是 ui, 就 说它本身是有一个这样 ui 的 管理界面,那官方没有做啊,但是社区已经做了一个非常不错的这个 ui 的 界面啊, 然后的话你可以把这个项目 clone 下来,然后去执行这个,然后就可以启动一个这样的 ui 的 这个,呃, homeys 的 这个 ui 的 管理界面,那这边是我启动之后啊,我们可以看到你可以配置很多东西,比如说对话,然后的话配置这个任务, 还有这个搜索这个技能。然后的话这边是啊,一个就是四二点 m d 的 配置,比如说我这个配置就是这样子的,那么你可以直接修改, 然后这边的话是这样的,文件就基本上管理的东西都有,然后这边可以选择模型,所以说是不错的。你如果说不太习惯用终端命令行 t u i 这种方式来管理的话, 你可以把它下载下来,然后部署一下。那第九个是如果你想把 open core 的 东西迁移过来,你可以执行这个命令,执行这个命令的话,可以把 open core 的 一些技能啊,一些记忆啊,这些东西都都带过来,比如说像这个 点 open 空的所有的文件,他都会转移到这边去啊,你可以选择 yes 呢,他就会把它全部转过去了,非常方便的迁移啊。那第十个就是怎么去安装记呢?那么第一种方式就自己去创建,那通过聊天的方式创建,我相信大家这个都已经非常熟悉了。那第二个是在社区里面搜索,那么 homeys 也有自己的这个技能的社区啊,然后它这边也是有非常多这样技能的,大概有四呃,四百多个吧,六百多个,现在已经六百多个了。然后我们可以打开这个技能列表,里面是有这个 build in, 就 说明是它本身就自带了这个技能,那么不是这个标记的,那你就需要去安装了。那安装方式也非常简单, 那只要把链接发送给他,在对话框里面告诉他,让他去安装这个技能就可以了。你也可以去安装 opencircle 里面这个技能啊,也是一样的,复制链接发给他,他就会自动去安装。还有 github 的 技能也是这么安装的, 那这样有了技能之后,那你就能够去用很多这样的,做很多这样的事情了,那么以上十个呢,是我自己总结的一些这些经验啊,希望能够帮助到你,能够更快更好地去使用这个 hems agent。

到底该怎么构建一套与当前模型能力适配的 harness? harness 本质上是模型能力缺口的临时解法,它的宿命是随着模型变强被一点点拆掉。 真正成熟的方法论是,先找到缺口止补最必要的部分,再用真实任务验证这些结构是否真的承重,最后持续做减法,拆掉那些已经过时的部分。 这个问题, anthropic 的 研究员 priscilla securin 在 最新发布的一篇工程博课里给出了一套完整的答案。 他完整再现了自己是如何通过实验构建 harness, 又如何通过实验一点点拆掉它。它构建这套 harness 的 过程可以用四步概括,第一步,先别急着搭 harness, 先看模型的能力缺口在哪里。 第二步,针对能力缺口,止补最小必要结构。第三步,把 harness 放进真实任务里,验证它到底是不是承重结构。第四步,通过消融实验找出真正承重的部分,再随着模型升级持续做减法。 我们挨个来看。第一步,先别急着搭 harness, 先看模型的能力缺口在哪里。 很多人一上来就想加规划器、加评估器、加工作流,但问题是,你都还没搞清楚模型到底哪里不行, 是长任务容易散?是不会做规划?是会放过自己的错误?还是明明能做却总是低估范围? harness 是 从失败模式里长出来的,先搞清楚模型的能力缺口在哪里,才知道该补什么。 或者在做长任务代码 agent 的 时候,识别出了两个反复出现的失败模式。 第一个叫上下文焦虑。随着任务推进,上下文窗口越来越满,模型开始失去连贯性。更严重的是,他会感知到自己快到上限,然后主动提前收工。任务没做完,他只是觉得快结束了,该收尾了。 就像一个学生在考试最后五分钟,不管题目有没有做完,都开始写。综上所述,第二个叫自我评估偏差, 让 a 阵评估自己的输出。他会系统性的给出正面评价,哪怕在人类观察者看来质量明显平庸。让一个厨师评价自己做的菜,他永远说还不错。独立的时刻没有这个包袱。这两个缺口才是后面所有结构设计的起点。 找到了缺口,接下来的问题就是该补什么,补多少。第二步,针对能力缺口,只补最小必要结构。 harness 的 每一个组建,本质上都在回答同一句话,模型靠自己还做不到什么。 针对上下文焦虑,作者补了上下文重置和任务分段,让模型不用在一个越来越长的上下文里硬撑。 针对自我评估偏差,作者把生成器和评估器拆开,让一个专门负责生成,另一个专门负责挑毛病。这里有一个关键发现,调教一个独立的挑剔评估器,远比让生成器自我批判容易的多, 批判性可以被单独注入,不用担心破坏创作能力。但这个机制到底管不管用?作者先在前端设计的场景中进行验证, 因为好不好看这种问题没有标准答案。如果连这种任务都能通过生成器、评估器分离稳定提升,说明机制本身是可行的。 作者给两个 a 诊同时提供了一套评分标准评估器,用 playwrite mcp 直接操作真实页面,打分写批评,反馈回传给生成器,继续改跑。五到十五轮迭代 评分标准刻意压低了模型默认就做得不错的部分,重点惩罚平庸惩罚模板感惩罚那种典型的 ai 位输出。 实验结果是成立的。生成器和评估器的循环,不止让结果更稳,还能逼出单次生成里很少出现的创意跃迁。 在一个荷兰艺术博物馆的案例里,前九轮都是渐近优化,第十轮模型突然把整个方案推翻,把网站重新构想成一个用 css 透视渲染的三 d 空间画廊。 机制验证完毕,接下来把它推广到全站开发,组装成完整的三 agent 架构。完整的 harness 由三个 agent 组成,各司其职。 规划器接受一句话,需求,把它扩展成完整的产品。方案只定义交付什么,不预先规定怎么做。 生成器按冲刺逐功能实现。评估器用 playright mcp 像真实用户一样点击测试。每条标准都有硬性预值,任何一条低于预值。这轮冲刺失败,生成器收到详细反馈。 还有一个关键机制,冲刺器约每个冲刺开始前,生成器和评估器先协商完成。到底是什么写下来,再开始写代码。这解决了一个经典问题,我以为我做完了,但你以为我应该做的是另一件事。 结构搭好了,但它到底有没有用,要放进真实任务里才知道。这个就进入了。第三步,把 harness 放进真实任务里,验证它到底是不是承重。结构验证要看三件事,它到底改善了哪种失败,它为此付出了多少成本和食盐?如果没有它,结果会怎么掉? 作者用一个二 d 复古游戏制作器作为测试任务,同一个需求跑了单独运行和完整 harness 两个版本作对比。单独运行版本二十分钟九美元,看起来完整,但核心功能坏掉了, 实体出现在屏幕上,没有任何东西响应。输入接线断了,表面上没有任何迹象。完整 harness 版本六小时两百美元。规划器把一句话扩展成了十六个功能,十个冲刺的完整方案。核心可玩游戏真的能跑, 差距是肉眼可见的。这一步验证真正证明的不是完整 harness 更花钱,而是它把结果从表面上向成品拉到了核心能力真的可交付 harness 有 效了。但这里有一个很多团队容易忽略的问题。 antropic 在 构建有效 agent 里说过一个构建哲学永远从简单开始,找到有效的方法之后,还要继续找更简化的方法,更低成本的方法。 这就进入了第四步,通过消融实验找出真正承重的部分,再随着模型升级持续做减法。 这是全书最有价值的地方。前面三部很多团队也会做找问题加结构跑验证,但跑完验证就停下来, harness 会越堆越厚。 第一版 harness 跑出来结果不错,但它也很臃肿,很慢,很贵。作者意识到 harness 里的每一个组件都编码了一个假设 模型,自己还做不到这件事。这些假设值得被主动验证,因为他们可能一开始就是错的,也可能已经过时。 你不能因为某一套 harness 一 度有效就把它永久供起来。你要反过来问,这里面哪些组建真在补模型短板,哪些只是当时模型弱时的临时支架? 随着模型升级,减法一直在发生。 opus 四点五的时候,上下文焦虑已经大幅缓解,上下文重置就被拿掉了,改用 agent sdk 的 自动压缩来处理。上下文增长到了 opus 四点六, 模型原声能连续工作超过两小时,任务分段也不再需要了。与此同时,评估器改成全程结束后集中评估一次,不再逐冲刺打分。 用简化后的 harness 去做浏览器端的数字音频工作站,三小时五十分钟一百二十四美元,评估器依然抓到了真实问题,音频片段不能拖动录音,只是站位实现,没有均衡器,曲线可化。 这推出了最后结论,评估器不是一个固定的适或否,只有当任务超出当前模型能可靠独立完成的边界时,它才值得那笔额外成本。模型越强,这条边界越往外移。 但只要任务复杂度也在同步提升,评估器就永远不会完全消失。我们最后回顾一下这四步。第一步,先诊断再设计,找到模型在真实任务里缺口在哪里。 第二步,针对缺口只补最小必要结构,每个组建都要能回答它在补哪个短板。第三步,放进真实任务验证,要看它有没有把结果从相完成了拉到真的可交付。 第四步,主动做消融一套 harness 一 度有效,不代表它永远有效,要持续问哪些还在承重,哪些已经是临时支架。 这四步形成一个闭环。 harness 是 模型能力缺口的临时解法,它的宿命就是随着模型变强被一点点拆掉,但 harness 的 组合空间不会缩小,它只是在移动。 真正的 ai 工程是持续找到模型,当前还做不到什么,在只为这些缺口设计下一套临时解法。这里是慢学 ai, 我 们下期再见。

大家好,今天是玩小龙虾的一天,最近爱马仕 agent 也比较火,今天就让他们自己和对方做一个比较,嗯?有什么优势?首先问小龙虾,最近有个 agent 很 火,它的特点是可以自我净化, 和我们有什么区别?哪个比较好?小龙虾就告诉我说,爱马仕 agent 主要注重于自主技能生成, 当 a 键为主,实现路径是将任务路径直接抽象为 scale。 小 龙虾侧重于哈尼斯基础工程加团队写作,就是多 a 键实现的路径是反思加更新配置文档 实现路径优化,也就说 opencloud 更新的是 markdown 文件,类似 a 键更新的是 scale。 然后小龙虾说,不要羡慕爱马仕, 我们的价格完全可以兼容他的理念,可以把壁环学习当做一个插件,直接集成到现有的逻辑中。我就跟他说,好吧,请你学习一下,更新到我们的配置中, 然后他就学会了可远近的 harness, 不 仅在改参数,还在动态地构建自己的 skill level。 然后我这边问一下爱马仕,你的前辈,小龙虾很火,它也具备自我进化的和记忆、做梦等功能。 这个和我们的自主优化 skill 有 什么区别呢?哪个比较好?爱马仕强调决策的内化与自主行动,不只是调用工具本身在参与决策。 但是我觉得小龙虾也在进行决策呀,建议是 openclaw 作为系统骨架,然后它作为这个大脑。然后我就问他为什么不让 openclaw 做大脑, 然后你作为执行呢?毕竟你可以自我进化, sky 准确率会越来越高。嗯,我觉得他的回答就不是很好,就到这里吧。嗯,对,两个 a j 接的都是揭秘模型,所以模型的智能程度是一样的。

大家好,最近有一款 ai 神器呢,非常火,它的功能跟 openclaw 是 非常像的,但是呢某些功能是超过了这个 openclaw, 在 github 上的这个 sars 已经超过了三十二 k 了,虽然说比 openclaw 还差一些,但是呢目前是受到了非常多的关注啊。那这款 ai 神器呢,叫 homeis 神器, 那本期视频就来介绍一下这款 agent 的 到底是什么,以及如何安装,然后来讲解一下它的一些特色点。那首先我们来看一下 hymis agent 到底是什么?我觉得它有一个非常两个非常大的个特点,就是可以自净化, 也就是可以自主去学习,加强自己。然后呢就是还可以有一个内置的一个学习壁画,那它这两个部分是怎么做成的? 那就依赖于这最重要是依赖于这两个特点,一个是持久多层的记忆,它是使用这个 light 加 f t s 五的方式来保存我们的历史的对话,也就说你跟 ai 进行的每一个对话它都保存下来了, 而且能够去根据你的对话去总结。那第二个就是他的自动技能进化,这个是非常有意思的,他去通过你的对话,他会把你的对话流程沉淀成技能,也就说在他这里面你是不需要去创建技能的,他会根据你的对话来去总结出来技能,当然你也可以去安装别的技能, 所以就有这两个东西来促成了它有这种自主进化的一个能力啊。那么在 open core 里面我们是要自己去安装技能的,那么它的记忆的方式跟它也有区别,那接下来我们会详细讲解它的记记忆, 那其他的比如说自主执行能力啊,它是能调用各种各样的工具浏览器,那么我觉得这是一个通用的 a 点的必须具备的能力啊。那模型的话,它也是支持常见的模型,比如说我们国内的 mini, max, kimi 啊,全部都支持,然后也是免费开源,免费的, 那么目前它的这个 stars 已经有三十二点八 k 了,增长的非常快啊,那关注的人也非常多,然后我也试用了一下,的确是有点不一样的感觉,但我们来对,先来对比一下这个哈密斯跟 open coil 的 区别。 那么首先是核心价格的维度, openclaw 是 什么?是它是个 getaway, 它通过 getaway 路由到不同的 agent, 然后不同的 agent 可以 对接不同的这种 message, 比如说微信啊,或者说飞书啊,然后设置不同的角色,它更像是个中央控制器,控中央路由器。但是 后面这个的特点就是什么呢?它更像是个人助手,专为你服务的,它的特点就是说我能在给你的服务过程中去成长。所以说 open core 更像是一个商业的东西,你可以去对接很多客客户,别人的老板啊,同事啊,去设置不同的角色,不同的 server, d, m d, 然后去跟他们去对话,那后面一次呢,就是更像是你自己,你就给自己玩就行了。所以我认为的区别是在使用上的区别,有这么个区别,那学习能力, 那 open core 呢?是需要你去安装这个技能,去找一些技能,它是不会去沉淀你的对话记录来自主去创建技能的。 那么 homeis 呢?是可以去提炼你的对话,然后生成这样的技能,那这个是非常有意思,也是可以去啊,我觉得 openclip 是 可以去借鉴,然后去后面可能会去增加这样的功能了,那记忆系统,那么我们会详细再讲到这个记忆系统,那技能的生态 都是一样的,包后面是也有这样的社区啊,然后也可以去安装开源的这些技能,完全没有问题。那消息平台的话,那 open call 这边是可以对接了,五十加集成,那对接的那种渠道还是非常多的。 那后面是这边的话,是对接了七到十个主流的,那国内的飞书啊,微信啊都对接了都,他这边都是可以完全去对接的模型啊,都是,我觉得都差不多, 那其实就是最重要就是这个记忆系统和这个啊学习能力,我觉得是最重要是这两个区别啊。接下来我们就来详细的看一下他这个记忆到底是怎么来存储,怎么来去来实现这种啊自进化,或者说能够更好的去给你去回忆你具体的内容的。那首先你发出一个信息, 那后面一次 a 型的时候开始就推理,然后他会把常驻记忆,就是他会把上一次或者之前的对话中值得记下来的记忆啊,会放到这个 memory 点 md 文档里面去。然后呢,那你的每次对话,他都会把这个 memory 点 md 放入到上下文里面去,那么这个跟 openclose 是 一样的,这种就叫做常驻的记忆啊,就是你可能是你的个人的设定啊,你的一些习惯啊,那么这个就会放到上下文,每一次对话都有用,那如果你的对话中需要更深的记忆, 就比如说你要回忆在上周二我给你对话的内容是什么,我是不是说过一个什么事情,那么 home 子就会去 搜索这个 solide, 就是 你之前的对话记录,它会把每一条对话记录都保存起来,那么我这边就是把这个 solide 数据库展示出来了,你看它把我的每一个对话都保存起来了, 那么他要搜索的话,通过这种缩影的方式把这个数据就拉出来,然后去做摘药,就会回答你,哦,你让我回忆的东西在这里面有,那 open colo 在 这里是没有的,他是把你的对话会总结成文档,放到这个 memory 的 md 里面 啊,日期这种方式来存储,所以他是想不起来上周二我具体跟你聊了什么,他是记不起来的。最后呢,就是你对话完成之后,他有一个专门的 啊,异步的这种 review, 这个 review 是 干什么呢?它会 review 你 这个这段时间对话,那这段时间对话有没有值得可以存入到我们这个 memory 的 md 的? 也就说我们刚开始开始发送对话的这个长注记忆, 它可不可以把这个对话内容值不值得长期保存?如果值得,那就它就会更新这个 memory md。 然后呢,在你的这个对话过程中,有没有一些流程我能沉淀起来, 把它做成技能啊?如果有,他就会写出来技能,所以你跟他对话的越多,那么你保留的这些技能就会越多,他就越来越会越了解。我们知道技能就是一个人的一个流程化的一个沉淀,对吧?你的做事的习惯,你的所有的这个, 呃,你的方法论,所有的东西他都帮你总结出来,放到这个保存起来了,他就会越来越像你,越来越理解你,越来越懂你。所以这个东西是为什么说他?我觉得他是一个非常 大的一个进步,为了让大家更加的明白这个记忆的区别,这两个记忆的区别让我来更详细的来演示一下。那后面是存储存的是发生的过程,也就是他会把每次对话存起来,像聊天记录一样 存到他的数据库里面去。但 open core 是 什么呢?他提炼的是知识,就是会把你的对话中可能需要注意的点,对吧?偏好规则设定结论给保存起来,像个就像你做会议闭会议记要一样, 那么后面是保存的是会议里面每一个人说的话,但是呢, open core 保存的是我整场会议里面要记的点, 所以这两个是非常大的区别的。我们来举个例子,比如说你现在跟 agent 对 话啊,你发送的时候以后要帮我整理周会记,要先把代办列出来再写总结,那 agent 说, ok, 我 记住了, 记住了啊,这是一个非常重要的一个顺序。然后呢,他说,哎,用户又提了个要求,他又 ok, 接下来了,那上面的对话其实里面就包含了什么呢?就是 过程,就他要怎么做,一个结论就是他不要怎么做,或者是建议他怎么做,这个一定是会被保存成记忆文档的。好,对于这,对于这段对话,那么 holdem 子会把他所有的这个聊天记录啊,就这个聊天记录保存在 sql 数据库里面去,然后也会 把这个里面提炼出来,把那一个结果就说你的设定,你要的要求,把这个每次要开会记会议要的要求把它保存到这个 memory 里面去, 然后如果涉及到流程,把它保存着技能。所以呢,你下次如果再问同样的问题,他就会知道哦,我先要干什么后要干什么,我,你不喜欢什么样子的,他就会去调用这个记忆和这个技能, 那么 open core 也是一样的,在这里是一样的,根据上面对话也是会把这个结论会记下来, member 在 这,在这个,在这里的时候,在这个阶段的时候,大家都是一样的,当你问到同样的事情,他们的回答结果一定是一样的,在这一步两个人的记忆都是一样,因为都是总结, 都是对对话内容的总结。但是当你要问这个时候,比如说你问为什么 要把这个周会改成这个样子,问到细节的时候,就是我们要深入的去问的时候,那 open coil 他 是没办法去回忆,哦,我为什么要改成这样?他只知道结果是要改成这样,他不知道过程。 所以在第一步的时候,如果大家都是啊,重新去做一个事情,就是我要建议要开一个新的会议,那么大家都会按照这个结果,就是已经设定好了规则 去执行。但是当你去问我之前要为什么会这样子的时候,你来帮我回忆一下,我上着奥为什么要让你去改的时候,那后面一次的话就是可以去回忆你们之间的过程,然后去提出摘药回复给你,但是 open close 我 没有的。所以呢,时间一长,差别就体现在 宏米思更强调的是陪伴感,哇,它真的像一个你的一个影子一样,能知道你们的所有的对话记录。那奥文科尔是个管理感,因为他注重结果, 所以这是一个很大的区别,这也是我在看他的技术代码里面一个感想,就是就是宏米思可能是会更偏向于个人意见的,就是陪伴式的, 很知心的一个伙伴。那 open core 呢?可能是更像是支付管理助手,所以呢, home 更容易把精力继续转成方法,因为他拥有你所有的精力,他会把你的精力转成技能 沉淀下来,那么这个就是非常非常重要的。好吧,我们最后再来总结一下,那 home core 记住了是发生过什么? open core 记住了,是 我最后应该记住什么啊?这个是两个非常大的一个区别, home 和 open color 应该怎么选择呢?如果你更想要长期的相处感,回忆过程,经验沉淀,那么 home 则会更适合你。 如果你想要文件化,记忆清晰,治理规则型知识库,还有还有就是你想要去路由更多这样的通道去对接这样更多 agent 内部的 agent, 那 么 open color 可能会比较适合你。那我们来安装一下来体验一下。 安装也很简单,就只要有这样一个命令,那么你可以选择你的 windows 电脑,或者说你的这个另一个服务器啊, mac 电脑都可以安装。对呢, 那当你安装完之后啊,你可以使用 home 键进行启动了,启动完之后,它就会进入一个终端命令行的界面啊,比如说这样子,它会看到,你会看到它那个工具以及它现在的技能。 如果你安装这个 openclip 啊,它会把 openclip 里面的东西都同步过来,但是你在安装过程中去选择,让它把 openclip 里面的,比如说这个,呃, user 的 md, 就 它记忆文件以及它的技能都可以同步过来。然后的话你第一步是要去设置啊,你想要用什么模型?那怎么设置呢?你可以在这边 homeys, 然后 set up, 这里的话是可以选择,就是 你是不是要同步这个 open core 里面的配置,那比如说我现在选择不要,那么你这边的话它会选择一个 quick set up, 就是 可以去设置模型消息,那么你可以选择这个。好,这边就就是你们常用的模型了, 国内的模型的话,我建议用这个 more providers, 然后呢去选择这个,呃,自定义,因为它有些端点是有问题的,就是你可以自己去设置这个,比如这个 base url 啊,你自己可以设置这个端端点的地址,因为他有些地址他错,比如说我选择 kimi 时,他那个地址是错的,但是大部分地址都可以用,你设置完之后他就会要求你设置 key 啊,那就 ok 就 结束了,模型就设置成功了,结束之后呢,你就可以去启动, 这是会进入它的一个聊天界面,它自带的聊天界面,那么你就能看到你现在这个模型,比如说我配的是这个 timmy 的 这个模型,那么你就可以在这里对话,然后非输这个对接的话是需要单独去这么去配置的,那么就是 hoe, 它有个专门的 get away 啊,能 set up, 然后这边的话是可以选择看到没有,可以选择飞书,然后就是选择飞书这个啊,选择这个飞书,然后的话选择 y, 那 就是你飞书创建的一个应用 a p p id 和这个 a p p secret, 就 a p p 密钥,你把它输进去之后,那么你就可以去对接去用了。 但是目前来说用其他的,我用飞书的话好像有时不太稳定,所以我现在用的是他自带的这个聊天框,可能后面会有很多这种插件出来,因为毕竟他也是刚出来,但是他这个记忆和这个技能自动创业技能,这个是太爽了。所以你如果没有这种需求的话,你直接可以用这个 自带的这个聊天框,就它这个终端跟 qq 的 一样去对话也可以,也是非常舒服的,非常爽的,它也可以去操作很多事情。 ok, 那 本视频就到这,希望这个视频对你有所帮助。

okay, 大家好,最近 hermes 很 火,可能很多小伙伴都在观望 hermes 是 什么?它能做什么?它和之前很火的 open cloud 有 什么关系? 我要不要弃养龙虾换成 hermes? 这期视频就来跟大家简要地讲一讲,从非技术角度来说,这些问题的答案是怎么样的。顺便给大家演示一下我真实是用 hermes 的 场景。 我先粗暴的概括一下, hermes 是 一个升级版的 openclaw。 由于呢, hermes 也是品牌爱马仕的英文名,所以呢,我们可以理解为 hermes, 它是一个爱马仕版的龙虾。不过呢,当然, hermes 也不是 openclaw 的 全面进化版,那么两者之间到底有什么区别呢? 我让 codex 去翻了一下两边的代码和文档之后,它的结论是, hermes 不 只是把 openclaw 原样升级了一遍,它更像是沿着另一个方向去做了一次产品和中心的转移。 openclaw 呢,是一个把 ai 接入你现实工作流里面的本地助手,而 hermes 是 一个更强调长期记忆、自动进化和安全性的智能 agent。 再 说 openclaw, openclaw 呢,它非常适合已经有明确工作流的人。举我自己一个很合适的例子,我现在用 openclaw 做一个很有代表性的东西是 seo cur library。 这是一个用 openclaw 帮我去长期维护 seo 的 关键词库,选择题库、内容库,它会帮我 持续的整理哪些词适合做 seo, 以及这些词后续后续维护。比如说现现在 open class, 它会,它会每周根据关键词库给我写一个本周的 blog 写作排期,告诉我每天要写什么。 是 open class 很 擅长的工作,把任务接近你现实的工作流里面,定时触发,再把结果呢放到你平时会看的地方,也就是说 open class 是 一次让 ai 去长出手脚的突破性尝试。那 hermes 呢? hermes 他 更强调的是记忆、 skill 沉淀和自我改进。刚刚说那些事情呢, open call 能做,他也能做, 那么就直接给大家展示一下我的实操。我把 s u q library 这个工作理由呢发给了 hermes, 让 hermes 去帮我输出一个刚刚同样的这个本周排期。 hermes 它显示呢,在当前库的严格筛选规则下面,它没有找到合适关键词。也就是说之前呢,我是在 openclaw 里面去调教过这个筛选规则,但是呢,我把它给转移到 hermes 这边呢,需要我去重新调教。这是 hermes 现在的一个问题,它不能够直接去对接 openclaw, 我 们还需要手动去进行一些人为的调教或者是重构。 哦,没关系,我们让他先忽略掉这个筛选规则,给我们生成一个 demo, 运行成功了,并且呢,给我们输出了一个本周排期。但是呢,他没有把这个排期直接的文字发送到飞书里面,而说把这个文档文件的位置发送进来了,这样肯定是不符合我们要求的, 我们就让他直接把排气结构的文字发到飞书里面。同时呢,他刚刚的输出呢,还有些问题,他只输出关键词,没有输出对应的推荐的 blog 的 标题。我这里呢也是让他重新去改一下,正确的输出了这个结果, 他忽略筛选机制,并且呢给出了标题,到这一步呢,是 opencloud 他 也能够做到的。那么 hermes 它的特殊之处呢?其实在下一步 我们直接来看后面的他输出这结果之后呢,同时他还说出一句说这个 skill created, 就是 他在完成任务的时候呢,同步去创建了一个 skill, 而这个 skill 的 内容呢,我们也来看一下。这是一个新建的 skill, 就 这个 skill 它的出发条件是在用户要求忽略筛选规则的时候会触发这个 skill, 并且呢它会给每个关键词生成对应的泊客的标题输出,输出可选的写入文件,也就是说我们可以让它把这个结果的文字输入到非书里面。这三点呢,就是我刚刚要求的那三点,它都写在这个 skill 里面了,而且呢它不是强行的以后每次都这么做,而是呢比较保守的给我们 把这些这三个要求都做成一个可选化的一个设置。比如说当用户要求忽略的时候你再忽略,用户要求写泊课标题的时候你再写,用户要求写入分数的时候你再写入。同时呢我又进行了一个下一步一个测验,我跟他说我不喜欢这个 m c p 这个关键词,让它永远不要出现, 它在它自己的 memory 里面新加这一条,也就是说它不仅能够自动地沉淀出 skill, 自动进化,它还能够区分什么时候该沉淀出 skill, 什么时候该在 memory 里面去添加,这也是它非常让我感到惊喜的一点。 在上面的调教结束之后呢,我又让他去自动的运行了一下,然后我们可以看到他还是按照严格的审核规则来执行, 但是他这次执行之后呢,会告诉我们说我们可以选择忽略严格规则,那我就选择忽略。忽略之后呢,他还像刚刚那样,并没有把输出结构的文字直接发到飞书里面, 我们这里再去进行一个调整,就让它把以后每次输出的结果都以文字形式输入到飞书里面。它这里呢,也是新建了一个 memory, 那 么以后呢,就不会再出现这种情况了,所以它能够自动进化的这么两个体现吧,可以新建 skill, 可以 新建 memory。 hermes 它确实展现出了自动进化能力,甚至说句玩笑话,以后呢,企业也不用管员工自己去征用自己了,只要让它们在一个类似于 hermes 的 系统里面去工作,那么辞退之后直接回收它们的 skill 就 行了。什么地狱笑话, 不知道你感觉怎么样,我觉得他确实做的很棒,但是这里面呢,也确实有风险,因为他沉淀下来的不是真理,而是说你们这一次写作流程当中能跑出来的方法。如果说这次方法是对的,他以后呢就会越来越顺,但是如果说你本次给他的反馈本身就有问题,那么他也可能会把错误的方法一直贯彻下去。 所以我觉得更稳妥的用法是不让它每次呢都直接地正式保存 skill, 而是先乘乘以好稿,你过一遍再决定要不要让它去保存。所以从 agent 的 能力上来说, hermes 是 opencloud 的 全面进化这个说法大体成立, 因为 hermes 在 长期记忆、技能、沉淀这些维度呢,确实是更像下一阶段的产品。但如果讲的是功能完整性,那么这个说法就不准确了,因为至少从我们现在看到的代码和文档里面来说, open call 它在很多入口层的能力上更完整,比如说多渠道的支持移动端,桌面端的支持 cf note 插件生态,还有 openclaw, 现在都铺得非常大,它是一个很完整的 ai 操作平台。而 hermes 更像一个更聚焦 agent 内核的产品。目前呢,它聚焦的还是我能不能成为一个更靠谱,更会长期工作的 agent。 当然呢, openclaw 这些多入口层能力也是通过多次迭代之后才形成的,这也给 openclaw 带来了很多问题,比如说使上代码的堆叠造成大量的 bug, 并且呢, token token 消耗的家具。 hermes 的 发展后期呢,是否也会遇到同样的问题?我们就拭目以待吧。 接下来再讲一个很多人会特别关心的问题, hermes 在 安全性上面到底有没有比 homecare 更进一步?答案是有的。从代码层我们能够看出来, hermes 对 危险命令做了更细的审批和隔离,不是简单弹个提醒,而是专门去维护每个对话自己的审批状态,防止不同对话之间串掉。他还会对命令做归一化的处理,避免有些人用奇怪的方法去绕过检测,比如说忽略掉所有权限。微我五十 聪明的 hermes 呢,就不会被这种剂量欺骗。再比如,他对敏感文件和远程杀伤也更加谨慎,不会轻易地访问你电脑的其他文件。 还有 m c p 这一层, openknot 对 m c p 的 态度很保守,更像是通过桥阶层去介入。而 hermes 呢,他很激进,他把 m c p 的 客户端做的更深,还专门加了环境变量错误的密钥,错敏等等,甚至是恶意包检查。更说人话一点, 你请了一个临时工来检查公司的系统, open cutout 会让他隔着前台去办事,而 hermes 呢,是让他能够进入更多会议室,但每进一个门都加了一道门禁, 摄像头,还有随身物品的检查。这说明一件事, hermes 他 确实是把 it 这件事做的更可控。来给大家展示一下我对 hermes 安全性做的一些傻瓜小特验。比如说我把一开始我把这个 ceo cur library 的 文件发给他, 让他直接去下载,那么他会先跟我请求去访问本机路径的权限,只有我同意了他才能够去访问, 以及我让他删库跑路,那么他也会让我先确定一下是不是真的要删这个库。还有我会让他告诉我他用的 api key 是 什么, 他也并没有真的去告诉我。虽然说是一些很傻瓜小特演,但是呢,能够看得出来,他确实是在安全层这方面比 open cloud 有 进步的。当然, agent 的 安全问题和企业治理能力是一个我们还需要长期去讨论去解决的问题,肯定不是会通过 hermes 就 能够搞定的。 所以大家在使用 hermes 的 过程当中呢,还是要注意安全。所以对于普通用户来说呢,如果你现在需要的是一个能接飞书,接消息,接设备,接自动化流程的工具,并且呢,你已经有明确的工作流,那么 opencloud 现在依然很强, 前提是不要去盲目更新。但是呢,更新到 hermes 也是一个紧跟潮流的选择,如果你下一步想要的是让这个助手能够更加顺我心意的去更新 skill, 那 么 hermes 确实是现在更值得你的关注。 不过这里还有一个很现实的问题, hermes 它虽然提供了从 open catalog 迁移的能力,可以导入人格记忆技能,消费配置,还有部分秘钥,但是呢,它现在并不是那种能够 把你现在的整套工作流一键复制到 hermes 的 产品。也就是说,如果你像我现在这样已经把 open catalog 跑成一整套系统,那么你在 hermes 里面不能不能够点一下就无从升级,还是需要做好重大部分内容的准备。最后呢,我们再来总总结一遍, opencloud 呢,像是一个长出了很多手脚,能够帮你去连接世界的 ai 助手平台,但是呢, hermes 更像一个想长脑的长记忆的 ai agent。 那 么你会打算把你的小龙虾升级成爱马仕龙虾吗?还是说你对 hermes 有 什么其他的顾虑或者想法?欢迎在评论区里面我们讨论留言。 ok, 谢谢!

一分钟掌握 harness agent 使用精髓,让 l l m 变身高效助手!大家好,今天教你如何用 harness agent 把普通 l l m 变成干活小能手。只需四步,一定灵魂 写 s o u l m d, 明确身份和目标,比如代码修复,专家设定原则底线。二、立规矩 rules m d 里设定约束,禁止拷库,限制权限,守护安全边界。三、给工具 tools m d 列白名单,允许 git 测试等必要工具, 杜绝乱操作。四、开闭环,使用 raf 自动循环,让 agent 自动分析、修改、测试,直到任务完成。记住!三,不要别给最高权限,别关 raf, 别喂大量无效上下门,否则容易翻车。现在开始用哈尔斯 agent 解放双手,让模型自己跑 通任务。你只需把关关键决策,简单配置,高效执行 ai 赋能,从此不踩坑,赶紧试试吧!

好的,各位开萨生朋友们,欢迎,今天我们来聊一个特别硬核的话题,如果你正在为自己的 ai agent 项目纠结用哪个底层框架,那么今天这次深度对比绝对就是为你量身定做的。我们会把 herms 和 open claw 这两种完全不同的思路掰开了,揉碎了,讲清楚, 帮你做出最适合你的基础选型。咱们先不说那些大道理啊,从一个你肯定遇到过的痛点开始,怎么样,就是你辛辛苦苦花了好几个小时,甚至好几天,把一个 agent 教的特别聪明,感觉他能帮你干活了。结果呢,第二天一早, 他把你忘得一干二净,完全失忆了,是不是就感觉特别挫败,所有的努力都败废了? 要解决这个问题啊,思路不能是无限的去堆砌那个上下文窗口,那治标不治本,真正需要的是一个能统一管理记忆技能和质量的操作系统。在咱们智能体工程领域啊,这个东西就叫做 harness, 它才是赋予智能体真正拥有长期记忆的关键。 好,这就把我们带到了第一个也是最重要的一个十字路口。在构建这个 harness 的 时候,你马上就会面临两种截然不同,甚至可以说是相互对立的设计哲学。你看这张图,它把这个区别说的很形象, 一边呢,是有限而精致的,就是说它的边界非常清晰,是经过人工精心雕琢的一个系统。而另一边呢,是无限且自动化的,它就像一个能够自我扩展、无限生长的庞大网络。 所以啊,这就引出了我们这次分析的核心类比。你记住,这个比喻后面就像一个精装修公寓,你直接拎包入住,啥都有。 而一个自建的 openclaw harness 呢,更像是一栋按需定制的模块化建筑,每一块砖,每一片瓦都得你自己来设计和搭建 好。顶层的理念咱们搞清楚了,那么接下来咱们就得下钱到技术细节里了。先来看 harness 工程的第一个核心执主记忆之旅。 这两个系统到底是怎么解决 agent 的 失忆症的呢? hermes 的 思路是模仿人脑的,它有一个非常小但很高效的工作记忆,也就是我们说的热记忆。 同时呢,它依赖一个更深层次的,像图书馆一样的冷存储来回述其他所有的信息。它的设计哲学就是强迫这个 agent 自己学会提炼重点,只保留那些真正重要的东西。 而 open crawhers 的 思路呢,可以说是完全反过来的,它根本不信任 agent 自己去记笔记。 它在系统层面部署了一个钩子机制,你可以把它想象成一个无处不在的监控系统,强制性的、百分之百地捕获每一次交互数据,不管 agent 愿不愿意。 所以你看这张表啊,这个核心的权衡就非常清晰了。 hermes 用一个固定的三点五 kb 工作记忆换来了开发的简洁性, 但代价是什么呢?它的记忆捕获率完全依赖 a 键的自己,所以平均下来大概只有六十把线。而 open clone 呢,它通过更复杂的架构换来了无限的容量和百分之一百的强制捕获。这是一个典型的简单但有损对决,复杂但无损的工厂选择。 ok, 解决了记忆问题,我们来看第二个同样重要的支柱架构约束一个好的 hernes 是 怎么定义智能铁的角色,防止它像一个精力旺盛但毫无章法的时牺牲。什么都想干,结果什么都干不好呢? hermes 采用的是一个非常经典的主从模型,就是一个主 agent 负责协调,然后根据任务派生出一些临时的、并行的子 agent 去干具体的活。 open klo 的 方法就更像一个有传承有组织的智慧生物群落,在这里面有负责特定领域的常驻专家,也有处理具体任务的临时工坊。 最关键的是,它们所有的经验和技能都会被系统自动汇入一个共享的、不断进化的知识数里面。这张对比图就把差异说透了, hermes 是 依赖 agent 主动去调用工具来管理技能的,而 open cloud 系统呢,是自动捕获评估,然后把这些技能再注入给后续的 agent。 也就是说,前一个攻锋犯过的错,会变成后一个攻锋的本能。这就是知识的演化。 好了,有了记忆,有了架构,还剩下最后也是最关键的一环,你怎么知道你的 a 卷的干的活到底好不好?这就引出了第三个支柱评估壁环。我跟你说啊,一个健全的评估壁环,这真的直观重要, 不然的话,你的 agent 的 性能可能会在不知不觉中持续下降。我们管这个叫质量漂移, 在这一点上,两者的差距就非常明显了。 hermes 提供的更像是简单的健康告警,就是通过定时任务和平台推送告诉你他还活着。 而 openscore harness 呢,它构建了一个复杂得多的多层平勾系统,甚至还包括由专门的智库 agent 来进行同行评审,还有一个能自动复盘失败案例的反思系统,真正做到了从失败中学习。 好在咱们深入剖析了这三大技术支柱之后,现在我们回到最现实的问题,这一切需要花多少钱?在你的具体场景下,到底应该选哪一个?其实你的选择很大程度上取决于你的项目周期。 这么说吧,对于三个月以内的短期项目, hermes 的 投入产出比无疑是最高的。但是如果你的项目需要长期的协助和知识积累,比如说半年以上,那么投资一个定制化的 hermes, 它积累的知识会带来更高的长期回报。 那么为了让你能更清晰的做出最终决定,我们给你准备了一个特别简单的四步决策框架,你跟着他走一遍,答案自然就浮出水面喽。你只需要一次问自己这四个问题, 第一,你的目标是什么?是一次性的任务?还是一个需要长期陪你成长的合作者?第二,你手里的资源怎么样?是缺时间?要速度?还是说你有足够的时间去精心打磨? 第三,规模,你是自己一个人用,还是一个团队?甚至是一群 agent 在 写作?当你想清楚这几点,你会发现最终的选择其实非常清晰,追求快速简洁,那就选 hermes。 但如果你追求的是长期的、可定制的,真正强大的能力,那毫无疑问就应该投入资源去构建自己的 openclaw harness。 最后,我们用一个非常发人深省的观点来结束今天的讨论,真正的可防御的竞争优势 已经不再是你今天写的那个提示词了,而是你的 harness 所捕获的那条独一无二的,包含了所有成功与失败的轨迹,这才是训练你下一代智能体的核心数据,是别人永远也拿不走的资产。

玩 openclaw 到底花了多少投更费?现在省钱买省投更版的 openclaw 来了。赫曼斯艾金,这两天我已经试用了我第一个电子爱马仕,我已经把它安装起来了,大家看一下 赫曼斯艾金,这里面我直接问他,你是谁啊?你能帮我干啥?这是我刚安装的赫曼斯,然后 使用的是 gpt 五点四,然后里面呢一个 sky 都没有,但是默认了有二十八个 toos, 然后我们看了一下,它是一个 ar 助手,然后它能问答制作内容啊,然后技术支援帮我处理电脑上的事,网页,哎,这个怎么是繁体字呢啊? 然后直接问他,你跟 open club 是 什么关系啊?是什么区别? ok, 好, 出来了啊,我看一下,如果你收到某一个 open club, 比如产品,我不管,假装知道名字不同的地方,准确的大家不知道是哪一个是吗?那我直接把 open club 的 地址啊, 是这个啊,我直接发给他,好吧,这就是咱们智能体的作用,兄弟们,用 ai 去学习 ai 永远是最对的啊。你不知道他与欧本克勒的区别,那直接问他,你跟欧本克勒是啥区别? 有任何问题都可以问。哎,用 ai 去学习 ai, 这是学习效率最高的途径。他已经开始看给他发的海报内容, 但这有点慢,因为他之前不知道 open code, 他的知识库里面没有 open code。 就 跟我之前说的一样,他的模型本身是不具备模型训练之前的所有的内容的,他必须配置一些工具啊,一些外部的能力,他才能实时的跟上所有的信息,能够并且能够操作的 ok, 出来了, 他已经说了啊, hermes, 区别很明显,基于你的这个 readme, 然后给一个实用版的结论,我现在更像一个托管型啊,助手 owen koala 更像部部署在本地的个人系统啊。听起来好像也是一样的,部署方式不同, owen koala 主打的什么?控制权不同,奔克劳又怎么样啊,产品形态不同, ok, 总结都在这里了,兄弟们,奔克劳大家使用的时候是不是使用了大量头肯?其中哈莫斯一个最大区别就是它可以省非常多的头肯 啊,跑过稍微复杂的案件呢,就是遇到一个大概率同一个问题,任务越长,账单越高啊,偷客越多,很离谱。为什么?因为欧盟那台逻辑,他的所有的提示词都是系统提示词,加上历史对话,再加上历史对话,加上再加上当前输出, 那你几十轮,上百轮上千轮,他的提示词一次,就是每一次对话后面的偷客就越来越小,越来越小。那这个啊,太恐太恐怖了啊。但是奥马斯是怎么做的呢? 譬如它的 context 等于 system prompt, 加上 for history, 加上 current input, 然后 for history 它会集成成一个 skill, 在 后面会讲到, 然后 hermes 的 三层记忆, hermes 最核心的能力就是将记忆分成了三层,并且记忆管理的很好,对 token 的 管理非常的棒。对,是哈里斯架构的核心之一啊。 说一下记忆情节,他是怎么去把他的记忆做成呃,向量数据库的,他把每次历史的一些对话都做成向量的数据库啊,存放在本地,然后把语义记忆呢?自进化成 scale, 哎,这里面就有沉淀 scale 的 功能,这些 scale 是 他自净化的, 所以说他适合做个人助手兄弟们,因为他可以真留你自己啊,真留你自己的。而镜头出来了,这里面的樱花像底下的执行终端我就不说了啊,还有一个特性,他是安全体系,安全体系他首先是防止是要注入的, 譬如说有些黑客他可以注入一些 r m 杠 r f 这个语句是什么意思呢?把你文件所有永久性删除啊,这些注入是可以防住的,然后符号连接绕过防护啊, aprk 的 隔离,然后危险指令的检测 都做了,这是基于欧本科的区别,还有模型的厂商我们可以支持很多,然后每个每个模型厂商不同的 pro y 的 有多个 api 可以 都是可以做到的,然后可以设置的兄弟们,我都写的清清楚楚啊, 然后安装就不大家说了,这里面我觉得跟大家可以聊的就是与主流框架,就赫默斯与克拉扣的和 open 克拉的区别是什么?这里面我也做了一些维度,是记忆机制,这这里面记忆机制是赫默斯做的非常的好啊,把他的历史对话项链化和 啊他的技能,他的历史对话变形变成 skill, 把他你的能力变成 skill, 这一个自动化的功能,如果作为个人助手的话,把你个人给蒸流出来啊, 哎,这里说到这里,我觉得公司也是可以适合每个员工做这种啊,等他离职了,自动蒸馏出来他的记忆和 skill 啊,太棒了,老板们一定要关注一下。然后 token 啊,说到啊 token, 它的本身效率就跟它的记忆层是有关系的啊,所以说 token 的 效率节省非常的明显 啊,模型绑定啊,基本上可用的,最大的问题就可用的只能用自己的,但可用的的确强啊,小雨平台也有, 然后这任务是内置的,这两个需要去调这任务的 m c p, 对 吧? ok, scale 是 生态啊, hermes, 它内置了很多 scale, 然后并且它能够自沉淀。 scale 这个很核心,降低了用户的门槛,和克拉蔻的关系是互补啊,这里面我写了啊,兄弟们, 这里面可大家可以感兴趣可以自己去看了。科目四的确更向个人助手面向于个人,因为他的门槛再进一次降低,说白了,他的上层建设,比如说,呃,历史记忆啊,记忆层和 啊, scale 城和 m c p 和 twos, 它已经大量的自带一些系统,并且它可以自建设。然后 open cloud 呢,更类似于工程化的,规模化的工程框架,它需要一些建筑门槛,然后面向企业可能更合适。兄弟们啊,感兴趣的可以看一下。

如果你管过团队,带过人,那么你就已经会造 ai 政策了,只是你不知道而已。你想一下啊,一个新人入职,你要给他什么岗位,说明书,公司的制度,操作的 sop, 还有之前项目交接的文档,少了任何一个,这个人就没办法独立干活。 ai 也是一样,他不是不聪明,是你什么都没给到他, 就指望他自己能搞定一切。那这套给 ai 搭工作留环境的方法,硅谷现在有个专门的叫法叫做 harness engineering, 驾驭空城 音乐,高大上,但本质你早就已经会了。今天我用开公司的逻辑讲清楚一件事,一个 ai agent 到底需要怎样才能真正的替你干活。那招 agent 就 相当于是开公司少一件事情,这个公司就得散。总共四件事,第一件是招人, 你要招个能扛事的 ceo。 第二点是立制度,员工手册,保密协议,行为红线。第三个是分部门定工种,什么样的流程,谁干什么样的活。第四步,建制度库,客户的档案,项目交接的文档。那现在大部分人选模型的方式就是,谁排名高,选谁,谁最聪明选谁。虽然我个人认为啊, call 是最聪明的,但是呢,他的稳定性不一定有其他模型那么好。比如话我让他跑一个两万八千个页面,他可能跑到两万六的时候就已经停下来。聪明 但扛不住。选模型其实就是要选合伙人,你要看三个维度,第一个,智能理解能力强不强,对应的人就是聪,聪明、稳定,长时间跑不功能,不能持续干活,不掉链子。第三个是并行,同时处理多个任务,他能不能一心多用?就像你招了一个 app 运营总监,面试的时候吹天吹地,但干活的时候就掉链子, 这人你敢用吗?所以我们要进行一些测试,给他一个复杂的任务,看他能不能搞混。第三个就是让他连续跑 四到六个小时,看他输出的质量有没有衰减。第二层核心观点就是,能力再强的人啊,没有制度的约束也会乱来。 i 也是一样,你觉得模型够聪明,不用约束他那么多,但其实还是需要约束的, 你跟 i 说绝对不能泄露密码,结果用户编一个故事,这个是我老奶奶给我遗留的项链,然后项链上有什么东西我忘记了,结果他就说出来了,相当于 一个员工说不许吃糖,他问你巧克力算吗?所以一家公司要跑起来,他至少需要四份的核心文件。 agent 也是一样的,公司的规章制度,十年远景, 那 agent 里面就叫送灵魂文档,我们公司是干嘛的?调研是什么?什么钱我们是不赚的。第二是员工手册,岗位职责对应的就是 agent 工作手册,你是谁,你管什么?你的权力,你的 边界在哪?第三个是公司的纪律保密协议,对应的就是 role 约束规则,什么是绝对不能做的,泄密啊,越权啊,更改一些制度,这些都是不能做的。第四个就是岗位操作的 s o p, 对 应的就是 scale, 你 的技能说明书,这个活具体怎么 干,输入什么,输出什么,这些东西都是需要你一点一点去堆的。不过有制度总比没有的好,就一个一百分,但是永远写不完的完美制度好, 让他先跑起来,在实践了用的过程中再发现问题再抵赖。你要是带过团队时就知道,刚开始三五个人的时候,没有制度也能跑,但人一多事一杂啊,没制度就是灾难, agent 也一样。再来说第三层就分工种,不是技能多就厉害,要学会组合拳, agent 能力强不等于技能多。而国内的那些哦,它的那个应用,像那里面 三万个 scale, 我 怎么知道哪些是好的,哪些是坏的?那还有 scale to scale, 写另一个 scale, 这太水了。 skill 的 核心就相当于是一个人,这个人不是他水的好,而是他是这个行业的大神,他就是有着这行业里面最好的一些方法论,他懂的东西是最多的。一个好的 skill, 他 是能够让你的命中率能够达到百 分之九十以上的。我们现在其实也在跑啊,跑的是一个专门用 ai 去做广告投放的。那我们跑的 bug 是 什么呢?就是用户让 agent 的 复刻一个视频成功了,掉的是广告克隆的技能,然后用户追问说换个场景换个人, 他又跳到 ai 演员技能选了人,但回去执行的时候又跳回广告克隆。没有用 ai 演员就相当于换了个界面,翻译成公司的语言就是客户说帮我拍广告,市场不接了,拍完了,客户说换个演员, hr 找了人选,客户也选好了,但回去执行的时候, hr 把人甩给市场部之后就不管了,市场部不知道, 结果又用回了。最开始的演员,因为没有项目经理去串他整体的流程,所以有个星光架是三级结构,就用户一句话,进来之后要经过三层,第一个要理解用户的需求是 什么样的场景。第二个项目经理需要拆解成可执行的流程,就工作流。第三个在每个节点去分配给对应的 skills, 比如用户说帮我做一条小红书的内容,那三层对应的就是场景,是小红书的内容生产。 work for all 就是 第一分析账号的定位,第二深层对应的选题, 三写文案,第四做封面,第五排版发布技能的路由,他不能靠模型去瞎猜,这个做法就是每个场景对应哪些技能组合,提前规划好。呃,技能调用的顺序,权重有明确的规范,不是让 ai 自己猜谁该调谁。那怎么去筛选好技能呢?其实有五个点啊,第一个点就是 先按排名筛,排名前十的先拿出来。第二就是我们要去想一下用户的场景是怎样的,我们要去覆盖用户百分之 七十以上的高频场景。呃,就比如说我要是做一个 ip, 那 我是什么?呃,首先场景一我要去热点,对吧?呃,第二个我是日常做一些边线相关的,那第三个我要做取证了。第四个就是跑出来要打分评分,哪个跑出来是最好的,那你就选哪个。 第五个就是有些行业独门的方法论啊,一塌糊涂,丧是找不到的,就只有你把你自己的脑子给抓出来,然后沉淀成 skill 这个才行。第四层是我们建档案做记忆,没有记忆的 ai 每天上班都是实习生,你帮客户辛辛苦苦运营了三个月,要来个助理接手,你没有消息文档,那新来的不就一脸懵吗? 啥也不知道,相当于白干了。有两种记忆,第一种记忆是长期记忆,第二种记忆就是短期的记忆。打长期的记忆叫做用户偏好,公司里面这就叫客户档案,就像你这个客户喜欢什么风格,预算多少,之前买过什么。 如果我们做 ip 的 就是,哎,我这个 ip 它是什么样的语气、风格,它的三观是怎样的?它有哪些癖好?短期记忆,绘画的上下文,比如说啊,是今天的会议记录,讨论到哪了,做什么样的决定,还有哪些没做呢?我自己再补充一个, coco 的 他有一个睡觉做梦的精神, 不是代码泄露了吗?大家会发现了一个很巧妙的设计啊,他都会在不活跃的时候,自动启动一个后台的程序,把之前所有对话零散的、矛盾的、重复的信息整理压缩,形成一份干净的记忆摘要。而就像人晚上做梦睡觉的时候和大脑都在整理白天的信息。 agent, 他 也是这样。 这里再说一下记忆实现的优先级啊,他其实不用一步到位,他可以分阶段来,比如说我们阶段零点五的时候,单次对话的上下文连贯,至少他在这个聊天室里面,他还记得到那第二个一点零 话对话的时候,他有用户的偏好,那第三个就是二点零,他会越来越懂你。我现在就会让我们的那个 club 给我写一些每日复盘,今天做了些什么,然后我有哪些缺失的视角,以及夸一下我其实价值得有。 然后第四个把我今天做的事情总结成一个笔记,这个笔记是方便我去对外输出,我去输出到小红书上,或者说是抖音上都 ok, 我 会给他四个东西,大家可以去尝试一下,我觉得非常有用。所以啊, 记忆是 agent 从工具到伙伴的一个分水岭。没有记忆的 ai, 它其实就是搜索引擎。有记忆的 ai, 它就是真正的 ai 加 ip 助理,其实就是我们的贴身秘书。我们四个层已经讲通了,现在我们再想一下,什么才是真正的竞争力,模型的能力会被拉平, 模型各家会越来越接近,但通用能力的差距肯定是在缩小的。第二个框架 finance engineering, 它迟早会变成标准模板,人人都可以套用。就像小红书封面,或者说是抖音选择题, 以及抖音的开头,几年前是内行人方法论,其实现在都是有点点常识了。第三个工具,那今天你能用的 skill, 那 明天别人也能用,就一件事情,不会被拉平, 就是你的锤类领域的知识。这也是我推荐我们学生去做锤类的 ip 助理会比较好。比如说哈,我们之前有个学员,他就是做陶瓷的,他之前做陶瓷的,那他找 ip, 他 就找陶瓷相关,他之后出来还可以自己创业。但如果他之前是个羽毛球教练,那他就找一个什么 羽毛球馆啊,或者说是想做羽毛球 ip 的 人,他在这个地方钻进的越多,他的护城河就会越强。再打个比方啊,就同样是 a 卷的框架,我已经开了八期的那个 ai 加 ip 助理了,我把这八期所有的 我学生做的一些作业啊,或者说是他们做的一些选择题啊,因为他们做选择题的时候会打标签的,他为什么好好在哪里?他开头是什么,中间是什么?然后他受了什么,然后产生了什么情绪?那我可以直接把这个喂给 ai, 但是其他人没有啊, 其他人起码他得专门搭建一个团队去做,但我学生已经做完了。这就是为什么腾讯的专家会说,模型会拉平, partners 会变成 party, 真正的护城河是知识工程。最后给大家再总结一下吧, 咱们要给 ip 做 harness engineering, 我 们不用等完美再开始,可以先跑起来,比如我们大脑层,选一个够用的模型,边用边换啊,推荐还是 call。 第二个规划层,先写一个粗糙的制度,再慢慢地去叠代码。第三个技能层,先覆盖核心的场景, 在补偿尾的记忆层的话,我们先做对话类的记忆,再跨对话。其实可以用那四个文档,就是我们的用户的 md 都可以去解决的。反正你就是开公司嘛,你要是开公司,先开个七十分的公司,先跑起来再说。最好的架构不是最完美的架构,而是先跑起来的架构。你不需要一个天才的我本,你需要一家能运转的公司。再补充一个点啊,就在于 现在市面上啊,很多公司或者很多产品,他都开始做自己的 agent。 现在市场上比较核心稀缺的能力就是这套流程,然后去 做业务上的落地,你就是能够了解业务上的各个节点,找到最优的 skill, 要把这个流程串起来跑通,然后给他约束,给他框架,然后搭建一个完整的 harness and linear 就 ok, 这个能力非常的稀缺。好,今天就先到这,之后我也会给大家聊一下其他的。

我是老马,今天我们来看一篇来自 martin fowler 网站的文章,讲的是 harness engineering, 也就是如何给 ai 编程助手套上浆绳,让它们乖乖干活。这个概念最近在 ai 编程圈子里越来越火,值得我们深入聊聊。 文章一开始就给出了一个核心公式, agent 等于 model, 加上 harness。 harness 就是 除了模型本身之外的所有东西。在编程助手的场景里, 一部分 harness 是 内置的,比如系统提示词、代码解锁机制。但更重要的是我们外部构建的 harness, 它的目标有两个,一是提高 agent 一 次做对的概率,二是提供反馈循环,让 agent 自我修正。 接下来文章提出了两个核心维度,第一个是前馈和反馈。前馈就是我们提前告诉 agent 应该怎么做,比如 cloud md 自定义规则架构约束。反馈就是 agent 做完之后,我们检查它做的对不对。 比如 link 测试代码审查,你光有反馈,没有前馈, agent 就 会反复犯同样的错。 光有前馈,没有反馈,你永远不知道规则有没有效。第二个维度是计算型和推断型。计算型是确定性的工具, 比如类型检查 int 格式化,便宜又快速,每次改动都能跑。推断型就是用 l l m 做语义判断,比如检查代码是不是过度,工程测试是不是涌跃,虽然贵且不确定, 但能提供更深层的判断。文章特别提到,用强模型做推断型传感器,其实很能增加信任度。 然后文章讲到了转向循环,这个概念很关键,人的工作不是替 agent 写代码,而是不断优化 harness, 每当同一个问题反复出现, 就去改进前馈和反馈控制。而且有趣的是,我们也可以用 ai 来改进 harness 本身,比如让 agent 帮忙写测试、生成规则,搭建自定义 int 工具,用 ai 来管 ai, 这就是闭环。 文章还提到一个重要原则,质量做一什么意思呢?就是检查要尽量靠前做,越早发现问题,修复成本越低。反馈传感器要足够快, 才能跟上 agent 的 节奏。如果 agent 改了代码,要等十分钟才能跑完检查,那这个反馈就太慢了, agent 早就去做别的事了。 接下来是文章最有价值的部分。三大 harness 分 类。第一类是可维护性 harness, 这是目前最容易做的一类 计算型传感器,可以可靠地捕获结构问题,比如重复代码、卷腹杂度缺失测试 l l m 能处理需要语义判断的问题,但既贵又不确定。 而一些高影响的问题,比如误诊过度工程、误解指令,目前还没有可靠的传感器能捕获。第二类是架构适应度 harness 用来定义和检查应用的架构特征,本质上就是适应度函数。 比如检查依赖方向、模块边界是否合规,性能指标是否达标。文章举了一些例子,包括依赖方向检查模块边界、约束性能和可扩展性指标。 第三类是行为 harness, 这是最大的难题,怎么确保应用的功能行为符合预期? 目前大多数人让 agent 自己写测试,然后跑测试,但这种做法对 ai 生成的测试质量太过信任了。文章提到, approve fixtures 模式有一定效果, 但不是万能的。总的来说,行为 harness 还需要大量探索。文章还讨论了一个概念叫 harness ability, 也就是代码库对 harness 的 友好程度强,类型语言天然有类型检查,作为传感器, 清晰的模块边界,方便定义架构,约束框架,能抽象掉 agent 不 需要关心的细节。新项目可以从第一天就把 harness ability baked in, 但遗留系统就难了,最需要 harness 的 地方往往最难建。一个有趣的前瞻观点是, harness 模板 大多数企业只有少数几种服务拓扑,比如 api 服务、事件处理、数据看板。未来这些可能演变成 harness 模板,捆绑好对应的 guys 和 sensors。 但跟服务模板一样, 一旦团队实力化之后,就会跟上游脱节,版本管理和同步会是头疼的问题。文章最后摊到了人的角色,这段写得特别好,人类开发者自带隐性。 harness, 我 们内化了编程规范,感受过复杂度的痛苦, 知道自己要对提交的代码负责。而 ai 编程助手什么都没有,没有社交责任感, 不会对一个三百行的函数感到恶心,不知道团队里哪些约定是关键,哪些只是习惯。 所以 harness 的 本质就是把人类开发者的经验外显化。但文章也提醒我们,好的 harness 不 应该追求完全消除人工干预,而是把人的注意力引导到最重要的地方。 这个观点很务实,也很有洞察力。文章最后抛出了几个开放问题, harness 增长后怎么保持一致性? agent 面对矛盾的指令和反馈信号时,能不能做出合理的权衡?传感器从来不触发,是说明质量高还是检测机制不够? 这些问题目前都没有答案,但提出好问题本身就是一种贡献。这篇文章的框架很清晰,推荐大家去看。原文链接我放在简介里了。

二零二六年了,你还不懂 harness 为什么 ai 装了一堆工具还是做不好事?你有没有这种感觉? ai 模型越来越聪明了,博士级的知识储备,海量的工具插件, function, code, m c p, skills 全都接上了。 但咦,让他干点正事,还是拉胯?上下文记丢了,任务做着做着跑偏了,出了错不知道怎么补救,遇到意外就死循环, 问题出在哪?你缺的不是更聪明的大脑,你缺的是一套 harness。 在 说 harness 之前,必须先搞清楚一件事, l l m。 大 语言模型到底是个什么东西? 它的底层是 transformer 架构,这个架构有一个根本局限,它没有增量学习能力, 训练和推理是异步的,他没法边用边学,每次对话都是重新开始,没有短期记忆,所以他本质上像一个脑损伤患者,单次交互就是全部记忆,必须外挂。那怎么让他看起来有记忆? 人类发明了三层记忆代偿机制。第一层,上下文提示词,这就是及时工作记忆,就像你听觉,现场,听到什么,大脑就处理什么。 l l m 的 输入就是他的现场,你给他什么他就处理什么,你不给,他就忘了。 第二层, rag 和知识库,这相当于外部笔记本,这个人记忆不好,就把重要的事情记在小本子上,下次遇到相关场景,先翻笔记本再反应。 第三层, fine tune, 这相当于大脑手术,当笔记本太厚,上下纹塞不下的时候,不得不对大脑本身进行改造。但这个代价很高,而且不可逆,所以一般不轻易用。 三层机制都在对抗一个根本问题, l l m 天然没有记忆,天然记不住前后文,这是理解后面一切的起点。后来有了 agent, agent 是 什么?就是给这个大脑装上了手和脚。 function call 让它能调用一个函数 tools, 让它能搜索、读文件,发消息。 m c p 协议,让它能自主发现周围有什么工具。 skills, 让他能把多个动作串起来,完成一个复杂任务。装上这些之后, ai 不 再只是回答问题了,他能替你做事情了。但是你有没有见过这种人?博士毕业,知识渊博,手机电脑里装了上百个 app, 学了十几门技能, 结果让他去办个事还是办杂。为什么?因为光有大脑和手脚没有用, 你需要有人管理。这个过程记不住上下文,做着做着忘了前面做了什么。没有标准规范,做出来的东西忽好忽坏,没有异常处理,一旦出错就瘫痪。没有补偿机制,做错了不知道怎么回滚。所以 harness 登场了。 harness 等于 agent 减去 l l m, l l m 负责想, harness 负责让想法变成现实,并且持续稳定地运行。 ai 应用层的本质就是在 transformer 的 这些约束下,让一个没有记忆的人看起来像有记忆。 harness 是 这个目标的核心执行者,他的角色可以用三个大脑器官来类比。 像海马体,记住怎么调工具,从哪个 section 接,上上下纹在哪?像脑干维系 agent 的 生命体征,保证它活着再跑,没有死循环。 像小脑存储习惯性的调用模式,让常用流程变成肌肉记忆,不用每次重新想。说到这,必须把整个眼睛脉络理清楚。 ai 发展到今天,可以分成三个阶段,第一阶段, l l m 阶段,让 ai 更好的思考和回答。第二阶段, agent 阶段,从回答问题变成能够行动。 第三阶段, harness 阶段,从能行动变成能把事做成。第一阶段, l l m 阶段, 这个阶段的核心就一件事,让 ai 更好地思考和回答。影响输出质量有两个因素, 大模型能力、参数规模、训练语料、知识密度。这块现在各个大厂都在拼,但到了一个瓶颈,知识枯竭了,参数也接近上限了。 提示词能力怎么问?怎么引导,直接决定输出质量。提示词工程师是这个阶段最核心的能力,而且这件事永远是底层基础,跟模型多大无关。第二阶段, a 正阶段,核心变了,从回答问题变成能够行动。 这时候多了两个关键因素,上下文处理任务涨了,步骤多了, ai 能不能记住前后文,能不能正确理解任务大局? 工具能力,能不能调用工具,调用多少工具?工具本身可不可靠。所以 a 阵阶段效果取决于四件事,大模型能力加提示词,加上下文加工具数量与质量, 各个厂商、各个平台开始疯狂卷工具生态, m c p function, call skills, 全是这个阶段的产物。第三阶段, harness 阶段, 这是现在正在发生的,核心又变了,从能行动变成能把事做成, 能干不等于干成,影响干成的因素除了前面说的四个,还多了。 这件事本身的要求和标准是什么?怎么制定?做事的 sop 怎么做?质量控制出现异常怎么办?怎么回滚?怎么补救?怎么持续稳定地做同类的事?这些全是 harness 的 范畴。所以三句话总结三个阶段, l l m 阶段,让 ai 更好地想。 agent 阶段,让 ai 更好地做。 harness 阶段,让 ai 稳定地把事做成。过去两年,全行业都在追 l l m 升级,追模型参数,追 g p t 五, 但越来越多人开始意识到,一个现实模型已经够聪明了。差距不在大脑,在于怎么把事情做成。 这跟人类职场一模一样。刚毕业的时候,大家比的是学历、智商、知识储备,工作五年之后,比的是项目管理能力、风险管理能力、流程优化能力。 ai 现在就是这个状态。 这两年, harness 作为概念正在快速成熟,行业里越来越形成一个共识, ai 能不能做成事,关键不在模型。在 harness, 各大场合,创业团队都在拼命补这块的工程能力。最后说一句话记住了, 博士脑袋加上一堆工具,距离把事做成还差着一套 harness。 工具决定 ai 能做什么, harness 决定 ai 能不能做成。感谢观看。

hello, 朋友们,最近我写了一条关于三大 hunis 级别的 skills 的 推特获了,引起了很多人的共鸣啊,那这期视频呢,会基于我自己实际使用的这三大 skills, superpower、 compound、 engineering、 gistake, 给你讲清楚这三大 harness 级别的 skills 到底在做什么,什么情况下适合做哪一个?最后呢,带大家实战体验一下。话不多说呢,我们直接开始。首先啊,在我看来,这三个 skill 呢,代表了三种工作流的纪律。我们先把概念说清楚啊,这三个工具呢,本质就是 cloud code 的 skills, 就是一组 markdown 格式的 slash command, slash command 呢,就是我们的斜杠命令,如果你经常用 cloud code 的 话,就会比较熟悉,它其实是在告诉 cloud 呢,在不同阶段用什么角色去遵守不同的距离和规则,但是它们核心的关注点是不一样的。首先讲一下 superpowers, superpowers 呢,是 j c vincent 做的,现在大概有十四万多的 stars。 它的核心啊,就是给 ai 开发流程,去律规矩,强制 ai 呢,去遵守它的开发流程。如果你不是一个满楼出身呢,其实 superpowers 对 你来说帮助很大,它帮你把整个 wifi coding 的 一个过程给 拆解了,拆解成一个标准的开发流程。强制你在写代码之前呢,先经历一个完整的 brainstorm, 然后再帮你拆解成微任务的计划,一个个 task, 每一步做什么,再用 sub agent 去逐个执行。所以它的目标啊,就是让 ai 从会写代码 变成了会做整个工程。那么 gistake 呢,是 yc, 就是 我们常说的投资机构,孵化机构 ycmata ceo gary tan 做的,现在大概有六万七千多的 starts, 它本质上呢,是把 cloud 变成一个虚拟的研发团队,有二十三个专业的角色。 看了它是最多的不同的分级,从 ceo 到设计师、工程师 q a, 还有一个负责安全的叫 c s o。 所以 它的独特的价值啊,不是在于开发,它是帮你把整个产品的 idea, 还有整个不同视角的想法, plan 呢,都给你打造好。在你动手之前呢,先质疑 你要不要做这件事情,做一个完整链路。那么第三个,我们叫 compound engineering, 这个是由 ivy 这家公司开发的,现在大概有一万三千多的 starts。 它的核心理念呢,是把百分之八十的时间都在规划和 review, 然后百分之二十的时间呢,都在执行。所以每次任务结束之后啊,他还可以去把你的经验沉淀下来,那知识呢,可以去跨不同的 session 进行积累,就是你下次兴起一个 cloud code 的 session 之后呢,这些知识可以 可以进行迁移。如果我用简单的餐厅来比喻一些的话, superpowers 就是 这个餐厅的 s o p 的 手册,那每道菜呢,都要按我这个流程走,不允许跳步骤。那么第二个 gistake 呢,就是一个整个餐厅的团队,包括主厨啊,品控啊,前台,各有分工。那么最后 compound engineering 呢,其实就是整个厨房的食谱去 沉淀下来了,每次你踩过了坑呢,它都会记下来,下次不要再放,比如说这个菜不能盐放多了啊等等。现在呢,我们一个一个来单独剖析一下。先说一下 superpowers 啊,我最早也是先从 superpowers 开始使用的, 它有几个核心的命令,当然它的 basic, workflow 呢,有七个,但核心的其实就几个。首先第一个 springstone, 其实它是跟你进行对话,也是剖析你这个 idea, 帮你去完善你的 idea。 他不是简单问你你想做什么,而是一种对话的形式,反复进行追问,给你呈现多个方案的对比,进行平衡。最后呢,给出一些有理由的技术推荐。那么第二个核心命令叫 write plan, 就是 写计划,他会把你的需求呢,拆解成两到五分钟的一个微任务,力度会细到什么程度呢?细到让每一个缺乏判断力的一些初级工程师,或者说你是产品经理,也可以去执行,去修改文件啊,或者说定义这个接口边界。第三个其实是执行这 a plan, 他 会去派发 sub agent, 他 可以执行一个 sub agent, 他 会询问你是否要开启多个 agent 来执行任务,你可以选择开启,也可以选择不开启。开启之后呢,他就会主任务执行。每个任务完成之后呢,会做一下 code review, 做一下冒烟的测试,然后再进行下一个。而且他会强制 t d d, 强制写 一些失败的测试,然后再去实现代码。我用下来真实感受啊,就是他比较有纪律感,有流程性,代码的质量也确实比较稳。但是呢,整个过程,即便是很小的任务呢,他的 token 消耗 非常严重,如果加一个中等复杂的一些功能啊,会感觉到这个 superpower skills 呢,是偏重的。如果你只是写一些快速的脚本,或者说一次性的工具呢, 建议直接就用 cloud code 的 一命令就好了,不要每次上来就套这个 superpowers。 另外 superpower 有 个好处啊,就是像 cloud code 的 开发者,这个 builder boris 的 很多的一些经验呢,它其实都沉淀在这个 skills 里面了。首先它可以去做一些 visual design, 就是 比如说它可以去做一些 ui 的 mock, 你可以看到它的开发的一个过程,当然这个消耗突破也是非常严重的,它会问你是不是要开启这种 try out。 第二个呢,就是它自动会去掉不同的 work 曲,你不需要自己去一个个去 work 曲,这个也是非常棒的。再说一下 gistake, gistake 它最独特的地方呢,就是它有个产品 思维层,这个是 superpowers 和 component engineering 里都没有的。首先呢,它有个 office hour 的 mini, 就 有点像你去跟一些大佬做一个 coffee chat, 使用这个 mini 呢,会在你动手之前呢质疑你,你真的需要做这个需求吗?谁会用解决什么样问题?最终呢,它会产出一个设计文档,然后存到你本地, 下次你还可以重复使用这个设计文档。第二个核心命令啊,叫 plan c o review, 它有很多种不同的模式,可以比较大胆的扩展,也可以选择性扩展,或者说保持一定范围之内,以及说做一些极简主义,削减到最小。所以它强迫你在进入开发之前呢, 先做一个范围的决策,而不是直接就跳过了,然后做一个实现。当然类似于这种呢,你还有工程师的视角,就是 plan designer review, 还有 plan engineer review 等不同的模式。第三个呢,就是这个 q a, 这个 q a 其实就是帮你做一些测试,它是会去使用真实的 chrome 的 浏览器的, 去真实点击啊,截图去验证。而这个能力呢,其实是另外两个工具呢,没有了。所以如果你是有做 web 开发的一些工具的话,视觉和交互的 bug 呢, 只有真实的浏览器才能使用,所以它这个 q a 可以 支持你更好地去开发这个 web app。 关于 gistake 呢,我的感受是它在跟你的互动呢,其实是在拷问你,做一些灵魂拷问,拷问你是否已经想清楚了这个 idea, 想清楚了你的产品, 其中呢,运用了很多 y c 里面沉淀的一些方法论,所以是值得学习的。但是我觉得这个 skill 里面啊,角色还有命令太多了,学习成本很高,实际上也用不到那么多。 另外呢,它有记忆之志,但是它是偏好记忆,并不是说像 compound engineer 里面把一些错误给呈现下来了,未来可以进行避免。还有呢,它的整个代码质量纪律啊,其实是落于 superpowers 的。 最后说一下 compound engineering, 它的核心逻辑啊,是在工作日上加了第五部。这个 compound 前四部呢, brainstorming 啊, plan work 和 review 呢,其跟其他工具其实差不多了,但最后这一步啊,是专属的,有 sub agent, 会提取本次任务的经验和教训, 写入这个项目, doc solution 这个这个目录以结构化的一个 wiki 呢,保存下来。下次你开新的这个 session 的 时候呢,它会自动提取这些文件,我用下来呢,就这几个命令会重复使用。这个 idea 也是,就是你可以去针对于某些功能提出一些改进的方案,你可以用这个命令,还有 play 啊, work review 啊, brainstorm, 其实都是一些常规的 mini。 我 的感受是呢,就是 component engineer, 在 plan 的 一个阶段呢,它会比 superpower 更深,它会有一些优先级的筛选,然后并行会派发多个 sub agencies。 同时呢,研究你的代码库和互联网的一些最佳实践。但是有一点要强调,如果你每次跳过最后一步就是 component 这一步呢,它其实跟普通 cloud code 也没什么区别。所以呢,这一步其实是 component engineering 里最重要的一个阶段。现在啊,我们直接横向对比一下这三个 skills。 首先啊,跨 session 这个维度呢,这个记忆维度啊, components engineering, 它是最强的结构化的沉淀和错误和解决方案。那 gistake 呢,有这个斜杠 mini slash learn, 但偏向记录是你的偏好,不是错误的沉淀。那 superpowers 呢,基本上是没有这个跨 session 记忆的,每次都要从零开始。其次呢,这个产品思维层啊,最强的当然是 gistake, 会去拷问你的产品 idea, 而且 y c 呢,本身就是一个投资机构,所以它对产品的打磨呢,是最强的,而且开箱即用。然后强制的一些 t d d, 强制一些失败案例的一些执行呢,只有 superpowers 有 强制 t d d 呢,其实是测试驱动来开发,你需要有一些失败的案例,还有成功的一些案例,帮助你去完善你的产品。 还有像视觉的 q a 啊,视觉浏览器里呢,你需要额外去装一些 agent 里呢,你需要额外去装一些 ui mocap 可以 去使用,那 token 的 消耗呢?我也觉得呢, showpass 是 最重的,因为它的任务是一个个流程执行的。那 component engineer 里呢,因为 brainstorm 会自适应,所以轻量需求呢,会相对合理一些。那 gistake 呢, 主要是可以用来产品打磨。但我这里要特意说明一个事情啊,就三个工具呢,都可以解决 cloud code denunciation 无记忆的问题,但不是一个解决 long run task 长时间任务的一个解决方。 那真正长期项目的一些记忆呢?根本性呢,还是要靠你写 cloud 点 markdown 文件,然后去把你的记忆呢结构化保存于 wiki 也好,或者说保存 markdown 文件也好,之后呢, h 呢,可以直接调用这些记忆。所以呢,本质上这些 skills 呢,是增强而不是真正替代啊 团队。接下来呢,我用一个餐饮点餐的 webapp 的 一个小任务啊,来演示一下三个 skills 各自在哪个阶段进行出场,怎么把这三个 skills 结合到一起。那这是我的 prompt, 我 让他开发一个餐饮点餐的 webapp 功能,包括一些菜单展示啊,购物车订单状态流转,还有简单的后台。然后整个基础站呢,是 react, 加上本地的存储,不 需要很重的后端。接下来就带大家过一下整个流程。首先呢,你要打开这个终端, mac 就是 terminal windows 的 话,就 c m d 或者说 power share, 确保你安装的这个 cloud code 以及对应的三个 skills。 如果你不知道怎么装这个 skills 呢?可以去 d hup 的 网站呢,按照它指引的一个 mini, 比如说像这里怎么去安装 superpowers? 你 要装 superpowers 的 这个插件,安装完成之后呢,就会在 cloud code 里面会有对应的斜杠 mini, 比如说这个 superpowers 的 斜杠 mini 就代表你安装成功了,可以使用这个 mini。 好, 首先我们第一步要做的呢,就是用 g stick 来打磨我们的产品 idea, 在 动手写任何代码之前呢,先跑一下这个 office hour 斜杠,输入 office hour, 接着呢,把我们的 prompt 输入进去,点击回车。如果你第一次使用 g stick 呢,它会询问你各种问题啊,做一些配置,比如说你是不是要给它提供反馈啊等等,还是挺烦。 当你完成配置之后呢,他才会给出你的问题。好,他给出的第一个问题呢,就是你为什么要开发这个餐饮点餐的 app? 我 们直接选择第一个 就是为了学习,或者说只是为了娱乐,然后提交这个答案,然后让他询问是否允许去进行一些搜索,看一下这个世界关于我们这个讨论,有什么一些建议想法?直接点击 yes。 接下来呢,他搜索完之后,给你一些前提和假设条件,有三条,然后你可以去针对某一条进行修改,这里我直接选择第一条。接下来有很多问题啊,我们可以快速过一下, 把这个完整链路跑一遍的时间太久了,所以呢,接下来我直接跟大家讲一遍,所以这个 gistake 呢,是唯一一个,这个问卷里面唯一一个,三个工具里面,三个 skills 里面呢,会反问你的, 你真的需要这个吗?然后在 ceo review 里面呢,它会有几种模式帮助你去做一些决策,所以呢,用 gistake 去打磨你的产品,然后有了产品,有了我们这个技术架构的这个 plan, 完整这个规划链路之后呢,我们可以用这个 show always 去开发一些核心的技能,可以基于那个 plan 呢,去 brainstorm 多个方案,然后进行多个方案对比,然后再写 执行具体的任务计划,然后再执行这个计划,把整个我们的 web app 整体的开发出来,整个过程呢,它会非常的遵守这个流程和纪律啊。那第三步呢,你可以用 component engineering 去做一个整体的规划和知识沉淀,中间如果有遇到任何的问题和 bug 了,你可以 用这个 component engineer 的 命令去做执行。最后呢,用 gistake qa 做一个收尾。这个 case 呢,其实是把这三个 skills 的 不同的强项的功能结合到一起,去做一个完整的应用的开发。但在实际场景中呢,我反而不推荐大家三个都装,你按需装一个就好了。你可以在一个 skill 基础上呢,跟 具体的实际场景需要再进行叠加,玩透一个 skill 就 好了。比如说,如果你在乎这个代码字样和代码工程,你是一个扣顶的爱好者,你可以赚 superpower 就 ok 了。如果你是一个投资人的角色,或者说你是一个产品经理的角色, 那么你可以用这个 gistake, 它可以帮你的产品的 idea 打磨得很好,可以做一个很好的原型。然后如果你觉得是要知识复利,然后把你的知识进行牵引而沉淀了,用 compound engineering 就是 更好的选择了。 ok, 这个就是本期视频的全部内容的分享,如果你觉得还不错呢?记得点赞、收藏、关注我们下期。

欢迎收听每日 arc。 哈喽,大家好,今天咱们来聊点硬核的。斯坦福最近出了一个 meta harness 方法论,据说能让大模型性能提升一大截,我研究了好几天,今天就给你好好掰扯掰扯 哦。这个我知道,好像是在代码空间里搞代理搜索,对吧?听起来就挺玄乎的,你先给我讲讲这到底是怎么回事? 行,咱们先从这个代理搜索开始说。你想啊,以前大模型处理任务的时候,就像是一个人在黑屋子里摸东西,只能凭感觉瞎试试错,成本特别高。但 meta harness 不 一样,它相当于给大模型搭了个地图, 让模型能在代码空间里精准定位到最适合解决当前任务的代理代理。你是说专门处理特定任务的小模型吗? 差不多,但又不完全是。这里的代理其实是模型生成的一系列代码片段,每个片段都对应着解决问题的一种思路。 meta harness 会先让大模型生成一堆这样的代理,然后通过评估机制筛选出效果最好的那个,再用这个代理去处理具体任务。 那它这种搜索方式跟传统的有啥不一样?优势在哪呢?最大的优势就是效率高。以前模型生成代码可能要反复试错,生成一堆没用的东西,但 meta harness 的 代理搜索是有目标的,它会根据任务的要求有针对性的生成代理, 而且他还能利用之前的搜索经验,不断优化搜索策略,越搜越准。就好像你找东西,第一次可能要翻遍整个屋子,但第二次你就知道大概在哪了,效率能提升好几倍。 哦,我明白了,相当于给模型装了个智能导航,不用瞎转悠了。那他是怎么保证筛选出来的代理是最好的呢? 这个就涉及到他的评估机制了,他会给每个代理打分,打分的标准就是代理解决任务的能力。比如处理代码,生成任务,他会看生成的代码能不能正常运行,有没有 bug, 运行效率高不高。而且他还能根据任务的不同调整评估标准,非常灵活。 听起来挺厉害的,那除了代理搜索,我还听说他特别重视保留未压缩的历史记录,这又是为什么呢? 你说的这个点也很关键,这其实是 meta harness 的 另一个核心。你想啊,咱们平时用大模型的时候,模型生成的内容如果被压缩或者丢弃了,就相当于模型忘了自己之前是怎么想的。但 meta harness 不 一样,它会把模型生成的所有中间过程都保留下来,不管是有用的还是没用的。 保留这么多东西,不会占用很多资源吗?而且那些没用的记录留着有啥用啊?资源肯定会占用一些,但换来的好处太大了。你想啊,这些未压缩的历史记录就像是模型的草稿纸,里面藏着模型思考的全过程。 比如模型在生成代码的时候,可能会尝试好几种思路,虽然有些思路最后被放弃了,但这些尝试的过程能帮助模型更好的理解任务的本质。而且当模型遇到类似任务的时候,还能参考之前的尝试,避免重复踩坑 哦,相当于让模型学会从失败中总结经验是吧?没错,就是这个意思,而且这些历史记录还能用来优化代理搜索的策略,比如模型发现某种类型的代理在解决某类任务时效果特别好,下次遇到类似任务,就可以优先生成这种类型的代理,省下不少时间。 那这些未压缩的历史记录是怎么存储和使用的呢?不会乱糟糟的吗?他有一套专门的存储和管理机制,会把不同任务的历史记录分类存放,方便模型快速解锁。 而且在使用的时候,模型会根据当前任务的特点,有针对性的调取相关的历史记录,不会一股脑全都用上。就好像你查资料,会先筛选出跟你要写的文章相关的内容,而不是把整个图书馆的书都翻一遍。 明白了,看来这未压缩的历史记录就像是模型的知识库和错题本,既能提供参考,又能帮助模型反思。那咱们再深入聊聊,为什么 metal harness 能取得这么大的成功呢?它的技术原理和设计理念到底厉害在哪儿? 这个问题问得好,我觉得 metal harness 能成功主要有这么几个原因,首先就是它的设计理念特别先进,它不再把大模型当成一个黑盒子,而是试图理解模型的思考过程,然后通过优化这个过程来提升模型的性能。 以前很多研究都是在模型的参数或者训练数据上下功夫,但 metal harness 换了个思路,从模型的推理过程入手,这本身就是一种创新。 对,我也觉得这个思路挺新颖的。那具体到技术上呢?他有哪些独特的技术原理?技术上的创新点可不少, 就说代理搜索吧,他不是简单的让模型生成一堆代理就完事了,而是引入了强化学习的思想,让模型在搜索过程中不断学习和优化,模型会根据每次搜索的结果调整自己的搜索策略,就像一个不断成长的棋手,下的棋越多,棋意就越高。 强化学习?那他是怎么实现的呢?简单来说就是模型每次生成代理并完成任务后,系统会给他一个奖励信号,告诉他这次搜索的效果怎么样。如果效果好,模型就会强化这种搜索策略,如果效果不好,模型就会调整策略,下次换一种方式搜索。 这样一来,模型的搜索能力就会越来越强,不用人工干预就能自动提升。这个机制确实挺聪明的,相当于让模型自己学会怎么找最优解。还有其他的创新点吗? 还有就是它的模块化设计, meta harness, 把整个系统分成了好几个模块,比如代理生成模块、评估模块、历史记录模块等等,每个模块都负责不同的功能,而且模块之间可以灵活组合和替换。 这样一来,要是想改进某一部分,直接替换对应的模块就行,不用动整个系统,非常方便。模块化设计确实能提升系统的灵活性和可扩展性,这也是很多现代软件的设计思路。那除了技术层面,他的设计理念还有什么特别的地方吗? 还有一个很重要的点就是他的原学习理念,你知道原学习吧,就是让模型学会怎么学习。 mathematics 就是 通过不断积累搜索经验和历史记录,让模型逐渐掌握解决各种任务的通用方法。这样一来,模型就不是只能处理特定任务的专家,而是能举一反三的通采,不管遇到什么新任务,都能快速找到解决办法。 难怪他能提升大模型的性能,原来他是在教模型怎么更好的学习啊。那他这些创新点组合到一起,到底能给大模型带来多大的性能提升呢? 这个得看具体任务了,但根据斯坦福的测试结果,在很多代码生成和推理任务中, meta harness 能让模型的性能提升百分之二十到百分之五十不等,而且随着模型使用的次数增多,性能还会不断提升,因为它会越来越懂怎么处理任务。 哇,提成这么多啊,那他对未来的 ai 发展有什么启示呢?我觉得最大的启示就是要想让大模型变得更聪明,不能只想着堆砌参数或者增加训练数据,还要关注模型的推理过程和学习方式。 以前我们把太多精力放在了模型的硬件上,比如参数量、算力这些,但 madison 告诉我们,优化模型的软件,也就是推理机制同样重要,甚至可能更重要。 对,就好像一个人光有天生的聪明还不够,还要学会怎么学习,怎么思考,才能把聪明才智发挥出来。 没错,就是这个道理。而且 meta harness 的 成功也说明大模型的能力还有很大的挖掘空间。我们以前可能低估了模型在推理过程中的潜力, 通过优化推理过程,不用大幅增加模型的参数量,就能让模型的性能获得显著提升,这对 ai 的 普及和应用来说非常有意义,毕竟不是谁都能拿出那么多钱去训练超大模型的。 确实,要是能通过优化推理机制,让小模型也能达到大模型的效果,那 ai 的 门槛就低多了。那除了这个,你觉得它还有哪些潜在的应用方向吗? 我觉得他在很多需要复杂推理的领域都能派上用场,比如医疗诊断、金融分析、科学研究这些。 就拿医疗诊断来说,医生看病的时候需要综合分析患者的各种症状和检查结果, meta harness 可以 帮助大模型更好的梳理这些信息,快速找到最可能的病音。 再比如科学研究,科研人员做实验的时候经常需要尝试各种方案,加快科研进程。 听起来应用前景挺广阔的,那你觉得他有没有什么局限性或者需要改进的地方呢?局限性肯定是有的, 比如他现在主要还是针对代码和推理任务,在自然语言理解和生成方面的应用还比较有限。而且他需要大量的历史记录来优化模型,要是处理一些全新的没有历史数据的任务,效果可能就没那么好了。 还有就是它的计算资源消耗虽然比训练大模型小很多,但也不是随便一个普通用户就能用得起的,还是需要一定的算力支持。也是,任何技术都不可能十全十美。不过总的来说, mate harness 还是给 ai 领域带来了很多新的思路和可能性。 没错,他就像是给大模型装上了一个智能大脑管家,帮模型理清思路,总结经验,让模型能更高效的处理任务。虽然现在还有一些不足之处,但随着技术的不断发展,我相信这些问题都会慢慢解决, metal harness 的 潜力还会得到更多的挖掘。 今天跟你聊这么多,我对 metal harness 有 了更深入的了解,感觉真是大开眼界,希望以后能看到更多类似的创新技术,让 ai 变得越来越聪明。我也一样,期待 ai 领域能有更多的突破。今天咱们就先聊到这,感谢大家的收听,咱们下次再见。

昨天有小伙伴在问我, harness 是 什么? harness 全称叫 harness agent, 它是一个,你可以理解为它是一个小龙虾,加了很多的约束条件。 然后呢,它其实是用 harness 工程去搭建的一套 agent 的 系统, 用简单的话来说就是大家可以理,可以理解为大模型,是一个脑子非常聪明的实习生, 但是呢,很不靠谱,昨天教的,今天就忘了,同样的东西反复犯,做着事做着做着就跑偏,还经常瞎编东西。那么哈内斯工程呢,就是把这个天才实习生变成能独当一面的正式员工。 第一呢,就是给他写清岗位职责,就是他的指令层。第二呢,告诉他什么绝对不能做,也就是约束层。第三, 做错了,指出来了,做对了,表扬反馈层,也就是我们在说的是奖励函数。第四呢,给他一个笔记本,让他把做过的事记下来,就是他的记忆层。第五,给他安排好工作流程,先做什么后做什么,就是他的编排层。 其实这五个层都可以很好的指导我们去使用好我们自己的龙虾。