一分钟掌握 harness agent 使用精髓,让 l l m 变身高效助手!大家好,今天教你如何用 harness agent 把普通 l l m 变成干活小能手。只需四步,一定灵魂 写 s o u l m d, 明确身份和目标,比如代码修复,专家设定原则底线。二、立规矩 rules m d 里设定约束,禁止拷库,限制权限,守护安全边界。三、给工具 tools m d 列白名单,允许 git 测试等必要工具, 杜绝乱操作。四、开闭环,使用 raf 自动循环,让 agent 自动分析、修改、测试,直到任务完成。记住!三,不要别给最高权限,别关 raf, 别喂大量无效上下门,否则容易翻车。现在开始用哈尔斯 agent 解放双手,让模型自己跑 通任务。你只需把关关键决策,简单配置,高效执行 ai 赋能,从此不踩坑,赶紧试试吧!
粉丝845获赞3166

五万一千六百六十九颗星,十六天,这不是一个团队,这是一个人, gary tanycombe 的 现任 ceo。 过去六十天,他用 cloud code 一个人写了六十万行生产代码, 日均一到两万行,百分之三十五是测试代码。他怎么做到的?答案叫 stack shindeer, 是 一套开源的 slash 命令系统。二十八个命令,把 cloud code 从一条光杆司令变成一只完整的虚拟工程团队。 ceo、 设计师、工程经理、测试主管、安全官、发布工程师,全部到位,你只需要敲斜杠,剩下的交给 ai。 还记得我们说过的蒸汽机调速器吗? j, stack 就是 cloud code 的 调速器。 目标层, office hours 帮你定义什么值得做传感。七层 review 和 q a 帮你发现问题,比较七层测试,自动判定通过还是失败。 执行器层, agent, 按标准修代码,感知比较执行,再感知反馈回路闭环了二十八个命令,每个都是一个角色。 office hours 是 产品经理,六个逼问式问题,逼你重新想清楚产品方向。 plan c g u 是 ceo, 砍 scope, 找最小可行路径。 review 是 staff engineer, 专门找那种 c i 能过但生产会炸的 bug。 q a, 是 真浏览器测试,不是模拟器,是真的点真的看真的修。你说我想做一个日立招标 app? g, stack 不 说好的,他说等等,你描述的不是招标 app, 你 描述的是一个私人首席参谋 ai。 然后他逼你回答六个问题,你的用户具体是谁?他们的痛点是什么?现有方案为什么不够?最后他生成三套方案,推荐最窄的那套先上线。 ai 不是 在执行你的指令, ai 是 在帮你想清楚到底该做什么。 review 这个命令最狠的地方是什么?它找的 bug 不是 语法错误那种 c i 自己就能抓,它找的是逻辑 bug, 静态条件,边界情况 q a 更狠,直接打开一个真浏览器,点你的 staging 环境,走完整个用户流程,发现问题自动修声,回归测试。再验证一遍, agent 有 眼睛了。 ship, 一 条命令,自动同步 main 分 支跑全量测试,审计覆盖率,推 pr, 触发 c i, 如果你的项目连测试框架都没有,它会帮你从零搭一个,每一次 ship 都有覆盖率。审计代码品质不是靠自觉,是靠流程锁死的。说说数据, 过去一周三个项目,十四万零七百五十一行,新增三六二次提交,净增十一万五千行。二零二六年到现在一千两百三十七次 github 提交。 作为对比,二零一三年他全职写代码的时候是七七二次,同样一个人效率翻了快一倍。 而且现在他同时管着 ycc, 给 cloud 加了一堆花活 codex 命令,让 open ai 的 模型来审 cloud 写的代码,两个 ai 互审,交叉验证。 tf 命令,你说小心点。之后每次要执行 r m drop table force push 这种危险操作, cloud 会先问你。 freeze 命令,锁定编辑范围,防止修 bug 的 时候首键改了不相关的文件。 guard 是 k f 加 free 的 合体最大安全模式。 concept 本质上是把工程管理的最佳实践编码成了一套 ai 可以 执行的规则, 不是让 ai 写更快,而是让 ai 评判更准。这就是 harness engineering, 从拧阀门的工人变成设计调速器的人。点赞加关注,赛博杨千焕,明天见!

这是一个从零开始,带你从原理到圆满学完 cloud code 所有功能的开源项目。最近在 ai 圈有个很火的概念叫 harness engineer, 我 们平常一直说的 agent 其实就只是模型,或者说是学会了行动的模型。 harness 工程师的作用是给 agent 构建在特定领域工作所需要的一切,所以表面上这个项目是教你做一个 cloud code, 实际学完人 cloud code 的 这个项目后,你就能完全掌握 harness 的 核心,因为 cloud code 本身就是 harness engineer 很 好的实践项目 开源才一个月的时间,就拿下了三十八点七 k 的 star。 来看看项目的实际内容, lincolo code 提供了十二个渐进式的功能点教学,从最基础的 agent 循环工具调用, skills 的 使用,到任务系统上下文压缩的实现,以及上个月刚出的 agent teams 自主 agent 的 实现,这一个项目全都覆盖了。比如我们来看一下 agent team, 首先会有个动图来演示 agent team 的 运行方式,然后是 agent team 的 原理会包含具体的代码实现,在模拟中可以看到这个功能实际的效果。 再往后就是实现这个功能的完整元代码,代码量不是很大,不过用来学习完全够了。最后还有一个深入探索的模块,可以看到架构流程以及这个功能设计的一些理念。 ai 的 概念出的确实快,基本上每三个月就会有各种新的名词出现,希望这期视频对你有帮助。以上就是本期视频的全部内容,我是鱼仔,我们下期再见。

前两天, antropolis 实验室发布了一篇基于 hardest 工程的实战案例,今天我们就来扒一扒这篇文章,用大白话深入拆解这套让 cloud gold 化身超级开发团队的核心架构。 为什么普通 ai 写不出长代码? a 社总结了两个致命的系统病,第一就是上下文焦虑症。随着开发任务推进,上下文窗口被历史对话和代码塞得越来越满。这时候模型会产生一种焦虑感,他觉得自己的内存快爆了, 于是开始强行收尾,导致项目直接烂尾。以前为了解决这个,大家会用上下文重置,每写完一个功能就强制清空记忆, 但这种方法交接调度极其复杂,延迟高的离谱。第二个病是盲目自信。如果你让一个 agent 写完代码或者做完设计,再问他做的怎么样,他大概率会把自己吹上天。 在有明确报错提示的后端代码里还好,但在前端设计这种缺乏绝对标准的主观领域,这就是灾难。界面到底好不好看, agent 永远倾向于给自己的作品打高分,其实效果一塌糊涂。既然单一 agent 不 能自查,那就给他找个死对头。 a 社借鉴了深层式对抗网络 j a n 的 思路,把系统分成了两个对立的角色,生尘器、干活评估器、挑刺。为了治好 ai 前端设计那股廉价的 ai 位, a 社给评估器定下了四条死规定,重点抓两样,第一是整体设计感,不能是东拼西凑的零件。 第二是原创性,只要出现类似白卡片配紫色渐变这种典型的 ai 偷懒套路,直接扣分打回。接下来是最硬核的环节,生成器写完静态代码后,评估器根本不看这些死代码。 a 社接入了 playwrite 这种自动化测试工具,直接在浏览器里把这个网页跑起来。评估器像真人一样去点击按钮截图看视觉效果,只要发现排版崩了或者交互不通,直接写出尖锐的批评打回去让生成器推翻重做。 这就把物理世界的验证逻辑强行塞给了 ai。 这套高压机制的效果极具惊人。在为荷兰艺术博物馆做网站的任务里, 前九轮 ai 一 直都在做一个四平八稳的暗黑风网页,但到了第十轮,在评估器的不断逼迫和挑刺下,神沉气直接推翻重来,硬生生做出了一个带透视效果的三 d 房间。艺术品全挂在墙上,用户点一下门就能在画廊里穿梭。 这种级别的创造力飞跃,使你写多长多复杂的单次提示词,都绝对无法深沉的前端的左右互搏。跑通后, a 社将其扩展到了全站开发,引进成了一套三体架构。第一个角色是规划师, 你可以理解成一个霸道的产品经理,你只需要给他一到四句的模糊需求,他就会自动扩写成一份宏大的产品规格说明书。这里有个小细节非常关键, a 社故意不让这个规划师去写太细的技术实现,因为怕他写错带偏。后续的开发, 它的核心任务是专注在产品逻辑和高级架构上,甚至主动往产品里塞一些 ai 特斯功能。第二个角色就是苦逼的开发工程师,生成器。为了克服我们最开始提到的上下文焦虑,生成器的工作方式被设计成了 sprint, 也就是冲刺模式。 他每次只认领一个功能,用 react 加 fast api 的 技术栈写完,并且系统还给他配备了 git, 让他可以像人类工程师一样进行版本控制。这样就把一个大任务拆解成了无数个不会让他焦虑的小任务。现在来到最精彩的一环,第三个角色,无情的铁面 q a 评估器。 在写任何代码之前,生成器和评估器必须先签订一份 sprint 合约,这相当于把丑话说在前面,双方先吵明白 到底测试通过的标准是什么?及格线画在哪里。代码写完后,停库器再次掏出 playwrite, 像真实用户一样,在跑起来的应用里点按钮,测接口,查数据库状态。只要有任何一项没有达到器约里规定的标准,直接打回重写,没有任何情面可讲。 这套架构到底有多强。 a 社给他输入了一句话,需求建一个包含观察编辑器、清零图编辑器和游玩模式的二 d 复古游戏制作器。如果只用单个 agent, 花了九美元二十分钟做出来的东西,布局崩坏,角色放上去根本动不了, 而是使用这套 harvest 架构。虽然花了二零零美元,耗时六小时,但他硬生生做出了一个包含音乐系统,内置 ai 帮画素材、物理引擎,基本正常的完整游戏引擎平台。 更恐怖的是,评估器在里面抓出了无数个深度的逻辑 bug, 比如画笔工具只在起点和终点生效,无法拖拽填充这种人类 qa 都不一定能发现的问题。然而这篇分享最硬核的洞察在最后,当你把这套系统着调的完美无缺时,底层模型自己升级了。 a 社在研发过程中发布了能力更强的 opus 四点六,这新模型长文本能力大幅增强,根本不怎么焦虑了,这时候怎么办? a 社的理念是只在必要时增加复杂度。 于是在 v 二版本的 harness 中,他们大刀阔斧地砍掉了 spring 的 拆分,让 opus 四点六一口气写两个多小时,代码评估器也后置了,等整体完成后再进行。 q a 就 用这套简化后的架构 ai, 用将近四小时在浏览器里硬生生撸出来一个专业的 daw, 也就是我们说的编曲软件。 a 四的这次实战,给所有 ai 开发者指明了未来的方向,总结下来是三条核心素养, 第一,验证重于生成,把干活的和检查的分开,并且让检查的人拥有物理世界的交互能力,比如通过浏览器自动化去模拟真人操作,这是提升 a 值上限的杀手锏。 第二,不要迷信固定的脚手架。随着模型能力从 open 四点五进化到四点六, harness 框架必须做减法。以前为了弥补模型智商不足而做的那些复杂拐杖,在新模型下反而会成为拖累效率的累赘。 第三,寻找下一个边界。优秀的 ai 工程师未来的工作不再是天天写那些死板的 prompts, 而是要去观察模型在真实环境下的执行轨迹,识别它当下的能力边界在哪里, 然后用最小成本的脚手架去兜底他,逼迫他直到触达下一代更强 ai 的 边界。理解了这些,你就超越了百分之九十的传统 ai 使用者。

当你跟 ai 说,帮我写个带登录功能的财务仪表盘, ai 就 能够自动写代码存储到本地文件里,甚至能一键部署上线。 恭喜你,你学会了 web coding, 也叫氛围编程。但是,当你试图用 web coding 去维护一个几十万行代码的真实企业项目时,灾难降临了, ai 开始失控。即使你给他写了一大段超级长的指令规范,他在执行过程中也会完全将你的这些要求抛之脑后。 换句话说,在 web coding 的 背景下,代码量一旦变大,你修复 bug 所耗费的时间精力可能比自己重写项目还要多。这是因为和人一样, ai 的 注意力是有限的。一旦你给 ai 一 份事无巨细的编程手册,那么在他看来,所有的东西都是重点, 也因此,所有的东西又都不是重点了,怎么办?坐等更加优秀的 ai 发布?嗯,不行。因为再优秀的 ai, 它的注意力也是有限的, 那么技术优化提示词指令也不行。如果提示词太精炼,就没有办法覆盖所有情况。但如果提示词太长, ai 的 注意力又跟不上。 顶级的工程师们在大量实践中顿悟解决 ai 失控的办法,既不是坐等更加聪明的 ai 发布,也不是编写出更加优秀的提示词指令,而是将 ai 的 行为套进制度的笼子里。 就像是智能汽车,如果要求它彻底脱离人为掌控,它需要能够根据道路情况快速锁引到对应的交通规则。 而如果只是一次性将所有规则都丢给 ai 让他去学习,那么他的注意力很可能就会混乱,从而做出错误决策。因此,软件开发工程师要做的不再是描述具体的技术细节, 而是通过缩影的方式引入这样一套交通规则,可以让 ai 在 编程的过程中实时的去参照纠篇。恭喜你,你学会了 harness engineering 驾驭工程,这可以让你的 ai 不 再漫无目的的自由发挥,而是在规则允许的条件下尽可能发挥最大能力。 具体怎么做呢?根据 oppo ai 发布的官方指导,可以从以下四个方面入手,上下文工程架构约束、反馈循环和垃圾回收。 上下文工程就像是给新员工的一本工作手册,它存在于 agent 点 m d 文件,它是 ai 进入代码仓库里看到的第一份指南, 但他不是一份长达一千页的操作说明书,更像是一份目录,告诉你可以从哪里找到更具体的操作指南。这样 ai 在 编程的时候就可以按需解锁 架构约束,这是用来规定这个项目的工程规范,譬如整个项目有哪些文件夹,每个文件夹的作用是什么?相互之间的依赖关系又是什么?他不仅告诉 ai 你 违反了哪些规则,他还告诉 ai 你 为什么违反了这些规则,反而让他在自我理解的基础上实现纠偏, 不需要人类接入。这种约束方法有效的规避了 ai 突然给你删掉了一些文件夹,又或者重复给你新增了好多文件的场景反馈循环。在传统开发中,人类工程师需要负责代码检视, 而在 harness engineering 这个工作也交由 ai 来完成。 ai 智能体会在本地审核自身的修改, 循环往复,直到通过。这里的反复审查是通过运行 ai 自己生成的测试用力来执行的。一旦检测出修改后的代码,无法通过某个测试用力, ai 就 可以自动根据报错来修复对应的 bug。 垃圾回收随着时间推移,软件系统会逐渐混乱, 起初制定的技术文档不再满足开发的需求。这种现象就像是家里的垃圾变得越来越多一样。 在 harness engineering 中,解决这个问题的方法可以是通过定时运行 ai agent, 让它扫描当前开发文档和代码之间的不一致,发现过时内容则自动修复文档。 open ai 将这种方法形象地描述为垃圾回收。 通过上面的描述,整个 ai 就 像是被套上了一个马鞍,一定程度上限制住了它自由发挥的空间,但是能够更高效地朝着目标推进。

面试官问你一句,什么是 hyllis engineer? 你 要是回答写 prompt 调 agent 的, 不好意思,这题你已经掉分了,那正确答案呢?一句话先讲清楚, hyllis 不是 模型能力,而是让模型在真实的系统中可控执行的一套工程体系。那模型时代呢?难的已经不是让模型会做事,而是让它稳定地做对事。 为什么这个问题这么关键?因为聊天机器人说错一句话是体验问题,但是 agent 如果写错代码,调错接口,连续执行错误的操作,那是生产事故。所以, hanys 本质是什么?你可以这样讲,模型呢,负责生成, hanys 负责约束, 模型负责尝试, hanys 负责验证,模型负责往前冲, hanys 负责决定什么时候能继续,什么时候必须停。那一句话总结, hanys 是 模型的执行操作系统。 如果面试官继续追问怎么落地,那你直接可以给出五步结构,第一,环境隔离,可隔离,可回滚,可审计,避免 agent 直接操作生产系统。第二步,规则显示化,把隐性规则变成系统规则,比如 link test policy trick 做不到就不允许通过。第三步,任务拆解,不让 agent 自由发挥,而是拆成读需求 定位计划,执行验证。第五步,验证闭环,靠模型说我完成了,而是单测,集成测试,静态检查,用系统判断对错。第五步,失败回路 失败后怎么处理?是自动修复呢?还是回滚呢?还是交还人工来防止错误连续放大?最后你也可以这样说, hy 的 核心价值不是让 agent 永远正确,而是让他在出错时不失控。再补一句, ai 的 下半场, 你的不是生成能力,而是控制能力。谁能把模型变成可控系统,谁就掌握了 agent 时代的工程主导权。那最后呢?我这里整理了一份二零二六年最新的 ai 学习路线,包含了四个阶段,可以准确地看到应该先学什么,后学什么,用什么书,看什么教程,需要的可以看一下。

最近对人工智能领域的进展,最大的感受就是学不完,真的有点学不完。刚把提质之工程摸明白,再下回工程还没吃透,好不容易觉得自己总算跟上点浪潮了,结果信了点,啪也有了 跟了干练,跟进快到离谱,有时候真会莫名有点压力,生怕稍微慢一步就直接被甩在后面。 但吐槽归吐槽,该懂的还得懂。今天就来聊聊这个刚出来没几周就直接火出圈的新概念,哈尼斯玩具店。 但我的理解,哈尼斯本意就是马具,用来控制方向、控速度,让人稳稳驾驭马屁。 而放到大模型编程这个语境下,大模型输出就像一匹不太安分的猎马,适合精准,适合跑偏。而哈尼斯就是一整套能让模型长期稳定、高质量输出代码的执行环境。 具体就包括 a 卷的什么时候启动,什么时候停止、 a 卷的加工设计工具选择、代码和规检查、自动错、自动测试与错误反馈,还有改了好几遍都跑不通时的兜底处理机制等等。 它不是取代提示词工程和上下文工程,而是在两者之上的再一次升级到了 hanse engine。 面临时代,我们不再只是写提示词的了,更要成为大模型编程环境的架构师。 就像现在每个团队都有自己的代码脚手架,未来每家都要都需要搭建自己的 engine 的 hanse, 谁的环境架构更合理,谁就能更高效、更稳定的产出。聊到这,你们不妨大胆猜一猜,在哈尼斯 n g 零零之后,下一个刷屏的热点又会是什么?我是诚言万语,下次再聊,拜拜!

跟 clock code 学顶级 harness, 大家好,我是老崔,今天我们继续扒开 clock code, 来看一下它是怎么做上下文管理。像 clock code 的 这种编程智能题,其实它本身上就是一个跟大模型多轮交互的循环, 但只要涉及到多轮对话,就有一个非常麻烦的问题,因为每一轮对话产生的中间结果都会进入下一轮的上下文,这就会导致我们的上下文不断的膨胀。 而半维形的上下文窗口,我们知道它是有一个固定的限值,比如说二十万 token 或者一百万 token, 所以 它是没法应对上下文这种无限膨胀的问题。那这个问题的解法就是我们今天要讨论的主题,上下文管理。 上下文管理它直接影响到 a 诊做任务的效果,尤其是做长任务效果。 alphabet 内部就做个测试, 一个好的上下文管理,它能使智能体的性能提升百分之二十九,而 pop 的 消耗能够减少百分之八十四。那怎么做上下文管理呢?它通过动态的调整模型能够看到的信息,从而让模型能够更好的完成指定的任务。 大模型在一轮对话中能够看到的信息可以分为这三个部分,第一部分是系统提示词,这个在之前的分享里边,老杰跟大家系统的拆解过,感兴趣的可以翻一下我前面的视频。 第二部分是多轮消息,也就是每一轮和大模型的交互过程中,我用户发的信息,模型的回复产生的中间结果,全部编成了一个多轮消息的簇组, 它在源码里边就是以 message 的 序组来存储的,那每和大模型完成一轮对话,这个序组就会多加一些元素。第三类是工具信息,是告诉大模型我有哪些工具可以供你使用。 在大模型看到的这三种类型的消息中,我们主要管理的是中间这一种多轮消息 bug 的,是怎么管理的呢? 总结下来就是这五级上下纹压缩,你上下纹在不断的膨胀,那我就通过各种各样的压缩来缩短你的上下纹长度,同时我又保证重要的信息能够保留下来,这就是上下纹管理的关键所在。 他获得的这五级压缩,从左到右也是他执行的顺序,依次会压缩的越来越重,保留的信息也会越来越少。他分别是上下纹的裁剪操作, 然后第二步有一个尽量的压缩,第三步有一个中等压缩,第四步重度压缩,最后还有一个补救的压缩。下面我们一个一个来看一下。第一集是裁剪,这个最简单粗暴,他就是直接把一段旧历史给裁掉,比如我现在消息列表里边有六条消息, 通过裁剪之后,我把三条没用的消息直接裁掉,最后就剩下三条,这个非常好理解。第二步是一个轻量的压缩,他针对的对象只有一种,就是工具调用的结果。 举个例子,我用查看工具查看了本地一段非常长的时间代码,比如几千行甚至上万行,几千上万行的代码就会进入消失列表。 短期看它很重要,因为模型要根据代码来定位问题,解决问题,但是任务往后面推进之后,这一大段代码就已经没什么价值了,而且它占用的 token 又非常多,很容易污染上下文,所以克拉扣的会优先处理这类臃肿的工具输出。 在具体的实现层面,克拉扣的分了两类,第一类是对于冷绘画,就是我六十分钟已经没有任何操作了,那我在这一步只保留最新的五条工具执行的结果, 其他的全部替换成一段默认的自辅传。那对于热绘化,就是我一直不停地在跟 colocod 进行交互,那这个时候 colocod 不 会直接改本地的 message 这个序组,而是在请求模型的时候,告诉他模型哪些工具的结果是需要剔除的,在模型层面做一个删除。 这样分冷热两种情况,其实是为了在热绘化的时候做一个缓存的优化,因为我们知道大模型会有一定的命中缓存的几率, 那我请求的消息数值不变的话,那就更容易命中缓存,从而节省计算成本。接下来第三种压缩类型叫折叠式图。折叠式图这个名称可能比较抽象,比较难理解一点,但其实我举个例子说明一下就很清楚了。比如 我用户发了一个提示词,修一个 bug, 那 在这个 bug 修完之后,其实我们就可以把中间大量的消息折叠起来。比如这里折叠后的信息就是已经读取了文件定位到了问题,并且通过了测试,已经完成修改了,并且给出了一个关键结论。 这里要注意还有一个关键点,他叫折叠仕途,仕途的意思就是他没有直接去改那个消息列表,而是在调用模型的时候,只给模型看这一条信息,但是我完整的消息还是存在我原来的那份消息列表里面,这样既减小了模型的输入, 也保留了完整的上下文。接下来第四步重度压缩。这一步就要直接改变我的消息数值了,我们还是举例来说明,比如说在压缩之前,我有很多轮的历史消息,有大量的工具调用的结果 token 已经逼进上下文窗口的预值了, 那这个时候就会执行一次重度压缩。压缩之后他会生成一条边界信息,以及一到数条的对前面的历史消息进行了总结信息,同时他也会原样保留最近几轮的信息, 最近的上下文细节还在,这样任务就还能继续往下跑。最后是一次补救压缩,如果通过前面四步的处理,在最后调用大模型的时候,还是出现了上下文过长的错误,这个时候克拉扣不会马上报错,而是会再进行一次压缩,然后重试之后 再决定是否把错误报出来。这次补救压缩的逻辑和上一步重度压缩的逻辑是一模一样的,只是他们在运行的时机上有所差别, 可以理解为前面的重度压缩是常规操作,而最后的补救压缩是用于失败之后的重试。好了,以上就是克拉蔻的上下文管理的全部内容。

模型变得越来越强,脚手架会消失吗?这是我们之前一直在思考的一个问题啊,当模型能力真的变强了,我们所有的固定化编程是不是都不需要了,所有的流程都可以写在提示词中了?这是我们之前呢一直在讨论的一个问题,那 实际情况其实并非如此啊,在克拉蔻的这个原码中呢,我相信大家都读过了啊,里边有五百一十二 k 行的这些原码,那这些原码呢,给我们最大的启发就是 harness, 就是 harness 不 止没有消失,在顶级的模型的 c r i 产品中依然占着最主要的分量。那先跟大家去普及一下什么是 harness 啊?我们可以理解,模型呢其实是一个特别有力量的一个大码,在 在这个大马呢,没有这些马具的情况下呢,它是非常有力量,但是它跑的方向呢,不是我们希望的一个方向,所以呢,我们就给他放了很多马具来控制它的一个方向,希望它能朝我们希望的这个方向呢去努力,去前行。那这一些所有的东西呢,就叫做一个 harness。 那 所以呢,回到我们模型这张图的话,所有周边的能影响我们模型的这些内容的东西,我们都可以叫它 harness。 这张图呢来自于浪颤,我们看一下中间呢其实是一个 model, 就是 我们说的大模型,那这个大模型的边上呢,都是谁呢?那比如说呢,这里边会包括上下文的一些注入啊,比如说 skills 啊, prom 的 这些注入啊,还有一些包括底层的一些存储啊,还有 m c p 啊这些工具,以 及我们监控的这些工具,然后包括固定流程,去控制 l m 的 一个方向,一个固定一个流程的一个程序,这些都属于哈尼斯。就所有我们能去指挥模型、限制模型、引导模型,包括给模型提供基础设施的这些所有的内容呢,我们都可以理解成一个哈尼斯,它是非常广泛的一个概念。然后我们再回到啊 cologne 的 那个原版呢,我看完之后其实给我最大的感觉是哈尼斯呢,应该是一种产品, 那记忆呢?其实是 harness 中最重要的一环,就是如果你把 harness 当成一个产品的话,你发现模型的能力其实是一样的,当我们给他不同的 harness 以不同的程序,不同的指令, 不同的上文去注入,去引导他的时候,他的表现是不一样的。那这些这样的一个表现呢?核心的模型呢?用的都是一样的一个东西,那所以最终他表现如何?他给用户带来了什么样的一个价值的这种体验呢?其实就是一个 harness, 所以 我说 harness 是 一种产品,那 记忆呢?是 harness 中最重要的一环,就是如果你能把用户的千人千面的记忆做好的话,给他自己创造一个专属于他自己的一个记忆系统,符 合他自己记忆,然后并完成他场景这样的一个行为的很好的体验的一个产品。那这个呢,就是记忆在 harness 中起的重要的一环,所以我觉得核心观点就是 harness 是 一种产品,而记忆是 harness 产品重要的一环,所以当没有记忆这一环呢,只有工具的 harness 产品,它其实是缺乏竞争力的,就是我们说你, 你没有沉淀用户的一个数据资产,不管是对话资产,还是说我们从对话中形成的长期记忆,符合用户的特定行为,特定的特质的这些数据资产,来满足他特定场景的这些资产的话,那别人呢,同样的去使用其他相关的这些无状态的这些工具,然后再结合这个 agent, 其实我们的产品呢就特别 容易缺乏竞争力,所以说特定产品的积累就是我们说的记忆啊,是让你呢提供一个独特的一个价值,并且呢是越来越智能的这样的一个体验,所以它是非常重要的一款。 所以呢我给大家建议啊,是第一个呢,就是我们放弃必然的一个一些记忆的产品,就是原因是它第一个对你是不透明的,第二个你调完它之后所有的记忆的数据其实在他那边,他如果整理好的话,其实跟你本身产品也没有关系,你自己的产品还是缺乏竞争力。然后第二点呢,就我们把哈尼斯要当成一个产品去做,我们不要全相信模型的能力,我们使用一些固定化的编程的方式呢,结合整个用户的一个场景, 先让用户呢产生一个粘性,因为产生粘性的目的呢是为了第三点就是沉淀用户的数据,然后持续改变产品。好了,那这就是今天想跟大家分享的内容,关注雷哥,关注 ai 工程化落地。

我啊,最近用 cloud code 泄露的代码干了个大事,很多人也就是了解一下那个代码的思路,但是不知道和自己有什么关系,我就把微信找了个分析的文章, 加上这个源码文件,让 ai 分 析了一下。然后我让他根据我的需求把 open code harness 环境给搭建出来了,当然同理也可以用来完善小龙虾的 harness 环境。 这 harness 大家可以去查一下,意思就是如果 ai 模型是发动机,那 harness 就是 整个汽车的其他零部件系统,车机系统不搭好,发动机再牛也发挥不好。你看啊,我先让他分析这些代码分别是在干什么的, 哪些值得我来学习的。可以看到他给我做了一大堆的这个分析,对吧?包括这些总开关和启动器,以及它的干涉,很像机场的总调度等等, 做了一大堆的这个分析,但关键的是什么?他告诉了我该如何学习,学什么是适合我的?他告诉我哪部分是值得学习的?首先怎么自己做自己的 ai coding 的 harness, 他 建议先学这六块。 然后呢,我又让他告诉我的 coding 和写作的 harness 有 什么可以值得调整和建议呢?他给我做了这样的一些分析, 可以看他说基于你现在的 coding harness or writing harness 应该做哪些调整?我现在已经有双 harness 体系了,那么我之前因为也配置过一些嘛,那现在他该做哪些调整和升级?他给我做了各种各样的分析和建议,包括小修小补, 或者说来做一个共享的这个 run time 的 这个内容。这个 run time 啊,我也是之前没有接触过啊,那接下来我来问他这个多模式的 run time 是 怎么来理解的? 好,这个就有意思了,他告诉我这个多模尺的 run time 呢,是同一套底盘,不同任务切不同的工作档位,不是做四个独立机器人,而是一个模式。如果说再像我刚才举例子把它比喻成一辆车的话,那 run time 呢,是底盘和发动机, 然后呢,剩下他给我配置那些模块,其实都是整车上面的那些相应的一些零配件和系统,可以理解为一台引擎加多套工作方式加明确的切换原则。那么因为我有写作和开发两个需求,那它就需要两个模式来回的切换。然后呢, 我在一边学一边理解和它的推荐,下面慢慢慢慢把我的 open code 的 整个一个 harness 的 系统给完善出来了。 后来呢,我就觉得非常的好用,非常的智能。这次的经历让我发现什么呢?首先我们学习的方法可以把比较有深度的文章和内容让 ai 来协助你升级你的系统和认知, 很多时候我们能看懂,但不一定知道自己该怎么用。然后就是 agent, 虽然现在很火,但是到底怎么用,根据不同的应用场景还是有很多不同的解决方案的,应该和 ai 多讨论,手托出更适合自己的工作系统, 我称之为 vibe walking。 具体下次我详细来分享这个内容,因为我目前啊已经跟很多企业团队做了培训了,今天就到这里关注我, ai 时代,我们一起前行。

欢迎收听每日 arc。 哈喽,大家好,今天咱们来聊点硬核的。斯坦福最近出了一个 meta harness 方法论,据说能让大模型性能提升一大截,我研究了好几天,今天就给你好好掰扯掰扯 哦。这个我知道,好像是在代码空间里搞代理搜索,对吧?听起来就挺玄乎的,你先给我讲讲这到底是怎么回事? 行,咱们先从这个代理搜索开始说。你想啊,以前大模型处理任务的时候,就像是一个人在黑屋子里摸东西,只能凭感觉瞎试试错,成本特别高。但 meta harness 不 一样,它相当于给大模型搭了个地图, 让模型能在代码空间里精准定位到最适合解决当前任务的代理代理。你是说专门处理特定任务的小模型吗? 差不多,但又不完全是。这里的代理其实是模型生成的一系列代码片段,每个片段都对应着解决问题的一种思路。 meta harness 会先让大模型生成一堆这样的代理,然后通过评估机制筛选出效果最好的那个,再用这个代理去处理具体任务。 那它这种搜索方式跟传统的有啥不一样?优势在哪呢?最大的优势就是效率高。以前模型生成代码可能要反复试错,生成一堆没用的东西,但 meta harness 的 代理搜索是有目标的,它会根据任务的要求有针对性的生成代理, 而且他还能利用之前的搜索经验,不断优化搜索策略,越搜越准。就好像你找东西,第一次可能要翻遍整个屋子,但第二次你就知道大概在哪了,效率能提升好几倍。 哦,我明白了,相当于给模型装了个智能导航,不用瞎转悠了。那他是怎么保证筛选出来的代理是最好的呢? 这个就涉及到他的评估机制了,他会给每个代理打分,打分的标准就是代理解决任务的能力。比如处理代码,生成任务,他会看生成的代码能不能正常运行,有没有 bug, 运行效率高不高。而且他还能根据任务的不同调整评估标准,非常灵活。 听起来挺厉害的,那除了代理搜索,我还听说他特别重视保留未压缩的历史记录,这又是为什么呢? 你说的这个点也很关键,这其实是 meta harness 的 另一个核心。你想啊,咱们平时用大模型的时候,模型生成的内容如果被压缩或者丢弃了,就相当于模型忘了自己之前是怎么想的。但 meta harness 不 一样,它会把模型生成的所有中间过程都保留下来,不管是有用的还是没用的。 保留这么多东西,不会占用很多资源吗?而且那些没用的记录留着有啥用啊?资源肯定会占用一些,但换来的好处太大了。你想啊,这些未压缩的历史记录就像是模型的草稿纸,里面藏着模型思考的全过程。 比如模型在生成代码的时候,可能会尝试好几种思路,虽然有些思路最后被放弃了,但这些尝试的过程能帮助模型更好的理解任务的本质。而且当模型遇到类似任务的时候,还能参考之前的尝试,避免重复踩坑 哦,相当于让模型学会从失败中总结经验是吧?没错,就是这个意思,而且这些历史记录还能用来优化代理搜索的策略,比如模型发现某种类型的代理在解决某类任务时效果特别好,下次遇到类似任务,就可以优先生成这种类型的代理,省下不少时间。 那这些未压缩的历史记录是怎么存储和使用的呢?不会乱糟糟的吗?他有一套专门的存储和管理机制,会把不同任务的历史记录分类存放,方便模型快速解锁。 而且在使用的时候,模型会根据当前任务的特点,有针对性的调取相关的历史记录,不会一股脑全都用上。就好像你查资料,会先筛选出跟你要写的文章相关的内容,而不是把整个图书馆的书都翻一遍。 明白了,看来这未压缩的历史记录就像是模型的知识库和错题本,既能提供参考,又能帮助模型反思。那咱们再深入聊聊,为什么 metal harness 能取得这么大的成功呢?它的技术原理和设计理念到底厉害在哪儿? 这个问题问得好,我觉得 metal harness 能成功主要有这么几个原因,首先就是它的设计理念特别先进,它不再把大模型当成一个黑盒子,而是试图理解模型的思考过程,然后通过优化这个过程来提升模型的性能。 以前很多研究都是在模型的参数或者训练数据上下功夫,但 metal harness 换了个思路,从模型的推理过程入手,这本身就是一种创新。 对,我也觉得这个思路挺新颖的。那具体到技术上呢?他有哪些独特的技术原理?技术上的创新点可不少, 就说代理搜索吧,他不是简单的让模型生成一堆代理就完事了,而是引入了强化学习的思想,让模型在搜索过程中不断学习和优化,模型会根据每次搜索的结果调整自己的搜索策略,就像一个不断成长的棋手,下的棋越多,棋意就越高。 强化学习?那他是怎么实现的呢?简单来说就是模型每次生成代理并完成任务后,系统会给他一个奖励信号,告诉他这次搜索的效果怎么样。如果效果好,模型就会强化这种搜索策略,如果效果不好,模型就会调整策略,下次换一种方式搜索。 这样一来,模型的搜索能力就会越来越强,不用人工干预就能自动提升。这个机制确实挺聪明的,相当于让模型自己学会怎么找最优解。还有其他的创新点吗? 还有就是它的模块化设计, meta harness, 把整个系统分成了好几个模块,比如代理生成模块、评估模块、历史记录模块等等,每个模块都负责不同的功能,而且模块之间可以灵活组合和替换。 这样一来,要是想改进某一部分,直接替换对应的模块就行,不用动整个系统,非常方便。模块化设计确实能提升系统的灵活性和可扩展性,这也是很多现代软件的设计思路。那除了技术层面,他的设计理念还有什么特别的地方吗? 还有一个很重要的点就是他的原学习理念,你知道原学习吧,就是让模型学会怎么学习。 mathematics 就是 通过不断积累搜索经验和历史记录,让模型逐渐掌握解决各种任务的通用方法。这样一来,模型就不是只能处理特定任务的专家,而是能举一反三的通采,不管遇到什么新任务,都能快速找到解决办法。 难怪他能提升大模型的性能,原来他是在教模型怎么更好的学习啊。那他这些创新点组合到一起,到底能给大模型带来多大的性能提升呢? 这个得看具体任务了,但根据斯坦福的测试结果,在很多代码生成和推理任务中, meta harness 能让模型的性能提升百分之二十到百分之五十不等,而且随着模型使用的次数增多,性能还会不断提升,因为它会越来越懂怎么处理任务。 哇,提成这么多啊,那他对未来的 ai 发展有什么启示呢?我觉得最大的启示就是要想让大模型变得更聪明,不能只想着堆砌参数或者增加训练数据,还要关注模型的推理过程和学习方式。 以前我们把太多精力放在了模型的硬件上,比如参数量、算力这些,但 madison 告诉我们,优化模型的软件,也就是推理机制同样重要,甚至可能更重要。 对,就好像一个人光有天生的聪明还不够,还要学会怎么学习,怎么思考,才能把聪明才智发挥出来。 没错,就是这个道理。而且 meta harness 的 成功也说明大模型的能力还有很大的挖掘空间。我们以前可能低估了模型在推理过程中的潜力, 通过优化推理过程,不用大幅增加模型的参数量,就能让模型的性能获得显著提升,这对 ai 的 普及和应用来说非常有意义,毕竟不是谁都能拿出那么多钱去训练超大模型的。 确实,要是能通过优化推理机制,让小模型也能达到大模型的效果,那 ai 的 门槛就低多了。那除了这个,你觉得它还有哪些潜在的应用方向吗? 我觉得他在很多需要复杂推理的领域都能派上用场,比如医疗诊断、金融分析、科学研究这些。 就拿医疗诊断来说,医生看病的时候需要综合分析患者的各种症状和检查结果, meta harness 可以 帮助大模型更好的梳理这些信息,快速找到最可能的病音。 再比如科学研究,科研人员做实验的时候经常需要尝试各种方案,加快科研进程。 听起来应用前景挺广阔的,那你觉得他有没有什么局限性或者需要改进的地方呢?局限性肯定是有的, 比如他现在主要还是针对代码和推理任务,在自然语言理解和生成方面的应用还比较有限。而且他需要大量的历史记录来优化模型,要是处理一些全新的没有历史数据的任务,效果可能就没那么好了。 还有就是它的计算资源消耗虽然比训练大模型小很多,但也不是随便一个普通用户就能用得起的,还是需要一定的算力支持。也是,任何技术都不可能十全十美。不过总的来说, mate harness 还是给 ai 领域带来了很多新的思路和可能性。 没错,他就像是给大模型装上了一个智能大脑管家,帮模型理清思路,总结经验,让模型能更高效的处理任务。虽然现在还有一些不足之处,但随着技术的不断发展,我相信这些问题都会慢慢解决, metal harness 的 潜力还会得到更多的挖掘。 今天跟你聊这么多,我对 metal harness 有 了更深入的了解,感觉真是大开眼界,希望以后能看到更多类似的创新技术,让 ai 变得越来越聪明。我也一样,期待 ai 领域能有更多的突破。今天咱们就先聊到这,感谢大家的收听,咱们下次再见。

ai 圈子最近又炸了, antropics 和 open ai 在 同一周发了文章,核心都指向同一个词, harness engineering。 有 人说这是 ai 工程的第三次范式转移。有人说这不过是把 c i c d 换了个马甲,搞概念包装。那么 harness engineering 到底是个啥?如果你还死磕,那你已经落后于二零二六年的 ai 浪潮了。 让我们先理一下境界时,二零二三年大家在做 prompt engineering, 教 ai 说话。到了二零二五年在做 context engineering, 管好上下文。而现在, harness engineering 来了。 harness 翻译过来是马具的意思, ai 模型是那匹强壮的野马,但它不知道往哪跑,跑多快。而 harness 就是 你给他搭的整套系统。江绳马鞍跑道。现在的工程师,核心工作已经从写代码变成了修赛道。模型是引擎, harness 是 跑道,同一台发动机 放在不同的跑道上,成绩天差地别。那么它解决了什么问题呢?首先,模型长时间工作后会偏离目标,上下文窗口填满了就开始乱来,甚至提前收工。 第二,自我表扬。让模型评价自己的工作,他几乎永远说干得不错,哪怕产出已经出现了明显的问题。这不是偶尔的,是系统性的缺陷。第三,遗忘。比如你上次告诉他不要用这个 ipi, 下次他又用了, 每个新腮腺都是白纸一张。 harness engineer 就是 系统性的解决这三个问题的工程实践。 有趣的是,两家大厂的介入点完全不同。 antropic 关注的是内耗,他们发现 agent 自我评价几乎全是自我表扬, 所以他们的方案是生成评估、循环 planner 规划 generator 实现 evaluate, 拿着 playwrite 做真实验收。这就像是引入了一个对抗性 qa 系统。而 open inner 走的是工业治理,他们做了一个疯狂的实验,三个人,五个月,一百万行代码,全是 ai 写的 手写。他们的秘诀是什么呢?是分层架构和文档级真相,他们不靠提示词调教,靠 lintc i 和严格的文档约束让 ai 不 可能写出越轨的代码。 antropic 在 解决 a 阵塔怎么写作, open n i 在 解决人怎么像管理工厂一样管理 ai。 这两条路正好拼出了 harness engineering 的 全貌。 所以,质疑派说的对吗?它是旧词新用吗?确实, c i c d 模块化、文档化这些概念并不新,但关键在于,以前这些工具是为了让人类写代码更爽,现在这些工具是为了让 ai 不 出错。当 ai 产出代码的速度比人类快一万倍时,工程问题的本质变了。 如果不构建这套哈尼系统,上增的速度会让你瞬间崩溃。所以哈尼斯 engineering 并不是造新词,它是把系统工程强制塞进了 ai 的 底层逻辑。最后给各位一个结论, model 加哈尼斯等于 agent, 无论你叫它什么名字,软件工程的进化方向已经很明确了,人类的角色正在不断向上抽象,从代码搬运工变成建筑师,最终变成生态的管理员。 你觉得哈尼斯 engineering 是 未来 ai 工程的标准答案吗?或者你有什么更好的赛道设计思路?欢迎在评论区聊聊。

hello, 朋友们,最近我写了一条关于三大 hunis 级别的 skills 的 推特获了,引起了很多人的共鸣啊,那这期视频呢,会基于我自己实际使用的这三大 skills, superpower、 compound、 engineering、 gistake, 给你讲清楚这三大 harness 级别的 skills 到底在做什么,什么情况下适合做哪一个?最后呢,带大家实战体验一下。话不多说呢,我们直接开始。首先啊,在我看来,这三个 skill 呢,代表了三种工作流的纪律。我们先把概念说清楚啊,这三个工具呢,本质就是 cloud code 的 skills, 就是一组 markdown 格式的 slash command, slash command 呢,就是我们的斜杠命令,如果你经常用 cloud code 的 话,就会比较熟悉,它其实是在告诉 cloud 呢,在不同阶段用什么角色去遵守不同的距离和规则,但是它们核心的关注点是不一样的。首先讲一下 superpowers, superpowers 呢,是 j c vincent 做的,现在大概有十四万多的 stars。 它的核心啊,就是给 ai 开发流程,去律规矩,强制 ai 呢,去遵守它的开发流程。如果你不是一个满楼出身呢,其实 superpowers 对 你来说帮助很大,它帮你把整个 wifi coding 的 一个过程给 拆解了,拆解成一个标准的开发流程。强制你在写代码之前呢,先经历一个完整的 brainstorm, 然后再帮你拆解成微任务的计划,一个个 task, 每一步做什么,再用 sub agent 去逐个执行。所以它的目标啊,就是让 ai 从会写代码 变成了会做整个工程。那么 gistake 呢,是 yc, 就是 我们常说的投资机构,孵化机构 ycmata ceo gary tan 做的,现在大概有六万七千多的 starts, 它本质上呢,是把 cloud 变成一个虚拟的研发团队,有二十三个专业的角色。 看了它是最多的不同的分级,从 ceo 到设计师、工程师 q a, 还有一个负责安全的叫 c s o。 所以 它的独特的价值啊,不是在于开发,它是帮你把整个产品的 idea, 还有整个不同视角的想法, plan 呢,都给你打造好。在你动手之前呢,先质疑 你要不要做这件事情,做一个完整链路。那么第三个,我们叫 compound engineering, 这个是由 ivy 这家公司开发的,现在大概有一万三千多的 starts。 它的核心理念呢,是把百分之八十的时间都在规划和 review, 然后百分之二十的时间呢,都在执行。所以每次任务结束之后啊,他还可以去把你的经验沉淀下来,那知识呢,可以去跨不同的 session 进行积累,就是你下次兴起一个 cloud code 的 session 之后呢,这些知识可以 可以进行迁移。如果我用简单的餐厅来比喻一些的话, superpowers 就是 这个餐厅的 s o p 的 手册,那每道菜呢,都要按我这个流程走,不允许跳步骤。那么第二个 gistake 呢,就是一个整个餐厅的团队,包括主厨啊,品控啊,前台,各有分工。那么最后 compound engineering 呢,其实就是整个厨房的食谱去 沉淀下来了,每次你踩过了坑呢,它都会记下来,下次不要再放,比如说这个菜不能盐放多了啊等等。现在呢,我们一个一个来单独剖析一下。先说一下 superpowers 啊,我最早也是先从 superpowers 开始使用的, 它有几个核心的命令,当然它的 basic, workflow 呢,有七个,但核心的其实就几个。首先第一个 springstone, 其实它是跟你进行对话,也是剖析你这个 idea, 帮你去完善你的 idea。 他不是简单问你你想做什么,而是一种对话的形式,反复进行追问,给你呈现多个方案的对比,进行平衡。最后呢,给出一些有理由的技术推荐。那么第二个核心命令叫 write plan, 就是 写计划,他会把你的需求呢,拆解成两到五分钟的一个微任务,力度会细到什么程度呢?细到让每一个缺乏判断力的一些初级工程师,或者说你是产品经理,也可以去执行,去修改文件啊,或者说定义这个接口边界。第三个其实是执行这 a plan, 他 会去派发 sub agent, 他 可以执行一个 sub agent, 他 会询问你是否要开启多个 agent 来执行任务,你可以选择开启,也可以选择不开启。开启之后呢,他就会主任务执行。每个任务完成之后呢,会做一下 code review, 做一下冒烟的测试,然后再进行下一个。而且他会强制 t d d, 强制写 一些失败的测试,然后再去实现代码。我用下来真实感受啊,就是他比较有纪律感,有流程性,代码的质量也确实比较稳。但是呢,整个过程,即便是很小的任务呢,他的 token 消耗 非常严重,如果加一个中等复杂的一些功能啊,会感觉到这个 superpower skills 呢,是偏重的。如果你只是写一些快速的脚本,或者说一次性的工具呢, 建议直接就用 cloud code 的 一命令就好了,不要每次上来就套这个 superpowers。 另外 superpower 有 个好处啊,就是像 cloud code 的 开发者,这个 builder boris 的 很多的一些经验呢,它其实都沉淀在这个 skills 里面了。首先它可以去做一些 visual design, 就是 比如说它可以去做一些 ui 的 mock, 你可以看到它的开发的一个过程,当然这个消耗突破也是非常严重的,它会问你是不是要开启这种 try out。 第二个呢,就是它自动会去掉不同的 work 曲,你不需要自己去一个个去 work 曲,这个也是非常棒的。再说一下 gistake, gistake 它最独特的地方呢,就是它有个产品 思维层,这个是 superpowers 和 component engineering 里都没有的。首先呢,它有个 office hour 的 mini, 就 有点像你去跟一些大佬做一个 coffee chat, 使用这个 mini 呢,会在你动手之前呢质疑你,你真的需要做这个需求吗?谁会用解决什么样问题?最终呢,它会产出一个设计文档,然后存到你本地, 下次你还可以重复使用这个设计文档。第二个核心命令啊,叫 plan c o review, 它有很多种不同的模式,可以比较大胆的扩展,也可以选择性扩展,或者说保持一定范围之内,以及说做一些极简主义,削减到最小。所以它强迫你在进入开发之前呢, 先做一个范围的决策,而不是直接就跳过了,然后做一个实现。当然类似于这种呢,你还有工程师的视角,就是 plan designer review, 还有 plan engineer review 等不同的模式。第三个呢,就是这个 q a, 这个 q a 其实就是帮你做一些测试,它是会去使用真实的 chrome 的 浏览器的, 去真实点击啊,截图去验证。而这个能力呢,其实是另外两个工具呢,没有了。所以如果你是有做 web 开发的一些工具的话,视觉和交互的 bug 呢, 只有真实的浏览器才能使用,所以它这个 q a 可以 支持你更好地去开发这个 web app。 关于 gistake 呢,我的感受是它在跟你的互动呢,其实是在拷问你,做一些灵魂拷问,拷问你是否已经想清楚了这个 idea, 想清楚了你的产品, 其中呢,运用了很多 y c 里面沉淀的一些方法论,所以是值得学习的。但是我觉得这个 skill 里面啊,角色还有命令太多了,学习成本很高,实际上也用不到那么多。 另外呢,它有记忆之志,但是它是偏好记忆,并不是说像 compound engineer 里面把一些错误给呈现下来了,未来可以进行避免。还有呢,它的整个代码质量纪律啊,其实是落于 superpowers 的。 最后说一下 compound engineering, 它的核心逻辑啊,是在工作日上加了第五部。这个 compound 前四部呢, brainstorming 啊, plan work 和 review 呢,其跟其他工具其实差不多了,但最后这一步啊,是专属的,有 sub agent, 会提取本次任务的经验和教训, 写入这个项目, doc solution 这个这个目录以结构化的一个 wiki 呢,保存下来。下次你开新的这个 session 的 时候呢,它会自动提取这些文件,我用下来呢,就这几个命令会重复使用。这个 idea 也是,就是你可以去针对于某些功能提出一些改进的方案,你可以用这个命令,还有 play 啊, work review 啊, brainstorm, 其实都是一些常规的 mini。 我 的感受是呢,就是 component engineer, 在 plan 的 一个阶段呢,它会比 superpower 更深,它会有一些优先级的筛选,然后并行会派发多个 sub agencies。 同时呢,研究你的代码库和互联网的一些最佳实践。但是有一点要强调,如果你每次跳过最后一步就是 component 这一步呢,它其实跟普通 cloud code 也没什么区别。所以呢,这一步其实是 component engineering 里最重要的一个阶段。现在啊,我们直接横向对比一下这三个 skills。 首先啊,跨 session 这个维度呢,这个记忆维度啊, components engineering, 它是最强的结构化的沉淀和错误和解决方案。那 gistake 呢,有这个斜杠 mini slash learn, 但偏向记录是你的偏好,不是错误的沉淀。那 superpowers 呢,基本上是没有这个跨 session 记忆的,每次都要从零开始。其次呢,这个产品思维层啊,最强的当然是 gistake, 会去拷问你的产品 idea, 而且 y c 呢,本身就是一个投资机构,所以它对产品的打磨呢,是最强的,而且开箱即用。然后强制的一些 t d d, 强制一些失败案例的一些执行呢,只有 superpowers 有 强制 t d d 呢,其实是测试驱动来开发,你需要有一些失败的案例,还有成功的一些案例,帮助你去完善你的产品。 还有像视觉的 q a 啊,视觉浏览器里呢,你需要额外去装一些 agent 里呢,你需要额外去装一些 ui mocap 可以 去使用,那 token 的 消耗呢?我也觉得呢, showpass 是 最重的,因为它的任务是一个个流程执行的。那 component engineer 里呢,因为 brainstorm 会自适应,所以轻量需求呢,会相对合理一些。那 gistake 呢, 主要是可以用来产品打磨。但我这里要特意说明一个事情啊,就三个工具呢,都可以解决 cloud code denunciation 无记忆的问题,但不是一个解决 long run task 长时间任务的一个解决方。 那真正长期项目的一些记忆呢?根本性呢,还是要靠你写 cloud 点 markdown 文件,然后去把你的记忆呢结构化保存于 wiki 也好,或者说保存 markdown 文件也好,之后呢, h 呢,可以直接调用这些记忆。所以呢,本质上这些 skills 呢,是增强而不是真正替代啊 团队。接下来呢,我用一个餐饮点餐的 webapp 的 一个小任务啊,来演示一下三个 skills 各自在哪个阶段进行出场,怎么把这三个 skills 结合到一起。那这是我的 prompt, 我 让他开发一个餐饮点餐的 webapp 功能,包括一些菜单展示啊,购物车订单状态流转,还有简单的后台。然后整个基础站呢,是 react, 加上本地的存储,不 需要很重的后端。接下来就带大家过一下整个流程。首先呢,你要打开这个终端, mac 就是 terminal windows 的 话,就 c m d 或者说 power share, 确保你安装的这个 cloud code 以及对应的三个 skills。 如果你不知道怎么装这个 skills 呢?可以去 d hup 的 网站呢,按照它指引的一个 mini, 比如说像这里怎么去安装 superpowers? 你 要装 superpowers 的 这个插件,安装完成之后呢,就会在 cloud code 里面会有对应的斜杠 mini, 比如说这个 superpowers 的 斜杠 mini 就代表你安装成功了,可以使用这个 mini。 好, 首先我们第一步要做的呢,就是用 g stick 来打磨我们的产品 idea, 在 动手写任何代码之前呢,先跑一下这个 office hour 斜杠,输入 office hour, 接着呢,把我们的 prompt 输入进去,点击回车。如果你第一次使用 g stick 呢,它会询问你各种问题啊,做一些配置,比如说你是不是要给它提供反馈啊等等,还是挺烦。 当你完成配置之后呢,他才会给出你的问题。好,他给出的第一个问题呢,就是你为什么要开发这个餐饮点餐的 app? 我 们直接选择第一个 就是为了学习,或者说只是为了娱乐,然后提交这个答案,然后让他询问是否允许去进行一些搜索,看一下这个世界关于我们这个讨论,有什么一些建议想法?直接点击 yes。 接下来呢,他搜索完之后,给你一些前提和假设条件,有三条,然后你可以去针对某一条进行修改,这里我直接选择第一条。接下来有很多问题啊,我们可以快速过一下, 把这个完整链路跑一遍的时间太久了,所以呢,接下来我直接跟大家讲一遍,所以这个 gistake 呢,是唯一一个,这个问卷里面唯一一个,三个工具里面,三个 skills 里面呢,会反问你的, 你真的需要这个吗?然后在 ceo review 里面呢,它会有几种模式帮助你去做一些决策,所以呢,用 gistake 去打磨你的产品,然后有了产品,有了我们这个技术架构的这个 plan, 完整这个规划链路之后呢,我们可以用这个 show always 去开发一些核心的技能,可以基于那个 plan 呢,去 brainstorm 多个方案,然后进行多个方案对比,然后再写 执行具体的任务计划,然后再执行这个计划,把整个我们的 web app 整体的开发出来,整个过程呢,它会非常的遵守这个流程和纪律啊。那第三步呢,你可以用 component engineering 去做一个整体的规划和知识沉淀,中间如果有遇到任何的问题和 bug 了,你可以 用这个 component engineer 的 命令去做执行。最后呢,用 gistake qa 做一个收尾。这个 case 呢,其实是把这三个 skills 的 不同的强项的功能结合到一起,去做一个完整的应用的开发。但在实际场景中呢,我反而不推荐大家三个都装,你按需装一个就好了。你可以在一个 skill 基础上呢,跟 具体的实际场景需要再进行叠加,玩透一个 skill 就 好了。比如说,如果你在乎这个代码字样和代码工程,你是一个扣顶的爱好者,你可以赚 superpower 就 ok 了。如果你是一个投资人的角色,或者说你是一个产品经理的角色, 那么你可以用这个 gistake, 它可以帮你的产品的 idea 打磨得很好,可以做一个很好的原型。然后如果你觉得是要知识复利,然后把你的知识进行牵引而沉淀了,用 compound engineering 就是 更好的选择了。 ok, 这个就是本期视频的全部内容的分享,如果你觉得还不错呢?记得点赞、收藏、关注我们下期。

不是吧,都二零二六年了,你还在捣鼓你那破提示词呢?如果你还不会 harness engineering, 那 你就落伍了。 我问你,为什么同样调 cloud 的 api, 有 人做出来的 ai agent 能独立干活?有人的一直出错,一直返工?答案就是今天要讲的这个词, harness。 记住这个公式, agent 等于 model 加 harness, 模型只是一半,另一半是你给他搭的整套运行环境规则、工具、测试反馈机制,这些加在一起就是 harness。 打个比方,大模型就是一匹悍马,可以跑得飞快,但是没有一个合适的马鞍的话,它的方向路线就无法精准操控。 这就是为什么我们需要哈密斯的原因。来看一个真实案例,安斯基公司曾经发过一个博克,里面提到同一个项目,没有哈密斯的情况下,克拉德花了九美金,用时二十分钟,做出了一个完全不能运行的游戏。 而加入 hans 以后, cloud 用了六个小时,花费两百美金做出了一个完美运行的游戏,这就是 hans 的 作用,能够完美发挥模型的全部能力。所以现在业界有一句话, 模型是商品, harness 是 护城河,任何人都可以花钱调 api, 但你怎么约束他,纠正他,让他不犯同样的错,这才是真正的壁垒。那小白该如何开始呢?最简单的入门方式,建一个 agent, 点 md 文件,每次 ai 出错就往里加一条规则,就这么简单, 哈士靠不住的,创始人就是靠这个,把 agent 的 坏行为几乎全解决了。关注我,下期我们直接上手,从零搭一个真正能用的 harness。

兄弟们,这是一个相当完美的 ai harness 增强系统,在 github 拥有惊人的一百五十一 k stars。 它提供了什么?一句话,四十七个子代理,一百八十一项技能,七十九条命令,外加封装好的各种脚本规则,钩子,以及 token 和上下文相关的优化建议与视力配置。 它能干什么?你可以跨平台地把它集成到 cloud code, codex, cursor, open code, gemini, c l, i 等主流 ai harness 中,优化它们的性能,增强其编程能力和工程规范性。 另外还有个有意思的特性,它通过钩子和命令搭了一套本能和持续学习机制,会自动分析你和 ai 的 绘画,从中提取出反复出现的模式,转化为本能。当本能积累到一定程度,可以将它们剧类进化成可赋用的技能。这个项目采用 mit 协议,完全开源,免费。