粉丝7377获赞29.4万

openclaw 最大的对手来了,最近有个新项目叫 hermes agent github 已经拿了三万 star。 很多人跟我说这是 openclaw 的 平替,但我扒完它的原码后,发现这两条路根本不是一个方向。今天我把它们的底层架构拆开给你看,看完你就知道该选谁了。 先说 open cloud, 它的核心叫 harness 策略,简单说就是工具编排,你给他一个任务,他去规划要用哪些工具,然后一步步执行。这套系统的强项是工程化,四十多个内置工具, mixp 协议扩展审批流审计、日制多 agent 协助,全是生产级功能。 但 harness 有 个前提,工具得你先写好,策略得你先定好。 agent 本身不会创造新能力,它只会调用你准备好的东西。 所以, open club 的 终极是什么?是成为最强的工具调度器。但 hermit's agent 走了一条完全不同的路,他搞了个叫 k e p a 的 系统,全称是 knowledge evolution through prompt adjustment, 通过提示调整实现知识进化。说人话就是,他会让 agent 自己写 skill, 自己优化 skill, 而且越用越强。我拆他的原码看了 k p a 有 三个核心循环,第一,经验收集, agent 每次执行任务,会把成功和失败的经验存下来。第二,技能生成, 基于这些经验,它会自动写新的 skill 文件,不是调用现成的,是创造新的。第三,自我验证,生成的新 skill 会经过测试,有效的保留,无效的淘汰。这套机制最狠的地方在于 agent 的 能力边界不再由开发者决定, 而是由它自己的学习过程决定。现在你看清楚了吗? openclaw 是 我给你工具,你帮我调度。 hermes 是 我自己造工具,自己进化。一个是外部扩展,一个是内部进化。 harness 策略的优势是可控、稳定,适合企业落地。 k e p a。 自学习的优势是潜力无限,理论上可以突破人类预设的能力边界,但代价也很明显。 openclaw 的 harness 是 经过大量工程打磨的, hermes 的 k e p a 还在早期,自学习的效果能不能稳定还需要时间验证。听到这里,你可能要问了,那到底该选谁?我的判断是,这不是二选一的问题, 这是两个阶段的答案。阶阶段,如果你要做生产环境团队协助企业落地, opencloud 的 harness 策略更成熟。 但如果你想赌未来,赌 agent 真的 能自我进化到超越人类预设的能力, hermes agent 的 k e p a 路线值得密切关注。而且我怀疑 open claw 团队已经在研究怎么把 k e p a。 的 思想融进 harness 了。中局可能不是谁取代谁,是两者融合。 最后留一个问题,如果你现在选型,你会压 open claw 还是 hermes agent? 评论区聊聊?关注我,下期继续带你拆!

三月的 ai 圈彻底被一只红色的龙虾引爆了,今天我们也来聊一聊 openclo, 我 们不聊它的安装、卸载和使用了,因为这些资料在网上一抓一大把,如果有需要的朋友评论区留言,我发给他, 我们来聊一聊 openclo 的 作者奥地利成员 peter 斯坦伯格,他的故事还是挺让我佩服的,他从十四岁开始编程学习, 后来创立了一家以专门处理 pdf 文件为主要业务的公司,在二零一一年的时候以亿欧元的价格出售。实现财富自由的他本该享受退休生活,但是他不适应了,一度还出现了心理问题,有时候还得接受心理治疗。 在二零二五年的时候,他决定再次创业,创立了一家以开发 ai 智能体为主要业务的公司。 openclog 的 初使需求就是想通过 vga 与电脑进行互动,说干就干,据说他用了一个小时就跑通了基本需求。 之后 openclog 开源了,开源之后在圈内迅速火了起来,也就是说,在 ai 时代退休的吉克也可以凭借一己之力撼动巨大的生态。 opencloud 火了之后迅速倒逼,像 kimi、 mini max 等大厂疯狂适配,甚至引爆了 mac mini 的 销量。这种由开元社区定义的执行标准,能否颠覆传统软件行业和互联网的流量入口?评论区来聊一聊。

harness engineering 这个词儿听起来可能有点陌生,但你完全可以把它理解成给 ai 模型造一个既能约束它,又能支撑它的强大系统。 你是不是也遇到过这种情况?作为一个开发者,你辛辛苦苦搭了个 ai 智能体,结果呢?老是出问题。但你再看看别人,用着跟你一模一样的模型,却跑得好好的, 这时候你肯定就在想,到底是我的模型不行,还是我的提示词写错了,或者是什么参数没调对?我们团队之前就有一个 ai 智能体,它的成功率怎么都超不过百分之七十, 后来我们把它做到了百分之九十五以上,你猜我们是怎么做到的?我们没换模型,我们做的是把模型之外的整个系统给重新设计和优化了一遍,这里面的门道就是我们今天要聊的核心。 要想搞明白这背后到底发生了什么,咱们得先稍微往回看一看。其实在过去短短两年里,整个 ai 工程领域可以说已经经历了三个大的世代变迁。从最早大家都在卷的提示词工程,到后来的上下文工程,再到我们今天的九绝 harness engineering, 你可别以为这只是在不断的发明新词,不是的,这变后其实反映了一个非常重要的趋势,那就是我们想用 ai 解决的问题正在变得越来越复杂,所以我们的工程方法也必须跟着一起进化。每一个时代其实都只聚焦解决一个核心问题。 最早的时候,我们关心的就是表达问题,就是说模型到底听懂我说的话了没?后来我们进步了,开始关心信息问题,模型有了,它,完成任务需要的所有信息吗? 而现在呢,我们面临的挑战是执行一个终极问题,模型,能不能保证每一次都把任务漂漂亮亮的完成,这才是最难的。咱 们来打个比方,你就想象一下,你现在是个部门经理,要派一个新来的实习生去见一个超级重要的客户,你该怎么办? 首先,你肯定得把会议的流程一条一条给他讲清楚,对吧?到了之后,先自我介绍,然后展示我们的方案,接着要问清楚客户的需求,走之前一定别忘了确认下一步计划。这其实就是提示词,工程核心就是把指令说清楚, 但光有流程肯定不够啊,你还得把一个厚厚的文件夹塞给他,跟他说这里面是这个客户的所有资料,包括以前的会议记录啊,我们的产品报价呀,甚至竞争对手的情报啊,你都得看熟了, 这就是上下文。工程核心就是把信息给到位。可是啊,就算你做了前面这两步,你心里能踏实吗?估计还是悬。 所以,一个负责任的经理可能还会这么干,给他一份核对清单,让他每做完一步就打个勾,再派个老员工跟着他,随时提点一下,等会议结束,你要求他马上回来复盘,你亲自来检查成果。你看这整套的监督纠篇验证的体系,它就是 harness, 它的目标只有一个,保证整个任务的执行过程万无一失。所以啊,现在我们就能给 harness engineer 下一个很明确的定义了,它关究的重点根本就不是模型这个大脑本身有多聪明,而是我们为这个大脑搭建的一整套,用来保证它能稳定、可靠、正确执行任务的支撑和约束系统。 所以这个公式啊,总结的就非常到位了。一个真正能打的 ai 智能体,它等于一个聪明的 harness, 这两样缺一不可。 很多时候,你的智能体表现不好,问题可能根本不在模型,而在于你给他配的这个 harness 实在是太弱了。那么问题来了,一个强大的 harness, 它到底都包含些什么呢? 我们可以把它想象成一个洋葱,一层一层的剥开来看,它主要有六个核心的功能层,从最开始的定义边界,到提供工具,再到规划路线、管理记忆,最后还要有评估和容错机制。 这六层是环环相扣的,他们一起给 ai 模型创造了一个安全又可靠的工作环境。咱们一层一层快速地看一下, 首先是最外面的两层上下文边界和工具系统,说白了就是先给模型划定一个战场,再给他配发武器。 你得非常明确地告诉他,他的信息从哪来,不能看什么,以及他能用哪些外部工具,比如说能不能上网搜索,能不能调用公司的 a、 p、 i, 这两点要是没搞清楚,后面就全乱 好。往里走是第三层执行编排和第四层记忆与状态。这就像什么呢?就像是给了智能体一张任务地图,外加一个随身的小本本 地图,告诉他从起点到终点该怎么走,而小本本帮他记住自己走到哪了,中间有什么发现。有了这两样东西,他在处理那些又长又复杂的任务时,才不会失遗或者跑偏, 最后也是最核心的两层,评估与观测,以及约束与恢复。这相当于什么呢?相当于一个独立的质量检查员,外加一套应急预案, 质检员负责判断模型干的活到底合不合格。而应急预案呢,就是用来处理各种失败情况的。 你一定要记住,在真实的生产环境里,指望 ai 永远不犯错,那是不可能的。所以有没有一套强大的纠错和恢复机制,才是决定成败的关键。咱们聊了这么多理论,那这套东西在实际当中到底有没有人用?效果怎么样呢?答案是肯定的。 我们就来看看两家顶尖的公司, anthropic 和 open ai, 它们是怎么把 harness 的 思想应用到自己的产品里去解决大问题的。先说 anthropic, 它们发现了一个特别有意思的现象,就是当一个对话变得特别长的时候,模型会像人一样产生一种上下文焦虑,然后就开始胡说八道。 一般的解决办法是把历史记录压缩一下,但这样会丢掉很多信息。你猜 entrapig 的 harness 方案是什么?它们直接启动一个全新的干干净净的智能体,然后把任务交接给它。这就像我们的电脑卡了,直接重启一下,简单粗暴,但效果八全。 你看,这就是典型的 harness 设计模式,我不去改造模型本身,我去改造系统。它们还有另一个特别深刻的洞察,就是当局者迷。模型自己是没法客观评价自己工作的, 所以他们设计了一套系统,里面有好几个智能体,各司其职,有一个规划者专门负责出计划,有一个执行者专门负责干活,最关键的是,还有一个完全独立的评估者,专门负责检查工作成果。 这其实就是把我们前面说的评估那一层单独拎出来,做成了一个智能体,这一下就让结果的可能性大大提升了。 我们再来看看 open ai 这边,他们团队内部流传着一句话,我觉得这句话简直就是 harness 思维的完美概括。解决方案几乎从来都不是让模型再努力一点儿,而是去搞清楚我们的系统到底缺少了哪一种结构性的能力。 下次你再遇到问题,别总想着去改那几句提示词了,多退一步想一想,是不是你整个系统的设计就有问题?他们就是用这个思想解决了一个大麻烦。以前啊,他们把所有的规则指令全都塞在一个巨大的提示词文件里,结果发现模型根本消化不了,不堪重负。 后来啊,他们怎么改的呢?就用了 harness 的 方法,只给智能体一个核心的,所以一样告诉他详细的规则分别写在哪些不同的文档里,你自己需要的时候去查就行了。这么一改,效率和准确率都上来了。你看,这就是用聪明的系统设计去代替过去的蛮力。 最后,咱们来总结一下,为什么说它的出现标志着 ai 工程进入了一个全新的僵局。我认为今天最重要的三个 takeaways 就是, 第一, ai 发展的核心矛盾已经从追求模型本身有多聪明,转向了追求执行过程有多可靠。 第二,一个模型在真实世界里到底行不行,很大程度上不是由模型自己决定的,而是由它所处的那个系统,也就是它的 harness 决定的。第三,也是最重要的一点, harness 工程为我们提供了一整套系统性的方法来构建真正能够投入生产的稳定可靠的 ai 应用。一句话,别再只盯任模型了,是时候把更多的精力投入到系统工程上。 这也最终把我们引向了一个值得整个行业去深思的问题,人工智能的下一次巨大飞跃,究竟会来自一个智商更高的模型,还是来自一个设计得更精妙、更强大的 harness?

大家好,这里是鲨鱼频道。最近 open i 开了个新栏目叫 builders unscripted, 第一期的主角就是近期爆火的 open cloud 作者 peter。 二月十六日, peter 正式加入 open i, sam 奥特曼亲自发文背书。十分钟后, peter 也正式发文回应。 我梳理了这场访谈,发现它不只是讲 peter 重出江湖的经历,更是在回答一个问题, ai 到底会怎么改变软件开发? 很多人以为 peter 是 一夜成名,但其实他是一位极其资深的开发者。二零一一年,在等待美国工作签证期间, peter 解决了 ipad 上 pdf 渲染排版与性能问题,随后将其商业化成立公司 pspdfkit。 现在全球有超过十一台设备都在跑他写的底层代码。 在二零二一年,因为厌倦了复杂的管理内耗,他以一亿欧元的价格卖掉,公司彻底隐退。在长达三年的休息期里,他本想重新开始程序员生涯,但跨技术战重悬的门槛让他迟迟没有消下第一行代码。 直到有一天,他试着把一个烂尾项目的全部代码打包,直接扔给了煎饼男。 so i took the whole thing i made one huge mark on file like i don't know one pencil megabyte with all the files i dragged it into gemini studio 2.5 at the time, i said write me a spec and i like those solid line spec and i dragged it into cloud code and then i wrote build and i did other stuff on main screen was just running on this screen for hours it was things were quite a bit rough at that and at one point it told me i'm 100 percent ready。 其实如今爆火的 open cloud, 本质上就是 peter 给自己量身打造的一个个人 ai 助手,让他意识到这个 agent 拥有可怕潜力的是一次旅行中的意外测试。他给完全没有设定过语音处理逻辑的 open cloud 发了一条语音消息。结果 open cloud 的 自主操作让他震惊。 i sent this wastage and the type indicator appeared and and i'm like i'm very cute so i just i didn't build this can't work and then the model just repented to me and i was like how did you do that you know it's just like asked the model like how why this should not work and the model was like yeah you sent me a message but it was just a file there's no file ending so i just looked at the file header and found that it's opens the audio queries so i used ffmpeg on my computer to convert it and then i wanted to transcribe it, but didn't have this installed so i found i looked around and i found an open ai key and i used curl to send the file to open ai and got the text back and here i am。 全程没有人类干预,也没有提前写好的代码逻辑。 openclaw 展现出了与顶级工程师一样的思维,并还 在过去的一年, peter 在 github 上提交了超过九万次代码。他告诉主持人,在这种模式下,代码编写的成本趋近于零, 意图才是核心。对他来说,与其纠结每一行代码怎么写,不如直接把意图传达给 agent, 让 agent 去理解架构并自动编写。在访谈最后, peter 的 建议非常直接, build something that you always want to build if you are at least a little bit of a builder that has to be something on the back of your mind that you want to build like just just play you just have to approach this this this is playful cause like i think the nvidia nvidia ceo say that in the new term you're not gonna replace by ai you're gonna replace by someone who uses with ai ai 抹平了技术落地的门槛,站在这个节点,也许我们都应该像 peter 一 样,找回做开发者的纯粹好奇心。这里是鲨鱼频道,如果你觉得今天的视频有启发,别忘了点赞关注,我们下期见。

港大开元神作 open harness, 两天一千九百 star, 把 ai agent 黑盒彻底扒成白盒!家人们还在为学 ai agent 被动辄几十万行的代码互劝退吗?还在好奇大模型 到底怎么从只会说变成能干活的吗?香港大学刚开园的这个神作,直接把答案甩在你脸上!上线两天,狂揽一点九 k get up 新,仅凭一点一万行代码,干翻了大厂五十一万行的复杂架构,把藏在黑匣子里的 ai a 阵的底层逻辑 扒得明明白白。这个名为 open harness 的 项目,堪称 ai 开发者的 agent 架构肾精。今天这篇内容全程干货无废话,不管你是刚入门的 ai 爱好者, 还是想做自定义 agent 的 开发者,看完直接吃透 agent 的 核心逻辑,上手就能用。获得感拉满,音效清亮,转场音口播语速放缓,节奏平稳。先跟大家介绍一下这个项目的来头。 open harness 是 香港大学数据科学研究所的新作, 这个团队可是开源界的明星天团,之前推出的 lightsrock、 gutel agent, 还有上个月爆火的 nanobot、 clyar、 anything, 个个都是开发者圈的热门项目,技术实力直接拉满这次的星座,自然也没让人失望。很多人第一眼看到 open harness, 会误以为它是一个新的 ar agent, 但其实它的定位更精准,是给模型穿的能力马甲。官方用一句话概括了核心理念, the model is the agent, the code is the harness。 翻译过来就是模型负责思考代码提供支撑。这一句话直接把 agent 系统的底层架构说透了。简单来说,它把 agent 拆成了两个核心层次,一层是模型层,也就是我们熟悉的大模型, 负责推理、规划、做决策,是 agent 的 大脑。另一层是框架层,也就是 open harness, 本身负责给大脑配手眼记忆和安全边界,提供工具调用、 权限控制、记忆存储、多 agent 协调这些核心能力。要知道,纯聊天大模型只能输出文本, 说白了就是光说不练,但当模型接入 open harness 之后,瞬间就拥有了文件读写、命令执行、网络请求十九记忆的能力,直接从会说变成能做。这也是为什么 一个普通大模型能成为实用 agent 的 关键,而 open harness 就是 把这个关键环节做到了极致。那这个项目到底解决了开发者的什么痛点?为什么一上线就爆火?答案很简单,他把学 agent 架构的门槛直接打下来了。 我们都知道 azurepick 官方的 cloud code 是 非常强大的代码助手,但其背后是五十一万行代码, 一千八百八十四个文件。对于想学习 agent 架构的开发者来说,这简直就是天书级的存在。很多人刚打开代码库,看到密密麻麻的文件和代码,直接就放弃了,想研究 a 站的内部怎么工作,却连门都摸不到。而 open harness 做的最牛的一件事, 就是用一点一万行 python 代码精准重构了核心架构,砍掉了遥测、 olaf、 重型 reactui 这些普通开发者根本用不上的企业级功能,只保留最核心最精华的哈尼斯架构,把复杂的 a 层框架做清做透,让普通人也能看得懂、学得会、改得了, 这也是他能快速圈粉的核心原因。接下来就是大家最关心的核心内容, open harness 的 架构到底有多强? 它由十大核心子系统组成,每个子系统职责明确,环环相扣,搭建起了一个完整可扩展的 a 阵的框架,而且每一个功能都踩在了开发者的需求点上。首先是 aning 智能体循环,这是整个框架的心脏,一个简洁的循环代码 就能处理无限的功能组合模型,只需要决定做什么,剩下的全线校验工具执行结果格式化,全由 harness 负责,把大脑和手脚的分工做到了极致。 其次是 tools 工具,系统内置四十三个使用工具,包含文件 a o show 执行、网页搜索、 agent 协助、任务管理等核心场景, 每个工具都自带验证和权限集成,拿来就能用。还有 skills 技能系统,只用 md 文件就能定义领域知识,按需加载内置的 git 提交代码审查、 bug 调试、方案设计等刚需技能, 开发者自己写个 md 文件,就能自定义专属技能,零门槛扩展。更贴心的是它兼容 coder code 的 插件生态, 官方已经测试了十二个官方插件,含盖低的工作流、安全警告、多 a 证的代码审查等场景,直接附用大厂的生态积累, 不用自己从零搭建。 permissions 权限管控系统,更是解决了开发者的后顾之忧。默认自动规划三级权限模式,还能配置路径和命令规则,比如禁止修改系统文件, 禁止执行危险命令,在开发时给足安全感。除此之外,还有生命周期勾子五十四个斜杠命令、 m c p 协议支持持久记忆、 多 agent 协调,这五大子系统覆盖了 agent 开发的全场景需求,从单 agent 运行到多 agent 协助,从临时绘画到持久记忆, 从简单命令调用到复杂插件扩展,一个框架全部搞定。讲完核心架构,大家肯定想问,这个项目上手难吗?答案是零基础也能快速启动! 官方提供了超简洁的操作流程,三步就能跑起来。首先克隆项目代码,用由于 think 命令安装依赖 全程,无需复杂配置。然后配置模型,以大家常用的 kimi 为例,只需设置三个环境变量,填入 api 地址和密钥即可。不仅支持 kimi, 主流大模型都能适配。最后一键启动,不管是交互式的聊天模式, 还是非交互式的脚本管道模式,都能轻松实现,甚至还支持 j s n 输出流逝事件,方便开发者做二次开发。插件管理也同样简单,一行命令就能完成插件的列出、安装启用。而如果想扩展自定义功能, open harness 也做了极致的简化。添加自定义工具,只需几行 python 代码,定义输入和执行逻辑,添加自定义技能,写一个 md 文件放在指定目录即可。添加自定义插件仅需配置一个 json 文件, 再补充对应的命令和钩子,零基础也能轻松打造专属的 agent 框架。音效舒缓,背景音口播语速放缓, 升华价值。看到这里,相信大家已经感受到了 open harness 的 价值,它不是要取代 cloud code 的 这样的大厂产品,而是给所有 ai 开发者一个可理解、可修改、可扩展的 agent 框架参考。在 ai agent 这个高速发展的领域, 我们不缺好用的成品工具,缺的是能让人看明白、学透彻的底层架构,缺的是低门槛、高开放的开发生态。而 open harness 正是朝着这个方向迈出的关键一步。他用极简的代码把 agent 的 黑盒彻底变成了白盒,让我们终于能清晰地看到 大模型到底是怎么和工具结合的, do agent 到底是怎么协调工作的,权限控制到底是怎么实现的。这些之前被大厂藏起来的核心逻辑,现在都能在 open harness 的 代码里找到答案。对于刚入门的开发者来说, 它是最好的 agent 架构学习教材,一点一万行代码量,逐行研究也不会有压力。对于有开发需求的开发者来说,它是现成的 agent 开发底座,不用丛林搭建框架,基于它做二次开发能节省大量的时间和精力。

今天我们来聊一下 opencloud 的 作者 peter, 他 是怎么一个人在两个月的时间里面提交了六千多个 commit, 每天平均下来有一百多个 commit, 把整个 opencloud 的 这个项目给它做出来,达到了现在已经有十几万的 star 的 这样一个开源项目。 他最近写了一篇博文叫做 just talk to it, 那 意思就是说怎么用 ai 代理去写代码,我们直接跟他交流就行了,只说需求。我把里面这篇文章的关键操作给大家梳理一下。 另一篇呢,它就是讲的它的一个环境设置,它的内存工具就一个,就是 codex 啊, openai 的 命令行编程工具终端开一个三乘三的网格,同时跑三到八个 codex 的 实力,然后大部分都指向同一个代码仓库。 他试过 gitwalktree, 也试过开 pr 分 支隔离,最后发现最粗暴的方式反而最快就是多个 ai 在 同一个目录里干活。为什么不用分支?因为他只跑一个开发服务器,同时在浏览器里测多个改动,每个分支开一个服务器太麻烦了。 多个 ai 改同一个仓库,怎么不打架?靠两件事情,第一,分配任务时,他会想到一个爆炸半径,他自己想的一个词语,这个任务会碰多少文件,他把任务拆小,让不同 ai 改不同的模块,尽量不去重叠。 第二呢,是它有一个八百行的 a 键的配置文件,里面有斜杠 commit 指令,告诉 ai 你 在多人协助的文件夹里只 commit 你 自己改过的文件,别人的脏文件不要碰。每个 ai 做原子提交,只提交自己的改动。 ai 代理自己的 git commit 流程是 peter 跟一个 ai 讨论方案,反复推敲满意后, ai 开始执行写代码跑测试,通过了就自动提交一个功能,大概四十分钟到一个小时,这段时间他就切到另一个窗口,规划下一个任务。 他的原话是这个在盾的时候我去搞那个,那个也在盾了,我再回来检查第一个。那一天一百多个 commit 不是 他自己手动提交的,是多个 ai 各自在自动提交。 他说现在的 prompt 特别短,经常就一两句话加一张截图,截图拖进终端里两秒, ai 自己识别内容,去找对应的代码,大概百分之五十的 prompt 都带截图。不确定怎么做的时候,他故意写的很模糊,看 ai 怎么处理,经常会给他没有想到的方案。 那最后的建议是,别浪费时间在花哨的工具链上,直接跟 ai 对 话,培养直觉,用的越多,你结果就越好。那博文的链接我会放评论区里,推荐大家去自己看一下原文。

哈喽,大家好,最近 ai 圈又出现了一个新术语, harness engineering。 二月份呢, open ai 先抛出来相关的文章,紧接着三月份, ospec 等 ai 大 厂跟进,在 x 上掀起了讨论热潮。那到底什么是 harness engineering? 先问大家一个问题,你是不是也有类似的困扰?给 ai 写了一大堆提示词,改来改去也达不到预期, 说好的事情 ai 会突然变卦?其实不只是你这样, ai 圈这么多年,从最早的提示词工程,到后来的上下文管理,再到我们今天要讲的 harnstein nirin, 一 直都是在解决同一个问题,怎么让 ai 听话? harness 直译过来就是江绳的意思,这是一个很形象的比喻, ai 就 像一匹野马,而 harness engineering 就是 给这匹野马套好江绳,给他一个安全和可控的工程环境。那这个概念有什么用呢?我们来看一个 cloud 官方做的观察实验, anspik 发现,它们的 cloud 模型在长期工程里最大的问题不是写一段代码,而是几个小时甚至几天里持续地保持正确的方向感。 所以为了让考好的不输出有 ai 质感的内容,他们就用 harness engineering 的 思路调整了评分的重点,把核心放在设计质量和原创性上。 他们的浆绳就是通过给出严格的评分标准,限制 ai 模板化的布局,沉词滥调的视觉套路。就这一个调整,让模型从安全普通的 ai 设计转向了具有审美和原创性的独特风格。 那么普通人应该如何去复现这种和 ai 写作的思维呢?第一,上下文管理 context harness。 大 多数人缺失这层,会导致 ai 每次输出的风格和质量忽高忽低说清楚。比如你的偏好、目标和限制条件,让 ai 知道为什么这么做,围绕什么去做。 比如,如果你要做一个 ppt, 你 不能只跟 ai 讲帮我做 ppt, 而是说我要做一份用于管理层汇报的销售复盘 ppt, 核心目标是让管理层去看清 q 一 的销售短板。公司最近正在抓渠道优化, 所有的内容要围绕着渠道问题展开,不偏离这个核心,并提供给他之前的数据表和一些比较优秀的 ppt 案例。这就是 harness 思维,给 ai 明确的背景边界。 第二,反馈闭环,主动纠正,加上追问,显性的告诉 ai 哪里不对,为什么不对,重新来。比如, ai 出了 ppt 的 初稿, 你不能只说不好看,不贴合,而是要去说这份 ppt 没达到我的标准,渠道相关的内容只有一页,不符合聚焦渠道问题的核心,需要补充两个我提供的数据中渠道相关的真实案例,让内容更有说服力。明确标准,才让 ai 知道如何改进。 第三,约束与规则。给 ai 设定角色、格式、要求和禁止向给到明确的评估维度。比如内容上的约束,所有数据必须标注来源,不能瞎编。禁止向,禁止堆砌文字,禁止用花哨的动画,禁止偏离。渠道问题的核心 合格标准是什么?比如每页只讲一个核心观点,渠道相关的内容占比不低于百分之四十。 harness engineering 对 普通人的启示,不是去学习编程,而是把你对 ai 模糊的期待变成可以操作的结构。 明确上下文,主动给反馈开解任务以及设定标准。大多数人用 ai 用的差不是因为 ai 不 行,而是因为他们的浆绳太松了, 没有给到模型足够的约束和引导去发挥。他有点像是你在带一个总出错的实习生,你有多会做管理,把要求讲的有多清楚,把步骤讲的有多明白,他干的就有多好,谢谢大家。

今天我们来聊一个最近在 ai 圈特别火,但很多人还没真正弄懂的词, harness engineering。 如果你最近也在做 agent, 或者关注 ai 应用的落地呢?或多或少可能都会遇到这样的问题,为什么同样的模型,别人做出来的 agent 可以 连续跑很久,成功率很高,到了自己手里就总是差强人意呢? 很多人可能会想,是不是模型不够强,是不是提示词没调好,是不是 i g 没调明白?当然啊,这些都有影响,但是啊,越来越多的团队最后发现呢,真正决定我们的系统能不能稳定的跑起来,往往不是模型本身,而是模型外面那套运行的系统。 那这套东西呢,现在有了一个统一的名字,就叫 harness。 大家好,欢迎来到克德密花园。我是花园老师,为什么想聊这个话题呢?因为年初的时候啊,有个朋友找我帮他们调一个 a 阵,他们团队之前已经做了很多努力,换上了最好的极件模型, 提示词改了上百版,各种参数也调了不少,但是一件真实的产品,效果还是不稳定,有的时候很聪明,有的时候又莫名的跑偏,任务的成功率不到百分之七十。那后来呢,我去帮他们看了一下 最后的改动,最大的地方反而不是模型,也不是提示词。我的改进点呢,在于,任务是怎么拆的,状态是怎么管的,关键的步骤要怎么校验,失败之后要怎么恢复。结果新版本上线之后呢,还是同样的模型,同样的提示词, 成功率拉到了百分之九十五以上。当时这个朋友问我,你到底改了什么呢?说实话啊,那个时候我没有一个特别准确的词来形容, 直到最近 harness engineering 这个概念越来越火,我才意识到,我当时改的这些东西,本质上就是 harness。 所以 今天这期视频呢,我想彻底把这个概念跟大家讲清楚。我们主要分三个部分, harness 是 怎么一步步引进出来的?一个成熟的 harness 到底包括哪些部分? openai, astrobi 这些公司真实到底是怎么做的?过去两年呢? ai 工程其实经历了三次很明显的重义迁移,从 prompt engineering, context engineering, 再到最近的 harness engineering, 表面上看好像只是换了几个新的名词, 但如果你只是把它理解成术语、流行史,那就完全低估它们了。那这三个词呢,分别对应了现在 ai 系统发展的三个阶段性问题,模型有没有听懂你在说什么? 模型有没有拿到足够而且正确的信息?模型在真实的执行里能不能持续的做对?你会发现这些问题呢?是一层一层往外扩张的。 在大模型刚火起来的时候呢,大家最直观的感受就是,同一个模型,你换一种说法,结果可能差很多。比如你说一句,帮我总结一下这篇文章,他可能只会给你一个很平的总结,但如果你换一种说法,效果马上就会不一样。所以那个阶段呢?大家都相信一件事情,模型不是不会,而是你没有把问题说明白。 于是大家开始疯狂的研究提示词,什么角色设定、风格约束、抽象的势力分布、引导输出格式等等等等。那为什么这些东西有效呢?因为大模型本质上是一个对上下文非常敏感的概率生成系统,你给他什么身份,他很容易沿着那个身份去回答。 你给他什么样的样例,他很容易沿着那个范式去补全。你强调什么样的约束,他就很容易把那部分当成重点。所以提示词工程的本质不是命令模型,而是塑造一个局部的概率空间。那这个阶段的最重要的能力不是系统的设计,而是语言的设计。 但提词词工程很快就遇到了天花板,因为很多任务不是你说清楚就行,而是你真的得知道。比如你让模型分析一份公司的内部文档,回答一个产品的最新配置,按照一套非常长的规范去写代码,在多个工具之间完成复杂的任务。这个时候你会发现,提词词写的再漂亮,也替代不了事实本身。 所以呢,题诗词擅长的是场景、任务、约束、输出、激发模型的已有能力。但是他不擅长凭空弥补缺失的知识管理、大量动态的信息处理,常练录任务里的状态。说白了,题诗词解决的是表达的问题,不是信息的问题。于是第二阶段开始了, 当大家还只是做聊天机器人的时候呢,其实词的作用很大,因为任务短、链路短、状态少,很多问题确实靠把话说明白就可以解决了。但后来 a 阵开始火了,模型不只是要回答问题,而是要进到真实的环境里面做事情。 他要多轮对话,调浏览器、剪贴板、数据库这些工具,还要在多个步骤之间传递中间结果,还要根据外部的反馈不断修改计划。那这个时候问题就变了,系统面对的已经不是一次回答对不对,而是整条链路的任务能不能跑通。 比如,如果你不是简单的问一句,帮我总结一下这篇文章,而是让他做一个更真实的任务啊。比如说帮我分析这份需求文档,找出潜在风险,结合历史的评选意见,给出改进建议,再生成一版发给产品经理的反馈稿。你会发现,这已经完全不是一句提示词就能解决的问题了, 他至少要拿到当前的需求文档,历史的评选记录,相关规范,当前目标已经分析出来,中间结论说出的对象是谁,语气应该怎么调等等等等。 所以 context engineering 的 核心就变成了一句话,模型未必是知道的,系统必须在合适的时机把正确的信息送进去。那这里的 context 呢?也不只是几段背景的资料,在工程的意义上,它代表了所有影响模型当前决策的信息的总和, 包括用户的输入历史对话,解锁结果、工具返回当当前任务的状态、中间产物、系统规则、安全约束,或者其他 a 帧的传过来的结构化的结果。 所以你会看到 prompt 其实只是 context 的 一部分。也正因为如此呢,推导上下文的供给机制是非常重要的。那说到 context engineering 呢?我觉得 i g 也算是一个比较典型的实践, i g 的 价值是很直接的,模型参数里面没有知识,怎么在运行时补进去呢? 那做法大家都知道,先解锁,再把相关的内容塞到上下文,但是真正成熟的 context engineering 呢?关注的肯定不只是解锁啊,它关注的是整条完整的链路,比如文档怎么切块,结果怎么排序,长文怎么压缩,历史对话什么时候要保留,什么时候要摘要, 工具返回要不要全部暴露给模型多个 a 帧的之间,到底传原文摘要还是结构化的字段呢?包括最近很火的 agent skills, 我 觉得本质上也是上下文工程的高级实践, 因为它解决了一个特别现实的问题,如果你把十几个不同的工具、工具的说明,所有的参数定义全部一上来就塞给模型,理论上模型会知道的更多,但是实践往往会更糟糕。 为什么呢?因为上下文的窗口是非常稀缺的资源,信息一多,注意力就会涣散。所以 skill 采用的是一个非常典型的思路,叫渐进式迂漏,不是一开始就把能力全部给模型看,而是只给他看最少量的原信息, 等他真正的要出发某些能力的时候,再把那部分的 s、 o p 详细的参考信息,脚本动态的加进来。那这个思路呢?其实非常重要,因为他告诉我们,上下文的优化不只是给的更多,而是按需给,分层给,在正确的时机给。 但是上下文工程其实也不只是终点,因为后来大家又发现了一个更麻烦的问题,就算信息给对了,模型也不一定能稳定的执行的正确。他可能计划做的很好,但是执行跑偏了,掉了工具,但理解错了,返回,结果在一个很长的电路里已经慢慢偏航了,但是系统却没有发现, 哎,这个时候我们发现啊,提示词和上下文其实主要的解决都在输入侧的问题,提示词优化意图的表达,上下文优化的是信息的工具。但是复杂的任务里还有一个更难的问题,当模型开始连续行动的时候,谁来监督它、约束它和纠偏它呢?这个时候第三阶段来了 harness 这个词呢,原本的意思是将绳马距约束装置的意思放在 ai 系统里面,其实就是在提醒我们一件非常朴素的事情,当模型从回答问题走向执行任务,系统不只要能够负责位信息,还要能够驾驭整个过程,这个就是 harness engineering 的 出发点。 如果前两代工程关注的是怎么让模型更会想,那 harness 更关注的就是怎么让模型别跑偏,跑得稳, 出了错还能拉回来。这里呢啊,我用一个比较通俗的例子啊,来解释这三个概念,假设你要派一个新人去完成一次很重要的客户拜访的工作, prompt engineering 呢,就是你要告诉他先把任务讲清楚,比如见面先寒暄,再介绍方案,再问需求,最后确认下一步啊,这个就是 prompt, 重点是把话说明白,那 context engineering 是 啥呢?你要告诉他把资料要准备齐全啊,比如说这个客户的背景,过往的沟通记录,产品的报价,竞品的情况啊,这次会议的目标, 这些都是 context, 重点是把信息要给对,那如果这个会真的很重要啊,你还会继续做很多事情啊,比如说让他带着 checklist 去, 让他在关键的节点实时汇报,会后核实,既要和录音啊,如果发现偏差,马上纠正,最后按照明确的标准去验收结果。 这些啊,就是 harness。 重点已经不是说清楚和资料齐不齐了,而是有没有一套持续观测,持续纠编最终验收结果的机制。所以呢,这三者啊,也不是替代的关系,而是包含的关系。 prompt 是 对指令的工程化, context 是 对输入环境的工程化, harness 呢,就是对整个运行系统的工程化,它们的边界是一层比一层大的。 lunching 的 工程师呢,给 harness 下了一个很典型的定义, agent 等于 model 加 harness, 那 harness 呢,就等于 agent 减 model。 翻译成人话呢,就是在一个 agent 的 系统里面,除了模型本身以外,几乎所有能决定它能不能稳定交付的东西 都可以算进 harness。 那 如果拆开来看呢,我自己会把一个成熟的 harness engineering 分 成六层。第一层啊,就是我们重新站在 harness 的 视角去看 context, 模型能不能稳定发挥,很多时候,不仅取决于它聪不聪明,而取决于它看到了什么。所以, harness 的 第一职责,就是让模型能够在正确的信息边界内思考。 第一层,通常包括三件事情,首先啊,角色的目标和定义,模型要知道自己是谁,任务是什么,成功的标准是什么。第二,信息的裁剪和选择,上下文不是越多越好,而是越相关越好。第三啊,结构化的组织,固定的规则放在哪?当前的任务放在哪? 我运行的状态放在哪?外部的证据又放在哪?最好分层清楚,因为信息一旦乱掉呢,模型就很容易漏重点,忘约束,甚至自我污染。第二层,工具系统没有工具大,模型本质上还是一个文本预测器,会解释,会总结,但他接触不到真实的世界。 一旦连上工具呢,模型才可以真正的做事,比如缩网页、读文档、写代码、调 api 等等等等。但是 harness 在 这里做的不是简单的把工具挂上去,而是啊,也要解决三个问题,第一,给他什么工具,工具太少,能力不够,工具太多,模型又会乱用。第二,什么时候该调用工具, 本来不需要查的时候别乱查,该查账的时候也别硬答。第三,工具结果怎么重新未回?模型搜索过来的几十条结果不应该原封不动的塞回去,而是要提炼、筛选,保持和任务的相关系。第三层,执行编排。那这一层解决的核心问题呢?就是模型下一步该做什么? 很多 a 针的问题呢,不是某一步不会,而是不会把所有的步骤给串起来,他会搜索,也会总结,也会写代码,但整个过程想到哪做到哪,最后交付出来一堆半成品。所以一个完整的任务呢,通常需要有这样的轨道, 首先理解目标,然后判断信息够不够,不够继续捕,即结果继续分析,然后生成输出,检查输出不满足要求就重新修正或者重试。这个时候你会发现,这已经非常接近人在工作了, 区别在于,人靠经验, agent 靠 harness 这套环境。第四层,记忆和状态。那没有状态的 agent 呢?每轮都会像失忆一样,他不知道自己刚做了啥,也不知道哪些结论已经确认了,哪些问题还没解决?所以 harness 还必须要管理状态。这里呢,我们要至少让他分清三类东西。 首先,当前任务的状态、绘画中的中间结果,长期的记忆和用户编号。这三类呢,如果混在一起,系统会越来越乱,看清楚之后呢, agent 才会像一个稳定的协作者。 第五层,评估和观测啊,这个呀,就是很多团队呃,最容易忽视的一层。很多系统其实不是生成不出来,而是生成完了之后根本不知道自己做的好不好。那如果没有独立的评估和观测的能力, agent 就 会长期停留在自我感觉良好的状态。这一层呢,通常包括输出和验收,环境的验证、 自动的测试、日制和指标错误的归音等等。也就是说呢,系统不仅是要会做,还要知道自己有没有真的能够做对。第六层,约束、教验、失败和恢复那最后一层呢,往往才是真正决定这个系统能不能上线的关键环节。 因为在真实的环境里面,失败不是例外,而是常态。可能搜索不准,可能是 api 超时,也可能文档格式混乱,或者模型误解了任务。那如果没有恢复的机制呢? agent 每次出错就只能从头再来。所以,一个成熟的 harness 一定要包括三件事情,约束啊,哪些能做,哪些不能做 教验啊。比如输出之前,输出之后要怎么检查,恢复失败之后怎么重试,切入镜回滚到稳定的状态? 商业概念呢?我们来看最有参考价值的部分啊,一线公司的真实实践因为 harness 这个词最近之所以突然火起来呢, 不是大家在空谈这个方法论,而是很多公司都已经把它做进了产品和工程体系里面了啊。比如 lanchang, 在 底层模型完全不变的情况下,只通过改造和迭代 harness, 就 把它自家的智能企业从一个榜单上的排名直接从三十开外杀到了前五。 api 呢,依靠一个只有几名人类工程师的团队,用 agent 丛林构建了一个超百万行代码的生产级应用,百分之百的代码都是由 agent 编写的, 耗时呢,只有纯人工开发的十分之一。那 anthropic 呢,也构建了一个可以完全自主编码的系统,只凭一句自然语言的需求,就能在无需人类干预的情况下连续运行几个小时,最后做出完整的游戏,完整的数字音频工作站。那我们先看看 anthropic 的 实践啊。 首先啊,他们在长城自主的任务上总结了两个特别典型的问题。那第一个问题啊,我自己把它翻译成上下文交替,时间一长,上下文越来越满,模型就是模型,就开始丢细节,丢重点,甚至呢,还会出现一种很有意思的现象, 他好像知道自己快装不下了,于是开始着急的去收尾。很多系统面对这种问题呢,都会做 context complication, 也就是啊,把前面的历史上下文压缩一下再继续跑。 但 athrop 发现呢,对于一些模型来说,这还是不够的,因为压缩只是变短了,不代表那种负担感真的消失了。所以他们做了一件更激进的事情,叫 context reset, 不是 在原上下文里面继续压,而是换了一个非常干净的新的 agent, 把工作交接给他。那这个思路很像什么呢?特别像工程里面,遇到内存泄露之后,不是继续清缓存,而是直接重启整个进程,再恢复状态。 这个其实就是一种非常典型的 harness 设计。那 anthropomorphic 解决的第二个问题呢?就是自评失真的问题。首先模型自己干活啊,再让它自己给自己打分,往往是会偏乐观的,那尤其是在设计、体验、产品完整度这一类没有标准答案的问题上,偏差是更明显的。 所以他们采用了一个非常关键的思路啊,把干活的人和验收的人分开,他们是这样拆分的啊, planner 负责把模糊的需求扩展成完整的规格, generator 负责逐步地去实现。 那 evaluator 呢?负责像 q a 一 样去真实的测试。更关键的是,这个 evaluator 它不只是会看代码,而是会真实的操作页面,看具体的交互检查实际的结果。也就是说啊,这不是一个抽象的审查,它是一个待具体环境的验证。那这个事情非常重要啊,因为它背后是一个很 明确的工程原则,生产、验收必须分离,只要评估者足够独立,系统就能形成一个真正的有效循环,生成检查、修复、再检查的这样的一个循环。那 o p a i 呢?在这方面给我的感觉是,他们重新定义了工程师在 age 的 时代的工作,他们做了一个非常有意思的思路啊, 人类在这个环境里面,不需要写一行代码,人类只需要去负责设计环境。具体来说呢,工程师的工作变成了三件事情,首先把产品目标拆解成 agent 能理解的小任务。 那 agent 失败的时候呢,不是让他更努力一点,而是问环境里面缺了什么能力,最后建立反馈的炼炉,让 agent 真正的能够看到自己的工作结果。那这句话我是非常认同的, 当 agent 出了问题的时候,修复方案几乎从来不是要更努力一点,而是确定它缺了什么样的结构性的能力。这个其实也是典型的 harness 思维。 oprahina 还有一个特别典型的事件啊,也是渐进式批漏,他们早期呢,犯过一个很多团队都会犯的错误, 写了一个巨大的 agent 词典 md, 把所有的规范框架约定全部塞进去了,结果呢, agent 更糊涂了, 因为上下文窗口是一个稀缺的资源,塞得太满其实等于什么都没说。那后来他们怎么改的呢?把 agent 点 md, 变成一个目录页啊,页面只保留核心的缩影, 更详细的内容呢?拆到架构文档,设计文档,执行计划,质量评分、安全规则这些具体的子文档里面去了,那 agent 呢,先看目录,需要的时候再钻进去。那这个时候我们会发现啊,这个和我们前面说的 skills 本质上是一个思路, 不是一次性全给,而是暗虚暴露。还有个实践啊,就是 openai, 不 只是让 agent 写代码,还会让 agent 呢看见整个应用, 因为产源速度一旦上来呢,平静其实就不再是写,而是验了,那人类呢,根本是验不过来的,所以他们让 agent 自己去验,怎么验呢?首先接浏览器,能截图点页面,能模拟用户的真实操作, 然后去给 agent 接日制系统和指标系统,让他能够查 log, 查监控,最后每个任务都独立合理的环境在跑,互不影响。 结果呢,就是 agent 不 再是写完代码就说书写完了,而是真正的可以跑起来看结果,发现 bug, 修 bug 再验证。这个呢,其实就是 harness 里非常完整的一套工具,系统执行、编排、评估和观测、约束和恢复。 那还有一点需要注意的是呢, openai 不 只会靠人类在最后的 code review 环节去兜底质量,因为 agent 提交速度太快了,人类是定不过来的,所以他们把很多资深工程师的经验直接写成了系统规则, 比如模块怎么分层,哪一层不能依赖哪一层,什么情况下必须拦截?发现问题之后应该怎么修?重点呢是这些规则不只是负责报错, 而是会把怎么修也一起反馈给 agent, 进入下一轮的上下文。那你会发现呢,这已经不是传统意义上的代码规范了,而是一套可持续运行的自动治理系统。这个呢,也是 harness 的 典型形态啊。最后呢,我们说一下啊,首先, prompt engineering 呢,解决的是怎么把任务讲清楚, context engineering 呢?解决的是怎么把信息都给对。那 harness engineering 呢,解决的是怎么让模型在真实的执行中持续做对。所以 harness 不是 在取代 prompt, 也不是在取代 context, 它是在更大的系统边界上把前两者都包含进来。 当任务还是简单的单论生成的时候, prompt 是 很重要的。那当任务开始依赖外部知识去运行信息的时候呢, context 就 很关键了,当模型真的进入了长链路,可执行、低容错的真实场景里面, harnis 几乎就是不可避免的。这是为什么同样的模型在不同的产品里面表现差距会这么大?因为真正决定上限的可能是模型,但是真正决定能不能落地,能不能稳定交付的就是 harnis。 那 到了这个阶段呢?我们也看清了一个现实, ai 落地的核心挑战正在从让模型看起来更聪明 转向让模型在真实世界里稳定的工作。如果你最近也在做 agent, 我 觉得这件事情非常值得你趁早想明白。好啊,本期教程的内容呢,就是这么多,如果本期教程对你有所帮助呢?希望得到一个免费的三连和关注,感谢大家,我们下期见!

到底该怎么构建一套与当前模型能力适配的 harness? harness 本质上是模型能力缺口的临时解法,它的宿命是随着模型变强被一点点拆掉。 真正成熟的方法论是,先找到缺口止补最必要的部分,再用真实任务验证这些结构是否真的承重,最后持续做减法,拆掉那些已经过时的部分。 这个问题, anthropic 的 研究员 priscilla securin 在 最新发布的一篇工程博课里给出了一套完整的答案。 他完整再现了自己是如何通过实验构建 harness, 又如何通过实验一点点拆掉它。它构建这套 harness 的 过程可以用四步概括,第一步,先别急着搭 harness, 先看模型的能力缺口在哪里。 第二步,针对能力缺口,止补最小必要结构。第三步,把 harness 放进真实任务里,验证它到底是不是承重结构。第四步,通过消融实验找出真正承重的部分,再随着模型升级持续做减法。 我们挨个来看。第一步,先别急着搭 harness, 先看模型的能力缺口在哪里。 很多人一上来就想加规划器、加评估器、加工作流,但问题是,你都还没搞清楚模型到底哪里不行, 是长任务容易散?是不会做规划?是会放过自己的错误?还是明明能做却总是低估范围? harness 是 从失败模式里长出来的,先搞清楚模型的能力缺口在哪里,才知道该补什么。 或者在做长任务代码 agent 的 时候,识别出了两个反复出现的失败模式。 第一个叫上下文焦虑。随着任务推进,上下文窗口越来越满,模型开始失去连贯性。更严重的是,他会感知到自己快到上限,然后主动提前收工。任务没做完,他只是觉得快结束了,该收尾了。 就像一个学生在考试最后五分钟,不管题目有没有做完,都开始写。综上所述,第二个叫自我评估偏差, 让 a 阵评估自己的输出。他会系统性的给出正面评价,哪怕在人类观察者看来质量明显平庸。让一个厨师评价自己做的菜,他永远说还不错。独立的时刻没有这个包袱。这两个缺口才是后面所有结构设计的起点。 找到了缺口,接下来的问题就是该补什么,补多少。第二步,针对能力缺口,只补最小必要结构。 harness 的 每一个组建,本质上都在回答同一句话,模型靠自己还做不到什么。 针对上下文焦虑,作者补了上下文重置和任务分段,让模型不用在一个越来越长的上下文里硬撑。 针对自我评估偏差,作者把生成器和评估器拆开,让一个专门负责生成,另一个专门负责挑毛病。这里有一个关键发现,调教一个独立的挑剔评估器,远比让生成器自我批判容易的多, 批判性可以被单独注入,不用担心破坏创作能力。但这个机制到底管不管用?作者先在前端设计的场景中进行验证, 因为好不好看这种问题没有标准答案。如果连这种任务都能通过生成器、评估器分离稳定提升,说明机制本身是可行的。 作者给两个 a 诊同时提供了一套评分标准评估器,用 playwrite mcp 直接操作真实页面,打分写批评,反馈回传给生成器,继续改跑。五到十五轮迭代 评分标准刻意压低了模型默认就做得不错的部分,重点惩罚平庸惩罚模板感惩罚那种典型的 ai 位输出。 实验结果是成立的。生成器和评估器的循环,不止让结果更稳,还能逼出单次生成里很少出现的创意跃迁。 在一个荷兰艺术博物馆的案例里,前九轮都是渐近优化,第十轮模型突然把整个方案推翻,把网站重新构想成一个用 css 透视渲染的三 d 空间画廊。 机制验证完毕,接下来把它推广到全站开发,组装成完整的三 agent 架构。完整的 harness 由三个 agent 组成,各司其职。 规划器接受一句话,需求,把它扩展成完整的产品。方案只定义交付什么,不预先规定怎么做。 生成器按冲刺逐功能实现。评估器用 playright mcp 像真实用户一样点击测试。每条标准都有硬性预值,任何一条低于预值。这轮冲刺失败,生成器收到详细反馈。 还有一个关键机制,冲刺器约每个冲刺开始前,生成器和评估器先协商完成。到底是什么写下来,再开始写代码。这解决了一个经典问题,我以为我做完了,但你以为我应该做的是另一件事。 结构搭好了,但它到底有没有用,要放进真实任务里才知道。这个就进入了。第三步,把 harness 放进真实任务里,验证它到底是不是承重。结构验证要看三件事,它到底改善了哪种失败,它为此付出了多少成本和食盐?如果没有它,结果会怎么掉? 作者用一个二 d 复古游戏制作器作为测试任务,同一个需求跑了单独运行和完整 harness 两个版本作对比。单独运行版本二十分钟九美元,看起来完整,但核心功能坏掉了, 实体出现在屏幕上,没有任何东西响应。输入接线断了,表面上没有任何迹象。完整 harness 版本六小时两百美元。规划器把一句话扩展成了十六个功能,十个冲刺的完整方案。核心可玩游戏真的能跑, 差距是肉眼可见的。这一步验证真正证明的不是完整 harness 更花钱,而是它把结果从表面上向成品拉到了核心能力真的可交付 harness 有 效了。但这里有一个很多团队容易忽略的问题。 antropic 在 构建有效 agent 里说过一个构建哲学永远从简单开始,找到有效的方法之后,还要继续找更简化的方法,更低成本的方法。 这就进入了第四步,通过消融实验找出真正承重的部分,再随着模型升级持续做减法。 这是全书最有价值的地方。前面三部很多团队也会做找问题加结构跑验证,但跑完验证就停下来, harness 会越堆越厚。 第一版 harness 跑出来结果不错,但它也很臃肿,很慢,很贵。作者意识到 harness 里的每一个组件都编码了一个假设 模型,自己还做不到这件事。这些假设值得被主动验证,因为他们可能一开始就是错的,也可能已经过时。 你不能因为某一套 harness 一 度有效就把它永久供起来。你要反过来问,这里面哪些组建真在补模型短板,哪些只是当时模型弱时的临时支架? 随着模型升级,减法一直在发生。 opus 四点五的时候,上下文焦虑已经大幅缓解,上下文重置就被拿掉了,改用 agent sdk 的 自动压缩来处理。上下文增长到了 opus 四点六, 模型原声能连续工作超过两小时,任务分段也不再需要了。与此同时,评估器改成全程结束后集中评估一次,不再逐冲刺打分。 用简化后的 harness 去做浏览器端的数字音频工作站,三小时五十分钟一百二十四美元,评估器依然抓到了真实问题,音频片段不能拖动录音,只是站位实现,没有均衡器,曲线可化。 这推出了最后结论,评估器不是一个固定的适或否,只有当任务超出当前模型能可靠独立完成的边界时,它才值得那笔额外成本。模型越强,这条边界越往外移。 但只要任务复杂度也在同步提升,评估器就永远不会完全消失。我们最后回顾一下这四步。第一步,先诊断再设计,找到模型在真实任务里缺口在哪里。 第二步,针对缺口只补最小必要结构,每个组建都要能回答它在补哪个短板。第三步,放进真实任务验证,要看它有没有把结果从相完成了拉到真的可交付。 第四步,主动做消融一套 harness 一 度有效,不代表它永远有效,要持续问哪些还在承重,哪些已经是临时支架。 这四步形成一个闭环。 harness 是 模型能力缺口的临时解法,它的宿命就是随着模型变强被一点点拆掉,但 harness 的 组合空间不会缩小,它只是在移动。 真正的 ai 工程是持续找到模型,当前还做不到什么,在只为这些缺口设计下一套临时解法。这里是慢学 ai, 我 们下期再见。

港大最新开源 open harness, 四天冲上八千星! open harness 最吸引我的是它对 agent 基础设施的极简重构。港大团队将 call 五十一万行繁杂的 ts 代码,精简为仅一点一万行的纯拍脏实线, 体积缩小四十四倍,却保留了百分之九十八的核心工具链。它彻底解决了黑核痛点,采用模块化子系统架构 engine、 turbo hux memory 等,让 agent 的 每一个决策环节都清晰可见,可定制内置四十三个工程化工具,完美兼容本地模型。 最实用的是它的安全审批与任务分发机制,非常适合在个人开发或团队协助场景下,作为轻量级的 ai agent 底座进行二次开发。感兴趣的朋友欢迎评论区交流。

谷歌把 openclaw 禁了, cloud 也禁了,然后 openai 怎么干的? openai 直接把这个源代码的作者给招安了, openai 把它这个 agent 买过来,然后变成了官方版本的 agent。 但是我觉得 openai 真的 很高明,技术打不过技术,但是组织能打得过过个人。就是这个 openclaw 它的作者叫 peter 皮特,真是个天才,其实是一个很好的产品。我看很多博主在分析这个 openclaw 它的市场,它的价值,比如说你你想找个对象,你自己可能不知道怎么跟对方聊,那这个前期 a 这个 openclaw 它可以帮你去 做一个一个互通有,而且他的聊天能力要比你个人的聊天能力要强很多。哎,我觉得这个 openclaw 他 是还是挺有价值的。我觉得 openclaw 他 这次被禁,我觉得他有起到了几个作用,第一个就是,哎,他推理 就是 ai 公司,它的成本在推理。第二个就是 ai 的 商业模式,像那种订阅制是存在漏洞的。第三个就是企业在企业里面未来的一个 最关键性的指标。三个那些创新者作为这些巨头,他应该如何对待这些创新者?一般是你不是要把它扼杀,你应该是把它招安, 因为他做的这种产品出来之后被被这么多人喜欢,那存在即合理,我们不是把它打压,而是应该让他这个产品更合理化。

告别笨重的代理框架, open harness 带你进入轻量级 ai 代理时代。香港大学 h k u d s 团队最新开源的 open harness 简直是开发者的福音,一键启动, 一个欧命令开启全能代理,极致性能比 cold code 轻四十四倍,运行如丝般顺滑,安全可控, 拥有精细的全线管理模式,国产友好完美支持 kimi 等国产大模型后端代码及框架模型及代理。想打造自己的专属 ai 开发助手,快去 github 围观吧!

多人以为 ai 正在替代程序员,但更准确地说, ai 只是先重写了工程师的工作。如果你用个 cloud code 或者 code, 都会被 ai 的 代码能力惊艳到。但如果你从工程的角度看, 真正重要的不是他写了多少,而是这个工程师在这个系统里面的职责已经发生了变化。 open ai 在 这篇文章中讲的很明确,他们的工程师不再主要经手写代码,而是更多的去设计环境,明确意图,搭建反馈回路,让智能体能够持续的完成任务。 这件事情为什么重要呢?因为它意味着未来工程师的杠杆点不再只是我能不能把这段代码写出来,而是我能不能把一个模糊的目标拆成一个智能体,可以执行验证纠错的任务系统。 你会发现, ai 时代最值钱的能力开始发生了迁移,以前你最值钱的可能是实现能力,现在你最值钱的可能是建模能力。你要能够定义目标、拆解步骤、设置边界,埋入一些验证点,设计失败恢复的路径。 因为当 ai 真正参与生产之后,很多问题已经不是写不写的出来,而是能不能稳定的写下去。 open a r 在 这篇文章里面其实给了一个很强的暗示,早期呢,进展慢,不是因为扣代史太弱,而是因为环境不够清晰, 缺工具、缺抽象、缺结构,智能体,就不知道怎么把高级目标拆解成可靠的执行。 所以未来工程师最核心的变化不是从写代码变成只提需求,而是从执行者变成一个系统的设计者。你不再只是把答案做出来, 你要把一套让 ai 稳定输出答案的系统搭建出来,这才是我觉得这篇文章最值得看的地方。 ai 不是 先代替了工程师,他只是先重写了工程师。 未来高杠杆工程师不是写代码最快的人,而是最会把目标变成系统的人。你觉得未来工程师最重要的能力还是写代码吗?