hi, 大家好,欢迎来到今天的深度解析。作为工程师,你肯定经历过那种让人抓狂的时刻,对吧?就是你给一个多阶段的 agent 随便丢了一句提示词,指望他能帮你搞定一个复杂的任务。结果呢?跑到一半,他的思路彻底断了,甚至开始在哪胡编乱造 api, 你盯着屏幕,根本不知道哪一步出了幺磨子。今天咱们就来彻底解决这个问题。我要给大家介绍一个结构化救星, o p c 框架,也就是一人公司框架。 我们会直接拿一个真实的 openstack 变更流开刀,掰开揉碎了,看看它到底是怎么从最初的输入,一步步稳稳当当走到最终校验门的。 好的,这是咱们今天的路线图,咱们会按时间顺序从底层的架构原则启动接入,一路讲到核心的变更流、执行状态交接,最后是退出验证。当然,最后还会给大家送上一份超级实用的调试指南。 ok, 咱们先从第一部分开始架构与运行原则。先来摸清 opc 的 仓库地图。 在让 agent 跑起来之前呢,咱们得先在脑子里建个地图。你想想,为什么面对随口说的一句提示词,多步骤的 agent 那 么容易翻车?其实原因很简单,如果没有极其严谨的协议约束,这种复杂的任务在多部流转中百分之百会丢掉他的思考链条。 这就引出了我们非常漂亮的一个解决方案, o p c harness, 也就是总控。如果你是第一次接触这个技能包,听好了,你可以把它想象成根目录下的超级交警, 他自己其实不干具体的活,不且代码,但他是一个绝对的掌控者,他强硬地把诚心路由分配、状态管理、主机能执行,还有收尾和回报死死地串联在一起。 接下来看这个对比。这一点特别关键,也是大家最容易搞混的。你得区分开什么是 protocol 协议,什么是 playbook 剧本儿。 左边 references 目录里的协议,那是法律,是死规矩,接口怎么定义就怎么来,没有任何商量的余地。而右边 playbooks 里的剧本呢?它是针对具体场景的最佳实践是告诉 agents 在 某种情况下推荐你怎么做的工作流。 明白了规矩,咱们进入第二部分,看看启动阶段, agent 是 怎么稳稳当当接下任辱,守住起跑线的。 整个流程的起点啊,永远是 o p c context intake, 也就是澄清门禁,它负责干嘛呢?就像安检一样,查查有没有什么致命的缺失信息,或者能不能用默认值对付过去。如果信息不够,对不起流程,直接卡住,绝对不下菜。 安检过了之后, o p c router 路由器才会接受来安排执行的优先性,最后输出一个执行计划。 这一部最最关键的产物,就是这个 root contract 路由合同。这是一份极其标准的协议,上面白纸黑字写清了用户的意图,你要干嘛,用什么主机,能遇到问题怎么降级?还有各种接口证据。 记住,除非这份合同完整生成并且验证通过,否则 agent 连一步都别向,往前走 好,起跑线守住了。第三部分,咱们直接进入执行阶段,来看一条 openspec 变更提示词的真实生命周期。 这里我要特别强调一条铁律,这可是严格基于 playbooks 和执行模型描述写下的。如果在你的输入里检测到了 u i 元素,比方说你丢了个 fake 码的连接进去,那么听着, 不管你的主任务有多十万火急,流程必须强制绕道,他必须先去跑 opc design context, 抓取设计上下文,这里头绝对没有任何即兴发挥的空间。 这样以来,整个 openspec 的 核心执行进度就非常清晰了。你看,先过澄清门禁,发现 figma 就 去读图。 这两步搞定后,系统才会真正唤醒并执行主要的 openstack 子技能。最后再老老实实按照交接协议把做好的东西递过去,这整个链部完全贴合咱们前面说的剧本描述,严丝合缝。 第四部分,技能跑完了,咱们聊聊怎么交接,怎么在流转中保持线索不断。 咱们都知道啊,主机能跑完,绝不等于万事大吉。如果在交接的时候把关键数据弄丢了,那之前都白干了。所以我们需要 o p c state, 这就是 agent 的 记忆中书, 它实际上就是个 state day jason 文件里面死死记录着咱们走到哪一步了,还有啥没确认,依赖像是啥,你可千万别去预测它的行为,它就是一份纯客观的用来防丢的记事本儿。 你看这张图,它相当于咱们 o p c 的 部门的导航。其实状态交接就是在这些职责分明的子技能模块之间传球。就拿咱们的 open speck 变换流来说,产品与变换模块处理完之后,下一个动作就是干净利落地把状态球传给构建与平射模块。 球传过去之后就进入了 post chain, 也就是后置链路。这可不是随便结束的,它是为你量身定制的收尾动作。比如 openspec 流程,它肯定会触发 o pcm review 这种门禁,干嘛用呢? 就是强制让产品经理视角的逻辑来复合一遍,确保你这产出物完全符合咱们一开始定下的剧本标准。 好了,第五部分,咱们终于来到了流程的尾声,退出校宴门,来看看怎么验证 agent 的 最终工作。 在这儿,系统绝不能轻飘飘甩下一句,我搞定了!就算完,任何 agent 都没法绕过这个 exit gate, 也就是退出校宴门。 在这里, opc reporter 必须得生成一份人能看懂的结构化报告,作为工程师,你就是拿着这份报告去跟一开始那份路由合同逐条兑现,这就是你验证 agent 到底有没有乖乖履行协议的终极武器。 那么万一出错了怎么办?这就是咱们第六部分的内容了,专为工程师准备的调试指南,教你怎么精准定位断掉的链条。 各位第一次接触这套机灵包的朋友,听我的,赶紧截个图,当你的 openstack 流程崩了,这就是你的排错圣经。一开始就跑偏去查路由合同的 intent, 意图跑到一半卡死。赶紧打开 state 点 json 看看是不是缺了依赖文件 做出来的东西。不对劲,去扒后置脸录,看看交付物是不是跟剧本冲突了。只要照着这张表上的关键属性去查,你绝对能把 agent 的 错精准揪出来。 这就引出了 o p c 框架最不可触碰的底线原则,简直太经典了,绝不伪造外部结果,如果紫技能缺失或状态损坏,应当优雅降级。 意思就是如果 a 阵发现自己少了个子技能或者状态文件坏了,他绝对绝对不会给你编造一个假的 api 响应来糊弄你。这种严格的降级策略从根本上保障了整个系统的可信度。 好了,咱们总结一下,今天咱们把 openstack 变更流从怎么接入怎么签合同一路扒到了最后的椒盐门,连怎么调试纠错都弄得清清楚楚,整个执行模型可以说极其严密, 但是在最后,我想留给大家一个非常现实的思考题, opc 确实能用这些冷冰冰的合同把 agent 管得服服帖帖,一点儿幻觉都不生。 但是你们的团贷准备好了吗?你们现有的组织流程真的能够接住并且在现实里落地这套如此严苛的运营合同吗?大家好好想想吧!今天的解析就到这里,咱们下次再见!
粉丝56获赞331

今天分享一个通过 harness 工程八十亿参数的本地模型,在多部 agent 任务上打赢了没有纠错层的 cloud sonnet 的 案例,不是在某个特定 benchmark 上刷分,是在二十六个真实的多部工具调用场景里端到端地赢了。模型没换,加的是五层外部防护栏。 这个项目叫 forge, github 上可以直接搜到。论文已经被 a c m 接收。今天从原码层面猜一下它具体做了什么。先说为什么小模型做 agent 这么难?这是一个复合概率问题。假设你的模型单步准确率是百分之九十,听起来很高, 但如果一个 agent 任务需要五步才能完成,五步都对的概率是零点九的五次方,等于百分之五十九,十步的话只剩百分之三十五 单步准确率。百分之九十的模型在十步工作流中的通过率只有三分之一。这不是模型笨,是概率的数学性质。 大模型为什么看起来没这个问题?因为他们的单步准确率接近百分之九十九,零点九九的十次方还有百分之九十。但八十亿参数的本地模型做不到百分之九十九的单步准确率。所以问题变成了,能不能在不换模型的本地模型做不到百分之九十九的单步准确率。所以问题变成了,能不能在不换模型的有效准确率提上去。 forge 的 答案是五层防护第一层救援解析。小模型最常见的失败模式是,它知道该调什么工具,传什么参数,但输出格式不对。 它把工具调用写成了自由文本,而不是结构化的 json。 forge 的 做法是在判定模型没有正确调用工具之前,先尝试从自由文本里抢救出有效的工具。调用 源码里的 rescue to call 函数支持三种抢救策略,第一种,输出的 json 被代码块包裹或者反引号包裹,使用正则,提取纯 json 格式字符串。 第二种,识别一种叫排练语法的格式推理模型,在思考过程中会用一种特殊格式预演工具调用 for 指能识别并提取它。第三种,识别困系列模型的 x m l 格式工具调用。 这一层的作用是,模型的意图是对的,只是表达方式不对。与其惩罚它重来,不如直接把正确的意图提取出来。第二层重试提示, 如果救援解析也失败了,模型确实没有产生任何可识别的工具调用 for 只会注入一条纠正消息,告诉模型你上一次的回复不是有效的工具调用,请用工具调用格式重试。如果模型调用了一个不存在的工具名, for 只会告诉他这个工具不存在。可用的工具有这些,选一个。 重试有预算限制,默认最多三次,超过三次就报错终止,不会无限循环。每次成功的工具调用会重置重试计数器。第三层步骤,强制执行。 这是 forge 最有特色的设计之一。很多 agent 任务有前置依赖,你必须先查询数据才能做分析,最后才能给出结论。小模型经常跳步,直接调用最终的工具,而跳过中间步骤, forge 的 step enforce 会检查模型是否在所有前置步骤完成之前就试图调用终端工具。 如果是注入一条升级式的纠正消息,升级式是什么意思?第一次跳步,语气礼貌,你还不能调用这个工具,请先完成这些步骤。第二次跳步,语气直接,你必须现在调用这些工具之一。 第三次跳步,语气强硬,停下,你必须调用以下工具之一,不要调用终端工具。三次之后,如果模型还在跳步,直接抱错中指。 还有一个工具前置条件机制,某些工具只有在另一个工具被调用之后才能使用。比如获取详情必须在搜索列表之后才能调用,因为你需要搜索结果里的 id。 第四层,错误,恢复,工具执行可能失败。参数类型错误,网络超时,数据不存在。 forge 把错误信息反馈给模型,让它自我纠正。这里有一个关键的设计决策, forge 区分了代码有 bug, 权限不够 这种错误,记入连续错误,计数器超过两次就终止。第二种是解析错误,工具调用格式正确,参数类型也对,但数据不存在。 比如你查了一个不存在的用户 id, 这不是工具的问题,是模型猜错了参数。 forge 为第二种情况专门设计了一个叫 tool resolution error 的 异常,它的语义类似 http 的 四百零四,请求格式正确,但资源不存在这种错误,不记入连续错误,计数器不会触发终止, 只是告诉模型换个参数再试。为什么要区分?因为如果不区分,模型猜错三次,参数就会触发终止。即使工具本身完全正常, 把两种错误混在一起,会让系统过早放弃。第五层,上下文,压缩多部工作流,会产生大量的上下文,每一部的工具调用工具返回结果模型的推理过程,纠正消息在消费级 gpu 挤到 cpu, 速度降低十到一百倍。 forge the tiered compact 策略是三阶段,确定性压缩。第一阶段,删除所有纠正消息,把旧的工具返回结果截断到前两百个字符。 第二阶段,如果第一阶段不够,直接删除旧的工具返回结果,但保留模型的推理过程,因为推理是模型对数据的解读,丢了推理比丢了原始数据更致命。第三阶段,如果还不够,删除推理和失败的文本回复,只保留工具调用的股价。 关键设计,最近的几轮对话永远不压缩,只有老的内容才会被压缩。而且三个阶段都是确定性的文本操作,不调用模型,零延迟。还有一个 vram 感知的预算机制, forge 启动时查询 nvidia smi, 获取 gpu 显存总量,根据显存大小自动设定上下文。预算 小于二十四 gb 的 显卡预算四千 token, 二十四到四十八 gb 预算三万两千 token, 四十八 gb 以上预算二十六万 token。 这防止了一个很隐蔽的问题, alma 和 lemon file 在 显存不足时会静默回退到 c p u, 推理不给任何警告,速度直接降十到一百倍。用户以为模型在正常跑,其实已经慢了两个数量级。 还有一个源码里发现的有意思的设计, forge 引入了一个合成 respond 的 工具。问题是小模型在有工具可用的时候,经常搞不清楚什么时候该调工具,什么时候该直接回复文本, 它们会在该调工具的时候输出文本,或者在该回复的时候强行调工具。 forge 的 解法是给模型加一个叫 respond 的 虚拟工具 模型想回复文本的时候,调用 respond 工具并传入回复内容,这样模型永远处于调工具模式,不需要在调工具和输出文本之间做选择。 源码注示里写得很直白,小模型不能被信任,去正确选择文本和工具调用之间的模式。评测数据显示,信任模型自己选择会让工作流完成率从百分之百降到百分之四。效果数据 在 forge 的 二十六个场景评测中,最佳配置是 minister 三八 b instruct q 八跑,在 llama server 上得分百分之八十六点五。没有防护的 cloudsonnet 在 同样的评测中得分百分之八十七点二。 八十亿参数的本地模型加上五层纠错层,逼近了没有纠错的前沿避源模型。消融实验显示,去掉救援解析得分下降, 去掉重试提示得分大幅下降。去掉步骤强制执行得分下降。去掉错误恢复得分下降, 去掉上下文压缩,在长工作流中得分崩溃,五层缺一不可。还有一个推理后端的发现,同一个模型权重在 lama server 下用原声函数调用的准确率只有百分之七。在 lama file 下用提示注入模式的准确率是百分之八十三。 七十五个百分点的差距仅仅来自推理基础设施的选择。这意味着什么?意味着这个模型工具调用不行。这个结论可能是错的,可能不是模型不行,是你的推理后端不行,或者是你的防护层不够。 一句话总结, agent 的 可信瓶颈是复合概率问题,单部准确率不够高的时候,多部工作流的通过率会指数级下降。解法不是换更大的模型,是在每一部加外部防护层把有效准确率提上去。五层防护, 每层几百行代码,总共让一个八十亿参数的本地模型在 agent 任务上逼近了前沿闭源模型的水平。模型不变,系统变了。

遇到有些朋友,他还在博主的评论区求 ai prompt 提示词,或者说甚至在买提示词。我想告诉朋友们,提示词时代已经是 ai 的 时期时代了,就是它已经非常非常非常古老了,现在已经是 hernes engineering 的 时代了。大家可能在别的地方听过这个词, 觉得它很高大上。给我一分钟,我来讲清楚 hernes engineering 时代跟前一个时代的差别是什么,以及你应该如何快速上手赶上 hernes engineering。 ai 的 新时代, 也是 ai 充分充分爆发能量的一个时代。首先这个 harness 它其实就是马鞭的意思,那现在这个 ai 是 一个怎样的时代呢?你可以把 ai 当做马,让它代替你走路的一个时代,这是一个比喻,但实际情况下呢,就是本地 ai agent, 它可以通过 一个你的设计,成为你的私人的秘书,帮你去整理信件,帮你去制定日程,帮你去生成一个每日输入的摘药等等等等,就是它可以干任何你可以通过电脑干的事情。而上一个时代,我可以比喻成它没有给你提供马,也没有让你真的学会如何育马。所以说我们如何赶上这个 harness engineering 的 时代呢?三步很简单, 首先不要再使用 ai chatbot 进行对话了,不管是叉, gpt, jimmy 还是 ipsec 等各种各种对话工具,它没有办法帮你实质性的做内容。除了给你一堆文字以外, 你可以使用任何一个本地 ai agent 工具。可以看我主页测评,我测评了很多,包括呃,预三加、 cloud code to docs 等等等等。你可以选一个就是你认为最好用最称手的工具。第二个就是你一定要开 play mode, 任何 ai 它都会有,任何 ai 成熟的 ai agent 它都会有 play mode, 这样子就相当于让你的 ai 强行成为真人, 通过跟你对话制定计划的形式,让你的整个 ai 使用效果就会充分的提升。第三个就是你跟他只需要像朋友一样说出任何具体的需求是什么样就可以了。不需要去纠结什么提示词,只需要清晰的把你想法一股脑的通过什么语音转文字的工具倒给 ai 就 可以了。比如我之前想做一个七层相关的一个演示文档,然后我直接让 ai 帮我生成一个网页版,你可以看到它这交互非常非常棒,而它几分钟就可以生成。 你也不需要任何复杂的提示词,只需要提出你的诉求,然后让他帮你做就可以了。以上就是我分享的文科生快速赶上 ai 新时代的一个写秀办法,我是花茶陀夫,主页有更多文科生 ai 写秀系列,以及我在挑战三十天从零分到万分,欢迎成为我的早期股东。

今天来整个大火啊,手机本地运行,电脑三 a 艾尔灯法环依旧是先开启飞行模式,证明一下,这个不是云游戏,也不是串流,确实是可以运行的,可以在手机上正常跑起来哦。 主播,这个是枭龙八根三的手机,就是这个运行帧数不太高,如果有性能释放更好的处理器,据说可以达到三十帧啊! 整个安装方法还是挺简单的,安装包大概四十 g 左右,手机和电脑都是通用的,想折腾一下的小伙伴可以去试一试。主播置顶的视频教程,有安装教程,然后游戏安装包在 pc 本底合集的十六号文件夹内。

今天和大家去聊一下 starbucks 在 上周发布的一篇文章,关于大项目里边实际去使用 cologne 的 一个最佳实践。那这篇文章里边其实大概讲了 cologne 怎么来用,然后后边呢?其实主要去讲 harness 为什么重要? harness 工程怎么来去做? 这里面其实我认为有很多东西的话,我们之间已经讲过很多遍了,那这里面非常关键的一个点呢?我认为是有两张图的,那一张图呢,其实是关于 colaco 的 这个 harnis 的 一个 session 里边,不同的这些组件在整个 session 里边占的一个周期和量级是什么样的?那第二个呢,就是这些组件 有很多地方其实是被我们误用的,那误用的地方呢?是有哪些?那所以我认为这两张图是非常关键的,我跟大家先讲一下整个的一个流程和这篇文章的主 主要的骨干,然后我们去主要介绍这两张图非常有价值,非常有收获。其实整个文章啊去讲 cologoth 在 一个大型编码中的一个最佳时间,实际他去讲的其实是 harnes 的 一个最佳时间。这边在说为什么我们使用 cologoth 的 时候,我们再用本地的代码去剪辑啊?因为这个 public 呢,其实它是有一定的一个时间周期的, 那这个时间周期下的一个处理呢,其实会让我们误读很多文件,所以会导致代码的不实时性,所以呢他就直接去使用读代码这个 grab 的 方式去读取。 那如果我使用直接读的一个方式呢?那其实我更希望的话是他能知道我现在的代码呢,到底的结构是什么样的?那这个呢,就是我们多次去提到这个 cloud 点 md 的 一个文件,它就隐身出了一个 harness, 那 harness 它的核心的组成呢?其实是有五大部分的,那 这五大部分呢?就是一个是 cloud 点 md, 我 们知道整个的这个目录的信息和需要注意的关键点是在哪些,还有呢就是在整个 a 阵生命周期里边的 hook 我 们怎么来做?然后能做哪些功能? 还有一些呢?我们认为是一些流程性的一些东西, work flow 的 东西,我们把它变成一个 skills, 然后这些 skills 是 人来去使用也好,是给 ai harness 去用也好,这也是非常关键的一部分。 还有呢就是我们要把这些搭建好的东西进行一个组织和团队的一个传承,那就用到一个 plagis, 把它进行一个打包和一个分发。 还有呢有一些工具呢,我们需要把它进行一个结构化,暴露出来之后呢形成一个服务,那这个服务呢通过 m、 c、 p 的 一个协议呢接入进来,那除此之外呢, l、 s, p 呢,也就说我们知道整个代码里边的关键定位是怎么样的,而不是说通过整个的字母串呢,就去读这些代码的 l、 s、 p, 然后和里边的 sub agents, 这两个呢,又把上面的整个能力呢,又给它进行了一步的增强。那所以呢,这就到了我们非常关键的两个对照表了。那第一个对照表呢,我们就讲这些组件儿,它其实误用的地方是在哪儿?我认为这个其实是非常关键的,你比如说 cologold 啊,它最常 见的一些误区呢,就是我们把所有东西都放在 cologold, 那 这个不其实是不对的,我们应该把一些 skills 这些东西呢,我们应该放在相关的一个技能里边,比如说它是一个 workflow 型的一个东西,我们应该把这些东西拆出来,而不是说全都放在 colog 点 m d 中。所以对于 cloud 点 m d 的 误区呢,就是我们把 skills 的 一些东西其实也放在 cloud 里边儿,那我们 cloud 点 m d 里边儿应该保证它非常简洁。那 第二块儿呢,就是关于 hux, hux 里边儿其实最适用的其实是在固定的一个生命周期里边儿,我们触发一些事情,比如说 commit 啊,或者固定的 t d d, 固定的 review, 那 这些是比较适合于整个生命周期的一个触发的。那对于一些提示型脚本,比如说提示词的一些东西的话,其实我们不需要去放在 hux 里边儿,我们更多的话是把它放在一些 一致性的一些检查呀,然后还有一些固定化的一个,嗯,陷入到生命周期这种调用我们才使用 hux。 那 skills 呢,就是我们保证专业的东西呢,可以让它专业化的这些东西呢,我们就放在不同的这个 skills, 而不是说把它全都放在 collab 里边,这个跟我们上面说那点是一样的。 然后 plugins 呢,我们就发现啊,有很多我们自己用的已经很好的东西,但是如果你要让它去呃团队扩扩展起来去用的话,其实你最好的方式是把它进行了一个打包,然后团队呢都有相同的一个环境,那这是 plugins 的 一个应用,那很多时候我们其实是放在呃本地的一个环境里面,大家其实是无法进行复制的。 那对于 lsp 呢,其实我们最多误解呢,是以为这是 coloclo 自带的一个一个方式,其实并不是,它更多的话是基于现有的一个环境,然后我们可以通过伏尔级的东西去固定的呃,去准确的定位到相关的目录里边,所以呢,这类能力其实不是模型本身的一个能力。 那对于 mcp 的 这个 server 来讲的话,就是我们的 harnis 其实还没有搭建好的时候,其实我们就着急去建很多的 mcp servers, 其实我就见过很多企业,他们在做一个东西,就是 呃,我现在要把所有的接口都进行 m c p 化,其实这个呢,对应这一条来讲,它其实也是错误的,就没有必要把所有东西都建成 m c p, 你 需要把它的基础设施啊,然后它的约束啊,它的 hux 啊,生物周期的侵入,把这些东西先做好,然后慢慢呢,我们一步一步再结合 m c p servers 来做。对于整个 seven ages 啊, 我们最大误区呢,就是我们不见 sam 一 阵子,我们把所有的这里边的探索,呃目录啊,探索项目啊,然后呢,包括改 bug 呀,包括主流程的一些设计思考和编码工作,我们都放在一个对话中了,那这个其实是错误的,其实更多的时候,比如说我们再探寻一个项目也好,我们再写一个测试用力也好, 那这个过程呢,我们需要给 subordinates, 让主 agent 呢有更干净的一个上下文,那这个呢,是非常重要的一个点,那这些点呢,其实就促进了我们可以把整个的 harness 做好,那所以为什么我认为这张表呢,其实是非常关键的。 除此之外呢,这还有一张它整个的一个 harness 的 一个 session time, 它们所占的时间,我为什么觉得这张表是非常关键呢?其实你会发现啊,这里边占的时间越多的地方呢,其实是我们更多应该花时间去做的一个地方,就它收获会比较大。呃,比如说我们会把 cloud 点 m d 这个文件呢,它在整个绘画中它占的这个比中是非常大的, 我们就把这个文件需要给它好好去设计一下。其实所以你会发现之前我在讲很多关于 cloud 三层设计也好啊,其他设计方式也好, cloud 点 md 这个文件其实我们经过了很长时间打磨和探索,然后除此之外呢,有一些固定化的东西,可以沉淀化的东西呢, 我们要嵌入到生命周期中,所以你会发现 hux 也是非常重要的。我们比如说,呃,沉淀的一些复利工程也好啊,然后去做 ttd 也好啊,然后去做 review, 自动化的一些 review 也好,我们把 hux 做好。那其实你哈尼斯这两部分其实你已经完成很多了嘛? 还有一部分呢,就是关于我们要把上眼纹做的比较干净的情况下,我们把问题解决。所以呢,你如果可能情况下,你多做一些 sub agency, 因为它也是在整个 section time 里边占了很多的周期的。那剩下其实就比较符合我们的直觉了,就是我们 lsp, 我 们开了之后呢,然后固定了 workflow 呢,我们就变成 skills, 然 然后有一些需要提供服务,需要让模型去掉,我们就变成 m, c, p, 然后最后呢把这些所有做好的东西呢,进行一个打包分发和共享,让团队呢都可以基于这一套 harnis 去做,有效的去做开发。所以这两张图呢,我觉得是非常重要的,那这些内容呢?分享给大家,希望呢?对大家都有收获,关注雷哥,关注 ai 工程化落地。

很多人以为云端 a 键就是把本地 a 键搬到服务器上,可 sir 这篇文章真正的爆点是不是搬家,是给 ai 穷造一层操作系统?为什么 本地 a 键是借你的电脑干活?文件依赖网络登录状态全都现成?云端 a 键一向来就像被丢进一间空办公室。聪明归聪明,但桌子要洗,工具网线都得重新配齐。最麻烦的是环境,缺东西时,它不一定会大喊,我坏了, 更多时候只是存储剂量悄悄下降,你以为模型变笨了,其实可能只是它没有办法运行验证访问该访问的东西。所以科瑟的第一课很狠,开发环境本身就是产品, 云端 a 剑需要占用虚拟机,依赖嗅控、网络屏障管理机密脱敏,还要能休眠恢复,复机出新的工作间。第二课是长跑。 云端 a 键做的不是一分钟问答,而是可能跑几小时、几天甚至几周的任务。中途推理服务会抖,机器会换,节点会挂,如果没有任务存档,一次固降就可能前功尽弃。科 sir 一 开始用的是类似工人接活的架构,能跑但很脆。 后来他们签到 templar, 把穷系、跨机器调度、固降恢复这些能力交给持久执行到两个九以上。 更有冲击力的是规模 temporal, 每天处理超过五千万个 action, 覆盖超过七百万个工作流,可 sir 内部超过百分之四十的 pr 已经来自云端 agent。 第三课是把三件事拆开。 agent 的 思考循环,机器状态、绘画状态。它们不能绑死在同一台机器上,因为一个 agent 可能派出自 agent, 也可能换到预热机器,甚至自 agent 活得比负 agent 还久,绘画瘤也要单独处理。 想象你在看一场直播, a 键已经输出了一半,结果中途失败重试。如果没有回滚机制,用户会看到旧答案和新答案混在一起,可 sir 用 g g 加的绘画流,让客户端能倒回去,再显示正确的新数据。第四课是知道什么时候退到一边。 早期系统不信任 agent, 所以 到处印编码、强制检查、强制提交。模型变强后,科 sir 开始把更多决定权放回工具里,告诉他仓库不及给他分机和 p 二工具,让他自己判断怎么完成任务。 但 harness 没有消息,他变成了安全护栏、工具箱和观察台,比如电脑操作,还需要专门的紫 agent 模型,路由屏幕、路际浏览器、环境 系统提供舞台, agent 决定什么时候上场,最后一刻是自愈,未来好的云淡。 agent 不 能只是卡住,等人来看,他应该能发现我确密要网络被党,环境不完整,然后主动报告,甚至自己修复。 所以这篇文章真正公开的,不是一组小技巧,而是一个新判断。云端 a 箭的产品核心不仅是模型有多强,而是你能不能给他建一个会恢复、会分身、会记账、会自检的工作系统。 下一次你看到一个 a 剑好球,能在云端替你干活。别紧问他用了哪个模型,要问他有没有完整环境,任务能不能断点续跑,状态有没有解偶,失败能不能回滚,出了问题,他会不会自己搅乱? 因为真正的云端 agent, 不是 一个更圆的聊天框,它更像一座给 ai 使用的微型城市,有办公室、有交通、有安保、有维修队。而科 sir 这篇文章就是把这座城市的地下管线画给我们看。

今天上期,今天我们继续深入看看 hannis 的 核心思想到底是什么。如果只是前三步,他能干活,能修 bug, 也可以跑流程,但是一个工程并不是一口气做完的。 a 阵呢,可能今天修支付,明天改飞书,最后呢,再去弄授权,中 间会切换到很多的窗口模型。最大的问题就是,他可能不知道上一轮改到了哪里。就像你入职一个公司,你需要和原来的岗位负责人交接一些基本的情况, 这就是状态与记忆层的作用,他并非记住你所有的东西,而是记住某些任务的进度,关键的决策以及失败的现场,然后用 a 证的可以理解的方式去保存下来。相信 web 扣件的朋友一定知道,很多时候呢,你提出了一个需求,他明明没有完成,但是他却交付了。这是因为 a 证呢?写完后觉得自己完成 页面能不能打开,他没有看付款能不能成功,他不会去跑,所以哈,依旧有支付系统。举例子, 确认订单后要真的打开订单的状态,模拟付款后要真的回看回调的日记。瘦身成功后,要真的确认用户的权限。备注拉群之后,要真的看用户有没有进群。这就是测评的意义,不是 a 证他一句完成,而是给他仪表盘日制和截图,让他知道是否真的完成了。 不知道有人是否经历过被 a 证的删除重要文件以后的烦恼。你不能指望 a 证的很听话,我们必须让他物理上去不犯错,比如说,哈,不能修改无关的文件,不能凭感觉去重写代码,不能绕过测试等等,需要明确的告诉他规则、脚本、测试权限以及审批。 即使我们已经做了很好的约束限定,他依然有可能会犯错。所以呢,我们需要修复 agent 呢?改坏了,需要知道是哪一步坏的方案失败了,是否可以回到前一个 commit, 这就是约束与恢复。而我们前两期视频提到的六个层面就是一个完整的 harness 范式。 harness 最初希望解决的问题就是我们应该如何和 ai 更高效的协助,这是一种思维习惯,每当 a 阵能犯一次错,你要把这个错误转换为一个可附用的知识资产,而这样它就可以真正地跟随着时间的推进,愈发地变得高效。而这才是 harness 厉害的地方, 它不是让 ai 更吓人,而是让系统去改善交互的范式。希望本期视频可以帮助到你,我是逍遥,我们下期再见。

欢迎来到 sv harness 这期讲 cloud managed agents 来源, hacker news cloud 托管 agent 现在能跑在你自己的服务器上,还能直接连外部工具。 原文说 cloud 的 managed agents 新增两个核心能力,自托管沙箱和 m c p。 隧道。自托管沙箱让你把 agent 的 运行环境部署在自己的基础设施里,数据不出狱,安全可控。 m c p。 隧道则让 agent 能通过 m c p。 协议直接和外部工具通信,不再需要中间转接。 这是官方伯克宣布的产品更新。对 m c p。 开发者来说,这意味着你的 agent 应用可以从原形走向生产环境了。自托管解决合规和隐私顾虑, m c p。 隧道打通了工具链的最后一公里。 h n 上讨论热烈, github 上相关项目大数在涨。 anthropic 官方伯克有详细介绍,把 agent 关进自己的笼子,再给他一把能开所有门的钥匙。

很多兄弟第一次听到哈尼斯会把它误解成一个县城框架,一个具体产品或者一个特殊 skill。 这一期咱们就把这个事讲清楚。先说结论,哈尼斯本质上是一套运行控制机制,它不是模型本身,而是包在模型外面,负责控制模型怎么做事的那层系统。 我们拿两个找酒店的简单视力作比较,第一个视力没有哈尼斯用户要求定新宿站附近的酒店,要求步行五百米以内,我们看结果,一般 agent 只算了直线距离而定错了酒店。第二个视力需求一样,我们加入哈尼斯, 由核心路径审计发现偏差,自动纠偏,我们看结果,经过纠偏预定到了合适的酒店。也就是说,模型负责提供预测出的可能性,而哈尼斯负责用真实的物理规则去校准它, 这就是 honey, 它不是一个可以直接拍 in store 的 固定库,而是一套针对具体业务场景设计的工程机制和代码模式。你学会了吗?

ai 写代码,最贵的不是 token, 最贵的是你不知道他什么时候开始胡来。 anthropic 这篇文章讲的就是这个问题,不是让 cloud 多开几个分身,而是给长时间写代码的 ai 搭一套能自我纠编的工作。现场。 作者一开始盯着两个坑,一个是前端设计, cloud 能做,但经常安全干净没记一点。 另一个是完整应用开发,你给一句需求,他能开干,可跑久了以后方向会慢慢散。所以这篇文章真正的问题是,怎么让 ai 连续工作几个小时,还不把项目做歪。 先看最朴素的做法,为什么不够?早期哈尼斯会把产品需求拆成任务,再让 coding agent 一 项一项做。这招有用,但长任务有个很现实的麻烦,上下文越塞越满,模型越容易失去连贯性。 更麻烦的是 context anxiety 模型以为自己快到窗口上线了,于是他会提前收尾,像赶着下班一样。 anselpic 当时的解法是 context reset 清空上下文,换一个新 agent, 再用结构化交接文件把当前状态递过去。 这跟 compaction 不 一样, compaction 是 把前文压缩后继续聊, reset 是 换一个干净脑袋接班, 但 reset 也有代价,它要编排,要交接,要多花 token, 流程一复杂,系统自己也会变重。第二个坑更微妙, ai 很 不会评价自己,你让他看自己的作品,他常常夸得很真诚。 前端设计尤其明显,一个页面可能能用,但味道很普通,模型自己却会觉得挺好。所以作者做了一个拆分。深沉的人只负责深沉,评价的人只负责挑刺。灵感有点像 game, 一个 generator, 一个 evaluator, 前者出作品,后者逼他往上走, 难点在前端,因为好不好看很难直接打分。作者把它拆成四个标准,设计质量,是不是一个完整的整体颜色、字体布局、图像,是不是在说同一种话? 原创性有没有真的做?选择?还是模板组建库?默认值、 ai 常见套路,工艺和功能也要看,比如层级间距、对比度,还有用户能不能看懂,能不能完成任务。 但权重不一样, cloud 本来就比较会做能用,真正缺的是设计质量和原创性。于是 evaluator 不 止看截图,他用 playwrite 打开页面,自己点击截图检查,再给出评分和批评。 generate 拿到反馈后继续改一次深层会跑五到十五轮,有些完整实验能跑到四个小时。最有意思的是博物馆案例,前九轮,他做了一个好看的暗色落地页,挺稳,但也停可预期。 第十轮,他突然换路子,页面变成一个 css 透视的三 d 展厅,墙上挂画,门洞负责导航, 这就是 evaluate 的 价值。它不是简单说再好看一点,它给 generator 一个能持续用力的方向。 然后作者把这套东西搬到全站开发,因为软件工程里本来就有类似结构,写代码,代码审查 q a, 新 harness 变成三个角色, planner、 generator、 evaluate, 每个角色补一个缺口。 planer 吃的是一句到四句的用户需求,吐出来的是完整产品规格,但它不会把技术细节写死。原因很简单,前面规格一旦写错,后面的实线会一路继承这个错。 generator 负责按功能推进。文章里的站是 react vite, fast api, sql lite, 后面也换到 post graph sql l。 evaluate 像真正 qa 一 样工作,他用 playwrite 点开应用,测 ui api, 数据库状态。每个 spring 的 开始前还有一个合同。 generator 先说这轮要做什么, evaluate 确认怎么才算做完。 两个 a 准的,通过文件沟通,一个写,另一个读再回应,这让交接变得可追踪。 作者拿一个复古游戏制作器做测试,需求只有一句,做一个二 d retro game maker。 对 照组是 solo agent, 他 跑了二十分钟,花了九美元, 完整 harness 跑了六小时,花了两百美元,贵了二十多倍。但差距也很直观, solo 版本一打开像那么回事, 可真点进去就露馅,面板浪费空间,工作流僵硬,最要命的是游戏跑不起来。 for harness 这边不一样, planner 把一句话扩成十六个功能,分布在十个 sprint 里。它不只做编辑器和试玩,还规划了动画系统、行为模板、音效、音乐,甚至有 ai 精灵生成和 ai 关卡设计, 做出来的应用更顺,画布用满式口,面板尺寸合理,视觉语言也更统一。 关键是 play mode 真能玩,角色能动,游戏能跑,虽然物理还有毛边,关卡也会卡住。 evalut 的 日制很具体,比如矩形填充工具,没真的填矩形,比如删除实体的条件写漏了。 还有一个 fast app 路由顺序 bug, reorder 被当成 frame id, 结果接口直接四百二十二。 但这个 q agent 也不是天生好用,早期他会发现真问题,然后自己说服自己算了也能过。作者后来反复看日制,找到他判断偏调的地方, 再改 evaliator 的 提示词,第一版 harness 有 效,但也很笨重,慢,贵,主件多。 作者提了一个很实用的判断,哈密斯里的每个组建都是一个假设,假设模型自己做不到这件事,模型升级后,这些假设会过期,所以哈密斯不能一直加东西,也要经常拆东西。 到了 opps 四点六,模型长,任务能力更强,规划调试、代码审查长,上下文剪索都变好了。 于是作者先拆掉 sprint 结构,保留 planner 和 evaluator builder 可以 连续跑两个多小时不散。 这时 evaluator 的 位置也变了,不是每个任务都值得让它介入任务越接近模型能力边界,它越值钱。新的测试是浏览器里的 daw, 也就是用 web audio api 做音乐制作软件,这个难度不低。 更新后的哈尼斯跑了三小时五十分钟,总成本一百二十四点七零美元,比第一版轻了,但还是很重。 qa 还是抓到了硬伤,很多 daw 核心功能只是摆在那里, clips 不 能拖,乐器面板不完整,效果器没有图形编辑。第二轮 qa 继续抓问题,录音还是假的, clip 不 能按边缘缩放,也不能切开 成品。当然不是专业刀, cloud 也听不见音乐,所以好不好听很难评。但核心骨架真的在编曲,试图混音器、播放控制都能跑在浏览器里。 更关键的是,里面的 agent 能用工具干活,他能设 tempo 和 key, 能写旋律,铺股调,混音加混响。文章收尾给的启发很清楚,模型越强,脚手架不一定越少,脚手架的位置会变, 有些旧组建可以删,有些新组合会变得可能。 ai 工程师的工作就是不断找下一个组合, 所以别问要不要多 agent, 要问的是现在这个模型在哪一步最需要被约束,被检查,被接力,这才是 long running app development ly harness design。

面向长期运行的应用开发框架哈内斯设计指南,基于安索配工程团队的实践,提炼出可落地的框架搭建方法。核心问题, 直接让 ai 一 步到位。深层完整代码对简单页面还行,但面对需要长时间运行、 多步骤交互的应用就会崩溃,要么陷入死循环,要么中途失败无法恢复。根本原因有两个,缺少反馈闭环和没有状态管理。搭建哈尼斯框架本质就是组装四个协调工作的模块, 一、规划器拆任务,把用户的大需求拆成一个个小步骤,比如做一个电商网站,拆成建数据库表时,写后端接口, 指生成前端页面的连条,每一步都要有明确的输入和输出。二、生成器, 拿到 planner 分 配的单个步骤,调用 ai 生成对应的代码关键点,每次只做一件事,做完就交出结果,不要一口气全干完。三、评估器 这一步是区别能用和好用的关键。对前端来说,检查响应式布局、可访问性、视觉一致性。对后端来说,检查接口正确性、错误处理覆盖率,把好不好看这种主观判断变成可量化的检查项。 四、状态管理器长期运行的应用状态会不断变化, state manager 负责持久化存储当前进度、已生成的代码、运行时变量等, 即使某一步失败了,也能从上一次成功的状态恢复,而不是从头再来。实际搭建步骤,第一步,定义数据流, 四个主键之间的数据怎么流转。推荐模式,从 planner 到 evaluator 到 planner 闭环, evaluator 发现问题就把反馈扔回 planner, 重新规划。 第二步,实现错误恢复,每个步骤执行前后都保存快照,失败时回滚到上一个快照点,调整策略后继续,这是长期运行不崩溃的核心保障。 第三步,引入真实反馈,前端代码生成后立即渲染,让评估器看到实际效果,而不是只分析代码文本。可以用无头浏览器由 play right 截图再做视觉检查。 第四步,逐步扩展范围,先从单页面前端做起,验证壁环跑通后再加入后端接口,生成 数据库 schema 设计,最终实现全栈覆盖。一句话总结, harness 的 精髓就是 把大任务拆小,每步都检查失败能恢复循环直到满意。四个原则组合起来,就能支撑 ai 长时间自主完成复杂应用开发。

大家好,这一节我们讲 cloud code 里的 ultra plan, 它可以把原本在本地终端里完成的 plan mode 搬到远程容器中执行,让复杂任务先在云端想清楚。 规划阶段经常很耗时, cloud 要搜索文件、读代码、理解架构,还要反复推敲修改方案。普通 planmop 运行时,本地终端会被占住。 ultra plan 的 目标就是把这段重规划工作卸载到远程,让你的本地终端保持可用。 ultraplan 背后的远程环境叫 c c r, 也就是 cloud code remote, 你 可以把它理解成 antropic。 云端运行的一份完整 cloud code。 本地 c l i 会把代码库打包上传到远程容器,远程拿到代码副本后,用 opus 四点六进行规划。 启动以后,本地终端不再负责真正的代码探索。他主要做四件事,创建远程绘画、显示任务状态,每三秒轮询一次远程进度,最后接收生成好的计划。 从用户视角看,触发方式很简单,你可以输入斜杠 ultra plan 加任务描述,也可以在自然语言里写出 ultra plan 关键词。如果账号已开放,输入框里的关键词会高亮,并提示将启动 cloud code on the web 的 远程规划绘画。 远程任务启动后,本地会显示一个 p o 状态,它大致有三种阶段, running 表示远程正在探索代码。 needs input 表示远程空闲,可能需要你到浏览器里补充信息。 ready 表示计划已经生成,等待审批。 关键点是, ultra plan 并不是直接把执行权限交给远程,它仍然以 plan mode 为边界,远程端主要负责读代码,分析问题,生成。计划真正执行之前,还需要用户在浏览器的 plan model 中审批, 审批时通常有三种选择,第一,批准计划让远程继续执行,并最终创建 pull request。 第二,拒绝计划并给反馈,让远程重新修改。第三,把计划传送回本地终端,在本地继续执行, 传送回本地依赖一个哨兵制服串下划线下划线, teleport 下划线、 local 下划线下划线。 当用户选择本地接管,这个标记会被注入反馈远程模型,看到他就停止实现,只回复计划已传送本地轮循器识别这个标记,提取计划文本,并让用户决定是否在本地执行。 从架构上看, ultra plan 的 核心不是某个单点模型能力,而是一种远程卸载模式。本地负责快速反馈和状态展示,远程负责长时间运行和高算力推理,两者通过 h t t p 轮询 x c plan mode 和哨兵自扶串协调工作。 这个模式有四个工程点值得关注,第一,异步分离,本地用后台轮询避免堵塞。 第二,状态机驱动 ui, 把 running needs input ready 映射到任务 pill。 第三, gross book 配置化模型,超时提示词变体都可以通过 feature flag 控制。 第四,孤儿绘画防护异常路径要规,当远程绘画,避免容期泄露。 所以 ultra plan 适合那些需要长时间理解代码库的大任务,比如大型重构、跨模块改造、复杂迁移方案。你可以把想清楚怎么做交给远程 cloud code, 同时继续在本地处理其他工作。 一句话总结, ultra plan 把 plan mode 扩展成了一个可远程运行、可轮询、可审批、可传送的异步规划系统,它代表了 agent 产品的一个趋势,重规划交给远程,最终控制权留给用户。

我今天呢,呃,想跟大家聊一个,就是二零二六年 air chain 比较火的一个词叫 harness engineering, 那 么 ai 的 工程呢,已经完成了三次大的一个升级,那么第一代就是写 prods, 就 prods 的 工程,那么我们是靠写一些指令去让 ai 去干活。那么第二代就是 contest 工程,我们会去给 ai 去问很多很多的信息。那么第三代就是现在的 harness engineering, 我 们就是直接给 ai 去造一个不会犯错的运行环境。 那么简单的总结一句话就是,以前呢,我们教 ai 去做什么,现在呢,我们管 ai 在 哪里去干,环境对了, ai 就 不会去乱输出,也不会轻易的翻车,这才是相对靠谱的 ai 工程。 那我们来看看它一个大概的效果,比如说那个 longchang, 它只是优化了环境,那么完模型是完全没有改的,直接从全球第三十名冲到了第五名。呃,那比如说我们的 open ai, 它用七个工程师五个月零首写代码,产出了超百万行的商业代码,全靠 harness, 那么我们就是概括了它的三个核心,第一呢就是它的向下文工程,我们让 ai 去拿到很多对的信息。那第二呢就是架构的约束,我们要去给 ai 去设一些边界,比如说他犯一次错就永远不要再犯了。第三呢就是我们的商管理,我们要保持系统的干净和稳定, 我们也问了很多我们身边大厂的一些朋友,还有我们身边的一些 ai 的 工程师。呃,我们觉得未来的工程师的核心能力就是不再是取代了,而是设计一个 ai 的 工作环境。 那我们下面呢也给出三个超简单的一个入门法,第一, ai 和手动配合,比如处理文件时给 ai 输出指令, ai 帮我们自动完成。 第二, ai 犯错了,我们可以给他制定规则,错一次补一次规则。第三,下班前交给 ai 做调研,把文件交给 ai 处理,第二天上班时, ai 已经完成了文件的整理,非常高效率。关注雪莉 ai 说我们下一期继续更硬核的 ai 干货。

你的电脑上马上就会住进一只小龙虾,它能自己干活的那种。先说说它是什么? open class 是 一个开源的 ai 助手框架,跑在你自己的电脑上,你有完整的控制权, 不是云服务,不是订阅制,是真正属于你的工具。 openclaw 出来至今,在 getup 上已经累积了三十七万的 star 了,这是非常离谱的数字,时至今日还在不停地被人关注。为什么它能持续引爆?我猜至少有三个原因。第一,名字好记, claw 就是 爪子,一听就知道抓东西还够锐利。 第二痛点够痛,反爬验证码、 ip 被封,它全帮你搞定。三十七万 star 背后是三十七万个不眠夜。 第三,飞轮已转插件案例,每周都有小红书监控大模型解析,无代码工具根本停不下来。今天我们就把它亲手部署到你的 windows 电脑上。 正式动手之前,有三件事先确认,先看设备,建议用备用机或虚拟机来做首次安装测试。 openclaw 在 执行任务时有很强的自主性,会读取甚至操作你的文件。主力机先别动,只有一台电脑的话,装个虚拟机做隔离也完全可以。然后看系统, 推荐 windows 十一或 windows 十二零零四以上版本。最后是网络要检查一下,能够正常访问互联网就可以动手了。 安装 openclaw 需要 node js 二二以上的版本。先说图形界面安装,我们搜索 node 安装,选择官方网站,这里我们选择 windows 安装程序,点击下载,这样我们就获取了 lts 版的安装包。 现在我们双击下载好的文件,按照提示一直下一步即可安装完毕。这里我已经安装好了,就不需要再次安装了,等进度条走完点关闭就行。 装完之后在命令行跑一下 node version, 看到版本号大于等于 v 二二就可以继续了。现在你的电脑上已经有了 node js 环境,接下来我们安装 openclaw, 进入网页搜索 openclaw 安装,进入官网,这里我们看到安装 openclaw 只需要一行命令, 我们复制这行命令,在开始菜单里搜索命令行工具,右键以管理员身份运行。将命令粘贴进去之后点击回车,会自动进行安装, 这里我们等待它安装完成。网络通畅的话大概三十到六十秒,中间输出的 warning 可以 直接忽略。装完之后输入 opencloud version, 看到版本号就说明装好了。 接下来运行出式向导 openclaw on board。 我 的策略是先跑起来,再慢慢调所有能跳过的,先跳过有默认值的保持不动。接下来我们还是进入官网查看出式化命令,我们复制这个命令,然后切换到控制台,粘贴进去,直接回车。接下来会进入出式化流程, 弹窗出来了,安全提示,选 yes, 回车,下一个安装模式,选 quick start, 再往下大模型配置,这里我们选 deepseek, 为什么选它?先说价格, deepseek 的 a p i 便宜到离谱,国产模型里基本是最低的那一档,日常用跟免费差不多。 再说性能, v 三和 r 一 的综合能力在国产模型里很能打,日常对话,写代码,整理文档都够你用。最后是门槛,国内直接访问手机号注册就能用,对新手非常友好。 首先我们找到 deepsea 官网,进入 deepsea 开放平台,点击 api keys, 这里有个创建按钮,我们点击创建,随便输入一个名称,点击确认,我们的 api key 就 创建好了。 页面会显示一串以 s k 开头的密钥,这串密钥只会显示一次,务必复制下来。保存好关闭页面之后就再也看不到了。 回到 opencloud 控制台,找到模型配置的入口,把刚才复制的 apikey 粘贴进去,选择 deepsafe 杠 v 四 flash 作为默认模型,它是通用型,日常任务都够用,后续需要深度推理,随时可以切换到 deepsafe 杠 v 四 pro 后面的几个界面,供应商过滤模型,选择聊天工具连接,统统保持默认。一路回车,跳过 配置完成之后,你会发现出现一个新的弹窗,这是 opencloud 的 运行页面,关了它, opencloud 也就关闭。全部完成之后我们做一次快速验证。这边我重新打开一个窗口,输入 opencloud dashboard, 会自动打开浏览器里的 opencloud 控制台,随便问一句,比如你好, 他正常回复了,整条链路打通,你的小龙虾可以正式开工了。装好了之后能做什么给你看三个典型场景,先说文件整理,我自己的文件夹经常堆满,截图下载文档混在一起根本没法看。我 跟 openclaw 说了一句, d 盘的 download 文件夹的文件按类型分类整理,他自己识别文件类型,自己移动到对应文件夹。完事还给了我一份整理报告,全程我手没碰鼠标。 再说 excel 分 析,你把文件路径丢给他,告诉他你想知道什么,他会自己读数据跑分析,直接给你结论,不需要你写公式,不需要你做透视表,你只管提问这些任务,不需要你写任何代码,只需要用自然语言告诉他你要什么。接下来的视频里,我会逐一深入拆解这些能力。 好来回顾一下今天搞定了什么。 node js 装好了, openclaw 装好了,最小化配置,跑通了 deepseek 的 api key 接上了验证通过全程。在你的 windows 电脑上,没有虚拟机,没有 linux。 如果你跟着做到了这一步,现在你手里已经有一个本地运行的可以自主执行任务的 ai 助手了。 下一期我会继续讲 openclaw 的 进阶能力,定时任务、手机端接入 skills 插件,以及怎么用它处理真实的工作场景。觉得有用的话点个赞,收藏一下,装的时候照着操作,有问题评论区告诉我,我们下期见。

最近呢,所有 ai agent 的 项目都在讲这个 harness, 但一半人没有看到精髓,多数人讲的其实是 walk flow。 那 怎么串 agent 选工具,广状态这些操作呢?都在 agent 的 视野内运行,目的呢,其实就是让 agent 内部变得更聪明,更自由。其实真正的 harness 走相反方向,那因为 agent 根本感知不到那层应变界。 我们举一个例子,你想让 agent 的 代码必须经过质量检查,多数人呢,写个 client sql 注册给 agent, 期望他主动调取,结果 agent 觉得不需要就不调用。 sql 最致命的问题是,约束力来自于 agent 自己愿不愿意调动。真正可靠的做法就是把 client 做成 hook, 配在工具调用的前置链上。那 agent 不 调不行,想绕开呢也不行,甚至不知道可琳娜的存在。那 skill 呢,是工具, agent 决定要不要用, 那哈尼斯呢?是边界, agent 决定不了。这里面呢,有三个物理边界,就是规则呢,要放在 agent 看不到的地方,只要 agent 能看到约束,就能诱导性绕开,伪装失败。 这就相当于规则在视野里,等于规则被武器化。那第二个点呢,就是做事的和把关的要做物理隔绝,那写代码的 agent 不 能同时审代码执行操作的,不能批准自己的操作,隔离强度可以选不同的这种 lm 不 同进程。 那第三个点呢,就是 file close 是 默认安全检查,跑不动时必须 block 操作,加通知人,绝不默默放行。那 file open 跑久了,检查呢,就名存实亡。为什么大多数人搞错了 市场激励反着来加 scale 容易 demo 呢?能立刻跑加互可呢?做完功能没变多,但工程价值刚好相反, scale 呢,是让 agent 在 已有的边界内更自由, hwk 呢,是决定了边界的本身。下次评估 a 点的系统,你不要去数 skill, 要看 hwk 配置还有 capability 列表加 sandbox 边界 hack harness 呢?在那里评论区聊一聊你的安全检查是 file open 还是 file closed 的。