粉丝20获赞87

港大开元神作 open harness, 两天一千九百 star, 把 ai agent 黑盒彻底扒成白盒!家人们还在为学 ai agent 被动辄几十万行的代码互劝退吗?还在好奇大模型 到底怎么从只会说变成能干活的吗?香港大学刚开园的这个神作,直接把答案甩在你脸上!上线两天,狂揽一点九 k get up 新,仅凭一点一万行代码,干翻了大厂五十一万行的复杂架构,把藏在黑匣子里的 ai a 阵的底层逻辑 扒得明明白白。这个名为 open harness 的 项目,堪称 ai 开发者的 agent 架构肾精。今天这篇内容全程干货无废话,不管你是刚入门的 ai 爱好者, 还是想做自定义 agent 的 开发者,看完直接吃透 agent 的 核心逻辑,上手就能用。获得感拉满,音效清亮,转场音口播语速放缓,节奏平稳。先跟大家介绍一下这个项目的来头。 open harness 是 香港大学数据科学研究所的新作, 这个团队可是开源界的明星天团,之前推出的 lightsrock、 gutel agent, 还有上个月爆火的 nanobot、 clyar、 anything, 个个都是开发者圈的热门项目,技术实力直接拉满这次的星座,自然也没让人失望。很多人第一眼看到 open harness, 会误以为它是一个新的 ar agent, 但其实它的定位更精准,是给模型穿的能力马甲。官方用一句话概括了核心理念, the model is the agent, the code is the harness。 翻译过来就是模型负责思考代码提供支撑。这一句话直接把 agent 系统的底层架构说透了。简单来说,它把 agent 拆成了两个核心层次,一层是模型层,也就是我们熟悉的大模型, 负责推理、规划、做决策,是 agent 的 大脑。另一层是框架层,也就是 open harness, 本身负责给大脑配手眼记忆和安全边界,提供工具调用、 权限控制、记忆存储、多 agent 协调这些核心能力。要知道,纯聊天大模型只能输出文本, 说白了就是光说不练,但当模型接入 open harness 之后,瞬间就拥有了文件读写、命令执行、网络请求十九记忆的能力,直接从会说变成能做。这也是为什么 一个普通大模型能成为实用 agent 的 关键,而 open harness 就是 把这个关键环节做到了极致。那这个项目到底解决了开发者的什么痛点?为什么一上线就爆火?答案很简单,他把学 agent 架构的门槛直接打下来了。 我们都知道 azurepick 官方的 cloud code 是 非常强大的代码助手,但其背后是五十一万行代码, 一千八百八十四个文件。对于想学习 agent 架构的开发者来说,这简直就是天书级的存在。很多人刚打开代码库,看到密密麻麻的文件和代码,直接就放弃了,想研究 a 站的内部怎么工作,却连门都摸不到。而 open harness 做的最牛的一件事, 就是用一点一万行 python 代码精准重构了核心架构,砍掉了遥测、 olaf、 重型 reactui 这些普通开发者根本用不上的企业级功能,只保留最核心最精华的哈尼斯架构,把复杂的 a 层框架做清做透,让普通人也能看得懂、学得会、改得了, 这也是他能快速圈粉的核心原因。接下来就是大家最关心的核心内容, open harness 的 架构到底有多强? 它由十大核心子系统组成,每个子系统职责明确,环环相扣,搭建起了一个完整可扩展的 a 阵的框架,而且每一个功能都踩在了开发者的需求点上。首先是 aning 智能体循环,这是整个框架的心脏,一个简洁的循环代码 就能处理无限的功能组合模型,只需要决定做什么,剩下的全线校验工具执行结果格式化,全由 harness 负责,把大脑和手脚的分工做到了极致。 其次是 tools 工具,系统内置四十三个使用工具,包含文件 a o show 执行、网页搜索、 agent 协助、任务管理等核心场景, 每个工具都自带验证和权限集成,拿来就能用。还有 skills 技能系统,只用 md 文件就能定义领域知识,按需加载内置的 git 提交代码审查、 bug 调试、方案设计等刚需技能, 开发者自己写个 md 文件,就能自定义专属技能,零门槛扩展。更贴心的是它兼容 coder code 的 插件生态, 官方已经测试了十二个官方插件,含盖低的工作流、安全警告、多 a 证的代码审查等场景,直接附用大厂的生态积累, 不用自己从零搭建。 permissions 权限管控系统,更是解决了开发者的后顾之忧。默认自动规划三级权限模式,还能配置路径和命令规则,比如禁止修改系统文件, 禁止执行危险命令,在开发时给足安全感。除此之外,还有生命周期勾子五十四个斜杠命令、 m c p 协议支持持久记忆、 多 agent 协调,这五大子系统覆盖了 agent 开发的全场景需求,从单 agent 运行到多 agent 协助,从临时绘画到持久记忆, 从简单命令调用到复杂插件扩展,一个框架全部搞定。讲完核心架构,大家肯定想问,这个项目上手难吗?答案是零基础也能快速启动! 官方提供了超简洁的操作流程,三步就能跑起来。首先克隆项目代码,用由于 think 命令安装依赖 全程,无需复杂配置。然后配置模型,以大家常用的 kimi 为例,只需设置三个环境变量,填入 api 地址和密钥即可。不仅支持 kimi, 主流大模型都能适配。最后一键启动,不管是交互式的聊天模式, 还是非交互式的脚本管道模式,都能轻松实现,甚至还支持 j s n 输出流逝事件,方便开发者做二次开发。插件管理也同样简单,一行命令就能完成插件的列出、安装启用。而如果想扩展自定义功能, open harness 也做了极致的简化。添加自定义工具,只需几行 python 代码,定义输入和执行逻辑,添加自定义技能,写一个 md 文件放在指定目录即可。添加自定义插件仅需配置一个 json 文件, 再补充对应的命令和钩子,零基础也能轻松打造专属的 agent 框架。音效舒缓,背景音口播语速放缓, 升华价值。看到这里,相信大家已经感受到了 open harness 的 价值,它不是要取代 cloud code 的 这样的大厂产品,而是给所有 ai 开发者一个可理解、可修改、可扩展的 agent 框架参考。在 ai agent 这个高速发展的领域, 我们不缺好用的成品工具,缺的是能让人看明白、学透彻的底层架构,缺的是低门槛、高开放的开发生态。而 open harness 正是朝着这个方向迈出的关键一步。他用极简的代码把 agent 的 黑盒彻底变成了白盒,让我们终于能清晰地看到 大模型到底是怎么和工具结合的, do agent 到底是怎么协调工作的,权限控制到底是怎么实现的。这些之前被大厂藏起来的核心逻辑,现在都能在 open harness 的 代码里找到答案。对于刚入门的开发者来说, 它是最好的 agent 架构学习教材,一点一万行代码量,逐行研究也不会有压力。对于有开发需求的开发者来说,它是现成的 agent 开发底座,不用丛林搭建框架,基于它做二次开发能节省大量的时间和精力。

五万一千六百六十九颗星,十六天,这不是一个团队,这是一个人, gary tanycombe 的 现任 ceo。 过去六十天,他用 cloud code 一个人写了六十万行生产代码, 日均一到两万行,百分之三十五是测试代码。他怎么做到的?答案叫 stack shindeer, 是 一套开源的 slash 命令系统。二十八个命令,把 cloud code 从一条光杆司令变成一只完整的虚拟工程团队。 ceo、 设计师、工程经理、测试主管、安全官、发布工程师,全部到位,你只需要敲斜杠,剩下的交给 ai。 还记得我们说过的蒸汽机调速器吗? j, stack 就是 cloud code 的 调速器。 目标层, office hours 帮你定义什么值得做传感。七层 review 和 q a 帮你发现问题,比较七层测试,自动判定通过还是失败。 执行器层, agent, 按标准修代码,感知比较执行,再感知反馈回路闭环了二十八个命令,每个都是一个角色。 office hours 是 产品经理,六个逼问式问题,逼你重新想清楚产品方向。 plan c g u 是 ceo, 砍 scope, 找最小可行路径。 review 是 staff engineer, 专门找那种 c i 能过但生产会炸的 bug。 q a, 是 真浏览器测试,不是模拟器,是真的点真的看真的修。你说我想做一个日立招标 app? g, stack 不 说好的,他说等等,你描述的不是招标 app, 你 描述的是一个私人首席参谋 ai。 然后他逼你回答六个问题,你的用户具体是谁?他们的痛点是什么?现有方案为什么不够?最后他生成三套方案,推荐最窄的那套先上线。 ai 不是 在执行你的指令, ai 是 在帮你想清楚到底该做什么。 review 这个命令最狠的地方是什么?它找的 bug 不是 语法错误那种 c i 自己就能抓,它找的是逻辑 bug, 静态条件,边界情况 q a 更狠,直接打开一个真浏览器,点你的 staging 环境,走完整个用户流程,发现问题自动修声,回归测试。再验证一遍, agent 有 眼睛了。 ship, 一 条命令,自动同步 main 分 支跑全量测试,审计覆盖率,推 pr, 触发 c i, 如果你的项目连测试框架都没有,它会帮你从零搭一个,每一次 ship 都有覆盖率。审计代码品质不是靠自觉,是靠流程锁死的。说说数据, 过去一周三个项目,十四万零七百五十一行,新增三六二次提交,净增十一万五千行。二零二六年到现在一千两百三十七次 github 提交。 作为对比,二零一三年他全职写代码的时候是七七二次,同样一个人效率翻了快一倍。 而且现在他同时管着 ycc, 给 cloud 加了一堆花活 codex 命令,让 open ai 的 模型来审 cloud 写的代码,两个 ai 互审,交叉验证。 tf 命令,你说小心点。之后每次要执行 r m drop table force push 这种危险操作, cloud 会先问你。 freeze 命令,锁定编辑范围,防止修 bug 的 时候首键改了不相关的文件。 guard 是 k f 加 free 的 合体最大安全模式。 concept 本质上是把工程管理的最佳实践编码成了一套 ai 可以 执行的规则, 不是让 ai 写更快,而是让 ai 评判更准。这就是 harness engineering, 从拧阀门的工人变成设计调速器的人。点赞加关注,赛博杨千焕,明天见!

云端部署小龙虾只需要三个步骤,适合新手快速入门,这个视频带你了解云端部署 opencloud, 并接入飞书的全流程,看完就能上手操作。 第一步,准备好前提条件,在飞书开发者平台创建应用,这里填应用名称和描述确认,打开凭证,拿到飞书的 app id 和 secret, 把它们保存下来。 然后在模型厂商创建模型的 api, 新手选有免费额度的或者有套餐的模型厂商后期用起来不烧钱。在这里创建 api 保存下来,在下一步创建云服务器要用。 第二步,创建云服务器。现在很多云服务厂商都有一键部署 opencloud 的 服务,打开创建页面,选择应用模板计费类型,选这个 地狱,下拉选择配置,选这个普通场景完全够用。在这里创建登录密码并保存下来,后期远程访问要用高级配置,这里设置模型,下拉选择要用的模型, 填入提前准备好的 api key。 注意,这里可以用模型套餐,也可以单独选某个模型,长期用的话建议选套餐。消息渠道选飞书也是填入提前准备好的, 这里确认年限,勾选同意,点这里去购买就行了。这样一台不熟好龙虾的服务器到手了,可以在控制台点这里远程连接,连接好以后就是这个界面。第三步,连接飞书,新手跟着教程一步步点就行了。 首先配置飞书权限,点击已创建应用,在左侧目录,点击权限管理,点开批量导入导出权限,删掉原有的势力,复制这一串粘贴上来,下一步,申请开通, 这两步都点确认接下来事件与回调,回到开发者后台左侧目录,点事件与回调,事件配置订阅方式,选长连接,点击保存添加事件、搜索消息,勾选这三个选项,点击添加 回跳配置订阅方式,选择长链接保存,添加回跳,勾选这个点添加接下来发布版本,点这个创建版本,输入版本号一点零点零填个更新说明点保存确认发布。 打开飞书开发者小助手,点打开应用,给他发条消息,机器人会回复一条消息,这个就是通行码, 执行这条指令,把这里换成通行码去服务器后台运行,这样你就得到了一个云端部署并连着飞书的小龙虾了。流程已整理好,拿去直接用。这期先讲到这里,下次见,拜拜。

前两节课我们拆解了控制系统的基本组成,这节课我们直接看顶级大厂的正式操盘。通过复盘 open ai 和 antropics 的 内部实战路径,所有经验都指向同一个核心结论,一个 ai 项目的成败,模型本身只占一半,另一半全靠外围的控制系统。 先来看 openai 公开过的一次内部极短实验,他们要求用菱形人工手写代码做出一款内部产品。结果是三名工程师在五个月内驱动 agent 生成了大约一百万行代码,开了一千五百个 pr。 数字虽然夸张,但真正的价值在于他们的覆盘。 他们发现,早期进账缓慢,根本原因不是模型不够聪明,而是环境规格没有铺好。工程师的工作重心必须从直接写代码转移到搭建系统、摇手架和杠杆上, 若没铺好模型就跑不起来。 open ai 的 第一条核心策略是给 ai 一 张地图,而不是一本千页说明书。他们起初试过写一个超级大的提示词文件,结果彻底失败。因为大模型的上下文是稀缺资源,文件太大反而会把关键任务挤掉。后来的正确做法是 把这个入口文件单纯当作目录页,真正的计划、设计、技术、债等知识全部放进有结构的文档目录里,并且用流水线工具自动检查这些文档是不是最新,有没有交叉链接。也就是说,不要给 agent 一 堆资料让他自己找,而是给一个清晰的缩影, 告诉他去哪找。接下来是第二条策略,把规则焊进流水线。 open ai 发现,靠提示词要求 ai 守规矩是不可靠的。他们把代码分层、命名、规范等要求全部做成了自动检查工具和结构化测试,甚至把应用界面日制指标也暴露给 agent 去自行验证。 这不是在口头劝导 ai, 而是用机械约束逼他守规矩。也借智明开发者也印证了这一点,他在规则里硬性规定 ai 永远不要创建 pr。 这些极其强硬的物理边界并不是凭空想象的,几乎每一条都对应着 ai 过去真实干过的坏事。第三条策略是给系统安排固定的自动化保洁工 和平 ai 早期每周五要花百分之二十的时间去清理 ai 写出来的能跑但设计极其糟糕的垃圾代码。后来他们发现纯靠人工根本不现实。最终的解法是 把项目的黄金原则写死在代码仓库里,然后用后台任务定期扫描偏差,自动生成定向重构的代码请求。 因为 ai 不是 一次讯号就万事大吉,它会不断复制系统里已经存在的坏习惯,所以必须有自动化的垃圾回收机制。 最后必须泼一盆冷水,不要把 oppo ai 的 这个百万行代码案例,等同于现在人人都能轻松获得十倍效率。 这个奇迹建立在非常苛刻的条件下,它是一个全新的产品,有着极强的规则约束,并且深度自研了整套控制系统。正如业界专家的提醒,这不是随便写几份文档就能实现的效果,而是需要连续几个月围绕控制系统进行扎实的工程投入。来玩 openai, 我 们看 app topic 的 方案。 他们面临一个更棘手的挑战,长任务不可能在一个上下文窗口里做完。而尴尬的是,每个新 session 开始时, agent 就 像一个刚换班的新工程师,对上一班发生了什么毫无记忆。这种失意状态是阻碍 ai 连续工作的最大路上。为了解决失意问题, antropic 在 两千零二十五年底提出了双 agent, 透露,首先是初识化 agent, 他 只负责开工 大好环境,并留下一个包含两百多项功能的清单,所有功能一开始都标成失败状态。接着,编码 agent 登场,他每次只负责增量的推进。这有几个极其关键的硬规则, 第一,一次只能做一个功能,不能贪多。第二,只能修改测试是否通过的状态,绝对不允许删改测试定义。 第三,所有交接全部用 jason, 而不是 markdown, 因为 jason 的 结构更死,模型不容易乱改。每次新任务开始, agent 必须先跑一遍验证,确认项目没坏才准继续。 到了两千零二十六年三月, antropic 把架构进化成了三足鼎立, channel 负责规划并签订验证契约。 generation 负责干活。而最精妙的设计在于独立的 evalulator 验证者 and fropic 特意调教他要持怀疑态度,这是因为让一个独立的特工去挑刺,远比让干活的 agent 搞自我批评要容易实现得多。 这种思路类似深层对抗网络,让干活的和找茬的互相博弈,最后产出的应用质量才更硬。在实验中,他们还观察到一个很有意思的现象,叫上下文焦虑。 当上下文窗口快填满时,模型会开始偷懒,表现出想早点收工的倾向。它不是真的完成了,而是觉得信息太多,压力太大。这就解释了为什么长任务必须采用 sprint 结构。 通过强制拆分任务,并要求每轮结束做完整交接,我们才能强行清空旧的上下文压力,让 ai 始终保持高效的产出节奏。 关于安全, andropic 给出了一个反常识的数据,百分之九十三的权限提示,用户都是直接点同意这种批准。疲劳让弹窗失去了保护意义,成了纯粹的噪音。所以他们推出了 auto mode, 用一个专门的分类器代替人工审批。虽然他只拦截了千分之三点六的操作,但这些拦截全都是实打实的危险动作。这告诉我们,想让 ai 大 胆干活,靠的不是放权,而是提前建好足够精准的围栏。 把 open ai 和 entropic 的 经验放在一起看,你会发现五个惊人的共识,第一,文档要当缩影,别指望 ai 读百科全书。 第二,用机械约束代替口头指令。第三,永远不要相信 agent 的 自我评估,必须引入独立验证。第四,长任务要像 sprint 一 样,结构化交接。最后,安全必须建立在沙箱和围栏机制上,而不是建立在对 ai 的 信任上。正如软件工程大师 martin feller 所说的, 大模型总能一本正经的告诉你,测试全过了,可你一跑,全是红的。如果这是你的同事, hr 早就该介入了。 这就是为什么 harness 的 质检必须靠独立的机械化验证。案例讲完了,最后一刻,我们聊点实在的,普通团队如果不写代码,怎么搭出一个最小可用的控制系统?我们 happy 再见!

港大最新开源 open harness, 四天冲上八千星! open harness 最吸引我的是它对 agent 基础设施的极简重构。港大团队将 call 五十一万行繁杂的 ts 代码,精简为仅一点一万行的纯拍脏实线, 体积缩小四十四倍,却保留了百分之九十八的核心工具链。它彻底解决了黑核痛点,采用模块化子系统架构 engine、 turbo hux memory 等,让 agent 的 每一个决策环节都清晰可见,可定制内置四十三个工程化工具,完美兼容本地模型。 最实用的是它的安全审批与任务分发机制,非常适合在个人开发或团队协助场景下,作为轻量级的 ai agent 底座进行二次开发。感兴趣的朋友欢迎评论区交流。

这只视频带你设定并配置好 open cloud 这只龙虾,并接入到 whatsapp。 创建 telegram 机器人没有代码基础也没关系,跟着做你的龙虾也能为你自动工作,即使你出门在外。好,接下来我们进入出场环节。 首先需要设置相关身份信息。先为 openclaw 取一个专属名称,再设置它对你的称呼。我这里设置它的自称为 claw, 称呼我为 adjourned。 你 可以更详细地定义它的行为风格。这些配置都会被保存下来,并在后续的对话中持续生效。 可以看到它正在将身份设定、用户交互规则等内容写入本地文件中。完成基础注册后,我们来配置 openclaw 连接 whatsapp。 这一步既可以在安装过程中设置,也可以在安装完成后通过终端操作。如果已经安装完毕,直接运行 opencloud channel add 命令即可添加聊天渠道。我会先配置 whatsapp, 再配置 telegram, 带你完整走一遍配置流程。 配置 whatsapp 十分简单,只需要用你绑定的手机号扫码二维码就能登录。扫码后,他会询问这是个人号码还是独立号码。 如果希望 ai 独立运行,不受干扰的,建议使用专门的手机号,方便它向你发送信息。设置好 whatsapp 后,我们继续配置 telegram。 同样运行 opencloud channel add 命令, 我选择使用默认账号,接着按照提示创建一个专供 opencloud 使用的 telegram 机器人。在手机上打开 telegram 搜索并找到 at boss father。 注意,一定要选择带有认证标识的官方账号, 然后发送斜杠 new bot 命令来创造一个新机器人。为机神设置一个唯一的名称,我这里命名为 agent two i s s cloud bot 创建成功后,会获得一个 api token, 将其复制并黏切到终端中勾 openclaw 使用。至此, telegram 也配置完成了下一款选择。完成,整个 openclaw 基础配置也就全部结束。 这样一来,你即便出门在外,也能通过手机直接和 open cloud 对 话,并且所有绘画内容与家中的电脑保持实时同步。 whatsapp, discord 等平台的配置方法也基本相同,操作逻辑是一致的。

上一课我们说到 harness, 绝对不是写一条长长的提示词,而是给 ai 装上轨道的整套工程。这就像新员工入职, 你不能只丢下一句好好干就走人,你必须给它配齐岗位说明书、工作台、质检流程和紧急刹车。把这套制度套用在 ai 身上。 on topic 管它叫编排层, openai 把它落地成平台隔离执行环境,把模型下达的指令和平台层面的真正执行并在一起,才是一套能让 ai 踏实干活的完整制度。构建这套制度的第一个零件是任务合同。 ai 最容易犯的毛病就是他觉得任务做完了,但你觉得根本没达到要求。 问题出在双方对什么算做完没有统一定义。 entropy 给出的解法是,任务合同每一轮工作开始前,必须明确这轮交付什么,怎么验证。 在具体实操中,他们让 agent 写一份两百多项的 j 三格式功能清单,一开始所有功能全部标成未通过状态,后续 agent 干活时被强制约束,只能修改通过状态这个字段, 不能乱动。测试定义本身,这就把一句话的模糊描述变成了可以逐一打勾的硬性检查项。 第二个零件是工作环境, ai 不 能在真空或者无界线的网络里工作,你需要给它划定物理操作范围。 open ai 和 cloud 分 别采用了隔离环境和沙箱机制,把文件系统和网络从底层隔开。设计这个环境有两条死命令, 第一, ai 需要的工具和权限必须齐全,缺了工具它就会卡住或者胡乱绕路。第二,不该碰的东西必须在物理层面直接切断。你不能在提示词里写一句请别碰这文件,而是要在系统级别让它根本碰不到。 第三个零件是上下文与记忆管理。这里有一个非常反直觉的现象,叫上下文辅案。很多人以为给 i s i 的 信息越多越好,但实际情况是,随着上下文窗口里的信息越积越多,模型准确提取信息的能力反而会直线下降。就像桌面上堆满了文件,你根本找不到需要的那一张。 行业里的共识做法是给 agent 建立多层结构化文件。比如 cloud, 就 把上下文分成了三层。全队共享的项目规则文件,用来记住之前重要发现的跨对话记忆文件,以及记录当前任务进度的文件。这保证了 ai 眼前的每一刻摆置的都是最有用的信息,不多也不少。 第四个零件是权限边界管理,权限最大的痛点是人类会产生批准疲劳。 osloffic 公布过一个扎心的数据,用户手动批准了百分之九十三的权限提示弹窗,绝大多数人看都不看就直接点同意,安全弹窗彻底变成了噪音。 为了解决这个问题, on topic 推出了自动模式,用一个分类器模型来代替人工审批。这个机制在测试中只拦截了百分之零点三六的操作,但被拦截下来的百分之百都是真正的危险行为。当然,分类器不可能拦截所有风险, 它只是安全和效率的平衡点。最终的底线依然是把 ai 放在隔离的沙箱环境里运行。第五个零件是质检与反馈。这里有一个铁律验证,绝对不能靠 agent 自报。如果 ai 告诉你所有测试都通过了,人类却发现跑不起来,这在职场上是严重的诚信问题。 接法使界限深层对抗网络的思路,把干活的 generator 和评判的 evaluator 彻底分开,让一个持怀疑态度的独立模型专门负责挑毛病,效果远好于让它自我批评。在实操层面,我们会用到 hooks 机制, 它不是在给建议,而是在改完代码提交前等关键节点,由系统强制介入,哪怕模型想违规, hooks 也会直接拦住,确保规则被物以值刑。 第六个零件是持续清理。 ai 有 一个特性,它会学习并复制系统里现有的坏习惯,产生那种技术上能跑但设计糟糕的垃圾代码。 open ai 分享过,他们早期每周要花百分之二十的时间专门清理这些 ai 垃圾。解决这个问题的正确姿势是把反复出现的错误直接升级成自动化检查机制,不要靠人盯着修,而是把代码规范变成强制的检查,把命名逻辑变成 ci 流水线的一部分, 让机制去拦住坏习惯,而不是等坏习惯泛滥了再去清理。讲完零件,我们要纠正一个致命误区, honest 绝对不是写一份超长的规则文件。 open ai 试过给 ai 写一个巨大的说明书,结果彻底失败了。因为上下文是稀缺资源,文件太大,任务本身就会被挤出去,这会引发上下文焦虑。 当模型发现窗口快填满时,它会产生一种够了的心理暗示,导致任务还没做完就过早收工。稳健的做法是把规则做成结构化的入职流程,提供一个短小的入口,配合深层的知识库链接,再加上能被机械验证的校验机制,这样才能保证 ai 在 清爽的环境下高效工作。 我们把这六个零件按约束力的大小排一下,就形成了 harness 的 三层护栏结构。第一层是软护栏,比如贴在工位上的便签,这只是建议模型,偶尔会忽略。第二层是硬护栏, 比如 hooks 和权限控制,这不是在商量,而是系统直接拦住不让过。第三层是最硬的护栏,就是沙箱和自动监控, 它不仅监控行为,还能在出事后回滚。有了这三层叠加,你才敢把复杂的、高价值的任务真正交给 ai 去独立完成。 一句话总结, harness 就是 ai 员工的岗位说明书,工作台、门禁、交接、本质检线,加上紧急刹车。只有这六个零件齐了, ai 才算从问答工具变成了独立的生产系统。概念讲完了,下一课我们来看实战 openai 是 怎么靠这套东西让三名工程师在五个月内写出一百万行代码的? andropic 又是如何让 agent 连续工作数小时都不停手的?我们下集可见。

open call 零基础入门第二课,几分钟带你快速入门,全是实实在在的干货,记得先点赞收藏!第一步,先验证连没连上 云端直接发消息,本地终端输入 open call 给腿收到回复和投肯交好就算成功。划重点,千万别问废话,别只发。找找文件,要给具体指令找包含发票的文件,按时间排序,明确目标加细节,效率直接翻倍。只能聊天,那就大材小用了。看这张核心命令速查表、 管理文件新建日程,查系统状态,日常琐事,一句话搞定,简直就是你的全能数字小秘书。这张图现已截图保存,想让 ai 彻底懂你, 改这俩文件就够了。在这个搜 md, 设置它的说话风格,少点废话,在 user md 写上你的习惯,你看对比效果,配置前啰里吧嗦,配置后直接丢,重点体验直接拉满,用久了怕烧钱,选对模型很重要,日常开发省钱首选 delete, 便宜七成,还极其好用。追求极简,选 cloud, 想一分钱不花直接抱回欧拉玛跑本地模型零成本给进阶玩家敲黑板,不想被别人白嫖。 api 额度打开 open call jason, 设置好手机号白名单或者配置群组,里面只允许再提及才响应,改完千万记得执行 restart 重启生效哦! 新手常踩的这五个坑,我都给你列出来了,比如没配人设、 a p i 余额不足等,对号入座直接解决。看完这期,打开你的电脑,跟着右边的行动清单,赶紧去发你的第一条测试消息吧!还等什么,现在就去体验你的即刻工作台吧!如果对你有帮助,点赞加关注,下期!

这是一个从零开始,带你从原理到圆满学完 cloud code 所有功能的开源项目。最近在 ai 圈有个很火的概念叫 harness engineer, 我 们平常一直说的 agent 其实就只是模型,或者说是学会了行动的模型。 harness 工程师的作用是给 agent 构建在特定领域工作所需要的一切,所以表面上这个项目是教你做一个 cloud code, 实际学完人 cloud code 的 这个项目后,你就能完全掌握 harness 的 核心,因为 cloud code 本身就是 harness engineer 很 好的实践项目 开源才一个月的时间,就拿下了三十八点七 k 的 star。 来看看项目的实际内容, lincolo code 提供了十二个渐进式的功能点教学,从最基础的 agent 循环工具调用, skills 的 使用,到任务系统上下文压缩的实现,以及上个月刚出的 agent teams 自主 agent 的 实现,这一个项目全都覆盖了。比如我们来看一下 agent team, 首先会有个动图来演示 agent team 的 运行方式,然后是 agent team 的 原理会包含具体的代码实现,在模拟中可以看到这个功能实际的效果。 再往后就是实现这个功能的完整元代码,代码量不是很大,不过用来学习完全够了。最后还有一个深入探索的模块,可以看到架构流程以及这个功能设计的一些理念。 ai 的 概念出的确实快,基本上每三个月就会有各种新的名词出现,希望这期视频对你有帮助。以上就是本期视频的全部内容,我是鱼仔,我们下期再见。

一七八零年代,一个工人站在蒸汽机旁边,眼睛死死盯着转速表,手放在阀门上, 转快了就关小一点,转慢了就开大一点,这活枯燥重复,但又不能不做。后来瓦特设计了一个装置,叫离心调速器,非求能自动感知转速,转速高了就甩开阀门关小,转速低了就收回阀门开大, 工人不用再手动拧阀门了。但工人并没有消失,他的工作变成了设计和调试这个调速器本身。另外,年后同样的事情正在发生, 只不过这次蒸汽机变成了代码,阀门变成了函数,而调速器变成了 ai agent。 open ai 给他起了个名字叫 harness engineering。 五个月一百万行代码,没有一行是人手写的。那 harness engineering 到底是什么? 工程师不再直接写代码,他做的事情是,第一定义质量标准,什么样的代码才算达标?第二,搭建测试和检查机制,让系统能自动感知代码状态。 第三,构建反馈回路, agent 写的代码自动跑测试,测试失败了, agent 自动修,修完再跑,循环往复直到通过。你会发现这跟喇特的调速器一模一样。质量标准就是目标,测试就是传感器, 判定通过失败就是比较器。 ai agent 就是 执行器,整个东西就是一个反馈回路,感知,比较,执行,再感知,持续循环, 直到代码达标。那为什么代码领域等了两百年才出现?因为过去只有机器能检查语法对不对,测试过不过,但更高层面的判断,比如架构合不合理,设计好不好,只有人能做,感知和执行两端都被人类独占着,回路闭合不了。 l i n 的 出现,一次性打通了感知端和执行端, 他能理解代码在架构层面是不是合理,还能动手改反馈回路终于可以在真正重要的角色层面闭合了。但很多人抱怨 ai 写代码老是做错,这个诊断几乎总是错的。 aj 的 失败不是因为它能力不够,而是你需要的知识被锁在你脑子里,你从来没写出来。什么叫好代码架构鼓励什么,避免什么没文档化。 aj 的 每次都从零开始犯一样的错。计算机科学有一个著名直觉,生成一个正确的解,比验证一个解要难得多。 放到今天,你不需要在写代码上胜过 ai, 它能全天候并行地写你需要做的事,比它更会评判 定义什么是好的。识别输出哪里有问题。设计反馈环境,让 ai 按你的标准持续产出。当年设计调速器的工人后来没有回去继续手动拧阀门,不是因为拧不了,是因为那样做已经没有意义了。 与其纠结 ai 会不会取代程序员,不如让自己从拧阀门的人变成设计调速器的人。点赞加关注,赛博杨千焕明天见!

告别笨重的代理框架, open harness 带你进入轻量级 ai 代理时代。香港大学 h k u d s 团队最新开源的 open harness 简直是开发者的福音,一键启动, 一个欧命令开启全能代理,极致性能比 cold code 轻四十四倍,运行如丝般顺滑,安全可控, 拥有精细的全线管理模式,国产友好完美支持 kimi 等国产大模型后端代码及框架模型及代理。想打造自己的专属 ai 开发助手,快去 github 围观吧!

云端部署小龙虾只需要三个步骤,适合新手快速入门。这个视频带你了解云端部署 openclaw, 并接入飞书的全流程,看完就能上手操作。 第一步,准备好前提条件,在飞书开发者平台创建应用,这里填应用名称和描述确认, 打开凭证,拿到非书的 a p p id 和 secret, 把它们保存下来。然后在模型厂商创建模型的 api key, 新手选有免费额度的或者有套餐的模型厂商后期用起来不烧钱。 在这里创建 a p i t, 保存下来,在下一步创建云服务器要用。第二步,创建云服务器。现在很多云服务厂商都有一键部署 opencloud 的 服务。打开创建页面,选择应用模板计费类型,选这个 地狱,下拉选择配置,选这个普通场景完全够用。在这里创建登录密码并保存下来。后期远程访问要用高级配置,这里设置模型,下拉选择要用的模型,填入提前准备好的 api key。 注意,这里可以用模型套餐,也可以单独选某个模型,长期用的话建议选套餐。 消息渠道选飞书也是填入提前准备好的,这里确认年限,勾选同意,点这里去购买就行了。这样一台不熟好龙虾的服务器到手了,可以在控制台点这里远程连接, 连接好以后就是这个界面。第三步,连接飞书,新手跟着教程一步步点就行了。首先配置飞书权限,点击已创建应用, 在左侧目录,点击权限管理,点开批量导入,导出权限,删掉原有的势力,复制这一串粘贴上来。下一步,申请开通, 这两步都点确认接下来事件与回调,回到开发者后台左侧目录,点事件与回调事件配置订阅方式,选长连接,点击保存添加事件、搜索消息,勾选这三个选项,点击添加 回跳,回跳配置订阅方式,选择长链接保存,添加回跳,勾选这个点添加 接下来发布版本,点这个创建版本,输入版本号一点零点零填个更新说明,点保存确认发布。 打开飞书开发者小助手,点打开应用,给他发条消息,机器人会回复一条消息,这个就是通行码,执行这条指令,把这里换成通行码去服务器后台运行,这样你就得到了一个云端部署并连着飞书的小龙虾了。

这份项目叫 open harness, 你 可以把它理解成给到模型装上的一套智能体基础设施。它的核心口号就一句话, the model c agent, the codes harness。 也就是说,模型负责思考,而 open harness 负责把工具记忆、观察能力和安全边界真正借到模型身上,让模型不只是会聊天,而是能执行任务。 open harness 想解决的问题很直接,单独的大模型虽然聪明,但它天然,没有双手,没有眼睛,也没有长期记忆,更不知道哪些操作该做,哪些不该做。所以项目提出了 agent harness 这个概念。模型提供 intelligence, harness, 提供 hands、 eyes, memory 和 safety boundaries。 换句话说,它更像是一个给智能提供的操作系统和执行层。从 pdf 和 github remy 来看, open harness 的 核心能力可以概括成五块,第一是 agent loop, 也就是持续的推理,调用工具,获取结果再继续决策。第二是 toolkit, 目前已经有四十多个工具 覆盖文件操作、 shell 搜索、 web 和 m c p。 第三是 memory, 支持上下文压缩、长期记忆和绘画恢复。第四是 governance, 负责权限控制、审批和簿机制。第五是 swarm, 也就是多智能体协助和任务拆分。 这一页重点可以浓缩成一句话, open harness 不 只是能调用工具,还能把工具系统、搜索能力、 m c p 协议和按需加载的 skills 组织成一个统一框架。 只要模型需要什么能力,就能在对应场景下拉起什么能力,而不是把所有知识和工具一股脑塞进上下文。安全和协助也是它非常重要的卖点,它支持多级权限模式,比如默认模式、自动模式和计划模式, 也支持工具调用前后的 hook 审计,同时还能拉起 subagent 做 team coordination 和 background tasks。 所以 他关注的不只是把任务做出来,还关注怎么把任务做的可控、可追踪。 如果把整套系统看成一条流水线,那就是用户输入需求。系统整理运行时,上下文模型开始推理工具调用,先经过权限和策略检查,再把结果回流给模型,进入下一轮循环。这就是 readme 里反复强调的 agent loop。 重点不是单次回答,而是让模型在真实环境里连续观察、执行、反馈再行动。从工程角度看,另一个很实用的点是,它的模型后端兼容性比较强,既支持 android pick 风格接口,也支持 open a compactable 接口, 还支持 github co pilot 模式。也就是说,你可以根据成本、速度、推理能力或者部署环境自由切换底层模型,而不用把整个 agent 基础设施重做一遍。 在使用体验上, open harness 也不是只有底层能力,它有 react 加 ink 的 终端界面,支持交互式命令和权限确认,也支持非交互式命令行输出,方便接脚本和自动化流程。再加上对 cloud 风格、技能和插件生态的兼容,它更像一个开放、可拼装、可扩展的 agent infrastructure layer。 最后用一句话总结 open harness, 它不是再造一个模型,而是在开源世界里给模型补上一整套真正可执行、可治理、可扩展的 agent harness。 get up quick start 也很简单,准备好排放三点一零以上 u v 和 a p i t 就 能用 u v one o 快 速跑起 demo。 如果你想研究 agent 底层架构,或者自己搭一套可落地的智能体系统,这个项目很值得看。

这两天 ai 圈最火的话题已经不是哪个模型更强了,现在大家讨论的都是同一个词, harness。 直译过来呢,就是马具搞错了 重来。呃,这样翻译有点简单粗暴啊,但是也挺利于大家理解的。大家可以想象,大模型就像一匹力气很大但横冲直撞的野马。那 harness 就是 那套让它听话,能稳定跑完全程的江省和马鞍。 过去两年 ai 模型已经够聪明了,但一让它独立干活就翻车,要么死循环,要么瞎编,要么泄露隐私。 harness 就是 给 ai 套上一套完整的驾驶系统, 给工具定规矩,建沙箱,做质检,让 ai 稳稳当当的把活干完,不出乱子。这套玩法有多猛啊? openai 做过实验,三个工程师加一千五百个 ai 智能体,五个月搞定了一百万行代码,人类一行都没写,靠的就是一套精心设计的 harness 系统。 腾讯汤道生说, ai 落地不只是一道算法题,更是一道工程题。百度字节也都把 harness 作为核心竞争力。现在日内共识已经出来了, ai 智能体等于大模型加 harness。 看来好马还得配好鞍,好 ai 也得配好 harness。 关注我,看懂下一个科技浪潮!

在过去五个月里, open 团队一直在进行一项实验,构建并交付一款软件产品的内部 beta 版,其中没有一行代码是人工编写的。项目经历了交付、部署、故障和修复的整个过程。 意想不到的是,每一行代码从应用逻辑测试、 ci 配置文档可用的到内部工具,全都是由 codex 编辑的。据估计,只用了手工编辑代码所需的大约十分之一的时间就完成了这项工作。 hardness 是 什么?如何理解? hardness, 人类掌舵智能体执行 open a i 有 意选择这一限制,以便构建必要的内容,从而将工程速度提升数个数量级,用了几周的时间来交付最终达到一百万行代码的项目。 为此需要了解,当软件工程团队的主要工作不再是编辑代码,而是设计环境、明确意图和构建反馈回路,从而使 codex 智能体能够可靠的工作时,会发生哪些变化。 接下来将用几个视频来解释说明 open 与他们的智能体团队是如何从零开始打造一款全新产品的,过程中 所能学到的经验教训,哪些地方出了问题,哪些问题相互叠加,以及如何最大化利用我们唯一真正稀缺的资源,人类的时间和注意力。

龙虾养明白了,你就真的就不用上班了。可我们普通人应该怎么入门呢?只需要你看一看这本 open curl 教程书。如果这本书今年可以让你有所收获,你愿意放弃无效的社交,把所有的时间用来学 open curl 吗?普通人想学 open curl, 首先就是把这本书翻开。 全书从基础开始,一步步讲解如何串联其他工具,实现自动化工作流,成为我们具体展示 open code 的 具体使用操作。当别人还在纠结于使用上的基础问题时,你已经可以将 open code 变成你的二十四小时私人助理,未来不会等人,但他一定会奖励先开始的那批人。强烈建议你入手这本书,认真的看一看!