今天聊一个最近 agent 的 开发领域,最火的概念叫 harness engineering。 如果你最近在关注 ai, agent 的 技术圈一定到处都能看到这个词, 但大部分人对它的理解停留在给 agent 加约束这个层面,这远远不够,今天我们把它彻底讲清楚。看完之后你会发现,业界一直以来对 agent 做的技术优化,本质上还是做同样的事情。 先从一个反直觉的事实说起, land chain the coding agent 在 terminal bench 排行榜上从三十名开外,一路冲到了前五。整个过程中,底层模型一行没换,始终是同一个模型,它们只动了三个东西,系统提示、工具配置和中间箭钩子。 这个结果直接挑战了 ai 开发中一个根深蒂固的假设,就是更好的性能,需要更大或更新的模型。 lincoln 用实际数据证明模型不变的前提下,光靠优化模型周围的系统就能带来数量级的提升。它们用的方法论就叫 harness engineering。 那 harness 到底是什么意思?这个词来自马距,比如江绳、马鞍等用来引导马匹朝正确方向走的装备。这个比喻是刻意的。马是 ai 模型,强大、快速,但它自己不知道该往哪走。骑手是人类工程师提供方向,而不是亲自跑。 harness 就是 骑手和马之间的那套控制系统。 这个词最早的定义非常简洁,每当你发现 agent 犯了一个错误,你就花时间设计一个解决方案,让 agent 永远不会再犯同样的错误。 lanchain 在 此基础上给出了一个更精炼的公式, agent 等于 model 加 harness, 模型包含智能 harness 让这个智能变得有用。 把模型想成引擎, agent 就是 整辆车,而 harness 就 好比方向盘和刹车,最好的引擎没有方向盘和刹车,去不了任何有用的地方。这里有一个关键区分,你可能听过另一个类似的概念,叫 context engineering, 上下文工程,它们是什么关系? 一句话讲清楚, context engineering 问的是我们给 agent 看什么, harness engineering 问的是系统预防了什么,测量了什么,修复了什么。 更准确地说,上下文工程主要关注怎么管理 agent 的 上下文窗口,给他看什么信息不看什么信息什么时候看。而 harness engineering 的 范围更广,它还包括架构约束、自验证、循环商治理和系统的可研进行,两者之间互相包含。 好概念,讲清楚了,那 harness 具体包含什么?我用六个关键词来概括。第一个,上下文架构,前沿团队一致发现,给 agent 塞太多信息反而有害。有研究表明, agent 的 性能在上下文利用率超过大约百分之四十之后开始下降。 所以关键不是给 agent 的 一本百科全书,而是给他一张地图,让他按需查找。 open ai 的 做法是把 agent 的 d 文件控制在大约一百行,只充当目录,指向更深层的文档。 agent 需要什么信息自己去查,而不是一开始就全部塞进去。 anthropic skill 的 渐进式加载理念也是为了解决这个问题。 第二个,架构约束。大多数人靠 prompt 来约束 agent 的 行为。写,请遵循以下规则。但 prompt 里的规则本质上是建议模型可以听也可以不听。 前沿团队的做法是用确定性的工具来机械式执行约束,比如自定义的 linter 和结构化测试规则,一旦编码,就在所有 agent 的 绘画中同时生效,不依赖模型的自觉性。这里有一个反直觉的发现, virso 一 开始给 agent 提供了大量工具,什么都能用,结果 agent 反而变得困惑,做荣誉调用。 后来他们移除了百分之八十的工具,只留最必要的 agent 反而更快更可靠,约束解空间反而提高了产出。 第三个,自验证循环。 agent 有 两个常见的失败模式,一是陷入死循环,对同一个文件反复编辑十几次,但问题始终没解决。二是交付时跳过验证,第一个看起来合理的方案就直接输出了。 line chain 的 方案是用中间键钩子来解决,一个中间键跟踪每个文件的编辑次数,超过预值就提醒 agent 重新审视方案。另一个中间键在 agent 准备退出时拦截它,强制执行一轮完整验证。他们还发现了一个非常有价值的策略,叫推理三明治。 规划阶段用最高推理强度充分理解问题,执行阶段降到高等推理强度保证速度。验证阶段再拉回最高推理强度补货错误。全程最高推理强度反而成绩更差,因为会超时把蒜粒花在刀刃上,效果最好。 第四个,上下文隔离。当任务复杂到需要多个 agent 的 协助时,关键不是按角色分工什么前端 agent、 后端 agent, 而是把子 agent 当做上下文防火墙。 父 agent 只看到他给子 agent 的 指令和子 agent 的 最终结果,中间所有的工具调用和中间产物都被隔离掉了,这样每个执行单元的上下文都保持干净,不会被无关信息污染。第五个,商治理。 agent 持续运行的时间越长,系统的混乱度就越高。文档过时,架构漂移,知识库和代码不一致。 openai 的 方案是引入一个后台运行的文档,梳理 agent, 定期扫描过时的文档,并自动提交修复。为 agent 服务的文档由 agent 来维护,形成自维护的闭环。 第六个,可拆卸性。这是最高维度的一层,更好的模型会让某些 harness 组建变成瓶颈。二零二四年需要复杂流水线的任务,二零二六年可能一个 prompt 就 搞定了。 所以 harness 必须是模块化的、可拆卸的。 line chain 的 中间件架构是目前最好的参考,每个中间件独立添加特定能力,不需要的时候直接移除,不影响其他部分。最后说一个关于投资回报的关键认知, harness 的 投入是以复利形式生效的,你今天加一条 linter 规则之后,所有绘画中这个错误都被预防。你今天加一条验证中间件之后,所有任务的交付质量都提升。这意味着 harness engineering 的 投入越早累积收益越大。 但同时也要警惕过度工程化。有一个很务实的原则,只在 agent 确实犯过的错误上投入 harness, 不要预防性的去解决还没出现的问题。 一句话总结, harness engineering 的 核心主张是, agent 的 可信瓶颈不在模型,在模型周围的系统。模型是引擎, agent 是 整辆车。引擎再强,没有方向盘和刹车,到不了目的地,这就是 harness。
粉丝2.9万获赞12.0万

头盔消耗直接降百分之九十!强烈建议给可乐扣子装上 agentbrad 这个工具,它不仅能让 ai 更快的操作你的浏览器,而且头盔消耗比 prada 低百分之九十。真正的降本增效神器 agentbrad 是 warsoft 团队用 rap 开发的 c r i 版本的 prad, 但它不是对 prad 的 进行简单的工作,而是做了大量的优化,可以让可乐以命令行的形式玩转浏览器,比如打开网页,控制鼠标移动,点击浏览器第八个,甚至是对页面进行截图分析。 知识的命令非常的丰富,可以让 ai 完成非常复杂的浏览器自动化任务。安装方法也很简单,在终端执行两条命令,或者直接把命令丢为可拉倒来安装,然后就能用了。安装命令我放到了评论区,需要的同学咨询推荐的使用场景。 ai a 镜的自动化测试自动化表单,填写网页内容,抓取页面系统优化,点赞关注,每天获取一个新知识!

大家好,今天介绍一款开源浏览器自动化工具 agent browser, 以 mac os 为例,终端输入 root install agent driver, 等待安装完成。紧接着输入 agent driver install install, 提示 chromium 安装完成。为了更好地在 cloud code 中使用 agent browser, 我 们参考仓库说明为 cloud code 新增 cloud md 文件,启动 cloud code, 让 cloud code 帮我们创建 cloud 点 md 文件, 很快它就创建完成了。紧接着还有一个重要步骤是为 cloud code 安装专用的 skill。 这里我们仍然是使用 cloud code 帮我们安装输入,请帮我安装 skill 内容参考 n p x 指令, skill 安装完成,退出 cloud code, 重新启动 输入 skill。 看到 agent browser 这个 skill 已经安装完成,我们使用一个案例来测试 agent browser 功能,打开可视化网页窗口,登录微博首页,获取最新热点新闻。我们看到它,立刻打开网页,登录微博网站, 很快便完成了热点新闻提取。

挑战每天只用一分钟,学会一款宝藏 skills! 今日 skills agent browser 前端开发平台 versale 一 位名叫 chris kate 的 工程师利用周末构建了 agent browser 项目。它是一款面向智能体的自动化命令行工具,具有零配置、有头或无头模式,相比 playrite mcp 上下文占用大幅减少百分之九十等特性。 马上进入实战。在 c n d 命令窗口中打开 open code, 让 ai 使用 agent browser 的 skill 访问一个敲电子木鱼的网站,敲一百下以后截图保存功德增加的证据。 agent browser 经过解析域名、执行命令、编辑、登录脚本等步骤,很快完成了敲木鱼和截图任务。赶紧打开截图看一下怎么今日功德还是零。把这个情况反馈给 agent browser, ai 不 仅重写脚本完成截图,还特意在页面中显示多个功德加一的效果,打开截图验证一下,果然成不欺我。想完成更复杂的自动化任务怎么办?我们打开 try, 在 solo 模式下配置好 agent browser。 具体配置方法参考往期视频 我们给 ai 某网站的登录信息,让它登录成功以后截图。 agent browser 经过不断试错,终于成功登录,并且还贴心地为你总结好了登录过程。打开它保存的登录成功截图,来验证一下和手工方式登录是否一致。 果然一模一样!有了 agent browser 这款神级 skill, 在, 配合当下最火爆的 open call 方案,只要给 ai 足够的权限,它就可以自动发社交媒体、游戏自动挂机、商品自动秒杀等场景。心动不如行动,点关注不迷路, app 带你上高速!

我的 openclaw 现在能自己登录 github。 大家好,我是小木头 versale, 最近开源了一个好用的工具叫 agent browser, 专门让 ai agent 操作浏览器。 我在没有图形界面的 openclaw 已经成功地跑通了它,今天呢,就来聊聊怎么做的。 先说说 agent browser 到底是什么?一句话,它是一个专门给 ai agent 用的浏览器自动化命令行工具。跟传统的 playwrite mcp 不 一样,它用无障碍数加引用标记的方式来定位页面元素, ai 不 需要去解析几千行的 do 模结构,一个 snapchat 命令回来的就是按钮、输入框这些语义化的元素。 玫瑰元素带一个像 at 一 one, at 一 two 这样的引用。在 ai 应用场景中,或许我们已经习惯于使用像 playwrite mcp 这类工具。 根据对比,使用 agent browser 能够节省高达百分之九十三的上下门窗口,这对于像 opencloe 这类需要长对话的场景来讲,差距是非常显而易见的。为什么在 opencloe 需要装上它呢? openclo 本身是一个非常强的 ai agent, 如果我们需要让它帮助我们进行上网登录网站、操作网页、提交表单等等,需要一个强大的浏览器操作接口。有了 agent browser, openclo 就 多了一双手可以代表你去操作浏览器。 今天要演示的就是如何利用 agent browser 来登录 github, 并且代表这个登录用户在网站上进行相关的操作。我们来看一个典型的浏览器操作的应用场景。现在我打开的呢,就是目前最流行的一个 github 项目, openclip。 如果我在这里期望对它打个星号,它会跳转到登录界面,这也意味着我们需要登录以后呢才能去做打星星的操作。 那么在 openclaw, 我 们如何利用 agent browser 来做这个动作呢?现在呢,我们就来演示一下。首先是安装 agent browser, 根据官方文档的介绍,安装方式非常简单,运行两个命令就好, mpm install agent browser。 然后呢,通过 agent browser install 下载浏览器, 你可以将这两个命令交给小龙虾的,比如飞书机器人帮助你完成安装。咱们今天的演示呢,通过命令行手动的操作一番,我们一起来看看每一步都会做什么,更好的了解是如何安装,如何使用的。咱们来到我云端部署的 openclock, 运行这两个命令。 好了,一切就绪,接下来我们要做的就是利用 agent browser 打开 github, 帮助我完成登录,并且前往 openclaw 代码仓库,帮助我给他打个星星。要利用 agent browser 打开一个网页,非常简单,通过 agent browser open 命令 并提供一个 url 就 好,比如我们将 openclaw 代码仓库的链接交给他。 很快我们会在控制台这里呢看到一些类似的输出这段文字呢,来追网页的标题,比如我们将光标移到 打开的这个代码仓库的浏览器标签页,就能看到这么一段文字。那如果我们想要知道在这个页面当中更加细节的内容呢?我们可以通过 agent broaster snapshot 这个命令 来显示当前页面的这个快照,这也是在 agent browser 应用中或许用的最多的命令之一。来看看内容吧,它就以这么一个 树状结构来展示了在页面中的所有元素,每个元素呢,都会有个 ref 这个标记或引用。 它的值是一个页面中全角唯一的一个值,比如 e 幺幺三六,它关联的就是 topic。 常见的使用方式中,我们还会添加 dash i 这个选项来打印这个 snapshot, 这表示只显示具有交互能力的元素。比如这里看到的这一些呢,都是链接。 现在呢,我们就来帮助 agent browger 完成登录,我会用我自己的账号信息登录,因此大家要注意在这里呢,登录后, opencloe 实际上使用的是我的身份在访问 get 号,大家确保在所有的操作和应用场景中理解 opencloe 究竟会做什么。那么明白接下来可能产生的后果是什么?我们来到 opencloe, 把这个链接给到 agent browger, 我 让他在这里完成登录。 来看看在这个页面上可交互的元素有哪些。这应该是大家在登录页面上常见的文本输入框,用户名或者邮箱地址,然后输密码,再点击 signing 登录。 我们首先要做的呢是在文本输入框输入自己的账号密码信息。首先我们输入用户名或者邮箱地址,它对应的引用呢是 e two。 我们使用的就是 agent browser feel 这个命令给他 e two。 后面带的就是我们的账号信息,比如 x y z at gmail 的 com。 好, 接下来输入密码 password, 引用是 e c。 我 们把这个引用更新一下,比如一二三四五六,我已经完成了账号的输入。 我们再来看一下这个快照中的元素。接下来要点击的就是 signing 这个按钮,对应的引用是 e five, 使用 click menu 点击 e five 完成。现在来到的页面是二段验证的页面,我给大家演示一下在真实的浏览器中看到的大概是什么样的一个页面, 大家看到的应该类似这么一个页面,这也是 agent 浏览器会看到的。通常作为人类或我自己呢,会来到 github 的 移动应用,输入这个数字做验证。那我们怎么知道现在 agent 浏览器究竟看到的数字是多少呢? 我们依然可以通过 snapshot 来看看在这个页面中究竟有哪些元素。 因为这个二段验证中给到的数字呢,并不属于可交互的元素,因此如果我们使用 dash i 是 看不到这个数字的,我们就直接用 snapshot 命令。很明确可以看到在 heading 这里有一个九十九,那我就来到自己的 github 移动应用册, 输入九十九完成验证。好了,验证完毕,现在我们就可以通过 get title 命令看看 agent browser 究竟落在了什么页面上。刚才给到的登录链接呢,带了跳转回 openclo 代码仓库的 url, 因此呢,它回到了 openclo 这个项目。 我们再次搜索一下 star 可交互的元素,里面最后一个二六五 k stars 这个链接呢,我们现在可以点击,点击它应该就能触发给它打星星。 另外在上面我们可以看到这个 bottom star this repository, 它的引用呢是 e 二六,我们也可以尝试使用点击这个按钮的操作。咱们首先来到我已经登录的这个 chrome 浏览器,这里可以看到,我暂时呢还没有给它打星星, 那现在呢,我们就来到 agent 浏览器,点击这个按钮来给它打个星星, 完成回到我已经登录的这个 chrome 浏览器,刷新一下,大家看到吗?已经点上星号了,这表示 agent 浏览器代表我给这个项目呢打了个星。那现在呢,在这个 agent 浏览器的运行环境中,就已经有了我的登录状态。 我们现在可以来到飞叔的聊天机器人,让他用 agent browser 帮助我们完成一些网络上的操作。 我来举个例子吧,在我现在这个本地运行的 openclog 的 对话小应用中,我可以让他用 agent browser 帮助我再次地打开 openclog, 看看目前最新的一个 open issue 是 什么。 我叫 openclaw, 使用 agent browser 去打开 openclaw 代码仓库,找到最新的 open issue, 并且告诉我他说的是什么。 openclaw 操作完成,我们看看最后的结果,他成功地找到了在当时他查看的最新的 issue。 三六七九九是关于 session logs, 这是一个 skill。 看起来呢,他使用了 agent browser, 我 也询问他使用的是什么命令,他也告诉我是如何进行操作的。那大家可以看到他用了 agent browser 来通过 open 这个命令来打开它,并且找到最新的 issue。 我们现在来到自己登录的 chrome, 能看到最新的 issue 呢,也正是这个三六七九九,来看看整个他去尝试打开发现 issue 的 过程。我让他用 agent browser 去打开 openclip 代码仓库,并且找到最新的 issue。 首先呢,他告诉我这个 agent browser 的 服务不可用, 因此他使用的是 getop 的 命令行工具。完成了这个操作,也找到了当时的最新的 h 三六七九六。当然这并不是我想要他去 使用的工具,我希望他使用的是 agent browser, 我 让他再次的尝试也失败了。这次呢,我就意识到他使用的是 open core browser control service, 目前呢不可用,因此呢,他就无法去做网络的浏览。我意识到他并不知道 agent browser 这个工具,那我就知道他使用这个工具, 最后他成功的找到了这个命令行工具,并且完成了操作。那这就是今天我们分享主要内容,感兴趣的朋友不妨来尝试一下。在刚才我通过命令行一步一步完成的操作呢,大家都可以通过像飞书机器人等 让 openclo 帮助你去自动的完成。最后呢,我们也要来提示一下,在这次的演示的对话场景中,似乎 openclo 还不是那么的智能,它并不能够第一时间的 优先地就将 agent browger 应用到他的网络浏览的场景中,好像他也并不是第一时间就知道这个命令行工具的存在。欢迎大家来到评论区分享你的看法,如果你已经有最佳实践,也欢迎在评论区交流。 好了,今天的分享就到这里,感谢大家收看,我们下期再见!

wars 出了个浏览器工具,一万七千 star, 帮 ai 省掉百分之九十三的 token。 传统方案让 ai 操作浏览器得把整个网页 d o m 丢给大模型。一个简单的点击按钮,光 html 就 吃掉一万七千个 token。 ai 还没开始响上下文窗口就被代码淹没了。 agent browser 换了个思路,它不传完整 d o m, 而是给每个可交互元素编个号,按钮是 e 一, 输入框是 e, 二,链接是 e 三, ai 看到的不是几万行 html, 而是三行文字。 点击 click a t e 填表单, fill a t r 加内容,底层是 rust, 写的毫秒即响应,而且直接支持 cloud code, cursor codex 这些主流 ai 编程工具,装完就能用,不用写一行 playwrite 脚本。 以前 ai 操作浏览器像戴着拳击手套打字,现在是精准触控。你觉得 ai 自动化浏览器能替代多少重?

每日拆解一个 openclaw 热门 skills, 今日拆解 agent browser star 六八幺,下载量十五点五万以上技能定位,由 versal apps 出品的前端测试自动化工具,堪称 ai 时代的开发提效神器。核心功能包括 u i 自动化测试、模拟点击和工作流测试。 完整使用方法步骤一,一键安装 n p m install 记 agent browser, 然后运行 agent browser install。 步骤二,打开网页 agent browser open, 加上测试网址。 步骤三,获取页面元素运行 agent browser snapshot i, 系统会返回带有编号的 dom 结构列表。步骤四,自动化测试可以使用 fill 命令填入内容, click 命令点击按钮 screenshot 命令截图,保存测试结果。 使用场景场景一,开发阶段连调测试,快速进入测试环境场景二,复杂页面功能排查自动化执行交互流场景三,网页结构调试分析 dom 结构场景四,测试用力边斜辅助场景五,页面加载性能分析,及时发现白屏卡顿 技能总结, agent browser 是 ai 时代的前端测试利器,配合多模态 ai 模型,可以实现开发联调、交互测试、结构排查等操作。互动话题,作为开发者,你最想用它来测什么功能?点赞收藏关注,不错过每一期热门 skills 拆解!

我研究了三天三夜,终于把 opencloud agent 的 团队搭建彻底跑通了。七个 agent, 一个群聊,自动写作,我只说做什么。 ceo 自动拆解任务,协调各部门,各部门做完自动汇报, 这可能是目前最接近一人公司的玩法。今天我把所有步骤一次性讲清楚,先给大家看看最终效果。这是我搭好的一个七人 agent 的 团队。在飞书同一个群聊里, ceo 负责理解我的需求拆解任务分配给各部门。 产品部负责需求分析和 prd 输出。开发部负责技术方案和代码实现,设计部负责 ui 方案,市场部负责推广策略。 数据库负责数据分析和效果追踪,运维部负责部署和监控。上周,我想做一个 ai 每日早报的自动推送工具。我在群里跟 ceo 说,我想做一个工具,每天早上八点自动抓取 ai 领域的新闻,生成一篇早报,推送到我的社交媒体。 然后 ceo 就 把这个需求拆分成了四个子,人物,产品部定义早报的内容结构和信息源。开发部写下载脚本和推送接口。市场部确定标题风格和受众定位,数据库设计阅读量追踪方案。每个部门各自输出了方案, ceo 汇总之后,给我一份完整的执行计划。 整个过程我只发了一句话,这就是今天我要教大家搭建的东西。在动手之前,先花三十秒了解一下原理,这样后面的操作你才不会懵。 opencloud 的 多 agent 的 机制本质上是这样的,一个 get 位实力多个工作区,每个工作区就是一个独立的 agent, 它们共享一套基础设施,但各自有独立的角色设定模型配置聊天渠道绑定。 理解了这个搭建就变得很简单,总共两个步骤,第一步,在 opencloud 中创建多个 agent。 搭建方式有两种,第一种,通过命令行交互式创建,一行命令搞定,打开终端,运行下面这行命令。这种方式的好处是不用修改配置文件,跟着提示一步步选就行。 第二种方式,直接修改配置文件,适合一次性创建多个 a 键的。打开你的 opencloud 点 json 配置文件,需要修改三个地方 室内配置文件,如图。第二步,配置聊天渠道。很多朋友卡在这一步,不知道怎么在飞书上创建机器人,步骤如下,我知道重复建七个很枯燥,所以我做了一个创建飞书机器人的 skill, 你 把这个 skill 安装给你的 open log, 然后告诉他帮我创建一个飞书机器人,他会自动打开浏览器,自动填写表单,自动完成创建。搭好之后,最有意思的玩法是建立指挥链。 我给 ceo 的 设定是,当用户提出需求时,你需要一、分析需求的本质目的。二、将需求拆解为产品、技术、设计、市场等维度的子任务。三、将子任务分别艾特对应部门,下达清晰的任务指令。四、在所有部门回复后,汇总结果向我汇报。 这样一来,我的工作流就变成了我指挥 ceo, ceo 指挥各部门,我验收最终结果。我只需要跟一个人说话,剩下的全部自动流转。未来的工作可能不需要那么多人了,需要的是一支听话、高效、二十四小时在线的 hr 团队。

我们正站在 ai 编程革命的前沿,当前的 ai 助手就像经验不足的实习生,能做些基础工作,但在专业深度和上下文理解上捉襟见肘。 versio 推出的 agent skills 正是要解决这个痛点,他将十年 react 和 next jess 实战经验浓缩成可附用的技能包,让 ai 助手瞬间拥有资深工程师的视角。 这张对比图清晰地展示了两种模式的本质区别。传统方式下,你得像个老师一样,一遍遍的教 ai 怎么做,每次交互都是从零开始,知识是临时的、碎片化的。而 agent skills 呢? 它更像是给 ai 装了个插件,直接注入了专家级的知识库。这意味着什么?意味着你的 ai 助手不再是泛泛之谈,而是能针对特定领域给出专业一致、高质量的建议,学习成本也大大降低。 这不仅仅是效率的提升,更是工作方式的根本转变。 versio 的 ceo roush 把 agent skills 比作 ai 的 npm, 这个比喻非常贴切。 npm 是 什么? 它是 java script 世界的软件包管理器,让开发者可以轻松地安装使用,分享各种功能模块。 agent skills 就是 ai 编程界的 npm, 它标志着一个新时代的到来,我们不再仅仅是在使用 ai 工具,而是在像搭积木一样装配 ai 的 能力。 这种能力装配的范式,彻底改变了我们与 ai 写作的方式,让专业知识的获取和应用变得前所未有的便捷和高效。 agent skills 是 如何实现这种能力装配的呢?关键在于它的技能包架构设计。 每个 skill 都是一个结构化的文件夹,里面包含了核心描述、 skill、 dot、 md、 执行脚本、 scripts 以及参考资料 references。 更精妙的是渐近时曝露机制, ai 在 需要某个技能时,并不会一次性加载所有信息,而是先加载原数据,确认需要后才加载详细内容,最后才执行具体操作。 这种分层加载就像按需加载网页资源,既保证了 ai 在 处理复杂任务时的专注度,又巧妙地绕过了上下文窗口有限的瓶颈。 相比传统的插件体系, agent skills 最大的亮点之一是它的平台无关性。这意味着什么?意味着你辛辛苦苦为 cloud code 定制的一套优化技能,同样可以在 cursor 或者 github copilot 上无缝运行。 这极大地提升了效率,避免了为不同平台重复配置的麻烦。开发者只需要专注于技能本身的设计和优化,而无需过多考虑底层平台的差异。这种一次封装、多端运行的特性,是 agent skills 生态能够快速扩展和普及的关键。 verso 官方提供了几款核心技能,它们构成了前端开发的基础能力战。首先是 react best practices, 这可不是简单的最佳实践列表,而是包含了四十多条 react 和 next js 性能优化规则,还分了优先级, 告诉你哪些是关键等级必须马上做的,哪些是中优先级可以逐步优化的。其次是 web design guidelines, 超过一百条 u i u x 设计规则,覆盖了从可访问性到动画效果的方方面面。 还有 versatile deployable, 它能把代码审查和部署流程打通,支持四十多种框架,简直是自动化部署的福音。 让我们深入看看 react best practices 这个技能包,它不仅仅是告诉你不要这样做,更重要的是告诉你应该怎么做,以及为什么这么做。 比如他会明确指出消除网络瀑布流是关键等级任务控制包体积是高优先级任务。他还会具体知道你如何并行获取数据,而不是顺序请求如何利用服务端组建来优化性能。 这种不仅知其然,更知其所以然的指导方式,让 ai 助手在性能优化方面真正成为了专家级别的顾问。再来看 web design guidelines, 这个技能包让 ai 助手摇身一变成了全站设计专家。 它内置了一百多条 u i u x 设计规则,从键盘导航的可达性,到颜色对比度的可读性,再到动画效果的流畅性,几乎包含了所有关键维度。 有了它, ai 就 能系统性的扫描界面,自动发现那些手动检查容易忽略的问题,比如 a 热标签缺失、图片加载策略不当等等。这不仅大幅降低了专业 u i u x 审查的门槛,也让设计规范得以在开发过程中就被严格执行。 versail deploy clemable 技能则打通了从代码到部署的最后一公里。它非常智能,能自动识别你的项目类型,无论是 next js、 remix 还是 astro 都能轻松应对。 然后它就能帮你创建 versale 部署,生成预览链接和认领链接。最酷的是,你可以直接用自然语言告诉 ai 去部署代码,它就能自动完成整个流程,完全不需要你手动登录 versale 控制台点点点, 这对于追求 devops 效率的团队来说,简直是梦寐以求的功能,如何获取这些强大的技能包呢? 安装过程非常简单,几条命令就能搞定。无论是想安装整个 versale 实验室的技能级,还是只想挑一个特定的技能,比如 react best practices, 或者指定给某个 ai 代理,比如 cloud code, 都非常灵活。 更重要的是, versio 维护了一个官方的技能目录网站 skill dash, 这里就像一个技能市场的货架,你可以按类别浏览,查看流行度、评分、更新频率等信息,快速找到你需要的高质量技能, 大大降低了选择困难症的风险。有了技能包,如何构建高效的 ai 工作流呢? 这里有一个经过验证的五步法。第一步,也是最关键的一步是任务拆解。 把一个复杂的任务,比如写一篇长文,分解成多个单一职责的小任务,比如素材分析、提纲、生成草稿、拷写、润色、编辑,每个小任务对应一个 skill 或 sub agent。 第二步,用自然语言描述这些 sub agent 之间的写作逻辑。比如先让 a 分 析素材,然后让 b 基于 a 的 结果生成提纲,再让 c 并行拣写草稿,最后让 d 进行润色。 第三步,中间态持久化,把每一步的输出结果保存为文件,这样既能追溯问题,也能支持断点续传和人机写作。 第四步, safari 之间只传递文件路径,而不是文件内容,这样可以避免上下文爆炸,还能支持大规模并行处理。 第五步,也是最激动人心的一步,可净化型,通过 prompt 优化、自动化评测、技能更新等方式,让整个工作流不断自我完善和进化。 理论讲了不少,我们来看几个实战案例。第一个是电商应用的性能优化, 一个商品列表页加载缓慢, lighthouse 评分只有六十五分。引入 react best practices 技能后, ai 助手迅速定位到网络瀑布流包体积过大、图片加载方式不当等问题,并自动进行了修复。结果呢? 性能评分飙升到九十二分,加载时间从三点二秒缩短到一点一秒。第二个例子是,作为代码审查员,他能在编码过程中实时给出改进建议,附带解释和示利,帮助开发者成长,同时保证代码风格和架构的一致性。 还有一个综合案例,一个创业团队需要快速构建一个合规的数据看板产品,它们组合使用了多个技能,开发周期缩短了百分之六十,产品合规性也大幅提升。 对于大型企业来说, agent skills 的 价值更加凸显。很多企业都有自己独特的技术栈和架构规范,这时候就可以开发定制化的技能包。 比如一家金融机构,他们把内部的安全编码规范、金融行业的合规要求、微前端架构指南都封装成了定制技能包。 效果怎么样?新员工上手效率提升了百分之四十,代码合规漏洞减少了百分之七十五, 跨团队代码的一致性也显著提高。这说明什么? agent skills 不 仅能提升个人效率,更能促进企业知识的沉淀、规范的落地,最终构建起一个繁荣的技能共享生态。 现在我们来对比一下 prompt 工程和技能工程这两种范式。 prompt 工程就像是临时抱佛脚,每次都需要你把知识背景、具体要求、期望、输出格式等等一股脑的塞给 ai。 知识在体是临时的,对话上下文附用性低, 知识很难沉淀下来,写作效率也受限于个人能力。而技能工程则完全不同, 他把知识固化在持久化的技能文件里,一次编辑处处使用,附用性极高,知识结构化存储,版本可控,便于团队共享, 而且还能基于使用数据持续进化。这种转变的核心价值在于,他让 ai 从一个只能回答问题的工具,变成了一个能长期学习、积累经验的专业同事。 要成为高校的 ai 工作流指挥家,我们需要遵循一些 ai 原生的设计原则。首先是渐进式,譬如我们在设计技能时就要考虑层级,确保 ai 在 每一步都只接触最相关信息。 其次是优化人机协助,让人类专注于创意架构和关键决策,而把重复性的实现、细节填充和规范检查交给 ai。 优秀的指挥家还会注重系统的可观测性和持续改进,通过日制记录、质量门控和反馈循环,让整个工作流不断优化。 最重要的是心态的转变,从一个单纯使用 ai 工具的人,转变为一个定义标准设计流程、优化、人机协助的 ai 工作流指挥家。 展望未来, agent skills 生态将如何发展?我们可以预见几个重要趋势。首先是技能市场,那些高质量、受欢迎的技能包可能会产生经济价值,形成一个技能交易市场。 大型企业可能会建立自己的内部技能中台,将组织的知识资产转化为标准化的技能,支持各团队的 ai 辅助开发。 低代码平台也会集成 agent skills 能力,用户只需用自然语言描述需求, ai 就 能自动组合技能,生成应用。 随着技术的发展,技能的应用范围还会进一步扩展,从目前的代码和文本延伸到 ui 设计、架构图、 api 设计等多模态领域。说了这么多,如何踏上 agent skills 之旅呢?我的建议是分阶段进行, 初期可以从实验阶段开始,先用官方的核心技能玩玩,熟悉一下安装和使用流程,然后进入集成阶段,尝试将技能系统化的融入到日常开发工作中。 积累了一些经验后,就可以进入定制阶段,根据团队的具体需求,调整现有的技能,甚至创建全新的技能。最终的目标是贡献阶段,把你验证有效的技能回馈给社区,共同推动这个生态的发展。记住, 最重要的转变是心态,把自己定位为 ai 工作流的指挥家,而不是仅仅使用 ai 工具的工匠,未来属于那些能最好的指挥 ai 交响乐团的开发者。

今天好朋友们,今天给你们分享一下我用 openclaw 的 新玩法啊,让 openclaw 一 句话帮你开发一款新的 app, 那 么我就用我的手机聊天软件告诉啊 openclaw 我 想做一个什么样的 app, 然后把详细的需求描述给他, 接下来我就去玩手机刷抖音去了,我就会看到他不断的给我推送他的一个开发进展,然后他会通过那个消息推送发给我,当他告诉我他的开发已经全部完成的时候,我就 打开电脑,然后找到这个项目,双击运行,查看这个 app 的 一个效果。那么这就是啊,他帮我开发的这款 app 的 整体的一个运行效果,整个的开发时间大概就十分钟左右,然后 啊,他整个的开发的成本就是我的 api 的 一个调用成本,大概就五块钱左右,所以啊,如果你有一些简单的想法,或者你想做一些什么东西,让 opencloud 啊直接就帮你去在后台默默的执行,而且成本极低极低 啊,这就是我给你们分享的最新的一些用法。好了,关注我,了解更多的 ai 工具。

如何用 tree 完全开发一个微信小程序?第二期,今天我们的主要内容是使用 tree 创建我们的项目,然后创建两个 ai 智能体,一个是我们的软件产品经理,另外一个呢是我们的 ai 技术经理。 那通过这两个智能题,我们今天要输出我们的需求,细化后的软件产品 prd 文档,以及技术经理输出我们的技术方案,可行性分析还有风险,以及 最终的就是方案报告。首先我们先打开 tree, 然后在设置中选择智能体,这里可以看到我已经创建好了这两个智能体,创建的方法也很简单,点击创建,然后这里这个智能生成不是好用,大家可以点击取消, 然后在这里输入智能体的名称,这里的提示词我已经准备好了,所以我直接把它粘贴上去, 主要是一个角色定义,然后技能描述,还有一个是输出,然后给他一个英文标识,何时调用,这里我们就写,当用户提出开发需求,需要确认软件开发的具体需求和细节时 才调用,然后所有的都保持默认,点击创建,然后选择立即使用就可以了。这里我们还是用我们之前创建好的软件产品经理来给大家演示,这是我已经准备好的需求, 然后粘贴给他。 接下来呢我们就把这个需求发给我们的软件产品经理,可以看到他已经开始在分析问题了,因为我要求他是以对话的方式,需要我去主动澄清一些需求的问题,所以他会向我提问,并且给我一些选择, 我会按照我实际的一个要求去做一些选择。 ok, 那 接下来我们就和他一起对话,完成我们所有的需求澄清。 最后在他所有的步骤都完成以后呢,我们实际上就得到了一个最终的 prd 文档,然后这个 prd 文档我也是做了一些阅读和修改,最终生成了 我们最终的 prd。 接下来就是把我们的 prd 文档给到我们的技术经理去做技术拆解,同样也是要创建一个技术经理的智能体。这里我就不再演示了, 我会把提示词分享在评论区。嗯,这里可以看到他实际上最开始给的一个方案是后端用腾讯云去开发,但我们实际上是要用自己的私有服务器去部署, 所以这里我修改一下他的提示词,让他重新和我通过对话的方式重新完成这个技术方案。 最终我们可以看到他最后是交付了一个技术架构图和一系列的文档。 那这个里面就比较符合我们现在的一个技术需求。首先微信小程序通过 ninjix 反向代理做 s t t p s 反向代理,然后 后端使用 node js 开发,然后使用 mac 的 数据库,然后由后端再去调用扣子工作流动语音识别 以及做这个邮件同步。 ok, 那 通过今天这期内容呢,我们可以看到,实际上我们在用 ai 编程的时候,并不说直接上来给 ai 提了需求就让他去干, 而是我们先通过前期跟 ai 协同的规划,搞清楚我们要做什么,怎么做。 嗯,其实这也是大家用 web coding 去编程很容易犯的一个常见的误区,就是一上来就开始让 ai 去做一些模糊的需求,这就会导致后期项目很难去把控,还有 bug 可能会出现反复解决不掉的问题。 所以我认为 web coding 最重要的就是第一个,磨刀不误砍柴工,我们一定要在前期把如何做,怎么做,规划好技术架构是什么, 然后将这些以文档的形式约定好告诉 ai, 这样的话 ai 在 后期开发的时候才不会偏离的太离谱。 ok, 那 本期内容就到这里,如果你感兴趣的话可以点一个关注。下期我们将做三个内容,第一个就是创建我们的 ai 工程师 去开发前端和后端。第二个就是在虚拟机上安装一个本地的 linux 来模拟我们真实的服务器。最后一个就是让我们的后端工程师能够操作这个 linux 服务器完成开发。

在应用大语言模型时,我们常面临一个实际问题,即使了解模型能力,但在代码编辑与高效 prompt 设计上仍存在障碍,从想法到可靠实现往往有一定距离。 针对此, anthropic 推出了 cloud cookbooks, 这不是常规文档,而是一系列可运行的代码。是例集,指在展示 cloud 的 有效使用技巧。该仓库直接提供 prompt 工程结构化、数据提取、长上下文利用等多种场景的最佳实践。 这些现成的菜谱帮助你快速掌握核心用法。项目还深入介绍了高级应用,例如通过工具调用、构建 agent、 搭建完整 r a g 系统,以及使用多模态能力处理图像等。 每个视力均包含完整代码与清晰说明,方便快速上手并应用到实际项目中。

所以,如果你也在做智能体,我建议你今天开始换一个思路,不要再指定 the prompt, 而是先问自己这四件事,任务怎么拆?模式怎么选?上下文怎么给?结果谁来审?当你开始这么想的时候,你的 agent 才真正从 demo 走向系统。 这是昨天谷歌发布的一套 a 阵的架构设计方法,我觉得这个内容特别值得讲,因为现在很多人在做智能体,还停留在写提示词、接几个工具,拼一个工作流这个阶段。但谷歌这次其实讲的很明确,真正决定 a 阵的上线的不是提示词,而是架构。 这套内容里,他总结了五大 a 阵的技能设计模式。看完你就会明白,为什么有些智能体只能做 demo, 有 些却真的能落地, 为什么要开始从模块化思考。这一页其实是在讲一个很现实的问题,很多团队现在做 agent, 其实越做越乱,前面加一个提示词,后面挂一个工具,中间再塞点知识库,最后整个系统像毛绒球一样,谁都不敢动。所以谷歌这里提了一个非常关键的方向, 不要再把 a 证它当成一个大一桶黑盒,而是要拆成模块。比如输入要怎么处理,上下文怎么拿,输出怎么生成,结果怎么审核,每一块都应该有边界,只有这样,你这个智能体才能赋用,才能维护,也才能往企业场景里放。先拆开一个 a 证,它技能包 一个完整的 agent 技能其实不是一句提示词,而是一整套设计,里面通常包括什么呢?有角色定义,有模板、有参考资料、有规则说明, 说白了就是 agent, 不 只是你,是谁?请你帮我干什么这么简单。他背后应该有完整的技能包,这样他在执行任务的时候才知道自己该按什么标准做,遇到什么情况,怎么处理,输出又该长什么样。那以后做 agent 不要只写 prompt, 要开始写 skill。 第一个模式叫 to rapper, 你可以把它理解成把一个明确能力分装成工具,让 agent 去调用。比如查数据库,查知识库,发请求,调接口,执行动作,这些都很适合做成图。 这样 agent 本身不需要什么都懂,他只需要知道我什么时候该调用这个工具,传什么参数,拿回来什么结果。这个模式最大的好处就是两个字,稳定。因为你把能力边界定义清楚了, agent 就 不会老是自由发挥。 所以如果你要做企业里的智能体,像审批、查询报表、数据检测这种,我觉得 to rapper 基本是绕不开的。第二个模式叫 generator, 也就是生成器。这个模式适合干什么?适合做报告、邮件、方案、总结文案这种有固定结构的内容生成。 谷歌这里强调的重点不是让模型随便写,而是模板驱动生成,先把格式固定好,再让模型往里面填。比如一份周报,开头写本周正点,中间写进展,后面写风险和计划。那你就不要每次让模型自己想结构,而是直接给他模板,让他按这个框架输出, 这样做出来内容就会更稳,也更适合业务场景。所以这一页其实在告诉你,生成了 agent 想要好用,关键不是更能写,而是更会套模板。第三个模式叫 reviewer, 也就是审查者。这一页我觉得特别重要,因为很多人做智能体只关注怎么生成,但真正决定能不能用的,往往是谁来检查。让一个 agent 负责产出,另一个 agent 负责审核。审什么呢? 审格式对不对?逻辑顺不顺?内容全不全?有没有明显风险?本质上,它是在模拟真实团队里的分工,一个人写,一个人审。 这个模式就特别适合高要求场景,比如合同、报告、方案、流程、文本、制度、文档。因为你只靠一个 a 站台一次生成很容易飘,但如果后面再挂一个 review 了, 整体质量就会文很多。第四个模式叫 in in 第四个模式叫 in warren。 这页稍微抽象一点,它特别关键,它想表达的是,不要一开始就把所有的上下文都塞给 agent, 而是让 agent 在 真正需要的时候再去拿对应的信息。 比如有些知识规则、历史记录,并不是整个流程每一步都需要,那你其实没必要从头带到尾, 应该是谁需要谁去取,什么时候需要,什么时候再加载。这样做的好处很明显,第一节省上下文,第二减少干扰,第三也更利于系统扩展。说白了,这一页讲的就是上下文不是越多越好,而是越精准越好。 第五个模式叫 poplan, 也就是流水线。这个模式就很好理解了,你把一个复杂任务拆成各个步骤,那第一步理解输入,第二步处理任务, 第三步检查结果,第四步整理输出。每一步只做一件事,前一步过了再走下一步,这就像工厂流水线一样。为什么这个模式重要?因为很多 a 站的失败,不是模型能力不够,而是他把所有事情一次性做完,结果中间出了问题也没人发现。 而 powerline 的 好处就是可控、可查、可回溯,非常适合企业里那些流程明确,结果却要求高的任务。到了这一页,谷歌其实在做一个汇总,意思很明确, 如果你是调工具做 agent, 不要上来就问哪个框架最强,你应该先问自己,我这个任务到底属于哪一种模式?这一页其实已经不是在讲单一模式了,而是在教你怎么选架构。 它像一个决策树一样,先问你几个问题,你需不需要结构化产出?你需不需要检查和反馈?你需不需要步骤编排?你需不需要调用工具? 这一页是我觉得最有价值的一页。因为谷歌明确说明了,真正好用 a 阵。真正好用的 agent, 通常不是只用一种模式,而是多种模式组合。比如用 powerplay 把流程串起来,那比如说,如果,如果要查外部数据,那再通过 to rapper 去调用工具。 你看,这一下就从单个智能体升级为完整系统了。所以说,很多人老问智能体到底怎么做才专业?答案往往不是更会些 prom, 而是更会做模式组合。 adk 的 思路,渐进式批录, 这一页讲的是一个特别像工程实践的概念,叫鉴定式。譬如什么意思?就是不要一上来就把所有信息暴露给模型,而是随着任务推进,逐渐给他需要的那部分。比如一开始只给目标和基本上下文,后面需要再调用知识再补知识,需要审核规则再补规则,需要执行工具再补工具。

现在程序员有了各种 agent, 于是主包也想自己搭建一套策划工作 agent 平台, ai 辅助策划案设计、 ui 设计、配置表、相关工作等等。 先是 ui 设计,相比传统的图片方案,我们需要用我们的编辑器给策划设计 e y 导出程程序 agent 可以 阅读的格式,方便它们自动拼界面。这里加上了主流的各种控件以供编辑。 重点是开发了一个简单的 a g t, 让大模型来设计 ui。 这里我让它设计一个背包界面, 让它加上关闭按钮, 关闭按钮加好了,让它优化一下排版。 假设我们设计完了,查看一下这个 ui 的 j 四描述,这个是可以直接投喂给程序 a g t 识别的格式, 然后还能给关键节点添加注示,注示会一起导出到 jason 中,更加便于程序 a 键的开发 ui 功能。 这里我们可以点击查看所有节点的注示,也能手动修改, 可以看到注示都包含在 jason 信息中。 把这个 jason 投喂给程序 a 帧 t 就 可以了。接下来我打算给 clad code 的 添加一个 skill, 来拉取我们的设计方案,自动生成 unity 引擎的预设,自动开发逻辑。感兴趣的朋友点个关注吧!