我们团队在 ai 辅助开发上摸索了一段时间,最近总结出了一套相对高效的工作流,想分享一下。核心观点很简单,用 oops 设计架构,用 codex 处理编码。这两个模型在 a 建的开发上的思路完全不同, 理解这个差异才能真正用好它们。 os 更信任模型本身,它设计出来的 a 键的架构会尽量简化列露,把更多决策权交给提示词和模型推理能力。这种架构下,核心就是提示词加精简框架,让模型有更多空间去思考和判断。 这恰好是 os 的 强项,它的推理能力强,能处理复杂的决策逻辑。 codex 更信任代码, 他倾向于用代码硬编码来解决问题,对提示词在 agent 中的杠杆作用关注不够。写 bug、 修 bug 它很强,但如果需要灵性的架构设计,它就会差一截。这也解释了一个大家常见的困惑, 为什么 cloud code 和 codex 的 回复风格经常不一致?根本原因是底层逻辑的设计哲学就不同。 cloud code 背后是 oops 的 思维方式, codex 是 另一套逻辑。所以我们的实现是在 it 的 开发中,架构设计环节用 oops 让他从整体逻辑、决策流程、模型推理能力这些维度去思考,设计出来的架构会更精简、更有灵性。代码实现环节用 codex, 他 擅长把架构翻译成具体代码,处理各种编码细节和 bug 修复。这样的分工好处是什么? os 不 用纠缠在代码语法细节里,可以专注于架构的合理性。 codex 不 用操心整体设计,可以专注于代码质量。 两个模型各司其职,效率会高很多。我们现在的开发流程基本是先用 os 处理需求,设计架构,确定关键决策点,然后把架构交给 codex 去实现。遇到问题时, codex 负责 de bug 和优化代码, os 负责评估架构是否需要调整。 这个工作流对我们目前来说是最顺手的体验,不是说这是唯一的方式。但如果你也在做 a 建的开发,理解这两个模型的差异,然后根据自己的情况调整,应该能找到更高效的节奏。
粉丝1.9万获赞9.1万

自从我 cloud code 被封了以后,我基本上就用 codex 作为我的主力了。最近 codex 出的这个多 agent 方式 我觉得还挺好的。你看现在我就让他有五个 agent 一 起在并行地开发。那你需要在提示词当中明确地告诉他,请用多 agent 的 方式去开发。 我觉得紫 a 证的可以这么去使用,比如说我现在要改一个产品的 landing page, 就是 它的首页,我告诉他说我要跟竞品拉开差距,然后你去调研一下竞品怎么设计的, reddit 上面去看一下用户的真实反馈,同时 你再去看一下我现在怎么设计的,那他就会给我创建三个子 a 阵的,分别做这三件事情。他把结果汇总之后,给我一个最终的结论,怎么去改,让他们各自并行的处理不同的任务,最后汇总在一块。

朋友们,现在我人在外面啊,但是呢可以用手机来控制家里面的 cloud 的 了,我不知道大家平时有没有这样的痛点啊,就是人在外面呢,也想用手机来控制家里的 cloud 的, 因为有的时候我们可能有些工作没有完成,那在外面呢,也想用手机呢来继续控制家里的 ai 来帮我们干活,因为我们出门在外总不能背这个笔记本吧。 那最近呢,也赶上春节了,好多朋友呢,可能需要走亲访友,或者说陪家人出来游玩,那这个时候呢,我们如果有台手机能够远程的控制家里的 clock, 那 岂不是很爽。最近 呢,我也一直在找这样的解决方案,那终于呢,找到了一个开源的项目叫 happy, 这个项目的地址呢,我放在我的主页 ai 交流群了,那通过这个 happy 呢,我们就可以非常方便的并且免费的能通过手机来控制家里的 clock 了。那下面呢,我就把这个方法呢分享给大家。第一步,在手机应用商店 搜索下载 happy 这个 app, 苹果的用户需要注意一下,需要切换到美区商店才能够下载。第二步,在电脑端通过 npm 安装 happy code, 目前 happy 支持 cloud code 和 codex, 如果你平时使用 cloud code 比较多的话,就直接输入 happy 来启动,如果你平时使用 codex 的 话,那就通过 happy 空格 codex 来启动。 第三步,第一次启动的时候呢,我们需要通过手机 app 和电脑绑定一下,电脑端启动后选择第一个 mobile app, 这个时候呢会出现一个二维码,通过手机端 happy 扫码成功后,手机就跟电脑绑定上了, 接下来在 happy 的 终端中添加设备配置,你要操作的项目目录就是你平时用 cloud code 操作的那个项目路径,配置好后,你就可以在手机上愉快的操控家里面的 cloud code 了。 那有了这个神器啊,我们就可以在外面随时随地的用手机来控制家里面的 cloud code 了,让 ai 呢继续帮我们干活, 是不是很方便。虽然说这个项目在使用的过程当中呢,可能极个别情况会有一些小 bug, 但是整体上呢,不影响总体的这个使用体验。出门在外呢,作为应急啊,作为一个基本的使用是完全足够的,而且它的操作方式啊,跟我们在家里面使用电脑登录 cloud code 的 交互方式是一模一样的, 所以感兴趣的朋友呢,可以去试一试,真的非常方便。那如果在这个软件的安装或者使用过程当中有什么问题的话呢,也可以来我的主页 ai 交流群进群沟通,那如果有朋友呢,没有找到我的 ai 交流群,也可以在后台私信我。

如果你们现在用 codex 这种工具用得比较深入,我相信你们一定会遇到下面的这些问题。比如说你用 codex 帮你做这个项目,那你肯定会去见这些文件夹, 然后在文件夹里面再去放你对应的这些对话。但是呢,你用久了,你就会遇到那些对话,它会消失, 这个跟 codex 内部的一个管理逻辑有关系,他消失了其实就很麻烦,你以前跟那些对话产生的相关的工作开展的问题, 这些记忆都不在了,你想要接着以前的工作去做,那就很麻烦,你又得重新去给他说这里面那些情况。如果说有人用的更深入一点,他还会做一些分工啊,就比如说你可能在里面做了一些有做数据管理的, 然后有做业务开发的这种,那多了之后啊,你可能在分工管理上面你也会花比较多精力,特别是你又分工,然后又出现那个对话丢失,你就会发现你特别的抓狂。那我这里就推荐一个解决方案, 就是这个开源工具,就是这个开源工具遇到了这些痛点,所以说我把这些痛点全部又整合成了一个本地化的一个工具来做。那这里面的这些对话 我们就持久性的去保存呢,就往我们相当于把 codex 搬到这个工具里面来用,那它这个对话就会很持久,并且在持久的基础上呢,还提供了一个分工协助的功能,然后协助你可以这样拖进来 at 某一个协助对象, 这样的话就可以快速协同工作开展。这个呢就是分工协助所产生的这种联系线啊,但你们可以看到这一条呢, 是我先给这个产品发的一个消息,然后玩了他在执行过程中,他就联系了项目的一个总控, 相当于项目经理的一个角色,然后由项目经理再去分发了这相关角色的一些工作推进,然后完了再由产品这边再去协同啊推进相关的工作。你可以看到,其实每一次我可能跟他聊完了之后啊,确定了一些阶段性的工作之后,他就可以再去激发组织 开展后面的一些工作,这样的话我们的这个工作体量就可以提起来了。以前的话你一个人去做了很多分工,然后你一个人去跟每一个 a 阵去聊,你其实是很累的,你聊不动,你能做的事情也就那么多。但是现在经过这一套体系啊, 我们建立了一个 a 阵协助团队,那这个协调团队就让我们可以去承载,去做更复杂的业务啊,这样的话我们就可以一个人去驱动一个团队来开展工作,这个呢也都是因为从这个需求开始,然后做的上面的这么一个工具。

你让 cloud 指挥 codex 干活,任务一复杂,最先乱的往往不是实线,而是上下文。 simon wilson 点的很准, sub agents 最适合代码库探索和多步骤计划,因为单个 agent 装不下那么多脏活。 今天我把这层拆给你看,顺便讲清它怎么接近 agent teams 和 ccb。 复杂任务的问题不是模型不会做,而是读代码,找证据,做修改都塞进同一个窗口, 官方文档直接点名。 sub agents 特别适合代码库探索和多步骤功能计划这种天然并行任务。把这些步骤拆开后,主代理只处理结果和决策,上下文才不会越滚越乱。 codex 现在内置三种子代理, default 都得, worker 专注执行和修复, explorer 专注读代码。 这不是三个窗口同时聊天,而是不同角色先分别完成任务,再回到主县城统一汇总。 simon wilson 的 观察很准,这套模式已经成了 coding agent 的 通用结构, agent teams、 ccb code、 sub agents 不是 一回事,而是三层结构, agent teams 解决,上层协助 ccb 解决, cloud 到 codex 的 任务分发, sub agents 解决, codex 内部再拆执行。 前两层决定谁来指挥,最后一层决定 codex 自己怎么改。如果你之前就在用 ccb, 让 cloud 负责拆需求定边界,审结果,现在它终于能更细地指挥 codex 了。 cloud 不 再只把任务扔给一个 codex, 而是能明确要求 codex 先拉 explorer 查,再拉 worker 改。你还能写自定义 t o m l 代理,但先记住三件事,显示 spawn 六个线程一层深度 token 也会更高。 这项更新的意义不是 codex 多了个按钮,而是 coding agent 开始进入角色分工阶段以后,谁还让一个 agent 一 口气查证?改验慢指是副作用,更大的问题是它会越来越糊。

你现在看到的是一段真实的 codex 操作录屏。这次的目标很直接,用 codex 调用 jimmy 里的 nano banana, 自动完成一套电商主图和详情页素材。更关键的是,这条视频本身也是在 codex 里完成剪辑、生成解说、导出成片并准备发布的。它不是简单地问 ai 要一张图片,真正有价值的地方是把需求脚本 提示、此文件管理和结果检查连成一个可以执行的工作流画面。一开始,我把任务交给 codex, codex 会先理解产品是什么, 主图,需要解决什么问题,详情页要展示哪些卖点。接着,他会把这些要求拆成步骤,先规划素材结构,再生成主图,再生成场景图,最后把详情页内容整理出来。画面里的红色提示就是整个流程里的关键节点。这些片段不会被剪掉, 而是保留完整过程,用快进的方式让你看到 ai 真的 在持续执行。当流程开始后, catalogs 会自动编辑和运行脚本,它会读取本地文件, 组织产品信息,构造适合 nano banana 的 升图提示词。然后, codex 会把主图、细节图、场景图这些不同类型的素材一次次提交给模型生成。中间这段快速滚动的画面背后, 是重复但非常好奇的工作。如果人工来做,通常要不停地复制提示词、上传图片,等待结果、下载文件,再逐个检查效果。但在 codex 里,这些动作可以被自动串起来。也就是说,你负责给方向, codex 负责把流程跑完。你只需要判断结果好不好, 哪里需要调整?下一轮要不要换风格、换卖点、换场景。在电商主图部分,重点不是图片有多花哨,而是产品是否清楚,场景是否可信,卖点是否易也能看懂。 codex 会围绕这些目标生成多张后选图,然后继续整理输出。 接下来进入详情页。详情页比单张主图更复杂,因为它需要前后风格一致,要把产品功能、使用场景、细节展示和购买理由串起来。这也是 codex 的 优势,它不只是调用模型,而是把模型结果放回一个完整的生产链路里继续处理。你可以把它理解成一个 ai 工作台, 不是聊天之后就结束,而是能直接读文件、写脚本、生成素材、检查输出,并把结果放到对应的文件夹里。对于做跨境电商短视频素材商品图详情页的人来说,这种方式最大的变化是效率。过去需要一个人手动操作很久的事情,现在可以让 codex 在 后台自动推进。 而人的价值会回到更重要的地方,确定卖点,判断审美、选择方向,决定要不要继续迭代。这段视频展示的就是从一个需求开始,到主图和详情页素材逐步成型,再到视频被 codex 剪辑成片准备发布的完整过程。如果你也有类似的批量生图 素材整理脚本自动化任务, codex 可以 把爱从一个聊天工具变成真正能帮你干活的生产力工具。这就是 codex。 把想法交给他,把重复流程交给他,然后把时间留给更重要的判断和创意。

所以只要有足够的 tokens, 一 晚上解读四十篇文献非常容易。 hello, 大家好,我是龙博。接下来我将用五分钟时间告诉你如何利用 ai agent 自动下中英文文献,并且获得解读和对比的文件。首先我们需要一个 ai agent, 这里我使用的 codex 或者是大家常用的 cloud code 都是可以的。我们需要两个 skills 和一个 m c p, 两个 skills 分 别是 c n k i skills 和 google scholar skills。 m c p 呢,是大家下的 zotaro m c p。 这个时候我们打开我们今天的测试文件夹,大家可以看到里面主要是存放着我今天使用的提示词,还有我准备的 skill。 这个 skills 里面是文献解读的有关要求,比如我们这里一般用角色要求的口吻跟他说,你是一名专注计量经济学领域的学术写作专家。我们在整个文档里面提出关于文献解读的一些要求,比如总体的语言风格,段落节奏的要求,还有我们这里说的学术腔的控制,以及我们整个解读文件的结构风格等等等等。 除此之外,我们还需要准备一个文献对比用的 excel 文档。比如这里就会提到,如果要进行文献对比,我们应该对比文件的题目,刊发表的年份。如果是实证研究的话,我们还要对比被解释变量,解释变量面板的类型啊,因果设计,实证模型等等等等。 有了上述准备,我们就可以给我们的 agent 下达任务了。这里我给大家准备了提示词。我们总共分成了五类任务。 第一类,我们要求查找文献,这里我要求查一篇中文文献,查一篇英文文献,主题是关于数字经济的,优先查找五年来发表在顶级棋盘上的实证论文。同时我们要求相关的 pdf, 要求导入我的 zotaro, 同时要求我们的 agent 使用我刚才提到的文献解读 skill, 对 每篇文章分别进行解读,然后根据我刚才提供的 excel 模板对比这两篇文章。 哎,我们可以看到我们的 ai agent 已经开始行动了,他说啊,他会优先查找经济、研究、管理世界等 中文文章,同时他会调用各种各样的工具完成对应的解锁,整个耗时的时间是比较长的,所以我建议大家如果有时间的话,可以晚上下达任务,第二天早晨就可以看到对应的结果。而且呢,我建议大家可以提前给出相应的完全访问权限,这样子的话就省去了审批的环节了。 two thousand years later 哦,我们可以看到,总共用时十三分钟零八秒,我们的 ai agent 已经完成了刚才的任务,他选了一篇中文的文章,是数字经济发展与企业全要素生产率,还有一篇英文文章,两篇文章他都已经分别生成了解读 和对比模板。哎,我们来看看他到底结果怎么样呀?这个时候啊,我们打开最开始的测试文件夹,我们会发现整个文件夹里面多出了两个 markdown 文件,这是关于刚才文章的解读。首先我们来看第一篇文章, 这篇文章是一篇关于数字经济发展和企业生产率的文章,这个解读文件里面介绍了问题的研究背景,数据的来源,研究的创新性哦,非常好的一点是,他还给出了研究使用到的识别方程,还有精准的回归结果,当然都做了一定的简化,还有内生性的处理,意志性的处理等等等等。 同样的,我们刚才的文件夹下还多出来了一个 excel 文件,这个 excel 文件里面是刚才 a i a 整的下的两篇文章的对比,包括了这两篇文章的题目 啊刊,一个是工业技术经济,另一个是英文刊,对比了两篇文章所使用的被解释变量,解释变量以及使用的面板等等等等。 当然啊,关于这篇文章还有一个 papers 的 文件夹,在这个文件夹里面存放 ai ai 找到的 pdf 文件,我们可以打开,这是一篇英文文献,这是一篇中文文献,它这里面都给出了我们原始的 pdf 文件。 还有一个任务,别忘了,我们刚才要求我们的 ai agent 把对应的文献导入到我们的 trooper 当中哦,大家发现没有,确实它已经完成了对应文献的导入啊,我们可以在我们的 ai agent 里面看到,大家会发现啊,有了 ai agent 轻轻松松,我们只需要下达一个任务,它就可以完成 文献查找, pdf tar 的 导入,以及说对每篇文章进行解读,还有用 excel 表格对文献进行对比,非常容易就可以完成了。所以只要有足够的 tokens, 一 晚上解读四十篇文献非常容易。

挑战从零基础,小白自创 ai agent 智能体文机视频,将实现工作效和任务隔离功能的开发。上个版本我们的 agent 已经能够自主地认领和完成任务,但是所有任务共享一个目录。现在我们给每个任务一个独立的 gitwork tree 目录,用任务 id 把两边关联起来, 启动 codex, 让它创建任务。先把目标持久化,然后创建 worktree 并绑定任务传入自动将任务推进到 task id in progress。 绑定同时写入两侧状态, 然后在 worktree 中执行命令指向隔离目录首尾有两种选择,第一种是保留目录供后续使用,第二种是删除目录完成绑定任务,发出事件。 最后细节留的每一个生命纠期不就都写入 work tree events jason l 至此,本次项目彻底完成了,感谢各位观看!

你用过 cloud code 的 agent teams 模式吗?一个人写代码太慢?让多个 cloud 同时帮你干活。今天两分钟带你搞懂 agent teams 的 核心玩法。 agent teams 本质上是多智能体协助系统,一个绘画作为 lead, 负责协调多个 teammate 并行工作。每个 teammate 有 独立的上下文窗口,互不干扰。 使用前需要先开启实验性功能,在 settings j s o n 中设置环境变量或者直接 export。 推荐使用 opus 模型,协调能力最强。 工作流程分四步, lead 创建共享任务列表分配工作, teammate 认领任务独立执行,还能直接互相沟通。最后 lead 综合所有结果处理冲突。 团队分工很灵活,比如一个成员审查架构,一个实现功能,一个写测试,也可以让多个成员并行研究不同方案,再择优选择 最佳团队规模是三到五人,任务要拆分清楚,边界独立,避免编辑同一个文件。注意 token 成本,每个 teammate 都有独立上下文,按量计费。 记住 agent teams 的 核心并行协助任务驱动复杂项目用团队,简单任务用单 agent 就 够了,这才是 agent teams 真正的打开方式。

这套流程可以让 ai 自动操作浏览器,代替你完成一切机械重复性的工作,而且特别的省 toc 很多工作流甚至全程不需要 ai 参与,零 toc 就 能把自动化任务跑起来。比如可以零 toc 抓取电商网站评论,导出成 csv 文件,自动把 markdown 文章发布到 x。 还有对自己开发的 web a p p 进行 ai 自动化测试。我们并不需要懂浏览器的相关知识,只用自然语言就能完成这些任务。本期视频我们使用的 agent 的 框架是 cloud code 或者 codex。 浏览器自动化方案是 playwrite c l i 搭配配套的 skill。 playrite c l i 是 二六年初微软开源的全新浏览器自动化工具。根据官方的精准测试, playrite c l i 比起传统的 playrite m c p 方案,差不多能够减少四倍的 token 消耗。工具搭建好以后,我们可以把很多固定的工作流程沉淀成 skills, 让 ai 能够又快又省的完成任务。甚至熟练后你会发现很多固定流程甚至不需要 ai 参与,只需要让 ai 编辑好一个固定的脚本,就可以零偷看全自动完成工作。好,废话不多说,我们直接开始。 在开始之前,我们需要先确保电脑上安装了 node js, 如果没有安装过,可以来到 node js 的 官网,根据自己的操作系统下载对应的安装包。然后我们打开一个命令行终端,输入这个命令,安装 playwrite c l i。 安装完成。下一步我们要确保电脑上安装了 chrome 浏览器, 如果是 edge 浏览器也可以,不过最好还是推荐使用 chrome 好, 这样准备工作就完成了,我们来测试一下,我们可以使用这个命令,使用 playwrite c l i 操作 chrome 浏览器, 打开谷歌的官网。最后一个参数 hide 的 表示使用的是有头浏览器,如果不加这个参数, playrite 默认使用的是无头浏览器,无头浏览器会在后台静默运行,虽然比较省内存,但是我们看不到浏览器的页面,所以为了方便调试,我们一般加上这个参数。杠杠 hide 的 回车, playwrite c l i 自动操作 chrome 打开了我们要的网页。我们在控制台这边可以看到, playwrite c l i 只是输出了一个简洁的网页摘要,而没有返回整个网页的全部 dom 结构,下面附带了一个网页结构的文件地址, ai agent 如果需要更详细的网页结构信息,就可以选择读取这个快照文件,获取更详细的信息,如果不需要,就可以选择不读取。这也就是为什么 playwrite c l i 比起 m c p 更节省上下文的秘密所在。因为 m c p 是 把网页内容全部塞进上下文, 而 playwrite c l i 可以 由 ai 按需加载的思路。 screenshot 是 给浏览器截图,我们看到截屏的时候,它还是以一个 p n g 的 文件的形式 存放在了电脑的本地硬盘上,由 ai 决定是否来读取,而不是像 m c p 那 样直接把图片塞入 ai 的 上下文。我们再介绍一个重要的参数,就是杠杠 persistent, persistent 表示把 cookie、 登录状态、本地存储之类的数据写到硬盘里面,下次使用的时候继续拿出来用, 这样就不需要每次都重新登录了,比如我之前登录过,我们打开的谷歌首页就变成了已经登录过的状态了。 到这里我们就介绍完了 playwrite c l i 的 基础使用,下一步我们就把它接入 ai agent。 本期视频主要使用的 agent 的 框架是 cloud code 和 codex。 爬爬虾之前有很多期视频介绍 codex 或者 cloud code 了,这里我就不赘述了。 playwrite c l i 是 一个新诞生的命令行工具, ai 并不知道该如何使用这些命令,所以我们需要给 ai 搭配 skills 来一起使用 playwrite c l i 作为技术底座,而 而 skills 作为说明文档, c l i 加 skills 搭配起来使用,就可以取代传统的 m c p 方式,这也是最近的一个技术发展趋势。我们先新建一个项目文件夹,打开这个文件夹,打开命令行终端,我们直接输入这个命令,给文件夹里面安装 skills, 这样 skills 就 安装完成了, 它放到了我们新建的项目文件夹的这个目录下面。然后我们就可以启动 cloud code, 我 来询问它你有哪些 skills 可以成功地读取到 playwrite c l i 技能,这样我们就成功地把它接入了 cloud code。 接下来我们来看另外一个 agent 的 框架,就是 codex, 我 们只需要在项目目录里面把存放 skills 文件夹的名字从点 cloud 改成点 codex 来适配 codex 就 完成了。 然后我们还是在这个目录里面打开 codex, 在 codex 里面可以输入命令斜线 skills。 我 们看到这里列出了 playwrite c l i, 在 codex 里面也配置完成了,我们在 codex 里面测试一下基础用法, 我让他使用 playwrite c l i 加上这两个参数,打开 guirk, 问问今天青岛的天气怎么样。 ai 成功的打开了浏览器,来到了 guirk 的 首页,帮我们自动输入了问题,自动点击了回车,拿到了结果,最终成功打印到了控制台上,任务就完成了。 我们来看一个复杂一些的例子,使用 playwrite c l i 查看这个商品前一百条评论,然后保存到一个 c s v 文件里面。 我们看到 ai 还是先学习 playrite c l i 技能,然后打开了商品页。第一次运行总是磕磕绊绊的,不过没关系,我们让他自己探索, 自己寻找解决思路。 ai 尝试了很多方案,也浪费了不少头肯,我们看到这里显示用掉了百分之四十一的上下文窗口,最后成功完成了任务,帮我们获取到了这个 c s v 文件,成功抓取到了这么一百条数据。我 我们有两种方式可以把这个流程总结并且保存下来,让它下一次执行变得更加丝滑,更加省 token。 我 们先来看第一个方式,就是把这个过程保存成一个 skill 里,输入提示词,创建一个新的 skill, 把刚才打开网站查看评论,并且保存评论的全过程,还有遇到的坑都提炼出来,保存到这个 skills 里面,后面我只要让你保存评论,你就能调用这个 skill 完成任务。 ai 帮我们创建了 skill, 把这个任务里面可以附用的内容都固化进了知识 这里,我让他修改一下,把 skill 放到项目目录里面, skill 成功放到了项目目录下面,现在我们有两个 skill 了,一个是 playwrite c l i, 还有一个就是刚才保存评论那个流程的 skill。 这里我先清理一下上下文,我们再用相同的任务来测试一下。 有了 skills 的 指导以后,效果就不一样了。 ai 充分吸取了之前的经验,没有再出现多余的动作,也没有报错,用最低的 token 消耗完美的完成了任务。 我们第一次让 ai 自己摸索,自己试错,用了百分之四十一的上下文才完成了任务。第二次,有了 skills 的 指导,只用了百分之五的上下文就完成了任务。通过把过程提炼总结成 skills, 获得了将近十倍的效率提升。抓取评论是一个固定流程,其实并不需要 ai 进行智能化的控制, 我们可以直接把它编写成一个固定的脚本,这里输入提示词,你把刚才所有的 playwrite c l i 命令汇总成一个脚本,执行脚本就能获取商品的前一百条评论,并且保存到一个 c s v 文件里面。注意,每一步都要有合理的延时与等待,确保任务成功。 脚本写完,你先测试一轮,很快 codex 为我们编辑完成了脚本,他已经自己测试通过了。我们来看一下这个脚本长什么样。在我这个 windows 电脑上就是这么一个 power shell 的 脚本。 a a 以编程的方式把刚才的步骤都固定下来了。 比如第一步,打开商品页面。第二步,确认浏览器里打开的是正确的 u r l。 第四步,点击查看全部评价按钮。最后一步,把刚才的 json 数据保存成一个 csv 文件, 我们也来测试一下,我们打开一个命令行终端,输入这个 power shell 脚本的路径回车执行。这是一个固定的流程,中间没有 ai 的 参与。我们看到这次不再依赖 codex 了,直接执行这个 power shell 脚本,零偷坑,零成本就完成了任务, 还取得了相同的效果。好,我们来总结一下这套浏览器自动化的流程。在准备阶段,我们先安装 note js, playwrite c l i 还有 chrome 浏览器。第二步,选择你喜爱的 a i a 阵的工具,把 playwrite c l i 的 skill 安装进去。第三步,给 a a 一个复杂的任务, 让他自己摸索并且执行完。第四步,让 ai 把刚才的执行结果提炼,总结成 skill, 之前遇到的坑就不要再踩了。第五步,重试相同的任务, ai 在 skills 的 指导下,可以把 token 的 消耗降低十倍, 如果是完全固定化的流程,还可以继续进行。第六步,让 ai 把这个过程直接编写成一个脚本,有了脚本以后,我们甚至可以直接执行这个脚本完成任务,完全不需要 ai 参与,把 token 消耗直接降低到了零。 我们再来看一个实战案例,最近扒扒虾,把自己的视频用 ai 转成图文教程,然后发到各个平台上面。大部分平台发文章都比较简单,唯独有一个平台 x 发文章的步骤非常的繁琐,这是我的一个文章,是不能直接以 markdown 格式粘贴过来的。首先这个格式会错乱,第二个问题是图片都展示不出来。然后我又测试了一下,如果使用 html 格式 是可以粘贴的,但是又出现了一个新的问题,图片是粘贴不过来的,图片都变成了这么一个照相机的小符号,我们只能手动先把小照相机删除,然后把图片复制一下,一张张的手动粘贴过来, 非常的麻烦。接下来我们就使用前面介绍的自动化流程,把这个发文章的全过程进行 ai 自动化。这里我还是使用 codex 帮我编辑一个 python 脚本, 把文章里的图片下载到本地,从零零一开始编号,放到这个文件夹里面,先转换成一个只使用本地图片的 markdown 文章,然后运行 python 把本地图片的 markdown 文章转换成 html 格式,注意 html 格式里面每张图都应该是独立段落。 开始 ai 帮我们编辑好了脚本,并且为我们转换好了文章。我们来看一下,图片都放到了这个 image 文件夹下面,而且已经把文章转换成了 html 格式的。好,下一步我们就可以让 ai 来帮我们自动发文了,我们输入提示词,使用 playwrite c l i 先打开这个网站,创建一个新的文章, 然后把这个 html 的 内容粘贴进去,找到所有的这种照相机的这种小图标的位置,先按退格键删除掉小图标,然后在图片文件夹里面找到图片,先复制出来,按 ctrl v 再粘贴进去。这个小 icon 的 数量跟图片的数量是相等的,我需要他按顺序替换好。我们开始 ai 为我们打开了浏览器,创建了一个新的草稿,把 html 格式的文章粘贴进去了,然后他开始为我们一张张的上传图片, 把原来的站位符删除掉,然后一张张的替换成真正的图片,我们看到他正在一张张的帮我们自动化的替换。整个过程非常的顺利,我让 ai 把从头开始的全流程整理成一个 skill, 然后放到项目目录, 以后我只要给你一个文章就能自动发布。 ai 帮我们固化了一个 skill, ai 为我们编辑好了技能,生成了这些配套的脚本,然后这个 skills 就 可以覆盖自动发稿的全流程。以后我只要给他一个文章路径,告诉他使用这个 skill 自动发布, 就能自动地帮我把这个文章发布上去,非常的棒。这个 skills 的 源代码我已经上传到了 github 的 这个仓库下面,感兴趣的观众朋友们可以来参考试一下,不过我这个是 windows 电脑的,如果是其他操作系统,可以让 ai 参考这个 skill 来改一下。相信按照我这套流程,大家都可以编写出属于自己的 skill。 我 们这套浏览器自动化流程一个重要的应用就是对自己写的 web app 进行自动化测试。 比如这里我开发了一个简历润色美化的网页 app。 接下来我输入指令阅读代码,把从注册开始的主体流程写一个中文的测试文档,然后再用 playwrite c l i 打开网页,根据你的测试用力完成测试。 开始 ai 通过阅读代码学习到了这个项目的功能,然后确认了主体流程,接下来他开始编辑测试文档。测试文档编辑好了,这里包含第一步做什么,第二步做什么,第三步做什么。 然后 ai 使用 playwrite c l i 打开了浏览器,它自动点击了注册按钮,创建了测试账号,完成了登录。它创建了一份测试简历,并且上传上来了,完成了主体流程的测试。测试结论是通过。我们也可以要求 ai 编辑更多的测试,用力使 用 playwrite c l i 进行全自动的测试。还可以使用 openclaw 这种带定任务的 agent 框架,让它定时对我们的系统进行测试。一旦我们修改出来了 bug, ai 就 能全自动的发现,并且告诉我们省去了很多的人工测试成本,对我们开发网页 app 会很有帮助。好,这就是本期视频全部内容了,感谢大家点赞支持,我们下期再见!

首先来猜一猜下面哪些是 cds 做不了的事?是从这个像素运动到这个像素,沿着能画好的路径,是时光飞逝,恰好停在六点十五分,是地图上一个真实的坐标,一段精准的海岸线,是可以听见的声音,是一字不差的文字, 是用代码下一场雨,是用复历页函数画出的樱花,是一百万条数据涌入,每一条都找到自己该去的位置。答案是 以上所有啊, cds 做不了这些。 cds 可令这些 diffusion 模型确实很强,它能伸展你脑子里想不出的那些画面,但是它无法精确地控制每个细节。而 remote 加 ai 可以。 过去的一个月,我都在用 remote 加各种 ai 平台,包括 cloud code 来做产品演示,数据格式,三 d 场景,地图、动画等等。 我发现越来越多的博主也在用 web 神,比如这个主播,七个视频,十三万粉,全程 web 神制作。现在我把一个月的踩坑经历凝练成十分钟的教程,里面有大量的实战技巧以及完整的工作流。手把手从零到一,带你告别 a。 一, 实现逗笑自由。建议点赞、关注、收藏,我们开始吧。 以前做动画视频,首先你要打开 after effects 或者 fusion 学图层,关键帧曲线编辑器,光学软件就要几个月。而现在,你只需要跟 ai 说,帮我做个中日韩三国生育率随时间变化的动画。啪的一下,很快啊,视频就做出来了,这就是 ymotion。 一 句话,凭感觉做视频, 什么实现 remote, 这 cloud 就是 一种玩法,当然你可以换成悟空, codex 都可以。这么说,你们容易理解, remote 就是 那个全自动的厨房, a cloud 就是 那个厨师,而你就是负责点菜的,想要什么视频,动嘴就行。 在我的另一只视频里已经详细讲过怎么样借助 cloud 安装 remote, 悟空啊, codex 这些平台的安装方法也都是一样的。我也贴在评论区了, 我们把悟空的官网链接丢给靠,让他根据这个网页做一个产品动画。注意啊,我加了一句,不要做像 ppt, 先跟我讨论你打算怎么做。我习惯先和他讨论方案,这样返工就会比较少。方案 ok, 继续,然后他就会开始干活了。注意看,每做完一个镜头,他自己会检查一下。 ok, 让他打开预览。这个界面看着很吓人啊,但是别慌,你什么都不用学。当然了,你可以点这边手动渲染,但咱们有靠的是吧,让他干活就行。给我渲染一个视频到本地,看视频就躺在文件夹了。 顺着刚才那个案例聊啊,与 motion 最适合做的其实就是软件动画和 ui 演示,因为它本身就是 ui, 很多画面不是画出来的,而是搭出来的。像打字机啊,中端风啊,界面飞来飞去啊这些它特别擅长。来看这个案例啊,怎么表达打碎机 ui, 让它彻底 c l i 画。你看整体效果 这里我把每个镜头要什么直接拆给他了,然后反过来问他,你觉得怎么样才能做到极致的酷炫?接着 ai 会给出他建议的工具,让 ai 自己选武器,因为他懂得比你多。 数据格式化是与 motion 的 绝对主场,像 g p t 近速图啊,手机销量图啊,份额变化图啊,华语乐坛人物关系图啊这些只要有数据,它就能变成视频。 你当然可以让 ai 自己上网去找数据,也可以让 ai 读取你自己本地的 excel 表格、建层数据集等等。图表画的好不好看,关键不在于 motion, 而在于你选了什么样的前端图库。 别慌啊,你不用真的懂这些库,只需要告诉他,我想要财经媒体那种丝滑的竞速图,或者直接扔一张参考图给他,他就知道该怎么配。这些是一些常用的图标库,供你参考。 地图动画当然也是预谋选的舒适区啦,这就没有不舒适的吧,旅游路线、地理大发现的航线病毒扩散热力图都能做。我之前的地图动画教程有六千多人收藏,但你可能会发现啊,同样的提示词,你做出来的可能就是这样。核心的诀窍是,你需要一个地图外挂。想做正经的地图动画,你光靠模型去脑补可不行,要接真实的地图底图。 国内直接用高德稳一点,海外码你可以用 macbox, 免费额度完全够用。你只需要去高德的开发者后台申请一个 api key, 剩下的码交给 cloud 去配。提示词里加上地图外挂,质感完全不一样。 那直接复刻别人 ae 效果可以吗?可以的同学,可以的。有博主直接用它复刻了小林说的动效,而我则用它复刻了代码宇的动效。秘密就是让 ai 直接读视频, 我们只需要安装一个 f f n pack 技能,把视频放在本地文件夹, ai 就 能读出这只视频的每一帧,更好的还原你想要的效果。哎,这比用嘴描述可高效太多了。 先看这个效果怎么做的,这是春节档电影票房三 d 排行动画。首先呢,让 cloud 收集电影票房的数据,把电影海报和导演的照片下载到本地,然后把这段提示词 发给他,他会自己去调用 r 三 f 来做。注意啊,这个时候柱子是三 d 的, 但场景还不是。我们去这个网站随便下载一个免费的。点击 l b 的 三 d 场景,放在本地的文件夹,让 ai 去读取,你还可以让它改成黄昏的氛围,或者任何你想要的氛围。 注意啊,三 d 场景的远近大小角度,用嘴来跟 ai 沟通,效率非常低。这是我从推特上一个大佬学的,让 ai 把这些数值作为属性暴露出来,在自己的预览里直接改数字,实时看效果,这样速度会快十倍。 唇釉 remo 选做完整的视频当然可以,但是把它和实拍进行结合,表现力会更加的丰富。比如这个效果以及这个效果背后的秘密是,透明序列针,把序列针拖进剪辑软件,就能做出别人做不到的效果。我自己视频里的很多过程以及包装,现在都是用 remo 选做的。怎么样?还挺酷吧, 再快速过几个啊。 remote 加 ocr, 写一段提示词,就能做出这种重点标注马克笔的效果,指哪打哪。把字母文件给 remote 写一段提示词,就能做出这种逐字高亮的效果。把音频文件给到 remote, 就 能做出音频和释 怀。还有一个必杀技啊,自适应尺寸,做好一个横版视频,一个指令瞬间得到一个自动适配的竖版视频,同时发 b 站和抖音,不用做两遍。 ok, 复习下今天的技巧。一、先讨论方案再动手。二、让 ai 自己选武器。三、搭配前端图标库,做出更酷炫的图标。四、地图要酷炫得加外挂。五、 整段视频都可以为 ai 参考。六、沟通不清楚的参数可以让 ai 变成属性,自己来填。七、导出透明矩阵帧和剪辑软件进行配合。 再说一下我的完整的工作流,我通常不会用 remote 来做一整段视频,而是会让它去做一个个小的片段,因为动效是辅助讲解的,而不是替代讲解的。当然,如果要做长视频,具体的流程是,一、先让 ai 来设计分镜,来规划每一帧的内容 以及节奏。二、让 ai 来搭整个时间线的框架,把骨架先搭起来。第三步,建议一个镜头一个镜头的去做,这样你调整起来就不会太麻烦。 四步,一个个单镜头做好之后就可以整体进行调优,节奏啊,风格啊,转场等等。再补充一个进阶的小建议,可以写一个 call 点 md 放在项目的根目录,告诉 ai 你 常用的分辨率、帧率、动画风格以及偏好。每次开新的项目, ai 一 上来就会知道你的审美,不用从头再说一遍。 最后再聊一个重要的话题,就是 remotion 适合做什么以及不适合做什么。上面的三项是主场随便打,中间是过渡区,能做,但是需要搭配外部的裤。下面两项别 影作有更好的工具。我自己就是 remault, 做动画剪辑我还是会交给剪映和达芬奇,遇到一些实拍的素材我还是会用 cds 和可林。 remaulting 不 会取代任何的工具,但如果你是知识博主,或者你想给自己的产品做演示的视频,而你又不想花几个月的时间去学, a e remault 加 ai 就是 最快的那条路。 ok, 如果你觉得这期视频对你有一点点帮助的话,就就给个一箭三连。在评论区我想看到诸位的作品,我们下期见。

当 agent 的 自主能力不断飙升,到底它深层的范围可以扩展到哪一步?一旦跨越了某个工程离界点, agent 将完全接管从代码到运维的每一环,是高度自治、端到端的全流程驱动。本期我们继续精读 open i 工程薄课 harness engineering, 看 ai 开发的自主性究竟可以到达何种程度。首先要重新界定 agent 深层的范围。在 openli 的 这个实验中,当他们说这个代码库是由 codex 生成时,指的不只是产品代码和测试代码, 它还包含 ci 配置与发布工具链内部的开发管理、工具架构设计的历史文档、评估系统测试的框架、 pr 下面的审查、评论与回复管理、仓库本身的脚本以及生产环境的监控面板、定义文件。并且, agent 正在像人类一样直接使用标准的开发工具,他们会拉取审查意见进行内联、回复、推送、更新,甚至经常自己压缩并合并 pr。 也就是说,他正在深度参与并运转着整个工程系统。当繁琐的执行环节被全面接管,人类工程师在干什么?人类依然在回路中,但工作重心已经转移到了一个完全不同的抽象层。人类不再是写具体代码的工人, 而是成为了定义规范的甲方工程师。现在的核心工作是三件事,排定优先级,将用户反馈翻译成明确的验收标准, 以及最终验证交付成果。如果在中间过程中 a 证卡壳了,人类也绝对不会下场去帮他逐行修代码。他们会把 agent 的 挣扎视为一种报错信号,去排查是不是系统里少了某个检测工具,缺了某种护栏, 还是文档没写清楚,找到缺口并补充到系统后,依旧让 a 证自己去完成代码修复。人类不再是执行者,而是环境与标准的设计者。随着测试、频审、反馈处理等 整个开发循环都被明确编码到系统架构中后, the great 跨越了一个决定性的自治域值,只需给定一个 prompt agent 就 能完全脱离人工干预,端到端地实现。来看看原文展示的这条全自动闭环流水线, 它会先自动查验代码库现状,遇到 bug 时自主运行应用去复现,甚至会自己录制展示错误的视频留作证据, 随后完成代码修复,通过再次驱动应用来进行自我验证,并录制第二段成功运行的视频作为比对。接着他会自己开启 pr, 如果有人类或其他系统 agent 提出审查意见,他能自行响应。 遇到构建报错,他会自我排查并修复。除非遇到了真正涉及方向性抉择的情况,他才会按零叫人类来判断,否则他会一路走到底,最终自动合并代码。这是一个在极其严苛的结构化环境中真实跑通的软件制造闭环, 从输入一段需求到最终代码合并,中间长达数小时的执行过程全由机器接管。这种真正跑通端到端的全自动开发,已经成为全行业最顶尖工程团队共同确定的引进目标。不仅是 openai enterprise 在 不久前展示的 agent teams 原型实验展示了相同的趋势, agent 已经进化出自主的端到端开发能力。未来的工程师不再是帮 ai 补全某个局部函数,而是把它当做真正的外包承包方,你只需要甩出完整的需求,不再管怎么写, 只定义什么算完成,然后等待它独立交货。虽然这种端到端全自动运行的前景令人兴奋,但是 openlight 紧接着给出了一个非常冷峻的提醒。原文写道,此行为高度依赖于该代码库的具体结构和工具链,也不应假设其能普遍推广,至少目前如此, 除非投入了类似的开发资源。这意味着这种高速运转的自制决不能被简单的复制粘贴,它是用极高的基础设施门槛换来的。如果没有这套重金打造的环境与护栏,单纯追求让大模型自动写代码, 只会制造出加速系统崩溃的数字垃圾。这也揭示了自制的尽头绝对不是对 ai 下手不管。相反,越是高度的自制,越离不开极度严密的环境设计与工程约束。好了,本期内容就到这里,这里是慢学 ai, 下期再见。

每天学习一个 skill, 今天来看 cloud on desk, 它不是终端插件,而是一只住在你桌面的 ai 编程助手。捉虫,当 agent 思考打字、分派子任务和请求权限时,它都会实时反馈 这类工具最容易被忽略的一点是,你往往不知道 agent 现在到底在忙什么。 cloud 吧, cloud code c l i copilot c l i gemini c l i cursor agent kiro c l i 和 open code 接近同一个桌面层, 你不需要一直盯着终端,也能知道是空闲工作报错还是完成。 remy 里这组动图最能说明它的价值。 待机时会跟随鼠标,工作时打字,子弹里启动时会杂耍,权限请求来了还会立刻报警。一共十二种状态,把原本不可见的 agent 生命周期做成了直觉化反馈。 更实用的是权限气泡 clock code, 请求工具权限时,它会直接在桌面右下角弹出审批卡片,你可以允许拒绝,始终允许某类操作的规则不必切回终端, 拖到屏幕边缘后还能进入极简模式,只露出半个身位,通知和完成态依旧可见。 如果你的 agent 跑在远程机器上,它还支持 ssh 反向端口转发,远程 hook 和权限请求会通过隧道回传到本地 cloud, 继续在桌面上感知状态。 这意味着本地桌面宠物也能盯住树莓派云主机,甚至你的远程 codex 绘画。 所以, cloud on desk 的 核心不只是可爱,而是把 ai 编程助手的工作状态做成了系统级可见性。如果你经常同时跑多个 ai 助手,它会是一层很有辨识度的反馈界面。每天学习一个 skill, 我 们下期见。

安装完 opencloud 之后,你还在傻傻地使用一个 ai 单打独斗吗?小孩子才做选择,成年人当然是选择都要。今天我带你们玩一下 opencloud 的 多 agent 协助系统,让多个 ai 组队分工配合,协同干活。 我们可以把写文案、写代码、做分析、搞设计,这些不同的工作分给不同的 agent, 让 ai 各司其职,你只需要一个指令,其他的让 ai 团队来帮你搞定。首先我们来了解一下什么是多 agent? 简单的来说就是单 agent 就是一个 ai, 它来做所有的事情。单 ai 的 缺点是什么呢?就是你一会让它帮你整理文件,一会让它写代码,一会再让它帮你顺道订个餐。 ai 是 通过上下文来理解并执行你的任务的, 你这样做会导致他的记忆有些混乱,工作起来可能就没有那么精确。多 agent 呢,就是我们设立多个 ai 来组成一个团队,每个 agent 都有自己独立的工作区,独立的人设,独立的记忆,这样的话就可以让 ai 各司其职。 开发的 ai 就 专门来写代码,写作的 ai 就 专门来写各种的文件文档,这样呢,就是让专业的 ai 来做专业的事情,分工更专业,更加精准。 下面我们就来看一下如何创建并管理多个 ai。 我 们在 opencloud web ui 里边点这个左侧的代理, 这里有我们现在已有的这些 agent 代理,我们看现在就一个默认的 man, 它的工作区域是在这个 openclaw 里的 workspaces。 我 们来新建一个 agent, 先打开一个命令行窗口,在这里我们运行 openclaw agent 是 list。 来查看一下目前我们都有哪些 agents 好,可以看到,目前我们只有一个麦它的信息在这里,我们现在打开一个命令行窗口,我们要手工来创建一个 agent, 在 这里输入 open claw agents add, 比如说我们现在要创建一个写代码的程序员,那就是 add coding 好, 打回车。现在我们可以看到进入了添加 agent 的 步骤。首先是让我们选择 workspace, 就是 工作区域,默认的就是 workspace, 加上它的名称,那么下一个是是否复制 man 这个 agent, 我 们选择 no, 这个是询问我们是否要为这个 agent 设置单独的大模型信息选择 yes, 好, 这里我们要设置 它的大模型,那么根据它的这个模型呢?如果我们是要做一个呃写代码的话,那么我们需要一个好一点的逻辑性比较强的模型,我建议使用是智谱的最新的大模型。 g l m 五点一, 现在要我们设置消息的渠道,这个我们暂时跳过吧,因为今天的主要内容我们是介介绍 do agent, 现在显示 agent calling ready, 也就是说我们的 agent 已经添加完毕了。 我们回到 open claw 的 代理里边,我们点一下刷新,在这里就可以看到这个 coding 这个代理了。点击 coding 可以 看到它的工作区域是在 workspace 的 coding, 它使用的模型是 g l m 五点一,这个模型是对于编程来讲非常友好的,当然我们也可以在这里进行切换,切换到其他的模型, 这里是他的一些核心文件,暂时我们不介绍这个,这个兔子是他可以调用哪些工具?我们可以通过点击这些工具后面的这些个切换按钮来切换他可以使用哪些工具,也可以通过这里进行切换。快捷的切换 skills 就是 技能,代表着这个 agent 可以 调用哪些技能,同样可以点击后面的这个切换按钮进行切换。比如说这里边我们就可以把一些写作的这些技能把它去掉。 这里是消息频道,这个还没有设置,这里是他的这些计划任务也没有设置。我们再来创建一个 open claw agents。 add, 这回创建一个 writer, 专门用来写作的。 开始添加 agent, 首先让我们选择它的工作的区域 workspace, 这个我们直接打回车,是否要复制 man 这个默认的这些信息,我们选最后选 yes, 这里边还是问我们是否选择这些大模型,这个我们就不选了, 这个我们也不设置飞书信息了,选 no。 writer 也做好了,我们刷新可以看到这里已经有了 writer, 我们下一步来看看如何删除一个 agent。 open claw agents delete 这个 writer, 让我们确认是否删除,我们再来刷新,可以看到 writer 已经被删除了, 又重新创建了一个 writer。 那 么我们该如何在聊天窗口中调用这个 agent 呢?点击来到聊天,我们要在这个提示框里边输入命令斜杠 agent, 然后杠杠 agent, 比如说我们要给 writer 下达一个命令,我们先问他介绍一下你自己, 你好,我是你的写作助手,很高兴为你服务。那么我们就可以通过这个斜杠 agent agent writer, 让他给我写一篇关于多 agent 的 文章, 关于 openclaw do agent 的 文章,他就把关于 openclaw do agent 的 这篇文章写到了这里,并且也已经存到了 openclaw 的 文件夹下面,我们可以看一下, 写到了这里,写了好大一篇。这就是 opencloud 关于多 agent 的 视频,今天就讲到这里,有什么不明白的可以在评论区给我留言。下一期我们讲一下如何用手机飞书来控制多 agent 进行工作。关注我每期一个 ai 知识,谢谢大家的观看。

大家好,我最近通过源代码分析调研了一下市面上几款比较流行的 ai coding 工具,它们长期 memory 机制的实现方法包括 codex、 cloud code 和 openclock。 总的来说,参考工具的 memory 机制有很多相似的地方,但也有各自的特点,今天我就带大家花几分钟时间一起拆解和比较一下。 首先我们来看一下 open ai 的 codex。 在 一个新的 session 被创建的时候, codex 会把一个叫 memory summary 的 markdown 文件引入到初识化的上下文里面。这个文件并不包含全部的历史 memory, 而是一份高度压缩的 memory 摘要,里面包含用户偏好以及提供一个类似于 memory 目录的缩影功能。 然后随着对话的进行,这些用户输入的 prompt 以及 codex 给的回复会进入到绘画上下文,这个在 codex 里面叫做 row out history。 重点来了, codex 是 怎么把这些当前的对话变成长期的持久化记忆呢?答案是,在每一个符合条件的新 session 启动的时候, codex 都会在后台跑一个两阶段的 pipeline。 第一阶段叫 extract, 它会从近期符合条件的对话历史里面提取值得保留的事实和线索。 然后第二阶段叫 consolidate, 它会把第一阶段提取到这些线索整合成多类的持久化的记忆文件,包含 memory 点 md、 刚才提到的 memory summary 点 md 以及一些 row of summary 相关的 md 文件。这几类文件基本就构成了 codex 持久化下来的 memory。 其中这个 memory 点 md 是 比刚才这个那个 summary 点 md 更细节的包含具体 memory 内容的一个文件。然后这些 rowo summary 点 md 文件是更细节的,能够给这些 memory 点 md 里面内容提供背书的证据以及支撑材料。 接下来关于 memory 的 调用。如果在未来的任务里面, codex 觉得需要寻找具体的 memory 的 线索,他会主动触发一个记忆读取的操作。但是其实这并不是每轮对话都有 最后关于上下文的压缩。当 session 太长的时候,就是那个 context 长度快要达到那个 context limit 的 时候, codex 会触发一个上下文压缩机制。但是实际上,上下文压缩在 codex 里面并不会直接影响已经固化在本地的那些 memory 文件。 看完了 codex, 我 们再来看一下 cloud code。 和 codex 类似,在筛选出式化的时候, cloud code 通常也会把一个叫 memory 点 md 的 文件带入到出式的上下文里。但这个 memory 点 md 和 codex 的 memory summary 也不太一样, 它更像一个纯粹的目录页或者记忆缩影页,里面包含了指向各个细节 memory 文件的入口,本身只包含非常少的具体的 memory 的 内容。 接下来,在怎么把当前对话存成长期记忆上, cloud code 的 策略和 codex 也有所不同。 cloud code 会在每一轮对话之后,都通过一个叫 auto extract 的 机制在后台运行一个小型的 sub agent。 如果这轮对话里出现了值得长期保留的用户偏好或者项目相关信息,这个 sub agent 就 会尝试把这些内容自动写进记忆目录里面。 除此之外,它还有一个叫 auto dream 的 这样一个后续整理机制,会进一步把前面提取出来的 memory file 进行一个归纳和整合。 而在记忆调用这一层, cloud code 也比 codex 做得更主动一些。 codex 通常需要 agent 自己去决定要不要做更深层次的记忆读取,但 cloud code 在 用户每次提出问题之后,他都会根据当前问题把相关的 memory 文件主动带到上下文里面。 最后我们再来看看右边的 openclaw, 也就是小龙虾。 openclaw 在 三摄氏开始化的时候,也会把 memory 点 m d 带入到初使的上下文里面,用来给 agent 提供初使的长期记忆。 openclaw 的 一个关键特点在于说它是通过上下文压缩事件来自动触发 memory 更新的。 在 context limits 快 要达到的时候, openclaw 会触发一个硬性的 memory flash 的 操作,它会先把自己认为重要的内容保存进当天的持久的记忆文件里面。就是以这些以日期命名的 markdown 的 记忆文件里面。 还有一点需要值得注意的是, memory flash 并不会更新这个 memory 点 md, openclaw 里面 memory 点 md, 目前绝大多数情况都需要 user 专门的去维护和更新。 至于记忆调用, openclaw 提供了 memory search 跟 memory get 两个方法,当 agent 觉得需要调用记忆的时候,会通过这两个方法把 memory 重新调到上下文里面。 总结一下,这三个 ai coding 工具在使用 memory 的 细节上还是有比较明显的不同点,一个是触发 memory 更新的机制和时间点,另一个是 memory 调用的机制。再有就是各自所涉及到的 memory 文件其实也是有所区别。 针对于这些 memory 所涉及到的文件,我专门在图的下面列了个表,如果大家感兴趣的话,可以在评论区告诉我,我直接发给你。 ok, 今天大概就是这样,我们下期见。

上个视频我讲了 opencloud 的 多云箭切作,很多人看完都说很强,但是配置是真的不差。这节我们讲解一下 codice 的 多云箭切作, 用完之后你就会发现 codex 的 这个多一种写作是真的非常简单,它可以写代码,跑测试,改半个,做 review 的, 一整个开发流程都是自动跑。那 codex 是 怎么做到这么简单的呢?下面我们进入我们的正题。 首先我们在任意的一个文件目录下面去创建一个自己的工程目录吧, 在这个工程目录下面把我们的配置文件给扔进去即即可。 这边是我这边整理的一个 配置文件,其实主要关注的文件无非就两个,第一个就是我们这个主页卷的这样一个配置文件。第二个就是 我们要在这个啊项目的根目录下创建一个点 com, 在 这个点 com 目录下面再创建一个点 a 卷的目录,这个目录下面我们要放一些所有我们的主页的所需要需要的一个配置文件。 这边我们这边先定了这么五个角色,分别都是代表像这个 pm, 一个 dba 前后段过程式和一个代码审核 这样的五个角色,其他的就不需要我们去过多的配置。然后因为我这边是为了这个考项目比较顺利,所以我在这个道士目录下面又给创建了一个啊 波系的连接信息,比如说像 mycelletis 的 一些配置信息,那这块的话大家也可以自行去添加,那我们现在呃就浏览一下我们的一些配置信息。 呃,这边可以看得到我们这边主页的配置信息是,呃,主要就是去,去怎么去罗列一下这个 呃主 a 卷的他所需要的一些核心之争,还有一些怎么去定义他的每一个职业卷的?是如何跟他去配合啊?我们这边的一个核心的一个机制,就是一个杀一个什么呢?一个 publicize 这样一个状态级的一个机制 啊?我们可以大致去看一下这潘多拉一个机制,就是说他第一步做什么东西,然后有一个一铺的,一个铺的都是什么东西,这样定义完之后,他这个一卷的就会明确的去根据,根据我们这样的一个过程去相应的。 嗯,生成一个他我们所需要的一些文档跟一些代码。那比较值得注意的就是说这个 最后一步一个代码审审核成员这边他有一个啊,如果 feel feel 的 这样的一个东西,就就意思就是说如果说他如果失败的话,那我们这边可能会呃回退到这样的一个后段开发成员这边去重新去修改他的代码。 那这边的主要主 a 卷呢?那我们看一下子 a 卷呢?我们都有哪些?那我们回到我们这边的 呃, codex 这个目录下面去,我们把这个我们以这个后后段开发啊,我们以这个前端开发为例吧,我们可以打开看一下。 好的,这个就是我们一个非常简短的一个前端开发的这样的一个角色的一个定义 啊,一个那样的一个描述,还有一个这样一个一个他具体的一些工工作的一些职责。当然这个是我们最简洁的一个配置,其实他还有一些支撑,比如说这边他还可以加一些 啊,所需要使用的模型,或者说他是否使用沙箱这些都可以。那我们现在这边只是为了一个啊,有需要使用沙箱这些都可以。那我们只定了这是三个字段, 那这边的字段我们可以要求一些,呃,需要这个 agent 的, 呃使用哪些基础站啊?或者说一些执行约束。 那好,那现在我们就可以看一下回到我们的 codex 界面去创建我们我们刚刚创建的这样一个工程,把它导进来即可。 好的,我们在这边把自己的需求给描描,需求的描述给它输入进去即可。 好,如果是这样的话,那我们现在要做的就是等,等到它这个整个完整的 agent 的是怎么把我们的这个功能给实现出来的。 好的,经过漫长的等待之后,我们终于发现这个多 a 卷的已经跑完了,那我们大致浏览一下它这样的一个 过程吧,那第一步它肯定是会按照我们这个 padlay 的 一个加上加上这个状态机的机制去编排我们的多智能题。那值得关注的一点就是说它会在每一个阶段去自动的生成一个 java a 卷的,那每 会这些沙包一键的里面的这些东西我们都可以点进去看一下,它都是一些啊这样的提示时都是有多一键的,他们自己去啊,自动生成的,这个不是我们所能控制的。 然后主要关注的一个点,还有就是说我们最后的一个列表的这样的一个角色,如果说这个代码审核是代码审核 角色,如果说他给的一个状态是一个失败的这样一个状态,那么那么他又会经过下一轮的这样的一个迭代,那我这边注意到他大概经过了两到三轮的一个迭代之后,最终才把我们整个的功能给开发完成。 如果说大家在开发过程中如果可以关注一下一点,就是说除了这边我们可以点开看,看到他的一个 safari 圈之外,这边其实也能,如果说也也能够 大家也能够点开看得到,那这边也是他他的一个具体的这样的一个,呃,输入跟输出吧。那我们现在看一下我们的最终的结果。 好的,这边就是我们的一个最终结果,可以看到这边有一个前端,这是后端代码,这是一个前端代码, 那这个就是我们最终的一个输出文档,这是 a p i 文档,这个就是我们的数据啊,数据设计文档,这是我啊,这个就是我们的产品文,产品的这样功能说明文档吧。哎,好,谢谢大家。

强烈推荐大家去使用 open ai 的 ai agent 编程助手的终端 codex, 甚至你可以用 codex 来修复龙虾中的 bug, context 加 openclaw, 简直是天作之合,完美的搭配。而且啊, open ai 在 这个点上还真的是比较大方的, 如果原来你是 openai 的 plus 或者是 pro 会员订阅用户的话,在 codex 上面会给你配备一定额度的 token 的 使用配额。 大家好,欢迎来到玲姐说一 i 这期视频啊,我们聊聊同步在 windows 上线的 codex 的 使用,非常推荐,之前其实他在苹果的终端也上线了,所以我在这里给大家做一波强烈的推荐。 原来你在使用 cloud code, 同样的二十美金或者两百美金的这个订阅计划。大家知道那个配额啊,是很不够用的,稍微干点活就不能用了,就要另外买 token 了。但是 codex 使用的配额还是相对比较充沛的。 open ai 你 花二十美金每个月的订阅啊,给你整个的配额还是挺多的,又可以聊天,又可以申图,还可以用 sora 每天大概十到三十条的 这个使用条数,同时你还可以使用 codex, 现在苹果用户和 windows 用户都可以使用了,赶紧在电脑端把它下载下来。这个编码助手啊,也可以说是 cloud code 的 平替, 当然叫平替啊,也不太合适,我只是说 cloud code 在 这个领域上面我之前讲过,它做过很多刻意的练习,解决过很多开放性的生产任务,所以它整体的位置是行业老大的位置。我说这个领域啊,不是说呃,所有领域 是在这个生产工具的 call 顶的领域啊,它是属于引领的位置,而且它也一直在定义行业的标准,包括大家熟知的 m c p, skill, co work 等等的工作方式。但是呢, codex 这一波的上新呢,确实是有它的创新点在里面的,它用户的交互界面体验比较好, 对于那种比较厌恶命令行的这种交互方式的用法会特别的丝滑。它会有自己的特色,比如说像工作数这样的任务的并行的方式啊,我觉得对于多任务并行啊也特别的友好。另外使用它你基本不用付出 额外的成本和费用,更重要的是加持上了它最新的五点四的模型。 五点四最重要的一个优化是什么?就是它加强了在 computer use 上面的能力,也就是这个 agent 的 编码助手,它有更强的执行操作和理解的能力,相当于它的闭环能力更强了。 所以听到这里,是不是已经迫不及待去微软商店下载 codex 了?这期视频我会给大家介绍 codex 的 特性,以及如何从零到一。使用 codex 我 会给它几个实战任务,看看它这个过程中会遇到什么 bug, 怎么执行解决,会不会有翻车的情况。 如果你是苹果用户呢,直接在 app store 里面去下载就可以了。如果说你是 windows 用户啊,你是 win 十及以上的用户, 你就直接在微软的这个 microsoft store 里面直接下载就可以了,它的整个的下载安装非常丝滑,你就按着它的引导一步步完成就可以了,这里我就不做深入的演示了,这个就是 codex 安装后打开的界面, 是不是一股熟悉的味道扑面而来,特别像 try gpt 的 聊天窗口,对于那种使用命令式的交互窗口,仍然有一些抗拒的。这份使用者 codex 我 认为是一个非常好的选择。 在这里啊,你可以很好地过渡。我就结合 codex 的 使用,从零到一实操,给大家也讲讲 codex 的 使用特性。 首先啊,在设置这个地方,点开,大家在这里登录自己的 try gpt 的 账号,同时在这里可以很快地切换你经常使用的语言,英语或者中文都可以。在这个地方会显示你这个账号的额度, 它是通过两个维度限制你,一个是五小时的使用量,还有一周的使用量。如果说你真的做很多深度密集的 这个使用任务的话,我觉得这个额度可能还是不够。但是对于大部分的使用者而言,我认为这个额度啊,已经比 cloud code 要大方很多了,基本你们都是够用的。 在出事安装的时候,在这个地方,现在我已经弹点掉了啊,就是它会弹一个窗口让你安装这个沙箱。 这个专用的沙箱也是 codex 针对 windows 的 一个设计,有这样的沙箱,让它的整个的命令的执行在一定受控的环境里面,也可以有效地保护你系统本身运行的文件, 就按照它默认的配置去选就可以了。在下面这个位置啊,可以更改权限的范围,除非你非常笃定啊,给它完全的访问权限, 大份情况下建议使用默认权限。另外,在模型这个位置,可以选择不同类型的模型。 现在比较推荐初学者使用的是 g p t 五点四,因为五点四是一个综合型的模型,它既有理解能力,又有推理能力,还有 computer use 的 能力,还有 coding 的 能力,它是一个综合型的模型。另外呢,如果是针对专门的 扣顶的工作,可以选择五点三 context, 它是针对 context 这个环境和 context 的 任务,专门进行过优化的这么一个模型。 在这个地方,推理强度一般默认是高,也可以选择超高,当然这个背后所消耗的 token 数就会不一样。另外在加号这里啊,你可以去上传文件和照片, 这里就会有很多的玩法了,又可以对一些多模态的内容啊进行加工,比如说对视频进行剪辑。同时在这里可以调它的 speed standard 和 fast。 这里啊,我觉得它有一个做得很好的地方,相当于它在用户体验侧的一个优化,它这里有一个计划模式, plan 模式。其实这个技巧呢,我在之前给大家教学 chain 这个软件的时候,也会讲过类似的技巧, 只是说他现在把它单独拎出来了,对于这个功能进行了优化。你在做一些项目的时候,你可以先计划,先和这个 gpt 去沟通, 这个项目怎么规划,它的框架是什么,怎么设计,计划完了之后再开始执行 coding。 所以 从这个层面来说, context 它的定位啊,其实分为三层,第一层它是一个代码助手,它可以帮你写代码,解释代码,审裁代码。第二层,它是一个工程型的 agent, 它可以帮你去识别 bug, 修 bug、 提 pr 等等。而且它还可以做很多并行的任务, 比如说我在这里有个任务啊,你点击这个右击鼠标,在这里啊,它就有一个特色,叫做派生到新的工作树,叫做 walk g, 就是 你在做一个项目的时候,当它出现问题的时候, 你会发现可能有好几个东西要修。如果做过生产实践,你会发现啊,你修 a 的 时候, b 也在修,那么它们有可能把 a 修好了, b 又出了问题,就是它会出现相互的交叉污染这个情况。有了这样的 work tree, 你 就能够并行地进行很多工作任务,那么你发现没有,你的效率就提上来了。 codex 的 第三层,它还是一个电脑操作型的 agent, 比如说我刚刚讲的剪辑视频这样的任务,或者说其他的这个文件名批量命名的任务,整理会议资料的这样的任务,它其实都是电脑操作型的, 它也是一个电脑操作型的 agent, 这是我对 codex 这个 agent 工具的三层的理解。当你需要新建一个项目的时候,可以点击这个位置,这里点击 add project, 新建一个项目文档,然后在里面呢点击这个新县城。 同时呢,它这里有一个功能啊,叫做自动化,你可以让它定期的帮你制作一些任务,那么你就可以设置一些定时任务,比如说让它每天定期的帮你去搜集某个领域的专业信息,或者定期的跑一些这个整理文件文档的这么一个信息 等等等等。这里需要关注的一个点就是它的权限问题啊,你给它开多大的权限?当然它这里也少不了最近最流行的 skill 技能 这个板块我在 cloud code 的 这个视频里面讲过,它也是类似的,你看它这里,它的官方 skill 里面放在最前面的也就是 skill create 创建一个新技能的技能, 你在这里可以去调用它的技能啊,它不是那种命令的交付窗口。比如说你想要用这个 figure 码,你就可以点击这个加号,它就直接帮你安装了这个 skill。 如果说你想用这里面的视频生成工具,你就可以用这个 sora 生成视频的技能,并且啊,你想生成新的技能,点击右上角的新技能, 这里呢,它就自动调用了 skill creator, 你 就可以跟它去交互聊天,告诉你你要创建怎么样的技能,然后它帮你进行封装。并且啊,如果说历史你用的是 vs code 这样的终端,你也可以同步很好地去打开对应的项目, 很好的平移切换到这里。而且我自己用下来的体验,它会比 vs code 更好用一点。所以对于 vs code, 我 觉得大家可以放一放,然后平移切换到 context 这个终端来使用。下面我就讲一些具体的实操的案例来启发一下大家,可以用 context 做什么任务?它有哪些魔力?效果怎么样?好,我们进入任务实操,我先给他一个任务,我让他给我批量修改文件的名称。在这个文件夹里面我放了五条视频,这个视频是我 youtube 上面已经剪辑好的成品视频。 现在他的命名啊,只是有日期的标签,是没有主题的,我希望他能够基于这个视频的前六十秒所表达出来的内容抽取主题,把这个主题加上日期,对这些文件进行批量命名。 在 context 里面,我就把我的要求和希望达到的结果告诉给他,这里是我写的提示词。在任务的进行过程中啊,因为我们对它进行的是一个有限的授权,在一些关键步骤上面,它会来询问你的授权和意见。 比如说这里啊,它问你是不是直接就对这些文件名进行重命名了,你可以回答是,或者一直允许,或者是告诉他如何调整。这里啊,我就允许是 在这个思考过程中啊,他也会说,从命名的这个动作是越过沙箱的一步,可以看到,在这个过程中,你的文件,你的系统内的东西是比较安全的,这也是我比较推荐大家使用 context 的 一个原因。同时在这个任务跑的过程中啊,我再同步地开一个新的项目,新的县城, 点击这里的 add project, 创建一个新的文件夹, orange cad game, 然后选择这个文件夹,这样我就进入了一个新的项目文档。我现在想做的这个任务是类似这个经典的 flappy bird 的 这个网页小游戏这样的开发,把这个游戏的主角形象换一下,把那只经典的黄鸟 换成一只橘猫,飞行员稍微做一个调整。但是整个游戏的框架和逻辑啊,还是去参考 flappy bird 的 这个设计。在这里啊,我就把这个游戏的要求放到这个 context 里面。 注意啊,这个游戏的要求的需求文档和整体的项目框架,我也是让 g p t 给我写的,为什么我会这样操作呢?其实这也是一个技巧,因为虽然 open ai 在 codex 上面的配额还是相对比较大方的, 但是如果你要做比较极致的生产任务,这个配额可能还是不够,所以我就尽量可以省一点,把前面的需求设计和构建的这个阶段蓝图规划的内容交给 gptchat 去聊,用五点四 thinking, 这样子相当于前后的模型,是前后连贯的这么一个状态。先把需求沟通好, 然后呢,再回到 context 里面,在这里面我们还可以再极致一下,再细划一下,打开这里的计划模式,让它再给我规划一下这个游戏开发的任务。这里的推理功能,我选择一个超高,然后点击发送, 在右侧,这里就可以看到不同的项目文档,不同的县城,它们就在并行。如果说你比较关心的县城呢,你还可以使用这里的这个钉钉一下,它就会置顶在前面,这样子你关心的核心在修的一些 bug, 重点在做的项目就在最前面。使用了这么多款 编程助手的终端 app, 我 自己的感觉 projects 是 我整体用下来觉得最丝滑的。这里帮我把整个的开发计划规划出来了,包括需求理解,文件结构,关键接口,七步 mvp 开发计划,以及最后的验收,还有第二阶段的功能等等,都包含了。 他问我是否实施此计划,我点击确认实施。哎,这个文件夹从命名的任务已经完成了,他告诉我每个文件分别从命名了什么,而且他这里还讲了这个转写的逻辑是什么。前六十秒他识别出了 这个视频主要是讲什么内容的,然后提炼出的主题是什么,然后把这个主题加上日期格式的转写,变成了这个新的命名。我们打开 d 盘看一下, 欸,都命名好了,完成的很棒哦,以后这种批量重复的工作啊,都可以尝试交给 codex 来使用。当然对于这个 codex 这个工具啊, gpt 对 它的定位,还是说把它作为一个 agent coding 的 工具, 你要尽量让他做他擅长的工作。再回过头来看,他的执行路径是比较清晰的,因为他扫描发现我这台计算机没有装离线的音频转文字的转写的工具,这个不可用, 所以他就通过工具把这个视频的前六十秒进行抽帧,核心去保留底部的字幕区域。因为我的这个视频啊,有时候也会有这个背后贴了这个 ppt 的 信息,所以他会同时用 windows 的 ocr 去读这个字幕,以及 ppt 的 标题和页面的文字 综合来形成对这段视频主题的判断。最后呢,再把它整合成新的文件名,并且啊,它强调这次的授权仅在这个指定的文件夹里面进行操作,不能够碰其他目录的文件。 整个过程流程清晰,权限的边界也很清晰。这个任务其实对于 codex 都是非常简单的任务啊,我给他上一个高的推理权限,实际上也是有点大炮打蚊子的感觉。我想表达的是可以用 这个工具去执行以往我介绍的在其他终端的其他任务都是可以的,它的能力上限啊,和智能程度还是比较高的,甚至你可以用 codex 来修复龙虾中的 bug。 context 加 openclaw 简直是天作之合,完美的搭配。这个游戏的任务它完成了,总共花了十七多分钟,给了我这个试跑的链接。这个试跑的链接啊,就存在我的 d 盘里面的项目文档里面一个 html, 我 们在浏览器里面打开这个界面啊, 空格,点击上升穿门就得分,我们开始飞行试试。哎呦哎呀,碰到柱子了,再试一下。哎呀,还挺难的,再试一下。哎呀,这个有点难通过呀。 一分,哎呀,一分,结束了, 得两分。哎呀,得两分,这是我的最好成绩了。以上就是 context 的 介绍和实操,它可以帮你写项目,写代码,也可以帮你修 bug, 提 pr, 还能够做电脑的 computer use。 你 打算用它来做什么呢?欢迎在评论区分享你的想法,我们下期再见!记得订阅玲姐说 ai 的 频道哦,拜拜!