告诉你一个残酷的真相,二零二六年拖垮程序员的不是技术债,不是需求变更,而是你每天都在做的一个动作,按回车,你给 clod 一个大活,他干五分钟,停了 等你发号施令,你敲继续,他再干五分钟,又停了一个重构任务,你按了二十次回车, 真正有效的工作时间不到一半。你不是在写代码,你是在当人肉监工。但 cloud code 最新出的这个 go, 直接把这套玩法废了。 逻辑特别简单,你设定一个完成标准, ai 自己干,自己验,干完自己停。比如你说 go test os 下所有测试通过,且令特零报错,然后你就可以去泡杯咖啡了。 cloud 会自己写,自己测,自己改,每轮结束自动评估, 过了就停,没过就继续。你回来一看,活干完了,但注意,百分之九十的人第一步就错了。 你说 go 优化一下代码, ai 根本不知道什么叫优化好了,目标必须向验收单,什么测试通过,什么文件存在,什么输出为零。目标越像合同, ai 越像外包团队, 目标越像感觉 ai 越像人工智障。所以今晚回去打开终端,别急着写代码,先想清楚我要什么,结果,怎么算完成。 把这句话丢给 go, 你 会发现, ai 真正的超能力,不是你问一句,他答一句,而是你指一个方向,他自己开到终点。这才是二零二六年程序员该有的工作方式。
粉丝11获赞281

跑一整页 gpt 五点五加 codex 如何跑一整页?我这两天有一个感觉, ai 编程的下一步不是辅助编程,而是可托管的执行单元。 gpt 五点五真正的红利不是少写几行代码,而是把一个人能托管的工作块变大。有人给 gpt 五点五 codex 一 份新项目 prd 只说了一个 go, 他 就跑了几个小时,从 bill 到 visual review, 再继续补功能。 gpt 五点五的变化从更聪明改写成更能被托管。 g p t。 五点五不像以前的模型,需要你一步步指导,它更能理解你的意图后自己把活干完,包括构建、调试、跨文件修改。 g p t。 五点五在 codex 里强化了闭环自主性。 g p t。 五点五在 codex 里对高层次指令响应极强。 openai 的 norm brown 说自己明明是 manager, 但用了 g p t。 五点五以后,比过去任何时候都更像一个有效 i c。 他作为经理,却觉得自己在技术产出上达到了新高峰。 ai 编程这件事,好像开始从你在旁边指挥他写,变成你能不能把一块工作托管给他。这就不像传统意义上的在旁盯着一次次交互改的 ai 辅助编程了。代理式编程越来越关乎时间跨度,而不仅仅是单次智能。 当 codex 这种 agent 可以 连续跑几个小时,十几个小时,甚至官方展示到二十五小时以后,未来我们该怎么把它从辅助编程当成可托管执行单元来管理?这我觉得很重要。 这里面会有一种更大的变化,高级人类会越来越像经理加架构师加验收者的混合体。 大家应该有好奇怎么跑长任务,我时常的提示也喜欢让它跑得久一点,把时间跨度拉长的端到端的来验收。 许多人知道它能写代码,但不知道怎么让它把一个大任务跑完。早在 cloud code 泄露的时候,有人用 oh my codex 赶在天亮之前把它用 python 重构了一遍。据它所述,全程都是 codex 自主执行。 o max 系列还有 cloud code 属于是同一作者所做。 o m x 是 在给 codex 包一层长跑工作流和团队运行时,一句话丢给你的 ai 它自己装完。还有一个可能很多人听过的 superpowers, 它长跑不是靠模型硬扛,是靠方法论,把人类判断外质成流程。回到官方材料里,这件事其实更清楚。 open ai 今年二月发过一篇文章,叫 run long horizon tasks with codex, 里面有一个很夸张的实验, 他们给 codex 一个空 report, 一个任务,让他从零构建一个 design tool。 codex 用 gpt 五点三, codex 在 extra high reasoning 下连续跑了大概二十五个小时,大概十三米 tokens, 大 概三十 k 行代码。 这组数字很容易被拿来当标题党,二十五小时十三密 tokens 三十 k 行代码,一看就很爽。但我觉得这篇官方文章最重要的地方,反而不是这些数字。最重要的是, openai 把它为什么没跑丢 拆给你看了。它不是靠一句神奇 prompt, 它靠的是一套很土但是很工程化的东西。四个 markdown 文件,你得给它项目记忆, 你得给他计划,你得给他验收标准,你得让他在跑的过程中持续写状态,像是在给一个会干活但会忘事的人建工位、排日程,留工单做验收一位 gpt 五点二。早期实践者说 codex 诺任长跑会 do outcome, 需要 continuity guidance, 它的连续运行三小时且思路连贯的方法是下面这个提示词。另外我翻了一下 codex chain log, childgo 中出现 memory extensions、 window 等等相关变更。这些不是宣传剧,但它们说明底层工程也在补。状态恢复、审批上下文本事 越长跑越不像单纯模型,能力越像状态机。权限恢复和审计系统状态机有点不一样,它植入硬编码程序来支撑长跑,在一定时间还能清空上下文。这个值得聊,以后再论。 我看到 reddit 上有人问怎么让 codex autonomous 地跑几个小时,它的痛点很直白,它不想把 codex 当 chat assistant, 它想让它像 autonomous agent 一 样连续做 feature 或 refactor, 但现实是它坐一轮就停,等你继续说 continue。 还有人想让 codex cloud 并行处理四到五个任务,自己只 review code, 每个 runner 大 约每小时仍要人工 approval 一 轮,步骤有限,做完就 summary, 然后等确认 步骤塞多了又容易碰 context limit 或 compression。 cloud 有 时像黑盒任务卡住,但不知道为什么。 github issue 里也有类似的具体症状,用户想形成 continuous loop, 但 codex 每做一个小块就 report back 打断连续执行,最后用户只能 q 多条 continue。 跑 codex 的 关键矛盾不是模型能不能连续工作,而是人能不能在他连续工作的时候保留控制权、证据链和恢复能力。这就是为什么最近很多相关东西都在往智力层长。接着这里还有一些内容,你可以在原文这里阅读。 g p t 五点五是入口, codex 二十五小时是证据,但下一个问题不是它还能跑多久。下一个问题是,跑完以后你凭什么相信它? 如果没有状态机,长跑只是一次更贵的走神。如果没有证据链,睡醒验收就会变成开盲盒。如果没有熔断器,它可能会在错误方向上越跑越勤奋。 如果没有恢复包,你中途打断一次,下一轮就要重新考古好了。这里是 ai 进修生,持续分享前沿 ai 实践,如果不错,点个赞,关注一下,我们下期不见不散!

codex 跑一个大任务两小时,跑到一半突然终端关了,或者网断了,所有进度全没。这是用过 codex 都遇到过的痛点,丢一次进度,心态直接崩。 hermes 的 解法是三步把进度接住,一步都不能省。第一步是任务拆分, hermes 会在任务开始前把大任务自动切成小单元, 每个单元十五到三十分钟能跑完,力度小到出问题也能快速重跑,不会一掉就丢。两小时,这个力度是踩过坑摸出来的。 第二步是状态外置, codex 跑每一步的中间,结果会被 hermes 实时写到本地存储里,包括用了哪些文件,改了哪些地方,跑到第几步,当前的上下文摘要用到的外部工具调用全部留痕,不依赖 codex 自己的内存,关掉终端也丢不了。第三步是断点续跑, 任务中断后, hermes 读最后一个状态记录,直接从中断点接着跑。把之前的上下文重新组装好喂回去。不用从头再来,也不用你重新交代背景,接续无感。这套价格跑下来长任务的完成率会有明显提升, 人也不用一直守在电脑前盯进度,注意力解放。我用这个方案跑过几个上千行代码的重构任务,中间断过两次都自动接上了,最长一次跑了六小时,没人盯也照样完成你的长任务掉过链子吗?评论区聊聊你踩过哪些坑。

codex 帮我重构了一个多小时,我手电关错窗口,四十多个文件的进度啪一下全没了。那次之后我不敢再裸跑长任务,不是模型不行,是 codex 默认根本没有进度这个概念,而每一轮都活在当下, 窗口一关,记忆为零。我现在跑长任务只靠一个机制,在 ajax 点 md 里写死一段规则,让 codex 每走一步就把状态落到一个叫 progress 点 md 的 文件里。这一段规则就三条,你直接抄。第一条,每完成一个子任务更新 progress 点 md, 里面就三行,已完成进行中。下一步不是写心得,是写状态。比如已完成拆出 os 模块的五个函数, 进行中再重写 login handler。 下一步跑 past tests 斜线 os。 第二条,每条状态后面必须挂一个可跑的命令,不是基本完成这种废话是 past test 斜线 os 通过 npm test 还剩两个失败。 没有命令等于没有证据,你重启之后就接不上。第三条,重启会话,第一句话不要说,继续说,继续,它会自己脑补,越脑补越离谱。 正确的开场白是读 progress 点 md, 从进行中接着干,不要重做已完成。就这一句。 这套规则最关键的地方在哪? agents 点 md 是 codex 每次绘画都会自动读的文件,你写一次,他每次都记得你不用每次开任务都重新交代规则。我自己加了这段之后,上周跑了一个四十分钟的批量改动, 中间 vpn 断了一次,我重开绘画,发了那一句开场白,他接着第七个文件继续改,没重做一次长任务保命不是靠模型更强,也不是靠你不关窗口, 是靠你把状态落到文件规则写进 agent, 点 md 评论区打 checkpoint。 我 把这段 agent 点 md 规则原文加 progress, 点 md 模板一起发你。

codex 跑长任务总在最后一步崩,很多人以为是模型的问题,其实是任务没有结构解法,就一步在项目根目录建一个点 hermes 文件夹,里面放一个 task e m l, 把长任务拆成有依赖关系的子任务列表, codex 每完成一步就打勾,下次续跑从断点开始,不用从头来。这个工具叫 hermes, 定位是 codex 的 项目管家,专门解决 codex 跑长任务没有记忆中途崩了不知道跑到哪的问题。核心配置只有三个字,断。 第一个是 task 任务列表,每条任务写清楚做什么,验证标准是什么,依赖哪个前置任务完成。第二个是 risk flags, 提前定义高风险操作,比如删除文件,修改 config 目录,改数据库 schema, 触发这些 hermes 暂停,让你确认 block code 自己闯。第三个是 progress report, 指向一个 progress md hermes 每完成一个子任务,写一条日记,早上起来不是对着一团改动,猜昨晚发生了什么,而是一份清单,告诉你每步做了什么,结果是什么。 我现在跑超过三步的任务,全部先写 task em, 再交给 codex, 翻车率直接调到接近零一人。公司用 codex 干长活,缺的不是模型能力,是任务管理层, hermes 就是 那一层。你的 codex 现在跑长任务吗?评论区聊聊。

啊啊啊,这个景色太迷人了,跑得很畅快啊。 哈喽,跑完了五公里,三十六分钟,平均配速七点一六,还得加油啊。 用了这几天刚好趁着跑步结束,我去讲讲他的使用感受。 我觉得以前觉得 ai 啊,写代码呀这个事情好像离我很远,应该是程序员的专属工具,但是自从用扣袋子之后的话,我觉得更多是能够把我的一些想法去落地 啊,而不是简简单单的只是聊天呐,翻译啊,整理文件这些对基础的工作,而真正的把它做成一个有创造力的工具来用。大家举几个例子, 因为在国外哇萨姆用是比较多的,但是因为我这边用过哇萨姆,意思是加了很多客户啊,客户,有很多潜在客户,有付款客户,然后把扣带丝接入哇萨姆之后的话,第一他能帮你 自动上传一些新的产品,同时能帮你筛选潜在客户,同时啊,梳理一下哪些客户需要回复,哪些客户需要跟进, 比如我有时候发视频比较多啊,做一些自媒体。第二个英语词,包括国内的抖音,但是因为平台比较多,素材比较多,所以说很多东西是时间是做不过来的。但这个时候呢,我把所有的素材 放到电脑里面去,告诉他我在哪个平台要发什么样内容,大概什么样风格,什么时候发, 而且根据你的要求和特性,在特定的平台自动上传这些剪辑好的素材,大家有兴趣可以看我上一条啊,我十二年的素材已经放了三个多月了,一直一直呆,一直偷懒没剪,最后我还交给了 a i 结果感我,对我来讲我就感觉成品是不错的。 好。最后一个的话可能我的朋友们都很喜欢,就是,呃,我们经常会看大量数据,看大量的新闻和侧脸去炒股嘛,然后这个 我让扣代斯前天去介入了我的各种炒股软件,这一块的话,把我目前的持仓和目前的新闻数据,他会自动去每天去复盘,呃,去去疏导,告诉我那个我 最最最好或者是赚钱效益最强的策略是什么。比如说我有时候每天会去做一个短线的每一股的期权,但他又会告诉我,比如说我给他五百美金和八百美金去赚,他会告诉我在这个时间段的话,没哪个和什么时间的那个期权是是 库还是库带给我的效益是最强的。然后给我一个结论让我自己去参考, 我决策完之后他可以按照我的要求自动去下单。所以这一块我觉得一个人的公司未来会有很多。第二可预见性是未来 ai 电脑一定会带来大的爆发。 扣贷个死对普通人来讲更多的不是说,呃,你通过他去了解这个事情原因是什么,是告诉他你想要什么样结果, 比如说文件太乱了,你帮我去整理一下啊,我去想去买一个,呃,什么什么什么东西 啊?我需求是,呃去剪辑一个什么样的视频,或者说我想设计一个什么网页,往往以前需要很高的门槛或者去写代码的工作,你现在告诉他你想要什么结果,你想要什么样东西就可以了。让你把从一些很繁琐的事情里面解放出来,把这些真正的需要有创造力的, 或者说需要有一些门槛的东西去交给他,结合你去完成一个你想要的结果。所以说这个 a s 在 兰陵意味着每个人工作的方式和方法也会得到改变。不多说了,用起来,兄弟们。

大家好,我是郑一环,今天我们看一下扣代词自动化任务,扣代词可以把重复工作封装成自动化任务,并且定时自动执行。 比如我每天早上都需要看 ai 热门资讯,用来做自媒体选择题,这件事每天都要做,并且流程完全一样,很适合做成自动化。具体步骤就是我先跟扣代词说, 帮我搜索今天全网关于 ai 方面最热门的资讯,挑选十条发给他。内容生成以后,我们先确认一下内容有没有问题, 没有问题的话我们再给 codex 下新的指令,就是把搜索当日最热门的十条 ai 资讯做成自动化任务,每天早上九点执行,然后发给他。 我们可以看到 codex 已经创建好了任务,后续的话我们可以在左上角的自动化这里查看和管理我们的自动化任务,可以修改自动化任务的内容,也能修改执行时间等等。

今天我们来聊一聊如何让 codex 的 go 命令能够做到完全不需要人工干预的自主开发。是的, 然后我们会聊到像 real loop plan 模式,还有 spec driven 这些高级的技巧,是怎么帮助我们突破传统的对话模式的限制,做到常识的任务执行和复杂的任务执行呢?这个话题很有意思,那我们就直接开始吧。咱们先来说说传统的对话模式到底有哪些问题, 为什么呢?没有办法支持这种长时间运行的复杂的任务,就是在传统的对话模式下面,一旦这个 token 的 数量达到了上限,系统就会强行的压缩历史记录。嗯,那这个时候就会导致一些比较重要的关于目标的描述就会丢失掉, 然后 ai 就 会出现跑偏,或者说直接卡死,对,这是一个非常影响体验的事情。确实,那有没有什么技术可以让这个任务状态能够跳出这个上下文窗口,做到即使重启终端也不会丢失呢?当然有了, 现在的技术,可以把任务的状态保存在上下文窗口之外的一个地方哦,这样的话,不管终端重启多少次,或者说运行多长时间,这个状态都是一直存在的。没错,就真正的实现了无人值守的连续运行。 那这种 agent loop 的 机制和我们传统的这种 chat ui 相比,它到底在哪些地方做了改进? 最明显的改进就是状态管理这方面,传统的 chat ui, 它的状态是跟着这个上下文走的,嗯,你稍微一滑动可能就找不到了,然后很容易就会断掉,需要手动地去触发,或者说写一些外部的脚本来维持。对,但是 agent loop, 它把这个状态单独地存在了外面, 所以它是支持断点续传的,也不怕重启,直接就可以恢复现场。听起来确实省心了不少。那在执行时长和开发者的操作方式上面,这两者差别大吗?差别很大,传统的 chat ui 一 般都是几分钟,然后就局限于一个短的文本的交互。对,而 agent loop 它是受限于这个 token 的 预算, 所以它可以运行很长时间。那开发者的角色也从这种不断地去发指令变成了一个监督者。 ok, 只需要在必要的时候去做一些干预就可以了。 我想知道到底在哪些场景下面是完全不需要使用这个 go 命令的?比如说我现在有一个特别小的任务,是不是就没有必要用它? 对,如果是一个非常简单的单轮的任务,比如说你就是让他用 python 写一个冒泡排序,那你直接问就好了。没错,不需要用 agent, 用 agent 反而增加了系统的负担。那如果说我这个需求本身就特别模糊,是不是也不适合?是的,如果说你提的需求是那种极度模糊的,比如说你让他去开发一个背单词的 app, 嗯, 那这个时候 ai 就 会不断地去自询问,自扩展,然后很快就会耗尽你的预算。对,而且它的方向也很难去控制。明白了,那要是这个任务在执行的过程当中,经常需要人来做决定, 比如说涉及到一些商业策略或者用户体验的选择,是不是也不能用这个高密令?没错没错,这种需要高频的人类的输入,或者说涉及到一些商业判断交互设计的这种,嗯,那还是建议手动去做,因为他这个 agent 是 静默的执行的,没有办法实时的去跟你确认。对,可能就会导致决策失误。 如果我现在要操作一些非常危险的,比如说删除文件或者清空数据库,这种操作是不是也不能交给这个自动的系统去做?千万不要因为这种涉及到一些不可逆的操作, 或者说你在 plan 模式里面又错误的欠套了调用,嗯,就很有可能会造成数据的丢失或者说系统的崩溃,对, 这种灾难级的风险是一定要避免的。我们接下来就说一说掌控这个引擎的配置和它的生命周期的控制, 就是我们到底怎么才能通过配置文件或者自然语言的指令来开启这个 go 命令?其实很简单,你只要在这个配置文件的 features 字段里面新增一个开启的指令,或者你直接用自然语言说帮我开启 codex 新增的 go 命令,嗯,就可以了, 但是你改完之后必须要重启 cadx 引擎才会生效。哦,了解了,那如果我在运行这个 go 命令的过程当中,我想要暂停,想要恢复,或者说我想要知道它到底用了多少资源, 有没有什么简单的命令可以直接操作?有啊,你要启动的话就直接输入 go, 加上你的提示词就可以了。嗯,然后它会有一个实时的监控面板跳出来,告诉你它已经跑了多久了,用了多少 token。 对, 那如果你想要暂停的话,你就输入 go pause, 想要恢复的话,你就输入 go resume, 就 算你把这个 ide 关了,或者说你重启了电脑,它也可以从你上次断掉的地方继续跑,没错,非常的方便。 那我们再来讨论一下这个完美自制的 prompt, 它的结构。为什么我们要特别的去关注这个范围边界和严格约束这两个模块?是这样的,范围边界其实就是用来限定它的这个操作区域。嗯,比如说你可以规定它只许动某一个文件,其他的文件一个都不许碰。对, 这样的话哪怕它出了问题也不会影响到整个项目。然后严格约束,就是说你可以规定它必须要用什么版本的库, 或者说明确地写清楚他的代码风格。没错,这样的话就可以最大程度地保证他跑出来的东西是你想要的。能不能举一个例子,就是说这几个模块范围边界严格约束完成定义和垄断机制在一个实际的 prompt 里面是怎么配合工作的? 可以啊,比如说我们现在有一个任务是要扩展 jason 的 词库到一千个唯一的词条,那这个时候我们的 prompt 就 会是这样的,首先用范围边界限定只许动这个特定的文件,嗯,然后用严格约束规定必须要用原生的 api 来解析, 再用完成定义写明当这个文件里面真的有一千个不重复的词条,并且可以被成功读取的时候才算完成。对,最后熔断机制,就是说一旦他遇到了三次 jason 解析错误,或者说 token 用完了,他就立刻停下来, 这样的话就可以保证这个任务是既安全又高效的。听起来很不错啊,那我们现在要讲的这个进阶功法一, skill 自动化的提示词生成器,它到底是怎么帮我们来解决手写 prompt 又麻烦又容易出错的这个问题的?你只需要用自然语言把你的需求极简地描述出来。嗯, 比如说你就说为项目增加 cohere rank 作为第五个 provider。 对, 然后这个 skill 引擎就会自动地帮你去查找,并且把这些参数、边界条件、完成状态等等这些东西都帮你组装好, 生成一个完整的蓝图。没错,你就再也不用去担心你会漏写一些关键的东西啊,或者说你要花很多时间去调格式啊什么之类的,真方便啊。 那我们接下来要聊的这个进阶功法二,就是这个 plan 模式,它到底是怎么做到把思考和执行分开,然后来提升我们处理这种比较模糊的、比较复杂的需求的能力的?其实 plan 模式它就相当于这个项目里面的大脑, 他专门负责跟你一起讨论,然后产出一个高层的架构设计。对,那这个时候你就可以不断的去跟他互动,把这个方案逐步的细化。嗯,等到你确定了之后,再把这些具体的任务交给购模式去执行, 这样的话就可以保证每一行代码都是在按照这个战略方向在推进,没错,就不会跑偏。那这个 plan 模式在向购模式提交任务的时候,有没有什么一定要注意的工作流?有啊, 就是你一定要先在 plan 模式下面让 ai 把这个开发清单一步一步地都列出来。嗯,然后你要确认它每一步都是你想要的, 接着你要进到这个气闸仓,就是做一个上下文的清洗。对,最后你才可以把这个任务安全地交给购物模式去执行。 如果你不做这个清洗的话,就很有可能会出现这种虚假的激活啊,或者说直接卡死啊之类的问题。没错,这个是非常关键的。我还有一个疑问,这个 spec driven 到底是在一个什么样的场景下面,会比我们传统的这种提示词的方式更有优势?嗯, 当你的这个任务是一个涉及到多个系统模块的这种长城的重构。嗯,那这个时候就算你的提示词写得再完美,也很容易会出现一些理解上的偏差。对, 那这个时候我们就需要用这个 spec driven, 就是 把我们的自然语言的需求通过这个 open spec 的 转换引擎,变成一个非常严谨的无二异性的规格描述。没错,并且我们可以明确定意这个 go 的 唯一的完成的标准。 这样的话就可以确保 ai 在 执行这种非常复杂的任务的时候,每一步都是符合这个架构的要求的。原来如此啊,那这个 openstack 到底是怎么跟这个 go 命令配合来实现这种工业级的全自动的开发流水线呢? 首先,第一步,我们要在项目的根部路运行 openstack 的 出场的指令,它会帮你植入一个规格生成引擎,然后它会全盘的扫描你的这个项目。嗯,你只要输入一个极简的需求, 它就会自动地帮你生成一个非常严密的叫做 speck md 的 架构调整方案。对,同时它也会生成一个 open speck 的 配置文件的实历,里面详细地列出了每一个文件的修改路径和它们之间的依赖关系。没错, 最后你就可以让 go 命令完全按照这个 spec 点 m d 的 标准去自动地开发,或者说自动地重构你的整个文件架构。我想知道就是面对不同复杂度的开发任务,我们应该怎么去挑选最合适的?这个全自动的开发管线是这样的, 对于那种比较简单的,或者说只是单纯地追加一个功能,又或者是说接入一个独立的 api。 嗯,那你可以直接用 custom skill, 你 只要把你的需求用文本描述一下就可以了,它会帮你自动地补全一些边界的条件,然后直接就可以用 go 命令帮你输出结果。对, 那如果你的需求是稍微有一点模糊的,或者说你要做一些比较复杂的商业化的改造,那建议你使用 plan 模式加上 go 命令。嗯,先通过对话的方式把你的计划完善一下,然后清洗一下上下文,再用 go 命令一条一条地去实现你的需求。没错, 如果你的任务是一个系统级的重构,或者说涉及到很多模块的底层逻辑的修改,那你最好是用 openspec 加上告命令。嗯,先自动地生成一个 spec 点 md 的 规格书, 然后让构命令严格地按照这个文档的状态去逐步地推进。明白了,那我还有一个问题,为什么这三大黄金纪律可以真的让 ai 架构师做到真正的无干预的自制?这三大纪律其实是一个保障,就第一个,你要永远定义终点, 你一定要明确的告诉他什么时候该停下来。嗯,包括你要设置 token 的 预警,不然的话他就会一直跑一直跑,最后把你的预算全部都吃光。对, 然后第二个是谋定而后动,就是你一定要把这个规划和执行拆分开,让人类来负责那些模糊的战略的设计, 然后让这个持久化的 agent 来负责不知疲倦的去实现这些代码。没错,最后一个是信任外部状态,你要习惯把上下文和运行的状态彻底的分开。嗯, 你可以随时的关掉你的终端,让 rufluq 在 后台帮你默默的构建你的项目。对,等你再回来的时候,他已经帮你搞定了, 然后会输出一个 success autonomous looped establish。 好 的,今天我们聊了很多关于如何让 ai 可以 真正地做到无人执手的自主开发。嗯,从这种常识的状态管理,到这种复杂的任务的分解,再到这种全自动的流水线, 确实让我们看到了未来软件开发的一个新的方向。 ok, 那 这期节目咱们就到这里了,感谢大家的收听,咱们下次见,拜拜。拜拜。

大家好,今天我们来讲一下 codex c l i 里面一个新的功能, go 目标,它是你可以理解为给 codex 设置一个长期任务目标,然后让它围绕这个目标持续工作。 它有一点像之前 cloud code 里面的那个 rough loop 这么一个概念,它在你给定的目标情况下,它会去自己计划,然后编码,然后测试评估,直到完成你的目标,或者是它的 api token 耗尽。 需要怎么样起用它?有一个有,有两个条件,第一个就是你需要升级你的 codex 的 c l i 的 版本,要到 v 一 幺二八之后的一个版本。第二个,因为它目前还是个实验性的功能,所以需要你手动去激活这个功能。你可以选择直接在 codex 里面告诉它,就啊 enable ghost, 或者你自己去手动配置一下你的配置文件。在那个 codex 的 config 里面, 我们可以简单看一下,在这个里面是有,你可以直接在这儿加这么一行,在 features 下面加个 ghost 等于 true, 当然你不要,你可能需要重启一下它才能会真正的生效。它支持哪些功能呢?譬如说我们 go, 它会直接 go 告诉你当前的一个状态, 比如说我说重构当前代码,确保测试所有通过,然后它会有一个显示当前时间,用了多长时间以及 token 使用量。同时你也可以 pause, 你 可以 resume, 让它继续做,就又重新变成激活的状态了。 对,同样你也可以直接地把它清除掉,对,它就会变成 clear 的, 相当于它有这么一些命令的选择。对 go 它最佳使用的一些实践,我觉得也可以简单地讲一下,因为在我们之前的 ai 编程当中,经常会说,你帮我改一下某函数, ai 改完之后,你会说继续,然后它又再继续,最后你说跑测试,它才会。跑测试相当于 啊,一步一步,需要你的一个指导才能去做这个工作。但 go 的 思路不太一样,它不是告诉你下一步做什么,而是告诉它最终要达成什么。 譬如说刚才我们提到的重新写所有的测试,确保向后兼容。这样子说,你说整个把认证系统从 j w t 迁移到 off, 这也是一个比较大的工程,它要对上下位有很好的理解,那它可以进行,会需要运行时间比较长一点点。 那和普通的 prompt 最大的区别是什么?普通 prompt 像是一般都是一次性的输入,而 go 是 一个持久化的目标状态。 比如说,如果你只是在 prompt 里面输入帮我重构认证模块,那 codex 会在当前这一轮里面尽量去完成任任务,但是这一轮结束之后,这个任务就不一定还会作为持续目标被系统记住。但是如果你输入 go snapgo 重重构认证模块,保证保持现有 a p i 兼容并补齐测试,那么这个目标就会变成当前现成的一个状态。系统会知道现在有一个激活的一个一激活的目标, 然后它会记录这个目标是什么,以及是否是它的状态,是否完成,以及是否有预算的限制,消耗了多少资源等等。 它有一个状态的一个持续化的一个东西,所以它就不只是当前这一轮对话,而是有一个长期的目标持续行动。 对,怎么它是为什么能够实现这种感觉?它的背后的原理就是它会把系统,会把当前的目标绑定到当前的县城上,就这样就能够记录的目标内容状态是否完成。没有这一层的,那那么它就是一个普通命令。对, 另外一点需要说明的就是在使用的时候应该注意点什么。第一个就是目标要写得具体一点,不要只写优化项目,这个太宽放,更好的写法可能就是优化某某模块的什么测测试覆盖率啊,覆盖关键的一个路径,确保所有错误都通过, 就相当于这是比较具体。第二个要点就是要写清楚成功的标准。譬如说你要举个例子说,确保所有单元测试都通过,确保不改变现有的 a p i, 确保向后兼容,确保新增的测试覆盖核心场景。 所以 codex 就是 它的 codex 这个 go 的 这个更新,它就是让你从原先的你问一句,他答一句的这种编程助手,变成一个围绕一个目标持续工作的自我编程代理,所以它就有一个状态可以持续的循环, 所以还是挺不错的一个功能。现在在 twitter 或者是在海外的开发工程师当中,这个已经引起了很大的一个关注,有人甚至让它编程了五十多个小时一个功能,所以说。

你以为 codex 就是 更新,只是又多了五个新功能?当我看完官方更新后,部分 ai 现在不是在做一个更会回答问题的 ai, 而是在把 codex 往长期执行代理这个方向硬推。 为什么这么说?第一,锁屏以后他还能继续干活,这说明重点已经不是你坐在电脑前一问一答,而是你人走开了,他还能把任务往前推。不过这里也要说清楚,目前这个能力还是偏 make。 第二,而不需要词很关键, 他不是简单截图,而是能把你当前窗口里的内容直接送进上下文,你不用再花很多时间解释我现在在看什么,做到哪了。第三, girl 转正了, 你给他的也不再只是一句 prompt, 而是一个目标,然后他会围着这个目标持续推进,汇报调整。所以这是更新。我最大的结论不是功能增多,而是 ai 工具的竞争方向变了以后,真正会用 ai 的 人,不是背了多少工具名的人,而是会给目标,给上下文,给结果的人。

一句话让 codas 证明你自己。那很多人用 codas 还停留在命令它完成任务,但有一个更有效的用法,让 codas 反过来研究你你每天反复做的那些事情,整理资料,写日报,同步笔记,复盘项目。你以为这是琐事,但在 codas 眼里,这些都是可以被提炼的工作流。那方法很简单,打开 codas 记忆功能,从设置个性化开启记忆, 然后直接把这段提示词丢给他。那请回顾我最近的工作记录和历史。绘画,识别我反复执行的任务类型,提炼其中稳定的步骤,判断标准和输出格式,并把它们设计成为可长期服用的 skill。 那 它就会把你平时怎么做事,怎么判断,怎么输出,整理成一套可调用的 skill。 以后碰到同类的任务就不用再从头解释了。 那 code 会按照你过去的习惯直接进入一个流程,并且这个 skill 还会持续进化。那如果流程变了,去更新旧的 skill, 如果场景变了,可以拆除新的 skill。 那 我自己尝试了一下,瞬间生成了五个新 skill, 快 去试试吧。

我最近觉得我强的可怕,我现在掌握了一个软件,它解决了困扰了我很久很久的问题,它就是扣的 x, 因为它加快了我得到反馈的频率,我只用了一天的时间,我把我们的独立站重新建立了,把我们的官网全部翻新了。整个过程我是非常被动的,他问我,我解答,然后他会给我 做出来我要的东西,我就能够及时看到效果怎么样,我就得到反馈了。第二,我还做了一个小程序,你看一下 这个小程序是我们内部管理的一个小程序,当我们能够看到我们每个人的积分,还有我们的代办事项,我们的完成度过去,我做这样子一个小程序,我至少要花一万块钱以上,一个月以上的时间,中间我得反复去纠正,但是我现在只花了五分钟做完了, 而且我还用它创建了一个美工,我说帮我做一个 p 二五的电商图主图, 他就能够帮我生成一张我喜欢的主图。那我如果说我有其他的 ai 软件,我说帮我生成 p 二五的主图,那他可能不知道 p 二五是什么,但是他知道我想要什么样的图,那我的美工已经几乎是被我的 code x 去取代掉了。现在这能力技巧都变得非常简单,都没有任何的 门槛。以后的能力体现在多维度的理解,他是个比较抽象的,你又要懂产品,又要懂销售,你要懂用户,你要懂痛点,你要懂市场环境,你必须要对这种东西有多维度的一个了解,你才是真正的有竞争力,有优势, 因为单一的能力已经不再是稀缺的资源,他还替我实现了,比如说我们的 财务数据流水,让它自动的去收集我每天的流水,然后填到表格里面上报上去。除此以外,电脑卡顿的问题啊,我的公司的这些数据没办法利用,我用扣篮子都帮我规范,都帮我解决了。 很早之前我就要求我们公司必须把每个流程都要梳理出来,我觉得这是做的正确的一个事情,因为只有把流程梳理出来了,我才能够喂给 ai, 告诉 ai 我 去怎么去做。我觉得超级个体在我们公司马上就会发生 一人公司不再是非常遥远的东西了,我们公司三十个人,我相信 我们可以在一年之内做到三百个人的战斗力,我觉得是完全有可能实现的。后面 我还要给他创建智能体,我要给他创建单独的微信,部署到单独电脑上面,我要让我的 ai 员工之间能够相互的交流,能够替我更加 简单的,更加省心的做事情出来,等我后面的反馈,如果有任何进展,我会跟你们分享的。

所有已经开始用 cloud 或者 codex 开始编程的老板,我现在呢只嘱咐你们一件事情,就是一定要注意身体, 真的,我知道你们跑通了这个 cloud, 跑通了 codex 之后,你们会非常的兴奋,因为以前你想都不敢想的事情,现在居然可以让他在几分钟之内就实现了。以前你会被你的员工气得要死的那种任务,然后现在他可以丝滑的直接给你一个完美的结果, 但是呢,还是要注意身体,我之前咨询的很多找我咨询的老板,然后跟我反馈说,天天编程搓代码搓到六点,早上六点啊,然后呢九点又去上班,我觉得这样可能会,这个 可能会你还没有干,你还没有完成你自己的大业,自己身体先垮了,不能这样啊,铁子们啊。而且很多时候我们要把心态放的平稳一点,像有一些像可乐或者 call 贷斯可能也执行的不是很好的一些任务, 然后你也没必要非得去跟他较劲,整晚整晚的较劲,因为现在的这些东西更新的这么快, 你要知道可能你较劲很长时间的事情,你就算放下他,你出去玩几天,你回来之后你会发现他的更新已经把这个问题给解决了,真的,我之前很多次碰到这样的事情, 然后另外一件事情,你要知道这个可乐现在咱们用的这个四点七版本已经是他的,这个他前面还有三个未发布的版本,那三个版本都已经开发好了,只不过他没有发布 明白铁子们,所以你知道现在这个四点七已经用的让你这么爽了,那你能想象后面那三个版本发布之后你会用的用起来有多爽? 咱们现在已经跑在时代之前了啊,所以我们要对自己有信心。好吧?不要这个,不要太贪,不要太贪功,然后这个注意身体,谢谢。

这条视频讲 codex a subagent, 小 白也能听懂的版本。它不是一个新软件,也不是神秘功能,而是 codex 处理复杂任务的一种用法, 你会看到它什么时候该用,什么时候别用,以及怎么用它。 review 一个真实项目,先给 subagent 下一个最朴素的定义。一个复杂任务,你可以让 codex 拆成几块,分别交给几个子代理并行处理。 每个子代理跑在自己的 agent thread 里,最后只把结论交回主线成汇总。官方术语听起来会正式一点。 sub agent workflow 指同时跑多个并行代理在汇总。 sub agent 是 被派出去做某件事的代理, agent, thread 则是每个代理自己的线程,你可以在 cli 里查看和切换。 sub agent 主要解决两件事,第一, context 被污染,读文件跑命令看报错,猜原因,全塞进主线城,后面判断就容易乱。 第二,该病型的事被串行,做安全测试风格可维护性本来可以同时看,却被一个代理从头查到尾。判断要不要开 sub agent。 可以 先问一个问题,任务能不能拆成几块?互不依赖的小事, 能拆就适合试,拆不开就别硬上。任务很小,子任务紧咬在一起,写入范围重叠,或者你自己都还没想清楚怎么拆,这些情况开了反而添乱。不适合的情况也要记住,任务本身很小,没必要开多个代理。 几个子任务互相咬的很紧,并行也不省时间。最危险的是多个代理同时改同一篇文件,这时候省下来的时间很可能被冲突和反攻吃掉。 真正适合练手的场景大多是 rate heavy, 比如大型代码库探索 pr, 多维 review 几个 bug 方向, b 型排查,长文档和长日制分块分析。官方也建议新手起步时先选探索测试、 treeash 和总结这类任务。 codex 默认不会主动开 sub agent, 你 要在 prompt 里讲清楚。常见说法包括 spawn two agents, delegate this work in parallel use one agent per point。 中文直接说启动三个 sub agent, 分 别检查安全测试和可维护性也可以。如果拿来 review pr, 可以 直接用这个模板,一个 sub agent 检查潜在 bug, 一个检查测试覆盖,一个检查代码质量和可维护性, 最后要求主线程等三个都完成后再输出高风险、中风险可选优化,以及建议优先修什么。 这个模板真正值钱的不是文字本身,而是里面的控制点。每个子代理的职责不重叠,避免大家都泛泛 review 一 遍,明确等全部完成再汇总,可以避免主代理拿着半成品就下结论。最后加一句,优先修什么,可以把排序工作也交给主县城。 接下来用 ship ready 这个小项目做例子,它是一个 s s landing page audit 的 mvp, 后端 api 在 s r c app 点 js, 审计规则和 rewrite 在 s r c audit 点 js, 存储是 s r c store 点 js, 前端是 publ i c 斜杠 app 点 js。 代码量不大,正好适合演示怎么稳妥的开 sub agent。 在这个项目里,最稳的开法不是让三个 agent 一 起改代码,而是启动三个 read only sub agent runtime risk agent 看运行风险 q a coverage agent 看测试缺口, architecture agent 看模块边界, 所有子弹里都不要改文件,等全部完成后,主线程再决定要不要修。三个结论里, round time risk agent 最有价值。他发现 handle request 里 in sync 路由没有 await, 外层 try catch 接不住 a sync handler 抛出的错。 这种 bug 在 happy pass 测试里不容易暴露,但线上可能表现成请求挂住或者 unhandle rejection qa coverage agent 的 结论也很实用。 他没有泛泛说测试不够,而是列出 invalid json 未付费 share 过早 follow up。 若 brief 绕过 rewrite 这些副路径, 这些用力不一定都要立刻补,但摆在面前,主县城就能快速挑出最该锁住的状态流。 architecture agent 的 结论最容易让人冲动, 他说 src app 点 js 可以 拆成 page extract checks brief 和 rewrite 几块 判断没错,但这次目标是写测试加修 bug, 不是 重构 auditing, 所以 这部分建议最后先记下来,不立刻动。三个 sub agent 的 优先级其实不一样, round time risks 想让你先修服务端 qa coverage 想让你先补测试, architecture 想让你先理边界。主县城不能给三票打平均分,而是要挑确定性高、改动小、能被测试所注的事情先做,最后真正落地的改动其实很克制, 异步路由统一加 await, 让外层错误处理生效。 rewrite 必须 brief ready 才能解锁, follow up 增加还没提交 brief 和非法字段校验。 read json 加 body size 限制 invalid json 返回四百,最后补 note test 回归测试。 这个案例最有意思的一课是两个代理的结论拼在了一起, round time risk agent 告诉你哪里坏了。 q a coverage agent 告诉你怎么用副路径测试把它锁住, 这就是 sub agent 真正的价值,不是替主线城做决定,而是把几个方向的结论同时端上桌。跑起来之后也要会管理 agent thread codex c l i 里可以用 slash agent 查看和切换线程,如果某个子任务偏离方向,可以让 codex 停掉那个负责性能分析的 sub agent 跑完的线程,也可以让它关闭已经完成的 agent threads。 给新手的练手顺序,不建议一上来就五个 agent 一 起改权。项目先并行阅读,让多个 sub agent 各自理解不同模块,再并行 review, 把 bug 安全测试,可维护性分头看。 第三步是单写,多审一个代理或主线成改代码,其他子代理做 review, 最后才是小范围并行修改。 下一次让 codex review pr, 你 可以直接从这个短 prompt 开始。请使用三个 sub agent 并行检查,当前 pr, 一个看 bug, 一个,看测试一个看可维护性, 等全部完成后,按风险等级汇总给我。就这几句话,已经够你完成第一次 sub agent 练习。 最后记住, sub agent 不是 替主线城做决定,他真正干的活是把几个方向的判断同时端到桌面上,让主线城更快做取舍。新手先从 rate heavy 的 探索和 review 开始,等你能清楚拆分任务,再尝试让多个代理并行改代码。

agent 时代的自动化任务和传统的自动化任务最大的不一样就是它是一个可自我进化的一种方式。今天呢,我们讲一下这个 agent 时代的自动化任务。 定时任务的原理其实是比较简单的,不管是 cloud 还是 codex, 它们本质上就是把这个定时任务的描述啊发送到了绘画中,然后在绘画里跟你平时跟这个 agent 的 对话一样,去执行各种事情,然后返回。在二零二六年四月十四号的时候, cloud 发布 routines, 可以 看到 cloud routines 这里的工作方式就是你去写一段这个定时任务的描述,然后有三种触发方式。 第一种就是 schedule 哪一天出发,或者是每日出发,或者是每周出发,然后这个是 github event, 如果有,比如说 pr 事件, push 事件,然后让你在这里去触发一个事件。第三种就是 api 触发,可以去触发一个 post 的 请求,然后它这个时候就可以执行你的这个 你写的任务。可以看到这里有个例子,每天凌晨两点的时候,呃,去看一下这个最新的 bug, 然后去尝试去修复一下 codex, 但是发布的比较早,在二月二号的时候其实已经有发布了,这里有没有看到 codex 的 介绍? 自动化任务并不是一个很新鲜的东西啊,可以用脚本写一个,也可以用这个 linux 的 框 tab 去写一个非常简单的定时任务。为什么我们要在 agent 的 时代提一下这个自动化任务呢? 他真正的变化是任务不再是到点执行脚本,而是一个能读上下文,处理不确定状态,保留历史、接受反馈,逐步变好的工作循环。然后这里着重讲一下,为什么我们在 a 阵的时代要重新提一下自动化任务呢? 其实很多时候大家用自动化任务的时候,是想把它作为一个基层二十小时的这么一个员工,一个数字员工,他可以一直帮你去啊处理些事情,而不用你一句一句的去问 agent, 然后 agent 给你一个固定的回复。这样那么假如说我不去主动触发 agent, 而 agent 可以 按照我给的策略, 或者说一种某种模式能在背后默默的执行,这个时候就有这种数字生命的感觉了,所以这是一开始这个自动化任务的初衷,但是我自己在用的过程中,我发现自动化任务比这个还更有意思一些。这里我们讲一个很关键的点,就是 agent 时代的自动化任务和传统的这种 kind of 类型的自动化任务最大的不一样,就是它是一个可自我净化的一种方式。这什么意思呢?就是一开始我可以给一个非常简单的任务, 或者说我的描述是很模糊的,我只是有个想法,我一旦有了这个想法之后,我就可以给给 a 阵的说下我这个定时任务,比如说让他每天去查一下 ai 的 最新新闻,或者每天去总结一下今天的这个日报,或者说去看一些呃,股价呀,什么黄金价格之类的。 其实我只要很简单的描述,然后在这个 a 阵的执行的过程中,包括每天我对这个任务的反馈,它是可以不断的这个沉淀、反馈更新的, 所以就是一开始的给的任务是非常简单的,可能我自己没想的很清楚,但是我在执行的过程中,他触发之后,他是可以 a 正的,自身 其实本质上是触发了一个新的对话,那在这个对话里,这个定时任务他是不可以不断的自自我调节、自我更新、自我迭代的。这里我们举个例子, 比如说这里我用 codex 想做一个,就是每十分钟搜一下,比如说 b 站和小红书关于 codex 或者 cloud 的 一些讨论,其实这个任务给的是非常模糊的,我自己也没想清楚到底是去搜什么选择题,或者是着重搜哪些模块, 或者说是去关注一些重点的 up 主。但是关键就在这里,其实我不用说的很清楚,比如说我这里说了之后,然后 他这里就创建好这个定时任务了, ok, 然后可以看看他,这是他第一次运行通过自动化发发送的,触发了这个第一次的定时任务,可以看到他这里根据我的描述去搜了一下 b 站,搜了下小红书,然后也得到一些结果。 那,那可以看到这里其实他搜小红书的时候是说啊,这时候没有办法稳定的去访问小红书的战略结果,对吧?那这里可能是他的搜索没对。 然后另一方面我们看一下,就是他这里给我 b 站搜出来的一些这些信信息,但是可以看到这个视频其实是 二零二零年一月二十五的,所以这个时候就知道了,其实我想搜这些比较火的选择题,并不是跟关键词相关的,我想搜,而是说一定是这两周之内的,因为 cloud 或者是 codex 上面更新都很频繁,那可能如果是几个月前的这个新闻就没有意义了,那可能我需要的是, 嗯,一两周内的,所以说我这里就马上改了一下,而且这种改动是很方便的,那我就告诉他,那么这个时候他就会去优化这个定时任务,然后他就收这个两周之内的行为,随着这个不断的这个每日的或者是每十分钟这样的执行,不管是根据我自己的反馈也好,还是根据 这个 agent, 他 可能在搜索的过程中他发现,哎,可能这条路他搜的比较快一点,或者说是这个方式他搜的更准确一点,这个时候他都可以自我优化这个定时任务本身。在以往定时任务,你不管是执行再多遍记录,执行完只知道成功与失败没有任何意义。但现在不一样了, 你执行完之后,你的执行记录像这样的以绘画的形式存储在这个绘画的上下文中,那这个时候你其实你发给大模型,其实大模型的这些绘画记录都在,要么就是你的定时任务会产生很多记录, 对吧?一些,呃,日式文件。那么根据以往的执行记录,这个时候他就知道说我现在需要去做哪些不一样的事情,或者是哪些改动 来保证我这个这次任务执行的更,所以这里就是有会有啊,运行记录、用户反馈、任务记忆,甚至一些在执行过程中它新增了一些 skills, 这些 skills 肯定会用于新的一些任务。那么也经过我自己的一些摸索啊,我觉得现在有些场景是比较适合 a 型的自动化任务的。 呃,一般来讲都是有个不确定的输入和可审查的输出。每日 ai 资讯,当然你可以 不一定是 ai 资讯,你也可以是其他的。呃,一些自己比较关心的一些领域的一些资讯,因为这种东西它是 每天都会有新的东西出现嘛。那么还有一种就是不管是这个 cloud 官方,还是说你在 codex 这里看到的一些自动化模板,可以看到其实它都跟代码有关。

ai 编程圈彻底炸了! openai codex 刚刚上线了一个极其危险的新功能,叫 go。 一 句话解释,你现在只需要告诉 ai 一个终极目标,剩下的它会自己循环干活,一直干,直到完成,或者把你的 token 烧光。很多人第一反应可能是,不就是自动执行任务吗? 但真正恐怖的地方在于,这不是普通 agent。 这是 openai 第一次开始认真做长期自主运行 ai, 而且官方 cookbook 已经公开了完整教程。 要理解这件事为什么重要,先看看过去 ai coding 最大的问题是什么?你让它改 bug, 它改完一步就停,你还得继续提示,继续再修一下,再跑一下测试。整个过程像带小孩, ai 做到一半就忘。尤其复杂,项目改了 a, 崩了 b, 修了 b, 又炸了 c。 最后人类自己都不知道现在项目是什么状态。 过去的大模型本质上还是一问一答,它不会真正为了一个长期目标,它不应该响应任务, ai 应该持续追逐目标。注意这两个词的区别, 任务是帮我改个按钮颜色,目标是让这个项目通过全部测试并成功上线。这已经不是聊天了,这是 ai 开始自主执行长期工程。 codex go 会进入一个循环 plan act, test review, repeat。 它会自己规划,自己执行,自己测试,自己检查,然后继续迭代,直到目标达成或者 token 爆炸。这和过去所有聊天室 ai 最大的区别是,它不再等你下一句话,而是开始持续行动。 这件事非常恐怖,因为过去 ai 最大的问题一直不是智力,而是持续性。现在这个问题开始被解决了,真正让我头皮发麻的是几个细节。 go 是 长期状态,你可以暂停、恢复、继续,甚至跨 session 保持目标状态。 这意味着 ai 开始拥有长期任务记忆,它会自己判断目标是否完成。这个变化极其关键,因为过去人类负责验收,现在 ai 开始自己定义完成。这个变化极其关键,因为过去人类负责验收,现在 ai 会持续工作几十分钟甚至几小时。 你只需要一句,把这个项目重构成模块化架构,并通过测试,然后去睡觉,醒来 ai 还在跑,这已经不是 co pilot 了。这更像 ai 工程队, go 会强制 ai 聚焦单一目标。官方 cookbook 特别强调, go 模式下,模型会优先围绕目标完成,持续推进。 ai 从对话模式进入任务驱动模式。这其实是 agent 的 时代最核心的一步。 上手其实很简单,升级最新版 codex c i 输入斜杠 go 告诉他你最终想达成什么,剩下的他自己循环,自己规划、自己执行,自己修复,自己测试。 但真正让我觉得这东西会改写整个 ai 行业的,还不是 call 定本身,而是 open ai 正在把大模型从聊天机器人变成长期运行系统, 这特别像从命令行进化到操作系统。过去的 ai 向函数调用,调用一下就结束。现在的 go 更像后台进程,它会持续运行,持续消耗资源,持续追逐目标,直到完成。这其实已经开始出现 ai 员工的雏形, 而且你会发现,整个 ai 行业最近都在往这个方向狂奔。 club 在 做长期 agent, open club 在 做 go mode, peris 在 做 persistent agent。 现在连 open ai 也正式下场, ai agent 的 真正战争可能才刚刚开始。 未来拼的已经不是谁回答问题更聪明,而是谁能持续工作更久,谁能自主完成复杂目标,谁能真正替代一部分人类工作流。从今天开始, ai 不 再只是聊天, ai 开始持续行动。当然,还有一个现实问题,你账户里的偷看到抵顶不顶得住?点赞、收藏、关注三联,我们下期再见!

codex 啊,这个东西我真心建议还没用过的人,一定一定要找机会试一次,不是因为它听起来高级,而是你真的用它跑完一个任务之后,你就会理解什么叫 ai agent。 这条视频就是我用 pose 做出来的。我是一个金融从业者,每天面对的东西都在变,市场在变,政策在变,客户的问题也在变,信息越来越多,任务越来越碎,但是真正能沉淀下来的东西却很少。 我接触 codex 之后,我现在脑子就基本就一件事,就是怎么养好我自己的 a i a 枕头。我每天眼睛一睁就是 get skill, 就是 补知识库,我想着怎么能把它变成一套真正能用的系统。 我第一次让 codex 执行任务,就是让他帮我整理了一堆文件,一百七十六个文件,十个文件加五百多兆, 八分钟就八分钟,分类排序归档,全都处理好了。然后我发现 就是 ai 真正有价值的地方,不是一个什么要给你一个最真实最不绕弯子的答案,而是把混乱的工作变成一个可以规划,可以执行,可以复盘,甚至可以持续运转的一个项目。 所以这个账号后面我会记录三件事,就是第一,我用 ai agent 呃解决了什么真实问题。第二,呃,就是这个过程花了多少 token, 到底值还是不值。第三,也是最重要的,就是这些流程能不能慢慢搭成一套普通人也能用的生产系统。 呃,我是从零开始,但我不想一直停留在零,这是我的第一条系统搭建日记。

你们用 ai 写代码的时候,是不是经常要跟他说继续完成跑单员测试 codecs 呢?最近新出了一个 go 模式,真正解决的就是这个问题。 这两天 open ai 给 codecs 发布了一个新功能,叫 go, 也就是目标模式。很多人第一眼会觉得,这不就是让 codecs 持续干活吗?比如你给他一个目标,他就一直做,不用你反复的手动去输入。哎,继续。 但我觉得这个理解还是太浅了。 go 的 真正意义是,它让 codex 从一个单轮的编程助手开始,变成了长任务工程的一个 agent。 以前我们怎么用 ai 写代码呢?你说一句它就做一轮,它改完代码就停下来等你 测试没跑的话你要提醒它,内存没过的话你要催它。 bug 还没修干净,你还得说一句继续修复。 这其实不是一个 agent, 这更像是一个很聪明的回合制的助手。但真正工程任务不是一轮完成的,比如修一个 fricky test, 优化接口,性能做依赖了迁移。这些任务的下一步啊,往往都取决于你上一轮发现了什么。 比如测试失败了要继续定位,性能没达标呢,要换一个方案,迁移报错了要找一个兼容的路径。而构模式解决的就是这个断点问题。 openahead 对 构模式的定义啊,它是 codis 里面的持久目标,可以让一个县城跨多轮持续的去推进任务,并且提前定义什么算完成,怎么验证成功,哪些约束不能被破坏?注意这个词完成 普通 prom 的是你提要求 ai 做一步给结果,然后停下来。但构模式是先定义目标,再执行,再检验证据,没完成的话就继续完成了,才停下来卡住了呢,就汇报给 broker。 所以它不是一个更长的 prompt, 它更像是一个完成的契约。这里最关键的变化是, ai 开始有了验收的意识。 以前 ai 很 容易说我已经完成了,但你一跑测试啊,发现根本没过。为什么呢?因为它是在用语言判断完成,而不是用证据来判断完成。一个好的购指令,必须提前说清楚六件事情, 最终结果是什么?用什么证据证明完成?哪些东西不能被破坏,能改哪些文件,用哪些工具?每一轮失败之后啊,该怎么去选下一步? 如果卡住了,什么时候停下来,该汇报哪些东西?举个例子啊,你不要只写优化 check out 的 接口性能,这太虚了。你要写把去靠了接口的 p 九五延迟降低到一百二十毫秒以下, 用 benchmark 验证,同时保证呢, coretonis test 全部通过。如果 benchmark 跑不通,或者没有安全的优化路径,就停下来,并汇报给 broker, 和已经尝试的方案。 你看,这个就完全不一样了,它不是让 ai 更努力,而是让 ai 呢,被目标正据边界约束。从产品角度看呢, go 模式其实是已经把 agent harness 里面的核心能力给产品化了, 目标持久化、任务续保、工具调用、循环测试验证、预算控制和一个主色的汇报。以前这些东西啊,开发者要自己在 ai 智能框架里面去答,但现在它已经变成了 codex 的 一个入口,这说明 ai 编程的竞争逻辑已经发生了变化。 过去我们看 coding agent 问的是它能不能帮我写代码,以后真正重要的是它能不能围绕一个工程目标持续去推进,并且交付到可验收。 真正成熟的 agent 不是 永远不停地去干活,而是知道目标,尊重边界,看证据行动,并且知道什么时候该停下来。 ai 编程的下一阶段呢?不是谁更会写代码,而是谁能够把一个工程目标交付到一个可验收的一个阶段。

装上 codex 直接开干,结果他越写越乱,改两次就跑偏。不是工具有问题,是你的 agent 里密缺了四段关键内容,这四段差一段他就发挥不出该有的水平。第一段是角色定义,把项目是干嘛的,谁在用,要解决什么核心问题讲清楚, codex 才知道往哪个方向走, 而不是只盯着代码本身改字母。第二段是项目约束,包括技术栈、版本、命名、规则、目录结构、绝对不能动的接口和外部依赖, 这些是他的硬边界。写的越具体,他越省事,你也越省心。模糊的描述只会换来模糊的产出。第三段给输入式例,至少放二到三个标准任务的范例,比如一个完整的需求描述,加上预期产出的样子,让他有参照对象。 写新功能时不会自己发明一套,写法风格也会贴合现有代码。第四段是错误兜底,列出常见的错误类型和处理方式,遇到拿不准的情况,让他先停下来问你,而不是瞎猜着往下写。 这一段省掉的返工最多,也最容易被忽略。这四段补齐之后, codex 的 产出稳定性会有明显变化, 返工次数也会少一大截,长期看节省的时间相当可观。我用这个结构跑了三个月,从一开始一天改八次,到现在基本一次过就能用,体感差距挺大。你的 age 四列密写了几段?评论区聊聊你踩过哪些坑。

我用了 superpowers 一 段时间之后,最大的感受它不是让 cortex 更快写代码,恰恰相反,它是在让 cortex 不要太快写代码。因为现在 ai coding 里一个常见的问题是,需求还没有澄清,边界还没有确认, 测试还没有想好, cortex 已经开始改文件了。小任务这样做还行,但一旦任务变复杂,这种直接开写的方式很容易出问题。所以这一期我们聊聊 superpowers 到底解决了什么问题。 先简单说一下 superpowers 是 什么,它不是一个单独的 skill, 而是一套给 coding agent 使用的软件开发方法论。在 codex 里面安装很简单,如果 是 codex c r i, 打开 plug ins, 搜索 superpowers, 选择安装就可以了。如果是桌面版的 app, 在 侧边栏 plug ins 或者是那个插件里面找到 superpowers, 点加号安装就可以了。 插件我找到 superpowers 点安装就可以了,因为我已经装过了,所以这边不是加号了。装好之后,它就会作为一组 skills 在 cortex 里面使用。这也是我觉得它很适合 cortex 的 地方。它不是让你每次手动复制一堆 prompt, 而是把一套软件工程流程变成 cortex 可以 按需使用的 skills。 我 理解 superpowers 的 核心就是把 ai coding 拆成 七个顺序执行的步骤。第一步就是头脑风暴,在写代码之前先澄清需求,探索方案,确认边界。第二步就是创建独立工作区,不要直接在当前工作区里乱改, 而是创造一个更安全的独立开发环境。第三步是写实施计划,把任务拆成小步骤,明确要改哪些文件,怎么实现,怎么验证。第四步是指代理开发, 把具体任务交给 subdivision 去执行,让主流程可以更清楚的组织和检查。第五步是 tdd 测试,驱动开发,先考虑怎么证明它是对的,再写实现,而不是先写一堆代码再说。第六步是代码审查,改完不是马上说完成,而是让另一个审查视角检查问题。 第七步是完成分支,最后做验证,收尾、合并或保留分支。所以它的流程不是需求到写代码,而是这一套头脑风暴,到独立工作区域,到实施计划,到代理开发,到 t d d, 到代码审查,再到完成分支,每一步都是一个独立的 skill。 这就是 superpowers 最核心的地方,它把软件工程流程拆成了 ai 可以 执行的一组 skills。 我在 codex 里用下来,感觉它是比较无缝的,尤其是装成插件之后,它不像一个你每次都需要手动调用的命令集合, 更像是给 codex 加了一套开发习惯。比如需求不清楚的时候, codex 会先倾向进头脑风暴,先问问题,探讨边界,确认需求,而不是直接开始改代码。准备实现之前,它会更容易进 writing plans, 设计代码质量时,它会提醒 pdd review 和验证。这就是我觉得就 pos 很 有价值的地方,不是每次靠你提醒 cortex 守流程,而是让 cortex 默认更容易按照工程流程工作。这里也放一个 sdd 的 背景在里面, s d d, 也就是 spec driven development。 规范驱动开发,它的核心思想是不要一上来就写代码,而是先把要做什么说清楚,比如 open spec, 它更偏规范管理,它关注的是把需求变更约定整理成可维护的规范。 spec kit 更偏规范驱动开发流程,它通常会通过一组命令模板,引导 ai 从 需求深层规范计划任务再去实现。而 superpowers 更偏工程纪律和 skills 集合。所以我会这样理解, s d d 解决的是先要把做什么想清楚, superpowers 解决的是做的过程中怎么守流程。最后说一个大家可能关心的问题, token 消耗,而我自己用下来。 superpowers 在 cortex 里的题感是比较轻的,因为它不是每次 都把一大堆规范文档塞进上下文,而是通过一个个 skill 在 需要的时候触发对应流程。当然,它也会消耗 token 头脑风暴,它要讨论需求, writing plans 要写生成计划 review 要读取代码和分析问题, 都不是免费的,但它的消耗更像是按阶段按 skill 触发。而 openstack 和 stackkit 这类的 sdd 工具通常会生成更多的规范计划任务文档,好处呢是结构更完整,坏处是文档越多,后续带入上下文的 token 压力也可能更大。我 之前看到 speckey 的 社区里面有人反馈过类似的问题,有依据里估算,在 cloud code 里,一组 speckey 个 months 可能占用大约十八点六 k 的 tokens, 在 codex c i 的 上下文窗口里面大概占百分之七到百分之十。这个不是官方的 benchmark, 但它说明一件事,流程工具本身也有上下文成本。所以我的判断是, opens back backit 更适合强规范、强文档、强交付约束的任务。 superpowers 更适合日常 ai coding, 因为它更像一层工程流程约束 动成本更低,体感也更自然。所以这一期的结论是, superpowers 不是 给 ai 加超能力,而是给 ai 加工程纪律。它解决的不是 ai 不 会写代码,而是 ai 太容易跳过软件工程流程模型提供能力, superpowers 提供纪律。 下来几期我们会继续拆开看。为什么先要头脑风暴?为什么要写 plans? 为什么 ai 写代码需要 pdd? 以及为什么 ai 也需要 code review? 下一期我们继续。