这条视频讲 codex a subagent, 小 白也能听懂的版本。它不是一个新软件,也不是神秘功能,而是 codex 处理复杂任务的一种用法, 你会看到它什么时候该用,什么时候别用,以及怎么用它。 review 一个真实项目,先给 subagent 下一个最朴素的定义。一个复杂任务,你可以让 codex 拆成几块,分别交给几个子代理并行处理。 每个子代理跑在自己的 agent thread 里,最后只把结论交回主线成汇总。官方术语听起来会正式一点。 sub agent workflow 指同时跑多个并行代理在汇总。 sub agent 是 被派出去做某件事的代理, agent, thread 则是每个代理自己的线程,你可以在 cli 里查看和切换。 sub agent 主要解决两件事,第一, context 被污染,读文件跑命令看报错,猜原因,全塞进主线城,后面判断就容易乱。 第二,该病型的事被串行,做安全测试风格可维护性本来可以同时看,却被一个代理从头查到尾。判断要不要开 sub agent。 可以 先问一个问题,任务能不能拆成几块?互不依赖的小事, 能拆就适合试,拆不开就别硬上。任务很小,子任务紧咬在一起,写入范围重叠,或者你自己都还没想清楚怎么拆,这些情况开了反而添乱。不适合的情况也要记住,任务本身很小,没必要开多个代理。 几个子任务互相咬的很紧,并行也不省时间。最危险的是多个代理同时改同一篇文件,这时候省下来的时间很可能被冲突和反攻吃掉。 真正适合练手的场景大多是 rate heavy, 比如大型代码库探索 pr, 多维 review 几个 bug 方向, b 型排查,长文档和长日制分块分析。官方也建议新手起步时先选探索测试、 treeash 和总结这类任务。 codex 默认不会主动开 sub agent, 你 要在 prompt 里讲清楚。常见说法包括 spawn two agents, delegate this work in parallel use one agent per point。 中文直接说启动三个 sub agent, 分 别检查安全测试和可维护性也可以。如果拿来 review pr, 可以 直接用这个模板,一个 sub agent 检查潜在 bug, 一个检查测试覆盖,一个检查代码质量和可维护性, 最后要求主线程等三个都完成后再输出高风险、中风险可选优化,以及建议优先修什么。 这个模板真正值钱的不是文字本身,而是里面的控制点。每个子代理的职责不重叠,避免大家都泛泛 review 一 遍,明确等全部完成再汇总,可以避免主代理拿着半成品就下结论。最后加一句,优先修什么,可以把排序工作也交给主县城。 接下来用 ship ready 这个小项目做例子,它是一个 s s landing page audit 的 mvp, 后端 api 在 s r c app 点 js, 审计规则和 rewrite 在 s r c audit 点 js, 存储是 s r c store 点 js, 前端是 publ i c 斜杠 app 点 js。 代码量不大,正好适合演示怎么稳妥的开 sub agent。 在这个项目里,最稳的开法不是让三个 agent 一 起改代码,而是启动三个 read only sub agent runtime risk agent 看运行风险 q a coverage agent 看测试缺口, architecture agent 看模块边界, 所有子弹里都不要改文件,等全部完成后,主线程再决定要不要修。三个结论里, round time risk agent 最有价值。他发现 handle request 里 in sync 路由没有 await, 外层 try catch 接不住 a sync handler 抛出的错。 这种 bug 在 happy pass 测试里不容易暴露,但线上可能表现成请求挂住或者 unhandle rejection qa coverage agent 的 结论也很实用。 他没有泛泛说测试不够,而是列出 invalid json 未付费 share 过早 follow up。 若 brief 绕过 rewrite 这些副路径, 这些用力不一定都要立刻补,但摆在面前,主县城就能快速挑出最该锁住的状态流。 architecture agent 的 结论最容易让人冲动, 他说 src app 点 js 可以 拆成 page extract checks brief 和 rewrite 几块 判断没错,但这次目标是写测试加修 bug, 不是 重构 auditing, 所以 这部分建议最后先记下来,不立刻动。三个 sub agent 的 优先级其实不一样, round time risks 想让你先修服务端 qa coverage 想让你先补测试, architecture 想让你先理边界。主县城不能给三票打平均分,而是要挑确定性高、改动小、能被测试所注的事情先做,最后真正落地的改动其实很克制, 异步路由统一加 await, 让外层错误处理生效。 rewrite 必须 brief ready 才能解锁, follow up 增加还没提交 brief 和非法字段校验。 read json 加 body size 限制 invalid json 返回四百,最后补 note test 回归测试。 这个案例最有意思的一课是两个代理的结论拼在了一起, round time risk agent 告诉你哪里坏了。 q a coverage agent 告诉你怎么用副路径测试把它锁住, 这就是 sub agent 真正的价值,不是替主线城做决定,而是把几个方向的结论同时端上桌。跑起来之后也要会管理 agent thread codex c l i 里可以用 slash agent 查看和切换线程,如果某个子任务偏离方向,可以让 codex 停掉那个负责性能分析的 sub agent 跑完的线程,也可以让它关闭已经完成的 agent threads。 给新手的练手顺序,不建议一上来就五个 agent 一 起改权。项目先并行阅读,让多个 sub agent 各自理解不同模块,再并行 review, 把 bug 安全测试,可维护性分头看。 第三步是单写,多审一个代理或主线成改代码,其他子代理做 review, 最后才是小范围并行修改。 下一次让 codex review pr, 你 可以直接从这个短 prompt 开始。请使用三个 sub agent 并行检查,当前 pr, 一个看 bug, 一个,看测试一个看可维护性, 等全部完成后,按风险等级汇总给我。就这几句话,已经够你完成第一次 sub agent 练习。 最后记住, sub agent 不是 替主线城做决定,他真正干的活是把几个方向的判断同时端到桌面上,让主线城更快做取舍。新手先从 rate heavy 的 探索和 review 开始,等你能清楚拆分任务,再尝试让多个代理并行改代码。
粉丝2490获赞8571

最近 open ui 呢发布了一个 collect 插件,那这个插件呢,是在 curl code 使用的,不是在 collect 使用,而且它主要的能力就是在 curl code 的 编码过程中使用 collect 的 能力去进行代码的 view 是 不是觉得很新奇?那本期视频呢,就来介绍一下这款 collect 插件,以及怎么来使用,哪些场景下用不同的命令。那首先我们在使用 curl code 进行编码或进行方案设计的时候,有的时候是不是特别想 有另外一个好的模型来对我们代码变更进行一个 review, 或者对我们的方案进行一个更全不同角度的这个审视。那市面上其实也有一些方案,或者说工具也好,插件也好去解决这个问题,那么你也可以设置不同的子代理,不同的模型来去做 review。 但是呢,这也设限于 curl code 只能用某一个供应商的模型啊,没办法用多个供应商,比如说你没办法同时使用 jimmy 三,没办法同时使用这个 curl x 或者其他的模型去做同样的事情。那虽然说你可以双开啊,你可以打开 curl code, 可以 打开 curl x 去做 这个 review, 但是呢,会存在你在 curl code 里面的上下文对话,没办法平移到 curl kyle kyle x 里面去使用。那么有了这个插件之后,你就可以使用 kyle x 的 一些能力了,比如说 对我们的代码进行 review 啊,对我们的方案进行一个深入的一个判断,是不是合理,是不是实现有问题。所以呢,这个插件解决最大问题就是在 codex 的 这个维度上去给你去做 review。 那 么怎么安装呢? 打开 qq, 然后输入这个命令啊,就是安,先安装 markspace, 然后再安装这个插件,然后再进行一个 reload, 就是 重新加载一下它这个插件,然后运行这个。那前提是你自己本身就是 codex 的 用户啊, 你你有这个 class 的 账号,能正常用 class 进行编程,那么你就可以使用那这个 setup, 它会进行一个健全啊,如果你没有安装 class c i, 它会帮你去安装好,所以说你只要执行这个命令 ok, 通过之后,那么你就可以使用接下来的命令了。 那么它提供哪些命令呢?那这里我重点要讲的是两个命令,第一个就是 collex review, 那 这个命令是非常基础的,它是一个只读的命令,那它做的最主要的事情就是阅读你当前 get 里面没有提交的所有的代码变更, 或者说你可以指定一个分支,然后去对比,去审查你这个代码里面有没有啊,质量问题啊,就是从一个很正常的角度来审视你这个代码的这个问题啊,它是不会去改代码,只会去做审查。那我们可以看一个例子啊,就是我在我这里边的话,使用这个 flex review, 那么他就会去评估我这个,最近这个啊,提交了啊,最近这个 git 变化里面的代码来进行一个审查,审查完之后他就得了个结果说,哎,我这边有个 pr 的 问题啊,这个配置有有这个问题, 大家可以看到,就是我们在做这个 review 的 时候,它并不是说是 review 哪个需求有没有实现,它是站在代码这个角度,就是来看你的代码结构,你的代码有没有问题?是站在这个角度,不是站在业务的角度,那业务就比如说你做一个登录的功能,你的业务流程是 a、 b、 c, d, e, f, g, 那么他有没有完成 a, b, c, d, e, f, g, 他 是这个滤镜是不在这个范围之内的,他只会滤镜的是你这个登录这个逻辑,登录的这个代码里面有没有比如说什么空指针啊?有没有这种啊?隐藏了这个设计问题啊?有没有什么这些东西就是很技术化的这个审查, 所以呢过滤镜它是一个很常规的一个检查,它的上下文是你的 get 里面的所有的未提交的这个变化, 那么它它的命令是啊 close view, 然后呢也可以你也可以设置一个这样的一个 base 的 分支啊,你也可以设置让它去后台去运行那 close view, 它有个特别重注意的点,就是它没办法指定就是让它去 view 什么具体的内容 啊,我们可以看到我们在执行这个命令的时候,在后面是没有输入任何内容的,没有说让它去 view 一下哪块东西,就是它不建议在执行这个命令的时候去告诉它,就关注了点, 不是这个命令啊需要的,那这个命令就是做一个比较普通的一个啊代码的一个常规的检查,那么第二个就是更加专业的,那么它比这个 review 呢,就是更加挑刺, 那普通的 review 更具体的是有没有用代码的 bug, 有 没有风险,有没有质量问题,那它这个 review 呢?我们可以叫它叫做对抗性的 review, 就是 它会从方向上来判断 你这个东西设计的是否合理?刚刚我说的登录的这个代码,比如说 a、 b、 c、 d、 f、 g 这个流程是不是设计的有问题,那么它就可以指定它要利用的一个方向,所以呢它的这个利用的深度是很深的, 它是更像一个老的价格师来看你这个整个的价格设计是不是有问题?所以呢,它是用来挑战实现方案和设计决策的 比较适合。就是那种比较重要的啊,就是一个比较复杂的,涉及到模块比较多的,并且你希望他重点去 review 的 这种有具体业务场景的,那么你就用这个命令,我们可以来看一下啊,就是他这个命令的一个详细的流程,比如说他是支持自定义 focus task, 也就是说支持你去在这个命令触发的时候告诉他要去 review 什么具体的场景。 那别说我这个例子里面,我自己也举这个例子啊,我让他去 review 一下我这个 cloudbase 里面的设计数据库设计是不是合理,那么他就会去阅读所有跟数据库相关的代码,设计相关的代码,然后去看一下啊,这个表设计啊,或者干嘛,然后最后得出一个结论,就说我这里面可能是有个密钥暴露的风险, 所以他是更偏向于就更深的去挖掘,从源头上去利用一下方案的这个方向有没有问题。 那么他 view 的 这个维度呢?有七个维度啊,啊,他这边 view 的 话有七个维度,比如说认证权限隔离, 还有这个数据丢失回滚啊,这些都是比较深的,就他会以这种七个这种攻击面这种方式去看你的这个方案的设计的是不是有问题?接下来我们来对比一下这两个 view 啊。那 close view 我 们可以认为它是普通的 代码 view, 那 这个呢?就是对抗式的这种 view, 那 第一种审查风格就是标准代码审查,就是我们写了一个小功能啊,进 改了一些代码,那么你就可以让他去做 review, 那 这个就是会站在更高的角度去看你整个设计的方向,你的这个架构啊什么的,定具体的这个方案去进行一个审查, 然后自定义重点,也就是说你是不是可以指定要 review 的 方向,那么 collins review 普通模式是不支持的,那么这个那么这个对抗式的 review 是 支持的, 那审查的目标也就是他们要审查的范围和上下文都是基于 get 你 的代码变更的范围。运行模式都支持后台 前台,也就说你在执行这个命令的时候,他会根据这个审查的目标大小,建议你是后台运行还是前台运行,那如果是后台运行的话,那你就可以继续往下做你自己的事情,那如果是前台运行的话,他是必须要等他运行完,你看到结果之后,你才能继续算一个任务审查的深度 啊。普通的 review 那 就是找缺陷,那么这个对抗式的 review 呢?就是政委方案,也就说你要他要看你的方案,看你的这个设计是不是一开始就选错了,特别像一个这种老的架构师,用专业的眼光来看你整个的设计方案。所以试用的场景呢?就是啊代码的常规检查,选完一个功能,提交前扫一遍, 这个不错吧,提交前扫一遍就是你执行提交 pr 的 时候去进行进行一个 review, 改了一改了一改了,很多文件啊,先做常规验收准备, tpr 也是一样,都是一些比较常规的,那么这个就是关键变更,上线前的深度审视,发版前怀疑方向是不是最优,或者说你做完整个方案之后,你还再拿 collect 去做一个对抗式的这种 review, 改了这种缓存重试、并发状态流转等复杂的逻辑。我们知道这些都是在我们开发中最难最深的一些东西了, 还有包括做健全支付数据一致性这种高风险模块式。那这些场景啊,都是官方建议的这个使用场景,所以说我们可以来可以去使用一下。 ok, 那 本期视频就到这,希望这个视频对你有所帮助,祝您生活愉快。

卧槽,朋友们出大事了,刚才 openai 官方上线了一个 plugg, 叫做 codex plugin cc, 那 它干什么的?顾名思义就是允许你直接在 cloud code 里面调用 codex 携带码进行这个 review。 那 么刚才我本来是在录制一个 cloud code 的 一个教学视频,看了这个视频绝对是超过百分之九十九的人,那里面就讲到我们如何在 cloud code 里面调用 codex, 本来我们的方案是调用一个啥背景的,对吧?结果现在 openai 直接做了一个 plugg 让你调用, 那么它这个插件的第一功能叫做标准代码生产,就是帮你改 bug。 第二功能就是对抗性生产,那就是它不仅帮你改 bug, 同时它还会刺激你的架构设计,是不是合理?还有第三功能叫做救援模式,这个什么就比如说你现在写用克拉克写代码,发现 有个 bug, 怎么改就改不掉,对吧?那可以直接使用 rescue, 那 么它勾代码就会接受整个代码,然后帮你完成后续的。那么安装也特别简单,我把命令放在这里,大家直接去复制安装就好,赶紧去用起来体验一下。

你以为 codex 只是个会写代码的聊天框?错了,现在 openai 内部有人已经把它训成了一个能自己接任务、自己盯进度、自己催结果,甚至你去洗澡,他还在替你追回亚马逊退款的数字员工。这套玩法不是网友瞎吹,是刚加入 open aic codex 团队没多久的 jason lou 亲自抖出来的这个名字不少开发者都知道,他是十三 k 星开源库 instructor 的 作者, 入职之后一点没藏着掖着,前脚在社交平台大方发 a p i 额度,后脚又写了一篇叫 codex maxing 的 长文,等于把自己怎么把 codex 炸到极限全公开了。更关键的是,这份经验来的时间点很巧,因为 open ai 这两天刚把 codex 又更新了一轮, appshots 截图可以直接喂给他。 bo 模式从实验板正式转正,电脑锁屏之后也能继续远程干活。把这些新功能和 jason 的 工作流放在一起看,你会发现,现在拼的已经不是谁会写 prompt 了,而是谁能把 ai 真的 安排上岗。 jason 最核心的思路就一句话,别把 codex 当一次性工具,要把它变成一个长期运行的工作系统。很多人用完一个对话就关掉,但它不是, 它会长期保留一堆跨越存活的巨型县城,而且每个县城各管一摊事,比如管日程的一个,管开源项目的一个盯社交平台的一个都固定放着用。 command 一 到 command 九一键跳转。这样做的好处非常直接,县城里会自然积累几个月的背景,偏好、历史决策和沟通。这样做的好处非常直接,县城活得越久,上下文越厚,连 连续性就越强, ai 才不像临时工,更像熟悉业务的人。还有个很反直觉的点, jason 给任务是不爱打字,更喜欢直接说。他认为口述能最大程度保留原始思路,不需要你把 prompt 修饰得工工整整,那些模糊的、跳跃的,还带溯源要求的想法,原样丢给 agent 反而更真实。再配合 codex 的 steering 功能, 执行过程中你还能随时插话加指令,说完就走,不用坐在那里干等他跑。这种体验已经不是传统聊天机器人那套逻辑了,更像你在带一个会持续执行的助手。真正让 codex 从工具变成员工的,是 heartbeats 加上 i computer 这套组合, heartbeats 本质上就是给 agent 挂上定时调度。 jason 专门有一个 chief of staff 现成,每三十分钟自动跑一次,去扫 slack 和 gmail, 看看有没有需要处理的消息,然后判断优先级,能回复的先去扫草稿,但不会直接发出去,最后还是由人拍板。这 个边界拿捏得很现实, ai 负责钉盘整理起草,人类负责最后授权。更夸张的是,他做动画项目的时候,先把视频发到 slack 审阅县城里,然后让 codax 每十五分钟检查一次。如果同事在里面提了修改意见, codax 就 自动重新渲染一个新版本,再回帖发回去。因为 slack 的 m c p 服务器还不支持文件上传, agent 甚至会自己调用 i computer, 像真人一样去点 add file 按钮,把渲染好的文件传上去。 还有一次更有画面感, jason 洗澡前把 codex 丢去,叮,亚马逊客服排队等他洗完出来退款,已经到账了。类似的自动推进流程,现在还可以扩展到 google docs 评论、 github pr review 这些场景,只要外界有反馈, codex 就 能接着往下推。但 jason 最强调的不是炫技,而是验证机制。 他说的很狠,没有验证机制的野心,顶多算个愿望而已。什么意思?就是你不能只说帮我搞定这个大活,你得告诉他什么叫搞定。他举的例子是,自己曾让 codex 把 python 的 rich 库完整迁移到 rust, 而且验收标准不是看着差不多,而是必须通过原 python 库的所有单元测试, 测不过就继续改,测过了任务才算结束。这个闭环一旦清晰, agent 就 不再是碰碰运气,而是真能持续工作。这也正好对应上 open ai 这次更新的购物模式。现在它已经从实验版转正,你只要给出一个最终目标,再定义好验收标准, codex 就 能自己持续推进,短则几个小时,长则几天, 你中途可以看进度,调方向,暂停任务。但前提还是那句话,任务必须有明确可验证的反馈回路。没有这个闭环,再强的 agent 也只能停在看起来很努力。 jason 还有一个很值得普通人借鉴的判断,就是记忆别全交给平台。如果我的视频对您有帮助,请点赞加关注,感谢您的观看!

我用了 superpowers 一 段时间之后,最大的感受它不是让 cortex 更快写代码,恰恰相反,它是在让 cortex 不要太快写代码。因为现在 ai coding 里一个常见的问题是,需求还没有澄清,边界还没有确认, 测试还没有想好, cortex 已经开始改文件了。小任务这样做还行,但一旦任务变复杂,这种直接开写的方式很容易出问题。所以这一期我们聊聊 superpowers 到底解决了什么问题。 先简单说一下 superpowers 是 什么,它不是一个单独的 skill, 而是一套给 coding agent 使用的软件开发方法论。在 codex 里面安装很简单,如果 是 codex c r i, 打开 plug ins, 搜索 superpowers, 选择安装就可以了。如果是桌面版的 app, 在 侧边栏 plug ins 或者是那个插件里面找到 superpowers, 点加号安装就可以了。 插件我找到 superpowers 点安装就可以了,因为我已经装过了,所以这边不是加号了。装好之后,它就会作为一组 skills 在 cortex 里面使用。这也是我觉得它很适合 cortex 的 地方。它不是让你每次手动复制一堆 prompt, 而是把一套软件工程流程变成 cortex 可以 按需使用的 skills。 我 理解 superpowers 的 核心就是把 ai coding 拆成 七个顺序执行的步骤。第一步就是头脑风暴,在写代码之前先澄清需求,探索方案,确认边界。第二步就是创建独立工作区,不要直接在当前工作区里乱改, 而是创造一个更安全的独立开发环境。第三步是写实施计划,把任务拆成小步骤,明确要改哪些文件,怎么实现,怎么验证。第四步是指代理开发, 把具体任务交给 subdivision 去执行,让主流程可以更清楚的组织和检查。第五步是 tdd 测试,驱动开发,先考虑怎么证明它是对的,再写实现,而不是先写一堆代码再说。第六步是代码审查,改完不是马上说完成,而是让另一个审查视角检查问题。 第七步是完成分支,最后做验证,收尾、合并或保留分支。所以它的流程不是需求到写代码,而是这一套头脑风暴,到独立工作区域,到实施计划,到代理开发,到 t d d, 到代码审查,再到完成分支,每一步都是一个独立的 skill。 这就是 superpowers 最核心的地方,它把软件工程流程拆成了 ai 可以 执行的一组 skills。 我在 codex 里用下来,感觉它是比较无缝的,尤其是装成插件之后,它不像一个你每次都需要手动调用的命令集合, 更像是给 codex 加了一套开发习惯。比如需求不清楚的时候, codex 会先倾向进头脑风暴,先问问题,探讨边界,确认需求,而不是直接开始改代码。准备实现之前,它会更容易进 writing plans, 设计代码质量时,它会提醒 pdd review 和验证。这就是我觉得就 pos 很 有价值的地方,不是每次靠你提醒 cortex 守流程,而是让 cortex 默认更容易按照工程流程工作。这里也放一个 sdd 的 背景在里面, s d d, 也就是 spec driven development。 规范驱动开发,它的核心思想是不要一上来就写代码,而是先把要做什么说清楚,比如 open spec, 它更偏规范管理,它关注的是把需求变更约定整理成可维护的规范。 spec kit 更偏规范驱动开发流程,它通常会通过一组命令模板,引导 ai 从 需求深层规范计划任务再去实现。而 superpowers 更偏工程纪律和 skills 集合。所以我会这样理解, s d d 解决的是先要把做什么想清楚, superpowers 解决的是做的过程中怎么守流程。最后说一个大家可能关心的问题, token 消耗,而我自己用下来。 superpowers 在 cortex 里的题感是比较轻的,因为它不是每次 都把一大堆规范文档塞进上下文,而是通过一个个 skill 在 需要的时候触发对应流程。当然,它也会消耗 token 头脑风暴,它要讨论需求, writing plans 要写生成计划 review 要读取代码和分析问题, 都不是免费的,但它的消耗更像是按阶段按 skill 触发。而 openstack 和 stackkit 这类的 sdd 工具通常会生成更多的规范计划任务文档,好处呢是结构更完整,坏处是文档越多,后续带入上下文的 token 压力也可能更大。我 之前看到 speckey 的 社区里面有人反馈过类似的问题,有依据里估算,在 cloud code 里,一组 speckey 个 months 可能占用大约十八点六 k 的 tokens, 在 codex c i 的 上下文窗口里面大概占百分之七到百分之十。这个不是官方的 benchmark, 但它说明一件事,流程工具本身也有上下文成本。所以我的判断是, opens back backit 更适合强规范、强文档、强交付约束的任务。 superpowers 更适合日常 ai coding, 因为它更像一层工程流程约束 动成本更低,体感也更自然。所以这一期的结论是, superpowers 不是 给 ai 加超能力,而是给 ai 加工程纪律。它解决的不是 ai 不 会写代码,而是 ai 太容易跳过软件工程流程模型提供能力, superpowers 提供纪律。 下来几期我们会继续拆开看。为什么先要头脑风暴?为什么要写 plans? 为什么 ai 写代码需要 pdd? 以及为什么 ai 也需要 code review? 下一期我们继续。

codex 加飞书 c i 简直就是王炸组合,如果你的工作场景里面经常要用到飞书,那我真心建议你一定要把飞书接入 codex, 因为我自己本身就是在做自媒体和内容电商,所以我对竞品内容分析有非常大的需求, 但是市面上很多软件和系统都非常的难用,以及我在用 codex 之前,我自己也搭过一个,只不过是用扣子去搭的一个工作流, 非常的困难,拖拖拽拽搞了我非常久的时间,但这一次用 codex 加飞速 c l i 一个小时不到就帮我全部搞定了,给大家看一下,从提需求到他帮我规划只用了两分钟,然后到确定他帮我搭建这一个系统,只用了二十三分钟。 这个是我让 codex 直接用飞速 c l i 搭建好的一个表格,这个程序它是已经写好了,只要我复制小红书链接,它就可以自动帮我拆解标题,还有正文,还有 视频口播的这个脚本。我觉得视频口播的脚本是对我来说最重要的一个部分。 ok, 那 我们现在复制一个链接,让它试试跑着看, 它现在已经自动在跑了,然后已经在处理中,大家可以看一下。好,它不到两分钟就帮我已经拆解出来了, 对,我们来看一下啊,还是非常非常牛逼的。那其实在我搭建完这一个表格之后,它帮我拆解完视频口播脚本这一部分,其实我没有用到任何的 token, 只是一开始让 codex 帮我开发的时候需要消耗一定的 token, 等后面我再用这一套脚本去跑的时候,已经完全不需要任何的 token, 它花费的额度基本上为零。我在扣子上面搭建这样的一个工作流,还需要我付一定的额度。但其实 codex 已经在这一个文件里面写好了,这个脚本 我在跑的时候就完全不需要消耗额度。但是如果要让 ai 基于这一个口播脚本去分析改写的话,就需要接入一定的 token。 如果你感兴趣的话,我下期也会分享我是怎么用豆包或者是 deep sync 接入到这一个程序当中,让它帮我搭建后面的分析和改写。 所以说大家一定要去接触一下 codex 和飞书 c l i。 如果你也对 ai 加电商, ai 加业务落地感兴趣的话,后续呢,我也会持续更新我的一些实际案例,欢迎大家一起交流。

最近有个说法挺刺激, codex 更新之后,有些能力已经超过 cloud code 了。真的假的?我觉得这个问题不能直接回答, 因为你先得问清楚,你比的是谁更会写代码,还是谁更像一个工程团队的操作台。接下来几分钟,我们不站队,拆开看,看完你大概就知道为什么这次 codex 的 变化不只是模型变强了。 以前聊 ai 编程,很多人默认 cloud code 是 标杆。它在终端里很顺,能读代码库,能改文件、能跑测试,开发者的心智负担很小,你让它修一个 bug, 它真的像坐在你旁边的工程师。 但最近 cloud code 新后,社区里开始冒出另一种声音,怎么感觉 cloud code 某些地方更爽了?有人拿它和 cloud code 对 比,有人说自己被 cloud code 搞崩后换了工具。先别急着下结论。 这个争议真正有意思的地方,不是 cloud code 赢没赢,而是大家发现 ai 编程工具已经不是一个命令行聊天框了。 如果只拿一个 bug、 一个重构、一个 delete code 题去比,你很容易比错,因为那是在比底层模型的局部能力。这个当然重要,但它不是全部。 现在的 coding agent 更像一个小型工程流程,它要理解需求,要改代码,要跑命令,要看浏览器,要处理 pr, 还要知道什么时候该停下来让人确认。你看,问题一下就变了,不是谁补全的更准,而是谁能把一件工程任务从头推到尾。 这也是为什么很多人会觉得 codex 这次不一样,它不是只在代码框里变强,而是在代码框外面长出了手脚。 codex 最近最关键的变化是产品形态变大了, openai 官方把它讲成一个可以委派真实工作的 agent, 它不只是改文件,还强调多 agent 工作流,内置 worktree、 skills、 automations、 pr review、 多文件、多终端、远程 devbox, 内置浏览器,甚至电脑操作。 注意这些功能单看都不神奇,但放在一起,味道就变了。以前你让 ai 写代码,更像叫一个人坐到你的电脑前。 现在你可以把任务拆成几路,让不同 agent 同时跑,一个修 bug, 一个写测试,一个看前端页面,一个整理发布。说明,这就不是代码助手了,它更像一个工程指挥台。这个词有点大,但很贴切啊。克拉多瑞弱了吗?不是,克拉多瑞的基本盘还是很硬, 它的优势是终端原声跟开发者每天用的工具贴得很近。你在项目里打开它,它读代码,跑命令,用 git 接 m c p, 很多动作都在你熟悉的命令流里发生。它还有一个很重要的,气质,谨慎, 默认,会问你哪些命令能跑,哪些文件能改。这对真实项目很关键,尤其是老项目、大代码库、线上事故这种场景,你不一定想要一个到处乱点的全能 agent, 你想要的是一个懂代码、懂命令,还愿意听你刹车的人。 cloud 会有,在这块儿还是很舒服。 codex 更容易赢的地方是任务开始变宽的时候。 比如你不是只要修一个函数,而是要做一整个小功能,先看需求,再开分支,再改前端,再跑测试,再打开浏览器确认视觉,再写 p r 描述。这里 codex 的 优势就出来了,它可以把文件、终端、浏览器、工作区放在一个工作台里,还能让多个 agent 并行。更关键的是, 它不止服务程序员,文档、表格演示、自动化检查,这些原本不算写代码的东西,也能被放进同一个流程。说白了, codex 强的不是某一权特别重,而是它开始会组织一套组合权。 这是很多人突然觉得它反超的原因。但如果你的工作方式很终端很连续很工程师, cloud code 还是会让人上头。 你在一个复杂仓库里追依赖,看日制、改测试、处理 c i, 它的节奏很自然,它不像一个大平台,而像一个强力命令行同伴。还有一点容易被忽略, cloud code 的 简单反而是优势,入口少,心智清楚。很多时候,你不用管理一堆 agent, 也不用想工作台怎么摆, 你只要说帮我把这个问题修掉,它就顺着代码库往下钻。所以我不认为 codex 全面超过 cloud code。 更准确的说法是, codex 在 工程流程组织上开始领先,而 cloud code 在 终端深度开发上仍然很强。所以这次真正值得关注的不是 codex 有 没有把 cloud code 打趴下,这个说法太粗糙了。 真正的变化是, ai 编程工具正在换赛道,第一代比谁更会补代码,第二代比谁更懂代码酷。现在开始比谁能组织工作,谁能并行,谁能跨工具,谁能长期跑,谁能在关键时刻把权限交还给人。 以后程序员可能不只是写代码的人,而是调度一组 ai 工程师的人。听起来有点夸张,但说实话,这一天来的比我想象中快。

跑一整页 gpt 五点五加 codex 如何跑一整页?我这两天有一个感觉, ai 编程的下一步不是辅助编程,而是可托管的执行单元。 gpt 五点五真正的红利不是少写几行代码,而是把一个人能托管的工作块变大。有人给 gpt 五点五 codex 一 份新项目 prd 只说了一个 go, 他 就跑了几个小时,从 bill 到 visual review, 再继续补功能。 gpt 五点五的变化从更聪明改写成更能被托管。 g p t。 五点五不像以前的模型,需要你一步步指导,它更能理解你的意图后自己把活干完,包括构建、调试、跨文件修改。 g p t。 五点五在 codex 里强化了闭环自主性。 g p t。 五点五在 codex 里对高层次指令响应极强。 openai 的 norm brown 说自己明明是 manager, 但用了 g p t。 五点五以后,比过去任何时候都更像一个有效 i c。 他作为经理,却觉得自己在技术产出上达到了新高峰。 ai 编程这件事,好像开始从你在旁边指挥他写,变成你能不能把一块工作托管给他。这就不像传统意义上的在旁盯着一次次交互改的 ai 辅助编程了。代理式编程越来越关乎时间跨度,而不仅仅是单次智能。 当 codex 这种 agent 可以 连续跑几个小时,十几个小时,甚至官方展示到二十五小时以后,未来我们该怎么把它从辅助编程当成可托管执行单元来管理?这我觉得很重要。 这里面会有一种更大的变化,高级人类会越来越像经理加架构师加验收者的混合体。 大家应该有好奇怎么跑长任务,我时常的提示也喜欢让它跑得久一点,把时间跨度拉长的端到端的来验收。 许多人知道它能写代码,但不知道怎么让它把一个大任务跑完。早在 cloud code 泄露的时候,有人用 oh my codex 赶在天亮之前把它用 python 重构了一遍。据它所述,全程都是 codex 自主执行。 o max 系列还有 cloud code 属于是同一作者所做。 o m x 是 在给 codex 包一层长跑工作流和团队运行时,一句话丢给你的 ai 它自己装完。还有一个可能很多人听过的 superpowers, 它长跑不是靠模型硬扛,是靠方法论,把人类判断外质成流程。回到官方材料里,这件事其实更清楚。 open ai 今年二月发过一篇文章,叫 run long horizon tasks with codex, 里面有一个很夸张的实验, 他们给 codex 一个空 report, 一个任务,让他从零构建一个 design tool。 codex 用 gpt 五点三, codex 在 extra high reasoning 下连续跑了大概二十五个小时,大概十三米 tokens, 大 概三十 k 行代码。 这组数字很容易被拿来当标题党,二十五小时十三密 tokens 三十 k 行代码,一看就很爽。但我觉得这篇官方文章最重要的地方,反而不是这些数字。最重要的是, openai 把它为什么没跑丢 拆给你看了。它不是靠一句神奇 prompt, 它靠的是一套很土但是很工程化的东西。四个 markdown 文件,你得给它项目记忆, 你得给他计划,你得给他验收标准,你得让他在跑的过程中持续写状态,像是在给一个会干活但会忘事的人建工位、排日程,留工单做验收一位 gpt 五点二。早期实践者说 codex 诺任长跑会 do outcome, 需要 continuity guidance, 它的连续运行三小时且思路连贯的方法是下面这个提示词。另外我翻了一下 codex chain log, childgo 中出现 memory extensions、 window 等等相关变更。这些不是宣传剧,但它们说明底层工程也在补。状态恢复、审批上下文本事 越长跑越不像单纯模型,能力越像状态机。权限恢复和审计系统状态机有点不一样,它植入硬编码程序来支撑长跑,在一定时间还能清空上下文。这个值得聊,以后再论。 我看到 reddit 上有人问怎么让 codex autonomous 地跑几个小时,它的痛点很直白,它不想把 codex 当 chat assistant, 它想让它像 autonomous agent 一 样连续做 feature 或 refactor, 但现实是它坐一轮就停,等你继续说 continue。 还有人想让 codex cloud 并行处理四到五个任务,自己只 review code, 每个 runner 大 约每小时仍要人工 approval 一 轮,步骤有限,做完就 summary, 然后等确认 步骤塞多了又容易碰 context limit 或 compression。 cloud 有 时像黑盒任务卡住,但不知道为什么。 github issue 里也有类似的具体症状,用户想形成 continuous loop, 但 codex 每做一个小块就 report back 打断连续执行,最后用户只能 q 多条 continue。 跑 codex 的 关键矛盾不是模型能不能连续工作,而是人能不能在他连续工作的时候保留控制权、证据链和恢复能力。这就是为什么最近很多相关东西都在往智力层长。接着这里还有一些内容,你可以在原文这里阅读。 g p t 五点五是入口, codex 二十五小时是证据,但下一个问题不是它还能跑多久。下一个问题是,跑完以后你凭什么相信它? 如果没有状态机,长跑只是一次更贵的走神。如果没有证据链,睡醒验收就会变成开盲盒。如果没有熔断器,它可能会在错误方向上越跑越勤奋。 如果没有恢复包,你中途打断一次,下一轮就要重新考古好了。这里是 ai 进修生,持续分享前沿 ai 实践,如果不错,点个赞,关注一下,我们下期不见不散!

哈喽,大家好,我是南希,之前在快手做过策略运营一行代码都不懂的纯小白,我的视频都是从纯小白的视角来分享 webcoding 的。 我相信很多在做 webcoding 的 朋友们,尤其是不懂代码的纯小白们,在刚开始做项目的时候,都会经历一个非常困扰的阶段, 就是一个 bug 改了好多遍,总是改不掉,分明 ai 每次都说它已经找到问题根源了,但可能修复一个新的 bug, 就 会导致这个 bug 又神奇出现了。我在刚开始做 web coding 的 时候会经常遇到这个问题,于是我给他起了一个名字叫做薛定鳌的 bug。 那 么对于不懂代码的蠢小白来说,到底应该怎么避免这个问题? 最近我发现了一个非常好用的插件,就是 codex 里的 superpowers。 其实 superpowers 最早是在 github 上的一个开源项目,它的核心就是让你的想法按照先想清楚到写计划,然后分批执行, 再测试验证,最后复盘交付的这样的方式来落地的。更直白一点说,其实你相当于产品老板或者是最终拍板的人。 codex 呢,相当于是写代码的 ai 工程师。 superpowers 呢,它更像是监督 codex 按照专业的开发流程干活的技术负责人的规则包。 而使删代码出现的原因其实是在没有规则没有约束的前提下, codex 一 上来就乱写乱改乱补代码,而 superpowers 正好解决了这个问题。接下来我就跟大家具体说下 superpowers 里面几个比较好用的指令。 第一个就是 brainstorming, 这个指令核心让你先盘清楚需求,它会先帮你拆用户是谁, mvp 做什么,不做什么,页面有哪些,验收的标准是什么。这一层拆解清楚了才能进行后面的动作。 第二个, writing plans, 这个指令是把大任务拆成小任务。对小白最重要的是你能知道今天到底在做哪部,而不是看到了一堆代码,也不知道对还是错。 第三个, systematic debugging, 我 很喜欢这个,因为很多时候一报错,我们就会跟 ai 说,你把问题定位一下,并且改一下, 然后可能 codex 就 开始乱猜乱改了。这个指令会要求它先复现问题,找到根源给最小的修复方案,而不是上来乱改。第四个, requesting code review。 这个很适合不懂代码的小白,你未必看得懂代码的实现细节, 但你可以让他帮你检查有没有重复的代码,有没有明显的风险,有没有为了跑通而应凑逻辑。第五个, verification before completion。 这个是防止假完成的, 不要只听 ai 说已经完成了,而是让他实际验证能不能启动,能不能构建核心的功能,能不能跑,有没有明显的回归问题。 所以,如果你想要避免自己的项目出现十三代码,可以把 superpowers 这个插件用起来,它可以很大程度上避免代码写得太急,改得太乱,项目没有计划,没有测试,没有 review, 导致最后整个项目失控。好啦,今天的内容就到这里啦,如果你觉得内容还不错的话,记得点上关注收藏赞!下一期我们来说一说 web coding 过程中怎么利用 github 来做项目管理。

大家好,上期视频我简单介绍了一个用 codex 开发的 btc 均值回归策略,评论区有网友和大佬提了一些问题,所以今天我用 codex 做了一次复盘和二次审查。先回答一个大家比较关心的问题。我这边使用的是 gpt 五点 five, 高推理强度, 并且会让多个 agent 分 工协助。审查时我先参考了一些比较权威的量化资料和代码审查思路,然后让 codex 结合这些标准,对策略代码回测逻辑和模拟盘执行逻辑重新检查了一遍。 今天主要修的是模拟盘执行层。第一个问题是 ter mat, 我 一开始以为 ter mat 是 live 运行后才暴露出来的新情况,重新审查历史回测代码后发现回测里本身就有 ter mat 机制,一米最多持仓六十根 k 线, 五米最多持仓十二根 k 线,如果期间没有触发止盈或止损,就按最后一根 k 线的收盘价出场。第二个问题是止盈止损的执行方式。策略在开仓时就会固定止盈止损点位,相当于在本地账本里放了一组虚拟 bracket o 的。 后续每次扫描 balance 十盘 k 线, 只要 high 或 low 触达止盈止损就按对应的虚拟挂单价格结算。第三个问题是多周期仓位隔离。之前一米和五米策略都在同一个脚本里运行,本地可以区分不同 sleeve。 但以后如果接真实交易所,同一个 symbol, 同一个方向的仓位可能会在交易所里合并。 今天我把脚本拆成了一米和五米两个独立入口,后面可以分别接不同账户或者不同交易所。这次主要修了这些内容,一、开仓时记录 virtual t p price 和 virtual l price。 二、 t p s l 处驾驶记录 trigger virtual order。 三、 ta mod 沿用回测逻辑,一米是六十根,五米是十二根。四、默认改成本地账本模拟,不再默认使用 balance testnet。 五、 新增一米和五米两个独立运行脚本。六、健康监控和 trading view 导出,支持读取拆分后的账本。七、 如果以后启用 testnet, 必须确认订单真正 field 后才写入本地状态。目前这个策略还在模拟盘验证阶段。 今天这次调整主要是为了让模拟盘执行逻辑和历史回测逻辑保持一致,让后续一百比样本更干净。 leave 执行和回测是否一致也非常关键。


codex 是 openai 推出的 ai 编程伙伴,可以帮助我们开发功能、修复 bug、 重构代码、做代码审核等。 openai 官方也提到, codex 可以 处理从功能开发到代码 review, 发布相关的工程任务。 但对孩子说,我们不用一上来就讲那么复杂,我们可以把它想象成一个把想法变成作品的 ai 助手。比如说我想做一个数学错题的讲解器,我不会直接说 帮我写代码,这样太空了,我会说,请帮我做一个适合三年级小学生使用的数学错题讲解网页功能包括,学生可以输入一道数学错题 e i 页面,提示学生先分析题目条件, 在引导学生写出题解之后,再举一反三。应用风格要可爱清楚,适合孩子,这就叫任务拆解。这我也给大家进行干货总结。给 codex 写提示词有一个万能的公式,角色加目标加用户,加功能,加风格加输出形 式。比如说角色是,你是一个 ai 编程助手,目标是帮我做一个教学错题分布讲解, 生成类似体,风格是卡通,也要简洁,适合孩子。初初就是做成网页。在 ai 时代,孩子真正要学的不是复制答案,而是把自己的想法讲清楚,因为你讲的越清楚, ai 做出来的作品就越接近你想要的样子。

hello, 大家好啊,欢迎来到 codex 新手入门指南,我是吉克莫导师。近期 codex 备受瞩目,相关的安装教程也层出不穷。为了帮助大家快速入门,本期视频将避开晦涩的专业术语,用最通俗易懂的语言为你梳理从零到一的完整上手流程。 首先明确一点, codex 的 定位并非聊天机器人,而是深度集成在你项目环境中的 ai 编程助手。它拥有读取代码、修改文件及执行终端命令的能力。但在开始之前,学会如何正确引导和控制它是上手的第一步。 在 codex 里,输入其实分两种,普通 prompt 是 下达做什么的任务,而斜杠指令则是定义怎么做的规则。 这里有三条铁律必须记住,第一,指令务必放在开头。第二,记不住指令时,直接输入斜杠就能呼出菜单。第三,千万别把 cloud code 的 习惯带过来。 codex 的 核心是 agents 点 md, 而不是 cloud 点 md。 掌握了基本规则,我们就可以开始探索 codex 的 强大功能了。别担心,你只需要记住下面这几个最常用的指令,就能轻松上手。 第一步,用 init 来出售化你的项目,它会生成一个 agent 点 md 文件,就像给 codex 一 份项目说明书。之后呢,你可以随时用 status 查看它的状态,确认它用的是哪个模型,权限有多大。 说到模型, model 指令可以让你灵活切换,简单的任务用快模型,复杂的难题就交给强模型,既高效又经济。为了安全起见,新手朋友可以用 permissions 先把权限设置得保守一些,比如只读模式,等熟悉了再给他更多自主权。 遇到复杂的重构任务时,可以先用 plan 让他制定一个详细的计划,确认没问题了再让他执行。如果想让他专注于某个文件,用 mention 指令就能精准定位,避免他在整个项目里大海捞针。 当 codex 完成代码修改后,别忘了用 def 来检查一下它到底改了哪些地方,最后再搭配 review 进行一次代码审查。这套组合操作能帮你把好代码质量的最后一道关。掌握了核心指令,还有两个最容易混淆的概念需要厘清, side 和 fork。 side 就 像一个临时的侧边对话窗口,当你有个小问题需要快速确认,但又不想打断当前主线的思路时,就可以用它在小窗口里问完。得到答案后,你就能立刻回到主线任务,它不会影响你的核心上下文, 而 fork 则是真正开启一个新分支,就像 git branch 一 样,当你想尝试不同的解决方案或者探索一个可能失败的方向时,就可以用它。它会完整复制当前的对话状态,让你能保留多条探索路线,随时可以切换回来。了 解了核心指令,我们来梳理一下第一次使用 codex 的 推荐流程。这套流程能帮你建立安全高效的工作习惯。 首先,进入项目目录后执行 innit 指令,这会生成 a g e n, t s 点 m d 文件,相当于给 codex 一 份项目说明书,让它快速了解你的项目结构、技术栈和常用命令。接着使用 status 确认当前状态,检查模型和权限设置是否符合预期,做到心中有数。 然后让 codex 开始阅读和分析你的项目。在这一步,切记不要让他直接修改代码,先让他理解上下文。比如你可以问他分析这个项目的结构。当遇到大型任务时,务必先使用 plan 指令, 让 codex 输出详细的执行计划,包括步骤,拆解和风险点。你确认方案无误后,再让它开始执行。最后,在 codex 完成修改后,先用 diff 查看所有真实的代码改动。确认无误后,再使用 review 进行一次提交前的代码审查,确保代码质量和安全性。 以上就是 codex 新手入门的全部内容,从出场到核心指令,再到推荐流程,掌握了这些,你已经具备了独立使用 codex 的 能力。多动手实践,遇到问题多看 diff 和 review。 我是 即刻模导师,下条视频代码见,拜拜!


用 codex 干了三个月,踩了不少坑,今天把沉淀下来的八条铁律一次讲清楚,每一条都是真金白银换来的,新手照着做,至少省半年时间。 第一条,永远先 plan, 再 execute, 需求一上来就让他干活,跑偏概率超过一半,先让他输出方案,方案对了再执行,省下的时间是几倍的。这一条就指你看完整条视频。第二条, agents 打 md 是 项目的灵魂, 没写这个文件的项目,等于让新员工每天重新自我介绍,把项目结构、技术栈、命名、规范禁区都写进去, codex 的 产出质量立刻上一个台阶,这是投入产出比最高的一次性动作。第三条,用优乐模式,必须在 word tree 或容器里,直接在主分支放飞自我,迟早出大事。隔离环境是底线,这一条比任何技巧都重要,宁可慢一点,也不能跳过。 第四条,地府永远要看在自动的流程合并前,那一眼必须是人看的。这不是不信任 codex, 这是基本的工程纪律,别因为用了 ai 就 丢掉这个习惯。第五条,长任务主动调用 compact, 上下文超过六十 k 之后回答质量直线下降。学会在合适的时机压缩历史,是保持智商的关键操作,不要等到他开始胡说八道才反应过来。第六条,把 codex 当初级同事,不是当工具,工具不会失误,但同事会 你要做 code review, 要给反馈,要教他项目规矩,关系建立起来,产出就稳了。第七条,拿不准就开新绘画,死磕一个跑偏的绘画,越改越乱,越乱越改,恶性循环,果断撒神 new, 从头清晰说一遍,比硬 new 快 十倍。 第八条,学会让他停下来,遇到边界拿不准的地方,主动让他先问你,不要让他自己拍板做决定。这一条让我反功率直接降了一半,是性价比最高的习惯。八条铁律全在这,每一条都是用返工时间换来的,建议直接收藏。

大家好,今天我们来讲一下 codex c l i 里面一个新的功能, go 目标,它是你可以理解为给 codex 设置一个长期任务目标,然后让它围绕这个目标持续工作。 它有一点像之前 cloud code 里面的那个 rough loop 这么一个概念,它在你给定的目标情况下,它会去自己计划,然后编码,然后测试评估,直到完成你的目标,或者是它的 api token 耗尽。 需要怎么样起用它?有一个有,有两个条件,第一个就是你需要升级你的 codex 的 c l i 的 版本,要到 v 一 幺二八之后的一个版本。第二个,因为它目前还是个实验性的功能,所以需要你手动去激活这个功能。你可以选择直接在 codex 里面告诉它,就啊 enable ghost, 或者你自己去手动配置一下你的配置文件。在那个 codex 的 config 里面, 我们可以简单看一下,在这个里面是有,你可以直接在这儿加这么一行,在 features 下面加个 ghost 等于 true, 当然你不要,你可能需要重启一下它才能会真正的生效。它支持哪些功能呢?譬如说我们 go, 它会直接 go 告诉你当前的一个状态, 比如说我说重构当前代码,确保测试所有通过,然后它会有一个显示当前时间,用了多长时间以及 token 使用量。同时你也可以 pause, 你 可以 resume, 让它继续做,就又重新变成激活的状态了。 对,同样你也可以直接地把它清除掉,对,它就会变成 clear 的, 相当于它有这么一些命令的选择。对 go 它最佳使用的一些实践,我觉得也可以简单地讲一下,因为在我们之前的 ai 编程当中,经常会说,你帮我改一下某函数, ai 改完之后,你会说继续,然后它又再继续,最后你说跑测试,它才会。跑测试相当于 啊,一步一步,需要你的一个指导才能去做这个工作。但 go 的 思路不太一样,它不是告诉你下一步做什么,而是告诉它最终要达成什么。 譬如说刚才我们提到的重新写所有的测试,确保向后兼容。这样子说,你说整个把认证系统从 j w t 迁移到 off, 这也是一个比较大的工程,它要对上下位有很好的理解,那它可以进行,会需要运行时间比较长一点点。 那和普通的 prompt 最大的区别是什么?普通 prompt 像是一般都是一次性的输入,而 go 是 一个持久化的目标状态。 比如说,如果你只是在 prompt 里面输入帮我重构认证模块,那 codex 会在当前这一轮里面尽量去完成任任务,但是这一轮结束之后,这个任务就不一定还会作为持续目标被系统记住。但是如果你输入 go snapgo 重重构认证模块,保证保持现有 a p i 兼容并补齐测试,那么这个目标就会变成当前现成的一个状态。系统会知道现在有一个激活的一个一激活的目标, 然后它会记录这个目标是什么,以及是否是它的状态,是否完成,以及是否有预算的限制,消耗了多少资源等等。 它有一个状态的一个持续化的一个东西,所以它就不只是当前这一轮对话,而是有一个长期的目标持续行动。 对,怎么它是为什么能够实现这种感觉?它的背后的原理就是它会把系统,会把当前的目标绑定到当前的县城上,就这样就能够记录的目标内容状态是否完成。没有这一层的,那那么它就是一个普通命令。对, 另外一点需要说明的就是在使用的时候应该注意点什么。第一个就是目标要写得具体一点,不要只写优化项目,这个太宽放,更好的写法可能就是优化某某模块的什么测测试覆盖率啊,覆盖关键的一个路径,确保所有错误都通过, 就相当于这是比较具体。第二个要点就是要写清楚成功的标准。譬如说你要举个例子说,确保所有单元测试都通过,确保不改变现有的 a p i, 确保向后兼容,确保新增的测试覆盖核心场景。 所以 codex 就是 它的 codex 这个 go 的 这个更新,它就是让你从原先的你问一句,他答一句的这种编程助手,变成一个围绕一个目标持续工作的自我编程代理,所以它就有一个状态可以持续的循环, 所以还是挺不错的一个功能。现在在 twitter 或者是在海外的开发工程师当中,这个已经引起了很大的一个关注,有人甚至让它编程了五十多个小时一个功能,所以说。

今天教大家用手机控制电脑上的 codex, 这个功能很好理解,电脑继续负责跑项目,手机让你随时看到进度,也能在关键时候做决定。在 mac 上打开 codex, 登录账号,选中你正在做的项目, 直接交代任务,比如修复一个问题,调整一个页面,或者让它帮你运行测试。离开电脑之后,打开手机上的嵌 gpt, 进入 codex, 你会看到正在运行的设备,比如 macbook 或者 mac mini。 点进去手机就能看到 codex 在 电脑上的工作状态,它现在处理到哪一步,改了哪些文件, 测试有没有通过,电脑画面里发生了什么,都会同步到手机上。 codex 需要你确认的时候, 会把请求发到手机上,你可以批准,也可以拒绝,还可以直接告诉他换个方向继续处理。代码、文件权限和本地环境都还留在电脑里,手机只负责查看进度,发指令, 做审批,这就很适合那些需要等一段时间的开发任务,你可以在路上看一眼修改结果,排队时批准测试。回到电脑前, codex 已经把进度整理好了, codex 手机版的价值就在这里,电脑继续工作,你随时接收。

哈喽,大家好,这是我自己在 codex 里面做出来的一个宠物服装网站,从市场的调研、产品定位、产品图到最后完整的 html 网页,整个过程中我没有手动写代码,也没有来回切换工具,都在 codex 里面完成。 那今天我就用这个真实的案例,想明白普通人到底怎么把 codex 用到自己的创意想法落地当中。一开始我只是给了 codex 一个很粗的需求,我想做一款面向稀泥市场的宠物服装。 他没有直接开始瞎做图,而是先帮我做了非常清晰的执行规划,包括先找到市场依据,定产品的方向,再设计系列以及生成产品图。 这里就涉及 codex 第一个很关键的能力, plan mode, 也叫规划模式,如果要生成同款的计划,你就要把这个规划模式打开。这个模式很适合新手,因为你不是一上来就让 ai 去乱做,而是先让它把任务拆开,告诉你每一步要做什么,为什么这样做,以及最后会交付什么, 你确认方向没有问题之后,再让它开始执行。第二个能力是它可以在项目过程中持续地帮你检查问题,也就是要开启 auto review。 比如网页做完之后,他会检查图片有没有加载成功,按钮有没有溢出,表单字段有没有写进去。那遇到权限和需要选择的操作,比如三种执行方案中,你想选择哪一种,以及需要启动的本地服务访问某些文件之类的风险性操作,他都会弹出弹窗确认。 接下来就开始自动批量生产产品视觉了,通过调用 gpt 的 image 去生产产品图,并存储在本地的文件夹里面,方便我们去找原始的素材。 但是这里我也想说一句实话, ai 第一次做出来不一定完全对,比如他最开始给我的风格就比较普通,我觉得不适合当地市场的审美。 这个时候就用到了 codex 里面很重要的一个能力, steer 也叫做中途接管,可以在对话框中输入你不满意的理由,告诉他这个方向是不对的。比如我要更鲜艳的花朵,更适合女生,更有悉尼精品宠物品牌的感觉。然后点击 steer 去接管方向盘, 他按照我新的反馈去重新调研,重新调整产品系列,重新生成图片。这个过程就好像是你在和一个设计助理协助他负责执行,但是方向盘一直在你的手里。最后,我让柯黛斯给这个宠物服装的项目呢,做出了六个设计系列,每个系列三张图,佩戴的生活方式图, 一张产品的细节,一套平铺图。也就是说,不同于 j b t image 的 单张出图功能,它一次帮我规划并生成了十八张用于落地页的产品测试概念图。 那对于普通人来说呢,这一步就非常省时间了。图片定下来之后, codex 就 把所有的内容整合成了一个静态的落地页, 这个页面里面有品牌管理、产品系列卖点说明、尺寸指南。如果我觉得某个地方不顺眼,也不用自己去改代码,可以直接在预览页面里面指出问题,点击驱动批注,英文是 annotation。 比如标题太大,图片间距不对,或者是按钮的颜色不够明显, 那 codex 会定位到对应的代码并进行修改。这对零基础的人很关键,因为你不需要懂 html, javascript 也能把一个网页打磨到可以测试市场的程度。完成好之后就是这样一个页面了, 最后所有的东西都会留在本地项目的文件夹里,图片、网页、代码、素材文件都在里面,你可以直接在本地打开,也可以部署测试,用来收集用户的邮箱和偏好反馈。所以,如果你想测试一个产品的想法, 一个小众的品牌,一个服务的页面,一个预售的活动。以前你可能要找设计,找前端,找运营,找人写文案, 那现在呢?你可以用 codex 做出一个最小的可行版本,拿去测试真实的用户反应。如果你是 gpt 的 plus pro 或者是 business 的 团队账号,通常会有更完整的 codex 的 使用权限。 所以,如果你已经是 gpt 的 plus 会员,这个功能对于你来说是完全可以去免费尝试的。对普通人来说,它最有价值的地方是, 你不需要在一开始就花钱去找团队,也不需要把想法都停留在脑子里。你可以先用 codex 做出一个真实的页面,跑一轮反馈,再决定这个项目是否值得继续投入。谢谢大家。

codex 好 不好用,很大程度上取决于你怎么给他任务。把几个小动作养成习惯,结果会稳定很多。下面这些技巧不复杂,但能明显减少来回改稿和改代码。每次提需求先写这轮做完要达到什么状态? 比如页面能提交测试通过报错消失文档能照着跑完成。标准写在最前面, codex 才知道要对齐哪里。如果只写一堆想法,他可能会把重点放错。标准越能验证,返工越少。 项目里的 ai 规则文件不要写完就放着。当你发现 codex 总是改错目录、漏跑命令、乱改风格,就把规则补进去。比如常用命令禁止改动范围、组建写法、提交格式和测试要求。这相当于给每次绘画加一份固定上下文, 长期用下来,它比临时提醒更省心。遇到多文件、多步骤、多模块的任务,先让 codex 出计划。计划不用很长,但要说清步骤、文件、风险和验证方式。你看完计划后再让它动手。 如果计划里出现无关重构,就在开工前删掉。先看路线,比事后修偏差更轻松。涉及核心逻辑权限、数据处理和复杂状态时,可以让 bug 回归风险、边界条件和测试遗漏来找问题。 这一步不要让他只总结优点,要明确要求。找风险自查,不能替代人工 review, 但能先筛掉一批明显问题。 你在看代码时,重点会更集中。有些任务光读代码还不够,还需要官方文档接口说明或产品资料。 这时可以用浏览器 m c p 文档链接或复制材料把外部信息接进来,要求 codex 区分,以确认资料和自己的预测。遇到版本、价格接口参数这类会变化的信息,最好让他先查最新来源, 资料边界清楚输出才不容易编。 codex 能执行命令不代表每次都要给最大权限。本地任务先让他读文件改小范围跑安全命令 删除覆盖批量移动数据库变更和生产配置修改都要先停下来确认。如果他要做高风险操作,让他受命。原因影响面和回滚方式,权限收紧一点,能避免很多不必要的事故。