当 agent 能瞬间写出大量代码,随之而来的是逐渐难以察觉却不断累积的代码商增,以及随之膨胀的技术债。本期我们继续精读 open ai 工程薄课 harness engineering 的 最终章, 看看 open ai 在 处理商增和技术债上的经验。哪怕你投入了再多精力去设计架构护栏, agent 的 本能依然是复制,它会模仿仓库中已有代码的模式。 一旦某个角落出现了细微的技术债,这种便宜的妥协就可能被 agent 快 速复制放大,最终导致系统结构逐渐失去连贯性。在早期实践中, openai 团队曾尝试过一个办法, 每周抽出大约百分之二十的时间由工程师专门做代码清理。听起来合理,但很快他们发现这种方式不可扩展。 在一个高度自动化、吞吐量极高的环境中,代码生成的速度远远超过人类清理的速度。人工清理永远追不上自动生产。问题在于规模已经失衡。 于是他们从改变机制入手,首先把工程师对代码的品味编码成一组明确的黄金原则,也就是可以被机器检查和强制执行的规则。例如优先使用共享的工具库, 而不是在不同模块里各自手写小工具函数。这样做并不是简单地禁止造轮子,而是把关键逻辑集中管理,避免多个版本的实现被 agent 反复复制,逐渐分叉。 又比如,在处理外部数据时,禁止那种 load 式的随意探测,也就是在未验证结构的情况下,直接假设字段一定存在。举个实际的例子, word 写法是拿到一段外部 j 散数据,直接通过 id 字段读取,用户 id 完全默认这个字段一定在里面,一旦对方传来的数据里缺少这个字段,程序就会直接崩掉。系统要求要么先做显示的结构验证,比如先判断字段是否存在,要么通过内部封装好的强类型 s、 d、 k 接口来统一获取数据。 通俗地说,也就是在代码里拿到一段外部数据后,不能直接去掉字段写逻辑,必须先写一段专门的代码来验证数据格式,或者全部由官方写好的数据接口层统一接管。 但只设立黄金规则还不够。接下来,他们建立了一套持续运行的清理机制,后台会定期运行专门的 agent 任务,扫描代码库中是否出现偏离这些黄金原则的模式, 一旦发现问题,就自动生成针对性的重构 pr。 这些 pr 往往力度很小,可以快速 review, 甚至自动合并。这种机制的运作方式更像是系统底层的垃圾回收,不是等系统失控再进行一次痛苦的大规模重构,而是持续小步自动地清理结构偏移。 在 a 政时代,技术债更像是高利贷,如果放任它,累积增长速度会超过你的偿还能力。唯一可持续的方式是建立一个持续小额自动偿还的机制。最后,这种高度自制的系统依然存在很多未知。目前还不清楚在一个主要由 a 政生成代码的系统里, 架构的连贯性在未来几年会如何演化。他们也仍在探索人类的工程判断究竟在哪一步能发挥最大的杠杆作用,以及如何把这种判断编码进系统,让它产生持续的复利。同时,随着基础模型不断进化,这套复杂的控制系统未来是否会变得更简洁也仍是一个开放问题。 但在这些未知之中,有一件事他们给出了非常明确的判断,纪律正在从代码本身转移到工程的支架上,代码本身将不再是纪律的主要主体。这里的支架指的是工具、执 行环境系统、抽象反馈回路以及整个底层的控制系统。这也指向了一个最后的核心结论,现在最困难的挑战 集中在设计环境、反馈回路和控制系统上。在新时代,软件工程的难点已经不在于如何榨取模型生成代码的能力极限, 而在于你能否构建出一个足够稳健的控制架构。好了,本期内容就到这里。至此, open ai 这篇技术博课 harness engineering 精读系列完结,下期再见。
粉丝4.7万获赞14.2万

今天这期视频我们只讲一件事,就是普通人怎么用 codex 开发一个小项目,并且部署上线。很多人可能一听到 code 代码就会产生畏难情绪,但你肯定听说过之前的 open cloud, 很 简单,在手机上给他发个信息,他全自动的就给你干完了,但是他贵啊,帮你发一个小红书就可能花你几块钱, 更别说开发一个工具了。但是 codex 作为 ai, 一个 open ai 的 出品,不但可以像 open cloud 一 样帮你完成几乎任何事情, 而且赠送的免费额度就能满足日常所需,如果你是会员,那更是用不完了。更重要的是,学会这种最顶级的 ai 工具,你就具备了做任何产品的能力。这期视频是 codex 的 入门视频, 我会带你从零上手,从怎么安装 codex, 怎么启动 codex, 如何与 codex 对 话,然后我会带着大家从零开始构建一个电影评分网站,并且部署上线。注意啊,就算你完全不懂开发也没关系,这期视频就是为你准备的。 我们开始首先在开始菜单中搜索 cmd, 打开命令行,这是我们与电脑和 codex 沟通的窗口,我们所有的对话都会在这里完成。与此同时呢,我们需要打开一个 check gpt 的 窗口,因为我们都是新手嘛,怎么用这个命令行都需要让 gpt 来告诉我们。 第一个问题,如何在命令行中安装 codex。 他 告诉我,首先确保安装了 node 点 gs, 我 这里已经安装了,如果没有,你可以让他告诉你怎么去安装,这里就略过了。第二步,复制他给我的安装命令,然后 ctrl 加 v 复制到命令行中, 命令行没有报错就说明安装完成了。在命令行中输入 codex, 如果能打开这个界面,就说明我们成功启动了 codex。 第一步,登录 codex 通常都会选择第一个,通过网页端完成登录,登录后回到命令行页面, 点击回车。继续我给大家讲一下最基础的配置。首先点击键盘上的这个斜杠,你可以看到 codex 的 一些基础配置项就出来了,比较重要的是模型选择和权限设置,模型我一般都会选择最新的思考时长,选择 extra high, 这样生成的质量最高。 第二个 permission, 我 选的是 full access, 所有的权限都交给 codex, 不 然它在执行任务中会一直让你去授权,很麻烦。当然这样也是有风险的,有比较小的概率它会删除你的文件,网上就有人遇到过,但是我目前还没有啊。 接下来我们就正式的来做这个电影评分网站,真的超级简单。首先我们创建一个文件夹,作为整个项目的根目录,然后我们要让 codex 进入我们这个项目,怎么操作呢?回到命令行,连续按两下 ctrl 加 c, 退出 codex, 然后复制我们这个项目的地址,打开 gpt, 问他如何让命令行进入这个地址,按照 gpt 的 指示进入后呢? 输入 codex, 这样就在电影打分的这个项目中打开 codex 了。每次重启 codex 后啊,都需要重新设置一下权限,改成 full access。 接着很关键的一步,执行一次启动命令斜杠 i n i t。 执行完毕后,它会在项目下生成一个 agent 点 m d 的 文件,这是 codex 的 一套默认行为规范手册,它会根据文件中的行为规范来完成你的具体任务。 后续你玩熟了,就可以按照自己的要求来修改这个文件了。现在呢,咱们暂时不管它,然后我们就可以来描述具体的需求了。我是这样写的, 由于豆瓣网站的电影评分已经严重失真,我打算做一个新的电影评分网站,基本实现电影的评分和评论功能。你需要完成整个项目的完整开发,并且部署上线。 你需要自动抓取豆瓣上正在上映的电影自动更新。这是一个完整的项目,你负责完整流程,最终交付给我。部署后的网址,你可以利用相关的部署 skill 来帮助你完成。如果没有这些 skill, 你 可以自己去网上搜下载下来用回车发送。 你看,他已经开始自己执行了。突然我想起来忘了跟他说一句话,按一下键盘左上角的暂停键,然后我跟他说,在交付前用肉眼检查一下,没有问题再交付给我, 这样他就会自己用浏览器打开看一下,确保没什么问题。接着他执行了大概二十分钟,最终你看他给我交付了上线的地址,后面简要说了一下他具体交付的内容,我们立刻把这个网址打开,看看效果咋样。 嗯,整体感觉还行,春节档的这几部电影也都在,不过很多图片没有加载出来,界面呢,也不怎么好看。这就是后续你需要不断地跟 codax 沟通来优化迭代的了,包括你后续想用自己的域名,也可以通过跟 codax 沟通来帮你实现。 好了,这期 codex 小 白教学就到这里了,其实还有很多使用的细节技巧,我没有涉及到,你都可以直接通过 codex 或者和 gpt 聊天快速掌握,赶快用起来吧!我是阿猪,关注我,让我们一起在 ai 潮头冲浪!

就在今天凌晨, oppo i 刚刚发布了 gpt 五点四,本来是准备入睡的,那我养的小龙虾给我推了一条更新消息,于是乎直接把睡衣换了,直接开干。那今天的话,花几分钟时间讲清楚它到底升级了什么,再附带一个编程实测。 好,下面我们看一下它的五大核心升级。第一个是上下文窗口,由原来的五百 k 变成了 em, 这一个的话对于你去做一些 长任务,复杂任务有很大的帮助。那第二个的话就是操作电脑的能力也增强了,那这个的话桌面端的 q d agent 也会有很大的帮助。第三个的话,就在恰点 g p 它这个聊天应用中原来的思考过程嘛,就它的 sync 你 是不能去中途去修改的,现在你可以随时打断 补充需求,调整方向。第四点的话,它是有一个更高的托管效率以及更快的响应,响应这块的话我刚刚用 q d x 去实测了,确实是有提升。 那第五个的话,就是它把 codex 的 能力直接合并到了这个 gpt 五点四这个模型里面,什么意思呢?意味着后续是没有 gpt 五点四 codex 的, 直接是 gpt 五点四一个模型就搞定了, 不要像原来那样搞得比较乱。而且现在它新增了一个 fast 的 mini, 我 刚也试了,这个 mini 让你的整个编码速度提升的特别快, 但是你的消耗也是成两倍的一个增长。下面我们来看一下它整体的一个跑分情况,跟几家模型对比来看的话,提升不是特别明显,但是也有一些排到了第一。那跑分的话,其实我们就稍微去看一下就行了,因为 你真实的,不管你在编程实战还是他接触到 a 技能里面,还是在看实际中的表现嘛,对不对?我们直接到编程实战环节,还是同样的 prom 哈,如果熟悉我的老粉都知道这两个项目,在这一次不管是国内的顶尖模型还是国外的顶尖模型,我们都拿这两个项目去做测试同样的 prom。 然后这一个项目是稍微比较复杂的,国内的模型的话它没有做到一次性去把整个任务完成,那国外的模型的话, cloud off 四点六以及 g p 五点三, codex 它做到了,但是 jimmy 三点一 pro 它没有做到,第二个它会稍微比较简单一点。好,我们来开始实测,这次我用的是 codex 这个 app 上去做实测啊,提示词也是跟之前测试是一样的, 并且我们开启了这个 fast 模式,也就说它的整个速度是比较快。对于这个比较复杂的项目啊,就是我们把这个图片 a 帧的项目加上一个认证体系,从另外的项目里面迁移过来,并且做了一个落地页,也是之前那几期视频有测过的。我们来看一下它一个完成结果, 总共是做了三十二个文件的一个修改代码,行数是三千多行,从这个也能看出来,整个任务其实是比较复杂的,他的上下文都快跑满了。我们来看第二个项目,就是给这个 skills agent 是 一个终端 ui 嘛,给他加一个呃,外部 ui 也是一个考验他权重的能力,这个的话他改了十八个文件,大概是两千多行代码, 下面我们来看评分结果,我们来看第一个项目是跨项目迁移认证体系,也就是说给这个图片 a 镜头加一些功能嘛,从另外一个项目里面迁移过来,整体的评分标准是来自于两个,第一个是我人工去看它整个功能的完整程度,第二个是我们把它四个项目所做的代码 用顶尖模型去互相 review, 最终得出来一个评分。那整体看的话,这一次 g p t 五点四,它在这个项目上它的表现是比 oppo 四点六要好的,但是在 g p t 五点三 q max 的 时候的话,它是没有 oppo 四点六好的。 ok, 那 接下来三点一 pro 的 话,它是最差的。 好,我们来看第二个项目的一个评分,就是给这个 skills agent 加上一个终端 ui, 考验它权重的能力,那这块的评分的话,其实它给的有点保守了,为什么呢?因为 给我的一个体感哈,就是它这块的一个 ui 比上一次还要好,但是因为它这块没有去体现 ui 嘛,所以说它的评分的话稍微有点落后,但体感的话是更快, ui 更好了,那代码质量的话, a l u 之后的话是没有这个好的好。我们回过头来进行一个总结,我觉得这次最大的亮点哈,就是第一个, 这个上下文窗口变长了。第二个就是他这个快速模式非常非常有用,如果经常用 codex 的 朋友的话,就应该知道他之前是特别慢嘛,那你用这个 fast 这一个命令之后哈, 他的速度确实比之前快了,但是你的消耗也更快了,那这样子就会对 codex 的 会有更大的冲击,因为之前我几期视频就说过, codex 的 不再成为我单独的一个 coding 的 选择,现在就是我在 codex, 然后 codex 的 互相来回去切换,甚至有时候我还会用那个 open code 再加上欧曼 open code 结合起来去做扣顶开发。好,这就是本期视频的全部内容了,如果你觉得视频做的不错,可以给我一箭三连,大家拜拜。拜拜。

哎呀,我真的服了,这个我跟靠了,我真的服了,你看,别看他刚更新了二零二六点三点七,好像是最新版本的,但是,但是什么呢?我要说但是,但是,你看今天一晚上这个 gpt 五点四,他一直都是四零幺四零幺四零幺,那我该怎么办呢?我只能看大佬们的在这边的 评论,你看他们有说有需要这样的错误,在三点七上有回滚,到三点二我都不会回滚啊,好不好?于是万般艰苦之下,我总算在给他找到了 他的这一串。你看,通过 code 访问五点四错误的 api, 然后他是这么说的,他只要把这一段粘贴进去,粘贴到那个 opencloud 点 json, 你 看它这是粘贴到 models 点 json, 我 们只要粘贴到 opencloud 点 json 就 可以了。像这样, gpt bank 的 api 这边用 codex response, 而不是用 ve response, 不 然的话就会提示说没有读写,你看,不包括 response 的 right, 所以 返回四零一。所以呢,我们只要把这下面改成 base 二 l 改成它, api 改成它,于是我们就会发现铛铛可以用了。

hello, 大家好,我是 d p, 今天是二零二六年的三月十日, open a r 在 几个小时前对 codex 中免费账号的使用模型进行了限制,简单地说,取消了五点三 codex 和五点四两模型。录一个视频跟大家分享一下相关情况。 首先我们来看这次 oppo ar 的 限制的具体情况,我们能在使用中得到的错误信息就是图上这一条,比如说这次是 gpt 五点三 codex 这个模型不再支持在呃这个账号在 codex 里使用。 然后这次限制的主要情况是针对免费账号取消了 gpt 五点三 codex 和 gpt 五点四两个模型的使用权限。当然这也是我们 用的最多的两个模型,保留的权限是 gpt 五点二和 gpt 五点二 codex, 然后付费账号不受影响。这时候我就需要拿出 五点二和五点四的对比图,五点二里如果使用 codex 的 话,应该用的是 gpt 五点二 codex 这个模型,那么从对比上来发现编程能力还好,唯一的差别我想呢,就是可能五点二会慢一些, 毕竟五点四本身就已经加速,还有 fast 模式。然后目前这样看,好像 免费账号也没被限制到完全不能用。但是我想问大家一个问题是,免费账号的限制真的就到此为止吗?给大家三秒钟思考一下。一二三,好,我相信大家心里已经有答案了。 据这个问题我有一些思考。首先是一个五万个账号的故事,这是一个粉丝告诉我的,大概的意思就是说他们有一个群,群里面每个人都有几千到几万个账号不等,都是免费账号,大家都用的很嗨。 呃,后来我去了解了一下,确实有相关的技术实现或者什么,然后,但是我本意不愿意相信这是真的,因为这这个数字实在是太疯狂了,所以我就说这是一个故事。 基于这个故事,我当时就在想,这个免费账号被限制是早晚的事,但没想到来的这么早。 然后后,后来我又联想到了被限制的 antigravity pro 订阅的配额,然后我又联想到了这次的 codex 的 免费账号的限制,然后我心里就在想,下一个被限制的会是什么? 所以我想跟大家,我就是我们大家应该能有一个共识,就是一定会有下一个,对吗? 好,那么接下来的问题就是我们该怎么办?因为我们是一群一定要使用 ar 的 人,我们不可能说因为你限制了我们就不太用,我们有些人会就是去找下一个,但我们留下来的人怎么办?我们需要稳定使用的人怎么办? 这边我提供一下我的一些想法,算是抛砖引玉吧,这是我未来的一个计划。首先我有一个付费的 codex 账号,然后我会用它来完成百分之六十的编码工作。 呃,这边多提一句啊,就是 codex 其实已经很快了,可以可以适应到一个正常的工作流程,但是里面需要一些技巧,这个我们稍后说。 然后我还有 antigravity 的 pro 账号,我会用它负担我百分之四十左右的工作。这百分之四十是这样分配的,首先 u r 设计相关的工作大概占百分之三十,会有基利纳三 pro high 这个模型来完成, 然后剩下的百分之十会交给 opus 四点六,差不多是这么一个比例。这边再提醒一句,就是 codex 在 我的测试中已经足够优秀了,它没有那么的慢 呃可以负担我的百分之六十的使用场景,我相信对大多数人来说也是 ok 的, 所以如果没有尝试 codex 可以 开始尝试一下。但是如果你的 codex 在 使用中会有点慢或者什么,那就代表可能你设置的有问题,或者说可能你选择的方案 技术路线有问题。这个我们再说,反正是有一点技巧在里面的。然后稍后我们会推出 codex 的 一些相关视频,目前我还在准备中,也感谢之前跟我联系的几位呃 codex 大 佬提供的一些技术支持,非常谢谢,也欢迎有经验的 codex 用户继续呃发私信跟我联系,提供相关的技术支持,我们一起来完善这件事。 好的,这就是这一期 open a r 对 呃 context 中免费账号可用模型进行限制视频的全部内容,希望这期视频对大家有帮助, 如果可以,请帮忙点赞和转发,如果有相同的经验想分享或者遇到相关问题,欢迎留言,我是 d p, 祝我们大家一切顺利,谢谢!

当 agent 的 自主能力不断飙升,到底它深层的范围可以扩展到哪一步?一旦跨越了某个工程离界点, agent 将完全接管从代码到运维的每一环,是高度自治、端到端的全流程驱动。本期我们继续精读 open i 工程薄课 harness engineering, 看 ai 开发的自主性究竟可以到达何种程度。首先要重新界定 agent 深层的范围。在 openli 的 这个实验中,当他们说这个代码库是由 codex 生成时,指的不只是产品代码和测试代码, 它还包含 ci 配置与发布工具链内部的开发管理、工具架构设计的历史文档、评估系统测试的框架、 pr 下面的审查、评论与回复管理、仓库本身的脚本以及生产环境的监控面板、定义文件。并且, agent 正在像人类一样直接使用标准的开发工具,他们会拉取审查意见进行内联、回复、推送、更新,甚至经常自己压缩并合并 pr。 也就是说,他正在深度参与并运转着整个工程系统。当繁琐的执行环节被全面接管,人类工程师在干什么?人类依然在回路中,但工作重心已经转移到了一个完全不同的抽象层。人类不再是写具体代码的工人, 而是成为了定义规范的甲方工程师。现在的核心工作是三件事,排定优先级,将用户反馈翻译成明确的验收标准, 以及最终验证交付成果。如果在中间过程中 a 证卡壳了,人类也绝对不会下场去帮他逐行修代码。他们会把 agent 的 挣扎视为一种报错信号,去排查是不是系统里少了某个检测工具,缺了某种护栏, 还是文档没写清楚,找到缺口并补充到系统后,依旧让 a 证自己去完成代码修复。人类不再是执行者,而是环境与标准的设计者。随着测试、频审、反馈处理等 整个开发循环都被明确编码到系统架构中后, the great 跨越了一个决定性的自治域值,只需给定一个 prompt agent 就 能完全脱离人工干预,端到端地实现。来看看原文展示的这条全自动闭环流水线, 它会先自动查验代码库现状,遇到 bug 时自主运行应用去复现,甚至会自己录制展示错误的视频留作证据, 随后完成代码修复,通过再次驱动应用来进行自我验证,并录制第二段成功运行的视频作为比对。接着他会自己开启 pr, 如果有人类或其他系统 agent 提出审查意见,他能自行响应。 遇到构建报错,他会自我排查并修复。除非遇到了真正涉及方向性抉择的情况,他才会按零叫人类来判断,否则他会一路走到底,最终自动合并代码。这是一个在极其严苛的结构化环境中真实跑通的软件制造闭环, 从输入一段需求到最终代码合并,中间长达数小时的执行过程全由机器接管。这种真正跑通端到端的全自动开发,已经成为全行业最顶尖工程团队共同确定的引进目标。不仅是 openai enterprise 在 不久前展示的 agent teams 原型实验展示了相同的趋势, agent 已经进化出自主的端到端开发能力。未来的工程师不再是帮 ai 补全某个局部函数,而是把它当做真正的外包承包方,你只需要甩出完整的需求,不再管怎么写, 只定义什么算完成,然后等待它独立交货。虽然这种端到端全自动运行的前景令人兴奋,但是 openlight 紧接着给出了一个非常冷峻的提醒。原文写道,此行为高度依赖于该代码库的具体结构和工具链,也不应假设其能普遍推广,至少目前如此, 除非投入了类似的开发资源。这意味着这种高速运转的自制决不能被简单的复制粘贴,它是用极高的基础设施门槛换来的。如果没有这套重金打造的环境与护栏,单纯追求让大模型自动写代码, 只会制造出加速系统崩溃的数字垃圾。这也揭示了自制的尽头绝对不是对 ai 下手不管。相反,越是高度的自制,越离不开极度严密的环境设计与工程约束。好了,本期内容就到这里,这里是慢学 ai, 下期再见。

当 ai 接管了写代码这件事,如何保证它们不会以光速造出一座史山? open ai 的 思路是严格的约束,约束是速度的前提, 边界必须刚性封死,但边界之内让 agent 完全自由地实现。我们继续来精读 open ai 工程。博克 harness engineering 强制执行架构与品味部分,可以用规范文档来约束吗?答案是不够。 agent 看了文档理解了,但他未必会遵守。 文档是建议,而 agent 需要的是法律。如果规则只是写在文档里, agent 会复制已有结构,放大已有模式, 错误结构会被指数级复制。在这种速度下,靠人类 code review 维持秩序是不可扩展的。如果没有钢性护栏架构,漂移几乎是必然发生的。所以问题不是写不写规范,而是怎么把建议变成法律。核心原则是强制执行不变量,而不是微观管理实现。 什么意思?举个具体的例子, openai 规定所有外部数据必须在边界处做 skimmer 校验,这是不变量,是死规定,不能商量。 但你用什么工具来校验,可以用不同的实现方式,这是实现。 a 政可以自由选择,不是不管,而是只管那条不可逾越的底线, 底线以上,你怎么跑都行。就像高速公路,正是因为有了护栏和车道线,你才敢踩油门。这个原则落地之后,形成了一套极其严格的刚性架构。没有护栏的高速公路,越快越致命。首先是分层,每个业务领域被划分为固定的几层,从类型层到配置层, 到数据访问层,到服务层,到运行时层,最后到界面层。代码只能向前依赖,决不能回头。为什么? 因为反向依赖会让改一个地方牵连到一大片。如果 service 可以 调 u i i, 那 改 u i 的 agent 呢?根本不知道自己同时也影响了 service, 他 只看得见自己负责的那个文件。 当一百个 agent 同时改代码,这种隐性牵连会迅速失控。打个比方,后厨流水线之所以高效,就是因为方向是死的。切菜递给灶台,灶台递给摆盘,如果摆盘的人可以反过来要求切菜的人重新处理食材,整条线立刻瘫痪。 谁也不知道自己手上的东西是最终版还是半成品。单向依赖的本质就是控制影响范围,改动指向前传播,上游永远不会被下游拖下水。然后是横切关注点的处理。什么叫横切关注点? 就是那些每个模块都需要,但又不属于任何一个模块的东西。比如用户认证、日制记录、功能开关,这些东西很容易到处乱跑,哎,模块自己接一下,认证 b 模块也自己接一下,很快就乱成一锅粥。它们的做法是,所有这些公共能力必须通过一个统一的入口 providers 进入。你可以把它想象成大楼的门禁系统。不管你是送快递的还是修空调的,都必须从大门刷卡进入,不能翻窗户,不能走消防通道。除此之外的任何路径,禁止 c i 直接红灯打回。 而且这些约束不是靠人去检查的,是靠自定义 linter 来机械执行的。这里有一个非常精妙的设计,这些 linter 不 只是报错工具,它们是上下文注入工具。当 linter 报错时,错误信息里会直接写上补救指令。比如 service 层不能引用 u i 模块,请将共享逻辑移动到 us 目录。 agent 读到这条报错,等于读到了一条 prompt, 然后他自己重构代码,重新跑 linter, 直到全部变绿。整个过程不需要人类介入。 不是人类守规则,而是规则守系统。说到这里,我们讨论的还只是怎么管理结构,但真正有意思的地方在于,规则本身的性质发生了变化。在人类优先的工作流里, 结构化、日制格式、命名规范、文件大小限制。这些规则常常让人觉得限制创造力,但对 agent 来说,这些规则是倍增器。一旦你把一条规则写进代码,它瞬间就在所有 agent 的 所有任务中生效了。 同一条规则在人类世界是负担,在 agent 世界是杠杆。还有一个挑战,很多工程师审美直觉的认知, agent 写的代码风格可能不像人写的谢亮明,可能有点怪,排版可能不够优雅,但只要它符合三个标准,正确可维护, 对未来的 agent 可读就是好代码。好看不再是标准,好用才是人类的角色也因此发生了根本性的转变,不再是一行一行 review 代码的审查者,而是历法者。人类的品味被持续地反馈进系统。 怎么反馈?通过 review、 评论、重构 pr 以及用户反馈的 bug。 当你发现自己在 review 中反复纠正同一个问题时,你不去修那段代码,你把规则升级为代码,从建议 到文档再到代码,这是约束的三级火箭。简单总结下,在 agent 时代,约束不是束缚,而是基础设施。具体来说,第一架构是法律刚性分层和 providers 模式保证了 agent 不 会在结构上跑偏。第二, linter 是 prompt 自定义, linter 不 仅报错,还自带修复指令,让 agent 形成自我纠正的闭环。第三,规则是倍增器对人类繁琐的规则,对 agent 来说是一次便携全职生效的杠杆,而人类的工作从写代码审代码变成了为机器世界立法。下一期 我们要讨论当 agent 数量扩大到百台级别时,如何管理海量并行 p 二带来的合并冲突。这里是慢学 ai, 我 们下期再见。

如何让 agent 爆发式的生产力不被人类有限的注意力牢牢锁死?大部分人可能没意识到,传统的强阻测试 cold review 在 agent 时代可能成为产能瓶颈。本期 我们继续精读 open ai 工程薄课 harness engineering, 看看当代码吞吐量发生数量级飙升后,代码合并逻辑为什么需要重写?传统的软件工程有一套大家都很熟悉的流程,写完代码, tpr 等人 review 测试全过,审批通过才能合并。每一步都是一道门。 lint 检查、测试、人工 review、 审批,每道门都可能卡住。 对人类团队来说,这很合理。人写代码慢,每次合并都是一件大事,值得停下来仔细检查。但当 agent 接管了代码生产,代码吞吐量大幅提升,这套传统逻辑可能适得其反。 为什么?因为成本结构反转了。想象一个工厂的质检流程,如果流水线上每小时只出十件产品,你让一个质检员在每件产品出厂前仔细检查一遍,完全合理。 毕竟产量低,等一下没什么损失。但放出去一件次品,召回成本很高。但现在流水线升级了,每小时出一千件,质检员根本看不过来。如果你还让他在流水线末端逐渐检查,整条线都会被他一个人每多等一分钟, 就是一千件的产能被浪费。而这时候,修一件次品的成本几乎为零,自动化反攻站几秒钟就能修好,这就是成本函数反转。在传统世界,修正很贵, 等待很便宜。所以你多检查,多审批,宁可慢,也不能错。在 agent 世界,修正很便宜,等待才是最贵的。所以你要快速放心, 快速暴露问题,快速修正。这个反转可以落实在三个动作,第一,最小化堵塞门控。在代码吞吐量极高的环境里,它们只保留了最小化的堵塞门控。与其在每一个路口死等,不如让流程先跑起来。第二, 让 pr 保持短生命周期。人类往往习惯花好几天写一个极其庞大的 pr, 但这常常导致漫长痛苦的 review 和极高的合并冲突率。但在修正成本极低的 agent 流程中, pr 会保持极短的生命周期,高频小步快跑的合并碰壁的概率就极低, 哪怕出错了,再提一个短周期的修复 pr 也就是几秒钟的事儿。第三,决不让 flaky test 无限期堵塞进度。 flaky test 就是 那种跑同一段代码,有时候通,有时候挂的幽灵测试。传统做法中,面对这种不稳定流水线会直接亮红灯堵塞,所有人停机排查。 这里的做法是用后续的重跑机制来解决,绝不无限期地卡住全盘的进度,因为等待的代价太高昂了。既然修正成本极低,个别测试不稳定,先自动重跑修复也比让一百个 a 阵局堵车要划算得多。 在低吞吐量的环境下,这样做是不负责任的。这种做法只在特定条件下才成立,也就是 agent 代码产出远超人类注意力的时候。如果你的团队还是五个人,每天三个 p r 快 速合并只会引入混乱, 不会带来效率。这里面藏着一个更底层的认知。最佳工程实践不是绝对的,它取决于你的约束条件, 当约束条件发生数量级变化时,最佳实践本身也必须跟着变。总结一下本期的核心,当代码吞吐量发生数量级突破,等待就成了最昂贵的成本, 所以我们必须把层层叠加的阻塞门控换成不阻碍进度的护栏和快速反攻战。这不是放松质量, 而是吞吐量驱动的工程哲学转变。只有这样, agent 爆发式的产物才不会被人类有限的注意力给牢牢锁死。好了,本期内容就到这里,这里是慢学 ai, 我 们下期再见。

windows 的 windows 桌面端已经出来了,我深度体验了三天,接下来就跟大家录一个视频,说一下我在使用的过程中遇到的一些问题。首先这个页面就是我们下载的这个页面,直接点进去就可以下载,它是直接连接 微软的软件商店的,所以我下载的时候遇到的一个问题就是我的版本跟这个商店他不符合,因为我的电脑版本我是 win 十,我没有升级到 win 十一,所以说我在下载的时候他就说跟版本不符,我这个时候就准备了一个这样的升级,就是关闭系统防护的升级,还有一个是这里升级的一个文件,就做了一个升级就可以下载了。 下载之后我看到有朋友说下载之后有闪白的问题,所以我没有遇到闪白的问题, 下载了之后就进入到这个界面,其实因为我是代码的小白,我不知道这个界面之后应该怎么去按嘛,我看网上的教程大部分都直接是这个界面了,所以我当时还研究了半天这个地方直接添加项目就好了,添加项目它会让你选择一个文件夹, 我就建建了一个这样的文件夹,再添加项目,选中这个文件夹之后就能来到这样的一个界面。这样一个界面之后,主要我是看一下我们的左下角,它这个地方有一个剩余的额度好像,因为我 gpt 开的是 plus 版本,好像是可以额外再给两倍,反正这个剩余的额度,比如说百分之百,百分之七十六,这个是一周的,每天会给你多少小时,这个就是剩余的额度反,每天都非常的够用, 我看遇到最多的一个问题,包括我自己也遇到,你给他发了一个东西之后,他一直在思考,你看我这个,我三天之前发的,他一直在思考,我又开了一个新的任务,他仍然在思考,这个是怎么解决的呢?我换了一个节点,把 gpt 的 网页版,网页版打开,打开 gpt 的 网页版,打开了之后,换一个节点,我们可以在新建一个新县城,相当于是在这里去给它输入新的任务,最新的应该一一的,它就可以正常的去操作了。 好,下一个就是关于怎么能更好地使用它,其实我是一个代码的小白,我不知道该怎么去使用,有人说这个地方会有一些 skills, 我 没有额外的安装,我觉得基础的就够了。我这里其实主要是想说不要把它当成一个 ai 工具,就把它当成一个纯写代码的一个东西。那么其他的我建议要跟一些 ai 的 工具去做一些搭配着使用。比如说我最开始是搭配着 gpt 去使用的,就相当于用 gpt 给我的一些指令,我再导入到 codex 里面,让它去给我运行。 但是我深度测试了三两天,我发现 gpt 出来的东西仍然不能看,最后出来的这个效果不尽如人意。我在昨天下午我又深度的去换了一下,我换了一个 germanlab juma 之后,我用的 pro 的 模式,虽然我的 gpt 也是 plus 版本的,但是出来的效果不太好。我又用到了 pro 的 这个版本,就 juma pro 的 版本,给它输出我想要的东西, juma 会把它翻译成机器能读懂的这个代码语言,我再导入到这个 codex 里面,让它去给我运行,最后花了半天的时间,昨天满打满算应该是一天的时间,我最终把这个东西给研究出来了,当然 最后的结果是失败了,我开发的这个东西它是失败了,但是我建议大家如果要去使用它的软件搭配着用,就用其他 ai 工具搭配着用,不要直接在 codex 里面去提问。你看我之前就是遇到一部,我就问那个 codex 它该怎么弄,它就给我弄得很乱,因为我不知道怎么写,所以我就跟着它的步骤去, 但是他给我的步骤就又长,他会你问他一句,他说一句,他就不站在那种能完完全全解决这个事情的基础之上。但是 german 呢?给我的感觉就是他想他能够对准我们的这一个核心的目标去给你拆解,因为这是我整体使用 codex 的 一个感想,如果大家有其他的问题,也可以积极的去交流。

codex 中可以免费使用的,就在前几天,萨姆奥特曼宣布为了庆祝 codex 用人的发布,添加了免费访问服务, 接着更是直接宣布在活动后将会继续向这个 free 用户提供 codex 服务。在 codex 中,我们能够直接使用最新发布出的 gpt 五点三 codex 模型,接下来介绍如何在 codex 中使用这个最新的 gpt 五点三 codex 模型。首次安装 codex 的 话,我们需要在终端中输入这行指令, 就是如果是我们之前安装过的话,先输入下面的代码,也就是这行代码来更新我们的 codex c l i, 否则就会用的是旧模型。输入后呢会提示添加了几个 package, 代表我们更新完成,然后输入 codex, 显示 codex 得到了升级, 比如就在这里显示我们 codex 已经得到了升级,将会使用这个 gpt 五点三 codex 模型。其中我们点击 try new model, 也就是使用这个新的模型, 然后再进入下面的页面中,我们可以看到就顺利使用上了这个模型。他在问我们要不要给 codex 配一个沙箱的环境来保护我们的文件,并控制网络访问入口。其中有三个选项可以选,第一个是 set up default sandbox, 它需要呢管理员权限,会创建一个隔离环境,限制文件的访问范围,然后控制网络权限,这是一种比较安全的方式。 第二种是 user 默认 sandbox, 不 需要完全权限,配置更简单,但隔离能力会弱一些,可能会发生提示错误的一个风险。还有一种就是退出选择之后,进入以下界面,我们就顺利地升上了 gpt 五点三 codex 也能显示我们当前的工作。一个目录进入了 codex 之后,我先拿我之前做的一个小项目做测试。 作为一个自媒体博主,我经常需要对测评 ai 产品,特别是办公赛道与 excel、 数据处理、数据格式化等等一些问题。之前我用 cloud code 加 glm、 四点七错漏子以及数据生成器就是这个表格,它支持人力资源类,然后财务类、销售类、行政运营类 的一个表格的生成,里面包含各种各样的数据,比如员工画名册、考勤记录表、销售订单表、项目进度表等等。 这个数据生成器呢,可以选择每文件的行数、每类型生成几个文件以及导出的格式,还可以在点击预览数数据之后,可以直接下载选中表格。因为当时生成的这个 ui, 我 个人觉得还是比较 ai 味比较重,不是太好看。于是我把这个项目先投给 codex 帮我优化优化。先优化它的性能方面, 可以看到这个 codex 先快速扫描我这个项目的结构、依赖和关键代码、路径、性能和维护性等等,直接对这个仓库的项目进行可运行的一个优化。优化完成了,它主要改了以下这几个文件中的内容,从性能、交互稳定性、项目与文案文档方面进行一个修改完善, 使用起来比原本的更流畅,下载起来的体验也是更快速、更方便。接着我又让 codex 帮我优化了一下界面 ui, 因为之前的 ui 界面我觉得 ai 味儿挺重的,这个是它优化之后的,我觉得审美还是非常可以的,非常清新淡雅的那种,又让它生成了另一个版本的 ui 界面, 科技味儿比较重的这个深蓝色的样子。之后呢,我又让 codex 重新呢做了一个基于网页的瞬时记忆小游戏,用于训练和测试玩家的短时记忆能力。 这个游戏的玩法就是先记住彩色格子的颜色位置,再在空白网格里选色选色,然后填回正确答案。主要的玩法就是进入关卡后,网格中会短暂显示目标彩盒方块,然后目标方块隐藏。进入一阶段, 玩家先在调色板选择颜色,再点击对应位置,达到本关目标数量后,会自动剔掉并判定结果。整体的首页的 ui 设计,包括可玩性以及这个游戏内的关卡。这个方块的设置评分的规则我觉得都是非常的 优秀,从推出 codex c l i, 再到推出 g p t 五点二 codex, 再到如今推出迈克端的 codex 和 g p t。 五点三 codex open i 的 这款工具也在也在不断进化。从模型性能方面呢, g p t 五点三 codex 在 s w e 奔驰 pro 上达到了顶尖的水平。 这个这个测试基础呢,主要是对真实世界软件工程能力的一个进行评估,它在 terminal 奔驰二点零上的表现也是比以前好一些。 这个测评标准主要是衡量像 codex 这样的编程智能体所需的终端操作技能也都在终端上操作了一个情况。文章写到最后,我们又在看网上呢,看到了许多科技圈的信息,一是无痕 ai 将下线 g p c o g p c o 以我个人来说,它不是最顶尖最厉害的模型,但真的确实是无数人心中最具人味的情感依赖和聊天对象。 第二个就是关于 cloud 的, 它的模型能力真的非常厉害,前几天出了 agent teams 功能,上线了 openstar 六,能力也是非常嘎嘎,提升 token 也是嘎嘎,消耗速度是真的快,能力是真的强,但是也是真的好 token。 最近呢,有的人爆出 cloud code 的 可能,买了一些代码,降低用户使用其他非 cloud 模型式的缓存命中率,这样我们就得多花些 token 的 费用。好了,今天的文章就到这里。

ai 写代码的速度,已经快到把安全团队逼成消防队员了。于是 openai 干了一件很有意思的事,不是再造一个写代码的 ai, 而是直接造一个抓 ai 写错代码的 ai。 这玩意儿的味道,其实已经不是传统安全工具了, 而更像一个长期蹲在代码库里的 ai 安全审计员。 ai 写代码越快,安全部门越想辞职。这几年开发圈的节奏像被咖啡因泡过, 从 github co pilot 到 cursor, 再到各种 ai agent 的 写代码工具,开发效率被拉到了一个离谱的水平。 以前一个工程师一天写三百行代码,现在 ai 帮他一天写三千行,听起来很爽,对吧?问题是,漏洞也按同样的倍率增长。安全团队原本要省三百行代码,现在要省三千行。以前是人工 review, 现在是人工加 ai, 写的复杂代码, 将 ai 生成的依赖库,结果是什么?安全团队直接变成了代码垃圾场的保洁阿姨。而传统安全工具,比如 snake、 check marks、 sonic、 cube, 有 一个非常要命的问题,勿报太多。安全团队每天收到几百个漏洞警告,最后发现百分之九十是这种级别。你这个变量命名,可能导致安全问题。 开发看了只想回一句,滚!这就是安全行业现在最真实的困境,真正危险的漏洞很少,但噪音巨大。 codex security 想干的事其实很演。 codex security 的 核心思路只有一句话,别再扫代码了, 先理解系统。传统安全工具干的事情是扫描代码,找 pattern, 报漏洞。这就像警察在街上看到有人戴帽子,就说你可能是犯。而 codex security 干的事情是先理解系统,建立威胁模型,再找漏洞。

终于知道命令行工具为什么这么厉害了。我用的是 codex 的 c l i, 刚才用 codex c l i 解决这个问题。解决这个问题的时候呢?它有的原码,由于是商业版,它是不带不带原码的, 但 code x 他 怎么干啊?他直接给我把源码读出来去反翻译了。你可以看到他直接把代码反翻译出来,然后把整个代码机制如何调用,然后这个是什么样的问题?然后你想要的结果他都解决了。真的是非常厉害啊。但是如果你用图形化的界面,他不会去反翻译代码,至少我从来没有见到过他会去反翻译代码去解决问题。

大家好,欢迎来到本期科技快报。今天我们聚焦于 ai 技术对软件开发的深刻影响,特别是 openlayer 的 codex 如何从配对编程进化到全任务代理。 首先让我们了解下最新发布的功能。 codex 迎来了许多重要升级,特别是 gpt 五点三和 gpt 五点四模型的推出,它们显著提升了常识任务的代理能力,使任务处理更高效,同时也引入了如工具搜索和百万级 token 的 上下文支持等特性。 对于开发者来说,值得注意的是, codex 桌面应用现在也支持 windows, 拥有原生沙盒环境,支持技能和应用的加载。而所谓技能是为了更精准地为 codex 提供上下文,比如让 codex 在 特定的开发场景中运用工具。 在 api 方面, kua 费算机使用代理模式是重头戏,这让 codex 可以 更好地管理浏览器和计算环境,甚至能通过 hosted shell 运行容器化环境中的命令,大幅提升其灵活性与安全性。此外, wild bot 模式也能极大优化工具频繁调用的延迟。 接着,我们还看到了 codex 对 于 github 代码库进行评分的演示,这种逐步引导模式在团队开发中非常实用。 比如通过定义清晰的文档、 md 和代码中的技能描述, codex 能更智能地解析项目的整体架构与最佳实践。 另外,嘉宾在绘画中提到了一个令人兴奋的项目 symphony, 它展示了通过 codex 实现工作流自动化的可能性,这包括任务分配、迭代代码检查、 pr 是 否通过 c i、 c d 等,几乎无需人工干预 基础设施的规划和编程范式的升级在这个过程中被反复强调。例如,如何通过高内聚的模块化代码、清晰的技能接口说明文档以及标准化的测试覆盖来引导 codex 深层更可靠的代码输出,这些对开发者来说都极具参考意义。 此外,特邀嘉宾 mitchy 科目讨论带来了真实应用案例,他们的团队通过内部工具如构建的技能管理平台 paper, 实现了公司层面的高效写作与知识共享。这种设计给 ai 赋能提供了范例。 最后,我们还回答了一些观众的提问,例如在现有代码库上如何快速搭建 ai 代理的设计框架,如何优化长任务的可能性,以及技能和模块化文档的应用方式。 总的来说, codex 网最初的编程助手逐步进化为全面编程代理,而我们所需的是理解如何最优化的配置与指导它。如果想了解更多,欢迎查看相关资源,或在下一次科技快报中与我们继续探索前沿科技发展。

codex 跟 c c 到底哪个好?我想大家各自都有自己的判断。在我个人为二者都充了二百刀的 pro max 会员以后,我个人的体感是 二者的模型能力之间并没有本质的差异,甚至都足够惊艳,让人心喜。但它们其实代表了两种完全不同的人。与 ai 合作的费洛索费 本质上,我们不是选择两个工具,而是选择两种与 ai 交互的模式。你习惯使用哪种模式,你的工作场景是哪种模式,你就应该选择支持哪种哲学的普顶工具。通常来说,抽象的讲, 软件工程开发的模式可以粗略地分为两大类,首先一类是那些探索性不确定的 idea。 在这种场景下,我们自己可能对需求要做什么,最终的一个中态是什么,甚至过程中该如何实现,它都没有一个明确的定义,它更多是我们一个拍脑袋的灵机一动的想法。当我们解决这类问题时,我们期待的一个 partner, 无论是不是 ai, 它应该都要能 快速的与我们进行交互,通过一些他主动的提问甚至判断给我们更多的信息输入,通过一系列的沟通,最终确定出一个相对更结构化,信息密度更高的思维原型来指引我们后续的执行。 而另一种常见的工作模式则是一个更明确的需求,比如说产品已经给我们了相对明确的 p r d, 那 我们剩下要做的只是说把这个项目 真正转移为一个可以被执行的代码而已。对于绝大多数的研发而言,这种场景下想要做的事情是基本完全确定的,我们在此时要做的无非只是一些 dirty work, 把那个 p r d 转化为真正写出来可用的代码而已。 而结合我自己的使用经历来看, c c 更适用于前者者的工作模式。它会在你输出一些观点之后快速地给你响应,并且高频地向你发出提问,以确定它后续的一些方向执行思路。但 codex 则完全相反,它会在你给完需求以后, 非常认真且可靠地将你的需求描述执行完。这个过程会花很长的时间,但是 结果往往是令我们满意的。想要更明确的拆分这两种工作模式的分野,我们不如从三个维度上来进行拆分,首先是任务商,也就是目标的清晰程度以及约束条件的多少。其次则是以我们预期的交互结构, 我们到底期待着与其他 partner 是 同步的沟通,还是说是一些异步的沟通模式?另外则是一个人类所占主动性的比例, 我们到底期望 ai 占据多少责任?他们是只是执行任务,还是说给我们也有一些他自己的认识建议?其实这三者并非是一个非常正交的关系。一个很明显的结论是,如果一个 目标的本身并不清晰,只是我们拍出的粗糙 idea, 那 我们显然就需要我们的协作者能快速的发问,帮我们把 自己大脑中一些比较模糊的观念导出出来,并且通过一些沟通确定哪些思考是我们需要的,哪一些是可以被删除的。通过这种 快速的同步沟通,得出来一些更结构化的结果,那在这个流程中, ai 需要介入的部分以及引导的主动性就会占比更多,但如果这个需求本身就像我们之前讲的已经相对来说明晰,是一个低伤的场景,那我们就不太 需要。它是一个很同步,事无巨细都要向我们发问的流程,它完全可以在我们把事情说清楚之后,一步的完成这个工作,从而解放我们人类自己的时间。我们也不需要给他太多主动发挥的空间,他只需要忠实的执行我们给他的需求就可以。我觉着对未来工具的使用以及工作流的设计,也都是从这三个维度去进行判断,动 态的选择。我们到底适用于哪种工具,应该主要采用哪一种工作流的思路?如果要打一个比方的话, c c 更像是坐在你隔壁工位的好蜂蜜, 会在有了一些 idea 之后立马的打断你现在的所作所为,跟你去探讨它的一些碎片化想法。而 codex 则更像是一个你忠实可靠的下属,在你交代完任务需求以后,忠实的可靠的帮你把事情完整的办完再通知你。我已经做好了。 每个模型都有它们自己的性格,我们也可以顺应的这种性格,在不同的工作场景中选择不同的工具以及模型。 以上是二零二六年二月我对这两个投影工具的一些使用场景总结,但我相信这个领域是日新月异的,二者工具之间 大概率在未来也会发生一些融合。不会说一个工具只是一种工作流场景,那就需要我们未来本身人类自己有一些对需求使用场景的预判,从而能告诉模型它应该采用哪些工作流模式。软件工程永远没有银弹, 不可能说我们用着一种模式,一条道走到黑,就可以得到一个很完美的结果。如果你在错误的场景使用了错误的工作模式,那模型给你提供的支持也就会非常有限。 结合自己的需求,场景动态切换自己的工作流模式才是一个更高效率开发的必经之途。以上是本视频的全部内容,如果你有一些想法或者建议,期待评论区讨论,谢谢大家!

我们继续精读 openai 的 工程博克 harness engineering leveraging codex in an agent first world。 当代码生成速度不再是瓶颈,验证能力就成了新的瓶颈。 openai 的 解法是让 agent 自己验证自己,但这里有一个前提条件, agent 得先看得见系统的状态。什么意思呢? 一个人类工程师修完一个 bug, 它会打开浏览器,看看有没有报错,看看性能监控面板, 确认响应时间正常。这些动作的本质是人在用眼睛和听诊器感知系统的状态。但以前的 ai agent 不 具备这些感官,它只能写代码,写完就甩手了。 它看不到页面渲染成什么样,不知道系统有没有报错,更不知道性能有没有变差,需要人验证后截图告诉它哪里有问题。而现在,如果让 agent 自己验证自己需要可读性 legibility, 它的意思不是代码写得好不好读,而是 系统的状态对 agent 来说是不是透明的、可解析的、可验证的。这给我们带来的思维转变是,不要问 agent 能为你做什么,而是问你能为 agent 提供什么。那 open i i 的 团队具体是怎么做的呢?首先要解决一个前提问题, agent 需要一个独立的工作空间。在技术上,他们用了一个叫 gitworktree 的 方案,你可以把它理解为从主代码库附了一份独立的副本, agent 在 这个副本里自由折腾, 改什么都不影响别人。就像每个厨师有自己独立的操作台,各做各的菜,互不干扰。有了这个独立空间之后,接下来就是装感官了。第一个方向, 给 agent 装眼睛。把 chrome 浏览器的开发者工具协议接入了 agent 的 运行时,你在 chrome 里按 f 十二,会弹出一个开发者工具面板,可以检查页面结构、看网络请求、调试代码。 现在 agent 它也可以用这套工具了,它可以启动应用,打开页面,看到页面上每个按钮、每段文字、每个输入框的位置和状态。它们还给 agent 创建了专门的技能,来处理 dom 快 照、截图和页面导航。 dom 快 照是什么?你可以把它想象成网页的 x 光片,网页表面上是你看到的按钮和文字,但在底层,它是一棵树状的结构,叫 dom。 dom 快 照就是把这棵树在某一刻的状态完整拍下来,交给 agent 的 分析。 有了这些, agent 就 能够直接复现 bug, 验证修复结果,并推理 ui 的 行为。注意这里的直接,以前 agent 写完代码就结束了,现在他可以自己打开应用,自己看效果,发现不对自己修。第二个方向,给 agent 装听诊器, 光看 ui 还不够。系统内部的状态、日制、性能、指标、请求、链路,这些肉眼看不到的信息同样重要。 open ui 对 可观测性工具做了同样的改造。可观测性是什么?简单说就是系统运行时的体检报告,包含三样东西,日制记录、发生了什么事、指标、各项性能数据是多少。 链路追踪一个用户请求从进来到出去,经过了哪些环节。他们给每个 agent 任务搭建了一套临时的可观测性环境,每个任务有自己独立的日制和指标, 用完就销毁。这就像给每个 agent 配了一间隔音室,他看到的日制只属于自己,这个任务不会被其他并行任务的信息干扰。然后 agent 可以 用 log ql 查日制,用 prom ql 查性能指标。 log q l 和 prom q l 是 什么?可以理解为专用的搜索引群。 log p l 用来在海量日记里精确搜索某一条错误记录, prom q l 用来查询最近五分钟的平均响应时间是多少这样的性能数据。 有了这些工具之后,像确保服务启动在八百毫秒内完成这样的 prompt 就 变得可执行了。还有更复杂的,比如这四个关键,用户旅程中没有任何一个环节超过两秒。以前,这些约束不容易被 agent 验证,需要靠人类盯着监控面板去看。现在 agent 自己就能查, 就能判断,就能通过或者打回这两个方向的投入。装眼睛和装听诊器带来的最终效果是什么呢?三次 codex 运行在一个任务上,工作经常超过六个小时,通常是在人类睡觉的时候。这就是可读性投资的回报,因为 agent 有 了眼睛和听诊器,它可以自主地写代码, 看效果,查日记,发现问题,修复再验证。这个循环完全不需要人盯着才能干活儿, 变成了可以自主干活儿值班。总结一下,这一期讲的是状态可读,让 agent 能看见 ui, 得知系统内部状态,从而实现闭环自主工作。下一期我们聊如何让知识被 agent 发现。这里是慢学 ai, 我 们下期再见。

兄弟们, codex 性价比拉满了啊?这是我年前买的一个 codex tim 拼车,然后用了满满的一周饱饱的用,每天白天晚上都在用了,他提示我说现在还有百分之二十五的额度,也就是我用了一周他还剩百分之二十五。关键这是在某鱼上 tim 拼车只花了六块八,并且看啊, 还支持最新的 gpt 五点四模型,一个月六块八,还支持 gpt 五点四,并且还用不完啊,性价比拉满。

codex 原声版来了, windows 开发者告别复杂配置,那个时代结束了,那么这次的原声版到底强在哪呢?首先,它不是简单的套壳,这是一个为 windows 全新设计的底层架构,核心就是速度和安全。 以前的网页插件设置麻烦,性能也总感觉差点意思,现在完全不一样了。它是个真正的原声应用,在独立的沙盒里运行,跟系统深度集成。这意味着什么呢? 简单说,这个沙盒就像一个给 codex 准备的专属空间,它在里面怎么运行都不会影响你的系统,既保证了速度,又保证了安全。 而原生性的关键就是它直接在 pro shell 上跑,这就意味着它能调用最底层的 windows 系统能力,性能自然是原汁原味的。好的架构最终还是为了提升效率。我们来看看它具体怎么改变你的开发工作哟, 你是不是也烦了?同时开好几个项目窗口,来回切换,思路总被打断。现在好了,一个界面就能管理你所有的项目,再也不用痛苦地切换上下文了。实现这个的关键就是工作树, 它能让一个项目里同时开好几个互不干扰的任务空间。想象一下,这边的工作树专心修一个紧急 bug, 另一边的工作树同时开发一个新功能, 逻辑清楚,互不干扰。还有一个亮点是自动化,你在专心写核心代码的时候, codex 已经在后台默默帮你搞定代码格式化、写文档这些杂我了,让你能真正专注。 除了工作流, codex 还带来了一整套专为 windows 开发者打造的生态工具,比如能不断扩展的记忆能库,专门给桌面开发用的 winui 技能,甚至能一键切换终端,可以说每个功能都非常懂。 windows 开发者 特别要说说这个 win u i 技能,如果你开发 windows 桌面应用,这个功能简直就是为你量身定制的。 当然,如果你习惯用 linux 环境也完全没问题,它的编码代理和终端可以一键切换到 wsl, 无缝衔接你的工作习惯。说了这么多,肯定想问这么好的工具怎么拿到?非常简单,直接去微软商店或者官网下载,然后用你的账户或者 api 密钥登录就行。 最方便的一点是,你不需要重新注册你手头现有的 chad gpt 账号或者 api 秘诀,直接就能用,没有任何门槛。所以总结成一句话就是,入门的门槛更低了,但效率的天花板却更高了。对所有 windows 开发者来说,一个全新的时代可能真的来了。

hello, 大家好,我是温特妙,我们来体验一下 openai 刚刚发布的 gpt 五点四,它的一个全新的功能啊, computer use, 我 们来看一下它的一个官方网址。啊啊 啊,在通过 codex app 或者是 api 的 话呢, gbt 五点四它是支持原声操控电脑的这个能力的,并且它是 openai 的 首个支持这个能力的一个通用大模型。 比如说它是可以呃,通过打通过就是打开其他的 app 来执行一系列的啊,复杂的一个工作流。比方说它可以帮我们打开, 打开微信 app, 帮我们来回复微信消息,帮我们来那个整理微信消息啊,比如说它也可以打开可用浏览器啊,比如说 打开一个玩游戏的页面,帮我们来玩这个游戏啊,他也可以帮我们比方说,呃,打开我的一个 b 站页面,来帮我回复用户的私信和那个评论。 然后他还可以啊,就是打开一个网站,比如说打开 pinterest 的 网站,按照我的一个要求,帮我来找找我需要的一个图片。 ok, 那 我们直接上手体验一下吧。哦,还有一个,还有一个升级啊,很大的一个升级,他的一个上下文从那个四百 k 升级到了 em 啊,也就是说他的一个上下文能力是之前的一个二点五倍。 好,那我们现在就直接来体验一下啊,我们直接创建一个空的文件夹啊,给大家看一下,我在这里创建了一个可用 sof 文件夹啊,我先把这些之前的内容删掉啊,创建一个空的一个文件夹就可以了,然后通过这个 ai 的 啊添加新项目,把这个文件夹添加进来,添加进来之后呢,在这里面直接和他聊天就可以了啊,比方说我,嗯,跟他说啊,帮我打开可用浏览器访问聘锤斯特网站 啊,搜索猫咪的一个图片啊,然后帮我,嗯,挑选一张好看的图片保存在当前文件夹啊,我这个需求没有准备啊,比较含糊。 嗯,我检查一下, ok 直接发给他啊,比较含糊,没没没有,就是说让他给我挑选一个嗯,什么风格的图片啊?但是呢,因为 我把这个这个打开啊,但是因为它是通过浏览器打开的啊,就是 pinterest 的 对吧? pinterest 的 这上面我已经登录了的,所以的话其实它打开的这些图片都是和我的偏好是很一致的 啊。然后如果大家第一次使用这个功能的话呢?嗯, 他是他是这样的,给大家讲一下,第一次使用这个功能的话呢,他会要求一系列的一个权限啊,你把权限全部给他就可以了啊。然后你这个模型的话呢,你必须要选嗯, gbt 五点四啊,或者最新的模型也都是可以的啊,因为 gbt 五点四是第一个 首次支持啊, computer 柚子的这个 open ai 家的一个大模型啊。 然后这边的话呢,还可以选择速度,速度的话呢,选 fast 的 会更加快啊。 ok, 他 在帮我来找图片,帮我保存啊。然后,嗯,还有一个地方要注意啊,就是如果大家第一次用的话啊,比如说我现在是 让它打开 core 浏览器来帮我做一些任务啊,对吧?它里面会涉及到一个脚本,脚本的一个使用,脚本的一个使用的话呢,我把这这个这个放到这边啊啊,涉及到 ok, 他 又问我要权限啊? ok, 给他啊,涉及到脚本的一个使用的话呢,他需要还需要在 chrome 浏览器的一个上面的一个菜单栏里面啊,在这个显示页面 开发者,对吧?这里把这个也勾上允许 apple 事件中的 javascript 啊,就是说允许, 呃,允许 code x 在 浏览器里面来执行这个脚本指令啊,这样的话它的一个任务会完成得更加顺利一点。 ok 啊,等他来操作啊,因为因为还因为他这还是第一个版本吧啊,所以的话呢是有点慢,执行速度是有点慢的啊,他已经拿到了一个原图地址了啊,然后他你看他用过用这个刻指令来 把这个图片保存到我们当前的一个文件夹啊。 啊,正在执行啊,其实它就是通过一系列的脚本来完成这些。呃,电脑操作的啊,所以它的一个通用性是很强的,就是说它是支持所有的一个 app 的 啊,像有些 app 比如说微信 app 啊,微信 app 不 可能去开放这些 api 给他的。那他是怎么做到的呢?他是通过一个打开微信 app, 然后他去截一张图,截图之后他会来定位到他所需要的一个功能区域,然后再模拟鼠标点击去实现对应的一个事件。 ok, 已经处理好了啊,他给我保存了一个这张图片啊,那我们再来看一下他的一个其他的能力啊。嗯,比如说 我想让他来帮我回复 b 站的一个评论啊啊,然后这个这个的话呢,我为了方便,我不希望我每次都告都给他讲一堆东西,所以的话呢,我一开始我就告诉他, 我让他来帮我创建 agent 点 m d 文件啊,因为 code x 在 执行任务的时候,每次他都会来读这个文件的啊,这样的话,我一些重复的话我就不用给他说了。我告诉他 啊,这是我的 bilibili 啊,我告诉他啊,帮我打理 bilibili 用户的一个回复与私信,然后这是用户的一个回复页面啊,把这链接给他啊,防止他不知道在哪里。因为他是一个通用的一个大模型吗?他需要处理的信息太多了,太广泛了啊,他可能不一定 知道这个回复页在哪里啊,并且如果,如果他不知道的话,他去找的话会费很多功夫,所以我直接给他 啊, ok。 然后呢,我又让他完善了一下,我让他每条回复啊,让他更新一下 id 字母 d, 每条回复要带上尾缀拜扣的 x app gpt 五点四啊,这样的话,用户收到这个回复的时候,知道这条回复不是我发的, 然后每条回复呢,要写到日记里面去啊,这样的话呢,嗯,就更加他做的什么事情我都知道啊。然后他给我更新了,更新好了之后是这样子的啊,这样子的,其实我也没有看,我也没有看,你看工作方式,他给我讲讲好了啊, 他已经默认我已经登录好了的,他默认我已经登录好了的。然后呢,回复的一个原则,他也写好了,我想改的话,我在这里改也可以啊,但是呢,我没有做任何修改。 然后呢,比如说涉及到垃圾信息的话呢,他要先征得我的同意再回复啊,包括这些什么一些邀约啊,一些乱七八糟的东西啊,都都得这样子。 ok, 那 那那现在的话我就可以让他来执行任务了啊,比方说我, 我让他来执行,帮我回复最新的评论啊,打给他把这个小窗打开,这样我我们大家可以来看他是怎么怎么怎么操作的 啊,你看他直接用我给他的链接打开了,打开了,他来看第一条评论是哪一条啊?他先来确认一下, ok 啊,他已经,嗯他,他说然后啊,因为这个评论我已经回复过了啊,我之前让他执行过一次啊,所以的话,你看他还很聪明,他说 这个评论他已经回复过了的。日记记录在这里啊,我们来看一下看一下这个日记啊,日记的话其实在这里啊在这里啊,本人是 u x 设计师,然后您代码基础想学习 web coding 啊,这些可以学习吗?然后 他给我的回复就不是我自己的回复,他说可以学啊,并且你有这个 u x 背景是很有优势的啊,这这么一些 东西啊。啊,那那那我们再,再来继续啊,再来继续,来给大家看一下他的一个玩游戏的一个能力。 code x 啊,玩游戏的一个能力啊。 ok, 我 们还是继续用用这个画好了啊,直接新开一个回话啊,在这里帮我玩一下可用打开的扫雷游戏啊。我,我现在打开的是一个扫雷游戏,我让他帮我玩一下 啊,同样,我为了方便大家观看的话呢,我还是把这个拖到这边来啊,把这拖小一点好了。这样子啊,这是一个扫雷游戏, 看一下它啊,它现在的话呢,它处理这些任务是很慢的,因为因为这是它的第一个正式支持 computer use 的 一个版本嘛,它的速度是很慢的, 但是呢,我觉得就是以这个状态发展下去的话,到下一个版本那我感觉他都可以去做那个,他都可以去代练了啊,就就比方说我们开很多个页面,对吧?让他帮我们在游戏里面来打金币, ok, 然后呢,其实我我我觉得可以这样子,就是每次他成功帮我们执行好一个任务之后呢,我们让他帮我们更新一下 啊,或者如果像我这个项目我都没有创建一些 md 啊,这玩游戏的项目,你可以让他创建一下 md, 帮他更帮你更新一下,这样的话呢,他下次就会少踩很多坑,不然的话你看他在, 他在他的脚本在一个一个执行啊,他执行了很多脚本,他都是尝试性的去实现这个任务,他得他可能得从一百种方式里面 找到一种合适的方式才行啊。但是你更新了 index dm 低了之后呢?后续的话他直接就拿他的成功的方式放在最前面啊,他可能一直接拿第一种方式一试就成功了就可以了。 你看页面变量隔离比预想的要严格。他还他还讲出来这个任务啊,他遇到了什么问题啊,他要怎么解决,都是完完整整的在这个思考过程中说出来的。 ok, 然后然后等一下的话呢,我还让他帮我来回复一下微信消息啊 啊,他要确定一下当前的一个盘是不是新开的,到底是已经玩到一半了还是新开的,如果是玩到一半了,可能他再要看一下当前的一个局势啊,当然我这个盘是新开的, 你看他执行了各种脚本文件啊,其实大部分脚本文件都是都是,都只是一个试错。 嗯,等他,等他完成, ok 啊,他终于理清了终于理清了啊,已经在扫雷了, 读取展开后的局面开始解啊,又在开始解这个,解这个雷了 啊。其实好像,好像,我如果把它变成超高的话,像还快一点啊变成超高好像快一点。为什么呢?因为它的一个思维更会更加神秘一点啊,它解决问题会快一点,只是回复变得慢一点而已。 嗯,你看他通过他不需要做图像识别了,他直接瞬间给你打出来,因为他之前他在尝试用图像识别来解这个问题,但是实际上的话呢,因为我们打开的是网页嘛,他可以直接通过 就是读源码的方式,因为网页它是可以,对吧?在 chromium 里里面,你是可以通过检查通过 f 十二检查来获取网站的一个源码的啊,所以它已经直接报文完成了。 ok, 我 不用开下一局了啊,我,我可以再让他帮我玩一下飞机大战啊, 帮我继续玩飞机大战这个游戏 发送, 然后我,嗯,我好像不能多操啊,这里有一个问题不能多操,因为他他他要打开对应的一个页面啊,所以的话,如果我让他这会帮我回复微信消息的话呢,可能不是很方便, 但是可以给大家看一下啊给大家看一下啊,微信消息啊,回复微信消息。我也是新建了一个 index html 的, 但是我说的非常简单,我直接让他帮我创建 index html 文件用于回信微回复微信 app 啊,他就已经创建好了对吧创建好了之后呢我同样让他就是每条回复都带上尾缀啊,并且啊写上日期啊对吧然后嗯你看 啊帮我回。那他这样这样子啊写了啊 ok 完成了 action dm d 了之后呢我让他帮我回复啊回复的话呢其实是已经回复成功了的啊我我重新开个绘画框。 嗯那我这边玩游戏的把它停掉好了啊停掉 帮我打开微信 app 然后定位到第一条绘画框啊然后回复里面的消息 啊用高算了啊因为这个东西应该主要是涉及到一个图像识别 发送吧啊发送把这窗弹出来啊。因为 啊 ok 他 在思考啊然后他要处理微信消息和处处理核核循消息还不一样啊。因为因为处理核循消息的话他是通 啊他打开了处理核循消息的话呢他是可以通过脚本通过那个读取网页的一个原码来执行一些任务的但是呢他要去 操作微信消息的话呢他有一个问题啊微信是不可能开放这些 a p i 的 微信 app 的 话对吧?那他只能去通过一个图像识别啊,通通过图像识别的一个 窗口。哦哦等一下等一下停止一下啊停止一下有个坑啊。因为因为我现在在录视频我是我是有打开了多个窗口的啊我我我是有多个 屏幕所所以的话呢他他默认打开的屏幕是在第二块屏幕啊对对对,他帮我挪过去了啊我重新给他说啊。嗯微 微信 app 的 话就在当前屏幕处里啊不要挪到其他的屏幕去 啊。因为我这个是特殊情况所以我给他解释一下啊。 ok, 那 不然的话,他给我挪到了另外一块屏幕,我录视频的话,大家就看不到了。为了方便演示一下, 你看啊,他的话,他的执行操作会非常慢啊,因为他打开了之后呢,他得通过 截图的一个方式,他得通过截图的方式来获取当前屏幕的一个信息。 然后呢,他截完图之后呢,他又得通过 ocr 文字识别啊,来识别对应的一个文字来定位到对话框啊,包括包括如果你让他在指定的群里面回复也是可以的,指定的群里面,他可能会定位到这个搜索框来搜索这个群 啊,搜索好这个群之后呢,对吧?他他进每进入一个新页面,他都得进一次,就是视觉啊,进行计算机视觉来识别这个信息啊,所以的话会非常非常慢,所以给大家简单演示一下啊。 啊,他还是要拉到我的我的这个麦克屏幕上去啊,大家可能看不到啊,可能会看不到啊,等一下,等他回复好了,我我我再给他拉出来 啊,已经可见了啊。啊,因为因为我,我现在大家看到的屏幕的话是副屏啊,他,他目前的话我没有跟他讲清楚。卧槽,他已经在掉我的鼠标了, 那我鼠标不能动啊,我鼠标不能动, 等一下啊, 这个是会有点麻烦的, 因为因为微信这种 app 的 话,它的一个隐私保护, 隐私保护它是做的非常那个做的很严,所以的话会麻烦一点啊,如果,比如说,如果让我们让它打开 xcode 啊,去执行一些操作的话呢,它会快很多很多 啊。你看啊,这是他的一个操作流程, 他会,他会执行各种脚本啊,打开搜索框,粘贴完整打开, 他发了一条消息,但是发错了发了一条消息,但发错了啊 啊,之前的话我有测试过,就是他是发的消息是对的啊,可能是因为我的这个屏幕的一个原因,我可以给大家 展示一下。好了啊,因为,因为我现在是双双屏,双屏话可能有点问题,我把它停掉,停掉我给大家展示一下啊。嗯,我让他回复一下啊 啊,比如说他在一个,他在我的一个微博 qq 的 群里面给我回复了一句这样的一个话 啊,比如回复了 open ai, 呃,已经发布了 chat gpt 啊,什么什么拜扣的 xapp 五点四啊,这个话就是他回复的, ok? 呃,那我们 就是今天的一个分享,就到这里感谢大家的一个观看啊,欢迎大家一见三年啊,对我的视频鼓励,感谢感谢。