codex 根据官方文档给出批量任务,不让用户说继续策略。
粉丝136获赞1715

现在我的 codex 正在帮我本地部署前问二点五十四 b 的 大模型,然后还需要大概十来分钟的时间,正好 趁着它在执行任务,我给大家分享一下从我有本地部署大模型的这个想法到落地是怎样的经历,大概用了多长时间? 呃,首先原因是前两天不是谷歌的芝麻四开源了,嗯,然后我就又重新关注了本地部署这件事,我就用 ai 学习相关的这个内容, 就是让他首先把我电脑的配置发给拆 gpt, 这是网页版的。然后,呃,让他一步步的给我讲清楚这个本地部署,他的这个架构 运行原理,还有和我电脑的适配程度和本地的大语言模型的生态,把这些所有概念性的东西通过网页的 chat 模式都给它聊清楚。 内容还是很长的,我进行了多轮对话。呃,然后呢,你看,我就用这个,这是 obsidian 的 一个插件,可以一键把所有对话内容保存到我的 obsidian 里面去。 接着呢,我就在这个 vs code 里面把我这个呃 obsidian 的 本地文件打开了,这是下载的版本, 因为下载版本呃,我们都用过这个网页对话,他实际上是很多重复的。然后废话,那全下来大概有这两千六百五十五行。我第一件事就是先让 口袋的插件帮我优化了一下这个对话,这是这是优化版,优化版的话呢,它结构性更强,然后一共才五百多行,这样就方便我把这些知识给沉淀下来,我可以再多了解了解它的原理。 搞明白之后,根据我的实际使用场景,到底哪个模型更合适?最后我得出来的结论就是这个前文二点五十四 b 并不是最新的。呃,正码四,也不是这个前文比较高的模型。 得出这个结论之后,我就直接让他帮我部署,那我给他的指令也很简单,之后让他开始执行, 下面就是他的完全自动的,现在看看装到哪了。呃,大概还有六七分钟的时间。 ok, 现在已经部署好了,总共用时十五分钟,四十三秒。他同时还帮我优化了本地文档, 你看它进行了哪些动作。就是这些都安装好了,并且进行了测试。那我现在怎么用它呢?就可以直接输入这段代码就可以用。那我们试一下,把这代码复制,然后打开我的终端,终端命令行粘贴进去, send a message, hello, 嘿嘿,那就可以用了,同时我也准备好了,如果不好用的话,我怎么卸载啊?后面如果想清理,就这三步就能卸载干净。 那从调研到部署成功,我大概是从早晨睡醒觉,七点钟开始跟 gpt 聊,然后现在是 九点四十二分,就不到三个小时,我就大概对本地部署大模型这件事有了一个框架性的了解,并且让 codex 帮我完成了部署。我现在已经用上了,哈哈,还不错, 这就是整个的过程,从你想做一件事,但是完全不知道概念,就先在网页的 chat 模式跟他聊 聊的,你大概了解之后得出一个最优的方案,适合你自己的方案,然后就用这种像可拉的 code 或者 codex, 因为他们不只是可以聊天,他们可以调用工具来执行,就让他们帮干活。呃,这样的话其实也是一种省 talk 的 方式, 你当然也可以在 codex 或者是 cloud code 里面直接跟他聊需求,但是就会花你更多的 token 嘛。所以好用的工具有很多,大家怎么合理使用它是我们需要考虑的。

你是不是也觉得,一遇到复杂的 ai 任务就头大?别急,今天咱们就来聊一个能帮你轻松搞定它的神器 codex 的 计划模式。哎,我相信大家肯定都遇到过这种情况,对吧?你给 ai 一个稍微复杂点的任务,它就开始放飞自我,东搞一点,西搞一点,给你的代码乱七八糟,最后还得自己一点点改,简直要崩溃了。 你看啊,普通人一般怎么做,直接就把需求一股脑全扔给 ai, 结果呢,十有八九是一团糟。但高手就不一样了,他们有个秘密武器,在让 ai 动手之前,他们会先激活一个战略计划。没错,这个武器就是计划模式, 他一下子就把那个只会闷头干活的 ai 变成了你的一个超级聪明的项目经理。那问题来了,这么厉害的功能,要怎么打开呢?是不是听起来特别复杂,哎,完全不用,其实超级简单,你只要记住一个快捷键就行了, shift 再加上 tab 键,就这么简单。 整个过程啊,特别清楚,就三步,第一步,你别给 ai 下零碎的命令,而是直接告诉他,你最终想要完成的那个大目标是啥。第二步呢, ai 这时候不会傻乎乎的马上写代码,他会先像个靠谱的项目经理一样,给你列一个详细的计划清单,然后也是最关键的。第三步,等你检查完这个计划,觉得,嗯,没问题了,你一点头, ai 才会开始动手,保证每一步都精准执行。 不过啊,说到这,你可能会问,用这个方法到底最大的好处是什么?我跟你说,这个好处啊,绝对会让你大吃一惊,答案就是省 token。 这个 token 呢,说白了就是 ai 干活要消耗的资源。你想啊,因为计划模式从一开始就把路给你指的明明白白的, ai 就 不用再像个无头苍蝇一样乱撞反复试错了,这样一来,不必要的计算资源消耗自然就大大减少了。 那省下了 token 对 咱们来说到底有啥实际好处呢?首先,最直接的就是你再也不用没完没了的改代码了,告别返工。其次呢,产出的东西质量肯定更高更准。最后呢,还有一个很重要的点,就是你的账户能一直保持一个特别健康的状态,不会因为瞎消耗而碰到各种限制,省心多了。 好了,干货都给你了,现在就轮到你上手试试了。学会了这么强大的计划模式,你第一个想用它来搞定的复杂项目是什么呢?赶紧在评论区告诉我们,我可是非常期待看到大家的奇思妙想哦!

嘿,大家好,你有没有过这种感觉,用 ai 编程就跟坐过山车似的,一开始哇,太爽了,代码刷刷的就出来了,可没过多久,你就发现自己掉进了一个无底洞,全是在那不停的修改返工,简直一团乱。 所以,今天呢,咱们就来聊聊,怎么才能跳出这个怪圈,从那种提示词魔法的新鲜感,真正走向稳定可预测的项目执行。 哎,这个问题是不是一下就戳中你了? ai 几秒钟就能给你生成一大堆代码,结果呢,我们自己却要花好几个小时甚至几天去给它擦屁股, 这到底是怎么回事?其实啊,这个问题的根源,你可能根本想不到,它不在 ai 身上,而是在我们自己身上。 你看,我们很多人一开始的想法都特别直接,对吧?来, ai 给你个计划,然后你自己干吧。结果呢,就像这张图里画的,特别容易就翻车了。说真的,这不是 ai 不 行,而是我们从一开始就用错了方法。 好,那我们就来深挖一下,为什么我们把方向盘直接交给 ai, 它反而会把车开到沟里去呢?其实啊,这背后有四个特别常见的大坑,咱们一个一个来看,只有把这些坑都避开了,才能找到那条正确的路。 好,咱们来看第一个,也是最常见的那个坑,它叫目标漂移, 说白了就是你的需求没定死。这感觉,就像你让 ai 帮你造一个交通工具,结果他哐当给你造了艘火箭,哇,虽然很酷对不对?但问题是,你其实就想要一辆自行车去买菜。 所以你看,问题不在于他能力不行,而是他跑偏了,因为你压根就没给他一个清晰的被冻结的目标。 接下来是第二个问题。我相信啊,很多人都踩过这个坑,那就是范围失控。 就是你给的任务边界不清楚, ai 就 会特别好心的帮你把范围扩大。你可能本来只想让他给你修一项登录按钮,结果他好家伙,顺手把整个用火系统的底层逻辑都给你重构了一遍。这种事,人跟人合作都够疼疼的了,更别说跟 ai 了。 接着是第三个,哎,这个啊,是个隐藏的风险,但它的杀伤力巨大,这就是验收缺失。我们光看了 ai 写的计划,觉得挺好,但没去检查它每一步干得到底怎么样。 这就像盖楼,你只看图纸,不检查每一层砌得好不好,等到封顶了才发现,哦吼,地基是歪的, 那时候就晚了,表面上看着进度飞快,实际上是把所有的小问题都攒到最后,来一次总爆发。最后一个,也是让我们陷入无间反攻循环的真正的罪魁祸首。 第四个问题,经验不沉淀。你每次发现 ai 犯错了,就只能临时地、口头地告诉他,诶,这里不对,改一下,结果呢?下次他还是会犯一模一样的错误,你就变成了一个永远跟在他屁股后面的全职保姆,不断地重复同样的提醒, 因为这些宝贵的经验教训,压根儿就没被沉淀下来,变成他必须遵守的规则。这句话说真的,简直说到了点子上。咱们一定要记住, 如果你的流程是错的, ai 就 不是什么生产力工具,它就是一个反攻放大器,它代码写的有多快,你反攻的坑就有多大。而这也正是我们今天要解决的核心问题。 那么该怎么解决呢?答案就是这四个能让你稳定执行的步骤。这需要我们呀,彻底换个思路,从简单的写提示词,升级到严谨的流程工程。 这个框架其实很简单,就四步,第一,冻结目标,这就是为了解决目标漂移。第二,缩小里程碑,专门用来对付范围失控。 第三,潜质验收,就是为了防止验收缺失,最后立即验证,让经验能够沉淀下来。你看这四步是不是正好就是我们前面那四个大坑的解药?一、对应完美。那么理论说完了,这四步在实际工作里到底要怎么落地呢? 关键就在于我们要学会给 ai 下达一个更强的任务单。我们来看看一个强任务单到底长什么样? 好,这张焕登篇把区别展示得非常清楚,你看左边这种,帮我重构一下后台,这就是个典型的弱任务,太模糊了, ai 根本不知道该干啥。 再看右边这个,这才是强任务。他明确指出只重构用户认证模块,然后划定了边界,不要碰其他目录。最后还给出了验收标准,所有单元测试和构建都必须通过,这差别简直是天壤之别。 所以说,一个强大的任务单,他必须包含这五个要素,首先是明确的目标,然后是清晰的上下文,你得告诉他参考哪些文件。第三是刚性的边界,规定好哪里能动,哪里绝对不能碰。第四是可量化的验收标准。 最后啊,还有输出要求,比如你得要求他必须提供计划和风险报告,这五点一个都不能少。 好了,说了这么多,咱们现在就把所有这些内容汇集成一套你可以拿来就用的新行动手册。记住,想要真正驾驭 ai, 关键不是去学什么眼花缭乱的新技术,而是要改变我们自己的工作方式和思维模式。 所以呀,朋友们,咱们的第一个关键结论就是,别再整天痴迷于研究那些花里胡哨的 prompt 了。你现在最需要的是一个强大的任务清单, 因为你要明白, ai 它不是你的同事,它不会猜你的心思,它只会严格地执行你给他的规范。随后,请一定把这个终极公式刻在你的脑子里。 ai 给你的那个计划本身什么都不是。真正的合作协议是这四项的总和、规格、里程碑、验收和验证。只有把这四点都做到了, ai 才能真正从一个让人头疼的反攻放大器,变成你手中最强大的那个效率工具。

你有没有觉得啊, open code 在 复杂工程里特别慢,还容易返工?原因很简单啊,它本质上是单的 agent 顺序执行的。 最近啊,我试了一个升级版叫欧麦 open code, 他 做了一件关键的事情,就是他把单的 agent 变成了多 agent 的 并行安装,非常简单,直接复制一句话,然后进 open code, 他 会问你有没有 clode, code, 叉等等的模型,你如实回答就好了,没有的话就告诉他全部用当前的模型, 我用的就是 kimi。 二点五装好之后,你就会发现左下角从 build 变成了希奇福斯,这是规划和调度执行的 agent。 接下来在你的任务前面加一句, u l w, 正式进入多智能体模式,它会自动拆解任务 多个 a 阵的并行执行,边做边叫验,减少反攻,对复杂的改动化文件的联动,重构场景速度和稳定性的差距会非常明显。一句话总结啊,单县城的程序员和多县城工程团队的区别。

好,这节我们继续来学习 codex 的 部署,那 codex 呢,提供了非常多的部署技能,那接下来呢,我给大家举一个很简单的例子,这是我开发了一个简单的静态元型图, 但这个元型图呢,我们现在只能在本地去访问它,如果我想分享给我的领导,或者分享给我的同事,对吧?我做出一个怎样的项目,他是看不到的,只能把我的电脑拿过去给他看,所以这个时候我们就要把它部署到线上去,对不对? 所以呢, codex 呢,也提供了对应的公开的技能,就是我们的 vsail 和 skills, 这个 skills, 那 我现在已经部署好了,给大家看一下,对吧?第一个是这个 vsail, vsail, 那 这个,呃,部署文件相当于哎,它这里面给你声明好了,我现在要部署这个脚本,该执行哪些文件,该执行哪些命令,它的作用就是这样子,就是相当于哎,可以帮助你去哎,告诉你如何部署,然后呢,你需要使用它的话,非常简单,按一个斜杠,然后选择这个 vsail, 选择这个 vsail 部署, 然后帮我部署一下,注意一定要切到你刚刚的项目上面去,对吧?然后部署完成之后呢,他会给你一个链接,我们点一下, ok, 看到他已经帮我们部署好了,对不对?这个链接现在是即使是领导也可以访问,并且他是 https 的, 也是安全的啊,也就是说现在不仅是你可以看到,你的同学都可以看到,当然呢,在国内也需要做一个转发啊,当然这种涉及的啊,讲解了好,我们再看另外一种方式啊,就是这个叫做 cloud flair 的, 这个方式也是一样的,我们需要用到一个叫做 cloud 这个 cloud file 桌面,对不对?然后我们点这个,这个也是一样的,它也是提供了一个一系列的文件,哎,它更像是一个什么应用,对不对?你看它帮你部署好了,我们点一下试试,点一下,哎,三二一,你看也可以访问了,那有小伙伴说了,我学习第一种 file 的 部署就可以了,那为什么还选第二种 cloud file 呢?对吧?我们用一个键就可以了。 首先你需要搞清楚一个点,程序员讲究的是一个,就是 back up, 比如说 cloud file, 对 不对? 这时候我们提供了这个链接呢,就有一个啊,随时随地的切换的一个备用的一个情况,对不对?其实一个访问不了,另外一个还可以访问。那我在讲其实 skills 这个东西啊,我觉得非常神奇,就如果说大家找不到什么是 skills 呢?我们就可以使用这个 find skills, 比如说我想找一个 ui 美化的,对不对?你就跟他说我要查找, 帮我找一个 ui 美化的 skills, 相当于有一类人已经把这个标准封装好了,我们就可以直接使用这一类 skills, 比如说我们这种比喻跟他说帮我查找一个 ui 美化的 skills, 我 就要直接用到我的项目当中 啊,这个时候呢,我们可以看到它这个泛的 skills, 它是作用的时候帮助我们查找这个 skills, 那 目前使用的人数是非常的多。那我知道了,下面去看的话都有啊,七八十万的一个使用量,大家可以自行去使用这个 skills 非常好用啊,就是它可以帮助你,相当于去帮你找什么样的 skills 适合你这个项目。那我刚刚跟他说,那我帮他找一个, 我让他帮我找一个 u i 美化的,他就会去帮我找 u i 美化的,并且呢,找到之后呢,我就可以直接让他帮我安装好这个 skills, 就是 完全一系列流程了,对不对?那顺便讲猜一嘴,就是这个地方 cloud 的 这个 codex 呢,他实际上 最近啊他又加了个新权限,就这个沙盒权限之前是默认和完全,现在补了个沙盒,就相当于,哎,你在你的这个呃 这个项目当中给你建一个啊保护,相当于,诶,你做一些危险的操作的时候,他会进,就在这个沙盒里面去执行,你看他会帮我去查,他会执行这个命令查 ui 的 赞,你看 ui 美化的是不是 ui 设计,是不是他会帮你查有没有对应的这个 skills, 诶?发现有是不是,那就直接帮你呃,安装一下,是不是,你看 帮我查,有非常非常多啊,因为我之前是安装了好几个,第一个是这个,呃,这个 skill 我 给大家看一下 这个 fr, 你 看是不是这是前端设计的,包括这个 ui 啊, pro max 我 之前讲过,是不是这些都是我之前安装的,但是你通过这个方法安装,你看它可以帮你找非常非常多,然后你给自己一个一个就是找到真正适合你的那一个 skills, 然后呢,大家可以发现没有,这个自动化最近其实也改了很多,你看官方提供给你的一些自动化的建议,就是说,哎,有哪一类人用的最多的自动化?我推荐你去用,比如第一个是状态报告,你看是不是他希望哎定时定点的给你生成一个报告,你可以直接使用他这个模板,是不是昨天的一个结果,你看是不是告诉你,哎,我是否可以去 根据昨天提到的 p r 或者文件,是不是还可以生成一个工作报告,这样可以每天看到你的工作是什么样的,对吧?包括可以帮你查 bug, 也可以帮你去做一些啊,一些 分字系的一些操作,你看是不是非常的分类非常清晰啊,相当于他也提供一些自动化的,你也可以选择创建自己的相当于一个周报,是吧?一般我用的最多的就是怎样呢?就是哎收集最近的 ai 信息,帮助你哎去汇总就最近的一些前沿的 ai 里面的信息,你看还是找到了,哎,找到了,是不是这个,你看官方提供了一个哎前端的是不是,你看 有二百一十三 k, 相当于哎有二十多万人在使用这个,这个 skill 是 不是这样子,对吧?所以呢, 大家可以非常方便的通过这个 find skill 去查,也可以非常方便的通过这个 versale 或者这个 cloud flair 的 这个部署的这个啊方式去帮助你把这东西呢给它推到线上去,而且是一种非常好的形式,大家可以去尝试一下。好吧,那本期视频全部内容呢?我是小刘,我们下期再见。

使用 codex, 对 于同一任务需要不断手工确认,继续执行,烦到不行。解决这个问题,你只需要在 a 针点页面里添加以下内容即可。

给大家看一下我的 codex, 这一次他跑的时间特别长,因为我在测试一个很关键的能力,他能不能真正自主开发。你看他已经把一个大任务自动拆成了八个小任务,然后再交给不同的 agent 分 别去执行,最后把所有结果汇总起来,再统一交给我验收。 现在已经跑了四十一分钟,而且还在继续,你看这边已经到四十四分二十五秒,到现在都没停。所以这次我最大的感受就是他不是那种你问一句他答一句的工具,而是真的开始具备自己拆解、自己执行、自己推进任务的能力了。这个表现确实挺给力的。

在 oslopec 发布 agent skills 两个月之后, openai 现在终于支持 agent skills 了, 现在我们就可以在 codex 的 最新版中使用 agent skills。 同时 openai 官方还发布了 gpt 五点二 codex 模型, 我们只需要确保 codex 已经升级到最新版,然后用斜杠命令加 model 就 可以查看。 g p t 五点二 codex 模型我这里选择的它的推理级别,选的是 high, 这里也支持 extra high。 通过我一上午的使用发现 g p t 五点二 codex 模型它最大的缺点就是速度太慢了,像一个简单的任务,它可能需要耗费五分钟甚至更长时间。 本期视频我们将在 codex 中测试一下 agent skills 的 使用方式以及效果,并且在 codex 中重点测试 gpt 五点二 codex 模型的编程能力。 好视频呢,开始我们可以先简单回顾一下 agent skills。 对 于不了解 agent skills 的 用户来说,我们可以先通俗地讲解一下什么是 skills。 aging skills 的 本质就是把人类的专业知识还有工作流程用机器可以理解的方式固化下来,让 ai agent 呢能够稳定可控可附用的来执行任务, 这样的话就能将 ai 从聊天助手变成了可控的工程工具。我们可以将没有使用 skills 的 ai 或者 ai agent 呢理解为一个非常聪明但没有经过培训的员工, 每次布置任务都需要口头讲一遍规范。有了 skills 就 相当于给员工配备了工作手册,所有流程和规范都写在 skills 里面, ai agent 就 可以随时翻阅。比如说我们在让 ai 写测试的时候,如果没有 skills, 每次我们都要告诉 ai 帮我写测试,要使用 test 覆盖率达到多少以上,命名规范是怎样的,每个测试都要怎样怎样,然后 ai 就 会按照我们的提示词来写测试。 当后续我们再要求 ai 来写测试的时候,我们还需要重复一遍之前所用到的提示词,像这样的话非常浪费时间。但是有了 skills 之后,我们可以将测试做成 skills, 也就是将所有的测试规范脚本还有模板都放入 skills 文件中。当给 ai 配置好这个 skills 之后, 我们再需要测试的话,直接告诉他帮我写测试,那么 ai 就 会完全按照这个 skills 里的这些测试规范脚本还有代码自动为我们执行测试。相比 mcp agent, skills 非常节省。 token, 当启动时只加载 skill 的 名称和描述,而且可以根据任务自动匹配。 而且 skills 在 执行时才会完整地加载 skills 里的所有内容还有附属资源。所以有了 skills 的 支持,我们就可以为 codex 增加各种技能以及增加各种知识。在 codex 中使用 agent's skills 非常简单。 首先我们要确保将 codex 升级到了最新版本,然后我们再用命令打开 codex 的 配置文件。 在 features 这里我们要将 skills 设为 true, 下面这里还给它设置了权限,这些设置好之后,我们直接保存并且关闭就可以。然后我们再启动 codex, 再使用斜杠命令来查看 skills。 这里有自带的三个 skills, 这个 pptx, 还有这一个都是我手动安装的。 想安装 skills 非常简单,我们只需要选择这一个 skills, 在 后面我们就可以输入 skills 的 仓库链接,比如说我这里使用 oslopec 的 skills 仓库,我们可以进入这个文件的路径,这里面就列出了非常多的 skills, 比如说我这里找一个前端设计的 skills, 然后直接完整地复制它的链接,再回到 codex, 我 们直接粘贴这个链接,直接运行就可以,它就会为我们安装我们刚才选择的这个 skills。 这里安装成功,我们只需要重新启动一下 codex, 就 可以看到我们刚才安装的这个前端设计的 skills, 然后我们就可以选择这个 skills。 在 后面我输入了提示词,开发一个登录页的 ui, 可以 看到这里它读取了 skill 点 md 文件,这里提示它使用前端设计的 skill 完成了登录页的 ui, 然后我们打开这个页面看一下效果, 打开之后我们就可以看到这个登录页设计的非常不错,非常美观。下面我们还可以测试一下,让它为我们制作 ppt, 然后我们输入命令,找到做 ppt 的 这个 skill。 我 输入的提示词是把这篇关于介绍 agent skills 的 文章做成十页的 ppt。 受众是开发者,风格是极简,深色,语言是中文,这里是要输出的文件名, 这里就是介绍 agent skills 的 文章链接,也就是这一篇文章,然后我们直接发送,好在等待了几分钟之后,它终于制作完成,然后我们打开这个 ppt 看一下效果,它确实制作了十页 ppt, 可以 看到它制作的这个 ppt 效果还是比较不错的,完全符合我们要求的深色极简风格,并且用中文介绍了 agent skills。 下面我们就可以在 codex 中测试 gpt 五点二 codex 模型的编码能力。 在测试之前,我们可以先看一下官方给出的 gpt 五点二 codex 模型的基准测试。在 swebench pro 这个基准测试中, gpt 五点二 codex 达到了百分之五十六点四,超过了 gpt 五点二以及 gpt 五点一。在另一个基准测试中, gpt 五点二 codex 也超过了 gpt 五点二以及 gpt 五点一 codex max。 好, 下面我们开始在 codex 中通过几个案例测试一下 gpt 五点二 codex 模型它的真实能力到底怎样。 好,下面我们准备一张 ui 截图,然后让 codex 为我们复刻这个 ui, 然后我们看一下它复刻的 ui 效果怎么样, 然后我们就可以输入提示词,用最适合的前端技术复刻这个 ui 页面后面我们就跟上这个图像,然后直接运行。在这里可以看到它调用了前端设计的 skill, 在 等待了十九分四十五秒之后,它终于为我们完成了这个 ui 的 复刻。 复刻这个 ui 的 耗时真的太久了,我们如果用 cloud code 的 话,基本上不到一分钟就能复刻完成。然后我们打开看一下它复刻的效果, 可以看到它复刻的这个 ui 总体还算可以,然后这些表格内容跟原图相比效果还算可以。它复刻的第二个表格跟原图相比的话,确实非常不错, 它基本保持了原图中的这些布局,还有样式。好,接下来我们再用一个非常简单的智能体框架转换题来测试,让它将微软的智能体框架 out 站编写了一个旅游智能体的简单代码, 重构为谷歌的 adk 智能体框架。可以看到这个旅游规划的智能体代码非常少,甚至不到一百行,但是我们上次在测试 gpd 五点二的时候,它没有实现将这个智能体代码非常少,甚至不到一百行,但是我们上次在测试 gpd 五点二的代码非常少,甚至不到一百行,但是我们上次在测试 gpd 五点二的代码非常少,甚至不到一百行,但是我们上次在测试 gpd 五点二的代码。 好,下面我们可以看一下这个提示词,先让他阅读谷歌 adk 的 官方文档,然后告诉他将这个旅游规划的智能体代码重构为谷歌 adk 框架的智能体代码, 要求保持原有智能体的逻辑和功能,并未重构后的智能体加入 ui 操作界面。然后下面这里就是刚才我们查看的不到一百行的旅游规划的智能体代码。我们直接完整地复制这个提示词,然后粘贴到 codex 并且执行。 像这个简单的任务,我们就直接用 web 扣领的方式让它直接阅读文档和代码,并且直接进行改写。 像这个测试题可以测试 gpd 五点二 codex 模型的信息解锁与文档理解能力,还有代码理解与分析能力,以及跨框架迁移,还有重构能力,还能测试多任务协调能力。所以这个题目用来测试 gpd 五点二 codex 模型还是非常适合的。在等待了九分五十三秒之后, 他终于完成了将旅游规划智能体的框架重构为谷歌 adk 框架。下面我们就按照他给的步骤运行一下这个项目,打开之后我们看到了这个 ui 界面,然后再输入框,我们就可以输入任务,让他规划三天的尼泊尔旅行,我们直接发送。 下面我们看一下这个智能体的执行步骤,还有结果是否正确。首先是输出的三天的尼泊尔旅行的一个简单计划,第二部分是当地特色,还有深度体验, 这个是没问题的。然后第三部分,它给出了一个最终的旅行规划,在微软智能体代码中,这里还包含这个当地的语言专家会给出当地的这些常用语, 但 gpt 五点二 codex 它改写后的这个代码就缺少了语言专家这个智能体。所以这个测试题虽然它耗时将近十分钟,但它并没有复刻微软的这个旅行规划智能体所有的执行流程还有逻辑。 好,下面我们准备一个更加复杂的开发项目,让他开发一个 ios 原声背单词应用,这里给出了应用名称,目标用户。这里是具体的技术要求,而且要遵循 mvvm 架构模式,并且使用 swift data 进行数据持有化,还要实现单词发音功能, 还支持深色浅色模式。这里是具体的界面结构,包括首页练习,还有进度还有设置。下面这里就是核心的功能,包括单词卡片, 还有发音功能,还有收藏等。这个测试题我用来测试 cloud code, cloud code 能一次给出完全可以正确运行,而且包含所有功能的代码。在开发之前,我们先用 x code 初步化一个项目,这里我们就选择 ios, 选择 app, 下一步这里我们就输入项目名称,然后我们选择一个文件夹, 然后我们打开终端命令行,切换到刚才的路径,再打开 codex, 我 们先用 edit 命令让它来创建 agent 文件,这样的话它就能学到我们部署化后的这个项目的这些内容。好,这里运行完成耗时将近两分钟。 由于这个测试题目比较复杂,所以在 codex 中我们可以先让它为这个开发任务制定计划,我们直接调出它的计划模式,然后粘贴这个提示词直接运行,先让它根据我们的开发需求来制定一个完整的计划。 好,可以看到这里它调用了制定计划的 skills, 它这里只耗时四十八秒就完成了计划的制定,这个速度还是非常快的,然后这里它询问是否需要调整细节,第二个就是直接实现,第三个就是保存到这个目录,然后我们这里就让它根据计划直接实现。 由于这个项目比较复杂,它开发估计需要非常长的时间,我们直接略过这个开发步骤,直接跳到它开发完成的步骤,这里耗时将近三十三分钟,终于完成了这个项目的开发。下面我们在 xcode 中测试一下这个项目能否正常运行, 我们先点击运行,看一下能否正常的翻译好,这里提示报错,然后我们直接先复制一些报错发给他,让他来修复,这里修复完成,我们再测试一下。好,这里提示翻译成功。 好,这里又出现了报错,然后我们将报错发送给 codex, 这里提示修复完成,然后我们再运行一下,看一下这次能否正常的执行,然后还是出现了报错,我们还是让他来修复 好,这里提示修复完成,我们再运行这里,还是报错,我们还是发送错误给他,然后我们再运行, 还是出现报错,我们还是让他继续修复好,这里修复完成,我们按照他的提示清空一下模拟器,然后我们重新运行好,这里终于能正常打开这个 app, 但是这个界面竟然是英文的,他没有用中文的,可以看到这里可以正常做练习,这里终于加载出了单词, 可以正常翻转 line, 可以 听到能够正常播放声音。下面我们让 cloud code 分 析一下他开发的这个项目是否遵循了我们提示词中的 mvvm 架构模式, 然后我输入提示词,检查这个项目是否符合 mvvm 架构模式,直接发送 cloud code 很 快输出了回答,我们看一下他说这个项目部分符合 mvvm, 然后这里提到了所有代码都在这个文件中,约两千多行。然后我们在 xcode 中查看一下,可以看到这个文件中的这些代码真的达到了两千多行。然后这里就是需要改进的地方,应该拆分为多个文件,并且这里给出了典型的 mvvm 势利。 通过 cloud code 的 分析,我们就发现了这个非常不应该存在的问题,它将两千多行代码都放在了这个文件中,这是非常不应该的。好,通过测试可以发现 g p t 五点二 codex 它确实相比之前的 g p t 五点一有了一些提升。

好,今天我们一起来看一个 open i 最新开源的一个项目,叫做 codex pracking 杠 c c, 那 我在 github 上目前掌握了五 k 的 star, 仅仅开源了十二个小时,它的作用就是可以帮助我们在 codex 当中去使用 codex 来审查我们的代码, 或者去安排一些任务,那我们看怎么使用?首先你目前呢想要在 codex 当中使用的话,你就执行这三个命令。第一个是安装这个插件,你安装好插件之后呢,重新加载一下,然后直接执行这个 codex 杠 set up 能帮助你进行初步化,也就是和你的这个啊 codex 进行一个关联,相当于你这里的所有的 codex 的 任务,然后你都可以在括号的 code 中去看到,然后去关联上来。 好,那我现在已经执行了这三个命令,执行完之后呢,接下来呢,我们就可以去哎进行一个登录,那你可以登录你的这个 codex, 登录完成之后,接下来我们就可以去审查我们代码了。首先第一个命令是 codex 杠 revenue, 对 吧?这个冒号后面跟的是一个 background 的 后台运行。 打个比方说,我现在想要在 codex 当中去审查我的这个呃代码,对吧?但是我这个路口是从 codecode 进行执行啊,比如说这时候我就可以执行这个啊杠, 这个 relevin 执行一下,后面可以跟上一些命令,那这个冒号里面跟的是哎一些具体的命令,对吧?比如说像这个 white, 比如像 background 以及 bass。 那 我现在直接执行的话,就是正常的去对我们这个代码进行审查,它这个审查 只是说哎,对你这个整个项目会进行一个扫描,你看他会进行扫描你的这个 get 的 所有提交记录,然后去看你最近的一些提交记录,然后对你的代码进行审查。并不是说某一个文件,某一个具体的这个,你看某一个具体的这个啊文件夹,而是整个项目去进行审查。那我这里的暂时呢?就哎, 就暂时先不让他审查了,然后再往下看啊,就是除了这个杠 codex 冒号 mini 之外呢,他还有一个其他的命令,比如说像你可以指定分资进行审查,也可以在后台去进行审查,你可能觉得太久了,那你就后台审查。那有小伙伴说了,既然我这个 codex 本身来说就已经有这些审查和哎后台扫描的功能呢?为什么还在开发一个插件去让克拉克的支持呢? 这也是这个 open i 下的一步棋,就是可以让我们在任何场景去使用 codex, 包括甚至在 cloud code 当中,因为 cloud code 现在目前市场占比是很大的,对吧?那如果你有这个差劲呢?你就可以在这个 cloud code 中去使用 codex 套娃了。那除了这个命令之外呢?还有一些其他的命令,我们一个一个看,比如说这个,对吧?这个命令是一个更加严格的命令,比如说,哎,我希望你去审查某一个分支的某一个文件夹,或者某一块逻辑,比如说我要求他去改动什么,改动这个设计的逻辑,对吧?从事设计的逻辑,对不对?他还有一个命令叫什么?就叫他还可以派出派 真指令你交给这个 codex, 比如说,哎,我执行这个命令,他就会自动的去,哎,把这个指令交给这个 codex 啊,当然呢,他还有一些其他的命令,大家可以看到非常非常多的命令啊,都是多种方法 在 codelode 里面去命令这个 codex, 对 吧?非常的清晰。如果,如果我想要取消的话,我就执行杠 codex 冒号跟上 console, 这样我们就可以取消我们刚刚运行的这个 codex 任务。如果想看到结果呢?我就执行杠 codex 冒号跟上一个瑞造的,这样我们就可以看到这个我们当前 codex 在 codex 里面的这个 具体的这个输出。那现在我们可以演示一下,比如说,哎,我想看到现在目前所有的一个状态,对不对?那我现在是不是可以使用我的上面这个命令杠 codex 冒号跟上 space, 对 不对?这时候我就执行 回车,好,这时候他会返回一个表格给我们,告诉我们现在,哎,我的这些命令到底只剩下一个什么状态?那这是我们刚刚执行的,我们可以看到,是吧?上面是 job id, 代表我现在开启了两个审查任务,下面已经返回了,对吧?三个,你看现在三个, 哎,现在每一个返回告诉我们当前状态是什么?当前状况是 fail 也发现问题了,对不对?告诉我们现在,哎,这个任务现在出现问题了,对吧?所以呢还是很清晰的啊。那我们再往上看, 如果说我们想看到具体的结果呢?我们就直接杠 result, 然后呢后面要跟什么?跟上一个任务 id 是 不是跟上这个?这样我们就可以看到某一个这个任务的这个结果,你看到到底是为什么原因?哎,它出现了这个问题,所以呢,我们通过这种命令呢,就可以直接在 code 里面操控这个 codex, 是不是啊?我觉得如果是一个 cloud code 的 爱好者,特别适合这个插件。为什么?因为你既想用这个 codex, 又想用 cloud code 的 一个插件就搞定了,是不是?你看告诉我们运行失败了,你看这个筛选原理是这个,然后你可以直接在这个这个 codex 当中去看, 就是告诉我们为什么失败了,对吧?那我们再往下看啊,你还可以取消某个任务,还可以去哎,认证某个任务。那总的来说,这个插件其实就是能够帮助我们在 cloud code 当中去使用 codex。 好 吧,仅此而已。好吧, 大家可以去尝试一下,我觉得是一个嗯,蛮不错的插件。那在 get up 上仅仅开完呢,不到一天就收获了五千人的关注,还是挺震惊的。

大家好呀,今天我一定要向大家安利一下 codex 的 automation 这个功能,对它是一个非常省心的点,这个自动化怎么跑?我就用了它自己内置的一个 summarize git 这么一个功能来做一个演示,我们一起来看一下吧。先说时间,我设定的呢是每天九点钟,只要我的 codex 的 app 是 在运行的状态,它就会自己去手动跑,不需要你触发 这个时间你是可以自己去设定的,你可以设定的是每天定时或者是二十四小时轮动啊。第二点,当它自动化在开始跑的时候,它会自己去创建一个独立的 walk tree 啊,它是在一个工作区里面去跑,会影响你手上的开发,这是第二点。 那第三点呢?它输出的结果就会进到一个 inbox 里面,类似于一个邮件箱啊,只要它完成了之后,它就会发给你,如果说有变化,就会有一个通知你,你就可以去点开查看,那如果说没有变化,它就会自动归档了。 第四点,就是它的整一个自动化的内容,你是可以通过 prompt 去控制的,这个 prompt 你 可以去引用你的 skill, 比如说我想让它的自动化的内容以一个 word 方式或者 excel 的 方式输出,那我就可以去调用这个 excel 的 skill, 只要你说清楚啊,它是完全可以遵照这个 prompt 去进行一个执行的。 对,这个是第四点,那第五点呢?就是他的一个权限是完全遵照你全局杀香的一个设置的,如果你自己设置的是止毒,那么这个自动化一定也是止毒,完全是由你来控制的,当你觉得整个自动化的流程它是安全的,你再进行一个权限的放开, 我觉得这个这个自动化的功能是非常有效的,你可以用它给你内置的一些模板去测试,或者是说你自己来进行一个创建。当然现在只支持苹果的用户,安卓的用户可能还需要再等一等。那么你今天自动化了吗?快去用起来吧,记得一键三连哦,拜拜。

今天教你两个小技巧,让你的 codex 变得又快又聪明。首先我们打开 codex, 打开 codex 前呢,我们运行这条命令去更新,我们分为两块来说,一个是如何让 gpt 变得更加聪明,一个是让 gpt 如何变得更加快, 变得更加聪明呢?其实我就是我们在模型选择上,我们需要去适配自己的一个这个需求,并且我们要设置好一些模型的思考深度。 我们在选择模型上,其实我平时用的比较多的可能是 gpt 五点四啊,但 gpt 五点三 codex 在 部分场景下,它的性能其实会优于 gpt 五点四。那为什么这么说呢?因为 gpt 五点四它在更新中啊,我们上期视频有提到它的这个工具搜索的能力, 它是会去适配你的需求,然后去搜索想要调用的工具,这样就导致一个问题,就是它在一些场景下,其实我不想让它调用工具,它非要去调用工具,因为它为了 token 嘛, 它会调用一个工具去写一个 python, 写完 python 之后用这个 python 脚本去改代码啊,就是这样一套流程操作完之后呢,我觉得它的效率和精准度我觉得其实是不如 gpt 五点三 codex 的, 他直接改,他哪怕多费点 token, 但是大部分场景下其实五点四还是不错的啊,我这边就选择五点四了。 好,那进来之后呢?这边有思考深度,很多人就不知道这个应该怎么选了,他有低中高和超级高, 我个人在大部分情况下我都选择茶嗨,也就是超级高。思考的模式的话,大部分情况下就是匹配你自己的需求吗?如果你的这个问题呢,是比较大的,比较重的一个任务。 我举个例子,你从零开始构建一个非常大的项目,或者说你把别人项目,你想要完全的重构,那这样一个比较大的工程的话,那必须要去选择超级高啊, 但他花的时间会非常长,但是他的模型的智商啊,也是会非常的在线,基本上一遍或者两遍就能改好 啊。那还有一种情况下选择超级高是什么呢?就是比如说你布置了一个任务之后,不管这任务大小哈,你布置了一个任务之后,你就不不管他了,我可能去吃饭,我跟你出门了,那就选择超级高,因为你就让他慢慢做,就就不差这个时间。 实际上他这四种模式呢,其实关键的差距就在于时间。当然 token 也有差距,平时你比如说一些小的改动,改动就涉及几行代码,或者说就涉及一个文件的时候,那你就选择中的啊,这个第一是不建议去选了,我们这选择超级高 这个智商讲完呢,就是速度,那速度其实有很多方面,第一个是这个 fast 模式,我们一定要开启,它可以提升你这个模型 token 的 输出速度 啊,但他会两倍计费啊。我这边是已经开启,再再点一下,就是这边要 on the mode set to on 啊,这就是开启了,如果是 set to off, 那 就是关闭,因为你可能之前已经开启过了。然后还有一个就是这个权限的问题, 如果你不知重的任务,我建议也是给他完全权限,那为什么这么说呢?就是他有可能中断了, 那我可能一个小时,两个小时,那我都得盯着,对吧?其实大部分情况下做不到的,那我就选择完全开启,在完全开启的情况下呢,他是可以直接不经过你的授权修改删除任何的文件。 所以我们在开启这个模式之后呢,我们一定要去做好备份啊,或者是用 get 去做好这个仓库的管理啊,不然的话有可能你的代码会完全丢失啊。你如果仓库管理做好,他误伤了你什么文件,你直接回退一个版本就好了。其实我自己用是开启,但是大家要注意一下,就是 如果是一些老版本你们不愿意更新的话,那就在这个选项里面,它是一个实验性的功能,它有一个叫 marty agent, 也就是呃窝代理的这个功能。新版我刚刚看了,已经是默认开启了 这个功能。之前你在斜杠输入命令 m u 的 话,如果他有的话,他会直接在这里跳出来,就是有一些老版本他是在这边,有一些是在那个呃实验性功能,这这个设置里面都有可能。那个东西他是干嘛用的呢? 就比如说你读取文件啊,我现在有三个文件,对不对?我现在要让他读取这个项目,理解这个项目,那如果你开启 martingale 的 话,他会同时去, 就是多县城的去读取,三个并行去读取,那他的速度就会快非常多。最后读取完之后呢,再统一导入到主代理上,让主代理去理解。所以说你有非常多文件,像像这个文件夹,它有非常多文件,比如说十个文件, 但之前的老版本他需要一个一个去读取,我比如说读完这个去读这个,读完这个去读这个就是太慢了。 那现在的这个 martingale 呢?这个模式是非常非常重要的,所以说大家一定要开启这个对于你的速度的优化是有一个 质的飞跃啊。但整体以 codex 目前的这个使用技巧也就这些,过去如果 codex 有 一些新的更新,我也会同步给大家。好,那本期视频到此结束,我是程序员秃头哥,学 ai, 关注我不迷路。


下班了吧,该学 ai 啦,各位观众老爷们下午好啊!今天我们来讲讲 codex 到底该怎么上手。 codex 支持 gpt 五点一到五点四的所有模型,并且允许各位观众老爷自定义推理强度,对于不同难度的任务可以随意调节推理强度,这样就不会浪费 token 啦。 codex 也可以更改权限,可以让 codex 完全接管电脑,但是各位观众老爷还是要慎重选择,注意信息安全保护哦! codex 内置了很多应用和技能,可以在应用页面直接添加,比如这个网页 app 的 应用,我们直接点击加号进行授权就可以直接使用了,非常方便。 除此以外, codex 也内置了像 kanva、 figa 这些设计应用,对于需要进行 ui 设计的观众老爷来讲也是较为便利。 skills 方面, codex 也有像 play ray 这类的内置 skills, 可以 自行配置,也支持通过第三方方式添加自定义 skills。 同时 codex 也支持自动化定时任务,比如这里小卡想让他每天审查我的代码有没有问题并给我汇报,就可以自定义一个任务让他来完成哦。 设置方面,值得一提的是, codex 允许用户修改模型运行速度这个地方,如果我们调成 fast 模式,模型就会以一点五倍速工作,但是同时要注意 token 的 消耗也是翻倍的哦。 实操方面,对于小白来讲,和小卡之前讲过的其他软件区别不大。我们打开计划模式,输入我们的想法,就可以让 codex 开始工作啦。依旧是会根据我们的需求提出几个问题,确定好执行计划,然后开始写代码就好了。 值得一提的是, codex 允许将所有代码在 cursor vs code 等软件中打开,打开后各位观众老爷想用其他的模型来继续工作也是完全没问题的。 那 cursor 和 codex 以及 cloud code 到底有什么区别呢?嘿嘿,我们下次再说。