发了一个研究报告,是他们内部的一个小团队做了一个应用,在几周的时间交付了一百万行的代码,完全是用 codex 进行编辑的,完全没有使用人工的方式,这也是他们的一个强制的要求,它整体是搭建了这样的一个系统。 他也说了一下他的一些经验,最终达到的结果就是他们只需要一个提示,然后他们的这种智能体代码,智能体会直接去执行这种各种的一个预设的这种流程来进行完成和最终的发布。 他这个经验报告呢,如果说我们能搭出来这样的一件事情的话,肯定是去完成一个项目是绰绰有余的。而且他这个经验里面我个人觉得非常牛的是两件事情, 因为我们现在用这种 codex 或者说 cloud code, 我 们运行出来并不是说它性能好不好,准确度高不高,而是它跑出来的结果。我们人很大的成本现在来自于如何去做测试。 但是他们这个应用不是说这种桌面版的应用,更多的都就是一个网页前端的应用。他们用了这种 chrome 的 开发者模式,让很高的一个权限给到了 codex, 让 codex 去做检查解锁,达到了自己解锁这个内容,然后重现错误,并且修复,并且分析这些 ui dom 的 一些行为, 这是一个比较大的一个点。还有一个点我是认为非常有趣的,就是吞吐量改变了合并的观念,因为我们做一些修改的时候, 其实我们会非常的小心,特别是一些成熟的项目,你做一些修改,你必须要做非常多的验证,觉得完全没问题了之后,你才会把它合并到主项目的文件这个数中。 但是当 codex 大 模型来了之后,它的规范反而成了反作用,因为它做修复非常的快,所以说你只要能简单的测试它是好的,就直接合并,直接上线,如果有错误它马上就拉下来进行修改就完成了,就没有必要去做非常严谨的这种验证, 因为他的纠正错误的成本十分的低廉,而等待去测试的成本是非常的高昂的。所以说现在的一个策略是会有一定的进行转变的。 我们还是详细看一下这篇报告,他主要也分享了很多他们的一些经验。首先他们就说了一下,他们是人类掌舵智能体进行执行,他们有一个规定就是不允许手写一行代码,从开始 他们不编写任何代码,工程师是做这种框架和需求进行转化成 prom 的 一个工作, 然后是由 codex 进行编写,然后他们就发现了一个问题,他们的瓶颈就是如何审核这些 codex 出来的结果,然后他们解决的方案就是让他拿到更多的这种开发者权限,让他自己能去复现错误,然后修复错误,并且这些日制信息都会暴露给这个 codex。 就是他们的一个经验,是给 codex 提供一张地图,而不是一千页的使用手册。因为 codex 它的上下文就是特别稀缺的,所以说你不要给它过多的指导,因为全是重点,那么就是全部没有重点。 它跟 cloud code 它们的方式是一样的,就是你给它的这种文档是分成树状的结构的,它需要的时候它会到对应的文件夹里面去找去查,而不是你把所有都放在一个文件中。 然后就是智能体读取才是最大的目标,因为上下文是有限的,每一次执行的时候他都要去对应的上下文,所以说你的这些项目必须要让一个新的工程师马上拿到之后,他就知道他的上下文他要做什么,所以说他的文档必须要写的非常详细,而且要非常有结构性, 要对应的文档要放在对应的一个项目,对应的一个模块下面。然后就是其实他这个翻译有点问题啊,他这个意思就是你要保证输入输出就可以了,他具体怎么样实现就让智能体自己去实现,甚至尽量不要使用这种 新的一些库,最好就是让大模型他的训练,在最好就是使用大模型在网络上训练常见的一些库,或者常见的一些原则性、 原理性的代码,甚至让大模型他自己去实现,都比他直接使用某一些库,某一些现有的库会效果更好。因为现有的一些库他在他的训练中看到过的比例是非常少的,所以说他是不擅长的,甚至让他自己去实现他还更擅长一点。然后就是吞吐量,就刚才说的, 然后他也说了一下,他们生成的真正的含义是几乎所有的内容都是由智能体生成的, 他们没有做一行代码的更新,只做了这种优先级的排序,然后将用户的反馈转化成验收的标准,或者说一些新的功能工具,然后把这种 pr 提到代码库中,由 codex 自行进行编辑或者修复,最终达到了很高的一个自主水平, 如果能搭建出这么一套智能体编程的系统,那么就非常的牛了,但是他们没有开源他整个系统或者怎么样使用。然后最后他也说了一下,因为智能体他的自主进行写代码,他也会有非常多的问题,就是他的伤他会非常的混乱。可能这里这里的命名是这样,这里的命名是这样, 最开始他们是由人工去做一些修复或者清理这些遗留的问题,然后后面的话他们就使用每一天去做一下扫描,定期的进行这种技术债的消除。 然后他们说了一下他们的一些欠缺,其实就是设计环境、反馈回路和控制系统,他还是很大的原因就是怎么样去做审核,因为他这个都还是比较好判断结果的一些方式,因为他都是这种外部的应用,如果是一些这种桌面级的应用,他这个也不是那么合适。
粉丝1.1万获赞13.3万

为什么我说现在就是你开始 vaping 的 最佳时机?因为现在开始的成本真的很低。 openai 的 创始人 sam ottoman 在 推向上宣布,他家旗下的 codex 能免费用了,而且免费的不是什么渣渣模型,而是 openai 最新的 gpt 五点三。 codex 速度更快,逻辑更强,完全不输隔壁添加了 cloud ops 四点六,那我已经深度使用一个月了,并且已经手搓上线了自己的产品。那么这期视频我们一起来学习一下如何正确使用 codex, 开启你的 web coding 旅程。 给还不了解 codex 的 同学简单介绍一下, codex 是 open ai 旗下的编程智能体,而隔壁 cloud code 是 同一种产品,有了 codex, 再加上 gpt 五点三的模型,就可以愉快的编程了。 一般人看到黑底白字的命令行界面估计就被劝退了。别担心, codex 不是 硬核的即刻工具,它有正儿八经的图形界面,官网下载、安装、登录一气呵成,没有什么要你做的复杂配置, 接下来的内容很关键,你要搞清楚两个概念,工作区和 thread 工作区。你可以理解为你的项目文件夹,比如你想做一个网站, 先建立好文件夹之后,所有的代码文件都会保存在这里。而 thread 就是 一个个的聊天窗,这些聊天窗就是 一个个的任务线。这里有个黄金法则,大家一定要记住,不同的任务要开不同的 thread, 千万别在一个窗口,一会让它改 bug, 一 会让它写新功能。另外你也不用傻,等任务完成,你可以同时开多个 thread, 同时处理多个任务,效率直接起飞。前段时间爆火的 skills 在 codex 里直接格式化了,内置了几十种的 skills, 鼠标点点就能安装了。这些 skills 能让你的 agent 如虎添翼,关键省去了繁琐的搜索和安装过程。 最后分享一点个人使用心得。上一个视频里我推荐了谷歌的 anti gravity, 其实这两个产品你可以一起用,把 codex 的 插件装在了 anti gravity 里面,这样你可以同 同时要用多个模型,比如让 g p t 五点三改 back, 让 jammer 做前端,让 cloud 出方案,不用切屏,不用复制粘贴,一个界面汇集世界上最好的三种模型帮你干活。这套 web coding 的 形态, 你值得拥有。以上就是本期视频的所有内容,欢迎关注艾伦,二零二六年,我会持续创作更多 web coding 和 ai 工作流的相关内容,我们下期再见。

我试用了几天 openai 新推出的这个 codex 整体使用情况,我是,我觉得我是非常满意,然后用户体验非常好, 尤其是针对那些不喜欢迷你行工具,或者是不知道怎么用 ide 的 那些,给你们看一下这个界面哦, 他这个里都是以文件夹形式,一个项目就是一个文件夹,然后这个文件夹下面你可以跑多条任务,我为什么要出来用呢?你在一个窗口下面,你布置了任务, 你可能还会有些其他的问题,你和他进行了探讨,等你这个上下文过长以后啊,整个模型它的召回率就会比较低, 这就是我们说的那个上下文污染。现在按照这样的方式,他其实已经在引导你,告诉你说,呃,你的一条任务就在一个窗口里面跑,在一个对话窗口里面跑就行了, 然后你可以开多个对话窗口去一个分别执行。还有一块我觉得是比较有特色的,是 openai 做了一个,现在看上去我感觉就是一个给我的技能商店, 然后每一个 skill 你 就可以直接一键安装,安装完成了以后去聊天窗口你就直接可以用,刚刚装好了就在这里就能看到,这个实在是太方便了,然后你不想用了,或者是你觉得不好用,你就直接卸载掉, 这个我真心觉得怎么说,我觉得这应该才是一个软件真正该有的样子吧。然后它的编程我做了一个简单的小测试啊, 因为我看网上有很多人已经测试过了,然后都说速度很快,但我不知道为什么,我这里设置的,我就让他帮我创建一个 to do list 演示程序,然后这是一个很基础的软件了,很基础的一个小的需求了, 但是他应聘的时间你看 work worked for 七分十七秒,我对这个数据, 对这个时间我感觉挺震惊的,然后我就赶紧跑去拿 claus, 四点六跑了一下,一分十七秒就跑完了。那反正我觉得我对 codex 的, 我对它的模型的能力其实是认可的,因为原来我也是在 cursor 里面,经常在 cursor 里面去用 codex 五点三,这个用 codex 五点二,那时候没五点三的时候就用五点二去 改一些比较顽固的 bug, 所以 我对 openlight 的 模型能力从来不怀疑,只是说原来 curses 里面有我没用而已,就没有用官方的了。然后简单说一下这个软件的一些小配置, 这边有个开关建议把打开,因为他可能运行的时间比较长,你电脑可能会睡眠,导致程序运行中断,这个打开了他就能保持你电脑一直处于一个唤醒状态。然后这边是这样模式的话,呃,你可以 相当于你下指令以后,你可以补充你的指令,或者是嗯,他朝另一个方向去思考。这两天反正应该有。我没仔细看他的更新的频率,但我前两天用的有的 bug, 这两天就已经没有了。 我之前这里他会弹出选择框的时候,那个选择框选完了,但是那个选择框不消失, 反正我今天用了一天,我也没发现有这个问题,应该是已经修复了。总结一下,我觉得这次这个格式化界面真的给人耳目一新的感觉。我习惯了格式扣的,但是我用这个我还是觉得用的很爽, 用户体验非常好。格式扣的里面看时间长了我觉得也就切来切去,我切的也很头疼, 我还是强烈推荐大家去试用一下。无论你是做 webcoding 也好,还是说你做一些文案类的工作,我觉得这个软件都非常非常适合你。

codex 跟 c c 到底哪个好?我想大家各自都有自己的判断。在我个人为二者都充了二百刀的 pro max 会员以后,我个人的体感是 二者的模型能力之间并没有本质的差异,甚至都足够惊艳,让人心喜。但它们其实代表了两种完全不同的人。与 ai 合作的费洛索费 本质上,我们不是选择两个工具,而是选择两种与 ai 交互的模式。你习惯使用哪种模式,你的工作场景是哪种模式,你就应该选择支持哪种哲学的普顶工具。通常来说,抽象的讲, 软件工程开发的模式可以粗略地分为两大类,首先一类是那些探索性不确定的 idea。 在这种场景下,我们自己可能对需求要做什么,最终的一个中态是什么,甚至过程中该如何实现,它都没有一个明确的定义,它更多是我们一个拍脑袋的灵机一动的想法。当我们解决这类问题时,我们期待的一个 partner, 无论是不是 ai, 它应该都要能 快速的与我们进行交互,通过一些他主动的提问甚至判断给我们更多的信息输入,通过一系列的沟通,最终确定出一个相对更结构化,信息密度更高的思维原型来指引我们后续的执行。 而另一种常见的工作模式则是一个更明确的需求,比如说产品已经给我们了相对明确的 p r d, 那 我们剩下要做的只是说把这个项目 真正转移为一个可以被执行的代码而已。对于绝大多数的研发而言,这种场景下想要做的事情是基本完全确定的,我们在此时要做的无非只是一些 dirty work, 把那个 p r d 转化为真正写出来可用的代码而已。 而结合我自己的使用经历来看, c c 更适用于前者者的工作模式。它会在你输出一些观点之后快速地给你响应,并且高频地向你发出提问,以确定它后续的一些方向执行思路。但 codex 则完全相反,它会在你给完需求以后, 非常认真且可靠地将你的需求描述执行完。这个过程会花很长的时间,但是 结果往往是令我们满意的。想要更明确的拆分这两种工作模式的分野,我们不如从三个维度上来进行拆分,首先是任务商,也就是目标的清晰程度以及约束条件的多少。其次则是以我们预期的交互结构, 我们到底期待着与其他 partner 是 同步的沟通,还是说是一些异步的沟通模式?另外则是一个人类所占主动性的比例, 我们到底期望 ai 占据多少责任?他们是只是执行任务,还是说给我们也有一些他自己的认识建议?其实这三者并非是一个非常正交的关系。一个很明显的结论是,如果一个 目标的本身并不清晰,只是我们拍出的粗糙 idea, 那 我们显然就需要我们的协作者能快速的发问,帮我们把 自己大脑中一些比较模糊的观念导出出来,并且通过一些沟通确定哪些思考是我们需要的,哪一些是可以被删除的。通过这种 快速的同步沟通,得出来一些更结构化的结果,那在这个流程中, ai 需要介入的部分以及引导的主动性就会占比更多,但如果这个需求本身就像我们之前讲的已经相对来说明晰,是一个低伤的场景,那我们就不太 需要。它是一个很同步,事无巨细都要向我们发问的流程,它完全可以在我们把事情说清楚之后,一步的完成这个工作,从而解放我们人类自己的时间。我们也不需要给他太多主动发挥的空间,他只需要忠实的执行我们给他的需求就可以。我觉着对未来工具的使用以及工作流的设计,也都是从这三个维度去进行判断,动 态的选择。我们到底适用于哪种工具,应该主要采用哪一种工作流的思路?如果要打一个比方的话, c c 更像是坐在你隔壁工位的好蜂蜜, 会在有了一些 idea 之后立马的打断你现在的所作所为,跟你去探讨它的一些碎片化想法。而 codex 则更像是一个你忠实可靠的下属,在你交代完任务需求以后,忠实的可靠的帮你把事情完整的办完再通知你。我已经做好了。 每个模型都有它们自己的性格,我们也可以顺应的这种性格,在不同的工作场景中选择不同的工具以及模型。 以上是二零二六年二月我对这两个投影工具的一些使用场景总结,但我相信这个领域是日新月异的,二者工具之间 大概率在未来也会发生一些融合。不会说一个工具只是一种工作流场景,那就需要我们未来本身人类自己有一些对需求使用场景的预判,从而能告诉模型它应该采用哪些工作流模式。软件工程永远没有银弹, 不可能说我们用着一种模式,一条道走到黑,就可以得到一个很完美的结果。如果你在错误的场景使用了错误的工作模式,那模型给你提供的支持也就会非常有限。 结合自己的需求,场景动态切换自己的工作流模式才是一个更高效率开发的必经之途。以上是本视频的全部内容,如果你有一些想法或者建议,期待评论区讨论,谢谢大家!

啊,我好喜欢 codex 最近新出的这个 plan 的, 这个模式给人满满的安全感,特别是对于那些想学习一些新技术,新的概念的呃人来说,呃,这种 plan 的 模式 就是他可以来说他可以把你脑中的比较模糊的要学习的一个技术,然后经过和你呃一点一点的呃规划,把它总结成一个包含时间周期,包含成本、 包含场景、包含要学习的内容的这么一个一个计划,给你规规划下来满满的安全感。比如说我最近学习那个 cloud boot, 也就是 open cloud, 它的下边的一个框架叫 pi, 叫 pi 是 一个很优秀的一个框架, 但 aj 的 框架,但是我不知道他优秀在什么地方,我只知道很多人在讨论他,所以说我就希望他啊,我就希望他我想学习这样的一个技术,一个能力,然后但是我不知道从哪入手,或者我应该怎么去一步一步的去实现,去体会到, 然后他给我一步一步的去给我设定目标,设定时间啊,设定成本、设定场景,给我出了一个小小的计划,我觉得 还是很舒服啊,这个拍板对于我这种不习惯用终端命令的人来说非常的舒服啊,所以我就拍这个视频。

codex 中可以免费使用的,就在前几天,萨姆奥特曼宣布为了庆祝 codex 用人的发布,添加了免费访问服务, 接着更是直接宣布在活动后将会继续向这个 free 用户提供 codex 服务。在 codex 中,我们能够直接使用最新发布出的 gpt 五点三 codex 模型,接下来介绍如何在 codex 中使用这个最新的 gpt 五点三 codex 模型。首次安装 codex 的 话,我们需要在终端中输入这行指令, 就是如果是我们之前安装过的话,先输入下面的代码,也就是这行代码来更新我们的 codex c l i, 否则就会用的是旧模型。输入后呢会提示添加了几个 package, 代表我们更新完成,然后输入 codex, 显示 codex 得到了升级, 比如就在这里显示我们 codex 已经得到了升级,将会使用这个 gpt 五点三 codex 模型。其中我们点击 try new model, 也就是使用这个新的模型, 然后再进入下面的页面中,我们可以看到就顺利使用上了这个模型。他在问我们要不要给 codex 配一个沙箱的环境来保护我们的文件,并控制网络访问入口。其中有三个选项可以选,第一个是 set up default sandbox, 它需要呢管理员权限,会创建一个隔离环境,限制文件的访问范围,然后控制网络权限,这是一种比较安全的方式。 第二种是 user 默认 sandbox, 不 需要完全权限,配置更简单,但隔离能力会弱一些,可能会发生提示错误的一个风险。还有一种就是退出选择之后,进入以下界面,我们就顺利地升上了 gpt 五点三 codex 也能显示我们当前的工作。一个目录进入了 codex 之后,我先拿我之前做的一个小项目做测试。 作为一个自媒体博主,我经常需要对测评 ai 产品,特别是办公赛道与 excel、 数据处理、数据格式化等等一些问题。之前我用 cloud code 加 glm、 四点七错漏子以及数据生成器就是这个表格,它支持人力资源类,然后财务类、销售类、行政运营类 的一个表格的生成,里面包含各种各样的数据,比如员工画名册、考勤记录表、销售订单表、项目进度表等等。 这个数据生成器呢,可以选择每文件的行数、每类型生成几个文件以及导出的格式,还可以在点击预览数数据之后,可以直接下载选中表格。因为当时生成的这个 ui, 我 个人觉得还是比较 ai 味比较重,不是太好看。于是我把这个项目先投给 codex 帮我优化优化。先优化它的性能方面, 可以看到这个 codex 先快速扫描我这个项目的结构、依赖和关键代码、路径、性能和维护性等等,直接对这个仓库的项目进行可运行的一个优化。优化完成了,它主要改了以下这几个文件中的内容,从性能、交互稳定性、项目与文案文档方面进行一个修改完善, 使用起来比原本的更流畅,下载起来的体验也是更快速、更方便。接着我又让 codex 帮我优化了一下界面 ui, 因为之前的 ui 界面我觉得 ai 味儿挺重的,这个是它优化之后的,我觉得审美还是非常可以的,非常清新淡雅的那种,又让它生成了另一个版本的 ui 界面, 科技味儿比较重的这个深蓝色的样子。之后呢,我又让 codex 重新呢做了一个基于网页的瞬时记忆小游戏,用于训练和测试玩家的短时记忆能力。 这个游戏的玩法就是先记住彩色格子的颜色位置,再在空白网格里选色选色,然后填回正确答案。主要的玩法就是进入关卡后,网格中会短暂显示目标彩盒方块,然后目标方块隐藏。进入一阶段, 玩家先在调色板选择颜色,再点击对应位置,达到本关目标数量后,会自动剔掉并判定结果。整体的首页的 ui 设计,包括可玩性以及这个游戏内的关卡。这个方块的设置评分的规则我觉得都是非常的 优秀,从推出 codex c l i, 再到推出 g p t 五点二 codex, 再到如今推出迈克端的 codex 和 g p t。 五点三 codex open i 的 这款工具也在也在不断进化。从模型性能方面呢, g p t 五点三 codex 在 s w e 奔驰 pro 上达到了顶尖的水平。 这个这个测试基础呢,主要是对真实世界软件工程能力的一个进行评估,它在 terminal 奔驰二点零上的表现也是比以前好一些。 这个测评标准主要是衡量像 codex 这样的编程智能体所需的终端操作技能也都在终端上操作了一个情况。文章写到最后,我们又在看网上呢,看到了许多科技圈的信息,一是无痕 ai 将下线 g p c o g p c o 以我个人来说,它不是最顶尖最厉害的模型,但真的确实是无数人心中最具人味的情感依赖和聊天对象。 第二个就是关于 cloud 的, 它的模型能力真的非常厉害,前几天出了 agent teams 功能,上线了 openstar 六,能力也是非常嘎嘎,提升 token 也是嘎嘎,消耗速度是真的快,能力是真的强,但是也是真的好 token。 最近呢,有的人爆出 cloud code 的 可能,买了一些代码,降低用户使用其他非 cloud 模型式的缓存命中率,这样我们就得多花些 token 的 费用。好了,今天的文章就到这里。

兄弟们,我能想象出五点三很强,但是没想到这么强,这速度已经快赶上 o case 了吧。以前五点二的时候,虽然它的代码能力很强,但是实在是太慢了,导致很多人都不喜欢用它,只有出了 bug 的 时候才会想到 code。 但现在你们看,这个速度 跟之前的模型完全不是一个东西。最最最最重要的是五点三格式它除了速度快以外,写代码的能力也并没有丢失,依然稳得可怕,依然是言出法随,大家快去试试吧! 本视频仅为程序员实测对比胡拉踩结果,仅供参考。你用 gpg 五点三还是卡的四点六?评论区说说你的真实感受!

当你想学 python 却不知道从哪里下手的时候,你就直接给我打开 gitlab, 点击搜索框,输入资讯配置,双击第一个文件,点击 code 下拉按钮,点击 download gip 在 codex 打开这个文件, 你只需要对 gpt 说,请帮我下载该网址的全部文档的 html 格式,并帮我在桌面上新建一个未扣子文档的文件夹,文档保存在该文件夹中。这里我们以扣子官网为例,找到扣子文档的官方网址,复制到这里, 这里我们点击下方小箭头,切换代理模式为完全访问权限发送即可。这里我们可以看到运行完毕, 但是我们打开看到文件没有完全下载完。 ok, 我 们继续给 g p t 下指令,告诉他全部下载, g p t 再和我们确认需求,直接告诉他文档部分全部下载。这时你要做的就是喝上一杯咖啡,当代码,代码给你运行完毕,你 可以看到桌面上文件夹中 codex 西西下载给你的数据,非常解压。恭喜你,你已经成为一个 python 大 佬了。

就在今天, astonovic 放出了他们的最强模型 cloud office 四点六这个最强的头衔,它只保住了二十七分钟,半个小时不到, openai 直接在线狙击发布了 gpt 五点三 codex。 这里放一张今天特别火的图,美国的 ai 大 战 vs 中国的 ai 大 战,大家怎么看?熟悉我的朋友都知道我的 ai 大 战 vs 中国的 ai 大 战,大家怎么看?熟悉我的朋友都知道,我的模型评测风格一般,不去看一些奔驰实测, 两个模型同一个 problem, 正面硬钢,剧透一下哈,结果挺意外的,一个功能做全了,但代码有坑,一个代码漂亮,但他前端漏了功能,到底两个模型哪个写代码更能打?看完这个视频你心里就有数了。 好,我们下面来快速过一下模型树懒部分 off。 四点六这边三大亮点,第一个, 它的一个上下文翻了五倍,到了一百万 token, 但目前只能按 api 付费的用户才能去体验。第二个 agent teams, 多代理协助,不是以前那种只代理模式,是真正的团队多个 agent 并行干活,互相沟通,质疑,不通过这个负责人去中转。第三个的话,它整个的一个输出 token 啊,翻倍了,由原来的六十四 k 到现在一百二十八 k, 可以 执行一个更长的一个任务,不中断。好,我们来看一下 gbt 五点三 ko deck 这边在第一项这一块, terminal bridge mark 这个参数呢,它是比 office 四点五要强接近十二个百分点,并且 这个速度相较于它的上一代模型快了百分之二十五左右,我的一个体感非常的明显,特别快。第二个的话是它的一个 首个参与构建自身的一个模型,也就是说他用早期的版本来 diabag 自己的个训练管理部署,然后针对评估 ai 帮自己 diabag, 想想就挺科幻的是不是?第三个的话是以前扣贷干活你只能等着,现在你可以随时介入,随时去调方向,不用先停止了。 那真实项目这一块的话,我给他准备了两个项目,第一个让他去做一个跨项目的一个迁移认证体系,也就是说我有一个纹身图的一个 agent, 我 要让他去参考另外一个项目,把那部分啊,谷歌邮箱登录、 github 邮箱登录 认证全部给他摘过来,这个考验他对另外一个项目的探索能力、架构适配能力。但第二个项目的话,我之前做了一期视频,是讲 skill 的 加载原理的,那并且我也做了一个开源项目,把它放出来了,那个时候是一个终端交互的一个性质,现在我把它做成一个外部 y。 第一个是 cloud 四点六完成的一个落地页,大家觉得怎么样?就一般般吧。那它在登录这一块的话, github 谷歌邮箱注册全部搞定了,没有任何的问题,我们也可以试一下,点击 可以看到它能登录成功邮箱也是对的,那整体这一块的话,它是整个完成度还 ok 的。 我们来看一下 gbt 五点三 codex 表现怎么样。 首先落地说实话不太行,比较简陋,大家看它的那个集成登录的情况,只实现了 get up 后端的代码,谷歌那边它也完成了,但是它没有在前端上写一个按钮。整体这一块的话,我会把票投给 cloud off 四点六 单看功能这一块哈,但是后面还有坑,待会我再慢慢讲。好,下面我们来看另外一个项目,就是给一个 skills agent 去加一个 外部 ui 嘛,因为之前是终端,我们来看一下,也就说我有这样的一个项目啊,这个项目是去使用当前一点零去构建了一个 skills agent, 演示了这个三层加载的一个原理嘛, 那主要的一些特性的话,就是有一些流势输出,然后托肯的响应,显示工具的名称,执行的过程,展示三层 skills 的 一个加载过程。原来的话是通过终端 ui 去交互的嘛,现在我希望他给我们做成一个外部版本,我们直接来看结果, 这个是 cloud 的 off 四点六完成的,这个 ui 太简陋了。 ok 来给了一个这个平台的文章,让他去做 思考,他会去做加载技能,然后去分析,再提取,再做其他的一些任务,看他能不能做到。 ok, 可以 看到他有调用的 skill 去加载这一个 skill, 然后他去执行那些命令,他发现这是命令有问题,他这个时候需要去安装相关的依赖, 那这个的话就是 gpt 五点三 codex 完成的,左边是他发现了我安装了哪些 skills, 并且右边你可以开多个聊天框去聊天,我在提示词里面其实有让他去要去实现对应的一些指令,那 gpt 五点三这一边的话是完成的非常好的。好,我们来试一下, 可以看到这边它加载了就是新闻提取器,这个时候它会去执行霸性,跟那边一样,因为一些依赖问题,这个先忽略它,总之就展示这一个加载的过程嘛, 很明显 gpt 五点三 codex 完成这个版本会比 off 四点六会好很多,我感觉不管从 ui 上交互上, 这一轮我会给他投票。好,我们来看一下完整的一个对比结果。第一个项目就是给这个 agent 加上一个用户认证体系嘛,主要是 email, 谷歌认证 get up, 然后从另外一个项目迁移过来。我们来看一下评分情况, 对话人数大家都用了第一轮,那功能完整程度的话, off 四点六这边要完整一些,所以给了他九点五分。 那 gpt 五点三这边因为它漏了嘛,所以说它的评分要低一些,在 ui 上的话也是这边会好一些。在代码架构上这个就有有的说了,在代码架构上的话, off 四点六这一边就是快,但它整体的实现其实有有一些漏洞, 那 gpt 五点三扣带这边它就像一个更有经验的工程师一样,然后整体的代码架构,工程规范都很完美, 为什么会得到这一个评分呢?给大家解释一下这个评分怎么来的。他们两个模型把代码写完, get commit 提交完了之后, 我用了他们两个最顶尖的模型去 review 代码,先让 off 四点六去 review 啊,两个人写的,再让 gpt 五点三 code 是 两个人写的,大家得到的结果都一样,就是 gpt 五点三 code 写的代码要好, 只不过在功能实现上它漏了,以及在落地页上它的实线会没有 off 四点六那么好看。但是代码这一块的话, gdp 五点三扣袋子这边肯定是要厉害一点的。 那整体总结一下的话,在代码架构上扣袋子要领先一些,它全链路的用户隔离、迁移、脚本测试覆盖都写到了。但实际功能体验上的话, off 是 因为它三种登录都可用, 然后 codex 它这边缺少了一个谷歌的,我不知道它为什么会缺少的。哈,那 ui 设计上也是 office 更优。那第二个想法,就我们刚刚看到的,我们把这个 skills agent 的 一个终端 ui 变成一个 web ui 嘛,那这块的话, gpt 五点三就明显领先了,不管是在 ui 上还是整体的代码实现上, 都要领先于这个 off 四点六。所以说我觉得整个这一次的发布来看的话, off 四点六它的代码提升并不是特别明显,反而这个 gpt 五点三 codex 相较于 gpt 五点二 codex, 我 认为它们提升了蛮多的。因为这几天我也一直在用 gpt 五点二 codex, 以前是速度有点慢,现在是速度又快,质量又高,我觉得未来 g p t 五点三 codex 大家会用的特别多,不像以往一样,大家可能都用 cloud code 的, 现在的话多了一个选择,并且它更便宜。我做这一期测试,我把这个 off 四点六这个模型的 整个五个小时的窗口全部用完了,但是这个我只花了二十道订阅了,它还没用完,一直可用,一直可用,很爽,速度又快,那为什么不选择一一个便宜,质量又高的呢?所以这一轮总结来看的话,就是 codex 整个代码实现明显领先,功能实现也领先,整个 uiux 都领先,所以说我把票投给了 codex。 好,我们来一个总结,第一个项目去做跨项目的一个迁移认证,这轮 off 四点六渗出, 第二个把一个终端 ui 变成外部 ui, 这一个 gpt 五点三 codex 渗出。那整体平均来看的话, codex 是 要领先一些,因为它这一次提升真的非常明显,速度快,成本更友好,而且后续的话我会更加的去增加我整个 codex 的 一个使用频率。 ok, 这就是这一期视频的全部内容了,如果你觉得视频做的不错,可以给我一键三连,谢谢大家,拜拜。拜拜。

一旦我完成了,我们应该在这个面板内看到一个小的入门训练。所以我将对所有这些点击下一步,直到我们最终到达聊天界面。 从这里,我们可以开始与 codex 聊天,或者让他处理代码。所以我们这里有聊天窗口,可以在这里写任何提示。我们还有几个按钮来控制上下文。 稍后,我们会看到底部。我们还可以选择模式,并在 c i l i 中看到的三个选项之间切换,分别是项目编辑的代理模式,仅聊天的聊天模式以及具有完全访问权限的代理模式,包括互联网和项目外的文件。 我们现在选择聊天模式,这样就可以稍后向 codex 提问。我们还有其他下拉选项,我将在接下来的几节课中讨论。 顶部,我们应能看到最近在 codex cloud 上运行的任务列表。这确实是一个很好的增强功能。如果你点击其中一个任务,你会在扩展中看到该任务。 现在,如果我在这个任务中写点东西并按下回车,它实际上会将该回复发送到 codex cloud 并远程处理。但我们现在不打算这样做。相反,我希望回到常规聊天窗口进行本地工作。那么和往常一样,我们将先询问编辑码器关于这个项目的情况。 提示可以是类似于,你能给我简单总结一下这个项目是什么吗? 所以,当我们按下回车时,我们应该看到 codex 开始浏览项目并收集信息。现在,我实际上非常喜欢这个聊天窗口的用户界面,以及当你要求他执行某项任务时, codex 以这些要点形式作出的响应,你也可以展开其中一些,以查看 codex 在 背后正在做什么或在想什么, 这一点也很不错。好的,看起来 codex 现在已经完成工作了,我们可以看到他提供的这个摘药。

来,普通人想要用 ai 去接管你的任何工作,你只需要有一个 open ai 旗下的大模型,叫 codex, 不 需要你去下载什么豆瓣元宝,什么 kimi, 你 只需要这一个大模型来跟着我操作。首先 开通一个 china gbt plus 会员,开通成功之后,他就会给你多一个五点二 thinking 这个模型。好,如果说你们现在一个月不愿意花二十美刀去购买,现在也有一些团队的拼车的服务,可以把价格打在二十块钱人民币以内一个月。 好,第一步,登录之后,在任何的 ai 编辑器里边,我使用的是 cursor, 你 也可以使用 vs code 等等在插件市场里面搜索 code x 哦, code x 搜索之后找到 open ai 官方的快捷插件,点击安装好,我已经安装好了。安装好之后就是这个页面使用切的 g p 登录,刚刚我们已经把账号和密码登录了,我们来回到这个 ai 编辑器里边。好,就是这个页面,我们一直点下一步,下一 步,下一步。好,这时候我们选择权限,我们给他,我们给他全部的权限。好, 我们给他完全访问的权限。为什么要完全访问的权限呢?因为风浪越大鱼越贵是吧?这个权限的意思就是你的电脑里边的所有的文件夹,所有的文件夹系统全部归 codex 管理,不管你是做呃编码工作,还是做各种文书工作,还是任何的需要你手动去呃办公的软件。不管你是想安装什么 opencloud, 就是 那个龙虾的机器人吗?还是想安装 cloudcloud 的, 还是想做一个 ppt, 还是想做一个 word, 还是想做一个 呃什么财务的、法律的、文书的那个全部在这个小黑框里面都能够实现,有不懂的可以问我。

如果你是 openai 的 拆 gpt 会员,现在我要告诉你一个好消息,我们可以在 opencloud 里不使用任何的 api key, 就 能够部署拆 gpt 最新的五点三模型进行推理了。 我知道这可能听起来有点不可思议,但事实是,现在这种方式确实处在一个 openai 末许的一个状态。 大家好,这里是熊仔学长。 codex 是 openai 的 一个 agent 代理式编程工具,类似于 antropic 的 cloud code。 open cloud 就是 借用了 openai 给 codex 设计的 oofflow 来调用你的叉 gpt 模型的。 那么你可能会说,我也可以用同样的方法,或者是使用 cloud wallet 来调用 google 的 gemini, 国内的 deep sync, 还有豆包千文这些。 那么问题就来了,这些公司实际上是不希望用户绕过他们的 api 接口的,因为 open cloud 这种使用方式对 token 的 消耗量非常大,对企业来说也是一笔非常大的电力开销。 所以在过去的一段时间,很多以这种方式使用 opencloud 的 用户在陆续地被搬掉。那为什么叉 gpt 没事? 这件事就巧在 opencloud 的 创始人被 openai 招去做个人智能体部门负责人了,这事就很有意思了哈。 但不管怎么说,目前这可能就是性价比最高的唯一的 opencloud 的 部署方案了。 部署过程也非常简单。首先我们需要以下三种安装方式来安装 openclaw, 详情可以参考我的上期视频。 然后我们在命令行输入 openclaw on board off choice open ai codex, 然后我们选择 yes, quick start, use existing values。 然后你的浏览器会弹出来,让我们登录叉 g p g 的 账户, 如果浏览器没有弹出,我们也只需要复制 terminal 里面的这段 url, 再粘贴进浏览器就可以了。 登录 openai 账户之后,我们会看到一个报错的页面,实际上走到这一步是完全正确的。我们复制这个网址,然后粘贴进 terminal 里的这个位置。接着我们继续 on board 的 过程,跳过 channel skills 和 hoax 的 配置步骤, 然后选择 restart gateway。 这一步非常关键,重启 gateway 会让我们刚刚配置生效。 然后我们先不加载模型,选择 do this later, 接着输入以下的代码, opencloud model set open ai codex, gpt 五点三 codex 来把 opencloud 的 默认模型设置成我们刚才配置好的 gpt 模型。 接下来我们输入 opencloud dashboard, 去到它的 web ui 界面,我们在 agent 这个选项卡里面可以看到叉 gpt 五点三已经成功显示了,然后我们测试一下也是正确的输出的内容。 ok, 那 么这期视频就到这里了,欢迎大家在评论区和弹幕上讨论,在 ai 飞速发展的今天,我们普通人的未来究竟在哪里? 最后求大家一键相连,收藏转发小心心,这里是熊仔学长,让我们一起成长!


兄弟们,目前性价比最高的一款 ai 开发工具啊! codex 推出了 mark 版的客户端,如果你在某鱼上搜索 team 拼车,目前只需要六到八块钱一个月啊。这款开发工具对于专业的程序员来说比较友好,比如说我们旁边这里呢,可以导入 我们的项目,然后在这里呢,我们可以选择用我本机所有的开发工具来进行打开,然后我在这里可以输入提示词,让他帮我改东西,如果改完了东西还可以点这里,点这里可以自定义命令。比如说我们 java 一 般用的是 maven, 点这里我已经编辑好了,它会用 maven 自动进行单元化测试和 new 的 哦。像它这种已经改完了的某些文件,我们还可以点它一点,它就会把我们的 idea 弹出,所以相比那些 vs code 里改代码不方便,那这款工具目前来说性价比是最高的。

大家好呀,今天我一定要向大家安利一下 codex 的 automation 这个功能,对它是一个非常省心的点,这个自动化怎么跑?我就用了它自己内置的一个 summarize git 这么一个功能来做一个演示,我们一起来看一下吧。先说时间,我设定的呢是每天九点钟,只要我的 codex 的 app 是 在运行的状态,它就会自己去手动跑,不需要你触发 这个时间你是可以自己去设定的,你可以设定的是每天定时或者是二十四小时轮动啊。第二点,当它自动化在开始跑的时候,它会自己去创建一个独立的 walk tree 啊,它是在一个工作区里面去跑,会影响你手上的开发,这是第二点。 那第三点呢?它输出的结果就会进到一个 inbox 里面,类似于一个邮件箱啊,只要它完成了之后,它就会发给你,如果说有变化,就会有一个通知你,你就可以去点开查看,那如果说没有变化,它就会自动归档了。 第四点,就是它的整一个自动化的内容,你是可以通过 prompt 去控制的,这个 prompt 你 可以去引用你的 skill, 比如说我想让它的自动化的内容以一个 word 方式或者 excel 的 方式输出,那我就可以去调用这个 excel 的 skill, 只要你说清楚啊,它是完全可以遵照这个 prompt 去进行一个执行的。 对,这个是第四点,那第五点呢?就是他的一个权限是完全遵照你全局杀香的一个设置的,如果你自己设置的是止毒,那么这个自动化一定也是止毒,完全是由你来控制的,当你觉得整个自动化的流程它是安全的,你再进行一个权限的放开, 我觉得这个这个自动化的功能是非常有效的,你可以用它给你内置的一些模板去测试,或者是说你自己来进行一个创建。当然现在只支持苹果的用户,安卓的用户可能还需要再等一等。那么你今天自动化了吗?快去用起来吧,记得一键三连哦,拜拜。


虽迟,但到苹果 xcode agent 模式来了,内置 cloud 和 codex, 谁懂呀? ios 工程师终于可以支棱起来了。你只需要一句话描述需求,比如给我用 weatherkit 加个七日天气预报,界面要 lucy glass 效果, xcode 就 会联动 ai 代理,把任务自动拆解成一步步查文档,加权限,写服务层,建示图, 甚至自动构建和修 bug。 还能调用 xcode 的 本身的工具去查官方文档,看项目结构,列出翻译错误,然后自己别带修正。在 ai 领域慢半拍的苹果这次没造新概念,而是用 m c p 协议,把你最熟悉的 xcode 直接升级成了能调度多 ai 智能体的开发中书。第三方分为编程工具,瑟瑟发抖。

我把可乐扣的变成了黑心老板,专门压大扣单词写代码,结果效率翻了,成本还降了。如果你想彻底解放双手,那么我这一套工作流的方案一定可以帮到你。使用可乐扣的扣单词这类工具久了, 慢慢的就想让他们自己长久运行,但又怕写偏或上下文爆了。针对这个需求,我设计了一道可乐扣的监督扣单词的工作流,今天就把这套工作流以及设计思路分享给大家, 不仅仅是个方案,更是一种思路,大家完全可以拿去改成适合自己的方案。我先讲解一下这个思路,大家如果不想听这部分,可以跳到这个时间点直接抄作业。 我自己的情况是有切尔克 ppt plus 可以 使用扣带子,同时还有质朴的扣领 part 会员可以被摄到可乐扣的中使用。 gmail 我 也有,但是 gmail 的 c u i 我 个人感觉体验不太好,所以这里就使用卡拉扣的以及扣带子。 总结一下就是智普的扣令牌栏额度非常多,我基本上没有碰到过限额的情况。可乐扣的功能非常多,非常齐全,但有时会出现过着完成任务的情况。扣袋子则相对稳定一点,但模型对我来说相对较贵,所以要省着点用。 我这里的策略是让可乐扣的来充当监督者,让扣袋子去干活。关于扣袋子模型,我建议使用切的 gpt 五点二 mini, 但 扣袋子后缀官方说法是专门针对边层和代理任务优化,但我实际拆下来干活效果不太理想。 medium 类似于 auto, 你 也可以选择 high, 但是最好不要选择 x high 我 之前试过,效果是真的很好, 但是一天就跑完了,一周的额度,钱包真的收不住。最近出的五点三扣袋子也可以试试看,速度是真的很快,但多多少少也存的 爱的、偷懒的情况。决策分工是可乐扣的充当监督者。扣代词则是工人,这里使用两个 a 级的进行工作,最大程度上防止某些作弊。一个只负责写,一个只负责验收。整个流程开始于我使用扣代词生成的一份 open spark 偏更题案,这些题案会被转化为 test m d 中的具体代码是将列表。每当需要执行一项新任务时,可拉库尔就会启动一个 sub agent, 使用 codex e x e c 调用 codex, 然后使用自按语言调用 open spark。 open spark 最好是 零点二一点零版本,因为在新的版本, open spark 的 工作流就重构了,也支持自按语言调用,但使用的是 skills。 出发后续我研究一下怎么配合到这个工作流里。 托马斯在写完代码后,他必须制作一个可复现的测试方案作为完工凭证。 c u i 任务他必须提供一个智能化的测试脚本。 g u i 任务则提供一份 m c p 的 操作方案,可劳克勒会亲自运行脚本并进行验收。对于 g u i 任务,他会严格按照流程调用 payload m c p 辅 物,驱动浏览器并抓取截图作为证据,确保代码不仅写了,而且真实可用。只有当可拉库的亲自确认测试方案运行通过,且手中的证据链完整无误时,他才会执行一系列的确凿操作。在 tasks md 中勾选任务,更新 feature list, 点最省的 pass 状态,直接 get 提交存档,将日期写进 progress 点 t s t。 如果遇到技术卡点卡拉扣的,会利用 ctrl 七或浏览器搜索工具自主寻找解决方案,便知道 ctrl 进行重试。 我最在意的就是防止 ai 跑偏以及 ai 假装完成的任务。为了解决这个问题,我设计了一个双保险机制,分别是用 tasks m t 记录过程, 可使用 finisherlist 点击率记录结果。我们先说 tasks m d, 它是给人类以及 ai 件的文件,包含具体的任务以及详细的需求和实施步骤。我们先使用 codex 进行一个完整的体验, 可靠的会在这里记录具体的验证命令、截图路径和报错日期。如果有阻碍, codex 只能在这里写。具体的问题是什么? 是由当可拉扣的执行验证后,由可拉扣的写通过,确保我们知道代码是怎么出来的,而不是凭空变出来的。 有的过程还不够,我们还需要一个绝对理性的验收机制,就是 file list 检测这个解释给 ai 的 使用的。这里不记录任何过程,请关注任务是否通过完成了。它是一个结构化的交付清单,所有任务默认状态全是 false, 只有到某个任务真正被验证无了,它才会变成出。那么这两个文件是怎么配合,以此来防止 ai 作弊的呢?核心就在于标签印刷和单向流程。首先是标签印刷,我们在 tasks m d 里的具体任务后,会打算像简号 r e 这样的标签会对应 for list 点击层里 id 为 r e 的 功能条目。其次是单向的流程,可拉克的必须先在 task 四 m d 里跑通代码,拿到缺少的 pass 证据,然后才会去 for list 里面去更改状态。 首先是安装可拉克的和 code, 这个就不列据了,安装奥巴斯 bug 这里要说一下,最好是零点二一点零的版本 使用这个命令安装 open spark。 然后回到项目目录,使用 open spark 抽象化加项目,然后再把它的这些提示给复制到扩展词里面。 首先是 palette m c p, 可以 让可乐扣的去检验 g o i 界面,选自动化确认浏览器并收集证据,再配一个 control 器,遇到卡点时能查资料,浏览器搜索 m c p。 我 这里使用的是这幅的档案,你也可以换成其他的。大家可以去我的簿客或 知乎 app 上,也可以去云盘上进行下载复制,下载后就是这些内容了。 skills 大家可以配置到它们的根目录或者是项目目录,配置到项目目录的话直接粘贴过来就可以了。 skills 这里一共有三个,两个是给 cosys 用的,第一个是 使用采访式反问,把我们的需求和 ai 界的对齐。第二个是生成 fairlist 点 jason, 最后一个则是给可拉克的一道卡点石使用的。为了让这道流程跑起来,我们需要覆盖和新建几个配置文件。首先是 windows 八 pro pro 点 o d 需要添加的 windows 的 位置在这里, ios 的 就是这个,直接在这个 step 六后面添加内容。下面则就在项目目录里面的 openstack 文件夹下的 project dmd 的 末尾添加这个。它和上一个的目的都是为了让 openstack 生成的 test dmd 符合我们的要求。 这里需要着重说一下更改 open spark 端口, 点 m d, 则需要在输入 open spark int, 也就是说实话命令后再更改,否则会重置掉。下面则是在项目目录下完全覆盖 colocode, 点 m d, 目的则是为了明确 colocode 的 身份以及任务流。最后则需要新建一个自定义命令,位置则是在这个 新建一个昂迪脚本,这是我们自动化的核心,它定义了克拉克的如何自动循环调用 codex, 同时也避免了我们重复输入。下面则是重复流程了,先打开 codex, 使用自然语言作为一个变更体验,例如为我这个项目添加一个支持夜间模式自动切换的 openstack 体验。然后再使用 skills openstack 劝解 interviewer id, 让模型通过采访的方式引起我们的需求对其需求。这里的 id 是项目目录下的 open spark 文件夹劝诫词文件夹下的当前提案的文件夹名称。再用 open spark future list id 这个 skills 让模型创建一个 future list addition。 最后就是打开查找 code, 输入斜杠 monitor open spark codes id 就 可以开始工作了。本期视频到这里就结束了,视频创作不易,还请您点赞、关注、支持。如果您有任何问题,欢迎在评论区交流讨论。