hello, 大家好,我是 d p, 一 觉醒来, codex 五点三和 opus 四点六都更新了,我收集了一下相关资料,录一个视频跟大家一起分享一下。 首先我们来看第一个主题,二十九分钟,真的只有二十九分钟。第一张图看左下角,一点四十五, opus 四点六官宣上线,紧接着好巧不巧,两点十四, codex 五点三官宣上线,一共二十九分钟,就真的这么巧吗?别着急,更巧的事情还在后面。 老规矩,我们先来看传统异能跑分,这张是 opus 四点六官方提供的跑分图, 呃,很多观众可能觉得看不懂,没关系,我给你标出来了一和二。然后再来看这张,这张是我找到的 codex 五点三的跑分图,注意看这里的一和左右两张的,一是对应的都是 t b 二点零, codex 五点三的得分是百分之七十六, opus 四点六的得分是百分之六十五点四,领先了一些对不对?然后仔细看第一张图的最右边, codex 五点二的得分是六十四点七,也就是说 codex 这个版本的升级直接从六十四点七升级到了七十六,巨大进步有吗?然后我们来看第二项, 第二项是 os word, 这个就是呃操作计算机系统的能力,比如说点击鼠标呀,复制粘贴啊这些。 然后呢, os 四点六是七十二点七,这里要暂停一下,说一下,在 osword 里,人类的一般标准在七十二点三六,也就是说 os 四点六已经接近了人类的一个一般水平。然后我们看 codex 五点三,它的 osword 的 水平是六十四,感觉好像差一点,对吗?但是我查到的资料是说 codex 五点三测试的是 osword verify 这个版本,然后 opps 四点六应该测试的是 osword 原版 verify 和原版有什么区别呢?简单地说 verify 更难,那么也就是说,这个六十四和原来的七十二点和和那个 oppo 四点六的七十二点七应该是不相上下的一个水平。 好的,这是跑分。看完了,我们来看详细的对比。首先来看 opus 四点六, opus 四点六在这个版本主要有下面的更新,首先上下文从原来的两百 k 支持到了 em, 这是一个巨大的进步,对于大项目非常有帮助。然后输出从原来的六十四 k 支持到了一百二十八 k, 然后增加了思考等级和自适应思考这两个项,这是什么呢?就是说它可以设置 low high 和 extreme high 这种, 然后呢,它还可以自适应,在呃,整个进行的过程中,比如说一开始读读文件的时候就用 low, 然后中间就去调,是这样子。 呃,这边加一句啊,我觉得 op 四点六这个升级有点像锦上添花,对不对?更大的上下文,更大的输出,然后自适应的思考。好的,我们来看 codex 五点三。首先还是回到我的第一张截图上, 我用两个颜色标出了它们,分别是什么呢?分别是百分之五十的 token 使用量对比五点二以及快百分之二十五 加速百分之二十五降价百分之五十,就这么简单。如果让我用一句话或者一个词来形容 codex 五点三,我会说,残暴,有什么比加速降价 更残暴的方法吗?在现在这个市场,而且我想提醒大家的点是,第一, codex 五点二有不错的编程能力,大家一直吐槽的就是说它有点慢对不对?现在 codex 五点三保持了,据说保持了五点二的编程能力, 然后它先加速了百分之二十五,然后又降价了百分之五十,残暴。然后还想提醒大家的一个点是, gpt 系列能做的不只是编程,而 ops 我 们往往仅仅把它和编程联系在一起。 好,我们继续。下面是我的一些思考。首先因为我们频道最近一直在讲 antigravity, 那 我就在想 antigravity 会跟进 opus 四点六的更新吗?因为我们现在用的是四点五, 我想答案是肯定的,一定会。为什么呢?因为 kiro 今天已经更新了,好像其他很多模型也都更新了。 那么到这里这个思考就结束了吗?没有,我的思维链会比较长,下一个我思考的是代价是什么?突然呢?我就想到会不会配额还会动?这个留给大家思考,欢迎大家留言或者发评论。 然后第二个问题,我想的是 codex 五点三一定程度上我们可以说它在挑战 opus 四点五,那么它会带来什么呢? 我觉得最直观的就是在编程领域,它可以避免 osorbik 一 家独大,我们作为用户会从中获利,因为竞争的获利方永远是被竞争,就是竞争关系中的关键人物,用户。 好的,然后今天上午我抽了一点时间对 codex 五点三的速度进行了一个测试,你们还记得吗?它是加速百分之二十五,降价百分之五十,那我觉得比起降价百分之五十, 加速百分之二十五更重要,当然降价百分之五十其实也很重要,所以这个这个后面我测试的内容主要是其聚焦在速度上, 这是我给 codex 的 一个任务,我用的是 vs code 里的 codex 相关的插件,我没有制作任何上下文,就是完全的一个空文件夹,里面放了这么一段话,让他直接去执行, 然后它就呃里面又做了一个子文件夹,让它放到那个子文件夹里面去,然后大家可以看到,呃,是这样,然后因为我没有 codex 的 使用经验,原始的那个截图我没截下来,原始的截图上有,呃, syncing 啊,用时啊,这些东西我没有截下来, 我以为和 antigravity 是 一样的,实际上它不一样,如果就是再次打开对话的时候就只能看到这样,中间的过程就忽略掉了。 但是因为我是用了一些方法,所以我把那个 a p r 请求的详细信息记录下来了。在这张图上大家就可以看到 我的请求开始的时间是十一点五十,差两秒嘛,然后结束的时间是五十四三十六,也就是说整个用时在四分就算四十秒。 然后它的模型使用是先用了一个五点一的 codex mini, 然后后面就是 codex 五点三,这个没有任何的问题,然后 talkin, 这个因为我没有经验,我们就不去评述,主要看这个时间,四分三十八秒 出了三张图。这三张图长什么样呢?先来到第一张图,就是远行星号的一个默德数据库的首页,我觉得这张图做的中规中矩,然后这是下面是第二张图,这张图等于说,呃,用了一个白色的主题,我觉得也还 ok。 然后紧接着是第三张图,我觉得前两张图榨干了他的一般思维,第三张图他想给我做一点特别的东西,所以他做了这三张图。我这三张图从中选一张作为起点来做设计,或者继续去摇奖,摇不同的风格都是 ok 的, 都算中规中矩吧。当然,如果硬要说,比起我们现在正在用的这张就是线上版的,这个还是没不太好比的。 ok, 我 们来做一个比较简单的总结。首先是一个建议,从现在开始,大家可以开始尝试去使用 q 代 x 五点三, 稍后我们也会出一些呃视频,比如说新手入门啊,一些经验的分享啊,如果有需要可以关注一下。 然后第二个项是在什么时候,该用什么模型?在现在这个时间点,因为我们已经有了两个全新的模型,后面还会有更多的模型,对吗?所以我的第一条建议是,如果涉及 vr 设计,无脑选 gmail 三 pro。 如果涉及编程,你的选项可以是 op 四点六,也可以是 codex 五点三。但是作为成年人,我们都要没问题,对吧? 如果你是其他的工作,比如说一些文本创作,那你可以考虑用 jamina 或者用 gpt。 然后这里提醒一下, jamina, 你 可以考虑用二点五或者三,因为我发现二点五和三是不同的风格,如果有需要可以测试一下。 然后这场开年大戏好看爱看,有可能的话多来。 最后,二零目前来看,二零二六年注定是不平凡的一年,而我们也注定不会平凡。在这里祝大家和家人新年快乐,身体健康!这就是这一期 codex 五点三和 opops 四点六 新模型上线相关资料分享的视频的全部内容。如果这期视频对你有帮助,请帮忙点赞和转发,如果你有相同的经验想要分享或者遇到相关问题,欢迎留言,我是 d p, 谢谢!
粉丝2553获赞1.2万

兄弟们,我能想象出五点三很强,但是没想到这么强,这速度已经快赶上 o case 了吧。以前五点二的时候,虽然它的代码能力很强,但是实在是太慢了,导致很多人都不喜欢用它,只有出了 bug 的 时候才会想到 code。 但现在你们看,这个速度 跟之前的模型完全不是一个东西。最最最最重要的是五点三格式它除了速度快以外,写代码的能力也并没有丢失,依然稳得可怕,依然是言出法随,大家快去试试吧! 本视频仅为程序员实测对比胡拉踩结果,仅供参考。你用 gpg 五点三还是卡的四点六?评论区说说你的真实感受!

就在今天, astonovic 放出了他们的最强模型 cloud office 四点六这个最强的头衔,它只保住了二十七分钟,半个小时不到, openai 直接在线狙击发布了 gpt 五点三 codex。 这里放一张今天特别火的图,美国的 ai 大 战 vs 中国的 ai 大 战,大家怎么看?熟悉我的朋友都知道我的 ai 大 战 vs 中国的 ai 大 战,大家怎么看?熟悉我的朋友都知道,我的模型评测风格一般,不去看一些奔驰实测, 两个模型同一个 problem, 正面硬钢,剧透一下哈,结果挺意外的,一个功能做全了,但代码有坑,一个代码漂亮,但他前端漏了功能,到底两个模型哪个写代码更能打?看完这个视频你心里就有数了。 好,我们下面来快速过一下模型树懒部分 off。 四点六这边三大亮点,第一个, 它的一个上下文翻了五倍,到了一百万 token, 但目前只能按 api 付费的用户才能去体验。第二个 agent teams, 多代理协助,不是以前那种只代理模式,是真正的团队多个 agent 并行干活,互相沟通,质疑,不通过这个负责人去中转。第三个的话,它整个的一个输出 token 啊,翻倍了,由原来的六十四 k 到现在一百二十八 k, 可以 执行一个更长的一个任务,不中断。好,我们来看一下 gbt 五点三 ko deck 这边在第一项这一块, terminal bridge mark 这个参数呢,它是比 office 四点五要强接近十二个百分点,并且 这个速度相较于它的上一代模型快了百分之二十五左右,我的一个体感非常的明显,特别快。第二个的话是它的一个 首个参与构建自身的一个模型,也就是说他用早期的版本来 diabag 自己的个训练管理部署,然后针对评估 ai 帮自己 diabag, 想想就挺科幻的是不是?第三个的话是以前扣贷干活你只能等着,现在你可以随时介入,随时去调方向,不用先停止了。 那真实项目这一块的话,我给他准备了两个项目,第一个让他去做一个跨项目的一个迁移认证体系,也就是说我有一个纹身图的一个 agent, 我 要让他去参考另外一个项目,把那部分啊,谷歌邮箱登录、 github 邮箱登录 认证全部给他摘过来,这个考验他对另外一个项目的探索能力、架构适配能力。但第二个项目的话,我之前做了一期视频,是讲 skill 的 加载原理的,那并且我也做了一个开源项目,把它放出来了,那个时候是一个终端交互的一个性质,现在我把它做成一个外部 y。 第一个是 cloud 四点六完成的一个落地页,大家觉得怎么样?就一般般吧。那它在登录这一块的话, github 谷歌邮箱注册全部搞定了,没有任何的问题,我们也可以试一下,点击 可以看到它能登录成功邮箱也是对的,那整体这一块的话,它是整个完成度还 ok 的。 我们来看一下 gbt 五点三 codex 表现怎么样。 首先落地说实话不太行,比较简陋,大家看它的那个集成登录的情况,只实现了 get up 后端的代码,谷歌那边它也完成了,但是它没有在前端上写一个按钮。整体这一块的话,我会把票投给 cloud off 四点六 单看功能这一块哈,但是后面还有坑,待会我再慢慢讲。好,下面我们来看另外一个项目,就是给一个 skills agent 去加一个 外部 ui 嘛,因为之前是终端,我们来看一下,也就说我有这样的一个项目啊,这个项目是去使用当前一点零去构建了一个 skills agent, 演示了这个三层加载的一个原理嘛, 那主要的一些特性的话,就是有一些流势输出,然后托肯的响应,显示工具的名称,执行的过程,展示三层 skills 的 一个加载过程。原来的话是通过终端 ui 去交互的嘛,现在我希望他给我们做成一个外部版本,我们直接来看结果, 这个是 cloud 的 off 四点六完成的,这个 ui 太简陋了。 ok 来给了一个这个平台的文章,让他去做 思考,他会去做加载技能,然后去分析,再提取,再做其他的一些任务,看他能不能做到。 ok, 可以 看到他有调用的 skill 去加载这一个 skill, 然后他去执行那些命令,他发现这是命令有问题,他这个时候需要去安装相关的依赖, 那这个的话就是 gpt 五点三 codex 完成的,左边是他发现了我安装了哪些 skills, 并且右边你可以开多个聊天框去聊天,我在提示词里面其实有让他去要去实现对应的一些指令,那 gpt 五点三这一边的话是完成的非常好的。好,我们来试一下, 可以看到这边它加载了就是新闻提取器,这个时候它会去执行霸性,跟那边一样,因为一些依赖问题,这个先忽略它,总之就展示这一个加载的过程嘛, 很明显 gpt 五点三 codex 完成这个版本会比 off 四点六会好很多,我感觉不管从 ui 上交互上, 这一轮我会给他投票。好,我们来看一下完整的一个对比结果。第一个项目就是给这个 agent 加上一个用户认证体系嘛,主要是 email, 谷歌认证 get up, 然后从另外一个项目迁移过来。我们来看一下评分情况, 对话人数大家都用了第一轮,那功能完整程度的话, off 四点六这边要完整一些,所以给了他九点五分。 那 gpt 五点三这边因为它漏了嘛,所以说它的评分要低一些,在 ui 上的话也是这边会好一些。在代码架构上这个就有有的说了,在代码架构上的话, off 四点六这一边就是快,但它整体的实现其实有有一些漏洞, 那 gpt 五点三扣带这边它就像一个更有经验的工程师一样,然后整体的代码架构,工程规范都很完美, 为什么会得到这一个评分呢?给大家解释一下这个评分怎么来的。他们两个模型把代码写完, get commit 提交完了之后, 我用了他们两个最顶尖的模型去 review 代码,先让 off 四点六去 review 啊,两个人写的,再让 gpt 五点三 code 是 两个人写的,大家得到的结果都一样,就是 gpt 五点三 code 写的代码要好, 只不过在功能实现上它漏了,以及在落地页上它的实线会没有 off 四点六那么好看。但是代码这一块的话, gdp 五点三扣袋子这边肯定是要厉害一点的。 那整体总结一下的话,在代码架构上扣袋子要领先一些,它全链路的用户隔离、迁移、脚本测试覆盖都写到了。但实际功能体验上的话, off 是 因为它三种登录都可用, 然后 codex 它这边缺少了一个谷歌的,我不知道它为什么会缺少的。哈,那 ui 设计上也是 office 更优。那第二个想法,就我们刚刚看到的,我们把这个 skills agent 的 一个终端 ui 变成一个 web ui 嘛,那这块的话, gpt 五点三就明显领先了,不管是在 ui 上还是整体的代码实现上, 都要领先于这个 off 四点六。所以说我觉得整个这一次的发布来看的话, off 四点六它的代码提升并不是特别明显,反而这个 gpt 五点三 codex 相较于 gpt 五点二 codex, 我 认为它们提升了蛮多的。因为这几天我也一直在用 gpt 五点二 codex, 以前是速度有点慢,现在是速度又快,质量又高,我觉得未来 g p t 五点三 codex 大家会用的特别多,不像以往一样,大家可能都用 cloud code 的, 现在的话多了一个选择,并且它更便宜。我做这一期测试,我把这个 off 四点六这个模型的 整个五个小时的窗口全部用完了,但是这个我只花了二十道订阅了,它还没用完,一直可用,一直可用,很爽,速度又快,那为什么不选择一一个便宜,质量又高的呢?所以这一轮总结来看的话,就是 codex 整个代码实现明显领先,功能实现也领先,整个 uiux 都领先,所以说我把票投给了 codex。 好,我们来一个总结,第一个项目去做跨项目的一个迁移认证,这轮 off 四点六渗出, 第二个把一个终端 ui 变成外部 ui, 这一个 gpt 五点三 codex 渗出。那整体平均来看的话, codex 是 要领先一些,因为它这一次提升真的非常明显,速度快,成本更友好,而且后续的话我会更加的去增加我整个 codex 的 一个使用频率。 ok, 这就是这一期视频的全部内容了,如果你觉得视频做的不错,可以给我一键三连,谢谢大家,拜拜。拜拜。

我用酷币做了一个非常好玩的选股神器啊,没想到他做出来的效果这么好啊,等一下给大家演示一下,这是整个软件的界面,假如我们要找什么股票在这里六零一他就会出来了,对吧? 嗯,然后双击一下,他就这里就会有贴现图啊,那些饼图啊之类的,这里是有五千多只可以选的哈, 我给大家介绍一下我这个软件的一个逻辑啊,非常感谢一个二十多年古灵的一个粉丝啊,给我提了很多意见。 ok, 选股,这里就是我选好的股票,按照我的条件选好了的股票呢,我可以放到选股池这里,那这里呢是实时更新的选股池这里 就是符合我条件的股票,他会全部放到这里来,一旦这里的股票不符合我的条件呢,他又会把它移走,所以选股池这里留下的所有的股票都是符合我最新条件的 股票。我这里设置了一个经验选股,因为每个人买股票他可能都不一样的经验思维,所以每个人都会不一样,这个属于自定义的了。这里呢,我也会放到一些我需要监测的股票,放在这里,重点关注的会放到这里来, 实时去跟进他的一些信息啊,这里可以新建的啊,新建把规则定好了就可以新建 事件。这里呢,就是我还没有想好要放什么东西,可能就是放一些新闻呢,就是你想要看这只股票啊,他有什么新闻呢?可能会放这些东西。这个问答呢,就是说我们有什么疑问呢,就可以在这里去问他啊, ai 会给出一些答案,然后设置这里呢,我是用了 dipstick 的 api kit, 然后数据提供方呢,是用 a, k, c, r 的, 所以整个软件的逻辑就是这样子的,如果大家有更好的一些建议呢啊,也欢迎大家提出来啊,我看一下是怎么样去把它加上去啊, 后面呢,我可能会增加一个短信通知,假如啊,我们在这里的一些股票,它有一些符合你可以购入的条件,才会发信息给你。 现在的 ai 真的 是太强大了,像 codex 这样子的工具呢,以后呢,肯定是会越来越多的,像以前我们要做一个这样子的一个软件的话,你没个几万块钱估计就搞不定,或者是说你的程序员要写好久,那现在很简单啊,只需要一句话就能搞定了。那像这种 ai 工具呢,它适用范围是非常广的, 像很多电商行业啊,你要做数据分析啊,你要靠人力去堆的那些工作啊,其实都可以让 ai 做,因为 ai 最擅长就是数据分析,做报表啊,做什么各种各样的分析,不管你是公司的运营啊,或者要做财务的数据分析啊, 或者是你业务部门呢,要做一些调查报告啊,各种各样的东西,其实都可以用 ai 来去解决,一句话非常简单。
![Codex AI编程新王者, 5 大理由让你爱上 Codex 和Claude Code蜜月两月,我却在3天内叛逃到 Codex 。一次语音助手重构让我见识到它在大型代码仓库的“稳、准、狠”,也更贴合我的SPEC驱动开发。视频用5大理由拆解差异,还聊相同模型在不同系统提示下的表现与性价比。看完就知道该怎么选。顺手点个赞订阅,评论聊聊你的体验。
时间戳:
00:00 [为啥3天叛逃?] - 5大理由抢先剧透一下
00:24 [理由一|大仓稳准狠] - 大仓库也能稳准狠在线
01:45 [理由二|稳定与重构] - 语音助手重构全过程惊喜
05:31 [理由三|SPEC更高效] - 三点文档法提升成功率
06:35 [理由四|同模不同解] - Kimi 在 Codex 更冷静
07:12 [理由五|性价比&建议] - 20刀如何花得最划算
#chatgpt #codex #claudecode](https://p3-pc-sign.douyinpic.com/image-cut-tos-priv/72d96bed8eac862444581e7220ecbcdb~tplv-dy-resize-origshort-autoq-75:330.jpeg?lk3s=138a59ce&x-expires=2087337600&x-signature=HU1hQm4y1XsT3CZq2VXi3mldNKA%3D&from=327834062&s=PackSourceEnum_AWEME_DETAIL&se=false&sc=cover&biz_tag=pcweb_cover&l=20260225082936BD154322858E6C239C2D)

哈喽,大家好,一觉醒来, gbt 五点三, codex 和 opus 四点六都悄悄地发布了啊,同时我也在我的网站上进行了更新,大家可以访问以下网址进行体验。 最新的 pro 的 opus 四点六和 codex 五点三的模型价格只需要官方的百分之十左右,那么接下来我们一起来看一下它们具体更新了什么,并且它们的能力又是怎么样的。首先第一项是 t p 二点零, 这是一项操控命令型工作以及操作能力的一个考核,那在这项的考核中, codex 五点三 c 幺幺零相比其他的模型,并且对比 codex 五点二,它有了不少的提升,将近提升了百分之十三个点。 当然 oppo 四点六它相对于 oppo 四点五,它在这方面也是有一个贬低,百分之六的提升。那第二项是 o s word, 但其实这个跟最近爆火的 oppo kro 是 有极强的关联性的,这个就是一个图形化界面代理操作的能力的这么一个测评啊,我我想 eshop 这是对于 oppo 四点六的更新, 可能就是为了去更好的适配他们自己的 coo work, 最近爆火的 open coil 小 龙虾,其实它就是 coo work 的 开源版本。那可以看到在这一项能力上, opus 四点五提升了将近百分之六点多, codex 也有一个不少的提升, 并且它的提升幅度达到了将近的百分百,但是它的能力还不到 opus 四点五,还是有很大的进步空间的。那第三项是 s w e, 我们需要分开来看,首先是这个 opus 方面,它居然还比上一代降低了百分之零点一,这个具体是什么原因我也不太清楚,那 codex 这方面呢?它提升了百分之零点二,呃,为什么这两个数值是不一样的?因为它们两个的这个问题它是不一样的。一个是 verif 版本啊, pro 版本的这个问题难度是要更高的,所以说它的综合评分出来是更低的。那第四项是 ctf, 那 这一个是 这个 open e i, 它们自己测的,主要是测试模型对于这个网络安全方面的漏洞。呃,对于这个 项目中的 bug 的 一些搜索的能力,一些修复的能力啊,可以看到已经有一个不少的提升, kolex 五点三的版本提升了将近百分之十左右。那第五项是这个 g p q a, 这是一个对于顶级庄家领域的一些推理能力,以及一些深度思考的推理能力。 那在这一项上, per 四点六也有一个不少的提升,将近提升了百分之四点多。那在这项上, g p t。 还是遥遥领先啊。当然这个 codex 五点三他们还没有发布他们的这个相关的数据。 那最后一项是这个多学科的能力,跨学科的能力,它涉及的五十多个这个人文社科领域的问题,从古至今都有各种问题。那在这个领域上, opus 点六也有个不少的提升,也提升了将近百分之十。其实综合来看呢,两个模型它相对于善待都有一个不少的提升。在 opus 它的提升主要就是在它的这个 os word 方面,以及它的这个,呃,研究生领域推理的这方面,深度思考的方面。 那 codex 它的提升主要就是在经济行方面以及 os world 方面,以及这个 bug 修复能力的方面,其实两个模型它都各有千秋, 我看了大量的海外的社具的评价,其实对于这两个模型大家的评价都是褒贬不一样,因为现在很多人他都是在用 code 进行开发,那对于这个代码的 解锁以及这个 bug 的 修复,很多人还是选择使用 codex 啊,所以这两个模型它并没有说谁更强谁更弱,具体看自己的应用场景。今天的介绍到此结束,谢谢大家观看。

朋友们,今天的大事件都知道了吧, oppo 四点六和 g p t 五点三 touch 在 十分钟左右相距发布,那很自然,这两货今天又成了整个社交网络最靓的仔。那么有一个问题就来了,他们俩到底谁更强呢? 今天我们就让他们俩来一场巅峰对决,我们用三个案例来快速的看一下他们俩到底谁的效果更好,分别覆盖 web 前端开发、移动端开发和桌面端 app 开发。那具体结果如何?我们一起来看一下。 ok, let's go! 好, 第一个案例是开发了一个叫做 amnesia 啊,有人知道这个单词什么意思吗?它是无所不知的意思啊,其实简单说就是一个可以一次性向六个大模型来提问的一个 app。 那 这六个模型就是 国内的三个 g i m mini max, kimi, 还有国外的三个七幺 g p g, oppo 四点六,还有 jamaican 三 pro。 好, 下面有一些具体要求啊,这个我们不细看啊,我们先看一下它们整体的一个结果, ok, 这个是 g p g 五点三控制器的结果,那大概的 u i 就是 这样。然后呢,这个是 oppo 四点六的结果, 它这边看不到任何的那个,比如说每个模型,但是呢,待会儿我们试一下,说个消息,看它能不能出来啊。那么从界面上面来看呢,你会觉得好像 哎,这个 g p 五点三的好像稍微有点设计感,对吧?但是这里有个很大的问题啊,你看他每一个模型,他的回答是在这边的,那这个你要看起来就很不方便,对吧?但,哎呦喂,我们来试一下啊,我们让他帮我脑爆一些用于测试两个模型编程能力的一些项目,好,发送 好,可以看到每一个模型,它这边呃都能回答,都能正常工作。然后这边还有一个主回答,它这边选的是 g p g 五点二,我不知道它是不是有偏塔啊,哈哈, 偏塔之间的模型对吧?所以功能上面看起来都 ok, 然后这边呢,还能去,比如说隐藏某一个,对吧?隐藏隐藏,隐藏隐藏,然后也可以全部显示,可以相当于是可以切换啊,这边还有横向滚动 哦,它是这样的,然后有网格的,这个布局好,布局大概就这样。那这里的我觉得最大的缺陷就在于说,嗯,只有那么一点小小的窗口,看起来很不方便,但是呢,功能层面完全没问题。然后我们来看一下这个 off 四点六的结果好, and 啊,它就是这种,就是并列的好,可以看到, 呃,他有点闪动啊,然后这个能不能关掉呢?啊?他这边也能切换,这个布局好,目前看起来两个模型生成的结果啊,功能层面都能够正常的工作,那么他们俩最大的区别呢?就在于这个布局,对吧?然后整体看下来,我会觉得 oppo 四眼六他的这个布局会相对来说会就是比较符合我想要的一个风格,然后如果看我们的提示词的话, 你会发现其实 oppo 四点六生成的就是我们想要的,对吧?左侧一个互换六表,然后右侧是并列的六列,而不是这边 g p t 五点三扩展齿所生成的这个布局,我觉得这个这边占了这么大块,就是会导致用起来很不方便,那这个虽然说它会有一个很想滚动的一个结果,但是你想想在大的屏幕上面 是不是看起来就很方便了?好,所以第一轮我会觉得 oppo 四点六获胜, ok, 第二个案例是让他们俩同时来开发一个简版的小红书啊,使用 flutter, 然后本地的 sql 保存所有数据, 然后笔记留,发布笔记,笔记详情还有点赞评论这些功能,包括我的主页,那么 ui 层面我们就直接让它尽量的与小红书保持一致就行了。好,它们俩生成结果,我们一起来看一下, 左边这个是 gpt 五点三 codex 的 结果,然后右边这个是 oppo 四点六的结果。然后如果说抛开小红书这件事情本身来看的话,呃,我会觉得 gpt 五点三 codex 的 版本设计层面会稍微好一些啊,包括它整体的这个 配色呀,包括比如说这种圆角啊,包括它配的图啊,好像会稍微好一些,对吧?包括你们看它底部的这些东西,呵呵, 但是这里我们有一个前提,我们刚刚也跟大家重点强调了,就是让他尽量的符合小红书的这个风格,包括整个设计界面。所以你从这个角度来看啊,依然我会觉得 oppo 四点六会更加符合小红书的这个风格啊,包括这个点进去以后的这个, 嗯,详情页面吧,对,包括整个,比如说,尤其是底部的这个东西,对吧?就是,就很明显啊,就这个,就是他自己完全自己设计了一套,没有按照我们的提示式来,按照详述的风格来去设计。然后呢,他们俩还有一个非常大的区别,就是发布啊,发布这边呢, g p p 五点三克莱斯它是发布不了的啊,你看点击这个东西,它没有用,然后呢, oppo 四点六它的版本是可以发布的啊,给大家随便选一张图片啊,比如说这个,对吧?打开随便填一个,呃,笔记 真棒,发布,你看它发布成功了啊,点赞也没问题,所以从这个角度来看,无论是从设计还是从功能层面都获胜,尤其是从这个遵从 提示词的这个方面啊,我感觉 oppo 四点六已经把 g p g 五点三 corner x 打的有点招架不住了,哈哈,反正这个提示词就这些啊,大家也可以自己拿回去测,对吧,看看你测出来结果是不是这样子。 好,所以现在 oppo 四点六已经二比零领先了,哈哈,我们再来看最后一个版本。好,最后一个版本呢,一直是我用来做最终测试的啊,就是让他用这个 rust 加 gpu i 框架来开发一个 macos 的 app 啊,这个 gpu i 框架是非常新的一个框架 of rise, 本身也是非常难的一个语言,所以这就非常考验这些模型它的学习能力,包括它综合它的调研能力啊,然后呢,实 际应用的能力,就你想象一下,让你用一种非常难的语言,然后呢去用一个非常新的框架来开发一个完整的 app, 这个难度是非常大的。然后呢,它开发的一个结果就有点类似于那个 cc switch, 它的一个 相当于用来切换 cloud 的 那个 api 提供商的这样的一个界面啊,然后这边有系统拓盘,可以下拉之类的。好,我们来看一下两个 app 实现的结果。 好,这个是 g p 五点三的结果,可以看到这个在我看来这属于什么东西?你这个真的是一个 api 情况下,我看看创哥的 api, 然后这边的这个 ki 率让我自己来去填写。我的天,这什么东西啊?我们就填一个吧, t 等于 等于 y 率保存好,就这样填光了,填了这个东西,但是我觉得非常不合理啊,你还让我自己用这种这种 k y 率在这边写接上的方式来去写, 但是呢,输入都是没问题的啊,像之前的。呃,我记得是五点一的时候啊,他用 g p u i 开发的那个 app 根本就是无法输入的,就是根本不行,哈哈, 那至少的话,他现在是有这种输入框就能够正常的输入,我觉得相对于他自己来说是一个非常大的进步,但是整体来说我觉得我很不满意,哈哈。然后再来看一下这个 oppo 四点六的版本啊,这个我觉得 看起来就舒服很多啊,这边你可以看到啊,当然我这边也是,它本来的界面是这样,这个就其实就挺像 cc switch 它的一个这样的界面的,然后这边你可以新创建一个那个新的这个群,而且你看这边它还有一个 official, 就是 default, 就是 默认的是使用 cloud 官方的那个账号,然后可以新建一个新的账号, 放歌的 a p i 啊,八个位,我们现在有自己的 a p i, 大家想要的话可以了解一下,然后这边可以通过这种 kpi, 至少这种方式就比你这种方式要友好很多,对吧?嗯,左边 base, 右边前一个 c, ok, 保存成功了,然后呢,这边点进去能够自动地继续编啊,这个是官方的啊,这边是保持了以前的,对吧?然后我们来看看之前的这边的 c 好 过去这边是有保存,所以从这个角度啊,无论是从 ui 的 设计,交互 还有功能层面,我会觉得都是 oppo 四点六会获胜,你看这边,这这算什么交互啊?我的天,你怎么会这么用的? ok, 以上就是我对 oppo 四点六和 g p d 五点三 q d x 两个模型的快速测试, 所有的提示词都在文档里面啊,大家想要的话可以自己拿回去测试一下,但是我测试出来结果大家也都看到了, oppo 四眼六可以说是把 g p p 五减三刻带子按在地上摩擦呀。我的天,这两个差距我觉得还是挺大的。总的来说, oppo 四眼六依然是当之无愧的王者啊,绝对的替人存在。所以 说实话,我还是挺意外的,因为我觉得 oppo 四零六可能是更强,但没想到会强这么多。好,那对于这三次测试以及对于他们俩的模型能力,大家怎么看啊?欢迎在评论区留言。那这个视频教具觉得有用,可以点赞关注一下我唱歌,我们下期见,拜拜。

不是 openad, gpt 五点三 codex, 据说 token 消耗比 gpt 五点二少一半,但是我想问 token 少一半订阅费也给少吗?

cloud opus 四点六和 openai codex 五点三。最便利的方法就是订阅一个 gitupper compile, 十刀一个月,两个模型随意切换。

欧派 i i 最近又放了个大招,发布来 gpt 五点三杠 codex, 这可不只是又一次小小的升级那么简单,它很可能彻底改变我们跟人工智能打交道的方式。来,咱们一起来看看这个新东西到底有多厉害。 咱们就从这个问题开始聊。你有没有想过,如果你的 ai 不 再是一个你叫他干啥他就干啥的工具人,而是一个能跟你坐下来一起头脑风暴,一起解决难题的,嗯,一个真正的同事,那会是种什么样的体验? 这啊,就是 gbt 五点三 codex 想要实现的核心想法。好,今天呢,咱们就分这几个部分来聊聊。首先带你见见这位新同事,然后看看他怎么从一个写代码的变成了一个搞创作的。 接着我们会聊一种全新的互动方式,还有个很科幻的话题,他怎么自己造自己?最后再谈谈能力越大责任越大的安全问题。 好的,那咱们就先来认识一下这位新同事。这里的关键或者说最根本的转变就是 g p t five three nex codex 不 再只是一个被动地等你下命令的工具了,它变成了一个能主动跟你合作的伙伴。 首先啊,最直观的感觉就是他真的太强了,是目前为止我们见过的最厉害的自主编码模型,不光能力比之前的版本强了一大截,而且你再看速度还快了整整二十五趴。这可不只是快了一点点啊,这意味着效率和能力是双重飞跃。 所以你可能会问,这个自主智能到底是个啥?说白了,就是你再也不用像个保姆一样,一步一步教他该怎么做了, 你只要给他一个大方向,比如说帮我分析一下上个季度的销售数据,做个报告,他就能自己去查资料,跑数据,用工具,最后把一份漂泊嘹亮的报告交给你,就像一个真正的人类专家,全程自己搞定,光说不练假把式,对吧? 接下来咱们就来看看他在实际应用里到底有多牛,看看他怎么从一个马农华丽变身成一个真正的创造者。相信我,他的能力早就超出了写代码这么简单了。 你看这个对比简直太明显了,我们让新旧两个模型做同一个活,建个网站首页, 左边这个老的,嗯,也丧,交了作业吧,能用,但你再看右边这个新的,哇,他不光把要求都做到了,还特别贴心的加上了客户评价的轮播图,定价方案也做的更专业。 他就像一个有经验的产品经理,他知道用户到底想看什么,交出来的完全是生产级别的东西。 如果说做个网页只是开胃小菜了,从零开始做游戏, 你只要给他几个很简单的指令,比如做个赛车游戏,他就能自己吭哧吭哧的把整个游戏给做出来。有地图,有道具,功能齐全,这已经不是在写代码了,朋友们,这是在创造世界呀! 看了这么多酷炫的例子,咱们也得看看硬核的数据。你看这张表,特别是在 terminal bench 和 osworld 这两项上,那个分数简直是碾压式的领先, 这说明什么?简单来说,就是它在做一些非常像人的工作室,比如操作电脑,开发软件能力有了质的飞跃, 这个进步有多大?这个柱状图就更直观了,专门看 o s word 这一项。这个测试考的就是咱们平时用电脑干的那些活儿,收发邮件、整理文件什么的。你看这个差距从三十八倍儿多一点儿,直接蹦到了快六十五倍儿。 所以说,他现在是越来越懂我们人类是怎么工作的了。 ok, 说完了他有多能干,咱们再来聊聊。我觉得最酷的一点就是,我们跟他的合作方式彻底变了,重点不再是他能干啥,而是我们能一起干啥。 你想想,以前用 ai 是 不是就像许愿一样,把任务扔进一个黑盒子里,然后就只能干等着?是好是坏全凭运气。 现在呢?完全不一样了,你把活交给他,他会像个真正的同事一样,不停的跟你汇报。哎,我坐到这了,你看看行不行?你可以随时插话,随时调整方向,把他引向你想要的结果。 所以你明白了吗?关键就在这,我们不再是那个高高在上,只管下命令的老板了,我们成了他的领航员,和他一起把船开向目的地,这才是真正的游戏规则改变者。 好,接下来要说的这一点,你可能得扶好下巴,因为他真的有点科幻,这个 ai, 他 居然参与了对自己的开发。没错,你没听错,他在自己造自己。 你听听 open ai 的 工程师自己是怎么说的。我们今天的工作与仅仅两个月前相比,已经发生了根本性的不同,短短两个月,工作方式就天翻地覆了,这可不是什么夸张的说法,这是他们最真实的感受。 那他到底干了些啥呢?他简直就是开发团队里的全能超人,自己监控自己的训练,自己给自己看病找 bug, 还自己管着服务器,甚至还能帮着分析数据,搭个数据管道,几分钟就搞定。 这哪还是个工具啊,这分明就是个核心成员吗?最后,咱们来聊聊一个特别重要的话题,力量与责任。能力越强,责任越大吗?这么厉害的工具,安全问题肯定得跟上。那 open ai 是 怎么做的呢? 首先得承认,这家伙在网络安全这块能力是顶级的,被评为高能力,这就很吓人了对吧?因为他就是一把典型的双刃剑,用好了是天下最强的盾,能帮你发现漏洞,用坏了那就是最锋利的毛。 所以啊, openai 给他上了一整套的紧箍咒,有专门的安全训练,防止他干坏事。有二十四小时的监控系统盯着他,还有一些特别厉害的功能,不是谁想用就能用的,得经过严格审查才行,这就是所谓的受性访问计划。 当然,光防守还不够,还被主动出击。 openai 直接拿出了真金白银价值一万美元的 api 额度,干嘛呢? 就是免费给那些做开源项目和关键基础设施的人用,帮他们加固网络安全。这才是用魔法打败魔法,用自己的技术去做好事。我觉得这事做得挺漂亮的。 聊了这么多,你肯定想问,那我们怎么才能用上呢?很简单,如果你是付费用户,现在就可以在 codex 样用啊,命令行工具啊,还有你常用的 ide 里找到它了,赶紧去试试吧。 所以咱们今天聊的 gpt 二点、三点儿 codex, 它带来的真的不只是技术上的一个数字更新,它带来的是一种关系的颠覆, 这就引出了一个终极问题,也是我想留给大家思考的。当我们的工具变成了我们的队友,那我们人类自己,我们的创造力又该去想何方呢?这个问题可能没有标准答案,但未来就藏在我们的探索里。

今天只讲一个事,二零二六年编程模型的终极对决, openai 的 codex 五点三对战 antropica 的 opus 四点六。 这绝不是一篇简单的软文,我们基于代码、通过率、架构、理解力、多模态转码等五个硬核维度,完成了这次全网数据的聚合评测。视频开始前,先直接给结论,这两个模型的差异根本不是好用难用的问题, 而是战略方向的选择。你是需要一双快到极致的手,还是需要一个能深度思考的脑?先看最底层的硬参数, opus 四点六是个不折不扣的算力怪兽,估算参数量高达四万亿,走的是重型混合架构。相比之下, corex 五点三就是个精巧的轻量级选手,一点八万亿参数主打猫易专家混合。 这种架构差异直接体现在了账单上, opus 的 价格比 codex 贵了整整十倍以上,也就是说,用 opus 生成同样一段代码,你的成本是 codex 的 十倍。 这就是为什么很多团队只敢在关键时刻调用 opus 的 原因。再来看记忆力,这里的水分最大, codex 标称两百万上下文,听着吓人,但实际上它是靠 r a g 解锁技术凑出来的,本质上是把书翻得快,而不是记住了。 稍微复杂点的跨文件逻辑他就找不到了。而 opus 的 一百万上下文是实打实的 true long context, 他 是真把代码读进脑子里了。 能不能记住五千行代码之前定义的一个变量?这就是剪辑和阅读的本质区别。到底谁更能干活?看数据,在学 makeel 这种单纯的代码补全考试里,两家都是九十多分,基本没区别, 都接近人类极限了。但是一旦到了 s w e bench, 也就是让 ai 去解决 github 上真实的一手时,差距瞬间拉开了。 codex 的 解决率只有百分之三十一,勉强及格,而 opus 飙到了百分之五十八, 这是碾压级的优势。简单说,写个 hello world 谁都会,但要修复一个跨三个模块的并发症,还得跨 opus。 最后是速度,这直接决定了你的使用体验。 codex 每秒能飙到一百八十个头啃, 跟机关枪一样,你在 a d 里敲代码几乎感觉不到延迟。反观 opus, 每秒只有四十五个头啃,慢得像个老教授在打字。 这个巨大的速度差决定了他们的命运。 qdax 适合做你的实时聊机,帮你补全括号和变量,而 opus 只能放在后台去做那些不需要秒回的深度思考任务。聊聊具体的编程语言。这里面偏科现象非常严重, 先看系统级编程,特别是 rust 和 c 加加。在这个领域, opus 是 绝对的统治者。 rust 社区有个共识, codex 根本不懂什么是借用检查器,它写的代码看着像 rust, 但一翻译全是生命周期错误, 你得花大把时间去给它擦屁股。而 opus 不 仅能搞定复杂的 e book track, 甚至在 c 加加里,它能帮你做模仿原编程,优化内存布局。简单说, codex 是 在模仿语法。只有 opus 真正理解了内存安全的哲学,但是 战场一转到 web 前端和 python 脚本,局势瞬间反转。在 rex, next js 或者 py torch 这些生态里, codex 就是 神, 因为他吃过了海量的 n p m 包和 stack over 代码,他对这些流行框架的肌肉记忆极强,写代码的感觉就像直接从你脑子里倒出来一样顺畅。反观 opus, 在 这里就显得太墨迹了, 他经常会过度纠结你的 python 类型,提示写的规不规范,这种不必要的严谨会严重打断你的开发思路。 所以做 web 开发不要犹豫,直接用 codex。 最后是数据库和基础设施运维这块千万要小心。我们在测试中发现,一旦 sql 语句涉及到五层以上的嵌套查询,或者编写复杂的 kopinata's helm charge, codex 经常会产生幻觉,编造一些根本不存在的数据库字段或配置项,这在生产环境是致命的。 而 opus 被很多数据库工程师称为救命稻草,它不仅不瞎编,还能准确指出你的缩影为什么失效,并帮你重写查询语句。想保住数据库,还得靠 opus。 现在的编程不仅仅是打字,还要能看图。我们仍给他一张 figma 截图,要求生成 react 代码 box。 四点六的表现令人发指,它不仅还原了像素级的阴影和圆角,甚至自动把重复元素抽象成了独立的组建代码,直接能进生产环境。唯一的缺点就是慢生成一次要等一分钟, 而 codex 五点三只要三秒钟就能出结果。但看代码你就崩溃了,全是硬编码的内连样式颜色也不对,所以做快速原型用 codex 真要开发上线,还得等 opus。 但这不仅仅是模型强不强的问题,更是你用的顺不顺手的问题。 openai 最大的底牌是它跟微软的深度绑定,在 vs code x 里, code x 五点三是原生集成的,它有个独家功能叫幽灵文本。这东西很邪门,它不是等你敲完代码再补全,而是预判你的意图。比如你刚在写测试文件名,他后台就已经静默把测试逻辑写好了,你一回车,代码直接砰的一下全出来了。 这种零延迟的跟手感,目前只有 codex 能做到。 opus 没法拼速度,所以它走了一条完全不同的路。 在 ctrl 二点零或者 win serve 这些第三方 id 里, opus 四点六主打的是全库深度审查,你可以直接选中一个几十个文件的文件夹,右键让 opus 重构, 它会花个十来分钟把所有文件扫一遍,然后给你一份详细的代码变更清单。这是一种异步的工作模式,你下完指令去喝杯咖啡 回来,他已经把最难啃的骨头给你啃完了。这种架构级的重构能力,是那些追求速度的小模型想都不敢想。聊完好不好用,咱们得聊聊更严肃的事。安全。根据一份流出的金融行业内部备忘录,不少大公司是明确禁止在核心业务里用 codex 五点三的。 最大的雷就在于数据回流。简单说,他有时候会莫名其妙的吐出别人的私有代码,这在法律合规上是过不去的。而且他在写 aas 或者 rsa 这些加密算法时,特别喜欢用那些已经过时的老库,写完了还不给任何安全提示, 对大厂来说,这简直就是上限及漏洞的定时炸弹。相比之下, antropics 旗下的 opus 四点六就稳得多了,因为它内置了极其严格的宪法及 ai 护栏,它不只是在被动携带码,更像是个随行的安全审计员。 如果你让他写一段可能导致 cto 注入的代码,他不仅会当场拒绝,还会一针见血的指出你现在的代码库里哪里还有类似的漏洞。虽然他写的慢,价格贵,但这种自带审计能力的特性,却是让很多需要处理敏感业务的技术高管睡得着觉了。 如果把这两个模型比作员工,格列斯五点三就是那个 l 四级别的高级工程师,他手速惊人,各种流行框架信手拈来,非常适合快速清理零碎任务。 但他容易为了赶进度走捷径,所以你得盯着点,别让他带崩了代码质量。而 oppo 四点六则是标准的 l 六级别首席架构师,他干活慢条斯理,但方案都是深思熟虑过的,安全性、 扩展性一步到位。虽然他很贵,干小活也显得啰嗦,但这种大局观和思考深度是不可替代的。 面对这两个极端,目前最聪明的做法是混合模式。你在 id 里写代码时,默认让 codex 五点三跑时是股权, 利用它的毫秒级响应维持你的开发新流。而一旦涉及到架构设计、复杂逻辑重构,或者 那个修了半天也没头绪的奇怪思锁,赶紧去侧边栏呼叫 oppo 四点六。简单说, codex 负责你的手,也就是执行, opus 负责你的脑,也就是决策。这套组合拳打下来,才是目前编程效率的终点。

太炸裂了!一周前,二月五日,两家全球最顶级的公司同一天甩出王炸模型 openai 的 gpt 五点三 codex 发布,还有就是 cloud code 的 开发商,那么他直接发布了他的 cc 四点六模型,而 codex 五点三的版本直接颠覆了所有人的认知。我们来看看它的文档里面是怎么写的。它是这样说的, gpt 五点三 codex 是 我们首个在自身创建过程中发挥了关键作用的模型, codex 的 团队,也就是人类利用其早期版本,也就是它的 gpt 五点二 codex, 它来调试其自身的训练过程,管理自身的部署,并诊断测试结果与评估。 我们团队对 codex 能够进行如此大幅度的加速其自身的开发进程感到非常的震惊。再读一遍, ai 参与了它自身的构建,这不是对未来某一天可能发生的事情的预测,这是 openai 现在就告诉你,我们发布的这个 ai 是 由 ai 自身参与并创建的, 也就是说用智能体本身去改进智能体,他已经非常非常的聪明了。所以这个消息大家不要去糊弄。此刻我最期待的不是春节联欢晚会,而是那个时候我们 deepstack 发布的新一代的大模型,加油!

gpt 五点三 codex 编程性能到底如何呢?是什么底气让 open i 赶在编程领域和 cloud 一 绝高下?当地时间二月五号,几乎就在 cloud 四点六 opus 发布的同时啊, open i 正式宣布旗下最新一代编程旗舰模型 gpt 五点三 codex 正式发布。 这是 open i 首次跨级发布模型啊,在还没有发布 gpt 五点三模型的时候,就已经率先发布了 gpt 五点三的编程模型, 外加前一天 codex 应用刚刚上线,这套组合拳也逐渐 open i 在 ai 编程领域这个兵家必争之地扳回一城的决心。 那 gpt 五点三 codex 的 编程性能到底如何呢?是什么底气让 open i 赶在编程领域和 cloud 一 绝高下?本期视频我将带你先快速了解 gpt 五点三 codex 模型的核心特性,然后再与 cloud 四点六 oposs 模型进行全方位的对比。 首先,根据官方介绍,相比 gpt 五点二 codex 模型, gpt 五点三 codex 模型在 swbench pro 榜单上的准确率提升超过了百分之十五,并且解决相同问题所消耗的 token 榜单上的准确率提升超过了百分之十五,并且解决相同问题所消耗的 token 大 幅减少。 类似的,在命令行编程榜单 terminalbench 二点零上以及 computer use 的 榜单上, gpt 五点三 codestyle 跑分涨幅也都超过了百分之十,可以说新模型进步显著啊! 并且新模型更加擅长处理复杂编程任务,尤其是复杂的网页编程任务。例如他现在看到的紧张刺激的赛车小游戏就是一个纯 html 的 应用,甚至这个游戏还带有音效和八张不同的地图,是不是很夸张? 与此同时, gpt 五点三 codex 的 意图理解能力也大幅提升,同样是创建用于引导、转化成交的落地页,相比 gpt 五点二 codex, gpt 五点三 codex 会更多的通过巧思来传递产品价值,促进成交。例如会有很多策略展示,包括包年的折扣、通过数据对比而不是数据罗列来展示产品效果等等。 小实验我自己也采用科特中的 gpt 五点三 colex 模型进行了复刻,确实效果非常不错。而除了拥有更强的编程能力之外,新版 gpt 五点三 colex 还能接入各类办公软件,高效完成如 ppt 表格、文档编辑和优化等各项工作。不得不说, android 前脚刚发布了新一代 ai 办公软件 co work, gpt 五点三 colex 就 全面升级,提升了操作办公软件的性能。看来 ai 办公依然成为顶尖大模型公司共同瞄准的下一个风口。 此外, gpt 五点三 codex 还首次提出了交互式开发的技术概念,也就是说,开发者可以在使用 gpt 五点三 codex 的 时候,可以随时介入 codex 的 工作流程中,随时发消息,随时就能调整 codex 的 工作方向和工作计划,从而避免一次性执行任务时间过长、中途跑偏,大幅浪费 talk 的 情况。 当然了, open i 对 gpt 五点三 codex 最引以为傲的并不是 gpt 五点三 codex 的 模型本身,而是 gpt 五点三 codex 的 训练过程。 据习, gpt 五点三 codex 是 openai 乃至整个业内首个自我训练、自我迭代、自我升级的模型,简单来说就是 openai 的 研究员们通过将早期的 gpt 五点三 codex 模型接入 codex agent 来持续根据 gpt 五点三 codex 的 模型训练。 而这个过程中, codex agent 成功地发现了 gpt 五点三 codex 模型存在的不足,并提出了解决方案,并最终取得了非常不错的训练效果。可以说这是一次非常成功的用 ai 训练 ai 的 实践啊。怪不得赛姆奥特曼前段时间发推特带着矫情的口吻说自己要被 ai 淘汰了呢。

最近 cloud code 和 codex 同时发布了最新的版本哦,四点六和 codex 五点三,我之前还没有机会去深度使用,昨天我借着一个产品重构的机会来体验了这两个版本,那也分享一下我的感受。 我重构的产品是我做的一个视频生成网站,主要是它的操作区我觉得有点过于复杂了。 那现在随着我加入一些新的模型,我觉得这个操作区越来越复杂,我很早就想重构它了,刚好昨天我就借着这个机会来重构了。那这是重构完的一个效果,大家可以看一下。我觉得操作区要简单很多了, 登录之后也有一个左侧边栏和操作区,总体来讲我是非常满意的。那这样一个重构,我是先跟 office 四点六去沟通,我把我的需求一次性把它整理清楚, 跟他用计划模式,并且我告诉他一定要用 frontends design 这个技能。那我们沟通了多轮之后,把计划确定下来,他就吭哧吭哧干活了。整个过程非常的顺畅,中间几乎没有停顿,而且很快, 这一点给我留下的印象特别深。他确实很快,第一个版本出来以后,我就惊艳到了,那就是我想要的。今天还剩下一些活,我就让 codex 五点三继续干。 同样 codex 最近也上了一个 play 模式,就是计划模式,它会跟你互动式的问答,我觉得这一点体验非常好。那同样它出来的东西也很稳,而且我也让它用这个 front and design 的 这个技能出来的前端效果我觉得也都不错。 但是这两个唯一有一点不一样的,我觉得这个速度不一样, codex 确实会慢一点,其他的我没有发现什么太大的不一样,至少在我这个项目上。当然因为我起头是让 off 四点六帮我做的, 而且他做的很快,所以我个人目前说实话,我内心更倾向于 off 四点六,他确实做的又快又好, codex 很 稳,但是他给我的这些计划的确认也好, 还有他给我的这种速度的感知,确实没有 off 这边来的更让人惊艳。因为他又快,他给我的计划又详细,所以总之这两个模型我觉得都已经是顶级模型了, 我觉得随便选哪一个都没有问题,但是如果你对速度要求特别高的话,那奥斯四点六肯定更合适了。这就是我重构完这个项目的一些感受,听听大家有什么体会,我们可以在评论区聊一聊。

随着 oppo 四点六跟 codex 五点三的推出,关于 ai 是 否可以替代程序员甚至大部分白领的言论甚嚣沉上。那么关于 vibe coding 氛围编程,我谈谈我自己亲身的感受,或许有一些有些刺耳,你可以说我是一家之言,但确实呢,都是我心里所想。所以呢,我们评论区友好的交流。 过去这半年呢,我感觉自己十几年来编程的习惯被彻底的推翻了,不是慢慢改变的那种,是你一抬头,你发现自己已经不在原来的那条道路上了。而且最诡异的是,这一切发生的非常的快,快到你还没来得及形成自己的观点,你就已经身在其中了。 这几周呢,我基本一直都在用 cloud code 跟 code 写代码,所以呢,有些零零碎碎的感受,系统性的跟大家聊一聊。首先,从最直观的变化说起,写代码的工作流到底是怎么样子的。 如果回到去年,我们公司呢,大概还是百分之八十的手写和百分之二十的 auto completion 自动补全 type type type 那 种有一丁点的东西呢,会用一些 agent。 但是到了年底,我们一咬牙上了 oppo 四点五,这个势头几乎就反过来了,百分之八十全是 agent 在 写,而我们呢,只负责百分之二十的修改,润色和 兜底。也就是说,现在我大部分时间其实是在用英文编程。 by the way, 差一句,这个没办法, clockwork 跟 codex 目前英文的回复的质量我觉得确实要高一点。 anyway, 回到主题呢,真的就是那种我有点不好意思地跟我的大语言模型直接说,嘿,你帮我写一个什么什么什么样的东西,然后呢?它它直接就 给你全部都写完了,没有任何的废话,尤其是现在的 oppo, 四点六跟 codex 五点三是几乎一次过的那种。 说实话,这对你自己的一 go 肯定是有一点打击的,尤其是很多程序员希望那种很强制的控制力,但是你一旦体验过之后,一次性对那种几千行代码做整体级别的操作,再让你回去一行一行的敲, 你真的是回不去了。尤其是当你慢慢学会你怎么用,怎么约束,怎么判断它到底能够干什么,不能够干什么之后,这种净收益非常大。这是我将近十几年编程生涯里的对我基础工作方式 最大的一次改变,而他不是用了几年,而是几周的时间就刷一下,全部改变我们的工作方式。给你们分享一盘数字,现在已经有相当一部分硅谷的工程师至少是两位数的百分比,这些工程师都在经历和我一样同样的事情。但你如果回到咱们中国, 大部分的程序员对于这件事情认知可能还停留在个位数,因为这里有一个很残酷的现实,咱们中国写代码的代码工程师本 来就是过剩的,所以大家对这个相对比较抵触,我是可以理解的。不过 anyway, 社会问题呢,不在我们今天的讨论范围当中。接下来呢,聊一个容易被夸大的点, 就是未来我们的编程环境到底是怎么样子的, ide agent 以及谁更靠谱。这件事现在外面呢,一共有两种声音,一种呢是以后呢?我们是一半 ide, 一 半是我们 agent 帮我们编,我们可以检查它的结果。另一种呢,是 agent 自己一个界面全部都会搞定,你只需要告诉他你想叫什么。 我个人觉得现在说什么都早了,没有人知道二零二六年底 web coding 到底会变成什么样子,而且目前看模型肯定还是会犯一点错的。而且如果你在写任何你真的在乎的代码的时候,你还是会有一 主动性的去盯住他,最好旁边呢,一定要开着一个正儿八经的 i d e。 上个视频呢,我给大家讲过 i d e 跟纯 agent 编码的区别,大家可以去看一看。只是呢,这些错误已经不是以前那种非常低级的语法错误了,现在更像是一个有点赶时间,有点自信过头的老工程师。他会犯的那种错误, 最常见的情况呢,就是他会替你做很多的假设,而且呢,他自己不检查,比如你脑子里默认这个数据肯定是排好序的,他也认了,然后整个方案都建立在这个假设之上, 你不说,他也不问,他就一路的狂写代码,也不自己回去检查。当然呢,这个是喘息的通病,更麻烦呢,是他并不擅长管理自己的困惑,他绝对不会主动跟你说这个地方,我不确定,他也不会指出他自己前后不一致的地方,他也不会摆出那种吹倒给你去选择,他更不会在该反对你的时候反对你, 有点太配合你了。我不知道是不是训练 ai 最后一步 r o h f 导致它能顺从人类就顺从人类,但我这点呢,反而希望它能够更激进一点的 反对我所有的事情。所以我一直建议 webcoating 的 各位用好你自己的 cloud md 或者是 agents, 到 md 给他定好规矩,让他该反对你的时候 反对你。当然,如果你 shift 加 tab 开启了 play mode, 情况会好一点,但目前呢, play mode 需要你单独去启动。我觉得真正缺的是一种清亮,随时能够进去的这种 play mode, 而不是我们人手去 shift 加 tab 给它打开。 还有一个特别明显的毛病,他们真的很爱把事情搞复杂,抽象层级的膨胀, api 设计过度,写不完,清理的这种死代码, 你可能会让它实现一个功能,它会非常认真的给你写出刷一千行逼笑、臃肿脆弱的版本。然后你看着屏幕说一句说等等,这里咱不是直接一个小小的 mapping 就 可以搞定吗?然后他就开始直言假笑,然后非常开心的说,当然可以,然后啪一千行变一百行。 但我还是想说,这可能是所有传速 mo 架构的通病,它不仅仅是写代码有这样的问题,因为传速 mo 的 基座决定了它指后往回输出,而不会在输出的过程当中去修改。前面 还有一个呢,你必须要时刻警惕的点,他有时候会顺手改掉或删掉他不太喜欢或者不太理解的代码或者注视,即使这些内容和前面的任务完全无关。就算你已经在 cloud md 里写了这个规则,这种事情还是时不时会发生。但即便如此,我跟你吐槽了这么多, 我还是得说一句,我吐槽的也只有这些不痛不痒的点了。未来一定是一个巨大的正向变化,而且至少我们团队是很难想象再回到完全手写的时代了。 如果你问我们现在的工作流非常的简单,两个屏幕,左边的这个屏幕呢,是几个 terminal 窗口在跑 clock code 或者是 codex 对 话,右边呢,是 anti gravity 的 ide。 去看代码,改代码都抵模型在上周,我们已经全部换成了 oppo 四点六跟 codex 五点三, 但另外一件事呢,特别让我震撼,想跟大家分享一下,就是 agent 的 任性。你看着他死磕一个问题,你真的会产生某种 agi 的 体感,因为他不会累,不会烦,不会自我怀疑。人类可能十分钟就开始想,哎呀,算了,这个 bug 有 点搞不定,明天再说吧, a 阵不会他就继续试,继续错,继续改。结果你看着他一个 opus, 一个 code 卡了二十分钟,甚至我都有点替他着急。结果呢,半个小时之后,啪!他突然成功把这个事儿给你解决了。那一刻你会意识到,耐力 本身就是我们人类工作中一个巨大的 bottleneck, 而大圆模型几乎是把这个瓶颈直接推高了一个量级。那至于效率到底提升多少,说实话,咱们很难去量化。我当然感觉自己公司的进展会发展更快了,但更重要的是,我们能做的事情 变多了。以前呢,我们是要算 high count 去请人,现在呢,我们就是多开一个 terminal 窗口。有两种以前我们根本就不会做的事情,现在呢,变成了我们日常。 第一种是那些我们写出来觉得花时间不值当的很小的小脚本小工具。第二种呢,是因为我们以前本身知识能力的不足,我们的边界太窄,或者是某一类的代码,某一种语言我们能力不够,导致我们根本不敢碰的代码库,比如 rust。 所以 你如果问我,我当然觉得这是一种加速,但它更像是我们的团队能力的杠杆在哪里? 不是多开几个 terminal, 而是你要让 l l、 m 自己去循环。你不要告诉他怎么一步步去做,你要告诉他什么叫做成功。举一个例子,你让他先测试, 再让测试通过,然后把他和你的浏览器的 m、 c, p 放到同一个 loop 里头,最后再写一个朴素但大概率正确的算法,然后再让他不破坏正确性的前提下去优化。 这个就是我们如何从一种命令式的思维转向一种声明式的思维。你会发现 agent 可以 跑得更久,而你撬动的杠杆也因此更大。还有一个是过去这半年我们自己没有想到的一个点,就是编程变得更好玩了, 大量的填空式、机械式的痛苦劳动直接消失了。剩下呢,就是我们偏创造性的这部分的工作。我很少花时间卡在某一个点在死磕,也不 太容易去陷入那种我现在完全不知道下一步要干嘛的这种状态了。我反而更有勇气去探索那些我以前不敢探索的点,因为你几乎总能够和 ai 一 起推进一点点进展。我觉得未来和 ai 的 编码可能会把工程师分成两类,一类呢,是真正自己喜欢写代码这件事, 另一类呢,是喜欢把东西创造出来的感觉的人。但代价呢,也不是没有。我已经很明显地感觉到自己手写的代码能力 极度的退化,写代码和读代码,你要知道是两种完全不同的脑力技能,就算你已经很难从零写出一段代码,你依然可以很少的去审查、理解、判断它的代码到底是否合理。那么这件事呢,大概率会长期的存在,而且它会越来越加具。 所以我也在为自己的公司在二零二六年做一个心理准备,因为每天我们都要和工程师喝一个小时的咖啡去分享感受,不是我们怎么去用,或者是哪个模型新出了,而是更 high level。 我 们的思维方式到底这一年会变成什么样子?比如到年底,你们每个人是否会变成一个十倍生产力的工程师? 平均的工程师和顶尖工程师的差距,我们会怎么样去定义?我们怎么去面试一个新的工程师?会不会这个差距会被拉得更大?那么在 ai 的 帮助下, 通采会不会越来越占优势,也是我们一直在思考的一个问题,毕竟呢, ai 非常擅长补细节,而不是定宏观的战略。未来的 ai 的 web 定的编码会到底像什么样子?是像我们在玩星际争霸,还是去看 alpha 下棋?还是他们在演奏一首音乐剧? 以及一个更大的问题,就是整个社会到底有多少地方在目前被数字化的知识者的能力卡住了瓶颈,这个 singularity 如果突破了,到底会带来什么样的影响?