粉丝13获赞213

大家好,我是 kate。 opt 四点六和 gpt 五点三 codex 都在今天发布了,我呢会先介绍一下 opt 四点六, 它呢,目前为 pro 用户和 max 用户都提供了额外的五十刀的使用额度,我们需要在两月十六号之前领用,你可以在设置使用量这里,然后起用额外的用量。假设你是 pro 会员, 超过了五小时内可用的量,那你就可以起用额外的用量,无论在 c c 里或者是 cloud 的 官网上都可以用这个额度。记住呢,这个额度是有两个月的有效期, 现在正式看一下 office 四点六这次上下文呢,升级到一百万的 tock, 在 两百 k 以下的定价呢,是和之前的 office 四点五定价是一致的,超过两百 k, 它的定价的话就会有较大幅度的提升, 这次非常好,它的输出呢,最大是达到了一百二十八 k, 也就是说 opt 四点六现在能帮我们完成更复杂的呃, 需要更多 talk 的 任务。 ansocopy 这次特别强调。呃 opt 四点六呢,它是在办公方面表现得更好,无论是文档啊,电子表格还是演示文稿。 就在我的体验里, coreld 模型它在做 excel 电子表格的时候的确是做的是最美观的。但就搜索能力方面的话,我目前觉得还是 gbt 在 搜索方面更好。在 antisocopy 发布 opt 四点六的时候呢,它的 terminal bench 二点零 在当时还是呃目前最高的,但是后来 gbt 五点三 codex 发布之后,那就是呃 codex 更好。 这次呢, up 的 四点六在人类最后测试方面非常优秀,在上下文解锁方面也是非常优异。这张图呢,是呃 gbt 五点三 codx 的, 我们可以看一下它的 swbench pro 的 得分呢,非常高, 还有它的 terminal bench 二点零,达到了七十七点三。我们再看这样一个对比,上方是 opt 四点六,下方是呃 codex。 在 多语言编程方面, opt 四点六相对 opt 四点五呢,是进步有一些,但不是特别多。 在 agenix 设置方面呢, opt 四点六对比 sonic 四点五是进步非常多,还有一项机制呢,特别值得关注一下。 opt 四点六,它在有工具的加持下, 它的人类最后测试的得分呢,是要比 gbt 五点二 pro 要呃高上一些。 gbt 五点二是非常聪明的,但是使用的时候特别慢。 那我们现在看到 opt 四点六呢,居然在这个指标上是要超过 gbt 五点二 pro 了。 opt 四点六呢,现在是有四个努力等级可以选, 我们在 c c 里的话,可以通过斜杠 model, 然后通过左右按键来切换它不同的努力等级。四点六呢,现在接近上下文上线时自动摘要和替换旧内容,执行更长的任务不再受限。 而且 cloud 呢,现在可以自主判断何时需要更深入的推理。 ansosopik 还推出了 c c 里的智能体团队,还有 excel 里的 cloud 呢,表现更好。这次呢,他们还面向 max 会员推出了呃 ppt 里面的 cloud 插件。先来看一下 c c 里的 agent teams, 多智能体协助编排。我们现在看到的是 empercode 的 呃工程师,他使用 c c 里的 agent team。 起用之后呢,我们可以看到它是右边呢,有四个啊团队,这四个团队呢,它给它分配了这几项任务。什么时候使用 agent team 呢?官方给出一些例子,比如说研究和评选新模块或新功能, 它们是可以互不干扰,并行推进开发。还有竞争性假设调试, 跨层协调。 agent teams 呢,它会增加协调开销,并且比单个绘画呢消耗更多的 toker。 子代理和 agent teams, 它们的区别我们可以看一下。子代理呢,它会将结果返回给调用者, 而 agent teams, 它完全独立运行。 agent team 呢,它的队友之间还可以直接通信, 共享任务列表。 agent teams 默认是禁止的,所以需要启用一下,可以通过这样的视力提示词来提示它。它的显示模式呢?分进程类模式,还有分屏模式,您可以指定队友和模型, 要求队友提交计划审批,直接和队友对话等等。官方给出了呃,两个实战的案例, 我们可以并行代码审,也可以竞争性假设调查,通过让队友互相质疑,存活下来的理论更可能是真正的根音。目前 agent team 呢,它还处于实验阶段,有些限制。 opt 四点六,对比 opt 四点五, 它在 excel 表格方面的话,我们可以看到明显在 excel 表格上处理的样式。嗯,还有处理的维度, 表格展示的更好。它在 excel 表格方面,我们会看到它有这样的图标,对比下方也会展示的更美观。但就我自己体验。 office 四点六,它在 ppt 制作方面的话, 那我觉得的话,它的样式做的还是比较一般的。我之前呢尝试过,因为我是 pro 会员,在 excel 里用它的插件 让它做出来表格,的确排版比较美观,但是它实在是太好 top 了, 简单对话了几次,呃,那我当时五小时之内 pro 会员的可用额度就被就没有了。它的表格的深度是没有当时呃 gbt 五点二 thinking 做得好的,现在也可以在 ppt 里面使用 pro 的。 这是一个原声线路的侧边栏,不过目前呢,只有 max team 和企业用户可以去使用。官方呢,有一个呃,薄文介绍,用十六个智能体从零开始,用 rust 编写一个 c 翻译器, 最终呢,能够翻译呃 linux 的 内核接近两千次的 c c 绘画,两万 api token 的 费用。 最终呢, agent 团队呢,产生了一个啊,十万行的翻译器。通过 agent team 多个 crowd 的 实力,在共享代码库上并行工作,无需人类主动干预。为了驱动自主进展,作者呢,构建了一个支架,将 crowd 放入一个简单循环里, 当他完成一个任务的时候,立马接手下一个作者呢,他会告诉 crowd 要解决什么问题,并且要求他将问题分解成小块,跟踪当前工作进度,判断下一步做什么,然后持续工作。他认为病情调试多个问题呢,效率要高很多。 运行多个 cloud agent 呢,允许专业化分工。它的运行 cloud 实现非常简洁,一个裸的 get 仓库,每一个智能体启动一个多克容器仓库,挂载到 upstream, 每个智能体在 workspace 中克隆本地副本,完成后从容器啊推送到 upstream。 为了防止两个智能体同时解决同一个问题,那它们设计了一个简单的同步算法,可以通过写入 task 目录中的文本文件来锁定某个任务。 如果两个智能体同时任领同一个任务,那 get 的 同步机制呢,就会迫使第二个啊智能体选择其他的任务。当 crowd 完成任务之后呢,它会从 upstream 来拉取合并其他 agent 的 更改,推送自己的更改,并且移除锁定合并冲突的时候, crowd 会自己去解决,这样的话就会无限循环。他也分享了和啊 agent team 编程的一些教训,第一呢是要编辑极高质量的测试, 第二呢是站在 crowd 的 角度思考。作者不断提醒自己,这个测试支架是为了 crowd 编辑的,而不是为了我自己,所以要特别关注上下文窗口污染 时间感知的缺失。第三呢是让并行变得简单。第四呢是多个 agent 并行呢,也实现了多样化的分工, 他为不同的 agent 分 配了不同的角色。最终这个项目呢,它是花费了啊,非常多的费用,在大多数编辑器测试套件上面的通过率呢,非常高,编意并且运行了一个 dom 游戏,他也有一些已知的局限。有兴趣的观众呢,可以看一下 isoop 官方 开源出来的关于这个项目,我们看到它这里的提交有三千多次的提交。 antisociology 还发布了另一项博文,指的是四点六呢,它发现了呃五百多个漏洞, 开源仓库里的其中呢,约一百个呢,来自于呃 open crawl 项目。 antisociology 工程师介绍 opt 四点六呢,它的特别之处呢,就是开箱即用,无需定制脚手架或者专业提示,就能迅速找到高危的漏洞。它会像人类研究员一样阅读和推理代码, 研读历史修复记录,以找到类似的未解决 bug, 识别容易导致问题的模式 或深入理解逻辑来精确触发输入它们的实验方法呢,是将 cloud 放到一个虚拟机,可以访问开源项目的最新版本。 提供的标准工具有这些,还有漏洞分析工具,但不提供任何关于如何使用这些工具的特殊指令。然后 cloud 呢,它会聚焦内存破坏漏洞, 还有 cloud 自我批判和去同再之后呢,人工安全研究员来验证,他们发现了三个典型的漏洞。 第一个, ghost script 项目, cloud 最初尝试了模糊测试和手动分析两条路径,未获得有价值的发现。然后他就开始转向阅读 get 的 提交历史。接着他就检查其他调用同一函数的代码路径。 之后他就发现啊,有一个地方呢,维护者是修复了,但是遗漏了另外一个地方。第二个仓库是 open s c。 模糊测试再次失败后, crote 开始搜索仓库中频繁出现漏洞的函数。调用 crote 呢,发现这个缓冲区一出有漏洞。 查看模糊测试覆盖率统计后发现呢,传统模拟测试器极少覆盖这行代码,因为触发它需要满足大量前置条件。 crowd 呢,能推理哪些代码片段值得关注,而无需 而非无差别的均员分配经历?第三个仓库呢,是 c g f 这个案件。令人惊讶的不是 cloud 如何发现 bug, 而是它如何验证并表述概念。验证这个漏洞的话是 触发它需要是有概念性理解。即使 c g f 拥有百分百的行覆盖率和分支覆盖率,这个漏洞呢,仍可能不被检测到,因为它需要非常特定的操作序列,我在读这两篇文章的时候,真的是感觉非常有意思, 这完全说明了 office 四点六现在是有多么的强大。刚才我在介绍的时候用的这些页面呢,都是通过 office 四点六生成的, 它生成的页面还是挺美观,正确率也是非常高,速度也是非常快。再看一个我让它生成的 remote 动画来介绍 opt 四点六,我在提示词里面提示让它用到 iso 的 品牌色, 可以看到最后呢,它这个做的还是非常美观的。最后再给大家看一个轻松的画面,我让它做兵马俑跳舞的界面, 那先让他呢,呃,做计划,这是在 c c 里面做的计划,他在计划里呢做的美学方向是陶土色系,时间线呢,分这六十秒, 他设计了五个角色,包括战马,还有不同的士兵,还有将军永,将军永是这里最高大的, 而且他非常好的是呢,他有三个聚光灯,当哪个舞者在表演的时候,他的聚光灯就会啊随机的去切换到哪个精彩的表演画面。他在这里做的角色设计是说这样有一个马永, 他偷偷站起舞,被发现呢,就装没事,这个非常搞笑。以上呢就是今天介绍的关于 off 四点六的所有内容,后续的话我也会对他做更多的测试,非常推荐大家使用。

cloud 的 凌晨两点发布了最强模型 opus 四点六,这次的更新毫不夸张的说,绝对会引起 ai 领域甚至其他行业剧烈的波动。四大核心升级规划更周密,智能体任务续航更久,大型代码库中运行更可靠,还能自己发现并修正错误。最离谱的是, opus 级别首次支持一 百万头衔上下文比上一个版本高了整整五倍。测评直接图榜中端编程百分之七十二点七, 搜索百分之八十四,断层第一,新型问题求解百分之六十八点八,碾压全场 office 办公任务评分一千六百零六,第二名只有一千四百六十二,但是价格却和 opus 四点五一样。还记得上个月 co work 发布时发生了什么吗?软件板块一周蒸发了一千七百亿美元, 微软单日暴跌百分之十二点六,一天就蒸发了三千五百七十亿美元,创二零二零年以来最大的跌幅。而这次的 opus 四点六带着 excel、 powerpoint 后的智能体团队全线升级杀回来了,这波又会引起怎样的震动呢?更疯狂的是,就在 opus 四点六发布的二十七分钟之后, openai 也放出了 g p t 五点三 code x。 同一个夜晚,两大巨头正面交锋, g p t 五点三 code x 在 终端编程上拿下百分之七十七点三,反超 oppo 四点六的百分之六十五点四。但是 oppo 四点六在电脑操控和智能体搜索上依然领先, ai 的 军备赛已经彻底的白热化了,所以当下注定是 ai 历史上的重要时刻,你站在哪边呢?评论区聊聊。

各位观众早上好,今天是二月八日,周日欢迎收看 ai 早报,屏幕上是今天的主要内容,接下来请看详细报导。 anthropic 推出 cloud opus four point six the fast mode, 响应速度提升二点五倍,价格按 token 输入量分档, 最高达每百万输入六十美元和每百万输出两百二十五美元,二月十六日前享五折优惠。该功能目前为研究预览版,支持 cloud code api, 即部分第三方平台。在 cloud code 中,用户可通过输入 fast 的 命令起用状态,在绘画中保持账户需开启额外用量功能, teams 和企业用户需管理员授权。 altman code 宣布结束测试正式上线。 context engine mcp 支持 co code、 cursor 等主流 ai 编码工具接入,所有用户在二月份均可获得一千次免费请求配额。 数据中心专家 brandon gregg 加入 open ai, 任 chat gpt 性能工程团队技术成员,他将聚焦 ai 数据中心性能优化与成本控制,提升 chat gpt 效能,推动系统级改进。 open ai 正推进 ai 模型本地化,已为爱沙尼亚试点叉 gpt 一 do, 并与阿联酋 g 四十二合作开发定制版叉 gpt, 支持当地语言与法规。 千问千问团队联合阿里 ai data 与小天恒宇推出法律评测机制 plunkbench, 评测显示当前主流模型在复杂法律推理上仍有不足,国产模型千问三 max 表现亮眼。 apple 计划为 carplay 引入第三方 ai 语音助手,支持用户未来可通过车载系统语音调用,如 open ai、 谷歌等外部 ai 服务。目前该功能尚在准备中,具体细节未公布。今天的资讯播送完了,明天见!

不得了了,史诗级的更新, ai 正在突破人类临界点,新的蝙蝠 boss 四点六在逻辑难题上已经表现出接近人类的直觉。 这个数值代表 ai 必须像人类一样,通过观察、抽象、推理现场,学会一个新技能,这叫适应性,已经快要达到人类的平均水平了,这真的是离 agi 就 一步之遥了。必须要告诉大家,这些都是 ai 告诉我的。哈哈,刚好上网看一下什么?还要钱吗? 那我浪费了时间怎么办?行吧,那我们就来一次酣畅淋漓的白嫖吧,就给你好好上一课,让你知道什么叫适应性。 你俩是亲家,那么你肯定能用。果然恭喜大家又可以白嫖了,再用这个项试试,看能不能让 open globe 也用上免费的。

今天凌晨, anthropic 正式推出 cloud opus 四点六,官方称迎来了重大升级。 opus 四点六能够进行更深思熟虑的计划,在长时间的任务中保持稳定,在大型代码库中可靠运行,并且能够自我检查和纠正错误。 这也是首个支持一百万 token 上下文窗口的 opus 级模型,目前已开放使用。我们 opus 也已同步上线,直接接入 api 使用, 目前新用户有百分之二十的 off, 还有邀请福利叠加使用。回到模型,从官方公布的评估数据来看, opus 四点六在多项核心评估中达到了业界领先水平,无论是智能体编码、多学科推理知识工作,还是智能体搜索, opus 四点六都展现了强大的综合实力。 同时, opus 四点六还在 cloud in excel、 cloud in powerpoint、 cloud code 以及 a p i 等多个产品线上推出了全新功能,让 opus 四点六的能力得到了更广泛的施放。在 excel 中, cloud 现在可以处理更长时间、更高难度的任务,支持条件、格式、数据验证等丰富功能,并且能在一次操作中完成多步骤的修改。在 powerpoint 方面, cloud 已面向 max team 和 enterprise 用户开放研究预览,能够直接阅读和分析你的欢腾片内容。除了模型本身的升级, cloud code 也迎来了一项全新功能, agent teams, 也就是智能体团队。你可以同时启动多个 agent, 它们会自主协调并行工作,特别适合那些可以拆分、独立完成的任务。 比如一个 agent 负责前端,一个负责后端,一个负责测试,它们会像一个真正的开发团队一样高效协助。目前这项功能正处于研究预览阶段, 开发者们已经可以开始体验了。 cloud opus 四点六线已正式上线, cloud ai 官网、 cloud 开发者平台以及所有主流云平台。 而在 cover 模式下, opus 四点六还能将以上所有能力整合起来,完全自主地替你工作。更聪明的模型,更强大的工具,更广泛的平台支持,这就是 cloud opus 四点六。

朋友们昨天有没有看我的视频?我昨天发了一个困三 cold nex 和蜂群的一个关系,我说二零二六年的主线是蜂群架构,结果评论区炸了呀, 都是程序员在喷我,说我过度解读,说多 agent 是 不对的,说这实现不了,还有人居然说什么进程通信太复杂了,实现不了。说实话,你说我引起焦虑我都接受,但是千万不要因为看不懂而否定。 不过更有意思的是,就在今天凌晨, osrbake 直接把证据就甩脸上了,程序员们最喜欢用的 opus 四点六发布了,而且还支持了蜂群,你敢信吗? office 四点六编程有多厉害,肯定很多媒体都已经说过了,我就不说了,我只给你们说说官方博克的文章。这个文章的标题的意思就是说,我们用 office 四点六的 agent teams 构建了一个 c 编辑器,这个 agent teams 就是 cloud 版的蜂群。 我给你们报个数啊,他们用了十六个 a i a 阵的并行工作,用了两千次, cloud 的 绘画,用了十万行代码,两周时间,花了两万美元的成本, 那这个翻译器能干什么呢?这些它全都能干,你们知道 g c c 花了多少年吗?三十七年,而这帮 ai 蜜蜂呢?只用了两周时间, 你说这是不是蜂群啊?不过如果说这只是官方的一次炫技,你说这些代码制都在他脑子里,他他背下来的。 我告诉你们,事情没有这么简单,因为最劲爆的事是克拉斯扣的官方就解锁了蜂群模式,这在他们文档里头自己去看啊,只需要去设置这个环境变量,把它设为一,就能开启多智能体编排功能, 这个 agent team 现在已经是一个官方实验性功能了,它已经正式上线了,你们可以去这里去看它的文档。这个架构是这样子的啊,有一个 team leader 负责主控和编排,有多个 team mate, 也就是独立的 cloud code 的 实力,它们通过一个 task list 来进行共享任务列表, 这可能就是进程通信吧。好吧,大家可以通过这个 task list 自己协调啊,而且还有一个 mailbox, 对, 这个是进程通信。好吧,启动方式也很简单,你在那个 setting 点 jason 里设置这个就行了。 而且啊,它支持两种显示模式,一种是叫 in process, 也就是说所有的 teammate 都在你的这个主动终端里头运行,你可以通过 shift up down 可以 切换。还有就是分割模式,每一个 teammate 就 有一个独立的 pan, 当然这个可能需要终端支持吧。 那这个 agent teams 能干什么呢?首先,它有并行探索能力,多个 team mate 可以 从不同的角度去研究问题,做代码审查呀,调试呀。其次,它还可以直接通信,它们之间可以互发消息, challenge 对 方的观点, 就挑战对方的观点。还有自协调共享任务列表,自动 claim, 管理,依赖关系,还有什么 plan approval, 复杂任务需要 leader 去审批。当然,我现在还没有去试验这个功能啊,后续会把它好好地试一试。这个可能还是实验功能。说到这儿啊,我想起一个很有意思的故事,你们知道这个 steve yeager 吗?他曾经是谷歌的工程师,后来去了 anselpik。 去年他提出了一个叫 gas town 的 一个架构设想,当时就被嘲笑了,说他太理想化,不可能实现。 现在你们回头看,这 onslap 的 这个 agent teams, 就 跟他当时的设想是一模一样的。我们看一下 gas 厂里有什么啊,就是有一个市长负责整体编排,一群工人干活,监工负责盯着质量,还有专人负责代码合并。你看现在这个 agent teams 是 不是完全一样? 这其实是他第二次预言成真了,第一次在更早的时候,他预言有一个叫这个 b 字的东西,后来被 ansauric 直接变成 tasks, 而且 ansauric 在 官方文档里还明确致谢了。第二次就是这个 guest 变成了 agent teams。 你 看啊,他去年写的博克, 不到一年的时间就全实现了。当然也有人质疑啊, hacker's news 这样说这是在解压缩的训练数据里的 g c c 代码,我觉得说的没错, 还有人说生成的代码效率比 gcc 关闭优化还要慢,还有人说两万美元,我找个工程师两周也花不了这么多。 这些评论我看了我都觉得似曾相识,都特别像我评论区里那些杠精程序员。对于这些质疑啊,我只有一句话就是你们关注的点是错误的,重点的不是这个编辑器有多完美,重点的是这事成了, 而且是有明确的测试,有规范,有验收标准的场景下成了它,已经是搜它了。 回到我们昨天的视频,我说了蜂群需要三样东西,低成本的子 agent, 长上下文,还有强 agent 的 能力。今天 opus 四点六都证明了这条路是走得通的。所以二零二六年的主线是什么的?记住这个词, oxstration 这个词汇在二零二六年到处都会出现,这个词,主控加蜂群的 agent 架构。二零二六年,谁能做好编排,谁就能统领这些蜂群, 谁的模型训练了 oxstration, 谁的模型就厉害。不过啊,我知道肯定又有人要说了,说两万美元太贵了,这是在骗我们烧 token。 对,这就是我昨天为什么要讲 quan 三 coder next。 我 们是需要一种小尺寸能胜任蜜蜂工作的本地模型, 小的激活参数,用不多的显存就能跑的低成本模型。只有这样才能打破这种 onslopic 这种大厂的算力垄断,普通人才能真正地用上蜂群架构,这才是破局的关键。 所以呢,春节期间, quan 三点五系列如果要发布那些小尺寸模型是绝对需要去关注的。昨天我说蜂群是二零二六主线,今天 opus 四点六说 yes, 明天我可能还会有其他的爆论,不相信没问题,但不要从内心去彻底去否定它。你错过的可能不是一个视频,而是一个机会。所以呢,二零二六年,加油吧大家!以上就是本期的全部内容,谢谢大家!

cloud ops 四点六发布,公司 cfo 即将被 ai 取代,这事我认真看完了结论,先放这一句话版,省得你被 pr 文案洗到眼睛发酸。 cloud ops 四点六不是在更聪明, 它是在明确告诉企业客户,我贵,但我真干活。下面我慢慢拆,像讲一桩行业八卦,但每一刀都落在要害上。 先说节奏, episodic 距离 opus 四点五只过了三个月,就直接端上四点六,这不是技术狂热, 这是企业市场在催命。你可以理解为投行、法务咨询公司坐在会议室里敲桌子,我们不是要陪你聊天,我们是要你替我们干掉 excel、 ppt 和初级财务分析师。 于是, opus 四点六出现了,而且姿态非常明确,不讨好普通用户,不追爆款,不玩情绪陪伴,直接充金融和支持工作者。真正的野心在金融 insulate 这次几乎是赤裸裸地对着金融行业说话。 wealth ai finance agent sixty point seven percent tax evo seventy six percent。 翻译成白话就是,它不是在算公式,是在读 s e c 文件。拆公司,拼逻辑链条。 scott white 那 句话,我给你拆开看。 cloud 已经从小任务工具进化成能处理大量实质性工作。这句话对普通用户没啥意义,对企业来说是救命绳。因为这意味着什么?因为这意味着什么? 是让他先跑一轮分析产品经理不是问灵感,是直接让他拆需求。工程师不再是唯一用户,金融分析师开始坐进同一张桌子, cloud 正在变成跨智能通用劳动力,而不是程序员的玩具。

hello, 大家好,我是 d p, 一 觉醒来, codex 五点三和 opus 四点六都更新了,我收集了一下相关资料,录一个视频跟大家一起分享一下。 首先我们来看第一个主题,二十九分钟,真的只有二十九分钟。第一张图看左下角,一点四十五, opus 四点六官宣上线,紧接着好巧不巧,两点十四, codex 五点三官宣上线,一共二十九分钟,就真的这么巧吗?别着急,更巧的事情还在后面。 老规矩,我们先来看传统异能跑分,这张是 opus 四点六官方提供的跑分图, 呃,很多观众可能觉得看不懂,没关系,我给你标出来了一和二。然后再来看这张,这张是我找到的 codex 五点三的跑分图,注意看这里的一和左右两张的,一是对应的都是 t b 二点零, codex 五点三的得分是百分之七十六, opus 四点六的得分是百分之六十五点四,领先了一些对不对?然后仔细看第一张图的最右边, codex 五点二的得分是六十四点七,也就是说 codex 这个版本的升级直接从六十四点七升级到了七十六,巨大进步有吗?然后我们来看第二项, 第二项是 os word, 这个就是呃操作计算机系统的能力,比如说点击鼠标呀,复制粘贴啊这些。 然后呢, os 四点六是七十二点七,这里要暂停一下,说一下,在 osword 里,人类的一般标准在七十二点三六,也就是说 os 四点六已经接近了人类的一个一般水平。然后我们看 codex 五点三,它的 osword 的 水平是六十四,感觉好像差一点,对吗?但是我查到的资料是说 codex 五点三测试的是 osword verify 这个版本,然后 opps 四点六应该测试的是 osword 原版 verify 和原版有什么区别呢?简单地说 verify 更难,那么也就是说,这个六十四和原来的七十二点和和那个 oppo 四点六的七十二点七应该是不相上下的一个水平。 好的,这是跑分。看完了,我们来看详细的对比。首先来看 opus 四点六, opus 四点六在这个版本主要有下面的更新,首先上下文从原来的两百 k 支持到了 em, 这是一个巨大的进步,对于大项目非常有帮助。然后输出从原来的六十四 k 支持到了一百二十八 k, 然后增加了思考等级和自适应思考这两个项,这是什么呢?就是说它可以设置 low high 和 extreme high 这种, 然后呢,它还可以自适应,在呃,整个进行的过程中,比如说一开始读读文件的时候就用 low, 然后中间就去调,是这样子。 呃,这边加一句啊,我觉得 op 四点六这个升级有点像锦上添花,对不对?更大的上下文,更大的输出,然后自适应的思考。好的,我们来看 codex 五点三。首先还是回到我的第一张截图上, 我用两个颜色标出了它们,分别是什么呢?分别是百分之五十的 token 使用量对比五点二以及快百分之二十五 加速百分之二十五降价百分之五十,就这么简单。如果让我用一句话或者一个词来形容 codex 五点三,我会说,残暴,有什么比加速降价 更残暴的方法吗?在现在这个市场,而且我想提醒大家的点是,第一, codex 五点二有不错的编程能力,大家一直吐槽的就是说它有点慢对不对?现在 codex 五点三保持了,据说保持了五点二的编程能力, 然后它先加速了百分之二十五,然后又降价了百分之五十,残暴。然后还想提醒大家的一个点是, gpt 系列能做的不只是编程,而 ops 我 们往往仅仅把它和编程联系在一起。 好,我们继续。下面是我的一些思考。首先因为我们频道最近一直在讲 antigravity, 那 我就在想 antigravity 会跟进 opus 四点六的更新吗?因为我们现在用的是四点五, 我想答案是肯定的,一定会。为什么呢?因为 kiro 今天已经更新了,好像其他很多模型也都更新了。 那么到这里这个思考就结束了吗?没有,我的思维链会比较长,下一个我思考的是代价是什么?突然呢?我就想到会不会配额还会动?这个留给大家思考,欢迎大家留言或者发评论。 然后第二个问题,我想的是 codex 五点三一定程度上我们可以说它在挑战 opus 四点五,那么它会带来什么呢? 我觉得最直观的就是在编程领域,它可以避免 osorbik 一 家独大,我们作为用户会从中获利,因为竞争的获利方永远是被竞争,就是竞争关系中的关键人物,用户。 好的,然后今天上午我抽了一点时间对 codex 五点三的速度进行了一个测试,你们还记得吗?它是加速百分之二十五,降价百分之五十,那我觉得比起降价百分之五十, 加速百分之二十五更重要,当然降价百分之五十其实也很重要,所以这个这个后面我测试的内容主要是其聚焦在速度上, 这是我给 codex 的 一个任务,我用的是 vs code 里的 codex 相关的插件,我没有制作任何上下文,就是完全的一个空文件夹,里面放了这么一段话,让他直接去执行, 然后它就呃里面又做了一个子文件夹,让它放到那个子文件夹里面去,然后大家可以看到,呃,是这样,然后因为我没有 codex 的 使用经验,原始的那个截图我没截下来,原始的截图上有,呃, syncing 啊,用时啊,这些东西我没有截下来, 我以为和 antigravity 是 一样的,实际上它不一样,如果就是再次打开对话的时候就只能看到这样,中间的过程就忽略掉了。 但是因为我是用了一些方法,所以我把那个 a p r 请求的详细信息记录下来了。在这张图上大家就可以看到 我的请求开始的时间是十一点五十,差两秒嘛,然后结束的时间是五十四三十六,也就是说整个用时在四分就算四十秒。 然后它的模型使用是先用了一个五点一的 codex mini, 然后后面就是 codex 五点三,这个没有任何的问题,然后 talkin, 这个因为我没有经验,我们就不去评述,主要看这个时间,四分三十八秒 出了三张图。这三张图长什么样呢?先来到第一张图,就是远行星号的一个默德数据库的首页,我觉得这张图做的中规中矩,然后这是下面是第二张图,这张图等于说,呃,用了一个白色的主题,我觉得也还 ok。 然后紧接着是第三张图,我觉得前两张图榨干了他的一般思维,第三张图他想给我做一点特别的东西,所以他做了这三张图。我这三张图从中选一张作为起点来做设计,或者继续去摇奖,摇不同的风格都是 ok 的, 都算中规中矩吧。当然,如果硬要说,比起我们现在正在用的这张就是线上版的,这个还是没不太好比的。 ok, 我 们来做一个比较简单的总结。首先是一个建议,从现在开始,大家可以开始尝试去使用 q 代 x 五点三, 稍后我们也会出一些呃视频,比如说新手入门啊,一些经验的分享啊,如果有需要可以关注一下。 然后第二个项是在什么时候,该用什么模型?在现在这个时间点,因为我们已经有了两个全新的模型,后面还会有更多的模型,对吗?所以我的第一条建议是,如果涉及 vr 设计,无脑选 gmail 三 pro。 如果涉及编程,你的选项可以是 op 四点六,也可以是 codex 五点三。但是作为成年人,我们都要没问题,对吧? 如果你是其他的工作,比如说一些文本创作,那你可以考虑用 jamina 或者用 gpt。 然后这里提醒一下, jamina, 你 可以考虑用二点五或者三,因为我发现二点五和三是不同的风格,如果有需要可以测试一下。 然后这场开年大戏好看爱看,有可能的话多来。 最后,二零目前来看,二零二六年注定是不平凡的一年,而我们也注定不会平凡。在这里祝大家和家人新年快乐,身体健康!这就是这一期 codex 五点三和 opops 四点六 新模型上线相关资料分享的视频的全部内容。如果这期视频对你有帮助,请帮忙点赞和转发,如果你有相同的经验想要分享或者遇到相关问题,欢迎留言,我是 d p, 谢谢!

就在刚才, cloud opus 的 四点六正式发布了,正面硬钢 open i 最近发布的 codex 的 五点三。但是如果你只是觉得 aspropic 的 cloud 又强了一点点,那你基本没看懂这次更新。那我们先用一句话来讲 aspropic, 这次它不是在秀功能, 而是在利用整套 benchmark 的 突破,明确地告诉你, cloud 正在被做成一个可以自己自主工作的 agent 的 底座。 最关键的数据来看,在评估金融、法律研究等高价值的知识工作的这个 g p t value aa。 基本上之前我们介绍过这个指标, opus 的 四点五比 g p t。 五的五点二高了一百四十四个一楼。 那官方的说法是,百分之七十的场景是胜出的,同时也比上一代 opus 的 四点五高出了一百九十个单位,这明确的代表了待机的跃迁。那在代理编程 time 二点零和人类最后考试这种常规推理测试当中,它也都有相当强的一个表现, 那不只是写得快,而是能够规划执行,还能自我修正。那在这个基础上,它也刀像了 office 三件套。第一刀直接就是 ppt。 cloud 已经不再是帮你写文案,而是能够完整地记住你在公司的模板,字体版式深沉的 ppt 几乎是不会看到 a i v, 而且能够长期服用它意味着熬夜做 ppt 正在被系统性的消灭。 那第二刀呢?刀向了 excel, 那 非结构化的数据一股脑丢进去,它能够自己去建模,跨表、跨步骤的去完成分析,对于财务投研运营的冲击也会非常的直接。但真正的分水岭,在我看来,其实第三个事情名不见经传的 agent team 的 一个发布。 一句话去理解这件事, cloud 呢,不再是一个模型,而是一整个能自己分工,自己协助的团队,你不再是提需求,而是设定目标。那官方的实验里面,他给出十六个 cloud agent, 在 没人指挥的情况下, 两周的时间,丛林写了一个十万行的 c 编辑器,然后能够变异 linux 的 内核,还能跑 dom。 那 恐怖的是它,它不只是一个写编辑器的一个工具,而是已经具备了用组织的方式去工作的能力了。这意味着很多过去只有团队才能完成的事情,复杂的工程,财务研究、安全审计,大模型的研究, 第一次被模型层面直接全部通通的协助吃掉。那所以呢, cloud ops 的 四点五重点不是更强,而是给大家了一个信号,它 ai 正在从工具进化层可以被雇佣,可以长期干活,可以协调工作的工作单元。 接下来真正要被淘汰的可能不再是某一个岗位,而是那些一直停留在一个人,一个工具的工作方式里面的一些组织。

克劳德欧普四点六来了,相对欧普四点五来说,这是一个很大的进步。我实际上很早就接触到了它,我一直在玩它。是的, 就是这么好,让我告诉你一切。根据博克文章,它计划更周密,维持任务更长时间,在更大代码库中更可靠的运行, 并且有更好的代码审查以及发现自身错误的调试技巧。这是关键线,可以更长时间地维持代理任务。这就是所有这些编码模型的发展方向。更加主动,能够运行更长的时间范围, 能够委托给子代理,这就是该行业的发展方向。在 cloud code codex 所 cloud bot 中看到的情况。顺便说一句,是的,我非常高兴能将其插入 cloud bot, 但我还没能做到。让我向您展示进展速度,这也称为完全垂直线, 这是对数刻度。我们看到的是模型可以成功自主运行的时间。具体来说,这是软件工程任务的时间范围, 不同的法学数是可以在百分之五十的时间内完成。看看这个 g p t 五点二,高于六个半小时自主运行并成功完成任务, 这就是我要说的。现在正是主体自制的时代。现在这张图表示几天前发布的,并且从今天开始 我们有两种新型号,正如我所说, oppo 四点六。当我录制这个视频时,截皮 t 五点三刚刚发布,我很快就会制作一个关于此内容的单独视频。我想知道这些模型在这图标上的样子。 您想知道 oppo 四点六还有什么特别之处吗?就在这里,一个一百万个令牌上下文窗口,目前处于测试阶段,但它是唯一提供此服务的模型公司。除了谷歌的典命里,这是 antip 团队的一个重要里程碑。 cloud 系列模型的平均上下文窗口,甚至 open night 模型系列也已在两百左右。现在我们有一百万个令台上下文窗口,这对一切都有帮助,尤其是大型代码库。但这不仅仅是拥有一个大的上下文窗口, 你还必须能够保持这百万个待币的质量。有时通常会发生所谓的上下文腐烂。你在那里投入的背景越多,模型从上下文窗口找出所需内容的能力越差,他就越难以做到这一点。我将在一分钟内向您展示针对欧布四点五的精准测试。他还在财务分析,研究 使用和创建文档,电子表格和演示文稿。这都是针对 cloud code 和 cloud coork 的。 如果您还没有使用过 cloud coork, 我 强烈推荐它。就在昨天,我们有 saspec, 市值蒸发了三零零零一美元,这是最大的 saspec。 很多人都指出了一个事实, antobic 为不同的工作工具删除了一堆插件, 这使得克劳德可以在这些工具中完成工作。推理是人,如果克劳德能够做得更多以及更多的工作,并创建更多的应用程序,并通过聊天界面自助完成这一切,萨斯公司将会失去业务。 现在有了 op 四点六,甚至更加明显。再说一遍,如果您还没有尝试过 coo 去获取看,您现在就可以尝试 op 四点六五 box 整理了他们自己的评估结果。 他们抢先体验了四点六,他们还看到了重大改进。感谢 ox 赞助。该视频让我告诉你他们发现了什么。 ox 与 oppo 四点六的复杂工作评估,所以是黄色的,它是四点六与紫色四点五的对比。这些是针对企业内容的硬推理任务。 所以想想成千上万的文档,并试图对它们进行推理,并将不同文档之间的点连接起来,这就是这个基准。所以在完整的数据集上,我们看到 op 四点六提高了百分之十。 根据数据起草报告意味着读取数据,然后起草报告。他们的基准分数翻了一番,从四点五增至四点六。 看看这个百分之三十六到百分之七十五。关于精准的径直调查部分,从百分之四十五上升到百分之五十一。现在深入到特定行业看看。 我们有公共部门六十八至七十五,金融服六十六至七十一。征病科学和医疗保健从三十九升至六十四,法律从四十五升至五十一。这些是单点版本。凹凸的巨大改进。 盒子可以帮助您释放文档、合同,研究论文的真正价值。产品设计,财务报表。将它们全部装入盒子中并放置 box 会为您完成这项工作。我强烈推荐使用 box。 我 将把链接放在下面。好吧,让我们看看机准测试,因为这是 g d 八楼。有趣之处在于它实际是 open 自己的机准。 这里是 knowledgeworks。 opus 四点六,总分为一六零六,比 opus 四点五提升了两百分。这是 gpt 五点二的一四六二,这比 opus 四点六低了一百五十分。 妍米三 pro 的 得分为一九五元,低于其他产品。这是浏览比较精准。这是 gintiq 搜索 oppo 四点六的分为八十四,叫 oppo 四点点五,提升二十个百分点。我们这里有 gpt 五点二 pro, 我 再次将其与五点二进行比较, 因为这就是该图标中可用的内容,我还没有机会去查看。五点三,这是航站楼长灯。我们看到 oppo 四点六的利用率为百分之六十五点四,这比 oppo 四点五提升了六个点。 但令人惊讶的是, gpt 五点二 codex 的 分数大致相同。我们面临着人类的最后一次考试,所以我们在这里看到的是工具深色且无工具较浅的阴影。五十三对四十, 与 x 四点五相比,比例为五十三对四十三。是的, oxx 六是全球最好的型号。 这还不是全部,我们现在有一个新功能,称为代理团队。这有点像特工群。很多这些公司都给他们起不同的名字,但本质上是一样的。一种能够委派给多个子代理并让他们工作的模型, 并随着时间的推移精心安排工作。深入了解代理团队文档,这很有趣。 代理团队可让您协调多个云代码实力,协调工作其中一个会议充当团队领导,协调工作,分配任务并综合结果。队友在自己的上下文窗口中独立工作, 并直接相互沟通。当我读到这篇文章时,我听到的只是待币。待币,待币 o plus 已经很贵了,像云代码这样的东西已经使用了大量的待币。现在你将启动多个并行运行的云代码实力。 我听到的只是 g p 五五二,但这很有趣。他们实际上说这不像子代理,但让我解释一下,与在单个绘画中运行的子代理不同,并且只能向主代理汇报,宁可直接与个别队友互动, 无需通过领导。那么什么时候应该使用代理团队呢?代理团队对任务最有效,并行探索增加了真正的价值。因此,研究和审查新模块,或者通过竞争假设进行调试和跨层协调。 例如关于研究和评论。你可以让你的主要协调代理走并研究不同的路径,然后在他们完成研究并交换意见后回来。 这是主要代理团队添加协调开销的罚款,并且比单个绘画使用更多的令牌。因此,以下是主要区别。 以下是如何考虑子代理与代理团队上下文字代理每一个都有独立的上下文窗口,但他们都报告回来并进入主要代理与代理团队。他们都是完全独立的, 你可以直接与他们互动。为了沟通。就像我说的,与代理团队队友可以互相发送消息,而不是有单个代理产生子代理。 这些子代理只那么报告给原始主要代理与协调类似主代理管理所有工作与代理团队自我协调的共享任务列表相比。 而对于代币成本来说,分代理要少得多。云还为您提供了更细力度的控制 实际推理过程中发生的事情。所以伊尼可以使用 r p 来进行压缩,所以这是一个大背景, 并缩小它,压缩它。显然,当你进行压缩时,你会失去一些保真度。有时你会失去重要的方面, 但增加的上下文窗口能让您更久保留上下文。他们还引入了一种叫做适应性思维的东西。这个模型在运行过程中实际上可以上下调整其思考量,所以更多思考,更少依赖上下文。 在实际执行任务时,执行任务真的很酷,而且你还有新的努力。控制, 可更精细的控制智能速度和成本。但下一句话的真正原因是,微软现在可能有点害怕,以及为什么萨斯末日会发生。我们对 cloud 和 excel 进行了重大升级, 将在研究预览版中发布 cloud 和 powerpoint。 这是因为这些代理在工具中做了令人难以置信的工作。人们每天使用这些工具,但不是 antopik 的 工具。他们在竞争对手和微软的工具中都做到了。 看到这个表演很有趣。这是定价四点六,与四点五价格相同。 是的,他仍然很贵。因此,对于少于两百各令牌的提示,每百万输入代币五美元,而对于两百以上是十美元输出提示低于二十万各代币,每百万个二十五美元 以上价格为三十七点五零美元。使用提示缓存可获得闲者折扣。根据 anto pick 可以 了解该模型的氛围。 听听这个 oppo 四点六往往思考的更深入,更仔细。在确定答案之前重新审视其推理。这可以在解决更困难的问题时产生更好的结果,但可能会增加较简单的成本和延迟。当然,您始终可以大力调整它。 好吧,我们来谈谈百万代币,因为这似乎是迄今为止最大的潜在解锁。我之前说过,这不仅仅是拥有一百万个代币那么简单。你必须能够拥有高质量。在这百万代币的范围之内, 该模型必须能够读取所有数百万的令牌,并理解并能够在所有这些令牌之间建立联系。这显然就是 opus 的 闪光点。 听听这个四点六在这方面更出色,它能从大量文档中解锁相关信息,这扩展到长上下文任务,它保存并跟踪信息,覆盖数十万颗待币,且偏差较小,并拾取即使是四点五也会错过的隐藏细节。 所以他们说很多人抱怨上下文腐烂,这就是 oppo 四点六表现明显更好的地方。那么让我们说很多人抱怨上下文腐烂,这就是 oppo 四点六表现明显更好的地方。那么让我们说很多人抱怨上下文腐烂。 基本上,他们获取一点信息,将其放入巨大上下文窗口,再解锁该信息。这里是单个上下文中的八个不同的信息。 所以我们看到 oppo 四点六的掌上下文解锁两百五十六个标记,我们的准确率是百分之九十六,绝对是一滴。 但将上下文放大四背时,这是可预料的,这是与宋代四点五的对,显然这是一个巨大的进步场。上下文推理也得到了改进, 同样不仅仅是剪缩,更能在该上下文中实际操作。 op 四点六得分七十二,宋聂透四点五得分五十, as 一 百万位三十八, rsonnet 四点五位二十五点六。好吧,再来几个快速基准测试,这就是根本原因。分析。 正如我们所看到的,从 oppo 四点五到 oppo 四点六,多语言编码有了很大进步,大致相同,只是一个小凸起, 长期的一致性。现在这是一件有趣的事情。这是自动售货台,这是模型的任务,是管理实际的自动售货机,看看他们是否能赚钱。正如我们在这里看到的,我不四点五赚了五美元,我怕四点六八美元。一个巨大的改进 给 mini 三 pro 的 售价五美元 g, 五点二为三五百。我们在网络安全和生命科学取得进步,当然这不是人为的,除非他们谈论的是对其和安全。 所以这里整体行为失调。我们实际上可以将它与 oppo 四点一进行比较,大约是四点三。 oppo 四点五的数值约为一点八。现在 oppo 四点六略有改善,可能约为一点七。 这是一次非凡的更新,我会疯狂的测试它,我要将其插入 clubbot, 我 会让你知道它是怎么做的。如果你喜欢这个视频,请考虑点赞并订阅我们下一篇见。

就在今天, astonovic 放出了他们的最强模型 cloud office 四点六这个最强的头衔,它只保住了二十七分钟,半个小时不到, openai 直接在线狙击发布了 gpt 五点三 codex。 这里放一张今天特别火的图,美国的 ai 大 战 vs 中国的 ai 大 战,大家怎么看?熟悉我的朋友都知道我的 ai 大 战 vs 中国的 ai 大 战,大家怎么看?熟悉我的朋友都知道,我的模型评测风格一般,不去看一些奔驰实测, 两个模型同一个 problem, 正面硬钢,剧透一下哈,结果挺意外的,一个功能做全了,但代码有坑,一个代码漂亮,但他前端漏了功能,到底两个模型哪个写代码更能打?看完这个视频你心里就有数了。 好,我们下面来快速过一下模型树懒部分 off。 四点六这边三大亮点,第一个, 它的一个上下文翻了五倍,到了一百万 token, 但目前只能按 api 付费的用户才能去体验。第二个 agent teams, 多代理协助,不是以前那种只代理模式,是真正的团队多个 agent 并行干活,互相沟通,质疑,不通过这个负责人去中转。第三个的话,它整个的一个输出 token 啊,翻倍了,由原来的六十四 k 到现在一百二十八 k, 可以 执行一个更长的一个任务,不中断。好,我们来看一下 gbt 五点三 ko deck 这边在第一项这一块, terminal bridge mark 这个参数呢,它是比 office 四点五要强接近十二个百分点,并且 这个速度相较于它的上一代模型快了百分之二十五左右,我的一个体感非常的明显,特别快。第二个的话是它的一个 首个参与构建自身的一个模型,也就是说他用早期的版本来 diabag 自己的个训练管理部署,然后针对评估 ai 帮自己 diabag, 想想就挺科幻的是不是?第三个的话是以前扣贷干活你只能等着,现在你可以随时介入,随时去调方向,不用先停止了。 那真实项目这一块的话,我给他准备了两个项目,第一个让他去做一个跨项目的一个迁移认证体系,也就是说我有一个纹身图的一个 agent, 我 要让他去参考另外一个项目,把那部分啊,谷歌邮箱登录、 github 邮箱登录 认证全部给他摘过来,这个考验他对另外一个项目的探索能力、架构适配能力。但第二个项目的话,我之前做了一期视频,是讲 skill 的 加载原理的,那并且我也做了一个开源项目,把它放出来了,那个时候是一个终端交互的一个性质,现在我把它做成一个外部 y。 第一个是 cloud 四点六完成的一个落地页,大家觉得怎么样?就一般般吧。那它在登录这一块的话, github 谷歌邮箱注册全部搞定了,没有任何的问题,我们也可以试一下,点击 可以看到它能登录成功邮箱也是对的,那整体这一块的话,它是整个完成度还 ok 的。 我们来看一下 gbt 五点三 codex 表现怎么样。 首先落地说实话不太行,比较简陋,大家看它的那个集成登录的情况,只实现了 get up 后端的代码,谷歌那边它也完成了,但是它没有在前端上写一个按钮。整体这一块的话,我会把票投给 cloud off 四点六 单看功能这一块哈,但是后面还有坑,待会我再慢慢讲。好,下面我们来看另外一个项目,就是给一个 skills agent 去加一个 外部 ui 嘛,因为之前是终端,我们来看一下,也就说我有这样的一个项目啊,这个项目是去使用当前一点零去构建了一个 skills agent, 演示了这个三层加载的一个原理嘛, 那主要的一些特性的话,就是有一些流势输出,然后托肯的响应,显示工具的名称,执行的过程,展示三层 skills 的 一个加载过程。原来的话是通过终端 ui 去交互的嘛,现在我希望他给我们做成一个外部版本,我们直接来看结果, 这个是 cloud 的 off 四点六完成的,这个 ui 太简陋了。 ok 来给了一个这个平台的文章,让他去做 思考,他会去做加载技能,然后去分析,再提取,再做其他的一些任务,看他能不能做到。 ok, 可以 看到他有调用的 skill 去加载这一个 skill, 然后他去执行那些命令,他发现这是命令有问题,他这个时候需要去安装相关的依赖, 那这个的话就是 gpt 五点三 codex 完成的,左边是他发现了我安装了哪些 skills, 并且右边你可以开多个聊天框去聊天,我在提示词里面其实有让他去要去实现对应的一些指令,那 gpt 五点三这一边的话是完成的非常好的。好,我们来试一下, 可以看到这边它加载了就是新闻提取器,这个时候它会去执行霸性,跟那边一样,因为一些依赖问题,这个先忽略它,总之就展示这一个加载的过程嘛, 很明显 gpt 五点三 codex 完成这个版本会比 off 四点六会好很多,我感觉不管从 ui 上交互上, 这一轮我会给他投票。好,我们来看一下完整的一个对比结果。第一个项目就是给这个 agent 加上一个用户认证体系嘛,主要是 email, 谷歌认证 get up, 然后从另外一个项目迁移过来。我们来看一下评分情况, 对话人数大家都用了第一轮,那功能完整程度的话, off 四点六这边要完整一些,所以给了他九点五分。 那 gpt 五点三这边因为它漏了嘛,所以说它的评分要低一些,在 ui 上的话也是这边会好一些。在代码架构上这个就有有的说了,在代码架构上的话, off 四点六这一边就是快,但它整体的实现其实有有一些漏洞, 那 gpt 五点三扣带这边它就像一个更有经验的工程师一样,然后整体的代码架构,工程规范都很完美, 为什么会得到这一个评分呢?给大家解释一下这个评分怎么来的。他们两个模型把代码写完, get commit 提交完了之后, 我用了他们两个最顶尖的模型去 review 代码,先让 off 四点六去 review 啊,两个人写的,再让 gpt 五点三 code 是 两个人写的,大家得到的结果都一样,就是 gpt 五点三 code 写的代码要好, 只不过在功能实现上它漏了,以及在落地页上它的实线会没有 off 四点六那么好看。但是代码这一块的话, gdp 五点三扣袋子这边肯定是要厉害一点的。 那整体总结一下的话,在代码架构上扣袋子要领先一些,它全链路的用户隔离、迁移、脚本测试覆盖都写到了。但实际功能体验上的话, off 是 因为它三种登录都可用, 然后 codex 它这边缺少了一个谷歌的,我不知道它为什么会缺少的。哈,那 ui 设计上也是 office 更优。那第二个想法,就我们刚刚看到的,我们把这个 skills agent 的 一个终端 ui 变成一个 web ui 嘛,那这块的话, gpt 五点三就明显领先了,不管是在 ui 上还是整体的代码实现上, 都要领先于这个 off 四点六。所以说我觉得整个这一次的发布来看的话, off 四点六它的代码提升并不是特别明显,反而这个 gpt 五点三 codex 相较于 gpt 五点二 codex, 我 认为它们提升了蛮多的。因为这几天我也一直在用 gpt 五点二 codex, 以前是速度有点慢,现在是速度又快,质量又高,我觉得未来 g p t 五点三 codex 大家会用的特别多,不像以往一样,大家可能都用 cloud code 的, 现在的话多了一个选择,并且它更便宜。我做这一期测试,我把这个 off 四点六这个模型的 整个五个小时的窗口全部用完了,但是这个我只花了二十道订阅了,它还没用完,一直可用,一直可用,很爽,速度又快,那为什么不选择一一个便宜,质量又高的呢?所以这一轮总结来看的话,就是 codex 整个代码实现明显领先,功能实现也领先,整个 uiux 都领先,所以说我把票投给了 codex。 好,我们来一个总结,第一个项目去做跨项目的一个迁移认证,这轮 off 四点六渗出, 第二个把一个终端 ui 变成外部 ui, 这一个 gpt 五点三 codex 渗出。那整体平均来看的话, codex 是 要领先一些,因为它这一次提升真的非常明显,速度快,成本更友好,而且后续的话我会更加的去增加我整个 codex 的 一个使用频率。 ok, 这就是这一期视频的全部内容了,如果你觉得视频做的不错,可以给我一键三连,谢谢大家,拜拜。拜拜。