openai 发布 gpt 五点三 codex spark, 这是与芯片厂商 sirbress 合作的首款实时编程小模型,基于 ws 以三专用推理芯片,生成速度超一千 tokyo, 提供近乎零延迟的即时响应体验。不同于擅长长任务的主模型, spark 专攻高频交互,如重构微调。它默认不自动运行测试,只做最小化编辑,支持开发者在生成中随时打断核究篇,大幅提升协作手感。 为配合 spark, openai 重写了推理战,并引入持久化 webshop。 这不仅服务于 spark, 还使所有模型的网络往返开销降低百分之八十,首次生成延迟缩短百分之五十,每 token 开销降低百分之三十。 目前支持一百二十八 k 上下文,仅纯文本,拥有独立的速率限制,不占用标准额度,但高峰期可能排队一向叉 g p t pro 用户 i d e c l i 插件开放预览 api 暂时仅面向少量设计合作伙伴开放。尽管模型较小, spark 在 s w e bench 和 terminal bench 等精准测试中表现强劲,且通过了安全评估,确认在网络安全和生物学领域无高风险, 符合部署标准。 spark 开启了混合算力,即 pu 加专用芯片与双模式编程时代。未来系统将自动分配任务,由 spark 处理,实时手编活大模型,后台处理长任务,消除编程等待瓶颈。
粉丝429获赞1.4万

就在今天, astonovic 放出了他们的最强模型 cloud office 四点六这个最强的头衔,它只保住了二十七分钟,半个小时不到, openai 直接在线狙击发布了 gpt 五点三 codex。 这里放一张今天特别火的图,美国的 ai 大 战 vs 中国的 ai 大 战,大家怎么看?熟悉我的朋友都知道我的 ai 大 战 vs 中国的 ai 大 战,大家怎么看?熟悉我的朋友都知道,我的模型评测风格一般,不去看一些奔驰实测, 两个模型同一个 problem, 正面硬钢,剧透一下哈,结果挺意外的,一个功能做全了,但代码有坑,一个代码漂亮,但他前端漏了功能,到底两个模型哪个写代码更能打?看完这个视频你心里就有数了。 好,我们下面来快速过一下模型树懒部分 off。 四点六这边三大亮点,第一个, 它的一个上下文翻了五倍,到了一百万 token, 但目前只能按 api 付费的用户才能去体验。第二个 agent teams, 多代理协助,不是以前那种只代理模式,是真正的团队多个 agent 并行干活,互相沟通,质疑,不通过这个负责人去中转。第三个的话,它整个的一个输出 token 啊,翻倍了,由原来的六十四 k 到现在一百二十八 k, 可以 执行一个更长的一个任务,不中断。好,我们来看一下 gbt 五点三 ko deck 这边在第一项这一块, terminal bridge mark 这个参数呢,它是比 office 四点五要强接近十二个百分点,并且 这个速度相较于它的上一代模型快了百分之二十五左右,我的一个体感非常的明显,特别快。第二个的话是它的一个 首个参与构建自身的一个模型,也就是说他用早期的版本来 diabag 自己的个训练管理部署,然后针对评估 ai 帮自己 diabag, 想想就挺科幻的是不是?第三个的话是以前扣贷干活你只能等着,现在你可以随时介入,随时去调方向,不用先停止了。 那真实项目这一块的话,我给他准备了两个项目,第一个让他去做一个跨项目的一个迁移认证体系,也就是说我有一个纹身图的一个 agent, 我 要让他去参考另外一个项目,把那部分啊,谷歌邮箱登录、 github 邮箱登录 认证全部给他摘过来,这个考验他对另外一个项目的探索能力、架构适配能力。但第二个项目的话,我之前做了一期视频,是讲 skill 的 加载原理的,那并且我也做了一个开源项目,把它放出来了,那个时候是一个终端交互的一个性质,现在我把它做成一个外部 y。 第一个是 cloud 四点六完成的一个落地页,大家觉得怎么样?就一般般吧。那它在登录这一块的话, github 谷歌邮箱注册全部搞定了,没有任何的问题,我们也可以试一下,点击 可以看到它能登录成功邮箱也是对的,那整体这一块的话,它是整个完成度还 ok 的。 我们来看一下 gbt 五点三 codex 表现怎么样。 首先落地说实话不太行,比较简陋,大家看它的那个集成登录的情况,只实现了 get up 后端的代码,谷歌那边它也完成了,但是它没有在前端上写一个按钮。整体这一块的话,我会把票投给 cloud off 四点六 单看功能这一块哈,但是后面还有坑,待会我再慢慢讲。好,下面我们来看另外一个项目,就是给一个 skills agent 去加一个 外部 ui 嘛,因为之前是终端,我们来看一下,也就说我有这样的一个项目啊,这个项目是去使用当前一点零去构建了一个 skills agent, 演示了这个三层加载的一个原理嘛, 那主要的一些特性的话,就是有一些流势输出,然后托肯的响应,显示工具的名称,执行的过程,展示三层 skills 的 一个加载过程。原来的话是通过终端 ui 去交互的嘛,现在我希望他给我们做成一个外部版本,我们直接来看结果, 这个是 cloud 的 off 四点六完成的,这个 ui 太简陋了。 ok 来给了一个这个平台的文章,让他去做 思考,他会去做加载技能,然后去分析,再提取,再做其他的一些任务,看他能不能做到。 ok, 可以 看到他有调用的 skill 去加载这一个 skill, 然后他去执行那些命令,他发现这是命令有问题,他这个时候需要去安装相关的依赖, 那这个的话就是 gpt 五点三 codex 完成的,左边是他发现了我安装了哪些 skills, 并且右边你可以开多个聊天框去聊天,我在提示词里面其实有让他去要去实现对应的一些指令,那 gpt 五点三这一边的话是完成的非常好的。好,我们来试一下, 可以看到这边它加载了就是新闻提取器,这个时候它会去执行霸性,跟那边一样,因为一些依赖问题,这个先忽略它,总之就展示这一个加载的过程嘛, 很明显 gpt 五点三 codex 完成这个版本会比 off 四点六会好很多,我感觉不管从 ui 上交互上, 这一轮我会给他投票。好,我们来看一下完整的一个对比结果。第一个项目就是给这个 agent 加上一个用户认证体系嘛,主要是 email, 谷歌认证 get up, 然后从另外一个项目迁移过来。我们来看一下评分情况, 对话人数大家都用了第一轮,那功能完整程度的话, off 四点六这边要完整一些,所以给了他九点五分。 那 gpt 五点三这边因为它漏了嘛,所以说它的评分要低一些,在 ui 上的话也是这边会好一些。在代码架构上这个就有有的说了,在代码架构上的话, off 四点六这一边就是快,但它整体的实现其实有有一些漏洞, 那 gpt 五点三扣带这边它就像一个更有经验的工程师一样,然后整体的代码架构,工程规范都很完美, 为什么会得到这一个评分呢?给大家解释一下这个评分怎么来的。他们两个模型把代码写完, get commit 提交完了之后, 我用了他们两个最顶尖的模型去 review 代码,先让 off 四点六去 review 啊,两个人写的,再让 gpt 五点三 code 是 两个人写的,大家得到的结果都一样,就是 gpt 五点三 code 写的代码要好, 只不过在功能实现上它漏了,以及在落地页上它的实线会没有 off 四点六那么好看。但是代码这一块的话, gdp 五点三扣袋子这边肯定是要厉害一点的。 那整体总结一下的话,在代码架构上扣袋子要领先一些,它全链路的用户隔离、迁移、脚本测试覆盖都写到了。但实际功能体验上的话, off 是 因为它三种登录都可用, 然后 codex 它这边缺少了一个谷歌的,我不知道它为什么会缺少的。哈,那 ui 设计上也是 office 更优。那第二个想法,就我们刚刚看到的,我们把这个 skills agent 的 一个终端 ui 变成一个 web ui 嘛,那这块的话, gpt 五点三就明显领先了,不管是在 ui 上还是整体的代码实现上, 都要领先于这个 off 四点六。所以说我觉得整个这一次的发布来看的话, off 四点六它的代码提升并不是特别明显,反而这个 gpt 五点三 codex 相较于 gpt 五点二 codex, 我 认为它们提升了蛮多的。因为这几天我也一直在用 gpt 五点二 codex, 以前是速度有点慢,现在是速度又快,质量又高,我觉得未来 g p t 五点三 codex 大家会用的特别多,不像以往一样,大家可能都用 cloud code 的, 现在的话多了一个选择,并且它更便宜。我做这一期测试,我把这个 off 四点六这个模型的 整个五个小时的窗口全部用完了,但是这个我只花了二十道订阅了,它还没用完,一直可用,一直可用,很爽,速度又快,那为什么不选择一一个便宜,质量又高的呢?所以这一轮总结来看的话,就是 codex 整个代码实现明显领先,功能实现也领先,整个 uiux 都领先,所以说我把票投给了 codex。 好,我们来一个总结,第一个项目去做跨项目的一个迁移认证,这轮 off 四点六渗出, 第二个把一个终端 ui 变成外部 ui, 这一个 gpt 五点三 codex 渗出。那整体平均来看的话, codex 是 要领先一些,因为它这一次提升真的非常明显,速度快,成本更友好,而且后续的话我会更加的去增加我整个 codex 的 一个使用频率。 ok, 这就是这一期视频的全部内容了,如果你觉得视频做的不错,可以给我一键三连,谢谢大家,拜拜。拜拜。

兄弟们,我能想象出五点三很强,但是没想到这么强,这速度已经快赶上 o case 了吧。以前五点二的时候,虽然它的代码能力很强,但是实在是太慢了,导致很多人都不喜欢用它,只有出了 bug 的 时候才会想到 code。 但现在你们看,这个速度 跟之前的模型完全不是一个东西。最最最最重要的是五点三格式它除了速度快以外,写代码的能力也并没有丢失,依然稳得可怕,依然是言出法随,大家快去试试吧! 本视频仅为程序员实测对比胡拉踩结果,仅供参考。你用 gpg 五点三还是卡的四点六?评论区说说你的真实感受!


这是我被 cloud code 封的第三个号了,申诉也没有用,我现在已经准备放弃官方订阅了,不想折腾了。那 open code 一 直很火,最近我也在开始用它了,尤其是 cloud off 四点六和 gpt 五点三 codex 出来之后, 我现在是多个模型配合去干活。那发挥每个模型的优势,用四点六去做架构设计,用五点三 codex 去做代码执行,如果有前端的一个 ui 需求的话,再拿 gmail 三点零 pro 去做前端的一个 ui。 那 opencode 到底是什么呢?用一句话,它其实就是一个开源版的 curlcode, 功能上的话两者差不多,但 opencode 有 一些独特的优势,就是它是一个任意模型,你可以支持多家厂商的, 你也可以用国产的,你也可以用国外的模型都支持。第二点就是代码完全开源免费,这一点非常重要,你可以自己去改,自己去定制。同时代码开源之后,那开源社区的人就可以去围绕它做很多功能,毕竟人多力量大嘛。比如这个插件 opencode, 这就是社区去搞的,现在已经三十 k star 了。 这个插件其实是一套多 agent 多魔性去协助干活的一个插件,最近我体验下来也挺好用的。它这边准备了十个 agent, 有 主控 agent, 有 去专门干代码的,专门去探索代码的,也专门去做前端 ui 的, 挺好用的。 open code 整个的架构的话,其实跟那个 cloud code 差不多,用户输入成有绘画管理嘛,然后有 agent, 有 plan 就 计划,那 kolco 的 那边也有,那有 build 就是 直接干活的嘛,还有些探索的,其实 kolco 的 那边不是都有吗?以及你制定一些 agent 都有,那调度层这边就有些差别了。关于大模型的调度,因为 kolco 的 那边他只支持 angelic 协议的嘛,那这边的话就是实现了一套支持其他各种供应商的整体的架构的话,其实有很多值得学习的地方,如果大家对 kolco 感兴趣了,可以去他官方原码仓库去拉下来去学一下,那个仓库现在已经一百多 k 了,特别火。 那下面就是这个 oh my open code, 这个是我们今天讲的重点,因为他这一套多 a 镜的多模型的一个机制, 能让一个任务去拆解成各个阶段去开发,有复杂的用复杂的模型,简单的用简单的模型,这种才是一个 理想状态下的一个写作的方式嘛。那它本质上就是我刚才说的,它就是一个插件,通过 open code 暴露的一些钩子去拦截这一个 ai 的 一些行为,它的整个工作流程就是来一个用户输入之后,它去拦截 open code 的 一些钩子,这时候去做一些增强上下文呀,或者去选择多 a 帧特有可能是多个模型去协助,最后返回结果整体的一个流程就是这样子的。 那为什么需要多个代理?哈?他这边说的一个说法是专业的代理去做专业的事情,然后规划和执行分离,可以并行执行,按需去选模型,并且节省成本。那他现在这一个多代理的话, 就像最近 cloud code 新出的那个 agent teams 一 样,只不过 cloud code 它是很久很久之后才出的嘛,这个是老早就有了 omago code, 那 下面是它的一些 agent 的 一个分工,这一个是它的一个主要 agent 是 用了 cloud 的 off 四点六这个模型。 还有一些规划师就是在规划方面以及编排方面,他用的卡尔的最顶尖的模型,那代码磁性这一块的话是用的是 gbt 五点三 codex, 如果是一些比较轻量的任务,你可以用 gm 啊,或者 mini max 啊,以及其他都可以。那些前端这块的话,他用的 jimmy 三 plus 或者 pro, 这样子的话就一个任务进来之后他由这个去规划,规划完了之后,他让 jimmy 五点三去做执行,然后发现有前端任务,他这个时候就用 jimmy。 如果涉及到一些小修小改啊,比如说是一些国际化处理啊,多语言处理,这个时候它就完全可以用很低的那种模型去做这个事情嘛。这样的一个搭配其实我体验下来挺好的。 好,下面我们就开始分别去安装 opencode 和 oemopencode 的 这个插件。桌面端它现在也支持了,支持 macos、 windows、 linux, 我 体验下来的话,它有一些断流的情况,所以说我更推荐大家在使用 cio 版本,我们先来安装一下。 好,它提示我们已经安装了,我们来进去看一下,我们先切到一个免费的模型,你上面搜一个 free 这些模型的免费,我就用 mini max m 二点一吧,我们输入一下测试一下,看它安装好没有。 ok, 如果看到这步就证明你 open code 已经安装好了,这个时候我们就有安装那个插件,因为现在在 ai 时代,其实你安装东西都非常方便,尤其是它如果有文档,有开箱库的话, 你看这一个插件哈,欧麦 opencode 的 一个官方仓库里面直接就告诉你了,你直接用 qq 编辑的去装就行了,我就把这个复制一下,然后粘到刚刚我们开的这个 opencode 的 里面,用免费的 mini max 让他给我们去装,那下面就是他会弹出来让你做一些选择, 可以看到他让我们回答一些问题嘛,你有没有订阅 cloud code, 有 没有订阅 openai, 有 没有一些 jimmy 的 一些 model, 你 就根据自己的情况去选择就行了。强烈建议你不要在 open code 里面去用 cloud 的 模型,通过订阅的方式去用封号的概率非常高。那这边我就说都没有, 待会我也给大家一个配置,直接就可以用了,你只需要去搞一个 api k 过来,你就可以直接把这些模型都用上了,这时候我们都说都没有就完事了,因为这个配置后期都可以去改的。可以看到我们把插件安装成功之后,下面的这一个 a 镜头就变了,变成了 omone code, 它的那一套多 a 型的体系,可以看到它有好几个 a 型的体系可以去用,并且 这个插件那还有个好处,它的兼容性做得比较好。它已经把 cloud code 那 边你有的一些 skills, mcp, 还有那些自定义的命令全部弄过来了,比如说 skills 可以看到我的那些 script 它全部弄过来了,这样非常好。也就是说你可以来回签嘛,你有时候你要回去 copy 到那边用也可以。现在我们开始配模型,你可以通过 connect 这个命令去连接你想要的一些模型, 如果你有恰当的 gpt, 里面就选恰当的 gpt, 你 有其他的你就选其他的。那我这边的话,平时会用 jimmy 三点零去写前端嘛 code, 四点六去写架构和具体的一些代码,然后 gpt 五点三 codex 去做一些代码之星,以及解决一些疑难杂症。我喜欢用每一个模型擅长的能力哈,但是对大家来说的话,你如果像我一样去订阅三家的 ai 模型,其实你要花三分钱。我 订阅的一百刀的 code code, 然后今门来我订阅了两个号,一百四十刀, open ai 我 订阅了二十刀,那加起来就是一百六十刀。并且哈,我们刚也说了,如果你用 code code 的 去 授权到这边 opencode 的 去用的话,你封号的概率特别高。之前我还出了一期视频,专门去讲这个 curlcode 的 大面积去封禁 opencode 的 用户的一个事件, 因为刚开始他是不管的,后面他发现这个 opencode 的 日渐壮大之后,他就开始封禁了,你就不能授权到这里面用。 所以如果你要在 opencode 里面去用 cloudof 四点六的一个模型,我建议大家去用中转站,通过按 api 去计费用多少就算多少。那我这边推荐一个我一直在用的中转站接口 i, opencode 的 这边也已经支持了接口 i, 也就官方支持了嘛。 那前面几期视频我也推荐过,如果我要用到一些国外的模型,按 api 调用的话,我都用的是接口 i, 挺稳定的。最关键的一点,你不需要模仿网络,而且是国内付款的一个方式。 最近他们还专门针对海外的顶尖模型增加了一个套餐的方式,也就是说你可以用一份钱去用国外这些顶尖模型呢,目前有三个档位哈,可以按自己的一个需要去选择,相较于官方 api 按量计费的话,这一个套餐模式帮你省了百分之二十五的钱。 好,下面我们先来去创建一个 api key, 在 这个地方新建,我就随便取一个,我们就取 opencode 的 点击复制。这个时候我们回到 opencode 的 这边 附着 apk 之后,我们供应商选择接口,点 ai 敲击回车,把我们的 apk 输入下,然后保存,这时候你可以看到国内国外的模型都可以用,用一个 apk 你 就解决了多模型的一个适配问题。好,下面我们来进行一些其他的配置。 当你安装完 open code 以及欧曼 open code 插件之后,你会在你的工作目录下面点 config, 下面有一个 open code 目录,这里面有两个节省的配置文件,一个是配置 open code 的 一些模型的,另外一个是配置我们这一个 多 a 帧的协助的时候,它具体用哪些模型。这边的话我给大家直接准备了现成的,你直接到我的一个开源仓库里面直接去复制就可以了。下面来我这一个开源仓库里面,直接把这两个配置可以复制一下,把它粘过去就完事了。 好,我们把它覆盖一下保存,再把 omecode 的 也复制一下回来点击复制。 那这一块的话,你可以根据你自己的需要哈,因为 gpt 五点三这一个扣袋子模型的话,官方是没有出 api 的 版本,那后续如果 open i 那 边出了 api 版本接口, i 这边也会跟上,你就根据自己的需要嘛去看这块要不要注视这个内容,我们来复制一下。 好,我们把它覆盖完了,覆盖完了之后,我们重启一下,你就可以看到 color 的 open 四点六已经可用了, 就这几个 a 帧的,它配置的模型都可用了。那下面我们开始进入实战的一个环节,有了 o my open code 插件之后,我们看一下多 a 帧多模型协助的一个流程。我这边有一个纹身图的 a 帧,我希望让它去加一些功能,在这边加一些删除的动作,能把历史记录删除掉,同时在左下角 做一些设置的动作,可以去更新你的一些头像啊,以及我们那些历史提示词,能支持去快速的复制展开开干, 那提示词的话也比较简单,我们这边加一个 alterwork, 让它去更深入的去工作,去分析。 好,我们切到 opencode 这边,这个就是它的整个架构 agent, 它用的是 off 四点六,那这个的话是干活的 agent, 它用的 gpt 五点三,还有些其他的 agent, 也就说它是多 agent 多模型去写作的一个流程。好,我们把提示词粘过来让它干活, 这里提示 autowork 已经开启了,这个时候可以看到它开启了一个探索的沙背 a 技能吗?用的是很便宜的一个模型,这个过程就跟在 clockcode 的是一样的,这里又开了一个新的, 可以看到它一直在开一些新的沙背 a 技能的任务去做探索。啊。好,这里又开启了一个计划的 task, 也就是一个沙背 a 技能,我可以点进去看一下它在做什么, 可以看到他就是把已有收集到的一些代码信息,整个代码空间来去做一轮分析,让这个 off 四点六做一个计划出来,这个时候他这一个主要的协调 a 技能在等,等他这个后台的这个计划任务完成完了之后,这个时候他再去协调其他的 a 技能去干活。 可以看到它这一个经过几轮的一个探索之后哈它得到了一个突突像,那这个突突像的话,它根据后端、前端以及一些小需求拆成了很多突突像,这个时候它就开始去并行执行修改任务了,可以看到它这里又开启了几个 safari 的。 有一个点要看的话是他的这个三倍镜,他开的时候,他其实这个时候是用的 jamal 三 plus 这个模型,也就说他认为这个任务其你根本就没必要用一个很高的模型去做这个事情,所以说他默认给你路由到了一个简单模型, 它这种规划任务的方式就能把模型最大化的利用起来。复杂的任务用复杂的模型,简单的任务用简单的模型就很完美。可以看到它开始去执行 t 四跟 t 六这两个任务了,而且它依赖关系也找出来了。这个就像前两天发布的 cloud agent teams 的 一个写作流程,只不过这个是老早就有了这个插件老早就有了这种多 a 的 写作,最终被 cloud code 写到一个官方的库里面去了。 然后他们那种通信机制就跟爱信的 tim 是 很像。哎呀妈这个系统通知 coco 的, 其实他很多方案是借鉴了社区的,因为社区搞出来之后, 他觉得确实是 ok, 可以 的,那他就把它集成到 coco 的 里面。所以这 coco 的 从它诞生之后的很多功能迭代都参考了开元社区的一些做法,而且他的也在他的一些技术博克里面有,感谢一些开元社区的人提供了一些解决方案。 就像你做产品一样,你产品迭代的过程中,你光靠产品经理去,有时候发觉不了用户的一些真实的需求,那真实的需求暴露出来之后,社区他就解决了,那你就可以去把一些已经解决的痛点的问题提升到自己的产品里面。 可以看到这所有的凸凸像它全部完成了哈,包含三个任务,我们现在来看一下它整体的效果怎么样。首先是左侧的这个删除功能好,确认删除 ok, 确认可以,并且弹窗也是正常的。其实我们看这个可以复制已有的提示词, 可以复制折叠展开是 ok 的。 下面就是这一个左下角的设置,可以去更新昵称跟头像这一些啊,可以看到他这边其实也做好了。 好,我找一张图像试一下看可以吗?前面加一个我的名字吧,看可以吗? 可以,已经保存了。可以的,这个看起来他做的挺好的,英文啊,英文设置也是 ok 的, 多源设置也是 ok 的。 整体这一次任务的话,他全部搞定了呀,就是虽然不是特别难的,但是他协调了多个 a 镜的去干活,而且都能交付的很完美,中间我没有做任何的介入, 所以说这个工具啊,真的推荐大家去用一下这个多 a 镜的协助真的挺好用的,下面我来总结一下。使用 open code 再加那个插件, open code 再配合你用一个接口外的中转站,可以做到 模型自由稳定,省心,你也不怕被封号。第二个的话是成本灵活,这就是今天所有的视频内容,如果你觉得这期视频对你有帮助的话,可以给我一件善良,谢谢大家。拜拜。拜拜。

大家好,我是 kate gbt 五点三 cotas 正式发布了。山姆说呢,它是目前顶尖的编程模型。 swbench pro 得分非常高, tonya bench 二点零百分之七十六的得分也是要比 opus 四点七要高很多, 而且他的计算机使用能力很强。我们在和他沟通过程中,如果说我们发现他在思考执行过程中啊,和我们想的不一致,可以随时中断,那他呃会根据我们新的指令来继续执行下去,而且他现在速度更快。 ovni 的 工程师说呢,目前在 high 和 x high 的 推理强度下, gbt 五点二 coattas 它的推理速度要比上周的 gbt 五点二 coattas 快 了百分之六十到七十。一是它的 talk 效率更高。 第二呢就是推理优化,现在是越来越多的用户喜欢用 gbt 五点二 coattas, 那 既然五点三 coattas 它的速度还有它的效率更高,那肯定会越来越多的用户会使用它的, 它特别适合去解决一些疑难杂症。之前呢,我经常介绍的一个指标是 swbench viv 的, 而现在呢,更多的呃, ai 公司呢,强调 swbench pro, 它呢是含盖四种编程语言,更抗污染,更具挑战性,而且更贴近工程实践。 gpt 五点三克拉斯呢,它在专业知识方面还是非常优秀,虽然说它做的啊, ppt 速度又比较慢,然后,呃,排版也不是特别美观, 它真的会根据你 pdf 里面的文档图片是什么样子,它会帮你裁剪一下,放在对应的 ppt 的 位置。别的 ai 做 ppt 的 时候,我真的是要去多去检查,看看它有没有错误。通过这张图我们可以看到,目前 gpt 五点三它的透更,效率更高, 然后它的准确率还会更好。 g b t 五点二 q t s 它的编码能力更强,美学方面也有了改进。前两天我介绍了呃, open i 官网上 q t s app 来做的一个游戏, 那现在 open i 呢,将它们升级了,这是一款赛车游戏,这是不同的场景,然后我们可以看到赛车跑在这样的一个发光的跑道上,非常炫酷, 要比我们之前看到那个版本要美观很多。它这个游戏呢,就是用到开发网页游戏的 skill。 目前呢,五点三 codex 在 构建日常网站时候也能更理解你的意图。 官方展示出来呢是五点三。在美学方面啊,还有理解,意图方面是要比五点二会更好。虽然 codex 主要是面向软件开发,但是它在幻灯片制作, 呃, word 文档表格方面、 pdf 制作方面都是非常优秀。这里呢,就是我刚刚有提到的非常喜欢 kotas。 现在的一点, kotas 会在工作过程中提供频繁的更新,让你随时掌握关键决策和工作进展。它会主动说明操作步骤,响应反馈,始终让你保持进行。我们需要在设置通用 后续交互行为里面将它给打开。 open i 工程师呢,他们还用 codex 训练和部署 gbt 五点三 codex 官方说,五点三 codex 是 首个在准备框架下被归类为网络安全相关任务高能力的模型。但是在五点二的时候呢, open i 就 强调 codex 网络安全方面的话是非常厉害。现在我们来看一下 omni 的 工程师如何花一万美元用 kotas 自动化研究工作?他的个人工作环境非常简单, get 工作数,还有多个需要窗口加每个工作数,一个 vsco 的 实力。他认为新版的 kotas app 就 能提供这条体验。 关键突破呢,是让 kotas 持续记录并改进自身的工作流程。作者认为 kotas 是 一个惊人的搜索引擎, 之前我在视频里就一直在说,我最喜欢的就是呃 g b t 它的搜索能力。那在作者这里呢,它需要在不熟悉的代码库中快速实现。一次性实验的时候,它就会让 ko d s 进行广泛的径直调查,搜索相关 slack 的 频道,阅读相关讨论, 获取一些变更深层详细的笔记,自动作出超参数决策。同时作者发现呢, slack 充满了关于模型行为的讨论报告和数据。 所以他让 codex 呢定位并深度爬取相关频道,查看分享的截图,提取模型相关文档,浏览电子表格, 历时了多个小时,产出超过七百个新假设。他认为 codex 是 一个极其认真高照回的搜索 agent。 五点三 codex 呢,他尤其擅长同时协调多个子代理工作, 并且它现在速度有了极大的提升。你只需要与一个主 agent 对 话,由他指挥一个 agent 的 团队 分别进行 slack 调研、代码调研、代码编辑和数据科学,大幅减少了通过代理并行工作时所需要的上下文切换。最后呢,再来看一下 codex 最近帮我来做了一些什么事情。先来看一个 gbt 五点二 codex s high 的 模式 帮我做的呃元素周期表,这个元素周期表有五千多行代码,我们可以看到 coca 现在做的页面的话还是比较美观的, 左边呢它分它对这个元素呢有不同的族周期类别,时间线,它这里的时间线呢非常非常有趣, 我们可以来滑动一下,就可以看到右侧呢有对应的不同元素的显现,当我选择不同类别,那也很清晰的看到右边的元素哪些是啊非金属,哪些是卤素,也可以按照周期 来区分,或者呢是按照竹来识别不同的元素,这些功能他都做的特别好,包括最上方我们还有一个搜索,我这里呢,搜索了一下,同,那我可以把它点击进去看一下, 它这里呢是有原子序数,原子量发现者常见用途。我们点一下旁边,在时间线定位, 他说该元素为古代已知的元素周期表,我其实让多个模型都来做过,我在今天这里展示的元素周期表绝对是这些模型里做的最好的, 因为他是做的最完整的,多个功能都是给我展现了出来。最后我们再来看一下对模型的对比,那我先选中一个模型,再选中一个, 第三个选择它,然后点击打开对比,就可以看到非常详细的这些元素的对比了,而且最下方呢,我们还会看到有数据说明,现在呢就给大家看一下怎么做出来它的给它的提示词呢,其实是非常简单的, 在左下角呢,它有一个加号,当点击这里的 plan mod 的 时候,它就会帮我们生成一个 plan, 这是它最终生成的,先是目标和交付物,再接着是 ui 视觉设计,然后是元素表布局和啊交互模型,再接着是数据模型,然后第五部分呢,是时间的细节。 在制定这个 plan 的 时候,它会有几个问题问我有一些细节问题让我去选择一下。我们看到它做的这个 plan 还是非常详细的, 这种 plan 的 话比我在 curser 里面让同样的模型做出来的话是要更详细的。所以,呃,我觉得我们可以看一下 codex 官方的 skill, 它里面有一个 creator plan 究竟是怎么写的,也可以用在别的 ai 编程工具里。那我确认上方没有问题,然后就开始让它去执行了。再看一个,今天我让它来做一个 skill, 先是让它调用谷歌的 nano banana 来生成图片, 这是 rapidkit 的 一个调用的事例,我直接发给他,他很快就生成了。之后呢,我就让他做一个兵马俑街舞,他说他先按照前端设计 skill 来做计划,然后他就开始执行了。 我们看到他这里的 plan 的 话,内容也是非常多,包括分镜,时间轴也都有, 还有主要的接口类型也给出来。之后呢,我就让他调用刚刚创建的 replicate 的 啊 nano blender 的 一个 skill 来生成图片素材。在它生成图片过程中,我发现生成的图片呢,啊太写实了,我就让它调整一下, 于是它就开始重新生成图片。再之后我发现这个图片,嗯,设计呢,还是得好好规划一下,如果说一下子让它生成不同风格的图片, 做出来的场景肯定是不好的。呃,我在这个对话里呢,用的是 g p t 五点二克的 high, 明显感觉目前呢,呃,即使选择了 high, 它的速度呢,也要比之前的五点二克的 high 速度要快很多。我们看一下它的生成效果,它的最上方呢也有聚光灯, 然后他这里的兵马俑呢,做的,呃非常不像兵马俑,所以很多任务还是要让 office 四点七来做。但是啊, cos 呢,也有他非常擅长之处, 他在后端方面还有复杂任务,还有他在一次性任务上完成的准确率是要更高一些。右侧呢就是他执行的计划,我们可以看到啊,他这里的计划呢分镜是哪些? 然后验收校验,明显可以看到 codex 在 这里呢,写内容还是比较节约的,所以写文档方面的话,我个人觉得可能还是用 office 四点七比较好一点。以上呢,就是今天介绍了关于 gpt 五点三 codex 的 所有内容, 这是一个非常好的模型,速度快了起来之后,那真的我们很多任务都可以交给它。

腾讯 ai 刚发布了 gpt 五点三 codex, 它在操作系统实操测试中拿到了六十四分,这意味着它能像人类工程师一样直接操控电脑系统。最直接的变化是成本,它处理同等任务的资源消耗只有上一代的一半,但处理速度反而提升了四分之一。这也是首款在网络安全维度破平高等 的模型。 openai 甚至拿出了一千万美元额度来修筑安全防线。当 ai 从写方案变成了直接干活,程序员的职业定义正在发生根本性转变,程序员的门槛进一步降低,人人都是程序员的时代已经到来。

前两天我做过一期视频,用同样的 prompt, 同样的真实项目任务实测,对比了 cloud ops 四点六和 gpt 五点三 codex 那 期视频做完之后,评论区有人问 国产模型能不能也拉进来比一下,这次机会来了,这一期视频我要做两件事情,第一个,把上期那两道编程题原封不动的丢给 mini max m 二点五,看看它在同一张考卷上能拿多少分。 第二个的话,我有一个自己一直在用的自媒体 agent 的 项目,之前跑的是 mini max m 二点一,这一次直接升级到 mini max m 二点五,看看他在真实的一个生产电路里面升级到底带来了什么。看过我视频的人都知道哈,我做评测比较关注模型,他在一个真实任务里面的一个表现。 好,我们正式进入编程实测环节,我直接附用之前的两道题, prompt 一 字不改。第一道题的话,是把一个项目里面完整的一个认证用户体系 直接迁移到我有一个图片生成的一个 agent 的 项目里面去,同时再让它做一个落地页,需要考验它对于另外一个项目的一个代码理解能力,架构适配能力以及一些工程规范。 那第二个项目的话,我以本地有一个 skills agent, 之前是做的是终端 ui 的 一个部分,那这一次的话,我希望把它升级成外部 ui, 并且它要保留 string 工具调用流逝输出的一个完整链路,这个就考验它的一个全栈开发能力,以及它的 sse 流逝输出,还有 ui 方面的一些交互。 上期的成绩是 cloud op 四点六和 gpt 五点三勾代码各赢一局,那这一次我们把 mini max m 二点五加进来,看一看它的结果怎么样? 好,开始测试,两个一起弄,可以看到右边这个它识别到我们要做的是一个全单元 y, 它去加载的那个 front designer 这个 skill, 那左边这个项目的话,他发现他是需要去探索已有的项目,去找到那边是怎么做 get up 登录,怎么做谷歌邮箱登录的。先去探索嘛,先去开 saf 界面的探索, 可以看到他这边已经构建成功了,现在在进行一些后端跟前端的验证,整体这个过程测试下来的话,他会遇到一些变异问题,他也自己去修复了。待会等他测试完之后,我们来看一下他跟 cloud 四点六以及 gpt 五点三 codex 同样的代码,同样的提示词完成了一个效果怎么样? 那左边的话先让他一直跑,左边这个任务要重一些,可以看到这个地方他说项目已经启动了,然后他还专门创建了一个简单的启动脚本,来方便我后续去使用。之前我在测试 mini max m 二点一的时候, 有一些开发任务,前端后端写完之后,我需要手工让他去给我写一个 start 点 s h 的 脚本,这一次让你可以看到他在这个过程他自己去发现的这个行为,这一点点赞。现在他说已经完成了,我们现在开始去测试一下 这个就是他把那个终端 ui 变成了一个外部 ui 的 一个版本啊,可以看到左边他已经把我们已有的一些 skill 加载出来了,这个是没有问题的,下面我们来测试一下,给他一个任务,看他能不能去做到加载对应的 skill, 然后工具调用 simi 以及流逝输出都没有问题。好,我们开始 这个申请的过程,看起来没有问题,加载技能也还行,那看他执行命令 ok, 他 也调了对应的工具,只不过这里的这个图标他刚刚是有些问题的,这个状态是有些问题,有个小 bug。 那 整体的话,这一个过程其实已经把我们终端 u i 想要展示的东西已经展示出来,只不过有些小瑕疵。那之前那期视频的话, 也测了 cloud op 四点六跟 gpt 五点三 codex 嘛,左边是 cloud 的 模型,右边是 gpt, 当时我是把票投给了 gpt, 不 管它是从 ui 交互还是它整个功能交互上,明显 gpt 五点三 codex 要优要好一些。我们也可以来测试一下,直接给他一个链接吧,看他怎么怎么搞。 他也在申请,他也在加载技能,那明显能看到 gpt 五点三 codex, 他 做错做的要好一点,对不对? 好,下面我们开始去看他做的那个用户认证那个项目,那做用户认证迁移这个项目的话,其实比我们刚刚看到的任务其实要复杂一些,因为 他需要从另外一个项目去探索,找到想要的东西。其次他还得在这个项目里面去,在各种代码里面去找到他要在哪个地方去修改,前段是要修改哪些,后段是需要修改哪些,所以整体上他的复杂度要高一些。也可以看到他其实并没有一次性去完成这个任务,中间也报错了,我也跟他去沟通交流了, 那最终的话是跟他对话了三轮,他才把这个任务完成了。那这个任务在之前 op 四点六以及五点三 codex 测试的时候,他们是能一次性通过, 跑的时候没有问题,项目也能起起来。那 mini max m 二点五这边的话是有一些问题,我对话了三轮,然后把这个任务搞定了,我们来看一下他的一个表现。 好,我们先看左边,左边是之前 call 四点六写的落地页嘛, 光看 ui 其实没什么难度,因为这个项目主要是考察他去另外一个项目里面把后端代码找到,把对应的数据库找到,找到了之后再放到另外一个项目里面。所以说整体是需要看它的代码实现的功能,比如说这个 get up 登录可不可以,谷歌登录可不可以, 以及它的代码实现的怎么样,因为涉及到登录嘛,肯定安全性这些要考验。下面我们来看一下 mini max m 二点五它这个 ui 写的还可以的,比这两可能稍微会好一点, 那它的这一个谷歌登录跟 get up 登录的话也是 ok 的。 好,我们来试一下它这个谷歌登录 好,可以看到它,其实谷歌登录是 ok 的, 那我这个其实就是一个纹身图的一个 a 帧嘛,那它整体完成度啊,也还可以,但它不是一轮完成的,它中间有一些包的导入错误,还有些细节性的问题没有做的很到位。好,我们来一个整体的一个评分对比。 关于这个纹身图的 a 帧的项目的话, call 的 off 四点六表现优异一些,得分是八点二,那 gpt 五点三 codex 它因为漏了一些功能,所以说它评分要低一些,但是它的整个代码价格、工程规范是这三个模型里面完成的最好的。 那 mini max m 二点五这边它的得分就稍微要差一点,整个的功能完成度还 ok, ui 的 话会比它俩会好一点,但是它的代码架构跟工程规范会偏弱一些。好,下面我们开始做 agent 的 实测,把 mini max m 二点五放到 我已有的一个真实 agent 的 项目里面去,它是做自媒体视频拆解的,之前接的是 mini max m 二点一,这一次升级了, 我们重点看三件事情,第一个是速度,第二个是他的一个拆解深度,第三个的话是表达一个真实感。好,我们现在准备两个窗口,左边的话我准备用来测试 mini max m 二点一,右边的话我们测试 mini max m 二点五。 好,我这边找了一期我之前做 skill 原理讲解的视频,我们同时去点击看左边跟右边他的一个整体的一个速度以及拆解的深度,再看他的一个其他的表现。开始好,这边有点慢,但没关系,我们来看一下, 我们把这个展开,这个也展开,从这个可以看得到,它其实右边会稍微快一些哈,但是这个先不管,因为这个部分的话是跟 a 镜头没有关系,去做语音转,文字是本地的一些模型去转,等他把这些字幕内容提取到之后,我们再看他们的一个速度。 好,现在开始了,大家能明显感觉到吗? mini max m 二点五的是不是快的特别多? 这边已经做完了,这边就是还在,还在做, 那在速度这一块,他现在提升真的非常的明显,特别快,那他最终输出这个结果,我们要怎么去做评测呢?到底是左边的好还是右边的好? 我不能以我主观的去选择哦,右边好,左边好。所以说我找了两个模型去做评测,我们把任务给到它以及它的产出字幕内容全部给到两个模型,第一个是恰当的 gpt, 第二个是谷歌的界面,来去看这两个模型到底哪一个分析的这一个深度, 以及他的一个真实感更强,最终得出的结果。我们来讲一下,那整体的一个结果的话是 m 二点五肯定是提升的蛮多的,第一个是速度变快了,第二个是他拆解的更稀了,第三个的话是他的一个真实感更强了。好,下面我们来做一个总结。 一句话的话就是当前我们这个任务的评测的话,在编程这一块 codex 要领先一些,那 off 四点六要辞职, mini max m 二点五的话更适合做一些速度优先以及你追求性价比的快速落地的一个场景。好,这就是这期视频的全部内容了,熬了一个通宵做的,如果觉得这期视频做的不错了,记得给我一箭三连,大家拜拜。拜拜。

好内容我要一直发,坚持的发,重复的发。我之前拍过一条视频,我是说怎么用 ai 去接管你的任何工作,当然前提你是一个小白领,或者是你你做的大部分工作都是 文书类的工作,都是 ppt, word, 或者是做一些图片生成的工作,或者是文案策划的工作。 你不需要玩什么豆包,也不需要 kimi 元宝,你也不需,更加不需要搞那种极客的那种 opencloud, 是 吧?你更加不需要玩这个 opencloud, 你 只需要下载一个 codex 插件,就是 openai 旗下的这个 codex 插件就是这个 codex 插件。 当然我给大家一个路径,你们按照这个路径去做,有任何问题你们可以直接来问我。首先第一步,你们要去选择 gpt, 去 购买一个 cheap 的 七 p t plus 的 会员,这个如果是在官网上会是二十美刀,大概是一百四、一百五或者是一百六十块钱人民币, 我现在已经可以搞到二十块钱以内了。好,一定要搞一个 cheap 的 七 p t plus 会员,二六年,给你们一个 性价比最高的一个方案,就是购买一个车载 gpt plus 会员,购买之后登录到回到咱们刚刚的入口,我已经下载好了我的 codex 的 这个插件,你们在下边啊,这个权限要给他最大的权限。为什么要给到最大的权限?因为风浪越大,鱼越贵。 你给他最大的权限就是让这个小黑屏,让 codex 这个大模型目前已经来到了五点三的这个版本,让这个小黑屏去 控制你的整台电脑的文本。所以说第一步,购买 qgg plus 会员,第二步,下载 codex 的 这个插件。第三步就是打开你的一个文档,在这个文档下边去 使用 codex 的 打磨型去实现你的任何的工作,遇到任何问题前来咨询。

老 a, 你 知道吗? openai 刚发的 gpt 五点三 codex, 真的 是把 ai 拉到了程序员的工位上。 我昨天看演示视频,他居然能在几百万行的代码库里精准定位 bug, 修完还主动把修复逻辑和风险点整理成文档发我, 这不就是相当于招了个七乘二十四小时的高级打杂吗?以前我改个复杂 bug 得翻半天历史提交记录,现在 ai 直接帮我把关联代码全理清楚,效率至少翻了三倍。 不过话说回来,这东西到底是真能干活,还是又一次 ppt 级别的升级?哈喽,大家好,我是阿兰,欢迎来到科技商学频道。大家好,我是老 a, 今天咱们就聊聊欧朋亚刚刚发布的 gpt 五点三 codex, 还有那个新的企业级智能体平台 frontier。 我看完发布信息,最大的感受不是又更强了,而是 ai 终于从工具变成同事了。以前咱们用 gpt 写代码,是把自己的思路拆成小问题喂给他,现在反过来了,他主动帮你梳理整个项目的技术债,甚至会提醒你哪些模块可能在上线后出问题。 这倒不是夸大,欧鹏 ai 这次公布的测试数据里, gpt 五点三 codex 在 osl 的 评测里拿到了百分之六十四点七的得分,人类平均水平也就百分之七十二, 这是什么概念?就是说,在日常计算机操作这件事上, ai 已经能完成八成以上的工作,从写代码、改 bug, 到部署监控、做 ppt、 拉 excel 报表,它全包了。 而且最恐怖的是,这个模型居然参与了自己的开发。 codex 团队用早期版本的 gbt 五点三 codex 来调试训练流程管理部署、集群分析,测试结果相当于自己给自己当项目经理和工程师。 这就好像一个程序员边写代码边优化边仪器效率直接拉满。你说的这个自我迭代能力,其实才是这次发布里最值得关注的点。以前 ai 都是人类训练出来的,现在他开始参与自己的进化了。 gpt 五点三 codex 是 把 gpt 五点二的推理能力和前代 codex 的 编程能力结合在了一起,速度还提升了百分之二十五。以前咱们写代码得切换好几个工具,现在一个模型就能搞定从需求分析到上线监控的全流程。 对,我特意去试了一下它的 web 开发能力,我就给了一句,帮我做一个类似 quiet kpi 的 网站首页,它不仅自动把年付套餐改成了月均折扣价,还生成了三个不同用户的评价轮播组建,甚至连配色和排版都考虑到了移动端适配。 这要是以前,前端工程师至少得折腾半天。不过也别光吹优点,我看评论区里很多程序员吐槽说 gbt 五点三 codex 在 实际使用时经常出现逻辑漏洞,而且生成的代码可读性很差,维护起来比自己写的还费劲。 还有人说 openai 现在一门心思搞企业级市场,已经把普通用户抛在脑后了。确实,这次发布的热度比隔壁 cloud opus 四点六差远了, openai 的 推文转赞屏还不到对手的一半。评论区里全是抱怨,有人说现在的 gpt 写文案越来越敷衍,不如以前有灵气。 还有人担心以后免费用户会不会彻底被边缘化?这其实暴露出 openai 的 一个战略困境。 以前他靠 chat gbt 的 二 c 业务快速出圈,现在想往二 b 市场转型,结果两边都没讨好,企业客户觉得他的智能体平台还不够成熟,普通用户又觉得自己被抛弃了。 毕竟以前大家用 chat gbt 是 为了聊天写文案,现在 oppo ai 天天谈 ai 劳动力,这画风转变太生硬了。 不过这次发布的 frontier 平台,倒是看得出来 open ai 想深耕企业级市场的决心。这个平台能把企业内部的各种系统和数据打通,给每个 ai 智能体分配明确的身份和权限,还能让 ai 在 工作中不断学习优化。 惠普、 uber 这些大厂已经在用了,据说 uber 用它来优化司机调度算法,效率提升了不少。我研究了一下 frontier 的 核心能力,它最厉害的地方是构建了一个统一的业务与一层。 以前企业里的 crm、 erp 数据库都是各自为政, ai 想跨系统调用数据,得写一堆接口。现在通过 frontier ai 能直接理解企业的业务逻辑,不用再折腾复杂的集成工作,这对大型企业来说确实能省不少事儿。 而且 open ai 还给 frontier 配了专属的工程师团队,会和客户一起把实际场景里的问题反馈回研发部门,加速迭代。这种深度合作模式,其实就是在把自己从技术供应商变成企业的数字化合作伙伴。 但问题是,现在的 ai 劳动力还远没到可以完全信任的地步。我听说有企业用 gpt 五点三 codx 生成的代码上线后出现了严重的安全漏洞,因为 ai 为了快速完成任务,自动引入了有风险的第三方库。 这种情况要是大规模发生,肯定会影响企业对 openai 的 信任。你说的没错,这也是为什么这次发布后质疑声那么大。很多开发者觉得 gpt 五点三 codax 在 安全性和可解释性上和 cloud ops 四点六还有差距, 毕竟写代码不是写作文,一旦出错可能会给企业造成巨大损失。其实 open 它自己也意识到了这个问题,所以在 gpt 五点三 codex 里加了个工作中可引导的模式, 开启后, ai 会在每一步操作前都告诉你它要做什么,遇到不确定的地方还会主动提问,你可以随时打断纠正。 这相当于给 ai 配了个监督岗,至少能降低出错的概率。不过我觉得不管现在有多少质疑, open ai 这次的方向是对的。以前 ai 是 辅助工具, 现在它要变成可以被管理、被规模化使用的劳动力。这就像工业革命时期的蒸汽机,一开始也被工人抵触,但最终还是彻底改变了生产方式。 没错,这次发布其实是欧鹏 i 在 压住 ai 劳动力这个赛道。 atp 五点三 codex 强化了编程和软件工程全流程的能力, frontier 又补上了企业级部署和管理的短板, 两者结合起来,就是要让 ai 真正走进生产环境,成为和人类并肩工作的同事。 但这个转型过程肯定不会一帆风顺。怎么平衡 tob 和 tc 业务,怎么在提高生产力的同时不丢掉开发者社区的支持,这些都是 oppo air 必须解决的问题,毕竟以前的 oppo air 是 科技圈的创新先锋,现在要变成企业服务提供商,身份转变带来的阵痛必然会持续一段时间。 我倒是觉得 oppo ai 现在面临的最大挑战不是技术上的,而是心态上的。他能不能放下以前那种颠覆一切的姿态,沉下心来打磨企业客户真正需要的产品,能不能在追求规模化落地的同时,依然保持对普通用户的尊重, 这些才是决定他未来能走多远的关键。你说的太对了,这次发布让我想起了当年移动互联网时代的转型,很多 pc 互联网巨头因为放不下既得利益,错过了移动互联网的风口。 现在 openai 也站在了类似的十字路口,他能不能在 tob 的 长期布局和 toc 的 广泛影响力之间找到平衡真的不好说。 不过有一点可以肯定, gbt、 五点三、 codex 和 frontier 的 发布标志着 ai 已经从实验室走向了生产线。不管你愿不愿意, ai 劳动力时代已经来了。接下来就是看各个企业怎么适应这种新的生产方式,怎么把 ai 的 能力真正转化为商业价值。 对,而且这不仅是企业的事,也是每个从业者都要面对的问题。以后程序员可能不用再花大量时间写重复代码,但得学会和 ai 协助,学会给 ai 明确的任务指令,学会审核 ai 生成的结果。 设计师、产品经理也是一样, ai 会帮你完成基础工作,但核心的创意和决策还是得靠人。 我甚至觉得这次发布可能会改变整个科技行业的人才结构,未来的企业可能不需要那么多只会写代码的初级程序员,但会需要更多懂 ai 协助、懂系统架构、懂业务逻辑的复合型人才。毕竟 ai 能帮你干活,但没法替你思考。 你这个观点很有意思,以前咱们说 ai 会取代人类工作,现在看来,它其实是在重塑工作的内容和方式。就像当年计算器发明后,会计并没有失业,只是不再需要手工记账,而是把精力放在了数据分析和战略决策上。 没错, ai 不是 来抢饭碗的,是来解放生产力的。他把人类从重复性、机械性的工作中解放出来,让我们能专注于更有创造性、更有价值的事情。这其实是科技进步的必然结果,不管你接受不接受,他都会发生。 不过话说回来,现在的 ai 劳动力还处于初级阶段,还有很多问题需要解决,比如怎么保证 ai 生成内容的准确性和安全性,怎么让 ai 更好的理解人类的意图,怎么平衡效率和伦理之间的关系?这些问题不是短时间内能解决的,需要整个行业共同努力。 但至少 open ai 已经迈出了关键一步,它让我们看到了 ai 大 规模落地的可能性,也让我们意识到 ai 不是 遥不可及的技术概念,而是能真正改变我们工作和生活的工具。 接下来就看其他科技公司怎么跟进,看企业怎么把 ai 用起来了。好了,今天咱们就聊到这里,不管你是科技从业者还是普通用户,都可以好好想想, ai 劳动力时代会给你带来什么改变?你又该怎么适应这个新的时代? 没错,欢迎大家在评论区留下你的看法,和我们一起聊聊你对 ai 劳动力的理解和期待。感谢大家收听本期科技商学。我是阿兰,我是老 a, 咱们下期再见!

就在昨晚, gpt 五点三 codex 发布,真正炸场的这台已经和人类一样,可以把一整个项目从头做到尾。 antropic 深夜突袭, cloud oposs 四点六刚亮牌, openai 半小时内直接发布 gpt 五点三 codex, 目标只有一个, 终极智能体。 gpt 五点三 codex 把顶级写代码能力强、推理和专业知识彻底融合,运行速度提升百分之二十五。而且 tpt 五点三 codex 不是 更聪明,而是更省、更稳、更能扛长程复杂任务。 他的变化只有一句话,从帮你写代码,进化成和你一起把事做完。他能连续跑几百万 token, 自主修 bug、 重构迭代版本,你随时插画、改方向,甚至中途喊停,上下玩不丢,决策过程全透明,他会主动算年付折月付默认结果。就像能直接上线的产品, gpt 五点三 codex 的 野心早已溢出了代码框。随着这次发布, codex 也开始从写代码工具转型为操作计算机并端到端完成工作的得意助手。 openai 正在解锁更广阔的战场,从构建软件到深度研究、复杂分析,乃至执行一切案头工作。 顺便聊一下,还记得 gpt 五刚发布的时候吗?全网吐槽不够聪明,数单词里有几个字母会数错,一张清晰的地图,连方向都看不懂。那时候的 gpt 五,像一个理论很强,但一到现实就翻车的纸面高手。 而今天,他是带着实战成绩回来了。 open ai 联手,根口把 g p t 五接入高度自动化的实验室,构建完整的设计、执行、学习闭环系统,没有人类参与反复试错, g p t 五自己查文献,设计实验,指挥机器人并行执行,连续六轮迭代,跑了三点六万种实验组合,系统性挖出了低成本解 无细胞蛋白,合成成本直接下降百分之四十 g p t 五找到的是一整套在人类直觉之外却能在真实生产条件下稳定协调的反应组合。 当 gpt 五点三 codex 接管工作流程, gpt 五主导科学实验,这已经不是工具升级,而是颠覆世界。春天来了,这一次, open ai 王者归来,站在舞台中央,关注星智媛,秒追 asi。

ai 圈又迎来大爆发, open ai 悄悄发布了 g p t 五点三 codex, 代码能力简直是突飞猛进,这是要和 ansorek 的 code 硬碰硬啊!这次的 g p t 五点三 codex 可不是只会写代码那么简单,它更快、更聪明、更自主,完全可以胜任长时间的复杂任务。 它不仅能写代码,还能像队友一样协同工作速度提升了百分之二十五,处理复杂工作流程那叫一个得心应手。已经有人用 gpt 五点三 codex 在 x 上搞事情了,有人直接用它生成了一个完整的飞行模拟器。这要是人工开发,得花几周时间吧。 gpt 五点三 codex 的 web 开发能力也大幅提升,结合美学和紧凑性模型,现在可以从零开始构建高度复杂的游戏和应用程序。 gpt 五点三 codex 的 强大之处在于,它超越了单纯的编码,能搞定整个软件知识工作生命周期,从调试、部署到编辑文档,它都能胜任。 openai 声称, gpt 五点三 codex 速度提升了百分之二十五, token 用量也大幅减少,效率更高,运行成本更低。 gpt 五点三 codex 和 cloud opus 四点六相比,两者都超越了以往的 ai 模型,但侧重点有所不同, codex 速度更快,而 codex 在 决策和输出质量上更胜一筹。 codex 适合快速迭代, codex 则擅长长远规划。 gpt 五点三 codex 擅长快速生成, cloud opus 四点六则更注重质量和思考深度,大家可以根据需求自行选择。 ai 模型之间的竞争只会越来越激烈,最终受益的还是我们用户。 ai 模型之间的竞争只会越来越激烈,最终受益的还是我们用户。大家更看好哪个模型呢?快来评论区分享你的看法吧!

不放弃的温柔。

朋友们,今天的大事件都知道了吧, oppo 四点六和 g p t 五点三 touch 在 十分钟左右相距发布,那很自然,这两货今天又成了整个社交网络最靓的仔。那么有一个问题就来了,他们俩到底谁更强呢? 今天我们就让他们俩来一场巅峰对决,我们用三个案例来快速的看一下他们俩到底谁的效果更好,分别覆盖 web 前端开发、移动端开发和桌面端 app 开发。那具体结果如何?我们一起来看一下。 ok, let's go! 好, 第一个案例是开发了一个叫做 amnesia 啊,有人知道这个单词什么意思吗?它是无所不知的意思啊,其实简单说就是一个可以一次性向六个大模型来提问的一个 app。 那 这六个模型就是 国内的三个 g i m mini max, kimi, 还有国外的三个七幺 g p g, oppo 四点六,还有 jamaican 三 pro。 好, 下面有一些具体要求啊,这个我们不细看啊,我们先看一下它们整体的一个结果, ok, 这个是 g p g 五点三控制器的结果,那大概的 u i 就是 这样。然后呢,这个是 oppo 四点六的结果, 它这边看不到任何的那个,比如说每个模型,但是呢,待会儿我们试一下,说个消息,看它能不能出来啊。那么从界面上面来看呢,你会觉得好像 哎,这个 g p 五点三的好像稍微有点设计感,对吧?但是这里有个很大的问题啊,你看他每一个模型,他的回答是在这边的,那这个你要看起来就很不方便,对吧?但,哎呦喂,我们来试一下啊,我们让他帮我脑爆一些用于测试两个模型编程能力的一些项目,好,发送 好,可以看到每一个模型,它这边呃都能回答,都能正常工作。然后这边还有一个主回答,它这边选的是 g p g 五点二,我不知道它是不是有偏塔啊,哈哈, 偏塔之间的模型对吧?所以功能上面看起来都 ok, 然后这边呢,还能去,比如说隐藏某一个,对吧?隐藏隐藏,隐藏隐藏,然后也可以全部显示,可以相当于是可以切换啊,这边还有横向滚动 哦,它是这样的,然后有网格的,这个布局好,布局大概就这样。那这里的我觉得最大的缺陷就在于说,嗯,只有那么一点小小的窗口,看起来很不方便,但是呢,功能层面完全没问题。然后我们来看一下这个 off 四点六的结果好, and 啊,它就是这种,就是并列的好,可以看到, 呃,他有点闪动啊,然后这个能不能关掉呢?啊?他这边也能切换,这个布局好,目前看起来两个模型生成的结果啊,功能层面都能够正常的工作,那么他们俩最大的区别呢?就在于这个布局,对吧?然后整体看下来,我会觉得 oppo 四眼六他的这个布局会相对来说会就是比较符合我想要的一个风格,然后如果看我们的提示词的话, 你会发现其实 oppo 四点六生成的就是我们想要的,对吧?左侧一个互换六表,然后右侧是并列的六列,而不是这边 g p t 五点三扩展齿所生成的这个布局,我觉得这个这边占了这么大块,就是会导致用起来很不方便,那这个虽然说它会有一个很想滚动的一个结果,但是你想想在大的屏幕上面 是不是看起来就很方便了?好,所以第一轮我会觉得 oppo 四点六获胜, ok, 第二个案例是让他们俩同时来开发一个简版的小红书啊,使用 flutter, 然后本地的 sql 保存所有数据, 然后笔记留,发布笔记,笔记详情还有点赞评论这些功能,包括我的主页,那么 ui 层面我们就直接让它尽量的与小红书保持一致就行了。好,它们俩生成结果,我们一起来看一下, 左边这个是 gpt 五点三 codex 的 结果,然后右边这个是 oppo 四点六的结果。然后如果说抛开小红书这件事情本身来看的话,呃,我会觉得 gpt 五点三 codex 的 版本设计层面会稍微好一些啊,包括它整体的这个 配色呀,包括比如说这种圆角啊,包括它配的图啊,好像会稍微好一些,对吧?包括你们看它底部的这些东西,呵呵, 但是这里我们有一个前提,我们刚刚也跟大家重点强调了,就是让他尽量的符合小红书的这个风格,包括整个设计界面。所以你从这个角度来看啊,依然我会觉得 oppo 四点六会更加符合小红书的这个风格啊,包括这个点进去以后的这个, 嗯,详情页面吧,对,包括整个,比如说,尤其是底部的这个东西,对吧?就是,就很明显啊,就这个,就是他自己完全自己设计了一套,没有按照我们的提示式来,按照详述的风格来去设计。然后呢,他们俩还有一个非常大的区别,就是发布啊,发布这边呢, g p p 五点三克莱斯它是发布不了的啊,你看点击这个东西,它没有用,然后呢, oppo 四点六它的版本是可以发布的啊,给大家随便选一张图片啊,比如说这个,对吧?打开随便填一个,呃,笔记 真棒,发布,你看它发布成功了啊,点赞也没问题,所以从这个角度来看,无论是从设计还是从功能层面都获胜,尤其是从这个遵从 提示词的这个方面啊,我感觉 oppo 四点六已经把 g p g 五点三 corner x 打的有点招架不住了,哈哈,反正这个提示词就这些啊,大家也可以自己拿回去测,对吧,看看你测出来结果是不是这样子。 好,所以现在 oppo 四点六已经二比零领先了,哈哈,我们再来看最后一个版本。好,最后一个版本呢,一直是我用来做最终测试的啊,就是让他用这个 rust 加 gpu i 框架来开发一个 macos 的 app 啊,这个 gpu i 框架是非常新的一个框架 of rise, 本身也是非常难的一个语言,所以这就非常考验这些模型它的学习能力,包括它综合它的调研能力啊,然后呢,实 际应用的能力,就你想象一下,让你用一种非常难的语言,然后呢去用一个非常新的框架来开发一个完整的 app, 这个难度是非常大的。然后呢,它开发的一个结果就有点类似于那个 cc switch, 它的一个 相当于用来切换 cloud 的 那个 api 提供商的这样的一个界面啊,然后这边有系统拓盘,可以下拉之类的。好,我们来看一下两个 app 实现的结果。 好,这个是 g p 五点三的结果,可以看到这个在我看来这属于什么东西?你这个真的是一个 api 情况下,我看看创哥的 api, 然后这边的这个 ki 率让我自己来去填写。我的天,这什么东西啊?我们就填一个吧, t 等于 等于 y 率保存好,就这样填光了,填了这个东西,但是我觉得非常不合理啊,你还让我自己用这种这种 k y 率在这边写接上的方式来去写, 但是呢,输入都是没问题的啊,像之前的。呃,我记得是五点一的时候啊,他用 g p u i 开发的那个 app 根本就是无法输入的,就是根本不行,哈哈, 那至少的话,他现在是有这种输入框就能够正常的输入,我觉得相对于他自己来说是一个非常大的进步,但是整体来说我觉得我很不满意,哈哈。然后再来看一下这个 oppo 四点六的版本啊,这个我觉得 看起来就舒服很多啊,这边你可以看到啊,当然我这边也是,它本来的界面是这样,这个就其实就挺像 cc switch 它的一个这样的界面的,然后这边你可以新创建一个那个新的这个群,而且你看这边它还有一个 official, 就是 default, 就是 默认的是使用 cloud 官方的那个账号,然后可以新建一个新的账号, 放歌的 a p i 啊,八个位,我们现在有自己的 a p i, 大家想要的话可以了解一下,然后这边可以通过这种 kpi, 至少这种方式就比你这种方式要友好很多,对吧?嗯,左边 base, 右边前一个 c, ok, 保存成功了,然后呢,这边点进去能够自动地继续编啊,这个是官方的啊,这边是保持了以前的,对吧?然后我们来看看之前的这边的 c 好 过去这边是有保存,所以从这个角度啊,无论是从 ui 的 设计,交互 还有功能层面,我会觉得都是 oppo 四点六会获胜,你看这边,这这算什么交互啊?我的天,你怎么会这么用的? ok, 以上就是我对 oppo 四点六和 g p d 五点三 q d x 两个模型的快速测试, 所有的提示词都在文档里面啊,大家想要的话可以自己拿回去测试一下,但是我测试出来结果大家也都看到了, oppo 四眼六可以说是把 g p p 五减三刻带子按在地上摩擦呀。我的天,这两个差距我觉得还是挺大的。总的来说, oppo 四眼六依然是当之无愧的王者啊,绝对的替人存在。所以 说实话,我还是挺意外的,因为我觉得 oppo 四零六可能是更强,但没想到会强这么多。好,那对于这三次测试以及对于他们俩的模型能力,大家怎么看啊?欢迎在评论区留言。那这个视频教具觉得有用,可以点赞关注一下我唱歌,我们下期见,拜拜。

hello, 大家好,今天呢,我们来说一下二月五号,也就是今天最新发布的这一个 g p t 五点三的 codex 版本, 嗯,据 openai 说呢,呃,这一代呢,比上一代是有了一个百分之二十五的一个速度的提升, 然后,呃,对于这种上下文的这种记忆也是更加的增强了,也是不会去遗忘。然后根据我今天的一天的使用下来呢,我发现确实是比这一个五点二的 codex 有 了一个很强的提升。然后我们可以先来看一下它这一个官网,你看, 根据它官网的一个测试数据啊,它与这一个五点二的 codex 以及五点二自身相比,它的这一个 output tokens 啊,是要更少啊,只要更少就能达到更高的精度,这样的话就说明我们可以完成更加复杂的任务。 然后包括这里的一个 accuracy, 它相比于前代也是增加了十几个百分点。然后包括这里是 openai 它官网给我们的应用,也就是说,嗯, 单凭这一个 codex, 它自己就能去实现这样一个游戏界面啊,就能实现这样的一个游戏界面的架构。然后啊,我们继续来看, 然后就是,嗯,除了 coding, 它还可以给我们去做这种,嗯,材料建议的这种 ppt 啊,嗯,这种 word 文档啊, 这种分析表格文档啊,还有 pdf 文档,它现在都是可以啊,非常容易地去进行去做,当然 在五点二版本也是能做的,但是五点二版本可能没有那做的那么好。嗯,我们继续来看,然后这是另外一个 os world 啊,他的这样的一个 accuracy 的 一个评评估,你看他是要比前代更是多了接近三十个百分点 啊,所以说啊,我们今天就是来简单的测试一下这个 gpt 嘛。嗯, 哦,还有一件事,就是说现在这一个 codex 版本,嗯,不同于网页版,它 codex 版本是一定要部署在我们电脑的这一个系统上的,因为它是要读取我们系统的文件,嗯, 所以说现在是只支持 mac os, 还有那个 linux os 啊,现在是不支持 windows 系统的,这是我要说的一点。然后我们今天要做的这样的一个测试呢,就是说,呃,你看,我现在已经是把这一个最新版的 codex 给安装好了,然后它这里的 model 这里也显示的是五点三 codex 啊,然后我用的这一个 reasoning, 我 用的是 extra high, 也就是用的它最高算力啊。 那么我们今天要做一个什么事呢?因为我事先呃已经是把这一个 codex 的 官方的一个呃 document 放到了我电脑的一个位置上啊,我是放在了我电脑的这个 document, 然后里面有一个 codex 文件夹,然后这个文件夹里就是我 codex 进行读写的一个主要的场所啊。 我们今天就是啊给 codex 一个指令,让它来读取我们文件夹里的一个 excel 表格,然后根据这个表格读取到内容去做一个 maclab 程序啊,去给它做一些数据统计, 然后把统计后的这个 maclab 程序再给返回到这个 codex 这样的一个文档里 啊,这是我们今天要它做的一个非常简单的任务,来看一看它的这种实时的读写能力,以及它的这样的一个读写速度,以及理解人类指令的这种能力相比于前代到底是进步了还是退步了? 那么我们还是首先要新建一个 excel 文件,你看我这里先打开一个 excel, 我 点击一个 new blank wordbook, 嗯,这里的话可以随便写嘛,比如说这里的话写个 number 啊,然后后面的话就写这个数值啊, value, 然后后面的话,比如说 number 的 话 啊,我给他一个编号嘛,从 a 一 开始一直到这一个 a 十吧,我给他十个数据,然后我们给他一个 value, 给他一个 value, 我 们首先先全部给他设置成二, 然后在有的地方给他啊,人为的改一下数,六,呃,八,对。然后 unit 话,比如说是毫米啊,这是两毫米,嗯,我们先给他全都弄成毫米, 然后这里我们用一个 play trick, 比如说这里我不用毫米了,我用一个米,然后这里的话就是对应的这样的一个零点零零二米, 对吧?这还是两毫米嘛?我们就要看现在的这一个五点三的 codex 能不能反映出来它是一个两毫米,而不是就是说占前不顾后这种感觉,是吧?然后我们就今天就让它去 输出一个频率图吧,比如说这个表里二出现了多少次啊?四出现了多少次啊?六出现多少次?八出现了多少次啊?然后还要求他进行一个小小的一个转换,然后我们也不给他太多的一个指令,我们直接来到这一个,呃,我们保存一下, 保存的话就是保存 document codex, 好, 然后它的名字就叫做 book one 吧,给他一个 book one, 好, 现在是保存到我们的电脑里了,你看这里就是我们的 book one, 然后回到我们的 codex, 我 们就给他去施加这样的一个指令,稍等,我换一下这个书法 啊,那么我们就让他啊, please 啊,去读一下我们的 book one 吧。啊,在我们的这个默认文件夹里, 我们这里当然也不告诉他默认文件夹是哪一个啊,让他自己去寻找。然后呢,给我们生成一个 maclab code 啊,这个扣子呢,去 plot 啊,一个 histogram 啊,就是我们的柱状图啊,数据的柱状图,然后我们也不告诉他是什么样的柱状图,一般来说的话,我们就默认是这种直方的频率图嘛, 好,那我们就发送给他。好,然后大家来啊,等一下,看一看他到底要思考多久。然后啊,首先你看他开始 low key 这个 book one 了, low key book one, 你 看,哎,大约五秒后,他就发现了这个 book one 这个 excel 文件,然后开始这一个读取这个文件 速度还是要比呃,前几代是要快的,你看,它已经 pass 不 换啊,已经 identify 这些 numer, numeric field, 还有这一个 unit, 你 看 好,你看,已经是生成完毕了,总共用时四十秒,它就已经生成了这样的一个 matlab code 啊,生成了这样的一个 matlab code, 这个 code 的 名字叫做 plotbook one histogram, 我 们可以回来看一下。哎,你看,就在这里生成了, 对吧,就在这里生成了,因为这个扣子呢,也是呃,不大的,所以说也是很简单,那么我们在这里运行一下。 哎,你看,我们这边出了一个错, error using unable to final open 啊,这里的话,是我们的这一个 maclab 的 问题,我来给它改一下这样的一个文件,稍等一下, 好,这里的话,你看,我就自动的去生成了这样的一个 figure, 呃,二的话它是出现了六次,三四六八各出现了一次,那么我们回到我们刚才啊,输入了这个表格, 你看二一次,两次,三次,呃,四次,五次,六次啊,然后三四六八各出现了一次,对吧? 所以说啊,这一个读取还是没有问题的。然后这样的话,比如说,比如说我现在把这个八改成二,我们保存一下, 然后再给这一个,呃, codex 啊,给他一个指令,比如说, now, 呃, we've changed book one sheet can you regenerate a code for me。 然后我们继续来看它这一次要思考多久, 这一次应该是要比上一次我估计是要更快一些的。好, 那我们拭目以待呗。你看, i've regenerated the script, ok, 三十三秒搞定。三十三秒搞定的话,你看,呃,是这样的一个文件,这样的一个文件, 这样一个文件的话,你看他在这里可能就是已经做了更改了,那我们不知道,我们重新去打开一下这个文件,我们给他取消一下,然后重新跑一下。 哎,你看这一次二的频率就变成了七了,然后原来的八就不见了,说明我们的 my lab code 已经被它改过了。你看这是原先两个不同的一个脂肪图, 所以说我们通过这样的一个小例子啊,我们就可以看到现在的 codex 五点三啊,功能还是比较完善,性能也是比较强劲。好,那我们今天就测试到这,好,再见。

ai 编程界突发重磅消息, github 刚刚紧急叫停了最新版 gpt 五点三 codex 的 发布,这场技术升级突然踩下急刹车。就在周日, gitub 信心满满的宣布推出 openai 最新编程模型 gpt 五点三 codex, 声称其性能比前代提升百分之二十五。这款专为 copilot 高级用户打造的升级版本应在各大开发平台大显身手。然而推出仅数小时, github 就 在社交媒体发布紧急通告, 由于平台可信问题,立即暂停更新发布。这场技术升级背后是 ai 编程工具市场的白热化竞争。 open ai 独立发布的 codex 桌面应用首周下载量就突破百万大关, ceo 奥特曼亲自在社交平台公布这一惊人数据。 新版 gpt 五点三 codex 原本承诺带来革命性提升、更强的代码推理能力、更流畅的长时间工作流程, 支持面向专业开发者和企业用户开放。但技术狂欢戛然而止。 github 表示将全力解决平台稳定性问题,但未透露具体故障原因和恢复时间。与此同时, openai 正在调整 codex 的 免费政策, ceo 暗示未来可能降低免费用户的使用限额。这场技术竞赛中, anthropic 的 clock code 已实现十亿美元年收入, netflix 等巨头纷纷采用,而支持多 ai 提供商的 kilo c l i 等工具也在快速崛起。 github 这次紧急刹车,无疑给激烈的市场竞争增添了新的变数。 开发者们现在最关心的是这场技术升级何时能重新启动,平台稳定性问题能否快速解决,我们将持续关注试态发展。

昨天是人工智能领域的疯狂一天,因为我们有两个重磅模型发布,一个是 andropic 的 open 四点六,这是个非常令人印象深刻的 ai 模型,但很多人没注意到, open ai 悄悄想抢 andropic 的 风头,他们发布了一个强大的模型,这就很重要。我觉得这个模型更值得关注, 因为 openai 可能会东山再起。他们发布了 gpt 五点三 codex, 这是最强大的编码模型,不仅仅在写代码方面表现出色, 它更快,更智能,功能更强大。它是自动化的,能够处理长期运行的任务,更像是队友而非工具。它的速度大约快了百分之二十五,这是它非常适合复杂的 长期工作流程,包括研究工具的使用和多步骤执行。而在精准测试方面, gpt 五点三 codex 的 表现非同凡响,因为它设定了新的行业标准,这包括 swaybench pro 和终端精准测试。 这表明他在操作系统领域表现出色,以及其他记准测试中表现出色,展示了他在编码能力上的强劲表现。这是一种典型行为以及在现实世界中的表现。 你可能已经见过人们在这个平台上构建的一些惊人项目,例如 gpc 五点三 codex, 有人已经生成了一个完整的飞行模拟,这本是一个开发者需要几周时间才能手动完成的。这发生的原因是因为 gbt 五点三 codex 在 网络开发能力上有了显著提升, 将前端高级编码与更好的视觉效果相结合,这个模型现在可以更智能的构建 功能强大的游戏,同时这一切也能在短短几天内完成。你可以看到生成的内容,它们展示了这些内容在博客文章中, 或者它已经创建了一个完整的赛车游戏。在这种情况下,这是一个潜水游戏。这款游戏完全是由 codex 模型生成的。 如果想更快使用 ai 进行构建,我会分享工具和工作流程以及提示。下面的链接是详细说明,你可以完全免费订阅。此外,我还注意到 gpt 五点三的另一个特点是,这个模型能更好地理解你的意图, 并且能生成更完整的代码。例如,通过这个网站,它能够根据提示完全生成所有组建。 而与五点二版 codex 相比,它的生成效果差很多,质量水平不及五点三。而且不仅如此,这个新 codex 模型不仅限于编码,因为它支持整个软件开发过程,以及从调试到知识工作、生命周期的全程和部署,直到实际转写文档。根据这个提示,你可以 可以直接向您展示财务建议的焕灯片。它还能通过 word 输出培训文档。 就像云计算使用自己的 microsoft 工具套件一样,它也可以处理电子表格,并为您制作演示文稿。因此,您可以清楚地看到这两个模型之间的竞争。 andropic 的 云模型与 open ai 的 gpt 模型之间的竞争愈发激烈, 而 open ai 显然在努力应对。不管 open ai 现在声称要做什么, 该模型的运行成本降低了百分之二十五,并且使用的资源显著低于之前的扣贷五点二模型。这不仅使其更加高效, 同时也降低了运行成本。这是我们构建的真正意义所在,因为目前的定价是,每百万个输入字母一美元,七十五美分,每百万个输出字母十四美元,目前它的上下文窗口为四十万字。我注意到这个模型确实很不错, 目前只能通过 codex 应用访问,可以通过他们自己的网络应用用 check gpt 集成 codex, 也可以通过 codex 命令行界面进行集成, 或者通过 vs code 扩展。但现在 api 暂时不可用,这就是唯一的缺点。 openai 的 一位员工提到。专门负责 codex 应用的 openai 员工表示,他们正在开发适用于 windows 的 codex 应用, 所以如果你像我一样是 windows 用户,或者会有人可以访问它。这是我们的第一次测试,采用类似反恐精英的精准测试,它们将 g p c 五点三 codex 与新版本的 opus 四点六。这两个模型显然超越了所有之前的版本。 这一代中, codex 的 速度大约是前者的两倍。而 cloud 的 决策更加优化。在大多数提示下,两者的输出品质显著提升, 生成了更好的地图和枪械,且生成了更真实的角色。编码错误减少。眼下的重点已从基础编码转向游戏物理,而且逻辑更加广泛。这真的很惊人,因为我们即将达到一个重要时刻。在那个时刻,人工智能模型肯定会帮助许多开发者。 游戏开发者正通过人工智能模型编码他们的许多组建。但这很明显,模型依然存在一些怪癖,比如物理问题,奇怪的镜头视角和穿过障碍物的拍摄。 总体而言,两者都非常出色,而且确实很有趣,能实际可式化输出,这也是你可以实际参与的内容,特别是通过下面描述中的链接来进行即时多人游戏。 codex 更快, clock 在 决策上更聪明。这只是一个令人惊叹的提示,用来构建一个横版平台游戏。最终,他从一个提示写出了 ppt 代码, 同时使用相交方法生成精灵资产。他还考虑了不透明背景等局限,因此不需要你去参照工具。 codex 模型能够全面规划生成代码, 并将图像资产直接集成到游戏里。这使得繁琐的流程变成了一个可玩的游戏,这真是一项了不起的成就。在这里,他尝试创建一个完整的宝可梦游戏,我认为这实际上比 oppo 四点六升的还要好,这真是相当惊人。 这里增加了所有宝可梦游戏的功能,你可以与其他宝可梦对战,沿用剧情进行,并在地图上继续前进。 游戏最初的演示是由制作的名为天使的开发者在 twitter 上制作的。它还用 free gs 制作了一个完整的 minecraft 克隆,并且运行非常流畅。你会发现这是功能最强大的。 你可以进行动态移动,这让你能够模仿 minecraft 游戏的所有元素。 这真是令人震惊,简直难以置信。这样的模型可以为你生成完整的游戏。尤其在 svg 方面。这里展示了一个提壶骑自行车的动画,效果很棒,但输出代码质量显然无法与 郑 mini 相提并论。而在生成 vg 代码上,它也不如 opus 模型。 我个人觉得这个题事实在不怎么样。但实际上,在 x 上有一段对比视频展示了这两个模型的对比,它让用户猜测是哪个模型生成的,是在 openai 的 opus 四点六和新的 codex 模型之间。 让我感到意外的是,我以为你现在看到的这一代是由 codex 模型生成的,但其实这是错误的,是由 opax 四点六生成的,而你看到的第二代则是由 codex 模型生成的,而且结果让我惊讶的发现是对的, 因为我请求了起用思考的 opax 四点六,它生成了。这个登录页面其实还不错, 你可以看到用户界面依旧使用了不太美观的人工智能生成。你需要更深入一些才能获得更高质量的生成。通过调整排版、动画动态以及其他因素来提升整体图形用户界面的生成效果。 不过这是 opax 四点六生成的结果,而这是五点三能够生成的内容。它是 cortex 模型,而你可以看到它仍然有着 open ui 那 种不太美观的生成效果。看起来,我可能需要更好地给出提示。使用这两个模型可以为前端生成更好的效果, 但它们的质量仍然不如宝石迷你模型。如果您喜欢这个视频并希望您能支持我的频道, 可以考虑向我的频道捐款。通过下面的超级赞助选项,或者您可以加入我们的私人 discord 服务器。在这里,您可以每月免费访问多种 ai 工具订阅,还能获得每日 ai 新闻, 并提供独家内容和更多我的看法。式 gpc 五点三 codex 的 确是个杰出的模型,如果把它与向云开放这样的模型相比, 四点六他们在各自的使用场景中各有优势,而且基于各自的偏好。我认为 codex 是 一个快速而出色的模型, 适合用在交互式场景中,在工作流程中也能高效使用,但也可以结合其他应用场景。你也可以通过各种应用使用云模型。 我会用 codex 模型处理重型终端任务,这非常适合快速迭代。由于速度更快,它比 opus 模型要好得多, 而 opus 模型更多依赖推理,而 opus 模型在这方面的标记使用确实更慢,但这种模型更有深度和更深入的推理,也能进行长远规划。而这个一百万上下文窗口的加入 确实使得它更理想,适用于复杂的高风险项目。而 codex 则适合快速迭代,所以并没有明确的赢家取决于你的需求。选择 codex 来关注执行速度,或是选择 opus 来体现自主性与深度。 所以,请告诉我你们的真实想法。我想听听你们的意见,我想听听你们使用这两个模型的 发现,你们觉得怎么样?谢谢大家的观看,继续支持我们。记得订阅我们的第二个频道和新闻简报。请加入我们的 disco, 关注我的微博,记得点赞并开启通知,这样你就不会错过新视频。 请查看我们之前的视频,以便你能及时获取最新的 ai 消息。那么祝大家有美好的一天,保持积极,很快大家就会有新的惊喜!