最近听说 g l m 五已经有实力对标 opus 四点六合格五点三 codex 了,这可勾起了我的好奇心,于是我决定亲自测试一番。 我先准备好了一份关于在 westcode 与集成 codex 教程的素材文本,接着把这份文本上传到智普平台,让它生成 html 文件。没多久,文件生成完成,我满心期待地打开查看。嘿, 不得不说,生成的任楚页面样式还挺不错的,布局清晰,视觉效果也挺好。不过我很快就发现了问题,页面里居然没有图片,这可不行!于是我给智普明确提示,让他使用相对路径来处理图片, 能看到他显示正在思考,我心想应该没问题了。等再次生成完毕,我重新下载文件并打开,可结果却让我大爹眼镜页面里空空如也, 啥都没有。这就让人很疑惑了,不是说 g l m 五已经能对标 opus 四点六和五点三 codex 了吗?可这连一个简单的 html 生成任务都处理成这样,实在是有点让人失望啊!
粉丝176获赞592

几千台设备的生命周期管理,十二张数据库表的互相关联,完整的 r b a c 的 全员体系加发货单的审批流程。正常来说,这种企业系统呢,至少要三四个人搞一个多月。但是我刚看到智普刚刚发布了 g m l 五啊,说是开元界的第一个系统架构师的模型。行,那别客气了,咱就试一试。这里我用的是 c c switch 加 colossco 的 方式, 把 colossco 的 底座模型呢切换成了 g m l 五,直接把我整理好的这份 pl 文档呢丢给他,从零开始,看他到底能不能接得住。虽然是用 colossco 的 跑的跑的,但核心模块的逻辑呢,还是 g m 五输出的。 能看到,他先是把整个项目呢拆成了四个阶段,先搭什么,后搭什么,前后端怎么配合排的很清楚。这个规划质量和我之前用原生可拉的 office 做项目的体感呢是差不多的。然后呢,他就开始噼里啪啦干活了。首先是构建 spring boot 的 后端架构, 用户认证,设备档案批次管理,一个模块接一个模块往上加,后端搭完了呢,再构建 nexgs 的 前端,因为工程量确实不小啊,这一步他自己足足写了一个多小时。这个小时里呢,我没怎么管他,他自己呢,就在终端里跑, 先后端再前端,最后生成了出纸化数据库的脚本。用过 a g 的 写过代码的朋友都知道,这个节奏呢,是最考验模型脑子乱不乱的, g m 二五呢,全程逻辑在线,这一点呢,十分难得。前端写完了,最终运行的时候呢,报了个错,依赖版本冲突, 我让他看了一眼,这个报错信息呢,他改了个配置文件,重新安装了一遍就 ok 了,也就是说写了这么久,只修改了一次呢,他就能直接撞起来,想想啊,也是很厉害的。最后后端 spring boot 的 启动成功, api 返回正常数据,前端页面呢,也能正常跑起来。十二张关联表,完整的 r b a c 的 权限体系,发货单、审批状态机,这些呢,全都跑通了。 后面其实就和平时开发项目差不多了,遇到问题呢,就让他去定位修复,你会发现,这就跟一个靠谱的开发同事做极速编程啊,没什么区别。到这你可能会觉得这些不都是正常操作吗?对啊,这就是正常操作。但问题是呢,以前做到这些呢,只有可乐和 gpt 一个柜一个闭园,而且随时都有可能会被封号儿。 现在 gm 五作为一个开源的模型呢,也能做到这样的全载工程能力和这样的质量交付,实在是不容易。而且大家别忘了,从算力底座到上层架构,这可是跑在国产芯片万卡级群上的成本呢,那是绝对可控的。所以,这种能掌握在自己手里的生产力,你们不想去试试吗?

又是深夜发布,今天突然发现智浦开源了 glm 五大模型,没想到年前的开源大模型市场还会出来这个网站从前几天 cloud ops 四点六和 gbt 五点三 codex 的 发布可以看得出来,二零二六年商业大模型趋势将从能写代码升级成能构建生产机系统, 没想到的是开源大模型这么快就跟上了,熬夜测试了几个小时,本期视频我们就来看看 glm 五都有哪些亮点,以及都能做些什么事情。 二零二五年使用大模型编程的过程中,我发现虽然 ai 已经可以做出一个个很好看的前端页面了,但是真的让他去做一个生产能用的系统或者是一个庞大的任务,经常写着写着 ai 自己就圆不回来了。 但这次 glm 五真正能做出生产可用而不是单纯好看的系统,并且遇到复杂系统需求会自己拆解,可以长达数小时的不断自动运行完成这个系统不会出现越写偏离越大的情况。我直接拿两个案例来演示一下,工具用的依旧是 copy code 用的是质朴官方这个 model 的 key 配置文件的话,其他都和之前保持一致, 模型替换成 glm 五即可。很多公司应该都有自己内部的企业级后端脚手架,不仅能统一开发规范,并且开发只需要引入对应的依赖和无需关注各种中间件的配置细节就能直接使用。 我之前写过 glm 五来生成 glm 二十一加 spring boot 三的企业级后端脚手架,编辑提示词开始执行,可以看到这次 glm 五在分析完任务之后,会以对话的形式来询问生成项目的细节问题, 宇宙包含哪些模块的 start 给了多个选择,接着询问项目的认证框架,最后确定报名的生成规范,等这些全部完成之后,就开始任务的拆解。 glm 五将脚手架拆分成了十四个大的模块,制定了十五项具体的实施步骤以及最终的验证方式,没问题之后,就开始让 glm 五开始构建系统了。 glm 五这次针对多阶段长步骤的复杂任务的优化做得太好了,整整十五个模块,花了一个多小时全部生成完成。整个过程不需要人去做额外的辅助工作。 除了代码生成之外,当在验证过程中遇到翻译失败的情况,它会自动分析日制,不断修复代码并重复验证,直到全部跑通。我们可以来看看最后的脚手架项目,所有的 start 按模块划分,比如 base 模块定义了统一的异常,统一返回信息, log 模块引入至框架搞定日制生成规范,做好 trace id 生成逻辑以及日制切面等配置。同理,像 mybatics 统一配置 radix mq 的 配置都做成了 start, 要使用直接引入对应的依赖即可,这是真的能很好的用起来的项目了。 接下来再做个全站的业务系统,做一个支持高频发的购票系统,能支持秒杀业务的场景。这次让他把前后端的项目全都生成,前端使用 vivo, 后端使用 jdk 二十一加 spring boot 三。 这里有个比较有意思的点,一开始我在提示词中将 jdk 二十一写错成 jdk 八了, jmm 在 分析需求的时候就发现了这个问题,并给了我几组匹配的 jdk 和 spring boot 的 版本。 手动调整之后, glm 五给出了十分详细的技术报告。整体的代码生成过程还是和之前一样,不需要人去做额外的操作就可以生成出完整真正可用的代码。现在前后端代码就生成完成了,我们来看一下。 先看一下后端代码,秒杀业务的逻辑写的十分严谨,其中高密发解决方案中包含了多级缓存、库存预扣、业务下单、分布式锁结果限流、动态余额等方案。前端页面是一个包含购票和秒杀的 h 五系统,我们来参与一下。秒杀 手速快,直接抢到票。智普在官方公告中提到了国产芯片万卡集训这个概念,意味着这次 gm 不 仅模型能力强, gpu 底座也是国产自己的。 去年过年来了个 deepsea, 今年过年来了个 gm 五,不知道二零二六年大模型究竟能发展到什么地步啊?以上就是本期视频的全部内容了,我是鱼仔,我们下期再见。

这临近过年,我们的国产模型真的太猛了。前面我做过两期视频,用同样的 prom, 同样的真实项目任务实测,对比了 cloud office 四点六, gpt 五点三、 codex mini max 二点五。 那期视频做完之后,评论区就有人让我测试一下质朴新发布的模型 gom 五,咱也是加班加点的干出来了,而且据可靠消息,过两天还有 deepsea 微视版本的发布,到时候也给大家带来一期真实项目的一个编程实测。 求一个一箭三连不过分吧?在这里要插播一下,当我准备去测 gm 五的时候,我去官网去订阅它的 cooling plan, 直接受庆了,就我的套餐买不到。哇,那如果按 ipa 计费的,我目前也没有找到。他们可以用 insulate 的 一个协议来测试 gm 五, 所以我就用了 ppl 他 们家的去测试,他们是非官方首发部署的 gm 五,一个开源模型的一个权重,那兼容安斯罗比的一个协议接到可拉扣的里面也非常方便,因为我之前的评测的话,都是用可拉扣的去做的嘛。所以说为了保证公平公正,我们也是用同样的 工具方的编程任务去做实测。好,我们先去创建个 api k, 这里我就写 gm 五 确认,点击复制好,我们开始进入真实项目的一个编程实测环节,也是同样的 prompt。 哈,那第一个任务的话,是把 我们另外一个项目里面完整的一个用户认证体系,包括邮箱、谷歌认证登录、 github 登录迁移到我有一个新的图片生成 a 级的项目里面,同时让它去做一个落地页, 需要考验它的一个代码理解能力,架构适配能力,一个工程规范。这个任务还算比较复杂,之前用 mini max m 二点五去测的时候,它花了三轮对话才完成的,那 op 四点六跟 gpt 五点三 colex 的 话,它们一轮对话就完成了。 那第二个任务的话是我本地有一个 skills agent, 它是一个终端 ui 交互的,我们把它做成一个外部聊天页面,让它保留 syncing 工具,调用流逝输出。这个任务主要考验它全站开发, 流势输出以及 u i u x 的 一个交互能力。之前测试的话, off 四点六跟 g p d 五点三 codex 他 们一人赢了一局,那下面我们就开始做 g o m 五的一个测试。 这两个项目现在都是开启了一个沙杯进者的模式去探索已有的代码。那右边的话,它弹出来一个让我选择想用的框架以及 u i 主键库,我就按我一个常用的方式去选好,它提示已经成功了。 好,我们打开了他给我们写的这个 y y, 哈,他把这个 skills 是 放在右边的,就展示我已有的一些项目,来测试一下它可用吗? 好,我们开始让他去总结这篇文章,看一下他有没有去做到加载这个 skills, 然后加载完了之后去执行一些脚本去做爬虫,然后再去做总结。可以看到这边他已经加载到这一个 skills 了,下面去执行一些命令 总结出来了哈。整体的话完成度还可以的,就是他这个 ui 上稍微会差一点点,相较于那个 gbt 五点三 codex 的 话,这个完成的没有 gbt 的 好。 左边这个窗口就是 cloud off 四点六写的,这个 ui 上确实会差一些。右边的话是 gbt 五点三 codex 写的,当时我是把票投给了他,那么同时去可以看一下刚刚那个任务,他们俩其实都没什么太大问题,不是特别难,后端也就 thinking, 然后做工具调用, 可以看到都是 ok 的, 没有什么太大的问题。好,下面我们去看一下那一个纹身图 agent 用户认证体系那块它完成的怎么样了? 可以看到它这个已经完成了哈,可以看到这个代码它已经写完了,我们先看它能不能一次性去启动,之前 mini max m 二点五这一块是没有做到一次性启动,我们先开新开一个窗口去测一下。好,我们可以看到 g m 五的话,它目前启动是没有什么问题啊,我们再看一下它实际的一个表现, 我们看一下它整个 ui 表现哈, ui 还行,那我们看它的那个认证功能可不可以用。我们先试谷歌登录,谷歌登录的话,它这块放了一个小 bug 啊,它把那个毁掉的端口弄错了,我们改一下。好,我们继续。 好吧,登录失败了,这边还是有些问题,你看到它登录的时候认证失败了,应该是数据库的表结构那块有点问题,从这么看的话, gbt 五点三 codex 跟 op 四点六还是要猛一些哈,就是它们没有这些问题。 好,我们再来选择谷歌登录,刚让它修复了一下, 好,他终于可以了。哎,有个问题,他登录成功之后没有回,没有进到我们的那个主页面,登录成功之后没有进到我们 agent 里面, 这个算第二轮对话吧,看他第二轮对话能不能搞定好,我们点击登录选择谷歌, 他还是没有修复成功,他还是要再刷新一下,看没有再刷新一下,进来再给他描述一下吧。现在还有个小问题,当我们认证之后,他先跳转了到首页,我再刷新页面,他才进到了 a 镜的里面。 在他这是第三轮了,就证明他在这个方面其实跟 mini max m 二点五差不太多,他们俩再点登录。 我靠,跟这个问题杠上了,他还是修复不了啊,还是有问题,你能不能好好深入去修改一下,去思考一下。 这是我们第四次对话,让他去修改这一个小问题哈,这个表现呢,就有一点不是特别好了,我们再来,如果他再再进不去,我就不撤了,这个就默认他四轮吧。 好,我放弃了。这个问题我不测了,他修他,我跟他一直对话,他修不了。我们之前测 gbt 五点三跟 colorof 四都是一轮。 ok, 我 们下面来看一下评分,整体的一个打分标准是第一个,我人为的去检测他们的一个功能完整性以及 ui 的 一些情况。那代码架构,工程规范,我都是把他们所有的代码给到 gbt 五点三, codeof 四点六,让他们分别去 review, 然后去打分。 它现在结果是这样子的, off 四点六,在第一个项目用户认证里面,它是表现最好的,它在功能完整度以及 ui 落地上是表现的比较好,并且是一轮就完成任务了。但是它的代码架构跟工程规范会有一些小问题, gpt 五点三扣贷 x 的 话,它的代码架构以及工程规范会比它好,而且是这四个模型里面最好的。那它的功能完整度呢?因为它漏了一个谷歌登录的一个前端,所以说这个评分稍微低一点,那它 ui 落地页的话也会稍差一些。 上一期视频测试 mini max m 二点五这一边的话,他是花了三轮对话去完成了这个任务。那智普这边的话,刚刚你也看到了,其实四轮对话完下来之后,他还有一些小问题,所以说评分的话,他俩其实差不太多吧,我个人感觉哈, 我们来看第二个,把这个 skills agent 做成一个外部 ui, 那 这个项目的话就是 gpt 五点三 codex, 它在业务完成上逻辑错误控制以及 ui 代码质量工程实现都是最好的。那剩下这三个的话,大家表现的都差不多吧,大家有优势的地方也有他劣势的地方。 好,下面我们开始进入 agent 的 实测环节,把 gm 五模型接入到我这一个真实的一个 agent 的 项目里面去,它是做自媒体视频拆解的, 主要需要去看他的一个速度,拆解深度以及表达一个真实感。那整个 a 型的工作内容的话,就是先去下载视频,做音频提取,转文字,然后去做内容的结构化分析,爆款元素的提取,最终输出一个拆解报告。好,我们下面开始吧。好,右边也完了, 我们来简单看一下哈,他们两边格式上会有一些差异。在拆解上我们看他这个结构拆解这块,他这个时间出其实是有问题的,他做的不对,因为我这个是十二分钟的,他是做了 十四分钟到十五分钟,那 g m 五这边的话,它也有讲一个时间戳吧。啊对,你看它有二十分钟,还有三十到三十五分钟都来了,所以说我感觉它在整个 a 帧的表现里面不是特别好啊,它这个拆解的深度也不太够,我感觉相较于昨天我测那个 mini max m 二点五的话会稍微差一些。 好,我们下面总结一下。把 gm 五接到这一个自媒体视频拆解的 a 帧里面,它的一个表现情况哈,整体上的话速度偏慢,就响应速度不算快,可能跟当前用户量大有关系,因为都知道它这个套餐都卖的受庆了。第二个的话,它的拆解深度的话相较于 mini max m 二点五会有一些稍稍不足。 第三个的话,它的一个真实感稍微偏弱一些啊,这是整体的一个表现情况。好,下面我们进入整个的一个总结环节,在编程方面的话,一句话,在我的这一个测试项目里面, gbt 五点三 codex 表现最好,比 off 四点六会好一些。 glm 五跟 mini max 它们的体感接近,都是开源的嘛,并且它们的成本非常低,所以说 对于一个高性价比的一些开发任务的话,我觉得这两模型都非常不错。好,这就是这一期视频的所有内容了,如果你觉得这期视频做的不错,一定记得给我一键三连哦。那下一期视频的话大概率是做 deepsea 微四,有可能是在过年那一天发布,我猜测哈,据可靠消息。好,那视频就到这里了,大家拜拜拜拜拜拜拜拜。

今天这期视频我们只讲一件事,就是普通人怎么用 codex 开发一个小项目,并且部署上线。很多人可能一听到 code 代码就会产生畏难情绪,但你肯定听说过之前的 open cloud, 很 简单,在手机上给他发个信息,他全自动的就给你干完了,但是他贵啊,帮你发一个小红书就可能花你几块钱, 更别说开发一个工具了。但是 codex 作为 ai, 一个 open ai 的 出品,不但可以像 open cloud 一 样帮你完成几乎任何事情, 而且赠送的免费额度就能满足日常所需,如果你是会员,那更是用不完了。更重要的是,学会这种最顶级的 ai 工具,你就具备了做任何产品的能力。这期视频是 codex 的 入门视频, 我会带你从零上手,从怎么安装 codex, 怎么启动 codex, 如何与 codex 对 话,然后我会带着大家从零开始构建一个电影评分网站,并且部署上线。注意啊,就算你完全不懂开发也没关系,这期视频就是为你准备的。 我们开始首先在开始菜单中搜索 cmd, 打开命令行,这是我们与电脑和 codex 沟通的窗口,我们所有的对话都会在这里完成。与此同时呢,我们需要打开一个 check gpt 的 窗口,因为我们都是新手嘛,怎么用这个命令行都需要让 gpt 来告诉我们。 第一个问题,如何在命令行中安装 codex。 他 告诉我,首先确保安装了 node 点 gs, 我 这里已经安装了,如果没有,你可以让他告诉你怎么去安装,这里就略过了。第二步,复制他给我的安装命令,然后 ctrl 加 v 复制到命令行中, 命令行没有报错就说明安装完成了。在命令行中输入 codex, 如果能打开这个界面,就说明我们成功启动了 codex。 第一步,登录 codex 通常都会选择第一个,通过网页端完成登录,登录后回到命令行页面, 点击回车。继续我给大家讲一下最基础的配置。首先点击键盘上的这个斜杠,你可以看到 codex 的 一些基础配置项就出来了,比较重要的是模型选择和权限设置,模型我一般都会选择最新的思考时长,选择 extra high, 这样生成的质量最高。 第二个 permission, 我 选的是 full access, 所有的权限都交给 codex, 不 然它在执行任务中会一直让你去授权,很麻烦。当然这样也是有风险的,有比较小的概率它会删除你的文件,网上就有人遇到过,但是我目前还没有啊。 接下来我们就正式的来做这个电影评分网站,真的超级简单。首先我们创建一个文件夹,作为整个项目的根目录,然后我们要让 codex 进入我们这个项目,怎么操作呢?回到命令行,连续按两下 ctrl 加 c, 退出 codex, 然后复制我们这个项目的地址,打开 gpt, 问他如何让命令行进入这个地址,按照 gpt 的 指示进入后呢? 输入 codex, 这样就在电影打分的这个项目中打开 codex 了。每次重启 codex 后啊,都需要重新设置一下权限,改成 full access。 接着很关键的一步,执行一次启动命令斜杠 i n i t。 执行完毕后,它会在项目下生成一个 agent 点 m d 的 文件,这是 codex 的 一套默认行为规范手册,它会根据文件中的行为规范来完成你的具体任务。 后续你玩熟了,就可以按照自己的要求来修改这个文件了。现在呢,咱们暂时不管它,然后我们就可以来描述具体的需求了。我是这样写的, 由于豆瓣网站的电影评分已经严重失真,我打算做一个新的电影评分网站,基本实现电影的评分和评论功能。你需要完成整个项目的完整开发,并且部署上线。 你需要自动抓取豆瓣上正在上映的电影自动更新。这是一个完整的项目,你负责完整流程,最终交付给我。部署后的网址,你可以利用相关的部署 skill 来帮助你完成。如果没有这些 skill, 你 可以自己去网上搜下载下来用回车发送。 你看,他已经开始自己执行了。突然我想起来忘了跟他说一句话,按一下键盘左上角的暂停键,然后我跟他说,在交付前用肉眼检查一下,没有问题再交付给我, 这样他就会自己用浏览器打开看一下,确保没什么问题。接着他执行了大概二十分钟,最终你看他给我交付了上线的地址,后面简要说了一下他具体交付的内容,我们立刻把这个网址打开,看看效果咋样。 嗯,整体感觉还行,春节档的这几部电影也都在,不过很多图片没有加载出来,界面呢,也不怎么好看。这就是后续你需要不断地跟 codax 沟通来优化迭代的了,包括你后续想用自己的域名,也可以通过跟 codax 沟通来帮你实现。 好了,这期 codex 小 白教学就到这里了,其实还有很多使用的细节技巧,我没有涉及到,你都可以直接通过 codex 或者和 gpt 聊天快速掌握,赶快用起来吧!我是阿猪,关注我,让我们一起在 ai 潮头冲浪!

g i n 五它来了! 在二月头想必大家都被 call up 四点六和 g p 五点三这两款模型给刷屏了。你有没有发现,现在的 ai 编程模型都在强调长任务,都在强调自己的 agent 和解决复杂问题的能力,而没有在强调前端能够做的多么多么好看?而在这之后, openroot 又出现了个神秘模型 pony, 在平台上搜索第一,它的编程推理、角色扮演方面都非常出色。嗯,而外国友人都在猜啊,这个模型到底是哪家公司的?在猜是不是 sonnet 五?有的网友在想,小马 使用生肖命名的是不是中国模型,而在猜是不是 dc, 是 不是 gln 五,没错,它就是国产的智普。 gln 五也是终于终于上线了,它现在也是主打长任务,超长的执行任务链, 它能够像架构师一样自主拆解复杂的系统级需求,并在长达数小时的多阶段任务中保持清晰的上下文一致和目标一致性。而现在后端同学也不用担心,现在的 ai 编程代码都是重前端了,主要我特别擅长后端架构设计,具备强大的自我反思与纠错机制,能通过分析日制定位根因并迭代修复 实质问题解决。它在代码逻辑精细度和逻辑处理能力方面直接对标 qd 四点五,并且依然开元且便宜一大碗。我准备了三个案例场景,带大家一起沉浸式体验一下。首先第一个游戏场景,我 让九幺幺五做了一个编程逻辑迷宫,游戏用户需要规划中间的小人经过迷宫的行进路径,在左侧选择对应的行动程序块, 准备完之后,点击开始小人成功走出迷宫,则进入下一关,否则会给出失败的提示。这是我们的 pro, 而这是我用官方 agent 执行的步骤。这个游戏的 pro 呢,首先是想考验 g n 五是否能够自主拆解系统及需求和选择技术栈,比如将游戏清晰地划分成 u i u x、 游戏逻辑等模块,并且定义所有的交互接口和代码封装。我们来看一下它的思考过程。我们首先看到它对 pro 的 理解能力还是很好的, 核心玩法、视觉设计、交互功能、难度系统等都进行了一个前置的调研和总结。下面就是正常的思考过程,他说他应该使用前端样式专家 a 准来辅助设计,还需要全站开发人员 a 准来进行实现。可以看出在复杂场景下,他会自己寻找代理的工具进行规划和执行, 对于迷宫深层路径规划,用它的后端深度调试与复杂算法实现能力进行处理。最后就是列出来的图度,一步步执行整个游戏大概他不断反思,不断调试,不断进行功能迭代,持续的进行二十多分钟吧,这个速度我觉得也是非常正常的, 用这种深度的思考和编码就是要花很多的时间,反而一下子就完成的那种编码是很容易出问题的。最后这个游戏的完成度我个人感觉也是非常棒的。当然我也看到网友们的一些案例,比如这种小人跑酷的赛博朋克风格游戏, 翻牌子消消乐游戏,想象力也是很丰富了,这让 gl 五的复杂逻辑处理能力完完全全地表现出来了。第二个,三 d 渲染,我看到网友的一个 case, 非常惊艳,这是一个程序生成的三 d 行星模型,可以生成随机地形, 也可以自由改变行星的地形粗糙度、海平面高度、旋转速度,并且可以调整阴影模式,还支持昼夜循环效果和大气渲染。这效果我第一次看到的时候真的是太震撼了。我本以为它是经历过很多次的人工与 ai 迭代对话而成, 但是我看了一下它整个的 a j pro, 居然只是一个 pro 加 g r n 五的一次对话就完成了。虽然这个 pro 很 长很多细节,但是你敢信这是一个没有经历过二次迭代的产品吗? 我们来看一下它的思考过程,它是真的很有规划,而且在技术方面列的清清楚楚,比如要用什么技术站,首先需要实现什么,再实现什么,然后地形深沉、着色模式,昼夜循环分别都列出来应该要怎么实现。而最终也是依旧列出了个图度,去一步步完善,不断地自我纠错反思后给出完美的答卷。 太离谱了!因为我比较少接触三 d 的 内容,但是如果你让我去做这个东西,我估计没个三四天完全做不出来。而用 gl 五生成的用时肯定是少了很多很多,而且在这么短的时间内完成这么多复杂的逻辑交互,并且完成度还这么高, 是真的强。第三,网页布局。以上两个都是重逻辑的势力,接下来我看看喜闻乐见的前端方面有没有进步呢?其实这方面我给大家展示几个网友的案例就清楚了。第一个,这是一个现代感十足的个人 vlog 作品级调 搭配暖珊瑚色与电光青绿色点缀。在 hero 区域,它增加了照点粒子动画效果,每个文章区域都有独特的动态界面背景,并且下面还有非常炫酷的动态视觉动画,这效果你就看吧,一看一个不吱声,真的太顶了。第二个是一个 landing page, 在设计方面,它采用了暖灰色作为主背景色,在 yellow 区域还有一些动态漂浮的尘埃粒子,在下面以淡暖橙色作为点缀,随着页面的滚动,布局的内容也会有渐显的效果。整个页面非常的简洁现代,不管是段落的间距还是模块的排版,都很是漂亮优雅。太优雅了, 这句幺幺五的 ui 效果又进化了。我知道现在还是很多人对国产的 ai 持保留态度,心里更加认可国外的技术, 这种想法完全可以理解,毕竟在过去很长一段时间里,我们在基础软件和底层算法上确实存在差距。但是我想说的是,这种认知认可可能已经需要更新了。从去年过年的 deepsea 到现在一直在持续更新的 g l n, 包括我自己,已经出了很多关于 g l n 相关的视频。 从 g l n 以前的自然语言理解基作模型,再到 g l n 四系列的具备自主工具调用的全能模型,再到现在能够处理超长任务且复杂需求的 g l n 五, 我们可以清晰地看到,国产 ai 已经找到自己的节奏和方向了,我们正在形成这样的自信和能力,我是真的挺自豪的。好了,以上就是视频的所有内容,如果觉得有帮助的话帮忙点个赞,我是小卢,我们下次再见,拜拜!

大家好,今天跟大家分享一下我这几天使用 windows codex 桌面端的一些体验和感受。我先把结论放在这里,我觉得这是一个非常有趣的应用,如果你正在使用 ai 进行 web coding 的 话,我强烈推荐你去试一试, 我觉得它弥补了 web coding 生态里面一个非常有趣的空白点。虽然这个事情见仁见智,但是我会推荐你去尝试一下,因为说不定你会发现它很对你的胃口,或者你会跟我有一个类似的一些感受和想法。 呃,首先呢,怎么得到这个 codex windows 桌面端呢?其实在三月四号的时候,也就是前天,呃, open i 已经给出了 codex windows 版的正式版,不过要注意的是,你必须在微软商店里面下载这个软件,你不能在这个浏览器里面去下 载,所以对于国内的用户来说,这个微软商店的连接可能会构成一个问题,这个需要具体去解决一下, 那么在下载完之后就来到这样一个界面了。呃,首先我要说的是,我不会介绍太多技术面的东西,比方说 gittree, 比方说这个 mcp skills, 自动化,这些东西我不会展开去讲,我主要是谈一谈我对它的一些定位和理解。 那么我当时在第一时间下载完这个东西,打开之后我是懵的,因为我在问我的 coding 界面哪去了?我的代码在哪? 我一开始以为这个东西是一个跟 antigravity 类似的东西,就是 antigravity, 其实就是一个,呃,把谷歌自家的 ai 嵌进了 ide 里面的这个这样一个东西,它的这个整个对环境的控制能力,对这个工具的调用能力,确实比 用 vs code 的, 然后用别家的呃,这个插件会更强一点,但是本质上它还是一个 ide, 所以 在下载这个 codex 之前,我会以为它也是一个 ide, 当时就是抱着一个尝试的心态去的,结果打开之后就发现完全没有 ide 的 影子,完全没有代码的影子。 我就去读了一下 openai 的 官方文档,又去看了一下很多博主已经公开的在 mac 上面的一些评测视频,我在仔细研究了一下之后,就发现这个东西其实是一个 ai 项目管理器, 就是在这个东西的左侧,你会看到有一个你的项目列表,你在这个地方是可以添加非常多项目的,你只需要把你对应的这个项目的文件夹给到他就可以了啊,我随便添加一个都可以啊。然后呢,你可以在这个里面去进行一个跟 ai 的 沟通, 随后如果你想看代码怎么办?在这个右上角,你可以用很多种不同的方式去看代码,比如说使用 cs code, 你就可以打开这个代码。那么这个时候有的人就要问了啊,我当时也有这个疑问,那 open ai 做这个东西是干嘛呢?对吧?它既然我在 vs code 里面,你可以看到我是有 codex 的 插件的,我可以在这里面直接沟通。我为什么需要一个单独的软件来直接跟 ai 沟通,而且还看不到代码呢?啊? 我稍微用了使用了两天,把我的一两个项目放进了这个里面跑了跑,我就发现这个是一个非常聪明的而且有趣的设计,就是在没有 ai web coding 这个概念之前, 我们是没有必要做一个项目管理器的,因为你只需要把你所有的项目放在一个文件夹里面,然后你开很多 vs code 的 窗口去写代码就可以了。就是写代码的重点永远在 coding 上,而不是在对这么多项目的管理上。你只要把它放到文件夹里就可以了 啊。对每一个单独的项目,你单独使用 get 就 可以了,对吧?不需要别的工具。但是现在情况不一样,现在很多时候我们写代码 可能一个小时的拷定时间里面有四十分钟都是 ai 在 思考, ai 在 写代码。如果说 我还需要面对着一个传统的 ide, 需要花大量的精力和这种注意力在代码这个事上,然后我的 ai 的 插件挤在旁边,会觉得有一点点的主次失调。即使在 vs code 里面,你是可以通过调整这个布局,把这个代码缩的小一点,然后把这个插件放到一个更主体的位置上。但是你如果想进行多个项目的话,你终究是需要开很多个窗口的。 在以前你想同时写多个项目的代码,这是一件几乎不可能的事情,因为你所有的注意力都要放在代码上。你不可能说我先写一会这个代码,点击运行,然后又去思考另一个代码,这个人脑是很难接受这样的 呃强度的劳动的,但是 ai 可以。 所以现在对于这样一个管理器来说,你只需要在左边把你所有的项目放进来,每一个项目可以同时调用 codex, 同时并发地去进行操作。你就有点像什么。我打一个比方啊,你是一个很厉害的产品经理, 你手底下同时管着四五个项目,然后你这个时候开了一个微信聊天窗口,这里面有五个人都在跟你聊天,你只需要跟他们不断地提需求,提反馈就可以了,你不需要去一直盯着每个人代码, 当然了,我们有的时候仍然是要 review 代码的,仍然是要去做一些手动的调整的,那这个时候你再调映,调出相应的这个 vs code 或者是别的什么工具的界面再去做,那就可以了。 那么我本来呢是有一块负屏的,我为了方便演示就没有打开它,你如果有一块负屏的话,你就把 vs code 的 界面,把别的 ide 的 界面放到负屏上,你的主屏幕永远就是这样一个项目管理器。 我们来具体看一下,在 codex 这个桌面端的应用里面到底保留了什么,到底有什么,我们才能更好的理解。呃,它的定位就首先第一你会看到 ok, 它有一个项目列表,然后在每一个项目下面是你跟它进行多轮的这种对话。好, 然后呢,在这里你可以使用这个别的 id 去查看代码,然后在这里它有一个 get 的 操作,就是如果你这个项目还没有 get, 你 可以在这里,呃,如果没有 get, 比如说我们换一个,你会在这里有一个创建 get 存储库,然后在这儿就会出现一个 get 相关的东西,就是 vs code 上面的 get 的 插件已经够简单了,但是甚至还是没有它简单。然后呢,包括这个 get 界面,你会发现这个界面现在变成了项目 跟 ai 的 沟通以及 get, 它完完全全地去掉了所有,比如说断点、 debug, 呃环境的这些东西,什么这些东西很多都都没有了,我们只保留了作为一个项目本身最需要的东西。当然还有一个东西是终端,因为你需要终端去对写好的代码进行一个运行调试或者是之类的, 就是它完完全全是以一个项目的视角去看一个代码工作,代码本身是交给 ai 去处理的,我们只需要进行项目管理、版本管理,跟 ai 的 沟通, 我们现在再打开它这个设置界面来看一下,就更理解这个事儿,你会发现它包括怎么打开这个代码文件,然后你的环境是什么?然后关于这个在跟 codex 沟通的过程里面呃它的一些基本的行为, 然后呢你可以呃改变它的语气, m c p, 然后 get, 然后还有就是这个环境我觉得是非常有趣的, 就是在之前在本地运行的时候, ai 都会遇到一个问题,就是对环境的处理是比较差的,然后在这个地方他显示的把环境这个问题给你解决了,就是你可以告诉他该怎么样来访问你正在运行这个项目的环境啊?这个我觉得是超级有用的一个东西,所以就是总体来讲,你 回到这样一个项目的界面,你就会发现非常的干净,非常的清爽。如果说 ai 如果他真的可以完成大部分代码构建,我现在目前对 codex 五点三 extra high 的 这个体验的话,呃可能最多十次, 呃沟通你需要亲自看一次代码,大部分时候我可能二三十次沟通都不需要看,他就可以给到我一个非常好非常好的结果啊,所以我觉得他真的是非常非常有趣的。 我其实也不认为这是一个非常必要的东西,但是当你真的在多个项目并行开发的时候使用这个东西,你会感觉到你变得更加的轻松,你变得更加的专注,而且你的 呃就是你整个工作的流程会让你感觉非常的流畅而舒适,我个人是这样感觉的。 当然了,这个事情完全是见仁见智的,有的人会认为对于高手来说是根本不需要这种 g u i 图形界面的高手都用命令行啊。也有人会认为对小白来说他又太过于复杂了,毕竟你还是得知道终端,还是得知道 get 等等这些东西。但是我觉得 起码对于我这样的用户来讲,我很乐意使用图形界面,我也非常乐意使用 ai 进行多步的开发,所以我觉得 它是有一定的可取之处的。它填补了一个从人的需求到 web coding, coding 本身的空白,就是从人到 coding 中间还有一个 web, 这个 web coding 的 这个 web 的 这个部分其实之前没有被单独拎出来去讨论成一个单独的软件或者工具,但是现在 codex 其实就是这个定位,它填补了中间这个链条上的这个空白 啊。不管你认为他是不是有用的呃,我都推荐你还没有尝试的人去尝试一下,我呢,也不敢说他一定就是正确的。这个生态链上的答案可能过几个月,过半年、一年之后我们才能看到市场对他真正的一些反应。不过目前来说,我觉得他是一个非常值得尝试的工具, 所以如果说,呃,你看到我的这个视频,然后还没有下载他的话,我非常推荐你去尝试一下。

六个国产的 ai 模型,加上一个国外的顶尖 cloud 作为对照组啊,同一个项目,同一套提示词,从零开始,写完一个完整的前后段应用, 整个过程全部自费,没有任何广告。最终排名如下,测试环境我们统一有 openroot, 按照模型名称区分了项目文件夹,同一台服务器,同一套提示词。因为之前我家的小猫去世了,然后我做了一个视频,也收到了很多的暖心的评论,他们都提到了一句话,就是我们家的猫猫会和多金一起快乐的生活在天堂里的。 这个就是我做这个项目的初衷啊,其实就是想给一些啊去世的小猫打造一个赛博乐园,然后其实不是很复杂,就像当时我们玩那个 呃旅行青蛙一样,就放置,然后纯挂机,他们自己会有一些活动,但这个提示词你看其实写的也还挺细, 总的来说算是一个比较综合的项目。我的测评思路是这样,第一轮我们先来 one shot, 就是 说看一遍跑完之后这个模型能跑到什么程度,之后我会根据他们第一轮的表现去继续修改, 这时候提示词确实就不一样了,因为我要根据他们现有的情况去说嘛。这一轮其实是说我想去挖一下这些模型的能力上限大概能到哪里。提示词发出去,六个模型同时开跑,先说速度, step 三点五 flash, 它起手就是一百三十 tokens 每秒,这个快到离谱, 但是啊,它过程中会反复的去复读,而且中间直接中断了三次,我都得手动去输入继续它才能够继续跑,这个就真的很要命了,所以导致它的总时长其实比别家还要更长一点。现在二点零千瓦,三点五, kimi, mini max, 它们基本上都稳在四十左右,第一轮的总时长也就是七到九分钟, 只有智普的 glm 五是最慢的,我都是官方 max 的 订阅了,它的起步就只有十三到十五,后面稳住也只有三十,那它的第一轮总耗时有十八分钟,那总的完成时间我们就先摆到这里。这个第一轮我心目中及格的标准就是啊,前端它能够正常,现然, 哎,在画面具体怎么样先不说后端的话,它的登录然后穿图啊,各项功能都正常,这是一个最基本的。 接下来我们来看它们具体的结果。先锋三点五的一个 bug 就是 你在登录之后,它很快还需要你再登录它前端的猫其实还意外的挺可爱的,但是这个视角跟随是用不了的。 c 的 二点零的后端倒没什么问题啊,但它的前端是一直在闪, mini max 的 前端他第一次直接渲染不出来,而且呢,我的提置词里面是已经明确要求了上传照片是必选项,而且还需要做删除的功能,他呢,就直接没做 seven 三点五 flash, 说实话,他在跑的过程中不是频繁的复读吗?就这个事让我实在是对他没有什么信心。 结果呢,在注册登录上以后,上面呢,还有一个这么大的登录框,在上传照片确实是必选项,但这个功能他就用不了,导致我就没法送冒进去,也测不了。前端 kimi 的 k 二幺五,它作为一个大参数模型啊,它的前端能力确实曾经震撼到我,我是真的盼着它能给我个惊喜,结果它的前端就直接没渲染出来,而且我添加一只猫进去,跟随视角那里会直接 bug 成三只,那就只剩我们的质谱了。第一轮的前端,它的地面是在抽搐的, 猫的形象也是有点抽象啊,但是说实话,我觉得它的功能上是唯一一个及格的。所以总的来说,第一轮啊,我印象比较好的其实是千万三点五跟智普 gm 五就是千万,确实是有一个恶性 bug, 但是它的前端还挺好看的,在我这里是加一些分的, 然后智普就是中规中矩,他没有什么错。接下来就是各自去修自己 bug 的 环节了啊。这个过程其实你会对它们模型的能力会有一个很主观的感受, 因为就是你提一个需求,然后他反反复复改不完,那你也没有什么心情去给他再提修改意见了。其实几乎每个模型我都给了两三轮的迭代机会,那我也去直接拉一个表格给大家看,结果大家看着,顺便我搁这解释一下, 千万三加五在过程中出现了一次大翻车,他是把之前好好的前端改的无法渲染了,虽然后来又救回来了, 跟随视角登录,私密公开的功能他也都修好了,我对他的迭代能力总的来说是满意的,而 c 的 二点零,他的迭代几乎就没啥用了。首先这个画面他从始至终是一直在抽的, 而且这个猫太抽象了,甚至怎么还在这个画上放了一个包子呀。 mini max 的 基础功能他都改好了,场景也确实更加丰富了,但是就感觉丰富且简陋吧,再不他是改了基础的 bug。 嗯,没有什么其他惊喜。 kimi 啊,你看我出镜了对吧,我要好好说一说 kimi。 一个相机的锁电功能,他改了三轮,是一点没改好,场景一直是空的,甚至这时候我发现,哦,我的文件都乱套了。原本你记得我们最初的工作目录是这样的,然后每一个模型都在各自文件夹里写,只有他把整个工程做到了总文件夹里, 直到我最后归藏的时候才发现这个问题。所以我对这种啊,比较简单的这种遵循问题我是非常在意的,就是我当时就想给他扣个大分。再来说质朴。 gm 五的 bug, 其实也基本都改好了,除了我说的那几个字看不清,因为它这个程序啊,它有两个页面都有这几个字, 他可能不知道我指的是哪一个页面,当然了,也确实是可以说的更细。但是当时嘛,时间原因,我觉得这个也算是理解力有点问题吧,测试走到这里,其实我会有点陷入低谷,就是我会觉得,哦, 其实国产模型表现也都不怎么好,然后我就觉得是不是我自己的问题,就我的提示词是不是写的不够好,是写的太细了,反而限制他们的发挥。 因为这个事啊,其实就是当时我跟我女朋友去聊天的时候随口想到的,最初就是有这么一段想法,然后我再把它不断的气化,最终变成了现在这个样子,那 在这个时候也是时候去启动我们的顶尖模型可倒的了。我们来看一看他的表现。首先因为我用的是第三方的重转,所以他的速度其实一直不到二十,会比较慢。 而他第一轮交付的结果是这样的,比较令人欣慰的是,他除了前端的界面确实还是比较简陋以外, 其他的功能是没有任何问题的,完成度是非常的高。于是我在第二轮去跟他说,让他去丰富一下场景啊。这个时候,不知道为什么, open code 它里面遇到了频繁的工具调用错误,感觉是个什么 bug, 然后完全发挥不出它的魔性能力。 于是呢,在这里我确实是改成了他家自家的 cloud code 的 工具,然后还是在这个文件夹里,在第一版的基础上去进行了一个修改,它最终给我交付出了一个这么挺广阔的地图。当时在测试的我就直接发出了这样的感慨, 值了。真的,就毫不夸张地说,嗯, cloud 是 让我第一次有了一种感觉,就是这个项目可能是能做出来的, 呃,可能是能正式上线的。我的意思是其他的 ai 模型其实没有给我这种信心。其实到这里呢,我们所有代码的部分就结束了啊,因为我自己不是程序员,我只能去试一下他们整个的感受啊。但是具体的代码质量怎么样我是不知道的。 我就让 cloud office 四点六去开了七个子 agent, 去把所有模型的原代码都 review 了一遍,没想到他还真给我挖出了几个彩蛋。首先是智普 gm 五的代码里,它藏了一个后门账户,账户名阿德曼密码阿德曼一二三, 它是直接硬编码在代码里的,而它在交付的时候其实没有告诉我。第二个 mini max 是 唯一一个用裸哈希蹭密码的,甚至都没有加盐, 简单来说就是密码保护几乎等于没有。另外,其实他们的基础站用的确实不太一样,用了面向对象架构的模型,比如说 cloud 和智普,他们的前端效果确实就会明显的好一点,而其他的模型全都是过程式代码,就一个函数,从头画到尾, 他就会导致你在迭代的时候很容易越改越乱,甚至呢,迷你 max, 他的前后端的状态这个数他都对不起来。然后是整个项目里最难的一个相机跟随, 大部分的模型,要么是直接把猫挪到屏幕中间,要么在跟随功能里面写了前端渲染,但是根本没有调用。只有 cloud 正确实现了 what to screen 的 代码转换,所以它才能够第一次就成功。最后我们再来放一下总分, 一共就这六个维度,前五个全都是我非常个人的主观的体验。最后一项代码质量是 cloud 去审的,最后加权呢,算了一个总分。 另外所有的 ai 花费的 token 量以及制作的总时长,我也都统计在这里。仅针对我这次制作的这个项目啊,它具有参考意义,数据都很主观,它跟你的感受相似吗? 其实说实话,它跟我的经验都不太相符,但结果就是这个结果。而且我这个项目是 ai 区一口气写完整个前后端的能力 啊。但去评判 ai 模型,它的标准非常多,所以说如果你想看的是那种公众公平并且维度全面的测评,其实是可以去参考一下排行榜的。而我作为一个用 ai 去编一些小程序的乐子人 其实还是很好奇,就是年前扎堆发的这些 ai 模型,他们之间的差距到底怎么样啊?到底有没有特别大的突破?我觉得这些模型你亲自上手去跑一遍,总会有一点感受。于是就有了这期视频,也跟大家聊几句我对目前这些国产 ai 模型的看法 啊。前端能力我觉得应该还是 kimi, 不知道为什么他这次翻了翻车啊。但是 kimi 的 k 二点五,他一个是说能直接读视频去做网页, 另一个是也确实之前我给他足够多的内容,他写出来网页是震撼过我的。这 im 五我一直认为他是国内的编程的领头羊 啊,其实能力确实不错。然后他就是涨价了,然后他,你说涨也可以,因为现在确实是大趋势嘛,这个整个用户多了,这个成本也高,但是你让老用户,嗯, pro 会员都没法用,第一第,没有办法第一时间用那个最新的模型。然后 lite 现在还没上,至少我写的时候还没有上。呃,甚至这个量还缩水了一点,就会感觉有点不爽。而 mini max 就 恰恰相反,它就很便宜,虽然出了高速版套餐,但是普通版还是便宜的。 嗯,速度也比较快,比较清亮。就是我会用它去接那个 opencloud 这样的小机器人,我觉得还用起来挺舒服的。总之你要问我性价比,我就会推荐它。然后就是 camden 的 三点五跟字节的 c 的 二点零,说实话,这两个模型比较新。呃,也可以再关注一下,我到时候也持续看看 别人对它的一个反馈。至于 cloud, 它确实是断层领先,价格也确实是断层的贵。嗯,但是啊,如果你换个角度来说,嗯,做一些严肃的项目或者正经的正式的项目的话,其实, 嗯用它会节省一些时间,也会给你一些信心,该上的话就还是上吧。好了,这就是这一期的啊,国产的 ai 编程的横屏的所有的内容了, 还是那句话,我祝他们早日超赶超 cloud。 我是 大黑,希望以纯人工的方式来向你分享智能。我们就下期再见。拜拜。

gm 五终于发布了,听说非常强,我也想试试他到底是不是真的有那么强,我第一时间就拿我维护了一年有上千真实用户的三倍插件给他上上强度, 直接挑战开发中最头的那三个难题。第一,极万行代码项目的全景理解。第二,多层嵌套的复杂 ip 逻辑。第三,真实用户的需求迭代。 我们这次的开发环境依然是 vs code 加 code code。 我 首先让 g m 五先理解一下项目整体的技术细节以及功能特点, 这里有一个非常关键的点是 g m 五在发现问题的时候,它会自动的去检测这个错误,然后自动的去修复,接着它就会去读取我相关的一些文件, 然后形成了一个完整的技术分析报告。大家可以看到它上面把这个技术的分层架构都写好了,哪些是处理 api 调用,哪些是处理交互以及数据持久化的。然后接下来就是我 api 的 调用逻辑,他每一个点他都列的很清楚,说实话他列的这个技术报告比我这个作者写的还清楚。接着我就让他基于用户反馈形成一个英文字母导出的功能,比如这是一个 英文的视频,它有一个英文的 ai 字幕。以前的话我们这个插件它是没办法获取英文字幕的,因为当时我是只支持了中文字幕的处理,就比如现在它这个英文字幕是没有的,现在这个英文字幕导出的功能,它不仅仅是增加一个按钮,更主要的是它需要去重构底层的一个解析逻辑。 就比如说我这个接口,它的数据是怎么返回的,我需要怎么去处理中文和英文字幕的选择?那 gm 五 他在思考之后就开始进行执行,然后直接去帮我编辑处理了相关的代码逻辑,大家可以看到他每一步他是怎么做的,这里都写的很清楚,然后最后他就帮我完整的实现了我需要导出英文字母的这个功能。我整体体验 gm 五的功能, 我觉得他真的是更加智能的,就像是一个支撑的系统架构师来帮助我便携代码一样。大家可以看到,现在在 g m 五帮我修复了英文字母下来之后,现在这个字母就可以获取成功了。 说实话, ai 编程最难的从来都不是写新代码,而是维护老代码。十三代码,我之前开发的飞书多表格、马克当预览插件,现在也有几百个付费用户,代码里面其实也有不少的十三代码平时没有大 bug, 我 根本就不敢 动它,生怕改动了之后影响用户的使用体验。不知道大家在用 ai 写代码的时候有没有遇到类似的问题呢? 但是啊,我最近观察到,不管是 cloud ops 四点六还是 gpt 五点三 codex, 它们都不再去卷升程速度,而是全面转向了 agintending coding 发展,简单来说就是更加专注于解决真实项目需求的能力。而 gm 五 就是目前开元界首个跟上这一趋势的模型。 gm 五整体表现都不错,在科奥的欧布斯四点六跟 gpt 五点三科特斯之间很多成绩甚至都感觉不到差距,但是我发现 gm 五有时候的响应速度确实有点慢,这点希望以后能提升一下, 再给大家说个心里话,其实三个月前我就开通了 gm codeine 的 套餐,我当时用的还是 gm 四点六,短短三个月时间,我们的钱还是那份钱,但是手里的工具却一次比一次强, nice! 我 眼看着他从四点六进化到四点七,再到今天可以跟科尔的 off 四点六扳手腕的系统架构师 gm 五 厉害!这种养成系的快乐真的太爽了!用过 gm 扣顶破烂套餐的老用户应该都懂,这次 gm 的 进步让我再次看到了国产模型的硬实力,大家赶紧去试试 gm 五吧! 好了,以上就是本期视频的全部内容,记得点赞和关注我哦!我是超超,我们一起学研,一起变强,我们下期再见!拜拜!

嗨,今天是二零二六年二月十八号周三,大年初二,新年好呀! 过年归过年, ai 这边的消息还是没停,那就随便聊聊上周都发生了什么吧。 先说阿里困团队,这周放了个大的,直接开源了困三点五,这是一个原声多模态模型, 总餐数量三百九十七币,激活餐数十七币。架构上用了 gated delta networks 加稀疏猫 e 的 混合方案,主要就是为了跑得快,延迟低,语言支持,这次扩到两百零一种,包括各种方言,覆盖面挺广的。 官方的说法是,它是一个统一的视觉语言基础模型,用万亿级的多模态 token 做了早期融合训练。另外呢,昆 a m h 二点零也是在这周发布这个模型,把图像生成和图像编辑统一到了一个框架里, 不用再分开调两个模型了,而且支持原声二 k 分 辨率输出。然后是 mini max 他 们发了 m 二点五,也是开源,这个模型的定位就很明确,性价比编程助手在 s w e bench verified 上拿了百分之八十点二, 但更值得注意的可能是速度和成本推理速度可以到每秒一百个 toc 官方算了一笔账,按这个速度满跑一小时成本大概一美元, 如果降到每秒五十个头啃,那一小时只要零点三美元,相比上一代 m 二点一快了百分之三十七,对于需要大量生成代码的开发者来说,这个价格确实能省不少。智普 ai 这边发了 g l m 五,定位是面向复杂工程和长周期 a 诊断任务, 上下文窗口拉到了两百 k, 最大输出给到了一百二十八 k, 意思就是你可以一次让它完整地写出一大段代码或者文档, 参数量从上一代的三百五十五 b 升到了七百四十四 b, 激活参数是四十 b, 预训练数据量达到二十八点五万亿。 toc 跑分这块, w e bench verified 是 七十七点八, terminal bench 二点零是五十六点。二,字节跳动这周公布了 c 的 二点零系列,这次不是一个模型,而是分了 pro, lite、 mini 三个尺寸,都是面向通用 a 阵的场景的。 官方强调的是在真实长链路任务中的稳定推进能力、能力,拆分了多模态理解指令,遵循 agent 的 协助这几个模块。跑分方面, c 的 二点零 pro 在 mmlu pro 上拿了八十七 hle, 无工具,纯文本是三十二点四。数学测评 aime 两千零二十六是九十四点二。 aime 两千零二十五,更高到了九十八点三。官方也给出了 light 和 mini 的 对应数据,方便横向对比。 整体来看,字节这次是把 c 的 系列从单一模型推成了一个完整的产品线。国外这边谷歌更新了 gemini。 三、 deep think 的 推理模式。官方博克贴了一组数据, humanity's elastic sim, 无工具拿到百分之四十八点四, a r c a g i 二是百分之八十四点六。 编程测 code four c c o 给到了三千四百五十五。 deep mind 还专门发了一篇文章,介绍 deep think 在 数学和科学发现上的应用, 说是在 i m o proof bench advanced 上,随着推理算力增加,最高能到百分之九十。他们还对七百个开放数学问题做了半自动评估,跟研究者在十八个问题上写作,其中有四个开放问题给出了自主解答。 另外, google 还开源了一个 gemini skills 仓库,把面向 gemini api 的 常用能力封装成了可附用的技能模块, 包括网页访问、代码执行记忆。这些方向开发者可以直接拿来组 agent 工作流。 openai 发了 gpt 五点三 codex spark, 专门做实时编程场景的低延迟响应, 官方数据是每秒可处理超过一千个 token, 往返开销降了百分之八十,首 token 时间缩短了一半,上下文窗口一百二十八 k, 通过 siri bros 基础设施来跑。另外就是 chat, gpt 里上线了 lockdown mode, 把提示词注入列为关键风险,加了个面向高风险用户的安全模式,开启之后会以确定性方式禁用部分工具能力, 网页浏览也限制为只访问缓存内容,不发实时请求。开发者工具这块, curser 发布了 composer 一 点五更新, 主要方向是让多文件编辑更稳定,改动范围更可控,减少在长任务中上下文漂移导致的跑偏问题。这种改进不太容易在单词 demo 里看出来,但日常用起来差别挺大的。 然后是前 gitop ceo tomas donk 做的 in 贪二平台,完成了六千万美元种子轮,估值三亿美元。首发了一个开源命令行工具叫 checkpoints, 能把 ai 生成代码,背后的指令和推理过程跟代码一起保存下来, 方便以后做代码审查和审计。目前首发支持 cloud code 和 gemna c i, 最后快速带几条。维某发了一个基于 gni 三的自动驾驶世界模型, 能模拟多传感器输出,包括摄像头和激光雷达,长持续推演速度大概是视频回放的四倍。 hugen face 说传统基准快饱和了, m m l u 到了百分之九十一以上, g s m 八 k 也到了百分之九十四以上。 所以搞了个社区共建评测机制。 ansorepic 做了一个实验,用十六个并行 agent 跑了两周,花了不到二万美元, 写出了大约十万行的 c 编辑器,能构建可启动的 linux。 六点九, carpathi 发了个单文件的 micro gpt 脚本,极简实线,腾讯开源了个模型压缩工具 angel slim。 还有一篇 tony laura 论文,蛮有意思的,说只训练十三个参数就能让枯问二点五八 b 在 gsm 八 k 上跑到百分之九十一,准确率好。以上就是上周的 ai 资讯,接下来看下上周全球前十的生成式 ai 产品访问量排名, 最后再看看生成式 ai 产品在近一年的市场份额变化。总的来说, open ai 还是第一,但 jammer 也在慢慢往上爬。 嗯,好吧,这期就这样,感谢收看,觉得有用的话点个赞分享一下,下期见!

今天上午 g i 发布了五个版本,除了基建模型的能力提升参照题之外,我还注意到三个非常有意思的点。 在第一个,它号称抠定能力已经对齐了 cloud 的 四点五,从能够会写代码并且能够完成这第二个,它支持了大龙家,支持 open, 能够在 open 里面接入 g m l 五 来完成一些非常复杂的主动式和刺激的任务。那第三个呢?它还提供了一个 excel 的 ai 插件,让我们在 excel 里面用自然而 易的来去完成公司的编辑,脚本的编辑的一些数据分析工作。很搞笑的是,目前你这个版本是针对 pro 跟 max 的 应用户开放,那我这种 max 用户不会使用吗?那我回家的第一件事就是要升级到 max 跟 pro 版本。

openai 今天发了 codex 的 桌面 app 啊,就是一个能让你同时指挥一群 ai 帮你做不同领域的代码迸发编程的工具。 现在的因为也已经过去快三个月了。什么三个月了?就是顶级大模型更新。举个例子,谷歌 gemini pro 十一月底,然后可洛他们的 opps 四点五是十一月底,这不快三个月了,就要又要迎来大更新了,据说马上就是索尼特五就要来了啊,可洛家族的新的这个神级玩意儿。然, 然后马上怎么样? openai 抢先发了一个叫做 codex, 直接是原声在 mac 上面的工具。有些人会说,哎呀操,不就是写个代码吗,给我那装的没好激动啥的, 他是把根本逻辑改了。以前是你告诉 ai 怎么写代码,现在是你定任务, codex 直接迸发一堆 ai 去做不同的任务,也就是多现成 ai, agent 也可以称之为 agent 的 集群。 一个负责新功能,一个重修老代码,一个负责跑测试,各干各的,相互不影响,你只负责最后的审核。 openai 这一次 macos 上首发的这个 codex 原声就 就是把这件事做了,也就是说既当爹又当妈啊,把设计师,把程序员,把测试的工作一口气儿拉表,任务清单全做完。但是我觉得更狠的是定价,我说白了, g p t 的 两百刀我一直在定,但是我现在越来越觉得不值,唯独 deep research 和这个 g p t 五点二 pro 偶尔用一用, 但是现在你发现它什么东西都下放到免费,真的,这些二百刀以上的我全都定最值的,听我的兄弟们, cloud 二十 max is the real money 挂着 其他那些东西免费版都给太多了啊,你就像那 g b d 这玩意,我到时候看看你免费版的你 codex 到底能用多少就完事了。以后啊, codex 就是 你的 ai 团队 leader 了,不管你是不是程序员,只要有嘴就行。以前是 talk is cheap show me the code, 现在时代变了, code is cheap show me the talk。 一 抹波浪。

我用酷币做了一个非常好玩的选股神器啊,没想到他做出来的效果这么好啊,等一下给大家演示一下,这是整个软件的界面,假如我们要找什么股票在这里六零一他就会出来了,对吧? 嗯,然后双击一下,他就这里就会有贴现图啊,那些饼图啊之类的,这里是有五千多只可以选的哈, 我给大家介绍一下我这个软件的一个逻辑啊,非常感谢一个二十多年古灵的一个粉丝啊,给我提了很多意见。 ok, 选股,这里就是我选好的股票,按照我的条件选好了的股票呢,我可以放到选股池这里,那这里呢是实时更新的选股池这里 就是符合我条件的股票,他会全部放到这里来,一旦这里的股票不符合我的条件呢,他又会把它移走,所以选股池这里留下的所有的股票都是符合我最新条件的 股票。我这里设置了一个经验选股,因为每个人买股票他可能都不一样的经验思维,所以每个人都会不一样,这个属于自定义的了。这里呢,我也会放到一些我需要监测的股票,放在这里,重点关注的会放到这里来, 实时去跟进他的一些信息啊,这里可以新建的啊,新建把规则定好了就可以新建 事件。这里呢,就是我还没有想好要放什么东西,可能就是放一些新闻呢,就是你想要看这只股票啊,他有什么新闻呢?可能会放这些东西。这个问答呢,就是说我们有什么疑问呢,就可以在这里去问他啊, ai 会给出一些答案,然后设置这里呢,我是用了 dipstick 的 api kit, 然后数据提供方呢,是用 a, k, c, r 的, 所以整个软件的逻辑就是这样子的,如果大家有更好的一些建议呢啊,也欢迎大家提出来啊,我看一下是怎么样去把它加上去啊, 后面呢,我可能会增加一个短信通知,假如啊,我们在这里的一些股票,它有一些符合你可以购入的条件,才会发信息给你。 现在的 ai 真的 是太强大了,像 codex 这样子的工具呢,以后呢,肯定是会越来越多的,像以前我们要做一个这样子的一个软件的话,你没个几万块钱估计就搞不定,或者是说你的程序员要写好久,那现在很简单啊,只需要一句话就能搞定了。那像这种 ai 工具呢,它适用范围是非常广的, 像很多电商行业啊,你要做数据分析啊,你要靠人力去堆的那些工作啊,其实都可以让 ai 做,因为 ai 最擅长就是数据分析,做报表啊,做什么各种各样的分析,不管你是公司的运营啊,或者要做财务的数据分析啊, 或者是你业务部门呢,要做一些调查报告啊,各种各样的东西,其实都可以用 ai 来去解决,一句话非常简单。

最近有网友问我,世界大模型第一股智普的 glm 五发布了,说它是全球最好用的开源模型,编程能力堪比 cloud, 是 真的吗? 先说结论是真的,中国清华系智普最新的 glm 五模型已经在编程能力上比肩 cloud 了,全球开源模型中排名第一,虽然还有微小的差距,但是我们在快速的追赶中, 我是杨乐多大白话讲 ai 这款 glm 五到底强在哪?用三点跟大家说清楚。第一点,开源模型世界领先。目前这款 glm 五在全球的开源排名中,编程能力排名第一,综合能力排名第四, 也就是在全球范围内把代码公开,让大家免费使用的模型里面, g l m 的 编程能力是最强的。第二点,代码能力逼近顶尖水平,目前编程全球最强的就是 cloud 模型,而 g l m 五在编程的使用体感上 已经跟 cloud 相差无几了。第三点,他专门擅长处理复杂的任务逻辑,也就是一个不会代码的人,可以跟他进行多轮对话后生成一个复杂的产品,甚至不用写一行代码就可以实现。 我们客观的看,差距确实还存在,但是你要知道,一年前我们的 ai 代码编程能力比全球顶尖水平差了十倍不止, 而现在我们基本上跟他们近在咫尺了,并且 glm 还是一个开源的模型,开源的模型意味着全球的开发者都可以免费的使用它,并且在上面进行二次创作和修改。 而 cloud 是 闭源模型,只能通过付费调用它的 api 来进行使用,并且不能对其进行二次的修改和调整。做一个比喻啊, cloud 就 像是高墙内的武林高手,没有人知道它是怎么实现的, 他的武功不外传,你们只能看。而 glm 五呢,就像一个武林盟主把所有的武功秘籍全部都公开了,那你想想谁的影响力更大,谁会进步的更快呢? 这就是中国 ai 的 速度,中国至普系的 glm 一 年时间走完了别人三到五年要走完的路,中国在不断的这,这背后就是中国的 ai 的 硬实力,也是中国 ai 选择开元路线的再一次胜利。

兄弟们,最近智普发布了号称国产 ai 编程天花板的 g l m 五,今天我就教大家如何将 g l m 五接入 vs code, 配置完就能本地用 ai 写代码。老规矩,先点赞收藏,防止后面找不到了。我们打开 vs code, 点击左侧的扩展按钮, 在扩展的搜索栏里面,我们输入 c l i n e client, 第一个这个就是 client 的 官方扩展,我们点击这个安装,左侧这里就出现了一个机器人头像的图标,我们点击这个机器人头像图标, 我们就来到了 client 的 主界面,我们点击这个 api provider 里边 找智普的 z 点 ai, 这个 z, 点 ai, 这就是智普的模型。首先我们要上智普的网站申请一个 api, 点击这个链接,我们就会跳到智普的网站,在这里我们输入手机号,然后点击获取验证码, 选中这个同意用户协议,点击登录,我们就进入了智普的平台。点击右上角这里的 a p i k, 我 们新建一个点,右上角新建,在这里输入 v s code, 点击保存, 可以看到这里新增加了一条记录。点击 api k 这里的复制,我们就可以把这个 k 复制到我们的剪贴板里,然后回到 v s q 的, 在这个 api k 这里边,把这个 api k 粘贴进去。 模型这里边选 g l m 五,然后点击这个 down 按钮,就可以使用 g l m 五的这个大模型了。关注我每期一个 ai 编程知识,感谢大家的收看!

听多了宣传,想试试 g l m 五,就不知道从哪下手,我教你几招。第一步,让他按照你的中文需求,直接写一个网页,直接告诉他帮我做一个代办事项网页。 g l m 五最大的优势就是深度理解中文小白,不用硬编专业术语,还支持多轮上下文对话, 你可以接着追问调整需求。第二步,让他帮你改 bug, 修报错,遇到代码报错不用慌,直接把完整报错信息复制发给他,让他帮你分析问题出在哪,怎么修复,零基础也能轻松解决问题,越用越顺手,效率直接拉满。

母亲言新出了个模型啊,怎么样?这个模型他说说非常厉害。 jim 五吗?我看看啊,像有的官方说的,他的 humanity last exam exam 评分是比较高的啊,就拿这个评分来说啊啊,其实我们测一下会有很大的问题,你看一下这个屏幕,我看看 我们呃抽取了 horamis 的 mass 数据集,大概是一千多道,然后去测这个质朴清源拿这个呃正比奈,正比奈 flash 作为这个评判遇到一个什么问题呢?我发现他在解答这种数学类的问题的时候,他的思考时间头肯输出了将近两万,也就是说他两万还在思考都没有输出完, 所以说我们这个他根本就测不了,在我们看来,然后即使测的了的话,一次回答的成本大概在呃五毛钱左右,就一个问题大概在五毛钱,而且还两万都没有出答案,所以我们在想会不会是我们的测试出了问题, 于是我们又到了他的这个官方上,就试验了一下啊,现在还在跑是吧?我们这个数据集从呃几分钟之前就开始跑,呃直接停掉,然后我们可以往上拉,一直拉一直拉,就你就说他这个思考过程无限的延长,无限的思考,他虽然这个回复的内容是正确的,但是他貌似陷入了一个死循环的过程。 就是你是让他回答了一个问题是吧?数学问题, melodies 里边的一个数学 max 类别的问题啊,问题其实不复杂,他是一个单选,他有两两种类型,第一是选择题,第二是那个检查题。我们在问给他这个数学问题的时候,问了两道到三道,基本就是无限循环,然后他的费用基本在无限上涨, 所以我们我们也可能比较怀疑像这种评分它虽然很高,有没有可能它的思考过程会非常的长,可能是无限的,也他可能把这个给忽略了,他能思考一个问题,思考五分钟出了一个答案。我们也测了一下,像 jimmy、 nike 这种可能也就几秒钟就出答了,所以它会存在这样一个差异点, 所以说它这个评价体系稍微有点问题。也不算吧,我们后续可能还会对这些整体评价再整体测评一下,至少我们现在现在来看还是跟大家想的差别很大, 太大了。数学问题你要等个十几分钟去给你解出来。那我都做完了,你自己都做完了,哈哈哈,考试都结束了是吧?该交卷了。对,我们也建议在啊,我们建议在回答的时候还是把这种时间这个综合的都考虑进去。
![Codex AI编程新王者, 5 大理由让你爱上 Codex 和Claude Code蜜月两月,我却在3天内叛逃到 Codex 。一次语音助手重构让我见识到它在大型代码仓库的“稳、准、狠”,也更贴合我的SPEC驱动开发。视频用5大理由拆解差异,还聊相同模型在不同系统提示下的表现与性价比。看完就知道该怎么选。顺手点个赞订阅,评论聊聊你的体验。
时间戳:
00:00 [为啥3天叛逃?] - 5大理由抢先剧透一下
00:24 [理由一|大仓稳准狠] - 大仓库也能稳准狠在线
01:45 [理由二|稳定与重构] - 语音助手重构全过程惊喜
05:31 [理由三|SPEC更高效] - 三点文档法提升成功率
06:35 [理由四|同模不同解] - Kimi 在 Codex 更冷静
07:12 [理由五|性价比&建议] - 20刀如何花得最划算
#chatgpt #codex #claudecode](https://p3-pc-sign.douyinpic.com/image-cut-tos-priv/72d96bed8eac862444581e7220ecbcdb~tplv-dy-resize-origshort-autoq-75:330.jpeg?lk3s=138a59ce&x-expires=2089375200&x-signature=JK%2FJ9oSze%2B8nlswXMHr2EeHBhuk%3D&from=327834062&s=PackSourceEnum_AWEME_DETAIL&se=false&sc=cover&biz_tag=pcweb_cover&l=20260320223353FC58A8471435768B163B)
