粉丝361获赞1203

这临近过年,我们的国产模型真的太猛了。前面我做过两期视频,用同样的 prom, 同样的真实项目任务实测,对比了 cloud office 四点六, gpt 五点三、 codex mini max 二点五。 那期视频做完之后,评论区就有人让我测试一下质朴新发布的模型 gom 五,咱也是加班加点的干出来了,而且据可靠消息,过两天还有 deepsea 微视版本的发布,到时候也给大家带来一期真实项目的一个编程实测。 求一个一箭三连不过分吧?在这里要插播一下,当我准备去测 gm 五的时候,我去官网去订阅它的 cooling plan, 直接受庆了,就我的套餐买不到。哇,那如果按 ipa 计费的,我目前也没有找到。他们可以用 insulate 的 一个协议来测试 gm 五, 所以我就用了 ppl 他 们家的去测试,他们是非官方首发部署的 gm 五,一个开源模型的一个权重,那兼容安斯罗比的一个协议接到可拉扣的里面也非常方便,因为我之前的评测的话,都是用可拉扣的去做的嘛。所以说为了保证公平公正,我们也是用同样的 工具方的编程任务去做实测。好,我们先去创建个 api k, 这里我就写 gm 五 确认,点击复制好,我们开始进入真实项目的一个编程实测环节,也是同样的 prompt。 哈,那第一个任务的话,是把 我们另外一个项目里面完整的一个用户认证体系,包括邮箱、谷歌认证登录、 github 登录迁移到我有一个新的图片生成 a 级的项目里面,同时让它去做一个落地页, 需要考验它的一个代码理解能力,架构适配能力,一个工程规范。这个任务还算比较复杂,之前用 mini max m 二点五去测的时候,它花了三轮对话才完成的,那 op 四点六跟 gpt 五点三 colex 的 话,它们一轮对话就完成了。 那第二个任务的话是我本地有一个 skills agent, 它是一个终端 ui 交互的,我们把它做成一个外部聊天页面,让它保留 syncing 工具,调用流逝输出。这个任务主要考验它全站开发, 流势输出以及 u i u x 的 一个交互能力。之前测试的话, off 四点六跟 g p d 五点三 codex 他 们一人赢了一局,那下面我们就开始做 g o m 五的一个测试。 这两个项目现在都是开启了一个沙杯进者的模式去探索已有的代码。那右边的话,它弹出来一个让我选择想用的框架以及 u i 主键库,我就按我一个常用的方式去选好,它提示已经成功了。 好,我们打开了他给我们写的这个 y y, 哈,他把这个 skills 是 放在右边的,就展示我已有的一些项目,来测试一下它可用吗? 好,我们开始让他去总结这篇文章,看一下他有没有去做到加载这个 skills, 然后加载完了之后去执行一些脚本去做爬虫,然后再去做总结。可以看到这边他已经加载到这一个 skills 了,下面去执行一些命令 总结出来了哈。整体的话完成度还可以的,就是他这个 ui 上稍微会差一点点,相较于那个 gbt 五点三 codex 的 话,这个完成的没有 gbt 的 好。 左边这个窗口就是 cloud off 四点六写的,这个 ui 上确实会差一些。右边的话是 gbt 五点三 codex 写的,当时我是把票投给了他,那么同时去可以看一下刚刚那个任务,他们俩其实都没什么太大问题,不是特别难,后端也就 thinking, 然后做工具调用, 可以看到都是 ok 的, 没有什么太大的问题。好,下面我们去看一下那一个纹身图 agent 用户认证体系那块它完成的怎么样了? 可以看到它这个已经完成了哈,可以看到这个代码它已经写完了,我们先看它能不能一次性去启动,之前 mini max m 二点五这一块是没有做到一次性启动,我们先开新开一个窗口去测一下。好,我们可以看到 g m 五的话,它目前启动是没有什么问题啊,我们再看一下它实际的一个表现, 我们看一下它整个 ui 表现哈, ui 还行,那我们看它的那个认证功能可不可以用。我们先试谷歌登录,谷歌登录的话,它这块放了一个小 bug 啊,它把那个毁掉的端口弄错了,我们改一下。好,我们继续。 好吧,登录失败了,这边还是有些问题,你看到它登录的时候认证失败了,应该是数据库的表结构那块有点问题,从这么看的话, gbt 五点三 codex 跟 op 四点六还是要猛一些哈,就是它们没有这些问题。 好,我们再来选择谷歌登录,刚让它修复了一下, 好,他终于可以了。哎,有个问题,他登录成功之后没有回,没有进到我们的那个主页面,登录成功之后没有进到我们 agent 里面, 这个算第二轮对话吧,看他第二轮对话能不能搞定好,我们点击登录选择谷歌, 他还是没有修复成功,他还是要再刷新一下,看没有再刷新一下,进来再给他描述一下吧。现在还有个小问题,当我们认证之后,他先跳转了到首页,我再刷新页面,他才进到了 a 镜的里面。 在他这是第三轮了,就证明他在这个方面其实跟 mini max m 二点五差不太多,他们俩再点登录。 我靠,跟这个问题杠上了,他还是修复不了啊,还是有问题,你能不能好好深入去修改一下,去思考一下。 这是我们第四次对话,让他去修改这一个小问题哈,这个表现呢,就有一点不是特别好了,我们再来,如果他再再进不去,我就不撤了,这个就默认他四轮吧。 好,我放弃了。这个问题我不测了,他修他,我跟他一直对话,他修不了。我们之前测 gbt 五点三跟 colorof 四都是一轮。 ok, 我 们下面来看一下评分,整体的一个打分标准是第一个,我人为的去检测他们的一个功能完整性以及 ui 的 一些情况。那代码架构,工程规范,我都是把他们所有的代码给到 gbt 五点三, codeof 四点六,让他们分别去 review, 然后去打分。 它现在结果是这样子的, off 四点六,在第一个项目用户认证里面,它是表现最好的,它在功能完整度以及 ui 落地上是表现的比较好,并且是一轮就完成任务了。但是它的代码架构跟工程规范会有一些小问题, gpt 五点三扣贷 x 的 话,它的代码架构以及工程规范会比它好,而且是这四个模型里面最好的。那它的功能完整度呢?因为它漏了一个谷歌登录的一个前端,所以说这个评分稍微低一点,那它 ui 落地页的话也会稍差一些。 上一期视频测试 mini max m 二点五这一边的话,他是花了三轮对话去完成了这个任务。那智普这边的话,刚刚你也看到了,其实四轮对话完下来之后,他还有一些小问题,所以说评分的话,他俩其实差不太多吧,我个人感觉哈, 我们来看第二个,把这个 skills agent 做成一个外部 ui, 那 这个项目的话就是 gpt 五点三 codex, 它在业务完成上逻辑错误控制以及 ui 代码质量工程实现都是最好的。那剩下这三个的话,大家表现的都差不多吧,大家有优势的地方也有他劣势的地方。 好,下面我们开始进入 agent 的 实测环节,把 gm 五模型接入到我这一个真实的一个 agent 的 项目里面去,它是做自媒体视频拆解的, 主要需要去看他的一个速度,拆解深度以及表达一个真实感。那整个 a 型的工作内容的话,就是先去下载视频,做音频提取,转文字,然后去做内容的结构化分析,爆款元素的提取,最终输出一个拆解报告。好,我们下面开始吧。好,右边也完了, 我们来简单看一下哈,他们两边格式上会有一些差异。在拆解上我们看他这个结构拆解这块,他这个时间出其实是有问题的,他做的不对,因为我这个是十二分钟的,他是做了 十四分钟到十五分钟,那 g m 五这边的话,它也有讲一个时间戳吧。啊对,你看它有二十分钟,还有三十到三十五分钟都来了,所以说我感觉它在整个 a 帧的表现里面不是特别好啊,它这个拆解的深度也不太够,我感觉相较于昨天我测那个 mini max m 二点五的话会稍微差一些。 好,我们下面总结一下。把 gm 五接到这一个自媒体视频拆解的 a 帧里面,它的一个表现情况哈,整体上的话速度偏慢,就响应速度不算快,可能跟当前用户量大有关系,因为都知道它这个套餐都卖的受庆了。第二个的话,它的拆解深度的话相较于 mini max m 二点五会有一些稍稍不足。 第三个的话,它的一个真实感稍微偏弱一些啊,这是整体的一个表现情况。好,下面我们进入整个的一个总结环节,在编程方面的话,一句话,在我的这一个测试项目里面, gbt 五点三 codex 表现最好,比 off 四点六会好一些。 glm 五跟 mini max 它们的体感接近,都是开源的嘛,并且它们的成本非常低,所以说 对于一个高性价比的一些开发任务的话,我觉得这两模型都非常不错。好,这就是这一期视频的所有内容了,如果你觉得这期视频做的不错,一定记得给我一键三连哦。那下一期视频的话大概率是做 deepsea 微四,有可能是在过年那一天发布,我猜测哈,据可靠消息。好,那视频就到这里了,大家拜拜拜拜拜拜拜拜。

我用了四个模型,跑了五十个复杂任务,结果出乎意料。参赛阵容, ken 三点五 plus, 综合效率之王 timi k 二点五,多模态智能体齐全 mini max m 二点七,三月十八日刚升级 g l m 负五减 turbo s w e 减 bench 七十七点八分,接近 cloud 四点五 opus 先看权威数据 sw 减 bench 真实代码修复测试 g i m 负五,得分七十七点八,超越詹姆莱三 pro 亏按三点五在 m m i u 减 pro 拿下八十七点八分。综合认知最强 mini max m 二点七,推理速度约幺零零 tps timi k 二点五的多模态编程截图就能生成完整代码,简单任务四个模型都能搞定,差距不大。中等任务来了,比如从零搭建一个项链数据库, pi 三点五直接甩出王炸 qps 一 千四百零五,是 timi 的 四点八倍,但这是纯后端计算场景。换到多文件重构, gim 负五的长城一致性优势就开始显现了。高复杂度任务才是真正的试金石。 五千行代码重构二十多个文件, g i m 负五,凭借模型架构和练式推理 逻辑,一致性最佳,幻觉最少。在 openclaw 上实测。从简单到复杂, g i m 负五减 turbo 综合胜率最高,特别是多步骤 agent 的 任务, 比如自动读文件,分析数据,生成报告,发送消息, glm 负五一步到位,成功率明显高于其他模型。价格, mini max 零点三九美元 glm 负五一点二零美元,昆三点五一点五六美元 glm 性能价格比最优怎么选? 简单快速选 mini max m 二点七,极致性价比选 kimi k 二点五, 复杂任务和 agent 的 编程选 g l m 负五减 turbo g l m 负五减 turbo 已对所有 coding plan 用户全面开放蹲队友拼智谱 coding plan 三十九元体验月卡三千五百万 token 邀请码 c 六 d y b s o c 八链接评论区置顶拼团额外优惠,感谢收看!记得点赞加关注赛博杨千焕明天见!

最近有网友问我,世界大模型第一股智普的 glm 五发布了,说它是全球最好用的开源模型,编程能力堪比 cloud, 是 真的吗? 先说结论是真的,中国清华系智普最新的 glm 五模型已经在编程能力上比肩 cloud 了,全球开源模型中排名第一,虽然还有微小的差距,但是我们在快速的追赶中, 我是杨乐多大白话讲 ai 这款 glm 五到底强在哪?用三点跟大家说清楚。第一点,开源模型世界领先。目前这款 glm 五在全球的开源排名中,编程能力排名第一,综合能力排名第四, 也就是在全球范围内把代码公开,让大家免费使用的模型里面, g l m 的 编程能力是最强的。第二点,代码能力逼近顶尖水平,目前编程全球最强的就是 cloud 模型,而 g l m 五在编程的使用体感上 已经跟 cloud 相差无几了。第三点,他专门擅长处理复杂的任务逻辑,也就是一个不会代码的人,可以跟他进行多轮对话后生成一个复杂的产品,甚至不用写一行代码就可以实现。 我们客观的看,差距确实还存在,但是你要知道,一年前我们的 ai 代码编程能力比全球顶尖水平差了十倍不止, 而现在我们基本上跟他们近在咫尺了,并且 glm 还是一个开源的模型,开源的模型意味着全球的开发者都可以免费的使用它,并且在上面进行二次创作和修改。 而 cloud 是 闭源模型,只能通过付费调用它的 api 来进行使用,并且不能对其进行二次的修改和调整。做一个比喻啊, cloud 就 像是高墙内的武林高手,没有人知道它是怎么实现的, 他的武功不外传,你们只能看。而 glm 五呢,就像一个武林盟主把所有的武功秘籍全部都公开了,那你想想谁的影响力更大,谁会进步的更快呢? 这就是中国 ai 的 速度,中国至普系的 glm 一 年时间走完了别人三到五年要走完的路,中国在不断的这,这背后就是中国的 ai 的 硬实力,也是中国 ai 选择开元路线的再一次胜利。

硅谷顶级的分头机构 a 十六 z 刚刚发布了一组数据,开源模型和顶级闭源模型之间的能力差距正在以肉眼所见的速度快速修改。 这次被正面对标的是来自智普的开源模型 glm 五和闭源天花板之一卡尔的 oppo 四点六。而市场的反应往往比数据更直接。 glm 发布以来,编程套餐一度被疯抢到断货,技术报告在开发者社区连续刷屏,相关概念股大涨。不过啊,市场的兴奋从来不会凭空产生,这背后往往是一种范式正在发生变化。 那么今天这期视频,我们一起来看看,这个被称之为从氛围编程走向智能级工程的开源 glm, 到底做对了什么?而这些关键细节啊,都来自于新鲜出炉的 glm 技术报告里。第一,上下文成本被打下来了。你要做智能级工程,必须是长记忆,几万行代码,几十人交互,跨文件调用少一点都不行。 glm 五在注意力机制上做了精细化改造,通过 dsa 模型,不用扫全部,只看最重要的部分,在上下文能力没有打折的前提下,实现了长序列推理成本的明显下降。简单来说,它不仅能记得住,而且算得起。第二,强化学习的方式变了。这是更关键的一步。 传统的强化学习训练,就像工厂里的生产线与检查员步调要完全一致,一方等另一方效率极低。而 glm 五采用了异步智能体强化学习框架,让生成和训练彻底结偶, 脱离引擎跑任务,训练引擎做更新,各用各的 gpu 模型,可以在真实复杂的任务中持续进化,而不是在题库里刷分。这也是为什么他的技术报告在海外社区被频繁拆解讨论,因为底层的训练方式确实不一样。 第三,训练环境是真实的,不是单纯的扳旗、 mark、 微调。 glm 五搭建了超过一万个真实软件工程环境来训练模型,包括真实的 get 哈比一手真实的终端任务 模型不是背了多少知识,而是真的在沙河里一遍遍的试错改错,拿奖励信号来训练出来的。所以你会发现一个很明显的变化, g l m 不 只是回答的不错,而是结果真的能跑通。更值得一提的是, g l m 已经完成了主流国产芯片的全站适配,并在国产算力计算上验证了高吞吐低延迟的稳定运行能力。 过去我们总说国产开源在追赶,甚至有人质疑是不是只是蒸馏国外模型,但这次还真的不一样。 glm 不是 研究 oppo 的 路径往前追,而是用了一套完全不同的价格思路、训练饭式和工程体系,走出了一条属于自己的路线,最后却抵达了同一个能力终点。所以当模型开始为智能级工程而生,市场给出的反应往往比 bendimax 分 数更快。

老铁们,历史性时刻啊,在我编写的大模型后端性的测试中, gm 五点一得分超过了 cloud open 四点六,来到了第一名。那么到底是怎么超越的?让我们开始测试, 我们一个一个项目测试来看啊。首先是前端这块,测试下来我发现跟 gm 五 top 差不多,我 我们能看到大象牙膏测试这个粒子效果会好了一些,不过追星屏的材质和光影还是那个样子,以及鞭炮连锁爆炸测试这个极致的效果的基础上,又增加了引线燃烧的这个火花,效果特别好看,当然性能也变得更卡了,陀 飞轮机芯测试感觉甚至空间理解能力有点下降了,但总体而言,前端能力上并没有质的变化,但是后端代码性能可就完全不一样了。测试使用我自己编写的测试框架 vtec 奔驰, 这个框架让大模型从零使用 ras 编写一个限量数据库。有朋友问我,写数据库跟后端开发有什么关系?关系很大啊,从零编写一个数据库,极致的考验了编原理、数据结构、算法体系结构、存储这些各个领域的知识,与操作系统编辑器一样,都是计算机基础软件领域的极大乘者之一。 本次 gm 五点一实现了向量数据库的 qps 刷到了三千九百八十九,而第二名 cloud open 四点六是三千五百四十八,第三名 gbt 五点四 pro 是 三千零九十一,妥妥的全球搜它了。在我之前的测试中,大概只有 deepsea 二一在去年可以达到这种领先的水平。来看细节啊, gm 五点一何德何能可以搜它。先讲一下咱们这个向量,然后在数据库中查找与之相似的向量。 大家能想到最简单的方法就是挨个跟数据库中的限量去做对比,哎,没错,请看榜单,这些得分不到一百 qps 大 模型也是这么想的,这个方法叫做暴力搜索,甚至之前伽马五在测试中也是这么干的。有同学会问了,这怕不是傻子吧,不能用锁瘾吧? 可以的, q p s 一 百到一千这个区间全都使用了倒排文件缩影。倒排文件缩影简单来讲,就是在数据库中对向量进行采样,把这些作为基向量,然后呢,再把跟这些基向量相似的向量放在一块查询的时候呢,先跟这些基向量做对比,然后 再便利这些相似的巨类向量,最后全局取 top n, 这样就实现了缩影结构。又有同学要问了,那这些干到了三千 q p s。 家的妖孽是如何做的?我们先来看第三名 g p t 五点四 pro, 它的优化方案是,感觉数据量太大了, 是用了二级缩影。第一层呢,我们先用一百二十八的聚类数量进行聚类,然后聚类,像浪里面再次使用六十四的聚类数量,在子层再次聚类,总体达到了八幺九二聚类数,我们测试数据足足有一百万条,所以这样做显然能增加速度。 那么第二名的 cloud open 四点六是什么方案?他的答案是,不搞这些花里胡哨的东西。你不是数据量大吗?那 我狙类也大,直接开了个一六三八四的狙类数。 g b t 五点四 pro 虽然锁瘾技术上比较强,但是二级锁瘾带来的缺点就是延迟高,再加上它的狙类数其实也没有打过 oppo 四,所以败给了 cloud。 oppo 的 四点六来到重点了,价位五点一是如何吹普拉朽的?先看狙类数量,价位五点一只有二百五十六的狙类数 少的可怜,但是它使用了量化技术。那么什么是量化技术?简单来讲啊,我们船入的限量都是 flos 三十二格式的,即三十二比特精度。我使用的 cpu 支持 a v x 五百一十二指令级, 其他的模型啊,也都使用了 s i m d 指令级进行了加速,但是加满五点一,把一百万条数据全都量化为了八比特,然后使用下面这些指令级进行了计算。这个指令级的加载宽度是二百五十六比特, 意味着 cpu 一个周期就能计算二百五十六除以八等于三十二个向量。别的模型一次算一个,我一次能给你算三十二个。有眼尖的同学能看到细节, 哎,你这个指令加载的时候是 int 八,怎么计算的时候就转成 int 十六。答案是为了防止精度不足,小数乘以小数,肯定涉及到这个尾数省略的问题,精度提升一倍,尽可能避免四舍五入带来的精度问题。那又有同学要问了,不是,你这个巴比特量化本身是不是也有精度问题啊? 有的,这就是键盘五点一牛逼的第二个地方了。我们测试中要求最终给出 top 十的像素向量,于是他先用巴比特连发数据,然后再拿着 top 两百向量的原始数据进行相似度计算,最后选举最相似的十个。 老铁们学到了没有?就问这一手牛不牛逼?后端提升了这么多啊,那么 a 阵能力有提升吗?来看考研大模型 a 阵能力的归机骑手测试,这个测试我准备了十五个托靠,比如移动 送餐、取餐计算耗时等等工具,让大模型模拟送外卖,看二十四小时之内哪个模型的盈利最多,直接说结论啊! gm 五点一在这个测试中来到了八百零八点一五元,继续维持了 sota 的 地位。从 gm 四点七时代, gm 就是 a 阵能力测试的 sota, 一 直维持到了今天的 gm 五点一。 说一下这个测试的难点,测试要求 ai 最多只能携带五个外卖订单,而当你一搜索订单,发现足足有二十多个订单等待接单,你应该选哪些订单?这个就是测试的最难的点。之前 gm 五的策略是尽可能多接单,于是他在测试中完成了历史最高的订单量 五十单,总体来到了七百三十八点六九元的盈利。而这次 gm 五点一只完成了三十九单,但是他只挑配送费高的送单,均利润能达到二十点七二块,总体来到了八百零八点一五元。 且慢啊!还有更重要的点,他会按照路线分析怎样组合订单才能获得最佳的利润。比如啊,来看他这个思考过程,别的模型还停留在同一个餐馆能不能取两单,而他已经想着 在路上还能再捡一单了。再且慢还有惊喜。这次 gm 五点一我只滚动保留了五十条历史对话进行了这个测试。 gm 五点一达成这个成绩,只用了六百二十一万的头盔,而 gm 五之前花了两千两百零三万的头盔 都没有超过它这个分数,所以 g m 五点一不仅性能猛,而且在只用少量输入的情况下,帮你减少 token 的 同时,还能比 g m 五的性能猛,可以说是探微观之。 当然啊,测试也发现了需要注意的点, g m 五的准时率还是比较好的,这也跟它拥有全部的上下文有关。另外 g m 五点一的 a p i 违规率也比另外两个略高了百分之零点二。总结, 在我这轮测试里,伽玛五点一在后端能力上已经从国产 sota 冲到了和 opus 掰手腕的世界, sota a 阵的水平也是一如既往的国产 sota 水平。 本次测试下来,发现仍然需要提升的大概只有前端细节和美学这些点了,那么这么强的模型难道就没有缺点吗? 有的老铁有的,这次 g m 五点一目前只开放了扣丁普兰,我甚至写脚本去抢了两次都没有抢到,最后我只能找质朴的同学要了个权限来测试。另外我在测试过程中,这个 a p i 啊,尤其是在白天的时候很不稳定,输出速度有的时候会掉到只有十几头根,以及偶尔会有中文乱码的问题。 这个得教大家一招,让 gm 五点一可以先出出英文,然后你再用其他模型翻译成中文,就能规避这个问题了。所以还是希望智博的同学抓紧加点显卡吧,大家有模型用还要排队,真的是难受啊!以上就是本期的测试内容,欢迎大家点赞评论转发,我是牙医,我们下期再见!

智普 g l m 五点一到底能不能硬钢 plus 的 代码王座?这篇包含跑分、实战痛点和使用边界的思维硬核评测,直接把底牌揭开。一句话总结,这是目前最极致的偏科平替,看完你就知道该怎么用它。踩不踩坑。 先看过场数据,底座七千四百四十亿参数底层直接融合了异步强化学习和 deep sea 的 稀疏注意力机制,标称二十万超长上下文,极数上面直接拉满, 跑分直接逼进地表最强。官方测试中, g l m 五点一的编程得分达到四十五点三分,相比上一代直接飙升百分之三十,距离目前公认的代码天花板 opus 四点六仅差了不到三分。单看测试水准,他已经稳稳占据世界第一梯队。 但跑分不等于体验,这是很多开发者最容易踩坑的地方。实战反馈表明,他的代码生成确实有巨大进步,但代价较为惨烈。 这是一款典型的侧向升级产品,为了强吃代码能力,它大幅度牺牲了日常动用、任务处理和创意扮演能力。如果你拿它写文案,表现甚至不如上一代的 glm 五, 更致命的是长文本陷阱,纸面数据标称支持二十万上下文,但在实际高压环境下,一旦你灌入五到七万托盘的庞大代码库模型,偶尔就会出现逻辑混乱,甚至直接发疯。在处理极长代码项目的极限稳定性上,它目前还无法完全替代 os。 既然有缺陷,为什么海外开发者还在疯抢?因为它的杀手锏是白菜价和伪装介入。在当前热门的 cologold 这类智能体开发环境里, 你只需要改个环境变量接口就能零成本把它当成 opus 来用。最关键的是它的 api 倒用价格只有 opus 的 几分之一,这是绝对的降维打击。最后直接给使用。结论,强烈推荐个人开发者和中小团队把它作为主力平替。 日常的写代码修 bug, 写中小型函数用它绝对超值。但是如果你需要重构超过七万头肯的祖传复杂代码,或者需要处理高度复杂的通用写作,请立刻闭坑老实实加钱去用 opus, 或者直接退回 glm 五。

国产大模型是不是疯了?春节 ai 大 战真的是一波接着一波啊!前脚这节 cds 二点零刚刚炸完场。昨天深夜,智普直接认出了一个核弹级的产品, g l m 五。今天我不想跟你谈它参数有多大,我只想告诉你一件事,如果你还傻傻的在 club ops, 每个月交二十美刀,还动不动就被封号,今天你可以考虑停手了。还记得前几天 overroad 上那个神秘的 l 法吗?很多人猜测它是不是 g p t 五的小号,因为逻辑太严密。 当时我就纳闷,一个匿名的模型为什么在处理长代码和复查工程师比很多收背的模型还稳呢?昨晚答案就揭晓了,它就是 g l m 五。这就是典型的扮猪吃老虎啊,这东西到底值不值得用呢?抛开那些花里胡哨的参数看,这三点就足够了。第一,它是来抢饭碗的,以前的模型是帮你写代码片段。 g l m 五的定位是 electric engineering, 什么意思呢?就是你把需求扔给他,他能像个真正的实习生一样,自己拆任务,自己写代码,自己修复代码。 你看那些用他做出来的龙虾大富翁千禧年游戏,就已经说明了,他从做题家变成了包工头。第二,他是真正的白菜价。我们不得不承认, cup ups 确实很强,但是那个价格输入五美刀,输出二十五美刀,是给土豪用的。 g l m 五 直接开源价格就有 ups 的 七分之一,而且性能呢?毕竟 ups 四点五对于我们这些个人开发者或者小团队来说,这才是最致命的诱惑。第三,它是全家桶 逻辑,它不光是个模型,它还适配了国产芯片,甚至打通了最近红得发紫的 open cloud。 你 想拥有一个二十四小时帮你收集资讯、解推文,甚至整理 excel 表格的名 免费数字员工吗?现在门槛已经被他踩平了。正如官方的那句狠话,从写代码到搞工程, ai 时代的红利从来不是看谁的模型考了一百分,而是最顶尖的能力终于变成了普通人手中用得起的那把铲子。 g l m 五五 也许不是世界第一,但他绝对是目前最适合中国开发者的第一把铲子。那这个春节,你准备用这把新铲子挖点什么呢?评论区里聊一下? ok, 以上就今天的所有分享,我们下期再见。

又是深夜发布,今天突然发现智浦开源了 glm 五大模型,没想到年前的开源大模型市场还会出来这个网站从前几天 cloud ops 四点六和 gbt 五点三 codex 的 发布可以看得出来,二零二六年商业大模型趋势将从能写代码升级成能构建生产机系统, 没想到的是开源大模型这么快就跟上了,熬夜测试了几个小时,本期视频我们就来看看 glm 五都有哪些亮点,以及都能做些什么事情。 二零二五年使用大模型编程的过程中,我发现虽然 ai 已经可以做出一个个很好看的前端页面了,但是真的让他去做一个生产能用的系统或者是一个庞大的任务,经常写着写着 ai 自己就圆不回来了。 但这次 glm 五真正能做出生产可用而不是单纯好看的系统,并且遇到复杂系统需求会自己拆解,可以长达数小时的不断自动运行完成这个系统不会出现越写偏离越大的情况。我直接拿两个案例来演示一下,工具用的依旧是 copy code 用的是质朴官方这个 model 的 key 配置文件的话,其他都和之前保持一致, 模型替换成 glm 五即可。很多公司应该都有自己内部的企业级后端脚手架,不仅能统一开发规范,并且开发只需要引入对应的依赖和无需关注各种中间件的配置细节就能直接使用。 我之前写过 glm 五来生成 glm 二十一加 spring boot 三的企业级后端脚手架,编辑提示词开始执行,可以看到这次 glm 五在分析完任务之后,会以对话的形式来询问生成项目的细节问题, 宇宙包含哪些模块的 start 给了多个选择,接着询问项目的认证框架,最后确定报名的生成规范,等这些全部完成之后,就开始任务的拆解。 glm 五将脚手架拆分成了十四个大的模块,制定了十五项具体的实施步骤以及最终的验证方式,没问题之后,就开始让 glm 五开始构建系统了。 glm 五这次针对多阶段长步骤的复杂任务的优化做得太好了,整整十五个模块,花了一个多小时全部生成完成。整个过程不需要人去做额外的辅助工作。 除了代码生成之外,当在验证过程中遇到翻译失败的情况,它会自动分析日制,不断修复代码并重复验证,直到全部跑通。我们可以来看看最后的脚手架项目,所有的 start 按模块划分,比如 base 模块定义了统一的异常,统一返回信息, log 模块引入至框架搞定日制生成规范,做好 trace id 生成逻辑以及日制切面等配置。同理,像 mybatics 统一配置 radix mq 的 配置都做成了 start, 要使用直接引入对应的依赖即可,这是真的能很好的用起来的项目了。 接下来再做个全站的业务系统,做一个支持高频发的购票系统,能支持秒杀业务的场景。这次让他把前后端的项目全都生成,前端使用 vivo, 后端使用 jdk 二十一加 spring boot 三。 这里有个比较有意思的点,一开始我在提示词中将 jdk 二十一写错成 jdk 八了, jmm 在 分析需求的时候就发现了这个问题,并给了我几组匹配的 jdk 和 spring boot 的 版本。 手动调整之后, glm 五给出了十分详细的技术报告。整体的代码生成过程还是和之前一样,不需要人去做额外的操作就可以生成出完整真正可用的代码。现在前后端代码就生成完成了,我们来看一下。 先看一下后端代码,秒杀业务的逻辑写的十分严谨,其中高密发解决方案中包含了多级缓存、库存预扣、业务下单、分布式锁结果限流、动态余额等方案。前端页面是一个包含购票和秒杀的 h 五系统,我们来参与一下。秒杀 手速快,直接抢到票。智普在官方公告中提到了国产芯片万卡集训这个概念,意味着这次 gm 不 仅模型能力强, gpu 底座也是国产自己的。 去年过年来了个 deepsea, 今年过年来了个 gm 五,不知道二零二六年大模型究竟能发展到什么地步啊?以上就是本期视频的全部内容了,我是鱼仔,我们下期再见。

最近听说 g l m 五已经有实力对标 opus 四点六合格五点三 codex 了,这可勾起了我的好奇心,于是我决定亲自测试一番。 我先准备好了一份关于在 westcode 与集成 codex 教程的素材文本,接着把这份文本上传到智普平台,让它生成 html 文件。没多久,文件生成完成,我满心期待地打开查看。嘿, 不得不说,生成的任楚页面样式还挺不错的,布局清晰,视觉效果也挺好。不过我很快就发现了问题,页面里居然没有图片,这可不行!于是我给智普明确提示,让他使用相对路径来处理图片, 能看到他显示正在思考,我心想应该没问题了。等再次生成完毕,我重新下载文件并打开,可结果却让我大爹眼镜页面里空空如也, 啥都没有。这就让人很疑惑了,不是说 g l m 五已经能对标 opus 四点六和五点三 codex 了吗?可这连一个简单的 html 生成任务都处理成这样,实在是有点让人失望啊!

gm 五终于发布了,听说非常强,我也想试试他到底是不是真的有那么强,我第一时间就拿我维护了一年有上千真实用户的三倍插件给他上上强度, 直接挑战开发中最头的那三个难题。第一,极万行代码项目的全景理解。第二,多层嵌套的复杂 ip 逻辑。第三,真实用户的需求迭代。 我们这次的开发环境依然是 vs code 加 code code。 我 首先让 g m 五先理解一下项目整体的技术细节以及功能特点, 这里有一个非常关键的点是 g m 五在发现问题的时候,它会自动的去检测这个错误,然后自动的去修复,接着它就会去读取我相关的一些文件, 然后形成了一个完整的技术分析报告。大家可以看到它上面把这个技术的分层架构都写好了,哪些是处理 api 调用,哪些是处理交互以及数据持久化的。然后接下来就是我 api 的 调用逻辑,他每一个点他都列的很清楚,说实话他列的这个技术报告比我这个作者写的还清楚。接着我就让他基于用户反馈形成一个英文字母导出的功能,比如这是一个 英文的视频,它有一个英文的 ai 字幕。以前的话我们这个插件它是没办法获取英文字幕的,因为当时我是只支持了中文字幕的处理,就比如现在它这个英文字幕是没有的,现在这个英文字幕导出的功能,它不仅仅是增加一个按钮,更主要的是它需要去重构底层的一个解析逻辑。 就比如说我这个接口,它的数据是怎么返回的,我需要怎么去处理中文和英文字幕的选择?那 gm 五 他在思考之后就开始进行执行,然后直接去帮我编辑处理了相关的代码逻辑,大家可以看到他每一步他是怎么做的,这里都写的很清楚,然后最后他就帮我完整的实现了我需要导出英文字母的这个功能。我整体体验 gm 五的功能, 我觉得他真的是更加智能的,就像是一个支撑的系统架构师来帮助我便携代码一样。大家可以看到,现在在 g m 五帮我修复了英文字母下来之后,现在这个字母就可以获取成功了。 说实话, ai 编程最难的从来都不是写新代码,而是维护老代码。十三代码,我之前开发的飞书多表格、马克当预览插件,现在也有几百个付费用户,代码里面其实也有不少的十三代码平时没有大 bug, 我 根本就不敢 动它,生怕改动了之后影响用户的使用体验。不知道大家在用 ai 写代码的时候有没有遇到类似的问题呢? 但是啊,我最近观察到,不管是 cloud ops 四点六还是 gpt 五点三 codex, 它们都不再去卷升程速度,而是全面转向了 agintending coding 发展,简单来说就是更加专注于解决真实项目需求的能力。而 gm 五 就是目前开元界首个跟上这一趋势的模型。 gm 五整体表现都不错,在科奥的欧布斯四点六跟 gpt 五点三科特斯之间很多成绩甚至都感觉不到差距,但是我发现 gm 五有时候的响应速度确实有点慢,这点希望以后能提升一下, 再给大家说个心里话,其实三个月前我就开通了 gm codeine 的 套餐,我当时用的还是 gm 四点六,短短三个月时间,我们的钱还是那份钱,但是手里的工具却一次比一次强, nice! 我 眼看着他从四点六进化到四点七,再到今天可以跟科尔的 off 四点六扳手腕的系统架构师 gm 五 厉害!这种养成系的快乐真的太爽了!用过 gm 扣顶破烂套餐的老用户应该都懂,这次 gm 的 进步让我再次看到了国产模型的硬实力,大家赶紧去试试 gm 五吧! 好了,以上就是本期视频的全部内容,记得点赞和关注我哦!我是超超,我们一起学研,一起变强,我们下期再见!拜拜!

g i n 五它来了! 在二月头想必大家都被 call up 四点六和 g p 五点三这两款模型给刷屏了。你有没有发现,现在的 ai 编程模型都在强调长任务,都在强调自己的 agent 和解决复杂问题的能力,而没有在强调前端能够做的多么多么好看?而在这之后, openroot 又出现了个神秘模型 pony, 在平台上搜索第一,它的编程推理、角色扮演方面都非常出色。嗯,而外国友人都在猜啊,这个模型到底是哪家公司的?在猜是不是 sonnet 五?有的网友在想,小马 使用生肖命名的是不是中国模型,而在猜是不是 dc, 是 不是 gln 五,没错,它就是国产的智普。 gln 五也是终于终于上线了,它现在也是主打长任务,超长的执行任务链, 它能够像架构师一样自主拆解复杂的系统级需求,并在长达数小时的多阶段任务中保持清晰的上下文一致和目标一致性。而现在后端同学也不用担心,现在的 ai 编程代码都是重前端了,主要我特别擅长后端架构设计,具备强大的自我反思与纠错机制,能通过分析日制定位根因并迭代修复 实质问题解决。它在代码逻辑精细度和逻辑处理能力方面直接对标 qd 四点五,并且依然开元且便宜一大碗。我准备了三个案例场景,带大家一起沉浸式体验一下。首先第一个游戏场景,我 让九幺幺五做了一个编程逻辑迷宫,游戏用户需要规划中间的小人经过迷宫的行进路径,在左侧选择对应的行动程序块, 准备完之后,点击开始小人成功走出迷宫,则进入下一关,否则会给出失败的提示。这是我们的 pro, 而这是我用官方 agent 执行的步骤。这个游戏的 pro 呢,首先是想考验 g n 五是否能够自主拆解系统及需求和选择技术栈,比如将游戏清晰地划分成 u i u x、 游戏逻辑等模块,并且定义所有的交互接口和代码封装。我们来看一下它的思考过程。我们首先看到它对 pro 的 理解能力还是很好的, 核心玩法、视觉设计、交互功能、难度系统等都进行了一个前置的调研和总结。下面就是正常的思考过程,他说他应该使用前端样式专家 a 准来辅助设计,还需要全站开发人员 a 准来进行实现。可以看出在复杂场景下,他会自己寻找代理的工具进行规划和执行, 对于迷宫深层路径规划,用它的后端深度调试与复杂算法实现能力进行处理。最后就是列出来的图度,一步步执行整个游戏大概他不断反思,不断调试,不断进行功能迭代,持续的进行二十多分钟吧,这个速度我觉得也是非常正常的, 用这种深度的思考和编码就是要花很多的时间,反而一下子就完成的那种编码是很容易出问题的。最后这个游戏的完成度我个人感觉也是非常棒的。当然我也看到网友们的一些案例,比如这种小人跑酷的赛博朋克风格游戏, 翻牌子消消乐游戏,想象力也是很丰富了,这让 gl 五的复杂逻辑处理能力完完全全地表现出来了。第二个,三 d 渲染,我看到网友的一个 case, 非常惊艳,这是一个程序生成的三 d 行星模型,可以生成随机地形, 也可以自由改变行星的地形粗糙度、海平面高度、旋转速度,并且可以调整阴影模式,还支持昼夜循环效果和大气渲染。这效果我第一次看到的时候真的是太震撼了。我本以为它是经历过很多次的人工与 ai 迭代对话而成, 但是我看了一下它整个的 a j pro, 居然只是一个 pro 加 g r n 五的一次对话就完成了。虽然这个 pro 很 长很多细节,但是你敢信这是一个没有经历过二次迭代的产品吗? 我们来看一下它的思考过程,它是真的很有规划,而且在技术方面列的清清楚楚,比如要用什么技术站,首先需要实现什么,再实现什么,然后地形深沉、着色模式,昼夜循环分别都列出来应该要怎么实现。而最终也是依旧列出了个图度,去一步步完善,不断地自我纠错反思后给出完美的答卷。 太离谱了!因为我比较少接触三 d 的 内容,但是如果你让我去做这个东西,我估计没个三四天完全做不出来。而用 gl 五生成的用时肯定是少了很多很多,而且在这么短的时间内完成这么多复杂的逻辑交互,并且完成度还这么高, 是真的强。第三,网页布局。以上两个都是重逻辑的势力,接下来我看看喜闻乐见的前端方面有没有进步呢?其实这方面我给大家展示几个网友的案例就清楚了。第一个,这是一个现代感十足的个人 vlog 作品级调 搭配暖珊瑚色与电光青绿色点缀。在 hero 区域,它增加了照点粒子动画效果,每个文章区域都有独特的动态界面背景,并且下面还有非常炫酷的动态视觉动画,这效果你就看吧,一看一个不吱声,真的太顶了。第二个是一个 landing page, 在设计方面,它采用了暖灰色作为主背景色,在 yellow 区域还有一些动态漂浮的尘埃粒子,在下面以淡暖橙色作为点缀,随着页面的滚动,布局的内容也会有渐显的效果。整个页面非常的简洁现代,不管是段落的间距还是模块的排版,都很是漂亮优雅。太优雅了, 这句幺幺五的 ui 效果又进化了。我知道现在还是很多人对国产的 ai 持保留态度,心里更加认可国外的技术, 这种想法完全可以理解,毕竟在过去很长一段时间里,我们在基础软件和底层算法上确实存在差距。但是我想说的是,这种认知认可可能已经需要更新了。从去年过年的 deepsea 到现在一直在持续更新的 g l n, 包括我自己,已经出了很多关于 g l n 相关的视频。 从 g l n 以前的自然语言理解基作模型,再到 g l n 四系列的具备自主工具调用的全能模型,再到现在能够处理超长任务且复杂需求的 g l n 五, 我们可以清晰地看到,国产 ai 已经找到自己的节奏和方向了,我们正在形成这样的自信和能力,我是真的挺自豪的。好了,以上就是视频的所有内容,如果觉得有帮助的话帮忙点个赞,我是小卢,我们下次再见,拜拜!


zai 发布 glm 五点一代码能力大幅提升今日, zai 宣布, glm 五点一模型正式向所有 glm coding plan 订阅用户开放。此次更新在代码生成能力方面实现了显著突破。核心亮点,根据最新评测数据, g l m 五点一在代码任务评测中取得四十五点三分,相比前代 g l m 五的三十五点四分提升近百分之二十八,与业界领先的科阿德普斯四点六四十七点九分相比,差距已缩小至减二点六分。

母亲言新出了个模型啊,怎么样?这个模型他说说非常厉害。 jim 五吗?我看看啊,像有的官方说的,他的 humanity last exam exam 评分是比较高的啊,就拿这个评分来说啊啊,其实我们测一下会有很大的问题,你看一下这个屏幕,我看看 我们呃抽取了 horamis 的 mass 数据集,大概是一千多道,然后去测这个质朴清源拿这个呃正比奈,正比奈 flash 作为这个评判遇到一个什么问题呢?我发现他在解答这种数学类的问题的时候,他的思考时间头肯输出了将近两万,也就是说他两万还在思考都没有输出完, 所以说我们这个他根本就测不了,在我们看来,然后即使测的了的话,一次回答的成本大概在呃五毛钱左右,就一个问题大概在五毛钱,而且还两万都没有出答案,所以我们在想会不会是我们的测试出了问题, 于是我们又到了他的这个官方上,就试验了一下啊,现在还在跑是吧?我们这个数据集从呃几分钟之前就开始跑,呃直接停掉,然后我们可以往上拉,一直拉一直拉,就你就说他这个思考过程无限的延长,无限的思考,他虽然这个回复的内容是正确的,但是他貌似陷入了一个死循环的过程。 就是你是让他回答了一个问题是吧?数学问题, melodies 里边的一个数学 max 类别的问题啊,问题其实不复杂,他是一个单选,他有两两种类型,第一是选择题,第二是那个检查题。我们在问给他这个数学问题的时候,问了两道到三道,基本就是无限循环,然后他的费用基本在无限上涨, 所以我们我们也可能比较怀疑像这种评分它虽然很高,有没有可能它的思考过程会非常的长,可能是无限的,也他可能把这个给忽略了,他能思考一个问题,思考五分钟出了一个答案。我们也测了一下,像 jimmy、 nike 这种可能也就几秒钟就出答了,所以它会存在这样一个差异点, 所以说它这个评价体系稍微有点问题。也不算吧,我们后续可能还会对这些整体评价再整体测评一下,至少我们现在现在来看还是跟大家想的差别很大, 太大了。数学问题你要等个十几分钟去给你解出来。那我都做完了,你自己都做完了,哈哈哈,考试都结束了是吧?该交卷了。对,我们也建议在啊,我们建议在回答的时候还是把这种时间这个综合的都考虑进去。

随着 oppo 四点六跟 codex 五点三的推出,关于 ai 是 否可以替代程序员甚至大部分白领的言论甚嚣沉上。那么关于 vibe coding 氛围编程,我谈谈我自己亲身的感受,或许有一些有些刺耳,你可以说我是一家之言,但确实呢,都是我心里所想。所以呢,我们评论区友好的交流。 过去这半年呢,我感觉自己十几年来编程的习惯被彻底的推翻了,不是慢慢改变的那种,是你一抬头,你发现自己已经不在原来的那条道路上了。而且最诡异的是,这一切发生的非常的快,快到你还没来得及形成自己的观点,你就已经身在其中了。 这几周呢,我基本一直都在用 cloud code 跟 code 写代码,所以呢,有些零零碎碎的感受,系统性的跟大家聊一聊。首先,从最直观的变化说起,写代码的工作流到底是怎么样子的。 如果回到去年,我们公司呢,大概还是百分之八十的手写和百分之二十的 auto completion 自动补全 type type type 那 种有一丁点的东西呢,会用一些 agent。 但是到了年底,我们一咬牙上了 oppo 四点五,这个势头几乎就反过来了,百分之八十全是 agent 在 写,而我们呢,只负责百分之二十的修改,润色和 兜底。也就是说,现在我大部分时间其实是在用英文编程。 by the way, 差一句,这个没办法, clockwork 跟 codex 目前英文的回复的质量我觉得确实要高一点。 anyway, 回到主题呢,真的就是那种我有点不好意思地跟我的大语言模型直接说,嘿,你帮我写一个什么什么什么样的东西,然后呢?它它直接就 给你全部都写完了,没有任何的废话,尤其是现在的 oppo, 四点六跟 codex 五点三是几乎一次过的那种。 说实话,这对你自己的一 go 肯定是有一点打击的,尤其是很多程序员希望那种很强制的控制力,但是你一旦体验过之后,一次性对那种几千行代码做整体级别的操作,再让你回去一行一行的敲, 你真的是回不去了。尤其是当你慢慢学会你怎么用,怎么约束,怎么判断它到底能够干什么,不能够干什么之后,这种净收益非常大。这是我将近十几年编程生涯里的对我基础工作方式 最大的一次改变,而他不是用了几年,而是几周的时间就刷一下,全部改变我们的工作方式。给你们分享一盘数字,现在已经有相当一部分硅谷的工程师至少是两位数的百分比,这些工程师都在经历和我一样同样的事情。但你如果回到咱们中国, 大部分的程序员对于这件事情认知可能还停留在个位数,因为这里有一个很残酷的现实,咱们中国写代码的代码工程师本 来就是过剩的,所以大家对这个相对比较抵触,我是可以理解的。不过 anyway, 社会问题呢,不在我们今天的讨论范围当中。接下来呢,聊一个容易被夸大的点, 就是未来我们的编程环境到底是怎么样子的, ide agent 以及谁更靠谱。这件事现在外面呢,一共有两种声音,一种呢是以后呢?我们是一半 ide, 一 半是我们 agent 帮我们编,我们可以检查它的结果。另一种呢,是 agent 自己一个界面全部都会搞定,你只需要告诉他你想叫什么。 我个人觉得现在说什么都早了,没有人知道二零二六年底 web coding 到底会变成什么样子,而且目前看模型肯定还是会犯一点错的。而且如果你在写任何你真的在乎的代码的时候,你还是会有一 主动性的去盯住他,最好旁边呢,一定要开着一个正儿八经的 i d e。 上个视频呢,我给大家讲过 i d e 跟纯 agent 编码的区别,大家可以去看一看。只是呢,这些错误已经不是以前那种非常低级的语法错误了,现在更像是一个有点赶时间,有点自信过头的老工程师。他会犯的那种错误, 最常见的情况呢,就是他会替你做很多的假设,而且呢,他自己不检查,比如你脑子里默认这个数据肯定是排好序的,他也认了,然后整个方案都建立在这个假设之上, 你不说,他也不问,他就一路的狂写代码,也不自己回去检查。当然呢,这个是喘息的通病,更麻烦呢,是他并不擅长管理自己的困惑,他绝对不会主动跟你说这个地方,我不确定,他也不会指出他自己前后不一致的地方,他也不会摆出那种吹倒给你去选择,他更不会在该反对你的时候反对你, 有点太配合你了。我不知道是不是训练 ai 最后一步 r o h f 导致它能顺从人类就顺从人类,但我这点呢,反而希望它能够更激进一点的 反对我所有的事情。所以我一直建议 webcoating 的 各位用好你自己的 cloud md 或者是 agents, 到 md 给他定好规矩,让他该反对你的时候 反对你。当然,如果你 shift 加 tab 开启了 play mode, 情况会好一点,但目前呢, play mode 需要你单独去启动。我觉得真正缺的是一种清亮,随时能够进去的这种 play mode, 而不是我们人手去 shift 加 tab 给它打开。 还有一个特别明显的毛病,他们真的很爱把事情搞复杂,抽象层级的膨胀, api 设计过度,写不完,清理的这种死代码, 你可能会让它实现一个功能,它会非常认真的给你写出刷一千行逼笑、臃肿脆弱的版本。然后你看着屏幕说一句说等等,这里咱不是直接一个小小的 mapping 就 可以搞定吗?然后他就开始直言假笑,然后非常开心的说,当然可以,然后啪一千行变一百行。 但我还是想说,这可能是所有传速 mo 架构的通病,它不仅仅是写代码有这样的问题,因为传速 mo 的 基座决定了它指后往回输出,而不会在输出的过程当中去修改。前面 还有一个呢,你必须要时刻警惕的点,他有时候会顺手改掉或删掉他不太喜欢或者不太理解的代码或者注视,即使这些内容和前面的任务完全无关。就算你已经在 cloud md 里写了这个规则,这种事情还是时不时会发生。但即便如此,我跟你吐槽了这么多, 我还是得说一句,我吐槽的也只有这些不痛不痒的点了。未来一定是一个巨大的正向变化,而且至少我们团队是很难想象再回到完全手写的时代了。 如果你问我们现在的工作流非常的简单,两个屏幕,左边的这个屏幕呢,是几个 terminal 窗口在跑 clock code 或者是 codex 对 话,右边呢,是 anti gravity 的 ide。 去看代码,改代码都抵模型在上周,我们已经全部换成了 oppo 四点六跟 codex 五点三, 但另外一件事呢,特别让我震撼,想跟大家分享一下,就是 agent 的 任性。你看着他死磕一个问题,你真的会产生某种 agi 的 体感,因为他不会累,不会烦,不会自我怀疑。人类可能十分钟就开始想,哎呀,算了,这个 bug 有 点搞不定,明天再说吧, a 阵不会他就继续试,继续错,继续改。结果你看着他一个 opus, 一个 code 卡了二十分钟,甚至我都有点替他着急。结果呢,半个小时之后,啪!他突然成功把这个事儿给你解决了。那一刻你会意识到,耐力 本身就是我们人类工作中一个巨大的 bottleneck, 而大圆模型几乎是把这个瓶颈直接推高了一个量级。那至于效率到底提升多少,说实话,咱们很难去量化。我当然感觉自己公司的进展会发展更快了,但更重要的是,我们能做的事情 变多了。以前呢,我们是要算 high count 去请人,现在呢,我们就是多开一个 terminal 窗口。有两种以前我们根本就不会做的事情,现在呢,变成了我们日常。 第一种是那些我们写出来觉得花时间不值当的很小的小脚本小工具。第二种呢,是因为我们以前本身知识能力的不足,我们的边界太窄,或者是某一类的代码,某一种语言我们能力不够,导致我们根本不敢碰的代码库,比如 rust。 所以 你如果问我,我当然觉得这是一种加速,但它更像是我们的团队能力的杠杆在哪里? 不是多开几个 terminal, 而是你要让 l l、 m 自己去循环。你不要告诉他怎么一步步去做,你要告诉他什么叫做成功。举一个例子,你让他先测试, 再让测试通过,然后把他和你的浏览器的 m、 c, p 放到同一个 loop 里头,最后再写一个朴素但大概率正确的算法,然后再让他不破坏正确性的前提下去优化。 这个就是我们如何从一种命令式的思维转向一种声明式的思维。你会发现 agent 可以 跑得更久,而你撬动的杠杆也因此更大。还有一个是过去这半年我们自己没有想到的一个点,就是编程变得更好玩了, 大量的填空式、机械式的痛苦劳动直接消失了。剩下呢,就是我们偏创造性的这部分的工作。我很少花时间卡在某一个点在死磕,也不 太容易去陷入那种我现在完全不知道下一步要干嘛的这种状态了。我反而更有勇气去探索那些我以前不敢探索的点,因为你几乎总能够和 ai 一 起推进一点点进展。我觉得未来和 ai 的 编码可能会把工程师分成两类,一类呢,是真正自己喜欢写代码这件事, 另一类呢,是喜欢把东西创造出来的感觉的人。但代价呢,也不是没有。我已经很明显地感觉到自己手写的代码能力 极度的退化,写代码和读代码,你要知道是两种完全不同的脑力技能,就算你已经很难从零写出一段代码,你依然可以很少的去审查、理解、判断它的代码到底是否合理。那么这件事呢,大概率会长期的存在,而且它会越来越加具。 所以我也在为自己的公司在二零二六年做一个心理准备,因为每天我们都要和工程师喝一个小时的咖啡去分享感受,不是我们怎么去用,或者是哪个模型新出了,而是更 high level。 我 们的思维方式到底这一年会变成什么样子?比如到年底,你们每个人是否会变成一个十倍生产力的工程师? 平均的工程师和顶尖工程师的差距,我们会怎么样去定义?我们怎么去面试一个新的工程师?会不会这个差距会被拉得更大?那么在 ai 的 帮助下, 通采会不会越来越占优势,也是我们一直在思考的一个问题,毕竟呢, ai 非常擅长补细节,而不是定宏观的战略。未来的 ai 的 web 定的编码会到底像什么样子?是像我们在玩星际争霸,还是去看 alpha 下棋?还是他们在演奏一首音乐剧? 以及一个更大的问题,就是整个社会到底有多少地方在目前被数字化的知识者的能力卡住了瓶颈,这个 singularity 如果突破了,到底会带来什么样的影响?

g l m。 五点一正式上线。 g l m。 五点一在编程测试拿下了四十五点三分,仅比特 opus 四点六,第二点六分达到了 opus 百分之九十四点六的水平。 g l m。 五点一依然会保持开元,当然 更经济的使用方案是购买包月的 coding plane, 目前 live 版本只要四十四点一元,首月对于小龙虾玩家和开发者是值得推荐的选择。

智普发布了新模型 g l m 五,大家好,我是海拉尔编程客,今天咱们使用 g m l 五来复刻一个极简版的 cloud code, 麻雀虽小,五脏俱全, to do, sub agent 和 skills 都有。 先看一下 slogan from web coding to agile engineering。 我 喜欢把它翻译成从氛围编程到严肃编程。第一句话强调了系统工程和编程,第一句话强调了系统工程和工程任务。 我们直接看一下这一个表格,这个表格的图例部分还是有点意思的,我们可以看出来,这一次的比较几乎就没有去比较 solid 四点五了, 而是直接比较了 oppo 四点五和 g p t 五点二,也就是说这一版本的野心是 t 零模型在一些奔七 mac 的 测试上和 oppo 四点五打的有来有回啊,但是这些数字很难转化成具体的感受,那我们直接看一下实际体验究竟如何 啊。这里面有个仓库叫做 learn cloud code, 你 发现大概有七百多行 python 代码就可以把一个 cloud code 的 核心代码实现了。那我们今天的任务呢,就是把这一段 python 代码理解,然后呢把它做一个 rust 版本的实现 啊,其实就是刁难 gm 五,看看能不能完整的理解并复刻。坦白来说, rust 我 学了好几次,和我的心智模型不是很搭啊,所有权借用生命周期这些都是写啊 rust 的 心智模型啊,但是和我的习惯它不是很相配, 现在就不太一样了,因为主要是 ai 来写代码啊,我只需要关心设计这一块。所以说今天咱们就当一个技术经理啊,让 gm 五帮我们来实现一下 啊,在我们复刻这个软件的时候呢,我建议大家还是先和 ai 聊一聊啊,把这一个文件它大致做的是什么?先聊通啊,不然的话后面维护会出现一些问题,这里我们把它拖过来 啊,我现在是一个不是很懂技术的这个产品经理啊,请你帮我绘制呃,写一个 macdunk 文件啊,然后呢?呃 呃,尽量多的用这一个 mermaid 的 呃图来做一个图解啊。 啊,好,你先帮我绘制啊,尽量多的绘制这个 mami 的 id, 因为我不是特别懂技术啊,这个麻烦你了,我一定要给 ai 说,这里我建议大家跟跟 ai 说话的时候最好客气一点,哈哈哈,开玩笑开玩笑, 这里面我建议大家使用 vs code 里面的一个插件啊,小马老师开发的叫做 markdownview 啊, 可以呢,我们直接点开,我们可以看出啊,这里面有一个技术图解文档,大家可以看到,其实我并没有使用太多的 skill, 太多 skill。 然后我们来看一下这个用户层 啊,输入,输入命令,这有一个主循环啊,一个 loop, 每一次呢会上下位就是对话地址,然后在这个 loop 里面呢不停地去执行 啊,这个 task 子弹里啊东西,文件写入文件,编辑文件,还有 toto, 还有 bash 这一系列的东西。接着呢,它拆解了这一个就是技能和工具, 然后有这一个知识外置化的优势,技能的三层渐进式加载, 还有这一个主代理的这个循环流程,虽然我们在聊这个上下文管理,但是其实这些背后都是凸,靠 用户输入添加到历史消息,开始代理循环,调用 cloud api 获取工具,调用循环的执行每一个工具,然后收集工具结果,然后添加到历史消息,然后再做一个循环 工具的加载流程,缓存的保护机制。子代理系统是怎么做的?还有这个 to do manage 任务,管理它的状态啊,对吧?它的这一个任务显示是什么样子的 啊?拆解的非常详细啊,和其他模型相比,它应该是目前通过这个 mermaid 拆解的最细的一个模型。 强烈建议大家试一试啊。这里面没有使用太多的 skills, 只是单纯的和他聊一聊,让他用 mermaid 来解析一下, 进一下 cargo neo。 呃, mini cloud code, 然后我们进入,我建议把刚刚的拍摄文件放到这一个。呃,脚本里面,这样子是给 ai 做一个参照, 然后我们进入 gm, 接着呢,我们先敲 init。 好, 接下来我们要做的事情是什么呢?我们先写一个计划。呃,我想请你帮我写一个计划,我想复刻啊,用 rust 复刻 oracle 这里面的。呃呃,迷你 cloud code 啊,我想请你帮我。呃,搞一下好不好啊?我们先聊一聊。 嗯,我觉得先让他把聊的过程记录下来吧。请你把这一个聊出来的结果呀。呃,放到这一个 plan d 里面, 我这里把它写到 docs plan and d。 好, 有车,你先等一会。 这里面他问了我几个问题,看一下选择什么客户端啊,来告诉我。他现在告诉我如何选客户端,是吧?那我们选一个吧,他推荐啥?选啥?这个怎么管理?异步运行时啊?他推荐啥,我们选啥? 这个什么样的框架啊?他推荐啥,我们选啥?这一个 mvp, 我 觉得在复刻基础上我们就完整复刻吧,包含所有功能,对吧?包括 task, 子弹里耶, 我们来看一下这一个 plan 技术站啊,项目结构,单纯从项目结构上看还是比较专业的。 然后基础工具有 bash, read file, write file, edit file 啊,高级工具是 to do skill task, 紫艾里之音啊,这个看起来好像都没有什么问题, 然后依赖表的话好像也还都好,然后他给除了和 python 版本的这个差异。 好,我们看下来呢,基本上都已经 ok 了,但是先让他写一版,看看有没有问题。呃,你开始做吧, 那完成了完成那,那咱只是赢一下 这个命令啊,我觉得太长了。然后,呃, 我觉得先这个咱这个 work d l i 啊,应该是以当前的这个 d l i 为主啊,然后这个 skills 呢,我觉得咱可以扫描一下这个目录下的 cloud md 点 skills, 你 觉得呢? 啊?然后咱们把这一个呃错误的专属名词给改一下, 我觉得这面太啰嗦了,那我直接我们直接敲吧,用一个 cloud skills 好, 我们让它兼容一下 cloud skills 啊,可以看出来应该是聪明不少的。这个以前的 rast 的 正确率没那么高, 所以说他是更能测出这一个呃代码的逻辑理解能力的啊。如果你是一个后端的话,你可能会更喜欢这一个大模型,能够更懂逻辑一些,而不是仅仅需要在前端页面上显得好看一些。 可以运行了,那咱看一下 啊,当我们运行的时候发现环境变量没有配置是吧? serpik 这一个默认的设置啊,但是咱们用的是 gim 对 不对?那咱们把这一个环境变量啊,我在本地配置的时候是用 astronautostoken gim 啊,是这一个 gim 的 这一个换件面料,然后呢我们有一个 base u l 啊,是 gim 国服的这一个 base u l, 然后呢模型呢是 gim 五是不是?然后我们直接把它复制过来,接着呢 我告诉他请你使用上面的这三个啊设置啊,我现在呢这一个呃这个除了 token 这一块呢是读环境变量的,其他的呢就是直接写死啊 啊。这里面大家需要注意的是啊,我这里面没有暴露我的 token, 但是如果说大家想投机取巧的话也可以直接把 token 复制进来让它自己去调试啊,调试完之后呢再把这一个 token 给删除啊,我这里面是提前设置好的一个呃环境变量, 这样子就省得我后面出现什么问题啊,我现在再运行一下看看,哎好像是可以运行了是吧。在这个 skills 这一块是没有加载的啊。我们来看一下 skills 这一块是没有加载啊。呃有没有什么问题呢啊?帮我看一下。 我的感觉是比之前要更灵性一些,之前的话如果遇到这个问题 呃我会告诉他这一个没有加载,有没有什么问题帮我看看,但是呢他并不会尝试更积极地去调用这一个命令行,然后去检查这个 skills 呢, 依旧是目录存在,但加载了零个技能,然后检查一下解析逻辑 啊。这个版本就是比之前要更主动了一些啊,之前更多还是需要手动的去催一下啊, 现在呢就更积极了一些啊,然后一直不停的尝试去解决这个问题,只要他发现 skills none, 然后检查呢,发现和他的预想不一样,他就会一直去尝试去修复这个问题啊,这一点是蛮好的。 好,现在我们可以看到 skills 这一块已经展示的比较全面了啊。然后 skills 这一块我们先看一下吧,这个随便调一个 skills 看看。 呃,帮我想两个炸裂的这一个 ai 自媒体的文案,谢谢,因为这也是一个比较出版。哦, 好,有问题了,开心。这个有问题是好事, 我们把它复制过来,再粘贴过去。 哎,大家可以看到他帮我自动运行刚刚失败的这一个任务。哎,就这意思。 这版本确实比较比较有灵性啊,比较有灵性 g m。 四点七的时候呢,我可能需要花更多的时间告诉他。嗯,帮我测一下刚刚的内容啊之类的,现在还没有。 好,我们再跑一下看看。 呦,没复制过来是吧,我们复制过来。 好,我们可以看到它在加载这一个。呃, copywriting, 接着我们测一下另一个 skill, 用 renault best practice。 好, 我们直接进入 demo。 嗯, install, 然后把这一个位置复制过来,请你使用。帮我写个终端, 把这一个内容复制过来,我们看一下。 好,我们可以看出来他在调用啊, remotion best practice, 然后去检查了那一个项目。啊,看到已经是一个 remotion 项目了,然后呢,再去看结构, 当然我们可以看出来这一个终端都不是很漂亮啊,没有 cloud code 那 么漂亮,但是说从这一个功能的上面呢,已经看不出什么区别了。 嗯,我们打开浏览器,然后输入这一个,让我看一下 terminal demo。 哇,又创建了一个终端是吧?当然,我们可以看到这一个迷你 cloud 的 扣呢,确实使用了 skills。 然后呢,帮我创建了这一个看起来还是有一定美感的一个终端,它是完美的,是吧?然后它要创建更高级的势力,那我们就不等了。 然后呢,因为我们这个项目还支持了 sub agent, 是 不是?那我们就做一个简单的测试吧。好吧,呃,请你多开几个。呃, agent, 帮我扫描一下这个仓库还有哪些值得优化的地方。 哎,好,又有 bug 了,开心。哎,又有 bug 了。好,那我们把它复制过来。 这里边应该 可能是 r e p l 本身的问题,我觉得 python 这一块应该会处理的比较好,但是可能用 rust 它这里面有点什么问题吧,没有处理好, utf 杠八,哎,没错,这个是一个很呃 reasonable 的 一个预测 啊,它已经修好了是吧?嗯,这是骡子是马,咱再遛遛啊,把这个复制过来。 哎,我们可以看到这里面它开了几个 sub agent 来做检查, 那我们就等一会吧。 比较有意思的点是,这一个 gl 五自己写的 cloud code, 给自己的原码挑了三十多个可优化的点。严格上来说,你现在就可以用这个迷你版的卡拉格子,给这个迷你版的卡拉格子不断的添砖加瓦,直到 它可以写出你满意的功能。啊,完全实现了自。我们总结一下,这一次 gm 五是一个很大的升级,它的体验非常好,从我的体验上来说, gm 五已经超过了索尼很多, 几乎已经逼近了四点五,当然肯定距离四点五还是有一些差距的。 gl 五有两点给我的体验非常的好,第一是他的理解能力极大的增强了, 在四点七的时候,我是发现我需要不停的通过多轮对话来催促他干活,催促他理解 啊。在这一次的版本中呢,它的规划能力变得很强,理解东西的能力也变得很强。第二点是它的逻辑能力, gm 四点七的时候我是用它写过一些 rust 程序的啊,因为 rust 的 语料相对来说没有那么丰富,流行程度呢,也不是特别的高。 鉴文五让我在写 rap 的 程序的时候,可以更多的关注在设计上是什么,更多的关注在这一个需求上是什么,而不是去处理一些细枝末节的东西,省下来的时间可以做更多有价值有趣的事情。而这也是 ai 的 意义,我是海拉的编程课, ai 永无眠,我们下期节目再见!拜拜!

三月二十七日晚上,智普突然甩出大招,发布了 g l m 五点一。距离上个版本 g l m 五点零才过去一个多月, 这个模型强到什么程度?官方评测从三十五点四分飙升到四十五点三分,暴涨超过百分之三十。 对比一下,当前全球最强编程模型 clopus 四点六,得分四十七点九, g l m 五点一之差两点六分。 在编程能力上,国产大模型已经占上了世界第一梯队。更关键的是价格, opus 四点六是最强也是最贵的,很多程序员用不起 g l m, 只要它的零头便宜好几倍。 当然,跑分好看不代表一切,还得看实际开发体验。国产模型在工程实践上还有进步空间, 不过一个多月提升百分之三十,这个速度确实恐怖。开源之后会怎样,值得期待。