那些个成天吹 gm 五点一多么厉害,那些人啊你们能不能别吹了,不要再用了啊,今天星期天,现在晚上快九点钟了,我就我这 a p i 就 在这哐哐报错哐哐报错。你们不要用了 啊,你再用我没东西用了,我求求你们了别吹了,五点一真的没那么好用。别用啊,烦躁。
粉丝8157获赞29.1万

断档第一!就在刚刚,智普 g m 五点一登顶 swbench 等一众硬核榜单,连 happy face 的 ceo 都发文祝贺。在编程能力三项综合测试中, g m 五点一也达成了开源模型第一,国产模型第一的成就直逼 clop 四点六和 g t 五点四 外,网上已经开始疯狂安利了。所以今天六博士就和大家一起拆解这个被称作新晋国产元神的 gm 五点一究竟有什么创新点?他的实战能力到底如何呢?点赞收藏,方便回看!接下来一起进入本期云祖会 gm 五点一的强大可以总结成一个词,长城任务能力。什么是长城任务?简单说就是那些不能靠一句提示词解决,需要跨步骤、跨工具、跨时间持续推进的工作, 比如开发一个完整的应用,或者重构一个老项目。 ai 模型评测机构 m e t r。 研究显示,在编程领域, ai 能完成的任务复杂度呈指数级增长, 每七个月就翻一倍。行业的共识是,单人回答已经不够看了。正如 m i t tech review 和顶级资本所判断的,二零二三至二零二四年的 ai 是 对话者,而二零二六至二零二七年的 ai 正成为执行者。 交付单位正在从一个回答变成一个项目。以前的模型像个聪明但健忘的实习生,走几步就要人提醒,稍微复杂点就丢上下文忘约束你,让他忘了你删不之前说的数据库规范。 而 glm 五点一的目标是让它能独立交付,对最近非常火的 harness engineering 无疑是锦上添花。长城任务能力才是检验模型智能的下一个标准。 口说无凭,我们来实测一下,我们直接拿号称宇宙最强的 cloud opus 四点六和 glm 五点一做对比 来,我们现在开始丛林手搓一个植物大战僵尸。我们可以看到,在搭建整个游戏框架的时候,居然五点一完全自主规划并执行模型,创建了五乘九的方格,按照类别创建植物僵尸并设计游戏机制。来看看,不错啊,感觉有模有样了。 那我们来考验一下他的长城任务能力,让他再优化更新一下游戏输入提示词,增加观察选择、返回菜单按钮功能。 可以看到,虽然整体美工上因为没有着重设计,稍微有些简陋,但在游戏机制和体验上, g o m 五点一完美复现了植物大战僵尸的核心内容。而且体验最好的是它中间遇到翻译报错时能自己查日期,改代码,重新跑通,全程无需人工介入。 反观 core 这边,实在出乎我的意料,一开始点开始游戏进去没画面修正以后,美术风格也不如 g l m 五点一。接着我们来再看其他四个案例的对比, 刚刚看到的四个案例,不论是火山爆发还是月球围绕地球旋转动画, g l m 五点一都是全流程一次过,而 cloud 在 火山喷发和机械表案例第一次喷不出画面。 所以说结果就见仁见智了。至少从以上五个案例上看, g i m 五点一是更好的那个。 为什么 g i m 五点一能扛住长任务,不跑偏,不锻炼核心有三点。第一,更强的长城规划与目标保持 模型,不是你说一步他做一步,而是能把复杂目标拆解为多阶段可执行计划,并在长链路执行中始终围绕最终交付推进,减少跑偏、遗忘、约束或陷入局部坠油。 第二,更稳的多工具协同、代码编辑、环境调试、 api 对 接环节衔接稳定。过去开源模型长任务后半程容易断裂,而现在 g m 五点一能自主排查修复,不用停下来等你。 第三,更好的上下文一致性,这是他能对标 cloud op 四点六的关键点。在多轮交互后期,模型啊仍能稳定追踪已完成的内容,当前阶段和下一步的关键动作,有效解决了上下文中的稀释效应。 这一切的背后,是 g l m 五点一引入了 multi turn 强化学习和过程质量评估体系,它在可能性、自适应、纠错、工具使用与推理三个维度实现了进化。对比 k 二点五等竞品,它不再是需要盯着的聪明应届生,而是给目标就能独立交付的老员工。 试完 g l m 五点一之后,我装那愣了一会。之前编程啊,我更愿意用 cloud, 但这次试了 g l m 五点一之后呢,确实不得不感叹,国产模型的进步啊,真的很大。 以前我觉得 ai 再强,它也只能做碎片化的工作,我作为拆解任务把控权局做决策的人,位置啊是安全的。但当模型啊开始自主规划、自主执行、自主纠错、自主交付时,我突然意识到自己的可替代性啊,在迅速上升。 我并不想呢,贩卖焦虑,但你体验过之后,肯定能明白我想表达的是什么。最后, g m 五点一墙归墙,但你这抠钉 pen 的 速度啊,实在是有一点供不应求了,赶紧给服务器扩扩容吧。

智普啊,发布了 glm 五点零,为了测试它的能力啊,我用它构建了一套可以无限运行的 ai 开发系统。我用这个系统运行了长达十个小时,从晚上十点到早上八点, ai 做了几十次 getmate 的 提交, 开发了一个 ai 漫剧生成工具,有前后端有数据库,可以用户注册和登录,还接入了大圆模型,图片生成模型,视频生成模型。通过这个视频,你会学到如何构建这样一个无限运行的 ai 开发系统,并了解到 glm 五点零的惊人开发能力。 整个过程我都只是输入简短的 prompt, 没有亲自阅读或修改任何一行代码。我一直在旁边玩着游戏,等他干活, 尤其是我视频最后会讲的,他把整个项目的所有模块联合起来,然后端到端的 bug 修复错误,非常的牛逼。他不只是单纯的写代码,他甚至自行在浏览器中验证每个功能的正确性,找出 bug, 然后自行在浏览器后端数据库第三方的 api 之间联合调试,找出问题,修复错误。 那赶紧进入正题啊,相信对你会有所启发。我使用的工具是 cloud code, 并且把模型切换为 g l m 五点零,具体方法可以看我之前这一条 g l m 四点七的视频。 那我们首先要搭建一套能无限运行的 ai 开发系统,说是系统,其实就是几个文件,做法非常简单,我把一篇来自 astonopy 的 神级文章发给 ai, 让他自己去学习,根据这篇文章做出这套系统 文章叫长时间运行智能体的有效调度编排框架。那过程中 ai 做出了一些操作预期的举动,他通过 m c p 打开浏览器, 通过这篇文章的页面找到一个配套的 get up 仓库,打开仓库的代码文件进行学习。而我事先都不知道这个代码仓库的存在,最终他创建出了这一些文件。 我解释一下最重要的几个,帮你理解一下这套系统的工作方式。 task 点 jc 文件,其实就是一个任务列表,每个任务都有它的描述,并且会标记是否已经完成。和我们人类工程师每天上班一样, ai 每次从这里面领取一个任务, 完成后就做一个标记,这样他的 ai 同事啊,就知道项目进展到哪里。 progress 点 txt 文件,每次 ai 完成任务啊,或者任务失败后,都会在里面留下工作日期,这也是为了给其他 ai 同事提供一些信息。 log 点 m d 文件,这里面全是提示词,用来指导 ai 根据固定的规范流程工作。和我们人类工程师的开发流程类似, 第一步,跑一个脚本,来初识化整个项目的环境。第二步,在 task 里面领一个任务。第三步,就开始开发。第四步,测试和验证。 第五步,更新 progress 和 task 文件。第六步,用 git 提交代码。那如果中间遇到困难,需要人工介入,它就要及时向人求助。那在以前一些长期运行能力不强的模型中啊, 这么长的开发流程,一旦工作上几十分钟,模型就会逐渐混乱,不再按照规定的流程工作,而如今完全没问题啊。视频后面我们会看到, glm 五点零,即使在长达一个小时的工作,提交了几十个 commit 后,仍然很好地遵循开发规范。 然后呢,我让他写一个脚本,用来无限时间的运行。这一套开发流程背后的原理很简单,就是把 cloud code 放到一个 while 循环里面,这样一来,人不在电脑旁边的时候没法手动 prompt, ai 就 可以执行这个脚本,让 ai 无限的工作。它之所以有效,有几个原因啊, 第一,我们这套流程每次只要给 ai 说一句,完成下一个任务,不需要更具体的指示, ai 就 能通过 task 和 progress 文件知道自己现在应该做什么。 第二,每个 task 都很小, g l m 五点零足够的强大,每一次 y l 循环里面,他只是领取一个很小的任务,并且严格的测试,成功率极高。第三,每完成一个任务,模型的上下文都会被清空,所以模型始终保持在最聪明的状态。 第四, g l m 五点零非常可控,严格按照工作规范执行,每次小任务都会进行 commit, 所以 即使出错,我们可以轻易地回滚到旧版本。 好,现在我们这套系统有了,接下来就要开发软件,我们先来设计一下它的功能和架构。这个软件的用途是一句话,生成长视频。我让 ai 把整个项目的开发需求拆成了三十一个任务,放到 task 文件里。 这是 ai 设计的软件,架构不复杂,但五脏俱全。再看一下 ai 画的业务流程图啊,帮助大家理解我们要开发的这个软件具体的功能。 首先,用户会创建一个项目,然后用大圆模型生成每一个分镜的文字描述,然后再用图片模型生成每个分镜的图片,再用视频模型生成。视频开发的流程比较长啊, ai 做了几十次提交,我就选几个精彩的给大家讲。 在 ai 做到第十九个任务的时候,为了测试 glm 五点零的能力呢,我产生了一个大胆的想法,我让他一口气做了一个多小时,完成了十一个任务,干完一个又一个,中间我没有任何干预, 给大家倍速感受一下效果。他一直在写代码,并且每次都遵循我们的开发规范,每个任务都完成,测试一个,一个任务,单独提交代码,拿一个具体的任务作为案例啊。他现在领取了任务三十,任务目标呢是实现响应式的布局,也就是让 u i 在 手机端和桌面端看起来不一样。 他现在正在修改代码,然后验证项目能 build 通过。然后他现在把浏览器的大小变成了手机屏幕大小。打开了我们的应用,他点击了一个按钮, 他对页面做了一次截图,用识图的 m c p 判断是否正确。再打开了一个新的页面,再做了一次截图,并检查是否正确。然后在 progress 里面仔细描述了自己所完成的工作,然后把这个任务标记为完成,他就按这么一套方式疯狂的干完了每一个任务。 要接入数据库的时候呢,他主动提出需要人工帮助,并且一步一步地给我说明,告诉我如何去这个 superbase 平台啊,点哪里创建项目,配置数据库,获取 api key。 尽管我没怎么用过 superbase, 仍然轻松地操作下来了。中间我还犯了错误,给他提供了错误的 key, 也被他及时发现,最后他还让我帮他去注册一个测试账号,然后他自己打开浏览器,输入账号密码,验证登录功能,可以正常使用。那像 superbase 这种外部的系统啊,超出了 ai 的 控制范畴。 g o m 非常明确的给我提供指引,让我协助他完成开发工作,一个不了解后端的人,也能在他的指引下完成数据库的配置。 他开发完后端一系列 c r u d api 后呢,声称对每一个 api 都进行了测试,但所有的 api 都是需要 os 的, 前端也还只有一个空白的页面,所以我就很好奇他哪里来的 os 权限,怎么完成测试,是不是在忽悠我? 于是我问了他一下,他用简短的语言,漂亮的格式向我解释。他说他打开浏览器,登录了刚才创建的测试账号, 然后通过一个叫做 browser evaluate 命令,在浏览器可以执行任意的 javascript 代码。然后他写了一些临时的 js 代码,就在浏览器里运行,调用我们的后端 a p i, 这样就能有 office 了。非常聪明的做法,我还怕他在骗我,我检查了一下录像,确实如他所说,他打开浏览器疯狂测试, 中间还真测试出不少问题,他就自行查看后端的报错日期,自行修复。最终三十一个任务全开发完后,啊,我也懒得去人工验证这个项目是不是已经可以用了。在往常的开发中啊,到最终阶段,因为已经把 前端、后端、数据库、第三方 api 全部连起来了,那第一次的集成测试啊,就会非常头痛,因为任何地方都可能出错,往往需要浪费大量的时间再把错误找出来发给 ai, 让 ai 去修复。但这一次我非常大胆,我只说了一句话, 请你完整测试一遍流程,确保功能可用。大概就是从早上七点十分开始,他自己在浏览器上疯狂测试,花了一个小时提交了这么多改动,用来修复 bug。 我看他在浏览器上像人一样一步步操作我们的产品,通过截图和视觉能力来判断是否符合预期。遇到问题的时候呢,他就自己查询后端的报错,检查各种 api 的 状态,综合分析出问题。最终他总算顺利的生成出了第一个视频,端到端的把整个应用全部打通了。 他修复的每一个 bug, 做的每一个 feature, 其实我都不清楚是什么情况,但我想知道的话,我只要找到他的 commit 记录,看一下他在 progress 文件里写了什么。这也是这套流程的强大之处,一切都是可追踪的。 我们让 glm 五点零一边开发项目,一边在开发过程中发现问题,让 ai 来增强我们这一套自动化的开发系统,左脚踩右脚,螺旋升天,我相信这就是未来开发者的工作方式。总结来说, glm 五点零已经远远超出了单纯抠顶的范畴,而是能对软件工程的每一个环节进行自动化,提升效率。 gm 五点零在超长任务上非常出色,已经达到了能让我放心的交给他连续运行一个小时的程度。横向对比的话,我个人认为 gm 比刚发布的 oppo 四点六弱一点,但在一些方面可以超过 gbt 五点三。 重点是价格便宜非常多,但现在过于热门啊,供不应求,抠钉套餐非常难抢。那我们这个项目呢?虽然现在端到端全部打通了,但最终深层的视频效果还有很大优化空间。点赞到一万,我可以开源出来,让感兴趣的人进一步优化它。

又是深夜发布,今天突然发现智浦开源了 glm 五大模型,没想到年前的开源大模型市场还会出来这个网站从前几天 cloud ops 四点六和 gbt 五点三 codex 的 发布可以看得出来,二零二六年商业大模型趋势将从能写代码升级成能构建生产机系统, 没想到的是开源大模型这么快就跟上了,熬夜测试了几个小时,本期视频我们就来看看 glm 五都有哪些亮点,以及都能做些什么事情。 二零二五年使用大模型编程的过程中,我发现虽然 ai 已经可以做出一个个很好看的前端页面了,但是真的让他去做一个生产能用的系统或者是一个庞大的任务,经常写着写着 ai 自己就圆不回来了。 但这次 glm 五真正能做出生产可用而不是单纯好看的系统,并且遇到复杂系统需求会自己拆解,可以长达数小时的不断自动运行完成这个系统不会出现越写偏离越大的情况。我直接拿两个案例来演示一下,工具用的依旧是 copy code 用的是质朴官方这个 model 的 key 配置文件的话,其他都和之前保持一致, 模型替换成 glm 五即可。很多公司应该都有自己内部的企业级后端脚手架,不仅能统一开发规范,并且开发只需要引入对应的依赖和无需关注各种中间件的配置细节就能直接使用。 我之前写过 glm 五来生成 glm 二十一加 spring boot 三的企业级后端脚手架,编辑提示词开始执行,可以看到这次 glm 五在分析完任务之后,会以对话的形式来询问生成项目的细节问题, 宇宙包含哪些模块的 start 给了多个选择,接着询问项目的认证框架,最后确定报名的生成规范,等这些全部完成之后,就开始任务的拆解。 glm 五将脚手架拆分成了十四个大的模块,制定了十五项具体的实施步骤以及最终的验证方式,没问题之后,就开始让 glm 五开始构建系统了。 glm 五这次针对多阶段长步骤的复杂任务的优化做得太好了,整整十五个模块,花了一个多小时全部生成完成。整个过程不需要人去做额外的辅助工作。 除了代码生成之外,当在验证过程中遇到翻译失败的情况,它会自动分析日制,不断修复代码并重复验证,直到全部跑通。我们可以来看看最后的脚手架项目,所有的 start 按模块划分,比如 base 模块定义了统一的异常,统一返回信息, log 模块引入至框架搞定日制生成规范,做好 trace id 生成逻辑以及日制切面等配置。同理,像 mybatics 统一配置 radix mq 的 配置都做成了 start, 要使用直接引入对应的依赖即可,这是真的能很好的用起来的项目了。 接下来再做个全站的业务系统,做一个支持高频发的购票系统,能支持秒杀业务的场景。这次让他把前后端的项目全都生成,前端使用 vivo, 后端使用 jdk 二十一加 spring boot 三。 这里有个比较有意思的点,一开始我在提示词中将 jdk 二十一写错成 jdk 八了, jmm 在 分析需求的时候就发现了这个问题,并给了我几组匹配的 jdk 和 spring boot 的 版本。 手动调整之后, glm 五给出了十分详细的技术报告。整体的代码生成过程还是和之前一样,不需要人去做额外的操作就可以生成出完整真正可用的代码。现在前后端代码就生成完成了,我们来看一下。 先看一下后端代码,秒杀业务的逻辑写的十分严谨,其中高密发解决方案中包含了多级缓存、库存预扣、业务下单、分布式锁结果限流、动态余额等方案。前端页面是一个包含购票和秒杀的 h 五系统,我们来参与一下。秒杀 手速快,直接抢到票。智普在官方公告中提到了国产芯片万卡集训这个概念,意味着这次 gm 不 仅模型能力强, gpu 底座也是国产自己的。 去年过年来了个 deepsea, 今年过年来了个 gm 五,不知道二零二六年大模型究竟能发展到什么地步啊?以上就是本期视频的全部内容了,我是鱼仔,我们下期再见。

母亲言新出了个模型啊,怎么样?这个模型他说说非常厉害。 jim 五吗?我看看啊,像有的官方说的,他的 humanity last exam exam 评分是比较高的啊,就拿这个评分来说啊啊,其实我们测一下会有很大的问题,你看一下这个屏幕,我看看 我们呃抽取了 horamis 的 mass 数据集,大概是一千多道,然后去测这个质朴清源拿这个呃正比奈,正比奈 flash 作为这个评判遇到一个什么问题呢?我发现他在解答这种数学类的问题的时候,他的思考时间头肯输出了将近两万,也就是说他两万还在思考都没有输出完, 所以说我们这个他根本就测不了,在我们看来,然后即使测的了的话,一次回答的成本大概在呃五毛钱左右,就一个问题大概在五毛钱,而且还两万都没有出答案,所以我们在想会不会是我们的测试出了问题, 于是我们又到了他的这个官方上,就试验了一下啊,现在还在跑是吧?我们这个数据集从呃几分钟之前就开始跑,呃直接停掉,然后我们可以往上拉,一直拉一直拉,就你就说他这个思考过程无限的延长,无限的思考,他虽然这个回复的内容是正确的,但是他貌似陷入了一个死循环的过程。 就是你是让他回答了一个问题是吧?数学问题, melodies 里边的一个数学 max 类别的问题啊,问题其实不复杂,他是一个单选,他有两两种类型,第一是选择题,第二是那个检查题。我们在问给他这个数学问题的时候,问了两道到三道,基本就是无限循环,然后他的费用基本在无限上涨, 所以我们我们也可能比较怀疑像这种评分它虽然很高,有没有可能它的思考过程会非常的长,可能是无限的,也他可能把这个给忽略了,他能思考一个问题,思考五分钟出了一个答案。我们也测了一下,像 jimmy、 nike 这种可能也就几秒钟就出答了,所以它会存在这样一个差异点, 所以说它这个评价体系稍微有点问题。也不算吧,我们后续可能还会对这些整体评价再整体测评一下,至少我们现在现在来看还是跟大家想的差别很大, 太大了。数学问题你要等个十几分钟去给你解出来。那我都做完了,你自己都做完了,哈哈哈,考试都结束了是吧?该交卷了。对,我们也建议在啊,我们建议在回答的时候还是把这种时间这个综合的都考虑进去。

为什么在 openroot 里面小米这个排名这么靠前,而 gm 这么靠后呢?这个模型它编写能力不是很强吗?为什么在这个地方感觉都排到屁股上去了? 是因为它实际效果没那么好吗?还是为啥大家都不愿意去用它呢?反而这个 mini max 我 感觉也一般,但是它反而能够成为第一。

四月四日晚间,科技焦点中国的 z i i 已经把一套生产级的 ai 代理系统开发教程直接送给开发者。为什么 open ai 融资融得手软,但 t n w 和雅虎财经却在疯狂预警, 因为数据不会撒谎。目前全球 ai 领域那是真的虚火旺盛,投资规模飙到了两千五百八十亿美元。但这笔巨款砸下去,听得响了吗?并没有。华尔街现在最焦虑的就是 roi 投资回报率。 openlight 刚拿完钱,看似风光无限,实则软件股上个季度直接沦为书假。这就是典型的脱石象,虚资本在前面疯狂吹泡沫,技术在后面却连个像样的工程化落地都交不出来。 他们把大把的钱砸进算力黑洞,买英伟达的卡,搞微软的云,搞了一圈封闭生态,最后发现所谓的智能代理还在实验室里做选择题,根本进不了工厂和流水线。 但就在他们还在 ppt 上造梦的时候,东方的质朴已经划破夜空。 z i 这次发布的 g l m 五教程,根本不是简单的代码更新,它是直接把生产就绪这四个字刻进了骨子里。 openai 还在搞封闭围墙,试图用 api 绑定你。 z i i 直接推出了 openai 兼容接口, 这是什么概念?这意味着开发者不需要重写一行代码就能无缝迁移,直接用上中国自主可控的模型。西方巨头还在收过路费,中国技术已经帮你把路修到家门口了。更狠的是, g l m 五直接拿出了 thinking mode 和全站流势处理能力,这在工程化领域是巨大的技术分水岭。 当别人的模型还在因为上下文过长而荡激,或者因为无法调用工具停摆时, z i 已经解决了从思考到执行、从 s、 d、 k 到部署的全流程难题。这不是跟随,这是在工程化能力上的降维反杀,是用硬核技术把玩具变成了工具。这 场博弈,归根结底,不是谁算法更牛的学术竞赛,而是关乎科技主权与普通人未来的生存战。西方巨头想用天价融资筑起高墙,收全世界的洋品牌税,让中国企业永远做下游的打工仔。 而 z i i 这样的中国力量,正在用极致的工程化能力把这道墙给拆了,把路给铺平。我们不再需要在那套昂贵的封闭体系里仰人鼻息, 不再担心哪天接口被卡脖子、数据被窃取。中国科技的胜利,就是让普通人用得起、用得上真正能干活、能创造价值的 ai, 而不是看着资本数字狂欢。当两千五百八十亿美金的泡沫散去,真正能扛起 ai 大 旗的,到底是拿着百亿美金还在画饼的投机者,还是默默把代码写进生产线的中国实干家?

大家好,今天我们来深度解读智普刚发布的 glm 五点一,一个能独立工作八小时,编程能力达到 cloud opus 九十四点六的开源模型。这不是渐进式进步,这是开源模型的范式跃迁。先来看智普这半年的迭代速度,从去年底的 glm 四点五,到今年初的 glm 四点七,再到二月的 glm 五, 然后三月二十七号 g l m 五点一就上线了,距 g l m 五发布才一个多月。而且智普这次发布非常低调,没有发布会就在用户群里说了一句, coding plan, 全体用户直接升级,但成绩是实打实的。 artificial analysis 综合能力开源第一, s w e bench 代码工程能力开源第一, open router 用量开源断档第一。三个维度同时登顶,说明这不是偏科,是全站突破。 g l m 五点一最核心的突破不在于能回答多难的问题,而在于能独立工作多久。过去所有模型的交互模式都是分终极的,你给指令,他给回答, g l m 五点一打破了这个限制,能在单次任务中持续自主工作长达八小时,完成规划执行、迭代优化的完整壁画。 具体来说,他在三个方面实现了质变,第一,长城规划与目标保持,你给他一个目标,他自己拆除执行路径做到第十步,还记得第一步定的约束。第二,多工具协调,不是会做一步,而是能跑完全程。第三,上下文整合,不再出现做到一半忘了前面约束的问题。 来看技术架构, glm 五点一的总餐数量是七百四十四币,采用二百五十六个专家的猫易架构,但活跃参数只有四十币, 相比上一代活跃参数仅增加了八 b, 能力却实现了飞跃式增长,这说明架构效率极高。三大关键技术,第一, deep seek space attention 稀疏注意力机制,在保持二百 k 上下文的同时,大幅降低部署成本。第二, slime 亦步强化学习框架,这是质朴自研的 r l 训练框架,代号史莱姆已经开源,它让模型能在优化碰壁时主动切换策略,而不是反复尝试同一个方向。 我们把三代模型放在一起对比, glm 四点七十三为五 b 参数,三十二 b 激活定位高性能编程模型, glm 五完成了从三百五十五 b 到七百四十四 b 的 架构跃迁,编码评分三十五点四,而 glm 五点一在同样的七四四 b 架构下,通过 slm 二 l 和 dsa 的 技术创新,把编码评分拉到了四十五点三,相比 glm 五提升了百分之二十八。长城任务能力的变化最为显著, g l m 四点七是分钟级, g l m 五也是分钟级提升,而 g l m 五点一直接跳到了八小时级,对,其目标也从 s n a 四点五一路追到了 opus 四点六。这印证了一个重要趋势,模型能力的提升不再单纯依赖参数规模, 而是靠更聪明的训练策略和架构优化。来看三个震撼案例,第一个睡前交给 g l m 五点一,一份架构草图。 早上醒来,一套完整的 linux 桌面系统已经做好了,历时整整八小时,执行了一千二百多步,产出了桌面窗口管理器、状态栏、应用程序、 vpn 管理器、中文字体支持游戏库等等配套文件四点八兆,这相当于一个私人团队一周的开发量,而且全程没有人参与 模型,甚至自己写了回归测试,还跑过了第二个案例,更硬核 g l m 五点一对向量数据库做了六百五十五轮自主迭代优化,它不是简单微调参数,而是完成了一整套优化链,从全库扫描切到 i v f 分 桶, 引入半精度压缩,加入量化粗排做两级路由,再到提前减脂,每一次跳跃都伴随着短暂的性能下降。 因为模型在探索新方向时暂时打破了约束,然后再调回来,这个打破修复循环本身就是有效优化的标志。最终查询村土从三幺零八 qps 推到了二幺四七二, qps 提升六点九倍。第三个案例,在五十个真实 m l 计算赋载上, g l m 五点一自主编写 treaton kernel 和 cody kernel, 运用 cobbloss 融合 shared、 memory、 tiling、 cody graph 等优化,超过二十四小时不间断迭代,最终取得三点六倍几何平均加速比。而 touch 到 compile 的 max auto tune 模式只有一点四九。 在 gpu 内核优化这个高度依赖专家经验的领域, ai 已经展现出端到端的自主工作能力。来看硬指标,在 s w e bench pro 最接近真实软件开发的精准测试中, g l m 五点一刷新全球最佳成绩,首次实现国产模型超越 colog 的 oppo 四点六。这个测试要求模型在真实 github 仓库里定位并修复高难度 bug。 综合三项最具代表性的代码评测,平均结果,全球模型第三,国产模型第一,开源模型第一, 量化到 cloud code 编码评分, glm 五点一拿到四十五点三分。 cloud opus 四点六是四十七点九分,达到了 opus 的 百分之九十 四点六,相比 gim 五的三十五点四分提升百分之二十八。最后看价格, glm 五点一的输入价格,每百万 token 只要一美元,输出三点二美元, 输入成本是 cloud opus 的 五分之一,输出成本更夸张,仅为 opus 的 七分之一点八。 gpt 五点四的四分之一,简单说就是百分之九十四点六的 opus 能力。 百分之二十的价格,有意思的是,智谱同时还涨了百分之十。涨价后, g l m 五点一在抠定场景的价格已经接近 cloud sonic 四点六,这是国产大模型首次在核心场景与海外头部厂商价格对齐。敢于涨价,本身就是对能力的自信。 g l m 五点一已全面开源 api, 通过 big model 开放平台和 z a i 接入, z a i 的 聊天产品已经上线 g l m coding plan, 全部用户都可以使用, 兼容 cloud code、 open code 等主流开发工具,开源权重在 github huggingface 和 model scope 上都可以下载。总结一下,从 glm 四点七到 glm 五,再到 glm 五点一,开源模型正在经历一条清晰的能力跃迁, 从效率工具到大众创造,到自主执行,再到持续交付。 glm 四点七让模型会写代码, glm 五让模型像工程师一样执行任务。 glm 五点一则把目标推向了让模型像资深工程师一样持续工作八小时, 交付完整成果。长城任务是检验模型智能的下一个标准,当一个开源模型能独立搞定中高级工程任务,我们需要的不仅是更强的模型,更要重新思考人类工程师的不可替代性在哪里。感谢观看,我们下期再见!

在四月七号,智普官方发布他们最新模型 glm 五点一,这个模型能力很强,是开源现在来说的开源第一,在专业软件开发基础测试中 打赢了 gpd 五点四和 ox 四点六,在 human 二的测试中也逼近了 carl 的 ox 点六,在代码库生成和真实终端任务的测试中也比之前的 glm 五提升很多。 这这模型的能力基本和 g p d 还有 cloud 的 闭源模型都打平了。它这种模型能力很强,主要就是针对一个长城任务的优化和执行上面的优化。 在 g r 五的基础能力上面,它是针对于模型容易过早停滞的问题进行了深度的优化,它在执行任务的过程中,可以在几百次的迭代和几千次工序调用之中 继续去优化,保持能力实现时间越长结果越好的这个效果。 嗯,官方给出的实力是在八个小时内搭建了一套 linux 的 桌面系统。嗯,相较于之前几个模型,之前几个模型在尝试几次失败之后就停止了,性能处出现明显的下降。 但是五点一会在这个执行的任务过程中不断去调整他的规划,说明五点一的长时间任务能力和规划能力确实很强。我自己也去试了一下五点一的模型, 在执行相同的任务的时候,其他几个模型确实是会遇到这个赛博被打墙的情况。嗯,执行一火之后,技能和质量完成的明显的下降,但这样某点一的效果就会好很多。我感觉模型的方向现在继续卷,就是朝 长征任务规划和自主执行这两个方向去卷。嗯,人类负责制定规则和目标, 然后模型去完整的跑通,这个流程执行下来找到人类验收结果和给他纠正错误,用自然语言跟他交流就可以把任务很好的完成。

hello, 大家好,今天我们来讲讲趣里面的 g l m 五和 kimi 二点五模型。趣作为集成多款前沿 l m 的 开发环境,让开发者能轻松对比和切换模型。 其中今年二月份发布的 g l m 五和一月份发布的 kimi 二点五是当下最受关注的开源旗舰。首先,我们先确保去已更新到最新版,我们可以先来测试一下使用 g l m 模型, 我们输入指令,让它帮我们生成一个 ppt 大 纲, 大纲要求结构清晰,逻辑严密,并包含每一页的核心要点。 我们可以看到用 glm 五模型生成的 ppt 大 纲总共有十六页,而且还给出了一个设计建议。 我们再次建立一个新对话,把模型切换成 kimi 二点五,用同样的指令让 kimi 二点五也生成一个 ppt 大 纲,看看两者的效果如何。 kimi 二点五之后生成了二十页的 ppt 大 纲,比 glm 生成的多,而且也多给了建议。 gm 五强在逻辑分层章结构化提高写作。 kimi 二点五容易写成大段文字,而不是清晰的 bpt 美业要点。简单地说, kimi 二点五擅长读很多,然后提炼 gm 五,上传给出主题,最后直接出标准 ppt 结构。如果你要正式汇报工作, ppt 方案,产品介绍,可以优先选择 gfm 五。你要从超长资料里做 ppt, 论文中述大量文献整理,可以用 kimi 二点五。 ok, 今天的视频就到这,欢迎大家在评论区留言,我们下期再见。

硅谷顶级的分头机构 a 十六 z 刚刚发布了一组数据,开源模型和顶级闭源模型之间的能力差距正在以肉眼所见的速度快速修改。 这次被正面对标的是来自智普的开源模型 glm 五和闭源天花板之一卡尔的 oppo 四点六。而市场的反应往往比数据更直接。 glm 发布以来,编程套餐一度被疯抢到断货,技术报告在开发者社区连续刷屏,相关概念股大涨。不过啊,市场的兴奋从来不会凭空产生,这背后往往是一种范式正在发生变化。 那么今天这期视频,我们一起来看看,这个被称之为从氛围编程走向智能级工程的开源 glm, 到底做对了什么?而这些关键细节啊,都来自于新鲜出炉的 glm 技术报告里。第一,上下文成本被打下来了。你要做智能级工程,必须是长记忆,几万行代码,几十人交互,跨文件调用少一点都不行。 glm 五在注意力机制上做了精细化改造,通过 dsa 模型,不用扫全部,只看最重要的部分,在上下文能力没有打折的前提下,实现了长序列推理成本的明显下降。简单来说,它不仅能记得住,而且算得起。第二,强化学习的方式变了。这是更关键的一步。 传统的强化学习训练,就像工厂里的生产线与检查员步调要完全一致,一方等另一方效率极低。而 glm 五采用了异步智能体强化学习框架,让生成和训练彻底结偶, 脱离引擎跑任务,训练引擎做更新,各用各的 gpu 模型,可以在真实复杂的任务中持续进化,而不是在题库里刷分。这也是为什么他的技术报告在海外社区被频繁拆解讨论,因为底层的训练方式确实不一样。 第三,训练环境是真实的,不是单纯的扳旗、 mark、 微调。 glm 五搭建了超过一万个真实软件工程环境来训练模型,包括真实的 get 哈比一手真实的终端任务 模型不是背了多少知识,而是真的在沙河里一遍遍的试错改错,拿奖励信号来训练出来的。所以你会发现一个很明显的变化, g l m 不 只是回答的不错,而是结果真的能跑通。更值得一提的是, g l m 已经完成了主流国产芯片的全站适配,并在国产算力计算上验证了高吞吐低延迟的稳定运行能力。 过去我们总说国产开源在追赶,甚至有人质疑是不是只是蒸馏国外模型,但这次还真的不一样。 glm 不是 研究 oppo 的 路径往前追,而是用了一套完全不同的价格思路、训练饭式和工程体系,走出了一条属于自己的路线,最后却抵达了同一个能力终点。所以当模型开始为智能级工程而生,市场给出的反应往往比 bendimax 分 数更快。

兄弟们,智普 g l m 五上线后,流量爆发式增长, g l m codeplay 更是上线即受气,算力都不够用了。智普发公告称,团队在全力协调算力资源,加速完成扩容部署,关联的是云浮商和国产算力。二、 双良节能公告最近获得了 spacex 三个订单,就遭到了监管几事,原因是信不信不完善。虽然订单不是直接供应,而且也只有不到一千四百万,但也是国内为数不多真正供应 spacex 的 公司,应该不至于像巨粒一样吧。 三、协创数据计划一百一十亿采购服务器,用于为客户提供云算力服务。四、深圳研发了人工智能加先进制造业行动计划,要以 ai 芯片为突破口,做强半导体产业。中信国际也表示,存储器、 bcd 供不应求,都在涨价,关联的是科技半导体。

最近有网友问我,世界大模型第一股智普的 glm 五发布了,说它是全球最好用的开源模型,编程能力堪比 cloud, 是 真的吗? 先说结论是真的,中国清华系智普最新的 glm 五模型已经在编程能力上比肩 cloud 了,全球开源模型中排名第一,虽然还有微小的差距,但是我们在快速的追赶中, 我是杨乐多大白话讲 ai 这款 glm 五到底强在哪?用三点跟大家说清楚。第一点,开源模型世界领先。目前这款 glm 五在全球的开源排名中,编程能力排名第一,综合能力排名第四, 也就是在全球范围内把代码公开,让大家免费使用的模型里面, g l m 的 编程能力是最强的。第二点,代码能力逼近顶尖水平,目前编程全球最强的就是 cloud 模型,而 g l m 五在编程的使用体感上 已经跟 cloud 相差无几了。第三点,他专门擅长处理复杂的任务逻辑,也就是一个不会代码的人,可以跟他进行多轮对话后生成一个复杂的产品,甚至不用写一行代码就可以实现。 我们客观的看,差距确实还存在,但是你要知道,一年前我们的 ai 代码编程能力比全球顶尖水平差了十倍不止, 而现在我们基本上跟他们近在咫尺了,并且 glm 还是一个开源的模型,开源的模型意味着全球的开发者都可以免费的使用它,并且在上面进行二次创作和修改。 而 cloud 是 闭源模型,只能通过付费调用它的 api 来进行使用,并且不能对其进行二次的修改和调整。做一个比喻啊, cloud 就 像是高墙内的武林高手,没有人知道它是怎么实现的, 他的武功不外传,你们只能看。而 glm 五呢,就像一个武林盟主把所有的武功秘籍全部都公开了,那你想想谁的影响力更大,谁会进步的更快呢? 这就是中国 ai 的 速度,中国至普系的 glm 一 年时间走完了别人三到五年要走完的路,中国在不断的这,这背后就是中国的 ai 的 硬实力,也是中国 ai 选择开元路线的再一次胜利。

a i 决赛圈大力出奇迹的暴力时代呢,正式落幕。昨晚呢,智普的 g m 五的发布,揭开了一个让硅谷不安的真相。呃,前两天那个横扫全球榜单,代号 polly 阿尔法的战神呢?大家还在猜它到底是哪个厂商的模型对吧?并不是靠堆出天文数字的芯片,而是靠一套近乎冷库的稀疏架构, 把算力的利用率呢,压榨到人类极限。不是算力不重要,而是低效的算力竞赛呢,已经玩不动了。逻辑其实很简单,过去两年,全球都在迷信呢, scaling law 做规模, 觉得只要芯片够多,规模够大,参数量够大,智能就能无限增长。但 g l m 五呢,给出的答案是,架构智能正在超越算力规模。它采用 d s a 架构,跟 deepsea 即将发布的新版本呢,是采用了同样的架构,本质上是在做一套极其精准的 助力分配。这就像一个天才学生嘛,他不是把整本书背下来,而是精准地知道呢。那百分之一的内容提纲契领的核心是什么? 这种稀疏化的逻辑呢,其实是人类大脑的生存本能。我们大脑的功耗只有二十瓦,却能处理极其复杂的逻辑,靠的就是不全量计算, 对吧?核心聪明的算法。 g i m 五呢,确认了这件事, ai 的 下半场呢,不再是比谁矿场更大,而是比谁更少的比特能量承载更多的逻辑。呃,当算力红利呢?编辑递减,算法效率呢,就是新的主权。 所以 g m 五呢,给我们的启示,不是谁代替了谁,而是呢,是如何与高效率共生在二零二六年呢?如果你还把 ai 当成一个简单的搜索引擎,你可能就是在浪费这一代模型最核心的能力。逻辑预判, 我建议你现在去测测他这个 a 正的编排能力。呃,看看他的如何处理多部欠套任务。是不是不要做工具的搬运工啊,要做流程的架构师,因为当模型的运行成本呢?逐渐降低,智能就会像白开水一样廉价,而你的体温质量和业务拆解能力才是未来唯一的溢价。 你觉得 ai 应该变得更庞大、更全能,还是应该变得更轻巧、更像人类呢?我是 linos, 关注我,带你洞察 ai 科技生产力,记得点赞关注哦!

gm 五终于发布了,听说非常强,我也想试试他到底是不是真的有那么强,我第一时间就拿我维护了一年有上千真实用户的三倍插件给他上上强度, 直接挑战开发中最头的那三个难题。第一,极万行代码项目的全景理解。第二,多层嵌套的复杂 ip 逻辑。第三,真实用户的需求迭代。 我们这次的开发环境依然是 vs code 加 code code。 我 首先让 g m 五先理解一下项目整体的技术细节以及功能特点, 这里有一个非常关键的点是 g m 五在发现问题的时候,它会自动的去检测这个错误,然后自动的去修复,接着它就会去读取我相关的一些文件, 然后形成了一个完整的技术分析报告。大家可以看到它上面把这个技术的分层架构都写好了,哪些是处理 api 调用,哪些是处理交互以及数据持久化的。然后接下来就是我 api 的 调用逻辑,他每一个点他都列的很清楚,说实话他列的这个技术报告比我这个作者写的还清楚。接着我就让他基于用户反馈形成一个英文字母导出的功能,比如这是一个 英文的视频,它有一个英文的 ai 字幕。以前的话我们这个插件它是没办法获取英文字幕的,因为当时我是只支持了中文字幕的处理,就比如现在它这个英文字幕是没有的,现在这个英文字幕导出的功能,它不仅仅是增加一个按钮,更主要的是它需要去重构底层的一个解析逻辑。 就比如说我这个接口,它的数据是怎么返回的,我需要怎么去处理中文和英文字幕的选择?那 gm 五 他在思考之后就开始进行执行,然后直接去帮我编辑处理了相关的代码逻辑,大家可以看到他每一步他是怎么做的,这里都写的很清楚,然后最后他就帮我完整的实现了我需要导出英文字母的这个功能。我整体体验 gm 五的功能, 我觉得他真的是更加智能的,就像是一个支撑的系统架构师来帮助我便携代码一样。大家可以看到,现在在 g m 五帮我修复了英文字母下来之后,现在这个字母就可以获取成功了。 说实话, ai 编程最难的从来都不是写新代码,而是维护老代码。十三代码,我之前开发的飞书多表格、马克当预览插件,现在也有几百个付费用户,代码里面其实也有不少的十三代码平时没有大 bug, 我 根本就不敢 动它,生怕改动了之后影响用户的使用体验。不知道大家在用 ai 写代码的时候有没有遇到类似的问题呢? 但是啊,我最近观察到,不管是 cloud ops 四点六还是 gpt 五点三 codex, 它们都不再去卷升程速度,而是全面转向了 agintending coding 发展,简单来说就是更加专注于解决真实项目需求的能力。而 gm 五 就是目前开元界首个跟上这一趋势的模型。 gm 五整体表现都不错,在科奥的欧布斯四点六跟 gpt 五点三科特斯之间很多成绩甚至都感觉不到差距,但是我发现 gm 五有时候的响应速度确实有点慢,这点希望以后能提升一下, 再给大家说个心里话,其实三个月前我就开通了 gm codeine 的 套餐,我当时用的还是 gm 四点六,短短三个月时间,我们的钱还是那份钱,但是手里的工具却一次比一次强, nice! 我 眼看着他从四点六进化到四点七,再到今天可以跟科尔的 off 四点六扳手腕的系统架构师 gm 五 厉害!这种养成系的快乐真的太爽了!用过 gm 扣顶破烂套餐的老用户应该都懂,这次 gm 的 进步让我再次看到了国产模型的硬实力,大家赶紧去试试 gm 五吧! 好了,以上就是本期视频的全部内容,记得点赞和关注我哦!我是超超,我们一起学研,一起变强,我们下期再见!拜拜!

七千四百四十亿参数,这是中国智谱 a a i 刚刚发布的 glm 五模型,号称基于华为芯片训练并开放权重。国产大模型真的追上来了吗? 还是说,这又是一次 ppt 式的突破?今天我们拨开宣传的外壳,用数据和逻辑告诉你真相。 先说硬事实, g l m 五的总餐数量从前代的三百五十五亿暴涨到七百四十四亿,翻了一倍多。但更关键的是,它的激活参数只从三二 b 增加到四零 b, 增加了百分之二十五,这是什么意思呢?这叫 mo 架构混合专家模型, 简单说,它有七千四百四十亿个专家,但每次回答问题只调用其中四百亿个。这就像一个拥有一千个博士的团队,每次任务只派出五十人,效率极高, 训练数据也达到了二十八点五万亿个词源,相当于人类所有出版书籍的一百倍。而且它能在华为升腾 atlas 八百 a 三服务器上部署和推力, 这在二零二二年美国制裁之后具有标志性意义,证明国产芯片真的能跑得动这种级别的模型 最重磅的是权重完全开源,在 github、 hugenface、 model scope 三个平台你都可以下载,甚至还提供了 f p 八和 w 四 a 八两个量化版本,降低部署门槛。 好了,喜讯说完,现在要说坏消息了。 glm 五确实是开源模型的世界第一,在 freebench 编程基础上得分七十七点八,在 terminalbench 终端操作上得分五十六点二,都超过了其他所有开源模型。但是和闭源模型比呢? 在 g p q a diamond 这个高难度推理测试上, g l m 五得分八十六点零,而 g p t 五点二,得分九十二点四,差了六点四个百分点。 在 am 数学竞赛上, g l m 五得分九十二点七,而 cloud opus 四点五得分九十三点三,还是落后。 这说明什么?说明开元 sota 和全球 sota 是 两回事。 glm 五在中国团队中是最强的,但在 open ai and phropic 这些美国巨头面前还有差距。更微妙的是,基于华为芯片训练这个说法, 官方文档只确认了可以在升腾上部署,但没有明确说训练过程完全使用升腾。训练和部署是两个概念,训练需要七千四百四十亿参数,全负荷运转,硬件要求极高,而部署只需要激活四百亿参数,硬件要求低得多。 如果 glm 五是先用 nvidia gpu 训练,再在升腾上优化部署,那国产化训练的趋势就打了折扣。还有一个有趣的细节, glm 五使用了竞争对手 deep seek 开发的 sparse attention 技术。 你看,中国 ai 团队之间底层技术是相互借鉴的,这和美国 open ai and phropic 那 种封闭模式完全不同,这算开放还是缺乏原创? 说到国产话,我们得聊一个哲学问题,什么是自主? g l m 五即使真的完全用升腾训练,它就真的自主了吗?它的 mo 架构来自国际技术眼镜, 它的 sparse attention 机制来自 deep seek, 它的二十八点五万亿训练数据来源完全不透明, 我们不知道有多少是国际公共数据。它的开源分发依赖 honey face 和 model scope, 它的推理框架依赖 v l l m s g l n 这些国际开源项目, 你发现了吗?我们在努力摆脱对国外芯片的依赖,对全球技术网络的依赖, 这就是技术自主的辩论自主不是零依赖,而是依赖结构的转换,从依赖 a 国硬件转变为依赖 a 国架构、 b 国算法、 c 国数据帝国、开元社区。在现代技术体系里,没有任何一个国家能凭空创造一切。 真正的自主不是某一环节的国产化,而是对这种依赖关系的清醒认知和主动管理的能力。 再来说说开源,很多人以为开源等于免费,等于理想主义,但 g l m 五的开源更接近武器化开源。它的策略是这样的,先开放权重,吸引开发者构建类似 metaloma 的 生态护城河, 然后让用户习惯 g l m 五,再转化为 api 付费用户,这叫开源引流, api 变现。质朴的 api 在 二零二六年一季度涨价了百分之八十三,结果还是供不应求。 这说明什么?说明开源权重没有稀释 api 收入,反而通过生态扩张带来了更多付费用户。 这不是纯粹的知识共享,这是以开放之名型竞争之时。当然,这不一定是坏事,商业公司需要盈利,开源作为竞争策略很合理。 但我们需要清醒,当代的开源行动,核心驱动力可能不再是理想主义,而是实用主义和商业理性。开源不是慈善,而是投资。 还有一个不得不说的现象, ai 民族主义、 glm 五被官方和媒体蓄势为国产大模型的里程碑,自主可控的突破。 这种蓄势的核心是将技术成就转化为国家认同,我们做到了,这有积极意义。在卡脖子危机下,它动员了国家、企业、个人形成共识,集中力量突破关键技术。 用户也会出于支持国产的意愿,优先选择国产模型,加速生态形成。 但也有消极面,为了满足公众期待,可能将可能夸大为已经实现,将部分自主夸大为完全自主, 就像可在升腾上部署被模糊成基于升腾训练。多家国内公司竞相宣布全球第一,形成恶性竞争,资源重复投入。从哲学角度看,技术追求客观真理,民族主义追求情感认同。 当两者结合时,会出现蓄势先行,先有框架,再挑选符合框架的证据。我们需要学会区分事实和框架。 所以,回到最初的问题,七四四 b 参数的 g l m 五到底意味着什么?如果你是开发者,你可以下载它的权重,在本地部署或者基于它开发应用。 如果你是企业决策者,你可以评估它的性能和成本,看看是否适合你的业务场景。如果你是普通用户,你可以体验质朴、清颜等产品,感受国产大模型的进步。 glm 五不是完美的,它有差距、有争议、有不确定性, 但它是中国 ai 团队向世界证明自己能力的一次尝试。在这个充满不确定性的 ai 时代,也许唯一确定的是技术发展不会停止。 无论你是支持还是质疑,这都值得我们继续关注和思考。技术自主的辩论,开源的双刃剑,民族主义的张力, g l m 五只是一面镜子。

几千台设备的生命周期管理,十二张数据库表的互相关联,完整的 r b a c 的 全员体系加发货单的审批流程。正常来说,这种企业系统呢,至少要三四个人搞一个多月。但是我刚看到智普刚刚发布了 g m l 五啊,说是开元界的第一个系统架构师的模型。行,那别客气了,咱就试一试。这里我用的是 c c switch 加 colossco 的 方式, 把 colossco 的 底座模型呢切换成了 g m l 五,直接把我整理好的这份 pl 文档呢丢给他,从零开始,看他到底能不能接得住。虽然是用 colossco 的 跑的跑的,但核心模块的逻辑呢,还是 g m 五输出的。 能看到,他先是把整个项目呢拆成了四个阶段,先搭什么,后搭什么,前后端怎么配合排的很清楚。这个规划质量和我之前用原生可拉的 office 做项目的体感呢是差不多的。然后呢,他就开始噼里啪啦干活了。首先是构建 spring boot 的 后端架构, 用户认证,设备档案批次管理,一个模块接一个模块往上加,后端搭完了呢,再构建 nexgs 的 前端,因为工程量确实不小啊,这一步他自己足足写了一个多小时。这个小时里呢,我没怎么管他,他自己呢,就在终端里跑, 先后端再前端,最后生成了出纸化数据库的脚本。用过 a g 的 写过代码的朋友都知道,这个节奏呢,是最考验模型脑子乱不乱的, g m 二五呢,全程逻辑在线,这一点呢,十分难得。前端写完了,最终运行的时候呢,报了个错,依赖版本冲突, 我让他看了一眼,这个报错信息呢,他改了个配置文件,重新安装了一遍就 ok 了,也就是说写了这么久,只修改了一次呢,他就能直接撞起来,想想啊,也是很厉害的。最后后端 spring boot 的 启动成功, api 返回正常数据,前端页面呢,也能正常跑起来。十二张关联表,完整的 r b a c 的 权限体系,发货单、审批状态机,这些呢,全都跑通了。 后面其实就和平时开发项目差不多了,遇到问题呢,就让他去定位修复,你会发现,这就跟一个靠谱的开发同事做极速编程啊,没什么区别。到这你可能会觉得这些不都是正常操作吗?对啊,这就是正常操作。但问题是呢,以前做到这些呢,只有可乐和 gpt 一个柜一个闭园,而且随时都有可能会被封号儿。 现在 gm 五作为一个开源的模型呢,也能做到这样的全载工程能力和这样的质量交付,实在是不容易。而且大家别忘了,从算力底座到上层架构,这可是跑在国产芯片万卡级群上的成本呢,那是绝对可控的。所以,这种能掌握在自己手里的生产力,你们不想去试试吗?

各位科技圈的朋友,今天咱们来聊聊智普最新发布的 g l m 五点一。这不仅仅是一次模型升级,更像是一场开源模型对闭源模型的正面突围。为什么说它是突围? 因为 g l m 五点一在 s w e band pro 这个硬核的编程评测上,以五十八点四分的成绩超越了 cloud op 四六的五十七点三分,拿下了全球第一。但跑分只是表象,真正的震撼在于它的耐力。 想象一下,一个 ai 模型能像资深工程师一样,在 linux 桌面系统上自主工作八小时,经历六百五十五轮迭代,全程无需人工干预。 这不再是科幻电影的场景,而是 g l m 五点一的真实表现。它从能不能做对一道题,进化到了能不能持续完成一个复杂项目, 这背后是七四四 b 参数的 m o e 架构、 deep seek 稀疏注意力机制和异步强化学习框架的共同作用,它让模型在两百 k 的 超长上下文里 既能保持精准,又能控制成本。更值得关注的是它的姿态,智普这次选择了 mit 协议开源,并完全基于华为升腾九一零 b 训练 api 定价也直接对标海外头部,宣告着国产大模型正式从价格战转向价值战。当然,我们也要冷静看待,它在知识类评测上与顶尖闭源模型仍有差距, 八小时工作的能力也主要在编码场景得到验证。但毫无疑问, glm 五点一已经为开源模型打开了一扇通往长城任务新时代的大门,这扇门的背后,是 ai 从工具到伙伴的巨大可能。

中国的智普直接掀翻了牌桌,他们的 g l m 五点一,七千五百四十亿参数, mit 协议无条件开源性能,直接干翻 gpt 和 cloud opus。 这不是简单的技术迭代,这是对西方闭源霸权的一次核打击。 为什么 entropic 前脚刚宣布封进第三方客户端,后脚中国就甩出了王炸?看看 entropic 那 个吃相,为了控制算力成本,甚至连开发者的订阅都要动刀,这就是闭源模式的死穴。算力太贵,他们养不起,资本逼着他们修墙涨价割韭菜。但质朴的 g l m 五点一呢? 直接把七千五百四十亿参数的底牌亮给你看。在 s w e bench pro 精准测试里,它硬生生比 g p t 五点四高出了几个身位。西方巨头在忙着砌墙收过路费,中国企业在忙着修路搞基建,这就是本质区别。这种降维打击,西方根本没料到。 过去我们总以为 ai 是 只有美国巨头玩得起的烧钱游戏,现在呢? openai 把 gpt 五点四锁在小黑屋里调用一次就是天价。而智普拿着 mit 开源协议告诉全球开发者,代码归你,权重归你,想怎么改就怎么改。 这不仅仅是省了每年几万美元的 api 费,更是把 ai 的 定义权从硅谷手里夺了回来。当美国试图用芯片封锁我们的脖子,我们反手就用开源生态打破了算法垄断。你封锁硬件,我就开源软件这招围魏救赵,高明至极。 这一仗打赢的不只是技术,更是国运,意味着中国程序员拥有了属于自己的武器。开源的中国 ai, 正在告诉世界,未来的智能时代,规则不再由硅谷一家独大。

智普的话最近也是发了最新的这个五点一的基建模型啊,我们来看一下他的这个能力水平吧。首先他在这个综合编程能力方面,他其实对标的是 cloud 的 off 四点六的这个最顶级的这个模型的, 目前它的综合能力的话是仅次于 g p t 五点四和 off 四点六的,并且在这个 suv bench pro 测试里面,它其实拿下五十八点四分,并且击败了之前的这些模型,目前是全球第一的在这块的成绩。 呃,它的这个上下文穿透的话呢,是二十万透感有点短,但是比较有意思的一点是它的这个在这个长城任务的一个能力啊, 官方提到呢,就是说他可以在单次任务中持续自主工作,最长八个小时就完成,从一个任务的规划呀,到执行啊,到后续的优化迭代,一个完整的一个闭环。他不是简单的把上下文做成 呃,而是模型能够在长时间的这个运行中呢,要保持他的目标啊一致性,并且减少错误的一个累积和放大。官方给了一些非常牛逼的例子,比如说他能够在八小时之内从零到一构建一个完整的 linux 桌面系统, 并且通过六百多轮的一个迭代,把一个向量数据库的优性能优化到原来的六点九倍。这安宁听上去非常激进,但是 实际的这个使用体验我们要用过才知道,但是从他的这个技术方向上来看,他的核心目标呢,就是想把这个模型从一次性去生成代码的这种模式进化到他能够 自主的去做实验呢分析啊,然后再执行优化的一个完整的闭环。这么说吧,以后我有长时间要执行的任务呢,我就交给他了。

中国这些 ai 厂商太坏了啊,昨天二十四小时之内啊,中国三个旗舰大模型同时炸场,这完全都不让人过年啊,去年的 deepsea 就 一家赶着春节发布,但是今年呢,全上了, 但是大家千万不要觉得这只是几个新模型的发布啊,比这几个模型更重要的是,从这几个模型的更新内容上面,我们能够看到二零二六年 ai 发展的一个重大的转型,那就是所有的厂商都在拼一个全新的能力,叫 agentic。 那 为什么是 agentic? 为什么所有的模型都在拼了命地去打造 agentic 的 能力? 原因呢?很简单,因为 agentic 才是在二零二六年真正的生产力。今天呢,我就尽量把这个问题用小白都听得懂的话跟大家详细的讲一讲,希望呢,能够对大家有所帮助。 先说一下 agentic 到底是啥啊?你现在用 ai, 你 不管用豆包,用 deepsea, 还是用拆 gpt? 其实很多时候啊,你都是这么去问的,对吧?你说句话,然后他回答你,然后你再说句话,他再回答,说白了呢,就是一个高级聊天框。但是 agentic 完全不一样, 你不用一步步的去问啊,你只要给他一个总目标,比如说你跟他说,帮我把这个软件里所有的 bug 找出来,修好,然后通过测试, 然后他就开始自己干了啊,他自己去修代码,自己定义问题,自己去修改,方案,自己去改,自己跑,测试没通过就自己调整,一直到全部搞定。而在整个过程中,你不用一步步的去提问,也完全不需要插手。 打个比方啊,传统的 ai 就是 一个前台,你问什么他就答什么,但是他不会主动帮你做任何事情。而 agentic ai 呢,他就是一个能独立干活的员工,你把任务交给他,他自己搞定,而在中间遇到的任何问题,他都会自己去解答。这就是 agentic 的 核心,他能自主完成复杂的任务。你有没有注意到一件事, g l m 五,它的口号是什么呢?是从 web coding 到 agent, 而 mini max m 二点五的口号是为真实世界的生产力而生。而 devic 虽然说没喊口号啊,但是一照的上下文,本质上就是在给 agent 铺路。 同一天,三家公司不约而同地压住同一个方向。为什么?因为 agentic 的 能力才是真正的生产力,尤其是在二零二六年。如果你想让 ai 真正成为你的数字员工,你就一定要知道什么是 agentic。 你想一想啊,一个只能聊天的 ai, 你 愿意为他付多少钱?大多数的人的回答就是,最好免费。因为事实上,现在各家的聊天机器人确实也在疯狂的打价格战,越来越便宜,甚至几乎都是免费。 但是,如果是一个能够帮你自主完成工作的 ai 呢?如果他一个小时可以呢?帮你做完一份财务报告,帮你搭一个网站,帮你处理完一整天的数据分析?那你觉得他就算不免费,你是不是也愿意去用? 企业的答案就是,愿意用,而且愿意给很多钱。这个逻辑啊,很简单,只有 agent 能力足够强,模型才能够帮用户干活,用户才愿意付费,公司呢,才能够活下去。但你可能会问啊, agent 能力到底靠啥实现呢?答案就是编程。 你看看最新这些模型的评测, s w e 奔驰考的就是真实项目里面自主修 bug, 其实就是编程 browscap, 它考的是自主操作,浏览器搜索信息,提取内容,浏览器的自动操作本质上也是编程。而工具调用考的是自主决定调用哪个接口,传什么参数,怎么处理返回结果。这还是编程?甚至啊, deepstack 把上下文啊拉到了一照最直接的术语场景啊, 也是让 agent 才能够在超大型的大码项目里面持续工作,而不至于失意。所以你有没有发现,这一天发布的所有的模型,大家在拼的其实都是编程能力,都是 agent 能力。而 agent 能力强不强,很大程度就取决于编程能力强不强,因为编程就是 agent 的 底层引擎。 而想明白这一点之后,我想再往前推一下啊,我想抛一个暴论,这个世界上的绝大部分事情,本质上都可以归结为编程。我知道,这听起来呢,非常的离谱啊,但是你跟着我的思想捋一捋, 编程的本质是什么?其实就是把一个需求通过一系列精准的步骤,然后变成一个可执行的结果。而我们现在的社会已经深度的数字化了,你每天点的外卖,刷的短视频,转的账,打的车啊,背后全是代码在驱动,你的工作,你的消费,你的社交,你的娱乐,几乎全部跑在软件系统上面。 而编辑和操作软件,它本身就是编程。所以呢,当 ai 的 编程能力足够强的时候,它能够影响的范围啊,就远远超过你的想象。我举几个例子你就明白了,比如说做 ppt, 写报告,你觉得跟编程有关系吗?其实本质啊,就是一种结构化的信息处理加格式化的输出, 你把散乱的素材整理成有逻辑的内容,再按照固定的格式排版出来,这个过程呢,跟写的数据处理程序没有区别。而且 ppt 本质上就是一个电脑的软件格式啊,所以任何一个 ai 编程的软件,它都能写 ppt, 像 glm 五啊,像 m 二点五,这一次呢,都在卷。所谓的 office 能力,就是直接生成 word 呀, pdf 啊, excel 文件,就是因为这些事情的底层驱动啊,和编程没有区别。 而财务对吧?财务的建模本质就是数据处理加工式的这个逻辑,一张 excel 表,里面几百个单元格,互相引用,层层计算,这本身其实就是一个程序在运行。 m 二点五呢,专门跟金融行业的资深专家合作去训练这个能力。再说一个你可能完全想不到的就是医生开方, 比如说你去看一个医生啊,他给你望闻问切,实际上就是在收集数据,然后根据你的症状组合,在脑子里面匹配对应的症型,然后开出方子。而这个过程呢,其实跟收集输入、匹配规则、输出结果在逻辑上完全一样。 甚至做饭啊,菜谱,其实就是一个程序,输入原料,按照步骤执行操作,控制火候和时间这些参数,输出一道菜。所以你看那些做菜比较好的那些电器啊,比如说一些好的电饭煲,它里面都会用程序这个词,就是设定程序,然后按照程序来给你煮饭, 你说大厨凭感觉,但实际上它的背后就是几千次重复执行形成的参数经验,你用这个视角来重新看世界,你就会发现,几乎所有的事情都可以拆解成输入,处理输出,而这就是编程。 所以,当 ai 的 agent 能力越来越强,尤其是编程能力越来越强的时候,它能渗透的领域是无限的,它不仅仅是帮程序员去写代码,而是帮所有的人把事情做成。这就是为什么所有的模型都在拼命地提升 agent 能力,因为这条路的尽头就是通用的生产力。 之前在视频里我也聊过 opencloud skill 系统,很多人呢,觉得 skill 很 强大,确实强大,但是 skill 再强大,它的底层驱动还是模型的 agent 能力。 你可以这么理解啊, skill 呢,是一份工作说明书,而模型的 agent 能力呢,就是执行这份说明书的人。说明书呢,写的再好,执行的人能力不强啊,那结果也不会好。所以今天这三个模型的进步,对于每一个用 ai 工具的人呢,都有直接的意义。 模型的 agent 能力多强一分,你手里的 ai 工具就能多帮你干点活,它的性价比呢,就会更高。所以二零二六年啊, ai 的 竞争完全不是比谁更能聊天。而对于我们每个普通人来讲, agent 时代它真正的意义就一句话, 不是让你去学编程,而是 ai 替你编程,直接替你把工作完成。以上来自我的 ai 成长圈的日课,已经加了成长圈的朋友可以去看一下,我是 c 哥,点赞关注,咱们下期见!