最近 openroot 上那个神秘的 pony 模型效果非常惊人,大家都在猜是谁?有人说是 cloud 的 旗舰模型,也有人说是 deepsea v 四,今天算是破案了,就是智普的 glm 五。那之所以大家会把它错认成是 cloud 模型,主要是因为在实测中,它展示的长城规划和系统工程能力确实是打破了国产开源模型的天花板。 以前我们测试模型呢,喜欢它一句话,生成网页好看但难以落地。而这次的 glm 五新模型对标的是 gbt 五点三、 codex 和 opus 四点六,主打的是解决复杂的工程难题。我呢有幸拿到了内测,并且呢使用它开源了一个前后端打通的项目。那废话不多说,带大家一块来看看它的能力。 这次测试呢,我用的是 cloud code 加 glm 五,我的需求呢,是做一个创作者全能工作台,包括登录健全、数据持久化、后端业务逻辑,以及最容易出错的财务计算。这也是在测试他的一帧 take 能力,看他能不能读懂长文档,能不能在没有人干预的情况下自主规划开发路径。 第一部分是项目骨架的搭建,他先是阅读理解了我的多篇需求文档,然后创建了一个任务列表来跟踪项目的进度。这部分开发呢,比较顺利,中间只出现了一次 prisma 版本不匹配的问题。紧接着在我测试注册功能的时候,数据库链接出了点小问题,就 注册账户时出现错误, ai 排查之后找到了错误,是数据库路径的问题,并进行了修复,最终给出了项目的骨架。那这次再尝试登录,就成功进入了后台。 骨架搭建完毕之后呢,我要求他继续进行下一步的开发,这一步呢,添加了灵感创建的功能,也就是数据库的增删改查,可以筛选规章以及由灵感转换为选择题。不过这次验收的时候呢,出现了新的问题,就是我创建完灵感之后,列表不显示,后端呢,也没有报错。 这时候 g l m 主动添加了一个中间件来打印我的错误日期,也就是通过这个日期,他才发现是分页参数的类型不对,然后进行修复,功能就立刻闭环了。 他遇到这种隐性的 bug 呢,没有瞎猜,没有胡编,而是打印了一个中间件去查真实的日历,那这个才是我们开发中需要的。 那到了下一阶段的选择题模块,得益于卡奥德库德的优秀机制和 glm 五的超长上下文,理解能力非常丝滑,状态机逻辑一次跑通,由灵感转化为选择题的状态流转呢,没有再出现任何问题。新建的选择题呢,也能正常的与后端连通。 接着是商单和财务的部分,这个其实我最担心的,因为之前一直没做,也就是因为他算不准,就是很多模型在这里会有逻辑幻觉。但 glm 五没有让我失望,这块表现的非常稳,他先是建立了客户库关联选择题,最重要的是税务计算, 因为涉及到含税金额、未税金额,税率推算逻辑极其的严密,我认为他确实理解了其中的业务逻辑,没有逻辑幻觉。 m 四阶段呢,是在我们的工作台首页添加一个仪表盘,那为了让数据格式化呢,还在后端编写了聚合的统计接口, 在前端呢展示了我们的收入统计,并且呢它还非常贴心的规划了一下设置页面,里边增加了收入配置和标签管理啊,这个是比较超出我预期的,因为它很详细,里边有返点,税前税后,非常严密。 这个时候呢,就来到了最后一步,打包交付。对于 glm 来说,最复杂的部分已经完成了,所以这部分处理起来就像喝水一样简单。他为我这个工具呢,编辑了项目介绍文档,还创建了一个一键启动脚本。那现在的状态就是所有拿到我这个项目的人 需要一行命令,前后端全自动跑起来,这个就是开源的交付标准。目前这个项目呢,已经上传到 gitup 上了,感兴趣的话可以去看看,检查一下代码质量。那最后我们来做个总结,整个项目呢,从零到一,总共耗时两个半小时,一捆十。在这期间呢,没有新开任何一个聊天窗口,全程就是在 cloud code 中 与 glm 进行一个单程长对话。这种体验带给我的冲击感呢也比较强,像是一个可以协助有逻辑的系统架构师。如果你是一个开发者,或者平时尝试过自己开发项目,应该能明白两个半小时无断点的开发含金量有多高。 但是呢,他的缺点也同样明显,就是他的思考速度实在是太慢了,也就是因为他思考时间变长了,所以导致新模型比旧模型消耗的头肯要多一倍,而且在高峰期的时候,算力好像有点紧张,期间有很多次呢,我都以为他卡住了,想要去购买他们的套餐,竟然还需要抢,难抢就不说了,他还涨价。 不过对比 cloud 来说还是性价比高,非常非常多, cloud 桌面端送的五十美金额度,半个小时就就用完了。总之这个模型呢,有优点也有缺点,各位可以权衡一下。好了,以上就是本期视频的全部内容了,如果对你有所帮助,或者觉得视频做的还不错的话,欢迎给哥哥一箭三连。最后祝各位玩的愉快,我是段峰,我们下期再见!拜拜!
粉丝2.8万获赞22.5万

几千台设备的生命周期管理,十二张数据库表的互相关联,完整的 r b a c 的 全员体系加发货单的审批流程。正常来说,这种企业系统呢,至少要三四个人搞一个多月。但是我刚看到智普刚刚发布了 g m l 五啊,说是开元界的第一个系统架构师的模型。行,那别客气了,咱就试一试。这里我用的是 c c switch 加 colossco 的 方式, 把 colossco 的 底座模型呢切换成了 g m l 五,直接把我整理好的这份 pl 文档呢丢给他,从零开始,看他到底能不能接得住。虽然是用 colossco 的 跑的跑的,但核心模块的逻辑呢,还是 g m 五输出的。 能看到,他先是把整个项目呢拆成了四个阶段,先搭什么,后搭什么,前后端怎么配合排的很清楚。这个规划质量和我之前用原生可拉的 office 做项目的体感呢是差不多的。然后呢,他就开始噼里啪啦干活了。首先是构建 spring boot 的 后端架构, 用户认证,设备档案批次管理,一个模块接一个模块往上加,后端搭完了呢,再构建 nexgs 的 前端,因为工程量确实不小啊,这一步他自己足足写了一个多小时。这个小时里呢,我没怎么管他,他自己呢,就在终端里跑, 先后端再前端,最后生成了出纸化数据库的脚本。用过 a g 的 写过代码的朋友都知道,这个节奏呢,是最考验模型脑子乱不乱的, g m 二五呢,全程逻辑在线,这一点呢,十分难得。前端写完了,最终运行的时候呢,报了个错,依赖版本冲突, 我让他看了一眼,这个报错信息呢,他改了个配置文件,重新安装了一遍就 ok 了,也就是说写了这么久,只修改了一次呢,他就能直接撞起来,想想啊,也是很厉害的。最后后端 spring boot 的 启动成功, api 返回正常数据,前端页面呢,也能正常跑起来。十二张关联表,完整的 r b a c 的 权限体系,发货单、审批状态机,这些呢,全都跑通了。 后面其实就和平时开发项目差不多了,遇到问题呢,就让他去定位修复,你会发现,这就跟一个靠谱的开发同事做极速编程啊,没什么区别。到这你可能会觉得这些不都是正常操作吗?对啊,这就是正常操作。但问题是呢,以前做到这些呢,只有可乐和 gpt 一个柜一个闭园,而且随时都有可能会被封号儿。 现在 gm 五作为一个开源的模型呢,也能做到这样的全载工程能力和这样的质量交付,实在是不容易。而且大家别忘了,从算力底座到上层架构,这可是跑在国产芯片万卡级群上的成本呢,那是绝对可控的。所以,这种能掌握在自己手里的生产力,你们不想去试试吗?

朋友们,我刚刚在用 tree 进行 web 定制,突然发现已经接入 g m 五了,给不知道的朋友说一下, g m 五是中国公司智普刚刚发布的世界第一开源大模型, 能力媲美 cloud code 四点五 gbt 五点二,在国内外 a i 圈热度相当高,而现在在 tree 上面直接免费用 token, 不 限量,这不吊打什么 cloud code 扣 x 吗?刷到的朋友赶紧冲啊!赶紧冲!

智普啊,发布了 glm 五点零,为了测试它的能力啊,我用它构建了一套可以无限运行的 ai 开发系统。我用这个系统运行了长达十个小时,从晚上十点到早上八点, ai 做了几十次 getmate 的 提交, 开发了一个 ai 漫剧生成工具,有前后端有数据库,可以用户注册和登录,还接入了大圆模型,图片生成模型,视频生成模型。通过这个视频,你会学到如何构建这样一个无限运行的 ai 开发系统,并了解到 glm 五点零的惊人开发能力。 整个过程我都只是输入简短的 prompt, 没有亲自阅读或修改任何一行代码。我一直在旁边玩着游戏,等他干活, 尤其是我视频最后会讲的,他把整个项目的所有模块联合起来,然后端到端的 bug 修复错误,非常的牛逼。他不只是单纯的写代码,他甚至自行在浏览器中验证每个功能的正确性,找出 bug, 然后自行在浏览器后端数据库第三方的 api 之间联合调试,找出问题,修复错误。 那赶紧进入正题啊,相信对你会有所启发。我使用的工具是 cloud code, 并且把模型切换为 g l m 五点零,具体方法可以看我之前这一条 g l m 四点七的视频。 那我们首先要搭建一套能无限运行的 ai 开发系统,说是系统,其实就是几个文件,做法非常简单,我把一篇来自 astonopy 的 神级文章发给 ai, 让他自己去学习,根据这篇文章做出这套系统 文章叫长时间运行智能体的有效调度编排框架。那过程中 ai 做出了一些操作预期的举动,他通过 m c p 打开浏览器, 通过这篇文章的页面找到一个配套的 get up 仓库,打开仓库的代码文件进行学习。而我事先都不知道这个代码仓库的存在,最终他创建出了这一些文件。 我解释一下最重要的几个,帮你理解一下这套系统的工作方式。 task 点 jc 文件,其实就是一个任务列表,每个任务都有它的描述,并且会标记是否已经完成。和我们人类工程师每天上班一样, ai 每次从这里面领取一个任务, 完成后就做一个标记,这样他的 ai 同事啊,就知道项目进展到哪里。 progress 点 txt 文件,每次 ai 完成任务啊,或者任务失败后,都会在里面留下工作日期,这也是为了给其他 ai 同事提供一些信息。 log 点 m d 文件,这里面全是提示词,用来指导 ai 根据固定的规范流程工作。和我们人类工程师的开发流程类似, 第一步,跑一个脚本,来初识化整个项目的环境。第二步,在 task 里面领一个任务。第三步,就开始开发。第四步,测试和验证。 第五步,更新 progress 和 task 文件。第六步,用 git 提交代码。那如果中间遇到困难,需要人工介入,它就要及时向人求助。那在以前一些长期运行能力不强的模型中啊, 这么长的开发流程,一旦工作上几十分钟,模型就会逐渐混乱,不再按照规定的流程工作,而如今完全没问题啊。视频后面我们会看到, glm 五点零,即使在长达一个小时的工作,提交了几十个 commit 后,仍然很好地遵循开发规范。 然后呢,我让他写一个脚本,用来无限时间的运行。这一套开发流程背后的原理很简单,就是把 cloud code 放到一个 while 循环里面,这样一来,人不在电脑旁边的时候没法手动 prompt, ai 就 可以执行这个脚本,让 ai 无限的工作。它之所以有效,有几个原因啊, 第一,我们这套流程每次只要给 ai 说一句,完成下一个任务,不需要更具体的指示, ai 就 能通过 task 和 progress 文件知道自己现在应该做什么。 第二,每个 task 都很小, g l m 五点零足够的强大,每一次 y l 循环里面,他只是领取一个很小的任务,并且严格的测试,成功率极高。第三,每完成一个任务,模型的上下文都会被清空,所以模型始终保持在最聪明的状态。 第四, g l m 五点零非常可控,严格按照工作规范执行,每次小任务都会进行 commit, 所以 即使出错,我们可以轻易地回滚到旧版本。 好,现在我们这套系统有了,接下来就要开发软件,我们先来设计一下它的功能和架构。这个软件的用途是一句话,生成长视频。我让 ai 把整个项目的开发需求拆成了三十一个任务,放到 task 文件里。 这是 ai 设计的软件,架构不复杂,但五脏俱全。再看一下 ai 画的业务流程图啊,帮助大家理解我们要开发的这个软件具体的功能。 首先,用户会创建一个项目,然后用大圆模型生成每一个分镜的文字描述,然后再用图片模型生成每个分镜的图片,再用视频模型生成。视频开发的流程比较长啊, ai 做了几十次提交,我就选几个精彩的给大家讲。 在 ai 做到第十九个任务的时候,为了测试 glm 五点零的能力呢,我产生了一个大胆的想法,我让他一口气做了一个多小时,完成了十一个任务,干完一个又一个,中间我没有任何干预, 给大家倍速感受一下效果。他一直在写代码,并且每次都遵循我们的开发规范,每个任务都完成,测试一个,一个任务,单独提交代码,拿一个具体的任务作为案例啊。他现在领取了任务三十,任务目标呢是实现响应式的布局,也就是让 u i 在 手机端和桌面端看起来不一样。 他现在正在修改代码,然后验证项目能 build 通过。然后他现在把浏览器的大小变成了手机屏幕大小。打开了我们的应用,他点击了一个按钮, 他对页面做了一次截图,用识图的 m c p 判断是否正确。再打开了一个新的页面,再做了一次截图,并检查是否正确。然后在 progress 里面仔细描述了自己所完成的工作,然后把这个任务标记为完成,他就按这么一套方式疯狂的干完了每一个任务。 要接入数据库的时候呢,他主动提出需要人工帮助,并且一步一步地给我说明,告诉我如何去这个 superbase 平台啊,点哪里创建项目,配置数据库,获取 api key。 尽管我没怎么用过 superbase, 仍然轻松地操作下来了。中间我还犯了错误,给他提供了错误的 key, 也被他及时发现,最后他还让我帮他去注册一个测试账号,然后他自己打开浏览器,输入账号密码,验证登录功能,可以正常使用。那像 superbase 这种外部的系统啊,超出了 ai 的 控制范畴。 g o m 非常明确的给我提供指引,让我协助他完成开发工作,一个不了解后端的人,也能在他的指引下完成数据库的配置。 他开发完后端一系列 c r u d api 后呢,声称对每一个 api 都进行了测试,但所有的 api 都是需要 os 的, 前端也还只有一个空白的页面,所以我就很好奇他哪里来的 os 权限,怎么完成测试,是不是在忽悠我? 于是我问了他一下,他用简短的语言,漂亮的格式向我解释。他说他打开浏览器,登录了刚才创建的测试账号, 然后通过一个叫做 browser evaluate 命令,在浏览器可以执行任意的 javascript 代码。然后他写了一些临时的 js 代码,就在浏览器里运行,调用我们的后端 a p i, 这样就能有 office 了。非常聪明的做法,我还怕他在骗我,我检查了一下录像,确实如他所说,他打开浏览器疯狂测试, 中间还真测试出不少问题,他就自行查看后端的报错日期,自行修复。最终三十一个任务全开发完后,啊,我也懒得去人工验证这个项目是不是已经可以用了。在往常的开发中啊,到最终阶段,因为已经把 前端、后端、数据库、第三方 api 全部连起来了,那第一次的集成测试啊,就会非常头痛,因为任何地方都可能出错,往往需要浪费大量的时间再把错误找出来发给 ai, 让 ai 去修复。但这一次我非常大胆,我只说了一句话, 请你完整测试一遍流程,确保功能可用。大概就是从早上七点十分开始,他自己在浏览器上疯狂测试,花了一个小时提交了这么多改动,用来修复 bug。 我看他在浏览器上像人一样一步步操作我们的产品,通过截图和视觉能力来判断是否符合预期。遇到问题的时候呢,他就自己查询后端的报错,检查各种 api 的 状态,综合分析出问题。最终他总算顺利的生成出了第一个视频,端到端的把整个应用全部打通了。 他修复的每一个 bug, 做的每一个 feature, 其实我都不清楚是什么情况,但我想知道的话,我只要找到他的 commit 记录,看一下他在 progress 文件里写了什么。这也是这套流程的强大之处,一切都是可追踪的。 我们让 glm 五点零一边开发项目,一边在开发过程中发现问题,让 ai 来增强我们这一套自动化的开发系统,左脚踩右脚,螺旋升天,我相信这就是未来开发者的工作方式。总结来说, glm 五点零已经远远超出了单纯抠顶的范畴,而是能对软件工程的每一个环节进行自动化,提升效率。 gm 五点零在超长任务上非常出色,已经达到了能让我放心的交给他连续运行一个小时的程度。横向对比的话,我个人认为 gm 比刚发布的 oppo 四点六弱一点,但在一些方面可以超过 gbt 五点三。 重点是价格便宜非常多,但现在过于热门啊,供不应求,抠钉套餐非常难抢。那我们这个项目呢?虽然现在端到端全部打通了,但最终深层的视频效果还有很大优化空间。点赞到一万,我可以开源出来,让感兴趣的人进一步优化它。

兄弟们,今日,智普 ai 正式开源其新一代旗舰模型 glm, 五大模型从原本的能写代码升级成能构建完整的工程系统,像人类工程师一样去规划、拆解任务,然后一步步执行到底。从一个月前开源的 glm 四点七到今日开源的 glm 五, 模型参数量从三五五 b 扩展到七四四 b。 在 全球权威的 artificial analysis 榜单中, glm 五超越了 gpt 五点二 codex 和 gemnine 三 pro, 仅次于 oppo 四点六和 gpt 五点二 high 两个闭源模型,位居全球第四,开源第一。 glm 五在编程能力和 agent 的 多项主流机制中取得开源第一。 glm 五在编程能力和 agent 的 多项主流编程 z 点零 中分别获得七十七点八和五十六点二的开源模型 sota 分 数性能超过 jamni 三 pro 在 联网解锁与信息理解、多步骤任务执行、复杂多工具场景下的规划和执行、 模拟经营能力等方面均取得开源最佳表现。在测试一番之后,我发现 glm 五居然可以直接在云端自动部署 open club, 这就意味着你想什么时候做个应用,什么时候部署个 agent, 直接让 glm 五做就好,非常方便。 后面为了测试一下他的代码能力,我又让他去网上找了一些图片素材,在云端给我做了这样一款经典二 d 宝可梦,实现效果还是很不错的。总归来说,测了一大轮,我感觉 g l m 五的开发和 agent 能力是真的做到了 pk cloud opus 四点五不输的程度。而且相较于 cloud 系列的模型, g l m 五作为国内开发模型大部分的国人和计算机小白都能够接触到,没有任何的使用限制。这样一款好用方便的 opus 四点五平替,支持官网线上使用和本地部署,感兴趣的朋友们赶紧去试试吧!

这临近过年,我们的国产模型真的太猛了。前面我做过两期视频,用同样的 prom, 同样的真实项目任务实测,对比了 cloud office 四点六, gpt 五点三、 codex mini max 二点五。 那期视频做完之后,评论区就有人让我测试一下质朴新发布的模型 gom 五,咱也是加班加点的干出来了,而且据可靠消息,过两天还有 deepsea 微视版本的发布,到时候也给大家带来一期真实项目的一个编程实测。 求一个一箭三连不过分吧?在这里要插播一下,当我准备去测 gm 五的时候,我去官网去订阅它的 cooling plan, 直接受庆了,就我的套餐买不到。哇,那如果按 ipa 计费的,我目前也没有找到。他们可以用 insulate 的 一个协议来测试 gm 五, 所以我就用了 ppl 他 们家的去测试,他们是非官方首发部署的 gm 五,一个开源模型的一个权重,那兼容安斯罗比的一个协议接到可拉扣的里面也非常方便,因为我之前的评测的话,都是用可拉扣的去做的嘛。所以说为了保证公平公正,我们也是用同样的 工具方的编程任务去做实测。好,我们先去创建个 api k, 这里我就写 gm 五 确认,点击复制好,我们开始进入真实项目的一个编程实测环节,也是同样的 prompt。 哈,那第一个任务的话,是把 我们另外一个项目里面完整的一个用户认证体系,包括邮箱、谷歌认证登录、 github 登录迁移到我有一个新的图片生成 a 级的项目里面,同时让它去做一个落地页, 需要考验它的一个代码理解能力,架构适配能力,一个工程规范。这个任务还算比较复杂,之前用 mini max m 二点五去测的时候,它花了三轮对话才完成的,那 op 四点六跟 gpt 五点三 colex 的 话,它们一轮对话就完成了。 那第二个任务的话是我本地有一个 skills agent, 它是一个终端 ui 交互的,我们把它做成一个外部聊天页面,让它保留 syncing 工具,调用流逝输出。这个任务主要考验它全站开发, 流势输出以及 u i u x 的 一个交互能力。之前测试的话, off 四点六跟 g p d 五点三 codex 他 们一人赢了一局,那下面我们就开始做 g o m 五的一个测试。 这两个项目现在都是开启了一个沙杯进者的模式去探索已有的代码。那右边的话,它弹出来一个让我选择想用的框架以及 u i 主键库,我就按我一个常用的方式去选好,它提示已经成功了。 好,我们打开了他给我们写的这个 y y, 哈,他把这个 skills 是 放在右边的,就展示我已有的一些项目,来测试一下它可用吗? 好,我们开始让他去总结这篇文章,看一下他有没有去做到加载这个 skills, 然后加载完了之后去执行一些脚本去做爬虫,然后再去做总结。可以看到这边他已经加载到这一个 skills 了,下面去执行一些命令 总结出来了哈。整体的话完成度还可以的,就是他这个 ui 上稍微会差一点点,相较于那个 gbt 五点三 codex 的 话,这个完成的没有 gbt 的 好。 左边这个窗口就是 cloud off 四点六写的,这个 ui 上确实会差一些。右边的话是 gbt 五点三 codex 写的,当时我是把票投给了他,那么同时去可以看一下刚刚那个任务,他们俩其实都没什么太大问题,不是特别难,后端也就 thinking, 然后做工具调用, 可以看到都是 ok 的, 没有什么太大的问题。好,下面我们去看一下那一个纹身图 agent 用户认证体系那块它完成的怎么样了? 可以看到它这个已经完成了哈,可以看到这个代码它已经写完了,我们先看它能不能一次性去启动,之前 mini max m 二点五这一块是没有做到一次性启动,我们先开新开一个窗口去测一下。好,我们可以看到 g m 五的话,它目前启动是没有什么问题啊,我们再看一下它实际的一个表现, 我们看一下它整个 ui 表现哈, ui 还行,那我们看它的那个认证功能可不可以用。我们先试谷歌登录,谷歌登录的话,它这块放了一个小 bug 啊,它把那个毁掉的端口弄错了,我们改一下。好,我们继续。 好吧,登录失败了,这边还是有些问题,你看到它登录的时候认证失败了,应该是数据库的表结构那块有点问题,从这么看的话, gbt 五点三 codex 跟 op 四点六还是要猛一些哈,就是它们没有这些问题。 好,我们再来选择谷歌登录,刚让它修复了一下, 好,他终于可以了。哎,有个问题,他登录成功之后没有回,没有进到我们的那个主页面,登录成功之后没有进到我们 agent 里面, 这个算第二轮对话吧,看他第二轮对话能不能搞定好,我们点击登录选择谷歌, 他还是没有修复成功,他还是要再刷新一下,看没有再刷新一下,进来再给他描述一下吧。现在还有个小问题,当我们认证之后,他先跳转了到首页,我再刷新页面,他才进到了 a 镜的里面。 在他这是第三轮了,就证明他在这个方面其实跟 mini max m 二点五差不太多,他们俩再点登录。 我靠,跟这个问题杠上了,他还是修复不了啊,还是有问题,你能不能好好深入去修改一下,去思考一下。 这是我们第四次对话,让他去修改这一个小问题哈,这个表现呢,就有一点不是特别好了,我们再来,如果他再再进不去,我就不撤了,这个就默认他四轮吧。 好,我放弃了。这个问题我不测了,他修他,我跟他一直对话,他修不了。我们之前测 gbt 五点三跟 colorof 四都是一轮。 ok, 我 们下面来看一下评分,整体的一个打分标准是第一个,我人为的去检测他们的一个功能完整性以及 ui 的 一些情况。那代码架构,工程规范,我都是把他们所有的代码给到 gbt 五点三, codeof 四点六,让他们分别去 review, 然后去打分。 它现在结果是这样子的, off 四点六,在第一个项目用户认证里面,它是表现最好的,它在功能完整度以及 ui 落地上是表现的比较好,并且是一轮就完成任务了。但是它的代码架构跟工程规范会有一些小问题, gpt 五点三扣贷 x 的 话,它的代码架构以及工程规范会比它好,而且是这四个模型里面最好的。那它的功能完整度呢?因为它漏了一个谷歌登录的一个前端,所以说这个评分稍微低一点,那它 ui 落地页的话也会稍差一些。 上一期视频测试 mini max m 二点五这一边的话,他是花了三轮对话去完成了这个任务。那智普这边的话,刚刚你也看到了,其实四轮对话完下来之后,他还有一些小问题,所以说评分的话,他俩其实差不太多吧,我个人感觉哈, 我们来看第二个,把这个 skills agent 做成一个外部 ui, 那 这个项目的话就是 gpt 五点三 codex, 它在业务完成上逻辑错误控制以及 ui 代码质量工程实现都是最好的。那剩下这三个的话,大家表现的都差不多吧,大家有优势的地方也有他劣势的地方。 好,下面我们开始进入 agent 的 实测环节,把 gm 五模型接入到我这一个真实的一个 agent 的 项目里面去,它是做自媒体视频拆解的, 主要需要去看他的一个速度,拆解深度以及表达一个真实感。那整个 a 型的工作内容的话,就是先去下载视频,做音频提取,转文字,然后去做内容的结构化分析,爆款元素的提取,最终输出一个拆解报告。好,我们下面开始吧。好,右边也完了, 我们来简单看一下哈,他们两边格式上会有一些差异。在拆解上我们看他这个结构拆解这块,他这个时间出其实是有问题的,他做的不对,因为我这个是十二分钟的,他是做了 十四分钟到十五分钟,那 g m 五这边的话,它也有讲一个时间戳吧。啊对,你看它有二十分钟,还有三十到三十五分钟都来了,所以说我感觉它在整个 a 帧的表现里面不是特别好啊,它这个拆解的深度也不太够,我感觉相较于昨天我测那个 mini max m 二点五的话会稍微差一些。 好,我们下面总结一下。把 gm 五接到这一个自媒体视频拆解的 a 帧里面,它的一个表现情况哈,整体上的话速度偏慢,就响应速度不算快,可能跟当前用户量大有关系,因为都知道它这个套餐都卖的受庆了。第二个的话,它的拆解深度的话相较于 mini max m 二点五会有一些稍稍不足。 第三个的话,它的一个真实感稍微偏弱一些啊,这是整体的一个表现情况。好,下面我们进入整个的一个总结环节,在编程方面的话,一句话,在我的这一个测试项目里面, gbt 五点三 codex 表现最好,比 off 四点六会好一些。 glm 五跟 mini max 它们的体感接近,都是开源的嘛,并且它们的成本非常低,所以说 对于一个高性价比的一些开发任务的话,我觉得这两模型都非常不错。好,这就是这一期视频的所有内容了,如果你觉得这期视频做的不错,一定记得给我一键三连哦。那下一期视频的话大概率是做 deepsea 微四,有可能是在过年那一天发布,我猜测哈,据可靠消息。好,那视频就到这里了,大家拜拜拜拜拜拜拜拜。

又是深夜发布,今天突然发现智浦开源了 glm 五大模型,没想到年前的开源大模型市场还会出来这个网站从前几天 cloud ops 四点六和 gbt 五点三 codex 的 发布可以看得出来,二零二六年商业大模型趋势将从能写代码升级成能构建生产机系统, 没想到的是开源大模型这么快就跟上了,熬夜测试了几个小时,本期视频我们就来看看 glm 五都有哪些亮点,以及都能做些什么事情。 二零二五年使用大模型编程的过程中,我发现虽然 ai 已经可以做出一个个很好看的前端页面了,但是真的让他去做一个生产能用的系统或者是一个庞大的任务,经常写着写着 ai 自己就圆不回来了。 但这次 glm 五真正能做出生产可用而不是单纯好看的系统,并且遇到复杂系统需求会自己拆解,可以长达数小时的不断自动运行完成这个系统不会出现越写偏离越大的情况。我直接拿两个案例来演示一下,工具用的依旧是 copy code 用的是质朴官方这个 model 的 key 配置文件的话,其他都和之前保持一致, 模型替换成 glm 五即可。很多公司应该都有自己内部的企业级后端脚手架,不仅能统一开发规范,并且开发只需要引入对应的依赖和无需关注各种中间件的配置细节就能直接使用。 我之前写过 glm 五来生成 glm 二十一加 spring boot 三的企业级后端脚手架,编辑提示词开始执行,可以看到这次 glm 五在分析完任务之后,会以对话的形式来询问生成项目的细节问题, 宇宙包含哪些模块的 start 给了多个选择,接着询问项目的认证框架,最后确定报名的生成规范,等这些全部完成之后,就开始任务的拆解。 glm 五将脚手架拆分成了十四个大的模块,制定了十五项具体的实施步骤以及最终的验证方式,没问题之后,就开始让 glm 五开始构建系统了。 glm 五这次针对多阶段长步骤的复杂任务的优化做得太好了,整整十五个模块,花了一个多小时全部生成完成。整个过程不需要人去做额外的辅助工作。 除了代码生成之外,当在验证过程中遇到翻译失败的情况,它会自动分析日制,不断修复代码并重复验证,直到全部跑通。我们可以来看看最后的脚手架项目,所有的 start 按模块划分,比如 base 模块定义了统一的异常,统一返回信息, log 模块引入至框架搞定日制生成规范,做好 trace id 生成逻辑以及日制切面等配置。同理,像 mybatics 统一配置 radix mq 的 配置都做成了 start, 要使用直接引入对应的依赖即可,这是真的能很好的用起来的项目了。 接下来再做个全站的业务系统,做一个支持高频发的购票系统,能支持秒杀业务的场景。这次让他把前后端的项目全都生成,前端使用 vivo, 后端使用 jdk 二十一加 spring boot 三。 这里有个比较有意思的点,一开始我在提示词中将 jdk 二十一写错成 jdk 八了, jmm 在 分析需求的时候就发现了这个问题,并给了我几组匹配的 jdk 和 spring boot 的 版本。 手动调整之后, glm 五给出了十分详细的技术报告。整体的代码生成过程还是和之前一样,不需要人去做额外的操作就可以生成出完整真正可用的代码。现在前后端代码就生成完成了,我们来看一下。 先看一下后端代码,秒杀业务的逻辑写的十分严谨,其中高密发解决方案中包含了多级缓存、库存预扣、业务下单、分布式锁结果限流、动态余额等方案。前端页面是一个包含购票和秒杀的 h 五系统,我们来参与一下。秒杀 手速快,直接抢到票。智普在官方公告中提到了国产芯片万卡集训这个概念,意味着这次 gm 不 仅模型能力强, gpu 底座也是国产自己的。 去年过年来了个 deepsea, 今年过年来了个 gm 五,不知道二零二六年大模型究竟能发展到什么地步啊?以上就是本期视频的全部内容了,我是鱼仔,我们下期再见。

ai 编程正在发生变化,过去大家更关注页面生成和代码补全,但现在前沿模型开始强调更长步骤、更复杂任务的执行能力,编程的重点正在从写代码转向构建系统。如果让开源大模型质朴, g o m 五从零 开始,帮我搭一个可以运行的创业系统,它能做到什么程度?具体来说,我想做一个 ai 职场技能订阅平台。这是一个具备真实商业逻辑的产品模型,它需要用户注册、登录、订阅逻辑、课程权限控制,这不是一个页面,而是一个产品。 打开智普官网,选择最新发布的 g o m 五模型,点击 agent, 点击全站开发,输入完整提示词并发送。现在,系统会开始自动规划与构建。在代码输出之前,模型首先进行任务拆解与数据库结构设计, 明确用户模块、订阅模块、课程管理模块之间的关系,并规划数据存储与权限边界。这一步体现的是构架思维,而非页面拼接。随后,平台构建完成,首页结构清晰。点击注册,立即注册, 输入注册信息,完成注册并登录。点击课程库,可以看到内置课程内容,并支持课程搜索内容筛选。 会员页面包含完整会员流程,点击立即开通,扫码支付后即可开通会员,再点击去学习,进入课程库学习课程。整个流程形成闭环,构建过程中出现环境与依赖问题时,系统能够根据日制进 行分析并调整配置,完成排错与部署。对我来说,这种自我修正能力比单纯生成代码更有价值。这次用智普 g o m 五实测创业系统,重点并不在于生成多少代码,而在于是否具备长步骤规划与系统构建能力。 从结果来看,它已经能够完成完整产品雏形的搭建。当 ai 能够帮助普通人把一个创业想法变成一个可运行系统时,编程的门槛正在被重新定义,这才是我认为最值得关注的变化。

gm 五终于发布了,听说非常强,我也想试试他到底是不是真的有那么强,我第一时间就拿我维护了一年有上千真实用户的三倍插件给他上上强度, 直接挑战开发中最头的那三个难题。第一,极万行代码项目的全景理解。第二,多层嵌套的复杂 ip 逻辑。第三,真实用户的需求迭代。 我们这次的开发环境依然是 vs code 加 code code。 我 首先让 g m 五先理解一下项目整体的技术细节以及功能特点, 这里有一个非常关键的点是 g m 五在发现问题的时候,它会自动的去检测这个错误,然后自动的去修复,接着它就会去读取我相关的一些文件, 然后形成了一个完整的技术分析报告。大家可以看到它上面把这个技术的分层架构都写好了,哪些是处理 api 调用,哪些是处理交互以及数据持久化的。然后接下来就是我 api 的 调用逻辑,他每一个点他都列的很清楚,说实话他列的这个技术报告比我这个作者写的还清楚。接着我就让他基于用户反馈形成一个英文字母导出的功能,比如这是一个 英文的视频,它有一个英文的 ai 字幕。以前的话我们这个插件它是没办法获取英文字幕的,因为当时我是只支持了中文字幕的处理,就比如现在它这个英文字幕是没有的,现在这个英文字幕导出的功能,它不仅仅是增加一个按钮,更主要的是它需要去重构底层的一个解析逻辑。 就比如说我这个接口,它的数据是怎么返回的,我需要怎么去处理中文和英文字幕的选择?那 gm 五 他在思考之后就开始进行执行,然后直接去帮我编辑处理了相关的代码逻辑,大家可以看到他每一步他是怎么做的,这里都写的很清楚,然后最后他就帮我完整的实现了我需要导出英文字母的这个功能。我整体体验 gm 五的功能, 我觉得他真的是更加智能的,就像是一个支撑的系统架构师来帮助我便携代码一样。大家可以看到,现在在 g m 五帮我修复了英文字母下来之后,现在这个字母就可以获取成功了。 说实话, ai 编程最难的从来都不是写新代码,而是维护老代码。十三代码,我之前开发的飞书多表格、马克当预览插件,现在也有几百个付费用户,代码里面其实也有不少的十三代码平时没有大 bug, 我 根本就不敢 动它,生怕改动了之后影响用户的使用体验。不知道大家在用 ai 写代码的时候有没有遇到类似的问题呢? 但是啊,我最近观察到,不管是 cloud ops 四点六还是 gpt 五点三 codex, 它们都不再去卷升程速度,而是全面转向了 agintending coding 发展,简单来说就是更加专注于解决真实项目需求的能力。而 gm 五 就是目前开元界首个跟上这一趋势的模型。 gm 五整体表现都不错,在科奥的欧布斯四点六跟 gpt 五点三科特斯之间很多成绩甚至都感觉不到差距,但是我发现 gm 五有时候的响应速度确实有点慢,这点希望以后能提升一下, 再给大家说个心里话,其实三个月前我就开通了 gm codeine 的 套餐,我当时用的还是 gm 四点六,短短三个月时间,我们的钱还是那份钱,但是手里的工具却一次比一次强, nice! 我 眼看着他从四点六进化到四点七,再到今天可以跟科尔的 off 四点六扳手腕的系统架构师 gm 五 厉害!这种养成系的快乐真的太爽了!用过 gm 扣顶破烂套餐的老用户应该都懂,这次 gm 的 进步让我再次看到了国产模型的硬实力,大家赶紧去试试 gm 五吧! 好了,以上就是本期视频的全部内容,记得点赞和关注我哦!我是超超,我们一起学研,一起变强,我们下期再见!拜拜!

家人们,硅谷的风向昨晚彻底变了。当所有人都在比谁一句话生成网页更快时,真正的赢家已经开始。让 ai 花几个小时去重构一整个一流系统。 我让 g i m 五做个复古英尤,他没有直接铺代码,而是先思考再拆解,像极了一个真正的系统架构师。更夸张的是,中途遇到 a t i 时钟漂移的深坑,他自己看日制,自己定位,自己除写算法,全程无人干预。这种自我反思、自我抵 bug 的 能力。 以前我只在顶级闭源模型上线,这感觉彻底颠覆了过去我们用昂贵的闭源模型做大脑指挥,便宜模型去执行。现在 glm 五自己就是那个大脑逻辑和拆解能力直逼顶级产品, 但它是开源的部署,性价比拉满。结果就是,东方的程序员们已经开始用它替代 opps, 去处理那些最脏最累的活。当前的 ai 明显在两个赛道狂奔, ai 视频和 ai 编程。而在编程这条代表核心生产力的赛道上, glm 五的发布意味着一次世界级的跃迁。 在马年即将到来之际,我想说,中国 ai 正在拿回属于自己的位置。最后问大家,如果你需要一个能本地部署、能长时间自动工作、能从零搭建真实项目的顶级大脑, glm 会是你的选择吗?评论区聊聊你的看法。

那么 glm 五我已经用了一个多星期了,这个模型确实非常厉害。先简单介绍一下这个模型,它是一个七千四百四十亿参数的混合专家模型, 实际使用时只会激活四百亿参数。作为对比,上一代的 glm 四系列总参数量约三千五百五十亿, 每次激活约三百二十亿。这个激活餐数量相对较小,目前最大的开源模型之一依然是餐数量达万亿的 kimi, 但 klm 现在也已经非常接近这个量级了,还不清楚具体的 api 定价,我录这期视频实编,但 api 价格预计会上调,毕竟它的餐数量几乎翻倍了。 不过代码生成套餐的价格应该不变,考虑到性能提升和成本相对较低,即便涨价之后性价比依然很高,它的权重也会开源。另外,它基本上就是 openroute 上的那个 pony alpha 模型, 不过这个版本会更强一些,因为这是最终发布的版本。这是推理模型,投入了大量精力,推理能力出色。当然推理令牌也可以通过 api 调用, 它的速度也相当快,不过我只是少数测试者之一,所以速度表现可能因人而异。它们的速度表现都不错。根据我之前对其他模型的观察, 现在我们再来聊聊他的具体能力。他们没能给我一份详细的说明文档, 因为他们自己也正在加紧完善。他们一定要等到最终面向用户的生产级 a p i 就 绪,才会进行计算测试, 因为他们觉得精准测试得和用户的实际体验挂钩。但他们是这么说的,到两千零二十六年,编程大语言模型正从单纯写代码像构建整个系统眼镜, 而 glm 五则是首个开源领域的系统架构师。模型定位对标 we 的 目标是让讨论焦点从前端界面好不好看转向智能体工程能力强不强。 所以在亲眼见识了它的能力后,我完全赞同这个目标,我认为它真的达到了 claud 四点五 opus 的 水准,甚至可以说是 opus 四点六的水平, 它几乎就像是 codex 和 opus 的 结合,大概就是这个意思。 dlm 四点七的一个短板就是规划能力,每当你让它做规划、调试这类任务时, 他的表现不佳,他会跳过一些步骤。他无法理解产品的整体架构,处理长城任务的能力也不足,做着做着就忘了之前的改动,更糟的时候他甚至会忘了工具。 不过考虑到模型规模变大了,现在他的规划能力不仅更强,甚至快赶上 opus 或 codex。 如果你在 opencode 或 killcode 的 setout 里开启规划模式,那它的表现确实不错啊。它会先过一遍检查文件,做系统架构检查,然后提出计划。 现在他也很会处理后续问题,他会问清楚你的具体需求,如果他没弄懂,或者是你给的指令不够清晰,而这正是之前 g l m 模型所欠缺的,他们会死守你最初给的指令,然后不问缘由地硬着头皮做下去。 而 glm 在 这方面则强得多。其次,他在处理长城任务时也更出色了。我觉得 aom 四点七在这方面也不错,但 glm 五在这方面几乎是碾压级的提升, 而我觉得新版 oppo 四点六在这方面反而退步了。 codex 倒是有所改进,在我看来,它甚至比 codex 还要出色,在处理长城任务时也比 opus 表现更佳。它做事不敢进度, 非常耐心。它会仔细检查代码,规范问题,发现问题就会立刻修正。我还发现它能准确执行指令,能精准理解用户意图, 在这些方面的表现远超以往的模型。当然,他也不是完美的, 比如他的聊天功能就不太强,我说的不是通用的智能体功能。他在 open call 这类任务上表现非常出色,各方面都很好。我指的是纯文本聊天, 但在这方面它就不太行了,它在生成 html 和 svg 方面也不太在好。说实话,现在没什么人在做这些了, 因此我完全可以接受这种权衡。实际上问题不在于它能力差,问题其实是它总想做到极致,因为它有海量代码训练过。我认为作为系统架构模型,它总爱把简单问题复杂, 这反而影响了他处理小型任务的能力,尤其是不需要调用工具或者结果不明确的任务, 他就显得力不从心。这倒也符合他们的初衷,因为他们本就想让他扮演系统架构师的角色,而非一个炫技型的前端模型。我觉得这点和 codex 很 像,因为 codex 在 处理小任务时容易出错, 出力大任务时却很出色,这很有意思。不过这个模型整体表现很均衡, 在我的测试里他排第三。他给出的方案看起来不错,该有的功能基本都有,用起来也还行。但方案的结构设计本身不太理想,缺少了一些平面图必备的东西,效果 也不算特别出色,但也还说得过去,我还是给了它十分。熊猫举着汉堡的 svg 图,同样算不上多好,但比起前几代还是强点,所以也是十分。 接着是三 j s 做的精灵球,这个效果就非常好了,你还可以点击它,它就会展开。这个功能同样出色,你还可以晃动 他。对于这个提示词,效果已经无可挑剔了,所以这项可以打二十分,总体表现不错。接下来是带自动对译功能的棋盘,自动对译的效果很好,自动对译功能不错,下棋思路很清晰,不过 他会移动棋盘窗口,当那个位置有棋子时,这个设计就不太理想了,所以这部分给十五分。我的世界游戏体验也超赞,运行非常流畅,但各处还是有一些小毛病,所以也打十五分。 然后是蝴蝶在花园里飞舞,这部分做的确实非常好,简直太棒了,环境搭建正确,各方面都到位了,总之相当不错。其他部分也还算不错,数学题也全都答对了, 所以这里也是满分,所以正如我之前说的,他排到了第三位。 接下来我们再看看它的智能体测试表现,我测试时用的是 kilo kilo i, 当时我正在测试,效果也很不错。你可以在 kilo gateway 里 找到这个模型,也可以通过 g l m 编码方案来配置。想用的话,我还请他们修复了 kilo cell app, 以更好的适配 g l m o, 所以你用它应该也会有很好的体验。好了,首先我们来看这个用 expo 开发的 movie tracker 应用,它的界面是这样的,它是我近期见过的最出色的模型之一,它的表现甚至远超 oprah。 完成这个任务它大概跑了四十分钟,它还修复了大量问题。 我注意到它不仅运行 lid 检查并修复了错误,但还用了 curl 命令 来检查前端是否有错误。这一点非常有意思,我在其他模型上确实没见过。最终的成果是这样的,功能完备,运行起来效果惊人。 而这仅仅用了一条指令,连 oppo 生成的版本都有瑕疵,但这个却设计精良,近乎完美, 所以确实非常出色。接着是这个用勾语言写的终端计算器,客观来看,它也明显优于我们上次看到的 oppo 四四点六生成的版本,同样优于 codex 生成的版本, 效果相当不错。它生成的各大的游戏也不错,现在多数模型都能做到这一点,很高兴他们现在都支持这个了。接着我让他用 swalt 创建一个带数据库的看板应用,完成的相当出色。 大家可以看看这个成果。应用效果非常好,这确实令人欣喜,连 opus 都搞不定,这个 codex 的 表现也不太好,这真是 太棒了。接下来是这个 next 应用,它应该是一个仿 stack overflow 的 网站,它运行的相当不错。它确实非常出色,你可以浏览帖子、 提问、回答等等。能看到这些功能确实挺酷的。它真的比 opus 四点六 generations 还要强,真心不错, 真的太强了。然后是 sorry 这个应用。这个测试还挺有意思的, 他持续了三个多小时,真的,我没开玩笑,他确确实实跑了三个小时。 这是个非常复杂的任务,我让他开发一个图片裁剪编辑工具,要带 ai 自动抠图功能,结果他花了这么长时间,最后算是勉强搞出来了。不过 他确实存在一些程序漏洞,这一点也需要提一下。但这个模型本身真的非常棒, 在我的智能提榜单上,他排名第一,交给他的每一项任务他都能完成,而且每一项都能成功跑通。生成的代码质量很高,并且会一直执行,直到任务完成为止。他不会为了省令牌而搞些奇怪操作,拖累整体性能。 在编辑代码,智能提示,我现在更愿意用它,而不是 oppo, 这足以说明这个模型有多强, 你也可以亲自试试,看似它比 obs 便宜的多,而且还是开源的,这点很棒。它也有些自己的小毛病,一开始你可能会觉得它好像会出错,但只要调校的好,它就非常出色了。 它很可能就是我的主力模型了,它也能和 open 框配合使用,而且它们的代码方案定价也很亲民。总之,这模型真的很酷。

最近有网友问我,世界大模型第一股智普的 glm 五发布了,说它是全球最好用的开源模型,编程能力堪比 cloud, 是 真的吗? 先说结论是真的,中国清华系智普最新的 glm 五模型已经在编程能力上比肩 cloud 了,全球开源模型中排名第一,虽然还有微小的差距,但是我们在快速的追赶中, 我是杨乐多大白话讲 ai 这款 glm 五到底强在哪?用三点跟大家说清楚。第一点,开源模型世界领先。目前这款 glm 五在全球的开源排名中,编程能力排名第一,综合能力排名第四, 也就是在全球范围内把代码公开,让大家免费使用的模型里面, g l m 的 编程能力是最强的。第二点,代码能力逼近顶尖水平,目前编程全球最强的就是 cloud 模型,而 g l m 五在编程的使用体感上 已经跟 cloud 相差无几了。第三点,他专门擅长处理复杂的任务逻辑,也就是一个不会代码的人,可以跟他进行多轮对话后生成一个复杂的产品,甚至不用写一行代码就可以实现。 我们客观的看,差距确实还存在,但是你要知道,一年前我们的 ai 代码编程能力比全球顶尖水平差了十倍不止, 而现在我们基本上跟他们近在咫尺了,并且 glm 还是一个开源的模型,开源的模型意味着全球的开发者都可以免费的使用它,并且在上面进行二次创作和修改。 而 cloud 是 闭源模型,只能通过付费调用它的 api 来进行使用,并且不能对其进行二次的修改和调整。做一个比喻啊, cloud 就 像是高墙内的武林高手,没有人知道它是怎么实现的, 他的武功不外传,你们只能看。而 glm 五呢,就像一个武林盟主把所有的武功秘籍全部都公开了,那你想想谁的影响力更大,谁会进步的更快呢? 这就是中国 ai 的 速度,中国至普系的 glm 一 年时间走完了别人三到五年要走完的路,中国在不断的这,这背后就是中国的 ai 的 硬实力,也是中国 ai 选择开元路线的再一次胜利。

昨晚, glm 五正式发布,我连夜十次结论,就一句开源模型,第一次让我感觉手里握着的不再是代码生成器,而是一个能扛式的系统架构师。硅谷的风向早变了, cloud office 四点六和 gpt 五点三, codex 都不在,就一句话做网页,而是拼谁能花几个小时自动解偶一个遗留系统,重构一个编辑内核,这就是 angelic coding, 让 ai 像人一样慢思考、干粗活。而 glm 五就是开元界第一个接触这波潮流的模型。我让他帮我生成一个复古街机风格的键盘,节奏应有网页。他思考了一会,自主拆成六个模块,依次实现音频解码器输入响应、系统判定、逻辑粒子特效、 ui 渲染、性能监控。 中途遇到 web auto a p i 时讯漂移问题,它自动分析控制台日制定位到时钟同步偏差重写时间效准算法全程无人干预,最终跑出一个可上线、可扩展的完整游戏架构。这自我反思自我的 bug 的 过程, 像极了 office 那 种工程师思维,而不只是语法补全体感,太像了。以前我们用昂贵的 office 做大脑规划任务,便宜模型做执行,现在 g l m 五自己就是大脑逻辑密度、拆解能力直逼 office, 但开源可部署,性价比拉满海外。不少大佬测完表示智能和风格极似 office, 开源第一无疑。 g l m coding plan 今天早上十点又被抢空,懂行的程序员已经开始用它替代 office 干脏活累活了。 如果你需要一个能本地部署、能长时间自动工作、能帮你从零搭建真实系统的平替 office, g l m 五可能是你二零二六年第一个生产力革命,目前 a i 明显在两个主行道,一个 coding, 一个 ai 视频。而在 c d c 之后, coding 领域的 g l m 五发布开源代表生产力范氏急跃前,在马年即将到来之际,中国 ai 拿回了属于自己的王座。

g i n 五它来了! 在二月头想必大家都被 call up 四点六和 g p 五点三这两款模型给刷屏了。你有没有发现,现在的 ai 编程模型都在强调长任务,都在强调自己的 agent 和解决复杂问题的能力,而没有在强调前端能够做的多么多么好看?而在这之后, openroot 又出现了个神秘模型 pony, 在平台上搜索第一,它的编程推理、角色扮演方面都非常出色。嗯,而外国友人都在猜啊,这个模型到底是哪家公司的?在猜是不是 sonnet 五?有的网友在想,小马 使用生肖命名的是不是中国模型,而在猜是不是 dc, 是 不是 gln 五,没错,它就是国产的智普。 gln 五也是终于终于上线了,它现在也是主打长任务,超长的执行任务链, 它能够像架构师一样自主拆解复杂的系统级需求,并在长达数小时的多阶段任务中保持清晰的上下文一致和目标一致性。而现在后端同学也不用担心,现在的 ai 编程代码都是重前端了,主要我特别擅长后端架构设计,具备强大的自我反思与纠错机制,能通过分析日制定位根因并迭代修复 实质问题解决。它在代码逻辑精细度和逻辑处理能力方面直接对标 qd 四点五,并且依然开元且便宜一大碗。我准备了三个案例场景,带大家一起沉浸式体验一下。首先第一个游戏场景,我 让九幺幺五做了一个编程逻辑迷宫,游戏用户需要规划中间的小人经过迷宫的行进路径,在左侧选择对应的行动程序块, 准备完之后,点击开始小人成功走出迷宫,则进入下一关,否则会给出失败的提示。这是我们的 pro, 而这是我用官方 agent 执行的步骤。这个游戏的 pro 呢,首先是想考验 g n 五是否能够自主拆解系统及需求和选择技术栈,比如将游戏清晰地划分成 u i u x、 游戏逻辑等模块,并且定义所有的交互接口和代码封装。我们来看一下它的思考过程。我们首先看到它对 pro 的 理解能力还是很好的, 核心玩法、视觉设计、交互功能、难度系统等都进行了一个前置的调研和总结。下面就是正常的思考过程,他说他应该使用前端样式专家 a 准来辅助设计,还需要全站开发人员 a 准来进行实现。可以看出在复杂场景下,他会自己寻找代理的工具进行规划和执行, 对于迷宫深层路径规划,用它的后端深度调试与复杂算法实现能力进行处理。最后就是列出来的图度,一步步执行整个游戏大概他不断反思,不断调试,不断进行功能迭代,持续的进行二十多分钟吧,这个速度我觉得也是非常正常的, 用这种深度的思考和编码就是要花很多的时间,反而一下子就完成的那种编码是很容易出问题的。最后这个游戏的完成度我个人感觉也是非常棒的。当然我也看到网友们的一些案例,比如这种小人跑酷的赛博朋克风格游戏, 翻牌子消消乐游戏,想象力也是很丰富了,这让 gl 五的复杂逻辑处理能力完完全全地表现出来了。第二个,三 d 渲染,我看到网友的一个 case, 非常惊艳,这是一个程序生成的三 d 行星模型,可以生成随机地形, 也可以自由改变行星的地形粗糙度、海平面高度、旋转速度,并且可以调整阴影模式,还支持昼夜循环效果和大气渲染。这效果我第一次看到的时候真的是太震撼了。我本以为它是经历过很多次的人工与 ai 迭代对话而成, 但是我看了一下它整个的 a j pro, 居然只是一个 pro 加 g r n 五的一次对话就完成了。虽然这个 pro 很 长很多细节,但是你敢信这是一个没有经历过二次迭代的产品吗? 我们来看一下它的思考过程,它是真的很有规划,而且在技术方面列的清清楚楚,比如要用什么技术站,首先需要实现什么,再实现什么,然后地形深沉、着色模式,昼夜循环分别都列出来应该要怎么实现。而最终也是依旧列出了个图度,去一步步完善,不断地自我纠错反思后给出完美的答卷。 太离谱了!因为我比较少接触三 d 的 内容,但是如果你让我去做这个东西,我估计没个三四天完全做不出来。而用 gl 五生成的用时肯定是少了很多很多,而且在这么短的时间内完成这么多复杂的逻辑交互,并且完成度还这么高, 是真的强。第三,网页布局。以上两个都是重逻辑的势力,接下来我看看喜闻乐见的前端方面有没有进步呢?其实这方面我给大家展示几个网友的案例就清楚了。第一个,这是一个现代感十足的个人 vlog 作品级调 搭配暖珊瑚色与电光青绿色点缀。在 hero 区域,它增加了照点粒子动画效果,每个文章区域都有独特的动态界面背景,并且下面还有非常炫酷的动态视觉动画,这效果你就看吧,一看一个不吱声,真的太顶了。第二个是一个 landing page, 在设计方面,它采用了暖灰色作为主背景色,在 yellow 区域还有一些动态漂浮的尘埃粒子,在下面以淡暖橙色作为点缀,随着页面的滚动,布局的内容也会有渐显的效果。整个页面非常的简洁现代,不管是段落的间距还是模块的排版,都很是漂亮优雅。太优雅了, 这句幺幺五的 ui 效果又进化了。我知道现在还是很多人对国产的 ai 持保留态度,心里更加认可国外的技术, 这种想法完全可以理解,毕竟在过去很长一段时间里,我们在基础软件和底层算法上确实存在差距。但是我想说的是,这种认知认可可能已经需要更新了。从去年过年的 deepsea 到现在一直在持续更新的 g l n, 包括我自己,已经出了很多关于 g l n 相关的视频。 从 g l n 以前的自然语言理解基作模型,再到 g l n 四系列的具备自主工具调用的全能模型,再到现在能够处理超长任务且复杂需求的 g l n 五, 我们可以清晰地看到,国产 ai 已经找到自己的节奏和方向了,我们正在形成这样的自信和能力,我是真的挺自豪的。好了,以上就是视频的所有内容,如果觉得有帮助的话帮忙点个赞,我是小卢,我们下次再见,拜拜!

重磅的 pony alpha 神秘面纱终于揭开了,果然就是质朴 g l m 五啊!参数达到七百四十四 b, 也就是七千四百四十亿参数激活四百亿,预训练数据二十八点五, t 扣定和 a 阵的能力全都取得开源搜塔啊,使用体感完全是逼进可洛的 opus 四点五。其实就在它还是那个测试模型,大家都在猜,那期间 大家就发现它编程能力直逼可洛的 opus 四点五了。所以现在看来,谁说开源比不了 b 源,而真让这次发布意义翻倍的啊!是海光 d c u 确认了对零的深度适配, 也就是说,中国最强的开源模型,在中国领先的 g p gpu 芯片上发布即可用光伏组织汇聚的超六千家啊!这生态伙伴现在形成的国产算力纵深真金碧玺比了 这一回的对零适配里头,海光 d c u 团队是深度协同智普 ai, 凭借 d t k 这些字眼软件占的优势,重点去优化底层算子和硬件加速,让 glm 五在海光 d c u 上实现高吞吐、低延迟稳定运行。 所以啊,现在咱 ai 大 模型真的正在向着更高参数、更广场景迈进。底层算力的适配能力完全是决定性因素了, 决定模型的落地效率的关键因素。回到模型啊, g l m 五的技术底座同样是非常震撼,全新 slam 一 步强化学习框架 可以怎么样让智能体从长城的交互中持续优化?还首次集成了 deepsea 之前说的那个 sparse attention, 也就是稀疏注意力机制,用这个机制在长文本效果无损的前提下去大幅压缩部署成本,现在开元旗舰都做到这水准了啊,赶紧推啊!所以二零二六春节到, ai 大 战果然是史上最热闹一届!你算吧, defv 一个 v 四这传的啊,千万三点五这基本你都看见了!迷你 max m 二点二会不会全都扎堆登场啊?中国最强的一批大模型,正在同一个窗口期集体亮剑的 glm 杠五怎么样?携手海关 dcu 这支重拳,注定中国 ai 震撼的一声响!

谁说国产 ai 只会开会?郑州研讨会才刚散场,真正的重头戏就开演了。二月十日,光核组织集结头部算力模型厂商,启动联合公关,打造算力加模型加场景闭环。 二月十一日,智普 ai g l m 五开源海光 d c u 同步适配,直接把闭环落到了实处。 g l m 五拿下开源 s o t a 海光,实现 day 适配, 双方深度协同,让国产算力的价值充分释放。这也正是郑州会上倡导的开放生态系统公关的核心内涵。从百家联工到企业落地,国产 ai 生态正在全面开花,未来可期。

t t c a i 资讯分享开源模型开始接管工程智普正式开源 g l m 五参数扩展至七百四十四 b 激活四十 b 在 coding 与 agent 能力上达到开源 sota artificial analysis 全球第四、开源第一 v bench 等多项基准领先开源模型长城 agent 任务执行能力接近 cloud ops 四点五,并已完成国产芯片适配。大模型竞争正从写代码升级为写工程 agentec engineering 进入实战阶段。记得点赞关注哦!

二月十二日,智普通过官微宣布上线并开源 g l m 五,参数规模从三五五 b 激活三二 b 扩展至七四四 b 激活四零 b。 目前 g l m 无以完成与华为、升腾、摩尔县城、韩五 g、 昆仑心、木曦、穗源、海光等算力平台的深度推理适配。 即日起, glm 五在 hugging face 与 model scope 平台同步开源,模型权重遵循 mit license。 同时,智普也确认此前在 open letter 市场上发布的开源模型 pony 即为 glm 五。

别再沉迷于让 ai 生成贪吃蛇或者简单的着陆页了,说实话,那也只能算 ai 玩具,根本上不了生产线。 glm 五发布的今天 ai 编程大模型,正是从前端切图在进化到了系统架构师时代。 现在的趋势不是谁画图好看,而是谁能搞定 aintiq system。 以前测模型我都让他写前端网页,这次我直接上强度,给他提了一个真实的生产级需求。我要求 glm 五开发一个 live o s 的 个人指挥舱。注意,我没有让他只写一个 to do list, 而是让它生成了一个包含日程、消费、健康学习的完整个人管理系统,并且接入了 ai 能力。 glm 五展现了惊人的 a n t 和长城规划能力。 但这里他没有着急写代码,而是像资深架构师一样,先自主拆解了前后端架构,并在长达一小时的构建中始终保持上下文连贯。他清楚地知道第一步写的数据结构要怎么配合最后一步的 ui 渲染。如果 live os 是 看规划,那接下来我告诉他这个需求。金融看板就是看它搞定顽固 bug 的 能力。 做这种复杂的 c v 波动率计算报错是常态,普通的 ai 遇到报错就摆烂,但 glm 五具备极强的自我反思机制,大家看,遇到报错它没有停,而是自主分析日制定位根音。它不只懂前端审美,更拥有深度的后端工程能力, 直接把系统彻底跑通。这种代码逻辑密度,以前你只能在可洛的 opus 四点六这种顶尖闭源模型上看到,但现在, glm 五直接对标可洛的 opus 四点六,把复杂的系统工程能力带到了开源世界,感兴趣的朋友快去试试吧!

最近智普大模型出名了,一月底在深圳策略会刚交流过,新发布的 g o m 五在 call 顶 agent 上表现非常好,洗车问题也是完全答对,发布没多久,官网的 call 顶直接卖断货,连 max 套餐都卖光了,相比对按贵的离谱的头肯费,性价比特别高。目前, g o m 五已完成于升腾、 摩尔县城含五、 g、 昆仑星、木兮、岁元、海光等国产算力平台的深度推理适配,通过底层算子优化与硬件加速, g o m 五在国产芯片级群上已经实现高吞吐 低延迟的稳定运行。别问我怎么知道这么多的,因为公司头官杨总这两天更新了很多朋友圈,大家赶紧拥抱起来吧!