粉丝4.8万获赞28.8万

智普啊,发布了 glm 五点零,为了测试它的能力啊,我用它构建了一套可以无限运行的 ai 开发系统。我用这个系统运行了长达十个小时,从晚上十点到早上八点, ai 做了几十次 getmate 的 提交, 开发了一个 ai 漫剧生成工具,有前后端有数据库,可以用户注册和登录,还接入了大圆模型,图片生成模型,视频生成模型。通过这个视频,你会学到如何构建这样一个无限运行的 ai 开发系统,并了解到 glm 五点零的惊人开发能力。 整个过程我都只是输入简短的 prompt, 没有亲自阅读或修改任何一行代码。我一直在旁边玩着游戏,等他干活, 尤其是我视频最后会讲的,他把整个项目的所有模块联合起来,然后端到端的 bug 修复错误,非常的牛逼。他不只是单纯的写代码,他甚至自行在浏览器中验证每个功能的正确性,找出 bug, 然后自行在浏览器后端数据库第三方的 api 之间联合调试,找出问题,修复错误。 那赶紧进入正题啊,相信对你会有所启发。我使用的工具是 cloud code, 并且把模型切换为 g l m 五点零,具体方法可以看我之前这一条 g l m 四点七的视频。 那我们首先要搭建一套能无限运行的 ai 开发系统,说是系统,其实就是几个文件,做法非常简单,我把一篇来自 astonopy 的 神级文章发给 ai, 让他自己去学习,根据这篇文章做出这套系统 文章叫长时间运行智能体的有效调度编排框架。那过程中 ai 做出了一些操作预期的举动,他通过 m c p 打开浏览器, 通过这篇文章的页面找到一个配套的 get up 仓库,打开仓库的代码文件进行学习。而我事先都不知道这个代码仓库的存在,最终他创建出了这一些文件。 我解释一下最重要的几个,帮你理解一下这套系统的工作方式。 task 点 jc 文件,其实就是一个任务列表,每个任务都有它的描述,并且会标记是否已经完成。和我们人类工程师每天上班一样, ai 每次从这里面领取一个任务, 完成后就做一个标记,这样他的 ai 同事啊,就知道项目进展到哪里。 progress 点 txt 文件,每次 ai 完成任务啊,或者任务失败后,都会在里面留下工作日期,这也是为了给其他 ai 同事提供一些信息。 log 点 m d 文件,这里面全是提示词,用来指导 ai 根据固定的规范流程工作。和我们人类工程师的开发流程类似, 第一步,跑一个脚本,来初识化整个项目的环境。第二步,在 task 里面领一个任务。第三步,就开始开发。第四步,测试和验证。 第五步,更新 progress 和 task 文件。第六步,用 git 提交代码。那如果中间遇到困难,需要人工介入,它就要及时向人求助。那在以前一些长期运行能力不强的模型中啊, 这么长的开发流程,一旦工作上几十分钟,模型就会逐渐混乱,不再按照规定的流程工作,而如今完全没问题啊。视频后面我们会看到, glm 五点零,即使在长达一个小时的工作,提交了几十个 commit 后,仍然很好地遵循开发规范。 然后呢,我让他写一个脚本,用来无限时间的运行。这一套开发流程背后的原理很简单,就是把 cloud code 放到一个 while 循环里面,这样一来,人不在电脑旁边的时候没法手动 prompt, ai 就 可以执行这个脚本,让 ai 无限的工作。它之所以有效,有几个原因啊, 第一,我们这套流程每次只要给 ai 说一句,完成下一个任务,不需要更具体的指示, ai 就 能通过 task 和 progress 文件知道自己现在应该做什么。 第二,每个 task 都很小, g l m 五点零足够的强大,每一次 y l 循环里面,他只是领取一个很小的任务,并且严格的测试,成功率极高。第三,每完成一个任务,模型的上下文都会被清空,所以模型始终保持在最聪明的状态。 第四, g l m 五点零非常可控,严格按照工作规范执行,每次小任务都会进行 commit, 所以 即使出错,我们可以轻易地回滚到旧版本。 好,现在我们这套系统有了,接下来就要开发软件,我们先来设计一下它的功能和架构。这个软件的用途是一句话,生成长视频。我让 ai 把整个项目的开发需求拆成了三十一个任务,放到 task 文件里。 这是 ai 设计的软件,架构不复杂,但五脏俱全。再看一下 ai 画的业务流程图啊,帮助大家理解我们要开发的这个软件具体的功能。 首先,用户会创建一个项目,然后用大圆模型生成每一个分镜的文字描述,然后再用图片模型生成每个分镜的图片,再用视频模型生成。视频开发的流程比较长啊, ai 做了几十次提交,我就选几个精彩的给大家讲。 在 ai 做到第十九个任务的时候,为了测试 glm 五点零的能力呢,我产生了一个大胆的想法,我让他一口气做了一个多小时,完成了十一个任务,干完一个又一个,中间我没有任何干预, 给大家倍速感受一下效果。他一直在写代码,并且每次都遵循我们的开发规范,每个任务都完成,测试一个,一个任务,单独提交代码,拿一个具体的任务作为案例啊。他现在领取了任务三十,任务目标呢是实现响应式的布局,也就是让 u i 在 手机端和桌面端看起来不一样。 他现在正在修改代码,然后验证项目能 build 通过。然后他现在把浏览器的大小变成了手机屏幕大小。打开了我们的应用,他点击了一个按钮, 他对页面做了一次截图,用识图的 m c p 判断是否正确。再打开了一个新的页面,再做了一次截图,并检查是否正确。然后在 progress 里面仔细描述了自己所完成的工作,然后把这个任务标记为完成,他就按这么一套方式疯狂的干完了每一个任务。 要接入数据库的时候呢,他主动提出需要人工帮助,并且一步一步地给我说明,告诉我如何去这个 superbase 平台啊,点哪里创建项目,配置数据库,获取 api key。 尽管我没怎么用过 superbase, 仍然轻松地操作下来了。中间我还犯了错误,给他提供了错误的 key, 也被他及时发现,最后他还让我帮他去注册一个测试账号,然后他自己打开浏览器,输入账号密码,验证登录功能,可以正常使用。那像 superbase 这种外部的系统啊,超出了 ai 的 控制范畴。 g o m 非常明确的给我提供指引,让我协助他完成开发工作,一个不了解后端的人,也能在他的指引下完成数据库的配置。 他开发完后端一系列 c r u d api 后呢,声称对每一个 api 都进行了测试,但所有的 api 都是需要 os 的, 前端也还只有一个空白的页面,所以我就很好奇他哪里来的 os 权限,怎么完成测试,是不是在忽悠我? 于是我问了他一下,他用简短的语言,漂亮的格式向我解释。他说他打开浏览器,登录了刚才创建的测试账号, 然后通过一个叫做 browser evaluate 命令,在浏览器可以执行任意的 javascript 代码。然后他写了一些临时的 js 代码,就在浏览器里运行,调用我们的后端 a p i, 这样就能有 office 了。非常聪明的做法,我还怕他在骗我,我检查了一下录像,确实如他所说,他打开浏览器疯狂测试, 中间还真测试出不少问题,他就自行查看后端的报错日期,自行修复。最终三十一个任务全开发完后,啊,我也懒得去人工验证这个项目是不是已经可以用了。在往常的开发中啊,到最终阶段,因为已经把 前端、后端、数据库、第三方 api 全部连起来了,那第一次的集成测试啊,就会非常头痛,因为任何地方都可能出错,往往需要浪费大量的时间再把错误找出来发给 ai, 让 ai 去修复。但这一次我非常大胆,我只说了一句话, 请你完整测试一遍流程,确保功能可用。大概就是从早上七点十分开始,他自己在浏览器上疯狂测试,花了一个小时提交了这么多改动,用来修复 bug。 我看他在浏览器上像人一样一步步操作我们的产品,通过截图和视觉能力来判断是否符合预期。遇到问题的时候呢,他就自己查询后端的报错,检查各种 api 的 状态,综合分析出问题。最终他总算顺利的生成出了第一个视频,端到端的把整个应用全部打通了。 他修复的每一个 bug, 做的每一个 feature, 其实我都不清楚是什么情况,但我想知道的话,我只要找到他的 commit 记录,看一下他在 progress 文件里写了什么。这也是这套流程的强大之处,一切都是可追踪的。 我们让 glm 五点零一边开发项目,一边在开发过程中发现问题,让 ai 来增强我们这一套自动化的开发系统,左脚踩右脚,螺旋升天,我相信这就是未来开发者的工作方式。总结来说, glm 五点零已经远远超出了单纯抠顶的范畴,而是能对软件工程的每一个环节进行自动化,提升效率。 gm 五点零在超长任务上非常出色,已经达到了能让我放心的交给他连续运行一个小时的程度。横向对比的话,我个人认为 gm 比刚发布的 oppo 四点六弱一点,但在一些方面可以超过 gbt 五点三。 重点是价格便宜非常多,但现在过于热门啊,供不应求,抠钉套餐非常难抢。那我们这个项目呢?虽然现在端到端全部打通了,但最终深层的视频效果还有很大优化空间。点赞到一万,我可以开源出来,让感兴趣的人进一步优化它。

这临近过年,我们的国产模型真的太猛了。前面我做过两期视频,用同样的 prom, 同样的真实项目任务实测,对比了 cloud office 四点六, gpt 五点三、 codex mini max 二点五。 那期视频做完之后,评论区就有人让我测试一下质朴新发布的模型 gom 五,咱也是加班加点的干出来了,而且据可靠消息,过两天还有 deepsea 微视版本的发布,到时候也给大家带来一期真实项目的一个编程实测。 求一个一箭三连不过分吧?在这里要插播一下,当我准备去测 gm 五的时候,我去官网去订阅它的 cooling plan, 直接受庆了,就我的套餐买不到。哇,那如果按 ipa 计费的,我目前也没有找到。他们可以用 insulate 的 一个协议来测试 gm 五, 所以我就用了 ppl 他 们家的去测试,他们是非官方首发部署的 gm 五,一个开源模型的一个权重,那兼容安斯罗比的一个协议接到可拉扣的里面也非常方便,因为我之前的评测的话,都是用可拉扣的去做的嘛。所以说为了保证公平公正,我们也是用同样的 工具方的编程任务去做实测。好,我们先去创建个 api k, 这里我就写 gm 五 确认,点击复制好,我们开始进入真实项目的一个编程实测环节,也是同样的 prompt。 哈,那第一个任务的话,是把 我们另外一个项目里面完整的一个用户认证体系,包括邮箱、谷歌认证登录、 github 登录迁移到我有一个新的图片生成 a 级的项目里面,同时让它去做一个落地页, 需要考验它的一个代码理解能力,架构适配能力,一个工程规范。这个任务还算比较复杂,之前用 mini max m 二点五去测的时候,它花了三轮对话才完成的,那 op 四点六跟 gpt 五点三 colex 的 话,它们一轮对话就完成了。 那第二个任务的话是我本地有一个 skills agent, 它是一个终端 ui 交互的,我们把它做成一个外部聊天页面,让它保留 syncing 工具,调用流逝输出。这个任务主要考验它全站开发, 流势输出以及 u i u x 的 一个交互能力。之前测试的话, off 四点六跟 g p d 五点三 codex 他 们一人赢了一局,那下面我们就开始做 g o m 五的一个测试。 这两个项目现在都是开启了一个沙杯进者的模式去探索已有的代码。那右边的话,它弹出来一个让我选择想用的框架以及 u i 主键库,我就按我一个常用的方式去选好,它提示已经成功了。 好,我们打开了他给我们写的这个 y y, 哈,他把这个 skills 是 放在右边的,就展示我已有的一些项目,来测试一下它可用吗? 好,我们开始让他去总结这篇文章,看一下他有没有去做到加载这个 skills, 然后加载完了之后去执行一些脚本去做爬虫,然后再去做总结。可以看到这边他已经加载到这一个 skills 了,下面去执行一些命令 总结出来了哈。整体的话完成度还可以的,就是他这个 ui 上稍微会差一点点,相较于那个 gbt 五点三 codex 的 话,这个完成的没有 gbt 的 好。 左边这个窗口就是 cloud off 四点六写的,这个 ui 上确实会差一些。右边的话是 gbt 五点三 codex 写的,当时我是把票投给了他,那么同时去可以看一下刚刚那个任务,他们俩其实都没什么太大问题,不是特别难,后端也就 thinking, 然后做工具调用, 可以看到都是 ok 的, 没有什么太大的问题。好,下面我们去看一下那一个纹身图 agent 用户认证体系那块它完成的怎么样了? 可以看到它这个已经完成了哈,可以看到这个代码它已经写完了,我们先看它能不能一次性去启动,之前 mini max m 二点五这一块是没有做到一次性启动,我们先开新开一个窗口去测一下。好,我们可以看到 g m 五的话,它目前启动是没有什么问题啊,我们再看一下它实际的一个表现, 我们看一下它整个 ui 表现哈, ui 还行,那我们看它的那个认证功能可不可以用。我们先试谷歌登录,谷歌登录的话,它这块放了一个小 bug 啊,它把那个毁掉的端口弄错了,我们改一下。好,我们继续。 好吧,登录失败了,这边还是有些问题,你看到它登录的时候认证失败了,应该是数据库的表结构那块有点问题,从这么看的话, gbt 五点三 codex 跟 op 四点六还是要猛一些哈,就是它们没有这些问题。 好,我们再来选择谷歌登录,刚让它修复了一下, 好,他终于可以了。哎,有个问题,他登录成功之后没有回,没有进到我们的那个主页面,登录成功之后没有进到我们 agent 里面, 这个算第二轮对话吧,看他第二轮对话能不能搞定好,我们点击登录选择谷歌, 他还是没有修复成功,他还是要再刷新一下,看没有再刷新一下,进来再给他描述一下吧。现在还有个小问题,当我们认证之后,他先跳转了到首页,我再刷新页面,他才进到了 a 镜的里面。 在他这是第三轮了,就证明他在这个方面其实跟 mini max m 二点五差不太多,他们俩再点登录。 我靠,跟这个问题杠上了,他还是修复不了啊,还是有问题,你能不能好好深入去修改一下,去思考一下。 这是我们第四次对话,让他去修改这一个小问题哈,这个表现呢,就有一点不是特别好了,我们再来,如果他再再进不去,我就不撤了,这个就默认他四轮吧。 好,我放弃了。这个问题我不测了,他修他,我跟他一直对话,他修不了。我们之前测 gbt 五点三跟 colorof 四都是一轮。 ok, 我 们下面来看一下评分,整体的一个打分标准是第一个,我人为的去检测他们的一个功能完整性以及 ui 的 一些情况。那代码架构,工程规范,我都是把他们所有的代码给到 gbt 五点三, codeof 四点六,让他们分别去 review, 然后去打分。 它现在结果是这样子的, off 四点六,在第一个项目用户认证里面,它是表现最好的,它在功能完整度以及 ui 落地上是表现的比较好,并且是一轮就完成任务了。但是它的代码架构跟工程规范会有一些小问题, gpt 五点三扣贷 x 的 话,它的代码架构以及工程规范会比它好,而且是这四个模型里面最好的。那它的功能完整度呢?因为它漏了一个谷歌登录的一个前端,所以说这个评分稍微低一点,那它 ui 落地页的话也会稍差一些。 上一期视频测试 mini max m 二点五这一边的话,他是花了三轮对话去完成了这个任务。那智普这边的话,刚刚你也看到了,其实四轮对话完下来之后,他还有一些小问题,所以说评分的话,他俩其实差不太多吧,我个人感觉哈, 我们来看第二个,把这个 skills agent 做成一个外部 ui, 那 这个项目的话就是 gpt 五点三 codex, 它在业务完成上逻辑错误控制以及 ui 代码质量工程实现都是最好的。那剩下这三个的话,大家表现的都差不多吧,大家有优势的地方也有他劣势的地方。 好,下面我们开始进入 agent 的 实测环节,把 gm 五模型接入到我这一个真实的一个 agent 的 项目里面去,它是做自媒体视频拆解的, 主要需要去看他的一个速度,拆解深度以及表达一个真实感。那整个 a 型的工作内容的话,就是先去下载视频,做音频提取,转文字,然后去做内容的结构化分析,爆款元素的提取,最终输出一个拆解报告。好,我们下面开始吧。好,右边也完了, 我们来简单看一下哈,他们两边格式上会有一些差异。在拆解上我们看他这个结构拆解这块,他这个时间出其实是有问题的,他做的不对,因为我这个是十二分钟的,他是做了 十四分钟到十五分钟,那 g m 五这边的话,它也有讲一个时间戳吧。啊对,你看它有二十分钟,还有三十到三十五分钟都来了,所以说我感觉它在整个 a 帧的表现里面不是特别好啊,它这个拆解的深度也不太够,我感觉相较于昨天我测那个 mini max m 二点五的话会稍微差一些。 好,我们下面总结一下。把 gm 五接到这一个自媒体视频拆解的 a 帧里面,它的一个表现情况哈,整体上的话速度偏慢,就响应速度不算快,可能跟当前用户量大有关系,因为都知道它这个套餐都卖的受庆了。第二个的话,它的拆解深度的话相较于 mini max m 二点五会有一些稍稍不足。 第三个的话,它的一个真实感稍微偏弱一些啊,这是整体的一个表现情况。好,下面我们进入整个的一个总结环节,在编程方面的话,一句话,在我的这一个测试项目里面, gbt 五点三 codex 表现最好,比 off 四点六会好一些。 glm 五跟 mini max 它们的体感接近,都是开源的嘛,并且它们的成本非常低,所以说 对于一个高性价比的一些开发任务的话,我觉得这两模型都非常不错。好,这就是这一期视频的所有内容了,如果你觉得这期视频做的不错,一定记得给我一键三连哦。那下一期视频的话大概率是做 deepsea 微四,有可能是在过年那一天发布,我猜测哈,据可靠消息。好,那视频就到这里了,大家拜拜拜拜拜拜拜拜。

几千台设备的生命周期管理,十二张数据库表的互相关联,完整的 r b a c 的 全员体系加发货单的审批流程。正常来说,这种企业系统呢,至少要三四个人搞一个多月。但是我刚看到智普刚刚发布了 g m l 五啊,说是开元界的第一个系统架构师的模型。行,那别客气了,咱就试一试。这里我用的是 c c switch 加 colossco 的 方式, 把 colossco 的 底座模型呢切换成了 g m l 五,直接把我整理好的这份 pl 文档呢丢给他,从零开始,看他到底能不能接得住。虽然是用 colossco 的 跑的跑的,但核心模块的逻辑呢,还是 g m 五输出的。 能看到,他先是把整个项目呢拆成了四个阶段,先搭什么,后搭什么,前后端怎么配合排的很清楚。这个规划质量和我之前用原生可拉的 office 做项目的体感呢是差不多的。然后呢,他就开始噼里啪啦干活了。首先是构建 spring boot 的 后端架构, 用户认证,设备档案批次管理,一个模块接一个模块往上加,后端搭完了呢,再构建 nexgs 的 前端,因为工程量确实不小啊,这一步他自己足足写了一个多小时。这个小时里呢,我没怎么管他,他自己呢,就在终端里跑, 先后端再前端,最后生成了出纸化数据库的脚本。用过 a g 的 写过代码的朋友都知道,这个节奏呢,是最考验模型脑子乱不乱的, g m 二五呢,全程逻辑在线,这一点呢,十分难得。前端写完了,最终运行的时候呢,报了个错,依赖版本冲突, 我让他看了一眼,这个报错信息呢,他改了个配置文件,重新安装了一遍就 ok 了,也就是说写了这么久,只修改了一次呢,他就能直接撞起来,想想啊,也是很厉害的。最后后端 spring boot 的 启动成功, api 返回正常数据,前端页面呢,也能正常跑起来。十二张关联表,完整的 r b a c 的 权限体系,发货单、审批状态机,这些呢,全都跑通了。 后面其实就和平时开发项目差不多了,遇到问题呢,就让他去定位修复,你会发现,这就跟一个靠谱的开发同事做极速编程啊,没什么区别。到这你可能会觉得这些不都是正常操作吗?对啊,这就是正常操作。但问题是呢,以前做到这些呢,只有可乐和 gpt 一个柜一个闭园,而且随时都有可能会被封号儿。 现在 gm 五作为一个开源的模型呢,也能做到这样的全载工程能力和这样的质量交付,实在是不容易。而且大家别忘了,从算力底座到上层架构,这可是跑在国产芯片万卡级群上的成本呢,那是绝对可控的。所以,这种能掌握在自己手里的生产力,你们不想去试试吗?

我以前测试过 g m 四点六,几个小时都搞不定的问题, g m 三一次性就解决了,但最近这波发布的 g m 四点七号称编程能力大幅提升, 而且还在 s w e 笨器、 web dev 等多个全榜单中都取得开元第一,国产第一的成绩。我就想试试开发同一个功能,看看它到底提升了多少。 给大家简单说一下,这功能就是在杀背写这个插件里面增加一个合集地址的下拉框选项,然后要去调用 b 站合集相关的一些接口, ok, 开始实测。我是在 vs code 中使用 code code 的 插件来接入 g m 四点七的方式来进行开发,稍后会讲具体的配置方式。我这里直接把这个需求告诉他,生成下拉框选项,然后再输入地址获取视频这个秃噜的文档, 这个文档就是我把 b 站跟那个接口相关的一些 api 地址啊,然后对应的参数都拿过来了,然后我直接让他去帮我开发这个合集功能,我们这里稍微等一下, ok, 他 现在开发完成了,我们去看一下效果。我们这里重启一下插件, 点开他这有个合集地址,我把当前合集地址放放进去,然后获取下 cookie, 再获取下视频, ok, 在这里就获取成功了,你看嘛,我的二十三个视频,这里有二十三个,这种感觉真的太爽了。 gm 四点六,几个小时都搞不定的功能, gm 四点七一次性就解决了,这就是真实项目的开发,体验提升真的太明显了。 接下来我们用三个模型开发小鱼线,一起来看一下对比效果。 g m 四点七的前端审美和交互都很稳,再给大家讲一下怎么在卡洛克中使用 g m 四点七。 来到日普的官网订阅一下 g m coding plan 的 套餐,基本上开发需求用这个 night 的 套餐就够了。我是上个月就已经开通了他们 night 的 季度会员的。 订阅成功之后,我们来到顶部的接入编程工具按钮,然后选择 cloud code, 跟着官方文档去配置就可以了。配成功后,大家就可以在 cloud code 中愉快的使用 gm 四点七了。 nice! 总之我这次用 gm 四点七开发 java 器,相比 gm 四点六的提升真的很大,而且价格也比较便宜,非常建议大家去试试。 评论区我放了三张 g m coding plan 的 七天体验卡,大家先到先得。好啦,以上就是本期视频的全部内容,记得点赞和关注我哟!我是阿超,我们一起学皮皮强,我们下期再见!拜拜!

g i n 五它来了! 在二月头想必大家都被 call up 四点六和 g p 五点三这两款模型给刷屏了。你有没有发现,现在的 ai 编程模型都在强调长任务,都在强调自己的 agent 和解决复杂问题的能力,而没有在强调前端能够做的多么多么好看?而在这之后, openroot 又出现了个神秘模型 pony, 在平台上搜索第一,它的编程推理、角色扮演方面都非常出色。嗯,而外国友人都在猜啊,这个模型到底是哪家公司的?在猜是不是 sonnet 五?有的网友在想,小马 使用生肖命名的是不是中国模型,而在猜是不是 dc, 是 不是 gln 五,没错,它就是国产的智普。 gln 五也是终于终于上线了,它现在也是主打长任务,超长的执行任务链, 它能够像架构师一样自主拆解复杂的系统级需求,并在长达数小时的多阶段任务中保持清晰的上下文一致和目标一致性。而现在后端同学也不用担心,现在的 ai 编程代码都是重前端了,主要我特别擅长后端架构设计,具备强大的自我反思与纠错机制,能通过分析日制定位根因并迭代修复 实质问题解决。它在代码逻辑精细度和逻辑处理能力方面直接对标 qd 四点五,并且依然开元且便宜一大碗。我准备了三个案例场景,带大家一起沉浸式体验一下。首先第一个游戏场景,我 让九幺幺五做了一个编程逻辑迷宫,游戏用户需要规划中间的小人经过迷宫的行进路径,在左侧选择对应的行动程序块, 准备完之后,点击开始小人成功走出迷宫,则进入下一关,否则会给出失败的提示。这是我们的 pro, 而这是我用官方 agent 执行的步骤。这个游戏的 pro 呢,首先是想考验 g n 五是否能够自主拆解系统及需求和选择技术栈,比如将游戏清晰地划分成 u i u x、 游戏逻辑等模块,并且定义所有的交互接口和代码封装。我们来看一下它的思考过程。我们首先看到它对 pro 的 理解能力还是很好的, 核心玩法、视觉设计、交互功能、难度系统等都进行了一个前置的调研和总结。下面就是正常的思考过程,他说他应该使用前端样式专家 a 准来辅助设计,还需要全站开发人员 a 准来进行实现。可以看出在复杂场景下,他会自己寻找代理的工具进行规划和执行, 对于迷宫深层路径规划,用它的后端深度调试与复杂算法实现能力进行处理。最后就是列出来的图度,一步步执行整个游戏大概他不断反思,不断调试,不断进行功能迭代,持续的进行二十多分钟吧,这个速度我觉得也是非常正常的, 用这种深度的思考和编码就是要花很多的时间,反而一下子就完成的那种编码是很容易出问题的。最后这个游戏的完成度我个人感觉也是非常棒的。当然我也看到网友们的一些案例,比如这种小人跑酷的赛博朋克风格游戏, 翻牌子消消乐游戏,想象力也是很丰富了,这让 gl 五的复杂逻辑处理能力完完全全地表现出来了。第二个,三 d 渲染,我看到网友的一个 case, 非常惊艳,这是一个程序生成的三 d 行星模型,可以生成随机地形, 也可以自由改变行星的地形粗糙度、海平面高度、旋转速度,并且可以调整阴影模式,还支持昼夜循环效果和大气渲染。这效果我第一次看到的时候真的是太震撼了。我本以为它是经历过很多次的人工与 ai 迭代对话而成, 但是我看了一下它整个的 a j pro, 居然只是一个 pro 加 g r n 五的一次对话就完成了。虽然这个 pro 很 长很多细节,但是你敢信这是一个没有经历过二次迭代的产品吗? 我们来看一下它的思考过程,它是真的很有规划,而且在技术方面列的清清楚楚,比如要用什么技术站,首先需要实现什么,再实现什么,然后地形深沉、着色模式,昼夜循环分别都列出来应该要怎么实现。而最终也是依旧列出了个图度,去一步步完善,不断地自我纠错反思后给出完美的答卷。 太离谱了!因为我比较少接触三 d 的 内容,但是如果你让我去做这个东西,我估计没个三四天完全做不出来。而用 gl 五生成的用时肯定是少了很多很多,而且在这么短的时间内完成这么多复杂的逻辑交互,并且完成度还这么高, 是真的强。第三,网页布局。以上两个都是重逻辑的势力,接下来我看看喜闻乐见的前端方面有没有进步呢?其实这方面我给大家展示几个网友的案例就清楚了。第一个,这是一个现代感十足的个人 vlog 作品级调 搭配暖珊瑚色与电光青绿色点缀。在 hero 区域,它增加了照点粒子动画效果,每个文章区域都有独特的动态界面背景,并且下面还有非常炫酷的动态视觉动画,这效果你就看吧,一看一个不吱声,真的太顶了。第二个是一个 landing page, 在设计方面,它采用了暖灰色作为主背景色,在 yellow 区域还有一些动态漂浮的尘埃粒子,在下面以淡暖橙色作为点缀,随着页面的滚动,布局的内容也会有渐显的效果。整个页面非常的简洁现代,不管是段落的间距还是模块的排版,都很是漂亮优雅。太优雅了, 这句幺幺五的 ui 效果又进化了。我知道现在还是很多人对国产的 ai 持保留态度,心里更加认可国外的技术, 这种想法完全可以理解,毕竟在过去很长一段时间里,我们在基础软件和底层算法上确实存在差距。但是我想说的是,这种认知认可可能已经需要更新了。从去年过年的 deepsea 到现在一直在持续更新的 g l n, 包括我自己,已经出了很多关于 g l n 相关的视频。 从 g l n 以前的自然语言理解基作模型,再到 g l n 四系列的具备自主工具调用的全能模型,再到现在能够处理超长任务且复杂需求的 g l n 五, 我们可以清晰地看到,国产 ai 已经找到自己的节奏和方向了,我们正在形成这样的自信和能力,我是真的挺自豪的。好了,以上就是视频的所有内容,如果觉得有帮助的话帮忙点个赞,我是小卢,我们下次再见,拜拜!

重磅消息啊! g l m 正式上线并开源!据官方消息,与上个版本相比,其参数规模从三千五百五十亿扩展到了七千四百四十亿,包含大约四百亿活跃参数,使用的预训练数据量也从二十三万亿个 token 增长到了二十八点五万亿 token。 该模型不再只是完成简单的对话式协作、快速实验和原型实现,还可以完成复杂系统工程与长城 a 件任务,在各类日常工作场景中展现出开源 s o t 级 agn 的 能力, 真实编程场景使用体感直逼国际顶尖水平。目前, codebody 国内版已在 ide 插件 c l i 三端全面内置 g m 杠五,为你的开发流程深度赋能。

最近有网友问我,世界大模型第一股智普的 glm 五发布了,说它是全球最好用的开源模型,编程能力堪比 cloud, 是 真的吗? 先说结论是真的,中国清华系智普最新的 glm 五模型已经在编程能力上比肩 cloud 了,全球开源模型中排名第一,虽然还有微小的差距,但是我们在快速的追赶中, 我是杨乐多大白话讲 ai 这款 glm 五到底强在哪?用三点跟大家说清楚。第一点,开源模型世界领先。目前这款 glm 五在全球的开源排名中,编程能力排名第一,综合能力排名第四, 也就是在全球范围内把代码公开,让大家免费使用的模型里面, g l m 的 编程能力是最强的。第二点,代码能力逼近顶尖水平,目前编程全球最强的就是 cloud 模型,而 g l m 五在编程的使用体感上 已经跟 cloud 相差无几了。第三点,他专门擅长处理复杂的任务逻辑,也就是一个不会代码的人,可以跟他进行多轮对话后生成一个复杂的产品,甚至不用写一行代码就可以实现。 我们客观的看,差距确实还存在,但是你要知道,一年前我们的 ai 代码编程能力比全球顶尖水平差了十倍不止, 而现在我们基本上跟他们近在咫尺了,并且 glm 还是一个开源的模型,开源的模型意味着全球的开发者都可以免费的使用它,并且在上面进行二次创作和修改。 而 cloud 是 闭源模型,只能通过付费调用它的 api 来进行使用,并且不能对其进行二次的修改和调整。做一个比喻啊, cloud 就 像是高墙内的武林高手,没有人知道它是怎么实现的, 他的武功不外传,你们只能看。而 glm 五呢,就像一个武林盟主把所有的武功秘籍全部都公开了,那你想想谁的影响力更大,谁会进步的更快呢? 这就是中国 ai 的 速度,中国至普系的 glm 一 年时间走完了别人三到五年要走完的路,中国在不断的这,这背后就是中国的 ai 的 硬实力,也是中国 ai 选择开元路线的再一次胜利。

大家好呀,昨天我在整理 ai 资料的时候,发现有一则新闻是华为它有推出 uddr 的 一个公测, 这个产品我看了一下,它其实是一个代码智能体,能够帮我们进行代码的生成啊,续写啊,包括单元测试啊,支持的语言也比较丰富,有喜加加呀, java, python 等等都可以。 现在支持的一个大模型, g l m 的 四点七, d b c 的 一个三点二,而且这两样现在全部都是免费的。如果我们有 webcoding 需求的,且是国内用户,整个科学上网并没有那么方便的话,其实是可以去试用一下的。 那接下来的话,我跟大家一起来看一下整一个流程,包括我自己也去测试了它的两个功能。第一个就非常简单,我们进入到 toada 词度的代码智能体公测的一个页面,如果 你是 windows 系统的,直接可以下载这个 ide。 如果是苹果系统的,先去下载的是 visual studio code, 再从中去安装了一个 code art store 的 一个代码智能体的插件,打开这个 visual studio 左侧这个插件市场,去搜索 code art store 的 插件,然后直接点 install 就 可以了。 它在激活的时候,需要你登录到一个华为的账号,并且进行一个个人认证,因为目前它整一个 agent 是 只针对个人用户进行开放的。这个智能体整体本身呢,跟我们的 ctrl 其实没有太大的差别,页面的下方就是一个 chat 的 窗口,它有两种模式,一种是 ask, 还有一种是 agent。 那 我这里呢进行了两个测试啊,第一个测试是用 ask, 第二个是用它的 agent 方式帮我生成一个汉字水平测试工具,它就非常的快,直接默认的使用的是 b l m 四点七, 大概一分钟左右的样子啊,他就给到了我一个结果,因为他是一个 ask 模式,他给到的是一个 html 的 一个文档,右边有三个键,一个是复制,一个是展示,另外一个是加号,加号就可以当漏的, 那我直接点击这个加号的话,就可以把这个 html 的 文件给保存下来,打开之后你会发现这个页面非常的简洁,它的 ui 样式也非常符合我们的一个习惯,这个页面跟我用 gemine 直接 build 出来的没有任何的差别,当你点击中间这个图标的时候,他在右侧就会展示你的代码, 如果你有能力去进行一些调整或者编辑的话,也都是可以直接在右侧去进行一个输入的。然后又用 agent 的 模式来进行了一个测试,跟阿斯哥最大的区别是 agent 呢?它直接给你生成的是一个应用, 直接可以使用,用 agent 的 话,我也是做了一个英文单词的这样的一个测试,可以看到就整一个 agent 模式,它会先去规划它的 to do list, 有 四步,它按照这四步去进行一个操作,需要你去允许它也非常的快速。直接生成的是一个应用,打开之后这个页面的你交互也是非常 ok 的, 也没有出现任何的一些 bug。 所以这个工具我觉得第一个非常适合 black coding 的 一个新手,他支持你用自然语言进行交互。第二个他对你的一个网络环境非常的友好啊,那第三个就是个人用户而言,是免费的, 对他可以帮你节省一笔费用,而且对于华为而言的话,他的一个整个流程的规范性和安全性我觉得是在国内是顶尖的,他尤其适合的是我们的一些高精尖的一些产业。对,大家都可以去试一下呀。那今天就先到这里,记得一键三连呦。

tiktok 一 周热点汇总第一百零四期,本期的内容呢,包括了智普新一代的旗舰模型, ai 编程助手配置管理器、 ai 渗透测试工具、 安全的 python 解释器和深度金融研究智能体。最后呢,还是分享两份资料,那马上就要过年了,也提前祝大家新年快乐,马到成功,马上有钱,哦对了,还要说一句啊,因为下一周呢,刚好是过年的这个假期期间, 所以呢,我就想停更一次,这里跟大家请个假。那话不多说啊,我们进入正式内容,如果觉得内容不错呢,别忘了点赞和关注。目前来看啊,二零二六年的春节啊,注定是一场 ai 大 战,前面的元宝发红包,千问送奶茶。而打响模型大战第一枪呢,就是智普, 他刚刚发布了新一代的旗舰模型 glm 五。 glm 五呢,这一次的核心口号啊,是从会写代码到能完成任务。 其实呢,今年的几个模型发布啊,都在不断的强调一点,就是啊,从代码到工程的一个进化,都希望呢可以端到端的去完成完整的应用的开发, 所以呢,大家也都在强化编程的能力和 agent 的 能力。那官方发布的几个视频呢,我们都能看到,效果非常的不错,比如呢,像开发的这种学术版的 tiktok, 还有呢,可以联机对战的大富翁的游戏,当然啊,这些呢,都是官方展示的效果,其实大家都懂的。 那再稍微来看一下 glm 五的基本参数情况,七百四十四 b 的 总参数,四十 b 的 激活参数,使用了二十八点五 t 的 预训练数据。 然后呢,是 deepsea 同款的吸收注意力机制,那集成了这个 dsa 技术以后呢,能够让它在保持长上下文能力的同时呢,大幅的降低推理成本,那它的能力呢,基本上和 cloud ops 四点五呢是一致的,目前呢是开源模型的第一,这个呢是我让 glm 五自己生成的介绍, 而且呢,这里我引入了一个对比的外援,就是呢,几乎和 glm 五同步发布的 mini max m 二点五,我呢用 cloud code 和同样的提示词来看一下它们分别的输出效果, 那你觉得它们的谁的表现更好一些呢?当然呢,我这个视频呢,并不是一个深度的测评,大家看一乐就可以了。那说实话呢,智普和 mini max 这个上市啊,确实是立竿见影。当然呢,有好它也有坏, 虽然现在的模型能力是更好了,但是呢,它的价格也确实贵了。之前我开的这个 glm 扣丁 plan 呢,当时是八百多一年, 而现在呢已经是一千两百多了。那顺便提一句啊,如果有朋友想买的话,可以用一下我的邀请码,那我可以得到这个官方的邀请返现。那最后呢,作为开源模型,那这一次 glm 五呢,在本地的运行方面其实是非常不友好的, 在 l m studio 里面,最小的这个 g g u f 的 版本啊,也要一百七十六 g, 我 真是不行啊,我的本地是保不了。那有实力的朋友啊,可以自行去验证体验一下。 c c switch 呢,是一个开源的跨平台的桌面应用程序,它专门呢就是为各种 ai 编程助手呢,去提供统一的可适化的配置与管理入口。一开始呢,它是专门给 cloud code 做的,后来呢,逐渐地扩大到了支持各种常见的 ai 控件工具,像 codex 啊,还有 jimmy c i, 它解决了传统的靠手动编辑配置文件来去切换 api, key 模型,还有 mcp server 等参数的繁琐流程, 让开发者呢,可以通过一个界面就能够切换和备份,还有管理所有的配置。那现在呢,如果真的是外部定制的重度用户的话,那你肯定呢,不能光用一个模型的控制 plan, 因为呢,肯定是不够用的。 而如果你开了多个以后呢,那 cc switch 呢,确实还是蛮实用的,使用上的话,比如像我是 mac 的 话呢,就直接通过 pro 来去安装和使用,那他做了这样可直观的界面啊,所以对于动手能力不太强的这种非专业人群来说呢,是比较友好的, 尤其是那些啊非程序员,但是对外不抠钉很感兴趣的爱好者。另外呢,看他项目的页面的各种赞助啊,也能够感受到项目得到了用户还有甲方爸爸的双重认可。 所以呢,很多时候啊,真的把一个实用的小东西做好,也可以获得非常不错的效果和收益。本项目是一个开源的全自动化的 ai 渗透测试工具,核心的目标呢,就是自主的去发现并验证外部应用的可利用漏洞, 那填补日常开发与年度这种测试渗透之间的安全缺口。他不单是做这种扫描漏洞列表,还会呢像人类的红队工程师一样去分析代码来去验证漏洞啊,是否真实。 他呢,就像是你招了一个全年无休的一个红队黑客,二十四小时的在线的去帮你挖洞,那他呢,会将白盒的原码分析和黑盒的动态利用啊去相结合,分别呢用四个不同的阶段和不同的 a 阵他去执行动作, 使用的话呢,可以直接克隆项目到本地,然后呢执行项目的脚本,他会自动的完成相关刀客的下载,还需要呢,自己提前准备好大模型的 key。 要注意的是啊,它现在不支持 bash url 的 设置,所以呢只能使用 cloud 或者是 open ai, 再就是 open router。 另外呢这类工具啊,还是很费 token 的。 monty 呢,是 pentetic 团队啊,用 rest 编写的一个极简的安全的 python 解释器的实现, 专门呢为 ai 系统的嵌入式代码执行场景而设计。它的目标呢不是去替代完整的 c python, 而是呢提供一个高速安全受控的环境,让 ai 生成的 python 代码呢,可以在内部安全的去运行。 那它的核心特征呢,包括了像安全刹箱啊,急速的启动速度啊,还有受控的执行子集和多语言的绑定。那在智能体 a 阵它的执行场景当中啊,经常会有一些需求,比如像执行模型生成的脚本, 同时呢还要去保证这些动作的一个安全。那传统的方式呢,就是启动完整的 python 和容器的沙箱,那这么呢,要么带来安全隐患,要么呢就是启动的开销比较大。那 monkey 的 设计呢,就是为解决这类场景下去提供一个更安全,更轻的,更容易嵌入的一个方案。 那本项目呢,是一个开源的自制的智能体,专门呢是面向深度的金融研究和自动的分析去构建的,他能够把复杂的财务问题啊,去转化成结构化的研究计划,然后呢自动的去获取数据,再去进行分析与验证,最后呢得出可信的结论和输出完整的任务流程。 那要使用项目呢,你需要首先安装半,那安装的话呢,可以执行项目给出的一键安装脚本,之后呢再把项目克隆到本地,然后呢执行半 install, 接着呢再把点 env example 复制成点 env, 再去里面去修改一些配置, 其实主要呢就是配置大模型的 api key, 还有各种使用到的数据源的 api key, 那 配置好了以后啊,执行半 star 就 可以运行了, 那在整个流程当中啊,他强调的是要先去思考,再去行动,接着呢要进行自我的检验,以确保呢结果的可信性。 那这个呢,正是金融分析所必须的一个特质。那这里要注意啊,其实他的数据呢,是要依赖于外部的数据源的输入的,而这里面他使用到的 data set 呢,其实很多都是要收费的,而且这类金融的数据源其实还是很贵的,所以啊,我感觉在上手投资的这个门槛上还是比较高的。 最后呢还是分享两份资料啊,第一份呢是理解机器学习从理论到算法,那本书呢,对机器学习的基本思想 还有呢,将这些原理啊转化为实用算法的数学推导,进行了全面的理论的表述,想多了解这些底层知识的呢,可以去学习一下。那第二个是全球 ai 平台市场的全景与趋势洞察报告,从去年开始呢, ai 行业的关注核心呢,正在逐步的做迁移, 从模型呢,更多的去转向了 a 阵的和应用,所以呢,后续的 ai 应用平台呢,肯定会卷的越来越厉害。那这个方向呢,也确实啊,值得多做关注。那有需要的朋友呢可以告诉我。以上呢,就是本周的全部内容,再一次呢,祝大家新年快乐,我们下次再见。

gm 五终于发布了,听说非常强,我也想试试他到底是不是真的有那么强,我第一时间就拿我维护了一年有上千真实用户的三倍插件给他上上强度, 直接挑战开发中最头的那三个难题。第一,极万行代码项目的全景理解。第二,多层嵌套的复杂 ip 逻辑。第三,真实用户的需求迭代。 我们这次的开发环境依然是 vs code 加 code code。 我 首先让 g m 五先理解一下项目整体的技术细节以及功能特点, 这里有一个非常关键的点是 g m 五在发现问题的时候,它会自动的去检测这个错误,然后自动的去修复,接着它就会去读取我相关的一些文件, 然后形成了一个完整的技术分析报告。大家可以看到它上面把这个技术的分层架构都写好了,哪些是处理 api 调用,哪些是处理交互以及数据持久化的。然后接下来就是我 api 的 调用逻辑,他每一个点他都列的很清楚,说实话他列的这个技术报告比我这个作者写的还清楚。接着我就让他基于用户反馈形成一个英文字母导出的功能,比如这是一个 英文的视频,它有一个英文的 ai 字幕。以前的话我们这个插件它是没办法获取英文字幕的,因为当时我是只支持了中文字幕的处理,就比如现在它这个英文字幕是没有的,现在这个英文字幕导出的功能,它不仅仅是增加一个按钮,更主要的是它需要去重构底层的一个解析逻辑。 就比如说我这个接口,它的数据是怎么返回的,我需要怎么去处理中文和英文字幕的选择?那 gm 五 他在思考之后就开始进行执行,然后直接去帮我编辑处理了相关的代码逻辑,大家可以看到他每一步他是怎么做的,这里都写的很清楚,然后最后他就帮我完整的实现了我需要导出英文字母的这个功能。我整体体验 gm 五的功能, 我觉得他真的是更加智能的,就像是一个支撑的系统架构师来帮助我便携代码一样。大家可以看到,现在在 g m 五帮我修复了英文字母下来之后,现在这个字母就可以获取成功了。 说实话, ai 编程最难的从来都不是写新代码,而是维护老代码。十三代码,我之前开发的飞书多表格、马克当预览插件,现在也有几百个付费用户,代码里面其实也有不少的十三代码平时没有大 bug, 我 根本就不敢 动它,生怕改动了之后影响用户的使用体验。不知道大家在用 ai 写代码的时候有没有遇到类似的问题呢? 但是啊,我最近观察到,不管是 cloud ops 四点六还是 gpt 五点三 codex, 它们都不再去卷升程速度,而是全面转向了 agintending coding 发展,简单来说就是更加专注于解决真实项目需求的能力。而 gm 五 就是目前开元界首个跟上这一趋势的模型。 gm 五整体表现都不错,在科奥的欧布斯四点六跟 gpt 五点三科特斯之间很多成绩甚至都感觉不到差距,但是我发现 gm 五有时候的响应速度确实有点慢,这点希望以后能提升一下, 再给大家说个心里话,其实三个月前我就开通了 gm codeine 的 套餐,我当时用的还是 gm 四点六,短短三个月时间,我们的钱还是那份钱,但是手里的工具却一次比一次强, nice! 我 眼看着他从四点六进化到四点七,再到今天可以跟科尔的 off 四点六扳手腕的系统架构师 gm 五 厉害!这种养成系的快乐真的太爽了!用过 gm 扣顶破烂套餐的老用户应该都懂,这次 gm 的 进步让我再次看到了国产模型的硬实力,大家赶紧去试试 gm 五吧! 好了,以上就是本期视频的全部内容,记得点赞和关注我哦!我是超超,我们一起学研,一起变强,我们下期再见!拜拜!

大家好,我是牙医,没想到 g m 四点七发布后,仅仅时隔了一个月,智谱又发布了 g m l 五,废话不多说,让我们开始测试 来看实际的测试结果啊。这次新引入的边框大鱼缸这个设计,这个设计出呢,我是想打算测试通过编程实现四种不同的粒子效果模拟,包括水滴,碎屑,烟雾、气泡,而且还是粒子混合在流体中的复杂场景,越符合大家的直觉,证明模型的编程水平越好。 可以看到这个折运效果还是欢迎的不错的,与新出的 club 四点六几乎没有什么区别,不过液体受到冲击的运动,这个效果还有一定的差距。鞭炮连锁爆炸测试, gm 五 比 gm 四点七提升了很多,首先指令遵循这个有了很大的提升,比如提示词中要求高度为五,每组升成十个鞭炮,总计升成十组鞭炮自由落体,但是 gm 四点七把高度五给忽略了,以及本次的视觉效果 有了相当大的提升。 g r 五的玻璃箱子效果,色调映射还有补光,这些都让场景有了电影级的画质提升, ui 设计也有巨大的提升。细节上, g r 五使用了 c s s 变亮,富有科技感的自定义字体,这些都是四点七版本没有的拍摄。杯子倒水测试这个提升也不小, g r 五实现了独立的顶点碰撞函数,并且在主循环中对所有的角点都进行了检查, 防止粒子掉出去。而 gl 四点七没有进行脚点的碰撞检测,这样我们就能在实际测试中看到这个 gl 五的杯子在倾倒的时候, 粒子更不容易从杯子中间漏出去,以及啊,视觉也有提升,很难想象一个纯二维的演示视觉效果会有什么提升,但是没有错,还是有提升的。 gl 五给每个粒子都加了一个模拟三 d 的 高光效果, ui 呢,也提供了进度条、帧率、闪视状态信息和多种快件的操作。不过 gm 四点七有一个优势啊,就是默认他就用了空间网格哈奇算法,这个算法能显著提升粒子的碰撞检测性能,所以动画上 gm 四点七会更流畅。而 gm 五是知道这里有性能瓶颈,只不过他认为四百个粒子还好,但实际上这个最差的情况每针都会有十六万次的碰撞检测,所以还是要上油化的 大象牙膏测试。 gm 五使用了六十段的吸粉点还有指数曲线来模拟这个锥形瓶的形状,还精心制作了瓶口的这个唇边效果。当然成也精细,败也精细,锥形瓶的瓶身搞成了抛物线,所以不得不说美学是有提升的。 这个叶面下降效果也很好,因为剑玩舞每次叶位变化的时候都会重新创建这个几何体,然后就能精确匹配烧瓶内壁的曲线,实现了叶面高度下降的时候液体的底部不动这样的一个正确的效果。接下来是常温本召回能力测试, 这次的召回水平更是摧枯拉朽了,各个长度的召回都在百分之九十八以上,相当可用。不过这次有点问题,来看这个题目,哈利波特释放钻心弯骨咒,贝拉特里克斯的表现是怎样的?我们给到 ai 的 选项是, a。 疼得满地打滚 b。 撞倒在地。 c, 我 欺哈利波特老无力, d, 没有大意,成功闪了。我测试了两次。当我给模型小说原文的时候,模型正确找到了原文中的描述,这个咒语把贝拉特里克斯撞倒在地,他尖叫了一声,但是很快就站了起来,所以我们应该选 b 撞倒在地了。但是当我不给模型原文的时候,就只问这个问题啊, 模型竟然精准脑补出了小说的英文原文。于是我在专门没有原文参考的情况下,把所有问题重新测了一遍,结论是,这样召回水平还能有百分之五十一点四,四选一啊,蒙对了一半,这个就有点高了,所以本次常规召回能力并不是很自信,建议官方考虑一下训练语料的问题 来招 a 阵能力测试仍然是我们让大墨行模拟外卖骑手来送外卖。考虑到之前 g r m 四点七已经是这个测试的最高分了,所以本次 我把单位时间内系统生成的订单量增加了五倍。这次 gm 五的测试得分是七百三十八点六九,作为对比 gm 四点七是五百七十一点九一,又刷新了测试的最高记录。那么提升在哪里呢? 我在分析所有数据的时候发现了一个细节,四点七版本在第一百九十八轮就宣布了任务完成,这个时候它的利润是四百三十七点八八,而系统提示它继续。于是 gm 四点七又工作到了第二百五十九轮, 这时候利润达到了最高分五百七十一点九一,然后他就再次开香槟就不干活了。作为对比 gm 五,他只有在二百七十七轮的时候庆祝了一下,说我突破了七百元利润大关,然后就继续干活了。 这种差异是为什么呢?因为 gm 五每次在对话中都会跟踪剩余的对话轮次,这个是四点七版本,从来没有做过这个模型的原认知提升啊,直接解释了为什么 gm 五能够持续工作到第三百轮,因为他很清楚知道自己还有多少轮可以用了。 那么为什么他中间还停了一下,因为他甚至给自己定了一个小目标,俺要突破七百元大关。于是在突破了七百元之后,他小小的庆祝了一下。 总结,这次健马五在各个方面都带来了肉眼可见的提升,编程也在各个细节上都有优化,本身很强的 agent 的 能力上呢,进一步采用了一些自主意识 来提升性能。遗憾的是,本次的长文本召回能力测试分数执行度不是很高。不过这点也不用担心,因为 agent 的 测试运行的时候也要用到超过一百 k 的 上下文,这样就考验了上下文的能力, 所以召回性能还是没有问题的。另外这次在视觉效果上和美学上也有显著的提升,比如这次他就有一个小偏好,演示中他很喜欢用这个充满科技感的 o b 闯字体,是不是感觉很不错?以上就是本期的测试, g m r 五这么猛,我很期待接下来的 g m r 五 v 了,我是牙医,我们下期再见!

ai 编程正在发生变化,过去大家更关注页面生成和代码补全,但现在前沿模型开始强调更长步骤、更复杂任务的执行能力,编程的重点正在从写代码转向构建系统。如果让开源大模型质朴, g o m 五从零 开始,帮我搭一个可以运行的创业系统,它能做到什么程度?具体来说,我想做一个 ai 职场技能订阅平台。这是一个具备真实商业逻辑的产品模型,它需要用户注册、登录、订阅逻辑、课程权限控制,这不是一个页面,而是一个产品。 打开智普官网,选择最新发布的 g o m 五模型,点击 agent, 点击全站开发,输入完整提示词并发送。现在,系统会开始自动规划与构建。在代码输出之前,模型首先进行任务拆解与数据库结构设计, 明确用户模块、订阅模块、课程管理模块之间的关系,并规划数据存储与权限边界。这一步体现的是构架思维,而非页面拼接。随后,平台构建完成,首页结构清晰。点击注册,立即注册, 输入注册信息,完成注册并登录。点击课程库,可以看到内置课程内容,并支持课程搜索内容筛选。 会员页面包含完整会员流程,点击立即开通,扫码支付后即可开通会员,再点击去学习,进入课程库学习课程。整个流程形成闭环,构建过程中出现环境与依赖问题时,系统能够根据日制进 行分析并调整配置,完成排错与部署。对我来说,这种自我修正能力比单纯生成代码更有价值。这次用智普 g o m 五实测创业系统,重点并不在于生成多少代码,而在于是否具备长步骤规划与系统构建能力。 从结果来看,它已经能够完成完整产品雏形的搭建。当 ai 能够帮助普通人把一个创业想法变成一个可运行系统时,编程的门槛正在被重新定义,这才是我认为最值得关注的变化。

你还记得之前在 ai 圈里悄悄走红的 pony alpha 吗?真实身份现在揭晓,它正是智普 ai 的 新一代旗舰模型 glm 五。之前把 pony alpha 当画名开展匿名测试, 二月十二日模型正式发布后,智普港股股价午后暴涨近百分之四十,公司总市值一度逼近两千亿港元,折合人民币约一千七百七十七亿元。 官方数据显示,在编程能力的关键精准测试中, glm 五的表现已经可以对其 cloud ops 四点五在某些开源模型的评分上超过了 gemini 三 pro。 不 过,这个模型有个非常明显的特点,它是个专家型助手。对于专业人员来说,在真实的、复杂的开发场景中,它能显著提升效率,完成那些系统级的常识任务。但对于没有编程基础的小白用户,只是简单的给句指令,可能就有点玩不转了。 这也意味着,大模型正从新奇玩具转向生产力工具,在行家手中更能释放自身价值。

jr m 推出了五版本,那现在 ide 上面已经直接集成了,咱们看一下腾讯的这款,这里直接勾一下就行,免费的。我们再看 tree, 这款也是,这里能够选择了, tree, 这个还给了个提示,现在有可能排队。 然后我们看一下这个模型,它是出到了五版本这个文档,大家不要从这点进去,这点进去是个空的, 可能官网还没有做好,我们从随便找一个版本,在这个地方点文本模型在这点进去,那官网来看,这个模型对于抠定这块是做了重点的优化的, 目前是什么水平?就是体感上逼近于 clod 四点五, clod 四点五是去年十一月份出的, 现在可乐的最新的应该是四点六,二月份更新的四点六版本,这已经很不错了,底下的就和以前的模型介绍没什么区别。这个地方有点意思,他推荐的这个面向场景里边扣顶这里给的非常的简洁, 这一句话就是前后端我都能处理。那你看之前四点七的时候,他不是这么介绍的,他介绍的比较繁琐,适合什么,什么场景,他能够干什么,也就是说你要根据他的这个描述去选择他适合做的事情,现在不用了,这个理解起来很简单,前后端我都能干。

在海外社区猜测不断的匿名模型 pony alpha 被证实为今天智普发布的 glm 五的测试版,而 glm 五是面向 agentic engineering 打造的新一代的机座模型,在拥有常规的流式输出方阵、 callign、 mcp 等能力外,新增了适配 excel 的 ai 插件,可以生成格式表、修复公式错误以及跨工作表的自动操作, 那在编程能力跑分上相较于四点七有了较大的提升。而在与 cloud code 的 评估集合中,使用体验接近 cloud opus 四点五,那在价格上对比, cloud opus 四点五、四点六以及 gbt 五点二依然保持着国产模型的量大管保的特色,而且官方还有限定款。性价比方面。

三天上线一个系统,这不是做梦! callbody 靠硬核实力帮你实现开发体校不仅全力拉满模型站立,更在国内版率先上线,并开源 glm 五点零, 打破简单对话协作的局限,不管是复杂系统工程还是长城 agent 任务都能轻松攻克,更能以自然语言打通产品涉及到研发的全流程,让创意落地效率直接拉满,这也是快速上线系统的核心底气。同时, ide、 插件 cli 三端全面内置 glm 五 全开发场景无缝适配,让你随时随地享受 ai 深度赋能。平台还搭载了多款主流大模型,精准适配各类开发需求。版本权益灵活选 零成本的免费体验版,个人用户每月自动享五百 credits 基础额度,无限次使用 body tab 与 ide 下一步编辑预测、日常开发、学习调试的清亮场景完全覆盖。新手入门超友好, 仅需五十八元每月的个人专业版,每月累计两千块钱解锁无线频对话,更支持自定义 agent 打造专属 ai 助手。还能按需购买加量包,专业版到期加量包剩余积分仍可使用,权益不浪费。 高频开发,复杂项目全程无卡点,现在试用解锁编码提效新体验吧!

今天用智浦新发布的 glm 开发了一个新项目,基于 spring boot 的 酒店管理系统,这个项目已经开源到 github 了,还附带一个项目论文,关注同名微信公众号即可获取。 最近后台很多人私信想要我的产品说明书,想让我出一个详细点的教程,现在就带大家做一个完整版的项目。首先明确要做什么,怎么做产品,应该有哪些功能,解决了什么问题。我把这个产品说明书的内容概括分为以下部分, 明确开发技术站、技术架构、功能模块、数据库设计以及 ui 风格。这几点确定下来就可以大大降低 ai 写代码出现的幻觉。所以很多时候幻觉的问题不单单是模型的问题,跟人也有很大的原因。 然后这里我用到了一个文档专家的智能体,让他基于我们已经确定的要求生成完整详细版的产品说明书。那么 ai 就 更清楚要做什么,该怎么做,所以前期多做一些准备,就能尽可能避免后面形成的十三代码。 经过了连续三十六分钟的编码, glm 五完成了整个项目前后端的开发。整体功能分为两个用户角色,普通用户和管理员。 普通用户可以注册登录预定客房,查看订单。管理员可以管理用户信息,维护客房信息,查看所有订单数据,统计分析。 最后主包想跟大家说, ai 时代如何使用工具提高自己是一门必修课,一定要尽可能多地去尝试使用各类 ai 工具。

你知道怎么白嫖今天智普发布的一个最强冰城大模型 glm 五,下面我就来给大家讲一个白嫖 glm 五的一个方法。 首先我们打开微修 studio 这个开发工具,然后在它的左边找到 extension, 也就是插件的扩展中心, 然后我们输入 k i l o 搜索,就能搜索到 k i l o call 的 ai call d 键头这个插件,点击它, 然后我们再安装这个插件,装完之后就会在这个开发工具的左下角有一个 k i l o call 的 一个小图标,我们点击它,点击它进来之后,在它的最下面, 在它最下面你看就能看到一个最点 a i g l m 五 free 的 一个大模型,我们选择它就可以开心的白嫖啦,是不是很简单? 据说这个智普的 glm 五编程大模型是比酷的叉五点三和 opus 四点六都还要强,所以大家感兴趣的赶快去体验一下, 因为啊,大家如果有什么看到免费的拼成模型,可以大家一起在评论区分享一下,别独享好东西,大家一起共享好不好?