外行人搞 ai, 要搞就搞最新的智普青年在春节前推出了新版本 g l m 五,并继续开源。今天看到了它的算力资源紧张,估计并发量激增。那我今天就来试试这个模型。我用罗拉木私有化部署起来了,看看效果, 改天用它来试试。对接 call 爸的最后祝各位新春快乐!
粉丝962获赞5032

智普啊,发布了 glm 五点零,为了测试它的能力啊,我用它构建了一套可以无限运行的 ai 开发系统。我用这个系统运行了长达十个小时,从晚上十点到早上八点, ai 做了几十次 getmate 的 提交, 开发了一个 ai 漫剧生成工具,有前后端有数据库,可以用户注册和登录,还接入了大圆模型,图片生成模型,视频生成模型。通过这个视频,你会学到如何构建这样一个无限运行的 ai 开发系统,并了解到 glm 五点零的惊人开发能力。 整个过程我都只是输入简短的 prompt, 没有亲自阅读或修改任何一行代码。我一直在旁边玩着游戏,等他干活, 尤其是我视频最后会讲的,他把整个项目的所有模块联合起来,然后端到端的 bug 修复错误,非常的牛逼。他不只是单纯的写代码,他甚至自行在浏览器中验证每个功能的正确性,找出 bug, 然后自行在浏览器后端数据库第三方的 api 之间联合调试,找出问题,修复错误。 那赶紧进入正题啊,相信对你会有所启发。我使用的工具是 cloud code, 并且把模型切换为 g l m 五点零,具体方法可以看我之前这一条 g l m 四点七的视频。 那我们首先要搭建一套能无限运行的 ai 开发系统,说是系统,其实就是几个文件,做法非常简单,我把一篇来自 astonopy 的 神级文章发给 ai, 让他自己去学习,根据这篇文章做出这套系统 文章叫长时间运行智能体的有效调度编排框架。那过程中 ai 做出了一些操作预期的举动,他通过 m c p 打开浏览器, 通过这篇文章的页面找到一个配套的 get up 仓库,打开仓库的代码文件进行学习。而我事先都不知道这个代码仓库的存在,最终他创建出了这一些文件。 我解释一下最重要的几个,帮你理解一下这套系统的工作方式。 task 点 jc 文件,其实就是一个任务列表,每个任务都有它的描述,并且会标记是否已经完成。和我们人类工程师每天上班一样, ai 每次从这里面领取一个任务, 完成后就做一个标记,这样他的 ai 同事啊,就知道项目进展到哪里。 progress 点 txt 文件,每次 ai 完成任务啊,或者任务失败后,都会在里面留下工作日期,这也是为了给其他 ai 同事提供一些信息。 log 点 m d 文件,这里面全是提示词,用来指导 ai 根据固定的规范流程工作。和我们人类工程师的开发流程类似, 第一步,跑一个脚本,来初识化整个项目的环境。第二步,在 task 里面领一个任务。第三步,就开始开发。第四步,测试和验证。 第五步,更新 progress 和 task 文件。第六步,用 git 提交代码。那如果中间遇到困难,需要人工介入,它就要及时向人求助。那在以前一些长期运行能力不强的模型中啊, 这么长的开发流程,一旦工作上几十分钟,模型就会逐渐混乱,不再按照规定的流程工作,而如今完全没问题啊。视频后面我们会看到, glm 五点零,即使在长达一个小时的工作,提交了几十个 commit 后,仍然很好地遵循开发规范。 然后呢,我让他写一个脚本,用来无限时间的运行。这一套开发流程背后的原理很简单,就是把 cloud code 放到一个 while 循环里面,这样一来,人不在电脑旁边的时候没法手动 prompt, ai 就 可以执行这个脚本,让 ai 无限的工作。它之所以有效,有几个原因啊, 第一,我们这套流程每次只要给 ai 说一句,完成下一个任务,不需要更具体的指示, ai 就 能通过 task 和 progress 文件知道自己现在应该做什么。 第二,每个 task 都很小, g l m 五点零足够的强大,每一次 y l 循环里面,他只是领取一个很小的任务,并且严格的测试,成功率极高。第三,每完成一个任务,模型的上下文都会被清空,所以模型始终保持在最聪明的状态。 第四, g l m 五点零非常可控,严格按照工作规范执行,每次小任务都会进行 commit, 所以 即使出错,我们可以轻易地回滚到旧版本。 好,现在我们这套系统有了,接下来就要开发软件,我们先来设计一下它的功能和架构。这个软件的用途是一句话,生成长视频。我让 ai 把整个项目的开发需求拆成了三十一个任务,放到 task 文件里。 这是 ai 设计的软件,架构不复杂,但五脏俱全。再看一下 ai 画的业务流程图啊,帮助大家理解我们要开发的这个软件具体的功能。 首先,用户会创建一个项目,然后用大圆模型生成每一个分镜的文字描述,然后再用图片模型生成每个分镜的图片,再用视频模型生成。视频开发的流程比较长啊, ai 做了几十次提交,我就选几个精彩的给大家讲。 在 ai 做到第十九个任务的时候,为了测试 glm 五点零的能力呢,我产生了一个大胆的想法,我让他一口气做了一个多小时,完成了十一个任务,干完一个又一个,中间我没有任何干预, 给大家倍速感受一下效果。他一直在写代码,并且每次都遵循我们的开发规范,每个任务都完成,测试一个,一个任务,单独提交代码,拿一个具体的任务作为案例啊。他现在领取了任务三十,任务目标呢是实现响应式的布局,也就是让 u i 在 手机端和桌面端看起来不一样。 他现在正在修改代码,然后验证项目能 build 通过。然后他现在把浏览器的大小变成了手机屏幕大小。打开了我们的应用,他点击了一个按钮, 他对页面做了一次截图,用识图的 m c p 判断是否正确。再打开了一个新的页面,再做了一次截图,并检查是否正确。然后在 progress 里面仔细描述了自己所完成的工作,然后把这个任务标记为完成,他就按这么一套方式疯狂的干完了每一个任务。 要接入数据库的时候呢,他主动提出需要人工帮助,并且一步一步地给我说明,告诉我如何去这个 superbase 平台啊,点哪里创建项目,配置数据库,获取 api key。 尽管我没怎么用过 superbase, 仍然轻松地操作下来了。中间我还犯了错误,给他提供了错误的 key, 也被他及时发现,最后他还让我帮他去注册一个测试账号,然后他自己打开浏览器,输入账号密码,验证登录功能,可以正常使用。那像 superbase 这种外部的系统啊,超出了 ai 的 控制范畴。 g o m 非常明确的给我提供指引,让我协助他完成开发工作,一个不了解后端的人,也能在他的指引下完成数据库的配置。 他开发完后端一系列 c r u d api 后呢,声称对每一个 api 都进行了测试,但所有的 api 都是需要 os 的, 前端也还只有一个空白的页面,所以我就很好奇他哪里来的 os 权限,怎么完成测试,是不是在忽悠我? 于是我问了他一下,他用简短的语言,漂亮的格式向我解释。他说他打开浏览器,登录了刚才创建的测试账号, 然后通过一个叫做 browser evaluate 命令,在浏览器可以执行任意的 javascript 代码。然后他写了一些临时的 js 代码,就在浏览器里运行,调用我们的后端 a p i, 这样就能有 office 了。非常聪明的做法,我还怕他在骗我,我检查了一下录像,确实如他所说,他打开浏览器疯狂测试, 中间还真测试出不少问题,他就自行查看后端的报错日期,自行修复。最终三十一个任务全开发完后,啊,我也懒得去人工验证这个项目是不是已经可以用了。在往常的开发中啊,到最终阶段,因为已经把 前端、后端、数据库、第三方 api 全部连起来了,那第一次的集成测试啊,就会非常头痛,因为任何地方都可能出错,往往需要浪费大量的时间再把错误找出来发给 ai, 让 ai 去修复。但这一次我非常大胆,我只说了一句话, 请你完整测试一遍流程,确保功能可用。大概就是从早上七点十分开始,他自己在浏览器上疯狂测试,花了一个小时提交了这么多改动,用来修复 bug。 我看他在浏览器上像人一样一步步操作我们的产品,通过截图和视觉能力来判断是否符合预期。遇到问题的时候呢,他就自己查询后端的报错,检查各种 api 的 状态,综合分析出问题。最终他总算顺利的生成出了第一个视频,端到端的把整个应用全部打通了。 他修复的每一个 bug, 做的每一个 feature, 其实我都不清楚是什么情况,但我想知道的话,我只要找到他的 commit 记录,看一下他在 progress 文件里写了什么。这也是这套流程的强大之处,一切都是可追踪的。 我们让 glm 五点零一边开发项目,一边在开发过程中发现问题,让 ai 来增强我们这一套自动化的开发系统,左脚踩右脚,螺旋升天,我相信这就是未来开发者的工作方式。总结来说, glm 五点零已经远远超出了单纯抠顶的范畴,而是能对软件工程的每一个环节进行自动化,提升效率。 gm 五点零在超长任务上非常出色,已经达到了能让我放心的交给他连续运行一个小时的程度。横向对比的话,我个人认为 gm 比刚发布的 oppo 四点六弱一点,但在一些方面可以超过 gbt 五点三。 重点是价格便宜非常多,但现在过于热门啊,供不应求,抠钉套餐非常难抢。那我们这个项目呢?虽然现在端到端全部打通了,但最终深层的视频效果还有很大优化空间。点赞到一万,我可以开源出来,让感兴趣的人进一步优化它。

最近 openroot 上那个神秘的 pony 模型效果非常惊人,大家都在猜是谁?有人说是 cloud 的 旗舰模型,也有人说是 deepsea v 四,今天算是破案了,就是智普的 glm 五。那之所以大家会把它错认成是 cloud 模型,主要是因为在实测中,它展示的长城规划和系统工程能力确实是打破了国产开源模型的天花板。 以前我们测试模型呢,喜欢它一句话,生成网页好看但难以落地。而这次的 glm 五新模型对标的是 gbt 五点三、 codex 和 opus 四点六,主打的是解决复杂的工程难题。我呢有幸拿到了内测,并且呢使用它开源了一个前后端打通的项目。那废话不多说,带大家一块来看看它的能力。 这次测试呢,我用的是 cloud code 加 glm 五,我的需求呢,是做一个创作者全能工作台,包括登录健全、数据持久化、后端业务逻辑,以及最容易出错的财务计算。这也是在测试他的一帧 take 能力,看他能不能读懂长文档,能不能在没有人干预的情况下自主规划开发路径。 第一部分是项目骨架的搭建,他先是阅读理解了我的多篇需求文档,然后创建了一个任务列表来跟踪项目的进度。这部分开发呢,比较顺利,中间只出现了一次 prisma 版本不匹配的问题。紧接着在我测试注册功能的时候,数据库链接出了点小问题,就 注册账户时出现错误, ai 排查之后找到了错误,是数据库路径的问题,并进行了修复,最终给出了项目的骨架。那这次再尝试登录,就成功进入了后台。 骨架搭建完毕之后呢,我要求他继续进行下一步的开发,这一步呢,添加了灵感创建的功能,也就是数据库的增删改查,可以筛选规章以及由灵感转换为选择题。不过这次验收的时候呢,出现了新的问题,就是我创建完灵感之后,列表不显示,后端呢,也没有报错。 这时候 g l m 主动添加了一个中间件来打印我的错误日期,也就是通过这个日期,他才发现是分页参数的类型不对,然后进行修复,功能就立刻闭环了。 他遇到这种隐性的 bug 呢,没有瞎猜,没有胡编,而是打印了一个中间件去查真实的日历,那这个才是我们开发中需要的。 那到了下一阶段的选择题模块,得益于卡奥德库德的优秀机制和 glm 五的超长上下文,理解能力非常丝滑,状态机逻辑一次跑通,由灵感转化为选择题的状态流转呢,没有再出现任何问题。新建的选择题呢,也能正常的与后端连通。 接着是商单和财务的部分,这个其实我最担心的,因为之前一直没做,也就是因为他算不准,就是很多模型在这里会有逻辑幻觉。但 glm 五没有让我失望,这块表现的非常稳,他先是建立了客户库关联选择题,最重要的是税务计算, 因为涉及到含税金额、未税金额,税率推算逻辑极其的严密,我认为他确实理解了其中的业务逻辑,没有逻辑幻觉。 m 四阶段呢,是在我们的工作台首页添加一个仪表盘,那为了让数据格式化呢,还在后端编写了聚合的统计接口, 在前端呢展示了我们的收入统计,并且呢它还非常贴心的规划了一下设置页面,里边增加了收入配置和标签管理啊,这个是比较超出我预期的,因为它很详细,里边有返点,税前税后,非常严密。 这个时候呢,就来到了最后一步,打包交付。对于 glm 来说,最复杂的部分已经完成了,所以这部分处理起来就像喝水一样简单。他为我这个工具呢,编辑了项目介绍文档,还创建了一个一键启动脚本。那现在的状态就是所有拿到我这个项目的人 需要一行命令,前后端全自动跑起来,这个就是开源的交付标准。目前这个项目呢,已经上传到 gitup 上了,感兴趣的话可以去看看,检查一下代码质量。那最后我们来做个总结,整个项目呢,从零到一,总共耗时两个半小时,一捆十。在这期间呢,没有新开任何一个聊天窗口,全程就是在 cloud code 中 与 glm 进行一个单程长对话。这种体验带给我的冲击感呢也比较强,像是一个可以协助有逻辑的系统架构师。如果你是一个开发者,或者平时尝试过自己开发项目,应该能明白两个半小时无断点的开发含金量有多高。 但是呢,他的缺点也同样明显,就是他的思考速度实在是太慢了,也就是因为他思考时间变长了,所以导致新模型比旧模型消耗的头肯要多一倍,而且在高峰期的时候,算力好像有点紧张,期间有很多次呢,我都以为他卡住了,想要去购买他们的套餐,竟然还需要抢,难抢就不说了,他还涨价。 不过对比 cloud 来说还是性价比高,非常非常多, cloud 桌面端送的五十美金额度,半个小时就就用完了。总之这个模型呢,有优点也有缺点,各位可以权衡一下。好了,以上就是本期视频的全部内容了,如果对你有所帮助,或者觉得视频做的还不错的话,欢迎给哥哥一箭三连。最后祝各位玩的愉快,我是段峰,我们下期再见!拜拜!

想让 cloud code 用上智普 g l m 五,别翻文档了,一行命令就够。为什么用 xcloud 的 智普不用改环境变量,不用研究配置文件? cloud code 的 工具能力还在,智普的代码理解更强,装了 x command 的 话,十秒内搞定全部适配。 操作很简单,去智普开放平台复制 api key, 回到终端,敲 xcloud 的 智普首次会让你粘贴 key, 然后就能直接用了。让它重构代码,分析性能,生成数据库表,响应又快又准。 cloud code 原本的功能一个不少,替换一次就永久生效。试试 xcloud, 智普国产模型也能这么丝滑,不要忘记一键三连!更多命令技巧欢迎关注 x command, 我 们下期再见!

太强了,大家赶紧去下载国内版的 tree, 也就是字节跳动的 web calling 软件,现在可以免费使用豆包二点零 call 的 模型,还有 glm 五、 mini max 二点五、 kimi 二点五,都是近期的王炸模型, 它的 solo 模式在二月十四号更新了,支持 spec 模式,可以输出超级专业的文档,太爽了! 最重要的是,目前国内版的个人用户是免费的,看到了赶紧去下,赶紧去用,不知道会免费多久?这是目前我能找到唯一一个免费可以使用这些顶级国产模型的地方。 我还创建了一个 open clone 运维智能体,用它来帮助我部署配置,使用 open clone 简直舒服死了,所有问题它都能解决。最近研究了很多心得,根本停不下来,后面有空详细再给大家讲一下吧! 现在大家赶紧去用吧,吹着国内版王炸,王炸,太爽了!

上期分享了 openclaw 的 基础体验,这周重点测试了 openclaw 加 g l m 五加 qq 机器人的组合,效果确实让人惊喜。顺手整理了第二期,快问快答共享入坑的朋友参考。问题一, openclaw 加 g l m 五加 qq 机器人效果如何? 回答,亲测 g r m 性价比拉满重度使用,每天成本也能控制在十元以内,效果非常稳定。加上 qq 机器人后简直是如虎添翼,你直接在 qq 上发指令,就能让 open club 帮你干活, 比如自动整理文件、定时查数据、生成周报等,真正实现了在聊天中完成工作。问题二, open club 推荐在哪个平台上部署? 回答,首选 mac 笔记本,因为 openclaw 原声 agent skill 与苹果生态兼容性最好,操作流畅、响应快。其次是阿里云、 火山云等主流云厂商的 ecs 实力。特别提醒, openclaw 真会执行高危操作,如删文件。该系统设置我已把本地部署迁移到腾讯云。安全第一。 问题三,添加 qq 机器人到 openclaw 体系中麻烦吗?回答,坦率讲,接入 qq 机器人确实有点门槛,单纯部署 openclaw 很 简单,把操作系统环境丢给千问、 豆包等主流大模型都能生成详细步骤,但接入 qq 机器人平台,连腾讯元宝 app 都没给出完整可靠的配置指南,最后还是靠啃 qq 开放平台的官方文档才搞定,建议新手预留半天时间耐心调试。 问题四, openclash 创建 agent skill 的 难度大吗?回答,用 g l m 五的话,门槛其实不高,只要你具备基础计算机知识,能看懂并执行命令、行脚本, 就能完成 skill 配置和调试。 g i m 五的中文理解力强,写提示词、定义流程都更顺手,对非专业开发者非常友好。问题五, openclash 前景如何? 回答,我认为 openclaw 是 目前最接近真正智能助手的开源框架之一,他用 agent skill 替代传统 m c p, 用长短记忆替代静态知识库, 设计思路非常前瞻。随着 g l m 五等国产大模型的持续优化, openclaw 在 本地化、低成本、高可控性方面优势会越来越明显,未来他很可能成为个人和中小企业 自动化办公的核心引擎,值得持续关注和投入。总结, opencloud 加 g l m 加 qq 机器人,这套组合不仅成本可控、操作便捷, 而且功能强大,是目前 ai 工具链中极具潜力的一套解决方案。建议感兴趣的朋友尽早动手,边用边学,才能真正掌握它的价值。

大家好,我是牙医,没想到 g m 四点七发布后,仅仅时隔了一个月,智谱又发布了 g m l 五,废话不多说,让我们开始测试 来看实际的测试结果啊。这次新引入的边框大鱼缸这个设计,这个设计出呢,我是想打算测试通过编程实现四种不同的粒子效果模拟,包括水滴,碎屑,烟雾、气泡,而且还是粒子混合在流体中的复杂场景,越符合大家的直觉,证明模型的编程水平越好。 可以看到这个折运效果还是欢迎的不错的,与新出的 club 四点六几乎没有什么区别,不过液体受到冲击的运动,这个效果还有一定的差距。鞭炮连锁爆炸测试, gm 五 比 gm 四点七提升了很多,首先指令遵循这个有了很大的提升,比如提示词中要求高度为五,每组升成十个鞭炮,总计升成十组鞭炮自由落体,但是 gm 四点七把高度五给忽略了,以及本次的视觉效果 有了相当大的提升。 g r 五的玻璃箱子效果,色调映射还有补光,这些都让场景有了电影级的画质提升, ui 设计也有巨大的提升。细节上, g r 五使用了 c s s 变亮,富有科技感的自定义字体,这些都是四点七版本没有的拍摄。杯子倒水测试这个提升也不小, g r 五实现了独立的顶点碰撞函数,并且在主循环中对所有的角点都进行了检查, 防止粒子掉出去。而 gl 四点七没有进行脚点的碰撞检测,这样我们就能在实际测试中看到这个 gl 五的杯子在倾倒的时候, 粒子更不容易从杯子中间漏出去,以及啊,视觉也有提升,很难想象一个纯二维的演示视觉效果会有什么提升,但是没有错,还是有提升的。 gl 五给每个粒子都加了一个模拟三 d 的 高光效果, ui 呢,也提供了进度条、帧率、闪视状态信息和多种快件的操作。不过 gm 四点七有一个优势啊,就是默认他就用了空间网格哈奇算法,这个算法能显著提升粒子的碰撞检测性能,所以动画上 gm 四点七会更流畅。而 gm 五是知道这里有性能瓶颈,只不过他认为四百个粒子还好,但实际上这个最差的情况每针都会有十六万次的碰撞检测,所以还是要上油化的 大象牙膏测试。 gm 五使用了六十段的吸粉点还有指数曲线来模拟这个锥形瓶的形状,还精心制作了瓶口的这个唇边效果。当然成也精细,败也精细,锥形瓶的瓶身搞成了抛物线,所以不得不说美学是有提升的。 这个叶面下降效果也很好,因为剑玩舞每次叶位变化的时候都会重新创建这个几何体,然后就能精确匹配烧瓶内壁的曲线,实现了叶面高度下降的时候液体的底部不动这样的一个正确的效果。接下来是常温本召回能力测试, 这次的召回水平更是摧枯拉朽了,各个长度的召回都在百分之九十八以上,相当可用。不过这次有点问题,来看这个题目,哈利波特释放钻心弯骨咒,贝拉特里克斯的表现是怎样的?我们给到 ai 的 选项是, a。 疼得满地打滚 b。 撞倒在地。 c, 我 欺哈利波特老无力, d, 没有大意,成功闪了。我测试了两次。当我给模型小说原文的时候,模型正确找到了原文中的描述,这个咒语把贝拉特里克斯撞倒在地,他尖叫了一声,但是很快就站了起来,所以我们应该选 b 撞倒在地了。但是当我不给模型原文的时候,就只问这个问题啊, 模型竟然精准脑补出了小说的英文原文。于是我在专门没有原文参考的情况下,把所有问题重新测了一遍,结论是,这样召回水平还能有百分之五十一点四,四选一啊,蒙对了一半,这个就有点高了,所以本次常规召回能力并不是很自信,建议官方考虑一下训练语料的问题 来招 a 阵能力测试仍然是我们让大墨行模拟外卖骑手来送外卖。考虑到之前 g r m 四点七已经是这个测试的最高分了,所以本次 我把单位时间内系统生成的订单量增加了五倍。这次 gm 五的测试得分是七百三十八点六九,作为对比 gm 四点七是五百七十一点九一,又刷新了测试的最高记录。那么提升在哪里呢? 我在分析所有数据的时候发现了一个细节,四点七版本在第一百九十八轮就宣布了任务完成,这个时候它的利润是四百三十七点八八,而系统提示它继续。于是 gm 四点七又工作到了第二百五十九轮, 这时候利润达到了最高分五百七十一点九一,然后他就再次开香槟就不干活了。作为对比 gm 五,他只有在二百七十七轮的时候庆祝了一下,说我突破了七百元利润大关,然后就继续干活了。 这种差异是为什么呢?因为 gm 五每次在对话中都会跟踪剩余的对话轮次,这个是四点七版本,从来没有做过这个模型的原认知提升啊,直接解释了为什么 gm 五能够持续工作到第三百轮,因为他很清楚知道自己还有多少轮可以用了。 那么为什么他中间还停了一下,因为他甚至给自己定了一个小目标,俺要突破七百元大关。于是在突破了七百元之后,他小小的庆祝了一下。 总结,这次健马五在各个方面都带来了肉眼可见的提升,编程也在各个细节上都有优化,本身很强的 agent 的 能力上呢,进一步采用了一些自主意识 来提升性能。遗憾的是,本次的长文本召回能力测试分数执行度不是很高。不过这点也不用担心,因为 agent 的 测试运行的时候也要用到超过一百 k 的 上下文,这样就考验了上下文的能力, 所以召回性能还是没有问题的。另外这次在视觉效果上和美学上也有显著的提升,比如这次他就有一个小偏好,演示中他很喜欢用这个充满科技感的 o b 闯字体,是不是感觉很不错?以上就是本期的测试, g m r 五这么猛,我很期待接下来的 g m r 五 v 了,我是牙医,我们下期再见!

兄弟们,今日,智普 ai 正式开源其新一代旗舰模型 glm, 五大模型从原本的能写代码升级成能构建完整的工程系统,像人类工程师一样去规划、拆解任务,然后一步步执行到底。从一个月前开源的 glm 四点七到今日开源的 glm 五, 模型参数量从三五五 b 扩展到七四四 b。 在 全球权威的 artificial analysis 榜单中, glm 五超越了 gpt 五点二 codex 和 gemnine 三 pro, 仅次于 oppo 四点六和 gpt 五点二 high 两个闭源模型,位居全球第四,开源第一。 glm 五在编程能力和 agent 的 多项主流机制中取得开源第一。 glm 五在编程能力和 agent 的 多项主流编程 z 点零 中分别获得七十七点八和五十六点二的开源模型 sota 分 数性能超过 jamni 三 pro 在 联网解锁与信息理解、多步骤任务执行、复杂多工具场景下的规划和执行、 模拟经营能力等方面均取得开源最佳表现。在测试一番之后,我发现 glm 五居然可以直接在云端自动部署 open club, 这就意味着你想什么时候做个应用,什么时候部署个 agent, 直接让 glm 五做就好,非常方便。 后面为了测试一下他的代码能力,我又让他去网上找了一些图片素材,在云端给我做了这样一款经典二 d 宝可梦,实现效果还是很不错的。总归来说,测了一大轮,我感觉 g l m 五的开发和 agent 能力是真的做到了 pk cloud opus 四点五不输的程度。而且相较于 cloud 系列的模型, g l m 五作为国内开发模型大部分的国人和计算机小白都能够接触到,没有任何的使用限制。这样一款好用方便的 opus 四点五平替,支持官网线上使用和本地部署,感兴趣的朋友们赶紧去试试吧!

给大家测试一下千万三点五,今天的话千万三点五已经更新,我们可以看到在他的官网中已经可以进行测试,他是千万三点五。 然后接下来我给大家全面的介绍一下,我们以这五个为例,第一个就是测试一下他的代码能力,第二个就是一个最近的比较火的一个问题,然后接下来是这个数列问题,然后是他的一个数学问题, 接下来是它的一个知识读补的一个通用性的问。我们首先看一下原本的这个网页, 我们可以看到这是一个亮白色的一个汇报,千万三点五的一个网页,我们会把它进行一个基于此进行一个春节风格的改造,这个是千万三点五 plus 的 一个效果。 接下来就是三点五的一个三九七 b 的 一个模型,我们可以看一下 这个模型是开源的,然后接下来我们对比下一个模型,这个是 cloud 写的一个, 接下来我们使用工薪后的 deepsea 进行看一下它的代码能力,还是比较适合中国人的审美的。 然后接下来我们看一下 jrm 五的 它的一个春节风格的改造。 好的这就是我们第一个模块,然后给大家介绍一下它的三个核心的一个架构,第一个是它的一个注意力的机制, 使用了百分之七十五的 g d n, 这个就是为了大局的遗忘啊,然后是精确的一个攻心,然后我们看一下, 接着就是它的一个 o m o e 的 架构,然后是一个多模态的融合,它支持一个原声的语音,然后我们的一个视频,还有一个文本,或者输入我们图片的一个输入, 这是我们的一个技术路线的对比。然后我们接下来进行第二个,我们进行测试一下这个问题,我想去洗车。首先是我们的 这个问题,然后我同时发送给了左侧的三点五 a 十七 b 的 开源模型和三点五 plus, 在 它的一个摆链的一个平台上,然后我与此同时我会给 deepseek 进行发送以及 jrm 进行发送。 我们看一下它的一个对比的效果。在这个界面里面我们可以进行一个官方的对比看一下,我们可以看到我们输入的信息可以包括文本,图片,视频,然后的话它输出的是仅仅是文本,因此 比如说我们可以应用在一个视频的自动剪辑上面,是可以进行使用这个模型的。接下来是它的一个价格, 最重要的是它的一个上下文,在 opencloud 里面,上下文决定着很多的一个复杂的操作,可以看到这个上下文 plus 的 话是 em。 然后这个开源模型呢是二百五十六 k。 然后接下来我们看一下他的一个结果,这个答案是一个经典的逻辑题,我们必须要开车去对很聪明的模型。然后接下来我们看一下 step, 很 简单直接的告诉我们要开车去。然后接下来是 g r m 的, 它依然没有思考完毕, 这也是我们经常测试遇到的一个问题,但是它的答案是对的。然后我们接下来进行下一个问题, 我们测试一个树列, 首先进行对于这两个模型的一个测试,当然的话我已经测试完毕,这是没有问题的。然后接下来到了 deepsea, deepsea 的 思考确实很快,我们继续, 我们已经看到 deepsea 花了四秒的时间思考完毕,还是非常优秀的。然后接下来是它的 开源的模型已经输入的结果,然后接下来是三点五 plus, 结束结果是正确的,然后接下来看一下它的 g r m, 我 们稍等它一下也是对的。然后接下来我们测试最后一个问题, 我们的结论是全部通过,我们看一下,首先给 g m 一个,然后是 db6, 然后是这两个模型,我们发送 我们看一下它的一个反馈结果, dbic 花了五秒的时间测试完毕,五秒。然后接下来看一下 三点五的模型还在推理,看一下 g r m 的 g r m 的 话也在输出, 我们可以看到他花了四十七秒输出了他的一个正确的答案, g m 五。然后接下来我们看一下三点五 plus, 还有他的一个三九七 b 的 一个模型还正在思考, 我们可以看到三点五的 plus 已经正确的输出了答案,可以发现这几个模型还是能力比较强的。 然后接下来我们进行最后一个,它是一个通用型的知识图谱的一个抽取, 我们打开我的项目到这里面,我们可以看到现在我已经处理完毕, 我们使用的是民法典的前两章,一个使用的是他的一个三点五 plus, 另一个使用的是千问的一个 plus。 然后接下来我们进行交互问答一个问题,首先对于这个 三点五的话,他已经给出了一个答案,我们可以把它给复制出来,然后通过一个中间的 ai 进行一个测评, 我们在这输入自己的问题,然后发送,然后我们看一下它的一个最终的结果, 我们可以看到这是相关的一个问题,然后是它的答案,为什么一定要这种方式呢?因为知识图谱对于我们的一个文本是一个抽象性的一个连接概念,它比普通的 red 更加的一个有上下文的衔接性,因此我们可以对比一下它回答的一个维度。 然后我们看一下它的一个三元组,这个是 千问三点五 plus 抽取的一个实体,我们可以看到是一千多个,然后接下来是它的一个 plus 的 模型,这个少一些。

又是深夜发布,今天突然发现智浦开源了 glm 五大模型,没想到年前的开源大模型市场还会出来这个网站从前几天 cloud ops 四点六和 gbt 五点三 codex 的 发布可以看得出来,二零二六年商业大模型趋势将从能写代码升级成能构建生产机系统, 没想到的是开源大模型这么快就跟上了,熬夜测试了几个小时,本期视频我们就来看看 glm 五都有哪些亮点,以及都能做些什么事情。 二零二五年使用大模型编程的过程中,我发现虽然 ai 已经可以做出一个个很好看的前端页面了,但是真的让他去做一个生产能用的系统或者是一个庞大的任务,经常写着写着 ai 自己就圆不回来了。 但这次 glm 五真正能做出生产可用而不是单纯好看的系统,并且遇到复杂系统需求会自己拆解,可以长达数小时的不断自动运行完成这个系统不会出现越写偏离越大的情况。我直接拿两个案例来演示一下,工具用的依旧是 copy code 用的是质朴官方这个 model 的 key 配置文件的话,其他都和之前保持一致, 模型替换成 glm 五即可。很多公司应该都有自己内部的企业级后端脚手架,不仅能统一开发规范,并且开发只需要引入对应的依赖和无需关注各种中间件的配置细节就能直接使用。 我之前写过 glm 五来生成 glm 二十一加 spring boot 三的企业级后端脚手架,编辑提示词开始执行,可以看到这次 glm 五在分析完任务之后,会以对话的形式来询问生成项目的细节问题, 宇宙包含哪些模块的 start 给了多个选择,接着询问项目的认证框架,最后确定报名的生成规范,等这些全部完成之后,就开始任务的拆解。 glm 五将脚手架拆分成了十四个大的模块,制定了十五项具体的实施步骤以及最终的验证方式,没问题之后,就开始让 glm 五开始构建系统了。 glm 五这次针对多阶段长步骤的复杂任务的优化做得太好了,整整十五个模块,花了一个多小时全部生成完成。整个过程不需要人去做额外的辅助工作。 除了代码生成之外,当在验证过程中遇到翻译失败的情况,它会自动分析日制,不断修复代码并重复验证,直到全部跑通。我们可以来看看最后的脚手架项目,所有的 start 按模块划分,比如 base 模块定义了统一的异常,统一返回信息, log 模块引入至框架搞定日制生成规范,做好 trace id 生成逻辑以及日制切面等配置。同理,像 mybatics 统一配置 radix mq 的 配置都做成了 start, 要使用直接引入对应的依赖即可,这是真的能很好的用起来的项目了。 接下来再做个全站的业务系统,做一个支持高频发的购票系统,能支持秒杀业务的场景。这次让他把前后端的项目全都生成,前端使用 vivo, 后端使用 jdk 二十一加 spring boot 三。 这里有个比较有意思的点,一开始我在提示词中将 jdk 二十一写错成 jdk 八了, jmm 在 分析需求的时候就发现了这个问题,并给了我几组匹配的 jdk 和 spring boot 的 版本。 手动调整之后, glm 五给出了十分详细的技术报告。整体的代码生成过程还是和之前一样,不需要人去做额外的操作就可以生成出完整真正可用的代码。现在前后端代码就生成完成了,我们来看一下。 先看一下后端代码,秒杀业务的逻辑写的十分严谨,其中高密发解决方案中包含了多级缓存、库存预扣、业务下单、分布式锁结果限流、动态余额等方案。前端页面是一个包含购票和秒杀的 h 五系统,我们来参与一下。秒杀 手速快,直接抢到票。智普在官方公告中提到了国产芯片万卡集训这个概念,意味着这次 gm 不 仅模型能力强, gpu 底座也是国产自己的。 去年过年来了个 deepsea, 今年过年来了个 gm 五,不知道二零二六年大模型究竟能发展到什么地步啊?以上就是本期视频的全部内容了,我是鱼仔,我们下期再见。

这临近过年,我们的国产模型真的太猛了。前面我做过两期视频,用同样的 prom, 同样的真实项目任务实测,对比了 cloud office 四点六, gpt 五点三、 codex mini max 二点五。 那期视频做完之后,评论区就有人让我测试一下质朴新发布的模型 gom 五,咱也是加班加点的干出来了,而且据可靠消息,过两天还有 deepsea 微视版本的发布,到时候也给大家带来一期真实项目的一个编程实测。 求一个一箭三连不过分吧?在这里要插播一下,当我准备去测 gm 五的时候,我去官网去订阅它的 cooling plan, 直接受庆了,就我的套餐买不到。哇,那如果按 ipa 计费的,我目前也没有找到。他们可以用 insulate 的 一个协议来测试 gm 五, 所以我就用了 ppl 他 们家的去测试,他们是非官方首发部署的 gm 五,一个开源模型的一个权重,那兼容安斯罗比的一个协议接到可拉扣的里面也非常方便,因为我之前的评测的话,都是用可拉扣的去做的嘛。所以说为了保证公平公正,我们也是用同样的 工具方的编程任务去做实测。好,我们先去创建个 api k, 这里我就写 gm 五 确认,点击复制好,我们开始进入真实项目的一个编程实测环节,也是同样的 prompt。 哈,那第一个任务的话,是把 我们另外一个项目里面完整的一个用户认证体系,包括邮箱、谷歌认证登录、 github 登录迁移到我有一个新的图片生成 a 级的项目里面,同时让它去做一个落地页, 需要考验它的一个代码理解能力,架构适配能力,一个工程规范。这个任务还算比较复杂,之前用 mini max m 二点五去测的时候,它花了三轮对话才完成的,那 op 四点六跟 gpt 五点三 colex 的 话,它们一轮对话就完成了。 那第二个任务的话是我本地有一个 skills agent, 它是一个终端 ui 交互的,我们把它做成一个外部聊天页面,让它保留 syncing 工具,调用流逝输出。这个任务主要考验它全站开发, 流势输出以及 u i u x 的 一个交互能力。之前测试的话, off 四点六跟 g p d 五点三 codex 他 们一人赢了一局,那下面我们就开始做 g o m 五的一个测试。 这两个项目现在都是开启了一个沙杯进者的模式去探索已有的代码。那右边的话,它弹出来一个让我选择想用的框架以及 u i 主键库,我就按我一个常用的方式去选好,它提示已经成功了。 好,我们打开了他给我们写的这个 y y, 哈,他把这个 skills 是 放在右边的,就展示我已有的一些项目,来测试一下它可用吗? 好,我们开始让他去总结这篇文章,看一下他有没有去做到加载这个 skills, 然后加载完了之后去执行一些脚本去做爬虫,然后再去做总结。可以看到这边他已经加载到这一个 skills 了,下面去执行一些命令 总结出来了哈。整体的话完成度还可以的,就是他这个 ui 上稍微会差一点点,相较于那个 gbt 五点三 codex 的 话,这个完成的没有 gbt 的 好。 左边这个窗口就是 cloud off 四点六写的,这个 ui 上确实会差一些。右边的话是 gbt 五点三 codex 写的,当时我是把票投给了他,那么同时去可以看一下刚刚那个任务,他们俩其实都没什么太大问题,不是特别难,后端也就 thinking, 然后做工具调用, 可以看到都是 ok 的, 没有什么太大的问题。好,下面我们去看一下那一个纹身图 agent 用户认证体系那块它完成的怎么样了? 可以看到它这个已经完成了哈,可以看到这个代码它已经写完了,我们先看它能不能一次性去启动,之前 mini max m 二点五这一块是没有做到一次性启动,我们先开新开一个窗口去测一下。好,我们可以看到 g m 五的话,它目前启动是没有什么问题啊,我们再看一下它实际的一个表现, 我们看一下它整个 ui 表现哈, ui 还行,那我们看它的那个认证功能可不可以用。我们先试谷歌登录,谷歌登录的话,它这块放了一个小 bug 啊,它把那个毁掉的端口弄错了,我们改一下。好,我们继续。 好吧,登录失败了,这边还是有些问题,你看到它登录的时候认证失败了,应该是数据库的表结构那块有点问题,从这么看的话, gbt 五点三 codex 跟 op 四点六还是要猛一些哈,就是它们没有这些问题。 好,我们再来选择谷歌登录,刚让它修复了一下, 好,他终于可以了。哎,有个问题,他登录成功之后没有回,没有进到我们的那个主页面,登录成功之后没有进到我们 agent 里面, 这个算第二轮对话吧,看他第二轮对话能不能搞定好,我们点击登录选择谷歌, 他还是没有修复成功,他还是要再刷新一下,看没有再刷新一下,进来再给他描述一下吧。现在还有个小问题,当我们认证之后,他先跳转了到首页,我再刷新页面,他才进到了 a 镜的里面。 在他这是第三轮了,就证明他在这个方面其实跟 mini max m 二点五差不太多,他们俩再点登录。 我靠,跟这个问题杠上了,他还是修复不了啊,还是有问题,你能不能好好深入去修改一下,去思考一下。 这是我们第四次对话,让他去修改这一个小问题哈,这个表现呢,就有一点不是特别好了,我们再来,如果他再再进不去,我就不撤了,这个就默认他四轮吧。 好,我放弃了。这个问题我不测了,他修他,我跟他一直对话,他修不了。我们之前测 gbt 五点三跟 colorof 四都是一轮。 ok, 我 们下面来看一下评分,整体的一个打分标准是第一个,我人为的去检测他们的一个功能完整性以及 ui 的 一些情况。那代码架构,工程规范,我都是把他们所有的代码给到 gbt 五点三, codeof 四点六,让他们分别去 review, 然后去打分。 它现在结果是这样子的, off 四点六,在第一个项目用户认证里面,它是表现最好的,它在功能完整度以及 ui 落地上是表现的比较好,并且是一轮就完成任务了。但是它的代码架构跟工程规范会有一些小问题, gpt 五点三扣贷 x 的 话,它的代码架构以及工程规范会比它好,而且是这四个模型里面最好的。那它的功能完整度呢?因为它漏了一个谷歌登录的一个前端,所以说这个评分稍微低一点,那它 ui 落地页的话也会稍差一些。 上一期视频测试 mini max m 二点五这一边的话,他是花了三轮对话去完成了这个任务。那智普这边的话,刚刚你也看到了,其实四轮对话完下来之后,他还有一些小问题,所以说评分的话,他俩其实差不太多吧,我个人感觉哈, 我们来看第二个,把这个 skills agent 做成一个外部 ui, 那 这个项目的话就是 gpt 五点三 codex, 它在业务完成上逻辑错误控制以及 ui 代码质量工程实现都是最好的。那剩下这三个的话,大家表现的都差不多吧,大家有优势的地方也有他劣势的地方。 好,下面我们开始进入 agent 的 实测环节,把 gm 五模型接入到我这一个真实的一个 agent 的 项目里面去,它是做自媒体视频拆解的, 主要需要去看他的一个速度,拆解深度以及表达一个真实感。那整个 a 型的工作内容的话,就是先去下载视频,做音频提取,转文字,然后去做内容的结构化分析,爆款元素的提取,最终输出一个拆解报告。好,我们下面开始吧。好,右边也完了, 我们来简单看一下哈,他们两边格式上会有一些差异。在拆解上我们看他这个结构拆解这块,他这个时间出其实是有问题的,他做的不对,因为我这个是十二分钟的,他是做了 十四分钟到十五分钟,那 g m 五这边的话,它也有讲一个时间戳吧。啊对,你看它有二十分钟,还有三十到三十五分钟都来了,所以说我感觉它在整个 a 帧的表现里面不是特别好啊,它这个拆解的深度也不太够,我感觉相较于昨天我测那个 mini max m 二点五的话会稍微差一些。 好,我们下面总结一下。把 gm 五接到这一个自媒体视频拆解的 a 帧里面,它的一个表现情况哈,整体上的话速度偏慢,就响应速度不算快,可能跟当前用户量大有关系,因为都知道它这个套餐都卖的受庆了。第二个的话,它的拆解深度的话相较于 mini max m 二点五会有一些稍稍不足。 第三个的话,它的一个真实感稍微偏弱一些啊,这是整体的一个表现情况。好,下面我们进入整个的一个总结环节,在编程方面的话,一句话,在我的这一个测试项目里面, gbt 五点三 codex 表现最好,比 off 四点六会好一些。 glm 五跟 mini max 它们的体感接近,都是开源的嘛,并且它们的成本非常低,所以说 对于一个高性价比的一些开发任务的话,我觉得这两模型都非常不错。好,这就是这一期视频的所有内容了,如果你觉得这期视频做的不错,一定记得给我一键三连哦。那下一期视频的话大概率是做 deepsea 微四,有可能是在过年那一天发布,我猜测哈,据可靠消息。好,那视频就到这里了,大家拜拜拜拜拜拜拜拜。

大家好,今天呢给大家介绍的是智浦最新发布的 ai 大 模型 glm 五,那 glm 五呢,它是拥有一款啊,七千四百四十亿参数的啊,超大规模的混合专家模型,底层框架使用的 mo 一 框架,它的上下文窗口长度呢可以达到两百 k 左右。 然后呢, gm 五呢,在全国权威的这种 artificial alliance 榜单中也是位列位列全球第四的,在开源界的话也是处于第一名,并且呢在多项的这种编码测试中也是获得了开源索塔的成绩,它的性能的话是超过了 啊,谷歌的 gmail 三 pro, 实际的体验的话毕竟于这种 cloud ops 四点五。 而且呢这次智普的这个 ai 呢,也是接近把它的 ai 呢都扩展到了一个多模态领域,支持多模态理解,然后呢,呃,而且能处理这种超成本或是复杂工程,以及说做 a 境的开发。 那今天呢,我们会用啊二十万字的文档带大家去深入去了解一下 glm 五它的技术原理, 还有底层的一些啊架构啊。这篇文章呢,是通过 cursor 编辑的文章,一共是十一个间谍。然后这个篇文章是通过 opencode 加 midmax 编辑的文章,嗯,也是大概十个章节左右。 那首先我们来看一下这些章节的目录大概的内容啊,这个这里呢,我将这个文档呢做成一个简单展示的一个网站啊,简单给大家说一下这些网站。这个 gm 发布这次的内容,首先是对于行业发展来说,嗯, mate 在 之前的是开元领域是领先的, 那 g m 现在是呃在开源领域是呃做到了第一,那闭源模型就是三大这个 ai 公司啊, open ai、 ostracape 跟谷歌,谷歌啊,但是嗯,我们看到过 g m, 它追赶速度还是比较快的, 然后这次的呃突破性的成就也是比较高的。首先是模型的参数扩大了,然后结合了多模态 以及说上下文窗口长度,能输入整本书或者是整个项目,整个代码仓库啊,还就是在工程化的这种 ai 编程领域,那也是获得了一些突破 啊。第三部分是这第三部分是 g m 的 发展史啊,那可以看到距离上一次发布 g m 四点五的话已经差不多一年了,然后呢这个 g m 五的话是二月份才发布的, 然后它里面的技术创新和架构设计呢,主要是设计包含这个混合加专家模型的优化,因为它这里包含有二百五十六个专家,然后呢进行灵活的调度。其次呢就是它借鉴了 tiffany 的 啊些数处理机制,然后做了一些局部的一些优化, 然后也做了自己层面一些创新,比如说引入了 slam 框架,它可以去增强这种啊,训练,训练啊,增强,提高训练的效率,然后这 slam 的 话是一个一步强化学习框架,然后呢它也做了各种层面的一些优化, 然后呢在性能评测或者对比里面呢,它的这个编码分得分的话也是超过了 gsm pro, 这是他,嗯,大模型评分后面,然后行业几方的话也是目前啊,就是大家通用的大模型的解决方案,比如金融指挥啊,都这这些领域的东西,然后这是他大概的内容。

今天用智浦新发布的 glm 开发了一个新项目,基于 spring boot 的 酒店管理系统,这个项目已经开源到 github 了,还附带一个项目论文,关注同名微信公众号即可获取。 最近后台很多人私信想要我的产品说明书,想让我出一个详细点的教程,现在就带大家做一个完整版的项目。首先明确要做什么,怎么做产品,应该有哪些功能,解决了什么问题。我把这个产品说明书的内容概括分为以下部分, 明确开发技术站、技术架构、功能模块、数据库设计以及 ui 风格。这几点确定下来就可以大大降低 ai 写代码出现的幻觉。所以很多时候幻觉的问题不单单是模型的问题,跟人也有很大的原因。 然后这里我用到了一个文档专家的智能体,让他基于我们已经确定的要求生成完整详细版的产品说明书。那么 ai 就 更清楚要做什么,该怎么做,所以前期多做一些准备,就能尽可能避免后面形成的十三代码。 经过了连续三十六分钟的编码, glm 五完成了整个项目前后端的开发。整体功能分为两个用户角色,普通用户和管理员。 普通用户可以注册登录预定客房,查看订单。管理员可以管理用户信息,维护客房信息,查看所有订单数据,统计分析。 最后主包想跟大家说, ai 时代如何使用工具提高自己是一门必修课,一定要尽可能多地去尝试使用各类 ai 工具。

tiktok 一 周热点汇总第一百零四期,本期的内容呢,包括了智普新一代的旗舰模型, ai 编程助手配置管理器、 ai 渗透测试工具、 安全的 python 解释器和深度金融研究智能体。最后呢,还是分享两份资料,那马上就要过年了,也提前祝大家新年快乐,马到成功,马上有钱,哦对了,还要说一句啊,因为下一周呢,刚好是过年的这个假期期间, 所以呢,我就想停更一次,这里跟大家请个假。那话不多说啊,我们进入正式内容,如果觉得内容不错呢,别忘了点赞和关注。目前来看啊,二零二六年的春节啊,注定是一场 ai 大 战,前面的元宝发红包,千问送奶茶。而打响模型大战第一枪呢,就是智普, 他刚刚发布了新一代的旗舰模型 glm 五。 glm 五呢,这一次的核心口号啊,是从会写代码到能完成任务。 其实呢,今年的几个模型发布啊,都在不断的强调一点,就是啊,从代码到工程的一个进化,都希望呢可以端到端的去完成完整的应用的开发, 所以呢,大家也都在强化编程的能力和 agent 的 能力。那官方发布的几个视频呢,我们都能看到,效果非常的不错,比如呢,像开发的这种学术版的 tiktok, 还有呢,可以联机对战的大富翁的游戏,当然啊,这些呢,都是官方展示的效果,其实大家都懂的。 那再稍微来看一下 glm 五的基本参数情况,七百四十四 b 的 总参数,四十 b 的 激活参数,使用了二十八点五 t 的 预训练数据。 然后呢,是 deepsea 同款的吸收注意力机制,那集成了这个 dsa 技术以后呢,能够让它在保持长上下文能力的同时呢,大幅的降低推理成本,那它的能力呢,基本上和 cloud ops 四点五呢是一致的,目前呢是开源模型的第一,这个呢是我让 glm 五自己生成的介绍, 而且呢,这里我引入了一个对比的外援,就是呢,几乎和 glm 五同步发布的 mini max m 二点五,我呢用 cloud code 和同样的提示词来看一下它们分别的输出效果, 那你觉得它们的谁的表现更好一些呢?当然呢,我这个视频呢,并不是一个深度的测评,大家看一乐就可以了。那说实话呢,智普和 mini max 这个上市啊,确实是立竿见影。当然呢,有好它也有坏, 虽然现在的模型能力是更好了,但是呢,它的价格也确实贵了。之前我开的这个 glm 扣丁 plan 呢,当时是八百多一年, 而现在呢已经是一千两百多了。那顺便提一句啊,如果有朋友想买的话,可以用一下我的邀请码,那我可以得到这个官方的邀请返现。那最后呢,作为开源模型,那这一次 glm 五呢,在本地的运行方面其实是非常不友好的, 在 l m studio 里面,最小的这个 g g u f 的 版本啊,也要一百七十六 g, 我 真是不行啊,我的本地是保不了。那有实力的朋友啊,可以自行去验证体验一下。 c c switch 呢,是一个开源的跨平台的桌面应用程序,它专门呢就是为各种 ai 编程助手呢,去提供统一的可适化的配置与管理入口。一开始呢,它是专门给 cloud code 做的,后来呢,逐渐地扩大到了支持各种常见的 ai 控件工具,像 codex 啊,还有 jimmy c i, 它解决了传统的靠手动编辑配置文件来去切换 api, key 模型,还有 mcp server 等参数的繁琐流程, 让开发者呢,可以通过一个界面就能够切换和备份,还有管理所有的配置。那现在呢,如果真的是外部定制的重度用户的话,那你肯定呢,不能光用一个模型的控制 plan, 因为呢,肯定是不够用的。 而如果你开了多个以后呢,那 cc switch 呢,确实还是蛮实用的,使用上的话,比如像我是 mac 的 话呢,就直接通过 pro 来去安装和使用,那他做了这样可直观的界面啊,所以对于动手能力不太强的这种非专业人群来说呢,是比较友好的, 尤其是那些啊非程序员,但是对外不抠钉很感兴趣的爱好者。另外呢,看他项目的页面的各种赞助啊,也能够感受到项目得到了用户还有甲方爸爸的双重认可。 所以呢,很多时候啊,真的把一个实用的小东西做好,也可以获得非常不错的效果和收益。本项目是一个开源的全自动化的 ai 渗透测试工具,核心的目标呢,就是自主的去发现并验证外部应用的可利用漏洞, 那填补日常开发与年度这种测试渗透之间的安全缺口。他不单是做这种扫描漏洞列表,还会呢像人类的红队工程师一样去分析代码来去验证漏洞啊,是否真实。 他呢,就像是你招了一个全年无休的一个红队黑客,二十四小时的在线的去帮你挖洞,那他呢,会将白盒的原码分析和黑盒的动态利用啊去相结合,分别呢用四个不同的阶段和不同的 a 阵他去执行动作, 使用的话呢,可以直接克隆项目到本地,然后呢执行项目的脚本,他会自动的完成相关刀客的下载,还需要呢,自己提前准备好大模型的 key。 要注意的是啊,它现在不支持 bash url 的 设置,所以呢只能使用 cloud 或者是 open ai, 再就是 open router。 另外呢这类工具啊,还是很费 token 的。 monty 呢,是 pentetic 团队啊,用 rest 编写的一个极简的安全的 python 解释器的实现, 专门呢为 ai 系统的嵌入式代码执行场景而设计。它的目标呢不是去替代完整的 c python, 而是呢提供一个高速安全受控的环境,让 ai 生成的 python 代码呢,可以在内部安全的去运行。 那它的核心特征呢,包括了像安全刹箱啊,急速的启动速度啊,还有受控的执行子集和多语言的绑定。那在智能体 a 阵它的执行场景当中啊,经常会有一些需求,比如像执行模型生成的脚本, 同时呢还要去保证这些动作的一个安全。那传统的方式呢,就是启动完整的 python 和容器的沙箱,那这么呢,要么带来安全隐患,要么呢就是启动的开销比较大。那 monkey 的 设计呢,就是为解决这类场景下去提供一个更安全,更轻的,更容易嵌入的一个方案。 那本项目呢,是一个开源的自制的智能体,专门呢是面向深度的金融研究和自动的分析去构建的,他能够把复杂的财务问题啊,去转化成结构化的研究计划,然后呢自动的去获取数据,再去进行分析与验证,最后呢得出可信的结论和输出完整的任务流程。 那要使用项目呢,你需要首先安装半,那安装的话呢,可以执行项目给出的一键安装脚本,之后呢再把项目克隆到本地,然后呢执行半 install, 接着呢再把点 env example 复制成点 env, 再去里面去修改一些配置, 其实主要呢就是配置大模型的 api key, 还有各种使用到的数据源的 api key, 那 配置好了以后啊,执行半 star 就 可以运行了, 那在整个流程当中啊,他强调的是要先去思考,再去行动,接着呢要进行自我的检验,以确保呢结果的可信性。 那这个呢,正是金融分析所必须的一个特质。那这里要注意啊,其实他的数据呢,是要依赖于外部的数据源的输入的,而这里面他使用到的 data set 呢,其实很多都是要收费的,而且这类金融的数据源其实还是很贵的,所以啊,我感觉在上手投资的这个门槛上还是比较高的。 最后呢还是分享两份资料啊,第一份呢是理解机器学习从理论到算法,那本书呢,对机器学习的基本思想 还有呢,将这些原理啊转化为实用算法的数学推导,进行了全面的理论的表述,想多了解这些底层知识的呢,可以去学习一下。那第二个是全球 ai 平台市场的全景与趋势洞察报告,从去年开始呢, ai 行业的关注核心呢,正在逐步的做迁移, 从模型呢,更多的去转向了 a 阵的和应用,所以呢,后续的 ai 应用平台呢,肯定会卷的越来越厉害。那这个方向呢,也确实啊,值得多做关注。那有需要的朋友呢可以告诉我。以上呢,就是本周的全部内容,再一次呢,祝大家新年快乐,我们下次再见。

你知道怎么白嫖今天智普发布的一个最强冰城大模型 glm 五,下面我就来给大家讲一个白嫖 glm 五的一个方法。 首先我们打开微修 studio 这个开发工具,然后在它的左边找到 extension, 也就是插件的扩展中心, 然后我们输入 k i l o 搜索,就能搜索到 k i l o call 的 ai call d 键头这个插件,点击它, 然后我们再安装这个插件,装完之后就会在这个开发工具的左下角有一个 k i l o call 的 一个小图标,我们点击它,点击它进来之后,在它的最下面, 在它最下面你看就能看到一个最点 a i g l m 五 free 的 一个大模型,我们选择它就可以开心的白嫖啦,是不是很简单? 据说这个智普的 glm 五编程大模型是比酷的叉五点三和 opus 四点六都还要强,所以大家感兴趣的赶快去体验一下, 因为啊,大家如果有什么看到免费的拼成模型,可以大家一起在评论区分享一下,别独享好东西,大家一起共享好不好?

gm 五终于发布了,听说非常强,我也想试试他到底是不是真的有那么强,我第一时间就拿我维护了一年有上千真实用户的三倍插件给他上上强度, 直接挑战开发中最头的那三个难题。第一,极万行代码项目的全景理解。第二,多层嵌套的复杂 ip 逻辑。第三,真实用户的需求迭代。 我们这次的开发环境依然是 vs code 加 code code。 我 首先让 g m 五先理解一下项目整体的技术细节以及功能特点, 这里有一个非常关键的点是 g m 五在发现问题的时候,它会自动的去检测这个错误,然后自动的去修复,接着它就会去读取我相关的一些文件, 然后形成了一个完整的技术分析报告。大家可以看到它上面把这个技术的分层架构都写好了,哪些是处理 api 调用,哪些是处理交互以及数据持久化的。然后接下来就是我 api 的 调用逻辑,他每一个点他都列的很清楚,说实话他列的这个技术报告比我这个作者写的还清楚。接着我就让他基于用户反馈形成一个英文字母导出的功能,比如这是一个 英文的视频,它有一个英文的 ai 字幕。以前的话我们这个插件它是没办法获取英文字幕的,因为当时我是只支持了中文字幕的处理,就比如现在它这个英文字幕是没有的,现在这个英文字幕导出的功能,它不仅仅是增加一个按钮,更主要的是它需要去重构底层的一个解析逻辑。 就比如说我这个接口,它的数据是怎么返回的,我需要怎么去处理中文和英文字幕的选择?那 gm 五 他在思考之后就开始进行执行,然后直接去帮我编辑处理了相关的代码逻辑,大家可以看到他每一步他是怎么做的,这里都写的很清楚,然后最后他就帮我完整的实现了我需要导出英文字母的这个功能。我整体体验 gm 五的功能, 我觉得他真的是更加智能的,就像是一个支撑的系统架构师来帮助我便携代码一样。大家可以看到,现在在 g m 五帮我修复了英文字母下来之后,现在这个字母就可以获取成功了。 说实话, ai 编程最难的从来都不是写新代码,而是维护老代码。十三代码,我之前开发的飞书多表格、马克当预览插件,现在也有几百个付费用户,代码里面其实也有不少的十三代码平时没有大 bug, 我 根本就不敢 动它,生怕改动了之后影响用户的使用体验。不知道大家在用 ai 写代码的时候有没有遇到类似的问题呢? 但是啊,我最近观察到,不管是 cloud ops 四点六还是 gpt 五点三 codex, 它们都不再去卷升程速度,而是全面转向了 agintending coding 发展,简单来说就是更加专注于解决真实项目需求的能力。而 gm 五 就是目前开元界首个跟上这一趋势的模型。 gm 五整体表现都不错,在科奥的欧布斯四点六跟 gpt 五点三科特斯之间很多成绩甚至都感觉不到差距,但是我发现 gm 五有时候的响应速度确实有点慢,这点希望以后能提升一下, 再给大家说个心里话,其实三个月前我就开通了 gm codeine 的 套餐,我当时用的还是 gm 四点六,短短三个月时间,我们的钱还是那份钱,但是手里的工具却一次比一次强, nice! 我 眼看着他从四点六进化到四点七,再到今天可以跟科尔的 off 四点六扳手腕的系统架构师 gm 五 厉害!这种养成系的快乐真的太爽了!用过 gm 扣顶破烂套餐的老用户应该都懂,这次 gm 的 进步让我再次看到了国产模型的硬实力,大家赶紧去试试 gm 五吧! 好了,以上就是本期视频的全部内容,记得点赞和关注我哦!我是超超,我们一起学研,一起变强,我们下期再见!拜拜!

g i n 五它来了! 在二月头想必大家都被 call up 四点六和 g p 五点三这两款模型给刷屏了。你有没有发现,现在的 ai 编程模型都在强调长任务,都在强调自己的 agent 和解决复杂问题的能力,而没有在强调前端能够做的多么多么好看?而在这之后, openroot 又出现了个神秘模型 pony, 在平台上搜索第一,它的编程推理、角色扮演方面都非常出色。嗯,而外国友人都在猜啊,这个模型到底是哪家公司的?在猜是不是 sonnet 五?有的网友在想,小马 使用生肖命名的是不是中国模型,而在猜是不是 dc, 是 不是 gln 五,没错,它就是国产的智普。 gln 五也是终于终于上线了,它现在也是主打长任务,超长的执行任务链, 它能够像架构师一样自主拆解复杂的系统级需求,并在长达数小时的多阶段任务中保持清晰的上下文一致和目标一致性。而现在后端同学也不用担心,现在的 ai 编程代码都是重前端了,主要我特别擅长后端架构设计,具备强大的自我反思与纠错机制,能通过分析日制定位根因并迭代修复 实质问题解决。它在代码逻辑精细度和逻辑处理能力方面直接对标 qd 四点五,并且依然开元且便宜一大碗。我准备了三个案例场景,带大家一起沉浸式体验一下。首先第一个游戏场景,我 让九幺幺五做了一个编程逻辑迷宫,游戏用户需要规划中间的小人经过迷宫的行进路径,在左侧选择对应的行动程序块, 准备完之后,点击开始小人成功走出迷宫,则进入下一关,否则会给出失败的提示。这是我们的 pro, 而这是我用官方 agent 执行的步骤。这个游戏的 pro 呢,首先是想考验 g n 五是否能够自主拆解系统及需求和选择技术栈,比如将游戏清晰地划分成 u i u x、 游戏逻辑等模块,并且定义所有的交互接口和代码封装。我们来看一下它的思考过程。我们首先看到它对 pro 的 理解能力还是很好的, 核心玩法、视觉设计、交互功能、难度系统等都进行了一个前置的调研和总结。下面就是正常的思考过程,他说他应该使用前端样式专家 a 准来辅助设计,还需要全站开发人员 a 准来进行实现。可以看出在复杂场景下,他会自己寻找代理的工具进行规划和执行, 对于迷宫深层路径规划,用它的后端深度调试与复杂算法实现能力进行处理。最后就是列出来的图度,一步步执行整个游戏大概他不断反思,不断调试,不断进行功能迭代,持续的进行二十多分钟吧,这个速度我觉得也是非常正常的, 用这种深度的思考和编码就是要花很多的时间,反而一下子就完成的那种编码是很容易出问题的。最后这个游戏的完成度我个人感觉也是非常棒的。当然我也看到网友们的一些案例,比如这种小人跑酷的赛博朋克风格游戏, 翻牌子消消乐游戏,想象力也是很丰富了,这让 gl 五的复杂逻辑处理能力完完全全地表现出来了。第二个,三 d 渲染,我看到网友的一个 case, 非常惊艳,这是一个程序生成的三 d 行星模型,可以生成随机地形, 也可以自由改变行星的地形粗糙度、海平面高度、旋转速度,并且可以调整阴影模式,还支持昼夜循环效果和大气渲染。这效果我第一次看到的时候真的是太震撼了。我本以为它是经历过很多次的人工与 ai 迭代对话而成, 但是我看了一下它整个的 a j pro, 居然只是一个 pro 加 g r n 五的一次对话就完成了。虽然这个 pro 很 长很多细节,但是你敢信这是一个没有经历过二次迭代的产品吗? 我们来看一下它的思考过程,它是真的很有规划,而且在技术方面列的清清楚楚,比如要用什么技术站,首先需要实现什么,再实现什么,然后地形深沉、着色模式,昼夜循环分别都列出来应该要怎么实现。而最终也是依旧列出了个图度,去一步步完善,不断地自我纠错反思后给出完美的答卷。 太离谱了!因为我比较少接触三 d 的 内容,但是如果你让我去做这个东西,我估计没个三四天完全做不出来。而用 gl 五生成的用时肯定是少了很多很多,而且在这么短的时间内完成这么多复杂的逻辑交互,并且完成度还这么高, 是真的强。第三,网页布局。以上两个都是重逻辑的势力,接下来我看看喜闻乐见的前端方面有没有进步呢?其实这方面我给大家展示几个网友的案例就清楚了。第一个,这是一个现代感十足的个人 vlog 作品级调 搭配暖珊瑚色与电光青绿色点缀。在 hero 区域,它增加了照点粒子动画效果,每个文章区域都有独特的动态界面背景,并且下面还有非常炫酷的动态视觉动画,这效果你就看吧,一看一个不吱声,真的太顶了。第二个是一个 landing page, 在设计方面,它采用了暖灰色作为主背景色,在 yellow 区域还有一些动态漂浮的尘埃粒子,在下面以淡暖橙色作为点缀,随着页面的滚动,布局的内容也会有渐显的效果。整个页面非常的简洁现代,不管是段落的间距还是模块的排版,都很是漂亮优雅。太优雅了, 这句幺幺五的 ui 效果又进化了。我知道现在还是很多人对国产的 ai 持保留态度,心里更加认可国外的技术, 这种想法完全可以理解,毕竟在过去很长一段时间里,我们在基础软件和底层算法上确实存在差距。但是我想说的是,这种认知认可可能已经需要更新了。从去年过年的 deepsea 到现在一直在持续更新的 g l n, 包括我自己,已经出了很多关于 g l n 相关的视频。 从 g l n 以前的自然语言理解基作模型,再到 g l n 四系列的具备自主工具调用的全能模型,再到现在能够处理超长任务且复杂需求的 g l n 五, 我们可以清晰地看到,国产 ai 已经找到自己的节奏和方向了,我们正在形成这样的自信和能力,我是真的挺自豪的。好了,以上就是视频的所有内容,如果觉得有帮助的话帮忙点个赞,我是小卢,我们下次再见,拜拜!

在海外社区猜测不断的匿名模型 pony alpha 被证实为今天智普发布的 glm 五的测试版,而 glm 五是面向 agentic engineering 打造的新一代的机座模型,在拥有常规的流式输出方阵、 callign、 mcp 等能力外,新增了适配 excel 的 ai 插件,可以生成格式表、修复公式错误以及跨工作表的自动操作, 那在编程能力跑分上相较于四点七有了较大的提升。而在与 cloud code 的 评估集合中,使用体验接近 cloud opus 四点五,那在价格上对比, cloud opus 四点五、四点六以及 gbt 五点二依然保持着国产模型的量大管保的特色,而且官方还有限定款。性价比方面。