粉丝17获赞352

最近 openroot 上那个神秘的 pony 模型效果非常惊人,大家都在猜是谁?有人说是 cloud 的 旗舰模型,也有人说是 deepsea v 四,今天算是破案了,就是智普的 glm 五。那之所以大家会把它错认成是 cloud 模型,主要是因为在实测中,它展示的长城规划和系统工程能力确实是打破了国产开源模型的天花板。 以前我们测试模型呢,喜欢它一句话,生成网页好看但难以落地。而这次的 glm 五新模型对标的是 gbt 五点三、 codex 和 opus 四点六,主打的是解决复杂的工程难题。我呢有幸拿到了内测,并且呢使用它开源了一个前后端打通的项目。那废话不多说,带大家一块来看看它的能力。 这次测试呢,我用的是 cloud code 加 glm 五,我的需求呢,是做一个创作者全能工作台,包括登录健全、数据持久化、后端业务逻辑,以及最容易出错的财务计算。这也是在测试他的一帧 take 能力,看他能不能读懂长文档,能不能在没有人干预的情况下自主规划开发路径。 第一部分是项目骨架的搭建,他先是阅读理解了我的多篇需求文档,然后创建了一个任务列表来跟踪项目的进度。这部分开发呢,比较顺利,中间只出现了一次 prisma 版本不匹配的问题。紧接着在我测试注册功能的时候,数据库链接出了点小问题,就 注册账户时出现错误, ai 排查之后找到了错误,是数据库路径的问题,并进行了修复,最终给出了项目的骨架。那这次再尝试登录,就成功进入了后台。 骨架搭建完毕之后呢,我要求他继续进行下一步的开发,这一步呢,添加了灵感创建的功能,也就是数据库的增删改查,可以筛选规章以及由灵感转换为选择题。不过这次验收的时候呢,出现了新的问题,就是我创建完灵感之后,列表不显示,后端呢,也没有报错。 这时候 g l m 主动添加了一个中间件来打印我的错误日期,也就是通过这个日期,他才发现是分页参数的类型不对,然后进行修复,功能就立刻闭环了。 他遇到这种隐性的 bug 呢,没有瞎猜,没有胡编,而是打印了一个中间件去查真实的日历,那这个才是我们开发中需要的。 那到了下一阶段的选择题模块,得益于卡奥德库德的优秀机制和 glm 五的超长上下文,理解能力非常丝滑,状态机逻辑一次跑通,由灵感转化为选择题的状态流转呢,没有再出现任何问题。新建的选择题呢,也能正常的与后端连通。 接着是商单和财务的部分,这个其实我最担心的,因为之前一直没做,也就是因为他算不准,就是很多模型在这里会有逻辑幻觉。但 glm 五没有让我失望,这块表现的非常稳,他先是建立了客户库关联选择题,最重要的是税务计算, 因为涉及到含税金额、未税金额,税率推算逻辑极其的严密,我认为他确实理解了其中的业务逻辑,没有逻辑幻觉。 m 四阶段呢,是在我们的工作台首页添加一个仪表盘,那为了让数据格式化呢,还在后端编写了聚合的统计接口, 在前端呢展示了我们的收入统计,并且呢它还非常贴心的规划了一下设置页面,里边增加了收入配置和标签管理啊,这个是比较超出我预期的,因为它很详细,里边有返点,税前税后,非常严密。 这个时候呢,就来到了最后一步,打包交付。对于 glm 来说,最复杂的部分已经完成了,所以这部分处理起来就像喝水一样简单。他为我这个工具呢,编辑了项目介绍文档,还创建了一个一键启动脚本。那现在的状态就是所有拿到我这个项目的人 需要一行命令,前后端全自动跑起来,这个就是开源的交付标准。目前这个项目呢,已经上传到 gitup 上了,感兴趣的话可以去看看,检查一下代码质量。那最后我们来做个总结,整个项目呢,从零到一,总共耗时两个半小时,一捆十。在这期间呢,没有新开任何一个聊天窗口,全程就是在 cloud code 中 与 glm 进行一个单程长对话。这种体验带给我的冲击感呢也比较强,像是一个可以协助有逻辑的系统架构师。如果你是一个开发者,或者平时尝试过自己开发项目,应该能明白两个半小时无断点的开发含金量有多高。 但是呢,他的缺点也同样明显,就是他的思考速度实在是太慢了,也就是因为他思考时间变长了,所以导致新模型比旧模型消耗的头肯要多一倍,而且在高峰期的时候,算力好像有点紧张,期间有很多次呢,我都以为他卡住了,想要去购买他们的套餐,竟然还需要抢,难抢就不说了,他还涨价。 不过对比 cloud 来说还是性价比高,非常非常多, cloud 桌面端送的五十美金额度,半个小时就就用完了。总之这个模型呢,有优点也有缺点,各位可以权衡一下。好了,以上就是本期视频的全部内容了,如果对你有所帮助,或者觉得视频做的还不错的话,欢迎给哥哥一箭三连。最后祝各位玩的愉快,我是段峰,我们下期再见!拜拜!

g i n 五它来了! 在二月头想必大家都被 call up 四点六和 g p 五点三这两款模型给刷屏了。你有没有发现,现在的 ai 编程模型都在强调长任务,都在强调自己的 agent 和解决复杂问题的能力,而没有在强调前端能够做的多么多么好看?而在这之后, openroot 又出现了个神秘模型 pony, 在平台上搜索第一,它的编程推理、角色扮演方面都非常出色。嗯,而外国友人都在猜啊,这个模型到底是哪家公司的?在猜是不是 sonnet 五?有的网友在想,小马 使用生肖命名的是不是中国模型,而在猜是不是 dc, 是 不是 gln 五,没错,它就是国产的智普。 gln 五也是终于终于上线了,它现在也是主打长任务,超长的执行任务链, 它能够像架构师一样自主拆解复杂的系统级需求,并在长达数小时的多阶段任务中保持清晰的上下文一致和目标一致性。而现在后端同学也不用担心,现在的 ai 编程代码都是重前端了,主要我特别擅长后端架构设计,具备强大的自我反思与纠错机制,能通过分析日制定位根因并迭代修复 实质问题解决。它在代码逻辑精细度和逻辑处理能力方面直接对标 qd 四点五,并且依然开元且便宜一大碗。我准备了三个案例场景,带大家一起沉浸式体验一下。首先第一个游戏场景,我 让九幺幺五做了一个编程逻辑迷宫,游戏用户需要规划中间的小人经过迷宫的行进路径,在左侧选择对应的行动程序块, 准备完之后,点击开始小人成功走出迷宫,则进入下一关,否则会给出失败的提示。这是我们的 pro, 而这是我用官方 agent 执行的步骤。这个游戏的 pro 呢,首先是想考验 g n 五是否能够自主拆解系统及需求和选择技术栈,比如将游戏清晰地划分成 u i u x、 游戏逻辑等模块,并且定义所有的交互接口和代码封装。我们来看一下它的思考过程。我们首先看到它对 pro 的 理解能力还是很好的, 核心玩法、视觉设计、交互功能、难度系统等都进行了一个前置的调研和总结。下面就是正常的思考过程,他说他应该使用前端样式专家 a 准来辅助设计,还需要全站开发人员 a 准来进行实现。可以看出在复杂场景下,他会自己寻找代理的工具进行规划和执行, 对于迷宫深层路径规划,用它的后端深度调试与复杂算法实现能力进行处理。最后就是列出来的图度,一步步执行整个游戏大概他不断反思,不断调试,不断进行功能迭代,持续的进行二十多分钟吧,这个速度我觉得也是非常正常的, 用这种深度的思考和编码就是要花很多的时间,反而一下子就完成的那种编码是很容易出问题的。最后这个游戏的完成度我个人感觉也是非常棒的。当然我也看到网友们的一些案例,比如这种小人跑酷的赛博朋克风格游戏, 翻牌子消消乐游戏,想象力也是很丰富了,这让 gl 五的复杂逻辑处理能力完完全全地表现出来了。第二个,三 d 渲染,我看到网友的一个 case, 非常惊艳,这是一个程序生成的三 d 行星模型,可以生成随机地形, 也可以自由改变行星的地形粗糙度、海平面高度、旋转速度,并且可以调整阴影模式,还支持昼夜循环效果和大气渲染。这效果我第一次看到的时候真的是太震撼了。我本以为它是经历过很多次的人工与 ai 迭代对话而成, 但是我看了一下它整个的 a j pro, 居然只是一个 pro 加 g r n 五的一次对话就完成了。虽然这个 pro 很 长很多细节,但是你敢信这是一个没有经历过二次迭代的产品吗? 我们来看一下它的思考过程,它是真的很有规划,而且在技术方面列的清清楚楚,比如要用什么技术站,首先需要实现什么,再实现什么,然后地形深沉、着色模式,昼夜循环分别都列出来应该要怎么实现。而最终也是依旧列出了个图度,去一步步完善,不断地自我纠错反思后给出完美的答卷。 太离谱了!因为我比较少接触三 d 的 内容,但是如果你让我去做这个东西,我估计没个三四天完全做不出来。而用 gl 五生成的用时肯定是少了很多很多,而且在这么短的时间内完成这么多复杂的逻辑交互,并且完成度还这么高, 是真的强。第三,网页布局。以上两个都是重逻辑的势力,接下来我看看喜闻乐见的前端方面有没有进步呢?其实这方面我给大家展示几个网友的案例就清楚了。第一个,这是一个现代感十足的个人 vlog 作品级调 搭配暖珊瑚色与电光青绿色点缀。在 hero 区域,它增加了照点粒子动画效果,每个文章区域都有独特的动态界面背景,并且下面还有非常炫酷的动态视觉动画,这效果你就看吧,一看一个不吱声,真的太顶了。第二个是一个 landing page, 在设计方面,它采用了暖灰色作为主背景色,在 yellow 区域还有一些动态漂浮的尘埃粒子,在下面以淡暖橙色作为点缀,随着页面的滚动,布局的内容也会有渐显的效果。整个页面非常的简洁现代,不管是段落的间距还是模块的排版,都很是漂亮优雅。太优雅了, 这句幺幺五的 ui 效果又进化了。我知道现在还是很多人对国产的 ai 持保留态度,心里更加认可国外的技术, 这种想法完全可以理解,毕竟在过去很长一段时间里,我们在基础软件和底层算法上确实存在差距。但是我想说的是,这种认知认可可能已经需要更新了。从去年过年的 deepsea 到现在一直在持续更新的 g l n, 包括我自己,已经出了很多关于 g l n 相关的视频。 从 g l n 以前的自然语言理解基作模型,再到 g l n 四系列的具备自主工具调用的全能模型,再到现在能够处理超长任务且复杂需求的 g l n 五, 我们可以清晰地看到,国产 ai 已经找到自己的节奏和方向了,我们正在形成这样的自信和能力,我是真的挺自豪的。好了,以上就是视频的所有内容,如果觉得有帮助的话帮忙点个赞,我是小卢,我们下次再见,拜拜!

几千台设备的生命周期管理,十二张数据库表的互相关联,完整的 r b a c 的 全员体系加发货单的审批流程。正常来说,这种企业系统呢,至少要三四个人搞一个多月。但是我刚看到智普刚刚发布了 g m l 五啊,说是开元界的第一个系统架构师的模型。行,那别客气了,咱就试一试。这里我用的是 c c switch 加 colossco 的 方式, 把 colossco 的 底座模型呢切换成了 g m l 五,直接把我整理好的这份 pl 文档呢丢给他,从零开始,看他到底能不能接得住。虽然是用 colossco 的 跑的跑的,但核心模块的逻辑呢,还是 g m 五输出的。 能看到,他先是把整个项目呢拆成了四个阶段,先搭什么,后搭什么,前后端怎么配合排的很清楚。这个规划质量和我之前用原生可拉的 office 做项目的体感呢是差不多的。然后呢,他就开始噼里啪啦干活了。首先是构建 spring boot 的 后端架构, 用户认证,设备档案批次管理,一个模块接一个模块往上加,后端搭完了呢,再构建 nexgs 的 前端,因为工程量确实不小啊,这一步他自己足足写了一个多小时。这个小时里呢,我没怎么管他,他自己呢,就在终端里跑, 先后端再前端,最后生成了出纸化数据库的脚本。用过 a g 的 写过代码的朋友都知道,这个节奏呢,是最考验模型脑子乱不乱的, g m 二五呢,全程逻辑在线,这一点呢,十分难得。前端写完了,最终运行的时候呢,报了个错,依赖版本冲突, 我让他看了一眼,这个报错信息呢,他改了个配置文件,重新安装了一遍就 ok 了,也就是说写了这么久,只修改了一次呢,他就能直接撞起来,想想啊,也是很厉害的。最后后端 spring boot 的 启动成功, api 返回正常数据,前端页面呢,也能正常跑起来。十二张关联表,完整的 r b a c 的 权限体系,发货单、审批状态机,这些呢,全都跑通了。 后面其实就和平时开发项目差不多了,遇到问题呢,就让他去定位修复,你会发现,这就跟一个靠谱的开发同事做极速编程啊,没什么区别。到这你可能会觉得这些不都是正常操作吗?对啊,这就是正常操作。但问题是呢,以前做到这些呢,只有可乐和 gpt 一个柜一个闭园,而且随时都有可能会被封号儿。 现在 gm 五作为一个开源的模型呢,也能做到这样的全载工程能力和这样的质量交付,实在是不容易。而且大家别忘了,从算力底座到上层架构,这可是跑在国产芯片万卡级群上的成本呢,那是绝对可控的。所以,这种能掌握在自己手里的生产力,你们不想去试试吗?

又是深夜发布,今天突然发现智浦开源了 glm 五大模型,没想到年前的开源大模型市场还会出来这个网站从前几天 cloud ops 四点六和 gbt 五点三 codex 的 发布可以看得出来,二零二六年商业大模型趋势将从能写代码升级成能构建生产机系统, 没想到的是开源大模型这么快就跟上了,熬夜测试了几个小时,本期视频我们就来看看 glm 五都有哪些亮点,以及都能做些什么事情。 二零二五年使用大模型编程的过程中,我发现虽然 ai 已经可以做出一个个很好看的前端页面了,但是真的让他去做一个生产能用的系统或者是一个庞大的任务,经常写着写着 ai 自己就圆不回来了。 但这次 glm 五真正能做出生产可用而不是单纯好看的系统,并且遇到复杂系统需求会自己拆解,可以长达数小时的不断自动运行完成这个系统不会出现越写偏离越大的情况。我直接拿两个案例来演示一下,工具用的依旧是 copy code 用的是质朴官方这个 model 的 key 配置文件的话,其他都和之前保持一致, 模型替换成 glm 五即可。很多公司应该都有自己内部的企业级后端脚手架,不仅能统一开发规范,并且开发只需要引入对应的依赖和无需关注各种中间件的配置细节就能直接使用。 我之前写过 glm 五来生成 glm 二十一加 spring boot 三的企业级后端脚手架,编辑提示词开始执行,可以看到这次 glm 五在分析完任务之后,会以对话的形式来询问生成项目的细节问题, 宇宙包含哪些模块的 start 给了多个选择,接着询问项目的认证框架,最后确定报名的生成规范,等这些全部完成之后,就开始任务的拆解。 glm 五将脚手架拆分成了十四个大的模块,制定了十五项具体的实施步骤以及最终的验证方式,没问题之后,就开始让 glm 五开始构建系统了。 glm 五这次针对多阶段长步骤的复杂任务的优化做得太好了,整整十五个模块,花了一个多小时全部生成完成。整个过程不需要人去做额外的辅助工作。 除了代码生成之外,当在验证过程中遇到翻译失败的情况,它会自动分析日制,不断修复代码并重复验证,直到全部跑通。我们可以来看看最后的脚手架项目,所有的 start 按模块划分,比如 base 模块定义了统一的异常,统一返回信息, log 模块引入至框架搞定日制生成规范,做好 trace id 生成逻辑以及日制切面等配置。同理,像 mybatics 统一配置 radix mq 的 配置都做成了 start, 要使用直接引入对应的依赖即可,这是真的能很好的用起来的项目了。 接下来再做个全站的业务系统,做一个支持高频发的购票系统,能支持秒杀业务的场景。这次让他把前后端的项目全都生成,前端使用 vivo, 后端使用 jdk 二十一加 spring boot 三。 这里有个比较有意思的点,一开始我在提示词中将 jdk 二十一写错成 jdk 八了, jmm 在 分析需求的时候就发现了这个问题,并给了我几组匹配的 jdk 和 spring boot 的 版本。 手动调整之后, glm 五给出了十分详细的技术报告。整体的代码生成过程还是和之前一样,不需要人去做额外的操作就可以生成出完整真正可用的代码。现在前后端代码就生成完成了,我们来看一下。 先看一下后端代码,秒杀业务的逻辑写的十分严谨,其中高密发解决方案中包含了多级缓存、库存预扣、业务下单、分布式锁结果限流、动态余额等方案。前端页面是一个包含购票和秒杀的 h 五系统,我们来参与一下。秒杀 手速快,直接抢到票。智普在官方公告中提到了国产芯片万卡集训这个概念,意味着这次 gm 不 仅模型能力强, gpu 底座也是国产自己的。 去年过年来了个 deepsea, 今年过年来了个 gm 五,不知道二零二六年大模型究竟能发展到什么地步啊?以上就是本期视频的全部内容了,我是鱼仔,我们下期再见。

ai 编程正在发生变化,过去大家更关注页面生成和代码补全,但现在前沿模型开始强调更长步骤、更复杂任务的执行能力,编程的重点正在从写代码转向构建系统。如果让开源大模型质朴, g o m 五从零 开始,帮我搭一个可以运行的创业系统,它能做到什么程度?具体来说,我想做一个 ai 职场技能订阅平台。这是一个具备真实商业逻辑的产品模型,它需要用户注册、登录、订阅逻辑、课程权限控制,这不是一个页面,而是一个产品。 打开智普官网,选择最新发布的 g o m 五模型,点击 agent, 点击全站开发,输入完整提示词并发送。现在,系统会开始自动规划与构建。在代码输出之前,模型首先进行任务拆解与数据库结构设计, 明确用户模块、订阅模块、课程管理模块之间的关系,并规划数据存储与权限边界。这一步体现的是构架思维,而非页面拼接。随后,平台构建完成,首页结构清晰。点击注册,立即注册, 输入注册信息,完成注册并登录。点击课程库,可以看到内置课程内容,并支持课程搜索内容筛选。 会员页面包含完整会员流程,点击立即开通,扫码支付后即可开通会员,再点击去学习,进入课程库学习课程。整个流程形成闭环,构建过程中出现环境与依赖问题时,系统能够根据日制进 行分析并调整配置,完成排错与部署。对我来说,这种自我修正能力比单纯生成代码更有价值。这次用智普 g o m 五实测创业系统,重点并不在于生成多少代码,而在于是否具备长步骤规划与系统构建能力。 从结果来看,它已经能够完成完整产品雏形的搭建。当 ai 能够帮助普通人把一个创业想法变成一个可运行系统时,编程的门槛正在被重新定义,这才是我认为最值得关注的变化。

这临近过年,我们的国产模型真的太猛了。前面我做过两期视频,用同样的 prom, 同样的真实项目任务实测,对比了 cloud office 四点六, gpt 五点三、 codex mini max 二点五。 那期视频做完之后,评论区就有人让我测试一下质朴新发布的模型 gom 五,咱也是加班加点的干出来了,而且据可靠消息,过两天还有 deepsea 微视版本的发布,到时候也给大家带来一期真实项目的一个编程实测。 求一个一箭三连不过分吧?在这里要插播一下,当我准备去测 gm 五的时候,我去官网去订阅它的 cooling plan, 直接受庆了,就我的套餐买不到。哇,那如果按 ipa 计费的,我目前也没有找到。他们可以用 insulate 的 一个协议来测试 gm 五, 所以我就用了 ppl 他 们家的去测试,他们是非官方首发部署的 gm 五,一个开源模型的一个权重,那兼容安斯罗比的一个协议接到可拉扣的里面也非常方便,因为我之前的评测的话,都是用可拉扣的去做的嘛。所以说为了保证公平公正,我们也是用同样的 工具方的编程任务去做实测。好,我们先去创建个 api k, 这里我就写 gm 五 确认,点击复制好,我们开始进入真实项目的一个编程实测环节,也是同样的 prompt。 哈,那第一个任务的话,是把 我们另外一个项目里面完整的一个用户认证体系,包括邮箱、谷歌认证登录、 github 登录迁移到我有一个新的图片生成 a 级的项目里面,同时让它去做一个落地页, 需要考验它的一个代码理解能力,架构适配能力,一个工程规范。这个任务还算比较复杂,之前用 mini max m 二点五去测的时候,它花了三轮对话才完成的,那 op 四点六跟 gpt 五点三 colex 的 话,它们一轮对话就完成了。 那第二个任务的话是我本地有一个 skills agent, 它是一个终端 ui 交互的,我们把它做成一个外部聊天页面,让它保留 syncing 工具,调用流逝输出。这个任务主要考验它全站开发, 流势输出以及 u i u x 的 一个交互能力。之前测试的话, off 四点六跟 g p d 五点三 codex 他 们一人赢了一局,那下面我们就开始做 g o m 五的一个测试。 这两个项目现在都是开启了一个沙杯进者的模式去探索已有的代码。那右边的话,它弹出来一个让我选择想用的框架以及 u i 主键库,我就按我一个常用的方式去选好,它提示已经成功了。 好,我们打开了他给我们写的这个 y y, 哈,他把这个 skills 是 放在右边的,就展示我已有的一些项目,来测试一下它可用吗? 好,我们开始让他去总结这篇文章,看一下他有没有去做到加载这个 skills, 然后加载完了之后去执行一些脚本去做爬虫,然后再去做总结。可以看到这边他已经加载到这一个 skills 了,下面去执行一些命令 总结出来了哈。整体的话完成度还可以的,就是他这个 ui 上稍微会差一点点,相较于那个 gbt 五点三 codex 的 话,这个完成的没有 gbt 的 好。 左边这个窗口就是 cloud off 四点六写的,这个 ui 上确实会差一些。右边的话是 gbt 五点三 codex 写的,当时我是把票投给了他,那么同时去可以看一下刚刚那个任务,他们俩其实都没什么太大问题,不是特别难,后端也就 thinking, 然后做工具调用, 可以看到都是 ok 的, 没有什么太大的问题。好,下面我们去看一下那一个纹身图 agent 用户认证体系那块它完成的怎么样了? 可以看到它这个已经完成了哈,可以看到这个代码它已经写完了,我们先看它能不能一次性去启动,之前 mini max m 二点五这一块是没有做到一次性启动,我们先开新开一个窗口去测一下。好,我们可以看到 g m 五的话,它目前启动是没有什么问题啊,我们再看一下它实际的一个表现, 我们看一下它整个 ui 表现哈, ui 还行,那我们看它的那个认证功能可不可以用。我们先试谷歌登录,谷歌登录的话,它这块放了一个小 bug 啊,它把那个毁掉的端口弄错了,我们改一下。好,我们继续。 好吧,登录失败了,这边还是有些问题,你看到它登录的时候认证失败了,应该是数据库的表结构那块有点问题,从这么看的话, gbt 五点三 codex 跟 op 四点六还是要猛一些哈,就是它们没有这些问题。 好,我们再来选择谷歌登录,刚让它修复了一下, 好,他终于可以了。哎,有个问题,他登录成功之后没有回,没有进到我们的那个主页面,登录成功之后没有进到我们 agent 里面, 这个算第二轮对话吧,看他第二轮对话能不能搞定好,我们点击登录选择谷歌, 他还是没有修复成功,他还是要再刷新一下,看没有再刷新一下,进来再给他描述一下吧。现在还有个小问题,当我们认证之后,他先跳转了到首页,我再刷新页面,他才进到了 a 镜的里面。 在他这是第三轮了,就证明他在这个方面其实跟 mini max m 二点五差不太多,他们俩再点登录。 我靠,跟这个问题杠上了,他还是修复不了啊,还是有问题,你能不能好好深入去修改一下,去思考一下。 这是我们第四次对话,让他去修改这一个小问题哈,这个表现呢,就有一点不是特别好了,我们再来,如果他再再进不去,我就不撤了,这个就默认他四轮吧。 好,我放弃了。这个问题我不测了,他修他,我跟他一直对话,他修不了。我们之前测 gbt 五点三跟 colorof 四都是一轮。 ok, 我 们下面来看一下评分,整体的一个打分标准是第一个,我人为的去检测他们的一个功能完整性以及 ui 的 一些情况。那代码架构,工程规范,我都是把他们所有的代码给到 gbt 五点三, codeof 四点六,让他们分别去 review, 然后去打分。 它现在结果是这样子的, off 四点六,在第一个项目用户认证里面,它是表现最好的,它在功能完整度以及 ui 落地上是表现的比较好,并且是一轮就完成任务了。但是它的代码架构跟工程规范会有一些小问题, gpt 五点三扣贷 x 的 话,它的代码架构以及工程规范会比它好,而且是这四个模型里面最好的。那它的功能完整度呢?因为它漏了一个谷歌登录的一个前端,所以说这个评分稍微低一点,那它 ui 落地页的话也会稍差一些。 上一期视频测试 mini max m 二点五这一边的话,他是花了三轮对话去完成了这个任务。那智普这边的话,刚刚你也看到了,其实四轮对话完下来之后,他还有一些小问题,所以说评分的话,他俩其实差不太多吧,我个人感觉哈, 我们来看第二个,把这个 skills agent 做成一个外部 ui, 那 这个项目的话就是 gpt 五点三 codex, 它在业务完成上逻辑错误控制以及 ui 代码质量工程实现都是最好的。那剩下这三个的话,大家表现的都差不多吧,大家有优势的地方也有他劣势的地方。 好,下面我们开始进入 agent 的 实测环节,把 gm 五模型接入到我这一个真实的一个 agent 的 项目里面去,它是做自媒体视频拆解的, 主要需要去看他的一个速度,拆解深度以及表达一个真实感。那整个 a 型的工作内容的话,就是先去下载视频,做音频提取,转文字,然后去做内容的结构化分析,爆款元素的提取,最终输出一个拆解报告。好,我们下面开始吧。好,右边也完了, 我们来简单看一下哈,他们两边格式上会有一些差异。在拆解上我们看他这个结构拆解这块,他这个时间出其实是有问题的,他做的不对,因为我这个是十二分钟的,他是做了 十四分钟到十五分钟,那 g m 五这边的话,它也有讲一个时间戳吧。啊对,你看它有二十分钟,还有三十到三十五分钟都来了,所以说我感觉它在整个 a 帧的表现里面不是特别好啊,它这个拆解的深度也不太够,我感觉相较于昨天我测那个 mini max m 二点五的话会稍微差一些。 好,我们下面总结一下。把 gm 五接到这一个自媒体视频拆解的 a 帧里面,它的一个表现情况哈,整体上的话速度偏慢,就响应速度不算快,可能跟当前用户量大有关系,因为都知道它这个套餐都卖的受庆了。第二个的话,它的拆解深度的话相较于 mini max m 二点五会有一些稍稍不足。 第三个的话,它的一个真实感稍微偏弱一些啊,这是整体的一个表现情况。好,下面我们进入整个的一个总结环节,在编程方面的话,一句话,在我的这一个测试项目里面, gbt 五点三 codex 表现最好,比 off 四点六会好一些。 glm 五跟 mini max 它们的体感接近,都是开源的嘛,并且它们的成本非常低,所以说 对于一个高性价比的一些开发任务的话,我觉得这两模型都非常不错。好,这就是这一期视频的所有内容了,如果你觉得这期视频做的不错,一定记得给我一键三连哦。那下一期视频的话大概率是做 deepsea 微四,有可能是在过年那一天发布,我猜测哈,据可靠消息。好,那视频就到这里了,大家拜拜拜拜拜拜拜拜。

兄弟们,今日,智普 ai 正式开源其新一代旗舰模型 glm, 五大模型从原本的能写代码升级成能构建完整的工程系统,像人类工程师一样去规划、拆解任务,然后一步步执行到底。从一个月前开源的 glm 四点七到今日开源的 glm 五, 模型参数量从三五五 b 扩展到七四四 b。 在 全球权威的 artificial analysis 榜单中, glm 五超越了 gpt 五点二 codex 和 gemnine 三 pro, 仅次于 oppo 四点六和 gpt 五点二 high 两个闭源模型,位居全球第四,开源第一。 glm 五在编程能力和 agent 的 多项主流机制中取得开源第一。 glm 五在编程能力和 agent 的 多项主流编程 z 点零 中分别获得七十七点八和五十六点二的开源模型 sota 分 数性能超过 jamni 三 pro 在 联网解锁与信息理解、多步骤任务执行、复杂多工具场景下的规划和执行、 模拟经营能力等方面均取得开源最佳表现。在测试一番之后,我发现 glm 五居然可以直接在云端自动部署 open club, 这就意味着你想什么时候做个应用,什么时候部署个 agent, 直接让 glm 五做就好,非常方便。 后面为了测试一下他的代码能力,我又让他去网上找了一些图片素材,在云端给我做了这样一款经典二 d 宝可梦,实现效果还是很不错的。总归来说,测了一大轮,我感觉 g l m 五的开发和 agent 能力是真的做到了 pk cloud opus 四点五不输的程度。而且相较于 cloud 系列的模型, g l m 五作为国内开发模型大部分的国人和计算机小白都能够接触到,没有任何的使用限制。这样一款好用方便的 opus 四点五平替,支持官网线上使用和本地部署,感兴趣的朋友们赶紧去试试吧!

最近智普大模型出名了,一月底在深圳策略会刚交流过,新发布的 g o m 五在 call 顶 agent 上表现非常好,洗车问题也是完全答对,发布没多久,官网的 call 顶直接卖断货,连 max 套餐都卖光了,相比对按贵的离谱的头肯费,性价比特别高。目前, g o m 五已完成于升腾、 摩尔县城含五、 g、 昆仑星、木兮、岁元、海光等国产算力平台的深度推理适配,通过底层算子优化与硬件加速, g o m 五在国产芯片级群上已经实现高吞吐 低延迟的稳定运行。别问我怎么知道这么多的,因为公司头官杨总这两天更新了很多朋友圈,大家赶紧拥抱起来吧!

给大家测试一下千万三点五,今天的话千万三点五已经更新,我们可以看到在他的官网中已经可以进行测试,他是千万三点五。 然后接下来我给大家全面的介绍一下,我们以这五个为例,第一个就是测试一下他的代码能力,第二个就是一个最近的比较火的一个问题,然后接下来是这个数列问题,然后是他的一个数学问题, 接下来是它的一个知识读补的一个通用性的问。我们首先看一下原本的这个网页, 我们可以看到这是一个亮白色的一个汇报,千万三点五的一个网页,我们会把它进行一个基于此进行一个春节风格的改造,这个是千万三点五 plus 的 一个效果。 接下来就是三点五的一个三九七 b 的 一个模型,我们可以看一下 这个模型是开源的,然后接下来我们对比下一个模型,这个是 cloud 写的一个, 接下来我们使用工薪后的 deepsea 进行看一下它的代码能力,还是比较适合中国人的审美的。 然后接下来我们看一下 jrm 五的 它的一个春节风格的改造。 好的这就是我们第一个模块,然后给大家介绍一下它的三个核心的一个架构,第一个是它的一个注意力的机制, 使用了百分之七十五的 g d n, 这个就是为了大局的遗忘啊,然后是精确的一个攻心,然后我们看一下, 接着就是它的一个 o m o e 的 架构,然后是一个多模态的融合,它支持一个原声的语音,然后我们的一个视频,还有一个文本,或者输入我们图片的一个输入, 这是我们的一个技术路线的对比。然后我们接下来进行第二个,我们进行测试一下这个问题,我想去洗车。首先是我们的 这个问题,然后我同时发送给了左侧的三点五 a 十七 b 的 开源模型和三点五 plus, 在 它的一个摆链的一个平台上,然后我与此同时我会给 deepseek 进行发送以及 jrm 进行发送。 我们看一下它的一个对比的效果。在这个界面里面我们可以进行一个官方的对比看一下,我们可以看到我们输入的信息可以包括文本,图片,视频,然后的话它输出的是仅仅是文本,因此 比如说我们可以应用在一个视频的自动剪辑上面,是可以进行使用这个模型的。接下来是它的一个价格, 最重要的是它的一个上下文,在 opencloud 里面,上下文决定着很多的一个复杂的操作,可以看到这个上下文 plus 的 话是 em。 然后这个开源模型呢是二百五十六 k。 然后接下来我们看一下他的一个结果,这个答案是一个经典的逻辑题,我们必须要开车去对很聪明的模型。然后接下来我们看一下 step, 很 简单直接的告诉我们要开车去。然后接下来是 g r m 的, 它依然没有思考完毕, 这也是我们经常测试遇到的一个问题,但是它的答案是对的。然后我们接下来进行下一个问题, 我们测试一个树列, 首先进行对于这两个模型的一个测试,当然的话我已经测试完毕,这是没有问题的。然后接下来到了 deepsea, deepsea 的 思考确实很快,我们继续, 我们已经看到 deepsea 花了四秒的时间思考完毕,还是非常优秀的。然后接下来是它的 开源的模型已经输入的结果,然后接下来是三点五 plus, 结束结果是正确的,然后接下来看一下它的 g r m, 我 们稍等它一下也是对的。然后接下来我们测试最后一个问题, 我们的结论是全部通过,我们看一下,首先给 g m 一个,然后是 db6, 然后是这两个模型,我们发送 我们看一下它的一个反馈结果, dbic 花了五秒的时间测试完毕,五秒。然后接下来看一下 三点五的模型还在推理,看一下 g r m 的 g r m 的 话也在输出, 我们可以看到他花了四十七秒输出了他的一个正确的答案, g m 五。然后接下来我们看一下三点五 plus, 还有他的一个三九七 b 的 一个模型还正在思考, 我们可以看到三点五的 plus 已经正确的输出了答案,可以发现这几个模型还是能力比较强的。 然后接下来我们进行最后一个,它是一个通用型的知识图谱的一个抽取, 我们打开我的项目到这里面,我们可以看到现在我已经处理完毕, 我们使用的是民法典的前两章,一个使用的是他的一个三点五 plus, 另一个使用的是千问的一个 plus。 然后接下来我们进行交互问答一个问题,首先对于这个 三点五的话,他已经给出了一个答案,我们可以把它给复制出来,然后通过一个中间的 ai 进行一个测评, 我们在这输入自己的问题,然后发送,然后我们看一下它的一个最终的结果, 我们可以看到这是相关的一个问题,然后是它的答案,为什么一定要这种方式呢?因为知识图谱对于我们的一个文本是一个抽象性的一个连接概念,它比普通的 red 更加的一个有上下文的衔接性,因此我们可以对比一下它回答的一个维度。 然后我们看一下它的一个三元组,这个是 千问三点五 plus 抽取的一个实体,我们可以看到是一千多个,然后接下来是它的一个 plus 的 模型,这个少一些。

免费了,不要三四九九,也不要九块九,不包手机的平替智普的开源项目 open auto gm, 配合它的开源模型 auto g o m 九 d, 咱们也能实现手机 agent 的 自由。我用手上这台安卓手机和 mac 电脑搭好的环境,让他来帮我购物, 这是执行效果,提示词是在淘宝上找到帮宝适黑金刚 l 码最低价的商品,加入购物车,然后发微信告诉我商品选好了。我来看看。这套开源方案和豆包手机最大的区别有三点,第一, 一,运行级别不同。开源方案只能在前台运行,豆包手机可以在后台自己默默的运行。第二,手机的便携性不同。开源方案手机和电脑必须用数据线连接,或者是在同一个 wifi 下,豆包手机可以只拿着手机到处走。三、智能程度不同。 开源方案接的是九 b 参数的小模型,能完成大部分的基础场景,但是极限智能比不上豆包手机。推荐两种适合的使用场景。 场景一,操作电脑忙不开的时候,比如快下班时提前叫车,当同事还在等车的时候,你已经上车回家了。场景二,需要在手机上多个 app 之间切换,收集数据,分析并且最终操作手机的场景。比如说在双十二购物选择最低价格商品时,我的微信收到消息了,任务完成。 牛逼!那么这么牛逼的手机, a 镜的方案会不会很难配置呢?完全没问题,我摸索了一套极简方案,只需要一行命令和一句话就能配置好。 首先看我这期视频,一行命令把 cloud code 安装好,然后打开 cloud code, 告诉他这句话,一路点同意就能安装完成整个配置过程,需要用数据线把安卓手机 在电脑上这么简单都能就能搞定,快去配置一套试试吧!你还有什么场景想用手机 app 来解决的?详细的安装过程和常见问题我会总结成文档,方便大家查看。关注我,玩转 ai 编程。

二月十二日,智普通过官微宣布上线并开源 g l m 五,参数规模从三五五 b 激活三二 b 扩展至七四四 b 激活四零 b。 目前 g l m 无以完成与华为、升腾、摩尔县城、韩五 g、 昆仑心、木曦、穗源、海光等算力平台的深度推理适配。 即日起, glm 五在 hugging face 与 model scope 平台同步开源,模型权重遵循 mit license。 同时,智普也确认此前在 open letter 市场上发布的开源模型 pony 即为 glm 五。

在海外社区猜测不断的匿名模型 pony alpha 被证实为今天智普发布的 glm 五的测试版,而 glm 五是面向 agentic engineering 打造的新一代的机座模型,在拥有常规的流式输出方阵、 callign、 mcp 等能力外,新增了适配 excel 的 ai 插件,可以生成格式表、修复公式错误以及跨工作表的自动操作, 那在编程能力跑分上相较于四点七有了较大的提升。而在与 cloud code 的 评估集合中,使用体验接近 cloud opus 四点五,那在价格上对比, cloud opus 四点五、四点六以及 gbt 五点二依然保持着国产模型的量大管保的特色,而且官方还有限定款。性价比方面。

重磅消息啊! g l m 正式上线并开源!据官方消息,与上个版本相比,其参数规模从三千五百五十亿扩展到了七千四百四十亿,包含大约四百亿活跃参数,使用的预训练数据量也从二十三万亿个 token 增长到了二十八点五万亿 token。 该模型不再只是完成简单的对话式协作、快速实验和原型实现,还可以完成复杂系统工程与长城 a 件任务,在各类日常工作场景中展现出开源 s o t 级 agn 的 能力, 真实编程场景使用体感直逼国际顶尖水平。目前, codebody 国内版已在 ide 插件 c l i 三端全面内置 g m 杠五,为你的开发流程深度赋能。

史上最强开源大模型 cloud 国产平替!不知道你有没有听说过以上这些响当当的名号?没错,今天我想说的话题就是这家通用大模型厂商智谱世界文明从碳基时代走向硅基时代,现在看来已经是不可逆的大势所趋, ai 也将彻底改变我们人类的生活方式。 而大模型作为 ai 的 大脑,他的智力水平将直接决定整个过程的快慢、工作的质量和效率。所以他从一开始就是各大科技公司的兵家必争之地。 当然,发展他所需要的投入必定是一个天文数字,没有实力的国家和一般的大厂根本就玩不起。 从二三年开始的切模大战,短短两年多的时间,现在真正还能打的已经没有几个了。大家所熟知的经常调用的也就是 cloud openai、 gemini、 mini max、 g l m、 deep seek 这几个, 但是在具体工程上,能进入开发者模型库的只有 cloud openai, 替补的有 mini max 和 glm, 另外三家我们不谈,今天只讨论智普公司的 glm 大 模型。 我第一次关注到这个模型的时候还是 glm 四点六,那时候网络上还有很多可以白嫖 cloud 和 gpt 的 方法,本着可以免费用最好的,为什么要用更差的这种心态,当时我对 glm 根本不屑一顾,试都懒得试。 随着后面两大顶级模型公司的监管加强,很多无限续杯的办法开始失效了。这个时候 glm 四点七出来了,跑分成绩好像还不错, 网络上那些 ai 营销号不知道是不是收钱了,更是吹得天花乱坠,我也抱着侥幸的心理把它加入了我的魔性库,然而灾难就是伴随着这种侥幸心理开始的。 我用它开发了一个同城租房的便民小程序,因为我局配置了 superpower 这项原技能,所以开发步骤是非常规范且符合工程美学的。项目一开始就在终端里自动调用了 brainstorm skill, 一 番详细的互动之后顺利生成了项目 prd。 到这个时候,我只是感觉到 glm 四点七的响应有点慢, thinking 的 顿挫感比较明显,不及 cloud opus 那 种行云流水般的让人舒心,也不及 gpt 五点二那种喷涌而出的快感。但是毕竟是平替嘛,又是免费的,还能说什么呢?所以我调整了自己的心态, 以上这些视觉瑕疵就当没看见,无非是丑一点嘛,只要能解决问题,完成任务,这些我都能忍。 接下来是 writing plan 环节,这个时候我已经感觉到不对劲了,因为他写的 plan 明显复杂很多,这不是因为项目更复杂,而是整个架构上就有重复笼鱼的设计。但是我压制住了自己内心的难受,脑子里不断给自己强调两个词,免费平替。 最后到了第一位环节,看着屏幕上列出了漫长的 to do list, 此刻我已经能预见到那种死山交付、运行复死的场景, 果然只有这个预期是没有落空的。在耗时三倍以上的等待之后,我抱着九死一生的最后一丝侥幸,打开了微信开发者工具, 用测试号运行了一下,总共就五个页面的设计和交互。且不说前端的颜值怎么样,他是哪哪都不对,功能有缺失,交互要么失灵,要么错乱。 到这一刻,我突然想起了网络世界的一句主训,只要中国人不骗中国人,这个世界就没人能骗得了中国人。都怪孩儿不孝,忘了主训,乱了阵脚,最终因小失大。 强忍着气氛和悲痛,在理智重回了我的大脑之后,我立刻把 g l m 四点七这尊大神毕恭毕敬地请出了我的模型库,然后掏出了我的 master card。 因为 cloud 实在是太贵了,而且容易封号,而我只是想重新找回我对 ai coding 的 信心,所以我选择了充值对环境更友好的 open ai 二十美元。超能力到位后, api key 创建,添加 gpt, 五点二上场全面接管项目后,立刻开始从头到尾检查优化,然后 rebuild。 因为毕竟是一个小程序项目,斩华雄何须温酒?二十分钟手起刀落,重新测试运行,一次跑通功能都在交互丝滑,只剩一些小细节,稍微给点提示词,微调一下,基本上就是我想要的样子了。要知道,我一直以来都是白嫖两大顶级模型的, 今天 open ai 能赚到我这二十美元,完全是拜 glm 四点七所赐。通过我的惨痛经历,我想跟兄弟们分享一个心得, 那就是贪小便宜吃大亏。因为我的侥幸贪心,把任务交给了不靠谱的智府来做,最终我得到的是时间的浪费、心态的崩溃和不得不请真神来改刀的额外支出。 对于普通的 ai 用户来说,很多时候你的项目并不大,也不是那么急,最佳选择就是等待每天能够白嫖顶级模型的免费投坑额度。虽然监管趋紧了,额度变少了,但是依然够你拿去做些小项目小工具。自普从一月八号上市以来,股价已经被炒到四百多了, 这两天又发布了 gm 五,各大营销号又在鼓吹它杀疯了。我去他的订阅官网看了一下,价格好像比以前还涨了一点, 订阅依然是需要靠抢,每天十点钟就会一售而空。我似乎有点看懂了这家公司,他最厉害的地方应该不是搞大模型,而是在金融市场搞钱, 因为大模型跟机器人不一样,这个作假比较难,毕竟有一堆测试等着你去打榜评分。所以研发投入肯定是要的,否则就拿不到像样的跑分数据。所以智普肯定是投入了一些科研费用的。 但是比较诡异的地方是,他收 cloud 三分之一的钱,能给人家三倍的计量,这里外里就是九倍的差距了。即便他的交付质量更差,按照目前的算力成本应该也是亏钱卖给用户的。 那么有没有一种可能,那就是这家公司选择把一部分资金投入到研发中去,拼命的去打榜,跑出好成绩,引发更大的关注和用户兴趣,然后再控制订阅的销量, 毕竟用户越多,投坑亏的就越多。但是每天脱销售庆,不仅能减少实际亏损,还能酝酿市场情绪。他可以自豪的说,你看我这么好的平替产品,每天都不够卖,从而推高股价,在资本市场中大发横财, 从卖投肯赚钱变成了卖股票赚钱,搞到大钱以后,再拿一点小钱出来,继续搞研发,跑分打榜,继续控制订阅消耗, 继续引发市场热情,然后继续炒卖股票,完美闭环,把开源节流玩的明明白白,到二级市场对股民挖心掏肺的开源, 在用户市场严控销量,降低损耗,狠狠的节流质朴,给传统的大厂们上了一课,创造了控制用户规模也能讲好故事赚大钱的先河, 从而真正实现了降本增效、名利双收的目标。当然,这只是我作为用户的一个猜想,那么有没有这种可能呢?应该不能排除吧。 至于现在这个 g m 五,我不做过多的评价。由于上一代四点七我已经对这家公司产生了免疫抗体,所以无论网络上那些 ai 营销号说的有多神,我绝不会让他在我的电脑终端燃脂项目开发的核心工作 最多只会在 ide 里面免费用它打打杂。看到它官网的这张单向跑分截图,我还有几句话想说,可能很多人在日常生活中没有调用大魔星的场景,一眼看过去,觉得 cloud opus 四点五得分八十点九, glm 能得七十七点八分,只差三分,感觉已经很厉害了对吧? 首先要注意的是, cloud opus 已经出了四点六了,四点五是它的上一代产品,而 glm 是 智普的最新模型,就是网传大杀四方的那一款。 其次,没有实际使用体验的人,直观的看这个分数差距可能没有什么概念,我结合自己的使用体验举个例子你就懂了。这就像两个高考分数,一个是六百分,另一个是六百三十分。六百分在报考志愿的时候是没有机会去报考排名前十的大学院校的, 只能填报一些普通的一本院校,而六百三十分就不一样了,清北复这可能未必有机会,但是川大、武大、南开这些名校还是有很大机会的。 我也曾是小郑做题家,参加过高考,我很客观的知道,六百分几乎是靠努力可触及的天花板,而六百三十分虽然只多了这三十分,他压根就不是光凭汗水和努力可以换来的, 这也是清北复制的含金量所在。这样说,大家就应该知道, glm 和 cloud 相差的那三分意味着什么呢?恰恰就是多的那三分,能把你的事交代的任务给办好做成。 当然,智普在二级市场搞到钱,这里面有天使,两大真神都没上市,面对 ai 这个四季风口,它就先上市了。这不叫占尽天使叫什么? 肯定还有高人指点吧。除了天时,还有地利。因为他生在中国,在国家战略上,任何我们想要的东西都必须自足可控。 很显然, cloud 和 openai 是 别人家的孩子,政审这一关他就过不了。至于人和,我作为用户第一个不敢苟同。理由很简单,因为他难堪大任。关键重要的环节,我敢打赌,你一定不敢让他上场,除非你只是想抬杠,而不是真的想得到一个好用能用的项目工具。 如果屏幕前的其他用户对我的使用体验也感同身受,那么就充分说明了这款大模型并不具备 ai coding 这个赛道的核心价值。因为用户连上场的机会都不敢给,你又何谈创造价值? 所以脱离实际价值在反观它的股价,请问那不是危险的泡沫又是什么?你可能会说,今年安斯洛佩克上市之后的市值会突破一千亿美元, 智普目前才三百亿美金不到,这才哪到哪?如果你有这个思维,那是非常危险的。得民心者得天下,真正能把大模型用于生产的用户,恰恰是可以持续付费的那个群体。 而这些人大部分没有国家战略层面所需要的安全顾虑,他们只想要 ai 能把任务快速的完成,并且高质量的交付,所以哪个模型能做到就用哪个模型,即便要支付一点成本,只要赚的比花的多就行。很显然,智普并没有这个价值。 而互联网是一个饮者通吃的生态法则,所以,即便 anselploik 将来市值一千亿美金,你认为是它的泡沫大还是质朴的泡沫大?我知道,立场不同的交流本质是在浪费彼此的时间, 有不同观点的朋友,你完全可以保留你自己的观点,但是我们可以换一种方式表态,如果明天我们都可以买卖港股,在目前的位置上,我敢做空,你敢做多吗?如果你不敢,那就是你嘴巴不同意,但是身体更诚实。

家人们,硅谷的风向昨晚彻底变了。当所有人都在比谁一句话生成网页更快时,真正的赢家已经开始。让 ai 花几个小时去重构一整个一流系统。 我让 g i m 五做个复古英尤,他没有直接铺代码,而是先思考再拆解,像极了一个真正的系统架构师。更夸张的是,中途遇到 a t i 时钟漂移的深坑,他自己看日制,自己定位,自己除写算法,全程无人干预。这种自我反思、自我抵 bug 的 能力。 以前我只在顶级闭源模型上线,这感觉彻底颠覆了过去我们用昂贵的闭源模型做大脑指挥,便宜模型去执行。现在 glm 五自己就是那个大脑逻辑和拆解能力直逼顶级产品, 但它是开源的部署,性价比拉满。结果就是,东方的程序员们已经开始用它替代 opps, 去处理那些最脏最累的活。当前的 ai 明显在两个赛道狂奔, ai 视频和 ai 编程。而在编程这条代表核心生产力的赛道上, glm 五的发布意味着一次世界级的跃迁。 在马年即将到来之际,我想说,中国 ai 正在拿回属于自己的位置。最后问大家,如果你需要一个能本地部署、能长时间自动工作、能从零搭建真实项目的顶级大脑, glm 会是你的选择吗?评论区聊聊你的看法。

最近有网友问我,世界大模型第一股智普的 glm 五发布了,说它是全球最好用的开源模型,编程能力堪比 cloud, 是 真的吗? 先说结论是真的,中国清华系智普最新的 glm 五模型已经在编程能力上比肩 cloud 了,全球开源模型中排名第一,虽然还有微小的差距,但是我们在快速的追赶中, 我是杨乐多大白话讲 ai 这款 glm 五到底强在哪?用三点跟大家说清楚。第一点,开源模型世界领先。目前这款 glm 五在全球的开源排名中,编程能力排名第一,综合能力排名第四, 也就是在全球范围内把代码公开,让大家免费使用的模型里面, g l m 的 编程能力是最强的。第二点,代码能力逼近顶尖水平,目前编程全球最强的就是 cloud 模型,而 g l m 五在编程的使用体感上 已经跟 cloud 相差无几了。第三点,他专门擅长处理复杂的任务逻辑,也就是一个不会代码的人,可以跟他进行多轮对话后生成一个复杂的产品,甚至不用写一行代码就可以实现。 我们客观的看,差距确实还存在,但是你要知道,一年前我们的 ai 代码编程能力比全球顶尖水平差了十倍不止, 而现在我们基本上跟他们近在咫尺了,并且 glm 还是一个开源的模型,开源的模型意味着全球的开发者都可以免费的使用它,并且在上面进行二次创作和修改。 而 cloud 是 闭源模型,只能通过付费调用它的 api 来进行使用,并且不能对其进行二次的修改和调整。做一个比喻啊, cloud 就 像是高墙内的武林高手,没有人知道它是怎么实现的, 他的武功不外传,你们只能看。而 glm 五呢,就像一个武林盟主把所有的武功秘籍全部都公开了,那你想想谁的影响力更大,谁会进步的更快呢? 这就是中国 ai 的 速度,中国至普系的 glm 一 年时间走完了别人三到五年要走完的路,中国在不断的这,这背后就是中国的 ai 的 硬实力,也是中国 ai 选择开元路线的再一次胜利。

谁说国产 ai 只会开会?郑州研讨会才刚散场,真正的重头戏就开演了。二月十日,光核组织集结头部算力模型厂商,启动联合公关,打造算力加模型加场景闭环。 二月十一日,智普 ai g l m 五开源海光 d c u 同步适配,直接把闭环落到了实处。 g l m 五拿下开源 s o t a 海光,实现 day 适配, 双方深度协同,让国产算力的价值充分释放。这也正是郑州会上倡导的开放生态系统公关的核心内涵。从百家联工到企业落地,国产 ai 生态正在全面开花,未来可期。

t t c a i 资讯分享开源模型开始接管工程智普正式开源 g l m 五参数扩展至七百四十四 b 激活四十 b 在 coding 与 agent 能力上达到开源 sota artificial analysis 全球第四、开源第一 v bench 等多项基准领先开源模型长城 agent 任务执行能力接近 cloud ops 四点五,并已完成国产芯片适配。大模型竞争正从写代码升级为写工程 agentec engineering 进入实战阶段。记得点赞关注哦!

关注大模型和算力这么久, g l m 五加海光 d c u 这次真的戳到我 g l m。 五全球第四开源第一长城 agent 能力拉满海光 d c u 靠自研 d t k 软件站做底层加速, 高吞吐低延迟,直接拉满 d 零适配,这不是拼速度,是两家真的提前协同深度对齐了。国产算力不再是配角,而是和大模型双向成就自主技术战终于站起来了。