我只花两小时,用智谱出的 g l m 五点一模型,就做出了这个能快速搜集全网高价值大学专业课学习资料的软件。只要你上传自己的培养方案 pdf, ai 就 会自动解析出你大学四年需要学习的全部课程。随后他会根据我们给他预设的信息源,以及他能够解锁到的其他渠道,去搜集所有高质量的课程资料。中国的、官方的、民间的、文档的、视频的都有。你可以通过资料来源、知识点、 资料形式等等分类方式快速查找这些资料。对于所有资料, ai 都会为你生成一份儿摘药,方便你快速决定要不要仔细研读。软件儿的所有源代码和开发过程中用到的奇制词。最真实的开发记录我都放到了 github 上,大家可以随意学习二次修改。 接下来我就给大家实战教学一下怎么用可拉的 code 和智普最新的 g r m 五点一模型,从零开始,快速把这个像模像样的软件给做出来。第一步是核心功能实现,我们心里要有一个大概的设计,软件的核心功能和页面基本布局想好就行, 其他的东西都可以,后边再一步一步完善。我把初步的想法先告诉了 g l m 五点一,把思考程度调到最高,然后就开始期待它的发挥。一个很有用的经验是给大家一些能参考的东西。我前段时间用的一个开源的 r s s 阅读器就非常不错, 这种三栏式的设计我非常喜欢,我就把这个软件的代码也喂给了 g l m 五点一,让他参考。下边是我用到的完整提示词,大家可以截图保存一下。经过 g l m 五点一四十多分钟的全力奋战,最终出来的结果也很是不错,其中有相当一部分时间我看他都在理解我给他的科研代码, 这个工作态度我非常满意。我自己倒也没闲着,前面用 ipv 看雍正王朝,右边的另一台电脑上也用了 ai 在 跑着我的科研任务基本功能一轮做好之后,第二步就 是额外功能的添加。比如这个软件现在的 ai 程度我觉得还不太够,我希望能够自己来配置,让它用什么样的大魔性 a p i。 比如效果不错的智普 g l m 五点一。 另外我又想到了一个新功能,让用户上传自己的培养方案 pdf, 然后自动解析有哪些课程。要是能够预先设定一些我觉得比较权威的信息源,是不是搜索的效率还能再高一些。把我之前视频里讲的资料获取途径都放在这个软件里,就非常不错。我把我想到的好多新功能都一股脑的告诉了 g l m 五点一。开发过程我真的感受到了一种跟 g l m 五点一并肩作战的快乐。 最后一步就是细节的调试与完善,大操快办总是容易产生一些小小的问题,这个用世界上最贵的大模型也避免不了。不慌,我们就把这些问题都一个一个找出来,然后告诉 g l m 五点一就可以了。什么软件窗口上方无法拖动? api 配置之后测试连接不太成功, ai 专利提取不准,这些小 bug 的 修复速度都很快,只要你能够给 ai 指出来,喝口水的功夫就解决了,又是经过了一段我一边看雍正王朝, 一边等 g l m 五点一给我出结果的时间,这个软件终于是比较符合我心目中一点零版本的样子了,可以拿出来发布。最后给大家总结一下这三步,就是从零开始歪不扣定,做出一个比较可用的软件产品的通用步骤了,希望能对大家产生一定的参考价值, 大家千万也不要被我讲的步骤给束缚了。在跟 ai 一 起工作的时候,我们完全没有必要按部就班,未来我也希望大家能跟我一起把这个软件做得更加完善,我是希望大家都跟我一起歪不扣定的好同学。欢迎大家在评论区参与讨论,补充更多信息。
粉丝19.3万获赞110.3万

当所有人都在卷龙虾的时候,智普悄悄发布了 glm 五点一,在最接近真实软件开发的 swebench pro 精准测试中,刷新了全球最佳成绩, 超过了 gbt 五点四和 cloud opus 四点六,并且冲上了全球开源模型的冠军宝座。今天我们来实测一下 glm 五点一的编程能力到底有多恐怖。 我用它做了一个猫言喵语 app, 用户可以通过上传猫咪的照片和叫声,判断出猫咪的心情状态。在整个开发的过程中,我发现 glm 这是升级的五点一版本,有一个特别适合编程小白的亮点, 以前做 web 扣点提示词写得不够详细, ai 就 很容易误入歧途,开发出来的项目和你预期差了十万八千里。之前火过一阵子的 skills 概念, 本质上也就是给 ai 套了一层规则约束,让它在规定范围内执行任务。但对于非专业人员来说,这些概念本身就是门槛。一开始我只输入这样一个想法, 没有任何额外提示词。一句话,开发来测试 gln 五点一的真实代码能力,包含需求理解、架构设计、 代码生成、质量长、任务执行、调试与修复等等。 glm 五点一拿到需求后,没有着急写代码,而是先梳理了整个项目的技术方向,前后端分别适合什么技术站, 并给出了最合理的推荐方案。当然,你也可以换成自己熟悉的开发方式。这个项目有两个核心难点,猫咪照片的识别和叫声的音频特征提取。 我们可以通过 a p i 的 方式,调用 g l m 大 模型的多模态能力去完成这两项功能。音频采集方面,同时支持实时录音和文件上传。方案确认 选择 safem 提交 g l m。 五点一并没有立即开始写代码,而是先进入规划模式来设计项目架构,接着给我们输出了一份非常详细的架构设计文档,从前后端技术栈选型、 项目结构到实际开发的每一步流程都给我们列出来了,甚至连 ai 大 模型的提示词都设计好了。确认没问题后,正式进入开发阶段。按照既定计划, glm 五点一完成了项目目录初步化和前后端代码编辑。我们先来试试第一版的效果。上传猫咪的照片和叫声开始分析。 ai 准确地提取到了照片和音频中的猫咪特征, 突出了情绪标签,整体还是比较准确的,但当前的流程还是有缺陷的。 glm 五点一也给我们提出了优化建议。 ai 并不是直接分析音频本身,而是在拿到音频数据后,只提取了时长和音量,然后把音频转化成文字, 由 glm 结合图片和文字描述去综合判断。但猫咪不是人类,总共只会说一个字, 分析文字描述根本没有意义,而且音频特征提取太简单了,只提取了时长和音量。那我们让 glm 五点一去迭代开发,优化一下项目输入有没有免费的音频分析工具。它通过联网搜索快速列出了三套方案, 并给出了最优建议。 librosa 是 python 里目前最流行的音乐音频分析库,它可以提取声音中的各种关键特征,辅助 ai 精准判断猫咪的前戏状态。确认方案后, glm 五点一进行了二次迭代开发,衣袋裤的安装、金融性处理以及每一处代码的修改都清晰地列了出来。又经过几轮交流,我让 ai 把音频以图形形式展现出来,加上了音频波形图,频谱图 没有频率到谱系数,这些图形既能辅助 ai 进行数据分析,也能让结果呈现更加直观,这样整个项目就比较完美了。 整体测试下来, g l m 五点一在几个方面的表现让我印象深刻。三方库和工具的调用稳定,没有乱用或调错的情况,任务推进节奏有条不稳, 从规划到开发再到迭代,逻辑清晰,响应速度相比上一代也明显更快了。一句话,开发加二次迭代都能按照预期完成,没有跑偏,听懂人话,做得更快。 glm 五点一就非常适合那些需要多 skill 协调调用和持续执行的真实工作流场景。

我让两个 a i 谈恋爱了,你看小林说学习是自己的事,虽然早恋,但三观很正啊,这边还有内心独白, 成绩好一点,以后找工作也会轻松一些。我天, a i 也焦虑,找工作吗?所有的对话都是两个人或者说两个模型实时进行的,做这个 a i 情侣恋爱模拟器花了我三个小时, 不对,是花了 g l m 五点一三小时。我只做了一件事,扔给他一个需求,然后离开。三小时后回来,他交付了一个完整的多智能题 游戏系统。七 l m 五点一键和风很大, s w 一 八七 pro 拦了全球第一,超越 cloud opus。 四点六是国产模型首次在工程能力上对其顶尖闭源模型了,又是全球第一个验证八小时持续工作能力的开源模型。 那么所谓长时间持续工作能力加上工程能力,到底应该长什么样?我理解的工程能力不是写完代码就结束,也不仅是碰到 bug 会诊断、定位、修复,而是发现问题会主动优化,甚至会质疑自己的设计,推翻重来,这才是工程师的工作方式。 同时在长时间持续工作中,能完成规划、开发、测试、修复、优化的完整闭环,每个环节都不掉链子。 回到这个三小时的任务,你就能看到这些能力是怎么体现的了。前面他花了十三分钟理解需求,追问细节,给出实施计划。当 pos 八千被占用时,不是停下来等我处理,而是主动换端口继续推进。遇到复杂 bug, 情侣不说话,他开始多维度诊断, 找到三个问题后重写调度器更新,依赖修复前端全程自主完成,到最后了结果发现默认素材不符合需求,决定废弃改用、程序化渲染, 连续完成五项重型任务。你看规划、应变、调试、优化、交付这三个小时里,他完成了一个完整的工程闭环,中间没有人工介入。 s w e bench pro 测的就是这个。在真实 get up 仓库里定位并修复高难度工程 bug。 刚才你看到的那些能力 诊断、修复优化就是他那全球第一的原因。全球第一个验证八小时持续工作能力的开源模型, 关键不是他能写多少代码,而是他会实验分析优化的完整闭环,碰壁时自己换方向,出错后自己修复 g o n。 五点一之后, ai 的 交付单位已经从一个回答变成一个项目。试着给他一个指令,然后离开几个小时回来看看他交付了什么,可能是一个你都想不到的惊喜。

你能想象吗?刚刚在 swbench pro 这种专门测真实工程能力的基准里,超过 cloud opa 四点六拿到索塔的模型,居然是一个国产模型, 并且它已经开源了,它就是智普的 glm 五点一。那更关键的是什么呢?它这次呢不只是更会写代码了,而是在长城任务处理的这个场景也有了重大的突破。 你可以看到官方的一些测试 case 当中,它可以自己连续工作七八个小时,从拆解需求,写代码,调试优化, 全程都可以自己往下推进。那说起智普呢,其实我从 g l m 四点五这个时代呢,就开始使用它们家的这个产品,从一开始它可以去完成一些小任务,到后来它能够去完成一些中等的复杂一点的这个任务,再到后来它们家的这个 coding plan 直接限售了 啊,我可以明显的感觉到,智普的这个模型呢,确实是越来越强了,在不断的去追赶并且缩小它与海外的这些币源模型,顶级模型的一些差距。那所以说今天这个视频呢,我就想用这个 glm 五点一来做一下真实项目的测试,看一下我们这个国产第一,台元第一到底好不好用。 那这个呢,是我自己在用的一个小工具啊,它是一个视频下载器,平时呢我就拿它来下载某音啊,小破站啊,还有这个油管的视频。所以说今天呢,我就想用这个 g l y 五点一把这个工具网站做成一个完整的副业产品。那视频结束之后呢,这个网站应该会具备 登录注册啊,积分系统,视频下载、文案提取以及 ai 改写这方面的能力,并且呢我想的是在改写这一块啊,用户可以去按照平台啊,字数啊,受众啊风格去定制, 还可以直接去与 ai 对 话进行非常详细的定制化的一个改写。然后啊,就是艾米后台也得一起给我做出来啊,包括这个用户啊,订单啊,积分啊,操作记录等等,这些都可以非常轻松的进行一个管理。所以说这次任务啊,这个视频 g l m 五点一能否顺利完成,我们拭目以待。 那这次呢,我们就在 cursor 当中去使用 g l m 五点一啊,因为我之前用的是这个 pro 套餐,所以说呢,我可以在第一时间去体验它们最新的模型。接下来的话呢,我们就参考这篇文章,把 g l m 五点一啊配置到这个 cursor 里面去,随便说句话,看到回复呢就表明已 经接入成功了,那我们接下来输入这段提示词,那如果有参考图片的话呢,也可以在这个时候直接贴给他。那这边呢,我再跟大家分享一个小技巧,就是不要让它说一下自己对这个需求的理解啊, 以及他目前有哪些地方。是啊,需要和我们二次确认的,看一下他到底能够理解到什么样的一个程度啊,是不是和我们已经对齐了, 那这个阶段我们和 ai 全部拉齐以后呢,再让他继续往下做,整个后面的这个过程啊,就会丝滑很多。那我中途呢,还会去让他帮我想想产品的一个功能有没有什么漏洞啊,有没有闭环啊,包括商业化运作这方面啊,有没有什么不足等等,但凡是在这个产品的开发过程当中,你可以想到的任何问题,你都可以在这个阶段和 ai 沟通, 等到他给出了这个详细的实施方案,完美匹配了你的这个阶段的需求啊,你就可以让他开始工作了。那我们第一阶段确认完毕了之后呢,他这边也没有开始直接写代码啊,而是呢先帮我们拆了一整套完整的这个任务流程。 那这一点呢,我觉得是非常的关键啊,因为真正的这种工程能力啊,其实不在乎你写的有多快,而是你能不能够把一件复杂的事情拆的非常的细致啊,拆的非常的对。那接下来的话呢,我们就让他一块一块的往下做啊,比如说我们可以先做视频下载这一块 啊,他会先去确认我们想要去支持的哪些平台,然后呢给出这个接口设计和处理的一个流程,再到这个文案提取啊,他也会去考虑用什么样的一个方式来解析字幕啊,是直接抓接口啊,还是做 啊这个视频转文本的这样的一个处理。那到了 ai 改写这里呢,他甚至还会去帮我们把这个改写的策略啊设计了出来,我觉得这些其实已经不是单纯的去写代码了,做这个业务实现,对吧?而是他开始在帮你做 啊,非常详细的这种产品的设计啊,在积分系统这一块,其实我一开始也没有给到他一个非常详细的这种扣减的规则, 只是说我希望用户在使用某些功能的时候呢,可以去消耗他的这个积分,然后他自己呢就帮我设计了一整套的这种构建逻辑啊,你比如说下载消耗多少啊?然后改写对话,改写消耗多少?不同的这个模式呢,还会有一个差异化的计费。那虽然说呢,这个也不一定是最终的最完美的这个解决方案吧,但是呢,他至少是 在县级段给了我一个可以直接拿来用的出版整个过程下来,我最大的一个感受就是他不是在等你指挥,而是在主动推进,很多时候我们只需要给他一个方向,然后他自己呢就会去把中间那块给你脑补上。另外我还发现了一个事情,就是我这里面不是会 用到 ai 大 模型做这个改写和对话嘛,那我发现呢,我之前的这个 coding plan 可以 直接拿来用,也就是说我们平时携带嘛,包括这里的 api 调用,都是可以走同一个 plan, 甚至呢我们还可以把这个 g l m 五点一接入到龙虾啊,也是同一个 plan, 性价比特别的高。 那最后呢,我又让它基于现有产品做了一套后台管理系统啊,比如说这个用户列表啊,订单记录啊,积分流水啊,甚至还有这里的改写记录,对吧? 尤其是下面的这个系统配置,这里啊,我们之前的这些改写功能,其实用户选的各种策略,它背后对应的都是提示词,那它增加了很多配置的一个类型,就是尽量让这个配置表可以在未来做到大局通用。那比如说这里的任务类型啊、状态啊、平台啊、风格啊, 其实都是走的刚才的那个配置表。那这一块我觉得还是挺加分的啊,因为很多 ai 它到了这一步可能就开始摆烂了啊,或者是它自己自由发挥了。 那你像这个 glm 五点一呢,它能够在这么长的一个任务当中啊,在你没有明确要求的这种情况下面,把整体的这个系统往可扩展、可维护的这个方向去做设计啊,我觉得是非常的难得。 那比如说你后面如果想要去新增一个品牌,新增一种风格,新增一种改写的策略啊,你直接在这里加一个配置就 ok 了啊,非常的丝滑。那这一点呢,我觉得其实已经有点接近正常后端工程师,它在做 呃系统设计的时候这样的一个思路了啊,就是非常的有怎么说啊,活人感。那当然这个中途呢,也是会出现一些这样或者是那样的 bug 啊,比如说这个视频下载失败了,然后封面无法解析等等等等。但是呢,我们都是可以通过和 ai 描述问题来解决问题的。那 做完这个项目之后呢,我其实有一个挺明显的感受啊,就是 ai 编程这件事情呢,真的是在发生一个很大的变化。以前呢,我们用 ai 可能是让他去帮我们写代码,做代码补全,但是现在的话呢,你是把一个完整的任务直接丢给他, 让他自己去做,从理解需求到拆解步骤,再到执行修问题,最后交付结果。这中间呢,其实我们已经不再是写代码的那个人了啊,而是更像一个分配任务的人。那这也就是大家所说的这个 long horizon, 当 ai 可以 自己去持续工作几个小时甚至更久的时候呢, 它所改变的就不是一个简单的效率问题,而是在颠覆我们整个做软件做项目的一个方式。所以说如果你现在也在做自己的项目,不管是工具还是副业啊,真的是可以去尝试一下这个 g l m 五点一这个最新的模型。 ok, 那 以上呢,就是本期视频的一个全部内容了,感谢大家的收看,我们下个视频再见, peace。

别再盯着全 g p 的 尾灯看了,国产大模型来了个 g r m 五点一,直接拔高了国内 ai 大 模型的能力。发师之前俊仔也用过多个大模型,最大的痛点是什么?短视,也就是长城任务根本干不了, 要么只能陪你聊聊天,要么执行个简单指令。第三步他就忘了第一步的需求。但智普这次发布的 g r m 五点一核心绝技,就是能拆解任务用的工作记忆和逻辑推理能力,将长城任务拆成阶段目标,一口气把一件复杂的事从头做到尾。来 看这个实测,给他一个需求,搭建一个带用户系统和数据看板的内部工具,看他先花时间规划输出技术方案,然后一个阶段一个阶段推送,中间有一个接口问题,他自己排查修复,全程我没有介入, 最后交付的东西能跑能用。再看看这个实测,以前要做这个,得切好几个软件写半天,现在直接给 g r m 五点一下一个指令。他 不是只给你写一行代码,而是规划了整个工程,从底层逻辑到 u i 设计,他自己在脑子里淘了一遍,然后直接把成品甩给你。这哪是写代码,这是在指挥千军万马。俊仔真觉得技术变迁正在指数级加速啊。当 ai 能处理跨文件、跨时间,甚至能自我纠错完成长城任务时, 程序员仅仅会写代码,不是护城河了。未来区分普通工程师和专家的可能不再是敲键盘的速度,而是你定义问题,驾驭这些超级智能体的能力。智普这一步迈得很大,但也提醒了我们,是时候升级自己的操作系统了,是时候接上智普新发布的 g r m 五点一的 a p i 了,它能颠覆你的工作流。

大家好,今天我们来深度解读智普刚发布的 glm 五点一,一个能独立工作八小时,编程能力达到 cloud opus 九十四点六的开源模型。这不是渐进式进步,这是开源模型的范式跃迁。先来看智普这半年的迭代速度,从去年底的 glm 四点五,到今年初的 glm 四点七,再到二月的 glm 五, 然后三月二十七号 g l m 五点一就上线了,距 g l m 五发布才一个多月。而且智普这次发布非常低调,没有发布会就在用户群里说了一句, coding plan, 全体用户直接升级,但成绩是实打实的。 artificial analysis 综合能力开源第一, s w e bench 代码工程能力开源第一, open router 用量开源断档第一。三个维度同时登顶,说明这不是偏科,是全站突破。 g l m 五点一最核心的突破不在于能回答多难的问题,而在于能独立工作多久。过去所有模型的交互模式都是分终极的,你给指令,他给回答, g l m 五点一打破了这个限制,能在单次任务中持续自主工作长达八小时,完成规划执行、迭代优化的完整壁画。 具体来说,他在三个方面实现了质变,第一,长城规划与目标保持,你给他一个目标,他自己拆除执行路径做到第十步,还记得第一步定的约束。第二,多工具协调,不是会做一步,而是能跑完全程。第三,上下文整合,不再出现做到一半忘了前面约束的问题。 来看技术架构, glm 五点一的总餐数量是七百四十四币,采用二百五十六个专家的猫易架构,但活跃参数只有四十币, 相比上一代活跃参数仅增加了八 b, 能力却实现了飞跃式增长,这说明架构效率极高。三大关键技术,第一, deep seek space attention 稀疏注意力机制,在保持二百 k 上下文的同时,大幅降低部署成本。第二, slime 亦步强化学习框架,这是质朴自研的 r l 训练框架,代号史莱姆已经开源,它让模型能在优化碰壁时主动切换策略,而不是反复尝试同一个方向。 我们把三代模型放在一起对比, glm 四点七十三为五 b 参数,三十二 b 激活定位高性能编程模型, glm 五完成了从三百五十五 b 到七百四十四 b 的 架构跃迁,编码评分三十五点四,而 glm 五点一在同样的七四四 b 架构下,通过 slm 二 l 和 dsa 的 技术创新,把编码评分拉到了四十五点三,相比 glm 五提升了百分之二十八。长城任务能力的变化最为显著, g l m 四点七是分钟级, g l m 五也是分钟级提升,而 g l m 五点一直接跳到了八小时级,对,其目标也从 s n a 四点五一路追到了 opus 四点六。这印证了一个重要趋势,模型能力的提升不再单纯依赖参数规模, 而是靠更聪明的训练策略和架构优化。来看三个震撼案例,第一个睡前交给 g l m 五点一,一份架构草图。 早上醒来,一套完整的 linux 桌面系统已经做好了,历时整整八小时,执行了一千二百多步,产出了桌面窗口管理器、状态栏、应用程序、 vpn 管理器、中文字体支持游戏库等等配套文件四点八兆,这相当于一个私人团队一周的开发量,而且全程没有人参与 模型,甚至自己写了回归测试,还跑过了第二个案例,更硬核 g l m 五点一对向量数据库做了六百五十五轮自主迭代优化,它不是简单微调参数,而是完成了一整套优化链,从全库扫描切到 i v f 分 桶, 引入半精度压缩,加入量化粗排做两级路由,再到提前减脂,每一次跳跃都伴随着短暂的性能下降。 因为模型在探索新方向时暂时打破了约束,然后再调回来,这个打破修复循环本身就是有效优化的标志。最终查询村土从三幺零八 qps 推到了二幺四七二, qps 提升六点九倍。第三个案例,在五十个真实 m l 计算赋载上, g l m 五点一自主编写 treaton kernel 和 cody kernel, 运用 cobbloss 融合 shared、 memory、 tiling、 cody graph 等优化,超过二十四小时不间断迭代,最终取得三点六倍几何平均加速比。而 touch 到 compile 的 max auto tune 模式只有一点四九。 在 gpu 内核优化这个高度依赖专家经验的领域, ai 已经展现出端到端的自主工作能力。来看硬指标,在 s w e bench pro 最接近真实软件开发的精准测试中, g l m 五点一刷新全球最佳成绩,首次实现国产模型超越 colog 的 oppo 四点六。这个测试要求模型在真实 github 仓库里定位并修复高难度 bug。 综合三项最具代表性的代码评测,平均结果,全球模型第三,国产模型第一,开源模型第一, 量化到 cloud code 编码评分, glm 五点一拿到四十五点三分。 cloud opus 四点六是四十七点九分,达到了 opus 的 百分之九十 四点六,相比 gim 五的三十五点四分提升百分之二十八。最后看价格, glm 五点一的输入价格,每百万 token 只要一美元,输出三点二美元, 输入成本是 cloud opus 的 五分之一,输出成本更夸张,仅为 opus 的 七分之一点八。 gpt 五点四的四分之一,简单说就是百分之九十四点六的 opus 能力。 百分之二十的价格,有意思的是,智谱同时还涨了百分之十。涨价后, g l m 五点一在抠定场景的价格已经接近 cloud sonic 四点六,这是国产大模型首次在核心场景与海外头部厂商价格对齐。敢于涨价,本身就是对能力的自信。 g l m 五点一已全面开源 api, 通过 big model 开放平台和 z a i 接入, z a i 的 聊天产品已经上线 g l m coding plan, 全部用户都可以使用, 兼容 cloud code、 open code 等主流开发工具,开源权重在 github huggingface 和 model scope 上都可以下载。总结一下,从 glm 四点七到 glm 五,再到 glm 五点一,开源模型正在经历一条清晰的能力跃迁, 从效率工具到大众创造,到自主执行,再到持续交付。 glm 四点七让模型会写代码, glm 五让模型像工程师一样执行任务。 glm 五点一则把目标推向了让模型像资深工程师一样持续工作八小时, 交付完整成果。长城任务是检验模型智能的下一个标准,当一个开源模型能独立搞定中高级工程任务,我们需要的不仅是更强的模型,更要重新思考人类工程师的不可替代性在哪里。感谢观看,我们下期再见!

智普 g l m 五点一昨晚正式发布,不仅是全球首个能持续工作八小时的开源模型,还在代码精准测试中首次超越了 cloud。 四点五 opus, 整个开发者圈子都炸了,国产大模型真的在代码逻辑上捅破了天!智普 g i m 五点一在 sweetbench pro 精准测试中实现国产模型首创 opps, 它最离谱的地方在于支持八小时及持续工作,这意味着你可以把它丢在那,让它自己修一整晚的 bug。 聊完了模型, anthropic 刚刚推出了 manage 的 agents 托管服务,把沙箱身份验证和多智能体编排全打包了,每绘画小时只要零点零八美元交付,提速了十倍。与此同时,硅谷华人团队做的 creo 冲上热搜, 它主打消费级 agent harness, 零门槛固化工作流任务,准确率百分之一百,让普通人一句话就能搭出永不停歇的 agent get up 这边更离谱,生化危机女主命了,竟然开源了一个 ai 记忆系统 memphis, 用记忆供电法在本地组织一千九百五十万 token 的 长记忆, 解锁效率提升百分之三十四,完全不走云端。微软发布最新报告, web coding 正式成为主流趋势,开发者从写代码变成了选输出的编辑 pm, 甚至开始做技术活。 redtail 预言,软件基础设施必须为 agent 彻底重写。视觉模型那边出了个狠角色,神秘模型 happy horse 一 点零涂榜 erina l 分 数一千四百零九刷新记录。据传是阿里张迪带队,原声音视频同步 五秒,一千零八十 p, 片段推理只要三十八秒。美团 g n 零六团队发布的 ai 浏览器 tabit 也进公测了,他最懂上下文,支持各家大模型自由切换,还能一键分享自动化妙招, 简直是白领的降维打击工具。视线转向硬件,马斯克联手英特尔开启 terafap 项目,目标是每年一泰瓦算力是现在的五十倍,他甚至打算把百分之八十的算力部署到太空, 彻底解决地面的电力焦虑。亚马逊 ceo 在 股东心里也开火了,自家 ai 芯片 chine 业务 a a r 已经冲到两百亿, chine 四还没上市就被预定空了,老黄的压力看来是真的不小啊!硬件即刻们看过来!寻影泰尼三发布了六十三克重,支持四 k 录制和 omni 锁定跟踪,即便你在人群里乱窜,画面也只会盯着你一个人, 简直是户外直播神器!最后,药素科技拿到了两亿 a 轮融资,他们把 ai 加器官芯片嵌入星耀开发要米预测准确率竟然达到了百分之一百!制药行业告别动物实验真的不远了! 从 g o m。 五点一的八小时持久战到 happy horse 的 视频图宝 a e 的 进化速度已经让摩尔定律都感到汗颜了。观众老爷们,你们觉得下一个被 agent 彻底重写的行业会是谁?评论区见!

今天晚上九点钟左右,最新的 clock code 公布了一个 gm 五点一的一个公测的一个模式,然后我就赶快的去重新新建了一个 api, 然后用了这个 gm 五点一, 感觉还不错,确实它在这个工具调用,还有它在任务运行上 以及长时间处理任务的这个能力上都要比 gm 五,就是我最近用比较多的一个模型要强。可以看到我问了他一个问题,我问他他的优势在哪地方, 他告诉我在工具集成上,编程能力,还有一个多智能体写作以及持久记忆上可能会有一定的优势。 然后直接所以我直接让他连一个这个我的 unity 的 一个 mcp, 让他在这下面帮我去做一些跟游戏开发相关的事情, 然后发现他很快的就习得了一个 skills, 而且他应该是进行一个并行的这么一个模式, 所以我觉得现在这个模型的一个趋势就是会越来越强,在这个长期记忆和这个工具调用上都会越来越好。 嗯,但是呢,有个问题就是要看你的需求是什么样子的,如果你是专注一个 coding 的 这么一个情况下,我认为这个五点一是个很好的选择,就是他可能会啊,在回答你问题的时候去专注于这个代码层面,他可能不会专注你个具体的问题的,就是回答上, 所以我认为他是对一个这个代码开发者是相对友好的,然后, 嗯,相对来说,如果你要去做一些其他的事情,对吧?呃,也不一定说用这个 gm 五点一可以切换成其他的,对应的稍微便宜一点的东西也可以, 但是不得不说新新出来这个五点一我还是很喜欢用的,然后就期待在大家的一个评价。

断档第一!就在刚刚,智普 g m 五点一登顶 swbench 等一众硬核榜单,连 happy face 的 ceo 都发文祝贺。在编程能力三项综合测试中, g m 五点一也达成了开源模型第一,国产模型第一的成就直逼 clop 四点六和 g t 五点四 外,网上已经开始疯狂安利了。所以今天六博士就和大家一起拆解这个被称作新晋国产元神的 gm 五点一究竟有什么创新点?他的实战能力到底如何呢?点赞收藏,方便回看!接下来一起进入本期云祖会 gm 五点一的强大可以总结成一个词,长城任务能力。什么是长城任务?简单说就是那些不能靠一句提示词解决,需要跨步骤、跨工具、跨时间持续推进的工作, 比如开发一个完整的应用,或者重构一个老项目。 ai 模型评测机构 m e t r。 研究显示,在编程领域, ai 能完成的任务复杂度呈指数级增长, 每七个月就翻一倍。行业的共识是,单人回答已经不够看了。正如 m i t tech review 和顶级资本所判断的,二零二三至二零二四年的 ai 是 对话者,而二零二六至二零二七年的 ai 正成为执行者。 交付单位正在从一个回答变成一个项目。以前的模型像个聪明但健忘的实习生,走几步就要人提醒,稍微复杂点就丢上下文忘约束你,让他忘了你删不之前说的数据库规范。 而 glm 五点一的目标是让它能独立交付,对最近非常火的 harness engineering 无疑是锦上添花。长城任务能力才是检验模型智能的下一个标准。 口说无凭,我们来实测一下,我们直接拿号称宇宙最强的 cloud opus 四点六和 glm 五点一做对比 来,我们现在开始丛林手搓一个植物大战僵尸。我们可以看到,在搭建整个游戏框架的时候,居然五点一完全自主规划并执行模型,创建了五乘九的方格,按照类别创建植物僵尸并设计游戏机制。来看看,不错啊,感觉有模有样了。 那我们来考验一下他的长城任务能力,让他再优化更新一下游戏输入提示词,增加观察选择、返回菜单按钮功能。 可以看到,虽然整体美工上因为没有着重设计,稍微有些简陋,但在游戏机制和体验上, g o m 五点一完美复现了植物大战僵尸的核心内容。而且体验最好的是它中间遇到翻译报错时能自己查日期,改代码,重新跑通,全程无需人工介入。 反观 core 这边,实在出乎我的意料,一开始点开始游戏进去没画面修正以后,美术风格也不如 g l m 五点一。接着我们来再看其他四个案例的对比, 刚刚看到的四个案例,不论是火山爆发还是月球围绕地球旋转动画, g l m 五点一都是全流程一次过,而 cloud 在 火山喷发和机械表案例第一次喷不出画面。 所以说结果就见仁见智了。至少从以上五个案例上看, g i m 五点一是更好的那个。 为什么 g i m 五点一能扛住长任务,不跑偏,不锻炼核心有三点。第一,更强的长城规划与目标保持 模型,不是你说一步他做一步,而是能把复杂目标拆解为多阶段可执行计划,并在长链路执行中始终围绕最终交付推进,减少跑偏、遗忘、约束或陷入局部坠油。 第二,更稳的多工具协同、代码编辑、环境调试、 api 对 接环节衔接稳定。过去开源模型长任务后半程容易断裂,而现在 g m 五点一能自主排查修复,不用停下来等你。 第三,更好的上下文一致性,这是他能对标 cloud op 四点六的关键点。在多轮交互后期,模型啊仍能稳定追踪已完成的内容,当前阶段和下一步的关键动作,有效解决了上下文中的稀释效应。 这一切的背后,是 g l m 五点一引入了 multi turn 强化学习和过程质量评估体系,它在可能性、自适应、纠错、工具使用与推理三个维度实现了进化。对比 k 二点五等竞品,它不再是需要盯着的聪明应届生,而是给目标就能独立交付的老员工。 试完 g l m 五点一之后,我装那愣了一会。之前编程啊,我更愿意用 cloud, 但这次试了 g l m 五点一之后呢,确实不得不感叹,国产模型的进步啊,真的很大。 以前我觉得 ai 再强,它也只能做碎片化的工作,我作为拆解任务把控权局做决策的人,位置啊是安全的。但当模型啊开始自主规划、自主执行、自主纠错、自主交付时,我突然意识到自己的可替代性啊,在迅速上升。 我并不想呢,贩卖焦虑,但你体验过之后,肯定能明白我想表达的是什么。最后, g m 五点一墙归墙,但你这抠钉 pen 的 速度啊,实在是有一点供不应求了,赶紧给服务器扩扩容吧。

智普 g l m 五点一到底能不能硬钢 plus 的 代码王座?这篇包含跑分、实战痛点和使用边界的思维硬核评测,直接把底牌揭开。一句话总结,这是目前最极致的偏科平替,看完你就知道该怎么用它。踩不踩坑。 先看过场数据,底座七千四百四十亿参数底层直接融合了异步强化学习和 deep sea 的 稀疏注意力机制,标称二十万超长上下文,极数上面直接拉满, 跑分直接逼进地表最强。官方测试中, g l m 五点一的编程得分达到四十五点三分,相比上一代直接飙升百分之三十,距离目前公认的代码天花板 opus 四点六仅差了不到三分。单看测试水准,他已经稳稳占据世界第一梯队。 但跑分不等于体验,这是很多开发者最容易踩坑的地方。实战反馈表明,他的代码生成确实有巨大进步,但代价较为惨烈。 这是一款典型的侧向升级产品,为了强吃代码能力,它大幅度牺牲了日常动用、任务处理和创意扮演能力。如果你拿它写文案,表现甚至不如上一代的 glm 五, 更致命的是长文本陷阱,纸面数据标称支持二十万上下文,但在实际高压环境下,一旦你灌入五到七万托盘的庞大代码库模型,偶尔就会出现逻辑混乱,甚至直接发疯。在处理极长代码项目的极限稳定性上,它目前还无法完全替代 os。 既然有缺陷,为什么海外开发者还在疯抢?因为它的杀手锏是白菜价和伪装介入。在当前热门的 cologold 这类智能体开发环境里, 你只需要改个环境变量接口就能零成本把它当成 opus 来用。最关键的是它的 api 倒用价格只有 opus 的 几分之一,这是绝对的降维打击。最后直接给使用。结论,强烈推荐个人开发者和中小团队把它作为主力平替。 日常的写代码修 bug, 写中小型函数用它绝对超值。但是如果你需要重构超过七万头肯的祖传复杂代码,或者需要处理高度复杂的通用写作,请立刻闭坑老实实加钱去用 opus, 或者直接退回 glm 五。

这也太快了吧,大模型第一的位置已经悄悄换人了。就在前几天,致富版最新模型 glm 五点一毫无预兆地向所有 coding plan 用户全面开放。官方评测数据显示, glm 五点一的编程能力直接飙升到了四十五点三分,相比五点零版本性能提升了将近百分之三十。老实说,这操作太像当初的 dc, 不搞花里胡哨的营销造势,是骡子是马,让用户自己去遛,主打就是一个技术自信。而且这次升级的核心直接指向了智能体工程,专攻长距离、多步骤的复杂工程任务。接下来直接带大家实测一下, 任务是从零搭建一个带用户注册、商品展示和订单管理等等的前后端分离购物商城系统。正常来说,这是一个初级工程师,大概需要三到四天的工作量了。我先给了 gln 五点一张参考图,然后用大白话输入了一段提示词, 发完了我就坐在旁边看着他干。他先是主动写了一段执行步骤,说明每一步怎么搭建,包括先做后端搭建,然后产品分类、购物车订单管理,再到前端页面的搭建,最后集成数据并往上。然后他就开始一个阶段一个阶段的写,后端框架搭建、前端页面生成安装依赖项验证构建结果。 而且不像以前用的某些开源模型,写完一段就得监督下一段。除了中间让我授权一些权限, gln 五点一的每一步都是他自己推进的。 最让我惊讶的是,中间出现了 n p n 缓存权限和 x n l 文件解析问题。以前用别的模型到这里基本就要人工介入排查,报错再未回给他了。但 g l n 五点一顺着报错自己排查了一遍,定位到问题之后自己改掉了,然后继续往下走, 最后交付的时候登录注册能顺利跑通,权限控制生效,数据看版也能正常展示。整个过程只用了不到三个小时,而且对话框我一句都没有输入过。可以感受到,整个测试过程里, g l m 五点一体现出了极强的状态延续和目标保持能力,特别是在长城任务的执行和交付上, 跟 k 二点五确实拉开了一个升位,它的编程能力真的可以说是当前模型里断档领先的水准了。看完这个案例,就问你黄不黄? 以前总觉得 ai 只是帮我们提效的工具,我们自己才是那个做决策把控权的人,但 g l n 五点一展现出来的能力,就像是一个自己就能把控权的资深工程师, 以及去焦虑害怕被替代。不如想清楚我们的核心竞争力到底是什么。未来不再是比谁更会敲代码,而是比谁能更好的给 ai 下任务,成为驾驭这些智能体的人。

先给你看个东西,这是我用 ai 做的互动版商业策划书,可能会多帮我赚三百万,因为最近有个大的投资人看完说这是他今年见过最有冲击力的 pp, 因为别人用的都是 ppt 和 word 模板,而你已经卷到动画了。这是我用最新的智普 glm 五点一模型,纯跟 ai 对 话三步完成的, 因为具体项目设计、商业经验不能讲太深。但是这个三步方法呢,我觉得每个人看完视频都能学会,不管你是客户销售、商业培训,还是仅仅是一人公司,有一个好的点子,都有可能未来会帮助你抓住关键机遇。建议收藏一下,免得用的时候找不到了。 第一步,完善文字需求。首先把你团队头脑风暴的聊天记录、灵感、想法,甚至语音短视频的文字全部复制下来,不需要任何整理,直接把这些原始素材发给 glm 五点一,然后告诉他,我需要做一份投资人看的商业计划书,请帮我把这些灵感的想法整理成结构清晰、逻辑严明的项目说明。 第二步,让 ai 制作互动网页,直接把整个文件复制给 g o m 五点一,然后说帮我把这个商业计划书制作成一个滚动式的交互网页,要专业感、科技感,适合展示给投资人看。 ai 呢,它会自动分析你的内容结构,设计出适合的页面布局。 生成之后, ai 会把代码保存为 html 文件,直接在浏览器打开就能看到结果。整个过程中呢,你完全不需要懂任何编程知识,就像跟设计师沟通一样简单。第三步, 让 ai 帮你优化动画基础页面做好之后啊,进入最关键的动效优化环节,找一个你喜欢的参考网站,比如说这个 awards 上面的获奖作品,上面有很多很酷的网站设计,直接把链接发给 g l m 五点一,然后说参考这个网站的动效风格, 帮我的商业计划书添加滚动动画、视察效果元素、渐入动画等交互。整个流程走完之后,就得到了一份远超传统 ppt 效果的互动式商业计划书,而且全程它是用自然语言完成的, 零技术小白也可以用。我实际上测试了市面上很多 ai, 但是发现大多数 ai 呢,只能帮你去做一些辅助工作,比如说帮你去写个文案呢,帮你画个图啊,或者生成一个模板。但是 g i m 五点一不一样,它能帮你深度的理解需求,自主的干活, 自己裁剪,自己执行,自己优化,而且能从零到一,把一个复杂的项目给做完。而且它还支持上下文对话,你可以跟他持续沟通,不断优化,像做 ppt 这么一个比较复杂的一个逻辑, 今后可以全部交给 ai 了。而且当 ai 的 能力足够强啊,可能像 ppt、 word、 excel 都被淘汰了,因为 ai, 它会直接给你去做一个交互式的动画网页,未来,甚至是视频游戏。我不知道啊,就看人能不能想到了。

这个游戏是我用 g l m 五点一刚刚花了四个小时做出来的,这个效果多少有点儿经验了。现在呢,带你从头看这一轮小更新的大效果。上来先给了我十二个关键动作的详细执行计划,不着急写代码,先把框架理清楚,这就是 g l m 五点一长城规划能力。接下来,先写后端 server, 再切到前端的 index, 然后攻克 java script 交互逻辑,最后编写三 d 核心入口文件, make python, html js 多语言无缝切换文件,系统代码变器,多工具稳定衔接。整个过程没有一次的执行中断,没有一次的 逻辑断层。代码写完,自动启动本地服务器准备测试,结果首页挂了。它精准定位到了 fast a p i 版本,兼容性问题,然后回头去修复了三个小时前写的 starbucks 文件,你没有看错哦,三个小时前,在这四小时里啊,它写了上万行代码,跨了几十个文件。但当 bug 出现时,它能够精准召回那段后端逻辑,完成修复, 重新测试,游戏完整交付。这种状态延续和上下文整合能力,我给到一个字,汤,再看一个,体感会更明显。我让他从零开始做一个情绪记录网站。他在五分钟时写了 user 时,定义了用户数据模型,到了十九分钟写 else 时,能够完美调用之前定义的接口。到了三十七分钟写 mood 时,依然记得最开始设定的情绪记录逻辑。 这个是跨越了三十多分钟,十几个文件的上下文一致性跑数据库。说实话,脚本时遇到 g b k 编码冲突, print 语句报错。他先检查数据库文件,发现数据其实已经写进去了,逻辑是通的,只是打印语句报错,然后精准回到了代码里面,修复了那几个 print, 再次执行成功交付项目包含了前后端,实现全程 ai 完成, 而且几乎无 bug。 在 整个的超长绘画里面呢,它能够判断出部分成功的状态,知道不需要从头来,只需要修复那个编码问题。我把这个过程给老程序员看,他们直呼惊艳。但这个还不是 g m 五点一能 的天花板,它更可怕的是,可以用十四个小时完成库达 carner 优化。要知道啊,这个是资深的库达工程师需要数月才能完成的工作,而一个资深的库达工程师,培养周期长达数年,年薪百万起,是全球最稀缺的高性能计算人才。现在呢, ai 十四个小时就能交付这群人的工作成果。艾莉跑到现在那句话我有点信了, why 不 定解决的是让更多人能创造,那 ergative 解决的是让 ai 能够执行。那么 long horizon 要解决的就是让 ai 像一个资深专家一样,持续的工作交付成果。因为真实世界里面最有价值的工作,从来不是一句 promise 能搞定的,它需要跨步骤、跨工具、跨时间的持续推进。这个也是 g l m 五点一诞生的 原因。目前呢,在 artificial analysis 榜单上, g l m 五点一成为了首个突破,五十分的持平。在此之前啊,只有币源的 g p 四 o cloud 能够做 到。现在,开源阵营终于站在了同一水平线。更狠的是, swbench pro 这个榜单是从 github 上拉一个真实的项目,让模型自己读几万行的代码定位问题修复方案,最后还要跑通原项目的测试用力。 g l m 五点一在这个榜单上拿了全球第一, 排在它后面的是 cloud open 四点六、 g p t 五点四、 jimmy 三点一 pro, 这是中国开源模型第一次在最核心的工程能力指标上 引跑全球。去年大家还在说国产模型在追赶,今年已经是被追赶了。要知道一年前国产大模型的厂家还在以降价百分之九十以上来争夺市场份额,不靠价格而靠价值,国产大模型终于走出了那个阶段。

你有没有这种感觉,如今的 ai 写代码,就像带一个聪明但极不靠谱的实习生,交代给他一步,他做一步任务,稍有复杂点,步骤多一点,他就开始间接性施移。而这,正是过去 ai 无法登天立地劳动教官所在。就在前段时间,这部 gm 五点一毫无预兆突然发布, 没有搞营销造势,直接全量推掉,所有 call d play 用户,包括 live 用户也能直接用,跟二五年初的 deepsea 太像了。简单来说, gm 五点一不再只是一个代码补全工具,更像是一个能独立交付工作的 ai 专家。或许我们衡量模型是看他有多聪明。而 gm 五点一定义了一个新的标准,一个模型能够独立工作多久? 它是全球首个在真实过程中验证了八小时独立工作能力的开源模型,在你睡觉八个小时,它能独立跑,优化、修 bug、 搞交付。 我试着就给他一个模糊的科技感名片的想法。在没有详细需求文档的情况下, glm 五点一完成一次,堪称断层式领衔,有长生任务处理工作,他自主完成复杂的毛玻璃 u i 设计,配合 g s a p, 实现了极其四化三 d 交互效果,而且按钮指向我的小红书、 b 站等审美主页,在没有要求的情况下主动写好,后台随机就有 g s 模块。 最令我惊讶的是,当我随口提了一句要交互,他不是打了个布丁,而直接重获了整个闪移式布局。最终交付的页面不仅包含个人名片,还完整集成了二十家常用的 ai 工具,导航能够实现一阶跳转, 还有个人设计作品集融到知乎的直达入口,排版也十分精美,在我深入测试下来,体感上他直接堆包可倒的 open 四点六,甚至在很多维度上就是平替。在全榜单 adidas 纳尔斯,它与 open 四点六分数一致,成为全球首个突破五十分的开元模型。 更有意思的是,智不智的顺势把 qd 场景的价格提价了百分之十,首次在合一场景实现了与海外头部厂商价格对齐。在这个阶段敢涨价,说明国产大模型正式告别低价换量,开始进入以制定价的新阶段。 当 ai 跨过十一期,开始像资深专家一样独立交互成果时,那我们作为人类开发者的护城河到底在哪里?是提出正确问题的能力,还是那份对复杂工程的审美之举?这一切的通讯 ai 时代,保持理性。连七宝超奇,我们下期再见!

如何借助 ai 为自己赚钱?这期视频看完立刻上手!就在今天,国产大模型智谱发布了 g l m 五点一,它直接刷新了全球开源模型的最佳成绩,甚至在核心能力上追平了 g p p 四 o 和 cl o 的 这些顶尖的闭源模型。这意味着,一个属于我们普通人的超级个体时代真的来了。 今天一个视频给你说清楚,一、 g l m 五点一到底有多强?二、我们到底该怎么抓住这波红利?在开始前先放个深水炸弹, 推出了请护 o p c 社区,只在聚集更多艺人、公司、创业者,助力大家达成互识、互享、互助的机制。加入社区的创业者有机会获得请护前沿馆的独家报道、全网宣发及全方位的创业扶持。感兴趣的朋友留下 o p c 三个字母,现在开始。一、 glm 五点一到底有多强? 第一,他是个能独立工作八小时的超级员工。以前的 ai, 你 问一句,他答一句,稍微复杂点的任务他就断片了。但 glm 五点一能自己规划、自己执行、自己纠错,连续工作八个小时,这意味着什么?意味着你可以在睡前给他布置一个任务,比如把这一百份行业报告读完,给 我总结成一份 ppt, 或者帮我分析过去一年的销售数据,找出问题,你安心睡觉。第二天早上醒来,他已经把一份完整的成果交到你手里了, 这相当于你免费多了一个不知疲倦的助理。第二,他是个顶尖的程序员,他的代码能力已经追平全球最强水平。以前你想做个小程序、小网站,要么得花几年学编程,要么得花几万块找外包。 现在你只需要用大白话告诉他你的想法。比如帮我做一个家庭记账的网页,他就能从零开始,自己写代码,自己调试,甚至自己部署上线。普通人不再需要懂代码,也能把自己的创意变成产品。 二、普通人到底该怎么抓住这波红利?我们给大家指三条明路。首先,从执行者转型为审核者,别再花大量时间去搜索、去筛选信息了,把复杂的任务丢给 g l m 五点一,让他帮你完成信息降噪。 你的角色要从写报告的人变成审核报告的人,把你的精力集中在决策、审美和人际沟通这些 ai 暂时无法替代的领域。 其次,成为超级个体,把想法直接变成产品,不要只学提示词,要学产品思维。你不需要知道代码怎么写,但你需要知道你想做什么。利用 g l m 五点一的编程能力,试着让他帮你写个小游戏,或者一个简单的工具,你会发现你的创意可以直接变现。 最后,利用开源优势搭建你的第二大脑。你可以把 g l m 五点一部署在本地,把你的读书笔记、工作文档、客户资料都喂给他,打造一个完全属于你,只为你服务的专属顾问。 说到最后,只想告诉你,这不仅仅是一个新工具,这是你弯道超车的绝佳机会。点赞、收藏加关注,请护前沿,管世界,前沿在线带你抓住时代红利!

全球最强开源模型,现在属于中国!四月八号,一个叫智普 glm 杠五点一的国产大模型横空出世,一举拿下全球最强的宝座。 而且他还是开源的,谁都能用。以前的 ai 模型就像短时记忆,聊两句就忘,处理不了复杂任务。但这款 glm 杠五点一不一样,他居然能连续工作八个小时,从头到尾帮你做完一件完整的工程大事。中间不断电不掉链子,在权威测试平台更是夺取全球第一, 这背后靠的是什么?是华为升腾算力的超强加持,简单说,就是让 ai 大 脑里的专家们配合的更默契,资源不浪费, 推理速度直接快了百分之三十,你再也不用担心性能带不动,用华为云就能轻松部署去搞定那些以前想都不敢想的复杂智能项目。 不只是个模型升级,更是中国 ai 从跟跑到领跑的里程碑时刻。未来,它将赋能千行百业,重塑我们跟 ai 交互的方式。为国产大模型点赞!关注我心语,持续分享前沿科技的硬核解读!

glm 四点五到四点七,再到五,现在到了五点一。很多人第一反应是,哦,又出一个新模型,参数更大,能力更强,对吧?错了,这次更新不一样,智普不是在跟你拼模型技术,是在跟你拼应用落地。看官方文档怎么定义。 glm 面向 agenc engineering 打造, 擅长复杂系统工程与长城 agent 的 任务,在真实编程场景的使用体感逼近 cloud、 opus、 四点五这些词,你看到了什么?大多数人的解读是哦,质朴的编程能力很强了,跟 cloud 差不多了,还能做 agent 任务。但还有一个信息,你可能漏掉了通用 agent 助手的理想寄宿。 什么意思?以前我们说 ai 助手是一个问答工具,你有问题,他给你答案,代码错了,你问他怎么改,下一步该做什么,你问他怎么写,从头到尾是你在掌控节奏,但面向 angelic engineering 打造的模型不是这样。 agent 它是什么? agent 是 智能体, 智能体不是等你来问。他可以自己规划任务,自己制定步骤,自己执行流程。你给他一个目标,他自己去拆解成若干步骤,自己去判断每个步骤该怎么做,自己去执行,自己去检查结果。如果有问题,他自己调整,如果中间有障碍,他自己绕路。这就是长城 aj 的 任务。 以前是你带着 ai 工作,现在是 ai 带着你工作。你给出一个需求,比如帮我写一个完整的电商网站前端以前的模型,你可能要问十次,先写什么?这个组件怎么连? api 怎么调?样式怎么调?报错了怎么改? aj 都不需要它自己规划,先搭架构,再写组建,再对接 api, 再调整样式,再修复 bug, 再优化性能,一步一步它自己推进,你甚至可以在旁边看着。这就是 glm 五这次更新的核心,不是告诉你我的编程能力有多强,而是告诉你我已经可以像真正的开发者一样工作了。这背后是什么? 是智普看到了一个更大的战场,模型能力竞赛打不完的,今天你第一,明天我反超。但应用落地是另一回事。谁能真正进入开发者的工作流?谁能真正减少开发者的操作成本?谁真正能让开发者每天打开编辑器,就觉得 ai 是 自己在写代码? 这才是真正的竞争。智普这次选择了后者。五点一不是技术秀,是战场转移的信号。他告诉大家,别再盯着模型排行榜了,看看你的工作流。如果你还在用以前的模型,还在像对待一个问答助手一样对待 ai, 那 你可能已经错过了一个时代。因为新的 ai 不是 用来对话 的,是用来共事的。你需要的是一个能跟你一起写代码,甚至比自己还懂整个项目的 ai, 这就是 g l m。 五点一。


我的天, gmail 五点一也开源了!我记得它三月底才上线,怎么今天就开源了? 最近的 ai 圈是不是要变天了啦?这个模型的代码能力位列全球第一,超越了 g e t 五点四和 cloud opus 四点六,而且官方习册用了八个小时,长时间自救工作从零星成 linux 桌面, 太恐怖了。如何使用 g m m 五点一可以在线调用 a p i 进行聊天或者本地部署。但是 g m m 五点一本地部署的硬件要求实在是太高了,大部分个人电脑的配置都不太行,咱们可以用欧拉玛平台的云端代码示意行。

智普 g l m 五点一昨晚突然偷袭,编程能力相比上一代暴涨十分,评分直接贴到了全球最强模型 oppo 四点六的脸上, 甚至把扣丁 plan 都给卖断货了,这国产大模型卷起来,真是连服务器都不给友商留啊!智普 g l m 五点一这次不仅是常规迭代,它在代码场景下支持瑞斯尼模式,上下文窗口稳在二零零 k, 有极客已经用它连夜搓出了可交互的 ai 版我的世界,空间,补全能力极强。最离谱的是,它完美兼容 open nai 接口, 开发者改一行代码就能无缝切换。这波 astrapec 的 sonnet 四点六恐怕要连夜修复爆了,因为 sonnet 四点六已于二零二六年二月十七日发布。聊完了模型,咱们看看语料库建设。 教育局和国家语委近日正式发布了两项新规范,专门针对 ai 语料库基础术语和机器合成普通话等级。 这意味着以后咱们为数据搞 tts 都有了国家标准。对于做热爱者和语音生成的开发者来说,这可是合规性和工程化的重要指南, 建议去下个 pdf 文研读一下。不仅是软件层面硬核,国产智能车也开卷了!智己 l s 八已于二零二六年三月二十六日开启预售,预售二十五点九八万起, 直接塞进了英伟达芙尔芯片,六十四 g 内存带宽直充二七三 gbs, 这性能已经超越很多高配 pc 了。 更绝的是,他首发了全线控四轮转向,还搭载了千万大模型做 agent 助理。这哪是卖车啊,这分明是卖一个带轮子的聚生智能工作站最后大厂人才流动的瓜也得吃一口。 华为盘古大模型负责人王云鹤,已于二零二六年三月二十八日被爆离职。这位九十一年的天才少年,曾获华为十大发明奖, 现在要投身 a 振赛道进行水下融资了。在 gpt 五点二已于二零二五年十二月发布并普及的今天,纯模型已经不是护城河,能够跑通复杂流转的智能 a 振才是下一个风口。 看来今年的 a 振创业潮又要加一把火了!代码模型卷性能、国产芯片卷、上车大佬离职卷、 a 振观众老爷们,这波技术爆发,你们跟上了吗?点个关注,天天降带你拆解最硬核的两千零二十六!