粉丝325获赞199

断档第一!就在刚刚,智普 g m 五点一登顶 swbench 等一众硬核榜单,连 happy face 的 ceo 都发文祝贺。在编程能力三项综合测试中, g m 五点一也达成了开源模型第一,国产模型第一的成就直逼 clop 四点六和 g t 五点四 外,网上已经开始疯狂安利了。所以今天六博士就和大家一起拆解这个被称作新晋国产元神的 gm 五点一究竟有什么创新点?他的实战能力到底如何呢?点赞收藏,方便回看!接下来一起进入本期云祖会 gm 五点一的强大可以总结成一个词,长城任务能力。什么是长城任务?简单说就是那些不能靠一句提示词解决,需要跨步骤、跨工具、跨时间持续推进的工作, 比如开发一个完整的应用,或者重构一个老项目。 ai 模型评测机构 m e t r。 研究显示,在编程领域, ai 能完成的任务复杂度呈指数级增长, 每七个月就翻一倍。行业的共识是,单人回答已经不够看了。正如 m i t tech review 和顶级资本所判断的,二零二三至二零二四年的 ai 是 对话者,而二零二六至二零二七年的 ai 正成为执行者。 交付单位正在从一个回答变成一个项目。以前的模型像个聪明但健忘的实习生,走几步就要人提醒,稍微复杂点就丢上下文忘约束你,让他忘了你删不之前说的数据库规范。 而 glm 五点一的目标是让它能独立交付,对最近非常火的 harness engineering 无疑是锦上添花。长城任务能力才是检验模型智能的下一个标准。 口说无凭,我们来实测一下,我们直接拿号称宇宙最强的 cloud opus 四点六和 glm 五点一做对比 来,我们现在开始丛林手搓一个植物大战僵尸。我们可以看到,在搭建整个游戏框架的时候,居然五点一完全自主规划并执行模型,创建了五乘九的方格,按照类别创建植物僵尸并设计游戏机制。来看看,不错啊,感觉有模有样了。 那我们来考验一下他的长城任务能力,让他再优化更新一下游戏输入提示词,增加观察选择、返回菜单按钮功能。 可以看到,虽然整体美工上因为没有着重设计,稍微有些简陋,但在游戏机制和体验上, g o m 五点一完美复现了植物大战僵尸的核心内容。而且体验最好的是它中间遇到翻译报错时能自己查日期,改代码,重新跑通,全程无需人工介入。 反观 core 这边,实在出乎我的意料,一开始点开始游戏进去没画面修正以后,美术风格也不如 g l m 五点一。接着我们来再看其他四个案例的对比, 刚刚看到的四个案例,不论是火山爆发还是月球围绕地球旋转动画, g l m 五点一都是全流程一次过,而 cloud 在 火山喷发和机械表案例第一次喷不出画面。 所以说结果就见仁见智了。至少从以上五个案例上看, g i m 五点一是更好的那个。 为什么 g i m 五点一能扛住长任务,不跑偏,不锻炼核心有三点。第一,更强的长城规划与目标保持 模型,不是你说一步他做一步,而是能把复杂目标拆解为多阶段可执行计划,并在长链路执行中始终围绕最终交付推进,减少跑偏、遗忘、约束或陷入局部坠油。 第二,更稳的多工具协同、代码编辑、环境调试、 api 对 接环节衔接稳定。过去开源模型长任务后半程容易断裂,而现在 g m 五点一能自主排查修复,不用停下来等你。 第三,更好的上下文一致性,这是他能对标 cloud op 四点六的关键点。在多轮交互后期,模型啊仍能稳定追踪已完成的内容,当前阶段和下一步的关键动作,有效解决了上下文中的稀释效应。 这一切的背后,是 g l m 五点一引入了 multi turn 强化学习和过程质量评估体系,它在可能性、自适应、纠错、工具使用与推理三个维度实现了进化。对比 k 二点五等竞品,它不再是需要盯着的聪明应届生,而是给目标就能独立交付的老员工。 试完 g l m 五点一之后,我装那愣了一会。之前编程啊,我更愿意用 cloud, 但这次试了 g l m 五点一之后呢,确实不得不感叹,国产模型的进步啊,真的很大。 以前我觉得 ai 再强,它也只能做碎片化的工作,我作为拆解任务把控权局做决策的人,位置啊是安全的。但当模型啊开始自主规划、自主执行、自主纠错、自主交付时,我突然意识到自己的可替代性啊,在迅速上升。 我并不想呢,贩卖焦虑,但你体验过之后,肯定能明白我想表达的是什么。最后, g m 五点一墙归墙,但你这抠钉 pen 的 速度啊,实在是有一点供不应求了,赶紧给服务器扩扩容吧。

四月八日,智普 g l m 五点一开源。四月二十三日,腾讯混元 h y 三发布。四月二十四日凌晨, open ai 发布, g p t 五点五,同日上午, deepsea v 四上线,这是 ai 竞争史上最疯狂的一次发布潮。有人说,这么密集有意思吗? 有意思,有意思,不再技术在两个字,快。以前大厂发布产品,快。以前大厂发布的 没有发布会,没有直播,直接改了个 api 文档,用户刷公众号才发现模型已经上线了。这不是发布,这是偷袭。为什么这么快?三个原因,第一,先发优势在急剧缩小。 chad gpt 刚出来的时候, openai 独占市场窗口期长达数月,现在呢? log 出来追评, deepsea 出来打价格战,框口从数月缩到数周,再等下去连汤都喝不上。第二,用户迁移成本在下降,以前换 ai 工具,数据要迁移,习惯要重新培养,成本很高。现在有了 cloud、 deepsea 这样的产品, 用户发现换个工具没那么难,换句话说,用户留不住了。第三,价格战打到白热化。 deepsea v 四每百万 token 输出 价格不到三毛钱,同一天, gpt 五点五,每百万 token 输出定价超过两百元人民币,大了七十倍。价格差这么大,用户会怎么选?对普通人来说,这是好事,竞争越激烈, 价格越低,功能越强。 deepsea 已经把价格打到几毛钱了, glm 五点一可持续编程八小时, gpt 五点五速度翻倍,你用 ai 的 成本会越来越低, 好用还便宜。所以别觉得这是大厂的事,每一次发布都在压缩 ai 工具的价格,都在提升 ai 工具的能力,你要做的就是现在开始用,别错过这波窗口。你用过哪款 ai 工具?体验怎么样?评论区说说。

兄弟们,十八个文件,一千三百九十一行代码输出,这是 gm。 五点一昨天一个人写的东西,我 只给了他一句需求描述,他已经把功能完整的写完了。背景说一下,我有个知识点,上面有些付费的课程,会员可以买,于是我上哪很加一个功能,叫做推荐返现。逻辑很简单,当用户 a 推荐用户 b 来买我的课的时候, b 付了款, a 就 能拿到百分之二十的佣金,七天解冻提现到珠宝。 听起来不难,但是你知道这个功能如果拆开看,需要罗列出多少功能吗?大概有这么多,用户模型需要扩展佣金,需要有状态机支付毁掉,要对接,定时任务要解冻,还要一套非常完整的全能 ui。 就 这个需求,排给大厂的初级工程师,顺利两到三天能搞定。 但是我只给了一句话,注意看。他先读了我整个网站的架构, user 模型、前端框架、数据库全读了一遍,给出了一套技术方案, 六个模块,把所有的依赖关系给你排好了,要先做数据模型,再写 a p i 对 接毁掉。为什么是这个数据?因为前端要从 a p i 拿数据, a p i 的 字段强依靠于数据库,顺序错了他会一直改。他自己想清楚了,这件事情没有问我, 紧跟着开始干活了。 user 里面接了六个,给我加了六个字段,包括推荐码、推荐人的关系、累积的佣金、可以提现的余额、 冻结余额和现金金额。这六个资料之间可有讲究的,他是有逻辑关系的,不是随便加的。第二步,他创建了自己的佣金模型,加了三个状态,分别去管理冻结、结算和取消的状态,并且还加入了冻结时间来标记什么时候解冻,可以看到安全性考虑的非常好。 第三步是我自己都没有理清,但他帮我想到的,支付的时候触发佣金,当用户付款成功之后,生成冻结的记录,这是整套系统最核心的原因。大家看这有一个定时任务,没有,这个定时任务他自己配了有两个,一个是每天零点去跑解冻,一个是跑余额的结算。 在我所有的 content 表达式里,他自己写进去了,这点我自己都没注意到。最后就是推荐中心四百四十五行的 react 组件,也就是大家看到的这个可儿画的前端页面,推荐链接,一键复制统计卡片,佣金列表提现功能,全套,同样的,我一行没写。 重点要说这里中间出了一个 bug, 这个 bug 逻辑非常隐晦,是在对接支付毁掉的时候,你的佣金冻结是死逻辑,那这里少了一步结算的机制。那如果那以前我在外部扣定的时候用其他模型,他很容易遇到这种状况,到这一步他停了,等你去 review 他, 告诉他错哪了,怎么改,你知道 gm 点一是怎么做的吗? 他没有停,他自己读完了报错信息,定位到了佣金记录的核心问题,回去翻了佣金接口的资源定义,他自己把这个流程改了, 这是他的新模型介绍提到一点叫 long horizon, 不 只是能写代码,是他跑完了几十步之后,还能记得第二步的数据结构,还能记得前面的运行规则,自己注册,自己查,自己改自己验,不需要在旁边盯着这个体验,我之前只在 cloud 的 四点六上感受过 最终的交付,大家已经看到了十八个键改动,一千三百多行的代码量,真实跑在线上的效果,不是 demo, 不是 原型, 不是小玩具,是真实在线上的每个人可以浏览的真实功能。我这站正在跑的就是小系统,稳定的运行在了我自己的盈利模型上。这是我昨天才感受到的事情。 以往我们写代码,我一直觉得 ai 是 帮我提效的,我还是那个做决策的人,还是那个能把控大局的人。直到我昨天看着这家木眼一捧完,这个项目规划、推进、总结、交付全是他自己做的。我忽然意识到,这件事,把控大局的这个角色好像已经不是我了。那我是什么呢?这个问题真的很值得想一想。 如果模型可以替我们完成长城任务,那他越来越像一个资深工程师。 ai 能稳定地搞定中高级工程师任务的时候的人类。工程师的不可替代性又在哪呢? 这不是焦虑,我觉得是我们尽早要想起的事情。那如果你想试试这样木料一等,你可以在智普的 qing pad 里切下模型就好,那前提是你抢到这个 qing pad 了。如果你用的 qing agent, 比如 cloud code, 你 需要把这个文件里的 node 改成这样,整套非用系统的开发流程,我在我的知识站不放。如果你对 ai, 对 独立开发、对模型感兴趣,那你一定要关注我,我是麦当,带你们来搞点吃鸡的。点赞关注!

不是谱子五点一按什么价卖的? bro a p i 又涨一次价,涨得跟 colod opus 一个价格了。不是现在咱们这边的 a p i 已经可以和对面的 a p i 卖一个价了吗?而且最关键的是,之前他财报已经体现过了,这么卖是有结果的,因为 g l m 五出来之后连续做的一件事,马不停蹄的 就是在涨价,也就是说对标克劳德的同时,把它最主要的商业模式做精做强,把大模型做的不可什么脱离啊,依赖性极高,然后再逐渐的提高。护城河里头,无论是价格还是使用规则, 那克劳德是很霸道的,动不动就给你说啊,这你也不能用,那你也不能用墨尔法尔,这的话你可以调 a p i, 那 的话你不能用订阅账号使用,总之各种规则,但是大家还是离不开,因为他把那个对吧模型制呢,给你干到天花板了。所以现在谱子这道是越走越正了呀,不。

谱子反向割,老外呢?智谱海外版涨到有一百六十刀一个月版本的套餐了,就是在海外的 g l m coding max, 国内四百六十九块一个月,折合六十八美元,海外那么一百六十美元折合一千零九十三,贵了一倍多。然后现在这帮老外这算完算完账直接炸了电脑 bug x 上面全是教程,教他们怎么用微信注册,怎么用支付宝过中文图形码,怎么用 rmb 来支付啊。这一个刻定 plan, 因为现在这个谱子它确实走的克劳德路线。那老外背一个克劳德,他肯定他也弄个谱子。 咱就是说以前对吧?你买耐耐飞?哎,真有这么干的?买耐飞的话,那个通过 steam 转阿根廷去,然后在 apple store 里头买那个 icloud 的 会员有人是用什么?哎,是非洲的什么国家反正最便宜。现在风水轮流转了,老外开始来中国去研究买 ai 的 工具了。 其实智普的 cobalt plan 最早的时候啊,在外头也是价格战的,比如说给你三美元一个月啊,被称作三美元的 cloud code, 那 个时候 lite 版本最便宜, 现在一百六十刀啊。但谱子他还不怕你不买,因为人本身 q 一 api 定价涨了多少?这你看看数据,你再看看市值,市值那涨法跟 api 的 涨法啊,比那还要狠。说白了国产大模型啊,我们现在思路就定了,那过去你说对吧?你跟人打价格战的,现在就是打定价权,编码场景定价首次追平克劳德,然后你像什么腾讯阿里人什么的也都一样的。现在是算力通账,比的是模型质量啊。

我的天, gmail 五点一也开源了!我记得它三月底才上线,怎么今天就开源了? 最近的 ai 圈是不是要变天了啦?这个模型的代码能力位列全球第一,超越了 g e t 五点四和 cloud opus 四点六,而且官方习册用了八个小时,长时间自救工作从零星成 linux 桌面, 太恐怖了。如何使用 g m m 五点一可以在线调用 a p i 进行聊天或者本地部署。但是 g m m 五点一本地部署的硬件要求实在是太高了,大部分个人电脑的配置都不太行,咱们可以用欧拉玛平台的云端代码示意行。

嗨,朋友们好,咱们又见面了,今天聊一下这个最近刚出的智普的 glm 五点一,我这几天 使用了一些心得体会,之前使用的主力模型是 mini max 二点七,那么今天我把这辆模型放在一块对比,来给大家说一下具体的使用心得。我设计了三个任务,让他们分别去执行。第一个是比较简单,就写一个登录页面, 包括后台的逻辑啊,前后台的逻辑就写了一个登录页面。然后第二个是一个做了一个相对复杂一点的,就是税户备份跟恢复的这么一个功能 啊。第三个,呃,就更复杂一点,是做了一个量化交易的一个策略,我把这三个任务分别交给这两个模型去执行,然后我们看一下,从三个方面去看一下他的对比,第一个是时间,第二是个成本,第三是质量, 从这三个方面来对比一下。首先说这个最简单的,这个登录页面,两个模型分别都跑了大概五分钟左右,速度差不多,具体的后面的小数点我就不说了,大概五分钟左右都跑出来了, 然后运行呢?基本上都是一次通过,没有给我留坑,一次通过,然后调用的这个成本我查了一下, mini max 大 概是花了一块五吧,反正挺便宜,没多少钱, 因为这个任务比较简单。第二个,咱说第二个任务,第二个任务是做了一个备份恢复的这么一个任务啊,那这个 mini max 跑了大概十二分 钟,然后交安跑了大概跑了十五分钟,速度相差不大,差了三分钟,然后 mini max 执行完了之后,我跑了一下程序,呃,有点小瑕疵,然后我又把这个日期给到他,然后 他自己又修了一下,基本上最后也能运行。最后我查了一下这个调用的成本,大概是四块多,不到五块钱,然后 jm 呢?不错,就一把够。然后我查了一下调用成本,大概也是五块多一点啊,比 mini max 稍微贵一点。 ok, 然后最后一个比较复杂的,这个一个交易策略的这个量化模型实现。嗯,那这次呢? mini max 掉链子了,嗯,怎么调都过不去,最后我手动干预才过去了, 然后前后花了大概半个多小时吧,三十五六分钟,差不多四十分钟,然后费用大概是十块钱,然后那个 g m 基本上是一把过,有一些小瑕疵,把日子扔给他,大概是调了一次就一把过了。嗯, 时间也是二十来分钟,二十五分钟左右,然后成本的话看了一下,大概是十二到十三块钱。然后综上所述啊,我觉得这安排的挺香的,尤其是在处理这个复杂任务的时候。 ok, 今天就聊这么多,嗯,谢谢大家。

上次我发状态说这个托肯会越来越贵,五一之后大家买托肯的话,可能就是会发现你以前用的托肯的话都不能够免费使用了,当时很多人还不相信,你看这两天豆包就开始把这个镰刀割下来了,一个月六十八块钱起步, 就是你稍微做点 ppt 或者说是做点什么东西的话,基本上就不够用了。肯定的, 其实 token 越来越贵,或者说是 token 的 价格降不下来其实也是一个必然的情况。它 token 的 话,它不像流量或者是电一样,它的编辑成本几乎是零。 像以前我们互联网的时候,你说多一个用户,少一个用户,它的 app 也好,服务器也好,它本来其实就没什么区别, 只要你的服务器跑不满,那的成本就是一样的。现在算力就不一样了,那一张卡他能够服务的人是非常是有限的, 你要服务多五个人,那就得去扩卡,那要建数据中心对不对?要那个算力支持的话,其实数据中心他有很多配套的嘛,电源啊,各种啊,冷啊什么之类的。 其实这个扩展还是一方面,主要还是时间,你拿不到卡,拿不到卡你还要建设建设,你还要建工工地什么的。其实 token 的 话,它并不会是一个编辑成本非常低的一个东西, 且现在最麻烦的一个点是什么呢?是很多就是最牛逼的 token, 你 想买还买不到。就比如说我五一都一直在写代码,就是我们那个 codex, 其实是我们现在程序员公认的最有性价比的顶尖模型,它比 cloud code 的 容易获取,但现在也越来越难获取了, 很多人之前是通过那种就是有漏洞那种方法买的那些 pro, 现在这种渠道已经没有了。这大部分人用的那个方案还是首月的,就是免费的一个模式, 但至于他们怎么来的这个首月免费 plus 我 就不知道了。还有一种就是直接买礼品卡去官方买账号就直充,直充的话你现在汇率最低的应该就是土耳其了,土耳其算下来也差不多一千三一个 pro 啊,二十倍那种, 那如果你是一个 plus, 可能是大概是八十块钱吧,我记得是像豆包他们就是瞄准了就是我们国内的人员,就是获取不到就是顶尖的叉 gdp 这种方案的 情况之下。所以说他能够收费那么贵,六十八块钱都已经可可差不多顶上一个就是土耳其的那个叉 gdp 的 plus 会员了。 做这个头肯生意的中转站是越来越多了,很多小白各种都开始做了,其实这就表明了这个赛道真的是太火太火了,但是你如果现在进场的话,你也一样是死, 如果你走官方直充,你买了账号去做中转,那么你找不到客户被你真的是首搓。 plus 会员就成本可能比较低,现在也就值十块钱,你一天你要搓多少个你才能够回本对吧? 顶尖模型越来越难获取的同时,个人就是特别是 opc, 他 使用托管的成本真的是增加了好多,他想和这种资本密集型的这种企业去竞争几乎是不可能了, 比如说最近最火的一个 ai 漫剧,如果你想和就是这种资本去竞争,直接你就不要想了,一个托管贵不说第二个了,你买了这个会员之后你还要排队,别人都会直接是秒出的。 国外的叉 gdp 和 cloudco 的 也一样面临这个问题, opc 一个个人的现在是很难去和大企业竞争,像 cloudco 的 最新的模型,它根本就不像, cloudco 最牛逼。 像 cloudco, 它现在最新的模型,它根本就不像普通的民众去发售,现在还是在内部的一些有限的名单里面去使用。第一个是它太强了,第二个是如果这个模型供不出去之后太贵了,你用不起, 你用了这个 token, 你 产生不了价值,这是最大的问题。那你买得起一个月两百刀的那个 token, 但是你也用不起,因为你花了两百刀,但是你一个月挣回来的钱,你挣不到两百刀,那是一些传统的一些垄断, 但是一些大型的企业,他们形成了自己的这个技术壁垒之后,有垄断性的话,他们是能够承担起,他们是能够承担得起这个价格的。反正一句话,现在这个 token 市场是特别的乱,如果你没有清晰的盈利模式的话,未来使用 token 的 话是非常非常的难的。 果你没有清晰的盈利模式的,我觉得后面这个头可能根本就买不起。当然大家肯定会说国产的一些啊, c 啊之类的,其实除了 dipc 之外,其他的哪个不涨价对不对? m 上千万他们都出来都是要抢的, 而且他们的套餐还变来变去的,就是加价,说量限流限并发等等等等多,现在到底未来会怎么样,我也不太清楚,我们拭目以待吧,今天就分享到这里,谢谢大家!

智普 g l m 五点一到底能不能硬钢 plus 的 代码王座?这篇包含跑分、实战痛点和使用边界的思维硬核评测,直接把底牌揭开。一句话总结,这是目前最极致的偏科平替,看完你就知道该怎么用它。踩不踩坑。 先看过场数据,底座七千四百四十亿参数底层直接融合了异步强化学习和 deep sea 的 稀疏注意力机制,标称二十万超长上下文,极数上面直接拉满, 跑分直接逼进地表最强。官方测试中, g l m 五点一的编程得分达到四十五点三分,相比上一代直接飙升百分之三十,距离目前公认的代码天花板 opus 四点六仅差了不到三分。单看测试水准,他已经稳稳占据世界第一梯队。 但跑分不等于体验,这是很多开发者最容易踩坑的地方。实战反馈表明,他的代码生成确实有巨大进步,但代价较为惨烈。 这是一款典型的侧向升级产品,为了强吃代码能力,它大幅度牺牲了日常动用、任务处理和创意扮演能力。如果你拿它写文案,表现甚至不如上一代的 glm 五, 更致命的是长文本陷阱,纸面数据标称支持二十万上下文,但在实际高压环境下,一旦你灌入五到七万托盘的庞大代码库模型,偶尔就会出现逻辑混乱,甚至直接发疯。在处理极长代码项目的极限稳定性上,它目前还无法完全替代 os。 既然有缺陷,为什么海外开发者还在疯抢?因为它的杀手锏是白菜价和伪装介入。在当前热门的 cologold 这类智能体开发环境里, 你只需要改个环境变量接口就能零成本把它当成 opus 来用。最关键的是它的 api 倒用价格只有 opus 的 几分之一,这是绝对的降维打击。最后直接给使用。结论,强烈推荐个人开发者和中小团队把它作为主力平替。 日常的写代码修 bug, 写中小型函数用它绝对超值。但是如果你需要重构超过七万头肯的祖传复杂代码,或者需要处理高度复杂的通用写作,请立刻闭坑老实实加钱去用 opus, 或者直接退回 glm 五。

这两天智普差了点意思,国内版卖四十九块的固定款根本抢不着,国际版上十八美金一个月随便买还能用中国信用卡,想涨价就直说呗,耍这个心眼咋当一哥呀?

我只花两小时,用智谱出的 g l m 五点一模型,就做出了这个能快速搜集全网高价值大学专业课学习资料的软件。只要你上传自己的培养方案 pdf, ai 就 会自动解析出你大学四年需要学习的全部课程。随后他会根据我们给他预设的信息源,以及他能够解锁到的其他渠道,去搜集所有高质量的课程资料。中国的、官方的、民间的、文档的、视频的都有。你可以通过资料来源、知识点、 资料形式等等分类方式快速查找这些资料。对于所有资料, ai 都会为你生成一份儿摘药,方便你快速决定要不要仔细研读。软件儿的所有源代码和开发过程中用到的奇制词。最真实的开发记录我都放到了 github 上,大家可以随意学习二次修改。 接下来我就给大家实战教学一下怎么用可拉的 code 和智普最新的 g r m 五点一模型,从零开始,快速把这个像模像样的软件给做出来。第一步是核心功能实现,我们心里要有一个大概的设计,软件的核心功能和页面基本布局想好就行, 其他的东西都可以,后边再一步一步完善。我把初步的想法先告诉了 g l m 五点一,把思考程度调到最高,然后就开始期待它的发挥。一个很有用的经验是给大家一些能参考的东西。我前段时间用的一个开源的 r s s 阅读器就非常不错, 这种三栏式的设计我非常喜欢,我就把这个软件的代码也喂给了 g l m 五点一,让他参考。下边是我用到的完整提示词,大家可以截图保存一下。经过 g l m 五点一四十多分钟的全力奋战,最终出来的结果也很是不错,其中有相当一部分时间我看他都在理解我给他的科研代码, 这个工作态度我非常满意。我自己倒也没闲着,前面用 ipv 看雍正王朝,右边的另一台电脑上也用了 ai 在 跑着我的科研任务基本功能一轮做好之后,第二步就 是额外功能的添加。比如这个软件现在的 ai 程度我觉得还不太够,我希望能够自己来配置,让它用什么样的大魔性 a p i。 比如效果不错的智普 g l m 五点一。 另外我又想到了一个新功能,让用户上传自己的培养方案 pdf, 然后自动解析有哪些课程。要是能够预先设定一些我觉得比较权威的信息源,是不是搜索的效率还能再高一些。把我之前视频里讲的资料获取途径都放在这个软件里,就非常不错。我把我想到的好多新功能都一股脑的告诉了 g l m 五点一。开发过程我真的感受到了一种跟 g l m 五点一并肩作战的快乐。 最后一步就是细节的调试与完善,大操快办总是容易产生一些小小的问题,这个用世界上最贵的大模型也避免不了。不慌,我们就把这些问题都一个一个找出来,然后告诉 g l m 五点一就可以了。什么软件窗口上方无法拖动? api 配置之后测试连接不太成功, ai 专利提取不准,这些小 bug 的 修复速度都很快,只要你能够给 ai 指出来,喝口水的功夫就解决了,又是经过了一段我一边看雍正王朝, 一边等 g l m 五点一给我出结果的时间,这个软件终于是比较符合我心目中一点零版本的样子了,可以拿出来发布。最后给大家总结一下这三步,就是从零开始歪不扣定,做出一个比较可用的软件产品的通用步骤了,希望能对大家产生一定的参考价值, 大家千万也不要被我讲的步骤给束缚了。在跟 ai 一 起工作的时候,我们完全没有必要按部就班,未来我也希望大家能跟我一起把这个软件做得更加完善,我是希望大家都跟我一起歪不扣定的好同学。欢迎大家在评论区参与讨论,补充更多信息。

就在上周五,智普直接在用户社群里扔了颗深夜炸弹, callinplay 全体用户即将用上最新旗舰 g o m 五点幺。拿到更新后,我第一时间上手实测,特意挑了个很考验功底的实操场景,让它从零生成一个赛博复古风的网页游戏。要求一步到位,先设计完整游戏逻辑, 写出全套 h t m 摇加 css 加 g s 赛码,加上像素风 u i 动画特效、计分系统、死亡判定,最后还要自动生成一份可直接运行的说明文档,高 告诉我怎么打开、怎么调试、怎么扩展功能。看着步骤不算难,但懂点开发的都知道,这种从头到尾连贯下来的复杂任务,最吃模型的常上要闻理解和全程专注力。而 g m 五点幺拆解需求特别稳, 全程牢牢盯着核心目标,不会写着写着跑偏漏掉关键细节,写代码时结构清晰不混乱,就连最后配套的运行说明、调试指南都写的特别完整。这一点真的很出乎我意料。 因为之前我也用过一些主流编程大模型,但凡牵扯多文件逻辑,长链路编辑还要配套交付,大多写到后半段就开始往前面的逻辑界面、动画逻辑经常对不上, 最后交付的东西根本跑不起来。但 g i m 五点幺不一样,全程能记住整个项目的结构,从需求理解、代码编辑、界面设计到交付说明,一整条链路丝滑衔接,这种扎实的长城落地能力 真的拉开了很大差距。这确实是目前编程能力第一梯队的模型,尤其是在复杂任务的持续执行和完整交付上,体感差距非常明显,个人觉得能媲美国产的 oppo 的 四点六了。 我们为什么要关注这件事情?因为长城任务能力是检验 ai 智能的新标准。 g m 五点幺突破明显复杂,目标自动拆解,长链路,不跑偏,不掉目标代码,网页 api 无缝切换, 全程记忆,进度连贯推进。直白讲,越来越像靠谱的全职工程师。现实问题随之而来,当 ai 能稳定承接中高阶工程任务,人的不可替代性还剩多少 头部企业全在压这条赛道,能力越强,肉眼可见,尽早吃透用好这类工具,才是接下来的核心竞争力。现在 g i m 五点幺已面向 g i m c d play 用户开放,性价比超高,闭眼入不亏,你准备好了吗?

没有想到都跑手机的朋友们,恭喜你省了三千五,因为就在昨天的时候,支付把它的 autgrm 开圆了,它可以直接机关你的手机屏幕,替你思考点击输入场景,覆盖了五十多个高频的中文 app, 比如说微信、淘宝、抖音、美团这些核心的场景,它都是可以跑的。 我拿它做了两个小测试,有亮点,当然也有吐槽点。首先第一个点外卖,它是真的可以跑通,比如说你想在美团上去下单,然后到加购,下单路径是很顺畅,你会产生一种错觉, 好像手机里面住了一个非常懂你小助手一样。第二,他的一个跨平台笔架是很实用的,我可以让他对比淘宝和京东同款拖鞋,他能够自己搜,自己去对比,最终给出你的一个结论,这就不是什么聊天机器人了,这相当于一个端侧 a 阵的他真真正正的上桌了。更关键的是什么?他居然很克制, 比如说他碰到了支付或者验证码之类的敏感操作呢?它会自动停止让你接管,很聪明,不会约借。但有一点很值得吐槽,就是现在的形态对普通人是不够友好的,你要用电脑通过 a、 d、 b 去控制手机体验,实际上更像是你在电脑面前远程控制着你自己的手机,就很奇怪。大家如果想要试试,可以找我拿下开源地址 和它的一个部署教程。智普啊, autolm 开源,我想说的是,它的价值不是在完美的体验,而是说它释放了三个信号。第一, ai 手机的异件可能要被打下来了, 以后的 ai 体验不一定要靠很贵的硬件,说不定就是靠的一个开源框架加它的一个端侧的能。第二就是大厂的 for a 阵固城河开始变浅了,开发者和极客们可以直接拆改做出来自己的版 本。第三呢,无障碍和轻量自动化领域绝对是要爆了。对于一些操作是很方便的人群来说,语音加 ai 操作就等于手机自由。欢迎大家评论区留下你的想法。

智普啊,发布了 glm 五点零,为了测试它的能力啊,我用它构建了一套可以无限运行的 ai 开发系统。我用这个系统运行了长达十个小时,从晚上十点到早上八点, ai 做了几十次 getmate 的 提交, 开发了一个 ai 漫剧生成工具,有前后端有数据库,可以用户注册和登录,还接入了大圆模型,图片生成模型,视频生成模型。通过这个视频,你会学到如何构建这样一个无限运行的 ai 开发系统,并了解到 glm 五点零的惊人开发能力。 整个过程我都只是输入简短的 prompt, 没有亲自阅读或修改任何一行代码。我一直在旁边玩着游戏,等他干活, 尤其是我视频最后会讲的,他把整个项目的所有模块联合起来,然后端到端的 bug 修复错误,非常的牛逼。他不只是单纯的写代码,他甚至自行在浏览器中验证每个功能的正确性,找出 bug, 然后自行在浏览器后端数据库第三方的 api 之间联合调试,找出问题,修复错误。 那赶紧进入正题啊,相信对你会有所启发。我使用的工具是 cloud code, 并且把模型切换为 g l m 五点零,具体方法可以看我之前这一条 g l m 四点七的视频。 那我们首先要搭建一套能无限运行的 ai 开发系统,说是系统,其实就是几个文件,做法非常简单,我把一篇来自 astonopy 的 神级文章发给 ai, 让他自己去学习,根据这篇文章做出这套系统 文章叫长时间运行智能体的有效调度编排框架。那过程中 ai 做出了一些操作预期的举动,他通过 m c p 打开浏览器, 通过这篇文章的页面找到一个配套的 get up 仓库,打开仓库的代码文件进行学习。而我事先都不知道这个代码仓库的存在,最终他创建出了这一些文件。 我解释一下最重要的几个,帮你理解一下这套系统的工作方式。 task 点 jc 文件,其实就是一个任务列表,每个任务都有它的描述,并且会标记是否已经完成。和我们人类工程师每天上班一样, ai 每次从这里面领取一个任务, 完成后就做一个标记,这样他的 ai 同事啊,就知道项目进展到哪里。 progress 点 txt 文件,每次 ai 完成任务啊,或者任务失败后,都会在里面留下工作日期,这也是为了给其他 ai 同事提供一些信息。 log 点 m d 文件,这里面全是提示词,用来指导 ai 根据固定的规范流程工作。和我们人类工程师的开发流程类似, 第一步,跑一个脚本,来初识化整个项目的环境。第二步,在 task 里面领一个任务。第三步,就开始开发。第四步,测试和验证。 第五步,更新 progress 和 task 文件。第六步,用 git 提交代码。那如果中间遇到困难,需要人工介入,它就要及时向人求助。那在以前一些长期运行能力不强的模型中啊, 这么长的开发流程,一旦工作上几十分钟,模型就会逐渐混乱,不再按照规定的流程工作,而如今完全没问题啊。视频后面我们会看到, glm 五点零,即使在长达一个小时的工作,提交了几十个 commit 后,仍然很好地遵循开发规范。 然后呢,我让他写一个脚本,用来无限时间的运行。这一套开发流程背后的原理很简单,就是把 cloud code 放到一个 while 循环里面,这样一来,人不在电脑旁边的时候没法手动 prompt, ai 就 可以执行这个脚本,让 ai 无限的工作。它之所以有效,有几个原因啊, 第一,我们这套流程每次只要给 ai 说一句,完成下一个任务,不需要更具体的指示, ai 就 能通过 task 和 progress 文件知道自己现在应该做什么。 第二,每个 task 都很小, g l m 五点零足够的强大,每一次 y l 循环里面,他只是领取一个很小的任务,并且严格的测试,成功率极高。第三,每完成一个任务,模型的上下文都会被清空,所以模型始终保持在最聪明的状态。 第四, g l m 五点零非常可控,严格按照工作规范执行,每次小任务都会进行 commit, 所以 即使出错,我们可以轻易地回滚到旧版本。 好,现在我们这套系统有了,接下来就要开发软件,我们先来设计一下它的功能和架构。这个软件的用途是一句话,生成长视频。我让 ai 把整个项目的开发需求拆成了三十一个任务,放到 task 文件里。 这是 ai 设计的软件,架构不复杂,但五脏俱全。再看一下 ai 画的业务流程图啊,帮助大家理解我们要开发的这个软件具体的功能。 首先,用户会创建一个项目,然后用大圆模型生成每一个分镜的文字描述,然后再用图片模型生成每个分镜的图片,再用视频模型生成。视频开发的流程比较长啊, ai 做了几十次提交,我就选几个精彩的给大家讲。 在 ai 做到第十九个任务的时候,为了测试 glm 五点零的能力呢,我产生了一个大胆的想法,我让他一口气做了一个多小时,完成了十一个任务,干完一个又一个,中间我没有任何干预, 给大家倍速感受一下效果。他一直在写代码,并且每次都遵循我们的开发规范,每个任务都完成,测试一个,一个任务,单独提交代码,拿一个具体的任务作为案例啊。他现在领取了任务三十,任务目标呢是实现响应式的布局,也就是让 u i 在 手机端和桌面端看起来不一样。 他现在正在修改代码,然后验证项目能 build 通过。然后他现在把浏览器的大小变成了手机屏幕大小。打开了我们的应用,他点击了一个按钮, 他对页面做了一次截图,用识图的 m c p 判断是否正确。再打开了一个新的页面,再做了一次截图,并检查是否正确。然后在 progress 里面仔细描述了自己所完成的工作,然后把这个任务标记为完成,他就按这么一套方式疯狂的干完了每一个任务。 要接入数据库的时候呢,他主动提出需要人工帮助,并且一步一步地给我说明,告诉我如何去这个 superbase 平台啊,点哪里创建项目,配置数据库,获取 api key。 尽管我没怎么用过 superbase, 仍然轻松地操作下来了。中间我还犯了错误,给他提供了错误的 key, 也被他及时发现,最后他还让我帮他去注册一个测试账号,然后他自己打开浏览器,输入账号密码,验证登录功能,可以正常使用。那像 superbase 这种外部的系统啊,超出了 ai 的 控制范畴。 g o m 非常明确的给我提供指引,让我协助他完成开发工作,一个不了解后端的人,也能在他的指引下完成数据库的配置。 他开发完后端一系列 c r u d api 后呢,声称对每一个 api 都进行了测试,但所有的 api 都是需要 os 的, 前端也还只有一个空白的页面,所以我就很好奇他哪里来的 os 权限,怎么完成测试,是不是在忽悠我? 于是我问了他一下,他用简短的语言,漂亮的格式向我解释。他说他打开浏览器,登录了刚才创建的测试账号, 然后通过一个叫做 browser evaluate 命令,在浏览器可以执行任意的 javascript 代码。然后他写了一些临时的 js 代码,就在浏览器里运行,调用我们的后端 a p i, 这样就能有 office 了。非常聪明的做法,我还怕他在骗我,我检查了一下录像,确实如他所说,他打开浏览器疯狂测试, 中间还真测试出不少问题,他就自行查看后端的报错日期,自行修复。最终三十一个任务全开发完后,啊,我也懒得去人工验证这个项目是不是已经可以用了。在往常的开发中啊,到最终阶段,因为已经把 前端、后端、数据库、第三方 api 全部连起来了,那第一次的集成测试啊,就会非常头痛,因为任何地方都可能出错,往往需要浪费大量的时间再把错误找出来发给 ai, 让 ai 去修复。但这一次我非常大胆,我只说了一句话, 请你完整测试一遍流程,确保功能可用。大概就是从早上七点十分开始,他自己在浏览器上疯狂测试,花了一个小时提交了这么多改动,用来修复 bug。 我看他在浏览器上像人一样一步步操作我们的产品,通过截图和视觉能力来判断是否符合预期。遇到问题的时候呢,他就自己查询后端的报错,检查各种 api 的 状态,综合分析出问题。最终他总算顺利的生成出了第一个视频,端到端的把整个应用全部打通了。 他修复的每一个 bug, 做的每一个 feature, 其实我都不清楚是什么情况,但我想知道的话,我只要找到他的 commit 记录,看一下他在 progress 文件里写了什么。这也是这套流程的强大之处,一切都是可追踪的。 我们让 glm 五点零一边开发项目,一边在开发过程中发现问题,让 ai 来增强我们这一套自动化的开发系统,左脚踩右脚,螺旋升天,我相信这就是未来开发者的工作方式。总结来说, glm 五点零已经远远超出了单纯抠顶的范畴,而是能对软件工程的每一个环节进行自动化,提升效率。 gm 五点零在超长任务上非常出色,已经达到了能让我放心的交给他连续运行一个小时的程度。横向对比的话,我个人认为 gm 比刚发布的 oppo 四点六弱一点,但在一些方面可以超过 gbt 五点三。 重点是价格便宜非常多,但现在过于热门啊,供不应求,抠钉套餐非常难抢。那我们这个项目呢?虽然现在端到端全部打通了,但最终深层的视频效果还有很大优化空间。点赞到一万,我可以开源出来,让感兴趣的人进一步优化它。

glm 四点五到四点七,再到五,现在到了五点一。很多人第一反应是,哦,又出一个新模型,参数更大,能力更强,对吧?错了,这次更新不一样,智普不是在跟你拼模型技术,是在跟你拼应用落地。看官方文档怎么定义。 glm 面向 agenc engineering 打造, 擅长复杂系统工程与长城 agent 的 任务,在真实编程场景的使用体感逼近 cloud、 opus、 四点五这些词,你看到了什么?大多数人的解读是哦,质朴的编程能力很强了,跟 cloud 差不多了,还能做 agent 任务。但还有一个信息,你可能漏掉了通用 agent 助手的理想寄宿。 什么意思?以前我们说 ai 助手是一个问答工具,你有问题,他给你答案,代码错了,你问他怎么改,下一步该做什么,你问他怎么写,从头到尾是你在掌控节奏,但面向 angelic engineering 打造的模型不是这样。 agent 它是什么? agent 是 智能体, 智能体不是等你来问。他可以自己规划任务,自己制定步骤,自己执行流程。你给他一个目标,他自己去拆解成若干步骤,自己去判断每个步骤该怎么做,自己去执行,自己去检查结果。如果有问题,他自己调整,如果中间有障碍,他自己绕路。这就是长城 aj 的 任务。 以前是你带着 ai 工作,现在是 ai 带着你工作。你给出一个需求,比如帮我写一个完整的电商网站前端以前的模型,你可能要问十次,先写什么?这个组件怎么连? api 怎么调?样式怎么调?报错了怎么改? aj 都不需要它自己规划,先搭架构,再写组建,再对接 api, 再调整样式,再修复 bug, 再优化性能,一步一步它自己推进,你甚至可以在旁边看着。这就是 glm 五这次更新的核心,不是告诉你我的编程能力有多强,而是告诉你我已经可以像真正的开发者一样工作了。这背后是什么? 是智普看到了一个更大的战场,模型能力竞赛打不完的,今天你第一,明天我反超。但应用落地是另一回事。谁能真正进入开发者的工作流?谁能真正减少开发者的操作成本?谁真正能让开发者每天打开编辑器,就觉得 ai 是 自己在写代码? 这才是真正的竞争。智普这次选择了后者。五点一不是技术秀,是战场转移的信号。他告诉大家,别再盯着模型排行榜了,看看你的工作流。如果你还在用以前的模型,还在像对待一个问答助手一样对待 ai, 那 你可能已经错过了一个时代。因为新的 ai 不是 用来对话 的,是用来共事的。你需要的是一个能跟你一起写代码,甚至比自己还懂整个项目的 ai, 这就是 g l m。 五点一。

就在一小时前,智普正式宣布将旗下最强的编程模型 glm 五点一开源作为一款性能仅次于 gpt 五点四和 oppo 四点六当前开源阵营中编程能力最强的大模型,此次智普的开源确实来得有些出人意料。 此外,智普还演示了 glm 五点一超强的自主完善加自我迭代能力模型在连续八小时不间断编程过程中,居然自主构建出了一个完整的 linux 桌面环境,并生成超过五十个可运行的桌面应用,整体可用性相当高。 这一结果不仅展示了其工程稳定性,也体现了其在复杂系统构建上的持续推理与执行能力。 消息发布后,网络反馈同样热烈,有人直呼这才是真正的先进生产力。也有人开始向 cloud 发问,开源模型已经强大到这个程度,闭源阵营是否也该有所回应,拿出新的策略?

一分钟 ai 资讯智普 ai 发布 g l m 五旗舰大模型,性能机身全球前列,全面适配国产算力平台,部署成本大幅下降。阿里同意签问三点五星模型 c d s 二点零持续在海外走红,国产多模态技术获全球认可。 open ai 下调长期算力支出,目标转向更理性投入。 x ai 与美国房部签约, guac 模型进 入社密系统,安卓 pick 发布代码安全工具,谷歌为教师提供 ai 培训端测 ai 推理技术迎来突破,国际监管持续升温。加拿大与 open ai 对 话安全议题国内广东完成超百款大模型备案,行业走向规范落地点,关注 ai 资讯早知道!

据报道,今日一网友让智普 g l m 五创建一个网页展示自己 g l m 五,竟然称自己是 cloud 哈。网友再次向 g l m 五询问一般什么情况, a 大 模型说自己是 b 大 模型,他自己回答可能是数据污染或提示词注入要求的角色扮演,或者是安全对齐不足,甚至是模型微调套壳。