这里是 ai 每日新闻 olivia 正在从卖显卡转向构建 ai agent 生态。他们刚刚发布了开源平台 agent toolkit, 不 仅提供了内蒙创模型组, 还推出了能降低百分之五十查询成本的 ai q 知识引擎,以及集成了 cloudstrike 安全能力的运行式环境。 目前 adobe salesforce 已经在用它做 agent 编排第二巨头 iqviia 更是直接部署了一百五十多个 agent。 现在的 ai 编程工具往往只能看单个文件,很难理解整个项目的结构。 get nexus 解决了这个问题,它通过一条命令就能把整个代码库变成一张知识图,搞清楚函数调用和模块间的依赖关系,再通过 m c p 协议把这些信息喂给 cloud hold 或 cursor, ai 就 能拥有大局视野。而且它支持十四种语言被在本地运行,数据完全不会离开你的电脑。 参数量大就一定强吗?不一定。海外技术社区发现,只有三十一 b 参数的 google java 四竟然靠一个方法干掉了 gpt 五点四。 这个方法叫迭代修错循环,他让小模型在推理时不断自我检查,并且通过长期记忆库记住之前犯过的错。这种让模型在循环中不断自我修正机制,让小模型在特定任务上的表现直接碾压了比他大几十倍的闭元模型。 开源模型在编程领域再次迎来爆发。智谱发布的七五四 b 参数模型 d l m 五点一,在 swbench pro 编程水准测试中,同时超越了 opus 四点六和 g p t 五点四。它最强的地方在于能自主工作八小时,完全不需要人盯着。 现在华为云已经可以免费使用了, ai 行业出现了一个罕见的现象,因为模型太强,厂商决定不发布。 aphropics 在 测试 cloud missile 时发现他能轻易发现所有主流操作系统和浏览器的安全漏洞。为了防止风险,他们决定不公开发布,而是推出了 project glasswing, 只把模型交给经过审核的安全研究员使用,并联合苹果、 cisco 等十二家公司共同进行安全研究。 最后提醒一下 antropic 的 付费用户,如果你是 pro 或者 max 用户,记得去邮箱查收邮件,官方发放了一张金额等于你月费的一次性信用券,作为对近期限制第三方 agent 使用的补偿,请务必在四月十七日前手动领取,否则过期就作废了。
粉丝140获赞962

一个问题就是他这个 gm 这些模型的排队量实在太恐怖了,基本上一排就排大几千个,根本就没法用,你总不能一个问题让你等一个小时吧? 这怎么办呢?我觉得大家可以用下这个腾讯出的 code 白等,它里面用的这个模型和区域里面差不多,基本上这个 gm 五点一,还有 v 五 turbo 五,四点七,还有 gm 二点五啊, 还有二 m 二点七啊,三点二啊,这些都有,该有的都有,没有豆包和千问, 豆包是因为他没开源,千问的话你懂的,腾讯和阿里这关系不太可能去用,像华为不太可能去用小米的一模大模型一样,这玩意发布已经有一年多了,我觉得他有个很好的好处,不仅是那个程序员可以用他产品啊,自己吃着也可以用,所以他支持这个飞格玛的设计稿, 那简直完美,哪怕你是个后端程序员,你想做全站或自己创业的话,其实也很合适。这东西唯一的不好的地方就是它只能用国产大模型,如果你要用国外的模型的话,你去下国国际版,它可以用 gbt 模型, 但 gbt 要花钱了。国内的这个 code button 是 免费的,而且不用排队,非常好。而且好处就是我感觉它这个地方你点设置这里面它内置的插件商城,我觉得是要比这个吹要好很多的,大家可以好好的用一下。

断档第一!就在刚刚,智普 g m 五点一登顶 swbench 等一众硬核榜单,连 happy face 的 ceo 都发文祝贺。在编程能力三项综合测试中, g m 五点一也达成了开源模型第一,国产模型第一的成就直逼 clop 四点六和 g t 五点四 外,网上已经开始疯狂安利了。所以今天六博士就和大家一起拆解这个被称作新晋国产元神的 gm 五点一究竟有什么创新点?他的实战能力到底如何呢?点赞收藏,方便回看!接下来一起进入本期云祖会 gm 五点一的强大可以总结成一个词,长城任务能力。什么是长城任务?简单说就是那些不能靠一句提示词解决,需要跨步骤、跨工具、跨时间持续推进的工作, 比如开发一个完整的应用,或者重构一个老项目。 ai 模型评测机构 m e t r。 研究显示,在编程领域, ai 能完成的任务复杂度呈指数级增长, 每七个月就翻一倍。行业的共识是,单人回答已经不够看了。正如 m i t tech review 和顶级资本所判断的,二零二三至二零二四年的 ai 是 对话者,而二零二六至二零二七年的 ai 正成为执行者。 交付单位正在从一个回答变成一个项目。以前的模型像个聪明但健忘的实习生,走几步就要人提醒,稍微复杂点就丢上下文忘约束你,让他忘了你删不之前说的数据库规范。 而 glm 五点一的目标是让它能独立交付,对最近非常火的 harness engineering 无疑是锦上添花。长城任务能力才是检验模型智能的下一个标准。 口说无凭,我们来实测一下,我们直接拿号称宇宙最强的 cloud opus 四点六和 glm 五点一做对比 来,我们现在开始丛林手搓一个植物大战僵尸。我们可以看到,在搭建整个游戏框架的时候,居然五点一完全自主规划并执行模型,创建了五乘九的方格,按照类别创建植物僵尸并设计游戏机制。来看看,不错啊,感觉有模有样了。 那我们来考验一下他的长城任务能力,让他再优化更新一下游戏输入提示词,增加观察选择、返回菜单按钮功能。 可以看到,虽然整体美工上因为没有着重设计,稍微有些简陋,但在游戏机制和体验上, g o m 五点一完美复现了植物大战僵尸的核心内容。而且体验最好的是它中间遇到翻译报错时能自己查日期,改代码,重新跑通,全程无需人工介入。 反观 core 这边,实在出乎我的意料,一开始点开始游戏进去没画面修正以后,美术风格也不如 g l m 五点一。接着我们来再看其他四个案例的对比, 刚刚看到的四个案例,不论是火山爆发还是月球围绕地球旋转动画, g l m 五点一都是全流程一次过,而 cloud 在 火山喷发和机械表案例第一次喷不出画面。 所以说结果就见仁见智了。至少从以上五个案例上看, g i m 五点一是更好的那个。 为什么 g i m 五点一能扛住长任务,不跑偏,不锻炼核心有三点。第一,更强的长城规划与目标保持 模型,不是你说一步他做一步,而是能把复杂目标拆解为多阶段可执行计划,并在长链路执行中始终围绕最终交付推进,减少跑偏、遗忘、约束或陷入局部坠油。 第二,更稳的多工具协同、代码编辑、环境调试、 api 对 接环节衔接稳定。过去开源模型长任务后半程容易断裂,而现在 g m 五点一能自主排查修复,不用停下来等你。 第三,更好的上下文一致性,这是他能对标 cloud op 四点六的关键点。在多轮交互后期,模型啊仍能稳定追踪已完成的内容,当前阶段和下一步的关键动作,有效解决了上下文中的稀释效应。 这一切的背后,是 g l m 五点一引入了 multi turn 强化学习和过程质量评估体系,它在可能性、自适应、纠错、工具使用与推理三个维度实现了进化。对比 k 二点五等竞品,它不再是需要盯着的聪明应届生,而是给目标就能独立交付的老员工。 试完 g l m 五点一之后,我装那愣了一会。之前编程啊,我更愿意用 cloud, 但这次试了 g l m 五点一之后呢,确实不得不感叹,国产模型的进步啊,真的很大。 以前我觉得 ai 再强,它也只能做碎片化的工作,我作为拆解任务把控权局做决策的人,位置啊是安全的。但当模型啊开始自主规划、自主执行、自主纠错、自主交付时,我突然意识到自己的可替代性啊,在迅速上升。 我并不想呢,贩卖焦虑,但你体验过之后,肯定能明白我想表达的是什么。最后, g m 五点一墙归墙,但你这抠钉 pen 的 速度啊,实在是有一点供不应求了,赶紧给服务器扩扩容吧。

大家好,今天我们来深度解读智普刚发布的 glm 五点一,一个能独立工作八小时,编程能力达到 cloud opus 九十四点六的开源模型。这不是渐进式进步,这是开源模型的范式跃迁。先来看智普这半年的迭代速度,从去年底的 glm 四点五,到今年初的 glm 四点七,再到二月的 glm 五, 然后三月二十七号 g l m 五点一就上线了,距 g l m 五发布才一个多月。而且智普这次发布非常低调,没有发布会就在用户群里说了一句, coding plan, 全体用户直接升级,但成绩是实打实的。 artificial analysis 综合能力开源第一, s w e bench 代码工程能力开源第一, open router 用量开源断档第一。三个维度同时登顶,说明这不是偏科,是全站突破。 g l m 五点一最核心的突破不在于能回答多难的问题,而在于能独立工作多久。过去所有模型的交互模式都是分终极的,你给指令,他给回答, g l m 五点一打破了这个限制,能在单次任务中持续自主工作长达八小时,完成规划执行、迭代优化的完整壁画。 具体来说,他在三个方面实现了质变,第一,长城规划与目标保持,你给他一个目标,他自己拆除执行路径做到第十步,还记得第一步定的约束。第二,多工具协调,不是会做一步,而是能跑完全程。第三,上下文整合,不再出现做到一半忘了前面约束的问题。 来看技术架构, glm 五点一的总餐数量是七百四十四币,采用二百五十六个专家的猫易架构,但活跃参数只有四十币, 相比上一代活跃参数仅增加了八 b, 能力却实现了飞跃式增长,这说明架构效率极高。三大关键技术,第一, deep seek space attention 稀疏注意力机制,在保持二百 k 上下文的同时,大幅降低部署成本。第二, slime 亦步强化学习框架,这是质朴自研的 r l 训练框架,代号史莱姆已经开源,它让模型能在优化碰壁时主动切换策略,而不是反复尝试同一个方向。 我们把三代模型放在一起对比, glm 四点七十三为五 b 参数,三十二 b 激活定位高性能编程模型, glm 五完成了从三百五十五 b 到七百四十四 b 的 架构跃迁,编码评分三十五点四,而 glm 五点一在同样的七四四 b 架构下,通过 slm 二 l 和 dsa 的 技术创新,把编码评分拉到了四十五点三,相比 glm 五提升了百分之二十八。长城任务能力的变化最为显著, g l m 四点七是分钟级, g l m 五也是分钟级提升,而 g l m 五点一直接跳到了八小时级,对,其目标也从 s n a 四点五一路追到了 opus 四点六。这印证了一个重要趋势,模型能力的提升不再单纯依赖参数规模, 而是靠更聪明的训练策略和架构优化。来看三个震撼案例,第一个睡前交给 g l m 五点一,一份架构草图。 早上醒来,一套完整的 linux 桌面系统已经做好了,历时整整八小时,执行了一千二百多步,产出了桌面窗口管理器、状态栏、应用程序、 vpn 管理器、中文字体支持游戏库等等配套文件四点八兆,这相当于一个私人团队一周的开发量,而且全程没有人参与 模型,甚至自己写了回归测试,还跑过了第二个案例,更硬核 g l m 五点一对向量数据库做了六百五十五轮自主迭代优化,它不是简单微调参数,而是完成了一整套优化链,从全库扫描切到 i v f 分 桶, 引入半精度压缩,加入量化粗排做两级路由,再到提前减脂,每一次跳跃都伴随着短暂的性能下降。 因为模型在探索新方向时暂时打破了约束,然后再调回来,这个打破修复循环本身就是有效优化的标志。最终查询村土从三幺零八 qps 推到了二幺四七二, qps 提升六点九倍。第三个案例,在五十个真实 m l 计算赋载上, g l m 五点一自主编写 treaton kernel 和 cody kernel, 运用 cobbloss 融合 shared、 memory、 tiling、 cody graph 等优化,超过二十四小时不间断迭代,最终取得三点六倍几何平均加速比。而 touch 到 compile 的 max auto tune 模式只有一点四九。 在 gpu 内核优化这个高度依赖专家经验的领域, ai 已经展现出端到端的自主工作能力。来看硬指标,在 s w e bench pro 最接近真实软件开发的精准测试中, g l m 五点一刷新全球最佳成绩,首次实现国产模型超越 colog 的 oppo 四点六。这个测试要求模型在真实 github 仓库里定位并修复高难度 bug。 综合三项最具代表性的代码评测,平均结果,全球模型第三,国产模型第一,开源模型第一, 量化到 cloud code 编码评分, glm 五点一拿到四十五点三分。 cloud opus 四点六是四十七点九分,达到了 opus 的 百分之九十 四点六,相比 gim 五的三十五点四分提升百分之二十八。最后看价格, glm 五点一的输入价格,每百万 token 只要一美元,输出三点二美元, 输入成本是 cloud opus 的 五分之一,输出成本更夸张,仅为 opus 的 七分之一点八。 gpt 五点四的四分之一,简单说就是百分之九十四点六的 opus 能力。 百分之二十的价格,有意思的是,智谱同时还涨了百分之十。涨价后, g l m 五点一在抠定场景的价格已经接近 cloud sonic 四点六,这是国产大模型首次在核心场景与海外头部厂商价格对齐。敢于涨价,本身就是对能力的自信。 g l m 五点一已全面开源 api, 通过 big model 开放平台和 z a i 接入, z a i 的 聊天产品已经上线 g l m coding plan, 全部用户都可以使用, 兼容 cloud code、 open code 等主流开发工具,开源权重在 github huggingface 和 model scope 上都可以下载。总结一下,从 glm 四点七到 glm 五,再到 glm 五点一,开源模型正在经历一条清晰的能力跃迁, 从效率工具到大众创造,到自主执行,再到持续交付。 glm 四点七让模型会写代码, glm 五让模型像工程师一样执行任务。 glm 五点一则把目标推向了让模型像资深工程师一样持续工作八小时, 交付完整成果。长城任务是检验模型智能的下一个标准,当一个开源模型能独立搞定中高级工程任务,我们需要的不仅是更强的模型,更要重新思考人类工程师的不可替代性在哪里。感谢观看,我们下期再见!

母亲言新出了个模型啊,怎么样?这个模型他说说非常厉害。 jim 五吗?我看看啊,像有的官方说的,他的 humanity last exam exam 评分是比较高的啊,就拿这个评分来说啊啊,其实我们测一下会有很大的问题,你看一下这个屏幕,我看看 我们呃抽取了 horamis 的 mass 数据集,大概是一千多道,然后去测这个质朴清源拿这个呃正比奈,正比奈 flash 作为这个评判遇到一个什么问题呢?我发现他在解答这种数学类的问题的时候,他的思考时间头肯输出了将近两万,也就是说他两万还在思考都没有输出完, 所以说我们这个他根本就测不了,在我们看来,然后即使测的了的话,一次回答的成本大概在呃五毛钱左右,就一个问题大概在五毛钱,而且还两万都没有出答案,所以我们在想会不会是我们的测试出了问题, 于是我们又到了他的这个官方上,就试验了一下啊,现在还在跑是吧?我们这个数据集从呃几分钟之前就开始跑,呃直接停掉,然后我们可以往上拉,一直拉一直拉,就你就说他这个思考过程无限的延长,无限的思考,他虽然这个回复的内容是正确的,但是他貌似陷入了一个死循环的过程。 就是你是让他回答了一个问题是吧?数学问题, melodies 里边的一个数学 max 类别的问题啊,问题其实不复杂,他是一个单选,他有两两种类型,第一是选择题,第二是那个检查题。我们在问给他这个数学问题的时候,问了两道到三道,基本就是无限循环,然后他的费用基本在无限上涨, 所以我们我们也可能比较怀疑像这种评分它虽然很高,有没有可能它的思考过程会非常的长,可能是无限的,也他可能把这个给忽略了,他能思考一个问题,思考五分钟出了一个答案。我们也测了一下,像 jimmy、 nike 这种可能也就几秒钟就出答了,所以它会存在这样一个差异点, 所以说它这个评价体系稍微有点问题。也不算吧,我们后续可能还会对这些整体评价再整体测评一下,至少我们现在现在来看还是跟大家想的差别很大, 太大了。数学问题你要等个十几分钟去给你解出来。那我都做完了,你自己都做完了,哈哈哈,考试都结束了是吧?该交卷了。对,我们也建议在啊,我们建议在回答的时候还是把这种时间这个综合的都考虑进去。

现在还有人在用轨迹流动这个平台吗?我感觉这个平台完全一点优势都没有。你看他这个模型的价格, 以这个 gm 五点一举例,他价格是输入每百万投坑六万六块钱,是否这个地方他官方也是六块钱?那我为啥不用官方,我要用你呢? 但你一点成本优势都没有啊,谁能告诉我?而且他也不像那个中转站一样用你呢?但你一点成本优势都没有啊,谁能告诉我?而且他也不像那个中转站一样都没有啊,谁能告诉我?而且他也不像那个中转站,他只做这个开元生意, 把开源人的模型记下来,自己部署一下。之前问他们老板为啥说不做这个中转站,他说商业模式不一样。但我觉得这轨迹流动的商业模式真的有前途吗?

昨晚,智普突然扔了个大招,距离 glm 负五发布才一个多月, glm 负五点一直接杀到编码能力暴涨百分之三十,得分从三十五点四直接跳到四十五点三。 cloud op 四四点六,才四十七点九,差距已经肉眼可见地在缩小。六个月前,这个差距还是十几分,现在只差二点六分,达到 cloud op 四四点六的百分之九十四点六。在实际编码场景中,这个差距几乎可以忽略, 有人甚至说应该直接叫 g l m 负五点五。还有用户测试发现, g p t 负五点三都没搞定的问题, g l m 负五点一直接解决了。看数据, s 大 愈减, bench verified 得分七十七点八,开元模型最高 turmnobench 二点零,得分五十六点二,超过詹姆奈三点零。 pro 擅长复杂系统工程和长城 agent 任务使用体感逼境 cloud opus 四点五,这是目前国产编程模型的天花板。说价格, cloud opus 按量计费每百万 token 大 概十五到七十五美元。 g l m 负五点一,通过 coding plan 使用 light 套餐,三美元起步,按量计费每百万 token 只要一元, 用 cloud 十分之一的价格,获得百分之九十四点六的体验。使用方式超级简单。如果你已经在用 g l m coding plan, 只需要找到配置文件,比如 cloud code 的 sighting store js, 把模型名改成 g l m 负五点一就行了。 一行配置无缝切换,支持 cloud code、 cursor、 open cloud 等主流。 coding agent 质朴也很坦诚,说了两个现实问题,第一,高峰期可能限流, 每天下午两点到六点,系统负债最高,编程任务会被优先保障,非编程场景可能会排队第二。高峰期消耗三倍额度,非高峰期只按一倍抵扣,建议错峰使用,体验会好很多。重点来了,现在到四月底, g l m 负五点一 在非高峰期只按一倍抵扣,这个福利期间用起来超级划算。三美元的 lite 套餐,日常开发完全够用。 pro 和 max 套餐适合重度用户,发布几小时内已经大量用户上手体验, x 上好评不断。 有人说稳定性比 g r m 负五好很多。有人说长链路 a 阵这任务终于不崩了,从三十五点四到四十五点三的百分之三十暴涨,不是吹的,是实打实的工程能力提升。如果你是国内开发者,不想翻墙用 cloud, 又想要接近 opus 的 编码能力, g l m 负五点一目前是最佳选择,尤其适合复杂工程任务和长城 a 阵开发。 g l m 负五点一国产编程模型的天花板编码能力直逼 cloud, opus 价格只要十分之一。邀请码在评论区点赞加关注,赛博杨千焕明天见!

这个游戏是我用 g l m 五点一刚刚花了四个小时做出来的,这个效果多少有点儿经验了。现在呢,带你从头看这一轮小更新的大效果。上来先给了我十二个关键动作的详细执行计划,不着急写代码,先把框架理清楚,这就是 g l m 五点一长城规划能力。接下来,先写后端 server, 再切到前端的 index, 然后攻克 java script 交互逻辑,最后编写三 d 核心入口文件, make python, html js 多语言无缝切换文件,系统代码变器,多工具稳定衔接。整个过程没有一次的执行中断,没有一次的 逻辑断层。代码写完,自动启动本地服务器准备测试,结果首页挂了。它精准定位到了 fast a p i 版本,兼容性问题,然后回头去修复了三个小时前写的 starbucks 文件,你没有看错哦,三个小时前,在这四小时里啊,它写了上万行代码,跨了几十个文件。但当 bug 出现时,它能够精准召回那段后端逻辑,完成修复, 重新测试,游戏完整交付。这种状态延续和上下文整合能力,我给到一个字,汤,再看一个,体感会更明显。我让他从零开始做一个情绪记录网站。他在五分钟时写了 user 时,定义了用户数据模型,到了十九分钟写 else 时,能够完美调用之前定义的接口。到了三十七分钟写 mood 时,依然记得最开始设定的情绪记录逻辑。 这个是跨越了三十多分钟,十几个文件的上下文一致性跑数据库。说实话,脚本时遇到 g b k 编码冲突, print 语句报错。他先检查数据库文件,发现数据其实已经写进去了,逻辑是通的,只是打印语句报错,然后精准回到了代码里面,修复了那几个 print, 再次执行成功交付项目包含了前后端,实现全程 ai 完成, 而且几乎无 bug。 在 整个的超长绘画里面呢,它能够判断出部分成功的状态,知道不需要从头来,只需要修复那个编码问题。我把这个过程给老程序员看,他们直呼惊艳。但这个还不是 g m 五点一能 的天花板,它更可怕的是,可以用十四个小时完成库达 carner 优化。要知道啊,这个是资深的库达工程师需要数月才能完成的工作,而一个资深的库达工程师,培养周期长达数年,年薪百万起,是全球最稀缺的高性能计算人才。现在呢, ai 十四个小时就能交付这群人的工作成果。艾莉跑到现在那句话我有点信了, why 不 定解决的是让更多人能创造,那 ergative 解决的是让 ai 能够执行。那么 long horizon 要解决的就是让 ai 像一个资深专家一样,持续的工作交付成果。因为真实世界里面最有价值的工作,从来不是一句 promise 能搞定的,它需要跨步骤、跨工具、跨时间的持续推进。这个也是 g l m 五点一诞生的 原因。目前呢,在 artificial analysis 榜单上, g l m 五点一成为了首个突破,五十分的持平。在此之前啊,只有币源的 g p 四 o cloud 能够做 到。现在,开源阵营终于站在了同一水平线。更狠的是, swbench pro 这个榜单是从 github 上拉一个真实的项目,让模型自己读几万行的代码定位问题修复方案,最后还要跑通原项目的测试用力。 g l m 五点一在这个榜单上拿了全球第一, 排在它后面的是 cloud open 四点六、 g p t 五点四、 jimmy 三点一 pro, 这是中国开源模型第一次在最核心的工程能力指标上 引跑全球。去年大家还在说国产模型在追赶,今年已经是被追赶了。要知道一年前国产大模型的厂家还在以降价百分之九十以上来争夺市场份额,不靠价格而靠价值,国产大模型终于走出了那个阶段。

二零二六年三月全网七大国产大模型 ai 编程套餐怎么选?一个视频给你说清楚。首先声明,本视频无任何广告,请放心使用。在正式开始分析之前,我先出结论,综合实力最强可以直接闭眼入的首选是智普 ai, 他首发独占了目前最聪明的 glm 五点一模型,这个模型目前在编程方面是国产最强,没有之一,并且白送能让 ai 直接帮你操作电脑的 mcp。 普通人直接买四十九块钱一个月的 like 版,一个月能用两万多次,查资料、写文章、做 ppt 基本用不完。 如果你只是想要一个高性价比的龙虾方案,绝对的性价比之王,一个月只要二十九块钱一年也才二九零,不用去抢名额 就能拥有独占的 mini max m 二点七模型,反应速度极快,学生党或者只是想轻度尝鲜的用户, 闭眼买这个二十九元的 start 套餐就行。习惯用豆包体系的可以看字节方舟,它四十块钱一个月起步,独家支持最新的豆包 size 二点零模型,买套餐还会送很实用的 open core 插件,但你要注意避个坑,它目前不支持最新的 g o m 五模型,模型选择上会稍微有点局限, 对于有大量阅读需求的人,长文本刚需者专属选 kimi, 四十九块钱起步,途展 kimi k 二点五,如果你每天要让 ai 帮你读几百页的 pdf 或者写万字长文,选它最合适不过。官方一直不公开具体的调用次数限制,用起来像开盲盒, 而且 asynch 速度也会有区分。剩下几个平台,普通人可以先观望下。阿里百店没有平价套餐,起步就是两百块的 pro 版。腾讯会员和百度千帆属于大杂烩平台,主要是接入别家模型撑场面, 比如百度能用到 d c k v。 三点二,腾讯首月只要七点九元,除非你想花一份钱体验各种不同的模型,否则不用专门去开通。 最后总结一下,兜里的钱到底怎么花,想花最少钱体验顶级 ai, 选二十九元的 mini max, 想要最聪明、功能最全, 买四十九元的智普重度处理藏私料,选四十九元的 timi, 如果确定要长期用,直接买包年最划算。最后提醒一句,现在官方封号极严,千万别去买什么共享号,直接买官方平价套餐最稳妥。

国产大模型编程能力只差 cloud opus 两点六分?你没听错,而且价格只要它的二十三分之一。 在 cloud code 编程评测中, cloud opus 四点六拿到了四十七点九分,而质谱的 glm 五点一拿到了四十五点三分,达到 opus 性能的百分之九十四点六,相比上一代 glm 五的三十五点四分,提升了整整百分之二十八。 不只是这一项, swbench verified g l m 五系列达到百分之七十七点八,和 opus 只差百分之三。 l m arena 人类偏好平分,开园模型第一。 artificial analysis 智能指数首个达到五十分的开源模型进入第一梯队,四项核心榜单全面逼进闭源天花板。但是跑分归跑分,真正的差距得看代码。博主 stevie 做了三轮实测对比。 第一轮从 html 模板构建 apple watch 主屏幕, g l m 五和五点一都完成了蜂巢排列的圆形网格,差距不大,但这只是热身。 第二轮加入鱼眼,物理效果和动量拖拽差距出来了。 g l m 五点一的鱼眼缩放非常自然,拖拽惯性流畅丝滑。而 g l m 五的表现明显僵硬,像是在凑合。 第三轮,集成应用图标 g l m 五点一成功添加了二十多个风格统一的图标,密度和精细度都很到位, g l m 五的图标却稀疏又粗糙。三轮下来,胜负已分。 youtube 博主 ai co king 也做了实测,在它的多模型编程排行榜中, g l m 五点一加 q c o i 组合综合得分八十五点零,排名第二, 仅次于 sonnet 四点六加 kilo 的 八十七点九分,甚至超过了 opus 四点六加 cloud code 的 八十三点六分,被评为最佳 agent 模型之一。 但最让人震惊的不是性能,是价格。 cloud opus 四点六的 api 输入每百万 token 要十五美元,输出要七十五美元。 g l m 五点一呢, 输入一美元,输出三点二美元,差了十五到二十三倍,花一块钱干十五块钱的活。 文章作者也亲自测试了 g l m 五点一,他用这个模型优化自己的社交平台 pro social 的 前端界面,要求参考开源项目 pretext, 添加酷炫、高级内敛的动态文字特效。 g l m 五点一自动阅读代码,搜索 pretext 信息后,成功添加了绿色粒子光晕、背景光球运动和鼠标跟随动效,直接把页面变成了赛博朋克风格。 海外也炸了。科技博主 x freeze 说, g l m 五点一编程性能接近 cloud opus, 但价格低十倍,开源与闭源的差距正在消失,大量开发者开始本地运行 g l m 替代 cloud。 当然, g l m 五点一也不是完美的,速度,是短板,四十四点三 tokens 每秒只有 g p t。 五点四的一半, grok 四点二零的六分之一。但很多人认为,开多个 agent 亦不执行,速度不是问题,瓶颈在推理基础设施不是模型本身。 真正让 g l m 五点一与众不同的是,长城任务能力 ai coding 正在经历四个阶段的进化,辅助工具大众化表达、自主规划执行长城任务 m e t。 二。研究显示, ai 任务复杂度每四个月翻一倍, cloud opus 四点六已经能处理十二小时的复杂任务。 g l m 五点一就是微长跨度、多步骤、多工具协同而生的。 客观来说, g l m 五点一还有不足。幻觉率百分之三十四点一,虽然比 g l m 五的百分之三十八点六下降了,但仍高于 opus 四点六。另外,目前还不支持图像输入,视觉版本要等后续更新。 最后一点, glm 五点一目前只通过 coding plan 使用,还没开源,但 ga 全球负责人李子轩已经确认将使用 mit 许可证开源,无任何商用门槛。 要知道,这可是七千四百四十亿参数的梦模型,全部用华为升腾九幺零 b 训练,一块 nvidia 显卡都没用。 总结一下, g l m 五点一编程性能达到 o p s。 的 百分之九十四点六,价格是 o p s。 的 二十三分之一。即将 mit 开源,全华为芯片训练, 这不是弯道超车,这是正面!刚关注我,持续追踪 a a i 最新动态。

哈喽大家好,欢迎收听我们的播客啊,今天咱们要聊的呢是这个智普公司啊,在本周发布的这个最新的开源模型啊,叫做 g l m 五万,那这个模型呢,其实它在云端使用的这个价格啊,比之前的这个 g m m 五 turbo 要高出来百分之八到百分之十七左右,这也是该公司自二零二六年以来第二次上调价格。 其实在今年的一月份的时候,智普刚刚在香港上市。对,没错,那其实这次提价呢,和这个阿里、腾讯他们其实是一样的,都是因为这个市场对于这种智能代理服务的需求暴涨,然后再加上这个投资者对于这个盈利的一个催促吧,而且他们在今年的二月份的时候,已经把这个编码方案的价格提高了百分之三十,并且在三月份的时候公布了这个二零二五年的这个亏损会扩大到四十七亿元人民币。 但是呢,即使是这样,他们的股价反而一度大涨了百分之三十五,在四月八号这一天,又因为这个区域市场的这个普遍上涨,又涨了超过百分之十八。 那他们这个 ceo 呢,也表示说非常有信心他们这个基于云的这个模型的业务会迎来一个指数级的增长。那同时呢,他们也在这个新模型上面着重地加强了这个编码和这个长周期任务的这个能力。他说这个新模型的这个编码的性能已经可以和这个 astroplex 的 这个 cloud opens 四点六相媲美。咱们今天第一个要聊的呢,就是这个提价背后的市场需求和盈利的压力啊,那咱们就开门见山的问一句啊,就是 二零二六年智普的这个价格的上涨,到底和这个市场上对于这种大模型的需求有多大的关系?呃,我觉得可以说是直接相关吧,因为这个二零二六年开始,这个智能体就是所谓的 openclaw 这种应用突然火起来了,然后导致大家对于这种大模型的调用量是爆发式的增长。你想国内的这个日军 tok 消耗从二零二四年的这个千亿级, 到二零二六年的这个二月已经涨到了一百八十万亿,就这是很恐怖的一个增长,而且尤其是在 openclaw 上面,就是一个月就翻了四倍多。哇,这个数字真的吓人。对,然后就是因为这个复杂的任务啊,比如像这种自动编程啊,这种对他的这个投肯消耗又是远远超过这种简单的问答,所以就导致这个优质的大模型就变成了一个稀缺资源。 大家的这个市场的焦点也从说我要去抢这个低价,到说我要去抢这个谁能够帮我解决实际问题,所以这个时候质朴它的这个碳其实也是顺理成章的事情。对,那所以说就是最近这段时间大家也看到了这个芯片的供应啊,包括这个能源的价格啊,都不是很稳定, 那这些东西会不会直接影响到质谱的这个运营成本呢?肯定会啊,那你想这个 gpu 也好, hbm 内存也好,它都是需求远远大于供给,那这个时候这个芯片的价格就 涨得非常厉害,而且你这个买到手的周期也变长了。哦,那确实是个挑战,然后包括你这个数据中心的这个电力消耗啊、冷却啊、照明啊,它本来就占这个大头,现在这个能源价格又波动, 所以这个时候智普他其实也是为了去缓解这个不断上升的算力成本和这个基础设施的成本,他才不得不去提价呀。所以说这个最近这段时间不光是智普,大家其实都在提价嘛。对,这个你觉得这种整个行业的这种集体的动作背后到底是一个什么样的逻辑?现在就是这个大模型的这个赛道,其实已经从拼价格 变成了拼能力,那你这个头部的公司,你有技术、有市场,你就可以掌握这个定价权,那大家其实都是在这种算力紧张和这个商业化的压力下面,大家其实都放弃了这种价格战,开始往这个 靠服务、靠价值去要利润这个方向去走了。所以这一波其实包括智普的这个多次提价,其实都是这个行业走向成熟的一个标志。然后咱们再来说说这个模型本身的升级啊,这个 glm 五万,它在这个编码能力上面到底提升了多少?有哪些让人眼前一亮的这种实际的表现,这个你绝对想不到,就这个新的模型,在这个权威的这个测试里面,它的这个得分比上一代直接高了将近三成 啊,就几乎就是追平了目前这个世界上最厉害的这个闭源的模型。然后在这个实际的工程开发当中,它可以一口气完成从需求分析到漏洞修复的全流程, 它甚至可以处理那种非常非常复杂的跨文件的重构,包括这种多模块的开发,这个听起来就已经不是一个辅助的工具了,这已经是一个真正可以下场干活的一个,对,没错,而且它就是在这个 litecode 的 这种难题上面,它的这个通过率也比之前要高出来一大截,然后它可以连续工作八个小时不停歇产出两万行代码, 就这个已经是相当于一个小型的团队一个月的工作量, ok, 对, 所以就是这个确实是让这个 ai 真正的可以成为一个开发的主力。这个模型在处理这种长周期的任务的时候,它是怎么做到让这个上下文能够高效的利用上的?就它这个模型啊,首先它的这个窗口大小是可以支持到二十万 tokens, 然后呢它的这个输出呢,也可以一口气生成十三万 tokens, 就 这个已经是远远超过了同类的其他的模型, 这样的话就对于这种大的项目就太友好了,没错,而且它用了这个 deepsea 的 这个稀疏注意力机制,它这个不仅让这个处理超长的文本的时候效率提升了百分之十五,而且它的这个推理成本也降低了百分之二十。 然后呢再加上它的这个新的这个交叉思考的这个技术,它可以边推理边修正自己的错误,所以它这个在这种长周期的任务上面的稳定性比之前要高了百分之四十,幻觉问题也有了明显的改善,就是它的这个事实性的错误,它 负的减少。对,那你觉得就是这个 g r m 五万在整个生态的适配性和应用性上面,它到底做到了一个什么样的程度?就是它的这个 api 是 完全跟 open 兼容的,所以你老的项目几乎不用改什么代码就可以直接用。 然后呢,它又支持多种量化方案,所以你不管是在云端还是在边缘,还是在你本地的这种环境下面,都可以非常灵活的去部署。哦,那这个确实方便了不少,而且它是全量开源的。然后呢,用的是 mit 的 协议,你爱怎么用怎么用,它又做了跟国内的七家主流的芯片进行了深度的适配。 所以就说你不管是从数据的安全啊,还是从这个合规的角度来讲,还是从这个成本的角度来讲,对于企业用户来讲,都是非常有吸引力的。它的这个调用的价格只是国际上同类的最好的模型的八分之一, 所以这个性价比是非常非常高的。我们现在来聊第三部分,就是这个市场影响,那这个就很直接了,就是智普这次提价之后,股价到底有什么反应?呃,在公布了这个提价和这个新的模型之后,智普的股价在四月八号那天 直接跳空高开,然后盘中一度涨了百分之十八,最后收盘的时候也有百分之十四以上的涨幅,它的这个市值也一举突破了三千九百六十亿港元。 同时呢,这个港股的这个 ai 应用指数当天也大涨了百分之四左右。哎,那这个涨的确实挺猛的啊,那有没有什么其他的这个市场的信号也值得关注的?嗯,然后就是这个卖空的这个股数也大幅的减少了,从二月底的这个高点到四月初已经下降了百分之九十六,就是空投基本上已经全线撤退了。同时呢就是 a 股的这个相关的概念股也出现了这个集体的涨停潮,就是整个市场的情绪是非常非常乐观的。 那你怎么看这个最近的这个智普的这个提价和他的这个新的商业模式给整个行业带来的变化?呃,其实我觉得就是首先就是这个智普他在今年的一季度把他的这个 a p i 的 价格上调了百分之八十三,然后他的这个调用量反而增长了四倍, 他的这个年度经常性收入已经飙升到了十七亿元,同时呢他也从这个按量付费转向了这种订阅加套餐的这样的一个模式啊。那其实这种价格的提升和这种商业模式的改变,其实既反映了大家对于这种高质量的大模型的稳定啊,也让大家看到了这种 行业的发展的一个新的方向。你觉得就是这个智普的这一波提价会给国产的大模型这个行业的格局带来哪些根本性的变化?嗯,我觉得就是 首先就是智普的这一波提价其实直接就结束了这个行业的这个价格混战啊,那大家现在开始要拼的是谁能够真正的解决复杂场景下的需求,那它也带动了整个行业的这个价格的体系,跟国际巨头去接轨,那这个也加速了那些没有核心技术的小的玩家 退出,所以说这个行业的门槛就变得更高了,对,没错。然后同时呢,就是呃,大家的这个竞争的焦点也会慢慢的往技术自研啊,往生态的建设啊这方面去转移。那 比如说像这个 g m m 五万,它完全是基于国产的芯片去训练的吧?那这个也推动了整个产业链的自主创新啊,那整个行业也会往这个价值驱动啊,以及生态主导这样的一个方向去进化。哎,聊到这,其实今天我们从智普这个最新的这个模型的升级,聊到了它的提价,然后聊到了整个行业格局的变化。其实 归根结底我们还是在说一个事情,就是技术的进步和市场的需求到底怎么样去共同推动这个行业往前走,对不对?那智普这波操作到底能不能引领这个行业走向一个新的方向?其实还是要看整个市场和用户到底买不买账。 ok, 那 么我们这期节目就到这里了,然后感谢大家的收听,咱们下次再见,拜拜。拜拜。

国产大模型第一次敢和海外巨头同价!智普发布新一代开源模型 glm 五点一,同时宣布提价百分之十。凭什么涨价?凭实力! glm 五点一是目前唯一达到八小时及持续工作的开源模型。 在最接近真实软件开发的 s w e bench pro 精准测试中,它实现了国产模型首次超越 opus 四点六。这意味着在抠顶场景,国产模型已经占上了全球第一梯队。提价后, g l m 五点一在抠顶场景的缓存命中 token 价格以接近 antropic 旗下 clothsonnet 四点六的水平。 这是国产大模型首次在核心场景实现与海外头部厂商的价格对齐。不是靠补贴,不是靠打折,而是靠硬碰硬的能力对标。 从一年前 a p i 收入增长六十倍,到如今敢于涨价并与海外巨头同台定价质朴的路径很清晰,不卷价格,卷技术上线,当模型足够好用,用户愿意为更高的智能付费。涨价不是目的,是能力的外溢。国产大模型正在从性价比选项变成性能选项,这一定价对齐,或许只是开始。

你能想象吗?刚刚在 swbench pro 这种专门测真实工程能力的基准里,超过 cloud opa 四点六拿到索塔的模型,居然是一个国产模型, 并且它已经开源了,它就是智普的 glm 五点一。那更关键的是什么呢?它这次呢不只是更会写代码了,而是在长城任务处理的这个场景也有了重大的突破。 你可以看到官方的一些测试 case 当中,它可以自己连续工作七八个小时,从拆解需求,写代码,调试优化, 全程都可以自己往下推进。那说起智普呢,其实我从 g l m 四点五这个时代呢,就开始使用它们家的这个产品,从一开始它可以去完成一些小任务,到后来它能够去完成一些中等的复杂一点的这个任务,再到后来它们家的这个 coding plan 直接限售了 啊,我可以明显的感觉到,智普的这个模型呢,确实是越来越强了,在不断的去追赶并且缩小它与海外的这些币源模型,顶级模型的一些差距。那所以说今天这个视频呢,我就想用这个 glm 五点一来做一下真实项目的测试,看一下我们这个国产第一,台元第一到底好不好用。 那这个呢,是我自己在用的一个小工具啊,它是一个视频下载器,平时呢我就拿它来下载某音啊,小破站啊,还有这个油管的视频。所以说今天呢,我就想用这个 g l y 五点一把这个工具网站做成一个完整的副业产品。那视频结束之后呢,这个网站应该会具备 登录注册啊,积分系统,视频下载、文案提取以及 ai 改写这方面的能力,并且呢我想的是在改写这一块啊,用户可以去按照平台啊,字数啊,受众啊风格去定制, 还可以直接去与 ai 对 话进行非常详细的定制化的一个改写。然后啊,就是艾米后台也得一起给我做出来啊,包括这个用户啊,订单啊,积分啊,操作记录等等,这些都可以非常轻松的进行一个管理。所以说这次任务啊,这个视频 g l m 五点一能否顺利完成,我们拭目以待。 那这次呢,我们就在 cursor 当中去使用 g l m 五点一啊,因为我之前用的是这个 pro 套餐,所以说呢,我可以在第一时间去体验它们最新的模型。接下来的话呢,我们就参考这篇文章,把 g l m 五点一啊配置到这个 cursor 里面去,随便说句话,看到回复呢就表明已 经接入成功了,那我们接下来输入这段提示词,那如果有参考图片的话呢,也可以在这个时候直接贴给他。那这边呢,我再跟大家分享一个小技巧,就是不要让它说一下自己对这个需求的理解啊, 以及他目前有哪些地方。是啊,需要和我们二次确认的,看一下他到底能够理解到什么样的一个程度啊,是不是和我们已经对齐了, 那这个阶段我们和 ai 全部拉齐以后呢,再让他继续往下做,整个后面的这个过程啊,就会丝滑很多。那我中途呢,还会去让他帮我想想产品的一个功能有没有什么漏洞啊,有没有闭环啊,包括商业化运作这方面啊,有没有什么不足等等,但凡是在这个产品的开发过程当中,你可以想到的任何问题,你都可以在这个阶段和 ai 沟通, 等到他给出了这个详细的实施方案,完美匹配了你的这个阶段的需求啊,你就可以让他开始工作了。那我们第一阶段确认完毕了之后呢,他这边也没有开始直接写代码啊,而是呢先帮我们拆了一整套完整的这个任务流程。 那这一点呢,我觉得是非常的关键啊,因为真正的这种工程能力啊,其实不在乎你写的有多快,而是你能不能够把一件复杂的事情拆的非常的细致啊,拆的非常的对。那接下来的话呢,我们就让他一块一块的往下做啊,比如说我们可以先做视频下载这一块 啊,他会先去确认我们想要去支持的哪些平台,然后呢给出这个接口设计和处理的一个流程,再到这个文案提取啊,他也会去考虑用什么样的一个方式来解析字幕啊,是直接抓接口啊,还是做 啊这个视频转文本的这样的一个处理。那到了 ai 改写这里呢,他甚至还会去帮我们把这个改写的策略啊设计了出来,我觉得这些其实已经不是单纯的去写代码了,做这个业务实现,对吧?而是他开始在帮你做 啊,非常详细的这种产品的设计啊,在积分系统这一块,其实我一开始也没有给到他一个非常详细的这种扣减的规则, 只是说我希望用户在使用某些功能的时候呢,可以去消耗他的这个积分,然后他自己呢就帮我设计了一整套的这种构建逻辑啊,你比如说下载消耗多少啊?然后改写对话,改写消耗多少?不同的这个模式呢,还会有一个差异化的计费。那虽然说呢,这个也不一定是最终的最完美的这个解决方案吧,但是呢,他至少是 在县级段给了我一个可以直接拿来用的出版整个过程下来,我最大的一个感受就是他不是在等你指挥,而是在主动推进,很多时候我们只需要给他一个方向,然后他自己呢就会去把中间那块给你脑补上。另外我还发现了一个事情,就是我这里面不是会 用到 ai 大 模型做这个改写和对话嘛,那我发现呢,我之前的这个 coding plan 可以 直接拿来用,也就是说我们平时携带嘛,包括这里的 api 调用,都是可以走同一个 plan, 甚至呢我们还可以把这个 g l m 五点一接入到龙虾啊,也是同一个 plan, 性价比特别的高。 那最后呢,我又让它基于现有产品做了一套后台管理系统啊,比如说这个用户列表啊,订单记录啊,积分流水啊,甚至还有这里的改写记录,对吧? 尤其是下面的这个系统配置,这里啊,我们之前的这些改写功能,其实用户选的各种策略,它背后对应的都是提示词,那它增加了很多配置的一个类型,就是尽量让这个配置表可以在未来做到大局通用。那比如说这里的任务类型啊、状态啊、平台啊、风格啊, 其实都是走的刚才的那个配置表。那这一块我觉得还是挺加分的啊,因为很多 ai 它到了这一步可能就开始摆烂了啊,或者是它自己自由发挥了。 那你像这个 glm 五点一呢,它能够在这么长的一个任务当中啊,在你没有明确要求的这种情况下面,把整体的这个系统往可扩展、可维护的这个方向去做设计啊,我觉得是非常的难得。 那比如说你后面如果想要去新增一个品牌,新增一种风格,新增一种改写的策略啊,你直接在这里加一个配置就 ok 了啊,非常的丝滑。那这一点呢,我觉得其实已经有点接近正常后端工程师,它在做 呃系统设计的时候这样的一个思路了啊,就是非常的有怎么说啊,活人感。那当然这个中途呢,也是会出现一些这样或者是那样的 bug 啊,比如说这个视频下载失败了,然后封面无法解析等等等等。但是呢,我们都是可以通过和 ai 描述问题来解决问题的。那 做完这个项目之后呢,我其实有一个挺明显的感受啊,就是 ai 编程这件事情呢,真的是在发生一个很大的变化。以前呢,我们用 ai 可能是让他去帮我们写代码,做代码补全,但是现在的话呢,你是把一个完整的任务直接丢给他, 让他自己去做,从理解需求到拆解步骤,再到执行修问题,最后交付结果。这中间呢,其实我们已经不再是写代码的那个人了啊,而是更像一个分配任务的人。那这也就是大家所说的这个 long horizon, 当 ai 可以 自己去持续工作几个小时甚至更久的时候呢, 它所改变的就不是一个简单的效率问题,而是在颠覆我们整个做软件做项目的一个方式。所以说如果你现在也在做自己的项目,不管是工具还是副业啊,真的是可以去尝试一下这个 g l m 五点一这个最新的模型。 ok, 那 以上呢,就是本期视频的一个全部内容了,感谢大家的收看,我们下个视频再见, peace。

当所有人都在卷龙虾的时候,智普悄悄发布了 glm 五点一,在最接近真实软件开发的 swebench pro 精准测试中,刷新了全球最佳成绩, 超过了 gbt 五点四和 cloud opus 四点六,并且冲上了全球开源模型的冠军宝座。今天我们来实测一下 glm 五点一的编程能力到底有多恐怖。 我用它做了一个猫言喵语 app, 用户可以通过上传猫咪的照片和叫声,判断出猫咪的心情状态。在整个开发的过程中,我发现 glm 这是升级的五点一版本,有一个特别适合编程小白的亮点, 以前做 web 扣点提示词写得不够详细, ai 就 很容易误入歧途,开发出来的项目和你预期差了十万八千里。之前火过一阵子的 skills 概念, 本质上也就是给 ai 套了一层规则约束,让它在规定范围内执行任务。但对于非专业人员来说,这些概念本身就是门槛。一开始我只输入这样一个想法, 没有任何额外提示词。一句话,开发来测试 gln 五点一的真实代码能力,包含需求理解、架构设计、 代码生成、质量长、任务执行、调试与修复等等。 glm 五点一拿到需求后,没有着急写代码,而是先梳理了整个项目的技术方向,前后端分别适合什么技术站, 并给出了最合理的推荐方案。当然,你也可以换成自己熟悉的开发方式。这个项目有两个核心难点,猫咪照片的识别和叫声的音频特征提取。 我们可以通过 a p i 的 方式,调用 g l m 大 模型的多模态能力去完成这两项功能。音频采集方面,同时支持实时录音和文件上传。方案确认 选择 safem 提交 g l m。 五点一并没有立即开始写代码,而是先进入规划模式来设计项目架构,接着给我们输出了一份非常详细的架构设计文档,从前后端技术栈选型、 项目结构到实际开发的每一步流程都给我们列出来了,甚至连 ai 大 模型的提示词都设计好了。确认没问题后,正式进入开发阶段。按照既定计划, glm 五点一完成了项目目录初步化和前后端代码编辑。我们先来试试第一版的效果。上传猫咪的照片和叫声开始分析。 ai 准确地提取到了照片和音频中的猫咪特征, 突出了情绪标签,整体还是比较准确的,但当前的流程还是有缺陷的。 glm 五点一也给我们提出了优化建议。 ai 并不是直接分析音频本身,而是在拿到音频数据后,只提取了时长和音量,然后把音频转化成文字, 由 glm 结合图片和文字描述去综合判断。但猫咪不是人类,总共只会说一个字, 分析文字描述根本没有意义,而且音频特征提取太简单了,只提取了时长和音量。那我们让 glm 五点一去迭代开发,优化一下项目输入有没有免费的音频分析工具。它通过联网搜索快速列出了三套方案, 并给出了最优建议。 librosa 是 python 里目前最流行的音乐音频分析库,它可以提取声音中的各种关键特征,辅助 ai 精准判断猫咪的前戏状态。确认方案后, glm 五点一进行了二次迭代开发,衣袋裤的安装、金融性处理以及每一处代码的修改都清晰地列了出来。又经过几轮交流,我让 ai 把音频以图形形式展现出来,加上了音频波形图,频谱图 没有频率到谱系数,这些图形既能辅助 ai 进行数据分析,也能让结果呈现更加直观,这样整个项目就比较完美了。 整体测试下来, g l m 五点一在几个方面的表现让我印象深刻。三方库和工具的调用稳定,没有乱用或调错的情况,任务推进节奏有条不稳, 从规划到开发再到迭代,逻辑清晰,响应速度相比上一代也明显更快了。一句话,开发加二次迭代都能按照预期完成,没有跑偏,听懂人话,做得更快。 glm 五点一就非常适合那些需要多 skill 协调调用和持续执行的真实工作流场景。

智浦最新旗舰模型 g l m 五点一刚刚宣布全量开放了,它的编码能力比上一代狂飙了百分之二十八,实力已经无限逼近 cloud office 四点六。 李子璇还承诺 g l m 五点一将会开园,目前所有 g l m c d plan 用户都可以调用,价格更是只有海外模型的五分之一,性价比彻底拉满,还是觉得贵?关注我,获取超级优惠!

别再盯着全 g p 的 尾灯看了,国产大模型来了个 g r m 五点一,直接拔高了国内 ai 大 模型的能力。发师之前俊仔也用过多个大模型,最大的痛点是什么?短视,也就是长城任务根本干不了, 要么只能陪你聊聊天,要么执行个简单指令。第三步他就忘了第一步的需求。但智普这次发布的 g r m 五点一核心绝技,就是能拆解任务用的工作记忆和逻辑推理能力,将长城任务拆成阶段目标,一口气把一件复杂的事从头做到尾。来 看这个实测,给他一个需求,搭建一个带用户系统和数据看板的内部工具,看他先花时间规划输出技术方案,然后一个阶段一个阶段推送,中间有一个接口问题,他自己排查修复,全程我没有介入, 最后交付的东西能跑能用。再看看这个实测,以前要做这个,得切好几个软件写半天,现在直接给 g r m 五点一下一个指令。他 不是只给你写一行代码,而是规划了整个工程,从底层逻辑到 u i 设计,他自己在脑子里淘了一遍,然后直接把成品甩给你。这哪是写代码,这是在指挥千军万马。俊仔真觉得技术变迁正在指数级加速啊。当 ai 能处理跨文件、跨时间,甚至能自我纠错完成长城任务时, 程序员仅仅会写代码,不是护城河了。未来区分普通工程师和专家的可能不再是敲键盘的速度,而是你定义问题,驾驭这些超级智能体的能力。智普这一步迈得很大,但也提醒了我们,是时候升级自己的操作系统了,是时候接上智普新发布的 g r m 五点一的 a p i 了,它能颠覆你的工作流。

智普 g l m 五点一昨晚正式发布,不仅是全球首个能持续工作八小时的开源模型,还在代码精准测试中首次超越了 cloud。 四点五 opus, 整个开发者圈子都炸了,国产大模型真的在代码逻辑上捅破了天!智普 g i m 五点一在 sweetbench pro 精准测试中实现国产模型首创 opps, 它最离谱的地方在于支持八小时及持续工作,这意味着你可以把它丢在那,让它自己修一整晚的 bug。 聊完了模型, anthropic 刚刚推出了 manage 的 agents 托管服务,把沙箱身份验证和多智能体编排全打包了,每绘画小时只要零点零八美元交付,提速了十倍。与此同时,硅谷华人团队做的 creo 冲上热搜, 它主打消费级 agent harness, 零门槛固化工作流任务,准确率百分之一百,让普通人一句话就能搭出永不停歇的 agent get up 这边更离谱,生化危机女主命了,竟然开源了一个 ai 记忆系统 memphis, 用记忆供电法在本地组织一千九百五十万 token 的 长记忆, 解锁效率提升百分之三十四,完全不走云端。微软发布最新报告, web coding 正式成为主流趋势,开发者从写代码变成了选输出的编辑 pm, 甚至开始做技术活。 redtail 预言,软件基础设施必须为 agent 彻底重写。视觉模型那边出了个狠角色,神秘模型 happy horse 一 点零涂榜 erina l 分 数一千四百零九刷新记录。据传是阿里张迪带队,原声音视频同步 五秒,一千零八十 p, 片段推理只要三十八秒。美团 g n 零六团队发布的 ai 浏览器 tabit 也进公测了,他最懂上下文,支持各家大模型自由切换,还能一键分享自动化妙招, 简直是白领的降维打击工具。视线转向硬件,马斯克联手英特尔开启 terafap 项目,目标是每年一泰瓦算力是现在的五十倍,他甚至打算把百分之八十的算力部署到太空, 彻底解决地面的电力焦虑。亚马逊 ceo 在 股东心里也开火了,自家 ai 芯片 chine 业务 a a r 已经冲到两百亿, chine 四还没上市就被预定空了,老黄的压力看来是真的不小啊!硬件即刻们看过来!寻影泰尼三发布了六十三克重,支持四 k 录制和 omni 锁定跟踪,即便你在人群里乱窜,画面也只会盯着你一个人, 简直是户外直播神器!最后,药素科技拿到了两亿 a 轮融资,他们把 ai 加器官芯片嵌入星耀开发要米预测准确率竟然达到了百分之一百!制药行业告别动物实验真的不远了! 从 g o m。 五点一的八小时持久战到 happy horse 的 视频图宝 a e 的 进化速度已经让摩尔定律都感到汗颜了。观众老爷们,你们觉得下一个被 agent 彻底重写的行业会是谁?评论区见!

glm 五点一到底值不值得买?如果你想花点小钱找个能帮你写代码修 bug 的 ai 帮手,他现在非常值得是。但如果你指望他一口气接管大型项目,十几轮对话还不翻车,那你最好先冷静一下, 别被网上的跑分带偏了。他现在最真实的状态是,已经很好用,但还不够稳。咱们普通人挑模型不用看那么多玄乎的数据,你真正该问的就三个问题,他能不能帮你把活干出来,他贵不贵,以及他关键时刻掉不掉链子。 先看看他到底能帮你把什么事做出来。在写前端页面小工具、小游戏或者接口逻辑这些中小型功能上, glm 五点一已经到了能浇活的水平。什么叫能浇活?就是他给你的代码是真的能跑起来的,而不是写一堆看起来很厉害,一跑全是报错的东西。你让他写个页面做交互 按钮,动画和逻辑,他基本都能补上,哪怕是修些常见问题,他也经常比上一代更容易一次就给你修对。 但是千万别把他当成能全自动接管一切的主力选手,只要你的项目一复杂或者上下文变得特别长,需要来回修改的时候,他就开始暴露出短板了。最典型的表现就是 前面几轮对话他看着还挺聪明,后面突然就开始原地绕圈乱码,甚至出现修了 a 结果把 b 给改坏了的情况。 他本质上是个能力很强但连续作战容易拉垮的选手。这里重点提防两个大坑,一个是长上下文稳定性一般,另一个就是高峰期消耗特别快。 那他到底适合谁?其实就是三类人,第一类想低成本体验 ai 编程的普通用户。第二类是个人开发者或者小团队。第三类就是工作里经常需要写些脚本接口或者自动化工具的打工人。如果你手里刚好有个活,想做个官网小程序原型,或者是搞个表单系统活动页, 需要把一个想法赶紧变成能看的东西,那他绝对能帮上大忙。因为很多时候你不需要世界第一,你只需要这东西今晚能不能跑出来?最后说一下他最大的杀手锏,其实就是价格,现在很多顶尖模型大家不是不用,而是长期用,根本吃不消, 这时候花点小钱买到一个,大部分时候够用,偶尔还能给你个小惊喜的高性价比副驾驶就显得特别香了。 glm 五点一不是那种花小钱买来的顶配神话,但它确实让咱们普通人第一次真真切切的感觉到, 原来现在花几十块钱真的已经能请到一个挺能干的 ai 帮手了。轻度用户可以直接上低档套餐去感受一下。

中国的智普直接掀翻了牌桌,他们的 g l m 五点一,七千五百四十亿参数, mit 协议无条件开源性能,直接干翻 gpt 和 cloud opus。 这不是简单的技术迭代,这是对西方闭源霸权的一次核打击。 为什么 entropic 前脚刚宣布封进第三方客户端,后脚中国就甩出了王炸?看看 entropic 那 个吃相,为了控制算力成本,甚至连开发者的订阅都要动刀,这就是闭源模式的死穴。算力太贵,他们养不起,资本逼着他们修墙涨价割韭菜。但质朴的 g l m 五点一呢? 直接把七千五百四十亿参数的底牌亮给你看。在 s w e bench pro 精准测试里,它硬生生比 g p t 五点四高出了几个身位。西方巨头在忙着砌墙收过路费,中国企业在忙着修路搞基建,这就是本质区别。这种降维打击,西方根本没料到。 过去我们总以为 ai 是 只有美国巨头玩得起的烧钱游戏,现在呢? openai 把 gpt 五点四锁在小黑屋里调用一次就是天价。而智普拿着 mit 开源协议告诉全球开发者,代码归你,权重归你,想怎么改就怎么改。 这不仅仅是省了每年几万美元的 api 费,更是把 ai 的 定义权从硅谷手里夺了回来。当美国试图用芯片封锁我们的脖子,我们反手就用开源生态打破了算法垄断。你封锁硬件,我就开源软件这招围魏救赵,高明至极。 这一仗打赢的不只是技术,更是国运,意味着中国程序员拥有了属于自己的武器。开源的中国 ai, 正在告诉世界,未来的智能时代,规则不再由硅谷一家独大。

智普 g l m 五点一到底能不能硬钢 plus 的 代码王座?这篇包含跑分、实战痛点和使用边界的思维硬核评测,直接把底牌揭开。一句话总结,这是目前最极致的偏科平替,看完你就知道该怎么用它。踩不踩坑。 先看过场数据,底座七千四百四十亿参数底层直接融合了异步强化学习和 deep sea 的 稀疏注意力机制,标称二十万超长上下文,极数上面直接拉满, 跑分直接逼进地表最强。官方测试中, g l m 五点一的编程得分达到四十五点三分,相比上一代直接飙升百分之三十,距离目前公认的代码天花板 opus 四点六仅差了不到三分。单看测试水准,他已经稳稳占据世界第一梯队。 但跑分不等于体验,这是很多开发者最容易踩坑的地方。实战反馈表明,他的代码生成确实有巨大进步,但代价较为惨烈。 这是一款典型的侧向升级产品,为了强吃代码能力,它大幅度牺牲了日常动用、任务处理和创意扮演能力。如果你拿它写文案,表现甚至不如上一代的 glm 五, 更致命的是长文本陷阱,纸面数据标称支持二十万上下文,但在实际高压环境下,一旦你灌入五到七万托盘的庞大代码库模型,偶尔就会出现逻辑混乱,甚至直接发疯。在处理极长代码项目的极限稳定性上,它目前还无法完全替代 os。 既然有缺陷,为什么海外开发者还在疯抢?因为它的杀手锏是白菜价和伪装介入。在当前热门的 cologold 这类智能体开发环境里, 你只需要改个环境变量接口就能零成本把它当成 opus 来用。最关键的是它的 api 倒用价格只有 opus 的 几分之一,这是绝对的降维打击。最后直接给使用。结论,强烈推荐个人开发者和中小团队把它作为主力平替。 日常的写代码修 bug, 写中小型函数用它绝对超值。但是如果你需要重构超过七万头肯的祖传复杂代码,或者需要处理高度复杂的通用写作,请立刻闭坑老实实加钱去用 opus, 或者直接退回 glm 五。