Karminski1月前
GLM-5发布啦! 给大家带来实测! 大模型进入月更节奏! GLM-4.7 才发布一个月, 智谱又掏出了 GLM-5, 这迭代速度属实离谱. 照例给大家带来编程、Agent、长上下文能力全面测试! 本次编程能力提升巨大: 新引入的鞭炮炸鱼缸测试, 要求模拟水滴/碎屑/烟雾/气泡四种粒子效果混合在流体中, 折射效果还原度已经和 Claude Opus 4.6 几乎没区别了. 鞭炮连锁爆炸测试指令遵循大幅提升, GLM-4.7 会忽略的参数 GLM-5 都能精准还原, 视觉上玻璃箱效果、色调映射达到了电影级画质. Python 杯子倒水新增了顶点碰撞检测, 甚至给2D粒子加了模拟3D高光! 大象牙膏测试实现了三层碰撞检测, 引入动画阶段机制精准还原 prompt 要求. 陀飞轮机芯也是一眼可见的提升. Agent 能力再次刷新纪录: 硅基骑手测试 (这次订单量加了5倍!) GLM-5 拿到 ¥738.69, 对比 GLM-4.7 的 ¥571.91. 关键发现是, GLM-5 每轮对话都在跟踪剩余轮次 ("254/300, 还有46轮"), 这种元认知是 GLM-4.7 未有过的. 它甚至给自己定了个小目标 "突破700元大关", 达成后庆祝了一下就继续干活. 而 GLM-4.7 在第198轮就开香槟不干了... 长文本召回: 各长度上下文召回均 98% 以上, 但有个问题 - 不给原文时四选一蒙对率达到 51.4%, 模型甚至能脑补出哈利波特小说英文原文, 所以分数置信度存疑. 不过 Agent 测试本身上下文就超过 100K, 召回性能实际上没问题. 总结: GLM-5 编程全面进化, Agent 能力展现出自主规划意识, 视觉美学也显著提升 (这次它特别偏爱科技感的 Orbitron 字体). 这么猛的表现, 很期待接下来的 GLM-5V! 另外官方账号还发了个马的图案, 看来之前的 pony alpha 是 GLM-5 石锤了! (P.S. 本次测试的是内测版本) #GLM5 #智谱 #智谱GLM #AIAgent #GLM
00:00 / 07:03
连播
清屏
智能
倍速
点赞54
元新闻1月前
近日,智谱发布面向开发者的致歉信,承认在GLM Coding Plan上线中存在三大问题:规则透明度不足、GLM-5灰度节奏过慢、老用户升级机制粗糙,并同步公布处理和补偿方案。 GLM Coding Plan是智谱专门为AI编程场景推出的付费订阅套餐服务,开发者订阅后,可以使用智谱提供的大模型来辅助写代码。套餐等级通常分为Lite、Pro、Max三个等级,对应不同的使用额度和模型权限。 智谱之所以致歉,正是因为其新模型GLM-5的强劲表现,致使需求暴增超出其承载能力。测试显示,GLM-5在代码能力、智能体表现等关键领域的开源模型评分中取得SOTA表现,在真实编程场景的使用体感逼近Claude Opus 4.5,擅长复杂系统工程与长程Agent任务。 GLM-5发布次日,智谱同步上调GLM Coding Plan套餐价格,整体涨幅自30%起。GLM Coding Plan上线即售罄,这在行业中颇为罕见。 需求火热也导致GLM Coding Plan的用户体验受到影响。在致歉信中,智谱解释,其近期遭受灰产号池和黄牛党冲击,恶意占用了公司大量资源。同时,GLM-5发布后,流量超出预期,公司扩容节奏没有跟上,不得已将GLM-5按照Max、Pro、Lite的顺序逐步开放。 目前,Max用户已经全面开放,Pro用户虽已开放,但高峰期可能会因集群负载较高遇到限流,Lite用户将会在节后非高峰期逐步灰度开放。 (来源:第一财经、@张小珺 编辑:尚骏翼)
00:00 / 00:14
连播
清屏
智能
倍速
点赞20
00:00 / 00:51
连播
清屏
智能
倍速
点赞3693
00:00 / 00:19
连播
清屏
智能
倍速
点赞1014
00:00 / 08:44
连播
清屏
智能
倍速
点赞18