00:00 / 07:29
连播
清屏
智能
倍速
点赞287
00:00 / 23:31
连播
清屏
智能
倍速
点赞2
详解 & 实测 GLM-4.7 ,14个Skills 这期视频,我在最新的 GLM-4.7 上做了一轮「从评测到实战」的体验: - 先对比 GLM-4.7 和 4.6 在人类测试、SWE-bench Verified、数学竞赛等基准上的提升,在数学上超过 Gemini 3 Pro。 - 展开讲「交织思考」和训练细节:数据、多阶段训练、LoRA-like 方法,以及智谱开源的 Slime 框架、后训练阶段算力投入。 - 结合 AMA 内容,聊智谱在 RL 工具链、编程 Agents、上千并发 Docker 环境等基础设施上的布局。 - 重点体验 4.7 在 UI / 前端审美 上的升级:包括前端设计 skill、体素艺术 Demo、新年场景、兵马俑觉醒、亚特兰蒂斯塔楼、咖啡车等案例。 - 对比 GLM-4.7 与 Claude Opus 4.5 在 Remotion 视频任务上的实际表现:角色一致性、重新打光、纹理迁移等细节制作谁更强。 - 最后在展示提示词设计和效果。 如果你关心: - GLM-4.7 真实体验到底如何? - 它的前端审美和 UI 生成,能不能当生产力? - 智谱 的 skill 体系(大模型、视觉、语音、搜索、文档、前端设计等)怎么影响个人 AI 开发工作流? - 和 Claude Opus 4.5、Gemini 等主流模型相比,它的优劣势在哪里? 这期视频应该能给你一个比较完整的一手视角。 时间戳 00:00 升级亮点概览 01:21 训练细节与 AMA 精华 03:05 Skills 全家桶 04:28 前端 UI Demo 与体素艺术展示 07:01 Remotion 视频任务对比 #GLM47 #GLM #智谱
00:00 / 10:26
连播
清屏
智能
倍速
点赞42
Karminski1月前
GLM-5发布啦! 给大家带来实测! 大模型进入月更节奏! GLM-4.7 才发布一个月, 智谱又掏出了 GLM-5, 这迭代速度属实离谱. 照例给大家带来编程、Agent、长上下文能力全面测试! 本次编程能力提升巨大: 新引入的鞭炮炸鱼缸测试, 要求模拟水滴/碎屑/烟雾/气泡四种粒子效果混合在流体中, 折射效果还原度已经和 Claude Opus 4.6 几乎没区别了. 鞭炮连锁爆炸测试指令遵循大幅提升, GLM-4.7 会忽略的参数 GLM-5 都能精准还原, 视觉上玻璃箱效果、色调映射达到了电影级画质. Python 杯子倒水新增了顶点碰撞检测, 甚至给2D粒子加了模拟3D高光! 大象牙膏测试实现了三层碰撞检测, 引入动画阶段机制精准还原 prompt 要求. 陀飞轮机芯也是一眼可见的提升. Agent 能力再次刷新纪录: 硅基骑手测试 (这次订单量加了5倍!) GLM-5 拿到 ¥738.69, 对比 GLM-4.7 的 ¥571.91. 关键发现是, GLM-5 每轮对话都在跟踪剩余轮次 ("254/300, 还有46轮"), 这种元认知是 GLM-4.7 未有过的. 它甚至给自己定了个小目标 "突破700元大关", 达成后庆祝了一下就继续干活. 而 GLM-4.7 在第198轮就开香槟不干了... 长文本召回: 各长度上下文召回均 98% 以上, 但有个问题 - 不给原文时四选一蒙对率达到 51.4%, 模型甚至能脑补出哈利波特小说英文原文, 所以分数置信度存疑. 不过 Agent 测试本身上下文就超过 100K, 召回性能实际上没问题. 总结: GLM-5 编程全面进化, Agent 能力展现出自主规划意识, 视觉美学也显著提升 (这次它特别偏爱科技感的 Orbitron 字体). 这么猛的表现, 很期待接下来的 GLM-5V! 另外官方账号还发了个马的图案, 看来之前的 pony alpha 是 GLM-5 石锤了! (P.S. 本次测试的是内测版本) #GLM5 #智谱 #智谱GLM #AIAgent #GLM
00:00 / 07:03
连播
清屏
智能
倍速
点赞54
Karminski3月前
抱歉我们只有超大杯! GLM-4.7实测! 本次测试覆盖了GLM-4.7的编程能力, Agent/ToolCall能力, 长上下文召回能力, 给大家带来刚发布的 GLM 4.7 的测试结果: 考验Agent能力的硅基骑手测试, 简单讲是让大模型使用工具模拟骑手取外卖送餐. GLM 4.7 在24小时总计300回合的极限送餐中收益达到了 571.91 元, 执行了总计 354 次 tool call, 测试使用了大约 50% 的上下文空间, 直到超过100K后才停止工作. Agent 测试这次是创了新高, 执行效率特别高, 得益于模型可以在一次会话中发起多个 tool call, 节省了时间并能选择收益最大的方案. 然后是考验长上下文召回能力的霍格沃茨测试, 简单来讲就是在长上下文中, 能否记住上下文并准确的回答问题. GLM 4.7 在192K以内召回水平在91%到100%区间, 而200K也有95%, 召回效果同样也很不错. 最后再来看编程能力测试上最大的感受是粒子, 建模, 光影效果都有提升, 尤其是空间能力有了巨大的提升. 当然性能问题仍然存在, 希望下个版本着重优化下生成代码的性能问题. 总结, 这次GLM 4.7 在各个方面都有明显的提升, 作为主力编程模型不是问题, LMArena 和 SWE-bench 等编程测试中都取得了开源大模型 SOTA 的水平. 不过还是要说一句, 测试中我发现API速度时快时慢, 是不是因为大家都在用新版本导致的? 希望官方赶紧加机器. #GLM47 #智谱AI #智谱GLM #ai编程 #大模型
00:00 / 04:16
连播
清屏
智能
倍速
点赞13
00:00 / 04:23
连播
清屏
智能
倍速
点赞89
00:00 / 00:14
连播
清屏
智能
倍速
点赞31
00:00 / 01:29
连播
清屏
智能
倍速
点赞6