00:00 / 01:29
连播
清屏
智能
倍速
点赞2
Karminski2天前
GLM-5发布啦! 给大家带来实测! 大模型进入月更节奏! GLM-4.7 才发布一个月, 智谱又掏出了 GLM-5, 这迭代速度属实离谱. 照例给大家带来编程、Agent、长上下文能力全面测试! 本次编程能力提升巨大: 新引入的鞭炮炸鱼缸测试, 要求模拟水滴/碎屑/烟雾/气泡四种粒子效果混合在流体中, 折射效果还原度已经和 Claude Opus 4.6 几乎没区别了. 鞭炮连锁爆炸测试指令遵循大幅提升, GLM-4.7 会忽略的参数 GLM-5 都能精准还原, 视觉上玻璃箱效果、色调映射达到了电影级画质. Python 杯子倒水新增了顶点碰撞检测, 甚至给2D粒子加了模拟3D高光! 大象牙膏测试实现了三层碰撞检测, 引入动画阶段机制精准还原 prompt 要求. 陀飞轮机芯也是一眼可见的提升. Agent 能力再次刷新纪录: 硅基骑手测试 (这次订单量加了5倍!) GLM-5 拿到 ¥738.69, 对比 GLM-4.7 的 ¥571.91. 关键发现是, GLM-5 每轮对话都在跟踪剩余轮次 ("254/300, 还有46轮"), 这种元认知是 GLM-4.7 未有过的. 它甚至给自己定了个小目标 "突破700元大关", 达成后庆祝了一下就继续干活. 而 GLM-4.7 在第198轮就开香槟不干了... 长文本召回: 各长度上下文召回均 98% 以上, 但有个问题 - 不给原文时四选一蒙对率达到 51.4%, 模型甚至能脑补出哈利波特小说英文原文, 所以分数置信度存疑. 不过 Agent 测试本身上下文就超过 100K, 召回性能实际上没问题. 总结: GLM-5 编程全面进化, Agent 能力展现出自主规划意识, 视觉美学也显著提升 (这次它特别偏爱科技感的 Orbitron 字体). 这么猛的表现, 很期待接下来的 GLM-5V! 另外官方账号还发了个马的图案, 看来之前的 pony alpha 是 GLM-5 石锤了! (P.S. 本次测试的是内测版本) #GLM5 #智谱 #智谱GLM #AIAgent #GLM
00:00 / 07:03
连播
清屏
智能
倍速
点赞47
00:00 / 01:08
连播
清屏
智能
倍速
点赞5
大模型第一股开年前交出新一代旗舰基座模型GLM-5 智谱AI于2月12日正式发布新一代旗舰基座模型GLM-5,该模型定位为面向复杂系统工程与长程Agent任务的基座模型,参数量提升至744B(激活40B),预训练数据达28.5T token。其前身为开源社区近期热议的匿名测试版本Pony Alpha。 GLM-5在技术架构上集成两大核心创新:采用异步智能体强化学习框架"Slime",支持模型在长程交互中持续学习;结合DeepSeek稀疏注意力机制,在保持长文本处理能力的同时显著降低计算成本。评测数据显示,其在SWE-bench Verified等编程基准中表现超越Gemini 3 Pro,在BrowseComp、MCP-Atlas等Agent能力评测中达到开源SOTA水平。 实测案例显示,GLM-5具备较强的系统工程能力。在克隆Web界面任务中可实现80%完成度,在构建macOS仿真桌面时展现出模块化设计与交互协调能力。开发者基于GLM-5构建的多智能体世界Pookie World能实现社会级涌现行为,另有用户利用其开发出可上架App Store的论文探索工具。 值得注意的是,模型在简单常识题测试中表现改进明显——匿名测试版Pony Alpha曾错误建议"步行50米去洗车",而正式版GLM-5已能正确理解必须开车前往的物理逻辑。这反映出模型在常识推理方面的优化。 GLM-5标志着智谱AI从代码生成工具向系统工程平台的转型。虽然与Claude Opus 4.6等顶尖闭源模型仍存在细节差距,但其开源特性与性价比优势为专业开发者提供了可靠的生产力选择。
00:00 / 12:42
连播
清屏
智能
倍速
点赞7
00:00 / 03:10
连播
清屏
智能
倍速
点赞24
00:00 / 01:08
连播
清屏
智能
倍速
点赞194
00:00 / 00:34
连播
清屏
智能
倍速
点赞2151
00:00 / 04:53
连播
清屏
智能
倍速
点赞40
00:00 / 10:54
连播
清屏
智能
倍速
点赞29
00:00 / 01:18
连播
清屏
智能
倍速
点赞64