00:00 / 00:35
连播
清屏
智能
倍速
点赞36
Karminski3月前
GLM-5发布啦! 给大家带来实测! 大模型进入月更节奏! GLM-4.7 才发布一个月, 智谱又掏出了 GLM-5, 这迭代速度属实离谱. 照例给大家带来编程、Agent、长上下文能力全面测试! 本次编程能力提升巨大: 新引入的鞭炮炸鱼缸测试, 要求模拟水滴/碎屑/烟雾/气泡四种粒子效果混合在流体中, 折射效果还原度已经和 Claude Opus 4.6 几乎没区别了. 鞭炮连锁爆炸测试指令遵循大幅提升, GLM-4.7 会忽略的参数 GLM-5 都能精准还原, 视觉上玻璃箱效果、色调映射达到了电影级画质. Python 杯子倒水新增了顶点碰撞检测, 甚至给2D粒子加了模拟3D高光! 大象牙膏测试实现了三层碰撞检测, 引入动画阶段机制精准还原 prompt 要求. 陀飞轮机芯也是一眼可见的提升. Agent 能力再次刷新纪录: 硅基骑手测试 (这次订单量加了5倍!) GLM-5 拿到 ¥738.69, 对比 GLM-4.7 的 ¥571.91. 关键发现是, GLM-5 每轮对话都在跟踪剩余轮次 ("254/300, 还有46轮"), 这种元认知是 GLM-4.7 未有过的. 它甚至给自己定了个小目标 "突破700元大关", 达成后庆祝了一下就继续干活. 而 GLM-4.7 在第198轮就开香槟不干了... 长文本召回: 各长度上下文召回均 98% 以上, 但有个问题 - 不给原文时四选一蒙对率达到 51.4%, 模型甚至能脑补出哈利波特小说英文原文, 所以分数置信度存疑. 不过 Agent 测试本身上下文就超过 100K, 召回性能实际上没问题. 总结: GLM-5 编程全面进化, Agent 能力展现出自主规划意识, 视觉美学也显著提升 (这次它特别偏爱科技感的 Orbitron 字体). 这么猛的表现, 很期待接下来的 GLM-5V! 另外官方账号还发了个马的图案, 看来之前的 pony alpha 是 GLM-5 石锤了! (P.S. 本次测试的是内测版本) #GLM5 #智谱 #智谱GLM #AIAgent #GLM
00:00 / 07:03
连播
清屏
智能
倍速
点赞55
00:00 / 10:54
连播
清屏
智能
倍速
点赞125
00:00 / 01:30
连播
清屏
智能
倍速
点赞6
00:00 / 01:49
连播
清屏
智能
倍速
点赞3
00:00 / 03:26
连播
清屏
智能
倍速
点赞2
00:00 / 00:40
连播
清屏
智能
倍速
点赞14
00:00 / 01:48
连播
清屏
智能
倍速
点赞2
00:00 / 06:20
连播
清屏
智能
倍速
点赞10
00:00 / 00:15
连播
清屏
智能
倍速
点赞135
00:00 / 00:51
连播
清屏
智能
倍速
点赞3678
本周AI圈大事件! 一分钟带你速览本周AI重磅动态! 智谱发布GLM4.6开源模型,编程能力国际顶尖,首次实现国产芯片高效部署,推动自主AI生态建设。 阿里推出QwenVL-3B模型,仅激活30亿参数却媲美GPT-5 Mini,支持图像理解与数学推理,提供标准版和量化版满足不同需求。 蚂蚁集团开源万亿参数模型Ling1T,数学推理和代码能力卓越,适配金融与科研复杂场景。 全国首个羊产业大模型问世,由西北农林科大基于Qwen3架构研发,实现品种识别、育种指导等六大功能。 通义千问发布LiveTranslateFlash,支持18种语言与方言互译,同传延迟低于3秒,质量超越GPT-4o。 Meta推出CWM代码模型,可模拟代码执行效果,深度支持Python与Docker环境,复杂系统开发效率大幅提升。 OpenAI发布Sora2及社交App,支持1080p视频生成,物理模拟精度提升80%,数字分身功能让创作更简单。 中国信通院推出方升3.0大模型评测体系,新增基础属性与全模态理解等十项能力评估,服务工业与金融场景。 快手可灵2.5 Turbo登顶全球视频生成榜单,图生视频与文生视频双项第一,超越多家国际模型。 商汤AI视频Agent“Seko”用户突破10万,通过对话即可生成完整视频,自动分镜、智能配音,大幅降低制作门槛。 本周AI领域进展迅猛,国产模型与视频生成技术尤为亮眼!你最期待哪项技术落地?来评论区聊聊吧~ #AI新闻 #科技动态 #国产模型 #人工智能
00:00 / 02:11
连播
清屏
智能
倍速
点赞0
00:00 / 01:48
连播
清屏
智能
倍速
点赞0