00:00 / 13:33
连播
清屏
智能
倍速
点赞274
🚀开源编程新王诞生,实测GLM-4.7 🚀开源编程新王诞生,对标Claude Sonnet 4.5?实测GLM-4.7:Coding和Agentic能力直逼Gemini 3和Claude 4.5 🚀🚀🚀视频简介: ⚡️ 本期视频详细演示了智谱AI最新发布的GLM-4.7开源大模型的全方位编程能力测试! 📊 模型亮点:358B参数MoE架构,MIT开源协议支持商业使用,在数学竞赛、代码能力、科学推理等多项基准测试中超越GPT-5.1和Claude Sonnet 4.5! 🎮 实测内容: SVG太阳系动画生成(一句话搞定) 冒泡排序算法可视化动画 3D风格侏罗纪恐龙狩猎游戏 圆面积公式推导交互动画 根据网页自动生成PPT Claude Code接入配置教程 Chrome DevTools MCP浏览器自动化 iOS原生背单词APP完整开发 💡 无论是前端开发、游戏制作还是iOS原生应用,GLM-4.7都展现出强大的编程实力! 🔥🔥🔥时间戳: 00:00 开场介绍 - GLM-4.7模型发布,358B参数MIT开源 00:53 基准测试 - 数学、代码、推理能力全面对比GPT-5.1和Claude Sonnet 4.5 01:59 测试计划 - 前端编程、工具调用、复杂推理三大维度 02:30 SVG动画测试 - 一句话生成太阳系八大行星公转动画 03:27 算法可视化 - 冒泡排序动画:指挥舰排列小行星 05:01 游戏开发测试 - 从零开发侏罗纪恐龙狩猎射击游戏 07:12 数学推导动画 - 圆面积公式推导可视化演示 08:52 PPT生成测试 - 根据网页链接自动生成完整PPT 09:53 Claude Code配置 - 三条命令接入GLM-4.7 API 11:09 浏览器自动化 - Chrome DevTools MCP实战博客改写 12:00 终极挑战 - iOS原生背单词APP完整开发 14:54 总结评价 - GLM-4.7编程能力综合评估 #ai #GLM47 #ai编程 #aigc #大模型
00:00 / 15:05
连播
清屏
智能
倍速
点赞127
00:00 / 07:29
连播
清屏
智能
倍速
点赞269
00:00 / 01:29
连播
清屏
智能
倍速
点赞6
00:00 / 06:43
连播
清屏
智能
倍速
点赞35
00:00 / 02:36
连播
清屏
智能
倍速
点赞22
00:00 / 00:27
连播
清屏
智能
倍速
点赞10
Karminski1月前
抱歉我们只有超大杯! GLM-4.7实测! 本次测试覆盖了GLM-4.7的编程能力, Agent/ToolCall能力, 长上下文召回能力, 给大家带来刚发布的 GLM 4.7 的测试结果: 考验Agent能力的硅基骑手测试, 简单讲是让大模型使用工具模拟骑手取外卖送餐. GLM 4.7 在24小时总计300回合的极限送餐中收益达到了 571.91 元, 执行了总计 354 次 tool call, 测试使用了大约 50% 的上下文空间, 直到超过100K后才停止工作. Agent 测试这次是创了新高, 执行效率特别高, 得益于模型可以在一次会话中发起多个 tool call, 节省了时间并能选择收益最大的方案. 然后是考验长上下文召回能力的霍格沃茨测试, 简单来讲就是在长上下文中, 能否记住上下文并准确的回答问题. GLM 4.7 在192K以内召回水平在91%到100%区间, 而200K也有95%, 召回效果同样也很不错. 最后再来看编程能力测试上最大的感受是粒子, 建模, 光影效果都有提升, 尤其是空间能力有了巨大的提升. 当然性能问题仍然存在, 希望下个版本着重优化下生成代码的性能问题. 总结, 这次GLM 4.7 在各个方面都有明显的提升, 作为主力编程模型不是问题, LMArena 和 SWE-bench 等编程测试中都取得了开源大模型 SOTA 的水平. 不过还是要说一句, 测试中我发现API速度时快时慢, 是不是因为大家都在用新版本导致的? 希望官方赶紧加机器. #GLM47 #智谱AI #智谱GLM #ai编程 #大模型
00:00 / 04:16
连播
清屏
智能
倍速
点赞11
00:00 / 00:11
连播
清屏
智能
倍速
点赞2