00:00 / 06:04
连播
清屏
智能
倍速
点赞NaN
智谱首个面向视觉编程的多模态模型实测! 智谱出了个新模型 GLM-5V-Turbo,首个面向视觉编程的多模态 Coding 基座模型。我平时喜欢用 Claude Code 写前端、用龙虾跑自动化,这个定位正好对口,直接接进去跑了三个场景。 场景一:Claude Code + 截图写 H5 用 Excalidraw 画了个很粗糙的健身 APP 原型图,手绘线框那种。以前用纯文本模型得把这图翻译成几百字需求描述,现在直接截图丢给 Claude Code,一句话提示词,H5 页面就出来了。不光做了原型上有的,还自己补全了交互和设计细节。 场景二:龙虾 + PPT Skill 自己看自己改 龙虾里有个 vibe-slides Skill,能把口播脚本自动生成交互式 PPT 网页。以前接的是纯文本模型,生成了网页但它自己不知道长什么样,配色好不好看排版有没有问题全靠运气。换了 GLM-5V-Turbo 之后,龙虾自己截图看自己的产出,"配色太暗了""标题字号太小"——自己发现问题自己改,改完确认没问题再自动部署到 Vercel。从需求到上线不用你打开浏览器。 场景三:视频多模态分析 以前视频分析是视频提取音频、音频转文字、再丢给大模型,三步流水线每步都可能出错,而且画面里的 PPT 字幕场景切换全丢了。现在有了多模态视觉能力,视频直接丢进去,音画同时理解。以前让 AI 听,现在让 AI 看,省掉的不只是步骤,是信息的损失。 如果你也在用 CC 或龙虾,可以试试切到这个模型感受一下差距。 #GLM5VTurbo #GLM5V #智谱GLM5V #智谱多模态 #ai新星计划
00:00 / 05:13
连播
清屏
智能
倍速
点赞252
00:00 / 02:14
连播
清屏
智能
倍速
点赞9632
00:00 / 04:18
连播
清屏
智能
倍速
点赞9
00:00 / 01:23
连播
清屏
智能
倍速
点赞32
00:00 / 03:12
连播
清屏
智能
倍速
点赞148
AI编程进入“视觉原生”时代,软件开发的生产力拐点真的到了吗? 4月2日,智谱发布了一款名为GLM-5V-Turbo的多模态Coding基座模型。最大的亮点是什么?它不再是纯文本的编程助手,而是真正“看懂”画面的AI程序员——给它一张设计稿截图,它能直接生成完整可运行的前端代码;给它一个网页链接,它能复刻整个站点的前端结构和交互逻辑。 这意味着什么呢? 编程这件事,以前的核心壁垒是“语法”和“逻辑”,模型需要开发者把视觉需求翻译成文字指令。现在GLM-5V-Turbo直接把感知链路从枯燥的字符延伸到设计稿、网页截图和K线图表中,实现了“所见即所得”的编程体验。 大家想一想,这个逻辑其实很简单。当模型拥有了真正的视觉能力,它在AutoClaw这类Agent场景里就能看懂屏幕信息——比如在PinchBench、ClawEval这些评测基准上,它的表现都相当突出,说明复杂任务执行能力已经通过了严格验证。 对行业的影响是什么? 首当其冲的是软件开发效率的革命。传统的前端开发,从UI设计稿到代码实现,往往需要设计师和工程师反复沟通。GLM-5V-Turbo能把设计稿“秒变”成可运行代码,这意味着产品经理和设计师自己就能快速做出Demo原型,再拿给开发讨论,沟通成本大幅压缩。这种能力跃升,正在重塑整个软件开发生命周期的效率逻辑。 那么产业链的投资机会在哪里? 沿着技术传导路径梳理,最直接的受益方向有三个—— 第一层,AI编程工具本身就是最大受益者。 全球AI编程工具市场正快速增长,从2025年的76.5亿美元增长至2026年的94.6亿美元,年复合增长率达到23.7%。多模态视觉能力的加入,让这个赛道从“代码补全助手”真正进化为“全栈AI工程师”,价值空间被重新定义。 第二层,上游算力基础设施。 多模态模型的普及意味着Token消耗激增,推理需求爆发。浙商证券在2026年3月发布的策略报告中明确指出:大模型参数规模扩容、多模态应用普及、Agentic AI交互频次提升,正在导致算力需求指数级增长。像海光信息、浪潮信息、神州数码这些算力基础设施厂商。 第三层,下游多模态应用场景。 天风证券在2026年1月的报告中指出,AI视频、机器人、自动驾驶将是多模态技术落地的核心方向。 #智谱 #GLM-5V-Turbo #海光信息 #科大讯飞 #昆仑万维
00:00 / 03:04
连播
清屏
智能
倍速
点赞56
00:00 / 01:07
连播
清屏
智能
倍速
点赞646