00:00 / 04:51
连播
清屏
智能
倍速
点赞14
00:00 / 00:08
连播
清屏
智能
倍速
点赞138
00:00 / 00:20
连播
清屏
智能
倍速
点赞84
00:00 / 01:59
连播
清屏
智能
倍速
点赞1
00:00 / 01:05
连播
清屏
智能
倍速
点赞63
GLM 4.6V开源全能王,多模态一夜变天! @王兴波(Ra·Zero) 智谱 AI 发布的 GLM 4.6V,以开源多模态 “全能选手” 身份颠覆 AI 圈格局,彻底打破 “多模态闭源贵、开源半成品” 的困境。它是首个将图像、视频帧、网页截图直接纳入工具调用流程的开源模型,无需先转换为文字描述,相当于给 AI 装上 “会干活的眼睛”,普通人可下载本地运行,开发者能二次开发,大幅盘活智能体应用场景。 其核心优势显著:一是超大上下文窗口,12.8 万 token 可一次性处理 150 页文档、200 页 PPT 或 1 小时视频,视频帧带 “时间戳标签”,精准定位特定内容;二是双版本适配,1060 亿参数云端版与 90 亿参数免费 Flash 轻量版(本地电脑可跑)均采用 MIT 许可,企业部署无代码公开与天价授权费压力,定价仅为输入每百万 token 0.3 美元、输出 0.9 美元,性价比远超 GPT 5.1、Claude Opus 等竞品;三是工具调用革新,通过 URL 定位视觉内容,截图、PDF 图表可直接作为工具参数,接收视觉结果后连贯推理,补上多模态智能体 “最后一块拼图”。 场景能力同样亮眼:能处理 “图文混搭” 内容(如带图表论文总结)、实现网页 “边搜边思考” 的结构化分析(如手机对比)、像素级复刻 APP 界面代码(含 HTML/CSS/JS,支持可视化修改确认),还可处理 200:1 超宽全景图。测试中 Math Vista 获 88.2 分、Web Voyager 得 81 分,超越 GLM 4.5V、Qwen 3 VL 等,Flash 轻量版也碾压同类模型。目前用户可从 Hugging Face 下载权重,通过 OpenAI 接口调用或试用桌面助手,小白也能低门槛上手,为 AI 圈设立多模态开源新 “内卷标准”。#人工智能产业链联盟 #人工智能 #智谱 #智能体
00:00 / 07:17
连播
清屏
智能
倍速
点赞41
00:00 / 01:26
连播
清屏
智能
倍速
点赞32
智谱开源AutoGLM:对抗巨头围剿的AI Agent革命 核心能力:手机自动化操作的“全能助理” AutoGLM是智谱研发的AI Agent框架,通过“大模型+工具链”整合,实现手机全流程自动化操作。用户仅需自然语言指令,即可完成跨App任务:如自动打开美团点外卖、查询日历并规划通勤时间、检索小红书旅游攻略等。目前已支持50+主流中文应用,具备泛化学习能力,可快速适配新App。其技术突破在于将AI从“API调用者”升级为“屏幕理解+模拟操作”的自主执行者,2024年完成全球首个AI全自动发送红包。 开源背景:打破数据垄断与生态封锁 面对互联网巨头对豆包手机的登录限制(如微信、外卖App拒绝AI Agent访问),智谱于2025年12月宣布AutoGLM完全开源。此举旨在构建开放生态,对抗平台的数据壁垒——用户数据可本地化部署,实现隐私与功能双向隔离。罗永浩评价称:“技术革命无法被巨头阻拦,AutoGLM的开源将加速手机从‘工具’向‘助理’进化。” 行业影响:降低AI原生手机开发门槛 厂商层面:无需重复训练百亿级Phone Use模型,可直接基于AutoGLM框架开发AI原生手机,缓解内卷压力。 开发者层面:提供完整技术栈与试验田,聚焦业务流程创新而非底层基建,推动人机交互范式突破。 用户层面:通过闲鱼等平台出现的“100元远程配置服务”可见,普通用户也能低成本部署个性化AI Agent。 未来展望 AutoGLM开源被视为AI Agent手机时代的起点,其打破技术垄断、推动生态共创的举措,或将重塑移动互联网权力格局。当手机从“被动工具”变为“主动助理”,个人AI全能时代的到来已不再遥远。
00:00 / 06:20
连播
清屏
智能
倍速
点赞1