给你们看啊,我用 cloud code 制作了一个英语学习的 app, 用的是这个 g o m 五点一的模型,并且在手机上也可以成功模拟测试了。看这里的翻转卡片功能,分级词汇库,还有像影子跟读这些功能都可以用,生成效果很好,就算你没有编程经验,也可以很快速的上手做出一个高质量的 app 了。 今天给大家分享啊,怎么零基础的去使用 cloud code 生成高质量的 app? 我 们主要会用到的一些工具有哪些?我们先准备一下环境啊,去官网先下载 node js, 再下载 git 就 可以了,大概就两三分钟吧。 然后我们来安装 cloud code, 只要一行代码,你在电脑里搜索 power shell, 一定要以管理员的方式运行哈,大家可以参考这个教程终端呢,输入这个安装指令,安装 cloud code, 运行完之后,你再输入 cloud 杠 version, 你 就可以看到这个回复的版本了,那就说明安装成功了。安装好之后我们要配置 api 的 key, 这里我用 cloud code 绑定了 g o m 五点一的模型给大家做演示啊,因为它的编程能力真的是对齐 cloud open 四点六的,而且在开源模型 call 定排名当中非常靠前,目前是开源第一,国产第一。我自己实测下来,我觉得生成 app 的 效果也很不错哎,我们中国团队做出这个能连续工作八个小时的 ai 模型了。 我先说怎么获取 a p i 啊,访问智普的开放平台注册账号,那我选的就是这个 g l m 五点一模型的 coding plan。 登录之后呢,在右上角个人中心页面点击 a p i 的 key, 创建一个新的 api 的 key 就 可以了,然后我们就把这个 api 加载到 cloud code 当中,用这一行代码就可以快速运行。它是一个 coding tool helper, 你 可以理解为它是个自动部署的一个工具,然后你就会看到这个页面啊,界面语言选择中文套餐呢,就选择 g o m coding plan 中国版 api key 就 把你刚获取的复制过来, 随后选择 cloud code, 往下到 m c p 服务,选择解释一下 m c p 啊,它是模型上下文协议,有了它才能让 ai 去外接工具, 比如说去控制浏览器连接你的本地文件,去执行操作。这里我们直接选一键安装所有的 m c p, 最后我们选择启动 cloud code, 给它权限,选择 yes trust folder, 跳出这个橙色界面,你就装好了, 你跟他 say hi, 你 看他就可以回复你。这个时候我再输入杠 model, 你 就可以看到我的模型现在还不是 g o m 五点一。回到官方文档,你会看到要用最新的五点一模型,你还需要配置 json 文件,改一下环境变量参数,这个不麻烦啊,你只要复制需求,直接让 cloudco 自己改, 你看它现在已经在操作了,它标注绿色部分就是改的部分,你选择 yes, 给个权限,它就改好了,是不是很方便?然后我们重新开一个 power shell 的 终端,打开 cloud code, 再输入杠 model, 你 看模型,它就变成 g o m 五点一了。 cloud 的 装好了,我会觉得命令行页面用起来不太方便,所以我还会在下一个 cursor, 它是一个 ai 编辑器啊,配合 cloud 的 开发,它就可以让整个开发过程变得格式化,文件管理也很直观,你看它左侧会显示 app 文件加右侧呢,会有一个 ai 助手帮你 debug 去解释代码的含义, 直接去官网下载就可以,然后你点开里面的 terminal, 然后再输入 call, 启动显示橙色的标识,就是成功打开了。好,那现在我们来做 app 啊,注意不要直接给指令啊,让 g l m 做一个什么什么样的 app。 我 们开始之前先搭一个最基本的 app 框架,框架稳固了,后续才能节省 token 并且避免出错。 怎么建立框架?这里用 xbow, 它呢,是专门为开发打造的一个全能框架,你只需要用这一条指令, npx create xbow 杠 app, 创建 react native 项目,你就有了一个标准的 app 框架模板, 然后他问你 app 的 名字啊,你随便输入一个 my app, 现在你就可以给模型你的详细需求了。为了让 app 生成效果更好,我们把 skills 装一下去,强化模型的开发能力啊,让它的 ui 生成的更加美观。复制下面的代码,我们就能安装 ui skills, 选择安装 building native ui 这个技能,这里选择 cloud code, 选择 project 啊,后续基本都选 yes, 然后你看到 complete, 那 就是装好了,你会看到右侧文件夹里多了一个 skills 文件,点进去你就可以看到具体的技能介绍。 接下来我们重新打开 cloud code, 输入杠 plan, 进入 plan mode 这个功能呢,它是让 cloud 先想清楚怎么做,经过你的确认授权之后再开始干活。那现在我们和 glm 模型去描述 app 的 制作需求,你可以像这样几句话描述啊,如果你希望 app 生成效果更加符合你的要求,建议大家让 ai 来帮你完善一个产品需求文档, 详细的告诉 ai 你 要做什么产品,什么功能,越详细实现效果越好。给他下达指令之后,你可以看到这个 glm 五点一模型在分阶段的设计功能,还有开发方案,他自己规划了五个阶段,每完成一项,他自己会划掉标注完成。我看他运作还是蛮有条理的。 从零给需求你到真正调试做出来 app, 我 大概花了三个小时左右,它可以自主帮你规划交付,基本都不太需要我辅助,我做的最多就是在给它授权,它自己也可以 db 去解决代码的问题,如果它生成的代码你要是不太懂,你想了解一下,你就选中它,右侧 cursor 的 ai 助手就会帮你去解答。 那等你全部完成这个 app 之后,你也可以在手机上实时预览啊。你只要在手机上应用商店下载 expo go app, 随后在终端输入 n p x expo star, 它就会弹出一个二维码,你用手机相册扫码啊,就可以直接打开去实时的在手机上体验了。 你想电脑端预览,就可以点击这个 link, 也可以体验里面的功能了。你像我有单词翻转卡还有跟读的功能,都是可以直接用的。好啦,快去试试看吧!艾特闺蜜好朋友,一起从零到一,搭建一款属于你自己的 app, 有 啥问题可以评论区见!今天就到这里啦,拜拜!
粉丝1.4万获赞7.9万

今天这个视频教你无痛安装 cloud code, 在 国内的网络环境下,用上 cloud gpt 等国外的顶尖模型,有些人可能还不了解 cloud code 是 什么,先简单介绍一下。 cloud code 可以 说是现在最强的 ai 编程工具, 再加上最近爆火的 skill 加持,很多人也用它写作、学习、做数据分析、办公等等。 cloud code 可以 说是现在最火热的 ai 助手之一,网上有很多的安装教程, 但是实际上你去安装就会发现不是那么回事,网络限制、安装配置中出现的各种问题能把你搞得焦头烂额。我也是看了很多的教程,结合自身安装过程中遇到的一些坑, 整理了一份 cloud code 在 国内网络环境下的安装使用指南,这份指南能帮你省下几个小时的折腾时间。接下来我会将原理和操作方法用通俗的语言给大家讲明白。好了,我们开始。 首先在安装 cloud code 之前,我们需要做好前置准备。 windows 电脑需要先下载 git, mac 系统自带 git, 无需下载, 不去这个网站选择 windows 叉六十四 setup 这个版本下载。安装完成以后呢,在 powershell cmd 中输入 git vision, 如果能输出正确的版本号,就代表 git 安装成功了。接下来要安装的是 node js 跟 npm, 我 们去这个网站选择适配自己的安装包下载即可。安装完成以后呢,如果你是 mac 用户,在启动台搜索终端, windows 用户在开始菜单里找到 git bash。 为了讲解方便,后面我们统一把终端和 get bash 统称为命令行。接下来我们在命令行输入这两条指令,如果都能显示版本号,就代表 node js 和 npm 安装成功了, and code 安装的所有的前置条件就已经完成了。 接下来我会手把手教你安装和使用 cloud code。 具体从哪里下载呢?我们有两个选择,一个是 npm 的 官方源,一个是国内的镜像源,你可以把它们类比成一个软件仓库, cloud code 也发布在这个仓库里面。那所谓的镜像源呢,其实就是官方的软件仓库同步复制了一份,那因为默认的 npm 源在国外 我们访问不是很方便,所以我们选择国内的镜像员下载 cloud code。 接下来是实际的操作步骤。首先我们打开命令行,输入下面的命令回车执行,然后再输入这条指令, 如果显示我们刚刚配置的镜像员地址,就代表我们已经成功的切换到国内的镜像员了。接下来你只需要在命令行中输入这条指令,回车执行即可安装。那这里要注意一个常见的问题啊, 系统可能会提示权限不足,这个时候你就只需要重新执行这条命令,输入管理员的密码。这指令的意思呢,就是我要用管理员权限强制覆盖安装 cloud code 的 最新版本。当安装完成以后呢,你在命令行输入这条指令,如果输出版本号,就代表 cloud code 安装成功了。 第三步是给 cloud code 配置模型。我们首先要去模型供应商平台开通账户,获取 api key, api key 相当于你在模型平台开户的凭证, 可以自己去创建获取。另外呢,要有可用的 token 额度,你可以在平台充值或者购买套餐。对模型供应商呢,大家可以根据自己的需要去选择, 你像国内的智普 glm 五、 mini max 的 m 二点五都是不错的编程模型。如果你想用 cloud opera、 四点六、 gemini、 三点一 pro 等国外的顶尖模型啊,因为国内的网络环境问题,你可以通过一些合规的中转站去订阅。 接下来我们就要把 api k 请求地址给到 cloud code, 在 这里我们用到一个叫做 c c switch 的 工具,下面是具体的操作步骤。首先我们去这个地址下载 c c switch, mac os 系统下载这个版本, windows 系统下载这个版本安装完成以后呢,打开 c c switch, 选择第一个标签 cloud, 点击右上角的加号。 第二步呢,选择要接入的模型供应商,如果没有我们需要的供应商,可以选择自定义配置。这里有三个最重要的信息需要注意一下。首先是 api key 和请求地址, 这两个是我们必填的,也就是前面我们在模型供应商中获取的信息。请求地址呢,在 cc switch 中,根据选择的供应商已经预填好了,一般在模型供应商平台的 api 文档中也能看到 行信息是选填的,但是也建议你指定一个模型,因为有些供应商会支持多个模型,换人情况下,你不知道他选择哪一个模型。接入 cloud code, 这里要注意的是,填写的模型必须是供应商支持的模型,否则 cloud code 会无法识别。那其他的配置信息呢?保持默认即可。 配置完成以后呢,我们选择一个供应商起用,后面你也可以切换至其他供应商,这样 cloud code 就 能够接入不同的模型。 不过要注意的是,每次切换供应商以后,都需要在 cloud code 里面切换模型,这样配置才能生效。那把 cloud code 装好了,模型也配置好了,接下来我们终于要使用 cloud code 了,我们在命令行中输入 cloud, 然后回车直行,这样 cloud code 就 被起用了。 当我们在 cloud code 里输入这个指令,回车直行,就会弹出模型选择的列表,我们用键盘的上下箭头选择第一个默认的模型,也就是 c c switch 里起用的那个供应商。接下来你就可以指挥 cloud code 帮你干活了。 在选择和切换模型后,啊, cloud code 可能会出现找不到模型的情况,这个时候你可以进行下面这几步排查。 首先你可以退出克拉的 code, 重启后再试一下,如果还是不行,你就要去核实一下 c c switch 中的 api key 请求地址,模型的名称是否填写错误,微商平台是否有充足的余额和套餐。 另外,我还整理了 cloud code 的 三类常用的指令,放在了指哪里。第一类是启动类的指令,在中单命令中执行,包括 cloud code 的 重启,继续上次对话,查看历史对话记录。第二类是对话类的指令,在 cloud code 里输入斜盖,你就能查看所有的绘画指令。 第三类是安装卸载类指令,前面我们安装的时候也已经用到过一部分。最后再给大家分享一个小技巧,如果你在安装和使用过程中遇到了任何你解决不了的问题,你可以连同问题和截图一同给到 ai, 你甚至可以直接给豆包共享屏幕,让他现场指导你。一般情况下,大部分问题都能够解决。这份 cloud code 的 安装指南除了有详细的安装步骤和注意事项,我还对用到的一些技术概念和工具做了小科普,如果你想要这份安装指南,我可以分享给你,而今天的视频就到这里,别忘了点个关注,我们下期见!

你能想象吗?刚刚在 swbench pro 这种专门测真实工程能力的基准里,超过 cloud opa 四点六拿到索塔的模型,居然是一个国产模型, 并且它已经开源了,它就是智普的 glm 五点一。那更关键的是什么呢?它这次呢不只是更会写代码了,而是在长城任务处理的这个场景也有了重大的突破。 你可以看到官方的一些测试 case 当中,它可以自己连续工作七八个小时,从拆解需求,写代码,调试优化, 全程都可以自己往下推进。那说起智普呢,其实我从 g l m 四点五这个时代呢,就开始使用它们家的这个产品,从一开始它可以去完成一些小任务,到后来它能够去完成一些中等的复杂一点的这个任务,再到后来它们家的这个 coding plan 直接限售了 啊,我可以明显的感觉到,智普的这个模型呢,确实是越来越强了,在不断的去追赶并且缩小它与海外的这些币源模型,顶级模型的一些差距。那所以说今天这个视频呢,我就想用这个 glm 五点一来做一下真实项目的测试,看一下我们这个国产第一,台元第一到底好不好用。 那这个呢,是我自己在用的一个小工具啊,它是一个视频下载器,平时呢我就拿它来下载某音啊,小破站啊,还有这个油管的视频。所以说今天呢,我就想用这个 g l y 五点一把这个工具网站做成一个完整的副业产品。那视频结束之后呢,这个网站应该会具备 登录注册啊,积分系统,视频下载、文案提取以及 ai 改写这方面的能力,并且呢我想的是在改写这一块啊,用户可以去按照平台啊,字数啊,受众啊风格去定制, 还可以直接去与 ai 对 话进行非常详细的定制化的一个改写。然后啊,就是艾米后台也得一起给我做出来啊,包括这个用户啊,订单啊,积分啊,操作记录等等,这些都可以非常轻松的进行一个管理。所以说这次任务啊,这个视频 g l m 五点一能否顺利完成,我们拭目以待。 那这次呢,我们就在 cursor 当中去使用 g l m 五点一啊,因为我之前用的是这个 pro 套餐,所以说呢,我可以在第一时间去体验它们最新的模型。接下来的话呢,我们就参考这篇文章,把 g l m 五点一啊配置到这个 cursor 里面去,随便说句话,看到回复呢就表明已 经接入成功了,那我们接下来输入这段提示词,那如果有参考图片的话呢,也可以在这个时候直接贴给他。那这边呢,我再跟大家分享一个小技巧,就是不要让它说一下自己对这个需求的理解啊, 以及他目前有哪些地方。是啊,需要和我们二次确认的,看一下他到底能够理解到什么样的一个程度啊,是不是和我们已经对齐了, 那这个阶段我们和 ai 全部拉齐以后呢,再让他继续往下做,整个后面的这个过程啊,就会丝滑很多。那我中途呢,还会去让他帮我想想产品的一个功能有没有什么漏洞啊,有没有闭环啊,包括商业化运作这方面啊,有没有什么不足等等,但凡是在这个产品的开发过程当中,你可以想到的任何问题,你都可以在这个阶段和 ai 沟通, 等到他给出了这个详细的实施方案,完美匹配了你的这个阶段的需求啊,你就可以让他开始工作了。那我们第一阶段确认完毕了之后呢,他这边也没有开始直接写代码啊,而是呢先帮我们拆了一整套完整的这个任务流程。 那这一点呢,我觉得是非常的关键啊,因为真正的这种工程能力啊,其实不在乎你写的有多快,而是你能不能够把一件复杂的事情拆的非常的细致啊,拆的非常的对。那接下来的话呢,我们就让他一块一块的往下做啊,比如说我们可以先做视频下载这一块 啊,他会先去确认我们想要去支持的哪些平台,然后呢给出这个接口设计和处理的一个流程,再到这个文案提取啊,他也会去考虑用什么样的一个方式来解析字幕啊,是直接抓接口啊,还是做 啊这个视频转文本的这样的一个处理。那到了 ai 改写这里呢,他甚至还会去帮我们把这个改写的策略啊设计了出来,我觉得这些其实已经不是单纯的去写代码了,做这个业务实现,对吧?而是他开始在帮你做 啊,非常详细的这种产品的设计啊,在积分系统这一块,其实我一开始也没有给到他一个非常详细的这种扣减的规则, 只是说我希望用户在使用某些功能的时候呢,可以去消耗他的这个积分,然后他自己呢就帮我设计了一整套的这种构建逻辑啊,你比如说下载消耗多少啊?然后改写对话,改写消耗多少?不同的这个模式呢,还会有一个差异化的计费。那虽然说呢,这个也不一定是最终的最完美的这个解决方案吧,但是呢,他至少是 在县级段给了我一个可以直接拿来用的出版整个过程下来,我最大的一个感受就是他不是在等你指挥,而是在主动推进,很多时候我们只需要给他一个方向,然后他自己呢就会去把中间那块给你脑补上。另外我还发现了一个事情,就是我这里面不是会 用到 ai 大 模型做这个改写和对话嘛,那我发现呢,我之前的这个 coding plan 可以 直接拿来用,也就是说我们平时携带嘛,包括这里的 api 调用,都是可以走同一个 plan, 甚至呢我们还可以把这个 g l m 五点一接入到龙虾啊,也是同一个 plan, 性价比特别的高。 那最后呢,我又让它基于现有产品做了一套后台管理系统啊,比如说这个用户列表啊,订单记录啊,积分流水啊,甚至还有这里的改写记录,对吧? 尤其是下面的这个系统配置,这里啊,我们之前的这些改写功能,其实用户选的各种策略,它背后对应的都是提示词,那它增加了很多配置的一个类型,就是尽量让这个配置表可以在未来做到大局通用。那比如说这里的任务类型啊、状态啊、平台啊、风格啊, 其实都是走的刚才的那个配置表。那这一块我觉得还是挺加分的啊,因为很多 ai 它到了这一步可能就开始摆烂了啊,或者是它自己自由发挥了。 那你像这个 glm 五点一呢,它能够在这么长的一个任务当中啊,在你没有明确要求的这种情况下面,把整体的这个系统往可扩展、可维护的这个方向去做设计啊,我觉得是非常的难得。 那比如说你后面如果想要去新增一个品牌,新增一种风格,新增一种改写的策略啊,你直接在这里加一个配置就 ok 了啊,非常的丝滑。那这一点呢,我觉得其实已经有点接近正常后端工程师,它在做 呃系统设计的时候这样的一个思路了啊,就是非常的有怎么说啊,活人感。那当然这个中途呢,也是会出现一些这样或者是那样的 bug 啊,比如说这个视频下载失败了,然后封面无法解析等等等等。但是呢,我们都是可以通过和 ai 描述问题来解决问题的。那 做完这个项目之后呢,我其实有一个挺明显的感受啊,就是 ai 编程这件事情呢,真的是在发生一个很大的变化。以前呢,我们用 ai 可能是让他去帮我们写代码,做代码补全,但是现在的话呢,你是把一个完整的任务直接丢给他, 让他自己去做,从理解需求到拆解步骤,再到执行修问题,最后交付结果。这中间呢,其实我们已经不再是写代码的那个人了啊,而是更像一个分配任务的人。那这也就是大家所说的这个 long horizon, 当 ai 可以 自己去持续工作几个小时甚至更久的时候呢, 它所改变的就不是一个简单的效率问题,而是在颠覆我们整个做软件做项目的一个方式。所以说如果你现在也在做自己的项目,不管是工具还是副业啊,真的是可以去尝试一下这个 g l m 五点一这个最新的模型。 ok, 那 以上呢,就是本期视频的一个全部内容了,感谢大家的收看,我们下个视频再见, peace。

断档第一!就在刚刚,智普 g m 五点一登顶 swbench 等一众硬核榜单,连 happy face 的 ceo 都发文祝贺。在编程能力三项综合测试中, g m 五点一也达成了开源模型第一,国产模型第一的成就直逼 clop 四点六和 g t 五点四 外,网上已经开始疯狂安利了。所以今天六博士就和大家一起拆解这个被称作新晋国产元神的 gm 五点一究竟有什么创新点?他的实战能力到底如何呢?点赞收藏,方便回看!接下来一起进入本期云祖会 gm 五点一的强大可以总结成一个词,长城任务能力。什么是长城任务?简单说就是那些不能靠一句提示词解决,需要跨步骤、跨工具、跨时间持续推进的工作, 比如开发一个完整的应用,或者重构一个老项目。 ai 模型评测机构 m e t r。 研究显示,在编程领域, ai 能完成的任务复杂度呈指数级增长, 每七个月就翻一倍。行业的共识是,单人回答已经不够看了。正如 m i t tech review 和顶级资本所判断的,二零二三至二零二四年的 ai 是 对话者,而二零二六至二零二七年的 ai 正成为执行者。 交付单位正在从一个回答变成一个项目。以前的模型像个聪明但健忘的实习生,走几步就要人提醒,稍微复杂点就丢上下文忘约束你,让他忘了你删不之前说的数据库规范。 而 glm 五点一的目标是让它能独立交付,对最近非常火的 harness engineering 无疑是锦上添花。长城任务能力才是检验模型智能的下一个标准。 口说无凭,我们来实测一下,我们直接拿号称宇宙最强的 cloud opus 四点六和 glm 五点一做对比 来,我们现在开始丛林手搓一个植物大战僵尸。我们可以看到,在搭建整个游戏框架的时候,居然五点一完全自主规划并执行模型,创建了五乘九的方格,按照类别创建植物僵尸并设计游戏机制。来看看,不错啊,感觉有模有样了。 那我们来考验一下他的长城任务能力,让他再优化更新一下游戏输入提示词,增加观察选择、返回菜单按钮功能。 可以看到,虽然整体美工上因为没有着重设计,稍微有些简陋,但在游戏机制和体验上, g o m 五点一完美复现了植物大战僵尸的核心内容。而且体验最好的是它中间遇到翻译报错时能自己查日期,改代码,重新跑通,全程无需人工介入。 反观 core 这边,实在出乎我的意料,一开始点开始游戏进去没画面修正以后,美术风格也不如 g l m 五点一。接着我们来再看其他四个案例的对比, 刚刚看到的四个案例,不论是火山爆发还是月球围绕地球旋转动画, g l m 五点一都是全流程一次过,而 cloud 在 火山喷发和机械表案例第一次喷不出画面。 所以说结果就见仁见智了。至少从以上五个案例上看, g i m 五点一是更好的那个。 为什么 g i m 五点一能扛住长任务,不跑偏,不锻炼核心有三点。第一,更强的长城规划与目标保持 模型,不是你说一步他做一步,而是能把复杂目标拆解为多阶段可执行计划,并在长链路执行中始终围绕最终交付推进,减少跑偏、遗忘、约束或陷入局部坠油。 第二,更稳的多工具协同、代码编辑、环境调试、 api 对 接环节衔接稳定。过去开源模型长任务后半程容易断裂,而现在 g m 五点一能自主排查修复,不用停下来等你。 第三,更好的上下文一致性,这是他能对标 cloud op 四点六的关键点。在多轮交互后期,模型啊仍能稳定追踪已完成的内容,当前阶段和下一步的关键动作,有效解决了上下文中的稀释效应。 这一切的背后,是 g l m 五点一引入了 multi turn 强化学习和过程质量评估体系,它在可能性、自适应、纠错、工具使用与推理三个维度实现了进化。对比 k 二点五等竞品,它不再是需要盯着的聪明应届生,而是给目标就能独立交付的老员工。 试完 g l m 五点一之后,我装那愣了一会。之前编程啊,我更愿意用 cloud, 但这次试了 g l m 五点一之后呢,确实不得不感叹,国产模型的进步啊,真的很大。 以前我觉得 ai 再强,它也只能做碎片化的工作,我作为拆解任务把控权局做决策的人,位置啊是安全的。但当模型啊开始自主规划、自主执行、自主纠错、自主交付时,我突然意识到自己的可替代性啊,在迅速上升。 我并不想呢,贩卖焦虑,但你体验过之后,肯定能明白我想表达的是什么。最后, g m 五点一墙归墙,但你这抠钉 pen 的 速度啊,实在是有一点供不应求了,赶紧给服务器扩扩容吧。

智普 g l m 五点一到底能不能硬钢 plus 的 代码王座?这篇包含跑分、实战痛点和使用边界的思维硬核评测,直接把底牌揭开。一句话总结,这是目前最极致的偏科平替,看完你就知道该怎么用它。踩不踩坑。 先看过场数据,底座七千四百四十亿参数底层直接融合了异步强化学习和 deep sea 的 稀疏注意力机制,标称二十万超长上下文,极数上面直接拉满, 跑分直接逼进地表最强。官方测试中, g l m 五点一的编程得分达到四十五点三分,相比上一代直接飙升百分之三十,距离目前公认的代码天花板 opus 四点六仅差了不到三分。单看测试水准,他已经稳稳占据世界第一梯队。 但跑分不等于体验,这是很多开发者最容易踩坑的地方。实战反馈表明,他的代码生成确实有巨大进步,但代价较为惨烈。 这是一款典型的侧向升级产品,为了强吃代码能力,它大幅度牺牲了日常动用、任务处理和创意扮演能力。如果你拿它写文案,表现甚至不如上一代的 glm 五, 更致命的是长文本陷阱,纸面数据标称支持二十万上下文,但在实际高压环境下,一旦你灌入五到七万托盘的庞大代码库模型,偶尔就会出现逻辑混乱,甚至直接发疯。在处理极长代码项目的极限稳定性上,它目前还无法完全替代 os。 既然有缺陷,为什么海外开发者还在疯抢?因为它的杀手锏是白菜价和伪装介入。在当前热门的 cologold 这类智能体开发环境里, 你只需要改个环境变量接口就能零成本把它当成 opus 来用。最关键的是它的 api 倒用价格只有 opus 的 几分之一,这是绝对的降维打击。最后直接给使用。结论,强烈推荐个人开发者和中小团队把它作为主力平替。 日常的写代码修 bug, 写中小型函数用它绝对超值。但是如果你需要重构超过七万头肯的祖传复杂代码,或者需要处理高度复杂的通用写作,请立刻闭坑老实实加钱去用 opus, 或者直接退回 glm 五。

一个问题就是他这个 gm 这些模型的排队量实在太恐怖了,基本上一排就排大几千个,根本就没法用,你总不能一个问题让你等一个小时吧? 这怎么办呢?我觉得大家可以用下这个腾讯出的 code 白等,它里面用的这个模型和区域里面差不多,基本上这个 gm 五点一,还有 v 五 turbo 五,四点七,还有 gm 二点五啊, 还有二 m 二点七啊,三点二啊,这些都有,该有的都有,没有豆包和千问, 豆包是因为他没开源,千问的话你懂的,腾讯和阿里这关系不太可能去用,像华为不太可能去用小米的一模大模型一样,这玩意发布已经有一年多了,我觉得他有个很好的好处,不仅是那个程序员可以用他产品啊,自己吃着也可以用,所以他支持这个飞格玛的设计稿, 那简直完美,哪怕你是个后端程序员,你想做全站或自己创业的话,其实也很合适。这东西唯一的不好的地方就是它只能用国产大模型,如果你要用国外的模型的话,你去下国国际版,它可以用 gbt 模型, 但 gbt 要花钱了。国内的这个 code button 是 免费的,而且不用排队,非常好。而且好处就是我感觉它这个地方你点设置这里面它内置的插件商城,我觉得是要比这个吹要好很多的,大家可以好好的用一下。

最近有网友问我,世界大模型第一股智普的 glm 五发布了,说它是全球最好用的开源模型,编程能力堪比 cloud, 是 真的吗? 先说结论是真的,中国清华系智普最新的 glm 五模型已经在编程能力上比肩 cloud 了,全球开源模型中排名第一,虽然还有微小的差距,但是我们在快速的追赶中, 我是杨乐多大白话讲 ai 这款 glm 五到底强在哪?用三点跟大家说清楚。第一点,开源模型世界领先。目前这款 glm 五在全球的开源排名中,编程能力排名第一,综合能力排名第四, 也就是在全球范围内把代码公开,让大家免费使用的模型里面, g l m 的 编程能力是最强的。第二点,代码能力逼近顶尖水平,目前编程全球最强的就是 cloud 模型,而 g l m 五在编程的使用体感上 已经跟 cloud 相差无几了。第三点,他专门擅长处理复杂的任务逻辑,也就是一个不会代码的人,可以跟他进行多轮对话后生成一个复杂的产品,甚至不用写一行代码就可以实现。 我们客观的看,差距确实还存在,但是你要知道,一年前我们的 ai 代码编程能力比全球顶尖水平差了十倍不止, 而现在我们基本上跟他们近在咫尺了,并且 glm 还是一个开源的模型,开源的模型意味着全球的开发者都可以免费的使用它,并且在上面进行二次创作和修改。 而 cloud 是 闭源模型,只能通过付费调用它的 api 来进行使用,并且不能对其进行二次的修改和调整。做一个比喻啊, cloud 就 像是高墙内的武林高手,没有人知道它是怎么实现的, 他的武功不外传,你们只能看。而 glm 五呢,就像一个武林盟主把所有的武功秘籍全部都公开了,那你想想谁的影响力更大,谁会进步的更快呢? 这就是中国 ai 的 速度,中国至普系的 glm 一 年时间走完了别人三到五年要走完的路,中国在不断的这,这背后就是中国的 ai 的 硬实力,也是中国 ai 选择开元路线的再一次胜利。

老铁们,历史性时刻啊,在我编写的大模型后端性的测试中, gm 五点一得分超过了 cloud open 四点六,来到了第一名。那么到底是怎么超越的?让我们开始测试, 我们一个一个项目测试来看啊。首先是前端这块,测试下来我发现跟 gm 五 top 差不多,我 我们能看到大象牙膏测试这个粒子效果会好了一些,不过追星屏的材质和光影还是那个样子,以及鞭炮连锁爆炸测试这个极致的效果的基础上,又增加了引线燃烧的这个火花,效果特别好看,当然性能也变得更卡了,陀 飞轮机芯测试感觉甚至空间理解能力有点下降了,但总体而言,前端能力上并没有质的变化,但是后端代码性能可就完全不一样了。测试使用我自己编写的测试框架 vtec 奔驰, 这个框架让大模型从零使用 ras 编写一个限量数据库。有朋友问我,写数据库跟后端开发有什么关系?关系很大啊,从零编写一个数据库,极致的考验了编原理、数据结构、算法体系结构、存储这些各个领域的知识,与操作系统编辑器一样,都是计算机基础软件领域的极大乘者之一。 本次 gm 五点一实现了向量数据库的 qps 刷到了三千九百八十九,而第二名 cloud open 四点六是三千五百四十八,第三名 gbt 五点四 pro 是 三千零九十一,妥妥的全球搜它了。在我之前的测试中,大概只有 deepsea 二一在去年可以达到这种领先的水平。来看细节啊, gm 五点一何德何能可以搜它。先讲一下咱们这个向量,然后在数据库中查找与之相似的向量。 大家能想到最简单的方法就是挨个跟数据库中的限量去做对比,哎,没错,请看榜单,这些得分不到一百 qps 大 模型也是这么想的,这个方法叫做暴力搜索,甚至之前伽马五在测试中也是这么干的。有同学会问了,这怕不是傻子吧,不能用锁瘾吧? 可以的, q p s 一 百到一千这个区间全都使用了倒排文件缩影。倒排文件缩影简单来讲,就是在数据库中对向量进行采样,把这些作为基向量,然后呢,再把跟这些基向量相似的向量放在一块查询的时候呢,先跟这些基向量做对比,然后 再便利这些相似的巨类向量,最后全局取 top n, 这样就实现了缩影结构。又有同学要问了,那这些干到了三千 q p s。 家的妖孽是如何做的?我们先来看第三名 g p t 五点四 pro, 它的优化方案是,感觉数据量太大了, 是用了二级缩影。第一层呢,我们先用一百二十八的聚类数量进行聚类,然后聚类,像浪里面再次使用六十四的聚类数量,在子层再次聚类,总体达到了八幺九二聚类数,我们测试数据足足有一百万条,所以这样做显然能增加速度。 那么第二名的 cloud open 四点六是什么方案?他的答案是,不搞这些花里胡哨的东西。你不是数据量大吗?那 我狙类也大,直接开了个一六三八四的狙类数。 g b t 五点四 pro 虽然锁瘾技术上比较强,但是二级锁瘾带来的缺点就是延迟高,再加上它的狙类数其实也没有打过 oppo 四,所以败给了 cloud。 oppo 的 四点六来到重点了,价位五点一是如何吹普拉朽的?先看狙类数量,价位五点一只有二百五十六的狙类数 少的可怜,但是它使用了量化技术。那么什么是量化技术?简单来讲啊,我们船入的限量都是 flos 三十二格式的,即三十二比特精度。我使用的 cpu 支持 a v x 五百一十二指令级, 其他的模型啊,也都使用了 s i m d 指令级进行了加速,但是加满五点一,把一百万条数据全都量化为了八比特,然后使用下面这些指令级进行了计算。这个指令级的加载宽度是二百五十六比特, 意味着 cpu 一个周期就能计算二百五十六除以八等于三十二个向量。别的模型一次算一个,我一次能给你算三十二个。有眼尖的同学能看到细节, 哎,你这个指令加载的时候是 int 八,怎么计算的时候就转成 int 十六。答案是为了防止精度不足,小数乘以小数,肯定涉及到这个尾数省略的问题,精度提升一倍,尽可能避免四舍五入带来的精度问题。那又有同学要问了,不是,你这个巴比特量化本身是不是也有精度问题啊? 有的,这就是键盘五点一牛逼的第二个地方了。我们测试中要求最终给出 top 十的像素向量,于是他先用巴比特连发数据,然后再拿着 top 两百向量的原始数据进行相似度计算,最后选举最相似的十个。 老铁们学到了没有?就问这一手牛不牛逼?后端提升了这么多啊,那么 a 阵能力有提升吗?来看考研大模型 a 阵能力的归机骑手测试,这个测试我准备了十五个托靠,比如移动 送餐、取餐计算耗时等等工具,让大模型模拟送外卖,看二十四小时之内哪个模型的盈利最多,直接说结论啊! gm 五点一在这个测试中来到了八百零八点一五元,继续维持了 sota 的 地位。从 gm 四点七时代, gm 就是 a 阵能力测试的 sota, 一 直维持到了今天的 gm 五点一。 说一下这个测试的难点,测试要求 ai 最多只能携带五个外卖订单,而当你一搜索订单,发现足足有二十多个订单等待接单,你应该选哪些订单?这个就是测试的最难的点。之前 gm 五的策略是尽可能多接单,于是他在测试中完成了历史最高的订单量 五十单,总体来到了七百三十八点六九元的盈利。而这次 gm 五点一只完成了三十九单,但是他只挑配送费高的送单,均利润能达到二十点七二块,总体来到了八百零八点一五元。 且慢啊!还有更重要的点,他会按照路线分析怎样组合订单才能获得最佳的利润。比如啊,来看他这个思考过程,别的模型还停留在同一个餐馆能不能取两单,而他已经想着 在路上还能再捡一单了。再且慢还有惊喜。这次 gm 五点一我只滚动保留了五十条历史对话进行了这个测试。 gm 五点一达成这个成绩,只用了六百二十一万的头盔,而 gm 五之前花了两千两百零三万的头盔 都没有超过它这个分数,所以 g m 五点一不仅性能猛,而且在只用少量输入的情况下,帮你减少 token 的 同时,还能比 g m 五的性能猛,可以说是探微观之。 当然啊,测试也发现了需要注意的点, g m 五的准时率还是比较好的,这也跟它拥有全部的上下文有关。另外 g m 五点一的 a p i 违规率也比另外两个略高了百分之零点二。总结, 在我这轮测试里,伽玛五点一在后端能力上已经从国产 sota 冲到了和 opus 掰手腕的世界, sota a 阵的水平也是一如既往的国产 sota 水平。 本次测试下来,发现仍然需要提升的大概只有前端细节和美学这些点了,那么这么强的模型难道就没有缺点吗? 有的老铁有的,这次 g m 五点一目前只开放了扣丁普兰,我甚至写脚本去抢了两次都没有抢到,最后我只能找质朴的同学要了个权限来测试。另外我在测试过程中,这个 a p i 啊,尤其是在白天的时候很不稳定,输出速度有的时候会掉到只有十几头根,以及偶尔会有中文乱码的问题。 这个得教大家一招,让 gm 五点一可以先出出英文,然后你再用其他模型翻译成中文,就能规避这个问题了。所以还是希望智博的同学抓紧加点显卡吧,大家有模型用还要排队,真的是难受啊!以上就是本期的测试内容,欢迎大家点赞评论转发,我是牙医,我们下期再见!

这也太快了吧,大模型第一的位置已经悄悄换人了。就在前几天,致富版最新模型 glm 五点一毫无预兆地向所有 coding plan 用户全面开放。官方评测数据显示, glm 五点一的编程能力直接飙升到了四十五点三分,相比五点零版本性能提升了将近百分之三十。老实说,这操作太像当初的 dc, 不搞花里胡哨的营销造势,是骡子是马,让用户自己去遛,主打就是一个技术自信。而且这次升级的核心直接指向了智能体工程,专攻长距离、多步骤的复杂工程任务。接下来直接带大家实测一下, 任务是从零搭建一个带用户注册、商品展示和订单管理等等的前后端分离购物商城系统。正常来说,这是一个初级工程师,大概需要三到四天的工作量了。我先给了 gln 五点一张参考图,然后用大白话输入了一段提示词, 发完了我就坐在旁边看着他干。他先是主动写了一段执行步骤,说明每一步怎么搭建,包括先做后端搭建,然后产品分类、购物车订单管理,再到前端页面的搭建,最后集成数据并往上。然后他就开始一个阶段一个阶段的写,后端框架搭建、前端页面生成安装依赖项验证构建结果。 而且不像以前用的某些开源模型,写完一段就得监督下一段。除了中间让我授权一些权限, gln 五点一的每一步都是他自己推进的。 最让我惊讶的是,中间出现了 n p n 缓存权限和 x n l 文件解析问题。以前用别的模型到这里基本就要人工介入排查,报错再未回给他了。但 g l n 五点一顺着报错自己排查了一遍,定位到问题之后自己改掉了,然后继续往下走, 最后交付的时候登录注册能顺利跑通,权限控制生效,数据看版也能正常展示。整个过程只用了不到三个小时,而且对话框我一句都没有输入过。可以感受到,整个测试过程里, g l m 五点一体现出了极强的状态延续和目标保持能力,特别是在长城任务的执行和交付上, 跟 k 二点五确实拉开了一个升位,它的编程能力真的可以说是当前模型里断档领先的水准了。看完这个案例,就问你黄不黄? 以前总觉得 ai 只是帮我们提效的工具,我们自己才是那个做决策把控权的人,但 g l n 五点一展现出来的能力,就像是一个自己就能把控权的资深工程师, 以及去焦虑害怕被替代。不如想清楚我们的核心竞争力到底是什么。未来不再是比谁更会敲代码,而是比谁能更好的给 ai 下任务,成为驾驭这些智能体的人。

glm 五点一到底值不值得买?如果你想花点小钱找个能帮你写代码修 bug 的 ai 帮手,他现在非常值得是。但如果你指望他一口气接管大型项目,十几轮对话还不翻车,那你最好先冷静一下, 别被网上的跑分带偏了。他现在最真实的状态是,已经很好用,但还不够稳。咱们普通人挑模型不用看那么多玄乎的数据,你真正该问的就三个问题,他能不能帮你把活干出来,他贵不贵,以及他关键时刻掉不掉链子。 先看看他到底能帮你把什么事做出来。在写前端页面小工具、小游戏或者接口逻辑这些中小型功能上, glm 五点一已经到了能浇活的水平。什么叫能浇活?就是他给你的代码是真的能跑起来的,而不是写一堆看起来很厉害,一跑全是报错的东西。你让他写个页面做交互 按钮,动画和逻辑,他基本都能补上,哪怕是修些常见问题,他也经常比上一代更容易一次就给你修对。 但是千万别把他当成能全自动接管一切的主力选手,只要你的项目一复杂或者上下文变得特别长,需要来回修改的时候,他就开始暴露出短板了。最典型的表现就是 前面几轮对话他看着还挺聪明,后面突然就开始原地绕圈乱码,甚至出现修了 a 结果把 b 给改坏了的情况。 他本质上是个能力很强但连续作战容易拉垮的选手。这里重点提防两个大坑,一个是长上下文稳定性一般,另一个就是高峰期消耗特别快。 那他到底适合谁?其实就是三类人,第一类想低成本体验 ai 编程的普通用户。第二类是个人开发者或者小团队。第三类就是工作里经常需要写些脚本接口或者自动化工具的打工人。如果你手里刚好有个活,想做个官网小程序原型,或者是搞个表单系统活动页, 需要把一个想法赶紧变成能看的东西,那他绝对能帮上大忙。因为很多时候你不需要世界第一,你只需要这东西今晚能不能跑出来?最后说一下他最大的杀手锏,其实就是价格,现在很多顶尖模型大家不是不用,而是长期用,根本吃不消, 这时候花点小钱买到一个,大部分时候够用,偶尔还能给你个小惊喜的高性价比副驾驶就显得特别香了。 glm 五点一不是那种花小钱买来的顶配神话,但它确实让咱们普通人第一次真真切切的感觉到, 原来现在花几十块钱真的已经能请到一个挺能干的 ai 帮手了。轻度用户可以直接上低档套餐去感受一下。

智府出了一个新模型, gm 五 a turbo, 首个面向视觉编程的多模态抠钉机座模型,它的定位是主打 jcrewcode 的, 去做视觉编程,还有在龙虾里面去做一些视觉类的一个任务。那这个定位的话挺对我胃口的,因为我平时就喜欢用 c c 写前端,用龙虾去跑一些自动化任务, 所以我直接把它接进去了,跑了三个真实场景,第一个场景就是截图写 h 五嘛,我们把这一个手绘图丢到 crocodile 里面,然后让 j m 五的这个模型去做多模态的视觉理解,最终帮我们写一个 h 五的页面。以往的话手绘圆形图,其实你是需要翻译成很长的一个描述的模型,才知道你到底想要什么,那这个过程中你就会丢失大量的信息。 那现在的话就是截图加一句话嘛,它就可以直接生成完整的一个 h 五页面,而且它还可以帮你自动去补一些交互的一个设计细节。好,我们来看一下这一个产品的原型图,第一个是首页,第二个是它运动详情页,那下面的话还有这个训练计划 以及一个训练进行中,这边也给他准备了一个配色,然后把他丢到这个质朴的新模型里面,看他整体的表现情况怎么样。我这边测试下来哈,他在第一轮的时候其实也会有些小问题,那我这边也是直接把他遇到的问题直接截图,可以看到截图丢进去,告诉他哪里有问题,交互哪里也有问题,这个时候他看到这个问题也足够的去修复 这种就相较于以往的这种纯文本模型就会方便很多,因为你可以直接把截图丢进去,并且你也可以圈来历有问题。好,我们来看一下他给我们生成这个 h 五页面怎么样?整体看起来还挺好的,你点一下运图详情挺好,然后看一下训练这一块,训练这块的话点一个进去 啊,他这个倒计时也是可以的,然后点结束,确定结束 ok, 可以 看到他整个视觉理解还挺 ok 的。 那本身这个任务其实在 q 点方面不是特别难哈,因为就是一个简单的 h 五页面嘛。 很多时候我们做前端应用,最直观的方式就是直接给图,让模型去理解,文字表达一定会有缺陷的。那我们基于一个视觉理解,加一个好看的配色,加一个比较好的一个 skills, 你 最终出来的效果都挺好的。我 这边也给大家推荐一下,可以用一下这一个子的一个 skills 啊。那他这边的这个开源仓库呢?也已经五十六 k 了,这个 skills 你 集成到你的项目里面去,那他写出来的前端也还是挺好看的,相对来说 好。第二个场景的话,我们是把智普的这个多模态模型接入到这个龙虾里面哈,让它去做一个 ppt。 我 在龙虾里面有一个 skill 是 专门去帮我做 ppt 的, 它的主要功能就是把我平时做自媒体的一些口播脚本呀,还有还有一些其他的一些需求啊,然后丢进去,它自动给我生成一个交互式的一个 ppt 网页,就像你现在看到了这个一样。那现在整个的一个流程呢?就是你输入需求生成网页,然后它用那个 ui 自动化去跑截图嘛?截图完了之后再去做 review, review 完之后自动去部署, 我们来看一下它整体的一个效果怎么样?我这边给龙虾下载了一个任务,让他去分析 crocco 的 这个源码事件,把这个事情来龙去脉,做一个 ppt 演示的网站,让他自行去截图每一页,然后去 review, 最后都没有问题之后,然后去部署到这个线上去, 那可以看到这边龙虾给我发出来这个附件哈,是空的,也就是说他在写这个代码过程,他遇到问题了就全是空的。完事之后呢,他构建成功了,他开始去逐个的去截图验收,那这个就是对于一个多模态模型比较重要的地方,如果是文字模型,他就发现不了这个问题,所以呢他就发现页面内容没有渲染出来,他就开始去检查一些错误吗? 那最终他就把这整个都完成了,完成完了之后呢,他就部署上去了,那么点开看一下,这个就是他完成的一个效果哈,就是针对克拉扣的泄露这个事件,总共做了五页, 整体的效果,我觉得他实现的还是挺棒的。第三个的话,是我把制服的这个多模态模型接到我一个视频分析的 a 技能里面哈,以前那个流程的话是纯文本理解的, 得到一个视频,然后提取音频,音频转文字,最后改到文本模型,他再去做拆解。那现在的话就是用一个多模态去理解吗?我也可以给大家讲一下现在我的一个技术方案是怎样子的, 因为现在你去做一些长视频的分解哈,你不可能是直接把这一个视频直接丢到多模态里面,他是接受不了这么长时间的一个视频的,所以说我们需要去做分段。这边我的思路的话是 通过大模型去把这个文字大纲得到了之后,让他去切分。比如说这个模型他最长接收三百秒,四百秒,你就以这个做一个分段,切完之后 每一段再丢到这个多模态模型里面去,拿到结果之后再做一个栽,要再丢到下一段,以此类推,这样子就可以把整个视频做到一个比较好的理解,并且它整个画面也不会丢失。好,下面我们来看一下过程。之前我讲了一期关于 skills a 技能的视频,大概有十二分钟吧, 那我们接了这个字谱的这个新模型之后,我们来看它整个的过程。那前面的下载视频、提取音频、转文字都是需要去做的,因为我刚也讲到了,他需要先去做语音分段,分段完了之后把我们这个十二分钟的视频去拆断,拆断完了之后,然后你把这个视频上传到一个 o s s 的 平台,这个时候再丢给智普这个大模型完事之后呢,他就去做一个分解,那这一个整个拆解的结果比原来这个纯文字版的会好很多。那以前其实谷歌他们也支持这个多模态的输入嘛,但是贵呀,是真的贵,所以说我一直就是用纯文本的模型去接的整个这个效果,我的主观感受是比之前纯文本好太多了。 好三个场景我们看完了,如果你平时有写前段的需求是比之前纯文本好太多了。好,三个场景我们看完了,如果他去完成你的需求就 ok 了。 那第二个的话,你的龙虾里面也可以接这个多模态的模型了。你平时比如像我一样,你写写 ppt, 你 让它去做自动化测试,最终完成一个效果,让它去 review 嘛,就会好很多。好,第三个的话是视频分析这一块,它 相对于原来纯文本的这一块,增加了我们的这个视频里面的信息,它能更加的把整个视频想要传达的信息完美的表达出来。如果你也在用 curl code 或者龙虾,你可以试试切到这个模型,感受一下跟之前纯文本的一个差距。好,这就是这期视频的所有内容了。我是大家,我们下期再见。拜拜。

g l m 五点一呢,最近正式开源了,官方数据显示呢,它的 swbench pro 的 得分呢,非常非常优秀,在编码方面的话,呃是非常强的。 那我之前没有它的 coding plan, 所以 一直没有机会体验它。今天看到呃 factory 呢,它说 g l m 五点一已经在 joy 的 上面提供,所以我今天就呃尝试了一下它。 joy 的 平台呢,有一些用户认为它是比 cc 是 更好的,所以大家如果没有使用过 joy 的 话,也可以尝试一下。我先让五点一调用 mini max pdf 的 skill, 根据呃五点一的介绍,薄文生成高质量的 pdf, 并且我在最后呢是提示是中文 pdf。 在 joy 这里呢,我都是先呃默认开启规格模式。 这里多说一句呢, mini max 开源了 pdf 啊, ppt 啊 doc 相关的 skills 还是非常好用的,推荐大家使用。五点一很快就生成了,那生成的文档里呢,有很多乱码, 没有正确帮我去处理文字,所以我又提示了一下它,让它用中文的字体,这是它修改后的效果。我们看到这个封面,它采用了这种暗色的 吊页的话,会看到核心亮点。但是我们在这里呢,它的文字排版是有点问题的, 表格啊,没什么大的问题,然后下方有场景一,还有这个图标设计也 ok。 再接着我让五点一呢生成高质量的 ppt, 并且告诉他你可以使用啊 ppt 相关的 skill。 我 们会看到五点一呢,它在 joy 的 里面使用 啊 joy 的 会自动并行使用子弹里来创建所有的幻灯片,他要分批进行,当我通过向下的箭头点击,就会看到啊他下方的不同的子弹里有哪几个? 现在的进展如何?而且呢,他一开始给我的幻灯片规划里呢,左边的类型是英文,右边的内容呢是中文。他第一版呢,生成呢是这样,全英文的, 后来我就让他换成中文。之后呢,我给他提供一份设计文档。这份设计文档呢,我最近经常提到,我在讲谷歌 stitch, 呃,视频的时候呢,就介绍了这个设计文档是怎么获取的。 然后呢,我就直接啊让五点一参考这个设计风格,重新设计 ppt。 这份设计文档内容呢,嗯,大家可以简单看一下,这是它修改后的,这是第二页文字的排版呢,会有一些错位,关键性的亮点。这一页呢,看起来还是非常不错的 啊,精准指标这块可能稍微调整一下会更好。接着是向量数据库优化, gpu 内核优化。总体而言呢,它还原后的风格和我提供给他的设计文档是非常一致的。但我认为这样的病型处理也是有点问题。比如说啊, 现在的页角十一页是椭圆形,那来到第九页的时候却是一个长方形的设计。接着我让五点一制作一个受皮纳内吸启发的三 d 空间,那这是它一开始生成的,那我们可以看到画面是非常黑的, 后来我就让它换成明亮的,并且我在它生成之后问他,我说你刚刚在生成的时候有没有调用 three j s 的 skill? 他 告诉我没有。之后我再让它进行一下优化, 这是优化后的改动。皮卡内西,呃,非常有名的是他的版画,他是十八世纪来制作的, 他在做好之后呢,我还让他调用信息卡的 skill, 这个信息卡的 skill 呢,是乔木开源的,让他把上面的应用做成十六比九的信息卡,而且我希望他人自己截取应用的不同角度图 定做介绍。这是他做的信息卡,他说啊,这是重建一七五零年版画中的无限拱顶,不可能阶梯与巨型石柱,有六座拱门,还有四方向走廊,这是第二页,有更详细的介绍, 那这是第三页,右侧这些截图呢,都是他自己获取,然后最终放在这样的一个信息卡里的,做的还是很不错的,我认为。现在呢啊,我将这个应用的话缩小一下,我们可以看到这里有不同的拱门, 他的拱门是四个方向都有拱门,然后上方的话还有这样的一个拱门设计,放大之后呢,会看到这里有啊不同的阶梯, 整体还是非常有质感的。信息卡做好了,还没有完,接着呢,我让他做 remotion 的 视频,来根据这样的三 d 场景做一个介绍的视频,他很快也帮我完成了。这是一开始的大标题,然后这是第二页, 会有一些建筑的动画,总体风格和我们刚刚看到的信息卡还是非常像的。到了这里呢,还没有完,我还让五点一呢使用 pre write 对 整个三 d 的 画面呢, 做一个视频录制,要从多个角度来录制,并且也让它调用 minimax music 的 skill 来获取一段啊背景音乐,最后生成一个音画合一的视频,我们一起来看一下。 嚎嚎 嚎嚎嚎 哈哈 哈哈 呜呜 呜呜 fo wo wo wo wo。 再之后呢,我让五点一做一个十字路口的交通仿真,他做好之后有个总结说提到了验证,我就问他,你是怎么验证的?他用 pre write 自动化浏览器做了三项基础认证。再接着我问他,你是调用了 skill 然后做验证的吗? 然后他说他就调用了 webapp testing skill。 这个 skill 是 osoupic 开源的,之前我有在电脑上安装过,这是五点一一开始生成的画面。同样呢,我让五点一自己去啊,给这个它生成的应用呢,录制一个视频, 最终呢,他说录制完成,演示了以下功能,我们看到这个角度还是非常丰富的,录制的效果是要比我自己手动去演示展示要好非常多,我们一起来欣赏一下。 在之后呢,我让五点一来实现一个音频文字频谱格式化器,这里比较特别的是我让他用到 pretest protest, 我 在近期的视频里有介绍过,这是一个啊,最近开源的一个仓库,非常非常受欢迎,所以我就先提示 joy 的 啊,先搜索 protest 是 怎么用的,现在来看一下效果先呢,是上传一个文件好啦,小宝贝,被子盖好了吗? 今天呀,月亮姐姐要给你讲一个,上传之后,我们可以看到他播放就会呈现这样的效果,右侧呢,可以进行多个选项的设置。如果说我在歌词里面写上小星星, 那我们会看到啊,这里的波浪显示呢,也会是小星星的文字。这是一次提示五点一生成的,我个人认为他在这一点上是非常不错的,因为没有报错 啊。稍微遗憾呢,是现在我们在这里呢看小星星这三个文字呢,不怎么能看得清楚,刚刚视频里面出现的有配乐的视频呢啊,都是我让五点一生成的, 他在这里呢,还是非常好的调用啊。 music 是 能成功的,一次提示就能完成这些任务, 包括我们刚刚有听到啊皮的那些,他的那个背景乐。五点一自动帮我选择的风格是暗黑氛围,管风情玄乐 啊,这个氛围的话还是选的非常好的。最后再来看一个对比的例子,一个是五点一生成的色彩理论的演示视频,另外一个是 kimi 抢先计划他制作出来的色彩理论的视频。那在这个任务上的话,是 kimi 的 话完成更好哦。 但总体而言啊,五点一给我的印象还是比较深刻的,他在帮我去录制这些视频的时候,自己编辑 perite 脚本, 包括调用各大 skill 啊,都是比较顺畅的。它生成的 pdf ppt 里面呢有一些小问题,但是是可以后续再好好优化一下 skill 或者是我的提示词的。以上呢,就是介绍的今天关于五点一的真实体验,希望对你有帮助,我们下次再见。

这个游戏是我用 g l m 五点一刚刚花了四个小时做出来的,这个效果多少有点儿经验了。现在呢,带你从头看这一轮小更新的大效果。上来先给了我十二个关键动作的详细执行计划,不着急写代码,先把框架理清楚,这就是 g l m 五点一长城规划能力。接下来,先写后端 server, 再切到前端的 index, 然后攻克 java script 交互逻辑,最后编写三 d 核心入口文件, make python, html js 多语言无缝切换文件,系统代码变器,多工具稳定衔接。整个过程没有一次的执行中断,没有一次的 逻辑断层。代码写完,自动启动本地服务器准备测试,结果首页挂了。它精准定位到了 fast a p i 版本,兼容性问题,然后回头去修复了三个小时前写的 starbucks 文件,你没有看错哦,三个小时前,在这四小时里啊,它写了上万行代码,跨了几十个文件。但当 bug 出现时,它能够精准召回那段后端逻辑,完成修复, 重新测试,游戏完整交付。这种状态延续和上下文整合能力,我给到一个字,汤,再看一个,体感会更明显。我让他从零开始做一个情绪记录网站。他在五分钟时写了 user 时,定义了用户数据模型,到了十九分钟写 else 时,能够完美调用之前定义的接口。到了三十七分钟写 mood 时,依然记得最开始设定的情绪记录逻辑。 这个是跨越了三十多分钟,十几个文件的上下文一致性跑数据库。说实话,脚本时遇到 g b k 编码冲突, print 语句报错。他先检查数据库文件,发现数据其实已经写进去了,逻辑是通的,只是打印语句报错,然后精准回到了代码里面,修复了那几个 print, 再次执行成功交付项目包含了前后端,实现全程 ai 完成, 而且几乎无 bug。 在 整个的超长绘画里面呢,它能够判断出部分成功的状态,知道不需要从头来,只需要修复那个编码问题。我把这个过程给老程序员看,他们直呼惊艳。但这个还不是 g m 五点一能 的天花板,它更可怕的是,可以用十四个小时完成库达 carner 优化。要知道啊,这个是资深的库达工程师需要数月才能完成的工作,而一个资深的库达工程师,培养周期长达数年,年薪百万起,是全球最稀缺的高性能计算人才。现在呢, ai 十四个小时就能交付这群人的工作成果。艾莉跑到现在那句话我有点信了, why 不 定解决的是让更多人能创造,那 ergative 解决的是让 ai 能够执行。那么 long horizon 要解决的就是让 ai 像一个资深专家一样,持续的工作交付成果。因为真实世界里面最有价值的工作,从来不是一句 promise 能搞定的,它需要跨步骤、跨工具、跨时间的持续推进。这个也是 g l m 五点一诞生的 原因。目前呢,在 artificial analysis 榜单上, g l m 五点一成为了首个突破,五十分的持平。在此之前啊,只有币源的 g p 四 o cloud 能够做 到。现在,开源阵营终于站在了同一水平线。更狠的是, swbench pro 这个榜单是从 github 上拉一个真实的项目,让模型自己读几万行的代码定位问题修复方案,最后还要跑通原项目的测试用力。 g l m 五点一在这个榜单上拿了全球第一, 排在它后面的是 cloud open 四点六、 g p t 五点四、 jimmy 三点一 pro, 这是中国开源模型第一次在最核心的工程能力指标上 引跑全球。去年大家还在说国产模型在追赶,今年已经是被追赶了。要知道一年前国产大模型的厂家还在以降价百分之九十以上来争夺市场份额,不靠价格而靠价值,国产大模型终于走出了那个阶段。

我的天, gmail 五点一也开源了!我记得它三月底才上线,怎么今天就开源了? 最近的 ai 圈是不是要变天了啦?这个模型的代码能力位列全球第一,超越了 g e t 五点四和 cloud opus 四点六,而且官方习册用了八个小时,长时间自救工作从零星成 linux 桌面, 太恐怖了。如何使用 g m m 五点一可以在线调用 a p i 进行聊天或者本地部署。但是 g m m 五点一本地部署的硬件要求实在是太高了,大部分个人电脑的配置都不太行,咱们可以用欧拉玛平台的云端代码示意行。

上上周才刷到 glm 五点一上线,今天就刷到它开源了。我本来以为这是一个很小的迭代,结果一看 coding evaluation 的 测评,相比它自己的上一代 glm 五竟然提升了这么多。上线后我就把 cloud code 里的 glm 五替换成了 glm 五点一。本期视频我就带大家一起来看看 glm 五点一在真实的编程场景下效果究竟如何。这是我最近用 glm 五点一完全 web coding 出来的全站 ai 画布工具,内部接了 nano banana 的 api, 所有的 ai 作图、改图、操作都在一个画布内完成。我感觉这次用 glm 五点一做出来的项目完成度已经很高了。开发工具用的依旧是 cloud code, 这次还是会用到。 agent 是 teams 的 特性, 如果之前用的也是质朴的 coding plan 的 话,只需要把模型换成 g m 五点一就可以了。我这次要做的是一个 ai 画布的全站应用,描述前端需要实现怎样的效果,后端需要实现怎样的效果,然后使用 agent teams 对 任务进行拆分。 g m 五点一会更适合做复杂或多任务的编码需求。 现在 agent teams 同时开启了三个不同的 agent 进行项目开发,三个智能体分别进行各自模块的开发,等全部开发完成后,会像正常开发者一样开始连条验证,运行过程中出现的这些报错问题也都会被自己解决。我对 webcointing 的 看法是,不要想着一次就能把完整的项目生成,不断优化才是 webcointing 的 核心。 比如原本页面上是没有鼠标点击和画布拖动按钮的,第一版的画布缩放功能也是没加的,包括这的 ai 面板之前只能选择一张图片,这些就需要一遍遍的细节优化了。用 glm 五点一进行调试的过程中,我发现他能比较准确的理解我的问题,并且用少量的提供次数就能解决问题。 之前一个问题可能要问好几次 ai 才能真正定位到问题。现在就完成整个 ai 画布项目的前后段开发了。 g m 已经同时启动了 pos 口后端服务,以及前端的项目可以直接在画布上上传图片,比如我可以基于这两张图片,然后用一段提示词生成一张全新的图片, 后续还可以在这个画布项目上做更多的功能。之后的封面是不是也可以直接用自己的项目做了?以上就是本期视频的全部内容了,我是鱼仔,我们下期再见。

今天晚上九点钟左右,最新的 clock code 公布了一个 gm 五点一的一个公测的一个模式,然后我就赶快的去重新新建了一个 api, 然后用了这个 gm 五点一, 感觉还不错,确实它在这个工具调用,还有它在任务运行上 以及长时间处理任务的这个能力上都要比 gm 五,就是我最近用比较多的一个模型要强。可以看到我问了他一个问题,我问他他的优势在哪地方, 他告诉我在工具集成上,编程能力,还有一个多智能体写作以及持久记忆上可能会有一定的优势。 然后直接所以我直接让他连一个这个我的 unity 的 一个 mcp, 让他在这下面帮我去做一些跟游戏开发相关的事情, 然后发现他很快的就习得了一个 skills, 而且他应该是进行一个并行的这么一个模式, 所以我觉得现在这个模型的一个趋势就是会越来越强,在这个长期记忆和这个工具调用上都会越来越好。 嗯,但是呢,有个问题就是要看你的需求是什么样子的,如果你是专注一个 coding 的 这么一个情况下,我认为这个五点一是个很好的选择,就是他可能会啊,在回答你问题的时候去专注于这个代码层面,他可能不会专注你个具体的问题的,就是回答上, 所以我认为他是对一个这个代码开发者是相对友好的,然后, 嗯,相对来说,如果你要去做一些其他的事情,对吧?呃,也不一定说用这个 gm 五点一可以切换成其他的,对应的稍微便宜一点的东西也可以, 但是不得不说新新出来这个五点一我还是很喜欢用的,然后就期待在大家的一个评价。

你肯定见过这种小游戏广告,蓝色小人可以选择经过左边的门或者右边的门,人数就会相应的增加,看起来很魔性很解压,但想点开玩的时候就会发现货不对版,换成了个其他的氪金游戏。。于是我用 jrm 五点一做出了这个广告同款小游戏,并且还把它部署到了服务器上,手机电脑都能运行游玩。。 那这次开发呢??我是使用了质朴前两天新鲜出炉的 glm 五点一,,不得不说这个模型迭代速度真的是很快啊,你可以把它接入到任何你想用的编程工具当中,比如说 opencode。, 只需要输入对应 ipik 就能用了,非常方便。。在执行这种大型的编程项目的时候,更好的做法是先用 plan 模式来规划一下任务的流程,这个就是我的项目提示词,你看接而五点一会先跟我确认一下这个项目的细节,,包括是要用什么样的技术架构,要怎么去优化性能表现,以及整个视觉风格要怎么去做。 等等。,把目标拆解为这样可量化可执行的步骤,,并在后续长链路的执行过程中,始终围绕最终的交付目标来推进,,可以极大的减少中途跑偏或者遗忘约束的情况。接下来我们再打开 beard 模式,,让 jrm 五点一根据这个任务清单逐步进行搭建,他表现出了非常好的状态延续。 上下纹整合能力,能够很稳定的记住已经完成的内容和接下来的关键动作,而且我注意到他跑了大段的调试优化,不断的去琢磨里面可能有问题的地方,确保了游戏的基础可玩性。。首次开发跑了二十多分钟的时间。。 整个游戏呢,基本上是可以跑通的,,但存在一些显示上的 bug, 比如说蓝色小人跑到后面会消失,这个门也不太像门, ai 编程的时代,这些 bug 都很好搞定了,直接把这些现象告诉 gm, 五点一他就会自动去修复,,而且一次就修成功了,,并且还把画面表现优化到更。 好的水平,这下子真的是一个可以玩的小游戏了。。那部署到服务器上呢??其实也很简单,,比如说我是要部署到 cloud flare 上面,,那就可以让 g l m 五点一去调用 cloud flare 官方出的这个 skill 来进行部署,在工具调用、网页抓取、代码编写、脚本执行等。 多个环节之间稳定衔接的表现,证明了他不仅能做单个步骤,更能稳健的推动完整链路的多工具协同。 持续执行,通过这把实测,我觉得 glm 五点一的代码水平已经逼近 oppo 四点六了,,能够自主完成一个复杂三 d 网页游戏的开发、调试部署的流程闭环。。现在 glm 五点一。 已经正式开源了,他在抠令榜单中是仅次于 gpt 五点四和 ops 四点六的存在,甚至在特定的软件开发场景中还超越了这两个模型。。无论是用 ai 编程的程序员,,还是用 opencloud 提升效率的普通用户来说,这都是巨大的福利。。

昨晚,智普突然扔了个大招,距离 glm 负五发布才一个多月, glm 负五点一直接杀到编码能力暴涨百分之三十,得分从三十五点四直接跳到四十五点三。 cloud op 四四点六,才四十七点九,差距已经肉眼可见地在缩小。六个月前,这个差距还是十几分,现在只差二点六分,达到 cloud op 四四点六的百分之九十四点六。在实际编码场景中,这个差距几乎可以忽略, 有人甚至说应该直接叫 g l m 负五点五。还有用户测试发现, g p t 负五点三都没搞定的问题, g l m 负五点一直接解决了。看数据, s 大 愈减, bench verified 得分七十七点八,开元模型最高 turmnobench 二点零,得分五十六点二,超过詹姆奈三点零。 pro 擅长复杂系统工程和长城 agent 任务使用体感逼境 cloud opus 四点五,这是目前国产编程模型的天花板。说价格, cloud opus 按量计费每百万 token 大 概十五到七十五美元。 g l m 负五点一,通过 coding plan 使用 light 套餐,三美元起步,按量计费每百万 token 只要一元, 用 cloud 十分之一的价格,获得百分之九十四点六的体验。使用方式超级简单。如果你已经在用 g l m coding plan, 只需要找到配置文件,比如 cloud code 的 sighting store js, 把模型名改成 g l m 负五点一就行了。 一行配置无缝切换,支持 cloud code、 cursor、 open cloud 等主流。 coding agent 质朴也很坦诚,说了两个现实问题,第一,高峰期可能限流, 每天下午两点到六点,系统负债最高,编程任务会被优先保障,非编程场景可能会排队第二。高峰期消耗三倍额度,非高峰期只按一倍抵扣,建议错峰使用,体验会好很多。重点来了,现在到四月底, g l m 负五点一 在非高峰期只按一倍抵扣,这个福利期间用起来超级划算。三美元的 lite 套餐,日常开发完全够用。 pro 和 max 套餐适合重度用户,发布几小时内已经大量用户上手体验, x 上好评不断。 有人说稳定性比 g r m 负五好很多。有人说长链路 a 阵这任务终于不崩了,从三十五点四到四十五点三的百分之三十暴涨,不是吹的,是实打实的工程能力提升。如果你是国内开发者,不想翻墙用 cloud, 又想要接近 opus 的 编码能力, g l m 负五点一目前是最佳选择,尤其适合复杂工程任务和长城 a 阵开发。 g l m 负五点一国产编程模型的天花板编码能力直逼 cloud, opus 价格只要十分之一。邀请码在评论区点赞加关注,赛博杨千焕明天见!

大家好,今天我们来深度解读智普刚发布的 glm 五点一,一个能独立工作八小时,编程能力达到 cloud opus 九十四点六的开源模型。这不是渐进式进步,这是开源模型的范式跃迁。先来看智普这半年的迭代速度,从去年底的 glm 四点五,到今年初的 glm 四点七,再到二月的 glm 五, 然后三月二十七号 g l m 五点一就上线了,距 g l m 五发布才一个多月。而且智普这次发布非常低调,没有发布会就在用户群里说了一句, coding plan, 全体用户直接升级,但成绩是实打实的。 artificial analysis 综合能力开源第一, s w e bench 代码工程能力开源第一, open router 用量开源断档第一。三个维度同时登顶,说明这不是偏科,是全站突破。 g l m 五点一最核心的突破不在于能回答多难的问题,而在于能独立工作多久。过去所有模型的交互模式都是分终极的,你给指令,他给回答, g l m 五点一打破了这个限制,能在单次任务中持续自主工作长达八小时,完成规划执行、迭代优化的完整壁画。 具体来说,他在三个方面实现了质变,第一,长城规划与目标保持,你给他一个目标,他自己拆除执行路径做到第十步,还记得第一步定的约束。第二,多工具协调,不是会做一步,而是能跑完全程。第三,上下文整合,不再出现做到一半忘了前面约束的问题。 来看技术架构, glm 五点一的总餐数量是七百四十四币,采用二百五十六个专家的猫易架构,但活跃参数只有四十币, 相比上一代活跃参数仅增加了八 b, 能力却实现了飞跃式增长,这说明架构效率极高。三大关键技术,第一, deep seek space attention 稀疏注意力机制,在保持二百 k 上下文的同时,大幅降低部署成本。第二, slime 亦步强化学习框架,这是质朴自研的 r l 训练框架,代号史莱姆已经开源,它让模型能在优化碰壁时主动切换策略,而不是反复尝试同一个方向。 我们把三代模型放在一起对比, glm 四点七十三为五 b 参数,三十二 b 激活定位高性能编程模型, glm 五完成了从三百五十五 b 到七百四十四 b 的 架构跃迁,编码评分三十五点四,而 glm 五点一在同样的七四四 b 架构下,通过 slm 二 l 和 dsa 的 技术创新,把编码评分拉到了四十五点三,相比 glm 五提升了百分之二十八。长城任务能力的变化最为显著, g l m 四点七是分钟级, g l m 五也是分钟级提升,而 g l m 五点一直接跳到了八小时级,对,其目标也从 s n a 四点五一路追到了 opus 四点六。这印证了一个重要趋势,模型能力的提升不再单纯依赖参数规模, 而是靠更聪明的训练策略和架构优化。来看三个震撼案例,第一个睡前交给 g l m 五点一,一份架构草图。 早上醒来,一套完整的 linux 桌面系统已经做好了,历时整整八小时,执行了一千二百多步,产出了桌面窗口管理器、状态栏、应用程序、 vpn 管理器、中文字体支持游戏库等等配套文件四点八兆,这相当于一个私人团队一周的开发量,而且全程没有人参与 模型,甚至自己写了回归测试,还跑过了第二个案例,更硬核 g l m 五点一对向量数据库做了六百五十五轮自主迭代优化,它不是简单微调参数,而是完成了一整套优化链,从全库扫描切到 i v f 分 桶, 引入半精度压缩,加入量化粗排做两级路由,再到提前减脂,每一次跳跃都伴随着短暂的性能下降。 因为模型在探索新方向时暂时打破了约束,然后再调回来,这个打破修复循环本身就是有效优化的标志。最终查询村土从三幺零八 qps 推到了二幺四七二, qps 提升六点九倍。第三个案例,在五十个真实 m l 计算赋载上, g l m 五点一自主编写 treaton kernel 和 cody kernel, 运用 cobbloss 融合 shared、 memory、 tiling、 cody graph 等优化,超过二十四小时不间断迭代,最终取得三点六倍几何平均加速比。而 touch 到 compile 的 max auto tune 模式只有一点四九。 在 gpu 内核优化这个高度依赖专家经验的领域, ai 已经展现出端到端的自主工作能力。来看硬指标,在 s w e bench pro 最接近真实软件开发的精准测试中, g l m 五点一刷新全球最佳成绩,首次实现国产模型超越 colog 的 oppo 四点六。这个测试要求模型在真实 github 仓库里定位并修复高难度 bug。 综合三项最具代表性的代码评测,平均结果,全球模型第三,国产模型第一,开源模型第一, 量化到 cloud code 编码评分, glm 五点一拿到四十五点三分。 cloud opus 四点六是四十七点九分,达到了 opus 的 百分之九十 四点六,相比 gim 五的三十五点四分提升百分之二十八。最后看价格, glm 五点一的输入价格,每百万 token 只要一美元,输出三点二美元, 输入成本是 cloud opus 的 五分之一,输出成本更夸张,仅为 opus 的 七分之一点八。 gpt 五点四的四分之一,简单说就是百分之九十四点六的 opus 能力。 百分之二十的价格,有意思的是,智谱同时还涨了百分之十。涨价后, g l m 五点一在抠定场景的价格已经接近 cloud sonic 四点六,这是国产大模型首次在核心场景与海外头部厂商价格对齐。敢于涨价,本身就是对能力的自信。 g l m 五点一已全面开源 api, 通过 big model 开放平台和 z a i 接入, z a i 的 聊天产品已经上线 g l m coding plan, 全部用户都可以使用, 兼容 cloud code、 open code 等主流开发工具,开源权重在 github huggingface 和 model scope 上都可以下载。总结一下,从 glm 四点七到 glm 五,再到 glm 五点一,开源模型正在经历一条清晰的能力跃迁, 从效率工具到大众创造,到自主执行,再到持续交付。 glm 四点七让模型会写代码, glm 五让模型像工程师一样执行任务。 glm 五点一则把目标推向了让模型像资深工程师一样持续工作八小时, 交付完整成果。长城任务是检验模型智能的下一个标准,当一个开源模型能独立搞定中高级工程任务,我们需要的不仅是更强的模型,更要重新思考人类工程师的不可替代性在哪里。感谢观看,我们下期再见!