接下来演示一下复制这串代码,打开 power shell 窗口,右键粘贴回车,根据提示,大家就把这个网址完整选中,右键复制后 点击 connect 连接,在这里选择 g a m 五点一 cloud, 我 们输入一个指令,它模仿淘宝首页写一个 html 文件。 好的,这样就已经完成了代码的编辑,我们点击复制按钮,将整个 html 整个代码复制下来,在桌面右键新建文件,新建一个文本文档,求命名为淘宝 html, 修改扩展名,点击右键打开方式选择,选择记事本,点击确定,右键粘贴刚才复制的代码,点击保存,然后关闭,双击打开这个网页。我勒个痘,这和真正的淘宝网还有什么区别呀? 简直可以说一模一样, ai 时代真是令人吃了一惊又一惊,而且现在各大厂商各大模型都在争相开颜,抢占市场,这就是我们普通人学习的机会,记得关注我学习更新 ai 大 模型的最新动态。
粉丝772获赞2954

我的天, gmail 五点一也开源了!我记得它三月底才上线,怎么今天就开源了? 最近的 ai 圈是不是要变天了啦?这个模型的代码能力位列全球第一,超越了 g e t 五点四和 cloud opus 四点六,而且官方习册用了八个小时,长时间自救工作从零星成 linux 桌面, 太恐怖了。如何使用 g m m 五点一可以在线调用 a p i 进行聊天或者本地部署。但是 g m m 五点一本地部署的硬件要求实在是太高了,大部分个人电脑的配置都不太行,咱们可以用欧拉玛平台的云端代码示意行。

当所有人都在卷龙虾的时候,智普悄悄发布了 glm 五点一,在最接近真实软件开发的 swebench pro 精准测试中,刷新了全球最佳成绩, 超过了 gbt 五点四和 cloud opus 四点六,并且冲上了全球开源模型的冠军宝座。今天我们来实测一下 glm 五点一的编程能力到底有多恐怖。 我用它做了一个猫言喵语 app, 用户可以通过上传猫咪的照片和叫声,判断出猫咪的心情状态。在整个开发的过程中,我发现 glm 这是升级的五点一版本,有一个特别适合编程小白的亮点, 以前做 web 扣点提示词写得不够详细, ai 就 很容易误入歧途,开发出来的项目和你预期差了十万八千里。之前火过一阵子的 skills 概念, 本质上也就是给 ai 套了一层规则约束,让它在规定范围内执行任务。但对于非专业人员来说,这些概念本身就是门槛。一开始我只输入这样一个想法, 没有任何额外提示词。一句话,开发来测试 gln 五点一的真实代码能力,包含需求理解、架构设计、 代码生成、质量长、任务执行、调试与修复等等。 glm 五点一拿到需求后,没有着急写代码,而是先梳理了整个项目的技术方向,前后端分别适合什么技术站, 并给出了最合理的推荐方案。当然,你也可以换成自己熟悉的开发方式。这个项目有两个核心难点,猫咪照片的识别和叫声的音频特征提取。 我们可以通过 a p i 的 方式,调用 g l m 大 模型的多模态能力去完成这两项功能。音频采集方面,同时支持实时录音和文件上传。方案确认 选择 safem 提交 g l m。 五点一并没有立即开始写代码,而是先进入规划模式来设计项目架构,接着给我们输出了一份非常详细的架构设计文档,从前后端技术栈选型、 项目结构到实际开发的每一步流程都给我们列出来了,甚至连 ai 大 模型的提示词都设计好了。确认没问题后,正式进入开发阶段。按照既定计划, glm 五点一完成了项目目录初步化和前后端代码编辑。我们先来试试第一版的效果。上传猫咪的照片和叫声开始分析。 ai 准确地提取到了照片和音频中的猫咪特征, 突出了情绪标签,整体还是比较准确的,但当前的流程还是有缺陷的。 glm 五点一也给我们提出了优化建议。 ai 并不是直接分析音频本身,而是在拿到音频数据后,只提取了时长和音量,然后把音频转化成文字, 由 glm 结合图片和文字描述去综合判断。但猫咪不是人类,总共只会说一个字, 分析文字描述根本没有意义,而且音频特征提取太简单了,只提取了时长和音量。那我们让 glm 五点一去迭代开发,优化一下项目输入有没有免费的音频分析工具。它通过联网搜索快速列出了三套方案, 并给出了最优建议。 librosa 是 python 里目前最流行的音乐音频分析库,它可以提取声音中的各种关键特征,辅助 ai 精准判断猫咪的前戏状态。确认方案后, glm 五点一进行了二次迭代开发,衣袋裤的安装、金融性处理以及每一处代码的修改都清晰地列了出来。又经过几轮交流,我让 ai 把音频以图形形式展现出来,加上了音频波形图,频谱图 没有频率到谱系数,这些图形既能辅助 ai 进行数据分析,也能让结果呈现更加直观,这样整个项目就比较完美了。 整体测试下来, g l m 五点一在几个方面的表现让我印象深刻。三方库和工具的调用稳定,没有乱用或调错的情况,任务推进节奏有条不稳, 从规划到开发再到迭代,逻辑清晰,响应速度相比上一代也明显更快了。一句话,开发加二次迭代都能按照预期完成,没有跑偏,听懂人话,做得更快。 glm 五点一就非常适合那些需要多 skill 协调调用和持续执行的真实工作流场景。

你能想象吗?刚刚在 swbench pro 这种专门测真实工程能力的基准里,超过 cloud opa 四点六拿到索塔的模型,居然是一个国产模型, 并且它已经开源了,它就是智普的 glm 五点一。那更关键的是什么呢?它这次呢不只是更会写代码了,而是在长城任务处理的这个场景也有了重大的突破。 你可以看到官方的一些测试 case 当中,它可以自己连续工作七八个小时,从拆解需求,写代码,调试优化, 全程都可以自己往下推进。那说起智普呢,其实我从 g l m 四点五这个时代呢,就开始使用它们家的这个产品,从一开始它可以去完成一些小任务,到后来它能够去完成一些中等的复杂一点的这个任务,再到后来它们家的这个 coding plan 直接限售了 啊,我可以明显的感觉到,智普的这个模型呢,确实是越来越强了,在不断的去追赶并且缩小它与海外的这些币源模型,顶级模型的一些差距。那所以说今天这个视频呢,我就想用这个 glm 五点一来做一下真实项目的测试,看一下我们这个国产第一,台元第一到底好不好用。 那这个呢,是我自己在用的一个小工具啊,它是一个视频下载器,平时呢我就拿它来下载某音啊,小破站啊,还有这个油管的视频。所以说今天呢,我就想用这个 g l y 五点一把这个工具网站做成一个完整的副业产品。那视频结束之后呢,这个网站应该会具备 登录注册啊,积分系统,视频下载、文案提取以及 ai 改写这方面的能力,并且呢我想的是在改写这一块啊,用户可以去按照平台啊,字数啊,受众啊风格去定制, 还可以直接去与 ai 对 话进行非常详细的定制化的一个改写。然后啊,就是艾米后台也得一起给我做出来啊,包括这个用户啊,订单啊,积分啊,操作记录等等,这些都可以非常轻松的进行一个管理。所以说这次任务啊,这个视频 g l m 五点一能否顺利完成,我们拭目以待。 那这次呢,我们就在 cursor 当中去使用 g l m 五点一啊,因为我之前用的是这个 pro 套餐,所以说呢,我可以在第一时间去体验它们最新的模型。接下来的话呢,我们就参考这篇文章,把 g l m 五点一啊配置到这个 cursor 里面去,随便说句话,看到回复呢就表明已 经接入成功了,那我们接下来输入这段提示词,那如果有参考图片的话呢,也可以在这个时候直接贴给他。那这边呢,我再跟大家分享一个小技巧,就是不要让它说一下自己对这个需求的理解啊, 以及他目前有哪些地方。是啊,需要和我们二次确认的,看一下他到底能够理解到什么样的一个程度啊,是不是和我们已经对齐了, 那这个阶段我们和 ai 全部拉齐以后呢,再让他继续往下做,整个后面的这个过程啊,就会丝滑很多。那我中途呢,还会去让他帮我想想产品的一个功能有没有什么漏洞啊,有没有闭环啊,包括商业化运作这方面啊,有没有什么不足等等,但凡是在这个产品的开发过程当中,你可以想到的任何问题,你都可以在这个阶段和 ai 沟通, 等到他给出了这个详细的实施方案,完美匹配了你的这个阶段的需求啊,你就可以让他开始工作了。那我们第一阶段确认完毕了之后呢,他这边也没有开始直接写代码啊,而是呢先帮我们拆了一整套完整的这个任务流程。 那这一点呢,我觉得是非常的关键啊,因为真正的这种工程能力啊,其实不在乎你写的有多快,而是你能不能够把一件复杂的事情拆的非常的细致啊,拆的非常的对。那接下来的话呢,我们就让他一块一块的往下做啊,比如说我们可以先做视频下载这一块 啊,他会先去确认我们想要去支持的哪些平台,然后呢给出这个接口设计和处理的一个流程,再到这个文案提取啊,他也会去考虑用什么样的一个方式来解析字幕啊,是直接抓接口啊,还是做 啊这个视频转文本的这样的一个处理。那到了 ai 改写这里呢,他甚至还会去帮我们把这个改写的策略啊设计了出来,我觉得这些其实已经不是单纯的去写代码了,做这个业务实现,对吧?而是他开始在帮你做 啊,非常详细的这种产品的设计啊,在积分系统这一块,其实我一开始也没有给到他一个非常详细的这种扣减的规则, 只是说我希望用户在使用某些功能的时候呢,可以去消耗他的这个积分,然后他自己呢就帮我设计了一整套的这种构建逻辑啊,你比如说下载消耗多少啊?然后改写对话,改写消耗多少?不同的这个模式呢,还会有一个差异化的计费。那虽然说呢,这个也不一定是最终的最完美的这个解决方案吧,但是呢,他至少是 在县级段给了我一个可以直接拿来用的出版整个过程下来,我最大的一个感受就是他不是在等你指挥,而是在主动推进,很多时候我们只需要给他一个方向,然后他自己呢就会去把中间那块给你脑补上。另外我还发现了一个事情,就是我这里面不是会 用到 ai 大 模型做这个改写和对话嘛,那我发现呢,我之前的这个 coding plan 可以 直接拿来用,也就是说我们平时携带嘛,包括这里的 api 调用,都是可以走同一个 plan, 甚至呢我们还可以把这个 g l m 五点一接入到龙虾啊,也是同一个 plan, 性价比特别的高。 那最后呢,我又让它基于现有产品做了一套后台管理系统啊,比如说这个用户列表啊,订单记录啊,积分流水啊,甚至还有这里的改写记录,对吧? 尤其是下面的这个系统配置,这里啊,我们之前的这些改写功能,其实用户选的各种策略,它背后对应的都是提示词,那它增加了很多配置的一个类型,就是尽量让这个配置表可以在未来做到大局通用。那比如说这里的任务类型啊、状态啊、平台啊、风格啊, 其实都是走的刚才的那个配置表。那这一块我觉得还是挺加分的啊,因为很多 ai 它到了这一步可能就开始摆烂了啊,或者是它自己自由发挥了。 那你像这个 glm 五点一呢,它能够在这么长的一个任务当中啊,在你没有明确要求的这种情况下面,把整体的这个系统往可扩展、可维护的这个方向去做设计啊,我觉得是非常的难得。 那比如说你后面如果想要去新增一个品牌,新增一种风格,新增一种改写的策略啊,你直接在这里加一个配置就 ok 了啊,非常的丝滑。那这一点呢,我觉得其实已经有点接近正常后端工程师,它在做 呃系统设计的时候这样的一个思路了啊,就是非常的有怎么说啊,活人感。那当然这个中途呢,也是会出现一些这样或者是那样的 bug 啊,比如说这个视频下载失败了,然后封面无法解析等等等等。但是呢,我们都是可以通过和 ai 描述问题来解决问题的。那 做完这个项目之后呢,我其实有一个挺明显的感受啊,就是 ai 编程这件事情呢,真的是在发生一个很大的变化。以前呢,我们用 ai 可能是让他去帮我们写代码,做代码补全,但是现在的话呢,你是把一个完整的任务直接丢给他, 让他自己去做,从理解需求到拆解步骤,再到执行修问题,最后交付结果。这中间呢,其实我们已经不再是写代码的那个人了啊,而是更像一个分配任务的人。那这也就是大家所说的这个 long horizon, 当 ai 可以 自己去持续工作几个小时甚至更久的时候呢, 它所改变的就不是一个简单的效率问题,而是在颠覆我们整个做软件做项目的一个方式。所以说如果你现在也在做自己的项目,不管是工具还是副业啊,真的是可以去尝试一下这个 g l m 五点一这个最新的模型。 ok, 那 以上呢,就是本期视频的一个全部内容了,感谢大家的收看,我们下个视频再见, peace。

别再盯着全 g p 的 尾灯看了,国产大模型来了个 g r m 五点一,直接拔高了国内 ai 大 模型的能力。发师之前俊仔也用过多个大模型,最大的痛点是什么?短视,也就是长城任务根本干不了, 要么只能陪你聊聊天,要么执行个简单指令。第三步他就忘了第一步的需求。但智普这次发布的 g r m 五点一核心绝技,就是能拆解任务用的工作记忆和逻辑推理能力,将长城任务拆成阶段目标,一口气把一件复杂的事从头做到尾。来 看这个实测,给他一个需求,搭建一个带用户系统和数据看板的内部工具,看他先花时间规划输出技术方案,然后一个阶段一个阶段推送,中间有一个接口问题,他自己排查修复,全程我没有介入, 最后交付的东西能跑能用。再看看这个实测,以前要做这个,得切好几个软件写半天,现在直接给 g r m 五点一下一个指令。他 不是只给你写一行代码,而是规划了整个工程,从底层逻辑到 u i 设计,他自己在脑子里淘了一遍,然后直接把成品甩给你。这哪是写代码,这是在指挥千军万马。俊仔真觉得技术变迁正在指数级加速啊。当 ai 能处理跨文件、跨时间,甚至能自我纠错完成长城任务时, 程序员仅仅会写代码,不是护城河了。未来区分普通工程师和专家的可能不再是敲键盘的速度,而是你定义问题,驾驭这些超级智能体的能力。智普这一步迈得很大,但也提醒了我们,是时候升级自己的操作系统了,是时候接上智普新发布的 g r m 五点一的 a p i 了,它能颠覆你的工作流。

断档第一!就在刚刚,智普 g m 五点一登顶 swbench 等一众硬核榜单,连 happy face 的 ceo 都发文祝贺。在编程能力三项综合测试中, g m 五点一也达成了开源模型第一,国产模型第一的成就直逼 clop 四点六和 g t 五点四 外,网上已经开始疯狂安利了。所以今天六博士就和大家一起拆解这个被称作新晋国产元神的 gm 五点一究竟有什么创新点?他的实战能力到底如何呢?点赞收藏,方便回看!接下来一起进入本期云祖会 gm 五点一的强大可以总结成一个词,长城任务能力。什么是长城任务?简单说就是那些不能靠一句提示词解决,需要跨步骤、跨工具、跨时间持续推进的工作, 比如开发一个完整的应用,或者重构一个老项目。 ai 模型评测机构 m e t r。 研究显示,在编程领域, ai 能完成的任务复杂度呈指数级增长, 每七个月就翻一倍。行业的共识是,单人回答已经不够看了。正如 m i t tech review 和顶级资本所判断的,二零二三至二零二四年的 ai 是 对话者,而二零二六至二零二七年的 ai 正成为执行者。 交付单位正在从一个回答变成一个项目。以前的模型像个聪明但健忘的实习生,走几步就要人提醒,稍微复杂点就丢上下文忘约束你,让他忘了你删不之前说的数据库规范。 而 glm 五点一的目标是让它能独立交付,对最近非常火的 harness engineering 无疑是锦上添花。长城任务能力才是检验模型智能的下一个标准。 口说无凭,我们来实测一下,我们直接拿号称宇宙最强的 cloud opus 四点六和 glm 五点一做对比 来,我们现在开始丛林手搓一个植物大战僵尸。我们可以看到,在搭建整个游戏框架的时候,居然五点一完全自主规划并执行模型,创建了五乘九的方格,按照类别创建植物僵尸并设计游戏机制。来看看,不错啊,感觉有模有样了。 那我们来考验一下他的长城任务能力,让他再优化更新一下游戏输入提示词,增加观察选择、返回菜单按钮功能。 可以看到,虽然整体美工上因为没有着重设计,稍微有些简陋,但在游戏机制和体验上, g o m 五点一完美复现了植物大战僵尸的核心内容。而且体验最好的是它中间遇到翻译报错时能自己查日期,改代码,重新跑通,全程无需人工介入。 反观 core 这边,实在出乎我的意料,一开始点开始游戏进去没画面修正以后,美术风格也不如 g l m 五点一。接着我们来再看其他四个案例的对比, 刚刚看到的四个案例,不论是火山爆发还是月球围绕地球旋转动画, g l m 五点一都是全流程一次过,而 cloud 在 火山喷发和机械表案例第一次喷不出画面。 所以说结果就见仁见智了。至少从以上五个案例上看, g i m 五点一是更好的那个。 为什么 g i m 五点一能扛住长任务,不跑偏,不锻炼核心有三点。第一,更强的长城规划与目标保持 模型,不是你说一步他做一步,而是能把复杂目标拆解为多阶段可执行计划,并在长链路执行中始终围绕最终交付推进,减少跑偏、遗忘、约束或陷入局部坠油。 第二,更稳的多工具协同、代码编辑、环境调试、 api 对 接环节衔接稳定。过去开源模型长任务后半程容易断裂,而现在 g m 五点一能自主排查修复,不用停下来等你。 第三,更好的上下文一致性,这是他能对标 cloud op 四点六的关键点。在多轮交互后期,模型啊仍能稳定追踪已完成的内容,当前阶段和下一步的关键动作,有效解决了上下文中的稀释效应。 这一切的背后,是 g l m 五点一引入了 multi turn 强化学习和过程质量评估体系,它在可能性、自适应、纠错、工具使用与推理三个维度实现了进化。对比 k 二点五等竞品,它不再是需要盯着的聪明应届生,而是给目标就能独立交付的老员工。 试完 g l m 五点一之后,我装那愣了一会。之前编程啊,我更愿意用 cloud, 但这次试了 g l m 五点一之后呢,确实不得不感叹,国产模型的进步啊,真的很大。 以前我觉得 ai 再强,它也只能做碎片化的工作,我作为拆解任务把控权局做决策的人,位置啊是安全的。但当模型啊开始自主规划、自主执行、自主纠错、自主交付时,我突然意识到自己的可替代性啊,在迅速上升。 我并不想呢,贩卖焦虑,但你体验过之后,肯定能明白我想表达的是什么。最后, g m 五点一墙归墙,但你这抠钉 pen 的 速度啊,实在是有一点供不应求了,赶紧给服务器扩扩容吧。

让你部署一下智府开源的 auto golem 模型,让老板体验一下用 ai 操作手机,你说啊? no, no, 最后不是各种报错就是显存不足。 那我问你,面试的时候你不说你是计算机高材生吗?回答我,你就打开这个 auto golem 手机 ai 助手登录一下, 没有就去免费注册一个账号。然后先按提示把安卓手机开好,开发者模式和 usb 调试,插上数据线,或者在无线连接那里输入手机 ip 和端口,点一下连接或者首次配对等上面设备状态从检测中变成已连接。 接着在 a p i 服务商这里选好你要用的服务,比如智普或者魔搭,在旁边的输入框里粘贴你的 key, 如果不懂就点一下 a p i 申请教程,照着教程免费去申请一个。然后下面任务指令这一栏, 直接把你想让手机干的活用文字表达清晰,点击开始执行,这三分钟不到,就把复杂流程跑完了,你学会。

智普啊,发布了 glm 五点零,为了测试它的能力啊,我用它构建了一套可以无限运行的 ai 开发系统。我用这个系统运行了长达十个小时,从晚上十点到早上八点, ai 做了几十次 getmate 的 提交, 开发了一个 ai 漫剧生成工具,有前后端有数据库,可以用户注册和登录,还接入了大圆模型,图片生成模型,视频生成模型。通过这个视频,你会学到如何构建这样一个无限运行的 ai 开发系统,并了解到 glm 五点零的惊人开发能力。 整个过程我都只是输入简短的 prompt, 没有亲自阅读或修改任何一行代码。我一直在旁边玩着游戏,等他干活, 尤其是我视频最后会讲的,他把整个项目的所有模块联合起来,然后端到端的 bug 修复错误,非常的牛逼。他不只是单纯的写代码,他甚至自行在浏览器中验证每个功能的正确性,找出 bug, 然后自行在浏览器后端数据库第三方的 api 之间联合调试,找出问题,修复错误。 那赶紧进入正题啊,相信对你会有所启发。我使用的工具是 cloud code, 并且把模型切换为 g l m 五点零,具体方法可以看我之前这一条 g l m 四点七的视频。 那我们首先要搭建一套能无限运行的 ai 开发系统,说是系统,其实就是几个文件,做法非常简单,我把一篇来自 astonopy 的 神级文章发给 ai, 让他自己去学习,根据这篇文章做出这套系统 文章叫长时间运行智能体的有效调度编排框架。那过程中 ai 做出了一些操作预期的举动,他通过 m c p 打开浏览器, 通过这篇文章的页面找到一个配套的 get up 仓库,打开仓库的代码文件进行学习。而我事先都不知道这个代码仓库的存在,最终他创建出了这一些文件。 我解释一下最重要的几个,帮你理解一下这套系统的工作方式。 task 点 jc 文件,其实就是一个任务列表,每个任务都有它的描述,并且会标记是否已经完成。和我们人类工程师每天上班一样, ai 每次从这里面领取一个任务, 完成后就做一个标记,这样他的 ai 同事啊,就知道项目进展到哪里。 progress 点 txt 文件,每次 ai 完成任务啊,或者任务失败后,都会在里面留下工作日期,这也是为了给其他 ai 同事提供一些信息。 log 点 m d 文件,这里面全是提示词,用来指导 ai 根据固定的规范流程工作。和我们人类工程师的开发流程类似, 第一步,跑一个脚本,来初识化整个项目的环境。第二步,在 task 里面领一个任务。第三步,就开始开发。第四步,测试和验证。 第五步,更新 progress 和 task 文件。第六步,用 git 提交代码。那如果中间遇到困难,需要人工介入,它就要及时向人求助。那在以前一些长期运行能力不强的模型中啊, 这么长的开发流程,一旦工作上几十分钟,模型就会逐渐混乱,不再按照规定的流程工作,而如今完全没问题啊。视频后面我们会看到, glm 五点零,即使在长达一个小时的工作,提交了几十个 commit 后,仍然很好地遵循开发规范。 然后呢,我让他写一个脚本,用来无限时间的运行。这一套开发流程背后的原理很简单,就是把 cloud code 放到一个 while 循环里面,这样一来,人不在电脑旁边的时候没法手动 prompt, ai 就 可以执行这个脚本,让 ai 无限的工作。它之所以有效,有几个原因啊, 第一,我们这套流程每次只要给 ai 说一句,完成下一个任务,不需要更具体的指示, ai 就 能通过 task 和 progress 文件知道自己现在应该做什么。 第二,每个 task 都很小, g l m 五点零足够的强大,每一次 y l 循环里面,他只是领取一个很小的任务,并且严格的测试,成功率极高。第三,每完成一个任务,模型的上下文都会被清空,所以模型始终保持在最聪明的状态。 第四, g l m 五点零非常可控,严格按照工作规范执行,每次小任务都会进行 commit, 所以 即使出错,我们可以轻易地回滚到旧版本。 好,现在我们这套系统有了,接下来就要开发软件,我们先来设计一下它的功能和架构。这个软件的用途是一句话,生成长视频。我让 ai 把整个项目的开发需求拆成了三十一个任务,放到 task 文件里。 这是 ai 设计的软件,架构不复杂,但五脏俱全。再看一下 ai 画的业务流程图啊,帮助大家理解我们要开发的这个软件具体的功能。 首先,用户会创建一个项目,然后用大圆模型生成每一个分镜的文字描述,然后再用图片模型生成每个分镜的图片,再用视频模型生成。视频开发的流程比较长啊, ai 做了几十次提交,我就选几个精彩的给大家讲。 在 ai 做到第十九个任务的时候,为了测试 glm 五点零的能力呢,我产生了一个大胆的想法,我让他一口气做了一个多小时,完成了十一个任务,干完一个又一个,中间我没有任何干预, 给大家倍速感受一下效果。他一直在写代码,并且每次都遵循我们的开发规范,每个任务都完成,测试一个,一个任务,单独提交代码,拿一个具体的任务作为案例啊。他现在领取了任务三十,任务目标呢是实现响应式的布局,也就是让 u i 在 手机端和桌面端看起来不一样。 他现在正在修改代码,然后验证项目能 build 通过。然后他现在把浏览器的大小变成了手机屏幕大小。打开了我们的应用,他点击了一个按钮, 他对页面做了一次截图,用识图的 m c p 判断是否正确。再打开了一个新的页面,再做了一次截图,并检查是否正确。然后在 progress 里面仔细描述了自己所完成的工作,然后把这个任务标记为完成,他就按这么一套方式疯狂的干完了每一个任务。 要接入数据库的时候呢,他主动提出需要人工帮助,并且一步一步地给我说明,告诉我如何去这个 superbase 平台啊,点哪里创建项目,配置数据库,获取 api key。 尽管我没怎么用过 superbase, 仍然轻松地操作下来了。中间我还犯了错误,给他提供了错误的 key, 也被他及时发现,最后他还让我帮他去注册一个测试账号,然后他自己打开浏览器,输入账号密码,验证登录功能,可以正常使用。那像 superbase 这种外部的系统啊,超出了 ai 的 控制范畴。 g o m 非常明确的给我提供指引,让我协助他完成开发工作,一个不了解后端的人,也能在他的指引下完成数据库的配置。 他开发完后端一系列 c r u d api 后呢,声称对每一个 api 都进行了测试,但所有的 api 都是需要 os 的, 前端也还只有一个空白的页面,所以我就很好奇他哪里来的 os 权限,怎么完成测试,是不是在忽悠我? 于是我问了他一下,他用简短的语言,漂亮的格式向我解释。他说他打开浏览器,登录了刚才创建的测试账号, 然后通过一个叫做 browser evaluate 命令,在浏览器可以执行任意的 javascript 代码。然后他写了一些临时的 js 代码,就在浏览器里运行,调用我们的后端 a p i, 这样就能有 office 了。非常聪明的做法,我还怕他在骗我,我检查了一下录像,确实如他所说,他打开浏览器疯狂测试, 中间还真测试出不少问题,他就自行查看后端的报错日期,自行修复。最终三十一个任务全开发完后,啊,我也懒得去人工验证这个项目是不是已经可以用了。在往常的开发中啊,到最终阶段,因为已经把 前端、后端、数据库、第三方 api 全部连起来了,那第一次的集成测试啊,就会非常头痛,因为任何地方都可能出错,往往需要浪费大量的时间再把错误找出来发给 ai, 让 ai 去修复。但这一次我非常大胆,我只说了一句话, 请你完整测试一遍流程,确保功能可用。大概就是从早上七点十分开始,他自己在浏览器上疯狂测试,花了一个小时提交了这么多改动,用来修复 bug。 我看他在浏览器上像人一样一步步操作我们的产品,通过截图和视觉能力来判断是否符合预期。遇到问题的时候呢,他就自己查询后端的报错,检查各种 api 的 状态,综合分析出问题。最终他总算顺利的生成出了第一个视频,端到端的把整个应用全部打通了。 他修复的每一个 bug, 做的每一个 feature, 其实我都不清楚是什么情况,但我想知道的话,我只要找到他的 commit 记录,看一下他在 progress 文件里写了什么。这也是这套流程的强大之处,一切都是可追踪的。 我们让 glm 五点零一边开发项目,一边在开发过程中发现问题,让 ai 来增强我们这一套自动化的开发系统,左脚踩右脚,螺旋升天,我相信这就是未来开发者的工作方式。总结来说, glm 五点零已经远远超出了单纯抠顶的范畴,而是能对软件工程的每一个环节进行自动化,提升效率。 gm 五点零在超长任务上非常出色,已经达到了能让我放心的交给他连续运行一个小时的程度。横向对比的话,我个人认为 gm 比刚发布的 oppo 四点六弱一点,但在一些方面可以超过 gbt 五点三。 重点是价格便宜非常多,但现在过于热门啊,供不应求,抠钉套餐非常难抢。那我们这个项目呢?虽然现在端到端全部打通了,但最终深层的视频效果还有很大优化空间。点赞到一万,我可以开源出来,让感兴趣的人进一步优化它。

我只花两小时,用智谱出的 g l m 五点一模型,就做出了这个能快速搜集全网高价值大学专业课学习资料的软件。只要你上传自己的培养方案 pdf, ai 就 会自动解析出你大学四年需要学习的全部课程。随后他会根据我们给他预设的信息源,以及他能够解锁到的其他渠道,去搜集所有高质量的课程资料。中国的、官方的、民间的、文档的、视频的都有。你可以通过资料来源、知识点、 资料形式等等分类方式快速查找这些资料。对于所有资料, ai 都会为你生成一份儿摘药,方便你快速决定要不要仔细研读。软件儿的所有源代码和开发过程中用到的奇制词。最真实的开发记录我都放到了 github 上,大家可以随意学习二次修改。 接下来我就给大家实战教学一下怎么用可拉的 code 和智普最新的 g r m 五点一模型,从零开始,快速把这个像模像样的软件给做出来。第一步是核心功能实现,我们心里要有一个大概的设计,软件的核心功能和页面基本布局想好就行, 其他的东西都可以,后边再一步一步完善。我把初步的想法先告诉了 g l m 五点一,把思考程度调到最高,然后就开始期待它的发挥。一个很有用的经验是给大家一些能参考的东西。我前段时间用的一个开源的 r s s 阅读器就非常不错, 这种三栏式的设计我非常喜欢,我就把这个软件的代码也喂给了 g l m 五点一,让他参考。下边是我用到的完整提示词,大家可以截图保存一下。经过 g l m 五点一四十多分钟的全力奋战,最终出来的结果也很是不错,其中有相当一部分时间我看他都在理解我给他的科研代码, 这个工作态度我非常满意。我自己倒也没闲着,前面用 ipv 看雍正王朝,右边的另一台电脑上也用了 ai 在 跑着我的科研任务基本功能一轮做好之后,第二步就 是额外功能的添加。比如这个软件现在的 ai 程度我觉得还不太够,我希望能够自己来配置,让它用什么样的大魔性 a p i。 比如效果不错的智普 g l m 五点一。 另外我又想到了一个新功能,让用户上传自己的培养方案 pdf, 然后自动解析有哪些课程。要是能够预先设定一些我觉得比较权威的信息源,是不是搜索的效率还能再高一些。把我之前视频里讲的资料获取途径都放在这个软件里,就非常不错。我把我想到的好多新功能都一股脑的告诉了 g l m 五点一。开发过程我真的感受到了一种跟 g l m 五点一并肩作战的快乐。 最后一步就是细节的调试与完善,大操快办总是容易产生一些小小的问题,这个用世界上最贵的大模型也避免不了。不慌,我们就把这些问题都一个一个找出来,然后告诉 g l m 五点一就可以了。什么软件窗口上方无法拖动? api 配置之后测试连接不太成功, ai 专利提取不准,这些小 bug 的 修复速度都很快,只要你能够给 ai 指出来,喝口水的功夫就解决了,又是经过了一段我一边看雍正王朝, 一边等 g l m 五点一给我出结果的时间,这个软件终于是比较符合我心目中一点零版本的样子了,可以拿出来发布。最后给大家总结一下这三步,就是从零开始歪不扣定,做出一个比较可用的软件产品的通用步骤了,希望能对大家产生一定的参考价值, 大家千万也不要被我讲的步骤给束缚了。在跟 ai 一 起工作的时候,我们完全没有必要按部就班,未来我也希望大家能跟我一起把这个软件做得更加完善,我是希望大家都跟我一起歪不扣定的好同学。欢迎大家在评论区参与讨论,补充更多信息。

一句话,让手机帮我们执行复杂任务的时代,就差临门一脚了。要说豆包手机撬开了手机自动化的大门,豆包豆包, 我想买一双阿迪的贝壳头,请在淘宝京东和拼多多给我对比一下,选一张价格最低的。下单开始,已经开始执行任务了,这个是代表执行了,那质朴的 autoglm 呢,就是推开了窗户,要想上手 autoglm, 其实很简单,这是一条手把手教朋友们如何上手的保姆机教程, 给朋友看看效果啊。现在我告诉他打开微信,搜索谁谁谁,然后给他发一条消息。那大概的意思呢?是我今天很忙,没有时间去见他了,希望下次再约。不过呢,我希望编辑文本的时候编辑的友好一点,不要让对方生气。那接下来的事情啊,我就不用管了,所有的事情 auto glm 就会操作我的手机自动完成。 他完全是模拟真人的行为啊,像这样子任务呢,对他来说只是毛毛雨,让他执行更复杂的跨应用的任务也不在话下。 首先啊,我们打开 github, 搜索 auto glm, 就是这个第一个啊,我们打开下面这些呢,我们都不用管,我们直接点击这个绿色的 cod 按钮,复制它的仓库地址。然后呢,我们打开串,点击文件,打开文件夹,创建一个项目,从 目录再进入到我们的项目措施目录,选择 solo 标点模式,粘贴刚复制的仓库地址啊。然后呢,我们给他说这段话,那接下来的事情就是踹的事情了, 我们只需要等它完成就好了。借这个时间呢,我们可以完成另外两件事情,一个是打开手机的开发模式,另一个呢是在手机上安装一下 adb k bord, adb k bord 相当于模型在手机上的麻仔,那必须要装的,不然没有麻仔他就干不了活。 我演示这个手机呢是华为的 p 四零 pro, 其他品牌的手机呢,差别不大,如果不同呢,朋友们可以搜一下啊。那我们打开设置,点击关于手机点击五次这个系统的版本号,当屏幕上出现这行字,那就开发模式呢,打开了, 这个时候呢,我们打开开发人员选项,那下滑,找到 usb 调试这个开关,开启一下就可以了。然后呢,我们把手机和电脑连接数据线呢,一定要能传输数据的,有些线他只能充电,但是无法传输数据。那第一次连接呢,会有两次弹出请求, 我们直接允许就好。到这里呢,项目部署基本就已经完成了,那最后一步我们就是装马仔了,我们点击这里啊,下滑到这个地方,然后呢点击进入,点击这个,再点击这个按钮,等他完成后呢,我们要把它优雅的送到我们的手机上去,那这个呢是有很多方法的,呃, 各显神通就好了。到了手机那就是安装,安装呢会提示没有签名啊,这个没有关系,我们直接允许安装就好,除非不想玩。安装完后,我们打开设置里面的语言和输入法,给这个 a d b keyboard 打一下勾啊,手机上的操作呢就完成了,然后我们通知一下串 a d b keyboard 已经安装,并且 手机已经连接这里。踹呢,看到我是 mac, 所以呢他建议我不要下模型,因为 redmi 文档中有明确说最好是那个因为他的显卡直接让我用 apik 用在线的模型。其实这样还好,我们就不用去下载大模型到本地了,我们去智普大模型平台呢,免费申请一个 apik, 直接给踹 到了这里,一切就准备就绪了,想执行什么任务直接给翠说。下面呢是我执行两个任务的过程,朋友们可以看看我。

今天晚上九点钟左右,最新的 clock code 公布了一个 gm 五点一的一个公测的一个模式,然后我就赶快的去重新新建了一个 api, 然后用了这个 gm 五点一, 感觉还不错,确实它在这个工具调用,还有它在任务运行上 以及长时间处理任务的这个能力上都要比 gm 五,就是我最近用比较多的一个模型要强。可以看到我问了他一个问题,我问他他的优势在哪地方, 他告诉我在工具集成上,编程能力,还有一个多智能体写作以及持久记忆上可能会有一定的优势。 然后直接所以我直接让他连一个这个我的 unity 的 一个 mcp, 让他在这下面帮我去做一些跟游戏开发相关的事情, 然后发现他很快的就习得了一个 skills, 而且他应该是进行一个并行的这么一个模式, 所以我觉得现在这个模型的一个趋势就是会越来越强,在这个长期记忆和这个工具调用上都会越来越好。 嗯,但是呢,有个问题就是要看你的需求是什么样子的,如果你是专注一个 coding 的 这么一个情况下,我认为这个五点一是个很好的选择,就是他可能会啊,在回答你问题的时候去专注于这个代码层面,他可能不会专注你个具体的问题的,就是回答上, 所以我认为他是对一个这个代码开发者是相对友好的,然后, 嗯,相对来说,如果你要去做一些其他的事情,对吧?呃,也不一定说用这个 gm 五点一可以切换成其他的,对应的稍微便宜一点的东西也可以, 但是不得不说新新出来这个五点一我还是很喜欢用的,然后就期待在大家的一个评价。

全球最强开源模型,现在属于中国!四月八号,一个叫智普 glm 杠五点一的国产大模型横空出世,一举拿下全球最强的宝座。 而且他还是开源的,谁都能用。以前的 ai 模型就像短时记忆,聊两句就忘,处理不了复杂任务。但这款 glm 杠五点一不一样,他居然能连续工作八个小时,从头到尾帮你做完一件完整的工程大事。中间不断电不掉链子,在权威测试平台更是夺取全球第一, 这背后靠的是什么?是华为升腾算力的超强加持,简单说,就是让 ai 大 脑里的专家们配合的更默契,资源不浪费, 推理速度直接快了百分之三十,你再也不用担心性能带不动,用华为云就能轻松部署去搞定那些以前想都不敢想的复杂智能项目。 不只是个模型升级,更是中国 ai 从跟跑到领跑的里程碑时刻。未来,它将赋能千行百业,重塑我们跟 ai 交互的方式。为国产大模型点赞!关注我心语,持续分享前沿科技的硬核解读!

这个游戏是我用 g l m 五点一刚刚花了四个小时做出来的,这个效果多少有点儿经验了。现在呢,带你从头看这一轮小更新的大效果。上来先给了我十二个关键动作的详细执行计划,不着急写代码,先把框架理清楚,这就是 g l m 五点一长城规划能力。接下来,先写后端 server, 再切到前端的 index, 然后攻克 java script 交互逻辑,最后编写三 d 核心入口文件, make python, html js 多语言无缝切换文件,系统代码变器,多工具稳定衔接。整个过程没有一次的执行中断,没有一次的 逻辑断层。代码写完,自动启动本地服务器准备测试,结果首页挂了。它精准定位到了 fast a p i 版本,兼容性问题,然后回头去修复了三个小时前写的 starbucks 文件,你没有看错哦,三个小时前,在这四小时里啊,它写了上万行代码,跨了几十个文件。但当 bug 出现时,它能够精准召回那段后端逻辑,完成修复, 重新测试,游戏完整交付。这种状态延续和上下文整合能力,我给到一个字,汤,再看一个,体感会更明显。我让他从零开始做一个情绪记录网站。他在五分钟时写了 user 时,定义了用户数据模型,到了十九分钟写 else 时,能够完美调用之前定义的接口。到了三十七分钟写 mood 时,依然记得最开始设定的情绪记录逻辑。 这个是跨越了三十多分钟,十几个文件的上下文一致性跑数据库。说实话,脚本时遇到 g b k 编码冲突, print 语句报错。他先检查数据库文件,发现数据其实已经写进去了,逻辑是通的,只是打印语句报错,然后精准回到了代码里面,修复了那几个 print, 再次执行成功交付项目包含了前后端,实现全程 ai 完成, 而且几乎无 bug。 在 整个的超长绘画里面呢,它能够判断出部分成功的状态,知道不需要从头来,只需要修复那个编码问题。我把这个过程给老程序员看,他们直呼惊艳。但这个还不是 g m 五点一能 的天花板,它更可怕的是,可以用十四个小时完成库达 carner 优化。要知道啊,这个是资深的库达工程师需要数月才能完成的工作,而一个资深的库达工程师,培养周期长达数年,年薪百万起,是全球最稀缺的高性能计算人才。现在呢, ai 十四个小时就能交付这群人的工作成果。艾莉跑到现在那句话我有点信了, why 不 定解决的是让更多人能创造,那 ergative 解决的是让 ai 能够执行。那么 long horizon 要解决的就是让 ai 像一个资深专家一样,持续的工作交付成果。因为真实世界里面最有价值的工作,从来不是一句 promise 能搞定的,它需要跨步骤、跨工具、跨时间的持续推进。这个也是 g l m 五点一诞生的 原因。目前呢,在 artificial analysis 榜单上, g l m 五点一成为了首个突破,五十分的持平。在此之前啊,只有币源的 g p 四 o cloud 能够做 到。现在,开源阵营终于站在了同一水平线。更狠的是, swbench pro 这个榜单是从 github 上拉一个真实的项目,让模型自己读几万行的代码定位问题修复方案,最后还要跑通原项目的测试用力。 g l m 五点一在这个榜单上拿了全球第一, 排在它后面的是 cloud open 四点六、 g p t 五点四、 jimmy 三点一 pro, 这是中国开源模型第一次在最核心的工程能力指标上 引跑全球。去年大家还在说国产模型在追赶,今年已经是被追赶了。要知道一年前国产大模型的厂家还在以降价百分之九十以上来争夺市场份额,不靠价格而靠价值,国产大模型终于走出了那个阶段。

大家好,今天我们来深度解读智普刚发布的 glm 五点一,一个能独立工作八小时,编程能力达到 cloud opus 九十四点六的开源模型。这不是渐进式进步,这是开源模型的范式跃迁。先来看智普这半年的迭代速度,从去年底的 glm 四点五,到今年初的 glm 四点七,再到二月的 glm 五, 然后三月二十七号 g l m 五点一就上线了,距 g l m 五发布才一个多月。而且智普这次发布非常低调,没有发布会就在用户群里说了一句, coding plan, 全体用户直接升级,但成绩是实打实的。 artificial analysis 综合能力开源第一, s w e bench 代码工程能力开源第一, open router 用量开源断档第一。三个维度同时登顶,说明这不是偏科,是全站突破。 g l m 五点一最核心的突破不在于能回答多难的问题,而在于能独立工作多久。过去所有模型的交互模式都是分终极的,你给指令,他给回答, g l m 五点一打破了这个限制,能在单次任务中持续自主工作长达八小时,完成规划执行、迭代优化的完整壁画。 具体来说,他在三个方面实现了质变,第一,长城规划与目标保持,你给他一个目标,他自己拆除执行路径做到第十步,还记得第一步定的约束。第二,多工具协调,不是会做一步,而是能跑完全程。第三,上下文整合,不再出现做到一半忘了前面约束的问题。 来看技术架构, glm 五点一的总餐数量是七百四十四币,采用二百五十六个专家的猫易架构,但活跃参数只有四十币, 相比上一代活跃参数仅增加了八 b, 能力却实现了飞跃式增长,这说明架构效率极高。三大关键技术,第一, deep seek space attention 稀疏注意力机制,在保持二百 k 上下文的同时,大幅降低部署成本。第二, slime 亦步强化学习框架,这是质朴自研的 r l 训练框架,代号史莱姆已经开源,它让模型能在优化碰壁时主动切换策略,而不是反复尝试同一个方向。 我们把三代模型放在一起对比, glm 四点七十三为五 b 参数,三十二 b 激活定位高性能编程模型, glm 五完成了从三百五十五 b 到七百四十四 b 的 架构跃迁,编码评分三十五点四,而 glm 五点一在同样的七四四 b 架构下,通过 slm 二 l 和 dsa 的 技术创新,把编码评分拉到了四十五点三,相比 glm 五提升了百分之二十八。长城任务能力的变化最为显著, g l m 四点七是分钟级, g l m 五也是分钟级提升,而 g l m 五点一直接跳到了八小时级,对,其目标也从 s n a 四点五一路追到了 opus 四点六。这印证了一个重要趋势,模型能力的提升不再单纯依赖参数规模, 而是靠更聪明的训练策略和架构优化。来看三个震撼案例,第一个睡前交给 g l m 五点一,一份架构草图。 早上醒来,一套完整的 linux 桌面系统已经做好了,历时整整八小时,执行了一千二百多步,产出了桌面窗口管理器、状态栏、应用程序、 vpn 管理器、中文字体支持游戏库等等配套文件四点八兆,这相当于一个私人团队一周的开发量,而且全程没有人参与 模型,甚至自己写了回归测试,还跑过了第二个案例,更硬核 g l m 五点一对向量数据库做了六百五十五轮自主迭代优化,它不是简单微调参数,而是完成了一整套优化链,从全库扫描切到 i v f 分 桶, 引入半精度压缩,加入量化粗排做两级路由,再到提前减脂,每一次跳跃都伴随着短暂的性能下降。 因为模型在探索新方向时暂时打破了约束,然后再调回来,这个打破修复循环本身就是有效优化的标志。最终查询村土从三幺零八 qps 推到了二幺四七二, qps 提升六点九倍。第三个案例,在五十个真实 m l 计算赋载上, g l m 五点一自主编写 treaton kernel 和 cody kernel, 运用 cobbloss 融合 shared、 memory、 tiling、 cody graph 等优化,超过二十四小时不间断迭代,最终取得三点六倍几何平均加速比。而 touch 到 compile 的 max auto tune 模式只有一点四九。 在 gpu 内核优化这个高度依赖专家经验的领域, ai 已经展现出端到端的自主工作能力。来看硬指标,在 s w e bench pro 最接近真实软件开发的精准测试中, g l m 五点一刷新全球最佳成绩,首次实现国产模型超越 colog 的 oppo 四点六。这个测试要求模型在真实 github 仓库里定位并修复高难度 bug。 综合三项最具代表性的代码评测,平均结果,全球模型第三,国产模型第一,开源模型第一, 量化到 cloud code 编码评分, glm 五点一拿到四十五点三分。 cloud opus 四点六是四十七点九分,达到了 opus 的 百分之九十 四点六,相比 gim 五的三十五点四分提升百分之二十八。最后看价格, glm 五点一的输入价格,每百万 token 只要一美元,输出三点二美元, 输入成本是 cloud opus 的 五分之一,输出成本更夸张,仅为 opus 的 七分之一点八。 gpt 五点四的四分之一,简单说就是百分之九十四点六的 opus 能力。 百分之二十的价格,有意思的是,智谱同时还涨了百分之十。涨价后, g l m 五点一在抠定场景的价格已经接近 cloud sonic 四点六,这是国产大模型首次在核心场景与海外头部厂商价格对齐。敢于涨价,本身就是对能力的自信。 g l m 五点一已全面开源 api, 通过 big model 开放平台和 z a i 接入, z a i 的 聊天产品已经上线 g l m coding plan, 全部用户都可以使用, 兼容 cloud code、 open code 等主流开发工具,开源权重在 github huggingface 和 model scope 上都可以下载。总结一下,从 glm 四点七到 glm 五,再到 glm 五点一,开源模型正在经历一条清晰的能力跃迁, 从效率工具到大众创造,到自主执行,再到持续交付。 glm 四点七让模型会写代码, glm 五让模型像工程师一样执行任务。 glm 五点一则把目标推向了让模型像资深工程师一样持续工作八小时, 交付完整成果。长城任务是检验模型智能的下一个标准,当一个开源模型能独立搞定中高级工程任务,我们需要的不仅是更强的模型,更要重新思考人类工程师的不可替代性在哪里。感谢观看,我们下期再见!


智浦 ai 刚刚发布了他们研发两年多的 ai 智能的模型,现在每个人都能拥有自己的豆包手机了,用 ai 完全控制你的手机,这是我下载好的代码,我现在给他一个指令,帮我从纵横航旅上订一个从杭州出发的机票。 现在手机已经完全被 ai 接管了,我完全不需要动手操作,这是它支持的全部 app。 让我们来测一下小红书吧。帮我打开小红书,进入贝蒂很 ai 的 主页, 他直接在小红书输入了我的名字哦,这简直像人手在操作一样。剪视频剪到半夜太饿了怎么办?让他给我点份外卖吧!打开美团,给我点一份麦当劳套餐。 他打开美团,选择了最近的店铺,给我点了一份麦当劳套餐,甚至连小食和饮料都选好了,简直是太便捷了。需要本地部署文档的进群领取哦!

智普 g l m 五点一到底能不能硬钢 plus 的 代码王座?这篇包含跑分、实战痛点和使用边界的思维硬核评测,直接把底牌揭开。一句话总结,这是目前最极致的偏科平替,看完你就知道该怎么用它。踩不踩坑。 先看过场数据,底座七千四百四十亿参数底层直接融合了异步强化学习和 deep sea 的 稀疏注意力机制,标称二十万超长上下文,极数上面直接拉满, 跑分直接逼进地表最强。官方测试中, g l m 五点一的编程得分达到四十五点三分,相比上一代直接飙升百分之三十,距离目前公认的代码天花板 opus 四点六仅差了不到三分。单看测试水准,他已经稳稳占据世界第一梯队。 但跑分不等于体验,这是很多开发者最容易踩坑的地方。实战反馈表明,他的代码生成确实有巨大进步,但代价较为惨烈。 这是一款典型的侧向升级产品,为了强吃代码能力,它大幅度牺牲了日常动用、任务处理和创意扮演能力。如果你拿它写文案,表现甚至不如上一代的 glm 五, 更致命的是长文本陷阱,纸面数据标称支持二十万上下文,但在实际高压环境下,一旦你灌入五到七万托盘的庞大代码库模型,偶尔就会出现逻辑混乱,甚至直接发疯。在处理极长代码项目的极限稳定性上,它目前还无法完全替代 os。 既然有缺陷,为什么海外开发者还在疯抢?因为它的杀手锏是白菜价和伪装介入。在当前热门的 cologold 这类智能体开发环境里, 你只需要改个环境变量接口就能零成本把它当成 opus 来用。最关键的是它的 api 倒用价格只有 opus 的 几分之一,这是绝对的降维打击。最后直接给使用。结论,强烈推荐个人开发者和中小团队把它作为主力平替。 日常的写代码修 bug, 写中小型函数用它绝对超值。但是如果你需要重构超过七万头肯的祖传复杂代码,或者需要处理高度复杂的通用写作,请立刻闭坑老实实加钱去用 opus, 或者直接退回 glm 五。

就在一小时前,智普正式宣布将旗下最强的编程模型 glm 五点一开源作为一款性能仅次于 gpt 五点四和 oppo 四点六当前开源阵营中编程能力最强的大模型,此次智普的开源确实来得有些出人意料。 此外,智普还演示了 glm 五点一超强的自主完善加自我迭代能力模型在连续八小时不间断编程过程中,居然自主构建出了一个完整的 linux 桌面环境,并生成超过五十个可运行的桌面应用,整体可用性相当高。 这一结果不仅展示了其工程稳定性,也体现了其在复杂系统构建上的持续推理与执行能力。 消息发布后,网络反馈同样热烈,有人直呼这才是真正的先进生产力。也有人开始向 cloud 发问,开源模型已经强大到这个程度,闭源阵营是否也该有所回应,拿出新的策略?

二零二六年三月全网七大国产大模型 ai 编程套餐怎么选?一个视频给你说清楚。首先声明,本视频无任何广告,请放心使用。在正式开始分析之前,我先出结论,综合实力最强可以直接闭眼入的首选是智普 ai, 他首发独占了目前最聪明的 glm 五点一模型,这个模型目前在编程方面是国产最强,没有之一,并且白送能让 ai 直接帮你操作电脑的 mcp。 普通人直接买四十九块钱一个月的 like 版,一个月能用两万多次,查资料、写文章、做 ppt 基本用不完。 如果你只是想要一个高性价比的龙虾方案,绝对的性价比之王,一个月只要二十九块钱一年也才二九零,不用去抢名额 就能拥有独占的 mini max m 二点七模型,反应速度极快,学生党或者只是想轻度尝鲜的用户, 闭眼买这个二十九元的 start 套餐就行。习惯用豆包体系的可以看字节方舟,它四十块钱一个月起步,独家支持最新的豆包 size 二点零模型,买套餐还会送很实用的 open core 插件,但你要注意避个坑,它目前不支持最新的 g o m 五模型,模型选择上会稍微有点局限, 对于有大量阅读需求的人,长文本刚需者专属选 kimi, 四十九块钱起步,途展 kimi k 二点五,如果你每天要让 ai 帮你读几百页的 pdf 或者写万字长文,选它最合适不过。官方一直不公开具体的调用次数限制,用起来像开盲盒, 而且 asynch 速度也会有区分。剩下几个平台,普通人可以先观望下。阿里百店没有平价套餐,起步就是两百块的 pro 版。腾讯会员和百度千帆属于大杂烩平台,主要是接入别家模型撑场面, 比如百度能用到 d c k v。 三点二,腾讯首月只要七点九元,除非你想花一份钱体验各种不同的模型,否则不用专门去开通。 最后总结一下,兜里的钱到底怎么花,想花最少钱体验顶级 ai, 选二十九元的 mini max, 想要最聪明、功能最全, 买四十九元的智普重度处理藏私料,选四十九元的 timi, 如果确定要长期用,直接买包年最划算。最后提醒一句,现在官方封号极严,千万别去买什么共享号,直接买官方平价套餐最稳妥。