今天看 gm 四风铃 细节展示, 拼装舒适券后入手更性价比,单脚直立不松动,特点是武器透明,支架顺序个性定制, 透明磨砂质感,买支架送模型,安装好效果如下。 评论区聊聊这款拼装会是你的菜吗?老规矩,三年懂的都懂,拜拜!
粉丝2717获赞3.1万

年前最后的背刺也是到货了。 mgsd 枫林高达,我买的这款是苏帕家的,表面峰会很清晰,就是盒子大小比之前出的 k o mgsd 都要小的多。打开板件后一共四包,板件 非彩色说明书,但是很清晰,末尾有水贴设计图,就是量估计少的缘故,很薄。 宋有一张水贴清晰度一般,还有一张胶贴,胶贴清晰度就很高。板件整体无销光质感,但白色板件刻线很深,也无水纹飞边。 灰色板件部分有些肉,还有点油,但也无非边根水纹,并且部分落差刻线很到位。 浅灰色板件也有点油,推荐拼装前先洗洗板件透明件放在 ko 里算一般通透。兄弟你卖四十多啊,多多少少有点过分。蓝色板件目前是最油的,是脱胶剂刷多了吗? 灰色透明件做工还可以, 这个银色做工一般,如果换成拟真色会好很多好吗?又肉又油。 黄色板件清晰度一般,偏肉。这个电镀蓝颜色做工还可以,就是漆厚,所以板件糊。个人推荐,如果各位交友不慌,那就等降价等修复撤。


这临近过年,我们的国产模型真的太猛了。前面我做过两期视频,用同样的 prom, 同样的真实项目任务实测,对比了 cloud office 四点六, gpt 五点三、 codex mini max 二点五。 那期视频做完之后,评论区就有人让我测试一下质朴新发布的模型 gom 五,咱也是加班加点的干出来了,而且据可靠消息,过两天还有 deepsea 微视版本的发布,到时候也给大家带来一期真实项目的一个编程实测。 求一个一箭三连不过分吧?在这里要插播一下,当我准备去测 gm 五的时候,我去官网去订阅它的 cooling plan, 直接受庆了,就我的套餐买不到。哇,那如果按 ipa 计费的,我目前也没有找到。他们可以用 insulate 的 一个协议来测试 gm 五, 所以我就用了 ppl 他 们家的去测试,他们是非官方首发部署的 gm 五,一个开源模型的一个权重,那兼容安斯罗比的一个协议接到可拉扣的里面也非常方便,因为我之前的评测的话,都是用可拉扣的去做的嘛。所以说为了保证公平公正,我们也是用同样的 工具方的编程任务去做实测。好,我们先去创建个 api k, 这里我就写 gm 五 确认,点击复制好,我们开始进入真实项目的一个编程实测环节,也是同样的 prompt。 哈,那第一个任务的话,是把 我们另外一个项目里面完整的一个用户认证体系,包括邮箱、谷歌认证登录、 github 登录迁移到我有一个新的图片生成 a 级的项目里面,同时让它去做一个落地页, 需要考验它的一个代码理解能力,架构适配能力,一个工程规范。这个任务还算比较复杂,之前用 mini max m 二点五去测的时候,它花了三轮对话才完成的,那 op 四点六跟 gpt 五点三 colex 的 话,它们一轮对话就完成了。 那第二个任务的话是我本地有一个 skills agent, 它是一个终端 ui 交互的,我们把它做成一个外部聊天页面,让它保留 syncing 工具,调用流逝输出。这个任务主要考验它全站开发, 流势输出以及 u i u x 的 一个交互能力。之前测试的话, off 四点六跟 g p d 五点三 codex 他 们一人赢了一局,那下面我们就开始做 g o m 五的一个测试。 这两个项目现在都是开启了一个沙杯进者的模式去探索已有的代码。那右边的话,它弹出来一个让我选择想用的框架以及 u i 主键库,我就按我一个常用的方式去选好,它提示已经成功了。 好,我们打开了他给我们写的这个 y y, 哈,他把这个 skills 是 放在右边的,就展示我已有的一些项目,来测试一下它可用吗? 好,我们开始让他去总结这篇文章,看一下他有没有去做到加载这个 skills, 然后加载完了之后去执行一些脚本去做爬虫,然后再去做总结。可以看到这边他已经加载到这一个 skills 了,下面去执行一些命令 总结出来了哈。整体的话完成度还可以的,就是他这个 ui 上稍微会差一点点,相较于那个 gbt 五点三 codex 的 话,这个完成的没有 gbt 的 好。 左边这个窗口就是 cloud off 四点六写的,这个 ui 上确实会差一些。右边的话是 gbt 五点三 codex 写的,当时我是把票投给了他,那么同时去可以看一下刚刚那个任务,他们俩其实都没什么太大问题,不是特别难,后端也就 thinking, 然后做工具调用, 可以看到都是 ok 的, 没有什么太大的问题。好,下面我们去看一下那一个纹身图 agent 用户认证体系那块它完成的怎么样了? 可以看到它这个已经完成了哈,可以看到这个代码它已经写完了,我们先看它能不能一次性去启动,之前 mini max m 二点五这一块是没有做到一次性启动,我们先开新开一个窗口去测一下。好,我们可以看到 g m 五的话,它目前启动是没有什么问题啊,我们再看一下它实际的一个表现, 我们看一下它整个 ui 表现哈, ui 还行,那我们看它的那个认证功能可不可以用。我们先试谷歌登录,谷歌登录的话,它这块放了一个小 bug 啊,它把那个毁掉的端口弄错了,我们改一下。好,我们继续。 好吧,登录失败了,这边还是有些问题,你看到它登录的时候认证失败了,应该是数据库的表结构那块有点问题,从这么看的话, gbt 五点三 codex 跟 op 四点六还是要猛一些哈,就是它们没有这些问题。 好,我们再来选择谷歌登录,刚让它修复了一下, 好,他终于可以了。哎,有个问题,他登录成功之后没有回,没有进到我们的那个主页面,登录成功之后没有进到我们 agent 里面, 这个算第二轮对话吧,看他第二轮对话能不能搞定好,我们点击登录选择谷歌, 他还是没有修复成功,他还是要再刷新一下,看没有再刷新一下,进来再给他描述一下吧。现在还有个小问题,当我们认证之后,他先跳转了到首页,我再刷新页面,他才进到了 a 镜的里面。 在他这是第三轮了,就证明他在这个方面其实跟 mini max m 二点五差不太多,他们俩再点登录。 我靠,跟这个问题杠上了,他还是修复不了啊,还是有问题,你能不能好好深入去修改一下,去思考一下。 这是我们第四次对话,让他去修改这一个小问题哈,这个表现呢,就有一点不是特别好了,我们再来,如果他再再进不去,我就不撤了,这个就默认他四轮吧。 好,我放弃了。这个问题我不测了,他修他,我跟他一直对话,他修不了。我们之前测 gbt 五点三跟 colorof 四都是一轮。 ok, 我 们下面来看一下评分,整体的一个打分标准是第一个,我人为的去检测他们的一个功能完整性以及 ui 的 一些情况。那代码架构,工程规范,我都是把他们所有的代码给到 gbt 五点三, codeof 四点六,让他们分别去 review, 然后去打分。 它现在结果是这样子的, off 四点六,在第一个项目用户认证里面,它是表现最好的,它在功能完整度以及 ui 落地上是表现的比较好,并且是一轮就完成任务了。但是它的代码架构跟工程规范会有一些小问题, gpt 五点三扣贷 x 的 话,它的代码架构以及工程规范会比它好,而且是这四个模型里面最好的。那它的功能完整度呢?因为它漏了一个谷歌登录的一个前端,所以说这个评分稍微低一点,那它 ui 落地页的话也会稍差一些。 上一期视频测试 mini max m 二点五这一边的话,他是花了三轮对话去完成了这个任务。那智普这边的话,刚刚你也看到了,其实四轮对话完下来之后,他还有一些小问题,所以说评分的话,他俩其实差不太多吧,我个人感觉哈, 我们来看第二个,把这个 skills agent 做成一个外部 ui, 那 这个项目的话就是 gpt 五点三 codex, 它在业务完成上逻辑错误控制以及 ui 代码质量工程实现都是最好的。那剩下这三个的话,大家表现的都差不多吧,大家有优势的地方也有他劣势的地方。 好,下面我们开始进入 agent 的 实测环节,把 gm 五模型接入到我这一个真实的一个 agent 的 项目里面去,它是做自媒体视频拆解的, 主要需要去看他的一个速度,拆解深度以及表达一个真实感。那整个 a 型的工作内容的话,就是先去下载视频,做音频提取,转文字,然后去做内容的结构化分析,爆款元素的提取,最终输出一个拆解报告。好,我们下面开始吧。好,右边也完了, 我们来简单看一下哈,他们两边格式上会有一些差异。在拆解上我们看他这个结构拆解这块,他这个时间出其实是有问题的,他做的不对,因为我这个是十二分钟的,他是做了 十四分钟到十五分钟,那 g m 五这边的话,它也有讲一个时间戳吧。啊对,你看它有二十分钟,还有三十到三十五分钟都来了,所以说我感觉它在整个 a 帧的表现里面不是特别好啊,它这个拆解的深度也不太够,我感觉相较于昨天我测那个 mini max m 二点五的话会稍微差一些。 好,我们下面总结一下。把 gm 五接到这一个自媒体视频拆解的 a 帧里面,它的一个表现情况哈,整体上的话速度偏慢,就响应速度不算快,可能跟当前用户量大有关系,因为都知道它这个套餐都卖的受庆了。第二个的话,它的拆解深度的话相较于 mini max m 二点五会有一些稍稍不足。 第三个的话,它的一个真实感稍微偏弱一些啊,这是整体的一个表现情况。好,下面我们进入整个的一个总结环节,在编程方面的话,一句话,在我的这一个测试项目里面, gbt 五点三 codex 表现最好,比 off 四点六会好一些。 glm 五跟 mini max 它们的体感接近,都是开源的嘛,并且它们的成本非常低,所以说 对于一个高性价比的一些开发任务的话,我觉得这两模型都非常不错。好,这就是这一期视频的所有内容了,如果你觉得这期视频做的不错,一定记得给我一键三连哦。那下一期视频的话大概率是做 deepsea 微四,有可能是在过年那一天发布,我猜测哈,据可靠消息。好,那视频就到这里了,大家拜拜拜拜拜拜拜拜。

还在为龙虾消耗滔天而发愁,那么这个视频给你讲一种方法,让你的龙虾能够免费的调用商用模型,这里面有两个关键点,第一好用,第二免费。那是啥呢?接下来给大家揭晓啊。大家都知道,这两天智普发布了智普五的模型, 在性能上已经达到了 a 公司四点五的模型的能力了,并且超越了 g 公司三 pro 的 能力了。但是大家有没有发现,随着智普五的发布,在官网上咱们可以惊讶地发现它的四点七 flash 免费了,也就是说咱们可以在 opencloud 里面 免费的去调用它的次新模型四点七了,那么这样咱们就找到了一个免费的并且效果还不错的一个模型了。好,那怎么对接啊?啊?给大家来说一下,首先呢,你得确保你已经安装了 openclaw 龙虾了,安装完成之后呢,首先啊,先把你的龙虾服务先结束掉啊,结束掉之后呢, ok, 这个时候 打开你的龙虾的配置文件啊,配置文件呢,就在你当前登录用户底下的 opencloud 文件夹底下有一个 opencloud 点 jason, 把它双击啊打开,然后打开之后呢,咱们去找到三个地方啊,一个呢是 model 啊,在 model 底下去添加一个智普的 model, 这是第一个,然后第二个呢,在 agent 底下将上面你配置的智普的四点七啊添加到你的 model 和 models 里面就行了。 好,那么接下来呢,咱们就添加一下,这时候呢,我去添加到底下,然后加一个英文的逗号啊,然后给它随便去起一个名字,这个名字呢就叫做 j m l 吧。啊, 好, ok, 然后完了之后呢,哎,使用 jason 这种格式,先给它包包装上啊,然后包装上之后呢?好,这个时候咱们需要打开一个之前已经配置好的内容,然后将里面的内容啊复制到字谱里面就行了啊,好,那这时候呢? ok, 粘贴啊,粘贴完了之后呢,就长的是这样啊,当然里面的 base u l 需要改成咱们连接的四点七的地址,然后 api k 呢,需要改成 api k, 然后里面的这些模型呢,也改成现在的模型就行了。 好,那么咱们回到这边啊,它的地址是啥呢啊?地址是这串叉叉之前的,复制它,然后更新到 bash 里面。好,粘贴了,然后完了之后, api k 呢?咱们需要找到你的 api k 啊,然后在界面上咱们去创建一个 api k 啊,比如说啊 test, 随便就几个名字啊,就有了,有了之后呢,把它复制,复制完了之后呢?哎,粘贴到这就可以了啊,然后粘贴完了之后呢,那么还有 id, 模型的 id 和名称啊,那模型的 id 和名称的话,咱们就回到这边,在哪?在这啊,这是模型的名称,复制,然后把它进行粘贴, 然后粘贴就行了,那么这样咱们的 model 就 已经配置完了啊,咱们就有 g l m 这个模型了。好,那么有了它之后呢? ok, 复制它的名字啊,在咱们的 agent models 的 默认模型里面给它换掉,那么咱们是它加上斜杠啊,加上咱们的模型名称,复制它, 然后进行粘贴好,然后完了之后呢?哎,同样的,把整个内容全部复制,来到 models 底下,好找一个地儿啊,随便找一个地儿,使用英文的方式来给它进行粘贴啊,然后它等于啥呀?等于一个括号号就行了,这是一个标准的 get 格式,这个配置完之后呢,意味着咱们整个 open class 对接免费的模型就已经 ok 了。好,那么接下来咱们来看一下效果啊,那么看效果的话,咱们首先先打开命令行窗口,然后输入这一行命令来启动咱们的 open class 啊。好,那么咱们等它启动好了之后呢,问一下大模型它目前连接的是谁啊?好,那么这时候就启动了,那启动好了,启动好了之后呢,咱们可以在页面上去访问啊,也可以在其他对接的,比如说某书上去访问,都是可以的。好,那这时候呢,咱们就输入一下,叫做我给你配置了一个新的模型, 告诉我你现在连接的是啥啊?那么这时候呢,它很快就给我响应了,它目前连接的是啥呀?四点七 flash 啊,它是可以快速响应的,并且是免费的模型到这儿咱们就对接完了,这样的话,咱们再也不用担心 talking 的 消耗量了,既能食用龙虾,同时又没有 talking 的 烦恼,一举两得啊,我是磊哥,每天分享一个干货内容。

智普啊,发布了 glm 五点零,为了测试它的能力啊,我用它构建了一套可以无限运行的 ai 开发系统。我用这个系统运行了长达十个小时,从晚上十点到早上八点, ai 做了几十次 getmate 的 提交, 开发了一个 ai 漫剧生成工具,有前后端有数据库,可以用户注册和登录,还接入了大圆模型,图片生成模型,视频生成模型。通过这个视频,你会学到如何构建这样一个无限运行的 ai 开发系统,并了解到 glm 五点零的惊人开发能力。 整个过程我都只是输入简短的 prompt, 没有亲自阅读或修改任何一行代码。我一直在旁边玩着游戏,等他干活, 尤其是我视频最后会讲的,他把整个项目的所有模块联合起来,然后端到端的 bug 修复错误,非常的牛逼。他不只是单纯的写代码,他甚至自行在浏览器中验证每个功能的正确性,找出 bug, 然后自行在浏览器后端数据库第三方的 api 之间联合调试,找出问题,修复错误。 那赶紧进入正题啊,相信对你会有所启发。我使用的工具是 cloud code, 并且把模型切换为 g l m 五点零,具体方法可以看我之前这一条 g l m 四点七的视频。 那我们首先要搭建一套能无限运行的 ai 开发系统,说是系统,其实就是几个文件,做法非常简单,我把一篇来自 astonopy 的 神级文章发给 ai, 让他自己去学习,根据这篇文章做出这套系统 文章叫长时间运行智能体的有效调度编排框架。那过程中 ai 做出了一些操作预期的举动,他通过 m c p 打开浏览器, 通过这篇文章的页面找到一个配套的 get up 仓库,打开仓库的代码文件进行学习。而我事先都不知道这个代码仓库的存在,最终他创建出了这一些文件。 我解释一下最重要的几个,帮你理解一下这套系统的工作方式。 task 点 jc 文件,其实就是一个任务列表,每个任务都有它的描述,并且会标记是否已经完成。和我们人类工程师每天上班一样, ai 每次从这里面领取一个任务, 完成后就做一个标记,这样他的 ai 同事啊,就知道项目进展到哪里。 progress 点 txt 文件,每次 ai 完成任务啊,或者任务失败后,都会在里面留下工作日期,这也是为了给其他 ai 同事提供一些信息。 log 点 m d 文件,这里面全是提示词,用来指导 ai 根据固定的规范流程工作。和我们人类工程师的开发流程类似, 第一步,跑一个脚本,来初识化整个项目的环境。第二步,在 task 里面领一个任务。第三步,就开始开发。第四步,测试和验证。 第五步,更新 progress 和 task 文件。第六步,用 git 提交代码。那如果中间遇到困难,需要人工介入,它就要及时向人求助。那在以前一些长期运行能力不强的模型中啊, 这么长的开发流程,一旦工作上几十分钟,模型就会逐渐混乱,不再按照规定的流程工作,而如今完全没问题啊。视频后面我们会看到, glm 五点零,即使在长达一个小时的工作,提交了几十个 commit 后,仍然很好地遵循开发规范。 然后呢,我让他写一个脚本,用来无限时间的运行。这一套开发流程背后的原理很简单,就是把 cloud code 放到一个 while 循环里面,这样一来,人不在电脑旁边的时候没法手动 prompt, ai 就 可以执行这个脚本,让 ai 无限的工作。它之所以有效,有几个原因啊, 第一,我们这套流程每次只要给 ai 说一句,完成下一个任务,不需要更具体的指示, ai 就 能通过 task 和 progress 文件知道自己现在应该做什么。 第二,每个 task 都很小, g l m 五点零足够的强大,每一次 y l 循环里面,他只是领取一个很小的任务,并且严格的测试,成功率极高。第三,每完成一个任务,模型的上下文都会被清空,所以模型始终保持在最聪明的状态。 第四, g l m 五点零非常可控,严格按照工作规范执行,每次小任务都会进行 commit, 所以 即使出错,我们可以轻易地回滚到旧版本。 好,现在我们这套系统有了,接下来就要开发软件,我们先来设计一下它的功能和架构。这个软件的用途是一句话,生成长视频。我让 ai 把整个项目的开发需求拆成了三十一个任务,放到 task 文件里。 这是 ai 设计的软件,架构不复杂,但五脏俱全。再看一下 ai 画的业务流程图啊,帮助大家理解我们要开发的这个软件具体的功能。 首先,用户会创建一个项目,然后用大圆模型生成每一个分镜的文字描述,然后再用图片模型生成每个分镜的图片,再用视频模型生成。视频开发的流程比较长啊, ai 做了几十次提交,我就选几个精彩的给大家讲。 在 ai 做到第十九个任务的时候,为了测试 glm 五点零的能力呢,我产生了一个大胆的想法,我让他一口气做了一个多小时,完成了十一个任务,干完一个又一个,中间我没有任何干预, 给大家倍速感受一下效果。他一直在写代码,并且每次都遵循我们的开发规范,每个任务都完成,测试一个,一个任务,单独提交代码,拿一个具体的任务作为案例啊。他现在领取了任务三十,任务目标呢是实现响应式的布局,也就是让 u i 在 手机端和桌面端看起来不一样。 他现在正在修改代码,然后验证项目能 build 通过。然后他现在把浏览器的大小变成了手机屏幕大小。打开了我们的应用,他点击了一个按钮, 他对页面做了一次截图,用识图的 m c p 判断是否正确。再打开了一个新的页面,再做了一次截图,并检查是否正确。然后在 progress 里面仔细描述了自己所完成的工作,然后把这个任务标记为完成,他就按这么一套方式疯狂的干完了每一个任务。 要接入数据库的时候呢,他主动提出需要人工帮助,并且一步一步地给我说明,告诉我如何去这个 superbase 平台啊,点哪里创建项目,配置数据库,获取 api key。 尽管我没怎么用过 superbase, 仍然轻松地操作下来了。中间我还犯了错误,给他提供了错误的 key, 也被他及时发现,最后他还让我帮他去注册一个测试账号,然后他自己打开浏览器,输入账号密码,验证登录功能,可以正常使用。那像 superbase 这种外部的系统啊,超出了 ai 的 控制范畴。 g o m 非常明确的给我提供指引,让我协助他完成开发工作,一个不了解后端的人,也能在他的指引下完成数据库的配置。 他开发完后端一系列 c r u d api 后呢,声称对每一个 api 都进行了测试,但所有的 api 都是需要 os 的, 前端也还只有一个空白的页面,所以我就很好奇他哪里来的 os 权限,怎么完成测试,是不是在忽悠我? 于是我问了他一下,他用简短的语言,漂亮的格式向我解释。他说他打开浏览器,登录了刚才创建的测试账号, 然后通过一个叫做 browser evaluate 命令,在浏览器可以执行任意的 javascript 代码。然后他写了一些临时的 js 代码,就在浏览器里运行,调用我们的后端 a p i, 这样就能有 office 了。非常聪明的做法,我还怕他在骗我,我检查了一下录像,确实如他所说,他打开浏览器疯狂测试, 中间还真测试出不少问题,他就自行查看后端的报错日期,自行修复。最终三十一个任务全开发完后,啊,我也懒得去人工验证这个项目是不是已经可以用了。在往常的开发中啊,到最终阶段,因为已经把 前端、后端、数据库、第三方 api 全部连起来了,那第一次的集成测试啊,就会非常头痛,因为任何地方都可能出错,往往需要浪费大量的时间再把错误找出来发给 ai, 让 ai 去修复。但这一次我非常大胆,我只说了一句话, 请你完整测试一遍流程,确保功能可用。大概就是从早上七点十分开始,他自己在浏览器上疯狂测试,花了一个小时提交了这么多改动,用来修复 bug。 我看他在浏览器上像人一样一步步操作我们的产品,通过截图和视觉能力来判断是否符合预期。遇到问题的时候呢,他就自己查询后端的报错,检查各种 api 的 状态,综合分析出问题。最终他总算顺利的生成出了第一个视频,端到端的把整个应用全部打通了。 他修复的每一个 bug, 做的每一个 feature, 其实我都不清楚是什么情况,但我想知道的话,我只要找到他的 commit 记录,看一下他在 progress 文件里写了什么。这也是这套流程的强大之处,一切都是可追踪的。 我们让 glm 五点零一边开发项目,一边在开发过程中发现问题,让 ai 来增强我们这一套自动化的开发系统,左脚踩右脚,螺旋升天,我相信这就是未来开发者的工作方式。总结来说, glm 五点零已经远远超出了单纯抠顶的范畴,而是能对软件工程的每一个环节进行自动化,提升效率。 gm 五点零在超长任务上非常出色,已经达到了能让我放心的交给他连续运行一个小时的程度。横向对比的话,我个人认为 gm 比刚发布的 oppo 四点六弱一点,但在一些方面可以超过 gbt 五点三。 重点是价格便宜非常多,但现在过于热门啊,供不应求,抠钉套餐非常难抢。那我们这个项目呢?虽然现在端到端全部打通了,但最终深层的视频效果还有很大优化空间。点赞到一万,我可以开源出来,让感兴趣的人进一步优化它。

史上最强开源大模型 cloud 国产平替!不知道你有没有听说过以上这些响当当的名号?没错,今天我想说的话题就是这家通用大模型厂商智谱世界文明从碳基时代走向硅基时代,现在看来已经是不可逆的大势所趋, ai 也将彻底改变我们人类的生活方式。 而大模型作为 ai 的 大脑,他的智力水平将直接决定整个过程的快慢、工作的质量和效率。所以他从一开始就是各大科技公司的兵家必争之地。 当然,发展他所需要的投入必定是一个天文数字,没有实力的国家和一般的大厂根本就玩不起。 从二三年开始的切模大战,短短两年多的时间,现在真正还能打的已经没有几个了。大家所熟知的经常调用的也就是 cloud openai、 gemini、 mini max、 g l m、 deep seek 这几个, 但是在具体工程上,能进入开发者模型库的只有 cloud openai, 替补的有 mini max 和 glm, 另外三家我们不谈,今天只讨论智普公司的 glm 大 模型。 我第一次关注到这个模型的时候还是 glm 四点六,那时候网络上还有很多可以白嫖 cloud 和 gpt 的 方法,本着可以免费用最好的,为什么要用更差的这种心态,当时我对 glm 根本不屑一顾,试都懒得试。 随着后面两大顶级模型公司的监管加强,很多无限续杯的办法开始失效了。这个时候 glm 四点七出来了,跑分成绩好像还不错, 网络上那些 ai 营销号不知道是不是收钱了,更是吹得天花乱坠,我也抱着侥幸的心理把它加入了我的魔性库,然而灾难就是伴随着这种侥幸心理开始的。 我用它开发了一个同城租房的便民小程序,因为我局配置了 superpower 这项原技能,所以开发步骤是非常规范且符合工程美学的。项目一开始就在终端里自动调用了 brainstorm skill, 一 番详细的互动之后顺利生成了项目 prd。 到这个时候,我只是感觉到 glm 四点七的响应有点慢, thinking 的 顿挫感比较明显,不及 cloud opus 那 种行云流水般的让人舒心,也不及 gpt 五点二那种喷涌而出的快感。但是毕竟是平替嘛,又是免费的,还能说什么呢?所以我调整了自己的心态, 以上这些视觉瑕疵就当没看见,无非是丑一点嘛,只要能解决问题,完成任务,这些我都能忍。 接下来是 writing plan 环节,这个时候我已经感觉到不对劲了,因为他写的 plan 明显复杂很多,这不是因为项目更复杂,而是整个架构上就有重复笼鱼的设计。但是我压制住了自己内心的难受,脑子里不断给自己强调两个词,免费平替。 最后到了第一位环节,看着屏幕上列出了漫长的 to do list, 此刻我已经能预见到那种死山交付、运行复死的场景, 果然只有这个预期是没有落空的。在耗时三倍以上的等待之后,我抱着九死一生的最后一丝侥幸,打开了微信开发者工具, 用测试号运行了一下,总共就五个页面的设计和交互。且不说前端的颜值怎么样,他是哪哪都不对,功能有缺失,交互要么失灵,要么错乱。 到这一刻,我突然想起了网络世界的一句主训,只要中国人不骗中国人,这个世界就没人能骗得了中国人。都怪孩儿不孝,忘了主训,乱了阵脚,最终因小失大。 强忍着气氛和悲痛,在理智重回了我的大脑之后,我立刻把 g l m 四点七这尊大神毕恭毕敬地请出了我的模型库,然后掏出了我的 master card。 因为 cloud 实在是太贵了,而且容易封号,而我只是想重新找回我对 ai coding 的 信心,所以我选择了充值对环境更友好的 open ai 二十美元。超能力到位后, api key 创建,添加 gpt, 五点二上场全面接管项目后,立刻开始从头到尾检查优化,然后 rebuild。 因为毕竟是一个小程序项目,斩华雄何须温酒?二十分钟手起刀落,重新测试运行,一次跑通功能都在交互丝滑,只剩一些小细节,稍微给点提示词,微调一下,基本上就是我想要的样子了。要知道,我一直以来都是白嫖两大顶级模型的, 今天 open ai 能赚到我这二十美元,完全是拜 glm 四点七所赐。通过我的惨痛经历,我想跟兄弟们分享一个心得, 那就是贪小便宜吃大亏。因为我的侥幸贪心,把任务交给了不靠谱的智府来做,最终我得到的是时间的浪费、心态的崩溃和不得不请真神来改刀的额外支出。 对于普通的 ai 用户来说,很多时候你的项目并不大,也不是那么急,最佳选择就是等待每天能够白嫖顶级模型的免费投坑额度。虽然监管趋紧了,额度变少了,但是依然够你拿去做些小项目小工具。自普从一月八号上市以来,股价已经被炒到四百多了, 这两天又发布了 gm 五,各大营销号又在鼓吹它杀疯了。我去他的订阅官网看了一下,价格好像比以前还涨了一点, 订阅依然是需要靠抢,每天十点钟就会一售而空。我似乎有点看懂了这家公司,他最厉害的地方应该不是搞大模型,而是在金融市场搞钱, 因为大模型跟机器人不一样,这个作假比较难,毕竟有一堆测试等着你去打榜评分。所以研发投入肯定是要的,否则就拿不到像样的跑分数据。所以智普肯定是投入了一些科研费用的。 但是比较诡异的地方是,他收 cloud 三分之一的钱,能给人家三倍的计量,这里外里就是九倍的差距了。即便他的交付质量更差,按照目前的算力成本应该也是亏钱卖给用户的。 那么有没有一种可能,那就是这家公司选择把一部分资金投入到研发中去,拼命的去打榜,跑出好成绩,引发更大的关注和用户兴趣,然后再控制订阅的销量, 毕竟用户越多,投坑亏的就越多。但是每天脱销售庆,不仅能减少实际亏损,还能酝酿市场情绪。他可以自豪的说,你看我这么好的平替产品,每天都不够卖,从而推高股价,在资本市场中大发横财, 从卖投肯赚钱变成了卖股票赚钱,搞到大钱以后,再拿一点小钱出来,继续搞研发,跑分打榜,继续控制订阅消耗, 继续引发市场热情,然后继续炒卖股票,完美闭环,把开源节流玩的明明白白,到二级市场对股民挖心掏肺的开源, 在用户市场严控销量,降低损耗,狠狠的节流质朴,给传统的大厂们上了一课,创造了控制用户规模也能讲好故事赚大钱的先河, 从而真正实现了降本增效、名利双收的目标。当然,这只是我作为用户的一个猜想,那么有没有这种可能呢?应该不能排除吧。 至于现在这个 g m 五,我不做过多的评价。由于上一代四点七我已经对这家公司产生了免疫抗体,所以无论网络上那些 ai 营销号说的有多神,我绝不会让他在我的电脑终端燃脂项目开发的核心工作 最多只会在 ide 里面免费用它打打杂。看到它官网的这张单向跑分截图,我还有几句话想说,可能很多人在日常生活中没有调用大魔星的场景,一眼看过去,觉得 cloud opus 四点五得分八十点九, glm 能得七十七点八分,只差三分,感觉已经很厉害了对吧? 首先要注意的是, cloud opus 已经出了四点六了,四点五是它的上一代产品,而 glm 是 智普的最新模型,就是网传大杀四方的那一款。 其次,没有实际使用体验的人,直观的看这个分数差距可能没有什么概念,我结合自己的使用体验举个例子你就懂了。这就像两个高考分数,一个是六百分,另一个是六百三十分。六百分在报考志愿的时候是没有机会去报考排名前十的大学院校的, 只能填报一些普通的一本院校,而六百三十分就不一样了,清北复这可能未必有机会,但是川大、武大、南开这些名校还是有很大机会的。 我也曾是小郑做题家,参加过高考,我很客观的知道,六百分几乎是靠努力可触及的天花板,而六百三十分虽然只多了这三十分,他压根就不是光凭汗水和努力可以换来的, 这也是清北复制的含金量所在。这样说,大家就应该知道, glm 和 cloud 相差的那三分意味着什么呢?恰恰就是多的那三分,能把你的事交代的任务给办好做成。 当然,智普在二级市场搞到钱,这里面有天使,两大真神都没上市,面对 ai 这个四季风口,它就先上市了。这不叫占尽天使叫什么? 肯定还有高人指点吧。除了天时,还有地利。因为他生在中国,在国家战略上,任何我们想要的东西都必须自足可控。 很显然, cloud 和 openai 是 别人家的孩子,政审这一关他就过不了。至于人和,我作为用户第一个不敢苟同。理由很简单,因为他难堪大任。关键重要的环节,我敢打赌,你一定不敢让他上场,除非你只是想抬杠,而不是真的想得到一个好用能用的项目工具。 如果屏幕前的其他用户对我的使用体验也感同身受,那么就充分说明了这款大模型并不具备 ai coding 这个赛道的核心价值。因为用户连上场的机会都不敢给,你又何谈创造价值? 所以脱离实际价值在反观它的股价,请问那不是危险的泡沫又是什么?你可能会说,今年安斯洛佩克上市之后的市值会突破一千亿美元, 智普目前才三百亿美金不到,这才哪到哪?如果你有这个思维,那是非常危险的。得民心者得天下,真正能把大模型用于生产的用户,恰恰是可以持续付费的那个群体。 而这些人大部分没有国家战略层面所需要的安全顾虑,他们只想要 ai 能把任务快速的完成,并且高质量的交付,所以哪个模型能做到就用哪个模型,即便要支付一点成本,只要赚的比花的多就行。很显然,智普并没有这个价值。 而互联网是一个饮者通吃的生态法则,所以,即便 anselploik 将来市值一千亿美金,你认为是它的泡沫大还是质朴的泡沫大?我知道,立场不同的交流本质是在浪费彼此的时间, 有不同观点的朋友,你完全可以保留你自己的观点,但是我们可以换一种方式表态,如果明天我们都可以买卖港股,在目前的位置上,我敢做空,你敢做多吗?如果你不敢,那就是你嘴巴不同意,但是身体更诚实。

最近 openroot 上那个神秘的 pony 模型效果非常惊人,大家都在猜是谁?有人说是 cloud 的 旗舰模型,也有人说是 deepsea v 四,今天算是破案了,就是智普的 glm 五。那之所以大家会把它错认成是 cloud 模型,主要是因为在实测中,它展示的长城规划和系统工程能力确实是打破了国产开源模型的天花板。 以前我们测试模型呢,喜欢它一句话,生成网页好看但难以落地。而这次的 glm 五新模型对标的是 gbt 五点三、 codex 和 opus 四点六,主打的是解决复杂的工程难题。我呢有幸拿到了内测,并且呢使用它开源了一个前后端打通的项目。那废话不多说,带大家一块来看看它的能力。 这次测试呢,我用的是 cloud code 加 glm 五,我的需求呢,是做一个创作者全能工作台,包括登录健全、数据持久化、后端业务逻辑,以及最容易出错的财务计算。这也是在测试他的一帧 take 能力,看他能不能读懂长文档,能不能在没有人干预的情况下自主规划开发路径。 第一部分是项目骨架的搭建,他先是阅读理解了我的多篇需求文档,然后创建了一个任务列表来跟踪项目的进度。这部分开发呢,比较顺利,中间只出现了一次 prisma 版本不匹配的问题。紧接着在我测试注册功能的时候,数据库链接出了点小问题,就 注册账户时出现错误, ai 排查之后找到了错误,是数据库路径的问题,并进行了修复,最终给出了项目的骨架。那这次再尝试登录,就成功进入了后台。 骨架搭建完毕之后呢,我要求他继续进行下一步的开发,这一步呢,添加了灵感创建的功能,也就是数据库的增删改查,可以筛选规章以及由灵感转换为选择题。不过这次验收的时候呢,出现了新的问题,就是我创建完灵感之后,列表不显示,后端呢,也没有报错。 这时候 g l m 主动添加了一个中间件来打印我的错误日期,也就是通过这个日期,他才发现是分页参数的类型不对,然后进行修复,功能就立刻闭环了。 他遇到这种隐性的 bug 呢,没有瞎猜,没有胡编,而是打印了一个中间件去查真实的日历,那这个才是我们开发中需要的。 那到了下一阶段的选择题模块,得益于卡奥德库德的优秀机制和 glm 五的超长上下文,理解能力非常丝滑,状态机逻辑一次跑通,由灵感转化为选择题的状态流转呢,没有再出现任何问题。新建的选择题呢,也能正常的与后端连通。 接着是商单和财务的部分,这个其实我最担心的,因为之前一直没做,也就是因为他算不准,就是很多模型在这里会有逻辑幻觉。但 glm 五没有让我失望,这块表现的非常稳,他先是建立了客户库关联选择题,最重要的是税务计算, 因为涉及到含税金额、未税金额,税率推算逻辑极其的严密,我认为他确实理解了其中的业务逻辑,没有逻辑幻觉。 m 四阶段呢,是在我们的工作台首页添加一个仪表盘,那为了让数据格式化呢,还在后端编写了聚合的统计接口, 在前端呢展示了我们的收入统计,并且呢它还非常贴心的规划了一下设置页面,里边增加了收入配置和标签管理啊,这个是比较超出我预期的,因为它很详细,里边有返点,税前税后,非常严密。 这个时候呢,就来到了最后一步,打包交付。对于 glm 来说,最复杂的部分已经完成了,所以这部分处理起来就像喝水一样简单。他为我这个工具呢,编辑了项目介绍文档,还创建了一个一键启动脚本。那现在的状态就是所有拿到我这个项目的人 需要一行命令,前后端全自动跑起来,这个就是开源的交付标准。目前这个项目呢,已经上传到 gitup 上了,感兴趣的话可以去看看,检查一下代码质量。那最后我们来做个总结,整个项目呢,从零到一,总共耗时两个半小时,一捆十。在这期间呢,没有新开任何一个聊天窗口,全程就是在 cloud code 中 与 glm 进行一个单程长对话。这种体验带给我的冲击感呢也比较强,像是一个可以协助有逻辑的系统架构师。如果你是一个开发者,或者平时尝试过自己开发项目,应该能明白两个半小时无断点的开发含金量有多高。 但是呢,他的缺点也同样明显,就是他的思考速度实在是太慢了,也就是因为他思考时间变长了,所以导致新模型比旧模型消耗的头肯要多一倍,而且在高峰期的时候,算力好像有点紧张,期间有很多次呢,我都以为他卡住了,想要去购买他们的套餐,竟然还需要抢,难抢就不说了,他还涨价。 不过对比 cloud 来说还是性价比高,非常非常多, cloud 桌面端送的五十美金额度,半个小时就就用完了。总之这个模型呢,有优点也有缺点,各位可以权衡一下。好了,以上就是本期视频的全部内容了,如果对你有所帮助,或者觉得视频做的还不错的话,欢迎给哥哥一箭三连。最后祝各位玩的愉快,我是段峰,我们下期再见!拜拜!


最近有网友问我,世界大模型第一股智普的 glm 五发布了,说它是全球最好用的开源模型,编程能力堪比 cloud, 是 真的吗? 先说结论是真的,中国清华系智普最新的 glm 五模型已经在编程能力上比肩 cloud 了,全球开源模型中排名第一,虽然还有微小的差距,但是我们在快速的追赶中, 我是杨乐多大白话讲 ai 这款 glm 五到底强在哪?用三点跟大家说清楚。第一点,开源模型世界领先。目前这款 glm 五在全球的开源排名中,编程能力排名第一,综合能力排名第四, 也就是在全球范围内把代码公开,让大家免费使用的模型里面, g l m 的 编程能力是最强的。第二点,代码能力逼近顶尖水平,目前编程全球最强的就是 cloud 模型,而 g l m 五在编程的使用体感上 已经跟 cloud 相差无几了。第三点,他专门擅长处理复杂的任务逻辑,也就是一个不会代码的人,可以跟他进行多轮对话后生成一个复杂的产品,甚至不用写一行代码就可以实现。 我们客观的看,差距确实还存在,但是你要知道,一年前我们的 ai 代码编程能力比全球顶尖水平差了十倍不止, 而现在我们基本上跟他们近在咫尺了,并且 glm 还是一个开源的模型,开源的模型意味着全球的开发者都可以免费的使用它,并且在上面进行二次创作和修改。 而 cloud 是 闭源模型,只能通过付费调用它的 api 来进行使用,并且不能对其进行二次的修改和调整。做一个比喻啊, cloud 就 像是高墙内的武林高手,没有人知道它是怎么实现的, 他的武功不外传,你们只能看。而 glm 五呢,就像一个武林盟主把所有的武功秘籍全部都公开了,那你想想谁的影响力更大,谁会进步的更快呢? 这就是中国 ai 的 速度,中国至普系的 glm 一 年时间走完了别人三到五年要走完的路,中国在不断的这,这背后就是中国的 ai 的 硬实力,也是中国 ai 选择开元路线的再一次胜利。

几千台设备的生命周期管理,十二张数据库表的互相关联,完整的 r b a c 的 全员体系加发货单的审批流程。正常来说,这种企业系统呢,至少要三四个人搞一个多月。但是我刚看到智普刚刚发布了 g m l 五啊,说是开元界的第一个系统架构师的模型。行,那别客气了,咱就试一试。这里我用的是 c c switch 加 colossco 的 方式, 把 colossco 的 底座模型呢切换成了 g m l 五,直接把我整理好的这份 pl 文档呢丢给他,从零开始,看他到底能不能接得住。虽然是用 colossco 的 跑的跑的,但核心模块的逻辑呢,还是 g m 五输出的。 能看到,他先是把整个项目呢拆成了四个阶段,先搭什么,后搭什么,前后端怎么配合排的很清楚。这个规划质量和我之前用原生可拉的 office 做项目的体感呢是差不多的。然后呢,他就开始噼里啪啦干活了。首先是构建 spring boot 的 后端架构, 用户认证,设备档案批次管理,一个模块接一个模块往上加,后端搭完了呢,再构建 nexgs 的 前端,因为工程量确实不小啊,这一步他自己足足写了一个多小时。这个小时里呢,我没怎么管他,他自己呢,就在终端里跑, 先后端再前端,最后生成了出纸化数据库的脚本。用过 a g 的 写过代码的朋友都知道,这个节奏呢,是最考验模型脑子乱不乱的, g m 二五呢,全程逻辑在线,这一点呢,十分难得。前端写完了,最终运行的时候呢,报了个错,依赖版本冲突, 我让他看了一眼,这个报错信息呢,他改了个配置文件,重新安装了一遍就 ok 了,也就是说写了这么久,只修改了一次呢,他就能直接撞起来,想想啊,也是很厉害的。最后后端 spring boot 的 启动成功, api 返回正常数据,前端页面呢,也能正常跑起来。十二张关联表,完整的 r b a c 的 权限体系,发货单、审批状态机,这些呢,全都跑通了。 后面其实就和平时开发项目差不多了,遇到问题呢,就让他去定位修复,你会发现,这就跟一个靠谱的开发同事做极速编程啊,没什么区别。到这你可能会觉得这些不都是正常操作吗?对啊,这就是正常操作。但问题是呢,以前做到这些呢,只有可乐和 gpt 一个柜一个闭园,而且随时都有可能会被封号儿。 现在 gm 五作为一个开源的模型呢,也能做到这样的全载工程能力和这样的质量交付,实在是不容易。而且大家别忘了,从算力底座到上层架构,这可是跑在国产芯片万卡级群上的成本呢,那是绝对可控的。所以,这种能掌握在自己手里的生产力,你们不想去试试吗?

智谱正式发布并开源 g l m o c r。 这款轻量专业级 o c r 模型,以小尺寸、高精度树立文档解析新标杆。它仅零点九 b 参数,却以九十四点六分登顶 armada bench b 一 点五,在公式、表格识别等多项基础中斩获搜查性能接近 gemini 三 pro。 g l m o c r 专攻真实业务痛点,在手写字、复杂表格、代码、印章等难场景表现文件、 pdf 等,还能输出 html 表格和 g s o n 结构化数据,无缝对接各行业系统。 它推理高效,支持多平台部署,处理速度远超同类模型,成本仅为传统 ocr 方案的十分之一。同时开源完整 sdk 与工具链,一行命令即可调用,轻松接入现有业务,兼顾高精度与高实用性。

今天咱们来聊一个可能会彻底改变 ai 编码游戏规则的新模型,它就是 glm 杠五,它的开发者给他起了一个特别响亮的名号,叫系统架构师。 咱们就从开发者这句非常有力的宣言开始。你看这句话一下子把调子定下来了。 glm 五的目标根本就不是写点什么好看的前端代码,而是要具备真正的实打实的工程能力,这背后是一种理念上的巨大转变。 好,第一部分,我们就来正式认识一下这位新的挑战者。没错, glm 五五可不只是又一次小小的更新换代,他这次是作为一名重量级选手,正式走上了 ai 编码这个大擂台。 那他到底有多重量级呢?你听好这个数字,七千四百四十亿,这可是一个相当惊人的参数规模,光是看这个体量,你就能感觉到他有多猛了。 这张图就更直观了,跟上一代比,总参数链直接翻了一倍还多,达到了七千四百四十亿。但更关键的是,这个活跃参数也从三百二十亿增加到了四百亿。 这可不只是个头变大了,而是意味着它在干活的时候能调动的脑细胞也更多了,是实打实的能力升级。 好,我们来快速过一下它的几个技术要点。首先,它是个开源权重模型,这对开发者社区来说是个好消息,意味着大家可以更方便的去用它。 其次呢,它用的是现在很火的混合专家,也就是 m o e 架构,你可以把它想象成一个专家团队,接到不同任务就派出最懂行的那位专家去解决,效率特别高。所有这些设计其实都指向了一个核心目标,高性比。咱们来到第二部分, 其实啊,前面说的那些技术,都是为了实现一个更大的目标。 g r m 五的最大的进步还不是说写代码写得有多快,而是它现在具备了更高维度的思考能力,也就是规划和推理能力。 你听听早期测试者给出的这个评价,简直是高到天上去了。说他能跟行业顶尖的 cloud opus 摆手玩儿,甚至感觉像是把 codex 和 o p o s 这两大神器的优点结合在了一起。这可不是随便夸夸哦, 那种强大的规划能力到底是怎么体现的呢?你看他的工作流程就很有意思,他不是一上来就闷头写代码,第一步,先检查你现有的文件,第二步,从系统层面检查整体架构,最后才给出一个周密的执行计划。 你屏蔽这哪是普通程序员的思路,这完完全全就是一个资深架构师的思维方式。 所以说,他的核心优势就特别明显了,他非常擅长处理那些需要长时间运行的复杂任务, 而且如果你给的指令不清楚,他会主动反问你,把问题搞明白再说。他不急着交叉,甚至会自己去修复代码里的语法错误,而且对你的要求执行的非常到位。 当然了,任何模型是十全十美的,现在咱们就得聊聊他的弱点了。但有意思的是,他的这些弱点感觉更像是一种开发者刻意做出的设计和取舍。 这张对比图简直一目了然,他就像个顶级的系统工程师,你让他去搞复杂的系统架构,执行长期任务做规划,那绝对是顶呱呱,但你要是让他陪你闲聊,或者让他画个简单的网页图标,他反而会觉得有点如从下手。 那这到底是为什么呢?原因其实很简单,因为他在那些复杂的代码和系统架构上受到的训练实在是太多太深了,导致他一看到简单问题就会下意识的想太多,过度分析,结果反而表现不好了。 这恰恰就印证了他的身份定位嘛,人家是系统架构师,不是一个花里胡哨的前端工具人。 好了,理论说了这么多时候,上点真格的了,咱们进入第四部分,来看看 glm 五在真实的战场上表现到底怎么样。 咱们先来看这些标准的精准测试啊,这些任务呢,都比较偏向前端和视觉效果,结果很有意思, 你让他用代码生成一个三 d 精灵球或者解数学题,哎,满分没问题,但是一旦到了声称国际象棋棋盘画工艺平面图这种需要点设计感的任务上,分数就明显下来了。这就再次证明了,他的专长却是不在这啊。 不过啊,这些精准测试顶多算是开胃小菜,真正的大戏是所谓的智能体测试,也就是让他从零开始去开发一个完整的应用程序。 这在这个环节, glm 五简直就是火力全开,你看四十分钟,它就搭好了一个功能全起的电影追踪应用,它写的勾语言终端计算器,测评人认为比行业标杆 oppo 四点六写的还要好。 更夸张的是,这个 stack overflow 克隆项目评价是原话,真的比 oppo 四点六生成的好,这格式直接点名对比了, 不过最让我震惊的还是这个,你敢信吗?为了开发一个图像编辑器应用,测试者说他真的为此持续工作了三个小时,整整三个小时啊,这种处理超复杂,超长期项目的毅力和能力,简直是闻所未闻! 所以啊,你看这张最终的排名图就特别说明问题了,在传种的机卷测试里,他排第三算很不错了,但是在最能体现真实工程能力的智能体排行榜上,他是第一名,当之无愧的王者。 好的,咱们来到最后一部分,也是最重要的部分,分析了这么多,那么这一切对于 ai 编码的未来到底意味着什么呢? 为什么我们说 glm 五很可能是一个游戏规则的改变者?因为它有这么几个杀手锏,顶级的智能体性能。这个我们已经看到了,它是一个强大的开源替代方案,而且它的使用成本预计会比同级别的 opus 低得多, 他还不会为了省钱就偷工减料,牺牲质量,但最关键的是,他不仅仅是一个冷冰冰的工具,更像是一个你可以跟他沟通,引导他,然后一起搞出点大事的强大伙伴。 那么所有这些都把我们带回到了最开始的那个话题,也留下了一个非常值得我们所有人去思考的问题。在不远的未来,那个最顶尖的 ai 编程者,他真的还是一个埋头写代码的程序员吗? 还是说他会是一位运筹帷幄、规划大局的架构师呢?

困扰于用不了 cloud 的 中国开发者有救了!国产 glm 五强势发布,让 open cloud 在 中国真正火起来了。 大家好,我是邵辉,今天我试用了一整天,真的很振奋。 glm 五不仅能力媲美 cloud opus 四点五,而且价格亲民,无需翻墙,直接对接。 openclaw 在 中国迎来了一个非常棒的引擎。 glm 五的突破在于真正实现了商用级稳定性,二十四小时连续编码。它采用创新的稀疏注意力机制,响应速度提升百分之五十,代码通过率高达百分之九十六点二,达到国际顶尖水平。 最关键的是无缝兼容。 glm 五支持标准 openclaw 对 接非常简单。 在 cloud 对 中国风景的背景下, glm 的 出现恰逢其时,它让中国开发者可以享受 open cloud 的 高协助、高智能。我相信 open cloud 生态将借此得以加速发展。 这意味着什么?更强的能力,更低的开发成本,更快的创新速度?中国 ai 应用集群优势将得以形成。

大家好呀,昨天发了对于国内和国外预商家编程模型的对比,之后呢,后台收到有朋友来私信问我说还是不知道怎么选,那么今天呢,大明就用三选一的方式来告诉你到底该怎么搞这个东西,一种不差钱,你就想要最好的效果和最快的速度,首选方案呢,肯定是 cloud 的 模型,通过中转站去用,它 是公认的代码之王啊,逻辑非常扎实,别去官网折腾啊,因为国内现在真的非常容易封号,找个靠谱的中转站我这就不推荐了啊,因为国内现在真的非常容易封号,找个靠谱的中转站就可以了, 按量付费最省心,每个月的最大预算估计要达到五百到一千五百块人民币左右。第二种,追求极致的性价比,如果你每天打算都写代码,不想要那种今天可以用,可能明天就被封掉的焦虑感的话呢,那么没什么好说的,直接上新华智普的 g o m 五。 你现在要做的呢,就是赶紧去抢他们家的包月或者包年套餐,每天早上在官网 big model 点 cn 上面有限量发售,买他们家的 coding plan pro 每。 如果是你买它包年的话呢,一千两百五十一元包年,基本能覆盖你未来一年的大部分消耗额度,给的非常足。为接口呢,也是完全开放,你想借什么编程工具都能借,唯一的缺点呢,可能就是高峰期会有点卡。呃,官网说现在正在解决这个问题。最后一种,追求极致,白嫖的学生党, 如果你是完全的新手,只是想先跑通第一行代码学习一下,不想花钱的话呢,大名也找好了入口,国外模型直接上英伟达的官网,他们有提供免费不限额度的开源模型,包括前面说的几种都有啊,你可以直接薅老黄的羊毛,但是你必须要做好,比如说他速度非常慢的这个准备。国内模型还有一个就是鹅厂的克罗巴蒂, 我昨天看他们已经接入了 gm 五的模型,而且目前看还是敞开无限量供应的,要赶紧,所以如果以上有帮到你,记得收藏一下。

程序员集合,国产 ai 直接硬钢硅谷巨头这波真的杀疯了!谁能想到,前段时间外网爆火的神秘模型 pony alpha, 居然就是智普 g l m 五!谜底一揭晓,智普股价直接暴涨百分之三十二,全网炸翻!他凭什么这么狂? 全球开源第一,正面硬钢 cloud opus, 价格却只有七分之一!更狠的是,二十五分钟一镜到底! 不用 api, 自主拆任务、查文档修 bug, 直接搓出完整 x 平台监控系统。实测更是惊艳,扔进去改一天的史山代码。他顺手重构架构书,一句提示,初代三十五个电台的 web app, 看图就能复刻, markos app 还原度拉满, web coding 时代彻底结束。现在 ai 编程拼的是真工程能力, g l m 五跑分图榜开源第一,体验逼近克拉,还能本地部署,适配国产算力不被卡脖子。以前 ai 编程是玩具,现在 g l m 五直接当你的专属架构师,开源免费小白也能上手!国产开源终于站起来了!评论区说说你最想让他帮你搓个什么项目?

哈喽,大家好,欢迎收听我们的播客啊,今天咱们来聊一聊最近非常火的一只股票啊,海光信息,看看这只股票最近四年的时间,股价涨了超过百分之三百八十七, 到底是什么原因能够让他在二零二五年营收和净利润都实现翻倍,并且在二零二六年还能够继续保持这么高的增长呢?没错,那我们就赶紧开始今天的内容吧。咱们先第一部分先剖析一下他的增长引擎啊,就是他的增长点和他的利率率。 首先第一个问题,海光信息过去几年的利润增长背后的核心动力到底是什么?这个得从好几个层面来看啊,首先就是大环境上,国家对于半导体这个国产化的推动力度是非常大的啊,尤其在这个信创领域啊, 这个 x 八六的芯片以前基本上都是靠进口的啊,那现在呢,这个国产的渗透率在不断的提升, 然后再加上这个服务器啊, ai 这个加速芯片,这个需求都是爆发式的,听起来外部环境确实是给了很大的助力啊。对,然后公司本身也很有竞争力啊,就是它是国内少有的可以 自己研发并且量产这种高端的 x 八六芯片的啊,一个企业呢,它的这个产品呢,又从中低端不断的走向高端啊,所以它的毛利率也在不断的提升, 他的这个客户呢,也都是一些头部的企业啊,订单也很稳定,他的这个研发投入也很大啊,技术团队也很厉害,再加上这个政府的补贴,所以他的利润增长其实是有很多重保障的。你觉得未来几年这个公司的利润还会继续高速的增长吗? 我觉得是可以的,因为,呃,首先就是它这个国产替代的空间还很大啊,就现在这个 x 八六芯片的国产化率才不到十分之一啊,那未来还有很大的提升空间,而且它现在这个在手订单也非常的充足,它的这个产能扩张的也很快, 然后他的这个技术也在不断的升级啊,产品也在不断的升级,他的这个生态也在不断的完善啊,就是上下游的血统也越来越强。听起来好像增长动力还挺足的。对,不过就是,呃,竞争也在加聚嘛,就是这个芯片的价格也会波动啊,然后他的这个 高端芯片的一些关键技术还得依赖于国外啊,他的这个补贴可能也会慢慢的退潮,再加上这个行业本身也是一个受经济这个周期影响比较大的,所以他的这个利润增速可能会不像以前那么高了啊,但是 整体我觉得还是会保持一个比较快的增长。那你觉得这个公司的利率主要是受哪些因素的影响呢?嗯,我觉得最直接的就是他的这个高端芯片的占比越来越高, 那他的这个利率肯定就上去了。对,他的这个高端芯片的毛利是要比这个普通的芯片要高很多的啊,那就是说看来这个业务组合的调整确实是很关键。对,没错没错。 然后还有就是他的这个生产规模上去了之后,他的这个单位成本就下来了,他的这个研发投入也会影响他的这个利率啊,就是包括他的这个技术授权的变化呀,或者说补贴的变化呀,或者说 这个原材料的波动啊,都会对它的这个利润产生比较大的影响。然后咱们再讲第三个部分,就是市场地位啊,就是是占率和竞争力。 那这个板块我就特别想知道,就是海光信息在国内的这个算力芯片市场到底有多强?它的这个是占率啊,就是它的这个服务器的 cpu 在 二零二四年已经超过了百分之五十三 啊,预计明年它的全球的份额还会再提升。 那他在这个金融和电信这两个行业是特别特别突出的啊,他的渗透率都超过了百分之五十哦,那他在这个 ai 加速芯片这一块是不是也同样很有优势?没错没错,然后他的这个 dcu 呢, 在二零二四年的出货量的试占率是百分之十八,到了二零二五年的上半年就冲到了百分之六十一啊,就超过了华为和韩五 g, 也实现了对这个英伟达的 a 一 百的部分替代。他的这个客户呢,也都是一些头部的云厂商和这个国家级的算力中心,就很多的订单都是 直接就签到了二零二七年啊,就非常的夸张。哎,那我想海光信息到底有哪些核心的壁垒,让他在这个市场上能够这么有底气?首先就是他是国内唯一的一个获得了 amd 的 这个 x 八六的指令级的永久授权的,所以他的这个芯片呢,可以无缝的兼容 windows 和 linux 以及各种主流的应用,所以这就极大的降低了企业去做国产化替代的时候的顾虑哦,这个兼容真的太关键了。然后他们呢,不光是这样,他们还有自己的这个 自主研发的这个 c 八六的安全计算架构啊,包括他们的这个芯片已经做到了十四纳米到七纳米的量产啊,五纳米也在布局,他们也牵头成立了这个光伏组织,就是来推动这个软硬件的协调发展啊,他们也实现了从 卖芯片到提供这个易购的算力平台的这样的一个转型啊,他们也有很强的这个与中科院系的这种资源的血统啊,所以他们的供应链和他们的客户的粘性也非常的强。你觉得海光信息接下来会迎来哪些发展机会?同时又隐藏着哪些风险? 就是现在整个国家对于这个自主可控的这个推动是非常的明确的,包括三大运营商的这个服务器的集采,国产化的比例不断的提升, 然后大基金三期也重点投向了这个 ai 芯片,所以这就给海光带来了非常大的市场空间,特别是在这个高端的芯片领域,因为英伟达现在 受限于这个出口的限制,所以海光就有机会可以切入到这个市场当中,确实是政策和市场都给足了机会,但同时呢,这个行业也是一个技术和资金门槛都非常高的行业,而且竞争格局也在不断的变化, 所以海光如果想要一直保持领先的话,他必须要在技术创新上和生态建设上一直加码,不然的话就很容易被 后来者赶超。咱们来看看第三个部分啊,就是海光信息的未来预期,那机构对于海光信息的业绩到底有多乐观?就是二零二五年啊,前三季度已经实现了接近九十五亿的营收啊,然后净利润 也有差不多二十个亿啊,那全年的话,机构普遍预计是能够冲到一百三十到一百四十三亿的营收,净利润的话是在二十八到三十亿这个区间啊,同比增长都是在三成左右,非常的亮眼,看起来全年高增长已经是板上钉钉了。对,没错没错,然后更厉害的是 他的这个在手订单啊,到三季度末是有一百二十亿,合同负债有二十八亿,这就意味着他的这个未来的收入啊,其实已经基本都锁死了。他的这个产能扩张啊,也是非常的激进啊,明年是一百三十万片,后年是一百七十万片, 他的这个新项目也会带来量和价的提升啊,所以机构就预计说他到二零二七年啊,营收是可以突破两百八十亿的,净利润是可以冲到六十四亿以上的啊,就是复合增速都是在百分之二十五以上。 你怎么看着这个海光信息这两年的股价表现?包括机构给的目标价是多少?就是这一年多啊,他的这个股价的涨幅已经是超过了百分之三百八十啊,然后现在的这个动态适应率是两百五十多倍啊,总市值是已经突破了六千亿了啊, 就是他其实已经把很多利好都已经反映到这个股价里面了,确实短期波动可能会比较大。对,就是机构还是普遍都给买入嘛,然后目标价的话,高的有看到五百块的,但是他们也提醒就是说这个市场已经把这个重组啊,还有这个国产替代的这些预期都已经打得很足了。 所以就是说短线的话可能会有波动,所以你要去关注它的这个新产品的推进,以及它的这个毛利率的变化。那你觉得就是这个海光信息的这个走势会怎么去影响整个这个相关概念的股票呢?就是因为它是这个国产的高端芯片和这个 ai 算力的这个龙头嘛, 所以他的一举一动都会影响产业链上面的这些公司,比如那些做服务器的啊,做云计算的,做这个呃硬件的这些公司都会跟着他去受益,或者说去调整他们的策略,整个板块的联动性确实很强。对,就是因为这个 信创和这个 ai 基建的这个需求的爆发啊,然后加上这个国产替代的这个加速啊,所以就是说这个产业链上面的这些公司都有机会去迎来估值和业绩的双重提升啊,但是竞争格局的变化呀,还有这个技术突破呀,还有包括政策的这个调整啊,都是一些 变量,需要去紧密的跟踪。对,今天我们其实梳理下来的话,海光信息确实在国产替代和这个 ai 算力这个浪潮当中是占据了一个非常领先的声位的。然后呢它的技术也好,订单也好,包括它的这个行业地位也好,都给他的未来的发展打下了一个非常坚实的基础。 但是呢高估值和这个市场的波动也需要我们去警惕,所以大家如果想要去把握这个投资机会的话,还是要结合自己的风险承受能力去理性的决策,那就是这期节目咱们就到这里了,然后感谢大家的收听,咱们下期再见,拜拜。

中国这些 ai 厂商太坏了啊,昨天二十四小时之内啊,中国三个旗舰大模型同时炸场,这完全都不让人过年啊,去年的 deepsea 就 一家赶着春节发布,但是今年呢,全上了, 但是大家千万不要觉得这只是几个新模型的发布啊,比这几个模型更重要的是,从这几个模型的更新内容上面,我们能够看到二零二六年 ai 发展的一个重大的转型,那就是所有的厂商都在拼一个全新的能力,叫 agentic。 那 为什么是 agentic? 为什么所有的模型都在拼了命地去打造 agentic 的 能力? 原因呢?很简单,因为 agentic 才是在二零二六年真正的生产力。今天呢,我就尽量把这个问题用小白都听得懂的话跟大家详细的讲一讲,希望呢,能够对大家有所帮助。 先说一下 agentic 到底是啥啊?你现在用 ai, 你 不管用豆包,用 deepsea, 还是用拆 gpt? 其实很多时候啊,你都是这么去问的,对吧?你说句话,然后他回答你,然后你再说句话,他再回答,说白了呢,就是一个高级聊天框。但是 agentic 完全不一样, 你不用一步步的去问啊,你只要给他一个总目标,比如说你跟他说,帮我把这个软件里所有的 bug 找出来,修好,然后通过测试, 然后他就开始自己干了啊,他自己去修代码,自己定义问题,自己去修改,方案,自己去改,自己跑,测试没通过就自己调整,一直到全部搞定。而在整个过程中,你不用一步步的去提问,也完全不需要插手。 打个比方啊,传统的 ai 就是 一个前台,你问什么他就答什么,但是他不会主动帮你做任何事情。而 agentic ai 呢,他就是一个能独立干活的员工,你把任务交给他,他自己搞定,而在中间遇到的任何问题,他都会自己去解答。这就是 agentic 的 核心,他能自主完成复杂的任务。你有没有注意到一件事, g l m 五,它的口号是什么呢?是从 web coding 到 agent, 而 mini max m 二点五的口号是为真实世界的生产力而生。而 devic 虽然说没喊口号啊,但是一照的上下文,本质上就是在给 agent 铺路。 同一天,三家公司不约而同地压住同一个方向。为什么?因为 agentic 的 能力才是真正的生产力,尤其是在二零二六年。如果你想让 ai 真正成为你的数字员工,你就一定要知道什么是 agentic。 你想一想啊,一个只能聊天的 ai, 你 愿意为他付多少钱?大多数的人的回答就是,最好免费。因为事实上,现在各家的聊天机器人确实也在疯狂的打价格战,越来越便宜,甚至几乎都是免费。 但是,如果是一个能够帮你自主完成工作的 ai 呢?如果他一个小时可以呢?帮你做完一份财务报告,帮你搭一个网站,帮你处理完一整天的数据分析?那你觉得他就算不免费,你是不是也愿意去用? 企业的答案就是,愿意用,而且愿意给很多钱。这个逻辑啊,很简单,只有 agent 能力足够强,模型才能够帮用户干活,用户才愿意付费,公司呢,才能够活下去。但你可能会问啊, agent 能力到底靠啥实现呢?答案就是编程。 你看看最新这些模型的评测, s w e 奔驰考的就是真实项目里面自主修 bug, 其实就是编程 browscap, 它考的是自主操作,浏览器搜索信息,提取内容,浏览器的自动操作本质上也是编程。而工具调用考的是自主决定调用哪个接口,传什么参数,怎么处理返回结果。这还是编程?甚至啊, deepstack 把上下文啊拉到了一照最直接的术语场景啊, 也是让 agent 才能够在超大型的大码项目里面持续工作,而不至于失意。所以你有没有发现,这一天发布的所有的模型,大家在拼的其实都是编程能力,都是 agent 能力。而 agent 能力强不强,很大程度就取决于编程能力强不强,因为编程就是 agent 的 底层引擎。 而想明白这一点之后,我想再往前推一下啊,我想抛一个暴论,这个世界上的绝大部分事情,本质上都可以归结为编程。我知道,这听起来呢,非常的离谱啊,但是你跟着我的思想捋一捋, 编程的本质是什么?其实就是把一个需求通过一系列精准的步骤,然后变成一个可执行的结果。而我们现在的社会已经深度的数字化了,你每天点的外卖,刷的短视频,转的账,打的车啊,背后全是代码在驱动,你的工作,你的消费,你的社交,你的娱乐,几乎全部跑在软件系统上面。 而编辑和操作软件,它本身就是编程。所以呢,当 ai 的 编程能力足够强的时候,它能够影响的范围啊,就远远超过你的想象。我举几个例子你就明白了,比如说做 ppt, 写报告,你觉得跟编程有关系吗?其实本质啊,就是一种结构化的信息处理加格式化的输出, 你把散乱的素材整理成有逻辑的内容,再按照固定的格式排版出来,这个过程呢,跟写的数据处理程序没有区别。而且 ppt 本质上就是一个电脑的软件格式啊,所以任何一个 ai 编程的软件,它都能写 ppt, 像 glm 五啊,像 m 二点五,这一次呢,都在卷。所谓的 office 能力,就是直接生成 word 呀, pdf 啊, excel 文件,就是因为这些事情的底层驱动啊,和编程没有区别。 而财务对吧?财务的建模本质就是数据处理加工式的这个逻辑,一张 excel 表,里面几百个单元格,互相引用,层层计算,这本身其实就是一个程序在运行。 m 二点五呢,专门跟金融行业的资深专家合作去训练这个能力。再说一个你可能完全想不到的就是医生开方, 比如说你去看一个医生啊,他给你望闻问切,实际上就是在收集数据,然后根据你的症状组合,在脑子里面匹配对应的症型,然后开出方子。而这个过程呢,其实跟收集输入、匹配规则、输出结果在逻辑上完全一样。 甚至做饭啊,菜谱,其实就是一个程序,输入原料,按照步骤执行操作,控制火候和时间这些参数,输出一道菜。所以你看那些做菜比较好的那些电器啊,比如说一些好的电饭煲,它里面都会用程序这个词,就是设定程序,然后按照程序来给你煮饭, 你说大厨凭感觉,但实际上它的背后就是几千次重复执行形成的参数经验,你用这个视角来重新看世界,你就会发现,几乎所有的事情都可以拆解成输入,处理输出,而这就是编程。 所以,当 ai 的 agent 能力越来越强,尤其是编程能力越来越强的时候,它能渗透的领域是无限的,它不仅仅是帮程序员去写代码,而是帮所有的人把事情做成。这就是为什么所有的模型都在拼命地提升 agent 能力,因为这条路的尽头就是通用的生产力。 之前在视频里我也聊过 opencloud skill 系统,很多人呢,觉得 skill 很 强大,确实强大,但是 skill 再强大,它的底层驱动还是模型的 agent 能力。 你可以这么理解啊, skill 呢,是一份工作说明书,而模型的 agent 能力呢,就是执行这份说明书的人。说明书呢,写的再好,执行的人能力不强啊,那结果也不会好。所以今天这三个模型的进步,对于每一个用 ai 工具的人呢,都有直接的意义。 模型的 agent 能力多强一分,你手里的 ai 工具就能多帮你干点活,它的性价比呢,就会更高。所以二零二六年啊, ai 的 竞争完全不是比谁更能聊天。而对于我们每个普通人来讲, agent 时代它真正的意义就一句话, 不是让你去学编程,而是 ai 替你编程,直接替你把工作完成。以上来自我的 ai 成长圈的日课,已经加了成长圈的朋友可以去看一下,我是 c 哥,点赞关注,咱们下期见!

那么 glm 五我已经用了一个多星期了,这个模型确实非常厉害。先简单介绍一下这个模型,它是一个七千四百四十亿参数的混合专家模型, 实际使用时只会激活四百亿参数。作为对比,上一代的 glm 四系列总参数量约三千五百五十亿, 每次激活约三百二十亿。这个激活餐数量相对较小,目前最大的开源模型之一依然是餐数量达万亿的 kimi, 但 klm 现在也已经非常接近这个量级了,还不清楚具体的 api 定价,我录这期视频实编,但 api 价格预计会上调,毕竟它的餐数量几乎翻倍了。 不过代码生成套餐的价格应该不变,考虑到性能提升和成本相对较低,即便涨价之后性价比依然很高,它的权重也会开源。另外,它基本上就是 openroute 上的那个 pony alpha 模型, 不过这个版本会更强一些,因为这是最终发布的版本。这是推理模型,投入了大量精力,推理能力出色。当然推理令牌也可以通过 api 调用, 它的速度也相当快,不过我只是少数测试者之一,所以速度表现可能因人而异。它们的速度表现都不错。根据我之前对其他模型的观察, 现在我们再来聊聊他的具体能力。他们没能给我一份详细的说明文档, 因为他们自己也正在加紧完善。他们一定要等到最终面向用户的生产级 a p i 就 绪,才会进行计算测试, 因为他们觉得精准测试得和用户的实际体验挂钩。但他们是这么说的,到两千零二十六年,编程大语言模型正从单纯写代码像构建整个系统眼镜, 而 glm 五则是首个开源领域的系统架构师。模型定位对标 we 的 目标是让讨论焦点从前端界面好不好看转向智能体工程能力强不强。 所以在亲眼见识了它的能力后,我完全赞同这个目标,我认为它真的达到了 claud 四点五 opus 的 水准,甚至可以说是 opus 四点六的水平, 它几乎就像是 codex 和 opus 的 结合,大概就是这个意思。 dlm 四点七的一个短板就是规划能力,每当你让它做规划、调试这类任务时, 他的表现不佳,他会跳过一些步骤。他无法理解产品的整体架构,处理长城任务的能力也不足,做着做着就忘了之前的改动,更糟的时候他甚至会忘了工具。 不过考虑到模型规模变大了,现在他的规划能力不仅更强,甚至快赶上 opus 或 codex。 如果你在 opencode 或 killcode 的 setout 里开启规划模式,那它的表现确实不错啊。它会先过一遍检查文件,做系统架构检查,然后提出计划。 现在他也很会处理后续问题,他会问清楚你的具体需求,如果他没弄懂,或者是你给的指令不够清晰,而这正是之前 g l m 模型所欠缺的,他们会死守你最初给的指令,然后不问缘由地硬着头皮做下去。 而 glm 在 这方面则强得多。其次,他在处理长城任务时也更出色了。我觉得 aom 四点七在这方面也不错,但 glm 五在这方面几乎是碾压级的提升, 而我觉得新版 oppo 四点六在这方面反而退步了。 codex 倒是有所改进,在我看来,它甚至比 codex 还要出色,在处理长城任务时也比 opus 表现更佳。它做事不敢进度, 非常耐心。它会仔细检查代码,规范问题,发现问题就会立刻修正。我还发现它能准确执行指令,能精准理解用户意图, 在这些方面的表现远超以往的模型。当然,他也不是完美的, 比如他的聊天功能就不太强,我说的不是通用的智能体功能。他在 open call 这类任务上表现非常出色,各方面都很好。我指的是纯文本聊天, 但在这方面它就不太行了,它在生成 html 和 svg 方面也不太在好。说实话,现在没什么人在做这些了, 因此我完全可以接受这种权衡。实际上问题不在于它能力差,问题其实是它总想做到极致,因为它有海量代码训练过。我认为作为系统架构模型,它总爱把简单问题复杂, 这反而影响了他处理小型任务的能力,尤其是不需要调用工具或者结果不明确的任务, 他就显得力不从心。这倒也符合他们的初衷,因为他们本就想让他扮演系统架构师的角色,而非一个炫技型的前端模型。我觉得这点和 codex 很 像,因为 codex 在 处理小任务时容易出错, 出力大任务时却很出色,这很有意思。不过这个模型整体表现很均衡, 在我的测试里他排第三。他给出的方案看起来不错,该有的功能基本都有,用起来也还行。但方案的结构设计本身不太理想,缺少了一些平面图必备的东西,效果 也不算特别出色,但也还说得过去,我还是给了它十分。熊猫举着汉堡的 svg 图,同样算不上多好,但比起前几代还是强点,所以也是十分。 接着是三 j s 做的精灵球,这个效果就非常好了,你还可以点击它,它就会展开。这个功能同样出色,你还可以晃动 他。对于这个提示词,效果已经无可挑剔了,所以这项可以打二十分,总体表现不错。接下来是带自动对译功能的棋盘,自动对译的效果很好,自动对译功能不错,下棋思路很清晰,不过 他会移动棋盘窗口,当那个位置有棋子时,这个设计就不太理想了,所以这部分给十五分。我的世界游戏体验也超赞,运行非常流畅,但各处还是有一些小毛病,所以也打十五分。 然后是蝴蝶在花园里飞舞,这部分做的确实非常好,简直太棒了,环境搭建正确,各方面都到位了,总之相当不错。其他部分也还算不错,数学题也全都答对了, 所以这里也是满分,所以正如我之前说的,他排到了第三位。 接下来我们再看看它的智能体测试表现,我测试时用的是 kilo kilo i, 当时我正在测试,效果也很不错。你可以在 kilo gateway 里 找到这个模型,也可以通过 g l m 编码方案来配置。想用的话,我还请他们修复了 kilo cell app, 以更好的适配 g l m o, 所以你用它应该也会有很好的体验。好了,首先我们来看这个用 expo 开发的 movie tracker 应用,它的界面是这样的,它是我近期见过的最出色的模型之一,它的表现甚至远超 oprah。 完成这个任务它大概跑了四十分钟,它还修复了大量问题。 我注意到它不仅运行 lid 检查并修复了错误,但还用了 curl 命令 来检查前端是否有错误。这一点非常有意思,我在其他模型上确实没见过。最终的成果是这样的,功能完备,运行起来效果惊人。 而这仅仅用了一条指令,连 oppo 生成的版本都有瑕疵,但这个却设计精良,近乎完美, 所以确实非常出色。接着是这个用勾语言写的终端计算器,客观来看,它也明显优于我们上次看到的 oppo 四四点六生成的版本,同样优于 codex 生成的版本, 效果相当不错。它生成的各大的游戏也不错,现在多数模型都能做到这一点,很高兴他们现在都支持这个了。接着我让他用 swalt 创建一个带数据库的看板应用,完成的相当出色。 大家可以看看这个成果。应用效果非常好,这确实令人欣喜,连 opus 都搞不定,这个 codex 的 表现也不太好,这真是 太棒了。接下来是这个 next 应用,它应该是一个仿 stack overflow 的 网站,它运行的相当不错。它确实非常出色,你可以浏览帖子、 提问、回答等等。能看到这些功能确实挺酷的。它真的比 opus 四点六 generations 还要强,真心不错, 真的太强了。然后是 sorry 这个应用。这个测试还挺有意思的, 他持续了三个多小时,真的,我没开玩笑,他确确实实跑了三个小时。 这是个非常复杂的任务,我让他开发一个图片裁剪编辑工具,要带 ai 自动抠图功能,结果他花了这么长时间,最后算是勉强搞出来了。不过 他确实存在一些程序漏洞,这一点也需要提一下。但这个模型本身真的非常棒, 在我的智能提榜单上,他排名第一,交给他的每一项任务他都能完成,而且每一项都能成功跑通。生成的代码质量很高,并且会一直执行,直到任务完成为止。他不会为了省令牌而搞些奇怪操作,拖累整体性能。 在编辑代码,智能提示,我现在更愿意用它,而不是 oppo, 这足以说明这个模型有多强, 你也可以亲自试试,看似它比 obs 便宜的多,而且还是开源的,这点很棒。它也有些自己的小毛病,一开始你可能会觉得它好像会出错,但只要调校的好,它就非常出色了。 它很可能就是我的主力模型了,它也能和 open 框配合使用,而且它们的代码方案定价也很亲民。总之,这模型真的很酷。