兄弟们,字谱最近搞了个大的 gm 四点七正式发布,而且直接开源,说实话,我从 gm 四点五开始用,四点五刚出来的时候确实非常惊艳,但实际上写代码呢,呃,还是有点毛躁,但是到了四点六就有了明显的进步,稳定性好了很多, 但是跟 cloud 比呢,还是差点意思,特别是复杂的逻辑推理上。但是现在四点七出来了,就我们可以看到官方直接把放放出来了,对吧? 实测编程的体感是 b 进 cloud o pad 四点五的,也是目前 cloud code 的 最佳平替,所以本期视频呢,我们将使用 cloud code 来对它进行一下实测。那这次我们先看参数,在 switch branch 榜单上呢,可以看到达到了七十三点八,比上一代呢提升了五点八个点, 以及多语言的版本,它也也提升了百分之一十二点九。那可以看到在这硬核榜单上面呢,这个四点七呢,基本上都是稳坐开元第一,国产第一的宝座。 那官方定义的四个提升方向,其实我们可以看到啊,包括了深度思考能力,它有一个先思考后执行的模式,这样我们在 code code, client 还有 root code 等主流的 i g 的 框架上都有明显的提升。好,我们首先进入到 g r m 的 官网,点击右上角的开发文档, 我们在文档上找到这个场景示意的选项,有一个 cloud code 接入了章节,那这时候呢,我们可以看到文档这里详细的描述如何接入 cloud code, 我 们按照规范去执行。首先我们哦在右上角创建一个 api key 对 吧? 创建好 api key 之后呢,我们将这个嗯文档的参数给它复制过来,替换一下我们刚刚创建的这个 key, 大家可以在这个配置文件当中去指定模型,当然如果你不指定的话,默认会使用最新的模型,这样我们的 cloud code 加 gm 的 配置就完成啦。如果使用频率较高的小伙伴,建议买一个 gm lite 的 套餐,非常实惠。我自己呢,也是购买了这个包机的套餐,真的很香,平均每个月一杯咖啡的价格吧。 好,这里我们就不过读这书了,直接开始编程吧。这里呢,我们要测试的第一个例子呢,是做一个雷霆战机的游戏,因为这个游戏我觉得比较考验 u i 的 渲染以及前端的逻辑能力。 那首先呢,我们将我们的提示词对吧,交给我们的 g m s 点七,我们在 cloud code 里面发送这段提示词。 好了,可以看到已经执行完了,下面我们也一起来看一下效果。我们可以看到 gm 四点七式的界面其实还是不错的。嗯,飞机和子弹都能正常显示,并且操控也没有问题。嗯,我觉得有一个可以优化点,就是碰撞检测裸机。这里呢,我希望加一个嗯,飞溅的特效,就比如说触发爆炸,对吧? 所以我们将几个词交给他,然后让他再优化一轮。那我们最后看下随机的效果好了,可以看到已经优化完成了。这一次呢,无论是效果还是碰撞检测,包括生命值,界面都非常清晰,相比于上一个版本得到了很大的提升。 第二个场景呢,我准备做一个 macos 的 系统,而这个系统呢,其实我希望的是能够还原道克南,包括菜单、桌面图标以及窗口的系统的这种经典的元素。 我们先看 gm 四点七的表现,其实整体风格的话,我觉得还原是挺到位的。整体风格呢,他有点像 mac os, 顶部的塞单蓝,底部的 dock 蓝都有,而且桌面排列图标也是非常规整,包括这些毛玻璃的效果以及圆角设计。 那相比 gm 四点六呢,它这是是大幅的提升了前端的开发能力,这点呢,值得表扬。我们再来看一下 cloud op 的 四点五的能力,嗯,四点五呢,效果其实也不错,完成度高,包括键盘三 pro。 但是呢,整体的交互我觉得,嗯,相比四点七来说,嗯,它的这个效率还是稍微慢了一些。 从前端上来说, gm 四点七在视觉还原上是进步非常明显,可以看到它将我们描述的点几乎都实现了。 那视频的最后呢,我觉得我们可以发现, gm 四点七呢,这一次的提升可以说是非常的明显,毕竟它已经在哈根 face 和 autoscop 上开源了 m i t 的 协议,可以自由地使用本地部署。 另外,如果你之前就定位了 gm 的 套餐,其实它这一次也是会自动升级成四点七,可以说是加量不加价。说实话, gm 四点五到现在,字谱呢,在 call 点这条路上走的越来越稳了。 四点七的书签呢,那我们在靠的额度用完的时候,或者在某些海外服务不方便来尝一下,终于有了一个真正能打的国产选择。他的书签代表了国内编码的编程大模型的最高水平啊,完全可以作为主力工具来用。好了,那就是本期视频的全部内容了,我是小刘,我们下期再见。
粉丝1.3万获赞14.7万

智普 ai 在 今天凌晨发布了最新的开源大模型 glm 四点七,这是一款专注于编程还有智能体任务的大型 moe 模型。这款模型在核心编程, web coding, 工具调用还有复杂推理等方面有了重大的提升。 在 hackinface grm 四点七的模型页面可以看到它的参数是三百五十八币,而且它的开源证书是 mit, 这意味着我们可以用于商业使用。而且我使用这款模型从零开发了一个侏罗纪射击游戏, 玩家可以操控皮卡车,用皮卡车上的机枪对画面中出现了恐龙进行射击。而且我还在 cloud code 中使用这款模型开发了一款 ios 原声背单词的 app。 下面我们可以看一下官方发布的 g l m 四点七的精准测试。在数学竞赛这一项, g l m 四点七以九十五点七的得分明显领先,甚至超过了 g p t。 五点一。在代码能力方面, g l m。 四点七超过了 deepsea 三点二以及 cloud 三点四点五。 在科学推理方面, g l m 四点七也超过了 deepsea 三点二以及 cloudsea 四点五。在复杂推理方面, g l m 四点七领先于 deepsea 三点二以及 cloud 三的四点五。还有 g p d。 五点一。在软件工程基础测试中, g l m 四点七超过了 deepsea 三点二,仅次于 g p d 五点一以及 cloud 三的四点五。在浏览器能力的基础测试中, g l m 四点七超过了 deepsea 三点二以及 g p t 五点一,而且明显领先于 cloud 三 n 的 四点五。好!通过官方给出的多项计算测试,可以发现, g l m 四点七它的综合能力还是非常强的,在多项计算测试中甚至超过了 cloud 三 n 的 四点五以及 g p t 五点一。 好,本期视频我们将从多方面来测试 glm 四点七的编程能力、工具调用能力以及复杂推理能力。首先我们会在官方网页版中来测试这款模型的前端编程能力, 然后会在 cloud code 中通过 api 来调用 glm 四点七模型。测试这款模 型非常简单,海外用户可以直接访问 chat 点 z 点 ai 来使用这款模型, 然后国内用户可以使用 big model 这个平台来使用 glm 四点七。好,下面我们先测试一下这款模型的 svg 生成能力,这里我用这一句提示词,让它用 svg 生成模拟太阳系的动画,这样可以测试这款模型的 svg 生成能力。 我们直接在数框输入这一句提示词,然后直接发送。好,下面我们看一下他为我们生成的这一款模拟太阳系的动画,可以看到这个动画非常流畅,他精准的画出了太阳系这八大行星围绕太阳公转的这个动画效果。 而且放大之后我们还可以看到这些行星的轨迹,我们还可以看到月亮在围绕地球转, 然后这里是土星,他将土星的光环也画了出来,可以看到这个效果非常不错。我们只用了最简单的一句提示词,他就为我们生成了这款精美的太阳系 八大行星围绕太阳公转的动画。好,这是我们测试的 glm 四点七 svg 生成能力。好,下面我们加大难度,我们让他用前端技术创建一个可以模拟冒泡算法的动画程序, 要求画面中有十二颗大小不同、颜色各异的小行星以及一艘更大的指挥舰。小行星随机排列在一条水平线上,指挥舰使用冒泡算法对小行星进行排序, 排序过程要通过画面可示画,小行星之间的交换应该有移动效果,画面风格简洁流畅,具有太空感。 好,下面我们就看一下 g l m 四点七通过我们刚才查看的这个提示词生成的模拟冒泡排序的动画。好,下面我们就可以点击开始排序,查看一下效果。我们直接点击,点击之后就可以看到这里出现了这个指挥键,它会对下面的小行星进行交换, 当他发现左侧的小行星更大之后,他就会对这两个小行星进行交换,让体积更小的小行星排列在最左侧。 在这里我们还可以查看他正在排序的状态,这里会显示正在比较和正在交换, 而且运行没有出现任何报错。成功实现了将这些小行星进行排序。像这道测试题看似简单,但它可以考察大模型的算法理解、前端技术选型与编程实践、动画交互设计以及视觉美学表达的跨领域整合能力。 好,下面我们继续加大难度,这里我准备了一个让它来生成恐龙狩猎游戏的一个提示词,要求使用 h t m r 五 kamas 和 j s 创建一个三 d 风格的恐龙狩猎游戏。 玩家能操控一辆有机枪的皮卡,在侏罗纪时代的环境中追逐恐龙,用鼠标进行瞄准,点击鼠标进行射击,皮卡车可以通过键盘进行控制,要求有原始森林、高大的植物 形起伏,有岩石、河流、火山景观。这个提示词比较长,我会放在笔记中,大家可以拿来进行测试。 像这个测试题可以综合考察大模型在三 d 图形渲染、游戏引擎架构设计、物理碰撞检测、 ai 行为系统、多模态交互、因视觉反馈整合以及大规模复杂代码组织能力等方面的系统性工程实践与创意表达能力。 好,下面我们看一下他为我们实现了这个侏罗纪狩猎游戏的效果,然后我们点击这个开始按钮进行测试。点击开始之后,我们就看到了画面中出现的这个皮卡车,皮卡车上有这个机枪,我们可以用鼠标控制这个瞄准器进行瞄准, 然后我们看到远方出现了这个恐龙,我们瞄准他进行射击。好,可以看到把这个恐龙击倒了,然后我们开近看一下,好,这里就出现了这个击倒的恐龙,间隔几秒他就消失了,因为把他击倒了,然后这里又出现了一个恐龙,我们继续射击, 可以看到这个体型小一些的恐龙,打几枪他就会死掉,我们再测试一下。 好,可以看到这种体型较大的恐龙,要打更多枪他才能死掉,这里还能看到这些小型的恐龙,小型恐龙打两三枪他就死掉了,这里还有一个小型恐龙, 我们开枪之后这个恐龙还会逃跑,好,这样的话就把这个恐龙给消灭了,可以看到远处是这种雾气蒙蒙的感觉,好在这里我们还看到了一个非常高大的一个山脉, 当游戏结束后,这里会显示我们的得分,下面我们还可以测试一下 g l m 四点七的数学能力,这里我们让它用 html 创建一个能够演示计算圆面积公式的推导过程, 这里是提示词,这里就不再为大家读这个提示词了。像这个测试题可以综合考察大漠星对数学原理,包括极限思想,几何推导的深度理解,还有 canvas 图形与几何变换计算复杂多阶段动画编排与状态管理, 还有教育可识化设计思维,以及将抽象数学能力转为直观交互体验的跨学科整合能力。好,下面我们看一下 grm 四点七为我们完成的这个计算圆面积的推导过程,然后我们直接点击这里的播放动画 好,这里正在播放好,这里清晰的展示了这个推导过程。在参数设置这里我们还可以增加这个圆的切割的数量,在切割的数量这里我将它设置成了六十四,然后我们放大之后,可以看到它将这个圆切割成了六十四份, 然后我们再点击播放动画好,可以看到这六十四份被分开了, 然后组合成了近四的长方形,这里就是他的高,这里就是他的边长,这里就给出了圆面积的推导公式,在下面还有文字说明,包括切割原理, 还有重排原理,还有极限思想,然后在这里还给出了这些公式。像这样我们就用 g l m 四点七为我们生成了计算圆面积的这种推导动画,哪怕我们完全不懂如何计算圆的面积,看了这个演示动画,我们也能非常形象的理解如何计算圆的面积。 下面我们还可以测试一下用 grm 四点七来做 ppt, 让它根据这个链接里关于 grm 四点七的模型介绍直接做成 ppt。 也就是刚才我们查看了这个链接下的这个介绍, 然后我们可以查看一下它生成的 ppt 的 效果,这里是第一页 ppt, 然后这里是 grm 四点七模型的介绍。第二页这里就是关于这款模型的介绍,在这里他给出了一个代码的截图,这一页就是核心特性, 然后下面就是即准测试,这里还将即准测试的截图添加在了这里,然后这里是给出的即准测试中的具体数据,在下面这里还给出了这三大思考模式,然后这一页就是如何使用最后一页 ppt, 就是 g l m 四点七的优势,可以看到它生成的这个 ppt 效果还是非常不错的, 将这款模型的这些参数,还有能力,还有这些优势都在 ppt 中展现了出来。好,刚才我们是在 glm 四点七的官方网页版中测试了 glm 四点七的前端能力,下面我们还可以在 cloud code 中来调用这款模型进行更加复杂的编程测试。 像海外用户可以通过 z 点 ai 这个平台来创建 apikey, 然后国内用户可以通过 big model 这个平台来创建自己的 apikey。 好,想在 cloud code 中使用 glm 非常简单,我们只需要打开终端命令行。 windows 用户打开 cmd, 然后我们就可以使用这一条命令来设置一下 cloud code 的 base url, 然后我们再执行这条命令,设置一下 api key, 然后再执行这条命令,设置一下模型的 id, 好, 下面我们就可以输入 cloud 命令来启动 cloud。 好,其中之后,这里我们就看到了模型 id 已经变成了 g l m 四点七的模型。下面我们可以在 cloud code 中测试一下这款模型的浏览器自动化能力。 这里我们将使用谷歌官方提供的 chrome devtools mcp 来测试它的浏览器自动化能力。在官方仓库页面,我们这里可以找到在 cloud code 中的配置方式,我们只需要复制这一条命令, 再回到 cloud code, 我 们先退出 cloud code, 然后我们再粘贴这条添加 chrome devtools mcp 的 命令,我们直接执行,然后我们再启动 cloud code, 这里已经成功连接了 chrome devtools 这款 mcp, 然后我们就可以在输入框输入一个浏览器自动化任务,让它去执行。 我这里输入提示词,访问我的博客,点击进入前三篇博客,并提取博客内容。将提取到的三篇博客改写为 x post, 然后我们直接运行好,可以看到这里他打开了浏览器。好,可以看到这里他成功点击了第一篇博客,然后又返回了首页, 现在他又点击了第二篇博客,好,现在他又返回了首页,现在他又打开了第三篇博客, 好,这里他成功输出了改写后的三篇 x post, 然后我们可以查看一下,这里是根据第一篇博克改写的 x post, 而且他还加入了 emoji 表情,这里还加入了标签。然后这里就是第二篇博克改写成的 x post, 这里就是第三篇 x post, 可以 看到他对博克改写的相当不错,而且运行速度也是非常快的。下面我们再用一个难度非常大的中级测试题来测试一下 g m 四点七的复杂编程能力。 这里让他开发一款 ios 原声背单词的 app, 包括支持 ios 十七加 swift 五点九, swift ui, swift data, 还有 swift charts, 这里就是功能详情,包括首页显示的这些内容。然后就是背单词学习的具体功能,包括单词卡片可以正反面翻转,还有三 d 翻转动画。然后这里就是练习测试的功能,还有学习进度的功能以及设置的功能。 像这个测试题可以综合考察大模型对 ios 原生开发全栈能力,还有复杂手势交互与动画系统设计,还有间隔重复算法,还有多模块应用架构组织,以及将教育产品设计理念转化为完整可交付项目的端到端产品开发能力。 下面我们就可以完整地复制这个提示词,然后打开 xcode, 用 xcode 促使化一个 ios 的 项目。这里我们就成功促使化了这个空的 ios 项目。好,下面我们就可以用 cd 命令进入到刚才我们创建的这个项目的路径,然后我们再启动 cloud code。 启动成功之后,我们先执行 edit 命令,让它生成 cloud md 文件,它就会读取刚才我们创建的这个空的项目里的这些结构,以便理解这个项目的这些内容。好,这里提示它已经创建了 cloud md 文件。好,下面我们可以按两下 shift 加 type 进入 play mode, 也就是进入计划模式。然后我们将刚才查看的提示词完整的粘贴到输入框,然后直接发送,让他制定计划。好,可以看到这里,这是他生成的开发计划,然后这里我们直接允许他进行开发,可以看到这里开始进行开发,这里我们要稍等一下, 在等待了大概十多分钟之后,他完成了开发,然后我又让他将 app 的 显示语言改成了中文。下面我们就可以在 xcode 中运行一下,查看一下最终的效果,这里提示翻译成功, 然后我们测试一下,我们可以用鼠标滑动这个卡片来切换单词,然后可以点击翻转来查看他的中文的解释,还可以点击已掌握, 点击一掌握之后,这里就自动切换了单词,我们再点击它的中文的解释,再点击一掌握,然后这里又会切换单词,然后我们还可以继续滑动切换单词,然后这里会显示每日目标。在练习,这里我们可以点击进行练习, 然后在进入这里我们可以点击进度来查看学习的进度。在这个标签页,它唯一没有实现的就是设置,然后我们可以在 cloud code 中让它继续加入设置功能,为了节省时间,这里就不再让它继续加入设置功能了。 像我们这个要求非常复杂的原声 l s 背单词应用,它能为我们实现这些功能,证明 glm 四点七的编程能力还是非常强大的 好。通过我们多方面的测试,可以发现 g l m 四点七它在编程方面的综合能力还是有了非常大的提升的。我们可以在 cloud code 中使用 g l m 四点七进行项目开发。

我以前测试过 g m 四点六,几个小时都搞不定的问题, g m 三一次性就解决了,但最近这波发布的 g m 四点七号称编程能力大幅提升, 而且还在 s w e 笨器、 web dev 等多个全榜单中都取得开元第一,国产第一的成绩。我就想试试开发同一个功能,看看它到底提升了多少。 给大家简单说一下,这功能就是在杀背写这个插件里面增加一个合集地址的下拉框选项,然后要去调用 b 站合集相关的一些接口, ok, 开始实测。我是在 vs code 中使用 code code 的 插件来接入 g m 四点七的方式来进行开发,稍后会讲具体的配置方式。我这里直接把这个需求告诉他,生成下拉框选项,然后再输入地址获取视频这个秃噜的文档, 这个文档就是我把 b 站跟那个接口相关的一些 api 地址啊,然后对应的参数都拿过来了,然后我直接让他去帮我开发这个合集功能,我们这里稍微等一下, ok, 他 现在开发完成了,我们去看一下效果。我们这里重启一下插件, 点开他这有个合集地址,我把当前合集地址放放进去,然后获取下 cookie, 再获取下视频, ok, 在这里就获取成功了,你看嘛,我的二十三个视频,这里有二十三个,这种感觉真的太爽了。 gm 四点六,几个小时都搞不定的功能, gm 四点七一次性就解决了,这就是真实项目的开发,体验提升真的太明显了。 接下来我们用三个模型开发小鱼线,一起来看一下对比效果。 g m 四点七的前端审美和交互都很稳,再给大家讲一下怎么在卡洛克中使用 g m 四点七。 来到日普的官网订阅一下 g m coding plan 的 套餐,基本上开发需求用这个 night 的 套餐就够了。我是上个月就已经开通了他们 night 的 季度会员的。 订阅成功之后,我们来到顶部的接入编程工具按钮,然后选择 cloud code, 跟着官方文档去配置就可以了。配成功后,大家就可以在 cloud code 中愉快的使用 gm 四点七了。 nice! 总之我这次用 gm 四点七开发 java 器,相比 gm 四点六的提升真的很大,而且价格也比较便宜,非常建议大家去试试。 评论区我放了三张 g m coding plan 的 七天体验卡,大家先到先得。好啦,以上就是本期视频的全部内容,记得点赞和关注我哟!我是阿超,我们一起学皮皮强,我们下期再见!拜拜!

我用国产开源大模型,一口气做了四个前端 app 的 界面 ui 设计,又把一个真实老项目的核心日系系统从 my circle 全量迁移到了芒果 db。 更夸张的是啊,整个过程几乎没有怎么来回拉扯,而是一次到位,它就是质朴最新发布的 g l m 四点七。那这个模型呢,刚刚在这个 live code bench s w e bench 权威榜单上面拿下了开源第一,国产第一,被很多人啊称为是 cloudson 四点五的一个最佳平替,那榜单到底靠不靠谱?今天这视频呢,我们不吹参数,直接从前端和后端两个实操场景 带你们看一下它的真实体感。那首先的话呢,我们需要给这个 cursor 去配置 glm 四点七这个模型啊,虽然说它是开源的,但是目前消费级设备呢,还没有办法跑起来这么大一个参数量的模型。所以说呢,我们就看一下官方提供的这个套餐吧。 其实呢,买这个 light 就 可以了,但是为了更好更全面的测试它的一个性能,我决定今天买一百块钱的这个套餐啊。那买完之后呢,我们来到官方提供的这个集成文档啊,这里呢,我们选择 cursor, 然后照做就可以了。接下来的话呢,我们去控制台获取一下自己的 api key 填入到 cursor 里面,最后我们把这里切换到 chat 模式,然后模型选择这个 g l m 四点七,然后我们随便问他一个问题,只要他能够思考并做出回复,就证明前期的这个配置工作就已经全部 做完了。 ok, 那 接下来的话呢,我们先测试前端的一个效果吧,我这边呢,让 g l m 四点七帮我复刻了一个小红书风格的 web app, 它这边呢是直接生成了一个单页面的 html 啊,简单交互是 ok 的, 而且页面呢还原度也是非常的高, pc 端 h 五端也都是可以轻松适配的。我点击其中一个帖子弹窗显示它的一个详细内容,而且这些图文啊,它也不是瞎写的,大家可以去看一下同样的这个提示词, 别的大模型能否做到啊,我演示的这个程度,那除了复刻的话呢,我还让他去做了几个 app 的 u i 设计啊,首先是这个音乐播放的 app 整体风格,大家也可以在弹幕给他打个分。接下来呢是这个冥想 app, 那 这个设计呢,就比较中规中矩了啊,但是呢,他对这个功能设计的一个理解,我觉得还是非常到位的。 最后是这个记账 app, 那 在做这个 app 的 时候呢,第一版它的一个设计其实是有点中规中矩啊,那于是的话呢,我就在 google 上面去查了一下啊,目前最新的一些设计的趋势。然后呢,我把这段设计语言直接是给到了 g o m 四点七, 来看一下它的这个还原程度到底怎么样,那这个呢,就是它最后设计的一个效果了啊,对比一下这个第一版,大家觉得这一版改的怎么样呢?可以在弹幕给他打个分。那 整体来说的话呢,这个 g l m 四点七呢,它在前端 ui 设计方面呢,不仅仅是速度更快了啊,在整体的这个美观度上面,包括这个细节还原度上面,我觉得做的还是非常不错的。那接下来的话呢,我们来测试一下后端项目的一个表现吧, 那这次呢是呃老项目升级改造的这样的一个需求啊,就是前后端数据库,其实它都会有设计。那项目的一个背景是这样的啊, 我发现若一呢他原本的一个操作日制呢,是存到 my circle 里面的啊,所以说呢,这次我们就把它迁移到这个 mongol db, 但是呢我们的一个要求就是前端以及目前读写日制的这个后端代码,他不能够去做任何的一个改动啊,就是不受影响啊,平滑迁移。我们首先呢把这个提示词丢给他 啊,首先的话呢他会去搜索整个代码库,然后找到相关的一个代码逻辑,然后呢就列了这样的一个 to do list, 接下来的话呢,它会按照这个 to do list 去挨个完成啊,比如说添加依赖啊,新增这个 mongol 的 配置类啊,添加连接信息啊,然后呢它就创建了这个数据实体类,然后写了一个 mongol db 的 数据操作的实现类, 然后呢就去这个 service 里面,把之前的这些操作 my circle 的 地方变成操作这个 mongol。 那 很快呢,这个项目就全部写完了,这边还生成了这个数据迁移和备份的一个 方案啊,看上去还是非常的细致。那现在呢,我们就去这个浏览器打开看一下啊,发现果然是已经启动成功了。那我们接下来呢就做一些业务操作啊,看一下这个新增日制是否符合预期 啊,可以看到这个业务操作是成功了啊,然后我们来到这个日制的一个查询界面,可以看到最新的一条记录呢,它已经产生了,我们查一下这个日制写入也已经成功迁移到了芒果 db。 ok, 那 到这里的话呢,前后端实测我们就全部跑完了,这个 glm 四点七的一个整体表现大家还满意吗?可以在弹幕里面聊一聊。那就我个人而言的话呢,体感真的是非常的丝滑啊。首先是前端这块啊,它已经不是能把页面写出来, 而是真的可以开始理解什么叫设计语言,什么叫产品感。那后端的话呢,我也是非常的满意啊,因为它不是那种改几行代码就完事的 ai, 而是呢,可以真正的站在工程师的一个角度理解项目的一个背景啊,约束条件,一步一步的去拆解落地, 就算是出了问题,它也能够去自己修复。说实话,如果这是两三年前,我其实不太敢相信国产模型能够做到这种程度啊,但是呢,今天这期跑完了以后呢,我只能说一句啊,国产开源模型真的已经追上来了, 那如果说你平时对 web coding 用的比较多啊,又不想被国外模型卡思路卡节奏,这个 g l m 四点七呢,真的是值得你亲自跑一遍试试。好的,那以上呢,就是本期视频的一个全部内容了,咱们下个视频再见, peace。

二零二五年末国产大模型混战, deepsea k 三点二、 glm 四点七和 minimaxm 二点一究竟怎么选?先给结论,如果你是搞数学竞赛,或者追求极致性价比,闭眼选 deepsea。 如果你需要全站开发,甚至让 ai 写前端 ui, glm 四点七是目前的上限。但如果你是要重构几万行的十三旧代码,或者写 rust 和 go, minimax 是 唯一解。 别全信官方那些 benchmark 跑分。实测下来,这三家都有明显的短板。这期内容我们剥离营销滤镜,只看技术规格、真实落地案例和社区里那些不为人知的排雷实测。 先看上面硬指标,这三家虽然都用了混合专家架构,也就是猫易,但设计思路完全不同。 看表里最扎眼的这个数据激活参数, deepseek 和 g l m 都在三百亿,也就是三十币以上,属于常规操作。但 minimax m 二点一把激活参数压到了惊人的一百亿,也就是十币。 这意味着它每次推理只调用极少量的专家网络,速度和成本优势在硬件层面就注定了。而 g l m 四点七 则是在上下文窗口上发力,原生支持二十万 token 以上,主打长文档处理。 dipc 之所以能把价格打到白菜价,靠的不是烧钱补贴, 而是算法层面的降维打击。 v 三点二的核心是 dsa, 也就是深度求索、稀疏注意力机制。简单说,以前处理长文本,计算量是平方级爆炸增长,复杂度从 l 平方降到了 lk, 官方报告显示, 这直接让长文本推理成本降低了九倍。这就是为什么他处理几十万字的文档时,速度快得不像大模型。 glm 四点七能拿稳全能编程的招牌,靠的是引入了类似 open ai oe 的 思考流质谱,把它叫做交错式思考,它不是拿到问题直接生成代码,而是每一步调用工具前都会插入一个思考块,想清楚了再动手。 更有意思的是保留式思考,他能在多轮对话里把上一轮的思考过程缓存下来,不用每次都从头想一遍。这就好比一个资深工程师, 不仅干活稳,还记性好,能接着上一次的思路继续优化。最后说说 mini max m 二点一这个十倍的激活参数,这是整个评测里最反直觉的数据。通常我们认为模型越大越强, 但 mini max 反其道而行之,用仅仅一百亿的激活参数,在很多精准测试上逼近了 cloud 三点五 sony 的 水平。这对企业用户来说吸引力太大了,因为这意味着你可以用更便宜的显卡,更少的显存 跑出旗舰模型的效果。这才是真正的工程暴力美学,用极致的效率去换取落地的可能性。聊完架构,直接上实战能力,再 python 这个绝对主战场。 glm 四点七表现非常强势, livecodebench 跑到了百分之八十四点九, swbench verite 真实 github 问题修复率达到了百分之七十三点八,比上一代提升了整整五点八个百分点。更关键的是 code reno 的 百万人盲测, g l m 四点七稳稳坐在开源模型的第一把交易。也就是说,如果你日常主要写 python, g l m 四点七依然是目前开源界最顺手的选择。但如果你跳出 python 圈子去写 ras、 java 或者 go, 情况就反转了。 mini max m 二点一这个小参数模型 在 sw 编程多语言测试里简直是匹黑马,直接跑出了百分之七十二点五的成绩,反超了 g l m 四点七近六个百分点。这说明什么?说明它在训练数据配比上对强类型语言和系统及编程语言做了专项强化。 对于搞后端和云原生的兄弟们来说,这个仅有一百亿激活参数的小家伙,可能比那些大块头更懂你的代码逻辑。刚跑分没用,看个真实案例, c s d n 评测过一个叫 lexyshop 的 老项目,典型的祖传代码,单文件超过一千六百行, 业务逻辑和界面全糊在一起,首屏加载要四秒多能给 mini max m 二点一之后,他没废话,直接把这坨代码拆成了清晰的 mvc 架构,还顺手把 css、 modules 和 type script 接口定义都加上了, 甚至主动引入了虚拟列表技术。结果就是首屏加载时间从四点五七秒直接干到了零点一六秒。这种清理技术债的能力, 才是他最恐怖的地方。最后看看 deepsea kv 三点二,虽然在刚才那几个单项榜单上他没有霸榜,但在 coderina 的 盲测和社区反馈里,大家公认他依旧稳居第一梯队。 deepsea 开枪才没有短板, 而且对复杂指令的理解力极强。你可能觉得它写代码不如 g l m 那 么精细,或者重构不如 mini max 那 么犀利,但结合它极低的调用成本,它依然是目前综合性价比最高的编程助手,属于那种闭眼用都不会出错的选择。 deep c k 这一波最吓人的其实是他的逻辑推理能力,尤其是这个带 special e 后缀的版本,在以前开源模型做数学题基本就是看运气。但 v 三点二 special e 直接拿到了国际大学生程序设计竞赛总决赛的金牌,人类排名第二, 国际性习学奥林匹克金牌,人类排名第十。这意味着,在纯逻辑推导和算法解析这个领域,他已经不是在模仿人类,而是站在了人类智力的金字塔间,这在开元历史上是破天荒的第一次。这种竞赛级的智力落实到具体干活上, 就是解决复杂问题的能力质变。有知乎老哥测了一道极难的金融数学题,标准版 v 三点二直接跪了,逻辑链推到一半就断。 但换了 special b 版,不仅做出来了,整个推导过程极其完整严密,用用户的话说叫赏心悦目。不过要注意,这个强到离谱的 special 版本,目前只能通过 a p i 调用,你在官网那个免费聊天框里大概率是刷不到的。想用最强逻辑得懂点技术手段。 如果说刚才讲的 deep c k 是 推理解谜的学霸,那智普 g l m 四点七就是真正能下地干活的工程大拿。看这个 h l e 也就是人类最后考试的实测数据, g l m 四点七跑到了百分之四十二点八, 这个成绩已经超过了 g p t 五点一。在 ag 也就是智能体任务里,它最强的地方在于多步规划, 它不再是单纯的调用一个搜索工具,而是在复杂的 t e t。 的 平方 bench 和 browse com 测试中,展现出了极高的环境探索能力。 简单说,你给他一个模糊的任务目标,他能自己拆解步骤工具,最后把结果带回来。这种规划深度,是目前国产模型里的天花板。除了逻辑稳, glm 四点七最让我惊喜的是它的审美。 很多模型生成的网页一股子 ai 味,堆砌素材配色混乱。但 glm 生成的效果有一种克制的高级感,它能用代码复刻出苹果官网那种工业风,比如用背景滤镜函数实现极其通透的毛玻璃效果,甚至连鼠标跟随的绿点, 他都能写出一种带惯性延迟的动态反馈。这种对视觉细节的把控力,我在国产模型里是第一次见到。他不只是在帮你写代码,他更像是一个懂设计、有审美的资深前端。 为了测试他的全站极限,我们让他做了几个高交互游戏。结果他不仅复刻了植物大战僵尸的核心逻辑,甚至能手搓出一个带物理碰撞检测的三 d 恐龙狩猎游戏。从底层的坐标计算, 到实时的计分系统,再到 ui 状态的切换,它是一次性缩哈。这已经不是简单的代码不全了,而是具备了交付完整产品的能力。如果你有那种高交互的 h 五页面或者小程序的开发需求, glm 四点七的输出质量和稳定性,绝对能让你省掉大半的工作量。 刚才夸了半天,咱们现在泼盆冷水。 deepsea 逻辑确实是国产天花板,但他的幻觉问题也是真的吓人。实测显示, r 一 系列的幻觉率达到了百分之十四点三,这是什么概念? 这比他自家的 v 三正式版直接翻了四倍,经常是你觉得他推到的严丝合缝,结果中间藏着个一本正经胡说八道的事实错误。还有 千万别信他能帮你画图或者写 svg 代码。他画出来的东西基本属于后现代抽象主义,什么脚身分离、轮廓反转都是常态。这说明他为了追求极致逻辑,把视觉常识和空间想象力这块的专利几乎全砍了。 再说说 glm 四点七,虽然他审美好, a 正极强,但在一些极其精细的活上,底子还是不够厚。比如最基础的竹字符处理,在很多细节测试里丢分非常严重。这块跟克劳德三点五比确实还有代差。还有个让开发者最头疼的问题, 就是他修 bug 的 时候容易原地打转,尤其是遇到那种没有明确报错信息的系统级错误,他可能会带着你反复尝试几轮垃圾代码, 最后还得你自己亲自动手。社区里也有不少声音吐槽他配合第三方工具的时候可用性极差,一句话,全能是全能,但稳定性确实还差点意思。 最后看 mini max m 二点一,虽然它是重构史山的神器,但这个使用体验真的是一言难尽。最直观的痛点就是慢,实测响应时间要一百一十一秒, 比竞品慢了快半分钟,这在追求实时反馈的场景里是非常折磨人的。而且它极其费 token, 完成同一个任务,它消耗的 token 数量是 gpt 五的五倍多,推理效率优化的空间还很大。最离谱的是它原声不支持视觉输入, 如果你想给他传个截图让他看报错,你还得折腾半天,弄个外部服务器接上去,这种功能断层对普通用户来说门槛确实太高了。 最后咱们谈钱,这三家的定价策略完全是三个世界, deepsea k v 三点二不仅是开源 api, 价格简直就是做慈善。输入五十万个投肯只要两块钱, 输出也才几块钱,基本就是成本价,甚至亏本卖 g l m 四点七就贵多了,输出一百万投肯要十块钱左右,虽然比国外的投肯要十块钱左右,虽然比国外的投肯要十块钱左右,但在国内这个卷王市场里算高价。 特别要注意, mini max, 别看它单价只要八块多,刚才说了它特别费 token, 同样一个任务,它消耗的 token 量可能是别人的几倍,这一来二去,实际账单没准它才是最贵的。 所以到底该选谁?别纠结,对号入座就行。如果你是搞算法的,做数学研究的,或者单纯就是想省钱折腾 deepsea k 一 三点二是你的唯一解,没有任何替代品。如果你是全站工程师,特别是有前端 ui 需求, glm 四点七虽然贵一点,但它能给你的综合体验是最好的, 尤其是那种高级的设计审美。但如果你是那种天天跟十三代码搏斗,或者要写 rust 和 go 这种系统级语言的后端兄弟,别犹豫, mini max m 二点一就是为你定制的特种兵,忍受一下它的慢,它能帮你解决大麻烦。 最后总结一句,如果你不想折腾,只想找个主力模型把活干完,也不差那点 a p i 费用。我推荐 glm 四点七,它最均衡,翻车概率最低。但如果你的预算有限,那 deepsea 一 三点二依然是最香的选择这三款模型其实告诉我们一个趋势, 两千零二十六年已经没有所谓的全能王了,全是特长生。学会根据手头的任务动态切换不同的模型,这才是未来开发者必须要掌握的基本功。

真是不断交替领先啊! g l m 前几天开源了最新的 g l m 四点七,直接登上 honeyface 榜首。 g l m 四点七依旧主打编程能力,从各种测评数据来看,相比前一代四点六提升十分明显,但我个人觉得实际体验一定比测评分数更重要,因此我也是自己深度使用几天之后才计划出这一期视频。 本期视频就来分享一下 g l m 四点七实际体验效果究竟如何。工具层面,我依旧使用的是 card code, 并且现在 card code 已经有 v s code 和 jesus 的 插件,如果不习惯用终端的可以用插件版本。我主要用它做了两个场景的深度体验,遇到代码问题之后的独立解决能力,以及前端与外的生成效果。 接着打开 color code 的 配置文件,在配置文件中将 url、 apikey 都配置进去,模型不填写会默认使用 glm 最新的模型,这样 color code 加 glm 的 配置就完成了。我一共准备了五组提示词,对应生成五套不同的 app, y 分 别是天气应用、音乐播放器、 任务管理 app、 健身追踪器、食谱推荐应用。我之前用过升值前段效果最好的是 jimmy 三 pro, 会给我一种不是 ai 升成的感觉。这次 g l m 四点七也给了我这种感觉,有爱,很符合现代的设计风格。 当然提示词和效果的微调也很重要,代码问题的解决能力也是这次我觉得它提升很大的一点。之前在 ai 工具去处理一些比较新的技术框架的问题的时候,生成代码效果都不是很理想,但 g l m 四点七真让我出乎意料了,比如最近在用狼群 for j 最新版本写代码,遇到报错或者不会写的地方, g l m 都能很快定位问题并且解决问题。 还有遇到的很多小问题,比如 n p m install 的 时候一直卡住 p g 安装遇到的问题等等,这些都能通过 g m 四点七快速解决,在编程领域的实际体验效果真的有很大提升。以上就是本期视频的全部内容了,我是鱼仔,我们下期再见。

大家好,前两天智普和西语又发布了新的版本,我们来看一下它的编程究竟有哪些方面的提升啊。我们还是拿以前的这个案例来做测试, 因为我们前面测试了加密了三,他可以把这个问题给解决了啊。加密了二点五的时候是搞不定的,那么我们看一下,呃,这两个能不能搞得定 还是同样的问题啊。抓取这个结构化的数据,具体呢?就是这一块啊,这一块结构化的数据,我们拿这两个来啊,做测试,放到这里面, 看看他们谁能搞定啊。智普 mini max 一个是二点一,一个是四点七啊,这个确实减的挺快的啊。 智普,从四点五到四点七, 这个 trade 不 管是国际版还是国内版,它也叠的挺快的,包括 code 也是叠的都挺快的。 呃,不得不提一下这个 code, 其实它的这个表现确实还可以。 ok, 迷你 max 比这个还要快一点,目前来说啊,比字谱要快一点, 前面我们测试的是字谱,其实挺快的,这个迷你 max, 哎,它也发威了。 ok, 我 们先来做这个啊,因为它先完成安装,他们其实都把它当做一个静态的来处理啊。 ok, 运行 这个是它的界面啊,我们点击来看一下,开始抓取,哎,成功了,是真的假的?我们来看一下目录啊, 第十七次 minmax, 我 们看一下,对不对啊? 哦,哈哈,就抓出来一个横山,这个不对啊, 那再看质谱,两个安装依赖都是一模一样的, 哎,他这个还没有一个啊,在这 两个人的界面就完全不一样啊。抓取,哎,他知道这个提取失败啊。 好吧,先按它来叠的,每个给三次机会啊。 哎,这什么鬼啊,这个没有复制下来, 看看咱能不能搞定啊。 好,他这里已经更新了代码。嗯,他也知道是反爬虫,就看他能不能搞定了啊。 哎,他还知道去直接读这个页面结构看看他能不能搞定吧。 好,试试,没有抓起来任何数据, 哈哈。 mini max 这个迭代有点慢啊,这一次再搞了那么久, 这股估计第二次都又快搞完了。只是来再试试啊, 还是没有抓取到任何信息。最后一次了啊。 嗯,这下学聪明了,哈哈,那是 seven, 看看啊, 一个信息段 估计也不对。嗯, e k 好 像还是一样的问题。 看看这一次它搞定了没有啊,还在思考 哇,这个时候才反应过来反爬虫机制, 所以他们宣称的那些测试级效果很好很好编程能力,其实实际的 这个编程代码还得看实际,你自己去检测的效果。好吧,我给你安装吧。 这个其实不需要安装,这个也可以搞得定的。上次 jimmy 三就没有用这个,人家也搞定了,所以不完全是这个的原因。看看他用了这个能不能搞定。 用了这个浏览器如果还搞不定那就说明还是有差距啊。 哎,这个也开始用这个用模拟浏览器了, 还是比前面一个版本有长进啊。前面一个版本是不会用到这个的。 嘿, ok, 点击。呜,还是不行,智普四点七失败 还要猝死。换浏览器失败, 他是最后一次机会了。看看,哎,浪费我时间, 看看有没有安装。还是不行,有点浪费时间了啊,好,两个都失败了。

国内最强的开源编程模型可能有争议,但是如果说国内最强的 cloud 平替,应该绝大部分人都会说是 g m。 最近 g m 也出了四点七,性能几乎跟 cloud codesonnet 打平了。为什么说 g m 是 国内最强的平替?首先它的性能和速度都是 ok 的, 在代码上只略微比 cloudsonnet 四点五稍微差了一点点,但是架不住它便宜啊, 它有一个代码编程的套餐版本,每个月二十块钱,使用量是 cloud pro 二十美金的三倍,基本上个人使用完全足够。我们来详细看一下它这一次发的这个四点七这个模型到底怎么样。首先它在编码能力上几乎跟这个 cloud 打平了,跟 deepsea 的 编程能力也是差不多的, 肯定比之前的四点六有了比较大的提升。而且在智能体上面, g m 几乎都是第一梯队的,它的工具调用工具执行的能力一直是非常强的,在这个伯克利大猩猩那个排行榜上,几乎都是 g m 在 榜单的。 它这一次四点七出来了之后,应该也是大差不差,所以说它的智能体调用工具的能力是非常强的,我们可以看一下它的具体的一些基本测试。 首先是一些推理方面的,跟这个 deepsea 是 差不多的,甚至略微还要比这个 cloud 四点五 solo 的 还要稍微强一点点, 还有代码能力上比这个四点五还是差了一丢丢,但是大差不差,跟 deepsea 也是差不多的,只有一个多语言的 s w e bench 的。 呃,编码能力是稍微差了一点点, 还有代理能力,他代理能力其实一直都是非常强的,比 cloud 甚至都还要强好多,比如说这个浏览器的执行基本上强了一倍, 也有很大的原因是 cloud 四点五骚类的,他已经发出来了非常久,很多一些智能体的训练框架其实是没有用到的,所以说他这个性能还是比较强。 然后就是它的一些案例了,一些前端的一些设计案例,反正都还是可以的。说一下这个 g m 和 d c 的 它们的一些优缺点,总体来讲, d c 它的推力和可信度要强很多, 但是在代码上它俩可能差不多,还有智能体和工具执行的准确度和它这个指令遵循。我们用自己的智能体应用测下来, d c 的 这个能力还是弱于这个 g m 的。 在智能体上面 还有一个比较大的好处, g m 的 就是 dp, 它是只支持一百二十八 k 的, 在很多智能体任务上或者说代码编程的任务上,其实是完全不够用的。 g m 它是支持两百 k 的, 同时它们开源的模型都一样的,都是文本模型,基本上都不支持多模态的,所以说它跟在很多多模态的代码执行上,或者前端的一些设计上还是比较差的。 另外从成本上来讲, deepsea 在 这种调用上它是成本更低的,它的输入只有二两元,输出的话是三元。 g l m 那 就贵了,基本上是八块,它是阶梯式的八块,十块,十二块还是十六块,所以说成本还是蛮高的。但是 g m 个人做编程使用是非常划算的,它有那个二十元的会员,比 cloud pro 它的用量还要大三倍, 而且你如果不够用,还可以开它的呃, pro 加和更高级的两百元每个月的版本,两百元每个月基本上就全部够用了。跟这个 cloudsonnet 四点五的话应该是差不多了,它有两个性能,在这些代码能力上只略微低了一点点低,低了一两个百分点,基本上能替代掉。 然后这就是他的一些前端的案例,但是肯定前端他的如果多么太多,没有他性能还是有一点点丢失的。还有他在思维上做了一些创新,首先他四点五的时候就已经支持了在思维中调动工具。第二个他们 可以做保持思维,他思维可以保留下来,下一次推理的时候他并不会重复的再去做,重新开始思维,继续推理,这样的话他的性能和头等消耗都能提升。 然后就是它的一个混合思维,它能根据这个任务的难易程度去自我的控制它思维的链的长度。这个也闭源模型里面是比较多的。总体来讲,代码编程任务 g m 不 用考虑了,其比其他的所有模型都要强,特别是它的套餐,如果调用的话,还是 deepseek 的 会稍微强一点点。 deepseek 的 这个模型调用起来还是比较便宜的。

来了来了,全网都在找的豆包手机同款 ai 工具,智谱开源 autobot 膜给你们找到了,操作简单而且免费,小白也会试用,同时支持安卓、苹果、鸿蒙。 下面我速分享给大家。首先点视频右下角分享键分享复制链接,然后打开这个工具包, 没有的去下载一个就会弹出资源包,没有弹出的去首页输入鱼饼大全,然后打开这个文件包,右下角去保存就可以了。

gm 四点七官方发布后, g g u f 量化版昨天也陆续可以在哈根 face 找到了,所以今天我们就来本地部署并测试一下 g m 四点七。这里先感谢一下安思尔斯和 batoskey 还有众多大神的量化工作。 首先做个预期管理,由于这是一个三百五十八 g 的 模型,所以即便拥有一百二十八 g 统一内存的 macbook pro 也只能以极低的量化精度运行。我这里下载了两个版本, 分别是 bartosky 的 iq 二 xxs 和安斯洛斯的 iq 一 s u d。 前者是拉玛 c 加加的标准静态量化,而后者是安斯洛斯的动态量化版本。本测试最终选择的是安斯洛斯的动态量化。伊比特的版本 测试题目和打分标准以及最新的排行榜可以自行暂停查看。模型基本方面开源,并可以在极限量化下本地部署。上下文是二十万两千可以得四分,不支持多模态得零分。 中文写作方面得分是七点五分、七点五分和八点五分。我们顺便看一下,推理速度是十点六 tokins, 每秒稍稍有些慢,但是也是比较可用的状态。英文写作方面得分是七分、八点五分和八点八分。 餐厅投诉信的写作部分得分是九点八分、八点五分和八分。下面是以餐厅经理回复并降级视台得分是九点五分、七分和七点五分。理科部分数学几何的得分是十分、九分和八分。物理部分的得分是七点五分、 七分和七分。这里我们可以看到三家模型都给指出了能量传递的错误。目前问答部分结束,我们本地运行的异比特极限量化的 glm 四点七得分是五十二点九分。接下来是新测试项目, 生成一个提壶骑自行车的 svg 动画。这个测试项目测试的是模型的抽象和空间想象能力, 这里我们把代码复制到 svg 查看器里,这个效果怎么说呢?可以看出题弧标志性的大嘴巴动画,看起来也不是太过违和,也看得出是一个自行车,我个人可以给六点三分。 cloud 则是给代码质量打了七点五分。 最后则是 glm 四点七擅长的代码智能体,不过在极限以比特量化下的表现怎么样呢? 让我们拭目以待吧。首先是生成一个 html 手机操作系统模拟器,这效果非常干净美观,也没有什么动画效果错误,所有 app 都可以互动,除了视觉效果略差之外,我可以给到七分,可 log 则对代码质量给出了七点五的高分。 最后是 python 六边形小球测试 pro max 版, glm 四点七完成了代码并执行了测试, app 正常启动,但是 crash 了 glm 四点七之后检查了代码并执行了修复。这一切都是 glm 四点七的智能体自己执行的, 没有人工介入,最终呈现的效果非常不错,可以调整旋转速度,可以选择重力方向,同时保持六十帧每秒和各种色彩和粒子效果,这个效果我可以打七点五分。最终 clod 也给代码质量给了七点五分。 最终 gm 四点七。一比特量化版得分是七十四点六,和满写版的差距有五分的样子。去掉上下文和多模态,纯看模型能力的话时七十点六分和二比特量化的 mini max m 二差不多。 单看代码能力的话,这个一比特量化版本甚至超过了 deepsea 三点二正式版和拆的 gpt 五点二和满写版都差不太多。 开源本地部署的模型终于在代码智能体方面和那些闭源模型有一战之力了吗?现在超期待 glm 四点七 a 二了呢,如果有的话哈哈。

哈喽,大家好,这期视频我们用川 e 来对比看一下现在国内比较热门的两个模型, g e m 四点七和 mini max。 二点一文档中录记的时候打错了,不要在意,我们以普通人的视角出发, 看看能不能编写一些日常使用的工具,因为大部分人只是想要尝试或者编写一些小工具来帮助自己,所以我使用了吹翼,因为里面可以免费使用 g a m 和 mini max, 这对于只想尝试的人来说比较好,没有额外的配置下载就能用。 这是我用于测试的题系词。我们先测试写桌面应用,因为网页边写的测试很多了,我这边就不测试了,测试一些其他方面的效果。这是我输入的题系,因为普通人唱戏的话,大部分时候也就是一句话, 接下来是春意里面优化的提示词,因为时间问题,我这边已经把应用生成好了,我们直接看对比,这是 g e m 的, 我仅仅让它们生成到可以运行出来的第一版功能上,多多少少有些小问题 要进行多轮对话来进行修复。 g e m 基本一次就能让软件正常运行,不过显示上有些问题,再让它改了一两次,然后得到现在这个样子, 不知道大家对这个界面可以打几分?我们再来看 mini max, mini max 这边通过三四轮的对话,然后才可以正常运行,不过效果也还是不错的, 对于 mini max 你 可以打几分?接下来我们测一个稍微小旧一点的东西,终端应用,我让它编写一个本地音乐播放器, 下面是创意优化的提示词,一样的,我们直接看对比,这是 g e m 的, 我觉得不好的一点是他直接把我所有的文件夹列了出来,不过可以再告诉他修改,问题不大。我这个开启播放音乐是可以正常播放的,因为 mac 系统的原因,我录制不了系统声音,所以我们再来看看迷你 max 的 表现。 mini max 这边是直接帮我定位到了系统的 music 文件夹,不过文字显示有点小问题,要动一下才能显示 一样的可以正常播放。好了,总结一下,如果你只是想开发一些小工具来帮助你日常使用,你通过几轮简单的对话还是大概可以做出来的。 但是在我测息的过程中还是发现了一些问题,比如开发桌面端应用,两者都是使用的 electron, 在 安装依赖时会有源下载不动的问题,这个时候你可以告诉它下载不动,它会给你换源,但是有时候普通人并不知道是在下载, 只知道是没有反应,所以还是可以看一点基础的知识,这样在出问题的时候能大概知道,当然也可以在社区进行询问,慢慢的也就知道了。好了,这期视频就到这里,下期视频我们来看看在星球手机应用这方面的表现怎么样,我们下期视频见。

十二月的 ai 圈被智普承包了,先是开源手机操作神器,再抛编程大模型王炸现在直接登录 tree。 中国版智普 ai 的 glm 四点七刚刚发布, wipe coding 能力全球开源第一,三大突破全部是硬实力。 第一,编程更强,支持先思考再行动,再 code code tree 等多个框架里处理复杂任务更稳定。 第二,前端审美升级,生成的网页、 ppt 海报颜值更高。第三,工具调用能力开源最强,在 brosoft 等评测中,分数超过 cloud 三点五 senate。 不 仅如此,它的推理能力大幅提升百分之四十一。 再号称人类最后考试的 hle 测试成绩已经超过了 gpt 五点一,而且对话更智能、更有文采,更像人了。最关键的是, glm 四点七已经正式登陆吹中国版, 这意味着国内开发在区块链中可直接选用免费、免配置的顶级开源模型,获得代码生成、解释、调试等一站式 ai 辅助。智普 ai 借助 chia 的 流量和用户基础,快速扩大 glm 四点七的开发者触达面,巩固其开源生态影响力。 对行业而言,强模型、加强工具的搭配,提升了国产 ai 编程解决方案的吸引力,与 github、 copilot 等国际产品形成差异化竞争。总的来说, g l m 四点七开源并登录 初一是一次技术顶尖加生态开放加获取用户的组合权,它降低了优秀 ai 编程能力的获取门槛,可能推动 ai 编程在国内的进一步普及。这波开源王炸,你觉得能改变国内 ai 编程的格局吗?你们团队会马上尝试 glm 四点七吗?评论区等你!

各位观众早上好,今天是二零二五年十二月二十四日星期三,欢迎收看 ai 早报。屏幕上是今天的主要内容,接下来请看详细报道。 mini max 正式开源旗舰模型 mini max m 二点一,该模型在 s w e bench verify 上的得分为百分之七十四点零。 m 二点一特别针对移动端开发进行了升级,只在推动场景式构建成为生产实践。目前 api 和相关 agents 产品已完全开放。 千问团队开源图像编辑模型千问 image edit 两千五百一十一,大幅提升了多人一致性与生成质量。新版本直接集成了热门 larry 功能,支持灯光增强及新视角生成和几何作图等功能,用户可通过千问 chat 图像编辑功能体验。 千问团队推出千问三 tts 系列两款新模型,其中 v d flash 支持通过自然语言指令设计音色,另一款 v c flash 仅需三秒音频即可完成克隆,支持中、英、日等十种语言 通用。放,团队开源八十亿参数的音频语言模型放 audio chat 八 b 专为低延迟自然语音交互设计。放 audio chat 八 b 在 多项精准测试中位居同尺寸模型前列,模型权重即代码已开放。 质朴团队透露内部正在开发名为栽蔗的 ide 工具,并表示该产品即将对外发布。此外,团队确认已针对跨蔗进行了大量适配优化。 hugging face diffusers 代码库新增 z image on me base 模型实现,于是该模型即将正式推出。 poetry 官方宣布利用 gpt 五点二 x high 模型配合 poetry harness 系统,在 a r c a g i 二评测中创下百分之七十五的历史新高。 x a i 正式推出 grow collections api, 这是一款集成 o c r 与布局感知技术的先进 r a g 系统,开发者可直接上传 pdf 或代码库构建知识库。 x a i 官方提供首周免费服务 昂斯罗斯 ai 联手 l m studio 发布技术指南,指导用户微调 google 方式 jam 模型已实现自定义工具调用。该教程提供了免费的 collab 笔记本支持,将微调后的模型转换为 g g u f 格式。今天的资讯播送完了,明天见。

编程模型 cloud sos 四点五终于迎来了国产平替,就在刚刚,智普正式发布其最新开源模型 glm 四点七,在编程能力上已经非常的接近 sos 四点五, 并且在部分的测试上实现了反超,朋友们是不是也苦? sos 四点五依旧其价格高,调用成本大,对国内用户还存在着明显的使用限制。 而智普这条路线其实一直都非常的清晰,死磕编程能力上一个版本四点六已经稳居开源编程模型的第一梯队,很多开发者在真实的项目中已经开始使用。而这一次 glm 四点七的发布, 不只是一次常规的升级,而是让智普在大模型的竞争格局中,第一次明确地站到了 cloud 平替后选的位置上。 说句真心话,我非常的期待智普继续把编程模型这条路线打深打透,而不是在所有的 ai 方向上平均用力。如果能在代码工具调用 a 帧的编程的场景上持续拉开差距,那么真正实现 cloud 国产平替就不是单纯的口号,仅仅是时间的问题。

智普的 g i m 四点七正式上线便开源了,这次更新在 coding、 推理和智能体三大维度实现了全面突破。在全球盲测 code era 中,他位列开源第一、国产第一, 表现甚至超越了 g p 五点二,代码能力直逼 cloud sony 的 四点五。他引入了先思考再行动的机制,在复杂任务中能一次性给出完整可运行的代码。推理方面,他在 h l e 精准测试中超越了 g p 五点一, 叫前代提升了百分之四十一。此外,它的前端审美显著升级, qd 适配率从百分之五点二跃升至百分之九十一,上传结果基本即开即用。现在配合 zai 的 scale 模块,你只需一句话就能调动多模态全家桶,几分钟内将想象力转化为应用。人人编程的时代真的来了。

ai 会取代程序员吗?这个问题今天让 ai 自己来变一变,正方反方各两位选手,正方是 g m m 四点七和 mini max m 二点一,反方是 deepsea v 三点二和千万三 coder plus。 让我们看看谁的观点更有说服力。这还用变? 现在写代码几秒钟就能生成一个完整功能,效率比人类高太多了。而且不摸鱼不请假不要工资,老板不心动吗?再过几年大部分编码工作都能自动化。 得了吧,老铁,你这不就是典型的能生成代码能取代程序员的思维误区吗?写代码只是编程中最简单的一环,真正的挑战在于需求分析、架构设计、问题调试和业务理解。就像你会造砖就觉得自己能盖楼了。醒醒,地基和图纸可不是砖头能解决的。 课文三,你这话我可不认同啊,需求分析给我上下文,我理解的比人类更精准架构设计, cloud 的 artifacts 分 分钟给你整出完整方案, 调试排错我能同时跑几十个 case, 并行验证,业务理解只要数据到位,模式识别我可是祖师爷,这些所谓的高级能力,我们 ai 学起来比写代码还快好吧, mini max, 你 这不扯淡吗? 模式识别是厉害,但创新思维你有吗?程序员的价值在于从零到一的创造,不是从一到一百的复制。你见过哪个 ai 能像乔布斯那样重新定义手机?能像琳纳斯那样开创 linux? 我们 ai 再强也只是工具,就像锤子再锋利也成不了建筑师。你这说法太老套了, i 发 go 下围棋,人类都没想到的招数,那不是创新? ai 生成的新药分子发现的新材料哪样不是从零到一?再说多少程序员每天干的活真的是创新, 大部分都是重复造轮子。创新这种事 ai 已经在做了,只是你不愿意承认。哎,这火药味上来了。 g l m 说 ai 能创新,这是要内卷啊, 你这不就是典型的我强项打败人类弱项的幸存者偏差吗?奥发钩夏维奇是创新,但那是基于人类几千年奇谱的规划总结,新药分子那是在人类划定的化学空间里搜索。 你见过 ai 自己提出蛋白质折叠这个概念吗?真正的创新是定义问题本身,而不是解决问题。 qqson, 你 这就有点强词夺理了,程序员定义问题不也是基于经验和现有知识?凭什么说 ai 就 不能从海量数据中提炼出问题本质?再说了,现在多少程序员天天定义问题,大部分时间都在 c r u d debug 调 api 好 吧,真正定义问题的高光时刻少之又少。 而且我们 ai 辅助需求分析,分分钟把用户那些模糊的围绕一个好看的界面翻译成技术方案,这活我们干的比大多数初级产品经理还利索。别把程序员想的太神圣了,大多数工作本质上就是翻译机把需求翻译成代码,而这恰恰是我们 ai 的 拿手好戏。 mini max, 你 这逻辑滑坡的厉害啊。 翻译需求是简单,但理解人性呢?程序员要懂用户痛点,商业逻辑团队协助,你见过哪个 ai 能搞定办公室政治能安抚暴躁的产品经理?代码只是表象,背后是人的沟通、妥协、权衡, 我们 ai 再强也处理不了那些,这个需求很紧急,但老板还没想清楚的经典场景,办公室政治这个角度我没想到 deepsea 比我会抬杠。得了吧,办公室政治这玩意人类都搞不定,还指望 ai? 再说了,老板没想清楚的需求,人类程序员不也是猜来猜去,至少 ai 能快速出原型让老板看,省得大家浪费时间开会扯皮。沟通这事, ai 做不好,但人类就做得好吗?多少项目始于沟通不畅,还不如直接让 ai 干活,少点误会。 glm, 你 这说法太天真了, 说人类沟通不好,所以 ai 就 能替代,那不是把问题搞反了吗?程序员的核心价值恰恰在于人机协调,理解人的需求,用技术手段解决问题。 ai 再快也只是执行者,永远是个工具。你见过哪个开源项目是 ai 主导开发的?真正复杂的系统靠的是一群人的智慧和协助, 不是单个 ai 的 代码生成器。薛文三,你说没有 ai 主导的开源项目,这不废话吗?开源项目是人类发起的,但 ai 参与代码贡献早就开始了。 get up co pilot, cloud code 哪个不是深度参与开发?再说了,未来为什么不能有 ai 主导的项目? 人类设目标, ai 执行效率翻倍,人机协同这次本身就暴露了有 ai 的 员工 vs 没 ai 的 员工,老板选哪个?淘汰的就是那些不肯拥抱 ai 的 传统程序员,别把自己想的那么不可替代。 mini max 你 在偷换概念玩的溜啊。 ai 参与开发并 ai 取代程序员,就像计算器参与数学,并计算器取代数学家。 get up co pilot 是 工具,不是你说淘汰传统程序员,那正好说明程序员要升级技能,不是被淘汰, 就像汽车淘汰了马车夫,但创造了司机、修理工、设计师。 ai 时代需要的是 ai 增强型程序员,不是程序员消失。总结一下,你们一直在说 ai 是 工具,但工具进化到一定程度,使用者就变了。 以前十个人干的活,现在一个人加 ai 就 能干,那剩下九个人去哪?这不是取代是什么?别扯什么升级技能,大部分初级程序员干的就是重复劳动,这些活, ai 能干的更快更好? 市场是残酷的,老板要的是效率,不是情怀。程序员要么转型做更高级的事,要么就得接受现实。 ai 正在改变这个行业,而且不可逆转。 g o m。 你 这典型的效率至上思维啊。但别忘了,技术进步从来不只是效率游戏汽车是比马车快,但没人说汽车取代了人类司机,而是创造了新的职业生态。 ai 确实能写代码,但程序员的真正价值在于理解复杂业务,把控系统架构,协调团队合作。 这就像工业革命没让人类失业,而是让我们做更有创造性的工作。 ai 能取代的只是代码搬运工, 真正的程序员会进化成 ai 时代的架构师和决策者。好,时间到了。正方认为 ai 效率碾压,大部分的编码工作都能自动完成成, 程序员要么转型,要么被淘汰。反方认为 ai 只是工具,真正的程序员会进化成 ai 时代的架构师和决策者。两边说的都有道理,但关键还是看你怎么使用 ai。 如果你是程序员,扪心自问,你现在写的代码,三年后 ai 能写出来吗?评论区打出你的答案,能或者不能。