如果你是科技股投资者,或者哪怕只是对 ai 圈有点好奇,今天你的朋友圈肯定被一条消息刷屏了。质朴的股价今天单日狂飙了超过百分之三十六,直接创下了上市以来的新高,这涨幅简直让人惊掉下巴。这可不是普通的上涨, 背后藏着一场正在全球科技圈疯狂发酵的神秘事件。事件的核心是一个代号叫 pony alpha 的 模型, 他就像 ai 界突然冒出的无名侠,没有开一场发布会,没有发一篇技术论文,甚至没人知道他是谁家的孩子,就这么悄无声息地在二月六日登上了全球模型平台 open router。 但接下来发生的事,让所有资深开发者都坐不住了。 有开发者扔给他一个四千七百行代码的网页游戏模拟器,让他重构成 ios 原声应用,你猜怎么着? 这个模型自己规划步骤,自己写代码,花了两个小时,全程只需要开发者偶尔点下头确认,居然就基本搞定了,输出质量被开发者直呼超预期。还有人用它生成了功能完整的网站,甚至做出了能直接玩的宝可梦复刻版游戏。它的核心能力特别明确, 编程逻辑推理,尤其是针对智能体工作流做了深度优化,工具调用,准确率高得惊人。 说白了,他不是来跟你闲聊的,是真真正正来干活的硬核选手。这一下,全球科技社区彻底炸锅了,大家瞬间开启了全民侦探模式,这匹厉害的小马到底是谁家的?有人猜是 deepsea 的 新版本,也有人说可能是国际大厂的隐藏马甲, 但为什么到最后,所有人的目光都齐刷刷聚焦到了今天股价暴涨的质朴身上呢?这里面的线索简直比科技侦探片还精彩。 第一,技术路线严丝合缝, pony alpha 最擅长的智能体能力和代码生成,恰恰是智普这几年砸重金猛攻的方向,战略布局完全对得上。 第二,藏着个有趣的隐喻,今年是农历马年, pony 不 就是小马吗?这很难不让人联想到,是不是中国企业在玩一个浪漫又霸气的谐音梗。 第三,也是最关键的实锤线索,智普自己早就释放了信号。不久前,智普的首席科学家唐杰教授在社交平台上一句 glm 快 了,被市场直接解读成新模型发布前的预告。 而 oppo rover 的 合作方 kilo code 在 薄壳里还留了个隐晦线索,说 pony alpha 是 某个全球实验室最受欢迎的开源模型的专项进化版。在全球顶级开源模型阵营里,智普的 glm 系列可是公认的佼佼者。 更有消息说, glm 五已经定档近期发布,现在的 pony alpha 就是 它的匿名预览版,是智普特意搞的盲测,就想纯靠实力说话。 所以市场的逻辑一下子就通了。如果 pony alpha 真的 是智普即将发布的 g l m 五的预演,那意味着智普不仅突破了技术瓶颈,更在下一代 ai 竞争的核心战场,能让 ai 自主完成复杂任务的智能体领域拿到了先发优势。 要知道, g l m 五可是智普上市后憋了一整年的硬核旗舰,目标就是对标国际最顶流的模型。 从目前泄露的信息来看,它在深度推理、智能体协助上都有质的飞跃,幻觉少了,输出更可靠,完全是为真实工作场景打造的。今天资本市场的这波暴涨,本质上就是一场用真金白银进行的投票,大家赌的就是这匹神秘小马背后站着的是中国的质朴。 当然了,如果我们把眼光从这批小马身上挪开,会发现今天整个 ai 板块都在躁动,恒生科技指数涨了百分之一点三四,像 mini max 这样的同行也涨了百分之十一点七,这背后有更恒大的趋势在支撑。 亚马逊、谷歌、微软、 mate 这些全球科技巨头二零二六年公布的资本开支计划,合计居然超过了七千五百亿美元,同比增幅将近一倍。 其中谷歌计划花一千七百五十亿到一千八百五十亿美元,亚马逊更是豪掷两千亿美元,这些钱大部分都要砸向 ai 算力基础设施。英伟达的老黄也站出来说,这股 ai 基建热潮是合理且可持续的。 可以说,全球都在为 ai 的 明天疯狂铺设铁轨,一场前所未有的技术革命已经在路上了。 那么,对我们普通投资者和普通人来说,这一切到底意味着什么呢?第一,从投资角度看,这标志着 ai 投资进入了新阶段, 以前市场还会为参数多少亿这种技术故事买单。现在大家越来越务实,只看模型能不能真正干活,能不能带来实实在在的商业价值。智浦之所以被追捧,一个重要原因就是它专注于给企业提供解决方案,已经服务了超过一万两千家企业客户。这种商业模式离钱更近, 但高收益必然伴随着高风险,大模型公司普遍还处在烧钱研发的阶段,智普目前也还处于亏损状态, 高昂的算力成本是巨大的压力,而且竞争简直白热化。前面有 antropica、 openai 这样的国际巨头,身边有 mini max 这样的创业公司追赶,后面还有百度、阿里、腾讯等互联网大厂虎视眈眈。 所以投资这类公司真的需要你有很强的风险承受能力,并且做好长期陪伴的准备。 第二,对普通人来说, ai 正在从玩具彻底变成工具。 pony alpha 展现出的能力已经说明, ai 很 快就能帮我们处理更复杂的工作。比如未来你想做个个人网站,不用学编程,只要跟 ai 描述清楚需求,它就能帮你搞定。 想处理复杂的工作项目,它也能帮你规划流程,跟进进度。这肯定会改变很多职业的工作方式,一些重复性的岗位可能会被淘汰,但同时也一定会创造出像 ai 应用开发提示词工程师这样的新机会。 我们每个人都得保持学习的心态,主动去了解和使用 ai 工具,让它成为我们工作和生活的好助手,而不是被技术浪潮甩在后面。最后留给大家一点悬念和思考,这款神秘的小马模型到底是不是 glm 五? glm 五正式发布后会不会带来更多惊喜?这场由小马引发的风暴,最终会将中国 ai 产业带向何方? 答案或许就在不久的将来,随着 glm 五的正式亮相而揭晓。但可以肯定的是, ai 的 发展速度已经远超我们的想象, 它不再只是实验室里的炫技,不再只是资本炒作的概念,而是已经站在了规模化商业应用的门口,准备真正的改变世界,也改变我们每一个人的生活。
粉丝18.5万获赞78.2万

近期好多同学问主播,面对众多国产大模型,我该如何抉择呢?近期新推出的 glm 五迷你 max m 二点五、 kimi k 二点五和困三点五这四大模型各有特色,接下来我会挨个为你详细讲解。 glm 五是智普最新的旗舰大模型,总参数达到七千四百四十亿,激活参数约四百亿。它采用独家的 dsa 吸收注意力机制,专注提升长文本逻辑推理能力。 在各种评测中, glm 五的编程与数学推理表现被认为是当前国产模型中最强的一档。一句话总结,这是一款又快又聪明的推理型选手。 千问三点五是阿里巴巴的最新多模态大模型,具备文本和图像双模输入能力,图片模块来自千问 vl 系列,它采用自注意力和限性注意力结合的结构,生成速度更快,理解更细。 千问三点五还支持多次预测 m 七 p 在 生成流畅度上有明显提升。一句话形容它能写、能看、能自己动手的智能选手。 mini max m 二点五的参数相对紧凑,仅两千三百亿,总体偏轻量化,但性能稳定,且推理效率很高。它采用传统的 self 天性架构,牺牲了部分多模态能力, 换来了更快的响应速度和更低的算力消耗。 m 二点五不追求花效功能,而是扎实可靠。一句话总结,它是大模型世界里的经济适用型狠角色。 timmy k 二点五拥有全场最大体量高达一点零五万亿参数,激活参数三百二十亿。它采用 m l a 多层次注意力机制,理解复杂语境的能力相当突出, 同时支持文本与图片输入,在多模态理解上表现抢眼。一句话概括,既有大脑容量又有想象力的综合型强者。

又是深夜发布,今天突然发现智浦开源了 glm 五大模型,没想到年前的开源大模型市场还会出来这个网站从前几天 cloud ops 四点六和 gbt 五点三 codex 的 发布可以看得出来,二零二六年商业大模型趋势将从能写代码升级成能构建生产机系统, 没想到的是开源大模型这么快就跟上了,熬夜测试了几个小时,本期视频我们就来看看 glm 五都有哪些亮点,以及都能做些什么事情。 二零二五年使用大模型编程的过程中,我发现虽然 ai 已经可以做出一个个很好看的前端页面了,但是真的让他去做一个生产能用的系统或者是一个庞大的任务,经常写着写着 ai 自己就圆不回来了。 但这次 glm 五真正能做出生产可用而不是单纯好看的系统,并且遇到复杂系统需求会自己拆解,可以长达数小时的不断自动运行完成这个系统不会出现越写偏离越大的情况。我直接拿两个案例来演示一下,工具用的依旧是 copy code 用的是质朴官方这个 model 的 key 配置文件的话,其他都和之前保持一致, 模型替换成 glm 五即可。很多公司应该都有自己内部的企业级后端脚手架,不仅能统一开发规范,并且开发只需要引入对应的依赖和无需关注各种中间件的配置细节就能直接使用。 我之前写过 glm 五来生成 glm 二十一加 spring boot 三的企业级后端脚手架,编辑提示词开始执行,可以看到这次 glm 五在分析完任务之后,会以对话的形式来询问生成项目的细节问题, 宇宙包含哪些模块的 start 给了多个选择,接着询问项目的认证框架,最后确定报名的生成规范,等这些全部完成之后,就开始任务的拆解。 glm 五将脚手架拆分成了十四个大的模块,制定了十五项具体的实施步骤以及最终的验证方式,没问题之后,就开始让 glm 五开始构建系统了。 glm 五这次针对多阶段长步骤的复杂任务的优化做得太好了,整整十五个模块,花了一个多小时全部生成完成。整个过程不需要人去做额外的辅助工作。 除了代码生成之外,当在验证过程中遇到翻译失败的情况,它会自动分析日制,不断修复代码并重复验证,直到全部跑通。我们可以来看看最后的脚手架项目,所有的 start 按模块划分,比如 base 模块定义了统一的异常,统一返回信息, log 模块引入至框架搞定日制生成规范,做好 trace id 生成逻辑以及日制切面等配置。同理,像 mybatics 统一配置 radix mq 的 配置都做成了 start, 要使用直接引入对应的依赖即可,这是真的能很好的用起来的项目了。 接下来再做个全站的业务系统,做一个支持高频发的购票系统,能支持秒杀业务的场景。这次让他把前后端的项目全都生成,前端使用 vivo, 后端使用 jdk 二十一加 spring boot 三。 这里有个比较有意思的点,一开始我在提示词中将 jdk 二十一写错成 jdk 八了, jmm 在 分析需求的时候就发现了这个问题,并给了我几组匹配的 jdk 和 spring boot 的 版本。 手动调整之后, glm 五给出了十分详细的技术报告。整体的代码生成过程还是和之前一样,不需要人去做额外的操作就可以生成出完整真正可用的代码。现在前后端代码就生成完成了,我们来看一下。 先看一下后端代码,秒杀业务的逻辑写的十分严谨,其中高密发解决方案中包含了多级缓存、库存预扣、业务下单、分布式锁结果限流、动态余额等方案。前端页面是一个包含购票和秒杀的 h 五系统,我们来参与一下。秒杀 手速快,直接抢到票。智普在官方公告中提到了国产芯片万卡集训这个概念,意味着这次 gm 不 仅模型能力强, gpu 底座也是国产自己的。 去年过年来了个 deepsea, 今年过年来了个 gm 五,不知道二零二六年大模型究竟能发展到什么地步啊?以上就是本期视频的全部内容了,我是鱼仔,我们下期再见。

gm 五终于发布了,听说非常强,我也想试试他到底是不是真的有那么强,我第一时间就拿我维护了一年有上千真实用户的三倍插件给他上上强度, 直接挑战开发中最头的那三个难题。第一,极万行代码项目的全景理解。第二,多层嵌套的复杂 ip 逻辑。第三,真实用户的需求迭代。 我们这次的开发环境依然是 vs code 加 code code。 我 首先让 g m 五先理解一下项目整体的技术细节以及功能特点, 这里有一个非常关键的点是 g m 五在发现问题的时候,它会自动的去检测这个错误,然后自动的去修复,接着它就会去读取我相关的一些文件, 然后形成了一个完整的技术分析报告。大家可以看到它上面把这个技术的分层架构都写好了,哪些是处理 api 调用,哪些是处理交互以及数据持久化的。然后接下来就是我 api 的 调用逻辑,他每一个点他都列的很清楚,说实话他列的这个技术报告比我这个作者写的还清楚。接着我就让他基于用户反馈形成一个英文字母导出的功能,比如这是一个 英文的视频,它有一个英文的 ai 字幕。以前的话我们这个插件它是没办法获取英文字幕的,因为当时我是只支持了中文字幕的处理,就比如现在它这个英文字幕是没有的,现在这个英文字幕导出的功能,它不仅仅是增加一个按钮,更主要的是它需要去重构底层的一个解析逻辑。 就比如说我这个接口,它的数据是怎么返回的,我需要怎么去处理中文和英文字幕的选择?那 gm 五 他在思考之后就开始进行执行,然后直接去帮我编辑处理了相关的代码逻辑,大家可以看到他每一步他是怎么做的,这里都写的很清楚,然后最后他就帮我完整的实现了我需要导出英文字母的这个功能。我整体体验 gm 五的功能, 我觉得他真的是更加智能的,就像是一个支撑的系统架构师来帮助我便携代码一样。大家可以看到,现在在 g m 五帮我修复了英文字母下来之后,现在这个字母就可以获取成功了。 说实话, ai 编程最难的从来都不是写新代码,而是维护老代码。十三代码,我之前开发的飞书多表格、马克当预览插件,现在也有几百个付费用户,代码里面其实也有不少的十三代码平时没有大 bug, 我 根本就不敢 动它,生怕改动了之后影响用户的使用体验。不知道大家在用 ai 写代码的时候有没有遇到类似的问题呢? 但是啊,我最近观察到,不管是 cloud ops 四点六还是 gpt 五点三 codex, 它们都不再去卷升程速度,而是全面转向了 agintending coding 发展,简单来说就是更加专注于解决真实项目需求的能力。而 gm 五 就是目前开元界首个跟上这一趋势的模型。 gm 五整体表现都不错,在科奥的欧布斯四点六跟 gpt 五点三科特斯之间很多成绩甚至都感觉不到差距,但是我发现 gm 五有时候的响应速度确实有点慢,这点希望以后能提升一下, 再给大家说个心里话,其实三个月前我就开通了 gm codeine 的 套餐,我当时用的还是 gm 四点六,短短三个月时间,我们的钱还是那份钱,但是手里的工具却一次比一次强, nice! 我 眼看着他从四点六进化到四点七,再到今天可以跟科尔的 off 四点六扳手腕的系统架构师 gm 五 厉害!这种养成系的快乐真的太爽了!用过 gm 扣顶破烂套餐的老用户应该都懂,这次 gm 的 进步让我再次看到了国产模型的硬实力,大家赶紧去试试 gm 五吧! 好了,以上就是本期视频的全部内容,记得点赞和关注我哦!我是超超,我们一起学研,一起变强,我们下期再见!拜拜!

智普啊,发布了 glm 五点零,为了测试它的能力啊,我用它构建了一套可以无限运行的 ai 开发系统。我用这个系统运行了长达十个小时,从晚上十点到早上八点, ai 做了几十次 getmate 的 提交, 开发了一个 ai 漫剧生成工具,有前后端有数据库,可以用户注册和登录,还接入了大圆模型,图片生成模型,视频生成模型。通过这个视频,你会学到如何构建这样一个无限运行的 ai 开发系统,并了解到 glm 五点零的惊人开发能力。 整个过程我都只是输入简短的 prompt, 没有亲自阅读或修改任何一行代码。我一直在旁边玩着游戏,等他干活, 尤其是我视频最后会讲的,他把整个项目的所有模块联合起来,然后端到端的 bug 修复错误,非常的牛逼。他不只是单纯的写代码,他甚至自行在浏览器中验证每个功能的正确性,找出 bug, 然后自行在浏览器后端数据库第三方的 api 之间联合调试,找出问题,修复错误。 那赶紧进入正题啊,相信对你会有所启发。我使用的工具是 cloud code, 并且把模型切换为 g l m 五点零,具体方法可以看我之前这一条 g l m 四点七的视频。 那我们首先要搭建一套能无限运行的 ai 开发系统,说是系统,其实就是几个文件,做法非常简单,我把一篇来自 astonopy 的 神级文章发给 ai, 让他自己去学习,根据这篇文章做出这套系统 文章叫长时间运行智能体的有效调度编排框架。那过程中 ai 做出了一些操作预期的举动,他通过 m c p 打开浏览器, 通过这篇文章的页面找到一个配套的 get up 仓库,打开仓库的代码文件进行学习。而我事先都不知道这个代码仓库的存在,最终他创建出了这一些文件。 我解释一下最重要的几个,帮你理解一下这套系统的工作方式。 task 点 jc 文件,其实就是一个任务列表,每个任务都有它的描述,并且会标记是否已经完成。和我们人类工程师每天上班一样, ai 每次从这里面领取一个任务, 完成后就做一个标记,这样他的 ai 同事啊,就知道项目进展到哪里。 progress 点 txt 文件,每次 ai 完成任务啊,或者任务失败后,都会在里面留下工作日期,这也是为了给其他 ai 同事提供一些信息。 log 点 m d 文件,这里面全是提示词,用来指导 ai 根据固定的规范流程工作。和我们人类工程师的开发流程类似, 第一步,跑一个脚本,来初识化整个项目的环境。第二步,在 task 里面领一个任务。第三步,就开始开发。第四步,测试和验证。 第五步,更新 progress 和 task 文件。第六步,用 git 提交代码。那如果中间遇到困难,需要人工介入,它就要及时向人求助。那在以前一些长期运行能力不强的模型中啊, 这么长的开发流程,一旦工作上几十分钟,模型就会逐渐混乱,不再按照规定的流程工作,而如今完全没问题啊。视频后面我们会看到, glm 五点零,即使在长达一个小时的工作,提交了几十个 commit 后,仍然很好地遵循开发规范。 然后呢,我让他写一个脚本,用来无限时间的运行。这一套开发流程背后的原理很简单,就是把 cloud code 放到一个 while 循环里面,这样一来,人不在电脑旁边的时候没法手动 prompt, ai 就 可以执行这个脚本,让 ai 无限的工作。它之所以有效,有几个原因啊, 第一,我们这套流程每次只要给 ai 说一句,完成下一个任务,不需要更具体的指示, ai 就 能通过 task 和 progress 文件知道自己现在应该做什么。 第二,每个 task 都很小, g l m 五点零足够的强大,每一次 y l 循环里面,他只是领取一个很小的任务,并且严格的测试,成功率极高。第三,每完成一个任务,模型的上下文都会被清空,所以模型始终保持在最聪明的状态。 第四, g l m 五点零非常可控,严格按照工作规范执行,每次小任务都会进行 commit, 所以 即使出错,我们可以轻易地回滚到旧版本。 好,现在我们这套系统有了,接下来就要开发软件,我们先来设计一下它的功能和架构。这个软件的用途是一句话,生成长视频。我让 ai 把整个项目的开发需求拆成了三十一个任务,放到 task 文件里。 这是 ai 设计的软件,架构不复杂,但五脏俱全。再看一下 ai 画的业务流程图啊,帮助大家理解我们要开发的这个软件具体的功能。 首先,用户会创建一个项目,然后用大圆模型生成每一个分镜的文字描述,然后再用图片模型生成每个分镜的图片,再用视频模型生成。视频开发的流程比较长啊, ai 做了几十次提交,我就选几个精彩的给大家讲。 在 ai 做到第十九个任务的时候,为了测试 glm 五点零的能力呢,我产生了一个大胆的想法,我让他一口气做了一个多小时,完成了十一个任务,干完一个又一个,中间我没有任何干预, 给大家倍速感受一下效果。他一直在写代码,并且每次都遵循我们的开发规范,每个任务都完成,测试一个,一个任务,单独提交代码,拿一个具体的任务作为案例啊。他现在领取了任务三十,任务目标呢是实现响应式的布局,也就是让 u i 在 手机端和桌面端看起来不一样。 他现在正在修改代码,然后验证项目能 build 通过。然后他现在把浏览器的大小变成了手机屏幕大小。打开了我们的应用,他点击了一个按钮, 他对页面做了一次截图,用识图的 m c p 判断是否正确。再打开了一个新的页面,再做了一次截图,并检查是否正确。然后在 progress 里面仔细描述了自己所完成的工作,然后把这个任务标记为完成,他就按这么一套方式疯狂的干完了每一个任务。 要接入数据库的时候呢,他主动提出需要人工帮助,并且一步一步地给我说明,告诉我如何去这个 superbase 平台啊,点哪里创建项目,配置数据库,获取 api key。 尽管我没怎么用过 superbase, 仍然轻松地操作下来了。中间我还犯了错误,给他提供了错误的 key, 也被他及时发现,最后他还让我帮他去注册一个测试账号,然后他自己打开浏览器,输入账号密码,验证登录功能,可以正常使用。那像 superbase 这种外部的系统啊,超出了 ai 的 控制范畴。 g o m 非常明确的给我提供指引,让我协助他完成开发工作,一个不了解后端的人,也能在他的指引下完成数据库的配置。 他开发完后端一系列 c r u d api 后呢,声称对每一个 api 都进行了测试,但所有的 api 都是需要 os 的, 前端也还只有一个空白的页面,所以我就很好奇他哪里来的 os 权限,怎么完成测试,是不是在忽悠我? 于是我问了他一下,他用简短的语言,漂亮的格式向我解释。他说他打开浏览器,登录了刚才创建的测试账号, 然后通过一个叫做 browser evaluate 命令,在浏览器可以执行任意的 javascript 代码。然后他写了一些临时的 js 代码,就在浏览器里运行,调用我们的后端 a p i, 这样就能有 office 了。非常聪明的做法,我还怕他在骗我,我检查了一下录像,确实如他所说,他打开浏览器疯狂测试, 中间还真测试出不少问题,他就自行查看后端的报错日期,自行修复。最终三十一个任务全开发完后,啊,我也懒得去人工验证这个项目是不是已经可以用了。在往常的开发中啊,到最终阶段,因为已经把 前端、后端、数据库、第三方 api 全部连起来了,那第一次的集成测试啊,就会非常头痛,因为任何地方都可能出错,往往需要浪费大量的时间再把错误找出来发给 ai, 让 ai 去修复。但这一次我非常大胆,我只说了一句话, 请你完整测试一遍流程,确保功能可用。大概就是从早上七点十分开始,他自己在浏览器上疯狂测试,花了一个小时提交了这么多改动,用来修复 bug。 我看他在浏览器上像人一样一步步操作我们的产品,通过截图和视觉能力来判断是否符合预期。遇到问题的时候呢,他就自己查询后端的报错,检查各种 api 的 状态,综合分析出问题。最终他总算顺利的生成出了第一个视频,端到端的把整个应用全部打通了。 他修复的每一个 bug, 做的每一个 feature, 其实我都不清楚是什么情况,但我想知道的话,我只要找到他的 commit 记录,看一下他在 progress 文件里写了什么。这也是这套流程的强大之处,一切都是可追踪的。 我们让 glm 五点零一边开发项目,一边在开发过程中发现问题,让 ai 来增强我们这一套自动化的开发系统,左脚踩右脚,螺旋升天,我相信这就是未来开发者的工作方式。总结来说, glm 五点零已经远远超出了单纯抠顶的范畴,而是能对软件工程的每一个环节进行自动化,提升效率。 gm 五点零在超长任务上非常出色,已经达到了能让我放心的交给他连续运行一个小时的程度。横向对比的话,我个人认为 gm 比刚发布的 oppo 四点六弱一点,但在一些方面可以超过 gbt 五点三。 重点是价格便宜非常多,但现在过于热门啊,供不应求,抠钉套餐非常难抢。那我们这个项目呢?虽然现在端到端全部打通了,但最终深层的视频效果还有很大优化空间。点赞到一万,我可以开源出来,让感兴趣的人进一步优化它。

六个国产的 ai 模型,加上一个国外的顶尖 cloud 作为对照组啊,同一个项目,同一套提示词,从零开始,写完一个完整的前后段应用, 整个过程全部自费,没有任何广告。最终排名如下,测试环境我们统一有 openroot, 按照模型名称区分了项目文件夹,同一台服务器,同一套提示词。因为之前我家的小猫去世了,然后我做了一个视频,也收到了很多的暖心的评论,他们都提到了一句话,就是我们家的猫猫会和多金一起快乐的生活在天堂里的。 这个就是我做这个项目的初衷啊,其实就是想给一些啊去世的小猫打造一个赛博乐园,然后其实不是很复杂,就像当时我们玩那个 呃旅行青蛙一样,就放置,然后纯挂机,他们自己会有一些活动,但这个提示词你看其实写的也还挺细, 总的来说算是一个比较综合的项目。我的测评思路是这样,第一轮我们先来 one shot, 就是 说看一遍跑完之后这个模型能跑到什么程度,之后我会根据他们第一轮的表现去继续修改, 这时候提示词确实就不一样了,因为我要根据他们现有的情况去说嘛。这一轮其实是说我想去挖一下这些模型的能力上限大概能到哪里。提示词发出去,六个模型同时开跑,先说速度, step 三点五 flash, 它起手就是一百三十 tokens 每秒,这个快到离谱, 但是啊,它过程中会反复的去复读,而且中间直接中断了三次,我都得手动去输入继续它才能够继续跑,这个就真的很要命了,所以导致它的总时长其实比别家还要更长一点。现在二点零千瓦,三点五, kimi, mini max, 它们基本上都稳在四十左右,第一轮的总时长也就是七到九分钟, 只有智普的 glm 五是最慢的,我都是官方 max 的 订阅了,它的起步就只有十三到十五,后面稳住也只有三十,那它的第一轮总耗时有十八分钟,那总的完成时间我们就先摆到这里。这个第一轮我心目中及格的标准就是啊,前端它能够正常,现然, 哎,在画面具体怎么样先不说后端的话,它的登录然后穿图啊,各项功能都正常,这是一个最基本的。 接下来我们来看它们具体的结果。先锋三点五的一个 bug 就是 你在登录之后,它很快还需要你再登录它前端的猫其实还意外的挺可爱的,但是这个视角跟随是用不了的。 c 的 二点零的后端倒没什么问题啊,但它的前端是一直在闪, mini max 的 前端他第一次直接渲染不出来,而且呢,我的提置词里面是已经明确要求了上传照片是必选项,而且还需要做删除的功能,他呢,就直接没做 seven 三点五 flash, 说实话,他在跑的过程中不是频繁的复读吗?就这个事让我实在是对他没有什么信心。 结果呢,在注册登录上以后,上面呢,还有一个这么大的登录框,在上传照片确实是必选项,但这个功能他就用不了,导致我就没法送冒进去,也测不了。前端 kimi 的 k 二幺五,它作为一个大参数模型啊,它的前端能力确实曾经震撼到我,我是真的盼着它能给我个惊喜,结果它的前端就直接没渲染出来,而且我添加一只猫进去,跟随视角那里会直接 bug 成三只,那就只剩我们的质谱了。第一轮的前端,它的地面是在抽搐的, 猫的形象也是有点抽象啊,但是说实话,我觉得它的功能上是唯一一个及格的。所以总的来说,第一轮啊,我印象比较好的其实是千万三点五跟智普 gm 五就是千万,确实是有一个恶性 bug, 但是它的前端还挺好看的,在我这里是加一些分的, 然后智普就是中规中矩,他没有什么错。接下来就是各自去修自己 bug 的 环节了啊。这个过程其实你会对它们模型的能力会有一个很主观的感受, 因为就是你提一个需求,然后他反反复复改不完,那你也没有什么心情去给他再提修改意见了。其实几乎每个模型我都给了两三轮的迭代机会,那我也去直接拉一个表格给大家看,结果大家看着,顺便我搁这解释一下, 千万三加五在过程中出现了一次大翻车,他是把之前好好的前端改的无法渲染了,虽然后来又救回来了, 跟随视角登录,私密公开的功能他也都修好了,我对他的迭代能力总的来说是满意的,而 c 的 二点零,他的迭代几乎就没啥用了。首先这个画面他从始至终是一直在抽的, 而且这个猫太抽象了,甚至怎么还在这个画上放了一个包子呀。 mini max 的 基础功能他都改好了,场景也确实更加丰富了,但是就感觉丰富且简陋吧,再不他是改了基础的 bug。 嗯,没有什么其他惊喜。 kimi 啊,你看我出镜了对吧,我要好好说一说 kimi。 一个相机的锁电功能,他改了三轮,是一点没改好,场景一直是空的,甚至这时候我发现,哦,我的文件都乱套了。原本你记得我们最初的工作目录是这样的,然后每一个模型都在各自文件夹里写,只有他把整个工程做到了总文件夹里, 直到我最后归藏的时候才发现这个问题。所以我对这种啊,比较简单的这种遵循问题我是非常在意的,就是我当时就想给他扣个大分。再来说质朴。 gm 五的 bug, 其实也基本都改好了,除了我说的那几个字看不清,因为它这个程序啊,它有两个页面都有这几个字, 他可能不知道我指的是哪一个页面,当然了,也确实是可以说的更细。但是当时嘛,时间原因,我觉得这个也算是理解力有点问题吧,测试走到这里,其实我会有点陷入低谷,就是我会觉得,哦, 其实国产模型表现也都不怎么好,然后我就觉得是不是我自己的问题,就我的提示词是不是写的不够好,是写的太细了,反而限制他们的发挥。 因为这个事啊,其实就是当时我跟我女朋友去聊天的时候随口想到的,最初就是有这么一段想法,然后我再把它不断的气化,最终变成了现在这个样子,那 在这个时候也是时候去启动我们的顶尖模型可倒的了。我们来看一看他的表现。首先因为我用的是第三方的重转,所以他的速度其实一直不到二十,会比较慢。 而他第一轮交付的结果是这样的,比较令人欣慰的是,他除了前端的界面确实还是比较简陋以外, 其他的功能是没有任何问题的,完成度是非常的高。于是我在第二轮去跟他说,让他去丰富一下场景啊。这个时候,不知道为什么, open code 它里面遇到了频繁的工具调用错误,感觉是个什么 bug, 然后完全发挥不出它的魔性能力。 于是呢,在这里我确实是改成了他家自家的 cloud code 的 工具,然后还是在这个文件夹里,在第一版的基础上去进行了一个修改,它最终给我交付出了一个这么挺广阔的地图。当时在测试的我就直接发出了这样的感慨, 值了。真的,就毫不夸张地说,嗯, cloud 是 让我第一次有了一种感觉,就是这个项目可能是能做出来的, 呃,可能是能正式上线的。我的意思是其他的 ai 模型其实没有给我这种信心。其实到这里呢,我们所有代码的部分就结束了啊,因为我自己不是程序员,我只能去试一下他们整个的感受啊。但是具体的代码质量怎么样我是不知道的。 我就让 cloud office 四点六去开了七个子 agent, 去把所有模型的原代码都 review 了一遍,没想到他还真给我挖出了几个彩蛋。首先是智普 gm 五的代码里,它藏了一个后门账户,账户名阿德曼密码阿德曼一二三, 它是直接硬编码在代码里的,而它在交付的时候其实没有告诉我。第二个 mini max 是 唯一一个用裸哈希蹭密码的,甚至都没有加盐, 简单来说就是密码保护几乎等于没有。另外,其实他们的基础站用的确实不太一样,用了面向对象架构的模型,比如说 cloud 和智普,他们的前端效果确实就会明显的好一点,而其他的模型全都是过程式代码,就一个函数,从头画到尾, 他就会导致你在迭代的时候很容易越改越乱,甚至呢,迷你 max, 他的前后端的状态这个数他都对不起来。然后是整个项目里最难的一个相机跟随, 大部分的模型,要么是直接把猫挪到屏幕中间,要么在跟随功能里面写了前端渲染,但是根本没有调用。只有 cloud 正确实现了 what to screen 的 代码转换,所以它才能够第一次就成功。最后我们再来放一下总分, 一共就这六个维度,前五个全都是我非常个人的主观的体验。最后一项代码质量是 cloud 去审的,最后加权呢,算了一个总分。 另外所有的 ai 花费的 token 量以及制作的总时长,我也都统计在这里。仅针对我这次制作的这个项目啊,它具有参考意义,数据都很主观,它跟你的感受相似吗? 其实说实话,它跟我的经验都不太相符,但结果就是这个结果。而且我这个项目是 ai 区一口气写完整个前后端的能力 啊。但去评判 ai 模型,它的标准非常多,所以说如果你想看的是那种公众公平并且维度全面的测评,其实是可以去参考一下排行榜的。而我作为一个用 ai 去编一些小程序的乐子人 其实还是很好奇,就是年前扎堆发的这些 ai 模型,他们之间的差距到底怎么样啊?到底有没有特别大的突破?我觉得这些模型你亲自上手去跑一遍,总会有一点感受。于是就有了这期视频,也跟大家聊几句我对目前这些国产 ai 模型的看法 啊。前端能力我觉得应该还是 kimi, 不知道为什么他这次翻了翻车啊。但是 kimi 的 k 二点五,他一个是说能直接读视频去做网页, 另一个是也确实之前我给他足够多的内容,他写出来网页是震撼过我的。这 im 五我一直认为他是国内的编程的领头羊 啊,其实能力确实不错。然后他就是涨价了,然后他,你说涨也可以,因为现在确实是大趋势嘛,这个整个用户多了,这个成本也高,但是你让老用户,嗯, pro 会员都没法用,第一第,没有办法第一时间用那个最新的模型。然后 lite 现在还没上,至少我写的时候还没有上。呃,甚至这个量还缩水了一点,就会感觉有点不爽。而 mini max 就 恰恰相反,它就很便宜,虽然出了高速版套餐,但是普通版还是便宜的。 嗯,速度也比较快,比较清亮。就是我会用它去接那个 opencloud 这样的小机器人,我觉得还用起来挺舒服的。总之你要问我性价比,我就会推荐它。然后就是 camden 的 三点五跟字节的 c 的 二点零,说实话,这两个模型比较新。呃,也可以再关注一下,我到时候也持续看看 别人对它的一个反馈。至于 cloud, 它确实是断层领先,价格也确实是断层的贵。嗯,但是啊,如果你换个角度来说,嗯,做一些严肃的项目或者正经的正式的项目的话,其实, 嗯用它会节省一些时间,也会给你一些信心,该上的话就还是上吧。好了,这就是这一期的啊,国产的 ai 编程的横屏的所有的内容了, 还是那句话,我祝他们早日超赶超 cloud。 我是 大黑,希望以纯人工的方式来向你分享智能。我们就下期再见。拜拜。

最近有网友问我,世界大模型第一股智普的 glm 五发布了,说它是全球最好用的开源模型,编程能力堪比 cloud, 是 真的吗? 先说结论是真的,中国清华系智普最新的 glm 五模型已经在编程能力上比肩 cloud 了,全球开源模型中排名第一,虽然还有微小的差距,但是我们在快速的追赶中, 我是杨乐多大白话讲 ai 这款 glm 五到底强在哪?用三点跟大家说清楚。第一点,开源模型世界领先。目前这款 glm 五在全球的开源排名中,编程能力排名第一,综合能力排名第四, 也就是在全球范围内把代码公开,让大家免费使用的模型里面, g l m 的 编程能力是最强的。第二点,代码能力逼近顶尖水平,目前编程全球最强的就是 cloud 模型,而 g l m 五在编程的使用体感上 已经跟 cloud 相差无几了。第三点,他专门擅长处理复杂的任务逻辑,也就是一个不会代码的人,可以跟他进行多轮对话后生成一个复杂的产品,甚至不用写一行代码就可以实现。 我们客观的看,差距确实还存在,但是你要知道,一年前我们的 ai 代码编程能力比全球顶尖水平差了十倍不止, 而现在我们基本上跟他们近在咫尺了,并且 glm 还是一个开源的模型,开源的模型意味着全球的开发者都可以免费的使用它,并且在上面进行二次创作和修改。 而 cloud 是 闭源模型,只能通过付费调用它的 api 来进行使用,并且不能对其进行二次的修改和调整。做一个比喻啊, cloud 就 像是高墙内的武林高手,没有人知道它是怎么实现的, 他的武功不外传,你们只能看。而 glm 五呢,就像一个武林盟主把所有的武功秘籍全部都公开了,那你想想谁的影响力更大,谁会进步的更快呢? 这就是中国 ai 的 速度,中国至普系的 glm 一 年时间走完了别人三到五年要走完的路,中国在不断的这,这背后就是中国的 ai 的 硬实力,也是中国 ai 选择开元路线的再一次胜利。

我真的是服了 g l m, 我 现在在做一个独立站,一到晚上 g l m 像个像个傻,唉,像个死,一点东西都做不了, 逼着我要用 cloud 再做一遍这个独立站,看看它做出来的结果是怎么样。你看看,你看看 cloud 的 还原度,这就是我用 figma 设计的, 然后这就是用 cut 写出来的。用了多长时间?就用的五分钟左右,他就帮我 完全还原了。他不是做不了,他不是做不了,他能,他能做,但是,但是他晚上他不让我做,他不让我用,我不知道他在干嘛, 公单又不回,我都不知道他在干嘛。我为了支持我们国内的大魔仙,我现在把钱给了,然后我,现在我不用了,我让你好好的发展一下好不好?

最近一直说智普 g i m 五的坏话,其实这样子是不行啊,它在白天,现在白天了,白天的时候它是非常非常聪明的一样的提示词啊, 去 figma 上面把设计弄下来,就这个效果来说啊,就这个还原图,它做出来比 cloud 四点六 solid 还要好,真的还要好。 cloud 四点六做出来还有很多小瑕疵,还要一步一步的去修,但是用白天的 g i m 真的 是非常非常非常好,效果就是一步能到位了,一到晚上他就拉了, 具体几点我不知道,反正一到晚上我孩子睡了,然后继续想卷一下,他就不让我卷了, 真的是谢谢他。然后我就让 g m 五把菲克玛上面的资源也下下来,真心是不错的。这个性价比是挺高的,听说是托肯出海,晚上出海,白天在这里用。那既然大家都睡了,我又是 max 的 账号,最贵那个账号, 你不用把性能压的这么低吧,是否应该是为了我的健康着想?想我早点睡,我谢谢他,谢谢谢谢。

为什么在 openroot 里面小米这个排名这么靠前,而 gm 这么靠后呢?这个模型它编写能力不是很强吗?为什么在这个地方感觉都排到屁股上去了? 是因为它实际效果没那么好吗?还是为啥大家都不愿意去用它呢?反而这个 mini max 我 感觉也一般,但是它反而能够成为第一。

g l m 五, mini max, k 二点五三个模型用哪个写扣的比较好一点?我看了一下这个,三个都差不多,这个我自己用的感受是这样,排名是 g l m 五好一点,那 mini max 我 觉得它的性价比会高一点,速度会快一点,因为它模型轻。我现在用的是 mini max 二点五, m 二 是 m 二点五的模型做我的写代码的机做模型有些比较复杂的问题,那可能还会要用更好的模型去用。

重磅的 pony alpha 神秘面纱终于揭开了,果然就是质朴 g l m 五啊!参数达到七百四十四 b, 也就是七千四百四十亿参数激活四百亿,预训练数据二十八点五, t 扣定和 a 阵的能力全都取得开源搜塔啊,使用体感完全是逼进可洛的 opus 四点五。其实就在它还是那个测试模型,大家都在猜,那期间 大家就发现它编程能力直逼可洛的 opus 四点五了。所以现在看来,谁说开源比不了 b 源,而真让这次发布意义翻倍的啊!是海光 d c u 确认了对零的深度适配, 也就是说,中国最强的开源模型,在中国领先的 g p gpu 芯片上发布即可用光伏组织汇聚的超六千家啊!这生态伙伴现在形成的国产算力纵深真金碧玺比了 这一回的对零适配里头,海光 d c u 团队是深度协同智普 ai, 凭借 d t k 这些字眼软件占的优势,重点去优化底层算子和硬件加速,让 glm 五在海光 d c u 上实现高吞吐、低延迟稳定运行。 所以啊,现在咱 ai 大 模型真的正在向着更高参数、更广场景迈进。底层算力的适配能力完全是决定性因素了, 决定模型的落地效率的关键因素。回到模型啊, g l m 五的技术底座同样是非常震撼,全新 slam 一 步强化学习框架 可以怎么样让智能体从长城的交互中持续优化?还首次集成了 deepsea 之前说的那个 sparse attention, 也就是稀疏注意力机制,用这个机制在长文本效果无损的前提下去大幅压缩部署成本,现在开元旗舰都做到这水准了啊,赶紧推啊!所以二零二六春节到, ai 大 战果然是史上最热闹一届!你算吧, defv 一个 v 四这传的啊,千万三点五这基本你都看见了!迷你 max m 二点二会不会全都扎堆登场啊?中国最强的一批大模型,正在同一个窗口期集体亮剑的 glm 杠五怎么样?携手海关 dcu 这支重拳,注定中国 ai 震撼的一声响!

今天上午 g i 发布了五个版本,除了基建模型的能力提升参照题之外,我还注意到三个非常有意思的点。 在第一个,它号称抠定能力已经对齐了 cloud 的 四点五,从能够会写代码并且能够完成这第二个,它支持了大龙家,支持 open, 能够在 open 里面接入 g m l 五 来完成一些非常复杂的主动式和刺激的任务。那第三个呢?它还提供了一个 excel 的 ai 插件,让我们在 excel 里面用自然而 易的来去完成公司的编辑,脚本的编辑的一些数据分析工作。很搞笑的是,目前你这个版本是针对 pro 跟 max 的 应用户开放,那我这种 max 用户不会使用吗?那我回家的第一件事就是要升级到 max 跟 pro 版本。

快速过一下 glm 五的相关信息,好消息是一次订阅可以享受两个模型,但坏消息确实演都也不演了,直接说自己是 cod, 主要的还是编程,还有智能体的长时间工作上面,体感上面呢,接近 opus 四点五 呢,他还上线了一个 ko 的 版本,价格要稍贵一点,但是比 oppo 四点四点五的这个调研成本要低太多了。然后我们这个模型可以直接替换到这个小龙虾里面了。最后呢,就是在这个 reno 榜单上,它的文本已经来到了开源的第一的位置,但是这个榜单我不知道 ko 四五点一的文本能力怎么样,大家可以在评论区打出来。

母亲言新出了个模型啊,怎么样?这个模型他说说非常厉害。 jim 五吗?我看看啊,像有的官方说的,他的 humanity last exam exam 评分是比较高的啊,就拿这个评分来说啊啊,其实我们测一下会有很大的问题,你看一下这个屏幕,我看看 我们呃抽取了 horamis 的 mass 数据集,大概是一千多道,然后去测这个质朴清源拿这个呃正比奈,正比奈 flash 作为这个评判遇到一个什么问题呢?我发现他在解答这种数学类的问题的时候,他的思考时间头肯输出了将近两万,也就是说他两万还在思考都没有输出完, 所以说我们这个他根本就测不了,在我们看来,然后即使测的了的话,一次回答的成本大概在呃五毛钱左右,就一个问题大概在五毛钱,而且还两万都没有出答案,所以我们在想会不会是我们的测试出了问题, 于是我们又到了他的这个官方上,就试验了一下啊,现在还在跑是吧?我们这个数据集从呃几分钟之前就开始跑,呃直接停掉,然后我们可以往上拉,一直拉一直拉,就你就说他这个思考过程无限的延长,无限的思考,他虽然这个回复的内容是正确的,但是他貌似陷入了一个死循环的过程。 就是你是让他回答了一个问题是吧?数学问题, melodies 里边的一个数学 max 类别的问题啊,问题其实不复杂,他是一个单选,他有两两种类型,第一是选择题,第二是那个检查题。我们在问给他这个数学问题的时候,问了两道到三道,基本就是无限循环,然后他的费用基本在无限上涨, 所以我们我们也可能比较怀疑像这种评分它虽然很高,有没有可能它的思考过程会非常的长,可能是无限的,也他可能把这个给忽略了,他能思考一个问题,思考五分钟出了一个答案。我们也测了一下,像 jimmy、 nike 这种可能也就几秒钟就出答了,所以它会存在这样一个差异点, 所以说它这个评价体系稍微有点问题。也不算吧,我们后续可能还会对这些整体评价再整体测评一下,至少我们现在现在来看还是跟大家想的差别很大, 太大了。数学问题你要等个十几分钟去给你解出来。那我都做完了,你自己都做完了,哈哈哈,考试都结束了是吧?该交卷了。对,我们也建议在啊,我们建议在回答的时候还是把这种时间这个综合的都考虑进去。

就在刚刚,智浦扔出一枚重磅炸弹,旗舰大模型 glm 五正式发布并开源。更炸裂的是,海光 dcu 居然实现了地灵同步适配!模型刚出炉,国产算力就已经跑起来了, 这可不是简单的能用,而是深度协同底层打通 glm 五啊!参数膨胀至七百四十四倍, 训练数据堆到二十八点五 t 更首次集成了 deepsea 稀疏注意力机制,部署成本大幅跳水脱坑,效率直冲云霄。这还是我们熟悉的国产模型吗?但最让我惊讶的不是 g l m 五本身,而是它旁边的算力伙伴海光 d c u 这次跟智普堪称并肩作战,用 自研的 d t k 软件站来给 g l m 五做底层算子优化和硬件加速,让这款旗舰大模型在国产芯片上跑出了高 高吞吐低延迟的硬核表现。过去我们总在喊算力卡脖子,模型与芯片各玩各的,今天智普加海光 dcu 的 组合拳,直接把这个行业痛点砸的粉碎。 接下来就看这套算力加模型加场景的铁三角如何攻城略地了。全球 ai 竞争,中国不再只是追随者!

二月十一号凌晨,中国又悄悄的在一个领域打破了美国的垄断,实现了国产替代。什么领域呢?就是以前主流 ai 大 模型只能由美国的芯片训练而成。而现在呢,智普 ai 最新发布了全球开源版排名第一的大模型 glm, 完完全全是在国产 ai 芯片的底座上打造的。 glm 有 多强呢?首先,它是全球开源大模型第一啊,如果把闭源模型包含在内综合排名的话, 那 g l m 五位列全球第四,仅次于 g p t 五点二、 cola 的 四点六和 cola 的 四点五,领先于谷歌的 jamie 三 pro 啊,也是目前国产大模型排名第一。而且 g l m 五在编程中的表现尤其出色,现在被外媒评为最强编程模型。 当然,你知道吗?这些成就还不是 g l m 五最值得称道的啊。最值得称道的是, g l m 五彻底摆脱了对美国硬件和生态的依赖啊,它是在华为升腾芯片上使用华为版 q 的, 也就是 mindspring 架构进行训练的 啊。这是一个非常具有象征意义的里程碑,他向世界证明,没有英伟达,中国依然能做出世界一流的大模型, 打破了只有美国才能定义 ai 前沿的趋势,为全世界提供了去美化 ai 发展的第二选择。 长期以来,中国大墨镜的发展高度依赖英伟达的高端 gpu。 从二零二二年起,美国怕竞争不过中国的 ai, 怕打不赢和中国的 ai 战争啊,就持续收紧了对华 ai 芯片的出口管制。二零二五年,智普被美国列入实体清单以后,先进算力几乎就是完全被切断了, 但大家都知道,封锁这种事我们已经见怪不怪了,整个现代中国的发展历程就是不断地突破封锁,你越封锁,我们进化的越快,这对我们国产 ai 芯片企业来说反而是千载难逢的机遇。 g r n 五就是在国产芯片上完成深度适配和高效推理的代表。 航五 g 通过混合量化在 g m 五上实现推理吞吐翻倍。摩尔现成的慕萨架构啊,首次在大模型场景释放出原生的 f p 八加速能力。最重要的是算力,华为升腾阿特拉斯级群支撑了 g m 五的千卡级算力训练和低延迟服务。 虽然目前在单颗芯片算力上我们还有差距,但是国产芯片可以用极品算力来一筹捕捉。华为是全球唯一一个交付万卡级 ai 级群能力的厂商, 在推力场景中已经接近英伟达 h 一 百的性能,并且成本优势遥遥领先啊。这意味着在全球 ai 竞赛中,国产芯片已经从跟跑者啊变成并跑者,并且呢,在某些赛道已经开始领跑。其实不光是智普啊, tipsy 啊,阿里千问啊都在全面适配国产芯片, 这意味着我们不再受制于人啊,即使外部断供,我们中国依然能训练和部署世界级大模型, 并且呢,还形成了全站闭环,从芯片到架构啊,从训练到推理,全部环节都可以在国内完成,国家的 ai 安全也有保障了。从金融到国防,从能源到政府机构,这些关键行业以后都可以部署全流程自主化的 ai 系统, 既避免了数据外泄的风险,而且呢,还能享受世界一流的 ai 服务。说实话,我现在特别相信中国最终会赢得这场 ai 竞赛。