粉丝1144获赞3022


三万亿,你没看错,是三万亿头肯,这是 mini max 单周的掉用量,在 openroute 全球榜单, mini max 稳居第一,而且最关键的是五周连续霸榜,到底凭什么?可能很多人是最近关注龙虾才知道 mini max 的, 这正常,因为 minmax 海外收入占了百分之七十三,超过两百个国家都有布局,国内大家接触比较多的海螺 ai 就是 minmax。 那 到底是凭什么成为全球钓用量最大的模型呢?第一,生产级原生 agent 模型, mini max m 二点五,是全球首个,顺应了当下的智能体时代,能力确实非常出众。第二,极致性价比。如果说 gpt gemini 是 吕布,那么 mini max 就是 赵云,当能力差异没这么大的时候,十分之一的价格就是极致性价比, 你说谁能受得了呢?第三,完美承接龙虾流量。 mini max m 二点五在二月份发布,原生的 age 能力 加上龙虾本来就是 token 碎纸机,两者完美承接。那么从这个事情又能看到什么呢?第一,智能体时代全面走向普通人, token 经济即将全面兴起。第二, 中国开源模型极致性价比顺应时代,模型能力不一定能超越美国,但在应用落地和基础布局上,将会全面超越,成为世界领先。所以别再看热闹了,智能体时代已经全面来了,选模型一定是选最有性价比的,普通人也应该动起来, 去养一只虾,去创造属于自己个人的智能体。关注我老朱的 ai 朋友圈,咱们普通人一起 ai 落地!

嗨,今天是二零二六年三月二十四号周二。好吧,让我们聊聊上周 ai 圈又发生了什么。 先说 mini max, 它们发布了新的旗舰机座模型 m 二点七。这个模型有一个比较有意思的概念,叫自进化, 就是说 m 二点七在 mini max 内部可以自己跑超过一百轮的实验循环,自动分析哪做的不好,改代码再训练。最后在内部评测上自己把自己的性能提了百分之三十。 嗯,听起来有点科幻,但他们确实做进去了。代码工程方面, s w 一 pro 测试拿了百分之五十六点二二,跟碧源的 g p t five three codex 基本持平了,定价也挺便宜的, 每百万输入 token 零点三零美元,输出一点二零美元。然后是小米也掏出了一个万亿参数的新模型 mi mode 二 pro 总餐数量突破了一 t, 但单次激活的是四十二币。原生支持一百万 token 的 超长上下文在二 t facial analysis 的 综合智能排名上全球第八,国内第二。 怎么说呢,小米做这个模型的意图还挺清晰的,就是拿来给自家那一大堆 iot 设备和智能体联动场景打底的。接下来说 google, 它们这周做了两件事。 第一个是给 ai studio 搞了一次挺大的升级,加了全站级别的 web coding 能力,核心是上了一个叫 anti gravity 的 编码智能体,它不再是聊完就忘的那种,而是会在后台持久化地记住你整个项目的状态。 同时原生接了 firebase, 意味着你不写后端也能直接生成一个带用户登录和数据库的完整应用。 google 自己说内部已经用这套流程生成了几十万个应用了,挺夸张的。第二个是它们对前端框架 stitch 做了重构, 变成了一个无界画布工作区,还引入了 web design 这个概念。简单说就是你现在可以用语音来指挥 ui 原型的生成和编辑, 不用再一行一行敲前端代码了。说完 google, 说 open ai 也是两个事。第一个是 codex 的 桌面端和命令行,默认起用了紫智能体, 遇到大型代码库分析或者多步骤开发的时候, codex 可以 从主县城派出好几个并行的子智能体,分头去做安全扫描、漏洞排查之类的活。第二个收喷 ai 搞了一个叫 parameter golf 的 挑战赛,条件非常苛刻, 你要把模型权重和训练代码的总体积压在十六兆字节以内,训练过程在八张 h 一 百上不能超过十分钟。联合 roundpod 提供了一百万美元的算力报销。重点是 openai 明说了,成绩好的人可以直接拿到内部研发岗的面试邀请, 所以这场比赛与其说是竞赛,不如说是一场非常硬核的招聘活动。下面说 cursor, 他 们推出了自研的新一代编程模型 composer 二 跑分确实不赖, sobench multi lingual seventy three 七分, terminal bench two 零上六十一点七分,速度也比同级别模型快了四倍。它有一个比较实用的设计,叫自摘药, 就是做那种跨项目的长周期任务时,模型会自动在 token 快 用完的时候压缩上下文,防止做到一半忘了前面在干嘛。 不过呢,这个模型发布之后,马上就出了个小插曲,用户发现 composer 二使用的分词器与 kimi 二点五相同,表明 composer 二很可能只是 kimi 的 一个微调版本。 后来 curser 也确认了,说是通过 fireworks ai 的 商业合作拿到了授权,本身不算未授权使用。 kimi 官方后来也出来恭喜,说明最后授权和署名的问题应该得到了解决。 接下来是一些偏研究方向的内容。普林斯顿大学发了一个叫 open clock 二 l e 的 系统,让模型一边在前台正常服务用户,一边在后台从真实交互里提取奖励信号,做强化学习。完全异步的, 跟传统那种先收集离线数据再训练的模式比,这个更接近边干边学的感觉。字节跳动的团队发了一个叫 mod 的 东西, 全称是深度混合注意力机制,大意是让模型的每一层注意力头可以跨层去附用之前层的 k v 特征,而不是只看当前层。在一点五 b 规模下测试,额外只增加了百分之三点七的算力, 但下游任务平均精度涨了百分之二点一一。然后是 minnes 他 们出了一个桌面应用,把原来指在云端跑的 ai 智能体直接拉到了你的本地电脑上, 通过终端命令行来读写本地文件,启动和控制本地应用。比如你有几千张照片要分类,或者一大堆发票要重命名,直接丢给 minstrel。 也有动作开源了一个叫 linstrel 的 代码智能体,是专门给 linstrel 语言用的。 linstrel 是 一种刑事化证明语言,所以 linstrel 不 光能写代码,还能输出数学级别的刑事化证明来确保正确性。 百度千帆团队开源了一个 ocr 模型 kenfun ocr 跟传统那种多步流水线不一样,它是端到端统一架构,有一个叫板面级思考的机制, 模型在输出之前会先生成思维链来推理文档的空间布局和阅读顺序,支持一百九十二种语言。在 omnicbench v one 五上拿了九十三点一二分, 在端到端开源模型里排第一。最后说两个视觉方向的艾伦人工智能研究所发布了 moment point 视觉模型,用了一种新的阶梯令牌机制来做像素级的精准定位,不再依赖传统那种容易出错的文本坐标输出。 在 pointbench 上拿了百分之七十点七新最优,对未来做精准 g u e 操作的视觉智能体有参考意义。微软发布了 m a i 一、 内置二图像生成模型,重点攻克了两个传统扩散模型最头疼的问题, 三 d 空间结构的连贯性和图像里嵌入文字的精准渲染,在而瑞纳点 ai 的 文本转图像排行榜上跻身全球前三。目前可以在微软的 m a i playground 上试用,也开始往 copilot 和平 image creator 上推了。 好,以上就是上周的 ai 资讯,接下来看下上周全球前十的生成式 ai 产品访问量排名, 然后再看看生成式 ai 产品在近一年的市场份额变化。 最后再看一下本周 hugin face 上热度前十的开源模型有哪些。 嗯,好吧,这期就这样,感谢收看,觉得有用的话点个赞分享一下,下期见。

我将演示在 cloud bot 中,接入 mini max m 二点一模型进行使用。首先需要说明的是,最新的 cloud bot 已经更名为 mult bot。 首先需要在本地进行下载安装,复制这条指令到终端中粘贴并回车等待安装。 这里是一个许可申明。我们选择 yes, 然后进入 quick start, 我 们选择 mini max mini max m 二点一,然后粘贴我们的 mini max api key。 然后接下来是选择一个 channel, 这里我们先跳过,然后 skill status。 呃,我们现在先不配置 skill 这里的 hooks。 呃,我们可以暂时先选择这个 session memory, 也就是保留每次绘画的这个记忆, 然后等待着后端进行。呃,此处我们选择推荐项, 然后可以看到在浏览器中已经打开了这个 cloud bot 自带的前端,然后可以看到我们现在的这 assistant 是 没有输出的,因为我前面所用的 api key 是 mini max 国内版 coding plan 的 key。 这时候我们需要做一个配置的调整,进入此处 config, 然后我们往下拉有一个 models, 然后点击 providers, 可以 看到这里我们前面配置的 minmax 的 供应商。但是呢,我们需要对这里的地址调整,需要改成 minmax i 点 come, 然后勾选这个 else had, 再把 api key 重新贴入此处,然后保存 update ok。 呃,更新过后需要静等几秒钟,后端连接完成后,可以看到右上角这里的连接状态也是显示正常的,那么我们再进入 chat, 我 们来试验一下, 可以看到此处调用成功了。 当然,除了上述通过 cloud bot 自带前端进行配置的修改以外,我们也可以进入到 cloud bot 本地的配置文件,通过根目录下点 cloud bot 文件夹下打开这个 cloud bot, 点 json 文件初识配置后, 这里的 base u r l 是 mini max 海外版的模型访问地址, 我们需要把它更新为现在的这个国内版的即可使用。呃,然后也要注意一下,这里 agent 需要把这个 设置包括模型的列表中需要添加 mini max 二点一模型,然后它的这个主模型设置成 mini max 模型,即可在 cloud bot 中成功调用 mini max 模型。

平时让 ai 帮你写周报,写 ppt, 内容是挺好,但排版简直像坨屎,没目录没格式, excel 里的公式全变成了纯文本, ai 省下的时间全被你拿去调 word 格式了,这叫什么效率?但今天, mini max 掀桌子了,直接开元了一套面向 a 技能的办公神器 mini max office skills。 一句话帮我生成一份数据分析报告,出来的不仅有内容,还有漂亮的封面,标准的多级目录,甚至一个 c 二零复杂的透视表和动态公式全保住了。他为什么这么牛? 因为他的底层选型极其硬核。写 word, 他 抛弃烂大街的 python docs, 直接用微软官方的 dota open 叉 mark s d k 写 excel 和 ppt。 它更是简单粗暴,直接解压文件去修改底层的插排要节点,这叫深入骨髓的控制力,就是百分之百原生格式还原。这套代码已经在给他哈佛开源 mit 协议,随便编排,赶紧转给你的 a 技能开发,兄弟,以后的粗暴和 ppt, 连排版都不用你操心了!

mini max 最近提交了 ipo 申请,他们在今年开源的 mini max m 二模型也在市场上产生了很大的影响。这个 mini max m 二模型在架构上和千万三呢,也是非常非常类似的。他们在计算这个 qk 标准化规划的时候呢, 做了一些微创新,提出了一个叫做 per layer curly norm。 这个 per layer 的 意思呢,就是我们在用 rms norm 来计算归一化的时候,每一个不同的 attention head 都有一个独特的 curly norm, 而不是用一个统一的 curly norm, 适用于 transformer 这层所有的 head。 第二个模型的微创新呢,就是 mini max m r 用了一个 partial rope 的 方式,相比于大部分的 full rope, 它没有针对所有 token 位置都进行旋转,而只是旋转了前一部分的 token 位置,后面就相当于是个 no rope 的 架构。为什么这样做呢? 因为 partial rope 能够有效地去增加上下文的长度,比如说在输入序列的后半部分,它们的位置已经无所谓了。那你可以想象,我们可以把输入序列延到非常长,它离我现在是近还是远,都获得了同等的注意。 那这样子的话呢,它的模型上下文窗口自然就会被延长。或者换句话说呢,就是在同样的长上下文窗口之下,它的模型表现的减弱呢,比没有用 partial group 呢,要更少一些。类似于千万三 next, kimi 也推出了自己的 kimi linear 模型, 目的就是去探索 linear attention 能够带来的潜力。我们之前说过, linear attention 相对于多 product attention, 它的计算量是更少的,但是 kimi linear 呢,在做了很多研究,发现 linear attention 的 问题呢,它在一些常规的提示词里面是 ok 的, 但是在一些需要常思考和多轮问答的任务下表现比较差。所以说呢,他们还没有完全的 switch 到 linear attention, 还是在用一个混合的 attention 策略,类似于千万三 next。 kimi linear 呢,也采用了一个三比一的比例,其中每三个 kimi delta attention 会混合一个 multi head latency。 其实这个 kimi delta attention 和千万三的 gate delta net 也是非常的类似,只是相对于千万的 gated delta net 做了一些微创新。 kimi 在 自己的 multi later attention 里面也采用了 no positional embedding, 但就像我们之前讲的, nope 在 这种大参数的模型上还没有真正的验证出来, 所以这个 kimi linear 呢,也最多只是一个四十八 billion 参数的模型。 linear attention 和 nope 在 更大量级的模型该做如何表现呢? 可能还需要 ai 厂商来去进一步的研究。 deepsea 在 年底更新的 v 三点二模型,在 attention 层面呢,也做了一些改进,特别是加了一个 sparse attention mechanism, 也就是在不同的 token 之间,它会区分 token 的 权重。像一些这种介词啊, to 啊或者 the, 这些权重呢,就会被减弱,从而呢去增加 attention 的 速度。这个呢,我们在之前的视频里也有给大家分析过。二零二五年十二月二号,欧洲的 missile 模型更新了自己的 missile 三系列。 mistral 三系列呢,基本上也是沿用了 deepsea v 三和 v 三点一的架构,只是把自己的专家的尺寸增加了一倍,而减少了专家的数量,以及 mistral 呢,一直在用自己的 tokenizer, 其余呢,都跟 deepsea v 三呢几乎没有什么区别,就连参数量六百七十三个标列 相比, deepsea 六百七十一也是很接近的。之前被传雷军用千万年薪挖来的 deepsea 研究员也帮助小米发布了自己的大模型,叫做 miimo v two flash。 这个小米的大模型呢,表现跟 deepsea v 三点二类似, 但是只是用了 deepsea 大 概一半的参数,也就是三百零九个 billion 的 混合专家架构。这个小米的大模型呢, 它们借鉴了谷歌 jamasan 的 sliding window attention, 通过 local attention 和 global attention 混合了五比一的比例来进行计算,同时也采用了 multi token prediction 的 技术来来训练。所以综上,我们发现现在的大模型架构已经越来越趋近于雷同, 而 deepsea v 三所打下的开源模型的这种架构基础已经在被各大厂商所采用。 现在的很多 ai 厂商无非说是,第一,你能否训练和复现 deepsea 的 这种模型。第二,你能否在这个架构之上去增加一些你的微创新, 增加你的数据质量,达到一个相对更好一些的得分指标,真正在架构上进行突破上的创新,其实在二零二五年我们是没有看到特别多的,这就不得不让我们期待,在未来的 ai 发展年间,我们能否突破 l m 已经达到了发展瓶颈这样一个预言呢?


怎么样去写好一个 skills? mini max 它们这些模型厂商都开始下场来做这些 skills 的 开源,因为 它们是做模型的,所以说它们对模型是非常了解的,它们的 skills 会非常有借鉴价值。我也大概看了一下它的一个 skills, 就是 专门编辑 excel 的 skills, 我 发现有两个特别重要的点,第一个一定要从底层出发,你不要尝试去直接编辑,它是一个压缩文件, 里面是一些 xml 文件,这种文件其实我都不知道,我不了解他们是对他们是对这个是非常了解的,然后是直接把 excel 拆成了这样,然后在这里面去改,改了之后再把它合成这个 excel 的 文件。 第二个点就是它的所有这种 markdown 的 文档里面写的都不是它要怎么样怎么样怎么样去做。因为 excel 的 这些东西其实在大模型的脑子里面是已经有了的,你并不需要告诉大模型它脑子里面已经有的东西,而是应该告诉它它没有的东西。比如说一些 你独特的工作流程,而不是很常识化的。比如说打开某一个网站去搜索什么什么东西,这些东西他是完全知道的,你只需要告诉他去搜这个东西就可以了,不需要给他细致的这种工作流程。而里面应该写的是什么,应该写的是你跑完这个流程这个模型去踩的一些坑。 比如说对现有模型不要使用这个往返,应该改为怎么怎么样,这个是由他们的模型去执行了这样的一个任务之后,他经常犯的这些错才应该放在这些 skills 的 文档里面,他几乎所有的这些 markdown 的 文件,只要不是模型知道的, 几乎所有的都是他踩的坑,所有原则或者提醒都是他踩的坑。还有就是他们也是做了非常多的这种脚本,这些脚本我也让他梳理了下, 比如说解压这个 excel, 得到原始的这个文件,然后重新压缩,然后编辑的时候是直接编辑的这个原始的文件,然后有非常多的脚本。 我们也来看一下它这个项目,它也是它有了很多个 skills 的 包啊,全端的,全站的,还有安卓开发的, ios 开发的,还有一些小呃组建的,还有 react 的 这些。但是对我们普通人来讲,这四个会跟我们最相关, pdf 的 编辑, ppt 的 编辑,还有 excel 的 编辑,还有这种 word 文档的编辑, 它几乎都是从底层去拆解编辑底层的东西,然后再打包回去的,所以说它编辑起来效果会更加的好, ok, 它这个使用起来也是非常方便,直接让 cloud code 的 给你配就可以了,你把常用的可以直接丢进去。总结一下这个项目,我认为给我最大的一个启示就是它的这些 markdown 的 文档里面写的都是它真实去实践踩过的一些坑。 所以说我们去写 skills 的 时候,一定是我们去测了很多很多遍,然后把这些坑每一个坑都记下来,或者说有两三次重复这些坑,那么就一定应该记下来。