前几天发现一个很有意思的开源项目,能让 mac 电脑也拥有灵动脑,并且可以展示播放的音乐日历,也可以将文件拖到这里, 实现隔空投送的效果。这个项目目前在 github 上已经拿到七点三 k 的 star 了,但是我在实际使用过程中也发现了一些问题,比如日历模块中日历的展示太小了,并且感觉功能还不够多。我去年的时候也有过用大模型去写一个 mac 电脑灵动脑的想法, 但当时的模型针对 mac 和 ios 的 开发能力还是远远不够的。调了好久的提示词,最后出来的是这样一个残次品。年前我刷到 mini max 发布了最新的 m 二点五模型,在 官方推文中有写编程能力,覆盖了多平台的全站项目,其中就有 ios 和 mac 平台。那本期视频我们就基于 mini max 来修改一下这个开源项目,看看在 mac 端的实际编程体验究竟有多少提升 开发工具。我用的是最新版的 cloud code, 在 mini max 官方文档中选择 coding tab 页,这里就可以看到格式 code 的 接入方式了。我自己是更习惯手动修改配置,那就只需要把这里的配置内容复制过去,接着修改一下 api key 就 可以了。这里最好用 coding plan key 编程,消耗的托管还是有点多的。 保存好配置之后,在项目目录下运行 cloud, 可以 看到模型已经替换成一个完整日历,然后写下提示词 直接运行。这个项目的代码量还是挺大的, mini max 会首先调用工具去了解项目 m 二点五这次具备了原生 spec 行为,在改代码前会以架构师的视角去拆解需求问题,接着才会开始项目代码的修改,这个 能力还是很适合 ai 编程的,不会乱改东西,会根据 spec 一 步步执行,根据效果的实际情况再来几次调整。日历模块就替换好了,从原来的一行日历替换成了一页的日历,还可以根据自己的需要继续加功能。我想在灵动岛上加一个天气的展示模块,还是一样输入提示词, 等待代码生成一遍生成不出效果很正常。来吧,口令就是得多次微调。我发现迷你 max 二点五现在的推理速度快了很多,在官方推文中也确实发现有推理速度提升。 好了,现在来看效果。左上角多了一个天气的图标,点击之后就会跳转到对应的天气页面了,可以看到当天的天气信息和未来的天气信息。后面就是根据自己的实际使用体验不断优化项目了, 这不就意味着在 get up 上能找到的好项目,基于大模型都可以按需添加自己想要的功能了。以上就是本期视频的全部内容,我是鱼仔,我们下期再见!
粉丝6.7万获赞69.9万

兄弟们, mini max 新出的大模型 m 二点五已经在 openroot 上霸榜三周了,今天我用一条视频教你如何将 mini max m 二点五接入到 v s code 中,配置完就能使用 ai 写代码。老规矩,先点赞收藏,防止后面找不到了。我们 来到 v s code, 点击左侧的扩展按钮,进入扩展,在搜索栏里边,我们输入 client c l i n e client, 选择第一个这个机器人头像图标的,点击安装左侧这个有机器人头像的就是 client, 我 们点击这个 client 图标,进入 client 的 界面,我们首先要点击这个齿轮图标,进入设置里边,点击 ai pro vader, 我 们找到 minimax, 这就是 mini max, 这个就是 mini max 的 设置界面,默认这里的 basic l 是 api 点 mini max 点 i o, 这个是国外站的, 我们要选择 api mini max 点 com, 这个是我们的国内站。好,我们看这里的介绍,让你选择好你所在的地区。 api mini max 点 com 是 给中国用户的 api mini max 点 i o 是 除了中国以外的其他地区的,那么我们在这里就要设置 api mini max 点 com, 设置完 base ur l 之后,我们要设置 api k, 点击这里我们就到了 mini max 的 开放平台,这里我们要注册一个新用户,我们这里要使用手机验证码登录来注册一个新用户,在这里输入我们的手机号,然后点击获取验证码。 输入完验证码之后呢,我们还要点击这个已经仔细查看并同意该用户协议与政策隐私。点击登录注册, 我们就可以进入 minmax 的 接口密钥 api k 的 设置界面,在这里点击创建新的 api k, 这里我们输入 client, 创建密钥, 复制密钥粘贴到这里,然后模型这里我们可以选择不同的模型,我这里是强烈建议选择 minmax m 二点五,选择完了之后, 我们点当我们的设置就结束了。好的配置就是这么简单。有什么不明白的可以在评论区留言关注我,每期一个 ai 编程知识,谢谢大家的观看,再见!

同样是大模型,同样在烧钱拼算力、卷团队,那为什么有的公司越来越像基础设施,有的公司却越来越像产品公司?今天不讲谁对谁错,只拆一个核心分歧。在同一个大模型时代命题下,为什么智普和 mini max 给出了完全不同的答案? 先统一一个前提,大模型这件事已经过了能不能做出来的阶段,正在进入一个更残酷的问题,你做的大模型,最终要成为什么?是行业底座?是通用能力平台? 还是直接面对用户的产品?从这个问题开始,智普和 mini max 走向了两条完全不同的路。先看智普。 智普的核心选择可以总结为一句话,先把通用性做到极致。他在做什么?强调模型底座能力 覆盖科研、政企、金融开发者等多个场景,更像在构建一个可被反复调用的 ai 基础设施。在质朴的逻辑里,应用不是起点,而是结果。只要模型足够通用、足够稳定、足够可信,应用会自己长出来。这是一种非常典型的工程型长期主义路线, 优点很清晰,天花板高、可扩展性强,更容易嵌入复杂体系。代价也同样明显,商业化节奏慢,外界不容易看懂价值,市场情绪不友好时容易被低估。再看 mini max。 mini max 的 选择几乎是另一种极端。它的底层逻辑是,模型必须先在真实产品里活下来,所以你会看到 强调多模态情感交互,更接近 c 端体验,用具体产品反向打磨模型能力。在 mini max 看来,如果模型不能直接服务用户,那能力再强也只是实验室成功。这是一条什么路?产品驱动型、验证优先型,路线优势很直接, 商业化,路径清晰,用户反馈快,更容易形成品牌感知。但它也意味着场景选择非常关键,路线一旦走窄,回头成本高,对趋势判断的要求极高。真正的分歧不是技术,是信仰顺序。 很多人以为这是谁模型更强的问题,但实际上,这是信仰顺序的差异。字谱相信先有能力,再有规模化应用。 mini max 相信 先用产品,再倒逼模型进化。一个是自上而下,一个是自下而上,一个更像修高速公路,一个更像先开最赚钱的那条支线。真正关键的时刻,往往不是行业最热的时候, 而是资本冷静,需求真实淘汰开始的时候。那时市场问的问题会变成,谁的模型更容易被长期调用, 谁的能力更难被替代?谁的商业化不是单点奇迹,答案很可能不止一个,但路径差异一定会被无限放大,最后把问题还给你。如果大模型最终只剩下少数玩家,你觉得是做底座的人更安全,还是做超级应用的人更锋利?你不需要现在站队, 但至少你已经看清了一件事,同一个时代,命题不同,公司真的会给出完全不同的答案。评论区聊聊,你更认可哪一种?

噔噔噔噔,这个就是我给家里部署的麦克斯六六本地大模型服务器,用来跑 open klo 是 一个什么样的效果呢?我这几天研究的很疯狂,然后把我的结论告诉。首先我大概介绍一下这两台机器, 下面的这台机器是我的老机器三十二 gb 的 m 一 max, 上面的这台机器是这个最新的 m 三要求的二百五十六 gb, 因为我觉得二百五十 gb 跑绝大多数大模型完全没问题。我给你看一下我大概跑了一些什么模型,可以看到我有各种容量的,各种大小的, 各种版本的大模型,其实我目前用的最多的就是这个 mini max 的。 然后如果追求速度的话,那这个千万的这个最新的三点五是非常不错的, 同时扣的模型也是非常不错的。那实际它真正运用这个本地大模型和我们线上模型在体验上有什么区别的啊?现在模型大家都体验过,我就不用多说了,那本地模型它非常的安全,你完全你所有的内容都不会处在, 完全在你本地跑,那很多人就会担心了,那我本地这个模型去跑的话,速度会不会非常慢?然后说一句话,大概要个几分钟?并不是的,我给大家演示一下,我们可以分三个问题来测试,比如说第一个问他可以做什么, 看一下啊他的反应,你看他开始思考了,已经开始输出了,看到他可以做很多很多很多事情,但我现在是用电脑操作,方便大家看未来使用的话,其实都是用手机 imessage 信息或者是微信直接让他回复,这样的话你不用盯着这样的屏幕,我现在只是为了给大家去展示, 你看他可以做很多事情,反应基本上跟线上是一样的。那比如说我让他推荐一下二零二五年的高分韩剧,因为这个问题就比较复杂了,他不能基于他的知识库了,他必须联网去搜索看一下这边模型已经开始在思考了。他去 网上去搜索的二零二五年的高分韩剧,然后是在豆瓣上去搜索的,说明哪怕我们这个是用的本地服务器,他依然具有网络的功能,同时你的这些内容只包含你。 呃,这个问的问题,但是实际你的真实数据是不会被传到网上的,比如说相对比较安全。如果你用网上的线上 a p s。 用 open club, 我 觉得毫无价值,因为你在出卖你的隐私。既然我们用到了 open club, 你 就必须要保证你的内容绝对的安全。现在是四点零六分, 可以看到是四点零六分,我这个问题是四点零五分问的,一分钟就可以得到一个被他优化过的一个啊,回复可以看到非常的细, 他也不是简单的随便给你说一下,那比如说这个片子啊,你看我后一个问题,比如说下载第一个到我的迅雷,其实这个就涉及到一个工具调用,就不是简单的一个大模型的一个对话,他是真正操作我的电脑啊,而且我的迅雷之前告诉他是在我的纳斯里面的, 因为这个操作就相当于复杂了,他要在我的 nas 里面去找迅雷,同时帮我找刚刚的第一个 这个电影的内容种子资源找了之后还得迅雷去下载,大家可以记录一下时间啊,我发过去是四点零六分,看一下他大概要多久处理完这个任务, 目前他已经找到了这个资源的名字。 ok, 可以 看到他这个片子他现在已经添加成功了,而且进度是百分之百的。问题是因为我之前可能测试已经下过啊, 现在的时间大概是你看过去的两到三分钟,他通过这个需求帮我去找电影,同时帮我下载成功,然后帮我监测进度,帮我查现在的进度, 整个流程大概三分钟可以搞定,线上我测试了大概是两分钟可以搞定,这个数据差距其实并不大,你要知道线上像这样的一个操作,你可能呃一个人民币就没有了,但是如果是本地,你可以无纸巾的使用,他上十年都没有任何问题, 而且他可以一直在后台给你做这么多事情。所以说我觉得如果你在乎隐私,又喜欢 open 这种没有纸巾的偷看的使用,那本地部署大模型就是最终的解决方案。 刚刚给大家分享完的就是我这个顶配机器的使用体验,那下面的这台机器就是我三十二 gb 的 体验,下一期给大家分享。如果我没有三十二 gb 的 跑小模型,速度又怎么样了?

训练一个大模型,你知道最贵的成本是什么呢?不是服务器,不是电费,是人,是那些懂怎么调参数、找 bug、 做评测的 ai 工程师。全球抢着要,薪资高到离谱。 但我今天要告诉你一个事,以后这活可能不用人来干了,因为今天 mini max 官宣了 m 二点七这个模型能参与自己的训练,自己找问题,自己优化,自己跑得超过一百轮循环,内部评测效果涨了百分之三十,全程没有任何工程师动它, ai 开始训练更好的 ai 了。 这不是科幻,是今天刚上线的事儿。大家好,我是杜宇,带你看懂 ai 赛道的前和事儿。先说新模型干了啥? m 二点七最核心的事儿啊,官方叫模型自我进化,翻 译成人话就是,以前训练 ai 得靠人工程师,哎,每天盯着改参数,查 bug、 跑评测。现在 m 二点七自己建了一套 agent harness 体系,你可以把它理解成 ai 的 工具手册箱。装上这一套工具之后啊,那模型能自己参与自己的 bug 排查一条龙,自己搞定 官方的数据库啊。在部分研发场景里, m 二点七已经能扛下百分之三十到百分之五十的工作量。更觉得是啊,它能连续跑超过一百轮分析、改进、验证的循环,自己调参数,自己优化策略,内部评测级效果提升了约百分之三十。 你肯定在想,这和我有什么关系,哎,先别急,我待会专门讲普通人的机会,我保证那个角度你没想到过,听完你都会有点慌,哎。但是好的那种话先继续说亮点,编程能力这一块啊,第三方专门做了一个测试,就是拿真实的工程向我们让 ai 去 找 bug, 修 bug, 提交代码,看能搞定多少。 m 二点七在这个测试里的完成率跟 open ai 的 gpt 五点三 codex 基本打平,跟 anthon 的 cloud open 四点六也在同一水平线上。欸,什么概念?就是国产开源模型已经在编程这件事情上正面刚赢了硅谷顶配的闭源模型, 办公场景这边也不差处理 word、 excel、 ppt 这种复杂文档的能力啊。第三方评出来,在所有开源模型里排第一,还超过了 gpt 五点三。另外有个数据我觉得特别直观啊,同时交代给他四十件复杂的事,他能保持百分之九十七的完成率, 四十件事只漏掉不到一件,哎,你让你的真人助理试试,大概也得漏个七八件吧。然后说说大家最近很熟的 openclore, 就是 那个龙虾,哎。对了,如果你关注 ai 群啊, 最近养虾这两个字应该是刷烂了你的信息流了。 open 可乐是一个开源的 ai 一 人框架, logo 是 一只红色的这个龙虾,所以大家叫它龙虾玩 open 可乐叫赛博养虾。 它的核心逻辑是让 ai 不 只是会聊天,还能动手干活,帮你移文件,改表格,操作软件,像一个真正的数字员工。 m 二点七跟 open 可乐的关系,用官方的话叫深度适配, 具体体现在两点,第一, memex 有 个专门针对 openclaw 场景的测试,叫 mmclaw, m 二点七在这个测试里拿了百分之六十二点七,已经非常接近 clodson 四点六的水平了。第二, m 二点七整合了 openclaw 的 长期记忆框架,说白了就是龙虾养得越久,它就越懂你。哎, 记得住你的偏好啊,历史任务啊,工作风格,这个是非常实用的能力啊。对了,这也是我刚出的新书的核心主题,养龙虾 openclaw 与 ai 智能体时代,这本书就是帮你搞懂怎么用好这套生态的, 从部署到实战,从个人体校到商业变现,感兴趣的可以去看一下。好,现在讲最重要的是 mini max 这一路到底是怎么进化过来的,以及后面会走向哪呢?我给你做个快速的复盘啊。 去年六月 m 一 发布,是个基础版本,去年十月 m 二发布,开始主打编程和 a 制能力开源啊。去年十二月底, m 二点一针对多元编程做的优化。 今年二月 m 二点五成本低到一美元,可以让一个 agent 跑一个小时,从 m 二到 m 二点五一百零八天,然后就是今天 m 二点七。重点呢,从我能干多少活,跳到了我能自己训练自己。这条进化曲线有一个非常清晰的方向,就是每 每一代的核心能力,从语言到代码到 agent, 再到自我进化,而且迭代周期越来越短,成本越来越低,性能越来越强。那这个趋势推演下一步是什么呢?我觉得是全流程的自动化,不只是代码,是数据采集、模型训练、评测、优化整条研发链路。 ai 都能自己跑到那一步啊, ai 厂商的研发成本会出现断崖式下降,同 同时性能会以我们现在很难想象的速度提升。最后讲普通人的机会,我说一个我觉得很少人真正能想的清楚的角度啊。大家看到这些消息通常有两种反应,一种是,哇,好厉害,然后划走。另一种是哎呀,要取代我了,好慌。但这两种反应都是错的,真正的机会窗口是在这。哎,成本塌陷了。 m 二点五那会儿一万美元,理论上可以支撑四个 a 整,连续工作整整一年。现在到了 m 二点七,能力又进了一步,价格还在往下走,这意味着什么呢?意味着以前只有大公司才玩得起的 a 整自动化,现在个人就能搭起来。 我自己看了不少投资项目啊。最近创业圈有个很典型的现象,那些用 open 可乐加上 m 二点五、 m 二点七这类模型搭的垂直 a 整工具, 有些团队就两三个人,能做出以前十几个人才能撑起来的工具产品。不是因为他们更聪明,是因为他们把模型当成了团队成员来用。所以我的建议是,现在最稀缺的能力不是写代码,是想清楚 ai 能帮我在哪个环节省掉什么成本,然后去搭它,测它,把它跑通。这事门槛低到你想不到, 但懂得做的人还是少数。欸,这也是我为什么写养龙虾 open 可乐与 ai 智能体时代,不是给享用 ai 真正赚到钱的普通人写的实战手册。 又说一句啊,今天 m 二点五的发布,我觉得最值得记住的不是某一个跑分数字,而是模型开始参与自己的训练。这件事本身人类花了几十年搞清楚怎么训练 ai, 现在 ai 开始入局了,这个变化比任何一条跑分都要深邃点。关注不迷路, ai 搞钱,我带路,我是杜宇,咱们下期见!


迷你 max 上次发 m 二点五才过去一个月,这两天又直接更了 m 二点七,速度非常快。这次更新重点很明显,复杂任务处理,还有 a 针的团队协助能力,对广场踢了一大截。以前的模型顶多就是帮你写几行代码打打下手。 m 二点七现在更像一个成熟的 s 二 e 监控白沙 bug 自动写,脚本修问题基本能一条龙就搞定。 而且他现在可以搭建 agent harness, 把思考和执行合到一起,算是真正具备自我叠展的能力。再加上深度适配了 open call 长期记忆,不管是沉浸式角色把扮演,情感交互还是很复杂的 office 四动画,跑起来都很顺畅。目前 m 二引擎在 mini mac 平台全量上线,想体验的可以自己去试一下。

最近 web 扣丁很火,能够做出非常酷炫的网页特效,一个人就可以开发软件、网站和插件,但是一旦涉及到复杂的逻辑判断就 懈怠了,大家纷纷怀疑大模型到底能不能独立解决现实中的复杂问题,直到 mini max m 二点一出现。相比 m 二版本全新升级,不仅懂多编程语言,能将模糊需求转化为清晰代码,更能在复杂的现实任务中成为你可靠的全站副驾。来阿拉丁,让你一键丝滑体验 mini max m 二点一。 第一步,打开 vs code, 点击左侧阿拉丁的图标,点击新建工作台, 填写名称,场景镜像,选择社区镜像和 minimax, 点击提交。创建完成后会弹出一个远端页面,点击信任,页面上会出现一份部署指南。我们先新建一个终端, 然后按照 redmi 的 命令安装。首先先把模型文件复制到 root 目录下,可以看到这里已经出现了 minimax m 二点一。接着激活 conda, 分 别在终端中输入下面三个命令, 可以看到这里已经显示了 minimax 的 环境。接下来打开 minimax 的 文件,点击 shell 奖本,然后点击运行, 然后在这里把 gpu 的 数量修改为八,选择 h 八零零 a 八十 g 的 gpu 和 minimax 的 python 环境,最后点击提交。接下来等待绘画创建, 在最后出现这样的形式就代表创建成功,然后进入当前绘画的终端,将 redmi 中的命令复制过来,然后稍作等待一下, 当中专出现以下内容的时候,就说明测试成功了,是不是很简单?关注我,带你学习更多部署知识,感谢收看,下期再见!

全球首份大模型财报出来了! mini max 上市五十二天,交出了一份相当亮眼的成绩单,营收同比增长百分之一百五十八点九, ar 突破一点五亿美元, 毛利率暴涨百分之四百三十七,亏损率明显收窄。从数字来看,这几乎是一份教科书籍的增长曲线。但作为行业观察者,我们还得扒开数字看看这份增长到底稳不稳。 先看最积极的一面啊。 mini max 的 增长是 c 端 ai 原生应用和 b 端开放平台的双轮驱动, c 端覆盖两百多个国家,累计两亿多用户。 b 端企业和开发者超过二十一万,且超过一半来自海外,这意味着它已经有一定规模的经常性收入基础。 但问题也恰恰在这百分之七十以上收入来自海外市场全聚化能力很强,同时也意味着他对国际政策、算力、出口数据合规的依赖更高。 ai 这个行业本身就高度敏感,地源变量永远不会消失。你看这两天伊朗局势一变,科技股立马受到影响。 再看毛利率,从负数到百分之二十五点四,这是一条非常漂亮的曲线,说明模型效率在提升,推理架构在优化,单位成本在下降。但是现在毛利提升是技术红利释放的结果,他是否能长期抵御行业价格战又是另一回事。 大模型公司本质上仍然是算力密集型企业,一旦 gpu 供给紧张或者套客价格进入竞争性下行,毛利率的弹性就会被压缩。再看产品节奏, mini max 在 一百零八天内连续迭代三代模型, m 二点五进入 no 神等国际主流生产线工具体系,这说明它正在从模型公司向平台公司转型。 很显然,这是一条非常正确的路径。但同时,模型能力领先的窗口机正在缩单, openai、 azure pick、 谷歌甚至开源阵营都在加速迭代产品,模型的性能护车盒正在被压缩成迭代速度的竞争。最后是 mini max 压住了三个超级 p m f ai 编程进入 l 四到 l 五级写作阶段,办公场景全面 ai 化,多媒体创作直出交付。如果这三个场景在二零二六年真的爆发,那么滔客需求可能会上升一个数量级, 平台型公司的价值会被重新定价。但如果企业客户的改造节奏慢于预期,如果编程依然停留在辅助层级,如果办公系统的替代成本过高,那么增长假设就会被重估。这就是现在最真实的状态。从这份财报来看, mini max 已经证明了大模型可以商业化,但还没有证明他已经穿越周期, 他正在从做模型走向做平台。而平台的价值不只取决于模型能力,还取决于生态粘性、成本、结构、政策环境和资本耐心。 可以这么说啊,现在的 mini max 即使在加速奔跑,也是在高空走钢丝。我们还要继续观察,未来 ai 到底会停留在工具阶段,还是成为新的生产技术设施。如果是后者,毫无疑问他站在了风口之上。如果不是,那么资本市场会比技术更早冷却下来。

好,又是四零九零一百二十八 g 内存来跑本地大模型的一天啊。然后我今天下载了一个叫做 open code 的 这个,这是 open ai, 这个开放的一个编码一个软件,然后这是我的这个项目,然后我之前不是说这个千问的三点五,然后有一个叫做四十 gb 的 叫做 codenext 的 吗? 这个是整个的文件是四十六,我说他出代码速度很慢。呃,今天我又在那个,我之前之所以下载这个模型,是因为我把我的配置告诉给了那个千问网页版, 然后他跟我说这个模型可以用,但是今天我下载了这个 open ai, 然后又在这边用这个 open ai 问了一下,用的这个模型是 mini max 二点五, 然后我问他,我说这个模型在你的机器上跑出出代码的速度会非常的慢,然后我就给 他的几个模型的选择,因为这里有一堆的模,我下载了一堆的模型,然后给他做一些选择,最后他跟我说用这个千问三点五,三十 b a 三 b 这个模就出代码应该会比较快一些,然后我让他帮我写了一点,但是呢这个 open i 这个 open code 它有一些免费的模型,就是这个 minimax 这个模型 他是免费可以用,我就暂时用这个模型改了一下我的这个本地的代码好像也还不错,好像也还不错,出代码的速度也非常的快,然后本地文件也做了修改,我现在就是需要验证一下他改的对不对,因为这是一个插件,他需要借助这个 本身这个软件开放的 a p i 来去做一些事情。我在这个改代码之前,我让他先分析了一下我这个项目,然后让他知道这个整个的调用流程很快,差不多几分钟吧,两三分钟,三五分钟,就在这个 memory 里面写了很多的内容。然 这边我还告诉他,我的 python 代码基本上都弃用了,然后他也做了标记,现在的这些代码呢都是 g s 和 html css 的 代码, python 的 代码呢,也都基本上都已经弃用了,我已经告诉他了,他也标记了,这都是他自动标记的啊,然后 解释型的语言不需要翻译,所以说他改的速度,读读的速度也非常的快。然后我也把这个软件的这个开放的 a、 p、 i, 就 官方的这些势力代码, 以及官方的这些说明,我全部都放到我的项目目录下面来了。我跟他说如果你看不懂我的代码的话,就去翻一下这个官方的文档,我告诉他这个官方文档的目录在哪, 然后他也确实去翻了啊,他也确实去翻了,他基本上很快速的就把整个项目的这个关键的这些内容都提取出来,我感觉还是不错的,然后待会看看效果怎么样。

我用 ai 写代码,半个月烧了七百块钱,真不是我夸张啊,用酷 sir 加索尼四点五钱呢,跟漏水一样。然后我发现有一个国产大模型,一个月不到三十块,效果呢,还不输主流的一线模型,它就是上个月刚推出的 mini max m 二点一。 有人会问了,这么便宜,这代码能力到底行不行啊?于是我赶紧看了公测数据,并亲身实测一下。首先我看了它 s w e bench 的 测试榜单,竟然直逼国外的 coco、 jimmy 和 gpt 这几个顶尖的模型。 首先声明啊, s w e 代表的不是那种刷题榜单,测的是真实的开发项目。接着实测环节,我直接用它跟索尼四点五正面对比,同一个项目,同一套提示词,同一套需求,我从下面这五个真实的开发场景测给你看。 首先是从零到一的架构,新项目提示的是开发一个智能 to do list 应用技术站,要求选用前后端分离加数据库。 核心功能呢,是基本的任务管理加 ai 建议,还有些性能和部署的要求。 m 二点一拆事项啊,更细,两者都把所有的功能实现了,但对比页面的美观度, m 二点一的主键没有很好的适配网页的宽度。这一轮索尼九分, m 二点一八分。 第二项,测试 bug 修复能力,针对模拟登录成功后不跳转的 bug 啊,原因有点小复杂,实测下来两个模型都差不多,都要抵 bug 好 几轮才解决,这一项平手都是七分。 让我感到惊喜的是,第三项加新功能,要求将 ai 分 析报告保存下来,供用户下载 pdf。 sony 这边生成的 pdf 直接中文乱码,要我自己去下载字体非常麻烦。 m 二点一呢,直接一步到位生成中文 pdf, 这点啊,我是真没想到。 这里给索尼七分。 m 二点一,九分。第四项,写文档,两个模型都写了规范的几千行的文档。不同点在于索尼更细节派, 比如时序图更贴近代码的逻辑,画的默写格式图啊,有颜色区分,我给九分。 m 二点一呢,更宏观派,图画得更简洁,我给八分。 最后,从多轮的稳定输出维度来看,两者都没有出现比较大的幻觉问题。输出稳定,但索尼偶尔网络抽风要重试。这里我给八分。 m 二点一呢,国内稳定,我给九分。 最后揭晓总分,苏尼四十分。 m 二点一,四十一分。这只是我个人的主观测试结果啊,仅供参考。 说实话,模型能力上啊,他们已经拉不开太大的差距了,但价格上差的是真的多,一个是半个月七百还没到头,用的心惊胆战。另一个呢,每个月才二十九,用我的专属邀请链接,还想八八折优惠,每五小时四十次对话,完全够我大胆的,放心用。 国内访问也稳定响应快,一个字想,那你会为了省钱切换这个国产大模型吗?评论区分享你的看法,关注我,带你了解更多有用的 ai 工具!

悄悄说个事,早上正在用着这个 mini max, 二点五正在用着起,突然他跟我说跑不动了,跑不了了,无法加载对话,然后我重新刷新了网页之后出现了 mini max m 二点七啊,现在官网上面现在好像还没有上过,最近的 二点半没有上,但是呢,他的这个软件界面已经是上了。那么赶紧上,赶紧上来试一试。

中国 ai 领域又迎来重磅消息, mini max 公司刚刚发布了其旗舰编程模型 m 二点五。 这个号称全球首个原生为智能体场景设计的生产级模型一经发布就在资本市场掀起轩然大波。这家获得阿里巴巴和阿布扎比主权财富基金支持的 ai 新贵,在二月十二日发布 m 二点五后,股价在香港市场一度暴涨百分之二十四, 最终收盘仍保持百分之十四点六二的涨幅,公司市值逼近两千亿港元大关。技术层面, m 二点五延续了前代的高效架构,虽然参数规模更大,但仅使用一百亿激活参数, 实现了更低的内存占用和更快的推理速度,每秒一百个 token 的 吞吐量据称已经超越部分国际领先模型。这款专为全站编程开发设计的模型, 在 excel 处理研究、自动化和 ppt 创建等生产历场景中表现尤为突出。 mini max 官方更是大胆宣称, m 二点五的综合性能直接对标国际顶尖模型 cloud opus 四点六。值得注意的是, mini max 创始人严俊杰曾是商汤科技高管,这家成立仅两年的公司已在全球两百多个国家和地区积累了超过两亿用户。 今年一月,在香港轰动性的 i p o 中, mini max 募资六点一九亿美元,首日股价就翻了一倍多。在当前激烈的 ai 编程助手市场竞争中, mini max m 二系列凭借出色的编程基础测试表现和更具竞争力的价格,正在向国际巨头发起挑战。这次 m 二点五的发布,无疑为中国 ai 产业又添了一把火。

深夜, mini max m 二点七的发布如闪电划破尘迹,瞬间点燃全球开发者社区。屏幕上,国服第一的标题赫然醒目,龙虾自我进化引发海外疯狂刷屏。 m 二点七凭借多智能体协助能力 迅速冲上榜单前列。开发者们兴奋直呼,构建智能体只要 opus 十分之一的价格,太香了!前沿实验室也该感受到开源与闭源差距缩小的压力了。 在 pinch bench 榜单上, m 二点七力压群雄,拿下全球第四、国产第一。这股热潮与 m 二点五霸榜 open router 史如出一辙。本周 gtc 大 会上,英伟达 ceo 黄仁勋高度评价了开源项目 open core, 并联合推出 nimo core, 而 mini max 正是该生态的核心玩家 为 open core 提供底层算力支持,其协助能力与大会热点完美契合。实测发现, m 二点七的更新令人惊喜。 首先是原生的多智能体协助能力模型,不再单打独斗,无需复杂框架即可自主分工。代码编辑方面,进化肉眼可见,查日制、重构代码, 甚至覆盖安卓开发等真实场景。在数字化办公中, excel、 word、 ppt 的 体验极其流畅,它不仅能干活、能协助,还是一个懂安全、会玩的智能伙伴。为了极限测试,我们让它构建多 a 阵的狼人杀系统。 从主持人到村民,每个角色都有独立记忆与决策能力,表现得像真人一样。虽然初识网页设计略显粗糙,但在学习了 get up 上的开源 ui 技能后, m 二点七迅速制作出视觉效果大幅提升的新版本。 这种实践总结再激励的能力,正是 mini max 在 max co 二产品中验证的完整链路自我进化已成为全球趋势, 而 mini max 提供了一个新范式,构建模型驱动模型进化的体系。团队仅用一人四天,便让 m 二系列模型自主搭建了包含 c i 测试审查的开发系统。 在实践中,模型承担了近一半的工作流,甚至自主运行了超过一百轮迭代循环,最终在评测级上将效果提升了百分之三十。这种自优化机制让它在机器学习任务中表现惊人,成绩直追 g p t 五点四。除了硬核科研, m 二点七还很有趣, 它能快速部署龙虾逃脱计划互动网页,根据你的决策走向不同结局。而全新的开源项目 open room 则让对话框变成了万物皆可互动的外部空间角色。有情绪场景随言语变化。 ai 自我进化的终极形式,或许就是这种充满沉浸感的多模态交互, mini max m 二点七正让未来加速到来。

全球 token 使用量上周数据出炉,中国大模型周调用量直接顶到了四点一九万亿, token 环比增长百分之三十五。什么意思呢?就是咱们这边已经把 ai 的 token 当电费在收了啊。连续两周,中国 ai 调用量全球 number one, 直接把老美甩在了身后,我们又又又遥遥领先了。来看第一个 midimax m, 二点五,周调用量一点八七万亿, token, 全球位免冠军, 这处理量相当于一周读完了三亿本书啊。第二个看总量,中国的四点一九万亿,美国三点六三万亿,这已经不是追赶了, 这是我们中国卷王的日常操作,差距只会越拉越大。第三个全球前五,中国占三席,第一个 mini max, 第三个就是 deep sec, 第五个就是 借月星辰啊。以前咱们是靠勤劳致富,在全球拼刺刀,现在咱们是靠算力直接枪尾打击啊。有很多朋友们不懂什么叫 token 啊,我解释一下,就是在 ai 时代把电能转换成算力,最后再转换成 token 啊,让我们来使用这个就叫 token 啊。其实出现这种情况还是国产 api 的 gbt gmail, 你找一个客户写一封开发信,然后发送给客户,这一套自动化流程要一美金,但是用国产的 deepsea, 你 只要一块钱人民币,你每天要是发一万封邮件,处理一千个循环的话,那这个省下来的就是纯利润啊。 这几天我也实际测试了一下,像什么全网搜索行业热点,然后总结成你的行业文章啊,或者是全部自动化下来,也就八毛到一块不等 啊,一天发个十篇文章,也就是不到一杯奶茶的钱,还有就是我发个什么国内的公众号文章,也是不到一块钱。 最方便的就是睡在床上,让小龙虾给你的客户啊,发一个邮件催他付款,问他这个项目进展的怎么样,也就一到两毛钱 啊,这价格已经算是很香了。所以你懂点计算机,有自学能力的还是尽早用起来吧。啊,不会的,你也不要焦虑,再等等啊,让子弹再飞一飞,成熟一点,稳重一点,咱们再用,最后赶紧跟上宇哥的步伐。

如果一个模型只能从零到一的写 demo, 它还算不上工程工具。这次收到 mini max m 二点五的内测邀请呢,我决定做一件有点冒险的事情,我想要把它呢接近我正在开发的一款产品。好货 app。 那 这不是测试项目啊,这是一个真实的 springboard 的 后端,真实的数据库结构,真实的业务逻辑。它要在完全不能乱动现有结构的前提下,给我生成一 整套 admin 管理后台,如果说他理解错了一个字段,整个系统就会崩塌。所以今天这个视频呢,我们就不聊参数,也不聊跑分,我只测试一件事情,就是 mini max 二点五能否接管真实工程,为实际的开发工作提升效率。 好货 a p p 呢,它目前已经有一个完整的后端体系, spring boot, my circle, mango db release。 现在呢,打卡朋友圈排行榜啊,里程碑这些功能呢,都是已经完美跑起来了,那现在它缺的呢,是一套真正可以去运营的 element 管理后台。 下面这些呢,就是我们本次要开发的一些功能。本次用到的开发工具呢,是 open code 啊,我已经安装了。现在呢,我们就需要去把这个 mini max m 二点五集成进来。那我在做视频的时候呢,它还是处在一个内侧的阶段啊,大家可以看到,目前这个官网它是只能支持 mini max m 二点一的。 那这里呢,我们提前购买了 coding plan 啊,它用于这个日常开发还是非常舒服的。这边它支持的一个开发工具就有这么多,我们找到 open code, 然后照着这个文档去配置一下。现在呢,我们去随便写点提示词,只要能够看到正常回复,就表示安装成功了。 我们在项目的根目录打开 open code, 首先呢我们需要去输入这个斜杠一定的命令,让 open code 对 整个项目建立一个,所以呢可以看到它这边是用英文来回复的啊,不过没关系, 我们可以去啊,让他接下来尽量使用中文来回复我们。然后呢我让他重新生成了一下这个 agent 点, md, 那 执行完毕之后呢,我们就输入这段提示词啊,然后开始执行。 他首先呢会去制定一个详细的开发计划,那这一步呢,我建议大家可以去啊,暂停看一下,比对一下和自己的一个预期是否是一致的,那我觉得他理解是完全正确的啊,所以说我就让他继续执行了。 接下来的话呢,它会创建一个 to do list, 把这个庞大的任务啊拆解成多个小任务,同时呢也可以去追踪任务的一个执行状态。 那它现在呢就按这个顺序去执行了,完成一步呢会标记一下,那可以看到这个 mini max m 二点五的一个执行速度还是非常快的。实体类啊, controller 啊,还有这个数据操作层, surface 层的这个代码一会就生成完毕了。紧接着他对后端做了一次变异啊,然后发现这边有问题, open code 呢,也会自动的去读取控制台的一个报错信息, 然后自行修正啊,就完全不用我们操心。 ok, 那 现在的话呢,整个项目就已经变异通过了,他开始做前端项目,他生成的一个速度也是非常的快,并且中途也是没有出现任何问题的。那接下来的话呢,我们就让他变异运行一下前后端两个项目,测试了一下后端的 api, 发现是四零三了, 这里他给到我一个修复建议啊,并且让我注意的是啊,这里是因为系统健全层面的一个配置的问题,那我觉得当前是开发测试阶段嘛,对吧?就让他直接放行了,正常这里的话是需要走这个用户健全的。那后来呢,我又让他自己造了一点测试数据啊, 这里他对于整个项目已有的一个数据库自断定义还是非常熟悉的,所以说这个测试数据的一个生成以及插入都是非常迅速的。现在呢,我们就去浏览器看一下它整体的一个效果。首先是这个数据看版啊,用户总量,包括今日打卡数,活跃趋势曲线都已经正常渲染出来了, 数据呢不是假数据,而是从我们现有的一个数据库里面查询统计出来的。接下来的话呢,我们来看一下这个用户管理的模块, 这个列表呢是支持分页的,包括上面的搜索筛选也是可用的,点进这个用户详情呢,可以看到用户当时的一个注册信息,打卡记录以及最近活跃的时间。那这些字段呢,都和我们现有的这个数据库结构是完全对齐的啊,那现在呢,我就去做一个真实的功能验证啊,我选择其中一个测试账号,然后我们点击禁用, 接下来我们去到 ios 端,然后用这个账号重新做一下登录,可以看到现在已经是无法登录了,提示这个账号异常。那说明呢,我们现在后台的这个状态字段的一个修改,已经可以真实影响到我们前端的一个现有业务逻辑了。这一步呢,我觉得是非常关键的啊,就是他不是在做一个独立的后台功能, 而是可以真正的去接入啊,我们现在的一个原有系统。那接下来的话呢,我们测试一下内容的审核啊,我这边在后台打开朋友圈的一个列表,这里呢我提前准备了一条包含不文明用语的一个测试内容啊,我们现在呢就点击删除。 接下来呢,我们还是去到 ios 端,然后刷新这个朋友圈的一个页面啊,可以看到刚才的那条动态已经不见了,然后其他的一些功能也都是可用的啊,整体的一个开发效果我觉得还是做得非常的不错。那整体跑下来的话呢,这已经不是一个生成一套界面, 而是完成了一次真正的系统级别的对接啊,从数据库结构的一个理解啊,到接口调用啊,再到这个权限与状态的控制啊, 整个链路我觉得它是做到了完美的闭环。那做到这里的话呢,我比较确定的一件事情就是 mini max m 二点五呢,在这个项目里面,它不仅仅是帮我们写了代码,而是真正的去接管了一整个完整的工程任务。顺带提一嘴啊,最近很火的这个 openclock 大 龙虾呢,也是可以去直接附用 mini max 的 coding plan, 就是 同一个 plan, 我 们既可以去做日常开发,也可以去跑这个大龙虾,真正做到了一次付费,多场景使用,性价比还是很高的。另外呢,大家通过我的这个专属链接呢,可以享受八八折的优惠 活动呢,是一直持续到二月底结束的,链接呢,我就放到评论区了。 ok, 那 以上呢,就是本期视频的一个全部内容了,感谢大家的收看,我们下个视频,再见, peace。

大家好,本来想测试 mini max 二点七的,奈何还没有开源,所以这次我们就来随便娱乐一下。提示词我放在评论区了,大家可以自己复制并测试,记得返图哦! 废话不多说,我们直接看效果。上面是 mini max 二点七,下面分别是村里的第一个大学生 deepsea 三点二,开源社区霸主阿里千问三点五 plus 新晋代码 智能体 clod opus 四点六, 最后是号称可以压 opus 四点六一头的 gpt 五点四, 压轴登场的是本地部署的千问三点五三十五币,还请大家做好预期管理。 你觉得哪个模型生成的效果更好呢?欢迎留言讨论哦!

自从 solo cds 二点零视频模型越来越火,国内 ai 视频大模型也卷风了。今天主播我找了五家平台,分别用同样的首尾帧图片,同样的文案生成视频, 分别有极梦 video、 mini maxi、 海螺可灵 ai。 所有视频我也会一次性放到视频结尾,方便大家对比观看。 ok, 首先给大家展示一下我的两张图片以及它的生成文案, 一张是人物的战神,一张是变身后的形象,是一个比较抽象诡异的克苏鲁变身视频。模样呢,是从手针变成尾针,要求画风显示触手突然从身上冒出来,人物脸色狰狞痛苦,然后以瞬间那一颗巨大的触手围绕,最后变身成尾针,一进到底。 这里面所有的 ai 模型文案一致,图片一致,主打真实对比,都用平台目前最好的视频生成模型, ok! 展示 厉害! 不得不说啊,实际用下来 mini max 很 便捷,速度也非常快,三分钟就能生成一整段视频。已经自带的分镜头可以看到这里,他会先分析你的图片内容,然后自动生成的分镜头脚本,最后一键合成视频。 我原先预想的就是一个人物变身,可变身成功的镜头,但没想到他中途加了一些分镜头内容,这一点我觉得还是挺棒的,而且后面的所有任务全部都给你展示出来。 就是这个变身中途有点列齐了,我没想到他给我包成粽子了啊,多少有点列齐了。目前这个平台是免费的,效果也不错,在目前这个 ai 预算暴涨的年代,依旧用爱发电,这我必须支持一波。好吧,慌爆了! 呃,怎么说呢,我之前用这个大模型,我感觉还挺顺滑的,至少没有这么抽象啊,可能是我今天给的工程少了吧,就整体看起来跟那种 ppt 一 样的一卡一卡的 效果非常的不出其人意啊,这里只能给到个拉,然后我们下一个 小 video。 这个视频模型呢,我也是第一次用,对比起来就很鲜明了。我在这个视频文案里面忘记放一帧到底了,但是 video 到最后自己就给我生成了一帧到底的视频,一个突然的马赛会选,直接给我人整不见了。整体观感上来啊。怎么说呢, 我感觉一般般,就是没有太大的亮点,变身的过程中人物消失的也很仓促,如果要排的话,我觉得人上人,毕竟没有整体太大的画面出错,下一个 what 可灵。就是没想到已经这么久了,现在市场这么内卷了,整体上还是很糟糕啊。我感觉 我所有的关键词指令除了变身,其他的都被它魔改了,人物的真理呢,变成了露齿笑,哈哈哈,触手变身呢,变成了光之巨人,就很不符合这个情调和画面,而且音频也给我变性了,说是 主播好歹也是个健身快一年的人了,多少有点接受不了啊。这里直接给他拉完了下一个 海螺 ai 这一段用的是海螺二点零模型做的,因为最新的海螺二点三模型不支持首尾帧,目前只能用二点零实现了,不过为了公平起见,二点三的模型在视频片尾也会给大家展示出来,大家自觉欣赏 好回到二点零,因为我的关键词本来是触手变身嘛,海螺二点零他自己换了个逻辑,让我被海怪突然袭击最后变身,这一点其实看得出来 ai 他 有自己的脑洞在的啊。不管是之前 mini max 的 包裹变身,还是海螺的触手围绕变身, 整体来说海螺更符合巨大的触手这一点的。唯一可惜的一点就是依旧没有音频,变身过程之间人物像是被挤加了一样,在这里呢,也最多给到人上人上人。 这就是本期视频的所有内容了,希望大家喜欢,感兴趣的点个关注,还会分享更多有趣的 ai 知识。

今天的话我们来学习了解 mini max m 二点五全球编程和智能体能力最强的这个开源模型。 首先的话我们会从底层的这个模型概览核心技术和这一个技能以及本地部署应用场景来去进行这个讲解。那么首先的话 mini max m 二点五是作为中国公司 mini max 的 这一个二零二六年二月份就是最近推出了一款大模型, 它被号称为就是目前目前的这一个全球编程和智能体能力最强的开源模式,并且极其便宜,就每小时只花一美元就能以一百 token 每秒的这个速度持续运行, 那么它与这一个我们之前讲的这个 queen 三点五的核心区别。首先它的这个参数是两千三百亿,小于这个阿里的这个 queen 三点五的三千九百七十亿,同时它的这个活跃参数是十币,在一百亿左右 的核心优势能力是在于这一个编程和 a 级的能力比较强,那么如果说 pin 三点五是一个全能型的这一个选手看图说话翻译,那么 mini max 的 话其实就是一个编程的自动化专家,他比较擅长写代码,修 bug, 上网搜索、 操作办公软件。为什么这个模型在这个位置里面是比较突出的呢?首先的话它就是这一个修 bug 的 能力是全球在这开源里面是比较领先的,接近这个 cloud ops 四点六的这样的一个模型。 同时的话它的这个多语言的这个修复 bug 的 能力是达到了百分之五十一点三。还有 ter terminalbench 就是 终端操作这一款,竞争力是达到了百分之五十九点三,终端操作的这个能力其实是比较强的, 但是它的成本其实只有 cloud 的 十分之一,这就是导致它具备一个极致的这个性价比。那么同时的话它带来一个优势的话,就是它的这一个 它的这个成本是极低的。那么在我最近爆火的这个 open cloud 这一个产品的时候,它其实是在这里面是具备很大的优势的,让 open cloud 为我们进行这个日常的办公,其实是变为了口可能 那么它同时也有几个版本,比如 mini max lightning 就是 三美元,然后百万 token 就是 零点三美元百万 token 以及这一个输出的话是二点四美元,以及这一个 mini max m 二点五,标准版的话是零点一五美元百万 token 输入,还有一点二美元的百万输出。 cloud opera 四点六的话,它输入的是这一个十五美元一百万 token, 那 么输出的话是七十五美元百万的 token。 g p t 五点二的话是输入是五美元,然后输出是十五美元。 m 二点五的这个成本是十,是 cloud opera 的 十分之一到二十分之一,嗯,它的这个成本是这个 g p t 五点二的这个十分之一和十二分之一, 那么它的这个亮点的话,它还有一些核心的这个亮点,比如说它的这个 bronze comp 的 这个,嗯,电脑这个搜索能力是达到了百分之七十六点三, 然后的这个网页的能力竞争力的话是达到了,嗯,百分之七十六点四,那么它在这个网页的这个浏览信息搜索、证据追溯等方面其实的能力是非常的突出出色, 那么同时的话就是它的这个它能够很好地去实现我们这一个办公的自动化,那比如说 word 文档自动排版生成报告,还有这一个 powerpoint 自动制作演示文稿, 以及这个 excel 的 这个金融建模数据分析公式生成,这些能力的话其实是比较强的,是要优于其他的这个主流模型和开源模型的。 那么我们再来详细的讲解一下。呃, mini max 它为什么能有这样能力?它核心的这个技术原理是什么样的?首先的话它采取的是也是这一个 mo 混合专家模型,用这个稀疏激活机制推理的时候,仅激活部分的参数, 而非全部的参数,同时如同调用这个专家团一样,而非全全员出动,那么大幅度的提升这个效率。其次的话就是这个模型的基本参数是,呃,模型的这个类型是英国语言类型, 它是主要是理解这个生成文字,它没有这个视觉能力。第二点的话它总参数是两千三百亿, 这是模型的这个知识容量,那每次激活的参数是一百亿,实时干活的用到的这个参数就是这个一百亿。另外的话,它的架构是采取了这一个混合专家的这个架构稀疏激活的这种架构那么可以做到高效的推理,上下文的 长度啊,是大概二十万的左右的这样的一个上下文长度 token, 那 么一次可以处理十五万字, 同时的话它的推理速度在一百 t p s, 就是 每秒生成一百个这个 token, 而模型大小的话是在这个 b f, 嗯,十六四百五十七 g 的 原始的这一个原始末的这一个压缩的大小, m o e 的 这个价格为什么 又小又强呢?那么跟 queen 三点五其实是一样的,它就相当于是每次只激活这一个一百亿的这个参数,然后做到推理更快,成本更低,同时能够跑更多并发,那么同样的硬件服务可以服务更多的这个用户。 另外的话它还加强了一个,就是这一个 a 型的这个原生能力的这个强化的学习架构, 那么它采取的这个架构的话叫做 foreign 强化学习架构,它是它的技术创新,传统的这个模型训练方式是数据加训练,加模型学会说话,而 minimax m 二点五的这个训练方式是二十万加上真实环境, 然后再强化学习,模型一步一步学会做事。那么在大版环境里面,它就直接在二十万的这一个, 用二十万的这一个相关的这一个参数,然后模型像真实的实际师生一样,在真实的环境里面不断的尝试,然后获得反馈,从而掌握这一个使用工具的解决问题的这个能力,实现从说话到做事的这个跨越。 那包括它的这个浏览器办公环境和各种工具 api, 它实现的就是二十万加上真实环境加上强化学习,以及让模型逐渐的学会做事情。 a foreign 的 这个框架的这个语特点,其实它第一是实现了这一个 aint 的 原声,那么模型从训练开始就能够学习如何使当智能体,而不是先对 先学对话再适配,同时的话实现这个环境解偶,那么训练的这个引擎和 aint 完全分离,支持任意的 aint 的 框架,那么同时也做到这个训练吞吐量实现约四十倍的这个训练的加速。 其次的话它支持这一个树形的合并,那么创新的这一个样训练样本的话,其实是用来做这个训练加速的。 其次的话它还采取了这一个 c i s p o 的 算法,那么做到这一个稳定的训练 m o e 的 模型, minimax 自研的这个 c i s p o 的 算法来确保大模大规模的 mo 模型训练的稳定性,那么还解决了行业的一个痛点,就是 mo 模型在大规模训练的时候容易出现这个不稳定性,它采取的就是这一个,嗯,交错思考模型, minimax m 二点五的它的这一个交错思考模型其实是使用这个 think, 然后里面包括这个内容,再加上 think 的 这个标签包裹着来进行推理。 比如说用户的问题,请修复这个 python 函数中的 bug, 那 么模型输出的话就是 think 让我分析这个函数问题,在第三行类 请转换错误,需要在调用前添加这个类型检查,然后我发现了问题,第三行 缺少类型检查。以下是修复后的这个代码,然后再进行这个代码的修复,那么这个的话就是关注这个重要的东西,在多轮对话里面必须要保持保证这一个历史的信息, think 杠 think 的 这个里面的内容 如果删除的话,模型的性能就会显著下降,这与这一个 queen 三点五不同, queen 三点五是要求在历史中去掉这一个思考的内容, 而这个的话就是要保留历史中的这个 think 的 核心关键信息是一个交错思考的这样的一个模型, 另外的话它就是有这个 specwriting 的 倾向,像架构师一样去思考。那么 m 二点五在训练时涌涌现出了一个独特的行为,就是 specwriting tendency。 在 写任何的代码之前, m 二点五会主动地分解项目的需求,规划功能和架构, 同时设计这个 ui 方案,向一个经验丰富的这个软件架构师从全局出发,然后去能够这不是人为的这个编程能力,而是在大模大规模的这一个强化学习之后,自然涌现出来的这样一个编程的能力,这是非常厉害的。 那么其次的话就是另外它的这个编程能力在业界对比的话其实是比较强的,基本上能跟 cloud ops 嗯,四点五持平。同时的话它在权威的这个 s w e 奔驰这个测试里面,它其实也是,嗯,另外的话,它有极具这一个性价比的这一个优势, 具备这一个全站开发的这个能力。 那么另外就是 m 二点五它的一个特别之处就是它在它,它在不同的这个 a 型的架构下面都能够保持这一个稳定的性能。比如说 open code 的 架构下面,它有百分之七十六点一,还有 cloud ops 是 百分之七十五点 九,还有这一个座椅的这个框架下面是这一个百分之七十九点七,以及这一个 cloud ops 四点六,是百分之七十八点九。 另外的话就是这一个 m 二点五的这个 swbench verified 达到百分之八十点二,与这个 cloud ops 四点六其实是相差百分之零点七,还有 marty swbench 的 这一个参数里面是百分之五十一点三是目前公开的最高成绩,关键的差异的话就是完成这个 swbench 任务的这个速度提升了百分之三十七,平均是 二十二点八分钟,每任务与这个 cloud ops 四点六是基本上持平,但成本的话只有 cloud ops 四点六的十分之一。 这意味着就是 m 二点五不再依赖任何特定的工具环境,都能够表现出色,并且发货能力很强。 在全站开发能力的话, m 二点五也覆盖了完整的这个编程场景,有这个零到一的系统设计,从零 开始规划这一个架构,一到十的这一个系统开发核心的功能,实现十到九十的这个功能的迭代,持续的添加新功能,九十到一百的这个代码测试 和这个质量把控。那覆盖的这个平台技术有这个 web 前端比较擅长 html, css, js, script, type script, 还有 regact, 安卓的应用的开发, ios 的 应用开发, windows 的 应用开发,服务端的 api, 业务逻辑数据库,它精通十数种这一个 go, 嗯, c c 加加 type script 和 python, java, javascript, php 和 lua dot 以及这一个 ruby 这些开发框架。同时它也具备这个搜索与工具的这个使用能力其实也是比较强的,超过了 gpt 五点二 通过它使用的这个较少的这个搜索轮次,然后比这个 m 二点一减少了百分之二十的这个轮次,就能够得到正确的这个答案。这说明模型不不仅仅是找得到,而且是找的更聪明,更快、更准。 那么同时他在这一个 rse rise 的 这一个评测里面,专业级搜索里面,他也自建了这个 rise 的 这个评测。那么模拟这个人类学家真实的搜索过程,不仅是搜索引擎的查询,包含在这个信息密集的网页里面深度搜索,他在这个评测里面也表现出色。 同时的话它通用了这个智智力的这个能力,包括数据竞赛专业的领域,它都是能够达到世界领先的这样的一个水平,包括 she 无工具和这一个 s s i code, 还有这个 if bench 指令遵循,以及 a a a a a l c r 长上条文的这个搜索能力也是比较的突出。那么它进步的是很好的一点,就是实现这一个办公的自动化,它通过这个 g p t 的 这一个 pro 就是 平均的这个胜率,对比所有的主流模型在办公场景下里面的表现是胜率在百分之五十九点零。同时它的这个 excel 竞赛里面也是领先的由这一个金融专家设计的这个评测。 那么它的这个速度和效率的话,其实也是在同行业里面是比较的快,它能推理速度达到一百 t p s。 另外它的任务完成率和综合评价都还是比较优秀的,但是它还有一些不足,它的不足的话第一个就是数学竞赛,它是比较弱的,专业科学的话它又也比较弱,超难题的话是比揭秘版要差了不少。 然后视觉理解的话,目前是不支持多云覆盖的话,其实不如这个 queen 三点五。然后它的百万 token 是 有比较大的优势,只有其他模型的呃二分之一到二十分之一, 另外它跟这个 queen queens 这一个三点五的这个比较优势就是第一个它编编程改 bug 这样的一个优势其实是比较强的,搜索 agent 的 这个能力也是比较强, 然后这一个数,呃,数学的推理的话是 queen 三点五更强,视觉理解 queen 三点五更强。然后多语言的话是 queen 三点五会更强一些。文档的这一个 ocr 其实是 queen 三点五更强。 另外就是办公的这个自动化其实是这一个,呃, m 二点五更强,推理的这个速度是 m 二点五更强。 api 的 这个价格其实是 m 二点五更便宜,模型的大小其实是 m 二点五更清亮,同时的话,本地的这一个运行是 m 二点五更容易, 那么核心的这一个需求的话,如果你是写代码修 bug 的 话,那么你可以选择这个 mini max 二点五,办公自动化预算极其有限,或者需要大量并发以及这个本地部署。还有这一个看图处理文档 的话,呃,就是前面的话,这些都是 minmax 会更强一些。然后如果你是要看图处理文档或者多语言翻译,那你用 queen 三点五更好一些。顶级的这种数据竞赛还是选择这个 gpt 五点二,另外简单开箱即用的话,那么还是选择这个成熟的币币源的这个生态 部署方案的话,它这里重点的话就是由这一个 a 镜的网页版和这个 api 调用,以及欧拉玛和这一个企业,企业端的这个部署推荐的这个配置是一百二十八 g 的 这个 mac 的 话,它能够稳定的部署,同时入门的话是要九十九十六 gb 的 这个 mac 或者是 pc, 然后实现这个有效的部署。还有就是多 gpu 的 服务器就实现全量的这个部署, 它要在这个三 bit 量化之后,只需要一百二十八 g 的 这个内存就能够实现这一个相关的,那么它是一个很好的编程学习助手,办公效率提升。同时的话它也是一个软件开发团队,能够进行这一个加速且便宜, 还有这个成本降低。另外它能够作为 open cloud 永远在线的这个 ai 员工,这也是得益于它极低的成本和极强的这个办公的这个 ag 的 能力。那么如果你想去开发这个 ag 等,就要定义好你的工具,定义好你的流程,调用对应的这个 api, 然后来做到这一点,然后它能够保证你的话就是极致的这个性价比,办公的自动化以及这个全球顶尖的能力。 以上的话就是我们针对这个 minmax m 二点五的这个深度解析和使用介绍,如果你感兴趣的话也可以随时联系我们,欢迎与我们进行沟通交流。