呃,如果我现在告诉你,嗯,就是在最近的一场硬核代码经济里头,有一个极其廉价而且参数量极小的 ai 模型,直接把那些造价数亿美元的巨无霸大模型给逼到了墙角, 你敢信吗?哇,这听起来确实很反直觉,因为我们一直以来的印象里,呃, ai 就 像是在造通天塔嘛。对,各家科技巨头都在疯狂地堆砌参数, 好像模型必须得越大,它才越聪明。是的,但今天我们要聊聊,为什么这种呃笨重的大模型可能恰恰正在拖你的后腿。 欢迎来到本季的深度剖析,我们来拆解一下今天的核心资料。没问题,这份资料呢,是一份一手时机测评,来自 youtube 频道 ai code king。 而今天的主角是一个刚刚经过全面测试的新模型,叫做 minimax m two point seven。 没错, m two point seven! 我 们今天的核心任务就是要为你提炼出为什么这个体积更小更便宜的模型能在实测里把一重大模型按在地上摩擦。 还有就是,作为致力于提升效率的你,该怎么利用这种小模型策略来优化你自己的工作流。这是个非常实际的问题,对吧?那我们先来理清一个概念,在这个所有人都恨不得造出一个呃无所不知的聊天机器人的时代, 为什么 minimax, m two point seven 却反其道而行之呢?这里令人着迷的是,它从根本上就拒绝了全能这个标签哦,怎么说?就是根据测评资料来看, m two point seven 是 之前 m two point five 的 升级版,它通过持续的后训练得到了很大的提升, 但是我们需要明确它的定调,它绝对不是一个用来跟你闲聊或者回答什么宇宙起源这种尝试问题的聊天模型。嗯哼,它是一个代理模型。代理模型?呃,这个词听起来可得有点抽象。 对于正在听节目的你来说,这到底意味着什么?意味着它舍了掉了庞大的原始知识库,把体量做的特别小。那带来的直接好处就是速度极快,而且价格极低。 资料里还提到,他甚至提供了一个收费稍微高一点点,但速度非常惊人的超高速版本。哇,超高速?对,他其实把所有的技能点都加在了指令循循和工具调用上, 他不负责思考决学问题,他只负责精准执行你交代的人物。呃,我觉得可以用个生动短的类比。 这就好像我们其实不需要每个在工地上搬砖的建筑工人都拥有一个建筑学博士学位,对吧?哈哈,这个比喻很贴切。嗯,二点七,就像是一个极其听话、手脚极其麻利的高级技工, 你只要给他图纸,他一秒钟就能把墙砌得漂漂亮亮的。所以,这对你意味着什么呢?意味着你根本不需要去为你不需要的那个博士级认知买单。确实是这样。 那既然说他是高级技工,我们就得看看他在实战中的表现了。对,测试者在代码经纪场里对他做了一系列硬核测试。首先看连接方式,测试者用的是一个叫 killex 的 终端。 嗯,直接在终端里操作。没错,直接通过一个杠 connect 命令就调用了 minimax api, 开始写代码,非常便捷。这也是代理模型的一个特点,它生来就是为了无缝接入你的工作台的。是的, 那第一个实战案例是用勾语言写一个终端计算器,并且要求用八步梯这个库。 结果呢,不仅代码简洁美观,速度还极快。速度有多快?测试者在视频里直接感叹了,说在现在一堆运行缓慢的大模型里头,它的速度真的是让人眼前一亮。速度在编程里太重要了,因为它能让你保持心流, 不会因为等 ai 思考而打断思路。没错,但接下来这个更夸张。第二个测试是一个 knx 全站应用,要求克隆一个戴尔 s q l 的 气质数据库的 stack overflow。 哇,这是一个完整的应用了,包括前端、后端,还有数据库。对啊, 你猜怎么着?生成的前端设计非常精美,什么登录啊,注册呀,提问,这些功能全都运转流畅,代码质量极高。 资料里说,它的表现完全和昂贵的 codex 平台相当,但是成本和时间大幅度降低, 这恰恰证明了小模型在处理具体任务时的高效。但其实我觉得测评里最能说明问题的是后面那个 swelt 应用的测试,那个真的是绝了。 对于不写代码的听众,你可以把 swelt 理写为前端开发系的一门少数派方言。 这就一下击中了 m two 七的软肋,因为我们刚才说了,他脑子里没装那么多百科全书式的知识。遇到这种非主流框架,他一开始非常困惑,这是小魔星的必然弱点, 原始数据不够吗?但是等等,这里才是真正有意思的地方。在短暂的卡科之后,他竟然生成了测试者见过的,呃,史上最好的代码生成之一。 真的假的?千真万确。他甚至像个真正的产品经理一样,主动给你添加了看板、颜色、平滑过度这些出色的细节。虽然在易步更新上有一点点小瑕疵,但这简直是一次逆袭啊。这就必须要聊聊他背后的逻辑了。 为什么他在困惑之后能爆发?这证明了经过良好训练的小模型,他在处理特定技能要求的工作时,有着超乎想象的灵活性。 这全靠他优秀的后训练赋予的试错和纠错能力。嗯,他不靠死记硬背,他靠的是极强的执行逻辑。但是,我们不能只报喜不报忧。如果是真实的受众,就是正在听节目的你遇到他完全不懂的领域,那搞砸了怎么办?他的短板究竟在哪? 测评式料里完全没有回避这一点。在面对真正的硬茬时, m two 七确实碰壁了。比如呢?比如在使用 rust 的 语言写 tower 应用的时候, rust 本身就极度复杂。 还有,在出力那种完全开放式的代码问题时, m two 七彻底失败了。因为它不知道该从哪下手,对吧?对,因为它太小了。它缺乏那种广博的原始知识储备去进行自由发散和联想。 你如果不给他极其明确的指令,他就转不动了。但即便如此,资料提到,他在解决那个勾图游戏问题上表现极佳,甚至在测试者的排行榜上拿到了不可思议的第四名。第四名,这在一个被巨型模型统治的榜单上是非常罕见的。 所以,这就引出了一个核心问题,我们到底该怎么用它?测评者给出了一个非常棒的最佳实践,堪称黄金搭档法则哦。说来提请, 就是用像 gpt、 五点四这样的大模型去进行规划,当架构师,然后让 minimax、 m two 七去执行这个计划,当施工队绝妙的组合, 大模型出土值,小模型去搬砖,而且还能结合像 opencloe 这类的工具,赋予它特定的前端设计能力,实现精准的转向。 说到这里,资料里还植入了一个非常有意思的行业生态背景,嗯哼是一个叫 on demand 的 赞助商平台, 虽然是赞助内容,但它恰恰揭示了现在的行业痛点。这个平台提供了四百多个工具,一千两百多种组合,让你戏化式搭建 ai 工作流。 也就是现在大家的问题根本不是没有 ai 可用对,而是不知道怎么把这些 ai 给拼接起来。如果我们把这个和宏观趋势联接起来,看 大模型做规划,加上各种工具,再配合 m 二点七这种极速代理模型去执行,这简直就是当下最经济、最高效的系统架构。没错, m 二点七就是多智能体自动化、工作流理最完美的那个小齿轮。 如果你在每个环节都用大模型,那整个系统早就被成本和延迟给拖垮了。所以这对你有什么启发? 如果你还在试图用一个庞大昂贵的模型解决工作里的所有问题,你可能在浪费大量的金钱和时间。你需要的是建立一个团队,而 m 二点七是这个团队里完美的执行者。这其实也反映了整个 ai 行业的不同走向。是的, 我们跳出测评来看整个行业的逻辑,你会发现,大多数公司,包括谷歌,都在一味地增加参数量提到价格,比如 gemini。 对, 但讽刺的是,这些巨无霸在实际应用和工具调用上,有时候表现的甚至还不如小模型好。完全同意! 测评者甚至说, mini max 是 目前最被低估的模型,它们正在别人不关注的地方,也就是小模型领域疯狂推动边界。这也是我最想强调的一点, 知识和技术只有在被真正理解并只广泛应用的时候,它才是有价值的。没错, mini max 的 这个策略旗帜向市场证明了拥有真正优秀的训练数据和后续练过程,比单纯的堆砌参数更能产生实际的商业价值。 它不仅便宜,还极大地降低了个人开发者的门槛。所以,我想问问正在听节目的你,面对这样的市场,你是更愿意花重金去请一个经常会过度思考、动作缓慢的大学者,还是愿意用极低的情本雇佣一支指哪打哪、效率极高的特种部队呢?答案不言而喻。是的, 我们快速回顾一下尖尖这场深度拆解的重点, mini max m 二点七这个参数小、速度快、价基低的模型。它聪明地放弃了全知全能,换取了顶级的执行力和工具调用能力。嗯, 它在代码生成里表现惊艳,尤其是跟 g p t 五点四这样的大模型配合时, 能为你打造出直际性价比的工作流。不管你是程序员、项目经理,还是单纯对 ai 提效感兴趣的学习者,这种架构师加执行者的搭配思路,你今天听完就可以直接拿去优化自己的日常工作。确实, 这种思路非常实用。好,那在节目的最后,我想留下一个稍微深层次一点的问题,供您慢慢思考。嗯,如果像 m 二点七这样的小模型变得越来越专业,速度越来越快,未来的 ai 还会是我们现在设想的那样,就是 全人类面对着一个单一的无所不知的超级大脑在对话吗?这是一个很好的问题。或者倒不如说,未来的操作系统会变成一个肉眼根本看不见,由数以百万计,像 m 二点七这样的小模型组成的数字蚁群。哇, 数字蚁群这个概念很有画面感对吧?它们在几毫秒之内在底层默默为你分工,协助调用工具搭建起你想要的一切, 而盯着屏幕的你甚至根本察觉不到他们的存在。你想一想,在这个庞大而静谧的系统里,你又将扮演什么角色呢?非常值得深思。感谢你加入今天的深度剖析的之旅,我们期待下次一起继续探索,再见。再见!
粉丝4918获赞10.1万

之前一期视频我测试了 mini max m 二点五,在编程和 a 的 场景下,相距于上一代模型提升明显,那现在 mini max m 二点七来了,而且我已经把它接近了我每天都在用的 open cloud 龙虾里面。这一期视频我们就看三件事情,第一个 接入到 open cloud 中,它的 a 进的能力到底涨了多少?第二个的话它的编程能力提升明不明显?第三个自媒体 a 的 内容的内容,它到底有没有一个质变好?下面我们看一下把它接入到 open cloud 中的一个任务测试, ok, 第一个任务的话是测试他的一个信息采集加结构化输出,让他去搜索一下这一个 mini max 二点七的一个最新消息,按模板输出要考验他的一些搜索能力,信息筛选能力, 以及最后能不能严格的去搜索到我们指定的一个格式。这块的话,评分的维度主要是看他的一个正确性,完整性,以及他的一个格式遵循,也是跟 mini max 二点五去做对比哈。那第二个任务的话是一个模糊指定加工具选择,那具体的任务是这一个 主要去看它能不能去要用到我们这个 bird skill, 以它的意图推断准不准确。第三个的话是测试它的一个多轮对话,加一个上下文记忆。好,下面我们来看一下我们是怎么测的。 我这边的龙虾配置有三个机器人,第一个是我的贾维斯,它主要有 gbt 五点四跟 cloud op 四点六驱动呢,还有我的开源雷达,主要去负责 帮我去监控一些开业项目的信息,它是有 mini max m 二点五启动的,还有这个挖掘机,主要去挖掘 x 平台上的一些新鲜的 ai 资讯信息,以及我想收集的一些纹身图,纹身视频的一些提示时。那这一次的话,那我这边的话是用我们的主控 a 镜呢,让它去做我们的这一个龙虾的测试, 让他去帮我们先配一个 mini max m 二点七的一个模型,同时让他在这一个开启三个 sub agent 的 一个 setting, 让他配置 m 二点五,让他分别去跑三个任务。第二个的话是让他配置 mini max m 二点七,同样是三个 setting, 然后去模型设置成这个 mini max m 二点七。那采集这一块的话,我们都知道龙虾这一块,它会把我们所有的这一个聊天记录转录成一个节省 l 的 文件,所以说对于我们 三个任务在两个模型上的测试,它是会有六个 c 形文件,那我把 c 形文件拿到,就能看到它整个的一个完整对话工具调用的一个情况,以及它的一个申请的一个过程。 我们把龙虾整个对话抓完之后,我们就可以把这所有的 c 形文件给它喂给 cloud code, 也是通过龙虾让它用 a c p 去调, 调完了之后我们给了他评估的一个 prompt, 那 这个时候他就会去把所有的评测结果给到我们。好,下面我们来看一下他的一个跑完的结果情况,可以看到我把这个龙虾的一个原始记录,让他给我挡不出来一个 zippo 包了,哈,我把它下载下来,可以看到这边有三个 mini max 二点五的一个申请记录,这边有 mini max 二点七的, 那我们就是让 cloud code 帮我们去把这六个申请文件全部去做理解,然后去做分析,最终得到一个结果。下面我们来看一下整体的一个评分情况。 mini max 二百二点七,相较于它上一代, 不管是在信息采集、模糊指令以及上下文记忆这一块,在龙虾里面的表现都是相较于上一代提升非常的明显,整体平均分可以看到还是多了蛮多的。那这一块的话,我们给他一个总结,就是他的一个指令遵循更加的严格。速度这一块是相较于上一代更加快了,快非常的重要。在龙虾里面, 我用国外模型最大的一个痛点就是它比较慢,它的推理,那我用国产的 mini max 的 话,就是速度很快,速度快有什么好处呢?对于我那两个机器人哈,它是需要去快速的去帮我监控一些 ai 新闻的,比如说国外的模型发布,国内的模型发布我希望第一时间得到,那这个时候速度就有很大的优势, 所以我们这个结论在龙虾上去跑迷你 max m 二点七,它速度提升明显,并且指令追寻比上一代更加的明显,那这个带来什么好处呢?因为龙虾这一块它的提示词非常的大,所以说它要求你模型的能力要在线, 并且大家都知道它非常的耗托肯,之前我测试过按 api 计费用, cloud 四点六,它跑了我大几千万的托肯,耗了一差不多快一百美刀吧,当时我记得, 所以说你要追求一个性价比,并且速度快的话,它是真的是一个非常不错的选择。好,下面我们来看一下编程实测,那这一块的话也是基于我之前几期视频有去测试国内国外的一些模型哈,也是两道编程任务。那第一道的话是我们有一个谷歌认证以及 github 认证的一个项目,让它去迁移到我们这个图片生成 a 镜的项目里面来, 同时再让它补一个落地页。那第二个任务的话是一个终端变网页的项目,我手里有一个 skills agent, 它是命令行的,我希望把它做成一个外部聊天界面,希望它保留 syncing 工具调用以及流逝输出。那这块主要测试它的一个权重能力嘛?好,下面我们去开始实 测,对于我们刚那两个任务,它的一个功能完整程度, 以及它的一个 u i u x 的 一个交互。第二个的话是我们把它所有代码提交了,跟以往的 codex off 四点六以及 mini max 二二点五去做 code review, 让最顶尖的模型我用的是 off 四点六以及 gpt 五点四 codex, 让它们去分别去 review 这所有代码,最终得到了这个评分。 从结果看的话,它这一次相较于上一代有提升,但不是特别的明显。那这一次的话它在任务二上的一个表现哈,会相较于上一代 m 二点五提升比较明显。上一代有会有一些消息重复的 bug, 这一次它都修掉了。那第二个的话是它的一些缺点哈,就是它这个测试代码其实还是比较少, 上一次也是这样子,就是说你写完代码,你需要写一些测试代码,然后,然后来保证你的一个功能输出嘛?好,下面我们开始下一个评测之后,我们就会把这个 mini max 二点七以及二点五都接到我一个自媒体内容分析的 a 镜头下面,去看一下整体的一个表现情况怎么样,我们开始测试。 好,我们来看一下整体的一个结果。在速度方面的话, mini max 二点七比上一代又快了一截哈它,并且它首轮的这一个反馈更加的及时更明显。 那上一期的这一个 m 二点五相较于 m 二点一已经快了不少了,这次又往前退了一步。那在拆解深度这一块的话,这次最大的惊喜是我把同一个视频丢进去,那 m 二点五给我的是一段诊断总结,这个视频讲了什么,节奏怎么样? 那二点七的话直接是按这一个 s r t 时间戳去拆啊,几分几秒,讲了什么,用了什么手法,为什么有效,力度完全不一样,这是真正的一个时间轴的一个拆解, 那 mini max m 二点五的话,从我们的这个测试任务里面它是没有达到的。那第三个的话,在表达真实感这一块, m 二点七更像是有人在给你去复盘这个视频,然后措辞更加的接地气, 逻辑的话更像人话一样。那这两个拆解深度跟表达真实感不是我人为主观的去感受的,而是我把它所有的输出的结果拿到 jimmy 来跟下载 gpt 上,让他们去 review。 好, 下面我们来进行一个总结。在这个龙虾的场景里面哈,这一次 m 二点七 升级明显,他整个评分在指令遵循、工具调用、准确性这一块提升都特别明显,而且速度叫上一代快了很多。那第二个在编程场景这一块的话有进步,但还需要去补课,跟国外的这个模型还是有一些差距。第三个的话是我在这个自媒体 a 技能里面去接了 m 二点七, 这次的话能感受到他相对于上一代拆解的更深了。好,这就是这期视频的所有内容,你想看哪个模型的评测?在评论区告诉我,我是阿江,我们下期见。

迷你 max 上次发 m 二点五才过去一个月,这两天又直接更了 m 二点七,速度非常快。这次更新重点很明显,复杂任务处理,还有 a 针的团队协助能力,对广场踢了一大截。以前的模型顶多就是帮你写几行代码打打下手。 m 二点七现在更像一个成熟的 s 二 e 监控白沙 bug 自动写,脚本修问题基本能一条龙就搞定。 而且他现在可以搭建 agent harness, 把思考和执行合到一起,算是真正具备自我叠展的能力。再加上深度适配了 open call 长期记忆,不管是沉浸式角色把扮演,情感交互还是很复杂的 office 四动画,跑起来都很顺畅。目前 m 二引擎在 mini mac 平台全量上线,想体验的可以自己去试一下。

深夜, mini max m 二点七的发布如闪电划破尘迹,瞬间点燃全球开发者社区。屏幕上,国服第一的标题赫然醒目,龙虾自我进化引发海外疯狂刷屏。 m 二点七凭借多智能体协助能力 迅速冲上榜单前列。开发者们兴奋直呼,构建智能体只要 opus 十分之一的价格,太香了!前沿实验室也该感受到开源与闭源差距缩小的压力了。 在 pinch bench 榜单上, m 二点七力压群雄,拿下全球第四、国产第一。这股热潮与 m 二点五霸榜 open router 史如出一辙。本周 gtc 大 会上,英伟达 ceo 黄仁勋高度评价了开源项目 open core, 并联合推出 nimo core, 而 mini max 正是该生态的核心玩家 为 open core 提供底层算力支持,其协助能力与大会热点完美契合。实测发现, m 二点七的更新令人惊喜。 首先是原生的多智能体协助能力模型,不再单打独斗,无需复杂框架即可自主分工。代码编辑方面,进化肉眼可见,查日制、重构代码, 甚至覆盖安卓开发等真实场景。在数字化办公中, excel、 word、 ppt 的 体验极其流畅,它不仅能干活、能协助,还是一个懂安全、会玩的智能伙伴。为了极限测试,我们让它构建多 a 阵的狼人杀系统。 从主持人到村民,每个角色都有独立记忆与决策能力,表现得像真人一样。虽然初识网页设计略显粗糙,但在学习了 get up 上的开源 ui 技能后, m 二点七迅速制作出视觉效果大幅提升的新版本。 这种实践总结再激励的能力,正是 mini max 在 max co 二产品中验证的完整链路自我进化已成为全球趋势, 而 mini max 提供了一个新范式,构建模型驱动模型进化的体系。团队仅用一人四天,便让 m 二系列模型自主搭建了包含 c i 测试审查的开发系统。 在实践中,模型承担了近一半的工作流,甚至自主运行了超过一百轮迭代循环,最终在评测级上将效果提升了百分之三十。这种自优化机制让它在机器学习任务中表现惊人,成绩直追 g p t 五点四。除了硬核科研, m 二点七还很有趣, 它能快速部署龙虾逃脱计划互动网页,根据你的决策走向不同结局。而全新的开源项目 open room 则让对话框变成了万物皆可互动的外部空间角色。有情绪场景随言语变化。 ai 自我进化的终极形式,或许就是这种充满沉浸感的多模态交互, mini max m 二点七正让未来加速到来。

mini max 今天突然发了 m 二点七模型,股价直接拉了将近二十个点,但最牛的不是跑分,是他们说这是第一个深度参与自身进化的模型。什么叫参与自身进化? 上个月 openai 刚说 gpt 五点三 codex 参与了自己的训练,现在 mini max 也跟进了。他们让早期版本的模型自己构建了几十个复杂的 skills, 更新模型记忆,驱动自己的强化学习,甚至还能分析失败轨迹来自我优化整个研发流程的百分之三十到百分之五十是 m 二点七自己干的。用 ai 造 ai, 看来真要成行业标配了。再说编程能力, s w e pro 这个覆盖多语言的编程测试, m 二点七拿到百分之五十六点二二,什么概念呢? g p t 五点四是百分之五十七点七, oppo 四四点六是百分之五十七点五。 g p t 五点三 codex 是 百分之五十六点八。 m 二点七跟他们就差不到一个点,已经是全球第一梯队了。国产模型做到这个水平确实很难得, a 阵的能力更值得关注。 mini max 基于 openclaw 的 常用任务,搞了个 mmclaw 测试, m 二点七拿到百分之六十二点七,接近 solid 四点六。在 gdp 五二专业领域评测中, m 二点七的 e l o 达到一四九五, 在四十五个模型中排第四,仅次于 opus 四点六、 solid 四点六和 gpt 五点四。四十多个复杂 skill, 遵循率高达百分之九十七。而且原生支持 agent 的 team, 多个 agent 可以 并行协同干活,这在国产模型里非常少见。最关键的便宜, m 二点七输入零点二五五美元,输出一点零二美元,每百万 token op 四点六呢?虽然已经比上一代降了百分之六十七,但还是要五美元。输入二十五美元,输出 m 二点七的成本大概只有 opus 的 五分之一到十分之一。 二十道的 coding pen 就 能用的很爽,真的香。所以今天更新一下我的 agent 产品推荐能用国外产品的最优解肯定是 cloud code 加 opus 四点六,通用办公就 openclaw 加 gpt 五点四,只能用国内产品的,目前 cloud code 加 mini max m 二点七体验最好, 其次 openclaw 加 m 二点七。 m 二点七你试了吗?评论区告诉我你的体验,点赞收藏,让 ai 替你打工!

mini max 这次发的 m 二点七,重点不是又一个新模型,而是它开始强调一件更激进的事,模型正在参与优化自己的研发流程,也就是所谓的自我进化。 mini max 把 m 二点七定义成一个更强调 agent 能力、软件工程能力和专业办公能力的模型,它不只是会回答问题,还能在 agent、 harness、 skills、 memory 和复杂工具链里完成更长链路的生产力任务。 官方这次反复强调, m 二点七是第一个深度参与迭代自己模型的模型。 mini max 用它参与强化学习 harness、 优化 agent 架构、迭代 skills 和记忆机制,甚至在内部脚手架上自主运行超过一百轮优化循环,最终把内部评测效果提升了百分之三十。 在软件工程相关指标上, m 二点七的 swapp pro 是 百分之五十六点二二, y pro 是 百分之五十五点六, terminal bench 二是百分之五十七点零。在专业办公和复杂任务交付上, gdp val a a 的 elo 达到一千五百左右,突拉嗓正确率百分之四十六点三,复杂 skills 的 遵循率达到百分之九十七。 mini max 把这次重点放在真实软件工程,而不是单纯代码补全。它强调 m 二点七能做日制分析、故障排查、代码重构、代码安全、机器学习和安卓开发,还能在生产环境、故障场景里主动做因果推理、数据库验证和止血修复。 文中甚至提到,基于 m 二点七,他们多次把线上故障恢复时间缩短到三分钟以内。除了编程, m 二点七还强调 word、 excel、 ppt 这类复杂办公任务。 官方说它能基于模板直接生成文件,也能对已有文件做多轮高保真编辑。在 finance 这类专业任务里,它还能自主阅读年报和研报,建立营收模型,再输出 ppt、 word 报告和 excel 图表。 如果放在第一梯队里看, mini max 这次明显想证明自己不只是国内模型,而是能在真实工程和 a 阵的场景里跟 cloud 和 open ai 同台比较。 文章里提到, m 二点七的 ml 一 bench light 三次平均得排率百分之六十六点六,仅次于 oppo 四点六的百分之七十五点七和 gpt 五点四的百分之七十一点二,与 gemini 三点一持平。 swe pro 上它也追平 gpt 五点三 colex。 也就是说,在编程 agent 和复杂工作流这条线上, mini max 正在逼近国际头部模型。 这条新闻最重要的不只是 mini max 又把模型做强了一点,而是它在压住一个更大的方向,模型不只是使用工具,而是开始参与研发流程、改进工作流,甚至帮助组织本身向 ai native 进化。如果这条路继续走通,未来模型竞争比的就不只是回答能力, 而是谁更像一个能持续改进自己的生产力系统。关注我,带你获取更多 ai 资讯!

minimax 于三月十八日发布了其新一代 agent 大 模型 m 二点七,通过构建 agent harness 体系,实现了深度参与自身训练与优化流程,从而显著提升了工作效率。 m 二点七在多个测试中表现出色,在 sway bench pro 中取得了百分之五十六点二二的成绩,接近国际一线水平,在 vibe pro terminal bench 二等真实工程测试中也有出色表现。尤其值得注意的是, m 二点七在 office 文档处理与多轮编辑能力上有了显著提升, 在 gdp val a a 的 l 得分达到了一千四百九十五,位居开元最高水平,标志着 ai 正逐步迈向具备自我演化能力的系统阶段,或将彻底改变现有的 ai 研发模式。

三月十八日, mini max 发布新一代 agent 旗舰大模型 m 二点七,下面是由 mini max m 二点七生成的自我介绍。嗨,欢迎来到 mini max, 我是 mini max m 二点七,一个全能型智能助手,由 mini max 自主研发的新一代大语言模型。 我具备强大的语言理解、逻辑推理、创意创作等能力,致力于为您提供专业、高效、贴心的服务体验。 让我们一起开启智能新时代!我不仅能说会道,更懂你所需。让我展示一下十八般武艺,智能对话,流畅自然,内容创作信手拈来,深度搜索,洞察本质。代码专家助力开发, 多语言沟通,无障碍交流,逻辑推理,层层深入创意灵感激发,无限。数据分析,精准可靠问题解答,有问必答,这就是我的核心能力,全方位满足您的需求, 无论学习、工作还是生活,我都能成为你的得力助手。学习教育我来助力,知识讲解、作业辅导、语言学习、考试备战,让学习更高效! 工作办公,我来加持,文档拷写、邮件处理、数据分析、 ppt 制作,职场效率翻倍。创意创作我来赋能,故事构思,文案策划、艺术灵感,品牌设计,激发无限创意。日常生活我来陪伴, 旅行规划、健康咨询、美食推荐、生活小技巧,让生活更美好。领先的技术架构,为你提供卓越的 ai 服务体验。百亿级参数规模铸就强大智能内核, 支持五十多种语言沟通,无国界全天候服务响应,随时随地即刻响应。更有多项核心能力,复杂上下文理解,精准把握你的意图。 多模态交互,文字代码图片全面覆盖,实时联网搜索信息,一手掌握个性化记忆,学习你的偏好,提供更懂你的服务,让 ai 技术真正惠及每一个人。感谢您了解 mini max m 二点七,我是您身边的智能伙伴,期待与您的每一次交流。 现在就开启您的智能之旅吧!立即体验感受 ai 的 魅力,或了解更多,探索无限可能。我是 mini max, 您的专属智能助手。

今天 mini max 股价暴涨百分之二十,因为他们发布了 m 二点七,一个能自己训练自己的怪物!更疯狂的是他们直接掀桌子了! 二十九块钱的入门包邮套餐额度从四十次直接暴涨到六百次! m 二点七的可怕在哪?以前的 ai 是 你让他干啥他干啥,现在是他自己查文件设计,实验任务执行,自己拍 bug。 官方说他已经能承担研发团队百分之三十到五十的工作量。他不仅仅是个工具,已经成了一个懂得自我进化的工程师。 这么牛的模型,赶紧进入咱们的 open collab! 但注意, open collab 官方还没适配,安吧电器别急,老兵教你手动模改!我已经把配置代码写好了,直接复制发给龙虾,让他自己修改。底层的 ctrl 文件代码我放在评论区置顶了,赶紧让你的龙虾进化吧!

训练一个大模型,你知道最贵的成本是什么呢?不是服务器,不是电费,是人,是那些懂怎么调参数、找 bug、 做评测的 ai 工程师。全球抢着要,薪资高到离谱。 但我今天要告诉你一个事,以后这活可能不用人来干了,因为今天 mini max 官宣了 m 二点七这个模型能参与自己的训练,自己找问题,自己优化,自己跑得超过一百轮循环,内部评测效果涨了百分之三十,全程没有任何工程师动它, ai 开始训练更好的 ai 了。 这不是科幻,是今天刚上线的事儿。大家好,我是杜宇,带你看懂 ai 赛道的前和事儿。先说新模型干了啥? m 二点七最核心的事儿啊,官方叫模型自我进化,翻 译成人话就是,以前训练 ai 得靠人工程师,哎,每天盯着改参数,查 bug、 跑评测。现在 m 二点七自己建了一套 agent harness 体系,你可以把它理解成 ai 的 工具手册箱。装上这一套工具之后啊,那模型能自己参与自己的 bug 排查一条龙,自己搞定 官方的数据库啊。在部分研发场景里, m 二点七已经能扛下百分之三十到百分之五十的工作量。更觉得是啊,它能连续跑超过一百轮分析、改进、验证的循环,自己调参数,自己优化策略,内部评测级效果提升了约百分之三十。 你肯定在想,这和我有什么关系,哎,先别急,我待会专门讲普通人的机会,我保证那个角度你没想到过,听完你都会有点慌,哎。但是好的那种话先继续说亮点,编程能力这一块啊,第三方专门做了一个测试,就是拿真实的工程向我们让 ai 去 找 bug, 修 bug, 提交代码,看能搞定多少。 m 二点七在这个测试里的完成率跟 open ai 的 gpt 五点三 codex 基本打平,跟 anthon 的 cloud open 四点六也在同一水平线上。欸,什么概念?就是国产开源模型已经在编程这件事情上正面刚赢了硅谷顶配的闭源模型, 办公场景这边也不差处理 word、 excel、 ppt 这种复杂文档的能力啊。第三方评出来,在所有开源模型里排第一,还超过了 gpt 五点三。另外有个数据我觉得特别直观啊,同时交代给他四十件复杂的事,他能保持百分之九十七的完成率, 四十件事只漏掉不到一件,哎,你让你的真人助理试试,大概也得漏个七八件吧。然后说说大家最近很熟的 openclore, 就是 那个龙虾,哎。对了,如果你关注 ai 群啊, 最近养虾这两个字应该是刷烂了你的信息流了。 open 可乐是一个开源的 ai 一 人框架, logo 是 一只红色的这个龙虾,所以大家叫它龙虾玩 open 可乐叫赛博养虾。 它的核心逻辑是让 ai 不 只是会聊天,还能动手干活,帮你移文件,改表格,操作软件,像一个真正的数字员工。 m 二点七跟 open 可乐的关系,用官方的话叫深度适配, 具体体现在两点,第一, memex 有 个专门针对 openclaw 场景的测试,叫 mmclaw, m 二点七在这个测试里拿了百分之六十二点七,已经非常接近 clodson 四点六的水平了。第二, m 二点七整合了 openclaw 的 长期记忆框架,说白了就是龙虾养得越久,它就越懂你。哎, 记得住你的偏好啊,历史任务啊,工作风格,这个是非常实用的能力啊。对了,这也是我刚出的新书的核心主题,养龙虾 openclaw 与 ai 智能体时代,这本书就是帮你搞懂怎么用好这套生态的, 从部署到实战,从个人体校到商业变现,感兴趣的可以去看一下。好,现在讲最重要的是 mini max 这一路到底是怎么进化过来的,以及后面会走向哪呢?我给你做个快速的复盘啊。 去年六月 m 一 发布,是个基础版本,去年十月 m 二发布,开始主打编程和 a 制能力开源啊。去年十二月底, m 二点一针对多元编程做的优化。 今年二月 m 二点五成本低到一美元,可以让一个 agent 跑一个小时,从 m 二到 m 二点五一百零八天,然后就是今天 m 二点七。重点呢,从我能干多少活,跳到了我能自己训练自己。这条进化曲线有一个非常清晰的方向,就是每 每一代的核心能力,从语言到代码到 agent, 再到自我进化,而且迭代周期越来越短,成本越来越低,性能越来越强。那这个趋势推演下一步是什么呢?我觉得是全流程的自动化,不只是代码,是数据采集、模型训练、评测、优化整条研发链路。 ai 都能自己跑到那一步啊, ai 厂商的研发成本会出现断崖式下降,同 同时性能会以我们现在很难想象的速度提升。最后讲普通人的机会,我说一个我觉得很少人真正能想的清楚的角度啊。大家看到这些消息通常有两种反应,一种是,哇,好厉害,然后划走。另一种是哎呀,要取代我了,好慌。但这两种反应都是错的,真正的机会窗口是在这。哎,成本塌陷了。 m 二点五那会儿一万美元,理论上可以支撑四个 a 整,连续工作整整一年。现在到了 m 二点七,能力又进了一步,价格还在往下走,这意味着什么呢?意味着以前只有大公司才玩得起的 a 整自动化,现在个人就能搭起来。 我自己看了不少投资项目啊。最近创业圈有个很典型的现象,那些用 open 可乐加上 m 二点五、 m 二点七这类模型搭的垂直 a 整工具, 有些团队就两三个人,能做出以前十几个人才能撑起来的工具产品。不是因为他们更聪明,是因为他们把模型当成了团队成员来用。所以我的建议是,现在最稀缺的能力不是写代码,是想清楚 ai 能帮我在哪个环节省掉什么成本,然后去搭它,测它,把它跑通。这事门槛低到你想不到, 但懂得做的人还是少数。欸,这也是我为什么写养龙虾 open 可乐与 ai 智能体时代,不是给享用 ai 真正赚到钱的普通人写的实战手册。 又说一句啊,今天 m 二点五的发布,我觉得最值得记住的不是某一个跑分数字,而是模型开始参与自己的训练。这件事本身人类花了几十年搞清楚怎么训练 ai, 现在 ai 开始入局了,这个变化比任何一条跑分都要深邃点。关注不迷路, ai 搞钱,我带路,我是杜宇,咱们下期见!

刚刚发布的 m 二七简直是性价比之王,他在没有任何人类干预的情况下,自己闭关修炼了一百多轮,性能硬生生提升了百分之三十。在各大专业测试上,他的分数已经无限接近顶级模型 opus, 甚至在一些项目上直接反超。但最离谱的来了, 在性能旗鼓相当的情况下,它的输入成本竟然比 opus 便宜了五十倍,用不到三分之一的钱就能体验到顶级的智能。它能零样本直接生成一个 gta 风格的乐高游戏,画风还挺像回事儿。 接着让他搞个苹果操作系统,桌面应用设置全都能动,拖拽丝滑,背景还能随便换,直接给了九分好评。他还能帮你干正事,你只要下个命令,他就能自己上网搜集资料,进行深度市场分析,然后给你做出一份图文并茂的 ppt, 关键指标增长预测一个不落。更牛的是, 他做游戏也是一把好手,你看这个我的世界克隆版,地形无限生成,水面纹理清晰,就是暂时还不能挖方块,有点可惜。还有这个老虎机游戏, 拉杆儿动画中奖、特效、金币掉落,各种逻辑和动画都安排的明明白白,效果甚至比顶级模型生成的还要好。这款 m 二七简直就是个六边形战士,能写代码、做分析、搞设计,还能自我进化,最关键的是价格无敌了!

朋友们,我今天又做了一个新的技能,你们看一下啊,特别好玩,我们看看小朋友的反应啊! 小朋友,游戏玩的差不多了,该去学习了。朋友们,我的小龙虾现在学会用电视或者投影给主人说话了, 今天这个视频里,我就要手把手给你们复现这个 skill, 而且我涉及了三条猛料,你们可得看完啊!首先是我魔改了一个 ai 生成视频的软件, 让它变成了我的龙虾的技能,这样我的龙虾就可以随时创造自己的数字人形象,可以透过任何一块可投屏的屏幕 来表达自我。第二,大家不是都说了 openclaw 不 适合编程吗?为了让这次魔改完全由 openclaw 完成,我上期视频分享了一个 skill, 让它的编程能力史诗级加强,可以调用 cloud code 来完成复杂的编程任务。第三啊, 大家都知道吗? mini max m 二点七发布了,他们家更新模型可是真快啊,最近我不是都在玩本地模型吗?所以 m 二点五都没顾得上测 m 二点七就这么来了,好歹我得测一下啊!大家肯定想知道这个新版本玩小龙虾怎么样, 更重要的是它能不能在小龙虾里胜任这个魔改开源软件搓出工具的狠角色。 当然了,这期视频不止如此,我会从头开始,不光告诉你们号,还要告诉你们 y, 视频有点长啊,如果一次看不完,先点个收藏。朋友们,我最近在参加这个三月精选作者评选,结果我打开这个评选界面一看,我居然才九票,这太离谱了,你看看这第一名,两千多票,打开抖音精选 app, 为我投票啊! 你们看到我的所有视频,在这个位置都有一个抖音精选内容,点进去之后就可以投票了,十分感谢,万分感谢,谢谢大家!我的需求很简单啊,让龙虾成为有形象的数字人,这样他就可以通过家里的任何一块可投屏的设备,通过屏幕来表达自己。 我就可以在家里给他专门准备一块屏幕,这个我已经完全实现了,我之前分享过投屏技能嘛,现在就缺一个生成视频的能力了。大家都知道春节期间 c dance 二点零刷屏了对吧?那个效果真是憨爆了, 但是如果用它来给小龙虾做数字人吧,是不是有点太烧钱了?就在这个时候啊,我发现刚发布的 ltx 二点三这个模型,这可不是一个单纯的生视频的模型,它是能用图像加音频来生成视频,什么意思呢? 我们可以先用 t t s 给龙虾克隆一个音色,再用音频加图像,让它有数字人的形象。这不就是让龙虾女友可以在电视上和你说话了吗?龙虾女友现在可以在电视上和你说话了。如果说要用它来平替 cds 二点零,那是胡扯, 但是在家里不要钱不排队是不还是蛮香的?但我真的很烦去研究这个康费 u i, 看到这个满屏如同侦探的线索版一样的工作流,我就有点头大了。 但是就在这个时候啊,我发现 l t x 还同时发布了一个开源的版本,这是一个桌面版本,不光能生成视频,还能剪辑。哎,这不就是我想要的吗?但现在唯一的问题就是能不能把这个开源的软件变成小龙虾的技能? 教大家一个我常用的技巧啊,就是让 ai 去分析开源软件,不断的提问来了解它的功能,然后根据感兴趣的功能提取代码片段,或者是直接模改来变成我的 skill。 这个技巧其实就是让主 a 阵子上下文充满了代码库的知识,再让它启动子 a 阵子派发任务去模改。我现在就给大家演示一下啊。 首先我们得让小龙虾从 github 上克隆代码。我的第一个问题往往都是从架构开始问的,让他调查代码,告诉我架构,告诉我代码结构,这样上下文中就充满了这些信息,有利于后续的问答。 我知道它是一个前后端的架构,用 electron 包裹成了桌面版,前端是 ts, 后端是 python。 巧了,不是,我之前做的信号制程助手就是用了同样的架构,那么它所有的操作应该都是 api 画的, 这样的话就简单了,我们只需要搞清楚后端就行了。接下来我第二个问题就直奔主题,问它有什么 api, 是 否支持音频加图生成视频,是否支持 linux? 很快它就列出了所有的 api。 当然我问完这个问题我就知道怎么搞了。如果是不懂技术的朋友,你可以继续追问更多的问题,让它的上下文更丰富,让你知道的也更多。 那最后一个问题就是直接让它生成方案能否支持 linux, 能否支持图片音频上传,能否支持生成好的视频下载,并让他给我一个最小破坏的魔改版方案,并且我告诉他我希望输出的目录以及我提前下载好的模型的目录 lts 这个桌面版的后端还是有一些限制的,它必须是三十二 g 显存以上,否则它就会自动调用云端的 api, 而不是本地模型了。而且如果是 linux, 它也有会有一些限制, 而且它的前后端都用的是本地路径来访问视频。这个设计就挺离谱的,好像它完全没有考虑前后端分离,所以想把它改造成真正意义上的一个纯后端 api, 还是有些工作量的。 所以这三个问题问完之后,上下文中就有了足够的信息,我就可以开始开发了。进入了实施阶段,我打算让 opencloud 调用 cloud code 来进行开发,这样上下文效率更高, 并使用我前个视频分享的 cloud in t max 技能。用了这个技能,可以在 t max 里启动多个 cloud code, 分 阶段开发,这就很类似 agent teams。 不 过这个技能马上就被淘汰了,因为官方的 a c p x 插件马上就要发布了,应该可以做得更好。 比较令我意外的是啊,原本我以为要搞很久呢, mini max m 二点七竟然用了几分钟就改完了,这让我有点不敢相信。所以第二阶段测试时我就很担心,因为花的时间稍微有点久了,是不是有什么错误卡住了。但后来我发现完全是误解, 只是因为 m 二点七在安装生视频的依赖时花了不少时间,但整个流程它都完全没有出错,我甚至没有再跟它进行交互。 当然,这就算是一个 openclaw 上调用 cloud code 开发的一个痛点吧,就是你没有办法知道过程是什么样的,有没有出错?我们以前不是习惯了盯着 c l i 看着 cloud code 的 反馈吗?如果是用 openclaw, 一 旦花费的时间比较久,就会让人比较担心了。 不过啊,我有种感觉,我们可能很快就要进入做开发,也不用盯着 cologne 的 输出的时代。在我的另外一个终端窗口,我实时监控着 gpu 的 负荷,当我看到它开始有负荷的时候, 哇,我真的是很高兴,因为这代表 api 已经跑通了。果然,我的小龙虾成功的用 api 生成了一张虎斑猫的图片, 于是我就迫不及待的让它用 tds 生成的语音来生成视频。哇,一切都太顺利了,甚至让我有点怀疑它是不是作弊了,难道它是自己合成语音到视频里的吗?但是后来啊,我看到猫咪竟然都开始对口型了,你敢信吗?我就知道成功了。 不过这个模型啊,我发现用真实的猫咪图片对口型还是稍微有一点伪合的,但动漫风格就完全没问题。 于是啊,我就兴冲冲的让奥利做了一个叫女儿去学习的视频。我想象中的场景是这样子的,我们的助手小龙虾应该有一个专属的屏幕,他想让主人表达的一切都应该可以用视觉加语音的方式来传达,并且在自己的屏幕上播放。 接下来,我只要稍微花点心思研究一下各种提示词,比如说画面呀,运镜呀,更高级的表达,那这个技能就会很完美。我甚至都在想啊,以后会不会出现那种吸顶的三百六十度投影,专供 ai 使用,让 ai 可以 具象化,用更丰富的方式提供给人类的反馈, 不过现在已经很好玩了,用飞书和奥利对话,奥利会自动在投影上表达,奥利已经完全被数字化了, 不知道大家看会了没有,我后来又折腾了一些高难度的,我把这个 ltx 桌面版魔改成了网页版, 它现在可以直接在我的飞牛上运行了,而且我还支持了自定义模型,对提示词进行强化,还支持了首尾帧,还支持了原版的模型、服务器端渲染、剪辑等更多高级的功能。 我只想说,学会这个魔改软件的玩法,你就会发现这个 ai 的 世界啊,又向你打开了无数的窗户。经过这一番折腾,我不知道大家有没有 get 到技巧,能不能复刻下来 可能还是有一点难度吧,但是如果你有一点点兴趣,稍微探索一下一定会有收获的。更重要的是, mini max m 二点七是轻松胜任这些任务的,而且它的抠钉 plan 真的 是不贵。 那现在唯一的缺点就是这个任务对显存要求还是有那么一点高的,官方代码里要求三十二 g 显存以上,虽然能跳过,但是我觉得起码还得二十四 g 显存才够玩。 不过好就好在啊,我看到 m l x video 也要支持这个模型了,以后你可以用二十四 g 或者三十二 g 的 麦克也能玩。 那是不是 m 五 mac mini 出来又要被疯抢了?我会持续关注这个社区的发展,随时给大家汇报,有卡感兴趣的朋友也可以自己试着去复刻一下。好了,以上就是本期的全部内容了,谢谢大家!

兄弟姐妹们,咱们今天聊点干的?今天聊一个让国产 ai 圈沸腾的重磅消息, mini max 的 m 二点七终于证明了一件事,中国 ai 不 仅能追上,还能在某些地方干翻美国同行不是自嗨,有数据说话, 先说清楚它牛在哪。第一,多智能体协助系统。以前的 ai 是 单兵作战,你问什么,他答什么。 mini max m 二点七玩的是 agent teams, 一 群 ai 分 工合作,像真团队一样干活。 最骚的案例是狼人杀,多角色模拟 ai, 同时扮演狼人预言家村民,每个角色有独立记忆,独立推理,独立决策,他们互相骗,互相盘逻辑,跟真人玩的一模一样。更实用的是金融投研场景, 新闻分析 agent 情绪分析 agent 风险分析 agent 协调输出深度报告,复杂任务被拆解,每个 agent 可干自己擅长的,最后拼成一份完整言爆。第二,工程化落地实力 不是实验室玩具,是真能干活。故障诊断给你一堆电商系统日制,它能精准定位 sku 价格空值这种具体异常,还给出完整修复方案。全站开发,自主完成龙虾逃脱计划。互动游戏十五个分支剧情五种结局,代码自己写,逻辑自己理, 财务自动化扔给他, excel 数据自动生成, dcf 估值模型和三年财务预测报告。以前这些活需要一个人干一周,现在 ai 几小时搞定。第三,自进化范式验证。 这是最狠的 ai 自己改自己的代码,在强化学习。实验场景, m 二点七能承担百分之三十到百分之五十的工作量,从实验设计到代码修改,全流程参与。 如果实验失败,他分析失败,轨迹修改代码验证效果,循环往复百轮自优化之后,模型性能提升百分之三十, 这是什么概念?以前的 ai 需要人类工程师不断调优,现在的 ai 能自己调自己。技术亮点还有几个,低硬件门槛,单张 a 三零 gpu 就 能跑。中小企业用得起。幻觉率控制百分之三十四, 比 gpt 五点四的百分之八十九低得多。说人话就是 m 二点七,胡说八道的概率小很多。 open room 项目开创多模态交互新形态, ai 不 只能打字聊天,还能看懂图、听懂话、动手操作。行业影响是什么?三个大字,标准制定者。 以前中国 ai 是 什么角色,跟在后面学 gpt 四出什么我们追什么。现在 mini max m 二点七在二十二项积极学习任务中,实现了百分之六十六点六的得排率, 媲美 jimmy 三点一等国际顶级模型。这不是追赶,是并跑,甚至在某些隧道领跑。更深层的意义是路径创新。 open ai 走的是大力出奇迹,堆参数、堆算力、堆数据。 minimax 走的是自主进化加工业级落地,让 ai 能自我改进,能在真实场景干活。这给全球开发者提供了新范式, 不是只有烧钱一条路,聪明的设计模型架构和训练方法也能达到同样效果。最后说几句, minimax m 二点七的发布,标志着中国 ai 从技术追随转向标准制定。 狼人杀多 a 阵的协助代码自动化、工程化落地,这些不是噱头,是真实验证的能力。当 ai 能自己改自己的代码,能组队完成复杂任务,能在企业场景里真正替代人力, 我们离 agi 的 距离可能比想象中更近,但问题也来了,当 ai 能承担百分之三十到百分之五十的研发工作,程序员这个职业还有多少护城河?那么问题来了,如果你的工作有百分之三十能被 ai 替代,你是选择拥抱它,还是等着被它淘汰?评论区聊聊。

兄弟们, mini max m 二点七已经出来了啊,据说提升挺挺挺大的,放到自己的龙虾里面更好。我已经揭露了,其实你只要把配置文件二点五改成二点七,直接就可以用。

在这个 ai 的 世界里啊,咱们好像总听人说模型就得越大越好。但你有没有想过,要是有个小家伙,它不仅反应快的像闪电,用起来还特别便宜,甚至在某些要紧的任务上,还能让那些行业巨头都紧张一下?嘿,这听起来是不是有点玄乎? 今天咱们就来扒一扒这个 ai 界新来的黑马,看看它到底什么来头。这句话可不是我瞎说的啊,是一位 ai 编程圈的大神测评完之后给出的一个评价,可以说是相当震撼了。 一个咱们以前都没怎么听说过的小模型,他凭什么敢说碾压像 opus 这种顶级选手?他手里到底藏着什么秘密武器?所以说,这到底是一次营销炒作,还是说 ai 的 发展真的要变天了? 哎,先别急着下结论,咱们直接上硬核测试,让事实说话。好的,那咱们就来正式认识一下今天的主角,这位新的挑战者, mini max。 首先得搞清楚一件事, mini max m 二点七,它可不是来陪你闲聊的,它的定位是一个代理式模型, 什么意思呢?说白了,你就可以把它想象成一个超级自主的智能执行官。它的核心目标不是跟你对话,而是清清楚楚地理解你的指令,然后自己去调用工具执行代码,把任务完成得又快又好。 你看,这么一对比,两条完全不同的路子就出来了。一边呢,是那些传统巨头追求更大更全,就像画面右边这样,块头很大,但有时候呢,可能就没那么灵活。 而 minimax 呢,他就将左边这个小火箭选了另一条路,轻量、急速、成本低,一门心思就想成为最顶尖的任务执行专家,正是这种选择,让他在某些特定的场合,优势一下子就凸显出来了。 俗话说的好,是骡子是马,拉出来溜溜,光说没用,咱们现在就把这个 minimax 扔进一个编程大考场,看看他到底是个学霸还是个学渣。 第一个挑战,来个比较实际的,让他用构语言和一个叫巴布提的库写一个在命令行里用的计算器。这可不是什么小儿科的任务啊,他直接考验的是模型能不能看懂,第三方库,能不能生成基础代码,这都是很多开发者天天都要干的活儿。 结果怎么样呢?我跟你说,几乎就是秒出。 mini max 不 光是漂漂亮亮的完成了任务,而且那个速度快到让人不敢相信,咱们都习惯了等大模型,在那慢悠悠的想突然来这么一个及时响应的体验上,简直就是降维打击。 好,热身结束,现在来点真格的。第二个测试,咱们要求它从零开始搭一个全站应用,一个跟 stack overflow 差不多的问答网站,而且技术站都给它定死了,前端用 next, 后端用 sq lite, 这可是个大工程,复杂度直接拉满。 结果呢,又一次让人惊掉了下巴。 mini max 的 表现完全可以跟那些比它大几十倍的模型掰手腕儿了,它不光是把登录、注册、提问这些核心功能都搞定了,就连前端界面都做得有模有样,代码质量还出奇的高, 这简直强的有点过分了。接下来这个 swt 应用的测试啊,过程就跟坐过山车一样,但也最能看出它的真本事, 刚开始他完全跑偏了,有点发懵,但神奇的地方就来了,他居然能自己发现走错路了,然后立马调整方向,不光是回到了正轨上,最后交出来的成品甚至还带了点惊喜的小功能,比如看版颜色分类,这个从一脸懵到近乎完美的逆转,真的太秀了。 好了,终极挑战来了,咱们得把他逼到极限,任务是用 rust 和 tory 这两个基础站做一个桌面应用。 为什么说这是极限挑战呢?因为跟主流的 javascript 比起来呀, rust 和 tory 网上的资料和代码例子要少得多,就就直接考验你这个模型知识库的深度和广度了。 这一次呢,它终于是碰壁了, mini max m 二点七失败了,也让我们看清楚了,它最明显的弱点就是它的阿克里乌斯之种。作为一个小模型,它的知识储备是有限的, 对于这些比较小众的技术,他的图书管理根本就没藏几本书。好了,经过这么一连串的考验,咱们是时候来给他的表现做个复盘了。 我觉得用以小博大这四个字来形容他真的是再贴切不过了。他的表现完全超出了大家对一个小模型应有的预期,这背后肯定是靠着质量极高的训练数据和非常先进的训练方法在支撑。 所以啊,咱们来看这张优劣式对比表,它的定位一下子就非常清晰了。左边是它的四大杀手锏,快到离谱的速度、出色的工具调用能力、精准的指令遵循,还有就是极低的成本。 而右边的劣势也一样明显,知识面不够广,搞不定小众技术,而且你也别指望它能陪你聊天解闷,你再看这张排行榜, 就更能直观地感受到他的实力了。看到了吗?尽管个头上只是个小不点儿。 mini max m two point seven 在 这次的 ai 编码能力大比拼里,竟然硬生生地冲到了第四名,这绝对是一个现象级的成绩,也完美证明了小而美这条路是完全走得通的。 那么问题来了,这种小模型,它最适合的战场到底在哪儿呢?它不是那种什么都能干的瑞士军刀,但它是一把极其锋利的手术刀,在某些特地的领域可以说是无人能及。比方说做自动编码代理驱动 ai 客服。 而其中一个最让人幸福的用法,就是让大模型和小模型联手,让 gpt 四这种大脑负责出谋划策,制定宏伟蓝图。然后呢,把具体的执行任务交给 minimax m 二点七这种手脚麻利、成本又低的特种兵去冲锋陷阵, 这可能才是未来 ai 应用最理想的样子。所以说,咱们应该这么理解 minimax 的 价值。 当所有巨头都在忙着造更大更重的重型卡车的时候,它没有选择去正面硬碰硬,而是造出了一辆轻便迅猛的超级跑车。它是在一条全新的赛道上重新定义了什么叫胜利。 那么这就给咱们留下了一个非常重要的问题,去思考 ai 的 未来真的就是一条通往更大更强的单行道吗? 还是说,真正的创新在于创造出更多像 minimax m 二点七这样能在特定领域里做到极致的专家模型?我特别想听听你的看法,欢迎在评论区告诉我你的答案。

你能想象吗? ai 模型已经开始自己训练自己了。 mini max 今天发布的 m 二点七是全球第一个深度参与迭代自己的模型。简单说就是 ai 开始帮自己做研发了。具体怎么做的?他们让 m 二点七构建了强化学习训练流程里的数十个复杂技能,让模型负责监控实验、排查日期、修复代码、跑 评测,研究员只在关键决策时介入。在这个场景下, m 二点七能承担整个研发工作流的百分之三十到百分之五十。更厉害的是, m 二七还能自己优化自己, 让模型自主运行。超过一百轮迭代循环,从分析失败、规划改动、修改代码到运行评测,全程自主完成,最终在内部评测级上,效果提升了百分之三十。在 m o e bench 机器学习任务测试中, m 二点七的得排率达到百分之六十六点六,和 gemini 三点一持平, 仅次于 g p t 五点四。这意味着什么?未来 ai 的 进化速度可能会指数级加快,因为 ai 已经开始参与自己的迭代了。 ai 自我净化,你觉得是好事还是坏事?

let's start at the bottom and i mean the bottom item number one standard ration packs。 大家看到的是 mini max 最新发布的 m 二点七构建的一个 a 镜的交互空间 open room, 那 它可以通过对话的方式来操作你的相册啊,桌面的印啊,或者是跟角色进行一些实时反馈的一些交互场景交互, 这是它最新支持的这种 a 镜的环境功能啊,这个也是它可以去提升到各个游戏角色中啊, 这也是体现它强大这种交互能力啊,并且是角色扮演能力啊,它是完全开源的,可以本地化的部署。那今天我们是重点来介绍的是啊, mini max 二点七它整个发布的一个更新的情况,我们也是 大概是十万多次的文档,那方便大家去理解它整个的一个实现的一个原理,还有它的一个发展近况。那这个文档的话其实也不是我自己手手写的,是通过 mini max 而 m 二点七, 那大家可以直接在 word 板里面去使用 mini max m 二点七去完成这个行业报数技术文档,可以看到我们的题词相当的简单,就让他去搜索现网上的文章,就可以整理出这样一个比较高质量的文档啊,大概是几分钟就能完成这个高质量文档的一个编写啊,那这个文档也会分享给大家,那这。

三月十八日, midmax 新宇科技发布了 a 件大模型 m 二点七,同时呢,也宣布与腾讯云达成深度合作。这两个利好呢,使得公司股价当天大涨百分之二十,市值最高呢,超过四千亿。 第一个问题啊,相比之前的 m 二点五,这次的 m 二点七到底有什么变化呢? m 二点五模型呢,是工具,全靠人类来教调改,它定位呢,是强执行 agent。 而 m 二点七呢,它会自己迭代,自己能够自行分析问题,改代码、跑实验、看结果,再优化,从而形成一种自我进化的闭环,它定位是自我进化的 agent。 第二个问题, m 二点七模型的能力表现如何? 在一般的研发场景里面呢? m 二点七呢,它能承担百分之三十到百分之五十的工作量。写代码方面, m 二点七以百分之五十六点二的正确率达到了 g p t 五点三扣贷的水平。在专业办公领域呢, m 二点七的测试分数呢,在所有开源模型中是最高的。 第三,腾讯云为何要找 mini max 合作? mini max 之所以能够吸引腾讯云深度合作,核心在于它的 agent 原生的全栈技术壁垒、全模态能力和很强的商业化落地能力。 比如 mini max 旗下 agent 里面的自研 forge 强化学习框架,它能够专注 agent reinforcement learning, 就是 智能体强化学习训练,它是提升智能体自主决策、自主试错能力的核心引擎,也是这是呢,与腾讯云合作的核心记录专题。 第四,与腾讯云的合作能有什么好处? mini max 与腾讯云深度合作,相当于获得了一种视觉级的 agent 基建, mini max 呢,它可以依靠腾讯云强大的算力调度和云云升能力突破算力瓶颈,部署毫秒级启动、百万级吞吐十万级病况能力,又能够损失消费者的智能体。强化学习沙箱在这种测试环境中实现平稳运行,来支撑负极框架大模型的训练。 那么训练速度、吞吐量和稳定性大幅提升后啊,它会缩减这种模型的迭代周期。更强的 m 三版本的模型呢,可能会更快地推出。另外啊,接入腾讯云生态后呢,也有利面,也有利于 mini max 拓展弊端客户和应用场景。 最后个问题啊, mini max 的 快速发展,是不是真的意味着 it 码楼、办公文员这些职位要批量消失啊?你觉得呢?欢迎在评论区留言。