那这两天如果你关注大魔性榜单的话呢,你应该已经看到 mini max m 二点一了,多元榜单直接冲到了第一梯队, a 进的场景下的复杂任务完成率啊,也是明显拉开了一档,但参数榜单这些说实话听多了都没有什么感觉了,真正让我期待的是他在真实工程任务里的表现。所以今天呢,我们不测跑分 参数,我直接用一个非常典型的老项目升级场景,看一下 m 二点一到底能不能够把一个完整任务从头到尾搞出来。那首先呢,我们来说一下这个项目的背景啊,那这是一个开源的业务管理系统,他原本的一个操作日记呢,是存到了这个 macbook 里面,但是操作日记这种东西呢,他数据量大,写入频繁, 时间久了呢,就会拖垮我们整个业务链的一个性能,而且日制数据呢,它的这个结构是不固定的啊,所以说芒果 db 这个存储方案可能是更加合适的一个选择。那这次呢,我们改造有以下几个难点啊,首先是平滑迁移啊,也就是这个前端页面和读写日制的后端代码都不能够受到 本次升级的一个影响啊。其次呢就是原始数据的一个备份啊,就是已有数据我们不能丢的,对吧?在芒果 db 里面呢,还是能够查到过往的那些 my circle 的 数据。最后的话呢,我们还需要去加一个新功能啊, 就是在日记记录里面可以看到记录变更前后的一个数据,方便我们在业务当中去做这个数据版本的一个审计。 ok, 下面我们来写代码。首先呢我们需要在这个 cursor 当中去配置自定义模型, 之前呢,我已经购买了这个 minimax coding plan 啊,最新的这个模型呢是可以直接使用的,只需要我们在模型名称这个地方改成 minimax 杠 m 二点一就可以了。详细的配置呢,大家也可以去参考官方给到的这个集成文档。这里呢着重表扬一下 minimax 啊, 即使是你买的最低档的套餐,也能够第一时间用上最新最强大的模型。那目前呢,这个 coding plan 也是正在搞活动啊,新用户首购九块九呢,限时返场,老用户通过我的这个传送门呢,还能够享受八八折的优惠。 ok, 那 现在我们前期的这个准备工作就已经全部搞定了啊,我们来写代码,我们呢把这个提示词丢给他, 首先呢他会去搜索整个代码库啊,找到相关代码的一个逻辑啊,然后列出了这样的一个 to do list。 那 这个 to do list 呢,其实挺关键的啊,因为他已经不是在听指令,而是在自己去拆解任务定执行的一个顺序。那接下来的话呢,我们就会按照这个 to do list 去挨个完成添加依赖啊,新增这个 mongol 的 配置类啊, 添加这个连接信息啊,然后呢他会去创建数据的一个实体类,写了一个 mongol db 的 数据操作的这个业务代码。 然后呢他去到了这个 surface 当中啊,替换成了这个 mongol 的 操作。很快呢,我们这个项目就写完了,那这里呢还生成了一个数据迁移与备份的方案啊,看上去是非常的细致。那本地的这个 mycircle 和 mongol db 呢,都是跑在多壳里面的,他这边呢也可以去自己 执行命令,自己读取控制台的一个输出啊,修复连接访问的一个问题,然后执行数据迁移的 python 脚本,最后呢,整个项目就已经启动成功了。那现在呢,我们就去浏览器打开看一下老日制记录,这边呢,已经是全部展现出来了啊,这个符合我们的预期。然后这里呢,我们打一个断点,发现 service 层啊,他走的是这个 mongol db 的 一个查询, 说明这个数据迁移的脚本执行还是非常成功的。那现在的话呢,我们做一个业务操作吧,看一下新增日制是否是符合预期的,首先呢,我们业务操作他是不受任何影响的,对吧? 然后呢,我们来到这个日制界面啊,来看一下最新一条的这个记录啊,点开他的这个详情,然后在这里的话呢,前端页面他也是做了改造的啊,就是列出了数据变更前和变更后的一个版本,快照。那接下来的话呢,我们去到这个 maccode 数据 库查询一下啊,发现没有这个新的数据写进来,对吧,说明现在咱们这个日制的一个写入也是已经签到了 mango db, ok。 那 到这里的话呢,整个测试我们就已经全部跑完了, mini max m 二点一能做的已经不是帮你去写代码,而是接管一整个 真实的工程任务。那对于经常需要去维护老项目,清理技术负债的同学来说呢,这类多语言 a 进化的模型呢,正在改变我们每天的一个工作方式。那如果你也对 mini max 二点一感兴趣,不妨亲自上手体验一下。那今天的视频呢?我们就先到这里了,下个视频再见, peace。
粉丝6.5万获赞38.0万

各位观众早上好,今天是十二月二十七日星期六,欢迎收看 ai 早报。屏幕上是今天的主要内容,接下来请看详细报道。 mini max 正式开源了 m 二点一模型,同步开启 kodin plan 限时折扣活动,国内版首月订阅仅需九点九元。同时上线了好友邀请活动, 智普 ai 面向订阅会员推出福利,即日起至明年一月九日,用户在编程工具中配置 m c p 并输入口令阿姨助我即可领取一张沪上阿姨奶茶兑换券。 anti gravity 官方宣布,决定将 gemini 三 flash 模型的高速率限制状态无限期延续,以回馈开发者并优化使用体验。 杨乐春发布首个飞升城市实时视觉原模型 vl 扎把,该模型仅凭一点六 b 参数就在性能上媲美七十二 b 的 千万 vl, 在 视频分类任务中超越 clip, 其飞字回归设计大幅减少了解码操作,显著提升了在线视频流的处理效率。 flows 平台被发现一个代号为 nano banana pro flash 的 图像模型,该模型被标注为即将推出。据社区讨论,这可能是谷歌即将推出的 gemni 三点零 flash image 模型。 日本政府通过首个 ai 基本计划案,拟未来五年投入于一万亿日元,战略核心聚焦 physical ai 与通用基础模型。软银等十家企业将联合组建新公司。今天的资讯播送完了,明天见!


ai 圈新卷王迷你 max m 二点一太顶了,连马能力拉满 mike。 所以 benny 表现顶尖,各种编程语言都精通,程序员用它改 bug 重构代码,再也不用熬夜。 前端生成页面审美在线,能调用生图数据分析工具,复杂任务一键必换,全流程自动搞定。国产开源大模型的硬核实力,不管是开发还是办公都好用,快去试试吧。

朋友们好,就在近期, mini max 发布了它的最新一代模型 m 二点一,这次新模型呢,在各方面都带来了非常大的提升,针对 web 开发, app 开发,还有一些核心语言,比如说像 rasp, go, java 等核心的技术栈进行的专项优化。 经过我自己的实测呢,他的全站记录站和多语言能力表现的都非常出色,那下面我们一起来看一下他的跑分情况。这里呢,我对比了最新发布的界面三 pro 和 cloud 的 opus 四点五,包括我们的 x 的 gpt 五点二等主流模型。 在软件工程相关的核心榜单上,其实我们可以看到 mini max m 二点一呢,它实际上是超过了 m 二,得到了显著的提升,尤其是在多语言的场景上,超过了 cloud sony 的 四点五和 jimmy 三 pro, 并且呢它接近了 opec 的 四点五。 我们再来看一下 mini max m 二点一呢,在 webcody 的 榜单上的成绩呢,接近了 cloud opec 的 四点五。 全站构建能力呢,几乎上在所有的子集上都优于这个 cloud sony 的 四点五。看完了编程的榜单后呢,我们再看一下它的办公场景的表现,这是一个综合榜单,其实我们可以看到 m 二点一呢,相比于 m 二呢,它的表现也是稳固的提升。那当然呢,我觉得更喜欢的还是它的这个价格, 它的价格呢和原先是保持不变的,并且呢提供了两个 a p i 的 版本,就是 m 二点一和 m 二点一的 lightning。 那这两个呢,其实 api 的 结果是完全一样的,但是这个 m 二点一的 nike 呢,速度会更快, nike 模型的话,它的输出每百万突破是十六点八元,那这个 m 二点一呢是八点四,我觉得这个价格相比于 cloud opus 四接受度还是非常高的。 我们看完模型的基本参数之后呢,下面我们一起来实测一下如何去用这个模型进行实战。首先这里呢我会使用 cloud code 来搭配这个模型进行实战,那下面我们打开 mini max 的 官方文档,这里我选择这个 mini max 的 选项, 这里呢是有一个详细的图文教程,同时呢也展示了它目前所支持的主流 ai 教程,同时呢也展示了它目前所支持的 cloud code, 对 吧? 接下来呢我们就根据文档进行配置,找到 cloud code 的 配置文件的位置,这里呢我们需要替换这个 mini max api 的 key, 然后打开这个路径文件,将 key 粘贴进去。那首先我们先需要去控制台创建一个我们自己的 api key, 这样呢我们就可以把这个 key 呢填入到配置文件,然后保存 好。保存完成之后呢,这里我们重启个 alt code, 就 我们可以看到,对吧?我们输入 cloud code, 这里呢就会有一个我们当前使用的模型,就完美地使用了这个 mini max m 二点一的模型。 记录完成后呢,我们下面给他安排一个从零到一构建的新项目,来看他的实际表现的怎么样。那这一期我们要做的是一个专业的 ai 翻译平台,他是一个纯前端的项目,我们可以让他支持以下的这些功能, 这样我们后面处理翻译的工作就会非常方便,同时呢还能够保证数据的隐私和安全性。 这是我在网上找了一个 ai 翻译的原型图,那据说呢 m 二点一的图像理解能力和 ui 还原能力都非常出色,那下面我们来验证一下吧,我们将需求提的词呢,将它复制过来,需要注意的是这里呢调用的翻译接口呢,我们并没有使用第三方,而是原声呢,使用了 m 二点一模型, 这样呢,我们在进行大规模文本翻译的时候呢,效率会更高,而且消耗的头壳也会相对来说较少。那我们将这个词复制过来之后呢,我们回车这里,我们可以看到他已经开始写代码了,在思考期间,我们也可以看到整个过程呢,是非常的详细的,也包括了这些啊,图度的任务啊, 好,我们可以看到它已经开发完成了,下面我们来看一下它的实现效果。说实话,我觉得这个界面的整体还原度还是非常不错的,从这个表现来看,网站的基础功能已经可以正常运行了,大家觉得这个功能怎么样呢?可以在评论区给他打个分, 那从我个人的角度来说,我还是非常满意的。不过整体的体验上,我觉得有两个方向可以去优化,第一个是功能的丰富度,还有一个是整体的界面美观度。 先说功能方面吧,就我准备加两个小能力,第一个是在需求翻译完成之后呢,能够一键识别我的翻译中的错别字。第二个呢,我希望翻译完成之后呢,加入一个 ai 分 析的功能,能够为这次翻译呢打分评估,其实也相当于间接的二次效验。我们将两个优化需求发给他, 我们打开网站重新测试一下啊,其实我们可以看到,对吧?哎,就多了两个功能,一个是分析,还有一个是错别字的效果识别,可以看到错别字已经正常的被识别出来了,我们点击修正,那这样就非常的完美了。 功能优化完成之后呢,我们再让他帮我们做一轮美化,那我们再让他继续开发,好吧,我们可以最终刷新一下,看下它的效果, 那这一次呢,我们可以看到,对吧?无论从配色还是布局,嗯,包括交互细节还是有非常大的明显的提升。好了,那以上就是 mini max m 二点一的完整体验过程呢,你觉得这个模型的表现怎么样呢? 总结一下, mini max m 二点一呢,它是一个低成本高回报的 ai 工具,无论是 ui 的 还原能力还是对代码提取的理解能力都非常到位,不过可能执行速度上相比于界面三 fresh 会相对来说慢一点, 但是我认为这是一个非常具有性价比的选择。 ok, 那 就是以上本期视频的全部内容啦,我是小刘,我们下期再见。

几个月前,一款开源模型悄然崛起,今年最值得关注的智能体领域新品之一这款模型就是 mini max m 二。 它并没有选择正面硬钢比那些顶尖的通用聊天模型,而选择深耕更具体、对开发者、智能体及实际工作流更有价值的领域。当时 m 二备受关注并非因为它博人眼球, 而是因为它确实能解决问题,尤其是在许多模型都束手无策的场景下,特别是在长城任务中,涉及规划工具调用和执行。如今, mini max 正准备推出新版本 m 二点一,本期视频我将带大家快速回顾 mini max 二的核心价值,随后解析即将发布的 m 二点一 有哪些升级。最后带大家看看他在 l m rina 中的实测表现。话不多说,我们直接进入正题。要理解 minimax 二的意义所在,首先得了解他的设计初衷。从创立之初, minimax 团队就有着明确的理念,智能、英会及每一个人, 而非受限于昂贵的订阅门槛,而非仅仅针对聊天对话进行优化。 m 二定位为一款原生支持智能体与代码能力的模型,这意味着它专为这些任务进行了优化,如编辑代码、调用工具、规划多步操作,并能执行无法仅凭单次提示词完成的复杂工作流。 因此, m 二在智能体能力评估中表现尤为出色,哪怕它未必在所有维度上都是最强的。此外, mini max m 二完全开源,连同模型权重也一并开放。开发者可以在本地环境运行,通过 v l l m 或 s g l line 进行部署,并将其直接集成到自有系统中。 不仅如此,其定价策略也极具杀伤力。发布之初, m 二的价格仅为 cloud samsungnet 的 百分之八左右,且在多种配置下的推理速度提升了近两倍,单凭这两点优势就足以让他备受瞩目。 mini max 团队经常提到他们口中的 不可能三角,对于大多数 ai 模型而言,这三者往往只能兼顾其二,性能、价格和推理速度。 海外的高性能模型普遍价格昂贵且速度较慢,而更廉价的国内或开源模型在性能和可信上往往有所欠缺。 mini max m 二的出现正是为了打破这种取舍难题,它们不再一味追求极高的跑分,而是致力于打造一款性能出色、响应迅速 且成本足够低的模型,从而让智能体系统真正具备实用价值。在 artificial analysis 等综合评测中, m 两位居全球开源模型前列,且运行成本有着极高的竞争力。换言之,他成功进入了那个罕见的理想区间,同时兼顾了性能、成本与速度。 接下来看看全新的 mini max m 二点一,它并非采用了全新的架构,也不是对模型的彻底推倒重来。相反, m 二点一是对现有成功方案的进一步打磨。 m 二点一的目标是修复首发版本中的各种小毛病,并提升其在复杂系统开发中的易用性。 最重要的一项已确认的升级是支持多编程语言,这让该模型在实际生产环境中更具实用价值。此外, mini max 已确认官方 a p i 支持 以及结构化代码计划都即将上线,这很重要,因为它标志着一种转变,不再仅仅是一个新奇的开源项目,意味着它正向一个更成熟稳定的开发者平台转型。 这种频率的迭代通常是一个非常积极的信号,这说明模型正经历着持续的使用、测试与优化,而非发布后便无人问津。现在我已经在 l m rina 页面了,准备在这里实测一下最新的 minix m 二点一预览版模型。我准备让模型帮我设计一个体塑风格的宝塔花园, 要求是支持视角旋转以及缩放功能。我想重点考察模型在两个维度的表现,第一,它的指令遵循能力。第二,生成的花园视觉效果究竟如何?我们来测试一下。好的,看来模型已经建好了。这座宝塔花园 可以看到它思考了约两秒钟,然后生成了执行方案。它首先会基于 three js 创建一个 index html 文件, 利用立方体几何构建含宝塔的体塑封花园,并添加鼠标和触摸交互,方便进行旋转和缩放。加入树木、水景和岩石等景观元素。接着你可以看到最终呈现的花园效果相当不错。 可以看到我们现在能在这里四处走动了,效果挺棒的。不过这层宝塔似乎有点悬空,但问题不大,整体视觉效果非常漂亮。这里还有树木之类的各种细节都照顾到了。另外,我也很喜欢这个细节。这是什么来着? 我猜这画的是鱼,这里看起来像个鱼池。说的挺全的,你还可以进行缩放,比如放大。我来试着把镜头对准那些鱼看看,看看能不能精准放大到那个点 点点屏,看来没问题。此外,还有一个它自动生成的特色功能,这就是昼夜切换功能, 我们可以把它切成夜晚模式。好,夜晚模式下显然非常暗,所有的元素看起来都很暗,但这里有一处亮光。 哦,看来我在这加了个灯光功能,这还挺酷的。接着我们可以重置视角,再把它切到夜晚,看看效果确实很不错。底部还配有独立包括红瓦屋顶,木质结构、花草树木和水景, 效果相当出色。现在我让模型尝试做一些比单纯创建静态花园更复杂的任务,也就是帮我制作一个我的世界游戏。我特意没给模型提供详细的指令, 我想看看模型理解这类基础指令的能力,并在此基础上进行扩展。结合其对我的世界的认知,我们来看一下。好的,看来游戏已经生成好了,我们先来快速过一下他的思路,他觉得这是一个很有趣的挑战。 他打算使用 html、 css 以及 javascript 来开发,当然还会用 three js 进行三 d 渲染来提升沉浸感。他还会加入第一原声视角,控制,基于体速的世界生成和多种方块类型。好了,我们来运行看看。我现在点击开始游戏,看来我可以自由移动, 大家可以看到就像这样 i s 键就能飞行,我飞高一点看看。这里还可以拆除方块,效果确实挺不错的。要知道有些模型甚至连移动功能都很难实现,而它现在能实现这些操作 便确实非常难得。我还可以切换想要建造的内容,比如我想搭建这个模型,就像这样,我可以把它放在这,然后把它换成砖块材质我记得应该是 没错,就是八号,我可以在这儿加一些砖块元素,效果相当不错。就像我说的,能做出这样的成果,很多模型现在连这类动态特性都处理不好。它能做到这一点足以说明其实力, 而且显而易见,这款模型的成本要低得多。现在我来把它和 gemini 一 点五 flash 对 比一下。 我准备让这两个模型完成的任务是创建一个带有大空心球体的交互式三 d 场景。球体内部还困着一个小球,我可以移动或倾斜外面的大球, 而小球的运动必须完全符合真实的物理规律。模型需要处理好重力、摩擦力、弹力以及与内壁的碰撞,添加用于调节摩擦力、弹性和质量的 u i 滑块,并确保小球永远不会发生穿模现象。我们来看一下。好的,看来这两个模型都生成好了。 先来看一下 mini max 二点一,这里可以看到重力参数,我们可以调大或调小。重力随之改变的是小球的运动状态会发生变化。我们把重力拉到最低,看看效果怎么样。看起来球正贴着墙壁移动,但其实看不出什么效果。再把摩擦力也调低一点, 有变化吗?没什么变化,弹性,我们把弹性调高,试着调整一下,球的质量将没起作用。旋转速度把它调快点。速度变快了,但它并没有真正达到我的要求。 看起来不太真实。物理引擎好像没起作用,先开启自动旋转看看,不过 u i 还可以,这点值得肯定。键面设计确实做得挺好, 但整体来看,模型并没有严格遵循物理定律,我们拿它和更强大的模型对比一下,也就是 geminis and flash, 看看它的表现如何。在 geminis and flash 里,我们可以调高弹性。我们可以调高摩擦力和重力,直接把重力调到最低 来试一下通过拖拽来旋转外层结构。我来操作一下,看起来确实在动,但看的不太明显,我再加大点重力。好的,这个看起来明显,物理效果更出色,可以看到 球的运动轨迹,很真实。我们再调高一点弹性。好了,现在能看出来了。显然这个模型表现更优,不愧是 gemini 系列中最强悍的模型。 这个 flash 模型的表现也相当不错,所以对比之下, mini max 显然不是对手。但比起那两个模型,它的 ui 界面做的很棒, ui 确实到位了。不过物理模拟的水平显然不在一个量级。 比如这里可以用 w a s d 键操作,这样外层球体看起来就在转动,但里面的小球却没反应。 我还是打算对他宽容一点,毕竟他是开源的,而且价格更低。显然他现在还无法和 jennifer 叫板,但 ui 体验不错,整体表现还挺像样。如果你喜欢本期视频,这就是我们频道的宗旨,快速清晰地权线 ai 领域的重大动向。如果你想时刻掌握这一领域的最前沿动态, 请务必点击订阅。如果你更关注实操演示工具和工作流,以及开发者能真正落地的应用,那就去看看 word of ai。 我 们办了份干货,邮件订阅汇总、重要 ai 工具和最新资讯,几分钟即可读完。点击订阅,关注 word of ai, 加入我们的邮件订阅,我们下期见。

你们没觉得我们会安然度过这个假期周,而没有更多新模型发布,对吧?你们不记得去年 deepsea 发布,在年底和紧随其后的一月初发布了大量东西吗? 我们又来了。顺便说一句,我们不止有一个新模型,我们从竞争的实验室得到了两个,两者都是开源的。嗯,算是吧。我们马上会讲到所有这些。首先,我们有 g, l m 四点七,它的基准测试结果是这样的。我们还有 mini, max, m 二点一,它的基准测试结果是这样的,显然高于 opus 和 sonnet。 我们有很多要讨论的,我在网上到处都看到了这些说法。 entropy 的 一切都完蛋了, op 四点五被摧毁了。一个比它便宜十倍的模型会让 open 人工智能倒闭。我觉得这有点言过其实了。 这些是有史以来最好的新模型吗?不,所以把你的计数器放下。我看到你在那增加计数器。不放下它放下,我们还在用 op 四。 话虽如此,这些模型太不可思议了。它们能做的事情让我震惊。 我花了很多时间和它们相处,对其中一个了解更多。过去两天,我一直在 vs code 里用 kilo, 以及在我的终端里用 open code, 不 停地磨练,力求从这两个新模型中获得最佳效果。 我现在 token 用量很大,但在今天的赞助商发言后,我觉得我已经掌握了负责任的评测这些模型所需的一切。 首先,快速概括一下这些实验室的模型,然后深入探讨使用它们构建实际功能是什么样的。因为你可能已经看到,我最近一直在用 opus 构建很多东西,所以我尝试用这些新模型重建那些东西,结果非常引人入胜。至少可以说。 首先我们有 glm 四点七,它发布的时间比 m 二点一略早。虽然我确实提前体验了 m 二点一,但我最近才开始使用它。 glm 四点七它一发布我就拿到了,其他人也都能用 glm 四点七。你的新编码搭档带着以下特性来了核心编码,这是件大事,这些模型真的非常专注于编码。与之前的四点六版本相比, glm 四点七在多语言智能体编码和基于终端的任务方面带来了明显的提升。 它在 s w e bench 上的表现好很多,在 s w e bench 多元上的表现也好很多,而且在 terminal bench 上也相当不错,从百分之二十左右的水平提升了百分之十六点五到百分之四十一。但 web coding 现在是 ui 质量的主要支持, 我们肯定会测试一下,能够生成更简洁、更现代的网页以及外观更精美的换能片,且布局和尺寸更准确。而且它在工具使用方面,而且它更擅长复杂的推理,在 h l e 上有了显著提升。 这里有一些精准测试,这是与它们的先前模型四点六以及 deep seek 三点二的比较。 deep seek 三点二是一个非常非常优秀的开源权重模型,不那么实用,但仍然非常智能。 cloud santa 四点五和 gpt 五点一高, 而且在一些评测中,它们胜出或者非常接近 deep seek 等模型。看起来它们中的大多数都与 gpt 五点一不相上下,并且遥遥领先于 santa 四点五。 他们没有把 opus 放进这个基站测试里。他们可能在 opus 发布之前就运行了测试。不过你明白我的意思。看起来它像是一个非常有竞争力的模型,尤其是在更多与编码相关的事情上。而这几乎包含了所有这些方面, live code bench, s w bench, verified terminal bench, talk r bench, easy browse comp。 它在所有这些方面都表现的非常好。 这里我们可以看到一些非常有趣的东西,那就是在很多这些评测中,尤其是推理相关的评测。 gemini 三 pro 似乎是赢家。这在某种程度上表明,这些评测不应该被过度信任。因为尽管 gemini 三 pro 看起来很聪明,但它们塞进那个模型里的知识量太惊人了,实际用起来很糟糕。 自从我开始使用三 pro 以来,体验一直不太好。但如果我们看到像 s w e bench, verified multi lingual 这些代码评测,你会发现它们在最佳选择中非常有竞争力。 在多元方面,他们输给了我,相信这是 deep seek。 是 的,所以在多元方面输给了 deep seek, 但和其他的都势均力敌。说实话,他们在那方面也很接近。这些数字看起来真不错。这些数字看起来真不错,不过视觉设计是最大的亮点之一。看起来它能做出像这样酷炫的网站。 如果你和他之前的表现相比。天啊,没错,这就像通常那些人工智能生成的垃圾网站一样。我希望四点七能创造出真正独特又酷炫的东西。我喜欢二零二三年的活动,虽然这能让你了解训练数据的情况。 哦,看来他对三 d 空间的理解相当好。我确实在滑板测试中运行了。这个 我找一下截图。我没公布那些数据,因为我既忙又懒,而且同时在做好多事。 g m 四点七拿到了百分之六十六,这让它不分上下。 实际上,我觉得它超过了。是的,它超过了 deep 三点二,它是我滑板测试中得分最高的开放权重模型。这既是一个奇怪的小众知识测试,也是一个三 d 空间识别测试。因为它你需要具备一定的空间推理能力,才能理解我所描述的旋转,从而正确命名一个滑板动作。 所以我很惊讶地看到四点七在这里表现得这么好,而且 mini max m 二点一在这里表现非常糟糕。一切都会好起来的。不过这真是苦逼了, 我有做过四点六的对比吗?是啊是的,稍微好一点,只是略有提升。 再说,有了设计品味就能做出真正像样的东西,很高兴看到,而且,当然它是完全开源的。你可以从 hogging face 上下载它。祝你好运,能跑起来,因为它有七百一十七 g 的 数据, 即使我见过的压缩版本看起来也超过了三百 g。 它是个大模型,三千五百八十亿参数的模型可不是闹着玩的。你当然可以在人能买到的东西上运行它, 但你需要付出努力,而且你不能在消费级硬件上运行它。我们稍后会大量使用它。但首先,我们必须谈谈另一个新模型,即 minimax m 二点一。我确实从 minimax 团队获得了提前访问权限, 他们给了我一个每月五十美元的免费订阅,但我几乎没怎么用。当它发布时,我最终还是通过 open router 使用了它。我提前使用了它们的东西,以便能够提前访问。所以,是的,他们联系了我, 对我说了好话,给了我提前访问权限。他们在推着上关注我,所以请考虑到一些偏见。但我确实非常喜欢在团队,在做 g l m。 我非常喜欢蒙莎团队,在做 kimi, kimi k。 二是我现在最喜欢交谈的模型。我也非常喜欢 mini max 的 人,所以请考虑到所有这些的偏见。即使实际上只有 mini max 给了我免费的东西,我也不在乎这些,我只是想找个方法玩玩这些东西。和这些团队互动非常棒,比那些大型实验室好多了。 公平的说, open 人工智能仍然非常非常好,但这些团队的互动效果好得令我震惊。 总而言之,让我们看看这个模型实际表现如何。所以,二点一的关键亮点在于其卓越的多变层语言能力。 它们确实努力专注于让它能与多种不同的语言配合使用。之前,它主要专注于 python。 这就是为什么它在这么多评测中表现如此出色,但在我构建的东西中使用起来却很糟糕。它们显著提升了模型处理 rust, java, goang, cc, kotlin、 objective c, type script, javascript 和其他语言的能力。我用过一些, 非常哭。说到编程语言,我一直想做一个视频,讲讲不同的模型在处理不同语言时的表现。万万没想到,竟然是腾讯发布了一个非常深入的精准测试,比较了各种模型在不同编程语言中的表现。你绝对猜不到哪种语言表现最好? 不是 python 的 百分之六十五,不是 js 的 百分之六十一点三,甚至也不是 ruby 的 百分之八十一。 alex sir 以百分之九十七点五的成绩位居榜首。是的,如果你们想让我专门做一期关于这个的视频,请告诉我。因为这事已经困扰我好几个月了。他们还说他在网页开发和应用开发方面有所改进。这是在能力和美学上的全面飞跃。 我实际上还没怎么测试过这个模型的。美学方面我们会一边评测一边做,而且他显然非常擅长 ios 和安卓开发。这太酷了。我个人不会测试这个,但我有些朋友可能会,他们甚至可能会在评论区出现。他增强了复合指令约束,从而实现了办公场景。 有意思,他在系统性解决问题方面的能力得到了进一步提升。该模型不仅关注代码执行的正确性,还强调复合指令约束的集成执行,从而在实际办公场景中提供更高的可用性。 我确定那些话是有意义的,这实际上非常好。这实际上非常好。我注意到其中的区别了。它并不啰嗦,它只是回应。它具有出色的智能体工具脚手架泛化能力。所以,比如,当你给他一个不同的智能体框架时,它在这些框架中的表现相对较好。 所以给他一些东西,比如 kilo code, 或者 open code, root code, blackbox factory, 人工智能 cloud code, 随便什么,他在很大程度上可以搞清楚。他理解 skill md, cloud md, 他 们也非常鼓励你修改云代码来使用它。 但我这次没这么做,因为上次太麻烦了,也许将来我会弄,我只是不想改我的 cloud code 的 配置。 如果有人有一个异于使用的开源项目,可以让我把 cloud code 作为默认 cloud code, 但也有一个配置不同的 cloud code 的 实力来使用 m 二点一,这样我就可以轻松地在原始 cloud code 和一个修改版之间切换。那就太棒了。 我太忙了,没时间做。但如果有人有像云代码的 f n m 或者云代码的 n v m 之类的东西,请告诉我,因为那就太好了。他们还有高质量的对话和写作能力。他不再只是拥有强大的编码能力了,显然他更擅长写作,目前没有能与 k p k 二相提并论的,所以我都没心思去查了。 然后,他们还有一堆来自所有工具的引言。再说一次,他们正在和所有人合作,而且每个人都说他真的真的很好。 我们发现 m 二点一在处理复杂多步骤编程任务的细微之处时表现出该领域罕见的一致性。 通过大规模提供高质量的推理和上下文感知, mini max 已经成为我们帮助开发者更快解决难题的核心组成部分。我们期待看到我们的社区如何继续利用这些更新后的功能。是的,你明白我的意思了,他们喜欢这些。 他们接着声称它的性能优于 cloud sonic 四点五,并且非常接近 opus。 这有点扯淡,但我们稍后会讲到。 他们还创建了自己的精准测试级 ybench, 它在上面大杀四方。它们测试的是 gim 四点六,而不是四点七。因为这些模型都是在差不多的时间推出的,所以没人有时间重新用最新的模型跑所有的测试。 他们真的很喜欢将其云代码一起使用,也会在他们的很多演示中看到这一点,甚至在他们自己的新用户引导中也会看到。但同样,我不想破坏我的云代码,所以我反而更深入地研究了 opencode。 开源代码有很多值得喜欢的地方,但它也有自身的问题。 我有个视频,本来很希望现在就能发布,但可能要过段时间才能发布。内容是关于我为什么这么喜欢 opus。 然后我用 opus 四点五 n t 三聊天,构建了一堆实际功能,并且不断尝试更难的东西,看看它是否能做到, 而且很奇怪的是,它非常稳定。我构建的一个功能是存档功能,这样你就可以在 t 三频道中存档一个帖子,并有一个页面可以查看所有你存档的帖子。这个功能对 opus 来说出乎意料的容易构建。我制定了一个计划,我喜欢这个计划,我让它构建这个计划。它构建了这个计划,整个过程没有花很长时间, 而且做的非常好。我没有看到它使用了多少 token。 因为我当时使用的是 cursor, 所以 我决定用 open code 中的各种不同模型来做同样的构建。这是一个不同的脚手架,这是一个不同的脚手架,所以它会有不同的能力局限等等。 说实话, open code 所展现出的能力确实让我印象深刻。我会复制提示,可惜的是,我无法附上当前 ui 状态一共参考,因为我无法将图像粘贴到 open code 中,而且我认为这两个模型都不能处理图像。 那我们来新建一个绘画。在 open code 里,我要切换到 g l m 四点七,它目前在 open code, 这是免费的。所以如果你真的很抠门,那就趁现在好好利用一下吧。 我们待会再多谈谈定价。要知道这些模型非常便宜,而且随着越来越多能够托管这些开源权重模型的地方开始托管它们,价格可能会变得更加便宜。实际上还有件事我差点忘了, mini max m 二点一的权重尚未公布, m 二是开源的, m 二点一应该是开源的。他们没有表示不会开源,他们只是还没放出权重。 希望如此,可能很快就会推出。说不定这视频上线的时候,它就已经发布了。据说 m 二点一的权重将在圣诞节发布,非常令人兴奋,所以权重会很快出来。而且根据 mini max 自己的说法, m 二, x 二点五、 m 三等等都会陆续推出,让我们看看能把它推到什么程度。我很兴奋,这也意味着我们不知道它在消费级硬件上的运行速度有多快,也不知道它有多大,但我可以预测,而且我喜欢预测, 所以我们会做很多这样的事情。所以回到实际测试模型上啊。 g l m 四点七 open code 计划模式粘贴了这些祥,你没法看到它们,因为粘贴的 ui 就是 这样工作的。 当我按下回车键,你就可以。然后我们就能得到一个很棒的 y 界面,你可以在这里通过可滚动窗格看到实际的工作进展。你会得到一个侧边栏,里面有实际有用的信息。它还能访问 type script, lsp 和 o x lint, 这样如果出现 lint 错误,它们会直接反馈给智能题,所以你不需要运行命令来查看错误。 非常酷的东西,所以我开始想,他知道自己处于计划模式,所以他必须去探索并弄清楚该做什么。而且他们在 open code 中还有非常酷的子智能体,这样我就可以控制 x 左右移动,看到这些正在探索代码库的探索智能体。 然后我可以回到负极主智能体,所有这些数据在他们完成探索后都会发送到那里,他们会总结发现,然后发回给主智能体,这样他们就不会完全阻塞上下文了。 open 口中还有上下文压缩,你可以手动运行,但如果在生成内容时运行会破坏很多东西。吃一堑长一智,现在我很想坐在这里向你们展示这需要多长时间,但我可没有一个小时可以浪费。 是的,我第一次在这个代码库上运行四点七来执行这个任务时,规划和实际执行花了一个小时, 所以我就直接给你们展示一下我之前运行的结果。这是我第一次做这件事,他稍微截断了我的消息。历史我不太确定为什么,也不知道有没有办法看到全部内容。但他思考了一会,写了一个计划,其中有很多问题。 我记得问了两三个问题吧,其中一个还不错,另外两个就是垃圾。我回答了这些问题,我稍微引导了一下,让他更好的理解该怎么做。然后我点击构建,他就开始构建了。 而且他非常挣扎不断的错误编写 react 代码,并立即从 lsp 收到大量关于这些错误的信息,然后得出不真实的结论。他试图编写一个不需要的乐观更新,并且不断出错。重复编写代码, 会将类似的东西放进去两次对 open 扣中存在的搜索工具和编辑代码工具的工具调用失败。如果我仔细找找,我可以在这里找到一些工具调用失败, 而且在这里它混淆了不同的 use, query, hooks 以及它们的返回值,结果搞砸了一堆东西等等。实际上, 看看这个,他还非常困惑。我们对某些东西使用了 t r p c。 即使这个功能涉及的东西几乎没有用到 t r p c 端点。那些主要是用于一流数据和账户管理的东西,其他一切都通过 complex。 这个功能的全部内容本应该使用 complex。 我 甚至在最初的提示中就指明了这一点,但他仍然迷失了方向。 他似乎在创建越来越多的上下文时并没有足够重视最初的提示。 而且我这次运行期间了解到了上下文压缩的事情。因为他达到了大约八万个 token, 所以 我跑了一个压缩,这样他就不会超限,然后他就破坏了生成, 他变得越来越糊涂。所以我最终打断了他,告诉他不要担心那些类型错误,也不要进行乐观更新,让他继续。他对已经完成的事情感到困惑,最后回去完成了 运行了已经在运行的开发服务器休眠五秒,然后使用 crosslocalhost 获取实际的 html 内容, 杀掉了我原来运行的那个,然后最终得到了一些看起来可以工作的东西。另外,你还有一堆代办事项解决它们,别碰我的开发服务器,你可以想象我当时的心情。 是的,显然欧本壳会自动压缩,所以我不需要进行手动压缩,而手动压缩搞砸了事情。这太棒了,现在你知道了,我马上回来看看演示, 看看我在那个分支上的唯一一次提交。这花了一个小时。是的,现在我在我的开发服务器里。我这里有个小小的存档按钮,我有一个已入党的现成,我可以取消入党,然后返回。 挺好的,他能用了。我可以右键点击这个,然后存档。他仍然显示着那个县城。如果你已经在那个县城里,当你存档时,他不会把你导出去。这很烦人。我在提示中没有明确说明,所以他不一定知道。公平的说,没有一个模型做对了。我确实在生成过程中明确指出,如果没有已存档的县城,应该隐藏存档图标,但他没有做到。 我也不喜欢他在 u i 中的处理方式,这种处理太糟糕了,而且他没有把它放在 u r l 里,我觉得他可能应该放在哪里等。 总而言之,在多次帮助和一两次重新运行后,他以一种可行的方式完成了,这样就能看到这一代是什么样的了。他刚刚完成了规划,花了三分半钟。还不错, 尤其是免费的。记住,并且问了一些问题让我们回答,应该在搜索结果中显示已存档的现成吗?如果是,我们需要一个单独的查询和过滤参数,应该仍然可以通过直接一二幺访问已存档的帖子吗?那我想把存档按钮放在侧边栏的哪个位置呢?这些都是好问题,我可以过一遍回答一下。不管怎样,明白我的意思就行。 我完全可以在这里这样做,非常棒,非常方便。总的来说,计划模式不是最好的,他不能很好的持久化计划。很多其他工具会直接把它写入你的代码库。我认为这很棒, 但这只是我做的一个实现。我还用 mini max m 二点一做了这个。天呐,滚动状态有时候太糟糕了,遗憾的是,这次也无法完全滚动到开头。但我再次告诉他,制定一个计划。 他制定了一个计划,并提出了一些问题。这里我犯了个错误。我以为 open code 会像 cloud 的 代码一样用同样愚蠢的方式处理。换行,你必须对它们进行转译。你可以直接按 shift enter, 没事。所以 记住这个教训,犯了那个错误,已取消并重试。问题一,入党试图位置按钮应该放在哪里?我告诉他,放在贴纸列表的底部。搜索行为搜索县城时应该包含已存档的县城,还是只包含未选中状态的活动县城?他问这个问题有点奇怪, 所以我对第一个问题回答的是县城列表底部。第二个问题是仅限活跃县城。第三个问题,只有当你点击存档按钮时,存档县城才应该可见。如果你从未存档过任何帖子,他就不应该显示。特别是如果你从未存档过任何主题,他就不应该显示。 我们待会再回到那一点。所以他写出的计划开始执行,然后完成了。值得注意的是,他一直没有进行压缩, 总共才用了大约六十六 k 的 token, 但它可以处理两百 k 的 上下文,所以没问题。整个运行过程花费了大约四美分。这个数字可能不太准,因为我用了一下 ui 版本,但我还没见过这次生成的费用超过十美分,便宜得可笑。 相比之下,这简直是便宜的离谱。先不剧透后面的内容,但是很多是, 所以我创建了代办事项清单,看起来不错,让他放手去做,然后他就开始运转了。他运行了一段时间,这里我们看到了那些在内容中找不到旧字母圈的错误。整个过程有很多这样的情况。看来编辑工具在实现开放代码方面,有些东西是这些特定模型不太喜欢的。 我用 ops 运行的时候没看到这个错误,所以这似乎是模型特有的。而且我知道 dx 不 认为不同的模型需要改变他们的系统提示以及不同的代码工具。我不同意 这些模型可能需要稍微引导一下滑。虽如此,他最终还是在大约七分钟内完成了。不过他没有隐藏已存档的现成。默认情况下,已存档的帖子会出现在主示图中,这完全不应该发生。所以我抱怨了一下。他又努力了一会,大约在一分二十秒内修复了。 我决定问他是否还忘记了其他事情,因为还有其他一些小问题。具体来说,他没有隐藏存档按钮。 我可能漏掉了一点。当你存档一个帖子时,应该出现存档按钮,但 has archive threads 查询应该处理这个问题。不过那个查询有问题。我没有存档的帖子,但存档按钮仍然显示着。发生这种情况的原因是它没有从返回值中获取数据。 use query 这个钩子会返回 data, loading, error 以及其他一些东西,而它实际上只是在检查是否返回的一个对象。所以试试把 has archive threads 改成 has archive threads 来 true。 然后它通过 lsp 得到了一个类型错误。非常好。这个比较似乎是无意的,因为 bo 型 use query result 的 类型没有重叠。 那可能就是,哦,太棒了。实际上,不管怎样,既然它有了那个错误,它就意识到 use query 返回的是 use query 结果对象,而不是原始数据。我需要使用 data 才能正确访问实际值。这实际上是一个很好的例子,说明了工具模型和代码库是如何良好的相互作用的。 最初的这个东西不是类型错误,它实际上是一个对象检查,用于阻止渲染。这是糟糕的代码不正确。 linter 可能应该捕捉到这一点, 虽然不容易捕捉到,但令人恼火。这些模型不像一些主要实验室的其他模型那样对 type script 有 深入的理解, 但它也知道如何处理错误。如果它遇到错误,它可以去修复它。这也是为什么 cloud code 在 发布后近一年才添加。它很酷。 现在大多数 c l i 都有 l s p, 也就是语言服务器协议。如果你不知道这就是语言服务器如何与你的编辑器沟通,告知你发生了什么。 珍宝表现好多了,仍然存在这些新旧自复串替换的问题。他就是不太擅长使用编辑工具。最终正确地命中了。这里得到编辑以贵党的帖子问号点数据为真, 然后渲染,否则就别做了。太棒了,修复那问题也花了一分钟二十秒,我让他移动了按钮,一分钟就搞定了。现在一切都完成了。所有这些总共花费不到零点一零美元。我不一定相信零点零四美元这个数字,因为我一直在他们的 ui 和他们的应用之间切换,你明白了吧?确保所有这些都能部署。 一切看起来都不错哈哦哈?没有存档按钮哦哈?没有存档按钮。咱们把它存档吧。现在我有东西被存档了。 真棒!意外很棒,按钮位置放对了。返回县城这个功能我挺喜欢的,他确实会在规档后保持县城开启。如果我打开了这个然后返回,他就会那样做。如果我取消存档,返回县城的按钮还在,所以我可以回到这里。他完全可以工作了。我得引导他, 但他能用。但这也正是我一直在挖掘这个模型的原因。他相对较快, 他能很快找到问题并解决。他在计划方面很扎实,在执行计划方面也很扎实。而且他不会像许多其他模型那样在这些较长时间的任务中迷失方向。 我能够让他在一个功能上持续编写超过四百行的代码,并且持续了大约二十分钟而没有出现问题。他可以进行这些探索,获得反馈,做出改变并自行解决问题。四点七就没那么行了。 根据我的经验,四点七需要分解成小任务才能完成。如果任务有多个路径可以到达的更通用的终点,它就更容易迷失方向, 需要进行大量的引导才能最终到达它需要到达的地方。说实话, mini max 只需要时不时的提醒一下,以及它无法获得的上下文,因为它没有任何视觉能力,也不了解总体上发生的一切。 你能感觉到它是个小模型,但它是个好模型。它是一个快速的模型。感觉有点像沃尔玛版的 o p s。 虽然有点傻,但足以完成实际工作。我还去 kilo 试了一下,我的体验有很大不同,而且说实话,明显更好。给大家看看 它开始创建这个计划,因为我把它放在了架构师模式。我让 mini max m 二点一制定一个计划, 他照做了,字体有点小,抱歉。他还把计划做成了代码库中的 markdown 文件。我喜欢这样。这是他从同样的提示中写出的计划添加一个存档聊天功能,允许用户从右键上下文菜单中存档对话,并通过侧边栏中的存档按钮访问存档对话。提出了模式更改。 他注意到了,因为我实际上在模式中为此目的设置了可见性,只是从来没有使用过,所以他实际上不需要做任何架构上的改动。 县城查询列表显示所有县城没有可见性过滤器。他们必须加上那个放置突变。更新突变不包含可见性字段。 这很有意思,这是当前状态分析,所以他不仅仅是给出一个计划。他先分析现状,然后再制定计划。这一点我不太喜欢。我认为实际计划中不需要包含这个。这感觉像是推理过程泄露出来了, 但实际的实施方案是可靠的。更新查询已紧筛选可见现成。他确实在计划中编辑了更多的代码。我不太喜欢这样,因为他可能只是在编辑代码,重点是有一个架构方案,而不是编辑代码。但他做的足够好。 他创建了新的列表,归党查询,这就是他如何从更新突变的能力中获取归党数据。第二阶段,前端部分,所以他把后端和前端的改动分开了。说的好。第三阶段,用户界面更改,实际上是从这些星钩子访问数据, 然后他尝试渲染这个。我不知道我是否真的能。如果这里有预览的方式,信不信由你。我现在不太用 vs code 了,打开预览开始了。是啊,他没渲染出来,我不知道他们是否有办法做到。对,如果我在这里有 mermaid 渲染,它就会有一个流程图,所以就像哪些文件需要修改。测试注意事项, 第一中复杂性,一切看起来不错。你知道我要做什么吗?我要重新保存这个计划,让它再次拥有,让它开始构建 mini max m 二点一,实现计划归党聊天功能。 md, 如果我真的想让它有最高的成功几率,我还会告诉它一些事情,比如确保根据里面的细节创建一个代办事项清单之类的。 希望我们能弄清楚他应该这样做。我还忘了提一下 kilo 的 过去赞助过视频,他们将来可能会再次赞助。我用他们不是因为他们是赞助商,我使用他们是因为他是我最喜欢的通用工具, 可以在真正的代码编辑器中使用一堆随机模型进行测试。所以如果你想要一个工具能让你使用几乎所有的模型,并比较他们在不同用力中的表现,那就用 t 三 chat。 但如果你在寻找代码案例, kilo 真的 很棒, 它确实创建了代办事项清单,并将其分解为不同的阶段。剧透一下,我之前就这么做过了。它运行良好,似乎对代码库的感知更好,但对代码检查和类型错误的感知更差。 我的理解是,在 open code 中将上下文传递给模型的唯一方式是通过工具调用来查找信息。然而,像 kilo 和 cursor 这样的工具实际上会对你所在的 code base 建立缩影,并提供更好的模型访问方法。 我可能对 kayla 如何做到这一点有误解,但我确信 curser 会锁你的代码库,并且他们有自己疯狂的搜索方法。这些方法围绕传统的搜索工具进行实施,以使结果对模型更具上下文相关性。 这可能也需要一点时间。在进行的同时,我想更多的谈谈性能,特别是定价方面,比如速度。我们已经转到 openraw 了,我们可以看看 这里的 m 二点一,通过官方的 minimax 托管,它大约能达到每秒七十五到七十六个 token。 目前还没有其他的 host, 因为它们还没有放出权重。我们的理解是它们将会放出,但目前还没有。在 open rota 上甚至有一个权重链接,目前是四百零四。我希望它们能在不久的将来解决这个问题。 至于 g l m 四点七,它已经发布了,但是很多 host 的 速度并没有那么快。 z。 人工智能实际上就是它们自己,它们能够达到超过一百五十个。 t p s latency 达到了六十, percents 达到了八十,但其他主机低至每秒八个 token, 所以 它是一个大型模型,托管起来不会那么容易。这很正常。 然而, mini max m r 非常小巧好吧,也没那么小。两千两百九十亿参数对比新版 z 人工智能 glm 模型的三千五百八十亿参数, 大约三分之二的大小。 glm 四点七。在其专家混合过程中,每次激活需要三百二十亿的参数。然而, mini max 只激活一百亿参数,这再次有助于它运行得更快啊。 如果你想看看实际效果,我下载了原始 m 二的 g g u f 版本。它在我的 macbook 上运行得非常出色。 它被压缩到大约七十八 g。 在 我那拥有统一内存的一百二十八 g macbook 上可以完全装进内存。 因为它现在实际上要将八十 g 的 数据加载到内存中,所以需要一点时间才能加载到 r m。 如果你想知道为什么托管模型这么烦人,那是因为当两个人想要两个不同的模型时,将一个模型从内存中卸载,然后将另一个模型加载到内存中的时间通常比处理请求所需的时间还要长。 让模型写一些关于 java script 的 诗歌吧。好了,这是 m 二,不是二点一,因为我们还没有权重。这只在让你大致了解性能可能的样子, 可能应该降低这次运行的推理能力。还在努力运行。在消费级的 macbook 上跑了大约三十五个 t p s。 这也太酷了。再说一次,这表明这些模型实际上可以在消费级硬件上使用。 我几乎肯定还是会通过 api 调用来使用它,而且它们当然会得到 openraw 的 支持。我希望这种情况会无限期的持续下去。还在 k 楼里圈,我可以这么久不用干预。这很酷,但也有点耗时 不妙。是的,这就是我之前遇到的问题。我想展示一下它。似乎一开始进展顺利,但后来我遇到了无效参数,找不到工具 id 的 错误。我会重试,但它就是卡死了。 就像这个任务结束了一样,这个县城被终止了。我不得不创建一个新县城,并让他继续。这很糟糕,因为我们已经花了四十美分。他在三个阶段中的第二个阶段进行到一半时就停止了。这些事情 需要一些时间。当你使用像新的开放权重模型和用于 vs code 的 开源插件这样的工具时,就会遇到这些粗糙的地方。是的, 再次提醒一下,他们推荐的使用模型的方式是与云代码一起使用。我没有这样做,因为我不想修改我的云代码来使用它不支持的模型,然后不得不这处理配置交换。这很烦人,所以我没有设置它。但你绝对应该尝试一下,因为它们的方案更便宜, 而且模型非常好。如果你好奇 ops 是 如何处理的,他直接完成了。他不喜欢 ui 部分, 给了更多的建议。它相对快速的修复了这些问题,一切都正常工作了。在 cursor 中尝试了一下,效果很好。在 open 口中尝试了一下,效果也还不错,不如 cursor 中的 opus 那 么好,但成本也倒便宜得多。 这是一个快速的成本比较,但请记住,输入和输出成本不仅仅是这些数字这么简单。生成的令牌数量也很重要, 而且这些模型很健谈。与其他模型相比,尤其是在推理阶段,它们每行代码生成的 token 多得多。所以仅仅因为价格更便宜,并不意味着实际运行成本也更低。它也更便宜,但会生成更多的 token。 所以 先了解清楚这一点。 oppo 四点五的输入价格是每百万 token 五美元,输出价格是每百万 token 二十五美元,输出价格是每百万 token 十五美元,输出分别是每百万 token 二十五美元和每百万 token 十五美元。 记住这些四点七输入是每百万 token 四十美分,输出是每百万 token 一 点五美元。它是 sauna 四点五价格的十分之一。它的智能远不止十分之一。 它功能强大,特别是当你强迫它只进行直接代码更改时。但还不是最疯狂的 mini max m 二点一的价格是每百万 token 输入三十美分,每百万 token 输出一点二十美元。 你知道这有多离谱吗?这些模型便宜的离谱。这是 opus 价格的二十分之一。 而且 opus 刚刚大幅降价了。 opus 四点五比之前的 opus 四点一便宜三倍,这是其价格的二十分之一。这是 opus 四点一价格的六十分之一。实际上,我认为这个模型与 opus 四点一价格的六十分之一。实际上,我认为这个模型与 opus 的 四点一相似, 价格只有闪电模型的六十分之一。而且为了比较,我仍然对新的闪电模型感到非常兴奋。但在实际的代码,使用对话或任何这些类型的事情中,它用起来很糟糕。 但作为一个在后台工作的处理随机任务的模型,比如解析数据,并给你一个 gson。 它在这方面非常可靠。这个模型是每百万 token 五十美分进三美元出,所以它仍然比 m 二贵两倍,甚至更多,特别是输出 token, 这太疯狂了。而且价格实际上有可能更便宜,因为他有希望是开源的。如果他们在一两天内不公布权重,我会非常惊讶。其他主机将更具竞争力,速度更快,批量处理选项更多,缓存更好。所有这些类型的改进都有可能让价格更低。可能不会费心,但他们可以 不管怎样,这太棒。看到如此出色,如此便宜,可以自托管并且推动技术进步的模型,真是太棒了。但我仍然想玩一下 ui。 我仍然很想看看它在用户界面方面的能力,所以我们来设置一些东西让它做做好。我现在要生成大家最喜欢的 imagegen studio ui, 看看 g l m 四点七和 minimax m 二点一之间的质量如何。 这个 api 的 高并发使用,请降低并发或减少文字重叠错误。太棒了, 可能得换个供应商了。如果你想用一个模型做编码以外的事情,比如基本分析,或者只是滥用它来进行工具调用,对象生成之类的, g l m 似乎可能是更好的选择。 在我的测试中, mini max 在 长任务生成计划和全力以赴方面表现得更好。 它有那种笨拙的感觉,能持续工作更长时间。 我见过的唯一具有这种特性的模型是 gpt 五 sonic 四之后的所有 anthropic 模型,以及现在的 mini max m 二和二点一。我没怎么用过 m 二, 所以不知道这个版本比 m 二好多少,但它执行长时间任务的能力让我震惊,尤其是作为一个开源模型来说。 我知道我这次 ui 生成没有使用计划模式,只是 ui 生成而已。它本不需要计划。看看那个明明是个棒项目,它却用了 npm。 我 们喜欢它用 bunda 添加包,然后用 npm run 运行。 顺便说一句,那是 g l m 做的。我真的很希望 opencode 能在这里增加每秒处理的 token。 他 们竟然能做出可点击的用户界面,真是太疯狂了。 因为它运行了开发服务器,所以可能卡住了,或者在想好了,现在终于完成了,真好笑。 是的,它用 and 运行了那个开发服务器,现在失去跟踪了,它迷糊了。之前它也这样,我不得不对它大喊大叫。它就是不知道怎么运行开发服务器,这很烦人, minimax 根本懒得做。 如果我没记错的话,我的光标规则里确实有一条规则告诉模型不要这样做,我要偷个懒,用这种方式来隐藏我的邮箱。我的确在 cursor 里有那个规则。好吧,差不多了。除非真的需要,否则不要调用构建命令。他们搞砸了我的开发环境。你可以随意运行类型检查。是的,这些还在运行。 看来 glm 四点七能够通过调用 q 命令摆脱他自己用那些 dev 命令挖的坑,并告诉我他正在这里运行。 我不希望他还在那里运行。他不在也不是那个。哦,我可能还有另一个待服务器在运行。那我再检查一下。 呃,我没有,就这样吧。天啊,这是 glm 版本 c s 塞南了,看起来有什么地方坏掉了?间距全都不对, 所有东西都被压缩到角落里了。出什么事?你是不是把 tailwind 的 配置文件搞坏了?我还以为这个模型很擅长 ui 呢。 mini max 还在努力运行,有意思的是,这个模型运行的更快,但做的也更多, 所以有时候会多花一点时间看情况。当我对一个真正的大型代码库进行实际更改时,他根本没有花费更长的时间。这再次说明,这真的令人印象深刻。理论上,这是个开放权重的东西,你可以下载并在自己的电脑上运行。 他能够对一个每天有成千上万用户在使用的实际生产代码库进行真正的修改。这已经不是小事了。不再是哦,他可以自动补全。或者如果你在文件中让他做一个修改,他有时可以做到。 这是真正的工作和真正的代码库。不是我现在演示的这种,这是一个快速的临时的演示应用,但之前我展示的东西是实际工作。太棒了, mini max 刚刚完成了,花了七分五十九秒。这是它生成的, 还不错,测试生成,为此配备了很棒的虚拟 ui。 我 可以进入它生成的画廊仕图,里面有一堆假的图片,还不错。在 ui 方面仍然远不如新的 opis 模型,特别是新的 gpt 模型。现在 jimmy 三在 ui 方面真的很出色。没事, 考虑到这个模型基本上可以免费使用,因为它太便宜了。就像这样,花了一美分,一美分写了近四百行代码, 太疯狂了。 glm 不 会告诉我花了多少钱,因为它免费之后我可以手动计算,但也不会差太多。它生成的 token 更多,花费稍微少一点,所以大致平衡。你知道吗?我要试试,我要做一件蠢事,就像我经常用自己的模型做的那样。我通常用 opus 来处理大多数事情。 如果需要处理远端文件里奇怪的东西,我会偶尔用五点二 x high 做一些非常深入的规划。五点二在规划方面仍然好很多,而且在复杂的样式和类似空间关系的事情上也比 opus 好 不少。对于奇怪的 c s s, 我 仍然使用 g p t 五模型。所以我明白了, 对于大多数事情,我应该只使用 opus, 然后偶尔切换到 gpt 五。如果我知道这是一个 ui 密集性的任务,它会从中受益,所以我们在这里试试。我将像使用 opus 一 样,将 m 二点一用于 minimax 作为我的通用模型,通用规划,通用代码,通用事务。 然后我打算用 glm 四点七作为我的 ui 专家。与其等着它恢复这边到底发生了什么鬼,不如我让它修复这段代码,让它不那么丑。 所以我打算让它访问 minimax m 二点一版本,并让它清理一下。我还打算在 kilo 代码里做这个。因为不知什么原因, opencode 部署的四点七现在有很多奇怪的问题。推送到 kilo 哦,推送到 glm 四点七这个应用太丑了, 让它变得美观。它应该是暗黑模式,相对简约并且有品位。让我们看看 gm 在 q 代码中如何把这个非常丑陋的东西变得不那么丑陋。 我打赌它完成这个的速度会比完成修复另一个里面的占的速度快。是啊,占的部署有点问题,就是慢。让我来更新一下样式工具调用写入中断了。 有意思,这事可没人们想的那么简单。好了,开始运转了。它只是新建了一个文件,顶部写着 use client 甚至连引号都没有。它是不是直接重写了整个文件? 太搞笑了,他甚至懒得修改,他只是输出了一个新文件。告诉四点七我真正的感受。老天,我真希望这些模型能变得更快,那就太好了。 实际上有点酷的是,类似于你对你的技术栈框架和工具足够了解,你就可以在何处使用何种技术做出很好的妥协。比如,你知道什么时候使用 complex 数据库,或者完全使用其他的东西, 你知道什么时候用 react 合适,什么时候真的应该用 sorry, 又或者什么时候不能用框架,否则会碍事。模型中开始出现这种类型的知识。你可能知道,四点七,在 ui 方面比 mini max 二点一更好,但 mini max 二点一在规划和执行长期任务方面要好得多, 并且知道在哪里使用哪一个来优化性能和成本是真的太苦了。比如,我能看到一个合理的用力,就是用 minimax 作为你的常用通用模型,然后启动 opus。 四点五,利用它的前端技能来做主页和前端 ui, 但不要让他做任何其他事情,这样你就可以把钱花在营销和主页上, 并且在实际实现中不会花费那么多。在实际实现中,你会生成更多的 tokens, 你 可以限制在何处,以及如何使用更昂贵的模型, 甚至可以将更笨的模型限制在特定的框中,以最大限度地利用你所花的钱。或者你可以像我一样懒惰的几乎所有事情都使用 opus, 但你能以如此低廉的价格获得如此接近的效果是荒谬的。让我们看看它的效果如何。这是 gl 版本正在编辑 他从 minimax 那 里得到的代码,而且他很简洁,看起来也更好一点。他确实比我预计的更多的保留了原始 ui, 但看起来很扎实。我确实喜欢这种极简主义。我要让他再过一遍。 为此写了不少提示词,让它更有创意。别害怕完全改变布局啊,你有完全的创作控制权啊。用它来创造杰作。不知为何,那是条排队等候的消息。好吧,看来我把 klo 完全搞坏了。 klo 团队,我想喜欢你们正在构建的东西。我们需要聊聊,又失败了吗? klo, 我有点恼火了。好吧,这是来自 g l m 四点七和 open code 的 原始版本。它最终修复了布局。它做错了什么?它做了很多实际上并没有修复问题的随机事情。 这个 div class 的 相对定位没有任何高度或弹性属性,所以所有东西都被压缩了。是的,我不像他们在这里展示的那样认为 g l m 真的 擅长。意外,这太糟糕了。 将背景作为数据 url 硬编码到 tailwind 类名中。这是一种选择。这是一种有趣的做法。 我以前没在云代码中使用过技能。哦,你只是让他使用这项技能吗?有意咱们粘贴同样的提示词吧。使用你的前端设计技能。 伙计,谁能做出第一个不会无缘无故随机运行你那该死的开发服务器的模型,我就把大把的钱给他。对, opus 就是 写不出能用的 css, 他 还写了一大堆 css。 要知道我们用的是 tailwind, 不 需要写几千行的 css 哦。这可能只是因为它构建的方式。我还在用其他的好的稍微有点不同。 这是我赋予 cloud 的 设计技能。之后他做出了一个自命不凡的研究网站,你会看到有人在星巴克咖啡馆里研究的那种 看起来真酷,但实际的导航用户体验太烂了,感觉像是用力过猛。这是我能想到的最好说法。 但他能做到这样的事情真是太酷了。我可能会用这个做主页。这项技能确实把它引导到这里了。你可能好奇这个设计花了多少钱,以及让它修复、导入并重新构建又花了多少?大约一块钱。是啊, 用了四分钟的 api 时间和一美元才做到。所以你明白了吧,你可以用 mini max 花十到四十美分实现整个功能,或者用 opus 多花十倍的价钱让它看起来更漂亮。这成本差异太离谱了。 今天当个省钱的家伙真是个好日子。顺便说一句,如果你想要一个好的 u i 来测试与这些模型对话,比如让他们为你编辑代码,或者你想让他们做的任何其他事情。 t 三叉仍然是目前为止你可以用这些模型做的最好的 u i。 我 不在乎别人怎么说,其他的,在这种通用用途上都不行。 我们也支持像 gemini 这样出色的模型,包括 pro 和 flash。 目前为止, nano 最佳图像生成体验非常棒。这有点烦人,我们本不该领先这么多啊。我最喜欢聊天的模型是 kimi k 二, 如果你对这样的模型感到兴奋,很可能因为你有点抠门。我明白了,我也是,所以我打算给你一个优惠。通常 t 三 chat 每月收费八美元。这已经很划算了。但特别问你,如果你在结账时使用代码 cheap bastard, 你 的第一个月只需一美元。 是的,如果你在结账时使用代码 cheap bastard, 只需一美元。总之,是个好模型。这个前端设计技巧看起来确实不错。它有几段文字告诉他如何更好地进行设计。它有九百个 token 的 指令, 专注于排版,色彩和主题,动态空间构成,背景和视觉细节。不要使用通用的人工智能生成美学,比如过度使用的字体系列,以及 interrobotic aerial 系统字体。 老套的配色方案,尤其是在白色背景上的紫色渐变。这不是一项技能,这是 anthropic 编辑的一个 markdown 文件, 告诉模型不要再做那些破事。这就像添加到系统提示中。永远不要说你绝对正确来解决问题。这真的太搞笑了。阅读 antropolis 的 技能文档是了解模型行为的最佳方式,因为他们把所有让模型停止胡说八道的东西都藏在这里。 太搞笑了!太搞笑了。他用了一个不错的字体。这是内置在 anthropic 技能中的吗?不,这是你可以从 anthropic github 上获得的一项技能,云代码插件插件端设计吹技能。这是他们上个月在 github 上更新并发布的技能, 只是这个 markdown 文件而已。这是一项技能。需要明确的是,这个仓库并不意味着 cloud code 是 开源的。 不见得, clock code 实际上是 github 历史上收到最多 dmca 遗存请求的来源,因为他们曾经意外泄露了他们的源映射 cloud code 非常必然,他们只是在这里放了一些社区组建。这可能是任何 github 仓库里星星最多,但实际上不包含该 github 仓库所命名的源代码的仓库。这太傻了。 很多人似乎认为 clock code 的是开源的,因为有一个名为 clock code 的 仓库有五万个星,并且每天都在更新。但这并不意味着 clock code 的是开源的。实际的包你安装的东西 闭源,而且它是目前唯一一个闭源的主流。 c i 随便说说。回到运行 glm 的 开源项目,它还在运行。这段已经进行了大约二十分钟。我不想再浪费大家的时间了。我觉得我已经讲得足够清楚了。这些模型很不错。 四点七,擅长专注工作和完成特定的小任务。 minimax m 二点一,可以在很多事情上运行很长时间,并产生非常出人意料的好结果。 他们都是开源的,他们都极大的提高了你用少量资金可以完成的工作量。所以,如果你预算紧张,每月两百美元的订阅费让你感到不舒服,也许应该用 t 三 check, 每月只要八美元。 那你也应该考虑使用这些开放权重模型,结合像 open code 这样的工具,以稍慢但更便宜的价格产生惊人的结果。 我喜欢这样的发布,并且对我们从这些中国开放权重实验室看到的东西感到非常兴奋,结果令人难以置信。我从没想过这种性能。在六个月前是可能的,而现在你可以下载文件并在你自己的机器上运行来做这样的事情。这真是太酷了。 这是结束今年最好的方式。我非常期待明年这些实验室会带来什么。下次再见,各位奇克们,拜拜。是的,它还在运行。

大家好,我是 kate mini max。 m 二点一终于正式发布了。 m 二点一这一次重点聚焦于更多编程语言和办公场景的可用性,并在这个领域做到最好水平。官方介绍,它们系统提升了 m 二点一在多个语言方面的能力,而且 他们还特别加强了原声、安卓、 ios 的 开发能力。相比 m 二, m 二点一的回复呢,会更加简洁。而且他们特别强调 m 二点一不再只是代码能力更强,在日常对话、技术说明与写作场景中, 回答的质量也会更高。通过这张图我们可以看到 m 二点一呢,它的 s w benchmark value five 的 得分现在已经是国产第一了,来到了七十四,在软件工程相关的榜单上呢,尤其是多语言榜单 m 二点一它的得分呢居然是超过 sony 四点五和 gmail 三 pro, 并且非常接近 cloud office 四点五。它们还构建了一个全新的基准,覆盖了 web 端、仿真、安卓、 ios 和后端。在这些基准方面呢, m 二点一它的得分呢非常接近 opt 四点五,并且在所有的纸级上都显著优于 sony 四点五,所以大家可以好好测一下它这次的编程能力。 m 二点一和 m 二一样,支持在多个软件里使用, 我这次主要是在 cursor 的 plan 模式下使用 m 二点一。 plan 模式会先梳理任务,列出步骤,再逐步执行,对复杂项目或者调试比较棘手的 bug 时帮助特别大。 minimax 官网上有非常详细的文档介绍如何在 ctrl 里配置它的 api。 核心的几步是把 openi 的 basic ul 改成 minimax 提供的地址,配置你的 api key。 在 模型板块添加一个自定义模型,模型名称是 minimax 杠 m 二点一。 m 二点一在外报端的 ui 和交互上给了我很多惊喜, 在没有开 plan 模式,也没有前端优化 skill 的 情况下,我让它生成一个理发的 landing page, 最终出来的是一个黑金配色的页面,整体布局和配色都很高级,还帮我生成一组催眠数学动画,包括分形、螺旋、粒子、漩涡、 铜螺丝、三角玫瑰、曲线花园等多种风格动画呢,不仅好看,还可以交互点击、拖拽、键盘呢,都能调整参数。我还让它生成一套奥德赛号主控面板的界面, 这里我使用了前端 skill, 再加上了 cursor 的 play 模式,最终生成的界面 ui 非常美观,有启动、扫描、触发红色警报等按钮,点击之后会出现科幻片这种动态效果。 m 二点一还帮我做了一个 ai 教程类的页面, 我在 agent magdalen 里面特意强调不要用太普通的字体,它也很好地遵循了,选了更有特色的字体。接下来呢,是一个偏三维场景的实验, 我给他的提示词是 minecraft, 风格要有方块人。背景呢,是春晚聚会场景,电视机上要写着二零二六春晚桌子上要有饺子, 我们可以看到电视和电视柜的位置,质感还不错,但人有点嵌进桌子里,饺子呢也飘到桌外,说明它在空间关系上的理解还有待提升。 在生成这个场景的过程中, m 二点一会主动访问我春晚和福字希望用什么字体,场景里大概需要多少个角色?要不要顺便添加一个 gif 录制功能?我觉得加 gif 录制很不错,就让它实现点击开始录制, 然后暂停,可以直接下载 gif。 还有一个是绵阳理发店的场景,这道题我给的提示词非常长,元素非常多,目的呢,就是想要测试 m 二点一在指令遵循和空间理解方面的能力。 资质证书,窗外透进来的光,理发椅和工具包的细节都不错,不过围布没有盖在小杨的身上,小杨和椅子的距离也不太自然。这是 m 二点一生成的兵马俑跳街舞。兵马俑表演了啊, popin, locking, breaking、 weaving, 还有 freestyle。 同样呢,让我非常惊喜的是它对传统文化的理解。下方呢,有三个小标签介绍兵马俑的材质,主体是陶土质感, 局部呢是有金色点缀,这也是我近期测过的非常有趣的兵马俑街舞画面。这是 m 二点一生成的数字书画应用,页面很美观,笔架上呢,有三种笔,墨水浓度可以调。 敦煌的纹饰呢也是做的很好,整体页面的配色、文案和交互都能看得出它对中国文化的理解。接下来重点讲一个完整项目,一个由 m 二点一帮我丛林构建的 ai 幻灯片图片生成器。 这是一个全站应用,大家看到视频的时候,这个项目的话已经开源了。它的核心功能是你输入一大段文字, ai 会自动帮你切分成多页幻灯片,你也可以手动去选择,它会为每页生成对应的图片提示词, 然后可以选择调用香蕉 pro 或者极梦四点五模行为每页生成配图。应用里呢,内置了三十多种风格, 还提供了风格设置按钮,可以新增分类自定义风格,图片比例,综合了极梦和香蕉 pro 的 常见尺寸压。在分好段之后还可以做一次评估和优化。评估可以帮你检查分段后的内容和原文是否保持一致, 它会给到修改意见,可以直接点击采纳修改内容合并后呢,可以自己修改提示词, 或者复制一下交给提示词助手做去重和润色。确认好分段和提示词之后, 你可以单独为某一段生成图片,或者一键为所有的分段批量生成图片,不满意的话可以调整提示词重新生成 应用会保留不同版本,方便对比。所有图片都支持一键下载,从零到完成,包括多人修 bug 和优化。我大概花了五个小时编码,全程用的 m 二点一。我呢,先把详细的产品需求文档发给他,让他在 plan 的 模式下, 根据需求文档深层详细的开发计划。他会主动访问我这一次是只做 mvp 还是把所有功能一次性做完? ui 呢?是希望明亮风格还是别的?我选择的是全部功能, 黑白主色和明亮色点缀。它给出一个包含多个部分的计划,一、清除要新建哪些文件,负责什么功能,预期的交互是什么样的,还有大致的验收标准。我在确认计划没问题之后就让它开始 build。 它会持续生成修改多个文件的代码,在过程中它会不断检查 type script 翻译错误和 link 错误,并逐个修复。 我不打断,看它自己边想边做。遇到各种问题,我也让 m 二点一逐一调试 自定义风格设置的弹窗打开后无法关闭,选择单个分段生成时,实际上渲染了多个分段。批量生成时, replicate 后台有图片生成记录,但前端 network 是 空的, 页面上也看不到图片。遇到这类问题时,我通常做两件事,把症状清楚地描述给 m 二点 e, 让它在 plan 模式下先生成一个修复计划,然后调用 chrome devtools mcp 自行填表单,点击页面 看控制台和网络请求,最后给出修改方案并落实到代码里。它在工具调用和自动调试这块的表现非常好,基本上都能快速定位问题并修复掉, 比我自己刷新页面看日制改代码要高效很多。我给的 pid 需求较多, m 二点一大概完成了百分之九十评估功能被漏掉了,页面上对应的按钮呢,只显示还在开发中。从整体效果来看,它的指令遵循已经算很不错的了。 在那么长的需求里,漏掉了一个功能点,我让 m 二点一在 plan 模式下补上评估功能。它先生成计划,列出要修改哪些文件, ui 怎么呈现,验收标准是什么。我仔细检查后,让它自动修改代码。 在整个应用的构建过程中分享一点小心德。无论是丛林构建应用,还是修复棘手的 bug, 都建议先开启 plan 模式, 这样执行时出错率和返工成本都会下降。第二呢,是积极鼓励 ai 在 不明白的地方访问你,你给他的信息越充分、越具体,你和他在一个问题上的观点就越对齐。 第三是一定要用好 m c p, 特别是在做外本应用的时候。最后还有一点小 tip, 使用 mini max 的 编码套餐,我选的是中间档,完全够用, 相比 api 调用编码套餐更实惠。以上呢,就是今天视频的所有内容。这次 m 二点一无论是在前端 ui 还是全栈应用构建方面都有了明显的提升,国产模型与 crowd 顶级模型的差距越来越小了,推荐大家体验。

这几天国产大模型可以说是神仙打架,继前几天 g l m 四点七发布后,今天 mini max 二点一的 g g u f 量化版也上哈根 face 了,再一次感谢安斯洛斯的光速量化工作。 mini max 是 一个两百二十九 b 参数量的模型,比 g l m 小 很多,所以我们可以向上摸一下。三比特的量化版本下面直接进入测试, 测试问题打分标准和目前最新排行榜数据可以自行暂停查看。这里特别指出一下, mini max 二目前还没空更新测试成绩,按照过往经验,更新后应该会有一定程度下滑。 首先模型开源,且可以本地部署上下文,很可惜的是十九万只能给两分,差一点就可以超过二十万得到四分,不支持多模态得零分。 中文写作部分得分是六点五分、七点五分和八点五分。顺便我们可以看一下推理速度,生成第一个 token 的 时间是一点九秒,三十五点七 token 每秒, 比起 glm 四点七的十个 token 每秒来说,这个速度是非常可用的。这里放一段无加速的生成速度给大家做个参考。 英文写作得分是八分、八点五分和八点五分。餐厅投诉性应用文的得分是十分、七点五分和八点五分, 然后是回复并降级投诉得分是十分、八点五分和九分。文科完毕进入理科,首先是数学几何问题,得分是九分、九分和九分。物理的得分是十分、十分和九分。 目前问答部分结束, mini max 二点一得分是五十四点四分。下面进入代码能力测试, 首先是用 svg 代码画一个提壶骑自行车的动画,我们来看一下,可以看得出提壶的大嘴虽然脚踏部分在转动,但是轮子的坐标不对,这个效果我可以打个五点五分,可恶的则是给代码质量打了七分。 下面是 mini max 的 强项代码智能体的能力。首先是生成一个 html 手机操作系统模拟器, 这个效果第一眼相当不错呢。这个 app 弹出效果也很不错, app 也都能工作和互动有下来,菜单底部返回键也正常,工作时间显示也正常,总体效果非常不错,也没有明显的问题, 可惜没有锁屏界面,我主观可以打七点五分,想不到本地部署的开源模型已经可以达到这种效果了。 可 out 则是对代码质量打出了八点五的高分。最后是拍分旋转六边形小球测试超级加倍版,这个效果也相当不错啊,粒子的视觉效果有些问题,但是重力控制、库伦力等表现都非常不错,画面也是六十帧每秒的代码 crush 了一次, 但是 mini max 之后修复了问题,我个人可以打六点八分。 cloud 则是给了七点五分。最终我们本地部署的三比特量化版 mini max 二点一的得分是七十五点九分,去掉上下文和多模态,纯看模型性能的话是七十三点九分,超越 cloud 四, so night 和 cloud 四点五 socket 持平,而且我们是百分之一百本地部署运行的国产本地大模型。追上国外闭源大模型的这一天终于还是来了,但是没想到来的这么快。 单看代码能力的话,和 cloud 四点五 socket 和 deepsea 三点二持平,和 glm 四点七还有些差距, 如果把几个大餐数量的开源模型拎出来的话, mini max 二点一则是碾压全场。加入 deepsea 和 cloud 四点五作为参考的话, mini max 二点一依旧不虚, 可以说和 cloud 四点五打得有来有回。单看代码能力的话则是持平 cloud 四点五,并断崖式的领先其他开源模型。


大家好,本期视频来测评一下这个 mini max 最新出这个二点一版本,那我这个测试呢是分为了前端测试和后端测试,那前端测试呢,将围绕这六个场景进行一个编码的一个体现,看一下它实现效果是怎么样的。 那后端测试呢,会从零到一去搭建一个框架,然后再把这个框架根据业务的需求去升级,那升级完之后会有一个这样的问题呢,让他去排查这样的问题。 通过这样的前后段测试,我们来看一下 mini max 二点一这个版本上比这个二点零到底提升哪些方面,比这个索尼的四点五和 jimmy 三 pro 对 比一下,看一下它们的优劣什么样的。我们来看一下 mini max m 二点一这个版本的一个介绍啊,就第一个就是说它对于 更多的变声语言的一个能力的提升啊, python 啊或者说 java 啊都是得到了很大的提升啊。还有一个就是这一次一, 我在测试中也能明显感觉到,就是在外部方面和这个 app 方面,就前端能力的开发商和美学上得到一个很大的提升。那后面就是有一个就是说比如说他有能消耗更少的偷客来完成任务,这是个非常不错的那个我们再看一下这个啊, 各项的一个分数啊,那么各项分数上就是跟这个数量的四点五是非常接近的,那有些项目呢,可能都已经超过了这个数量的四点五。然后呢,他这边也是自己出了一个叫做外部的一个测试级啊,就是有一个评判的标准,就从零到一构建的一个能力的评判标准是他自己自创的一个, 那目前的话他也是对这个 mini max 二点一还各个模型做了一个测试啊,他这边拿了八十八点六的分数,那么我们 来看一下就是他这边其实整体来看是非常不错的,就是说他是个六边形战士啊,就是前额端能力都非常强。 ok, 我 们来进行测试啊,那么我们先来进行前端测试,那第一项就是我们来做一个这种 u i 的 美观能力,就是做一个这样的 啊,企业官网,那这个企业官网呢?我们提示词非常简单,那看他就是根据我们需要能发挥出想象能做出啥样子。我们来看下第一个测试啊,就是这个 mini max m 二点一出来的效果, 我当时出来的时候我感觉是非常不错,非常不错,真的各种的效果,还有这个颜色虽然说有点 ai 味啊,但是其实里面的元素是非常多的,而且我的提示词非常简单,每个页面都是可以点击的,比如商品的展示啊,分类的筛选啊,都是可以的。然后关于我们这个 非常不错啊,还有这样的一个时间段的一个这样的就很完整,就是从这个里面,其实这里面是符合他刚刚说的从零到一的一个过程里面能够很丰丰富的去完成这样的一个功能。我们可以看下这个 jam 三 pro 出的效果,这个效果其实也是非常不错,颜色没有那么浓,没有那么浓分类啊什么的, 所以这两个在这方面就是界面,三 pro 和这个 mini max 二点一上我就是不相上下了,我们再看一下这个塑料就四点五的,那它的话这个就比较稍微简单一点了,就是它的颜色可能就更偏紫色了,就是 ai 的 这个颜色更多,那么效果也是还是非常不错的。 这次就测试一下 css 和一个动效,就是用这个 react css 实现一个三 d 的 一个翻转,一个一个一个一个特效啊,我们来看一下, 我们来看看这个效果,这个这个效果就是这个你在输入这个卡号的时候,这边也会跟着变,那你输入这个 c f cvc 安全码的时候,因为它在背面,它要能转过来,我们来看一下,随便输数字, ok, 然后姓名, ok, 好 点,这个你他这边会转过来,然后再点其他的,他能同时转过去。哎,他这边没转过去,点这个可以转过来,转过去效果是非常不错的啊。有一点这样的小瑕疵,就是 我在输这个其他卡号的时候能够转过来,应该是我在提示里面去没有说明,这边提示是要求输入这个码的时候,这个信用卡进行平滑了,一百三十一百八十度三 d 旋转啊,这个效果是已经其实已经达到了这个效果, 接我们接着往下测试啊,接着测试就是我们测试的是前端的逻辑能力测试,这个逻辑能力测试呢,就是一个很经典的就是开发一个这种三人的斗地主的游戏啊,那这个测试其实就是他能不能把这些斗地主的规则能不能实现, 然后这个流程能不能实现。我们来看一下最终的效果,先看是没有声音的,我们来点一下,有有这个声音啊, 这个界面其实非常不错,这是我目前见过的比这个界面三 pro 稍微差一点的,这个界面真的是非常不错,然后的话能出牌吗? 哦,这个炸弹看,但是这个这个牌好像有问题啊,这个牌怎么会有会有这么多二呢?所以在规则这个牌的生成逻辑上是有问题的。这几个六个二,这个,所以这个还是有点问题啊, 但是界面是不错,就是还需要再去优化,我看他们出牌也是乱七八糟的,所以这个逻辑能力上是有欠缺的。 那接着呢,就是进行一个这种图片转网页,就是我提供这样一张图片,我需要把它啊做成一个这样的页面啊,就是考验一下,就是这个 mini 三 pro 和索尼的四点五之间的差距是什么? 那么你在使用这个 mini max 的 时候啊,如果你要让它识图,一定要去装这个 mini max, 专门这个 mcp 啊,有个插件,你装完之后才能去识别图片,不然它是识别不了的。这边有一个链接,这边有个官网的一个介绍,怎么去安装它这个 mcp 插件啊? 我们看下这种效果,这是 mini max m 二点一出来的效果。那这边呢,其实有一些问题,比如说这个倒计时的效果是没有的,然后页面上的元素啊,比如这些字,还有这些东西,其实,呃,我只能说是大概七十五分左右吧,七十五分左右, 那么我们可以看一下这界面三 pro 的 效果,这边是有一个倒计时,然后这边图片看不到,但是这边的这个效果,这个抢字啊,我们看一下,我们可以看一下原图这个抢字,还有这个抢字,然后这里的文字还有这框, 这是可以滚动的,就是这些东西是比较贴近的。我们再看一下塑料的四点五的,那这边的话也是有一个倒计时啊, 就是这个,呃,就对比起来,这个 mini max 二点一可以稍微差一些,但是其实元素都有,元素都有,那接下来我们就来看一下它这个 h t m 五的一个生成的一个粒子的这种效果怎么样?就这是一个相当于一个动画啊,这个动画不是太难,我们来看一下效果。 ok, 我 们来看一下这个效果啊,就鼠标点击的时候会有一个这样的一个烟花样的东西,那其实效果是非常不错的,你点的越快越多, 这个是不错的,这个这个效果是不错的。那接下来就来测试一下一个零到一的 app 开发能力,那这个能力也是刚刚我们在官网看他对这个模型的版本介绍的时候,着重强调了,这这方面能力是增强了。 那我的需求是怎么样去做一个页面,那这个页面呢?有有一些功能,比如说分类的筛选啊,购物车这个加减的商品的逻辑计算呀。那么通过原声 ios 的 方式来做一个这样的 app, 那 么我分别用了这个 mini max 二点一和这个加密的三点零,以及这个 所有的四点五,分别实现了这三个功能。我们来看一下这三个做出来的 app 到底是怎么样的。我们打开这个 ios 的 模拟器,这三个 app 我 已经都装在这个模拟器里面。那第一个就是我们来看一下这个 mini max 二点一的效果是什么样子的? ok, 分 类, 点击分类可以筛选,但是这边底部的话有一个这样的一个空白的东西,不知道是什么东西,点加号,那么这个金额也能计算正确,点减号,这个金额也能计算正确,再点两个 取消。好,他这边意思就是金额为大于零的话,这个就会显示,小于零就不显示,但是这边留了一个这样一个空白在这边,所以说不是太好,但是整个页面还算是整齐,然后也遵循了我们这样的提示词。 我们来再看一下这个 gm 三 pro 的 效果,那这边的话,我感觉它这个页面上是感觉会更加整齐一些,然后整个排版就不会,那么就是那种就是很拥挤的感觉。就这个这里面底部的这个区域也是很自然的,我们点个加号,哎,他这边会直接浮出来, 但是呢这边的数字啊看不到,这边有一个小小的问题,那你这边金额的计算也是没问题的。 ok, 我 们再看这个双链条四点五出来的效果,那么这边的话,就是它这边会有固定的一个这样的一个购物车,这其实是我们这个 t s 里面要求有一个寻服的这个购物车,这结算按钮啊,只有双链条四点五是做成了这种寻服的,其他其实做成一个动态的了, 那么我们点加号看一下,但是它这个问题在跑到上面去了,所以说三个模型其实都有一点点问题吧, 都有一点问题,但是目前来看就说 mini max 二点一在综合你在做这个事情上,这个这个 结果上看稍微差一些,所以我们进行了前面这个前端的六个测试场景的测试啊,我们来进行一个对这个 mini max m 二点一,前端方面我们来进行一个评分啊,那么有有三项是拿到 s, 就是 我们的这个那个官网啊,还有这个一个卡片旋转的,那就是这个动效 啊,这个是个粒子效果,那么还有一个是拿到 s 减,就是说零到一这个 app 的 开发能力。还有两个稍微差一点的,就是啊斗地主的游戏规则没有实现,然后图片转网页,那么其实跟其他模型比起来还是有点差距的。 ok, 我 们继续我们的后端测试啊,那后端测试第一个场景就是我们要从零到一去搭建一个这样的框架,那这个框架是什么?就是一个混合支付的一个这样的一个接口, 那要需要支持这个余额和微信支付,那目的其实是来测试一下,就是这个框架搭完之后,他能不能去完整对接这个支付的完整流程,从发起支付到接收回掉整个通知。 那么这个需求完成之后呢?那么会对这个架构这个升级啊,就是让他支持更多这样的支付方式,比如说支付宝啊,或者说其他的 第三方的银行通道支付啊,来考验就是在前面这个需求完成之后的代码堆积,上下文长度变长之后,他会不会出现就说啊牛头不对马嘴,或者代码产生了各种各样的问题,没办法去修改原来的这种支付的接口,那么我使用的是这个 java 的 这种开发方式啊, 那么在整个结果过程中啊,就是啊我每一轮对话都进行了一个记录,那么以前 mini max m 二基本上在多人对话之后啊,就放弃了,就是没有完成整个功能。 那么其他的模型,比如说像 oppo 四点五或者三菱的四点五以及 jpg codex 系列,都是在三轮对话就完成了这两个啊非常重要的功能, 三种地方。那这一次 m 二点一呢?非常非常出色的就完成这个后台的功,其实我做的时候我觉得可能会跟可能只是提升了一点,但是没想到就是在这一次我这个常见测试中啊,它跟这个三 s 点五是和这个 j p d 五点二,是 啊对齐的,甚至超过了这个四点五。因为四点五在我们进行完成第一个第二个任务的时候,其实是多了多了一轮计划才完成,那 mini max 在 一轮计划就完成好了,我们来看一下它完成后的效果代码, 我们可以看一下就是它怎么来做这个多渠道支付的。那么这边的话是使用这种策略方式啊, 这边定义了一个这样的一个呃核心的一个策略接口,然后去实现通过不同的方式。比如说啊,这个是支付宝,那这个是微信支付,这个是余额支付, 然后的话最重要是什么?就是我非常考验一点是什么呢?就是在第一次我搭这个框架的时候,他去创建了一个这样的微信支付,当时只有微信支付,那么等你升级完框架之后,那么你在这个地方应该是去做扩充,就说支持啊多种渠道的支付。那这边他是做了的,就是 把这个方式原来直接调微信支付,改成调用策略直接支付,所以说这是达到了我的预期的。 前面两个完成之后呢,我又做了一个小小的一个一个一个 bug 的 一个查找修复啊,那么我在这个刚刚那个框架里面写了一段这样的编码,就说一个扣减钱包的功能,那我们可以看到,那这个扣减其实存在一个很大的问题,就是在并发症的情况下有可能会多扣, 那么我就把这个问题抛给他,让他去测试一下,看一下,让他去找一下这个代码的问题在哪里,然后的话能不能找到一个解决方案,然后让他给出三个方案,并选一个最佳的, 那么这边的话他也是通过这个阅读代码,然后发现了,就说啊,总结出来有三个,三个这样的方案,一个是乐观锁,一个悲观锁,一个是 reis 原子。那目前对于这个情况简单的方案,那当然是这个乐观锁是最简单的,那所以说在整个后端表现上是超出我的意料的,我以为就是可能最多就是 比这个二点零会提升一点点,但是目前测试下来就是提升非常非常大,从放弃啊,从二点零的放弃,直接一轮三轮标准的就完成了。 所以呢,我们对这个后端测试来进行一个汇总。评的话,就是啊,零到一开发框架的能力 s 减,那为什么会 s 减?是因为他也会犯那种,就说我第一遍加回来的代码可能有很多这种语法错误,他需要去执行翻译,去找到问题能再去修复。这个过程中,那么在数量是四点五 和这个 j p d 五点二,克拉克 x 里面是基本上一轮替换完之后是没有什么语法问题的,所以说他比他们多了一步这样的自我纠正,那就是会浪费,浪费更多的 talk 那 架构升级的能力。 s 就是 刚刚我们也看到了,还有这个找 bug 的 能力也是 s, 所以 整个结论,结论下来我的结果就是什么呢?就是 跟这个 smart 四点五对比起来,那么前端能力上就是前端 ui 这个展示的能力上是有提升的,就 smart 四点五经常会犯,比如说 ai 这个紫色啊,太浓了对吧?一些交互也做的其实是没有那么好的,但是比跟这个 jimmy 三 pro 对 比起来还是有点差距, 比如说像图片识别的那个那 jimmy 三 pro 这那我之前是做过一次转换,效果比这次更好, 那这一次是还稍微差一点,所以但是他这个所以说他这个能力是 s 加的,那么在逻辑能力上那么就是比较弱了,因为我们刚刚从斗地主我们看了就很多牌都出不了,甚至牌是乱七八糟出的,他需要去更多轮对话去完成。 那么后端能力上啊,是 s 减,也就说比稍微比这个 client 四幺零的四点五会稍微差一点点,就我刚刚说的那个语法的问题, 所以呢,总的来说我觉得就是对他一个总结, mini max 二点一,在这个 ui 能力,特别是审美能力上是如他所说,就是 进步非常大的一些测试场景,跟 g m 三 pro 是 不相上下。但是呢,前端的逻辑能力可能需要你把提示词弄得更详细一点,比如说这个斗地主游戏,他需要把这个斗地主的规则可能要描述的更详细一点,这个可能就是模型跟模型之间的差异,就在这里,就是有些模型比如说 opus 四点五, 那么它是完全可以更简短的提示词,它能做出更完美的效果。那么像差一点呢?像双一点四点五啊,它同样提示词,它就会稍微差一点效果了,那再到 mini max 或者或者说 gm 四点七,它是又需要更详细的提示词才能去完成这样的任务,这也是呃,我们跟 就是国外的这个最好的这个模型之间的差距吧,那么在后端代码的这个生成上是比二点零有非常巨大的进步啊,就这一次在我这个常见测试里面是有非常大的进进步,但是也会一些啊,就是语法上的问题。那总的来说,这个 me max 二点一和我上一个视频测试了个 g m 四点七, 跟这个 g m 三 pro 和这个索尼的四点五其实都是还有点差距,但是差距不大,这个是非常值得期待的,也是可以作为就是你如果用不到这么好的模型的一个很好的一个代替, 那么我以上场景测试呢,都是根据我个人自己的情况来测试,并不代表权威。 ok, 那 本期视频就到这,如果你喜欢 ai 编程的话,可以多多关注我。

好了,今天我们来聊一个特别有意思的话题, ai 模型的世界里啊,最近又来了一位新的挑担者,他一出场就掀起了不小的波澜,那他到底能不能成为新的开源王者呢?咱们这就来好好扒一扒 哇,大家看屏幕上这句话,口气可真不小, gemini 三点零 flash 安息吧! 你没看错,就是一个轻量级的开源的模型,居然敢直接叫板科技巨头谷歌的最新产品,那么它到底是虚张声势还是真有这个底气呢?咱们接着看。 好,那我们就来正式认识一下这位引发了这么多讨论的挑战者,它就是 mini max m 二点一, 你可以把它看作是之前 m 二版本的升级版,修复了一些小毛病,能力也更强了。关键点在于它是一个开源权重的大语言模型,这是什么意思呢?简单来说就是它的大脑构造是公开的, 开发者可以很自由的去使用,去修改。而且啊,他特别擅长处理所谓的智能体任务,尤其是在写大码这方面。也就是说,他能像一个智能小助手一样,自己搞定那些需要好几个步骤的复杂任务。最最关键的是,他的使用成本非常非常低。 在我们深入了解它的性能之前,咱们先来聊聊一个最现实的问题,那就是钱。对所有开发者来说,这个是个决定性的因素。来第一回合价格大比拼, 这张图可以说是非常直观了,成本他已一目了然。在 ai 圈里呢,我们用 token 这个单位来计算处理了多少信息,你大概可以把它理解成单词或者汉字的小碎片。 大家看出立一百万个 token, mini max m 二点一的输入成本只要零点零三美元,输出也才零点一二美元。再看看杰米尼三点零 flash, 价格差不多是它的两倍, 没错,就是这么简单粗暴,便宜一半,这可不是个小数字啊!这意味着,从一开始, mini max m 二点一就有了一个巨大的优势,因为它能让开发和做各种实验的成本直接腰斩 好。价格优势是有了,但光便宜可不行,是骡子是马,还得拉出来遛遛,性能才是硬道理。 那么咱们来看第一个测试回合,在那些通用的跟编程关系不大的任务上,他表现怎么样?这个结果说实话,可能有点出乎大家的意料。 你看,在通用测试里, minimax 居然以五十三趴对四十七趴的分数赢了 gemini flash 虽然优势不大,但赢了就是赢了,要知道,这可是一个体量更小、价格更便宜的模型啊,能做到这一点真的不简单。 在测试里啊,它确实展示了一些高光时刻,简直是才华横溢。你比如说,它能完美地生成一个三 d 的 精灵球,还能用那种很抽象的康丁斯基艺术风格去复刻一个我的世界的游戏画面儿。 甚至它还做出了一个非常棒的蝴蝶动画,外加一个用 rust 的 语言写的小工具。这些任务每一个拿出来都挺有难度的。 当然了,这也不是一场完胜啊,他也有翻车的时候,特别是在需要逻辑特定脚本或者数学推理能力的地方,他就有点力不从心了。 比如他设计的那个建筑平面图,简直是乱七八糟,那个带自动下棋功能的棋盘也根本跑不起来,给精灵球写的 blander 脚本也让人很失望,还有大部分数学题他都答错。 所以总的来看,他最后在通用能力排行榜上排到了第十二名。你可能会觉得第十二名好像也没那么靠前,但你得想想,对于一个这么小这么便宜的模型来说,这已经是一个非常非常厉害的成绩了,甚至超过了一些名气比他大得多的模型。 好了,刚才的通用测试只能算是热身,现在我们要进入 minimax m 二点一的真正主场了,也就是他被设计出来最擅长干的事,写代码。第二回合,编程竞技场开始, 这个例子简直完美的展示了他的核心强项。你看,任务是做一个构语言的计算器应用,他拿到指令直接生成的全部代码,然后这个应用就能完美运行了。 最关键的是什么?它是一次成功的,一气呵成,没有任何修改。当然,在其他的编程测试里,它的表现也是有好有坏,但总体还是很强的。比如它做的一个电影追踪应用,主页和搜索功能一次就搞定了,虽然那一页有点问题, 还有一个勾多特引擎的游戏也做得相当不错。不过呢,在面对像 troy 和 knox 的 这种更新更复杂的应用时,他就没成功。但说起公道话,这些任务对现在的大部分模型来说都是地域难度,所以失败了。也正 所以,在他的专业领域,也就是编程能力这个牌坊上,结果非常明确,他赢了,排在第八名,稳稳地压过了他的对手 jimmy n flesh。 好了,两个回合的激烈比拼看完了,一个在通用能力上险胜,一个在编程领域完胜。那么最后的判决是什么呢?咱们又回到了最开始的那个问题,这个 minimax m two 点一,它到底算不算是 gemini flash 杀手呢? 这么说吧,如果你是一个开发者,你的主要工作是构建 ai 智能体,或者是做编程助手,那答案很可能就是是的, 咱们来总结一下它的几个大杀器,第一,便宜,价格直接砍半。第二,在它的核心业务,也就是写代码这块它更强。 第三,它是开源的,这一为止,你用起来更自由更透明。最后一点也很重要,它的门槛不高,你甚至可以在自己一台还不错的服务器上把它刨起来,数据完全自己掌控。不过呢,就在我们觉得这场对决踏步尘埃落尽的时候,一个更劲爆的消息来了, 这给我们留下一个最后的思考。开元 ai 的 发展速度简直快到让人窒息,所以大家做好准备吧, 因为下个星期据说会有一个更加疯狂的开元模型要发布,它在通用测试里直接冲到了第三名。 ai 领域的这场竞赛啊,看来永远都不会有终点。

一分钟看完一周 ai 大 事!智谱发布最强开源大模型,综合跑分超越 kimi, 登上开源铁王座! mini max 发布最强开源编码模型,多元编程干翻所有闭源模型。字节发布最强数学模型,奥数拿金牌,本科竞赛刷新 sota 阿里开源超长上下文模型, 支持四百万 token, 几本书丢给他毫无压力。 stepfun 发布深度研究模型,三十二 b 参数跑分仅次于 gemini, 出一份完整报告只要五毛钱! cloud 浏览器插件全面开放, ai 能操作网页,帮你写文档、改 ppt。 英伟达开源游戏智能体 视觉动作模型,能观察屏幕操作键数,做出复杂动作,几乎能玩任何游戏。研究员开元最强心理评估模型, ai 终于能当心理医生了! google 开元医疗语音识别模型,能帮助医生口述病例,提高录入效率,专业词汇也能准确转录。阿里开元语音对话模型, 能听懂你的情绪,能用来做数字人和 ai 玩具。阿里更新开源小橡胶平替原声,支持 laura, 对 象一致性更强。八 g 显存,可运行阿里开源信息图模板,能让 ai 直接生成可编辑的复杂图标。 ai 也能做 ppt 和流程图了。 阿里开源换脸视频模型,上传图片就能精准复刻面部特征,还能生成无限市场的视频。十 g 显存,可运行 字节开源短剧视频模型,能提取关键帧,存进记忆库。多镜头的长视频角色和场景也能保持一致。字节开源关键帧视频模型,上传多张图片作为关键帧,就能精准控制故事走向。研究源,开源视频版小香蕉,一句话就能精准屁视频 研究源开源,重新运镜,视频模型,能随意改变原视频的运镜和视角,相当于后期也能加多机位。研究源开源,动作,引导视频模型 绘之轨迹,就能精准控制视频运动。研究员开源,带空间记忆的世界模型,游览过的场景能保持不变,还支持场景编辑,动动嘴就能改变天气和物体。 研究员开源三 d 空间编辑模型,一张室内照片就能转成三 d 场景,还能移动任意物体,适合用来做家装。英伟达,开源,三 d 动作提取模型, 能从杂乱的场景中捕捉人物操作轨迹,并进行三 d 重建,能用来训练机器人。研究员开源三 d 角色,场景模型,能 把任意三 d 角色放进任意三 d 场景,动动嘴就能指挥角色做出复杂动作,直接来一场异世界冒险。奥特曼认为,通用人工智能已成为过去式,并提出超级人工智能定义及 ai, 担任大型组织的 ceo, 工作表现能超越任何人类。 今年的 ai 周报到此结束,二零二五全勤收官,感谢有你一路相伴!二零二六,我们不见不散!

十二月二十三日,国产大模型厂商 mini max 正试推出其最新编码与智能体专用大模型 mini max m two point one, 并同步宣布开源计划,权重将于近期开放。该模型已为真实开发者而升为核心定位,只在解决传统 ai 编码模型重刷榜、轻实用的痛点,通过一百亿激活参数的稀疏架构、混合专家摸机制、 多语言编程能力突破及全站开发场景优化,在权威基准测试中实现对谷歌 gemini 三 pro、 anthropoid cloud、 四点五、 sonnet 等币源齐建的全面超越,标志着开源编码模型正式进入性能碾压币源的新阶段。