等等,这段你听完了吗?这不是人写的,这是 ai mini max 音乐模型更新了,叫 music 二点五加!重点来了!这次最大的变化就一个字,纯! 纯音乐创作全面上线!从游戏配乐到冥想氛围,一句话就能出一首完整作品。进入 mini max 主页面,选择 music 二点五加模型,点击纯音乐按钮,只需一句话,输入风格描述。比如振奋人心的游戏配乐,以电吉他为特色,还能快捷勾选制作要求和制作数量。最后点击创作进行聆听,一首完整作品即刻呈现。 从纯音乐的角度说,这是电吉他主导鼓足全力驱动。第八秒,肾上腺素是真的起来了,不配个进场 bgm 都对不起这段游戏战斗电竞宣传片直接拿去用。 风格完全反转,八音盒的金属音是太真实了,带着一种明亮清脆的质感。谁能想到是 ai 生成的冥想 app 的 背景音?睡前放松瑜伽课氛围,它不是在放音乐,它是在帮你把焦虑按暂停。听完这段,大脑真的会想关机。 这是巴洛克遇上重金属,我们继续听。 这是民乐与管弦乐碰撞,它是真的懂音乐逻辑,这几个词放在一起就已经在犯罪了,它能把任意两种风格找到融合逻辑。而且中国传统乐器的细节还原是真的像在现场录的 music 二点五加加号,加的是真正意义上的纯音乐创作。以前是给歌配伴奏,现在是直接教一首作品,未来更可怕, ai 音乐不再是能听,而是能封神,以后谁都能用 ai 写歌,音乐真的要变成全民语言了。就问一句,这波进化你贵了吗?
粉丝5208获赞7.0万

ai 圈的双碗,这是提前开了吧? mi max 新发布的 m 二点五,已经在十币激活参数的极限规模下,再一次突破了旗舰模型的性能效率上线。当我们以为大模型的进化已经触及天花板,开始进入平稳期的时候,还有新的模型在突 破。而且这次 m 二点五最拿手的是它的编程能力测试。 ai 编程如果没有挑战过金门大桥,那都不算见过大场面啊。 你得知道金门大桥长什么样,还得自己建模做光影,桥上还得有车辆穿行,还有雾气和昼夜切换的功能。我没给他任何组件库,也没给任何代码参考,只甩了一段提示词。 m 二点五这门小钢炮,自己大环境规划想办法,结果只花了不到五分钟就告诉我做好了。点开的一瞬间,我真的是被惊到了。 车流在桥面穿行,桥面上空还有浓雾,最绝的是,当我拖动滑块把时间切换到深夜,桥上的灯光和远处的城市居然分层亮了起来。 很难想象啊,这是十倍激活参数达到的效果。接下来难度升级,我让他手搓一个我的世界风格的游戏 demo, 并且真的可以移动,甚至把这块浇碎,他也是一次性搞定。 还有啊,这是他一句话复刻出来的推特,一句话做出来的各种网页效果,编程和审美能力全在线。这还没完, m 二点五在办公场景,尤其是处理复杂 excel 和长文档这些硬核需求,也是能独挡一面的主力了。我把七十七万字的西游记全本丢给他,问了他一个刁钻的问题, 唐僧一共被妖怪抓走了几次,他最牛的地方是自己意识到吴承恩写书不会只用抓走这两个字,于是自动把问题优化成了社剧石斧背,把唐僧等古代更常用的表达去搜。最后他告诉我一共十五次对应的章节数抓走的妖怪是谁, 哪次是想抓,没抓走全有。另一个啊,我只告诉了他员工的出行、加班统计和考勤标准。他几乎秒算出全部四十八名员工的工资情况,还直接是 excel 格式。测完这九轮下来, m 二点五给我最大的印象是可靠。他拿手的方面像是编程处理数据文本,一次出结果 一次搞不定的智能体原生架构,也保证了他能自己规划调整,自己调用工具找到解决办法。他在智能和享用速度之间找到了那个变态的平衡。 干活稳当让他害怕,关键是激活参数才十币,这意味着它能无压力部署在各种设备上,还更划算。听说 mini max 自己百分之三十的活都是 m 二点五干完的,这才是咱们自己都能用起来的生产力。我是彭州 ai 永不眠!

mini max m 二点五,用强化学习把 agent 性能顶到头,它在数十万个真实环境里,用强化学习磨出来的是真正的生产力怪兽。技术参数上,它在最硬核的 soya bend 威尔斐刷到了百分之八十点二。猫提 soya bend 拿到百分之五十一点三,这在编程和跨语言开发上基本就是天花板级别。不仅能写代码, 他在执行复杂 age 尼任务时比上一代快了百分之三十七,出力速度直接对标科奥多普斯四点六。最夸张的是,他把智能成本打到了地板以下,原生支持每秒一百 tocan 的 高病发流速,每小时运行成本只要一美元。如果降到每秒五十, tocan 成本更是低到零点三美元。这意味着他在 bros com 搜索 和工具调用上能以百分之七十六点三的高胜率,用极低的代币损耗跑完长链路推理。感兴趣的朋友欢迎评论区交流。

大模型正式进入了月更时代,大家好,我是牙医,这次总计花费了大约四千万头肯给大家带来刚发布的 mini max m 二点五的实测,让我们马上开始 来看实际的测试结果啊。这次新引入的洛西极限测试,这个是用来测试指令遵循的, 因为它复杂到提示词足足有六千头,肯测试的结论是它部分指令遵循率是百分之八十,这个是什么意思呢?就是不管做没做对,总之按照要求去做了,而完全做对的需求是百分之六十五点九。作为对比啊, 这么耐三点零 pro 的 部分指令遵循率是百分之九十点六,完全做对的是百分之八十,但是二者在最终的加权总分上相差并不太多。因为这么耐三点零 pro 喜欢夸大效果,导致很多数值都偏离了设计需求, 而 mini max m 二点五则是在需求实现上还有一定的差距。大象牙膏测试 mini max m 二点五这个粒子的贴合效果和碰撞检测都做得很好。当然有有问题的地方,比如这个追星屏的建模 和内部液体的下降。不过其实还有一个不易察觉的地方, mini max m 二点五做得非常好,就是它使用了帧率无关的物理运算。这是什么意思呢? 是可以让动画效果在不同帧率的显示器上看上去是一致的,不至于说换一个三百赫兹的电竞显示器,动画就比六十赫兹的显示器快五倍。鞭炮连锁爆炸测试 mini max m 二点五最大的提升是它采用了 four sub type 叠带,每帧之间还切换了四步去单独进行碰撞检测,这样就可以防止运动过快导致穿膜的问题。 举个例子啊,一般程序每针开始的时候是去检测碰撞的,如果鞭炮移动的速度太快,上一针还在箱子里,下一针就移动到箱子外面了,这时候再去检测,其实会发现根本没有跟箱子发生碰撞,于是大家看到的效果就是穿膜了。而 substep 迭代,它就是在每一针的物理运动之间再增加检测四次。 注意看右侧这个绿球旁边的圆点,这个就是检测到碰撞,从而渲染正确的碰撞效果,避免了穿膜。 大家可以看这次 mini max m 二点五的效果,是不是一个传播的都没有。接下来是长本召回能力测试,这次的召回水平同样在线均值达到了百分之九十六点七以上。不过呢,同样有点问题,在不给原文参考的情况下,模型回答正确的概率也达到了百分之五十点一, 又是四选一,蒙对了一半,所以本次长文本召回测试并不是很自信,也建议官方考虑一下训练与要的问题。来到 a 阵的能力测试,让我们继续模拟外卖骑手送外卖,这次的得分是五百九十九,分数提升了百分之四十二点八, 这次最大的区别是他会顺路接单了,这能让他接单量有了相当大的提升,每公里的利润直接飙升了三十六点五。 另外时间管理能力也提升了不少,准时率从四十八点四提升到了六十九点六。总结,这次 minmax m 二点五比 m 二点一版本的提升也是巨大的,在各个编程测试中都能看到提升,并且在算法优化上可以看到使用了更精细的优化策略来提升效果。 a 阵的能力上 可以看到明显提升了策略能力,尤其是可以顺路接单了,这一点非常不错。不过呢,本次的长本召会测试由于验证没有通过, 所以测试分数并不代表模型性能,建议官方修正一下语料。另外啊,本次测试还有一个惊喜,就是 mini max m 二点五输出速度非常快,可以稳定在一百头克每秒, 因为它激活参数只有十币,这是个巨大的优势,在需要性能的 age 的 场景会有非常的有用。以上就是本期的测试, mini max m 二点五这个能力评价为性价比之选,我觉得是非常值得考虑的。我是牙医,我们下期再见。

真一天一个呀, mini max m 二点五也来了,直接对标的是 cloud opus 四点六,一万八, office 办公场景适配全部做到 sota 级别。 兄弟们,我就是咱们之前有猜到就是春节之前,这最后这一个礼拜呢, ai 全都要集成在一起,拧成一股绳,指哪打哪,发布时间大概率不是公司自己决定,而是要在春节之前把完整震撼扔给对面,然后我们放假让他们暴跌,这跟去年 deepsea 造就的场景基本是一模一样的。而现在 we are gonna see! 就是昨天 glm 五暴击追上了 oppo, 四点五,超过了 gemini 三 pro, 然后还有 gpd 五点二 x high。 之后 mini max 直接对标 clone opus 四点六,然后强调怎么样, 它的激活参数只有十币,也就是一百亿参数。但是在 excel 处理, ppt 生成,深度调研这些 office 核心场景全都做到了 sota 级别,几乎是第一名,说明它的稀疏框架确实有东西,而这个叫做 sparse attention, 稀疏注意力机制的东西。最开始就是什么 v 四 deep seek 的 论文,梁文峰的论文告诉大家的。然后现在国产大模型全用上了,说明什么?大家是团结的,而且 mini max 的 推理速度超级猛,一百 t p s, 比顶尖模型的输出速度还快,也就是你让他写代码做表格生成 b b d 基本秒出。 这公司是大模型第二股,只能说明它是第二个上市的,但是涨的速度那可是完全不是第二就总之,这俩哥们现在就是春节前最靓的仔 ai 应用,大模型神玩,而且几个月就完成了三级跳,三个月内 m 二到 m 二点一到 m 二点五这个版本更新速度在大模型公司里绝对是顶顶了,也就是说现在我们的最新开源阵容已经准备好了啊,对面吃招板,我们派出的是 m 二点五 g 这个智普 g l m 五 diffic v 四,但还没说啊,一百万上下文了,到时候还会有更多更新,看看对面在我们春节期间那能搞足点什么大招吧,而且我们还有什么模型没发吗?什么揭月的兄弟们补充一下,待么过来。

中国 ai 领域又迎来重磅消息, mini max 公司刚刚发布了其旗舰编程模型 m 二点五。 这个号称全球首个原生为智能体场景设计的生产级模型一经发布就在资本市场掀起轩然大波。这家获得阿里巴巴和阿布扎比主权财富基金支持的 ai 新贵,在二月十二日发布 m 二点五后,股价在香港市场一度暴涨百分之二十四, 最终收盘仍保持百分之十四点六二的涨幅,公司市值逼近两千亿港元大关。技术层面, m 二点五延续了前代的高效架构,虽然参数规模更大,但仅使用一百亿激活参数, 实现了更低的内存占用和更快的推理速度,每秒一百个 token 的 吞吐量据称已经超越部分国际领先模型。这款专为全站编程开发设计的模型, 在 excel 处理研究、自动化和 ppt 创建等生产历场景中表现尤为突出。 mini max 官方更是大胆宣称, m 二点五的综合性能直接对标国际顶尖模型 cloud opus 四点六。值得注意的是, mini max 创始人严俊杰曾是商汤科技高管,这家成立仅两年的公司已在全球两百多个国家和地区积累了超过两亿用户。 今年一月,在香港轰动性的 i p o 中, mini max 募资六点一九亿美元,首日股价就翻了一倍多。在当前激烈的 ai 编程助手市场竞争中, mini max m 二系列凭借出色的编程基础测试表现和更具竞争力的价格,正在向国际巨头发起挑战。这次 m 二点五的发布,无疑为中国 ai 产业又添了一把火。

给大家测试了一下本地部署的 mini max 二点五,所以你们就不用自己测了。使用的是 lm studio iq 三 xxs 量化版, 显存需求在六万上下文的情况下大概是九十三 g。 具体的得分和测试项目的演示可以在我的个人网站查看。得分的情况是这样的,综合来看,非常接近 cloudsonnet 四 taxon 六边形小球的演示是这样的,似乎小球都在六边形外。 html 手机操作系统模拟器是这个效果。要说不说,这个效果可以说中规中矩。 总结一下, mini max 二点五的参数量稍稍有些大,在一百二十八 g 的 内存里没法跑到四比特量化的,这似乎导致其性能严重的下降, 但是作为一个本地模型,整体还是一个非常可用的状态。但是我为什么不选参数量更小,推理速度更快的 glm 四点七 flash 呢?

大家好,年前有点偷懒了啊,我们国内的大模型确实发展挺快。 呃,年前这个 mini max 和智谱呢,本身都已经发布了,但是有点偷懒了,没有及时来进行测试,我们还是回到 最原始的那个测试啊,动态爬虫,我们看一下这一次他们能不能够取得成功,把这个需求搞过来。前面的这个配置都已经搞好了, 因为前面好几个版本其实更新都没有解决这个问题啊。他这个通用大模型呢,本身确实进步挺快,但是编程能力呢?呃,在这个网络编程这一块一直没有突破这个网络爬虫,动态爬虫的, 希望这一次他们两个都能够取得成功啊。 智普怎么好像没什么动静?这会儿 都是采用它们最新版本 mini max 二点五,这个是五,就 buy 它了。嗯,不知道啥情况,智普在这里怎么这么久还没有,一直在这思考。 这个好像先对以前的版本确实有变化,他怎么还会去测试这个版本?这个按道理跟 partson 的 版本关系不大,它这个生成代码这边还是没有动静, 我记得前面那几个版本反应都还比较快的这个 beta 版本,这个 beta 是 不是有问题?一直还没动静, 这究竟什么问题呢?没搞明白。 ok, 这边已经有代码了, 给他安装一代。 ok, 给他安装啊。 哇,终于开始动了,这什么情况?完全没搞明白。这边还有干嘛?又在干嘛?这个是什么东西? 这个有点奇怪哦,为什么会这么久?这个完全没搞懂, 看样子第一个没成功,现在又在写第二个。测试脚本 自己的编码啊,检查这个编码啊, 检测的反爬虫终于好, 还使用百度的 ipi。 我 这倒是另外一个思路, 看一下啊,失败了。 真的假的, 这就搞定了? 我们先来看一下这个, 这应该是刚才那一个。 对呀,哦,刚才不是那个谁的。 这边还在点赞,原来刚直屏的是智普的 哇,这个 webfatch 在不停的尝试新工具啊,看看这个 wifi 能不能成功啊。你看它迭代了好多次了, 现在感觉把问题简单的问题复杂化了。 这个又半天没动。这个字符 怎么跟以前好像不一样啊。以前四点五,四点六,四点七,不会这样,卡在这里半天 啊,又开始有动静了。 mini max 一 直在尝试,一直在尝试。这搞得有点复杂了。你搞那么多 好吧,又在生成 csv 文件的那个。还是搞这么多脚本。就是还没见动静,没有结果呀,好奇怪。 这边再更新解析逻辑,看看能不能成功,哎,代码好像获得了。 ok, 这个 csv 已经生成了, 看看能不能成功啊。 这边又给它出错了,还在给的, 这边在修复代码,因为代码有语法错误。嗯, ok, 更正的。 这么自信,我就把你删掉了。 ok, 它这个直接的命令直接点。这个还是看一下啊。 mini max 这两个按钮有区别啊。来,开始抓起 试一下。 这是要干嘛? 看一下这个目录下面有没有,哎,有了,看一下对不对 哦,是个空的,再来一次。这什么鬼,保存目录 还是不对,因为只是一个验证目录,我估计还是有问题。 显然不对啊,还是个空的,搞了半天还是不对。 再看一下这边,看一下。安装一袋,哎,他用了这个一袋,看样子好像抓到一点,看下有没有成功啊? 先试一下哦。抽出款浏览器失败,它没有真正安装 这个掉入死胡同了,我相信它搞不定。 嗯,它自己来安装了,看一下你能不能搞定。 这个叠带了无数次,这个脚本,你看它这里是有的,它明显还是有问题, 这都叠带了好多轮呐。我觉得还是有点遗憾啊,编程能力这一块没有非常显著的提升感觉。再来试一试, 把这个关掉啊,这个是他的 哈,没有抓取到任何成还是失败 还是失败?你看这边还在动, 他还下载了音乐, 我看一下有没有下载音乐。没有没有。好吧,我觉得 mini max 还是失败的啊,我不再尝试了, 看看这个用 chrome 能不能搞定。 这个实在不想试了,这跟 core 的 差距还是有点大,像现在 jammer 三它也能自己搞定的,也算很快的,所以编程能力这一块明显还是有比较大的差距。 那现在就非常期待 deepsea 四点零呢。 哎,所以我就说他搞不定这个,算了,还是有问题。这个配置浏览器的配置稍微复杂一点, 还是比较遗憾,不管是智普的还是 mini max, 二点五这个最新的版本都失败了。好,谢谢大家。


我给各位演示一下无限易的自动登录和自动使力的加载,因为这两点非常关键,这是程序化的保证,不然的话你每天要定时 进行一个手动的登录和手动的加载,这也背离了我们自动化交易的一个初衷,对吧?你都要定时去自己做了,那你这个程序化就没有太大的意义,你相当于自己要坐牢,对吧? 那就没意思了啊。是这样的,我们先让他做一个自动执行的 脚本,然后把这个脚本加入到 windows 的 定时任务中就可以了。我给你们演示一下啊,这个是做好的,我双击它, 然后你看它自己会打开无限易,然后自动会填账号和密码, 然后这个密码呢?你看到它是每次要填,它没有一个保存的地方,只有保存账号, 那密码有的人说了,那我让他自动填,这样会不会有一些安全的隐患?我跟你说不会,因为他会自动去下载一个工具, 比如说我们填的是六位的数字密码,他会把这个六位的数字密码进行加密,大概有几十个大小写的字母,他其实加载的是这个,所以说这个在安全上是有保证的。 让我们看到这些动作全是他自动执执行的,并不是我手动去点的。你发觉你进去之后,你非要去加载一个实力手动,然后你刚刚看到他是自己输入了那个实力的名称,然后确定,确定之后他还跑到下面来点一个执行 至此,那这个程序化就算自动跑了。因为每天 的下午收盘后,三点半、四点哦,四点半以后你会发觉期货公司的那个软件你就登录不进去了,对吧?他进行一个清算,这个无线也是的,他到了这个时候呢, 他会自动的关闭这个软件,打开他会闪退。我一开始以为是有问题,原来他是因为要结算必须要关闭,重要你重新打开,不然的话他这个数据是有问题的, 对吧?数据都是那个清算钱的,那你第二天这个整个系统爆单什么的都是按照清算钱的,那肯定是不 准有问题,所以说他会强制闪退,那你闪退之后又没有,不像股票一些,他可以自动登录,他没有的,没有自动登录这个功能的,所以说你必须自己去解决这个问题,然后刚刚我给大家演示了,我们就解决了。这样呢?他整个 运行我也跑了几天了,是什么样一个效果?就是到了下午他开始闪退,那么你想到了半夜,比如说白银 最后交易完那期货公司或者怎么样?他还是会关掉那个登录接口的,对吧?你还是登录不上去的,这个时候软件就没有问题,他还是开着的,只是连不上, 对吧?一旦到了第二天早上,好像八点五五十分,或者啊七点多,好像七点多的时候,他又会自己连上的,只要那边开机会自动连上,因为他没有进行一个。 怎么说呢?结算的数据重置软件就不会闪退,那这时候你不用去管他,到了九点钟他又会自动连上,程序会自动跑起来了。 所以说通过这一点我们就解决了程序化这个问题。如果你们要使用整个配置,包括服务器的话,我可以给你们去做,然后会给你们用一个双金线的 一个系统,因为他牵手到爆单撤单吗?也是挺复杂的。然后在双金线这个地方呢,你们可以自己去设置均线,也可以去自己去设置品种,这都是 可以的,对吧?如果我建议的话,如果你们要用了,最后你们先用模拟的去跑一下,对吧?看看效果,那这样有个什么好处呢?就是比如说像最近行情比较大,像原油之前的白银,如果你不是用程序化的时候,你要盯盘吧,至少你要追吧, 那追的话,他掉下来用一个波日内波动比较,掉下来,你止不止损呢?你还是扛不扛呢?是反转呢?还是只是一个反弹呢?这是有问题的,你要盯着,对吧?特别是特别是期权,他波动更大,那这个时候你用程序化,比如说用 五分钟线,那么他这个波动你是完全可以覆盖的,那也就说如果他大的 掉下来,那你就自动出了,如果他再长上去,你还可以更,还可以自动进,那么这样的话我们才可以去做这个品种,不然的话,你说现在已经长到这个程度,虽然外围,对吧?都说那个海峡关闭了怎么怎么样,万一出了什么事情,他有可能反转的,那你不就是高位最高 一下子被套了吗?又没有办法止损,对吧?即便现在是软件里设置的,包括券商期货软件都会给你设置一个一一一次性的止损,但你止损之后他又上去了,那你不就是又亏钱又踏空吗? 对吧?所以说量化我觉得首先我们不说这个策略怎么样,真正赚钱的策略我相信没有人会拿出来,包括我,我也不会拿,拿出来就是一旦用我就是赚钱的,或者说是上次我们看到无风险套利的,哎,这些都可以编到程程序,上次我们讲过那个橡胶,对吧? 橡胶期权和期货的一个无风险套,这些都能做进去,那这些东西你说他会给你用吗?不会的呀,绝对不可能的呀,那么我们不是说这样我们就放弃了吗? 对吧?那我们想到你要用这个策略也好,干嘛也好, ai 也好啊,对吧?你要知道我们要干什么,能帮我们达到什么一个目的。那么你作为 三五年交易金啊,一般以上程序话,我觉得你肯定是要对这个基本的游戏规则熟悉,品种熟悉,平时的你要经历过 对吧?你地图稍微是探一探的,否则这个工具给你也没什么用,都相当于给你了,你一台发动机,飞机发动机没有用啊,你连飞机都没有坐过,你怎么知道发动机应该怎么弄呢?是吧? 现在就是有这个问题,那是你看你一旦知道了之后,我至少可以用它来做风控啊,对 吧?我双筋线可以用来做风控啊,如果你说我就跟一根军线很简单,那你把,比如说那个短轴双筋线不是有一根短一根长吗?比如说五五和二十,十和六十,你只要把前面那个短的改成一啊,就是你现在的价格,对吧?你相当于一根军线也可以,就看你怎么用。 我觉得对于风控来说,特别是像期货带杠杆的,我觉得你一定要少量化, 对吧?主观你一定会出问题的,只要你是人,对吧?这样的话,你想你本来亏两万,你可能现在回撤只要两千,我跟你说这个长期下来也不得了,很值得,因为之前那个 别的那个收费的太贵了,现在相当于你到我这来就一次费用,后面你都可以解决,包括我会告诉你怎么去用 ai, 怎么绑定,怎么自己去写策略, 不需要牛变变成精要,但是你要有交易的逻辑,对吧?不是说量化有多么神奇,有多么牛逼。不是的,他的牛逼之处还是在于你底层的策略是怎么设计的,你没有好的策略, 再以什么量化都没有用,都是亏钱,对吧?很多人就会。怎么说呢,会忽悠别人,哎,这个量化什么自动交易都是这种,都是新人忽悠你们的,知道吧? 懂了吧?主要还是你的交易思想和逻辑只是量化,只是一个机器人啊,只是你招了个员工帮你去执行,对吧?是这样的,好,今天讲到这里啊。

mini max 和智普发布了两个大模型,一个是 mini max 的 二点五,还有智普的呃 g r m 五。呃,那现在我只想用我现有的这个 a 八百的服务器,把这两个 呃新的模型跑起来,看看它的一个效果,然后后面我会把它们接入 opencloud, 然后再把整个流程跑起来,用 m p 架构的 a 八百去部署 mini max 二点五的时候呢,我最开始用的是全量的原始的模型,遇到了 ip 八这个数据结构, 这个精度在 mpi 架构不支持的问题,然后我又转向了 g g u f 这个结构,用拉玛把它提起来。但是我又遇到了上下文长度不够的问题,导致它在支持 open call 的 一些场景的时候比较慢。那最终我选择的是一个混合精度的 ip 十六加 int 四的这样一个版本。重新部署起来之后,呃,现在还是比较那完美的。 他现在用的一个显存大概是五百 g, 然后 a 八百的显存是六百四十 g 的 一个总量,所以它利用率还是比较大概是百分之八十左右,也是比较好的。那接下来我就需要把 oppo cloud 的 在一些场景上啊,把这个环境用起来。 ok, 今天先到这里,拜拜。

minimax two point five 对 决 g l m five, 谁才是国产大模型之王?你猜谁会赢?先说结论,代码选 g l m 多模态选 minimax kilo code 里两个都能免费用。精准测试对比 代码能力 g l m 略强,多模态能力 minimax 有 优势, a 诊能力 g l m 更强。 两家各有千秋。免费使用渠道,海螺 ai 用 mini max, 质朴清颜用 g l m kilo code, 两个都能免费用 open router 多模型切换怎么选?程序员用 kilo code 配合 g l m 需要图像语音视频处理,选 minimax 没有绝对的赢家。 minimax 是 多模态王者, glm 是 代码专家。关注我,下期对比 deep seek。

说实话,这两年 ai 发展真的太快了,一开始我们可能只能把某一小块需求丢给 ai, 但现在 ai 已经可以直接接入整个项目,帮你梳理结构,甚至把需求一起完成。现在的 ai 更像是一场一直在往前推的技术浪潮, 也逼着程序员不断去接触、学习使用新的 ai。 最近 mini max 二点五出来了,听说编程能力越来越强,今天我就来用它做一个小程序。 我们先打开 vs code 安装, cloud code for vs code 安装完成之后点 setting 配置 mini max 二点五的配置, 其中 appkey 需要到 mini max 官网配置,今天用它来做一个手势识别,配置完成之后就可以使用了。今天用它来做一个手势识别小程序,输入好简单,需求 mini max 二点五九开始做了。 这里我们可以看到 ai 的 每一步思考,先是整理需求,然后开始写代码,最后再检查测试,修复一下。不得不说,迷你 max 二点五变乘能力是真的强大,接下来展示一下它的效果。 ai 现在确实已经能按照指令帮程序员完成一部分工作,但前提是发指令的人得懂业务,也得懂程序设计。一旦 ai 的 解析方向走偏了,还是需要程序员来发现来纠正。 同样,程序员没有思路,也可以向 ai 学习,这一点其实放到其他行业也是一样。所以我现在反而更确定一件事, 会取代程序员,但会淘汰不愿意用 ai 的 人。

如果你最近关注 ai 圈,一定绕不开一个名字, openclaw。 这个完全开源,能够自主调用技能执行复杂任务的 ai 助手,被不少人称为个人 ai 助手的 chat gpt 时刻。不过像 openclaw 这样的极客玩具,光部署就能劝退百分之九十九的小白。别慌,我帮你找到了一个神器,那就是史诗级升级的 mini max agent, 他一口气干了两件大事。第一,基于 openclaw 构建的云端 ai 助手 max claw 登场,把需要复杂部署的顶级工具 openclaw 变成了在飞书钉钉里就能直接艾特云端机器人,简直是 openclaw 的 爽文模式。第二, expert 二点零面世,各行业的专家大神搓出了海量 ai 专家,总有一款适合你的工作, 如果找不到现成的,还可以手搓,无需懂任何复杂的技术配置或提示词工程,对自然的语言描述需求, ai 就 能自动帮你搓出一个垂直领域的专家。我们来看看硬核场景里的效果。先来用用预制海量精选专家级 skill 的 max klo。 最近 ai 智能体很火,我想快速了解 对 max klo 机器人说,追踪一下本周 x 平台上关于 ai 智能体的热门讨论,写一篇综述给我,很快一份梳理了核心观点,分析了大趋势的报告, 又水灵灵的出现了。再输入为我的香薰品牌设计张 instagram 广告图,主题是薰衣草香气来看,结果风格很高级,非常贴合意境的视觉海报,甚至可以直接用于发布。 再来看 expert 二点零,相当于把你脑子里的经验、智慧和行业 no 号一键封装成了标准化的 aisop, 目前平台大神云集,大佬们已经搓出了超过一点六万个这样的专家。比如股票投研专家问他某个公司值得买吗?他就能帮你分析投资价值,捕捉市场短线机会。用上它,谁还能分清我和 a 股之王啊? 再看智能合同,审核官将合同丢给他,他能快速识别关键条款风险,给出法律建议,堪称 ai 界的何以琛。再比如, 多模态内容生成专家,能把抽象的物理公式、机械结构,直接变成可拖拽、可交互的三 d 网页演示,还能一键生成可分享链接,这让我感慨, mini max 通过 xper 二点零和 max cloud 这套组合拳,瓦解了顶级 ai 落地的最后几道屏障。 专业化的高门槛部署使用的复杂性,以及 ai 与日常工作流的割裂感。如今,手搓一个专家,像发微信一样简单,要用顶级 ai, 能力像艾特勇士一样自然, ai 总算真正从极客的玩具,变成了普通人的生产力神器。快和我一起开启驯龙虾的爽文模式吧!

我用最新的国产 ai 编程模型豆包、智虎、 kimi 和 mini max 分 别做了一个植物大战僵尸游戏,从夯到拉,不吹不黑来测评一下。这是最新豆包 c 二点零矿生成的游戏, 僵尸来了,所有的角色都是长方形,可以点击太阳吸收能量,豌豆射手可以正常射击,还可以显示血槽数, 游戏结束可以重新开始。还有游戏规则的介绍,这是智普 g l m 服务做的界面,可以选关卡,还有音效。智普把向日葵、豌豆射手和僵尸这些角色都画出来了, 自带的音效些许诡异,但他有一个八,点击向日葵上的太阳就会无限次增加能量,总的来说还是非常有可玩性的一个游戏雏形。这是 kimi 二点五做的游戏, 所有角色都是椭圆形,僵尸做了一点点动效,但是豌豆射手都不会射击,说实话做的真的好粗糙啊,僵尸撞上豌豆射手游戏就卡 bug 了,根本没法玩。这是 mini max m 二点五座的植物大战僵尸, 这个游戏里面我点太阳也没增加能量,导致我没办法把豌豆射手放上去, 放了一颗土豆,很快血槽就空了。游戏逻辑完全不对,试了好几次我都没法正常完成一局游戏。 最后说一下,为了公平起见,我统一用字节跳动的吹,因为里面提供的四个最新模型都可以免费使用,统一用了一样的提示词生成的四款植物大战僵尸, 豆包和智谱都做出了完整且好玩的游戏,水平不相上下。 timi 和 minimax 界面都做出来了,但是游戏逻辑为零,根本玩不了,太拉了。关注我,看更多 ai 产品真实测评!

今天的话我们来学习了解 mini max m 二点五全球编程和智能体能力最强的这个开源模型。 首先的话我们会从底层的这个模型概览核心技术和这一个技能以及本地部署应用场景来去进行这个讲解。那么首先的话 mini max m 二点五是作为中国公司 mini max 的 这一个二零二六年二月份就是最近推出了一款大模型, 它被号称为就是目前目前的这一个全球编程和智能体能力最强的开源模式,并且极其便宜,就每小时只花一美元就能以一百 token 每秒的这个速度持续运行, 那么它与这一个我们之前讲的这个 queen 三点五的核心区别。首先它的这个参数是两千三百亿,小于这个阿里的这个 queen 三点五的三千九百七十亿,同时它的这个活跃参数是十币,在一百亿左右 的核心优势能力是在于这一个编程和 a 级的能力比较强,那么如果说 pin 三点五是一个全能型的这一个选手看图说话翻译,那么 mini max 的 话其实就是一个编程的自动化专家,他比较擅长写代码,修 bug, 上网搜索、 操作办公软件。为什么这个模型在这个位置里面是比较突出的呢?首先的话它就是这一个修 bug 的 能力是全球在这开源里面是比较领先的,接近这个 cloud ops 四点六的这样的一个模型。 同时的话它的这个多语言的这个修复 bug 的 能力是达到了百分之五十一点三。还有 ter terminalbench 就是 终端操作这一款,竞争力是达到了百分之五十九点三,终端操作的这个能力其实是比较强的, 但是它的成本其实只有 cloud 的 十分之一,这就是导致它具备一个极致的这个性价比。那么同时的话它带来一个优势的话,就是它的这一个 它的这个成本是极低的。那么在我最近爆火的这个 open cloud 这一个产品的时候,它其实是在这里面是具备很大的优势的,让 open cloud 为我们进行这个日常的办公,其实是变为了口可能 那么它同时也有几个版本,比如 mini max lightning 就是 三美元,然后百万 token 就是 零点三美元百万 token 以及这一个输出的话是二点四美元,以及这一个 mini max m 二点五,标准版的话是零点一五美元百万 token 输入,还有一点二美元的百万输出。 cloud opera 四点六的话,它输入的是这一个十五美元一百万 token, 那 么输出的话是七十五美元百万的 token。 g p t 五点二的话是输入是五美元,然后输出是十五美元。 m 二点五的这个成本是十,是 cloud opera 的 十分之一到二十分之一,嗯,它的这个成本是这个 g p t 五点二的这个十分之一和十二分之一, 那么它的这个亮点的话,它还有一些核心的这个亮点,比如说它的这个 bronze comp 的 这个,嗯,电脑这个搜索能力是达到了百分之七十六点三, 然后的这个网页的能力竞争力的话是达到了,嗯,百分之七十六点四,那么它在这个网页的这个浏览信息搜索、证据追溯等方面其实的能力是非常的突出出色, 那么同时的话就是它的这个它能够很好地去实现我们这一个办公的自动化,那比如说 word 文档自动排版生成报告,还有这一个 powerpoint 自动制作演示文稿, 以及这个 excel 的 这个金融建模数据分析公式生成,这些能力的话其实是比较强的,是要优于其他的这个主流模型和开源模型的。 那么我们再来详细的讲解一下。呃, mini max 它为什么能有这样能力?它核心的这个技术原理是什么样的?首先的话它采取的是也是这一个 mo 混合专家模型,用这个稀疏激活机制推理的时候,仅激活部分的参数, 而非全部的参数,同时如同调用这个专家团一样,而非全全员出动,那么大幅度的提升这个效率。其次的话就是这个模型的基本参数是,呃,模型的这个类型是英国语言类型, 它是主要是理解这个生成文字,它没有这个视觉能力。第二点的话它总参数是两千三百亿, 这是模型的这个知识容量,那每次激活的参数是一百亿,实时干活的用到的这个参数就是这个一百亿。另外的话,它的架构是采取了这一个混合专家的这个架构稀疏激活的这种架构那么可以做到高效的推理,上下文的 长度啊,是大概二十万的左右的这样的一个上下文长度 token, 那 么一次可以处理十五万字, 同时的话它的推理速度在一百 t p s, 就是 每秒生成一百个这个 token, 而模型大小的话是在这个 b f, 嗯,十六四百五十七 g 的 原始的这一个原始末的这一个压缩的大小, m o e 的 这个价格为什么 又小又强呢?那么跟 queen 三点五其实是一样的,它就相当于是每次只激活这一个一百亿的这个参数,然后做到推理更快,成本更低,同时能够跑更多并发,那么同样的硬件服务可以服务更多的这个用户。 另外的话它还加强了一个,就是这一个 a 型的这个原生能力的这个强化的学习架构, 那么它采取的这个架构的话叫做 foreign 强化学习架构,它是它的技术创新,传统的这个模型训练方式是数据加训练,加模型学会说话,而 minimax m 二点五的这个训练方式是二十万加上真实环境, 然后再强化学习,模型一步一步学会做事。那么在大版环境里面,它就直接在二十万的这一个, 用二十万的这一个相关的这一个参数,然后模型像真实的实际师生一样,在真实的环境里面不断的尝试,然后获得反馈,从而掌握这一个使用工具的解决问题的这个能力,实现从说话到做事的这个跨越。 那包括它的这个浏览器办公环境和各种工具 api, 它实现的就是二十万加上真实环境加上强化学习,以及让模型逐渐的学会做事情。 a foreign 的 这个框架的这个语特点,其实它第一是实现了这一个 aint 的 原声,那么模型从训练开始就能够学习如何使当智能体,而不是先对 先学对话再适配,同时的话实现这个环境解偶,那么训练的这个引擎和 aint 完全分离,支持任意的 aint 的 框架,那么同时也做到这个训练吞吐量实现约四十倍的这个训练的加速。 其次的话它支持这一个树形的合并,那么创新的这一个样训练样本的话,其实是用来做这个训练加速的。 其次的话它还采取了这一个 c i s p o 的 算法,那么做到这一个稳定的训练 m o e 的 模型, minimax 自研的这个 c i s p o 的 算法来确保大模大规模的 mo 模型训练的稳定性,那么还解决了行业的一个痛点,就是 mo 模型在大规模训练的时候容易出现这个不稳定性,它采取的就是这一个,嗯,交错思考模型, minimax m 二点五的它的这一个交错思考模型其实是使用这个 think, 然后里面包括这个内容,再加上 think 的 这个标签包裹着来进行推理。 比如说用户的问题,请修复这个 python 函数中的 bug, 那 么模型输出的话就是 think 让我分析这个函数问题,在第三行类 请转换错误,需要在调用前添加这个类型检查,然后我发现了问题,第三行 缺少类型检查。以下是修复后的这个代码,然后再进行这个代码的修复,那么这个的话就是关注这个重要的东西,在多轮对话里面必须要保持保证这一个历史的信息, think 杠 think 的 这个里面的内容 如果删除的话,模型的性能就会显著下降,这与这一个 queen 三点五不同, queen 三点五是要求在历史中去掉这一个思考的内容, 而这个的话就是要保留历史中的这个 think 的 核心关键信息是一个交错思考的这样的一个模型, 另外的话它就是有这个 specwriting 的 倾向,像架构师一样去思考。那么 m 二点五在训练时涌涌现出了一个独特的行为,就是 specwriting tendency。 在 写任何的代码之前, m 二点五会主动地分解项目的需求,规划功能和架构, 同时设计这个 ui 方案,向一个经验丰富的这个软件架构师从全局出发,然后去能够这不是人为的这个编程能力,而是在大模大规模的这一个强化学习之后,自然涌现出来的这样一个编程的能力,这是非常厉害的。 那么其次的话就是另外它的这个编程能力在业界对比的话其实是比较强的,基本上能跟 cloud ops 嗯,四点五持平。同时的话它在权威的这个 s w e 奔驰这个测试里面,它其实也是,嗯,另外的话,它有极具这一个性价比的这一个优势, 具备这一个全站开发的这个能力。 那么另外就是 m 二点五它的一个特别之处就是它在它,它在不同的这个 a 型的架构下面都能够保持这一个稳定的性能。比如说 open code 的 架构下面,它有百分之七十六点一,还有 cloud ops 是 百分之七十五点 九,还有这一个座椅的这个框架下面是这一个百分之七十九点七,以及这一个 cloud ops 四点六,是百分之七十八点九。 另外的话就是这一个 m 二点五的这个 swbench verified 达到百分之八十点二,与这个 cloud ops 四点六其实是相差百分之零点七,还有 marty swbench 的 这一个参数里面是百分之五十一点三是目前公开的最高成绩,关键的差异的话就是完成这个 swbench 任务的这个速度提升了百分之三十七,平均是 二十二点八分钟,每任务与这个 cloud ops 四点六是基本上持平,但成本的话只有 cloud ops 四点六的十分之一。 这意味着就是 m 二点五不再依赖任何特定的工具环境,都能够表现出色,并且发货能力很强。 在全站开发能力的话, m 二点五也覆盖了完整的这个编程场景,有这个零到一的系统设计,从零 开始规划这一个架构,一到十的这一个系统开发核心的功能,实现十到九十的这个功能的迭代,持续的添加新功能,九十到一百的这个代码测试 和这个质量把控。那覆盖的这个平台技术有这个 web 前端比较擅长 html, css, js, script, type script, 还有 regact, 安卓的应用的开发, ios 的 应用开发, windows 的 应用开发,服务端的 api, 业务逻辑数据库,它精通十数种这一个 go, 嗯, c c 加加 type script 和 python, java, javascript, php 和 lua dot 以及这一个 ruby 这些开发框架。同时它也具备这个搜索与工具的这个使用能力其实也是比较强的,超过了 gpt 五点二 通过它使用的这个较少的这个搜索轮次,然后比这个 m 二点一减少了百分之二十的这个轮次,就能够得到正确的这个答案。这说明模型不不仅仅是找得到,而且是找的更聪明,更快、更准。 那么同时他在这一个 rse rise 的 这一个评测里面,专业级搜索里面,他也自建了这个 rise 的 这个评测。那么模拟这个人类学家真实的搜索过程,不仅是搜索引擎的查询,包含在这个信息密集的网页里面深度搜索,他在这个评测里面也表现出色。 同时的话它通用了这个智智力的这个能力,包括数据竞赛专业的领域,它都是能够达到世界领先的这样的一个水平,包括 she 无工具和这一个 s s i code, 还有这个 if bench 指令遵循,以及 a a a a a l c r 长上条文的这个搜索能力也是比较的突出。那么它进步的是很好的一点,就是实现这一个办公的自动化,它通过这个 g p t 的 这一个 pro 就是 平均的这个胜率,对比所有的主流模型在办公场景下里面的表现是胜率在百分之五十九点零。同时它的这个 excel 竞赛里面也是领先的由这一个金融专家设计的这个评测。 那么它的这个速度和效率的话,其实也是在同行业里面是比较的快,它能推理速度达到一百 t p s。 另外它的任务完成率和综合评价都还是比较优秀的,但是它还有一些不足,它的不足的话第一个就是数学竞赛,它是比较弱的,专业科学的话它又也比较弱,超难题的话是比揭秘版要差了不少。 然后视觉理解的话,目前是不支持多云覆盖的话,其实不如这个 queen 三点五。然后它的百万 token 是 有比较大的优势,只有其他模型的呃二分之一到二十分之一, 另外它跟这个 queen queens 这一个三点五的这个比较优势就是第一个它编编程改 bug 这样的一个优势其实是比较强的,搜索 agent 的 这个能力也是比较强, 然后这一个数,呃,数学的推理的话是 queen 三点五更强,视觉理解 queen 三点五更强。然后多语言的话是 queen 三点五会更强一些。文档的这一个 ocr 其实是 queen 三点五更强。 另外就是办公的这个自动化其实是这一个,呃, m 二点五更强,推理的这个速度是 m 二点五更强。 api 的 这个价格其实是 m 二点五更便宜,模型的大小其实是 m 二点五更清亮,同时的话,本地的这一个运行是 m 二点五更容易, 那么核心的这一个需求的话,如果你是写代码修 bug 的 话,那么你可以选择这个 mini max 二点五,办公自动化预算极其有限,或者需要大量并发以及这个本地部署。还有这一个看图处理文档 的话,呃,就是前面的话,这些都是 minmax 会更强一些。然后如果你是要看图处理文档或者多语言翻译,那你用 queen 三点五更好一些。顶级的这种数据竞赛还是选择这个 gpt 五点二,另外简单开箱即用的话,那么还是选择这个成熟的币币源的这个生态 部署方案的话,它这里重点的话就是由这一个 a 镜的网页版和这个 api 调用,以及欧拉玛和这一个企业,企业端的这个部署推荐的这个配置是一百二十八 g 的 这个 mac 的 话,它能够稳定的部署,同时入门的话是要九十九十六 gb 的 这个 mac 或者是 pc, 然后实现这个有效的部署。还有就是多 gpu 的 服务器就实现全量的这个部署, 它要在这个三 bit 量化之后,只需要一百二十八 g 的 这个内存就能够实现这一个相关的,那么它是一个很好的编程学习助手,办公效率提升。同时的话它也是一个软件开发团队,能够进行这一个加速且便宜, 还有这个成本降低。另外它能够作为 open cloud 永远在线的这个 ai 员工,这也是得益于它极低的成本和极强的这个办公的这个 ag 的 能力。那么如果你想去开发这个 ag 等,就要定义好你的工具,定义好你的流程,调用对应的这个 api, 然后来做到这一点,然后它能够保证你的话就是极致的这个性价比,办公的自动化以及这个全球顶尖的能力。 以上的话就是我们针对这个 minmax m 二点五的这个深度解析和使用介绍,如果你感兴趣的话也可以随时联系我们,欢迎与我们进行沟通交流。