最近一直说智普 g i m 五的坏话,其实这样子是不行啊,它在白天,现在白天了,白天的时候它是非常非常聪明的一样的提示词啊, 去 figma 上面把设计弄下来,就这个效果来说啊,就这个还原图,它做出来比 cloud 四点六 solid 还要好,真的还要好。 cloud 四点六做出来还有很多小瑕疵,还要一步一步的去修,但是用白天的 g i m 真的 是非常非常非常好,效果就是一步能到位了,一到晚上他就拉了, 具体几点我不知道,反正一到晚上我孩子睡了,然后继续想卷一下,他就不让我卷了, 真的是谢谢他。然后我就让 g m 五把菲克玛上面的资源也下下来,真心是不错的。这个性价比是挺高的,听说是托肯出海,晚上出海,白天在这里用。那既然大家都睡了,我又是 max 的 账号,最贵那个账号, 你不用把性能压的这么低吧,是否应该是为了我的健康着想?想我早点睡,我谢谢他,谢谢谢谢。
粉丝5.0万获赞29.4万

近期好多同学问主播,面对众多国产大模型,我该如何抉择呢?近期新推出的 glm 五迷你 max m 二点五、 kimi k 二点五和困三点五这四大模型各有特色,接下来我会挨个为你详细讲解。 glm 五是智普最新的旗舰大模型,总参数达到七千四百四十亿,激活参数约四百亿。它采用独家的 dsa 吸收注意力机制,专注提升长文本逻辑推理能力。 在各种评测中, glm 五的编程与数学推理表现被认为是当前国产模型中最强的一档。一句话总结,这是一款又快又聪明的推理型选手。 千问三点五是阿里巴巴的最新多模态大模型,具备文本和图像双模输入能力,图片模块来自千问 vl 系列,它采用自注意力和限性注意力结合的结构,生成速度更快,理解更细。 千问三点五还支持多次预测 m 七 p 在 生成流畅度上有明显提升。一句话形容它能写、能看、能自己动手的智能选手。 mini max m 二点五的参数相对紧凑,仅两千三百亿,总体偏轻量化,但性能稳定,且推理效率很高。它采用传统的 self 天性架构,牺牲了部分多模态能力, 换来了更快的响应速度和更低的算力消耗。 m 二点五不追求花效功能,而是扎实可靠。一句话总结,它是大模型世界里的经济适用型狠角色。 timmy k 二点五拥有全场最大体量高达一点零五万亿参数,激活参数三百二十亿。它采用 m l a 多层次注意力机制,理解复杂语境的能力相当突出, 同时支持文本与图片输入,在多模态理解上表现抢眼。一句话概括,既有大脑容量又有想象力的综合型强者。

六个国产的 ai 模型,加上一个国外的顶尖 cloud 作为对照组啊,同一个项目,同一套提示词,从零开始,写完一个完整的前后段应用, 整个过程全部自费,没有任何广告。最终排名如下,测试环境我们统一有 openroot, 按照模型名称区分了项目文件夹,同一台服务器,同一套提示词。因为之前我家的小猫去世了,然后我做了一个视频,也收到了很多的暖心的评论,他们都提到了一句话,就是我们家的猫猫会和多金一起快乐的生活在天堂里的。 这个就是我做这个项目的初衷啊,其实就是想给一些啊去世的小猫打造一个赛博乐园,然后其实不是很复杂,就像当时我们玩那个 呃旅行青蛙一样,就放置,然后纯挂机,他们自己会有一些活动,但这个提示词你看其实写的也还挺细, 总的来说算是一个比较综合的项目。我的测评思路是这样,第一轮我们先来 one shot, 就是 说看一遍跑完之后这个模型能跑到什么程度,之后我会根据他们第一轮的表现去继续修改, 这时候提示词确实就不一样了,因为我要根据他们现有的情况去说嘛。这一轮其实是说我想去挖一下这些模型的能力上限大概能到哪里。提示词发出去,六个模型同时开跑,先说速度, step 三点五 flash, 它起手就是一百三十 tokens 每秒,这个快到离谱, 但是啊,它过程中会反复的去复读,而且中间直接中断了三次,我都得手动去输入继续它才能够继续跑,这个就真的很要命了,所以导致它的总时长其实比别家还要更长一点。现在二点零千瓦,三点五, kimi, mini max, 它们基本上都稳在四十左右,第一轮的总时长也就是七到九分钟, 只有智普的 glm 五是最慢的,我都是官方 max 的 订阅了,它的起步就只有十三到十五,后面稳住也只有三十,那它的第一轮总耗时有十八分钟,那总的完成时间我们就先摆到这里。这个第一轮我心目中及格的标准就是啊,前端它能够正常,现然, 哎,在画面具体怎么样先不说后端的话,它的登录然后穿图啊,各项功能都正常,这是一个最基本的。 接下来我们来看它们具体的结果。先锋三点五的一个 bug 就是 你在登录之后,它很快还需要你再登录它前端的猫其实还意外的挺可爱的,但是这个视角跟随是用不了的。 c 的 二点零的后端倒没什么问题啊,但它的前端是一直在闪, mini max 的 前端他第一次直接渲染不出来,而且呢,我的提置词里面是已经明确要求了上传照片是必选项,而且还需要做删除的功能,他呢,就直接没做 seven 三点五 flash, 说实话,他在跑的过程中不是频繁的复读吗?就这个事让我实在是对他没有什么信心。 结果呢,在注册登录上以后,上面呢,还有一个这么大的登录框,在上传照片确实是必选项,但这个功能他就用不了,导致我就没法送冒进去,也测不了。前端 kimi 的 k 二幺五,它作为一个大参数模型啊,它的前端能力确实曾经震撼到我,我是真的盼着它能给我个惊喜,结果它的前端就直接没渲染出来,而且我添加一只猫进去,跟随视角那里会直接 bug 成三只,那就只剩我们的质谱了。第一轮的前端,它的地面是在抽搐的, 猫的形象也是有点抽象啊,但是说实话,我觉得它的功能上是唯一一个及格的。所以总的来说,第一轮啊,我印象比较好的其实是千万三点五跟智普 gm 五就是千万,确实是有一个恶性 bug, 但是它的前端还挺好看的,在我这里是加一些分的, 然后智普就是中规中矩,他没有什么错。接下来就是各自去修自己 bug 的 环节了啊。这个过程其实你会对它们模型的能力会有一个很主观的感受, 因为就是你提一个需求,然后他反反复复改不完,那你也没有什么心情去给他再提修改意见了。其实几乎每个模型我都给了两三轮的迭代机会,那我也去直接拉一个表格给大家看,结果大家看着,顺便我搁这解释一下, 千万三加五在过程中出现了一次大翻车,他是把之前好好的前端改的无法渲染了,虽然后来又救回来了, 跟随视角登录,私密公开的功能他也都修好了,我对他的迭代能力总的来说是满意的,而 c 的 二点零,他的迭代几乎就没啥用了。首先这个画面他从始至终是一直在抽的, 而且这个猫太抽象了,甚至怎么还在这个画上放了一个包子呀。 mini max 的 基础功能他都改好了,场景也确实更加丰富了,但是就感觉丰富且简陋吧,再不他是改了基础的 bug。 嗯,没有什么其他惊喜。 kimi 啊,你看我出镜了对吧,我要好好说一说 kimi。 一个相机的锁电功能,他改了三轮,是一点没改好,场景一直是空的,甚至这时候我发现,哦,我的文件都乱套了。原本你记得我们最初的工作目录是这样的,然后每一个模型都在各自文件夹里写,只有他把整个工程做到了总文件夹里, 直到我最后归藏的时候才发现这个问题。所以我对这种啊,比较简单的这种遵循问题我是非常在意的,就是我当时就想给他扣个大分。再来说质朴。 gm 五的 bug, 其实也基本都改好了,除了我说的那几个字看不清,因为它这个程序啊,它有两个页面都有这几个字, 他可能不知道我指的是哪一个页面,当然了,也确实是可以说的更细。但是当时嘛,时间原因,我觉得这个也算是理解力有点问题吧,测试走到这里,其实我会有点陷入低谷,就是我会觉得,哦, 其实国产模型表现也都不怎么好,然后我就觉得是不是我自己的问题,就我的提示词是不是写的不够好,是写的太细了,反而限制他们的发挥。 因为这个事啊,其实就是当时我跟我女朋友去聊天的时候随口想到的,最初就是有这么一段想法,然后我再把它不断的气化,最终变成了现在这个样子,那 在这个时候也是时候去启动我们的顶尖模型可倒的了。我们来看一看他的表现。首先因为我用的是第三方的重转,所以他的速度其实一直不到二十,会比较慢。 而他第一轮交付的结果是这样的,比较令人欣慰的是,他除了前端的界面确实还是比较简陋以外, 其他的功能是没有任何问题的,完成度是非常的高。于是我在第二轮去跟他说,让他去丰富一下场景啊。这个时候,不知道为什么, open code 它里面遇到了频繁的工具调用错误,感觉是个什么 bug, 然后完全发挥不出它的魔性能力。 于是呢,在这里我确实是改成了他家自家的 cloud code 的 工具,然后还是在这个文件夹里,在第一版的基础上去进行了一个修改,它最终给我交付出了一个这么挺广阔的地图。当时在测试的我就直接发出了这样的感慨, 值了。真的,就毫不夸张地说,嗯, cloud 是 让我第一次有了一种感觉,就是这个项目可能是能做出来的, 呃,可能是能正式上线的。我的意思是其他的 ai 模型其实没有给我这种信心。其实到这里呢,我们所有代码的部分就结束了啊,因为我自己不是程序员,我只能去试一下他们整个的感受啊。但是具体的代码质量怎么样我是不知道的。 我就让 cloud office 四点六去开了七个子 agent, 去把所有模型的原代码都 review 了一遍,没想到他还真给我挖出了几个彩蛋。首先是智普 gm 五的代码里,它藏了一个后门账户,账户名阿德曼密码阿德曼一二三, 它是直接硬编码在代码里的,而它在交付的时候其实没有告诉我。第二个 mini max 是 唯一一个用裸哈希蹭密码的,甚至都没有加盐, 简单来说就是密码保护几乎等于没有。另外,其实他们的基础站用的确实不太一样,用了面向对象架构的模型,比如说 cloud 和智普,他们的前端效果确实就会明显的好一点,而其他的模型全都是过程式代码,就一个函数,从头画到尾, 他就会导致你在迭代的时候很容易越改越乱,甚至呢,迷你 max, 他的前后端的状态这个数他都对不起来。然后是整个项目里最难的一个相机跟随, 大部分的模型,要么是直接把猫挪到屏幕中间,要么在跟随功能里面写了前端渲染,但是根本没有调用。只有 cloud 正确实现了 what to screen 的 代码转换,所以它才能够第一次就成功。最后我们再来放一下总分, 一共就这六个维度,前五个全都是我非常个人的主观的体验。最后一项代码质量是 cloud 去审的,最后加权呢,算了一个总分。 另外所有的 ai 花费的 token 量以及制作的总时长,我也都统计在这里。仅针对我这次制作的这个项目啊,它具有参考意义,数据都很主观,它跟你的感受相似吗? 其实说实话,它跟我的经验都不太相符,但结果就是这个结果。而且我这个项目是 ai 区一口气写完整个前后端的能力 啊。但去评判 ai 模型,它的标准非常多,所以说如果你想看的是那种公众公平并且维度全面的测评,其实是可以去参考一下排行榜的。而我作为一个用 ai 去编一些小程序的乐子人 其实还是很好奇,就是年前扎堆发的这些 ai 模型,他们之间的差距到底怎么样啊?到底有没有特别大的突破?我觉得这些模型你亲自上手去跑一遍,总会有一点感受。于是就有了这期视频,也跟大家聊几句我对目前这些国产 ai 模型的看法 啊。前端能力我觉得应该还是 kimi, 不知道为什么他这次翻了翻车啊。但是 kimi 的 k 二点五,他一个是说能直接读视频去做网页, 另一个是也确实之前我给他足够多的内容,他写出来网页是震撼过我的。这 im 五我一直认为他是国内的编程的领头羊 啊,其实能力确实不错。然后他就是涨价了,然后他,你说涨也可以,因为现在确实是大趋势嘛,这个整个用户多了,这个成本也高,但是你让老用户,嗯, pro 会员都没法用,第一第,没有办法第一时间用那个最新的模型。然后 lite 现在还没上,至少我写的时候还没有上。呃,甚至这个量还缩水了一点,就会感觉有点不爽。而 mini max 就 恰恰相反,它就很便宜,虽然出了高速版套餐,但是普通版还是便宜的。 嗯,速度也比较快,比较清亮。就是我会用它去接那个 opencloud 这样的小机器人,我觉得还用起来挺舒服的。总之你要问我性价比,我就会推荐它。然后就是 camden 的 三点五跟字节的 c 的 二点零,说实话,这两个模型比较新。呃,也可以再关注一下,我到时候也持续看看 别人对它的一个反馈。至于 cloud, 它确实是断层领先,价格也确实是断层的贵。嗯,但是啊,如果你换个角度来说,嗯,做一些严肃的项目或者正经的正式的项目的话,其实, 嗯用它会节省一些时间,也会给你一些信心,该上的话就还是上吧。好了,这就是这一期的啊,国产的 ai 编程的横屏的所有的内容了, 还是那句话,我祝他们早日超赶超 cloud。 我是 大黑,希望以纯人工的方式来向你分享智能。我们就下期再见。拜拜。

很多人说,模型发布就是敲一天锣,第二天照旧。但股价这东西,听锣鼓只是表面,它真正闻的是味道,你接下来能不能真的把钱赚回来? 二零二六年二月十二日,一天两升锣,智普 g m 五点零登上台, mi max 把 m 五点二退到前排,同一天,恒生指数还跌了百分之零点八六,但这两家股票却逆势上蹿,智普收四百零二十八点六八, mini max 收五百八十八港元,单日涨幅超过百分之十四点六二。这说明市场在给模型升级,这条主线重新贴标签, 那差别在哪里?谁把确定点和收款码做的更硬?智普走的是预热确认再定价,二月九日十日,匿名模型线索先把开发者论坛点着,二月十二日官方确认,再叠加提价,资金就敢加码。也就是说,这不是纯情绪,是能不能赚回来的。预期被抬高了, mi max 也涨得不错,但统计上更偏软,异常收益大于百分之十四。原因其实很朴素,公开证据链更多,靠转述确认点更平滑。再加上上次股价高波动短样本 噪音更容易把信号盖住。所以别只盯着发布会那一摞,真正盯的是发布后能不能交作业、 api 付费、企业订单续费率、毛利推理成本取现,再加上一条合规和 ip 治理。我是波导,欢迎关注。

大家好,年前有点偷懒了啊,我们国内的大模型确实发展挺快。 呃,年前这个 mini max 和智谱呢,本身都已经发布了,但是有点偷懒了,没有及时来进行测试,我们还是回到 最原始的那个测试啊,动态爬虫,我们看一下这一次他们能不能够取得成功,把这个需求搞过来。前面的这个配置都已经搞好了, 因为前面好几个版本其实更新都没有解决这个问题啊。他这个通用大模型呢,本身确实进步挺快,但是编程能力呢?呃,在这个网络编程这一块一直没有突破这个网络爬虫,动态爬虫的, 希望这一次他们两个都能够取得成功啊。 智普怎么好像没什么动静?这会儿 都是采用它们最新版本 mini max 二点五,这个是五,就 buy 它了。嗯,不知道啥情况,智普在这里怎么这么久还没有,一直在这思考。 这个好像先对以前的版本确实有变化,他怎么还会去测试这个版本?这个按道理跟 partson 的 版本关系不大,它这个生成代码这边还是没有动静, 我记得前面那几个版本反应都还比较快的这个 beta 版本,这个 beta 是 不是有问题?一直还没动静, 这究竟什么问题呢?没搞明白。 ok, 这边已经有代码了, 给他安装一代。 ok, 给他安装啊。 哇,终于开始动了,这什么情况?完全没搞明白。这边还有干嘛?又在干嘛?这个是什么东西? 这个有点奇怪哦,为什么会这么久?这个完全没搞懂, 看样子第一个没成功,现在又在写第二个。测试脚本 自己的编码啊,检查这个编码啊, 检测的反爬虫终于好, 还使用百度的 ipi。 我 这倒是另外一个思路, 看一下啊,失败了。 真的假的, 这就搞定了? 我们先来看一下这个, 这应该是刚才那一个。 对呀,哦,刚才不是那个谁的。 这边还在点赞,原来刚直屏的是智普的 哇,这个 webfatch 在不停的尝试新工具啊,看看这个 wifi 能不能成功啊。你看它迭代了好多次了, 现在感觉把问题简单的问题复杂化了。 这个又半天没动。这个字符 怎么跟以前好像不一样啊。以前四点五,四点六,四点七,不会这样,卡在这里半天 啊,又开始有动静了。 mini max 一 直在尝试,一直在尝试。这搞得有点复杂了。你搞那么多 好吧,又在生成 csv 文件的那个。还是搞这么多脚本。就是还没见动静,没有结果呀,好奇怪。 这边再更新解析逻辑,看看能不能成功,哎,代码好像获得了。 ok, 这个 csv 已经生成了, 看看能不能成功啊。 这边又给它出错了,还在给的, 这边在修复代码,因为代码有语法错误。嗯, ok, 更正的。 这么自信,我就把你删掉了。 ok, 它这个直接的命令直接点。这个还是看一下啊。 mini max 这两个按钮有区别啊。来,开始抓起 试一下。 这是要干嘛? 看一下这个目录下面有没有,哎,有了,看一下对不对 哦,是个空的,再来一次。这什么鬼,保存目录 还是不对,因为只是一个验证目录,我估计还是有问题。 显然不对啊,还是个空的,搞了半天还是不对。 再看一下这边,看一下。安装一袋,哎,他用了这个一袋,看样子好像抓到一点,看下有没有成功啊? 先试一下哦。抽出款浏览器失败,它没有真正安装 这个掉入死胡同了,我相信它搞不定。 嗯,它自己来安装了,看一下你能不能搞定。 这个叠带了无数次,这个脚本,你看它这里是有的,它明显还是有问题, 这都叠带了好多轮呐。我觉得还是有点遗憾啊,编程能力这一块没有非常显著的提升感觉。再来试一试, 把这个关掉啊,这个是他的 哈,没有抓取到任何成还是失败 还是失败?你看这边还在动, 他还下载了音乐, 我看一下有没有下载音乐。没有没有。好吧,我觉得 mini max 还是失败的啊,我不再尝试了, 看看这个用 chrome 能不能搞定。 这个实在不想试了,这跟 core 的 差距还是有点大,像现在 jammer 三它也能自己搞定的,也算很快的,所以编程能力这一块明显还是有比较大的差距。 那现在就非常期待 deepsea 四点零呢。 哎,所以我就说他搞不定这个,算了,还是有问题。这个配置浏览器的配置稍微复杂一点, 还是比较遗憾,不管是智普的还是 mini max, 二点五这个最新的版本都失败了。好,谢谢大家。

前端开发者必看同一 ai 开发工具, tray 切换三款不同大模型,用完全一致的提示词开发同一套前端工程框架。失测差异全公开,只讲事实,不参主观判断, 先明确测试标准,确保公平性。一、开发工具统一使用 tray, ai 开发工具二、提示词完全一致,均为通过豆包先生成的用于细化整体前端工程搭建的 markdown 文件提示词, 核心需求为 view 三 plus、 v i t t five plus、 element plus plus、 pinia plus、 view router。 企业级后台管理系统开发 提示词细节覆盖、项目初识化、核心页面开发、路由配置等全流程。三、测试指标,仅统计生成文件数量,实际耗时两项核心数据,不评价代码质量,只呈现客观结果。 实测开始逐模型呈现数据。第一款, glm 五模型,同样的提示词,时间原因,我们加快六十倍速播放 生成文件数量三十四个,覆盖前端工程框架全核心文件,实际耗时约二十一分钟。前端页面展示 实测开始,逐模型呈现数据。第二款, kimi k 二点五模型,同样的提示词,时间原因,我们加快四十倍速播放 生成文件,数量二十二个,满足前端工程框架基础开发需求,实际耗时约十二分钟。前端页面展示 实测开始,逐模型呈现数据。第三款, minimax m 二点七模型,同样的提示词,时间原因,我们加快三十倍速播放 生成文件数量二十四个,覆盖前端工程框架核心模块,实际耗时仅八分钟,耗时最短。前端页面展示 基于实测数据客观总结三点,一,文件产出量 g l m 五模型生成文件数量最多,覆盖最全面。二、开发效率, minimax m 二点七模型耗时最短,效率优势显著。 三、综合表现, kimi k 二点五模型文件数量与耗时均处于中间水平,表现均衡。 相同工具、相同提示词、相同需求下,不同模型的产出效率及文件覆盖度差异明显。作为前端开发者,你更看重 ai 生成的文件覆盖率还是开发效率?评论区留下你的真实使用体验。

日普的 g i m 为什么会突然出圈?会给算力带来哪些变化?又有哪些紧密合作的公司呢?我分三点来说。首先, g i m 是 大幅推动了 ai 软件工程的发展,以前是 web coding, 我 们称之为氛围编程或者是部分代码。 但是 g i m 实现了 agent engineering, 也就是智能体工程,或者说端到端的交付。整个软件工程我们不再通过 ai 写零散的代码、片段审查或者叫验,而是让 g i m 理解复杂的系统架构, 完成后端的重构和深度调试和交付。目前在该领域就没有其他的开源产品能够超过它。二、 g m 五还完成了对国产 ai 芯片算力的原生适配,明确支持的就有升腾海光含五、 g 摩尔、现成昆仑星、木曦穗源和天树之星,并且借助了 deepsea 的 dsa 机制,在推理性能上面也提升了二到三倍。质朴在一定程度上真实实现了英伟达芯片的突破。 且由于大量的开发者涌入,智普 gm 提交了百分之三十算力还是供不应求,因此紧急在年前开通的算力合伙人计划,希望借助分布式的算力解决海量的突发需求。三、智普比较紧密合作的公司有哪些?我所知道的就包括电广传媒 旗下基金持有了智普的股份,凌云光也参与了智普的 ipo, 华策影视也有少量股权和战略合作。首都在线是与智普共建了算力集群,神舟数码是给智普交付了 g l m 的 训练集群,自觉中国则提供数据看得信息,跟智普合作也比较紧密。或许我们将参与智普的算力合伙人计划 并持续分享报道。而软件部门我们明天开工后也将测试 g m, 在 我们开发 ai 直播和 ai 量化智能体上面看是否有真的重大突破。我们一起祝福和享受国产 ai 进步带来的红利,祝大家马年开年大吉!

母亲言新出了个模型啊,怎么样?这个模型他说说非常厉害。 jim 五吗?我看看啊,像有的官方说的,他的 humanity last exam exam 评分是比较高的啊,就拿这个评分来说啊啊,其实我们测一下会有很大的问题,你看一下这个屏幕,我看看 我们呃抽取了 horamis 的 mass 数据集,大概是一千多道,然后去测这个质朴清源拿这个呃正比奈,正比奈 flash 作为这个评判遇到一个什么问题呢?我发现他在解答这种数学类的问题的时候,他的思考时间头肯输出了将近两万,也就是说他两万还在思考都没有输出完, 所以说我们这个他根本就测不了,在我们看来,然后即使测的了的话,一次回答的成本大概在呃五毛钱左右,就一个问题大概在五毛钱,而且还两万都没有出答案,所以我们在想会不会是我们的测试出了问题, 于是我们又到了他的这个官方上,就试验了一下啊,现在还在跑是吧?我们这个数据集从呃几分钟之前就开始跑,呃直接停掉,然后我们可以往上拉,一直拉一直拉,就你就说他这个思考过程无限的延长,无限的思考,他虽然这个回复的内容是正确的,但是他貌似陷入了一个死循环的过程。 就是你是让他回答了一个问题是吧?数学问题, melodies 里边的一个数学 max 类别的问题啊,问题其实不复杂,他是一个单选,他有两两种类型,第一是选择题,第二是那个检查题。我们在问给他这个数学问题的时候,问了两道到三道,基本就是无限循环,然后他的费用基本在无限上涨, 所以我们我们也可能比较怀疑像这种评分它虽然很高,有没有可能它的思考过程会非常的长,可能是无限的,也他可能把这个给忽略了,他能思考一个问题,思考五分钟出了一个答案。我们也测了一下,像 jimmy、 nike 这种可能也就几秒钟就出答了,所以它会存在这样一个差异点, 所以说它这个评价体系稍微有点问题。也不算吧,我们后续可能还会对这些整体评价再整体测评一下,至少我们现在现在来看还是跟大家想的差别很大, 太大了。数学问题你要等个十几分钟去给你解出来。那我都做完了,你自己都做完了,哈哈哈,考试都结束了是吧?该交卷了。对,我们也建议在啊,我们建议在回答的时候还是把这种时间这个综合的都考虑进去。

天呐,没想到小米居然在偷偷搞 ai! 当国内大厂都在围绕着 open core 搞事情的时候,有一款神秘的大模型已经在 openroot 上悄悄霸榜了 一段时间。大家一开始都在猜呀,这是不是 deepsea v 四的提前试水呢?结果昨天深夜,小米自己来认领了 来,这就是他们专门面对 age 时代推出的新一代模型,叫做 memo v two pro。 跟他一起发布的还有面向多模态场景的 memo v two omni, 以及超女人语音大模型 memo v two tts。 这也正如雷总今天发微博官宣时说的,小米在 ai 这件事上一直比较低调,但实际的进展可能比很多人想象都快得多,这次确实有点一鸣惊人的意思。而且 mobile v two pro 的 定位也很明确,它不是那种只陪你聊天的模型,而是专门充着 a 准的 执行能力去的。总参数呢,超过一千 b, 激活参数四十二 b, 还支持百万上下窗口明显就是冲着复杂任务练和长工作流来的。那今天呢,参数我就不念了,我直接拿出祖传的测试题来考考这颗 ai 领域的操心心。 我们先来看一下它 a p i 的 界面啊,他说呢,目前是首周呢,就可以免费的试用,而且他自己这里也说了,要推向 a 准的时 在,所以呢,用来养龙虾应该是挺爽的。那是不是一直先进行一些对话的测试?它这个界面叫做小米 miimo 的 studio, 左上角呢,有几个模型选择,有这个最新的 v two pro 和 v two omni, 我 们选这个 v two pro 看一下。首先来一个难倒很多大模型的一个思考题,我想洗车,我家离洗车店五十米,我是开车去还是走路去?他正在思考当中, 我给他深度思考了十七点六秒,给我的回答呢,也是正确的,就是洗车通常都把车开到洗车店,而且还告诉我可以去咨询一下可不可以上门取车。第一条测试题是通过的, 那第二个测试题我就上点难度考,他试图并且呢破解密码的能力,他正在思考,用十九点六秒,哎,但是他没有 给我一个答案,也就是说这一道题它是翻车了,就没有破解这三个数字有可能是用的这个模型,它不是多模态的,我试一下切换一个模 型,比如说我切换这个,再来一遍这个就开始解题了,用时三十一点六秒,最终答案是正确的,所以你要多模态,就是不要选这个, be to omni 就 可以解决了。那接下来我再出第三题给大家,我又用回这个不是多模态的, 试一下。我上传一张车的图片啊,他提取不到,就是说我们这个 pro 的 模型,他识别不了这个图片,他只能识别文字,那就要用多模态这个了,那我用多模态这个上传这个 车的图片,问一下他这个车的基础信息以及售价。好在思考当中,他只用了五点七秒,他说这是红旗的 l 五,然后呢,这个官方指导价五百万人民币, 所以他识别图片查询信息也是没问题的。那接下来呢,我想测试一下他的代码能力,我用这个 pose 一下,我要做贪吃蛇这个网页的游戏,看一下他能不能做啊。哦,他很快就开始做了, ok, 貌似他已经做出来了,我试一下玩。哎,开始可以玩了。哎呀,输掉了,重新开始 挺有趣的,所以前端代码这一趴也是过的。那我再给他一道题,就是我的字幕工作流贴给他,看他怎么反应,但是忘了切换多模态的。但没关系,我试一下,你看他是无法上传 mp 三,所以这个 pro 是 不能多模态的。我们切换到 v two omni 这里,把提示词再贴给他,然后上传音频 发送不了,是太长还是怎么样?不知道为什么,反正我这个音频发送不出去,这里是灰色的,我试一下换一个 也是不行的。 mp 三无法发送给他,那我这个字幕的工作留在这边就搞不定。看一下它这里有个录音,我们试一下。 hello, 你 好, 我正在测试小米的 miimo v two pro, 哎,它果然这边有一个录好的 mp 三,但是也是发送不出去的。那它这个录音用来干嘛呢?搞不懂,不知道我有什么操作错误的。反正就是 mp 三,它能够上传,但是无法发送给它。 ok, 不 管它直播的工作流搞不定。那音频不可以,视频可以吗?我试一下, 超过二十 m 就 没法上传,那这个就没什么用处了,就不用管他了。那最后我们来测试一下 memo call, 立即创建,继续创建,需要 等约两分钟。 ok, 已经创建成功了,右上角有一个倒计时,就是这个测试只有三十分钟。帮我找到今天全球五条热门 ai 新闻,并且用语音的形式播报 给我,看他能不能做到。好,他开始干活了,他已经收集到今天的热门新闻,现在生成语音播报,语音已经保存在工作目录,可以播放收听,但问题是你的工作目录在哪里呢?工作目录在哪里? 问一下他,他这个地址应该在沙河里面的,我要不就直接让他发给我吧,你把通过链接的方式发给我, 他说他没办法给到我这个,那就再试一个方法,把音频上传到任意公开的网盘, 然后给我下载链接,看他能不能办到。 ok, 他 给我这个链接了,看一下是不是真的可以试一下这个 catbox, 然后直接访问, ok, 看能不能下载允许。大家好,以下是二零二六年三月十九日,全球 ai 领域五大热门新, 果然可以第一 open ai 开启战略收缩。 ok, 我 们来总结一下,刚刚我让他生成五条 ai 热门新闻,并且用语音播报形式给我,他说呢,已经做好了,但是我是访问不到他这个工作 目录的,然后我就让他提供一个下载链接给我,他说他没办法办到,我再想一个办法,就是上传到公开网盘,这个方式呢就刚刚好。所以呢,就是只要跟他多对话,其实他也是能够解决问题的,还是蛮不错的我感觉。 那我们最后再看一下它的价格啊,输入从一美元到两美元,输出呢,从三美元到六美元。那如果他跟这个 crook 对 比呢?整体确实是比他便宜很多 的,那经过刚刚的测试,我们可以看到小米这一波,至少呢,不是来凑热闹的,他真正想抢的已经不是谁更会聊天这个赛道了,而是下一个阶段 谁能替人干活。以前我们用 ai 本质上是在问答,你提一个问题,他回你一段话,那现在的所有大模型明显已经在往另一条路上走了。不是回答你,而是开始替你执行了。所以这是小米最值得关注的,不是他加入了大 大模型的队伍,而是他在告诉所有人, ai 的 下半场已经不是聊天了,而是执行。谁能把 ai 从会说做成会做,谁才能真正摸到了 a 准时代的门把手。你已经开始测试了吗?感觉怎么样?我们评论区里聊一下。 ok, 以上就是今天的所有内容,我们下期再见。

g l m 五, mini max, k 二点五三个模型用哪个写扣的比较好一点?我看了一下这个,三个都差不多,这个我自己用的感受是这样,排名是 g l m 五好一点,那 mini max 我 觉得它的性价比会高一点,速度会快一点,因为它模型轻。我现在用的是 mini max 二点五, m 二 是 m 二点五的模型做我的写代码的机做模型有些比较复杂的问题,那可能还会要用更好的模型去用。

给大家来介绍一下智普 g l m 的 技术白皮书,那它这个技术白皮书里面还是详细介绍了一下 g l m 五这个模型到底是怎么训练出来的,到底有哪些创新点。最近在春节前有大量的模型开源和发布,特别是中国的一些公司,他们 发布了大量的这些模型,有 kimi k 二点五,有 g l m 五,有同一千万对吧,有 mini max 的 m 二点五等等,那么一系列的模型 给大家看的眼花缭乱,那么到底哪个模型最强?我们先给大家先看一看,这个是全球一个比较有名的这样一个榜单,当然大家在 glm 五的技术白皮书里面,他也引用了这样的一个榜单,他这个叫 他是专门做全球的模型做排名的这样一个榜单。那么这个榜单里面我们给大家看一下他目前今天是二月十九号,到目前为止 glm 五他目前还是排在第一位的,在这个上面都是些商业的模型, 那么 g l m 五它确实在开源里面排名是第一的,排在它下面的是 kimi k 二点五。金肯,你也可以看到最近刚刚发布, 春节期间刚刚发布的同一千万三点五三九七币 active 十七币的这个新模型,那么目前是二十名,应该是排在 kimi k 二点五下面的,说明这个模型也是不错,但是 g l m 五目前是在开源模型里面暂时排名第一的,上次我们介绍的时候还是 kimi k 二点五还是排名第一的,现在 g l m 五排名, 那等于是当然它这种领先也是暂时的,因为不断的会有新的模型,开源的模型会去挑战这些老的模型,这个模型确实在技术白皮书里面讲了,它在 text, 在 文本类和在写代码的这个领域里面确实能力非常出众。 它在技术白皮书里面,首先它还是给我们介绍了一下跟不同的大模型,特别是中国比较有名的 deepsea v 三点二那通 deepsea 模型目前因为好久没有发布了,所以它基本上已经是落后了, 包包括 open ai。 open ai 的 话,最近在全球的这些大模型的榜单上面,你可以你也可以看到基本上也已经处于落后的这种排名已经跌出前十了。 前面的模型的话,主要是 cloud 和 google 的 germany 三 rock 这些模型为主了,包括还有一个是 c c 的 这个这个应该是字节的吧,这个 这些模型为主了。其他的像 open ai 的 模型的话,就 g p g 五点一 high 这个模型已经排在第十一位了,这个 所以整个大模型的话呢,竞争还是比较激烈的。当然 g m 五的话,应该来讲排名还是不错的,排名还是不错的,它这个特别它在这个技术白皮书里,它还讲了他们在之前发布模型的时候呢,它是用一种匿名的方式,叫叫 tony arfa, 它发布在这个这个 open loop 上面,匿名发布了这样一个模型,那么它担心呢,就是它们这些模型发布出来会有些偏见,所以的话呢,它就是 通过匿名的方式先向社区去发布出来,然后给大家用。那么发布出来之后的话,很多人就是认为这个模型因为性能非常好了,可能是 cloud 索尼五或者 rock 新的版本,或者 deepsea 的 v 四啊称很少人认为这个是 g l m 五 这个模型的,但最后的话呢,这个 tony alpha 它后来就公布出来,这经过大家测试完之后,它就公布出来这个就是 g l m 五。所以我觉得啊,目前这个 清华智普的 g m 五的这样的一个模型应该来讲还是不错的,因为他们敢匿名发布,那么说明他对这个模型的信心还是比较高的。这是技术白皮书里面的第一个,讲一下他的这个模型的性能。那么第二个的话呢,我们给大家介绍一下,就这个模型的话,他为什么这么强?在开源里面他为什么这么强?第一个的话呢,他用了 deepsea 的 这个稀疏注意力机制,叫 d s a。 这个我们之前在 deepsea 的 技术白皮书里面会给大家讲,所以的话呢, g l m 五它很快就是 follow, 就是 跟随了这个 deepsea 的 这个技术的路线,用了 d s a 的 这个架构,那这样的话呢,可以让它整个推理的性能和效率会更高,是一个比较关键的。那么第二个的话呢,它在这个 训练的这个过程当中,它也讲了一些特色的啊,主要的话呢,还是在我觉得最大的特色还是在于强化学习,它强化学习的话呢,有 有两部分,一部分的话呢就是推理的强化学习,还有一部分呢,他加强了这个智能体的强化学习,还有一个呢,就是通用的一些强化学习,他把强化学习分成了三个部分啊,但是那在这个强化学习过程当中的话呢,经常会发现这个能力退化的这样一个问题,就是你每个阶段训练完, 上一阶段的能力会退化,整个模型的能力会退化,所以这个地方他用了一个比较好的一个方式和方法。他这个里面讲了一下,通过这个跨阶段的蒸流,是让上个阶段的模型 作为老师,然后蒸留给下个阶段的这个模型,或者是给他监督,就是监督他这个下下一阶段的这样的一个回答到底准不准?通过这种方式,通过蒸馏的这种方式,大阶段的蒸馏方式既保留了 不同阶段强化学习的这样一个能力,从而使他的这个模型的这个能力就会非常强。那么他在这个强化学习过程当中呢,他特别加强了这个智能体的强化学习,那这一部分是比较重要的,因为现在的智能体大模型一般都会用智能体,用的会非常多,特别还是多智能体多轮对话,所以的话呢,他在 强化学习当中重点加强了这个智能体的强化学习,他这一部分,他在这,他在这一部分里面做这部分工作的时候呢,他也用了他们的新的这个架构,他这个里面也讲了他在 g l m 四点五里面就开始用了叫 sling 这样的一个强化学习的一个基础设施的一个架构啊,继续在 g l m 里面五里面还是继续在用它,等于 是所以这个模型应该来讲还是非常有特色的,所以它这个模型强还是有道理的。第一个他就就是讲了它是吸收消化了 这个 deepsea 的 这种比较好的,效率比较高的这种模型的架构,同时的话呢,他又进一步去强化了他智能体的这个强化学习。那那通过这种增流,跨阶段的增流的这种方式,然后让不同阶段的强化学习的这个能力都能够加强。当然他要完成这样的一个工作,他也用了他们自己的框架啊, 叫 slime 这样的一个框架啊。当然他在做这个强智能体强化学习里面,他会把各种各样的 大模型怎么利用搜索的智能体怎么利用终端的这个命令行的这个能力,他都做了一些加强,特别还加强了这个 ppt、 ppt 的 这个能力,写代码的能力, 做搜索的这种能力,他都在这个方面做了大规模的加强。那么在技术白皮书里面,他还特地强调了 glm, 它适配了中国的一些 ai 芯片的一些技术架构,这里面讲几乎适配了中国所有的 这些 ai 芯片。像这个我们了解的比较多的,像一些华为对吧?华为升腾摩尔现成对吧?韩五、 g、 昆仑星这个是还有些木兮等等,这 这些公司他都做了这些中国芯片的适配,所以他在这个方面应该也是对整个中国芯片产业来讲,应该都可以去跑 g m 的 这样一个大模型,应该也是目前开源排名第一的非常不错的一个模型。 好,那么我们总结一下这个这篇技术润这篇 g l m 的 这个技术白皮书,总体来讲 g l m 跟 g l m 四点五来讲,它的能力有了一个比较大的跃升,而且目前在这个写代码的能力,在智能体的这个能力上面都是非常强有竞争力的这样一个模型,而且是免费商用,可以开源,跟中国所有的 ai 芯片可以多适配,所以的话呢,它应该是一个 非常不错,企业级非常不错的这样一个选择。好,那今天我们这样一篇技术的白皮书及 am 五的技术白皮书就给大家介绍到这。

为什么在 openroot 里面小米这个排名这么靠前,而 gm 这么靠后呢?这个模型它编写能力不是很强吗?为什么在这个地方感觉都排到屁股上去了? 是因为它实际效果没那么好吗?还是为啥大家都不愿意去用它呢?反而这个 mini max 我 感觉也一般,但是它反而能够成为第一。

给大家测试了一下本地部署的 mini max 二点五,所以你们就不用自己测了。使用的是 lm studio iq 三 xxs 量化版, 显存需求在六万上下文的情况下大概是九十三 g。 具体的得分和测试项目的演示可以在我的个人网站查看。得分的情况是这样的,综合来看,非常接近 cloudsonnet 四 taxon 六边形小球的演示是这样的,似乎小球都在六边形外。 html 手机操作系统模拟器是这个效果。要说不说,这个效果可以说中规中矩。 总结一下, mini max 二点五的参数量稍稍有些大,在一百二十八 g 的 内存里没法跑到四比特量化的,这似乎导致其性能严重的下降, 但是作为一个本地模型,整体还是一个非常可用的状态。但是我为什么不选参数量更小,推理速度更快的 glm 四点七 flash 呢?

果然呐, ai 圈的二三月份呢,是从不缺大卦的,但今天这个,那所有关注 ai 的 人全被打脸了。还记得去年二零二五年二三月份吗? deepsea 横空出世, 直接成为去年 ai 圈的最大黑马。而这个月,养龙虾的热潮刚过啊,又一个匿名的 ai 模型突然杀出来,迅速刷屏了整个开发者圈,他没做任何的宣传哦,高容量却语录的标榜,所有的开发者和 ai 博转都集体的猜谜,清一色的认定哦,这绝对是 deepsea 的 v 四内测版, 毕竟时间点太长了。但没人会想到啊,答案会颠覆所有人的预期。今天凌晨呢,小米直接官宣揭幕了,迷你彻底曝光!这个让全网封杀的匿名模型根本不是 dmix, 而是小米全新发布的 miibo v 二系列,没想到吧,是不是很惊讶,小米竟然能有这样的技术水平。我看了下全网的热议,很多博主还在纠结什么万亿参数,什么榜单排名,什么对比 gbt 跑分,说实话, 如果还停留在这个维度,基本上是没说到点位上的。简单的说,现在的 ai 战场呢,其实只分两种物种,第一种叫黑人,也就是反意识 ai, 简单说就是工具人,你说一句他看一句被迫执行没指令就禁止了。 ai 圈对他的期待呢,是成为有感知力的观察者, 能看能听,能理解这个物理世界,这就是物理 ai 的 核心方向。而第二种叫 hunter, 也就是主动式 ai, 简单说就是猎人,不需要你手把手的去教他,你只要给他一个目标,他自己拆解任务,调用工具,直到闭环搞定,结果 突出的是任务规划,自主决策、多步执行的能力,强调的是积极性。而全网风拆的这个匿名模型啊,就是小米密某 v 二 c 里面的猎人版本, 也是这次发布会的绝对看点了。更关键的是,小米此次啊,一次性发布了三款 mini v 二的系列模型,直接覆盖了猎人与工具的两种 ai 形态,实力呢是直接拉满的。为此啊,范阳 beyond 的 高盛同行啊,今天也紧急发布了一份年报,直接力挺小米。 这份年报的核心呢,就围绕着三个问题展开,第一,这次小米发布了什么大招?第二,为什么这波发布啊,在商业上是极其重要的。第三,这些 ai 能力怎么落地变现,咱们一个个说清楚啊。第一个问题, 小米发了什么大招?就这这三款覆盖了猎人与工具人形态的 mimo v 二系列大模型,实力呢是直接冲进了全球第八,国内第二。第二个问题,为什么商业上极其重要?高层的研报明确指出啊,小米的模型成本远低于同类巨型成本呢?比 glm 大 约还要低百分之三十六, 直接拉低了顶 g i 的 商业门槛。注意,这一点很重要的,只有足够的降低成本,才能探讨足够大的商业空间。第三个问题, 这些 ai 能力呢,怎么落地变现?小米可以直接把 ai 落地到他的手机、汽车、智能设备等物理场景的,说白了, ai 正在全面的接管小美的人车加权状态, 从单纯的文本理解接管,到能看能听、能手动操作的实体智能阶段,这里是物理 ai 的 真正价值。但高盛也点出了一个短期财报上的注意点, 今年小米 ai 的 研发投入呢,预期要达四百亿左右。意思是啊,短期或许会拖累他的账面利润,但我认为这是必经的阵痛。 更重要的是,这波投入呢,或许会彻底重构小米的估值逻辑,从硬件公司的估值,进化成拥有自研 ai o s 芯片全站能力的全球物理 ai 巨头。 也正是这样的布局和突破啊,让二三月份的 ai 圈始终充满惊喜。从去年的 deepsea, 到今年的龙虾热,到今天的小米 ai 模型,每一次的 ai 大 事件都让人眼前一亮。当然,还有今晚要发布的新款小米书籍,也可以关注一下评论区,聊聊。你觉得小米这波练 ai 呀,能改写 ai 圈的现有格局吗?

中国这些 ai 厂商太坏了啊,昨天二十四小时之内啊,中国三个旗舰大模型同时炸场,这完全都不让人过年啊,去年的 deepsea 就 一家赶着春节发布,但是今年呢,全上了, 但是大家千万不要觉得这只是几个新模型的发布啊,比这几个模型更重要的是,从这几个模型的更新内容上面,我们能够看到二零二六年 ai 发展的一个重大的转型,那就是所有的厂商都在拼一个全新的能力,叫 agentic。 那 为什么是 agentic? 为什么所有的模型都在拼了命地去打造 agentic 的 能力? 原因呢?很简单,因为 agentic 才是在二零二六年真正的生产力。今天呢,我就尽量把这个问题用小白都听得懂的话跟大家详细的讲一讲,希望呢,能够对大家有所帮助。 先说一下 agentic 到底是啥啊?你现在用 ai, 你 不管用豆包,用 deepsea, 还是用拆 gpt? 其实很多时候啊,你都是这么去问的,对吧?你说句话,然后他回答你,然后你再说句话,他再回答,说白了呢,就是一个高级聊天框。但是 agentic 完全不一样, 你不用一步步的去问啊,你只要给他一个总目标,比如说你跟他说,帮我把这个软件里所有的 bug 找出来,修好,然后通过测试, 然后他就开始自己干了啊,他自己去修代码,自己定义问题,自己去修改,方案,自己去改,自己跑,测试没通过就自己调整,一直到全部搞定。而在整个过程中,你不用一步步的去提问,也完全不需要插手。 打个比方啊,传统的 ai 就是 一个前台,你问什么他就答什么,但是他不会主动帮你做任何事情。而 agentic ai 呢,他就是一个能独立干活的员工,你把任务交给他,他自己搞定,而在中间遇到的任何问题,他都会自己去解答。这就是 agentic 的 核心,他能自主完成复杂的任务。你有没有注意到一件事, g l m 五,它的口号是什么呢?是从 web coding 到 agent, 而 mini max m 二点五的口号是为真实世界的生产力而生。而 devic 虽然说没喊口号啊,但是一照的上下文,本质上就是在给 agent 铺路。 同一天,三家公司不约而同地压住同一个方向。为什么?因为 agentic 的 能力才是真正的生产力,尤其是在二零二六年。如果你想让 ai 真正成为你的数字员工,你就一定要知道什么是 agentic。 你想一想啊,一个只能聊天的 ai, 你 愿意为他付多少钱?大多数的人的回答就是,最好免费。因为事实上,现在各家的聊天机器人确实也在疯狂的打价格战,越来越便宜,甚至几乎都是免费。 但是,如果是一个能够帮你自主完成工作的 ai 呢?如果他一个小时可以呢?帮你做完一份财务报告,帮你搭一个网站,帮你处理完一整天的数据分析?那你觉得他就算不免费,你是不是也愿意去用? 企业的答案就是,愿意用,而且愿意给很多钱。这个逻辑啊,很简单,只有 agent 能力足够强,模型才能够帮用户干活,用户才愿意付费,公司呢,才能够活下去。但你可能会问啊, agent 能力到底靠啥实现呢?答案就是编程。 你看看最新这些模型的评测, s w e 奔驰考的就是真实项目里面自主修 bug, 其实就是编程 browscap, 它考的是自主操作,浏览器搜索信息,提取内容,浏览器的自动操作本质上也是编程。而工具调用考的是自主决定调用哪个接口,传什么参数,怎么处理返回结果。这还是编程?甚至啊, deepstack 把上下文啊拉到了一照最直接的术语场景啊, 也是让 agent 才能够在超大型的大码项目里面持续工作,而不至于失意。所以你有没有发现,这一天发布的所有的模型,大家在拼的其实都是编程能力,都是 agent 能力。而 agent 能力强不强,很大程度就取决于编程能力强不强,因为编程就是 agent 的 底层引擎。 而想明白这一点之后,我想再往前推一下啊,我想抛一个暴论,这个世界上的绝大部分事情,本质上都可以归结为编程。我知道,这听起来呢,非常的离谱啊,但是你跟着我的思想捋一捋, 编程的本质是什么?其实就是把一个需求通过一系列精准的步骤,然后变成一个可执行的结果。而我们现在的社会已经深度的数字化了,你每天点的外卖,刷的短视频,转的账,打的车啊,背后全是代码在驱动,你的工作,你的消费,你的社交,你的娱乐,几乎全部跑在软件系统上面。 而编辑和操作软件,它本身就是编程。所以呢,当 ai 的 编程能力足够强的时候,它能够影响的范围啊,就远远超过你的想象。我举几个例子你就明白了,比如说做 ppt, 写报告,你觉得跟编程有关系吗?其实本质啊,就是一种结构化的信息处理加格式化的输出, 你把散乱的素材整理成有逻辑的内容,再按照固定的格式排版出来,这个过程呢,跟写的数据处理程序没有区别。而且 ppt 本质上就是一个电脑的软件格式啊,所以任何一个 ai 编程的软件,它都能写 ppt, 像 glm 五啊,像 m 二点五,这一次呢,都在卷。所谓的 office 能力,就是直接生成 word 呀, pdf 啊, excel 文件,就是因为这些事情的底层驱动啊,和编程没有区别。 而财务对吧?财务的建模本质就是数据处理加工式的这个逻辑,一张 excel 表,里面几百个单元格,互相引用,层层计算,这本身其实就是一个程序在运行。 m 二点五呢,专门跟金融行业的资深专家合作去训练这个能力。再说一个你可能完全想不到的就是医生开方, 比如说你去看一个医生啊,他给你望闻问切,实际上就是在收集数据,然后根据你的症状组合,在脑子里面匹配对应的症型,然后开出方子。而这个过程呢,其实跟收集输入、匹配规则、输出结果在逻辑上完全一样。 甚至做饭啊,菜谱,其实就是一个程序,输入原料,按照步骤执行操作,控制火候和时间这些参数,输出一道菜。所以你看那些做菜比较好的那些电器啊,比如说一些好的电饭煲,它里面都会用程序这个词,就是设定程序,然后按照程序来给你煮饭, 你说大厨凭感觉,但实际上它的背后就是几千次重复执行形成的参数经验,你用这个视角来重新看世界,你就会发现,几乎所有的事情都可以拆解成输入,处理输出,而这就是编程。 所以,当 ai 的 agent 能力越来越强,尤其是编程能力越来越强的时候,它能渗透的领域是无限的,它不仅仅是帮程序员去写代码,而是帮所有的人把事情做成。这就是为什么所有的模型都在拼命地提升 agent 能力,因为这条路的尽头就是通用的生产力。 之前在视频里我也聊过 opencloud skill 系统,很多人呢,觉得 skill 很 强大,确实强大,但是 skill 再强大,它的底层驱动还是模型的 agent 能力。 你可以这么理解啊, skill 呢,是一份工作说明书,而模型的 agent 能力呢,就是执行这份说明书的人。说明书呢,写的再好,执行的人能力不强啊,那结果也不会好。所以今天这三个模型的进步,对于每一个用 ai 工具的人呢,都有直接的意义。 模型的 agent 能力多强一分,你手里的 ai 工具就能多帮你干点活,它的性价比呢,就会更高。所以二零二六年啊, ai 的 竞争完全不是比谁更能聊天。而对于我们每个普通人来讲, agent 时代它真正的意义就一句话, 不是让你去学编程,而是 ai 替你编程,直接替你把工作完成。以上来自我的 ai 成长圈的日课,已经加了成长圈的朋友可以去看一下,我是 c 哥,点赞关注,咱们下期见!

最近啊,小米一下子就发布了三款大模型,而且这名字还都挺像的,估计很多人都看的一头雾水吧。所以今天咱们就来把这三款模型掰开揉碎了,讲讲它们到底都是干嘛的,以及它们为什么这么重要。 哎,要我说呀,想搞明白这三个模型,咱们得换个思路,别把他们看成是三个独立的东西。咱们不妨想象一下,他们其实共同构成了一个完整的数字生命体, 他有负责思考的大脑,有负责感知和行动的感官和手,还有负责表达的生硬。这么一来,他们的分工是不是就清楚多了?好,咱们一个一个来看。 好,那咱们就先从这个生命体的核心开始,它的大脑,也就是这个 miimo v 二 pro 模型。 首先啊,这个 pro 的 块头那可真不是一般的大,它的总参数量啊,超过了一万亿, 你可以把参数想象成 ai 大 脑里的神经元连接点,这个数量越多呢,理论上它能学到和处理的东西就越复杂。一万亿这个数直接就让它进入了顶级旗舰模型的俱乐部。 但是最有意思的地方来了,你看,虽然他总共有一万亿个参数,可每次处理任务的时候,真正被叫醒起来干活的只有四百二十一个。这就好比一个超级学霸,但他解一道题的时候,并不会把毕生所学全都调动起来。 哎,这就奇怪了对吧?这到底是怎么做到的呢?这个背后的黑科技啊,其实叫做吸说激活, 你看浣灯片上这个工具箱的比喻就特别形象,你想想,你有一个装了一万亿件工具的超级大工具箱,那你每次修个东西,总不能把整个箱子都扛出来吧?你可能是根据要干的活,挑出最顺手的那四千零二十亿件工具就行了。 就是这么个道理,让模型既保留了巨大的潜力,又变得非常高效。这种高效率的背后,其实是一个核心设计思路的转变。 mimo v two pro 的 目标已经不只是当一个陪你聊天的机器人了,它想成为一个能真正帮你把事给办了的智能体。 这两者的区别啊,可是天差地别。聊天机器人是回答你的问题,而智能体是完成你的任务, 前者帮你写个 ppt, 后者是能帮你把整个项目给搭起来。这么说吧,它更像一个能独当一面儿的高级工程师,而不是一个简单的问答机, 光说不练假把式对吧?它的硬实力也是有数据支撑的。在全球一个很权威的大模型排行榜 artificial analysis 上, miu v two pro 排到了全球第八,国内第二。 这个成绩基本上就意味着它已经和像 cloud、 四点五 jimmy、 三点零 pro 这些世界顶级的模型站在同一条起跑线上了。 ok, 说完了大脑啊,咱们再来看看这个数字生命体的其他部分,它的眼睛、耳朵,还有手,所有这些能力都集合在了这个 miimo onee two omni 模型里。 那么你可能会问,这全模态智能体跟咱们平时听说的多模态模型到底有啥不一样呢? 简单来说啊,以前的模型核心能力是理解,他能看懂图,听懂声音,那他就像个旁观者,只能看不能动。而这个 omni 呢,他不光能理解,他还能行动, 他能像一个真的人一样去调用各种软件工具,甚至直接操作电脑的图形界面。 咱们来看个真实例子,你就明白了。比如说,你让他去完成一个购物任务,他能自己控制拨览器,先上社交媒体,看看大家都在推荐什么,做做功课。 然后呢,自己跳转到电商网站去比较价格最绝的是什么呢?他还能点开 online 客服的聊天窗口,用打字的方式跟一个真人客服去讨价还价,最后完成下单。 而且在整个过程中,网站那些防机器人的验证码什么的,它还能自己想办法绕过去,这就非常厉害了。 还不止这些,它的创造力也挺吓人的。比如你让它从零开始给你做个 tiktok 视频,它能自己设计出四个完全不同的场景,视频里需要的所有音效它都能自己合成,根本不需要你提供素材。 制作过程中要是遇到了字体显示错误这种 bug, 它还能自己调试修复,最后再自己控制浏览器,把视频上传,填好标题,点击发布,甚至发布完了还自己去点个赞,留个言,整个流程一气呵成,就像个专业的视频博主。 好,现在我们这个 ai 啊,能想能干了,但是还缺点啥?没错,它还需要一个声音。这就轮到咱们的第三个模型出场了,咪蒙 vs t t s 这个模型最大的一个亮点就是彻底颠覆了我们以前控制 ai 说话的方式。 以前呢,你要是想让合成的声音带点感情,那就得写一堆像代码一样复杂的东西。现在呢,完全不需要了, 你就用大白话像跟朋友聊天一样,直接描述你想要的风格就行。比如你就告诉他来个慵懒的,刚睡醒,那种声音带点沙哑,他就懂了。 这种用自然语言来控制的方式可玩性就太高了。你可以让他模仿孙悟空说话,或者来一段地道的东北话,可以是那种深沉醇厚、语速放慢的补音腔,他的理解能力和表现力都相当可以。 更厉害的是什么呢?他不只是听懂了你说的话,他还能看懂你写的字。比如说你输入一行全部大写的英文,他就会自动加重语气去读。 你要是输入一连串的,不不不不不,他会用一种很自然的带情绪的节奏说出来,而不是像机器人一样一个字一个字的蹦。甚至他还能在说话的时候自己判断在什么地方该加入笑声、咳嗽声或者一声叹气,让整个表达听起来无限接近一个真正的人。 好了,大脑、感官、声音这三样东西都切了,那回到最实际的问题,在咱们日常的工作和生活中,面对不同的需求,到底该怎么选择最合适的工具呢? 来,咱们最后做个总结,这张图帮你搞清楚到底该怎么选。如果你要干的活是需要复杂推理、写代码,或者把一堆繁琐的工作自动化,那毫无疑问选作为大脑的 pro。 如果你的任务需要 ai, 能看能听,还能动手操作电脑,比如控制各种软件,那就得选作为感官和手的 omni。 而如果你只是需要一个高质量而且能随心所欲控制风格的配音工具,那作为声音的 tts 就是 你的不二之选。 最后呢,关键的来了,看一眼价格, pro 最强也最贵, omni 的 性价比非常高,而 t t s 目前是限时免费,大家完全可以去试试看。 所以你看,咱们绕了一圈,又回到了最初那个比喻,当人工智能已经拥有了用来思考的大脑,用来行动的感官,还有用来表达的声音,一个完整的数字生命体,可以说已经初具雏形了。那么我们不禁要问,下一步我们将会创造出什么样的东西呢?

各位科研小伙伴们大家好,那么今天我们来分享一期关于这个 ppt skills, 结合我们国产的 mini max, 还有 glm 五,或者是我们的 c c 四点六,以及我们的 codex 六点四,怎么去十分钟生成我们一个可编辑的科研汇报 ppt, 以及我们前端的一些动画展示的前端 ppt。 好,那么在给大家具体分享这个具体的实操之前,我们先看一下我利用这个 cc 四点六结合我们的 ppt skills, 然后生成的一个结合我们上传的一个文献,然后生成的一个可编辑的 ppt。 那 么带领大家先快速的去看一遍哈,我们可以来看一下, 然后这是目录哈,结合我们的文献,我让他分享这个文献里面的具体内容,然后生成的一个可编辑的 ppt, 那 么大家可以看一下这个具体的这个内容哈,可以看到这个效果相对于我们人工去手搓的话,它这个效率啊,以及它的整个这个排版的精准度,我觉得 嗯,是还可以的哈,还可以的,那么这个效果我选的是这个简约风,那么整体的这个排版大家可以看一下。 好,那么这个 ppt 其实在昨天我已经分享了一期啊,但是由于这个呃某种原因在这里,嗯,不太好分享,所以我又重新录制今天这一期视频, 那么可以看到这个 ppt 是 现在我优化过的一个 ppt 啊,那么在之前昨天我其实应该是想去讲这个哈,我们可以看到这个是我没有优化之前的 ppt, 大家可以看到跟我们刚才相比, 你可以明显能看出它的一个区别哈,首先是这个 ppt 它之间是有点文字有点多,包括它整个排版,它这个内容它稍微相比于我。呃,这一期优化的 ppt, 它这内容是有点多的哈,是稍微有点溶于的哈,可以看到它文字非常多。 好,那么今天这一期主要是带领大家去快速的去结合我们给大家准备的这个文档哈,怎么去快速调用我们的 skills, 然后去 进行这个 ppt 的 一个生成哈,包括还有什么呢?还有我们我们去生成我们前端一些动画页面,大家可以看到这个 ppt 是 根据我刚才的 ppt 去让它去生成一个前端的这种交互动画,这种 前端展示啊,展示我这种文档,我们可以看到这个文档,它里面这个交互动画呀,可以相对于我们以前用普通的这种 ppt 的 话,它整个交互形式啊,包括它的整个这种色彩搭配啊,以及它整个的排版, 大家可以看到就是稍微这个字体稍微有点小啊,我觉得这个地方在我们去演示的时候,他包括这种动画呀,以及他这种整个的排版,我觉得相对于,嗯我们可编辑的具体他也是另外一种方式,可以去展示我们所 看到的一些内容。好,可以看到这个地方一共二十一页啊,二十一页包括讨论呢,还有讨论结论 以及我们的未来展望,还有我们的参考文献啊,可以看到整个的这个排版是可以通过我们侧边这里去进行一个交互的哈,可以进行实时跳转。 那么有时候假如说不想用我们普通的方式去有这种方式去分享的话,我们可以去选择这个前端方式去进行一个展示啊,那么呃,要想实现主播这个效果哈,我们主要是利用到我们首先你得需要一个 终端工具哈,就是我们的这个 cccloud 哈,这地方我就不说全称了啊,那么这地方我这个教程里面都有哈,你可以根据我的安装教程,那么你首先需要一个 note g s 去安装我们的 cc 啊, 安装 cc, 然后另外就是我们可以通过这地方我给大家有教程,你可以按照这个教程来,我就是按照这个根据这个教程来安装我这个 cc 的 哈, 然后另外就是配置我们的这个模型哈,那么你国产的话,我们这个 mini max 二点五,还有我们的 g l g l m 五,它的这个效果都是不错的哈,我已经测试过了,那么有能力的话,你可以去选择去选择这个 cc 四点六或者是 codex 五点四哈,那么相对来说我目前是这么多模型的话,还是这个 cc 四点六是比较强的哈,整个这个交互能力是比较强的,所以看个人选择哈。国内的话,你就可以用这个 mini max 二点五去试用, 那么你安装完这个 cc 之后,然后通过我们这个工具 cc 思维器,把你的这个密钥去接入到我们这个终端工具上啊,终端工具上,然后紧接着我们干什么呢?紧接着我们去这个网站里面,去我们这个 skus 这个 s a 企业网站去下载这个 pdf 这个技能库啊, 那么你下载完之后,那我们在终端命令去,这样的时候我们就可以通过斜杠啊,那么你下载完之后,那我们在终端命令去,这样的时候我们就可以通过斜杠啊,那么你下载完之后有 ppt, 还有这个 pdf, 还有这个, 还有 word 格式的六 c x, 哈,那么你分别调用不同的技能,那么你就可以对这个文档进行不同的操作,那么我们要用到的技能库就是这个 ppt x, 那 么结合你的国产模型,或者是四十四点六, 然后去输入你对应的一个指令啊,那么这个指令在我这个文档里面都有都有,那么你可以去尝试去试用,那么包括你也可以让这个模型去根据这个文档,结合你自己的研究方向,还有你上传的文件内容,那么你可以去让它生成自己独有的这种指令哈,这种指令 没有说一套指令能够完美的适配所有的方向,只有你自己去慢慢的去摸索,找出一个适合自己的这种指令,那么你以后就可以拿这个指令去生成一个属于自己的风格的一些模板啊, 包括你后面,比如说你想去提取这个论文里面啊,论文里面的这种,比如说文字信息,还有我们这个图片信息,表格信息,那么你可以把这个图片是吧先告诉他干什么呢?利用这个 pdf sqs, 先让他去提取我们这个上传的文献中的图片,然后利用这些图片 去让他去提取,并且插入到你所对应的这个模板里面,那么他最后生成的模板里面就会引用你这个文件里面的一些真实图,真实图片包括一些数据信息都是真实的啊,那么你也可以让他自己去提取,包括这里面的数据提取都是非常准确的啊,刚才已经比对过了。好, 那么这地方你安装完这个 q 字哈,比如说你想生成这个前端的这种交互页面,就类似于主播刚才所演示的这种效果哈, 就这种这种的话,需要用到我们另外一个。 excuse 啊,比如这个叫前端换能片,那么你在生成完这个前端换能片之后,它的交互能力比它里面动画是比较少的哈,它里面动画是比较少,那么你想如何去给它增加一个动画的话,那就只能用 找这个里面的。 excuse 啊,把它利用这个终端命令去把它安装到我们的这个这地方都有安装命令,你把它安装到你这个终端命令里面,然后同样的你也可以去调用它去,比如这地方我们可以去调用它,比如说放它啊,放问题,我这地方有这个 有这个命令哈,然后把你刚才所做的 ppt 让它进行一个转换,官方有这个命令档,包括我的文档里面都有,那么你让它转换完之后,那么就可以产生就是类似于主播这样子,这种交互式的, 交互式的 ppt 展示啊,我们这种你去做这种个人分享啊,或者是这个播客分享或者视频剪辑,都是可以去使用的哈, 好,那么啊,由于这个限制太多,所以我今天具体的细节我就先不讲哈,具体的文档在我的 这个群主页都是免费领取的啊,如果觉得这期视频对你有用的话,可以点赞收藏啊,那么我们下期可以给家大家继续分享,包括我们利用不同的模型去展示,结合我们的 pdsq 去对比一下,同样的我们同样的制定同样的文献,然后 同样的 skills, 然后不同的模型,我们去可以去对比展示一下,不同模型所产生就是所做出来的 ppt 它的一个好坏啊。 好,那么今天就是我以上的分享哈,然后包括这个指令,呃,我后续都会更新到我前面一期所分享那个科研指令包里面哈,当然这一期的话是我们免费分享的哈,因为后面我会针针对 不同的领域,我会优化出一个更加合适的每个领域不同的一些 ppt 的 这种提词词,那么你也可以有能力的话,你也可以自己去 结合自己的研究方向去做一些针对自己的 ppt, 一 些提词词都是可以的啊。好,那么今天的分享就先到这里啊,那我们下期再见,谢谢大家。