今天要跟大家聊的呢是关于这个小米的,这个米某啊首次对外公开了这个模型推理系统全链路的这个优化的技术细节,那我们会从这个核心的架构的设计,到这个工程化实践的五大突破,再到最后我们会聊一聊这个技术对于用户和对于整个行业的意义。没错没错,这期内容呢,我们准备的非常的充分啊, 那我们就开始吧,咱们先进入第一个部分啊,就是核心架构揭秘。嗯啊,咱们今天第一个要聊的就是这个 hybrid sw a 这个架构到底是怎么帮我们降低这个大模型推理的这个核心开销的? hybrid sw a s 其实它就是一个把这个全注意力层和这个滑动窗口注意力层按一定的比例去混合。 比如说像这个 mimo v 二点五 pro, 它是七十层的 transformer, 它只有十层是用的全注意力,然后剩下的六十层全部都是用的这个窗口大小为一百二十八的这个滑动窗口注意力。 那这样的话,它这个 k v cash 就 可以只存最近的一百二十八的 token 信息,那这个存储的开销一下子就缩小到了原来的七分之一。 哦,那这个 prefill 和 decode 这两个阶段的效率是不是也提升了?没错没错,就是因为这个 s w a 层,它的这个注意力的计算量也变成了一个长数,就是跟这个输入的长度没有关系了,所以这个 prefill 这个阶段,它的这个计算成本也变成了原来的七分之一。 然后这个 deco 的 这个阶段呢,它的这个延迟也降低了,就是因为它的这个 k v cache 小 了嘛,所以它的这个随机访问的速度也更快了。哎,那就是说这个 hybrid s w a 虽然说有这么多好处,但是在实际的工程化落地的时候会遇到什么挑战呢? 就是这个主流的开源的推理框架,一开始是没有办法很好地支持这种混合的注意力机制的,所以就是说你在使用 s w a 的 时候,它经常还是会给你分配跟全注意力一样大的 k v cache, 所以 你这个理论上的这个存储的优势就没有办法真正地落地,那还会有什么问题? 就你会发现这个缓存的管理和调度会变得特别复杂,因为你要去维护这个不同的层的这个缓存的同步,然后还要去防止这个缓存的污染。还有就是你这个缓存的这个命中率啊什么的会受到影响,所以你这个 prefill 和 decode 这两条路径 你都要去做非常深度的优化,才能够真正地把这个性能提升上来。就说这个小米在这个 hybrid swa 这个架构的工程化落地上面做了哪些具体的工作?它们是把这个 kvatch 分 成了 full kv 铺和 swa kv 铺两个部分,然后 swa kv 铺它是用了一个环形的缓冲区来进行管理, 最上层的这个调度器和这个前缀数它还是暴露出来一个统一的仕途。听起来还挺复杂的,那他们这个缓存命中率是不是也优化了?对,他们这个缓存命中率也是优化了的,就是他们把这个前缀缓存数的这个匹配的逻辑做了一个升级,然后他们还自研了这个 gatch, 这个三级的分布式缓存系统, 他们也做了这个请求的调度的优化,以及这个 expert parallelism 的 分桶的优化。就是他们做了这一系列的事情,才把这个理论的优势真正的变成了线上的一个实实在在的收益。咱们来第二部分聊聊工程化实践的五大核心突破。 咱们今天第一个要聊的就是这个 kvatch 管理的重构这东西到底带来了哪些实际的提升?就他们是把这个 kvatch 分 成了两个尺,一个是 swa kvatch 铺,然后呢,这个 swa kvatch 铺它是一个环形的缓冲区, 所以它的这个空间是固定的。对,就是它永远都不会超过这个窗口的大小,所以它就彻底解决了这个传统的那种方案里面的这个报显存的问题。听起来好像对缓存的访问也变得更高效了。对,没错,就是它们。这个重构之后呢,不光是这个 s w a 的 这个层的愈曲可以和这个计算完全的重叠, 所以它的这个延迟几乎是没有了。然后同时呢,它的这个整个的这个 k v cash 的 容量的效率提升了将近七倍,所以就是整个这个推理链路的这个内存的开销一下子就下来了。 哦,那这个小米在这个前缀缓存术这个部分做了哪些改进之后,带来的最大的好处是什么?就是他们是重新设计了这个前缀缓存术的这个匹配的逻辑就是它现在不是说简单的去比对这个 token 是 不是一样,而是它会去检查这个窗口的安全长度, 所以它能够避免掉大量的这种无效的命中,所以缓存的利用率大大提升了。没错没错,然后它现在就是这个节点的淘汰和这个请求的生命周期是完全绑定的啊,所以它能够保证这个 s w a 的 这个池的大小是一直稳定的,所以它的这个线上的这个命中率可以稳定在百分之九十三以上,就 prefill 这个阶段的重复计算就被极大的减少了,所以它的这个推理速度也有了一个 质的提升。对,那这个小米的这个 gatch 这个三级缓存系统到底给这个大模型的推理带来哪些实际的提升呢?就是这个 gatch, 它是一个自研的一个分布式的缓存系统啊,它是支持 gpu 的 显存,然后 cpu 的 内存以及这个 nvme 的 ssd 这三个级别的存储啊,数据会根据它的这个访问的热度在这三个里面自动的迁移, 所以它可以把最长访问的这个 k v cache 一 直留在最快的这个存储里面,那是不是就可以让更多的请求可以直接命中缓存?没错没错,然后它们这个 g cache 呢,是用了这个 r d m a 来做这个集群内的这个数据的传输,所以它的这个单进程的这个毒的吞吐量可以达到一百七十 g b 每秒, 它的这个延迟只有两百八十微秒,所以它这个结合上这个 s w a 的 这个架构之后呢,它们的这个 k v cache 可以 在这个集群里面流传的更久,所以它的这个整体的这个命中率是 提升的非常明显的,所以这个就带来的好处就是大模型的这个推理的成本被探薄了很多,所以它的这个性价比是有了一个很大的飞跃的。我们来聊第三个主题啊,就是技术的意义和展望。对,那第一个问题,我觉得就是小米这次把这个模型推理系统全链路的这个优化的技术细节公开,直接带来的对于用户和行业的变化是什么? 最大的不同就是,呃,因为有了这些技术的突破,所以它们的这个 miimo v two five 系列的这个 api 可以 做到永久的降价百分之九十九, 就是它的这个调用的成本已经低到了几乎可以忽略不计,就是它彻底的消除了这个所谓的长上下文的这个额外的费用,所以这个对于开发者和企业来讲,他们就可以更随心的去接入这些大模型的服务。 听着确实很有冲击力啊,那这个技术的透明化是不是也带来了一些信任和合作上的一些新的机会?完全没错,就是小米把他们的这个技术的细节不仅是写成了博客文章啊,然后也做成了这个可付现的这个 pr 贡献到了社区里面。同时他们也通过这个百万亿 token 的 这个激励计划啊,以及这个 agent 的 这个生态共建, 让大家的这个门槛更低了,大家可以一起来参与到这个创新当中,那这个就既推动了这个行业的标准的形成,也让用户和整个生态都得到了实实在在的好处。你觉得小米的这套全链路优化的方案给整个大模型的行业带来哪些新的变化啊?首先就是小米的这个方案,它是第一个把这个混合的滑动窗口、注意力机制、 稀疏专家模型和多模态的输入这几个东西组合起来,并且真正的在生产环境当中落地的一个方案。对,然后它这个方案呢,就是在这个万亿参数的这个级别,它可以做到七分之一的这个 k v k h 的 开销,同时它的这个推理的速度和它的这个病发的能力都有非常大的提升,现在对行业的影响应该挺大的。对对,没错,就是它们这种极致的降本啊,和这个彻底的开源,让这个行业的定价权发生了转移,大家的竞争的焦点从这个模型的大小开始变成了效率和生态。 对,然后这个从这个硬件到这个应用的全站的协同也会成为一个新的主流,那中国的这个 ai 也在这个全球的舞台上面掌握了更多的话语权。对,所以说小米这次的这个全链路的技术优化到底为这个行业的未来铺了哪些路? 就首先就是小米把这个大模型的推理的效率推向了一个新的高度,然后呢同时它的这个成本又被压缩到了极致,这就导致 这个行业的创新的门槛一下子就被拉低了。那无论是创业公司还是大型企业,现在都可以更自由的去玩这个大模型,所以说技术的普惠性会变得更强,对不对?对,就是这样。而小米的这个也引领了一个从拼参数到拼生态、拼效率的这样的一个新的一个赛道,那 不光是带动了产业链的升级,也让这个全球的 ai 的 格局发生了改变,那大家会从这个军备竞赛慢慢的走向一个生态和应用的一个创新。 今天我们聊了很多关于小米的这个技术创新带来的对于大模型领域的一些性能上的提升,包括成本上的优化,然后也看到了一些这种创新给行业带来的一些新的思路和新的机会。好了,那这期节目咱们就到这里了,然后感谢大家的收听,咱们下期再见。拜拜。
粉丝7.5万获赞31.7万

ok, 大家好啊,今天和大家分享一下怎么使用这个国内的自己的一款 ide, 好 吧?叫 t i e。 然后最近小米有那个百万亿 token 的 那个创者激励那个活动,然后我也是领到了一个两亿的一个 token。 好 吧,然后今天看怎么接入到这个里面。 然后这个你如果之前你用 vs code 开发的话,如果你用 vs code 开发的话,然后你你就可以直接从 vs code 里面导入进去。好吧,因为里面有些插件嗯,是找不到的,比如说 q 的 那个,那个助手 找不到的,所以你直接导进去就行,导进去就能用。 ok, 我 们稍等一下, 继续。天命。你好,这个咱们可以暂时挑过啊,让我们登录一下。嗯, 大家下这个软件的话,就在他官网下就行了,中国版的这个,然后下完之后你就那个傻瓜式安装就行了,点下一步就行了。 好,然后这边是我一个手机号, 然后咱们获取一下验证码, 然后登录一下。 好,现在其实就就就可以了,登录打开现在就可以了,先把这个关掉。对,然后他就自己就打开了 一局, 要不就不需要看了啊。然后这边就是他一个 a 阵子的工作区,这边是我们的一个代码的工作区, 看一下是否又到了。 ok, 现就现在已经导入进来了啊,有一些插件他是找不到的,比如这个。现在我不知道啊,上一次用的时候是找不到的,然后这个一般的话,嗯 嗯,它这个颜色主题颜色怎么怎么调来着,我忘了。 嗯,老师这里面看一下啊,主题我一般会用一个亮字,大家根据自己喜好来就行。 ok, 像现在咱们就是开始这个编辑一下,然后咱们从这里进来选择智能体,创建智能体。 呃,是这吧,我好像不是。这, 这是不是要添加模型啊?是什么不配其他模型?模型 id, mimo 模型 id 是 什么来着?我们看一下 这个 mimo 小 都是小写的, 一毛不有。然后密奥的话,我们好像是需要来这边去。 ok, 这是我连到的一个,嗯嗯,这个是要怎么怎么怎么去做的, 这个是不是我们需要去 创建一个 api, 我 们复制一下,我们每个输进去,然后这边是什么呢? 先看一下能不能添加成功,添加失败,这是为什么? 这调用这个根据发送过去的 api 是 用 您这个 u i l 在 哪, 然后是这个吗?哎,不对呀, 哦,这边是吧,一个完整的 u i l, 这个,这个, ok, 现在这一个模型就添加成功了,那现在的话,我们应该是可以就去选择一个了吧?这个咱们自定义的一个 memo, 一个 memo, 好 吧。嗯,这,这什么? ok, 现在应该就就可以了,大家就可以使用了。 ok, 刚才咱们把那个 memo 记录到这个,呃 br e 里面了。然后咱们现在来简单测试一下这个 memo, 啊,是怎么使用的啊?看咱们是不是接触成功了,可以,然后点击这边这个 ai 测蓝,把它打开,然后我们确定选的是迷蒙 v 二零五这个模型。那现在我们就简单测试一下吧,比如说,嗯, 在本目录下帮我写一个这个,嗯, hello, hello world 的 测试程序,写一个 c c 语言, hello, word 四日程序。嗯,我们来我们称要 s 点 c c, ok, 让我们看一下它是怎么来完成的,能不能完成。 ok, 大家注意一下,现在我这里还是零啊,然后我一会看一下它有没有。 ok, 现在已经生成完成了,然后我们现在保留它这个语法没有什么错误,然后我们验证一下,好吧。 ok, 这边也有打印,已经输出了,证明咱们这个 mino 确实是被调用的了。那我们刷进一下这里,看一下咱们 mino 是 不是被用了。哎,确实,你看已经使用了这个四万 token 了。 ok, 这就是咱们一个分享,大家感兴趣可以自己去试一下。然后它这个 miimo 的 话,应该到这个月底吧,大家都可以去申请,还是非常好通过的,只要把你的 get 链接填上去就行了。 ok。

最近 openroot 被一个名叫亨特阿尔法的神秘模型给霸榜了啊,很多人都在猜测这玩意到底是谁家模型,那么直到十九号上午终于被小米给认领了, 这个神秘的模型就是小米最新的 miimo vr pro 模型。小米接连发布了三款大模型,并且开启了一段时间的免费试用。可能有很多平常不关注大模型的朋友感到非常的好奇,想知道这个玩意到底该怎么样去使用,那么今天这期视频我将教会大家怎么用上小米的大模型。 好,那我们废话不多说,直接开始。先说最简单的用法,就是把它当成普通的聊天大模型来使用。如果你使用的是小米手机,可以直接打开小米自带的浏览器,点击中间的 ai 图标,就能够直接使用小米的 mini 大 模型。当然不是小米的手机也没关系,我们可以直接来到小米 mini 的 官方网站, 然后点击 web demo, 可以 看到左边有一个侧边栏叫做 memo chat, 我 们点击就可以和大模型进行聊天了,然后左上角还有可以切换模型。如果你只是把大模型当成聊天工具,那么网页端就差不多够用了,但是如果你想让他帮你处理文件,调用工具,接入工作流的话,那就要把它接入智能体了。 接下来我会教大家怎么把它接入智能体上面。智能体这个词可能听起来有点复杂,但大家不要被吓住了。智能体也就是 agent, 它是一个以大语言模型 l l m 为大脑,能够自主规划、记忆并使用工具来完成目标的一个智能系统。 传统的 l l m 本质上还是你问一句,他答一句,比如豆包千问菜的 g p t 这一类,你给他一个问题,他就返回一段内容,基本上也就结束了。但是 a 卷的不一样,他不只是负责回答,他还会接着往下做。 你给他一个目标之后,他会自己理解任务规划步骤,然后一边执行一边根据结果继续调整,直到把这件事情做完。 比如你让他帮你整理一个文件夹里面的资料,顺便提炼重点,再写成一份总结,他就不只是简单的给你一句建议,而是真的会一步一步的把这件事情往下做。所以简单来说,普通的 ai 更像是在跟你聊天,而 a 检测它是真正的在帮助你干活。 像 open code codex 以及 cloud code, 还有前段时间爆火的 open clone, 都属于智能体,目前 open code 提供了免费的密膜大模型的使用,我们以 open code 为例,演示一下怎么把大模型接入智能体。在安装 open code 之前,我们首先需要安装一下 node js, 我们来到 loggs 的 官网,根据对应的系统下载安装包,把 loggs 安装好之后,接着我们打开终端,输入下面这串命令,这样我们就完成了安装,再输入 open code 就 能够直接进行启动,我们跟它对话试一下,可以看到它已经开始回应我们了。 那么接下来我们把模型切换到 m 模模型,按住 ctrl 加 p, 或者使用斜杠 model s 命令切换使用模型。 这里我们直接搜索 mimo, 可以 看到 opencode 为我们提供了两个免费的模型,选中之后就可以看到这里的模型已经发生了改变,这样我们就可以开始对话了。 这里我让他帮我生成一个小霸王游戏的 svg 动画,放在我的桌面上可以看到他已经在接受命令之后开始工作了,我们看看效果如何。 前面我们使用的是 open code 为我们提供的免费大模型,通常他会以降低速度或者是一些其他的方式来限制你的使用,并且免费期一过就不能够再继续使用了。所以接下来再给大家演示一下怎么接入小米的 api key 来进行使用。在 open code 里面输入斜杠 connect, 我们这里可以搜索模型提供商,这里可以接入各种各样的大模型,像亲爱的 g p g gmail 等等,我们直接搜索小米。然后我们来到小米官网,点击 api access, 然后点击申请 api key, 我 们创建一个 api key, 把 api key 复制回到终端回车,这样我们就能够选择模型来跟它进行对话了。 这里必须要保证你的账户余额充足,不然是不能够进行对话的。 ok, 以上就是使用小米密墨大模型的全流程啊,感谢您的收看,如果你喜欢这期视频,记得给我点亮收藏,后续我也会分享更多跟 ai 相关的知识,我们下期视频再见!拜拜!

今天凌晨呢,小米旗下的大模型 miimo v two pro 宣布降价,说法是最高降幅百分之九十九,但实际情况呢,是和 deepsea v 四 pro 的 价格是完全一样。而 miimo 的 v 二点五,它的所谓的 flash 模型跟 deepsea v 四 flash 呢,价格也是几乎完全一样。 这个价格呢,基本上已经属于跌到脚踝了,因为 deepsea 在 周末刚宣布把它的 v 四 pro 模型呢,原本限是二点五折的优惠的永久化,这种地板价的价格呢,以我们自己的附属的, 呃,接下来看呢,基本上只是电费和一些运营费用。那 dips 为什么价格能降那么低呢?也是因为它做了一系列优化,比如说 m o e 架构,比如说 k v k 式压缩,比如说投机解码和多头痕的预测, 包括缓存的复用量化和低精度的部署。这些呢,我在前面几期的视频号上都分享过。当然呢,即使把这些都做完之后,也没法做到现在的报价。所以呢,更可能的原因是 dips 呢,已经通过 公司二方科技提供了硬件的自主权,就拥有了所有的 g p u, 所以呢,已经作为沉没成本,而他只是要覆盖他的运营成本,就是电力和运营费用而已。那 d p c 的 长期逻辑是 agm, 所以 他把价格压到这么低的核心的目标是把电容量做起来,能成为全球使用量最高的模型公司之一。目前从 oppo rata 的 收益来看,确实也是这么 回事。小米呢,可能是更加激进一点,因为小米的核心的利润并不来自于大模型,而模型呢,又是他在二手市场上讲故事的很重要的支点,所以呢,他愿意以不盈利的方式持续亏损作为战略性投入 来获取时长的声浪。同时呢,因为他在生产店中的站位,未来的手机、汽车、 iot 机器人这些终端都需要低成本的模型,与其采用别人家的,不如用自己的模型。所以呢,虽然两家的降价逻辑并不相同,但是结果指向了同一价格, deepsea 先动,小米 mimo 贴身跟上。问题在于,这个价格一旦被这两家公司同时铆定,就很难再往上走了。所以呢,结论就是,那些能力不如 open ai and fava, 价格又打不过 deepsea, mimo 的 中间场上可能会率先被挤压出海桌,国内资源大冒险的大厂以及模型创业公司,迟早都要被拉出来表个态,到底是否跟进? 而这个价格战呢,目前还没有波及到市场。另外一端就是预参加 g p t cloud 和 jimmy, 原因呢,是市场正在分层,对于价格敏感的开发者跟中小企业,会被 deepsea 跟 mmo 低价带走。但是对合规性多模态能力,包括编程能力有特定需求,大客户 暂时可能还会留在国家区间,但是这个用户呢,其实比较有限,而且呢,集中在欧美国家和发达国家。所以接下来呢,大模型市场可能会分成两个阵营,一端是集低价的基础设施层,负责提供便宜稳定可 规模的头肯。另一端是高溢价偏能力层,继续卖最强推、最强 a 阵、最强多模态和企业级安全能力。而两端都够不着的场上既没有成本优势,又没有能力避雷,大概率就是人出局 了,而即使是短期油箱的分层,随着模型技术能力的提升,低价格的模型并表示能力回差,反而呢,可能会不断的升级,不断侵蚀所谓的高溢价高能力的模型。所以呢,未来的市场份额一定会被低价甚至免费的模型占住,而所有的其他模型会竞争的百分之十的最复杂的应用场景。

小米免费赠身的 token plan 大家都领到了吧?我最近在 open code 里面使用了一下,发现这个非常好,在只要在 open code 里面安装一个这个插件 superpower 在 体验里面就和 code x 和 cloud code 几乎没有什么区别。 大家 tokyo 使用量这个会稍微高一点,可能我感觉欧本扣的同样装了这个 superpower 插件还是会比这个可乐扣的多花个百分之十的 ok 的 样子,但我觉得可以忽略。我算了一下,基本上我现在问他两个问题,他给我消耗了一百万 tokyo, 这样算下来的话基本上一个小问题就是两毛五, 有的时候你如果问题如果太大太发散的话,他可能会花掉你两块钱,两三块钱一个问题。我最近最用了一天,他送我的这个标准套餐我已经用掉了一半。两天吧,其实应该算算算两天, 按照小米的用量的话,我觉得你买 max 才正常够一个月,但它 max 要六七百,其实已经太贵了,我感觉还不如用酷狗 x 呢,大家觉得呢?

今天这期视频呢,来讲讲小米 mini v 二点五这个大模型的降价情况。现在呢,这个 mini v 二点五它跟 deepsea 已经是一个价格了。 mini v 二点五和 deepsea v 四 flash 是 一个价格,二点五 pro 跟 deepsea v 四 pro 价格一样, 之前我们都说 tbisc 的 价格很便宜,现在小米也便宜了,然后我测试了一下,随便跑了一下 agent, 然后它的缓冲泵动力呢,达到了百分之九十四,九十五,所以说就非常便宜。另外呢,小米有 tocom plan, tbisc 没有,所以说呢,小米现在呢,要比 tbisc 还要便宜一点点, 最低档呢,这个小米是三十九块钱,然后呢,你首次购买呢,有八八折,算下来就是三十四块多一点。然后呢,你可以用大概四十一块钱的 toc 的 量, 然后呢,你在晚上的零点到早上的八点,还有一个八折的额外的一个优惠,哎,所以说呢,你大概算下来就是你第一个月可以用三十四块三毛二买到大概五十一块钱的 talkin 的 这个一个量,所以说就是非常非常划算的。 那么它现在呢,对比来看,跟之前的 talkin plan 对 比来看,就是说呢,涨了大概五十到七十倍,可以说是非常非常良性了。 那今天的零点呢,他还把所有的额度给重置了,我今天上去一看,哎,我额度重置了。小米的大魔镜有两个隐形的好处,它的 v 二点五是多模态,但是这个 deepsea 呢,它就不是多模态。另外一个,它有一个语音的克隆的生成,它都是免费的,不需要花任何钱,所以说,比如说你的视频配音啊啊都不需要花钱的。 那假设呢?假设就是我们做到理论上的百分之九十五的缓存命中,大概这个三十四块钱的这个月卡可以买到 v 二点五五亿多的一个 top, 至少五亿的一个 top。 如果是 v 二点五 pro 呢,至少也能有一个一点九亿的 top, 可以 说是很实惠。 那就我个人来说,我现在主力呢还是 deepsea v 四 pro, 然后呢,我买了一个最便宜的一个小米的一个 mini 的 月卡,三十四块钱。然后呢为为的是什么呢?就是享受他的二点五的这个多模态啊。另外还有一个免费的语音克隆,那一个月三十四块钱还是非常便宜的。那这样呢,就可以覆盖我的绝大多数场景了。

我用小米 miimo 来激活白龙马 agent, 小 米 miimo 真的 太强大了,反应又快又强。系统启动中,正在检查文件检测能力,我的白龙马可以和我语音对话。 正在检查热点面板,这里弹出的是每天的全网热点事件。白龙马打开以后,接入小米 miimo 进行系统自检。 屏幕中间的白点是白龙马的记忆系统,你和白龙马的对话全都记录在里面,就像人一样。 屏幕右上角显示的是白龙马正在检测所有的调用工具是否正常。 白龙马正在检测视频的搜索播放能力。这里是白龙马接入小米 miimo 的 通讯视频播放能力, 这里显示的是白龙马调用工具和通讯,所有的检测全率通过播放。桌面上是清道夫。

最近看到很多人说小米的大模型还有 deepsea 大 模型很贵,打个你好就要花不少钱。但我不是这样的,我某天用 deepsea 跑了,一点一,一个 token 花费十三点二三元,算下来,每百万 token 只要零点一一九元。 还有一次用小米的大模型花了三千五百万 token, 按照小米米某月卡最低档三十四块多的价格来算,这三千五百万 token 花费四点八元,每百万 token 零点一三七元,确实是大降价。 我花一分钟把这个事说清楚。 ai 大 魔仙收钱,分三块,缓存位命中、输出,缓存命中。你第一次发一段内容给 ai, 他 得从头读一遍,完整算一次。这个过程叫缓存位命中,价格是三块钱,每百万投坑。但同一段内容你再发第二次,第三次的时候,系统发现你发的东西和之前一模一样,他就不重新算了,直接从缓存里调,结果这个过程叫缓存命中。 缓存命中的价格是多少?零点零二五,差了一百二十倍。所以那些说打个你好就花了多少钱的人,测试的是什么场景? 第一次到 a p i 发一句你好, ai 回复全程缓存未命中,这当然很贵。简单来说就是你让 ai 听一本书, ai 第一次读会花不少钱,因为这对 ai 来说是新内容,每百万头啃三块钱。但之后再让 ai 根据这本书的内容和你交流,就是旧内容了,每百万头啃零点零二五元。现在你明白了吗?打个你好测试花了多少钱没有意义。

兄弟们,跟你们说个事情哈,昨天看到小米 mayo v 二点五降价,脑子一热就充了最便宜的四十块套餐,想着四十一亿 credits 怎么都够造的对吧? 其实到现在为止,我也就用了六七个小时,已经用掉百分之四十多了,你以为我干了啥大工程呢?其实就是让他读了个 github 仓库的代码,再扫了扫我电脑里的文件,就这点事,照这速度估计也就够用两天。所以打算入这个套餐的朋友注意下消耗速度啊,太惨爆了!

直接应粉丝要求讲一下克里普拉应该怎么去选。先说结论,目前是小米的米某,首先需要明确一点,就是这个东西的实用性非常强,所以说最好你能自己学会怎么去选。现在是五月三十号,如果说你一个月之后再看这个视频,用的就只能是思路了,不要直接抄作业。 我们之前有一节讲过模型怎么选,这个选 callenplan, 或者说 callenplan 的 前提就是选模型。今天我们再次抄一遍,因为短短两个星期,实际上选择的方案就已经完全不同了,国内和国外都有新的选项出现。首先我们还是打开我们的 open source, 第一步看用量,大家都用了,基本上不会太出错, 我们直接打开这个用量的一个排行榜,这里实际上需要注意的是飙升的,首先是咱们国内的小米 mini, 五 v 二零五的这个 pro 飙升百分之四百七十五,现在这个时间节点,如果你问我只能选一个 call 零 plan, 那 你选什么?那当前时间节点我会直接告诉你,就是这个小米的 mini。 还有一个飙升的模型是这个 gimli 的 三零五 flash, 也是飙升了百分之三百六十多。看完用量的话,我们要打开我们的第二网页, 这个网页之前也已经讲过了 design arena, 它这个的话是一个模型评测的一个方法论,简而言之就是 ai 的 一个逗乐场。然后让咱们人类来投票进行一个排名, 我们直接点开这个排行榜,代码分类上展开,正常情况下我们直接看这个喜爱排名与价格这个图就行了, 这里有个观念,就是这个 mimo 的 这个,嗯,价格它还没有更新,更新的话这个图会显得非常漂亮。还有个问题的话是这个图它是用 e l o 去发的,对于新模型的对单次数不多的情况下还不太友好, e l o 大家懂的都懂,我们到下面看一下, 这边先看这个 e l o 的 排名吧, l o 的 几个排在上面,然后是我们看的 kimi, kimi 的 这个 k 二点六,实际上在前一段时间还是国产的第一名,但是现在有了新的变化。接下来的话就是这个智步的 glm 五点一,它是现在当前时间节点国产的第一名, 可以看到这个胜率的话是比这个 kimi 二点六呃高了将近五个百分点,然后因为它的这个对战场次还不多,它的这个呃误差范围是有个上下呃一点三左右,然后就算它减掉这个一点三,然后这个 kimi 二点六加上这个零点八,它还是要比 kimi 二点六要强的了, 目前国产当之无愧的利益了已经是它的。问题是这个智普的这个 koopa 买不到,并且还贵, 然后再往下看,就看到我们这一期推荐的这个 mini 了,小米的这个二点五 pro 和这个二点五完全不是一个东西, 建议只用这个二点五 pro 可以 看到这个二点五打了这个一万多场,胜率维持在呃百分之五十四点八,这个其实有点拉了,但是它的这个 pro 三千多场的话,就这个胜率就干到这个六十一点八,这个胜率实际上是非常不错的,那我们还是直接按这个胜率排名吧, 我们按生育排名的话,可以看到这个第二名突然多出来一个这个 gmail 的 三 pro pro, 这个东西就是我们说的这个内外模型都有变化,之前谷歌动态的场景还行,但是编码场景一下掉队太久了,这次又追上来了。再往下看的话就是我们国产的第一 em 五点 e, 然后是 mini 的 v 二点五 pro 和这个千万三的一个四百二 b 的 一个模型,可以看到 kimi 的 这个 k 二点六已经跌落神坛了,等待下一波吧。这个模型的话,其实就是一个你追我赶的过程, 往下看一看,然后是我们的这个 deepsea v 四的一个 pro, 这个 g p d 五点五属实是有点拉了,等这个五点六吧,应该是下个月会发。 然后看到了我们的这个 mini max 的 一个二点五,都说这个 mini max 是 国产最垃圾的,这个毫无争论,但是那实想说的是,二点七和我二点五是没有关系的,我们看看这个 mini max 的 二点七在哪里哦,在这里 这个东西比 mimo 二点五还要拉,甚至比它自己的这个二点一还要拉。之前选型那节我们就已经讲过了,这个二点五在编码场景下是大于二点七的,我不知道为了什么,这些东西升级的时候都是直面实力,看上去这个智力排名提高了,实际干活就拉了。 最经典的就是这个 closed opus 的 这个四点七和这个四点六比起来就是一坨,所以大家用的时候一定注意,不是最新的模型就是最好的,最新的可能跑分涨,智力高了,但是真是干活落了,因为为了更高的智力分,显然内画的重点就不在编码场景,或者说非常有精益。 ok, 这个模型的胜率我们就看到这里,因为这个网站呢,这个价格更新的不紧,而且是用这个 elo 画的这个三点图,我们想要这个胜率,我就用这个当前最新的价格和胜率画了一个图。 可以看到这个线上最夸张的就是这个 mimo v 二点五的这个 pro, 它比这个 oppo 四点六便宜了二十多倍,看这张图,它的这个性价比实际上已经拉爆了。讲一下为什么这么夸张啊,就是这个 mimo 这个二点五系列的一个调价公告,在这个五月二十七发了一个,这个降价幅度还是有点夸张的, 数据上反正看上去是无敌了,但是需要注意的是它这个未命中缓存的一个情况,这个未命中缓存的这个输入和这个缓存命中的输入差价是一百二倍,这个现在这些网站统计这个混合百万 token 的 时候,是拿这个输出输出加权算了,没法考虑到这个未命中输入倍率的问题。然后还有一个是这个未命中率的问题, 所以说这个地方实际上还是会有点要注意的。我们的这个散点图的这个数据来源来源于这个 adc 四 g 广的也是一个比较权威的 啊。作为我们 k 零 pro 的 一个选择方案,第一还是看钱包厚度,如果说你只要最好不看价格,那还是可 low 的, 不过现在可以以便宜一倍的价格买到只差一点点的 g 三的一个 pro。 还有一个点是我们已经讲过了的,就是假如你真的要省钱,应该是要买两个 k 零款,一个贵但是能空间,一个便宜但是量大 可乐的套餐。还有个问题是它只能接自己的生态,我们实际干活的时候使用这个 oppo 的 也是有原因,我们需要同时用多个提供商的模型,那种聚合的提供商要么提供不了最新的模型,要么就是给不到合适的价格,中转站更是不要碰。也是那个缓存的问题,这个成本你算不明白的。 说到这个成本问题,其实我们要比的还不是价格,是成本。说到之前我就已经讲过了,价格不等于成本,但是这个成本我们自己很难算明白,主要是两个模型比第二个价格要贵十倍,实际上的话成本就是一样的。 还有这个缓存的问题,拿这个 me 某来举例,缓存和不缓存这个价格差了一百二十倍,假如它的缓存命中做的不好,那么其实数据上看是无敌了,便宜也是真便宜了,就是没有那么夸张,还有个缓存等着你呢。然后我们成本分期的话,也可以参考这个网站, 可以看一下 mini 在 哪个位置,然后这个是 mini max ibisc 这面还是比较贵的,它这个不全,因为算这个成本,它是跑一系列的评测就算了,所以说的话它只会跑部分热门的模型。 这边有一个问题啊,就是他们模型提供商会为了提高智力评级降低这个编码能力的,最经典的就是这个呃, mini max 的 一个二点七,我们直接看这个智力与成本,可以看到这个 mini max 的 这个二点七是在这个绿色空间,然后在这个位置我们找一下它的二点五在哪里, 好没有?我们压一下 可以看到出来了。然后在这个地方 他的这个怎么说呢?他的这个智力上,实际上从跑分上来看是提高了。看一下他这个跑分的逻辑啊,他这个东西,呃,实际上是有一系列的评测的一个数据库,一系列的评测标准 啊。就这里他会让各个模型去跑这些的这里面的任务,然后去把这个花费算出来, 算出来了之后基于这个花的这个 top 数量,然后和这个得分的这个成果去做了一个这个智力和花费的这个三点多。但是我不知道这个东西是不是有知识库污染问题啊?比如说这个模型,新一代模型都学习过他的这些知识库了,那现象上看是这个智能指数的评分高了,但是高分低能。 所以说真正算成本的话,其实要用这个网站去算,就是需要他们去记录这个对账的 top 用量,然后来算成本。逻辑上来讲的话可以解决,但是目前没有,所以说只能我们自己来选。 我们其实还可以去参考这个 open go 的 套餐啊,就是我们虽然自己有可能算不明白这个账,因为国内有的是按四收费嘛,比如说那个 mini max, 它的是五小时团购期,然后有的是按这种 top 用量,还有的发明了新的计量单位啊,我们其实自己算明白,我们可以看这种,嗯, 比如说这个 open code, 它的话实际上它自己有个固定的价格,然后它会绑一些模型在上面,然后它会把这个模型每五小时你能请求的这个数量大概的帮你算算 啊,我们自己算不明白,但是这种聚合提供商实际上它能算明白,我们只要大概的参考它的这种表格,我们能心里大概知道每个模型的这个比例在哪个地方,然后我们就能反过来去买我们的这个 code 啊。 最后的结论是当前时间节点,如果说你只选一个蔻灵 pro 的 话,那么国内就是这个小米,但是更建议大家选俩一强一弱互补,弱的话就是这个 deepsafe mini max 里面去选强的话,现在建议就是这个 m 二点五的一个 pro 或者这个 dm 五点一,要么就选这个性价比大满的,要么就选最强的。 ok, 这节就到这里汇报一下这个后续的一个计划。首先是我自己会继续更新实战相关的视频,该阶段应该是实战相关的,然后很多小白想学习的这个呼声也比较高,这种需要从零开始讲概念的扫盲类的视频,我就直接用 ai 开始做了。

小米密密被严重低估了,我实测发现他反应又快又强,这条视频全程无加速,直接用密密激活。小白龙系统启动中,正在运行自检,进入系统之后,他主动开始自检,可以看到右上角他在准备进行自检操作,正在检查文件读写能力。让我感到吃惊的是,这个小米密密真的是挺快的, 而且所有的工具调用都是成功正常,中间是白龙马的记忆节点, 正在检查热点面板。哇,这个太酷炫了,咪某给我调出一个网络热点追踪系统,他检查完今天的热点之后,他就把整个页面收起来了,看到了吧,执行全部成功,都是绿色的。 正在检查视频模式,他现在在上网找一个视频,然后再准备进行播放,检测他的视频功能,上网搜索需要时间。 哇,这么快就打开了,这个速度还是可以的,挺强的。在检测完成之后,他就把视频给关了,这已经是后来者居上,弯道超车了。我们来让他做点事情吧, 你打开 b 站上面那个雷军唱 are you ok 的 视频,按下空格键说话松开就发送了, 你们看,他已经搜索到了,他在理解、分析和判断。搜索到打开了,真的强啊, are you ok?

小米免费送的这个 tucker 也不知道是啥玩意,就是,嗯,谁谁知道他这个跟 tucker 是 怎么换算的?原本送的是一百一十亿的东西,然后, 然后我这边就昨天就用了一天,然后用了二十五亿。我去,他这个不是,不是桃肯,就是积分什么的,也不知道怎么跟桃肯去换算的,送了一百一十亿的,但是就跑了一天,然后二十五亿的就消耗完了。

小咪咪陌的 token plan 很多人把一个东西搞混了,你打开 token plan 的 页面,看到一个很大的数字,觉得自己额度好几千万,好几个亿,用一句话就花了六千万 token, 太吓人了。其实不是那个数字,不是 token, 是 credits。 我 看到有个评论说他问了一句话就消耗了六千万 token, 才实际上 他看到那个数字是 cranks, 不是 joker。 你 把页面往下翻,翻到用量明细那里,才能看到真正的 top 消耗。这两东西差多少呢?差距非常大。我自己做了一个称,是我只打了一句话, call 头的街道密莫模型上他自动跑了我本地的知识库文件,就这一下消耗了八千零八十二万 cranks。 听起来很夸张对吧?但实际的 token 消耗是多少呢?两百三十七万 token, 八千万 cash 对 应两百三十七万 token, 差了三十多倍。 按照小米九十九块钱月卡的价格算,这两百三十七万 token 的 实际开销是六毛四对,零点六四元。一句话总结,看到大数字别慌,先搞清楚那个数字的单位是什么。 cash 不是 token, 差了几十倍。

小米真的和 deep sync 死磕上了,前两天 deep sync 刚刚宣布永久降价二五折,这边小米也立刻跟进,把价格和 deep sync 拉到一模一样的水平, 现在国产四个变成最强的模型,小米的 miimo v 二点五 pro, deep sync v 四 pro, 还有 g l m 五点一,还有 kmi 的 二点六,这四个我是完全拉不开差距的,虽然和国外的还有不小的差距,但国内的这四个其实是相互之间是没有什么差距的,所以你平常就看他们价格就可以了。 dvd 首先进行大降价,它成为性价比第一,小米立刻跟进,跟 dvd 的 效果差不多情况下,价格也一样。那我觉得他们完全可以做一个相互平替,他的价格现在已经比那个 gm 五点一和 kmi 的 二点六要便宜很多了,他们的话基本上还要输入,基本上还要六块钱, 就是 g m 五点一和 kimi 二点六。所以这波神仙党打架的话,我感觉智普和 kimi 会比较难受, deep think 的 话它本身还是能撑得住的。 大家可以看下这个奥本尤特的钓用榜单,现在 kimi 还能排在第十一位,而 g m 的 话它连前二十都没进。 在这个钓用量并不反馈模型的能力,大家可以作为一个参考,但小米的话,明显这次又是奔着冲击世界第一来的。

小米 memo v 二点五系列宣布永久降价,最高降幅百分之九十九,且不再区分输入长度。降价后价格和 deepseek 基本一致。小米 memo 真的 香吗?接下来我们进入实测环节。模型使用 memo v 二点五 pro 生成的旅游推荐网站思考五点六秒生成一个圆球,跟随鼠标轨迹思考二点五秒又给了他一个初中数学题测试逻辑推理能力,思考二十六点八秒解答思路正确,答案对得上。不过解析过程稍微麻烦了些, 虽然给出了正确答案,但不是最优解。由于以上测试思考时间都是秒级,大概率缓存命中,为了得到更加真实的结果,进行复杂任务测试,这一次思考时间直接拉到九百四十六点五秒。 通过测试不难发现,咪某中文语境文化适配高推理速度并没有宣传那么快。常练推理,自我纠错不足、隐秘 bug 排查无明确提示时自主思考,落需用户主动引导调整。 所以小米密谋降价后,在大多数常见使用场景下,尤其是缓存命中率高的场景,确实能显著省钱, 但对于输出密集型或低缓存命中率的特殊场景,需根据实际 token 消耗计算,成本没有想象中那么便宜。建议根据自身使用模式,结合套餐额度和实际调用情况,综合评估成本效益。

今儿一大早起来发现小米的大模型 memo 也降价了,降得也挺狠,几乎赶得上 dexip 了,号称也是用了什么缓存优化技术,具体细节我还没有看,从这个角度看的话挺可怕的。大家降价幅度这么狠,首先我们要排除它是亏本销售的,这个很难的,因为成本压力太大, token 消耗应该 费用是很高的。那我们就要看真的是缓存优化技术什么的,还开始这种注意力缓存优化技术给搞的。那 我们要注意两个问题,第一,卖透肯这个生意可能不是那么好性感了,可能要作为议价贴到其他的设备上。第二,呢个行业需要去观察,如果真的卖透肯这个事情已经做到了价格战。这种情况下 也有两个可能性,一,一个是说需求增长已经到头了。其次就是说现有的 skinning law 远远还没到头, 这种工程的优化带来的成本下降是非常厉害的,这种成本下降很可能会大规模的冲击现在硬件端的 定价权,怎么能便宜这么多呢?我还是没想明白。昨天晚上刚感感慨了 ds, 今天 mimo 又来了,这个 mimo 确实好用啊,大家琢磨一下,如果真的向上冲击到了供应链的话,那影响可能会很大, 告辞。补两句说中国能做到这么低成本,老外会不会做到?我觉得会,中国敢这么降价,老外会不会降?比如 openai 和 astrafig, 觉得不会,因为你在需求稳定的情况下,资本主义国家是 不可能率先降价的,他们会先获取充足的利润,再会谈商业模式的变化,中国本身就是这几个模型厂商本身就是落后的,而且从 d s 之前的玩法来讲的话,他不会追求高毛利,这是一个很理想主义的行为, 所以即便是有技术进步的情况下,外国也不会降,但是呢,凡有一点点小进步,中国模型厂商也会降, 这个在历史上不是第一次了。 d s 曾经连续多次降价,把行业的价格都打串了,所以这次 d s 低成本销售,咪某跟他降,我觉得一定是技术上有突破,而且在第一时间 把这种技术突破落地到了销售的策略变化上了。补一句,按照这种逻辑的话,云厂商迈拓肯也不是那么性感了,有那种分成的模式,比如不比如了。

零点零一元续费,小米大模型白拿一百多亿 token。 二十七号零点之后,也就是今天,系统会刷新三百八十亿的套餐用量, 然后点续费,当前套餐系统会根据你剩余的价值来估算。比如你现在还剩三百八十亿,他不但不让你补钱,还倒找你七十五块,直接转成新的 token。 选一个支付方式, 显示一分钱,确认支付续费完成,花了零点零一元找的七十多,换成了一百多亿 tucker。

小米开始掀桌子了, deepsea 前脚降百分之七十五,小米后脚降百分之九十九。三天之内,两家中国公司把 ai 模型的 api 调用价格打到了原来的百分之一,输入缓存命中的价格从两毛美金掉到了零点零三六美分。说实话,我第一次看到这个数字的时候,反复确认了三遍,小数点 lite 套餐六美元没变,原来给六千万 token, 现在给四十一亿, 翻了六十八倍。六十八倍是什么概念?昨天你花同样的钱能跑一个项目,今天能跑六十八个,这是在把 token 从商品变成自来水。小米把 token 打到这个价,赚的也不是水电费,是你在它生态里留下来的时间数据和下一代模型需要的反馈。降价只是幌子,锁住用户数据才是关键。

第一, mi 蒙 v 二点五 pro 是 否有抄袭昆的硬证据?第二, mi 某页面里的 mit 标签、 apg 代码头以及昆二 tokenizer 归属说明是否足够清楚。 我的方法很简单,只看能复合的公开材料,不看立场先行的截图。重点比较模型配置、权重分片、哈希、张亮形状、远程代码相似度,以及 tokenizer 和许可证归属。这里最重要的是把证据分层,不能把 tokenizer 附用,直接等同于模型抄袭。 先看模型画像民某页面标注 mit 模型类型是 mayo v 二七十层三百八十四个 root 的 experts, 昆三 code r f p 八是昆三某六十二层一百六十个 experts, 昆三二三五 b 和昆三 max 的 层数、专家数也都不同,所以从配置层面它们不是同一组架构参数。 再看权重文件,把 miimo 的 safe, tens 二 f s 二五六与几个 queen 仓库逐一求交集,结果是零。这个结论不能证明训练过程完全独立,但它足以说明公开仓库里没有发现直接附用同一批权重分片文件的证据。 张亮明有不少重合,这是同类 transformers 和某实践里常见的命名习惯,但关键张亮形状并不相同,比如 emily 词表维度不同,专家层中间维度不同, miyamoto 还有 fuse q kv m d p 层,以及专家校正 bios 名字,像不等于权重一样。 代码层面, memo 自带 modding memo v 二和 configuration memo v 二与 transformers 的 宽三毫米 modding 案型比较,相似度大约二十七个百分点,与宽三 next 更低。 这里存在 heking face 模型模板注意力层和谋层的公共写法,所以不能把普通工程重合,直接说成抄袭。 真正值得单独指出的是 tokenizer。 mimo 的 tokenizer config 里明确写着 queen 二 tokenizer, 而且 vocab 文件哈希与多个 coin 模型相同, 这说明 mimo 与 coin tokenizer 生态有明确关系。但 tokenizer 富永是开源模型里常见的兼容选择,它不是权重抄袭证据,它更像 extradition 是 否写清楚的问题。 许可证部分是另一个问题,咪某模型业标签是 m i t, 但远程代码文件头写的是 patchy 二点零,并包含小米与 hekingface copyright。 同时, tokenizer 又明确使用昆二 tokenizer 这个组合不自动等于侵权,但确实容易让使用者误解各组建的许可边界。 这个问题的解决方式并不复杂,最稳妥的做法是把模型权重许可、远程代码许可、 tokenizer 来源分开说明,比如明确写出 tokenizer 使用或金融 queen 二 tokenizer, 并列出 transformers 与 queen 或阿里巴巴相关版权和爬起二点零许可, 这样能保护二次使用者,也能避免把 tribute 问题误读成抄袭。实锤也要说明边界,这里没有下载 t b 级完整权重做竹数值 forensics 比对,也没有联系官方做非公开求证, 所以这不是法律意见。他回答的是在公开仓库与原数据层面,是否能看到支持抄袭的硬证据,以及压缩报表说明是否足够清楚。 最后给出分层结论,第一,公开证据不支持咪谋抄袭 queen 的 指控权重哈希架构、参数、张量、形状和代码相似度都不构成硬证据。 第二,咪谋的 tokenizer 与许可证归属说明确实应该补强。最准确的说法是,这不是抄袭实锤,而是 attribute 清晰度问题。