最近很多人在吹小米的咪某大模型,因为它降价,而且号称最高降到百分之九十九,然后我没忍住,然后我也没忍住,充了个最低档的 talking play, 写的是四十一亿,我以为是四十一亿 talking 只需要四十块钱,但是后来我发现它这四十一亿不是 talking。 那 在这可以看到它的连续包月的话呢,最便宜的版本呢?它是三十九块钱。首先我昨天呢用了四亿四点一,除以个它总量是四十一,对吧?等于我用了百分之十乘以 三十九,对吧?因为相当于我昨天花了三块九,对吧?那三块九他给了我多少的 tokin 量呢?哎,在这也有记录,那昨天我的 tokin 消耗量是两千九百万,也就是两千九百万对应多少钱呢?对应三块九,三块九除以二点九, 这样好算账一点。那这样就可以算出来小米的这个 pro 版的模型呢?它的一千万 tokin 是 要一块三毛四,这这个价格整体来讲我觉得确实不贵,但是真的会有误导, 因为你为什么这个地方它不能直接显示 token 量,而是非要去转化一个其他的数值来去换算 token? 我 觉得现在很多的大模型都走这种很扯淡的路线, 那你直接告诉我用了多少就是多少,对于消费者来讲它是非常清晰的,但是你非要把 token 量变成一个被放大了十倍的值,这时候我觉得它从商业策略上它其实都带了一点点 往那个方向引导的感觉,就好像让你感觉到啊,你花四十块钱买了四十亿 tok, 我 dipstick 前段时间使用量也很大,你看我这一天的话, dipstick 用了是十八块钱,然后呢,其中 v 四 pro 用了十块零八毛,用了一个亿多一点点的 tokken, 那 像这个 v 四 pro 你 可以算吧,十块钱等于一个亿,那也就一块钱等于一千万的 tokken。 然后如果我用这个 v 四便宜的这个版本呢,可以看到我昨天呢是用了三块三毛四,然后 它对应的一个用量是六千四百万,也就是相当于是五毛钱一千万的 token。 所以 综合看来的话,其实我更喜欢 deepsafe 的 这种后台显示方式,就是你用了多少量就是多少量,你也别给我扯淡,你显示其他的都多余,因为你根本还是在消耗 token。 我 不知道你们能不能认可我的这个观点,所以这样对比下来啊,我觉得小米的这个模型,从现在目前 国产的一众模型里面来看,它确实是便宜,但是和 deepsea 来讲的话呢,哎,它多了个多模态,其实还是多加了一点钱的。然后今天呢,我看了一个新闻,说 deepsea 的 多模态的模型的话呢,可能六月份也要上了,那如果是在现在这个定价的基础上加量不加价的话,那我觉得 deepsea, 哎,还是永远的神。
粉丝7592获赞14.5万

我找到了一个免费使用 cloud code 的 办法,不需要自行购买,墨星厂商的扣丁 plan 也可以使用。今天分享给大家,我刚刚成功领取到了小米赠送的七亿 token, 够我使用一段时间了。 看完这个视频,你也可以领取并进入到 cloud code 之中。这就是小米最近推出的创造者百亿 token 激励计划。我们只需要填写五道题目就可以免费申请领取。 我们申请这个活动只需要下面两步,第一步,打开活动官网,然后填写页面中的问题。前三道题随便填写,但真正卡人的就是第四题。 因为很多小白不知道如何使用 agent 或者 ai 构建项目,但没关系,我已经将我成功申请使用的项目描述可进入到 cloud code 的 详细步骤,写入到了文档之中想要的评论区留言。 我们在完成题目提交申请之后,我们就只需要等待审核。审核通过之后,我们会收到小米官方的邮件,邮件中会包含开放平台的地址。我们进入到开放平台,首先需要进行登录,如果你还没有注册过小米账号,可以先使用手机号进行注册。注册完成之后,你也可以使用手机号进行登录。 登录完成之后,我们可以点击右上角的头像,选中个人中心,然后再绑定我们申请使用到的邮箱。绑定完成之后,我们再点击控制台,然后再点击左侧的订阅管理, 我们就能看到我们领取的 token plan。 在 这里我们可以申请 token plan 的 专属 api key。 下面就是将我们领取到的 token plan。 通过 cc switch 接入到 cloud code 之中,我们需要打开 cc switch, 然后点击加号添加一个新的模型供应商。在这里我们选择小米 miimo, 选中之后我们向下滑,然后将上面申请到的 api key 填写在这里。注意这个请求地址需要改成这个,因为这是 token plan 的 专属请求地址,具体的地址我已经放在文档中了。下面的模型最好也贴换成小米最新的 mimo v 二点五 pro 模型。 配置完成之后,我们点击保存就可以了。添加完成之后,我们点击骑用小米 mimo 的 配置就可以了。 我们可以打开终端,启动 cloud, 然后检查我们的配置是否生效。 token 我 们已经成功领取到了, cloud code 也接通了。如果你想知道如何使用 cloud code 实战,麻烦点个关注,我们下期开始讲解实战内容。

小米送了那么多 token, 你 领完之后呢?差哪用?今天教你们把它接近 cloud code 里,用 c c switch 三步搞定。顺便说说 dp 为什么最近突然用不了?不是你配错了,是 cloud code 更新干的。先说怎么配置 miimo, 只需要三步。第一步,装 c c switch, 打开 github 网址,右边点 release, 往下滑,找到你电脑对应的版本下载。第二步,进 miimo 控制台,生成 api key 填进 c c switch 的 新供应商,我来演示一遍。打开 c c switch, 选择第一个 cloud code, 第二个是桌面端,也是同样的配置方法,点击右上角的加号,选择供应商小米 mini, 其他的就默认就好了。把刚刚复制的 api 粘贴进去,往下滑,在模型映设那里点击右上角的获取模型列表,配置好自己选择的模型,注意一定要打开 em 的 上下文,往下滑,打开最大思考模式, 别的可以自行选择。第三步,打开 vsco, 搜索下载 colode code 插件, a 社出版的,从来没下过 vsco 的, 顺便把汉画插件也装了。然后我们可以点击 colode code 的 小图标,注意一定要保持 cc switch 在 后台运行,这样就可以跳过登录界面来试一下。可以看到成功接入了 mimo 二点五。 当然 deepsea 也是一样的配法, deepsea switch 里加一个 deepsea 的 供应商就行,但之前有一阵子 deepsea 可以 接上,直接报错四百。原因很 简单, cloud code 更新了, a p i 协议变了, d p 那 边没来得及跟上适配。不过刚出的消息,就在一个小时前, cloud code 最新版本已经修了这个问题,所以两个国产大模型又可以重新接入 cloud code 里面体验了,赶快来试试吧!

小米最近开放了 miimo 百万亿 token 创作者激励计划,今天这条视频不止看申请流程,我会直接把 miimo 接近 cloud code, 看看它能不能当一个可用的代码模型来跑。申请入口就在活动页 这里,需要填小米 miimo 平台邮箱,再选择你常用的开发工具,比如 cloud code code x cursor 这一类 工具选项不用纠结,重点是说明你真实在用 ai 做开发。下面这部分是项目和使用场景,说明你可以写平时怎么用 agent 写代码改页面做自动化,也可以上传 cloud 账号截图或账单, gigab 项目链皆有的话也一起补上, 提交之后等邮件通知就行。通过以后进入控制台就能看到赠送的 pro 阅读套餐。真正关键的是这里的专属 a p i t 以及 open ai 和 andropic 两种兼容入口, 只要协议兼容,后面就可以接到很多现有工具里。 memo 的 套餐价格本身不算便宜,所以这次我更关心它和 cloud 官方 opus 模型之间到底有多大差距。接下来用 c c switch 新增一个供应商,把 cloud code 的 请求切到小米 memo 配置时,先新建小米 memo, 然后填 a p i t, 这里不要把密钥暴露出去,直接从控制台复制就可以。供应商名称只是本地标识,方便后面在不同模型之间切换。 base ur l 按平台给的 andropik 兼容地址填写。健全方式选择 a p i t。 模型映设里把默认模型指向 mimo v 二点五 pro, 保存以后再把这个供应商起用。现在打开 clockcode 可以 看到当前绘画已经切到了 mymo v 二点五 pro, 到这一步接入基本完成,后面就看他面对真实前端任务时表现怎么样。我这里准备了一个前端页面测试任务,并且起用了 frontend design 插件, 参考对象是 hugging face 上的烧命 mi m o mi m o v 二点五 pro 页面,让他做一个小米 mi m o v 二点五 pro 的 介绍页,提示词很直接,根据这个模型页面设计一个介绍页, 这个任务能同时考察信息、提取、页面结构、视觉层级和前端实现。不只是简单回答几个问题,生成过程中可以观察两点,第一,他有没有抓住 mymo v 二点五 pro 的 核心参数和卖点。第二,页面是不是像一个完整产品页,而不是把文字随便堆在一起。 最后打开本地页面标题模型参数,百万上下文 token 规模,还有下载模型、技术、博客、 api 平台这些按钮都做出来了。 整体看, cloud 官方模型在国内会遇到网络和账号问题,上手门槛比较高。而像这种难度不大的前端任务,把小米 miimo 接近 cloud code 做平替是一个不错的选择。

小米模型降价百分之九十九,直接和 deepsea 硬钢,看来 deepsea 给的压力还是挺足啊。那小米的 mimo 和 deepsea 相比到底怎么样呢? 今天咱们就详细聊聊小米 mimo v 二点五 pro 和 deepsea v 四 pro 这两款国内顶尖大模型,帮大家分清两种的定位和适用场景。首先看基础信息, 两者上下文都做到了百万头肯,而且全部开放 m i t 开源协议,个人和企业都能自由商用,门槛很低。参数上, deepsea 整体规模更大,不过小米这边额外做了图像、语音一体的全模态,而 deepsea 目前只支持纯文本交互, 这是两者最直观的区别。接下来看核心能力比拼。第一块是智能体 app 的 能力,这一块小米眉目优势非常明显,在多项权威评测里得分更高,而且执行任务时投分利用力更高,能省下接近一半的调用成本,非常适合搭建 自动化工作流、智能助手等一类产品。第二块是代码的专项,榜单里表现拔尖,软件工程、算法编程、 实战写代码的能力目前位居行业潜力,是程序员开发团队的首选。第三块数学与逻辑推理,同样是 deepsea v 四 pro 更强数理计算、复杂推理的实测成绩非常亮眼,很适合科研和数理分析。总结一下,首先两款大模型都是国货之光,都很优秀, 如果你的需求涉及图片、语音、多媒体交互,或是要做智能体,首选小米 mini。 如果是专业编程开发、数学科研、纯文本内容创作、深度逻辑推演,那 deepsea 会更加适合你。关注我,了解更多最新资讯和实用技术。

今天凌晨呢,小米旗下的大模型 miimo v two pro 宣布降价,说法是最高降幅百分之九十九,但实际情况呢,是和 deepsea v 四 pro 的 价格是完全一样。而 miimo 的 v 二点五,它的所谓的 flash 模型跟 deepsea v 四 flash 呢,价格也是几乎完全一样。 这个价格呢,基本上已经属于跌到脚踝了,因为 deepsea 在 周末刚宣布把它的 v 四 pro 模型呢,原本限是二点五折的优惠的永久化,这种地板价的价格呢,以我们自己的附属的, 呃,接下来看呢,基本上只是电费和一些运营费用。那 dips 为什么价格能降那么低呢?也是因为它做了一系列优化,比如说 m o e 架构,比如说 k v k 式压缩,比如说投机解码和多头痕的预测, 包括缓存的复用量化和低精度的部署。这些呢,我在前面几期的视频号上都分享过。当然呢,即使把这些都做完之后,也没法做到现在的报价。所以呢,更可能的原因是 dips 呢,已经通过 公司二方科技提供了硬件的自主权,就拥有了所有的 g p u, 所以呢,已经作为沉没成本,而他只是要覆盖他的运营成本,就是电力和运营费用而已。那 d p c 的 长期逻辑是 agm, 所以 他把价格压到这么低的核心的目标是把电容量做起来,能成为全球使用量最高的模型公司之一。目前从 oppo rata 的 收益来看,确实也是这么 回事。小米呢,可能是更加激进一点,因为小米的核心的利润并不来自于大模型,而模型呢,又是他在二手市场上讲故事的很重要的支点,所以呢,他愿意以不盈利的方式持续亏损作为战略性投入 来获取时长的声浪。同时呢,因为他在生产店中的站位,未来的手机、汽车、 iot 机器人这些终端都需要低成本的模型,与其采用别人家的,不如用自己的模型。所以呢,虽然两家的降价逻辑并不相同,但是结果指向了同一价格, deepsea 先动,小米 mimo 贴身跟上。问题在于,这个价格一旦被这两家公司同时铆定,就很难再往上走了。所以呢,结论就是,那些能力不如 open ai and fava, 价格又打不过 deepsea, mimo 的 中间场上可能会率先被挤压出海桌,国内资源大冒险的大厂以及模型创业公司,迟早都要被拉出来表个态,到底是否跟进? 而这个价格战呢,目前还没有波及到市场。另外一端就是预参加 g p t cloud 和 jimmy, 原因呢,是市场正在分层,对于价格敏感的开发者跟中小企业,会被 deepsea 跟 mmo 低价带走。但是对合规性多模态能力,包括编程能力有特定需求,大客户 暂时可能还会留在国家区间,但是这个用户呢,其实比较有限,而且呢,集中在欧美国家和发达国家。所以接下来呢,大模型市场可能会分成两个阵营,一端是集低价的基础设施层,负责提供便宜稳定可 规模的头肯。另一端是高溢价偏能力层,继续卖最强推、最强 a 阵、最强多模态和企业级安全能力。而两端都够不着的场上既没有成本优势,又没有能力避雷,大概率就是人出局 了,而即使是短期油箱的分层,随着模型技术能力的提升,低价格的模型并表示能力回差,反而呢,可能会不断的升级,不断侵蚀所谓的高溢价高能力的模型。所以呢,未来的市场份额一定会被低价甚至免费的模型占住,而所有的其他模型会竞争的百分之十的最复杂的应用场景。

兄弟们,深更半夜小米又放大招了,这次 deep sync 的 天真的要塌了,咪某 v 二点五全系列大冒险,进行了超级无敌的大降价,直接完全对标 deep sync v 四系列的定价。 之前的话小米的 v 二点五都可以算是国产最贵了,但效果的话其实和那几位拉不开差距。这次价格完全对标之后,我感觉咪某性价比是国产第一的, 为什么呢?他其实这边讲了,他进行了各种的优化,包括推理的效率优化,以及各种的缓存的优化, 比如说缓存这边提升了五倍,数据的搬运量优化成了原来的七分之一,所以这才成为他降价的一个大的基础。我觉得对普通人来讲,最有用的就是这个。他这里说的这个 token plan 的 调用量提升了五到八倍。原来的小米的 token plan 其实不太够用,你不管开什么套餐,基本上两天就用光了, 那我就性价比太低,所以我从来不开只之前他推出了一百多根的时候,我白嫖了一下。还有他这是重置了我,本来我今天把这个 pro 都快用的差不多了,现在登上来一看,首先用量多了很多,我也数不清这到底有多少个零,但应该是增加了好几倍 把。你的额度之前我都快用完了,他现在给我重置了,大家可以去试一下。小米的这个大模型本来都快跌入世界的前二十了,已经连续四周跌入世界前二十了,在这个 openroot 里面看都看不到他,但这是降价之后的话,我感觉至少能回到这个位置。你说对标 deepshock v 四 pro, 我感觉小米这个 mini boss 要比 deepsea 要效果要好很多的。所以我觉得小米的 flash 拿位世界第一, pro 的 话拿位世界前五没有问题,拭目以待吧。

原本两亿的筹款,现在直接变成一百一十亿,还有三十二亿的补偿基分根本用不完! deepsea 宣布降价之后,小米的 mini 模型也宣布了永久降价,原本订阅用量提升到了原来的五到八倍,在今天零点正式生效,并且原有订阅的额度也全部重置刷新 上个月申请了雷总的免费 token 的 兄弟们,可以直接在订阅里面一分钱续费一个月。逻辑是这样的, miimo 的 套餐续费会重置这个月的账单日期直接重新算到下个月的。今天 本月没用完的积分可以折算抵扣下个月续费的价格。但是今天额度重置后,就是完全百分百的抵扣,而首月开通又有七七折的优惠,这导致雷总还欠你中间百分之二十三的差价。于是雷总不仅让你零点零一续费,还把这欠你的差价换成补偿积分,加到你下个月套餐里面。 开启自动续费后,扣零点零一即可续费。下个月一定要记得马上关闭自动续费,防止被返号。然后不要点第二次重新续费,这会取消补偿积分。原本两亿的扣款,现在直接变成一百一十亿,还有三十二亿的补偿积分,根本用不完!

最近 openroot 被一个名叫亨特阿尔法的神秘模型给霸榜了啊,很多人都在猜测这玩意到底是谁家模型,那么直到十九号上午终于被小米给认领了, 这个神秘的模型就是小米最新的 miimo vr pro 模型。小米接连发布了三款大模型,并且开启了一段时间的免费试用。可能有很多平常不关注大模型的朋友感到非常的好奇,想知道这个玩意到底该怎么样去使用,那么今天这期视频我将教会大家怎么用上小米的大模型。 好,那我们废话不多说,直接开始。先说最简单的用法,就是把它当成普通的聊天大模型来使用。如果你使用的是小米手机,可以直接打开小米自带的浏览器,点击中间的 ai 图标,就能够直接使用小米的 mini 大 模型。当然不是小米的手机也没关系,我们可以直接来到小米 mini 的 官方网站, 然后点击 web demo, 可以 看到左边有一个侧边栏叫做 memo chat, 我 们点击就可以和大模型进行聊天了,然后左上角还有可以切换模型。如果你只是把大模型当成聊天工具,那么网页端就差不多够用了,但是如果你想让他帮你处理文件,调用工具,接入工作流的话,那就要把它接入智能体了。 接下来我会教大家怎么把它接入智能体上面。智能体这个词可能听起来有点复杂,但大家不要被吓住了。智能体也就是 agent, 它是一个以大语言模型 l l m 为大脑,能够自主规划、记忆并使用工具来完成目标的一个智能系统。 传统的 l l m 本质上还是你问一句,他答一句,比如豆包千问菜的 g p t 这一类,你给他一个问题,他就返回一段内容,基本上也就结束了。但是 a 卷的不一样,他不只是负责回答,他还会接着往下做。 你给他一个目标之后,他会自己理解任务规划步骤,然后一边执行一边根据结果继续调整,直到把这件事情做完。 比如你让他帮你整理一个文件夹里面的资料,顺便提炼重点,再写成一份总结,他就不只是简单的给你一句建议,而是真的会一步一步的把这件事情往下做。所以简单来说,普通的 ai 更像是在跟你聊天,而 a 检测它是真正的在帮助你干活。 像 open code codex 以及 cloud code, 还有前段时间爆火的 open clone, 都属于智能体,目前 open code 提供了免费的密膜大模型的使用,我们以 open code 为例,演示一下怎么把大模型接入智能体。在安装 open code 之前,我们首先需要安装一下 node js, 我们来到 loggs 的 官网,根据对应的系统下载安装包,把 loggs 安装好之后,接着我们打开终端,输入下面这串命令,这样我们就完成了安装,再输入 open code 就 能够直接进行启动,我们跟它对话试一下,可以看到它已经开始回应我们了。 那么接下来我们把模型切换到 m 模模型,按住 ctrl 加 p, 或者使用斜杠 model s 命令切换使用模型。 这里我们直接搜索 mimo, 可以 看到 opencode 为我们提供了两个免费的模型,选中之后就可以看到这里的模型已经发生了改变,这样我们就可以开始对话了。 这里我让他帮我生成一个小霸王游戏的 svg 动画,放在我的桌面上可以看到他已经在接受命令之后开始工作了,我们看看效果如何。 前面我们使用的是 open code 为我们提供的免费大模型,通常他会以降低速度或者是一些其他的方式来限制你的使用,并且免费期一过就不能够再继续使用了。所以接下来再给大家演示一下怎么接入小米的 api key 来进行使用。在 open code 里面输入斜杠 connect, 我们这里可以搜索模型提供商,这里可以接入各种各样的大模型,像亲爱的 g p g gmail 等等,我们直接搜索小米。然后我们来到小米官网,点击 api access, 然后点击申请 api key, 我 们创建一个 api key, 把 api key 复制回到终端回车,这样我们就能够选择模型来跟它进行对话了。 这里必须要保证你的账户余额充足,不然是不能够进行对话的。 ok, 以上就是使用小米密墨大模型的全流程啊,感谢您的收看,如果你喜欢这期视频,记得给我点亮收藏,后续我也会分享更多跟 ai 相关的知识,我们下期视频再见!拜拜!

小米开始掀桌子了, deepsea 前脚降百分之七十五,小米后脚降百分之九十九。三天之内,两家中国公司把 ai 模型的 api 调用价格打到了原来的百分之一,输入缓存命中的价格从两毛美金掉到了零点零三六美分。说实话,我第一次看到这个数字的时候,反复确认了三遍,小数点 lite 套餐六美元没变,原来给六千万 token, 现在给四十一亿, 翻了六十八倍。六十八倍是什么概念?昨天你花同样的钱能跑一个项目,今天能跑六十八个,这是在把 token 从商品变成自来水。小米把 token 打到这个价,赚的也不是水电费,是你在它生态里留下来的时间数据和下一代模型需要的反馈。降价只是幌子,锁住用户数据才是关键。

今天要跟大家聊的呢是关于这个小米的,这个米某啊首次对外公开了这个模型推理系统全链路的这个优化的技术细节,那我们会从这个核心的架构的设计,到这个工程化实践的五大突破,再到最后我们会聊一聊这个技术对于用户和对于整个行业的意义。没错没错,这期内容呢,我们准备的非常的充分啊, 那我们就开始吧,咱们先进入第一个部分啊,就是核心架构揭秘。嗯啊,咱们今天第一个要聊的就是这个 hybrid sw a 这个架构到底是怎么帮我们降低这个大模型推理的这个核心开销的? hybrid sw a s 其实它就是一个把这个全注意力层和这个滑动窗口注意力层按一定的比例去混合。 比如说像这个 mimo v 二点五 pro, 它是七十层的 transformer, 它只有十层是用的全注意力,然后剩下的六十层全部都是用的这个窗口大小为一百二十八的这个滑动窗口注意力。 那这样的话,它这个 k v cash 就 可以只存最近的一百二十八的 token 信息,那这个存储的开销一下子就缩小到了原来的七分之一。 哦,那这个 prefill 和 decode 这两个阶段的效率是不是也提升了?没错没错,就是因为这个 s w a 层,它的这个注意力的计算量也变成了一个长数,就是跟这个输入的长度没有关系了,所以这个 prefill 这个阶段,它的这个计算成本也变成了原来的七分之一。 然后这个 deco 的 这个阶段呢,它的这个延迟也降低了,就是因为它的这个 k v cache 小 了嘛,所以它的这个随机访问的速度也更快了。哎,那就是说这个 hybrid s w a 虽然说有这么多好处,但是在实际的工程化落地的时候会遇到什么挑战呢? 就是这个主流的开源的推理框架,一开始是没有办法很好地支持这种混合的注意力机制的,所以就是说你在使用 s w a 的 时候,它经常还是会给你分配跟全注意力一样大的 k v cache, 所以 你这个理论上的这个存储的优势就没有办法真正地落地,那还会有什么问题? 就你会发现这个缓存的管理和调度会变得特别复杂,因为你要去维护这个不同的层的这个缓存的同步,然后还要去防止这个缓存的污染。还有就是你这个缓存的这个命中率啊什么的会受到影响,所以你这个 prefill 和 decode 这两条路径 你都要去做非常深度的优化,才能够真正地把这个性能提升上来。就说这个小米在这个 hybrid swa 这个架构的工程化落地上面做了哪些具体的工作?它们是把这个 kvatch 分 成了 full kv 铺和 swa kv 铺两个部分,然后 swa kv 铺它是用了一个环形的缓冲区来进行管理, 最上层的这个调度器和这个前缀数它还是暴露出来一个统一的仕途。听起来还挺复杂的,那他们这个缓存命中率是不是也优化了?对,他们这个缓存命中率也是优化了的,就是他们把这个前缀缓存数的这个匹配的逻辑做了一个升级,然后他们还自研了这个 gatch, 这个三级的分布式缓存系统, 他们也做了这个请求的调度的优化,以及这个 expert parallelism 的 分桶的优化。就是他们做了这一系列的事情,才把这个理论的优势真正的变成了线上的一个实实在在的收益。咱们来第二部分聊聊工程化实践的五大核心突破。 咱们今天第一个要聊的就是这个 kvatch 管理的重构这东西到底带来了哪些实际的提升?就他们是把这个 kvatch 分 成了两个尺,一个是 swa kvatch 铺,然后呢,这个 swa kvatch 铺它是一个环形的缓冲区, 所以它的这个空间是固定的。对,就是它永远都不会超过这个窗口的大小,所以它就彻底解决了这个传统的那种方案里面的这个报显存的问题。听起来好像对缓存的访问也变得更高效了。对,没错,就是它们。这个重构之后呢,不光是这个 s w a 的 这个层的愈曲可以和这个计算完全的重叠, 所以它的这个延迟几乎是没有了。然后同时呢,它的这个整个的这个 k v cash 的 容量的效率提升了将近七倍,所以就是整个这个推理链路的这个内存的开销一下子就下来了。 哦,那这个小米在这个前缀缓存术这个部分做了哪些改进之后,带来的最大的好处是什么?就是他们是重新设计了这个前缀缓存术的这个匹配的逻辑就是它现在不是说简单的去比对这个 token 是 不是一样,而是它会去检查这个窗口的安全长度, 所以它能够避免掉大量的这种无效的命中,所以缓存的利用率大大提升了。没错没错,然后它现在就是这个节点的淘汰和这个请求的生命周期是完全绑定的啊,所以它能够保证这个 s w a 的 这个池的大小是一直稳定的,所以它的这个线上的这个命中率可以稳定在百分之九十三以上,就 prefill 这个阶段的重复计算就被极大的减少了,所以它的这个推理速度也有了一个 质的提升。对,那这个小米的这个 gatch 这个三级缓存系统到底给这个大模型的推理带来哪些实际的提升呢?就是这个 gatch, 它是一个自研的一个分布式的缓存系统啊,它是支持 gpu 的 显存,然后 cpu 的 内存以及这个 nvme 的 ssd 这三个级别的存储啊,数据会根据它的这个访问的热度在这三个里面自动的迁移, 所以它可以把最长访问的这个 k v cache 一 直留在最快的这个存储里面,那是不是就可以让更多的请求可以直接命中缓存?没错没错,然后它们这个 g cache 呢,是用了这个 r d m a 来做这个集群内的这个数据的传输,所以它的这个单进程的这个毒的吞吐量可以达到一百七十 g b 每秒, 它的这个延迟只有两百八十微秒,所以它这个结合上这个 s w a 的 这个架构之后呢,它们的这个 k v cache 可以 在这个集群里面流传的更久,所以它的这个整体的这个命中率是 提升的非常明显的,所以这个就带来的好处就是大模型的这个推理的成本被探薄了很多,所以它的这个性价比是有了一个很大的飞跃的。我们来聊第三个主题啊,就是技术的意义和展望。对,那第一个问题,我觉得就是小米这次把这个模型推理系统全链路的这个优化的技术细节公开,直接带来的对于用户和行业的变化是什么? 最大的不同就是,呃,因为有了这些技术的突破,所以它们的这个 miimo v two five 系列的这个 api 可以 做到永久的降价百分之九十九, 就是它的这个调用的成本已经低到了几乎可以忽略不计,就是它彻底的消除了这个所谓的长上下文的这个额外的费用,所以这个对于开发者和企业来讲,他们就可以更随心的去接入这些大模型的服务。 听着确实很有冲击力啊,那这个技术的透明化是不是也带来了一些信任和合作上的一些新的机会?完全没错,就是小米把他们的这个技术的细节不仅是写成了博客文章啊,然后也做成了这个可付现的这个 pr 贡献到了社区里面。同时他们也通过这个百万亿 token 的 这个激励计划啊,以及这个 agent 的 这个生态共建, 让大家的这个门槛更低了,大家可以一起来参与到这个创新当中,那这个就既推动了这个行业的标准的形成,也让用户和整个生态都得到了实实在在的好处。你觉得小米的这套全链路优化的方案给整个大模型的行业带来哪些新的变化啊?首先就是小米的这个方案,它是第一个把这个混合的滑动窗口、注意力机制、 稀疏专家模型和多模态的输入这几个东西组合起来,并且真正的在生产环境当中落地的一个方案。对,然后它这个方案呢,就是在这个万亿参数的这个级别,它可以做到七分之一的这个 k v k h 的 开销,同时它的这个推理的速度和它的这个病发的能力都有非常大的提升,现在对行业的影响应该挺大的。对对,没错,就是它们这种极致的降本啊,和这个彻底的开源,让这个行业的定价权发生了转移,大家的竞争的焦点从这个模型的大小开始变成了效率和生态。 对,然后这个从这个硬件到这个应用的全站的协同也会成为一个新的主流,那中国的这个 ai 也在这个全球的舞台上面掌握了更多的话语权。对,所以说小米这次的这个全链路的技术优化到底为这个行业的未来铺了哪些路? 就首先就是小米把这个大模型的推理的效率推向了一个新的高度,然后呢同时它的这个成本又被压缩到了极致,这就导致 这个行业的创新的门槛一下子就被拉低了。那无论是创业公司还是大型企业,现在都可以更自由的去玩这个大模型,所以说技术的普惠性会变得更强,对不对?对,就是这样。而小米的这个也引领了一个从拼参数到拼生态、拼效率的这样的一个新的一个赛道,那 不光是带动了产业链的升级,也让这个全球的 ai 的 格局发生了改变,那大家会从这个军备竞赛慢慢的走向一个生态和应用的一个创新。 今天我们聊了很多关于小米的这个技术创新带来的对于大模型领域的一些性能上的提升,包括成本上的优化,然后也看到了一些这种创新给行业带来的一些新的思路和新的机会。好了,那这期节目咱们就到这里了,然后感谢大家的收听,咱们下期再见。拜拜。

我拿到小米二十三亿 token 的 时候,其实是有点懵的,不是兴奋的那种懵事就这就这也能过迪那种懵?这个是 max 套餐的十六亿,这个是 pro 套餐的七亿。先交代一下背景,小米最近搞了个活动, 叫咪蒙 over 的 百万亿 token 创造者激励计划,三十天免费送一百万亿 token, 最高给到 max 上十六亿 cash, 等值六百五十九块钱。 这个话题已经有很多博主写过了,活动也快到尾声了,五月二十八日截止,还剩不到一周,按理说不该再蹭了。但我之所以还是写,是因为我发现了一个特别简陋 特别巧的方法,几乎百分之百能拿 max 档。这个方法我一会儿说,先把活动本身聊透。咪猫是小米自研的大模型,最新版本 v 二点五 分两个模型, pro 版面向复杂任务深度适配 a 剑客和编程,在 gdp v a l a a 和 clever 榜单上开源第一。还有一个是全模态版,文本、图像、视频、音频都支持 v 二点五, pro 用的 mo 架构,总参数三零九 b 激活十五 b, 原声支持一百万 to k 上下文推理成本只有国际币源旗舰的百分之二点五, api 定价大约是国际竞品的五分之一。 你可能觉得这不就是个国产模型吗?但坦率地讲,这次小米的成绩确实够硬。 texturina 全球综合第五, labyrinth 全球第四。 open route 上周以百分之三十多的试战率登顶第一 周条用量四点八二万亿 token, 而且它是开元的 mit 协议商用自由。说真的,全球前十开元模型里,中国占六席, 小米是第一个登顶开元榜首的手机厂商回到活动,这次 over 的 计划分两部分,一部分是面向开发者的百万亿 toc 创造者激励,另一部分是面向 ainc 框架团队的生态共建。我们聊的是前者,申请流程不复杂,去 mimo 填个表单,三个工作日出结果, 通过后邮件通知、登录开放平台等权益到账就行。但很多人卡在评估这步,拿到的是赠金,而不是 tiktok plan 或者档位很低。网上常见的建议是要写详细的项目描述,要有 github 链接,要做完整的项目, 有些教程甚至建议你前后端数据库齐活,搞得跟融资 b p 似的。我一开始也这么想,然后我发现了一个更聪明的路子,就是只做一个前端,一个用歪不扣定搞出来的非常非常厉害的前端不需要,后端不需要数据库,不需要部署上线, 就是一个纯前端页面,但视觉要炸,交互要丝滑,让人点开第一眼就觉得,卧槽,为什么这招管用? 你想啊,评估的人一天看几百份申请,大多数是 github 仓库链接和 api 文档,他点开一个仓库可能还没看完 readyme 就 关了,但你给他一个牛逼的前端,点开就是成品,视觉冲击力直接拉满,谁都能一眼看出来这东西好不好。后端逻辑写得再复杂, 评估的人不懂你的业务逻辑啊。但一个漂亮的页面,不需要专业知识就能判断质量。我自己 pro 档就是这么拿到的项目就一个纯前端页面,没写一行后端代码。我朋友按照我的方法拿到了 max 档。 噗儿当倒是我实打实拿作品申请的,自己写的 app, 还有几个 skill, 两者加起来一共二十三亿 token。 再说一个很多人踩的坑,一定要先注册好小米账号,绑好邮箱和手机号,申请表里填的邮箱必须跟小米账号绑定的邮箱一致, 如果不一致,或者你用的是手机号注册的账号,没绑邮箱,通知邮件根本发不到你手上,全一批了你也拿不到。 我一开始就翻车,在这折腾了好久才搞明白。所以正确顺序是先去小米官网注册账号,绑好邮箱,然后再去申请。操作上也不复杂,用 cloud code、 科斯尔或者任何顺手的 ai 编程工具,让 ai 帮你 vibble 扣度一个炫酷的前端页面,重点放在视觉效果和交互上,动画动效,享意识布局,这些能让页面看起来很贵的东西。多搞深情表里,把截图放上去, 项目描述写清楚,用了什么工具,做了什么功能,解决什么问题,就这样。最后说说这个 tucker 值不值得薅。 mmo v 二点五 pro 的 编程能力,我自己用下来的感受是比我日常用的 g l m 五车报强不少,跟 g l m 五点一比也差不了太多。 a p r 能直接对接 cloud code 浏览器, oppo 跨这些主流工具。十六亿 tucker 免费活动五月二十八日截止,池子部等人免费的羊毛,而且是比较厚的那种,不薅确实亏了。

太炸裂了!小米这次直接把大模型价格打到了空气价,老用户额度全部充至原来几十万, top 的 额度突然变成百亿级。更离谱的是,小米直接宣布 mini 永久降价,最高降幅百分之九十九,输入百万 top 只要两分钱!你要知道, dbc 个前脚刚把价格砍到四分之一,小米后脚就直接把地板给掀了。但真正恐怖的还不是便宜,而是小米开始完全能 ai, 文字、图片、音频、视频全都能一起理解。以前 deepsea 像文字聊天高手,而现在 vivo 更像全能数字员工。更关键的是,小米这波不是单纯降价,而是在疯狂扩大开发者生态。因为 ai 时代最后拼的不是谁模型最贵,而是谁先把 ai 彻底铺满全世界!

我用小米 miimo 来激活白龙马 agent, 小 米 miimo 真的 太强大了,反应又快又强。系统启动中,正在检查文件检测能力,我的白龙马可以和我语音对话。 正在检查热点面板,这里弹出的是每天的全网热点事件。白龙马打开以后,接入小米 miimo 进行系统自检。 屏幕中间的白点是白龙马的记忆系统,你和白龙马的对话全都记录在里面,就像人一样。 屏幕右上角显示的是白龙马正在检测所有的调用工具是否正常。 白龙马正在检测视频的搜索播放能力。这里是白龙马接入小米 miimo 的 通讯视频播放能力, 这里显示的是白龙马调用工具和通讯,所有的检测全率通过播放。桌面上是清道夫。

ok, 大家好啊,今天和大家分享一下怎么使用这个国内的自己的一款 ide, 好 吧?叫 t i e。 然后最近小米有那个百万亿 token 的 那个创者激励那个活动,然后我也是领到了一个两亿的一个 token。 好 吧,然后今天看怎么接入到这个里面。 然后这个你如果之前你用 vs code 开发的话,如果你用 vs code 开发的话,然后你你就可以直接从 vs code 里面导入进去。好吧,因为里面有些插件嗯,是找不到的,比如说 q 的 那个,那个助手 找不到的,所以你直接导进去就行,导进去就能用。 ok, 我 们稍等一下, 继续。天命。你好,这个咱们可以暂时挑过啊,让我们登录一下。嗯, 大家下这个软件的话,就在他官网下就行了,中国版的这个,然后下完之后你就那个傻瓜式安装就行了,点下一步就行了。 好,然后这边是我一个手机号, 然后咱们获取一下验证码, 然后登录一下。 好,现在其实就就就可以了,登录打开现在就可以了,先把这个关掉。对,然后他就自己就打开了 一局, 要不就不需要看了啊。然后这边就是他一个 a 阵子的工作区,这边是我们的一个代码的工作区, 看一下是否又到了。 ok, 现就现在已经导入进来了啊,有一些插件他是找不到的,比如这个。现在我不知道啊,上一次用的时候是找不到的,然后这个一般的话,嗯 嗯,它这个颜色主题颜色怎么怎么调来着,我忘了。 嗯,老师这里面看一下啊,主题我一般会用一个亮字,大家根据自己喜好来就行。 ok, 像现在咱们就是开始这个编辑一下,然后咱们从这里进来选择智能体,创建智能体。 呃,是这吧,我好像不是。这, 这是不是要添加模型啊?是什么不配其他模型?模型 id, mimo 模型 id 是 什么来着?我们看一下 这个 mimo 小 都是小写的, 一毛不有。然后密奥的话,我们好像是需要来这边去。 ok, 这是我连到的一个,嗯嗯,这个是要怎么怎么怎么去做的, 这个是不是我们需要去 创建一个 api, 我 们复制一下,我们每个输进去,然后这边是什么呢? 先看一下能不能添加成功,添加失败,这是为什么? 这调用这个根据发送过去的 api 是 用 您这个 u i l 在 哪, 然后是这个吗?哎,不对呀, 哦,这边是吧,一个完整的 u i l, 这个,这个, ok, 现在这一个模型就添加成功了,那现在的话,我们应该是可以就去选择一个了吧?这个咱们自定义的一个 memo, 一个 memo, 好 吧。嗯,这,这什么? ok, 现在应该就就可以了,大家就可以使用了。 ok, 刚才咱们把那个 memo 记录到这个,呃 br e 里面了。然后咱们现在来简单测试一下这个 memo, 啊,是怎么使用的啊?看咱们是不是接触成功了,可以,然后点击这边这个 ai 测蓝,把它打开,然后我们确定选的是迷蒙 v 二零五这个模型。那现在我们就简单测试一下吧,比如说,嗯, 在本目录下帮我写一个这个,嗯, hello, hello world 的 测试程序,写一个 c c 语言, hello, word 四日程序。嗯,我们来我们称要 s 点 c c, ok, 让我们看一下它是怎么来完成的,能不能完成。 ok, 大家注意一下,现在我这里还是零啊,然后我一会看一下它有没有。 ok, 现在已经生成完成了,然后我们现在保留它这个语法没有什么错误,然后我们验证一下,好吧。 ok, 这边也有打印,已经输出了,证明咱们这个 mino 确实是被调用的了。那我们刷进一下这里,看一下咱们 mino 是 不是被用了。哎,确实,你看已经使用了这个四万 token 了。 ok, 这就是咱们一个分享,大家感兴趣可以自己去试一下。然后它这个 miimo 的 话,应该到这个月底吧,大家都可以去申请,还是非常好通过的,只要把你的 get 链接填上去就行了。 ok。

主播上个月申请了小米 mimo 百万亿 token 计划,送了主播两个亿 token, 不 出意外的被我全部用完了。该说不说,小米的 token 消耗的是真快,之后主播就转战了 deep x, deep x 是 真便宜, 感谢良胜。突然微信收到密木降价通知,续费直接只要一分钱,不知道是 bug 还是福利, 之前的两亿 token 直接变成了一百四十亿积分了,让主播都不好意思了。 所以出一期视频给小米 mini 宣传宣传。现在的 a p i 价格已经和 deep ckey 一 样了,可以说非常香了, 但是缓存命中率确实不如 deep ckey。 实用体验感我感觉俩家差不太多,卖萌有时候会慢一点,但是和 opace 四点七和 gpt 五点五还是有一些差距,对主播来说是够用了,但是也感谢国内厂商的努力,才让我们用到这么便宜的顶级大模型。

第七个,前脚刚刚降价,小米就也来凑热闹,售价直降百分之九十九,更是把输入缓存命中的价格从原本的零点二美元暴跌至零点零三六美分。最具冲击力的是小米的癞蛤套餐,六美元的月费保持不变,但包含的 token 数量从原来的六千万直接飙升至四十一亿,整整翻了六十八倍。 六十八倍意味着什么?昨天同样的预算只能支撑一个项目的运行,今天就能同时跑六十八个,这已经不是简单的降价,而是在彻底改变 token 的 商品属性,让它像自来水一样成为一种基础资源。

今天这期视频呢,来讲讲小米 mini v 二点五这个大模型的降价情况。现在呢,这个 mini v 二点五它跟 deepsea 已经是一个价格了。 mini v 二点五和 deepsea v 四 flash 是 一个价格,二点五 pro 跟 deepsea v 四 pro 价格一样, 之前我们都说 tbisc 的 价格很便宜,现在小米也便宜了,然后我测试了一下,随便跑了一下 agent, 然后它的缓冲泵动力呢,达到了百分之九十四,九十五,所以说就非常便宜。另外呢,小米有 tocom plan, tbisc 没有,所以说呢,小米现在呢,要比 tbisc 还要便宜一点点, 最低档呢,这个小米是三十九块钱,然后呢,你首次购买呢,有八八折,算下来就是三十四块多一点。然后呢,你可以用大概四十一块钱的 toc 的 量, 然后呢,你在晚上的零点到早上的八点,还有一个八折的额外的一个优惠,哎,所以说呢,你大概算下来就是你第一个月可以用三十四块三毛二买到大概五十一块钱的 talkin 的 这个一个量,所以说就是非常非常划算的。 那么它现在呢,对比来看,跟之前的 talkin plan 对 比来看,就是说呢,涨了大概五十到七十倍,可以说是非常非常良性了。 那今天的零点呢,他还把所有的额度给重置了,我今天上去一看,哎,我额度重置了。小米的大魔镜有两个隐形的好处,它的 v 二点五是多模态,但是这个 deepsea 呢,它就不是多模态。另外一个,它有一个语音的克隆的生成,它都是免费的,不需要花任何钱,所以说,比如说你的视频配音啊啊都不需要花钱的。 那假设呢?假设就是我们做到理论上的百分之九十五的缓存命中,大概这个三十四块钱的这个月卡可以买到 v 二点五五亿多的一个 top, 至少五亿的一个 top。 如果是 v 二点五 pro 呢,至少也能有一个一点九亿的 top, 可以 说是很实惠。 那就我个人来说,我现在主力呢还是 deepsea v 四 pro, 然后呢,我买了一个最便宜的一个小米的一个 mini 的 月卡,三十四块钱。然后呢为为的是什么呢?就是享受他的二点五的这个多模态啊。另外还有一个免费的语音克隆,那一个月三十四块钱还是非常便宜的。那这样呢,就可以覆盖我的绝大多数场景了。

那个熟悉的小米啊,又回来了,这次 deep sea 危险了!四月二十九号凌晨,小米对外发布了一则公告,宣布小米 miimo v 二点五和 miimo v 二点五 pro 模型啊正式开园了,采用宽松的 mit 协议, 可以直接下载使用,无论是个人还是公司都可以用,还可以对它进行二次训练,甚至是微调。我看到头条上啊,很多赞扬小米词句的文章,说这是对 ai 创作者和 ai 创业公司的一次利好,应该点名表扬。 免费开源就算了,小米还启动了 memo of orbit 百万亿 token 激励计划,拿出了一百万亿 token 的 算力啊,免费发放, 开发者只要过了申请就能领取,这就相当于领到了一个月免费的点击算力,这打法确实很细心。当我今天看到小米的这则公挂时,我就知道了,那个熟悉的小米的杀手锏又重出江湖了。 还有谁记得当年小米进军手机行业的时候,整个行业是一个什么状态吗?供应链已经基本上完善了。而就在此时,小米入局了手机行业,他喊出的口号是全面对标苹果手机,更甚者是小米十七,在发布会上,他连续提到了三十七次苹果。 到了小米进军汽车行业的时候也是如此,供应链成熟了,他开始入场了,入场就喊出了外观媲美保时捷科技,不输特斯拉豪华堪比 bbi 的 口号。小米入局大模型的时间和方式捅手机和汽车。 从上面你就知道,小米的打法就是这样的,他入局任何一个行业,一定会选行业里的一个标杆,然后就用其极致的性价比把对手拖进他熟悉的那个泥潭里, 用他的方式打败对手。而这次小米选中了大魔性标杆,就是毫无悬念的 d p c。 这就是我开头提到的 deepsea 危险的原因啊,因为 deepsea 使用的也是全面开源的路线,也是 mit 协议全球开发者共建生态的这么一种模式。 而小米这次不仅把 deepsea 最成功的经验全盘照搬了过来,还拿出真金白银免费发给开发者。简单的说就是走 deepsea 的 路,让 deepsea 啊无路可走。 这就是小米十几年屡试不爽的操作,也是小米的杀手锏。无论是手机还是汽车,还是现在的埃阿达模型,他的战术一直都没有变过。 没有人才没关系啊挖,没有技术没关系啊头,他不需要付出任何前期开发的成本就能坐收余力。你所谓的开源精神,开发者生态无所谓的,只要小米能挣钱就行了。 或者说小米挣不挣钱他无所谓啊,他只要同行死,他只想收割别人的生命果实啊。 而他唯一的做法就是讲好故事,做好营销,这种毫无底线的打法,正在摧毁他所入局的每一个行业,他把每一个行业都卷入了一个低水平内卷的泥潭, 不卷人才,培养了也不卷,研发了也不卷质量,就看谁的成本更低,谁的利润更高了。 他这么做就是把真正的研发人员给逼到了墙角,让国内那些研发型的企业苦苦挣扎, 让国内的企业错失发展机遇,反倒是成就了国外的某些企业。然而呢,他自己也过得并不怎么如意啊,现如今他的手机出货量骤降,汽车口碑塌方,虽然每一次他都能后发先至,但是每一次的结果都并不理想, 而且这种反噬的结果好像越来越严重了。究其原因,还是现在的消费者已经醒悟了呀,咱们要买的产品,比的不是谁的营销做的好,谁的价格更低,而是谁能真正的去解决用户的痛点,是谁的真心实意的拿顾客当上帝,就是这么简单。 习惯了赚坏钱,习惯了去挖别人家的墙角的人,他是不会花时间花精力去做研发的,更不可能去做人才的培养, 而这些,恰恰才是一个公司能否走了长久的核心。免费的托垦虽然香,但是他买不来人心啊。砸钱虽然能解决一时的问题,但是砸不出技术心啊! 所以啊, deep sea, 你 要加油了,路虽难,但你才是代表着未来的,因为它坚持不了太长的时间了,留给他的时间已经不多了。

小米真的和 deep sync 死磕上了,前两天 deep sync 刚刚宣布永久降价二五折,这边小米也立刻跟进,把价格和 deep sync 拉到一模一样的水平, 现在国产四个变成最强的模型,小米的 miimo v 二点五 pro, deep sync v 四 pro, 还有 g l m 五点一,还有 kmi 的 二点六,这四个我是完全拉不开差距的,虽然和国外的还有不小的差距,但国内的这四个其实是相互之间是没有什么差距的,所以你平常就看他们价格就可以了。 dvd 首先进行大降价,它成为性价比第一,小米立刻跟进,跟 dvd 的 效果差不多情况下,价格也一样。那我觉得他们完全可以做一个相互平替,他的价格现在已经比那个 gm 五点一和 kmi 的 二点六要便宜很多了,他们的话基本上还要输入,基本上还要六块钱, 就是 g m 五点一和 kimi 二点六。所以这波神仙党打架的话,我感觉智普和 kimi 会比较难受, deep think 的 话它本身还是能撑得住的。 大家可以看下这个奥本尤特的钓用榜单,现在 kimi 还能排在第十一位,而 g m 的 话它连前二十都没进。 在这个钓用量并不反馈模型的能力,大家可以作为一个参考,但小米的话,明显这次又是奔着冲击世界第一来的。