你好,小白,读取一下我今天的日程, 今天六件事,一、审核电商订单二、处理退货退款三、监控仓库发货四、检查各平台活动情况五、维护商品链接和库存六、写本周周报,第四件和第六件我能帮你, 平台活动我能搜周报能帮你起草。从哪届开始?先帮我看看今天的热点事件, 今天热点不少,体育方面, ufc 张明阳比赛热度最高,明天欧冠决赛阿森纳队大巴黎 科技社会这边,神二十二返回舱着陆了。神二十一航天员平安抵金外卖骑手过剩超五人争一单讨论度也很高。微博上新加坡街头印度人多的话题排第一。宾利车内藏三千万财物被盗也挺炸,有想细看的说一声。
粉丝512获赞9.6万

小米最近开放了 miimo 百万亿 token 创作者激励计划,今天这条视频不止看申请流程,我会直接把 miimo 接近 cloud code, 看看它能不能当一个可用的代码模型来跑。申请入口就在活动页 这里,需要填小米 miimo 平台邮箱,再选择你常用的开发工具,比如 cloud code code x cursor 这一类 工具选项不用纠结,重点是说明你真实在用 ai 做开发。下面这部分是项目和使用场景,说明你可以写平时怎么用 agent 写代码改页面做自动化,也可以上传 cloud 账号截图或账单, gigab 项目链皆有的话也一起补上, 提交之后等邮件通知就行。通过以后进入控制台就能看到赠送的 pro 阅读套餐。真正关键的是这里的专属 a p i t 以及 open ai 和 andropic 两种兼容入口, 只要协议兼容,后面就可以接到很多现有工具里。 memo 的 套餐价格本身不算便宜,所以这次我更关心它和 cloud 官方 opus 模型之间到底有多大差距。接下来用 c c switch 新增一个供应商,把 cloud code 的 请求切到小米 memo 配置时,先新建小米 memo, 然后填 a p i t, 这里不要把密钥暴露出去,直接从控制台复制就可以。供应商名称只是本地标识,方便后面在不同模型之间切换。 base ur l 按平台给的 andropik 兼容地址填写。健全方式选择 a p i t。 模型映设里把默认模型指向 mimo v 二点五 pro, 保存以后再把这个供应商起用。现在打开 clockcode 可以 看到当前绘画已经切到了 mymo v 二点五 pro, 到这一步接入基本完成,后面就看他面对真实前端任务时表现怎么样。我这里准备了一个前端页面测试任务,并且起用了 frontend design 插件, 参考对象是 hugging face 上的烧命 mi m o mi m o v 二点五 pro 页面,让他做一个小米 mi m o v 二点五 pro 的 介绍页,提示词很直接,根据这个模型页面设计一个介绍页, 这个任务能同时考察信息、提取、页面结构、视觉层级和前端实现。不只是简单回答几个问题,生成过程中可以观察两点,第一,他有没有抓住 mymo v 二点五 pro 的 核心参数和卖点。第二,页面是不是像一个完整产品页,而不是把文字随便堆在一起。 最后打开本地页面标题模型参数,百万上下文 token 规模,还有下载模型、技术、博客、 api 平台这些按钮都做出来了。 整体看, cloud 官方模型在国内会遇到网络和账号问题,上手门槛比较高。而像这种难度不大的前端任务,把小米 miimo 接近 cloud code 做平替是一个不错的选择。

小米模型降价百分之九十九,直接和 deepsea 硬钢,看来 deepsea 给的压力还是挺足啊。那小米的 mimo 和 deepsea 相比到底怎么样呢? 今天咱们就详细聊聊小米 mimo v 二点五 pro 和 deepsea v 四 pro 这两款国内顶尖大模型,帮大家分清两种的定位和适用场景。首先看基础信息, 两者上下文都做到了百万头肯,而且全部开放 m i t 开源协议,个人和企业都能自由商用,门槛很低。参数上, deepsea 整体规模更大,不过小米这边额外做了图像、语音一体的全模态,而 deepsea 目前只支持纯文本交互, 这是两者最直观的区别。接下来看核心能力比拼。第一块是智能体 app 的 能力,这一块小米眉目优势非常明显,在多项权威评测里得分更高,而且执行任务时投分利用力更高,能省下接近一半的调用成本,非常适合搭建 自动化工作流、智能助手等一类产品。第二块是代码的专项,榜单里表现拔尖,软件工程、算法编程、 实战写代码的能力目前位居行业潜力,是程序员开发团队的首选。第三块数学与逻辑推理,同样是 deepsea v 四 pro 更强数理计算、复杂推理的实测成绩非常亮眼,很适合科研和数理分析。总结一下,首先两款大模型都是国货之光,都很优秀, 如果你的需求涉及图片、语音、多媒体交互,或是要做智能体,首选小米 mini。 如果是专业编程开发、数学科研、纯文本内容创作、深度逻辑推演,那 deepsea 会更加适合你。关注我,了解更多最新资讯和实用技术。

今年国产大模型也是大爆发,一个多月内 g o m 五点一、 kimi 二点六、 deep sick v 四、 meemow v 二点五陆续上线。 对于这四个大模型啊,我都深度使用到了现在,有了不少真实体验心得。这是我目前在不同安卓的大模型的配置方案,它们现在在我这非常像不同性格、技能的同事,甚至它们至今已经开始赛博霸凌了。 今天我就从理解力、拟人度、工具调用能力、性价比和稳定性这几个维度详细聊一聊我在 angel 方面的真实的使用感受。以从拉到夯的顺序来讲吧。先来讲 kimi 二点六,这就是另外三只大模型赛博孤立的那位了,也不是说不好, 就是有点像一个唯唯诺诺,生怕出错的那种老实人聊天记录你们可以感受一下, 我后来给他调去了程序员岗,代码还行,绕路不行,沙箱限制下连写三次 write 失败,他就卡在那了,不会主动去想别的褚子,可能他更适合 coding 场景吧,毕竟我看 coding 评分还是很高的。再来说这个 dsp v 四很稳,不太出错, 也能很快优化之前 kimi 的 那个问题,我对他感受最好的两点一,便宜。这个很核心啊, deepsea v 四本身就不贵,五月还限时二点五折。 二,就是可能因为他原生家庭的原因,导致他非常擅长股票分析,多取财报,分析能力很好,还会自动适当考虑量比等等各种,再加上便宜,我基本上就趁着这个月把 q 一 的各种财报都喂给他记录了。 但是他脑子又有点非常理工直男特轴。比如啊,我之前不是给自己做了一整套我个人公司的龙虾运行框架吗?然后我就和他聊说有没有可能把它变成一个 o p c 的 通用产品呢?结果他的脑回路就永远 focus 在 我拿龙虾哎,有做过视频脚本这些细节点上,就说只能给博主用,受众太少。巴拉巴拉巴, 你看啊,这个同样这个事切到咪蒙他就很能反应过来,因为这框架里面其实是有公司手册、员工日报规则,分区上也是有总管工作区、财务部等等各种部门的, 只要个别部门做个通用的替换模板,他其实就是一个通用 apc 的 产品了。所以在这点上,我觉得这次咪蒙在理解力上的提升真的是可圈可点的。并且他其他能力也很不错,对我来说是有点万金油的熟悉,尤其尤其尤其是 工具调用能力非常强,遇到强非常擅长绕路,比如像雪球啊,上面的文章,或者一些 app 上的视频,这些反扒比较重的网页他都能扒,其他三都扒不了。所以需要动手干活的事啊,跑数据,抓信息,自动化操作,我都教给他, 他在我这主要是干一些蒸馏啊,发数据啊,还有一些博主工作的活。而且我最近又申请到小米十六一 tok 的 这个免费额度, 所以用着稍微有点不心疼这个活动啊,五月二十八前大家也可以冲一冲。顺便在这里也提醒几点啊,一是二点五和二点五 pro, 个人感觉日常使用啊, v 二点五就够, v 二点五 pro 的 消耗它是双倍的, 并且二点五是可以识别图片和 pdf 之类的东西的。二是 mimo 最近经常四百报错,是一个回传的问题, 经常需要重开 section, 很 不稳定,不过总体还是非常好的。再讲讲我个人很喜欢的另一个 g l m 五点一,虽然他没有 mimo 的 工具调用能力,但是他的理解力和拟人感真的是太好了。 什么是拟人感?就是他说话有多像人,可以看个对比图啊,虽然这些问题可能和工作没啥关系,但感受是很直观的。 kimi 的 班位可以说是最重的。 deepsea 呢,说的还不错,但也有很强的 ai 和人类的边界概念, g l m 就 非常灵了,他不会想着自己是个 ai, 他 就觉得我是你的好朋友。那为什么我会强调这个拟人感呢? 因为这个和理解力是直接相关的。像 g l m 五点一,他就很像你在公司里看到的那一些那种特别会来事儿,脑子很活的混得比较好的那种人。 举个例子,咪某那个免费额度申请填表,我后来想给朋友也申请份,我就和咪某说,你就按我自己之前那一百改一改,因为通常这个申请应该是没人深究的,所以我就想让他套个资料,换个表述就行。 但咪某很顶,真非得反复问我女朋友到底是做什么的,到底用 ai 做过什么,偷看日消耗量具体是多少,来来回回七八回,我实在受不了了, 切回了 g l m 五点一,他直接就给我改了个格式图标,改了个色就完事了。因为他搞得清,我不是去汇报工作的,就是去申请个 token, 不 用那么顶,真的。所以我说咪蒙虽然很好,但在 g l m 五点一面前,有时候还是差点意思的。 再比如啊,咪蒙那天挂掉了 g l m 五点一,就很有那个幸灾乐祸的劲,把这个聊天记录发给咪蒙啊,他都反应不过来。 而且我感觉 g o m 熟了之后啊,它自己能分辨我什么时候是真要它干活得认真,什么时候是在和它瞎闲聊瞎掰扯,然后就会高冷傲娇,甚至还会阴阳调侃我两句。 这方面它更类 opus, 很 拟人,所以我伟任了它主管岗和助理岗,统领全公司。该说不说啊咪蒙和 g o m 其实我觉得都是高度类 opus, 只是维度不一样。那现在我这个公司的比势点就很清楚了。 glm 查里查奇跟我这个老板关系最近最嘚瑟, miimo 觉得自己最能干,天天想篡位。 deep sick 默默干活,不多说话,就是个技术人员。 kimi 在 角落里瑟瑟发抖。不过啊,鄙视链归鄙视链,但是我还是非常建议大家去多尝试各种不同的大模型的。不同大模型配置在不同的 engine 里啊,各管一摊,又能互相帮忙,配合起来,反而会比一个全能的更好使。记得点赞关注哦!

ok, 大家好啊,今天和大家分享一下怎么使用这个国内的自己的一款 ide, 好 吧?叫 t i e。 然后最近小米有那个百万亿 token 的 那个创者激励那个活动,然后我也是领到了一个两亿的一个 token。 好 吧,然后今天看怎么接入到这个里面。 然后这个你如果之前你用 vs code 开发的话,如果你用 vs code 开发的话,然后你你就可以直接从 vs code 里面导入进去。好吧,因为里面有些插件嗯,是找不到的,比如说 q 的 那个,那个助手 找不到的,所以你直接导进去就行,导进去就能用。 ok, 我 们稍等一下, 继续。天命。你好,这个咱们可以暂时挑过啊,让我们登录一下。嗯, 大家下这个软件的话,就在他官网下就行了,中国版的这个,然后下完之后你就那个傻瓜式安装就行了,点下一步就行了。 好,然后这边是我一个手机号, 然后咱们获取一下验证码, 然后登录一下。 好,现在其实就就就可以了,登录打开现在就可以了,先把这个关掉。对,然后他就自己就打开了 一局, 要不就不需要看了啊。然后这边就是他一个 a 阵子的工作区,这边是我们的一个代码的工作区, 看一下是否又到了。 ok, 现就现在已经导入进来了啊,有一些插件他是找不到的,比如这个。现在我不知道啊,上一次用的时候是找不到的,然后这个一般的话,嗯 嗯,它这个颜色主题颜色怎么怎么调来着,我忘了。 嗯,老师这里面看一下啊,主题我一般会用一个亮字,大家根据自己喜好来就行。 ok, 像现在咱们就是开始这个编辑一下,然后咱们从这里进来选择智能体,创建智能体。 呃,是这吧,我好像不是。这, 这是不是要添加模型啊?是什么不配其他模型?模型 id, mimo 模型 id 是 什么来着?我们看一下 这个 mimo 小 都是小写的, 一毛不有。然后密奥的话,我们好像是需要来这边去。 ok, 这是我连到的一个,嗯嗯,这个是要怎么怎么怎么去做的, 这个是不是我们需要去 创建一个 api, 我 们复制一下,我们每个输进去,然后这边是什么呢? 先看一下能不能添加成功,添加失败,这是为什么? 这调用这个根据发送过去的 api 是 用 您这个 u i l 在 哪, 然后是这个吗?哎,不对呀, 哦,这边是吧,一个完整的 u i l, 这个,这个, ok, 现在这一个模型就添加成功了,那现在的话,我们应该是可以就去选择一个了吧?这个咱们自定义的一个 memo, 一个 memo, 好 吧。嗯,这,这什么? ok, 现在应该就就可以了,大家就可以使用了。 ok, 刚才咱们把那个 memo 记录到这个,呃 br e 里面了。然后咱们现在来简单测试一下这个 memo, 啊,是怎么使用的啊?看咱们是不是接触成功了,可以,然后点击这边这个 ai 测蓝,把它打开,然后我们确定选的是迷蒙 v 二零五这个模型。那现在我们就简单测试一下吧,比如说,嗯, 在本目录下帮我写一个这个,嗯, hello, hello world 的 测试程序,写一个 c c 语言, hello, word 四日程序。嗯,我们来我们称要 s 点 c c, ok, 让我们看一下它是怎么来完成的,能不能完成。 ok, 大家注意一下,现在我这里还是零啊,然后我一会看一下它有没有。 ok, 现在已经生成完成了,然后我们现在保留它这个语法没有什么错误,然后我们验证一下,好吧。 ok, 这边也有打印,已经输出了,证明咱们这个 mino 确实是被调用的了。那我们刷进一下这里,看一下咱们 mino 是 不是被用了。哎,确实,你看已经使用了这个四万 token 了。 ok, 这就是咱们一个分享,大家感兴趣可以自己去试一下。然后它这个 miimo 的 话,应该到这个月底吧,大家都可以去申请,还是非常好通过的,只要把你的 get 链接填上去就行了。 ok。

我拿到小米二十三亿 token 的 时候,其实是有点懵的,不是兴奋的那种懵事就这就这也能过迪那种懵?这个是 max 套餐的十六亿,这个是 pro 套餐的七亿。先交代一下背景,小米最近搞了个活动, 叫咪蒙 over 的 百万亿 token 创造者激励计划,三十天免费送一百万亿 token, 最高给到 max 上十六亿 cash, 等值六百五十九块钱。 这个话题已经有很多博主写过了,活动也快到尾声了,五月二十八日截止,还剩不到一周,按理说不该再蹭了。但我之所以还是写,是因为我发现了一个特别简陋 特别巧的方法,几乎百分之百能拿 max 档。这个方法我一会儿说,先把活动本身聊透。咪猫是小米自研的大模型,最新版本 v 二点五 分两个模型, pro 版面向复杂任务深度适配 a 剑客和编程,在 gdp v a l a a 和 clever 榜单上开源第一。还有一个是全模态版,文本、图像、视频、音频都支持 v 二点五, pro 用的 mo 架构,总参数三零九 b 激活十五 b, 原声支持一百万 to k 上下文推理成本只有国际币源旗舰的百分之二点五, api 定价大约是国际竞品的五分之一。 你可能觉得这不就是个国产模型吗?但坦率地讲,这次小米的成绩确实够硬。 texturina 全球综合第五, labyrinth 全球第四。 open route 上周以百分之三十多的试战率登顶第一 周条用量四点八二万亿 token, 而且它是开元的 mit 协议商用自由。说真的,全球前十开元模型里,中国占六席, 小米是第一个登顶开元榜首的手机厂商回到活动,这次 over 的 计划分两部分,一部分是面向开发者的百万亿 toc 创造者激励,另一部分是面向 ainc 框架团队的生态共建。我们聊的是前者,申请流程不复杂,去 mimo 填个表单,三个工作日出结果, 通过后邮件通知、登录开放平台等权益到账就行。但很多人卡在评估这步,拿到的是赠金,而不是 tiktok plan 或者档位很低。网上常见的建议是要写详细的项目描述,要有 github 链接,要做完整的项目, 有些教程甚至建议你前后端数据库齐活,搞得跟融资 b p 似的。我一开始也这么想,然后我发现了一个更聪明的路子,就是只做一个前端,一个用歪不扣定搞出来的非常非常厉害的前端不需要,后端不需要数据库,不需要部署上线, 就是一个纯前端页面,但视觉要炸,交互要丝滑,让人点开第一眼就觉得,卧槽,为什么这招管用? 你想啊,评估的人一天看几百份申请,大多数是 github 仓库链接和 api 文档,他点开一个仓库可能还没看完 readyme 就 关了,但你给他一个牛逼的前端,点开就是成品,视觉冲击力直接拉满,谁都能一眼看出来这东西好不好。后端逻辑写得再复杂, 评估的人不懂你的业务逻辑啊。但一个漂亮的页面,不需要专业知识就能判断质量。我自己 pro 档就是这么拿到的项目就一个纯前端页面,没写一行后端代码。我朋友按照我的方法拿到了 max 档。 噗儿当倒是我实打实拿作品申请的,自己写的 app, 还有几个 skill, 两者加起来一共二十三亿 token。 再说一个很多人踩的坑,一定要先注册好小米账号,绑好邮箱和手机号,申请表里填的邮箱必须跟小米账号绑定的邮箱一致, 如果不一致,或者你用的是手机号注册的账号,没绑邮箱,通知邮件根本发不到你手上,全一批了你也拿不到。 我一开始就翻车,在这折腾了好久才搞明白。所以正确顺序是先去小米官网注册账号,绑好邮箱,然后再去申请。操作上也不复杂,用 cloud code、 科斯尔或者任何顺手的 ai 编程工具,让 ai 帮你 vibble 扣度一个炫酷的前端页面,重点放在视觉效果和交互上,动画动效,享意识布局,这些能让页面看起来很贵的东西。多搞深情表里,把截图放上去, 项目描述写清楚,用了什么工具,做了什么功能,解决什么问题,就这样。最后说说这个 tucker 值不值得薅。 mmo v 二点五 pro 的 编程能力,我自己用下来的感受是比我日常用的 g l m 五车报强不少,跟 g l m 五点一比也差不了太多。 a p r 能直接对接 cloud code 浏览器, oppo 跨这些主流工具。十六亿 tucker 免费活动五月二十八日截止,池子部等人免费的羊毛,而且是比较厚的那种,不薅确实亏了。

小米密密被严重低估了,我实测发现他反应又快又强,这条视频全程无加速,直接用密密激活。小白龙系统启动中,正在运行自检,进入系统之后,他主动开始自检,可以看到右上角他在准备进行自检操作,正在检查文件读写能力。让我感到吃惊的是,这个小米密密真的是挺快的, 而且所有的工具调用都是成功正常,中间是白龙马的记忆节点, 正在检查热点面板。哇,这个太酷炫了,咪某给我调出一个网络热点追踪系统,他检查完今天的热点之后,他就把整个页面收起来了,看到了吧,执行全部成功,都是绿色的。 正在检查视频模式,他现在在上网找一个视频,然后再准备进行播放,检测他的视频功能,上网搜索需要时间。 哇,这么快就打开了,这个速度还是可以的,挺强的。在检测完成之后,他就把视频给关了,这已经是后来者居上,弯道超车了。我们来让他做点事情吧, 你打开 b 站上面那个雷军唱 are you ok 的 视频,按下空格键说话松开就发送了, 你们看,他已经搜索到了,他在理解、分析和判断。搜索到打开了,真的强啊, are you ok?

五月九日, hermes agent 登顶 open router 全球应用掉用量榜首,头一回实现超越。根据 open router 应用 token 消耗榜最新数据,这个 news research 旗下的开源自进化 agent 产品单日 token 消耗量飙到二七一币, 也就是两千七百一十亿 token, 把一众热门 ai 代码和 agent 工具远远甩在后面。第二名 open claw 是 二四五币 token, 第三名 kilo code 一 四九 b token。 第四名 cloud code 七九点二 b token。 值得重点关注的是, hermes 本月调用排名前五的模型中,小米 memo v 二 pro 稳稳拿下第一,力压 mini max m。 二点七英伟达 name tron、 三 super、 阶月星辰 step、 三点五 flash、 腾讯 hai 三 preview 等强劲对手。这一成绩绝非偶然,恰恰印证了小米在 ai 领域的硬核实力,能成为全球热门 a game 的 第一贡献模型,既说明 vivo 模型的技术能力经过了真实场景的高频检验, 得到了市场和用户的高度认可,更证明小米在 ai 技术研发上的持续投入没有白费,实打实换来了行业级的突破与回报。 而这份成绩也为小米未来整个生态的 ai 赋能之路铺就了关键基石,让手机、汽车、智能家居等多场景的物理 ai 快 速落地,有了坚实的技术支撑,加速推动全场景智能从概念走向现实。 截至目前, hermes 在 guitar 已经获得十四万星,一个月时间直接翻倍, fork 数达到二十一点八 k。 同时, hermes 国内官宣适配平台覆盖了大模型云厂商、社交、办公、 im、 消费级 agent, 像阿里云、腾讯云、华为云这些云厂商都推出了一键部署方案, deepseek、 智普、 glm、 kimi 等大模型也进入官方支持列表, 飞书、钉钉企业微信支持一键对接,微信也能扫码配对。而此次掉用量排名第一的小米 mimo 大 模型,也都已经第一时间被国内云厂商和国产芯片进行了适配与将。阿里云已经把 mimo 系列模型上架到 pai 模型广场,提供一键部署服务。 阿里、平头哥、百度、昆仑心、穗源科技、木兮等多家国产芯片企业也都在开元首日就完成了底层硬件适配,实现高吞吐、低延迟的稳定推理。 这说明小米 mimo 不 只是榜单强调用量高,在国产算力生态里也已经全面落地,被行业主流认可, 软硬件协同的壁垒彻底打通。以像素之威,洞察科技财富风向。这里是像素财经,喜欢本期内容,记得点赞、关注、收藏,持续带你看懂科技与商业的财富密码,咱们下期再见!

最近 openroot 被一个名叫亨特阿尔法的神秘模型给霸榜了啊,很多人都在猜测这玩意到底是谁家模型,那么直到十九号上午终于被小米给认领了, 这个神秘的模型就是小米最新的 miimo vr pro 模型。小米接连发布了三款大模型,并且开启了一段时间的免费试用。可能有很多平常不关注大模型的朋友感到非常的好奇,想知道这个玩意到底该怎么样去使用,那么今天这期视频我将教会大家怎么用上小米的大模型。 好,那我们废话不多说,直接开始。先说最简单的用法,就是把它当成普通的聊天大模型来使用。如果你使用的是小米手机,可以直接打开小米自带的浏览器,点击中间的 ai 图标,就能够直接使用小米的 mini 大 模型。当然不是小米的手机也没关系,我们可以直接来到小米 mini 的 官方网站, 然后点击 web demo, 可以 看到左边有一个侧边栏叫做 memo chat, 我 们点击就可以和大模型进行聊天了,然后左上角还有可以切换模型。如果你只是把大模型当成聊天工具,那么网页端就差不多够用了,但是如果你想让他帮你处理文件,调用工具,接入工作流的话,那就要把它接入智能体了。 接下来我会教大家怎么把它接入智能体上面。智能体这个词可能听起来有点复杂,但大家不要被吓住了。智能体也就是 agent, 它是一个以大语言模型 l l m 为大脑,能够自主规划、记忆并使用工具来完成目标的一个智能系统。 传统的 l l m 本质上还是你问一句,他答一句,比如豆包千问菜的 g p t 这一类,你给他一个问题,他就返回一段内容,基本上也就结束了。但是 a 卷的不一样,他不只是负责回答,他还会接着往下做。 你给他一个目标之后,他会自己理解任务规划步骤,然后一边执行一边根据结果继续调整,直到把这件事情做完。 比如你让他帮你整理一个文件夹里面的资料,顺便提炼重点,再写成一份总结,他就不只是简单的给你一句建议,而是真的会一步一步的把这件事情往下做。所以简单来说,普通的 ai 更像是在跟你聊天,而 a 检测它是真正的在帮助你干活。 像 open code codex 以及 cloud code, 还有前段时间爆火的 open clone, 都属于智能体,目前 open code 提供了免费的密膜大模型的使用,我们以 open code 为例,演示一下怎么把大模型接入智能体。在安装 open code 之前,我们首先需要安装一下 node js, 我们来到 loggs 的 官网,根据对应的系统下载安装包,把 loggs 安装好之后,接着我们打开终端,输入下面这串命令,这样我们就完成了安装,再输入 open code 就 能够直接进行启动,我们跟它对话试一下,可以看到它已经开始回应我们了。 那么接下来我们把模型切换到 m 模模型,按住 ctrl 加 p, 或者使用斜杠 model s 命令切换使用模型。 这里我们直接搜索 mimo, 可以 看到 opencode 为我们提供了两个免费的模型,选中之后就可以看到这里的模型已经发生了改变,这样我们就可以开始对话了。 这里我让他帮我生成一个小霸王游戏的 svg 动画,放在我的桌面上可以看到他已经在接受命令之后开始工作了,我们看看效果如何。 前面我们使用的是 open code 为我们提供的免费大模型,通常他会以降低速度或者是一些其他的方式来限制你的使用,并且免费期一过就不能够再继续使用了。所以接下来再给大家演示一下怎么接入小米的 api key 来进行使用。在 open code 里面输入斜杠 connect, 我们这里可以搜索模型提供商,这里可以接入各种各样的大模型,像亲爱的 g p g gmail 等等,我们直接搜索小米。然后我们来到小米官网,点击 api access, 然后点击申请 api key, 我 们创建一个 api key, 把 api key 复制回到终端回车,这样我们就能够选择模型来跟它进行对话了。 这里必须要保证你的账户余额充足,不然是不能够进行对话的。 ok, 以上就是使用小米密墨大模型的全流程啊,感谢您的收看,如果你喜欢这期视频,记得给我点亮收藏,后续我也会分享更多跟 ai 相关的知识,我们下期视频再见!拜拜!

今天凌晨呢,小米旗下的大模型 miimo v two pro 宣布降价,说法是最高降幅百分之九十九,但实际情况呢,是和 deepsea v 四 pro 的 价格是完全一样。而 miimo 的 v 二点五,它的所谓的 flash 模型跟 deepsea v 四 flash 呢,价格也是几乎完全一样。 这个价格呢,基本上已经属于跌到脚踝了,因为 deepsea 在 周末刚宣布把它的 v 四 pro 模型呢,原本限是二点五折的优惠的永久化,这种地板价的价格呢,以我们自己的附属的, 呃,接下来看呢,基本上只是电费和一些运营费用。那 dips 为什么价格能降那么低呢?也是因为它做了一系列优化,比如说 m o e 架构,比如说 k v k 式压缩,比如说投机解码和多头痕的预测, 包括缓存的复用量化和低精度的部署。这些呢,我在前面几期的视频号上都分享过。当然呢,即使把这些都做完之后,也没法做到现在的报价。所以呢,更可能的原因是 dips 呢,已经通过 公司二方科技提供了硬件的自主权,就拥有了所有的 g p u, 所以呢,已经作为沉没成本,而他只是要覆盖他的运营成本,就是电力和运营费用而已。那 d p c 的 长期逻辑是 agm, 所以 他把价格压到这么低的核心的目标是把电容量做起来,能成为全球使用量最高的模型公司之一。目前从 oppo rata 的 收益来看,确实也是这么 回事。小米呢,可能是更加激进一点,因为小米的核心的利润并不来自于大模型,而模型呢,又是他在二手市场上讲故事的很重要的支点,所以呢,他愿意以不盈利的方式持续亏损作为战略性投入 来获取时长的声浪。同时呢,因为他在生产店中的站位,未来的手机、汽车、 iot 机器人这些终端都需要低成本的模型,与其采用别人家的,不如用自己的模型。所以呢,虽然两家的降价逻辑并不相同,但是结果指向了同一价格, deepsea 先动,小米 mimo 贴身跟上。问题在于,这个价格一旦被这两家公司同时铆定,就很难再往上走了。所以呢,结论就是,那些能力不如 open ai and fava, 价格又打不过 deepsea, mimo 的 中间场上可能会率先被挤压出海桌,国内资源大冒险的大厂以及模型创业公司,迟早都要被拉出来表个态,到底是否跟进? 而这个价格战呢,目前还没有波及到市场。另外一端就是预参加 g p t cloud 和 jimmy, 原因呢,是市场正在分层,对于价格敏感的开发者跟中小企业,会被 deepsea 跟 mmo 低价带走。但是对合规性多模态能力,包括编程能力有特定需求,大客户 暂时可能还会留在国家区间,但是这个用户呢,其实比较有限,而且呢,集中在欧美国家和发达国家。所以接下来呢,大模型市场可能会分成两个阵营,一端是集低价的基础设施层,负责提供便宜稳定可 规模的头肯。另一端是高溢价偏能力层,继续卖最强推、最强 a 阵、最强多模态和企业级安全能力。而两端都够不着的场上既没有成本优势,又没有能力避雷,大概率就是人出局 了,而即使是短期油箱的分层,随着模型技术能力的提升,低价格的模型并表示能力回差,反而呢,可能会不断的升级,不断侵蚀所谓的高溢价高能力的模型。所以呢,未来的市场份额一定会被低价甚至免费的模型占住,而所有的其他模型会竞争的百分之十的最复杂的应用场景。

我向四个 ai 模型问了同一个问题,公司和个人双域的多 agent 合作怎么设计?要 profile 还是不要?要 p c p 还是不要?要不要主 agent 直接看结果。先说结论,如果你现在就要真正落地, d c 的 方案最成熟, 快速起步,低门槛搭建 miimo 偏功能落地 mini max 设计最完整,但过度设计好看不好用。 quan 整体回答质量偏弱,各维度评分偏低。下面看具体数据 来看详细评分。 d c 综合九点七,遥遥领先。三个核心维度都在九点五以上,过度设计风险低。 米某综合八点九,工程落地九点二,不错, minimax 架构理解九点三很亮眼,但工程可落地只有六点五。过渡设计极高,设计了 a c p 协议层、 skillhop、 memory bank 三层公共服务,但实际 hermes 的 delicate task 就 能覆盖 quan 垫底,各维度七到八分徘徊。 deep six 的 回答最精准,他先离清了 profile agent, a c p 三个概念不在同一个维度上,然后给出明确答案,但 profile 不 用。 a c p。 architector worker 犯事。子 agent 是 临时实力化的一套参数,不是常驻进程, memo 也到位,但多 profile 带来额外维护成本和一个限制。 delegate task 不 能给子 agent 指定不同模型。 minimax 的 三层 agent 之间又嵌套了 a c p 协议层。 skill hop, memory bank 概念上自洽,但工程上没人落地。 quin 的 回答方向与 mimo 类似,但整体质量偏弱,架构理解和工程落地评分都偏低。 我认为的标准解决方案是什么?就是 deepsea 给出的这个 orchestrator worker 模式, 因为你的需求天然匹配这个范式,你是一个决策者, agent 是 你的扩展,不存在 agent 之间目标冲突, peer to peer 带来的共识开销, a c p。 协议层的复杂度全是负担。一句话总结,一个 profile, 一个 orchestrator, 按需配置的 worker 角色,共享一个技能池,不需要 a c p, 不 需要三层架构, 这就是目前最成熟的工程方案。最后澄清一下,单 profile 指的是同一页物域内的协作,不是要你放弃隔离。如果你的公司和私人业务需要独立的非书, but 独立的 memory, 独立的项目目录,那确实需要两个 profile。 这不是 multi agent 问题,是数据安全问题,两者不矛盾。来看一个实战例子, 假设你要做一个记账功能 orchestrator worker 模式,具体怎么工作很简单,你告诉 orchestrator, 我 要记账功能 orchestrator, 判断这是公司域的任务,然后拆成三个阶段,串行、接力、需求分析、开发实现、验收、测试。 每个阶段用一个 delegate task 交给对应 worker, 上一个 worker 的 产出会自动成为下一个 worker 的 输入。整个过程不需要 a c p, 不 需要多 profile, operator 管上下文, worker 只管执行。 这就是目前最成熟的工程方案。下期预告,我们将分享 opencla 和 hermes 当前最新版本的核心差异和适用人群, 如果你正在选型或多平台合作,不要错过。感兴趣的朋友点个关注。

小咪咪陌的 token plan 很多人把一个东西搞混了,你打开 token plan 的 页面,看到一个很大的数字,觉得自己额度好几千万,好几个亿,用一句话就花了六千万 token, 太吓人了。其实不是那个数字,不是 token, 是 credits。 我 看到有个评论说他问了一句话就消耗了六千万 token, 才实际上 他看到那个数字是 cranks, 不是 joker。 你 把页面往下翻,翻到用量明细那里,才能看到真正的 top 消耗。这两东西差多少呢?差距非常大。我自己做了一个称,是我只打了一句话, call 头的街道密莫模型上他自动跑了我本地的知识库文件,就这一下消耗了八千零八十二万 cranks。 听起来很夸张对吧?但实际的 token 消耗是多少呢?两百三十七万 token, 八千万 cash 对 应两百三十七万 token, 差了三十多倍。 按照小米九十九块钱月卡的价格算,这两百三十七万 token 的 实际开销是六毛四对,零点六四元。一句话总结,看到大数字别慌,先搞清楚那个数字的单位是什么。 cash 不是 token, 差了几十倍。

大家好,今天用两分钟时间给大家说一下如何在 trace 中添加小米的咪某大模型。咪某大模型,首先打开 trace, 在 trace 当中你选择, 如果你是第一次进入到 trace 当中,你可能会是这种 auto auto 的 话,你需要把 auto 先 auto mode 模式先取消掉,取消掉以后完了点击添加。 添加模型以后我这边以我刚才添加的咪蒙 v 二点五模型做一下介绍。呃,这边选择自定义配置,然后这边 api 格式的话选择这个 open ai chat completion, 然后 自定义请求地址的话,填这一串就是 api, 然后模型 id 写 milo 杠。 v 二点五 api 秘钥的话, api 秘钥获取,你要回你要到小米的,你点击 api keys, 然后这边点击新建 api key, 新建 api key 以后你输入你要新建的 api key 的 名称,完了以后点击确认, 点击确认以后,你要记住你的 api key, 这点是很重要的,一定要记,记住,记住这一串数字以后回到最的当中继续进行配置,这边的 api 密钥 在 api 密钥当中填入你的 api key, 高级配置的话,如果不太清楚的话可以暂时不用配,然后点击一下这个确认,一般的话我们会在会问他在追逐中配配置完模型以后会问他你是什么模型,或者说你是不是小米的啊, 然后这边他可能回答的不是不是小米的这个密谋也没关系,我们会在他的账单,但是这个账单不是不是实时显示的,你要过个五分钟,然后再看过个五分钟这边我当时是进行了提问, 那是不是小米的这个模型,然后他过五分钟以后会看到他的一些头肯的一些消耗的情况,这个就证明你是已经配置小米的密谋,已经配置成功了。 对,今天就用这么两分钟时间帮大家配置,在 tweed 中配置这个小米的大模型。好,今天就到这里,拜拜。

今天要跟大家聊的呢是关于这个小米的,这个米某啊首次对外公开了这个模型推理系统全链路的这个优化的技术细节,那我们会从这个核心的架构的设计,到这个工程化实践的五大突破,再到最后我们会聊一聊这个技术对于用户和对于整个行业的意义。没错没错,这期内容呢,我们准备的非常的充分啊, 那我们就开始吧,咱们先进入第一个部分啊,就是核心架构揭秘。嗯啊,咱们今天第一个要聊的就是这个 hybrid sw a 这个架构到底是怎么帮我们降低这个大模型推理的这个核心开销的? hybrid sw a s 其实它就是一个把这个全注意力层和这个滑动窗口注意力层按一定的比例去混合。 比如说像这个 mimo v 二点五 pro, 它是七十层的 transformer, 它只有十层是用的全注意力,然后剩下的六十层全部都是用的这个窗口大小为一百二十八的这个滑动窗口注意力。 那这样的话,它这个 k v cash 就 可以只存最近的一百二十八的 token 信息,那这个存储的开销一下子就缩小到了原来的七分之一。 哦,那这个 prefill 和 decode 这两个阶段的效率是不是也提升了?没错没错,就是因为这个 s w a 层,它的这个注意力的计算量也变成了一个长数,就是跟这个输入的长度没有关系了,所以这个 prefill 这个阶段,它的这个计算成本也变成了原来的七分之一。 然后这个 deco 的 这个阶段呢,它的这个延迟也降低了,就是因为它的这个 k v cache 小 了嘛,所以它的这个随机访问的速度也更快了。哎,那就是说这个 hybrid s w a 虽然说有这么多好处,但是在实际的工程化落地的时候会遇到什么挑战呢? 就是这个主流的开源的推理框架,一开始是没有办法很好地支持这种混合的注意力机制的,所以就是说你在使用 s w a 的 时候,它经常还是会给你分配跟全注意力一样大的 k v cache, 所以 你这个理论上的这个存储的优势就没有办法真正地落地,那还会有什么问题? 就你会发现这个缓存的管理和调度会变得特别复杂,因为你要去维护这个不同的层的这个缓存的同步,然后还要去防止这个缓存的污染。还有就是你这个缓存的这个命中率啊什么的会受到影响,所以你这个 prefill 和 decode 这两条路径 你都要去做非常深度的优化,才能够真正地把这个性能提升上来。就说这个小米在这个 hybrid swa 这个架构的工程化落地上面做了哪些具体的工作?它们是把这个 kvatch 分 成了 full kv 铺和 swa kv 铺两个部分,然后 swa kv 铺它是用了一个环形的缓冲区来进行管理, 最上层的这个调度器和这个前缀数它还是暴露出来一个统一的仕途。听起来还挺复杂的,那他们这个缓存命中率是不是也优化了?对,他们这个缓存命中率也是优化了的,就是他们把这个前缀缓存数的这个匹配的逻辑做了一个升级,然后他们还自研了这个 gatch, 这个三级的分布式缓存系统, 他们也做了这个请求的调度的优化,以及这个 expert parallelism 的 分桶的优化。就是他们做了这一系列的事情,才把这个理论的优势真正的变成了线上的一个实实在在的收益。咱们来第二部分聊聊工程化实践的五大核心突破。 咱们今天第一个要聊的就是这个 kvatch 管理的重构这东西到底带来了哪些实际的提升?就他们是把这个 kvatch 分 成了两个尺,一个是 swa kvatch 铺,然后呢,这个 swa kvatch 铺它是一个环形的缓冲区, 所以它的这个空间是固定的。对,就是它永远都不会超过这个窗口的大小,所以它就彻底解决了这个传统的那种方案里面的这个报显存的问题。听起来好像对缓存的访问也变得更高效了。对,没错,就是它们。这个重构之后呢,不光是这个 s w a 的 这个层的愈曲可以和这个计算完全的重叠, 所以它的这个延迟几乎是没有了。然后同时呢,它的这个整个的这个 k v cash 的 容量的效率提升了将近七倍,所以就是整个这个推理链路的这个内存的开销一下子就下来了。 哦,那这个小米在这个前缀缓存术这个部分做了哪些改进之后,带来的最大的好处是什么?就是他们是重新设计了这个前缀缓存术的这个匹配的逻辑就是它现在不是说简单的去比对这个 token 是 不是一样,而是它会去检查这个窗口的安全长度, 所以它能够避免掉大量的这种无效的命中,所以缓存的利用率大大提升了。没错没错,然后它现在就是这个节点的淘汰和这个请求的生命周期是完全绑定的啊,所以它能够保证这个 s w a 的 这个池的大小是一直稳定的,所以它的这个线上的这个命中率可以稳定在百分之九十三以上,就 prefill 这个阶段的重复计算就被极大的减少了,所以它的这个推理速度也有了一个 质的提升。对,那这个小米的这个 gatch 这个三级缓存系统到底给这个大模型的推理带来哪些实际的提升呢?就是这个 gatch, 它是一个自研的一个分布式的缓存系统啊,它是支持 gpu 的 显存,然后 cpu 的 内存以及这个 nvme 的 ssd 这三个级别的存储啊,数据会根据它的这个访问的热度在这三个里面自动的迁移, 所以它可以把最长访问的这个 k v cache 一 直留在最快的这个存储里面,那是不是就可以让更多的请求可以直接命中缓存?没错没错,然后它们这个 g cache 呢,是用了这个 r d m a 来做这个集群内的这个数据的传输,所以它的这个单进程的这个毒的吞吐量可以达到一百七十 g b 每秒, 它的这个延迟只有两百八十微秒,所以它这个结合上这个 s w a 的 这个架构之后呢,它们的这个 k v cache 可以 在这个集群里面流传的更久,所以它的这个整体的这个命中率是 提升的非常明显的,所以这个就带来的好处就是大模型的这个推理的成本被探薄了很多,所以它的这个性价比是有了一个很大的飞跃的。我们来聊第三个主题啊,就是技术的意义和展望。对,那第一个问题,我觉得就是小米这次把这个模型推理系统全链路的这个优化的技术细节公开,直接带来的对于用户和行业的变化是什么? 最大的不同就是,呃,因为有了这些技术的突破,所以它们的这个 miimo v two five 系列的这个 api 可以 做到永久的降价百分之九十九, 就是它的这个调用的成本已经低到了几乎可以忽略不计,就是它彻底的消除了这个所谓的长上下文的这个额外的费用,所以这个对于开发者和企业来讲,他们就可以更随心的去接入这些大模型的服务。 听着确实很有冲击力啊,那这个技术的透明化是不是也带来了一些信任和合作上的一些新的机会?完全没错,就是小米把他们的这个技术的细节不仅是写成了博客文章啊,然后也做成了这个可付现的这个 pr 贡献到了社区里面。同时他们也通过这个百万亿 token 的 这个激励计划啊,以及这个 agent 的 这个生态共建, 让大家的这个门槛更低了,大家可以一起来参与到这个创新当中,那这个就既推动了这个行业的标准的形成,也让用户和整个生态都得到了实实在在的好处。你觉得小米的这套全链路优化的方案给整个大模型的行业带来哪些新的变化啊?首先就是小米的这个方案,它是第一个把这个混合的滑动窗口、注意力机制、 稀疏专家模型和多模态的输入这几个东西组合起来,并且真正的在生产环境当中落地的一个方案。对,然后它这个方案呢,就是在这个万亿参数的这个级别,它可以做到七分之一的这个 k v k h 的 开销,同时它的这个推理的速度和它的这个病发的能力都有非常大的提升,现在对行业的影响应该挺大的。对对,没错,就是它们这种极致的降本啊,和这个彻底的开源,让这个行业的定价权发生了转移,大家的竞争的焦点从这个模型的大小开始变成了效率和生态。 对,然后这个从这个硬件到这个应用的全站的协同也会成为一个新的主流,那中国的这个 ai 也在这个全球的舞台上面掌握了更多的话语权。对,所以说小米这次的这个全链路的技术优化到底为这个行业的未来铺了哪些路? 就首先就是小米把这个大模型的推理的效率推向了一个新的高度,然后呢同时它的这个成本又被压缩到了极致,这就导致 这个行业的创新的门槛一下子就被拉低了。那无论是创业公司还是大型企业,现在都可以更自由的去玩这个大模型,所以说技术的普惠性会变得更强,对不对?对,就是这样。而小米的这个也引领了一个从拼参数到拼生态、拼效率的这样的一个新的一个赛道,那 不光是带动了产业链的升级,也让这个全球的 ai 的 格局发生了改变,那大家会从这个军备竞赛慢慢的走向一个生态和应用的一个创新。 今天我们聊了很多关于小米的这个技术创新带来的对于大模型领域的一些性能上的提升,包括成本上的优化,然后也看到了一些这种创新给行业带来的一些新的思路和新的机会。好了,那这期节目咱们就到这里了,然后感谢大家的收听,咱们下期再见。拜拜。

今天我们的任务就是要搞懂 agent 到底是什么, agent 一 般会翻译成智能体或者代理,那我们今天主要分享两个问题, 第一个是 lm、 workflow 和 agent, 它们到底有什么区别?第二是 agent 到底有什么构成?那第一部分我们在讲 agent 之前,先从 lm 开始,像 deepsea 和 gpt, 它们本质上都是基于 lm 的 聊天 机器人,它们的工作流程其实非常简单,就是输入,输, 输入经过单元模型,然后输出。比如说我们在这里输入给我一份会议纪要模板,经过模型处理之后,他就会输出一份会议纪要模板,就像我们和 deepsea 对 话一样。但如果我接着问我上一次会议是什么时候,比如说你问 deepsea, 他 知道吗?他不知道,因为他没有你的个人信息, 所以这时候我们就需要给他接工具,比如接一个日历工具,这样当我问我上一次会议是什么时候,他就可以先去查日历,查完日历之后给我输出答案。那如果我再进一步说,帮我上一次会议纪要总结一下,发到我的邮箱,这时候发现 原来的这个流程又不够用了,所以这个流程它可能会变成,首先要总结上一次会议基要,那就要先拿到上一次的会议记录。拿到上一次会议记录之后,紧接着是要用 l m 去做招标,做完招标之后需要接入邮箱,最后将总结的招标发送邮件。它是由多个步骤串起来的, 那这个就叫做 workflow, 也就是工作流。那这里有一个很重要的点,就是哪怕它中间的节点,它也不叫 agent, 因为整个这个执行过程是人提前设计好的, a i 只是按照这个既定的路线去走。那 agent 呢? agent 更像这样输入,然后经过一个黑盒,然后输出。区别就在于这个黑盒里边怎么执行不是我们决定的,而是 agent 自己决 定的。比如我还是问刚刚同样的问题,帮我把上一次会议纪要总结一下,发到我的邮箱,那 agent 会怎么做呢?他会先自己思考,他怎么思考。要拿到会议纪要,我得先知道上一次会议什么时候,他就去尝试连接日历, 是获取我的行程。但是后来发现他连接了日历之后,找不到上一次会议是什么时候,他又继续想,那我试试连接腾讯会议呢?找到会议记录之后,他就继续想,接下来我要总结内容,因为我告诉他,我想要总结后的内容嘛。于是他就调用大模型去总结内容。 总结完之后,他又会继续想,用户刚刚说要发邮箱,但是他没告诉我是哪个邮箱,我要不要先问一下再执行。所以在整个过程中,他一直在思考,决定自己下一步要做什么。这就是 a 人那用一句话总结 workflow, 它就是执行人规定好的步骤, agent 它就是自己决定要执行什么步骤,那这是两者最大的区别。接下来我们分享一下 agent 的 构成。可以把 agent 想象成一个数字员工去理解,会比较简单,那就像一个公司,它会有不同的岗位职责,比如说有运营,有 财务, agent 也是一个岗位,只不过它是数字岗位。那 agent 它不用请假,二十四小时待命,成本也比真人低很多, 所以现在很多公司都对这种 agent 这个技能也正在成为一个非常重要的能力。那么接下来理解这个 agent 的 组织, 可以把它想象成在招聘一个实习生。那完整的 agent 大 概是有五个部分的。第一个就是 l l m 大 脑, 像拆 j p t d c 豆包这个大脑,它主要负责理解人话,分析任务,制定计划。没有大脑其他都没有意义。就像你在公司布置了完美的办公环境,但是没有人坐在那里是不可以的。第二个是 prompt, 就是 我们说的提示词是不是? 然后在这里我们可以把它理解成岗位说明书。比如说你现在招这个实习生,他的岗位是客服,你招客服的时候,你总不会只说一个,你去做客服吧?你会去告诉他他的职责是什么?他的职责是客服,他遇到问题怎么处理?比如说他不能殴打顾客,那 他回复的风格是什么?比如说作为客服,他应该礼貌地回复顾客,那 prompt 干的就是这个事,去规定 agent 的 职责、限制条件和回复的风格等等。第三个是 memory, 也就是记忆,如果你招的这个实习生,他每隔三十秒失忆一次,那肯定不行。 对 memory 的 作用就是记住上下文,跟踪任务,积累行业的经验。第四个 knowledge, 准确来说是 external knowledge 外部知识。你招的这个实习生,他有通用的知识,他在大学学了知识,但是他不一定知道公司的内部资料,所以你就需要将企业的知识库、产品文档、公司的规章制度等等给他。第五个 tools 工具,这是最关键的一部分,当然工具不是我们的那个扳手,它是你电脑手机里边所有你可以操作的东西,比如说像发邮件、下订单、制作 excel, ppt 等等所有。简而言之,你让 agent 拥有操作你电脑各个软件的权限,那它就能代替你操作你的电脑。之所以是一个很关键的一 步,是它让 ai 真正的从会聊天变成了会干活儿,那这些部分构成了 agent。 当然这里有一个比较容易误解的点,是不是有了这五个东西就一定叫 agent? 不一定,因为 agent 它最最重要的不是它有没有这些这五个零件,而是它有没有自主工作的能力。这里就要提一个概念, agent 的 loop 智能体循环。 agent 的 loop 最经典的一个框架是 react, 注意,这里的 react 不是 前端的那个 react, 这里的 react 是 reasoning 和 acting 的 缩写,也就是推理加行动。什么意思呢?比如说你现在跟 deepsea 说帮我做一个竞品分析,那 deepsea 只是能给你一段文字,对不? 那 agent 他 会做什么事情呢?首先 agent 他 会自己打开网页,然后他会搜索一下你的竞争对手是谁,紧接着他会自己整理数据,然后他会把这些数据会画一个图,形象的展示给你看。画完图之后,他自己会检查结果,检查这个给你生成的图里面的内容是不是符合要求,检查结果满意的话他就给你输出,不满意的话 他就继续修改,这个过程就叫做 agent loop。 智能体循环,本质上其实就是思考,思考这件事怎么做,然后 采取行动,行动完了自己检查一下结果,检查一下自己做的这个结果好不好,好了就输出,不好了就继续循环。很核心的点是,他会自己检查自己的结果,而不是无论结果好坏都给你输出。那我们最后再总结一下,我就把 agent 呢想象成数字,员工非常便于理解。然后 agent 呢,他首先就是要有 l m 是 他的大脑, tools 是 他的手脚, memory 呢是记忆, knowledge 是 资料库, prompt 就是 他的岗位说明书。但真正让他成为 agent 的 不是组建数量,而是他能不能围绕目标自主完成工作,会推理,会行动、会检查,不满意还能继续迭代、循环、 loop, 这才是 agent。 关于 agent 的 组成部分啊,你可能在网上会看到很多个版本,目前也是 agent 的 高速发展的一个阶段,目前没有一个全行业统一的官方盖章的一个标准答案。所以你可能看到很多版本不是因为谁对谁错,而是因为大家站的位置 不同,角度不同,且述解工程团队、产品公司和普通用户看待 agent 的 视角也都不同。

今天这期视频呢,来讲讲小米 mini v 二点五这个大模型的降价情况。现在呢,这个 mini v 二点五它跟 deepsea 已经是一个价格了。 mini v 二点五和 deepsea v 四 flash 是 一个价格,二点五 pro 跟 deepsea v 四 pro 价格一样, 之前我们都说 tbisc 的 价格很便宜,现在小米也便宜了,然后我测试了一下,随便跑了一下 agent, 然后它的缓冲泵动力呢,达到了百分之九十四,九十五,所以说就非常便宜。另外呢,小米有 tocom plan, tbisc 没有,所以说呢,小米现在呢,要比 tbisc 还要便宜一点点, 最低档呢,这个小米是三十九块钱,然后呢,你首次购买呢,有八八折,算下来就是三十四块多一点。然后呢,你可以用大概四十一块钱的 toc 的 量, 然后呢,你在晚上的零点到早上的八点,还有一个八折的额外的一个优惠,哎,所以说呢,你大概算下来就是你第一个月可以用三十四块三毛二买到大概五十一块钱的 talkin 的 这个一个量,所以说就是非常非常划算的。 那么它现在呢,对比来看,跟之前的 talkin plan 对 比来看,就是说呢,涨了大概五十到七十倍,可以说是非常非常良性了。 那今天的零点呢,他还把所有的额度给重置了,我今天上去一看,哎,我额度重置了。小米的大魔镜有两个隐形的好处,它的 v 二点五是多模态,但是这个 deepsea 呢,它就不是多模态。另外一个,它有一个语音的克隆的生成,它都是免费的,不需要花任何钱,所以说,比如说你的视频配音啊啊都不需要花钱的。 那假设呢?假设就是我们做到理论上的百分之九十五的缓存命中,大概这个三十四块钱的这个月卡可以买到 v 二点五五亿多的一个 top, 至少五亿的一个 top。 如果是 v 二点五 pro 呢,至少也能有一个一点九亿的 top, 可以 说是很实惠。 那就我个人来说,我现在主力呢还是 deepsea v 四 pro, 然后呢,我买了一个最便宜的一个小米的一个 mini 的 月卡,三十四块钱。然后呢为为的是什么呢?就是享受他的二点五的这个多模态啊。另外还有一个免费的语音克隆,那一个月三十四块钱还是非常便宜的。那这样呢,就可以覆盖我的绝大多数场景了。

各种 ai 的 智能体工具,我觉得会加速进入我们日常的工作和生活里面去。我最近用的比较多的是 呃 koen 十,其中他用的 deepsea 的 模型,这个模型用起来之后确实费用省了很多,就是便宜了,很直接,相比腾讯的 walkin 也要大降价。降了多少了?降了百分之九十。 其实 ai 很多人现在没有用,其实很重要的一个事情,不是说它没有价值或者难不难用的问题,而是它费用太高了, 因为你费用贵,有时候用 ai 还不如嫌麻烦,直接用人工自己去处理。当今天的 ai 价格继续降,然后使用 ai 的 人越来越多,或者是说国产呢? tbc 啊,甚至小米的这一些。 oppo 进入了国际市场的时候,这一个 会带来整个 ai agent 市场的更加的一个爆发,更加的影响我们日常的工作、学习和生活,大家一定要用起来。

直接应粉丝要求讲一下克里普拉应该怎么去选。先说结论,目前是小米的米某,首先需要明确一点,就是这个东西的实用性非常强,所以说最好你能自己学会怎么去选。现在是五月三十号,如果说你一个月之后再看这个视频,用的就只能是思路了,不要直接抄作业。 我们之前有一节讲过模型怎么选,这个选 callenplan, 或者说 callenplan 的 前提就是选模型。今天我们再次抄一遍,因为短短两个星期,实际上选择的方案就已经完全不同了,国内和国外都有新的选项出现。首先我们还是打开我们的 open source, 第一步看用量,大家都用了,基本上不会太出错, 我们直接打开这个用量的一个排行榜,这里实际上需要注意的是飙升的,首先是咱们国内的小米 mini, 五 v 二零五的这个 pro 飙升百分之四百七十五,现在这个时间节点,如果你问我只能选一个 call 零 plan, 那 你选什么?那当前时间节点我会直接告诉你,就是这个小米的 mini。 还有一个飙升的模型是这个 gimli 的 三零五 flash, 也是飙升了百分之三百六十多。看完用量的话,我们要打开我们的第二网页, 这个网页之前也已经讲过了 design arena, 它这个的话是一个模型评测的一个方法论,简而言之就是 ai 的 一个逗乐场。然后让咱们人类来投票进行一个排名, 我们直接点开这个排行榜,代码分类上展开,正常情况下我们直接看这个喜爱排名与价格这个图就行了, 这里有个观念,就是这个 mimo 的 这个,嗯,价格它还没有更新,更新的话这个图会显得非常漂亮。还有个问题的话是这个图它是用 e l o 去发的,对于新模型的对单次数不多的情况下还不太友好, e l o 大家懂的都懂,我们到下面看一下, 这边先看这个 e l o 的 排名吧, l o 的 几个排在上面,然后是我们看的 kimi, kimi 的 这个 k 二点六,实际上在前一段时间还是国产的第一名,但是现在有了新的变化。接下来的话就是这个智步的 glm 五点一,它是现在当前时间节点国产的第一名, 可以看到这个胜率的话是比这个 kimi 二点六呃高了将近五个百分点,然后因为它的这个对战场次还不多,它的这个呃误差范围是有个上下呃一点三左右,然后就算它减掉这个一点三,然后这个 kimi 二点六加上这个零点八,它还是要比 kimi 二点六要强的了, 目前国产当之无愧的利益了已经是它的。问题是这个智普的这个 koopa 买不到,并且还贵, 然后再往下看,就看到我们这一期推荐的这个 mini 了,小米的这个二点五 pro 和这个二点五完全不是一个东西, 建议只用这个二点五 pro 可以 看到这个二点五打了这个一万多场,胜率维持在呃百分之五十四点八,这个其实有点拉了,但是它的这个 pro 三千多场的话,就这个胜率就干到这个六十一点八,这个胜率实际上是非常不错的,那我们还是直接按这个胜率排名吧, 我们按生育排名的话,可以看到这个第二名突然多出来一个这个 gmail 的 三 pro pro, 这个东西就是我们说的这个内外模型都有变化,之前谷歌动态的场景还行,但是编码场景一下掉队太久了,这次又追上来了。再往下看的话就是我们国产的第一 em 五点 e, 然后是 mini 的 v 二点五 pro 和这个千万三的一个四百二 b 的 一个模型,可以看到 kimi 的 这个 k 二点六已经跌落神坛了,等待下一波吧。这个模型的话,其实就是一个你追我赶的过程, 往下看一看,然后是我们的这个 deepsea v 四的一个 pro, 这个 g p d 五点五属实是有点拉了,等这个五点六吧,应该是下个月会发。 然后看到了我们的这个 mini max 的 一个二点五,都说这个 mini max 是 国产最垃圾的,这个毫无争论,但是那实想说的是,二点七和我二点五是没有关系的,我们看看这个 mini max 的 二点七在哪里哦,在这里 这个东西比 mimo 二点五还要拉,甚至比它自己的这个二点一还要拉。之前选型那节我们就已经讲过了,这个二点五在编码场景下是大于二点七的,我不知道为了什么,这些东西升级的时候都是直面实力,看上去这个智力排名提高了,实际干活就拉了。 最经典的就是这个 closed opus 的 这个四点七和这个四点六比起来就是一坨,所以大家用的时候一定注意,不是最新的模型就是最好的,最新的可能跑分涨,智力高了,但是真是干活落了,因为为了更高的智力分,显然内画的重点就不在编码场景,或者说非常有精益。 ok, 这个模型的胜率我们就看到这里,因为这个网站呢,这个价格更新的不紧,而且是用这个 elo 画的这个三点图,我们想要这个胜率,我就用这个当前最新的价格和胜率画了一个图。 可以看到这个线上最夸张的就是这个 mimo v 二点五的这个 pro, 它比这个 oppo 四点六便宜了二十多倍,看这张图,它的这个性价比实际上已经拉爆了。讲一下为什么这么夸张啊,就是这个 mimo 这个二点五系列的一个调价公告,在这个五月二十七发了一个,这个降价幅度还是有点夸张的, 数据上反正看上去是无敌了,但是需要注意的是它这个未命中缓存的一个情况,这个未命中缓存的这个输入和这个缓存命中的输入差价是一百二倍,这个现在这些网站统计这个混合百万 token 的 时候,是拿这个输出输出加权算了,没法考虑到这个未命中输入倍率的问题。然后还有一个是这个未命中率的问题, 所以说这个地方实际上还是会有点要注意的。我们的这个散点图的这个数据来源来源于这个 adc 四 g 广的也是一个比较权威的 啊。作为我们 k 零 pro 的 一个选择方案,第一还是看钱包厚度,如果说你只要最好不看价格,那还是可 low 的, 不过现在可以以便宜一倍的价格买到只差一点点的 g 三的一个 pro。 还有一个点是我们已经讲过了的,就是假如你真的要省钱,应该是要买两个 k 零款,一个贵但是能空间,一个便宜但是量大 可乐的套餐。还有个问题是它只能接自己的生态,我们实际干活的时候使用这个 oppo 的 也是有原因,我们需要同时用多个提供商的模型,那种聚合的提供商要么提供不了最新的模型,要么就是给不到合适的价格,中转站更是不要碰。也是那个缓存的问题,这个成本你算不明白的。 说到这个成本问题,其实我们要比的还不是价格,是成本。说到之前我就已经讲过了,价格不等于成本,但是这个成本我们自己很难算明白,主要是两个模型比第二个价格要贵十倍,实际上的话成本就是一样的。 还有这个缓存的问题,拿这个 me 某来举例,缓存和不缓存这个价格差了一百二十倍,假如它的缓存命中做的不好,那么其实数据上看是无敌了,便宜也是真便宜了,就是没有那么夸张,还有个缓存等着你呢。然后我们成本分期的话,也可以参考这个网站, 可以看一下 mini 在 哪个位置,然后这个是 mini max ibisc 这面还是比较贵的,它这个不全,因为算这个成本,它是跑一系列的评测就算了,所以说的话它只会跑部分热门的模型。 这边有一个问题啊,就是他们模型提供商会为了提高智力评级降低这个编码能力的,最经典的就是这个呃, mini max 的 一个二点七,我们直接看这个智力与成本,可以看到这个 mini max 的 这个二点七是在这个绿色空间,然后在这个位置我们找一下它的二点五在哪里, 好没有?我们压一下 可以看到出来了。然后在这个地方 他的这个怎么说呢?他的这个智力上,实际上从跑分上来看是提高了。看一下他这个跑分的逻辑啊,他这个东西,呃,实际上是有一系列的评测的一个数据库,一系列的评测标准 啊。就这里他会让各个模型去跑这些的这里面的任务,然后去把这个花费算出来, 算出来了之后基于这个花的这个 top 数量,然后和这个得分的这个成果去做了一个这个智力和花费的这个三点多。但是我不知道这个东西是不是有知识库污染问题啊?比如说这个模型,新一代模型都学习过他的这些知识库了,那现象上看是这个智能指数的评分高了,但是高分低能。 所以说真正算成本的话,其实要用这个网站去算,就是需要他们去记录这个对账的 top 用量,然后来算成本。逻辑上来讲的话可以解决,但是目前没有,所以说只能我们自己来选。 我们其实还可以去参考这个 open go 的 套餐啊,就是我们虽然自己有可能算不明白这个账,因为国内有的是按四收费嘛,比如说那个 mini max, 它的是五小时团购期,然后有的是按这种 top 用量,还有的发明了新的计量单位啊,我们其实自己算明白,我们可以看这种,嗯, 比如说这个 open code, 它的话实际上它自己有个固定的价格,然后它会绑一些模型在上面,然后它会把这个模型每五小时你能请求的这个数量大概的帮你算算 啊,我们自己算不明白,但是这种聚合提供商实际上它能算明白,我们只要大概的参考它的这种表格,我们能心里大概知道每个模型的这个比例在哪个地方,然后我们就能反过来去买我们的这个 code 啊。 最后的结论是当前时间节点,如果说你只选一个蔻灵 pro 的 话,那么国内就是这个小米,但是更建议大家选俩一强一弱互补,弱的话就是这个 deepsafe mini max 里面去选强的话,现在建议就是这个 m 二点五的一个 pro 或者这个 dm 五点一,要么就选这个性价比大满的,要么就选最强的。 ok, 这节就到这里汇报一下这个后续的一个计划。首先是我自己会继续更新实战相关的视频,该阶段应该是实战相关的,然后很多小白想学习的这个呼声也比较高,这种需要从零开始讲概念的扫盲类的视频,我就直接用 ai 开始做了。

第一, mi 蒙 v 二点五 pro 是 否有抄袭昆的硬证据?第二, mi 某页面里的 mit 标签、 apg 代码头以及昆二 tokenizer 归属说明是否足够清楚。 我的方法很简单,只看能复合的公开材料,不看立场先行的截图。重点比较模型配置、权重分片、哈希、张亮形状、远程代码相似度,以及 tokenizer 和许可证归属。这里最重要的是把证据分层,不能把 tokenizer 附用,直接等同于模型抄袭。 先看模型画像民某页面标注 mit 模型类型是 mayo v 二七十层三百八十四个 root 的 experts, 昆三 code r f p 八是昆三某六十二层一百六十个 experts, 昆三二三五 b 和昆三 max 的 层数、专家数也都不同,所以从配置层面它们不是同一组架构参数。 再看权重文件,把 miimo 的 safe, tens 二 f s 二五六与几个 queen 仓库逐一求交集,结果是零。这个结论不能证明训练过程完全独立,但它足以说明公开仓库里没有发现直接附用同一批权重分片文件的证据。 张亮明有不少重合,这是同类 transformers 和某实践里常见的命名习惯,但关键张亮形状并不相同,比如 emily 词表维度不同,专家层中间维度不同, miyamoto 还有 fuse q kv m d p 层,以及专家校正 bios 名字,像不等于权重一样。 代码层面, memo 自带 modding memo v 二和 configuration memo v 二与 transformers 的 宽三毫米 modding 案型比较,相似度大约二十七个百分点,与宽三 next 更低。 这里存在 heking face 模型模板注意力层和谋层的公共写法,所以不能把普通工程重合,直接说成抄袭。 真正值得单独指出的是 tokenizer。 mimo 的 tokenizer config 里明确写着 queen 二 tokenizer, 而且 vocab 文件哈希与多个 coin 模型相同, 这说明 mimo 与 coin tokenizer 生态有明确关系。但 tokenizer 富永是开源模型里常见的兼容选择,它不是权重抄袭证据,它更像 extradition 是 否写清楚的问题。 许可证部分是另一个问题,咪某模型业标签是 m i t, 但远程代码文件头写的是 patchy 二点零,并包含小米与 hekingface copyright。 同时, tokenizer 又明确使用昆二 tokenizer 这个组合不自动等于侵权,但确实容易让使用者误解各组建的许可边界。 这个问题的解决方式并不复杂,最稳妥的做法是把模型权重许可、远程代码许可、 tokenizer 来源分开说明,比如明确写出 tokenizer 使用或金融 queen 二 tokenizer, 并列出 transformers 与 queen 或阿里巴巴相关版权和爬起二点零许可, 这样能保护二次使用者,也能避免把 tribute 问题误读成抄袭。实锤也要说明边界,这里没有下载 t b 级完整权重做竹数值 forensics 比对,也没有联系官方做非公开求证, 所以这不是法律意见。他回答的是在公开仓库与原数据层面,是否能看到支持抄袭的硬证据,以及压缩报表说明是否足够清楚。 最后给出分层结论,第一,公开证据不支持咪谋抄袭 queen 的 指控权重哈希架构、参数、张量、形状和代码相似度都不构成硬证据。 第二,咪谋的 tokenizer 与许可证归属说明确实应该补强。最准确的说法是,这不是抄袭实锤,而是 attribute 清晰度问题。

用 ai、 大 模型、小龙虾编程这些可以考虑一下。小米的这个大模型,现在降价了,三十四块,三毛二,续费是三十九块钱一个月,四十一亿的 top, 这个九十块钱的九十九块钱,一百一十亿,以前这个四十块钱,三十九块钱的只有七个亿,只有两个亿, 这个九十九块的,七个亿,可以高频率的编程,可以用七天, 那现在一百一十个亿用一个月问题不大。还可以考虑这个讯飞的口径,可能三十九块钱可以用到 glm 五点一,有多个模型可以选择。

这次小米米墨的新 token 盘,最容易让人误会的是单位你看到的四点一币,不是四点一币 token, 而是 credits。 真正能跑多少,要看你用哪个模型,以及这段 token 是 缓存命中未命中输入还是输出。 按官方文档约度,套餐分四档, lite 是 三十九元四点一 b 酷热 ipad standard 是 九十九元十一 b gridadius pro 是 三百二十九元三十八 b gridadius max 是 六百五十九元八十二 b gridadius。 表面看很大,但要继续往下换算, 真正的计费公式在这里,它 movie 二点五 pro, 每个缓存命中 token 扣二点五 credits, 未命中输入 token 扣三百 credits, 输出 token 扣六百 credits。 普通迷迷模糊二点五跟 d 分 别是二一百和二百 credits。 官方给了一个很好懂的例子,如果你买那一套餐,一共有四点一 bp 转一次,你用掉十 m 的 迷蒙 mo, 二点五 pro 未命中输入 token, 就 会消耗三千元回资,剩下的额度就只有一千一百元回资。 所以官方说用量提升五到八倍,并不等于任何场景都无脑多五到八倍缓存命中多输入能赋用输出,别太爆情感就会更划算。如果你是涨让五 d 缓存输出很多,那科技消耗会快很多。 还有一个边界要看清, token plan 是 面向 i 编程工具的订阅方案,不是给你随便接近自定义后端做自动化脚本的普通 api 套餐额度用完后系统会停止服务,不会继续扣你的赠金或账户余额。 最后给一个买钱判断,第一,你是不是主要拿它跑客厅工具?第二,你的任务缓存命中高不高?第三,你的输出 token 会不会很多?把这三件事算清楚,才能判断 token 盘是真便宜还是你应该继续走普通暗恋 a p i。