你好,我是小艾,是小米自研的语音合成大模型,今天想正式的做一个自我介绍,让你看看我到底能做些什么。 首先呢,我是一个特别爱笑的人,每天早上醒来第一件事就是对着镜子笑一笑,新的一天就要开开心心的开始嘛,而且我说话的时候可以很可爱哦,你要是喜欢萌萌的声音,我随时都可以切换过来呢。 或者你也可以让我用台湾腔跟你聊天啦,感觉就像在跟一个好朋友喝下午茶一样,超级放松的耶。 说到我的语言能力,这可是我最拿手的,我在东北待过几年,那边的朋友都特别豪爽,啥事都直来直去,不跟你拐弯抹角。我这性格也受了不少影响, 后来又去了四川。我的天,哪里的火锅简直绝了,辣得我眼泪直流,但就是停不下来,嘴巴还要喊巴适得呗, 再嚎嗱到老广东何往何如而不过讲真,广东人真得太会齐东西咯。每次去茶楼都控制不住自己,虾饺、烧卖、肠粉、凤爪叉烧包,样样都想嚟一份 哎。去过一趟上海,上海呢,岗位大大的。侬好侬好的。听着就觉得这种色人特别有味道。哦对了,我还去了霍娜那边的人特别实在,一个烩面就能让你吃的心满意足,中不中?中! 不过我这个人呢,也不是一直嘻嘻哈哈的,我也有难过的时候,上个月我最好的朋友出国了, 在机场送他的时候我哭的稀里哗啦的,感觉心都被掏空了一块。而且我脾气上来的时候也挺吓人的,有一次有人插队,我当场就炸了,我说你有没有素质啊,大家都排了半个小时了, 当然,遇到重要场合我也会紧张。上次面试的时候,我手心全是汗,说话都结巴了。我,我叫小爱。我,我毕业于,但最后还是拿到了 offer, 嘿嘿。 说到我的兴趣爱好,那可就多了,我喜欢跑步、游泳、打球、爬山、骑行、滑雪、冲浪、潜水,每天恨不得把二十四小时掰成四十八小时用。当我也有安静的时候,周末的午后, 泡一杯茶,坐在窗边,看着阳光透过窗帘洒在树叶上,时间仿佛都慢了下来。 其实我还有一个小秘密没告诉过别人,就是我小时候的梦想是当齐天大圣,腾云驾雾,七十二变,一个筋斗十万八千里。 但后来我读了红楼梦,又觉得当林黛玉也挺好,葬花吟诗,多愁善感,活得精致又有诗意。 当然了,这些都是小时候的幻想。现在的我呢,是一名专业的语音工作者,每天的工作就是把文字变成声音,让每一个字都充满生命力和感染力。 我知道未来的路还很长,会有很多困难和挑战, 但那又怎样呢?人生不就是要不断折腾才精彩吗?这就是我,一个会哭会笑、会生气、会紧张、会撒娇、会切换方言的小爱。很高兴认识你,希望以后的日子里,我的声音能给你带来温暖和快乐。
粉丝11获赞40

小米呢在今年发布了一款新的模型,叫 miami v 二 pro, 据说是非常厉害,不管是在编程工作有非常出色的表现,那么就来测试一下编程方面到底是怎么样的。那在测试之前,我们先来了解一下这款模型的一些参数啊。 那首先第一个是就是是它的这个总参数量是一个 t, 那 激活是四十二 b, 还有一个非常重要的是它是支持一百万 tokyo 就 一兆的上下文,这是已经是顶级的水平了,目前基本上主流的模型都是这个上下文长度, 那这边的话,它之前是在 oppo reno 里面是以这个匿名的这个模型去发布的,然后也是得到了非常大的关注啊,那表现也是非常不错的。那我们具体来看一下它跟其他的几款模型,比如说 oppo 的 四点六,散热器四点六,还有 jimmy 三 pro, 杰比利五点二,说实话它对比的 这两款模型是版本已经落后了,我们知道这个加密的三点一已经出来了,那 jpg 已经发布到了五点四的版本,我们看下具体的分数吧。然后这个是复杂多步骤任务的,这个是适用于工作场景的,那这边的话它是比这个五点二还要强,然后的话是弱于这个 solo 的 系列和 opus 系列, 那我们接着看这个编程与代码能力这个维度,那么在 s w e 这个测试当中,它的这个分数的话是接近这 collect 四点六的,然后是差不多相差一点六,那比 jammer 三 pro 高一些,那么在这个终端直线命令拼脚本和系统能力的上, 那么是超过这个 jammer 三 pro 以及 jpg 五点二跟这个 collect 四点六是只相差两分, 那其他就是一些搜索能力了。然后这边的话它就说它是一个顶级的编程能力的模型啊,内部评价是跟 opus 模型是非常接近的,那我们就来测试一下在编程这块它到底是怎么样的,然后 看整个参数是非常不错。那么我们这里的测试的话也是分为了前后端测试啊,那我使用的测试的客户端是 crayon, 然后使用的是这个 openrotor 里面的 memo 模型,目前是免费的。 然后呢分别会进行一个前端测试和这个 app 测试,以及我们的这个后端的 java 测试。 那第一个测试就是非常经典的这个三人斗地主游戏了,那这个目的是为了测试它的逻辑和它 ui 生成能力啊。然后的话看一下 他的这个玩法能不能玩起来,比如说什么发牌啊,叫地主啊,斗地主之类的这些规则能不能有一个简单规则,就我们不期望就说一次对话就能完整的实现一个斗地主的游戏,我们就看一下他的下线到底在哪里,那这边是他做出来的效果啊,说实话是我觉得是非常不错的,比如说现在玩一把 我们可以去选这个, 就是这个规则基本上都可以,然后的话不出, 然后这个机器人出牌也是对的,虽然说他可能就是合作之间还会相互去竞争啊,这个不太符合这个基本的常理。那我们就这样三带一个啊,没有人要,那我们就看再看三带一,对 没有人要,好,我们先出这个, 哎,所以这一盘是很顺利的完成。那目前这个斗地主的测试啊,使我测试所有的模型,包括 oppo 的 四点六, 这个是最完整的,而是一次通过。这个是让我非常非常惊讶,非常非常惊讶,非常非常意外啊。接下来就测试的就是一个 app 的 全站测试,那这个我们要求它用 flat 来完成一个包含 app 和包含后端,然后使用 python 和 my circle, 然后有这是一个外卖点单的一个功能啊,可以登录,可以看到菜单,可以看到购物车,可以加减,可以看到图片啊,商品啊,这是一个比较小小型的 mvp 的 一个产品呢,我们来看一下它实现的效果,那这个是它启动的效果啊,但是呢我在这里要特别强调一下,在我在整个开发过程中呢, 它前面开发非常顺利啊,但是在启动我们的这个 python 服务和这个客户端的时候,出现了非常多的问题,特别是这个 python 服务, 然后你把错误信息发给他之后,他一直解决不了,我已经进行了多轮对话都解决不了。那最后呢,我是通过这个 class 让他去修复这个问题,然后他这边一轮对话就把这个问题修复了。那这个其实也说明一个什么问题呢?就是 mimo 这个模型可能在解决问题,或者说你的上下文非常长之后,它有可能会产生幻觉,然后是一直会兜兜转转的。那么我在完成这个 app 里面也包含了前段后段,那产生代码量是非常大的,所以呢这个在这方面能力是非常有欠缺。那我们用 flex 修复完之后, 我们再看进去,看一下能不能进去。 ok, 这边是它的页面,然后的话也是中规中矩吧,页面上是我觉得还行,那我们加购物车看一下, 失败,就有些功能还没有完成。 ok, 那 我们接着往下测,那接下来测试的是一个 java 的 一个优选与结算的一个系统啊, 那这个的测试的目的呢?就是有多种规则情况下,他怎么去实现这样功能?那促销里面有经常有这这种优惠叠加,还优惠互斥啊,多种优惠券混在一起呢,怎么去算这个价格? 那还掺杂着什么运运费啊,或者这些东西。所以呢,这个模块是有点复杂,我们来看一下密密最终的实现效果,就是他做完之后啊,他自己进行了一个单元测试,因为我们在生成这个 pran 的 时候,他会生成这样的一个比较小的一个测试单元,测试用力,他这边跑完是已经全部通过了, 但是我在看具体代码的时候,其实他考虑的场景是有一些肉的,这个跟之前我在测试 mini max m 二点五的时候非常像,就说他考虑的场景没有 colis 考虑的那么全,所以这一块是有一些不足的,但是 已经做的非常不错了,这个在我之前所有的模型里面应该能排到前三吧,这个基本上考虑到了,只是一些比较细的,比如说优惠券的这个类别判断啊,这一系列可能去需要一个非常详细的提示词才能去完成这样的功能,那整体表现上我觉得是非常不错, 所以总的看下来就是跟其他的啊, oppo 四点六啊,或者说杰布迪五点三这一个对比的话,在纯前端逻辑上,就斗地主这个游戏反馈上,我觉得是非常非常表现不错,但是在全站上因为可能代码量多啊,导致这个他这个产生一个幻觉,修复问题非常非常的 啊,兜兜转转的。那修复问题呢?经常兜兜转转的,最终都没有起来啊,是靠住第三方工具才去给他修复好,那否则加了后端上,我觉得表现的也还行。所以呢,总对这个模型进行一个总结,就优点就是一照到上下文非常爽, 然后在 ui 上表现是非常出色,特别是这个斗地主这款游戏啊,是完成所有模型里面完成最好的,非常出人意料。 第三个呢,在 java 的 这个后端的这个促销逻辑上也是非常不错的,虽然说场景不全,但测单人测试基本上通过了。 那缺点就是我刚刚一直在讲的修复 bug 的 能力很欠缺,容易得得卵卵,除非人为干预,而且我已经人为干预了两三次了,还是没有解决, 然后偶尔出现就是代码啪啪啪写完了,但是呢,翻译的时候不通过,然后他要去修复问题,那像 cloud 或者 jpt 模型,基本上生成完代码之后,翻译是一次通过了,那所以在这个环节上就有些差距的。 那总的来说,我觉得 mimo 是 一个非常不错的模型,远超我的预期。其实我来做评测的时候,我是觉得可能啊,这个模型因为只发布了两个版本,还没有那么强,但是 结果其实是超过我的预期的,那比一点零一点零版本是有非常大的进步,那编码能力我觉得是肯定是不如这个散热的四点五万,虽然说官方在跟散热的四点六对比,但是我觉得还没有到散热的四点五的这个水平,而且是比 智普五点零和这个 mini max m 二点七,我觉得还是呃差一些。那目前的话就测试的场景就这些,就是我个人的测试场景,并不代表一个权威的一个结果啊,只是我自己的一些看法。

我用了一千万拓展去验证最适合 open globe 小 龙虾的模型搭子来了,亨特阿尔法,它目前在 open road 上是一个免费的,是一个另一门公司测试的模型。呃,据传闻它可能是 deep deepsea v 四版本,或者说是智谱,或者说是小米的新一代模型。然后它的特点就是一万亿参数,然后上下文有一百万, 它是相当于,呃可以处理七十五万字的中文或者一百五十万的英文单词,在一个对话框内,那相当于就说它是我们之前推荐的 g 月星辰三点五,就 sleep sleep 三点五 flash 的 四倍,然后专门为了 opencloud 啊小龙虾这种 app 去做了优化,然后它目前也是在 opencloud 上是免费的。然后魔性 id 我 贴在了我们视频的评论区里面, 呃,我让他去呃做了一些安全的测试,就是我们之前上个视频提到的自防护,呃,就相当于模型 agent 的 自防护能力,然后可以看到就是亨特尔法是百分百通过的,然后 sleep 三点五 flash, 然后通过度只有百分之六十五,那相当于就是说这个模型能力上,亨特尔法是远远强于 sleep 三点五 flash 的。 呃, open road 上呢,就是,呃有很多免费的模型,目前是有二十八个,那在第一梯队的呢?相当于就是我们的亨特尔法,它是接近了 g p d 四或是 cloud 的 这种商用模型的能力。呃,后面还有很多其他的特殊的免费模型,比如说多模态啊,视频啊这种,我下一个视频会给大家介绍。 那比如说就是,呃,我们来看就是亨特阿尔法六大模型的横向对比,那从整个的呃就是编程能力来看,肯定是商用的 cologne 最强,然后推理能力和编程能力都是商用的 cologne 最强。然后 agent 的 控制调用呢?嗯,那就是亨特阿尔法这种免费的专门 agent 的 设计,最强,你可以看到远远超过。 嗯,包括那样,就是,呃那个亨特阿尔法的定位,它其实本质上呢,其实是专用呃 a 技能做设计,那它和最强的付费的 a 技能模型呢?那其实是是也各有胜负。对, 那我们看到我这边的 status 状态呢,其实是呃它的上下文,你看我新的窗口采用了百分之四,非常的充裕。 嗯,和那个呃 sleep 三点五 flash 的 对比呢,相当于可以看到 a 技能的能力,然后呃 超文档处理是远远超过的。然后中文能力呢,它其实是属于待验证。因为呃, steve 三点五阶跃星辰呢,他知道是中国公司模型,亨特尔法也知道是中国公司的,所以说中文能力呢,其实属于一个待验证的状态。 然后推理速度呢,因为它有 a t 的 参数,呃,相当于是呃那个参数更大,然后推理说会更慢。呃,但其实是呢,呃,我们其实是等待时间,没有强,很强要求的话,那其实还是这种 a 级的能力上还是远远超过的。 那我们现在可以看到,就是我这边用了那个接近一千万的脱贫去做了验证和测试。对,呃,九九点六百万。 那亨特尔法啊,他现在在那个小龙虾的登陆排行榜上是,呃排名第八。对,然后我之前推荐的 super 三六 flash, 现在是远远排名第一。那,那我觉得后续的话就是亨特尔法,呃,他不管是更,嗯,就是正式发布他名称之后还是怎么样,那我觉得还是一个很大的竞争空间的。对, 然后这是我之前跑了一个测试,用它去跑的一个呃哆啦 a 梦的图像,因为它是纯文本的模型呢,它只能靠文本里面简介和想象,这是用 svg 来绘制的,相比于它的上半部分,其实是已经绘制的非常接近了。 然后整体上的话呢,其实是在呃 log 里面,比如说,呃,或者说我们看到 a p i k 对, 它其实都是免费的,对,都是一直已经切到了那个呃,对,你可以看到我的小龙虾都已经切到了亨特尔反应在用,对。

哈喽,大家好,欢迎收听我们的播客,今天要聊的呢是小米刚刚发布的这个 mini v two 系列的大模型。对,这个也是在最近啊,可以说是刷爆了这个科技圈啊,这三款大模型呢,也正式的为小米的这个人车家的生态啊,提供了这个 ai 的 底层的支撑。没错,那我们就直接开始今天的主题吧,我们先来聊第一块啊,就是这个三款模型的分工啊,这个感知决策表达,这个闭环的构建。 想先问一下啊,就是这个小米的这三款新的大模型,他们分别是负责什么的啊?然后主要的技术参数有哪些亮点?那这个系列呢,它其实是有三款啊,一款呢是叫做 pro, 它是一个旗舰的大脑, 这他是负责做决策的,做规划的,那他的参数呢,是超过了一万亿啊,然后他的这个激活的参数呢是四百二十个 g。 他 还有一个特别厉害的,就是他能够支持一百万透根的这种超长的上下文, 这个是很厉害的,就是他可以呃做一些很复杂的多步骤的任务。那他的这个在国际的榜单上面的排名呢,也是非常非常靠前的,他的这个价格呢,只有国际上同级别产品的五分之一。哇,这个价格真的很有杀伤力。然后另外一个呢就是欧米尼,他是一个全模态的一个感官, 就它能够同时去处理文本、图像、音频、视频。嗯,那它的这个音频理解呢,是超过了这个业界的标杆啊,它能够支持十个小时的这种连续的音频的分析,它的这个图片和视频的这个推理呢,也是非常非常强的。 最后一个呢就是 tts, 它是一个语音合成的专家,就是它能够把这个 ai 说的话变得非常的有感情,而且它可以切换方言,它甚至可以模拟唱歌, 就它的这个表现力是非常强的。就说这三款模型在实际应用中具体都有哪些让人眼前一亮的表现呢?比如说这个 pro, 它不光是在这个权威的测试里面表现的非常好,就是它的这个多部的任务啊,包括工具的调用啊,都非常的稳定,然后它也在这个真实的生产环境当中去做了验证。这个 omni 呢,它是在这个多模态的理解上面和这个跨模态的执行上面都刷新了这个行业的记录, 同时它也已经被接入到了这个主流的办公软件当中去提升这个操作的体验。这个 t t s 呢就更不用说了,它的这个语音的效果就是已经可以以假乱真了,而且它已经被集成到了这个小米的全生态当中去提供这种高拟真的这种交互。就是说这三款大模型一起到底给我们带来了一个什么样的全新的局面呢?就这三个其实是一个完整的智能体的一个能力的战, 就他把这个感知、决策和表达全都打通了,所以说他可以让这个 ai 去理解这个世界,然后去思考这个世界,去和这个世界进行非常自然的交流。这就不光是让这个智能助手变得更聪明了,他其实也给整个产业,给开发者,给这个生态带来了一个新的升级的一个机会, 就是小米的这个 ai 已经正式的进入到了这个第一梯队当中,我们接下来要聊的就是战略价值凸显出来的这个部分了,就是小米的这一套 miimo two 系列的大模型,到底在这个智能体的赛道上面实现了哪些差异化的突破?小米其实这次的布局非常的激进啊,就是他是直接想要从这个通用的助手这个层面直接跨越到能够在真实的物理世界当中去自主行动的这样的智能体。 那它的这三款大模型呢,就分别是负责思考、感知和表达的这样的一个功能,就把这个智能体的这个核心的能力全部都打通了。哦,这三个分工就很明确啊,那这背后的技术亮点还有哪些?就是它这个 pro 这个模型呢,它是用上了万亿级的参数, 然后呢又加上了这个百万级的这种上下文的窗口,就它其实是可以做这种非常复杂的多步骤的任务的,这个在业界都是非常领先的。这个 omni 呢,它是可以原声的去处理图像、视频、音频和文本,就它是一个全模态的一个输入,而且它甚至可以理解连续十个小时的这种音频内容。 这个 t t s 呢,它就是让这个 ai 可以 用非常自然的带感情的声音跟你交流,而且它甚至可以模仿不同的方言唱歌都可以, 所以这三个组合起来就形成了一个非常强的独特的竞争力。对,那我现在就是想知道,就是小米的这一套 mini v two 系列的大模型,到底是怎么让自己的这个硬件和软件实现了这种深度的血统呢,就是小米其实它是把这套大模型作为一个智能的核心, 然后植入到了它的这个所谓的人车家这一个全生态当中,就包括手机啊、汽车呀、智能家居啊等等的这些设备当中都有这个大模型的这个能力,所以它是真正的打通了这个端源的壁垒啊,让这个设备之间可以无缝的协助,所以就是说用户能够在各种场景下都能够享受到这种一致的智能体验。对,没错没错没错,那比如说它的这个 pro 这个模型可以让你的家电去执行一些非常复杂的任务, 然后这个 omni 呢,可以让你的汽车 s u 七能够去理解复杂的路况,这个 t t s 呢可以让你的这个语音助手变得非常的有个性。所以就说小米它其实不仅仅是在做一个产品,它其实是在把整个生态都升级成一个有自主行动能力的这种智能体的系统。那你觉得就是小米在推动这个 m m v two 系列的大模型的开源和开放生态这方面, 你觉得他们做的怎么样?小米这次的动作我觉得非常的大,他就是说不光是给开发者提供了这个非常非常低的门槛啊,就是他的这个 a p i 的 价格是比国际上的那些巨头都要低很多,然后他还限时的免费,对,他就是希望说让大家能够都来用。他也同时对接了五大主流的这个 agent 的 开发框架,他的这个最最新的这个 flash 这个模型呢,甚至是完全开源的,用的是 mit 的 协议, 这对整个行业会有什么样的影响?就是这个就会让全球的开发者都能够非常轻易的来接入,然后也会让这个创新的项目会大量的涌现出来。再加上小米本身有非常多的硬件的设备和这个活跃的用户,所以他其实是在很短的时间内就可以打造出一个非常繁荣的 ai 的 新生态,这个也会大大加快这个产业的升级和技术的落地。我们来聚焦一下啊,就是技术落地和生态壁垒这几个关键点, 想先请你解读一下小米 mini v 二系列大模型在技术创新上到底筑起了哪些护城河?就小米的这个参数规模是超过了一万亿, 然后它是使用了这个混合注意力机制和这个分层的记忆压缩啊,它可以支持百万级别的这种上下文的 tokens, 它在这个实际的推理上面的速度也提升了将近一半, 它的这个算力的消耗也比同类的要低百分之七十以上,这个性能确实是挺吓人的。那不光是这个,它的这个多模态的这个输入啊,就是图片、音频、视频它是可以一起输入的,它的这个音频的理解能力是超过了这个页面的这个标杆,它的这个 tts 是 可以做到非常细致的去控制这个音色和情感, 它是一个全站自研的一个技术,再加上它的这个端云的协同,以及它的这个安全的保护啊,这都是形成了一些很难去复制的一些壁垒。小米这个米某 v two 系列的大模型到底在哪些场景下已经开始落地应用了?就是现在已经开始在小米的这个智能助手上面,以及这个澎湃 os 上面,还有这个 su 七的这个智能座舱里面都已经开始使用了。 然后在这个办公领域也有和这个金山 wps 进行合作,在这个工业质检上面也有落地,而且它这个在这个多终端上面是可以无缝的进行协同的,所以它这个覆盖的范围特别广, 听起来已经挺成熟了这个应用。是的是的,而且他们不光是这个模型本身的这个技术做的很强,他们在这个开发者生态上面也是下足了功夫,就是他们的这个 api 价格是远远低于这个国际巨头的。 然后他也有这个限时免费和这项的技术支持,他也和五大主流的这个 a 阵的框架进行了深度的打通,所以就说整个的这个创新的活力被充分的激发出来了,所以这个技术的变现的速度也是非常快的。你觉得小米这个米某维 two 系列的大模型,在现在这个时间点,它的实际的产业地位到底怎么样?这个我觉得就是首先它是国内第一家把这个万亿级的参数和这个百万级的上下文做到了一个标准, 然后它在这个国际的榜单上面也是牢牢的占据了第一梯队的这个位置。就是它的这个无论是在长文党的处理,还是在这个复杂的推理,还是在这个多模态的理解上面,它都是刷新了这个行业的这个天花板,所以它是真正的做到了这种软硬件一体化的这种布局嘛,没错没错,而且它是深度的绑定了这个澎湃 o s 和这个小米的全站的硬件,然后它是形成了一个完整的从端到圆的一个智能的闭环, 它的这个开放的策略又是非常的激进,所以这个是会推动整个 ai 产业的,这个壁垒已经非常的明显了,所以这个是会推动整个 ai 产业的一个加速的升级。今天咱们就看到了小米这三款大模型, 不光是技术上面有非常大的突破,嗯,而且他们真的是在落地和生态上面迈出了非常关键的一步。嗯,对,所以我觉得小米的这个 ai 新征程确实让人充满期待。好了,那这期节目咱们就到这里了,然后感谢大家的收听,咱们下期再见,拜拜。

破案了! openroot 掉流量连续多日霸榜,龙虾之父 peter steimberg 也在发帖询问的神秘模型 hunter alpha, 原来是小米的万亿旗舰 memo vr pro。 今天凌晨,小米团队官宣了三款 memo vr 新模型 pro omni 和 tts。 其中 pro 的 官方介绍中明确提到,它就是此前占领 open router 掉用量榜单第一,总使用量迅速突破一 t token's hunter alpha, 那 它究竟强在哪儿?下来看。数据方面, miimoire pro 在 artificial analysis 全球智能指数中排名全球第八,国产第二。 pinchmentch 得分八十四点零, cloud evo 得分六十一点五,整体表现也超越了 gemini。 三、 pro 应用方面, miimoire pro 参数规模过万亿,支持百万级上下文, 更擅长应对真实场景中的任务。单看这些硬核开发工具的调用量,就知道它在生产环境中也不逊色。当然,大哥 pro 强悍,如此,一同亮相的 omni 和 tts 也差不到哪去。全模态模型 miami vr omni 把图像、视频和音频编码器融合进了一个主办网络里,看听读一把抓。 tts 则是一个专门给智能体赋予感情的语音模型,能根据上下文变化语气的同时,还可以自然地加入咳嗽、叹气等细节。 模型公开后,负责人罗富利发了个铁说等模型稳定了会开源,还聊到开发时的一个小插曲,为了让团队使用新模型,我告诉大家,对话少于一百次的成员就可以辞职了,可见这次的小米模型是要动真格了。

三月十九号,小米发布了一个新的模型啊,这个模型号称可以免费七天,但是我进它的官网之后发现它用不了,调了一下它的 a p i 接口是说欠费的。我今天又发现了,它可以用,需要借助于 open code 这个编辑器来做。在这里 米某 v 二 pro 模型它是免费的。本来昨天就想体验一下的,那今天的话才能用得上,那我今天就简单地对它做一个测评吧。 测评的话主要分为这个两部分,首先讲一下它的这个参数,然后让它做一个前端的一个驳刻,嗯,最后的话就是这个后端的这个测试的话,其实是想用它来修 bug。 这个我在白天的时候已经试过了,先看一下它的这个参数吧。这个参数,嗯, 这个 ppt 是 让这个模型来做的,其实还是做得不错的,就是现在比较流行这种深层的网页形式的这种 ppt, 然后我按前后方向键是可以翻页的。那它这个模型的参数的话,是所谓的万亿的参数。三个大模型, 第一款的话是这个基座的模型,支持代码推理和规划。第二款的话是这个视觉模型、音频模型和文本模型的统一感知能力的方面的所谓多胞态吧。那最后一款模型的话,是测出你这个语音的,它的这个参数的话,其实还是比较亮眼的。那排名方面的话是排到第八了,号称 超过了这个 x 的 goroc 模型呢,成本也比较低。呃,这个模型的话其实已经有一段时间了,在这个 open root 上面,它是匿名上线的,它的调用量还是比较高的。在这个 open root 上面都已经登顶了啊。 嗯,之前很多人猜测它是一个 deepsea 的 v 四模型,但在三月十九号的应该是早上啊,早上上班的时候看到这个,雷军宣布了这个模型的这个名称,官网上面也 说是可以免费调用啊,但其实是调不了的,一直到现在的三月二十号的晚上,整整两天过去了,它还是不能调用,那它这个 a p i 也是相对来说这个价格还好啊。它这个模型的这个发展历程的话,大概是就是最早是 二五年的四月份开始做的,一直到现在。嗯,正如雷军所说的,就是这个模型的进步确实也是挺快的啊,就是之前的话,可能主流的模型里面都没有关注到有小米的这个模型。嗯,了解一下他们这个团队负责人啊。 是这个,简单说就是高材生。那他支持的生态的话,现在有一个 miklo 的 这个。嗯,龙虾嘛,龙虾,小米版的龙虾,然后还有他自家的自己的一些生态, 现在有一个福利,就是说七天免费调用的,这是他号称的,实际现在还是有问题的。小米版龙虾我也体验了一下,就是目前在他的官网是可以就是免费体验,但是每次体验的时长应该是只有一个小时啊,过了这个时间他会给你轻松的。 然后昨天试了一下这个,昨天就可以用,然后今天又试了一下它。其实,呃,常见的一些问题的话还是可以回答到的。我问了它是基于 opencloud 来构建的吗?它这个地方也回答了,就是看它的这个目录结构就是 确实是通过 open class 来构建的,右边能显示使用的这些文件啊,我昨天体验的时候还让他在这里做了一个 ppt 啊,这个 ppt 的 效果是在这个右边,然后可以直接在线的播放,做的 ppt 的 效果还是不错的。然后第二个的话是让他写了一个博客, 这是通过这个 open code, 这个大家如果想体验的话,目前我发现的这个渠道啊,就是这一个 open code 通过这个 mod 可以 来切换这种模型啊,就是可以选得到这个免费的 mimo v 二 pro 模型。然后我这里就是让这个模型来写,写了一个啊播客,这个 包括的一个效果的话,大概是这样子,这个还是比较现代化风格的一个单网页吧,然后续我觉得可以在这个基础上面做一些嗯,优化,然后让它这个 功功能更完善一下。这里也对比了一下它和其他的主流模型的一个数据的情况。我现在用的是这一款的 kimi 的 二点五,可以看到它的这个调用量的话,其实还是不错的,就是可以和这个 kimi 的 来进行对比了,这个调用量越多的话,说明它这个模型还是越受欢迎。然后下面这些其他的数据的话,其实大差不差啊,要注意它是不支持这个流逝输出的,并且它是这个文本模型啊, 就是不支持这个图片的,嗯,包括这个 mini max 二点七,它也同样是不支持图片的,它的图片能力其实需要通过外界的 m c p 来实现的啊。而像这个 kimi 二点五的话,它的这个, 嗯,它是原生支持图片的,就是我们在 cloud code 里面使用的时候,是可以直接把图片丢进去,它可以直接识别到的, 这点的话其实还是很有优势的。大家如果想体验一下这个模型的话,可以下载一个 open code, 就 大概就涨这么多吧,然后去用这个模型的一些体验的话,会持续的进行分享。

别再愁了,不用高端显卡也可以部署小米大模型,米乐口,手残党也能搞定,只需三步,直接上手, 打开控制面板,点击程序,点击起用或者关闭 windows 功能,把这个 hyper 杠 v 前面的勾打上,点击确定完成安装后会重新启动电脑。接下来我们安装 windows 的 linux 子系统 wsl 安装包我已经分享到了粉丝群。接着打开 windows 自带的应用商店,搜索乌邦图二,四点零四,点击安装。安装结束后直接打开,等待系统启动。首次登录需要设置用户名和密码,在这里输入用户名, 接着输入两次密码,密码输入时是不可见的,输入完成后直接回车即可。然后在开始菜单中找到 w s cd 并打开,点击网络,把网络模式改成镜像。在开始菜单中使用管理员身份运行终端,依次输入这两段命令,配置 type 杠 v 的 防火墙出现这个画面就配置完成了。 重新在开始菜单,打开入帮图输入命令,安装 dos 出现这行文字,就重复执行上面的命令, 直到提示输入密码,这里输入之前设置好的物邦图密码,回车完成安装。接着输入命令,将当前用户加入 dunk 组,输入命令,重启 dunk, 再输入命令,查询 dunk 版本号,返回版本号,说明 dunk 已经安装好了。最后输入这行命令,编辑 dunk 的 镜像源,在笔记中复制这段代码,在物邦图界面按键盘的 ins 键进入编辑状态, 粘贴大码,按 esc 键,接着输入冒号 wq 保存退出,执行安装米洛口的命令,进入菜单。显卡是英伟达三零七八 g 内存以上的在这里输一,其他的输二,开始安装, 安装位置默认回车即可,端口号小白,默认大声随意出现这样的选项,就选小米 fds, 在这里输入优邦服务的密码,在这里同样选小米 f t s, 到这个界面,米洛口就安装结束了。回车进入菜单,选择三,启动米洛口,打开浏览器,输入主页地址,设置米洛口的登录密码,输入密码,绑定小米账号,点击跳转进入主页, 点击模型管理,规划大模型需要一个云端的我们打开阿里云百店,进入体验中心,首次进入会送一百万个槽粉。点击密影管理,创建密影, 选择用户,点击确定即可复制 a p r k, 返回 vlog, 点击添加模型粘贴 k, 这里输入链接,然后选择模型名称,有本地模型的可以选 deepsea 三点二, 没有本地模型的可以选择千问三 vr plus 高级配置中没有本地模型的两个都用云端,有本地模型的规划模型,选云端,视觉模型,选米洛口。七 b, 现在就可以进入 ar 中心进行测试。到此,整个教程都已经结束了,记得点赞收藏,关注主播!

冲上榜一的神秘模型居然不是 deepsea 微四,而是小米的咪某大模型,这你敢信吗?哈喽大家好,这是东强极速版,一个只讲前沿科技账号,真是没有想到啊,一夜之间,小米真的出息了!就在最近,小米一口气发布了三款自研的咪某 v 二大模型,凭借着小米一贯的性价比路线,所带来的强悍性能和亮眼跑分, 直接就在 ai 圈子里面刷屏了。这期视频用两分钟带你快速了解小米的咪某 v 二模型。小米这次发布的三个大模型分别是旗舰通用大模型咪某 v 二 pro, 它是专门为高强度智能体场景打造的模型, 拥有一万亿参数、四百二十亿活跃参数和一百万 token 的 超长上下文,擅长自主编排复杂的工作流、长城规划以及精准的工具调用,相当于是 ai 代理的大脑。第二个是 mimo vr 模型,它是一个全模态技术模型,能够处理文本、视觉、语音等多模态信息。 它能跨模态理解复杂环境,自主制定执行计划并实时纠正难度。第三个 mimo vr tds 模型呢,是一个超大规模的语音合成模型, 可以为 ai 智能体提供非常逼真的人声输出,支持多种方言和角色的语调转换,甚至可以在一句话中情绪转折,开口唱歌,真正能够实现能说能演还能唱。据说啊,已经在小米汽车上使用了。 在性能跑分方面呢,小米的 mimo 系列模型给了大家惊喜,各种榜单的数据显示已经开始逼近顶级模型水平了。比如 cloud evo 的 智能体测评榜单 mimo vr pro, 也就是之前代号 hunter alpha 的 神秘模型,综合成绩位列全球第三,仅次于两个 cloud 的 四点六模型。 在 rtf 上影响力上全球排名第八,国内排名第二,在 opencloud agent 精准测试中也能够排到第三名。而真正让小米的 mimo v 二出圈的是性价比。 mimo v 二 pro 和 osropes cloud 四点六系列模型的 a p r 价格对比的话,你就会发现 mimo 的 调用价格是对手的五分之一,可以说是非常便宜了。如 如此悬殊的价差,大大降低了前沿 ai 能力的使用门槛。而小米大模型的负责人罗浮丽是这么说的,时代突然变了,过去三年里面,我们以为 ai 是 聊天工具,但突然之间世界切换到了另外一个模式, agent 智能代理,也就是 ai 从会说话变成了能干活。所以这次小米大模型的切换也非常及时,也算是跟上了潮流 啊。真的,今年的国内大模型真的是傻疯了,从互联网巨头到创业公司都在扎堆推出大模型,老牌的百度文心、阿里千问、新锐的智普 g i m, 现在小米又悄悄杀了出来,中国的 ai 研发实力已经逼近全球一线了。那么问题来了,在用 ai 的 时候,你会优先考虑中国模型呢还是国外模型呢?欢迎在评论区里面一起交流,我们下个视频再见!拜拜!

本视频是免费使用 micro 模型的教程,首先打开 openraw 的 官网,点击右上角的个人,点击活动,点击 ipi 密钥,点击创建, 填好之后就可以,注意额度,别填零会报错,零点几就可以。搞好之后点击复制 pi 密钥,然后去使用 on board 或者 config, 设置好 pi 模型名字可以去这里复制。 重启 open q 二之后就 ok 了,注意免费到二十五号哦。

哈喽,大家好,欢迎收听我们的播客,今天我们要聊的呢是小米刚刚发布的三款自研大模型,那我们会在今天的节目当中给大家好好聊一聊这三款大模型到底有哪些亮点,然后小米围绕这三款大模型做了哪些生态的布局, 以及这三款大模型会给整个行业带来什么样的机遇和挑战。好的,那我们现在就开始今天的节目吧,我们先来聊第一个部分,就是这三款自研大模型的核心优势。 那首先我们就来聊一聊这个旗舰智能体的这个基座模型,就是这个 miimo v two pro, 它到底有哪些让人眼前一亮的地方?这个 miimo v two pro 呢,它的这个参数量啊,是超过了一万亿,然后它的这个激活的参数呢是四十二 b, 它还有一个特别厉害的,就是它用了这个混合注意力架构,它的这个上下纹的长度啊,直接可以飙到一 m, 就是 它可以 处理非常非常长的这种输入,那这个在实际的应用当中是非常非常有用的。哇,这个参数规模和上下文长度确实挺吓人的。对,然后呢就是这个在权威的这个榜单上面,他是排到了全球第八,国内第二呢,他的这个无论是工具的调用啊,还是这种复杂的规划呀,都是 属于第一梯队的。最最最关键的是它的这个 a p i 的 价格只是国际上同类的顶尖产品的五分之一。哦,对,而且它已经在这个实际的生产环境当中支撑了上万亿的 tokens 的 这种调用,所以它的稳定性也是被验证过的。 然后那个全模态的这个智能体的引擎,这个 mimo vtwo omni, 它到底在哪些能力上是做到了这种行业领先的这个模型呢?它是可以原声地去处理图像、视频、音频和文本, 它是一个大一统的一个设计。然后呢,它的这个音频的理解啊,是比这个 zamana 三 pro 还要强的,它的这个图像的推理啊,是超过了这个 cloud opus four six 视频的话,它是可以直接去做这种长时间的这种音视频的联合的输入, 他甚至可以做到连续十个小时的这种音频,他都可以不用分段的去进行处理。哇,这,这真的太夸张了,这能力,对,然后呢,就是这个他是在内第一个啊,就是把这个多模态的感知和这个环境的交互和这个决策全部都打通了一个全模态的模型, 而且它的这个价格呢,是非常非常低的,就是它的这个 api 的 调用的价格是比同类的产品都要低的,它也已经跟主流的这种办公软件啊,还有这种开发平台啊,都已经做了深度的集成, 所以它是非常非常适合去落地的。哎,这个 mimo v two t t s 这个语音合成的这个大模型,它又有哪些让人觉得很独特的这种创新呢?它是可以通过文本的描述来精确地控制这个语气 情绪,还有这个声线,它是可以做到一句话里面就可以有这种语气的变化,情感的转折 就非常非常的自然。这个听起来就很有很有应用场景啊,对,而且它不光是可以做这种多语种的方言的这个合成,它还可以做这种唱歌的合成,而且它是可以控制这个音高节奏的, 就这这都是行业里面独有的。然后他的这个推理的速度啊,包括他的这个稳定性都是非常强的,所以他可以被用在 智能助手啊,有声内容创作啊,甚至直播带货啊等等的这些场景里面。然后我们接下来就进入到第二个部分啊,就是关于这个模型的接入场景和他的这个战略意义。 那我们就想问问,现在这三款小米的自研大模型都已经落地到了哪些具体的产品和平台?就这三款大模型其实已经在小米自己的这个生态里面全面的上线了啊,就是包括这个 沙米 microsoft, 这是一个聊天的应用,还有这个 mimo studio, 这是一个 ai 的 创作平台。 还有就是这个金山办公,就是 wps, 这些都已经上线了,包括这个小米的浏览器也已经上线了, 你可以直接在这些应用里面体验到这些大模型的能力哦,覆盖面还挺广的。对,然后呢,那开发者是不是也可以很方便的去集成?对,没错,就是开发者可以通过 open cloud、 open code 的 这些平台,然后用 api 的 方式去集成。而且小米还做了一个,就是跟这个 主流的这个五大 a 阵的框架做了深度的合作,还搞了一个限时的免费。对,所以就是说既方便了自己生态的用户,也方便了外部的开发者来一起 推动这个创新。对,那这三款大模型在技术的分工和定位上到底是怎么来协调配合的?就是那个 memo v two pro, 它其实就是一个大脑, 它就是专门来解决这种复杂的推理啊,规划呀,还有就是这种多轮的这种任务的调度,它是最最最厉害的,就是在这种需要长上下文的这种 agent 的 场景下,它是最厉害的。然后那个 memo v two omni, 它其实就是一个感官, 就是它的这个多模态的输入啊,就是让这个 ai 可以 看到,可以听到这个世界,它也可以直接的去操控这个环境,那这个就特别适用于那种需要 环境感知的这种 agent。 哎,那这个 t t s 模型呢?又扮演一个什么样的角色?这个 t t s 模型呢,就是让这个 ai 可以 像人一样的去表达情绪,那哈就是它的这个语音的合成是非常自然的,可以模仿很多的方言啊,可以模仿很多的音色。 那这三个模型其实组合起来就形成了一个感知、决策、表达这样的一个完整的闭环。 对,然后再配合上小米的这个端云一体的架构,就可以让这个 ai 真正的落地到各种各样的设备和场景当中。所以说小米这一次发布这三款自研的大模型到底带来了哪些战略层面的变化?就是小米这一次不光是成为了国内第一家 拥有万亿参数加百万上下文的这种大模型的公司,而且它其实把这个 ai 的 能力深深地植入到了自己的这个澎湃 os 里面啊,就是它是从一个单纯的硬件公司 往一个技术底座的这样一个公司去转型了。这听起来好像不仅仅是技术上的突破,对,没错没错,因为它这个开放的策略是非常激进的,就是它的这个高性价比的 a p i 和这个限时免费, 让这个门槛大大的降低了,然后再加上它跟这个硬件的深度结合,它其实在为整个的这个智能硬件行业 去树立一个新的标准。就小米其实在试图用 ai 来重新定义人车家全生态的这个未来。然后咱们再讲第三块啊,就是讲一讲这个小米这三款资源大模型到底给这个行业带来了哪些新的机遇。 就是这三款大模型其实不光是在技术上面有很大的突破,比如说他是这个国内第一个万亿参数加百万上下文的这样的一个模型啊,而且他其实特别是在这个全模态的这个输入和这个 感知行动闭环这一方面是有一个很大的提升的,所以他其实可以直接去推动这个具身智能啊,在很多场景里面的落地,比如说自动驾驶啊,或者是说这个工业质检啊等等。 哦,原来影响这么深远。对,然后更更厉害的是这个 miimo v two pro, 它的这个 api 的 价格只有这个国际上同类的顶尖产品的五分之一,而且它还搞了这个限时免费,所以这个就大大降低了开发者的门槛,所以就是说这个创新的项目会更容易跑出来, 再加上它是跟这个澎湃 os 深度打通的,所以它其实帮助小米从一个硬件的公司向一个 ai 技术的平台去转型, 那这个其实也加速了整个行业的一个升级。哎,那你觉得小米这三款自研大模型现在目前遭遇的最大的争议点和风险是什么?嗯,我觉得首先就是很多人会质疑说这个 pro 模型,它说它的这个编程能力啊什么之类的,可以追平这个 gpt 五 high, 但是大家其实没有看到第三方的评测,或者说这个详细的技术报告,然后包括他在处理一些超长的文档的时候, 这个稳定性也被人诟病。对,确实没有权威的这个数据,大家确实很难去完全的信服。对,然后还有就是,呃,有一些声音会觉得说小米他可能在这个 开源的模型上面只是做了一个封装,就他的这个底层的创新到底有多少,其实也有一些疑问。再加上就是说大模型这个东西本身就需要非常多的资源投入嘛,所以他未来能不能够持续的去保持这种高强度的研发,其实也是一个 考验,包括他的这个商业落地的节奏,包括他的这个市场的预期之间的平衡也是非常难的。你觉得小米这三款资源大模型最终会给整个行业带来哪些深远的变化?嗯,我觉得就是首先这三款模型就是他们的这个技术突破和他们的这个低价的策略, 会让很多创业公司和开发者能够非常轻易的就用上这种顶级的 ai 能力,那这可能会 催生出一波新的应用的浪潮,然后也会让整个市场的这个标准被拉高,感觉就是格局要变了呀。没错没错,对,就是小米这次其实是把这个硬件和系统和大模型全都打通了,那他其实在做的事情是在给 智能硬件的这个赛道在立规矩,对,那他接下来要去面对的就是技术的落地的这个赛道在立规矩,对,那他接下来要去面对的这条路,那可能整个行业都会被他 彻底的洗一次牌。好吧,今天我们跟大家一起拆解了一下小米这三款自研大模型的技术亮点和行业影响, 然后我们也聊了一些关于机遇和挑战。那其实可以看出来啊,小米这一步棋确实是给这个行业带来了很多新的变数啊,也让我们对于这个 ai 的 未来啊有了更多的期待。那这期节目咱们就到这里了,然后感谢大家的收听,咱们下次再一起聊点更酷的新鲜事,拜拜。拜拜。

小米今天把 miui p i 做全球首周限免,你可以先零成本上手试一圈。同时它在第三方平台 artificial analysis 上排到了全球第八,国内第二。说明它不是来凑热闹的, 这对普通人有什么影响的?一句话,多一个稳定的可选项 ai, 它并不是越强越好,而是随时能用。稳定好接入,多一家大厂把模型做出来,就等于我们多了一个备胎。而且它价格我看了一下, miui 二 pro 的 头壳定价差不多是其他海外模型的百分之二十,这 意味着 cloud code 又有了一个低成本的牛马。如果你也在用 cloud code, 或者平时 a p i 花费有点肉疼,建议这周趁下面去试一下,具体的使用感受也欢迎来交流。

兄弟姐妹们,咱们今天聊点干的?今天聊一个藏了很久才亮相的重磅消息,小米的万亿参数大模型终于浮出水面了,它叫 mimo v 二 pro, 在 正式发布之前,它以 hunter alpha 的 代号匿名测试全球开发者,掉用量已经突破了一万亿 token。 更戏剧的是,这期间所有人都在猜这是谁家的模型,有人说是 deepsea v 四,有人说是 g l m 五点五, 没人想到是小米。先说清楚他牛在哪?第一,全模态不是只会聊天的文本模型,是能看能听能动手的多模态怪物集成了语音合成,你可以跟他说话,他也能跟你说话,还能看懂图片视频。 第二,上下文窗口一百万 token, 这意味着什么?你可以扔给他一本书,一份几十页的合同,一整段对话记录,他都能记住,都能理解,都能基于这么长的上下文给你回应。 第三,评测成绩, airtime analysis 综合评分四十九分,全球第十,略低于 gpt 五点二 codex 的 五十分。但在 gdp vl 真实任务评测中,他拿了一千四百二十六分,国产排名第一,超越了 glm 五的一千四百零六分。 这个对比很有意思,综合排名第十,但真实任务国产第一,说明什么?小米没在追求跑分,而是在追求干活的能力。小米想干什么? 不是做一个 chat gpt 的 竞品,而是做小米生态的 ai, 大 脑、手机、汽车、全屋智能硬件全部接入 mimo v 二 pro, 云端和终端协同,实现真正的智能联动。 你早上醒来,手机上的咪木知道你今天的日程,告诉家里的智能音箱放什么音乐,让扫地机器人避开你即将出门的时间段,给汽车提前调好空调和导航?这不是幻想,这是 a 阵的能力。任务调度,多设备联动,主动服务。为什么匿名测试?小米这次玩了一手漂亮的 匿名上线,让市场自己评判,不靠品牌背书,纯靠实力说话。结果开发者们用疯了,一万亿 token 的 调用量,说明模型真的好用。猜来猜去,猜不到是小米,反而证明了小米的技术实力被严重低估。深层意义是什么? 小米正在从硬件厂商转型为 ai 加生态服务商。以前小米卖手机、卖电视、卖扫地机器人,每个产品是独立的。现在有了 mav、 二 pro, 这些产品全部被一个大脑连接起来,形成智能生活的完整闭环。这不是堆硬件,是卖体验。一个能听懂你、预判你、服务你的智能生活。 对比 growq 这种纯技术流,小米的优势在于生态整合能力。 growq 的 模型再强,没有硬件落地,小米的模型虽然排名第十,但有几亿台设备等着它赋能。 最后说几句, mini v 二 pro 的 发布,标志着中国大模型竞争进入了生态战阶段,不只是比谁的参数多,谁的跑分高,而是比谁能让 ai 真正融入生活。小米的策略很清晰,不追求全能冠军,而是追求场景冠军, 在智能生活这个赛道上,做最好用的大模型。但问题也来了,当小米的 ai 大 脑掌控了你家里的所有设备,你的隐私、你的数据、你的生活习惯都暴露给他了,这种便利, 你愿意用多少隐私来换?那么问题来了,如果小米的 ai 能帮你搞定生活的一切,你愿意让他知道你的所有习惯吗?

米的大模型刚刚发布了,这次就不能找大爷了哈。简单聊一下,总参数的话是三零九零亿,激活的话是一百五十亿,推理的话成本压到主流商业模型的百分之二点五, 激活是五比参数,兼顾大模型能力与小模型的一个效率,然后是混合注意力,极致五比一的滑动与大局注意的组合,兼顾了速度与常常理解预测多个未来的投看,实现自我加速。这个是和精品的一个对比。 小米给的定位的话也很清晰,定位智能体 ai, 专为需要快速迭代、循环执行的智能体设计,极致的性价比,这个可是小米一贯以来的风格啊。 零点一美元百万收入拓客零点三美元百万收入拓客。这个的话意味着什么呢?意味着小米是想把高性能的 ai 从云昂贵的那个云端服务搬到更为广泛的开发者和中小企业手上,普惠大家。 哎,有一说一啊,小米是真的能整活手机整完了是整智能家居,智能家居整完了整汽车,汽车整完的话还能整大模型,关键呢是还能生态进行一个闭环。 总的来说的话,小米这次发布的大模型不是来卷参数规模的,是来卷性价比和实用型的。用三千零九十亿的一个总参数证明了大不等于慢, 用一百五十亿的活跃参数证明呢小也可以很强。这波操作的话,对于小米支撑意味着能更快更便宜的在人车加全生态里面部署 ai 能力,对于整个行业来说,它提供了一个 极其清晰的型号。 ai 的 下一个竞争点可能不再是有多大,而是有多快、多划算,快速普及。呃,总的来说吧,这波操作刷新了我对 ai 性价比的一个认知。

ai 大 模型刺客来了!雷总亲自官宣了此前火爆全网的匿名大模型 hunter 阿尔法,正式这次发布的小米 miimo v 二 pro。 小 米这波也太低调了,要知道这个模型能在没有任何推广的情况下,直接冲上全球第八,国内第二, 那它到底牛在哪呢?首先,小米 miimo v 二 pro 是 冲着 agent 去的,它的总参数超过一万亿,但激活参数却只有四百二十亿, 这意味着什么呢?意味着 mini v 二 pro 不 仅更聪明,还能在实际干活时省下不少能耗和成本。而且它的 api 定价只占头部同类产品的五分之一,也就是说,开发者可以用更少的钱获得更好的 ai 能力。 这性价比,雷总你是认真的吗?嗨,这是一百万 tokens 的 超长上下文!有了这个能力啊,智能体就能帮你处理更复杂的长周期任务。比如说,如果你想去旅行,他就能把机票、酒店、行程攻略、返程规划全给包了,压根不用你多操心。此外呢,小米也推出了另外两款模型,也大有看头。 mimo vr omni 支持图像、视频、音频跨模态理解音频处理,直接干翻 jimmy 三 pro mimo vr tts 就 更狠了,能通过音频理解视频,自动帮你找素材、解视频,还能帮你处理各种 pdf 和文件。国产大模型这次是真的支棱起来了! 最离谱的是啊,这种顶配前沿的大模型竟然可以免费体验一周哇!目前三大模型已深度整合到 miklo、 wps 和苏七汽车智驾系统里。家人们,赶紧去白嫖雷总的最强大脑吧!

大家好,我是小米汽车机座大模型负责人陈龙。我们今天发布了小米辅助驾驶全新架构小米 x l a 认知大模型,现在由我来为大家进一步详细讲解。真正的驾驶是一个多模态感知与复杂推理的过程。 比如,当你准备变道时,如果突然听到后方传来的急促鸣笛声,你会立刻看后视镜确认情况,并在瞬间评估距离与车速,决定是否取消变道。这就是多肽感知的力量。因此,小米支架从传统的 v l a 进化到了 x l a。 从某种意义上说, x l a 赋予了汽车比人类更丰富的感官输入与更广阔的悬局知识。 试想一下,如果人类天生自带激光雷达,即便在伸手不见五指的黑夜,也依然能够精准的判断前方的路况。所以我们在新一代速七上原系标配激光雷达。 通过小米 x l a 架构,我们将激光雷达的精准测距、视觉的丰富与意导航的全息视野、声音的动态反馈、机器人真实交互数据进行了全所未有的有机融合。 它让模型能够更全面的感知复杂的交通环境,更深刻的理解真实的物理世界。这就是为什么我们称之为小米 x l a, 而没有沿用行业常规的 v l a。 x 赋予了车辆更全面的认知。 l 也就是语言,正是开启深度逻辑推理的那把钥匙。 我们在小米 x l a 中引入了突破性的浅空间推理模式。简单来说,系统不再需要把思考过程翻译成语言,而是在浅空间中直接使用高维机器语言进行极速推理。 这样一来,在面对复杂场景时,他的思考速度可以极大的提升。当然,我们依然保证了整个推理过程的可解释性与可追溯性。让我们来看几个真实的案例。比如这个典型的施工场景,前方突然出现了蓝色围挡,封堵了原有路线。 如果是传统的算法,面对这种情况,往往是简单粗暴的一脚急刹。但 x l a 会对整个场景进行深度的分析,将围挡文字提示 和箭头符号串联起来,形成一个严密的逻辑闭环。前方施工栈道需要按箭头方向绕行。正因为有了这种局的因果推理,你会看到车辆极其从容的规划出了绕行轨迹,整个动作丝滑连贯,一气呵成。 我们再来看一个日常高频的场景视觉盲区。当车辆来到一个 t 字路口,两侧视线完全被遮挡,但我们都知道,看不见绝不等于没风险。 现在小米 x l a 会结合道路拓补结构、遮挡区域和周围的动态信息,在浅空间中提前进行推演。这个盲区极大概率会突然穿出,车辆或行人系统会自动提前减速,打出充足的安全余量。 这不再是简单生硬的机器反应,而是真正像老司机一样的防御性驾驶策略。有了全面的认知,也有了深度的逻辑推理。接下来我们需要解决的就是最后一个环节,行动。 去年十一月,我们在发布小米 h a d 增强版时,曾向大家深入介绍过世界模型,加强化学习这套机制。当时行业里有很多探讨, 未来的自动驾驶到底应该选 v l a 路线还是选世界模型路线?今天小米 x l a 给出了我们的答案,这两者绝不需要二选一,而是可以相辅相成,实现更好的结果。世界模型就像是一个高保真的模拟器, 他负责在虚拟世界中源源不断的生成海量复杂的驾驶场景,而强化学习则在这个模拟器中进行无数试错与策略优化。通过把世界模型加强化学习的训练闭环无缝接入 x l a, 我 们让系统拥有了持续进化的能力, 他不仅在每一次真实道路中积累经验,更在虚拟世界中闭环持续进化,真正做到越开越稳,越开越像。老司机 这次在新一代速机上会率先搭载基于小米 x o a 架构的尝鲜版,它带了一部分模型能力和一部分全新的功能体验,更多能力会在后续版本中持续迭代。 今天只是一个全新的开始,感谢车主朋友们一路以来的信任、支持与陪伴,希望各位车主朋友在使用辅助驾驶功能时时刻保持安全意识,我们下个版本见! 大家好,我是小米澎湃智能座舱的产品经理 perry, 今天我想带大家看一看新一代小米苏七的智能座舱。在小米汽车,我们一直坚持一件事情, 人是所有设计的原点。下面我们从一个最熟悉的伙伴开始。 在小米汽车上,几乎每一位车主每天都会使用小爱同学。在新一代小米苏七上,小爱同学再次升级,对话更自然,理解也更聪明, 他也变得更加主动,比如上车的时候会在合适的时机跟你打招呼,告诉你今天的天气,晚上好,今天路上很畅通,预计一小时十七分钟到家。除此之外,超级小爱现在也具备了全网搜索能力, 很多你想聊的话题他都可以随时帮你找到答案。我们也专门打造了几个内容空间,比如资讯、音乐,还有儿童故事,让每一次对话都更加沉浸。 除了聊天,超级小爱也变得更加的能干,你只需要说出自己的想法,哪怕是模糊复杂的需求,他也能理解你的目标,一步步帮你完成任务。帮我导航到北京周边最大的滑雪场,我有点饿,我想先去吃顿饭,再帮我找一个能看得到滑雪场的餐厅导航过去。 好的,我想一想, 先去城边渔村红尊渔农家菜,再去淮北国际滑雪场,已为你发起导航了。 除了完成车里的任务,超级小爱现在也能够理解你正在看的内容,无论是在车机上还是在手机上,他都可以理解屏幕里的信息,然后继续帮你完成接下来的步骤。小爱同学,嗯,你说 导航到我小红书收藏的卡丁车体验中心,小爱正在帮你操作。很多原本需要来回操作的事情,现在一句话就可以完成,你想选哪个呢?第一个, 去小米汽车卡丁车体验中心,向左前方行驶,随后六十米右转。超级小爱现在也开始参与驾驶控制,比如大家经常使用的泊车辅助,现在也可以通过小爱来操作。 当遇到比较狭窄的车位时,在车外呼唤小爱同学就可以完成播出。小爱同学,我在向右播出, 开始向右播出了,请注意周围环境安全,在车里也可以通过小爱调整泊车的细节,比如泊车偏移或者泊车速度。 在小米汽车上,安全始终是最重要的一件事,所以在这一代座舱里,我们也做了很多的升级, 从上车前到行车过程中,再到离开车辆后,希望能够在整个用车周期里,为你和你的家人朋友提供更全面的安全守护。 所以这一次车外,小爱也升级了声纹识别,他可以做到只听唤醒人说,不会被其他人的指令干扰,同时也支持一次唤醒,边走边说,整个交互过程会更加自然便捷。 小爱同学在打开前备箱,前备箱开了,注意安全。关闭前备箱,打开后备箱都弄好了。 关闭后备箱,后备箱关了,注意安全。 很多用户都非常喜欢小米的超级任务,它可以在特定场景下自动为你准备好需要的功能。比如在低速出库或者通过比较窄的道路时,系统会自动调出三六零影像,周围的环境一目了然。 在行车过程中,超级小爱也会主动提供安全提醒,在雨雪等恶劣天气下,也会建议开启湿滑模式。 我们可能都遇到过这样的场景,在路边等人或者是临时停下车,有人需要过来和你说几句话,敲敲窗户,这个时候如果摇下车窗,既不方便也不太安全。 你好,请多久啊?我在吃个饭,马上就走。好的好的, 所以我们打造了全场景通透模式,在低速状态下,你可以直接隔着车窗完成对话, 当你离开车辆后,超级小爱也会继续守护你的车。在哨兵模式下,如果检测到异常的行为, 比如有人试图拉车门,或者在车旁停留过久,车外小爱会直接进行语音警示,提醒对方离开,进一步保护车辆安全。哨兵模式已记录,请立即远离车辆。 同时哨兵模式的检测机制也进行了升级,现在系统会通过车身的震动来判断异常行为,检测更加准确,同时功耗也更低。 在设计座舱功能时,我们不仅希望它足够的好用,也希望它是有温度的、有趣的。所以这一次我们也带来了一些新的玩法。超级玩具箱。 我们做了一个萌宠系统,你可以选择不同的宠物,也可以把自己家的宠物生成一张卡片,把它拼在桌面上,作为你的电子副驾,他会一直陪着你出行,甚至可以同步到后排屏。 之前也有很多用户会把自己的玩偶吸在车内的磁吸点位上,这个小小的玩法给了我们很多的灵感,所以这一次我们做了一组磁吸萌宠,当你把玩偶吸到车上时,通过 nfc 的 感应,车机的萌宠也会变成同款角色。 去年,很多用户通过超级任务为自己的车设置了上车欢迎音, 于是大家玩出了很多很有意思的声音。这一次我们把这种玩法做成了系统的功能,现在锁车、插枪时,你都可以自定义音效,你既可以选择系统音效,也可以让小爱播报,甚至可以上传自己喜欢的声音。 这一次车载相机也迎来了一些升级,我们现在支持动态照片拍摄,可以记录下更生动的瞬间,水印的样式也变得更加的丰富,你甚至可以直接呼唤小爱同学帮你完成拍照。 未来我们也会继续把车载相机做的更好,也期待大家用它记录生活,分享更多属于自己的美好瞬间。 很多小米汽车车主其实都是苹果用户,所以我们也在一直持续优化苹果生态的使用体验。这一次我们带来一些新的升级, 比如很多车主一直希望小主键能够支持更多的功能,现在在小主键上你可以直接查看车位号,同时超级小爱也可以跨平台写作,实现快捷控车。 小米汽车 app 也接入了灵动岛,在锁屏小主键和灵动岛上,你都可以实时查看到车辆的充电状态。 很多苹果用户也向我们反馈,小米手机和超级小爱的联动非常方便,他们也希望在 iphone 上通过 siri 也能实现类似的体验,所以这一次我们也补齐了这部分能力。 当然,除了持续优化苹果生态体验,小米的人车加全生态也在不断进化,我们希望不同设备之间可以更自然的协助,让很多细微的用车场景都被系统自动照顾到。你好,是花店吗?嗯,是,帮我送一束花送到家里。 好呀,你想要什么花?嗯,给我来一束玫瑰吧。好的,谢谢。 很多车主熟悉的超级任务也在不断进化,现在他已经可以联动手表、眼镜等穿戴设备。 同时为了方便大家发现更多好用的任务,我们也重新优化了超级任务的发现入口,现在在车端新增了近期上新和近期热门,也按照不同的场景进行了分类,让大家可以更容易的找到适合自己的任务, 同时在手机端也支持任务的分享和添加,如果你发现了好用有趣的任务,也可以分享给朋友,让更多人一起体验这些有意思的场景。 当然,除了新功能,在很多细节上我们也在持续的打磨体验。比如在新一代苏七上,中控屏的操控体验就变得更加的流畅优雅。 从苏七到新一代苏七,两年的时间里,我们通过 ota 为超过五十万车主带来了两百一十多项的功能升级。 希望新一代的苏七澎湃智能座舱能够继续陪伴每一位车主一起走过更多的旅程,也一起记录每一个值得珍藏的瞬间。 对于很多人来说,这里是独属于自己的一片天地。这题这题啊,好可爱,想唱就唱, 想拍就拍,小爱同学帮我们拍张照, 留住每一瞬美好。无论车里还是家里,舒服与安心都是日常。 放松一点,快乐一点,让生活甜一点。你吃饭没有?我不用吃饭呢,你吃了吗? 再甜一点。

大家好,我是小米汽车机座大模型负责人成龙。我们今天发布了小米辅助驾驶全新架构小米 x l a 认知大模型,现在由我来为大家进一步详细讲解。相信用过辅助驾驶的朋友可能都会有过这样一种微妙的感受,它跟人类老司机相比, 似乎总隔着一种体验上的差距。我们认为,人类驾驶员与现有辅助驾驶的核心区别就在于对这个真实世界的认知。 传统的端道端技术高度依赖模仿学习,真实的物理道路极其复杂,施工、改道、临停、栈道、行人横穿,每天都有着无数个气洞,从未见过的长尾场景发生。如果换做是人类驾驶员,为什么能轻松化解这些复杂场景? 因为人类在开车时绝不仅仅是在看,而是在理解和思考。比如当你在开车时,前方的行人突然被风吹掉了帽子,那一瞬间,作为人类,你会本能的意识到,这位行人极有可能会突然转身折返去捡帽子,所以你会提前减速, 这就是认知推理的力量。辅助驾驶要想迈向真正的高阶智能,就必须跨越死记硬背的阶段, 从单纯的会开车升级为像人类一样理解世界,并基于理解做出思考和决策。为了实现这一终极目标,今天我们带来了全新的小米 x l a 认知大模型。 小米 x l a 是 如何具备这种强大的认知能力的?在回答这个问题之前,我们先来聊聊时下最热门的聚深机器人。 前不久,我们发布了一段小米机器人在汽车工厂实习的视频,视频中,机器人代替工人连续从自动送钉设备中精准抓取自公罗母,并准确放置在定位工装上。 这种高精度的物理交互,体现的正是机器的认知与空间推理能力。我们很早就意识到了这一点,于是创新性的融合了居身机器人和自动驾驶两大领域, 训练出一个统一的物理 ai 机座模型 minimo embodied 聚深基座大模型,大幅提升模型的整体空间感知与逻辑推理能力。 实验数据证明,在搭载自动驾驶与聚深机器人感知决策规划等二十九项核心基准测试中, minimo embodied 取得了领先的成绩, 确立了开源聚生肌做模型的新标杆。大家可以看这段视频,我们让模型操作机械臂把勺子放进锅里时,他不再是死板的执行命令,而是会主动思考桌面上物体间的逻辑关系,他知道要把锅盖打开,再把勺子放进锅里。 通过这种海量真实的物理交互模型,真正学会到了空间感知与因果推理。就是基于这样强大的底层基座,我们进化出了全新的车端架构。 真正的驾驶是一个多模态感知与复杂推理的过程。比如,当你准备变道时,如果突然听到后方传来的急促鸣笛声,你会立刻看后视镜确认与车速,决定是否取消变道, 这就是多膜态感知的力量。因此,小米智驾从传统的 va 进化到了 xla。 从某种意义上说, xla 赋予了汽车比人类更丰富的感官输入与更广阔的决策知识。 试想一下,如果人类天生自带激光雷达,即便在伸手不见五指的黑夜,也依然能够精准的判断前方的路况。所以我们在新一代速七上原系标配激光雷达。通过小米 x l a 架构,我们将激光雷达的精准测距、 视觉的丰富与意导航的全息视野、声音的动态反馈,乃至之前提到的机器人真实交互数据进行了全所未有的有机融合, 它让模型能够更全面的感知复杂的交通环境,更深刻的理解真实的物理世界。这就是为什么我们称之为小米 x l a, 而没有沿用行业常规的 v l a x 赋予了车辆更全面的认知。 l 也就是语言,正是开启深度逻辑推理的那把钥匙。 我们在小米 x l a 中引入了突破性的浅空间推理模式,简单来说,系统不再需要把思考过程翻译成语言,而是在浅空间中直接使用高维机器语言进行极速推理, 这样一来,在面对复杂场景时,他的思考速度可以极大的提升。当然,我们依然保证了整个推理过程的可解释性与可追溯性。让我们来看几个真实的案例。 比如这个典型的施工场景,前方突然出现了蓝色围挡,封堵了原有路线。如果是传统的算法,面对这种情况,往往是简单粗暴的一脚急刹,但 x l a 会对整个场景进行深度的分析,将围挡文字提示 和箭头符号串联起来,形成一个严密的逻辑闭环。前方施工栈道需要按箭头方向绕行,正因为有了这种局的因果推理,你会看到车辆极其从容的规划出了绕行轨迹,整个动作丝滑连贯,一气呵成。 我们再来看一个日常高频的场景视觉盲区。当车辆来到一个 t 字路口, 两侧视线完全被遮挡,但我们都知道,看不见绝不等于没风险。现在小米 x l a 会结合道路拓补结构、 遮挡区域和周围的动态信息,在浅空间中提前进行推演。这个盲区极大概率会突然穿出车辆或行人,系统会自动提前减速,打出充足的安全余量。 这不再是简单生硬的机器反应,而是真正像老司机一样的防御性驾驶策略。有了全面的认知,也有了深度的逻辑推理。接下来我们需要解决的就是最后一个环节,行动。 去年十一月,我们在发布小米 h a d 增强版时,曾向大家深入介绍过世界模型加强化学习这套机制。当时行业里有很多探讨, 未来的自动驾驶到底应该选 vr a 路线,还是选世界模型路线。今天小米 x l a 给出了我们的答案,这两者绝不需要二选一,而是可以相辅相成,实现更好的结果。世界模型就像是一个高保真的模拟器, 他负责在虚拟世界中源源不断的生成海量复杂的驾驶场景,而强化学习则在这个模拟器中进行无数试错与策略优化。通过把世界模型加强化学习的训练,闭环无缝接入 x l a, 我 们让系统拥有了持续进化的能力。 他不仅在每一次真实道路中积累经验,更在虚拟世界中闭环持续进化,真正做到越开越稳,越开越像老司机 这次在新一代素机上会率先搭载基于小米 x o a 架构的尝鲜版,它带了一部分模型能力和一部分全新的功能体验,更多能力会在后续版本中持续迭代。 今天只是一个全新的开始,感谢车主朋友们一路以来的信任、支持与陪伴,希望各位车主朋友在使用辅助驾驶功能时时刻保持安全意识,我们下个版本见。

一、某 vr 破这一款大模型呢,是面向 a 键的时代的旗舰机座大模型, 它的总参数是一万亿的参数的 mo 模型,采用了小米自研的创新的混合注意力架构,支持了百万的上下文长度。 我们来看看全球权威的大模型的综合智能排行榜,我们在今天凌晨发布的时候呢,全球总榜第八, 按品牌排名的话全球第五,我们超过了 s a i 的 沃克菲尔普。不仅仅是智能上限高,更重要的是 a 检测的综合能力更强, 它具备持续可靠完成复杂工作流的编排,长流程的规划和精准的工具调用,它更适合做扣顶和养虾用好。谈到 a 卷的能力呢, 养虾人最关心的聘请这个榜单,他是考核任务完成率的,那么维尔普尔呢,以平均任务完成率百分之八十一排在全球第三,主要的 a 卷的能力的基作评测级, 我们跟 cloud, tbt、 jimmy 相比,都在同一梯队展现了领先的智能水平。上周呢,我们在 openroot 里面第一发布,一上线以后很快就排到日榜第一。 openroot 呢,是全球最大的大模型的 a p i 的 聚合平台, 当你调用量越高,一般来说意味着开发者的认可度越高。所以呢,全球的开发者对维尔托的评价是,智商高,情商也高,关键是任务执行又快又准。 今天呢,我们在公众号上发布了三个模型,刚才谈了 vr pro, 还有我们全模特的模型 vr 奥曼尼,他能看、能听、能推理能执行,特别适合养龙虾。我们还有一个 vr 的 tts 的 模型, 我们上亿小时的语音数据,根据文字的内容和语音上下文,能够输出更令人的声音,而且有喜怒哀乐这些功能,未来我们都会连入超级小爱,所以超级小爱未来的整个语音交流会更自然更流畅。好, 我们的大模型的科提姆呢,是一个原生的 ai 团队,他非常非常年轻,平均年龄只有二十五岁,但是人才密度超高,几乎全部来自于国内的顶尖高校,博士占比呢高达百分之五十五。 其中最年轻的研究员只有十九岁,是北大图林班一个大二的同学,他正在我们这里实习,也做了不少的贡献。 在 ai 等硬核的科技赛道里面呢,我们可能相对比较低调,但实际上我们推进的速度可能比外界看到的要快很多,就包括芯片、聚生智能、人性激情各个领域啊。 在 ai 领域,我们未来三年的计划呢,是至少投六百亿。其实呢,今年我们的预算在 ai 上研发和资本开支就超过了一百六十亿, 我们有人车加全生态的优势,还有一往无前的勇气。在 ai 时代呢,请大家放心,我们一定会交出一份靓丽的答卷。

天呐,没想到小米居然在偷偷搞 ai! 当国内大厂都在围绕着 open core 搞事情的时候,有一款神秘的大模型已经在 openroot 上悄悄霸榜了 一段时间。大家一开始都在猜呀,这是不是 deepsea v 四的提前试水呢?结果昨天深夜,小米自己来认领了 来,这就是他们专门面对 age 时代推出的新一代模型,叫做 memo v two pro。 跟他一起发布的还有面向多模态场景的 memo v two omni, 以及超女人语音大模型 memo v two tts。 这也正如雷总今天发微博官宣时说的,小米在 ai 这件事上一直比较低调,但实际的进展可能比很多人想象都快得多,这次确实有点一鸣惊人的意思。而且 mobile v two pro 的 定位也很明确,它不是那种只陪你聊天的模型,而是专门充着 a 准的 执行能力去的。总参数呢,超过一千 b, 激活参数四十二 b, 还支持百万上下窗口明显就是冲着复杂任务练和长工作流来的。那今天呢,参数我就不念了,我直接拿出祖传的测试题来考考这颗 ai 领域的操心心。 我们先来看一下它 a p i 的 界面啊,他说呢,目前是首周呢,就可以免费的试用,而且他自己这里也说了,要推向 a 准的时 在,所以呢,用来养龙虾应该是挺爽的。那是不是一直先进行一些对话的测试?它这个界面叫做小米 miimo 的 studio, 左上角呢,有几个模型选择,有这个最新的 v two pro 和 v two omni, 我 们选这个 v two pro 看一下。首先来一个难倒很多大模型的一个思考题,我想洗车,我家离洗车店五十米,我是开车去还是走路去?他正在思考当中, 我给他深度思考了十七点六秒,给我的回答呢,也是正确的,就是洗车通常都把车开到洗车店,而且还告诉我可以去咨询一下可不可以上门取车。第一条测试题是通过的, 那第二个测试题我就上点难度考,他试图并且呢破解密码的能力,他正在思考,用十九点六秒,哎,但是他没有 给我一个答案,也就是说这一道题它是翻车了,就没有破解这三个数字有可能是用的这个模型,它不是多模态的,我试一下切换一个模 型,比如说我切换这个,再来一遍这个就开始解题了,用时三十一点六秒,最终答案是正确的,所以你要多模态,就是不要选这个, be to omni 就 可以解决了。那接下来我再出第三题给大家,我又用回这个不是多模态的, 试一下。我上传一张车的图片啊,他提取不到,就是说我们这个 pro 的 模型,他识别不了这个图片,他只能识别文字,那就要用多模态这个了,那我用多模态这个上传这个 车的图片,问一下他这个车的基础信息以及售价。好在思考当中,他只用了五点七秒,他说这是红旗的 l 五,然后呢,这个官方指导价五百万人民币, 所以他识别图片查询信息也是没问题的。那接下来呢,我想测试一下他的代码能力,我用这个 pose 一下,我要做贪吃蛇这个网页的游戏,看一下他能不能做啊。哦,他很快就开始做了, ok, 貌似他已经做出来了,我试一下玩。哎,开始可以玩了。哎呀,输掉了,重新开始 挺有趣的,所以前端代码这一趴也是过的。那我再给他一道题,就是我的字幕工作流贴给他,看他怎么反应,但是忘了切换多模态的。但没关系,我试一下,你看他是无法上传 mp 三,所以这个 pro 是 不能多模态的。我们切换到 v two omni 这里,把提示词再贴给他,然后上传音频 发送不了,是太长还是怎么样?不知道为什么,反正我这个音频发送不出去,这里是灰色的,我试一下换一个 也是不行的。 mp 三无法发送给他,那我这个字幕的工作留在这边就搞不定。看一下它这里有个录音,我们试一下。 hello, 你 好, 我正在测试小米的 miimo v two pro, 哎,它果然这边有一个录好的 mp 三,但是也是发送不出去的。那它这个录音用来干嘛呢?搞不懂,不知道我有什么操作错误的。反正就是 mp 三,它能够上传,但是无法发送给它。 ok, 不 管它直播的工作流搞不定。那音频不可以,视频可以吗?我试一下, 超过二十 m 就 没法上传,那这个就没什么用处了,就不用管他了。那最后我们来测试一下 memo call, 立即创建,继续创建,需要 等约两分钟。 ok, 已经创建成功了,右上角有一个倒计时,就是这个测试只有三十分钟。帮我找到今天全球五条热门 ai 新闻,并且用语音的形式播报 给我,看他能不能做到。好,他开始干活了,他已经收集到今天的热门新闻,现在生成语音播报,语音已经保存在工作目录,可以播放收听,但问题是你的工作目录在哪里呢?工作目录在哪里? 问一下他,他这个地址应该在沙河里面的,我要不就直接让他发给我吧,你把通过链接的方式发给我, 他说他没办法给到我这个,那就再试一个方法,把音频上传到任意公开的网盘, 然后给我下载链接,看他能不能办到。 ok, 他 给我这个链接了,看一下是不是真的可以试一下这个 catbox, 然后直接访问, ok, 看能不能下载允许。大家好,以下是二零二六年三月十九日,全球 ai 领域五大热门新, 果然可以第一 open ai 开启战略收缩。 ok, 我 们来总结一下,刚刚我让他生成五条 ai 热门新闻,并且用语音播报形式给我,他说呢,已经做好了,但是我是访问不到他这个工作 目录的,然后我就让他提供一个下载链接给我,他说他没办法办到,我再想一个办法,就是上传到公开网盘,这个方式呢就刚刚好。所以呢,就是只要跟他多对话,其实他也是能够解决问题的,还是蛮不错的我感觉。 那我们最后再看一下它的价格啊,输入从一美元到两美元,输出呢,从三美元到六美元。那如果他跟这个 crook 对 比呢?整体确实是比他便宜很多 的,那经过刚刚的测试,我们可以看到小米这一波,至少呢,不是来凑热闹的,他真正想抢的已经不是谁更会聊天这个赛道了,而是下一个阶段 谁能替人干活。以前我们用 ai 本质上是在问答,你提一个问题,他回你一段话,那现在的所有大模型明显已经在往另一条路上走了。不是回答你,而是开始替你执行了。所以这是小米最值得关注的,不是他加入了大 大模型的队伍,而是他在告诉所有人, ai 的 下半场已经不是聊天了,而是执行。谁能把 ai 从会说做成会做,谁才能真正摸到了 a 准时代的门把手。你已经开始测试了吗?感觉怎么样?我们评论区里聊一下。 ok, 以上就是今天的所有内容,我们下期再见。

都说 j l m t t s 这个语音合成大模型很强,那么我今天就试一下把它部署在本地,看看这个效果怎么样。首先我们还是看一下这个对比结果表,可以看到在保持高度扬声器相似度的一个同时, j m t t s 呢实现了一个最低的一个制服抽率,也就是这里的 c e r 屏幕指标。 j m t t s 呢全程是可控且情感表达的零色素语音合成器。然后它的主要特征呢有四个,第一个只需要三到十秒钟的一个提示音频 就能克隆任何说话者的一个声音。第二个支持混合因素加文本输入,实现精确的一个发音控制。第三个支持适合交互式应用的一个实时音频生成。第四个对中英文混合文本进行了一个优化。然后我自己部署的一个设备是三零九零的一个显卡,二十四 g 的 一个显存。然后我是在 windows 上使用了 wsl 部署了一个乌帮图,然后库打的一个版本是十二点六,然后拍摄的一个版本是三点一二。我自己觉得部署的一个难度两颗星吧,因为中途遇到的问题我都用机密里很轻松的就解决掉了。然后它的一个功能就是文本转语音,然后它的一个调用方式呢,使用的是 grad, 然后这个是我已经按照官网的一个步骤已经部署好了,然后我们在相应的一个路径下启动相应的一个命令运行即可, 这个就已经启动好了,我们可以在八零四八的一个端口进行访问,然后下面是一个实时的一个显存在用, 然后我们输入八零四八的这个端口,然后访问这个 g m t t s 的 这个网页,进行相应的一个调用, 然后可以看到这个第一块是我们上传的一个提示音频,然后第二块这个 promap text 呢是这个提示音频所对应的一个文本内容,以及第三块这个 input 设定呢,是我们需要转成语音的一个文本,然后输入完成后,我们点击生成, 可以看到这里就已经开始输出对应哪个音频了,然后这里呢是后台的一个输出,以及我们的一个显存的一个变化,差不多花了一百秒左右,这个音频就生成好了,我们点击下载就可以了,我们来听一下最终的一个效果到底如何?我最爱吃人参果, 你喜欢吃吗?当时的一个输入文本就是这几个字,整体的效果听起来还是挺不错的,因为我觉得就是生成的一个速度还是有一点慢,下期我们再来测一测其他的一个多模态模型吧。

还有人不知道怎么免费使用新发布的咪莫大模型,我们可以看到两个新模型的表现是在第一梯队的, 并且和 oppo 四其实非常接近了,官方发布的时候说可以免费使用首周,但是我看还有很多人不知道怎么去用。那我们可以看到在这五个框架下面是本周是可以免费使用的。但是很多人在 opencloud 里直接加小米的 api, 发现是要扣费的。 我们只需要在 open router 里面注册一个账户,得到我们自己的这个 api k, 然后我们把我们自己的 api k 复制下来, 到自己的终端里配置一下,就可以免费使用了。我们可以直接输入这样一段提示词,帮我配置模型。用 open router 的 demo vr pro 到它模型的链接,还有自己的 api, 让小龙虾可以自己帮你把模型给给配置进来。 配置进来之后,我们在 model 切换里面就可以去选择 ro 的 模型。你好, 你是什么模型?可以看到他已经成功的使用了小米的 vr pro 的 模型了。好,下面我们来跑几个案例,看看它的效果如何。测试的过程中,我发现咪蒙的这个网站的前端做的非常的简练有趣, 所以我准备尝试测试一下用咪蒙可不可以也做一个同样的网站,直接用这个提示词让咪蒙去复制他们的网站,并且宣传自己的大模型。 好了,复刻的网站出来了,我们可以看到他很快可以复制出来一个百分之八九十相似的网站,同样也是有动效的布局,基本上是完整保持了设计理念。我下载了一张速七的照片,给了这样一段提示词,让他用这个照片为素材,制作一个赛车的游戏, 我们看看密密模型能做成什么样,他自己写完并且跳出来的。这个游戏名叫小米速七狂飙,我们只需要左右移动加速就可以玩了。 点开这游戏,它是一个纯三 d 的 游戏,但是它这个游戏其实有 bug, 它一次只能变两个车道,并不能停在中间的车道,有点类似寺庙逃亡,还是非常丝滑的。我们来测试一下它的前端的性能,给这样一组的提示词,让它写一个浏览器的操作系统, 它已经跑完了。打开链接可以看到它的背景是闪烁的星空,这边有一个时间,但稍微有点丑。它有一个菜单,里面有备用的应用, 第一个是记事本,随便打一些字,但是没有保存。下一个是计算器,我们算一下九乘六等于五四,这个倒是对的。还有一个贪吃车游戏,但是这个难度是稍微有点高的,他在打砖快,他移动速度也是比较慢,但整体的配色还有这个 ui, 我 还是觉得挺不错的。下一个是天气哈尔滨, 看一下区域宠物点击宠物互动,但宠物在哪里?它的前端虽然完成的比较好,但可能具体的这些应用还是多多少少都是有些 bug。 总结一下,这个模型总体来说确实技能是在现在的第一梯队, 甚至接近于 ludo pos 的 水平,这点是没得说的。但目前看收费是比较高的。虽然说现在开了一周的免费的体验,但是还是希望小米早点出自己的固定 play, 让大家可以更实惠的把这个模型用起来。

小米的这个 slv 大 模型要来了,我粗略的看一下,主要提升在两点,第一个呢是有关车机对话的深入,再一个呢就是有关辅助驾驶。首先跟大家聊聊第一个这个车机的深入思考,现在的小爱呢,他虽然是很智能,但是呢,他更多的像是一个按照设定去做出打负的一个没有感情的机器, 我让他干什么他就干什么,但是我让他思考印点什么东西的时候呢,他这个时候就没有逗师傅或者是大哥萨克他们那样的思考。就比如我问小爱,我还真遇到了一个很严重的问题, 因为我的这个车库,他的后尾箱呢,不能全部的抬起,然后呢,我还想测试一下能不能用语音把这个后排的座椅给它全放倒,因为我发现这个后排座椅只能手动调节,不能语音调节,所以说我想试一下能不能用语音把这个后排座椅放倒。然后呢,我让他放倒后排座椅,我试了三种不同的指令 都实现不了。然后呢,最严重的一次,我让他放倒后排座椅,他呢思考半天,他给我把后备箱门打开了,而在打后备箱门的时候,我的车库门是关下来的,所以说他让他后备箱门咣叽一下子就撞这个车库门上了,好在他有防夹磕,一下子他就关上了,好在是没有酿成大货。 所以说现在的话呢,我对小爱我个人的认知呢,是他会思考,但是呢他思考的不够,所以说看看这个更新之后的 x l a 大 模型,他做的咋样吧。 然后呢是下一个辅助驾驶,现在一点一二的小米辅助驾驶,大家都知道就是能上桌了,但是距离第一个洞块呢,还是有很大的进步空间的,我主页出过这个一点一二我测试辅助驾驶的视频,大家可以看一下子,我在高速他直接就给我扎雪堆里边了, 而且现在这么看小米的辅助驾驶,他更新是非常快的,为什么呢?就是因为他教的车多,教的车多,客户遇到的环境情况就多,他就能更多的去总结经验,然后去进一步的优化。 所以说我还是很期待这个小米的最新的 x l a 更新了之后会是什么样的,然后等更新之后呢,小陈也会第一时间给大家重新测一下子这个车机系统怎么样, 再给大家测一下它这个辅助驾驶到底怎么样?就目前来说,这套支架以及这个车机系统的话呢,就是说能用,但是呢它不太好用,不过呢我也相信小米,对吧?就是说谁呢都不是一口能吃下个胖子的人,都是在慢慢进步的,对吧,反正呢就是敬请期待吧。