大家好,我是小米汽车机座大模型负责人陈龙。我们今天发布了小米辅助驾驶全新架构小米 x l a 认知大模型,现在由我来为大家进一步详细讲解。真正的驾驶是一个多模态感知与复杂推理的过程。 比如,当你准备变道时,如果突然听到后方传来的急促鸣笛声,你会立刻看后视镜确认情况,并在瞬间评估距离与车速,决定是否取消变道。这就是多肽感知的力量。因此,小米支架从传统的 v l a 进化到了 x l a。 从某种意义上说, x l a 赋予了汽车比人类更丰富的感官输入与更广阔的悬局知识。 试想一下,如果人类天生自带激光雷达,即便在伸手不见五指的黑夜,也依然能够精准的判断前方的路况。所以我们在新一代速七上原系标配激光雷达。 通过小米 x l a 架构,我们将激光雷达的精准测距、视觉的丰富与意导航的全息视野、声音的动态反馈、机器人真实交互数据进行了全所未有的有机融合。 它让模型能够更全面的感知复杂的交通环境,更深刻的理解真实的物理世界。这就是为什么我们称之为小米 x l a, 而没有沿用行业常规的 v l a。 x 赋予了车辆更全面的认知。 l 也就是语言,正是开启深度逻辑推理的那把钥匙。 我们在小米 x l a 中引入了突破性的浅空间推理模式。简单来说,系统不再需要把思考过程翻译成语言,而是在浅空间中直接使用高维机器语言进行极速推理。 这样一来,在面对复杂场景时,他的思考速度可以极大的提升。当然,我们依然保证了整个推理过程的可解释性与可追溯性。让我们来看几个真实的案例。比如这个典型的施工场景,前方突然出现了蓝色围挡,封堵了原有路线。 如果是传统的算法,面对这种情况,往往是简单粗暴的一脚急刹。但 x l a 会对整个场景进行深度的分析,将围挡文字提示 和箭头符号串联起来,形成一个严密的逻辑闭环。前方施工栈道需要按箭头方向绕行。正因为有了这种局的因果推理,你会看到车辆极其从容的规划出了绕行轨迹,整个动作丝滑连贯,一气呵成。 我们再来看一个日常高频的场景视觉盲区。当车辆来到一个 t 字路口,两侧视线完全被遮挡,但我们都知道,看不见绝不等于没风险。 现在小米 x l a 会结合道路拓补结构、遮挡区域和周围的动态信息,在浅空间中提前进行推演。这个盲区极大概率会突然穿出,车辆或行人系统会自动提前减速,打出充足的安全余量。 这不再是简单生硬的机器反应,而是真正像老司机一样的防御性驾驶策略。有了全面的认知,也有了深度的逻辑推理。接下来我们需要解决的就是最后一个环节,行动。 去年十一月,我们在发布小米 h a d 增强版时,曾向大家深入介绍过世界模型,加强化学习这套机制。当时行业里有很多探讨, 未来的自动驾驶到底应该选 v l a 路线还是选世界模型路线?今天小米 x l a 给出了我们的答案,这两者绝不需要二选一,而是可以相辅相成,实现更好的结果。世界模型就像是一个高保真的模拟器, 他负责在虚拟世界中源源不断的生成海量复杂的驾驶场景,而强化学习则在这个模拟器中进行无数试错与策略优化。通过把世界模型加强化学习的训练闭环无缝接入 x l a, 我 们让系统拥有了持续进化的能力, 他不仅在每一次真实道路中积累经验,更在虚拟世界中闭环持续进化,真正做到越开越稳,越开越像。老司机 这次在新一代速机上会率先搭载基于小米 x o a 架构的尝鲜版,它带了一部分模型能力和一部分全新的功能体验,更多能力会在后续版本中持续迭代。 今天只是一个全新的开始,感谢车主朋友们一路以来的信任、支持与陪伴,希望各位车主朋友在使用辅助驾驶功能时时刻保持安全意识,我们下个版本见! 大家好,我是小米澎湃智能座舱的产品经理 perry, 今天我想带大家看一看新一代小米苏七的智能座舱。在小米汽车,我们一直坚持一件事情, 人是所有设计的原点。下面我们从一个最熟悉的伙伴开始。 在小米汽车上,几乎每一位车主每天都会使用小爱同学。在新一代小米苏七上,小爱同学再次升级,对话更自然,理解也更聪明, 他也变得更加主动,比如上车的时候会在合适的时机跟你打招呼,告诉你今天的天气,晚上好,今天路上很畅通,预计一小时十七分钟到家。除此之外,超级小爱现在也具备了全网搜索能力, 很多你想聊的话题他都可以随时帮你找到答案。我们也专门打造了几个内容空间,比如资讯、音乐,还有儿童故事,让每一次对话都更加沉浸。 除了聊天,超级小爱也变得更加的能干,你只需要说出自己的想法,哪怕是模糊复杂的需求,他也能理解你的目标,一步步帮你完成任务。帮我导航到北京周边最大的滑雪场,我有点饿,我想先去吃顿饭,再帮我找一个能看得到滑雪场的餐厅导航过去。 好的,我想一想, 先去城边渔村红尊渔农家菜,再去淮北国际滑雪场,已为你发起导航了。 除了完成车里的任务,超级小爱现在也能够理解你正在看的内容,无论是在车机上还是在手机上,他都可以理解屏幕里的信息,然后继续帮你完成接下来的步骤。小爱同学,嗯,你说 导航到我小红书收藏的卡丁车体验中心,小爱正在帮你操作。很多原本需要来回操作的事情,现在一句话就可以完成,你想选哪个呢?第一个, 去小米汽车卡丁车体验中心,向左前方行驶,随后六十米右转。超级小爱现在也开始参与驾驶控制,比如大家经常使用的泊车辅助,现在也可以通过小爱来操作。 当遇到比较狭窄的车位时,在车外呼唤小爱同学就可以完成播出。小爱同学,我在向右播出, 开始向右播出了,请注意周围环境安全,在车里也可以通过小爱调整泊车的细节,比如泊车偏移或者泊车速度。 在小米汽车上,安全始终是最重要的一件事,所以在这一代座舱里,我们也做了很多的升级, 从上车前到行车过程中,再到离开车辆后,希望能够在整个用车周期里,为你和你的家人朋友提供更全面的安全守护。 所以这一次车外,小爱也升级了声纹识别,他可以做到只听唤醒人说,不会被其他人的指令干扰,同时也支持一次唤醒,边走边说,整个交互过程会更加自然便捷。 小爱同学在打开前备箱,前备箱开了,注意安全。关闭前备箱,打开后备箱都弄好了。 关闭后备箱,后备箱关了,注意安全。 很多用户都非常喜欢小米的超级任务,它可以在特定场景下自动为你准备好需要的功能。比如在低速出库或者通过比较窄的道路时,系统会自动调出三六零影像,周围的环境一目了然。 在行车过程中,超级小爱也会主动提供安全提醒,在雨雪等恶劣天气下,也会建议开启湿滑模式。 我们可能都遇到过这样的场景,在路边等人或者是临时停下车,有人需要过来和你说几句话,敲敲窗户,这个时候如果摇下车窗,既不方便也不太安全。 你好,请多久啊?我在吃个饭,马上就走。好的好的, 所以我们打造了全场景通透模式,在低速状态下,你可以直接隔着车窗完成对话, 当你离开车辆后,超级小爱也会继续守护你的车。在哨兵模式下,如果检测到异常的行为, 比如有人试图拉车门,或者在车旁停留过久,车外小爱会直接进行语音警示,提醒对方离开,进一步保护车辆安全。哨兵模式已记录,请立即远离车辆。 同时哨兵模式的检测机制也进行了升级,现在系统会通过车身的震动来判断异常行为,检测更加准确,同时功耗也更低。 在设计座舱功能时,我们不仅希望它足够的好用,也希望它是有温度的、有趣的。所以这一次我们也带来了一些新的玩法。超级玩具箱。 我们做了一个萌宠系统,你可以选择不同的宠物,也可以把自己家的宠物生成一张卡片,把它拼在桌面上,作为你的电子副驾,他会一直陪着你出行,甚至可以同步到后排屏。 之前也有很多用户会把自己的玩偶吸在车内的磁吸点位上,这个小小的玩法给了我们很多的灵感,所以这一次我们做了一组磁吸萌宠,当你把玩偶吸到车上时,通过 nfc 的 感应,车机的萌宠也会变成同款角色。 去年,很多用户通过超级任务为自己的车设置了上车欢迎音, 于是大家玩出了很多很有意思的声音。这一次我们把这种玩法做成了系统的功能,现在锁车、插枪时,你都可以自定义音效,你既可以选择系统音效,也可以让小爱播报,甚至可以上传自己喜欢的声音。 这一次车载相机也迎来了一些升级,我们现在支持动态照片拍摄,可以记录下更生动的瞬间,水印的样式也变得更加的丰富,你甚至可以直接呼唤小爱同学帮你完成拍照。 未来我们也会继续把车载相机做的更好,也期待大家用它记录生活,分享更多属于自己的美好瞬间。 很多小米汽车车主其实都是苹果用户,所以我们也在一直持续优化苹果生态的使用体验。这一次我们带来一些新的升级, 比如很多车主一直希望小主键能够支持更多的功能,现在在小主键上你可以直接查看车位号,同时超级小爱也可以跨平台写作,实现快捷控车。 小米汽车 app 也接入了灵动岛,在锁屏小主键和灵动岛上,你都可以实时查看到车辆的充电状态。 很多苹果用户也向我们反馈,小米手机和超级小爱的联动非常方便,他们也希望在 iphone 上通过 siri 也能实现类似的体验,所以这一次我们也补齐了这部分能力。 当然,除了持续优化苹果生态体验,小米的人车加全生态也在不断进化,我们希望不同设备之间可以更自然的协助,让很多细微的用车场景都被系统自动照顾到。你好,是花店吗?嗯,是,帮我送一束花送到家里。 好呀,你想要什么花?嗯,给我来一束玫瑰吧。好的,谢谢。 很多车主熟悉的超级任务也在不断进化,现在他已经可以联动手表、眼镜等穿戴设备。 同时为了方便大家发现更多好用的任务,我们也重新优化了超级任务的发现入口,现在在车端新增了近期上新和近期热门,也按照不同的场景进行了分类,让大家可以更容易的找到适合自己的任务, 同时在手机端也支持任务的分享和添加,如果你发现了好用有趣的任务,也可以分享给朋友,让更多人一起体验这些有意思的场景。 当然,除了新功能,在很多细节上我们也在持续的打磨体验。比如在新一代苏七上,中控屏的操控体验就变得更加的流畅优雅。 从苏七到新一代苏七,两年的时间里,我们通过 ota 为超过五十万车主带来了两百一十多项的功能升级。 希望新一代的苏七澎湃智能座舱能够继续陪伴每一位车主一起走过更多的旅程,也一起记录每一个值得珍藏的瞬间。 对于很多人来说,这里是独属于自己的一片天地。这题这题啊,好可爱,想唱就唱, 想拍就拍,小爱同学帮我们拍张照, 留住每一瞬美好。无论车里还是家里,舒服与安心都是日常。 放松一点,快乐一点,让生活甜一点。你吃饭没有?我不用吃饭呢,你吃了吗? 再甜一点。
粉丝46获赞1589

小米呢在今年发布了一款新的模型,叫 miami v 二 pro, 据说是非常厉害,不管是在编程工作有非常出色的表现,那么就来测试一下编程方面到底是怎么样的。那在测试之前,我们先来了解一下这款模型的一些参数啊。 那首先第一个是就是是它的这个总参数量是一个 t, 那 激活是四十二 b, 还有一个非常重要的是它是支持一百万 tokyo 就 一兆的上下文,这是已经是顶级的水平了,目前基本上主流的模型都是这个上下文长度, 那这边的话,它之前是在 oppo reno 里面是以这个匿名的这个模型去发布的,然后也是得到了非常大的关注啊,那表现也是非常不错的。那我们具体来看一下它跟其他的几款模型,比如说 oppo 的 四点六,散热器四点六,还有 jimmy 三 pro, 杰比利五点二,说实话它对比的 这两款模型是版本已经落后了,我们知道这个加密的三点一已经出来了,那 jpg 已经发布到了五点四的版本,我们看下具体的分数吧。然后这个是复杂多步骤任务的,这个是适用于工作场景的,那这边的话它是比这个五点二还要强,然后的话是弱于这个 solo 的 系列和 opus 系列, 那我们接着看这个编程与代码能力这个维度,那么在 s w e 这个测试当中,它的这个分数的话是接近这 collect 四点六的,然后是差不多相差一点六,那比 jammer 三 pro 高一些,那么在这个终端直线命令拼脚本和系统能力的上, 那么是超过这个 jammer 三 pro 以及 jpg 五点二跟这个 collect 四点六是只相差两分, 那其他就是一些搜索能力了。然后这边的话它就说它是一个顶级的编程能力的模型啊,内部评价是跟 opus 模型是非常接近的,那我们就来测试一下在编程这块它到底是怎么样的,然后 看整个参数是非常不错。那么我们这里的测试的话也是分为了前后端测试啊,那我使用的测试的客户端是 crayon, 然后使用的是这个 openrotor 里面的 memo 模型,目前是免费的。 然后呢分别会进行一个前端测试和这个 app 测试,以及我们的这个后端的 java 测试。 那第一个测试就是非常经典的这个三人斗地主游戏了,那这个目的是为了测试它的逻辑和它 ui 生成能力啊。然后的话看一下 他的这个玩法能不能玩起来,比如说什么发牌啊,叫地主啊,斗地主之类的这些规则能不能有一个简单规则,就我们不期望就说一次对话就能完整的实现一个斗地主的游戏,我们就看一下他的下线到底在哪里,那这边是他做出来的效果啊,说实话是我觉得是非常不错的,比如说现在玩一把 我们可以去选这个, 就是这个规则基本上都可以,然后的话不出, 然后这个机器人出牌也是对的,虽然说他可能就是合作之间还会相互去竞争啊,这个不太符合这个基本的常理。那我们就这样三带一个啊,没有人要,那我们就看再看三带一,对 没有人要,好,我们先出这个, 哎,所以这一盘是很顺利的完成。那目前这个斗地主的测试啊,使我测试所有的模型,包括 oppo 的 四点六, 这个是最完整的,而是一次通过。这个是让我非常非常惊讶,非常非常惊讶,非常非常意外啊。接下来就测试的就是一个 app 的 全站测试,那这个我们要求它用 flat 来完成一个包含 app 和包含后端,然后使用 python 和 my circle, 然后有这是一个外卖点单的一个功能啊,可以登录,可以看到菜单,可以看到购物车,可以加减,可以看到图片啊,商品啊,这是一个比较小小型的 mvp 的 一个产品呢,我们来看一下它实现的效果,那这个是它启动的效果啊,但是呢我在这里要特别强调一下,在我在整个开发过程中呢, 它前面开发非常顺利啊,但是在启动我们的这个 python 服务和这个客户端的时候,出现了非常多的问题,特别是这个 python 服务, 然后你把错误信息发给他之后,他一直解决不了,我已经进行了多轮对话都解决不了。那最后呢,我是通过这个 class 让他去修复这个问题,然后他这边一轮对话就把这个问题修复了。那这个其实也说明一个什么问题呢?就是 mimo 这个模型可能在解决问题,或者说你的上下文非常长之后,它有可能会产生幻觉,然后是一直会兜兜转转的。那么我在完成这个 app 里面也包含了前段后段,那产生代码量是非常大的,所以呢这个在这方面能力是非常有欠缺。那我们用 flex 修复完之后, 我们再看进去,看一下能不能进去。 ok, 这边是它的页面,然后的话也是中规中矩吧,页面上是我觉得还行,那我们加购物车看一下, 失败,就有些功能还没有完成。 ok, 那 我们接着往下测,那接下来测试的是一个 java 的 一个优选与结算的一个系统啊, 那这个的测试的目的呢?就是有多种规则情况下,他怎么去实现这样功能?那促销里面有经常有这这种优惠叠加,还优惠互斥啊,多种优惠券混在一起呢,怎么去算这个价格? 那还掺杂着什么运运费啊,或者这些东西。所以呢,这个模块是有点复杂,我们来看一下密密最终的实现效果,就是他做完之后啊,他自己进行了一个单元测试,因为我们在生成这个 pran 的 时候,他会生成这样的一个比较小的一个测试单元,测试用力,他这边跑完是已经全部通过了, 但是我在看具体代码的时候,其实他考虑的场景是有一些肉的,这个跟之前我在测试 mini max m 二点五的时候非常像,就说他考虑的场景没有 colis 考虑的那么全,所以这一块是有一些不足的,但是 已经做的非常不错了,这个在我之前所有的模型里面应该能排到前三吧,这个基本上考虑到了,只是一些比较细的,比如说优惠券的这个类别判断啊,这一系列可能去需要一个非常详细的提示词才能去完成这样的功能,那整体表现上我觉得是非常不错, 所以总的看下来就是跟其他的啊, oppo 四点六啊,或者说杰布迪五点三这一个对比的话,在纯前端逻辑上,就斗地主这个游戏反馈上,我觉得是非常非常表现不错,但是在全站上因为可能代码量多啊,导致这个他这个产生一个幻觉,修复问题非常非常的 啊,兜兜转转的。那修复问题呢?经常兜兜转转的,最终都没有起来啊,是靠住第三方工具才去给他修复好,那否则加了后端上,我觉得表现的也还行。所以呢,总对这个模型进行一个总结,就优点就是一照到上下文非常爽, 然后在 ui 上表现是非常出色,特别是这个斗地主这款游戏啊,是完成所有模型里面完成最好的,非常出人意料。 第三个呢,在 java 的 这个后端的这个促销逻辑上也是非常不错的,虽然说场景不全,但测单人测试基本上通过了。 那缺点就是我刚刚一直在讲的修复 bug 的 能力很欠缺,容易得得卵卵,除非人为干预,而且我已经人为干预了两三次了,还是没有解决, 然后偶尔出现就是代码啪啪啪写完了,但是呢,翻译的时候不通过,然后他要去修复问题,那像 cloud 或者 jpt 模型,基本上生成完代码之后,翻译是一次通过了,那所以在这个环节上就有些差距的。 那总的来说,我觉得 mimo 是 一个非常不错的模型,远超我的预期。其实我来做评测的时候,我是觉得可能啊,这个模型因为只发布了两个版本,还没有那么强,但是 结果其实是超过我的预期的,那比一点零一点零版本是有非常大的进步,那编码能力我觉得是肯定是不如这个散热的四点五万,虽然说官方在跟散热的四点六对比,但是我觉得还没有到散热的四点五的这个水平,而且是比 智普五点零和这个 mini max m 二点七,我觉得还是呃差一些。那目前的话就测试的场景就这些,就是我个人的测试场景,并不代表一个权威的一个结果啊,只是我自己的一些看法。

我用了一千万拓展去验证最适合 open globe 小 龙虾的模型搭子来了,亨特阿尔法,它目前在 open road 上是一个免费的,是一个另一门公司测试的模型。呃,据传闻它可能是 deep deepsea v 四版本,或者说是智谱,或者说是小米的新一代模型。然后它的特点就是一万亿参数,然后上下文有一百万, 它是相当于,呃可以处理七十五万字的中文或者一百五十万的英文单词,在一个对话框内,那相当于就说它是我们之前推荐的 g 月星辰三点五,就 sleep sleep 三点五 flash 的 四倍,然后专门为了 opencloud 啊小龙虾这种 app 去做了优化,然后它目前也是在 opencloud 上是免费的。然后魔性 id 我 贴在了我们视频的评论区里面, 呃,我让他去呃做了一些安全的测试,就是我们之前上个视频提到的自防护,呃,就相当于模型 agent 的 自防护能力,然后可以看到就是亨特尔法是百分百通过的,然后 sleep 三点五 flash, 然后通过度只有百分之六十五,那相当于就是说这个模型能力上,亨特尔法是远远强于 sleep 三点五 flash 的。 呃, open road 上呢,就是,呃有很多免费的模型,目前是有二十八个,那在第一梯队的呢?相当于就是我们的亨特尔法,它是接近了 g p d 四或是 cloud 的 这种商用模型的能力。呃,后面还有很多其他的特殊的免费模型,比如说多模态啊,视频啊这种,我下一个视频会给大家介绍。 那比如说就是,呃,我们来看就是亨特阿尔法六大模型的横向对比,那从整个的呃就是编程能力来看,肯定是商用的 cologne 最强,然后推理能力和编程能力都是商用的 cologne 最强。然后 agent 的 控制调用呢?嗯,那就是亨特阿尔法这种免费的专门 agent 的 设计,最强,你可以看到远远超过。 嗯,包括那样,就是,呃那个亨特阿尔法的定位,它其实本质上呢,其实是专用呃 a 技能做设计,那它和最强的付费的 a 技能模型呢?那其实是是也各有胜负。对, 那我们看到我这边的 status 状态呢,其实是呃它的上下文,你看我新的窗口采用了百分之四,非常的充裕。 嗯,和那个呃 sleep 三点五 flash 的 对比呢,相当于可以看到 a 技能的能力,然后呃 超文档处理是远远超过的。然后中文能力呢,它其实是属于待验证。因为呃, steve 三点五阶跃星辰呢,他知道是中国公司模型,亨特尔法也知道是中国公司的,所以说中文能力呢,其实属于一个待验证的状态。 然后推理速度呢,因为它有 a t 的 参数,呃,相当于是呃那个参数更大,然后推理说会更慢。呃,但其实是呢,呃,我们其实是等待时间,没有强,很强要求的话,那其实还是这种 a 级的能力上还是远远超过的。 那我们现在可以看到,就是我这边用了那个接近一千万的脱贫去做了验证和测试。对,呃,九九点六百万。 那亨特尔法啊,他现在在那个小龙虾的登陆排行榜上是,呃排名第八。对,然后我之前推荐的 super 三六 flash, 现在是远远排名第一。那,那我觉得后续的话就是亨特尔法,呃,他不管是更,嗯,就是正式发布他名称之后还是怎么样,那我觉得还是一个很大的竞争空间的。对, 然后这是我之前跑了一个测试,用它去跑的一个呃哆啦 a 梦的图像,因为它是纯文本的模型呢,它只能靠文本里面简介和想象,这是用 svg 来绘制的,相比于它的上半部分,其实是已经绘制的非常接近了。 然后整体上的话呢,其实是在呃 log 里面,比如说,呃,或者说我们看到 a p i k 对, 它其实都是免费的,对,都是一直已经切到了那个呃,对,你可以看到我的小龙虾都已经切到了亨特尔反应在用,对。

哈喽,大家好,我是思雨。那今天呢,我们来试一下全新一代的小米苏七,我们来试一下它的 v l a 的 能力。你现在想去一个地方,一个商场商铺,你只要跟小爱同学说就可以了,他可以帮你找到最近的那个电梯口。真的这么方便?真的,你可以试一试。小爱同学, 哎,怎么了?带我到附近的梨花汤饭,你想去第几个?第一个,你现在只要开副驾驶就可以了。对, 点击,现在呢,小爱同学就会带我们去海淀的大悦城,然后到地下停车场最近的电梯口。对,没错,他是可以支持的,这么久我从来都没有用过这样的功能。之前大部分的这个停车场记忆的功能呢, 只可以去到这种收藏的车位。嗯,但是你说让他帮你找某一个商户的这个最近的电梯口,他是不具备的。嗯,所以这也是小米首发这个功能啊,我们今天就来体验一下,看一看。我只能说这个功能挺贴心的。我特别烦在商场里面停车,尤其是一些你第一次去的这种陌生的商场, 你想找一个这个更近的电梯其实是挺难的。不陌生的商场,对于我们这种路痴来说,走几条路,反向是一条路,白天一条,晚上一条。 好,前面我们右转啊,就到停车场了,我们看他开的怎么样。这个停车场应该挺大的。没错,这是这一片最大的一个商场。好,这就开始了啊, 还是有那么点小紧张的。这个坡度其实还是挺大的,但是他的控速是没问题的啊,这个速度其实跟我开下来差不多,其实跟前车保持距离也是 ok 的。 后面一直我们跟着一台车啊,这台车其实他跟着也是比较舒服的,我们的车速并不慢,我们慢是因为被前面这台车卡住了,他有点慢, 好开了下来。他现在屏幕一直提示我就是要去附近的电梯啊,我看看他能给我倒多近。这还有个超冲站。那他是不是也能倒到充电站啊,我跟他说找一下可以,正在漫游寻找车位,他选了一个这个停车位,他一开始看了一个更远的,但他最后决定停这个。 那他电梯在哪呢?我没看见指示牌,是刚才那个电梯吗?如果是刚才那个电梯,他应该在那附近就找,听到没有,但这我也没看见有电梯的指示牌啊,他是不是拉了胯了,停的根本就不是电梯附近啊,有可能他还慌乎呢,有可能找错了,我们看看。 泊车已完成目标,电梯在左后方,在我们左侧后方。哎,他提示我这个电梯在哪里,这个事我还是很满意。我们看一下啊我,我用手机拍一下。我看左后方是有电梯吗?我们没有看到 左后哎,还真是一个哎。左后方有一个二号扶梯厅,你看前面吗?这个地方应该是离这是最近的。 不行,我觉得他还是蒙的。再找一家店考一下。他这应该有 mann 吧。应该有,我们试试找一下小爱同学。嗯,怎么了?导航到附近的 mann, 在 停车场找到 mann 附近的车位,开始巡卫泊车了,正在前往电梯附近寻找车位。 别说,他停的倒是挺快的, 他那一上一下,感觉这个换挡是无缝的是吧。嗯,对,泊车已完成目标,电梯在右前方。右前方是吧?好,我们现在验一下啊,他说是在右前方,我们之前一直没有验这个电梯是不是最近的,然后我现在下车我去看一下啊。 右前方是一个卧梯,我们看一下 manner 在 在一层,在这个位置,看到了吗?好,我们现在坐电梯上去去看一下啊, 我们看一下 manner 在 哪儿?嗯, 这个是巴黎贝田啊,没看到啊,是不是小米蒙?我们 在这呢,在这呢,果然很近啊,我刚才是从这个电梯上来的,旁边就是卖那,所以他的这个地图是准的啊,是准的。没想到小米苏七的停车场巡卫泊车居然这么好用,那如果给他上上难度呢?比如开着开着有辆车影响到他的正常行进,会不会影响到他的判断呢? 于是我们用自己的长测车对新一代的苏七进行了干扰,看看他会怎么选。 停车场巡卫泊车对车主在城市出行时确实很实用,而这只是新一代速七智驾升级的一小部分内容,最大的升级点之一则是智驾安全。 小米新速七的智驾版本除了 x l a 的 多场景处理能力,也重点提升了对小目标的避障能力, 所以我们决定用电动知识经典的可乐瓶挑战赛来好好考验它一下。我们会在封闭场地中摆放一个两升的可乐瓶,它的高度大概在三十厘米出头,大家来猜猜看,小米新速七能搞定吗?白天我们以三十公里时速起测 没问题,轻松完成绕行,紧接着提速到五十公里每小时, 同样稳稳拿下。接下来我们升级难度,晚上没有路灯的封闭场地里,车辆只能依赖自身的灯光。五十公里时速 依旧顺利的完成了绕行,重头戏来了,接下来我们直接挑战六十公里每小时开启系统,限速器自动亮起了远光灯, 靠近了还没有绕行,会撞上吗?请立即控制车辆, a b 果断介入了,最终车辆依靠 a b 成功完成了 b 照。有惊无险, 别急,测试啊,还没结束,咱们继续叠加难度,我们有请大魔王出场,他就是一台遥控越野小车,他的高度啊,只有二十五厘米,而且还是一个移动的慢速目标。大家觉得新速器能搞定吗?咱们走一波弹幕,觉得能搞定打一,不能搞定的打二。 在白天的低速场景测试中,限速器对小车呀是有明确响应的,系统甚至表现出了准备绕行的意图,当小车直行时,系统会选择跟车。 当小车停车时啊,限速器也能稳稳的刹停。不过这个表现啊,有一个前提条件,那就是小车必须处于主摄像头和激光雷达的感知视野内, 如果小车钻到了车头下方的盲区位置,那系统就无法及时减速避让了。夜间的测试结果与白天类似,只要障碍物在主传感器的有效视野内,行速器啊都能做到有效的减速和绕行。 总结一下小米新速器的通用障碍物避障能力啊,确实得到了肉眼可见的提升,好消息是这套新系统啊,也会在新速器发布后同步推给老车主们。 ok, 本期关于新一代小米苏七的节目就到这里结束了,大家对这台新车有什么看法可以在评论区一起讨论,也希望大家帮我们转发评论点赞,我们下期节目再见!拜拜!

三千元到十万元大模型家用 pc 硬件方案全解析?上一期社长介绍了纹身视频模型的硬件方案,里边讲了企业或专业工作室的纹身视频模型硬件应该配到什么程度。有不少朋友在评论区留言说,希望社长能够出一期大模型的家用消费级硬件专题, 那么这一期就满足大家专门讲一讲大模型家用消费级的硬件方案。最近 oppo colo 很 火,那什么样的配置能够畅玩 oppo colo 呢?在这一期也有答案。既然是家用消费级方案,也就是个人 pc 方案, 那么 e 五神轿、特斯拉、 v 一 百为代表的老旧服务器显卡就不在今天这一期的讨论范围内了。 ar max、 三九五、 mac mini 的 整机方案由于纹身视频能力弱,也暂时排除在本期之外, 因为毕竟作为家用消费级主机,必然是要兼顾多种需求的,跑跑大模型和智能体,生成一下 ai 视频,做做生产力工作,没事还能打打游戏,甚至新出的三 a 游戏也能尝尝咸淡,这就是本期硬件选型的基本要求。 所以我会尽量选择个人 pc 的 消费级硬件来给大家搭配方案,最低花费三千元,最高花费十万,大家可以根据自己的预算和实际需求,综合考虑自己的硬件配置。 在开始之前呢,先给大家预告一下,在三月十五号,我们会开一期 ar 大 模型私有化部署的小白培训,具体的培训内容在这一期结尾会有展开说明,有兴趣的朋友一定要看到最后。 我们知道,现在的大模型在日常应用上已经分成了上下文推理模型、纹身图或纹身视频模型,这两类不同的模型对于硬件的要求是不一样的,对硬件适应性最广的是上下文推理模型, 它对扩大的要求最低,只要显存达到一定规模,哪怕是好几年前的老旧显卡也仍然可以胜任,这就给了我们家用消费级配置很大的选配空间。 这里要注意的就是如何判断某一推理模型能不能部署,主要是看显卡的显存能不能大于模型的参数,比如三十 b 硬特八的模型对应的就是三百亿参数。按硬特八量化规则,加载到显卡里所需要的显存大约是三十七点五 g, 加上要预留 k v 缓存激活值缓冲区, 因此要运行这个大模型,我们一般是按照模型量化后显存占用的一点二倍计算。那三十币 ink 八模型就需要至少四十五 g 显存的显卡,但众所周知,内存是可以分担显卡的上下文推理模型的加载任务的,比如上面讲到的三十币 ink 八的大模型, 需要四十五 g 的 显存来流畅运行,如果显卡只有十二 g, 剩下的三十三 g 可以 加载到内存中去运行。 当然,因为内存的贷宽远远小于显存的贷宽,如果大部分都让内存来跑的话, tokins 的 速度会大打折扣,所以显存尽量还是要大一些。但对于个人来说,对于效率的要求并没有企业这么高,我相信大多数人是可以接受的,毕竟在性能和成本方面总要找到一个平衡。 纹身视频模型的门槛就要高的多了,他没办法像上下文推理模型那样,显存不够内存来凑,模型必须要全部加载到显卡里。所以如果朋友们想尝试纹身视频模型的话,就要至少满足两条硬杠杠,一是显卡要有 touchcore 支持,二是显卡显存要至少达到十二 g。 为什么呢?我们以 y 二点二为例, y 二点二 t r v 五 b 轻量版模型是一款小型可部署的开源纹身视频模型, 十二 g 以下的显存加载不了这个模型,十二 g 正好能加载,而且能够跑起来。因此呢,显存越大,扩大核心越多,显存待宽越高,视频生成的清晰度、速度、时长就相对更有优势。 于是,基于上面社长针对这两个模型的分析,我们就得出了个人 pc 如果想要同时玩转这两种模型的话,显存要大于等于十二 g。 为保证能够运行纹身视频模型,支持 touchco 的 可选型号为英伟达 rtx 架构的二零系、三零系、四零系、五零系显卡。这样我们就可以定义以下五档家用消费级 pc 的 预算方案了。 第一档,三千元。这一档的核心定位是新手尝鲜,可以进行基础大模型体验加轻度办公加普通网游。具体的配置如下,这套配置的大模型能力是这样的。 第二档,一万元,这一档的核心定位是家用主流,支持中型大模型流畅运行加高效生产地加中高画质三 a。 具体的配置如下, 这里社长推荐了四款显卡,从这一档开始, open club 就 可以畅玩了。下面就贴出这四款显卡结合 open club 加千万最新模型的畅玩区间,供朋友们参考。在这个表格里可以看到,三零九零二十四 g 显卡的性价比相对较高,畅玩范围相对更广。 这四款显卡都能支持纹身视频模型, rtx 五零六零 ti 十六 g 可以 输出七二零 p 二十到三十秒视频片段。 rtx 三零九零二十四 g 可以 输出一零八零 p 六十秒视频片段, rtx 二零八零 ti 二十二 g 和 rtx 三零八零二十 g 可以 输出七二零 p 到一零八零 p 四十到五十秒的视频片段。 第三档,两万元。这一档的核心定位是高阶家用加轻度专业,支持中大型大模型流畅运行,加多模型同时运行,加四 k 游戏加四 k 剪辑、 3 d 渲染。核心配置如下, 这套配置拥有较高的实用性,几乎可以胜任绝大多数主流需求。他的大模型能力是这样的, 第三档说完,接下来的第四档和第五档就进入高端玩家档了,如果只是纯打游戏的话,完全用不到这么高的配置。社长建议大家压抑住所谓一步到位的冲动,先在中低配置上玩熟了,确实有需要了,再上高端配置也不迟。 第四档,五万元。这一档的核心定位是旗舰家用加准专业,支持大型大模型流畅运行,加模型微调加四 k 游戏加专业级生产力。核心配置如下,这套配置的大模型能力是这样的, 第五档,十万元,这一档的核心定位是顶级家用加专业级。社长在这一档破个例直接给他上了英伟达 pro 六千九十六 g 工作站显卡,让他可以支持全类型大模型加大型模型完整训练加四 k 或八 k, 游戏加专业创作,核心配置如下, 这套配置的大模型能力是这样的好,说到这里,五档家用消费级大模型硬件配置推荐就结束了。 最后说说小白模型部署培训的事。最近有不少粉丝朋友跟社长说想要部署大模型,但又不知道怎么开始学起,所以我们打算在三月十五号开一期培训来手把手教小白,零基础上手, 核心内容包含四个板块,一是大模型基础原理与适用场景。二是不同大模型的硬件精准选型。三是本地知识库问答、自动化办公等实用智能体搭建。四是欧门可乐安装配置与私有化部署,有需要的朋友可以联系我哈!

万万没想到,竟然是雷军!一个名叫亨特 alpha 的 神秘大模型突然空降,参数量高达恐怖的一万亿一百万的超长上下文窗口, 极度强悍的复杂逻辑推理能力!根据最新的 gitlab 代码提交记录,实锤亨特 alpha 其实是小米最新研发的咪蒙 v 二 pro 纯文本推理模型,而和它一起上线的 heli alpha 则是小米的多模态全能大模型!直接让外网老哥惊呼,小米的参数和能力已经挤进了全球第一梯队!最离谱的是,这种顶配前沿大模型,目前竟然完全免费随便用!赶紧去白嫖,体验一下雷总的最强大脑!

本视频是免费使用 micro 模型的教程,首先打开 openraw 的 官网,点击右上角的个人,点击活动,点击 ipi 密钥,点击创建, 填好之后就可以,注意额度,别填零会报错,零点几就可以。搞好之后点击复制 pi 密钥,然后去使用 on board 或者 config, 设置好 pi 模型名字可以去这里复制。 重启 open q 二之后就 ok 了,注意免费到二十五号哦。

还没学会 openclaw 安装方法的家人们真的不用着急了,小米刚刚发布了国内第一个手机端类容下的智能体,叫 meclaw, 基于小米自研的 mini 大 模型,直接从聊天助手升级成了可执行任务的手机端智能体。真的不是那种只会聊天的语音助手啊, 这次是真的能干活。那我先说一个判断,这一步棋,小米走得又快又准。我本可乐能爆火,最核心的原因之一就是他让 ai 从陪你聊天变成了替你干活。你可以通过手机聊天软件发指令,他在电脑上操作智能体,帮你去执行任务。但有个问题啊,这个方法门槛不低,你得有一台敞开的电脑,还得自己配置模型、 a、 p、 i 等等等等 这些步骤呢,难倒了很多人。而小米做的事情是把这个路径彻底简化,同样还是用手机发指令,但智能体不再跑在电脑上,它就在你手机里。毕竟现在不是人人随时都带着电脑,但人人手里肯定都有手机。 而且米克洛是系统级应用,它不像是第三方的 app, 只能在沙箱里面驱搔痒,它可以调用五十多个系统级工具,出生就自带高权限,能做的事情变得非常多。给大家看几个实际的使用场景,你就知道它到底能做到什么程度。 我想每天醒来之后,都收到当天最新的 ai 新闻和资讯,那你就可以让他设置每日播报的自动任务,可以用这段提示词这样跟他说,你看,这样设置好一次之后,他以后每天都会自动执行。那这个场景看着简单,但背后串联了日历读取、联网搜索、信息筛选、 语音合成等等的多步骤。 a 整的工作流。那第二个场景,理财类大那比如说我最近想关注黄金的价格走势,甚至希望他以一个高频的方式帮我去定盘,那就可以用这段提示词这样跟他说,那同样设置好任务之后,他就会在后台自己持续跑了,这种需要持续执行反复调用工具的任务, 恰恰是传统的手机语音助手做不到的。那第三个也是我觉得最能体现米克罗想象空间的,帮我准备一下,热烈欢迎一下我朋友。 然后米可洛就会这样自己判断他应该做什么,比如说开灯、调节窗帘、调节空调温度等等等等。联动一整套的米家设备进行氛围布置。 这一个指令串联了日程理解,意图判断 l o t 设备控制。最后这个场景里面其实藏着米可洛最大杀手锏,也是小米做这件事情最得天独厚的优势啊,那就是米家生态 现在有超过十亿台已连接的 l t 设备,米可洛呢,实现了完整的米家协议客户端,理论上可以控制你家里所有接入米家的智能设备。那这个小米花了很多年打造的生态壁垒,不是任何的第三方 a 证的产品就可以轻易复制的。而且米可洛还支持 m c p 开放协议和第三方的 s d k 接入 pc 端,现在已有的几千个 m c p 工具理论上都可以接进来,再加上它还有一个很聪明的设计,它可以自己创建自智能体,进行专业分工,通过记忆系统沉淀你的使用习惯,越用越懂你。 当然,客观说,米克洛现在还是封测阶段,只支持小米十七系列,而且还是邀请制。小米自己也说了,稳定性和功耗还在优化中,目前还不建议主力机去升级,但米克洛的方向肯定是正确的。所以啊,回到开头判断, oppo colo 证明了 ai 替你干活这条路走得通, 但他门槛把大多数普通人都拦在门外。小米做的事啊,是把这件事简化到人人都能用的手机终端上去运行。而 而且小米加号是那个同时拥有自研大冒险以及相当比例的手机市场占有率和全球最大 l o d 生态的玩家,真的可以说在 ai 时代未来可期, 想象空间非常大。所以啊,还没有搞明白 open klo 怎么用的朋友,真的不用着急,等 mi klo 的 公测版本上线之后,大概率不用复杂的安装部署步骤到手就能直接用手机场上做事,效率这块还是值得信赖的。那你们觉得哪种智能体未来更有前景?我们在评论区里聊一聊。

好,各位好,我是小刘,今天我们一起来看一下小米最新发布的一款新模型 miimoway two pro 啊,这个名字有点绕口啊,但是因为 opencloud 带来的热度哦,它也是在匿名的榜单里面排名第一名,就是这个模型的表现是最好的, 那它支持一照的上下文,大家可以看到,其实呃它和很多的模型进行对比,它也是排到了比较强烈的一个位置哦,这个橙色的是 miimoway two, 大家看有一个小米的图标对吧?那我们可以看到跟呃 cloud 比起来其实相近哦,就是很多地方打分的话,其实我感觉跑分没有很多实质意义啊,就是很多的跑分是专门 很多模型是专门针对跑分进行训练的,但实际上编程并不怎么行。那我自己呢,也是用了一下这个 miami 二兔去嗯,来完成日常的工作。 我觉得相比于 cloud 的 oppo 的 四点六来说还是有一点差距,但它这个价格确实会便宜一点,大家可以看一下它支持一照上下文,那一照的话就是我觉得 就很不错了,相比于那些像,比如说像 dpigs 对 吧,它就高很多。你看这是一个简单的排行对吧?它排到这个位置,排到这个智普的后面,就是智普五的五点零的后面嘛, 它也是一个万亿参数的高价购,就我觉得什么呢?它有点,就是有点那种扫地僧的感觉,之前一直没有看到他身影忽然冒出来,你看它的这个位置,还是一款很强的模型哦,就简单用下来的话,它也是推出了三个型号,这个 fresh 的 话是比较快的,然后这个 v two 的 话是旗舰版本,然后我们现在点击这个地方有一个呃, try not, 然后点击进来就可以去尝试了。那我自己也尝试一下,我觉得怎么说呢?嗯,用一下还可以,但我感觉它有点慢,相比于这个那些其他的模型来说,这里也是可以支持。还有一个 miimo cloud 也可以直接去使用它, 大家可以看到,对吧?其实整个的开放页我觉得还是不错,那我就不测了,我觉得没什么好测的,因为测的话也是做这些基础的操作,你就做前端开发,对吧?你做一个简单游戏,大家可以看到这是其他人做的,已经有很多的博主做过测试了。那我们简单来看一下这个这款模型吧。大家看到一照上下文开放了这个 api 支持一百万的令牌, 然后这是他的收费,哦,就是,呃,每百万 token 就是 一美元那输出啊,就是啊,就是可以看到这边有一个那个具体的一个价格,然后缓存也是一样的,对吧? 那从和对比的什么对比的?这个拿的是 cloud 四点六和它进行对比,那这样对比的话是不是很划算的?性价比非常高。然后它也是什么?小米的 agi 的 第一个里程碑,就是因为这是小米第一个模型嘛,对吧?它,嗯,确实表现非常出色。第一个模型就这么出色了,是吧? 因为它是属于呃,后起之秀嘛。就我开发出了一个简单物流管理系统,你看大家可以看到对不对? 效果是非常的不错,是不是?你看我跟他说开发一个简单的物流管理系统他就开发出来了,你看这个仪表盘,包括这个,呃,效果,这个展示效果是不是非常 nice, 是 不是?然后呢,我们再看一下其他效果,比如说这物流管理系统,再开发一个学生管理系统的原型图, 那这个圆形图我们也看一下。呃,这个效果我们点开,你看是不是也很不错,是吧?这个 miami 2 pro 我 觉得真的强烈推荐大家去尝试一下,当然相比于 cloud 的 索尼四点六还是有差距,而且我在想啊,这个 啊,当然我只是一个猜测,因为这个 miami 2 之前没有水花,呃,它做出来的效果感觉跟 cloud opus 四点六有点相似,真的 第一次就这么出色,大家觉得怎么样呢?好吧,好,这是我最对这款模型的一个基本的解读。好吧,大家觉得他是否进入了全球顶级的水平呢?大家可以去尝试一下。好了,那本期视频就全部看完了,我是小刘,我们下期再见。

小米今天把 miui p i 做全球首周限免,你可以先零成本上手试一圈。同时它在第三方平台 artificial analysis 上排到了全球第八,国内第二。说明它不是来凑热闹的, 这对普通人有什么影响的?一句话,多一个稳定的可选项 ai, 它并不是越强越好,而是随时能用。稳定好接入,多一家大厂把模型做出来,就等于我们多了一个备胎。而且它价格我看了一下, miui 二 pro 的 头壳定价差不多是其他海外模型的百分之二十,这 意味着 cloud code 又有了一个低成本的牛马。如果你也在用 cloud code, 或者平时 a p i 花费有点肉疼,建议这周趁下面去试一下,具体的使用感受也欢迎来交流。

三月十八日,雷军发文表示,小米 h a d 辅助驾驶全新升级, x l a 认知大模型新一代苏七全系交付即搭载。我们先来看看在 x l a 重磅更新之前,现在的小米辅助驾驶是什么样的水平。 后续可以拿这个视频和小米 hid 辅助驾驶全新升级后的 x l a 对 比一下,看看新模型进步幅度会如何。先说我的感受,小米的辅助驾驶中规中矩,如果在一般情况下,城市和高速道路上也还能用。 首先来看一下第一次的接管情况,前面路口右转刚好有个大货车通过,可以看到这个路口还是比较复杂,这边等待右转的过程中,后面电动车持续通过,可以看得到中控显示屏上的路况,小米也是选择等待开的,非常的保守, 后面的司机也是比较急躁,为了避免后车堵拥堵,我主动接管给了一脚电门。 温州的路况相对来讲是比较复杂的,在等红绿灯的时候,往往绿灯亮起的前几秒,后面的喇叭已经吹得要命。 个人感受,小米的 h a d 城市辅助驾驶以安全为主,但是速度太慢,就像刚学说话和走路的小孩,能用,但相对没那么灵活。然后前方是在狭小的路段会车,可以看到我们路边随处停放的电动三轮车和电瓶车, 小米也是选择停车,让对面来车先行,依旧保守,这里我是没有进行人工干预的。接下来是小米试图跨实线变道,前方红绿灯右转,我们注意到中控显示屏上还有右后视镜的动态, 当时我还着急他怎么迟迟不变道,再不变道这个路口就过不去了。后续剪辑才发现后方有持续电动车来车,所以小米以安全为前提,选择车道保持不变。 提车。半年以来使用 h a d 端到端辅助驾驶的感受。可以说目前小米的辅助驾驶方案确实比较保守。 但是应了雷总那句话,随着模型进化速度越来越快,我真的直观的感受到小米辅助驾驶的进步,所以我也很期待这次小米 h a d 辅助驾驶的全面升级。更多汽车知识关注阿宇同学。

大家好,我是小米汽车机座大模型负责人成龙。我们今天发布了小米辅助驾驶全新架构小米 x l a 认知大模型,现在由我来为大家进一步详细讲解。相信用过辅助驾驶的朋友可能都会有过这样一种微妙的感受,它跟人类老司机相比, 似乎总隔着一种体验上的差距。我们认为,人类驾驶员与现有辅助驾驶的核心区别就在于对这个真实世界的认知。 传统的端道端技术高度依赖模仿学习,真实的物理道路极其复杂,施工、改道、临停、栈道、行人横穿,每天都有着无数个气洞,从未见过的长尾场景发生。如果换做是人类驾驶员,为什么能轻松化解这些复杂场景? 因为人类在开车时绝不仅仅是在看,而是在理解和思考。比如当你在开车时,前方的行人突然被风吹掉了帽子,那一瞬间,作为人类,你会本能的意识到,这位行人极有可能会突然转身折返去捡帽子,所以你会提前减速, 这就是认知推理的力量。辅助驾驶要想迈向真正的高阶智能,就必须跨越死记硬背的阶段, 从单纯的会开车升级为像人类一样理解世界,并基于理解做出思考和决策。为了实现这一终极目标,今天我们带来了全新的小米 x l a 认知大模型。 小米 x l a 是 如何具备这种强大的认知能力的?在回答这个问题之前,我们先来聊聊时下最热门的聚深机器人。 前不久,我们发布了一段小米机器人在汽车工厂实习的视频,视频中,机器人代替工人连续从自动送钉设备中精准抓取自公罗母,并准确放置在定位工装上。 这种高精度的物理交互,体现的正是机器的认知与空间推理能力。我们很早就意识到了这一点,于是创新性的融合了居身机器人和自动驾驶两大领域, 训练出一个统一的物理 ai 机座模型 minimo embodied 聚深基座大模型,大幅提升模型的整体空间感知与逻辑推理能力。 实验数据证明,在搭载自动驾驶与聚深机器人感知决策规划等二十九项核心基准测试中, minimo embodied 取得了领先的成绩, 确立了开源聚生肌做模型的新标杆。大家可以看这段视频,我们让模型操作机械臂把勺子放进锅里时,他不再是死板的执行命令,而是会主动思考桌面上物体间的逻辑关系,他知道要把锅盖打开,再把勺子放进锅里。 通过这种海量真实的物理交互模型,真正学会到了空间感知与因果推理。就是基于这样强大的底层基座,我们进化出了全新的车端架构。 真正的驾驶是一个多模态感知与复杂推理的过程。比如,当你准备变道时,如果突然听到后方传来的急促鸣笛声,你会立刻看后视镜确认与车速,决定是否取消变道, 这就是多膜态感知的力量。因此,小米智驾从传统的 va 进化到了 xla。 从某种意义上说, xla 赋予了汽车比人类更丰富的感官输入与更广阔的决策知识。 试想一下,如果人类天生自带激光雷达,即便在伸手不见五指的黑夜,也依然能够精准的判断前方的路况。所以我们在新一代速七上原系标配激光雷达。通过小米 x l a 架构,我们将激光雷达的精准测距、 视觉的丰富与意导航的全息视野、声音的动态反馈,乃至之前提到的机器人真实交互数据进行了全所未有的有机融合, 它让模型能够更全面的感知复杂的交通环境,更深刻的理解真实的物理世界。这就是为什么我们称之为小米 x l a, 而没有沿用行业常规的 v l a x 赋予了车辆更全面的认知。 l 也就是语言,正是开启深度逻辑推理的那把钥匙。 我们在小米 x l a 中引入了突破性的浅空间推理模式,简单来说,系统不再需要把思考过程翻译成语言,而是在浅空间中直接使用高维机器语言进行极速推理, 这样一来,在面对复杂场景时,他的思考速度可以极大的提升。当然,我们依然保证了整个推理过程的可解释性与可追溯性。让我们来看几个真实的案例。 比如这个典型的施工场景,前方突然出现了蓝色围挡,封堵了原有路线。如果是传统的算法,面对这种情况,往往是简单粗暴的一脚急刹,但 x l a 会对整个场景进行深度的分析,将围挡文字提示 和箭头符号串联起来,形成一个严密的逻辑闭环。前方施工栈道需要按箭头方向绕行,正因为有了这种局的因果推理,你会看到车辆极其从容的规划出了绕行轨迹,整个动作丝滑连贯,一气呵成。 我们再来看一个日常高频的场景视觉盲区。当车辆来到一个 t 字路口, 两侧视线完全被遮挡,但我们都知道,看不见绝不等于没风险。现在小米 x l a 会结合道路拓补结构、 遮挡区域和周围的动态信息,在浅空间中提前进行推演。这个盲区极大概率会突然穿出车辆或行人,系统会自动提前减速,打出充足的安全余量。 这不再是简单生硬的机器反应,而是真正像老司机一样的防御性驾驶策略。有了全面的认知,也有了深度的逻辑推理。接下来我们需要解决的就是最后一个环节,行动。 去年十一月,我们在发布小米 h a d 增强版时,曾向大家深入介绍过世界模型加强化学习这套机制。当时行业里有很多探讨, 未来的自动驾驶到底应该选 vr a 路线,还是选世界模型路线。今天小米 x l a 给出了我们的答案,这两者绝不需要二选一,而是可以相辅相成,实现更好的结果。世界模型就像是一个高保真的模拟器, 他负责在虚拟世界中源源不断的生成海量复杂的驾驶场景,而强化学习则在这个模拟器中进行无数试错与策略优化。通过把世界模型加强化学习的训练,闭环无缝接入 x l a, 我 们让系统拥有了持续进化的能力。 他不仅在每一次真实道路中积累经验,更在虚拟世界中闭环持续进化,真正做到越开越稳,越开越像老司机 这次在新一代素机上会率先搭载基于小米 x o a 架构的尝鲜版,它带了一部分模型能力和一部分全新的功能体验,更多能力会在后续版本中持续迭代。 今天只是一个全新的开始,感谢车主朋友们一路以来的信任、支持与陪伴,希望各位车主朋友在使用辅助驾驶功能时时刻保持安全意识,我们下个版本见。

冲上榜一的神秘模型居然不是 deepsea 微四,而是小米的咪某大模型,这你敢信吗?哈喽大家好,这是东强极速版,一个只讲前沿科技账号,真是没有想到啊,一夜之间,小米真的出息了!就在最近,小米一口气发布了三款自研的咪某 v 二大模型,凭借着小米一贯的性价比路线,所带来的强悍性能和亮眼跑分, 直接就在 ai 圈子里面刷屏了。这期视频用两分钟带你快速了解小米的咪某 v 二模型。小米这次发布的三个大模型分别是旗舰通用大模型咪某 v 二 pro, 它是专门为高强度智能体场景打造的模型, 拥有一万亿参数、四百二十亿活跃参数和一百万 token 的 超长上下文,擅长自主编排复杂的工作流、长城规划以及精准的工具调用,相当于是 ai 代理的大脑。第二个是 mimo vr 模型,它是一个全模态技术模型,能够处理文本、视觉、语音等多模态信息。 它能跨模态理解复杂环境,自主制定执行计划并实时纠正难度。第三个 mimo vr tds 模型呢,是一个超大规模的语音合成模型, 可以为 ai 智能体提供非常逼真的人声输出,支持多种方言和角色的语调转换,甚至可以在一句话中情绪转折,开口唱歌,真正能够实现能说能演还能唱。据说啊,已经在小米汽车上使用了。 在性能跑分方面呢,小米的 mimo 系列模型给了大家惊喜,各种榜单的数据显示已经开始逼近顶级模型水平了。比如 cloud evo 的 智能体测评榜单 mimo vr pro, 也就是之前代号 hunter alpha 的 神秘模型,综合成绩位列全球第三,仅次于两个 cloud 的 四点六模型。 在 rtf 上影响力上全球排名第八,国内排名第二,在 opencloud agent 精准测试中也能够排到第三名。而真正让小米的 mimo v 二出圈的是性价比。 mimo v 二 pro 和 osropes cloud 四点六系列模型的 a p r 价格对比的话,你就会发现 mimo 的 调用价格是对手的五分之一,可以说是非常便宜了。如 如此悬殊的价差,大大降低了前沿 ai 能力的使用门槛。而小米大模型的负责人罗浮丽是这么说的,时代突然变了,过去三年里面,我们以为 ai 是 聊天工具,但突然之间世界切换到了另外一个模式, agent 智能代理,也就是 ai 从会说话变成了能干活。所以这次小米大模型的切换也非常及时,也算是跟上了潮流 啊。真的,今年的国内大模型真的是傻疯了,从互联网巨头到创业公司都在扎堆推出大模型,老牌的百度文心、阿里千问、新锐的智普 g i m, 现在小米又悄悄杀了出来,中国的 ai 研发实力已经逼近全球一线了。那么问题来了,在用 ai 的 时候,你会优先考虑中国模型呢还是国外模型呢?欢迎在评论区里面一起交流,我们下个视频再见!拜拜!

三月十九号,小米发布了一个新的模型啊,这个模型号称可以免费七天,但是我进它的官网之后发现它用不了,调了一下它的 a p i 接口是说欠费的。我今天又发现了,它可以用,需要借助于 open code 这个编辑器来做。在这里 米某 v 二 pro 模型它是免费的。本来昨天就想体验一下的,那今天的话才能用得上,那我今天就简单地对它做一个测评吧。 测评的话主要分为这个两部分,首先讲一下它的这个参数,然后让它做一个前端的一个驳刻,嗯,最后的话就是这个后端的这个测试的话,其实是想用它来修 bug。 这个我在白天的时候已经试过了,先看一下它的这个参数吧。这个参数,嗯, 这个 ppt 是 让这个模型来做的,其实还是做得不错的,就是现在比较流行这种深层的网页形式的这种 ppt, 然后我按前后方向键是可以翻页的。那它这个模型的参数的话,是所谓的万亿的参数。三个大模型, 第一款的话是这个基座的模型,支持代码推理和规划。第二款的话是这个视觉模型、音频模型和文本模型的统一感知能力的方面的所谓多胞态吧。那最后一款模型的话,是测出你这个语音的,它的这个参数的话,其实还是比较亮眼的。那排名方面的话是排到第八了,号称 超过了这个 x 的 goroc 模型呢,成本也比较低。呃,这个模型的话其实已经有一段时间了,在这个 open root 上面,它是匿名上线的,它的调用量还是比较高的。在这个 open root 上面都已经登顶了啊。 嗯,之前很多人猜测它是一个 deepsea 的 v 四模型,但在三月十九号的应该是早上啊,早上上班的时候看到这个,雷军宣布了这个模型的这个名称,官网上面也 说是可以免费调用啊,但其实是调不了的,一直到现在的三月二十号的晚上,整整两天过去了,它还是不能调用,那它这个 a p i 也是相对来说这个价格还好啊。它这个模型的这个发展历程的话,大概是就是最早是 二五年的四月份开始做的,一直到现在。嗯,正如雷军所说的,就是这个模型的进步确实也是挺快的啊,就是之前的话,可能主流的模型里面都没有关注到有小米的这个模型。嗯,了解一下他们这个团队负责人啊。 是这个,简单说就是高材生。那他支持的生态的话,现在有一个 miklo 的 这个。嗯,龙虾嘛,龙虾,小米版的龙虾,然后还有他自家的自己的一些生态, 现在有一个福利,就是说七天免费调用的,这是他号称的,实际现在还是有问题的。小米版龙虾我也体验了一下,就是目前在他的官网是可以就是免费体验,但是每次体验的时长应该是只有一个小时啊,过了这个时间他会给你轻松的。 然后昨天试了一下这个,昨天就可以用,然后今天又试了一下它。其实,呃,常见的一些问题的话还是可以回答到的。我问了它是基于 opencloud 来构建的吗?它这个地方也回答了,就是看它的这个目录结构就是 确实是通过 open class 来构建的,右边能显示使用的这些文件啊,我昨天体验的时候还让他在这里做了一个 ppt 啊,这个 ppt 的 效果是在这个右边,然后可以直接在线的播放,做的 ppt 的 效果还是不错的。然后第二个的话是让他写了一个博客, 这是通过这个 open code, 这个大家如果想体验的话,目前我发现的这个渠道啊,就是这一个 open code 通过这个 mod 可以 来切换这种模型啊,就是可以选得到这个免费的 mimo v 二 pro 模型。然后我这里就是让这个模型来写,写了一个啊播客,这个 包括的一个效果的话,大概是这样子,这个还是比较现代化风格的一个单网页吧,然后续我觉得可以在这个基础上面做一些嗯,优化,然后让它这个 功功能更完善一下。这里也对比了一下它和其他的主流模型的一个数据的情况。我现在用的是这一款的 kimi 的 二点五,可以看到它的这个调用量的话,其实还是不错的,就是可以和这个 kimi 的 来进行对比了,这个调用量越多的话,说明它这个模型还是越受欢迎。然后下面这些其他的数据的话,其实大差不差啊,要注意它是不支持这个流逝输出的,并且它是这个文本模型啊, 就是不支持这个图片的,嗯,包括这个 mini max 二点七,它也同样是不支持图片的,它的图片能力其实需要通过外界的 m c p 来实现的啊。而像这个 kimi 二点五的话,它的这个, 嗯,它是原生支持图片的,就是我们在 cloud code 里面使用的时候,是可以直接把图片丢进去,它可以直接识别到的, 这点的话其实还是很有优势的。大家如果想体验一下这个模型的话,可以下载一个 open code, 就 大概就涨这么多吧,然后去用这个模型的一些体验的话,会持续的进行分享。

模型驱动的下一代智能家居是我们的小米 mini, 那 它是把现在很火的大模型跟我们的智能家居的操控结合在一起的一套,现在演示一下。那它是以我们的米家摄像头作为基础,当我们的米家摄像头检测到可以看到了我们的啊,那个天花板的,我们的慢反射灯可以打开。 那接下来如果我们的摄像头检测到你现在正在阅读,你现在正在看书,那这时候呢,我们的就进入到了一个学习的模式,那这一切呢,都是通过我们的摄像机感知到动作的模块,再通过我们的米 logo, 我 们的算法模型去达到操控。 那这时候接下来你看书看久了,有点累,我想趴在桌上稍微休息一下,这时候可以看到了我们的所有的灯光都会起来,可以去回应你的每一个动作。那这个就是我们小米现在正在做的 大智大模型驱动的下一代全部智导。那目前这一套方案呢,已经开源到这个哈的网站上面去了,是有可以有一些开发者可以去提供一些尝试,去给他编成一些更有趣的一些功能。好,那这边是我们的智能家居的区域。

在十年前的电脑上运行最新的小米智能加机系统 milo 会是什么样的体验?检测到您在看书,已为您开启阅读模式。 看您想休息一下,用温暖旋律抚平疲惫。

还有人不知道怎么免费使用新发布的咪莫大模型,我们可以看到两个新模型的表现是在第一梯队的, 并且和 oppo 四其实非常接近了,官方发布的时候说可以免费使用首周,但是我看还有很多人不知道怎么去用。那我们可以看到在这五个框架下面是本周是可以免费使用的。但是很多人在 opencloud 里直接加小米的 api, 发现是要扣费的。 我们只需要在 open router 里面注册一个账户,得到我们自己的这个 api k, 然后我们把我们自己的 api k 复制下来, 到自己的终端里配置一下,就可以免费使用了。我们可以直接输入这样一段提示词,帮我配置模型。用 open router 的 demo vr pro 到它模型的链接,还有自己的 api, 让小龙虾可以自己帮你把模型给给配置进来。 配置进来之后,我们在 model 切换里面就可以去选择 ro 的 模型。你好, 你是什么模型?可以看到他已经成功的使用了小米的 vr pro 的 模型了。好,下面我们来跑几个案例,看看它的效果如何。测试的过程中,我发现咪蒙的这个网站的前端做的非常的简练有趣, 所以我准备尝试测试一下用咪蒙可不可以也做一个同样的网站,直接用这个提示词让咪蒙去复制他们的网站,并且宣传自己的大模型。 好了,复刻的网站出来了,我们可以看到他很快可以复制出来一个百分之八九十相似的网站,同样也是有动效的布局,基本上是完整保持了设计理念。我下载了一张速七的照片,给了这样一段提示词,让他用这个照片为素材,制作一个赛车的游戏, 我们看看密密模型能做成什么样,他自己写完并且跳出来的。这个游戏名叫小米速七狂飙,我们只需要左右移动加速就可以玩了。 点开这游戏,它是一个纯三 d 的 游戏,但是它这个游戏其实有 bug, 它一次只能变两个车道,并不能停在中间的车道,有点类似寺庙逃亡,还是非常丝滑的。我们来测试一下它的前端的性能,给这样一组的提示词,让它写一个浏览器的操作系统, 它已经跑完了。打开链接可以看到它的背景是闪烁的星空,这边有一个时间,但稍微有点丑。它有一个菜单,里面有备用的应用, 第一个是记事本,随便打一些字,但是没有保存。下一个是计算器,我们算一下九乘六等于五四,这个倒是对的。还有一个贪吃车游戏,但是这个难度是稍微有点高的,他在打砖快,他移动速度也是比较慢,但整体的配色还有这个 ui, 我 还是觉得挺不错的。下一个是天气哈尔滨, 看一下区域宠物点击宠物互动,但宠物在哪里?它的前端虽然完成的比较好,但可能具体的这些应用还是多多少少都是有些 bug。 总结一下,这个模型总体来说确实技能是在现在的第一梯队, 甚至接近于 ludo pos 的 水平,这点是没得说的。但目前看收费是比较高的。虽然说现在开了一周的免费的体验,但是还是希望小米早点出自己的固定 play, 让大家可以更实惠的把这个模型用起来。

兄弟们屌爆了啊,今天小米不是发布了那个 mimo studio 吗?刚才我实测了一下,确实啊,咱们废话不多说,直接看一下它到底怎么样。来啊,我们随便给他一个指令,帮我生成一个贪吃蛇的游戏程序,并且适配网站正常运行,我们直接开着看它能给我们生成什么样。现在呢,它就像一个程序员一样在编程这个代 码,屌不屌?屌,而且,而且它给你生成出来之后,它是直接可以玩的。刚才呢,我也用那个千问, 然后和豆包试了一下,他几乎最后给到你的一个结果,就是这一对待嘛,他没有一个实质性的一个东西能给 到你,而且你们可以看到他这个是直接可以上手试玩的啊。咱们先说一下 mimo studio 他的两个优势啊,第一呢,是给中文场景做了深度的优化,像平时咱们大学生写论文啊这些他就是比较合适的,因为小米更懂我们 中国的这个论文,它到底有一个什么样的模型,什么样的要求啊?第二呢,就是它的一个小米生态原生的融合啊,所以说这次小米的这个大模型的发布,我觉得还是挺挺实用的。

大家好,我是小米汽车机座大模型负责人成龙。我们今天发布了小米辅助驾驶全新架构小米 x l a 认知大模型,现在由我来为大家进一步详细讲解。相信用过辅助驾驶的朋友可能都会有过这样一种微妙的感受,它跟人类老司机相比, 似乎总隔着一种体验上的差距。我们认为,人类驾驶员与现有辅助驾驶的核心区别就在于对这个真实世界的认知。 传统的端道端技术高度依赖模仿学习,真实的物理道路极其复杂,施工、改道、临停、栈道、行人横穿,每天都有着无数个气洞,从未见过的长尾场景发生。如果换做是人类驾驶员,为什么能轻松化解这些复杂场景? 因为人类在开车时绝不仅仅是在看,而是在理解和思考。比如当你在开车时,前方的行人突然被风吹掉了帽子,那一瞬间,作为人类,你会本能的意识到,这位行人极有可能会突然转身折返去捡帽子,所以你会提前减速, 这就是认知推理的力量。辅助驾驶要想迈向真正的高阶智能,就必须跨越死记硬背的阶段, 从单纯的会开车升级为像人类一样理解世界,并基于理解做出思考和决策。为了实现这一终极目标,今天我们带来了全新的小米 x l a 认知大模型。 小米 x l a 是 如何具备这种强大的认知能力的?在回答这个问题之前,我们先来聊聊时下最热门的聚深机器人。 前不久,我们发布了一段小米机器人在汽车工厂实习的视频,视频中,机器人代替工人连续从自动送钉设备中精准抓取自公罗母,并准确放置在定位工装上。 这种高精度的物理交互,体现的正是机器的认知与空间推理能力。我们很早就意识到了这一点,于是创新性的融合了居身机器人和自动驾驶两大领域, 训练出一个统一的物理 ai 机座模型 minimo embodied 聚深基座大模型,大幅提升模型的整体空间感知与逻辑推理能力。 实验数据证明,在搭载自动驾驶与聚深机器人感知决策规划等二十九项核心基准测试中, minimo embodied 取得了领先的成绩, 确立了开源聚生机做模型的新标杆。大家可以看这段视频,我们让模型操作机卸璧把勺子放进锅里时,他不再是死板的执行命令,而是会主动思考桌面上物体间的逻辑关系。他知道要把锅盖打开,再把勺子放进锅里。 通过这种海量真实的物理交互模型,真正学会到了空间感知与因果推理。就是基于这样强大的底层基座,我们进化出了全新的车端架构。 真正的驾驶是一个多模态感知与复杂推理的过程。比如,当你准备变道时,如果突然听到后方传来的急促鸣笛声,你会立刻看后视镜确认距离与车速,决定是否取消变道, 这就是多膜态感知的力量。因此,小米智驾从传统的 v l a 进化到了 x l a。 从某种意义上说, x l a 赋予了汽车比人类更丰富的感官输入与更广阔的决策知识。 试想一下,如果人类天生自带激光雷达,即便在伸手不见五指的黑夜,也依然能够精准的判断前方的路况。所以我们在新一代速七上原系标配激光雷达。通过小米 x l a 架构,我们将激光雷达的精准测距、 视觉的丰富与意导航的全景视野、声音的动态反馈,乃至之前提到的机器人真实交互数据进行了全所未有的有机融合, 它让模型能够更全面的感知复杂的交通环境,更深刻的理解真实的物理世界。这就是为什么我们称之为小米 x l a, 而没有沿用行业常规的 v l a x 赋予了车辆更全面的认知。 l 也就是语言,正是开启深度逻辑推理的那把钥匙。 我们在小米 x l a 中引入了突破性的浅空间推理模式,简单来说,系统不再需要把思考过程翻译成语言,而是在浅空间中直接使用高维机器语言进行极速推理, 这样一来,在面对复杂场景时,他的思考速度可以极大的提升。当然,我们依然保证了整个推理过程的可解释性与可追溯性。让我们来看几个真实的案例。比如这个典型的施工场景,前方突然出现了蓝色围挡, 封堵了原有路线。如果是传统的算法,面对这种情况,往往是简单粗暴的一脚急刹。但 x l a 会对整个场景进行深度的分析,将围挡文字提示 和箭头符号串联起来,形成一个严密的逻辑闭环。前方施工栈道需要按箭头方向绕行,正因为有了这种局的因果推理,你会看到车辆极其从容的规划出了绕行轨迹,整个动作丝滑连贯,一气呵成。 我们再来看一个日常高频的场景视觉盲区。当车辆来到一个 t 字路口, 两侧视线完全被遮挡,但我们都知道,看不见绝不等于没风险。现在小米 x l a 会结合道路拓补结构、 遮挡区域和周围的动态信息,在浅空间中提前进行推演。这个盲区极大概率会突然穿出车辆或行人,系统会自动提前减速,打出充足的安全余量。 这不再是简单生硬的机器反应,而是真正像老司机一样的防御性驾驶策略。有了全面的认知,也有了深度的逻辑推理。接下来我们需要解决的就是最后一个环节,行动。 去年十一月,我们在发布小米 h a d 增强版时,曾向大家深入介绍过世界模型加强化学习这套机制。当时行业里有很多探讨, 未来的自动驾驶到底应该选 v l a 路线,还是选世界模型路线?今天小米 x l a 给出了我们的答案,这两者绝不需要二选一,而是可以相辅相成,实现更好的结果。世界模型就像是一个高保真的模拟器, 他负责在虚拟世界中源源不断的生成海量复杂的驾驶场景,而强化学习则在这个模拟器中进行无数试错与策略优化。通过把世界模型加强化学习的训练闭环无缝接入 x l a, 我 们让系统拥有了持续进化的能力。 他不仅在每一次真实道路中积累经验,更在虚拟世界中闭环持续进化,真正做到越开越稳,越开越像老司机 这次在新一代素机上会率先搭载基于小米 x l a 架构的尝鲜版,它带了一部分模型能力和一部分全新的功能体验,更多能力会在后续版本中持续迭代。 今天只是一个全新的开始,感谢车主朋友们一路以来的信任、支持与陪伴,希望各位车主朋友在使用辅助驾驶功能时时刻保持安全意识,我们下个版本见。

哈喽,大家好,欢迎收听我们的播客,今天要聊的呢是小米刚刚发布的这个 mini v two 系列的大模型。对,这个也是在最近啊,可以说是刷爆了这个科技圈啊,这三款大模型呢,也正式的为小米的这个人车家的生态啊,提供了这个 ai 的 底层的支撑。没错,那我们就直接开始今天的主题吧,我们先来聊第一块啊,就是这个三款模型的分工啊,这个感知决策表达,这个闭环的构建。 想先问一下啊,就是这个小米的这三款新的大模型,他们分别是负责什么的啊?然后主要的技术参数有哪些亮点?那这个系列呢,它其实是有三款啊,一款呢是叫做 pro, 它是一个旗舰的大脑, 这他是负责做决策的,做规划的,那他的参数呢,是超过了一万亿啊,然后他的这个激活的参数呢是四百二十个 g。 他 还有一个特别厉害的,就是他能够支持一百万透根的这种超长的上下文, 这个是很厉害的,就是他可以呃做一些很复杂的多步骤的任务。那他的这个在国际的榜单上面的排名呢,也是非常非常靠前的,他的这个价格呢,只有国际上同级别产品的五分之一。哇,这个价格真的很有杀伤力。然后另外一个呢就是欧米尼,他是一个全模态的一个感官, 就它能够同时去处理文本、图像、音频、视频。嗯,那它的这个音频理解呢,是超过了这个业界的标杆啊,它能够支持十个小时的这种连续的音频的分析,它的这个图片和视频的这个推理呢,也是非常非常强的。 最后一个呢就是 tts, 它是一个语音合成的专家,就是它能够把这个 ai 说的话变得非常的有感情,而且它可以切换方言,它甚至可以模拟唱歌, 就它的这个表现力是非常强的。就说这三款模型在实际应用中具体都有哪些让人眼前一亮的表现呢?比如说这个 pro, 它不光是在这个权威的测试里面表现的非常好,就是它的这个多部的任务啊,包括工具的调用啊,都非常的稳定,然后它也在这个真实的生产环境当中去做了验证。这个 omni 呢,它是在这个多模态的理解上面和这个跨模态的执行上面都刷新了这个行业的记录, 同时它也已经被接入到了这个主流的办公软件当中去提升这个操作的体验。这个 t t s 呢就更不用说了,它的这个语音的效果就是已经可以以假乱真了,而且它已经被集成到了这个小米的全生态当中去提供这种高拟真的这种交互。就是说这三款大模型一起到底给我们带来了一个什么样的全新的局面呢?就这三个其实是一个完整的智能体的一个能力的战, 就他把这个感知、决策和表达全都打通了,所以说他可以让这个 ai 去理解这个世界,然后去思考这个世界,去和这个世界进行非常自然的交流。这就不光是让这个智能助手变得更聪明了,他其实也给整个产业,给开发者,给这个生态带来了一个新的升级的一个机会, 就是小米的这个 ai 已经正式的进入到了这个第一梯队当中,我们接下来要聊的就是战略价值凸显出来的这个部分了,就是小米的这一套 miimo two 系列的大模型,到底在这个智能体的赛道上面实现了哪些差异化的突破?小米其实这次的布局非常的激进啊,就是他是直接想要从这个通用的助手这个层面直接跨越到能够在真实的物理世界当中去自主行动的这样的智能体。 那它的这三款大模型呢,就分别是负责思考、感知和表达的这样的一个功能,就把这个智能体的这个核心的能力全部都打通了。哦,这三个分工就很明确啊,那这背后的技术亮点还有哪些?就是它这个 pro 这个模型呢,它是用上了万亿级的参数, 然后呢又加上了这个百万级的这种上下文的窗口,就它其实是可以做这种非常复杂的多步骤的任务的,这个在业界都是非常领先的。这个 omni 呢,它是可以原声的去处理图像、视频、音频和文本,就它是一个全模态的一个输入,而且它甚至可以理解连续十个小时的这种音频内容。 这个 t t s 呢,它就是让这个 ai 可以 用非常自然的带感情的声音跟你交流,而且它甚至可以模仿不同的方言唱歌都可以, 所以这三个组合起来就形成了一个非常强的独特的竞争力。对,那我现在就是想知道,就是小米的这一套 mini v two 系列的大模型,到底是怎么让自己的这个硬件和软件实现了这种深度的血统呢,就是小米其实它是把这套大模型作为一个智能的核心, 然后植入到了它的这个所谓的人车家这一个全生态当中,就包括手机啊、汽车呀、智能家居啊等等的这些设备当中都有这个大模型的这个能力,所以它是真正的打通了这个端源的壁垒啊,让这个设备之间可以无缝的协助,所以就是说用户能够在各种场景下都能够享受到这种一致的智能体验。对,没错没错没错,那比如说它的这个 pro 这个模型可以让你的家电去执行一些非常复杂的任务, 然后这个 omni 呢,可以让你的汽车 s u 七能够去理解复杂的路况,这个 t t s 呢可以让你的这个语音助手变得非常的有个性。所以就说小米它其实不仅仅是在做一个产品,它其实是在把整个生态都升级成一个有自主行动能力的这种智能体的系统。那你觉得就是小米在推动这个 m m v two 系列的大模型的开源和开放生态这方面, 你觉得他们做的怎么样?小米这次的动作我觉得非常的大,他就是说不光是给开发者提供了这个非常非常低的门槛啊,就是他的这个 a p i 的 价格是比国际上的那些巨头都要低很多,然后他还限时的免费,对,他就是希望说让大家能够都来用。他也同时对接了五大主流的这个 agent 的 开发框架,他的这个最最新的这个 flash 这个模型呢,甚至是完全开源的,用的是 mit 的 协议, 这对整个行业会有什么样的影响?就是这个就会让全球的开发者都能够非常轻易的来接入,然后也会让这个创新的项目会大量的涌现出来。再加上小米本身有非常多的硬件的设备和这个活跃的用户,所以他其实是在很短的时间内就可以打造出一个非常繁荣的 ai 的 新生态,这个也会大大加快这个产业的升级和技术的落地。我们来聚焦一下啊,就是技术落地和生态壁垒这几个关键点, 想先请你解读一下小米 mini v 二系列大模型在技术创新上到底筑起了哪些护城河?就小米的这个参数规模是超过了一万亿, 然后它是使用了这个混合注意力机制和这个分层的记忆压缩啊,它可以支持百万级别的这种上下文的 tokens, 它在这个实际的推理上面的速度也提升了将近一半, 它的这个算力的消耗也比同类的要低百分之七十以上,这个性能确实是挺吓人的。那不光是这个,它的这个多模态的这个输入啊,就是图片、音频、视频它是可以一起输入的,它的这个音频的理解能力是超过了这个页面的这个标杆,它的这个 tts 是 可以做到非常细致的去控制这个音色和情感, 它是一个全站自研的一个技术,再加上它的这个端云的协同,以及它的这个安全的保护啊,这都是形成了一些很难去复制的一些壁垒。小米这个米某 v two 系列的大模型到底在哪些场景下已经开始落地应用了?就是现在已经开始在小米的这个智能助手上面,以及这个澎湃 os 上面,还有这个 su 七的这个智能座舱里面都已经开始使用了。 然后在这个办公领域也有和这个金山 wps 进行合作,在这个工业质检上面也有落地,而且它这个在这个多终端上面是可以无缝的进行协同的,所以它这个覆盖的范围特别广, 听起来已经挺成熟了这个应用。是的是的,而且他们不光是这个模型本身的这个技术做的很强,他们在这个开发者生态上面也是下足了功夫,就是他们的这个 api 价格是远远低于这个国际巨头的。 然后他也有这个限时免费和这项的技术支持,他也和五大主流的这个 a 阵的框架进行了深度的打通,所以就说整个的这个创新的活力被充分的激发出来了,所以这个技术的变现的速度也是非常快的。你觉得小米这个米某维 two 系列的大模型,在现在这个时间点,它的实际的产业地位到底怎么样?这个我觉得就是首先它是国内第一家把这个万亿级的参数和这个百万级的上下文做到了一个标准, 然后它在这个国际的榜单上面也是牢牢的占据了第一梯队的这个位置。就是它的这个无论是在长文党的处理,还是在这个复杂的推理,还是在这个多模态的理解上面,它都是刷新了这个行业的这个天花板,所以它是真正的做到了这种软硬件一体化的这种布局嘛,没错没错,而且它是深度的绑定了这个澎湃 o s 和这个小米的全站的硬件,然后它是形成了一个完整的从端到圆的一个智能的闭环, 它的这个开放的策略又是非常的激进,所以这个是会推动整个 ai 产业的,这个壁垒已经非常的明显了,所以这个是会推动整个 ai 产业的一个加速的升级。今天咱们就看到了小米这三款大模型, 不光是技术上面有非常大的突破,嗯,而且他们真的是在落地和生态上面迈出了非常关键的一步。嗯,对,所以我觉得小米的这个 ai 新征程确实让人充满期待。好了,那这期节目咱们就到这里了,然后感谢大家的收听,咱们下期再见,拜拜。