粉丝1971获赞1.5万

吃个瓜同志们啊,理想高管刚刚发文回怼了此前关于 v l a 路线的评价,事情是这样的啊,在八月份的世界机器人大会上,曾经发表过 v l a 模型是一个相对比较傻瓜式的架构这样的言论,而那个时候啊,理想的 v l a 四 g 大 模型还未正式发布啊,那么如今经过了几个月的沉淀,最新的八点一也已经推送了,那么 于是理想的制假负责人狼先鹏啊就做出了解释,我觉得啊,这个语气说是回怼啊,不如说是一个讨论,那么作为旁观者,我们来一起学习一下。 首先啊,跟大家简单的说一下啊,目前的智驾行业,它主要是存在 v l a 和 w a 两种路线嘛, v l a 呢,就是 vision language action 意思啊,即视觉语言动作。 当然这里的视觉啊,同时包括摄像头和激光雷达等等传感器啊,那么它的本质就是通过大语言模型技术,比如说 g b t 啊,来作为决策大脑,只不过这里它生成的 token 不是 文本,而是轨迹和控制信号。 而 w a 呢,它指的是 word action 啊,这个页内称为世界模型,你可以把它理解为啊,是基于一个数字孪生世界来计算每种场景下所存在的多种可能性,并基于物理和交通规则呢,从中选一个最优方案啊,而相比 v l a 啊, w a 就 省略了 l, 也就是这个大约模型这个步骤啊,那么数据直接决定动作。 所以呢,很多人就觉得这个 v l a 啊,它实际上是走了一个捷径嘛,直接利用大约模型对世界的理解力来控制自动驾驶,而 w a 呢,则更为正统啊,那么事实真的如此吗?从狼先鹏的表述来看的话,那么基于理想目前在 v l a 上的实践,貌似 v l a 呢,要更加实用些啊。我总结了三点, 一、世界模型无论是训练还是推理,那么都需要庞大的算力做支持,而这一点呢,在数据中心可以啊,但是呢,在车端貌似呢就不太现实了。比如理想啊,他也在通过世界模型做仿真测试,但需要的这个推理算力啊,高达数亿 flops 啊。 那么这个呢,在数据中心问题不大,但是在车端,即便是经过了量化蒸馏,那么恐怕也会对算力和功耗提出很大的挑战。第二,基于世界模型特性,它比较适合在云端做数据生成和极度逼真的仿真测试啊, 来强化训练。所以呢,它其实更像是一个考场,而不是考生本身。那么关于这点呢,我们来补充一下啊,其实目前所谓的走 v l a 路线的车型呢,他们也有 w a 啊,只不过是用于对大模型进行打磨和优化, 而不是直接基于它来做决策啊。第三,理想之所以坚持 v l a, 它有一个重要的前提就是理想啊,它有强大的数据替换能力,过去几年所积累的十几亿公里的真实质价数据,以及当下的一百五十多万辆车的实时活动,都 都会给理想提供充足的数据来做挖掘。所以呢,在对 v l a 和 w e 的 这个争论中呢,不能够抛开数据这个必要条件啊,而人机器人啊,它并不像汽车那样啊,有百万级出货量和海量的服役市场,它自然就缺乏数据先率,那么自然呢,也就会更觉得这个 w e 它的重要性更强, 所以呢,不能够空谈架构而不谈疗效。而且蓝仙朋还顺便提到了理想在具身智能方面的优势啊,那就是如 软硬件全占资源,这个呢,就可以做到制驾系统跟硬件响应之间的这个高度契合。比如底盘的车辆运动管理模块啊,他会对自动驾驶的这个控制信号做精细化调教,在减速过程中会区分卡钳制动和液压制动的使用策略,那么实现身体和大脑的一个协调驾驶。 而模型要想跟旧式智能系统匹配,那么又回归到了海量数据的头位上,也就是理想它作为畅销车企较为显著的一个优势。所以总结起来说的话就是制驾这个领域啊, v l a 的 潜力依然是巨大的,那么同时巨深智能的整体系统化能力也是关键影响因子。我个人的观点是啊,无论是 v l a 还是 w a, 其实呢,都可以做出非常优秀的支架系统, 而且呢,两者不见得始终对立啊,那么可以在研发中互相融合。而针对很多人对 v l a 的 偏见,我只能说啊,目前主打 v l a 的 企业,他自然也知道它的短板啊, 未必没有应对策略,那么也不要去低估 v l a 的 能力上限。而无论是 v l a 还是 w a 啊,那么在某一个时间节点具体表现如何,这个还是得看是什么企业去做啊,以什么样的优势去做,那么投入了多大的资源去做,那么你更看好哪一个路线呢?

