粉丝5495获赞6.1万

好一条视频,保证大家可以听懂什么是 v l a。 今天理想汽车的郎伯郎贤鹏发了一条视频,他说 v l a 这个东西就是在用 g p t 的 方式来做自动驾驶。翻译一下,其实我理解大家做的事情就是在训练豆包,训练 german 这样的多模态大模型来开车。好,接下来问题就是,我到底为什么要这么做?这么做的好处是什么? 其实以前大家做辅助驾驶,做自动驾驶,更像是在做一个只会开车的,脑子只会开车的模型。打个比方,就像是有一个人,从小在深山老林里面闭关,没有接触过人类的社会,没有人类社会的生活经验。 有一天你找到他,说来,我们一起来驾校里面训练开车,学习科目一二三四,学完之后呢,他在开放道路上开车,确实很多场景会让你觉得有一点点蠢。有一个老生常谈的例子,就是说 有一个皮球从盲区从车后面滚出来,我们很自然就可以推导出,接下来可能会有一个小朋友跟出来,大家要小心驾驶,但当下的辅助驾驶没有这样的思维和推理能力。 再举一个更贴近生活的例子,比如说路边停了一辆车,这辆车究竟是临停上下课我们要绕行,他还是在正常的排队,我们跟在他的后面?当前的辅助驾驶也很难做出正确的选择,背后的原因呢,就是他不具备人类社会的经验、知识背景,这是当前这个脑子的局限性。好,我们换一种思路, 一个人呢,从小在城市里面长大,正常的接受教育,理解人类社会的风土人情、生活经验、知识背景等等等等。这个时候你再把它放在驾校里面开车, 它能够达到的驾驶能力的上限是不是会更高呢?我举个例子啊,比如说你现在就去问豆包,一个皮球从车后面滚出来,那我在驾驶上面应该注意什么?它可以很自然推导出接下来的几秒可能会有一个小朋友冲出来,你要小心驾驶,这就是因为他理解人类社会。再比如你现在用视频跟豆包对话,豆包现在前面的车是 零停车还是路口排队?车辆是零停车,他停在路边,没在路口排队,他的判断率非常的高。当豆包这样的模型拥有了这样的认知和理解能力, 我们再给他更多的驾驶相关的数据,他是不是就是一个更好的司机呢?从逻辑或者从人自己的实践和成长逻辑上来说呢? 我认为是对的,这个本质上就是大家在做的 v l a 就是 在训练豆包,训练 jimmy 这样的大模型来开车。接下来问题就是车企大概率会怎么做?究竟是重复造轮子,我再去做一个豆包,还是说我站在前人的肩膀上?比如说拿 deepsea 千万这样的开源大模型来训练他们开车, 个人的逻辑,第二者会更加顺畅一点,因为你训练一个大模型投入的成本不是几亿、十几亿就能打得住的,它可能是上百亿甚至几百亿, 那车企完全没有必要重复投入,没有必要重复的造轮子,他只需要站在前面的肩膀上,做好车企自己最擅长的部分工作,就是把自己拿到了驾驶数据,喂给这样大模型,让他学会开车, 这才是车企最应该做好的事情。但是这样的研发过程呢,是非常困难的,因为车端的算力有限,他需要解决功耗,解决算力,解决部署,解决帧率等等各方面的问题, 过程一定是非常困难的,不是几个月甚至一年就可以做的好,需要更长的时间来达到质变。从我的观察上来说呢,现在不只是理想在这么做,其他的车企呢,研发思路很相似,所以大家现在集体呢,是进入了一个深蹲期,那什么时候起跳? 我个人感觉还需要一段时间,但我相信当他起跳那一天,他能够达到的驾驶的上限会比现在高,是会让大家看到本质上的变化的。