00:00 / 00:59
连播
清屏
智能
倍速
点赞629
接着分析理想 虽然同是端到端,但与特斯拉那种纯粹的“一个模型打天下”的端到端不同,理想采用的是一套独特的端到端 + VLM(视觉语言模型)的双系统架构 简单来说,理想的方案走的是仿生学路线。是把人类的直觉(快思考)和逻辑推理(慢思考)拆分成了两个独立的系统来配合工作,模仿人脑 理想的这套架构应该是受《思考,快与慢》启发,将自动驾驶系统分为两个部分 系统 1(快系统) 端到端模型,类似于人类的直觉或下意识反应,负责处理 95% 的常规驾驶场景。我们人开车就是凭本能开车的 给大模型输入传感器数据(图像、激光雷达等),直接输出车辆的行驶轨迹。中间不再像以前那样由人工编写的规则代码(如感知、预测、规划分模块),直接一步到位。这种方式的特点呢是反应速度极快,延迟低,像老司机一样凭经验开车。 系统2(慢系统) 在此基础上,理想的视觉语言模型也就是VLM,类似于人类的逻辑思考。负责处理剩余 5% 的复杂、未知或长尾场景。例如:复杂的车道、看不懂的路牌、坑洼路面、路边有警察指挥等。让VLM模型模仿人类理智大脑去处理问题 当系统1遇到搞不定的复杂路况时,系统2会进行逻辑推理,用人类语言理解场景,然后输出决策建议给系统1。 理想的框架比特斯拉更接近人类真实的驾驶思维——既有老司机的条件反射(端到端),又有在遇到陌生路况时的理性分析能力(VLM) 华为 华为虽然也叫端到端,它不像特斯拉那样说“我就是一个大模型,目前看华为技术和理想一样不是纯端到端,比较相似。 华为不愧是中国最牛逼的科技公司,是真能打。华为的自动技术现在也是最能打的,但不是说华为就赢了,决赛圈还没来呢! 华为把ADS 3.0拆解成了看得懂(GOD)、开得好(PDP)和刹得住(CAS)三个核心部分。 GOD:华为不把物体分类(不管你是羊还是石头),它只看物理空间有没有被占据 传统的智驾系统只认识它“学过”的东西。比如系统学过汽车、行人、骑行者,它能识别。但如果路上突然出现一个侧翻的货车、掉落的轮胎、或者一只趴着的羊,传统系统因为没学过,就会认为“前面没东西”,直接撞上去 华为的逻辑是:只要这个方块里有物体挡着,GOD 网络就判定这里“不可通行” 哪怕它根本不知道前面那坨东西是什么(比如外星人),只要这东西占了地盘,华为的车就能绕开或刹停 PDP:预测决策规划网络。 这是 ADS 3.0 引入的新东西,也是端到端化 在 P
00:00 / 05:35
连播
清屏
智能
倍速
点赞0
00:00 / 01:53
连播
清屏
智能
倍速
点赞15
00:00 / 02:49
连播
清屏
智能
倍速
点赞388
00:00 / 12:11
连播
清屏
智能
倍速
点赞16