00:00 / 03:41
连播
清屏
智能
倍速
点赞44
00:00 / 03:13
连播
清屏
智能
倍速
点赞65
00:00 / 00:26
连播
清屏
智能
倍速
点赞18
00:00 / 02:24
连播
清屏
智能
倍速
点赞25
00:00 / 03:11
连播
清屏
智能
倍速
点赞154
00:00 / 02:40
连播
清屏
智能
倍速
点赞33
00:00 / 02:42
连播
清屏
智能
倍速
点赞35
00:00 / 02:00
连播
清屏
智能
倍速
点赞24
00:00 / 02:15
连播
清屏
智能
倍速
点赞453
00:00 / 01:06
连播
清屏
智能
倍速
点赞29
00:00 / 03:16
连播
清屏
智能
倍速
点赞102
00:00 / 01:00
连播
清屏
智能
倍速
点赞105
最近,机器人赛道可以说是烈火烹油,特斯拉的Optimus、波士顿动力的e-Atlas、Figure的人形机器人,一个个都秀出了令人眼花缭乱的硬核功夫。资本市场更是热情似火,整个行业估值已经飙到了数百亿美元。 但就在这个时候,英伟达的高级科学家Jim Fan,给整个行业浇了一盆透心凉的冷水。他说,机器人领域正面临一个残酷的现实:身体能力远远超过了大脑指挥能力。这可不是什么谦虚的说辞,而是一记当头棒喝,直接戳破了这个行业估值虚高的底层风险。当技术路线本身存在系统性缺陷时,现在的数百亿估值,就像建在流沙上的城堡,2026年很可能会迎来一场残酷的价值重估。 为什么这么说?咱们先来看看硬件和软件的严重错配。 2025年,机器人硬件确实取得了突破性进展,机械臂的灵巧度、运动控制的流畅性,都展现了顶尖的工程水平。但问题是,再灵巧的身体,也得听大脑的指挥。而这个大脑,也就是具身智能模型,发展速度慢得令人绝望。 这里有一组非常扎眼的数据。根据Ambi Robotics联合创始人Ken Goldberg的披露,具身智能模型π0一年只能收集1万小时的训练数据。而我们都知道,大语言模型Qwen-2.5的训练数据量,相当于12亿小时真人收集的数据。按照这样的速度,具身智能要达到今天大语言模型的水平,还需要12万年。12万年!这个数字背后,是数量级上的天差地别,这直接解释了为什么机器人的大脑迭代如此缓慢。硬件再强,软件跟不上,商业化效率自然就低得可怜。 再来看2025年机器人领域最火的技术路线——VLA,也就是视觉-语言-动作模型。全年发表了超过200篇相关论文,市场热度一浪高过一浪。但Jim Fan的批判,直指这个方向的阿喀琉斯之踵。 VLA的核心思路,是在视觉语言模型的基础上,嫁接上一个动作模块。但问题在于,视觉语言模型的优化目标是回答问题和理解图像,而不是操作物理世界。这就像让一位理论物理学家去当外科医生,知识储备很丰富,但手一抖,0.1毫米的误差,手术就可能失败。机器人抓取物体时,0.1毫米的误差就是成功与失败的分界线。视觉编码器为了理解高层语义,会主动丢弃那些低级的像素细节,而这些细节恰恰对物理操作至关重要。更要命的是,模型里绝大多数参数都在为语言和知识服务,跟物理规律没什么关系。 #具身智能机器人 #VLA技术 #机器人泡沫 #机器人技术缺陷
00:00 / 04:30
连播
清屏
智能
倍速
点赞100
00:00 / 01:13
连播
清屏
智能
倍速
点赞1139
00:00 / 01:14
连播
清屏
智能
倍速
点赞176
00:00 / 00:35
连播
清屏
智能
倍速
点赞302
00:00 / 03:42
连播
清屏
智能
倍速
点赞20
00:00 / 03:53
连播
清屏
智能
倍速
点赞20