00:00 / 01:23
连播
清屏
智能
倍速
点赞6
00:00 / 05:28
连播
清屏
智能
倍速
点赞12
00:00 / 05:02
连播
清屏
智能
倍速
点赞28
什么是世界模型 这一期,AI 科普达人 New Machina 将介绍什么是世界模型(World Model),世界模型与大语言模型(LLM)的区别,以及有哪些应用? 根据杨立昆(Yann LeCun)提出的定义,世界模型的核心思想,是让智能系统拥有一套关于 “世界如何运作” 的内部表征。它不仅仅是对数据的简单记忆或者模式识别,而是一种能够模拟和推演外部环境动态变化的能力。举个例子,假如一个机器人要搬动一个盒子,有了世界模型,它就可以在心里 “预演” 各种情况,比如这个动作是否会导致其他盒子掉落,从而做出更安全、更合理的决策。 大语言模型虽然能够准确预测下一个词汇或语句,却难以真正理解事物之间的因果关系,更别提空间推理和物理动态。正如杨立昆等研究者所指出的,这种缺乏常识和推理能力,是目前 AI 迈向类人智能路上的一大障碍。 世界模型的出现,正是为了弥补这一短板。它们不像传统的有监督学习那样依赖大量人工标注数据,而是通过自监督的方式,从无标签的数据中直接学习世界的规律。这种方式和人类、动物的学习过程非常接近,比如人们通过观察、互动、反思,逐步积累对世界的理解。AI 如果能像这样从视频、传感器数据等原始输入中自主归纳和预测,将有望实现更高级别的智能。 世界模型不是用来 “谈论” 世界,而是用来 “模拟并行动”。这让它们在机器人、自动驾驶等需要实时决策和安全保障的领域显示出巨大价值。世界模型可以让机器先在内部演练不同方案,再去执行实际操作,从而大幅降低试错成本和风险。 更深一层来看,世界模型的研究其实代表着人工智能发展方向的转变。AI 不再是单纯的信息处理或文本生成工具,而是追求对客观世界本身的理解和推理。这种能力一旦成熟,将极大拓展智能系统在现实世界中的应用边界,尤其是在需要复杂决策、主动规划的场景里。 #WorldModel #世界模型 #人工智能 #智能系统 #AI技术
00:00 / 04:21
连播
清屏
智能
倍速
点赞4
AI最终会用自己的感知理解世界 今天晚上跟大家聊一个话题,就是最近看到两个新闻,它们相互之间又有关联,所以跟大家分享一下。 其中一个新闻是说,李飞飞最近她的“world model”(世界模型)越来越成熟。她提到一个观点:机器理解这个世界应该是基于像素的。也就是说,我们现在这一代大语言模型都是基于人类语言,而语言实际上是人类对真实世界的一种信息抽象——我们用语言来描述世界。因此,机器通过语言理解世界,中间是有隔阂的。她认为,最终机器理解世界一定是通过机器对世界的真实感知,比如通过摄像头、传感器去直接感知,而从视觉角度来说,就是通过像素去理解。 另一个新闻是,Deepseek最近发布了一个新模型叫Deepseek-OCR。这个模型有一个很重要的点,颠覆了我原来的认知。它提到,如果有一篇长篇文章让AI理解,消耗的Token数量是a;而如果把文章转成像素图片再让AI理解,消耗的Token是b。我原来一直以为图片像素对Token的消耗会大于文字,但现在发现并不是——基于像素的信息内容,消耗的Token数反而更少,这进一步降低了成本、提升了效率。 我在想,这可能是因为我们人类在读书时,即便面对文字,也是通过图像方式去理解的。我们“一目十行”,并不是逐字仔细阅读,而是扫过图像后,大脑迅速建立连接,理解内容。 这两点让我感觉,机器对物理世界的理解,可能正逐渐从依赖人类语言,转向更依赖图像、声音、触感等直接感知方式,从而真正理解世界。之前我和几位硅谷大咖交流时,他们也提到一个重要观点:最终,机器可能会创造出一种只有它们自己能理解的语言,形成超越人类语言的对世界的抽象表达。 这就是最近看到新闻后的一些思考,趁这个机会和大家分享。谢谢大家,拜拜! #世界模型 #DeepSeekOCR #人工智能 #多模态AI #李飞飞 #AI趋势
00:00 / 03:30
连播
清屏
智能
倍速
点赞10
00:00 / 02:19
连播
清屏
智能
倍速
点赞9
什么是端到端自动驾驶?什么是基础world model?#modely #自动驾驶 欢迎关注【自动驾驶之心】公众号,干货资讯第一时间到达。 自动驾驶之心官网正式上线了:www.zdjszx.com(海量视频教程等你来学) 1、国内首个基于Transformer的分割检测➕视觉大模型课 2、Occupancy从入门到精通全栈课程(理论➕实战) 3、自动驾驶中的多传感器融合与目标跟踪(从入门到精通) 4、国内首个多模态3D目标检测全栈教程(前融合/特征级融合/后融合) 5、YOLOv3~YOLOv8/YOLOX/PPYOLO系列全栈学习教程 6、国内首个BEV感知全栈学习教程(纯视觉+多传感器融合方案) 7、多传感器融合中的毫米波雷达-视觉融合感知全栈教程 8、Lidar+Radar+Camera+IMU离线/在线近20+标定方案教程等你来学 9、模型部署实战:基于TensorRT的CNN/Transformer/检测/BEV模型四大部署代码+CUDA加速 10、规划控制理论&实战课程:PID、LQR、MPC全掌握 11、国内首个工业级车道线检测课程,从单目2D、单目3D到BEV车道线!!! 12、国内首门面向量产的单目3D与单目BEV感知教程!!! 13、Nerf与自动驾驶论文带读课程!!! 14、轨迹预测理论+实战教程!!! 15、轨迹预测与自动驾驶论文带读课程!!! 16、点云3D目标检测理论与实战教程!!! 17、国内首门毫米波&4D毫米波雷达理论实战教程!!! 课程咨询联系AIDriver004,科研合作及辅导联系AIDriver002。
00:00 / 32:10
连播
清屏
智能
倍速
点赞3
00:00 / 01:24
连播
清屏
智能
倍速
点赞4748