Qiuming2月前
谷歌发布D4RT世界模型,动态4D重建效率提升高达300倍 谷歌发布D4RT世界模型,动态4D重建效率提升高达300倍 谷歌DeepMind近日发布了一项突破性研究成果——D4RT(动态4D重建与追踪)模型,彻底改变了动态场景理解的实现方式。该模型摒弃了传统将光流、深度估计、位姿计算等多个模型串联的复杂流程,首创了一个统一的“时空查询”接口,一次性解决全像素追踪、深度估计和相机位姿估计三大任务。 这一架构革命带来了效率的飞跃。D4RT的处理速度比现有最佳技术(SOTA)快了18到300倍(吞吐量),仅需5秒即可处理一分钟的视频内容。在精度上同样领先,能清晰重建快速运动物体(如游动的天鹅)的3D形态,有效分离相机与物体的运动,避免传统方法产生的“重影”问题。 其技术核心在于“先记忆,后查询”。模型首先将整段视频编码成一个全局场景表征(即形成“记忆”),随后通过一种通用的查询语言,可即时获取视频中任意像素点在任意时刻的3D坐标与轨迹。这种将复杂几何问题转化为并行搜索问题的设计,是其速度优势的根本来源。不过,该模型的训练成本极高,其编码器拥有10亿参数,需在64个TPU上训练两天。 D4RT被视为具身智能、自动驾驶和增强现实(AR)领域的基石性技术。它能赋予机器实时、密集感知动态世界的能力,例如让机器人预判移动物体的轨迹。对于普通用户而言,该技术未来可能催生革命性的视频编辑功能,实现拍摄后自由改变视角、移除物体等“魔法”效果,标志着AI从静态图像识别迈入了动态时空理解的新纪元。 https://d4rt-paper.github.io/ https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/ https://storage.googleapis.com/d4rt_assets/D4RT_paper.pdf
00:00 / 02:47
连播
清屏
智能
倍速
点赞1
00:00 / 01:00
连播
清屏
智能
倍速
点赞18
00:00 / 00:45
连播
清屏
智能
倍速
点赞14
00:00 / 01:50
连播
清屏
智能
倍速
点赞39
00:00 / 01:29
连播
清屏
智能
倍速
点赞61