00:00 / 02:08
连播
清屏
智能
倍速
点赞65
清华等开源! EmbodiedSAM:实时分割任意3D物体 在具身任务中,机器人需要在探索的同时完全理解3D场景,因此迫切需要一个在线、实时、细粒度且高度泛化的3D感知模型。由于高质量的3D数据有限,直接在3D中训练这样的模型几乎不可行。同时,视觉基础模型(VFM)以其优越的性能革新了2D计算机视觉领域,这使得利用VFM来辅助具身3D感知成为一个有前景的方向。然而,大多数现有的VFM辅助3D感知方法要么是离线的,要么过于缓慢,无法应用于实际的具身任务中。在本文中,我们旨在利用Segment Anything Model(SAM)进行在线环境中的实时3D实例分割。这是一个具有挑战性的问题,因为在输入的流媒体RGB-D视频中无法获得未来的帧,并且一个实例可能会在多个帧中被观察到,因此需要进行帧间的物体匹配。为了解决这些挑战,我们首先提出了一个几何感知查询提升模块,以通过3D感知查询来表示SAM生成的2D掩码,然后通过双层查询解码器进行迭代优化。通过这种方式,2D掩码被转化为3D点云上的细粒度形状。得益于3D掩码的查询表示,我们可以通过高效的矩阵运算计算不同视角的3D掩码之间的相似度矩阵,从而实现实时推理。在ScanNet、ScanNet200、SceneNN和3RScan上的实验表明,我们的方法即使与离线方法相比也能达到领先的性能。我们的方法还在几个零样本数据集迁移实验中展示了出色的泛化能力,并在开放词汇和数据高效设置中显示出巨大的潜力。代码和演示已经开源,仅需一张RTX3090 GPU即可进行训练和评估。 文章名称:【EmbodiedSAM: Online Segment Any 3D Thing in Real Time】 项目主页:https://xuxw98.github.io/ESAM/ 文章链接:http://arxiv.org/abs/2408.11811 开源代码:https://github.com/xuxw98/ESAM #科技 #清华大学 #开源
00:00 / 00:56
连播
清屏
智能
倍速
点赞57
00:00 / 01:49
连播
清屏
智能
倍速
点赞90
00:00 / 01:12
连播
清屏
智能
倍速
点赞70
00:00 / 01:30
连播
清屏
智能
倍速
点赞135
00:00 / 07:06
连播
清屏
智能
倍速
点赞581