仅从视频学习的跨本体灵巧手操控统一框架 不依赖真机数据、仅从 HOI 视频学习,即可在自由语言指令下统一生成跨形态灵巧手操作的框架UniHM!该工作已被ICLR 2026接收。 上科大YesAI Lab的工作:UniHM: Unified Dexterous Hand Manipulation with Vision Language Model,把统一动作离散码本 + 视觉语言动作模型 + 物理引导动态精炼串成一条完整流水线:从 RGB-D + 指令 直接到 可执行的灵巧手关节轨迹,还能跨不同手型泛化到新形态与新物体。 📌 论文标题:UNIHM: Unified Dexterous Hand Manipulation with Vision Language Model 📌 论文链接:openreview.net/forum?id=cVX3VqO8BO 🔬 核心技术亮点 • 统一灵巧手Tokenizer(跨形态共享码本):用共享 VQ-VAE 码本把不同手(MANO/多种机器人手)映射到同一离散动作空间,token 可复用、可迁移;新手型通过蒸馏对齐再接入训练(提升跨手泛化)。 • VLM 驱动的序列级操作生成:采用“感知-生成解耦”架构: CLIPort 从 RGB-D + 指令估计目标轨迹,PointSAM 分割目标物体点云,再由 DexHand VLM 生成 token 序列并解码为关节轨迹(训练中用 progressive masking 降低 exposure bias)。 • 物理引导动态精炼(生成后再变得可执行):把接触约束 + 生成先验 + 时间平滑先验写成能量项,逐帧 Gauss–Newton/LM 优化,减少穿模、稳定接触、速度/加速度更顺滑。 🚀 实测表现 • 指标更强:在 DexYCB 与 OakInk 的 seen/unseen 设置下,MPJPE/FID 等多项指标超过多种强基线。 • 真机更能打:真实世界任务(抓取、Pick&Place、拉推、开合)成功率显著提升,且对未见对象也保持较好成功率。 • 不靠昂贵遥操作数据:仅用人类 HOI 视频数据训练主模型,降低数据门槛,还能通过只微调感知模块应对场景分布变化。 #灵巧手 #具身智能 #机器人 #多模态人工智能 #上海科技大学
00:00 / 07:22
连播
清屏
智能
倍速
点赞38
00:00 / 01:36
连播
清屏
智能
倍速
点赞826
00:00 / 00:31
连播
清屏
智能
倍速
点赞11
上海发布会展出首款完全仿生具身机器人,“硅基少女” 2026年1月30日,上海卓益得机器人有限公司在张江机器人谷总部展厅开业仪式上,发布了全球首款完全仿生具身智能机器人“硅基少女”Moya。 Moya身高1.65米,体重约32公斤,身形纤细优雅。其表层采用高端环保硅胶材质,触感与柔韧性媲美真人,还具有温度调节功能,可维持32-36℃人体温度。它的头部集成25个高精度自由度驱动系统,能精准复刻人类喜怒哀乐的细微表达,就连头发都采用纳米级仿生纤维,柔顺有光泽,可自然飘动。 Moya拥有基于人体工学的16个全身关节自由度,步态与真人相似度达92%,可轻松完成行走转身、弯腰取物、上下楼梯等动作。其内置3D惯性导航与足底压力传感器,在非结构化环境中能灵活避障,可应对轻微推搡而不倒。此外,它全身覆盖3D高弹性软包材料,碰撞力衰减90%以上,确保人机交互安全。 在智能交互方面,Moya搭载卓益得自研大语言模型,支持多轮对话,理解上下文语境,语音合成自然流畅,无机械感。它还支持自主学习持续进化,并拥有场景化记忆,可记住用户偏好、习惯和重要日期,提供个性化服务。 卓益得表示,Moya定位为“高端情感陪护与服务机器人”,将于2026年第四季度开启小批量预订,首批限量50台,定价预计在120万-150万人民币。
00:00 / 01:42
连播
清屏
智能
倍速
点赞4
00:00 / 01:42
连播
清屏
智能
倍速
点赞78
00:00 / 01:11
连播
清屏
智能
倍速
点赞3
00:00 / 00:26
连播
清屏
智能
倍速
点赞28
00:00 / 00:54
连播
清屏
智能
倍速
点赞5