00:00 / 01:50
连播
清屏
智能
倍速
点赞328
00:00 / 03:04
连播
清屏
智能
倍速
点赞NaN
00:00 / 03:07
连播
清屏
智能
倍速
点赞277
00:00 / 03:04
连播
清屏
智能
倍速
点赞573
00:00 / 03:07
连播
清屏
智能
倍速
点赞988
00:00 / 00:22
连播
清屏
智能
倍速
点赞5379
00:00 / 01:12
连播
清屏
智能
倍速
点赞531
00:00 / 03:04
连播
清屏
智能
倍速
点赞830
00:00 / 03:04
连播
清屏
智能
倍速
点赞704
00:00 / 03:07
连播
清屏
智能
倍速
点赞107
00:00 / 03:00
连播
清屏
智能
倍速
点赞1624
让人形机器人听懂并执行随口说出的语言指令 大模型直接控制人形机器人全身的端到端新范式! 让人形机器人,能听懂「像人说话一样随口说出」的指令,比如:“像士兵一样正步走过来”、“做一段功夫表演给我看”,然后全身自然、稳定地执行出来,而且可以泛化到没见过的描述。 📄 论文信息 标题:Commanding Humanoid by Free-form Language: A Large Language Action Model with Unified Motion Vocabulary 论文:arXiv: 2511.22963 主页:humanoidlla.github.io 🧩 三个核心技术点 1⃣ 统一的人类–人形机器人动作词表 一个可复用的动作词表,既能吃大规模人类动作数据,又能直接给机器人当“动作语言”用。 2⃣ Vocab-directed Controller:动作 token 和真实力矩之间的桥,只要给一串 token,就能让机器人在物理仿真里稳稳地跑完整个动作。 3⃣ 大语言动作模型 LLA + 物理反馈 RL 微调 在大语言模型部分采用CoT+GRPO 做 RL 微调:奖励既关注与语言的对齐程度,更关心动作是否能够被高物理保真地执行出来,引导模型少生成“看起来像,但不一定跑得出来”的轨迹。 📊 实验结果:既懂语言,又动得稳 我们和一堆主流方法做了对比,包括: MDM+Retarget、OmniH2O、UH-1、LangWBC、RLPF 等。在生成质量指标和物理执行指标上均取得领先的效果。 #人形机器人 #大模型 #具身智能 #动作生成 #多模态人工智能
00:00 / 08:37
连播
清屏
智能
倍速
点赞24
00:00 / 03:07
连播
清屏
智能
倍速
点赞776
00:00 / 02:07
连播
清屏
智能
倍速
点赞59