机器人会自己动嘴唇了!通过人工智能AI大模型学习控制面部动作 #机器人 #机器学习 #人工智能 #科技 #深度学习 在机器人学领域,如何让仿人机器人摆脱“僵硬感”并跨越“恐怖谷效应”,一直是科研人员面临的终极挑战。以往的机器人,如知名的Sophia或Ameca,其面部表情和口型同步大多依赖于工程师预先设定的动作库或复杂的运动学方程。然而,哥伦比亚大学创意机器实验室(Creative Machines Lab)研发的EMO机器人,通过一种全新的AI驱动模式,彻底改变了机器人“动嘴唇”的技术逻辑。 EMO最显著的技术突破在于它不依赖任何预设的表情脚本。其动嘴唇的能力主要源于两套高度复杂的神经网络:“自我建模”模型和**“表情预测”模型**。 首先,EMO经历了一个被称为“自我探索”的阶段。在没有任何人类干预的情况下,它对着镜子随机驱动面部皮下的26个微型执行器。通过内置的摄像头,机器人会实时观察自己面部皮肤的拉伸、皱褶以及嘴唇的开合情况。利用视觉到动作(Vision-to-Action)算法,EMO在后台自动建立了一套物理映射:它不仅知道每个电机转动的度数,更通过深度学习理解了这些动作在视觉上产生的具体效果。这就像人类婴儿通过尝试各种发声和表情来熟悉肌肉控制一样,EMO通过这种方式完成了初步的“具身认知”。 在掌握了基本的面部控制后,研究团队引入了自监督学习(Self-supervised Learning)。EMO观看了数小时的YouTube视频,这些视频涵盖了人类说话、唱歌以及各种细微情感表达的画面。 通过变分自编码器(VAE)和Transformer架构,EMO开始将音频信号的频率特征与视频中人类嘴唇的几何变化进行像素级的匹配。它学到的不是“怎么说英语”或“怎么说中文”,而是一种通用的**“声学-动力学”关联**。这意味着,当EMO听到一段从未听过的音频(无论是歌剧还是某种方言)时,它的AI模型能实时预测出对应频率下,嘴唇应该呈现的物理形状。这种基于像素学习的方法,捕捉到了人类说话时那种不规则的颤动和细微的过渡动作,使得其嘴唇运动具有极高的自然度。 EMO另一项杀手锏是其预判能力。在人际交流中,哪怕只有几百毫秒的延迟,也会让机器人显得呆滞。EMO的预测模型通过对人类面部先兆特征的实时监控,能够在对方真正开口或做出表情之前的840毫秒,就通过概率分布计算出即将发生的动作。
00:00 / 00:34
连播
清屏
智能
倍速
点赞15
00:00 / 00:08
连播
清屏
智能
倍速
点赞79
00:00 / 05:09
连播
清屏
智能
倍速
点赞0
00:00 / 13:37
连播
清屏
智能
倍速
点赞19
00:00 / 05:29
连播
清屏
智能
倍速
点赞5