Travis2周前
神秘AI视频模型「快乐马」屠榜后揭晓身份:阿里ATH旗下产品!一次前向推理直出带声音的成片,画质碾压、7种语言完美口型同步!视频生成赛道,变天了! 所有AI视频生成模型都在做同一件事:把画面和声音拼在一起。但HappyHorse-1.0的做法,让所有人都沉默了。🤐 传统方案是“先画面,再配音,再对口型”——三道工序,三层误差。 而HappyHorse-1.0是全球首个原生支持音视频联合生成的视频大模型,用一个统一的Transformer同时处理视频和音频,一次前向推理直接输出带声音的成片! 架构到底长什么样? · 150亿参数,40层统一自注意力Transformer。 · 采用“三明治”布局:头4层和尾4层用模态专属投影层处理各自的输入输出,中间32层则是所有模态共享参数。跨模态推理全部发生在这32层里,参数效率极高。 · 每个注意力头都有一个可学习的标量门控,用sigmoid激活,专门稳定多模态联合训练时的梯度。 音视频如何在底层对齐? 把文本、图像、视频帧和音频token全部丢进同一个40层自注意力架构中,音视频在同一前向传播中生成,口型与画面的同步是天生匹配的,不是后期贴上去的。 推理速度呢? 采用DMD-2蒸馏技术,把去噪步数从常规25-50步压缩到仅8步,同时不需要无分类器引导,这一项就能砍掉近一半计算量。配合MagiCompiler全图编译带来的约1.2倍加速,单张H100上生成1080p视频仅需约38秒。 实测表现有多顶? 在权威盲测平台Artificial Analysis上,文生视频Elo 1379分,图生视频1411分,双双超越字节Seedance 2.0和快手可灵3.0,刷新榜单纪录。 4月30日开放API,关注@HappyHorse_AI获取第一手发布信息。 这匹「快乐马」,正在重新定义AI视频生成。 #AI视频生成 #统一Transformer #音画同步 #阿里AI #技术科普
00:00 / 07:59
连播
清屏
智能
倍速
点赞6