Travis3周前
神秘AI视频模型「快乐马」屠榜后揭晓身份:阿里ATH旗下产品!一次前向推理直出带声音的成片,画质碾压、7种语言完美口型同步!视频生成赛道,变天了! 所有AI视频生成模型都在做同一件事:把画面和声音拼在一起。但HappyHorse-1.0的做法,让所有人都沉默了。🤐 传统方案是“先画面,再配音,再对口型”——三道工序,三层误差。 而HappyHorse-1.0是全球首个原生支持音视频联合生成的视频大模型,用一个统一的Transformer同时处理视频和音频,一次前向推理直接输出带声音的成片! 架构到底长什么样? · 150亿参数,40层统一自注意力Transformer。 · 采用“三明治”布局:头4层和尾4层用模态专属投影层处理各自的输入输出,中间32层则是所有模态共享参数。跨模态推理全部发生在这32层里,参数效率极高。 · 每个注意力头都有一个可学习的标量门控,用sigmoid激活,专门稳定多模态联合训练时的梯度。 音视频如何在底层对齐? 把文本、图像、视频帧和音频token全部丢进同一个40层自注意力架构中,音视频在同一前向传播中生成,口型与画面的同步是天生匹配的,不是后期贴上去的。 推理速度呢? 采用DMD-2蒸馏技术,把去噪步数从常规25-50步压缩到仅8步,同时不需要无分类器引导,这一项就能砍掉近一半计算量。配合MagiCompiler全图编译带来的约1.2倍加速,单张H100上生成1080p视频仅需约38秒。 实测表现有多顶? 在权威盲测平台Artificial Analysis上,文生视频Elo 1379分,图生视频1411分,双双超越字节Seedance 2.0和快手可灵3.0,刷新榜单纪录。 4月30日开放API,关注@HappyHorse_AI获取第一手发布信息。 这匹「快乐马」,正在重新定义AI视频生成。 #AI视频生成 #统一Transformer #音画同步 #阿里AI #技术科普
00:00 / 07:59
连播
清屏
智能
倍速
点赞6
00:00 / 01:00
连播
清屏
智能
倍速
点赞28
00:00 / 00:52
连播
清屏
智能
倍速
点赞401
Qwopus3.6-27B 本地部署,24G 显卡轻松跑 Qwen 加 Opus,缝合怪又来了,这次是 27B 本地版。大家好,我是AI学习的老章。今天聊一个有意思的开源模型,Qwopus3.6-27B-v1-preview,作者 Jackrong。光看名字你就懂了,Qwen 加 Opus,意思是拿 Claude Opus 的蒸馏数据,去调教 Qwen3.6-27B。底座是阿里的 Qwen3.6-27B 稠密模型,原生 262K 上下文,能扩到 1M。训练用的 Unsloth,数据是 Claude 蒸馏数据集打底,混入 GLM-5.1、Kimi-K2.5、Qwen3.5 的推理数据。最关键的一步在这,作者用一个 8B 模型当过滤器,把风格跑偏的样本剔掉,最后只留 12K 条调性统一的高质量数据。这思路特别反直觉,别人都是越多越好,他在做减法。我觉得这个项目最值得琢磨的就是这个点,吃什么长什么样,数据干净,比数据多重要得多。早期评测合作者用 16 条 prompt,单卡 5090 跑 GGUF 量化版,覆盖 Agentic 推理、前端设计、创意 Canvas 三类场景,对比的是 Qwen3.6-27B 原版。但说实话,16 条样本,作者自己都说是 early signal,谁也别当定论。GGUF 仓库已经放出来,量化档位很全,IQ4_XS 是 15.2 G,单张 24G 显卡就能跑,4090、5090、3090 都行。Q2_K 是 10.7 G,16G 显卡能塞但损失不小。直接用 llama.cpp 或者 Ollama 拉起来就行。我的看法是,值得关注,但别神化。它是 preview 版,作者自己都说在探路。但这个思路把 Claude 风格用工程手段迁移到可本地部署的 27B 模型上,加上 Apache-2.0 协议商用友好,给国产开源生态加了一个有 Claude 味儿的选择,这个角度挺难得。手上有 4090、5090 的玩家可以尝个鲜,正式版出来我再拉出来实测一波
00:00 / 02:13
连播
清屏
智能
倍速
点赞189