00:00 / 00:33
连播
清屏
智能
倍速
点赞4715
00:00 / 01:36
连播
清屏
智能
倍速
点赞10
00:00 / 08:47
连播
清屏
智能
倍速
点赞2838
00:00 / 00:58
连播
清屏
智能
倍速
点赞31
00:00 / 00:15
连播
清屏
智能
倍速
点赞NaN
00:00 / 02:45
连播
清屏
智能
倍速
点赞17
Qiuming6天前
港科大AudioX多项基准夺SOTA,横扫语音音乐视频配音 港科大团队推出音频生成统一模型AudioX,只需一个模型就能从文本、视频、图像等多种模态生成高质量音效和音乐,在多项权威基准测试中达到SOTA水平,论文已被ICLR 2026接收。 核心突破 当前音频生成领域面临"模型碎片化"问题——不同任务依赖不同专用模型,知识无法共享。AudioX基于扩散变换器架构,通过轻量级多模态自适应融合模块,支持文本、视频、图像、音频的灵活组合输入,可完成文本生成音效/音乐、视频配音/配乐、音频修复、音乐续写等多项任务。项目开源后在GitHub获超1.2k星标,一度登顶Hugging Face音频模型榜首。 精准可控 AudioX具备细粒度可控生成能力,可精确控制声音事件的数量、时序甚至具体时间戳(如"1.6-4.4秒马桶冲水,6.0-10秒隆隆声")。在团队自建T2A-bench和AudioTime基准上,全面领先现有方法。 数据创新 团队构建了两阶段数据流水线,打造出包含700万样本的大规模数据集IF-caps:先用Gemini 2.5 Pro对音视频进行精细化结构化标注(事件分类、时间戳、音乐属性等),再用Qwen2-Audio进行数据增强,生成多样化文本描述,极大提升训练数据的丰富性。 重要发现 消融实验揭示"跨模态正则化效应":提升文本标注质量不仅改善文本生成音频任务,还同步提升了视频生成音频等其他任务的表现。这表明高质量文本数据可强化模型共享的多模态表示空间,带动整体性能跃升。 主要作者 田泽越(一作):港科大三年级博士生 郭毅可(通讯):中国工程院外籍院士,港科大首席副校长 雪巍(通讯):港科大助理教授 开源地址 论文:https://arxiv.org/pdf/2503.10522 项目:https://zeyuet.github.io/AudioX/ 代码:https://huggingface.co/collections/HKUSTAudio/audiox
00:00 / 03:11
连播
清屏
智能
倍速
点赞2
00:00 / 01:57
连播
清屏
智能
倍速
点赞94
00:00 / 12:22
连播
清屏
智能
倍速
点赞57