算法社3周前
Meta开源SAM Audio:颠覆音频剪辑的AI神器! 11月,Meta开源SAM 3和SAM 3D。 SAM 3可以根据概念提示分割一切,SAM 3D可以3D重建一切,不过都是限定在视觉(图像或视频)。 近日,Meta开源SAM Audio,将分割一切的理念带到了语音的世界。 在音视频剪辑中,音频处理也是一个难题,你获取的录音或原始音频很多时候不是完全令人满意的,可能带有各种噪音,例如汽车喇叭声,需要分离这些噪声。 而SAM Audio让这一切变得更加简单,它支持通过多模态提示(文本、视觉和时间跨度)从复杂的音频中分离出特定声音,人声、乐器声等都能分离,让分离一切声音成为可能。 通过多模态提示分割的交互方式,大大简化了音频分割的难度,让每个人都能成为优秀的音频剪辑师。 想象一下,一段乐队表演的视频录像,只需点击一下吉他,就能将其音频分离出来。 SAM Audio 还可以通过文本提示分离音频,例如从户外拍摄的视频中滤除嘈杂的交通噪音。此外,SAM Audio业界首创了时间跨度(span)提示功能,可以通过标记声音出现的时间段来分离声音。 1. 文本提示:输入“狗叫声”或“歌声”以提取特定声音。 2. 视觉提示:点击视频中说话的人或发出声音的物体,即可单独分离其音频。 3. 时间跨度提示:业内首创,该方法允许你标记目标音频出现的时间段。
00:00 / 01:09
连播
清屏
智能
倍速
点赞2
00:00 / 00:35
连播
清屏
智能
倍速
点赞3
00:00 / 00:39
连播
清屏
智能
倍速
点赞0
00:00 / 02:20
连播
清屏
智能
倍速
点赞5
00:00 / 02:45
连播
清屏
智能
倍速
点赞159
00:00 / 00:49
连播
清屏
智能
倍速
点赞1
00:00 / 03:22
连播
清屏
智能
倍速
点赞777
00:00 / 01:54
连播
清屏
智能
倍速
点赞5