00:00 / 00:39
连播
清屏
智能
倍速
点赞0
算法社3周前
Meta开源SAM Audio:颠覆音频剪辑的AI神器! 11月,Meta开源SAM 3和SAM 3D。 SAM 3可以根据概念提示分割一切,SAM 3D可以3D重建一切,不过都是限定在视觉(图像或视频)。 近日,Meta开源SAM Audio,将分割一切的理念带到了语音的世界。 在音视频剪辑中,音频处理也是一个难题,你获取的录音或原始音频很多时候不是完全令人满意的,可能带有各种噪音,例如汽车喇叭声,需要分离这些噪声。 而SAM Audio让这一切变得更加简单,它支持通过多模态提示(文本、视觉和时间跨度)从复杂的音频中分离出特定声音,人声、乐器声等都能分离,让分离一切声音成为可能。 通过多模态提示分割的交互方式,大大简化了音频分割的难度,让每个人都能成为优秀的音频剪辑师。 想象一下,一段乐队表演的视频录像,只需点击一下吉他,就能将其音频分离出来。 SAM Audio 还可以通过文本提示分离音频,例如从户外拍摄的视频中滤除嘈杂的交通噪音。此外,SAM Audio业界首创了时间跨度(span)提示功能,可以通过标记声音出现的时间段来分离声音。 1. 文本提示:输入“狗叫声”或“歌声”以提取特定声音。 2. 视觉提示:点击视频中说话的人或发出声音的物体,即可单独分离其音频。 3. 时间跨度提示:业内首创,该方法允许你标记目标音频出现的时间段。
00:00 / 01:09
连播
清屏
智能
倍速
点赞2
00:00 / 00:35
连播
清屏
智能
倍速
点赞3
Karminski1月前
Meta 的新模型 SAM 3 实测! 给大家带来 Meta 的 SAM 3 大模型实测! 这个大模型有4个功能, 分别是视频内容识别, 图片内容识别, 图片生成3D模型, 图片生成3D人物姿势模型. 首先来看第一个测试, 视频内容识别 让我们从简单的场景开始, 这是一个机器人工作的场景, 左侧搜索栏自动给出了视频中物体的名称, 我们选择 robot, 然后进行标记. 结果效果一般, 可以看到只有后面一段成功标记了机器人, 但是视频前面没有标记, 这意味着模型可能迁移性较差. 真的是这样吗? 我们再来复杂一些的视频, 高速运动的自行车比赛视频, 左侧并没有识别到运动员, 但神奇的是识别到了袜子哈哈哈, 别担心, 我们看下这个自行车标记的效果怎样, 很不错, 那么我们手动增加标记试一下, 牛皮, 这次毫无问题了. 那么最大可以标记多少? 来看第三个测试, 点击标记 people 后, 自动标记了 10个人. 当我们手动标记第11个时, 就会失败, 所以视频内容识别最大标记量为10个目标. 再来看图片内容识别 我们上来就来个猛的, 让他标记图片中所有的泡泡, 可以看到绝大部分的泡泡都成功标记了, 不过有些重叠的还是漏掉了. 当然这个效果已经很牛了, 跟专门训练的 yolo 有一拼. 那么再增加一些, 还能识别吗? 来看这个识别水滴, 完蛋啦! 这个无法正确标记, 主要还是目标天多了, 不过手动标记单个目标还是没问题的. 动物能标记吗? 没问题, 看这个绵羊标记, 很成功. 另外, 如果是训练的少的内容, 泛化效果也不好, 比如终极难题电路板, 虽然识别出来有电容电阻, 但是点击后还是会把各种原件混淆到一起. 然后是3D场景建模 首先是Mamiya相机, 我们让它建模, 可以看到图片中展示的面还可以, 但是其它面就出现幻觉了, 这个时目前3D建模模型的通病. 毕竟没看过的东西大模型也脑补不出来. 另外还内置了一些有趣的特效, 对于社交媒体的场景很有创意. 然后复杂一点, 我们来一个蒸汽机车, 可以看到这次则是建模精度有些问题, 火车的机械细节还原度不够. 我们来测试多物体建模, 这个表现很好, 可以看到乐高小人建模的效果很不错. 那么场景建模怎样呢? 我们来个楼梯, 完蛋, 这个幻觉太严重了, 把楼梯建模成了平台.
00:00 / 04:30
连播
清屏
智能
倍速
点赞43
00:00 / 00:50
连播
清屏
智能
倍速
点赞12
00:00 / 00:30
连播
清屏
智能
倍速
点赞12
00:00 / 00:51
连播
清屏
智能
倍速
点赞24