00:00 / 02:55
连播
清屏
智能
倍速
点赞909
Karminski4天前
Meta 的新模型 SAM 3 实测! 给大家带来 Meta 的 SAM 3 大模型实测! 这个大模型有4个功能, 分别是视频内容识别, 图片内容识别, 图片生成3D模型, 图片生成3D人物姿势模型. 首先来看第一个测试, 视频内容识别 让我们从简单的场景开始, 这是一个机器人工作的场景, 左侧搜索栏自动给出了视频中物体的名称, 我们选择 robot, 然后进行标记. 结果效果一般, 可以看到只有后面一段成功标记了机器人, 但是视频前面没有标记, 这意味着模型可能迁移性较差. 真的是这样吗? 我们再来复杂一些的视频, 高速运动的自行车比赛视频, 左侧并没有识别到运动员, 但神奇的是识别到了袜子哈哈哈, 别担心, 我们看下这个自行车标记的效果怎样, 很不错, 那么我们手动增加标记试一下, 牛皮, 这次毫无问题了. 那么最大可以标记多少? 来看第三个测试, 点击标记 people 后, 自动标记了 10个人. 当我们手动标记第11个时, 就会失败, 所以视频内容识别最大标记量为10个目标. 再来看图片内容识别 我们上来就来个猛的, 让他标记图片中所有的泡泡, 可以看到绝大部分的泡泡都成功标记了, 不过有些重叠的还是漏掉了. 当然这个效果已经很牛了, 跟专门训练的 yolo 有一拼. 那么再增加一些, 还能识别吗? 来看这个识别水滴, 完蛋啦! 这个无法正确标记, 主要还是目标天多了, 不过手动标记单个目标还是没问题的. 动物能标记吗? 没问题, 看这个绵羊标记, 很成功. 另外, 如果是训练的少的内容, 泛化效果也不好, 比如终极难题电路板, 虽然识别出来有电容电阻, 但是点击后还是会把各种原件混淆到一起. 然后是3D场景建模 首先是Mamiya相机, 我们让它建模, 可以看到图片中展示的面还可以, 但是其它面就出现幻觉了, 这个时目前3D建模模型的通病. 毕竟没看过的东西大模型也脑补不出来. 另外还内置了一些有趣的特效, 对于社交媒体的场景很有创意. 然后复杂一点, 我们来一个蒸汽机车, 可以看到这次则是建模精度有些问题, 火车的机械细节还原度不够. 我们来测试多物体建模, 这个表现很好, 可以看到乐高小人建模的效果很不错. 那么场景建模怎样呢? 我们来个楼梯, 完蛋, 这个幻觉太严重了, 把楼梯建模成了平台.
00:00 / 04:30
连播
清屏
智能
倍速
点赞35
00:00 / 03:38
连播
清屏
智能
倍速
点赞6590