Karminski1周前
Meta 的新模型 SAM 3 实测! 给大家带来 Meta 的 SAM 3 大模型实测! 这个大模型有4个功能, 分别是视频内容识别, 图片内容识别, 图片生成3D模型, 图片生成3D人物姿势模型. 首先来看第一个测试, 视频内容识别 让我们从简单的场景开始, 这是一个机器人工作的场景, 左侧搜索栏自动给出了视频中物体的名称, 我们选择 robot, 然后进行标记. 结果效果一般, 可以看到只有后面一段成功标记了机器人, 但是视频前面没有标记, 这意味着模型可能迁移性较差. 真的是这样吗? 我们再来复杂一些的视频, 高速运动的自行车比赛视频, 左侧并没有识别到运动员, 但神奇的是识别到了袜子哈哈哈, 别担心, 我们看下这个自行车标记的效果怎样, 很不错, 那么我们手动增加标记试一下, 牛皮, 这次毫无问题了. 那么最大可以标记多少? 来看第三个测试, 点击标记 people 后, 自动标记了 10个人. 当我们手动标记第11个时, 就会失败, 所以视频内容识别最大标记量为10个目标. 再来看图片内容识别 我们上来就来个猛的, 让他标记图片中所有的泡泡, 可以看到绝大部分的泡泡都成功标记了, 不过有些重叠的还是漏掉了. 当然这个效果已经很牛了, 跟专门训练的 yolo 有一拼. 那么再增加一些, 还能识别吗? 来看这个识别水滴, 完蛋啦! 这个无法正确标记, 主要还是目标天多了, 不过手动标记单个目标还是没问题的. 动物能标记吗? 没问题, 看这个绵羊标记, 很成功. 另外, 如果是训练的少的内容, 泛化效果也不好, 比如终极难题电路板, 虽然识别出来有电容电阻, 但是点击后还是会把各种原件混淆到一起. 然后是3D场景建模 首先是Mamiya相机, 我们让它建模, 可以看到图片中展示的面还可以, 但是其它面就出现幻觉了, 这个时目前3D建模模型的通病. 毕竟没看过的东西大模型也脑补不出来. 另外还内置了一些有趣的特效, 对于社交媒体的场景很有创意. 然后复杂一点, 我们来一个蒸汽机车, 可以看到这次则是建模精度有些问题, 火车的机械细节还原度不够. 我们来测试多物体建模, 这个表现很好, 可以看到乐高小人建模的效果很不错. 那么场景建模怎样呢? 我们来个楼梯, 完蛋, 这个幻觉太严重了, 把楼梯建模成了平台.
00:00 / 04:30
连播
清屏
智能
倍速
点赞37
00:00 / 00:46
连播
清屏
智能
倍速
点赞48
00:00 / 02:24
连播
清屏
智能
倍速
点赞15
Gemini3.0太牛了,四种免费教程! 方案一:普通用户直接使用 (最简单) 如果你是普通用户,想要通过对话框直接体验 Gemini 3 的聊天和多模态能力。 访问Google官网,登录google账号,然后右上角选择Gemini就可以愉快的通过网页端来使用Gemini3了。与其他网页版AI工具的使用类似,使用没有限制。gemini.google.com 方案二:通过Google AI Studio访问 通过Google AI Studio使用Gemini 3,又更强的能力,例如可以使用Build模式,直接生成网页,也包含很多其他的AI工具。它支持多模态交互 (Multimodal),Google AI Studio 不仅仅处理文本。你可以上传图片、视频、音频和 PDF 文件作为提示的一部分。不过这个有使用限制,想完全使用需要额外付费。不过免费额度,对于普通用户也足够使用。 如果有学生认证,可以免费使用一年。 aistudio.google.com 方案三: 使用Google最新Antigravity IDE Google Antigravity 是 Google 于 2025 年 11 月(随 Gemini 3 模型一同发布)推出的全新 AI 优先(AI-first)集成开发环境(IDE)。这是Google在收购windsurf团队之后,打造的属于Google的AI变成工具。 antigravity.google 方案四:Gemini Cli 如果登录了Google AI Studio就可以申请免费的API key,将API key输入到环境变量里,既可以在命令行使用Google Gemini Cli工具,这个比较适合喜欢命令行工具的用户,目前也已经支持Gemini 3。 方案五:企业级/大规模应用 Google Cloud Vertex AI,这种方法需要付费,一般适合企业用户大规模使用。#Gemini #教程 #AI大模型 #AI #前端
00:00 / 05:52
连播
清屏
智能
倍速
点赞189