8 B 微模态,端侧巨兽 MiniCPM-V 4.5 是 MiniCPM-V 系列最新的旗舰模型,由 Qwen3-8B 和 SigLIP2-400M 构成,总共约 8B 参数,是目前 30B 参数以下最强的多模态 LLM 之一。 亮点功能一览 1. 视觉—语言能力(Vision-Language) • 在 OpenCompass 测评中得分高达 77.0(部分来源写的是 77.2),表现超过许多闭源大模型,如 GPT‑4o‑latest、Gemini‑2.0 Pro,甚至超越 Qwen2.5‑VL 72B。 • 换句话说,这个 8B 模型,能力堪比甚至打爆一些云端大模型,真正“以小博大”。 2. 高刷新率视频理解 • 引入 3D‑Resampler 架构,将 6 帧 448×448 视频帧压缩为 64 个视觉 token(传统模型约需 1,536 tokens),实现高达 96× 的视觉 token 压缩率。 • 支持高刷新率(最高 10 FPS)的视频理解,特别适合处理动态场景,benchmark 包括 Video‑MME、LVBench、MotionBench、FavorBench 等,性能拔尖。 3. 可控「快思 / 慢思」混合推理模式 • 提供“fast thinking”模式(快速、高效)和“deep thinking”模式(复杂推理),可灵活切换,兼顾日常响应速度与深度任务能力。 4. 强大 OCR 与文档解析能力 • 基于 LLaVA‑UHD 架构,可处理高达 1.8M 像素(如 1344×1344)的高分辨率图片,用更少 token 表征视觉。 • 在 OCRBench 上领先 GPT‑4o 且性能卓越,在文档解析基准 OmniDocBench 上依然是通用模型中的佼佼者。 5. 更稳、更可信,多语言支持 • 采用 RLAIF‑V 和 VisCPM 技术,有效提升推理可信度,减少幻觉,在 MMHal‑Bench 上表现比 GPT‑4o‑latest 更稳定。 • 支持 30+ 语言,具备良好多语言能力。 #什么都要AI #minicpm #AI资讯 #多模态
00:00 / 01:43
连播
清屏
智能
倍速
点赞1
00:00 / 00:36
连播
清屏
智能
倍速
点赞5883
00:00 / 04:57
连播
清屏
智能
倍速
点赞2
00:00 / 00:18
连播
清屏
智能
倍速
点赞13
00:00 / 00:14
连播
清屏
智能
倍速
点赞15