00:00 / 01:27
连播
清屏
智能
倍速
点赞1197
00:00 / 02:10
连播
清屏
智能
倍速
点赞38
51ALLAI6月前
8 B 微模态,端侧巨兽 MiniCPM-V 4.5 是 MiniCPM-V 系列最新的旗舰模型,由 Qwen3-8B 和 SigLIP2-400M 构成,总共约 8B 参数,是目前 30B 参数以下最强的多模态 LLM 之一。 亮点功能一览 1. 视觉—语言能力(Vision-Language) • 在 OpenCompass 测评中得分高达 77.0(部分来源写的是 77.2),表现超过许多闭源大模型,如 GPT‑4o‑latest、Gemini‑2.0 Pro,甚至超越 Qwen2.5‑VL 72B。 • 换句话说,这个 8B 模型,能力堪比甚至打爆一些云端大模型,真正“以小博大”。 2. 高刷新率视频理解 • 引入 3D‑Resampler 架构,将 6 帧 448×448 视频帧压缩为 64 个视觉 token(传统模型约需 1,536 tokens),实现高达 96× 的视觉 token 压缩率。 • 支持高刷新率(最高 10 FPS)的视频理解,特别适合处理动态场景,benchmark 包括 Video‑MME、LVBench、MotionBench、FavorBench 等,性能拔尖。 3. 可控「快思 / 慢思」混合推理模式 • 提供“fast thinking”模式(快速、高效)和“deep thinking”模式(复杂推理),可灵活切换,兼顾日常响应速度与深度任务能力。 4. 强大 OCR 与文档解析能力 • 基于 LLaVA‑UHD 架构,可处理高达 1.8M 像素(如 1344×1344)的高分辨率图片,用更少 token 表征视觉。 • 在 OCRBench 上领先 GPT‑4o 且性能卓越,在文档解析基准 OmniDocBench 上依然是通用模型中的佼佼者。 5. 更稳、更可信,多语言支持 • 采用 RLAIF‑V 和 VisCPM 技术,有效提升推理可信度,减少幻觉,在 MMHal‑Bench 上表现比 GPT‑4o‑latest 更稳定。 • 支持 30+ 语言,具备良好多语言能力。 #什么都要AI #minicpm #AI资讯 #多模态
00:00 / 01:43
连播
清屏
智能
倍速
点赞2
00:00 / 07:02
连播
清屏
智能
倍速
点赞163
2026-PR021 主题:MiniCPM-SALA:无招胜有招 HyPE编码,让端侧智能变成了老百姓能用得起的智能 论文地址:https://huggingface.co/openbmb/MiniCPM-SALA 为什么需要 HyPE? 传统的 Transformer 全量使用 RoPE,但在 SALA 这种“稀疏+线性”混合架构中,RoPE导致两个痛点: (1)稀疏层(Sparse Layers)的“记忆溢出”:由于稀疏层只关注局部,如果强行注入全局位置信息,KV Cache 的压力会剧增。 (2)线性层(Linear Layers)的“感知缺失”:线性注意力为了 O(N) 的复杂度,通常采用递归形式,容易丢失明确的距离感。 HyPE 并不是发明了一种全新的编码,而是一套位置信息的分配策略,可以总结为:“线性层加持,稀疏层脱钩”。 (1)线性层(Linear Attention)的 RoPE 增强 在 SALA 的线性层(基于 Lightning Attention)中,HyPE 引入了 RoPE 来补偿递归公式带来的位置模糊。 (2)稀疏层(Sparse Layers)的 "NoPE"( No Positional Encoding) 策略,直接取消了位置编码。 既然稀疏层通过语义检索(Semantic Kernels)来抓取相关块,那么“块在哪里”就不再重要,重要的是“块里说了什么”。 由于不存储绝对位置信息,KV Cache 不会因为序列变长而发生严重的数值偏移(Out-of-Distribution)。这也是为什么模型在训练 520K 的情况下,能平滑外推到 200 万(2M)Token 的原因。 深夜哲思: 删掉稀疏层的位置编码,看似是功能的缺失,实则是对注意力本质的深刻洞察。 技术的本质不应是筑起高墙,而应是消解门槛。最好的科技,是让复杂消失在底层,让每一个普通人都能握住那道通往未来的光。 #冷知识科普 #ai#位置编码#稀疏注意力@🌈*🌈大顺
00:00 / 07:11
连播
清屏
智能
倍速
点赞13
00:00 / 01:38
连播
清屏
智能
倍速
点赞16
00:00 / 00:16
连播
清屏
智能
倍速
点赞5
00:00 / 04:57
连播
清屏
智能
倍速
点赞2