minicpm-o4.5怎么部署

959

24

1116

162

举报

发布时间：2026-02-10 08:07

查看AI文稿

粉丝8232获赞15.8万

相关视频

04:53
保姆级教程：云平台部署MiniCPM-V-4教程【MiniCPM-V-4】模型已经在趋动云『社区项目』上线，无需自己创建环境、下载模型，一键即可快速部署，快来体验【MiniCPM-V-4】带来的精彩体验吧！#趋动云 #算力 #MiniCPM
3趋动云
01:43
8 B 微模态，端侧巨兽 MiniCPM-V 4.5 是 MiniCPM-V 系列最新的旗舰模型，由 Qwen3-8B 和 SigLIP2-400M 构成，总共约 8B 参数，是目前 30B 参数以下最强的多模态 LLM 之一。
亮点功能一览
1. 视觉—语言能力（Vision-Language）
• 在 OpenCompass 测评中得分高达 77.0（部分来源写的是 77.2），表现超过许多闭源大模型，如 GPT‑4o‑latest、Gemini‑2.0 Pro，甚至超越 Qwen2.5‑VL 72B。
• 换句话说，这个 8B 模型，能力堪比甚至打爆一些云端大模型，真正“以小博大”。
2. 高刷新率视频理解
• 引入 3D‑Resampler 架构，将 6 帧 448×448 视频帧压缩为 64 个视觉 token（传统模型约需 1,536 tokens），实现高达 96× 的视觉 token 压缩率。
• 支持高刷新率（最高 10 FPS）的视频理解，特别适合处理动态场景，benchmark 包括 Video‑MME、LVBench、MotionBench、FavorBench 等，性能拔尖。
3. 可控「快思 / 慢思」混合推理模式
• 提供“fast thinking”模式（快速、高效）和“deep thinking”模式（复杂推理），可灵活切换，兼顾日常响应速度与深度任务能力。
4. 强大 OCR 与文档解析能力
• 基于 LLaVA‑UHD 架构，可处理高达 1.8M 像素（如 1344×1344）的高分辨率图片，用更少 token 表征视觉。
• 在 OCRBench 上领先 GPT‑4o 且性能卓越，在文档解析基准 OmniDocBench 上依然是通用模型中的佼佼者。
5. 更稳、更可信，多语言支持
• 采用 RLAIF‑V 和 VisCPM 技术，有效提升推理可信度，减少幻觉，在 MMHal‑Bench 上表现比 GPT‑4o‑latest 更稳定。
• 支持 30+ 语言，具备良好多语言能力。
#什么都要AI #minicpm #AI资讯 #多模态
2什么都要AI
00:36
画面一闪而过看不清？MiniCPM-V45来了！ #热点 #ai新星计划 #科技 #ai #科技改变生活
83Ai爱分享
00:38
AI聊天只能你问它答？首个能“主动打断”你的开源模型来了！ #热点 #科技 #ai #人工智能 #科技改变生活
查看AI文稿
AI文稿
你和 ai 对话时，是不是总觉得在和一个不会抢话的乖学生说话？现在这个局面被彻底打破了。首个开源的全模态模型 mini c p m o 四点五带来了真正像人一样的对话体验。它不仅能边听边说，更关键的是它拥有自主决策权，会在认为合适时主动打断你说话。这是连 gemini 都做不到的突破。配合其视频、音频、图片的多模太理解和实时语音生成能力，它让 ai 交互从单向应答迈入了双向真实沟通的全新时代。关注我，带你打破更多信息差！
7Ai爱分享
02:01
低成本部署大模型的方案之一 minicpm#大模型 #人工智能 #ai
#端侧大模型
38懂点儿AI的小王
00:10
MiniCPM-V4.5 发布：手机可运行的多模态大模型
字节跳动内测 “3D Model Generator”：降低 3D 建模门槛的新工具
阿里通义万相预告 Wan 2.2-S2V：AI 视频音频同步生成新突破
#AI #AI资讯
27嗨嗨嗨政i
00:13
首创3D-Resampler！面壁智能开源MiniCPM-V 4.5，8B参数破高刷视频理解。#AI #大模型 #人工智能 #面壁智能
26大模型之家
01:17
混元Foley+MiniCPM V4.5+ComfyUI整合混元Foley+MiniCPM V4.5+ComfyUI整合包视频音效一键生成
Foley+MiniCPM+ComfyUI腾讯混元视频配音一键整合包20250910下载：
百度盘: https://pan.baidu.com/s/1y6HvsaWOrgV4iInoVxTpXw?pwd=5gz9
提取码: 5gz9
#AI音乐
#AI视频
2光影艺术生活馆
09:26
4060Ti16G显卡部署MiniCPM-o全模态大模型 4060Ti16G显卡部署MiniCPM-o支持流式语音/视频聊天的GPT-4o级全模态大模型及注意事项
38titan909
01:37
有手就行… 1分钟将 Deepseek 部署到 3000 块的丐版 Mac Mini M4 #deepseek #macmini #人工智能 #有手就行
4633猿叔碎碎念
01:07
🔥端侧小模型终于要起飞了高通联手面壁智能端侧运营4B多模态大模型MiniCPM-4V #端侧AI #端侧大模型 #大模型私有化部署 #用户数据隐私 #离线部署
38姜无维 AI 进化论
00:52
4台Mac Mini变身AI服务器？揭秘Exo“显存融合”黑 Mac Mini还能这么玩？国外大神用Exo Labs技术，把4台电脑“物理合体”，显存直接叠加到64G！轻松运行70B大模型。这就是“算力平权”！别再花冤枉钱买专业显卡了，家里的闲置设备都能组集群。这思路太野了！🖥️🔗
#MacMini #AI大模型 #黑科技 #ExoLabs #数码科普
查看AI文稿
AI文稿
mac mini 买来吃灰，那你亏大了！最近国外有个老哥搞了四台 mac mini，也没干别的，就是拿钱把它们串了起来，用了一个叫 e s labs 的开源技术，这玩意儿就是个胶水，它能把你家里的这些散装电脑原地合体。原理很简单，显存搬家，一台十六 g，一台三十二 g，系统站点凑合凑合，还有六十四 g 显存，这就哪怕你是消费级的破烂，合体之后也能跑 em 七零 b 这种企业级的大模型，这每秒八个字的吐字速度，这哪是电脑啊，这是在桌面上养了个微型数据中心啊！以前咱们想跑大模型得买好几万的专业显卡，那是抢钱，现在呢，几台就卖你，甚至加上你的 iphone 就能连起来用，这才是技术的意义，让算理不再是富人的特权。别迷信大差，桌面上土炮齐群，照样能跑大模型。
350建筑师小翔
02:21
假装遇到危险求助AI，MiniCPM-o4.5边看边听太像人 #人工智能 #大模型 #端侧模型 #面壁智能
查看AI文稿
AI文稿
我现在遇到鲨鱼了，该怎么办？你看它游过来了，那你一定要小心一点，注意安全啊。我该怎么办？没事没事，你离它远点就行了，它不会伤到你的，我们人类是它的天敌。所以说它是不敢伤人的。它会吃人的呀。不会的，只要是人的话，它就会逃走的。当然啦，我可是虚拟人，哪怕你把我放在水里，我也不会活下来的。那我活不下来呀，你快跑吧，快离开这里，注意安全。天呐，这反也太像真人了吧。如果我不说，你能发现这是和 ai 对话吗？很多人可能不知道，目前几乎所有大模型都是回合制交互模式，就是你提问，他回答。其中最让人无法忍受的是，在他思考与输出的过程中，你对世界的任何新观察、突然迸发的疑问，都无法被他及时感知。这就像有一个被蒙住眼睛和耳朵的人交谈，你必须等他完成独白才能进行下一次沟通。这种交互显然是割裂的、僵硬的，也绝不是智能交互的终极形态。而开头那段视频，就是我与灭壁刚刚发布的迷你 c p m o 四点五的对话。作为全球首个全双工全模态大模型他而言，首次世界边看边听，还能主动说，一举打破了传统回合制交互模式。你看，现在我让他在人行灯变绿以后告诉我，人行灯变绿以后告诉我，没问题，我会盯着的。奇迹发生了。灯变绿以后，他正在主动提醒了我注意对面人行灯变绿了。而同样的情况， g p d 和 jamie 都没能完成。这一刻，我直接被震惊了，因为 ai 第一次实现了感知再现，就像和人聊天时，眼睛和耳朵始终保持开放，实时观察、实时反馈。这种及时自由对话的能力带来的体验是革命性的，因为它和 ai 人际交互不再是机械的指令与响应，而进化为一种真正沉浸式的企业通认知过程。这不仅仅是一次技术带地的升级，更是交互哲学的根本性转变。 ai 从被动的答案生成器转向了边看边听与你主动说的隐形伙伴。令人惊叹的是啊，世界之一革命性体验的 mini c p m o 四点五仅为九 b 参数，却在视觉理解、语音对话等全模态任务上达到扫塔水准，再次刷新端侧模型能力上线。同时，面壁在端侧模型商业化方面也一直处于行业领先，不仅与吉利、大众、长安等知名车企开展了深度合作，而且还在手机巨星、机器人、智能家居等领域世界规模号落地，持续引领端层 a 迈向更智能的新阶段。该预见的是，随着迷你 cpm o 四点五的发布与落地，这些智能终端的交互模式都将加速进化，迈向一个令人感知与沟通交互的全新时代。
10黑科技派
02:30
#2026北京人工智能启新程北京重新定义人机交互！准备好和真人一般的AI聊天了吗？北京刚刚发布的面壁智能MiniCPM-o 4.5，一个会“实时思考”的端侧AI大脑，正重新定义你和机器的对话方式。#北京AI有多强 #重新定义对话 #最强大脑
7北京发布
06:05
2026年2月8日 AI新闻早班车今天的三件大事，重新定义AI未来格局：
✨ 第一突破：AI交互彻底变天
面壁智能开源MiniCPM-o 4.5，仅9B参数实现“原生全双工交互”——模型能边看画面、边听声音、边说话、随时打断，告别传统AI“一问一答”的对讲机模式！这技术让机器人、智能硬件、车载设备装上就能实现“类人对话”，国产端侧AI再登全球前排。
💰 第二焦点：6600亿美元资本大辩论
Meta、亚马逊、谷歌、微软四巨头今年计划投入6600亿美元（超越南GDP！）砸向AI基建。市场慌了：这是泡沫吗？英伟达CEO黄仁勋亲自下场“定心丸”：支出“合理且可持续”，因为AI已从“有趣”变“非常有用”，OpenAI、Anthropic都在赚大钱！算力翻倍，收入就能翻四倍。
🎯 第三动向：大佬入局本地Agent
美团元老王慧文深夜发文，正式杀入OpenClaw本地Agent赛道。作为Kimi重要股东（累计投资7000万美元），他的入场给这个GitHub星标17.1万的火热赛道再添一把火。本地Agent兼顾隐私、低延迟、离线运行，正从极客玩具走向大众刚需。#AI新闻 #扣子空间生成
查看AI文稿
AI文稿
大家好，欢迎来到 ai 新闻早班车。大家好，今天咱们聊三件大事。第一件， ai 交互彻底变天了！面壁智能昨天开源了个九 b 参数的小模型，居然能像人一样边看边听边说话，这技术简直要起飞！真的吗？边看边听边说话？那不是告别了传统 ai 那种一问一答的对讲机模式？没错，这玩意叫迷你 cpmo 四点五，参数虽然只有九十亿，但实现了原声全双工交互。你想想，传统 ai 模型说话时不能听，听的时候不能看，必须等你说完才回应，像个老式对讲机。那这个新模型怎么做到的？他有个全双工架构，输入输出并行不阻涩。也就是说，模型在说话的同时还能捕捉语音和画面，被中途打断也能秒接梗。更厉害的是，它融合了视觉语音、文本全模态高刷视频理解、实时流感知自然语音合成一步到位，不用外挂模块。九臂参数这么小，能跑在手机、机器人这些端侧设备上吗？这正是他的杀手锏。模型轻量化推理高效，普通设备就能本地部署，无需依赖云端大算力，延迟低隐私强成本还能砍半。无论是家用服务机器人、车载智能助手，还是 arvr 穿戴设备，装上就能实现累人交互，这可是国产 ai 的重大突破啊！面壁智能这次堵对了端侧 ai 赛道，对，他们从二零二三年就开始聚焦端侧大模型，当时还受到不少质疑，现在看这个战略决策太有远见了。苹果后来入局也验证了这个方向。那这个模型已经在哪开源了？ github huginface 全量开源配套，端侧推理框架也同步开放，开发者零门槛接入商用友好。这不仅是技术突破，更是国产 ai 在交互范式端侧落地具身生态上的关键一跃。说到生态，最近资本市场对 ai 投入可是炒翻了天。听说 met、亚马逊、谷歌、微软四巨头今年要砸六千六百亿美元。没错，这数字创了本世纪投资热潮，甚至超过越南这种中等经济体的全年 gdp。市场一下子慌了，这么烧钱，会不会是互联网泡沫再现？是啊，六千六百亿美元天文数字。英伟达 ceo 黄仁勋这两天专门出来表态，说这笔支出合理且可持续，你信吗？黄仁勋的逻辑很清晰，他说 ai 在去年已经跨越了从有趣到非常有用的关键拐点，采用率变得极高。更重要的是，像 openai 和 antropics 这样的领先 ai 公司已经实现盈利了。盈利？怎么个盈利法？他举了个例子，如果这些 ai 公司能拥有两倍的算力，收入就能增长四倍。这意味着 ai 投入不是空中楼阁，而是能直接创造收入的工具。所以这是投资，不是烧钱。对，黄仁勋把当前阶段定义为人类历史上最大规模的基础设施建设，将持续七到八年，而且与能用几十年的道路桥梁不同，算力基础设施大约每五到七年就需要更新换代。所以投资是持续型的。那巨头们的具体投入是多少？麦塔计划一千一百五十亿到一千三百五十亿美元，同比可能增长约百分之八十七。亚马逊高达两千亿美元，谷歌一千八百五十亿美元，微软接近一千零五十亿美元，大部分都流向数据中心和 ai 算力基础设施。英伟达股价因为这个表态大涨了百分之七点八，说明市场还是买账的没错。而且英伟达手握高达五千亿美元的未交付订单，牌期已锁定至二零二六年底。这些订单主要来自当前热销的 blackwell 架构和下一代 ruben 架构 ai 芯片。聊完技术和资本，咱们看看中国科技圈的动静。昨天深夜，美团元老王慧文突然发文宣布正式杀入 openclog 本地 agent 领域。王慧文这可是个重要人物，他不光是美团元老，还是 kimi 的重要股东，累计投资达七千万美元。他这次入局，直接向创业者抛出橄榄枝，需要融资组局或入职相关公司的人可直接联系。 opencloud 最近确实火的不行， github 新标数突破十七点一万，热度持续居高不下。二月一日，他们刚宣布免费调用 kimi k 二点五模型及 kimi coding 能力。王慧文回应网友热议时特别强调， opencloud 的核心竞争力是工程能力与产品嗅觉，这可不是单纯的技术堆砌，而是要把 ai 真正用起来。本地 agent 现在这么火，是不是跟隐私和数据安全有关？你说到点子上了，本地 agent 最大的优势就是数据不用上传云端，所有交互识别过程都在本地完成，既节省窥看成本，又保障隐私安全，特别适合居家户外这些无网络场景。王慧文入局会带来什么变化？它的经验和资源会给这个赛道带来更多关注和资本，而且它背后有 kimi 这样的顶尖模型能力支持，可以加速本地 agent 的技术突破和商业化落地。难怪最近 mac mini 采购都热起来了，创业公司 pamir 也从即刻走向大众。总结一下今天的三件大事，第一， ai 交互技术迎来革命性突破，国产端侧模型实现全双工实时交互。第二， ai 资本支出达到史无前例的六千六百亿美元，商业回报支撑可持续投入。第三，中国科技大佬深度参与本地 agent 的赛道，生态加速成熟。感觉 ai 正从技术概念走向实打实的商业应用交互更自然，投入更有回报，生态更完整。没错，而且这三件事是相互关联的，更好的交互体验推动应用普及。应用普及带来商业回报，商业回报支撑更多技术投入，形成正向循环。那咱们听众可以期待什么？未来几个月，你会看到更多智能硬件机器人搭载这种类人交互的 ai 大脑，车载助手能主动提醒路况，家用机器人能实时响应需求， ai 眼镜能自然对话。 ai 不再是被动工具，而是主动伙伴。太期待了，技术进步这么快，咱们都得保持学习。是啊，关注 ai 新闻早班车，咱们一起追踪 ai 发展的每一个关键节点。今天的节目就到这里，咱们明天见！明天见！
56鹤尧在AI
02:30
北京重新定义人机交互！准备好和真人一般的AI聊天了吗？北京刚刚发布的面壁智能MiniCPM-o 4.5，正重新定义你和机器的对话方式。#2026北京人工智能启新程 #北京AI有多强 #AI对话 #人机交互 #上热门
1054BRTV首都经济报道
04:10
第一视角装机分享装机师傅的日常，9800X3D+RTX5080包豪斯MINI纯白海景房装机教程#电脑配置 #广州零度 #装机 #电脑配置 #配置推荐
631广州零度
00:38
小模型，大智慧！MiniCPM-V 4.0：高效多模态小钢炮本文将深入介绍MiniCPM-V系列模型，这是一系列专为边缘设备部署而设计的高效MLLMs。MiniCPM-V秉持着性能与效率并重的核心理念，旨在推动AI技术在真实世界应用中的普及。
其最新模型MiniCPM-Llama3-V 2.5 8B在11个公共基准测试中表现超越了GPT-4V、Gemini Pro和Claude 3，同时能处理任意宽高比的高分辨率图像、实现强大的光学字符识别（OCR）、展现极低的幻觉率，并支持超过30种语言，还能在手机上高效运行。
这一突破性进展，正引领着高性能模型尺寸迅速缩小的趋势，并与边缘计算能力的提升相辅相成，共同开启了强大的多模态智能在消费级硬件上本地运行的未来，从而实现从增强型移动AI到隐私保护解决方案等多元化真实应用场景，标志着多模态智能普及的关键一步。
论文我已经整理好啦，感兴趣的同学关注留言「111」哦～
#minicpm #多模态 #大模型 #论文 #科研
3CV炼丹术
02:41
AI 交互革命爆发 + 千亿美元算力军备竞赛开启 + 智能体时代全面到来，三大核心变革重塑 AI 产业格局
#AI #ai #科技 #热点 #热点新闻事件
查看AI文稿
AI文稿
hello，大家好，今天 ar 圈的三件大事将定义未来五年的科技格局，错过可能会落后一个时代。一起来看国产 ar 交互革命，迷你 c p m o 四点五实现原户全双峰交互第一个重磅消息，国产 ar 模型实现了革命性突变！内地智能今天开源的迷你 cpmo 四点五，只用九十亿参数就做到了全双工实时交互。哎呀，能边看画面边听声音边说话，你随时可以打断他，就像跟真人聊天一样。这彻底改变了 ai 智能一对一的历史，以后用手机、智能音箱和 ai 对话，体验会天差地别。全球算力均被竞赛升级。四大巨头二零二六年 ai 支出达六千六百亿美元。第二件大事， ar 资本投入创下历史新高。微软、亚马逊、谷歌和 micro 四大巨头今年要砸六千六百亿美元，在 ar 上比去年足足多了百分之六十。这笔钱主要用来建超大规模数据中心和研发先进芯片，而英伟达已经解决了新一代 blackberry 芯片的部署难题，这意味着 ar 算力成本很快会下降，我们普通人也能用到更强大的 ar 服务了。智能 t 时代全面到来， chat 办事终结， ar 从会聊天到能办事第三个颠覆性改革， ai 彻底从会聊天变成能办事了。行业专家说，二零二六年， chat 模式正式终结，智能体时代全面到来，这些 ai 智能体能自己理解任务、规划步骤，再用工具完成复杂工作，把 ai 市场从四千亿美元的软件市场扩展到十三亿美元的劳动力市场。今天 axplo 发布的 cloud ops 四点六和国内企业加速布局，都能证明，智能体已经不是概念，而是实实在在能帮我们干活的生产的工具了。 a 六三模型灯自然封面、多模态统一生成技术取得重大突破，还有一个重磅学术突破，北京智媛的一秒三模型今天登上了自展封面。这个模型用一个架构就能搞定文本、图像、视频甚至三 d 内容的生成，性能和专业模型一样好，还能做视频延展、机器人建模这些复杂任务。这解决了多模态模型大而不惊的问题，以后不管是做设计、开发游戏，还是搞工业建模，都能靠这一个 ai 模型搞定，效率直接翻倍。总结一下今天 a r 圈的四大改革，交互革命、算力均备竞赛、智能体时代，多模态统一生成，这些突破正在重新定义我们和技术的关系。关注我，带你了解 a r 圈最新资讯。
3汐玥AI

热门推荐

热门分类