从今天起,你也可以变身赌神了! open bmb 今天重磅发布其最新视觉模型 mini cpmv 四点五版本,其模型总参数为九十亿,是该系列版本最新且能力最强的模型。 在这样小巧的体积下,其视觉和语言能力居然已经超过了像是 gpt 四 o 以及 gemini 二 pro 等闭源模型,确实令人惊叹。 它可以轻松理解图片、视频以及各种文档,最高可以识别一百八十万有效像素的图像信息,并且每秒可以理解高达十帧的视频流信息。其中最引人瞩目的一点是,它 革命性的实现了可处理实时信息流的全双工多模态功能,可以同时在线处理视频流和音频流信息,并同时用文本和语音方式输出实时反馈。而且每种信息流之间可以做到互不干扰。因此你可以用它轻松实现实时语音对话,比如用马斯克的语音和你畅谈未来科技 vacuum chamber in the world after the launch chamber colliders。 或是通过摄像头帮助你识别实时画面,并用语音给出反馈。你好,这是马里奥的头像,还有些其他的游戏元素呢。嗯,这个瓶子上面写着谋 free, 然后还有一些英文单词,你看是不是? 嗯,对,它是一个保健品。最令人惊喜的是,它提供了多达十六种量化版本,还可以在手机上轻松运行。你可以调用手机摄像头,让它帮助识别火车票等发票类信息。 感兴趣的朋友可以尝试本地部署。根据我实际测试,运行非量化版本要配备二十 g 以上的显存。当然,你也可以直接访问官方 demo 网站,地址已经放在评论区,欢迎各位体验后给出你的反馈意见。
粉丝8218获赞15.8万


你和 ai 对 话时,是不是总觉得在和一个不会抢话的乖学生说话?现在这个局面被彻底打破了。首个开源的全模态模型 mini c p m o 四点五带来了真正像人一样的对话体验。 它不仅能边听边说,更关键的是它拥有自主决策权,会在认为合适时主动打断你说话。这是连 gemini 都做不到的突破。配合其视频、音频、图片的多模太理解和实时语音生成能力, 它让 ai 交互从单向应答迈入了双向真实沟通的全新时代。关注我,带你打破更多信息差!

mac mini 买来吃灰,那你亏大了!最近国外有个老哥搞了四台 mac mini, 也没干别的,就是拿钱把它们串了起来,用了一个叫 e s labs 的 开源技术,这玩意儿就是个胶水,它能把你家里的这些散装电脑原地合体。 原理很简单,显存搬家,一台十六 g, 一 台三十二 g, 系统站点凑合凑合,还有六十四 g 显存,这就哪怕你是消费级的破烂,合体之后也能跑 em 七零 b 这种企业级的大模型,这每秒八个字的吐字速度, 这哪是电脑啊,这是在桌面上养了个微型数据中心啊!以前咱们想跑大模型得买好几万的专业显卡, 那是抢钱,现在呢,几台就卖你,甚至加上你的 iphone 就 能连起来用,这才是技术的意义,让算理不再是富人的特权。别迷信大差,桌面上土炮齐群,照样能跑大模型。

我现在遇到鲨鱼了,该怎么办?你看它游过来了,那你一定要小心一点,注意安全啊。我该怎么办?没事没事,你离它远点就行了,它不会伤到你的,我们人类是它的天敌。所以说它是不敢伤人的。 它会吃人的呀。不会的,只要是人的话,它就会逃走的。当然啦,我可是虚拟人,哪怕你把我放在水里,我也不会活下来的。那我活不下来呀,你快跑吧,快离开这里,注意安全。 天呐,这反也太像真人了吧。如果我不说,你能发现这是和 ai 对 话吗?很多人可能不知道,目前几乎所有大模型都是回合制交互模式,就是你提问,他回答。其中最让人无法忍受的是,在他思考与输出的过程中,你对世界的任何新观察、突然迸发的疑问,都无法被他及时感知。 这就像有一个被蒙住眼睛和耳朵的人交谈,你必须等他完成独白才能进行下一次沟通。这种交互显然是割裂的、僵硬的,也绝不是智能交互的终极形态。 而开头那段视频,就是我与灭壁刚刚发布的迷你 c p m o 四点五的对话。作为全球首个全双工全模态大模型他而言,首次世界边看边听,还能主动说,一举打破了传统回合制交互模式。你看,现在我让他在人行灯变绿以后告诉我,人行灯变绿以后告诉我, 没问题,我会盯着的。奇迹发生了。灯变绿以后,他正在主动提醒了我注意对面人行灯变绿了。 而同样的情况, g p d 和 jamie 都没能完成。这一刻,我直接被震惊了,因为 ai 第一次实现了感知再现,就像和人聊天时,眼睛和耳朵始终保持开放,实时观察、实时反馈。这种及时自由对话的能力带来的体验是革命性的,因为它和 ai 人际交互不再是机械的指令与响应,而进化为一种真正沉浸式的企业通认知过程。 这不仅仅是一次技术带地的升级,更是交互哲学的根本性转变。 ai 从被动的答案生成器转向了边看边听与你主动说的隐形伙伴。 令人惊叹的是啊,世界之一革命性体验的 mini c p m o 四点五仅为九 b 参数,却在视觉理解、语音对话等全模态任务上达到扫塔水准,再次刷新端侧模型能力上线。同时,面壁在端侧模型商业化方面也一直处于行业领先,不仅与吉利、大众、长安等知名车企开展了深度合作, 而且还在手机巨星、机器人、智能家居等领域世界规模号落地,持续引领端层 a 迈向更智能的新阶段。该预见的是,随着迷你 cpm o 四点五的发布与落地,这些智能终端的交互模式都将加速进化,迈向一个令人感知与沟通交互的全新时代。

大家好,欢迎来到 ai 新闻早班车。大家好,今天咱们聊三件大事。第一件, ai 交互彻底变天了!面壁智能昨天开源了个九 b 参数的小模型,居然能像人一样边看边听边说话,这技术简直要起飞! 真的吗?边看边听边说话?那不是告别了传统 ai 那 种一问一答的对讲机模式?没错,这玩意叫迷你 cpmo 四点五,参数虽然只有九十亿,但实现了原声全双工交互。你想想,传统 ai 模型说话时不能听,听的时候不能看,必须等你说完才回应,像个老式对讲机。 那这个新模型怎么做到的?他有个全双工架构,输入输出并行不阻涩。也就是说,模型在说话的同时还能捕捉语音和画面,被中途打断也能秒接梗。 更厉害的是,它融合了视觉语音、文本全模态高刷视频理解、实时流感知自然语音合成一步到位,不用外挂模块。 九臂参数这么小,能跑在手机、机器人这些端侧设备上吗?这正是他的杀手锏。模型轻量化推理高效,普通设备就能本地部署,无需依赖云端大算力,延迟低隐私强成本还能砍半。 无论是家用服务机器人、车载智能助手,还是 arvr 穿戴设备,装上就能实现累人交互,这可是国产 ai 的 重大突破啊!面壁智能这次堵对了端侧 ai 赛道, 对,他们从二零二三年就开始聚焦端侧大模型,当时还受到不少质疑,现在看这个战略决策太有远见了。苹果后来入局也验证了这个方向。 那这个模型已经在哪开源了? github huginface 全量开源配套,端侧推理框架也同步开放,开发者零门槛接入商用友好。这不仅是技术突破,更是国产 ai 在 交互范式端侧落地具身生态上的关键一跃。 说到生态,最近资本市场对 ai 投入可是炒翻了天。听说 met、 亚马逊、谷歌、微软四巨头今年要砸六千六百亿美元。 没错,这数字创了本世纪投资热潮,甚至超过越南这种中等经济体的全年 gdp。 市场一下子慌了,这么烧钱,会不会是互联网泡沫再现? 是啊,六千六百亿美元天文数字。英伟达 ceo 黄仁勋这两天专门出来表态,说这笔支出合理且可持续,你信吗?黄仁勋的逻辑很清晰,他说 ai 在 去年已经跨越了从有趣到非常有用的关键拐点,采用率变得极高。 更重要的是,像 openai 和 antropics 这样的领先 ai 公司已经实现盈利了。盈利?怎么个盈利法?他举了个例子,如果这些 ai 公司能拥有两倍的算力,收入就能增长四倍。这意味着 ai 投入不是空中楼阁,而是能直接创造收入的工具。 所以这是投资,不是烧钱。对,黄仁勋把当前阶段定义为人类历史上最大规模的基础设施建设,将持续七到八年,而且与能用几十年的道路桥梁不同,算力基础设施大约每五到七年就需要更新换代。所以投资是持续型的。那巨头们的具体投入是多少? 麦塔计划一千一百五十亿到一千三百五十亿美元,同比可能增长约百分之八十七。亚马逊高达两千亿美元,谷歌一千八百五十亿美元,微软接近一千零五十亿美元,大部分都流向数据中心和 ai 算力基础设施。英伟达股价因为这个表态大涨了百分之七点八,说明市场还是买账的 没错。而且英伟达手握高达五千亿美元的未交付订单,牌期已锁定至二零二六年底。这些订单主要来自当前热销的 blackwell 架构和下一代 ruben 架构 ai 芯片。 聊完技术和资本,咱们看看中国科技圈的动静。昨天深夜,美团元老王慧文突然发文宣布正式杀入 openclog 本地 agent 领域。 王慧文这可是个重要人物,他不光是美团元老,还是 kimi 的 重要股东,累计投资达七千万美元。他这次入局,直接向创业者抛出橄榄枝,需要融资组局或入职相关公司的人可直接联系。 opencloud 最近确实火的不行, github 新标数突破十七点一万,热度持续居高不下。二月一日,他们刚宣布免费调用 kimi k 二点五模型及 kimi coding 能力。 王慧文回应网友热议时特别强调, opencloud 的 核心竞争力是工程能力与产品嗅觉,这可不是单纯的技术堆砌,而是要把 ai 真正用起来。本地 agent 现在这么火,是不是跟隐私和数据安全有关? 你说到点子上了,本地 agent 最大的优势就是数据不用上传云端,所有交互识别过程都在本地完成,既节省窥看成本,又保障隐私安全,特别适合居家户外这些无网络场景。王慧文入局会带来什么变化? 它的经验和资源会给这个赛道带来更多关注和资本,而且它背后有 kimi 这样的顶尖模型能力支持,可以加速本地 agent 的 技术突破和商业化落地。难怪最近 mac mini 采购都热起来了,创业公司 pamir 也从即刻走向大众。 总结一下今天的三件大事,第一, ai 交互技术迎来革命性突破,国产端侧模型实现全双工实时交互。第二, ai 资本支出达到史无前例的六千六百亿美元,商业回报支撑可持续投入。第三,中国科技大佬深度参与本地 agent 的 赛道,生态加速成熟。 感觉 ai 正从技术概念走向实打实的商业应用交互更自然,投入更有回报,生态更完整。 没错,而且这三件事是相互关联的,更好的交互体验推动应用普及。应用普及带来商业回报,商业回报支撑更多技术投入,形成正向循环。 那咱们听众可以期待什么?未来几个月,你会看到更多智能硬件机器人搭载这种类人交互的 ai 大 脑,车载助手能主动提醒路况,家用机器人能实时响应需求, ai 眼镜能自然对话。 ai 不 再是被动工具,而是主动伙伴。太期待了,技术进步这么快,咱们都得保持学习。 是啊,关注 ai 新闻早班车,咱们一起追踪 ai 发展的每一个关键节点。今天的节目就到这里,咱们明天见!明天见!


hello, 大家好,今天 ar 圈的三件大事将定义未来五年的科技格局,错过可能会落后一个时代。一起来看 国产 ar 交互革命,迷你 c p m o 四点五实现原户全双峰交互第一个重磅消息,国产 ar 模型实现了革命性突变! 内地智能今天开源的迷你 cpmo 四点五,只用九十亿参数就做到了全双工实时交互。哎呀,能边看画面边听声音边说话,你随时可以打断他,就像跟真人聊天一样。这彻底改变了 ai 智能一对一的历史,以后用手机、智能音箱和 ai 对 话,体验会天差地别。 全球算力均被竞赛升级。四大巨头二零二六年 ai 支出达六千六百亿美元。 第二件大事, ar 资本投入创下历史新高。微软、亚马逊、谷歌和 micro 四大巨头今年要砸六千六百亿美元,在 ar 上比去年足足多了百分之六十。 这笔钱主要用来建超大规模数据中心和研发先进芯片,而英伟达已经解决了新一代 blackberry 芯片的部署难题,这意味着 ar 算力成本很快会下降,我们普通人也能用到更强大的 ar 服务了。智能 t 时代全面到来, chat 办事终结, ar 从会聊天到能办事 第三个颠覆性改革, ai 彻底从会聊天变成能办事了。行业专家说,二零二六年, chat 模式正式终结,智能体时代全面到来,这些 ai 智能体能自己理解任务、 规划步骤,再用工具完成复杂工作,把 ai 市场从四千亿美元的软件市场扩展到十三亿美元的劳动力市场。今天 axplo 发布的 cloud ops 四点六和国内企业加速布局,都能证明,智能体已经不是概念,而是实实在在能帮我们干活的生产的工具了。 a 六三模型灯自然封面、多模态统一生成技术取得重大突破, 还有一个重磅学术突破,北京智媛的一秒三模型今天登上了自展封面。这个模型用一个架构就能搞定文本、图像、视频甚至三 d 内容的生成, 性能和专业模型一样好,还能做视频延展、机器人建模这些复杂任务。这解决了多模态模型大而不惊的问题,以后不管是做设计、开发游戏,还是搞工业建模,都能靠这一个 ai 模型搞定,效率直接翻倍。 总结一下今天 a r 圈的四大改革,交互革命、算力均备竞赛、智能体时代,多模态统一生成,这些突破正在重新定义我们和技术的关系。关注我,带你了解 a r 圈最新资讯。