粉丝72.8万获赞6280.7万

就在四月二日,谷歌发布了 gmail 四,这是一个完全开源的多模态大模型系列,支持文本、图像和音频交互,而且采用 ipatch 二点零协议,可以免费商用,没有任何授权费用。 你有没有想过,把谷歌最新的大模型装在自己手机里,完全离线使用,不用花一分钱,还能保证自己的隐私,绝对安全。 就在四月二日,谷歌发布了 gms, 这是一个完全开源的多模态大模型系列,支持文本、图像和音频交互,而且采用 apache 二点零协议,可以免费商用,没有任何授权费用。 首先咱们得搞清楚 gammas 到底是什么,它和谷歌闭源的旗舰模型 gamem 三,共享底层技术,一共四个版本, e 二 b、 e 四 b 二十六 b 莓 e 和三一 b dens。 咱们普通人能用的就是前两个 e 二 b 和 e 四 b, 因为它们能在手机上直接运行,完全离线,而且不占太多空间。 e 二 b 大 概需要三点二 gb 的 存储空间, e 四 b 需要五 gb 左右。对现在的手机来说,这个空间压力不算大。 那要在手机上部署 game 四,需要什么样的条件呢?安卓手机需要安卓的十二以上,苹果手机需要 ios 十六以上,内存方面 至少八 gb ram, 六 gb 的 话可能会闪退。机型上,苹果推荐 iphone 十二级以上,安卓最好是中高端机型。有个特别提醒,华为手机不支持,因为谷歌服务的限制,这个得记清楚。 接下来是安卓端部署步骤,有两个方案可以选。第一个是官方推荐的谷歌 ai edge gallery, 你 可以在公共 play 里搜索下载,或者去 apk mirror 下载 apk 安装包, 打开应用后进入模型库搜索 j m 四,选择 j m 四 e 二 b 杠 it 或者 j m 四 e 四 b 杠 it 点击下载。下载的时候建议用 wifi, 毕竟文件有两到四 g b 流量,下载不太划算,下载完成后会自动激活,之后就能离线使用了。 第二个方案是开源的 m l c chat, 你 可以从 tapp 上下载这个应用,打开应用后点击加号,添加模型,选择 gemas 的 e 二 b 或者 e 四 b 版本,等待下载完成就可以了。不过国内用户可能会遇到问题,因为模型默认从 hugen face 下载,国内有时候访问不了。 这时候有两个办法,一个是用电脑访问 h f 杠 m 二二 o r 点 com 下载,点 g g u f 格式的文件,然后传到手机的 android data ai dot m l c dot m l c chat slash files 目录里,再在 app 里导入。 另一个办法是直接用手机访问镜像站下载。苹果手机的部署就更简单了,直接在 app store 搜索 m l c chat 下载安装, 打开应用后点击 download models, 找到 gamma 四系列,选择 e 二 b 或者 e 四 b 版本,下载完成之后就能直接离线对话了。 咱们再说说性能表现。 pixel 八 pro 运行 e 二 b 版本,每秒大概能处理十五个 tokens, 内存占用三点五 gb。 iphone 十五 pro 运行 e2b 的 话,每秒大概十二个 tokens, 内存占用三点二 gb。 小 米十四的速度稍微慢一点,每秒十个 tokens, 内存占用三点八 gb。 第一次运行的时候,系统会对模型进行优化,可能会有点慢,但是之后就会快很多。 这个模型最大的优势就是完全离线运行,不需要联网,所有数据都留在你自己的手机里,隐私绝对安全。而且它支持文本、图像和语音交互功能,和云端的大模型差不多,但不需要花一分钱,也没有 api 调用费用,可以永久免费使用。 最后给你几个注意事项, e to b 更清亮,速度更快,适合基础的对话需求。 e 四 b 的 推理能力更强,支持多模态任务,比如分析图像或者处理复杂问题。下载模型的时候建议用 w wifi, 这样能省不少流量。使用的时候最好把后台的其他应用关掉,这样能提升运行的流畅度。 现在的版本中文支持已经很好了,还支持一百四十多种语言,你不用担心语言障碍的问题。好了,今天的部署指南就到这里,你现在就可以按照我给的步骤,把 gms 装到自己的手机里,体验一下完全离线的 ai 大 模型。行动起来,把 ai 装进你的口袋。

兄弟们,谷歌开源模型王炸来了!二零二六年四月三日,谷歌正式推出伽马四大模型,这是迄今为止谷歌最智能的开源模型。四种规格,高校二十亿参数版,高校四十亿参数版,两百六十亿混合专家模型三百一十亿重密模型。 最炸裂的是什么?三十一 b 模型目前在 rena ai 文本榜单中位列全球开源模型第三,二十六 b 模型位居第六。 charma 四的表现甚至超越了自身规模二十倍的模型。这意味着什么?只需更少的硬件开销,就能实现前沿级 ai 能力?更关键的是,完全开源 采用 arpachi 二点零协议,模型权重完全公开,可免费商用,支持本地部署,支持幺四零种语言,覆盖全球主要语气。全系模型原声,支持视频图像处理。俄币和幺币模型还额外支持音频输入。 在端侧设备上,俄币和 e b 模型可以在手机、树莓派、英伟达、 jason orionno 上完全离线运行,安卓开发者也可在 a core 开发者预览版中使用。 二十六 b 和三十一 b 模型可以在消费级 gpu 上运行,支撑集成开发环境、编程助手与智能提供作流。兄弟们,谷歌这是用开源生态对抗 open ai 的 封闭垄断, ai 民主化真的来了!

开源大战全面爆发,谷歌 jam 四彻底开源,豆包一天烧掉一百二十万亿头啃, deepsea v 四还在憋大招?四月二日, ai 圈同一天发生了三件大事。 谷歌凌晨突袭发布 jam 四,四个规格覆盖手机到服务器,最重要的是把协议从自家私有改成了 apache 二点零,这意味着任何人都可以拿去商用。 五哥连字都没得说。字节豆包官宣,日军 token 消耗量突破一百二十万亿,三个月前还是六十万亿?两年前刚上线是一千两百亿, 两年涨了一千倍,成了全球仅三家超百万亿 token 的 公司之一。阿里千问三点六 plus 悄悄上线,发布首日就在 open route 平台创造了单日一点四万亿 token 的 全球记录。这个平台上所有模型,历史上从来没有一个模型单日超过一万亿, 他是第一个。而这一切的背景是, deepsea v 四还没发布,只有爆料说四月内要来。三件事同天发生,不是巧合,是开元赛道到了正面决战的关键节点。谷歌憋了一年,这次终于开门见山。 gemma 系列是谷歌的开源产品线,和碧源旗舰 gemini 共享底层技。 去年三月发了 jam 三,开发者用完就投诉协议太复杂,商用受限,生成的合成数据拿去训,其他模型还要受约束,一堆麻烦。这次 jam 四直接换成 a patch 二点零。 a patch 二点零是什么概念? meta 的 l l m a 三用的也是类似协议。 deep six 系列同样是 mit a patch 协议行业里公认最干净、限制最少的开源协议。 谷歌这次不光放开商用,还专门说了一句,基于 jam 四生成的合成数据训练其他模型不受任何约束,等于说你可以拿 jam 四生成无数条训练数据,再拿去训自己的模型,谷歌什么都管不了,这对整个开原生态的意义不亚于模型本身的性能提升。 再说性能,四个版本覆盖从手机到服务器, e 二 b 二十亿参数和 e 四 b 四十亿是端侧模型,支持原声音频,手机离线可跑。 二十六 b m o e 式混合专家架构,激活参数只有约三十八亿,推理成本低。三十一 b 单词是旗舰版,三百一十亿全量激活 三十一 b 版本的成绩炸裂。 a i m e 二零二六,数学竞赛准确率八九点二 percent, 上一代 jam 三只有二零八 percent 提升四倍多。 lipcode bench 代码测试从二十九点一百分之涨到八十百分之 g p q r diamond 的 科学推理力百分之八十四点三, m m l u pro 综合知识百分之八十五点二。 arina ai 全球开源模型排行榜第三名, 只用了三百一十亿参数,击败了餐数量大他好几倍的对手。谷歌自己说是前所未有的单位参数,智能水平同等参数比别人聪明。有一个短板要说上下文窗口三 e b 支持二十五点六万 token, 而千万三点六 plus 给的是百万 token。 deep sec v 四的爆料也是一 mill, 谷歌在这个维度上已经落后了豆包的一百二十万亿到底意味着什么?数字太大,先换算一下,一百二十万亿 token 一 天 等于每天处理二点四亿本三体三个月前是六十万亿,两年前刚上线时是一千两百亿, 两年涨了一千倍。自解火山引擎透露了两个增长驱动,一是 ai 视频创作爆发, cds 二点零 api 公测一分钟七百二十 p, 视频消耗头肯约三十万以上币,普通对话贵几个数量级。 二是智能体规模化落地, agent 完成一个任务,消耗 token 量是普通对话的几十到上百倍。企业大规模部署 agent, token 消耗已陈述效应增长。全球日军 token 消耗超一百万亿的公司目前只有三家, open ai、 google 字节、跳动、豆包挤进了这个俱乐部。 百度、腾讯、阿里还在这个量级以外,但阿里的千问三点六 plus 刚上线,数据还会继续涨。千问三点六 plus 一 点四万亿 token, 凭什么? 四月二日,阿里在没有新闻发布会,没有铺天盖地通稿的情况下,悄悄在 openroute 上线了千问三点六 plus 预览版, 然后第二天 openroute 官方发推,这是我们平台有史以来第一个单日处理超一万亿 token 的 模型,而它才上线一天。一点四万亿 token 一 天,这个数字是怎么来的?因为它来了两个东西, 百万上下文加接近 cloud 的 编程能力。上下文窗口。一百万 token 是 目前开源模型里最长的档次之一,一次能塞进去的内容相当于整个代码仓库或者大约七十五万字的长文。企业用 ai 处理长文档, 代码 review 复杂分析,这个参数直接决定了能不能用,编程能力怎么样。 s w e bench 代码修复成功率六十九点六百分之,接近 cloud。 opus 在 开源模型里算顶尖水平, terminal bench、 二点零 n l r repo 等测试持平或优于同类竞品。还有一个关键指标, api 定价 输入每百万 token 最低只要两元人民币,同七 cloud 系列同档次性能的 api 要贵得多。百万上下文加顶级编程能力加白菜价,三个优势叠在一起, 开发者涌进来是必然的。千问三点六 plus 上线后,适配了主流智能体框架, open claw、 千问 code、 claud claud client 全部支持。等于说原来跑在 claud opus 上的工程师工作流,现在可以无缝切到千问三点六 plus, 全省一大截。这就是为什么一点四万亿偷坑一天。 deep seek bc 最后一张牌说完已经发布的,再说没发布的 deep c v 四预计四月内正式亮相,已经进入灰度测试。从目前爆料和技术论文整理来看,几个核心指标总参数约一万亿,一 t m o e 架构激活参数约三百二十亿左右,这意味着推理成本不会爆炸,但总能力上线拉到了前所未有的级别。 上下文窗口一百万 token 和千万三点六 plus 同档,从 v 三的幺二八 k 直接跳到 em, 不是 小幅升级,是一个级别的跨越。 ingram 条件记忆模块, 这是 v 四最让人兴奋的部分。什么叫条件记忆?简单说就是 ai 能在不同对话之间保留有条件的记忆, 不是把所有历史都塞进上下文,而是智能提取对当前任务真正有用的记忆片段,融入当前推理过程。 deepsea 在 二零二六年一月发表了 ingram 的 论文,把整个技术路线公开了。这次 mo 架构的补完,你有了超大模型的能力上线,再加上条件记忆,等于让 ai 开始有了跨绘画认知积累, 原生多模态文本图像、视频输入全支持。 v 三是纯文本, v 四直接跨到多模态。如果这些都能兑现, 加上 apache 二点零或 m i t 协议,开源 deep six v 四将是今年上半年开源赛道最猛的一张牌。问题是已经被期待了三个月,一次次说下周就来,结果一次次延期。 ai 圈儿有个玩笑说 deepsea v 四发布时间是薛定谔的四月,没打开盒子之前,他可能在任何时候发布,也可能在任何时候再延期。开源的胜利,还是另一种封锁。 看完这一波,不得不说一件事, apache 二点零协议正在成为开源 ai 的 标配。 jam 四切到 apache v 三已经是 mit 协议签问三点六 plus 同样走的开放路线, l a m a 三也是类似逻辑。这背后是什么? 是一个基本判断。开放生态的聚合效应比封闭能力的护城河更值钱。闭源模型的商业逻辑是能力壁垒, 我的模型比你强,你只能用我的 api, 我 收钱。但当开源模型的能力跟上来,这个逻辑就开始动摇。开源的商业逻辑是生态聚合,我的模型免费,但围绕它的云服务、微调服务、企业部署方案收钱 越多,人用,生态越大,商业转化越多。现在的格局是,谷歌 mate、 阿里 deep seek 都在下同一盘棋, 用最宽松的协议开放模型,抢开发者,抢生态,抢下一代 ai 工程师的使用习惯。 open ai 和 antropic 站在这个浪潮的对面,但他们的商业模式建立在能力差距上,当开源模型的编程能力、推理能力、 上下文处理能力都接近甚至持平,闭源旗舰,这个差距还能撑多久?有一个数字可以参考 open router 上目前全球 ai 掉用量排名前列的模型,中国开源模型已经占据一半以上。这还是在没有 d aaps、 a x v 的 情况下,开源大战的战场 不在实验室,在开发者的电脑上。下一步会发生什么?说几个可以追踪的点。第一, deep sec、 v 四发布后,中美开源模型的差距会更清晰。如果 v 四如期发布,且性能达到爆料水平,开源赛道的能力天花板将再次被刷新。如果继续延期, deep sec 的 口碑会受影响, ai 圈等不了太久。第二,豆包一百二十万亿 token 背后,是企业 ai 部署规模化的信号。一百万亿级 token 消耗量不是来自个人用户,是来自企业 agent。 部署视频生成、批量调用大规模自动化流程, 意味着 ai 从工具阶段进入基础设施阶段,用量不再依赖用户激活,而是跑在服务器上自动消耗。第三, a patch 二点零协议的蔓延会加速开源模型能力的向上竞争,协议越宽松,基于这些模型的微调增强,衍生模型就越多,开源生态的贡献者越多,能力迭代就越快。 这是一个正反馈循环,一旦启动,很难逆转。对谷歌来说,这次 jam 四的转变是迟来的正确选择。但能不能真正把开发者留住,要看的是生态支持、工具链、文档质量,这些都是 mate 和 deepsea 积累了更久的优势。 对用户来说,结论很简单,开源模型越来越强, api 越来越便宜,以前只有大公司才能用的 ai 能力正在向所有人评权。 这一波开元大战打的是生态,赢得是每一个会用 ai 的 人。你觉得 deepsea v 四如果在四月内发布,最让你期待哪个新能力?是百万上下文还是 ingram 条件记忆?

所有做硬件的兄弟们啊,紧急提醒我跟你们一样,为了防内存芯片涨价,硬生生囤货囤到了今年十月,现在看来,这步棋啊,可能白走了。就前天谷歌直接炸场, jimmy four 发布了,这东西一出来,前段时间疯涨的,那内存啊,芯片大概率要暴跌, 不信啊,我现场演示给你们看, 看到没?我把最新的 gmail 装在了我的小米十五 s pro 手机上,记住啊,这手机上啊,关键是我演示的啊,全程都是飞行模式,完全不联网,全靠本地的 tocs 干活,丝滑到飞起。 请帮我做张表,对比地球、月球以及火星土壤的区别。 重点来了,这意味着什么?街卖货不光性能能打,对内存对 cpu 的 要求还极低,省内存省 cpu 还省电费,关键它是开源的。来,我们现在来看一下对于图形的识别哈, 帮我看一下这可能是什么面条,以及这个照片下面的文字信息提取出来。 我再强调一遍,这不是小升级,这是结构性的大变化!那些压了一堆内存芯片的贸易商,别犹豫了,快跑! ai 时代以前那套炒货的周期呀,老经验早就不适用了,赶紧转发给你那些做硬件的朋友吧,别再盲目囤货了。

今天安装体验了 iphone 上运行 google 最新大模型 jam 四一二 b 的 感受,最核心的改变就是他本地运行的能力。这意味着什么?意味着我不再需要担心网络延迟,不再需要担心隐私泄露,他直接在我设备上跑,速度直接拉满。真实感受。首先是速度,我问一个复杂的逻辑问题,他几乎是及时反馈,那种秒回的感觉完全颠覆了我对 ai 响应的认知。 其次是精准度,我试着用它对一张复杂的图进行深度分析它识别的细节,那种对上下文的理解真的非常到位,比我以前在云端体验过的那些模型精确度高出好几个档次。现在本地运行的 jam 四一二 b, 在 效率和深度上,跟我现在小龙虾用的 mini max 每月产生的费用载速度和体验相比,已经 是现了。这个飞跃,他不是在模仿,他是在从行定义本地 ai 的 上线。这感觉就像我把最强大的引擎装在了我的手机里。 jam 四,文本处理能力核心能力是强大的文本理解、生成、载药、翻译、编程辅助等音频处理能力。特定版本 jam 四中的某些版本,如二 b 和四 b, 具备处理音频输入的能力。

ai 早报今天是二零二六年四月四日星期六一、谷歌当地时间四月二日发布新一代开源模型 g m 四,面向高级推理和智能体工作流场景,称其为迄今最智能开源模型。 二、四月二日,阿里发布千问新一代大语言模型 q n 三点六 plus、 编程能力超越两倍至三倍参数量的 glm 五、 kimi k 二点五等模型。三、 四月二日,工信部等十部门联合发布人工智能科技理论审查与服务办法,对训练数据选择、算法公平性、隐私保护等提出明确要求。 四、微软宣布未来四年向日本投资一百亿美元,扩建 ai 数据中心和云基础设施,并在二零三零年前培训一百万名 ai 工程师。五、 海光信息透露,国内多个万亿参数顶级大模型正基于海光 dcu 万卡集群进行训练。六、工信部提出探索算力银行、 算力超市等创新业务,支持中小企业存入闲置算力资源,完善 ai 应用服务体系。 七、广州市发布 ai 产业发展方案,历经二零三零年,引入万家 ai 家企业,打造两到三个国民级智能终端产品,建设锤类模型之都。八、金融监管总局表示,将稳妥有序推进金融行业人工智能试点应用, 建立 ai 安全开发应用治理架构。九、与树科技,一种移动机器人专利或授权智源,将于四月七日开启 ai 发布周。十、微软计划明年推出大型前沿 ai 模型,追求自主先进技术寄予 从谷歌、阿里新模型争风,到十部门轮理审查落地,从微软百亿布局日本到广州垂摩之都蓝图 ai 正在全球竞速与合规治理中双向提速。

哈喽,大家好,酷狗前两天刚刚发布了最新的大模型 gm 四,这个大模型它是完全的开源和免费的,能够在本地的设备上离线运行,我用了这几天,我觉得这才是二零二六年最合理的 ai 技术路线。 真正值得关注的是,呃,他的这个原声支持函数调用,这就意味着这个模型能够自主的使用工具,浏览网页,执行代码,调用 ipa, 相当于你在本地安装了一个智能体,全程也不用联网,也不用花钱,完全可以调用本地的算理。但是呢,很多人都不知道怎么使用,所以今天跟大家分享一下专门四的使用。专门四分别有四个不同的版本,分别是 e 二 b 四、 b 二十六 b a 四 b 和三十一 b。 这些模型大小各异,可以部署在手机、电脑和云端的服务器中,它非常适合文本的生成、编码和独立任务。这张图片呢,是谷歌官方的一个,相当于是个测评吧, 不同大模型之间的一个测评。我们可以看到这几个都是市面上比较好用的大模型,嗯,包括我们国产的 d c 克千万和 kimi, 还有那个 g p t, 我 们可以看到这是它们之间的那个性能的一个对比吧。嗯, nice 区域,我们可以看到这个是 g m 四,在我们传统的认知里,模型越大,参数越多, 它的性能就越强。在途中我们可以看到 g m 四的这个三十一 b 的 这个模型,在实战能力上竟然超越了千万的三点五,因为三十一 b 它只有 三百一十亿的这个参数。千位三点五呢,它有将近四千亿的参数,这两者之间的这个体积相差了十倍,所以呢,你可以看出这面四就是用十分之一的体积跑出了十倍体积的对手,那这就意味着你不需要再付 报的这个服务器的费,你在自己的电脑上,手机上就能够拥有世界最顶级的这个 ai 大 脑。然后我们看一下这四个版本的功能吧, 以及定位。三十一 b 被称为是全能大脑,它可以处理任何的这个你所想要的执行的一些任务吧,它的定位呢,也是非常的明确,是最顶级的一个型号,擅长呢查某某的创作以及 深度的逻辑推理,它就像人类的思考会给你列出这个提纲一样,然后排查啊错误,然后再输出, 所以他非常擅长于这个深度的长文写作。那么第二个是二十六 b 的, 这个被称为效率之王,它的定位就是相对于上一个呢,它是一个平衡的版本,那么它的功能是保持在极高的智商的,同时呢,响应呢,要比三十一 b 更快, 所以呢,它适合于这个频繁的互动啊,快速的迭代的创意的这种工作。那么第三个和第四个是一四币和一二币,这两个呢被称为侧端的,先分我们,我我认为的就是说它是一个轻量化的模型,它只有四十亿和二十亿的一个参数,所以呢, 呃,它的这个体积相对也比较小,但是呢,虽然说它的体积比较小,但是可以通过这个 single 的 强化处理一些日常的对话呀,这个日常的整理,呃,简单的,这样还是非常的流畅的, 我们可以看到这是专门四网页端的一个界面,其实我这两天用的,用下来,我觉得他的这个云端的和网页端的这个使用其实是非常的非常的好给我的体验。因为普通人说实话你的电脑可能 配置没有那么高,所以你装了最高的那个等级的那个模型,你使用起来你的电脑可能就会如果说你的性能不够的话,你的电脑就会起飞的。所以我建议啊,就是如果说你不是做一些特殊的一些任务的话, 我建议直接用网页版的是最靠谱的。那电脑端有 pc 和 mac 的, 它的一个好处我刚刚讲了,就是直接在本地运行,断网也可以使用,最大的一个好处就是它是保护隐私的,不用担心你的文件或者说是你的信息隐私会被泄露,因为断网也可以使用,我觉得啊,是 这么的一个最大最大的一个特点。那么另外就是它的手机端是苹果和安卓系统都可以用啊,因为手机的内存是有限的, 所以呢我的建议就说如果是你非要在手机上装这个,我建议就是用的轻量化的这个版本的,否则的话你的手机肯定会发烫,它运行起来 特别的耗费你的本地的这个手机的一个算力的。所以最最第三个就是云端的,我是最推荐的这个直接再往月端调,而且你可以直接用免费的算力,因为使用也是免费的,你往月半使用也是免,不像其他的一些大毛器,你用着用他就没法用了,他就你的这个免费的额度,用完了 不让不让你用了。但是 gm 四它是无限使用的,目前来说是免费使用的,所以的话呢,大家如果说是想用的话,尽快用起来,我觉得是非常好的一个大冒险。大家如果说有其他的问题,我们在留言区可以互动一下,有什么问题可以直接问我哈。

炸裂更新,谷歌刚刚把 g m 三的核心技术下放了!全新 g m 四开元模型家族今天二零二六四点三正式发布! 四个尺寸,一个比一个顶性能怪兽三 e b 的 小个子模型,竟然在竞技场排名中干翻了参数量大他十到二十倍的巨无霸对手,直接挤进开元前三,效率高到离谱! 手机养虾时代真来了!最小的 e to b 模型,专为手机树莓派设计,能原声处理语音视频,完全离线零延迟。 想象一下,手机不联网,直接用摄像头看麦克风,听 ai 当场跟你分析,比如帮你看看龙虾养的咋样。 协议大解放这次全面采用 app 叉二点零协议,翻译一下,全免费可商用,随便用,不纠结。社区喊了两年谷哥,这次真的听劝了,跨境费 ceo 都说是开元社区的分水岭。 核心能力拉满,高级推理加智能体,原声支持,能当本地代码助手。全系列读模态,能看图读视频听声音,支持一百四十家语言全方位无障碍。 长盛夏文最高二五六 k, 能一口吃下整个代码库。更酷的是,耶鲁大学团队已经用它做癌症研究,发现了新治疗路径,开元小模型正在真正推动科学进步。 总之,从云端到手机端,从研究到商用,谷歌这波操作格局打开了!你的下一台 ai 设备或许根本不需要网络数家 ai 开源,谷歌芝麻多模态 ai, 手机 ai 技术前沿。

你大概还在每月向 open 人工智能或 anthropic 付费,以访问一个谷歌刚刚免费提供的模型,而且我指的不是那种被阉割过的开源版本。光看纸面数据很美好,但一旦真用起来就散架了。 过去几天,我把 gemma 四拆的底朝天,每一种遍体,每一项精准测试,每一个技术细节,而我发现的结果真让我大吃一惊。 一个拥有三百一十亿参数的模型,在推理精准测试中与 gpt 减四 o 不 相上下。你现在就可以下载它, 无需 api 密钥,无需订阅,无任何附加条件。欢迎回到 bit biased i e。 我 们做研究,您只需享用成果, 加入我们的免费周更通讯,成为人工智能爱好者的社区一员。点击下方的描述链接进行订阅,你将获得关键的人工智能新闻工具和资源,以保持领先。所以在这期视频里,我会彻底拆解 jam 四到底是什么,为什么其背后的架构比单纯堆砌参数更聪明, 以及它如何在真实机准测试中与 g p t 减四 o、 拉玛三和 cloud 三一较高下,而非那些精心挑选的营销数据。而且最重要的是,这是否值得你真正关心,还是又一款听起来很厉害,但一跑起来就露馅儿的开源发布? 到本视频结束时,你将清楚 gemma 四在整个格局中的定位,以及它是否值得纳入你的工作流。让我们开始吧。先从谷歌实际发布的内容说起。什么是 gemma 四? google deepmind 于二零二六年四月二日发布了 gemma 四, 而且从一开始最重要的事情就不是精准测试或架构,而是许可证。 gemma 四采用 apache 二点零许可发布, 这意味着完全的商业使用微调以及再分发。无需板税,无需署名要求,细之末节里也没有奇怪条款。如果你关注过开源人工智能领域,就知道这有多罕见。 meta delama 仍有署名要求。 alibaba 的 queen 正在收紧限制, 而 google 基本上听取了社区反馈后说,拿去用吧,随你处置。 现在我们来聊聊它到底是什么。 jam 四不是一个单一模型,这是一个四口之家。在较小的端,你有一二 b 和一四 b, 它们分别代表有效二十亿和有效四十亿参数。这些是你的边缘模型, 专为手机树莓派互联网设备设计,也就是大多数人手头已有的那种硬件。 然后在工作站侧有一个两百六十亿参数的混合专家模型和一个三百一十亿参数的稠密模型。 这些是重量级选手,是在推理任务上与 gpt 减四 o 和 cloud 一 较高下的存在。但这里才真正有趣起来,每个遍体都原生支持文本和视觉。小型的 e 二 b 和 e 四 b 模型甚至能处理语音输入设备上的实际音频转文本处理, 而且他们都配备了上下文窗口,这在两年前简直像是科幻电影里的情节。边缘模型上拥有一二八零零零 tokens, 较大的版本拥有二五六零零零 tokens, 这足以在一次便利中处理整本小说或庞大的代码库。而且他们开箱即用,支持超过一百四十种语言。所以当谷歌说这是他们迄今为止最强大的开源模型家族时并非夸大其词,但能力宣称很容易做出。 让我带你看看这些数字背后的真实机制架构,为何它比你想象的更聪明。 这正是 gemma 四技术迷人的地方,老实说,这也是大多数人会略过的部分,而恰恰因为如此,你才不该跳过 google 在 此做出的架构决策,解释了为什么一个拥有三百一十亿参数的模型 能与规模是其十倍以上的模型竞争。让我们从二十六 b m o e。 变体开始,因为它最巧妙,每层设有一百二十八个乾坤专家,但针对任意给定令牌,实际激活的只有其中八个,加上一共享专家, 所以你有两百五十二亿总参数,但同一时刻,只有约三十八亿在发挥作用。 把它想象成拥有一座巨大的办公楼,但每次只有约三十八亿在发挥作用, 这样你就拥有了一个两百六十亿参数的知识库的计算成本却接近四十亿的规模。这就是谷歌实现所谓世界级推理能力的方法,而无需超级计算机来进行推断。至于长上下文二十五万 token, 这可不是随便往规格表上贴的一个大数字。 为了让这一切真正奏效,同时防止模型丢失二十万磁元前埋藏的信息, jam 四采用了一种混合注意力系统, 大多数层使用滑动窗口局部注意力,这很高效,但只能关注附近的令牌。此外,还有一些局标记散布其中,能够查看整个序列。 而且关键的是最后一层总是局的,这样在输出前就不会丢失任何信息。此外,他们使用了名为 p r o p e 的 部分旋转位置嵌入技术,其中只有百分之二十五的维度采用标准的位置编码, 其余部分保留了纯粹的语义信息。这使得模型即使在极端长的上下文中也能保持稳定和连贯。在视觉方面, google 构建了一个基于 v i t 的 编码器,利用自适应分块和二维位置编码来处理可变图像尺寸与长宽比,所以你并没有强制把所有图像都塞进固定的正方形里。 该模型能适配你输入的任何内容,无论是手机截图还是全景照片。爱智模型甚至内置了一个独立的三亿参数语音编码器,用于实时音频处理。这可不是又一个 transformer, 这是一个专为智能体多模态工作流而精心设计的系统, 而精准测试结果也印证了这一点。精准测试那些真正重要的数字。好的,我们来谈谈性能,因为这才是真正的重点。 如果可以提出各种架构主张,但如果精准测试结果不支持这些说法,那一切都毫无意义。数据怎么说?三十亿 b 参数的 jam 四模型在 arina 人工智能开源模型文本排行榜上得分一四五二, 这使其在所有开源模型中排名第三,仅次于拥有九百三十亿参数的 glm 五, 并与 q e n 三点五不相上下。二十六 b m o e 变体得分一二四一。考虑到每个 token 仅激活三十八亿参数,这一成绩也即位出色。 作为背景,许多旧有的七十 b 和八十 b 参数模型的得分都远低于这两个。在特定基准测试中,三十一 b 模型在 ami 二零二六数学问题上达到百分之八十九点二,在 livecodebench 编程任务上得分为百分之八十。这些数字相当惊人。 当 gpt 减四十在二零二四年中推出时,它在 mmlu 上取得了百分之八十八点七的成绩。因此, jam 四的三十一 b 版本在处理高难度推理任务时表现大致相当,只不过它是开源的, 你可以在自己的硬件上运行它,而且无需按 token 付费。视觉表现同样令人印象深刻。该多模态三十一 b 模型在 mue pro 上得分为七十六点九,在 math vision 上得分为八十五点六。 这些数据以显著优势超越大多数其他开源模型,并真正能与 anthropic 和 open 人工智能的部分专有产品相媲美。现在我要坦诚地告诉你,因为这个频道从不搞炒作。 edge 模型 e 二 b 和 e 四 b 他们针对延迟进行了优化,而非原始智能。在高级数学竞赛中,他们的得分率在百分之四十到百分之五十二之间。这对设备端任务如摘要翻译或简单问答来说没问题,但你别指望在书媒派上跑复杂的分布推理, 三十一 b 和二十六 b m o e 模型才是真本事所在。而当你在整个格局中进行横向对比时, metta 的 lama 三拥有四千零五十亿参数,在 m l u 上得分百分之八十八点六。 anthropic claude 三 opus 得分为百分之八十六点八, 而 gemma 四的表现绝对超出了它的重量级定位。一个规模约为 lama 三旗舰版十三分之一的模型正在缩小推理性能的差距, 这不是渐进式的进步,这标志着开源模型能交付的成果发生了根本性转变。 jam 四对比 gpt 减四 o 以及 jam 三对比 cloud 三。让我用直白的方式给你讲讲竞争格局,因为这才是大多数人真正想知道的。 我应该关注哪个模型?欧本人工智能的 gpt 减四点零是一个封闭的多模态模型,支持文本、图像和音频,拥有一百二十八 k 上下文窗口。 二零二四年五月推出时,他在各方面都达到了顶尖水平,但关键在于这一点,他于二零二六年二月退役。这就告诉你这个领域发展有多快。而在其活跃期间,您需支付每百万输入 token 约二点五十美元,每百万输出 token 约十美元的费用。 jam 四在推理能力上与其持平,将上下文窗口扩大至两百五十六 k 的 两倍,且授权费用为零。 madadala 三点一是最接近的开元竞争对手,拥有四零五十亿参数的变体,在 m m l u 上得分百分之八十八点六,在数学任务上得分为百分之七十三点八。 它很强大,支持一百二十八 k 上下文和工具调用,但体积庞大,你需要强大的基础设施才能运行它。 jam 四以极小的参数量提供与之相当的推理能力, 而且 luma 三原声不支持视觉和音频功能。 james 两者皆可。 anthropic quadrand opus 在 纯推理方面依然是最强的模型之一。 mmlu 上得分为百分之八十六点八, gsm 八 k 上得分为百分之九十五, 但它是闭源的,价格昂贵,且你对模型权重毫无控制权。你无法对其进行微调,你无法在自己的硬件上运行它,而且你完全依赖于 anthropic 的 基础设施和定价决策。 那么, g e m m a 四处于什么位置?它是能给你提供 g p t 减四 o 级别推理能力的模型。多模态能力、超大上下文以及完全的所有权全部打包在一个小到只需一张高端 gpu 就 能运行的包里。 如果你关心成本、隐私或定制化,目前这种组合确实难以超越局限性与安全。谷歌为着重强调之处,没有模型是完美的。如果我不清楚地说明局限性,那是在误导你。 首先, jama 四的训练数据截止至二零二五年一月,那之后发生的事它一概不知。如果你在询问过去一年的事件,请务必独立核实。 其次,幻觉问题依然存在。 jama 四像所有大型语言模型一样,包括 gpt 减四点零和 cloud。 偶尔会生成听起来很自信但完全错误的信息。 这不是 james 特有的问题,但值得重申,因为人们有时会误以为开源模型具有不同的失效模式。他们不会失败。模式是一样的, 你只需对缓解他们拥有更多控制权。第三种偏见,谷歌用海量互联网规模数据集训练了它。该数据集包含了人类偏见的全普系 性别、种族文化,应有尽有。 google 表示,他们在训练期间过滤了有害内容和私人数据。他们进行了训练后评估,但没有任何过滤流程能完全消除偏见。 如果您要在招聘医疗、教育或任何其他高风险领域部署 gemma 四,您必须建立自己的公平性检查流程和人工审核管道。 开源的好处在于,你不必被谷歌决定推出的那些护栏所束缚。您可以在更安全的数据集上微调模型,应用自定义的内容过滤器,或在其上层构建审核层。这种级别的控制是专有模型根本无法提供的。但控制也意味着责任, 实施这些保障措施的责任在你。 google 的 负责任生成式人工智能工具包提供了指南,但归根结底,开源人工智能将逻理决策权交给了部署他的开发者。 对某些人来说,这就是全部意义所在。对另一些人来说,这是个担忧应用场景,你能实际构建什么?让我带大家看看开发者们已经在用 jam 四做什么了,因为正是在这里,使用,价值才真正显现。 端测智能体可能是最令人兴奋的应用。借助 e 二 b 和 e 四 b 模型,您可以构建完全离线的多步骤人工智能辅助系统, 无需云端,无延迟数据,不出设备。 google 演示了智能体工作流程,其中模型接受用户问题,通过工具调用,查询维基百科处理结果,并提供摘药。所有操作均在本地运行。 想像一位现场技术员,他可以拍摄设备照片,让模型识别问题并调取文档,全程无需蜂窝网络。在编程领域,三十一币和二十六币 moe 模型是本地代码助手的有力竞争者,他们负责代码生成、调试、重构甚至完整的程序构建。 而且因为一切都在您的机器上运行,您无需将专有代码发送给第三方 api。 对 于任何有知识产权顾虑的公司来说,这意义重大。 内容创作是另一个天然气盒的场景视觉能力意味着你可以输入图像并获得结构化分析,从照片生成、产品描述、解读图标以及换灯片转摘要 支持一百四十多种语言,使其能立即用于翻译和本地化工作流 i 制模型的音频功能开启了实时转录和翻译,适用于现场录音或采访。教育与研究也迎来助力。长上下文窗口意味着你可以输入整张教科书、研究论文或代码仓库,并获得连贯的分析结果。 学生和研究人员可以使用 jama 四,而无需支付 api 费用。这消除了实验的最大障碍之一。如何实际运行它开始使用 jama 四非常简单, 权重现在即可在 hugging face 和 ko 上获取。如果你之前用过 transformers, 它开箱即用,只需讲管道指向模型名称即可开始。 对于无需编码的本地推理, omega 和 lm studio 等工具已经提供了 gemma 四镜像 下载运行即可在桌面端与该模型对话。如果您需要云部署, google cloud vertex 人工智能提供托管端点以支持 gemma 四。你还可以在 cloud run 上以无服务器模式运行。它搭配 nvi d i a r t x 六千 blackwell gp uim。 对 于高存土量的生产环境, v l l m 和 n v i d i hryten 都提供支持。 硬件需求取决于你运行的是哪个变体。 e 二 b 和 e 四 b edge 模型运行在智能手机 raspberry pi 五以及类似的低功耗硬件上。 google 展示了 e 二 b 在 pi 五 cpu 上达到了每秒一百三十三个预填充令牌。 三十一 b 和二十六 b m o e 模型在全精度下,理想情况下需要像 h 一 百或 a 一 百这样显存超过八十 gb 的 gpu, 但通过比特和字节的四减比特量化,你可以将它们压缩到配备二十四至四十八 gb 显存的消费级 gpu 上。 生态支持已经非常深厚。 hugging face transformers, v l l m llama, c p n v i d i nimo, mlx, keras, lm studio, aluma 他们都在第一天就支持 gem 四。你无需等待社区采用,它已经来了,这就是关键所在。 gem 四是谷歌迄今为止最有力的论据证明,开源人工智能不只是在追赶封闭前沿。 它来了。一个拥有三百一十亿参数的模型,其推理能力媲美 gpt 减四 oj 包含文本、视觉和语音的多模态能力。两百五十六 k 上下文 app 零许可协议, 从树莓派到 h 一 百全都能跑。如果你是开发者、研究人员或正在用人工智能构建任何东西的人,请下载它,测试它,看看它能为你的工作流带来什么。权重是免费的,唯一的问题是你要用它们构建什么? 如果这个解析对你有帮助,订阅已获取更多此类深度分析。我们只关注真正重要的人工智能发布,远离炒作。在评论区留言,告诉我你想用 jam 四测试什么?

四月三日, ai 全球演一分钟播报,微软、谷歌同日出招, ai 竞争进入新阶段。四月三日,美国两大科技巨头微软与谷歌几乎同步发布新一代 ai 模型。 微软推出梅莱 i transcript 一、 m a i voice 一 与 m a i image 二三款自研模型全面转向商用。谷歌则开源 g m s 系列, 主打端测运行手机等设备即可本地离线使用,扩展到商用、落地与生态构建的多维度交锋。国产 ai 芯片份额首抄英伟达 idc 报告显示,华为、升腾、韩五 g 等国产 ai 芯片在国内数据中心市场份额达百分之四十一,创历史新高,英伟达份额降至百分之五十五,国产替代加速中。

别盯着叉 g p t 看了, google deepmind 的 新王 jimmy 四正以图榜之势席卷全球,发布不到四十八小时,开发者圈子已经彻底疯狂了。简单来说, jimmy 四是 google 推出的最新一代开放权重模型家族。这意味着什么? 意味着它不再是深藏在云端的秘密。你可以把它下载到你自己的硬件上运行。它不仅仅是能聊天,它具备了超强的智能代理能力,能进行多步规划和深度逻辑推理。而且它在非英语任务上的表现简直惊人, 甚至在德语、阿拉伯语等测试中超越了强劲对手困三点五,甚至连创意写作,它的灵感都比以前的模型更胜一筹。 最酷的是,它非常轻量化,不需要超级计算机,无论是高端 gpu 还是 amd 的 ai 加速硬件,都能实现零日支持。 这意味着未来你的电脑也能拥有顶级的 ai 大 脑, ai 的 大门已经彻底敞开了。想知道怎么在自己的电脑上安装 jm 四吗?点个关注评论区告诉我,下期视频手把手教你!


gemma 四让企业 ai 部署零顾虑,手机端到服务器全打通!大家好,欢迎来到 ai 科普社,今天深度拆解谷歌 gemma 四开源大模型系列,从核心功能、模型规格、应用场景到硬件需求,帮你选对型号, 轻松上手。 gemma 四深度解析,从核心功能、应用场景、硬件需求三个维度建立完整认知框架。 gemma 四是谷歌二零二六年四月发布的开源大模型系列许可证的拍曲二点零, 企业可零顾虑,商用修改分发集成,谷歌战略转向效率优先,端云协调生态开放。了解了 gemma 四的定位,那它有哪些技术突破呢?接下来深入拆解它的四大核心突破, 三十一亿胜六百二十亿,全场景覆盖 app 二、零开源原生 agent 降门槛四大突破一、三十一亿参数,击败六百二十亿对手小二十倍更强,打破参数迷信。二、全场景覆盖, 从二 b 到三,一 b 覆盖手机到服务器所有硬件。三、 ipad 二点零开源,消除企业数据隐私和安全顾虑。四、 原生 agent 支持内置函数调用,降低开发门槛,核心竞争力,效率高,覆盖广、商用易,开发简。掌握了这些突破,你可能想问优势具体落地到哪些型号?下面详细看看。四款主力模型,一、二 b 边缘音频专家 支持离线语音识别翻译树莓派可跑量化后三点二千兆内存。一、四 b 移动于笔记本主力量化后五千兆内存, 十二千兆手机流畅。二、六 b mode 混合专家模型,用四 b 速度实现两百六十字节质量驱 r t x 三零九零四零九零二十四千兆显存。三、一 b d s 企业旗舰三百一十亿参数全激活,需 i 七零零或服务器集群选定了型号,你可能会好奇背后的核心技术是什么?接下来深入技术底层,混合注意力处理长文本内存降低百分之六十,训练速度提升两倍。原生 agents 内置智能体,工作流输出结构化 jason 调用外部工具,多模态视觉、可变分辨率音频离线识别翻译文本支持三十五加语言思考、模式展示、推理步骤决策透明,便于教学。技术最终要服务于应用。掌握了核心技术, jam 四,能解决哪些具体问题? 看看典型应用案例端测 ai 手机离线、语音助手、相册管理、文档处理、教育辅导、边缘计算、工业质检、安防监控、医疗影像分析、开发者工具 vs code 代码补全调试奥拉玛本地部署企业级 智能客服,年成本两千五百美元,准确率百分之九十一。文档问答五百页,三分钟分析看到这么多应用, 你可能想上手尝试,但先别急,需要了解硬件具体要求,下面这份硬件配置指南,帮你避免踩坑。量化技术,降低门槛,消费级显卡可跑 e r b。 树莓派五或八千兆手机 q 四下画线零约三点二千兆一四 b 八千兆笔记本或十二千兆手机 q 四下画线零约五千兆二六 b m o r t x 三零九零四千零九十 q 四 k m 约十六到十八千兆三 e b dance i 七零零 q 四 k m 约十七到二十千兆建议个人和中小团队从一四 b 或二六 b mode 量化版开始, r t x 三零六零四零六零即可。硬件准备就绪后,下一步是实际的部署和优化,不同的工具有不同的适用场景。 下面介绍三大主流部署方式。奥拉玛,新手友好一键启动拉玛 c p p 极致性能,树莓派可跑 vr l m 高吞吐, 适合企业 e p i 优化技巧,调整 u b i 参数匹配图像 token 分 层卸载平衡 g p u c p u 动态量化,按需切换精度批处理提升吞吐量。部署过程中可能会遇到技术难点,比如视觉处理功耗和数据安全等,不用担心, 下面整理常见问题及解决方案。一、视觉编码器图像 token 需一次性加载,设 u b 二零四八 r t x 四零九零可处理。二、工号散热芯片优化工号降百分之五十动态频率调节。三、数据安全 私有化部署,数据不出内网加密传输权限审计解决了眼前的问题,不妨把眼光放长远。詹玛 四代表了什么技术趋势?未来 ai 会向哪个方向发展?看看三大趋势,边缘 ai 普及,终端设备直接跑大模型, 离线应用更私密及时垂直定制,企业用自有数据微调打造行业专家模型,人机融合 ai 城外挂大脑 辅助决策整理知识激发创意,了解了未来趋势,最终要回到当下的选择,面对这么多型号和方案,如何根据自身需求做出最合适的选型?最后总结实用选型建议用户 e 四 b 量化版 手机平板体验开发者二六 bmo rtx 三零九零四零九零智能体开发中小企业二六 bmo, 性价比高自建服务器大企业 三 e b dance 四、有云部署专业训练原则,小规模验证逐步扩展,重视数据安全,敏感数据本地部署 gemma 四推动 ai 谱绘画。希望帮你用好这个工具。感谢观看,下期再见。

你知道吗? ai 圈刚刚发生了一件可能改变格局的大事。谷歌 deepmind 在 四月四日发布了 jama 四系列模型,其中三十一 b 版本首次将混合专家架构下放到开放原型模型,打破了 ai 能力被算力垄断的局面。这意味着更每个小企业能用各自能拥有自己的 ai 团队。这波技术红利你跟上了吗?