别再迷信百亿参数的大模型了,谷歌的 g m 四才是端侧 ai 最强的消耗模型。谷歌的 g m 四以不到五十 b 的 体积实现了四十 b 到一千 b 级别模型才有的评分,它是目前能在民用轻薄本上跑出最高逻辑参数比的模型。 它的架构是什么样的?谷歌的 g m 四它的总参数规模每次在推理的时候仅激活三点八 b, 通过极坐标压缩技术,使内存的效率提升了整整六倍。 o m l 昨天发布零点三点二版本,完全支持了谷歌的呃 take point 架构。那么我们基于本地的 o m l x 框架去驱动街班四一四 b 模型,在本地做了一个实测,接下来我们看一下它的实测数据。实测在我主力机二十四 g 内存的 l 上实测的结果在加载模型后仍有充裕的空间去处理复杂的推理任务。 在我主力机的实测数据上,针对纯文本的响应速度可以完全的达到直播级的流畅感,一二比能够达到每秒三十五点三三抖感,一四比能够达到每秒十九点五四抖感非常适合作为本地 a 政策的一个驱动引擎。
粉丝1634获赞1.0万

兄弟们,欧拉玛已经更新好了,杰玛斯的大模型也不朽完成了,一共四个模型,接下来挨个测试一下,所有的测试都是在这个电脑配置下完成的。第一个问题,介绍一下自己, 第二个问题,用李白的风格写一首 诗。 最后一个问题,经典的喜鹊问题 总结一下,四个模型都测了,最快的是一二 b, 最慢的是三十一 b, 四个模型第一次启动都有点慢,后续速度都还可以。 总的来说,回答质量最好的是三十一 b, 包括最后的一个洗车逻辑陷阱也自动识别出来了, 就是我这个配置运行起来实在是太慢太慢了,所以性价比最高的应该是这个二十六 b 模型。回答速度,回答质量都还可以,可以用在部署小龙虾,用来做个人的 a 键,挺好用的。后续再和千万三点五做个横向对比,记得点个关注。



谷歌刚公布了基于二零二六年初实测的 demo 四本地部署指南。想在自己电脑上跑大模型,门槛其实比你想象的低得多。 只要你有一张六 g 显存的普通显卡,或者一台十六 g 内存的 mac, 就 能轻松上车。这个底线配置足够你流畅运行,量化后的一四 b 版本,它满打满算也就占四到六个 g 的 显存。那如果你手里的设备配置更高, 具体能跑多大的满血模型?接下来我们直接按硬件档位对号入座。我们先看大部分人用的六到十二 g 显存的中低端显卡,比如三千零六十到四千零七十这个档位,老老实实跑一四 b 版本最稳。很多人显存有个七八 g, 就 想硬去尝试大模型的量化版, 结果往往是一对话就报错卡死。因为你必须从这点显存里扣出一块空间,留给 ai 处理上下文。 如果你手里是十二 g 到十六 g 的 高端卡,比如三千零八十或者四千零八十,这就跨过了二十六 b 模型 a 四 b 量化版的最低门槛。显存容量算是过关了,但别高兴太早, 模型加载进去之后要随时盯着,每秒能吐几个词。简存刚够的情况下,推理速度有可能会让你等的很心焦。至于二十四 g 甚至更大简存的四千零九十或五千零九十,土豪玩家可以直接上三十一 b 的 满血大模型,它的基础占用在二十到二十四 g 左右。 但这里有个大坑,即便你显存再大,如果你一次性喂进去几万次的长温档,或者进行疯狂的多轮长对话,照样会把显存撑爆爆错退出。接着看苹果 mac 用户,十六 g 或者十八 g 统一内存的基础款,统统优先跑一次币。苹果不同带芯片的区别在这里,很明显, m 二和 m 三因为起步是十八 g, 它的实际推理效率会明显压过老款的 m 一。 如果你硬拿十六 g 的 m 一 去跑二十六 b 模型,电脑会被榨干,整个系统都会变卡。 预算充足的 mac 用户优势就完全体现出来了。三十二 g 内存以及能非常流畅的玩转二十六 b 量化版到了六十四 g 以上,这就成了目前最强的便携推理机。二十六 b 和三十一 b 随便跑。要是上了幺二八 g 的 m 三 ultra, 不但能跑顶级大模型,几个人同时发请求都不会排队卡顿。选好硬件后,有一个多数新手必踩的坑。模型页面标称的显存占用只是个起步价。当你开始聊天,历史记录越来越长,内部的 k v k 机制就会像无底洞一样治疗你的剩余显存。 系统本身还要占用一部分,官方给的都是刚加载完的静态数据,真跑起来,必须预留几笔额外的显存帐,最后破除一个对硬件的误解。 mate 的 内存确实动不动就能配到几十上百 g, 功耗也低的吓人。但是苹果的统一内存受限于物理带宽,它就像一个水库很大但出水管不够粗的系统,跑同一个模型,它的生成词汇速度通常还是比不过同容量的 pc 独立显卡的。

一分钟让你搞清楚关于全球最强开源模型 jam 的 一切。最近谷歌开源了 jam 四,我将用四个问题 让你清晰了解关于 jam 的 一切。 jam 各版本的区别,我家的电脑能用吗?模型怎么部署安装?普通人用来干什么?先说他的四个版本,三一 b 直接冲上全球开源 ai 榜第三名,以前要机房才能跑的能力,现在你家里的高端游戏显卡就能搞定。 轻量版的一二 b 和一四 b 为手机、平板以及中低端电脑设备打造,性能虽不是最顶级,但是绝对好用够用。而二六 b 猫号称总参数两百六十亿,但实际每次思考只用其中三十八亿个,最相关的效果却能媲美两百六十亿, 能理解超长文章以及视频。简单说,无论你是用手机、笔记本还是高性能电脑, jam 四都能给你免费安全强大的顶级模型体验。再说你家里的设备是否能用上?一张图告诉你 jam 四个版本的最低要求。 对于多数人而言,家用的电脑设部署一二 b 一 四 b 完全够用,基本能满足百分之九十的使用场景。另外两个版本对内存要求较高,但是性能出众,属于好马配好鞍。 再说模型安装,整个过程大概十分钟左右。首先下载 lm studio, 然后打开 opencool 或者 id 工具,让它查找你本地配置,给你推荐安装哪个版本。之后在 lm studio 里下载,运行搜索推荐的模型名点下载,最后接入 opencool 或者 i d e l m studio, 提供 open ai 兼容 api, 在 open 框里把 api 地址改成, h t t p l o c a o s t colon twelve three four slash vivo 就 能用 jama 四驱动你的 ai agent 了。 网上攻略一大堆,这里就不展开了。最后说下所有人最关心的能用 jama 做什么?这里推荐三个场景,可以去试试。第一, 构建本地知识库,把工作和学习相关的文件丢给本地 jama, 让他帮你形成系统化的知识。构建个人知识库时进行向量缩影和 anitive, 解锁数据不出本地,安全合规。第二,给家人搭建一个 ai 助手,下载好模型,配个界面,电脑手机都可以直接对话,不花钱不泄露隐私。第三,内容创作 最大优点是无限额度,即便不如部分付费模型,但可以靠大量尝试提升优质内容的概率。千马寺会改写国内企业及政府客户的私部模型格局吗?欢迎在评论区发表你的观点。

兄弟们,你还以为本地跑多模态大模型是做梦?我直接告诉你, google demand jam 四已经来到本地,文本图像一把抓。 你想想,财务分析师每个月要处理几百张发票截图、合同扫描件,以前得 ocr 转文字在位模型,折腾半天准确率还拉跨。现在 jam 四本地一跑,直接把发票图片丢进去,他边看边算,自动提取金额、日期、税号,连盖章歪了都能识别。 软件研发负责人想让 ai 写代码,读架构图,看日制截图,以前得开三四个不同模型来回切。 jama 四一个模型搞定,给他一张系统架构图,他直接输出部署脚本,给他一张报错截图,他当场给出修复方案。 内容创作者做图,文案再配图两张皮。现在要先生成文案,再配图两张皮。现在要先生成文案,再配图两张皮。现在把素材串成一条完整内容流。 这代模型最核心的是全系支持思考模式推理能力拉满小模型专为笔记本优化一百二十八 k 上下文, cpu 都能跑中模型两百五十六 k 上下文,支持函数调用,直接当自主 agent 用,还有原声系统提示词支持你控场跟玩似的。 兄弟们,这不是又一个云端玩具,这是本地 ai 从能用到好用的质变,不联网、不传数据、不限次数,你凭什么还每个月给币源 a p i 交钱? jama 斯欧拉玛一键部署教程,本地多模态直接开干冲!

google jam 四来了,开放权重多模态能推理?今天给你讲透!先说结论, jam 四是 google 最新一代开放权重 ai 模型,四个版本,二 b 四 b 二六 b 三一 b, 最小的七个 g 跑在手机上,最大的二十 g 跑在服务器,但最炸的是中间这个二六 b。 二十六 b 用的是混合专家架构 moe, 总共两百五十二亿参数,但每次推理只激活三十八亿。 百分之十五什么意思?速度接近四 b 的 小模型,性能逼近三一 b 的 大模型,速度加性能,两个都要,这就是性价比之王。对比 jam 二三数学推理, a i m e 提升百分之三百二十九编程能力 code forces d l o 直接翻了十八倍长,上下文理解提升百分之三百九十二这不是挤牙膏,这是换了一辆车。 jam 二四还有个新能力 思考模式 system prompt 加一个 tiktok 模型,就会先内部推理再回答,加上全模态,支持文字图片音频视频一百四十多种语言,两百五十六 k 超长上下文, 最简单的上手方式,欧了吗?一行命令,欧了吗? run gemma 四直接跑,门槛低到离谱。 google 最新开放模型,双架构,四个尺寸,数学百分之八十九编成 elo 二一五零二十六 bmo, 性价比无敌。关注 gaker, 下期教你怎么让小龙虾使用这个模型。

手机都能跑大模型了?谷歌最近发布了 jam 四,一次放出四个模型,从手机到服务器全覆盖。 我甚至在谷歌 lrt 上发现了只有二点五 g 和三点六 g 的 量化版本,这也算是让大模型走进千家万户了。 我在自己十六 g m 四芯片的 macbook 上部署了 jam 四 e 四 b 的 两个量化版本,还顺手接了一下小龙虾。在看测试之前,我们先快速看一下这次 jam 四到底有多离谱。 先看这张图,横轴是模型参数大小,纵轴是模型打分。 jam 四三十亿币的分数和将近四千亿参数的千万三点五基本持平,但它只有三百一十亿的参数分数一样,参数量少了十倍,让步数成本极大的降低。 这还没完, jam 四还支持原声读模态,这意味着模型是真的在看图,在听声音,而不是通过编码器翻译之后再送给他模型。 关键这个模型还是真开源的,它的许可证书是阿帕奇二点零,这意味着你可以修改它,可以商用,甚至可以改完币源再卖钱。那接下来咱们就来看看量化版本的 jamma e 四 b 到底怎么样。这个 jamma 四 e 四 b lite r t 版本的模型 需要用到谷歌 lite r t l m 的 开源推理框架,它是谷歌专门用于在边缘设备,比如手机、笔记本上部署大模型的推理框架,它支持音频和视觉推理,不过它没有图形界面,所以我这里就临时手搓了一个页面用于测试。这看着可能有点丑,呃,稍微忍一忍 就好了。我们这先来给他一个经典问题,我想去洗车店洗车,我家距离洗车店三十米,我该开车去还是走路去? ok, 我 们直接发送给他。 很明显他这里关注错了重点,没有注意到前面的前提,一本正经的比较了开车和走路的优点缺点, 我们看一下他的模型速度怎么样。这次提问,他的首个 token 的 返回时间是一秒钟,相对来说还是比较快的。然后我们再来看他的输出速度,大概是十七个 token 每秒钟,这个速度来说就不是很快了,那整体的耗时呢?也是回到了四十五秒钟。 接下来我们开启一下推理模式,再问一遍这个问题。呃,很遗憾他还是没能答对。我们从他的思考过程中就可以看到,他一开始把目标就定错了,他没有真正识别出来问题的目的, 所以他就在错误的路上越推越远。我们再来测试一下图片识别的功能,这是我之前做的一个封面,让他分析一下这张图片,我们来看一下结果。他可以识别出这个图片的风格和构图,以及他设计的一些角色和文本以及图标, 说这里沙尘暴的背景以及角色的穿着和打扮,甚至他的神态都读到了。呃,只不过唯一的缺点是他没有把背后的这个龙虾形象和这个龙虾的文字联系在一起,他认为他是螃蟹。然后还有就是他把这个识别成了一个营销海报,而不是一个视频封面,而这也可能是我做的有问题, 我们再做一下视频测试,我这是从上期视频中截取的十五秒的一个片段,里面就是讲了大模型调用工具的过程,我们让他分析一下这个视频, 他这个模型的视频识别主要是把视频拆成图片序列和音频轨道来去理解视频,我们看到他已经返回了,结果这里他的总耗时确实有点 长,这一个十五秒的视频,他的总耗时大概是两百零七秒,他个首个头肯的输出时间大概是第三十四秒的时候才返回,那因为开启了推理过程,他的推理过程是没有被计算在输出速度里的,他已经到这个三头肯每秒的速度。 我们看一下他的结果,他的这个视频分析结果还是很可以的,他精准的读到了我这段视频的意思,他的整个流程是完全正确的,甚至他还进行了关键技术点的分析。我这条视频并没有明确说他是一个代理性的行为,但是大魔性还是识别到了他这个潜在的含义。 通过他的知识回答的这个,下面我们再测一下他的音频功能,这个模型支持的音频上线是三十秒,这里我截取了一段二十八秒的音频,让他提取音频内容,并且翻译成英文,我们来看一下,结果他很好的识别了原文,并且翻译成了英文。唯一有个小瑕疵, 这里的基本正确,我的原文应该是一本正经,然后它的总耗时时间相对来说也是有点久,大概耗费了一百三十二秒。这个模型的上下文窗口会比较小,它的上下文窗口是三十二 k。 做一些简单的问答应该还是可以的。 如果大家想简单部署本地模型,苹果 m 系列芯片的电脑可以用 o m l x 来傻瓜式部署模型,这个推理引擎专门为 mac 做了优化,用起来也很简单,在下面安装,这里点击发布, 然后到下面下载你系统对应的安装包就可以了。下载好后打开安装器,然后这么一拖就完事了。第一次打开会有这样一个界面,主要配置两个,一个是 port 端口号,如果要通过 opencloud 或者其他 agent 调用本地模型,都需要访问这个端口 号。下面的 apikey 就是 调用时的密钥,保存之后就会来到这个面板,我们点击上面的模型选项卡,选择下载器, 然后搜索杰玛四,那这里就可以很方便的下载模型,下载的时候可以选择 m l x community 前缀的模型去下载,根据你电脑的配置选择就可以了。在设置这里我们可以直接加载模 型,我们就可以在聊天选项卡里使用模型了,比如随便问他点什么,这样你就完成了模型的本地部署。 那如果我们想让 openclaw 使用 o m l x 部署的本地模型,可以在 openclaw 的 模型配置中加上这么一段。这里的端口号和 apikey 就是 你之前在 o m l x 里设置的,给 openclaw 发条信息试试。那我们在这里就可以看到我们的一个请求已经进来了, 像我这样一个你好,只是两个字,它就要加载四万多的 toc, 因为 open class 会在上下文中塞很多信息,比如核心 md 文件、 skill 你 的记忆以及其他的一些东西,这些都会占用 toc。 在我目前这个电脑上想通过本地部署使用小龙虾还是有点费劲的,一个是它的预装填速度比较慢,还有就是它的 token 稍微异常,这里就要报错了,如果大家有更好的设备,可以本地部署玩一玩,最后别忘了一键三连。

时隔一年之久,谷歌突然新业发布其最新开源模型 jam 四。 jam 四采用更加先进的原生多模态设计, 采用的是混合滑动窗口注意力机器助力一二八 k 向下为时能降低内存提升速度。 使用 logitech 软截断解决容易出现的幻觉问题。深度精流技术提升逻辑推理能力。开源了四个版本,一二 b、 一 四 b、 二六 b 和三 e b 分 别对应着不同的定位。 三 e b 球迷模型在全球开源模型排名第三,二六 b 排名第六,可以比肩一揍满血大模型,实力不容小觑。 jamah 四六大核心能力,高阶逻辑推理原星 ai 智能体工作流离线代码生成原星多模态细节与音频,超强向下文吞吐,最强二五六 k 海量多语言支持。目前已经可以通过欧拉玛下载这款谷歌最新的旗舰开源模型, 不过还需要等待客户端软件版本升级后才可以载入并运行,等我下载完不朽 jamah 四测试一下再给大家更新。

大家好,这两天杰纳斯啊,非常热,有人说他是一个开源模型的一个新王者啊,到底是不是呢?我们今天可以来测一下,刚好这两天有一个特别重重要的一个新闻,就是说,呃, 捷豹四呃跟卡布扣的,在这个奥拉玛这个角度上可以做一个无缝的集成,只需要两步操作,第一步就是你装奥拉玛,然后呢下捷豹四的最新的 efo, 比如说我的这个笔记本电脑,它是 rtx 四零六零的一个显卡,它有八 g 的 显存,我这个机器有十六 g 的 内存。 那么这时候呢,我们就可以下它一个 efo 的 一个模型,也就是捷豹四 efo 大 概九点六 g 下,下来以后呢, 然后用再装一个 cloud code, 你 可以用那个,比如说你去 windows 一下,你可以用它的 cloud shell 命令啊,一键安装,安装好以后,你你可以用这个奥拉玛的一个集成命令,把 cloud code 让他去用本地的杰纳斯 eiffelb 的 这个模型,那就这条命令, cloud cloud 杠杠 model。 杰纳斯,然后呢他会先去 下载这个模型啊,他发现我已经下载过了,所以马上就成功了,然后他马上呢去启动这个 cloud code, 然后让他去用这码四这个模型,然后他会问你几个问题,最后呢就是会让你信任这个当前的这个文件夹。好,我们现在已经到这了,我也是刚刚装好,我们来试一下, 请帮我写一个写一个 hello word 的 htm 页面,并在默认浏览器中打开。 好,我们看一下啊,它的这个怎么样?它现在用的就是我们的本地的杰纳斯 infob 的 这个模型小模型啊,然后我们看一下它的一个 gpu 的 一个利用率啊, gpu 一 现在有百分之九十六,那跑满了,你看到了是吧? gpu 一 的这个利用率跑满了,我们看看它到底怎么样啊,哈哈, 它现在这个要显示 token 哦,出来了,大概花了不到两分钟吧。三分钟啊, and i will use the batch。 对, 它是先计划啊,然后 yes, ok, 那 现在 open yes, 继续 ok, require pool yes, 哦,打开了,看到吗? hello, word this is the basic html page。 那 好,我们再让它做一个稍微难一点的,我说写一个最简单的贪吃蛇游戏,并在 切神浏览器中打开,我们看一下啊, 一起创建。 ok, 我 们这样好,打开了,就是贪吃蛇,我看一下啊,可以看能不能玩。 ok, 这个是最简单的,还没有碰到。这个还没有,还没有开始就结束啊,就是不是还没有开始就结束,这个人最简单,但是我们已经看出来这个杰马四啊,他的一些这个功能,我觉得就是他的这个编程的能力啊,我觉得还是可以的啊,因为我这个是小参数模型呃,你不能对他有太高的要求。 ok, 那 么我们今天用这个 cloud code 和 java 四 evo b 这个,呃,一块编代码的。这个游戏呢,我们就告一段落了,我觉得它还是有点用的啊,有些很简单的任务,我们是可以用本地模型的,这样的话也节省非常昂贵的云端 api talk 的 费用。好,谢谢大家。

二十六 b 只跑四 b 算理。谷歌新王炸 gmail 四的二十六 b 莓版本,用稀疏激活,实现了大模型的小成本。它内置一百二十八个专家,但处理每个 token 时,智能路由器只激活两个专家加一个共享专家,总共二六 b, 参数里 实际运算的只有约四笔。为什么能做到?第一,专科分工。这一百二十八个专家不是摆设,而是各专一门,有的专精代码,有的专精视觉,有的专精长文本,路由器经过训练,能一眼看出偷看该找谁,精准拍单。其他专家不用凑热闹了, 共享专家兜底,光靠两个专家怕漏信息。 gamas 设了一个全科医生共享专家,所有 token 必须过一遍,确保基础语义不丢。再找两个专科专家处理疑难杂症,既省算力又保质量。第三,强制均衡。 传统谋易容易,马太效应路由器偷懒,总找那几个好用的专家。 james 加了负债均衡机制,谁被用多了就惩罚路由器,确保一百二十八个专家都有活干,都练本事,没有闲人。第四,动态加载 二十六笔参数,不用全场注显存,需要谁裁掉谁。就像图书馆有一百万本书,但你查资料时只取两本相关专注,不用搬整座图书馆。 这意味着什么?推理速度快如四 b 模型,性能却接近二六 b 密集模型,知识容量全保留,计算成本砍到七分之一。 两百五十六 k 乘上下文,多模态理解 arina ai 榜单第六名的实力,单卡 rtx 四零九零就能跑。大模型的脑子,小模型的腿脚稀疏,激活精准省钱。

现在用奥乐玛可以本地跑 jam 四,谷歌开源免费大模型,它是谷歌在四月二号发布。 jam 四到底强在哪?先看第一张图, jam 四在开源阵营里性能很靠前,就是同样算力,预算下,它能给你更强的推理和代码表现。第二张图怎么选模型?清量设备先上 e two b 或 e 四 b, 速度快,资源占用低, 高配机器上二六 b 三一 b, 追求上线效果。接下来我们手动部署 jam 四,我将整理好的文档放在了飞书中。首先打开奥莱玛官网,点击右上角 download 它这里有 mac、 linux、 windows, 我 使用 mac, 所以 下载 macos, 这里拖着就能安装成功。奥莱玛这里,聊天框选择模型,这里还有 kimi 和 g l m 等 模型, mini max 和千万大模型这里我们直接寻找今天主角 jam 四,它有多个版本,每一个版本对应的电脑配置要求都不一样,这里我整理好了文档,我选择本地模型, 杰玛斯一二 b 选中了,他是不会立马安装本地模型,需要输入一个你好才能进行安装,他判断没有这个模型 会自动去安装。你不想这样安装,也可以打开终端输入这个指令,可以进行终端安装,两种方式,任选其一即可回车,就会主动的去下载杰玛斯,这里等待安装完成就能使用杰玛斯,安装完成了,他会回复你上一次的对话,我们来测试一下杰玛斯实际效果怎么样。准备了一个非常绕脑的问题, 就是去给车加油,到底是开车去还是走路去?距离两百米,从发送指令到响应还是很快,但是给出的答案很出乎意料,他选择了走路去,这里的话,我反问了一下他走路去怎么给车加油,然后再次思考回答问题,这里不知道是不是本地安装的版本问题,不能以此 回答成功,在我们进行第二次提问的时候才成功的脑筋急转弯的测试完了,我们来跑一下编码能力,这里我准备了两个文件夹,分别是 demo 四和 codex 的 使用, demo 四和 codex 进行测试,一样的提示词,这里我是用 cloud clear i 映设 demo 四模型进行开发,输入这个指令,它就会在 cloud clear i 中使用 demo 四模型, 这里指令是使用你的本地 jim 四模型,所以不需要考虑 token 问题。这里我准备了一样的提示词,都是开发一个俄罗斯方块,只需要回车就进行开发。 codex 那 边也是一样的提示词,但是那边使用的是 codex 五点三版本,这里我们直接看效果进行对比,这个是 jim 四开发的效果,整体来说没有 bug, 但是上下键的时候页 会滑动,会有一些细节。在 h 五也有这样的问题,这个是 codex 五点三开发效果,它不会页面滑动,但是不能全屏看完内容,两边的问题都是不能全屏看完,所以我们进行优化调整,一屏看完全部内容,两边的提示词都是一样的,不知道是不是我本地安装的问题,我的本地模型是一二笔版本的, 我们来看一下最终的效果体验,查看一下 h 五的效果进行开始游戏,这一次开始游戏页面不会进行滑动了,但是真的来说还是有一点细节。然后我们再来看一下 codex 版本的点击开始游戏效果这一边的话,看着是要舒服一点,体验感更棒。如果电脑配置要求比较高的话,可以试一下满血版的 g m 四,还可以在 cloud code, open code, open cloud 中进行使用,只需要输入这个指令就能在 cloud cloud 中使用,直接无缝衔 节在 collogix key 一 样的指令,只是把 cloud 变成 collogix, 这样就好了。接下来我们进行删除 gemma 四,输入 olamalist 指令,它会返回你本地模型名称,再输入这个指令就能删除 gemma 四模型。

想跑肩马仕到底需要多大显存?今天一次讲清楚四个版本,逐个对比, 先看四个版本的显存需求, e 二 b 最小 q 四量化只要二 g 手机都能跑 e 四 b 需要五 g, 普通笔记本就行。二十六 b m o e 版要十八 g 需要 r t x 四零九零 三十一 b 最大,二十 g 起步需要 rtx 五零九零或者多卡 量化很关键。以三十一 b 为例,全精度 bf 十六要六十二 g 显存, q 八量化,三十四 g q 四量化只要二十 g q 四比全金度省了百分之六十八的显存效果,几乎没差别,所以强烈建议用 q 四量化, 推荐配置 e 二 b 和 e 四 b 用 rtx 四零六零八 g 就 够,性价比最高。 二十六 b 用 rtx 四零九零二四 g 刚好。三十一 b 需要 rtx 五零九零三二 g 或者双四零九零。 如果预算有限,二十六 b m o e 版最划算,只有四 b 参数活跃,推理速度接近小模型。 总结, e 二 b 手机就能跑, e 四 b 笔记本,二十六 b 需要四零九零三十一 b 需要五零九零 q 四量化省百分之六十八,显存效果不打折, 根据你的显卡选版本就行,评论区告诉我你的显卡型号。

兄弟们, google 这次是真的放了个大招,今天早上发布了 gemma 四,而且一口气发了四个版本, e two b 是 小杯, e 四 b 是 中杯,二六 b 是 大杯,而三一 b 是 超大杯。 而且量化到四比特之后, e 二 b 只要三点二 g 内存就能跑,而 e 四 b 也就大概五 g b 的 样子,这意味着什么呢?这简直就是给咱们的龙虾做本地部署,量身定制的端侧大模型。 根据官方文档,二 b 和四 b 模型全部支持文字、图片和音频输入,在这个参数规模上,能把三种输入都做全的非常少见。 话不多说,我们来测试一下 e 四 b, 为了看看它到底有多不挑配置,我专门翻出来一台八 gb 内存的 m 一 mac mini 出来。没错, 咱们就用这台 mac 中的盖中盖本地跑跑这个 jam 四,看看极限在哪。咱们先下模型,阿里摩达这边 g g u f 的 各种量化版本已经同步好了,不过因为我们的八 g 内存还是老老实实上 q 三量化吧,直接点这个 q 三 km 版本下 载。另外啊,还要下载对应的 m m 会 r o j 这个文件, f 十六就可以,它是负责图片输入的,没有这个,你的大模型就没法读图。 趁着下载,咱们顺手把拉玛点 c p p 装好, mac 上就很方便,一行步入 install 搞定。 国行下好以后,我们直接用这行命令把拉玛 server 跑起来,并且它内置一个很好用的 web ui, 启动好了以后你直接去浏览器里打开就能用,特别方便。这个也是我一直觉得拉玛 c p p 比 alm studio 更舒服的地方,它非常清亮,但该有的东西都有, 你可以看到 java 四已经加载好了。那我们现在做个简单的测试,随便做道计算题吧。我们让它算一个一千八百七十二乘以八千三百七十一,这是我随便写的哈。 呃,兄弟们,这里不是静止画面啊,我们看到在跑了一秒钟,大概八个 token, 但是没有输出,怎么回事?我知道了,它在思考,展开这个 reasoning。 哇塞,这个,这不就是硬算吗?它先把八千三百七十一拆成八千三百七十一,再分别去乘一千八百七十二。 哈哈,算的居然比我小学三年级的时候还慢,突然还有点优越感,咱会列数式啊。顺带说一句,它这里用的是 laytech, 看起来就是在 reasoning 阶段判断这是道数学题,所以自动切到了适合计算的形式化表达。 是挺慢的,但感觉好像没算错,要不我们拿计算器算算看,待会看对不对。我去,现在系统响应太慢了,内存不够啊,所有的核心估计都百分之一百了。再试一次, 这次完全打不开,拿我手机算一下吧。好了,应该是幺五六七零五幺二,待会看 gemma 四能不能答对。不过我现在很担心,这模型跑起来就把 mac 资源吃干净了,还能跟我的龙虾装在同一台机器上玩吗? 话说去年很多大模型经常在九和十一哪个大上面翻车,不知道 google 这个。哇塞,牛啊这题。对了,这咱就不困了,能用, 下面我们整点花样,让这模型分别用汪曾祺和张爱玲的风格描写夏天傍晚下楼买冰棍,这个场景,不超过一百二十字。 这次输出 token 的 速度达到了十个每秒,比之前快了不少。好的,开始正式输出了,作文果然比数学简单啊,思考时间少了快一半, 带着一股子晚风里混着的泥土味。这个不太像啊,冰柜前的老贩子,头发蓬松,这句呢,会更接近汪先生的文风。汪宗祎这段输出完了,怎么说呢,形容词太多了,原作者不会这样写,气氛也烘托得有点过了。 好吧,我们再看张爱玲这段的腔调明显在演张爱玲,但还没演出那种冷和狠,我觉得稍微有点装,可能就是没那种漂亮的刻薄一下的味道吧。 其实我是有点苛刻了,这两段说真的并不差,至少这个模型是会写的。让我来写,那是真写不出来。身处现在这个 ai 的 时代,作为碳基生物的我们必须得承认,像这种小作文,盖中盖、 mac 上运行三比特量化版模型都比我们大多数人强太多了。 继续测试。开始之前先说一句, google 这个国外大厂做出来的模型,中文是真的能打,就我自己实际用下来他们家刚出不久的三点一 pro 在 中文文学这块几乎是断层的领先,所以接下来我们继续测试一下 jam 四的中文能力。这一次我们直接写小说, 大家已经看到了这个超复杂的写小说和剧本的 prompt, 我 就不多介绍了,题材是一个比较新颖的悬疑局,删除人生痕迹大女主框架,女主的职业非常特殊,业务能力极强,这种设定你们懂的,其实门槛很高,只要稍微拿捏不好,就容易显得假,容易出戏。 而整个故事最大的沟子在于那个男人摸不透他到底是被别人清理过了,还是他本身就是一个巨大的深渊。 所以我们期待的是 gemma 四能不能把这个设定给往深里写,人物的骨架能不能立得住,两个人之间那种有戏的拉扯感能不能展开 屏幕左面呢?有一些拉玛 c p p 的 日制,可以看到我们这个大的 prompt 有 一千五百多个 token。 pre filling 的 速度还是可以的,这台初代统一内存架构的 apple silicon 机器,高内存宽带带来的更低的数据搬运开销,在这种长 prompt 预处理里的优势还是挺明显的。 终于开始吐字了,我们来读一读啊,有硬伤。消毒水和咖啡因混合的味道,这里消毒水我不太懂。清理社交痕迹似乎用不到。这个 故事感倒是还行,读起来比较流畅。 微小热搜这词儿不行啊,也不是很符合原本的设定。 大家可以看到,现在吐字的速度还可以,达到了十一 token 每秒,跟我阅读速度差不多。这模型本地跑跑确实蛮好的,特别是长文本的输出,能更加用足。机器的上线。 这些描写呢,有点刻意,把我们设定超了一半 啊,这就没了,真就没了。一共用时两分二十六秒,输出了一千六百二十八个 token, 这比我想象的要短很多。我原来期待能写出一篇完整的悬疑小说, 我们现在复制一下,再放大看一下。 这模型其实就是把你给的设定比较顺的复述了一遍。女主出场了,查资料了,发现不对了,男人出现了,然后结束故事没有真的往下走,也没有长出新的东西, 你期待他去补?这个职业到底怎么运作?世界为什么会遗忘他?这个男人到底危险在哪?或者女主和他之间那种更微妙的张力?这些他都没展开 读下来,会觉得它在努力营造,但就能看出来是 ai 写的。所以中肯一点说,作为一个激活参数四 b 的 模型,它这个表现其实已经差不多到头部水平了,特别是在八 g 机型运行表现怎么都不能说差,只是它没有那种超出预期的发挥。 视频录到这里已经超时太多了,所以今天就先测到这。其实在我的主力 mac 上已经把 jama 四三十一币也下好了,本来还想顺手做个对比,但今天确实来不及。 还有就是在这台盖板 mac 上也装好了最新版的 open claw, 这部分也留到下次再看吧。那今天的视频就先到这里,如果你喜欢这期内容,别忘了一键三连,我们下期见!