哈喽,朋友们,我们今天来看一下在六十四 gb 内存的 m 四 max studio 上面跑这个最近特别火的 jam 四三一 b 的 大语言模型是什么样的体验。相信大家最近已经被这个模型刷屏了,这个模型能力有多强,排行有多强我就不多说了,下面来试测一下吧。我用的是最新的奥拉玛版本,模型是通过奥拉玛的官方渠道下载到本地的 这个页面,下面有这个模型不同量化版本的评分,大家自己去看吧。下一步我们来换上我们的 java 四三 e b 的 模型来测试一下速度吧。然后我们来问他一个经典的问题,让他用 python 实现快速排序算法,然后这里我等了大概十三秒 他才开始思考,由于时间关系,我就用两倍速快进了,他思考也用了二十六秒的时间才开始给我回复,思考的过程我也快进了,然后这就是他真正回复的时候生成 token 的 速度,大家可以感受一下,本人觉得这个速度是可以接受的,大家觉得怎么样可以在评论区里面讨论,后面奥拉玛应该还有挺大的优化空间的, 后面我就快进了,系统显示的回复 token 生成速度大概是二十个 token 每秒。后来我测试了一下一个我很常问的问题,让他给我编一个故事, 我猜欧拉玛对这个问题缓存了,因为我只等了两三秒他就开始思考了,但是如我所料,他思考和回复生成 token 的 速度还是没有变,我这里超快的快进一下。最后我们可以看到生成 token 的 速度还是大概二十个 token 每秒。
粉丝447获赞3015


兄弟们,欧拉玛已经更新好了,杰玛斯的大模型也不朽完成了,一共四个模型,接下来挨个测试一下,所有的测试都是在这个电脑配置下完成的。第一个问题,介绍一下自己, 第二个问题,用李白的风格写一首 诗。 最后一个问题,经典的喜鹊问题 总结一下,四个模型都测了,最快的是一二 b, 最慢的是三十一 b, 四个模型第一次启动都有点慢,后续速度都还可以。 总的来说,回答质量最好的是三十一 b, 包括最后的一个洗车逻辑陷阱也自动识别出来了, 就是我这个配置运行起来实在是太慢太慢了,所以性价比最高的应该是这个二十六 b 模型。回答速度,回答质量都还可以,可以用在部署小龙虾,用来做个人的 a 键,挺好用的。后续再和千万三点五做个横向对比,记得点个关注。


一分钟让你搞清楚关于全球最强开源模型 jam 的 一切。最近谷歌开源了 jam 四,我将用四个问题 让你清晰了解关于 jam 的 一切。 jam 各版本的区别,我家的电脑能用吗?模型怎么部署安装?普通人用来干什么?先说他的四个版本,三一 b 直接冲上全球开源 ai 榜第三名,以前要机房才能跑的能力,现在你家里的高端游戏显卡就能搞定。 轻量版的一二 b 和一四 b 为手机、平板以及中低端电脑设备打造,性能虽不是最顶级,但是绝对好用够用。而二六 b 猫号称总参数两百六十亿,但实际每次思考只用其中三十八亿个,最相关的效果却能媲美两百六十亿, 能理解超长文章以及视频。简单说,无论你是用手机、笔记本还是高性能电脑, jam 四都能给你免费安全强大的顶级模型体验。再说你家里的设备是否能用上?一张图告诉你 jam 四个版本的最低要求。 对于多数人而言,家用的电脑设部署一二 b 一 四 b 完全够用,基本能满足百分之九十的使用场景。另外两个版本对内存要求较高,但是性能出众,属于好马配好鞍。 再说模型安装,整个过程大概十分钟左右。首先下载 lm studio, 然后打开 opencool 或者 id 工具,让它查找你本地配置,给你推荐安装哪个版本。之后在 lm studio 里下载,运行搜索推荐的模型名点下载,最后接入 opencool 或者 i d e l m studio, 提供 open ai 兼容 api, 在 open 框里把 api 地址改成, h t t p l o c a o s t colon twelve three four slash vivo 就 能用 jama 四驱动你的 ai agent 了。 网上攻略一大堆,这里就不展开了。最后说下所有人最关心的能用 jama 做什么?这里推荐三个场景,可以去试试。第一, 构建本地知识库,把工作和学习相关的文件丢给本地 jama, 让他帮你形成系统化的知识。构建个人知识库时进行向量缩影和 anitive, 解锁数据不出本地,安全合规。第二,给家人搭建一个 ai 助手,下载好模型,配个界面,电脑手机都可以直接对话,不花钱不泄露隐私。第三,内容创作 最大优点是无限额度,即便不如部分付费模型,但可以靠大量尝试提升优质内容的概率。千马寺会改写国内企业及政府客户的私部模型格局吗?欢迎在评论区发表你的观点。

很多人问我十六 g 显存为什么能跑 jam 四二十六 b, 现在我把我的设置教程发出来,我用的是 l m 塑镀,有上下纹,长度设为六十 k, gpu 卸载设为二十,剩下的三十层给 cpu 跑。另外 k 和 b 缓存一定要开启 q 八量化, 这么设置完显存占用基本在十二 g。 第一次设置的时候是十五 g, 但重启软件再加载就变成十二 g 了,显存还有四 g 剩余。咱们来看看速度。这里测试一个办公场景,发一张竖版流程图给 ai, 让它改成横版。注意看,这里全程无加速, 他直接给我生成了代码,没有任何废话,速度非常快。最后我用工具将代码解析成流程图,结果就是这样, 和原图对比一下,逻辑基本一致,确实非常厉害。

谷歌刚公布了基于二零二六年初实测的 demo 四本地部署指南。想在自己电脑上跑大模型,门槛其实比你想象的低得多。 只要你有一张六 g 显存的普通显卡,或者一台十六 g 内存的 mac, 就 能轻松上车。这个底线配置足够你流畅运行,量化后的一四 b 版本,它满打满算也就占四到六个 g 的 显存。那如果你手里的设备配置更高, 具体能跑多大的满血模型?接下来我们直接按硬件档位对号入座。我们先看大部分人用的六到十二 g 显存的中低端显卡,比如三千零六十到四千零七十这个档位,老老实实跑一四 b 版本最稳。很多人显存有个七八 g, 就 想硬去尝试大模型的量化版, 结果往往是一对话就报错卡死。因为你必须从这点显存里扣出一块空间,留给 ai 处理上下文。 如果你手里是十二 g 到十六 g 的 高端卡,比如三千零八十或者四千零八十,这就跨过了二十六 b 模型 a 四 b 量化版的最低门槛。显存容量算是过关了,但别高兴太早, 模型加载进去之后要随时盯着,每秒能吐几个词。简存刚够的情况下,推理速度有可能会让你等的很心焦。至于二十四 g 甚至更大简存的四千零九十或五千零九十,土豪玩家可以直接上三十一 b 的 满血大模型,它的基础占用在二十到二十四 g 左右。 但这里有个大坑,即便你显存再大,如果你一次性喂进去几万次的长温档,或者进行疯狂的多轮长对话,照样会把显存撑爆爆错退出。接着看苹果 mac 用户,十六 g 或者十八 g 统一内存的基础款,统统优先跑一次币。苹果不同带芯片的区别在这里,很明显, m 二和 m 三因为起步是十八 g, 它的实际推理效率会明显压过老款的 m 一。 如果你硬拿十六 g 的 m 一 去跑二十六 b 模型,电脑会被榨干,整个系统都会变卡。 预算充足的 mac 用户优势就完全体现出来了。三十二 g 内存以及能非常流畅的玩转二十六 b 量化版到了六十四 g 以上,这就成了目前最强的便携推理机。二十六 b 和三十一 b 随便跑。要是上了幺二八 g 的 m 三 ultra, 不但能跑顶级大模型,几个人同时发请求都不会排队卡顿。选好硬件后,有一个多数新手必踩的坑。模型页面标称的显存占用只是个起步价。当你开始聊天,历史记录越来越长,内部的 k v k 机制就会像无底洞一样治疗你的剩余显存。 系统本身还要占用一部分,官方给的都是刚加载完的静态数据,真跑起来,必须预留几笔额外的显存帐,最后破除一个对硬件的误解。 mate 的 内存确实动不动就能配到几十上百 g, 功耗也低的吓人。但是苹果的统一内存受限于物理带宽,它就像一个水库很大但出水管不够粗的系统,跑同一个模型,它的生成词汇速度通常还是比不过同容量的 pc 独立显卡的。

手机跑三十一 b, 大 模型还不用联网,谷歌凌晨放大招,一口气开源四款模型,从二 b 到三十一 b, 从树莓派到服务器全给小模型,内存只要一点五 gb, 手机离线直接跑 三十一 b, 登顶 orina 开源榜第三, ipad 二点零协议企业随便商用 mate 的 拉玛四还没捂热,谷歌直接掀桌子,你更看好哪家?评论区告诉我。

大家好,我是根谷 open cloud 的 追马四欧拉玛全新的本地模型体验来了。欧拉玛最新更新的版本是 v 二点零啊,已经支持追马四,搭配 open cloud, 响应更流畅,速度更快,回车记出结果,支持常文本做任务处理,本地 i i 体验相当的不错, 要想流畅的体验,快去试试升级吧。首先教大家如何去升级吧,当你用这个积马四的话,你首先的显卡应该是十六 gb 上的啊,最好能够到三十六 gb 啊,我的电脑是一个一百二十八 g 的 全存和内存一体化的,是吧, m 四 max 的 最强电脑,所以说我运行这个东西是, 呃,我运行这个金马四二十六币了,这个模型是没任何压力的啊,欧拉玛兔啊,一定要用这个命令啊,金买四二十六币啊,你回车 他默认的会把它下载到你这个,因为我是下完了是吧,当然如果你下载很慢的话呀,你应该去做的有两个操作,就是应该是这么做的,应该是做那个去开他代理啊,这个代理应该是这么做啊,就是去去这么做 开这个代理啊,或者是你去那个把这个镜像设置为那个,设置为一层摩摩搭论坛的那个代理啊, 就是把它带代理到国内啊,如果你能够魔法上网的话,就不需要开代理了,因为我这边的网速是比较快,大概是下载了接近接近两个小时,一个半小时啊,大概是五到六兆每秒,他是七 gb 的, 他会下载哪个目录呢?你可以看一下这个目录啊,欧拉玛这个目录,呃, 首先它的模型会下载到这里,下载你其实不用管了,你可以打开你的欧拉玛,现在欧拉玛其实它又升级了一个小版本啊,就是零点零点二 两百啊,零点二点,零点二点零点二啊,这是今天最新版本,大家建议大家升级最新的版本。那我这里下载了两个模型比较好用,一个是 gbt 的, 一个是 o s s 二十 b, 一个是这个积满四,最新的二十六 b。 那 我发现这两个模型都非常快啊,你下完了以后,你一定要用欧拉玛浪琴去启动欧拉玛 浪去,他去启动这个欧风 club, 启动完了以后我这已经是启动了,启动了以后你打开这个小小龙虾的页面来,我给他做一道数学题目吧。啊,这个他不知道他能不能识别啊,哎,你看非常快吧,秒开吧,是吧? 然后他这个地方其实有错误啊,就是我应该去截个图给,不知道能不能截图过去啊?就是你,哎,就是就是就是,求解,这个一元二次方程, 不知道他能不能识别。这个啊,他已经识别出来了啊,这个是啊,我不知道这个结果是不是对的。 x 平方减五, x 加六啊,应该是没,应该是没问题的,对吧?一个是二,一个是三,对吧?对,非常快,然后这个数学题其实更难一些,就是这个勾股定力的这个,一个这个这个 啊,你看看一下,他应该是应该是很快的,一秒、两秒,两秒就出来了,这个比之前是快很多,我记得考了应该是三月 二十八号那个版本嘛,大概是一周前的欧拉玛这个版本和 opencall 的 最新版本啊,它大概是这样一个难度的速写题,要要五到八秒钟,如果是过年的那会大概是要一分多钟,所以说现在是非常快啊,非常快啊,就是我感觉比那个 api 都要快,所以大家尽可能去试一试啊。用它进行养虾的话, 那比如说,比如说我是谁啊?对吧?他应该很快就能够找到十二月份,是吧?年龄怎么怎么样?我觉得非常快,这个建议大家赶紧去升级吧。

不久前,谷歌发布了 jam 四系列,它不仅是一款开源模型,更是一次关于如何把超级大脑装进手机的工程奇迹。今天我们一起来看一下它是如何用不到四 g b 的 显存,跑出大模型的效果。 这里我们做了一个测试,使用三台手机在本地离线跑 jam 四 e 二 b, 屏幕上呈现的是这三台手机的测试数据,下面给大家看一下实际运行的情况。第一个加油问题, 第二个 g two 铜龙问题, 第三个字母出现次数问题。 可以发现,关于对常识的判断仍然是小模型的短板。然后这三台手机中, iqoo 十五的运行速度最快。 simon 四一共四款,覆盖从手机到工作站的所有场景。 a dos base 最轻量手机和树莓派都能跑,自带语音识别,量化后只要四 g 显存。 a, 跨出白瓷笔记本甜品级, 速度和能力之间的平衡点。二十六 b, 混合专家架构,总参数二五 b, 但每次只激活三点八 b, 用小模型的成本干大模型的活。最后是三 e b 单词,旗舰级模型,全参数推理,开源模型排行第三,适合有好显卡的用户。这里要讲一个关键的概念,单词和猫的区别, 单词密集型。你看屏幕上这些格子,全不在闪,因为每次推理所有参数都参与计算,三十一币就是三百一十亿次,运算一个不少。它的优点是稳,缺点是慢,而且吃显存。 切换 m o e 模式,注意看大部分格子暗了,只有几个在亮,这就是混合专家的精髓,模型里有一百二十八个专家,每次只派八个上场,剩下的待命。 最后说说它的边界,左边是强项,文档识别,发票解析,代码补全,长文档,问答 agent, 自动化任务,这些它都能做,而且跑在本地,意味着你的数据永远不用上传到别人的服务器。 右边是它的短板,如果你问它能否替代跨腾或 gpt, 答案显然是不行的,那能否进行高质量写作?这里我的回答是勉强可以,至于大规模的代码重构,那以它的能力还差得很远。 说白了, jam 四是一个极其出色的本地工具型 ai, 你 把它当高效工具用,它不会让你失望。如果你把它当全能大脑用,那你就会很失望。 想试的话,这里有两种方式,手机用户可以直接去 google 的 a i h gallery 上下载使用,电脑用户更简单,欧拉玛一键运行。下面我们来看如何用欧拉玛本地部署 jamal 四 e 四 b 模型,并使用 clogot 调用它。在 clogot 直接提问它是什么模型, 它是由谷歌训练的大语言模型,欧拉玛在首次请求时加载模型,加载耗时三十八秒,显存系统分配总计实际首先确保电脑上已经下载过欧拉玛,只需执行一行命令,欧拉玛 round gemma 四冒号意思币,等待模型下载完成,总计约九点六 g 币。成功后在终端测试。问答, 它是一个大语言模型,名字是 gemma 四,由 google deepmind 的 开发,属于一个开放权重模型系列。复制这个模型 id, 克隆项目源码, 进入项目目录,运行安装命令,下载完依赖后进入引导界面,颜色模式随便选。第四个是我们做的国产模型适配选择第三项,本地欧莱玛模型, 然后粘贴刚刚复制的模型 id 回车。确认到这一步配置成功。我们问个问题测试一下,现在已经调用成功已经登录的用户,想要切换模型,输入 logo, 退出登录,然后运行帮人 devi, 即可重新配置。我们最新版的 cloud code 已开源,大家关注评论获取。 目前呢,该模型权重在 hackin、 face 和 kaido 上都能下载。以上便是我对 gmail 四的实测解读,如果你觉得有用,不妨点个关注,我们下期再见。

hello, 大家好,我是 ken, 今天早上刚刚打开手机,我就兴奋的睡不着了。 google 刚刚发布了伽马四,一个可以本地部署的大模型,我的第一个念头是省钱了, 如果把它接入 openclaw, 从此在本地生产 token, 那 是不是就可以不用再被云端 ipi 一 点一点计废了呢?然后我花了一整天的时间来验证这个想法,结论有点出乎意料。先听我说完, 我在本地部署的是二十六 b 混合专家模型,二十六 b 代表着他拥有二百六十亿的参数。 混合专家模型的意思是,他不会一次性把所有的参数都用上,而是根据你的指令调动一小部分的专家来进行回答。这样的好处是推理的成本更低,回答的速度也更快。 这个版本在二十六 g 内存的 m 五芯片 macbook 上刚好能跑。这里 jam 四的几个版本呢?我也简单的跟大家分享一下。最轻量的是 e 二 b, 一个二十亿参数的模型,它在市面上大部分的设备上都可以运行。 那么 e 四 b 呢,是一个四十亿模型,运行它呢至少需要有十六 gb 的 内存。蓝血版是三十一 b, 拥有三百一十亿的参数能力最强,但是目前我手头的设备呢,都没有办法运行。目测 如果说要跑三十一 b 的 模型的话,至少需要三十六 g 的 内存。以我这一个月以来把所有的大模型接入到 openclaw 的 体感来看呢,二十六 b 版本我再应用下来,我认为它称日常工作是完全没有问题的。 截止到这里,一切都让我很兴奋。在 macbook 本地上跑通以后,我迫不及待的把它接入了 openclaw。 和我之前用其他大模型接入的体验不同, jam 四在接入以后没有那个互相了解定义角色的初识化环节,不过正常对话是没有问题的。那么问题来了,他能做些什么?说实话,就是个聊天机器人, 连在桌面创建一个 word 文档都做不到,更别谈生产力了。如果只把它看作是一个聊天机器人的话,那么在欧莱玛中直接运行反而比嵌入到 open cloud 中要更快,所以呢,还不如不用。 然后我掏出了我二零一七年的 windows 老本,这台机器呢,有十六 g 内存,按照 ai 的 建议,分别部署了 e 二 b 和 e 四 b 两个版本的模型。单独跑模型的话, e 四 b 这个四十亿参数的版本呢,每个回答要等待时间在十秒以上。那么 e 二 b 这个二十亿参数的小轻量级版本呢?如果是处理简单问题,基本上可以做到秒问秒答。 但当我把他们接入到 openclaw 之后呢,连收到两个字都没有办法回复,不管哪个版本,通通卡死。所以结论很明确,内存不够的设备不要尝试把 jam 四接入到 openclaw, 硬件是硬门槛,绕不过去。 总结一下今天的折腾,二十六 g 内存的 macbook 可以 本地运行,二十六 b 混合专家模型接入 openclaw 也能正常对话,但完全没有超出聊天机器人的额外生产力。 十六 g 内存的 windows 老本呢,接入 openclaw 可以 说是失败的,那么如果在本地运行呢?一二 b 和一四 b 两个版本都可以作为聊天问答机器人来进行本地使用。 我的判断是,如果内存能够达到三十六 g 以上,能够完整的跑下来二十六 b 混合专家模型,那么也许真的可以变为生产力。但是限阶段大多数人的设备都没有达到这个门槛。 本地部署不是不值得探索,但是要先看看自己的硬件设备有没有达到那个门槛,再决定要不要去折腾,不然的话结果可能会很打消你的积极性。 我是 ken, 专注用 ai 做可持续相关工作流的自动化。如果你对 ai 工具和自然语言编程感兴趣,请关注我,我们下期见。

google 推出手机可用的本地大模型了?安装这个软件,根据自己需求和手机配置选择下载合适的模型,然后就可以不用联网在手机运行 ai 了。我的小米十 s 下载了一二 b 和一四 b 两个模型,对比测试下经典的洗车问题 可以看出对问题推理还是没法跟在线大模型比的,既能也有待完善,但毕竟是本地模型,相信不久用途会越来越多。

本地 agent 真的 开始成型了,现在有人直接把 opencloud 加 gm 四跑在 macbook air m 四上,而且是十六 gb 内存的普通机器, 速度还能到二十五 tock 每秒。这件事最猛的地方不是又多了一个 demo, 而是本地 agent 正在从折腾党玩具变成普通人也能跑的东西。不开云,不交订阅费,数据不出本机,隐私和成本一下都变了。 以前你觉得 agent 一定得上云,一定得中硬件,但现在 macbook air 这种清机器都开始接住了,本地 agent 时代可能真的要来了。我是硅谷赵博,关注我第一时间看懂硅谷最新动态。

谷歌最新开源的大模型 demo four 据说很强,在综合能力上甚至超越了二十倍规模的开源模型。 今天教大家如何快速部署在本地,以及分享一下在 mac mini 上的实际体验感受,具体感受什么样?大家看视频吧。首先打开欧拉玛官网,下载它的应用程序, 打开应用程序,我们看一下他目前支持的一些免费的开源模型,还没有 demo, 所以 我们需要去他的官网再去下载下载到本地。那么这里呢,有很多不同的型号 可以看一下,它有很多不同参数的型号,有满配的,还有一些轻量版的。那因为我这个是 mac mini m 四十六 g 版本,所以我们就选择它系统默认推荐的这个九点六 g 的 好,只需要复制这个指令,然后打开终端运行,它就会自动去下载 这里下载了。那么我们先测试一下, 测试一下他的回复速度,因为是第一次响应,所以速度会有点慢,然后我们打开活动监视器,看一下他占据内存的情况, 这个模型本身就有实际系统走内存差不多也跑满了,这里他已经有回应了,我继续再测试一条, 第二次响应速度要比第一次快很多, 我叫 jam 四,我是一个由谷歌 deepmind 开发的。 ok, 现在我们打开欧了吗?然后去加载一下,这里要重启一下这个程序,然后再看模型选择,里面 最下面就已经有了已经安装好的,现在我们把这个模型对接到本地的小龙虾,只需要复制这个指令,打开终端,在终端里面运行,它就自动会加载好, 这里有不同的模型选择,都是他支持的一些免费的大模型,我们选择 demo 让他去运行。 ok, 这里已经加载好了,测试一下他的响应速度。 这里我是放了八倍速了,说实话,因为实在是太慢了,他平均回复一个问题的速度差不多要两分钟, 非常非常慢。我本来想在这个小龙虾里面测试一下他的执行任务的能力,但是这个速度的话确实没有办法, 但是它有个好处啊,如果你有低血压的话,你就可以用它。我是动物城朱迪警官,你好吗?我过得还好,不错,谢谢。这里我甚至尝试开启快速模式, 但是实际的感受没什么变化,就还是那么慢, 所以只能放弃在这里面做测试了。那么我们还是回到欧乐玛,在这个软件里面测试一下这个模型本来的能力。这里给他放两张图,让他识别一下图先, 一个是标格,一个是周杰伦,看一下他能不能准确的识别。 这里我也是开了倍速的啊,但是这里的速度要比小龙虾里面快很多, 我给他给出的答案是,图二是陈坤,图一是一名中国艺人, 看来这个版本的模型识图能力还是有点差。接下来测试一道经典的陷阱题啊,这个对大模型来讲是一道陷阱题,很多大模型都倒在了这道题上面, 那么他给的建议是走路去,最后测试一下他的复杂推理能力, 这道题是我让 gbt 五点四给我出的一道推理题。 abc 三人中恰好有一人是骗子,永远说假话,另外两人永远说真话。他们各自说了一句话, a 说 b 是 骗子, b 说 c 是 骗子, c 说 a 和 b 至少有一个是骗子, 请问谁是骗子?给出答案,并且给出完整的推理过程。好,他给出的推理过程和答案我跟 gpt 五点四给的标准答案对比了一下,是一样的, 所以它的复杂推理能力还是可以的。 ok, 总结一下实际体验感受啊,你如果是 mac mini m 四十六 g 版本,虽然能运行,但是它会把你的内存拉满,就是你的电脑会一直处于满负荷的状态,而且响应速度也很慢,所以使用感受是很差的。 当然,如果你的电脑配置足够高的话,你是可以去尝试部署在本地的,因为它的响应速度肯定要比我这个要快很多。而且你还可以尝试去部署它的满配版,比如三十 e b 那 个版本, 能力应该是要比这个强不少。

先说个反直觉的,以前挑模型大家像挑冰箱,越大越好,双开门五百升能装一头牛。现在摘码四出来,感觉像有人默默递给你一个保温饭盒,看着不大,打开一看, 三菜一汤还带保温,关键刚好塞进你包里。三 e b 的 模型跑在你能买到的显卡上,效果跟那些参数巨兽掰手腕还不虚。这不是小布块 好,这是直接换了赛道。不比谁块头大,比谁脑子转得巧。边缘端那俩小鸽子才是真狠角色。 e 二 b 和 e 四 b 名字听着像手机型号,干的事儿可一点都不清亮。你想啊, 以前手机跑 ai, 要么卡成 ppt, 要么偷偷联网传数据,现在这俩小模型离线低,延迟还能听能看,你拍张菜单,他直接帮你算卡路里加翻译加推荐搭配,全程不用等云回复,这感觉像什么? 向你随身带了个懂行的朋友,而不是一个需要打电话问总部的客服隐私这事终于不用靠我们相信你来保证了,而是靠数据根本出不去来,兜底看原许可证,别只看表面啊 pi 七二点零,听着像法律条文,其实就一句话, 你拿去用,改了还能卖,我不收过路费。但有意思的是, google 这次不是施舍,是搭台。 hiking face 首日上线,奥拉玛拉玛 c p p 这些社区神器全支持,甚至你的游戏本都能 fine tune, 这像什么 像?有人不仅开了个免费厨房,还把菜谱、锅碗瓢盆甚至火控系统都给你配齐了。最后说一句,菜做好了,记得数名就行,但咱也泼点冷水。工具越自由,翻车越容易,模型微调歪了,输出带偏键,部署出 bug, 这时候责任算谁的?开言的爽往往伴随着没人都抵的引诱。说点你能直接用上的长上下文加多余元,丢给他一篇五十页的用户反馈报告,让他按情绪、地域、问题类型自动归类,还能顺手生成英文摘要。以前得写一堆脚本加掉 api, 现在一个 browns 搞定离线代码助手三、 e b 版本能在本地跑,你写运营自动化脚本时,让他帮你看逻辑,补函数,查 bug, 敏感数据不用出本地安心。 e 四 b 加音频加视觉。想象一下用户拍张英语笔记的照片与英文 这句话怎么读?模型直接识别文字加标注,发音加生成类似句型练习全程离线延迟几乎为零,这不就是你想要的故事加插图加句型学习流的自动化版本?

谷歌 jam 四二十六 b 对 决阿里千万三点五,二十七 b 参数相近,但架构完全不同,性能差距让人惊讶, 最大区别在架构, jam 四是某混合专家推理时只激活三点八 b 参数,十六 g 显存搞定,千万三点五是 dance 全量推理,二十七 b 全部激活,双卡四千零九十都不够。 综合知识和科学推理方面,千问三点五更强。 m m l u pro 百分之八十六点一 g p q a diamond 百分之八十五点五,两项都领先 jama 四约一个百分点。 编程能力, jama 四碾压 cold forces 算法竞赛 e l o 得分两千一百五十,千问三点五之有一千八百九十九,差了整整二百五十一分,相当于前百分之五对前百分之二十。 超长上下文,千问三点五完胜一百万 token 对 比 jama 四的二十五点六万,处理整个代码库和超长文档,千问三点五更合适。 多模态能力, jama 四独家优势,不仅支持图片,还支持视频和音频输入,千问三点五之有图片做多模态应用首选 jama 四。 结论来了,硬件有限,需要视频理解,做算法编程就选 jam 四,需要处理超长文档,复杂 agent 任务工具调用就选千问三点五。关注我,下期继续硬核横评。

hello, 大家好,我是 ken。 上条视频说到 gemma 四在接入到 openclaw 之后,只能充当一个聊天机器人,我不愿相信,也不甘心, 一个二百六十亿参数的模型,能力应该远远不止于此。于是我今天又坐下来折腾了一天,有好消息也有坏消息,听我慢慢说。 先说好消息,今天的第一个突破,在我给他安装了文件系统技能之后,赋予了他读写我本地文件的技能。果然,他可以根据我的指令在桌面生成一个 markdown 文件,算是一点小小的生产地了。 但当我让他在桌面上创建 word 或者是 ppt 文件的时候,还是一样会牢牢卡住。 好消息到此为止,但接下来我想到了一个新的思路,既然 openclaw 是 有记忆的,它可以学习并且积累技能, 那么如果我先接入到一个聪明的大模型,把我需要的技能都完整的走一遍,再切换回 gem 四大模型,看它能不能完美的复刻出来。 于是我切换成了 podocr 技能之后, 在桌面上放了一张带有简单文字的图片,然后让 codex 先做一遍演示,把图片上的文字准确地提取出来发送给我。 结果非常顺利, codex 不 但把桌面上的文字准确地提取了出来,还帮我顺带把技能也优化了一遍。 好现在切换回 jama 四,让他重复刚才的操作。我给他下了一样的指令, jama 四可以正确地调用 pad ocr 这个技能,也能够识别到桌面上的图片,但就是在提取文字这一步,他怎么样都做不到,会卡住。 我中途问他是否有停止工作,向我汇报进展,他都说正在提取文件中,但是无论我等待多久,十分钟,二十分钟,半个小时 都没有给我任何的反馈。我担心是不是他在运行的过程中,我的电脑内存不足,导致他没有办法生成,于是我把模型切换成了更轻量级的 e 四 b 版本,结果还是一样,会在提取文字的过程中牢牢的卡住。 这让我有点困惑,究竟是我的电脑内存不足,还是模型的能力不够?我更倾向于认为是模型的能力不够, 因为二十六 b 混合专家模型在实际工作的过程中呢,只会调动四 b, 也就是四十亿的参数。 这个被激活了四十亿参数的专家可能还没有学会怎么去运用 o c r 这项技能,但也不能完全排除是运行内存不足导致的。 现在还不能下定论,只有等四月十六号我的 max studio 到货以后,我让他跑三十一 b 满血版的大模型才能够有答案揭晓了, 到时候我会第一时间和大家分享我的测试结果。上一条视频的评论区有很多人问我,他的设备的内存是多少,什么版本 能够跑什么样的大模型?这里就 gemma 四的四个版本呢,我分享一个简单的小公式,供大家去进行自行计算。普通模型呢,就用你的内存或者显存储以四, 得到的数字就是你能运行的大模型版本。比如说,如果你的内存是十六 g 除以四等于四,那么也就是说你的电脑可以跑 e c b 这个版本。接入 open cloud 以后呢,可以做问答机器人,也可以生成 markdown 文件。 但是 jam 四的二十六 b 混合专家模型是略有不同的,因为就像我刚才所说,它在工作的时候呢,只会调动四 b 的 参数,所以呢,是比较特殊的,如果内存达到二十四 g, 就 可以运行二十六 b 混合专家模型。 还有一个简单的测试方法就是如果你电脑的内存是足够的,你可以把呃一二 b, 一 四 b 和二十六 b 三个版本的大模型都下载在本地,然后用欧拉玛去运行它们,看看你提出问题或者下指令之后,他们是否能够做到秒问秒答。 如果能够做到秒问秒答的话,那接入 openclaw 它是可以做问答机器人使用,没有问题的。但是如果在欧拉玛中只是作为聊天机器人,它的回答都是相对来说比较慢的话,那接入 openclaw 肯定是没有办法使用的。 在接入 openclock 以后呢,内存的消耗量会稍微大一点,所以大家在实际使用的时候,最好还是能够留一些余量的好。今天的折腾就分享到这里评论区,告诉我你们还想看什么,我们下期见。

昨天,谷歌发布了迄今为止最强大的 gemma 四本地大模型系列,让众多本地 l l m 爱好者欣喜若狂。 特别令人兴奋的是, gemma 四基于 gemini 三技术开发,根据公布的基准测试结果,其性能甚至超越了规模高达其二十倍的竞争对手。但抛开所有技术细节这些,我稍后会讲到。此次发布中最引人注目的它是 apache 二点零。 看起来谷歌终于听起了开元社区的呼声。如今, game 四已完全开放,允许商用的 app 二点零许可证发布了。 这意味着你可以用这个模型做几乎你想做的任何事情,完全自由,不受公司绑定,对您的数据和产品拥有绝对控制权。今天我要在我的笔记本上安装并测试这个模型,可能还会在台式机上试一下,看看它是否足够好,能作为我的主要本地模型使用。 但有个重要说明,我不是想用这个替代付费模型。我把詹姆斯视为对付费模型的补充,适用于不太复杂的任务,或我不希望数据离开本机的情形。嗨,我是 nick, 从事软件开发已超过二十年, 在这个频道,我分享自己在 it 领域的经验、见解与思考。所以,为了今天在我的电脑上运行 jm 四,我将使用 lm studio。 如果你还没用过这个工具,看看我频道上的视频,里面解释了这是什么,以及如何使用它。 好的,首先,我会尝试在我的 macbook 上安装这个模型,因为正如我所说,我希望它能随时可用。不幸的是,我的 macbook 只有二十四 gb 内存,所以我会在那里安装一个较小版本的模型,参数规模为两百六十亿或三百一十亿的更大变体,我将安装在台式机上。 该模型有多个量化版本可供选择,我就选最大的那个,毕竟大小差异不大,但输出质量应该更好。 模型下载期间,让我先回顾一下谷歌在公告中强调的几个关键特性。首先,这些模型在设计之初就考虑到了基于智能体的工作流,他们原声支持函数调用,并能生成干净的结构化 g s o n。 第二,所有版本都是多模态的, 他们能处理图像和视频,而较小的模型一二 b 和一四 b 甚至拥有原声音频支持,这意味着他们可以直接理解语音。 第三,这些模型配备上下文窗口,小版本为十二万八千个 token, 大 版本则为二十五万六千个 token, 这应能让他们胜任大型代码库的处理。不过这一点还有待我们测试验证。 最后,作为一个不错的额外福利,这些模型支持多种语言。好了,模型下载完成了,让我们把它加载到内存里,我们也快速检查一下参数。正如我所说,我下载了八位量化版本,架构当然是 gemma 四。最重要的是该模型支持工具和图像输入。 正如你所见,这个模型拥有七十五亿参数,但只有四十亿有效参数,这应该能带来更好的性能。上下文窗口已设置为最大值幺二八零零零头啃,这很棒。好的切换到聊天界面,让我们确认已加载并激活正确的模型。 顺便提一下, lm studio 在 这里显示了一些有趣的信息,比如模型加载后实际占用了多少内存?正如你所见,对我来说大约是十二 gb。 在 聊天底部,你还可以看到在使用模型时可用的工具。 好的模型已成功加载,我们来测试一下它到底行不行。为此,我会在新的聊天中发送一个简单的提示。首先,我会让它完成一项相当简单的任务,编辑一个 python 函数,按两个键对字典列表进行排序。 这是我用来测试每个模型的标准化提示词。这相当基础,所以任何模型都应该能搞定。但这里的目的是验证模型是否正常工作,并看看他在我的硬件上想拥有多快。 我会加快视频中回答生成的速度,因为生成完整答案可能需要一些时间。但最后我会分享总耗时,这样你就能估算他在你的机器上跑的多快。 所以模型耗时不到一分钟。精确来说是四十九秒,平均速度约为每秒三十一个 token, 启动响应的延迟约四点五秒。 老师说这是个相当不错的结果。提醒你一下,我是在配备二十四 gb 内存和 m 四 pro 芯片的 macbook 上运行这个。现在我们来测试一下詹姆士处理图像的效果,看看他是否能真正理解图中的内容。 我会上传一张图片到聊天中,然后让模型描述他看到了什么。这是照片。如你所见,我拍了一张书桌的照片,上面有四样东西,键盘、 kindle、 鼠标和一支笔。让我们看看 gemma 能认出其中多少个 好的模型已完成图像分析。正如你所见,它成功识别出了键盘和鼠标。它还识别出了 kindle, 甚至描述了表面和光照情况。然而它没注意到那只笔。但说实话,这没什么大不了的,重要的是它捕捉到了整体场景,并正确识别出了大部分主要物体。 好的,现在轮到测试更大的模型了。为此,我将使用我的台式机快速介绍一下。我将运行 jam 四两百六十亿参数版本的机器配置。 它配备 amd ryzen 七处理器,一百二十八 gb 内存以及带有十六 gb 显存的 gforce rtx 四零六零钛显卡。好了,模型已启动并运行。让我们给它在 macbook 上执行和小模型相同的任务。 编写一个 python 函数来对字典列表进行排序。这将帮助我对比 jam 四第二十六版在我的台式机上的性能。在此,我会加速生成过程,但稍后会分享总耗时。 在生成回复的同时,看看系统覆盖。右上角我运行的是 mv top, 我 用它来监控 gpu 使用情况。深黄色线条显示显存使用情况,浅蓝色线条显示 gpu 利用率。右下角我运行了 hto p 来监控 cpu 覆盖和内存使用情况。 这两个工具都是免费且开源的。由于完整的 jam 四模型无法完全放入我的显存,因此它严重依赖 cpu 和系统视频内存。但这并不是真正的问题,关键在于响应速度是否可接受。 好了,模型已完成响应生成耗时一分三秒,比小模型稍慢一些,每秒 token 数也显著更低。正如你所见,它大约是每秒十二个 token, 那 比小模型慢了将近三倍。但这并非公平的直面对比。 由于这些模型的能力差异很大,不过现在我对这台电脑上这个模型的预期有了清晰的了解。顺便提一句,这台台式机运行的是 linux 系统,我偶尔用它来做些项目,但我很少把它当做传统台式机用。它主要是一台高性能服务器。 由于它连接到了我的家庭网络,当我需要时,通常可以从任何其他电脑通过 s s h 访问它。我用来与一切交互的主机依然是我的 macbook, 而且好处是你并不需要太多设置就能让它跑起来。厅 l m studio 已经内置了一个可以通过网络访问的 api。 好的,现在让我们切回 macbook, 给模型布置一个更有挑战性的任务。如果你看过我之前测试千三点五和千 code next 的 视频,可能会记得,我准备了一个任务文件,让模型去可示化一个排序算法。 今天让我们给 jama 司同一个任务。在生成回复的过程中,我再给你们看看系统赋载。这和以前差不多, 几乎所有 cpu 核心都已满载,现存也达到极限。好的模型完成了。正如所要求的,它生成了一个可示化排序过程的 html 文件。让我们看看。乍一看,一切看起来都正确无误。我没看出什么明显问题, 现在我要在浏览器中打开它,看看最终效果。哦,这看起来相当不错,它甚至使用了自定义字体,让我试着运行一下。没错,一切正常,速度滑快,可实时更新。动画 不错,总体而言非常扎实。所以今天测试完 demo 四系列后,我可以肯定的说,这些模型真的很棒,我肯定会经常使用它们。 但再次强调,为了明确起见,我并非打算用这个来替代付费模型,我把 demo 四视为付费模型的补充,适用于简单任务或我不希望数据离开本期的情形是,好了,今天就到这里,如果你喜欢这个视频,别忘了点赞订阅,以免错过下一个,回头见。保证。