粉丝110获赞5884

兄弟们,欧拉玛已经更新好了,杰玛斯的大模型也不朽完成了,一共四个模型,接下来挨个测试一下,所有的测试都是在这个电脑配置下完成的。第一个问题,介绍一下自己, 第二个问题,用李白的风格写一首 诗。 最后一个问题,经典的喜鹊问题 总结一下,四个模型都测了,最快的是一二 b, 最慢的是三十一 b, 四个模型第一次启动都有点慢,后续速度都还可以。 总的来说,回答质量最好的是三十一 b, 包括最后的一个洗车逻辑陷阱也自动识别出来了, 就是我这个配置运行起来实在是太慢太慢了,所以性价比最高的应该是这个二十六 b 模型。回答速度,回答质量都还可以,可以用在部署小龙虾,用来做个人的 a 键,挺好用的。后续再和千万三点五做个横向对比,记得点个关注。



哈喽,朋友们,我们今天来看一下在六十四 gb 内存的 m 四 max studio 上面跑这个最近特别火的 jam 四三一 b 的 大语言模型是什么样的体验。相信大家最近已经被这个模型刷屏了,这个模型能力有多强,排行有多强我就不多说了,下面来试测一下吧。我用的是最新的奥拉玛版本,模型是通过奥拉玛的官方渠道下载到本地的 这个页面,下面有这个模型不同量化版本的评分,大家自己去看吧。下一步我们来换上我们的 java 四三 e b 的 模型来测试一下速度吧。然后我们来问他一个经典的问题,让他用 python 实现快速排序算法,然后这里我等了大概十三秒 他才开始思考,由于时间关系,我就用两倍速快进了,他思考也用了二十六秒的时间才开始给我回复,思考的过程我也快进了,然后这就是他真正回复的时候生成 token 的 速度,大家可以感受一下,本人觉得这个速度是可以接受的,大家觉得怎么样可以在评论区里面讨论,后面奥拉玛应该还有挺大的优化空间的, 后面我就快进了,系统显示的回复 token 生成速度大概是二十个 token 每秒。后来我测试了一下一个我很常问的问题,让他给我编一个故事, 我猜欧拉玛对这个问题缓存了,因为我只等了两三秒他就开始思考了,但是如我所料,他思考和回复生成 token 的 速度还是没有变,我这里超快的快进一下。最后我们可以看到生成 token 的 速度还是大概二十个 token 每秒。

hello, 大家好,我是 ken, 今天早上刚刚打开手机,我就兴奋的睡不着了。 google 刚刚发布了伽马四,一个可以本地部署的大模型,我的第一个念头是省钱了, 如果把它接入 openclaw, 从此在本地生产 token, 那 是不是就可以不用再被云端 ipi 一 点一点计废了呢?然后我花了一整天的时间来验证这个想法,结论有点出乎意料。先听我说完, 我在本地部署的是二十六 b 混合专家模型,二十六 b 代表着他拥有二百六十亿的参数。 混合专家模型的意思是,他不会一次性把所有的参数都用上,而是根据你的指令调动一小部分的专家来进行回答。这样的好处是推理的成本更低,回答的速度也更快。 这个版本在二十六 g 内存的 m 五芯片 macbook 上刚好能跑。这里 jam 四的几个版本呢?我也简单的跟大家分享一下。最轻量的是 e 二 b, 一个二十亿参数的模型,它在市面上大部分的设备上都可以运行。 那么 e 四 b 呢,是一个四十亿模型,运行它呢至少需要有十六 gb 的 内存。蓝血版是三十一 b, 拥有三百一十亿的参数能力最强,但是目前我手头的设备呢,都没有办法运行。目测 如果说要跑三十一 b 的 模型的话,至少需要三十六 g 的 内存。以我这一个月以来把所有的大模型接入到 openclaw 的 体感来看呢,二十六 b 版本我再应用下来,我认为它称日常工作是完全没有问题的。 截止到这里,一切都让我很兴奋。在 macbook 本地上跑通以后,我迫不及待的把它接入了 openclaw。 和我之前用其他大模型接入的体验不同, jam 四在接入以后没有那个互相了解定义角色的初识化环节,不过正常对话是没有问题的。那么问题来了,他能做些什么?说实话,就是个聊天机器人, 连在桌面创建一个 word 文档都做不到,更别谈生产力了。如果只把它看作是一个聊天机器人的话,那么在欧莱玛中直接运行反而比嵌入到 open cloud 中要更快,所以呢,还不如不用。 然后我掏出了我二零一七年的 windows 老本,这台机器呢,有十六 g 内存,按照 ai 的 建议,分别部署了 e 二 b 和 e 四 b 两个版本的模型。单独跑模型的话, e 四 b 这个四十亿参数的版本呢,每个回答要等待时间在十秒以上。那么 e 二 b 这个二十亿参数的小轻量级版本呢?如果是处理简单问题,基本上可以做到秒问秒答。 但当我把他们接入到 openclaw 之后呢,连收到两个字都没有办法回复,不管哪个版本,通通卡死。所以结论很明确,内存不够的设备不要尝试把 jam 四接入到 openclaw, 硬件是硬门槛,绕不过去。 总结一下今天的折腾,二十六 g 内存的 macbook 可以 本地运行,二十六 b 混合专家模型接入 openclaw 也能正常对话,但完全没有超出聊天机器人的额外生产力。 十六 g 内存的 windows 老本呢,接入 openclaw 可以 说是失败的,那么如果在本地运行呢?一二 b 和一四 b 两个版本都可以作为聊天问答机器人来进行本地使用。 我的判断是,如果内存能够达到三十六 g 以上,能够完整的跑下来二十六 b 混合专家模型,那么也许真的可以变为生产力。但是限阶段大多数人的设备都没有达到这个门槛。 本地部署不是不值得探索,但是要先看看自己的硬件设备有没有达到那个门槛,再决定要不要去折腾,不然的话结果可能会很打消你的积极性。 我是 ken, 专注用 ai 做可持续相关工作流的自动化。如果你对 ai 工具和自然语言编程感兴趣,请关注我,我们下期见。

一分钟让你搞清楚关于全球最强开源模型 jam 的 一切。最近谷歌开源了 jam 四,我将用四个问题 让你清晰了解关于 jam 的 一切。 jam 各版本的区别,我家的电脑能用吗?模型怎么部署安装?普通人用来干什么?先说他的四个版本,三一 b 直接冲上全球开源 ai 榜第三名,以前要机房才能跑的能力,现在你家里的高端游戏显卡就能搞定。 轻量版的一二 b 和一四 b 为手机、平板以及中低端电脑设备打造,性能虽不是最顶级,但是绝对好用够用。而二六 b 猫号称总参数两百六十亿,但实际每次思考只用其中三十八亿个,最相关的效果却能媲美两百六十亿, 能理解超长文章以及视频。简单说,无论你是用手机、笔记本还是高性能电脑, jam 四都能给你免费安全强大的顶级模型体验。再说你家里的设备是否能用上?一张图告诉你 jam 四个版本的最低要求。 对于多数人而言,家用的电脑设部署一二 b 一 四 b 完全够用,基本能满足百分之九十的使用场景。另外两个版本对内存要求较高,但是性能出众,属于好马配好鞍。 再说模型安装,整个过程大概十分钟左右。首先下载 lm studio, 然后打开 opencool 或者 id 工具,让它查找你本地配置,给你推荐安装哪个版本。之后在 lm studio 里下载,运行搜索推荐的模型名点下载,最后接入 opencool 或者 i d e l m studio, 提供 open ai 兼容 api, 在 open 框里把 api 地址改成, h t t p l o c a o s t colon twelve three four slash vivo 就 能用 jama 四驱动你的 ai agent 了。 网上攻略一大堆,这里就不展开了。最后说下所有人最关心的能用 jama 做什么?这里推荐三个场景,可以去试试。第一, 构建本地知识库,把工作和学习相关的文件丢给本地 jama, 让他帮你形成系统化的知识。构建个人知识库时进行向量缩影和 anitive, 解锁数据不出本地,安全合规。第二,给家人搭建一个 ai 助手,下载好模型,配个界面,电脑手机都可以直接对话,不花钱不泄露隐私。第三,内容创作 最大优点是无限额度,即便不如部分付费模型,但可以靠大量尝试提升优质内容的概率。千马寺会改写国内企业及政府客户的私部模型格局吗?欢迎在评论区发表你的观点。

bingo, 家人们准备好实现 tiktok 自由了吗?相信大家这几天都听说了谷歌发布了最强的本地开源模型揭幕四,那么有人就要问了,这跟 tiktok 自由有啥关系呢?反正我的电脑又跑不动,那我来告诉你,这款模型它甚至可以在手机上入手,而且重点是它的三十二 b 版本,甚至 几乎堆平一千一百个模型,但它的大小才增加了三十分之一,这是什么概念?相当于你十年前的老电脑都能跑,因为这家伙才六个亿。那么话不多说,现在我就来教大家如何在电脑上部署这款谷歌最强开源本地模型,均码式实现偷啃自由 开始,首先第一步呢就是我们要打开我们的浏览器,在这里面我们需要先下载一个欧拉玛平台,因为我们的模型是需要有一个平台才能跑的,然后目前市面上主流的就是欧拉玛这个平台,然后我们点一下进入它的官网, 进入官网之后呢,可以看到右上角有一个黑色的按钮,登录的就是下载,我们直接点一下登录, 进入之后他会有三个选项给我们选择,也就是说你是哪个系统的版本,然后我这边是 windows 系统,所以我就直接选择 windows, 然后下面有两个安装的方式,分别是在 power show 里面安装,还有一个是直接在浏览器下载安装,这边为了我方便演示,我就直接选择 download 或 windows, 直接在浏览器里面下载, 点击之后可以看到这个浏览器已经在下载我们的欧拉玛了,然后这个时候我们就等待它下载完就可以了,但是我这边在演示教学之前已经下过这个文件了,所以我就再下一遍,我直接点开这个,然后我们双击它开始安装, 当我们双击运行这个 r 码之后,他会给我们两个选项,我们直接点这个 install 开始下载就可以了,然后我们静静等他下载完,下载完之后我们就可以进入到下一步选择模型。 放完之后,我们这一步来到模型市场上去选择我们的加码模型,模型在这个页面,在这个链接我们点进去, 点进来之后就可以看到这个是詹姆斯的下载地址,但是我们不要着急去下载,我们第一步要先看我们的电脑适合哪一种模型,那怎么去判断自己的电脑能带动哪个模型呢?我们需要用到就是查看自己的电脑显存, 因为每个人的电脑型号都不一样,所以这一步呢,我建议大家直接去问 ai 怎么查一下自己的显存, 然后我这个电脑是六千一百四十四,也就是六千一百四十四除以一千零二十四,我这个电脑就是六 g 的 显存,那么六 g 的 显存呢?我们来到这个模型市场,我们可以选这个 e 四 b 这个模型,因为再大的 模型我们这个电脑就吃不下了。当然如果你的电脑有三十二 g 以上的显存,我是比较推荐二十六 b 或者三十一 b 的 这个模型的。嗯,但是在三十二 g 以下的电脑我都是比较推荐,就是不要上那么大的模型,用一次 b 就 足够了。 然后我们进入这个页面之后,可以看到欧拉玛的官方是给了我们一条终端指令,然后我们复制下来,回到我们的终端, 然后滑到最下面,我们右键粘贴点回车,然后这时候就开始下载这个模型了,我们等待这个模型下载完之后,就可以进入到下一步测试模型。 ok, 那 这样这个终端界面出现是 size 的 标识的时候,就代表我们已经安装成功了。然后我们打开我们的 rama, 进入之后呢,我们滑到这个最底下,就可以看到这是我们刚下载的模型 e 四 b, 我 们点他, 点完之后,我们开始试着跟他对话一下,给他发一个你好吗?然后进入这个思考,基本上就可以确定文本对话是没有问题的了。好,他已经给了我们回答,然后我们现在开始做一下图像测试,给他一张图片,然后帮我看看这张图片有什么, 在左边是一个男的坐在车上,然后呢后面是海,看他会不会准确识别出这个回答, 他现在已经给了我们回答,他说这是一辆白色的大众,然后人物的描写和文字的标识 以及地点,沙滩,海水,山体,甚至天空的色彩以及光线都给我们描述出来了。 那看得出来他这个扎马四对于图形的形容还是非常的细致的,大部分我们能看得见的,看不见的他都能识别,而且也很准确。 ok, 相信大家是经过上面的教学步骤后,都已经成功安装好了扎马四模型。之后呢,大家不仅可以把这个欧拉玛接入你们的龙虾或各个支持本地模型的软件中,实现真正的 token 自由,而且这个模型是典型 通用模型,不仅仅可以做到语言聊天,还能做到识别图像,提取语音。最重要的是它是全本地运行的模型, 可以真正的做到离线用的,同时还不用担心任何的隐私泄露等安全问题,你可以放心的交给他处理你的一切文件,例如知识产权、医疗记录、诉讼材料、商业计划书等等,因为他只是属于你的本地模型,他不会泄露你的任何文件。 好的,那么咱们这期视频就到此结束,希望大家看到我的视频有所收获,咱们下期再见!拜拜!

大家好,我是根谷 open cloud 的 追马四欧拉玛全新的本地模型体验来了。欧拉玛最新更新的版本是 v 二点零啊,已经支持追马四,搭配 open cloud, 响应更流畅,速度更快,回车记出结果,支持常文本做任务处理,本地 i i 体验相当的不错, 要想流畅的体验,快去试试升级吧。首先教大家如何去升级吧,当你用这个积马四的话,你首先的显卡应该是十六 gb 上的啊,最好能够到三十六 gb 啊,我的电脑是一个一百二十八 g 的 全存和内存一体化的,是吧, m 四 max 的 最强电脑,所以说我运行这个东西是, 呃,我运行这个金马四二十六币了,这个模型是没任何压力的啊,欧拉玛兔啊,一定要用这个命令啊,金买四二十六币啊,你回车 他默认的会把它下载到你这个,因为我是下完了是吧,当然如果你下载很慢的话呀,你应该去做的有两个操作,就是应该是这么做的,应该是做那个去开他代理啊,这个代理应该是这么做啊,就是去去这么做 开这个代理啊,或者是你去那个把这个镜像设置为那个,设置为一层摩摩搭论坛的那个代理啊, 就是把它带代理到国内啊,如果你能够魔法上网的话,就不需要开代理了,因为我这边的网速是比较快,大概是下载了接近接近两个小时,一个半小时啊,大概是五到六兆每秒,他是七 gb 的, 他会下载哪个目录呢?你可以看一下这个目录啊,欧拉玛这个目录,呃, 首先它的模型会下载到这里,下载你其实不用管了,你可以打开你的欧拉玛,现在欧拉玛其实它又升级了一个小版本啊,就是零点零点二 两百啊,零点二点,零点二点零点二啊,这是今天最新版本,大家建议大家升级最新的版本。那我这里下载了两个模型比较好用,一个是 gbt 的, 一个是 o s s 二十 b, 一个是这个积满四,最新的二十六 b。 那 我发现这两个模型都非常快啊,你下完了以后,你一定要用欧拉玛浪琴去启动欧拉玛 浪去,他去启动这个欧风 club, 启动完了以后我这已经是启动了,启动了以后你打开这个小小龙虾的页面来,我给他做一道数学题目吧。啊,这个他不知道他能不能识别啊,哎,你看非常快吧,秒开吧,是吧? 然后他这个地方其实有错误啊,就是我应该去截个图给,不知道能不能截图过去啊?就是你,哎,就是就是就是,求解,这个一元二次方程, 不知道他能不能识别。这个啊,他已经识别出来了啊,这个是啊,我不知道这个结果是不是对的。 x 平方减五, x 加六啊,应该是没,应该是没问题的,对吧?一个是二,一个是三,对吧?对,非常快,然后这个数学题其实更难一些,就是这个勾股定力的这个,一个这个这个 啊,你看看一下,他应该是应该是很快的,一秒、两秒,两秒就出来了,这个比之前是快很多,我记得考了应该是三月 二十八号那个版本嘛,大概是一周前的欧拉玛这个版本和 opencall 的 最新版本啊,它大概是这样一个难度的速写题,要要五到八秒钟,如果是过年的那会大概是要一分多钟,所以说现在是非常快啊,非常快啊,就是我感觉比那个 api 都要快,所以大家尽可能去试一试啊。用它进行养虾的话, 那比如说,比如说我是谁啊?对吧?他应该很快就能够找到十二月份,是吧?年龄怎么怎么样?我觉得非常快,这个建议大家赶紧去升级吧。

谷歌刚公布了基于二零二六年初实测的 demo 四本地部署指南。想在自己电脑上跑大模型,门槛其实比你想象的低得多。 只要你有一张六 g 显存的普通显卡,或者一台十六 g 内存的 mac, 就 能轻松上车。这个底线配置足够你流畅运行,量化后的一四 b 版本,它满打满算也就占四到六个 g 的 显存。那如果你手里的设备配置更高, 具体能跑多大的满血模型?接下来我们直接按硬件档位对号入座。我们先看大部分人用的六到十二 g 显存的中低端显卡,比如三千零六十到四千零七十这个档位,老老实实跑一四 b 版本最稳。很多人显存有个七八 g, 就 想硬去尝试大模型的量化版, 结果往往是一对话就报错卡死。因为你必须从这点显存里扣出一块空间,留给 ai 处理上下文。 如果你手里是十二 g 到十六 g 的 高端卡,比如三千零八十或者四千零八十,这就跨过了二十六 b 模型 a 四 b 量化版的最低门槛。显存容量算是过关了,但别高兴太早, 模型加载进去之后要随时盯着,每秒能吐几个词。简存刚够的情况下,推理速度有可能会让你等的很心焦。至于二十四 g 甚至更大简存的四千零九十或五千零九十,土豪玩家可以直接上三十一 b 的 满血大模型,它的基础占用在二十到二十四 g 左右。 但这里有个大坑,即便你显存再大,如果你一次性喂进去几万次的长温档,或者进行疯狂的多轮长对话,照样会把显存撑爆爆错退出。接着看苹果 mac 用户,十六 g 或者十八 g 统一内存的基础款,统统优先跑一次币。苹果不同带芯片的区别在这里,很明显, m 二和 m 三因为起步是十八 g, 它的实际推理效率会明显压过老款的 m 一。 如果你硬拿十六 g 的 m 一 去跑二十六 b 模型,电脑会被榨干,整个系统都会变卡。 预算充足的 mac 用户优势就完全体现出来了。三十二 g 内存以及能非常流畅的玩转二十六 b 量化版到了六十四 g 以上,这就成了目前最强的便携推理机。二十六 b 和三十一 b 随便跑。要是上了幺二八 g 的 m 三 ultra, 不但能跑顶级大模型,几个人同时发请求都不会排队卡顿。选好硬件后,有一个多数新手必踩的坑。模型页面标称的显存占用只是个起步价。当你开始聊天,历史记录越来越长,内部的 k v k 机制就会像无底洞一样治疗你的剩余显存。 系统本身还要占用一部分,官方给的都是刚加载完的静态数据,真跑起来,必须预留几笔额外的显存帐,最后破除一个对硬件的误解。 mate 的 内存确实动不动就能配到几十上百 g, 功耗也低的吓人。但是苹果的统一内存受限于物理带宽,它就像一个水库很大但出水管不够粗的系统,跑同一个模型,它的生成词汇速度通常还是比不过同容量的 pc 独立显卡的。

谷歌最新开源的大模型 demo four 据说很强,在综合能力上甚至超越了二十倍规模的开源模型。 今天教大家如何快速部署在本地,以及分享一下在 mac mini 上的实际体验感受,具体感受什么样?大家看视频吧。首先打开欧拉玛官网,下载它的应用程序, 打开应用程序,我们看一下他目前支持的一些免费的开源模型,还没有 demo, 所以 我们需要去他的官网再去下载下载到本地。那么这里呢,有很多不同的型号 可以看一下,它有很多不同参数的型号,有满配的,还有一些轻量版的。那因为我这个是 mac mini m 四十六 g 版本,所以我们就选择它系统默认推荐的这个九点六 g 的 好,只需要复制这个指令,然后打开终端运行,它就会自动去下载 这里下载了。那么我们先测试一下, 测试一下他的回复速度,因为是第一次响应,所以速度会有点慢,然后我们打开活动监视器,看一下他占据内存的情况, 这个模型本身就有实际系统走内存差不多也跑满了,这里他已经有回应了,我继续再测试一条, 第二次响应速度要比第一次快很多, 我叫 jam 四,我是一个由谷歌 deepmind 开发的。 ok, 现在我们打开欧了吗?然后去加载一下,这里要重启一下这个程序,然后再看模型选择,里面 最下面就已经有了已经安装好的,现在我们把这个模型对接到本地的小龙虾,只需要复制这个指令,打开终端,在终端里面运行,它就自动会加载好, 这里有不同的模型选择,都是他支持的一些免费的大模型,我们选择 demo 让他去运行。 ok, 这里已经加载好了,测试一下他的响应速度。 这里我是放了八倍速了,说实话,因为实在是太慢了,他平均回复一个问题的速度差不多要两分钟, 非常非常慢。我本来想在这个小龙虾里面测试一下他的执行任务的能力,但是这个速度的话确实没有办法, 但是它有个好处啊,如果你有低血压的话,你就可以用它。我是动物城朱迪警官,你好吗?我过得还好,不错,谢谢。这里我甚至尝试开启快速模式, 但是实际的感受没什么变化,就还是那么慢, 所以只能放弃在这里面做测试了。那么我们还是回到欧乐玛,在这个软件里面测试一下这个模型本来的能力。这里给他放两张图,让他识别一下图先, 一个是标格,一个是周杰伦,看一下他能不能准确的识别。 这里我也是开了倍速的啊,但是这里的速度要比小龙虾里面快很多, 我给他给出的答案是,图二是陈坤,图一是一名中国艺人, 看来这个版本的模型识图能力还是有点差。接下来测试一道经典的陷阱题啊,这个对大模型来讲是一道陷阱题,很多大模型都倒在了这道题上面, 那么他给的建议是走路去,最后测试一下他的复杂推理能力, 这道题是我让 gbt 五点四给我出的一道推理题。 abc 三人中恰好有一人是骗子,永远说假话,另外两人永远说真话。他们各自说了一句话, a 说 b 是 骗子, b 说 c 是 骗子, c 说 a 和 b 至少有一个是骗子, 请问谁是骗子?给出答案,并且给出完整的推理过程。好,他给出的推理过程和答案我跟 gpt 五点四给的标准答案对比了一下,是一样的, 所以它的复杂推理能力还是可以的。 ok, 总结一下实际体验感受啊,你如果是 mac mini m 四十六 g 版本,虽然能运行,但是它会把你的内存拉满,就是你的电脑会一直处于满负荷的状态,而且响应速度也很慢,所以使用感受是很差的。 当然,如果你的电脑配置足够高的话,你是可以去尝试部署在本地的,因为它的响应速度肯定要比我这个要快很多。而且你还可以尝试去部署它的满配版,比如三十 e b 那 个版本, 能力应该是要比这个强不少。

三十二 g 内存的 mac 跑本地大模型,到底能不能实现偷啃自由?今天我用谷歌刚发布的干马四给大家实测一下。 干马四是谷歌的新上的开源大模型,主打高性能和本地部署,官方说他能在手机上跑,还能流畅运行,但是我始终想不出这个部署在手机上有什么应用场景,于是作为养虾人,每天都在焦虑偷啃的消耗,竟然手机上没有使用场景, 那么本地部署来养我的小龙虾是再合适不过。它的部署其实很简单, windows 用户直接用欧拉玛, mac 用户我推荐用 x m l x, 这是专门为 mac 深度优化的推理框架,相比欧拉玛性能更出色。 打开后进入 admin panel, 在 models 页面搜索 hugen face, 输入伽马四各种参数版就出来了。 我的设备是 m 三 max, 三十二 g 统一内存。今天的重点是两个问题,第一,三十二 g 内存能流畅的跑哪个参数?第二,本地部署的输出质量能不能满足日常要求?我已经把干马仕连入小龙虾工作流,先上硬菜 测试。三十一 b 是 比特量化版,现在是十四点十四分,我们记下时,但是结果比较尴尬,等了一分钟风扇狂转还没有出结果,所以结论是三十一 b 在 三十二 g 内存上是跑不动的, 如果电脑是六十四 g 以上应该就会很合适,那么我们就试一下二十六 b, 现在是十四点二十一分,不到一分钟结果就出来了,透口深深的速度稳定在每秒三十三个,这个速度对于我来说是完全够用, 快速少了一眼回答,质量还是不错的,于是继续追问,重复刚刚的问题,测试下上下文记忆能力。 又追问了模型对比和选择建议,主要考察三点,上下文连贯性并理解能力及问答准确性。 从结果来看,上下文记忆能力没问题,也没有胡编乱造。我们再换一个场景,让他帮我写公众号,推荐一个合适的模型。结论,测试下来,三十二 g 内存跑二十六 b, 响应速度是可以的, 输出效率挺高。当然,回答质量还需要深度测试,看能不能达到商用的标准,但是要彻底说满足,偷啃自由。现在下结论还是太早,因为在测试中发现一个致命的问题, 干马仕标称二百六十五 k 上下文,但我问了七个问题,就报上下文。一出这个问题很头疼,不解决的话基本没有保留历史对话记录,也只能不停的删内容或者开新对话,对于长期使用影响很大。 所以目前我在找解决方案,研究了几种可能的思路,看能不能突破限制,如果能搞定这个问题,本地部署才算真正可用。找到方案后第一时间通知给大家,今天的测试就到这,我是林浩,我们下期见!

昨天,谷歌发布了迄今为止最强大的 gemma 四本地大模型系列,让众多本地 l l m 爱好者欣喜若狂。 特别令人兴奋的是, gemma 四基于 gemini 三技术开发,根据公布的基准测试结果,其性能甚至超越了规模高达其二十倍的竞争对手。但抛开所有技术细节这些,我稍后会讲到。此次发布中最引人注目的它是 apache 二点零。 看起来谷歌终于听起了开元社区的呼声。如今, game 四已完全开放,允许商用的 app 二点零许可证发布了。 这意味着你可以用这个模型做几乎你想做的任何事情,完全自由,不受公司绑定,对您的数据和产品拥有绝对控制权。今天我要在我的笔记本上安装并测试这个模型,可能还会在台式机上试一下,看看它是否足够好,能作为我的主要本地模型使用。 但有个重要说明,我不是想用这个替代付费模型。我把詹姆斯视为对付费模型的补充,适用于不太复杂的任务,或我不希望数据离开本机的情形。嗨,我是 nick, 从事软件开发已超过二十年, 在这个频道,我分享自己在 it 领域的经验、见解与思考。所以,为了今天在我的电脑上运行 jm 四,我将使用 lm studio。 如果你还没用过这个工具,看看我频道上的视频,里面解释了这是什么,以及如何使用它。 好的,首先,我会尝试在我的 macbook 上安装这个模型,因为正如我所说,我希望它能随时可用。不幸的是,我的 macbook 只有二十四 gb 内存,所以我会在那里安装一个较小版本的模型,参数规模为两百六十亿或三百一十亿的更大变体,我将安装在台式机上。 该模型有多个量化版本可供选择,我就选最大的那个,毕竟大小差异不大,但输出质量应该更好。 模型下载期间,让我先回顾一下谷歌在公告中强调的几个关键特性。首先,这些模型在设计之初就考虑到了基于智能体的工作流,他们原声支持函数调用,并能生成干净的结构化 g s o n。 第二,所有版本都是多模态的, 他们能处理图像和视频,而较小的模型一二 b 和一四 b 甚至拥有原声音频支持,这意味着他们可以直接理解语音。 第三,这些模型配备上下文窗口,小版本为十二万八千个 token, 大 版本则为二十五万六千个 token, 这应能让他们胜任大型代码库的处理。不过这一点还有待我们测试验证。 最后,作为一个不错的额外福利,这些模型支持多种语言。好了,模型下载完成了,让我们把它加载到内存里,我们也快速检查一下参数。正如我所说,我下载了八位量化版本,架构当然是 gemma 四。最重要的是该模型支持工具和图像输入。 正如你所见,这个模型拥有七十五亿参数,但只有四十亿有效参数,这应该能带来更好的性能。上下文窗口已设置为最大值幺二八零零零头啃,这很棒。好的切换到聊天界面,让我们确认已加载并激活正确的模型。 顺便提一下, lm studio 在 这里显示了一些有趣的信息,比如模型加载后实际占用了多少内存?正如你所见,对我来说大约是十二 gb。 在 聊天底部,你还可以看到在使用模型时可用的工具。 好的模型已成功加载,我们来测试一下它到底行不行。为此,我会在新的聊天中发送一个简单的提示。首先,我会让它完成一项相当简单的任务,编辑一个 python 函数,按两个键对字典列表进行排序。 这是我用来测试每个模型的标准化提示词。这相当基础,所以任何模型都应该能搞定。但这里的目的是验证模型是否正常工作,并看看他在我的硬件上想拥有多快。 我会加快视频中回答生成的速度,因为生成完整答案可能需要一些时间。但最后我会分享总耗时,这样你就能估算他在你的机器上跑的多快。 所以模型耗时不到一分钟。精确来说是四十九秒,平均速度约为每秒三十一个 token, 启动响应的延迟约四点五秒。 老师说这是个相当不错的结果。提醒你一下,我是在配备二十四 gb 内存和 m 四 pro 芯片的 macbook 上运行这个。现在我们来测试一下詹姆士处理图像的效果,看看他是否能真正理解图中的内容。 我会上传一张图片到聊天中,然后让模型描述他看到了什么。这是照片。如你所见,我拍了一张书桌的照片,上面有四样东西,键盘、 kindle、 鼠标和一支笔。让我们看看 gemma 能认出其中多少个 好的模型已完成图像分析。正如你所见,它成功识别出了键盘和鼠标。它还识别出了 kindle, 甚至描述了表面和光照情况。然而它没注意到那只笔。但说实话,这没什么大不了的,重要的是它捕捉到了整体场景,并正确识别出了大部分主要物体。 好的,现在轮到测试更大的模型了。为此,我将使用我的台式机快速介绍一下。我将运行 jam 四两百六十亿参数版本的机器配置。 它配备 amd ryzen 七处理器,一百二十八 gb 内存以及带有十六 gb 显存的 gforce rtx 四零六零钛显卡。好了,模型已启动并运行。让我们给它在 macbook 上执行和小模型相同的任务。 编写一个 python 函数来对字典列表进行排序。这将帮助我对比 jam 四第二十六版在我的台式机上的性能。在此,我会加速生成过程,但稍后会分享总耗时。 在生成回复的同时,看看系统覆盖。右上角我运行的是 mv top, 我 用它来监控 gpu 使用情况。深黄色线条显示显存使用情况,浅蓝色线条显示 gpu 利用率。右下角我运行了 hto p 来监控 cpu 覆盖和内存使用情况。 这两个工具都是免费且开源的。由于完整的 jam 四模型无法完全放入我的显存,因此它严重依赖 cpu 和系统视频内存。但这并不是真正的问题,关键在于响应速度是否可接受。 好了,模型已完成响应生成耗时一分三秒,比小模型稍慢一些,每秒 token 数也显著更低。正如你所见,它大约是每秒十二个 token, 那 比小模型慢了将近三倍。但这并非公平的直面对比。 由于这些模型的能力差异很大,不过现在我对这台电脑上这个模型的预期有了清晰的了解。顺便提一句,这台台式机运行的是 linux 系统,我偶尔用它来做些项目,但我很少把它当做传统台式机用。它主要是一台高性能服务器。 由于它连接到了我的家庭网络,当我需要时,通常可以从任何其他电脑通过 s s h 访问它。我用来与一切交互的主机依然是我的 macbook, 而且好处是你并不需要太多设置就能让它跑起来。厅 l m studio 已经内置了一个可以通过网络访问的 api。 好的,现在让我们切回 macbook, 给模型布置一个更有挑战性的任务。如果你看过我之前测试千三点五和千 code next 的 视频,可能会记得,我准备了一个任务文件,让模型去可示化一个排序算法。 今天让我们给 jama 司同一个任务。在生成回复的过程中,我再给你们看看系统赋载。这和以前差不多, 几乎所有 cpu 核心都已满载,现存也达到极限。好的模型完成了。正如所要求的,它生成了一个可示化排序过程的 html 文件。让我们看看。乍一看,一切看起来都正确无误。我没看出什么明显问题, 现在我要在浏览器中打开它,看看最终效果。哦,这看起来相当不错,它甚至使用了自定义字体,让我试着运行一下。没错,一切正常,速度滑快,可实时更新。动画 不错,总体而言非常扎实。所以今天测试完 demo 四系列后,我可以肯定的说,这些模型真的很棒,我肯定会经常使用它们。 但再次强调,为了明确起见,我并非打算用这个来替代付费模型,我把 demo 四视为付费模型的补充,适用于简单任务或我不希望数据离开本期的情形是,好了,今天就到这里,如果你喜欢这个视频,别忘了点赞订阅,以免错过下一个,回头见。保证。

这个 g m 四挺火的嘛,我看了下,我看它采用了这个全新的架构优化,意味着它的这个性能可以和一些币源的模型拼一下了。 我自己啊也部署了一个玩,我部署的这个是二十六笔了,这个东西啊,是真的吃配置,我本来想把它接入到 openclaw 里, 替换掉了我现在用的这个 deepsafe resnar, 因为我现在用的这个模型啊,不是多模态了,我给它还接了一个千万来专门识别视觉信息用。我本来这次想用这个 jimmy 四直接替代这个 deepsafe 和千万 jimmy 还是本地部属,以后也不用花钱复淘看了。但是这个二十六 b 这个版本 太吃配置了,我把它接到 open klo 里,每次一运行啊,要么就是过十分钟才能给我回复消息,要么就显存直接爆了,根本啊,什么都干不了。我的电脑是五零七零 type 的, 要本地玩大模型还是差了一些,我感觉最少这个得五零八零才能勉强接到龙虾里用, 要是想体验到丝滑一些的话,估计得五零九零。所以啊,我就把它对我来说啊,就是一个本地可以聊天的机器人,没有什么用。 嗯,不过这次这个杰玛斯的这个亮点是他的这个二 b 和四 b 版的,因为他呢,在一些配置比较低的电脑还有手机上,他可以本地部署。不过我感觉目前这两个版本本地部署下来对大部分人来说也没什么用, 最多就当个聊天机器人,感兴趣的朋友可以去尝试一下用。自己部署很简单,你去奥拉玛网站下载个这个奥拉玛,然后你把奥拉玛打开,然后再在你的终端就是那个黑窗口输入一段代码,就能部署好了,这代码你们可以随便弄个 ai, 很 简单的。好了,今天就录到这了。

先说个反直觉的,以前挑模型大家像挑冰箱,越大越好,双开门五百升能装一头牛。现在摘码四出来,感觉像有人默默递给你一个保温饭盒,看着不大,打开一看, 三菜一汤还带保温,关键刚好塞进你包里。三 e b 的 模型跑在你能买到的显卡上,效果跟那些参数巨兽掰手腕还不虚。这不是小布块 好,这是直接换了赛道。不比谁块头大,比谁脑子转得巧。边缘端那俩小鸽子才是真狠角色。 e 二 b 和 e 四 b 名字听着像手机型号,干的事儿可一点都不清亮。你想啊, 以前手机跑 ai, 要么卡成 ppt, 要么偷偷联网传数据,现在这俩小模型离线低,延迟还能听能看,你拍张菜单,他直接帮你算卡路里加翻译加推荐搭配,全程不用等云回复,这感觉像什么? 向你随身带了个懂行的朋友,而不是一个需要打电话问总部的客服隐私这事终于不用靠我们相信你来保证了,而是靠数据根本出不去来,兜底看原许可证,别只看表面啊 pi 七二点零,听着像法律条文,其实就一句话, 你拿去用,改了还能卖,我不收过路费。但有意思的是, google 这次不是施舍,是搭台。 hiking face 首日上线,奥拉玛拉玛 c p p 这些社区神器全支持,甚至你的游戏本都能 fine tune, 这像什么 像?有人不仅开了个免费厨房,还把菜谱、锅碗瓢盆甚至火控系统都给你配齐了。最后说一句,菜做好了,记得数名就行,但咱也泼点冷水。工具越自由,翻车越容易,模型微调歪了,输出带偏键,部署出 bug, 这时候责任算谁的?开言的爽往往伴随着没人都抵的引诱。说点你能直接用上的长上下文加多余元,丢给他一篇五十页的用户反馈报告,让他按情绪、地域、问题类型自动归类,还能顺手生成英文摘要。以前得写一堆脚本加掉 api, 现在一个 browns 搞定离线代码助手三、 e b 版本能在本地跑,你写运营自动化脚本时,让他帮你看逻辑,补函数,查 bug, 敏感数据不用出本地安心。 e 四 b 加音频加视觉。想象一下用户拍张英语笔记的照片与英文 这句话怎么读?模型直接识别文字加标注,发音加生成类似句型练习全程离线延迟几乎为零,这不就是你想要的故事加插图加句型学习流的自动化版本?

谷歌终于坐不住了,正式卷开源市场, jm 四的效果到底如何呢? jm 四的发布啊,真的有可能让我们实现头很自由。这期视频呢,老张给大家简要介绍一下 jm 四怎么安装到本地,以及如何搭配到我们的 open klo 大 龙虾上, 附带所有的安装步骤啊,大家可以一起来体验一下。后续呢,老张也会根据测评效果给大家接着发视频,这期是我们完整的部署流程,老张重点给大家简单聊一下,就是为什么 jm 四的发布啊,会让大家感觉谷歌真的开始卷起来了呢? 首先第一点,他和目前谷歌的 jimmy 三用的是相同的技术基座啊,所以说他的能力是毋庸置疑的。第二点就是商业自由,你直接部署下来做什么都是可以的,都是允许的。然后第三个就是支持多模态,无论是文本、图像甚至小规模的视频音频, 他都可以直接支持。第四点就是结合前段时间爆火的 open klo, 他 可以直接在本地对接 open klo 以及对接 klo 的 code, 实现本地的偷根无线化。这是老张给大家总结的四点,为什么詹姆斯的发布会让大家感觉,哎,可能真的要进入到一个新的纪元, 然后呢,他所发布的这四款模型呢?老张给大家做了一张图片啊,大家可以到时候把它截下来。第一个模型一二 b 的, 他本身是用于手机或者边缘设备八 g 显存, 然后最高端的三十一 b, 他 所对应的旗舰版本呢,是对应的是二十四 g 加,所以大家根据你的需求来进行对应的模型选择。老张这次视频呢给大家来看一下三十一 b 的 这款模型的安装, 然后关于本地的安装部署啊,其实非常简单,任何开源模型,其实我们只需要让他和欧拉玛就是那个小羊驼结合到一起就可以了,然后找到你符合要求的版本。安装成功之后啊,欧拉玛现在已经有了一个完整的应用端了,所以大家可以直接在这个位置和他进行对话交流。 那我们想要下载 jm 四到你本地的电脑上,我们可以使用它的官方指令,会告诉我们直接怎么样去进行 jm 四的对应安装,像老张想安这个三十一 b 的 对吧?我们就把它拿过来, 把它直接这有一个 c l i 命令行安装方式,把这个东西直接复制在你的开始菜单中,单机右键选择运行输入 cmd, 直接把刚才指令粘贴过来,这儿的时间会很长,因为它有二十个 g 的 大小,我们直接稍作等待 安装成功之后,我们也可以直接回到它的客户端中,在模型选项上找到我们安装好的詹姆斯冒号三十一币, 然后可以直接进行对话。老张他处理一个较为复杂的提示词,我们让他看一下当前显存的内存消耗, 咱们拿这个 ai 慢距的提示词来测试啊,这个提示词非常的长,我们看一下他读取提示词的能力,以及他的这个显卡的性能消耗,我们看一下啊,这个显存直接拉满的,达到了百分之九十四的占比, 而且这个响应速度还是非常快的,只需十一点七秒啊,就把整体的业务流程给我们直接补齐了,而且呢按照需求给我们进行了对应的提问,要什么样的慢距效果,所以说以目前的测试反应来看呢,他的这个响应速度起码要比之前的很多大模型要好的多, 所以接下来我们自己来尝试一下对话类的工具,可能大家都不是很需要的,我们能不能把它接入到我们的 open clone, 丢到我们的龙虾里,让它们俩来进行联动的。然后这期视频呢,老张顺便给大家提一下,就是最新版的 open clone 的 部署流程 啊,咱们可以快速的去过一下一些重点的细节,因为之前老张发过很多期的部署视频一块的呢,因为它本身啊, wsl 它是相当于在 windows 系统上安装一个 linux 的 独立系统, 这样的话呢,就直接相当于在你电脑上安装了一个独立的存储空间,它所谓叫做沙盒安全,而且运行起来呢是不会有任何的兼容性的对应问题的,因为 windows 中啊,它的权限呐,路径等经常会报错。所以说我们这 期视频重点教大家怎么用 wsl 进行 win opencl 的 部署安装,这样的话, windows 和 wsl 的 安装您都了解之后之后学起来就非常方便了。 然后接下来呢,老张给大家简单的介绍一下在 wsl 中如何安装我们的 openclaw, 因为之前呢,咱们介绍过太多次了,很多兄弟留言说老张就别介绍怎么安装了,然后我们就给大家简单说一下注意事 项。首先第一呢,你想在 wsl 上安装 openclaw 的 话,第一点你得先在你的 windows 系统下把 wsl 安装一下,当然很多电脑老张发现其实都是自带的, 怎么检查是否自带呢?咱们可以直接输入 wsl 空格杠杠威森,如果弹出定的版本号,证明 wsl 电脑已经安装了,如果没有弹出的话,使用安装指令 wsl 空格 insert 直接安装即可。然后紧接着按照老张给你提供的指令复制粘贴就可以了。先安装你的优班图, 安装之后进行一下更新。安装完优班图之后啊,在这选择这个倒三角,找到优班图系统,就可以直接进入到你的优班图系统当中。 在你安装过程中啊,它会让你设置一个用户名和密码,到时候可能需要做一步密码验证。在优班图系统中,注意是优班图系统中运行这些环境指令,分别安装 python 三,安装一个压缩包工具,方便安装一个 node 点 ps, 然后再安装一个 get 工具。 如果说为了检测每一步安装是否成功的话,你可以分别输入,比如 note 杠 v、 npm 杠 v, 包括 get 杠 v, 在 这检测我们对应的这个版本。如果都能弹出版本号,证明你三项安装都是成功的,这是配置 openclo 的 基本的内容要求。 然后紧接着我们把基本环境配置好的兄弟,你还需要在这个位置安装一下这个欧拉玛。 这老张要重点说一下,说老张我不在本地都已经下载好欧拉玛了吗?为什么在优班图里还需要再配置一下?其实我们优班图中是可以调用本地的欧拉玛的,但是很多兄弟在调用过程中分别给老张留言说说调用时无论是 ip 地址找不到,还是 ip 的 动态变化,导致每次都需要重新连接,重新配置。 所以说最简单的方式就是把欧拉玛在你的优班图系统中再次的安装一遍。其实安装非常简单,只需要把第一步的安装指令复制过去,直接在这个位置直接粘贴即可。安装成功的检测方式很简单,你就输入欧拉玛, 如果他不报错还给我们对应的选项,是咱们是进行对话呀,还是怎么样的证明你的安装就是成功的? ctrl c 直接退出。 所以说欧拉玛安装之后,紧接着就是把我们的模型在当前的优班图中跑起来。老张刚才给大家测试的是 jm 四三十一 b 模型,我们直接输入指令欧拉玛空格 run, 然后你的模型效果直接回车,第一次时他会直接进行对应的模型下载。如果说你现在只想用 open klo 来调用欧拉玛的这个占四的话,可以在我们的本地电脑上把之前咱们那个桌面端给他 删掉,如果说你不你想两端都使用的话,就可以直接在这个位置进行使用了,然后发一个你好看一下响应速度, 嗯,响应速度是非常快的,所以接下来我们把这个家伙欧拉玛的詹姆士直接部署给我们的 openclo, 在 这怎么中止对话,摁一下 ctrl c, 再摁一下 ctrl d 啊,就可以直接进行中止对话了啊,所以说大家可以直接的把它退出来, 退出来之后我们在这儿部署一下 openclo。 关于 openclo 的 安装呢,官网推荐是使用 c o r l 这种安装方法,但是老张发现很多兄弟在使用这种安装方式时呢, 出现了这个网络问题,导致下载出现卡顿,如果说 c u i l 的 方法报错的话,直接使用 n p m 安装也是完全可以的,安装完之后直接输入 open klo 空格杠 v 来输出最新的 open klo 的 对应版本啊,这就是老张跟大家说的一些建议啊,大家按照这个要求去做就行了。 然后接下来我们进入到配置,直接是直接输入它的配置指令回车,选择 yes, 然后选择快速开始就可以,我们直接配置一下模型, 然后选择更新,这选择谁呢?选择这个欧拉玛啊,然后选择默认的这个 ul, 选择本地模型,让他去给我找一下咱们本地有哪些模型,稍作等待 好,选择当前的这个模型,咱们四三十一币,然后配置我们的聊天软件啊,这个老张之前讲过太多太多次了,现在呢,他又支持了很多,包括 qq 之类的,大家有需要的话可以按照之前老张的教程再来一遍,我们先跳过 打开之后啊,就可以直接对话。但是如果说善于观察的兄弟们也发现了,老张呢把这个使用模型呢换成了这个一四 b 的 模型,不是那个三十一 b 的, 因为三十一 b 呢,老张在测试的时候也好,或者在一些使用时候也好,他有的时候会出现这个连接超时的问题,也是 oppo klo 更新到最新版本出现了一个能启动问题, 这个呢,老张现在还没有特别好的解决方案,所以说我先用一次必得给大家进行演示,发一个,你好,我们来测试一下他的响应速度啊,还是比较快的。 然后接下来呢,我们再把之前的那个慢句的提示词发送过来,我们来看一下他能不能更好的帮我们去进行慢句提示词的对应理解,以及对应的相关反馈。 嗯,其实我们看到啊,他反馈的这个结果呢,和三十一 b 相比啊,真的是有一定差距的,但是呢,确实也是另一方面实现了我们所谓的叫偷根自由。 大家呢也可以后续啊,去测试一下怎么让本地如果你的显卡够用的话,把这个大模型给它跑起来。然后老张呢也会及时给大家更新,无论是在评论区中还是视频中教大家如何使用。我是程学老张,定期分享 ai 好 用知识,希望大家多多关注。

hello, 大家好,我是 ken。 上条视频说到 gemma 四在接入到 openclaw 之后,只能充当一个聊天机器人,我不愿相信,也不甘心, 一个二百六十亿参数的模型,能力应该远远不止于此。于是我今天又坐下来折腾了一天,有好消息也有坏消息,听我慢慢说。 先说好消息,今天的第一个突破,在我给他安装了文件系统技能之后,赋予了他读写我本地文件的技能。果然,他可以根据我的指令在桌面生成一个 markdown 文件,算是一点小小的生产地了。 但当我让他在桌面上创建 word 或者是 ppt 文件的时候,还是一样会牢牢卡住。 好消息到此为止,但接下来我想到了一个新的思路,既然 openclaw 是 有记忆的,它可以学习并且积累技能, 那么如果我先接入到一个聪明的大模型,把我需要的技能都完整的走一遍,再切换回 gem 四大模型,看它能不能完美的复刻出来。 于是我切换成了 podocr 技能之后, 在桌面上放了一张带有简单文字的图片,然后让 codex 先做一遍演示,把图片上的文字准确地提取出来发送给我。 结果非常顺利, codex 不 但把桌面上的文字准确地提取了出来,还帮我顺带把技能也优化了一遍。 好现在切换回 jama 四,让他重复刚才的操作。我给他下了一样的指令, jama 四可以正确地调用 pad ocr 这个技能,也能够识别到桌面上的图片,但就是在提取文字这一步,他怎么样都做不到,会卡住。 我中途问他是否有停止工作,向我汇报进展,他都说正在提取文件中,但是无论我等待多久,十分钟,二十分钟,半个小时 都没有给我任何的反馈。我担心是不是他在运行的过程中,我的电脑内存不足,导致他没有办法生成,于是我把模型切换成了更轻量级的 e 四 b 版本,结果还是一样,会在提取文字的过程中牢牢的卡住。 这让我有点困惑,究竟是我的电脑内存不足,还是模型的能力不够?我更倾向于认为是模型的能力不够, 因为二十六 b 混合专家模型在实际工作的过程中呢,只会调动四 b, 也就是四十亿的参数。 这个被激活了四十亿参数的专家可能还没有学会怎么去运用 o c r 这项技能,但也不能完全排除是运行内存不足导致的。 现在还不能下定论,只有等四月十六号我的 max studio 到货以后,我让他跑三十一 b 满血版的大模型才能够有答案揭晓了, 到时候我会第一时间和大家分享我的测试结果。上一条视频的评论区有很多人问我,他的设备的内存是多少,什么版本 能够跑什么样的大模型?这里就 gemma 四的四个版本呢,我分享一个简单的小公式,供大家去进行自行计算。普通模型呢,就用你的内存或者显存储以四, 得到的数字就是你能运行的大模型版本。比如说,如果你的内存是十六 g 除以四等于四,那么也就是说你的电脑可以跑 e c b 这个版本。接入 open cloud 以后呢,可以做问答机器人,也可以生成 markdown 文件。 但是 jam 四的二十六 b 混合专家模型是略有不同的,因为就像我刚才所说,它在工作的时候呢,只会调动四 b 的 参数,所以呢,是比较特殊的,如果内存达到二十四 g, 就 可以运行二十六 b 混合专家模型。 还有一个简单的测试方法就是如果你电脑的内存是足够的,你可以把呃一二 b, 一 四 b 和二十六 b 三个版本的大模型都下载在本地,然后用欧拉玛去运行它们,看看你提出问题或者下指令之后,他们是否能够做到秒问秒答。 如果能够做到秒问秒答的话,那接入 openclaw 它是可以做问答机器人使用,没有问题的。但是如果在欧拉玛中只是作为聊天机器人,它的回答都是相对来说比较慢的话,那接入 openclaw 肯定是没有办法使用的。 在接入 openclock 以后呢,内存的消耗量会稍微大一点,所以大家在实际使用的时候,最好还是能够留一些余量的好。今天的折腾就分享到这里评论区,告诉我你们还想看什么,我们下期见。

就在刚刚,谷歌直接往开源社区扔了一颗核弹,发布了 jam 四,而且给了一个史无前例最最宽容的开源协议。另一边呢,编程神器 cursor 三迎来大更新,直接让你化身赛博包工头! 最离谱的是啥?小扎的 met 因为自家新模型难产,急的内部竟然讨论要去租谷歌的模型来凑数。 今天这期视频,咱就以第一视角硬核拆解这波疯狂的 ai 大 乱斗。首先咱来聊聊谷歌这次的掀桌子操作。谷歌刚刚发布了 gemma 四家族,从二十亿参数一路杀到三百一十亿参数, 大家要知道,这些模型可是直接从他们压箱底的 gemini 身上扒下来的核心技术啊!但我跟你讲,这次最炸裂的根本不是啥跑分,而是它的开源协议!谷歌这次史无前例地采用了 apache 二点零协议, 这意味着什么?意味着你可以完全拿去免费商用,随便改代码,甚至部署在你公司内网里,都没人管你,没有任何霸王条款。谷歌向来是个闭源狂魔,这次突然这么大方,绝对是被咱们中国开源模型比如阿里月之暗面给逼急了。 中国模型在开源社区疯狂抢地盘,谷歌一看情况不对,直接摊牌,我也不设限了,大家赶紧来用我的吧! 回到模型本身,谷歌这次主打把小模型压榨到极致,它的三十一 b 版本在 arena ai 开元榜单直接杀到了第三名,还在高难度的 g p q a 科学推理测试中拿下了百分之八十五点七的高分。 而那些二 b、 四 b 的 小模型,不仅能直接在手机或树莓派上跑,还原声,支持本地音频输入,以后你的手机不用联网,本地 ai 就 能听懂你说话。我觉得这绝对是端测 ai 的 未来。 看完谷歌,咱们再来看看程序员的最爱 cursor 三。以前我们用 ai 写代码,就像在带一个实习生,得一次聊一个任务。但 cursor 三彻底进入了多智能体 multi agent 时代。 这代表什么?代表你现在升级成包工头了,你可以同时开好几个 ai 智能体并行工作,一号 ai 去修 bug, 二号 ai 去写测试代码,三号 ai 去尝试一种全新的架构。 它还加入了 worktree 指令,用来隔离任务以及 bestof 指令,让多个模型出方案给你挑。不仅如此,它现在还支持远程 ssh 和云端环境。 我的感受是, curser 三已经不再是一个简简单单的代码辅助机器人,他直接变成了一个拥有多名 ai 员工的完整工作空间,以后一个人就是一支外包团队。 接下来的这条信息就非常有意思了。最近有人在 madata 内部挖出了他们正在秘密测试的用来接班拉玛寺的一系列隐藏模型,代号叫 avocado、 牛油果和 pericado, 其中有个多模态版本,甚至能在测试里画出一只骑自行车的提护。 听起来很厉害,但是据爆料称, avocado 本来打算在三月就发布的,结果硬生生被推迟到了二零二六年五月。原因非常有意思,内部测试发现它根本打不过现在的顶级竞争对手。 最让人震惊的是,有传言说 mate 内部因为压力太大,甚至讨论过要不要暂时授权使用谷歌的 gemini 模型来顶一阵子,这就好比可口可乐卖断货了,跑去问百事可乐借糖浆。 这也侧面印证了一个观点,现在的 ai 赛道极其残酷,连市值五万亿的巨头都在背后疯狂冒冷汗,稍不留神就会掉队。 好吧,这几个重磅更新,彻底印证了 ai 战局已经从谁的模型最大,变成了谁的生态最开放,谁最能落地。通过谷歌这次的更新,你觉得未来全面开源的模型能干翻闭源模型吗?