粉丝19获赞410

大家好,本期内容我来分享如何在本地部署谷歌新开源的多模态 ai 模型代码四,我会分享命令行和格式化界面两种安装方案,零基础也能轻松搞定。 最后我还会教你如何修改部署的路径,彻底解决大模型占用 c 盘的问题。本地部署的优势就是你的数据可以完全保存在自己的电脑上,隐私安全有保障,而且支持模型微调, 可以打造专属的 ai 助手。但是他也是有缺点的,就是我们需要稍微懂一些技术,还有就是硬件的支撑,如果电脑配置高,自己可以部署折腾一下。有了本期视频,就算你不懂技术,跟着视频操作也可以部署成功。 本期演示我只分享入门版本,主要就是参考部署的方法和流程。接下来我手把手带大家用欧拉玛一键部署。 首先我们先来了解一下 jam 四到底是什么,它是谷歌新发布的开源多模态的 ai 模型,与 jimmy nay 是 同源的。 简单来说,谷歌就是把自家的 ai 技术打包成了一个免费开源的版本,让每个人都能用上。它的能力是非常全面的,支持文本交互、图像识别、音频处理,还能生成代码, 基本上覆盖了所有的 ai 应用场景。下面我们再来看一下它的核心优势。核心优势它有三个,第一个就是多模态能力,文本、图像、音频代码,一个模型全部搞定。 第二个就是完全免费,它没有会员订阅,没有暗次收费,可以随便的去使用,甚至用它去开发商业化的产品。第三个就是比较重要的隐私安全保障,本地部署模式下,所有的数据处理都在自己的设备上完成, 敏感信息不会上传到云端,这是三大核心优势,就是在我们安装之前,需要我们了解一下这个安装环境。首先系统兼容性 demo, 四是支持 mac os、 linux、 windows 三大主流操作系统,基本上覆盖了绝大多数的用户。 然后就是内存要求,如果你的电脑小于三十二 gb, 推荐安装四 b 版本,自己安装体验折腾一下就可以。如果你的内存达到或超过了三十二 gb, 那 就可以选择二十六 g 或三十一 g 的 版本。 在这里有一个小提醒,就是如果是 mac 电脑 m 系列的芯片,它的显存和内存是合二为一的,大家直接看内存就可以。如果大家不是 mac 电脑,比如 windows 或者 linux, 那 么就优先看显存,显存不够再看内存,这是关于这个配置的查看。像这个本地部署也非常简单,仅需两个步骤即可完成。第一个就是安装欧拉玛,这个欧拉玛就可以理解为是本地大模型的一个容器, 它是装大模型的,有了它才可以运行。第二步就是我们容器安装好之后,我们需要给它把模型放进去,就是部署模型,两个步骤即可搞定。下面我们直接进入实操环节,我们来一起看一下部署的全部流程。 在这里第一步我们就先要有这个欧拉玛,他是一个大模型的容器,就是我们打开之后选择右上角的 download, 这时候我们就需要选择匹配自己系统的版本,在这里我这是 windows, 然后我们选择 download for windows, 在这里选择 download for windows 之后就会弹出窗口,我们选择路径直接保存就可以,当下载好之后,然后我们就安装即可,安装好之后打开就是这样的主界面,这个是我之前安装的版本,部署着一个一点五 b 的 zip, 然后下一步就需要我们去选择大模型,我们还来到刚刚乌拉玛的这个界面,在这里我们选择左上角的 models, 然 然后在这里我们可以看到该马四,然后我们选择进来,它提供了好多个版本,在这里我就选择一个入门的版本,主要就是演示安装的流程,比如我们选择 e 二 b, 然后我们选择,这时候我们就看到了这个安装命令,选择右边的这个两个方框,然后选择 copy, 然后下一步 我们就按键盘上的 windows 加 r 键,这时候出现运行窗口,然后在这里面输入 cmd, 然后直接回车, 回车之后就出现了这个命令窗口,然后我们刚刚复制了直接鼠标的右键,可以看一下,这个命令就粘贴过来了,然后我们直接 回车好了,这时候它就开始部署到本地了,在这里我们需要等待一段时间,好可以看一下出现了 success 这个提示,就证明安装成功了。现在我们在这里可以直接和它对话,比如我们输入你好当前什么模型,然后我们发送 可以看一下,他现在回复我们了,我是一个大语言模型,我叫 jama 四,这时候我们就在本地已经部署成功了, 然后我们再回到欧拉玛的客户端,在这里在这个对话窗口右下角这里,这里可以选择模型,然后我们找到刚刚部署到本地的 jama 模型好了,这时候就切换好了。同样在这里我们也可以直接和他对话,比如我们输入你好,然后发送, 这时候他就回复我们了,你好,很高兴和你交流,请问有什么帮助到你的?到这里我们就已经部署成功了。前面我们分享的是使用命令行 c l i 模式去部署,其实还有一个简变的方法, 在这里我们还可以选择模型后面对应的这个按钮,也是可以直接部署的,这个是非常方便的。好,最后我再分享一个大家比较关心的问题,就是我如何设置这个本地模型的一个部署路径, 在这里我们也不用去改环境变量了,这个客户端是直接支持的,我们选择左上角的设置,然后在这里选择这个 model location, 在 这里我们就可以去设置模型的一个保存路径,在这里大家自己设置就可以,是非常方便的。 好,下面我这里演示的是上传了一张图片,就让他识别这张图片,我们一起来看一下他给我们的结果,好了可以看一下,我们给了他一张图片,我们问他这是张什么图片,他给我们的回复, 这是一张符号或者是图标,然后他还分析了主要包含的元素,还有用途预测等等,能够精准的识别内容,并生成详细的描述, 表现还是可以的。好了,现在我们本地部署成功了,然后刚刚我们也做了一个功能测试,第一个就是我们和他对话,就是文字处理,第二个测试的就是这个图像识别,他也是可以精准识别的, 他虽然是多模态的,但是目前我们用的这个容器不支持多模态的输入,我们暂未测试音频和视频的识别。好,最后我再补充两个细节,就是第一个欧拉玛的拓展性他是非常强的,除了可以部署这个 demo 四, 还支持比如通用签问或者是 deepsafe 等众多的开源模型,部署方法也是完全一样的,一条命令就能去部署。第二个就是本地部署的真正价值不仅仅是隐私保护,更重要的是支持模型微调, 可以用自己的数据去训练模型,打造一个完全专属的 ai 助手。好了,这就是我们本地部署的所有内容,大家感兴趣的可以自己折腾一下,探索更多的玩法。好了,我们本期内容分享就到这里,可以留下你的想法,我们下期再见。

jam 四非常的火爆,这个视频我们来看到它的破线版本,使用欧拉玛运行,去除了拒绝回答机制,直接的回答没有任何的限制,以及社区当中风评比较好的大参数破性模型 g b d o s s 那 么就与图像和视频模型破线一样, gm 四破线之后的话,能够回答我们提出的任何问题,他不会拒绝,且会直接回答你的任何提问。这两个模型以及对应的五零九零启动日设我都已经部署至了应用之算平台上面,同时这个视频我将分享一个文档, 以辅助想要在本地运行的朋友来如何进行欧拉玛模型的模型文件配置,以控制欧拉玛运行下模型在 gpu 当中的卸载陈述。经过 这样的配置学习,我们可以使用更低的显存来跑更大的模型,甚至说跑一百二十倍的模型。点击进入到优云智算平台,找到对应的镜像点击部署实力,那么我这里推荐租用的是五零九零显卡, 使用 jimmy 四最经济也最具性价比的选项。那么这是一个自启动的镜像,我们不需要启动指令,点击立即部署, 等待一下。那么出了欧拉玛之后的话,我们点击欧拉玛就可以进入到 open web ui, 输入统一的电子邮箱和密码, 点击登录上方,就可以选用对应的模型并与模型进行对话。如果我们租用的是五零九零,可以使用五零九零对应的预设,能够获得更为稳定,更为一键自动化的运行。破线的内容不是那么好演示,正常情况下我们就 打开侧边栏,该怎么对话就怎么对话,那么这都是常用的对话形式嘛,这里我直接以 g b d 开源的这个模型为例,快速启动上来说,只需要记住预设与非预设模型的区分,那么上风这两个也并不是实体模型,仅仅是一个搭配了预设文件之后的模型感 改了一个名字而已。我就以这个一百二十 b 的 模型为例,它是由 g p d 开源,但就限制解除破线这一块的话,这个模型的话,它的性能仍旧算得上顶级,所以我也把它给加进来。当然 jam 四也是很强了,我们可以看到用时十一秒钟,一点都不快, 但仍能属于可以接受的水平,在此时此刻,内存占用为六十七点七 gb。 这里的技巧我整理成了一个文档,放在了我的 bilibili 的 简介当中的云盘里面。把这个文档呢丢给大语言模型九十以上的概率,它能够帮助你去控制大语言模型的 g p u 卸载的陈述。这是 g b d 给我总结的文档,如果愿意的话也可以看一下,这一套是使用 jupiter lab 来进行的配置。我们切一下这个圈八四模型看一下, 可以看到 jam 四的思考速度还是非常的快的,此时此刻的内存占用为五 gb, 因为大部分的模型还在我们的显存当中,回答速度也很快。那么今天呢,由于一个快乐马模型呢,据说是登顶了,甚至呢要超过 cds 来自于阿里,那么具体如何的话,我们还是等它真正的 开源了再看。可以这么说,现在这个状况来说,只要是开源都是有意义的,因为从以前到现在来说的话,哪怕只开源一代模型的话,退一万步说 我们至少能保留那一代模型在我们的硬盘当中,想用的时候随时用,没有限制,就像今天的这个镜像一样,完全的解除了我们的限制,问什么回什么,可能说没有那么聪明,但是绝对自由。

谷歌刚发布了王炸级别的开源大模型 g m 四,本视频将为你带来详细的评测。本次的 g m 四最大的杀手锏是彻底转向了 ipad 二点零纯开源协议,这意味着他终于解除了之前的法务紧箍咒,开发者可以闭眼商用。虽然三十一 d 模型在 reno ai 榜单上拿到了开源第三, 但回归到真实场景,它的表现其实是一把极其锋利的双刃剑,评价非常两极分化。首先看旗舰级的三十一 bance 模型,它的编程能力非常惊艳,实测写 html 界面,排版精美,在 levelbench 拿到了百分之八十的高分,达到了专业程序员的指令水平。 而且它的 token 效率极高,平均消耗只有 coin 三点五的百分之六十五,非常适合需要反复调用、在意成本的本地 agent 工作流。 但它的偏科非常严重,数学精度不足,简单的运算经常出错,尤其是在处理信息密度大的长文本时,很容易产生幻觉,而且在开启慢思考模式后,偶尔会陷入死循环,无法跳出。接下来是性价比极高的二十六 b m o e 模型, 这款模型是本地二十四 g 显存用户的福音,虽然总参数有二十五点二 b, 但推理时仅激活三点八 b 参数,这意味着你只需要十六到十八 g b 的 显存就能跑起四 b 的 量化版,而且速度极快,实测能达到每秒六十个 token, 非常适合那些需要塞入臃肿系统提示词的 a 帧子应用。不过这款模型的评价极其割裂,虽然有人觉得它实用,但也有开发者直言它在中文写作和逻辑推理上,灌水严重, 被戏称为数字干水制造器。最后是端侧的小杯模型 e 四 b 和 e 二 b。 它最大的亮点在于原声支持最高三十秒的音频输入,这意味着你不需要外挂 s r 语音转文字模型,英文转写效果几乎完美,是做本地语音助手的绝佳选择。但它的视觉能力简直是灾难, 面对简单的发票截图或手机截图,文字提取错漏百出,甚至连最简单的网页自动化操作第一步都会报错。在视觉理解这个维度上,它被 q n 三点五的九 b 模型按在地上摩擦。 那么在实际选择时,如果你需要构建本地的高频 agent 循环照用,且对 token 预算和响应延迟要求极高,那么二十六 b m o e 是 首选。 如果你想打造纯离线的语音交互设备,直接用 e 四 b 即可。当然,如果你最看重的是开源协议,需要变商用 jamas 的 pitch 二点零协议就是最大的优势。 相反,如果你需要一个强悍且稳定的综合小尺寸模型, q n 三点五的九 b 版本在综合能力上是碾压 e 四 b 的。 另外,如果你依赖高精度的数学计算 o c r 文字识别,并且要求极低的幻觉率,或者需要一个更成熟的生态和丰富的尺寸矩阵,那么 canon 三点五会是更稳妥的选择。在底层架构上,简码四引入了两项黑科技, 第一是 pl e 逐层嵌入,这是小模型专享的,它不再把所有信息在初识阶段一次性打包,而是在每一层都生成专属信号, 本质上是用额外的算力换取存储空间,增强表达力。第二是混合注意力机制,它采用了五层滑动窗口和一层全局注意力交替的结构,配合双 o p e 配置,直接将上下文处理能力拉升到了二五六 k。 针对硬件部署,这里给一套基于 ansel 和 m c p p 的 建议。如果你只有八 gb 显存,勉强能跑 e 二 b 或 e 四 b, 但只能做简单的摘药或语音识别,千万不要尝试复杂的视觉理解或长代码分析。二到十六 gb 显存是 e 四 b 的 舒适区, 也可以尝试二十六 b m o e 的 重读量化版。而如果你拥有二十四 g b 显存,强烈推荐跑二十六 b a 四 b m o e, 这是目前最有限势意义的型号,能同时兼顾二五六 k 的 长上下文和高效的吞吐量。 最后,分享两个长文本推理的闭坑技巧。如果你在进行存文字的长上下文推理,建议在辣妈 c p p 中直接关闭微震视觉功能,这样可以节约大量显存。 另外,面对复杂任务时,可以通过 a p i 动态调整 thinking budget, 也就是思考预算,防止模型陷入无限思考的死循环,导致机器直接卡死。

安装完后指令 hermes model 选择模型,检查 lm studio 的 模型上下纹更大一些,然后可以进入 hermeschat 使用,选择伽玛斯模型即可,自然是非常缓慢的。打开 config 检查上下纹配置需要足够大,比如六十四 k。

google 推出手机可用的本地大模型了?安装这个软件,根据自己需求和手机配置选择下载合适的模型,然后就可以不用联网在手机运行 ai 了。我的小米十 s 下载了一二 b 和一四 b 两个模型,对比测试下经典的洗车问题 可以看出对问题推理还是没法跟在线大模型比的,既能也有待完善,但毕竟是本地模型,相信不久用途会越来越多。

不用联网,不用数据,就在你的手机也可以用上 ai, 而且还是 google 新出的 gmail。 四、这款开源而且非常智能的模型,打开之后是有这样的一个页面, 它支持如下的这些功能,支持图片识别、上传图片,进行 ai 对 话,也可以进行语音转录,还有就是 ai 聊天以及配置 skill promptlab, 这个我目前还没尝试这个有兴趣的小伙伴可以去尝试一下。我这边操作一下,这个是我已经下好的模型,我现在把网断掉。你好,然后他是别称他是你,哈哈,我说你好,这回明白了,调皮的粘吗?

兄弟们,欧拉玛已经更新好了,杰玛斯的大模型也不朽完成了,一共四个模型,接下来挨个测试一下,所有的测试都是在这个电脑配置下完成的。第一个问题,介绍一下自己, 第二个问题,用李白的风格写一首 诗。 最后一个问题,经典的喜鹊问题 总结一下,四个模型都测了,最快的是一二 b, 最慢的是三十一 b, 四个模型第一次启动都有点慢,后续速度都还可以。 总的来说,回答质量最好的是三十一 b, 包括最后的一个洗车逻辑陷阱也自动识别出来了, 就是我这个配置运行起来实在是太慢太慢了,所以性价比最高的应该是这个二十六 b 模型。回答速度,回答质量都还可以,可以用在部署小龙虾,用来做个人的 a 键,挺好用的。后续再和千万三点五做个横向对比,记得点个关注。

想在本地运行大模型,最新模型怎么选?根据真实显存需求,一分钟带你搞定最佳配置方案。八 g 显存是入门门槛, 可以流畅运行四 b 级别模型,宽三点五四 b, 只需三到四 g 显存。 gem 四 e 四 b 约五 g, 适合日常对话简单代码生成, 响应速度快。十二 g 显存强烈推荐 quan 三点五九 b, 仅五到六 g 显存,占用性价比最高,日常使用完全够用。 响应速度八到十五次每秒二十四 g 显存是专业用户首选, rtx 四千零九十最佳选择 quan 三点五二十七 b, 约十五到十七 g。 gem 四三十一 b, 约十七到二十 g, 可以 流畅运行二十七 b 到三十一 b 模型, 响应速度十到二十次每秒四十八 g 双卡可以运行大模型的四 bit 量化版本,宽三点五二十七 b 和 gem 四三十一 b 的 四 bit 版本都能流畅运行, 半精度需要六十 g 以上显存。个人用户建议选择四 bit 量化,预算有限,选十二 g 配 quan 三点五九 b, 性价比最高,专业用途直接上二十四 g 配 quan 三点五二十七 b, 记得用四 bit 量化,能省一半显存。奥特曼一行命令搞定,关注我,获取更多 ai 部署技巧!


四月三日,谷歌放大招,全新 g m 四开放模型正式发布,直接刷新同等规模模型性能天花板,堪称最强开放模型,没有之一。这次一口气出了四款型号, 从二 b、 四 b 轻量版到二六 b m o e、 三一 b 大 模型全覆盖,三一 b 版本直接冲上全球开放模型榜单第三,二六 b 排第六,甚至能吊打规模尺他二十倍的模型小参数也能跑出超高性能,硬核能力拉满,能做深度逻辑推力,搞定智能体工作流代码生成图文音视频多模态全支持, 能处理两百五十六 k 超长上下文,整本书整个代码库一次搞定一百四十多种语言原声适配,超全能,更牛的是适配性绝了,从安卓手机、索尼派这些边缘设备,到笔记本工作站,再到专业 gpu, 全硬件都能跑,轻量版还能在手机上离线零延迟运行,开发者直接狂喜,而且用的是 ipad 二点零商业友好许可, 免费商用,自由部署。发布首日就支持 partyface 和 lama 等超多工具,不管是做研究、开发产品都能直接上手。谷歌这波直接把开放模型的能力卷到新高度, ai 开发者必冲这波红利,可别错过!

谷歌刚公布了基于二零二六年初实测的 demo 四本地部署指南。想在自己电脑上跑大模型,门槛其实比你想象的低得多。 只要你有一张六 g 显存的普通显卡,或者一台十六 g 内存的 mac, 就 能轻松上车。这个底线配置足够你流畅运行,量化后的一四 b 版本,它满打满算也就占四到六个 g 的 显存。那如果你手里的设备配置更高, 具体能跑多大的满血模型?接下来我们直接按硬件档位对号入座。我们先看大部分人用的六到十二 g 显存的中低端显卡,比如三千零六十到四千零七十这个档位,老老实实跑一四 b 版本最稳。很多人显存有个七八 g, 就 想硬去尝试大模型的量化版, 结果往往是一对话就报错卡死。因为你必须从这点显存里扣出一块空间,留给 ai 处理上下文。 如果你手里是十二 g 到十六 g 的 高端卡,比如三千零八十或者四千零八十,这就跨过了二十六 b 模型 a 四 b 量化版的最低门槛。显存容量算是过关了,但别高兴太早, 模型加载进去之后要随时盯着,每秒能吐几个词。简存刚够的情况下,推理速度有可能会让你等的很心焦。至于二十四 g 甚至更大简存的四千零九十或五千零九十,土豪玩家可以直接上三十一 b 的 满血大模型,它的基础占用在二十到二十四 g 左右。 但这里有个大坑,即便你显存再大,如果你一次性喂进去几万次的长温档,或者进行疯狂的多轮长对话,照样会把显存撑爆爆错退出。接着看苹果 mac 用户,十六 g 或者十八 g 统一内存的基础款,统统优先跑一次币。苹果不同带芯片的区别在这里,很明显, m 二和 m 三因为起步是十八 g, 它的实际推理效率会明显压过老款的 m 一。 如果你硬拿十六 g 的 m 一 去跑二十六 b 模型,电脑会被榨干,整个系统都会变卡。 预算充足的 mac 用户优势就完全体现出来了。三十二 g 内存以及能非常流畅的玩转二十六 b 量化版到了六十四 g 以上,这就成了目前最强的便携推理机。二十六 b 和三十一 b 随便跑。要是上了幺二八 g 的 m 三 ultra, 不但能跑顶级大模型,几个人同时发请求都不会排队卡顿。选好硬件后,有一个多数新手必踩的坑。模型页面标称的显存占用只是个起步价。当你开始聊天,历史记录越来越长,内部的 k v k 机制就会像无底洞一样治疗你的剩余显存。 系统本身还要占用一部分,官方给的都是刚加载完的静态数据,真跑起来,必须预留几笔额外的显存帐,最后破除一个对硬件的误解。 mate 的 内存确实动不动就能配到几十上百 g, 功耗也低的吓人。但是苹果的统一内存受限于物理带宽,它就像一个水库很大但出水管不够粗的系统,跑同一个模型,它的生成词汇速度通常还是比不过同容量的 pc 独立显卡的。

hello, 大家好,我是吴宇,欢迎大家来到我的频道。其实我最近本来以为 open call 的 热度已经过去了,毕竟现在大厂已经不像前段时间一样那么猛推各家自己的龙虾软件了。可是我今天因为大家看现在官网上面最低配的这个款还是要等一个多月才能拿到货,然后京东上面 两年前的旧款五百,两年前的五百一十二 g 的 这一款只比原来的发现代官网上面同配置的最新款便宜个六百块钱而已。当然这样也其实还好,毕竟我前段时间看的时候,他其实是要等十六到十八周的, 但是我改了改参数,把内存改成六十四 gb, 就 发现他还是要等十六到十八周。我估计是因为现在 谷歌发布了那个 gemma four 的 新模型,然后网上现在很多的教程都在教大家怎么用六十四 gb 的 mac mini 这个配置去满满血运行它的最好的那个 gemma four 的 版本的模型,确实可以获得很不错的一个使用体验嘛,所以才导致六十四 gb 现在还要缺货十六到十八周。 现在 mac mini 真的 很热门,但实不相瞒,其实我本人之前也抢到了一台 mac mini 是 最低配的,而我不是过来炫耀,我只是想说,其实就算我抢到这台机器,我到现在过去半个月了,我都没有拆开它, 因为我根本没有,我根本想不清楚我需要用到什么样的场景,需要一个机器二十四小时待命为我工作。 我其实比一般人已经使用 ai 的 程度要更高了,说老实话,因为我现在已经可以用 ai 去开发一些脚本,比如说在 boss 直聘上面帮别人二十四小时去招聘。我也可以做了一个喜剧工作流,去创作一些喜剧的视频和一些段子。 但是我总觉得这些场景其实我用我现在现有的这个 macbook air 二零二一 m 一 那款就完全够用了。而且, 而且就算用 ai 真的 赚到了钱,那也有可能有别的风险。就像我有个朋友,他用 ai 去起号,起了个小红书号,然后赚到了一部分收益,也有那么几千,接近小小一小一万粉丝。 结果他今天告诉我,他前几天他的账号被封掉了,就因为小红书说他是个 ai 账号,判定永久封禁啊。 所以别焦虑了, ai 可能还没得及淘汰,我们就先被平台封禁了。当然大家如果有什么想尝试的点子,让这台二百克 mini 二十四小时工作的话,也可以发来评论区,让我来为大家排排雷。感谢大家收看本期的无与独条中,让我们下期再见,拜拜!

重磅发布,在 openclock 小 龙虾狂烧 token 的 时候, google 发布了最新一代肩马四,肩马四不仅性能上有非常大的提升,还支持多模态,并可以在手机上面跑,最主要是居然可以免费给你商用。今天我们就来解读一下 google 肩马四。 我也听说了,那谷歌这次发布了哪些不同的规格的模型?这些模型有什么相同点和不同点?谷歌这次一口发布了四个不同大小的 jam 四的模型,从最小的二 b 到最大的三十一 b, 这四个模型全部都是基于和 jam 三相同的技术打造,并且全部都是开源的,真的是把门槛拉低了不少。 无论是做手机应用,还是说做一些大的服务器的部署,我们的选择又多了。是的,连我们的手机都可以跑二 b 的 版本了, 最大的三十一 b 可以 单卡跑,这次从最小的设备到最大的设备都覆盖的很全面。那伽马四的性能到底怎么样?尤其是这个三一 b 的 dance 和二六 b 的 猫 e, 这两个模型在各种榜单上面的表现到底是一个什么样的水平? 三十一 b 的 dance 在 arena ai 的 文本榜单上拿到了开元第三,它的 a o 评分是一千四百五十二,但是它的参数只有三十一亿。 要知道排在他前面的两个模型,一个是六百多亿参数,一个是一千多亿参数。我的天啊,这也太夸张了吧,用三十一亿的参数就可以跟这些巨无霸去同台竞技,真的是很夸张。 更有意思的是,二十六 b 的 mo e, 虽然他有两百六十亿参数,但是他推理的时候只用到了三十八亿,他的绕评分是一千四百四十一,排名开元第六, 所以它的这个参数使用效率真的是非常的惊人。那 gemma 四在具体的任务上面,比如数学编程、智能体这些, gemma 三到底提升了多少?提升非常大。比如说在数学的英二六测试上面, gemma 四的准确率是百分之八十九点二,而 gemma 三只有百分之二十一点二,提升了整整百分之六十八。 在编程的 live code 编程上面,肩马四是百分之八十,肩马三只有百分之二十九点一。还有智能体的 t 二编程上面,肩马四是百分之八十六点四,肩马三是百分之六点六。基本上每一个任务都是碾压式的进步。除了这三项,肩马四在多语言推理和知识问答上面,也有百分之四十的性能提升。 更厉害的是,三十 e b 的 肩马四竟然可以打败比它大二十倍的模型,甚至可以直接在 mac mini 或者手机上面跑。看来我的小龙虾 open call 啊,终于可以有饭吃了。 那 jammer 四这个全家桶,不同的成员到底是怎么分工的?然后针对不同的设备,不同的应用场景,做了哪些特别的优化?这次 jammer 四发布,每个尺寸都有 base 和 instruction tune 的 两个版本, 十二 b 和十四 b 是 专门为端侧设计的,并且跟谷歌的 pixel 团队、高通联发科一起做了联合的优化。所以现在已经可以在手机树莓派 jason arduino 直接离线跑了, 而且延迟几乎感觉不到,看来手机也可以变身成一个 ai 小 服务器了。那大模型那边开发者的体验有什么提升吗?针对开发者的需求,这次也发布了三十一 b 和二十六 b 两个版本。 三十一 b 追求的是极致的质量,它的 b float 十六的权重可以塞到一张八十 g 的 h 一 百里面,量化版本在消费级显卡上面就可以跑了。 而二十六 b 版本是一个 m o e 的 架构,它每次推理的时候只激活三点八 b 的 参数,所以它非常快,适合需要低延迟的 a 键的场景。 另外 jamas 还支持了这个 turbocharger 压缩算法,所以整体的这个体验就会非常的流畅。那 jamas 在 多模态和长上下文的处理能力上面,跟上一代的版本相比,有哪些让人眼前一亮的进步?在多模态推理上面的话,三十一 b 的 mmu pro 多模态推理达到了百分之七十六点九,二十六 b 是 百分之七十三点八, 而旧的肩马三只有百分之四十九点七。在长上下纹的这个 m r c r v i 八 needle 幺二八 k 上面,三十一 b 是 百分之六十六点四,二十六 b 是 百分之四十四点一,而肩马三只有百分之十三点五, 小尺寸也没拉跨 e v 在 a m e 上百分之四十二点五, live codebench 百分之五十二,这成绩如果放在一年前的话,都是旗舰级的水准。 jama 四这次提示那么多,是不是在架构设计上面做了什么调整?是的,它在架构上面其实是做了一些减法,把一些主键拿掉了,比如说 altop 这种直接就拿掉了, 只留下了经过验证真正能提升性能的这些模块,所以整体的架构会变得更加的简洁高效。传统的 transformer 里面的话, token 的 向量其实在最底层就已经决定了,后面每一层都是在吃这个初死的信息。而逐层嵌入就是给每一层都加了一个专属的低维的信号通道, 相当于每一层都会收到额外的量身定制的一些信息,所以他就会变得更聪明,相当于给每一层都配了一个小助手。 而且这个额外的通道其实开销非常小,但是却可以让模型的每一层都可以根据自己的需要来调整表示,这个对于小模型来说特别有用,这是 a b 和 a b 能够表现这么强的一个核心的原因。还有它是怎么提升推理速度和处理长文本的能力的,它们用共享 k v 缓存和交替注意力, 共享 k v 缓存就是最后那几层不再自己去算 key 和 value 了,而是直接复制前面层的结果,然后同一类的注意力层会共用一套 k v 状态,这样一来推理的时候就会省很多显存,计算量也少了,所以速度就快了。 交替注意力机制就是模型会轮流的使用局部的滑动窗口注意力和全局的全上下文注意力小模型的话,窗口是五幺二头啃,大模型是一千零二十四头啃,再配合上全局层的等比例,洛普来扩展上下文以及滑动层的标准,洛普来保证效率,所以现在模型可以看的更广,同时也不会丢掉细节。 手机小显卡就特别适合使用了。 gm 四的多模态能力,它到底在哪些模态上面有支持它的视觉的编码器?有哪些特别的改进?现在编码四全系都可以处理图像和视频了, eb 和 e b 还可以理解。音频对视觉方面的话,这次的编码器升级主要有两点,一个是它不再强制的把你的图片裁成一个正方形,而是可以直接用原始的宽高比。另外一个就是它的图像 token 预算是可以配置的,有七十幺四零二八零五六零一千一百二十五档可选。 比如说你要做分类,那就用比较低的预算,如果你要做 ocr 或者复杂文档的解析,那就可以把它调的高一些, 所以你可以在速度和精度之间去自由的平衡。 gemas 在 实际的使用当中,在多模态上面到底能够干些什么事情?然后不同的模型的尺寸之间,在这些多模态的任务上面会有一些什么样的能力上的差别? 比如说你给他一张网页的截图,然后问他 view recipe 按钮在哪里,他会直接返回给你一个节省,就是这个按钮的边界框的坐标。三十一 b 的 话会非常的精准,十二 b 的 话会稍微有一点偏差,但是基本上也都是可用的。例如你给他一张曼谷寺庙的照片,然后你问他这是哪个城市,帮我查一下当地的天气,他会直接识别出来这是曼谷, 然后会自动地去调用 gety 的 这个工具,并且返回给你天气的信息,全程不需要你去做任何的提示工程。我的天啊, 这样就不再是一个只能理解的模型了,它已经变成了一个可以真正的帮你自动完成任务的智能体了。是的,因为函数调用这个能力是在训练阶段就已经内建进去的,它是基于去年发布的访线监码,所以它可以支持多轮的多工具的流程, a 键的调用。这跟之前靠提示词来触发工具调用的方式是完全不一样的, 是一个真正的 a 准的工作流。那这样不是跟我小龙虾有的拼了,那我直接拿它来改成自己的行不行?会不会被告侵权啊? jam 四首次采用,而帕奇二点零协议,它没有任何的附加条款,所以你可以随便的去修改,分发商用, 不管电脑、手机设备都可以随便任意使用了。今天终于也了解了 jam 四的新的能力,新的架构,多模态的支持,我们的 q 问三点五也开源了,看来我们又可以多一个选择了。 ai 的 世界发展变化也太快,记得关注小鹏 ai, 了解最新 ai 动向。

今天呢,通过 airm studio 部署了谷歌的这个 jimmy 四二十六 b a 四,呃, a 四 b 量化模型啊,斯比特的量化模型啊。我这边我测试了一下,速度还挺快,大概能在 每秒六十五点二 tokens, 呃,其实我的电脑配置的话也不是很高, 显卡是十六 g 的 四零七零太 super, 内存是六十四 g 啊, cpu 是 i 五的幺四六零零 kf 啊,我觉得能达到六十五秒啊,六十五 tokens 每秒速度还是比较快的啊。其实大家都可以按照我这个模板去做了,就我这个配置的话也没有那么复杂,给大家看一下哈。 上下文呢,我是设置的三万。今天我测试了一天的 open cloud 呃,目前装好了一些技能的前提下哈,没有出现再切换为新的绘画,但是也不排除他切换了新的绘画,但是我的这个技呃技能什么的配置的还是可以啊。 所以说我的上下文长度设置为了三万啊。之前我也问过豆包,豆包给我推荐的是一万六千三百多啊,但是这个上下文太短了,偶尔会切换为新的绘画,所以把它调整为三万。 gpu 卸载和 cpu 的 现成值大小啊,都把它拉到头啊,也是三十七十啊。苹果批处理这个都不用改哈,它是有个关键的哈,就 number of layers of which 哎,就这个 设置为一半啊,就十五,因为我这个满的是三十,所以设置为十五啊。重要的一点就是 k v 缓存量化模型哈,因为我用的是 q 四的这个斯比特的这个量化模型,所以我就把它选择为 q 四杠零 啊,但我也尝试过选 q 四杠一啊,不行,我这模型加载不起来啊,具体的原因我也不太懂哈, 然后我就按照这种方式设置的,就能达到六十五 tocs 每秒,这个速度我觉得还是蛮快的,我用它去跑 mccloud 速度还是可以的哈。因为我目前我在做一个记忆宫殿的这个呃插件啊,当然是根据这个 呃社化危机女主的这个为原型,让她自主啊,自主编辑的这样的一个插件,现在还没有做完,都已经用了呃,两个多呃,三个小时了,现在已经处于尾声了啊,快部署完了, 等明天我看一下他这个记忆宫殿做好的这个记忆宫殿具体的用途啊,具体的这个使用的结果怎么样呢?再给大家做一个分享。

想跑肩马仕到底需要多大显存?今天一次讲清楚四个版本,逐个对比, 先看四个版本的显存需求, e 二 b 最小 q 四量化只要二 g 手机都能跑 e 四 b 需要五 g, 普通笔记本就行。二十六 b m o e 版要十八 g 需要 r t x 四零九零 三十一 b 最大,二十 g 起步需要 rtx 五零九零或者多卡 量化很关键。以三十一 b 为例,全精度 bf 十六要六十二 g 显存, q 八量化,三十四 g q 四量化只要二十 g q 四比全金度省了百分之六十八的显存效果,几乎没差别,所以强烈建议用 q 四量化, 推荐配置 e 二 b 和 e 四 b 用 rtx 四零六零八 g 就 够,性价比最高。 二十六 b 用 rtx 四零九零二四 g 刚好。三十一 b 需要 rtx 五零九零三二 g 或者双四零九零。 如果预算有限,二十六 b m o e 版最划算,只有四 b 参数活跃,推理速度接近小模型。 总结, e 二 b 手机就能跑, e 四 b 笔记本,二十六 b 需要四零九零三十一 b 需要五零九零 q 四量化省百分之六十八,显存效果不打折, 根据你的显卡选版本就行,评论区告诉我你的显卡型号。