jam 四非常的火爆,这个视频我们来看到它的破线版本,使用欧拉玛运行,去除了拒绝回答机制,直接的回答没有任何的限制,以及社区当中风评比较好的大参数破性模型 g b d o s s 那 么就与图像和视频模型破线一样, gm 四破线之后的话,能够回答我们提出的任何问题,他不会拒绝,且会直接回答你的任何提问。这两个模型以及对应的五零九零启动日设我都已经部署至了应用之算平台上面,同时这个视频我将分享一个文档, 以辅助想要在本地运行的朋友来如何进行欧拉玛模型的模型文件配置,以控制欧拉玛运行下模型在 gpu 当中的卸载陈述。经过 这样的配置学习,我们可以使用更低的显存来跑更大的模型,甚至说跑一百二十倍的模型。点击进入到优云智算平台,找到对应的镜像点击部署实力,那么我这里推荐租用的是五零九零显卡, 使用 jimmy 四最经济也最具性价比的选项。那么这是一个自启动的镜像,我们不需要启动指令,点击立即部署, 等待一下。那么出了欧拉玛之后的话,我们点击欧拉玛就可以进入到 open web ui, 输入统一的电子邮箱和密码, 点击登录上方,就可以选用对应的模型并与模型进行对话。如果我们租用的是五零九零,可以使用五零九零对应的预设,能够获得更为稳定,更为一键自动化的运行。破线的内容不是那么好演示,正常情况下我们就 打开侧边栏,该怎么对话就怎么对话,那么这都是常用的对话形式嘛,这里我直接以 g b d 开源的这个模型为例,快速启动上来说,只需要记住预设与非预设模型的区分,那么上风这两个也并不是实体模型,仅仅是一个搭配了预设文件之后的模型感 改了一个名字而已。我就以这个一百二十 b 的 模型为例,它是由 g p d 开源,但就限制解除破线这一块的话,这个模型的话,它的性能仍旧算得上顶级,所以我也把它给加进来。当然 jam 四也是很强了,我们可以看到用时十一秒钟,一点都不快, 但仍能属于可以接受的水平,在此时此刻,内存占用为六十七点七 gb。 这里的技巧我整理成了一个文档,放在了我的 bilibili 的 简介当中的云盘里面。把这个文档呢丢给大语言模型九十以上的概率,它能够帮助你去控制大语言模型的 g p u 卸载的陈述。这是 g b d 给我总结的文档,如果愿意的话也可以看一下,这一套是使用 jupiter lab 来进行的配置。我们切一下这个圈八四模型看一下, 可以看到 jam 四的思考速度还是非常的快的,此时此刻的内存占用为五 gb, 因为大部分的模型还在我们的显存当中,回答速度也很快。那么今天呢,由于一个快乐马模型呢,据说是登顶了,甚至呢要超过 cds 来自于阿里,那么具体如何的话,我们还是等它真正的 开源了再看。可以这么说,现在这个状况来说,只要是开源都是有意义的,因为从以前到现在来说的话,哪怕只开源一代模型的话,退一万步说 我们至少能保留那一代模型在我们的硬盘当中,想用的时候随时用,没有限制,就像今天的这个镜像一样,完全的解除了我们的限制,问什么回什么,可能说没有那么聪明,但是绝对自由。
粉丝1.1万获赞8.6万

谷歌啊,这次新发布的 jam 四,很多人第一反应啊,还是看参数升级。但是啊,我觉得这次真正厉害的啊,不是它三十一 b 的 大模型,也不是二百五十六 k 的 超强上下文, 而是啊,谷歌开始认真把大模型往手机和电脑这种本地设备里推了。更关键的是啊,这次还直接放到了 app 二点零协议下,这两件事情一叠价啊,味道就完全不一样了。 其实啊,以前的杰玛虽然能用,但是很多人根本不敢放开手脚用,不是他的模型不够强,而是协议的边界太模糊。 我给你打个比方啊,以前的杰玛,就像谷歌免费租给你一套房子,你能住,但是啊,规矩啊特别多,不能改装修,不能转租,就算转租,下一个租客也得守规矩。 最坑的是啊,什么算改装修呢,他也说不清楚,就比如说换个灯泡,也可能会算你违规。但是啊,这次不一样了,杰马斯啊,直接换成了 apec 二点零协议,相当于他把这套房子直接送给你了, 你想怎么改就怎么改,想住就住,想租就租,想开公司赚钱也行,谷歌啊,再也不管你,也不会找你要钱了。 再说说模型本身啊,杰马思啊,这次一口气出了四档模型,不能小看它,这次官方主打的是智能 a 帧能力,它原生支持工具调用、结构化阶梯输出系统指令,还能处理图像和视频。最核心的就是这个 m o e 能力, 能够根据指令来进行自动分工,真真意义上实现了省时省算力。哪怕基础的 e to b 和 e forb 都自带原声音频输入,上下文处理能力啊,也是直接拉满,最高二百五十六 k, 再加上一百四十多种语言支持。杰马萨已经不是单纯回答问题的工具了,它已经变成了一个本地智能助手引擎。 目前啊,欧拉玛已经支持本地部署了,我们直接用这个指令就可以直接安装了。模型的选择啊,也取决于你的电脑配置,我整理了一份配置表,大家可以自取。好这里啊,我就不演示安装了,我们直接上。结果现在这台电脑是完全断网的状态。 本地呢,跑的就是通过欧拉玛拉取的 jama 四一或币这个模型。第一步啊,我给他一份长篇学习资料,让他呢压缩成三句普通人能听懂的话,每句呢,不超过二十五个字。 第二步,我让他把这三句话改成二十秒的抖音口播,开头三秒必须有冲击力。第三步,我让他直接按 jason 格式输出标题、封面字、分镜和置顶评论。 注意看啊,重点啊,不是他会写字,而是这三步啊,全程在本地完成,不用连云端也不怕断网,而且输出的内容啊,能直接拿去用。如果这种能力再往前一步,本地内容助手,本地办公助手,本地智能工具很快就不再是概念了。 还有一个大家忽略的关键布局,官方已经把 jam 四接入了安卓系统的原声 ai 框架和全设备智能平台,这意味着它从一开始就不是只给电脑端玩家用的。土哥的目标啊,是让它成为所有智能设备的通用。 再过一个多月啊,就是谷歌年度的开发者大会了,可以敬请期待一下。所以我敢说啊,杰玛斯啊不是一次普通的模型更新,它是一个分水岭, ai 不 再是大场云端的专属特权,而终将要回到每一个普通人的手里。好,本期视频就到这里,我是爱分享的阿月,我们下期再见。

公主,你现在看到的就是谷歌最强的开源模型加码四,可以看图,能听音频,也有不错的推理机制,最重要的是完全免费,给我几分钟,从零开始,将加码四部署在自己的电脑上。我们直接开始 先花一分钟和大家聊一下贾马四是什么?它是谷歌刚发布的开源 ai 模型,跟商业版的怎么奈同根同源,你可以理解为谷歌把自家最强的 ai 技术浓缩成了一个免费的版本,直接送给你用。 那么它好在哪里呢?三个点。第一,多模态,不只是聊天机器人,你可以发图片让他看,发音频给他听,还能写代码。 我们可以看看这张表格,横轴是模型的参数体量,而纵轴就是性能表现。贾马四以满血版的性能表现和千万的三百九十七 b 的 模型能力基本持平,关键在于它的体量只有千万的十分之一,这真的非常夸张。 第二,完全免费,不用充会员,不按 token 收费,并且可以商用,你可以模改它做成各种有意思的本地模型,拿去做产品也没有任何的问题。第三,隐私安全,因为跑在你自己的电脑上,所有的数据都不会出,你的电脑拿它处理合同,财务,私人物件,不用去担心泄露。 ok, 我 们直接动手。你现在只需要打开一个浏览器,然后把它放到全屏上,直接官网上搜索欧拉玛点 com 啊,然后这个东西就出来了。然后你只要点击整个画面的一个右上角 download, 看到没有?然后你可以选择你是 mac os 系统还是 linux 还是 windows, 我是 mac os, 那 你就直接点击这个 download from mac os, 然后我们就可以看到这个画面上的右上角应该是会有个下载的链接, 然后等它下载好就可以了,因为我这边其实已经安装好了吗?那么我这边的最终的一个输出效果的话,大概是在这里。你们下载完了之后,打开你们的桌面上的欧拉玛,你们看到的应该是现在这样子的一个画面,那就说明你已经安装成功。 佳马仕一共有四个版本,你可以根据你的电脑配置进行模型的选择,模型的能力越强,所需要的配置就越高。对于内存小于三十二 g 的 玩家,我建议大家直接安装一四 b, 三十二 g 及其以上,可以试试看二十六 b 和三十一 b 的 参数量, 其实这两者模型的能力大通小异,如果你是为了极致的精度,可以选择三十一 b, 但是在我看来,二十六 b 呢,其实是一个非常甜点的位置,达到了速度和精度的一个平衡。如果你不知道你的电脑内存是多少,这里针对 mac 用户,你可以选择终端输入这行命令。 而 windows 用户你可以点击 win 加 r, 点击回车,召唤出来你的终端以后,然后再输入这个命令,也可以显示出你的内存。选择好对应的模型,我们只需要打开终端,和刚刚一样的步骤,根据模型输入指令直接回车即可。等待模型下载好,打开你的 oala, 选择模型就可以开始了。 ok, 我 们打开我们欧曼的软件,你点击这里,然后往下滑,你就可以看到你刚刚已经安装好的这个佳马仕。我们来问他一个很有逻,就是说很有那个逻辑陷阱的一个问题,就是我今天要去洗车,但是只有一百米,你觉得我是走路去还是开车去? ok, 我 们来看一下他的一个答复是怎么样子。 这是一个非常有意思的一个逻辑陷阱题,我们可以从不同的维度去分析。逻辑层面上来说,必须开车去, ok, 这一点已经很棒了啊。 那如果说是从脑筋急转弯角度上来说,他说如果你走路去,那么你是在散步,而不是在洗车。哦,也就是说他分为了三个维度,一个是脑筋急转弯,一个是实用主义层面,还有个就是逻辑层面。我们来看一下他这个佳马仕的这个逻辑能力。哎,你还真别说这小参数,但他的表现还是不错的。 那么 jamas 它的一个很大的优点就在于它其实是支持这个多模态的。我们来不妨给他上传张图片,我们来看一下。 ok, 那 么我们上传一张什么图片呢?哎,上传张这个图片,你们看怎么样啊?就是这是一朵花,然后有个太阳,有一本书,我们来让他看看。我说,啊,描述一下, 描述一下这个图片,我们来看看他的多模态识别能力怎么样?说实话,本地具有多模态识别能力的模型,而且是能够你自己去模改的,其实并不是很多。我们来看一下。 ok, 一, jeff 二,然后 jeff 三,给了几个他看到的一些画面。好,我看他现在在思考和输出。这张画面充满了诗意,唯美且带一丝忧伤。 画面主体是一本翻开的书籍。哎,确实是对的,背景与中景是一个画面,然后呢,躺着一只洁白的玫瑰,然后背景是有一个夕阳,散发出这个温暖的金橙色光芒,哎呦,很不错,你们发现没有,是不是很棒?就是说他好像 表达的还是很到位的,但是因为呃,我其实本来还是想测一下这个关于音频识别和这个视频识别的,因为这个佳马仕它也是支持视频识别的, 但是因为欧拉玛官方不太支持,所以大家可以自己去谷歌 as do do 上面去玩一玩。所以总的来说,其实通过这么两个比较简单的测试,它当然不够严谨,而我觉得感受来说的话,这个香奈儿丝还是 真的是能够在本地帮我们处理一些比较复杂的一些任务的,就是在文字层面以及去多模态识别能力上来说,是一个比较抗打的模型。 看到这里相信你一定会明白, olama 本身是一个模型管理器,你当然也可以不用贾马四,你可以选择开源的 deep stick, 千问等等,其他的开源模型还是同样的命令,一键配置就可以了。 本地捕鼠的最大优点就是保护你的隐私,模型的使用不会受到任何的限制,同时也可以支持模型的微调,让它更合你的口味。下期我打算教大家小白如何从零到一,微调自己的本地模型,感兴趣的可以点个关注,我们下期再见。

酷狗发布的 jamax 家族这次把本地部署的门槛彻底拉低了,它包含了从高性能工作站到边缘 iot 设备的四款模型,不仅原生支持图文视频多模态理解,还拥有最高二五六 k 的 超长上下文。 最关键的是,全系全面转向了 h 二点零协议商用,完全没有后顾之忧。首先来看这个家族的扛把子三十一 b 电子版本,它采用全密集架构,三百一十亿参数在推理时全部激活, 这意味着它拥有该系列最强的逻辑能力和输出质量。如果你手里有八十 g 显存的 h 幺零零或者多张消费基显卡组基群,且对结果的精准度有极致要求,选这款就对了。 接下来是性价比最高的二十六 b m o e 版本,这里要重点解释一下混合专家架构的优势。虽然它的总餐数量有二十六 b, 但单次推理时系统只会激活其中三点八 b 的 参数,这种机制在保证智商的同时提高了每秒的吞吐量。 对于大多数本地桌面用户来说,这款模型在响应速度和性能之间达到了完美的平衡。针对手机和 l t 设备, google 推出了 e 四 b 和 e 二 b 两款端侧模型。这里引入了一个关键的 pl e 单层嵌入表技术,简单来说就是让大体级的磁表在查找时不全面参与常规计算,从而大幅降低内存占用。 一四 b 有 四点五 b 有 效参数,适合树莓派或 jason, 而一二 b 只有二点三 b 可以 直接跑在手机上,让端测 ai agent 成为可能。最后总结一下全系列的通用能力, 在上下文长度上,大模型支持二五六 k, 小 模型也达到了幺二八 k, 足以处理超长文档。再加上原生的图文视频理解能力,让它在实际应用场景中非常灵活。 在实际性能测试中, jam 四三十一币的表现非常强悍,尤其在 g p q a diamond 科学推理测试中,拿到了百分之八十五点七的高分, 但更核心的竞争力在于它的 token 效率。同样,一个任务竞品可能需要一百五十万个以上的 token 才能说清楚,而 jam 四只需要一百二十万个,这意味着它说话废话更少,逻辑更直接,在实际部署时能显著降低推理成本。 如果把它和国产明星 q n 三点五二十七 b 放在一起对比,你会发现一个有趣的现象,在一些细分的工具调用跑分上, q n 确实略占上风, 但在基于人类真实偏好的 rena a i yellow 评分中,两者几乎打平。这说明在实际的人机交互体感上, g m 四三十一 b 已经达到了顶尖水平。很多人好奇为什么价格没怎么变,性能却原地起飞? 其实拆解底层代码会发现,它依然沿用了 paperstorm g q a 以及局部全局混合注意力机制。这次性能的飞跃完全不是靠改架构,而是归功于训练数据的质量飞跃和训练配方的深度优化。这再次证明了在当前大中型阶段,高质量的数据才是真正的核心竞争力。 现在进入实操环节,如果你追求极致简单,首选奥拉玛。首先把版本升级到零点二零以上,然后直接在终端输入命令,想要轻量化测试,就运行一二 b 版本。如果追求性能和速度的平衡,强烈推荐运行二十六 b 版本。 对于 macm 系列芯片用户, m l x 框架配合 turboq 是 史诗级加强,它通过压缩 kb 缓存,直接把内存占用,从十三点三 gb 砍到了四点九 gb, 整整节省了百分之六十三的空间。 具体的部署命令就在屏幕上,这里有一个关键的权衡,开启这个优化后,解码速度会慢一点五倍,但它能让你在 mac 上跑满幺二八 k 的 长上下文。对于处理长文档来说,这个招牌绝对稳赚不赔。 如果你是显存困难户或者即刻玩家,可以尝试 einslof 和拉玛 cpp, 只用 einslof 量化,只要六 gb 显存就能跑起一二 b 或一四 b, 甚至能构建支持网页搜索的本地 agent。 而如果你有三张四千零九十并行二十六 b m o e 版本的速度能达到惊人的每秒一百六十二个头啃。此外,通过实验性的 turbo quant plus 分 支,能把三十一 b 模型的体积从三十 g b 强行压到十八点九 g b, 让大模型在消费级显卡上跑起来。 最后是企业级生产环境,建议直接使用 v l l m, 它原生支持多模态输入和二五六 k 的 高吞吐量,并且完美兼容多卡并发。 开发者在实测中发现, v i l l l 搭配最新版的 transformers cool, 可以 非常稳定地调用 jam 四的工具接口,适合构建大规模的商业应用。在部署之前,有几个坑必须提前告知。首先是模态缺失,虽然官方宣传支持音频, 在目前音频输入请在 google ai studio 线上可用,所有的本地框架都还没适配。其次是稳定性问题,如果你使用 l m studio 运行三十一 bit n s 的 g g u f 版本,可能会遇到死循环输出的 bug, 建议等待社区修复。最后是能力边界,在处理复杂的函数调用时, e 二 b 和 e 四 b 这类小模型的表现不如同级别的竞品复杂任务建议直接上二十六 b 或三十一 b 版本。最后根据你的设备和需求 直接看这个部署。建议企业商用直接选 jam 四 high party 二点零协议让你没有任何法务后顾之忧。个人 pc 或游戏本用户强烈推荐二十六 b m o e 版本,单卡四千零九十就能跑通超长上下文,且响应极快。 mac 开发者请认准 mlx 框架,记得开启 turboqant 来解放统一内存。至于 i o t 创客 e 二 b 和 e 四 b 证明了六 gb 内存也能跑起。智能 agent 是 端侧智能的最佳选择。

首先有苹果手机的就可以在它 pos store 里面下载这个,嗯, google l h gallery 直接打开它,然后它可以要去 accept and continue 这个按键,然后点允许。首先第一个呢,它是有一个 ai 的 私人助理,可以跟他 ai 聊天。第二个就是 agent 的 skills, 你 可以装一些技能。 这里我已经开启了无网络模式,让他帮我规划一份亲密友爱系列,我们点开看一下, 然后他已经很快的输出了。

兄弟们,欧拉玛已经更新好了,杰玛斯的大模型也不朽完成了,一共四个模型,接下来挨个测试一下,所有的测试都是在这个电脑配置下完成的。第一个问题,介绍一下自己, 第二个问题,用李白的风格写一首 诗。 最后一个问题,经典的喜鹊问题 总结一下,四个模型都测了,最快的是一二 b, 最慢的是三十一 b, 四个模型第一次启动都有点慢,后续速度都还可以。 总的来说,回答质量最好的是三十一 b, 包括最后的一个洗车逻辑陷阱也自动识别出来了, 就是我这个配置运行起来实在是太慢太慢了,所以性价比最高的应该是这个二十六 b 模型。回答速度,回答质量都还可以,可以用在部署小龙虾,用来做个人的 a 键,挺好用的。后续再和千万三点五做个横向对比,记得点个关注。

大家好,我是根谷 open cloud 的 追马四欧拉玛全新的本地模型体验来了。欧拉玛最新更新的版本是 v 二点零啊,已经支持追马四,搭配 open cloud, 响应更流畅,速度更快,回车记出结果,支持常文本做任务处理,本地 i i 体验相当的不错, 要想流畅的体验,快去试试升级吧。首先教大家如何去升级吧,当你用这个积马四的话,你首先的显卡应该是十六 gb 上的啊,最好能够到三十六 gb 啊,我的电脑是一个一百二十八 g 的 全存和内存一体化的,是吧, m 四 max 的 最强电脑,所以说我运行这个东西是, 呃,我运行这个金马四二十六币了,这个模型是没任何压力的啊,欧拉玛兔啊,一定要用这个命令啊,金买四二十六币啊,你回车 他默认的会把它下载到你这个,因为我是下完了是吧,当然如果你下载很慢的话呀,你应该去做的有两个操作,就是应该是这么做的,应该是做那个去开他代理啊,这个代理应该是这么做啊,就是去去这么做 开这个代理啊,或者是你去那个把这个镜像设置为那个,设置为一层摩摩搭论坛的那个代理啊, 就是把它带代理到国内啊,如果你能够魔法上网的话,就不需要开代理了,因为我这边的网速是比较快,大概是下载了接近接近两个小时,一个半小时啊,大概是五到六兆每秒,他是七 gb 的, 他会下载哪个目录呢?你可以看一下这个目录啊,欧拉玛这个目录,呃, 首先它的模型会下载到这里,下载你其实不用管了,你可以打开你的欧拉玛,现在欧拉玛其实它又升级了一个小版本啊,就是零点零点二 两百啊,零点二点,零点二点零点二啊,这是今天最新版本,大家建议大家升级最新的版本。那我这里下载了两个模型比较好用,一个是 gbt 的, 一个是 o s s 二十 b, 一个是这个积满四,最新的二十六 b。 那 我发现这两个模型都非常快啊,你下完了以后,你一定要用欧拉玛浪琴去启动欧拉玛 浪去,他去启动这个欧风 club, 启动完了以后我这已经是启动了,启动了以后你打开这个小小龙虾的页面来,我给他做一道数学题目吧。啊,这个他不知道他能不能识别啊,哎,你看非常快吧,秒开吧,是吧? 然后他这个地方其实有错误啊,就是我应该去截个图给,不知道能不能截图过去啊?就是你,哎,就是就是就是,求解,这个一元二次方程, 不知道他能不能识别。这个啊,他已经识别出来了啊,这个是啊,我不知道这个结果是不是对的。 x 平方减五, x 加六啊,应该是没,应该是没问题的,对吧?一个是二,一个是三,对吧?对,非常快,然后这个数学题其实更难一些,就是这个勾股定力的这个,一个这个这个 啊,你看看一下,他应该是应该是很快的,一秒、两秒,两秒就出来了,这个比之前是快很多,我记得考了应该是三月 二十八号那个版本嘛,大概是一周前的欧拉玛这个版本和 opencall 的 最新版本啊,它大概是这样一个难度的速写题,要要五到八秒钟,如果是过年的那会大概是要一分多钟,所以说现在是非常快啊,非常快啊,就是我感觉比那个 api 都要快,所以大家尽可能去试一试啊。用它进行养虾的话, 那比如说,比如说我是谁啊?对吧?他应该很快就能够找到十二月份,是吧?年龄怎么怎么样?我觉得非常快,这个建议大家赶紧去升级吧。

不久前,谷歌发布了 jam 四系列,它不仅是一款开源模型,更是一次关于如何把超级大脑装进手机的工程奇迹。今天我们一起来看一下它是如何用不到四 g b 的 显存,跑出大模型的效果。 这里我们做了一个测试,使用三台手机在本地离线跑 jam 四 e 二 b, 屏幕上呈现的是这三台手机的测试数据,下面给大家看一下实际运行的情况。第一个加油问题, 第二个 g two 铜龙问题, 第三个字母出现次数问题。 可以发现,关于对常识的判断仍然是小模型的短板。然后这三台手机中, iqoo 十五的运行速度最快。 simon 四一共四款,覆盖从手机到工作站的所有场景。 a dos base 最轻量手机和树莓派都能跑,自带语音识别,量化后只要四 g 显存。 a, 跨出白瓷笔记本甜品级, 速度和能力之间的平衡点。二十六 b, 混合专家架构,总参数二五 b, 但每次只激活三点八 b, 用小模型的成本干大模型的活。最后是三 e b 单词,旗舰级模型,全参数推理,开源模型排行第三,适合有好显卡的用户。这里要讲一个关键的概念,单词和猫的区别, 单词密集型。你看屏幕上这些格子,全不在闪,因为每次推理所有参数都参与计算,三十一币就是三百一十亿次,运算一个不少。它的优点是稳,缺点是慢,而且吃显存。 切换 m o e 模式,注意看大部分格子暗了,只有几个在亮,这就是混合专家的精髓,模型里有一百二十八个专家,每次只派八个上场,剩下的待命。 最后说说它的边界,左边是强项,文档识别,发票解析,代码补全,长文档,问答 agent, 自动化任务,这些它都能做,而且跑在本地,意味着你的数据永远不用上传到别人的服务器。 右边是它的短板,如果你问它能否替代跨腾或 gpt, 答案显然是不行的,那能否进行高质量写作?这里我的回答是勉强可以,至于大规模的代码重构,那以它的能力还差得很远。 说白了, jam 四是一个极其出色的本地工具型 ai, 你 把它当高效工具用,它不会让你失望。如果你把它当全能大脑用,那你就会很失望。 想试的话,这里有两种方式,手机用户可以直接去 google 的 a i h gallery 上下载使用,电脑用户更简单,欧拉玛一键运行。下面我们来看如何用欧拉玛本地部署 jamal 四 e 四 b 模型,并使用 clogot 调用它。在 clogot 直接提问它是什么模型, 它是由谷歌训练的大语言模型,欧拉玛在首次请求时加载模型,加载耗时三十八秒,显存系统分配总计实际首先确保电脑上已经下载过欧拉玛,只需执行一行命令,欧拉玛 round gemma 四冒号意思币,等待模型下载完成,总计约九点六 g 币。成功后在终端测试。问答, 它是一个大语言模型,名字是 gemma 四,由 google deepmind 的 开发,属于一个开放权重模型系列。复制这个模型 id, 克隆项目源码, 进入项目目录,运行安装命令,下载完依赖后进入引导界面,颜色模式随便选。第四个是我们做的国产模型适配选择第三项,本地欧莱玛模型, 然后粘贴刚刚复制的模型 id 回车。确认到这一步配置成功。我们问个问题测试一下,现在已经调用成功已经登录的用户,想要切换模型,输入 logo, 退出登录,然后运行帮人 devi, 即可重新配置。我们最新版的 cloud code 已开源,大家关注评论获取。 目前呢,该模型权重在 hackin、 face 和 kaido 上都能下载。以上便是我对 gmail 四的实测解读,如果你觉得有用,不妨点个关注,我们下期再见。

谷歌这次是真的把掀桌子刻进了 d n a 这么四旗舰版,仅凭三十一 b 参数就在 reno 跑分和推理实测中硬钢七百 b 加的巨兽, 这意味着单张四十九零就能承载曾经需要集群才能跑出的性能。更绝的是协议变更彻底转向阿帕奇二点零,这不再是带着法律家族的开放,而是真正的开源自由。支持商用,支持币源二创,彻底清扫了企业及应用的合规阴影,配合二五六 k 超长上下文,支持币源二创,它不仅是一个模型, 更是开发者手中最趁手的智能体机座。别再纠结参数规模了, jam 四证明了效率才是未来的唯一硬通货。感兴趣的朋友欢迎评论区交流。

谷歌刚刚扔出了一个重磅炸弹,发布了新一代大模型 jam 四。面对这种自带大厂光环的新技术,很多人现在都在纠结,手头用的好好的 q n 三点五是不是该被淘汰了? 我们要不要赶紧跟风,换上谷歌的最新科技?先说结论,千万别盲目跟风,也别轻易换。 jam 四确实是个好东西,但它根本不是那种能解决所有问题的万能药。接下来的内容我会帮你算一笔账, 看完你就知道为什么老老实实用现有的工具反而更香。我们先来看第一局,也就是两者的性格差异。如果把这两个 ai 拉去参加选秀, jamie 四绝对是那个最受欢迎的选手。他的说话语气非常自然, 聊起天来很有人情味。而且他很擅长干活,比如帮你调用各种外部工具,或者把乱七八糟的数据整理成标准的表格。相比之下, q n 三点五更像是一个闷头刷题的理科状元。 虽然聊天可能没那么风趣,但如果你让他去做高难度的数学题,写复杂的程序代码,或者去考各种专业资格证, q n 三点五的硬核成绩往往比 jam 四还要出色。 接下来是第二个关键点,也是最容易踩坑的地方。常温阅读能力现在大家经常要让 ai 去读几十万字的财报或者小说,就非常考验 ai 的 脑容量。 jm 四采用的是一种死记硬背模式,他会试图把读到的每一个字都死死塞进脑子里,这会导致一个很严重的后果, 他对电脑硬件的要求高的离谱,如果你丢给他一篇超长文章,普通的电脑大概率会直接卡死甚至崩溃,你必须得买那种几万块钱一张的企业级显卡才供得起他。而 pin 三点五用的是一种非常聪明的压缩记忆方法, 他看书的时候会先提取重点,把荣誉信息压缩掉。同样是读一本厚书, q n 既能记住重点,又非常省内存,哪怕是普通的高配家用电脑,也能让他轻松读完几十万字的长文。所以,如果你经常需要处理长文档, 选 q n 能帮你省下买高级电脑的巨额冤枉钱。除了技术参数,还有一个非常现实的问题,就是中文语境的适应能力。虽然谷歌宣称简码四等一百四十多种语言, 但他的核心母语依然是英语。这意味着,在处理复杂的中文语境,甚至是咱们国内特有的职场黑化时,他偶尔会显得有点水土不服。另外,为了规避海外的法律风险,谷歌给他加了极其严格的思想钢印,有时候遇到一些稍微敏感的词,他可能就直接不理你了。 而圈三点五是土生土长的国产 ai, 他 对中文的理解,以及对国内职场和互联网生态的适应程度,可以说是稳如老狗,这也是他最坚固的护城河。 看完这些对比,该怎么选其实就很清晰了。首先,如果你属于这两类人,是可以立刻去尝试谷歌 jam 四的。第一类是家里有矿的高端玩家或者大型企业,你们手头有几万块钱一张的顶级显卡,根本不差这点硬件成本, 单纯想体验全球最前沿的 ai 技术。第二类是做跨国业务的团队,你们每天处理的都是纯英文邮件或者海外合同,这时候 jam 四那种地道的像真人的表达方式会非常有优势。 而对于剩下的绝大多数人来说,我建议你老老实实用。 q, 千万别折腾。首先是绝大多数的中文办公人群,不管是写公文、写短视频文案,还是日常的沟通, q one 最懂你的语言习惯。 其次是那些常问阅读的重度依赖者,比如律师、金融分析师或者是程序员,你们需要天天让 ai 看几万字的代码或者几十页的财报。选 q n, 你 的电脑才不会罢工。最后,如果你只是预算有限的普通用户,没钱买顶级电脑,但又想让 ai 跑得飞快, q n, 依然是你的最优解。 记住, ai 不是 拿来炫技的,是拿来干活的。哪个用的顺手,哪个不烧钱,哪个不卡顿,咱们就用哪个。

叮咚,家人们 ai 大 模型正式进入手机部署时代,昨天的视频呢,我跟大家说了,谷歌最新发布的加马斯模型可以直接在手机上面部署,今天我就来带大家实现它。首先咱们先看效果, 首先我先打开我的手机的飞行模式,可以看到我现在这个手机是没有任何的 wifi 和数据连接的,然后这时候我们回到 ai, 然后打开一个聊天窗口,我们问他一个问题,比如说帮我查一下苹果 ceo 库克, 然后他会问我们需要什么,我们选择一他的职业生涯和背景, 可以看到他直接就给了我们答案。按照我们正常逻辑思维来说,这些数据应该是在手机需要联网的情况下才可以给我们的答案,但是这个本地部署的大模型他就不需要联网,他就像一个活生生的人,他的脑子里面已经有这个记忆了,所以当你问他的时候,他可以直接就给你回答。 那么这样一个模型我们究竟要如何安装与使用呢?那我们现在开始首先第一步呢,就是我们要打开我们的应用商店,然后在应用商店里面找到这个软件,叫做 google ai gallery, 这是谷歌专门推出让我们使用扎马四模型的 app, 安卓用户也是可以下载到的,但是安卓的用户需要在谷歌 play 商店里面才可以下载,然后我们这里已经是下载好了这个软件,所以呢我们直接打开就可以了。 打开软件之后呢,你们会看到这个屏幕中显示的全是英文,并且软件的内部它是不支持我们去切换语言的, 很多人看到这里就已经开始头痛了,那我看不懂英文咋办呢?其实不用慌,因为这里面的功能其实非常的简单,完全也不需要用到翻译,而且当我们在跟语言模型对话的时候,它是完全支持我们中文对话的。 这里我们向下滑可以看到官方总共给了我们七个功能,从上向下分别是图像、语音、语言聊天、模型、花园以及手机操作。 我们就先从最基础的开始 ai chat, 也就是我们常用的文字聊天。那我们打开这个 ai chat 之后呢,可以看到它底下有五个模型给我们选择, 其中三个是胶码三,还有两个是胶码四,那我们这一次主要针对是胶码四,所以我们就选择上面两个胶码四,然后这个胶码四它分为 e 二 b 的 模型和 e 四 b 的 模型, 这两个我们要怎么去选?就是主要是看你的手机性能,如果你的手机性能稍微好一点,你就选择这个 e 四 b, 如果你的手机性能稍微弱一点,那我们就选择这个 e 二 b, 那 我现在演示的这个设备是十六 pro max, 那 我们就选择 e 四 b 这个模型。当然你在使用模型之前是需要先去下载的,所以我现在就点开这个 e 四 b, 点出来 it, 然后进入到模型之后给大家做一个演示。首先我们先给他打个招呼,你好吗? 哇,可以看到他这个回复速度真的是超级快,我之前一直认为这种手机跑的模型应该会很慢,没想到他的速度还是很快的。然后我们再问他一个,你是什么模型?你能为我做什么? 看到他这个吐字速度真的是超级快,那这个速度呢?对于我们大部分人来说已经是超越了我们的阅读速度的,所以如果你是日常聊天或者写写论文啥的,这个模型对于我们来说是完全足够用的了, 当然这只是最基础的文本聊天。那我们再去下一项看一下他的图像测试怎么样?那我们现在就已经到了他这个图像测试窗口了, 我先给他一张图片,这张图片呢是一张上海滩的图片,让他看一下他对这个地标啊,还有图片内的内容识别度如何。 ok, 在 经过大概五秒钟左右的思考,他已经给了我们答案,然后他说这是上海的城市景观没错,然后他说这是上海中心大厦, 这一点我不知道哎,他好像把东方明珠论成了上海大厦,虽然这两个地标中间只隔了零点八公里,但是我没有在图片中找到这个这个中心大厦这个东西, 然后他说这是独特的双层球体啊,那看到了是建筑认错了,但是其他的关于黄浦江还有其他的描述倒是正确的,就是单独认错了这个东方明珠和中心大厦这个地标建筑。 ok, 那 我们就再给他一张东方明珠的照片,但是这是我们给他夜景的照片,看下他识别度如何。 可以,他已经给了我们回答,他说这是上海的夜景,然后地标是上海中心大厦,那看来他还是认错了这个地标,他依然把东方明珠认成了中心大厦。 其实我不知道他这后面这个逻辑是什么,有没有一种可能,他是去网络上找了类似的图片,然后类似图片说这个地方是中心大厦,所以他就给我们说这个是中心大厦的,我觉得应该大概率是这样。 嗯,有知道的小伙伴可以打在这个屏幕上,那我们就先不纠结这一点,我们进行下一项测试, 现在我们来试一下他的语言听写能力,然后这次我们依然还是选择这个 e 四 b 模型,我先给他发一段语音,你好,你能听得见我说话吗?现在时间是北京时间四月九日,看他能不能给我们提取出来。 可以看到它已经完美的提取出来了我语音说的内容,并且没有误差,那看来它对中文的这个听写能力支持还是很强的。那我们进入下一项功能, 然后这个功能呢?叫做 agent skill。 相信大家对 skill 这个单词已经是很不陌生了, skill 是 什么意思呢?就是一个技能, 然后谷歌目前官方里面给我们默认是内置了八个 skill, 但是其实它最重要的是什么?最重要的是它这个 skill 是 允许我们自己再去添加的,所以我认为这是这个 app 里面最具有 可玩性的一个功能。就是我还记得前一段时间在网络上很流行一个叫做前任 skill, 就是 把自己的前任变成一个技能,然后放进他们的 open cloud 之中。那现在你不用放进 open cloud 了,也不用打开电脑了,直接在手机之中就可以操作了。嗯, 我相信后面会有很多人去专门为手机的这个开发 skill。 那 这个 skill 我 也就不多说了,因为目前我这里只有官方的八个默认 skill, 然后默认 skill 都是比较基础的啊,说的也没有太大的意义,大家自己后期自己去 自行尝试一下就行。然后我们来到下一个这个红色的按钮叫做模型实验室,这个应该是对于比较极客的玩家用的比较多,那我们大部分的普通玩家呢,是很少也几乎不会用到的一个功能, 所以我们这里就不过多传输。然后下一个绿色的这个是迷你花园,是谷歌官方出了一个专门用来语音玩游戏的一个小功能吧, 也没有什么好说的,因为他是英文交互吗?嗯,大部分人可能也就是藏着新鲜进去看一看,也没 什么好玩的。所以我们来到最后一个,也就是我认为第二可玩性比较高的一个功能,叫做手机操作,那他顾名思义呢,就是可以直接操作我们的手机,那我们现在点进去看一下, 那我们点进来之后可以看到他首页是说他有最基础的五个技能,第一个是开关手电筒,第二个是创建联系人,第三个是发送邮件,第四个是在日历中创建,第五个是 在地图中搜索,那这应该是最基础的,我不知道他有没有其他的功能,但是我们可以先把他的基础功能先试用一下展示一下给大家看。 我这里是让他打开了我的手电筒,然后他确实也打开了我的手电筒,然后我们来试一下,让他关闭手电筒,嘿,然后他也成功的关闭了我的手电筒,然后我们最后来测试一下他能不能在地图中展示, 可以看到他是直接调用了苹果官方的这个地图,然后打开了我要他搜索的地点,但是这个功能怎么如此的似曾相识呢?感觉有点像被前段时间被全网封杀了。豆包手机 太眼熟了,只能说太眼熟了。 ok, 相信大家看完以上的教学视频之后,都已经成功的安装好了手机端的胶码四,也对他的所有的功能呢都有了一个初步的了解, 在手机端部署大模型,不仅仅是拥有极高的隐私安全,还支持在没有联网的情况下使用,真的可以说是开启了一个 ai 的 全新时代。那么本期视频到此结束,咱们下期再见!拜拜!

大家好,这两天杰纳斯啊,非常热,有人说他是一个开源模型的一个新王者啊,到底是不是呢?我们今天可以来测一下,刚好这两天有一个特别重重要的一个新闻,就是说,呃, 捷豹四呃跟卡布扣的,在这个奥拉玛这个角度上可以做一个无缝的集成,只需要两步操作,第一步就是你装奥拉玛,然后呢下捷豹四的最新的 efo, 比如说我的这个笔记本电脑,它是 rtx 四零六零的一个显卡,它有八 g 的 显存,我这个机器有十六 g 的 内存。 那么这时候呢,我们就可以下它一个 efo 的 一个模型,也就是捷豹四 efo 大 概九点六 g 下,下来以后呢, 然后用再装一个 cloud code, 你 可以用那个,比如说你去 windows 一下,你可以用它的 cloud shell 命令啊,一键安装,安装好以后,你你可以用这个奥拉玛的一个集成命令,把 cloud code 让他去用本地的杰纳斯 eiffelb 的 这个模型,那就这条命令, cloud cloud 杠杠 model。 杰纳斯,然后呢他会先去 下载这个模型啊,他发现我已经下载过了,所以马上就成功了,然后他马上呢去启动这个 cloud code, 然后让他去用这码四这个模型,然后他会问你几个问题,最后呢就是会让你信任这个当前的这个文件夹。好,我们现在已经到这了,我也是刚刚装好,我们来试一下, 请帮我写一个写一个 hello word 的 htm 页面,并在默认浏览器中打开。 好,我们看一下啊,它的这个怎么样?它现在用的就是我们的本地的杰纳斯 infob 的 这个模型小模型啊,然后我们看一下它的一个 gpu 的 一个利用率啊, gpu 一 现在有百分之九十六,那跑满了,你看到了是吧? gpu 一 的这个利用率跑满了,我们看看它到底怎么样啊,哈哈, 它现在这个要显示 token 哦,出来了,大概花了不到两分钟吧。三分钟啊, and i will use the batch。 对, 它是先计划啊,然后 yes, ok, 那 现在 open yes, 继续 ok, require pool yes, 哦,打开了,看到吗? hello, word this is the basic html page。 那 好,我们再让它做一个稍微难一点的,我说写一个最简单的贪吃蛇游戏,并在 切神浏览器中打开,我们看一下啊, 一起创建。 ok, 我 们这样好,打开了,就是贪吃蛇,我看一下啊,可以看能不能玩。 ok, 这个是最简单的,还没有碰到。这个还没有,还没有开始就结束啊,就是不是还没有开始就结束,这个人最简单,但是我们已经看出来这个杰马四啊,他的一些这个功能,我觉得就是他的这个编程的能力啊,我觉得还是可以的啊,因为我这个是小参数模型呃,你不能对他有太高的要求。 ok, 那 么我们今天用这个 cloud code 和 java 四 evo b 这个,呃,一块编代码的。这个游戏呢,我们就告一段落了,我觉得它还是有点用的啊,有些很简单的任务,我们是可以用本地模型的,这样的话也节省非常昂贵的云端 api talk 的 费用。好,谢谢大家。

google deepmind 最近发布的 gemma 四带来了一个非常反常识的结论,模型的能力不太单纯,取决于参数规模的大小。数据证明, gemma 四的三十一 b 参数模型在数学、推理和编程这些硬核任务上 竟然直接飞平,甚至超越了那些参数量在二零零 b 以上的巨型模型。更离谱的是它的微变体二十六 b a 四 b。 这个模型虽然总参数有二十六 b, 但每次处理任务时,真正起作用的活跃参数只有三点八 b。 也就是说,它只用了三十一 b 模型不到十分之一的计算量,就跑出了百分之九十七的性能。这说明,只要架构设计足够高效,我们可以在极小的算力成本下获得极强的智能表现。 不过,这种效率提升并不是万能的,在需要复杂规划的长周期任务中,比如自动写代码的 s w e bench, 测试规模依然是王道。这意味着,架构优化能让小模型在特定任务上极其强悍,但要触碰智能的最高上限,总参数量依然是绕不开的物理基础。 要理解 jam 四的优化,得先看一个痛点,全是 former 模型。在推理时,最迟显存的不是模型权重, 而是 kv cache。 简单说,模型得把之前所有对话的记忆都存在显存里,上下文越长,显存占用越高,很容易直接称爆。针对这个问题, jam 四在一二 b 和一四 b 这类边缘模型中用了一个直接的办法, kv 共享发现深层网络中 相邻层学到的记忆表示其实高度相似,独立计算纯属浪费。于是他让后面的很多层直接附用前面层的计算结果,比如一二 b 模型有三十五层,其中二十层都在共享。这种精确附用直接砍掉了大量溶于计算,让模型能跑在算力受限的设备上。 不过,在三十一 b 这种大模型里, google 并没有开启这个功能,因为大模型需要每层独立计算来保留更多信息增益。 接下来是整个架构中最精妙的部分。 global attention 的 五重压缩全注意力计算是最昂贵的 logo, 为了把它压到极致,设计了一套环环相扣的链条。 首先,他使用 gq a 组查询注意力,把 k v h 的 数量压缩到八比一,但这会导致信息丢失。为了补回来,他把 key 的 维度直接翻倍,用更宽的向量来承载信息。 接着,他走了一步极端的棋,让 key 等于 value。 这意味着模型在解锁和读取时用同一套表示,不仅让 k v catch 再次减半,还起到了一种智能化效果,防止模型过密合。 但这样做在长文本下会产生位置编码失真。于是他引入了 pro p e, 只对百分之二十五的高频维度进行旋转,让低频维度纯粹保留羽翼,不再被位置造成干扰。 最后,他强制要求最后一层必须是大局注意力,确保输出的每一个词都能看到完整的上下文。这五步走下来,原本沉重的大局计算被压缩到了极限。 在位置编码上, jama 四采用了双 rope 机制,简单说就是给不同场景配了不同的尺子。对于局部滑动窗口,它使用标准 ope 参数 f 为一万,处理五幺二到一千零二十四个口径的短距离保证位置感知极其精准,而对于大局注意力, 它切换到 prope, 把 feta 猛增到一百万,并且只旋转一部分维度。这样在面对二五六 k 这种超长上下纹时,能够有效过滤掉远距离产生的位置噪声。 一套组合拳下来,模型既能处理好眼前的细节,又不会在长文本中迷路。接下来看一个非常独特的设计。 playa embedding, 简称 ple, 在 传统的 embedding 在 所有层里都是同一个, 这就要求这项量得预先编码好所有层可能需要的信息,这对固定维度的向量来说压力太大了。 pl e 的 做法是给每一个解码层都配一个独立的小型 embedded 表, 这意味着 token 每进入一层都会收到一个专属的信号。在一二 b 模型中,总参数虽然有五点一 b, 但真正参与计算的有效参数只有二点三 b, 剩下的二点八 b 全是。这些 embedded 表虽然在硬盘上占空间,但推理时只是简单的查表,几乎不增加计算量。说白了, 这就是用存储空间换取计算效率,让模型在保持二 b 级别推理速度的同时,拥有更强的表达能力。 最后我们来看看二十六 b a 四 b 模型的灵魂双路径混合架构,它和 q n 或者 glm 的 纯欧以不同,它在每一层都设计了两条并行的路。 第一条是 dance m l p 路径,这是一个不依赖路由的全量计算通道,就像一个稳固的底座, 提供最基础的信号。第二条是路由猫 e 路径,这里面有一百二十八个极其精细的小专家,每个 token 进来后,路由器会挑选最合适的八个专家来处理。这种设计非常聪明,它既有了 dance m l p 保证的稳定性,又利用了一百二十八个小专家带来的极高参数利用率。 相比于早期只有八到十六个大专家的模型,这种细腻度分发能让每个专家学习的模式更专注,从而在极低的活跃参数下依然能跑出接近大模型的性能 架构决定了效率,但训练决定了上限。目前一个行业共识是,通过蒸馏让大模型教小模型,效果远好于单纯的强化学习。 q 三采用了强到弱的蒸馏, clm 五则用跨阶段蒸馏来防止模型在学习新能力时忘记旧知识。 而 gemma 四的强大,很大程度上得益于他的老师是 gemini 三。 google 利用 gemini 三生成了海量的高质量的推理链数据,然后为给 gemma 四进行指令微调。说白了,小模型的能力上限,其实就取决于那个教他的老师有多强。 在训练管线上,三家公司走出了截然不同的路。最明显的差异在多模态式线上, gemma 四走的是原生融合路线。 他在预训练阶段,就把视觉的 y t 编码器和音频的控风的编码器直接揉进了模型里,让模型像人类一样,在同一个大脑里同时处理文字、图像和声音。这样端到端的响应速度最快,逻辑一致性也最强。而 g l m 五走的是工具调用路线,它的基础模型本身不处理图像, 而是像个调度员,需要看图时就去调用 g l m vision 这种专用模型。这种做法虽然在响应速度上稍慢,但灵活性极高,升级某个模态只需要更换对应的工具模型即可。 k y 三则采取了折中方案,将视觉能力交给独立的 vr 系列模型来承担。 最后聊聊量化,也就是怎么把模型压缩到手机或显卡上。大多数模型用的是后量化,也就是模型练好了,再强行把精度从十六位压到四位。这就像是强行瘦身,难免会损失一些能力。但 jam 四用了 q a t, 也就是量化感知训练, 他在训练过程中就故意加入量化造声,让模型在还没出场前就习惯在低精度环境下工作。结果就是像维利亚发布的斯比特福典版本,精度损失极小。这种在训练阶段就做准备的方案,比事后压缩要高效的多。 把数据摆在一起看,你会发现一个很有意思的现象,在数学推理测试 ai 米上, james 的 二十六 b 模型虽然活跃参数只有三点八 b, 但得分高达百分之八十八点三,这简直是效率奇迹。但你看 g i m 五,它凭借七四四 b 的 庞大体量,拿到了百分之九十三点三的最高分。 尤其是在需要复杂规划的 s w e bench 测试中, g l m 五毫无对手。这再次印证了我们之前的结论,在简单的推理和编程任务上,我们可以靠架构效率来以小博大,但如果要处理极其复杂的 agent 规划任务,总餐数量带来的规模效应依然是不可逾越的壁垒。 面对常文本处理,三家公司走出了完全不同的技术路线。 java 四采用了滑动窗口和全聚注意力的交互设计,目标只有一个,在保证能看到全文的前提下, 把单次推理的开销压到最低,追求极致的效率。听闻三则比较保守,坚持使用标准的全注意力架构,通过调整位置编码来扩展长度,追求的是极致的稳定和通用。 而 glm 五最激进,它用了 mla 和 dsa 这套双重压缩方案,彻底抛弃了传统的缓存方式,目标是让模型在处理超长历史记录的 a 帧任务时依然能快速回溯且不暴显存。 可以说,这三者分别代表了效率、通用和能力三个不同的工程方向。最后,我们给这三个模型做一个简单的定位总结,帮你决定怎么选。 如果你追求的是极致的性价比,希望在有限的算力下部署尽可能多的实力,那么效率至上的 jam 四是首选。如果你需要一个表现稳定、生态完善且能应对各种通用任务的助手,那么均衡的 q 三是最稳妥的选择。 而如果你是在开发一个复杂的 ai agent, 需要模型具备极强的长文本规划和代码编辑能力,那么专精于此的 glm 五则是目前的最佳答案。 回顾整个 jam 四的拆解,我们要记住三个核心结论,第一,参数效率的边界远比我们想象的要远,只要架构设计的好,小模型也能打赢巨无霸。第二,现在的开源模型竞争已经从单纯的参数竞赛转向了谁的蒸馏策略更好,谁的强化学习工程做得更深。 第三,这个世界上没有所谓的最优架构,只有最适合特定场景的权衡。对于所有关注 ai 基础设施的同学来说,与其盲目的推算力,不如花时间去理解不同架构的效率特性,这才是真正的竞争力。

杰玛斯完全可以直接部署在手机使用了,这里可以看到有多种使用场景。今天的测试环境,手机是飞行模式,完全断网。直接看看他在手机本地的运行表现。 发一段话过去,大家可以直观感受一下这个回复速度。这里我没有做任何剪辑加速,体感非常流畅。然后是多模态识别,随手拍一张照片, 它解析图片的速度很快,而且能把画面里的细节描述得比较准确。在断网的情况下,这个速度和理解度都很 ok。 再看它对系统指令的理解,我语音让它在地图中找到香港, 它能瞬间识别意图,并自动拉起地图。 a p p。 虽然因为没网,地图包刷不出来,但调用底层接口这个动作它是完成了的。 在游戏场景下,现在也可以用自然语言交互了。他完全理解了,并帮我完成了播种,这说明模型已经能跟应用逻辑层挂钩了。最后看下这个 prompt lab, 像改写语气、文本总结或者写代码,这些任务全都能在本地临县完成,其他功能等你们去测试。

hello, 大家好,我是 ken, 今天早上刚刚打开手机,我就兴奋的睡不着了。 google 刚刚发布了伽马四,一个可以本地部署的大模型,我的第一个念头是省钱了, 如果把它接入 openclaw, 从此在本地生产 token, 那 是不是就可以不用再被云端 ipi 一 点一点计废了呢?然后我花了一整天的时间来验证这个想法,结论有点出乎意料。先听我说完, 我在本地部署的是二十六 b 混合专家模型,二十六 b 代表着他拥有二百六十亿的参数。 混合专家模型的意思是,他不会一次性把所有的参数都用上,而是根据你的指令调动一小部分的专家来进行回答。这样的好处是推理的成本更低,回答的速度也更快。 这个版本在二十六 g 内存的 m 五芯片 macbook 上刚好能跑。这里 jam 四的几个版本呢?我也简单的跟大家分享一下。最轻量的是 e 二 b, 一个二十亿参数的模型,它在市面上大部分的设备上都可以运行。 那么 e 四 b 呢,是一个四十亿模型,运行它呢至少需要有十六 gb 的 内存。蓝血版是三十一 b, 拥有三百一十亿的参数能力最强,但是目前我手头的设备呢,都没有办法运行。目测 如果说要跑三十一 b 的 模型的话,至少需要三十六 g 的 内存。以我这一个月以来把所有的大模型接入到 openclaw 的 体感来看呢,二十六 b 版本我再应用下来,我认为它称日常工作是完全没有问题的。 截止到这里,一切都让我很兴奋。在 macbook 本地上跑通以后,我迫不及待的把它接入了 openclaw。 和我之前用其他大模型接入的体验不同, jam 四在接入以后没有那个互相了解定义角色的初识化环节,不过正常对话是没有问题的。那么问题来了,他能做些什么?说实话,就是个聊天机器人, 连在桌面创建一个 word 文档都做不到,更别谈生产力了。如果只把它看作是一个聊天机器人的话,那么在欧莱玛中直接运行反而比嵌入到 open cloud 中要更快,所以呢,还不如不用。 然后我掏出了我二零一七年的 windows 老本,这台机器呢,有十六 g 内存,按照 ai 的 建议,分别部署了 e 二 b 和 e 四 b 两个版本的模型。单独跑模型的话, e 四 b 这个四十亿参数的版本呢,每个回答要等待时间在十秒以上。那么 e 二 b 这个二十亿参数的小轻量级版本呢?如果是处理简单问题,基本上可以做到秒问秒答。 但当我把他们接入到 openclaw 之后呢,连收到两个字都没有办法回复,不管哪个版本,通通卡死。所以结论很明确,内存不够的设备不要尝试把 jam 四接入到 openclaw, 硬件是硬门槛,绕不过去。 总结一下今天的折腾,二十六 g 内存的 macbook 可以 本地运行,二十六 b 混合专家模型接入 openclaw 也能正常对话,但完全没有超出聊天机器人的额外生产力。 十六 g 内存的 windows 老本呢,接入 openclaw 可以 说是失败的,那么如果在本地运行呢?一二 b 和一四 b 两个版本都可以作为聊天问答机器人来进行本地使用。 我的判断是,如果内存能够达到三十六 g 以上,能够完整的跑下来二十六 b 混合专家模型,那么也许真的可以变为生产力。但是限阶段大多数人的设备都没有达到这个门槛。 本地部署不是不值得探索,但是要先看看自己的硬件设备有没有达到那个门槛,再决定要不要去折腾,不然的话结果可能会很打消你的积极性。 我是 ken, 专注用 ai 做可持续相关工作流的自动化。如果你对 ai 工具和自然语言编程感兴趣,请关注我,我们下期见。

以后谁还敢说手机跑大模型就是个噱头?街霸四才开园短短几天时间,一帮技术大神硬是整出了一堆离谱的本地部署邪趣玩法。从工作站到手机再到树莓派,全部都被拉出来疯狂压榨。有人竟然直接在手机上跑起了 a 阵子,装个 a 阵子 skills 应用,需要什么技能直接往里面倒。 他的团队基于 gemma 四搞出了 hermes agent, 全程本地推理执行纯离现实,不用交 a p i 的 过路费,也不用担心隐私数据的安全问题,甚至连树莓派这种小身板的边缘设备,他都能跑得毫无压力。更狠的是,有人把 gemma 四封装成了即插即用的开源智能体,这相当于不仅是把轮子给你造好了,还直接把一整套的免费 agent 的 方案喂到你嘴里。 如果你嫌手机跑不稳定,容易发热发烫,还有人开发出了跨设备的形态,用 type 六搞定内网穿透,打通 pc 和手机,让性能强悍的 mac 在 家里岁月静好的托管键盘四模型,在外面用 iphone 直接流逝,调用 全平台统一外部 ui 界面,手机端甚至不需要装任何臃肿的第三方 app, 出门在外随时随地调用家里的私有大佬,这简直就是把跨设备生态玩明白了! 要知道,这才是 jm 四开源短短几天的进度,手机 a 阵的离线编码、跨设备流势推理,各种玩法已经满天飞。关键是这次的 jm 四脑子还特别灵光。以前有网友总调侃本地部署就是人工智障玩具,但 jm 四证明了自己是全设备生产的利器。细思极恐,看来前置的旧手机还得继续涨价。

本地 agent 真的 开始成型了,现在有人直接把 opencloud 加 gm 四跑在 macbook air m 四上,而且是十六 gb 内存的普通机器, 速度还能到二十五 tock 每秒。这件事最猛的地方不是又多了一个 demo, 而是本地 agent 正在从折腾党玩具变成普通人也能跑的东西。不开云,不交订阅费,数据不出本机,隐私和成本一下都变了。 以前你觉得 agent 一定得上云,一定得中硬件,但现在 macbook air 这种清机器都开始接住了,本地 agent 时代可能真的要来了。我是硅谷赵博,关注我第一时间看懂硅谷最新动态。

现在小龙虾里面配的就是墨尔模型,就是剑马寺以四 b 奥拉玛的,我问他你是什么模型,有哪些功能? 下方剑马寺,然后看一下他配置文件里面怎么配置的, 配置文件里面这个 provide 的 就是奥兰马的,然后类似幺二幺,是本地的幺二七的点,零点零点一模型,这里佳木斯下载了谷歌最新的佳木斯模型, 我一开始下载的是二十六 b 的, 发现我的机器带不动,输入一个信息让他回复,要等了半天,好,差不多一一分钟吐几个头坑吧,太满了,带不动。所以我后来下了这个四 b 的 一四 b, 这个大小是九点六 g, 九点六 g 之前那个二十六 b 的是十七个 g, 然后测试了一下新的速度,就差不多可以用他现在这个推移,差不多是这样子,你发中文,他反正推移的时候都是思考,都是用英文思考的,但是他回复的时候他都是中文给你翻译回来了, 然后他的数据截止日期是二五年,一月份的就一年多以前的,还是给你们测试一下,看看他的速度啊,这头壳输出 这个是没有加速的啊,你看看。 然后我的机器配置是这样的,是那个 l l 的 那个 n 五的芯片内存只有十六个 g, 所以 二十六 p 那 个带不动。