google 的 专访室开园了,我在飞行模式的,我在我在飞行模式的环境下去做一下车本地部署的测试是在手机上部署的,现在是毫无联网的, 因为提前已经下载好它四 b 的 一个本地模式,看看能做些什么。 把模型加载好, 大概用了三点二分钟,这个五千次的读后杆其实还是挺快的。然后它有个图片识别功能, 这个图片识别功能能做什么呢?依然也是我们这个一四 b 的 模型啊,模型加载中 啊,能做些什么呢?我用它来反推其事实, 我给了一个场景图片,然后看他帮我们生成一个怎样的形式。 我,他可能还是有点 对中文的理解还是有点不够 好。极速词生成了,我们测试一下, 打开另外一个生图软件, 先把正面极速词复制进去, 然后再把负面积四十分,然后生成。这也是一个本地生图软件操作工具, 生成的效果好像不太理想, 这也跟其事实的关 系, 跟这个圆图好像差不多。 而且他有一个不好的地方,就是退出之后他找不回先前的聊天记录。 另外这绿色这个图标呢,它是一个录音的识别模式,功能就可以把一些录音发进去,他会帮你做个整理成摘药。 这个我现在没有录屏测试了,然后这个 a 准呢,就是类似于工作人员,其他几个功能还没有测试下来,测试完之后再发出来给大家。
粉丝215获赞1622

今天给大家带来手机本地部署大模型,无需网络支持 ios, 安卓无需特殊网络环境。当然了,今天部署的是谷歌最新发布的模型,小模型的性能大家都懂得,娃娃可以正当生产力,还需要等待发展一段时间,和电脑的本地部署是一个道理。 那么我们先进入 ios 的 教程其实非常非常简单。首先先进 app store 下载如图的应用 google ai edge gallery, 安装好之后,我们直接打开进入 ai 对 话, 会发现我们首次运行的时候会让你下载模型,因为我手上的这台设备是 iphone 十五 plus, 因此我选择下载这个折中的它推荐的二点五 g 的 模型, 等待它下载完成之后,我们可以和它对话看看。这个时候我进入飞行模式,把网络给关掉,它是完全本机运行的,会发现我们已经可以和它对话了,只不过在运行的过程中,它可能有点微微发热。当然了,小模型的智商就是这样,和它进行一些简单的对话是可以的。 那么接下来我们进入安卓的部分,然后我拿来做演示的这台手机是荣耀八零二, 在国产的安卓机上,我们有两种安装方式,第一是通过 apk, 也就是安装包进行下载,第二种方式就是你需要一些手段,对吧?上网的手段,然后进谷歌商店里进行下载,下载好打开之后和 ios 里的使用是一样的,我们首次进入的时候,点击下载模型,同样还是这个二点五 g 的, 然后就可以和他进行对话,我们可以问两个问题来看看效果,嗯,就比如说我离加油站五百米,我是应该开车去还是走路去看看他怎么回答? 最后我们就会发现没有说必须开车去,对吧?去加油站。所以说小模型的这个智商这一块肯定是和 ap 还远远比不了, 但是这也代表着这给我们一种可能性,随着科技的发展,模型的发展以及手机硬件性能的发展,拥有一台纯本地部署的 ai 助手将成为可能。那我们今天教程就到这里,非常简单,我们下期再见。

公主,你现在看到的就是谷歌最强的开源模型加码四,可以看图,能听音频,也有不错的推理机制,最重要的是完全免费,给我几分钟,从零开始,将加码四部署在自己的电脑上。我们直接开始 先花一分钟和大家聊一下贾马四是什么?它是谷歌刚发布的开源 ai 模型,跟商业版的怎么奈同根同源,你可以理解为谷歌把自家最强的 ai 技术浓缩成了一个免费的版本,直接送给你用。 那么它好在哪里呢?三个点。第一,多模态,不只是聊天机器人,你可以发图片让他看,发音频给他听,还能写代码。 我们可以看看这张表格,横轴是模型的参数体量,而纵轴就是性能表现。贾马四以满血版的性能表现和千万的三百九十七 b 的 模型能力基本持平,关键在于它的体量只有千万的十分之一,这真的非常夸张。 第二,完全免费,不用充会员,不按 token 收费,并且可以商用,你可以模改它做成各种有意思的本地模型,拿去做产品也没有任何的问题。第三,隐私安全,因为跑在你自己的电脑上,所有的数据都不会出,你的电脑拿它处理合同,财务,私人物件,不用去担心泄露。 ok, 我 们直接动手。你现在只需要打开一个浏览器,然后把它放到全屏上,直接官网上搜索欧拉玛点 com 啊,然后这个东西就出来了。然后你只要点击整个画面的一个右上角 download, 看到没有?然后你可以选择你是 mac os 系统还是 linux 还是 windows, 我是 mac os, 那 你就直接点击这个 download from mac os, 然后我们就可以看到这个画面上的右上角应该是会有个下载的链接, 然后等它下载好就可以了,因为我这边其实已经安装好了吗?那么我这边的最终的一个输出效果的话,大概是在这里。你们下载完了之后,打开你们的桌面上的欧拉玛,你们看到的应该是现在这样子的一个画面,那就说明你已经安装成功。 佳马仕一共有四个版本,你可以根据你的电脑配置进行模型的选择,模型的能力越强,所需要的配置就越高。对于内存小于三十二 g 的 玩家,我建议大家直接安装一四 b, 三十二 g 及其以上,可以试试看二十六 b 和三十一 b 的 参数量, 其实这两者模型的能力大通小异,如果你是为了极致的精度,可以选择三十一 b, 但是在我看来,二十六 b 呢,其实是一个非常甜点的位置,达到了速度和精度的一个平衡。如果你不知道你的电脑内存是多少,这里针对 mac 用户,你可以选择终端输入这行命令。 而 windows 用户你可以点击 win 加 r, 点击回车,召唤出来你的终端以后,然后再输入这个命令,也可以显示出你的内存。选择好对应的模型,我们只需要打开终端,和刚刚一样的步骤,根据模型输入指令直接回车即可。等待模型下载好,打开你的 oala, 选择模型就可以开始了。 ok, 我 们打开我们欧曼的软件,你点击这里,然后往下滑,你就可以看到你刚刚已经安装好的这个佳马仕。我们来问他一个很有逻,就是说很有那个逻辑陷阱的一个问题,就是我今天要去洗车,但是只有一百米,你觉得我是走路去还是开车去? ok, 我 们来看一下他的一个答复是怎么样子。 这是一个非常有意思的一个逻辑陷阱题,我们可以从不同的维度去分析。逻辑层面上来说,必须开车去, ok, 这一点已经很棒了啊。 那如果说是从脑筋急转弯角度上来说,他说如果你走路去,那么你是在散步,而不是在洗车。哦,也就是说他分为了三个维度,一个是脑筋急转弯,一个是实用主义层面,还有个就是逻辑层面。我们来看一下他这个佳马仕的这个逻辑能力。哎,你还真别说这小参数,但他的表现还是不错的。 那么 jamas 它的一个很大的优点就在于它其实是支持这个多模态的。我们来不妨给他上传张图片,我们来看一下。 ok, 那 么我们上传一张什么图片呢?哎,上传张这个图片,你们看怎么样啊?就是这是一朵花,然后有个太阳,有一本书,我们来让他看看。我说,啊,描述一下, 描述一下这个图片,我们来看看他的多模态识别能力怎么样?说实话,本地具有多模态识别能力的模型,而且是能够你自己去模改的,其实并不是很多。我们来看一下。 ok, 一, jeff 二,然后 jeff 三,给了几个他看到的一些画面。好,我看他现在在思考和输出。这张画面充满了诗意,唯美且带一丝忧伤。 画面主体是一本翻开的书籍。哎,确实是对的,背景与中景是一个画面,然后呢,躺着一只洁白的玫瑰,然后背景是有一个夕阳,散发出这个温暖的金橙色光芒,哎呦,很不错,你们发现没有,是不是很棒?就是说他好像 表达的还是很到位的,但是因为呃,我其实本来还是想测一下这个关于音频识别和这个视频识别的,因为这个佳马仕它也是支持视频识别的, 但是因为欧拉玛官方不太支持,所以大家可以自己去谷歌 as do do 上面去玩一玩。所以总的来说,其实通过这么两个比较简单的测试,它当然不够严谨,而我觉得感受来说的话,这个香奈儿丝还是 真的是能够在本地帮我们处理一些比较复杂的一些任务的,就是在文字层面以及去多模态识别能力上来说,是一个比较抗打的模型。 看到这里相信你一定会明白, olama 本身是一个模型管理器,你当然也可以不用贾马四,你可以选择开源的 deep stick, 千问等等,其他的开源模型还是同样的命令,一键配置就可以了。 本地捕鼠的最大优点就是保护你的隐私,模型的使用不会受到任何的限制,同时也可以支持模型的微调,让它更合你的口味。下期我打算教大家小白如何从零到一,微调自己的本地模型,感兴趣的可以点个关注,我们下期再见。

一分钟让你搞清楚关于全球最强开源模型 jam 的 一切。最近谷歌开源了 jam 四,我将用四个问题 让你清晰了解关于 jam 的 一切。 jam 各版本的区别,我家的电脑能用吗?模型怎么部署安装?普通人用来干什么?先说他的四个版本,三一 b 直接冲上全球开源 ai 榜第三名,以前要机房才能跑的能力,现在你家里的高端游戏显卡就能搞定。 轻量版的一二 b 和一四 b 为手机、平板以及中低端电脑设备打造,性能虽不是最顶级,但是绝对好用够用。而二六 b 猫号称总参数两百六十亿,但实际每次思考只用其中三十八亿个,最相关的效果却能媲美两百六十亿, 能理解超长文章以及视频。简单说,无论你是用手机、笔记本还是高性能电脑, jam 四都能给你免费安全强大的顶级模型体验。再说你家里的设备是否能用上?一张图告诉你 jam 四个版本的最低要求。 对于多数人而言,家用的电脑设部署一二 b 一 四 b 完全够用,基本能满足百分之九十的使用场景。另外两个版本对内存要求较高,但是性能出众,属于好马配好鞍。 再说模型安装,整个过程大概十分钟左右。首先下载 lm studio, 然后打开 opencool 或者 id 工具,让它查找你本地配置,给你推荐安装哪个版本。之后在 lm studio 里下载,运行搜索推荐的模型名点下载,最后接入 opencool 或者 i d e l m studio, 提供 open ai 兼容 api, 在 open 框里把 api 地址改成, h t t p l o c a o s t colon twelve three four slash vivo 就 能用 jama 四驱动你的 ai agent 了。 网上攻略一大堆,这里就不展开了。最后说下所有人最关心的能用 jama 做什么?这里推荐三个场景,可以去试试。第一, 构建本地知识库,把工作和学习相关的文件丢给本地 jama, 让他帮你形成系统化的知识。构建个人知识库时进行向量缩影和 anitive, 解锁数据不出本地,安全合规。第二,给家人搭建一个 ai 助手,下载好模型,配个界面,电脑手机都可以直接对话,不花钱不泄露隐私。第三,内容创作 最大优点是无限额度,即便不如部分付费模型,但可以靠大量尝试提升优质内容的概率。千马寺会改写国内企业及政府客户的私部模型格局吗?欢迎在评论区发表你的观点。

jama 四下载安装教程来了!本次大更新专门为移动设备用户推出了轻量化版本,所以是同时支持手机平板和电脑的。下载方法也是非常简单。首先点我视频右下角箭头分享或者复制链接,然后打开这个,没有的去下一个,下载好了后打开它会弹出一个文件包 进去找到 jama 四保存后下载就可以了。

gmail 四下载安装教程来了!本次大更新专门为移动设备用户推出了轻量化版本,所以是同时支持手机平板和电脑的。下载方法也是非常简单。首先点我视频右下角箭头分享或者复制链接,然后打开这个,没有的去下一个,下载好了后打开它会弹出一个文件包 进去找到 gmail 四保存后下载就可以了。

这个 g m 四挺火的嘛,我看了下,我看它采用了这个全新的架构优化,意味着它的这个性能可以和一些币源的模型拼一下了。 我自己啊也部署了一个玩,我部署的这个是二十六笔了,这个东西啊,是真的吃配置,我本来想把它接入到 openclaw 里, 替换掉了我现在用的这个 deepsafe resnar, 因为我现在用的这个模型啊,不是多模态了,我给它还接了一个千万来专门识别视觉信息用。我本来这次想用这个 jimmy 四直接替代这个 deepsafe 和千万 jimmy 还是本地部属,以后也不用花钱复淘看了。但是这个二十六 b 这个版本 太吃配置了,我把它接到 open klo 里,每次一运行啊,要么就是过十分钟才能给我回复消息,要么就显存直接爆了,根本啊,什么都干不了。我的电脑是五零七零 type 的, 要本地玩大模型还是差了一些,我感觉最少这个得五零八零才能勉强接到龙虾里用, 要是想体验到丝滑一些的话,估计得五零九零。所以啊,我就把它对我来说啊,就是一个本地可以聊天的机器人,没有什么用。 嗯,不过这次这个杰玛斯的这个亮点是他的这个二 b 和四 b 版的,因为他呢,在一些配置比较低的电脑还有手机上,他可以本地部署。不过我感觉目前这两个版本本地部署下来对大部分人来说也没什么用, 最多就当个聊天机器人,感兴趣的朋友可以去尝试一下用。自己部署很简单,你去奥拉玛网站下载个这个奥拉玛,然后你把奥拉玛打开,然后再在你的终端就是那个黑窗口输入一段代码,就能部署好了,这代码你们可以随便弄个 ai, 很 简单的。好了,今天就录到这了。

gmail 四下载安装教程来了!本次大更新专门为移动设备用户推出了轻量化版本,所以是同时支持手机平板和电脑的。下载方法也是非常简单。首先点我视频右下角箭头分享或者复制链接,然后打开这个,没有的去下一个,下载好了后打开它会弹出一个文件包 进去找到 gmail 四保存后下载就可以了。

google deepmind 最近发布的 gemma 四带来了一个非常反常识的结论,模型的能力不太单纯,取决于参数规模的大小。数据证明, gemma 四的三十一 b 参数模型在数学、推理和编程这些硬核任务上 竟然直接飞平,甚至超越了那些参数量在二零零 b 以上的巨型模型。更离谱的是它的微变体二十六 b a 四 b。 这个模型虽然总参数有二十六 b, 但每次处理任务时,真正起作用的活跃参数只有三点八 b。 也就是说,它只用了三十一 b 模型不到十分之一的计算量,就跑出了百分之九十七的性能。这说明,只要架构设计足够高效,我们可以在极小的算力成本下获得极强的智能表现。 不过,这种效率提升并不是万能的,在需要复杂规划的长周期任务中,比如自动写代码的 s w e bench, 测试规模依然是王道。这意味着,架构优化能让小模型在特定任务上极其强悍,但要触碰智能的最高上限,总参数量依然是绕不开的物理基础。 要理解 jam 四的优化,得先看一个痛点,全是 former 模型。在推理时,最迟显存的不是模型权重, 而是 kv cache。 简单说,模型得把之前所有对话的记忆都存在显存里,上下文越长,显存占用越高,很容易直接称爆。针对这个问题, jam 四在一二 b 和一四 b 这类边缘模型中用了一个直接的办法, kv 共享发现深层网络中 相邻层学到的记忆表示其实高度相似,独立计算纯属浪费。于是他让后面的很多层直接附用前面层的计算结果,比如一二 b 模型有三十五层,其中二十层都在共享。这种精确附用直接砍掉了大量溶于计算,让模型能跑在算力受限的设备上。 不过,在三十一 b 这种大模型里, google 并没有开启这个功能,因为大模型需要每层独立计算来保留更多信息增益。 接下来是整个架构中最精妙的部分。 global attention 的 五重压缩全注意力计算是最昂贵的 logo, 为了把它压到极致,设计了一套环环相扣的链条。 首先,他使用 gq a 组查询注意力,把 k v h 的 数量压缩到八比一,但这会导致信息丢失。为了补回来,他把 key 的 维度直接翻倍,用更宽的向量来承载信息。 接着,他走了一步极端的棋,让 key 等于 value。 这意味着模型在解锁和读取时用同一套表示,不仅让 k v catch 再次减半,还起到了一种智能化效果,防止模型过密合。 但这样做在长文本下会产生位置编码失真。于是他引入了 pro p e, 只对百分之二十五的高频维度进行旋转,让低频维度纯粹保留羽翼,不再被位置造成干扰。 最后,他强制要求最后一层必须是大局注意力,确保输出的每一个词都能看到完整的上下文。这五步走下来,原本沉重的大局计算被压缩到了极限。 在位置编码上, jama 四采用了双 rope 机制,简单说就是给不同场景配了不同的尺子。对于局部滑动窗口,它使用标准 ope 参数 f 为一万,处理五幺二到一千零二十四个口径的短距离保证位置感知极其精准,而对于大局注意力, 它切换到 prope, 把 feta 猛增到一百万,并且只旋转一部分维度。这样在面对二五六 k 这种超长上下纹时,能够有效过滤掉远距离产生的位置噪声。 一套组合拳下来,模型既能处理好眼前的细节,又不会在长文本中迷路。接下来看一个非常独特的设计。 playa embedding, 简称 ple, 在 传统的 embedding 在 所有层里都是同一个, 这就要求这项量得预先编码好所有层可能需要的信息,这对固定维度的向量来说压力太大了。 pl e 的 做法是给每一个解码层都配一个独立的小型 embedded 表, 这意味着 token 每进入一层都会收到一个专属的信号。在一二 b 模型中,总参数虽然有五点一 b, 但真正参与计算的有效参数只有二点三 b, 剩下的二点八 b 全是。这些 embedded 表虽然在硬盘上占空间,但推理时只是简单的查表,几乎不增加计算量。说白了, 这就是用存储空间换取计算效率,让模型在保持二 b 级别推理速度的同时,拥有更强的表达能力。 最后我们来看看二十六 b a 四 b 模型的灵魂双路径混合架构,它和 q n 或者 glm 的 纯欧以不同,它在每一层都设计了两条并行的路。 第一条是 dance m l p 路径,这是一个不依赖路由的全量计算通道,就像一个稳固的底座, 提供最基础的信号。第二条是路由猫 e 路径,这里面有一百二十八个极其精细的小专家,每个 token 进来后,路由器会挑选最合适的八个专家来处理。这种设计非常聪明,它既有了 dance m l p 保证的稳定性,又利用了一百二十八个小专家带来的极高参数利用率。 相比于早期只有八到十六个大专家的模型,这种细腻度分发能让每个专家学习的模式更专注,从而在极低的活跃参数下依然能跑出接近大模型的性能 架构决定了效率,但训练决定了上限。目前一个行业共识是,通过蒸馏让大模型教小模型,效果远好于单纯的强化学习。 q 三采用了强到弱的蒸馏, clm 五则用跨阶段蒸馏来防止模型在学习新能力时忘记旧知识。 而 gemma 四的强大,很大程度上得益于他的老师是 gemini 三。 google 利用 gemini 三生成了海量的高质量的推理链数据,然后为给 gemma 四进行指令微调。说白了,小模型的能力上限,其实就取决于那个教他的老师有多强。 在训练管线上,三家公司走出了截然不同的路。最明显的差异在多模态式线上, gemma 四走的是原生融合路线。 他在预训练阶段,就把视觉的 y t 编码器和音频的控风的编码器直接揉进了模型里,让模型像人类一样,在同一个大脑里同时处理文字、图像和声音。这样端到端的响应速度最快,逻辑一致性也最强。而 g l m 五走的是工具调用路线,它的基础模型本身不处理图像, 而是像个调度员,需要看图时就去调用 g l m vision 这种专用模型。这种做法虽然在响应速度上稍慢,但灵活性极高,升级某个模态只需要更换对应的工具模型即可。 k y 三则采取了折中方案,将视觉能力交给独立的 vr 系列模型来承担。 最后聊聊量化,也就是怎么把模型压缩到手机或显卡上。大多数模型用的是后量化,也就是模型练好了,再强行把精度从十六位压到四位。这就像是强行瘦身,难免会损失一些能力。但 jam 四用了 q a t, 也就是量化感知训练, 他在训练过程中就故意加入量化造声,让模型在还没出场前就习惯在低精度环境下工作。结果就是像维利亚发布的斯比特福典版本,精度损失极小。这种在训练阶段就做准备的方案,比事后压缩要高效的多。 把数据摆在一起看,你会发现一个很有意思的现象,在数学推理测试 ai 米上, james 的 二十六 b 模型虽然活跃参数只有三点八 b, 但得分高达百分之八十八点三,这简直是效率奇迹。但你看 g i m 五,它凭借七四四 b 的 庞大体量,拿到了百分之九十三点三的最高分。 尤其是在需要复杂规划的 s w e bench 测试中, g l m 五毫无对手。这再次印证了我们之前的结论,在简单的推理和编程任务上,我们可以靠架构效率来以小博大,但如果要处理极其复杂的 agent 规划任务,总餐数量带来的规模效应依然是不可逾越的壁垒。 面对常文本处理,三家公司走出了完全不同的技术路线。 java 四采用了滑动窗口和全聚注意力的交互设计,目标只有一个,在保证能看到全文的前提下, 把单次推理的开销压到最低,追求极致的效率。听闻三则比较保守,坚持使用标准的全注意力架构,通过调整位置编码来扩展长度,追求的是极致的稳定和通用。 而 glm 五最激进,它用了 mla 和 dsa 这套双重压缩方案,彻底抛弃了传统的缓存方式,目标是让模型在处理超长历史记录的 a 帧任务时依然能快速回溯且不暴显存。 可以说,这三者分别代表了效率、通用和能力三个不同的工程方向。最后,我们给这三个模型做一个简单的定位总结,帮你决定怎么选。 如果你追求的是极致的性价比,希望在有限的算力下部署尽可能多的实力,那么效率至上的 jam 四是首选。如果你需要一个表现稳定、生态完善且能应对各种通用任务的助手,那么均衡的 q 三是最稳妥的选择。 而如果你是在开发一个复杂的 ai agent, 需要模型具备极强的长文本规划和代码编辑能力,那么专精于此的 glm 五则是目前的最佳答案。 回顾整个 jam 四的拆解,我们要记住三个核心结论,第一,参数效率的边界远比我们想象的要远,只要架构设计的好,小模型也能打赢巨无霸。第二,现在的开源模型竞争已经从单纯的参数竞赛转向了谁的蒸馏策略更好,谁的强化学习工程做得更深。 第三,这个世界上没有所谓的最优架构,只有最适合特定场景的权衡。对于所有关注 ai 基础设施的同学来说,与其盲目的推算力,不如花时间去理解不同架构的效率特性,这才是真正的竞争力。

不用联网,不用数据,就在你的手机也可以用上 ai, 而且还是 google 新出的 gmail。 四、这款开源而且非常智能的模型,打开之后是有这样的一个页面, 它支持如下的这些功能,支持图片识别、上传图片,进行 ai 对 话,也可以进行语音转录,还有就是 ai 聊天以及配置 skill promptlab, 这个我目前还没尝试这个有兴趣的小伙伴可以去尝试一下。我这边操作一下,这个是我已经下好的模型,我现在把网断掉。你好,然后他是别称他是你,哈哈,我说你好,这回明白了,调皮的粘吗?

google jam 四来了,开放权重多模态能推理?今天给你讲透!先说结论, jam 四是 google 最新一代开放权重 ai 模型,四个版本,二 b 四 b 二六 b 三一 b, 最小的七个 g 跑在手机上,最大的二十 g 跑在服务器,但最炸的是中间这个二六 b。 二十六 b 用的是混合专家架构 moe, 总共两百五十二亿参数,但每次推理只激活三十八亿。 百分之十五什么意思?速度接近四 b 的 小模型,性能逼近三一 b 的 大模型,速度加性能,两个都要,这就是性价比之王。对比 jam 二三数学推理, a i m e 提升百分之三百二十九编程能力 code forces d l o 直接翻了十八倍长,上下文理解提升百分之三百九十二这不是挤牙膏,这是换了一辆车。 jam 二四还有个新能力 思考模式 system prompt 加一个 tiktok 模型,就会先内部推理再回答,加上全模态,支持文字图片音频视频一百四十多种语言,两百五十六 k 超长上下文, 最简单的上手方式,欧了吗?一行命令,欧了吗? run gemma 四直接跑,门槛低到离谱。 google 最新开放模型,双架构,四个尺寸,数学百分之八十九编成 elo 二一五零二十六 bmo, 性价比无敌。关注 gaker, 下期教你怎么让小龙虾使用这个模型。

谷歌最新开源模型 gemma 四,用 app 七二点零协议开源商用模改都没问题, 今天教你三步,把它装进自己电脑里,从此跑模型不花一分钱。 gemma 四有四个版本, e two b 二十三亿,参数四 g b 内存就能跑,只缺图片和音频输入,手机都能带动。 e 四 b 四十五亿,参数六 g b 内存,适合日常聊天。 二十六 b 是 混合专家架构,总参数二百五十二亿,但每次只激活三十八亿。十八 g b 内存性价比最高。 三十一 b 满血版三百零七亿,参数全激活,跑分最猛数学推理八十九点二,编程能力八十百三、 一句话总结四 g b 跑一 two b 六 g b 跑一四 b 十八 g b 跑二十六 b 二十 g b 以上跑三十一 b 第一步,安装欧拉玛 mac 用户去官网下载或者用 homebrew 安装, windows 用户打开 powershell 一 行命令搞定。 欧拉玛是目前跑本地模型最简单的工具,模型下载推理引擎 api 服务全包了。第二步,拉取模型, 打开终端,输入欧拉玛瑙,加上你选的模型版本,比如 gemma 四、二十六 b, 欧拉玛会自动下载并启动对话。第三步,开始聊天,下载完成直接进入对话界面问一句,看到回答就成功了。 三步搞定几个加速技巧 mac 用户欧拉玛最新版会自动使用苹果 m l x 框架,推理速度翻倍。 n d d 用户欧拉玛零点一九,支持 nv f p 四格式用更少显存跑模型 r t x 四十合系以上自动生效。最后附上常用命令,欧拉玛 list 查看已下载模型 olama ps, 查看运行状态 olama stop 释放内存总结一下, gemma 四是目前最值得本地部署的开源模型之一, 阿帕奇二点零协议 olama 三部安装,根据内存选版本就行。赶紧试试吧,免费的 ai 不 用白不用。

谷歌刚放出来的 jam 四用的 apache 二点零协议,不管是商用还是魔改都随便用,三步就能装自己电脑里,以后跑模型一分钱不用花 它。四个版本对应不同配置,四 g 内存就能跑二点三 b 版本支持图文音输入,手机都带得动。六 g 内存选四点,五 b 版本日常聊天够用,十八 g 内存上二十六 b 混合专家版性价比最高, 二十 g 以上直接充三十一 b 满血版,推理编程能力拉满。第一步,装 alama 苹果电脑,去官网或者 homebrew 装 windows powershell, 输一行命令就行,工具全包了。第二步,终端输 alama run, 加你选的版本自动下载启动。第三步,直接聊天,出回复就成,现在就去试免费的 ai, 不 用白不用。

jama 四下载安装教程来了!本次大更新专门为移动设备用户推出了轻量化版本,所以是同时支持手机平板和电脑的。下载方法也是非常简单。首先点我视频右下角箭头分享或者复制链接,然后打开这个,没有的去下一个,下载好了后打开它会弹出一个文件包 进去找到 jama 四保存后下载就可以了。

谷歌刚公布了基于二零二六年初实测的 demo 四本地部署指南。想在自己电脑上跑大模型,门槛其实比你想象的低得多。 只要你有一张六 g 显存的普通显卡,或者一台十六 g 内存的 mac, 就 能轻松上车。这个底线配置足够你流畅运行,量化后的一四 b 版本,它满打满算也就占四到六个 g 的 显存。那如果你手里的设备配置更高, 具体能跑多大的满血模型?接下来我们直接按硬件档位对号入座。我们先看大部分人用的六到十二 g 显存的中低端显卡,比如三千零六十到四千零七十这个档位,老老实实跑一四 b 版本最稳。很多人显存有个七八 g, 就 想硬去尝试大模型的量化版, 结果往往是一对话就报错卡死。因为你必须从这点显存里扣出一块空间,留给 ai 处理上下文。 如果你手里是十二 g 到十六 g 的 高端卡,比如三千零八十或者四千零八十,这就跨过了二十六 b 模型 a 四 b 量化版的最低门槛。显存容量算是过关了,但别高兴太早, 模型加载进去之后要随时盯着,每秒能吐几个词。简存刚够的情况下,推理速度有可能会让你等的很心焦。至于二十四 g 甚至更大简存的四千零九十或五千零九十,土豪玩家可以直接上三十一 b 的 满血大模型,它的基础占用在二十到二十四 g 左右。 但这里有个大坑,即便你显存再大,如果你一次性喂进去几万次的长温档,或者进行疯狂的多轮长对话,照样会把显存撑爆爆错退出。接着看苹果 mac 用户,十六 g 或者十八 g 统一内存的基础款,统统优先跑一次币。苹果不同带芯片的区别在这里,很明显, m 二和 m 三因为起步是十八 g, 它的实际推理效率会明显压过老款的 m 一。 如果你硬拿十六 g 的 m 一 去跑二十六 b 模型,电脑会被榨干,整个系统都会变卡。 预算充足的 mac 用户优势就完全体现出来了。三十二 g 内存以及能非常流畅的玩转二十六 b 量化版到了六十四 g 以上,这就成了目前最强的便携推理机。二十六 b 和三十一 b 随便跑。要是上了幺二八 g 的 m 三 ultra, 不但能跑顶级大模型,几个人同时发请求都不会排队卡顿。选好硬件后,有一个多数新手必踩的坑。模型页面标称的显存占用只是个起步价。当你开始聊天,历史记录越来越长,内部的 k v k 机制就会像无底洞一样治疗你的剩余显存。 系统本身还要占用一部分,官方给的都是刚加载完的静态数据,真跑起来,必须预留几笔额外的显存帐,最后破除一个对硬件的误解。 mate 的 内存确实动不动就能配到几十上百 g, 功耗也低的吓人。但是苹果的统一内存受限于物理带宽,它就像一个水库很大但出水管不够粗的系统,跑同一个模型,它的生成词汇速度通常还是比不过同容量的 pc 独立显卡的。

jama 四下载安装教程来了!本次大更新专门为移动设备用户推出了轻量化版本,所以是同时支持手机平板和电脑的。下载方法也是非常简单。首先点我视频右下角箭头分享或者复制链接,然后打开这个,没有的去下一个,下载好了后打开它会弹出一个文件包 进去找到 jama 四保存后下载就可以了。

谷歌最新开源的大模型 demo four 据说很强,在综合能力上甚至超越了二十倍规模的开源模型。 今天教大家如何快速部署在本地,以及分享一下在 mac mini 上的实际体验感受,具体感受什么样?大家看视频吧。首先打开欧拉玛官网,下载它的应用程序, 打开应用程序,我们看一下他目前支持的一些免费的开源模型,还没有 demo, 所以 我们需要去他的官网再去下载下载到本地。那么这里呢,有很多不同的型号 可以看一下,它有很多不同参数的型号,有满配的,还有一些轻量版的。那因为我这个是 mac mini m 四十六 g 版本,所以我们就选择它系统默认推荐的这个九点六 g 的 好,只需要复制这个指令,然后打开终端运行,它就会自动去下载 这里下载了。那么我们先测试一下, 测试一下他的回复速度,因为是第一次响应,所以速度会有点慢,然后我们打开活动监视器,看一下他占据内存的情况, 这个模型本身就有实际系统走内存差不多也跑满了,这里他已经有回应了,我继续再测试一条, 第二次响应速度要比第一次快很多, 我叫 jam 四,我是一个由谷歌 deepmind 开发的。 ok, 现在我们打开欧了吗?然后去加载一下,这里要重启一下这个程序,然后再看模型选择,里面 最下面就已经有了已经安装好的,现在我们把这个模型对接到本地的小龙虾,只需要复制这个指令,打开终端,在终端里面运行,它就自动会加载好, 这里有不同的模型选择,都是他支持的一些免费的大模型,我们选择 demo 让他去运行。 ok, 这里已经加载好了,测试一下他的响应速度。 这里我是放了八倍速了,说实话,因为实在是太慢了,他平均回复一个问题的速度差不多要两分钟, 非常非常慢。我本来想在这个小龙虾里面测试一下他的执行任务的能力,但是这个速度的话确实没有办法, 但是它有个好处啊,如果你有低血压的话,你就可以用它。我是动物城朱迪警官,你好吗?我过得还好,不错,谢谢。这里我甚至尝试开启快速模式, 但是实际的感受没什么变化,就还是那么慢, 所以只能放弃在这里面做测试了。那么我们还是回到欧乐玛,在这个软件里面测试一下这个模型本来的能力。这里给他放两张图,让他识别一下图先, 一个是标格,一个是周杰伦,看一下他能不能准确的识别。 这里我也是开了倍速的啊,但是这里的速度要比小龙虾里面快很多, 我给他给出的答案是,图二是陈坤,图一是一名中国艺人, 看来这个版本的模型识图能力还是有点差。接下来测试一道经典的陷阱题啊,这个对大模型来讲是一道陷阱题,很多大模型都倒在了这道题上面, 那么他给的建议是走路去,最后测试一下他的复杂推理能力, 这道题是我让 gbt 五点四给我出的一道推理题。 abc 三人中恰好有一人是骗子,永远说假话,另外两人永远说真话。他们各自说了一句话, a 说 b 是 骗子, b 说 c 是 骗子, c 说 a 和 b 至少有一个是骗子, 请问谁是骗子?给出答案,并且给出完整的推理过程。好,他给出的推理过程和答案我跟 gpt 五点四给的标准答案对比了一下,是一样的, 所以它的复杂推理能力还是可以的。 ok, 总结一下实际体验感受啊,你如果是 mac mini m 四十六 g 版本,虽然能运行,但是它会把你的内存拉满,就是你的电脑会一直处于满负荷的状态,而且响应速度也很慢,所以使用感受是很差的。 当然,如果你的电脑配置足够高的话,你是可以去尝试部署在本地的,因为它的响应速度肯定要比我这个要快很多。而且你还可以尝试去部署它的满配版,比如三十 e b 那 个版本, 能力应该是要比这个强不少。