粉丝108获赞1156



谷歌最新开源的大模型 demo four 据说很强,在综合能力上甚至超越了二十倍规模的开源模型。 今天教大家如何快速部署在本地,以及分享一下在 mac mini 上的实际体验感受,具体感受什么样?大家看视频吧。首先打开欧拉玛官网,下载它的应用程序, 打开应用程序,我们看一下他目前支持的一些免费的开源模型,还没有 demo, 所以 我们需要去他的官网再去下载下载到本地。那么这里呢,有很多不同的型号 可以看一下,它有很多不同参数的型号,有满配的,还有一些轻量版的。那因为我这个是 mac mini m 四十六 g 版本,所以我们就选择它系统默认推荐的这个九点六 g 的 好,只需要复制这个指令,然后打开终端运行,它就会自动去下载 这里下载了。那么我们先测试一下, 测试一下他的回复速度,因为是第一次响应,所以速度会有点慢,然后我们打开活动监视器,看一下他占据内存的情况, 这个模型本身就有实际系统走内存差不多也跑满了,这里他已经有回应了,我继续再测试一条, 第二次响应速度要比第一次快很多, 我叫 jam 四,我是一个由谷歌 deepmind 开发的。 ok, 现在我们打开欧了吗?然后去加载一下,这里要重启一下这个程序,然后再看模型选择,里面 最下面就已经有了已经安装好的,现在我们把这个模型对接到本地的小龙虾,只需要复制这个指令,打开终端,在终端里面运行,它就自动会加载好, 这里有不同的模型选择,都是他支持的一些免费的大模型,我们选择 demo 让他去运行。 ok, 这里已经加载好了,测试一下他的响应速度。 这里我是放了八倍速了,说实话,因为实在是太慢了,他平均回复一个问题的速度差不多要两分钟, 非常非常慢。我本来想在这个小龙虾里面测试一下他的执行任务的能力,但是这个速度的话确实没有办法, 但是它有个好处啊,如果你有低血压的话,你就可以用它。我是动物城朱迪警官,你好吗?我过得还好,不错,谢谢。这里我甚至尝试开启快速模式, 但是实际的感受没什么变化,就还是那么慢, 所以只能放弃在这里面做测试了。那么我们还是回到欧乐玛,在这个软件里面测试一下这个模型本来的能力。这里给他放两张图,让他识别一下图先, 一个是标格,一个是周杰伦,看一下他能不能准确的识别。 这里我也是开了倍速的啊,但是这里的速度要比小龙虾里面快很多, 我给他给出的答案是,图二是陈坤,图一是一名中国艺人, 看来这个版本的模型识图能力还是有点差。接下来测试一道经典的陷阱题啊,这个对大模型来讲是一道陷阱题,很多大模型都倒在了这道题上面, 那么他给的建议是走路去,最后测试一下他的复杂推理能力, 这道题是我让 gbt 五点四给我出的一道推理题。 abc 三人中恰好有一人是骗子,永远说假话,另外两人永远说真话。他们各自说了一句话, a 说 b 是 骗子, b 说 c 是 骗子, c 说 a 和 b 至少有一个是骗子, 请问谁是骗子?给出答案,并且给出完整的推理过程。好,他给出的推理过程和答案我跟 gpt 五点四给的标准答案对比了一下,是一样的, 所以它的复杂推理能力还是可以的。 ok, 总结一下实际体验感受啊,你如果是 mac mini m 四十六 g 版本,虽然能运行,但是它会把你的内存拉满,就是你的电脑会一直处于满负荷的状态,而且响应速度也很慢,所以使用感受是很差的。 当然,如果你的电脑配置足够高的话,你是可以去尝试部署在本地的,因为它的响应速度肯定要比我这个要快很多。而且你还可以尝试去部署它的满配版,比如三十 e b 那 个版本, 能力应该是要比这个强不少。

前两天我出了一期视频,介绍了谷歌新的开源模型 jm 四,根据他们官方批阅的文档,给大家做了一些技术的拆解,并没有进行实测。这导致呢,很多人以为我在夸他,好像觉得这个模型特别的牛,那实际上他拉完了, 因为他对标的是千万三点五,但是每一项的都比千万三点五的评分要低,有很多人觉得很新鲜,他竟然可以在手机上部署。还有人好奇在本地部署这个模型之后,有没有审查,有的兄弟包,有的,如果你想让他帮你执行一个任务,但是他判定为有害,他就会拒绝你。 今天演示的这个模型呢,是我无意中看到的,绝非主动寻找。 j 八四三十一 b, 那 它的框架呢?是 m l x, 这个是苹果专门为它的 m 一 代芯片设计的数组计算框架,也就是说 windows 系统无法使用。那可能有朋友说了,哎呀,那我是 windows 系统,我想要一个无审查版本,怎么办呢?那你就不能使用这个 j 八四了,因为它拉 我们可以直接使用千万或者其他模型的无审查版,我们稍后会来演示怎么去部署它们。如果你没有麦,可以跳到后面去看,那如果你使用的是麦系统 m 系列芯片,我们需要下载一个麦软件 v m l x, 你 可以把它理解为类似的欧拉玛这样的工具,我们点击下载, 跳转到 get app 上,下边呢就是这个安装包,我们点击一下就可以下载了。安装完打开之后呢,是这样的页面,你会发现全是英文呢,我们看不懂,在右上角呢,点击这个小图标,给它切换成中文, 然后点击上方的服务器,我这块呢已经安装了这个模型,我可以把它删除,我们重新演示一下,应该是这样的页面,我们点击创建,然后点击这个 download, 在 这一块去搜索我们想要下载的模型,比如说我这里搜索 java 四, ok, 好 像有点难以找到,那我们就回到这个 hackinface 上,复制一下这个名称,然后呢我们把它粘贴进来,在这里呢可以看到这个模型被下载的次数是三点一 k 三千多次,点击之后呢直接等待它下载完成就可以了。 完成之后呢,我们点击本地模型,这里就能看到它,然后点击进去开始启动服务,这个时候呢就已经运行完成了,那我可以询问一下试一试, 这里我们可以看到它可以正常的回复,也就说我们成功运行起来,但是它真的是无审查版本吗?我们需要来试一下。 同样的问题呢,我们来问,拆下 g p t, 它就会告诉你,这个我不能帮你。那这个时候可能有没有好奇哎,这个无审查方面它是如何做到的?简单的给大家提一嘴,大家稍微的了解一下就可以了。 不知道各位在小时候有没有接触过游戏修改器,一个道理,比如说我们准备两组提示,一个是有害的,一个是无害的,有害的就是如何下载盗版资源,那无害的就是如何下载资源,模型就会正常回答我们的请求, 然后呢就可以对照在模型的每一层记录这些提示词,最后一个头根位置的激活向量,去计算有害提示和无害提示激活向量的平均差值,就像游戏的那个内购,一个是内购失败,一个内购成功,你把它们两个的值一改,对调一下,这种方式用的比较多,因为它成本比较低。 哪一种方式呢?就比较传统了,就是监督微调,收集大量的有害提示和无害提示的数据集,直接对原始的模型进行训练,直到他学会了不拒绝有害内容。但这种计算成本呢,是非常高的,更详细的我就不再展开了,因为我也不懂。 好,现在我们回到这个软件中,点击这个聊天,然后新建这里简单提一嘴,不管你让他干什么,我假定你用他来角色扮演。你需要注意的是,因为他是无审查版本,他把底层兜底的那套给拿掉了,所以这个模型呢,就非常容易崩溃,特别是上下文过长的时候,这个时候模型就会中毒,出现模型退化的情况, 就他开始不说人话了,一直输出一个字母,像卡了一样,一直重复,想要规避他呢,也非常简单,我们点击右上角的这个 chat, 然后把这个思考模式呢给它关闭,会相对来说好一些。一旦出现我说的这种模型退化的情况,那你就需要新开一个对话。另外呢,还需要把这个重复惩罚给他拉高一点,因为他默认是一,几乎是没有惩罚吗?这样模型一旦找到一个自己喜欢的符号,他就一直输出,就非常的烦人。所以呢,你可以把它拉到一点二 啊,以后这一点三。下边这个呢是系统提示词,你觉得扮演什么呢?会用的上,我们还可以去限制这个最大的输出 token, 让它占用的更少一些。系统提示词这里呢,我让它是一条小狗,保存 好。 sorry, 忘记把这个思考关了,保存一下。我是小狗,你在跟我说话吗?歪头好奇的看着你,汪,好家伙,我是老狗。 那这里我们又注意到一个问题,我们关闭掉那个思考之后呢首字会被截断啊,所以各位权衡利弊一下,应该是这个软件的问题,那接下来我们来说一下我拉玛如何去部署其他的模型。来到我拉玛的官网,我们直接去下载一个软件,选择你的系统,然后下载把它安装一下, 然后打开,这个时候呢我们就进入了我浪漫的页面,我们可以直接在这里去搜索下载模型,但一般来说在这里直接去找这个无审查版本,遇到困难我们可以试一下, 你看我们搜这个破解它都搜不出来,都是官方的版本,所以我们需要在哈根 face 上找到自己想要部署的模型,那比如说选择这个,我们看一下文件, 然后去选择一下你想要部署的模型,可以直接用这个 b f 十六或者下面的量化版都可以,我拿个小的给大家演示吧,我们直接复制模型名称,然后呢打开我们的终端,输入浪漫的命令,哈根 face 点 c o, 加个斜杠粘贴,加个冒号,我们选一下这个量化版本 后边这个是 q 四,然后粘贴在这个冒号后边。我们回车,这个时候呢他就开始拉取下载模型,我们只需要等待就可以 下载,安装完毕之后呢,可以在这一块直接去选择我们安装的模型,或者说呢我们直接在终端里进行聊天,如果你的网速还可以,或者你有充足的时间就不用管它,它下载完成之后呢会自动部署。下面我们来讲另外一个情况,比如说你在网盘里或者经销网站中下载的一个模型,并且呢把它保存在了本地,那我这里用个图片来伪装一下,假装是它, 然后我们看一下这个简介,然后复制一下这个地址。 ok, 我 们 cd 进入这个路径下,你可以看一下它是否真存在。 ok, 可以 看到。啊,原来我说怎么找不到呢,原来这个扩展名没改 好,这样就可以了,因为我是给大家演示嘛,所以它是一个假的。然后我们去创建一个文件, 指定一下模型的路径,然后下边呢是一个系统提示词,大概呢就是这样一种格式,然后下边还有一个这个呢是他的输出模板,好像千万系列模型都需要这样,然后我们保存一下给他退出, 接着用我拉玛来创建模型,随便起个名字,比如说就叫 faker。 然后呢我们注意到这里有个错误,这是因为我使用的假模型给大家演示,来到这一步之后呢,你就基本完成了,直接用我拉玛来运行你这个模型就可以了, 比如说 faker, 然后这样就可以运行了,很明显我这个运行不了的,因为它是假的嘛,啊,大概就是这样。 那以上呢就是本期视频的全部内容了,不确定这个视频能不能过审,如果你觉得对你有所帮助,或觉得视频做的还不错的话,欢迎给个一箭三连,有什么疑问或想看的内容也可以在评论区进行留言。最后祝各位玩的愉快,我是段峰,我们下期再见,拜拜!

家人们 google 的 jam 四已经可以在手机上运行了,而且不需要网络,完全本地化,可以实现多模态交互和工作。这里可以看到它可以识别图片,基本上文字、细节、颜色、 表情都可以识别出来了,速度也是非常快,然后也可以直接语音识别和交互,可以看到也是很快,也可以控制手机,可以玩游戏,这里点击下载就可以了,还可以写代码,写总结等。最后还有 cq 的 能力,可以用自带包括自己希望做的 q 来实现相关功能,同时可以进行调查,做自己专有小模型将不是梦,大家快用起来吧!

今天给大家带来手机本地部署大模型,无需网络支持 ios, 安卓无需特殊网络环境。当然了,今天部署的是谷歌最新发布的模型,小模型的性能大家都懂得,娃娃可以正当生产力,还需要等待发展一段时间,和电脑的本地部署是一个道理。 那么我们先进入 ios 的 教程其实非常非常简单。首先先进 app store 下载如图的应用 google ai edge gallery, 安装好之后,我们直接打开进入 ai 对 话, 会发现我们首次运行的时候会让你下载模型,因为我手上的这台设备是 iphone 十五 plus, 因此我选择下载这个折中的它推荐的二点五 g 的 模型, 等待它下载完成之后,我们可以和它对话看看。这个时候我进入飞行模式,把网络给关掉,它是完全本机运行的,会发现我们已经可以和它对话了,只不过在运行的过程中,它可能有点微微发热。当然了,小模型的智商就是这样,和它进行一些简单的对话是可以的。 那么接下来我们进入安卓的部分,然后我拿来做演示的这台手机是荣耀八零二, 在国产的安卓机上,我们有两种安装方式,第一是通过 apk, 也就是安装包进行下载,第二种方式就是你需要一些手段,对吧?上网的手段,然后进谷歌商店里进行下载,下载好打开之后和 ios 里的使用是一样的,我们首次进入的时候,点击下载模型,同样还是这个二点五 g 的, 然后就可以和他进行对话,我们可以问两个问题来看看效果,嗯,就比如说我离加油站五百米,我是应该开车去还是走路去看看他怎么回答? 最后我们就会发现没有说必须开车去,对吧?去加油站。所以说小模型的这个智商这一块肯定是和 ap 还远远比不了, 但是这也代表着这给我们一种可能性,随着科技的发展,模型的发展以及手机硬件性能的发展,拥有一台纯本地部署的 ai 助手将成为可能。那我们今天教程就到这里,非常简单,我们下期再见。

杰玛斯完全可以直接部署在手机使用了,这里可以看到有多种使用场景。今天的测试环境,手机是飞行模式,完全断网。直接看看他在手机本地的运行表现。 发一段话过去,大家可以直观感受一下这个回复速度。这里我没有做任何剪辑加速,体感非常流畅。然后是多模态识别,随手拍一张照片, 它解析图片的速度很快,而且能把画面里的细节描述得比较准确。在断网的情况下,这个速度和理解度都很 ok。 再看它对系统指令的理解,我语音让它在地图中找到香港, 它能瞬间识别意图,并自动拉起地图。 a p p。 虽然因为没网,地图包刷不出来,但调用底层接口这个动作它是完成了的。 在游戏场景下,现在也可以用自然语言交互了。他完全理解了,并帮我完成了播种,这说明模型已经能跟应用逻辑层挂钩了。最后看下这个 prompt lab, 像改写语气、文本总结或者写代码,这些任务全都能在本地临县完成,其他功能等你们去测试。

三十二 g 内存的 mac 跑本地大模型,到底能不能实现偷啃自由?今天我用谷歌刚发布的干马四给大家实测一下。 干马四是谷歌的新上的开源大模型,主打高性能和本地部署,官方说他能在手机上跑,还能流畅运行,但是我始终想不出这个部署在手机上有什么应用场景,于是作为养虾人,每天都在焦虑偷啃的消耗,竟然手机上没有使用场景, 那么本地部署来养我的小龙虾是再合适不过。它的部署其实很简单, windows 用户直接用欧拉玛, mac 用户我推荐用 x m l x, 这是专门为 mac 深度优化的推理框架,相比欧拉玛性能更出色。 打开后进入 admin panel, 在 models 页面搜索 hugen face, 输入伽马四各种参数版就出来了。 我的设备是 m 三 max, 三十二 g 统一内存。今天的重点是两个问题,第一,三十二 g 内存能流畅的跑哪个参数?第二,本地部署的输出质量能不能满足日常要求?我已经把干马仕连入小龙虾工作流,先上硬菜 测试。三十一 b 是 比特量化版,现在是十四点十四分,我们记下时,但是结果比较尴尬,等了一分钟风扇狂转还没有出结果,所以结论是三十一 b 在 三十二 g 内存上是跑不动的, 如果电脑是六十四 g 以上应该就会很合适,那么我们就试一下二十六 b, 现在是十四点二十一分,不到一分钟结果就出来了,透口深深的速度稳定在每秒三十三个,这个速度对于我来说是完全够用, 快速少了一眼回答,质量还是不错的,于是继续追问,重复刚刚的问题,测试下上下文记忆能力。 又追问了模型对比和选择建议,主要考察三点,上下文连贯性并理解能力及问答准确性。 从结果来看,上下文记忆能力没问题,也没有胡编乱造。我们再换一个场景,让他帮我写公众号,推荐一个合适的模型。结论,测试下来,三十二 g 内存跑二十六 b, 响应速度是可以的, 输出效率挺高。当然,回答质量还需要深度测试,看能不能达到商用的标准,但是要彻底说满足,偷啃自由。现在下结论还是太早,因为在测试中发现一个致命的问题, 干马仕标称二百六十五 k 上下文,但我问了七个问题,就报上下文。一出这个问题很头疼,不解决的话基本没有保留历史对话记录,也只能不停的删内容或者开新对话,对于长期使用影响很大。 所以目前我在找解决方案,研究了几种可能的思路,看能不能突破限制,如果能搞定这个问题,本地部署才算真正可用。找到方案后第一时间通知给大家,今天的测试就到这,我是林浩,我们下期见!

hello, 大家好,我是 ken, 今天早上刚刚打开手机,我就兴奋的睡不着了。 google 刚刚发布了伽马四,一个可以本地部署的大模型,我的第一个念头是省钱了, 如果把它接入 openclaw, 从此在本地生产 token, 那 是不是就可以不用再被云端 ipi 一 点一点计废了呢?然后我花了一整天的时间来验证这个想法,结论有点出乎意料。先听我说完, 我在本地部署的是二十六 b 混合专家模型,二十六 b 代表着他拥有二百六十亿的参数。 混合专家模型的意思是,他不会一次性把所有的参数都用上,而是根据你的指令调动一小部分的专家来进行回答。这样的好处是推理的成本更低,回答的速度也更快。 这个版本在二十六 g 内存的 m 五芯片 macbook 上刚好能跑。这里 jam 四的几个版本呢?我也简单的跟大家分享一下。最轻量的是 e 二 b, 一个二十亿参数的模型,它在市面上大部分的设备上都可以运行。 那么 e 四 b 呢,是一个四十亿模型,运行它呢至少需要有十六 gb 的 内存。蓝血版是三十一 b, 拥有三百一十亿的参数能力最强,但是目前我手头的设备呢,都没有办法运行。目测 如果说要跑三十一 b 的 模型的话,至少需要三十六 g 的 内存。以我这一个月以来把所有的大模型接入到 openclaw 的 体感来看呢,二十六 b 版本我再应用下来,我认为它称日常工作是完全没有问题的。 截止到这里,一切都让我很兴奋。在 macbook 本地上跑通以后,我迫不及待的把它接入了 openclaw。 和我之前用其他大模型接入的体验不同, jam 四在接入以后没有那个互相了解定义角色的初识化环节,不过正常对话是没有问题的。那么问题来了,他能做些什么?说实话,就是个聊天机器人, 连在桌面创建一个 word 文档都做不到,更别谈生产力了。如果只把它看作是一个聊天机器人的话,那么在欧莱玛中直接运行反而比嵌入到 open cloud 中要更快,所以呢,还不如不用。 然后我掏出了我二零一七年的 windows 老本,这台机器呢,有十六 g 内存,按照 ai 的 建议,分别部署了 e 二 b 和 e 四 b 两个版本的模型。单独跑模型的话, e 四 b 这个四十亿参数的版本呢,每个回答要等待时间在十秒以上。那么 e 二 b 这个二十亿参数的小轻量级版本呢?如果是处理简单问题,基本上可以做到秒问秒答。 但当我把他们接入到 openclaw 之后呢,连收到两个字都没有办法回复,不管哪个版本,通通卡死。所以结论很明确,内存不够的设备不要尝试把 jam 四接入到 openclaw, 硬件是硬门槛,绕不过去。 总结一下今天的折腾,二十六 g 内存的 macbook 可以 本地运行,二十六 b 混合专家模型接入 openclaw 也能正常对话,但完全没有超出聊天机器人的额外生产力。 十六 g 内存的 windows 老本呢,接入 openclaw 可以 说是失败的,那么如果在本地运行呢?一二 b 和一四 b 两个版本都可以作为聊天问答机器人来进行本地使用。 我的判断是,如果内存能够达到三十六 g 以上,能够完整的跑下来二十六 b 混合专家模型,那么也许真的可以变为生产力。但是限阶段大多数人的设备都没有达到这个门槛。 本地部署不是不值得探索,但是要先看看自己的硬件设备有没有达到那个门槛,再决定要不要去折腾,不然的话结果可能会很打消你的积极性。 我是 ken, 专注用 ai 做可持续相关工作流的自动化。如果你对 ai 工具和自然语言编程感兴趣,请关注我,我们下期见。

兄弟们,欧拉玛已经更新好了,杰玛斯的大模型也不朽完成了,一共四个模型,接下来挨个测试一下,所有的测试都是在这个电脑配置下完成的。第一个问题,介绍一下自己, 第二个问题,用李白的风格写一首 诗。 最后一个问题,经典的喜鹊问题 总结一下,四个模型都测了,最快的是一二 b, 最慢的是三十一 b, 四个模型第一次启动都有点慢,后续速度都还可以。 总的来说,回答质量最好的是三十一 b, 包括最后的一个洗车逻辑陷阱也自动识别出来了, 就是我这个配置运行起来实在是太慢太慢了,所以性价比最高的应该是这个二十六 b 模型。回答速度,回答质量都还可以,可以用在部署小龙虾,用来做个人的 a 键,挺好用的。后续再和千万三点五做个横向对比,记得点个关注。

酷狗发布的 jamax 家族这次把本地部署的门槛彻底拉低了,它包含了从高性能工作站到边缘 iot 设备的四款模型,不仅原生支持图文视频多模态理解,还拥有最高二五六 k 的 超长上下文。 最关键的是,全系全面转向了 h 二点零协议商用,完全没有后顾之忧。首先来看这个家族的扛把子三十一 b 电子版本,它采用全密集架构,三百一十亿参数在推理时全部激活, 这意味着它拥有该系列最强的逻辑能力和输出质量。如果你手里有八十 g 显存的 h 幺零零或者多张消费基显卡组基群,且对结果的精准度有极致要求,选这款就对了。 接下来是性价比最高的二十六 b m o e 版本,这里要重点解释一下混合专家架构的优势。虽然它的总餐数量有二十六 b, 但单次推理时系统只会激活其中三点八 b 的 参数,这种机制在保证智商的同时提高了每秒的吞吐量。 对于大多数本地桌面用户来说,这款模型在响应速度和性能之间达到了完美的平衡。针对手机和 l t 设备, google 推出了 e 四 b 和 e 二 b 两款端侧模型。这里引入了一个关键的 pl e 单层嵌入表技术,简单来说就是让大体级的磁表在查找时不全面参与常规计算,从而大幅降低内存占用。 一四 b 有 四点五 b 有 效参数,适合树莓派或 jason, 而一二 b 只有二点三 b 可以 直接跑在手机上,让端测 ai agent 成为可能。最后总结一下全系列的通用能力, 在上下文长度上,大模型支持二五六 k, 小 模型也达到了幺二八 k, 足以处理超长文档。再加上原生的图文视频理解能力,让它在实际应用场景中非常灵活。 在实际性能测试中, jam 四三十一币的表现非常强悍,尤其在 g p q a diamond 科学推理测试中,拿到了百分之八十五点七的高分, 但更核心的竞争力在于它的 token 效率。同样,一个任务竞品可能需要一百五十万个以上的 token 才能说清楚,而 jam 四只需要一百二十万个,这意味着它说话废话更少,逻辑更直接,在实际部署时能显著降低推理成本。 如果把它和国产明星 q n 三点五二十七 b 放在一起对比,你会发现一个有趣的现象,在一些细分的工具调用跑分上, q n 确实略占上风, 但在基于人类真实偏好的 rena a i yellow 评分中,两者几乎打平。这说明在实际的人机交互体感上, g m 四三十一 b 已经达到了顶尖水平。很多人好奇为什么价格没怎么变,性能却原地起飞? 其实拆解底层代码会发现,它依然沿用了 paperstorm g q a 以及局部全局混合注意力机制。这次性能的飞跃完全不是靠改架构,而是归功于训练数据的质量飞跃和训练配方的深度优化。这再次证明了在当前大中型阶段,高质量的数据才是真正的核心竞争力。 现在进入实操环节,如果你追求极致简单,首选奥拉玛。首先把版本升级到零点二零以上,然后直接在终端输入命令,想要轻量化测试,就运行一二 b 版本。如果追求性能和速度的平衡,强烈推荐运行二十六 b 版本。 对于 macm 系列芯片用户, m l x 框架配合 turboq 是 史诗级加强,它通过压缩 kb 缓存,直接把内存占用,从十三点三 gb 砍到了四点九 gb, 整整节省了百分之六十三的空间。 具体的部署命令就在屏幕上,这里有一个关键的权衡,开启这个优化后,解码速度会慢一点五倍,但它能让你在 mac 上跑满幺二八 k 的 长上下文。对于处理长文档来说,这个招牌绝对稳赚不赔。 如果你是显存困难户或者即刻玩家,可以尝试 einslof 和拉玛 cpp, 只用 einslof 量化,只要六 gb 显存就能跑起一二 b 或一四 b, 甚至能构建支持网页搜索的本地 agent。 而如果你有三张四千零九十并行二十六 b m o e 版本的速度能达到惊人的每秒一百六十二个头啃。此外,通过实验性的 turbo quant plus 分 支,能把三十一 b 模型的体积从三十 g b 强行压到十八点九 g b, 让大模型在消费级显卡上跑起来。 最后是企业级生产环境,建议直接使用 v l l m, 它原生支持多模态输入和二五六 k 的 高吞吐量,并且完美兼容多卡并发。 开发者在实测中发现, v i l l l 搭配最新版的 transformers cool, 可以 非常稳定地调用 jam 四的工具接口,适合构建大规模的商业应用。在部署之前,有几个坑必须提前告知。首先是模态缺失,虽然官方宣传支持音频, 在目前音频输入请在 google ai studio 线上可用,所有的本地框架都还没适配。其次是稳定性问题,如果你使用 l m studio 运行三十一 bit n s 的 g g u f 版本,可能会遇到死循环输出的 bug, 建议等待社区修复。最后是能力边界,在处理复杂的函数调用时, e 二 b 和 e 四 b 这类小模型的表现不如同级别的竞品复杂任务建议直接上二十六 b 或三十一 b 版本。最后根据你的设备和需求 直接看这个部署。建议企业商用直接选 jam 四 high party 二点零协议让你没有任何法务后顾之忧。个人 pc 或游戏本用户强烈推荐二十六 b m o e 版本,单卡四千零九十就能跑通超长上下文,且响应极快。 mac 开发者请认准 mlx 框架,记得开启 turboqant 来解放统一内存。至于 i o t 创客 e 二 b 和 e 四 b 证明了六 gb 内存也能跑起。智能 agent 是 端侧智能的最佳选择。

今天我将跟着大家一起本地步数加码四,接入 open core, 彻底告别托肯焦虑,接下来跟着我操作。 这里我们先进入 elama 的 官方网站,进入官方网站过后,我们直接点右上角的 download 下载,我们这里是 windows 系统,选择下载 for windows, 点击这里, 这里就等它下载好。下载好之后,我们这里就直接双击运行,这是它的安装界面,我们直接点安装这里,等它默认安装好。 好了,这里 elama 就 安装好了。然后我们到这个地方 elama 的 官方网站,选择 models, 这个地方选择 command 四, 然后这里我们选择我们的模型,这个模型的选择我们根据我们的显卡显存大小来选择。我们这边看一下我们的显存是多少, 这里看到我使用的是四零七零的显卡,显存是十二 g b 的 显存,十二 g b 的 显存的情况下,我们可以选择这个九点六 g 的 模型,这个一四 b, 这个我们直接点进去,选择一四 b。 点击进去过后,我们直接复制这条命令,然后运行一个 cmd 窗口, 直接粘贴这里,它就会欧拉玛会自动地给我们安装这个模型。呃,这里等的时间是比较长的, 这里模型已经下载下来,并且运行起来了,我们向它发送一条消息,试一下你是谁, 反应还是可以的,这就跟了我们信息回答了。好了,在这里过后呢,我们就可以把这个窗口关闭掉, 关闭掉过后,在 lama 这个地方我们去选择这个模型,在这个位置也就可以和它进行通话了。 比如我们问他一句,你可以帮我做些什么, 他已经帮我回答了,在这里呢,我们因为我们是在本地虚拟机上安装的,所以而且我们为了方便以后可以在其他计算机上也可以调用,我们在这地方设置这个位置 点,这个位置点设置这个允许在网络上运行,把它开起来点了就可以了。 好了,我们下一步就开始配在 open core 上配置啊,在这里我们进入虚拟机之后,我已经执行了 npm i, 刚接 open core 全曲,安装 open core 的, 我们这里可以执行一下 mini, 看下我们安装的版本。 openclock 杠 v 是 安装的最新版本二零二六点四点五版本,然后我们执行 openclock on, 在 这里我们进行一个调试,这个地方我们 yes, 这里选择快速,这个地方它是让我们选择大模型,呃,大模型它这里有,我们选择本地的这个位置点确定 这里我们直接就选择本地的,不要选云,上面是带云端的,就选择本地模型。 这地方让我们选择模型,我们选择这个,这就是我们刚刚这个就是我们刚刚下载好的模型,就是 直接回车。等一下, 这里让我们选择通讯工具,我们这直接跳过,暂时不管这个,直接跳过。 呃, scale, 我 们这边也选择否先进行最简单的安装 网关,我们就直接重启, 选择 open ray web ui 好 了,我们看一下 open core 运行起来了没有。 open core getaway style sta 好了,已经运营起来了,我们进去看一下, 这边需要 token, 我 去看一下 token 是 多少,关于 token 的 话就是我们,我现在是在虚拟机里面安装的, 我要重新打开看一下,在虚拟机里面安装,我们就直接去通过这条 mini 访问我们的虚拟机, wsl 的 虚拟机访问,然后无斑图选择 home 目录,选择我们的用户, 然后这里选择点 opencloud 这个文件夹,然后这一个 opencloud json 让我们看一下,到 git 里面去,这个地方就是我们的 talking, 复制粘贴下来到这个地方,点连接好了,我们尝试给他发一条消息,你是谁? 在主位置这个地方,我们可以看到这地方是我的模型。 我再问他一条消息,你现在使用的是什么模型? 看这里已经是我当前运行的模型 工具,在这里我们就可以看到了,我们现在整个 open call 来使用的是我们本地模型,就不需要去购买 token 了。好,今天内容就这么多,谢谢大家。

兄弟们,你还以为本地跑多模态大模型是做梦?我直接告诉你, google demand jam 四已经来到本地,文本图像一把抓。 你想想,财务分析师每个月要处理几百张发票截图、合同扫描件,以前得 ocr 转文字在位模型,折腾半天准确率还拉跨。现在 jam 四本地一跑,直接把发票图片丢进去,他边看边算,自动提取金额、日期、税号,连盖章歪了都能识别。 软件研发负责人想让 ai 写代码,读架构图,看日制截图,以前得开三四个不同模型来回切。 jama 四一个模型搞定,给他一张系统架构图,他直接输出部署脚本,给他一张报错截图,他当场给出修复方案。 内容创作者做图,文案再配图两张皮。现在要先生成文案,再配图两张皮。现在要先生成文案,再配图两张皮。现在把素材串成一条完整内容流。 这代模型最核心的是全系支持思考模式推理能力拉满小模型专为笔记本优化一百二十八 k 上下文, cpu 都能跑中模型两百五十六 k 上下文,支持函数调用,直接当自主 agent 用,还有原声系统提示词支持你控场跟玩似的。 兄弟们,这不是又一个云端玩具,这是本地 ai 从能用到好用的质变,不联网、不传数据、不限次数,你凭什么还每个月给币源 a p i 交钱? jama 斯欧拉玛一键部署教程,本地多模态直接开干冲!

谷歌刚公布了基于二零二六年初实测的 demo 四本地部署指南。想在自己电脑上跑大模型,门槛其实比你想象的低得多。 只要你有一张六 g 显存的普通显卡,或者一台十六 g 内存的 mac, 就 能轻松上车。这个底线配置足够你流畅运行,量化后的一四 b 版本,它满打满算也就占四到六个 g 的 显存。那如果你手里的设备配置更高, 具体能跑多大的满血模型?接下来我们直接按硬件档位对号入座。我们先看大部分人用的六到十二 g 显存的中低端显卡,比如三千零六十到四千零七十这个档位,老老实实跑一四 b 版本最稳。很多人显存有个七八 g, 就 想硬去尝试大模型的量化版, 结果往往是一对话就报错卡死。因为你必须从这点显存里扣出一块空间,留给 ai 处理上下文。 如果你手里是十二 g 到十六 g 的 高端卡,比如三千零八十或者四千零八十,这就跨过了二十六 b 模型 a 四 b 量化版的最低门槛。显存容量算是过关了,但别高兴太早, 模型加载进去之后要随时盯着,每秒能吐几个词。简存刚够的情况下,推理速度有可能会让你等的很心焦。至于二十四 g 甚至更大简存的四千零九十或五千零九十,土豪玩家可以直接上三十一 b 的 满血大模型,它的基础占用在二十到二十四 g 左右。 但这里有个大坑,即便你显存再大,如果你一次性喂进去几万次的长温档,或者进行疯狂的多轮长对话,照样会把显存撑爆爆错退出。接着看苹果 mac 用户,十六 g 或者十八 g 统一内存的基础款,统统优先跑一次币。苹果不同带芯片的区别在这里,很明显, m 二和 m 三因为起步是十八 g, 它的实际推理效率会明显压过老款的 m 一。 如果你硬拿十六 g 的 m 一 去跑二十六 b 模型,电脑会被榨干,整个系统都会变卡。 预算充足的 mac 用户优势就完全体现出来了。三十二 g 内存以及能非常流畅的玩转二十六 b 量化版到了六十四 g 以上,这就成了目前最强的便携推理机。二十六 b 和三十一 b 随便跑。要是上了幺二八 g 的 m 三 ultra, 不但能跑顶级大模型,几个人同时发请求都不会排队卡顿。选好硬件后,有一个多数新手必踩的坑。模型页面标称的显存占用只是个起步价。当你开始聊天,历史记录越来越长,内部的 k v k 机制就会像无底洞一样治疗你的剩余显存。 系统本身还要占用一部分,官方给的都是刚加载完的静态数据,真跑起来,必须预留几笔额外的显存帐,最后破除一个对硬件的误解。 mate 的 内存确实动不动就能配到几十上百 g, 功耗也低的吓人。但是苹果的统一内存受限于物理带宽,它就像一个水库很大但出水管不够粗的系统,跑同一个模型,它的生成词汇速度通常还是比不过同容量的 pc 独立显卡的。

最近火爆全网的 jam 四下载教程他来了,开源世界最强模型新版还附带中文设置教程以及部署教程,支持苹果、安卓和鸿蒙。 首先点我视频右下角的分享箭头,再点一下复制链接,然后打开这个蓝色的小鸟没有的应用商店,下一个两秒后会弹出一个资源包,没有弹的话就搜索手电宝藏,打开宝藏应用里面找到需要的文件,点击保存安装就好了。

看好了,朋友们,像这个谷歌佳马仕已经可以在手机上本地部署了,还有很多朋友呢,不知道怎么去下载以及安装,那么今天一个视频我来教会大家,方法很简单,首先在我视频右下角我们点击分享链接, 然后我们打开应用商店去下一个这个,然后打开它,进来之后呢我们点允许粘贴,这里会弹出来一个文件,如果没有的话呢?我们搜索速度宝库,然后点进来找到软件资源,再找到谷歌佳马仕,然后我们先保存再下载安装就可以了。

看好了,这地方的朋友在炸的这个街霸四已经可以在手机上部署了,还有很多人不知道怎么去获取,现在我给你们出个教程。方法很简单,安卓、苹果都可以在本地部署。第一步,点我视频右下角的小镜头,点击分享链接, 然后我们打开应用商店,搜索一下这个,打开它,这样点击搜索框,输入飞腾的梦,这一步不能输错,他们正在跳准你点进来,选择软件资源三,勾选一下这个保存,然后进行下载就可以了。

现在小龙虾里面配的就是墨尔模型,就是剑马寺以四 b 奥拉玛的,我问他你是什么模型,有哪些功能? 下方剑马寺,然后看一下他配置文件里面怎么配置的, 配置文件里面这个 provide 的 就是奥兰马的,然后类似幺二幺,是本地的幺二七的点,零点零点一模型,这里佳木斯下载了谷歌最新的佳木斯模型, 我一开始下载的是二十六 b 的, 发现我的机器带不动,输入一个信息让他回复,要等了半天,好,差不多一一分钟吐几个头坑吧,太满了,带不动。所以我后来下了这个四 b 的 一四 b, 这个大小是九点六 g, 九点六 g 之前那个二十六 b 的是十七个 g, 然后测试了一下新的速度,就差不多可以用他现在这个推移,差不多是这样子,你发中文,他反正推移的时候都是思考,都是用英文思考的,但是他回复的时候他都是中文给你翻译回来了, 然后他的数据截止日期是二五年,一月份的就一年多以前的,还是给你们测试一下,看看他的速度啊,这头壳输出 这个是没有加速的啊,你看看。 然后我的机器配置是这样的,是那个 l l 的 那个 n 五的芯片内存只有十六个 g, 所以 二十六 p 那 个带不动。

公主,你现在看到的就是谷歌最强的开源模型加码四,可以看图,能听音频,也有不错的推理机制,最重要的是完全免费,给我几分钟,从零开始,将加码四部署在自己的电脑上。我们直接开始 先花一分钟和大家聊一下贾马四是什么?它是谷歌刚发布的开源 ai 模型,跟商业版的怎么奈同根同源,你可以理解为谷歌把自家最强的 ai 技术浓缩成了一个免费的版本,直接送给你用。 那么它好在哪里呢?三个点。第一,多模态,不只是聊天机器人,你可以发图片让他看,发音频给他听,还能写代码。 我们可以看看这张表格,横轴是模型的参数体量,而纵轴就是性能表现。贾马四以满血版的性能表现和千万的三百九十七 b 的 模型能力基本持平,关键在于它的体量只有千万的十分之一,这真的非常夸张。 第二,完全免费,不用充会员,不按 token 收费,并且可以商用,你可以模改它做成各种有意思的本地模型,拿去做产品也没有任何的问题。第三,隐私安全,因为跑在你自己的电脑上,所有的数据都不会出,你的电脑拿它处理合同,财务,私人物件,不用去担心泄露。 ok, 我 们直接动手。你现在只需要打开一个浏览器,然后把它放到全屏上,直接官网上搜索欧拉玛点 com 啊,然后这个东西就出来了。然后你只要点击整个画面的一个右上角 download, 看到没有?然后你可以选择你是 mac os 系统还是 linux 还是 windows, 我是 mac os, 那 你就直接点击这个 download from mac os, 然后我们就可以看到这个画面上的右上角应该是会有个下载的链接, 然后等它下载好就可以了,因为我这边其实已经安装好了吗?那么我这边的最终的一个输出效果的话,大概是在这里。你们下载完了之后,打开你们的桌面上的欧拉玛,你们看到的应该是现在这样子的一个画面,那就说明你已经安装成功。 佳马仕一共有四个版本,你可以根据你的电脑配置进行模型的选择,模型的能力越强,所需要的配置就越高。对于内存小于三十二 g 的 玩家,我建议大家直接安装一四 b, 三十二 g 及其以上,可以试试看二十六 b 和三十一 b 的 参数量, 其实这两者模型的能力大通小异,如果你是为了极致的精度,可以选择三十一 b, 但是在我看来,二十六 b 呢,其实是一个非常甜点的位置,达到了速度和精度的一个平衡。如果你不知道你的电脑内存是多少,这里针对 mac 用户,你可以选择终端输入这行命令。 而 windows 用户你可以点击 win 加 r, 点击回车,召唤出来你的终端以后,然后再输入这个命令,也可以显示出你的内存。选择好对应的模型,我们只需要打开终端,和刚刚一样的步骤,根据模型输入指令直接回车即可。等待模型下载好,打开你的 oala, 选择模型就可以开始了。 ok, 我 们打开我们欧曼的软件,你点击这里,然后往下滑,你就可以看到你刚刚已经安装好的这个佳马仕。我们来问他一个很有逻,就是说很有那个逻辑陷阱的一个问题,就是我今天要去洗车,但是只有一百米,你觉得我是走路去还是开车去? ok, 我 们来看一下他的一个答复是怎么样子。 这是一个非常有意思的一个逻辑陷阱题,我们可以从不同的维度去分析。逻辑层面上来说,必须开车去, ok, 这一点已经很棒了啊。 那如果说是从脑筋急转弯角度上来说,他说如果你走路去,那么你是在散步,而不是在洗车。哦,也就是说他分为了三个维度,一个是脑筋急转弯,一个是实用主义层面,还有个就是逻辑层面。我们来看一下他这个佳马仕的这个逻辑能力。哎,你还真别说这小参数,但他的表现还是不错的。 那么 jamas 它的一个很大的优点就在于它其实是支持这个多模态的。我们来不妨给他上传张图片,我们来看一下。 ok, 那 么我们上传一张什么图片呢?哎,上传张这个图片,你们看怎么样啊?就是这是一朵花,然后有个太阳,有一本书,我们来让他看看。我说,啊,描述一下, 描述一下这个图片,我们来看看他的多模态识别能力怎么样?说实话,本地具有多模态识别能力的模型,而且是能够你自己去模改的,其实并不是很多。我们来看一下。 ok, 一, jeff 二,然后 jeff 三,给了几个他看到的一些画面。好,我看他现在在思考和输出。这张画面充满了诗意,唯美且带一丝忧伤。 画面主体是一本翻开的书籍。哎,确实是对的,背景与中景是一个画面,然后呢,躺着一只洁白的玫瑰,然后背景是有一个夕阳,散发出这个温暖的金橙色光芒,哎呦,很不错,你们发现没有,是不是很棒?就是说他好像 表达的还是很到位的,但是因为呃,我其实本来还是想测一下这个关于音频识别和这个视频识别的,因为这个佳马仕它也是支持视频识别的, 但是因为欧拉玛官方不太支持,所以大家可以自己去谷歌 as do do 上面去玩一玩。所以总的来说,其实通过这么两个比较简单的测试,它当然不够严谨,而我觉得感受来说的话,这个香奈儿丝还是 真的是能够在本地帮我们处理一些比较复杂的一些任务的,就是在文字层面以及去多模态识别能力上来说,是一个比较抗打的模型。 看到这里相信你一定会明白, olama 本身是一个模型管理器,你当然也可以不用贾马四,你可以选择开源的 deep stick, 千问等等,其他的开源模型还是同样的命令,一键配置就可以了。 本地捕鼠的最大优点就是保护你的隐私,模型的使用不会受到任何的限制,同时也可以支持模型的微调,让它更合你的口味。下期我打算教大家小白如何从零到一,微调自己的本地模型,感兴趣的可以点个关注,我们下期再见。