google deepmind 刚发布真马刺开眼免费,我直接把它部署到自己服务器上,完全本地运行,不花一分钱。你们还在用付费 api, 我 已经在白嫖谷歌的模型了。
粉丝29获赞199

今天给大家带来手机本地部署大模型,无需网络支持 ios, 安卓无需特殊网络环境。当然了,今天部署的是谷歌最新发布的模型,小模型的性能大家都懂得,娃娃可以正当生产力,还需要等待发展一段时间,和电脑的本地部署是一个道理。 那么我们先进入 ios 的 教程其实非常非常简单。首先先进 app store 下载如图的应用 google ai edge gallery, 安装好之后,我们直接打开进入 ai 对 话, 会发现我们首次运行的时候会让你下载模型,因为我手上的这台设备是 iphone 十五 plus, 因此我选择下载这个折中的它推荐的二点五 g 的 模型, 等待它下载完成之后,我们可以和它对话看看。这个时候我进入飞行模式,把网络给关掉,它是完全本机运行的,会发现我们已经可以和它对话了,只不过在运行的过程中,它可能有点微微发热。当然了,小模型的智商就是这样,和它进行一些简单的对话是可以的。 那么接下来我们进入安卓的部分,然后我拿来做演示的这台手机是荣耀八零二, 在国产的安卓机上,我们有两种安装方式,第一是通过 apk, 也就是安装包进行下载,第二种方式就是你需要一些手段,对吧?上网的手段,然后进谷歌商店里进行下载,下载好打开之后和 ios 里的使用是一样的,我们首次进入的时候,点击下载模型,同样还是这个二点五 g 的, 然后就可以和他进行对话,我们可以问两个问题来看看效果,嗯,就比如说我离加油站五百米,我是应该开车去还是走路去看看他怎么回答? 最后我们就会发现没有说必须开车去,对吧?去加油站。所以说小模型的这个智商这一块肯定是和 ap 还远远比不了, 但是这也代表着这给我们一种可能性,随着科技的发展,模型的发展以及手机硬件性能的发展,拥有一台纯本地部署的 ai 助手将成为可能。那我们今天教程就到这里,非常简单,我们下期再见。

一分钟让你搞清楚关于全球最强开源模型 jam 的 一切。最近谷歌开源了 jam 四,我将用四个问题 让你清晰了解关于 jam 的 一切。 jam 各版本的区别,我家的电脑能用吗?模型怎么部署安装?普通人用来干什么?先说他的四个版本,三一 b 直接冲上全球开源 ai 榜第三名,以前要机房才能跑的能力,现在你家里的高端游戏显卡就能搞定。 轻量版的一二 b 和一四 b 为手机、平板以及中低端电脑设备打造,性能虽不是最顶级,但是绝对好用够用。而二六 b 猫号称总参数两百六十亿,但实际每次思考只用其中三十八亿个,最相关的效果却能媲美两百六十亿, 能理解超长文章以及视频。简单说,无论你是用手机、笔记本还是高性能电脑, jam 四都能给你免费安全强大的顶级模型体验。再说你家里的设备是否能用上?一张图告诉你 jam 四个版本的最低要求。 对于多数人而言,家用的电脑设部署一二 b 一 四 b 完全够用,基本能满足百分之九十的使用场景。另外两个版本对内存要求较高,但是性能出众,属于好马配好鞍。 再说模型安装,整个过程大概十分钟左右。首先下载 lm studio, 然后打开 opencool 或者 id 工具,让它查找你本地配置,给你推荐安装哪个版本。之后在 lm studio 里下载,运行搜索推荐的模型名点下载,最后接入 opencool 或者 i d e l m studio, 提供 open ai 兼容 api, 在 open 框里把 api 地址改成, h t t p l o c a o s t colon twelve three four slash vivo 就 能用 jama 四驱动你的 ai agent 了。 网上攻略一大堆,这里就不展开了。最后说下所有人最关心的能用 jama 做什么?这里推荐三个场景,可以去试试。第一, 构建本地知识库,把工作和学习相关的文件丢给本地 jama, 让他帮你形成系统化的知识。构建个人知识库时进行向量缩影和 anitive, 解锁数据不出本地,安全合规。第二,给家人搭建一个 ai 助手,下载好模型,配个界面,电脑手机都可以直接对话,不花钱不泄露隐私。第三,内容创作 最大优点是无限额度,即便不如部分付费模型,但可以靠大量尝试提升优质内容的概率。千马寺会改写国内企业及政府客户的私部模型格局吗?欢迎在评论区发表你的观点。

hello, 大家好,我是 ken, 今天早上刚刚打开手机,我就兴奋的睡不着了。 google 刚刚发布了伽马四,一个可以本地部署的大模型,我的第一个念头是省钱了, 如果把它接入 openclaw, 从此在本地生产 token, 那 是不是就可以不用再被云端 ipi 一 点一点计废了呢?然后我花了一整天的时间来验证这个想法,结论有点出乎意料。先听我说完, 我在本地部署的是二十六 b 混合专家模型,二十六 b 代表着他拥有二百六十亿的参数。 混合专家模型的意思是,他不会一次性把所有的参数都用上,而是根据你的指令调动一小部分的专家来进行回答。这样的好处是推理的成本更低,回答的速度也更快。 这个版本在二十六 g 内存的 m 五芯片 macbook 上刚好能跑。这里 jam 四的几个版本呢?我也简单的跟大家分享一下。最轻量的是 e 二 b, 一个二十亿参数的模型,它在市面上大部分的设备上都可以运行。 那么 e 四 b 呢,是一个四十亿模型,运行它呢至少需要有十六 gb 的 内存。蓝血版是三十一 b, 拥有三百一十亿的参数能力最强,但是目前我手头的设备呢,都没有办法运行。目测 如果说要跑三十一 b 的 模型的话,至少需要三十六 g 的 内存。以我这一个月以来把所有的大模型接入到 openclaw 的 体感来看呢,二十六 b 版本我再应用下来,我认为它称日常工作是完全没有问题的。 截止到这里,一切都让我很兴奋。在 macbook 本地上跑通以后,我迫不及待的把它接入了 openclaw。 和我之前用其他大模型接入的体验不同, jam 四在接入以后没有那个互相了解定义角色的初识化环节,不过正常对话是没有问题的。那么问题来了,他能做些什么?说实话,就是个聊天机器人, 连在桌面创建一个 word 文档都做不到,更别谈生产力了。如果只把它看作是一个聊天机器人的话,那么在欧莱玛中直接运行反而比嵌入到 open cloud 中要更快,所以呢,还不如不用。 然后我掏出了我二零一七年的 windows 老本,这台机器呢,有十六 g 内存,按照 ai 的 建议,分别部署了 e 二 b 和 e 四 b 两个版本的模型。单独跑模型的话, e 四 b 这个四十亿参数的版本呢,每个回答要等待时间在十秒以上。那么 e 二 b 这个二十亿参数的小轻量级版本呢?如果是处理简单问题,基本上可以做到秒问秒答。 但当我把他们接入到 openclaw 之后呢,连收到两个字都没有办法回复,不管哪个版本,通通卡死。所以结论很明确,内存不够的设备不要尝试把 jam 四接入到 openclaw, 硬件是硬门槛,绕不过去。 总结一下今天的折腾,二十六 g 内存的 macbook 可以 本地运行,二十六 b 混合专家模型接入 openclaw 也能正常对话,但完全没有超出聊天机器人的额外生产力。 十六 g 内存的 windows 老本呢,接入 openclaw 可以 说是失败的,那么如果在本地运行呢?一二 b 和一四 b 两个版本都可以作为聊天问答机器人来进行本地使用。 我的判断是,如果内存能够达到三十六 g 以上,能够完整的跑下来二十六 b 混合专家模型,那么也许真的可以变为生产力。但是限阶段大多数人的设备都没有达到这个门槛。 本地部署不是不值得探索,但是要先看看自己的硬件设备有没有达到那个门槛,再决定要不要去折腾,不然的话结果可能会很打消你的积极性。 我是 ken, 专注用 ai 做可持续相关工作流的自动化。如果你对 ai 工具和自然语言编程感兴趣,请关注我,我们下期见。


哈喽,大家好,酷狗前两天刚刚发布了最新的大模型 gm 四,这个大模型它是完全的开源和免费的,能够在本地的设备上离线运行,我用了这几天,我觉得这才是二零二六年最合理的 ai 技术路线。 真正值得关注的是,呃,他的这个原声支持函数调用,这就意味着这个模型能够自主的使用工具,浏览网页,执行代码,调用 ipa, 相当于你在本地安装了一个智能体,全程也不用联网,也不用花钱,完全可以调用本地的算理。但是呢,很多人都不知道怎么使用,所以今天跟大家分享一下专门四的使用。专门四分别有四个不同的版本,分别是 e 二 b 四、 b 二十六 b a 四 b 和三十一 b。 这些模型大小各异,可以部署在手机、电脑和云端的服务器中,它非常适合文本的生成、编码和独立任务。这张图片呢,是谷歌官方的一个,相当于是个测评吧, 不同大模型之间的一个测评。我们可以看到这几个都是市面上比较好用的大模型,嗯,包括我们国产的 d c 克千万和 kimi, 还有那个 g p t, 我 们可以看到这是它们之间的那个性能的一个对比吧。嗯, nice 区域,我们可以看到这个是 g m 四,在我们传统的认知里,模型越大,参数越多, 它的性能就越强。在途中我们可以看到 g m 四的这个三十一 b 的 这个模型,在实战能力上竟然超越了千万的三点五,因为三十一 b 它只有 三百一十亿的这个参数。千位三点五呢,它有将近四千亿的参数,这两者之间的这个体积相差了十倍,所以呢,你可以看出这面四就是用十分之一的体积跑出了十倍体积的对手,那这就意味着你不需要再付 报的这个服务器的费,你在自己的电脑上,手机上就能够拥有世界最顶级的这个 ai 大 脑。然后我们看一下这四个版本的功能吧, 以及定位。三十一 b 被称为是全能大脑,它可以处理任何的这个你所想要的执行的一些任务吧,它的定位呢,也是非常的明确,是最顶级的一个型号,擅长呢查某某的创作以及 深度的逻辑推理,它就像人类的思考会给你列出这个提纲一样,然后排查啊错误,然后再输出, 所以他非常擅长于这个深度的长文写作。那么第二个是二十六 b 的, 这个被称为效率之王,它的定位就是相对于上一个呢,它是一个平衡的版本,那么它的功能是保持在极高的智商的,同时呢,响应呢,要比三十一 b 更快, 所以呢,它适合于这个频繁的互动啊,快速的迭代的创意的这种工作。那么第三个和第四个是一四币和一二币,这两个呢被称为侧端的,先分我们,我我认为的就是说它是一个轻量化的模型,它只有四十亿和二十亿的一个参数,所以呢, 呃,它的这个体积相对也比较小,但是呢,虽然说它的体积比较小,但是可以通过这个 single 的 强化处理一些日常的对话呀,这个日常的整理,呃,简单的,这样还是非常的流畅的, 我们可以看到这是专门四网页端的一个界面,其实我这两天用的,用下来,我觉得他的这个云端的和网页端的这个使用其实是非常的非常的好给我的体验。因为普通人说实话你的电脑可能 配置没有那么高,所以你装了最高的那个等级的那个模型,你使用起来你的电脑可能就会如果说你的性能不够的话,你的电脑就会起飞的。所以我建议啊,就是如果说你不是做一些特殊的一些任务的话, 我建议直接用网页版的是最靠谱的。那电脑端有 pc 和 mac 的, 它的一个好处我刚刚讲了,就是直接在本地运行,断网也可以使用,最大的一个好处就是它是保护隐私的,不用担心你的文件或者说是你的信息隐私会被泄露,因为断网也可以使用,我觉得啊,是 这么的一个最大最大的一个特点。那么另外就是它的手机端是苹果和安卓系统都可以用啊,因为手机的内存是有限的, 所以呢我的建议就说如果是你非要在手机上装这个,我建议就是用的轻量化的这个版本的,否则的话你的手机肯定会发烫,它运行起来 特别的耗费你的本地的这个手机的一个算力的。所以最最第三个就是云端的,我是最推荐的这个直接再往月端调,而且你可以直接用免费的算力,因为使用也是免费的,你往月半使用也是免,不像其他的一些大毛器,你用着用他就没法用了,他就你的这个免费的额度,用完了 不让不让你用了。但是 gm 四它是无限使用的,目前来说是免费使用的,所以的话呢,大家如果说是想用的话,尽快用起来,我觉得是非常好的一个大冒险。大家如果说有其他的问题,我们在留言区可以互动一下,有什么问题可以直接问我哈。

谷歌最新开源的大模型 demo four 据说很强,在综合能力上甚至超越了二十倍规模的开源模型。 今天教大家如何快速部署在本地,以及分享一下在 mac mini 上的实际体验感受,具体感受什么样?大家看视频吧。首先打开欧拉玛官网,下载它的应用程序, 打开应用程序,我们看一下他目前支持的一些免费的开源模型,还没有 demo, 所以 我们需要去他的官网再去下载下载到本地。那么这里呢,有很多不同的型号 可以看一下,它有很多不同参数的型号,有满配的,还有一些轻量版的。那因为我这个是 mac mini m 四十六 g 版本,所以我们就选择它系统默认推荐的这个九点六 g 的 好,只需要复制这个指令,然后打开终端运行,它就会自动去下载 这里下载了。那么我们先测试一下, 测试一下他的回复速度,因为是第一次响应,所以速度会有点慢,然后我们打开活动监视器,看一下他占据内存的情况, 这个模型本身就有实际系统走内存差不多也跑满了,这里他已经有回应了,我继续再测试一条, 第二次响应速度要比第一次快很多, 我叫 jam 四,我是一个由谷歌 deepmind 开发的。 ok, 现在我们打开欧了吗?然后去加载一下,这里要重启一下这个程序,然后再看模型选择,里面 最下面就已经有了已经安装好的,现在我们把这个模型对接到本地的小龙虾,只需要复制这个指令,打开终端,在终端里面运行,它就自动会加载好, 这里有不同的模型选择,都是他支持的一些免费的大模型,我们选择 demo 让他去运行。 ok, 这里已经加载好了,测试一下他的响应速度。 这里我是放了八倍速了,说实话,因为实在是太慢了,他平均回复一个问题的速度差不多要两分钟, 非常非常慢。我本来想在这个小龙虾里面测试一下他的执行任务的能力,但是这个速度的话确实没有办法, 但是它有个好处啊,如果你有低血压的话,你就可以用它。我是动物城朱迪警官,你好吗?我过得还好,不错,谢谢。这里我甚至尝试开启快速模式, 但是实际的感受没什么变化,就还是那么慢, 所以只能放弃在这里面做测试了。那么我们还是回到欧乐玛,在这个软件里面测试一下这个模型本来的能力。这里给他放两张图,让他识别一下图先, 一个是标格,一个是周杰伦,看一下他能不能准确的识别。 这里我也是开了倍速的啊,但是这里的速度要比小龙虾里面快很多, 我给他给出的答案是,图二是陈坤,图一是一名中国艺人, 看来这个版本的模型识图能力还是有点差。接下来测试一道经典的陷阱题啊,这个对大模型来讲是一道陷阱题,很多大模型都倒在了这道题上面, 那么他给的建议是走路去,最后测试一下他的复杂推理能力, 这道题是我让 gbt 五点四给我出的一道推理题。 abc 三人中恰好有一人是骗子,永远说假话,另外两人永远说真话。他们各自说了一句话, a 说 b 是 骗子, b 说 c 是 骗子, c 说 a 和 b 至少有一个是骗子, 请问谁是骗子?给出答案,并且给出完整的推理过程。好,他给出的推理过程和答案我跟 gpt 五点四给的标准答案对比了一下,是一样的, 所以它的复杂推理能力还是可以的。 ok, 总结一下实际体验感受啊,你如果是 mac mini m 四十六 g 版本,虽然能运行,但是它会把你的内存拉满,就是你的电脑会一直处于满负荷的状态,而且响应速度也很慢,所以使用感受是很差的。 当然,如果你的电脑配置足够高的话,你是可以去尝试部署在本地的,因为它的响应速度肯定要比我这个要快很多。而且你还可以尝试去部署它的满配版,比如三十 e b 那 个版本, 能力应该是要比这个强不少。

以后谁还敢说手机跑大模型就是个噱头?街霸四才开园短短几天时间,一帮技术大神硬是整出了一堆离谱的本地部署邪趣玩法。从工作站到手机再到树莓派,全部都被拉出来疯狂压榨。有人竟然直接在手机上跑起了 a 阵子,装个 a 阵子 skills 应用,需要什么技能直接往里面倒。 他的团队基于 gemma 四搞出了 hermes agent, 全程本地推理执行纯离现实,不用交 a p i 的 过路费,也不用担心隐私数据的安全问题,甚至连树莓派这种小身板的边缘设备,他都能跑得毫无压力。更狠的是,有人把 gemma 四封装成了即插即用的开源智能体,这相当于不仅是把轮子给你造好了,还直接把一整套的免费 agent 的 方案喂到你嘴里。 如果你嫌手机跑不稳定,容易发热发烫,还有人开发出了跨设备的形态,用 type 六搞定内网穿透,打通 pc 和手机,让性能强悍的 mac 在 家里岁月静好的托管键盘四模型,在外面用 iphone 直接流逝,调用 全平台统一外部 ui 界面,手机端甚至不需要装任何臃肿的第三方 app, 出门在外随时随地调用家里的私有大佬,这简直就是把跨设备生态玩明白了! 要知道,这才是 jm 四开源短短几天的进度,手机 a 阵的离线编码、跨设备流势推理,各种玩法已经满天飞。关键是这次的 jm 四脑子还特别灵光。以前有网友总调侃本地部署就是人工智障玩具,但 jm 四证明了自己是全设备生产的利器。细思极恐,看来前置的旧手机还得继续涨价。

谷歌终于坐不住了,正式卷开源市场, jm 四的效果到底如何呢? jm 四的发布啊,真的有可能让我们实现头很自由。这期视频呢,老张给大家简要介绍一下 jm 四怎么安装到本地,以及如何搭配到我们的 open klo 大 龙虾上, 附带所有的安装步骤啊,大家可以一起来体验一下。后续呢,老张也会根据测评效果给大家接着发视频,这期是我们完整的部署流程,老张重点给大家简单聊一下,就是为什么 jm 四的发布啊,会让大家感觉谷歌真的开始卷起来了呢? 首先第一点,他和目前谷歌的 jimmy 三用的是相同的技术基座啊,所以说他的能力是毋庸置疑的。第二点就是商业自由,你直接部署下来做什么都是可以的,都是允许的。然后第三个就是支持多模态,无论是文本、图像甚至小规模的视频音频, 他都可以直接支持。第四点就是结合前段时间爆火的 open klo, 他 可以直接在本地对接 open klo 以及对接 klo 的 code, 实现本地的偷根无线化。这是老张给大家总结的四点,为什么詹姆斯的发布会让大家感觉,哎,可能真的要进入到一个新的纪元, 然后呢,他所发布的这四款模型呢?老张给大家做了一张图片啊,大家可以到时候把它截下来。第一个模型一二 b 的, 他本身是用于手机或者边缘设备八 g 显存, 然后最高端的三十一 b, 他 所对应的旗舰版本呢,是对应的是二十四 g 加,所以大家根据你的需求来进行对应的模型选择。老张这次视频呢给大家来看一下三十一 b 的 这款模型的安装, 然后关于本地的安装部署啊,其实非常简单,任何开源模型,其实我们只需要让他和欧拉玛就是那个小羊驼结合到一起就可以了, 我们可以去一下欧拉玛,之前没有安装欧拉玛的兄弟们也不用担心,直接去他官网安装即可。一个羊驼啊,现在已经开始玩龙虾了,但是这个不,这个是我们,我们首先 现在官方已经开始逐渐的把羊驼和龙虾结合到一起了,我们直接选择对应的登录的,然后找到你符合要求的版本,直接安装到您的电脑上就可以。安装成功之后啊,欧拉玛现在已经有了一个完整的应用端了,所以大家可以直接在这个位置和他进行对话交流。 那我们想要下载詹姆四到你本地的电脑上,我们可以使用它的官方指令找到官网的 model 选项,然后这有一个詹姆四,我们进入,他会告诉我们直接怎么样去进行詹姆四的对应安装,像老张想安这个三十一 b 的 对吧?我们就把它拿过来, 把它直接这有一个 c l i 命令行安装方式,把这个东西直接复制在你的开始菜单中,单机右键选择运行,输入 cmd, 直接把刚才指令粘贴过来,这儿的时间会很长,因为它有二十个 g 的 大小,我们直接稍作等待 安装成功之后,我们也可以直接回到它的客户端中,在模型选项上找到我们安装好的詹姆斯冒号三十一币, 然后可以直接进行对话,老张他处理一个较为复杂的提示词,我们让他看一下当前显存的内存消耗, 咱们拿这个 ai 慢距的提示词来测试啊,这个提示词非常的长,我们看一下他读取提示词的能力,以及他的这个显卡的性能消耗。我们看一下啊,这个显存直接拉满的达到了百分之九十四的占比, 而且这个响应速度还是非常快的,只需十一点七秒啊,就把整体的业务流程给我们直接补齐了,而且呢按照需求给我们进行了对应的提问,要什么样的慢剧效果,所以说以目前的测试反应来看呢,他的这个响应速度起码要比之前的很多大模型要好的多, 所以接下来我们自己来尝试一下对话类的工具,可能大家都不是很需要的,我们能不能把它接入到我们的 open klo, 接入到我们的龙虾里,让他们俩来进行联动的。然后这期视频呢,老张顺便给大家提一下,就是最新版的 open klo 的 部署流程 啊,咱们可以快速的去过一下一些重点的细节,因为之前老张发过很多期的部署视频,咱们可以去到时候去看一下。只不过这期视频呢,我想给大家来讲解一下这个 wsl 的 这个部署优势。 很多兄弟看老张之前视频都是用 note 直接下载安装的,但是为什么老张最后给大家又转回到了 wsl 这一块了呢?因为它本身啊, wsl 它是相当于在 windows 系统上安装一个 linux 的 独立系统, 这样的话呢,就直接相当于在你电脑上安装了一个独立的存储空间,它所谓叫做沙盒安全,而且运行起来呢,是不会有任何的兼容性的对应问题的,因为 windows 中啊,它的权限呐,路径等经常会报错。所以说我们这 期视频重点教大家怎么用 wsl 进行 win opencl 的 部署安装,这样的话, windows 和 wsl 的 安装您都了解之后,之后学起来就非常方便了。 然后接下来呢,老张给大家简单的介绍一下在 wsl 中如何安装我们的 openclaw, 因为之前呢,咱们介绍过太多次了,很多兄弟留言说老张就别介绍怎么安装了,然后我们就给大家简单说一下注意事 项。首先第一呢,你想在 wsl 上安装 openclaw 的 话,第一点,你得先在你的 windows 系统下把 wsl 安装一下。当然很多电脑老张发现其实都是自带的, 怎么检查是否自带呢?咱们可以直接输入 wsl 空格,杠杠威森,如果弹出定的版本号证明 wsl 电脑已经安装了,如果没有弹出的话,使用安装指令, wsl 空格 insert 直接安装即可。然后紧接着按照老张给你提供的指令复制粘贴就可以了。先安装你的优班 图,安装之后啊,在这选择这个倒三角,找到优班图系统,就可以直接进入到你的优班图系统当中。 在你安装过程中啊,它会让你设置一个用户名和密码,到时候可能需要做一步密码验证。在优班图系统中,注意是优班图系统中运行这些环境指令,分别安装 python 三、安装一个压缩包工具,方便安装一个 note 点 gs, 然后再安装一个 get 工具。 如果说为了检测每一步安装是否成功的话,你可以分别输入,比如 note 杠 v、 npm 杠 v, 包括 get 杠 v, 在 这检测我们对应的这个版本,如果都能弹出版本号,证明你三项安装都是成功的,这是配置 openclo 的 基本的内容要求。 然后紧接着我们把基本环境配置好的兄弟,你还需要在这个位置安装一下这个欧拉玛。 这老张要重点说一下,比如说老张我不在本地都已经下载好欧拉玛了吗?为什么在优班图里还需要再配置一下?其实我们优班图中是可以调用本地的欧拉玛的,但是很多兄弟在调用过程中分别给老张留言说说调用时无论是 ip 地址找不到,还是 ip 的 动态变化,导致每次都需要重新连接,重新配置。 所以说最简单的方式就是把欧拉玛在你的优班图系统中再次的安装一遍。其实安装非常简单,只需要把第一步的安装指令复制过去,直接在这个位置直接粘贴即可。安装成功的检测方式很简单,你就输入欧拉玛, 如果他不报错,还给我们对应的选项,是咱们是进行对话呀,还是怎么样的证明你的安装就是成功的, ctrl c 直接退出。 所以说欧拉玛安装之后,紧接着就是把我们的模型在当前的优班途中跑起来。老张刚才给大家测试的是 g m 四三十一 b 模型,我们直接输入指令欧拉玛空格 run, 然后你的模型效果直接回车,第一次时他会直接进行对应的模型下载。 如果说你现在只想用 openclo 来调用欧拉玛的这个占四的话,可以在我们的本地电脑上把之前咱们那个桌面端给它删掉,如果说你不,你想两端都使用的话,就可以直接在这个位置进行使用了,然后发一个你好看一下响应速度, 响应速度是非常快的,所以接下来我们把这个家伙欧拉玛的詹姆斯直接部署给我们的 openclo, 在 这怎么中止对话,摁一下 ctrl c, 再摁一下 ctrl d 啊,就可以直接进行中止对话了啊,所以说大家可以直接的把它退出来, 退出来之后我们在这部署一下 openclo。 关于 openclo 的 安装呢,官网推荐是使用 col 这种安装方法,但是老张发现很多兄弟在使用这种安装方式时呢, 出现了这个网络问题,导致下载出现卡顿,如果说 col 的 方法报错的话,直接使用 npm 安装也是完全可以的,安装完之后直接输入 open klo 空格杠 v 来输出最新的 open klo 的 对应版本啊,这就是老张跟大家说的一些建议啊,大家按照这个要求去做就行了。 然后接下来我们进入到配置,直接使直接输入它的配置指令回车,选择 yes, 然后选择快速开始就可以,我们直接配置一下模型, 然后选择更新,这选择谁呢?选择这个欧拉玛啊,然后选择默认的这个 ul, 选择本地模型,让他去给我找一下咱们本地有哪些模型,稍作等待 好,选择当前的这个模型, gm 四三十一 b, 然后配置我们的聊天软件啊,这个老张之前讲过太多太多次了,现在呢,他又支持了很多,包括 qq 之类的,大家有需要的话可以按照之前老张的教程再来一遍,我们先跳过 打开之后啊,就可以直接对话了。但是如果说善于观察的兄弟们也发现了,老张呢,把这个使用模型呢换成了这个一四 b 的 模型,不是那个三十一 b 的, 因为三十一 b 呢,老张在测试的时候也好,或者在一些使用时候也好,他有的时候会出现这个连接超时的问题,也是 open klo 更新到最新版本出现了一个能启动问题, 这个呢,老张现在还没有特别好的解决方案,所以说我先用 e s b 的 给大家进行演示,发一个。你好,我们来测试一下他的响应速度啊,还是比较快的。 然后接下来呢,我们再把之前的那个慢句的提示词发送过来,我们来看一下他能不能更好的帮我们去进行慢句提示词的对应理解,以及对应的相关反馈。 嗯,其实我们看到啊,他反馈的这个结果呢,和三十一 b 相比啊,真的是有一定差距的,但是呢,确实也是另一方面实现了我们所谓的叫偷根自由。 大家呢也可以后续啊,去测试一下怎么让本地如果你的显卡够用的话,把这个大模型给它跑起来,然后老张呢也会及时给大家更新啊,无论是在评论区中还是视频中,教大家如何使用,我是程学老张,定期分享 ai 好 用知识,希望大家多多关注。

google jam 四来了,开放权重多模态能推理?今天给你讲透!先说结论, jam 四是 google 最新一代开放权重 ai 模型,四个版本,二 b 四 b 二六 b 三一 b, 最小的七个 g 跑在手机上,最大的二十 g 跑在服务器,但最炸的是中间这个二六 b。 二十六 b 用的是混合专家架构 moe, 总共两百五十二亿参数,但每次推理只激活三十八亿。 百分之十五什么意思?速度接近四 b 的 小模型,性能逼近三一 b 的 大模型,速度加性能,两个都要,这就是性价比之王。对比 jam 二三数学推理, a i m e 提升百分之三百二十九编程能力 code forces d l o 直接翻了十八倍长,上下文理解提升百分之三百九十二这不是挤牙膏,这是换了一辆车。 jam 二四还有个新能力 思考模式 system prompt 加一个 tiktok 模型,就会先内部推理再回答,加上全模态,支持文字图片音频视频一百四十多种语言,两百五十六 k 超长上下文, 最简单的上手方式,欧了吗?一行命令,欧了吗? run gemma 四直接跑,门槛低到离谱。 google 最新开放模型,双架构,四个尺寸,数学百分之八十九编成 elo 二一五零二十六 bmo, 性价比无敌。关注 gaker, 下期教你怎么让小龙虾使用这个模型。

四月二号那天,也就是前几天,大家准备过清明节了,然后 google deepmind 发布了 gemma phone, 也就是一个免费的开源大模型。这个模型出来以后,在 x 上面引起了一番非常热烈的讨论。然后我看到这个博主, 他是自己在家里 home school 他的孩子,他就是有说自己现在完全用这个 gemma 四来跑,他的 open claw 就是 完全免费模型,目前有几档。 然后有一些小模型的话,可能就是作为问答,你可以直接在你的手机上下载这个叫做 google ai h gallery 的 这个 app, 因为我人现在是在泰国,然后但是我在网上看了一下,有网友说用中国苹果 id 也是可以下载到这个软件的,我刚刚继续在玩,然后我觉得最好玩的就是 这个模型可以直接呃离线使用,什么意思呢?就是我现在把手机打开飞行模式,也不连 wifi, 我 下载的是这个模型,然后我就问他,请给我解释一下清明节的来源和历史, 你看秒回答了我,我觉得这个很有意思,因为我没有开网络,然后它还有不同的玩法,比如说这里它有几个归类啊,有 ask image, 就是 你可以把图发给他问,然后这里我就尝试,因为我生活在泰国,我还没有正式开始学泰语,我也特别喜欢跟我老公一起去呃找一些本地的那些餐厅,一般这种呃 local 一 点的店,他们的菜单是不会有中文和英文的,然后就试了一下,就把这个完全是泰语的菜单发给了 jamafo, 然后我说你给我翻译成中文, 他也瞬间给我翻译了。而且注意这一切都是在没有联网的情况下做到的,所以我觉得真的很神奇。然后我还用了 o t o scribe, 比如我一些朋友或者家里年纪大一点的人,他们来泰国玩并没有来得及买手机卡,然后在机场的时候可能有一些问题,又不知道怎么用泰语或者英语说,然后我在这里试一下 萨瓦迪卡,萨瓦迪麦,这是我仅会的几句泰语之两句,发给他会说翻译成中文什么意思, 然后他告诉我是你好你好吗的意思。我觉得这个也非常好用,就是在你完全没有联网的情况下,可以有一个 ai 在 你的手机里面 直接帮你去解决一些问题。然后还有一个有意思的是,它这里面还做了一个叫 tiny garden 的 一个小游戏,可以在这里面种花,可以通过你发语音或者打字说你要在哪个格子里面去种什么种子,然后可以浇水,然后看着这个花长大, 然后这个游戏也是完全不需要联网来玩的,所以我觉得这个 app 有 一定的实用性。呃,也需要它更多的迭代和更新。但是这几个模型是没有编程能力的,就是如果你要 去拷拷定一些东西出来的话,还是需要下载三十一 b 和二十六 b 这两个模型到你的电脑端。但是虽然是免费使用,但是下载本身是需要占据你的十五到二十个 g 的 内存,同时也需要有十六到二十个 g 的 gpu。 当然我觉得可能很多人的电脑 可以做到,但是跑起来到底顺不顺利,可能就是需要你的电脑配置越高越好。对我来说,我目前在我的 ai 助手 叉叉上已经可以用到这两个模型了,然后它的费用其实也非常的低,我做一个简单的网站出来也就花个几毛钱人民币, 所以对于我目前的需求来说,我可能就是不会去把它下载到我的电脑上,而是在我的 ai 软件上去使用它。我作为一个内容创作者,嗯, 这些新的模型出来,我会第一时间去尝试,去试用,然后跟大家讲一下我的第一感受。但是我觉得大家没有必要为此感到焦虑啊,因为一开始这些大模型不是那么的稳定,可以去尝试一下吧。

三十二 g 内存的 mac 跑本地大模型,到底能不能实现偷啃自由?今天我用谷歌刚发布的干马四给大家实测一下。 干马四是谷歌的新上的开源大模型,主打高性能和本地部署,官方说他能在手机上跑,还能流畅运行,但是我始终想不出这个部署在手机上有什么应用场景,于是作为养虾人,每天都在焦虑偷啃的消耗,竟然手机上没有使用场景, 那么本地部署来养我的小龙虾是再合适不过。它的部署其实很简单, windows 用户直接用欧拉玛, mac 用户我推荐用 x m l x, 这是专门为 mac 深度优化的推理框架,相比欧拉玛性能更出色。 打开后进入 admin panel, 在 models 页面搜索 hugen face, 输入伽马四各种参数版就出来了。 我的设备是 m 三 max, 三十二 g 统一内存。今天的重点是两个问题,第一,三十二 g 内存能流畅的跑哪个参数?第二,本地部署的输出质量能不能满足日常要求?我已经把干马仕连入小龙虾工作流,先上硬菜 测试。三十一 b 是 比特量化版,现在是十四点十四分,我们记下时,但是结果比较尴尬,等了一分钟风扇狂转还没有出结果,所以结论是三十一 b 在 三十二 g 内存上是跑不动的, 如果电脑是六十四 g 以上应该就会很合适,那么我们就试一下二十六 b, 现在是十四点二十一分,不到一分钟结果就出来了,透口深深的速度稳定在每秒三十三个,这个速度对于我来说是完全够用, 快速少了一眼回答,质量还是不错的,于是继续追问,重复刚刚的问题,测试下上下文记忆能力。 又追问了模型对比和选择建议,主要考察三点,上下文连贯性并理解能力及问答准确性。 从结果来看,上下文记忆能力没问题,也没有胡编乱造。我们再换一个场景,让他帮我写公众号,推荐一个合适的模型。结论,测试下来,三十二 g 内存跑二十六 b, 响应速度是可以的, 输出效率挺高。当然,回答质量还需要深度测试,看能不能达到商用的标准,但是要彻底说满足,偷啃自由。现在下结论还是太早,因为在测试中发现一个致命的问题, 干马仕标称二百六十五 k 上下文,但我问了七个问题,就报上下文。一出这个问题很头疼,不解决的话基本没有保留历史对话记录,也只能不停的删内容或者开新对话,对于长期使用影响很大。 所以目前我在找解决方案,研究了几种可能的思路,看能不能突破限制,如果能搞定这个问题,本地部署才算真正可用。找到方案后第一时间通知给大家,今天的测试就到这,我是林浩,我们下期见!

今天我将跟着大家一起本地步数加码四,接入 open core, 彻底告别托肯焦虑,接下来跟着我操作。 这里我们先进入 elama 的 官方网站,进入官方网站过后,我们直接点右上角的 download 下载,我们这里是 windows 系统,选择下载 for windows, 点击这里, 这里就等它下载好。下载好之后,我们这里就直接双击运行,这是它的安装界面,我们直接点安装这里,等它默认安装好。 好了,这里 elama 就 安装好了。然后我们到这个地方 elama 的 官方网站,选择 models, 这个地方选择 command 四, 然后这里我们选择我们的模型,这个模型的选择我们根据我们的显卡显存大小来选择。我们这边看一下我们的显存是多少, 这里看到我使用的是四零七零的显卡,显存是十二 g b 的 显存,十二 g b 的 显存的情况下,我们可以选择这个九点六 g 的 模型,这个一四 b, 这个我们直接点进去,选择一四 b。 点击进去过后,我们直接复制这条命令,然后运行一个 cmd 窗口, 直接粘贴这里,它就会欧拉玛会自动地给我们安装这个模型。呃,这里等的时间是比较长的, 这里模型已经下载下来,并且运行起来了,我们向它发送一条消息,试一下你是谁, 反应还是可以的,这就跟了我们信息回答了。好了,在这里过后呢,我们就可以把这个窗口关闭掉, 关闭掉过后,在 lama 这个地方我们去选择这个模型,在这个位置也就可以和它进行通话了。 比如我们问他一句,你可以帮我做些什么, 他已经帮我回答了,在这里呢,我们因为我们是在本地虚拟机上安装的,所以而且我们为了方便以后可以在其他计算机上也可以调用,我们在这地方设置这个位置 点,这个位置点设置这个允许在网络上运行,把它开起来点了就可以了。 好了,我们下一步就开始配在 open core 上配置啊,在这里我们进入虚拟机之后,我已经执行了 npm i, 刚接 open core 全曲,安装 open core 的, 我们这里可以执行一下 mini, 看下我们安装的版本。 openclock 杠 v 是 安装的最新版本二零二六点四点五版本,然后我们执行 openclock on, 在 这里我们进行一个调试,这个地方我们 yes, 这里选择快速,这个地方它是让我们选择大模型,呃,大模型它这里有,我们选择本地的这个位置点确定 这里我们直接就选择本地的,不要选云,上面是带云端的,就选择本地模型。 这地方让我们选择模型,我们选择这个,这就是我们刚刚这个就是我们刚刚下载好的模型,就是 直接回车。等一下, 这里让我们选择通讯工具,我们这直接跳过,暂时不管这个,直接跳过。 呃, scale, 我 们这边也选择否先进行最简单的安装 网关,我们就直接重启, 选择 open ray web ui 好 了,我们看一下 open core 运行起来了没有。 open core getaway style sta 好了,已经运营起来了,我们进去看一下, 这边需要 token, 我 去看一下 token 是 多少,关于 token 的 话就是我们,我现在是在虚拟机里面安装的, 我要重新打开看一下,在虚拟机里面安装,我们就直接去通过这条 mini 访问我们的虚拟机, wsl 的 虚拟机访问,然后无斑图选择 home 目录,选择我们的用户, 然后这里选择点 opencloud 这个文件夹,然后这一个 opencloud json 让我们看一下,到 git 里面去,这个地方就是我们的 talking, 复制粘贴下来到这个地方,点连接好了,我们尝试给他发一条消息,你是谁? 在主位置这个地方,我们可以看到这地方是我的模型。 我再问他一条消息,你现在使用的是什么模型? 看这里已经是我当前运行的模型 工具,在这里我们就可以看到了,我们现在整个 open call 来使用的是我们本地模型,就不需要去购买 token 了。好,今天内容就这么多,谢谢大家。

还在心疼养龙虾烧掉的 api 偷看钱吗?赶紧停下你手里的云端调用 google 甩出了王炸级的开源大模型詹玛四,它不仅能让你家里那台只有八 g 内存的吃灰旧电脑零成本跑通 openclock 官方甚至全面开放了移动端底层接口连处在开源生态鄙视链底端的苹果 ios 系统,现在都能用第三方离线软件,直接白嫖顶级大模型了。 过去咱们想玩 openclaw 这种能接管电脑的全自动管家,痛点极其折磨人,你要么每个月花大几百块钱烧云端接口费,要么就得花两三万买张顶级显卡搞本地部署,门槛高的离谱。但今天,詹玛四直接把这张昂贵的桌子给掀了。今天咱们不铺垫不废话,直接从底层技术扒一扒这个詹玛四到底为什么这么神! 首先就是它堪称残暴的硬件大放能力。 coco 这次专门针对本地边缘设备推出了一个代号为 e 二 b 的 端侧模型,这玩意的官方硬件及格线被死死的压在了八 gb 运行内存和两 gb 的 硬盘空间上。 这就意味着,你大学时代买的轻薄本,或者是几千块钱的盖板, mac mini 瞬间就能跑起来。你肯定会问,这么小的模型,它能听懂 openclaw 那 种复杂的自动化指令吗?这就是詹马斯最恐怖的技术壁垒,原生智能体工作流 agenco workclaw。 我 们要搞清楚,让 ai 陪你聊天和让 ai 去控制电脑敲代码完全是两个维度的技术。 智能体执任一种叫做 jason 格式的结构化代码指令。以前你用那些普通的本地小模型,你让他输出个代码,他非要在前面加上一句好的主人,结果这四个字直接让系统崩溃。而詹玛四在预训练时疯狂吃透了海量的函数调用逻辑,当欧根克劳向他发送请求时,他能在你八 g 内存的破电脑里百分之百精准的突出,毫无破绽的标准机器代 码提示词进去,标准代码出来,这种极致的指令遵从能力,才是你旧电脑能拥有一套不崩溃、不花钱自动化管家的硬核。真相 不仅如此,如果你的电脑稍微好一点,有二十四 g 以上的内存,那你一定要试试詹玛四那个战力爆表的二十六 b 混合专家模型,也就是 mo 架构, 这也是目前大模型领域最优雅的算法设计。普通的模型是你问一个问题,它所有的参数都要被激活运算一遍,极度消耗内存。而詹玛四的 mo 架构就像是一个拥有两百六十个不同领域顶尖专家的超级公司,当你丢给他一个复杂的逻辑问题时,系统底层的路由网络会自动识别,只精准唤醒那最懂行的三个专家来干活,其他专家继续休眠。 所以它体量极其庞大,但在实际推理时却极其省资源,普通的家用游戏本就能跑到飞起。说完了拯救电脑,咱们再聊聊这次另一个让我头皮发麻的重头戏, 手机端双端离线运行。刚才提到了,这次詹玛四彻底打通了 ios 和安卓的生态,酷狗在发布模型的同时,直接甩出了最底层的 mini ipad 框架。现在的开源社区已经彻底杀疯了各路技术大神,火速做出了各种适配手机端的第三方离线 app, 这背后的技术创新直接打通了移动端芯片的指令集。 不管你是苹果的 a 系列仿生芯片,还是安卓的高空枭龙,它能绕开极其耗电的 cpu, 直接调用你手机里专门负责 ai 计算的 npu 模块。 所以哪怕你在没有信号的高铁上,扔给他一份全英文的机密商业合同,让他提炼重点,他直接在你的手机晶体管里就能瞬间跑出结果。这不仅实现了真正的零延迟,更从物理层面上把你的隐私安全拉满了, 你的数据没有任何一秒钟离开过你的手机。其实咱们把这些底层逻辑拆解开来,你会发现占马四这次的发布,真真实实的把科技屏权砸到了我们每一个普通人的脸上。但这也抛给我们所有普通人一个细思极恐的问题, 当这种拥有极高执行权限的超级大脑,不再是巨头垄断的特权,而是变成像水和电一样,哪怕是你家吃亏的破电脑和手机都能免费跑的底层基建时,你觉得未来五年,人类和这种长在本地、洞悉你一切秘密的 ai 管家,到底会是一种怎样的共生关系? 当每个人都拥有了零成本的超级外挂,真正拉开人与人之间差距的又会是什么呢?其实在这个 ai 工具加速洗牌的时代,真正赚钱省钱的门道,往往就藏在这些被打破的信息差里。关注我,带你抹平这些信息差,让你在 ai 大 爆发的时代走在最前沿!

兄弟们,欧拉玛已经更新好了,杰玛斯的大模型也不朽完成了,一共四个模型,接下来挨个测试一下,所有的测试都是在这个电脑配置下完成的。第一个问题,介绍一下自己, 第二个问题,用李白的风格写一首 诗。 最后一个问题,经典的喜鹊问题 总结一下,四个模型都测了,最快的是一二 b, 最慢的是三十一 b, 四个模型第一次启动都有点慢,后续速度都还可以。 总的来说,回答质量最好的是三十一 b, 包括最后的一个洗车逻辑陷阱也自动识别出来了, 就是我这个配置运行起来实在是太慢太慢了,所以性价比最高的应该是这个二十六 b 模型。回答速度,回答质量都还可以,可以用在部署小龙虾,用来做个人的 a 键,挺好用的。后续再和千万三点五做个横向对比,记得点个关注。

就在四月二日,谷歌发布了 gmail 四,这是一个完全开源的多模态大模型系列,支持文本、图像和音频交互,而且采用 ipatch 二点零协议,可以免费商用,没有任何授权费用。 你有没有想过,把谷歌最新的大模型装在自己手机里,完全离线使用,不用花一分钱,还能保证自己的隐私,绝对安全。 就在四月二日,谷歌发布了 gms, 这是一个完全开源的多模态大模型系列,支持文本、图像和音频交互,而且采用 apache 二点零协议,可以免费商用,没有任何授权费用。 首先咱们得搞清楚 gammas 到底是什么,它和谷歌闭源的旗舰模型 gamem 三,共享底层技术,一共四个版本, e 二 b、 e 四 b 二十六 b 莓 e 和三一 b dens。 咱们普通人能用的就是前两个 e 二 b 和 e 四 b, 因为它们能在手机上直接运行,完全离线,而且不占太多空间。 e 二 b 大 概需要三点二 gb 的 存储空间, e 四 b 需要五 gb 左右。对现在的手机来说,这个空间压力不算大。 那要在手机上部署 game 四,需要什么样的条件呢?安卓手机需要安卓的十二以上,苹果手机需要 ios 十六以上,内存方面 至少八 gb ram, 六 gb 的 话可能会闪退。机型上,苹果推荐 iphone 十二级以上,安卓最好是中高端机型。有个特别提醒,华为手机不支持,因为谷歌服务的限制,这个得记清楚。 接下来是安卓端部署步骤,有两个方案可以选。第一个是官方推荐的谷歌 ai edge gallery, 你 可以在公共 play 里搜索下载,或者去 apk mirror 下载 apk 安装包, 打开应用后进入模型库搜索 j m 四,选择 j m 四 e 二 b 杠 it 或者 j m 四 e 四 b 杠 it 点击下载。下载的时候建议用 wifi, 毕竟文件有两到四 g b 流量,下载不太划算,下载完成后会自动激活,之后就能离线使用了。 第二个方案是开源的 m l c chat, 你 可以从 tapp 上下载这个应用,打开应用后点击加号,添加模型,选择 gemas 的 e 二 b 或者 e 四 b 版本,等待下载完成就可以了。不过国内用户可能会遇到问题,因为模型默认从 hugen face 下载,国内有时候访问不了。 这时候有两个办法,一个是用电脑访问 h f 杠 m 二二 o r 点 com 下载,点 g g u f 格式的文件,然后传到手机的 android data ai dot m l c dot m l c chat slash files 目录里,再在 app 里导入。 另一个办法是直接用手机访问镜像站下载。苹果手机的部署就更简单了,直接在 app store 搜索 m l c chat 下载安装, 打开应用后点击 download models, 找到 gamma 四系列,选择 e 二 b 或者 e 四 b 版本,下载完成之后就能直接离线对话了。 咱们再说说性能表现。 pixel 八 pro 运行 e 二 b 版本,每秒大概能处理十五个 tokens, 内存占用三点五 gb。 iphone 十五 pro 运行 e2b 的 话,每秒大概十二个 tokens, 内存占用三点二 gb。 小 米十四的速度稍微慢一点,每秒十个 tokens, 内存占用三点八 gb。 第一次运行的时候,系统会对模型进行优化,可能会有点慢,但是之后就会快很多。 这个模型最大的优势就是完全离线运行,不需要联网,所有数据都留在你自己的手机里,隐私绝对安全。而且它支持文本、图像和语音交互功能,和云端的大模型差不多,但不需要花一分钱,也没有 api 调用费用,可以永久免费使用。 最后给你几个注意事项, e to b 更清亮,速度更快,适合基础的对话需求。 e 四 b 的 推理能力更强,支持多模态任务,比如分析图像或者处理复杂问题。下载模型的时候建议用 w wifi, 这样能省不少流量。使用的时候最好把后台的其他应用关掉,这样能提升运行的流畅度。 现在的版本中文支持已经很好了,还支持一百四十多种语言,你不用担心语言障碍的问题。好了,今天的部署指南就到这里,你现在就可以按照我给的步骤,把 gms 装到自己的手机里,体验一下完全离线的 ai 大 模型。行动起来,把 ai 装进你的口袋。

继谷歌发布 jim 四后,在 ios 平台又悄悄上架了一款 ai 应用 google ai h gallery, 让 jim 小 模型可以在 iphone 本地离线运行, 不需要联网,飞行模式也能用。而且谷歌这次给的还挺全,多轮对话、图像问答、录音、转写,甚至还有个小游戏 a 阵的模式,能让 ai 帮你操作手机,比如开关手电筒、创建日历事件,关键是免费,无需账号, 不要 a p i 密要。最有意思的是,这款 app 在 苹果芯片上跑本地模型的效率很高, jim 四的一二 b 和一四 b 两个小尺寸版本, 这是为手机端设计的,上下文窗口达到一百二十八 k, 日常用完全够了。当然,目前 app 只有英文界面,而且建议 iphone 有 六 gb 以上运存。不过它已经让人看到了一个趋势,以后手机里就能跑大模型,云端那套按 token 收费的生意怕是要被重新定义了。

手机直接跑大龙虾,这波直接封神,真骂四,本地部署零元免偷啃,国产厂商脸都绿了。五哥看了掀桌子,某场还在收费卡脖子真的别太离谱。评论区告诉我,你想让你的手机大龙虾学什么技能?