粉丝3.3万获赞26.7万

等等,一个只有三百一十亿参数的模型,怎么能跟一万亿参数的模型几乎同分?它的参数量不是小了一点,而是小了三十倍。 三十亿币可以在很多消费级的设备上跑了,按正常的逻辑,它根本不应该出现在这一档。而三十亿币的小模型就是谷歌刚发布的 jama 四。那 jama 四到底是什么?实测它的性能真的有这么好吗?一会我们详细对比,并且在手机上、电脑上都给它跑起来。 最后我们一起说一下,为什么它引起了如此广泛的讨论,以及它引起的新风潮,为什么可能直接改写接下来 ai 竞争的方向。 好,废话不多说,我们开始伽马四,是谷歌新一代的开源模型,这次直接发布了四个版本,能在手机上跑的一二 b, 能在普通消费机电脑上跑的一四 b, 以及需要一些高配电脑或者工作站的二十六 b 的 混合专家版本,以及最受关注的三十一 b 的 重密模型。 这个产品结构本身也解释了谷歌的野心,想把从手机、消费机设备到工作站这条开源路线一起凸出来。它的卖点非常明确,第一,谷歌算是铁树开花了, 这代的 ram 是 阿帕奇二点零的证书,是真正能让开发者去用、去改,去商业化的开源模型。二,它主打的不是参数有多大,而是 intelligence profile, 说白了就是同样甚至更小的体量,尽量打出更高的能力密度。比如这个图,横轴是参数量,纵轴是盲测得分,越往左上角走, 同样参数量的情况下,它的性能就越高。第三,它不只是要聊天,谷歌这次明确在推 reasoning and egotic workflows, 包括多步的推理,代码的生成,图像理解,上下文,甚至小版本还支持音频等多模态, 我们这些一会儿我们在手机上跑模型的时候都能看到。那这就是为什么伽马斯这次热度很高了,过去很多开源模型我们还是追求的最好的性能,那这次呢?谷歌的小版本在打本地和边缘设备, 而大一点点的版本却在挑战开源模型的榜单,说的就是这个三十一 b 的 模型这么小,已经在开放的榜单上打造一个所有人都能看到的位置了。那问题就来了,它的实测性能到底怎么样?真的有这么好吗?接下来我们一起看一下。 既然它号称和最好的那几个开源大模型旗鼓相当,那我们也不客气了,分别测试一 g m 四最好的三十一 b 版本和谷歌自家旗舰 g m d 四 b 版本,并且与同参数量的千万四 b 进行对比。三,如何在手机上跑 j 码四,以及我的真实体验。 首先在云端,我们对比四个模型, j 码最好的三十一 b 版本, gmail 三, flash gmail 三点一, pro 以及 deepsea v 三点二,在很多人都需要的编程文案和推理场景, 看看这个小模型有没有一丝替代昂贵一线模型的可能性。问题一,编程类,请用单文件 html 做一个高端现代家具品牌的网站首页, 这是 jam 生成的网页。其实啊,不经验,但是也不算差,考虑到它的体量,这个结果算是超过预期了。但问题也很明显,有些图片没有正常演示,图纹对应也有错误,所以完成度还是差了一大截。 这是 deepsea v 三点二生成的网页,整体也不错,设计能看,交互也有往下滚,还有一些动画效果,而且它的图片、文字这些元素是对得上的,说明它已经有些理解。这是一个电商的首页了。 这是 jammin 三 flash 生成的网页,第一眼观感已经很好了,设计感呢,比 jammin 更成熟,但是它的问题是动画和交互偏少,整体呢,没有达到完整的状态。 这是 jimi nike 三点一 pro 生成的网页,好疑问,是最强的对吧?几乎是一条提示词下去,设计,排版、交互细节都到位了,也充分理解了这是为电商准备的, 以及开头这些细节的动画,确实有一种高端,一种成熟的感觉。结论, jimi nike 三点一 pro 大 于 jimi nike 三 flash 大 于 deepsea 大 于 gemma。 这一次 gemma 是 最差的。问题二,文案, 请帮我写一段适合发朋友圈、社交媒体的短文案,主题是我第一次用本地 ai, 发现他已经在电脑上自己能做很多事情了。并列三四名, gmail 三点一 pro jimmy 四、 真香,安全感拉满,不要钱的专属助理,这些词都用力过猛,太假。第二名, gmail 三 fresh 最大的问题就是太过营销了,比方说,真后悔没去试,试过就回不去了,太香了,就是营销味太重。 第一名呢是 deepsea, 是 最像真人随手发朋友圈的,比方说啊,刚刚是在电脑上跑了个本地 ai 这种词,或者是速度比想象中的快, 隐私还放心,这些表达都相对比较自然。除了最后那句,推荐你们都试试看,稍微有点假,但整体来说还是最顺的。所以文案这里 deepsea 大 于 jimi nike 三 flash 大 于 jimi nike 三点一 pro 题目三,简单的推理题这个题所有模型都应该答对,这里主要看 jimi 四拉不拉垮。 一个农夫带着一只狼,一只羊和一颗白菜。过河船一次只能载农夫和另外一样东西,如果农夫不在,狼会吃羊,羊会吃白菜。请问怎么把这三样东西都安全的运到河对岸?请一步一步说清楚。 标准答案之一就是,人先带着羊过去,然后人自己回来,然后人带狼过去,带着羊回来。第三步,人再带着菜过去,人自己回来,最后是人再带着羊过去。 其实这道题都答对了,所以如果只看评理结果,那这题就是平手任马四,最好的三十一 b 白板啊。虽然阿尔瑞纳的盲测分数比 deepsea v 三点二高,但是文案和编程这两个我们需要最好模型来做的场景。我自己的测试没有 deepsea v 三点二好, 但是考虑它只有三十一 b 的 大小,编程的效果已经出奇的好。在云端测完最好的版本,下面我们测一下本地能跑的 ram 四,因为啊,大部分人的电脑都跑不了三十一 b 的 版本,所以我们在本地测试 ram 四 e 四 b, 并且对比同参数量的千万三点五四 b。 至于题目这么小的模型,测试编程能力就是有点耍流氓了。因为编程大家肯定都用最好的模型,所以这里我们测试三个日常助理的题目,考常识,考文案,考简单的推理一、常识规划能力。下周我要去巴黎玩,四千, 除了机票之外,预算一万,第一次去,住在巴黎市中心,帮我安排一个计划,并且告诉我最容易踩坑的五件事情, 这是他们的回答。简单来说啊, jama 这边没有出现事实性错误,而且行程写得更顺。但是他的问题就是,他几乎忘记了处理预算这件事情,而且最后的建议啊,没有这么贴切。千万正好反过来五个避坑建议相当靠谱,而且他是有意识的去考虑预算的,虽然是有些混乱吧, 但是千万里面有事实性错误,把两个景点荣俊苑和法尔赛混在一起了,而且他的思考时间啊,差不多是 jama 四的十倍, 所以各有一缺点,结果打平。题目二,文案把下面的 ai 味很重的口播稿点成更像真人说的话,要求更自然,更顺口,信息密度别掉,不要鸡汤,不要夸张, 人马四 ai 味实在是太重了。比如这一句,原句是,如果我们今天只是把 ai 理解成一个简单的聊天机器人,那很可能低估了这场技术变更的真正影响范围。 人马四改写的是,这可不是个小升级,是个大变格。这种话听起来就像 ai 反过来千问那句,你要是现在还把它当个普通聊天机器人,那你可能把这事看清了,我觉得就更自然一些。所以这题呢,比较简单,千问四必 大于 jama 四 e 四 b。 第三题还是刚才那个简单的推理题,一个农夫怎么带着一只羊一只狼和一个白菜过河的问题而都答对了。那么这个题平手可以看到 jama 四 e 四 b 的 版本啊,在我们的测试中,跟千万三点五四比打平,而且文案写的还没有人家那么好, 所以在我这里这个版本是没有什么惊喜的。 jama 四也能在手机上直接跑谷歌 a i h gallery 这个软件。 我的实测感受,第一,手机上有两个版本, jam 四一二 b 的 二点五 gb 和三点六倍 gb 版本。那么这两个呢,都是二十亿参数级别,专门为端侧部署优化的小模型, 两个都支持多模态,也就是图片和音频的理解。二就是有两个加速模式, cpu 加速和 gpu 加速。我的安卓手机呢, cpu 加速明显更快一些。 三,没办法联网,但是能用 viki pita 这个 skills 来获取维基百科上的信息。四,有 agent skill 模式,但是只有默认的 bug skills 和自己定义 skills 的 选项。 五,就是啊,图片识别模式非常的不稳定,经常出现闪退。从所有的评测我们看到啊, gemma 四远远不是最强的,那为什么它掀起了这么大的讨论呢? 就是因为他三十一倍的体量和高性价比的性能,大模型啊,越强越贵越大,就离普通的设备越远。在卷性能的另一端,他开辟了一条竞争的道路,就是谁的能力密度更高,谁更能落地手机电脑这样的普通设备。 那这条路线呢,有三个值钱的地方,第一就是成本更低,对吧?如果一个模型更小,能力还足够强,他的推理成本就会更低,对算力的依赖也更小, 同样的用户数量,竞争力就更高。第二就是他打开了一些之前做不了的场景,比如一些隐私敏感的企业弱网环境离线场景,这条路呢,可能会放大可成交的市场范围。第三 就是卖钱的方式有可能会变。现在 ai 公司卖的是旗舰模型的 api token, 如果未来有更低的部署门槛,更强的观测能力,更好的私有化能力,那钱不一定只在 talk 里赚了, 可以从企业部署私有化方案、设备预装垂直方向里面转。也就是说啊,开始从卖能力变成卖能力加卖系统,更加对接 to b 的 生意, 由此可能会带来竞争壁垒的改变。如果模型能力越来越近,那优势就会变成了谁更容易部署,谁更容易接近工作流了。当然,将来大家肯定还是会选谁的旗舰模型能力最强,尤其是 ag 的 能力和写代码的能力。 但是除了这条竞争路线之外呢,也许我们会看到 ai 竞争的第二条追求更强能力密度的路线。哎,如果你都看到这了,你是不是应该点个关注呢?我们下期再见!

谷歌刚发布了王炸级别的开源大模型 g m 四,本视频将为你带来详细的评测。本次的 g m 四最大的杀手锏是彻底转向了 ipad 二点零纯开源协议,这意味着他终于解除了之前的法务紧箍咒,开发者可以闭眼商用。虽然三十一 d 模型在 reno ai 榜单上拿到了开源第三, 但回归到真实场景,它的表现其实是一把极其锋利的双刃剑,评价非常两极分化。首先看旗舰级的三十一 bance 模型,它的编程能力非常惊艳,实测写 html 界面,排版精美,在 levelbench 拿到了百分之八十的高分,达到了专业程序员的指令水平。 而且它的 token 效率极高,平均消耗只有 coin 三点五的百分之六十五,非常适合需要反复调用、在意成本的本地 agent 工作流。 但它的偏科非常严重,数学精度不足,简单的运算经常出错,尤其是在处理信息密度大的长文本时,很容易产生幻觉,而且在开启慢思考模式后,偶尔会陷入死循环,无法跳出。接下来是性价比极高的二十六 b m o e 模型, 这款模型是本地二十四 g 显存用户的福音,虽然总参数有二十五点二 b, 但推理时仅激活三点八 b 参数,这意味着你只需要十六到十八 g b 的 显存就能跑起四 b 的 量化版,而且速度极快,实测能达到每秒六十个 token, 非常适合那些需要塞入臃肿系统提示词的 a 帧子应用。不过这款模型的评价极其割裂,虽然有人觉得它实用,但也有开发者直言它在中文写作和逻辑推理上,灌水严重, 被戏称为数字干水制造器。最后是端侧的小杯模型 e 四 b 和 e 二 b。 它最大的亮点在于原声支持最高三十秒的音频输入,这意味着你不需要外挂 s r 语音转文字模型,英文转写效果几乎完美,是做本地语音助手的绝佳选择。但它的视觉能力简直是灾难, 面对简单的发票截图或手机截图,文字提取错漏百出,甚至连最简单的网页自动化操作第一步都会报错。在视觉理解这个维度上,它被 q n 三点五的九 b 模型按在地上摩擦。 那么在实际选择时,如果你需要构建本地的高频 agent 循环照用,且对 token 预算和响应延迟要求极高,那么二十六 b m o e 是 首选。 如果你想打造纯离线的语音交互设备,直接用 e 四 b 即可。当然,如果你最看重的是开源协议,需要变商用 jamas 的 pitch 二点零协议就是最大的优势。 相反,如果你需要一个强悍且稳定的综合小尺寸模型, q n 三点五的九 b 版本在综合能力上是碾压 e 四 b 的。 另外,如果你依赖高精度的数学计算 o c r 文字识别,并且要求极低的幻觉率,或者需要一个更成熟的生态和丰富的尺寸矩阵,那么 canon 三点五会是更稳妥的选择。在底层架构上,简码四引入了两项黑科技, 第一是 pl e 逐层嵌入,这是小模型专享的,它不再把所有信息在初识阶段一次性打包,而是在每一层都生成专属信号, 本质上是用额外的算力换取存储空间,增强表达力。第二是混合注意力机制,它采用了五层滑动窗口和一层全局注意力交替的结构,配合双 o p e 配置,直接将上下文处理能力拉升到了二五六 k。 针对硬件部署,这里给一套基于 ansel 和 m c p p 的 建议。如果你只有八 gb 显存,勉强能跑 e 二 b 或 e 四 b, 但只能做简单的摘药或语音识别,千万不要尝试复杂的视觉理解或长代码分析。二到十六 gb 显存是 e 四 b 的 舒适区, 也可以尝试二十六 b m o e 的 重读量化版。而如果你拥有二十四 g b 显存,强烈推荐跑二十六 b a 四 b m o e, 这是目前最有限势意义的型号,能同时兼顾二五六 k 的 长上下文和高效的吞吐量。 最后,分享两个长文本推理的闭坑技巧。如果你在进行存文字的长上下文推理,建议在辣妈 c p p 中直接关闭微震视觉功能,这样可以节约大量显存。 另外,面对复杂任务时,可以通过 a p i 动态调整 thinking budget, 也就是思考预算,防止模型陷入无限思考的死循环,导致机器直接卡死。

开发者和程序员狂喜!谷歌四月正式发布全新开源 ai 模型杰玛四, 代码生成,逻辑推理能力直接拉满,而且完全免费商用!谷歌发布了杰玛系列的全新开源大模型,杰玛四分为四 b 和八 b 两个版本,不仅在逻辑推理、代码生成、数学计算等核心能力上全面超越上一代版本, 性能对标行业顶级的闭源模型,而且完全免费开源,个人和企业都有免费使用,二次修改,甚至可以商用。 对个人开发者、小公司来说,这相当于直接拿到了谷歌顶级的 ai 技术,不用再花大价钱训练模型,就能做出自己的 ai 产品。 开源和闭源的竞争已经成为 ai 行业的核心主线,以 open ai 为代表的闭源阵营,靠顶级性能收费,而以谷歌美塔为代表的开源阵营,靠免费开放技术抢占市场份额,吸引开发者。 而这场竞争的最大赢家就是我们普通人和中小公司,我们能免费用到越来越强的 ai 模型,彻底打破了巨头的技术垄断。给大家两个建议,第一,如果你是程序员、 个人开发者,立刻去体验吉马仕,用它来提升你的开发效率,甚至基于他开发属于自己的 ai 产品插件,抓住 ai 开源的红利。 第二,如果你是普通职场人,多关注基于杰玛斯开发的各类 ai 办公工具,这些工具大多免费,功能强,能帮助你大幅度提升工作效率。你平时用的最多的开源 ai 模型是哪一个呢?我是 eric, ai 实时资讯与你分享,拜拜!

大家好,我是根谷 open cloud 的 追马四欧拉玛全新的本地模型体验来了。欧拉玛最新更新的版本是 v 二点零啊,已经支持追马四,搭配 open cloud, 响应更流畅,速度更快,回车记出结果,支持常文本做任务处理,本地 i i 体验相当的不错, 要想流畅的体验,快去试试升级吧。首先教大家如何去升级吧,当你用这个积马四的话,你首先的显卡应该是十六 gb 上的啊,最好能够到三十六 gb 啊,我的电脑是一个一百二十八 g 的 全存和内存一体化的,是吧, m 四 max 的 最强电脑,所以说我运行这个东西是, 呃,我运行这个金马四二十六币了,这个模型是没任何压力的啊,欧拉玛兔啊,一定要用这个命令啊,金买四二十六币啊,你回车 他默认的会把它下载到你这个,因为我是下完了是吧,当然如果你下载很慢的话呀,你应该去做的有两个操作,就是应该是这么做的,应该是做那个去开他代理啊,这个代理应该是这么做啊,就是去去这么做 开这个代理啊,或者是你去那个把这个镜像设置为那个,设置为一层摩摩搭论坛的那个代理啊, 就是把它带代理到国内啊,如果你能够魔法上网的话,就不需要开代理了,因为我这边的网速是比较快,大概是下载了接近接近两个小时,一个半小时啊,大概是五到六兆每秒,他是七 gb 的, 他会下载哪个目录呢?你可以看一下这个目录啊,欧拉玛这个目录,呃, 首先它的模型会下载到这里,下载你其实不用管了,你可以打开你的欧拉玛,现在欧拉玛其实它又升级了一个小版本啊,就是零点零点二 两百啊,零点二点,零点二点零点二啊,这是今天最新版本,大家建议大家升级最新的版本。那我这里下载了两个模型比较好用,一个是 gbt 的, 一个是 o s s 二十 b, 一个是这个积满四,最新的二十六 b。 那 我发现这两个模型都非常快啊,你下完了以后,你一定要用欧拉玛浪琴去启动欧拉玛 浪去,他去启动这个欧风 club, 启动完了以后我这已经是启动了,启动了以后你打开这个小小龙虾的页面来,我给他做一道数学题目吧。啊,这个他不知道他能不能识别啊,哎,你看非常快吧,秒开吧,是吧? 然后他这个地方其实有错误啊,就是我应该去截个图给,不知道能不能截图过去啊?就是你,哎,就是就是就是,求解,这个一元二次方程, 不知道他能不能识别。这个啊,他已经识别出来了啊,这个是啊,我不知道这个结果是不是对的。 x 平方减五, x 加六啊,应该是没,应该是没问题的,对吧?一个是二,一个是三,对吧?对,非常快,然后这个数学题其实更难一些,就是这个勾股定力的这个,一个这个这个 啊,你看看一下,他应该是应该是很快的,一秒、两秒,两秒就出来了,这个比之前是快很多,我记得考了应该是三月 二十八号那个版本嘛,大概是一周前的欧拉玛这个版本和 opencall 的 最新版本啊,它大概是这样一个难度的速写题,要要五到八秒钟,如果是过年的那会大概是要一分多钟,所以说现在是非常快啊,非常快啊,就是我感觉比那个 api 都要快,所以大家尽可能去试一试啊。用它进行养虾的话, 那比如说,比如说我是谁啊?对吧?他应该很快就能够找到十二月份,是吧?年龄怎么怎么样?我觉得非常快,这个建议大家赶紧去升级吧。


谷歌这次彻底掀桌子了,全新开源大模型伽马四震撼发布!要知道,自从初代伽马发布以来,全网累计下载量已经突破了惊人的四亿次,开发者生态里涌现了超十万个衍生遍体, 这热度直接拉满!为什么要激动?因为伽马四直接继承了谷歌最强老大哥 jimmy 三的底层核心技术, 更狠的是,它首次升级为 a p 七二点零协议纯正开源。这意味着,无论你是搞科研,还是直接拿来商业变现,统统免费授权。这波属于是对开发者贴脸送福利了。 这次谷歌一口气端出了四款不同尺寸的模型,从小杯到超大杯,分别是一二 b、 e 四 b、 二六 b 谋架构和最强的三一 b 密级模型。 这意味着,无论是直接塞进手机进行轻量化的端侧推理,还是在专业设备上进行满血的算力输出,这套全家桶不仅实现了全硬件覆盖, 而且全系支持完全断网的本地离线运行。相比上一代, jam 四直接进化成了全能六边形战士。首先是多模态大爆发, 四款型号全系精通图文双修,其中 e 二 b 和 e 四 b 这两款小模型更绝,甚至长了耳朵能直接听懂你的语音。最离谱的是,这次 jam 四全系内置了硬核的思考模式,遇到复杂问题,他不再是瞎给答案, 而是像人一样一步步推理打草稿,逻辑能力直线飙升。其次是超强记忆力,二六 b 和三一 b 这两款大模型支持高达两百五十六 k 的 超长上下文,吃透几十万字的长篇文档跟玩一样。 即便是两款端侧小模型,也标配了一百二十八 k 的 超大窗口,再加上它原声支持超过一百四十种语言,咱们中文用户用起来简直不要太丝滑。 更恐怖的是他的跃级战斗力!在权威的 irina ai 排行榜上,三一 b 模型直接杀入全球开源模型前三,二六 b 拿下第六,这是什么概念? 他们直接把一重体量是自己十几二十倍的老牌开源巨无霸按在地上摩擦,完美权势。什么叫四两拨千斤?你可以直接把本地跑起来的 jam 四无缝接入到 continue 酷士的本地模式里,或者配合咱们常用的小龙虾、 openclo 以及 cloudco 等工具来使用。用奥拉玛提供底层算力,用这些可视化界面和智能体框架发号施令,瞬间就能为你打造出一个真正免费、不限量 且绝对保护私有代码资产的本地最强代码外挂。把最强的 ai 塞进每个人的口袋,随时随地帮你写代码做分析,这才是真正的科技屏权。如果是你最想在本地设备里装一个什么类型的 ai 助理呢?来评论区聊聊。

jama 四和 quan 三点五这波是真的打起来了。如果你只想先记一句话,轻硬件,本地聊天写代码,先看 jama 四多语言长文档,视频, agent 优先。 quan 三点五。 jama 四这次最猛的是三十一 b dance, 参数不算夸张,但真人投票很强,而 rena 开元榜直接冲到前列, 它更像实用派,本地部属友好回答风格也更自然。 quan 三点五走的是另一条路,三五 b 适合本地综合使用,三九七 b 旗舰就是充能力上线 数学多模态,掌上下文,还有视频和 agent 任务整体都是它更猛,所以别再问谁绝对吊打谁。 jamma 赢的是效率和体验, quan 赢的是上限和全能,按你的硬件和场景选才是真不踩坑。

一分钟让你搞清楚关于全球最强开源模型 jam 的 一切。最近谷歌开源了 jam 四,我将用四个问题 让你清晰了解关于 jam 的 一切。 jam 各版本的区别,我家的电脑能用吗?模型怎么部署安装?普通人用来干什么?先说他的四个版本,三一 b 直接冲上全球开源 ai 榜第三名,以前要机房才能跑的能力,现在你家里的高端游戏显卡就能搞定。 轻量版的一二 b 和一四 b 为手机、平板以及中低端电脑设备打造,性能虽不是最顶级,但是绝对好用够用。而二六 b 猫号称总参数两百六十亿,但实际每次思考只用其中三十八亿个,最相关的效果却能媲美两百六十亿, 能理解超长文章以及视频。简单说,无论你是用手机、笔记本还是高性能电脑, jam 四都能给你免费安全强大的顶级模型体验。再说你家里的设备是否能用上?一张图告诉你 jam 四个版本的最低要求。 对于多数人而言,家用的电脑设部署一二 b 一 四 b 完全够用,基本能满足百分之九十的使用场景。另外两个版本对内存要求较高,但是性能出众,属于好马配好鞍。 再说模型安装,整个过程大概十分钟左右。首先下载 lm studio, 然后打开 opencool 或者 id 工具,让它查找你本地配置,给你推荐安装哪个版本。之后在 lm studio 里下载,运行搜索推荐的模型名点下载,最后接入 opencool 或者 i d e l m studio, 提供 open ai 兼容 api, 在 open 框里把 api 地址改成, h t t p l o c a o s t colon twelve three four slash vivo 就 能用 jama 四驱动你的 ai agent 了。 网上攻略一大堆,这里就不展开了。最后说下所有人最关心的能用 jama 做什么?这里推荐三个场景,可以去试试。第一, 构建本地知识库,把工作和学习相关的文件丢给本地 jama, 让他帮你形成系统化的知识。构建个人知识库时进行向量缩影和 anitive, 解锁数据不出本地,安全合规。第二,给家人搭建一个 ai 助手,下载好模型,配个界面,电脑手机都可以直接对话,不花钱不泄露隐私。第三,内容创作 最大优点是无限额度,即便不如部分付费模型,但可以靠大量尝试提升优质内容的概率。千马寺会改写国内企业及政府客户的私部模型格局吗?欢迎在评论区发表你的观点。

在这个模型井喷的时代,比拼的不再是单一的智商,而是谁能更快地将智商转化为解决实际问题的情商。 google 的 jama 四与阿里的 quan 三点六同日登场, 这不仅是技术的撞车,更是 ai 普及化的关键节点。对于普通用户而言,看懂这场开源对币源的博弈,直观重要。开源模型如 jama, 意味着更低的成本和更高的隐私自由度,它让每个人都能低成本拥有定制 a i。 而币源模型如 quan 则代表了极致的性能与生态整合,适合处理复杂的全场景任务,可以作为高效的生产力工具。理解这两者的差异,能帮你构建更立体的 ai 工具箱,让开原作地基、闭原作塔尖,从而在 ai 时代实现真正的降本增效。

这两天 ai 圈最火的应该就是 gemma four, 谷歌开源的 gemma four, 究竟什么是 gemma four 呢? gemma four 是 谷歌从 gemnet 里边分离出来的一个开源模型,可以说它是一个浓缩的精华, 它可不是一个残血版的 gemini 三,它是把 gemini 三的核心的推理算法原封不动地给搬到了一个笔记本上能用的开源模型里边。 gemini 三个特质大家需要去了解,首先就是逻辑暴力,它主打的就是 advanced reasoning, 在数学和代码编辑能力上,他直接对标的是顶级的闭源模型。第二个他用的是非常友好的开源协议,即便你拿他来做商业的东西,谷歌也不会收你钱。 第三个就是他是原生的智能体,他本来就是为了干活而生的,自带思考模式,专门优化了本地的智能体工作流。其实这个模型部署起来不需要多强的硬件,大家感兴趣的话也可以自己部署试一下。

bingo, 家人们准备好实现 tiktok 自由了吗?相信大家这几天都听说了谷歌发布了最强的本地开源模型揭幕四,那么有人就要问了,这跟 tiktok 自由有啥关系呢?反正我的电脑又跑不动,那我来告诉你,这款模型它甚至可以在手机上入手,而且重点是它的三十二 b 版本,甚至 几乎堆平一千一百个模型,但它的大小才增加了三十分之一,这是什么概念?相当于你十年前的老电脑都能跑,因为这家伙才六个亿。那么话不多说,现在我就来教大家如何在电脑上部署这款谷歌最强开源本地模型,均码式实现偷啃自由 开始,首先第一步呢就是我们要打开我们的浏览器,在这里面我们需要先下载一个欧拉玛平台,因为我们的模型是需要有一个平台才能跑的,然后目前市面上主流的就是欧拉玛这个平台,然后我们点一下进入它的官网, 进入官网之后呢,可以看到右上角有一个黑色的按钮,登录的就是下载,我们直接点一下登录, 进入之后他会有三个选项给我们选择,也就是说你是哪个系统的版本,然后我这边是 windows 系统,所以我就直接选择 windows, 然后下面有两个安装的方式,分别是在 power show 里面安装,还有一个是直接在浏览器下载安装,这边为了我方便演示,我就直接选择 download 或 windows, 直接在浏览器里面下载, 点击之后可以看到这个浏览器已经在下载我们的欧拉玛了,然后这个时候我们就等待它下载完就可以了,但是我这边在演示教学之前已经下过这个文件了,所以我就再下一遍,我直接点开这个,然后我们双击它开始安装, 当我们双击运行这个 r 码之后,他会给我们两个选项,我们直接点这个 install 开始下载就可以了,然后我们静静等他下载完,下载完之后我们就可以进入到下一步选择模型。 放完之后,我们这一步来到模型市场上去选择我们的加码模型,模型在这个页面,在这个链接我们点进去, 点进来之后就可以看到这个是詹姆斯的下载地址,但是我们不要着急去下载,我们第一步要先看我们的电脑适合哪一种模型,那怎么去判断自己的电脑能带动哪个模型呢?我们需要用到就是查看自己的电脑显存, 因为每个人的电脑型号都不一样,所以这一步呢,我建议大家直接去问 ai 怎么查一下自己的显存, 然后我这个电脑是六千一百四十四,也就是六千一百四十四除以一千零二十四,我这个电脑就是六 g 的 显存,那么六 g 的 显存呢?我们来到这个模型市场,我们可以选这个 e 四 b 这个模型,因为再大的 模型我们这个电脑就吃不下了。当然如果你的电脑有三十二 g 以上的显存,我是比较推荐二十六 b 或者三十一 b 的 这个模型的。嗯,但是在三十二 g 以下的电脑我都是比较推荐,就是不要上那么大的模型,用一次 b 就 足够了。 然后我们进入这个页面之后,可以看到欧拉玛的官方是给了我们一条终端指令,然后我们复制下来,回到我们的终端, 然后滑到最下面,我们右键粘贴点回车,然后这时候就开始下载这个模型了,我们等待这个模型下载完之后,就可以进入到下一步测试模型。 ok, 那 这样这个终端界面出现是 size 的 标识的时候,就代表我们已经安装成功了。然后我们打开我们的 rama, 进入之后呢,我们滑到这个最底下,就可以看到这是我们刚下载的模型 e 四 b, 我 们点他, 点完之后,我们开始试着跟他对话一下,给他发一个你好吗?然后进入这个思考,基本上就可以确定文本对话是没有问题的了。好,他已经给了我们回答,然后我们现在开始做一下图像测试,给他一张图片,然后帮我看看这张图片有什么, 在左边是一个男的坐在车上,然后呢后面是海,看他会不会准确识别出这个回答, 他现在已经给了我们回答,他说这是一辆白色的大众,然后人物的描写和文字的标识 以及地点,沙滩,海水,山体,甚至天空的色彩以及光线都给我们描述出来了。 那看得出来他这个扎马四对于图形的形容还是非常的细致的,大部分我们能看得见的,看不见的他都能识别,而且也很准确。 ok, 相信大家是经过上面的教学步骤后,都已经成功安装好了扎马四模型。之后呢,大家不仅可以把这个欧拉玛接入你们的龙虾或各个支持本地模型的软件中,实现真正的 token 自由,而且这个模型是典型 通用模型,不仅仅可以做到语言聊天,还能做到识别图像,提取语音。最重要的是它是全本地运行的模型, 可以真正的做到离线用的,同时还不用担心任何的隐私泄露等安全问题,你可以放心的交给他处理你的一切文件,例如知识产权、医疗记录、诉讼材料、商业计划书等等,因为他只是属于你的本地模型,他不会泄露你的任何文件。 好的,那么咱们这期视频就到此结束,希望大家看到我的视频有所收获,咱们下期再见!拜拜!

今天 ai 圈发生了一件大事,可以说是迎来了一场大地震,我们要聊的就是这个足以改变游戏规则的重磅发布谷歌的 gemma four。 咱们直接进入主题,先来看一句业界对这次发布的核心评价,你就知道这事有多大了。 哇,说真的,这句话一点都不过分,谷歌蒂姆曼的刚刚发布的 gemma four 是 他们有史以来最强的一个开源模型家族。而且最关键的是什么呢?它和谷歌的王牌,也就是那个闭源的 gemma 模型,用的是完全一样的技术和研究成果,这就意味着最顶尖的 ai 能力现在向我们所有人敞开了大门。 好,那咱们就先来深入聊聊。第一部分,我们先搞清楚这个被寄予厚望的 jamafor 家族,它到底是个什么来头,为什么一发布就在整个 ai 圈子里引起了这么大的轰动? 简单点说呢, dream 四可不只是一次普通的模型更新,它是一个完整的家族套餐,从能在你手机上离线跑的轻量级模型,到需要专业服务器才能带得动的重量级模型,可以说是一应俱全。 而且我得再强调一遍,他和那个大名鼎鼎的 gemma 模型是亲兄弟,性能非常强。最最关键的是,这次谷歌特别大方,用了一个商业友好的 app 二点零开源协议,这对于开发者和公司来说,绝对是一个天大的好消息。那么这个强大的模型家族里具体都有谁呢?来,让我们挨个认识一下 gemma four 的 四兄弟,看看他们各自都有什么看家本领。 你看这张表啊,就非常清楚了,对吧? e to b 和 e for b 这两个是给手机和互联网设备设计的编辑钻小能手,完全可以在你的设备上离线运行。然后呢,二十六 b 这个模型瞄准的就是我们日常用的个人电脑和 notebook, 它用了一种特别高效的架构。我们待会儿为讲最后这个最猛的三十一 b 模型,就是给那些搞研究的或者需要极致性能的企业准备的大杀器。谷歌这一波操作,可以说是把从地面到天空的火力全都覆盖了。 哎,这张焕灯片里的内容就很有意思了,三十一比和二十六比模型,他们到底有什么不一样呢?咱们打个比方哈,三十一比这个密集模型,他就像一个全能学霸,不管你问他什么问题,他都会调动他脑子里所有的知识来回答,你追求的就是一个最完美、最全面的结果。 而二十六比这个混合专家模型呢,他更像一个专家团队,你问一个物理问题,他就派物理专家上,你问一个历史问题,他就派历史专家上。这么做的好处是什么呢?就一个字,快!他用很少的计算量就达到了接近顶级模型的性能,性价比简直高到飞起。 了解完成员构成,咱们就该来揭秘一下 jam 四到底有哪些让人惊掉下巴的超能力了。我跟你们说啊,这次的技术升级可不是小打闹,而是实打实的几个关键性突破。 第一个超能力就是多模态。说白了, jam 四不光能看懂字儿,它还能看见图片和视频,这意味着什么?你可以直接扔给他一张复杂的图标,让他帮你分析数据,或者给他一段视频,让他告诉你里面发生了什么。更厉害的是,那两个小巧的 e two b 和 e four b 模型,居然还能听懂音频,你想想,这一下子就把 ai 的 应用场景给拓展了多少倍? 第二个超能力啊,是一个巨大的上下文窗口,你可以把它想象成是这个模型的短期记忆有多大。 demo 4 的 最大容量达到了惊人的二十五万六千个头根,你可能想问这到底有多大? 这么说吧,这大概相当于你可以把一本很厚的书,或者一整个复杂的代码项目一次性的全都扔给他,让他帮你分析、总结甚至找 bug。 这对于处理复杂任务来说,绝对是一个质的飞跃。 想到这里,你可能就好奇了, jamafor 为什么在逻辑推理,特别是数学这种烧脑问题上表现的这么好呢?嗯,这就要归功于它的第三个,也是一个非常独特的超能力了, 答案就是这个思考模式。当你打开这个模式之后, jamafor 不 会马上给你一个答案,它会干嘛呢?它会先把它的解析思路和步骤一步一步的展示给你看,就好像一个数学学霸在你面前的草稿纸上演算一样。就是这种慢思考的过程,让它在处理数学编程和各种复杂逻辑问题的时候,准确率一下子就上去了,高的吓人。 好了,说了这么多牛掰的功能, jama 四的实际表现到底怎么样?是骡子是马,咱们被拉出来遛遛。接下来我们就用硬核数据说话,不光要看它自己进步了多少,更要把它放到全球的竞技场上,和我们熟悉的那些币源模型,比如 chat, gpt, cloud, 还有国内的顶尖模型比一比,看看它到底是个什么水平。 咱们来看这张图,这个对比简直可以用触目惊心来形容。在一个叫 ami 的 高难度数学竞赛测试里,上一代的 jama three 得分还只有二十点八 percent 你 才多少?直接飙到了八十九点二 percent! 朋友们,这不是简单的提升,这是换代级的碾压。这个分数意味着什么?它已经非常非常接近像 g p t four 和 cloud three, opus 这种最顶级的闭源模型在类似任务上的表现了。也就是说,谷歌把曾经只有少数几个大公司才有的顶级推理能力,现在用开源的方式向所有人开放了一个简单但是非常有分量的数字。 第三名,在全球公认的 arena ai 开源模型排行榜上, gemma four thirty one b 模型高居第三,就连它的小弟 twenty six b 模型也排到了第六。这意味着什么呢?它已经超过了除了 lama three, seventy b 之外的大部分模型,也包括了像国内的同一千万、百川零一万五这些非常优秀的开源模型。 当然,要说跟 gpd four 这种 b 源的巨无霸比,综合能力上肯定还有差距,但它的核心优势在于用更小的模型,更低的成本实现了顶级的性能,再加上它在实际应用和部署上有了巨大的竞争优势, 如此强大的性能,再配上一个完全开放的姿态,君马四的这次发布,可能不仅仅是一个新模型的诞生那么简单,它或许真的会开启整个开元 ai 社区的一个新纪元。 为什么我敢这么说?关键就在于这个 aparsh 二点零许可时,在这之前,很多大公司搞的所谓开元都带着各种各样的商业限制,这也不能干,那也不能干。但是 aparsh 二点零完全不同,它给了所有开发者和公司最大的自由,你可以用它来创业,用它来构建自己的商业应用,完全不用担心背后有任何法律风险。可以说,谷歌这次是真的把 ai 王国的钥匙交到了我们每个人的手里。 所以在今天这次分享的最后,我将把这个问题留给大家。当一个和最顶尖闭源模型能力相当的工具,被免费无限之地放在你面前的时候,它所开启的可能性是无穷无尽的。真正的问题已经不再是 google 会用 java for 去创造什么了,而是屏幕前的你打算用它来创造什么。这个答案值得我们每个人去思考,去探索。

现在用奥乐玛可以本地跑 jam 四,谷歌开源免费大模型,它是谷歌在四月二号发布。 jam 四到底强在哪?先看第一张图, jam 四在开源阵营里性能很靠前,就是同样算力,预算下,它能给你更强的推理和代码表现。第二张图怎么选模型?清量设备先上 e two b 或 e 四 b, 速度快,资源占用低, 高配机器上二六 b 三一 b, 追求上线效果。接下来我们手动部署 jam 四,我将整理好的文档放在了飞书中。首先打开奥莱玛官网,点击右上角 download 它这里有 mac、 linux、 windows, 我 使用 mac, 所以 下载 macos, 这里拖着就能安装成功。奥莱玛这里,聊天框选择模型,这里还有 kimi 和 g l m 等 模型, mini max 和千万大模型这里我们直接寻找今天主角 jam 四,它有多个版本,每一个版本对应的电脑配置要求都不一样,这里我整理好了文档,我选择本地模型, 杰玛斯一二 b 选中了,他是不会立马安装本地模型,需要输入一个你好才能进行安装,他判断没有这个模型 会自动去安装。你不想这样安装,也可以打开终端输入这个指令,可以进行终端安装,两种方式,任选其一即可回车,就会主动的去下载杰玛斯,这里等待安装完成就能使用杰玛斯,安装完成了,他会回复你上一次的对话,我们来测试一下杰玛斯实际效果怎么样。准备了一个非常绕脑的问题, 就是去给车加油,到底是开车去还是走路去?距离两百米,从发送指令到响应还是很快,但是给出的答案很出乎意料,他选择了走路去,这里的话,我反问了一下他走路去怎么给车加油,然后再次思考回答问题,这里不知道是不是本地安装的版本问题,不能以此 回答成功,在我们进行第二次提问的时候才成功的脑筋急转弯的测试完了,我们来跑一下编码能力,这里我准备了两个文件夹,分别是 demo 四和 codex 的 使用, demo 四和 codex 进行测试,一样的提示词,这里我是用 cloud clear i 映设 demo 四模型进行开发,输入这个指令,它就会在 cloud clear i 中使用 demo 四模型, 这里指令是使用你的本地 jim 四模型,所以不需要考虑 token 问题。这里我准备了一样的提示词,都是开发一个俄罗斯方块,只需要回车就进行开发。 codex 那 边也是一样的提示词,但是那边使用的是 codex 五点三版本,这里我们直接看效果进行对比,这个是 jim 四开发的效果,整体来说没有 bug, 但是上下键的时候页 会滑动,会有一些细节。在 h 五也有这样的问题,这个是 codex 五点三开发效果,它不会页面滑动,但是不能全屏看完内容,两边的问题都是不能全屏看完,所以我们进行优化调整,一屏看完全部内容,两边的提示词都是一样的,不知道是不是我本地安装的问题,我的本地模型是一二笔版本的, 我们来看一下最终的效果体验,查看一下 h 五的效果进行开始游戏,这一次开始游戏页面不会进行滑动了,但是真的来说还是有一点细节。然后我们再来看一下 codex 版本的点击开始游戏效果这一边的话,看着是要舒服一点,体验感更棒。如果电脑配置要求比较高的话,可以试一下满血版的 g m 四,还可以在 cloud code, open code, open cloud 中进行使用,只需要输入这个指令就能在 cloud cloud 中使用,直接无缝衔 节在 collogix key 一 样的指令,只是把 cloud 变成 collogix, 这样就好了。接下来我们进行删除 gemma 四,输入 olamalist 指令,它会返回你本地模型名称,再输入这个指令就能删除 gemma 四模型。

当一款只有三百一十亿参数的模型跃级,斩杀比自己大二十倍的对手时,你还不重新审视规模至上的铁律吗?谷歌深夜甩出 jam 四全系开源模型,四个尺寸 app 二点零协议,从手机到单卡工作站全覆盖。 最炸的是三幺 b dance 数学 am 二零二六达百分之八十九点二,比前代暴涨六十八个百分点,直接挤进开源榜单前三排,他前面的体量都是他的数倍。二十六 b m 更夸张,推理时只激活三十八亿,参数 l 却冲到一千四百四十一,速度与智能兼得。上一代 jam 三在这组数据面前,几乎被打成了计量单位,编程、多语言推理、智能体任务全线断层式碾压,甚至连上下文一百二十八 k 的 精准解锁三十一币都拿下百分之六十六点四,而前代只有百分之十三点五。 更狠的是, e 二 b 和 e 四 b 两款端侧模型已经在手机和树莓派上跑通,延迟接近零。谷歌这次还彻底放手 apache 二点零协议商用修改分发全自由。 parking fee ceo 说,这是巨大的里程碑,但对你而言,更关键的问题是,当一台 mac mini 就 能跑。当三十一 b 能打千亿模型, 你下一步的 ai 应用准备用它做什么?评论区聊聊你最想用 jam 四干的项目。

谷歌终于坐不住了,正式卷开源市场, jm 四的效果到底如何呢? jm 四的发布啊,真的有可能让我们实现头很自由。这期视频呢,老张给大家简要介绍一下 jm 四怎么安装到本地,以及如何搭配到我们的 open klo 大 龙虾上, 附带所有的安装步骤啊,大家可以一起来体验一下。后续呢,老张也会根据测评效果给大家接着发视频,这期是我们完整的部署流程,老张重点给大家简单聊一下,就是为什么 jm 四的发布啊,会让大家感觉谷歌真的开始卷起来了呢? 首先第一点,他和目前谷歌的 jimmy 三用的是相同的技术基座啊,所以说他的能力是毋庸置疑的。第二点就是商业自由,你直接部署下来做什么都是可以的,都是允许的。然后第三个就是支持多模态,无论是文本、图像甚至小规模的视频音频, 他都可以直接支持。第四点就是结合前段时间爆火的 open klo, 他 可以直接在本地对接 open klo 以及对接 klo 的 code, 实现本地的偷根无线化。这是老张给大家总结的四点,为什么詹姆斯的发布会让大家感觉,哎,可能真的要进入到一个新的纪元, 然后呢,他所发布的这四款模型呢?老张给大家做了一张图片啊,大家可以到时候把它截下来。第一个模型一二 b 的, 他本身是用于手机或者边缘设备八 g 显存, 然后最高端的三十一 b, 他 所对应的旗舰版本呢,是对应的是二十四 g 加,所以大家根据你的需求来进行对应的模型选择。老张这次视频呢给大家来看一下三十一 b 的 这款模型的安装, 然后关于本地的安装部署啊,其实非常简单,任何开源模型,其实我们只需要让他和欧拉玛就是那个小羊驼结合到一起就可以了, 我们可以去一下欧拉玛,之前没有安装欧拉玛的兄弟们也不用担心,直接去他官网安装即可。一个羊驼啊,现在已经开始玩龙虾了,但是这个不,这个是我们,我们首先 现在官方已经开始逐渐的把羊驼和龙虾结合到一起了,我们直接选择对应的登录的,然后找到你符合要求的版本,直接安装到您的电脑上就可以。安装成功之后啊,欧拉玛现在已经有了一个完整的应用端了,所以大家可以直接在这个位置和他进行对话交流。 那我们想要下载詹姆四到你本地的电脑上,我们可以使用它的官方指令找到官网的 model 选项,然后这有一个詹姆四,我们进入,他会告诉我们直接怎么样去进行詹姆四的对应安装,像老张想安这个三十一 b 的 对吧?我们就把它拿过来, 把它直接这有一个 c l i 命令行安装方式,把这个东西直接复制在你的开始菜单中,单机右键选择运行,输入 cmd, 直接把刚才指令粘贴过来,这儿的时间会很长,因为它有二十个 g 的 大小,我们直接稍作等待 安装成功之后,我们也可以直接回到它的客户端中,在模型选项上找到我们安装好的詹姆斯冒号三十一币, 然后可以直接进行对话,老张他处理一个较为复杂的提示词,我们让他看一下当前显存的内存消耗, 咱们拿这个 ai 慢距的提示词来测试啊,这个提示词非常的长,我们看一下他读取提示词的能力,以及他的这个显卡的性能消耗。我们看一下啊,这个显存直接拉满的达到了百分之九十四的占比, 而且这个响应速度还是非常快的,只需十一点七秒啊,就把整体的业务流程给我们直接补齐了,而且呢按照需求给我们进行了对应的提问,要什么样的慢剧效果,所以说以目前的测试反应来看呢,他的这个响应速度起码要比之前的很多大模型要好的多, 所以接下来我们自己来尝试一下对话类的工具,可能大家都不是很需要的,我们能不能把它接入到我们的 open klo, 接入到我们的龙虾里,让他们俩来进行联动的。然后这期视频呢,老张顺便给大家提一下,就是最新版的 open klo 的 部署流程 啊,咱们可以快速的去过一下一些重点的细节,因为之前老张发过很多期的部署视频,咱们可以去到时候去看一下。只不过这期视频呢,我想给大家来讲解一下这个 wsl 的 这个部署优势。 很多兄弟看老张之前视频都是用 note 直接下载安装的,但是为什么老张最后给大家又转回到了 wsl 这一块了呢?因为它本身啊, wsl 它是相当于在 windows 系统上安装一个 linux 的 独立系统, 这样的话呢,就直接相当于在你电脑上安装了一个独立的存储空间,它所谓叫做沙盒安全,而且运行起来呢,是不会有任何的兼容性的对应问题的,因为 windows 中啊,它的权限呐,路径等经常会报错。所以说我们这 期视频重点教大家怎么用 wsl 进行 win opencl 的 部署安装,这样的话, windows 和 wsl 的 安装您都了解之后,之后学起来就非常方便了。 然后接下来呢,老张给大家简单的介绍一下在 wsl 中如何安装我们的 openclaw, 因为之前呢,咱们介绍过太多次了,很多兄弟留言说老张就别介绍怎么安装了,然后我们就给大家简单说一下注意事 项。首先第一呢,你想在 wsl 上安装 openclaw 的 话,第一点,你得先在你的 windows 系统下把 wsl 安装一下。当然很多电脑老张发现其实都是自带的, 怎么检查是否自带呢?咱们可以直接输入 wsl 空格,杠杠威森,如果弹出定的版本号证明 wsl 电脑已经安装了,如果没有弹出的话,使用安装指令, wsl 空格 insert 直接安装即可。然后紧接着按照老张给你提供的指令复制粘贴就可以了。先安装你的优班 图,安装之后啊,在这选择这个倒三角,找到优班图系统,就可以直接进入到你的优班图系统当中。 在你安装过程中啊,它会让你设置一个用户名和密码,到时候可能需要做一步密码验证。在优班图系统中,注意是优班图系统中运行这些环境指令,分别安装 python 三、安装一个压缩包工具,方便安装一个 note 点 gs, 然后再安装一个 get 工具。 如果说为了检测每一步安装是否成功的话,你可以分别输入,比如 note 杠 v、 npm 杠 v, 包括 get 杠 v, 在 这检测我们对应的这个版本,如果都能弹出版本号,证明你三项安装都是成功的,这是配置 openclo 的 基本的内容要求。 然后紧接着我们把基本环境配置好的兄弟,你还需要在这个位置安装一下这个欧拉玛。 这老张要重点说一下,比如说老张我不在本地都已经下载好欧拉玛了吗?为什么在优班图里还需要再配置一下?其实我们优班图中是可以调用本地的欧拉玛的,但是很多兄弟在调用过程中分别给老张留言说说调用时无论是 ip 地址找不到,还是 ip 的 动态变化,导致每次都需要重新连接,重新配置。 所以说最简单的方式就是把欧拉玛在你的优班图系统中再次的安装一遍。其实安装非常简单,只需要把第一步的安装指令复制过去,直接在这个位置直接粘贴即可。安装成功的检测方式很简单,你就输入欧拉玛, 如果他不报错,还给我们对应的选项,是咱们是进行对话呀,还是怎么样的证明你的安装就是成功的, ctrl c 直接退出。 所以说欧拉玛安装之后,紧接着就是把我们的模型在当前的优班途中跑起来。老张刚才给大家测试的是 g m 四三十一 b 模型,我们直接输入指令欧拉玛空格 run, 然后你的模型效果直接回车,第一次时他会直接进行对应的模型下载。 如果说你现在只想用 openclo 来调用欧拉玛的这个占四的话,可以在我们的本地电脑上把之前咱们那个桌面端给它删掉,如果说你不,你想两端都使用的话,就可以直接在这个位置进行使用了,然后发一个你好看一下响应速度, 响应速度是非常快的,所以接下来我们把这个家伙欧拉玛的詹姆斯直接部署给我们的 openclo, 在 这怎么中止对话,摁一下 ctrl c, 再摁一下 ctrl d 啊,就可以直接进行中止对话了啊,所以说大家可以直接的把它退出来, 退出来之后我们在这部署一下 openclo。 关于 openclo 的 安装呢,官网推荐是使用 col 这种安装方法,但是老张发现很多兄弟在使用这种安装方式时呢, 出现了这个网络问题,导致下载出现卡顿,如果说 col 的 方法报错的话,直接使用 npm 安装也是完全可以的,安装完之后直接输入 open klo 空格杠 v 来输出最新的 open klo 的 对应版本啊,这就是老张跟大家说的一些建议啊,大家按照这个要求去做就行了。 然后接下来我们进入到配置,直接使直接输入它的配置指令回车,选择 yes, 然后选择快速开始就可以,我们直接配置一下模型, 然后选择更新,这选择谁呢?选择这个欧拉玛啊,然后选择默认的这个 ul, 选择本地模型,让他去给我找一下咱们本地有哪些模型,稍作等待 好,选择当前的这个模型, gm 四三十一 b, 然后配置我们的聊天软件啊,这个老张之前讲过太多太多次了,现在呢,他又支持了很多,包括 qq 之类的,大家有需要的话可以按照之前老张的教程再来一遍,我们先跳过 打开之后啊,就可以直接对话了。但是如果说善于观察的兄弟们也发现了,老张呢,把这个使用模型呢换成了这个一四 b 的 模型,不是那个三十一 b 的, 因为三十一 b 呢,老张在测试的时候也好,或者在一些使用时候也好,他有的时候会出现这个连接超时的问题,也是 open klo 更新到最新版本出现了一个能启动问题, 这个呢,老张现在还没有特别好的解决方案,所以说我先用 e s b 的 给大家进行演示,发一个。你好,我们来测试一下他的响应速度啊,还是比较快的。 然后接下来呢,我们再把之前的那个慢句的提示词发送过来,我们来看一下他能不能更好的帮我们去进行慢句提示词的对应理解,以及对应的相关反馈。 嗯,其实我们看到啊,他反馈的这个结果呢,和三十一 b 相比啊,真的是有一定差距的,但是呢,确实也是另一方面实现了我们所谓的叫偷根自由。 大家呢也可以后续啊,去测试一下怎么让本地如果你的显卡够用的话,把这个大模型给它跑起来,然后老张呢也会及时给大家更新啊,无论是在评论区中还是视频中,教大家如何使用,我是程学老张,定期分享 ai 好 用知识,希望大家多多关注。

hello, 大家好,我是 ken, 今天早上刚刚打开手机,我就兴奋的睡不着了。 google 刚刚发布了伽马四,一个可以本地部署的大模型,我的第一个念头是省钱了, 如果把它接入 openclaw, 从此在本地生产 token, 那 是不是就可以不用再被云端 ipi 一 点一点计废了呢?然后我花了一整天的时间来验证这个想法,结论有点出乎意料。先听我说完, 我在本地部署的是二十六 b 混合专家模型,二十六 b 代表着他拥有二百六十亿的参数。 混合专家模型的意思是,他不会一次性把所有的参数都用上,而是根据你的指令调动一小部分的专家来进行回答。这样的好处是推理的成本更低,回答的速度也更快。 这个版本在二十六 g 内存的 m 五芯片 macbook 上刚好能跑。这里 jam 四的几个版本呢?我也简单的跟大家分享一下。最轻量的是 e 二 b, 一个二十亿参数的模型,它在市面上大部分的设备上都可以运行。 那么 e 四 b 呢,是一个四十亿模型,运行它呢至少需要有十六 gb 的 内存。蓝血版是三十一 b, 拥有三百一十亿的参数能力最强,但是目前我手头的设备呢,都没有办法运行。目测 如果说要跑三十一 b 的 模型的话,至少需要三十六 g 的 内存。以我这一个月以来把所有的大模型接入到 openclaw 的 体感来看呢,二十六 b 版本我再应用下来,我认为它称日常工作是完全没有问题的。 截止到这里,一切都让我很兴奋。在 macbook 本地上跑通以后,我迫不及待的把它接入了 openclaw。 和我之前用其他大模型接入的体验不同, jam 四在接入以后没有那个互相了解定义角色的初识化环节,不过正常对话是没有问题的。那么问题来了,他能做些什么?说实话,就是个聊天机器人, 连在桌面创建一个 word 文档都做不到,更别谈生产力了。如果只把它看作是一个聊天机器人的话,那么在欧莱玛中直接运行反而比嵌入到 open cloud 中要更快,所以呢,还不如不用。 然后我掏出了我二零一七年的 windows 老本,这台机器呢,有十六 g 内存,按照 ai 的 建议,分别部署了 e 二 b 和 e 四 b 两个版本的模型。单独跑模型的话, e 四 b 这个四十亿参数的版本呢,每个回答要等待时间在十秒以上。那么 e 二 b 这个二十亿参数的小轻量级版本呢?如果是处理简单问题,基本上可以做到秒问秒答。 但当我把他们接入到 openclaw 之后呢,连收到两个字都没有办法回复,不管哪个版本,通通卡死。所以结论很明确,内存不够的设备不要尝试把 jam 四接入到 openclaw, 硬件是硬门槛,绕不过去。 总结一下今天的折腾,二十六 g 内存的 macbook 可以 本地运行,二十六 b 混合专家模型接入 openclaw 也能正常对话,但完全没有超出聊天机器人的额外生产力。 十六 g 内存的 windows 老本呢,接入 openclaw 可以 说是失败的,那么如果在本地运行呢?一二 b 和一四 b 两个版本都可以作为聊天问答机器人来进行本地使用。 我的判断是,如果内存能够达到三十六 g 以上,能够完整的跑下来二十六 b 混合专家模型,那么也许真的可以变为生产力。但是限阶段大多数人的设备都没有达到这个门槛。 本地部署不是不值得探索,但是要先看看自己的硬件设备有没有达到那个门槛,再决定要不要去折腾,不然的话结果可能会很打消你的积极性。 我是 ken, 专注用 ai 做可持续相关工作流的自动化。如果你对 ai 工具和自然语言编程感兴趣,请关注我,我们下期见。