原来我对这么多参数,结果被别人二十分之一就打败了,哎呀,这又是很牛逼很牛逼的一个事情,这个就某货发布的时候,国内这些做大模型的厂商该睡不着了吧,可能又要调整方向了。 呃,为什么这么说呢?对于一个旁观者来说的话,那可能突然之间一夜之间把这个理念要打翻了。我们理解下来,一个大约模型的话,我们 上到几百币,几千币一直在比随着这个这个参数更大,三十一币的参数的这个模型可以打败比他二十倍参数的模型。卧槽,原来我对这么多参数,结果被别人二十分之一就打败了, 他这个能部署到手机上啊什么的。未来的我们的这个大模型一定要更小心化,更轻量化,这样的话他的成本会越来越低。第二个方向性的一个意义呢,就是说他会有很多的一些边缘产品出现,就是你的模型不一定 是要去云端。而现在来说的话,可能就是说我们转变思路,要把这个很多事情自己在边缘能解决的,我们一个轻量化的一个模型 就能解决了。然后那一些可能更复杂的事情,你轻量化的模型解决不了的,你才会去用云端的这些更更好啊,更新的参数量更大的大模型。而且它这个模型厉害的是,它还是不仅仅是恰特,是不是它是多肽的,它可以处理图片啊,视频都可以。
粉丝33获赞959

哈喽,朋友们,我们今天来看一下在六十四 gb 内存的 m 四 max studio 上面跑这个最近特别火的 jam 四三一 b 的 大语言模型是什么样的体验。相信大家最近已经被这个模型刷屏了,这个模型能力有多强,排行有多强我就不多说了,下面来试测一下吧。我用的是最新的奥拉玛版本,模型是通过奥拉玛的官方渠道下载到本地的 这个页面,下面有这个模型不同量化版本的评分,大家自己去看吧。下一步我们来换上我们的 java 四三 e b 的 模型来测试一下速度吧。然后我们来问他一个经典的问题,让他用 python 实现快速排序算法,然后这里我等了大概十三秒 他才开始思考,由于时间关系,我就用两倍速快进了,他思考也用了二十六秒的时间才开始给我回复,思考的过程我也快进了,然后这就是他真正回复的时候生成 token 的 速度,大家可以感受一下,本人觉得这个速度是可以接受的,大家觉得怎么样可以在评论区里面讨论,后面奥拉玛应该还有挺大的优化空间的, 后面我就快进了,系统显示的回复 token 生成速度大概是二十个 token 每秒。后来我测试了一下一个我很常问的问题,让他给我编一个故事, 我猜欧拉玛对这个问题缓存了,因为我只等了两三秒他就开始思考了,但是如我所料,他思考和回复生成 token 的 速度还是没有变,我这里超快的快进一下。最后我们可以看到生成 token 的 速度还是大概二十个 token 每秒。


兄弟们,欧拉玛已经更新好了,杰玛斯的大模型也不朽完成了,一共四个模型,接下来挨个测试一下,所有的测试都是在这个电脑配置下完成的。第一个问题,介绍一下自己, 第二个问题,用李白的风格写一首 诗。 最后一个问题,经典的喜鹊问题 总结一下,四个模型都测了,最快的是一二 b, 最慢的是三十一 b, 四个模型第一次启动都有点慢,后续速度都还可以。 总的来说,回答质量最好的是三十一 b, 包括最后的一个洗车逻辑陷阱也自动识别出来了, 就是我这个配置运行起来实在是太慢太慢了,所以性价比最高的应该是这个二十六 b 模型。回答速度,回答质量都还可以,可以用在部署小龙虾,用来做个人的 a 键,挺好用的。后续再和千万三点五做个横向对比,记得点个关注。

谷歌刚发布了王炸级别的开源大模型 g m 四,本视频将为你带来详细的评测。本次的 g m 四最大的杀手锏是彻底转向了 ipad 二点零纯开源协议,这意味着他终于解除了之前的法务紧箍咒,开发者可以闭眼商用。虽然三十一 d 模型在 reno ai 榜单上拿到了开源第三, 但回归到真实场景,它的表现其实是一把极其锋利的双刃剑,评价非常两极分化。首先看旗舰级的三十一 bance 模型,它的编程能力非常惊艳,实测写 html 界面,排版精美,在 levelbench 拿到了百分之八十的高分,达到了专业程序员的指令水平。 而且它的 token 效率极高,平均消耗只有 coin 三点五的百分之六十五,非常适合需要反复调用、在意成本的本地 agent 工作流。 但它的偏科非常严重,数学精度不足,简单的运算经常出错,尤其是在处理信息密度大的长文本时,很容易产生幻觉,而且在开启慢思考模式后,偶尔会陷入死循环,无法跳出。接下来是性价比极高的二十六 b m o e 模型, 这款模型是本地二十四 g 显存用户的福音,虽然总参数有二十五点二 b, 但推理时仅激活三点八 b 参数,这意味着你只需要十六到十八 g b 的 显存就能跑起四 b 的 量化版,而且速度极快,实测能达到每秒六十个 token, 非常适合那些需要塞入臃肿系统提示词的 a 帧子应用。不过这款模型的评价极其割裂,虽然有人觉得它实用,但也有开发者直言它在中文写作和逻辑推理上,灌水严重, 被戏称为数字干水制造器。最后是端侧的小杯模型 e 四 b 和 e 二 b。 它最大的亮点在于原声支持最高三十秒的音频输入,这意味着你不需要外挂 s r 语音转文字模型,英文转写效果几乎完美,是做本地语音助手的绝佳选择。但它的视觉能力简直是灾难, 面对简单的发票截图或手机截图,文字提取错漏百出,甚至连最简单的网页自动化操作第一步都会报错。在视觉理解这个维度上,它被 q n 三点五的九 b 模型按在地上摩擦。 那么在实际选择时,如果你需要构建本地的高频 agent 循环照用,且对 token 预算和响应延迟要求极高,那么二十六 b m o e 是 首选。 如果你想打造纯离线的语音交互设备,直接用 e 四 b 即可。当然,如果你最看重的是开源协议,需要变商用 jamas 的 pitch 二点零协议就是最大的优势。 相反,如果你需要一个强悍且稳定的综合小尺寸模型, q n 三点五的九 b 版本在综合能力上是碾压 e 四 b 的。 另外,如果你依赖高精度的数学计算 o c r 文字识别,并且要求极低的幻觉率,或者需要一个更成熟的生态和丰富的尺寸矩阵,那么 canon 三点五会是更稳妥的选择。在底层架构上,简码四引入了两项黑科技, 第一是 pl e 逐层嵌入,这是小模型专享的,它不再把所有信息在初识阶段一次性打包,而是在每一层都生成专属信号, 本质上是用额外的算力换取存储空间,增强表达力。第二是混合注意力机制,它采用了五层滑动窗口和一层全局注意力交替的结构,配合双 o p e 配置,直接将上下文处理能力拉升到了二五六 k。 针对硬件部署,这里给一套基于 ansel 和 m c p p 的 建议。如果你只有八 gb 显存,勉强能跑 e 二 b 或 e 四 b, 但只能做简单的摘药或语音识别,千万不要尝试复杂的视觉理解或长代码分析。二到十六 gb 显存是 e 四 b 的 舒适区, 也可以尝试二十六 b m o e 的 重读量化版。而如果你拥有二十四 g b 显存,强烈推荐跑二十六 b a 四 b m o e, 这是目前最有限势意义的型号,能同时兼顾二五六 k 的 长上下文和高效的吞吐量。 最后,分享两个长文本推理的闭坑技巧。如果你在进行存文字的长上下文推理,建议在辣妈 c p p 中直接关闭微震视觉功能,这样可以节约大量显存。 另外,面对复杂任务时,可以通过 a p i 动态调整 thinking budget, 也就是思考预算,防止模型陷入无限思考的死循环,导致机器直接卡死。

等等,一个只有三百一十亿参数的模型,怎么能跟一万亿参数的模型几乎同分?它的参数量不是小了一点,而是小了三十倍。 三十亿币可以在很多消费级的设备上跑了,按正常的逻辑,它根本不应该出现在这一档。而三十亿币的小模型就是谷歌刚发布的 jama 四。那 jama 四到底是什么?实测它的性能真的有这么好吗?一会我们详细对比,并且在手机上、电脑上都给它跑起来。 最后我们一起说一下,为什么它引起了如此广泛的讨论,以及它引起的新风潮,为什么可能直接改写接下来 ai 竞争的方向。 好,废话不多说,我们开始伽马四,是谷歌新一代的开源模型,这次直接发布了四个版本,能在手机上跑的一二 b, 能在普通消费机电脑上跑的一四 b, 以及需要一些高配电脑或者工作站的二十六 b 的 混合专家版本,以及最受关注的三十一 b 的 重密模型。 这个产品结构本身也解释了谷歌的野心,想把从手机、消费机设备到工作站这条开源路线一起凸出来。它的卖点非常明确,第一,谷歌算是铁树开花了, 这代的 ram 是 阿帕奇二点零的证书,是真正能让开发者去用、去改,去商业化的开源模型。二,它主打的不是参数有多大,而是 intelligence profile, 说白了就是同样甚至更小的体量,尽量打出更高的能力密度。比如这个图,横轴是参数量,纵轴是盲测得分,越往左上角走, 同样参数量的情况下,它的性能就越高。第三,它不只是要聊天,谷歌这次明确在推 reasoning and egotic workflows, 包括多步的推理,代码的生成,图像理解,上下文,甚至小版本还支持音频等多模态, 我们这些一会儿我们在手机上跑模型的时候都能看到。那这就是为什么伽马斯这次热度很高了,过去很多开源模型我们还是追求的最好的性能,那这次呢?谷歌的小版本在打本地和边缘设备, 而大一点点的版本却在挑战开源模型的榜单,说的就是这个三十一 b 的 模型这么小,已经在开放的榜单上打造一个所有人都能看到的位置了。那问题就来了,它的实测性能到底怎么样?真的有这么好吗?接下来我们一起看一下。 既然它号称和最好的那几个开源大模型旗鼓相当,那我们也不客气了,分别测试一 g m 四最好的三十一 b 版本和谷歌自家旗舰 g m d 四 b 版本,并且与同参数量的千万四 b 进行对比。三,如何在手机上跑 j 码四,以及我的真实体验。 首先在云端,我们对比四个模型, j 码最好的三十一 b 版本, gmail 三, flash gmail 三点一, pro 以及 deepsea v 三点二,在很多人都需要的编程文案和推理场景, 看看这个小模型有没有一丝替代昂贵一线模型的可能性。问题一,编程类,请用单文件 html 做一个高端现代家具品牌的网站首页, 这是 jam 生成的网页。其实啊,不经验,但是也不算差,考虑到它的体量,这个结果算是超过预期了。但问题也很明显,有些图片没有正常演示,图纹对应也有错误,所以完成度还是差了一大截。 这是 deepsea v 三点二生成的网页,整体也不错,设计能看,交互也有往下滚,还有一些动画效果,而且它的图片、文字这些元素是对得上的,说明它已经有些理解。这是一个电商的首页了。 这是 jammin 三 flash 生成的网页,第一眼观感已经很好了,设计感呢,比 jammin 更成熟,但是它的问题是动画和交互偏少,整体呢,没有达到完整的状态。 这是 jimi nike 三点一 pro 生成的网页,好疑问,是最强的对吧?几乎是一条提示词下去,设计,排版、交互细节都到位了,也充分理解了这是为电商准备的, 以及开头这些细节的动画,确实有一种高端,一种成熟的感觉。结论, jimi nike 三点一 pro 大 于 jimi nike 三 flash 大 于 deepsea 大 于 gemma。 这一次 gemma 是 最差的。问题二,文案, 请帮我写一段适合发朋友圈、社交媒体的短文案,主题是我第一次用本地 ai, 发现他已经在电脑上自己能做很多事情了。并列三四名, gmail 三点一 pro jimmy 四、 真香,安全感拉满,不要钱的专属助理,这些词都用力过猛,太假。第二名, gmail 三 fresh 最大的问题就是太过营销了,比方说,真后悔没去试,试过就回不去了,太香了,就是营销味太重。 第一名呢是 deepsea, 是 最像真人随手发朋友圈的,比方说啊,刚刚是在电脑上跑了个本地 ai 这种词,或者是速度比想象中的快, 隐私还放心,这些表达都相对比较自然。除了最后那句,推荐你们都试试看,稍微有点假,但整体来说还是最顺的。所以文案这里 deepsea 大 于 jimi nike 三 flash 大 于 jimi nike 三点一 pro 题目三,简单的推理题这个题所有模型都应该答对,这里主要看 jimi 四拉不拉垮。 一个农夫带着一只狼,一只羊和一颗白菜。过河船一次只能载农夫和另外一样东西,如果农夫不在,狼会吃羊,羊会吃白菜。请问怎么把这三样东西都安全的运到河对岸?请一步一步说清楚。 标准答案之一就是,人先带着羊过去,然后人自己回来,然后人带狼过去,带着羊回来。第三步,人再带着菜过去,人自己回来,最后是人再带着羊过去。 其实这道题都答对了,所以如果只看评理结果,那这题就是平手任马四,最好的三十一 b 白板啊。虽然阿尔瑞纳的盲测分数比 deepsea v 三点二高,但是文案和编程这两个我们需要最好模型来做的场景。我自己的测试没有 deepsea v 三点二好, 但是考虑它只有三十一 b 的 大小,编程的效果已经出奇的好。在云端测完最好的版本,下面我们测一下本地能跑的 ram 四,因为啊,大部分人的电脑都跑不了三十一 b 的 版本,所以我们在本地测试 ram 四 e 四 b, 并且对比同参数量的千万三点五四 b。 至于题目这么小的模型,测试编程能力就是有点耍流氓了。因为编程大家肯定都用最好的模型,所以这里我们测试三个日常助理的题目,考常识,考文案,考简单的推理一、常识规划能力。下周我要去巴黎玩,四千, 除了机票之外,预算一万,第一次去,住在巴黎市中心,帮我安排一个计划,并且告诉我最容易踩坑的五件事情, 这是他们的回答。简单来说啊, jama 这边没有出现事实性错误,而且行程写得更顺。但是他的问题就是,他几乎忘记了处理预算这件事情,而且最后的建议啊,没有这么贴切。千万正好反过来五个避坑建议相当靠谱,而且他是有意识的去考虑预算的,虽然是有些混乱吧, 但是千万里面有事实性错误,把两个景点荣俊苑和法尔赛混在一起了,而且他的思考时间啊,差不多是 jama 四的十倍, 所以各有一缺点,结果打平。题目二,文案把下面的 ai 味很重的口播稿点成更像真人说的话,要求更自然,更顺口,信息密度别掉,不要鸡汤,不要夸张, 人马四 ai 味实在是太重了。比如这一句,原句是,如果我们今天只是把 ai 理解成一个简单的聊天机器人,那很可能低估了这场技术变更的真正影响范围。 人马四改写的是,这可不是个小升级,是个大变格。这种话听起来就像 ai 反过来千问那句,你要是现在还把它当个普通聊天机器人,那你可能把这事看清了,我觉得就更自然一些。所以这题呢,比较简单,千问四必 大于 jama 四 e 四 b。 第三题还是刚才那个简单的推理题,一个农夫怎么带着一只羊一只狼和一个白菜过河的问题而都答对了。那么这个题平手可以看到 jama 四 e 四 b 的 版本啊,在我们的测试中,跟千万三点五四比打平,而且文案写的还没有人家那么好, 所以在我这里这个版本是没有什么惊喜的。 jama 四也能在手机上直接跑谷歌 a i h gallery 这个软件。 我的实测感受,第一,手机上有两个版本, jam 四一二 b 的 二点五 gb 和三点六倍 gb 版本。那么这两个呢,都是二十亿参数级别,专门为端侧部署优化的小模型, 两个都支持多模态,也就是图片和音频的理解。二就是有两个加速模式, cpu 加速和 gpu 加速。我的安卓手机呢, cpu 加速明显更快一些。 三,没办法联网,但是能用 viki pita 这个 skills 来获取维基百科上的信息。四,有 agent skill 模式,但是只有默认的 bug skills 和自己定义 skills 的 选项。 五,就是啊,图片识别模式非常的不稳定,经常出现闪退。从所有的评测我们看到啊, gemma 四远远不是最强的,那为什么它掀起了这么大的讨论呢? 就是因为他三十一倍的体量和高性价比的性能,大模型啊,越强越贵越大,就离普通的设备越远。在卷性能的另一端,他开辟了一条竞争的道路,就是谁的能力密度更高,谁更能落地手机电脑这样的普通设备。 那这条路线呢,有三个值钱的地方,第一就是成本更低,对吧?如果一个模型更小,能力还足够强,他的推理成本就会更低,对算力的依赖也更小, 同样的用户数量,竞争力就更高。第二就是他打开了一些之前做不了的场景,比如一些隐私敏感的企业弱网环境离线场景,这条路呢,可能会放大可成交的市场范围。第三 就是卖钱的方式有可能会变。现在 ai 公司卖的是旗舰模型的 api token, 如果未来有更低的部署门槛,更强的观测能力,更好的私有化能力,那钱不一定只在 talk 里赚了, 可以从企业部署私有化方案、设备预装垂直方向里面转。也就是说啊,开始从卖能力变成卖能力加卖系统,更加对接 to b 的 生意, 由此可能会带来竞争壁垒的改变。如果模型能力越来越近,那优势就会变成了谁更容易部署,谁更容易接近工作流了。当然,将来大家肯定还是会选谁的旗舰模型能力最强,尤其是 ag 的 能力和写代码的能力。 但是除了这条竞争路线之外呢,也许我们会看到 ai 竞争的第二条追求更强能力密度的路线。哎,如果你都看到这了,你是不是应该点个关注呢?我们下期再见!

hello, 大家好,我是 ken, 今天早上刚刚打开手机,我就兴奋的睡不着了。 google 刚刚发布了伽马四,一个可以本地部署的大模型,我的第一个念头是省钱了, 如果把它接入 openclaw, 从此在本地生产 token, 那 是不是就可以不用再被云端 ipi 一 点一点计废了呢?然后我花了一整天的时间来验证这个想法,结论有点出乎意料。先听我说完, 我在本地部署的是二十六 b 混合专家模型,二十六 b 代表着他拥有二百六十亿的参数。 混合专家模型的意思是,他不会一次性把所有的参数都用上,而是根据你的指令调动一小部分的专家来进行回答。这样的好处是推理的成本更低,回答的速度也更快。 这个版本在二十六 g 内存的 m 五芯片 macbook 上刚好能跑。这里 jam 四的几个版本呢?我也简单的跟大家分享一下。最轻量的是 e 二 b, 一个二十亿参数的模型,它在市面上大部分的设备上都可以运行。 那么 e 四 b 呢,是一个四十亿模型,运行它呢至少需要有十六 gb 的 内存。蓝血版是三十一 b, 拥有三百一十亿的参数能力最强,但是目前我手头的设备呢,都没有办法运行。目测 如果说要跑三十一 b 的 模型的话,至少需要三十六 g 的 内存。以我这一个月以来把所有的大模型接入到 openclaw 的 体感来看呢,二十六 b 版本我再应用下来,我认为它称日常工作是完全没有问题的。 截止到这里,一切都让我很兴奋。在 macbook 本地上跑通以后,我迫不及待的把它接入了 openclaw。 和我之前用其他大模型接入的体验不同, jam 四在接入以后没有那个互相了解定义角色的初识化环节,不过正常对话是没有问题的。那么问题来了,他能做些什么?说实话,就是个聊天机器人, 连在桌面创建一个 word 文档都做不到,更别谈生产力了。如果只把它看作是一个聊天机器人的话,那么在欧莱玛中直接运行反而比嵌入到 open cloud 中要更快,所以呢,还不如不用。 然后我掏出了我二零一七年的 windows 老本,这台机器呢,有十六 g 内存,按照 ai 的 建议,分别部署了 e 二 b 和 e 四 b 两个版本的模型。单独跑模型的话, e 四 b 这个四十亿参数的版本呢,每个回答要等待时间在十秒以上。那么 e 二 b 这个二十亿参数的小轻量级版本呢?如果是处理简单问题,基本上可以做到秒问秒答。 但当我把他们接入到 openclaw 之后呢,连收到两个字都没有办法回复,不管哪个版本,通通卡死。所以结论很明确,内存不够的设备不要尝试把 jam 四接入到 openclaw, 硬件是硬门槛,绕不过去。 总结一下今天的折腾,二十六 g 内存的 macbook 可以 本地运行,二十六 b 混合专家模型接入 openclaw 也能正常对话,但完全没有超出聊天机器人的额外生产力。 十六 g 内存的 windows 老本呢,接入 openclaw 可以 说是失败的,那么如果在本地运行呢?一二 b 和一四 b 两个版本都可以作为聊天问答机器人来进行本地使用。 我的判断是,如果内存能够达到三十六 g 以上,能够完整的跑下来二十六 b 混合专家模型,那么也许真的可以变为生产力。但是限阶段大多数人的设备都没有达到这个门槛。 本地部署不是不值得探索,但是要先看看自己的硬件设备有没有达到那个门槛,再决定要不要去折腾,不然的话结果可能会很打消你的积极性。 我是 ken, 专注用 ai 做可持续相关工作流的自动化。如果你对 ai 工具和自然语言编程感兴趣,请关注我,我们下期见。

先说个反直觉的,以前挑模型大家像挑冰箱,越大越好,双开门五百升能装一头牛。现在摘码四出来,感觉像有人默默递给你一个保温饭盒,看着不大,打开一看, 三菜一汤还带保温,关键刚好塞进你包里。三 e b 的 模型跑在你能买到的显卡上,效果跟那些参数巨兽掰手腕还不虚。这不是小布块 好,这是直接换了赛道。不比谁块头大,比谁脑子转得巧。边缘端那俩小鸽子才是真狠角色。 e 二 b 和 e 四 b 名字听着像手机型号,干的事儿可一点都不清亮。你想啊, 以前手机跑 ai, 要么卡成 ppt, 要么偷偷联网传数据,现在这俩小模型离线低,延迟还能听能看,你拍张菜单,他直接帮你算卡路里加翻译加推荐搭配,全程不用等云回复,这感觉像什么? 向你随身带了个懂行的朋友,而不是一个需要打电话问总部的客服隐私这事终于不用靠我们相信你来保证了,而是靠数据根本出不去来,兜底看原许可证,别只看表面啊 pi 七二点零,听着像法律条文,其实就一句话, 你拿去用,改了还能卖,我不收过路费。但有意思的是, google 这次不是施舍,是搭台。 hiking face 首日上线,奥拉玛拉玛 c p p 这些社区神器全支持,甚至你的游戏本都能 fine tune, 这像什么 像?有人不仅开了个免费厨房,还把菜谱、锅碗瓢盆甚至火控系统都给你配齐了。最后说一句,菜做好了,记得数名就行,但咱也泼点冷水。工具越自由,翻车越容易,模型微调歪了,输出带偏键,部署出 bug, 这时候责任算谁的?开言的爽往往伴随着没人都抵的引诱。说点你能直接用上的长上下文加多余元,丢给他一篇五十页的用户反馈报告,让他按情绪、地域、问题类型自动归类,还能顺手生成英文摘要。以前得写一堆脚本加掉 api, 现在一个 browns 搞定离线代码助手三、 e b 版本能在本地跑,你写运营自动化脚本时,让他帮你看逻辑,补函数,查 bug, 敏感数据不用出本地安心。 e 四 b 加音频加视觉。想象一下用户拍张英语笔记的照片与英文 这句话怎么读?模型直接识别文字加标注,发音加生成类似句型练习全程离线延迟几乎为零,这不就是你想要的故事加插图加句型学习流的自动化版本?

很多人问我十六 g 显存为什么能跑 jam 四二十六 b, 现在我把我的设置教程发出来,我用的是 l m 塑镀,有上下纹,长度设为六十 k, gpu 卸载设为二十,剩下的三十层给 cpu 跑。另外 k 和 b 缓存一定要开启 q 八量化, 这么设置完显存占用基本在十二 g。 第一次设置的时候是十五 g, 但重启软件再加载就变成十二 g 了,显存还有四 g 剩余。咱们来看看速度。这里测试一个办公场景,发一张竖版流程图给 ai, 让它改成横版。注意看,这里全程无加速, 他直接给我生成了代码,没有任何废话,速度非常快。最后我用工具将代码解析成流程图,结果就是这样, 和原图对比一下,逻辑基本一致,确实非常厉害。

谷歌这次彻底掀桌子了,全新开源大模型伽马四震撼发布!要知道,自从初代伽马发布以来,全网累计下载量已经突破了惊人的四亿次,开发者生态里涌现了超十万个衍生遍体, 这热度直接拉满!为什么要激动?因为伽马四直接继承了谷歌最强老大哥 jimmy 三的底层核心技术, 更狠的是,它首次升级为 a p 七二点零协议纯正开源。这意味着,无论你是搞科研,还是直接拿来商业变现,统统免费授权。这波属于是对开发者贴脸送福利了。 这次谷歌一口气端出了四款不同尺寸的模型,从小杯到超大杯,分别是一二 b、 e 四 b、 二六 b 谋架构和最强的三一 b 密级模型。 这意味着,无论是直接塞进手机进行轻量化的端侧推理,还是在专业设备上进行满血的算力输出,这套全家桶不仅实现了全硬件覆盖, 而且全系支持完全断网的本地离线运行。相比上一代, jam 四直接进化成了全能六边形战士。首先是多模态大爆发, 四款型号全系精通图文双修,其中 e 二 b 和 e 四 b 这两款小模型更绝,甚至长了耳朵能直接听懂你的语音。最离谱的是,这次 jam 四全系内置了硬核的思考模式,遇到复杂问题,他不再是瞎给答案, 而是像人一样一步步推理打草稿,逻辑能力直线飙升。其次是超强记忆力,二六 b 和三一 b 这两款大模型支持高达两百五十六 k 的 超长上下文,吃透几十万字的长篇文档跟玩一样。 即便是两款端侧小模型,也标配了一百二十八 k 的 超大窗口,再加上它原声支持超过一百四十种语言,咱们中文用户用起来简直不要太丝滑。 更恐怖的是他的跃级战斗力!在权威的 irina ai 排行榜上,三一 b 模型直接杀入全球开源模型前三,二六 b 拿下第六,这是什么概念? 他们直接把一重体量是自己十几二十倍的老牌开源巨无霸按在地上摩擦,完美权势。什么叫四两拨千斤?你可以直接把本地跑起来的 jam 四无缝接入到 continue 酷士的本地模式里,或者配合咱们常用的小龙虾、 openclo 以及 cloudco 等工具来使用。用奥拉玛提供底层算力,用这些可视化界面和智能体框架发号施令,瞬间就能为你打造出一个真正免费、不限量 且绝对保护私有代码资产的本地最强代码外挂。把最强的 ai 塞进每个人的口袋,随时随地帮你写代码做分析,这才是真正的科技屏权。如果是你最想在本地设备里装一个什么类型的 ai 助理呢?来评论区聊聊。

现在用奥乐玛可以本地跑 jam 四,谷歌开源免费大模型,它是谷歌在四月二号发布。 jam 四到底强在哪?先看第一张图, jam 四在开源阵营里性能很靠前,就是同样算力,预算下,它能给你更强的推理和代码表现。第二张图怎么选模型?清量设备先上 e two b 或 e 四 b, 速度快,资源占用低, 高配机器上二六 b 三一 b, 追求上线效果。接下来我们手动部署 jam 四,我将整理好的文档放在了飞书中。首先打开奥莱玛官网,点击右上角 download 它这里有 mac、 linux、 windows, 我 使用 mac, 所以 下载 macos, 这里拖着就能安装成功。奥莱玛这里,聊天框选择模型,这里还有 kimi 和 g l m 等 模型, mini max 和千万大模型这里我们直接寻找今天主角 jam 四,它有多个版本,每一个版本对应的电脑配置要求都不一样,这里我整理好了文档,我选择本地模型, 杰玛斯一二 b 选中了,他是不会立马安装本地模型,需要输入一个你好才能进行安装,他判断没有这个模型 会自动去安装。你不想这样安装,也可以打开终端输入这个指令,可以进行终端安装,两种方式,任选其一即可回车,就会主动的去下载杰玛斯,这里等待安装完成就能使用杰玛斯,安装完成了,他会回复你上一次的对话,我们来测试一下杰玛斯实际效果怎么样。准备了一个非常绕脑的问题, 就是去给车加油,到底是开车去还是走路去?距离两百米,从发送指令到响应还是很快,但是给出的答案很出乎意料,他选择了走路去,这里的话,我反问了一下他走路去怎么给车加油,然后再次思考回答问题,这里不知道是不是本地安装的版本问题,不能以此 回答成功,在我们进行第二次提问的时候才成功的脑筋急转弯的测试完了,我们来跑一下编码能力,这里我准备了两个文件夹,分别是 demo 四和 codex 的 使用, demo 四和 codex 进行测试,一样的提示词,这里我是用 cloud clear i 映设 demo 四模型进行开发,输入这个指令,它就会在 cloud clear i 中使用 demo 四模型, 这里指令是使用你的本地 jim 四模型,所以不需要考虑 token 问题。这里我准备了一样的提示词,都是开发一个俄罗斯方块,只需要回车就进行开发。 codex 那 边也是一样的提示词,但是那边使用的是 codex 五点三版本,这里我们直接看效果进行对比,这个是 jim 四开发的效果,整体来说没有 bug, 但是上下键的时候页 会滑动,会有一些细节。在 h 五也有这样的问题,这个是 codex 五点三开发效果,它不会页面滑动,但是不能全屏看完内容,两边的问题都是不能全屏看完,所以我们进行优化调整,一屏看完全部内容,两边的提示词都是一样的,不知道是不是我本地安装的问题,我的本地模型是一二笔版本的, 我们来看一下最终的效果体验,查看一下 h 五的效果进行开始游戏,这一次开始游戏页面不会进行滑动了,但是真的来说还是有一点细节。然后我们再来看一下 codex 版本的点击开始游戏效果这一边的话,看着是要舒服一点,体验感更棒。如果电脑配置要求比较高的话,可以试一下满血版的 g m 四,还可以在 cloud code, open code, open cloud 中进行使用,只需要输入这个指令就能在 cloud cloud 中使用,直接无缝衔 节在 collogix key 一 样的指令,只是把 cloud 变成 collogix, 这样就好了。接下来我们进行删除 gemma 四,输入 olamalist 指令,它会返回你本地模型名称,再输入这个指令就能删除 gemma 四模型。

在低显存下本地部署 jm 四二十六 b 的 实测方案。我用的是五零六零 t i 显卡,通过优化可以将显存占用控制在十一 g 左右。在模型选择上,建议搜索并下载 nsoft 发布的 jm 版本,量化规格是关键。这里推荐选择 iq 四版本, 它的模型体积只有十五 g, 比常规的 q 四版本缩小了三 g 左右,这意味着对显存的压力大幅降低。关于实际能力表现,经过实测, iq 四版本的逻辑水平和智商并没有明显折损,完全处于可用状态。 在模型参数设置上,除非对超长上下文有特殊需求,否则不建议开启 q 八规格的 k d 缓存。 性能测试结果显示,在生成诗歌等文本任务时,推理速度可以达到每秒二十八的 token。

扎马四大模型在上周进行了开源,因为它跟 nano banana 二都是 google 的, 因此我把这两个模型拼在了一起,做了个 copy y 工作流。 其中扎马四大模型负责写提示词,把你想要生成的图片用大白话跟它讲清楚,扎马四就会给你输出一段非常标准的图像,生成提示词。 然后呢,将这个提示词传给 nonban 二节点进行升图,等待几秒,你就能得到一张以球队队徽为创意的足球海报图了。 本期来讲伽马四大模型,这是谷歌 deepmind 团队开发的开源模型,它有这么几个特点啊,第一,具有推理能力。第二,支持多模态,可以处理文本、图像、视频和音频。 第三,可以在笔记本电脑和手机上运行。第四,最高支持二百五十六 k 的 上下文。 java 四有四个型号,其中 e 二 b 和 e 四 b 主要应用于手机端, 而二十六 b a 四 b 和三十一 b 这两个型号需要的显存就很大了,至少要是四零九零显卡的电脑。 具体选择哪个型号需要看你的业务场景,因为我想用 jama 四去写优美的 number banana 二提示词,所以我选择这个二十六 b a 四 b 这个型号。这个名字中的 a 代表激活参数, 该模型的总参数是二十六 b。 但是呢,在推理阶段仅激活四 b 的 参数子集,因此它运行的速度很快,运行效率接近四 b 参数模型。具体的量化版本,我选择的是 q 四 k m 模型,大小在十六 g 左右。 接下来呢,我用康复 ui 工作流给大家展示一下用 g m 四来写提示词有多么的好啊, 在软件 hack 我 已经搭建好了啊,这个詹麦斯去写生图提示词的康复 ui 工作流。整个工作流看起来非常简单,分三部分组成啊。第一部分,上传主场球队和客场球队的队徽, 我分别上传的是常州队和南通队的队徽,因为他们明天就要比赛了,这两个队的队徽分别传给詹麦斯和 nintendo 二,进行下一步处理。 第二部分,使用 java 四模型去书写优美的生图提示词。首先使用 lama cpp model loader 节点去加载 java 四二十六 b a 四 b 的 q 四 km 量化版大模型。另外呢, mmprog 多模态投射器选择对应的模型即可。 在下面的 luma c p p parameters 需要按照模型介绍页的视力参数进行设置,之后你需要把这两个队的队徽传给 luma c p p instruct 节点的 images 端口。 另外还要设置系统提示词和用户提示词,其中系统提示词就是给 java 四大魔性定身份和立规矩的,你看我写的是你是 number banana 二、图像生成 prompt, 转写大师根据用户输入的生图需求输出详细的 prompt 提示词 等等等等。用户提示词是给大魔星下达具体任务的,我写的是我想生成一张足球对战海报,比赛球队是常州 vs 南通,图一是常州队徽,图二是南通队徽等等等等。 然后你就会得到由詹曼四给你写好的优美的 nano banana 二生图提示词了。第三部分,使用 nano banana 二进行生图, 他负责接收两个队的队徽图案以及刚才 jam 四生成好的提示词分辨率,我选择的是二 k 和横版十六比九,点击运行你就能得到一张以两队队徽为创意的海报图了。 最后我们总结一下啊, nano banana 的 新玩法就是 gemmas 四负责写提示词, nano banana 二负责升图。如果本期视频对你有所帮助,请关注、点赞、收藏,三点走一波,这里是电磁波 studio, 我 们下期视频见。

一分钟让你搞清楚关于全球最强开源模型 jam 的 一切。最近谷歌开源了 jam 四,我将用四个问题 让你清晰了解关于 jam 的 一切。 jam 各版本的区别,我家的电脑能用吗?模型怎么部署安装?普通人用来干什么?先说他的四个版本,三一 b 直接冲上全球开源 ai 榜第三名,以前要机房才能跑的能力,现在你家里的高端游戏显卡就能搞定。 轻量版的一二 b 和一四 b 为手机、平板以及中低端电脑设备打造,性能虽不是最顶级,但是绝对好用够用。而二六 b 猫号称总参数两百六十亿,但实际每次思考只用其中三十八亿个,最相关的效果却能媲美两百六十亿, 能理解超长文章以及视频。简单说,无论你是用手机、笔记本还是高性能电脑, jam 四都能给你免费安全强大的顶级模型体验。再说你家里的设备是否能用上?一张图告诉你 jam 四个版本的最低要求。 对于多数人而言,家用的电脑设部署一二 b 一 四 b 完全够用,基本能满足百分之九十的使用场景。另外两个版本对内存要求较高,但是性能出众,属于好马配好鞍。 再说模型安装,整个过程大概十分钟左右。首先下载 lm studio, 然后打开 opencool 或者 id 工具,让它查找你本地配置,给你推荐安装哪个版本。之后在 lm studio 里下载,运行搜索推荐的模型名点下载,最后接入 opencool 或者 i d e l m studio, 提供 open ai 兼容 api, 在 open 框里把 api 地址改成, h t t p l o c a o s t colon twelve three four slash vivo 就 能用 jama 四驱动你的 ai agent 了。 网上攻略一大堆,这里就不展开了。最后说下所有人最关心的能用 jama 做什么?这里推荐三个场景,可以去试试。第一, 构建本地知识库,把工作和学习相关的文件丢给本地 jama, 让他帮你形成系统化的知识。构建个人知识库时进行向量缩影和 anitive, 解锁数据不出本地,安全合规。第二,给家人搭建一个 ai 助手,下载好模型,配个界面,电脑手机都可以直接对话,不花钱不泄露隐私。第三,内容创作 最大优点是无限额度,即便不如部分付费模型,但可以靠大量尝试提升优质内容的概率。千马寺会改写国内企业及政府客户的私部模型格局吗?欢迎在评论区发表你的观点。

三十一 b 参数的模型打败了六百 b 的 庞然大物, 二十一参数的版本还能在你手机里跑,这意味着什么? ai 大 模型的军备竞赛结束了, 过去两年,所有大唐都在干一件事情,疯狂的对仓鼠烧钱抢算力。乌本 a i 的 训练成本已经飙到了几亿美元,普通公司呢,根本玩不起。但现在谷歌用事实打脸了这套逻辑, 金马四只用了三百一十亿仓鼠,却打赢了仓鼠量是他二十倍的对手,怎么做到的? 不是靠堆料,是靠训练的质量,价格的优化,指令的微调。更关键的是,二十亿参数的版本可以直接在手机上跑,不用联网,延迟静音,还能处理图片和语言,这对普通人意味着什么?第一, ai 不 再是大厂的专属武器, 你不用再给 open ai 交保护费,开源模型本地部署一样能干大事。第二,你的隐私终于安全了,财务数据、商业机密、个人聊天记录再也不用到云端,在你自己的设备里就能处理。第三,成本直接归零, 以前调用一次大模型还要钱,现在呢?电费而已。所以别再说 ai 是 巨头的事,门槛可能真的在急速的下降。我一直相信,技术革命的本质不是谁更强,而是谁能让更多人用得起。

内存搞了四根八 g 的, 这个是显卡,联想的幺零六六涡轮卡,他在电脑上安装一个谷歌的这个 ai, 他 叫 jam 四,这是个本地的模型,可以离线跑, 就不需要联网。最开始我也疑惑,你这个 ai 怎么能离线跑呢?跟我们用那个豆包一样,不联网。他怎么回答问题呢?看了下这个文件大小,四点二 g, 五点九 g 的 不同的版本,十七 g, 十九 g, 这个本身是训练好的,各种乱七八糟的数据都存好了, 当然也有代价吃硬件嘛,他这个运转吃你的内存跟显卡,在线型的那种 ai。 gpt 豆包,他的安装文件很小,两百兆,三百兆,他让你问问题之后发给了云端服务器,消耗的是服务器的硬件资源,他运转好了之后再把结果顺着网线给你。反过来 这么一个过程当然有代价, gpt 可能要交钱,这离线模型你不用花钱买,那个什么头盔免费的。这里面四个版本,一二 b, 一 四 b, 还有三幺 b, 他的硬件要求都不一样,这个要求是最低的, 还可以在手机上面跑。搜了一下,主要是吃内存跟显卡,对 cpu 要求不高。我搞了个幺零六零六 g 的 显卡,就跑这个模型,一四 b 的。 到这个网站去下载 lm studio studio studio studio 工作室软件里面叫工具级的意思, lm studio stu d i o 回车第一个就是这个官网,打开好,这个是全英文的,右上角 download, 先给他下载下来, 点这个 download 和 windows 下载五百八十兆了,下载速度五点七兆还行。好,这个下载完了直接安装中文界面的,为所有人安吧。下一步路径我也不改了,直接安装 好,安装完成直接运行英文界面的,点这个 get start, 开始 我 gmail 四模型,不用专门下载,直接就跳出来了。还是一四 b 的, 直接点这个蓝色按钮, dongle 的 gmail 四一四 b 大 小六点三三 g 让它下载就可以了。这个速度还挺快的,可以让它后台下载,直接继续, 把它忘了删掉,不管他直接继续,这就是他的聊天界面。下载进度在这调成中文,点左下角这个小齿轮, app 浪轨迹,默认英语, 选简体中文关掉。啊,已经变成中文了。这下载速度一秒两兆多。还行,刚才那个界面没有这个模型的话,你可以直接搜这个小人头,点一下 搜索模型,加满四一 b, 一 二 b 都有看下载按钮不就在这吗? completed 下载完成。怎么加载?很简单,点一下这个播放按钮, load model 加载模型,这不就出来了,测一下这个识图功能怎么样啊? 这个 d 轮的话也是完成 paste 粘贴。这是啥发送?这在思考好,结果出来了, pet 聚酯纤维,没问题,没毛病。

现在测试谷歌今天新发的这个节目,三十一 b 啊,六四 k x l 这个版本的,你看一下啊,现在的输出速度是四十四头盆, 我给他的上下文是八万六,我现在在测试啊,你看你跑多少出来。让他再写一个修真小说 看一下,已经写了很多了,同一开始上写了一个修真的,再写一个穿越的,还可以保持在四十四头。看懂体德已经输入两万七,用的是这个 l l 码点 c p p, 这个比 rms 丢丢的性能要好的多,是我要给他的一个参数,大家可以参考一下,当然这个启动器是让 ai 写的,默认的这个是没有有启动器的,这个参数是适合我,咱不知道适不适合你们用。 上下文我其实还想给他再拉高一点,但是我就怕爆掉,所以我还得测试起这个四十四头,啃每秒已经可以了, 是属于干活比较爽的状态。然后我们再继续输出啊,单次现在已经输出了五千头,可能还在写单次输出是在这大输出数,我给他调了三万二, 大家写的会停下来,都说写的差不多了啊,一阶段五千五百次,在总体用黑,让他继续养活他的上下文加载,他基本上一次性加载三万的上下文精选不可数,还是可以保持在四十五, 速度还可以,是他的一个思考,我记得这个模型开始没有思考了。第二阶段开始了, 珍惜修整小说还紧哦,前输出速度啊,输出内容都很稳,大家可以试一下。是 这个三十 e b u d q 四 k x l 白五零九零啊,是我第一步的,你还说后面我还会继续调整看看,哎,能不能把速度记忆往上推,希望对大家有用吗?