好,大家好,我是小刘。呃,今天我们一起来看一下在 ktapp 上最近比较火的几个开源项目。在这几周里面,那首先第一个是我们昨天讲过的这个 hermes agent, 那 这个开源项目其实是一个自我进化的一个 agent, 呃,它主打一个可扩展,然后多带你开发工作流,现在已经目前从 openclaw 上全程迁到这边来了,就我自己使用的话,一般不再使用 openclaw 作为我的 agent 的 一个呃主要的工作方式。 那还有就是这个 open screen, 这个是一个那个录屏工具,就可以帮助你放大放小,就大家现在看到这种屏幕啊,放大放小啊,就使用这个开源项目啊,当然它也是呃开源的。 那第三个就是这个能够让你的这个 codex 呢,能够支持多个不同的那种角色嘛,就是,呃和那个监牢的 code 的 有点像,就那我今天给大家分享的是这个 这开源项目,这个开源项目在 get up 上目前收获了呃接近二十 k 的 star, 它是一个端测模型。啥意思啊?就是说你可以在你的手机上去跑各种各样的本地离线大模型。 好给大家举个例子,比如说我现在想在我的这种 iphone 上去跑模型,那这时候我直接可以把这个模型给它下到我手机上,这时候呢即使断网的情况下,它也可以通过这样的方式来去跑这个模型, 并且这个模型还是多模态的。啥意思?就是你发图片给他,他可以直接去理解这个图片,并且呢能把这图片的这个细节说出来,也就意味着我们不需要去接入其他的模型,你有一台空闲的手机,你可以对外暴露一个接口,然后你的这种 app 就 可以直接调这个 iphone 的 这种, 哎,这种能力啊,因为它的 gpu 本身来说在本地嘛,对吧?有时候我们做一些小的离线的这种呃 app, 就 可以通过这种方案去实现我们的这个呃模型的能力。那建议的话就是官方是建议在呃十二之后的这种手机设备,因为这样的话你的设备会运行的比较流畅,如果是之前的话,跑起来可能会, 嗯,比较的卡顿啊。这是一个离线端侧的模型,所谓的端侧就是它的号的算力,就是用的是你本地的这种算力,可以看到这里有个那个呃 c p u 对 吧? c p u 是 吧? c p u 还有 g p u。 然后这里可以调各种各样的域值,还支持不同的这种参数,那其实整个内内存占用 大小其实也不是很大,就二点五四 gb 吧。然后呃,这是我们这一次呃再介绍的。首先的话可以看到他有目前有四个类型的模型,一二 b, 还有一四 b, 三十一 b 和这个二十六 b, 激活四 b, 那 最好的肯定是这一个,对吧? 这两个字可能会相对来说会好一点。然后我们可以看官网上的一个使用方式啊,挺有意思的,那你可以从这里去安装,你也可以从这个地方提供两个路口去使用这个开的项目。那官方也是哦,现在属于一个哦, ipad 阶段吧,我觉得,呃还有很多功能可能不是很完善,但是作为一个模型来说,他还是挺有意思的,他有兴趣的话可以去尝试一下打开,然后这里是测试哎,去问他问题,然后可以看到他甚至会自动调用 google 的 这种地图,还有算术题啊,然后,呃,图片识别啊,你看他这识别这个图片 啊,还有语音识别,还有就是一些常见的这个模型我觉得,嗯,最大的好处是什么?就是你可以在没有网络情况下去呃做一些呃 就是问题的询问,即使在那种信号很差的地方,你也可以第一时间得到答案啊,还是挺有意思的,大家有兴趣的话可以尝试一下。好了,那这本视频全部看完了,我是小刘,我们下期再见。还多做了个 ppt, 没用到,哈哈哈。嗯,好,我们下期再见。
粉丝2.1万获赞21.9万

扎马四大模型在上周进行了开源,因为它跟 nano banana 二都是 google 的, 因此我把这两个模型拼在了一起,做了个 copy y 工作流。 其中扎马四大模型负责写提示词,把你想要生成的图片用大白话跟它讲清楚,扎马四就会给你输出一段非常标准的图像,生成提示词。 然后呢,将这个提示词传给 nonban 二节点进行升图,等待几秒,你就能得到一张以球队队徽为创意的足球海报图了。 本期来讲伽马四大模型,这是谷歌 deepmind 团队开发的开源模型,它有这么几个特点啊,第一,具有推理能力。第二,支持多模态,可以处理文本、图像、视频和音频。 第三,可以在笔记本电脑和手机上运行。第四,最高支持二百五十六 k 的 上下文。 java 四有四个型号,其中 e 二 b 和 e 四 b 主要应用于手机端, 而二十六 b a 四 b 和三十一 b 这两个型号需要的显存就很大了,至少要是四零九零显卡的电脑。 具体选择哪个型号需要看你的业务场景,因为我想用 jama 四去写优美的 number banana 二提示词,所以我选择这个二十六 b a 四 b 这个型号。这个名字中的 a 代表激活参数, 该模型的总参数是二十六 b。 但是呢,在推理阶段仅激活四 b 的 参数子集,因此它运行的速度很快,运行效率接近四 b 参数模型。具体的量化版本,我选择的是 q 四 k m 模型,大小在十六 g 左右。 接下来呢,我用康复 ui 工作流给大家展示一下用 g m 四来写提示词有多么的好啊, 在软件 hack 我 已经搭建好了啊,这个詹麦斯去写生图提示词的康复 ui 工作流。整个工作流看起来非常简单,分三部分组成啊。第一部分,上传主场球队和客场球队的队徽, 我分别上传的是常州队和南通队的队徽,因为他们明天就要比赛了,这两个队的队徽分别传给詹麦斯和 nintendo 二,进行下一步处理。 第二部分,使用 java 四模型去书写优美的生图提示词。首先使用 lama cpp model loader 节点去加载 java 四二十六 b a 四 b 的 q 四 km 量化版大模型。另外呢, mmprog 多模态投射器选择对应的模型即可。 在下面的 luma c p p parameters 需要按照模型介绍页的视力参数进行设置,之后你需要把这两个队的队徽传给 luma c p p instruct 节点的 images 端口。 另外还要设置系统提示词和用户提示词,其中系统提示词就是给 java 四大魔性定身份和立规矩的,你看我写的是你是 number banana 二、图像生成 prompt, 转写大师根据用户输入的生图需求输出详细的 prompt 提示词 等等等等。用户提示词是给大魔星下达具体任务的,我写的是我想生成一张足球对战海报,比赛球队是常州 vs 南通,图一是常州队徽,图二是南通队徽等等等等。 然后你就会得到由詹曼四给你写好的优美的 nano banana 二生图提示词了。第三部分,使用 nano banana 二进行生图, 他负责接收两个队的队徽图案以及刚才 jam 四生成好的提示词分辨率,我选择的是二 k 和横版十六比九,点击运行你就能得到一张以两队队徽为创意的海报图了。 最后我们总结一下啊, nano banana 的 新玩法就是 gemmas 四负责写提示词, nano banana 二负责升图。如果本期视频对你有所帮助,请关注、点赞、收藏,三点走一波,这里是电磁波 studio, 我 们下期视频见。


不久前,谷歌发布了 jam 四系列,它不仅是一款开源模型,更是一次关于如何把超级大脑装进手机的工程奇迹。今天我们一起来看一下它是如何用不到四 g b 的 显存,跑出大模型的效果。 这里我们做了一个测试,使用三台手机在本地离线跑 jam 四 e 二 b, 屏幕上呈现的是这三台手机的测试数据,下面给大家看一下实际运行的情况。第一个加油问题, 第二个 g two 铜龙问题, 第三个字母出现次数问题。 可以发现,关于对常识的判断仍然是小模型的短板。然后这三台手机中, iqoo 十五的运行速度最快。 simon 四一共四款,覆盖从手机到工作站的所有场景。 a dos base 最轻量手机和树莓派都能跑,自带语音识别,量化后只要四 g 显存。 a, 跨出白瓷笔记本甜品级, 速度和能力之间的平衡点。二十六 b, 混合专家架构,总参数二五 b, 但每次只激活三点八 b, 用小模型的成本干大模型的活。最后是三 e b 单词,旗舰级模型,全参数推理,开源模型排行第三,适合有好显卡的用户。这里要讲一个关键的概念,单词和猫的区别, 单词密集型。你看屏幕上这些格子,全不在闪,因为每次推理所有参数都参与计算,三十一币就是三百一十亿次,运算一个不少。它的优点是稳,缺点是慢,而且吃显存。 切换 m o e 模式,注意看大部分格子暗了,只有几个在亮,这就是混合专家的精髓,模型里有一百二十八个专家,每次只派八个上场,剩下的待命。 最后说说它的边界,左边是强项,文档识别,发票解析,代码补全,长文档,问答 agent, 自动化任务,这些它都能做,而且跑在本地,意味着你的数据永远不用上传到别人的服务器。 右边是它的短板,如果你问它能否替代跨腾或 gpt, 答案显然是不行的,那能否进行高质量写作?这里我的回答是勉强可以,至于大规模的代码重构,那以它的能力还差得很远。 说白了, jam 四是一个极其出色的本地工具型 ai, 你 把它当高效工具用,它不会让你失望。如果你把它当全能大脑用,那你就会很失望。 想试的话,这里有两种方式,手机用户可以直接去 google 的 a i h gallery 上下载使用,电脑用户更简单,欧拉玛一键运行。下面我们来看如何用欧拉玛本地部署 jamal 四 e 四 b 模型,并使用 clogot 调用它。在 clogot 直接提问它是什么模型, 它是由谷歌训练的大语言模型,欧拉玛在首次请求时加载模型,加载耗时三十八秒,显存系统分配总计实际首先确保电脑上已经下载过欧拉玛,只需执行一行命令,欧拉玛 round gemma 四冒号意思币,等待模型下载完成,总计约九点六 g 币。成功后在终端测试。问答, 它是一个大语言模型,名字是 gemma 四,由 google deepmind 的 开发,属于一个开放权重模型系列。复制这个模型 id, 克隆项目源码, 进入项目目录,运行安装命令,下载完依赖后进入引导界面,颜色模式随便选。第四个是我们做的国产模型适配选择第三项,本地欧莱玛模型, 然后粘贴刚刚复制的模型 id 回车。确认到这一步配置成功。我们问个问题测试一下,现在已经调用成功已经登录的用户,想要切换模型,输入 logo, 退出登录,然后运行帮人 devi, 即可重新配置。我们最新版的 cloud code 已开源,大家关注评论获取。 目前呢,该模型权重在 hackin、 face 和 kaido 上都能下载。以上便是我对 gmail 四的实测解读,如果你觉得有用,不妨点个关注,我们下期再见。

谷歌刚发布了王炸级别的开源大模型 g m 四,本视频将为你带来详细的评测。本次的 g m 四最大的杀手锏是彻底转向了 ipad 二点零纯开源协议,这意味着他终于解除了之前的法务紧箍咒,开发者可以闭眼商用。虽然三十一 d 模型在 reno ai 榜单上拿到了开源第三, 但回归到真实场景,它的表现其实是一把极其锋利的双刃剑,评价非常两极分化。首先看旗舰级的三十一 bance 模型,它的编程能力非常惊艳,实测写 html 界面,排版精美,在 levelbench 拿到了百分之八十的高分,达到了专业程序员的指令水平。 而且它的 token 效率极高,平均消耗只有 coin 三点五的百分之六十五,非常适合需要反复调用、在意成本的本地 agent 工作流。 但它的偏科非常严重,数学精度不足,简单的运算经常出错,尤其是在处理信息密度大的长文本时,很容易产生幻觉,而且在开启慢思考模式后,偶尔会陷入死循环,无法跳出。接下来是性价比极高的二十六 b m o e 模型, 这款模型是本地二十四 g 显存用户的福音,虽然总参数有二十五点二 b, 但推理时仅激活三点八 b 参数,这意味着你只需要十六到十八 g b 的 显存就能跑起四 b 的 量化版,而且速度极快,实测能达到每秒六十个 token, 非常适合那些需要塞入臃肿系统提示词的 a 帧子应用。不过这款模型的评价极其割裂,虽然有人觉得它实用,但也有开发者直言它在中文写作和逻辑推理上,灌水严重, 被戏称为数字干水制造器。最后是端侧的小杯模型 e 四 b 和 e 二 b。 它最大的亮点在于原声支持最高三十秒的音频输入,这意味着你不需要外挂 s r 语音转文字模型,英文转写效果几乎完美,是做本地语音助手的绝佳选择。但它的视觉能力简直是灾难, 面对简单的发票截图或手机截图,文字提取错漏百出,甚至连最简单的网页自动化操作第一步都会报错。在视觉理解这个维度上,它被 q n 三点五的九 b 模型按在地上摩擦。 那么在实际选择时,如果你需要构建本地的高频 agent 循环照用,且对 token 预算和响应延迟要求极高,那么二十六 b m o e 是 首选。 如果你想打造纯离线的语音交互设备,直接用 e 四 b 即可。当然,如果你最看重的是开源协议,需要变商用 jamas 的 pitch 二点零协议就是最大的优势。 相反,如果你需要一个强悍且稳定的综合小尺寸模型, q n 三点五的九 b 版本在综合能力上是碾压 e 四 b 的。 另外,如果你依赖高精度的数学计算 o c r 文字识别,并且要求极低的幻觉率,或者需要一个更成熟的生态和丰富的尺寸矩阵,那么 canon 三点五会是更稳妥的选择。在底层架构上,简码四引入了两项黑科技, 第一是 pl e 逐层嵌入,这是小模型专享的,它不再把所有信息在初识阶段一次性打包,而是在每一层都生成专属信号, 本质上是用额外的算力换取存储空间,增强表达力。第二是混合注意力机制,它采用了五层滑动窗口和一层全局注意力交替的结构,配合双 o p e 配置,直接将上下文处理能力拉升到了二五六 k。 针对硬件部署,这里给一套基于 ansel 和 m c p p 的 建议。如果你只有八 gb 显存,勉强能跑 e 二 b 或 e 四 b, 但只能做简单的摘药或语音识别,千万不要尝试复杂的视觉理解或长代码分析。二到十六 gb 显存是 e 四 b 的 舒适区, 也可以尝试二十六 b m o e 的 重读量化版。而如果你拥有二十四 g b 显存,强烈推荐跑二十六 b a 四 b m o e, 这是目前最有限势意义的型号,能同时兼顾二五六 k 的 长上下文和高效的吞吐量。 最后,分享两个长文本推理的闭坑技巧。如果你在进行存文字的长上下文推理,建议在辣妈 c p p 中直接关闭微震视觉功能,这样可以节约大量显存。 另外,面对复杂任务时,可以通过 a p i 动态调整 thinking budget, 也就是思考预算,防止模型陷入无限思考的死循环,导致机器直接卡死。

等等,一个只有三百一十亿参数的模型,怎么能跟一万亿参数的模型几乎同分?它的参数量不是小了一点,而是小了三十倍。 三十亿币可以在很多消费级的设备上跑了,按正常的逻辑,它根本不应该出现在这一档。而三十亿币的小模型就是谷歌刚发布的 jama 四。那 jama 四到底是什么?实测它的性能真的有这么好吗?一会我们详细对比,并且在手机上、电脑上都给它跑起来。 最后我们一起说一下,为什么它引起了如此广泛的讨论,以及它引起的新风潮,为什么可能直接改写接下来 ai 竞争的方向。 好,废话不多说,我们开始伽马四,是谷歌新一代的开源模型,这次直接发布了四个版本,能在手机上跑的一二 b, 能在普通消费机电脑上跑的一四 b, 以及需要一些高配电脑或者工作站的二十六 b 的 混合专家版本,以及最受关注的三十一 b 的 重密模型。 这个产品结构本身也解释了谷歌的野心,想把从手机、消费机设备到工作站这条开源路线一起凸出来。它的卖点非常明确,第一,谷歌算是铁树开花了, 这代的 ram 是 阿帕奇二点零的证书,是真正能让开发者去用、去改,去商业化的开源模型。二,它主打的不是参数有多大,而是 intelligence profile, 说白了就是同样甚至更小的体量,尽量打出更高的能力密度。比如这个图,横轴是参数量,纵轴是盲测得分,越往左上角走, 同样参数量的情况下,它的性能就越高。第三,它不只是要聊天,谷歌这次明确在推 reasoning and egotic workflows, 包括多步的推理,代码的生成,图像理解,上下文,甚至小版本还支持音频等多模态, 我们这些一会儿我们在手机上跑模型的时候都能看到。那这就是为什么伽马斯这次热度很高了,过去很多开源模型我们还是追求的最好的性能,那这次呢?谷歌的小版本在打本地和边缘设备, 而大一点点的版本却在挑战开源模型的榜单,说的就是这个三十一 b 的 模型这么小,已经在开放的榜单上打造一个所有人都能看到的位置了。那问题就来了,它的实测性能到底怎么样?真的有这么好吗?接下来我们一起看一下。 既然它号称和最好的那几个开源大模型旗鼓相当,那我们也不客气了,分别测试一 g m 四最好的三十一 b 版本和谷歌自家旗舰 g m d 四 b 版本,并且与同参数量的千万四 b 进行对比。三,如何在手机上跑 j 码四,以及我的真实体验。 首先在云端,我们对比四个模型, j 码最好的三十一 b 版本, gmail 三, flash gmail 三点一, pro 以及 deepsea v 三点二,在很多人都需要的编程文案和推理场景, 看看这个小模型有没有一丝替代昂贵一线模型的可能性。问题一,编程类,请用单文件 html 做一个高端现代家具品牌的网站首页, 这是 jam 生成的网页。其实啊,不经验,但是也不算差,考虑到它的体量,这个结果算是超过预期了。但问题也很明显,有些图片没有正常演示,图纹对应也有错误,所以完成度还是差了一大截。 这是 deepsea v 三点二生成的网页,整体也不错,设计能看,交互也有往下滚,还有一些动画效果,而且它的图片、文字这些元素是对得上的,说明它已经有些理解。这是一个电商的首页了。 这是 jammin 三 flash 生成的网页,第一眼观感已经很好了,设计感呢,比 jammin 更成熟,但是它的问题是动画和交互偏少,整体呢,没有达到完整的状态。 这是 jimi nike 三点一 pro 生成的网页,好疑问,是最强的对吧?几乎是一条提示词下去,设计,排版、交互细节都到位了,也充分理解了这是为电商准备的, 以及开头这些细节的动画,确实有一种高端,一种成熟的感觉。结论, jimi nike 三点一 pro 大 于 jimi nike 三 flash 大 于 deepsea 大 于 gemma。 这一次 gemma 是 最差的。问题二,文案, 请帮我写一段适合发朋友圈、社交媒体的短文案,主题是我第一次用本地 ai, 发现他已经在电脑上自己能做很多事情了。并列三四名, gmail 三点一 pro jimmy 四、 真香,安全感拉满,不要钱的专属助理,这些词都用力过猛,太假。第二名, gmail 三 fresh 最大的问题就是太过营销了,比方说,真后悔没去试,试过就回不去了,太香了,就是营销味太重。 第一名呢是 deepsea, 是 最像真人随手发朋友圈的,比方说啊,刚刚是在电脑上跑了个本地 ai 这种词,或者是速度比想象中的快, 隐私还放心,这些表达都相对比较自然。除了最后那句,推荐你们都试试看,稍微有点假,但整体来说还是最顺的。所以文案这里 deepsea 大 于 jimi nike 三 flash 大 于 jimi nike 三点一 pro 题目三,简单的推理题这个题所有模型都应该答对,这里主要看 jimi 四拉不拉垮。 一个农夫带着一只狼,一只羊和一颗白菜。过河船一次只能载农夫和另外一样东西,如果农夫不在,狼会吃羊,羊会吃白菜。请问怎么把这三样东西都安全的运到河对岸?请一步一步说清楚。 标准答案之一就是,人先带着羊过去,然后人自己回来,然后人带狼过去,带着羊回来。第三步,人再带着菜过去,人自己回来,最后是人再带着羊过去。 其实这道题都答对了,所以如果只看评理结果,那这题就是平手任马四,最好的三十一 b 白板啊。虽然阿尔瑞纳的盲测分数比 deepsea v 三点二高,但是文案和编程这两个我们需要最好模型来做的场景。我自己的测试没有 deepsea v 三点二好, 但是考虑它只有三十一 b 的 大小,编程的效果已经出奇的好。在云端测完最好的版本,下面我们测一下本地能跑的 ram 四,因为啊,大部分人的电脑都跑不了三十一 b 的 版本,所以我们在本地测试 ram 四 e 四 b, 并且对比同参数量的千万三点五四 b。 至于题目这么小的模型,测试编程能力就是有点耍流氓了。因为编程大家肯定都用最好的模型,所以这里我们测试三个日常助理的题目,考常识,考文案,考简单的推理一、常识规划能力。下周我要去巴黎玩,四千, 除了机票之外,预算一万,第一次去,住在巴黎市中心,帮我安排一个计划,并且告诉我最容易踩坑的五件事情, 这是他们的回答。简单来说啊, jama 这边没有出现事实性错误,而且行程写得更顺。但是他的问题就是,他几乎忘记了处理预算这件事情,而且最后的建议啊,没有这么贴切。千万正好反过来五个避坑建议相当靠谱,而且他是有意识的去考虑预算的,虽然是有些混乱吧, 但是千万里面有事实性错误,把两个景点荣俊苑和法尔赛混在一起了,而且他的思考时间啊,差不多是 jama 四的十倍, 所以各有一缺点,结果打平。题目二,文案把下面的 ai 味很重的口播稿点成更像真人说的话,要求更自然,更顺口,信息密度别掉,不要鸡汤,不要夸张, 人马四 ai 味实在是太重了。比如这一句,原句是,如果我们今天只是把 ai 理解成一个简单的聊天机器人,那很可能低估了这场技术变更的真正影响范围。 人马四改写的是,这可不是个小升级,是个大变格。这种话听起来就像 ai 反过来千问那句,你要是现在还把它当个普通聊天机器人,那你可能把这事看清了,我觉得就更自然一些。所以这题呢,比较简单,千问四必 大于 jama 四 e 四 b。 第三题还是刚才那个简单的推理题,一个农夫怎么带着一只羊一只狼和一个白菜过河的问题而都答对了。那么这个题平手可以看到 jama 四 e 四 b 的 版本啊,在我们的测试中,跟千万三点五四比打平,而且文案写的还没有人家那么好, 所以在我这里这个版本是没有什么惊喜的。 jama 四也能在手机上直接跑谷歌 a i h gallery 这个软件。 我的实测感受,第一,手机上有两个版本, jam 四一二 b 的 二点五 gb 和三点六倍 gb 版本。那么这两个呢,都是二十亿参数级别,专门为端侧部署优化的小模型, 两个都支持多模态,也就是图片和音频的理解。二就是有两个加速模式, cpu 加速和 gpu 加速。我的安卓手机呢, cpu 加速明显更快一些。 三,没办法联网,但是能用 viki pita 这个 skills 来获取维基百科上的信息。四,有 agent skill 模式,但是只有默认的 bug skills 和自己定义 skills 的 选项。 五,就是啊,图片识别模式非常的不稳定,经常出现闪退。从所有的评测我们看到啊, gemma 四远远不是最强的,那为什么它掀起了这么大的讨论呢? 就是因为他三十一倍的体量和高性价比的性能,大模型啊,越强越贵越大,就离普通的设备越远。在卷性能的另一端,他开辟了一条竞争的道路,就是谁的能力密度更高,谁更能落地手机电脑这样的普通设备。 那这条路线呢,有三个值钱的地方,第一就是成本更低,对吧?如果一个模型更小,能力还足够强,他的推理成本就会更低,对算力的依赖也更小, 同样的用户数量,竞争力就更高。第二就是他打开了一些之前做不了的场景,比如一些隐私敏感的企业弱网环境离线场景,这条路呢,可能会放大可成交的市场范围。第三 就是卖钱的方式有可能会变。现在 ai 公司卖的是旗舰模型的 api token, 如果未来有更低的部署门槛,更强的观测能力,更好的私有化能力,那钱不一定只在 talk 里赚了, 可以从企业部署私有化方案、设备预装垂直方向里面转。也就是说啊,开始从卖能力变成卖能力加卖系统,更加对接 to b 的 生意, 由此可能会带来竞争壁垒的改变。如果模型能力越来越近,那优势就会变成了谁更容易部署,谁更容易接近工作流了。当然,将来大家肯定还是会选谁的旗舰模型能力最强,尤其是 ag 的 能力和写代码的能力。 但是除了这条竞争路线之外呢,也许我们会看到 ai 竞争的第二条追求更强能力密度的路线。哎,如果你都看到这了,你是不是应该点个关注呢?我们下期再见!

你能想象吗?把 gpt 五级别的推理能力硬生生塞进你的手机里,完全离线还一分钱不收。酷狗最新发布的 jamming 四开源模型彻底点燃了 ai 社区,发布仅仅一周,下载量破千万, jamming 系列累计下载更是突破了惊人的五亿次,直接霸榜哈根 face。 大家都知道大模型好用,但高大上的背后是极其苛刻的部署门槛。想要在本地跑起一个顶尖的 ai, 往往需要几万甚至几十万的算力硬件。但 jm 四完美解决了这个问题,它基于 jm 三技术构建,提供了从二 b 到三十一 b 的 四种规格,最小的二 b 模型在普通手机上就能流畅运行。 推的再神不如实测。今天咱们选举两大对标模型开展同标准横向测试,一个是同参数级别的开源顶流千万三点五,另一个是 google 自家的闭源王牌 jimmy 三点一 pro。 我 们会从代码生成、逻辑推理、长上下文、多轮对话、勾模态能力这四大核心维度逐一实测, 客观还原 demo 四的真实效果。识字前,我们需要先把 demo 四部署到你的设备里。这次我整理了一套完整的全平台部署方案,电脑端覆盖 windows、 macos 和 linux, 移动端支持安卓和 ios, 全程零门槛操作。 由于时间关系,本次我会选用其中一种方式给大家做完整的演示操作。首先我们打开浏览器,进入 lm studio 官方网站,软件会自动适配对应的操作系统,不用我们手动区分。点击登录的下载官方安装包, 安装完成后,打开软件,点击左侧的设置按钮,在搜索框输入扎马四,选择你要体验的模型,点击下载按钮,可以实时查看下载进度。下载完成后,点击左侧的菜单按钮,就可以在对话框输入需求和模型对话了。 维度一,代码生成能力。这次给三个模型的提示词很明确,写一个单文件的 html 页面,还提了波利尼泰风格、实时状态栏、终端打字机效果这些具体需求。咱们看一下生成的具体效果。 首先出场的是 demo 四,可以看到指令遵循度不错,但是视觉风格毛不易的效果感觉没有体现出来,运行之后也没有终止能力。接下来看千万三点五,逻辑和交互做的很棒,增加了终止能力,但是日制中默认输出的是英文,和我给出的样例不太一致。最后是 demo 三点一 pro, 看起来略优于前两者,指令遵循完成度最高。对比下来给我感觉是 demo 三点一 pro 大 于千万三点五,约等于 demo 四。 维度二,逻辑推理能力。这次我们用了一道经典商业推理题,很多人会算成亏一百一或者一百八,特别容易踩坑。从最终结果来看,三个模型都答对了,没有出现逻辑翻车的情况。但是从理解角度来看,我个人排序是 java 三点一 pro 大 于 java 四大于千万三点五。 维度三,长文本多轮对话能力。这次我们给三个模型同步上传了同一份三千字左右的产品需求文档,通过联系多轮的细节追问,实测他们对长文本的精准理解能力,以及上下文的记忆留存能力。 多轮对话测下来,三个模型的上下文记忆能力都在线,但长文本理解提炼能力的差距很明显。同一个提炼项目核心目标的问题, them 的 三点一 pro 做了规整的整合总结,核心信息零丢失千万三点五只做了原文罗列,没有提炼整合。 them 四表现相对最差,直接丢失了生态对接、商业化铺垫两项关键指标。在长文本多轮对话这个维度,我个人给出的排序是, them 的 三点一 pro 大 于千万,三点五大于 them 四。 关于 jm 四的多模态能力,我们在手机和电脑端都做了本地部署实测,最终的运行效果确实不太理想,所以这里就不给大家展示具体的测试效果,也没有做横向对比的必要。 当然,我们也要客观看待。作为一款小参数的开源模型, jm 四在其他维度的表现已经完全超出了预期, 可圈可点。但回归到实际日常使用,如果大家没有极致的本地数据安全隐私需求,也不需要根据自己的需求定制专属功能, 日常使用完全可以使用豆包、 deepsea 这类成熟的免费 ai 工具,体验会更流畅省心。看完整个测试过程,你有什么想法都可以在评论区聊聊,咱们下期见, goodbye!

这几天的一个大新闻就是 google dmind 发布了新一代的开源模型伽马 four。 上一代的伽马 three 呢,是去年三月份发布的,有一年多时间, 所以呢, google 呢,可能是每年发布一次,但每次呢做的也都很不错。这次呢,伽马 four 呢,是以中小型模型为主,主要呢是二 b、 四 b, 二十六 b 和三十一 b, 覆盖场景呢,包含了很多的应用场景,包括类似手机的二 b 的 模型,应该手机上就可以运转起来,许可证呢也由原来自己的 google 自有协议改成了 party。 大家友好分享一下你们的几个数据啊,就是三二一 b 的是一个 dance 模型,就是一个重叠模型,六十层二百五十六 k 的 上下文,在艾瑞纳 ai 开源网站上排名第三,未量化的 b fold 十六权重一张八十 g, 现存的 h 一 百就能装下。量化后呢,应该是可以放在最小的模型,比如说 rts 模型上面,二 二十六 b 的 a 四 b m o e 模型,这个很有意思啊,它的总参数更少的情况下,它是 m o e, 每次计数参数呢是在四 b 三十层,二百五十六 k 的 双亚纹,推进速度极快,接近四 b 模型,因为它是 m o e 嘛,质量呢远超过四 b 模型,含量榜呢排第六位。这个三十一 b 跟二十六 b 虽然是一个第三一个第六,但是因为它的模型参数很小,应该算是同尺寸的第一了。 前面几名呢,我看了一下,都是纤维三点五 d, c r e g m 五,这几个呢,都是很大参数的模型,最小的也是纤维三点五的两百多 b 的 接近十倍以上的参数的模型,所以伽马坐到这个位置,其实是在同一参数领域绝对领先的。剩下的模型就是 e four b 跟 e two b, 分 别呢,是一个八 b 跟五点一 b 的 总参数的模型,这个参数一个是在四点五 b, 一个是二点三 b。 最后来说,我觉得这两个模型呢,其实是应该用了大规模的电流跟压缩,它的整个参数的设置呢,也不是很常规的设置方式。 所有模型呢,都支持多模态,就图片和视频的输入支持一百四十多种语言,那这成绩也是非常斐然的,至少呢,比上一代的伽马三二十七 b 多项指标都是代系级级别的提升。这个是八 b 小 模型呢,也是比上一代的去年的二十七 b 的 模型会更好。从这个 a m e 到 cutforce, 再到综合推理的 g p q a, 常设二文的 m r c r 多元的区块 m l u 都是。目前看来呢,这个指标呢,从三十 b 上下的小模型层面呢,已经是非常优质的一个基模了。四款模型呢,都内置了可开关的思考模式, 支持 a 阵工作流,支持代码生成多模态理解,可以理解呢,就是这个模型的大概率就是从 jimmy 三或者三点一这样的 pro plus 模型,再这样做小模型。那我分享一下 google 为什么要开源自己的小模型。 首先呢,市场竞争是非常激烈,自从上一代的 jimmy 三和 nata pro 出来之后呢, google 也有差不多小半年时间没有声音了。而对于市场的情况来看呢,一个大的趋势就是大模型像小模型震流,尤其是在三十倍左右的一个 swisseball, 这款模型呢,应该去承载的是绝大部分的推理的需求, 有些复杂的问题呢,才会到一百多笔甚至千多笔的模型,谷歌呢,也是希望建立自己的生态,通过用自己的弱模型遮住小模型呢,去抢占这份上分。有点像小米手机,有了小米以外,虽然已经很便宜了,但是也要出红米, 因为它要规避被一些更小的模型,性价比更高的模型去抢占这个上份额。而这部分呢,国产模型呢,其实做的是非常强的。第二个逻辑呢,就是谷歌呢,其实跟这些模型公司呢,还是不太一样的,无论是谷歌还是 mad 还是字节,我觉得至少呢,谷歌呢看的战略看的很清楚, 可能不是所有蛋糕都要吃,但是呢,谷歌的主营业务就是包括搜索在内的一系列的生态的方案,所以他在大模型领域呢,不极致扩大自己的利润, 需要争取自己的生态位,反而是让那些只有模型的公司呢,它的价值受到些疏松。所以呢,谷歌也有很大的动力去开源模型。背后逻辑呢,跟之前的阿里巴巴逻辑是一样,只不过呢,因为阿里的战略呢,更加的迁移到了应用的模型侧,所以呢,选择了更少的开源,那从这个领域来说呢,谷歌呢,也有可能会替代阿里巴巴未来的开源模型的生态位。

谷歌此次打破常规,全新开源大模型 jimmy 一 经发布便震撼业界,自初代 jimmy 上线,全网累计下载量超四千万次,开发者生态中衍生变体版本超十万个, 热度持续高涨。 jimmy 备受关注,关键在于继承谷歌最强 jimmy 三底层核心技术,且首次采用 ipad 二点零协议,完全开源,学术研究与商业项目均可免费授权。 谷歌此次推出四款不同参数模型,包含端侧小型号到高性能大尺寸,包括 e 二 b、 e 四 b 二六 b 级性能最强的三一 b 密集模型。该模型全家桶能覆盖所有硬件场景,全系列支持本地离线运行,无需网络。 相较于上一代肩马四堪称无短版的全能选手,多模态能力大幅提升。四款型号均支持图文处理, e 二 b 和 e 四 b 还支持语音识别,全系内置思考链条模式,逻辑能力显著增强,其记忆能力出色。 二六 b 和三 e b 大 模型支持二五六 k 超长上下文窗口,小模型标配一百二十八 k 上下文窗口原声,支持超一百四十种语言,性能表现超预期。三 e b 参数模型在 arduino ai 排行榜冲进全球开源模型前三、二六 b 模型或第六名, 虽参数规模小却跑出高性能。可将本地运行的键盘式接入 continue 本地模式,或搭配欧乐马、 open i i y b i cloud 九等工具, 打造免费、无使用限制且保障数据安全的本地代码助手,实现科技普惠。欢迎在评论区分享你期望本地设备中 ai 助手具备的功能。

开发者和程序员狂喜!谷歌四月正式发布全新开源 ai 模型杰玛四, 代码生成,逻辑推理能力直接拉满,而且完全免费商用!谷歌发布了杰玛系列的全新开源大模型,杰玛四分为四 b 和八 b 两个版本,不仅在逻辑推理、代码生成、数学计算等核心能力上全面超越上一代版本, 性能对标行业顶级的闭源模型,而且完全免费开源,个人和企业都有免费使用,二次修改,甚至可以商用。 对个人开发者、小公司来说,这相当于直接拿到了谷歌顶级的 ai 技术,不用再花大价钱训练模型,就能做出自己的 ai 产品。 开源和闭源的竞争已经成为 ai 行业的核心主线,以 open ai 为代表的闭源阵营,靠顶级性能收费,而以谷歌美塔为代表的开源阵营,靠免费开放技术抢占市场份额,吸引开发者。 而这场竞争的最大赢家就是我们普通人和中小公司,我们能免费用到越来越强的 ai 模型,彻底打破了巨头的技术垄断。给大家两个建议,第一,如果你是程序员、 个人开发者,立刻去体验吉马仕,用它来提升你的开发效率,甚至基于他开发属于自己的 ai 产品插件,抓住 ai 开源的红利。 第二,如果你是普通职场人,多关注基于杰玛斯开发的各类 ai 办公工具,这些工具大多免费,功能强,能帮助你大幅度提升工作效率。你平时用的最多的开源 ai 模型是哪一个呢?我是 eric, ai 实时资讯与你分享,拜拜!


二零二六年四月三日凌晨, google deepmind 无预警甩出 jam 四全系开源模型,这场突袭不是常规迭代, 而是用架构重构、协议松绑,端云一体三重杀招彻底终结,开源 ai 的 参数均被禁赛。三一 b 筹密版跻身全球开源前三, 性能碾压餐数量二十倍的巨无霸二六 b 默推理仅激活三十八亿参数,速度看齐小模型,站立直逼闭源。更关键的是, ip 二零彻底解绑商业手机离线跑全功能 agent 成为现实。 当效率取代参数成为核心标志,开源 ai 的 韩武器正式到来。 jm 四并接低参数的内卷路线,以稠密末双架构 pl 一 每层嵌入 共享 kv 缓存、原生 agent 四大核心创新,实现性能与效率的双重突破,覆盖从边缘端到服务器全场景。一、旗舰稠密版三 e b ds 以小博大登顶开园前三,作为 jam 四家族的战力担当,三 e b dance 采用全机活稠密架构,六十层深度搭配两百五十六 k 超长上下文,在 erina ai 开园榜稳居第三,实现小参数吊打大模型的颠覆性表现。数学能力 a i m e 二零二六,准确率八十九百分之二,超越多数百亿级模型编程实力 live code bench 得分百分之八十,对标币原代码模型 通用基准 m m l u 得分百分之八十八点四,多模态理解能力拉满,部署优势,单卡 h 一 零零即可全量运行,算力消耗降低百分之二十, 企业微调成本直接腰斩。二、高效木板二十六 b a 四 b 速度与站立的平衡惯二六 b a 四 b 采用混合专家架构,总参数两百五十二亿, 推理时仅激活三十八亿。参数一百二十八,专家中激活八专家加一共享 l 评分一四四一,位列开元第六,颜值表现接近四 b, 小 模型,推理速度提升百分之四十,性能底线,数学准确率百分之八十八点三, 兼顾效率与能力,场景适配 api 服务,实时交互、轻量化部署的性价比首选三,端侧轻量版 e 二 b e 四 b 本地 ai 的 终极答案。针对移动端 i o t、 车载等边缘场景推出的 e 二 b、 e 四 b, 通过 pl 一 每层切入技术压缩有效参数,实现端测流线推理。一二 b 总参数五十一亿,有效激活二十三亿,支持一二八 k 上下文。一四 b 总参数八十亿,有效激活四十五亿,算力消耗降低百分之六十。模态能力新增原声音频输入, 支持文本、图像、音符多模态交互落地,突破安卓手机树莓派,可流畅运行离线 ai, 从概念变量场四原生 agent 能力, 开箱即用的任务型 ai jama 四,将 function calling system shrunk 多步推理念作为标配,天生为智能体设计, 无需二次模改即可实现规划执行到观察闭环,低代码就能搭建企业及工作流, 让 ai 从聊天转向干活。潜在 gemma 的 自有协议成为企业商用的枷锁,而 gemma 四直接切换 ipr 零开源协议,完成从开放权重到真正开源的蜕变。无用途限制,个人商业私有化部署群兼容无法务成本,可自由修改分发再许可 专利授权明确生态释放疑托四亿下载十万加遍体的社区基础,快速构建全场景生态,这是谷歌对开源社区的彻底妥协,也是对米特莱玛 国产开源阵营的正面先战。开发者终于可以无门槛使用谷歌旗舰技术。杰玛斯的突袭,打出三个不可逆的行业趋势,彻底改写开源 ai 的 发展逻辑。一、 参数为王,时代终结,效率成为核心标尺。三、 e d 模型打印二十倍参数量具不罢证明架构效率、参数堆砌。后续开源模型将全面转向小而强算力、成本、推理速度、部署门 槛取代参数量,成为衡量模型价值的核心指标。二、本地 ai 从 demo 变量产隐私场景迎来合规底座当测离线运行 数据不出设备,让金融、医疗、政务、车载等高敏感场景拥有了隐私合规的 ai 基座。离线语音、离线文档分析、离线智能体不再是实验室噱头。 三、 agent 延伸重构应用层 ai 进入干活时代,延伸工具调用常上下文多步推理能力,让企业级 agent 落地门槛大幅降低, ai 应用从对话交互 转向任务执行流程自动化,智能体普及率将迎来爆发式增长。 g m 四,以强性能加真开源加全场景覆盖,补齐谷歌开源战略的最后一块拼图,全球开源 ai 格局正式定型,谷歌 g m 四, 技术均衡、许可友好端于一体。米特拉玛生态成熟,落地广泛,社区基数大,国产开源长文本代码、多模态各有所长。对开发者而言,选择更多、成本更低。 对企业而言,私有化、可控、合规成为标配。对赛道而言,边缘垄断被进一步虚弱,开源成为 ai 基建主流。 gemma 四的突袭本质是 deepmind 将 gemini 旗舰技术下放开源,用效率、许可、部署三重优势重新定义开源规则,三 e b 登顶开源前三支是表象。 真正的价值在于, ai 不 必堆到千亿万亿小模型,也能有大智慧,不必依赖终端本地,也能有顶级智能,不必受限协议,商业可以放心创新。接下来半年, gemma 四的微调量化蒸馏 区块一体将迎来爆发式增长。参数竞赛的落幕,正是效率革命的开端开言, ai 已进入真正的寒武纪,每一个开发者、每一家企业,都能在这场变格中找到属于自己的机会。

你有没有算过一笔账,你每个月交的 ai 订阅费,交出去的每一分钱,都是在帮别人训练一个永远不属于你的模型。你以为你在使用工具,其实你在给他们打工,你贡献创意,提供数据,培养算法,最后还要按月付费才能继续使用,这可能是二十一世纪最精妙的商业模式,当用户一边生产价值, 心甘情愿交钱,直到有人捅破了这张窗户纸,他就是 simon defilution, 他 不搞会员体系,不玩内测资格,甚至不需要联网。他只做了一件事,把一些本该属于咱们人类 ai 视觉能力, 从巨头的服务器里,全部搬到塞到你那台普通的电脑里。同时你不用再为每一次领养付费,不用再担心下个月涨价,不用再纠结这张图到底归谁开源免费, 你的创意第一次真正的属于了你自己。咱们视频内所有素材,包括整套格式库以及呢各种模型插件,我全部打包好了,感兴趣的点个六。那下载完之后呢,我们来解压一下安装包, 然后直接右键啊,解压我们当前所在的文件夹,这个文件夹我不建议大家是中文啊,解压完成之后呢,不需要安装任何东西啊,我们找到第一个 粉色的一个小图标啊,双击打开启动器,可以进入到启动器的界面,在左下角呢,会有一个标示启动器的版本。我们再点一下一键启动按钮了,因为是第一次启动,所以需要等几分钟来进行部署。好,我们耐心等一下就好了。然后我们进入 s g 的 一个操作界面,如果把它比作房子的话呢,这个界面算做毛坯房,因为只有一个模型,什么也做不了。 那么这个时候呢,我也精心的给大家整理好,并放置了各类型最常用并且很多的一个模型到整合包。我们只需要啊, 在模型的中文备注里直接预览图一起整理放好啊,只需要你在 sd 的 操作界面上,直接就能看清模型的样图和中文的名称, 就不会和别人的一样,只显示一串英文代码,风格根本就分不清,看着就图大啊。我这枚小红包呢,不仅包括了 s 一 大模型,还有 low 二模型等等,这样直接拿来用就可以了啊,这种 s 一 不香吗?只是稍微有点大啊,但是呢,这些都是入门必备的了。

大家好,芝麻团队的 olivia 介绍,自从推出初代模型以来,开发者社区的爆发力彻底震撼,谷歌超过四亿次的惊人下载量诞生了十万多个衍生版本。为了回应大家的期待,今天 google 宣布 jamas 正式发布。 最重磅的王炸是这套基于最顶级的 jamas 三技术打造的模型,不仅能直接在你的手机笔记本上本地运行, 更是史无前例地采用了完全开源的 apache 二点零协议。谷歌这次是真的把底层核心武器彻底交给了全人类 gm。 二四是专为智能体 agent 时代量身定制的,它不再是个简单的对话模型,而是能处理复杂逻辑、多步规划和完整的智能体工作流。 它的大魔星版本拥有高达二十五万 tokens 的 超大上下文窗口,你可以直接把一整套庞大的代码库丢给它,分析或者执行超长对话的智能体任务。它还原生支持工具调用 to use, 这意味着你能用它直接构建出可以替你规划并亲自采取行动的超级管家。原生支持工具调用和二十五万超长上下文。 这意味着詹马斯把过去只有云端闭源巨头才有的统帅能力,直接无缝下放到了你的个人电脑里。接下来看看他硬核的模型家族阵容。 首先是二六 b 两百六十亿参数的混合专家模型 m o e 三十一 b 的 重密模型战士, 他们能让你的个人电脑瞬间爆发出前沿级的 ai 智能。最重要的是隐私,绝对安全,你可以在完全本地受控的环境下跑最顶级的推理和写代码任务,一行数据都不用上传云端, 其中激活参数仅三点八 b 的 二六 b m o e 模型运行速度快的惊人,而三 e b 模型则将最终的输出质量拿到了极致。 在数据隐私比金子还贵的今天,断网可用且极度聪明的本地大模型,将成为企业打破云端算力霸权、保护核心商业机密的最强护城河。如果你需要极低的内存占用,我们还准备了高效的二 b 和四 b 模型, 他们把全新的智能水平硬生生塞进了手机和互联网 iot 设备里。不仅如此,他们还支持音频和视觉的实时多模态处理,让设备能真正看到和听到真实世界,并远声支持超过一百四十种语言。 就像我们在演示里测试的这个高效二 b 模型,我用法语对他说,能在旧金山找一家法国餐厅吗?请用英语回答我。 他不仅瞬间听懂了跨语言的复杂指令,还直接给出了完美的英文答案。小模型的视觉与语音双重加持,预示着未来的万物互联不再是冷冰冰的联网,而是每一台冰箱、手表甚至路灯,都将拥有独立的视听感知与思考灵魂。 最后,当开源模型逐渐成为所有企业基础设施的核心时,安全性就是绝对的生命线。有 google deepmind 研发的 jsm 四,经历了与谷歌内部闭源模型完全相同、极其严苛的安全审查协议,为企业和开发者提供了最值得信赖的基石。 现在你就可以随时下载 jsm 的 模型权重,用你熟悉和喜爱的工具立刻开始实验了。我们迫不及待想看到你们用它创造出什么惊艳的未来。

公主,你现在看到的就是谷歌最强的开源模型加码四,可以看图,能听音频,也有不错的推理机制,最重要的是完全免费,给我几分钟,从零开始,将加码四部署在自己的电脑上。我们直接开始 先花一分钟和大家聊一下贾马四是什么?它是谷歌刚发布的开源 ai 模型,跟商业版的怎么奈同根同源,你可以理解为谷歌把自家最强的 ai 技术浓缩成了一个免费的版本,直接送给你用。 那么它好在哪里呢?三个点。第一,多模态,不只是聊天机器人,你可以发图片让他看,发音频给他听,还能写代码。 我们可以看看这张表格,横轴是模型的参数体量,而纵轴就是性能表现。贾马四以满血版的性能表现和千万的三百九十七 b 的 模型能力基本持平,关键在于它的体量只有千万的十分之一,这真的非常夸张。 第二,完全免费,不用充会员,不按 token 收费,并且可以商用,你可以模改它做成各种有意思的本地模型,拿去做产品也没有任何的问题。第三,隐私安全,因为跑在你自己的电脑上,所有的数据都不会出,你的电脑拿它处理合同,财务,私人物件,不用去担心泄露。 ok, 我 们直接动手。你现在只需要打开一个浏览器,然后把它放到全屏上,直接官网上搜索欧拉玛点 com 啊,然后这个东西就出来了。然后你只要点击整个画面的一个右上角 download, 看到没有?然后你可以选择你是 mac os 系统还是 linux 还是 windows, 我是 mac os, 那 你就直接点击这个 download from mac os, 然后我们就可以看到这个画面上的右上角应该是会有个下载的链接, 然后等它下载好就可以了,因为我这边其实已经安装好了吗?那么我这边的最终的一个输出效果的话,大概是在这里。你们下载完了之后,打开你们的桌面上的欧拉玛,你们看到的应该是现在这样子的一个画面,那就说明你已经安装成功。 佳马仕一共有四个版本,你可以根据你的电脑配置进行模型的选择,模型的能力越强,所需要的配置就越高。对于内存小于三十二 g 的 玩家,我建议大家直接安装一四 b, 三十二 g 及其以上,可以试试看二十六 b 和三十一 b 的 参数量, 其实这两者模型的能力大通小异,如果你是为了极致的精度,可以选择三十一 b, 但是在我看来,二十六 b 呢,其实是一个非常甜点的位置,达到了速度和精度的一个平衡。如果你不知道你的电脑内存是多少,这里针对 mac 用户,你可以选择终端输入这行命令。 而 windows 用户你可以点击 win 加 r, 点击回车,召唤出来你的终端以后,然后再输入这个命令,也可以显示出你的内存。选择好对应的模型,我们只需要打开终端,和刚刚一样的步骤,根据模型输入指令直接回车即可。等待模型下载好,打开你的 oala, 选择模型就可以开始了。 ok, 我 们打开我们欧曼的软件,你点击这里,然后往下滑,你就可以看到你刚刚已经安装好的这个佳马仕。我们来问他一个很有逻,就是说很有那个逻辑陷阱的一个问题,就是我今天要去洗车,但是只有一百米,你觉得我是走路去还是开车去? ok, 我 们来看一下他的一个答复是怎么样子。 这是一个非常有意思的一个逻辑陷阱题,我们可以从不同的维度去分析。逻辑层面上来说,必须开车去, ok, 这一点已经很棒了啊。 那如果说是从脑筋急转弯角度上来说,他说如果你走路去,那么你是在散步,而不是在洗车。哦,也就是说他分为了三个维度,一个是脑筋急转弯,一个是实用主义层面,还有个就是逻辑层面。我们来看一下他这个佳马仕的这个逻辑能力。哎,你还真别说这小参数,但他的表现还是不错的。 那么 jamas 它的一个很大的优点就在于它其实是支持这个多模态的。我们来不妨给他上传张图片,我们来看一下。 ok, 那 么我们上传一张什么图片呢?哎,上传张这个图片,你们看怎么样啊?就是这是一朵花,然后有个太阳,有一本书,我们来让他看看。我说,啊,描述一下, 描述一下这个图片,我们来看看他的多模态识别能力怎么样?说实话,本地具有多模态识别能力的模型,而且是能够你自己去模改的,其实并不是很多。我们来看一下。 ok, 一, jeff 二,然后 jeff 三,给了几个他看到的一些画面。好,我看他现在在思考和输出。这张画面充满了诗意,唯美且带一丝忧伤。 画面主体是一本翻开的书籍。哎,确实是对的,背景与中景是一个画面,然后呢,躺着一只洁白的玫瑰,然后背景是有一个夕阳,散发出这个温暖的金橙色光芒,哎呦,很不错,你们发现没有,是不是很棒?就是说他好像 表达的还是很到位的,但是因为呃,我其实本来还是想测一下这个关于音频识别和这个视频识别的,因为这个佳马仕它也是支持视频识别的, 但是因为欧拉玛官方不太支持,所以大家可以自己去谷歌 as do do 上面去玩一玩。所以总的来说,其实通过这么两个比较简单的测试,它当然不够严谨,而我觉得感受来说的话,这个香奈儿丝还是 真的是能够在本地帮我们处理一些比较复杂的一些任务的,就是在文字层面以及去多模态识别能力上来说,是一个比较抗打的模型。 看到这里相信你一定会明白, olama 本身是一个模型管理器,你当然也可以不用贾马四,你可以选择开源的 deep stick, 千问等等,其他的开源模型还是同样的命令,一键配置就可以了。 本地捕鼠的最大优点就是保护你的隐私,模型的使用不会受到任何的限制,同时也可以支持模型的微调,让它更合你的口味。下期我打算教大家小白如何从零到一,微调自己的本地模型,感兴趣的可以点个关注,我们下期再见。

谷歌这次彻底掀桌子了,全新开源大模型伽马四震撼发布!要知道,自从初代伽马发布以来,全网累计下载量已经突破了惊人的四亿次,开发者生态里涌现了超十万个衍生遍体, 这热度直接拉满!为什么要激动?因为伽马四直接继承了谷歌最强老大哥 jimmy 三的底层核心技术, 更狠的是,它首次升级为 a p 七二点零协议纯正开源。这意味着,无论你是搞科研,还是直接拿来商业变现,统统免费授权。这波属于是对开发者贴脸送福利了。 这次谷歌一口气端出了四款不同尺寸的模型,从小杯到超大杯,分别是一二 b、 e 四 b、 二六 b 谋架构和最强的三一 b 密级模型。 这意味着,无论是直接塞进手机进行轻量化的端侧推理,还是在专业设备上进行满血的算力输出,这套全家桶不仅实现了全硬件覆盖, 而且全系支持完全断网的本地离线运行。相比上一代, jam 四直接进化成了全能六边形战士。首先是多模态大爆发, 四款型号全系精通图文双修,其中 e 二 b 和 e 四 b 这两款小模型更绝,甚至长了耳朵能直接听懂你的语音。最离谱的是,这次 jam 四全系内置了硬核的思考模式,遇到复杂问题,他不再是瞎给答案, 而是像人一样一步步推理打草稿,逻辑能力直线飙升。其次是超强记忆力,二六 b 和三一 b 这两款大模型支持高达两百五十六 k 的 超长上下文,吃透几十万字的长篇文档跟玩一样。 即便是两款端侧小模型,也标配了一百二十八 k 的 超大窗口,再加上它原声支持超过一百四十种语言,咱们中文用户用起来简直不要太丝滑。 更恐怖的是他的跃级战斗力!在权威的 irina ai 排行榜上,三一 b 模型直接杀入全球开源模型前三,二六 b 拿下第六,这是什么概念? 他们直接把一重体量是自己十几二十倍的老牌开源巨无霸按在地上摩擦,完美权势。什么叫四两拨千斤?你可以直接把本地跑起来的 jam 四无缝接入到 continue 酷士的本地模式里,或者配合咱们常用的小龙虾、 openclo 以及 cloudco 等工具来使用。用奥拉玛提供底层算力,用这些可视化界面和智能体框架发号施令,瞬间就能为你打造出一个真正免费、不限量 且绝对保护私有代码资产的本地最强代码外挂。把最强的 ai 塞进每个人的口袋,随时随地帮你写代码做分析,这才是真正的科技屏权。如果是你最想在本地设备里装一个什么类型的 ai 助理呢?来评论区聊聊。