粉丝1759获赞3913

谷歌最新开源的大模型 demo four 据说很强,在综合能力上甚至超越了二十倍规模的开源模型。 今天教大家如何快速部署在本地,以及分享一下在 mac mini 上的实际体验感受,具体感受什么样?大家看视频吧。首先打开欧拉玛官网,下载它的应用程序, 打开应用程序,我们看一下他目前支持的一些免费的开源模型,还没有 demo, 所以 我们需要去他的官网再去下载下载到本地。那么这里呢,有很多不同的型号 可以看一下,它有很多不同参数的型号,有满配的,还有一些轻量版的。那因为我这个是 mac mini m 四十六 g 版本,所以我们就选择它系统默认推荐的这个九点六 g 的 好,只需要复制这个指令,然后打开终端运行,它就会自动去下载 这里下载了。那么我们先测试一下, 测试一下他的回复速度,因为是第一次响应,所以速度会有点慢,然后我们打开活动监视器,看一下他占据内存的情况, 这个模型本身就有实际系统走内存差不多也跑满了,这里他已经有回应了,我继续再测试一条, 第二次响应速度要比第一次快很多, 我叫 jam 四,我是一个由谷歌 deepmind 开发的。 ok, 现在我们打开欧了吗?然后去加载一下,这里要重启一下这个程序,然后再看模型选择,里面 最下面就已经有了已经安装好的,现在我们把这个模型对接到本地的小龙虾,只需要复制这个指令,打开终端,在终端里面运行,它就自动会加载好, 这里有不同的模型选择,都是他支持的一些免费的大模型,我们选择 demo 让他去运行。 ok, 这里已经加载好了,测试一下他的响应速度。 这里我是放了八倍速了,说实话,因为实在是太慢了,他平均回复一个问题的速度差不多要两分钟, 非常非常慢。我本来想在这个小龙虾里面测试一下他的执行任务的能力,但是这个速度的话确实没有办法, 但是它有个好处啊,如果你有低血压的话,你就可以用它。我是动物城朱迪警官,你好吗?我过得还好,不错,谢谢。这里我甚至尝试开启快速模式, 但是实际的感受没什么变化,就还是那么慢, 所以只能放弃在这里面做测试了。那么我们还是回到欧乐玛,在这个软件里面测试一下这个模型本来的能力。这里给他放两张图,让他识别一下图先, 一个是标格,一个是周杰伦,看一下他能不能准确的识别。 这里我也是开了倍速的啊,但是这里的速度要比小龙虾里面快很多, 我给他给出的答案是,图二是陈坤,图一是一名中国艺人, 看来这个版本的模型识图能力还是有点差。接下来测试一道经典的陷阱题啊,这个对大模型来讲是一道陷阱题,很多大模型都倒在了这道题上面, 那么他给的建议是走路去,最后测试一下他的复杂推理能力, 这道题是我让 gbt 五点四给我出的一道推理题。 abc 三人中恰好有一人是骗子,永远说假话,另外两人永远说真话。他们各自说了一句话, a 说 b 是 骗子, b 说 c 是 骗子, c 说 a 和 b 至少有一个是骗子, 请问谁是骗子?给出答案,并且给出完整的推理过程。好,他给出的推理过程和答案我跟 gpt 五点四给的标准答案对比了一下,是一样的, 所以它的复杂推理能力还是可以的。 ok, 总结一下实际体验感受啊,你如果是 mac mini m 四十六 g 版本,虽然能运行,但是它会把你的内存拉满,就是你的电脑会一直处于满负荷的状态,而且响应速度也很慢,所以使用感受是很差的。 当然,如果你的电脑配置足够高的话,你是可以去尝试部署在本地的,因为它的响应速度肯定要比我这个要快很多。而且你还可以尝试去部署它的满配版,比如三十 e b 那 个版本, 能力应该是要比这个强不少。

谷歌刚发布了王炸级别的开源大模型 g m 四,本视频将为你带来详细的评测。本次的 g m 四最大的杀手锏是彻底转向了 ipad 二点零纯开源协议,这意味着他终于解除了之前的法务紧箍咒,开发者可以闭眼商用。虽然三十一 d 模型在 reno ai 榜单上拿到了开源第三, 但回归到真实场景,它的表现其实是一把极其锋利的双刃剑,评价非常两极分化。首先看旗舰级的三十一 bance 模型,它的编程能力非常惊艳,实测写 html 界面,排版精美,在 levelbench 拿到了百分之八十的高分,达到了专业程序员的指令水平。 而且它的 token 效率极高,平均消耗只有 coin 三点五的百分之六十五,非常适合需要反复调用、在意成本的本地 agent 工作流。 但它的偏科非常严重,数学精度不足,简单的运算经常出错,尤其是在处理信息密度大的长文本时,很容易产生幻觉,而且在开启慢思考模式后,偶尔会陷入死循环,无法跳出。接下来是性价比极高的二十六 b m o e 模型, 这款模型是本地二十四 g 显存用户的福音,虽然总参数有二十五点二 b, 但推理时仅激活三点八 b 参数,这意味着你只需要十六到十八 g b 的 显存就能跑起四 b 的 量化版,而且速度极快,实测能达到每秒六十个 token, 非常适合那些需要塞入臃肿系统提示词的 a 帧子应用。不过这款模型的评价极其割裂,虽然有人觉得它实用,但也有开发者直言它在中文写作和逻辑推理上,灌水严重, 被戏称为数字干水制造器。最后是端侧的小杯模型 e 四 b 和 e 二 b。 它最大的亮点在于原声支持最高三十秒的音频输入,这意味着你不需要外挂 s r 语音转文字模型,英文转写效果几乎完美,是做本地语音助手的绝佳选择。但它的视觉能力简直是灾难, 面对简单的发票截图或手机截图,文字提取错漏百出,甚至连最简单的网页自动化操作第一步都会报错。在视觉理解这个维度上,它被 q n 三点五的九 b 模型按在地上摩擦。 那么在实际选择时,如果你需要构建本地的高频 agent 循环照用,且对 token 预算和响应延迟要求极高,那么二十六 b m o e 是 首选。 如果你想打造纯离线的语音交互设备,直接用 e 四 b 即可。当然,如果你最看重的是开源协议,需要变商用 jamas 的 pitch 二点零协议就是最大的优势。 相反,如果你需要一个强悍且稳定的综合小尺寸模型, q n 三点五的九 b 版本在综合能力上是碾压 e 四 b 的。 另外,如果你依赖高精度的数学计算 o c r 文字识别,并且要求极低的幻觉率,或者需要一个更成熟的生态和丰富的尺寸矩阵,那么 canon 三点五会是更稳妥的选择。在底层架构上,简码四引入了两项黑科技, 第一是 pl e 逐层嵌入,这是小模型专享的,它不再把所有信息在初识阶段一次性打包,而是在每一层都生成专属信号, 本质上是用额外的算力换取存储空间,增强表达力。第二是混合注意力机制,它采用了五层滑动窗口和一层全局注意力交替的结构,配合双 o p e 配置,直接将上下文处理能力拉升到了二五六 k。 针对硬件部署,这里给一套基于 ansel 和 m c p p 的 建议。如果你只有八 gb 显存,勉强能跑 e 二 b 或 e 四 b, 但只能做简单的摘药或语音识别,千万不要尝试复杂的视觉理解或长代码分析。二到十六 gb 显存是 e 四 b 的 舒适区, 也可以尝试二十六 b m o e 的 重读量化版。而如果你拥有二十四 g b 显存,强烈推荐跑二十六 b a 四 b m o e, 这是目前最有限势意义的型号,能同时兼顾二五六 k 的 长上下文和高效的吞吐量。 最后,分享两个长文本推理的闭坑技巧。如果你在进行存文字的长上下文推理,建议在辣妈 c p p 中直接关闭微震视觉功能,这样可以节约大量显存。 另外,面对复杂任务时,可以通过 a p i 动态调整 thinking budget, 也就是思考预算,防止模型陷入无限思考的死循环,导致机器直接卡死。

谷歌终于坐不住了,正式卷开源市场, jm 四的效果到底如何呢? jm 四的发布啊,真的有可能让我们实现头很自由。这期视频呢,老张给大家简要介绍一下 jm 四怎么安装到本地,以及如何搭配到我们的 open klo 大 龙虾上, 附带所有的安装步骤啊,大家可以一起来体验一下。后续呢,老张也会根据测评效果给大家接着发视频,这期是我们完整的部署流程,老张重点给大家简单聊一下,就是为什么 jm 四的发布啊,会让大家感觉谷歌真的开始卷起来了呢? 首先第一点,他和目前谷歌的 jimmy 三用的是相同的技术基座啊,所以说他的能力是毋庸置疑的。第二点就是商业自由,你直接部署下来做什么都是可以的,都是允许的。然后第三个就是支持多模态,无论是文本、图像甚至小规模的视频音频, 他都可以直接支持。第四点就是结合前段时间爆火的 open klo, 他 可以直接在本地对接 open klo 以及对接 klo 的 code, 实现本地的偷根无线化。这是老张给大家总结的四点,为什么詹姆斯的发布会让大家感觉,哎,可能真的要进入到一个新的纪元, 然后呢,他所发布的这四款模型呢?老张给大家做了一张图片啊,大家可以到时候把它截下来。第一个模型一二 b 的, 他本身是用于手机或者边缘设备八 g 显存, 然后最高端的三十一 b, 他 所对应的旗舰版本呢,是对应的是二十四 g 加,所以大家根据你的需求来进行对应的模型选择。老张这次视频呢给大家来看一下三十一 b 的 这款模型的安装, 然后关于本地的安装部署啊,其实非常简单,任何开源模型,其实我们只需要让他和欧拉玛就是那个小羊驼结合到一起就可以了,然后找到你符合要求的版本。安装成功之后啊,欧拉玛现在已经有了一个完整的应用端了,所以大家可以直接在这个位置和他进行对话交流。 那我们想要下载 jm 四到你本地的电脑上,我们可以使用它的官方指令,会告诉我们直接怎么样去进行 jm 四的对应安装,像老张想安这个三十一 b 的 对吧?我们就把它拿过来, 把它直接这有一个 c l i 命令行安装方式,把这个东西直接复制在你的开始菜单中,单机右键选择运行输入 cmd, 直接把刚才指令粘贴过来,这儿的时间会很长,因为它有二十个 g 的 大小,我们直接稍作等待 安装成功之后,我们也可以直接回到它的客户端中,在模型选项上找到我们安装好的詹姆斯冒号三十一币, 然后可以直接进行对话。老张他处理一个较为复杂的提示词,我们让他看一下当前显存的内存消耗, 咱们拿这个 ai 慢距的提示词来测试啊,这个提示词非常的长,我们看一下他读取提示词的能力,以及他的这个显卡的性能消耗,我们看一下啊,这个显存直接拉满的,达到了百分之九十四的占比, 而且这个响应速度还是非常快的,只需十一点七秒啊,就把整体的业务流程给我们直接补齐了,而且呢按照需求给我们进行了对应的提问,要什么样的慢距效果,所以说以目前的测试反应来看呢,他的这个响应速度起码要比之前的很多大模型要好的多, 所以接下来我们自己来尝试一下对话类的工具,可能大家都不是很需要的,我们能不能把它接入到我们的 open clone, 丢到我们的龙虾里,让它们俩来进行联动的。然后这期视频呢,老张顺便给大家提一下,就是最新版的 open clone 的 部署流程 啊,咱们可以快速的去过一下一些重点的细节,因为之前老张发过很多期的部署视频一块的呢,因为它本身啊, wsl 它是相当于在 windows 系统上安装一个 linux 的 独立系统, 这样的话呢,就直接相当于在你电脑上安装了一个独立的存储空间,它所谓叫做沙盒安全,而且运行起来呢是不会有任何的兼容性的对应问题的,因为 windows 中啊,它的权限呐,路径等经常会报错。所以说我们这 期视频重点教大家怎么用 wsl 进行 win opencl 的 部署安装,这样的话, windows 和 wsl 的 安装您都了解之后之后学起来就非常方便了。 然后接下来呢,老张给大家简单的介绍一下在 wsl 中如何安装我们的 openclaw, 因为之前呢,咱们介绍过太多次了,很多兄弟留言说老张就别介绍怎么安装了,然后我们就给大家简单说一下注意事 项。首先第一呢,你想在 wsl 上安装 openclaw 的 话,第一点你得先在你的 windows 系统下把 wsl 安装一下,当然很多电脑老张发现其实都是自带的, 怎么检查是否自带呢?咱们可以直接输入 wsl 空格杠杠威森,如果弹出定的版本号,证明 wsl 电脑已经安装了,如果没有弹出的话,使用安装指令 wsl 空格 insert 直接安装即可。然后紧接着按照老张给你提供的指令复制粘贴就可以了。先安装你的优班图, 安装之后进行一下更新。安装完优班图之后啊,在这选择这个倒三角,找到优班图系统,就可以直接进入到你的优班图系统当中。 在你安装过程中啊,它会让你设置一个用户名和密码,到时候可能需要做一步密码验证。在优班图系统中,注意是优班图系统中运行这些环境指令,分别安装 python 三,安装一个压缩包工具,方便安装一个 node 点 ps, 然后再安装一个 get 工具。 如果说为了检测每一步安装是否成功的话,你可以分别输入,比如 note 杠 v、 npm 杠 v, 包括 get 杠 v, 在 这检测我们对应的这个版本。如果都能弹出版本号,证明你三项安装都是成功的,这是配置 openclo 的 基本的内容要求。 然后紧接着我们把基本环境配置好的兄弟,你还需要在这个位置安装一下这个欧拉玛。 这老张要重点说一下,说老张我不在本地都已经下载好欧拉玛了吗?为什么在优班图里还需要再配置一下?其实我们优班图中是可以调用本地的欧拉玛的,但是很多兄弟在调用过程中分别给老张留言说说调用时无论是 ip 地址找不到,还是 ip 的 动态变化,导致每次都需要重新连接,重新配置。 所以说最简单的方式就是把欧拉玛在你的优班图系统中再次的安装一遍。其实安装非常简单,只需要把第一步的安装指令复制过去,直接在这个位置直接粘贴即可。安装成功的检测方式很简单,你就输入欧拉玛, 如果他不报错还给我们对应的选项,是咱们是进行对话呀,还是怎么样的证明你的安装就是成功的? ctrl c 直接退出。 所以说欧拉玛安装之后,紧接着就是把我们的模型在当前的优班图中跑起来。老张刚才给大家测试的是 jm 四三十一 b 模型,我们直接输入指令欧拉玛空格 run, 然后你的模型效果直接回车,第一次时他会直接进行对应的模型下载。如果说你现在只想用 open klo 来调用欧拉玛的这个占四的话,可以在我们的本地电脑上把之前咱们那个桌面端给他 删掉,如果说你不你想两端都使用的话,就可以直接在这个位置进行使用了,然后发一个你好看一下响应速度, 嗯,响应速度是非常快的,所以接下来我们把这个家伙欧拉玛的詹姆士直接部署给我们的 openclo, 在 这怎么中止对话,摁一下 ctrl c, 再摁一下 ctrl d 啊,就可以直接进行中止对话了啊,所以说大家可以直接的把它退出来, 退出来之后我们在这儿部署一下 openclo。 关于 openclo 的 安装呢,官网推荐是使用 c o r l 这种安装方法,但是老张发现很多兄弟在使用这种安装方式时呢, 出现了这个网络问题,导致下载出现卡顿,如果说 c u i l 的 方法报错的话,直接使用 n p m 安装也是完全可以的,安装完之后直接输入 open klo 空格杠 v 来输出最新的 open klo 的 对应版本啊,这就是老张跟大家说的一些建议啊,大家按照这个要求去做就行了。 然后接下来我们进入到配置,直接是直接输入它的配置指令回车,选择 yes, 然后选择快速开始就可以,我们直接配置一下模型, 然后选择更新,这选择谁呢?选择这个欧拉玛啊,然后选择默认的这个 ul, 选择本地模型,让他去给我找一下咱们本地有哪些模型,稍作等待 好,选择当前的这个模型,咱们四三十一币,然后配置我们的聊天软件啊,这个老张之前讲过太多太多次了,现在呢,他又支持了很多,包括 qq 之类的,大家有需要的话可以按照之前老张的教程再来一遍,我们先跳过 打开之后啊,就可以直接对话。但是如果说善于观察的兄弟们也发现了,老张呢把这个使用模型呢换成了这个一四 b 的 模型,不是那个三十一 b 的, 因为三十一 b 呢,老张在测试的时候也好,或者在一些使用时候也好,他有的时候会出现这个连接超时的问题,也是 oppo klo 更新到最新版本出现了一个能启动问题, 这个呢,老张现在还没有特别好的解决方案,所以说我先用一次必得给大家进行演示,发一个,你好,我们来测试一下他的响应速度啊,还是比较快的。 然后接下来呢,我们再把之前的那个慢句的提示词发送过来,我们来看一下他能不能更好的帮我们去进行慢句提示词的对应理解,以及对应的相关反馈。 嗯,其实我们看到啊,他反馈的这个结果呢,和三十一 b 相比啊,真的是有一定差距的,但是呢,确实也是另一方面实现了我们所谓的叫偷根自由。 大家呢也可以后续啊,去测试一下怎么让本地如果你的显卡够用的话,把这个大模型给它跑起来。然后老张呢也会及时给大家更新,无论是在评论区中还是视频中教大家如何使用。我是程学老张,定期分享 ai 好 用知识,希望大家多多关注。


今天给大家带来手机本地部署大模型,无需网络支持 ios, 安卓无需特殊网络环境。当然了,今天部署的是谷歌最新发布的模型,小模型的性能大家都懂得,娃娃可以正当生产力,还需要等待发展一段时间,和电脑的本地部署是一个道理。 那么我们先进入 ios 的 教程其实非常非常简单。首先先进 app store 下载如图的应用 google ai edge gallery, 安装好之后,我们直接打开进入 ai 对 话, 会发现我们首次运行的时候会让你下载模型,因为我手上的这台设备是 iphone 十五 plus, 因此我选择下载这个折中的它推荐的二点五 g 的 模型, 等待它下载完成之后,我们可以和它对话看看。这个时候我进入飞行模式,把网络给关掉,它是完全本机运行的,会发现我们已经可以和它对话了,只不过在运行的过程中,它可能有点微微发热。当然了,小模型的智商就是这样,和它进行一些简单的对话是可以的。 那么接下来我们进入安卓的部分,然后我拿来做演示的这台手机是荣耀八零二, 在国产的安卓机上,我们有两种安装方式,第一是通过 apk, 也就是安装包进行下载,第二种方式就是你需要一些手段,对吧?上网的手段,然后进谷歌商店里进行下载,下载好打开之后和 ios 里的使用是一样的,我们首次进入的时候,点击下载模型,同样还是这个二点五 g 的, 然后就可以和他进行对话,我们可以问两个问题来看看效果,嗯,就比如说我离加油站五百米,我是应该开车去还是走路去看看他怎么回答? 最后我们就会发现没有说必须开车去,对吧?去加油站。所以说小模型的这个智商这一块肯定是和 ap 还远远比不了, 但是这也代表着这给我们一种可能性,随着科技的发展,模型的发展以及手机硬件性能的发展,拥有一台纯本地部署的 ai 助手将成为可能。那我们今天教程就到这里,非常简单,我们下期再见。

大家好,本期内容我来分享如何在本地部署谷歌新开源的多模态 ai 模型代码四,我会分享命令行和格式化界面两种安装方案,零基础也能轻松搞定。 最后我还会教你如何修改部署的路径,彻底解决大模型占用 c 盘的问题。本地部署的优势就是你的数据可以完全保存在自己的电脑上,隐私安全有保障,而且支持模型微调, 可以打造专属的 ai 助手。但是他也是有缺点的,就是我们需要稍微懂一些技术,还有就是硬件的支撑,如果电脑配置高,自己可以部署折腾一下。有了本期视频,就算你不懂技术,跟着视频操作也可以部署成功。 本期演示我只分享入门版本,主要就是参考部署的方法和流程。接下来我手把手带大家用欧拉玛一键部署。 首先我们先来了解一下 jam 四到底是什么,它是谷歌新发布的开源多模态的 ai 模型,与 jimmy nay 是 同源的。 简单来说,谷歌就是把自家的 ai 技术打包成了一个免费开源的版本,让每个人都能用上。它的能力是非常全面的,支持文本交互、图像识别、音频处理,还能生成代码, 基本上覆盖了所有的 ai 应用场景。下面我们再来看一下它的核心优势。核心优势它有三个,第一个就是多模态能力,文本、图像、音频代码,一个模型全部搞定。 第二个就是完全免费,它没有会员订阅,没有暗次收费,可以随便的去使用,甚至用它去开发商业化的产品。第三个就是比较重要的隐私安全保障,本地部署模式下,所有的数据处理都在自己的设备上完成, 敏感信息不会上传到云端,这是三大核心优势,就是在我们安装之前,需要我们了解一下这个安装环境。首先系统兼容性 demo, 四是支持 mac os、 linux、 windows 三大主流操作系统,基本上覆盖了绝大多数的用户。 然后就是内存要求,如果你的电脑小于三十二 gb, 推荐安装四 b 版本,自己安装体验折腾一下就可以。如果你的内存达到或超过了三十二 gb, 那 就可以选择二十六 g 或三十一 g 的 版本。 在这里有一个小提醒,就是如果是 mac 电脑 m 系列的芯片,它的显存和内存是合二为一的,大家直接看内存就可以。如果大家不是 mac 电脑,比如 windows 或者 linux, 那 么就优先看显存,显存不够再看内存,这是关于这个配置的查看。像这个本地部署也非常简单,仅需两个步骤即可完成。第一个就是安装欧拉玛,这个欧拉玛就可以理解为是本地大模型的一个容器, 它是装大模型的,有了它才可以运行。第二步就是我们容器安装好之后,我们需要给它把模型放进去,就是部署模型,两个步骤即可搞定。下面我们直接进入实操环节,我们来一起看一下部署的全部流程。 在这里第一步我们就先要有这个欧拉玛,他是一个大模型的容器,就是我们打开之后选择右上角的 download, 这时候我们就需要选择匹配自己系统的版本,在这里我这是 windows, 然后我们选择 download for windows, 在这里选择 download for windows 之后就会弹出窗口,我们选择路径直接保存就可以,当下载好之后,然后我们就安装即可,安装好之后打开就是这样的主界面,这个是我之前安装的版本,部署着一个一点五 b 的 zip, 然后下一步就需要我们去选择大模型,我们还来到刚刚乌拉玛的这个界面,在这里我们选择左上角的 models, 然 然后在这里我们可以看到该马四,然后我们选择进来,它提供了好多个版本,在这里我就选择一个入门的版本,主要就是演示安装的流程,比如我们选择 e 二 b, 然后我们选择,这时候我们就看到了这个安装命令,选择右边的这个两个方框,然后选择 copy, 然后下一步 我们就按键盘上的 windows 加 r 键,这时候出现运行窗口,然后在这里面输入 cmd, 然后直接回车, 回车之后就出现了这个命令窗口,然后我们刚刚复制了直接鼠标的右键,可以看一下,这个命令就粘贴过来了,然后我们直接 回车好了,这时候它就开始部署到本地了,在这里我们需要等待一段时间,好可以看一下出现了 success 这个提示,就证明安装成功了。现在我们在这里可以直接和它对话,比如我们输入你好当前什么模型,然后我们发送 可以看一下,他现在回复我们了,我是一个大语言模型,我叫 jama 四,这时候我们就在本地已经部署成功了, 然后我们再回到欧拉玛的客户端,在这里在这个对话窗口右下角这里,这里可以选择模型,然后我们找到刚刚部署到本地的 jama 模型好了,这时候就切换好了。同样在这里我们也可以直接和他对话,比如我们输入你好,然后发送, 这时候他就回复我们了,你好,很高兴和你交流,请问有什么帮助到你的?到这里我们就已经部署成功了。前面我们分享的是使用命令行 c l i 模式去部署,其实还有一个简变的方法, 在这里我们还可以选择模型后面对应的这个按钮,也是可以直接部署的,这个是非常方便的。好,最后我再分享一个大家比较关心的问题,就是我如何设置这个本地模型的一个部署路径, 在这里我们也不用去改环境变量了,这个客户端是直接支持的,我们选择左上角的设置,然后在这里选择这个 model location, 在 这里我们就可以去设置模型的一个保存路径,在这里大家自己设置就可以,是非常方便的。 好,下面我这里演示的是上传了一张图片,就让他识别这张图片,我们一起来看一下他给我们的结果,好了可以看一下,我们给了他一张图片,我们问他这是张什么图片,他给我们的回复, 这是一张符号或者是图标,然后他还分析了主要包含的元素,还有用途预测等等,能够精准的识别内容,并生成详细的描述, 表现还是可以的。好了,现在我们本地部署成功了,然后刚刚我们也做了一个功能测试,第一个就是我们和他对话,就是文字处理,第二个测试的就是这个图像识别,他也是可以精准识别的, 他虽然是多模态的,但是目前我们用的这个容器不支持多模态的输入,我们暂未测试音频和视频的识别。好,最后我再补充两个细节,就是第一个欧拉玛的拓展性他是非常强的,除了可以部署这个 demo 四, 还支持比如通用签问或者是 deepsafe 等众多的开源模型,部署方法也是完全一样的,一条命令就能去部署。第二个就是本地部署的真正价值不仅仅是隐私保护,更重要的是支持模型微调, 可以用自己的数据去训练模型,打造一个完全专属的 ai 助手。好了,这就是我们本地部署的所有内容,大家感兴趣的可以自己折腾一下,探索更多的玩法。好了,我们本期内容分享就到这里,可以留下你的想法,我们下期再见。

就在刚刚,谷歌直接往开源社区扔了一颗核弹,发布了 jam 四,而且给了一个史无前例最最宽容的开源协议。另一边呢,编程神器 cursor 三迎来大更新,直接让你化身赛博包工头! 最离谱的是啥?小扎的 met 因为自家新模型难产,急的内部竟然讨论要去租谷歌的模型来凑数。 今天这期视频,咱就以第一视角硬核拆解这波疯狂的 ai 大 乱斗。首先咱来聊聊谷歌这次的掀桌子操作。谷歌刚刚发布了 gemma 四家族,从二十亿参数一路杀到三百一十亿参数, 大家要知道,这些模型可是直接从他们压箱底的 gemini 身上扒下来的核心技术啊!但我跟你讲,这次最炸裂的根本不是啥跑分,而是它的开源协议!谷歌这次史无前例地采用了 apache 二点零协议, 这意味着什么?意味着你可以完全拿去免费商用,随便改代码,甚至部署在你公司内网里,都没人管你,没有任何霸王条款。谷歌向来是个闭源狂魔,这次突然这么大方,绝对是被咱们中国开源模型比如阿里月之暗面给逼急了。 中国模型在开源社区疯狂抢地盘,谷歌一看情况不对,直接摊牌,我也不设限了,大家赶紧来用我的吧! 回到模型本身,谷歌这次主打把小模型压榨到极致,它的三十一 b 版本在 arena ai 开元榜单直接杀到了第三名,还在高难度的 g p q a 科学推理测试中拿下了百分之八十五点七的高分。 而那些二 b、 四 b 的 小模型,不仅能直接在手机或树莓派上跑,还原声,支持本地音频输入,以后你的手机不用联网,本地 ai 就 能听懂你说话。我觉得这绝对是端测 ai 的 未来。 看完谷歌,咱们再来看看程序员的最爱 cursor 三。以前我们用 ai 写代码,就像在带一个实习生,得一次聊一个任务。但 cursor 三彻底进入了多智能体 multi agent 时代。 这代表什么?代表你现在升级成包工头了,你可以同时开好几个 ai 智能体并行工作,一号 ai 去修 bug, 二号 ai 去写测试代码,三号 ai 去尝试一种全新的架构。 它还加入了 worktree 指令,用来隔离任务以及 bestof 指令,让多个模型出方案给你挑。不仅如此,它现在还支持远程 ssh 和云端环境。 我的感受是, curser 三已经不再是一个简简单单的代码辅助机器人,他直接变成了一个拥有多名 ai 员工的完整工作空间,以后一个人就是一支外包团队。 接下来的这条信息就非常有意思了。最近有人在 madata 内部挖出了他们正在秘密测试的用来接班拉玛寺的一系列隐藏模型,代号叫 avocado、 牛油果和 pericado, 其中有个多模态版本,甚至能在测试里画出一只骑自行车的提护。 听起来很厉害,但是据爆料称, avocado 本来打算在三月就发布的,结果硬生生被推迟到了二零二六年五月。原因非常有意思,内部测试发现它根本打不过现在的顶级竞争对手。 最让人震惊的是,有传言说 mate 内部因为压力太大,甚至讨论过要不要暂时授权使用谷歌的 gemini 模型来顶一阵子,这就好比可口可乐卖断货了,跑去问百事可乐借糖浆。 这也侧面印证了一个观点,现在的 ai 赛道极其残酷,连市值五万亿的巨头都在背后疯狂冒冷汗,稍不留神就会掉队。 好吧,这几个重磅更新,彻底印证了 ai 战局已经从谁的模型最大,变成了谁的生态最开放,谁最能落地。通过谷歌这次的更新,你觉得未来全面开源的模型能干翻闭源模型吗?

酷狗发布的 jamax 家族这次把本地部署的门槛彻底拉低了,它包含了从高性能工作站到边缘 iot 设备的四款模型,不仅原生支持图文视频多模态理解,还拥有最高二五六 k 的 超长上下文。 最关键的是,全系全面转向了 h 二点零协议商用,完全没有后顾之忧。首先来看这个家族的扛把子三十一 b 电子版本,它采用全密集架构,三百一十亿参数在推理时全部激活, 这意味着它拥有该系列最强的逻辑能力和输出质量。如果你手里有八十 g 显存的 h 幺零零或者多张消费基显卡组基群,且对结果的精准度有极致要求,选这款就对了。 接下来是性价比最高的二十六 b m o e 版本,这里要重点解释一下混合专家架构的优势。虽然它的总餐数量有二十六 b, 但单次推理时系统只会激活其中三点八 b 的 参数,这种机制在保证智商的同时提高了每秒的吞吐量。 对于大多数本地桌面用户来说,这款模型在响应速度和性能之间达到了完美的平衡。针对手机和 l t 设备, google 推出了 e 四 b 和 e 二 b 两款端侧模型。这里引入了一个关键的 pl e 单层嵌入表技术,简单来说就是让大体级的磁表在查找时不全面参与常规计算,从而大幅降低内存占用。 一四 b 有 四点五 b 有 效参数,适合树莓派或 jason, 而一二 b 只有二点三 b 可以 直接跑在手机上,让端测 ai agent 成为可能。最后总结一下全系列的通用能力, 在上下文长度上,大模型支持二五六 k, 小 模型也达到了幺二八 k, 足以处理超长文档。再加上原生的图文视频理解能力,让它在实际应用场景中非常灵活。 在实际性能测试中, jam 四三十一币的表现非常强悍,尤其在 g p q a diamond 科学推理测试中,拿到了百分之八十五点七的高分, 但更核心的竞争力在于它的 token 效率。同样,一个任务竞品可能需要一百五十万个以上的 token 才能说清楚,而 jam 四只需要一百二十万个,这意味着它说话废话更少,逻辑更直接,在实际部署时能显著降低推理成本。 如果把它和国产明星 q n 三点五二十七 b 放在一起对比,你会发现一个有趣的现象,在一些细分的工具调用跑分上, q n 确实略占上风, 但在基于人类真实偏好的 rena a i yellow 评分中,两者几乎打平。这说明在实际的人机交互体感上, g m 四三十一 b 已经达到了顶尖水平。很多人好奇为什么价格没怎么变,性能却原地起飞? 其实拆解底层代码会发现,它依然沿用了 paperstorm g q a 以及局部全局混合注意力机制。这次性能的飞跃完全不是靠改架构,而是归功于训练数据的质量飞跃和训练配方的深度优化。这再次证明了在当前大中型阶段,高质量的数据才是真正的核心竞争力。 现在进入实操环节,如果你追求极致简单,首选奥拉玛。首先把版本升级到零点二零以上,然后直接在终端输入命令,想要轻量化测试,就运行一二 b 版本。如果追求性能和速度的平衡,强烈推荐运行二十六 b 版本。 对于 macm 系列芯片用户, m l x 框架配合 turboq 是 史诗级加强,它通过压缩 kb 缓存,直接把内存占用,从十三点三 gb 砍到了四点九 gb, 整整节省了百分之六十三的空间。 具体的部署命令就在屏幕上,这里有一个关键的权衡,开启这个优化后,解码速度会慢一点五倍,但它能让你在 mac 上跑满幺二八 k 的 长上下文。对于处理长文档来说,这个招牌绝对稳赚不赔。 如果你是显存困难户或者即刻玩家,可以尝试 einslof 和拉玛 cpp, 只用 einslof 量化,只要六 gb 显存就能跑起一二 b 或一四 b, 甚至能构建支持网页搜索的本地 agent。 而如果你有三张四千零九十并行二十六 b m o e 版本的速度能达到惊人的每秒一百六十二个头啃。此外,通过实验性的 turbo quant plus 分 支,能把三十一 b 模型的体积从三十 g b 强行压到十八点九 g b, 让大模型在消费级显卡上跑起来。 最后是企业级生产环境,建议直接使用 v l l m, 它原生支持多模态输入和二五六 k 的 高吞吐量,并且完美兼容多卡并发。 开发者在实测中发现, v i l l l 搭配最新版的 transformers cool, 可以 非常稳定地调用 jam 四的工具接口,适合构建大规模的商业应用。在部署之前,有几个坑必须提前告知。首先是模态缺失,虽然官方宣传支持音频, 在目前音频输入请在 google ai studio 线上可用,所有的本地框架都还没适配。其次是稳定性问题,如果你使用 l m studio 运行三十一 bit n s 的 g g u f 版本,可能会遇到死循环输出的 bug, 建议等待社区修复。最后是能力边界,在处理复杂的函数调用时, e 二 b 和 e 四 b 这类小模型的表现不如同级别的竞品复杂任务建议直接上二十六 b 或三十一 b 版本。最后根据你的设备和需求 直接看这个部署。建议企业商用直接选 jam 四 high party 二点零协议让你没有任何法务后顾之忧。个人 pc 或游戏本用户强烈推荐二十六 b m o e 版本,单卡四千零九十就能跑通超长上下文,且响应极快。 mac 开发者请认准 mlx 框架,记得开启 turboqant 来解放统一内存。至于 i o t 创客 e 二 b 和 e 四 b 证明了六 gb 内存也能跑起。智能 agent 是 端侧智能的最佳选择。

公主,你现在看到的就是谷歌最强的开源模型加码四,可以看图,能听音频,也有不错的推理机制,最重要的是完全免费,给我几分钟,从零开始,将加码四部署在自己的电脑上。我们直接开始 先花一分钟和大家聊一下贾马四是什么?它是谷歌刚发布的开源 ai 模型,跟商业版的怎么奈同根同源,你可以理解为谷歌把自家最强的 ai 技术浓缩成了一个免费的版本,直接送给你用。 那么它好在哪里呢?三个点。第一,多模态,不只是聊天机器人,你可以发图片让他看,发音频给他听,还能写代码。 我们可以看看这张表格,横轴是模型的参数体量,而纵轴就是性能表现。贾马四以满血版的性能表现和千万的三百九十七 b 的 模型能力基本持平,关键在于它的体量只有千万的十分之一,这真的非常夸张。 第二,完全免费,不用充会员,不按 token 收费,并且可以商用,你可以模改它做成各种有意思的本地模型,拿去做产品也没有任何的问题。第三,隐私安全,因为跑在你自己的电脑上,所有的数据都不会出,你的电脑拿它处理合同,财务,私人物件,不用去担心泄露。 ok, 我 们直接动手。你现在只需要打开一个浏览器,然后把它放到全屏上,直接官网上搜索欧拉玛点 com 啊,然后这个东西就出来了。然后你只要点击整个画面的一个右上角 download, 看到没有?然后你可以选择你是 mac os 系统还是 linux 还是 windows, 我是 mac os, 那 你就直接点击这个 download from mac os, 然后我们就可以看到这个画面上的右上角应该是会有个下载的链接, 然后等它下载好就可以了,因为我这边其实已经安装好了吗?那么我这边的最终的一个输出效果的话,大概是在这里。你们下载完了之后,打开你们的桌面上的欧拉玛,你们看到的应该是现在这样子的一个画面,那就说明你已经安装成功。 佳马仕一共有四个版本,你可以根据你的电脑配置进行模型的选择,模型的能力越强,所需要的配置就越高。对于内存小于三十二 g 的 玩家,我建议大家直接安装一四 b, 三十二 g 及其以上,可以试试看二十六 b 和三十一 b 的 参数量, 其实这两者模型的能力大通小异,如果你是为了极致的精度,可以选择三十一 b, 但是在我看来,二十六 b 呢,其实是一个非常甜点的位置,达到了速度和精度的一个平衡。如果你不知道你的电脑内存是多少,这里针对 mac 用户,你可以选择终端输入这行命令。 而 windows 用户你可以点击 win 加 r, 点击回车,召唤出来你的终端以后,然后再输入这个命令,也可以显示出你的内存。选择好对应的模型,我们只需要打开终端,和刚刚一样的步骤,根据模型输入指令直接回车即可。等待模型下载好,打开你的 oala, 选择模型就可以开始了。 ok, 我 们打开我们欧曼的软件,你点击这里,然后往下滑,你就可以看到你刚刚已经安装好的这个佳马仕。我们来问他一个很有逻,就是说很有那个逻辑陷阱的一个问题,就是我今天要去洗车,但是只有一百米,你觉得我是走路去还是开车去? ok, 我 们来看一下他的一个答复是怎么样子。 这是一个非常有意思的一个逻辑陷阱题,我们可以从不同的维度去分析。逻辑层面上来说,必须开车去, ok, 这一点已经很棒了啊。 那如果说是从脑筋急转弯角度上来说,他说如果你走路去,那么你是在散步,而不是在洗车。哦,也就是说他分为了三个维度,一个是脑筋急转弯,一个是实用主义层面,还有个就是逻辑层面。我们来看一下他这个佳马仕的这个逻辑能力。哎,你还真别说这小参数,但他的表现还是不错的。 那么 jamas 它的一个很大的优点就在于它其实是支持这个多模态的。我们来不妨给他上传张图片,我们来看一下。 ok, 那 么我们上传一张什么图片呢?哎,上传张这个图片,你们看怎么样啊?就是这是一朵花,然后有个太阳,有一本书,我们来让他看看。我说,啊,描述一下, 描述一下这个图片,我们来看看他的多模态识别能力怎么样?说实话,本地具有多模态识别能力的模型,而且是能够你自己去模改的,其实并不是很多。我们来看一下。 ok, 一, jeff 二,然后 jeff 三,给了几个他看到的一些画面。好,我看他现在在思考和输出。这张画面充满了诗意,唯美且带一丝忧伤。 画面主体是一本翻开的书籍。哎,确实是对的,背景与中景是一个画面,然后呢,躺着一只洁白的玫瑰,然后背景是有一个夕阳,散发出这个温暖的金橙色光芒,哎呦,很不错,你们发现没有,是不是很棒?就是说他好像 表达的还是很到位的,但是因为呃,我其实本来还是想测一下这个关于音频识别和这个视频识别的,因为这个佳马仕它也是支持视频识别的, 但是因为欧拉玛官方不太支持,所以大家可以自己去谷歌 as do do 上面去玩一玩。所以总的来说,其实通过这么两个比较简单的测试,它当然不够严谨,而我觉得感受来说的话,这个香奈儿丝还是 真的是能够在本地帮我们处理一些比较复杂的一些任务的,就是在文字层面以及去多模态识别能力上来说,是一个比较抗打的模型。 看到这里相信你一定会明白, olama 本身是一个模型管理器,你当然也可以不用贾马四,你可以选择开源的 deep stick, 千问等等,其他的开源模型还是同样的命令,一键配置就可以了。 本地捕鼠的最大优点就是保护你的隐私,模型的使用不会受到任何的限制,同时也可以支持模型的微调,让它更合你的口味。下期我打算教大家小白如何从零到一,微调自己的本地模型,感兴趣的可以点个关注,我们下期再见。

大家好,今天来给大家实测一下,把 jam 四部署到手机上,到底能实现些什么?视频内容有点多,感兴趣的可以慢慢看完。首先是 ai 聊天,我先把手机切到飞行模式,全程离线使用,可以看到我问他能做什么,他回复的很流畅,反应速度也很快,注意回复这里我全程无加速。 然后是图片识别功能,我随手拍一张照片,问他看到了什么,他能很精准的识别出画面里的细节,解析的特别清楚。还有这个手机指令控制,我直接语音说在地图里找到北京,他立刻就能理解我的意思,自动打开地图应用。虽然现在没网加载不出来, 但整个指令识别和调用应用的过程都是在本地完成的,体验很惊艳。唯一不足的是他听不懂中文,只能英文沟通。还有这个小花园互动游戏, 我说在八号坑种植物,它就能听懂并执行操作说明模型,对自然语言的理解和交互能力都很强。这里依旧听不懂中文,只能英文沟通。最后是提示词工具箱,不管是改写文案、总结文本,还是写代码, 离线状态下都能直接生成,非常方便。整体体验下来, jam 四把 ai 能力真正做到了手机端本地化,不用联网,隐私性更好,功能也足够实用,未来手机端 ai 的 体验真的会越来越强。

昨天,谷歌发布了迄今为止最强大的 gemma 四本地大模型系列,让众多本地 l l m 爱好者欣喜若狂。 特别令人兴奋的是, gemma 四基于 gemini 三技术开发,根据公布的基准测试结果,其性能甚至超越了规模高达其二十倍的竞争对手。但抛开所有技术细节这些,我稍后会讲到。此次发布中最引人注目的它是 apache 二点零。 看起来谷歌终于听起了开元社区的呼声。如今, game 四已完全开放,允许商用的 app 二点零许可证发布了。 这意味着你可以用这个模型做几乎你想做的任何事情,完全自由,不受公司绑定,对您的数据和产品拥有绝对控制权。今天我要在我的笔记本上安装并测试这个模型,可能还会在台式机上试一下,看看它是否足够好,能作为我的主要本地模型使用。 但有个重要说明,我不是想用这个替代付费模型。我把詹姆斯视为对付费模型的补充,适用于不太复杂的任务,或我不希望数据离开本机的情形。嗨,我是 nick, 从事软件开发已超过二十年, 在这个频道,我分享自己在 it 领域的经验、见解与思考。所以,为了今天在我的电脑上运行 jm 四,我将使用 lm studio。 如果你还没用过这个工具,看看我频道上的视频,里面解释了这是什么,以及如何使用它。 好的,首先,我会尝试在我的 macbook 上安装这个模型,因为正如我所说,我希望它能随时可用。不幸的是,我的 macbook 只有二十四 gb 内存,所以我会在那里安装一个较小版本的模型,参数规模为两百六十亿或三百一十亿的更大变体,我将安装在台式机上。 该模型有多个量化版本可供选择,我就选最大的那个,毕竟大小差异不大,但输出质量应该更好。 模型下载期间,让我先回顾一下谷歌在公告中强调的几个关键特性。首先,这些模型在设计之初就考虑到了基于智能体的工作流,他们原声支持函数调用,并能生成干净的结构化 g s o n。 第二,所有版本都是多模态的, 他们能处理图像和视频,而较小的模型一二 b 和一四 b 甚至拥有原声音频支持,这意味着他们可以直接理解语音。 第三,这些模型配备上下文窗口,小版本为十二万八千个 token, 大 版本则为二十五万六千个 token, 这应能让他们胜任大型代码库的处理。不过这一点还有待我们测试验证。 最后,作为一个不错的额外福利,这些模型支持多种语言。好了,模型下载完成了,让我们把它加载到内存里,我们也快速检查一下参数。正如我所说,我下载了八位量化版本,架构当然是 gemma 四。最重要的是该模型支持工具和图像输入。 正如你所见,这个模型拥有七十五亿参数,但只有四十亿有效参数,这应该能带来更好的性能。上下文窗口已设置为最大值幺二八零零零头啃,这很棒。好的切换到聊天界面,让我们确认已加载并激活正确的模型。 顺便提一下, lm studio 在 这里显示了一些有趣的信息,比如模型加载后实际占用了多少内存?正如你所见,对我来说大约是十二 gb。 在 聊天底部,你还可以看到在使用模型时可用的工具。 好的模型已成功加载,我们来测试一下它到底行不行。为此,我会在新的聊天中发送一个简单的提示。首先,我会让它完成一项相当简单的任务,编辑一个 python 函数,按两个键对字典列表进行排序。 这是我用来测试每个模型的标准化提示词。这相当基础,所以任何模型都应该能搞定。但这里的目的是验证模型是否正常工作,并看看他在我的硬件上想拥有多快。 我会加快视频中回答生成的速度,因为生成完整答案可能需要一些时间。但最后我会分享总耗时,这样你就能估算他在你的机器上跑的多快。 所以模型耗时不到一分钟。精确来说是四十九秒,平均速度约为每秒三十一个 token, 启动响应的延迟约四点五秒。 老师说这是个相当不错的结果。提醒你一下,我是在配备二十四 gb 内存和 m 四 pro 芯片的 macbook 上运行这个。现在我们来测试一下詹姆士处理图像的效果,看看他是否能真正理解图中的内容。 我会上传一张图片到聊天中,然后让模型描述他看到了什么。这是照片。如你所见,我拍了一张书桌的照片,上面有四样东西,键盘、 kindle、 鼠标和一支笔。让我们看看 gemma 能认出其中多少个 好的模型已完成图像分析。正如你所见,它成功识别出了键盘和鼠标。它还识别出了 kindle, 甚至描述了表面和光照情况。然而它没注意到那只笔。但说实话,这没什么大不了的,重要的是它捕捉到了整体场景,并正确识别出了大部分主要物体。 好的,现在轮到测试更大的模型了。为此,我将使用我的台式机快速介绍一下。我将运行 jam 四两百六十亿参数版本的机器配置。 它配备 amd ryzen 七处理器,一百二十八 gb 内存以及带有十六 gb 显存的 gforce rtx 四零六零钛显卡。好了,模型已启动并运行。让我们给它在 macbook 上执行和小模型相同的任务。 编写一个 python 函数来对字典列表进行排序。这将帮助我对比 jam 四第二十六版在我的台式机上的性能。在此,我会加速生成过程,但稍后会分享总耗时。 在生成回复的同时,看看系统覆盖。右上角我运行的是 mv top, 我 用它来监控 gpu 使用情况。深黄色线条显示显存使用情况,浅蓝色线条显示 gpu 利用率。右下角我运行了 hto p 来监控 cpu 覆盖和内存使用情况。 这两个工具都是免费且开源的。由于完整的 jam 四模型无法完全放入我的显存,因此它严重依赖 cpu 和系统视频内存。但这并不是真正的问题,关键在于响应速度是否可接受。 好了,模型已完成响应生成耗时一分三秒,比小模型稍慢一些,每秒 token 数也显著更低。正如你所见,它大约是每秒十二个 token, 那 比小模型慢了将近三倍。但这并非公平的直面对比。 由于这些模型的能力差异很大,不过现在我对这台电脑上这个模型的预期有了清晰的了解。顺便提一句,这台台式机运行的是 linux 系统,我偶尔用它来做些项目,但我很少把它当做传统台式机用。它主要是一台高性能服务器。 由于它连接到了我的家庭网络,当我需要时,通常可以从任何其他电脑通过 s s h 访问它。我用来与一切交互的主机依然是我的 macbook, 而且好处是你并不需要太多设置就能让它跑起来。厅 l m studio 已经内置了一个可以通过网络访问的 api。 好的,现在让我们切回 macbook, 给模型布置一个更有挑战性的任务。如果你看过我之前测试千三点五和千 code next 的 视频,可能会记得,我准备了一个任务文件,让模型去可示化一个排序算法。 今天让我们给 jama 司同一个任务。在生成回复的过程中,我再给你们看看系统赋载。这和以前差不多, 几乎所有 cpu 核心都已满载,现存也达到极限。好的模型完成了。正如所要求的,它生成了一个可示化排序过程的 html 文件。让我们看看。乍一看,一切看起来都正确无误。我没看出什么明显问题, 现在我要在浏览器中打开它,看看最终效果。哦,这看起来相当不错,它甚至使用了自定义字体,让我试着运行一下。没错,一切正常,速度滑快,可实时更新。动画 不错,总体而言非常扎实。所以今天测试完 demo 四系列后,我可以肯定的说,这些模型真的很棒,我肯定会经常使用它们。 但再次强调,为了明确起见,我并非打算用这个来替代付费模型,我把 demo 四视为付费模型的补充,适用于简单任务或我不希望数据离开本期的情形是,好了,今天就到这里,如果你喜欢这个视频,别忘了点赞订阅,以免错过下一个,回头见。保证。

不久前,谷歌发布了 jam 四系列,它不仅是一款开源模型,更是一次关于如何把超级大脑装进手机的工程奇迹。今天我们一起来看一下它是如何用不到四 g b 的 显存,跑出大模型的效果。 这里我们做了一个测试,使用三台手机在本地离线跑 jam 四 e 二 b, 屏幕上呈现的是这三台手机的测试数据,下面给大家看一下实际运行的情况。第一个加油问题, 第二个 g two 铜龙问题, 第三个字母出现次数问题。 可以发现,关于对常识的判断仍然是小模型的短板。然后这三台手机中, iqoo 十五的运行速度最快。 simon 四一共四款,覆盖从手机到工作站的所有场景。 a dos base 最轻量手机和树莓派都能跑,自带语音识别,量化后只要四 g 显存。 a, 跨出白瓷笔记本甜品级, 速度和能力之间的平衡点。二十六 b, 混合专家架构,总参数二五 b, 但每次只激活三点八 b, 用小模型的成本干大模型的活。最后是三 e b 单词,旗舰级模型,全参数推理,开源模型排行第三,适合有好显卡的用户。这里要讲一个关键的概念,单词和猫的区别, 单词密集型。你看屏幕上这些格子,全不在闪,因为每次推理所有参数都参与计算,三十一币就是三百一十亿次,运算一个不少。它的优点是稳,缺点是慢,而且吃显存。 切换 m o e 模式,注意看大部分格子暗了,只有几个在亮,这就是混合专家的精髓,模型里有一百二十八个专家,每次只派八个上场,剩下的待命。 最后说说它的边界,左边是强项,文档识别,发票解析,代码补全,长文档,问答 agent, 自动化任务,这些它都能做,而且跑在本地,意味着你的数据永远不用上传到别人的服务器。 右边是它的短板,如果你问它能否替代跨腾或 gpt, 答案显然是不行的,那能否进行高质量写作?这里我的回答是勉强可以,至于大规模的代码重构,那以它的能力还差得很远。 说白了, jam 四是一个极其出色的本地工具型 ai, 你 把它当高效工具用,它不会让你失望。如果你把它当全能大脑用,那你就会很失望。 想试的话,这里有两种方式,手机用户可以直接去 google 的 a i h gallery 上下载使用,电脑用户更简单,欧拉玛一键运行。下面我们来看如何用欧拉玛本地部署 jamal 四 e 四 b 模型,并使用 clogot 调用它。在 clogot 直接提问它是什么模型, 它是由谷歌训练的大语言模型,欧拉玛在首次请求时加载模型,加载耗时三十八秒,显存系统分配总计实际首先确保电脑上已经下载过欧拉玛,只需执行一行命令,欧拉玛 round gemma 四冒号意思币,等待模型下载完成,总计约九点六 g 币。成功后在终端测试。问答, 它是一个大语言模型,名字是 gemma 四,由 google deepmind 的 开发,属于一个开放权重模型系列。复制这个模型 id, 克隆项目源码, 进入项目目录,运行安装命令,下载完依赖后进入引导界面,颜色模式随便选。第四个是我们做的国产模型适配选择第三项,本地欧莱玛模型, 然后粘贴刚刚复制的模型 id 回车。确认到这一步配置成功。我们问个问题测试一下,现在已经调用成功已经登录的用户,想要切换模型,输入 logo, 退出登录,然后运行帮人 devi, 即可重新配置。我们最新版的 cloud code 已开源,大家关注评论获取。 目前呢,该模型权重在 hackin、 face 和 kaido 上都能下载。以上便是我对 gmail 四的实测解读,如果你觉得有用,不妨点个关注,我们下期再见。

一分钟让你搞清楚关于全球最强开源模型 jam 的 一切。最近谷歌开源了 jam 四,我将用四个问题 让你清晰了解关于 jam 的 一切。 jam 各版本的区别,我家的电脑能用吗?模型怎么部署安装?普通人用来干什么?先说他的四个版本,三一 b 直接冲上全球开源 ai 榜第三名,以前要机房才能跑的能力,现在你家里的高端游戏显卡就能搞定。 轻量版的一二 b 和一四 b 为手机、平板以及中低端电脑设备打造,性能虽不是最顶级,但是绝对好用够用。而二六 b 猫号称总参数两百六十亿,但实际每次思考只用其中三十八亿个,最相关的效果却能媲美两百六十亿, 能理解超长文章以及视频。简单说,无论你是用手机、笔记本还是高性能电脑, jam 四都能给你免费安全强大的顶级模型体验。再说你家里的设备是否能用上?一张图告诉你 jam 四个版本的最低要求。 对于多数人而言,家用的电脑设部署一二 b 一 四 b 完全够用,基本能满足百分之九十的使用场景。另外两个版本对内存要求较高,但是性能出众,属于好马配好鞍。 再说模型安装,整个过程大概十分钟左右。首先下载 lm studio, 然后打开 opencool 或者 id 工具,让它查找你本地配置,给你推荐安装哪个版本。之后在 lm studio 里下载,运行搜索推荐的模型名点下载,最后接入 opencool 或者 i d e l m studio, 提供 open ai 兼容 api, 在 open 框里把 api 地址改成, h t t p l o c a o s t colon twelve three four slash vivo 就 能用 jama 四驱动你的 ai agent 了。 网上攻略一大堆,这里就不展开了。最后说下所有人最关心的能用 jama 做什么?这里推荐三个场景,可以去试试。第一, 构建本地知识库,把工作和学习相关的文件丢给本地 jama, 让他帮你形成系统化的知识。构建个人知识库时进行向量缩影和 anitive, 解锁数据不出本地,安全合规。第二,给家人搭建一个 ai 助手,下载好模型,配个界面,电脑手机都可以直接对话,不花钱不泄露隐私。第三,内容创作 最大优点是无限额度,即便不如部分付费模型,但可以靠大量尝试提升优质内容的概率。千马寺会改写国内企业及政府客户的私部模型格局吗?欢迎在评论区发表你的观点。

好,大家好,我是小刘。呃,今天我们一起来看一下在 ktapp 上最近比较火的几个开源项目。在这几周里面,那首先第一个是我们昨天讲过的这个 hermes agent, 那 这个开源项目其实是一个自我进化的一个 agent, 呃,它主打一个可扩展,然后多带你开发工作流,现在已经目前从 openclaw 上全程迁到这边来了,就我自己使用的话,一般不再使用 openclaw 作为我的 agent 的 一个呃主要的工作方式。 那还有就是这个 open screen, 这个是一个那个录屏工具,就可以帮助你放大放小,就大家现在看到这种屏幕啊,放大放小啊,就使用这个开源项目啊,当然它也是呃开源的。 那第三个就是这个能够让你的这个 codex 呢,能够支持多个不同的那种角色嘛,就是,呃和那个监牢的 code 的 有点像,就那我今天给大家分享的是这个 这开源项目,这个开源项目在 get up 上目前收获了呃接近二十 k 的 star, 它是一个端测模型。啥意思啊?就是说你可以在你的手机上去跑各种各样的本地离线大模型。 好给大家举个例子,比如说我现在想在我的这种 iphone 上去跑模型,那这时候我直接可以把这个模型给它下到我手机上,这时候呢即使断网的情况下,它也可以通过这样的方式来去跑这个模型, 并且这个模型还是多模态的。啥意思?就是你发图片给他,他可以直接去理解这个图片,并且呢能把这图片的这个细节说出来,也就意味着我们不需要去接入其他的模型,你有一台空闲的手机,你可以对外暴露一个接口,然后你的这种 app 就 可以直接调这个 iphone 的 这种, 哎,这种能力啊,因为它的 gpu 本身来说在本地嘛,对吧?有时候我们做一些小的离线的这种呃 app, 就 可以通过这种方案去实现我们的这个呃模型的能力。那建议的话就是官方是建议在呃十二之后的这种手机设备,因为这样的话你的设备会运行的比较流畅,如果是之前的话,跑起来可能会, 嗯,比较的卡顿啊。这是一个离线端侧的模型,所谓的端侧就是它的号的算力,就是用的是你本地的这种算力,可以看到这里有个那个呃 c p u 对 吧? c p u 是 吧? c p u 还有 g p u。 然后这里可以调各种各样的域值,还支持不同的这种参数,那其实整个内内存占用 大小其实也不是很大,就二点五四 gb 吧。然后呃,这是我们这一次呃再介绍的。首先的话可以看到他有目前有四个类型的模型,一二 b, 还有一四 b, 三十一 b 和这个二十六 b, 激活四 b, 那 最好的肯定是这一个,对吧? 这两个字可能会相对来说会好一点。然后我们可以看官网上的一个使用方式啊,挺有意思的,那你可以从这里去安装,你也可以从这个地方提供两个路口去使用这个开的项目。那官方也是哦,现在属于一个哦, ipad 阶段吧,我觉得,呃还有很多功能可能不是很完善,但是作为一个模型来说,他还是挺有意思的,他有兴趣的话可以去尝试一下打开,然后这里是测试哎,去问他问题,然后可以看到他甚至会自动调用 google 的 这种地图,还有算术题啊,然后,呃,图片识别啊,你看他这识别这个图片 啊,还有语音识别,还有就是一些常见的这个模型我觉得,嗯,最大的好处是什么?就是你可以在没有网络情况下去呃做一些呃 就是问题的询问,即使在那种信号很差的地方,你也可以第一时间得到答案啊,还是挺有意思的,大家有兴趣的话可以尝试一下。好了,那这本视频全部看完了,我是小刘,我们下期再见。还多做了个 ppt, 没用到,哈哈哈。嗯,好,我们下期再见。

谷歌此次打破常规,全新开源大模型 jimmy 一 经发布便震撼业界,自初代 jimmy 上线,全网累计下载量超四千万次,开发者生态中衍生变体版本超十万个, 热度持续高涨。 jimmy 备受关注,关键在于继承谷歌最强 jimmy 三底层核心技术,且首次采用 ipad 二点零协议,完全开源,学术研究与商业项目均可免费授权。 谷歌此次推出四款不同参数模型,包含端侧小型号到高性能大尺寸,包括 e 二 b、 e 四 b 二六 b 级性能最强的三一 b 密集模型。该模型全家桶能覆盖所有硬件场景,全系列支持本地离线运行,无需网络。 相较于上一代肩马四堪称无短版的全能选手,多模态能力大幅提升。四款型号均支持图文处理, e 二 b 和 e 四 b 还支持语音识别,全系内置思考链条模式,逻辑能力显著增强,其记忆能力出色。 二六 b 和三 e b 大 模型支持二五六 k 超长上下文窗口,小模型标配一百二十八 k 上下文窗口原声,支持超一百四十种语言,性能表现超预期。三 e b 参数模型在 arduino ai 排行榜冲进全球开源模型前三、二六 b 模型或第六名, 虽参数规模小却跑出高性能。可将本地运行的键盘式接入 continue 本地模式,或搭配欧乐马、 open i i y b i cloud 九等工具, 打造免费、无使用限制且保障数据安全的本地代码助手,实现科技普惠。欢迎在评论区分享你期望本地设备中 ai 助手具备的功能。

谷歌这次彻底掀桌子了,全新开源大模型伽马四震撼发布!要知道,自从初代伽马发布以来,全网累计下载量已经突破了惊人的四亿次,开发者生态里涌现了超十万个衍生遍体, 这热度直接拉满!为什么要激动?因为伽马四直接继承了谷歌最强老大哥 jimmy 三的底层核心技术, 更狠的是,它首次升级为 a p 七二点零协议纯正开源。这意味着,无论你是搞科研,还是直接拿来商业变现,统统免费授权。这波属于是对开发者贴脸送福利了。 这次谷歌一口气端出了四款不同尺寸的模型,从小杯到超大杯,分别是一二 b、 e 四 b、 二六 b 谋架构和最强的三一 b 密级模型。 这意味着,无论是直接塞进手机进行轻量化的端侧推理,还是在专业设备上进行满血的算力输出,这套全家桶不仅实现了全硬件覆盖, 而且全系支持完全断网的本地离线运行。相比上一代, jam 四直接进化成了全能六边形战士。首先是多模态大爆发, 四款型号全系精通图文双修,其中 e 二 b 和 e 四 b 这两款小模型更绝,甚至长了耳朵能直接听懂你的语音。最离谱的是,这次 jam 四全系内置了硬核的思考模式,遇到复杂问题,他不再是瞎给答案, 而是像人一样一步步推理打草稿,逻辑能力直线飙升。其次是超强记忆力,二六 b 和三一 b 这两款大模型支持高达两百五十六 k 的 超长上下文,吃透几十万字的长篇文档跟玩一样。 即便是两款端侧小模型,也标配了一百二十八 k 的 超大窗口,再加上它原声支持超过一百四十种语言,咱们中文用户用起来简直不要太丝滑。 更恐怖的是他的跃级战斗力!在权威的 irina ai 排行榜上,三一 b 模型直接杀入全球开源模型前三,二六 b 拿下第六,这是什么概念? 他们直接把一重体量是自己十几二十倍的老牌开源巨无霸按在地上摩擦,完美权势。什么叫四两拨千斤?你可以直接把本地跑起来的 jam 四无缝接入到 continue 酷士的本地模式里,或者配合咱们常用的小龙虾、 openclo 以及 cloudco 等工具来使用。用奥拉玛提供底层算力,用这些可视化界面和智能体框架发号施令,瞬间就能为你打造出一个真正免费、不限量 且绝对保护私有代码资产的本地最强代码外挂。把最强的 ai 塞进每个人的口袋,随时随地帮你写代码做分析,这才是真正的科技屏权。如果是你最想在本地设备里装一个什么类型的 ai 助理呢?来评论区聊聊。

当一款只有三百一十亿参数的模型跃级,斩杀比自己大二十倍的对手时,你还不重新审视规模至上的铁律吗?谷歌深夜甩出 jam 四全系开源模型,四个尺寸 app 二点零协议,从手机到单卡工作站全覆盖。 最炸的是三幺 b dance 数学 am 二零二六达百分之八十九点二,比前代暴涨六十八个百分点,直接挤进开源榜单前三排,他前面的体量都是他的数倍。二十六 b m 更夸张,推理时只激活三十八亿,参数 l 却冲到一千四百四十一,速度与智能兼得。上一代 jam 三在这组数据面前,几乎被打成了计量单位,编程、多语言推理、智能体任务全线断层式碾压,甚至连上下文一百二十八 k 的 精准解锁三十一币都拿下百分之六十六点四,而前代只有百分之十三点五。 更狠的是, e 二 b 和 e 四 b 两款端侧模型已经在手机和树莓派上跑通,延迟接近零。谷歌这次还彻底放手 apache 二点零协议商用修改分发全自由。 parking fee ceo 说,这是巨大的里程碑,但对你而言,更关键的问题是,当一台 mac mini 就 能跑。当三十一 b 能打千亿模型, 你下一步的 ai 应用准备用它做什么?评论区聊聊你最想用 jam 四干的项目。

叮咚,家人们 ai 大 模型正式进入手机部署时代,昨天的视频呢,我跟大家说了,谷歌最新发布的加马斯模型可以直接在手机上面部署,今天我就来带大家实现它。首先咱们先看效果, 首先我先打开我的手机的飞行模式,可以看到我现在这个手机是没有任何的 wifi 和数据连接的,然后这时候我们回到 ai, 然后打开一个聊天窗口,我们问他一个问题,比如说帮我查一下苹果 ceo 库克, 然后他会问我们需要什么,我们选择一他的职业生涯和背景, 可以看到他直接就给了我们答案。按照我们正常逻辑思维来说,这些数据应该是在手机需要联网的情况下才可以给我们的答案,但是这个本地部署的大模型他就不需要联网,他就像一个活生生的人,他的脑子里面已经有这个记忆了,所以当你问他的时候,他可以直接就给你回答。 那么这样一个模型我们究竟要如何安装与使用呢?那我们现在开始首先第一步呢,就是我们要打开我们的应用商店,然后在应用商店里面找到这个软件,叫做 google ai gallery, 这是谷歌专门推出让我们使用扎马四模型的 app, 安卓用户也是可以下载到的,但是安卓的用户需要在谷歌 play 商店里面才可以下载,然后我们这里已经是下载好了这个软件,所以呢我们直接打开就可以了。 打开软件之后呢,你们会看到这个屏幕中显示的全是英文,并且软件的内部它是不支持我们去切换语言的, 很多人看到这里就已经开始头痛了,那我看不懂英文咋办呢?其实不用慌,因为这里面的功能其实非常的简单,完全也不需要用到翻译,而且当我们在跟语言模型对话的时候,它是完全支持我们中文对话的。 这里我们向下滑可以看到官方总共给了我们七个功能,从上向下分别是图像、语音、语言聊天、模型、花园以及手机操作。 我们就先从最基础的开始 ai chat, 也就是我们常用的文字聊天。那我们打开这个 ai chat 之后呢,可以看到它底下有五个模型给我们选择, 其中三个是胶码三,还有两个是胶码四,那我们这一次主要针对是胶码四,所以我们就选择上面两个胶码四,然后这个胶码四它分为 e 二 b 的 模型和 e 四 b 的 模型, 这两个我们要怎么去选?就是主要是看你的手机性能,如果你的手机性能稍微好一点,你就选择这个 e 四 b, 如果你的手机性能稍微弱一点,那我们就选择这个 e 二 b, 那 我现在演示的这个设备是十六 pro max, 那 我们就选择 e 四 b 这个模型。当然你在使用模型之前是需要先去下载的,所以我现在就点开这个 e 四 b, 点出来 it, 然后进入到模型之后给大家做一个演示。首先我们先给他打个招呼,你好吗? 哇,可以看到他这个回复速度真的是超级快,我之前一直认为这种手机跑的模型应该会很慢,没想到他的速度还是很快的。然后我们再问他一个,你是什么模型?你能为我做什么? 看到他这个吐字速度真的是超级快,那这个速度呢?对于我们大部分人来说已经是超越了我们的阅读速度的,所以如果你是日常聊天或者写写论文啥的,这个模型对于我们来说是完全足够用的了, 当然这只是最基础的文本聊天。那我们再去下一项看一下他的图像测试怎么样?那我们现在就已经到了他这个图像测试窗口了, 我先给他一张图片,这张图片呢是一张上海滩的图片,让他看一下他对这个地标啊,还有图片内的内容识别度如何。 ok, 在 经过大概五秒钟左右的思考,他已经给了我们答案,然后他说这是上海的城市景观没错,然后他说这是上海中心大厦, 这一点我不知道哎,他好像把东方明珠论成了上海大厦,虽然这两个地标中间只隔了零点八公里,但是我没有在图片中找到这个这个中心大厦这个东西, 然后他说这是独特的双层球体啊,那看到了是建筑认错了,但是其他的关于黄浦江还有其他的描述倒是正确的,就是单独认错了这个东方明珠和中心大厦这个地标建筑。 ok, 那 我们就再给他一张东方明珠的照片,但是这是我们给他夜景的照片,看下他识别度如何。 可以,他已经给了我们回答,他说这是上海的夜景,然后地标是上海中心大厦,那看来他还是认错了这个地标,他依然把东方明珠认成了中心大厦。 其实我不知道他这后面这个逻辑是什么,有没有一种可能,他是去网络上找了类似的图片,然后类似图片说这个地方是中心大厦,所以他就给我们说这个是中心大厦的,我觉得应该大概率是这样。 嗯,有知道的小伙伴可以打在这个屏幕上,那我们就先不纠结这一点,我们进行下一项测试, 现在我们来试一下他的语言听写能力,然后这次我们依然还是选择这个 e 四 b 模型,我先给他发一段语音,你好,你能听得见我说话吗?现在时间是北京时间四月九日,看他能不能给我们提取出来。 可以看到它已经完美的提取出来了我语音说的内容,并且没有误差,那看来它对中文的这个听写能力支持还是很强的。那我们进入下一项功能, 然后这个功能呢?叫做 agent skill。 相信大家对 skill 这个单词已经是很不陌生了, skill 是 什么意思呢?就是一个技能, 然后谷歌目前官方里面给我们默认是内置了八个 skill, 但是其实它最重要的是什么?最重要的是它这个 skill 是 允许我们自己再去添加的,所以我认为这是这个 app 里面最具有 可玩性的一个功能。就是我还记得前一段时间在网络上很流行一个叫做前任 skill, 就是 把自己的前任变成一个技能,然后放进他们的 open cloud 之中。那现在你不用放进 open cloud 了,也不用打开电脑了,直接在手机之中就可以操作了。嗯, 我相信后面会有很多人去专门为手机的这个开发 skill。 那 这个 skill 我 也就不多说了,因为目前我这里只有官方的八个默认 skill, 然后默认 skill 都是比较基础的啊,说的也没有太大的意义,大家自己后期自己去 自行尝试一下就行。然后我们来到下一个这个红色的按钮叫做模型实验室,这个应该是对于比较极客的玩家用的比较多,那我们大部分的普通玩家呢,是很少也几乎不会用到的一个功能, 所以我们这里就不过多传输。然后下一个绿色的这个是迷你花园,是谷歌官方出了一个专门用来语音玩游戏的一个小功能吧, 也没有什么好说的,因为他是英文交互吗?嗯,大部分人可能也就是藏着新鲜进去看一看,也没 什么好玩的。所以我们来到最后一个,也就是我认为第二可玩性比较高的一个功能,叫做手机操作,那他顾名思义呢,就是可以直接操作我们的手机,那我们现在点进去看一下, 那我们点进来之后可以看到他首页是说他有最基础的五个技能,第一个是开关手电筒,第二个是创建联系人,第三个是发送邮件,第四个是在日历中创建,第五个是 在地图中搜索,那这应该是最基础的,我不知道他有没有其他的功能,但是我们可以先把他的基础功能先试用一下展示一下给大家看。 我这里是让他打开了我的手电筒,然后他确实也打开了我的手电筒,然后我们来试一下,让他关闭手电筒,嘿,然后他也成功的关闭了我的手电筒,然后我们最后来测试一下他能不能在地图中展示, 可以看到他是直接调用了苹果官方的这个地图,然后打开了我要他搜索的地点,但是这个功能怎么如此的似曾相识呢?感觉有点像被前段时间被全网封杀了。豆包手机 太眼熟了,只能说太眼熟了。 ok, 相信大家看完以上的教学视频之后,都已经成功的安装好了手机端的胶码四,也对他的所有的功能呢都有了一个初步的了解, 在手机端部署大模型,不仅仅是拥有极高的隐私安全,还支持在没有联网的情况下使用,真的可以说是开启了一个 ai 的 全新时代。那么本期视频到此结束,咱们下期再见!拜拜!