最近这两天,大家应该都被谷歌 gmail fold 的 模型发布刷屏了,但是我在想一个问题,谷歌 gmail fold 小 模型的应用场景是什么?我们直接使用语音上的模型不就好了吗?特别是那些能够部署到手机上的模型,它们的使用场景是什么? 首先我们需要去 app store 里边去下载 edge gallery 这个软件,打开了之后,在首页有 ai chat 这个页面,这里头会有对应的模型下载。我们在手机上能跑的就是 gmail for e2b 和 gmail for e4b 这两个版本。 现在我们找一张图片来让它试着去理解一下,我们先拍摄一张, 我们看它里头的关键信息,提取的没有问题的。好,现在我们来试一下关闭掉网络之后 好了,这个就是在飞行模式下的一个体验。我能想象到的一个场景是,离线辅导孩子写作业,不会做题,没有网络,不想登录各种 app, 也不想把数据上传。 这个时候手机里头的 gmail 模型就可以拍照识别题目分布进行讲解,不联网,不泄露数据,秒即响应。另外一个场景是无网络翻译,在国外旅行,地铁没信号,山区没网络漫游还很贵。看到一句话,直接打开手机 app, 用本地模型进行扫码翻译。 所以这是小模型的一个核心价值,离线的能力。另外第三个可能的是隐私的场景,比如我们平时的聊天记录,家庭信息,工作内容,甚至于医疗育儿的数据,以及一些养老的场景。 如果我们用云模型,数据必须上传,如果用本地的基码模型,那数据永远在你自己手里。当然以上的场景可能大多都是个人使用的情况, 另外还有一种就是公司级别的使用,如果通过小模型能够解决,那么就不需要消耗大量的投款费用,同时也能够保证模型使用的时效性以及数据的安全性。
粉丝159获赞1293

扎马四大模型在上周进行了开源,因为它跟 nano banana 二都是 google 的, 因此我把这两个模型拼在了一起,做了个 copy y 工作流。 其中扎马四大模型负责写提示词,把你想要生成的图片用大白话跟它讲清楚,扎马四就会给你输出一段非常标准的图像,生成提示词。 然后呢,将这个提示词传给 nonban 二节点进行升图,等待几秒,你就能得到一张以球队队徽为创意的足球海报图了。 本期来讲伽马四大模型,这是谷歌 deepmind 团队开发的开源模型,它有这么几个特点啊,第一,具有推理能力。第二,支持多模态,可以处理文本、图像、视频和音频。 第三,可以在笔记本电脑和手机上运行。第四,最高支持二百五十六 k 的 上下文。 java 四有四个型号,其中 e 二 b 和 e 四 b 主要应用于手机端, 而二十六 b a 四 b 和三十一 b 这两个型号需要的显存就很大了,至少要是四零九零显卡的电脑。 具体选择哪个型号需要看你的业务场景,因为我想用 jama 四去写优美的 number banana 二提示词,所以我选择这个二十六 b a 四 b 这个型号。这个名字中的 a 代表激活参数, 该模型的总参数是二十六 b。 但是呢,在推理阶段仅激活四 b 的 参数子集,因此它运行的速度很快,运行效率接近四 b 参数模型。具体的量化版本,我选择的是 q 四 k m 模型,大小在十六 g 左右。 接下来呢,我用康复 ui 工作流给大家展示一下用 g m 四来写提示词有多么的好啊, 在软件 hack 我 已经搭建好了啊,这个詹麦斯去写生图提示词的康复 ui 工作流。整个工作流看起来非常简单,分三部分组成啊。第一部分,上传主场球队和客场球队的队徽, 我分别上传的是常州队和南通队的队徽,因为他们明天就要比赛了,这两个队的队徽分别传给詹麦斯和 nintendo 二,进行下一步处理。 第二部分,使用 java 四模型去书写优美的生图提示词。首先使用 lama cpp model loader 节点去加载 java 四二十六 b a 四 b 的 q 四 km 量化版大模型。另外呢, mmprog 多模态投射器选择对应的模型即可。 在下面的 luma c p p parameters 需要按照模型介绍页的视力参数进行设置,之后你需要把这两个队的队徽传给 luma c p p instruct 节点的 images 端口。 另外还要设置系统提示词和用户提示词,其中系统提示词就是给 java 四大魔性定身份和立规矩的,你看我写的是你是 number banana 二、图像生成 prompt, 转写大师根据用户输入的生图需求输出详细的 prompt 提示词 等等等等。用户提示词是给大魔星下达具体任务的,我写的是我想生成一张足球对战海报,比赛球队是常州 vs 南通,图一是常州队徽,图二是南通队徽等等等等。 然后你就会得到由詹曼四给你写好的优美的 nano banana 二生图提示词了。第三部分,使用 nano banana 二进行生图, 他负责接收两个队的队徽图案以及刚才 jam 四生成好的提示词分辨率,我选择的是二 k 和横版十六比九,点击运行你就能得到一张以两队队徽为创意的海报图了。 最后我们总结一下啊, nano banana 的 新玩法就是 gemmas 四负责写提示词, nano banana 二负责升图。如果本期视频对你有所帮助,请关注、点赞、收藏,三点走一波,这里是电磁波 studio, 我 们下期视频见。

大家好,这两天呢,谷歌推出了一个新的能够部署在端侧手机上的这个一个大模型啊, j 马四系列。那么我在第一时间呢,下载了他的一个两 b 和四 b 的 一个模型啊,我们看一下,我们只需要在 你的机器上装上这个 google 的 h gallery arh gallery 这个 app, 然后呢,它会向你推荐它们的一个文本模型和动画态模型,还有一些可以控制手机做一些 action 啊,做一些动作的模型。我呢下载了它的 jam 四 e to b 啊, it, 一个是杰尔斯 eiffy it 啊,这两个非常小,一个就是两 g 多,一个是三点几 g。 我 们来试一下它的文本功能吧,我们先用这个, 我们用它的,比如说大家聊天功能,最简单的,他现在说实话,这个杰尔斯 ok, 我 们问他一些功能,请问你能干什么呢? 啊?你看到了他这个还不错的啊,是吧? 呃,我们让他转写一个音频啊,我说 你好,今天是星期天,我去公园玩,很开心,这是一个测试。好,我现在要你转写,让他转写,请帮我转写他 啊,是不是非常快?我们还可以让他去做一些实图,比方说,呃, 我去拍张照啊, camera 去拍这个,这个充电宝啊, 试一下,请描述这张照片,你看是不是图, 我觉得还挺好的哦,哈哈, ok, 好, 我们最后再让他做一些难度的,我们做一些 mobile action, 比如说 agent skill, 把我机器的闪光灯打开 啊,操作失败了,但是我觉得这里面有另外一个啊,另外一个,我下载的二百七十兆的,他专门去做这个的,比如说他有一个, 那是不是把我的灯光灯打开了,然后关闭,然后呢?我们可以 send email, create, 然后 show location 啊,这些都可以。 好,端测 ai 其实已经是以迅猛不可阻挡的趋势啊,已经占据了我们的这个设备。因为我平时对端测 ai 非常感兴趣,所以它谷歌推出这些小模型啊,我在第一时间下载到,然后试用,觉得还真的是挺不错的, 大家可以多用一下。只要去下载 google ai ag gallery, 然后按照它的这个介绍下载一些模型就可以了,非常简单,能够在十分钟之内把这些所有东西都搞完。好,谢谢。

google 今天新开源的这个 java 模型非常有意思啊,各位 iphone 用户直接在 app store 里面搜索 google ai edge gallery 就 可以下载这个 app, 下载完之后呢,你点击打开它就会跳转到这个界面,第一个是 ai chat, 就是 你和 ai 直接聊天。第二个是你可以让 java 直接为你去做事情, 比如说我点开它这里,你第一次进来的话,它会让你下载模型,模型就两点多个 g, 在 手机上非常友好,可以直接开始用,而且基本上我试过近几年的 iphone 都可以直接开始跑这里大家可以看到我是没有连任何网络的, 我可以直接让他去写一个代码,在我头上加一个旋转的标签,这个你要允许他使用摄像头,我把头露出来,他就会看到这个已经加上去了,非常的有意思。 iphone 用户可以赶快去 app store 里面下载这个软件体验一下。

我们都遇到过这个问题,你正处于牛市之中,你正处于全神贯注的状态,你动作很快,然后你撞上了速率限制的墙。现在你只能干等着势头全没了。 或者也许是你那头牛,也许是你每个月至少需要支付的二十美元。现在把这个扩展到两三个工具上,每个月就要从你口袋里掏出一百美元。 但要是有一个模型能为你解决所有这些难题呢?如果完全免费会怎样?如果它完全不需要联网,无需 api 密钥,也没有任何速率限制呢? 事情是这样的,谷歌刚刚推出了 jam 四,它彻底改变了我们本地使用人工智能的方式,大多数人已经在用它取代自己每月一百美元的订阅了。 过去几天我一直在本地运行它,这期间我一次都没用过我的付费订阅。 现在,在这期视频中,我将解释 jam 四到底是什么,如何在六十秒内让它跑起来,以及它与你们正在使用的付费模型相比究竟如何。 如果你想获取我们所有的提示词,安装指南,以及我们所创建的一切,他们都在我们的免费学校社区中。链接在描述里,现在里面已经有超过大约两万两千人了。 我可以向你保证你会爱上成为其中一员的感觉,所以去看看吧。但现在,让我们多聊聊 jam 究竟能做什么? 所以这是什么?它是 google deepmind 最新一代开源人工智能模型家族,它建立在与 gemini 相同的研究之上,后者是谷歌自家的旗舰大模型。这意味着你能在一个可本地运行的模型中获得前沿级别的智能, 并且它能无缝接入谷歌的整个生态系统。 google 人工智能, studio, collab vertex 人工智能以及更多功能。 开箱即用。它附带 a patch 二点零许可证,这意味着你可以用它打造产品,甚至明天就能卖掉, 而且不需要任何权限,没有收入上限,不存在法律。灰色地带,它有四种尺寸,分别是一二币, e 四币,二十六币和三十一币。 基本上适用于所有设备的东西,而且它是完全多模态的,这意味着文本,图像,音频和视频。所以让我展示一下这整个过程到底有多快。 我敢保证看完这个视频你一定会印象深刻。好的,现在我们来安装 jam 四,相信我大约六十秒就能搞定一切。 我们开始吧。然后第一步是访问 elama com, 接着下载 elama, 它完全免费。然后你选择操作系统,可以是 mac, windows 或者 linux。 然后你就像安装其他应用一样把它装上。随后它开始直接将模型下载到您的机器上。 运行 gemma 四,现在你正在与它对话,本地运行,无需联网,无需 api 密钥,也无需订阅。 现在人们真正卡住的地方是选择正确的模型大小。让我为你澄清这一点。现在如果你用的是内存大约八千兆字节的笔记本电脑,那就从一四 b 开始, 他在大多数现代机器上运行良好,让你真切感受到 jam 四能做什么。现在如果你在台式机上,并且拥有大约十六到二十 g b 的 内存,那么你就选择二十六 b, 它是专家混合模型,这意味着他一次只激活约四十亿个参数, 所以它比你想象的聪明得多,而且不会耗尽你所有的资源。现在 jam 四能处理文本代码,图片和文档,但对于人工智能视频,我总是推荐大家选择 hicksfield。 有了 hixfield, 我 可以在一个平台上使用最新的人工智能视频和图片模型。让我现在给你展示最新最棒的人工智能视频模型。它叫 c 减 dance 二点零,它在 hixfield 的 内部运行。现在看这个, 那是人工智能生成的物理效果,真实布料向右移动,水表现的像水一样。这里有动量,有重量感,有灯光,一切都能完美运行。这里还有另一个, 这是我见过任何人工智能视频工具中动作最自然的。它还能生成音频音效,与屏幕上的画面同步,这意味着无需后期制作。 现在再来介绍另一个很棒的功能,它叫电影工作室,它也基于最新的 cds 二点零构建。 我刚才在 esfield 里创建了一个角色,我设定好面容,体型和着装,这个角色就被锁定了。现在我可以把它们放入任何类型,动作片,恐怖片,剧情片,黑色电影,任何我想要的运镜方式,任何场景,每次都能得到同一个人。 就看看这些例子吧。这看起来太疯狂了,对吧?我会在下方的描述里留下一个链接,让你亲自验证希格斯场。但现在让我们回到 jam 四。水准测试是一回事,但我想给你们展示些水准测不出来的东西。 我把截图拖过来了,而且没有任何上传到服务器,一切都不离开我的机器。我正在让 jama 来分析它。现在轮到 jama 了,它能提取描述,然后提取出结构,布局和元素,绝非表面功夫,而是真正理解了所见之物。 现在让我们进一步测试。好的,那我们来试试别的,我们来做个分析面板吧。好的,我们来截个图。现在让我们直接把它丢进去,然后你就能看到了。他读取图表,识别趋势,接着告诉我数据中发生了什么。不用再把数字抄到电子表格里了。我知道这很让人头疼,因为太耗时。 你只需要把它拖进去,然后就能获得洞察。这适用于图表,手写,笔记,收据, ui 设计等一切视觉内容,全部在你的硬件上本地完成。现在我们来再测一个好吗?所以现在我要让他帮我搭建落地页好吗? 英雄区域行动号召响应式布局好吗?现在看着吧。这是一个可运行的 html 文件, 他在本地生成,零成本,无数据限制。他直接在浏览器中打开。如果我不喜欢某些东西,比如间距,文案或颜色,我只需告诉他修复即可。然后瞬间他就帮我搞定了。没有冷却时间,无需等待, 不断迭代,直到完美,你就能获得最佳结果。现在让我们再测试一次好吗?所以我要把一份完整的 pdf, 还有密密麻麻的法律条款好吗? 现在我想做的是提取关键术语,标记任何异常之处,并用通俗英语总结。权威好吗?而且只需几秒钟就完成了,而且是本地完成的。你的联系人,发票,保密协议,没有任何东西会离开你的机器。 光是这一点就值得任何处理敏感文件的机构,自由职业者创始人安装。他们都不希望自己的文件在别人云里飘着, 这对他们来说是革命性的变化。现在到了真正让我心动的那部分。 wifi 已经关了, 毫无连接好吗?他依然能正常工作,完全独立。你正在乘坐十二小时的航班。你的网在截止日期前断了。现在如果发生这种情况,那也无所谓。 你的人工智能工作流不必中断。这就是可访问且独立的人工智能实际该有的样子。你已成功运行该模型。没有订阅,没有限制日期,数据不会离开你的机器。这已经领先了百分之九十九的人。 如果你想获取本视频使用的确切提示词,他们都在免费学校社区里。链接在简介里。如果你觉得这对你有帮助,记得点个赞并订阅更多此类内容。 别忘了开启那些铃铛通知。另外,如果你们有特别想让我们在下期视频里测试的工具,也请在下方留言。但眼下这整个过程都超级有趣,我们下期见。

谷歌这次是真的把掀桌子刻进了 d n a 这么四旗舰版,仅凭三十一 b 参数就在 reno 跑分和推理实测中硬钢七百 b 加的巨兽, 这意味着单张四十九零就能承载曾经需要集群才能跑出的性能。更绝的是协议变更彻底转向阿帕奇二点零,这不再是带着法律家族的开放,而是真正的开源自由。支持商用,支持币源二创,彻底清扫了企业及应用的合规阴影,配合二五六 k 超长上下文,支持币源二创,它不仅是一个模型, 更是开发者手中最趁手的智能体机座。别再纠结参数规模了, jam 四证明了效率才是未来的唯一硬通货。感兴趣的朋友欢迎评论区交流。

谷歌最新开源的大模型 demo four 据说很强,在综合能力上甚至超越了二十倍规模的开源模型。 今天教大家如何快速部署在本地,以及分享一下在 mac mini 上的实际体验感受,具体感受什么样?大家看视频吧。首先打开欧拉玛官网,下载它的应用程序, 打开应用程序,我们看一下他目前支持的一些免费的开源模型,还没有 demo, 所以 我们需要去他的官网再去下载下载到本地。那么这里呢,有很多不同的型号 可以看一下,它有很多不同参数的型号,有满配的,还有一些轻量版的。那因为我这个是 mac mini m 四十六 g 版本,所以我们就选择它系统默认推荐的这个九点六 g 的 好,只需要复制这个指令,然后打开终端运行,它就会自动去下载 这里下载了。那么我们先测试一下, 测试一下他的回复速度,因为是第一次响应,所以速度会有点慢,然后我们打开活动监视器,看一下他占据内存的情况, 这个模型本身就有实际系统走内存差不多也跑满了,这里他已经有回应了,我继续再测试一条, 第二次响应速度要比第一次快很多, 我叫 jam 四,我是一个由谷歌 deepmind 开发的。 ok, 现在我们打开欧了吗?然后去加载一下,这里要重启一下这个程序,然后再看模型选择,里面 最下面就已经有了已经安装好的,现在我们把这个模型对接到本地的小龙虾,只需要复制这个指令,打开终端,在终端里面运行,它就自动会加载好, 这里有不同的模型选择,都是他支持的一些免费的大模型,我们选择 demo 让他去运行。 ok, 这里已经加载好了,测试一下他的响应速度。 这里我是放了八倍速了,说实话,因为实在是太慢了,他平均回复一个问题的速度差不多要两分钟, 非常非常慢。我本来想在这个小龙虾里面测试一下他的执行任务的能力,但是这个速度的话确实没有办法, 但是它有个好处啊,如果你有低血压的话,你就可以用它。我是动物城朱迪警官,你好吗?我过得还好,不错,谢谢。这里我甚至尝试开启快速模式, 但是实际的感受没什么变化,就还是那么慢, 所以只能放弃在这里面做测试了。那么我们还是回到欧乐玛,在这个软件里面测试一下这个模型本来的能力。这里给他放两张图,让他识别一下图先, 一个是标格,一个是周杰伦,看一下他能不能准确的识别。 这里我也是开了倍速的啊,但是这里的速度要比小龙虾里面快很多, 我给他给出的答案是,图二是陈坤,图一是一名中国艺人, 看来这个版本的模型识图能力还是有点差。接下来测试一道经典的陷阱题啊,这个对大模型来讲是一道陷阱题,很多大模型都倒在了这道题上面, 那么他给的建议是走路去,最后测试一下他的复杂推理能力, 这道题是我让 gbt 五点四给我出的一道推理题。 abc 三人中恰好有一人是骗子,永远说假话,另外两人永远说真话。他们各自说了一句话, a 说 b 是 骗子, b 说 c 是 骗子, c 说 a 和 b 至少有一个是骗子, 请问谁是骗子?给出答案,并且给出完整的推理过程。好,他给出的推理过程和答案我跟 gpt 五点四给的标准答案对比了一下,是一样的, 所以它的复杂推理能力还是可以的。 ok, 总结一下实际体验感受啊,你如果是 mac mini m 四十六 g 版本,虽然能运行,但是它会把你的内存拉满,就是你的电脑会一直处于满负荷的状态,而且响应速度也很慢,所以使用感受是很差的。 当然,如果你的电脑配置足够高的话,你是可以去尝试部署在本地的,因为它的响应速度肯定要比我这个要快很多。而且你还可以尝试去部署它的满配版,比如三十 e b 那 个版本, 能力应该是要比这个强不少。

我的手机在飞行模式下,正在流畅的跟 ai 对 话,这不是魔术啊,这是 google 刚刚开源的伽马四, 今天呢,将你零成本把它装进手机,永久免费,永不掉线。整个过程其实非常简单啊,三步就搞定了。第一步呢,下载一个 google 官方的 app。 第二步啊,在里面安装伽马四模型,大概二点五 g, 三步你就可以开始对话了,飞行模式也能用 来我们直接上手操作。大家看一下我的实践过程啊。打开 app store, 搜索 google 的 ai edge gallery, 这是 google 官方出的应用。打开之后呢,进入 ai chat, 你 可以看到啊,这里面有好几个模型可以选,我们选 jama 四的 e to b 杠 it。 这个模型点击安装啊,大概呢是二点五四 gb, 等待下载完成就好了。 端好完成之后,重点来了,我们来验证他是不是真的离线能跑。注意看,我现在打开的是飞行模式,完全断网。然后我问他一个数学问题,三点三和三点二一谁大? 哎,你可以看到吗?他只需要五点四秒,他就给出了完整的推理过程,而且看到他的思考链是真的一步一步在推理,不是在湖州的。这就是本地模型的厉害之处,所有的算力都在你的手机上,完全不依赖云端。 但你可能会问啊,我用 chat gpt 或者其他的 ai 模型不也挺好的吗?为什么要折腾本地模型呢?其实这里面核心有三个优势,第一就是隐私,你的对话数据完全留在手机上,不会上传到任何的服务器。第二就是成本, chat gpt 每月二十美元,而这个呢,是永久免费的。 第三就是可用性,即使没有网络也可以用,在地铁、飞机、出国旅游等等,随时随地都可以去使用。当然,我们也得客观的跟大家说说它的局限, 在数理逻辑推理、日常对话、文本写作、代码生成片段这些方面呢,表现都还不错。但是啊,实时热点他就不知道了,因为他是离线的嘛,实时的搜索调研做不了。如果是特别长的文章生成质量啊,也算一般。所以啊,它更适合当你的随身助手,而不是替代云端的大模型。 所以你看, google 开源了,就意味着完全免费。对于隐私敏感,在意数据安全的场景,本地 ai 就是 最优解。 感兴趣的话就可以现在试一试 app store, 去搜索 google ai edge gallery 就 能找到。那如果这期内容对你有帮助,点个赞,收藏一下,有问题我们可以在评论区聊,我是秋阳,我们下期再见。

能开源不排队,不收一分钱,没有任何云端审核限制,别再当约娜头花钱排队等 c 道审核人员了。最近,史莱姆级别的 ai 大 脑免费塞进了你自己电脑里,一张消费级独立显卡呢,就能把这台猛兽彻底私有化。这部极其霸道的掀桌子,直接把咱们普通人的 ai 生成五大痛点,狠狠的按在地上摩擦。听到这, 很多人心里还是犯嘀咕,又免费不能本地跑,那效果肯定很拉胯吧?是不是那种满屏塑料感的工业垃圾呢?说实话,刚看到这个消息,说呢,我也是这么想,毕竟全网都在吹那些 只贵的大厂模型,便宜没好货,咱们是一个共识。但是呢,当我真真切切看到他跑出来的画面时候呢,我是想喊一句,真香啊,他不仅不拉胯,甚至把以前咱们大价钱买那些付费模型打的啪啪作响。理所是, 这工具既不用花钱,还能无限生存,普通电脑也能轻松傻瓜去操作,你只需要选项提现时点一下设置按钮,这样的爆款作品分分钟生成。本期视频干货满满,建议大家先收藏再观看。 工具直线直接把专业设计师门槛给干碎了,无论是学生、特效师还是对 ai 感兴趣小白,都可以轻松学会,关键是工具完全免费,每个人都可以尽情的发挥创意灵感,亲手直接无脑操作页就好。那下载完之后呢,我们来解压一下安装包, 然后直接右键解压我们当前所在的文件夹,这个文件夹我不建议大家去中文啊,解压完成之后呢,不需要安装任何东西啊,我们找到第一个 粉色的一个小图标啊,双击打开启动器,可以进入到启动器的界面,在左下角呢,会有一个标示启动器的版本,我们再点一下一键启动按钮呢,因为是第一次启动,所以需要等几分钟来进行部署好,我们耐心点一下就好了。然后我们进入 s g 的 一个操作界面,如果把它比作房子的话呢,这个仅仅算做薄机房,因为只有一个模型,什么也做不了。 那么这个时候呢,我也贴心的给大家整理好,并放置了各类型最常用并且很多的一个模型到枕好不好,我们只需要啊, 在我模型的中文备注里直接阅览图一起整理放好啊,只需要你在 sd 的 超界面上直接就能看清模型的样图和中文的名称,就不会和别人的一样,只显示一串英文代码,风格根本就分不清。看着这个图大啊,我这里整合包呢,不仅包括了 s 一 大模型,还有 low level 模型等等, 这样直接拿来用就可以了啊,这宝 sd 不 香吗?只是稍微有点大啊,但是呢,这些都是入门必备的了,如果有需要我这个精修整合包同学啊,在这个评论区留言即可,我会逐一的回复给大家。

在我的笔记本和台式机上测试完 jam 四模型后,我决定进行一个疯狂的实验,尝试在我的树莓派五上运行 jam 四。当然,我指的不是这个大模型的任何大型版本,而是尝试运行最小的那个。 额,我不确定这能否成功,因为即使是最小的模型,可能也需要大量的资源,但值得一试。我的树莓派五连接在我的家庭网络上,所以我总是通过 ssh 访问它。我甚至没有在上面安装图形界面, 只装了必要的服务器和一套最精简的我需要的软件。大家好,我是尼克,我从事软件开发已经超过二零年了。在这个频道我会分享关于 it 领域的经验、见解和想法。那么我通过 ssh 连接到我的树莓派。 我运行着终端附用器 t max 在 那里。如果你经常使用终端,这是一个非常方便和有用的工具。它允许你保持绘画运行, 即使你从另一台电脑断开连接。如果你还不熟悉它,一定要试试看。好了,首先,我启动 htop, 这样你们就能看到我的树莓派的配置。提醒一下,这是第五代,如你所见,它有四个核心和八 gb 内存,其中大部分目前是空闲的, 因为我现在没运行什么重加载程序。好的,我需要做的第一件事是安装 lm studio。 不 过由于我不需要图形界面,我只安装 kline 版本,你可以称之为 lm studio 的 无头版本。开发者提供了一个特殊的脚本, 可以为你处理一切。安装后,他建议立即启动守护进程。好的,我们这就启动。现在让我们看看有哪些可用的命令。我看到一组用于管理模型的命令, 一些用于管理本地服务器,还有几个其他我现在不需要的命令。总的来说,这些命令相当直观。但在启动任何东西之前,我想更改下载模型的存储位置。问题是我的树莓派连接了一个 ssd, 所以 我希望模型存储在那里,而不是 sd 卡上。顺便说一下,树莓派无引入了一种连接 ssd 等外设的简单方法。 我用这样的驱动器已经一年多了,非常方便。好了,存储位置设置好了,现在我要下载 jam 四家族中最小的模型。这个模型叫俄币, 大小大约是四十五 g b。 在 他下载的时候,让我简要介绍一下谷歌官方宣布的他的能力。首先,这个模型家族的设计考虑了基于智能体 a 枕的工作流,他们原生支持函数调用,并能使用工具。 其次,这些模型能处理图像和视频,包括较小的模型,比如我正在安装的这个,他们还具备原声的音频支持,能直接理解语音。 第三,这些模型拥有十两万八千个令牌的上下文窗口,并且支持几乎所有语言。顺便提一下, jam 四是在完全开放且商业友好的 app 二十许可证下发布的。这意味着你几乎可以用这些模型做任何你想做的事。好了, 模型下载完成了。如你所见,他大约有四十亿参数,对于简单和小型的任务来说应该足够了。我现在加载模型。好的,他成功加载并可以使用了。现在我要启动 htop, 看看加载模型后有什么变化。看起来模型 已经被加载到内存中了。好的最后一步是启动 api 服务器,这样我就能与运行中的模型交互了。我将使用四千端口好了。服务器正在运行, 但为了保险起见,我检查一下它是否正常工作。为此,我将发送一个简单的 http 请求来获取可用的 lm 模型列表。在这个列表中,我期望看到我刚下载的詹马斯模型。很好, ap 请求成功了。我收到了模型列表,并且看到了 jam 四完美,一切正常。然而,现在 lm studio 启动的本地服务器只能在树莓派本机访问。我想从本地网络上的其他电脑使用这个模型,所以我要停止服务器, 并用一个额外的 host 参数重启它,将其设置为零零零零。这应该能让它在本地网络上被访问。嗯,这没成功。看起来 host 参数不可用。 启动服务器时,我只能指定端口,但这不成问题,因为这是 linux 系统,我们拥有它的全部能力和数百种工具可用, 所以有很多方法可以解决这个问题。我将采用最快最简单的解决方案,使用 sochat 工具,它允许 你在系统内部转发网络流,这正是我需要的。我将把运行 lm studio 服务器的内部 四千端口转发到外部接口的四千幺端口。这有效地在内部和外部端口之间建立了一个桥梁。现在,任何发送到树莓派四千幺端口的请求都会被内部重定向到 lm studio。 好 了,现在我将断开树莓派的 ssh 绘画, 可以说回到我的 macbook。 现在我回到了普通的 macos 终端。我尝试发送和之前一样的 http 请求来获取可用模型列表,但这次不是发给本地主机,而是发给我那台树莓派。提醒一下, 它和我的笔记本在同一个本地网络。很好,成功了。如你所见,我收到了来自运行在树莓派上的 lm studio 服务器的响应。在那个响应中,我看到了 gemma 四。现在, 一切终于按照我的设想设置好了,我们可以进入最有趣的部分了,实际上就是在树莓派上测试 jam 四。由于 lm studio 启动的本地服务器完全模拟了 openai 的 api, 这意味着任何可以指定自定义 openai 端点 或基础 url 的 应用程序都能使用你的本地模型。这可以是像 chatbox ai 或 openweb ui 这样的聊天界面,也可以是你的编辑器和 ide, 例如 vs code, cursor 或 zd 编辑器。我今天就用后者。好的,我在 zd 编辑器中打开设置。 在 lm 部分为 jam 四模型添加一个新条目,它运行在我的树莓派上。由于几天前我为我的台式机添加过一个类似的条目,我就直接复制它,然后更新服务器 url 和模型名称。顺便说一下,我有一个关于在我的 macbook 和台式机上 运行和测试 jam 四的单独视频。现在,如果我们跳转到设置并打开 lm 提供商部分,应该能看到一个对应树莓派的条目,就在这里。 好的,现在在底部的聊天区,我选择 jam 四模型,它运行在树莓派上,这样它就会在这个绘画中被使用。 让我们发送一个简单的提示词来检查一切是否设置正确,以及我们的本地网络设置在编辑器内部是否工作好的模型开始思考了。这是个好迹象,但为了确认我们等等,他的回复很好,模型回复了。 我们来看看推理部分,看起来挺标准的,就是你会从这类模型中看到的常规思考过程。那么我们现在的情况是,第一, jam 四成功运行在树莓派上,即使是最小版本。第二,我能够从另一台电脑通过本地网络与它交互。我认为是时候挑战一下这个模型的极限了。 为此,我将通过终端连接到树莓派,并开始监控系统资源,这样我们就能看到生成响应给他带来了多大赋值。 然后,我会给模型我的标准测试任务写一个 python 函数来排序对象列表。 好了,模型开始思考了。如你所见,树莓派负债全满,所有 cpu 核心都在使用。 现在模型已经完成了推理并开始生成响应。我会实时展示这部分,不做加速,这样你能感受到实际的生成速度。总的来说,对于简单的交互或脚本来说,这个速度相当可以接受, 尤其是当响应时间不那么关键时。现在,为了节省时间,我会加速剩下的生成过程,因为在树莓派上生成完整响应可能需要相当长的时间。 最后,我会展示总共花费的时间。好了,完整响应准备好了,模型不仅写了一个排序函数,实际上还提供了两种不同的实线,并解释了何时使用每一种,相当令人印象深刻。 然而,总时间包括推理阶段,大约是六分钟。我想通过禁用推理模式,这个时间或许能减少一点,但总的来说,你对性能应该有了概念。现在为了全面性,让我们尝试一个非编程任务, 我会让模型想出三个外部应用的点子。经过一段简短的思考阶段后,这部分我已加速模型开始生成点子。你现在看到的是真实的生成速度,在我看来,这和上一个任务的速度差不多。 我得说这个速度刚好处于人类实时阅读感觉舒适的边缘,但对于非交互式场景来说是可以接受的。 我会加速剩下的部分,然后检查总时间。好了,这次 jam 花了大约五分钟生成完整响应,但他输出了大量文本,并详细描述了每个点子。在我看来,对于这样一个小模型来说,尤其是在树莓派上运行, 这是一个非常扎实的结果。所以现在你看到了在树莓派五上运行 jam 四的全貌。如你所见,这完全可行,而且结果是可用的。 至少对于某些脚本或自动化任务来说,这个配置绝对有意义。好了,今天就到这里,如果你喜欢这个视频,别忘了点赞和订阅,这样你就不会错过下一个视频了。下次见,保重!


今天我们继续看看詹姆四能为我们做什么。我们找到一张图片给到詹姆四,帮我们反推提示词, 我们把提示词复制到 drawings 里面。我们用的是 z image turbo 的 模型,生成的结果不能说没有关系,但可以说毫无关联。后面我又陆续测试了几个升图模型, 但只有 z image turbo 细节最接近原图。先到这,下期继续折腾。

谷歌啊,这次新发布的 jam 四,很多人第一反应啊,还是看参数升级。但是啊,我觉得这次真正厉害的啊,不是它三十一 b 的 大模型,也不是二百五十六 k 的 超强上下文, 而是啊,谷歌开始认真把大模型往手机和电脑这种本地设备里推了。更关键的是啊,这次还直接放到了 app 二点零协议下,这两件事情一叠价啊,味道就完全不一样了。 其实啊,以前的杰玛虽然能用,但是很多人根本不敢放开手脚用,不是他的模型不够强,而是协议的边界太模糊。 我给你打个比方啊,以前的杰玛,就像谷歌免费租给你一套房子,你能住,但是啊,规矩啊特别多,不能改装修,不能转租,就算转租,下一个租客也得守规矩。 最坑的是啊,什么算改装修呢,他也说不清楚,就比如说换个灯泡,也可能会算你违规。但是啊,这次不一样了,杰马斯啊,直接换成了 apec 二点零协议,相当于他把这套房子直接送给你了, 你想怎么改就怎么改,想住就住,想租就租,想开公司赚钱也行,谷歌啊,再也不管你,也不会找你要钱了。 再说说模型本身啊,杰马思啊,这次一口气出了四档模型,不能小看它,这次官方主打的是智能 a 帧能力,它原生支持工具调用、结构化阶梯输出系统指令,还能处理图像和视频。最核心的就是这个 m o e 能力, 能够根据指令来进行自动分工,真真意义上实现了省时省算力。哪怕基础的 e to b 和 e forb 都自带原声音频输入,上下文处理能力啊,也是直接拉满,最高二百五十六 k, 再加上一百四十多种语言支持。杰马萨已经不是单纯回答问题的工具了,它已经变成了一个本地智能助手引擎。 目前啊,欧拉玛已经支持本地部署了,我们直接用这个指令就可以直接安装了。模型的选择啊,也取决于你的电脑配置,我整理了一份配置表,大家可以自取。好这里啊,我就不演示安装了,我们直接上。结果现在这台电脑是完全断网的状态。 本地呢,跑的就是通过欧拉玛拉取的 jama 四一或币这个模型。第一步啊,我给他一份长篇学习资料,让他呢压缩成三句普通人能听懂的话,每句呢,不超过二十五个字。 第二步,我让他把这三句话改成二十秒的抖音口播,开头三秒必须有冲击力。第三步,我让他直接按 jason 格式输出标题、封面字、分镜和置顶评论。 注意看啊,重点啊,不是他会写字,而是这三步啊,全程在本地完成,不用连云端也不怕断网,而且输出的内容啊,能直接拿去用。如果这种能力再往前一步,本地内容助手,本地办公助手,本地智能工具很快就不再是概念了。 还有一个大家忽略的关键布局,官方已经把 jam 四接入了安卓系统的原声 ai 框架和全设备智能平台,这意味着它从一开始就不是只给电脑端玩家用的。土哥的目标啊,是让它成为所有智能设备的通用。 再过一个多月啊,就是谷歌年度的开发者大会了,可以敬请期待一下。所以我敢说啊,杰玛斯啊不是一次普通的模型更新,它是一个分水岭, ai 不 再是大场云端的专属特权,而终将要回到每一个普通人的手里。好,本期视频就到这里,我是爱分享的阿月,我们下期再见。

你有没有算过一笔账,你每个月交的 ai 订阅费,交出去的每一分钱,都是在帮别人训练一个永远不属于你的模型。你以为你在使用工具,其实你在给他们打工,你贡献创意,提供数据,培养算法,最后还要按月付费才能继续使用,这可能是二十一世纪最精妙的商业模式,当用户一边生产价值, 心甘情愿交钱,直到有人捅破了这张窗户纸,他就是 simon defilution, 他 不搞会员体系,不玩内测资格,甚至不需要联网。他只做了一件事,把一些本该属于咱们人类 ai 视觉能力, 从巨头的服务器里,全部搬到塞到你那台普通的电脑里。同时你不用再为每一次领养付费,不用再担心下个月涨价,不用再纠结这张图到底归谁开源免费, 你的创意第一次真正的属于了你自己。咱们视频内所有素材,包括整套格式库以及呢各种模型插件,我全部打包好了,感兴趣的点个六。那下载完之后呢,我们来解压一下安装包, 然后直接右键啊,解压我们当前所在的文件夹,这个文件夹我不建议大家是中文啊,解压完成之后呢,不需要安装任何东西啊,我们找到第一个 粉色的一个小图标啊,双击打开启动器,可以进入到启动器的界面,在左下角呢,会有一个标示启动器的版本。我们再点一下一键启动按钮了,因为是第一次启动,所以需要等几分钟来进行部署。好,我们耐心等一下就好了。然后我们进入 s g 的 一个操作界面,如果把它比作房子的话呢,这个界面算做毛坯房,因为只有一个模型,什么也做不了。 那么这个时候呢,我也精心的给大家整理好,并放置了各类型最常用并且很多的一个模型到整合包。我们只需要啊, 在模型的中文备注里直接预览图一起整理放好啊,只需要你在 sd 的 操作界面上,直接就能看清模型的样图和中文的名称, 就不会和别人的一样,只显示一串英文代码,风格根本就分不清,看着就图大啊。我这枚小红包呢,不仅包括了 s 一 大模型,还有 low 二模型等等,这样直接拿来用就可以了啊,这种 s 一 不香吗?只是稍微有点大啊,但是呢,这些都是入门必备的了。

过去三年里,许多人相信人工智能越大就越聪明,他们认为参数越多,性能越好, gpu 越强,智能越高。 本周,谷歌的开源模型 gemma 四彻底颠覆了这一普遍看法。 gemma 是 由 google 发布的一系列开放权重模型。开放等待意味着模型的等待数据可免费获取, 任何人都可以在自己的笔记本电脑服务器或云端下载并运行它。虽然 chat gpt 和 gemini advance 只能通过云端使用,但 gemma 最大的优势在于它可以安装并在您的本地环境中直接运行。 那么,这一切是怎么突然发生的?因为谷歌新宣布的 turbo quant 是 一项能显著降低大规模语言模型内存消耗的技术, 据说它将内存效率降低至六分之一,这有潜力显著降低人工智能的运营成本。而且,我认为许多人希望本地大语言模型终于能变得更清亮。 过去无法运行的超大模型,现在甚至能在家庭显卡上轻松运行。 当大型语言模型生成文本时,它会使用一种称为键值缓存的工作记忆来存储过去已计算过的 token 的 信息。 没有这个,每次生成新 token 时都不得不从头重新计算。问题在于,随着上下文的增长, kv 缓存的大小呈限性增加。 在处理长对话或长文档时,消耗 gpu 显存的是这个 kv 缓存,而非模型权重。总之, turboqant 并非能显著降低本地大型语言模型整体权重的魔法咒语, 其本质在于对执行过程中扩展的内存进行强力压缩,主要体现在 kv 缓存中。所以让我快速演示一下实时聊天机器人,向大家展示它是如何工作的。 我将上传一张包含资产和负债的图片。你可以以任何格式上传图像直接显示。 如果你观察智能体如何生成输出,会发现他将文件保存到字盘上的临时位置。文件以随机名称保存,但保留了正确的扩展名,以便正确识别格式。 如果输入是 pdf, 每页都会使用 poplite 中的 pdf 转 portable pixma 工具转换为 png 图像。这一步是必要的,因为视觉模型只接受图像页面,以配置的每英寸点数渲染通常为三百。 更高的 dpi 能提高精度,但也会增加处理时间和文件大小。如果您选择了页码范围,只有那些页面会被处理。图像会被临时存储,随后清理。 接下来,所有图像都会检查尺寸。如果图像尺寸超过最大维度默认值为一五三六像素,它将使用高质量 lensos 滤镜按比例调整大小。 这既保持了处理速度,又保留了足够的细节,以确保文字识别准确无误。如果文档类型设置为自动,智能体会快速对图像进行分类,例如普通表格,手写或扫描件。 这有助于他选择最佳的 ocr 提示词。如果你手动选择类型,此步骤将被跳过,随后图像被编码,并于选定的提示词一同发送至本地的 olma api。 该请求使用了流逝传输, 因此文本会随着生成的推进逐段返回。智能体将这些片段收集为最终结果,同时跟踪原数据,如令牌数量和耗时。 最后根据所选的输出类型对结果进行格式化,纯文本合并所有内容。 markdown 增加结构, jsn 保留所有原数据。这段代码将在我的 paypal 平台上发布,因为我为此投入了大量时间和精力。 如果你喜欢我创作的内容,并希望看到更多类似项目,在配置栏上支持我,将帮助我持续制作高质量内容。您的支持我将不胜感激。 g m 四有四种尺寸, e 二 b, e 四 b 二十六 b a 四 b 和三十一 b。 小 型模型专为智能手机和边缘设备设计,大型模型则面向本地 pc 和工作站。 此外,它支持长达二五六零零零 token 的 长上下文长度,并能处理超过一百四十种语言,较小版本为一百二十八 kb, 较大版本为两百五十六 kb, 使其非常适合分享整个代码库或长篇设计文档。 其功能也高度面向实用。它原声支持函数调用,即用于调用外部工具和 api 的 机制,并且默认也支持系统角色。 所有模型都能处理文本和图片。小型模型原声支持语音,换句话说,它是从底层设计的,不仅用于聊天,更是作为连接搜索、执行格式化和决策的智能体的基础。 不仅聪明,而且易于融入工作流,我相信这就是 jama 四的精髓所在。虽然模型本身的智能很重要,但真正能在实战中起作用的有三点,阅读长文的能力、调用工具的能力以及本地运行的能力。 我想在这里采明的是,它不能让模型本身变得更清亮这一事实绝不意味着其价值很低。相反,在本地 l l m 的 实际运行中, k v 缓存才是后期变得更为关键的因素,因此减轻其负债带来的益处相当显著。 根据谷歌研究, turboqant 只在以极低的卫星实现压缩。对于 kv 缓存量化,它在每通道三点五比特时达到绝对的质量中性,即使在二点五比特时也仅有微小的质量下降。 粗略地说,这个数字意味着用于上下文保留的内存可以被显著减少。尽管如此,质量下降的可能性仍被控制在最低限度。 如果 turboqant 被实施并在本地大模型中普及,我们可以期待以下变化,使长文本处理变得更加容易,这有可能让处理掌上下文变得更轻松。适用于长文本摘要、代码库分析、文档输入和 r a g 等任务。 由于 kv 缓存随续列长度增加,对其进行压缩将使长文本操作更加可行,即使使用相同的 gpu 维持性能也变得更加容易。这将缓解短文本表现良好,但长文本突然变得困难的情况。 这一改进对于拥有约十六 gb 显存的显卡尤为重要,因为即使模型本身能够加载,它们在处理长文本时仍常常遇到困难, 这与 kv 缓存压缩研究的总体趋势一致。该研究指出,内存减少能带来吞吐量和批处理规模的提升。 在需要处理长对话、多任务、 r a g 和代码辅助的应用中,针对多次执行和基于智能体的操作而言, kv 缓存往往比模型本身更具阻碍性,因此,优化这一方面极具价值。 一定要一直看到视频的结尾。如果你还没关注我,我强烈建议你关注一下,这样就能随时掌握最新的人工智能资讯。 最后,别忘了订阅开启通知铃铛,点赞这条视频并查看往期内容,因为其中有很多对你大有裨益的内容。 那么让我们继续回到视频中。所以我写了一个函数,它能读取用户输入的字母串,比如一和五或者一、三、七和十。然后把它转成一个干净的页码列表。 它按逗号分割字母串,因此一、三、七和十变成更小的片段。每个块都会检查是否有连字母。如果存在连字母,就将其视为范围,并填充起始数字与结束数字之间的所有数字。如果没有连字母,它就只取那个单个数字。 他在构建列表时使用集合,因此像一、三和二这样的重复项会被自动移除。最后,他将所有内容转换为排序后的列表,因此页面始终按顺序返回。 然后,我写了一个函数,把 pdf 转成 png 图片,这样 jama 四就能读取它们了。他首先检查是否安装了 pdf 转 ppm 工具,如果不是,他会打印安装提示并退出。 然后他设置一个输出路径,让图片命名为配置减一,配置减二等。他指,如果用户选择了特定页面,他会对每个页面运行一次 pdf 转 ppm, 否则他会针对整个 pdf 运行一次 dashr 标志设置图像质量 转换后,他会抓取文件中的所有图片排序,并在未找到时退出。辅助程序提取页码,读取文件名,去除扩展名,抓取数字,并将其转换为整数,以便应用知道每张图像来自哪一页。 接下来,我创建一个函数来决定如何处理任意文件。他启动计时器,检查文件类型,然后走两条路径中的一条。对于图像,他在单个图像上运行 ocr, 并将结果封装在包含文件信息、时间戳、模型名称和页面列表的字典中。 对于 pdf, 它会创建一个临时文件夹,用 pdf to images 将页面转换为 png。 对 每张图像执行 ocr, 收集结果并构建相同的字典。 临时文件夹会被自动删除。如果文件既不是图像也不是 pdf, 它会打印错误信息并退出。无论哪种情况,该函数始终返回相同的字典格式。因此,智能题以相同的方式处理图像和 pdf。 接下来,我让这三个函数都将结果字典转换为可读字母串,只是采用不同的风格。 format a, c, j, s, o n 是 最简单的,它将完整的字典以美观缩进的 j s o n 形式导出,保留所有字段,如时间戳和令牌技术。 format a markdown 结构更清晰。它将输入归一化为列表,添加包含文件名、模型、页码和时间的表头, 然后便利每一页加入规则页面标题,隐藏的 html 注置以及文本。 format text 是 最精简的一个, 它标准化输入,若存在多个文档,则仅添加文件名分格符。随后几乎不做额外格式化的直接输出原始文本。在底部,格式化器将 json, markdown 或文本映射到相应的函数,以便智能体能在一步内选出正确的格式化器。 jama 四最重要的并不是那个,还有一款顶级旗舰机型。我认为真正的问题在于过去完全依赖云端的人工智能开发,正转向云端与本地计算的混合模式, 重型推理和最终决策在云端完成,而日常支持和内部数据处理则在本地进行。 另一方面, turboqant 是 一项有望大幅提升人工智能性能与效率的技术,预计未来将吸引更多关注。 它尚未面向普通用户提供,但这是一项将影响人工智能未来的重要技术,值得密切关注。

hello, 大家好,我是 ken。 上条视频说到 gemma 四在接入到 openclaw 之后,只能充当一个聊天机器人,我不愿相信,也不甘心, 一个二百六十亿参数的模型,能力应该远远不止于此。于是我今天又坐下来折腾了一天,有好消息也有坏消息,听我慢慢说。 先说好消息,今天的第一个突破,在我给他安装了文件系统技能之后,赋予了他读写我本地文件的技能。果然,他可以根据我的指令在桌面生成一个 markdown 文件,算是一点小小的生产地了。 但当我让他在桌面上创建 word 或者是 ppt 文件的时候,还是一样会牢牢卡住。 好消息到此为止,但接下来我想到了一个新的思路,既然 openclaw 是 有记忆的,它可以学习并且积累技能, 那么如果我先接入到一个聪明的大模型,把我需要的技能都完整的走一遍,再切换回 gem 四大模型,看它能不能完美的复刻出来。 于是我切换成了 podocr 技能之后, 在桌面上放了一张带有简单文字的图片,然后让 codex 先做一遍演示,把图片上的文字准确地提取出来发送给我。 结果非常顺利, codex 不 但把桌面上的文字准确地提取了出来,还帮我顺带把技能也优化了一遍。 好现在切换回 jama 四,让他重复刚才的操作。我给他下了一样的指令, jama 四可以正确地调用 pad ocr 这个技能,也能够识别到桌面上的图片,但就是在提取文字这一步,他怎么样都做不到,会卡住。 我中途问他是否有停止工作,向我汇报进展,他都说正在提取文件中,但是无论我等待多久,十分钟,二十分钟,半个小时 都没有给我任何的反馈。我担心是不是他在运行的过程中,我的电脑内存不足,导致他没有办法生成,于是我把模型切换成了更轻量级的 e 四 b 版本,结果还是一样,会在提取文字的过程中牢牢的卡住。 这让我有点困惑,究竟是我的电脑内存不足,还是模型的能力不够?我更倾向于认为是模型的能力不够, 因为二十六 b 混合专家模型在实际工作的过程中呢,只会调动四 b, 也就是四十亿的参数。 这个被激活了四十亿参数的专家可能还没有学会怎么去运用 o c r 这项技能,但也不能完全排除是运行内存不足导致的。 现在还不能下定论,只有等四月十六号我的 max studio 到货以后,我让他跑三十一 b 满血版的大模型才能够有答案揭晓了, 到时候我会第一时间和大家分享我的测试结果。上一条视频的评论区有很多人问我,他的设备的内存是多少,什么版本 能够跑什么样的大模型?这里就 gemma 四的四个版本呢,我分享一个简单的小公式,供大家去进行自行计算。普通模型呢,就用你的内存或者显存储以四, 得到的数字就是你能运行的大模型版本。比如说,如果你的内存是十六 g 除以四等于四,那么也就是说你的电脑可以跑 e c b 这个版本。接入 open cloud 以后呢,可以做问答机器人,也可以生成 markdown 文件。 但是 jam 四的二十六 b 混合专家模型是略有不同的,因为就像我刚才所说,它在工作的时候呢,只会调动四 b 的 参数,所以呢,是比较特殊的,如果内存达到二十四 g, 就 可以运行二十六 b 混合专家模型。 还有一个简单的测试方法就是如果你电脑的内存是足够的,你可以把呃一二 b, 一 四 b 和二十六 b 三个版本的大模型都下载在本地,然后用欧拉玛去运行它们,看看你提出问题或者下指令之后,他们是否能够做到秒问秒答。 如果能够做到秒问秒答的话,那接入 openclaw 它是可以做问答机器人使用,没有问题的。但是如果在欧拉玛中只是作为聊天机器人,它的回答都是相对来说比较慢的话,那接入 openclaw 肯定是没有办法使用的。 在接入 openclock 以后呢,内存的消耗量会稍微大一点,所以大家在实际使用的时候,最好还是能够留一些余量的好。今天的折腾就分享到这里评论区,告诉我你们还想看什么,我们下期见。

今天的视频我们往本地部署一下全马司,全马司不仅仅是个文本生成器,他还是一个具备多模态能力、多步规划能力及逻辑推理能力的模型,这意味着他在回放复杂问题时,人会像 oe 模型一样展示其思维能力而被进行给出最终答案。 首先我们来到阿拉玛的网站。好,直接点击下载 download。 好, 这里有三个选项, mac os、 linux、 windows 好, 因为我的电脑是 windows, 所以 我们选择 windows 好, 直接点击 download 的 下载, 安装完以后打开这个页面,好,这里我建议先到这个设置里面, 把这个模型的放置位置从 c 盘改为到别的什么盘,因为我们不希望他去占据 c 盘的内存,因为每一个模型他所需要内存还是挺大的,都一般都是几个 g 几个 g 起步的,所以我们优先把选择到比较空的字盘里去,把放置一下, 然后我们打开这边的模型挑选,让我们浏览一面,发现没有我们想要的詹姆斯, 然后我们就打开我们终端,这里 vr 一下,好选 cmd 终端,打开以后,我们输入这一串,好点击运行。然后这里我简单介绍一下杰姆斯,他有很多不同的版本, 这比方说二 b 或者四 b 的 版本,他门槛就比较低了,你只要有三六零或四六零的显卡,一般建议是二 gb 上的显存,你就可以流畅运行它了。 然后像三十一 b 这种大型版本,一般的显存要求就很苛刻了,通常你需要有二十四 gb 上的显存,比如说四零九零或者最新的五零九零。 我们刚才下载的是一四 b 的 版本,这里的话,如果你显存不是很够的话,比如说只有六 gb 的 五零七零太好,你去强行下载运行二三十 e b 版本的,有时候可能模型会回退, 就会导致推率速度大幅下降,甚至会出现卡顿这种情况,所以这里我建议还是下载一四 b 的 版本比较好。 如果你想在终端里下载三十一 b 的 大型版本的话,你其实只要在终端指定你后面加他的后缀名就可以了,终端显示这个页面网名他已经下载完成了。 我们重新回到阿拉玛上去,我们打开这边的模型找一下,发现他已经有杰玛斯了。好,这里我问他一个问题 啊,这边就在思考好,因为詹姆斯他是个多门态模型嘛,所以我们我们发张图片 问他一下, 他回答是,其实我发现他一张关于 solo 的 logo 图标,他那边回复就是比较普通,这原因可能就是因为 在训练的时候可能关于这种特定图标样本不够多,然后詹姆斯就只能根据形状进行通用的描述,没有办法直接叫出丝袜的名字。 然后第二个原因可能是因为没有上下文的提示嘛,而他为了避免幻觉也就胡说八道,会优先选择客观描述图片内容,而不会去盲目猜测他到底是什么东西。 还有另一种可能就是像四 b 中尺寸的模型,在常识库的深度上可能会有所折中吧, 他或许能够理解图片里的解剖结构,但在于瞬息外面的互联网流行图标可能随便识别率就会稍微低一点。然后以上就是本期内容了,如果你觉得我的视频有帮助的话,那就给我点个赞,投个币,加个关注吧!

兄弟们,欧拉玛已经更新好了,杰玛斯的大模型也不朽完成了,一共四个模型,接下来挨个测试一下,所有的测试都是在这个电脑配置下完成的。第一个问题,介绍一下自己, 第二个问题,用李白的风格写一首 诗。 最后一个问题,经典的喜鹊问题 总结一下,四个模型都测了,最快的是一二 b, 最慢的是三十一 b, 四个模型第一次启动都有点慢,后续速度都还可以。 总的来说,回答质量最好的是三十一 b, 包括最后的一个洗车逻辑陷阱也自动识别出来了, 就是我这个配置运行起来实在是太慢太慢了,所以性价比最高的应该是这个二十六 b 模型。回答速度,回答质量都还可以,可以用在部署小龙虾,用来做个人的 a 键,挺好用的。后续再和千万三点五做个横向对比,记得点个关注。

手机都能跑大模型了?谷歌最近发布了 jam 四,一次放出四个模型,从手机到服务器全覆盖。 我甚至在谷歌 lrt 上发现了只有二点五 g 和三点六 g 的 量化版本,这也算是让大模型走进千家万户了。 我在自己十六 g m 四芯片的 macbook 上部署了 jam 四 e 四 b 的 两个量化版本,还顺手接了一下小龙虾。在看测试之前,我们先快速看一下这次 jam 四到底有多离谱。 先看这张图,横轴是模型参数大小,纵轴是模型打分。 jam 四三十亿币的分数和将近四千亿参数的千万三点五基本持平,但它只有三百一十亿的参数分数一样,参数量少了十倍,让步数成本极大的降低。 这还没完, jam 四还支持原声读模态,这意味着模型是真的在看图,在听声音,而不是通过编码器翻译之后再送给他模型。 关键这个模型还是真开源的,它的许可证书是阿帕奇二点零,这意味着你可以修改它,可以商用,甚至可以改完币源再卖钱。那接下来咱们就来看看量化版本的 jamma e 四 b 到底怎么样。这个 jamma 四 e 四 b lite r t 版本的模型 需要用到谷歌 lite r t l m 的 开源推理框架,它是谷歌专门用于在边缘设备,比如手机、笔记本上部署大模型的推理框架,它支持音频和视觉推理,不过它没有图形界面,所以我这里就临时手搓了一个页面用于测试。这看着可能有点丑,呃,稍微忍一忍 就好了。我们这先来给他一个经典问题,我想去洗车店洗车,我家距离洗车店三十米,我该开车去还是走路去? ok, 我 们直接发送给他。 很明显他这里关注错了重点,没有注意到前面的前提,一本正经的比较了开车和走路的优点缺点, 我们看一下他的模型速度怎么样。这次提问,他的首个 token 的 返回时间是一秒钟,相对来说还是比较快的。然后我们再来看他的输出速度,大概是十七个 token 每秒钟,这个速度来说就不是很快了,那整体的耗时呢?也是回到了四十五秒钟。 接下来我们开启一下推理模式,再问一遍这个问题。呃,很遗憾他还是没能答对。我们从他的思考过程中就可以看到,他一开始把目标就定错了,他没有真正识别出来问题的目的, 所以他就在错误的路上越推越远。我们再来测试一下图片识别的功能,这是我之前做的一个封面,让他分析一下这张图片,我们来看一下结果。他可以识别出这个图片的风格和构图,以及他设计的一些角色和文本以及图标, 说这里沙尘暴的背景以及角色的穿着和打扮,甚至他的神态都读到了。呃,只不过唯一的缺点是他没有把背后的这个龙虾形象和这个龙虾的文字联系在一起,他认为他是螃蟹。然后还有就是他把这个识别成了一个营销海报,而不是一个视频封面,而这也可能是我做的有问题, 我们再做一下视频测试,我这是从上期视频中截取的十五秒的一个片段,里面就是讲了大模型调用工具的过程,我们让他分析一下这个视频, 他这个模型的视频识别主要是把视频拆成图片序列和音频轨道来去理解视频,我们看到他已经返回了,结果这里他的总耗时确实有点 长,这一个十五秒的视频,他的总耗时大概是两百零七秒,他个首个头肯的输出时间大概是第三十四秒的时候才返回,那因为开启了推理过程,他的推理过程是没有被计算在输出速度里的,他已经到这个三头肯每秒的速度。 我们看一下他的结果,他的这个视频分析结果还是很可以的,他精准的读到了我这段视频的意思,他的整个流程是完全正确的,甚至他还进行了关键技术点的分析。我这条视频并没有明确说他是一个代理性的行为,但是大魔性还是识别到了他这个潜在的含义。 通过他的知识回答的这个,下面我们再测一下他的音频功能,这个模型支持的音频上线是三十秒,这里我截取了一段二十八秒的音频,让他提取音频内容,并且翻译成英文,我们来看一下,结果他很好的识别了原文,并且翻译成了英文。唯一有个小瑕疵, 这里的基本正确,我的原文应该是一本正经,然后它的总耗时时间相对来说也是有点久,大概耗费了一百三十二秒。这个模型的上下文窗口会比较小,它的上下文窗口是三十二 k。 做一些简单的问答应该还是可以的。 如果大家想简单部署本地模型,苹果 m 系列芯片的电脑可以用 o m l x 来傻瓜式部署模型,这个推理引擎专门为 mac 做了优化,用起来也很简单,在下面安装,这里点击发布, 然后到下面下载你系统对应的安装包就可以了。下载好后打开安装器,然后这么一拖就完事了。第一次打开会有这样一个界面,主要配置两个,一个是 port 端口号,如果要通过 opencloud 或者其他 agent 调用本地模型,都需要访问这个端口 号。下面的 apikey 就是 调用时的密钥,保存之后就会来到这个面板,我们点击上面的模型选项卡,选择下载器, 然后搜索杰玛四,那这里就可以很方便的下载模型,下载的时候可以选择 m l x community 前缀的模型去下载,根据你电脑的配置选择就可以了。在设置这里我们可以直接加载模 型,我们就可以在聊天选项卡里使用模型了,比如随便问他点什么,这样你就完成了模型的本地部署。 那如果我们想让 openclaw 使用 o m l x 部署的本地模型,可以在 openclaw 的 模型配置中加上这么一段。这里的端口号和 apikey 就是 你之前在 o m l x 里设置的,给 openclaw 发条信息试试。那我们在这里就可以看到我们的一个请求已经进来了, 像我这样一个你好,只是两个字,它就要加载四万多的 toc, 因为 open class 会在上下文中塞很多信息,比如核心 md 文件、 skill 你 的记忆以及其他的一些东西,这些都会占用 toc。 在我目前这个电脑上想通过本地部署使用小龙虾还是有点费劲的,一个是它的预装填速度比较慢,还有就是它的 token 稍微异常,这里就要报错了,如果大家有更好的设备,可以本地部署玩一玩,最后别忘了一键三连。