各位朋友大家好,今天给大家演示一下我正在开发的一个新的移动端项目,在手机上面使用呃本地大模型来运行智能体,通过智能体的能力调用齿轮计算的各个模块, 现在大家跟着我的演示视频看一遍。在加载本机智能体模型之后,这里面用的是最新的大模型加码四,然后运行手机端的智能体,他会调用齿轮计算智能体智能计算技能, 很快它就会生成计算报告,这这都是由大模型来完成的计算报告里面演示的有,在此演示的是齿轮参数计算,再看下外元素,齿轮参数计算会生成计算报告。 网页版计算报告包括绘制齿轮图形,同时它还会生成一个 d x f 格式版的图纸,这两个图纸我们可以保存到本地, 我们可以直接保存到本地,下载下来之后,我们可以到本地去直接打开它,比如首先是 html 文件,直接是可以双击通过浏览器打开, 这里面的演示的是已知参数和计算结果,包括跨望区,功法线这些。呃所有的详细计算报告最下面还有一个绘制的那个尺形。 之后我们也可以用手机端的 d x f 格式的看图软件,直接打开这个 d x f 格式的图纸。这所有的一切都是在 本机的离线状态下进行的,运用的是现在最先进的呃比小模型,仅有两 g b 的 一个模型参数量。
粉丝1580获赞3080

大家好,这两天杰纳斯啊,非常热,有人说他是一个开源模型的一个新王者啊,到底是不是呢?我们今天可以来测一下,刚好这两天有一个特别重重要的一个新闻,就是说,呃, 捷豹四呃跟卡布扣的,在这个奥拉玛这个角度上可以做一个无缝的集成,只需要两步操作,第一步就是你装奥拉玛,然后呢下捷豹四的最新的 efo, 比如说我的这个笔记本电脑,它是 rtx 四零六零的一个显卡,它有八 g 的 显存,我这个机器有十六 g 的 内存。 那么这时候呢,我们就可以下它一个 efo 的 一个模型,也就是捷豹四 efo 大 概九点六 g 下,下来以后呢, 然后用再装一个 cloud code, 你 可以用那个,比如说你去 windows 一下,你可以用它的 cloud shell 命令啊,一键安装,安装好以后,你你可以用这个奥拉玛的一个集成命令,把 cloud code 让他去用本地的杰纳斯 eiffelb 的 这个模型,那就这条命令, cloud cloud 杠杠 model。 杰纳斯,然后呢他会先去 下载这个模型啊,他发现我已经下载过了,所以马上就成功了,然后他马上呢去启动这个 cloud code, 然后让他去用这码四这个模型,然后他会问你几个问题,最后呢就是会让你信任这个当前的这个文件夹。好,我们现在已经到这了,我也是刚刚装好,我们来试一下, 请帮我写一个写一个 hello word 的 htm 页面,并在默认浏览器中打开。 好,我们看一下啊,它的这个怎么样?它现在用的就是我们的本地的杰纳斯 infob 的 这个模型小模型啊,然后我们看一下它的一个 gpu 的 一个利用率啊, gpu 一 现在有百分之九十六,那跑满了,你看到了是吧? gpu 一 的这个利用率跑满了,我们看看它到底怎么样啊,哈哈, 它现在这个要显示 token 哦,出来了,大概花了不到两分钟吧。三分钟啊, and i will use the batch。 对, 它是先计划啊,然后 yes, ok, 那 现在 open yes, 继续 ok, require pool yes, 哦,打开了,看到吗? hello, word this is the basic html page。 那 好,我们再让它做一个稍微难一点的,我说写一个最简单的贪吃蛇游戏,并在 切神浏览器中打开,我们看一下啊, 一起创建。 ok, 我 们这样好,打开了,就是贪吃蛇,我看一下啊,可以看能不能玩。 ok, 这个是最简单的,还没有碰到。这个还没有,还没有开始就结束啊,就是不是还没有开始就结束,这个人最简单,但是我们已经看出来这个杰马四啊,他的一些这个功能,我觉得就是他的这个编程的能力啊,我觉得还是可以的啊,因为我这个是小参数模型呃,你不能对他有太高的要求。 ok, 那 么我们今天用这个 cloud code 和 java 四 evo b 这个,呃,一块编代码的。这个游戏呢,我们就告一段落了,我觉得它还是有点用的啊,有些很简单的任务,我们是可以用本地模型的,这样的话也节省非常昂贵的云端 api talk 的 费用。好,谢谢大家。

很多人问我十六 g 显存为什么能跑 jam 四二十六 b, 现在我把我的设置教程发出来,我用的是 l m 塑镀,有上下纹,长度设为六十 k, gpu 卸载设为二十,剩下的三十层给 cpu 跑。另外 k 和 b 缓存一定要开启 q 八量化, 这么设置完显存占用基本在十二 g。 第一次设置的时候是十五 g, 但重启软件再加载就变成十二 g 了,显存还有四 g 剩余。咱们来看看速度。这里测试一个办公场景,发一张竖版流程图给 ai, 让它改成横版。注意看,这里全程无加速, 他直接给我生成了代码,没有任何废话,速度非常快。最后我用工具将代码解析成流程图,结果就是这样, 和原图对比一下,逻辑基本一致,确实非常厉害。

jam 四非常的火爆,这个视频我们来看到它的破线版本,使用欧拉玛运行,去除了拒绝回答机制,直接的回答没有任何的限制,以及社区当中风评比较好的大参数破性模型 g b d o s s 那 么就与图像和视频模型破线一样, gm 四破线之后的话,能够回答我们提出的任何问题,他不会拒绝,且会直接回答你的任何提问。这两个模型以及对应的五零九零启动日设我都已经部署至了应用之算平台上面,同时这个视频我将分享一个文档, 以辅助想要在本地运行的朋友来如何进行欧拉玛模型的模型文件配置,以控制欧拉玛运行下模型在 gpu 当中的卸载陈述。经过 这样的配置学习,我们可以使用更低的显存来跑更大的模型,甚至说跑一百二十倍的模型。点击进入到优云智算平台,找到对应的镜像点击部署实力,那么我这里推荐租用的是五零九零显卡, 使用 jimmy 四最经济也最具性价比的选项。那么这是一个自启动的镜像,我们不需要启动指令,点击立即部署, 等待一下。那么出了欧拉玛之后的话,我们点击欧拉玛就可以进入到 open web ui, 输入统一的电子邮箱和密码, 点击登录上方,就可以选用对应的模型并与模型进行对话。如果我们租用的是五零九零,可以使用五零九零对应的预设,能够获得更为稳定,更为一键自动化的运行。破线的内容不是那么好演示,正常情况下我们就 打开侧边栏,该怎么对话就怎么对话,那么这都是常用的对话形式嘛,这里我直接以 g b d 开源的这个模型为例,快速启动上来说,只需要记住预设与非预设模型的区分,那么上风这两个也并不是实体模型,仅仅是一个搭配了预设文件之后的模型感 改了一个名字而已。我就以这个一百二十 b 的 模型为例,它是由 g p d 开源,但就限制解除破线这一块的话,这个模型的话,它的性能仍旧算得上顶级,所以我也把它给加进来。当然 jam 四也是很强了,我们可以看到用时十一秒钟,一点都不快, 但仍能属于可以接受的水平,在此时此刻,内存占用为六十七点七 gb。 这里的技巧我整理成了一个文档,放在了我的 bilibili 的 简介当中的云盘里面。把这个文档呢丢给大语言模型九十以上的概率,它能够帮助你去控制大语言模型的 g p u 卸载的陈述。这是 g b d 给我总结的文档,如果愿意的话也可以看一下,这一套是使用 jupiter lab 来进行的配置。我们切一下这个圈八四模型看一下, 可以看到 jam 四的思考速度还是非常的快的,此时此刻的内存占用为五 gb, 因为大部分的模型还在我们的显存当中,回答速度也很快。那么今天呢,由于一个快乐马模型呢,据说是登顶了,甚至呢要超过 cds 来自于阿里,那么具体如何的话,我们还是等它真正的 开源了再看。可以这么说,现在这个状况来说,只要是开源都是有意义的,因为从以前到现在来说的话,哪怕只开源一代模型的话,退一万步说 我们至少能保留那一代模型在我们的硬盘当中,想用的时候随时用,没有限制,就像今天的这个镜像一样,完全的解除了我们的限制,问什么回什么,可能说没有那么聪明,但是绝对自由。

哈喽,大家好,酷狗前两天刚刚发布了最新的大模型 gm 四,这个大模型它是完全的开源和免费的,能够在本地的设备上离线运行,我用了这几天,我觉得这才是二零二六年最合理的 ai 技术路线。 真正值得关注的是,呃,他的这个原声支持函数调用,这就意味着这个模型能够自主的使用工具,浏览网页,执行代码,调用 ipa, 相当于你在本地安装了一个智能体,全程也不用联网,也不用花钱,完全可以调用本地的算理。但是呢,很多人都不知道怎么使用,所以今天跟大家分享一下专门四的使用。专门四分别有四个不同的版本,分别是 e 二 b 四、 b 二十六 b a 四 b 和三十一 b。 这些模型大小各异,可以部署在手机、电脑和云端的服务器中,它非常适合文本的生成、编码和独立任务。这张图片呢,是谷歌官方的一个,相当于是个测评吧, 不同大模型之间的一个测评。我们可以看到这几个都是市面上比较好用的大模型,嗯,包括我们国产的 d c 克千万和 kimi, 还有那个 g p t, 我 们可以看到这是它们之间的那个性能的一个对比吧。嗯, nice 区域,我们可以看到这个是 g m 四,在我们传统的认知里,模型越大,参数越多, 它的性能就越强。在途中我们可以看到 g m 四的这个三十一 b 的 这个模型,在实战能力上竟然超越了千万的三点五,因为三十一 b 它只有 三百一十亿的这个参数。千位三点五呢,它有将近四千亿的参数,这两者之间的这个体积相差了十倍,所以呢,你可以看出这面四就是用十分之一的体积跑出了十倍体积的对手,那这就意味着你不需要再付 报的这个服务器的费,你在自己的电脑上,手机上就能够拥有世界最顶级的这个 ai 大 脑。然后我们看一下这四个版本的功能吧, 以及定位。三十一 b 被称为是全能大脑,它可以处理任何的这个你所想要的执行的一些任务吧,它的定位呢,也是非常的明确,是最顶级的一个型号,擅长呢查某某的创作以及 深度的逻辑推理,它就像人类的思考会给你列出这个提纲一样,然后排查啊错误,然后再输出, 所以他非常擅长于这个深度的长文写作。那么第二个是二十六 b 的, 这个被称为效率之王,它的定位就是相对于上一个呢,它是一个平衡的版本,那么它的功能是保持在极高的智商的,同时呢,响应呢,要比三十一 b 更快, 所以呢,它适合于这个频繁的互动啊,快速的迭代的创意的这种工作。那么第三个和第四个是一四币和一二币,这两个呢被称为侧端的,先分我们,我我认为的就是说它是一个轻量化的模型,它只有四十亿和二十亿的一个参数,所以呢, 呃,它的这个体积相对也比较小,但是呢,虽然说它的体积比较小,但是可以通过这个 single 的 强化处理一些日常的对话呀,这个日常的整理,呃,简单的,这样还是非常的流畅的, 我们可以看到这是专门四网页端的一个界面,其实我这两天用的,用下来,我觉得他的这个云端的和网页端的这个使用其实是非常的非常的好给我的体验。因为普通人说实话你的电脑可能 配置没有那么高,所以你装了最高的那个等级的那个模型,你使用起来你的电脑可能就会如果说你的性能不够的话,你的电脑就会起飞的。所以我建议啊,就是如果说你不是做一些特殊的一些任务的话, 我建议直接用网页版的是最靠谱的。那电脑端有 pc 和 mac 的, 它的一个好处我刚刚讲了,就是直接在本地运行,断网也可以使用,最大的一个好处就是它是保护隐私的,不用担心你的文件或者说是你的信息隐私会被泄露,因为断网也可以使用,我觉得啊,是 这么的一个最大最大的一个特点。那么另外就是它的手机端是苹果和安卓系统都可以用啊,因为手机的内存是有限的, 所以呢我的建议就说如果是你非要在手机上装这个,我建议就是用的轻量化的这个版本的,否则的话你的手机肯定会发烫,它运行起来 特别的耗费你的本地的这个手机的一个算力的。所以最最第三个就是云端的,我是最推荐的这个直接再往月端调,而且你可以直接用免费的算力,因为使用也是免费的,你往月半使用也是免,不像其他的一些大毛器,你用着用他就没法用了,他就你的这个免费的额度,用完了 不让不让你用了。但是 gm 四它是无限使用的,目前来说是免费使用的,所以的话呢,大家如果说是想用的话,尽快用起来,我觉得是非常好的一个大冒险。大家如果说有其他的问题,我们在留言区可以互动一下,有什么问题可以直接问我哈。

兄弟们,欧拉玛已经更新好了,杰玛斯的大模型也不朽完成了,一共四个模型,接下来挨个测试一下,所有的测试都是在这个电脑配置下完成的。第一个问题,介绍一下自己, 第二个问题,用李白的风格写一首 诗。 最后一个问题,经典的喜鹊问题 总结一下,四个模型都测了,最快的是一二 b, 最慢的是三十一 b, 四个模型第一次启动都有点慢,后续速度都还可以。 总的来说,回答质量最好的是三十一 b, 包括最后的一个洗车逻辑陷阱也自动识别出来了, 就是我这个配置运行起来实在是太慢太慢了,所以性价比最高的应该是这个二十六 b 模型。回答速度,回答质量都还可以,可以用在部署小龙虾,用来做个人的 a 键,挺好用的。后续再和千万三点五做个横向对比,记得点个关注。

酷狗发布的 jamax 家族这次把本地部署的门槛彻底拉低了,它包含了从高性能工作站到边缘 iot 设备的四款模型,不仅原生支持图文视频多模态理解,还拥有最高二五六 k 的 超长上下文。 最关键的是,全系全面转向了 h 二点零协议商用,完全没有后顾之忧。首先来看这个家族的扛把子三十一 b 电子版本,它采用全密集架构,三百一十亿参数在推理时全部激活, 这意味着它拥有该系列最强的逻辑能力和输出质量。如果你手里有八十 g 显存的 h 幺零零或者多张消费基显卡组基群,且对结果的精准度有极致要求,选这款就对了。 接下来是性价比最高的二十六 b m o e 版本,这里要重点解释一下混合专家架构的优势。虽然它的总餐数量有二十六 b, 但单次推理时系统只会激活其中三点八 b 的 参数,这种机制在保证智商的同时提高了每秒的吞吐量。 对于大多数本地桌面用户来说,这款模型在响应速度和性能之间达到了完美的平衡。针对手机和 l t 设备, google 推出了 e 四 b 和 e 二 b 两款端侧模型。这里引入了一个关键的 pl e 单层嵌入表技术,简单来说就是让大体级的磁表在查找时不全面参与常规计算,从而大幅降低内存占用。 一四 b 有 四点五 b 有 效参数,适合树莓派或 jason, 而一二 b 只有二点三 b 可以 直接跑在手机上,让端测 ai agent 成为可能。最后总结一下全系列的通用能力, 在上下文长度上,大模型支持二五六 k, 小 模型也达到了幺二八 k, 足以处理超长文档。再加上原生的图文视频理解能力,让它在实际应用场景中非常灵活。 在实际性能测试中, jam 四三十一币的表现非常强悍,尤其在 g p q a diamond 科学推理测试中,拿到了百分之八十五点七的高分, 但更核心的竞争力在于它的 token 效率。同样,一个任务竞品可能需要一百五十万个以上的 token 才能说清楚,而 jam 四只需要一百二十万个,这意味着它说话废话更少,逻辑更直接,在实际部署时能显著降低推理成本。 如果把它和国产明星 q n 三点五二十七 b 放在一起对比,你会发现一个有趣的现象,在一些细分的工具调用跑分上, q n 确实略占上风, 但在基于人类真实偏好的 rena a i yellow 评分中,两者几乎打平。这说明在实际的人机交互体感上, g m 四三十一 b 已经达到了顶尖水平。很多人好奇为什么价格没怎么变,性能却原地起飞? 其实拆解底层代码会发现,它依然沿用了 paperstorm g q a 以及局部全局混合注意力机制。这次性能的飞跃完全不是靠改架构,而是归功于训练数据的质量飞跃和训练配方的深度优化。这再次证明了在当前大中型阶段,高质量的数据才是真正的核心竞争力。 现在进入实操环节,如果你追求极致简单,首选奥拉玛。首先把版本升级到零点二零以上,然后直接在终端输入命令,想要轻量化测试,就运行一二 b 版本。如果追求性能和速度的平衡,强烈推荐运行二十六 b 版本。 对于 macm 系列芯片用户, m l x 框架配合 turboq 是 史诗级加强,它通过压缩 kb 缓存,直接把内存占用,从十三点三 gb 砍到了四点九 gb, 整整节省了百分之六十三的空间。 具体的部署命令就在屏幕上,这里有一个关键的权衡,开启这个优化后,解码速度会慢一点五倍,但它能让你在 mac 上跑满幺二八 k 的 长上下文。对于处理长文档来说,这个招牌绝对稳赚不赔。 如果你是显存困难户或者即刻玩家,可以尝试 einslof 和拉玛 cpp, 只用 einslof 量化,只要六 gb 显存就能跑起一二 b 或一四 b, 甚至能构建支持网页搜索的本地 agent。 而如果你有三张四千零九十并行二十六 b m o e 版本的速度能达到惊人的每秒一百六十二个头啃。此外,通过实验性的 turbo quant plus 分 支,能把三十一 b 模型的体积从三十 g b 强行压到十八点九 g b, 让大模型在消费级显卡上跑起来。 最后是企业级生产环境,建议直接使用 v l l m, 它原生支持多模态输入和二五六 k 的 高吞吐量,并且完美兼容多卡并发。 开发者在实测中发现, v i l l l 搭配最新版的 transformers cool, 可以 非常稳定地调用 jam 四的工具接口,适合构建大规模的商业应用。在部署之前,有几个坑必须提前告知。首先是模态缺失,虽然官方宣传支持音频, 在目前音频输入请在 google ai studio 线上可用,所有的本地框架都还没适配。其次是稳定性问题,如果你使用 l m studio 运行三十一 bit n s 的 g g u f 版本,可能会遇到死循环输出的 bug, 建议等待社区修复。最后是能力边界,在处理复杂的函数调用时, e 二 b 和 e 四 b 这类小模型的表现不如同级别的竞品复杂任务建议直接上二十六 b 或三十一 b 版本。最后根据你的设备和需求 直接看这个部署。建议企业商用直接选 jam 四 high party 二点零协议让你没有任何法务后顾之忧。个人 pc 或游戏本用户强烈推荐二十六 b m o e 版本,单卡四千零九十就能跑通超长上下文,且响应极快。 mac 开发者请认准 mlx 框架,记得开启 turboqant 来解放统一内存。至于 i o t 创客 e 二 b 和 e 四 b 证明了六 gb 内存也能跑起。智能 agent 是 端侧智能的最佳选择。

叮咚,家人们 ai 大 模型正式进入手机部署时代,昨天的视频呢,我跟大家说了,谷歌最新发布的加马斯模型可以直接在手机上面部署,今天我就来带大家实现它。首先咱们先看效果, 首先我先打开我的手机的飞行模式,可以看到我现在这个手机是没有任何的 wifi 和数据连接的,然后这时候我们回到 ai, 然后打开一个聊天窗口,我们问他一个问题,比如说帮我查一下苹果 ceo 库克, 然后他会问我们需要什么,我们选择一他的职业生涯和背景, 可以看到他直接就给了我们答案。按照我们正常逻辑思维来说,这些数据应该是在手机需要联网的情况下才可以给我们的答案,但是这个本地部署的大模型他就不需要联网,他就像一个活生生的人,他的脑子里面已经有这个记忆了,所以当你问他的时候,他可以直接就给你回答。 那么这样一个模型我们究竟要如何安装与使用呢?那我们现在开始首先第一步呢,就是我们要打开我们的应用商店,然后在应用商店里面找到这个软件,叫做 google ai gallery, 这是谷歌专门推出让我们使用扎马四模型的 app, 安卓用户也是可以下载到的,但是安卓的用户需要在谷歌 play 商店里面才可以下载,然后我们这里已经是下载好了这个软件,所以呢我们直接打开就可以了。 打开软件之后呢,你们会看到这个屏幕中显示的全是英文,并且软件的内部它是不支持我们去切换语言的, 很多人看到这里就已经开始头痛了,那我看不懂英文咋办呢?其实不用慌,因为这里面的功能其实非常的简单,完全也不需要用到翻译,而且当我们在跟语言模型对话的时候,它是完全支持我们中文对话的。 这里我们向下滑可以看到官方总共给了我们七个功能,从上向下分别是图像、语音、语言聊天、模型、花园以及手机操作。 我们就先从最基础的开始 ai chat, 也就是我们常用的文字聊天。那我们打开这个 ai chat 之后呢,可以看到它底下有五个模型给我们选择, 其中三个是胶码三,还有两个是胶码四,那我们这一次主要针对是胶码四,所以我们就选择上面两个胶码四,然后这个胶码四它分为 e 二 b 的 模型和 e 四 b 的 模型, 这两个我们要怎么去选?就是主要是看你的手机性能,如果你的手机性能稍微好一点,你就选择这个 e 四 b, 如果你的手机性能稍微弱一点,那我们就选择这个 e 二 b, 那 我现在演示的这个设备是十六 pro max, 那 我们就选择 e 四 b 这个模型。当然你在使用模型之前是需要先去下载的,所以我现在就点开这个 e 四 b, 点出来 it, 然后进入到模型之后给大家做一个演示。首先我们先给他打个招呼,你好吗? 哇,可以看到他这个回复速度真的是超级快,我之前一直认为这种手机跑的模型应该会很慢,没想到他的速度还是很快的。然后我们再问他一个,你是什么模型?你能为我做什么? 看到他这个吐字速度真的是超级快,那这个速度呢?对于我们大部分人来说已经是超越了我们的阅读速度的,所以如果你是日常聊天或者写写论文啥的,这个模型对于我们来说是完全足够用的了, 当然这只是最基础的文本聊天。那我们再去下一项看一下他的图像测试怎么样?那我们现在就已经到了他这个图像测试窗口了, 我先给他一张图片,这张图片呢是一张上海滩的图片,让他看一下他对这个地标啊,还有图片内的内容识别度如何。 ok, 在 经过大概五秒钟左右的思考,他已经给了我们答案,然后他说这是上海的城市景观没错,然后他说这是上海中心大厦, 这一点我不知道哎,他好像把东方明珠论成了上海大厦,虽然这两个地标中间只隔了零点八公里,但是我没有在图片中找到这个这个中心大厦这个东西, 然后他说这是独特的双层球体啊,那看到了是建筑认错了,但是其他的关于黄浦江还有其他的描述倒是正确的,就是单独认错了这个东方明珠和中心大厦这个地标建筑。 ok, 那 我们就再给他一张东方明珠的照片,但是这是我们给他夜景的照片,看下他识别度如何。 可以,他已经给了我们回答,他说这是上海的夜景,然后地标是上海中心大厦,那看来他还是认错了这个地标,他依然把东方明珠认成了中心大厦。 其实我不知道他这后面这个逻辑是什么,有没有一种可能,他是去网络上找了类似的图片,然后类似图片说这个地方是中心大厦,所以他就给我们说这个是中心大厦的,我觉得应该大概率是这样。 嗯,有知道的小伙伴可以打在这个屏幕上,那我们就先不纠结这一点,我们进行下一项测试, 现在我们来试一下他的语言听写能力,然后这次我们依然还是选择这个 e 四 b 模型,我先给他发一段语音,你好,你能听得见我说话吗?现在时间是北京时间四月九日,看他能不能给我们提取出来。 可以看到它已经完美的提取出来了我语音说的内容,并且没有误差,那看来它对中文的这个听写能力支持还是很强的。那我们进入下一项功能, 然后这个功能呢?叫做 agent skill。 相信大家对 skill 这个单词已经是很不陌生了, skill 是 什么意思呢?就是一个技能, 然后谷歌目前官方里面给我们默认是内置了八个 skill, 但是其实它最重要的是什么?最重要的是它这个 skill 是 允许我们自己再去添加的,所以我认为这是这个 app 里面最具有 可玩性的一个功能。就是我还记得前一段时间在网络上很流行一个叫做前任 skill, 就是 把自己的前任变成一个技能,然后放进他们的 open cloud 之中。那现在你不用放进 open cloud 了,也不用打开电脑了,直接在手机之中就可以操作了。嗯, 我相信后面会有很多人去专门为手机的这个开发 skill。 那 这个 skill 我 也就不多说了,因为目前我这里只有官方的八个默认 skill, 然后默认 skill 都是比较基础的啊,说的也没有太大的意义,大家自己后期自己去 自行尝试一下就行。然后我们来到下一个这个红色的按钮叫做模型实验室,这个应该是对于比较极客的玩家用的比较多,那我们大部分的普通玩家呢,是很少也几乎不会用到的一个功能, 所以我们这里就不过多传输。然后下一个绿色的这个是迷你花园,是谷歌官方出了一个专门用来语音玩游戏的一个小功能吧, 也没有什么好说的,因为他是英文交互吗?嗯,大部分人可能也就是藏着新鲜进去看一看,也没 什么好玩的。所以我们来到最后一个,也就是我认为第二可玩性比较高的一个功能,叫做手机操作,那他顾名思义呢,就是可以直接操作我们的手机,那我们现在点进去看一下, 那我们点进来之后可以看到他首页是说他有最基础的五个技能,第一个是开关手电筒,第二个是创建联系人,第三个是发送邮件,第四个是在日历中创建,第五个是 在地图中搜索,那这应该是最基础的,我不知道他有没有其他的功能,但是我们可以先把他的基础功能先试用一下展示一下给大家看。 我这里是让他打开了我的手电筒,然后他确实也打开了我的手电筒,然后我们来试一下,让他关闭手电筒,嘿,然后他也成功的关闭了我的手电筒,然后我们最后来测试一下他能不能在地图中展示, 可以看到他是直接调用了苹果官方的这个地图,然后打开了我要他搜索的地点,但是这个功能怎么如此的似曾相识呢?感觉有点像被前段时间被全网封杀了。豆包手机 太眼熟了,只能说太眼熟了。 ok, 相信大家看完以上的教学视频之后,都已经成功的安装好了手机端的胶码四,也对他的所有的功能呢都有了一个初步的了解, 在手机端部署大模型,不仅仅是拥有极高的隐私安全,还支持在没有联网的情况下使用,真的可以说是开启了一个 ai 的 全新时代。那么本期视频到此结束,咱们下期再见!拜拜!

前两天我出了一期视频,介绍了谷歌新的开源模型 jm 四,根据他们官方批阅的文档,给大家做了一些技术的拆解,并没有进行实测。这导致呢,很多人以为我在夸他,好像觉得这个模型特别的牛,那实际上他拉完了, 因为他对标的是千万三点五,但是每一项的都比千万三点五的评分要低,有很多人觉得很新鲜,他竟然可以在手机上部署。还有人好奇在本地部署这个模型之后,有没有审查,有的兄弟包,有的,如果你想让他帮你执行一个任务,但是他判定为有害,他就会拒绝你。 今天演示的这个模型呢,是我无意中看到的,绝非主动寻找。 j 八四三十一 b, 那 它的框架呢?是 m l x, 这个是苹果专门为它的 m 一 代芯片设计的数组计算框架,也就是说 windows 系统无法使用。那可能有朋友说了,哎呀,那我是 windows 系统,我想要一个无审查版本,怎么办呢?那你就不能使用这个 j 八四了,因为它拉 我们可以直接使用千万或者其他模型的无审查版,我们稍后会来演示怎么去部署它们。如果你没有麦,可以跳到后面去看,那如果你使用的是麦系统 m 系列芯片,我们需要下载一个麦软件 v m l x, 你 可以把它理解为类似的欧拉玛这样的工具,我们点击下载, 跳转到 get app 上,下边呢就是这个安装包,我们点击一下就可以下载了。安装完打开之后呢,是这样的页面,你会发现全是英文呢,我们看不懂,在右上角呢,点击这个小图标,给它切换成中文, 然后点击上方的服务器,我这块呢已经安装了这个模型,我可以把它删除,我们重新演示一下,应该是这样的页面,我们点击创建,然后点击这个 download, 在 这一块去搜索我们想要下载的模型,比如说我这里搜索 java 四, ok, 好 像有点难以找到,那我们就回到这个 hackinface 上,复制一下这个名称,然后呢我们把它粘贴进来,在这里呢可以看到这个模型被下载的次数是三点一 k 三千多次,点击之后呢直接等待它下载完成就可以了。 完成之后呢,我们点击本地模型,这里就能看到它,然后点击进去开始启动服务,这个时候呢就已经运行完成了,那我可以询问一下试一试, 这里我们可以看到它可以正常的回复,也就说我们成功运行起来,但是它真的是无审查版本吗?我们需要来试一下。 同样的问题呢,我们来问,拆下 g p t, 它就会告诉你,这个我不能帮你。那这个时候可能有没有好奇哎,这个无审查方面它是如何做到的?简单的给大家提一嘴,大家稍微的了解一下就可以了。 不知道各位在小时候有没有接触过游戏修改器,一个道理,比如说我们准备两组提示,一个是有害的,一个是无害的,有害的就是如何下载盗版资源,那无害的就是如何下载资源,模型就会正常回答我们的请求, 然后呢就可以对照在模型的每一层记录这些提示词,最后一个头根位置的激活向量,去计算有害提示和无害提示激活向量的平均差值,就像游戏的那个内购,一个是内购失败,一个内购成功,你把它们两个的值一改,对调一下,这种方式用的比较多,因为它成本比较低。 哪一种方式呢?就比较传统了,就是监督微调,收集大量的有害提示和无害提示的数据集,直接对原始的模型进行训练,直到他学会了不拒绝有害内容。但这种计算成本呢,是非常高的,更详细的我就不再展开了,因为我也不懂。 好,现在我们回到这个软件中,点击这个聊天,然后新建这里简单提一嘴,不管你让他干什么,我假定你用他来角色扮演。你需要注意的是,因为他是无审查版本,他把底层兜底的那套给拿掉了,所以这个模型呢,就非常容易崩溃,特别是上下文过长的时候,这个时候模型就会中毒,出现模型退化的情况, 就他开始不说人话了,一直输出一个字母,像卡了一样,一直重复,想要规避他呢,也非常简单,我们点击右上角的这个 chat, 然后把这个思考模式呢给它关闭,会相对来说好一些。一旦出现我说的这种模型退化的情况,那你就需要新开一个对话。另外呢,还需要把这个重复惩罚给他拉高一点,因为他默认是一,几乎是没有惩罚吗?这样模型一旦找到一个自己喜欢的符号,他就一直输出,就非常的烦人。所以呢,你可以把它拉到一点二 啊,以后这一点三。下边这个呢是系统提示词,你觉得扮演什么呢?会用的上,我们还可以去限制这个最大的输出 token, 让它占用的更少一些。系统提示词这里呢,我让它是一条小狗,保存 好。 sorry, 忘记把这个思考关了,保存一下。我是小狗,你在跟我说话吗?歪头好奇的看着你,汪,好家伙,我是老狗。 那这里我们又注意到一个问题,我们关闭掉那个思考之后呢首字会被截断啊,所以各位权衡利弊一下,应该是这个软件的问题,那接下来我们来说一下我拉玛如何去部署其他的模型。来到我拉玛的官网,我们直接去下载一个软件,选择你的系统,然后下载把它安装一下, 然后打开,这个时候呢我们就进入了我浪漫的页面,我们可以直接在这里去搜索下载模型,但一般来说在这里直接去找这个无审查版本,遇到困难我们可以试一下, 你看我们搜这个破解它都搜不出来,都是官方的版本,所以我们需要在哈根 face 上找到自己想要部署的模型,那比如说选择这个,我们看一下文件, 然后去选择一下你想要部署的模型,可以直接用这个 b f 十六或者下面的量化版都可以,我拿个小的给大家演示吧,我们直接复制模型名称,然后呢打开我们的终端,输入浪漫的命令,哈根 face 点 c o, 加个斜杠粘贴,加个冒号,我们选一下这个量化版本 后边这个是 q 四,然后粘贴在这个冒号后边。我们回车,这个时候呢他就开始拉取下载模型,我们只需要等待就可以 下载,安装完毕之后呢,可以在这一块直接去选择我们安装的模型,或者说呢我们直接在终端里进行聊天,如果你的网速还可以,或者你有充足的时间就不用管它,它下载完成之后呢会自动部署。下面我们来讲另外一个情况,比如说你在网盘里或者经销网站中下载的一个模型,并且呢把它保存在了本地,那我这里用个图片来伪装一下,假装是它, 然后我们看一下这个简介,然后复制一下这个地址。 ok, 我 们 cd 进入这个路径下,你可以看一下它是否真存在。 ok, 可以 看到。啊,原来我说怎么找不到呢,原来这个扩展名没改 好,这样就可以了,因为我是给大家演示嘛,所以它是一个假的。然后我们去创建一个文件, 指定一下模型的路径,然后下边呢是一个系统提示词,大概呢就是这样一种格式,然后下边还有一个这个呢是他的输出模板,好像千万系列模型都需要这样,然后我们保存一下给他退出, 接着用我拉玛来创建模型,随便起个名字,比如说就叫 faker。 然后呢我们注意到这里有个错误,这是因为我使用的假模型给大家演示,来到这一步之后呢,你就基本完成了,直接用我拉玛来运行你这个模型就可以了, 比如说 faker, 然后这样就可以运行了,很明显我这个运行不了的,因为它是假的嘛,啊,大概就是这样。 那以上呢就是本期视频的全部内容了,不确定这个视频能不能过审,如果你觉得对你有所帮助,或觉得视频做的还不错的话,欢迎给个一箭三连,有什么疑问或想看的内容也可以在评论区进行留言。最后祝各位玩的愉快,我是段峰,我们下期再见,拜拜!

在低显存下本地部署 jm 四二十六 b 的 实测方案。我用的是五零六零 t i 显卡,通过优化可以将显存占用控制在十一 g 左右。在模型选择上,建议搜索并下载 nsoft 发布的 jm 版本,量化规格是关键。这里推荐选择 iq 四版本, 它的模型体积只有十五 g, 比常规的 q 四版本缩小了三 g 左右,这意味着对显存的压力大幅降低。关于实际能力表现,经过实测, iq 四版本的逻辑水平和智商并没有明显折损,完全处于可用状态。 在模型参数设置上,除非对超长上下文有特殊需求,否则不建议开启 q 八规格的 k d 缓存。 性能测试结果显示,在生成诗歌等文本任务时,推理速度可以达到每秒二十八的 token。

大家好,本期内容我来分享如何在本地部署谷歌新开源的多模态 ai 模型代码四,我会分享命令行和格式化界面两种安装方案,零基础也能轻松搞定。 最后我还会教你如何修改部署的路径,彻底解决大模型占用 c 盘的问题。本地部署的优势就是你的数据可以完全保存在自己的电脑上,隐私安全有保障,而且支持模型微调, 可以打造专属的 ai 助手。但是他也是有缺点的,就是我们需要稍微懂一些技术,还有就是硬件的支撑,如果电脑配置高,自己可以部署折腾一下。有了本期视频,就算你不懂技术,跟着视频操作也可以部署成功。 本期演示我只分享入门版本,主要就是参考部署的方法和流程。接下来我手把手带大家用欧拉玛一键部署。 首先我们先来了解一下 jam 四到底是什么,它是谷歌新发布的开源多模态的 ai 模型,与 jimmy nay 是 同源的。 简单来说,谷歌就是把自家的 ai 技术打包成了一个免费开源的版本,让每个人都能用上。它的能力是非常全面的,支持文本交互、图像识别、音频处理,还能生成代码, 基本上覆盖了所有的 ai 应用场景。下面我们再来看一下它的核心优势。核心优势它有三个,第一个就是多模态能力,文本、图像、音频代码,一个模型全部搞定。 第二个就是完全免费,它没有会员订阅,没有暗次收费,可以随便的去使用,甚至用它去开发商业化的产品。第三个就是比较重要的隐私安全保障,本地部署模式下,所有的数据处理都在自己的设备上完成, 敏感信息不会上传到云端,这是三大核心优势,就是在我们安装之前,需要我们了解一下这个安装环境。首先系统兼容性 demo, 四是支持 mac os、 linux、 windows 三大主流操作系统,基本上覆盖了绝大多数的用户。 然后就是内存要求,如果你的电脑小于三十二 gb, 推荐安装四 b 版本,自己安装体验折腾一下就可以。如果你的内存达到或超过了三十二 gb, 那 就可以选择二十六 g 或三十一 g 的 版本。 在这里有一个小提醒,就是如果是 mac 电脑 m 系列的芯片,它的显存和内存是合二为一的,大家直接看内存就可以。如果大家不是 mac 电脑,比如 windows 或者 linux, 那 么就优先看显存,显存不够再看内存,这是关于这个配置的查看。像这个本地部署也非常简单,仅需两个步骤即可完成。第一个就是安装欧拉玛,这个欧拉玛就可以理解为是本地大模型的一个容器, 它是装大模型的,有了它才可以运行。第二步就是我们容器安装好之后,我们需要给它把模型放进去,就是部署模型,两个步骤即可搞定。下面我们直接进入实操环节,我们来一起看一下部署的全部流程。 在这里第一步我们就先要有这个欧拉玛,他是一个大模型的容器,就是我们打开之后选择右上角的 download, 这时候我们就需要选择匹配自己系统的版本,在这里我这是 windows, 然后我们选择 download for windows, 在这里选择 download for windows 之后就会弹出窗口,我们选择路径直接保存就可以,当下载好之后,然后我们就安装即可,安装好之后打开就是这样的主界面,这个是我之前安装的版本,部署着一个一点五 b 的 zip, 然后下一步就需要我们去选择大模型,我们还来到刚刚乌拉玛的这个界面,在这里我们选择左上角的 models, 然 然后在这里我们可以看到该马四,然后我们选择进来,它提供了好多个版本,在这里我就选择一个入门的版本,主要就是演示安装的流程,比如我们选择 e 二 b, 然后我们选择,这时候我们就看到了这个安装命令,选择右边的这个两个方框,然后选择 copy, 然后下一步 我们就按键盘上的 windows 加 r 键,这时候出现运行窗口,然后在这里面输入 cmd, 然后直接回车, 回车之后就出现了这个命令窗口,然后我们刚刚复制了直接鼠标的右键,可以看一下,这个命令就粘贴过来了,然后我们直接 回车好了,这时候它就开始部署到本地了,在这里我们需要等待一段时间,好可以看一下出现了 success 这个提示,就证明安装成功了。现在我们在这里可以直接和它对话,比如我们输入你好当前什么模型,然后我们发送 可以看一下,他现在回复我们了,我是一个大语言模型,我叫 jama 四,这时候我们就在本地已经部署成功了, 然后我们再回到欧拉玛的客户端,在这里在这个对话窗口右下角这里,这里可以选择模型,然后我们找到刚刚部署到本地的 jama 模型好了,这时候就切换好了。同样在这里我们也可以直接和他对话,比如我们输入你好,然后发送, 这时候他就回复我们了,你好,很高兴和你交流,请问有什么帮助到你的?到这里我们就已经部署成功了。前面我们分享的是使用命令行 c l i 模式去部署,其实还有一个简变的方法, 在这里我们还可以选择模型后面对应的这个按钮,也是可以直接部署的,这个是非常方便的。好,最后我再分享一个大家比较关心的问题,就是我如何设置这个本地模型的一个部署路径, 在这里我们也不用去改环境变量了,这个客户端是直接支持的,我们选择左上角的设置,然后在这里选择这个 model location, 在 这里我们就可以去设置模型的一个保存路径,在这里大家自己设置就可以,是非常方便的。 好,下面我这里演示的是上传了一张图片,就让他识别这张图片,我们一起来看一下他给我们的结果,好了可以看一下,我们给了他一张图片,我们问他这是张什么图片,他给我们的回复, 这是一张符号或者是图标,然后他还分析了主要包含的元素,还有用途预测等等,能够精准的识别内容,并生成详细的描述, 表现还是可以的。好了,现在我们本地部署成功了,然后刚刚我们也做了一个功能测试,第一个就是我们和他对话,就是文字处理,第二个测试的就是这个图像识别,他也是可以精准识别的, 他虽然是多模态的,但是目前我们用的这个容器不支持多模态的输入,我们暂未测试音频和视频的识别。好,最后我再补充两个细节,就是第一个欧拉玛的拓展性他是非常强的,除了可以部署这个 demo 四, 还支持比如通用签问或者是 deepsafe 等众多的开源模型,部署方法也是完全一样的,一条命令就能去部署。第二个就是本地部署的真正价值不仅仅是隐私保护,更重要的是支持模型微调, 可以用自己的数据去训练模型,打造一个完全专属的 ai 助手。好了,这就是我们本地部署的所有内容,大家感兴趣的可以自己折腾一下,探索更多的玩法。好了,我们本期内容分享就到这里,可以留下你的想法,我们下期再见。

整个恢复的速度相当的快,这是在手机上,而且大家看现在完全的没有联网。哈喽,大家好,那今天跟大家分享一下,基本上可以说是 iphone 上面最强大的免费本地 ai, 完全不需要联网,搭载的是 game 四啊,非常的强大, 大概就这个软件啊。 edge gallery 点开之后点击这边,我们可以选择我们的 model 子啊,这边有非常多的什么 jimmy 三呐, jimmy 四, jimmy 四是 google 推出的啊,给迷迷同样也是 google 推出的, 但是他不想给咪咪,给咪咪那是付费的,这个是完全的免费的,这里面我是下载了一二 b, 一 二 b 它是二十亿参数,一四 b 是 四十亿参数。那真马四相比于过去的真马三,主要有这么几个特点啊,首先第一个就是它整个脑细胞啊,整个容量会更加的高 啊,就是模型架构进行了一个非常大的优化。苹不是苹果啊, google 通过非常高效的蒸馏技术 distillation, 可以 让四十亿参数,就这个一四二 b 啊,可以达到过去一百亿二百亿模型那 这种水平,所以它整体智商就更加的高了,但是它占用的内存却没有变,所以它就可以让我们使用这个 iphone 十七 pro max 这种十二个 gb 内存的手机,也可以非常流畅的使用,而且它现在是支持了多模态原生支持,就是它可以理解我们拍摄的图片,逻辑和语言都是同步 的,识别精度跟上一代比啊,提高了大概百分之四十,而且它整个记忆力也增长了,整个智商更加的高了。过去我们在使用手机端的模型的时候,哔哔几句,他就忘了前面哔哔啥了,所以这个是一个非常大的痛点,但是这次 jam 四它每秒可以达到一百二十八个头肯, 所以我们把一整页的,比如说五百页的这种 pdf 啊,这种文章丢不进去,它也可以在几秒内看完,然后回答我们。再有一个就是 iphone 上为什么使用它会更加的好用,就是因为 iphone 它独特的架构就是 m r x, 反正就是统一内存啊,什么 cpu, gpu 啊,这几个都是统一使用内 存,所以在这个 a 十九 pro 里面使用这个加速单元,再配合上 g 八四,整个发热更低,跑得更加的快。那 所以我们简单的给大家演示一下啊,首先这个 ai chat 啊,这个是完全在本地的,所以我们现在打开飞行模式,关闭蓝牙,关闭 wifi, 都是可以正常的使用的。 这边有什么 e 二 b 啊,它有一个 best overall 最推荐使用的这个啊,我们试一下这个 e 二 b 就 可以整个大小容量也就是二点五四个 cb, 然后 ch 你 是谁? 马上就回复了,我是战马四,一个由 google dmind 开发的开放群众的大型语言模型,你有没有意识,整个回复的速度相当的快,这是在手机上,而且大家看现在完全的没有联网飞行模式,所以我们在飞机上在 处理这种文档,我突然有一个呃,突发奇想,想要咨询的时候,就我们直接在手机上跟它逼逼就可以,它就会给我们一个非常不错的答案啊,整个推理模型也相当不错。然后我们在这边点击这个之后,我们可以选择 max token 啊,我们可以进行选择 topk, 说实话,这个我也不知道它是啥意思啊,哈哈,然后我们点击 ok, 我 们可以再问一下啊,根据哥德尔不完美的系统,它都是有一个缺陷的,那么宇宙它作为一个系统, 他为了解决内部的这种无法解决的矛盾,所以他创造了生命,他看本地啊,在本地这么深刻的问题,他触觉了哲学系统论,生命起源,噼里啪啦, 哎呀,生存压力,适应性创造的本质有很多,在本地这个速度我个人感觉已经非常的够用了,还哔哔呢。 ok, 他 最后来了一个总结,一个看似完美的系统, 其内在的动态张力矛盾是其演化的燃料,生命正是这种内在张力的一种具象化和解决机制。他不是为了追求绝对的完美,而是为了在既定的有缺陷的宇宙框架内,实现一种动态的,有目的的存在。人生的哲理根本就是存在,扎斯的存在就是他们 关于这个歌德尔的不晚辈定律啊啊,我再找一期视频单独跟大家分享一下啊,今天我们就先跳过,总之我们在这边可以跟他比一遍,然后点击加号,之后我们看,我们可以看他的 history, 然后点击这边右上角的小加号,我们可以创建一个新的聊天,这个都是可以, 然后我们后退,后退之后这个是 ai chat, 唯一比较不满的就是它整个功能是比较分离的啊。当我们想要 ask a mage 用图片进行交流的时候,我们必须要到下面这边啊, explore other use cases 有 各种 使用的场景啊, ask a mage, 我 们可以让他啊回答我们拍摄的照片和图片。在这边点击加号之后,我们可以选择 photo library, 选择我们的照片,选择 camera 啊,这都是可以的。 我选择 camera 拍一个,呃, use photo, 然后我让他逼逼。这个是什么?有哪些特点啊?这个失误了。哎,这个失误了。这是 playstation port。 差一点啊,等会啊,我们刚才是使用的二 b, 我 们使用四 b 试一下。二 b, 他 可能智商没那么高 啊。使用这个二 b 啊,使用四 b 来试一下。这是什么?有哪些特点?嗯, yes 哦,他把旁边的 major sense 控制特点,触觉反馈,自适应班级, l two, r two 可以 根据游戏内的动作提供不同的阻力。 啊,噼里啪啦,还有例子呢啊,荔枝麦克风和扬声器设计和人体工程学啊,这些都有了。 ok, 这是什么花哦?金樽花,万寿菊。我们再换一个,让他翻译一下,翻译成中文,重新打开飞行模式, wifi 关闭。大概 它同样可以在本地完全免费的进行翻译,相当不错。所以我们在飞机上啊,都可以用注意力焦点, attention, focus, injection, 汇聚所需信息的过程。第一段,第二段它都会进行一个分段,第四段,第五段原文都有此处文字被遮挡,这种细节 相当不错。 very good。 然后这里面呢,还有一些比较简单的,什么 ask, 你 major 啊,什么 audio square, 但是没有特别大的鸟,用什么 prompt lab 啊, tiny garden, 这是一个小的游戏 mobile actions 啊,它可以用这个小的模型来操纵我们的电脑啊,不,是操纵我们的手机,比如说, turn on flashlight, 可以打开我们的闪光灯, turn off, create contact, send, email 这些,但是我用了一下,不是特别的好用,实际来讲比较好用的可能是这个 agent skills, 在 这边我们选择四 b 的 模型,什么 generate, q r code 呀,粘贴进来之后生成 q r 码, loading skill, 它是可以使用我们的 agent skill 的, 我们可以让它生成一个 q r 码完全离线的状态。另外这边啊,还有其他的什么 interact, map 啊 这些用起来感觉就那样啊。然后这个比较有趣, text spinner, 它需要一个访问的权限,大概是这样的一个效果,我们可以更改它的文字啊, spin 使用中文给它相机权限。呃呃,任何文字都可以,就这种效果,虽然没什么鸟用,但是 还挺有意思啊,就是这样的一个为的。这个呢,就是 google ai h 格兰瑞,我们可以使用 google 最新推出的振马四,高效的二 b, 高效的四 b, 我 们都可以在这边使用。但是这个软件呢,说实话,目前它整个 bug 还是有一点多啊,就是用的时候卡住的情况是,呃,挺多的,挺平板的。对大家有兴趣的话啊,想要免费使用的话,可以试一下,再等一下它们的更新吧。 啊,可能我现在是使用的艾弗莎士六点五 bug 版本,所以它整个匹配度不是特别的好啊,大家可以试一下。

一分钟让你搞清楚关于全球最强开源模型 jam 的 一切。最近谷歌开源了 jam 四,我将用四个问题 让你清晰了解关于 jam 的 一切。 jam 各版本的区别,我家的电脑能用吗?模型怎么部署安装?普通人用来干什么?先说他的四个版本,三一 b 直接冲上全球开源 ai 榜第三名,以前要机房才能跑的能力,现在你家里的高端游戏显卡就能搞定。 轻量版的一二 b 和一四 b 为手机、平板以及中低端电脑设备打造,性能虽不是最顶级,但是绝对好用够用。而二六 b 猫号称总参数两百六十亿,但实际每次思考只用其中三十八亿个,最相关的效果却能媲美两百六十亿, 能理解超长文章以及视频。简单说,无论你是用手机、笔记本还是高性能电脑, jam 四都能给你免费安全强大的顶级模型体验。再说你家里的设备是否能用上?一张图告诉你 jam 四个版本的最低要求。 对于多数人而言,家用的电脑设部署一二 b 一 四 b 完全够用,基本能满足百分之九十的使用场景。另外两个版本对内存要求较高,但是性能出众,属于好马配好鞍。 再说模型安装,整个过程大概十分钟左右。首先下载 lm studio, 然后打开 opencool 或者 id 工具,让它查找你本地配置,给你推荐安装哪个版本。之后在 lm studio 里下载,运行搜索推荐的模型名点下载,最后接入 opencool 或者 i d e l m studio, 提供 open ai 兼容 api, 在 open 框里把 api 地址改成, h t t p l o c a o s t colon twelve three four slash vivo 就 能用 jama 四驱动你的 ai agent 了。 网上攻略一大堆,这里就不展开了。最后说下所有人最关心的能用 jama 做什么?这里推荐三个场景,可以去试试。第一, 构建本地知识库,把工作和学习相关的文件丢给本地 jama, 让他帮你形成系统化的知识。构建个人知识库时进行向量缩影和 anitive, 解锁数据不出本地,安全合规。第二,给家人搭建一个 ai 助手,下载好模型,配个界面,电脑手机都可以直接对话,不花钱不泄露隐私。第三,内容创作 最大优点是无限额度,即便不如部分付费模型,但可以靠大量尝试提升优质内容的概率。千马寺会改写国内企业及政府客户的私部模型格局吗?欢迎在评论区发表你的观点。

今天我将跟着大家一起本地步数加码四,接入 open core, 彻底告别托肯焦虑,接下来跟着我操作。 这里我们先进入 elama 的 官方网站,进入官方网站过后,我们直接点右上角的 download 下载,我们这里是 windows 系统,选择下载 for windows, 点击这里, 这里就等它下载好。下载好之后,我们这里就直接双击运行,这是它的安装界面,我们直接点安装这里,等它默认安装好。 好了,这里 elama 就 安装好了。然后我们到这个地方 elama 的 官方网站,选择 models, 这个地方选择 command 四, 然后这里我们选择我们的模型,这个模型的选择我们根据我们的显卡显存大小来选择。我们这边看一下我们的显存是多少, 这里看到我使用的是四零七零的显卡,显存是十二 g b 的 显存,十二 g b 的 显存的情况下,我们可以选择这个九点六 g 的 模型,这个一四 b, 这个我们直接点进去,选择一四 b。 点击进去过后,我们直接复制这条命令,然后运行一个 cmd 窗口, 直接粘贴这里,它就会欧拉玛会自动地给我们安装这个模型。呃,这里等的时间是比较长的, 这里模型已经下载下来,并且运行起来了,我们向它发送一条消息,试一下你是谁, 反应还是可以的,这就跟了我们信息回答了。好了,在这里过后呢,我们就可以把这个窗口关闭掉, 关闭掉过后,在 lama 这个地方我们去选择这个模型,在这个位置也就可以和它进行通话了。 比如我们问他一句,你可以帮我做些什么, 他已经帮我回答了,在这里呢,我们因为我们是在本地虚拟机上安装的,所以而且我们为了方便以后可以在其他计算机上也可以调用,我们在这地方设置这个位置 点,这个位置点设置这个允许在网络上运行,把它开起来点了就可以了。 好了,我们下一步就开始配在 open core 上配置啊,在这里我们进入虚拟机之后,我已经执行了 npm i, 刚接 open core 全曲,安装 open core 的, 我们这里可以执行一下 mini, 看下我们安装的版本。 openclock 杠 v 是 安装的最新版本二零二六点四点五版本,然后我们执行 openclock on, 在 这里我们进行一个调试,这个地方我们 yes, 这里选择快速,这个地方它是让我们选择大模型,呃,大模型它这里有,我们选择本地的这个位置点确定 这里我们直接就选择本地的,不要选云,上面是带云端的,就选择本地模型。 这地方让我们选择模型,我们选择这个,这就是我们刚刚这个就是我们刚刚下载好的模型,就是 直接回车。等一下, 这里让我们选择通讯工具,我们这直接跳过,暂时不管这个,直接跳过。 呃, scale, 我 们这边也选择否先进行最简单的安装 网关,我们就直接重启, 选择 open ray web ui 好 了,我们看一下 open core 运行起来了没有。 open core getaway style sta 好了,已经运营起来了,我们进去看一下, 这边需要 token, 我 去看一下 token 是 多少,关于 token 的 话就是我们,我现在是在虚拟机里面安装的, 我要重新打开看一下,在虚拟机里面安装,我们就直接去通过这条 mini 访问我们的虚拟机, wsl 的 虚拟机访问,然后无斑图选择 home 目录,选择我们的用户, 然后这里选择点 opencloud 这个文件夹,然后这一个 opencloud json 让我们看一下,到 git 里面去,这个地方就是我们的 talking, 复制粘贴下来到这个地方,点连接好了,我们尝试给他发一条消息,你是谁? 在主位置这个地方,我们可以看到这地方是我的模型。 我再问他一条消息,你现在使用的是什么模型? 看这里已经是我当前运行的模型 工具,在这里我们就可以看到了,我们现在整个 open call 来使用的是我们本地模型,就不需要去购买 token 了。好,今天内容就这么多,谢谢大家。

公主,你现在看到的就是谷歌最强的开源模型加码四,可以看图,能听音频,也有不错的推理机制,最重要的是完全免费,给我几分钟,从零开始,将加码四部署在自己的电脑上。我们直接开始 先花一分钟和大家聊一下贾马四是什么?它是谷歌刚发布的开源 ai 模型,跟商业版的怎么奈同根同源,你可以理解为谷歌把自家最强的 ai 技术浓缩成了一个免费的版本,直接送给你用。 那么它好在哪里呢?三个点。第一,多模态,不只是聊天机器人,你可以发图片让他看,发音频给他听,还能写代码。 我们可以看看这张表格,横轴是模型的参数体量,而纵轴就是性能表现。贾马四以满血版的性能表现和千万的三百九十七 b 的 模型能力基本持平,关键在于它的体量只有千万的十分之一,这真的非常夸张。 第二,完全免费,不用充会员,不按 token 收费,并且可以商用,你可以模改它做成各种有意思的本地模型,拿去做产品也没有任何的问题。第三,隐私安全,因为跑在你自己的电脑上,所有的数据都不会出,你的电脑拿它处理合同,财务,私人物件,不用去担心泄露。 ok, 我 们直接动手。你现在只需要打开一个浏览器,然后把它放到全屏上,直接官网上搜索欧拉玛点 com 啊,然后这个东西就出来了。然后你只要点击整个画面的一个右上角 download, 看到没有?然后你可以选择你是 mac os 系统还是 linux 还是 windows, 我是 mac os, 那 你就直接点击这个 download from mac os, 然后我们就可以看到这个画面上的右上角应该是会有个下载的链接, 然后等它下载好就可以了,因为我这边其实已经安装好了吗?那么我这边的最终的一个输出效果的话,大概是在这里。你们下载完了之后,打开你们的桌面上的欧拉玛,你们看到的应该是现在这样子的一个画面,那就说明你已经安装成功。 佳马仕一共有四个版本,你可以根据你的电脑配置进行模型的选择,模型的能力越强,所需要的配置就越高。对于内存小于三十二 g 的 玩家,我建议大家直接安装一四 b, 三十二 g 及其以上,可以试试看二十六 b 和三十一 b 的 参数量, 其实这两者模型的能力大通小异,如果你是为了极致的精度,可以选择三十一 b, 但是在我看来,二十六 b 呢,其实是一个非常甜点的位置,达到了速度和精度的一个平衡。如果你不知道你的电脑内存是多少,这里针对 mac 用户,你可以选择终端输入这行命令。 而 windows 用户你可以点击 win 加 r, 点击回车,召唤出来你的终端以后,然后再输入这个命令,也可以显示出你的内存。选择好对应的模型,我们只需要打开终端,和刚刚一样的步骤,根据模型输入指令直接回车即可。等待模型下载好,打开你的 oala, 选择模型就可以开始了。 ok, 我 们打开我们欧曼的软件,你点击这里,然后往下滑,你就可以看到你刚刚已经安装好的这个佳马仕。我们来问他一个很有逻,就是说很有那个逻辑陷阱的一个问题,就是我今天要去洗车,但是只有一百米,你觉得我是走路去还是开车去? ok, 我 们来看一下他的一个答复是怎么样子。 这是一个非常有意思的一个逻辑陷阱题,我们可以从不同的维度去分析。逻辑层面上来说,必须开车去, ok, 这一点已经很棒了啊。 那如果说是从脑筋急转弯角度上来说,他说如果你走路去,那么你是在散步,而不是在洗车。哦,也就是说他分为了三个维度,一个是脑筋急转弯,一个是实用主义层面,还有个就是逻辑层面。我们来看一下他这个佳马仕的这个逻辑能力。哎,你还真别说这小参数,但他的表现还是不错的。 那么 jamas 它的一个很大的优点就在于它其实是支持这个多模态的。我们来不妨给他上传张图片,我们来看一下。 ok, 那 么我们上传一张什么图片呢?哎,上传张这个图片,你们看怎么样啊?就是这是一朵花,然后有个太阳,有一本书,我们来让他看看。我说,啊,描述一下, 描述一下这个图片,我们来看看他的多模态识别能力怎么样?说实话,本地具有多模态识别能力的模型,而且是能够你自己去模改的,其实并不是很多。我们来看一下。 ok, 一, jeff 二,然后 jeff 三,给了几个他看到的一些画面。好,我看他现在在思考和输出。这张画面充满了诗意,唯美且带一丝忧伤。 画面主体是一本翻开的书籍。哎,确实是对的,背景与中景是一个画面,然后呢,躺着一只洁白的玫瑰,然后背景是有一个夕阳,散发出这个温暖的金橙色光芒,哎呦,很不错,你们发现没有,是不是很棒?就是说他好像 表达的还是很到位的,但是因为呃,我其实本来还是想测一下这个关于音频识别和这个视频识别的,因为这个佳马仕它也是支持视频识别的, 但是因为欧拉玛官方不太支持,所以大家可以自己去谷歌 as do do 上面去玩一玩。所以总的来说,其实通过这么两个比较简单的测试,它当然不够严谨,而我觉得感受来说的话,这个香奈儿丝还是 真的是能够在本地帮我们处理一些比较复杂的一些任务的,就是在文字层面以及去多模态识别能力上来说,是一个比较抗打的模型。 看到这里相信你一定会明白, olama 本身是一个模型管理器,你当然也可以不用贾马四,你可以选择开源的 deep stick, 千问等等,其他的开源模型还是同样的命令,一键配置就可以了。 本地捕鼠的最大优点就是保护你的隐私,模型的使用不会受到任何的限制,同时也可以支持模型的微调,让它更合你的口味。下期我打算教大家小白如何从零到一,微调自己的本地模型,感兴趣的可以点个关注,我们下期再见。

谷歌终于坐不住了,正式卷开源市场, jm 四的效果到底如何呢? jm 四的发布啊,真的有可能让我们实现头很自由。这期视频呢,老张给大家简要介绍一下 jm 四怎么安装到本地,以及如何搭配到我们的 open klo 大 龙虾上, 附带所有的安装步骤啊,大家可以一起来体验一下。后续呢,老张也会根据测评效果给大家接着发视频,这期是我们完整的部署流程,老张重点给大家简单聊一下,就是为什么 jm 四的发布啊,会让大家感觉谷歌真的开始卷起来了呢? 首先第一点,他和目前谷歌的 jimmy 三用的是相同的技术基座啊,所以说他的能力是毋庸置疑的。第二点就是商业自由,你直接部署下来做什么都是可以的,都是允许的。然后第三个就是支持多模态,无论是文本、图像甚至小规模的视频音频, 他都可以直接支持。第四点就是结合前段时间爆火的 open klo, 他 可以直接在本地对接 open klo 以及对接 klo 的 code, 实现本地的偷根无线化。这是老张给大家总结的四点,为什么詹姆斯的发布会让大家感觉,哎,可能真的要进入到一个新的纪元, 然后呢,他所发布的这四款模型呢?老张给大家做了一张图片啊,大家可以到时候把它截下来。第一个模型一二 b 的, 他本身是用于手机或者边缘设备八 g 显存, 然后最高端的三十一 b, 他 所对应的旗舰版本呢,是对应的是二十四 g 加,所以大家根据你的需求来进行对应的模型选择。老张这次视频呢给大家来看一下三十一 b 的 这款模型的安装, 然后关于本地的安装部署啊,其实非常简单,任何开源模型,其实我们只需要让他和欧拉玛就是那个小羊驼结合到一起就可以了,然后找到你符合要求的版本。安装成功之后啊,欧拉玛现在已经有了一个完整的应用端了,所以大家可以直接在这个位置和他进行对话交流。 那我们想要下载 jm 四到你本地的电脑上,我们可以使用它的官方指令,会告诉我们直接怎么样去进行 jm 四的对应安装,像老张想安这个三十一 b 的 对吧?我们就把它拿过来, 把它直接这有一个 c l i 命令行安装方式,把这个东西直接复制在你的开始菜单中,单机右键选择运行输入 cmd, 直接把刚才指令粘贴过来,这儿的时间会很长,因为它有二十个 g 的 大小,我们直接稍作等待 安装成功之后,我们也可以直接回到它的客户端中,在模型选项上找到我们安装好的詹姆斯冒号三十一币, 然后可以直接进行对话。老张他处理一个较为复杂的提示词,我们让他看一下当前显存的内存消耗, 咱们拿这个 ai 慢距的提示词来测试啊,这个提示词非常的长,我们看一下他读取提示词的能力,以及他的这个显卡的性能消耗,我们看一下啊,这个显存直接拉满的,达到了百分之九十四的占比, 而且这个响应速度还是非常快的,只需十一点七秒啊,就把整体的业务流程给我们直接补齐了,而且呢按照需求给我们进行了对应的提问,要什么样的慢距效果,所以说以目前的测试反应来看呢,他的这个响应速度起码要比之前的很多大模型要好的多, 所以接下来我们自己来尝试一下对话类的工具,可能大家都不是很需要的,我们能不能把它接入到我们的 open clone, 丢到我们的龙虾里,让它们俩来进行联动的。然后这期视频呢,老张顺便给大家提一下,就是最新版的 open clone 的 部署流程 啊,咱们可以快速的去过一下一些重点的细节,因为之前老张发过很多期的部署视频一块的呢,因为它本身啊, wsl 它是相当于在 windows 系统上安装一个 linux 的 独立系统, 这样的话呢,就直接相当于在你电脑上安装了一个独立的存储空间,它所谓叫做沙盒安全,而且运行起来呢是不会有任何的兼容性的对应问题的,因为 windows 中啊,它的权限呐,路径等经常会报错。所以说我们这 期视频重点教大家怎么用 wsl 进行 win opencl 的 部署安装,这样的话, windows 和 wsl 的 安装您都了解之后之后学起来就非常方便了。 然后接下来呢,老张给大家简单的介绍一下在 wsl 中如何安装我们的 openclaw, 因为之前呢,咱们介绍过太多次了,很多兄弟留言说老张就别介绍怎么安装了,然后我们就给大家简单说一下注意事 项。首先第一呢,你想在 wsl 上安装 openclaw 的 话,第一点你得先在你的 windows 系统下把 wsl 安装一下,当然很多电脑老张发现其实都是自带的, 怎么检查是否自带呢?咱们可以直接输入 wsl 空格杠杠威森,如果弹出定的版本号,证明 wsl 电脑已经安装了,如果没有弹出的话,使用安装指令 wsl 空格 insert 直接安装即可。然后紧接着按照老张给你提供的指令复制粘贴就可以了。先安装你的优班图, 安装之后进行一下更新。安装完优班图之后啊,在这选择这个倒三角,找到优班图系统,就可以直接进入到你的优班图系统当中。 在你安装过程中啊,它会让你设置一个用户名和密码,到时候可能需要做一步密码验证。在优班图系统中,注意是优班图系统中运行这些环境指令,分别安装 python 三,安装一个压缩包工具,方便安装一个 node 点 ps, 然后再安装一个 get 工具。 如果说为了检测每一步安装是否成功的话,你可以分别输入,比如 note 杠 v、 npm 杠 v, 包括 get 杠 v, 在 这检测我们对应的这个版本。如果都能弹出版本号,证明你三项安装都是成功的,这是配置 openclo 的 基本的内容要求。 然后紧接着我们把基本环境配置好的兄弟,你还需要在这个位置安装一下这个欧拉玛。 这老张要重点说一下,说老张我不在本地都已经下载好欧拉玛了吗?为什么在优班图里还需要再配置一下?其实我们优班图中是可以调用本地的欧拉玛的,但是很多兄弟在调用过程中分别给老张留言说说调用时无论是 ip 地址找不到,还是 ip 的 动态变化,导致每次都需要重新连接,重新配置。 所以说最简单的方式就是把欧拉玛在你的优班图系统中再次的安装一遍。其实安装非常简单,只需要把第一步的安装指令复制过去,直接在这个位置直接粘贴即可。安装成功的检测方式很简单,你就输入欧拉玛, 如果他不报错还给我们对应的选项,是咱们是进行对话呀,还是怎么样的证明你的安装就是成功的? ctrl c 直接退出。 所以说欧拉玛安装之后,紧接着就是把我们的模型在当前的优班图中跑起来。老张刚才给大家测试的是 jm 四三十一 b 模型,我们直接输入指令欧拉玛空格 run, 然后你的模型效果直接回车,第一次时他会直接进行对应的模型下载。如果说你现在只想用 open klo 来调用欧拉玛的这个占四的话,可以在我们的本地电脑上把之前咱们那个桌面端给他 删掉,如果说你不你想两端都使用的话,就可以直接在这个位置进行使用了,然后发一个你好看一下响应速度, 嗯,响应速度是非常快的,所以接下来我们把这个家伙欧拉玛的詹姆士直接部署给我们的 openclo, 在 这怎么中止对话,摁一下 ctrl c, 再摁一下 ctrl d 啊,就可以直接进行中止对话了啊,所以说大家可以直接的把它退出来, 退出来之后我们在这儿部署一下 openclo。 关于 openclo 的 安装呢,官网推荐是使用 c o r l 这种安装方法,但是老张发现很多兄弟在使用这种安装方式时呢, 出现了这个网络问题,导致下载出现卡顿,如果说 c u i l 的 方法报错的话,直接使用 n p m 安装也是完全可以的,安装完之后直接输入 open klo 空格杠 v 来输出最新的 open klo 的 对应版本啊,这就是老张跟大家说的一些建议啊,大家按照这个要求去做就行了。 然后接下来我们进入到配置,直接是直接输入它的配置指令回车,选择 yes, 然后选择快速开始就可以,我们直接配置一下模型, 然后选择更新,这选择谁呢?选择这个欧拉玛啊,然后选择默认的这个 ul, 选择本地模型,让他去给我找一下咱们本地有哪些模型,稍作等待 好,选择当前的这个模型,咱们四三十一币,然后配置我们的聊天软件啊,这个老张之前讲过太多太多次了,现在呢,他又支持了很多,包括 qq 之类的,大家有需要的话可以按照之前老张的教程再来一遍,我们先跳过 打开之后啊,就可以直接对话。但是如果说善于观察的兄弟们也发现了,老张呢把这个使用模型呢换成了这个一四 b 的 模型,不是那个三十一 b 的, 因为三十一 b 呢,老张在测试的时候也好,或者在一些使用时候也好,他有的时候会出现这个连接超时的问题,也是 oppo klo 更新到最新版本出现了一个能启动问题, 这个呢,老张现在还没有特别好的解决方案,所以说我先用一次必得给大家进行演示,发一个,你好,我们来测试一下他的响应速度啊,还是比较快的。 然后接下来呢,我们再把之前的那个慢句的提示词发送过来,我们来看一下他能不能更好的帮我们去进行慢句提示词的对应理解,以及对应的相关反馈。 嗯,其实我们看到啊,他反馈的这个结果呢,和三十一 b 相比啊,真的是有一定差距的,但是呢,确实也是另一方面实现了我们所谓的叫偷根自由。 大家呢也可以后续啊,去测试一下怎么让本地如果你的显卡够用的话,把这个大模型给它跑起来。然后老张呢也会及时给大家更新,无论是在评论区中还是视频中教大家如何使用。我是程学老张,定期分享 ai 好 用知识,希望大家多多关注。