像我这样的新手啊,第一次接触 ai 这些东西呢,完全两眼一抹黑,所有东西都是要自己通过网上的渠道去查询。 早上发的那个视频说我下载完这个新的框架之后呢,找不到启动页面,这可能是一些新手常见的错误,那么正好我也给大家分享一下。找到这个之后把它点开, 我们看了半天,哎,怎么没有正常其他的程序你一点开它就自己跳出来了,但它这个哪怕你按这个程序物里面的程序没反应, 后来我看了很多视频之后发现原来它的调曲是在这个地方,它这里,这这有个小鸟,你点开之后呢?呃,选择启动服务。 好,启动服务之后稍等片刻啊,它显示正在正正在打开。 打拍完之后呢,我们可以选择它这边有一个呃 chat with o m l x 或者就是 you and it mean panel 这两个选择。那现在它还在启动当中,还没有变红色 啊?没有变绿色,它现在是红红的,偏红,等会儿它就会飘成绿色,那么就启动了。稍等一下啊,它可能第一次起抖有点慢, 好,它已经显示 running 正在已经启动了。这个地方要说一下,它不是刚刚满, 是我忘了开那种页面,必须把打开一个页面之后它这边才会变绿啊,这也是新手可能常犯的一些错误, 然后我就可以点击这个管理员的东西,那么就到了他这个 dashboard 里面。那么我们第一次配置的话,可能就需要下载一个模型,我也是 看网上的一些教程啊,选择选择下载模型切换到模型的这个什么 modscop 啊,他说设置里面要把这个镜像改掉,改成 改成 h f mirradicon, 然后 save 下,然后呢我们就可以选择我们要下载的模型, 因为我的呃电脑的内存只有二十四 g, 所以呢我点了一个他推荐的一个小魔仙,我是想用千问三点五,有几个选择啊?有二十七 b 或者九 b, 九 b 的 话适合十六 g 的。 那我这个的话要么选择二十七 b 这个或者用三十五 b, 有 没有三十五 b 啊?没有,那这是二十七 b 里面选一个 我到时候看到的哪个会更好?网上说更适合用二十七 b 斯比特,原话它差不多有要用十五 g 的 内存, 千万三点二十七,比特四点六, oppo 四是十四点一,这都适合我这二十四 g 的, 或者这个因为我要留一点点内存给其他的英模,所以可能最后就是这三个里面选一个。 纠结半天,我还是最终选择下载这个前文的三点五二十七比特量化下载,哎,下载, 哎,又报错了,这玩意是什么? 才不知,这看不得什么不得劲,这一概买不起,是我们断网的吗?这什么情况?这一步一看的,一步一看,我只能再去找找怎么弄。
粉丝239获赞1034

云端 ai 托盘太贵,这节课教你本地部署 ai 大 模型,零成本使用纤维三点五,彻底告别托盘焦虑。我们这里会使用 o m l x 来运行大模型, 点击这里,请直接到下载页找到最新正式版本,未来稳定期间请不要找标注 dv 的 版本,找到后点击 s s, 根据操作系统版本下载。安装方法非常简单,直接拖拽过来即可。安装完成后直接运行,初次打开会弹出提示页面端口和其他的保持默认,点击启动服务, 提示成功后再点击。打开管理面板,在顶部的菜单中也可以实现这些操作。管理面板打开后接着安装模型,在顶部菜单,点击模型下载器页面,打开后用最快的速度点击摩塔社区,这是因为打开这个页面后会自动联网查找模型,但是由于网络不通问题,可能会导致页面卡死, 我们快速切换到摩塔社区,让它来不及联网就不会卡住了。点击模型下载器旁边的设置按钮,修改镜像地址为 h f mirror 点 com, 点击保存按钮,现在可以切换回来了,在搜索框里搜索千问三点五九 b mx 杠 speed 这个模型,这个模型的性能对一些常规需求已经非常足够了,运行起来大概占用六 g 左右内存,最低配置十六 g 内存的 bug, mini m 四都可以流畅运行。找到后点击下载按钮,因为我这里已经装过了,就不重复下载了,等待下载完成后会自动安装。再设置 模型,设置里可以看到已安装的模型,点击最右边的设置按钮图标,这里推荐设置聊天模板参数,点击添加设置 enable sync 值为 force, 不 然每次聊天呢,它都会思考很久。其他设置大家根据自己的电脑配置来调整,完成后点击保存,点击就绪按钮 会变成已加载状态,模型已经运行起来了,点击导航栏的聊天按钮,确认下顶部选择了正确的模型。现在啊,可以直接发消息给他, ai 会马上进行回复。 回到仪表盘里可以看到 tok 统计信息。总结下,在 mark m 系列芯片上,可以使用 o m x 来运行本地 ai 大 模型,彻底告别 tok 焦虑。低配置的 mac 电脑推荐使用纤维三点五杠九 b, 这个模型只占据六 g 左右内存, 而且性能足够使用,完全可以用来驱动 open core 文字版内容请看课程讲英文档。下节课我们继续学习 open core 的 安装,并对接上这节课所部署的本地 ai 大 模型。

等了接近一个月左右的时间,我新买的那个迷你东西到了啊,然后接下来我要用它跑一些本地模型,现在大家看一下整个一个流程。先看一下配置,我这个芯片是 m 四 pro 的 apple 芯片,然后内存的话是六十四 g 的。 我用的推理框架呢,是这个这个小企鹅的这个 o m l x, 它是一个针对苹果芯片专门做了优化的一个推理框架。嗯,可以在 github 的 开源仓库里面找到它, 然后你可以去找他最新的一个安装包,直接把这个程序下载下来。那我现在我启动它,这里是因为我已经配置了端口和 api 密钥,所以正跳过了一步,正常的话会有一个配端口和密钥的一个过程, 配置好之后可以在这个上面能找到它。我先把这个服务提起来,可以看到 o m x server is starting。 稍等一下,好,提起来了,那这个有个 admin panel 可以 进入到这个管理后台。 在这个管理后台里面,呃,我们首先能够看到的是一个仪表盘,这里面包括你总共用了这个 token, 然后包括这个命中缓存的这个 token, 这就是它所做的这样一个优化。 这个命中缓存的 token 呢,能够极大程度上提升整体的一个推理数率。 我这边现在把 token 全部清除掉了,正常的话会把你所用的 token 全部记录下来。 然后我们选到模型这边有一个下载器,刚开始这个管理器是所有的模型一个列表,正常我们先到下载器这边选择 hugging face, 然后这里有一个模型的列表, 它是会根据你系统的一个情况来给你推荐合适的模型,那我是一个六十四 g 内存的一个系统,它会给我推荐这样一个配置,这有个仅 m l x, 我 们把它勾选去掉。 呃,我一开始是下载了这个千万三点五二十七比特四点六 oppo 十的这样一个帧率模型, 但实际上它也提示过了内存偏紧,我正在用的时候发现根本是用不了的,虽然它这里大小只是五十一点七 g, 对 吧?然后我这边设置模型,设置全机设置。 我先设置这里啊,在这里有一个内存限制总量,然后我这边设的是百分之九十七,这样有个六十二 g 的 可用的内存。 然后内存限制是针对模型的,我这里设的是百分之百,但其实可用的也只有五十六 g, 对 吧?所以这个五十一点七 g 的 模型跑起来还是非常勉强的, 实际上我根本就没有把它跑起来。首先我们点下载,下载会在最下面有一个,下载了一个进度条,这个下载还是比较慢的, 整个把它下载也可以啊。还有一种下载方法,因为他这边的一个进度条特别不明显,比如说我随便点一个给大家示范一下,点一个我也没有下载过的模型, ok, 它这个进度条特别不明显,看不到数据,然后整个网速又非常的慢,那就非常的让人难受啊。这个时候我们有一个什么办法呢?比如说这个模型,对吧?把它名字拷下来,直接去 hugenface 下载 这个。 然后我们要看一下我们现在这个模型存在哪。这边我网络有点慢,在设置里面可以看到模型的一个目录,现在我去找到这个目录,在 finder, 然后用户, 然后正常这里面是不显示一些隐藏的文件夹,我们按住 command shift 加点,把它显示出来,然后这里面点 o m l x 呢?就是我们的这个推理框架,这个模型存在这个 models 里面, 这是我现在的这几个模型,然后这个 ctrl o c r two, 这个应该是我们刚刚正在下的,对吧?所以其实我们看到它下载的模型是在这个 models 里面的。好,现在我把这个模型停下来, 我不想下载这个模型,好,我把它删了。 ok, 假如说我们嫌它在这下载的太慢,那我就可以去 hackinface 把它仓库地址直接 get the clone 下来, get the clone 到本地之后, 再把这个模型的文件夹直接拷到这里面来,就可以正常使用了。呃,我的这个千万三点五二七 b 的 这个模型就是这么子下下来了,下载完了之后直接把它拷过来。 ok, 现在我们试着用一下,然后这个模型,我如果选择原始的模型,我给他发一句,你好, 因为我们刚刚看到我们实际模型可用的内存只有五十六个 g, 然后它这个模型跑起来是需要五十二个 g 的, 实际上我跑下来发现,呃,根本 没办法让它跑起来。好,报错了, arrow network, arrow, 这个我不知道为什么报这个错误啊,但其实很有可能就是内存不够所导致的。 现在先不管它,我切换一下,我们是有办法的,不是没有办法使用它。在这个模型下载器旁边有一个 o q 量化的这样一个选项,在这个量化选项里面呢,我们可以选择我们现在这个原来的五十二 g 的 这样一个内存 的模型去给他做一个量化,然后这里面有不同的量化级别,每个量化级别所产生出来的模型大小的尺寸是不一样的。 这里选到一个 q 八是因为我这边可以看到产出的二十七点五 g, 我 这明显就可以使用了,所以我选到了一个最高的 q 八的战队级别,这边级别越小的话,这个量化的出来的尺寸更小,点击开始, 呃,点击开始就可以看到量化队列里面会有这样一个进度条,在这个过程中呢,你的 mac mini 会跑起来,你能够听到那个风扇嗡嗡的转起来, ok, 我 这个就不等了,我把它去掉,因为我已经有一个量化的 q 八的这样一个模型, 好,我把它删掉。 ok, 量化完成了之后呢,会在管理器这边模型,管理器可以看到量化好后的模型,我量化这个 q 八大概用了十分钟左右, 然后我现在选到这个 q 八的模型啊,设置模型,设置,然后把它激活, 我现在给它设成了一个默认的模型,而且呢把它的这个地方有一个聊天模板的一个参数可以添加,然后我刚刚是添加了一个 enable syncing 的 这样一个选项, 这个地方呢做的不是很好,这里面选择一个 force, 就是 不要让它去思考,避免它生成的太慢,它会过多的思考,导致产出的速度非常低,然后保存一下就可以了,这样现在是一个已加载的一个状态, 那我就跟大家聊天再试一下,你好 好,终于出来了, 这个过程大概等了三到五秒的样子啊, ok, 六秒,实际思考用到六秒,然后这是他的一个回复,你是什么模型? ok, 这是我们平常正常使用的这样一个效果。然后这里还给大家安利一个输入法,因为我们在做一些复杂任务的时候,可能会需要输入大量的一个提示词, 然后我就装了这样一个软件来通过语音快速输入,这个叫做智普 ai 输入法,大家可以去搜一下智普 ai 输入法,然后这里面可以去设置一个快捷键啊,选中它,然后按下你的键盘上的键, 对吧?然后我这里用的是一个右边的 ctrl, 那 这就是我的一个快捷键,配置了这样一个快捷键之后,我就可以使用它了,比如说我要在这个里面去用我的语音输入,选中,对吧?然后按住右 ctrl, 可以 看到这个屏幕下方有一个开始说话的这样一个标识,这个时候呢,字谱就开始识别我的语音,并把它转成文本输入进去了, 对吧?这是我放手之后的效果,它的语音识别还是挺准的,而且这个逗号啊,句号啊,标点这个符号都打的挺好的,这就极大程度上提高了我们的输入效率。 他这个地方甚至还有一个功能叫做节省时间,我这个也就装了没两天啊,他告诉我已经节省了我十一分钟了,这我用一个月,一年下来,那还了得,对吧?还是挺方便的,挺好用的。 那么我们现在问他一个复杂一点的问题,试一下 o m l x 框架对于苹果芯片做了哪些优化? 发出去看一下。 嗯,现在这个 token 的 生成速度还是偏慢的啊, 可能我要换更小的这样一个量化模型,会让它的速度有一个提升。 ok, 可以 看到内存的优化,计算单元的优化,然后看不太懂,不用管了,反正能用就行,对于我们来说, 嗯,但是它这里面知识库应该是有问题的,这个不是苹果公司做的,还是略微偏慢呢,整体的这个速度 ok, 基本上这就是我们的这样一个使用的流程。 然后呢,在这个仪表盘里面我们可以看一下,这个是我们刚刚总处理了一个特别数量, 然后他提示词处理,大概是二十三点二 tokins 每秒,然后每秒生成八点六个 tokins, 这大概也就是两三个字吧,两三个中文汉字,然后这边还有个机准,我们去看一下, 看一下他的一个机准测试表现怎么样。 ok, 跑完了,我们来看一下效果怎么样啊?还是这个 q 八的一个量化了, 然后这个里面幺零二四指的是提示词的一个输入,一百二十八呢,是一个提示词的输出。在这个里面是有一个介绍的,就是这样一个场景,它生成的 token 率是八点七 token 每秒,对吧?然后但是当我们的输入达到了四零九六的时候, 它还是能够保持保持一个八点六 token 每秒的一个生成率,所以说这个效果还是蛮不错的。然后接下来是一个 p 处理的, p 处理的话,相同的提示词,然后通过同时处理两个,同时处理四个,可以看到它是有个加速效果的,同样的时间内,它相对于输出的 token 数量更多了,也就是说当我们有更多的一个并行的 请求存在的时候,这个算力才能够更好的榨干。 ok, 总的来说,这个 o m x 框架还是蛮不错的, 在我们本地跑模型还是比较丝滑的,给大家强烈安利一手 ok, 这个教程就到这里。

上节课我们在本地部署了千万三点五 ai 大 模型,这节课我们继续部署 open core, 并让 open core 对 接上本地 ai 大 模型,彻底告别头肯焦虑,让大家零成本养龙虾。现在看 open core 官网,里面有很多种安装方式, 我们这里啊,使用 n p m 方式,一键安装,运行之前需要先有 node js 环境才能使用 n p m 命令。 node js 安装好后,打开终端运行 n p m i 杠 g 二分 q, 安装完成,运行命令,开始配置,复制过来粘贴。 先问我们啊,是否继续,当然要继续了,用键盘左右方向键选择 yes, 接着选啊,快速开始。这里问要对接什么模型, 这些选项啊,大部分都是对接云端 ai 模型的,因为我们要对接本地 ai 模型,所以要选择自定义。接着问模型的 api 地址,这个地址啊,在 o m x 的 仪表盘里,大家看这里, 复制一下,将这个删掉粘贴我们这里啊,要填的是幺二七点零点零点一,冒号八千斜杠 v 一。 继续啊问模型的 api k, api k 在 管理面板的设置权限设置里, 默认的 key 是 默认一二三一二三,我们不做修改,就填这个,先按回车粘贴过来,兼容性选择 open ai。 接着问模型 id, 模型 id 啊,在管理面板的模型管理器里面,将名字直接复制了,粘贴过来,确定 end point id, 保持默认就行,这个是模型的别名,可以不填,直接下一步。接着问啊,要对接什么聊天工具列表里啊,默认只有飞书。我这里出现的 open code 微信是我后面装的,大家初次安装并没有这个关于微信的对接,我们下节课再来讲, 这里直接选跳过接着问搜索服务现在没有,也先跳过,继续出来。技能的选择,直接按回车。 出来的技能选择,这里推荐只选 clonehub, 按空格,选中按回车键安装,其他的先不要选,可以避免网络有问题一直卡住。其他的有需要啊,后面可以再来安装。我这里列表中没有看到 clonehub, 是 因为我之前已经安装过了,所以看不到,我就直接选跳过。 后面的几个 api 啊,也都是收费的啊,暂时都没有,全都选 no no no no 还是 no 霍克时啊,也选跳过先按空格再回车。到了最后一步了,问我们运行方式,推荐的是在终端中运行,选择后,现在就可以和他直接发消息了。好,我们发个消息, 它会直接在动态中进行回复,当然也可以使用 word 界面进行访问,大家打开幺二七点零点零点一冒号幺八七八九,在这里也可以一样聊天,还可以做各种设置。总结下,安装 open core 需要 load 机制环境,在装好 load 机制后,使用 n p m 命令,可以一键安装 open core, 安装好后,运行命令开始配置文字版,内容请看课程讲英文档, iphone 可乐,现在出来聊天还可以操控你的电脑了,在下节课的对接微信里,我继续演示给你看。

好,兄弟们,今天给大家录一个视频啊,这个视频比较长,就是在你的 mac 电脑上如何部署一个大模型,这个叫 o l o m l x, 点 ai 啊,下载一下,然后安装,安装好了之后启动,我给大家演示一下,启动啊,先退出一下,就是这个这个程序啊,启动 好,右上角已经启动了啊。启动之后,启动之后会让你设置,你就保持默认,然后设置一个密码,比如说我这里面设置 s k 杠一二三,然后保存,保存之后的话它会弹到一个网页, 这个网页我给大家看一下啊,就是这个 admin panel, 就是 管理员的后台,然后让你输入一个密码,就是刚才设置的 s k 杠一二三四,然后进来之后,这边会展示你当前呃, 当前电脑的一个配置信息,模型的配置信息,这里面是本地模型,你一开始打开的时候其实是没有的,然后你也可以去下载 这个地方,设置全区设置,往下滑找到你的模型目录,因为这是我的 l m 四六六的下载目录,然后这个是 o m l x 的 目录,所以我添加了一个 添加,这是 l l l m studio 的 这个目录,添加完了之后,我在这个模型里面就会看到了,这是我所有的模型, 然后你可以跟他聊天,呃,选择模型,然后跟他聊天,他会载入你的内存里面去,然后这边还有一个东西叫做 community benchmarks, 这是什么呢?这是测试你的电脑运行的模型,然后还有个量化版本,上下维大小,以及在这个芯片内存下面它的这个跑的 talking 的 数量, 你也可以把自己的测试结果上传上去,就就没了,重新打开啊这个地方, 也可以把这个东西接入到你的本地编程软件,或者是一些对话的软件里面去,这是它的这个地址,然后刚才那个 k, 也就是 s k 杠一二三也是可以的。 这个基本测试,基本测试就是选择你一个模型,比如说我选一个英文打的,然后测试这少的少测一点嘛,测试这两个他就开始测,把这个载入到内存里面去,开始测试 在我这台电脑上跑这个模型的性能怎么样,这边大概达到八十一 talking 每秒七十二。然后它测完之后啊,会把这个测试结果上传到 他的这个社区的 benchmarks, 其实就可以看到我的这个呃测试结果。当然如果你要想自己在本地配置的话,你可以在这里面选,选择你自己喜欢的这个 配置,比如说我配 m 三 ultra 的 顶配,看看别人跑的怎么样,结果五百一十二 g 内存的是什么样子的。然后量化位数也可以调,比如说八位量化的结果 跑千万的三点五大模型,这边可以达到七十三个 talking 每秒, 这里面也可以选其他的模型,这里面页数很多啊,你看 m 一 mini max 杠 m 二的 才达到九点六,这说明这个 mini max 杠 m 二其实还是挺牛逼的,所以跑得很慢。输出的结果,输出的套根数,我们看这边的结果好了没, 这边结果好了,然后这边会说已上传,这边两个 uploaded 已经上传了,点开这就是在我这台电脑上跑的这个英伟达这个三十 b a 三 b 的 这个结果 可以看一看,可以达到八十一 toky 每秒,然后配置信息啊,内存啊, 还有这个 gpu 的 核心啊,四十核心还是可以的,上下文的长度在一 k 的 时候可以跑到八十一使用了,内存顶峰是三十二点九 g, 这个速度什么的还是还是行的。还可以的。这个 p 四四叉表示有四个病发请求,它的这个每秒数速度的话是一点七七倍,比单个的话要快一点,所以还是可以的。这个 这个功能,这个软件的功能还是很强大的,尤其是设置模型里面,这个你可以去看一看,比如说这是我本地的可用模型对不对?我可以点一下加载,然后看加载一下, 然后把它固定住就是。呃,这个是默认的是吧?可以把它点成默认的,然后还可以设置这个模型的参数,这个自动的话就让它自动吧, 因为这个平台 m l x 是 苹果的,这个 ar 的 平台。上下文,然后 top p, top k, 最大 top 位数,温度都可以调,调完之后点个保存就完事了, 现在已经默认加载了,对吧?那然后点个聊天,选择这个看看效果啊,你是谁?这个速度还行吧?耶,这个英文答案怎么是通缉千万啊?我去, 你支持图像识别吗? 这个速度还是可以的。 ok, 今天就结束了啊,反正就是这个,可以去看一看。我觉得这个还是挺强的,而且它的这个 get 好 像是开源的, 现在已经二点四 k 了。才开源多长时间?反正很快,这边有说明啊。好,今天就这样了。

这两天我很兴奋,因为 mac 上终于出现了一个高性能推理框架,这就是 o m l x, 它能让你用极低的功耗,带着好几个像 opencl 这样的 ai 智能题,二十四小时不间断的为你写代码跑任务。今天我们就手把手把最强的 q n 三点五部署进去, 别看代码怎么写,直接看结果。在并发请求下, o m l x 的 生成速度直接飙升到四点一四倍。最离谱的是场上下文对话, 以前改个前缀要等一分多钟,现在靠着热内存加 ssd 的 黑科技,首次响应直接接近五秒以内,这才是本地大模型该有的样子。废话不多说,三分钟实战指南跟紧了。第一步,极速安装,你完全不用去管那些折磨人的排查依赖环境, 直接下载 dm 机包,拖进应用程序,或者像我一样在终端银行 homebrew 命令搞定安装,顺手把后台服务也给起了。 第二步,一键下模型,点开你 mac 状态栏那个原声管理后台,不用去研究什么复杂的命令型参数,直接在模型下载器里搜索 q y 三点五推荐选那个极具性价比的二十七 b 量化版,点一下下载就完事了。 第三步,零配置起飞,在后台直接点加载服务,瞬间就能启动,这时候它已经是一个完美的 open ai 接口平替了,地址就在本地八千端口,不管是接入 cloud hold 还是 opencloud, 直接就能原地起飞。为什么我一定要推这个框架赔千万? 因为本地跑模型最怕的就是工具调用解析翻车千万用的是一套很特殊的 xml 格式,传统框架经常解气报错,导致你的智能体直接罢工。 o m l x 底层内置了针对性的解析器,全自动识别处理,这才是真正的丝滑。另外,千万在某些情况下容易陷入死循环。复读 oem l x 后台支持直接配置,存在惩罚参数,这绝对是一剂对症良药,能有效压制重复输出,保证代码生成的质量。别再犹豫了,赶紧去 mac 上跑起来吧!

嗯,最近有不少朋友在问怎么去配这个本地的大模型啊?这边简单讲解一下,首先的话进入这个网站奥 利马点 com, 然后他这有这个教程啊,然后我们只需要把这段话给复制下来,然后下载到本地,也就是在 哦这个位置我这下载,下载了之后呢就下载把程序,下载之后呢我们去呃,用这个指令点微信去查看我们有没有把这个本地部署大模型的这个软件给部署好, 如果说能看见他的微信的话,就说明这个软件我们已已经下载成功了。然后后面的话我们就可以直接去奥利马点 run, 这 run 的 话你可以随便选择模型啊, run 的 时候他会帮你把这个模型给下载好,下载好之后顺便就跑这个模型,然后跑了这个模型之后,你就可以一对一的跟他进行通话,然后这个模型的话你也可以在这个网站点这个 modos, 在这进行去找那个啊你需要的模型,我这边的话是用的那个纤维衫,然后这边的话还有其他的很多模型,而你都可以选,要根据自己的硬件配置的话,选择更多的模型,然后部署到本地。以上就是这个的一个简单的流程。

mac 本地跑大模型,这次我测到新工具 o m l x, 渐变漂亮,关键还能接 call 令 agent。 大家好,我是 ai 学习的老张,前面我测过 l m 四六六跑卡多, office 四点六蒸馏版 q n 三点五杠九 b。 这次继续是 o m l x。 先说结论,它完成度很高,菜单栏一键启停服务,有管理后台和聊天界面,还能对接 codex opencode 也支持 m c p openai 和 atripic 兼容接口,实测数据也够看,单请求大概二十 togg 每秒,峰值内存约五点七 gb。 九 b 在 mac 上已经能正常完,输入拉长后速度掉的不明显,但你要是奔着二七 b 去,我劝你先冷静,我这边怎么调都跑不顺。 o m l x 直接没法硬上 i o m studio 倒是能勉强加载,可一执行任务机器就卡死。 九 b, 可以 玩二七 b, 最好上三十二 gb 统一内存。我的判断是 o m l x 很 适合想在 mac 上折腾本地模型和 coding agent 的 人,完成度高,但小内存 mac 别想太多,还是顶不住物理限制。

朋友们,本地部署那个大模型还是可行的,我根据网友的建议去用了这个,用这个模型加载器,然后我现在在本地部署,在 mac mini m 四上部署的,然后我现在问他一下,他响应速度还行, 你看没这么快就响应量也还可以,你看响应速度非常棒。 然后就是这个拓展处理的话,拓展量非常大,如果说你本地绘画的话就还好,如果说你上 ag 的 话就得上这个模型, 不是这个模型这个容器吧,用这个加速就挺好的,可以部署本地的。

今天给大家介绍一个最近刚出的项目, o m l x, 这是一个专门针对苹果 m l x 推理框架进行本地推理加速的项目, 目前在 github 上有五千多个星,简单的来说,这个项目可以让苹果的电脑推理速度直接翻倍,并且支持缓存和多并发,如果你有四五个人或者小团队的多并发需求,这可能是一个不错的选择, 不过单人使用的话,它实打实的提速也是肉眼可见的。跟着我一步一步操作,首先来到官网,直接点击下载,第一次运行的时候会让你设置一个 api, 这里我们随便设置一个一二三四即可 点击保存。此时在你的 macos 的 任务栏应该会看到一个小企鹅的图标,这就是 o m l x 了, 点击可以看到下拉菜单,下面我们点击 admin panel, 就 会打开 o m l x 的 管理员面板,我们点击模型,这里就可以看到我们所有的模型了。 点击下载器就可以下载模型了,这里 o m l x 很 贴心的加入了摩塔社区的 api, 方便在国内的小伙伴们下载模型。点击摩塔社区,在这里可以直接搜索,下方会自动出现搜索结果,然后点击下载即可。 下载完成后回到管理器,点击重新加载就可以刷新模型了。现在你有了模型,我们就可以开始用了。以 open web ui 为例, o m l x 的 默认端口是八千,别忘了我们一开始设置的 api 一 二三四,这里要输入进去, 点击这个刷新按钮,可以看到绿色框框表示链接成功。现在就让我们实际跑一下,模型我们都选千万三点五三十五币。首先我用 lm studio 的 g g u f 来跑,我们可以看到 lm studio 开始推理了, 完成速度还是挺快的,有六十五个 tokens 每秒,然后相同的提示词,我们用 o m l x 试试, 我们可以看到速度达到了一百四十六个 tokens 每秒,速度提高了二点二倍。 o m l x 不 但推理速度很快,同时还支持多并发,这里我们加四个并发请求,再来测试一下。 再次并发的情况下,每一个对话都有至少六十七 tokens 每秒的速度,高的可以达到八十八 tokens 每秒。 四个并发任务下的总 token 数大概是三百个 tokens 每秒。怎么样,你学会了吗?还不快去白嫖这二点二倍的速度和并发。

使用欧拉玛可以一键部署本地大模型,我选择的模型是千万三点五九 b, 现在来演示一下, 可以看到 gpu 使用率向升,由于我这台电脑的显卡配置比较低,所以输出的比较慢。 好,终于输出完成了,接下来是 gg 教程。 首先肯定是要下载欧拉玛的这个软件,进入欧拉玛的官网之后,选择 windows 点击下载,当然这个下载起来会非常的慢, 我也给大家把安装的程序上传到了网盘下,下载后双击打开直接安装,安装完成之后就是这样一个界面,可以在这里点击你想要的大模型,比如说这些是云端大模型, 从这里开始就是本地大模型,这个是谷歌开源的本地大模型街吗? deepseek 千问三,还有其他的一些模型啊, 对于模型怎么挑选,得看电脑的配置,比如说我这台电脑 cpu c a m d 二五六零零两根 d d e 二四的一六 g 内存条, 显卡是一六六零 s 六 g 的 显存,这个已经是非常老的显卡了,后续我准备根据我的电源升级成四零六零 t 一 六 g 显存的,所以根据我的电脑配置 选择了比较小一点的模型。那你的电脑适合哪一个大模型?可以把配置发给豆包问问,让豆包帮你分析适合下载部署什么样的大模型。今天的教程就到这,关注我,评论私信。

最近呢,好多人追着我要本地大模型部署的教程,在这之前,我想说,其实百分之九十的人呢,根本就没必要去部署啊。普通人日常写文案、改周报、做 ppt, 这些需求,线上的豆包、 gpt 完全够用,甚至比百分之九十的本地开源模型更聪明。本地部署呢,它是有硬件门槛和操作门槛的。如 如果你不是为了玩技术,或者说有保密的需求,有高频创作刚需的,看到这其实就可以划走了,不要瞎折腾啊。但如果你是下面这三类人,这条视频就是为你量身定做的,从硬件的准备到安装运行,全程都是零代码去实操,新手跟着一步步来就行。 适合的只有这三类人,第一就是技术爱好者,想玩模型测试,微调训练。第二个呢,就是有核心数据保密需求,不能上传线上平台。第三呢,就是你有高频的大批量的创作需求。线上的 top 呢,一年可能要花大几万,想一次性投入长期用。 那么先给大家算清本地模型和线上模型的核心区别。第一个呢,就是成本,本地模型呢,他是不消耗,线上的 top 呢,不用暗自付费,但是他吃显卡能流畅跑的显卡少说得几千,多则几万。 线上的模型呢,零门槛,小额按需付费,普通人一年可能都花不到一张显卡的钱。第二个就是它的保密性,本地模型下载完成之后断网都能用,数据全都在自己的电脑里,零泄露风险。 那线上模型呢,数据需要上传到平台,有泄露的隐患。第三呢,就是它的能力,本地模型你不更新永远都不会变,汉源模型的综合能力普遍要比线上闭源模型差一截啊, 介绍的模型平台自动更新,永远都是最新版本,它更聪明。第四就是自由度,本地模型呢,你能随便改规则,调参数,定制功能,自由度拉满,介绍模型呢,只能跟着平台的规则用,限制多。就比方说现在很多的模型是不支持上传真实的人脸照片的。 ok, 这几个问题搞清楚,如果你依然觉得自己适合去部署一个本地的模型,请你仔细按照下属流程,跟着一步步操作啊。我用新手最友好的 a l m 双端都能用啊, 先自查你的设备,这是能跑起来的基础。 windows 需要 win 十二十一 h 二以上的版本, mac 需要 mac os 十二以上的版本,显卡的要求呢?优先英伟达的 n 卡显存至少八 g 起步, mac 电脑只要是 m 开头的芯片都行。 现在教大家如何用 alm studio 去部署我们本地大模型。首先你需要下载一个这个 alm studio 的 app, 直接在这个它的官网里,一定要记准这个官网啊,认准这个官网,要不然可能会下载到啊这个有捆绑的 app, 然后下载你适合你电脑的这个 app 就 行。然后下载完之后呢,我们打开这个 alm studio 啊,就是这个界面。然后第一步咱先设置一下这个语言啊,因为全是英文,咱看不懂啊,然后就去设置一下简体中文, 设置完之后你会发现还有很多的这个显示都是英文啊,这是因为他这个目前还在汉化在开发啊。所以说呢,大家,这个其他的你基本上也用不上,你就按照我说的一步步跟着操作就行。然后刚开始是这个界面, 嗯,我们打开这个下面这个小机器人,而且有个放大镜的这个图标,然后这里面呢就是各种的这个我们可以下载的本地的大模型啊的文件, 嗯,建议大家啊,就是刚开始用的时候就选 deepsafe 或者千万的模型就行,这里我以 deepsafe 来举例啊,搜一下 deepsafe, ok, 你 会发现呢,搜出来之后呢会有几个模型的选择,然后咱重点看右边啊,这儿有一个显示,就是可能能够完全加载进 gpu 的 显存,这个就代表着你这台电脑它是可以跑得起来的啊,能带动。 然后我们再看一下这个三十二 b 的, 三十二 b 的 这明显就显示对此设备可能过大,所以说这个我们是用不了的。我,我这台电脑是二十四 g 加 e t b 的, 大家可以根据你们自己各自电脑的型号去选择相应的模型, 以 dbiscr 来这个举例吧,咱们就下这个,但是呢在这个 am studio 里面去下载的话,速度超级慢,所以说呢,我今天教大家一个这个快速下载的一个方式,需要咱们去打开一个呃网页,这个网页啊一定要认准这个地址, 进入这个网页之后呢,我们在上面直接去搜索我们需要安装的这个大模型 type c 啊,然后下面会有很多的这个 type c 的 选项啊,但是呢,我们在搜索的时候一定要加上 这个文件的格式啊,因为 lm studio 它只能用这种文件去跑,其他的不行。然后刚刚我们看到的是这个,这个就是我们刚刚测试能用的啊,进来之后呢点击这个 下面呢这些都是可以下载安装的,大家不需要全部都下载啊,就是随便下载一个就行,这个下载的应该速度是比较快的啊,下载完成之后呢话,呃,它会有一个这个 j g u f 的 文件在这。 好,那么接下来呢就需要咱去配置这个大模型了,我们打开这个 a m s studio, a m s studio 呢,第三个图标就是我的这个大模型,它会在这, 然后呢点击右上角会有一个下载的一个位置,然后点开我们这个文件,我们需要把刚下载下来的 devic 的 模型的文件拖到这里面,然后找一个文件夹啊,你们可以去找一个这个文件夹, 点开,然后有一个这个文件夹点开,我们需要把这个下载好的这个文件夹呢,一定要做三级的分类啊,我这已经分好了,就是第一级的文件夹呢,是以这个大模型的名字来命名 你第二集呢要以这个呃我们大模型的这个文件的名字来命名,然后第三集呢才放这个啊,我就直接粘进去了,大家就是建三级文件夹就可以。 好,我们现在呢把这个文件夹呢给他拖到这个文件夹里。 ok, 那 到这一步呢,我们可以发现在 l m studio 里面是识别到了啊,有 d b c r e 这个模型啊,然后呢我们可以去跑一遍测试啊,点开这个聊天列表,然后我们新建一个聊天 在这呢可以选择大模型。哎,看到了吗?啊,就是在这已经有了,然后我们现在去提问一下, 那我们这个模型就开始干活了,那么这个模型在干活的时候呢,是不需要联网的啊,我把这个 wifi 给他关掉,他完全是在本地区在跑,所以说呢,不会出现数据泄露,包括你的一些 啊,核心的,精密的一些数据的泄露,然后这个大模型就已经写出来了一个报告,那这只是第一步啊,我们把网连上,那到了这一步,可能对于大多数人来讲其实都已经够用了啊, 好,更进阶的玩法呢。我们点第二个按钮,然后呢这个界面呢,是我们本地大模型可以对接其他的这个大模型能力的一个呃,开放 api 的 一个界面,然后我们把这个按钮给它打开,然后就会发现一串呃,大模型 api 的 一个地址, 然后你去复制,复制之后呢,去任意一个支持 openai 也好还是网址也好, 都可以直接输入这串地址。最后再跟大家说一句,本地大模型不是智商税,但绝对不是普通人的刚需,如果你没有明确的需求,就不要为了跟风花大几千买显卡, 最后装完只用一次就落灰。最后所有的部署教程都给大家整理好了,记得点好关注,我是辛大,跟我一起把 ai 拉下神坛,为你所用。哦对了对了,还有几个问题需要去注意啊,一定要下载 g g u f 格式的模型, l m studio 只支持 g g u f 的 格式,内置模型库的模型都是配备好的,不用去第三方网站乱找啊, 显存不够用,绝对不要硬上大参数的模型,八 g 显存跑十四 p 的 模型必然爆显存软件崩溃模型下载加载的时候不要打开游戏,剪映, ps 等这类吃显存的软件,避免显存不足,加载失败。然后呢, windows 的 用户一定要用管理员的身份去运行安装包啊,不然会出现权限不足,安装失败的问题。 然后最后呢,就是模型必须联网下载,下载完成之后才能断网去使用,不是全程不用联网啊, ok, 视频就到这,感谢大家的收藏关注,赞!

全国本地部署阿里千万三点五的最新模型,还能满足千人在线并发?什么配置这么硬核?这期是为深圳某企业定制一台模型,本地部署与机器人研发的服务器,搭配了两张 a m d 枭龙九六五四共一百九十二,核心三百八十四现成。注意,这不是撕裂者, 经常有小伙伴把它们认错。内存条浅浅上个十六根,四十八 g d d 二五四八零零七百六十八 g 容量,跑这个模型也绰绰有余, 后期项目升级再加也不迟。显卡配的是英伟达 rtx pro, 五千七十二 g 版本,对比四十八 g 版本,能支持更大的 ai 模型推理,微调推理效率与文本生成速度完全翻倍, 稳定性与扩展性也更强。本地部署最新的千万三点五模型,最高支持一千人同时在线并发,总托肯吞吐三千五百六十六每秒,存储上直接就是九十九点二 tb 的 超大空间,用于存储模型科研的数据存放。

扣你鸡娃,我是小孙。时隔多月,今天教你们在手机上本地部署一个 ai 模型,不用联网,也不需要复杂的命令行操作,关键还可以搭配破甲模型使用,它就是 pocket top。 这是个轻量级 ai 模型运行框架,界面超简单,支持 d u f。 呃,这种适合手机跑的模型,完全不用代码基础。 第二步,去哪找模型?我这里为你提供两种方法,一、摩乐社区浏览器搜摩乐社区, 进去直接找想要的模型,下载导入即可。二、我的网盘资源找不到破甲模型,迅雷搜索鱼鱼的保障,进资源盘就能看到怕甲模型文件和提示词,保存下载后直接导入即可。网盘里我还放了往期视频的资源,需要的可以了解一下。 第三步,导入模型超简单,在网盘下好模型文件,然后来到传输页面,点击左上角的下载,等到模型下好后,点进去,点右上角,打开本地目录, 就可以看到刚刚下好的模型。然后选择移动,选择手机系统文件,这里随便选一个记得住的文件夹临时放置,我就放在电脑目录,然后就可以退出。来到 pocket 号,打开 pocket 号,点击右下角的 go to model, 这个界面的模型不用管它,需要科学上网才能下载。先点右下角有个加号,点它选添加本地模型,添加本地模型,找到你的模型,等着加载完成。导入后,模型会出现在我的模型 列表里。重点来了,每个模型右边有三个按钮,第一个,删除不想要的模型直接删。第二个,设置,这里能加提示词,这里就不多说了。第三个,开始聊天,点它就能跟 ai 进行友好互动了。 这次就有人要问了,这手机上部署有个傻子 a a 有 啥用?这手机上部署个傻子 a a 有 啥用?重点来了,破甲模型和角色提示词。我在网盘里准备了提示词库,让他帮你写小说,甚至模拟特定角色聊天。当然了,咱得用在正道上。在这里要特别提醒大家, ok, 好,虽然能让我们在本地现运行 ai, 但任何工具的使用都要遵守法律法规和品牌规范。分享的模型和提示词仅限于合法合法合法合法正当的学生创作与交流,严禁用于诈骗、钓鱼、传播违法信息或其他危害他人及社会的行为,请大家务必使用。尊重隐 私,保护数据安全,让技术真正为生活带来便利,而不是风险。不要当罕见的人,就这么简单。从找模型到聊天,全程离线,隐私拉满,方便便捷。今天教程就到这,我上次正式更新时 到现在应该有两百多天了,中途也有一些朋友来催更或者来鼓励我,我也非常感谢各位!还有,以后我可能会选择更换其他形象来更新视频,所以孙孝川小课堂可能要绝版了。

哎,用 mac 的 朋友们,你们肯定有过这种体验吧,想在本地跑个 ai 模型,结果问一个特简单的问题,然后呢,就是看着那个光标在那闪啊闪,等半天没反应。说真的,这种归宿足以把任何人的热情都给磨灭了。 但今天咱们就来聊聊,怎么把这个局面给彻底扭转过来。没错,这句话我觉得说的是相当到位。今天我们聊的这个东西啊,就是要来拯救咱们手里这些性能明明很强大,但是在跑 ai 的 时候却总感觉被什么东西束缚住了的 mac 设备。 你看到的这个对比,从五分钟到几秒钟,这可一点都不夸张,这就是我们今天要揭秘的性能飞跃。 那么问题来了,这么巨大的差异究竟是怎么产生的呢?咱把得先从问题的根源说起 好。首先呢,我们必须正视这个问题,在 mac 上跑本地的大语言模型,速度慢,这可不是你一个人的问题,而是一个让无数用户都头疼的普遍现象,一个真正的痛点。 咱们来举个具体的例子啊,比如说,你用 l m studio 这种常见的工具,在你的 mac 上跑一个四 b 参数的模型,向通一千问,你可能就问了三个很简单的问题,结果他花了足足五分钟才给你回答五分钟,这简直不能忍呐,对吧, 也让本地 ai 几乎变得没什么使用价值了,那问题到底出在哪呢?很多人可能下意识的觉得,哎呀,是不是这个 ai 想的太慢了? 其实啊,还真不是,模型一旦开始生成文字,那个速度通常是很快的,真正拖后腿的是它在吐出第一个字之前,那个漫长的准备阶段。 这个准备阶段呢,在技术上,我们管它叫预填充,英文是 prefill, 也叫提示词处理。记住这个词,它就是今天咱们要说的这个大反叛,是它拖慢了你的 mac, 让本地 ai 的 体验变得那么糟糕。 那到底什么是预填充呢?说白了,就是每次你提问的时候,你发给模型的可不光光是你的问题,它还包括了一大堆的背景信息,比如系统提示词了,各种工具的定义了等等。 预填充这个过程,就是把所有这些信息打包处理成模型能读懂的格式。而这个过程呢,在 mac 的 c q 上跑尤其的好。之间 我给你打个特别形象的比方啊,你就明白了。这感觉就像你每次问 ai 一个很简单的问题,比如说今天天气怎么样,他都必须先把一篇一万五千字的学术论文从头到尾仔细细细地读一遍,然后才能开始回答你。你每次问他,每次都得重读, 这个过程在 max 上可能就要花掉几十秒。那你想想,这对现在特别火的智能体应用,简直就是个灾难。这些应用在一个任务里可能需要调用几十次工具,而每一次调用都意味着一次完整的几十秒的预填中。 这就等于说,整个任务过程中,你要经历几十次漫长的等待体验,完全是支离破碎的。好了好了,问题咱们吐槽完了,也搞清楚了, 那现在该轮到我们的英雄登场了,一个专门为了解决苹果芯片上这个痛点而生的新英雄, o m l x o m x 这个东西啊,它的定位特别特别清晰,它不是又一个通用的模型运行工具,而是一个高度优化的推理术趣。它的设计初衷就是要正面硬钢 mac 上的寓天重难题,让本地 ai 真正的快起来。 那么 o m x 到底是怎么做到的呢?它的秘密武器啊,其实是一种非常非常聪明的缓存架构。咱们把它拆开来看看。 你看, o m l x 的 核心就两招儿,一个叫分层 kv 缓存,一个叫分页缓存。听起来可能有点儿技术范儿,但它的思路啊,其实特别好懂。首先呢,是这个分层缓存 o m l x 把换成分成了热的跟冷的。 你想啊,最常用的数据,那肯定放内存里,这就是热缓程,速度最快。那内存要是满了怎么办呢?不常用的数据就会被转移到固态硬盘上,这就成了冷欢程,下次需要的时候,直接从硬盘读出来就行,完全不用重新计算。 哎,这时候你可能要问了,固态硬盘不是比内存慢吗?没错,是慢,但是啊,你得看跟谁比。就像这里说的,和重新计算一次提示词那几十秒的漫长等待,相比 从固态硬盘读取数据,那一点点毫秒级的延迟,几乎可以忽略不计,这绝对是一笔划算的买卖。但更牛的是,第二招叫分页缓存,也叫前缀共享。 这项技术啊,一般只有在企业级的推理框架里才能看到。简单来说,就是如果同时有十个请求,它们前面九十九 percent 的 内容,比如说系统提示都是一模一样的,那 o m l x 就 特别聪明,它只计算和储存一次这个公共部分,而不是傻乎乎地存十份儿, 这架就省掉了大量的内存和计算资源,尤其在多任务场景下,效果拔群。而且啊, m o x 不 光是速度快,它还不是那种冷冰冰的命令行工具,它提供了一整套特别贴心特别好用的工具级,让整个体验都非常顺滑。 咱们快速过一下啊,它有个网页后台,能让你实时看到系统在干嘛, 想用新模型,它有内置的下载器,直接从 hugenface 上给你拉下来。它甚至还有个原生的 macos menu bar, 小 应用,点一点就能启动停止服务器,根本不用开终端。总之就是你想到的,它都给你准备好了。 所以说到这儿, o m l x 这样的工具出现了,对咱们整个 mac 生态的 ai 发展到底意味着什么呢?我觉得啊,这让我们看到了一个特别光明的未来。你想啊, 当 o m l 这种软件上的神级优化,再碰上未来苹果 m 系列芯片,比如传说中的 m 五 这种硬件上的不断升级,那 mac 在 ai 这个领域就再也不是什么二等公民了,它正在真正正正地成为一个能够进行严肃 ai 开发和研究的一流平台。 最后呢,也给大家留一个开放的问题,去想一想,有了这么牛的本地推理能力,我们离在自己的 mac 上跑一个智能体集群,就是让好几的 ai 互相写作来完成复杂任务,还有多远呢?这可能啊,就是本地 ai, 下一个也是最让人激动的一个篇章了。

兄弟们,昨天给大家拍了个视频,但是被限流了,可能是因为我说错话了,今天再给大家介绍一下 l m 数百个模型与供应商,一条命令即可以找到适合你硬件的模型,就是用来判断你的电脑能不能来使用这个。呃,大模型能使用哪些?就这个命令啊,在终端里面输入 模型的名字,然后提供商模型的大小,这个分数是针对于你的硬件,得分越大越能跑。 ok, 这是 talking 每秒预计的啊。这边是这个量化的版本,然后模型的模运行模式,然后这个是占用的内存, 上下文的长度,发布日期,然后后面这个模式是什么?通用,然后编码,还有这个聊天,然后后面还有一个什么其他模型啊,这个地方推理模型可以去试试这个啊,就是来测你的电脑能跑哪些模型, ok。

来回答一下最近问的比较多的问题。第一个, power shell 窗口怎么打开?咱们以桌面环境为例,按住 shift, 再按下鼠标的右键, 点击在此处打开 power shell 窗口,这样就行。第二个问题,欧拉玛的版本,在 power shell 窗口中输入 欧拉玛杠 v 回车,可以看到我当前的欧拉玛版本号是零点一八二。第三个问题,欧拉玛下载大模型后,怎么更改大模型的存储位置?在欧拉玛任务栏的小图标中,右键选择 setting 设计, 可以看到奥拉玛默念的储存地址是在 c 盘,我们点击这个按钮,重新设定一个位置,我给它放到 d 盘,新建一个文件夹,奥拉玛 model 好, 点击确定, 这样就更改过来了。第四个问题,选择好模型,点击下载按钮后,界面没有反应,大家可以在输入框内输入一个问题,比如介绍一下自己 发送后就显示正在下载模型了。第五个问题,欧拉玛的官网下载速度太慢怎么办? 升级出现无法访问的现象?关注我,我给你发网盘的链接。