好,兄弟们,今天给大家录一个视频啊,这个视频比较长,就是在你的 mac 电脑上如何部署一个大模型,这个叫 o l o m l x, 点 ai 啊,下载一下,然后安装,安装好了之后启动,我给大家演示一下,启动啊,先退出一下,就是这个这个程序啊,启动 好,右上角已经启动了啊。启动之后,启动之后会让你设置,你就保持默认,然后设置一个密码,比如说我这里面设置 s k 杠一二三,然后保存,保存之后的话它会弹到一个网页, 这个网页我给大家看一下啊,就是这个 admin panel, 就是 管理员的后台,然后让你输入一个密码,就是刚才设置的 s k 杠一二三四,然后进来之后,这边会展示你当前呃, 当前电脑的一个配置信息,模型的配置信息,这里面是本地模型,你一开始打开的时候其实是没有的,然后你也可以去下载 这个地方,设置全区设置,往下滑找到你的模型目录,因为这是我的 l m 四六六的下载目录,然后这个是 o m l x 的 目录,所以我添加了一个 添加,这是 l l l m studio 的 这个目录,添加完了之后,我在这个模型里面就会看到了,这是我所有的模型, 然后你可以跟他聊天,呃,选择模型,然后跟他聊天,他会载入你的内存里面去,然后这边还有一个东西叫做 community benchmarks, 这是什么呢?这是测试你的电脑运行的模型,然后还有个量化版本,上下维大小,以及在这个芯片内存下面它的这个跑的 talking 的 数量, 你也可以把自己的测试结果上传上去,就就没了,重新打开啊这个地方, 也可以把这个东西接入到你的本地编程软件,或者是一些对话的软件里面去,这是它的这个地址,然后刚才那个 k, 也就是 s k 杠一二三也是可以的。 这个基本测试,基本测试就是选择你一个模型,比如说我选一个英文打的,然后测试这少的少测一点嘛,测试这两个他就开始测,把这个载入到内存里面去,开始测试 在我这台电脑上跑这个模型的性能怎么样,这边大概达到八十一 talking 每秒七十二。然后它测完之后啊,会把这个测试结果上传到 他的这个社区的 benchmarks, 其实就可以看到我的这个呃测试结果。当然如果你要想自己在本地配置的话,你可以在这里面选,选择你自己喜欢的这个 配置,比如说我配 m 三 ultra 的 顶配,看看别人跑的怎么样,结果五百一十二 g 内存的是什么样子的。然后量化位数也可以调,比如说八位量化的结果 跑千万的三点五大模型,这边可以达到七十三个 talking 每秒, 这里面也可以选其他的模型,这里面页数很多啊,你看 m 一 mini max 杠 m 二的 才达到九点六,这说明这个 mini max 杠 m 二其实还是挺牛逼的,所以跑得很慢。输出的结果,输出的套根数,我们看这边的结果好了没, 这边结果好了,然后这边会说已上传,这边两个 uploaded 已经上传了,点开这就是在我这台电脑上跑的这个英伟达这个三十 b a 三 b 的 这个结果 可以看一看,可以达到八十一 toky 每秒,然后配置信息啊,内存啊, 还有这个 gpu 的 核心啊,四十核心还是可以的,上下文的长度在一 k 的 时候可以跑到八十一使用了,内存顶峰是三十二点九 g, 这个速度什么的还是还是行的。还可以的。这个 p 四四叉表示有四个病发请求,它的这个每秒数速度的话是一点七七倍,比单个的话要快一点,所以还是可以的。这个 这个功能,这个软件的功能还是很强大的,尤其是设置模型里面,这个你可以去看一看,比如说这是我本地的可用模型对不对?我可以点一下加载,然后看加载一下, 然后把它固定住就是。呃,这个是默认的是吧?可以把它点成默认的,然后还可以设置这个模型的参数,这个自动的话就让它自动吧, 因为这个平台 m l x 是 苹果的,这个 ar 的 平台。上下文,然后 top p, top k, 最大 top 位数,温度都可以调,调完之后点个保存就完事了, 现在已经默认加载了,对吧?那然后点个聊天,选择这个看看效果啊,你是谁?这个速度还行吧?耶,这个英文答案怎么是通缉千万啊?我去, 你支持图像识别吗? 这个速度还是可以的。 ok, 今天就结束了啊,反正就是这个,可以去看一看。我觉得这个还是挺强的,而且它的这个 get 好 像是开源的, 现在已经二点四 k 了。才开源多长时间?反正很快,这边有说明啊。好,今天就这样了。
粉丝9280获赞5.8万

云端 ai 托盘太贵,这节课教你本地部署 ai 大 模型,零成本使用纤维三点五,彻底告别托盘焦虑。我们这里会使用 o m l x 来运行大模型, 点击这里,请直接到下载页找到最新正式版本,未来稳定期间请不要找标注 dv 的 版本,找到后点击 s s, 根据操作系统版本下载。安装方法非常简单,直接拖拽过来即可。安装完成后直接运行,初次打开会弹出提示页面端口和其他的保持默认,点击启动服务, 提示成功后再点击。打开管理面板,在顶部的菜单中也可以实现这些操作。管理面板打开后接着安装模型,在顶部菜单,点击模型下载器页面,打开后用最快的速度点击摩塔社区,这是因为打开这个页面后会自动联网查找模型,但是由于网络不通问题,可能会导致页面卡死, 我们快速切换到摩塔社区,让它来不及联网就不会卡住了。点击模型下载器旁边的设置按钮,修改镜像地址为 h f mirror 点 com, 点击保存按钮,现在可以切换回来了,在搜索框里搜索千问三点五九 b mx 杠 speed 这个模型,这个模型的性能对一些常规需求已经非常足够了,运行起来大概占用六 g 左右内存,最低配置十六 g 内存的 bug, mini m 四都可以流畅运行。找到后点击下载按钮,因为我这里已经装过了,就不重复下载了,等待下载完成后会自动安装。再设置 模型,设置里可以看到已安装的模型,点击最右边的设置按钮图标,这里推荐设置聊天模板参数,点击添加设置 enable sync 值为 force, 不 然每次聊天呢,它都会思考很久。其他设置大家根据自己的电脑配置来调整,完成后点击保存,点击就绪按钮 会变成已加载状态,模型已经运行起来了,点击导航栏的聊天按钮,确认下顶部选择了正确的模型。现在啊,可以直接发消息给他, ai 会马上进行回复。 回到仪表盘里可以看到 tok 统计信息。总结下,在 mark m 系列芯片上,可以使用 o m x 来运行本地 ai 大 模型,彻底告别 tok 焦虑。低配置的 mac 电脑推荐使用纤维三点五杠九 b, 这个模型只占据六 g 左右内存, 而且性能足够使用,完全可以用来驱动 open core 文字版内容请看课程讲英文档。下节课我们继续学习 open core 的 安装,并对接上这节课所部署的本地 ai 大 模型。

这两天我很兴奋,因为 mac 上终于出现了一个高性能推理框架,这就是 o m l x, 它能让你用极低的功耗,带着好几个像 opencl 这样的 ai 智能题,二十四小时不间断的为你写代码跑任务。今天我们就手把手把最强的 q n 三点五部署进去, 别看代码怎么写,直接看结果。在并发请求下, o m l x 的 生成速度直接飙升到四点一四倍。最离谱的是场上下文对话, 以前改个前缀要等一分多钟,现在靠着热内存加 ssd 的 黑科技,首次响应直接接近五秒以内,这才是本地大模型该有的样子。废话不多说,三分钟实战指南跟紧了。第一步,极速安装,你完全不用去管那些折磨人的排查依赖环境, 直接下载 dm 机包,拖进应用程序,或者像我一样在终端银行 homebrew 命令搞定安装,顺手把后台服务也给起了。 第二步,一键下模型,点开你 mac 状态栏那个原声管理后台,不用去研究什么复杂的命令型参数,直接在模型下载器里搜索 q y 三点五推荐选那个极具性价比的二十七 b 量化版,点一下下载就完事了。 第三步,零配置起飞,在后台直接点加载服务,瞬间就能启动,这时候它已经是一个完美的 open ai 接口平替了,地址就在本地八千端口,不管是接入 cloud hold 还是 opencloud, 直接就能原地起飞。为什么我一定要推这个框架赔千万? 因为本地跑模型最怕的就是工具调用解析翻车千万用的是一套很特殊的 xml 格式,传统框架经常解气报错,导致你的智能体直接罢工。 o m l x 底层内置了针对性的解析器,全自动识别处理,这才是真正的丝滑。另外,千万在某些情况下容易陷入死循环。复读 oem l x 后台支持直接配置,存在惩罚参数,这绝对是一剂对症良药,能有效压制重复输出,保证代码生成的质量。别再犹豫了,赶紧去 mac 上跑起来吧!

大家好,我是根古,告诉大家一个好消息,本地大模型的玩家春晚来了,欧拉玛 v 二点零正式上线,支持吉米莱四,这次最大的更新提升就是速度,内存优化后加载接近快百分之五十,基本做到回车即响应,本地推理体验直接起飞,而且支持超大的上下文, 写代码,读长文更稳更准,做任务也不卡,性能直接拉满。别再去用云端了,赶紧升级把 gmail 是 跑在自己的电脑上吧。给大家讲一下如何更新啊。首先第一步要更新你的欧拉玛,这个直接就在这个 set 里面,可以直接去更新啊,如果你不是最新的话,它这里会显示 update。 第二的话,进入这个欧拉玛官网, 把这个欧拉玛万吉米兰四的二十六 b 这样一个模型输到这个终端命令。行,我现在正在下载,现在网速挺慢的,可能要下载个两小时左右,大概是十七 b 下完了以后,在你这个欧拉玛这里就能出这个模型啊,在这个这个 new chat 里面就会出现这个吉米兰四啊,当然你不需要去切啊。第二步的话,你会用欧拉玛这个命令把它浪起来,对吧?欧拉玛欧拉玛浪起这个欧拉玛 launch 这个 open cloud, 然后你把这个当你下完了以后,这里会多出一个集美的四啊,你把它选上去就可以用了啊。今天晚上我会体验一波,明天会把这个体验效果给大家分享一下。

哈喽,这次我来给大家介绍一个用来做大模型最常用的一个工具。这个工具呢是,呃,主要是是因为要养 overcrowded, 然后不想用那些网上厂商的大模型,然后才自己选择琢磨一下本地大模型怎么用。 网上大模型很贵,因为它有三十一个,然后一些内容的话也不好往上传。然后第三个就是你断网的话就用不了网上的模型了,然后这边不断网的话就, 然后上网的话我们就用不了的模型了,但是这样的模型的话上网也能用,然后的话就写一些定制的模型化,我们临时不能再往上跑对不对?嗯,在机器上跑的话,我们就可以通过调整你的参数来让它得到更高的性能。 嗯,然后呢手动调参数,如果用自己手动填切的话比较麻烦,我就写一个自动填切参数。呃,手动调手动调参数比较麻烦,我就做了一个可以自动测试的一个工具出来, 这工作使用也比较简单,只要选择好的模型,设置好它的长度和 s b 六个限速,再勾选一些优化参数,我们就可以直接去测试,测试的话会展示一些。呃,这个运行参数直接就可以用来布置这个等量模型的服务。 然后如果想要 p 二测试的话,还可以选择一个。呃,三角纹长度区间,然后让他可以测出一个最优的三角纹。呃,长度,还有的话就是可以制定一个 cpu 线的范围,也能找到最优的一个 cpu 线的配置。呃,这样子我们就可以得到一个性能比较好的一个本章模型了,我们直接可以去我们要好的性能,再得到比较好的性能的 cpu, 在得到性能更好的本地大模型之后,我们就可以供给我们的小龙虾,直接给他上一个,直接用本价,直接用本地的大模型,用一个新款,你所要做的只是非法,你要做的只是跟他一起成长。 好的,那来看看我们具体的一些操作。首先呢我们这个操作流程要准备好一些材料,第一个是版本 c p, 我 们去一个号上面去把它下下来,并且编好,然后还有这个大模型我们可以直接去我们大社区还有一个 app 直接下载,下载完之后我们就可以直接用了,以后的话我们就打开我们的工具,我们来本地演示一下, 还有我们的工具,那个工具就长这个样子,我们首先要它会自动帮我们匹配这个的工具,模型这边就选择一下,我们想要,嗯,选这个模型,这边一般比较流行的话就是 q n 三点五的,三点五的模型,这个用起来不错,他们这句话问题,我们用这个吧,先用 q c c 这个模型, 然后的话我们一般有句话推荐的是六十四 k 的 一个强度,那我们就选上下文是类似这样的话,嗯,这么多的可以选 g s b u s s s s, 能选能选十七, 然后还加了三个优选参数,这个选参数的话它可以减少一个内存的使用,对,适合选低的,那这个是镜子思考模,镜子思考就可以更快的数结果,我们需要要点击测试这个这个参数,这个是用那 cpb 内置的一个参数的一个 工具,嗯,写的,那就把这个参数切出来,我们直接点这个参数对话,我们就可以去体验一下这个这个参数的效果怎么样,因为我们这里是直接通过这个三维的 gpu 程序的,有可能它这个不太适应,但是我们还是要测试一下,看能不能够用 好了。界面打开,我们在一起,让他输入对话,介绍一下自己,他没有思考过的过程,直接就生成了比较快,然后生成速度是十五和每秒,大概也就是完了。嗯,马上那个大家问答速度已经很不错了。嗯,可以让他写个编程问题吧, 也可以写啊,问题我们不做测试,就写烟,让你们自己回去测试吧,问一下他,然后我们第三步就可以生成一个小本,然后直接去应用它,我们把它放到桌面吧,这个就叫做千万三点五。嗯,这个是我们直接这样写,等一下我们直接用它打开就好了,先按住二点五 b 这个,把这个服务打开,它就可以直接运行其他这个 mcp 的 服务,现在正在启动,用之后我们把这个网关一下先 好,这个已经启动完成了,在我们可以看到点击的界面,可以看到这个界面,我们可以简单测试一下它功能,看能不能正常运行, 在这边的视频速度可能会比较慢一点,但是也够用了。我们看到龙虾的五官开好了,龙虾网开好,先爆出来,先把它先刷新一下, ok, 这已经我已经配置过了,到时候再给大家演示一下怎么配置这个龙虾了,再打开页, 我们这个通过图层的配饰界面直接去配置这个模型,选择 logo, 然后选择模型,然后我们选择这个自定义的提供,这里会输入一些信息,我们打开我们的工具,然后复制粘贴进去,把这个 a、 p、 u、 dy 复制进去,确定,然后粘贴这个 ip, 这个可以不写,也可以写。那再写,写出来吧,然后再说用的不是,然后在模型 id 就 复制这个,那一点成功了,那就可以,那我们这里随便填个名称吧,三吧, 已经写过了。 ok, 那 现在已经开始好了,我们再回到这里再刷一下。啊,来问一下,看我们开始好没有,把它注一下。小 a, 第一次开始的话可能会快一点,但是我这是个长对话。嗯,就是会比较吃这个,这种长度他回复比较慢,刷新一下,看他有没有回复,我们可以看一下服务,确定他是不是在运行。哦,这确实在运行,那我再提供。他肯定要读很长上下文,应该六一下了。 啊,他回复我了,这没问题,你已经背诵成功了,后面可以这样做, t s 级别都没问题。好,那我们这个也是完毕的,这是一个。嗯,这个光标, 那么也是完毕,怎么去啊?从这个测试最后参数,然后测试一下这个数据速度,大家生成色本我们已经搞定了条路了。另外一个就是批量测速,比如说我们不知道哪个上下文章做的速度更好一点,我们可以把它全选,然后再测试。我们现在可以测试一下, 我们看到这个 p 二测试已经开始了,从八 k 开始测到二百五十六 k, 再测完程度,这个可能需要几分钟的时间。嗯,我们看到这边八 k 生成,八 k 的 话,它速度大概是五十每秒,这其实是一个很快速的,十六 k 的 话也是五十多每秒,稍稍微慢一点点变化不大。 我们看到三十二 k 三十五的话,它的速度会减了几百根,但是也还可以接受。我们的四十四 k, 这个速度虽然更高了,更快了,它一百二十八速度就更慢了,这说明不是越快越小的效果越好,这个一百二十八 k 的, 这个四十 k 秒直接能接受了。 好的,我们测试完了。嗯,二百五十六 k 的 三十四 k 秒已经快了,最快的话是八 k 的 那个传送门, 平均的话有四十多的那种,我们选择一个我们需要的啊,龙虾的话最好还是用长三角纹的。对,二百五十六 k 刚刚好。那比如说我们想要二百五十六 k 的 上角纹的长度,然后我们那不知道什么线就好,我们可以测五到十去测试一下,我们每个上角纹长度是我们的上长,我们在特定上角纹长度的话,哪个 cpu 线成的速度最快,我们找最稳的方法。我们可以测试线成 这个 cpu 啊,因为我是把部分的专家层放在 cpu 里面,所以说 cpu 现成越高的话,其实一般会啊速度越快的,我们现成速度的话,就比我们的还开始期要慢很多了,通过增加现成的话,我们速度会有一点提高。 好,这我们测试完了,我们看到这个射程速度会提高的话,它的射程速度是有很多提高的,但是提高并不大,在七县城这里已经达到进了一个最高峰了。 嗯,最快速度这些人九,但这个数据会用到比较大的资源,如果你的县城多的话,那我们平均生成的速度就是三十九,我们这个七的话就已经不错了,这样资本少,然后速度又会明显的一个台阶, 然后太高的技能是没必要,你看这十的话已经到三十九了,十六的话可能会更好,但是我感觉已经够了,有些到我们,嗯,作为我们的一个空余量,不必加到最满。那我们现在已经知道了,在二五六的我们需要测量长度,然后我们县城的话呢,七是最好的参数的话可以拉满,然后我们点一下这个测试优先参数, 然后再点一下生成脚本文件,我们就可以拿到千万三点五。嗯,六四 a m 到十六 k 七七七的一个参数我们可以保留下来, ok, 我 们保存下来就可以用来配置我们的其他的配置,我们的服务。好的,整个剪辑完毕,大家有没有什么 好的,这个就是我们所有的操作流程了。嗯,最后统计一下我们这个最下的一配置了,我们用它配置,我们养虾就从此告别了收费动画。嗯,撕切了出的产品的空点输出还是得看你的配置啊,因为我们的成本其实深层速度并不快,但是我们可以尝试不同的模型,我们发现这个 cvt 二十 b 的 模型是最快的,给大家体验一下, 这个模型要达到惊人的八十多倍,哎,它是原生的 oppo r i 的 一个模型,感觉是非常不错,我看这个镜子我说关不了,哎。哦,我开的太高了,不好意思,这个上午长度开二五六,二五六的话它也有一个。呃,四十秒的速度也很快了,它处于 我们关掉它,我们来到二十四倍吧,二五六确实难为他。那就这样速度就快了, 看这个能达到二十五,每秒二十度,我感觉用来切减一度两下是没问题的。好的。

大家好,我是根谷 open cloud 的 追马四欧拉玛全新的本地模型体验来了。欧拉玛最新更新的版本是 v 二点零啊,已经支持追马四,搭配 open cloud, 响应更流畅,速度更快,回车记出结果,支持常文本做任务处理,本地 i i 体验相当的不错, 要想流畅的体验,快去试试升级吧。首先教大家如何去升级吧,当你用这个积马四的话,你首先的显卡应该是十六 gb 上的啊,最好能够到三十六 gb 啊,我的电脑是一个一百二十八 g 的 全存和内存一体化的,是吧, m 四 max 的 最强电脑,所以说我运行这个东西是, 呃,我运行这个金马四二十六币了,这个模型是没任何压力的啊,欧拉玛兔啊,一定要用这个命令啊,金买四二十六币啊,你回车 他默认的会把它下载到你这个,因为我是下完了是吧,当然如果你下载很慢的话呀,你应该去做的有两个操作,就是应该是这么做的,应该是做那个去开他代理啊,这个代理应该是这么做啊,就是去去这么做 开这个代理啊,或者是你去那个把这个镜像设置为那个,设置为一层摩摩搭论坛的那个代理啊, 就是把它带代理到国内啊,如果你能够魔法上网的话,就不需要开代理了,因为我这边的网速是比较快,大概是下载了接近接近两个小时,一个半小时啊,大概是五到六兆每秒,他是七 gb 的, 他会下载哪个目录呢?你可以看一下这个目录啊,欧拉玛这个目录,呃, 首先它的模型会下载到这里,下载你其实不用管了,你可以打开你的欧拉玛,现在欧拉玛其实它又升级了一个小版本啊,就是零点零点二 两百啊,零点二点,零点二点零点二啊,这是今天最新版本,大家建议大家升级最新的版本。那我这里下载了两个模型比较好用,一个是 gbt 的, 一个是 o s s 二十 b, 一个是这个积满四,最新的二十六 b。 那 我发现这两个模型都非常快啊,你下完了以后,你一定要用欧拉玛浪琴去启动欧拉玛 浪去,他去启动这个欧风 club, 启动完了以后我这已经是启动了,启动了以后你打开这个小小龙虾的页面来,我给他做一道数学题目吧。啊,这个他不知道他能不能识别啊,哎,你看非常快吧,秒开吧,是吧? 然后他这个地方其实有错误啊,就是我应该去截个图给,不知道能不能截图过去啊?就是你,哎,就是就是就是,求解,这个一元二次方程, 不知道他能不能识别。这个啊,他已经识别出来了啊,这个是啊,我不知道这个结果是不是对的。 x 平方减五, x 加六啊,应该是没,应该是没问题的,对吧?一个是二,一个是三,对吧?对,非常快,然后这个数学题其实更难一些,就是这个勾股定力的这个,一个这个这个 啊,你看看一下,他应该是应该是很快的,一秒、两秒,两秒就出来了,这个比之前是快很多,我记得考了应该是三月 二十八号那个版本嘛,大概是一周前的欧拉玛这个版本和 opencall 的 最新版本啊,它大概是这样一个难度的速写题,要要五到八秒钟,如果是过年的那会大概是要一分多钟,所以说现在是非常快啊,非常快啊,就是我感觉比那个 api 都要快,所以大家尽可能去试一试啊。用它进行养虾的话, 那比如说,比如说我是谁啊?对吧?他应该很快就能够找到十二月份,是吧?年龄怎么怎么样?我觉得非常快,这个建议大家赶紧去升级吧。

等了接近一个月左右的时间,我新买的那个迷你东西到了啊,然后接下来我要用它跑一些本地模型,现在大家看一下整个一个流程。先看一下配置,我这个芯片是 m 四 pro 的 apple 芯片,然后内存的话是六十四 g 的。 我用的推理框架呢,是这个这个小企鹅的这个 o m l x, 它是一个针对苹果芯片专门做了优化的一个推理框架。嗯,可以在 github 的 开源仓库里面找到它, 然后你可以去找他最新的一个安装包,直接把这个程序下载下来。那我现在我启动它,这里是因为我已经配置了端口和 api 密钥,所以正跳过了一步,正常的话会有一个配端口和密钥的一个过程, 配置好之后可以在这个上面能找到它。我先把这个服务提起来,可以看到 o m x server is starting。 稍等一下,好,提起来了,那这个有个 admin panel 可以 进入到这个管理后台。 在这个管理后台里面,呃,我们首先能够看到的是一个仪表盘,这里面包括你总共用了这个 token, 然后包括这个命中缓存的这个 token, 这就是它所做的这样一个优化。 这个命中缓存的 token 呢,能够极大程度上提升整体的一个推理数率。 我这边现在把 token 全部清除掉了,正常的话会把你所用的 token 全部记录下来。 然后我们选到模型这边有一个下载器,刚开始这个管理器是所有的模型一个列表,正常我们先到下载器这边选择 hugging face, 然后这里有一个模型的列表, 它是会根据你系统的一个情况来给你推荐合适的模型,那我是一个六十四 g 内存的一个系统,它会给我推荐这样一个配置,这有个仅 m l x, 我 们把它勾选去掉。 呃,我一开始是下载了这个千万三点五二十七比特四点六 oppo 十的这样一个帧率模型, 但实际上它也提示过了内存偏紧,我正在用的时候发现根本是用不了的,虽然它这里大小只是五十一点七 g, 对 吧?然后我这边设置模型,设置全机设置。 我先设置这里啊,在这里有一个内存限制总量,然后我这边设的是百分之九十七,这样有个六十二 g 的 可用的内存。 然后内存限制是针对模型的,我这里设的是百分之百,但其实可用的也只有五十六 g, 对 吧?所以这个五十一点七 g 的 模型跑起来还是非常勉强的, 实际上我根本就没有把它跑起来。首先我们点下载,下载会在最下面有一个,下载了一个进度条,这个下载还是比较慢的, 整个把它下载也可以啊。还有一种下载方法,因为他这边的一个进度条特别不明显,比如说我随便点一个给大家示范一下,点一个我也没有下载过的模型, ok, 它这个进度条特别不明显,看不到数据,然后整个网速又非常的慢,那就非常的让人难受啊。这个时候我们有一个什么办法呢?比如说这个模型,对吧?把它名字拷下来,直接去 hugenface 下载 这个。 然后我们要看一下我们现在这个模型存在哪。这边我网络有点慢,在设置里面可以看到模型的一个目录,现在我去找到这个目录,在 finder, 然后用户, 然后正常这里面是不显示一些隐藏的文件夹,我们按住 command shift 加点,把它显示出来,然后这里面点 o m l x 呢?就是我们的这个推理框架,这个模型存在这个 models 里面, 这是我现在的这几个模型,然后这个 ctrl o c r two, 这个应该是我们刚刚正在下的,对吧?所以其实我们看到它下载的模型是在这个 models 里面的。好,现在我把这个模型停下来, 我不想下载这个模型,好,我把它删了。 ok, 假如说我们嫌它在这下载的太慢,那我就可以去 hackinface 把它仓库地址直接 get the clone 下来, get the clone 到本地之后, 再把这个模型的文件夹直接拷到这里面来,就可以正常使用了。呃,我的这个千万三点五二七 b 的 这个模型就是这么子下下来了,下载完了之后直接把它拷过来。 ok, 现在我们试着用一下,然后这个模型,我如果选择原始的模型,我给他发一句,你好, 因为我们刚刚看到我们实际模型可用的内存只有五十六个 g, 然后它这个模型跑起来是需要五十二个 g 的, 实际上我跑下来发现,呃,根本 没办法让它跑起来。好,报错了, arrow network, arrow, 这个我不知道为什么报这个错误啊,但其实很有可能就是内存不够所导致的。 现在先不管它,我切换一下,我们是有办法的,不是没有办法使用它。在这个模型下载器旁边有一个 o q 量化的这样一个选项,在这个量化选项里面呢,我们可以选择我们现在这个原来的五十二 g 的 这样一个内存 的模型去给他做一个量化,然后这里面有不同的量化级别,每个量化级别所产生出来的模型大小的尺寸是不一样的。 这里选到一个 q 八是因为我这边可以看到产出的二十七点五 g, 我 这明显就可以使用了,所以我选到了一个最高的 q 八的战队级别,这边级别越小的话,这个量化的出来的尺寸更小,点击开始, 呃,点击开始就可以看到量化队列里面会有这样一个进度条,在这个过程中呢,你的 mac mini 会跑起来,你能够听到那个风扇嗡嗡的转起来, ok, 我 这个就不等了,我把它去掉,因为我已经有一个量化的 q 八的这样一个模型, 好,我把它删掉。 ok, 量化完成了之后呢,会在管理器这边模型,管理器可以看到量化好后的模型,我量化这个 q 八大概用了十分钟左右, 然后我现在选到这个 q 八的模型啊,设置模型,设置,然后把它激活, 我现在给它设成了一个默认的模型,而且呢把它的这个地方有一个聊天模板的一个参数可以添加,然后我刚刚是添加了一个 enable syncing 的 这样一个选项, 这个地方呢做的不是很好,这里面选择一个 force, 就是 不要让它去思考,避免它生成的太慢,它会过多的思考,导致产出的速度非常低,然后保存一下就可以了,这样现在是一个已加载的一个状态, 那我就跟大家聊天再试一下,你好 好,终于出来了, 这个过程大概等了三到五秒的样子啊, ok, 六秒,实际思考用到六秒,然后这是他的一个回复,你是什么模型? ok, 这是我们平常正常使用的这样一个效果。然后这里还给大家安利一个输入法,因为我们在做一些复杂任务的时候,可能会需要输入大量的一个提示词, 然后我就装了这样一个软件来通过语音快速输入,这个叫做智普 ai 输入法,大家可以去搜一下智普 ai 输入法,然后这里面可以去设置一个快捷键啊,选中它,然后按下你的键盘上的键, 对吧?然后我这里用的是一个右边的 ctrl, 那 这就是我的一个快捷键,配置了这样一个快捷键之后,我就可以使用它了,比如说我要在这个里面去用我的语音输入,选中,对吧?然后按住右 ctrl, 可以 看到这个屏幕下方有一个开始说话的这样一个标识,这个时候呢,字谱就开始识别我的语音,并把它转成文本输入进去了, 对吧?这是我放手之后的效果,它的语音识别还是挺准的,而且这个逗号啊,句号啊,标点这个符号都打的挺好的,这就极大程度上提高了我们的输入效率。 他这个地方甚至还有一个功能叫做节省时间,我这个也就装了没两天啊,他告诉我已经节省了我十一分钟了,这我用一个月,一年下来,那还了得,对吧?还是挺方便的,挺好用的。 那么我们现在问他一个复杂一点的问题,试一下 o m l x 框架对于苹果芯片做了哪些优化? 发出去看一下。 嗯,现在这个 token 的 生成速度还是偏慢的啊, 可能我要换更小的这样一个量化模型,会让它的速度有一个提升。 ok, 可以 看到内存的优化,计算单元的优化,然后看不太懂,不用管了,反正能用就行,对于我们来说, 嗯,但是它这里面知识库应该是有问题的,这个不是苹果公司做的,还是略微偏慢呢,整体的这个速度 ok, 基本上这就是我们的这样一个使用的流程。 然后呢,在这个仪表盘里面我们可以看一下,这个是我们刚刚总处理了一个特别数量, 然后他提示词处理,大概是二十三点二 tokins 每秒,然后每秒生成八点六个 tokins, 这大概也就是两三个字吧,两三个中文汉字,然后这边还有个机准,我们去看一下, 看一下他的一个机准测试表现怎么样。 ok, 跑完了,我们来看一下效果怎么样啊?还是这个 q 八的一个量化了, 然后这个里面幺零二四指的是提示词的一个输入,一百二十八呢,是一个提示词的输出。在这个里面是有一个介绍的,就是这样一个场景,它生成的 token 率是八点七 token 每秒,对吧?然后但是当我们的输入达到了四零九六的时候, 它还是能够保持保持一个八点六 token 每秒的一个生成率,所以说这个效果还是蛮不错的。然后接下来是一个 p 处理的, p 处理的话,相同的提示词,然后通过同时处理两个,同时处理四个,可以看到它是有个加速效果的,同样的时间内,它相对于输出的 token 数量更多了,也就是说当我们有更多的一个并行的 请求存在的时候,这个算力才能够更好的榨干。 ok, 总的来说,这个 o m x 框架还是蛮不错的, 在我们本地跑模型还是比较丝滑的,给大家强烈安利一手 ok, 这个教程就到这里。

如果你在考虑买一台 macbook 本地模型,你的第一个问题大概率是内存够不够。但我的判断是,某一架构正在改变。这个问题本身,瓶颈不再是内存够不够,而是存储够不够快。这两个问题的解法完全不同。 大家好,这里是 l l mx factors, 一个叫 hyper 的 开源项目,在三十二级字节内存的 mac mini 上跑了三十一级字节的 mixedro 模型。二点二 talks, 同样的配置,拉玛点 c p p 直接崩溃。 很多人第一反应是速度太慢,但我觉得速度不是重点,重点是它背后的架构思路。我们先来看看这个项目的核心思路。 传统做法是把模型全塞进内存,塞不下就换更大的机器。 high pure 不 一样,它把张亮按访问模式分三层, gpu metal 放每个 token 必用的层, ram 放溢出层, nvme 按需加载。剩余的关键是它理解模型结构,不是简单的虚拟内存交换。 有人问,这跟操作系统的 swap 有 什么区别?区别在信息优势 os, 不知道你下一步要用哪一层,只能等页错误后被动加载四千字节小页。但 transforma 的 层是按顺序执行的, hypera 可以 提前预取大块连续读,还能追踪专家激活频率做缓存。 知道模型结构就能做更好的调度。但这个项目真正有意思的不是三层调度本身,而是它对 m u e 模型的处理。 dance 模型,比如 loma 七十 b, 每个 token 都要用到所有参数,内存不够就是不够。 m o e 完全不一样。 mixedro 有 八个专家,每个 token 只激活二个,百分之七十五的专家权重随时限制 hypera 利用这一点,只把非专家张亮常驻 gpu。 大 概一级字节,专家从 nvm 一 按需加载。 更厉害的是专家缓存 high pure 追踪哪些专家被频繁激活,优先留在内存预热后缓存命中率达到百分之九十九点五,绝大部分时候根本不需要读硬盘操作系统的 l r u 不知道专家三的激活频率是专家七的十倍,但 high pure 知道。 但有一个技术细节, mvme 顺序读取可达六级字节,每秒随机读取暴跌到五百兆字节。 meo e 的 专家访问介于两者之间,每个专家层几 mb, 不 算纯随机,但也不完美顺序,这决定了实际性能的上下限。 那实际性能到底怎么样?我们看数据。 mixedro 八 x 七 b, 三十一级字节的 m o e 模型 在三十二级字节 m e max 上。二点二 talks 同条件的 dance 模型拉玛七十 b 只有零点三,注意这个七倍差距更小的模型可以做到。八、 talks 以上同样是 mvme 辅助推理,猫眼的结构优势非常明显, 社区最大的争论就在这里。零点三 talks 的 电磁模型日常确实没法用,但谋情况不同。二、 talks 以上可以做后台一步任务。八、 talks 已经接近可用水平,作者自己也说这更像概念验证,但对某蚁来说,它是实用方案的雏形。 而且更大的 m o e 模型正在密集发布。 quan 三点五的 m o e 通过 streaming experts 在 apple 硬件上效果惊人。 kimi k 二点五接近 et 参数,有人本地跑到一点七 talks 冒正在成为开源大模型的主流架构,这类存储分层调度的需求只会越来越大, 这件事对我们做决策有什么意义?三个判断。第一,瓶颈正在从内存容量转向存储待宽。电子模型时代,内存不够就是不够, 但 m o e 天然适合分层存储,你不需要把所有专家都放进内存,核心限制从装不下变成读不快,硬件评估标准要跟着变。 第二,买 max 跑模型,带宽可能比容量更重要。 m 四 pro 内存带宽两百七十三级字节每秒, max 是 五百四十六, ultra 是 八百一十九。同样,模型装进了内存, max 深沉速度就是 pro 的 两倍。社区友人说得好, m 四 max 六十四级字节是甜蜜点,七十 b q 四放得下,带宽又是 pro 的 两倍。 第三,存储层级正在成为推理架构的一部分。过去 nvme 只是存数据推理,发生在 gpu 和内存里, 但 high pure 这类项目结识了新的可能。 gpu ram nvme 形成多级推理管线模型感知的调度器,而不是 os 的 通用页面管理将成为本地推理的标配。组建 hyper 不是 孤立 o m l x 在 做 s s d 的 k v 缓存, streaming experts 也在利用类似思路 总结今天的核心判断,膜仪的吸收激活加 m v m e 分 层存储正在构建新的本地推理范式。 瓶颈从内存容量转向存储贷宽。买 mac 跑模型优先看贷宽,而模型感知的存储调度器将逐渐成为工具链的标配。这里是 l l m x factors, 我 们下期见。

macbook 本地部署大模型实战教学。

哈喽,朋友们,我们今天来看一下在六十四 gb 内存的 m 四 max studio 上面跑这个最近特别火的 jam 四三一 b 的 大语言模型是什么样的体验。相信大家最近已经被这个模型刷屏了,这个模型能力有多强,排行有多强我就不多说了,下面来试测一下吧。我用的是最新的奥拉玛版本,模型是通过奥拉玛的官方渠道下载到本地的 这个页面,下面有这个模型不同量化版本的评分,大家自己去看吧。下一步我们来换上我们的 java 四三 e b 的 模型来测试一下速度吧。然后我们来问他一个经典的问题,让他用 python 实现快速排序算法,然后这里我等了大概十三秒 他才开始思考,由于时间关系,我就用两倍速快进了,他思考也用了二十六秒的时间才开始给我回复,思考的过程我也快进了,然后这就是他真正回复的时候生成 token 的 速度,大家可以感受一下,本人觉得这个速度是可以接受的,大家觉得怎么样可以在评论区里面讨论,后面奥拉玛应该还有挺大的优化空间的, 后面我就快进了,系统显示的回复 token 生成速度大概是二十个 token 每秒。后来我测试了一下一个我很常问的问题,让他给我编一个故事, 我猜欧拉玛对这个问题缓存了,因为我只等了两三秒他就开始思考了,但是如我所料,他思考和回复生成 token 的 速度还是没有变,我这里超快的快进一下。最后我们可以看到生成 token 的 速度还是大概二十个 token 每秒。

mac 本地跑大模型,这次我测到新工具 o m l x, 渐变漂亮,关键还能接 call 令 agent。 大家好,我是 ai 学习的老张,前面我测过 l m 四六六跑卡多, office 四点六蒸馏版 q n 三点五杠九 b。 这次继续是 o m l x。 先说结论,它完成度很高,菜单栏一键启停服务,有管理后台和聊天界面,还能对接 codex opencode 也支持 m c p openai 和 atripic 兼容接口,实测数据也够看,单请求大概二十 togg 每秒,峰值内存约五点七 gb。 九 b 在 mac 上已经能正常完,输入拉长后速度掉的不明显,但你要是奔着二七 b 去,我劝你先冷静,我这边怎么调都跑不顺。 o m l x 直接没法硬上 i o m studio 倒是能勉强加载,可一执行任务机器就卡死。 九 b, 可以 玩二七 b, 最好上三十二 gb 统一内存。我的判断是 o m l x 很 适合想在 mac 上折腾本地模型和 coding agent 的 人,完成度高,但小内存 mac 别想太多,还是顶不住物理限制。

像我这样的新手啊,第一次接触 ai 这些东西呢,完全两眼一抹黑,所有东西都是要自己通过网上的渠道去查询。 早上发的那个视频说我下载完这个新的框架之后呢,找不到启动页面,这可能是一些新手常见的错误,那么正好我也给大家分享一下。找到这个之后把它点开, 我们看了半天,哎,怎么没有正常其他的程序你一点开它就自己跳出来了,但它这个哪怕你按这个程序物里面的程序没反应, 后来我看了很多视频之后发现原来它的调曲是在这个地方,它这里,这这有个小鸟,你点开之后呢?呃,选择启动服务。 好,启动服务之后稍等片刻啊,它显示正在正正在打开。 打拍完之后呢,我们可以选择它这边有一个呃 chat with o m l x 或者就是 you and it mean panel 这两个选择。那现在它还在启动当中,还没有变红色 啊?没有变绿色,它现在是红红的,偏红,等会儿它就会飘成绿色,那么就启动了。稍等一下啊,它可能第一次起抖有点慢, 好,它已经显示 running 正在已经启动了。这个地方要说一下,它不是刚刚满, 是我忘了开那种页面,必须把打开一个页面之后它这边才会变绿啊,这也是新手可能常犯的一些错误, 然后我就可以点击这个管理员的东西,那么就到了他这个 dashboard 里面。那么我们第一次配置的话,可能就需要下载一个模型,我也是 看网上的一些教程啊,选择选择下载模型切换到模型的这个什么 modscop 啊,他说设置里面要把这个镜像改掉,改成 改成 h f mirradicon, 然后 save 下,然后呢我们就可以选择我们要下载的模型, 因为我的呃电脑的内存只有二十四 g, 所以呢我点了一个他推荐的一个小魔仙,我是想用千问三点五,有几个选择啊?有二十七 b 或者九 b, 九 b 的 话适合十六 g 的。 那我这个的话要么选择二十七 b 这个或者用三十五 b, 有 没有三十五 b 啊?没有,那这是二十七 b 里面选一个 我到时候看到的哪个会更好?网上说更适合用二十七 b 斯比特,原话它差不多有要用十五 g 的 内存, 千万三点二十七,比特四点六, oppo 四是十四点一,这都适合我这二十四 g 的, 或者这个因为我要留一点点内存给其他的英模,所以可能最后就是这三个里面选一个。 纠结半天,我还是最终选择下载这个前文的三点五二十七比特量化下载,哎,下载, 哎,又报错了,这玩意是什么? 才不知,这看不得什么不得劲,这一概买不起,是我们断网的吗?这什么情况?这一步一看的,一步一看,我只能再去找找怎么弄。

太牛了,这个开源应用让我的头盔生成速度提成了百分之三十!今天分享一款专为 mac 设计优化的本地大模型推理引擎 o m l x, 它可以将 ai agent 的 响应时间从九十秒压缩到五秒,上线仅一个月就斩获了五点六 k star。 它的核心优势是持久化到 s s d 的 分页 k v 缓存机制,简单的说就是 l m studio 这类应用是把读过的内容记在内存中,而 o m l x 则是把上下文存到 mac 的 高速 s s d 里。 这种机制的优势就是基本杜绝了上下文发生切换时模型,把之前记的东西全忘了。还有一点我认为比较关键的就是通过 batch generator 来处理连续并发请求。最后给大家看一下我本地的运行实测效果, 我用的铅粉三点五 a 三 b 模型,投坑速度从六十三提升到了八十三,将近百分之三十的提成非常夸张。

本地跑大模型的起点终于要来了!就在昨天, google research 放出了一个逆天的研究成果, turbo quant 极速量化算法,它能够在不损失任何精度的前提下,大规模减小模型大小,而且内存消耗减少六倍以上,运行速度 提升八倍。这对于做本地 l m 部署高向量剪索的开发者来说,简直是史诗级利好。我初步看了下论文和相关资料,他用了两部极其优雅的数学策略,首先,利用 polar quant 将 传统的直角坐标系转化为极坐标系,解决了传统量化方法的额外内存开销。第二步,使用 qgl 算法,只用意比特的算力做极限纠错,保证了大模型 attention 机制的绝对精准。实验结果也证明了 turboqant 算法的强悍。在 nih 测试中, turboq 可以 以百分之二十五的 k v 缓存实现零点九九七的完美召唤率。而令人惊叹的是,即使被极度压缩,它的信息提取表现与未压缩的三十二比特全精度原始模型分毫不差,真正做到了零精度损失。在 long beach e 紫级测试中, turboq 可以 将 k v 内存压缩至少四点五倍甚至六倍的同时, 得分仍大幅超越目前的主流压缩算法。在 h 一 百上进行注意力逻辑值测试时,斯比特的 turboq 实现了比三十二比特未量化版本高达八倍的星能飞跃。 有兴趣深入研究的兄弟强烈建议去看原论文,学学顶级算法科学家的思路,我会在精读完论文之后和大家分享更深入的内容。

谷歌刚放出来的 jam 四用的 apache 二点零协议,不管是商用还是魔改都随便用,三步就能装自己电脑里,以后跑模型一分钱不用花 它。四个版本对应不同配置,四 g 内存就能跑二点三 b 版本支持图文音输入,手机都带得动。六 g 内存选四点,五 b 版本日常聊天够用,十八 g 内存上二十六 b 混合专家版性价比最高, 二十 g 以上直接充三十一 b 满血版,推理编程能力拉满。第一步,装 alama 苹果电脑,去官网或者 homebrew 装 windows powershell, 输一行命令就行,工具全包了。第二步,终端输 alama run, 加你选的版本自动下载启动。第三步,直接聊天,出回复就成,现在就去试免费的 ai, 不 用白不用。

中午好呀大家。我一直在解决让大模型跑在 gpu 上的问题,可是我系统的环境变量 也都改了,也都设置让它跑在 gpu 一 上面,可是为什么它还是跑在内存上? 为啥那个 gpu 一 你看它被调用的还是百分之零,特别奇怪。