粉丝1433获赞3143

l m 十丢丢全面设置跟使用方法,今天给大家介绍一款工具, l m 十丢丢它是干什么用的?它是下载大模型的时候用的, 如果不知道是拿来干什么的话,就像我们需要部署离线的大龙虾,或者说工作流还有等等相关的很多啊,比如说你们需要一些啊,跟人家聊一些比较私密的问题 啊,都可以部署,他都可以用的到。那么这种工具啊,比较火的有两款,一个是 lm 丢丢,一个是欧拉玛,还有国内的,国内的我没有试,欧拉玛的话我现在也还没玩明白, 那么我们为什么啊介绍推荐这款软件呢?首先啊就拿这个我们已经下载好的软件呢,首先啊就拿这个我们已经下载这款软件呢,首先啊就拿这个是千万三 v 一 八 b 是 不是啊, 如果放在欧拉玛里面的话,他的那个啊就是每秒组的质的量的话有五十多,这个的话有三十多,为什么还要选择 lm 十九九呢?因为他啊每个选项里面可以就是细调啊,细调那个模型啊,比较方便。还有一个啊比较好的这个应用界面大家都能看得懂啊, 大概就是这个样子。首先我们啊要去浏览器啊里面搜索啊,这个官网 找不到的话可以进这个粉丝群里面啊,咱们啊分享给大家。那么啊前面介绍完了,我们现在的话就是介绍 lm studio 这款软件的, 这个啊怎么用啊,怎么设置啊?安装之后该怎么弄呢?首先我们安装之后呢,就是跟正常软件一样,安装就选 d 盘,记得选 d 盘啊,装上之后点右上角直接跳过,这边有一串英文,你们安装完之后呢,直接点跳过进来之后点设置 啊,然后呢我们一般的话是这里要选到这个啊,下面往下面拉, 直接选, ok, 我 们先介绍这款软件的这个功能,首先这里是聊天界面,这边是聊天记录,然后下面的话啊,这边输入文字的话可以对话, 你看回复很快,但是在欧拉玛里面这个啊值就是这个,这个值就是这个他每秒钟吐多少个字?欧拉玛运行这个模型的话有五十多, 但是他里面一些数值我还没玩明白,还有这种条数呢,对不对?我们 下面啊这边有个锤子啊,还有这个这个是支持图像输入,然后我们点这个加号的话,可以啊,这个可以放这个文字文档里面就可以放图片进去让他去参考啊,左边的话是调一个数值, 这个的话后面啊我给大家传一些比较好的。然后我们第二个界面是什么呢?这个是开发者点这里打开之后呢啊,它下面有一个链接啊,就是可以支持远程或者近程,你们要远程的话要把这两个功能打开, 然后这边的话就可以看一些参数啊,咱们对话一些参数是我们看不懂代码的,不用管的啊。然后呢这上面的话就是看一些啊,兼容啊,连接状态什么的, 下面的话啊,下面就是一些文档啊,我们都看不懂,都是英文的啊,看不懂啊就不管他啊。然后这里的话就是加载模型,下载好的模型出现在这里,这边是加载好的模型,第一个的话是加载好的模型,这边是下载好,在这里面打开, 这边是下载按钮啊,这边是下载按钮,我们可以啊,在这啊下载的模型可以在这边看啊,下载过的这些更新啊,或者 这边的话就选这两个,然后我们啊最后一个的话啊,这里面的话就是这个模型,我们没有开这个啊,就是下载模型记得勾赞啊,这个啊就是最适合你们电脑的啊,最适合你们电脑的, 然后呢我们可以啊,选一个最佳匹配,或者说最多点到里面去找啊,找你们的模型。那么模型我们该怎么下载呢 啊?就拿我的配置来说啊,就是我觉得你们先下载一个七 b 的 模型,如果他吐的字更亮啊, 特别特别低,每秒钟吐一两个字的话,你们下载那个四 b 一 点五 b 那 种的啊,如果说他一下载好只是有二三十的话,你们可以啊下载啊,二十 b, 三十 b 以内的配置很多,如果你们想学的话,后面啊我会好好研究一下, 那么到最重要的环节来了,设置前面忘记说了啊,你们下载模型的这个路径啊,在这里面啊,有一些人在左边,有一些人在右边,反正他是跟你默认设置有关的啊。 呃,大概就是这个啊,我们点这里要更改这个默认路径啊,选到第一排啊,来到设置啊,同样啊,我们现在是最新版本的啊,有一些人的在在右边有一些图片,我们啊就认识这个图标就行了,点一下 他啊设置的话啊,是第一个选项,然后 下面的话勾选这两个,其他跟着来, 然后第二个的话就是主题啊,我默认的话是白色的,黑色的话不一样,我们选选这个,而这边不用改啊,制作模式的话也不用改,然后下面啊你们跟着啊,这两个跟着调啊 就行了,看不懂英文没关系啊,因为我们看过比较多了啊,大概是这个样子比较好,我们来到第三个选项啊,这个啊, no, 然后呢这里面的话,你们就是看你平时玩电脑玩多久 啊?我设置三百三百分的话就是好几个 小点。打开啊,这个使用本地服务的话,这个使用本地服务的话可以打开啊, 我是不开的,你们要开的话可以开,然后呢这个自动更新关了,然后呢这边选择稳定版啊,我们下面的话聊天信息啊啊,这边的话跟着调就好了。 试过了,刚刚忘记说了一点,你们要下载模型的话啊,就记得勾选上这个啊,用 lm 九九的代理,不然的话你们下载不到的,下载不了就加载了,下载不了我们接着看 啊,接着看第三个,然后这边的话啊就跟着调啊,这个开这个开这个开这个开啊,下面的话你们看一下有没有跟对, 然后不使用 ai 生存的聊天,然后我们的话选第二个,我们接着到啊这个选项, 这里面是什么呢?这边是图片啊,这边怎么选呢?你们电脑的分辨率是多少就选多少,我的是幺九八零, 然后呢记得把它开了,而这边的话选第一个,这个是什么用呢?这个是上下文,这个是上下文,我的话是一万五啊,也可以调低一点 k d d 的 话调到五千 提示啊,这里面的话就没有这个加载提示了,然后这个模型保护的话选平能或者宽松严格的话有一些模型加载的话就会有卡顿啊, 就是说不给他这么多内存啊,防止这个电脑啊,懂了吗?下面,下面的话啊,选第一个啊, 我们这个的话是啊,这个不用看,再看下面啊,这边的话你们跟着他这个会自动适配你的电脑的啊。啊,其实呢就是你们更新的一些版本啊,选哪个版本 的啊?这边比较复杂啊,就选他默认的就好,下面的话你们跟着来, 我们这里面最后一个呢就是插上这个 cpu 啊,这边的话我们可以看到 cpu 是 兼容的,然后呢啊这个内存条啊啊 什么什么的等等的,然后我们就这边的话这个就是显卡信息,记得开了啊,右边的是开,然后呢限制啊,我先加载到 ppt 就 可以关了,然后呢这个打开 下面呢想放松就是啊,希望你们不管是啊玩大龙虾也好还是说工作流也好, 先把这个 lm 十丢丢玩过,一天两天玩明白了,玩上手了,你们再考虑那些,直接跟着攻略来一个没学完又去学那个,左边学完右边又忘,没用啊,先把这个玩明白了再慢慢去搞,如果你们 还有哪些设置操作没有说到的,或者说你们发现了什么问题, 可以打在评论区咱们一起解决,咱们粉丝群里面啊,定期啊更新一些知识,大家有空的话可以加一下,我们一起探讨研究啊,新领域 ai 的。

尝试在这台老爷机上部署千万三点五,处理器是 i 五四五七零八 g, 内存无读写,我用的是 rms 对 d l 进行部署,打开官网下载安装即可。安装好之后下载千万三点五模型, 我们直接进行搜索,模型越大就越聪明,但是配置要求也越高,我就下载零点八 b 模型来演示,大家可以根据自己的需求和配置进行下载, 下载好模型就可以进行载入了,载入时可以设置上下横,长度也是根据自己的配置和需求设置, 到这里模型已经可以跑起来了,如果不需要联网搜索和本地知识库,做到这一步就行。如果需要联网搜索,就打开浏览器的插件中心搜索,配置 sis 插件进行安装, 然后打开插件设置,把语言改成中文, 搜索引擎可以改成百度搜索,结果按需修改,改好后记得点保存。然后回到 r m, 打开网络服务, 再回到插件,设置了 api 添加供应商, 选择 r m studio 保存即可。点击新聊天,选择千吻模型就可以在网页里进行对话了, 需要联网搜索就打开下面的开关,点击引用的网页就可以看到千吻通过网络搜索到的内容。 然后是建立本地知识库,先在设置里选择文本切入模型,那么会自动帮我们下载好,下了菜单里没有的话就等一会, 记得点保存。现在就可以在知识管理上传我们自己的知识库了, 等状态变成已完成,就能在对话里调用知识点进行回答,点击输入框下方的知识点,选择刚刚上传的知识点即可。

这条视频让你的八 g 笔记本显卡的本地大模型推理速度提高百分之四百五十。小伙伴们都知道我推荐的本地大模型推理框架是 l m studio, 如果你还不知道什么是 l m studio, 可以 翻翻我的往期视频。 l m studio 最近更新到了零点四版本,这是一个大版本,更新了很多内容,比如支持多病发和 cloud 的 api。 其中混合专家模型的层卸载也得到了更新,现在单独的选项消失了, 取而代之的是这个滑块。通过滑块的调节,我们可以决定把混合专家模型的层卸载到内存里,只保留激活的层在显卡的显存里, 这叫做卸载 mo, 一 层到 cpu。 这是一个针对混合专家模型的特殊优化,它的原理非常简单粗暴。 以千万三三十 b a 三 b 模行为例,三十 b 指的是这个模型的总参数量,就好比我们现在有三十个在不同领域的专家, 而 a 三 b 指的是在模型推理中只会激活三 b 的 参数量。这就好比从这三十个专家里挑出最适合执行特定任务的三个专家来执行任务, 这样我们最后在完成任务的时候,就只需要支付这三个专家的开销。相对于混合专家模型的叫做筹密模型,比如千问三三十二 b 就是 一个筹密模型,他也有三十个专家, 但是在执行任务的时候,是这三十个专家一起上。这些专家里有很多专家可能并不适合执行你给出的任务,既滥竽充数,浑水摸鱼,且并不能对任务的执行有多大的贡献, 但是我们还需要支付三十个专家的开销,回到大模型上面说的开销就是我们的显存了, 显然三个专家比三十个专家占的显存更小,理论上推理速度也就是更快了。 众所周知,显存的待宽和速度要比内存快不少,所以我们可以利用混合专家模型构架的特点,把激活的专家层放在显卡的显存里,而把贡献不大的专家卸载到内存里,从而充分的优化和利用显存而达到提速的目的。 下面就跟着我带你操作,超简单,有手就会。首先确保你的 lm studio 升级到了最新版本, 然后确保你的 ron time 也升级到了最新版本。 我们直接用千问最新发布的千问三 coder next 模型为例,这是一个八十 b 参数量的模型,在安斯拉斯动态四比特量化后的大小是五十点五一 g, 而我的显卡呢,则是一张八 g 的 rtx 两千 a d a, 显然八 g 是 装不下五十 g 的, 好在我的内存有九十六 g, 而千万三 cold nex 是 一个混合专家模型,且激活量仅为三 b, 所以 我们可以只保留激活专家在显存里,而把没用的专家放进内存里来提高推理速度。 首先我们来演示一下正常情况下的推理速度,我们把上下文拉到三万两千,打开 flash attention, 剩下保持默认,点击 load model 等模型加载。 此时我们可以看看任务管理器,我们可以看到显卡的使用率极低,几乎不参与推理。 此时我们可以看到推理速度是四点四九 tokens 每秒,速度可以说是非常慢了,几乎是不可用的状态。现在我们利用混合专家构架,把没用的专家层卸载到内存里,让激活的专家层都保留在速度更快的显存里。 我们回到加载模型的界面,我们只需要无脑把 gpu offload 拉满,点击 load model 就 可以了,就是这么简单。 同样的问题我们再推理一下,此时我们可以看到显卡的占用基本跑满,而且显存的使用则比刚才还要低,这是因为三 d 的 激活餐数量大概只需要一点八 g 的 显存就可以塞下, 此时的推理速度是十三点九七 tokens 每秒几乎是之前速度的三点五倍,推理提速百分之三百五十。这同样适用于任何其他的混合专家模型,比如 g、 l、 m 四点七, flash 不 卸载到内存的情况下是三点二 tokens, 每秒,卸载到内存之后则达到了十四点四七 tokens 每秒, 提速更是达到了百分之四百五十,一下子就把这些模型从不可用的三四个 tokens 每秒的速度拉到了十四 tokens 左右的可用状态了。

大家好,我是根谷,今天是 open core 第六堂课啊,本地模型配置的 lm studio 片和微软的这样一个开发了这个,呃,本地大模型管理的工具啊。首先祝大家二六年, 呃,新年快乐,明天就过年了,建议大家先去看欧拉玛篇,因为欧拉玛篇会的话,这篇就非常容易了。非常容易了,那首先给大家看一下我这个那个 bug 啊,就是这就是 open core 的 一个官网,我前天好像提了个 bug 啊,就在这个英雄里面给他开了个 bug, 我 看看 这个 bug 其实就是 l m 十丢丢的一个 bug, 就是 在它重启的时候,它会失去了这个通信链接,我待会怎么证明我是它是一个 bug 啊,我把各个的环境啊,还有我怎么操作的选择的模型啊,最后配置文件都截图都分享出来了,现在还没有人回复我, 好,我是怎么做的呢?就是首先你要打开 i m 四丢丢点 ai, 这是微软的一个官网,你去下载啊,你如果你是 windows 电脑,它自动的,就会自动的给你到 windows 的 电脑那个那个,呃,安装的这个软件啊,你把它下下就好了,下下来以后就会出现一个这样子的 i m 四丢丢啊,这个就是你的一个那个, 呃,就比欧拉玛复杂多了,因为这个他不是面向开发者的,但是我感觉,呃,用这个也是挺不错的,他有海量的这样一个模型,让你去下载,我这里面下了一个千万三的一个模型。千万三的一个模型,呃,正常的就是在这个地方,比如说 给我讲个笑话,那这个非常容易啊,就不需要去给大家演示,你直接下一个模型,它都是界面的管理,你在这里下一下就好了,点它下载它就能下载,下载了好了以后在这个地方就能够选模模型,选到了模型以后,在这里你就把它去装入这个模型了,就是去加载这个模型,这个模型在这里, 在这个地方千万三星,那就就这个,就在这个地方。然后呃,我说这这个这里,这是他开发文档,然后这个地方他有几个端点,就是他有几套的去对接 api 调用,你首先去这里设置里面把这个, 呃网络这个服务供应,这个服务网络中提供服务,把它打开之前是默认关闭的,你把它打开就好了,那这个端口也不要去改,就用它的一二三四,那这个比较好记一些,比较好记一些。 配置好了以后,配置好了以后就点一下它就关了。嗯,首先这个地方 state 需要,需要开启这个服务啊,需要开启这个服务,开启这个服务完以后就是输入这个啊,就是 ceo 啊,然后这个 我这样就跟它对接了,你看吧,我的,我的 h t t p local house, 一 二三四五,对吧?一二三四 api v e chat, 并且你还是可以用这个 open ai com compatible 这样一个呃 协议进行对接,那你 pos 的 请求就是唯一,呃,你,你是 boss, 它自动的会跟你拼接啊,那我这里就用这个客请求和它对接好了,剩下的就是我用客请求去把它塞到呃这个 open core 里面去。那怎么做呢? 也是在这里啊,就是我因为它这个网站啊,它这个网站不像欧拉玛,它自动的里面,呃,跟它做了 open open clone 这样一个对接啊,大家看到上海课就知道这里微软的 i m studio 并没有对这个小龙虾进行做对接,那没有做对接也是没问题的,我们就直接在这个这里去做配置啊。就是我首先是 open clone 是 吧? clone 有 一个叫 daisy board 的 啊,不是 daisy board 的 on board, on board 的 一个 insode 这样一个地方,我重新进行配置啊,重新进行配置的话是 yes 啊,然后 click start, 然后我要更新其中的一个字,这里选选第二或选第一都是可以的,我去更新它,对吧?到了这个地方 一定要选 custom pro i 的, 因为因为你这里没有没有那个 lm studio, 它都是模型在线的。我们是需要 http 请求,这个 http 请求就是呃, local house 的 一二七点一这里,这个地方就是一定是一二三四。 好,这个地方一定是写一二三四。我,我需要把这个呃日字给清掉,待会可以看一下我,我这个 open core 已经会怎么和它连通的哈。如果你这个地方假设我,我写错了,我这个地方假设有个什么 a a 啊,这是瞎写的,他就会报错啊。这个 api key 没关系,因为他我没开通那个,我没有去开健全这个地方我没有去开这个要求健全,所以说这个 api 你 写写不写 api key 都可以的。 这个时候就是 open ai controllable, 和这里是一模一样的,看到吧,哎,回车好, mod id 非常重要,你不能瞎写,这个 mod id 就 在这里,你看把它粘出来就好了。对 啊,他都告诉了你啊,就 local horse 的 一一一一 charnel 就 一二三四啊,这个它比那个小龙虾啊,不是比小龙虾,比那个欧拉玛要做的好啊的地方,就它各个地方都出来,哎,你看, 呃,其实它已经连通了,但是你这边唯一 a a a a, 它应该是唯一,你看到了吗? 所以说他就报错,报到错,对吧?然后这里有个端点 id, 这个端点 id 让他默认给就好了。啊,这个,这个这个名字啊,然后这就是错了,错了的话你就得重新填过,所以说他没有返回的机会,就是我,我现在 就是你只要按 esc 退出重新来过,所以说这里那我快速的演示一遍就是正确的应该怎么做。 yes, click start 第一个, 然后选这个 customwide 的, 哎,这个地方他又默认的,就就写一二三四就好了。呃呃。你说有些人为什么不加 api 呢?你看我这个地方为什么有 api? api 是 它的另外一套这个接口服务啊,是这个, 这里有一个 api 点微,但是一般来说是没有 api 的, 所以说这个就是没问题了,一定是这样子的,微一它后面会自动的跟你加陌陌的啊和那个例子 box 啊,然后这个就回车啊, 一定是要选择这个 openair compatible, 哎,然后这个 mod id 不 能瞎写啊。就是你,你这里,呃用的是什么 mod 就是 用什么 mod, 哎,你如果可以换的,就是在在在在这个地方换啊,就是在这个 my mod 里面,我这里只有一个,你可以选,你可以选 好,然后这个地方我,对了,以后你看,哎,这个地方他就补报错了,全绿了,看到没有,哎,这个地方全绿了,我给他全通了,全通了,那全通了就赶紧去启动一下,那就是 skip, 因为我之前都装了,也不要去装他的 skill 式,也也不需要装他 fuk 式啊, 直接就启动这个网关是吧?因此多领啊, get 位首位,然后让它浏览器打开,那这样就通了,其实它配置起来其实是比那个欧拉玛要简单,为什么呢?这微软还是做的可以的。但是呢,但是呢,这个 open core 竟然和它 内部的就是那个,我感觉它很多没有去做兼容到这一步就已经通了啊,你学会了吗?

全网最简单的免费使用各种 l l m 模型教程,如果你想使用人工智能产品帮助提升工作效率,但是又没有米,不会魔法,不会拍摄,也不懂如何配置环境,那么这个视频教程绝对适合你。 今天这个视频主要给大家分享一款免费开源的 l m 软件, l m to deal。 l m to deal 是一个易于使用且功能强大的本地机,可在 windows 和 macos 上使用,并具有 gpu 加速功能,支持很多主流 l l m 模型, 比如辣妈 m p t replate 等。下面给大家讲一下如何使用以及使用过程中的注意细节。首先要在官网下载 l m studio 软件, 我们先测试一下 windows 系统下的使用体验,下载后直接装机就可以打开软件, 这就是软件的主页面,在主页中会有一些推荐的模型,可以在推荐项中选中直接下载,也可以点击详情更加精细的筛选,选择适合自己机器配置的模型。 页面最右侧会有每个模型所需的内存要求,找到合适的模型后点击下载。 下载完成后切换到聊天页面,就可以在模型选择这里看到刚才下载好的模型,点击想要使用的模型,等待加载完成就可以对话了。 在对话栏下方可以看到推理的一些性能参数,每秒十个 token, 速度还是可以 在页面右侧是一些推理设置参数,自定义 proper 及硬件配置等。注意要关闭 tp entire modeling rem 选项,不然推理速度会很慢。如果电脑有 gpu, 可以在这里开启 epu 加速,可以提高推理速度。该软件也支持本地 server 模式启动,并支持 opiapi, 方便开发下游应用调试。 最后一个 type 式模型文件管理可以在这里配置模型的默认下载路径,以及查找删除模型、配置模型预设等。以上就是在 windows 加使用 l f to deal 的主要流程下, 下面讲一下在 macos 下使用 lfgodo 的注意点。我这台电脑是 mr pro, 十六 g 内存可以运行十六 g 以下的模型。因为苹果 m 系列处理器是共享内存,所以十六 g 内存就相当于十六 g 现存,也支持 gpu 加速, 前提是要在这里打开 gpu 加速选项,可以在参数栏看到推理性能,每秒生成十三点七三个 token, 真是不得了。 其他配置都是和 windows 保持一致,这里就不再赘述了。如果这个视频对你有帮助,就点赞关注吧,谢谢观看!

啊啊! 之前有小伙伴问 lm studio 是 否支持小龙虾 open club 以及如何配置,这次就简单做一期视频,教大家如何设置,也是超简单的,如果你还不会的话,跟我一步一步操作即可,这也适合新装小龙虾的配置哦。 首先自然是确保你已经下载了你要用的模型,这里我就用千问三点五三十五币作为例子,大家可以看到我已经加载好了。然后只需要来到小龙虾这里,直接运行 opencloud on board, 这样我们就可以配置新的模型了。 小龙虾还是比较智能的,它会识别到你已经有配置,这里我们只需要改动一下模型,所以我们选 update values。 然后就是熟悉的配置页面了, 我们选 custom provider, 这里默认会出现奥拉玛的本地服务器地址。我们则要来到 lm studio, 点击 server settings 这里我们关闭 require authentication, 并且打开 serve on local network。 此时右侧就可以看到 url 从之前的幺二七点零点零点幺变成了你本机的 ip 地址, 这样部署在非本机的服务也可以调用 lm studio api 了。如果你的小龙虾是部署在本机的,那就不用打开 servelocal network 这个选项,保持幺二七点零点零点幺的 ip 地址即可。由于我的龙虾是在其他设备上部署 的,所以我这里需要把本地的 lm studio api 地址暴露给他们,我们点击这里复制,然后删掉奥拉玛的地址并粘贴上去。这里注意, 我们要加上一个斜杠 v 一 再按回车。然后这里我们就选 paste api。 但是由于我们之前关闭了 require authentication, 即不需要 api, 所以 我们这里随便打个一二三四即可。 这里我们可以选 open ai compatible, 即 open ai 兼容 api, 不 过 i o m studio 也支持了 osraplay 兼容 api, 你 也可以尝试拥有。这里我们就选 open ai 兼容 api 了哈。这里我们输入模型的 id 名字即可。我们回到 i o m studio, 这里就是模型 id 了,我们复制下来,在输入的时候需要加上模型的提供商,由于这个模型是昂尔斯的,所以我们打上昂尔斯斜杠,再粘贴上去。按回车之后,我们就会看到龙虾说 verification successful, 即验证成功, 这里直接回车,然后他会让我们给模型一个别名,我们就不起了,直接回车。 下面我们可以全部按跳过,因为我都配过了。最后重启小龙虾的路由就大功告成了。打开 t u i 后, 此时我们就可以看到 l m studio 已经接到龙虾来的请求了,然后这里也显示正在使用千问三点五三十五 b 的 模型,然后龙虾也回复了内容怎么样,你学会了吗?

今天 lm studio 团队发布了他们最新的零点四点五版本,这个版本加入了 lm link 的 功能,可以让安装了 lm studio 的 设备之间远程互相访问大模型,并使用远程设备推理, 这是什么意思呢?比如你有一台安装了 lm studio 的 一百二十八 g 的 macbook pro, 然后你的另外一台设备是安装了 lm studio 的 一台极显笔记本,你可以从这台极显笔记本远程访问你的 macbook pro, 把 macbook pro 当做一台大模型推理服务器来使用,这样你在这台极显笔记本上也可以进行高效的大模型推理了。 lm link 是 lm studio 团队和 tail scale 一 起开发的,如果你不知道 tail scale 是 什么的话,你可以简单的看做一个设备到设备之间的 vpn 即可, 这并不是仅限局域网哦,而是可以穿透内网,让你在任何地点都可以访问远程设备推理大模型哦,使用也是超级简单。我们只需要注册一个 lm studio 的 账户,然后点击这里创建一个 link。 由于我已经创建好了,所以进来之后可以直接看到我已经加入的两台设备,一台是 m 三 max 的 macbook pro, 一 台就是 dinkpad p 十六 v 键。二,目前有五台设备的上线,点击这里的三个点,可以选择删除已经加入的设备, 然后来到 lm studio, 首先确保更新到了最新的零点四点五版本,更新到最新版本后,在左下角就可以看到一个 lm link 的 图标,点击就能看到目前加入的设备和链接情况,这里显示的是当前设备,而这里则是你加入远程设备 中间,这里则是显示远程设备信息,我们可以看到 macbook pro m 三 max 右侧则是该设备上的模型,目前显示已经加载了千万三点五二十七币的稠密模型, 点击三个点可以远程卸载模型,然后点击任何的模型就可以加载模型了。这个加载界面和本地加载是完全一模一样的。点击加载,此时远程在我的 macbook 上也可以看到远程设备发来的模型加载请求。 加载完毕后就可以来到聊天界面选择加载的模型,然后开始愉快的聊天啦。怎么样,是不是非常简单,速度也完全不用担心,七十三个 tokens, 每秒和本地推理速度一模一样。 来到模型加载界面的话,你会发现操作和本地模型几乎一模一样。远程设备的模型会在名字前面显示一个图标,点击加载的话也是和本地体验完全一致的。 最后,既然模型加载的体验上和本地完全一致的话,那 open code 的 这些支持 l m studio 的 代码智能体也是可以完美运行的哟! 体验上和本地模型完全没有区别。选择 l m studio, 然后选择模型。这里以 g p t o s s 二十 b 为例, 我们可以看到 open code 的 推理完全是通过远程模型完成的。现在你可以非常方便的构建一套家庭 ai 工作平台了, 只需要一台 m 四的 mac mini, 六十四 g, 装上 lm studio 后直接以无头模式运行,你就拥有了一台百分百完全私人的在哪里都可以访问的 ai 推理服务器啦!