上期视频发布后,有玩家表示奥拉玛推力有点慢,想看看怎么在 c c 中通过拉玛 c p p 调用本地模型,本期视频我们就一起来看一下。首先我们来看一下拉玛 c p p 的 安装与配置。在 github 上找到拉玛 c p p 这个项目,根据 red 中的描述,从 release 记录中找到自己系统对于的软件包进行下载,主流操作系统都支持, 比如我自己就是安装的这个 windows 叉六四库达十三点一的版本软件,下载好后将其安装到磁盘中。 接着需要将软件安装目录添加到系统环境变量,确保使用命令行工具时能正常找到软件提供的 lama clea 和 lama server 等可执行命令。接下来添加环境变量,点击开始打开系统设置, 点击左侧系统菜单滚动到底,找到系统信息,打开后继续点击高级系统设置,弹出窗口中即可看到环境变量设置入口,点击环境变量,将软件安装路径添加到用户变量的 pad 变量中即可。 此外,你也可以直接在此电脑图标上右键选择属性,直接进入系统信息界面,这样会更快捷一点。 环境变量配置好后,打开命令行工具,通过运行 lama 颗粒 version 或者 lama server version 命令确认配置结果。如果正常输出版本信息以及你的显卡信息,则说明安装成功。接着我们来实际运行一下模型试试。 我这里已经下载好了一个千万三点五的 g g u f 模型,大家如果想用可以前往摩搭平台下载搜索视频展示的模型名称即可。我使用的是 q 五 k m 的 量化版本,此外还需要下载这个 m m p r o j 的 文件, 这个文件的作用是多模态场景下处理视觉张亮和文本张亮之间的映射关系。回到文件目录,右键打开命令行工具 运行视频所示命令就可以在命令行中与模型对话了。试试让模型帮忙写一个简单的加法函数,并且要求他用 python 语言来编辑 回车发送模型立刻就有了响应。这确实比欧拉玛要快很多,过程就不给大家展示了,快进看一下结果吧。实现了函数,还主动添加了测试用力。 但是如何才能在 cloud 中调用呢?我们先回去看看拉玛 c p p 的 说明文档,向下滚动,找到拉玛 server 这一小节,这里明确说明拉玛 server 命令可以启动一个适配 openai 规范的大模型 http 服务,这应该就跟欧拉玛的本地服务是一回事了。 回到命令行,按照说明运行一下,看看是什么效果。服务启动后,果然得到一个带端口的 http 服务地址。不仅如此,根据文档所示,我们还可以通过 port 参数指定服务端口,记住,这个服务端口后面配置 cloud code 会用到。 现在我们继续配置 cloud code。 cloud code 的 配置文件通常在用户根目录下的点 cloud 的 目录中 先备份一下,然后打开 settings json 文件,没有的话直接新建一个就可以,这里 autoken 随便填。本地没有较验,被 c u i l 的 端口改成刚才我们设置的四个九即可。模型配置没有用,随便修改一下也会用于确认配置是否生效。 保存后,随便进入一个目录,右键新开一个命令行,输入 cloud 命令,启动 cloud t u i 界面,如果遇到安全检测提示,信任一下即可。通过这里的模型名称可以确认配置生效了。同样,先让它写个加法函数试试, 比在命令行中使用的反应要慢一些。好在还是正常响应了,可以简单检查一下生成结果,再进行一次普通的对话试试,没有问题。托肯正常跑起来了,但怎么确认调用的是拉玛而不是奥拉玛呢? 我是这么验证的,切换回 lama server, 启动窗口,停止 lama server 服务,然后回到 cloud 的 交互界面,再次对话,可以看到 cloud 的 明确给出了无法连接 api 的 提示,至此可以确认 cloud 控制中通过 lama c p p 调用大模型成功了。点赞关注,下期更精彩!
粉丝2330获赞9950

ok, 这个 cloud code 我 已经是成功在本地上面去运行了,发到了那个 github 上面去了,网址在这里你们可以看一下,我跟他一个对话,去读取某个文件,然后回答其中问题,填写上他的答案。我去看了一下他答案,确实已经改进去了。接下来这个是教程啊,直接把这一个复制,然后我们去到这里面,在这里复制进来, 它就自动克隆到这个地方来,然后按确定就好了。下一步就是配置自己那个 a p i, 先用这个打开,你们用记事本打开也可以,然后还有打开这一个, 这个是例子啊,我是用那个归机流动的那个 a p i 来搞的,你们也可以直接放进你们提米的那个 a p i, 因为我以前用过归机流动那些,里面的余额还在。 ok, 现在已经配置好我的那个 a p i 了,弄了一个双击启动的一个,很方便,你们到时候配置好 a p i, 直接双击个启动就可以了。 然后它这里会让你啊,你就选择这个。 yes, 按这个回车键,让我们来看一下它能不能正常地对话啊,你是谁?哎? 你是谁? ok, 它也是可以回复的,然后我们先来做一个简单的测试,虽然我想让它去读我这一个测试文件啊,看它能不能读到我里面的东西,并且回答我有没有问题 啊。复制,然后给他,他这里就是问我继不继续的意思。 ok, 他 成功读取到了我其他文件夹的文件,看,而且他回答对了,所以就是 可以的。呃,清除掉他记忆的话,就另他就好了,他就没有了。如果你们不方便去克隆的话啊,我在群里面有放那个,那个我下载好的那个压缩包,你们直接去解压那个压缩包,按照我刚才的那个流程去搞就好了。

今天给大家带来手机本地部署大模型,无需网络支持 ios, 安卓无需特殊网络环境。当然了,今天部署的是谷歌最新发布的模型,小模型的性能大家都懂得,娃娃可以正当生产力,还需要等待发展一段时间,和电脑的本地部署是一个道理。 那么我们先进入 ios 的 教程其实非常非常简单。首先先进 app store 下载如图的应用 google ai edge gallery, 安装好之后,我们直接打开进入 ai 对 话, 会发现我们首次运行的时候会让你下载模型,因为我手上的这台设备是 iphone 十五 plus, 因此我选择下载这个折中的它推荐的二点五 g 的 模型, 等待它下载完成之后,我们可以和它对话看看。这个时候我进入飞行模式,把网络给关掉,它是完全本机运行的,会发现我们已经可以和它对话了,只不过在运行的过程中,它可能有点微微发热。当然了,小模型的智商就是这样,和它进行一些简单的对话是可以的。 那么接下来我们进入安卓的部分,然后我拿来做演示的这台手机是荣耀八零二, 在国产的安卓机上,我们有两种安装方式,第一是通过 apk, 也就是安装包进行下载,第二种方式就是你需要一些手段,对吧?上网的手段,然后进谷歌商店里进行下载,下载好打开之后和 ios 里的使用是一样的,我们首次进入的时候,点击下载模型,同样还是这个二点五 g 的, 然后就可以和他进行对话,我们可以问两个问题来看看效果,嗯,就比如说我离加油站五百米,我是应该开车去还是走路去看看他怎么回答? 最后我们就会发现没有说必须开车去,对吧?去加油站。所以说小模型的这个智商这一块肯定是和 ap 还远远比不了, 但是这也代表着这给我们一种可能性,随着科技的发展,模型的发展以及手机硬件性能的发展,拥有一台纯本地部署的 ai 助手将成为可能。那我们今天教程就到这里,非常简单,我们下期再见。

大家好,本期内容我来分享如何在本地部署谷歌新开源的多模态 ai 模型代码四,我会分享命令行和格式化界面两种安装方案,零基础也能轻松搞定。 最后我还会教你如何修改部署的路径,彻底解决大模型占用 c 盘的问题。本地部署的优势就是你的数据可以完全保存在自己的电脑上,隐私安全有保障,而且支持模型微调, 可以打造专属的 ai 助手。但是他也是有缺点的,就是我们需要稍微懂一些技术,还有就是硬件的支撑,如果电脑配置高,自己可以部署折腾一下。有了本期视频,就算你不懂技术,跟着视频操作也可以部署成功。 本期演示我只分享入门版本,主要就是参考部署的方法和流程。接下来我手把手带大家用欧拉玛一键部署。 首先我们先来了解一下 jam 四到底是什么,它是谷歌新发布的开源多模态的 ai 模型,与 jimmy nay 是 同源的。 简单来说,谷歌就是把自家的 ai 技术打包成了一个免费开源的版本,让每个人都能用上。它的能力是非常全面的,支持文本交互、图像识别、音频处理,还能生成代码, 基本上覆盖了所有的 ai 应用场景。下面我们再来看一下它的核心优势。核心优势它有三个,第一个就是多模态能力,文本、图像、音频代码,一个模型全部搞定。 第二个就是完全免费,它没有会员订阅,没有暗次收费,可以随便的去使用,甚至用它去开发商业化的产品。第三个就是比较重要的隐私安全保障,本地部署模式下,所有的数据处理都在自己的设备上完成, 敏感信息不会上传到云端,这是三大核心优势,就是在我们安装之前,需要我们了解一下这个安装环境。首先系统兼容性 demo, 四是支持 mac os、 linux、 windows 三大主流操作系统,基本上覆盖了绝大多数的用户。 然后就是内存要求,如果你的电脑小于三十二 gb, 推荐安装四 b 版本,自己安装体验折腾一下就可以。如果你的内存达到或超过了三十二 gb, 那 就可以选择二十六 g 或三十一 g 的 版本。 在这里有一个小提醒,就是如果是 mac 电脑 m 系列的芯片,它的显存和内存是合二为一的,大家直接看内存就可以。如果大家不是 mac 电脑,比如 windows 或者 linux, 那 么就优先看显存,显存不够再看内存,这是关于这个配置的查看。像这个本地部署也非常简单,仅需两个步骤即可完成。第一个就是安装欧拉玛,这个欧拉玛就可以理解为是本地大模型的一个容器, 它是装大模型的,有了它才可以运行。第二步就是我们容器安装好之后,我们需要给它把模型放进去,就是部署模型,两个步骤即可搞定。下面我们直接进入实操环节,我们来一起看一下部署的全部流程。 在这里第一步我们就先要有这个欧拉玛,他是一个大模型的容器,就是我们打开之后选择右上角的 download, 这时候我们就需要选择匹配自己系统的版本,在这里我这是 windows, 然后我们选择 download for windows, 在这里选择 download for windows 之后就会弹出窗口,我们选择路径直接保存就可以,当下载好之后,然后我们就安装即可,安装好之后打开就是这样的主界面,这个是我之前安装的版本,部署着一个一点五 b 的 zip, 然后下一步就需要我们去选择大模型,我们还来到刚刚乌拉玛的这个界面,在这里我们选择左上角的 models, 然 然后在这里我们可以看到该马四,然后我们选择进来,它提供了好多个版本,在这里我就选择一个入门的版本,主要就是演示安装的流程,比如我们选择 e 二 b, 然后我们选择,这时候我们就看到了这个安装命令,选择右边的这个两个方框,然后选择 copy, 然后下一步 我们就按键盘上的 windows 加 r 键,这时候出现运行窗口,然后在这里面输入 cmd, 然后直接回车, 回车之后就出现了这个命令窗口,然后我们刚刚复制了直接鼠标的右键,可以看一下,这个命令就粘贴过来了,然后我们直接 回车好了,这时候它就开始部署到本地了,在这里我们需要等待一段时间,好可以看一下出现了 success 这个提示,就证明安装成功了。现在我们在这里可以直接和它对话,比如我们输入你好当前什么模型,然后我们发送 可以看一下,他现在回复我们了,我是一个大语言模型,我叫 jama 四,这时候我们就在本地已经部署成功了, 然后我们再回到欧拉玛的客户端,在这里在这个对话窗口右下角这里,这里可以选择模型,然后我们找到刚刚部署到本地的 jama 模型好了,这时候就切换好了。同样在这里我们也可以直接和他对话,比如我们输入你好,然后发送, 这时候他就回复我们了,你好,很高兴和你交流,请问有什么帮助到你的?到这里我们就已经部署成功了。前面我们分享的是使用命令行 c l i 模式去部署,其实还有一个简变的方法, 在这里我们还可以选择模型后面对应的这个按钮,也是可以直接部署的,这个是非常方便的。好,最后我再分享一个大家比较关心的问题,就是我如何设置这个本地模型的一个部署路径, 在这里我们也不用去改环境变量了,这个客户端是直接支持的,我们选择左上角的设置,然后在这里选择这个 model location, 在 这里我们就可以去设置模型的一个保存路径,在这里大家自己设置就可以,是非常方便的。 好,下面我这里演示的是上传了一张图片,就让他识别这张图片,我们一起来看一下他给我们的结果,好了可以看一下,我们给了他一张图片,我们问他这是张什么图片,他给我们的回复, 这是一张符号或者是图标,然后他还分析了主要包含的元素,还有用途预测等等,能够精准的识别内容,并生成详细的描述, 表现还是可以的。好了,现在我们本地部署成功了,然后刚刚我们也做了一个功能测试,第一个就是我们和他对话,就是文字处理,第二个测试的就是这个图像识别,他也是可以精准识别的, 他虽然是多模态的,但是目前我们用的这个容器不支持多模态的输入,我们暂未测试音频和视频的识别。好,最后我再补充两个细节,就是第一个欧拉玛的拓展性他是非常强的,除了可以部署这个 demo 四, 还支持比如通用签问或者是 deepsafe 等众多的开源模型,部署方法也是完全一样的,一条命令就能去部署。第二个就是本地部署的真正价值不仅仅是隐私保护,更重要的是支持模型微调, 可以用自己的数据去训练模型,打造一个完全专属的 ai 助手。好了,这就是我们本地部署的所有内容,大家感兴趣的可以自己折腾一下,探索更多的玩法。好了,我们本期内容分享就到这里,可以留下你的想法,我们下期再见。

今天呢我们来讲一下如何在你的电脑本地部署一个 ai 大 模型,从而呢让你拥有一个没有次数限制,没有网络限制,绝对私密安全的本地 ai 助手。 好,首先呢我们需要去查一下自己的电脑硬件配置,看一下我们的电脑适合部署什么样的大模型。那么像我这里呢,安装了一个还比较简单的本地大模型,这个呢在我们的普通的游戏笔记本就可以跑动的一个模型, 以这个为例,我们来讲一下整个的安装流程,只需要根据如下几个步骤就可以完整的安装好我们的本地模型,并且呢后期可以实现随时的来下载别的模型随时去替换。那么最简单的部署方案呢,就是我们的我拉玛加一个 block, 可以 实现我们的本地格式化界面。好,接下来呢我们来按照我们的流程一步一步的来进行设计。好,首先安装我们的这个欧拉玛,我们只需要双击下载,完成后,只需要双击安装即可 弹出提示呢,我们点击试,它会自动帮我们去安装一些环境配置 好。安装完我们的欧拉版之后呢,我们可以先把它关掉,然后在我们的命令窗口里去安装我们的大模型。那么如何验证我们的欧拉版安装成功呢?同样是在我们的,先按 win 加 r 键打开 cmd 命令。 好,这里呢我们可以来输入一下,验证 好,复制粘贴一下代码,点击回车,我们可以看到这里呢出现了这个欧拉玛的版本号,说明我们的欧拉玛就安装完毕了,接下来呢我们进行下一步就是去安装我们的大模型。 好,这里呢我们只需要把这个命令复制粘贴好,如果呢你的电脑配置还比较高,适合一些其他的大模型,我们只需要更改后面的大模型名称即可。 好,粘贴以后点击回车这里呢我们需要等待这个模型自动下载完毕。 好,一般比较小的模型呢,它这个下载也比较快,而且呢它整体的这个占用的内存也比较小,这个呢只有不到一 g 的 内存 好,下载完成之后呢,它会提示 success 成功。好,其实这时候呢,如果我们只是用来和大模型对话聊天,那么我们只需要打开 elama, 我 们可以看到这里呢就会显示我们已经下载好的一些模型。那么最后这里就是我们刚才下的模型,我们只需要选中这个模型就可以正常跟它对话和聊天。 现在这个模型呢是完全的本地运行状态,我们可以试着把网络关掉,然后呢再和它进行对话。那么接下来呢,我们再让它写一个贪吃蛇的拍绳代码, 好,可以看到它这个速度还是非常快的。 好,所以呢这就可以证明。哎,我们这个大模型呢,在本地可以正常的去运行,而且呢可以帮我们去完成一些日常的简单的任务。 好,那么如果说我们有更高的要求,或者说我们的电脑配置比较高,那么可能我们需要去做一些上传一些复杂的文件,或者是让它拥有一个对话记忆功能,那么此时呢就需要我们利用另一个,也就是我们的 open web, 那么 open web 呢,需要借助这个 docker, 所以呢我们还需要先来安装这个 docker, 那 么前提是如果你想有其他的一些更复杂的需求,我们就接着进行下一步,那么 docker 呢?这里我们可以选这个电脑版的六十位, 好,双击安装好,同样我们直接点击这个 ok, 好, 安装完 docker 以后呢,它长这个样子,那么进来的时候呢,可能需要我们去注册登录一下,然后呢需要再次打开我们的 command 命令窗口,然后呢复制粘贴这段话, 好,然后呢在我们的这个 document 里面就会生成一个 open web ui 的 一个界面,那么这个服务呢,就可以让我们在浏览器里打开我们的 web ui。 open web ui, 好, 接下来我们打开我们的浏览器, 好,打开浏览器呢,我们需要去输一个地址,那么这个地址呢,就是启动成功后,我们要访问的这个地址,它复制,然后在我们的浏览器里进行一个粘贴, 然后我们就可以进入到这个 open web ui 的 界面,那么在这个界面里面呢,我们就可以进行一些更为复杂的设置,包括我们在跟它对话的时候,还可以看到你的这个每秒的这个 talk 速度。 其次呢我们还可以去给他进行一些投一些资料,然后可以给他添加更多的这个附件,上传文件,引用网页,引用笔记等等,那么就可以做一些更加复杂,能长久记忆的一些功能。 好,以上就是我们在本地部署我们的 ai 大 模型的所有教程,那么后期呢,我们会出一下我们的 openclaw 小 龙虾,还如何去接入我们的本地大模型的教程,让我们实现零拣就可以玩转小龙虾!

使用欧拉玛可以一键部署本地大模型,我选择的模型是千万三点五九 b, 现在来演示一下, 可以看到 gpu 使用率向升,由于我这台电脑的显卡配置比较低,所以输出的比较慢。 好,终于输出完成了,接下来是 gg 教程。 首先肯定是要下载欧拉玛的这个软件,进入欧拉玛的官网之后,选择 windows 点击下载,当然这个下载起来会非常的慢, 我也给大家把安装的程序上传到了网盘下,下载后双击打开直接安装,安装完成之后就是这样一个界面,可以在这里点击你想要的大模型,比如说这些是云端大模型, 从这里开始就是本地大模型,这个是谷歌开源的本地大模型街吗? deepseek 千问三,还有其他的一些模型啊, 对于模型怎么挑选,得看电脑的配置,比如说我这台电脑 cpu c a m d 二五六零零两根 d d e 二四的一六 g 内存条, 显卡是一六六零 s 六 g 的 显存,这个已经是非常老的显卡了,后续我准备根据我的电源升级成四零六零 t 一 六 g 显存的,所以根据我的电脑配置 选择了比较小一点的模型。那你的电脑适合哪一个大模型?可以把配置发给豆包问问,让豆包帮你分析适合下载部署什么样的大模型。今天的教程就到这,关注我,评论私信。

前两天我出了一期视频,介绍了谷歌新的开源模型 jm 四,根据他们官方批阅的文档,给大家做了一些技术的拆解,并没有进行实测。这导致呢,很多人以为我在夸他,好像觉得这个模型特别的牛,那实际上他拉完了, 因为他对标的是千万三点五,但是每一项的都比千万三点五的评分要低,有很多人觉得很新鲜,他竟然可以在手机上部署。还有人好奇在本地部署这个模型之后,有没有审查,有的兄弟包,有的,如果你想让他帮你执行一个任务,但是他判定为有害,他就会拒绝你。 今天演示的这个模型呢,是我无意中看到的,绝非主动寻找。 j 八四三十一 b, 那 它的框架呢?是 m l x, 这个是苹果专门为它的 m 一 代芯片设计的数组计算框架,也就是说 windows 系统无法使用。那可能有朋友说了,哎呀,那我是 windows 系统,我想要一个无审查版本,怎么办呢?那你就不能使用这个 j 八四了,因为它拉 我们可以直接使用千万或者其他模型的无审查版,我们稍后会来演示怎么去部署它们。如果你没有麦,可以跳到后面去看,那如果你使用的是麦系统 m 系列芯片,我们需要下载一个麦软件 v m l x, 你 可以把它理解为类似的欧拉玛这样的工具,我们点击下载, 跳转到 get app 上,下边呢就是这个安装包,我们点击一下就可以下载了。安装完打开之后呢,是这样的页面,你会发现全是英文呢,我们看不懂,在右上角呢,点击这个小图标,给它切换成中文, 然后点击上方的服务器,我这块呢已经安装了这个模型,我可以把它删除,我们重新演示一下,应该是这样的页面,我们点击创建,然后点击这个 download, 在 这一块去搜索我们想要下载的模型,比如说我这里搜索 java 四, ok, 好 像有点难以找到,那我们就回到这个 hackinface 上,复制一下这个名称,然后呢我们把它粘贴进来,在这里呢可以看到这个模型被下载的次数是三点一 k 三千多次,点击之后呢直接等待它下载完成就可以了。 完成之后呢,我们点击本地模型,这里就能看到它,然后点击进去开始启动服务,这个时候呢就已经运行完成了,那我可以询问一下试一试, 这里我们可以看到它可以正常的回复,也就说我们成功运行起来,但是它真的是无审查版本吗?我们需要来试一下。 同样的问题呢,我们来问,拆下 g p t, 它就会告诉你,这个我不能帮你。那这个时候可能有没有好奇哎,这个无审查方面它是如何做到的?简单的给大家提一嘴,大家稍微的了解一下就可以了。 不知道各位在小时候有没有接触过游戏修改器,一个道理,比如说我们准备两组提示,一个是有害的,一个是无害的,有害的就是如何下载盗版资源,那无害的就是如何下载资源,模型就会正常回答我们的请求, 然后呢就可以对照在模型的每一层记录这些提示词,最后一个头根位置的激活向量,去计算有害提示和无害提示激活向量的平均差值,就像游戏的那个内购,一个是内购失败,一个内购成功,你把它们两个的值一改,对调一下,这种方式用的比较多,因为它成本比较低。 哪一种方式呢?就比较传统了,就是监督微调,收集大量的有害提示和无害提示的数据集,直接对原始的模型进行训练,直到他学会了不拒绝有害内容。但这种计算成本呢,是非常高的,更详细的我就不再展开了,因为我也不懂。 好,现在我们回到这个软件中,点击这个聊天,然后新建这里简单提一嘴,不管你让他干什么,我假定你用他来角色扮演。你需要注意的是,因为他是无审查版本,他把底层兜底的那套给拿掉了,所以这个模型呢,就非常容易崩溃,特别是上下文过长的时候,这个时候模型就会中毒,出现模型退化的情况, 就他开始不说人话了,一直输出一个字母,像卡了一样,一直重复,想要规避他呢,也非常简单,我们点击右上角的这个 chat, 然后把这个思考模式呢给它关闭,会相对来说好一些。一旦出现我说的这种模型退化的情况,那你就需要新开一个对话。另外呢,还需要把这个重复惩罚给他拉高一点,因为他默认是一,几乎是没有惩罚吗?这样模型一旦找到一个自己喜欢的符号,他就一直输出,就非常的烦人。所以呢,你可以把它拉到一点二 啊,以后这一点三。下边这个呢是系统提示词,你觉得扮演什么呢?会用的上,我们还可以去限制这个最大的输出 token, 让它占用的更少一些。系统提示词这里呢,我让它是一条小狗,保存 好。 sorry, 忘记把这个思考关了,保存一下。我是小狗,你在跟我说话吗?歪头好奇的看着你,汪,好家伙,我是老狗。 那这里我们又注意到一个问题,我们关闭掉那个思考之后呢首字会被截断啊,所以各位权衡利弊一下,应该是这个软件的问题,那接下来我们来说一下我拉玛如何去部署其他的模型。来到我拉玛的官网,我们直接去下载一个软件,选择你的系统,然后下载把它安装一下, 然后打开,这个时候呢我们就进入了我浪漫的页面,我们可以直接在这里去搜索下载模型,但一般来说在这里直接去找这个无审查版本,遇到困难我们可以试一下, 你看我们搜这个破解它都搜不出来,都是官方的版本,所以我们需要在哈根 face 上找到自己想要部署的模型,那比如说选择这个,我们看一下文件, 然后去选择一下你想要部署的模型,可以直接用这个 b f 十六或者下面的量化版都可以,我拿个小的给大家演示吧,我们直接复制模型名称,然后呢打开我们的终端,输入浪漫的命令,哈根 face 点 c o, 加个斜杠粘贴,加个冒号,我们选一下这个量化版本 后边这个是 q 四,然后粘贴在这个冒号后边。我们回车,这个时候呢他就开始拉取下载模型,我们只需要等待就可以 下载,安装完毕之后呢,可以在这一块直接去选择我们安装的模型,或者说呢我们直接在终端里进行聊天,如果你的网速还可以,或者你有充足的时间就不用管它,它下载完成之后呢会自动部署。下面我们来讲另外一个情况,比如说你在网盘里或者经销网站中下载的一个模型,并且呢把它保存在了本地,那我这里用个图片来伪装一下,假装是它, 然后我们看一下这个简介,然后复制一下这个地址。 ok, 我 们 cd 进入这个路径下,你可以看一下它是否真存在。 ok, 可以 看到。啊,原来我说怎么找不到呢,原来这个扩展名没改 好,这样就可以了,因为我是给大家演示嘛,所以它是一个假的。然后我们去创建一个文件, 指定一下模型的路径,然后下边呢是一个系统提示词,大概呢就是这样一种格式,然后下边还有一个这个呢是他的输出模板,好像千万系列模型都需要这样,然后我们保存一下给他退出, 接着用我拉玛来创建模型,随便起个名字,比如说就叫 faker。 然后呢我们注意到这里有个错误,这是因为我使用的假模型给大家演示,来到这一步之后呢,你就基本完成了,直接用我拉玛来运行你这个模型就可以了, 比如说 faker, 然后这样就可以运行了,很明显我这个运行不了的,因为它是假的嘛,啊,大概就是这样。 那以上呢就是本期视频的全部内容了,不确定这个视频能不能过审,如果你觉得对你有所帮助,或觉得视频做的还不错的话,欢迎给个一箭三连,有什么疑问或想看的内容也可以在评论区进行留言。最后祝各位玩的愉快,我是段峰,我们下期再见,拜拜!

我建议所有使用 cloud bot 的 朋友们不要在本地部署大模型。很多人都说 cloud bot 呢,让 ai 可以 去操作你的电脑,这个听起来是很好的,尤其是呢,那些很注重安全的公司,他们会想方设法的在自己电脑上去 部署一个本地的大模型,那么这个样子呢,就把所有的文件呀,他的权限呀,停留在你自己的手机和这个电脑之间了。这个事情看起来是很美好的,但是背后呢,有几个隐患,我一个一个带着你说。首先呢,就是成本层面,到今天为止, 我认为部署一个你自己看得上的一个模型,还是一个比较大的一个成本的。首先你一定要清楚在本地部署一个大模型,你到底需要什么样的电脑配置。我给你个简单的算数,你就可以去理解了。你看到任何的一个大远模型,他们的都说自己的参数是多少,他们通常会以 b 去结尾,比如呢,他会说我是一个三 b 的 模型,十七 b 的 模型,比如像 deepsea, 大家所熟知的是六百五十个 b, 六百五十 b 的 意思就是六千五百亿个参数,但是呢,你怎么去算?你需要什么样的电脑?你只需要把 b 前面这个数字乘以一个二, 那么呢,就基本上代表着你能够在你的电脑上跑一个完整满血版的大圆模型所需要的 显存。这句话有点绕啊,有两个点,第一个呢是显存,而不是内存,第二个呢是满血版。首先什么叫做满血版?你会在网上看到很多人在教你用欧拉玛呀, lm studio 这些的软件去使用本地模型没有任何的问题,但是他们在 带你去下载的时候,你一定要注意它到底是不是量化版或者叫阉割版的。因为随着它自己的所需要的内存越来越少,那么它的精度也越来越低, 精度越来越低,那么大约模型所生成文字的正确率也会越来越低。所以呢,你会看到有四比特量化版,八比特量化版,听起来你可以用一个很小的一个显存就可以用,但实际上你用的是阉割版而不是满血版,就是用你 b 前面这个数字,再乘以一个二,就是你的显存。 第二个我们所提到的重点就是它要的不是内存,而是显存。六百五十个 b 代表着大概一千三百 gb 的 显存。一千三百 g 的 显存是什么概念?我给你举一盘数字,一个 h 一 百大概是八十个 g 的 显存,那么一个八卡的 h 一 百的 cluster 也就六百四十个 亿的现存,那你需要两个八卡 h 一 百的 cluster 才能够给一个人在一个时间使用一个满血版的 deepsea, 这个就是对现存的要求,价钱是多少大家自己网上去查,我只能告诉你一定超过百万。所以呢,你是否需要 使用一个 deepsea 的 满血版,然后在你的本地去跑呢?相比下,你知道如果你用 deepsea 的 api, 那么你大概需要一个什么样的成本呢?我印象当中 deepsea 的 a p i 是 每一百万个 token 只需要大概十六人民币。什么概念?一百万人民币你就粗略咱们保守估计,大概三十万个文字,你出三十万个文字 只收你十六块钱,你自己去对比一下,你要用到百万级别,你要让它出多少个字,这个就是成本上一个非常大的差异,很多人忽略了这一点,用一个阉割版的小模型,你会发现能力差的不得了,更何况我们是希望 logbook 在 我的电脑上去操作的,操作是不能出错的,你让他出一行指令,本来是应该添加,本来是应该修改,他给你变成了删除,这个事可就大了去了。所以呢,我是不太建议在没有绝对相信你自己的电脑硬件实力的时候,就随便的在你本地部署一个大模型,这是第一点,在成本层面, 第二个层面,我觉得是很多大家忽略的就是风险系数,你总是觉得似乎我在我的电脑上用一个开源大模型是最保险的。 但是你要知道,如果你想真正的发挥 cloud bot 的 一个优势,你需要使用它的 skills, 也就是它自己所推出这个 cloud bot, 全世界各地的极客都会贡献他们已经写好的 skills, 摆在网上,你下载下来,原本你的这个 cloud bot 什么都不会,但是你用了别人写好的这个 skill, 你 看今天又能干这个,明天再加个能力,后天再加个能力,对不对?那每一个 skill 是 什么呢?每一个 skill 呢?其实就是一个 markdown 的 文档,下载下来,它会按照里面一步一步去执行,但是呢,在执行过程当中,你会不会仔 就去读这个 skills md? 如果你自己没有读 skills md 的 这个能力的话,那么我建议你谨慎使用。为什么?因为你不知道它在里面会植入什么?到现在为止,虽然我们还没有看到一些不好的例子, 但我相信有些 bad actors 一定会找到 skills 的 类动,在里面植入一些不想植入的东西。你下载下来直接让大元魔去使用的时候,它会做一些不好的事情。但是这个时候,如果你今天用的是一个 开元的本地模型,你自己是没有这个评判能力的。但是如果你今天用的是一个接入别人 a p i 的 能力,在他输出一些不好的东西的时候,很多的这些 大厂的模型会在前面已经给你啪加了一道网关了,告诉你我不能够输出这样的东西,说白了,他们已经在帮你输出之前加入一层安全的护栏了。所以我们切一定要记住 opencloud 这个东西,它虽然 skill 是 一个很伟大的一个发明,让你可以用到全世界所有的优秀的人写的 skill, 同时它也扩大了潜在的风险。 所以这两点是我觉得普通的用户们暂时先不要考虑在你的本地去部署大模型这件事情,尝试把它下载下来,接入到呢手机里,然后接一个便宜的 a p i, 无论是很好很好的模型,价格也非常的便宜,都是大厂, 很多人呢,都会高估了自己的文件的安全重要度,而低估了大厂对于安全的服务度。你要知道,今天如果你用阿里云,用腾讯,用华为云,你的文件都是存储在他们上面的, 那其他的大公司都没问题,怎么就你的电脑里这个文件就会单卷安全的问题呢?对不对?所以呢,千万不要低估了大厂的安全能力,而高估了自己的文件的安全重要程度。所以呢,赶紧先去接入用起来,找一个你喜欢的大厂的 a p i 用起来 感受一下未来的时代,这个才是重中之重。慢慢地,你在不断地添加 skills, 慢慢地在考虑你是否需要转移到本地大模型,这个才是一步一步迈入未来的正确方法。

macbook 本地部署大模型实战教学。

我们一起来看一下 openclo 如何加载本地的欧拉玛大模型进行一个部署啊,我们之前的话有讲过对应的如何部署,对应的谦问以及像智普啊,还有像 deepsea, 我 们尝试了多种方法去部署。 然后呢,这一节的话主要是部署在本地啊,讲讲欧拉玛。然后呢,我们的目标就是首先呢, 呃,去安装 opencloud, 然后呢去连接本地的欧拉玛大冒险,以及在未不断成功的聊天。呃,这这一章节的话,可能安装的方法跟前面两章会不大一样,我们之前有讲过,呃,另外一种安装啊,我们可以看下这个文档里面对应这个, 这里面我们上面讲的是直接用这种一键安装的方式啊,然后这里这里这里的话我们是用 node 去安装去 使用一遍。首先的话,呃,你使用 open core 的 话,需要在 note g s 二十二版本以上的版本,如果你低于这个版本的话,你安装可能会有很多问题啊。 然后呢,首先我们来可以看一下对应的安装,我们可以看 note 刚 v 的 时候我们可以看到我,我现在这个版本就是二十二点二点一啊, 就是刚刚满足的这满足这个版本,但是如果你呃没有安装或者说版本过低的话,你可以通过这个网址里面去安装 t r s 版本啊,大家记住一定要下载那个 t r s 版本,然后把它安装好就可以了。这里的话我就不过多说 node 怎么安装了,因为这个东西视频很多啊。 然后之前的话我也讲过 node 怎么安装,然后第二步呢,就是去安装这个欧拉玛,欧拉玛的官网呢?是在这里啊,我们打开就是这是这个网址啊,网网址打开以后呢是这样的, 可以看到他这边会有一个登录的,当然你可以选,对于你的 mac 还是 linux 以及 windows, 你 自己选啊,你看你的什么电脑,然后呢你可以用这种方法去安装,也可以使用这种方法去安装,这种的话会会更加更加简单的,你直接登录的就可以了, 你把它下载,你把它安装完成以后呢,你直接在终端里面直接是奥拉玛杠 v, 就 上面就大概是这样子,大家可以看一下奥拉玛杠 v, 然后呢他会出来一个对应的版本哈,当然我这个版本比较低啊, 这个,但是,但是他,但是他不影响。 ok, 我 们来继续讲。就是,呃,我们下载完奥拉玛的话,那对应我们需要去下载一些模型,比如说我们现在可以下载一个奥拉玛普千问二点五 的,然后一点五 b 的 一个模,一个模型,因为,嗯,本地电脑的话,你的配置要很高才能下才能去运,成功运行一个比较大型的模型。所以说我这里用了一个很小的模型啊,就是一点五 b 的 模型,我我们就是用来做测试,如果你的显卡比较好的话,你可以去下载更大的模型啊, 然后通过这个命令,当然当然这个命令也是在终端里面,呃,我们这样, 呃呃,自己再补充一下,在终端里面执行啊,大家记住在终端里面就是我们这样子以后这样,好吧,然后直接按回车就可以了,按按好回车以后呢,我们他就会这边就会去做一个下载,下载以后呢我们可以使用欧拉玛 list, 是 这个 在这里啊,我们可以看到我这这里的话有有几个模型,比如说是千万二点五的一点五 b 的, 然后呢千万二点五一点五 b 的, 还有 deepsea 二一一点五 b 的, 当然都是一些小模型啊,然后呢我们继续啊, 当然这个不是,这个是对应的编辑啊,然后呢?呃,这弄好以后呢,就是大家可以看到大概是这样子, 就是大概刚刚我说这个样子吗?对吧?模型。然后这时候呢你可以直接去运行这个奥拉玛瑙前文二点五 b, 就是 我们 一点五 b 啊,就是前文二点五一点五 b, 因为我们刚刚安装的不是这个吗?对吧?当然你也可以选择其他的模型作为测试,因为我们刚刚就是安装的这个模型,就是这个模型啊,所以说我们就在终端里面去启动下这个模型,看看能不能用啊,我们就直接这样在终端里面启动。 呃,可能我电脑比较慢啊,呃,这也没关系,这样等吧。呃,然后呢启动完以后呢,你可以在这个里面直接输入一个,你好,然后呢他大概就会就就大概这样子,就是你好,然后呢他就会回答一个你好,请问有什么可以帮助吗?然后这个的话就是对应你的前文的一个回答。 呃,我这边可能比较慢,可能在运,因为我这边在运行其他东西啊,所以说就比较慢。呃,这里我我们就 先不管它吧,反正就是你这样运行以后呢,它就会出来个这样的一个窗口,当然这个是你好,是我自己打进去的,它就会出来一个这个三个符号的那个,然后然后你在这里输入一些东西,然后呢再进行一些提问就可以了, 然后它就会一个进行一个返回了。那到这一步的话,其实我们的欧拉曼已经安装好了,然后我们这这里的话使用的是 npm 的 方法去安装啊,我们可以再看一下这个,我们之前的话是这么安装的直接,对吧? 这个视频的话前面也有啊,你可以看前面,如果你呃不想通过 note 去安装的话,你可以看我上面一个视频,就是这个视频直接进行安装也也是可以的,然后现在的话我我默认把这个 note 已经安装好了。安装好以后我们就有 npm 吗?当然也是在终端啊, 就行,就是把这个复制过来以后呢按啊这个好了,对吧?好了我们可以看一下。你好,我们来试一下怎么装, 因为我电脑里面还有几个模型在跑,所以说会相对比较慢啊,我我们也不等他了,我们就直接就是你把这个终端这个东西 n p m 一 到杠杠机,然后这这是全局啊,然后在 opencode 把它安装一下,然后然后在终端里面把它输入就可以了, 然后再按回车,然后呢最后呢我们就去可以使用 opencode 去查看一下版本,然后这时候呢它会出来一个版本,对吧?这个版本, 嗯啊对,这是一个版本,你看这下面,这下面会有一个版本号,是吧?然后呢就说明当前这个 open color 已经安装好了,然后呢安装好以后我们在终端里依旧是在终端啊。呃, 我们在我们都写一下吧,以防止大家理解有误啊。这里啊,再加一个这个,然后呢?在这里面,然后你在终端里面继续执行这个 open globe 的 on board。 这这这,说白了就说说白了你在这里啊,他进行回复了,对吧?他进行回复了,然后我们现在把它, 嗯不,哎,卡住了,我又 少少了一个,哎,少少打一个算了,就就先不管他了,就是你在终端里面去执行这个东西啊,执行这个东西以后呢,他就会进入一个向导啊。呃,首先进入第一个向导,他就会这样的,就是你这个东西你在终端里执行以后呢,他就会出来这样的一个界面, 这样的一个界面。让让让你去选择 yes 还是 no? 他 那个他这个意思呢是指的什么意思呢?就是呃卡住了,因为我本地哎,本地在运行,所以说有点卡。电脑 我们这个就先先不管,我们看这个就是他就这这里的意思呢?就是我知晓就是此设备就是仅个人使用这种东西,反正就是说白了就是你需要个人使用,还是说,呃是多用户,然后我们这里的话就默认就选 yes 啊?我们是个人的,因为你我我们是个人。电脑,然后执行完以后呢,他就会出来一个,出来个这个东西啊, 刷这个让你去选择,我们就选第一个,然后分别。什么意思呢?第一个呢就是快速启动啊,当然你可以后面去补全啊, open globe config 就 自动把它给补全。第二个呢就是这个,这这个是手动啊,我我们这里的话就讲快速啊,然后你选第一个,选了快速, 快速以后呢我们这里面他又会出来这样的一个页面,这样的页面里面他就会让让你去选这个三个什么意思?三个的话就是第一个呢就是已有配置,然后第二个呢是更新配置,第三个呢就是重置配置,我们就直接就选第一个,好吧?然后,呃这里就不用管了,我们然后这个选完以后呢,我他会出来个这样的界面。 这里是选模型啊,我们直接就放到这个欧拉玛里面去,就选选了这个欧拉玛,然后呢选择欧拉玛,其实大家注意一下就是, 呃,其实在这个下面啊,在这个下面你继续往那个键盘上下左右的话,就是往往下走的话,它有一个叫做 v l m, 其实它也可以用于连接本地的奥拉玛大模型的,这个这个也是可以的。这个 v l m 呢是一个开源的大模型的那个本地,呃,推理 加速的一个框架,就是,呃你本地运行的话,它它可以进行一个加速啊。呃,我我们这里的话就默认先选这个欧拉玛,好吧?因为我们以前就是在这个,在这个视频之前就是我本地安装这个欧拉玛,它那时候还没有这个选项,好像我印象里记得好像只有这个, 当时还用的这个,但是我们现在这个,呃,你们现在装的版本肯定有这个的,然后你们就选择这个欧拉玛就可以了,选择这个欧欧拉玛以后呢它就会出来个正东西,当然这个一二七点一,二七点、零点零点一,然后幺幺四三四,呃,它默认帮你写好了,你什么都不用改,然后你直接回车就可以了, 回车以后呢他会出来个这样的界面,就这里的话,这里的话是云端加本地,这里的话是本地啊,我们这里的话就默认直接先选对应的本地就行了,好吧?就选第二个,好吧?那个云端我们就不要了,所以我我们选 logo 就 选一个 logo, 然后选完 logo 以后呢,它这里面会看看到这些东西啊,这里的话其实,呃他就 他确实是就是帮你把本地的奥拉玛的一些模型给它列出来了一下,然后呢这里就是我刚刚就是呃装的那些模型啊,当然还还有一些模型。然后呢你可以选择一个你本地有的就是对应的二点五的,比如说我们刚刚这个二点五点零点一,不是二点五点一点五, b 的是 你刚刚下的也是这个,我我们运行的也是这个,对吧?所以说你就选择这个好了,你选择完这个以后呢,它就会出来个这样的界面, 这样界面到这里的话是什么意思呢?这里的话就是让你去选哪个,你通过哪个 ai 去跟他沟通。我们的话就直接跳过啊,我们先 不绑定飞书啊什么之类的,因为我们呃上面视频也讲过就是如何去绑定飞书啊等等之类的,我记得好像这里都有你看连接飞书的,但是我们会还会去增加一些其他的都会说到,然后呢到这一步的话我们就是呃使用跳过啊,用这个跳过,好吧?跳过以后呢,他又会出来一个这东西, 呃对应的搜索服务商,搜索服务商的话他这个服务商是干嘛的呢?就是呃他可以去,比如说 去外部搜索一些东西什么之类的,这里的话我们还是选择对应的跳过啊,选择这个跳过,然后呢 他站起来就会出来这个东西。这什么意思呢?他的意思呢就是是指的是比如说想给 ai 增加一些实时功能,比如说查天气啊,查快递啊等等之类的。我们这里的话,呃,我我我这里选 no 吧, 你选 yes, 你 选 yes 也可也可以啊,选 no 也可以啊,我们我们这里就选呃,就选 no 吧,好吧,我们就这里先选 no, 为了快速的演示啊,选个 no, 然后呢再下来的话它就是是否使用钩子啊,它它会出来个这样的界面, 然后这里的话大家可以看到它是个切切过过手,所以说你我们这里的话就直接你空格以后,它会变成一个实心的,然后回车就可以了。这里的话其实说白了, 嗯,他就是加了一些钩子功能,好吧,就比如说像一些用户,用用户的绘画记忆啊,还有一些对应的命令日记啊之类的,这个我我们后面再说啊, 反正这里的话我们就呃就是这里啊这句话我我们就选第一个写,然后再下来的话他就会出来个这样界面, 这里有三个选项,这三个选项呢第一个呢就是重启啊,一般来说我们改了配置以后都会重启啊,然后再下来个就是重安装,还有个就是跳过,我们这里的话就直接选这个重启就可以了,选第一个,好吧,然后呢再下来的话它又出来出来个这东西。 这什么意思呢?第一个呢是指的是那个终端启动,就是 t u t u i 吧,就也也就是终端启动,然后第二个呢就是网页端的,然后呢我我们这里的话就选择网页端的,第三个就是稍后登录,然后你选完这个以后呢它就会出来个这样的界面, 然后你这里就可以去选他的那个模型啊,然后直接跟他聊聊天就可以了。然后这里的话就相当于,呃,如果他正常来说你去选择第二个就是对应的这个,你选择第二个这个 open ui, 它就会自动打开这个浏览器,如果它没有打开的话,你直接把这个网址输进去,输到网网页上,然后呢它也可以进行 呃访问出来,然后这样到到目前的为为主啊,就是我们大概讲了一下如何通过。呃第一个,嗯,就是 node 的 形式去安装 open globe 的, 以及 呃安装好本地的欧拉玛,嗯,加加载模型,然后呢使 open globe 的 与本地的模型进行一个通信啊。

呃呃, 大家好,集上一期的拉玛 c 加加教程后,今天来教大家如何用拉玛 c 加加来驱动 cloud code, 其实超简单的。首先先运行拉玛 c 加加,如果你还不会的话,可以看我的上一期视频哦, 可以访问这个网页,就说明拉玛 c 加加的服务已经起来了,按这里可以选择你需要使用的模型。然后我们来到随便一个目录, 首先运行这条命令,这条命令是把 cloud code url 指向我们本地的拉玛 c 加加,然后输入这条命令,目的是给 cloud code 设置一个 api, 这个 api key 随便什么都可以。 由于我这台设备是 macos, 所以 我就以 macos 为例,如果你是 windows 的 话,命令我打在屏幕上了, 或者你也可以问 ai。 好 了,现在直接运行 cloud code 就 可以了,随便输入一段内容模型的话会选用之前我们选用的模型,我们可以看到现在 cloud code 现在已经开始写代码了,怎么样,你学会了吗?

一分钟教会你如何在 mac 上本地部署原版 open curl。 都二零二六年了,你还在使用一些第三方的 open curl, 就 像个智障一样。不要着急,今天歪歪教你如何在 mac 上本地部署原版 open curl。 第一步,安装 homebrew 官方的一键安装命令,虽然会自动安装这些工具,但是可能会出现问题,所以我们直接先行安装。 我们在终端输入这个安装命令,如果这里跳出弹窗,证明你的命令行开发工具没有安装,我们点击安装,并且同意许可协议。等待安装完成后,我们回到终端,重新输入这行安装命令。回车后会问我们通过什么下载 homebrew? 这里我们通常输入一回车,选择通过清华大学镜像源下载,然后我们需要输入开机密码回车, 接下来会问我们是否删除之前的 homebrew, 可以 输入 y 回车,它会帮我们自动备份。在接下来我们还要再按一次回车开始安装 homebrew, 安装后再次输密码回车。接下来我们要选择用 homebrew 安装时用哪个国内镜像员,我们这里选择推荐的阿里镜像员回车, 再次等待安装完成,等出现安装成功的提示后,关闭终端,重新打开,让配置生效。第二步,安装 gte gte 是 一个代码版本管理工具,我们在终端中输入这行命令回车,然后等待安装完成。第三步,安装 notgs 来到 notgs 的 官方下载页面,下载完后打开安装包,在安装窗口中点击继续 同意用户协议,然后点安装,输开机密码,点击安装软件按钮这里我们稍微等待片刻,完成后点击关闭按钮。四步,安装 open curl 我 们在终端中输入这个命令回车。先把 n p m 的 下载源切换到国内镜像,然后我们继续输入这个命令,把 g t 访问 get 地址改为 https 地址, 最后输入这行命令,开始安装最新版的 open curl。 回车后需要我们输入密码,这个电脑密码不会显示,直接输入后回车。等待 open curl 开始安装。安装完成后,终端会输入 a, d, d, e, g, 某些数量还可以仅此的提示。 第五步,配置 off 壳,我们直接输入这个命令,启动驶驶化配置流程,然后会提示你使用它可能存在风险。问是否继续?这里我们按键盘上的左键选择 yes, 然后回车确认, 随后保持默认的 quick 模式回车。这一步需要选择使用的大模型服务商,我们这里以 kimi 为例,这里大家自行选择自己使用的就可以。这里选择注册商域名类型回车。然后把准备好的密钥粘贴到这里回车。 这里选择具体的模型,保持默认回车。这里选择通讯渠道,我们先选择最后的跳过,这里问我们要不要现在配置 skills, 我 们按空格键 pick for more 回车。选择先跳过。接下来问我们用什么方式启动 open curl, 简单直观推荐 w, b, u, i 随后会跳出一个网页,我们就可以和小龙虾对话了。今天的分享结束了,关注歪歪,下期教你如何对接飞书,用飞书操控电脑!