想本地跑大语言模型,又怕装环境麻烦,担心 c 盘瞬间爆满。今天这套欧莱玛家 y b u i 便携版方案就是为你准备的,不占系统盘,不用安装,解压就能用。 第一步,把下载好的两个便携包全部解压到非 c 盘,比如 d 盘或者 e 盘,千万注意路径必须全是英文,绝对不能有中文空格或者特殊符号, 强烈建议放在 ssd 固态硬盘里,这样加载模型速度更快。解压后把 alama 的 两个文件放到 ai assistant 的 根目录下。 第二步,重点来了,不要直接点开 alama 的 原程序,必须双击我给你的那个启动器 public release bat。 启动后会弹出一个 c m d 窗口,只要看到 o lama service running 这行字就说明成功了。切记这个黑窗口千万别关,一关服务就停了。 第三步,在你 ai assistant 文件夹的地址栏里直接输入 c m d, 然后回车,这样就打开了一个新的命令窗口,输入模型下载命令,比如 o lama p q。 四 b, 如果你想找更多的模型,打开 olamar 官网的模型库,找到与你显卡适配的模型,用命令下载即可。 模型会自动下载到 ai fistent 跟目录下的 models 文件夹内,下载完后输入 olamarunqdublin。 四 b, 如果能正常对话,说明运行完美成功。 然后打开 core 目录里的脚本,在配置部分添加并想要的模型,注意格式不能乱,乱了脚本运行会出错。 最后返回青州 ai 窗口,选择一或二浏览器,自动打开后能正常对话,说明你的本地大模型就部署完成了。 最后再补充两点,第一,为了方便启动,你可以把那个 bat 文件右键发送到桌面快捷方式,然后右键点击快捷方式选属性,再点更改图标,换个你喜欢的图标。 第二,解释一下为什么我只用简单的 bet 文件,因为我做的是开源项目,讲究的是透明度和易维护性。虽然用 c 和 evolone 做界面确实漂亮,但时间成本高,不利于大家学习和二次开发。 解压包里有详细的操作手册,如果想部署本地 ai 模型的,赶紧去试试这个方案吧。本视频字幕由 fire red a s r 二 s 字幕系统生成,音频由 ai 生成。感谢观看!
粉丝108获赞633

兄弟们,昨天给大家拍了个视频,但是被限流了,可能是因为我说错话了,今天再给大家介绍一下 l m 数百个模型与供应商,一条命令即可以找到适合你硬件的模型,就是用来判断你的电脑能不能来使用这个。呃,大模型能使用哪些?就这个命令啊,在终端里面输入 模型的名字,然后提供商模型的大小,这个分数是针对于你的硬件,得分越大越能跑。 ok, 这是 talking 每秒预计的啊。这边是这个量化的版本,然后模型的模运行模式,然后这个是占用的内存, 上下文的长度,发布日期,然后后面这个模式是什么?通用,然后编码,还有这个聊天,然后后面还有一个什么其他模型啊,这个地方推理模型可以去试试这个啊,就是来测你的电脑能跑哪些模型, ok。

使用欧拉玛可以一键部署本地大模型,我选择的模型是千万三点五九 b, 现在来演示一下, 可以看到 gpu 使用率向升,由于我这台电脑的显卡配置比较低,所以输出的比较慢。 好,终于输出完成了,接下来是 gg 教程。 首先肯定是要下载欧拉玛的这个软件,进入欧拉玛的官网之后,选择 windows 点击下载,当然这个下载起来会非常的慢, 我也给大家把安装的程序上传到了网盘下,下载后双击打开直接安装,安装完成之后就是这样一个界面,可以在这里点击你想要的大模型,比如说这些是云端大模型, 从这里开始就是本地大模型,这个是谷歌开源的本地大模型街吗? deepseek 千问三,还有其他的一些模型啊, 对于模型怎么挑选,得看电脑的配置,比如说我这台电脑 cpu c a m d 二五六零零两根 d d e 二四的一六 g 内存条, 显卡是一六六零 s 六 g 的 显存,这个已经是非常老的显卡了,后续我准备根据我的电源升级成四零六零 t 一 六 g 显存的,所以根据我的电脑配置 选择了比较小一点的模型。那你的电脑适合哪一个大模型?可以把配置发给豆包问问,让豆包帮你分析适合下载部署什么样的大模型。今天的教程就到这,关注我,评论私信。

部署本地的 openclaw 已经可以剪视频了,大家都知道了吧, 这个让硅谷大佬每日一封的 openclaw 阿月,我呢也是拉到本地试了几天,现在就带大家把本地部署和接入飞书每一步都走明白。为了防止偶然性啊,我呢也是连续测试了四台电脑,确保每一步都可行,接下来你们只要跟着做就可以。点好关注收藏, 我这里依旧用的是 windows 系统来操作,因为 macos 系统呢,环境相对比较简单,不像 windows 这么复杂。首先呢,我们要确认好 windows 的 安装环境,安装的时候呢,全部都点 next, 一 直到完成即可,建议呢,不要去变更中间的安装路径。 呃,安装完成后呢,我们可以检查一下环境,我们在命令提示符的窗口输入这两个指令,如果输入指令后跳出版本号,那就说明安装已经成功了。这里提到的两个环境文件呢,我在文档里面也全部都准备好了。 好,接下来呢,我们就开始全区安装 oppo 卡使用管理员 c m d 指令输入,这个指令安装完毕后呢,再输入这一条指令, 好开始了。 ok, 这一步跳出来的呢是风险提示,我们直接选择 yes。 然后呢我们选择 quickstart, 这一步呢是选择大模型,我这里呢用的是千万,因为他是国内的,如果大家有惯用的呢,也可以自己进行勾选好,然后我们这里模型选择默认的即可。 之后呢会跳转到大模型的首页进行授权验证,大家验证通过就可以了。那通过后呢,这里也同样有一个选项,我们直接选第一个默认的模型。 ok, 下一步呢,这里可以看到很多的应用选项,这其实呢就是指令输入的终端,因为这些都是国外的,所以我们先不管,选最后一个,跳过,后面呢我会给大家介绍如何接入国内的飞书。 ok, 继续,这里会问你需要配置什么 skills? 呃,我们也跳过,没问题,因为这个不着急,后面都可以手动去配置的。 好,这个也不用管我们用不上,直接跳过。好,然后我们稍等一会,会自动弹出一个网页,然后你会发现这个网页是打不开的,没关系,我们这个时候呢,再运行一个 c m d 的 指令, 好,这就是欧奔 cloud 的 兑换框了,我们来尝试和他打个招呼, ok, 他 回复我了,那到这里呢,其实基本上就成功了,还是比较简单的啊。然后呢,我们再来尝试为大家接入一下飞书,很多小伙伴呢,在这一步呢,其实就被劝退了,因为怎么样都接入不了这里,大家看好我怎么操作。 首先呢,我们进入飞书的开放平台,我这里呢用的是个人版,我们来创建一个企业自建应用, 进到这个凭证与基础信息界面,把你的 app id 和密钥保存下来,这个很重要啊,后面会用到的。然后 我们添加一个机器人,再到权限管理这一步,为他添加一些权限。这里的权限列表呢,其实官方呢是有指导文件的,但是呢就藏的比较深,我呢也是给你们找出来,直接放到文档里面了,你们直接一键复制过来就 ok。 好,然后我们需要配置一下这个事件回调功能,在这里的订阅方式选择长链接这一步呢是必须的,而且是绕不开的,也是大家碰到卡点最多的一步,很多小伙伴呢在这里呢就是一直报错,好,不用担心,我呢,已经整理了一份非常长的傻瓜教程,大家直接照做就 ok 了。 然后选择以后呢,我们添加事件,然后添加搜索接收消息, ok, 然后我们就去点击创建应用,然后再发布就 ok 了。 好了,配置工作完成之后呢,我们就要开始给欧邦克劳接入飞速杀键了。由于 windows 的 系统环境问题呢,所以大家的电脑情况都不太一样,所以会出现不一样的报错问题。网上的很多视频呢,也没有把这个问题针对性的讲清楚,我自己呢也试了三到四台电脑来做尝试,都非常有挑战。 如果你手边也报错的话呢,不用担心,我这里想到了一个邪修的办法。好,那既然 oppo klo 可以 控制我的电脑,那为什么他不能自己安装飞出插件呢?我们来试试看吧,直接和他对话。呃,你自己安装一下飞出插件,然后呢,他就会开始疯狂的工作,并自行去验证安装环境和插件配置 啊。五分钟左右后呢,他就会告诉我,他工作完成了,需要我提供给到他飞出机器人的 app id 和密钥。这个呢,其实我们在上一步已经有了,我们直接复制给他,让他呢继续去工作。这里的工作过程当中呢,我们的机器人可能会下线几次,原因呢是他需要去重启网关, 如果呢,你感觉他下线太久的话呢,我们可以用 open cloud get away 这个指令重新把它呼出来。最后呢,他会要求你在飞车上和他对话进行测试,并为你排除最终的一些故障。 ok, 全部搞定,已经可以在飞车上正确回复我了,并且呢,刚才在外部的对话记录他也全部都记得, 呃,我们这里呢,再用手机给他发一条消息试试看。好,他也同样接受成功了。好了,这里欧本卡接入飞书的配置呢,就完全对接成功,基本上都是他自己完成的,我呢只是配合他提供了一些必要的信息, 妥妥的全能小助理。接下来我们来看看他能为我们做一些什么吧。比如呢,我现在想要订一张机票,我就让他帮我查询一下最便宜的航班,他立刻就给我列了具体的信息,包括航班号,价格以及其他的一些航班信息。不过这一步呢,是需要接入 api 的, 大家可以自行去网上找免费的接入就可以。 好,那现在过年了嘛,马上大家呢也会送礼嘛,那我就让他去浏览电商的页面。呃,不过这里呢,需要先安装一个 oppo club 官方的浏览器插件,我们直接从官方渠道进行安装就可以了。具体的步骤呢,已经放在文档里了,大家直接照做就可以。我让他给我打开。 ok, 成功,呃,然后我继续让他为我搜索燕窝。好,也成功了。 好,那我们现在在拿最近小伙伴在学习的 ai 的 线上作业丢给欧本克,看他能不能帮忙完成。 首先我们要让他找到作业的本地目录,并让他完成里面的题目。他立刻就找到了,并且迅速告诉我,完成了。啊,这速度还是真的蛮快的啊,但是呢,人呢,还是比较懒的。如果呢,你抄作业都不想抄啊?没事,直接让他把填完的东西返回给我。好,他已经做完了,我们来看看啊。 呃,代码呢?全部都完成了,不过呢,我也是看不懂啊。看懂的高手可以来说说他完成的这个准确率怎么样。 好了,那这次安装说明就先讲到这里了,关于 open cloud 的 更多能力,有时间呢我们可以再去测一下。好,那既然已经部署成功了,有兴趣的同学呢,也可以再去深度探索一下 啊。对了,现在呢,各大厂呢,也出了针对 open cloud 的 云端部署,我这个呢,也可以跟大家快速的分享一起。好,这里是阿月,希望我的视频能够帮助到你,让你更了解呀,我们下期再见。

尝试在这台老爷机上部署千万三点五,处理器是 i 五四五七零八 g, 内存无读写,我用的是 rms 对 d l 进行部署,打开官网下载安装即可。安装好之后下载千万三点五模型, 我们直接进行搜索,模型越大就越聪明,但是配置要求也越高,我就下载零点八 b 模型来演示,大家可以根据自己的需求和配置进行下载, 下载好模型就可以进行载入了,载入时可以设置上下横,长度也是根据自己的配置和需求设置, 到这里模型已经可以跑起来了,如果不需要联网搜索和本地知识库,做到这一步就行。如果需要联网搜索,就打开浏览器的插件中心搜索,配置 sis 插件进行安装, 然后打开插件设置,把语言改成中文, 搜索引擎可以改成百度搜索,结果按需修改,改好后记得点保存。然后回到 r m, 打开网络服务, 再回到插件,设置了 api 添加供应商, 选择 r m studio 保存即可。点击新聊天,选择千吻模型就可以在网页里进行对话了, 需要联网搜索就打开下面的开关,点击引用的网页就可以看到千吻通过网络搜索到的内容。 然后是建立本地知识库,先在设置里选择文本切入模型,那么会自动帮我们下载好,下了菜单里没有的话就等一会, 记得点保存。现在就可以在知识管理上传我们自己的知识库了, 等状态变成已完成,就能在对话里调用知识点进行回答,点击输入框下方的知识点,选择刚刚上传的知识点即可。

哈喽,大家好,记录一下本周关于本地部署千万三点五大模型的一个进展。 呃,目前的话,我个人的一个结论仍然还是倾向于用拉玛 c p p 去本地部署千万三点五的大模型。那么这张图的话呢,是我在本地的一个测试效果, 可以看到,在我的机器上,即使这个上下文跑到十六 k 的 一个长度,那么仍然可以做到二十五个透刻每秒, 那么显存占用是大概是二十二十二个 g 左右啊,那么也就是在三零九零这样的显卡上就可以去运行这样的一个模型,那么 ram 的 话,这样的很少,基本上几个 g 就 够用了啊,所以说这是我目前的一个结论 啊。然后再来具体说一说我是怎么样来部署 v o m 的, 然后以及怎么样来做的一些测试和对比。 好,首先的话呢,是 v l m 的 一个安装部署,那么本周的话呢,出了零点一七点一的这样的一个稳定版本, 那么很激动啊,出了之后赶紧去这个官网啊,按照教程去装了这个 cu 十三点零啊这样的一个版本 啊。但是很遗憾的话呢,我在部署的时候遇到了这样的一个问题,也就是一旦装 cu 十三点零这个版本的时候的话呢,它总是会运行的时候报一个 cublas 出谋划这样的一个错误 啊,当然也尝试了一些解决方案,像升级 driver, 升级扩展二 kit, 包括安装不同版本的 cublas。 那 目前来讲的话呢,我尝试这几种方案都没有去解决这样的问题,所以很遗憾的是,最后的话呢,只能去 退回到这个官网给出来的十二点九的这样一个版本,也就是我所有的测试和这个运行都是在这个官网十二点九的这个版本基础上啊,然后来做的好,然后来说一下我的测试脚本 啊。测试脚本的话呢,是, 呃,直接在这里调用的这个 openai 的 一个 api 接口啊,然后测试了不同上下文长度的一个效率啊,简单用 python 写了这么样的一组代码啊。 呃,然后重点来看一下就是我是怎么样来启动的这个脚本。 好,那么 vl m 里面的话呢,我是直接用的这样的一个脚板去启动它,当然的话呢,也尝试了这个不同的量化模型,然后一起来看一下这个结果。 呃,首先是官网给出的这个一个量化模型, 那么在这里的话呢,可以看到在我自己的机器上啊,我的机器是这个英特尔的一零九八零 x, 嗯, cpu 的 话十八核三十六线成,然后九十六 g 的 ram 加上 rtx a 六千啊,四十八 g 现存这样的一个显卡。 嗯,可以看到在我的机器上的话,当这个十六 k 的 上下文的时候,其实只有二十个投款每秒左右, 然后显存和内存的变化量的话,基本上没有什么变化,当然 v o m 的 话,本身它就会一次性的把这个需要的显存和内存都已经升平啊,占用的差不多,所以它基本上没有什么太大的变化, 当然这个效率来讲的话,很显然和我本地部署的拉马 c p p 的 这种方式还是有一点点小的差距的啊。好,这是官网给出来的第一种量化模型,然后也尝试了另外一个这个第三方给出来的量化模型, awq 的 量化模型, 嗯,可以看到这个十六 k 的 上下文的情况下,它这个仍然也是大概二十出头啊,投款每秒,然后内存和显存基本上是一致的。 然后还有一个情况的话呢,是这个关于 vlm 的 啊, vlm 的 话,其实我尝试了启动的不同的参数,这个里边影响最大的可能是这个 mtp 的 一个参数的一个配置,也就在我的脚本里边,我尝试把这个 mtp 给它设成二 啊,一旦设成二之后,这个效率会明显的有一个提成啊。先说它的好处 来,这是我当 m t p 等于二的时候,这样的一个效果,可以看到的话呢,一零二四的投看上一零二四的上下文的时候,投看能做到五十多, 然后十六 k 的 上下文的时候呢,投看仍然能够做到三十五三十六左右,所以这样的一个效率来讲的话呢,是非常好的,也就比拉曼 c p p 还要值钱,这个 v l m 啊,它基本上能够提升小一倍的这样一个效率 啊。但是很遗憾的是,在我的本机上也会有一个小小的问题,那就是一旦这个 m t p 给它配成二甚至二以上,说到五的时候,然后在实际运行模型的时候,它会报这样的一个 啊,也不算是错误吧,就是这个张亮的维度已经不一致了啊,因为他每次要预测两个头盔吗啊,所以的话呢,导致这个模型运行的时候不是很稳定啊,可能对话几轮之后,这个整个程序就崩掉了啊,就模型就死掉了 啊,所以的话,后期看一下这个问题能不能解决,如果这个问题能够解决的话,其实我还是挺倾向于用这个 v i m 去本地部署的啊, 好,那么这是关于 v l m 啊,去部署前文三点五的一个情况,然后除此之外的话呢,也还对这个阿玛 c p p 做了一个简单的一个测试, 也就尝试去部署了一下不同的模型啊。首先这个是二十七 b 的 一个量化模型,然后上下文呢,一直测试到了二百五十六 k, 那就是整个模型的一个极限,可以看到的话呢,在这个上下文大于六十四 k 的 时候,其实这个效率来讲就已经有很显著的一个下降了 啊。当然的话,上网上去查了一些资料,大家也都说这个百分之九十九以上可能的这个应用场景,六十四 k 的 上下文已经足够用了,所以的话呢,目前就想打算先用这个纤维三点五啊,二十七 b 拉满 c p p 这样的一个部署环境 啊。然后还有的话呢,就是我也测了一下这个三十五 b, 这个明显会快很多啊,因为他是这个 a 三 b, 也就每次只激活三 b 的 参数,所以的话明显可以看到这个 token 啊,在这个六十四 k 上下文的时候,基本上还能做到四十加将近五十这样的一个 token 每秒。 然后最后的话呢,也测试了一下我本机的一个极限,也就是一百二十二 b 的 这个模型,这个是我显存能够容纳的最大的一个模型了啊,可以看到即使上下纹很小啊,一零二四的时候仍然这个头款只有十个左右, 所以的话呢,暂时就放弃了一百二十二 b 的 这样的一个模型啊,后面的话会用这个二十七 b 和三十五 b 这两个模型去做一些啊,上层那些应用吧。啊,然后到时候有机会再给大家录一些后续的视频。好,今天就到这里。

q n 三点五昨晚发布了,但官方数据再漂亮,也不如社区实测的红黑榜靠谱。如果你有二十四 g 显存,无脑充三十五 b a 三 b, 它是这代的版本之子,代码和逻辑能力在这个量级基本没有对手。虽然每次推理只激活三十亿,参数速度飞快, 但记得他吃的是三十五 b 级别的,现存二十七 b 表现比较平庸,除非你的设备实在跑不动大的,否则不推荐吃鱼。 flash 版,它是处理百万字长文本的神器,本地跑太费劲,直接调 api 效果最好。 今天的视频不废话,直接把压箱里的推理参数、部署命令和调优经验喂给你,让你少走弯路,直接上手。 模型选好了,但如果参数设错,再强的模型也会变傻。先看最核心的深度推理场景,比如做数学难题或者逻辑推演,这时候必须开启千问三点五的思考模式。 注意,这里的 temperature 建议直接拉到一点零,这种高温设置能充分激发模型思维的多样化,同时配合一点五的存在惩罚,也就是 presence penalty, 这能有效解决模型在大规模推理时容易出现的复读机问题。但如果你是要写代码或者搞外部开发, 逻辑的严密性就比灵感更重要了。虽然同样是在思考模式下运行,但要把 temperature 降到零点六左右,降温是为了让模型输出更稳,少一些天马行空的幻觉。 top 维持在零点九五, 这样深层的代码逻辑会更连贯,能大幅提升代码的一次性通过率。再分享两个能让效果翻倍的小细节,第一是输出长度, 也就是 max tokens, 普通的活三十二 k 够了,但要是跑竞赛题目,建议直接拉到八十一 k 以上, 这多出来的空间不是给最终答案的,而是给模型留足打草稿的思考过程。第二是提示词技巧,做数学题一定要在末尾加一句,请逐步推理,并将最终答案写在框内。 要这层格式就明确要求只输出字母明确的指令边界,能让模型从猜你想干嘛变成精准执行。 最后必须划个重点,关于存在惩罚这个参数,虽然前面建议设为一点五,但你手动微调的时候千万别超过二点零。一旦设高了,模型会为了强行避开已经说过的词,开始强行凑数,甚至胡言乱语,整个逻辑会瞬间崩坏。 控制在零到二之间,这是千万三点五保持理性的最后安全区,模型调好了,怎么稳稳的跑起来?目前性能最强的是 s g l m 方案安装,别用慢悠悠的 pick 了,直接用 u v, 效率最高。 启动时一定要手动加上 razingpasta 这一行,这是千万三点五开启思考模式和工具调用的物理开关,漏掉它,模型就退化成普通版本了。 多卡用户记得根据显卡数量对齐 tv size 参数,确保算力全开。很多人一跑部署就炸显存,其实是因为忽略了那个默认二十六万长度的上下文设置。 如果你的显存没到八十 g 以上,千万别直接硬跑。建议手动把 context lens 压到幺二八 k 甚至更小,再配合 memfraction static 零点八这个参数,把静态显存死死锁住,这样能有效防止推理过程中显存突然飙升导致的崩溃, 让长文本处理变得真可用。如果你习惯用 lu l m 部署,这里也有个压榨显存的绝招。 再加上蓝宝石模型函数,虽然会暂时舍弃多模态视觉能力,但能为你换回巨大的文本处理空间,这在跑超长代码审计或者纯文字逻辑推理时是性价比最高的选择。确保带上 reasoning part, 让 v o l m 也能输出那串关键的思考过程。 如果你是通过 api 调用千文三点五,千万别在提示词里加斜杠 think 指令模型根本不吃这一套。正确的做法是,在 api 的 extra body 参数里,通过 chat template quicks 手动控制 enable thinking, 把这个布尔值设为 false, 模型就会跳过思考,直接给结果需要逻辑爆发时再开启,这是目前开发者最容易忽略的传餐细节。 要处理整本书或者超长文档,你就得开启千万的 r n 扩展,在 v l o l m 启动参数里追加这段,重写代码,把 max model line 拉到一百万以上。 这里有个独家经验,如果你的文档只有五十万字左右,把 factor 系数设为二点零的效果要比默认的四点零更精准。只有当文本真正接近百万级别时,才建议拉满到四点零。 想让模型看懂一两个小时的长视频,去修改模型文件夹里的视频预处理配置文件,找到 longest edge 这个参数, 把它改成这个九位数的特定值。这一步能让模型处理超过二十二万个视频 token, 无论是长篇分析还是监控复盘,理解深度都会产生质变。 最后总结一下,对于大多数本地用户,无脑充三十五 b 的 a 三 b 版本,只要你有一张二十四 g 显存的卡, 把它跑起来,温度拉到一点零,开启思考模式,这就是目前本地体验最好、逻辑最硬的中杯模型。上下文平时空在十二万左右,兼顾速度和显存,按这个配置跑,你就已经超越了百分之九十的普通玩家。

啊啊! 之前有小伙伴问 lm studio 是 否支持小龙虾 open club 以及如何配置,这次就简单做一期视频,教大家如何设置,也是超简单的,如果你还不会的话,跟我一步一步操作即可,这也适合新装小龙虾的配置哦。 首先自然是确保你已经下载了你要用的模型,这里我就用千问三点五三十五币作为例子,大家可以看到我已经加载好了。然后只需要来到小龙虾这里,直接运行 opencloud on board, 这样我们就可以配置新的模型了。 小龙虾还是比较智能的,它会识别到你已经有配置,这里我们只需要改动一下模型,所以我们选 update values。 然后就是熟悉的配置页面了, 我们选 custom provider, 这里默认会出现奥拉玛的本地服务器地址。我们则要来到 lm studio, 点击 server settings 这里我们关闭 require authentication, 并且打开 serve on local network。 此时右侧就可以看到 url 从之前的幺二七点零点零点幺变成了你本机的 ip 地址, 这样部署在非本机的服务也可以调用 lm studio api 了。如果你的小龙虾是部署在本机的,那就不用打开 servelocal network 这个选项,保持幺二七点零点零点幺的 ip 地址即可。由于我的龙虾是在其他设备上部署 的,所以我这里需要把本地的 lm studio api 地址暴露给他们,我们点击这里复制,然后删掉奥拉玛的地址并粘贴上去。这里注意, 我们要加上一个斜杠 v 一 再按回车。然后这里我们就选 paste api。 但是由于我们之前关闭了 require authentication, 即不需要 api, 所以 我们这里随便打个一二三四即可。 这里我们可以选 open ai compatible, 即 open ai 兼容 api, 不 过 i o m studio 也支持了 osraplay 兼容 api, 你 也可以尝试拥有。这里我们就选 open ai 兼容 api 了哈。这里我们输入模型的 id 名字即可。我们回到 i o m studio, 这里就是模型 id 了,我们复制下来,在输入的时候需要加上模型的提供商,由于这个模型是昂尔斯的,所以我们打上昂尔斯斜杠,再粘贴上去。按回车之后,我们就会看到龙虾说 verification successful, 即验证成功, 这里直接回车,然后他会让我们给模型一个别名,我们就不起了,直接回车。 下面我们可以全部按跳过,因为我都配过了。最后重启小龙虾的路由就大功告成了。打开 t u i 后, 此时我们就可以看到 l m studio 已经接到龙虾来的请求了,然后这里也显示正在使用千问三点五三十五 b 的 模型,然后龙虾也回复了内容怎么样,你学会了吗?

自从我拍视频以后啊,经常会有人问我,那他们的电脑怎么怎么样,能够部署什么什么样的本地模型,就说不再依赖于网上的 a p i 去使用自己的小龙虾呀,或者自己去跑一些本地的推理啊等等等等。那现在呢,我就给大家推荐一个开源的一个工具,叫 l a m fit, 那 它作为一个终端工具,它可以根据系统的内存, cpu, gpu 去调整,去 判断你的电脑适合什么什么样的 l m 模型。那可以检测你的硬件,包括在质量,速度还有上下文等等维度对它进行评分,最终会做出一个评分的数字,那告诉你说你最适合什么什么样的模型,就比如说我现在的这个电脑, 我就安装了这个工具,那可以看到我这个电脑是一个装载着 apple m 四芯片的一个 macbook, 那 它拥有十六 gb 的 这个通用的内存,那对于它推荐的模型可以看到最高分,最高分九十三分,就是这个 score, score 这里最高分, 他推荐的是一个 deepsafe 的 模型,那下面还有千问啊,还有这个 minisoft 等等等等很多的模型厂家,那大家呢就可以根据这个评分去选择自己需要的一个模型,这里包括还有模型的参数量,那这个是十五十五,十五点七币,那这还有二十三点八币等等等等等。

在 open core 横行的二零二六年,可能很多人还不会怎么去电脑安装,要么就是根本不懂,要么就是被一大堆英文配置难住了。现在有了 coco, 让这一切都变得更加的简单。 我们可以先来到 coco 官网了解, coco 是 阿里云通易团队推出的个人智能助理,支持本地与云端双模式部署。现在我们直接进入主题,教你如何本地化部署 coco。 按照官方推荐,我们选择一键安装, 这里会出现不同系统的安装模式,具体根据你常用的系统选择对应命令。视频中我们以 windows 作为演示。首先我们打开 cmd 运行窗口, 把 coco 安装命令粘贴到窗口中,这时候可能会出现运行报错的提示。不用怕,我这里给大家准备了一个备用的安装命令地址,重新输入备用命令,回车进行安装。 看到 coco 已经安装成功了,复制这个命令到 c m d 窗口中,回车, 点击高级,找到下方的环境变量进去,找到 p a t h, 双击打开,点击右上角新建,把这个复制进去,最后点击确定。 接着就到 coco 出使画了,跟着文档命令走就行, 直接回车回车,然后就可以看到出使画成功了。 最后我们就可以启动 call 炮了,复制这条命令,这里启动时间可能会有点久,稍等片刻,当你看到一百二十七点零点零点一的时候,就说明服务已经可以访问了, 这时候我们在浏览器打开这个地址, 看到这个界面的时候,就说明你的 call 炮已经安装成功了。如果默认语言显示的是英文的话,就在页面右上角自己选择中文,接下来我们开始跟 call 炮对话, 啊,不好,我们要先配置大模型的访问权限,这里我们进来后会看到系统已经默认选择了第一个,直接点设置进去,这里会出现一个 api 密钥, 我们打开这个地址去注册获取一个,找到访问控制,另一排就是我们需要的密钥。复制后回来 call 页面粘贴进去,点击测试连接,如果弹出绿色框说明连接正常,然后再回去聊天页面跟 call 愉快的对话。 要命啊,这里又忘了一个设置,记得把刚才设置的提供商勾上,模型呢,随便选一个, 这样我们就可以看到正常输出了。但是这里呢,也只是最简单的 ai 对 话而已, 要注意这里的对话是需要消耗 token 的。 我们差个题外话,可能有很多小朋友还不知道 token 是 什么意思,只要你有用过四 g 五 g 网络,你用过数据流量,你把 token 理解为 ai 数据流量是不是就很容易理解了? 而且这个流量在接下来又用到的的 agent 实力中消耗很快。 为了应对 token 的 消耗问题,我们其实可以搭建一个本地大模型,让 call 炮直接对话我们的本地模型进行服务。这里我们使用欧拉玛来部署本地大模型。进入欧拉玛官网,点击右上角的 download 下载系统程序 安装成功后就可以看到阿欧玛的功能页面了,现在我们去找下我们需要的大模型。回到欧拉玛官网,选择 models, 搜索 p w n 三点五, 不要安装带有 cloud 的 标志,那个是在线模型,需要 token 的, 我们可以找一个体量小一点,适合本地电脑安装的模型,因为正常家用的电脑配置都不会太高。这里有一个支持零点八 b、 二 b、 四 b 的 模型,可以点进去 复制安装命令到 c、 m、 d 窗口中,记得加上你选择的具体模型。所谓的零点八 b 或者二 b, 其中的 e b 表示十亿个模型参数,所以越大的参数量对电脑的性能要求越高, 安装可能要一段时间。本地演示直接跳过, 当看到三 day message 的 界面时候,就说明本地大模型已经安装成功了,你就可以跟欧拉玛进行对话。 接下来回到 call 炮中,找到模型配置去,我们开始配置本地模型,找到 alma 选项, 因为本地尤拉玛不需要密钥,所以我们随便输入一个一二三四,点击保存后会弹出一个报错,让我们安装什么 s d、 k, 太麻烦了,难道就没有更简单的方法?我们找到右侧有一个添加提供商按钮, 这里我们随便命名一个,例如 my model, 然后在默认 base 二中输入,这个妙呢,还是输入一二三四就行。最后点击创建, 找到 my model, 点击模型按钮,把刚刚下载的模型名加上去,最后测试下连接, 最后记得选中刚刚设置的模型保存,然后回到聊天页面, 这里就开始考验你的本地电脑性能了,如果本地电脑配置不好的,不要随意尝试,直接用在线模型就行,花钱买 token 就 可以了。 看来本地模型输出没什么问题,就是速度还是有点慢,为了演示速度之后我们会全程采用线上模型消耗 token 模式。 接下来就进入二零二六年最流行的 skill 介绍,什么是 skill? skill 其实也就是我们常用的技能,这里可以看到 coco 默认已经存在一些技能了, 我们可以来问一下,看下 coco 知不知道它都具有哪些技能, 看来他还是知道的,但是实际应用中可能这些默认的技能不能满足我们的日常需求,这时候我们就可以新建一些自定义的技能了。这里我就来教大家如何创建属于自己的 skill。 比如你现在是一位宝妈,每天为了孩子吃什么而感到焦虑,让 coco 每天推荐一个菜系,并且教你怎么做这道菜,是不是就很方便了? 这里我就简单写一个菜谱的技能,我们可以给技能命名为 cook, 内容呢参考左边我已经写好的。注意,我们在最后有一个输出要求复制进来,技能中的 name 表示当前的技能名称跟刚才命名的 name 一 致就可以。 description 表示当前技能的简介,说明这个技能是干嘛的。 name 和 description 上下有三个短横杠包围起来,这种是固定格式,是给抠炮识别用的,要遵守。点击保存,然后启动我们新增的 cook 技能。 这时候我们打开 coco 运行的 c m、 d 窗口,按下 c t r l 加 c 按钮,当看到终止处理操作吗?这时候继续按一次 c t r l 加 c, 停止当前的 coco 服务,然后输入 coco app 命令启动 coco 服务。 当看到一百二十七点零点零点一的时候,刷新刚才的 coco 网页, 这时候我们继续去问他,你有什么技能? 从输出的内容中我们就可以看到刚才添加的 cook 技能了,现在我们就让 coco 来实现这个技能, 可以看到 coco 识别到了我们的 cook 技能,并且在最后成功输出我们的要求, 灰狼大厨并且带上了祝福。所谓技能其实就是给不同需求的人都可以根据自己的需求创建一个工具,不同的人会有不同的需求, 比如销售,可以创建一份根据客户生成客户喜好的技能,比如牛马,可以创建一份工作日报生成的技能, 比如保险,可以创建一份根据不同职业生成一份合适的保险技能。当然技能完全可以不用自己去写,把你的需求发给豆包,豆包就能帮你直接生成了,加上 call 炮要求的 name 和 description 头部就可以了。 最后我们进入频道的配置教程,我们这里以飞书作为教程演示案例,我们首先要打开飞书的开发者官网, 进入开发者后台,可以看到一个创建企业自建应用的按钮,点它,然后输入应用名称和描述 call pro, 接着全程跟着教程走。 接下来就可以打开飞书应用,无论是电脑应用还是手机应用,都可以直接用飞书跟 coco 进行对话。 到这里我们已经完成了全部教程了。

经过一整天的折腾,不停的调试测试,终于把龙虾和欧拉玛本地部署的大模型链接上了。下面说一下我这次的经验,并不是所有本地大模型都支持龙虾,目前经过我测试,最好用的是千万三, 我本地的硬件最高能支持在欧拉玛里面跑三二 b 的 大模型,但是速度比较慢,所以我下载了一个九 b 的 千万三,先试一下 九臂的千万三在欧拉玛里面可以很快的速度运行,但是在龙虾上反应的速度就有点慢, 而且只能支持本地聊天或者处理文本任务,让九臂的千万三驱动龙虾去打开浏览器都实现不了,也可能是因为我本地部署的大模型太小,有没有哪位部署过比较大的本地大模型的朋友可以说一下使用效果如何? 所以我打算暂时放弃使用本地大模型去动龙虾,去购买二十九元包月的 mini max 的 a p i 来使用 tucker, 量大管饱,关注我,一起交流养龙虾!

家人们今天教你们快速部署剪映小助手,全程就三条命令,新手也能一遍上手,不啰嗦不踩坑!先打开浏览器,搜 github, 找到开源剪映小助手这个项目,别瞎逛,直奔 docker 容器部署板块,省时高效。 重点提醒,部署前必须先装 docker desktop, 安装教程我就不耽误大家时间了,自己去看相关教程,一定要装好再往下走,不然会报错,别偷懒哦!好! docker 装完打开终端, windows 用终端或 cmd 直接开终端就行。 第一条命令,克隆代码仓库,直接复制粘贴按回车,等着,不用改任何东西,只要显示 success 就 说明克隆成功。下一步安排 第二条命令,切换到代码目录,还是复制粘贴回车就完事。输入 ls windows 鼠标检查一下,能看到剪映小助手相关的文件,就说明切对目录了,没毛病! 最关键的第三条命令来了,记好复制 docker compose pull and and docker compose up d 粘贴到终端,按回车,耐心等一会儿,让它自动拉取镜像,启动容器,全程不用管,只要最后显示但没有红色报错,就部署成功了。 部署完别着急,关终端,打开 postman 或者 officefox, 新建一个请求,按要求填好 h t t p 地址,选 pose 方法,写好请求体点发送显示成功就搞定。再测一下,批量添加图片资源,同样显示成功,完美 测试没问题!打开剪映小助手客户端,找到下载草稿功能,选中我们刚创建的草稿,下载到剪映的草稿目录,等着下载完成,很快就好,不用急,最后一步,见证奇迹的时候到了!打开剪映客户端,进入草稿箱,就能看到刚下载的草稿,点击预览,图片都正常显示。搞定了, 全程就三条命令,一步没废话,是不是超简单?总结一下哈克隆代码,切换目录,启动容器,再做个测试,下载草稿,最后打开剪映预览,全程不踩坑,新手也能一次成功,赶紧去试试,有问题评论区留言。

再来给大家分享一个本地部署的小模型,它的使用的小问题啊,我们可以看到现在本地已经部署了有两个小模型啊,我们使用这个九 b 参数的这个模型来做演示啊,显卡呢只有十六 g 的 显存,然后我们现在来运行这个模型 啊,我们随便先打个招呼, 然后呢我们在这边看,刚刚这个打一个招呼,显存占用呢达到了将近八个 g, 但是呢这里有一个上下文的设置,默认的在这里面运行的这个上下文窗口实际上是比较小的,千万三点五九 b 的 这个模型,它的理论上的上下文窗口可以达到二百五十六 k, 但实际上这么大的,嗯,多数情况下没有什么用,因为毕竟模型太小了, 虽然模型可以接受二百五十六 k, 但是呢在欧拉玛这里面运行的时候,实际上根本就没有使用那么大的这个上下文窗口,那我们可以看一下嗯,他的上下文窗口的设置,嗯,这里也是上下文窗口,这里呢由于只有十六 g 的 选存,那么我们只设置他理论上的一半啊,也就是十二万八千的这个 好了,我们已经设置好了啊,设置好了以后呢,我们可以通过这个参数这个指令来查看啊,我们已经设置好了,嗯,这个时候如果我再跟他打一个招呼,我们再次查看他的显存占用, 这已经达到了十三个 g, 那 如果想要设置他理论上的最大的窗口二百五十六 k 的 话,那么显存就已经超十六 g 了,那么他就会把内容 放到内存里面去了,这样的话会大幅降低他的这个运行速度。这个在呃我们部署小龙虾的时候也会遇到这个情况,我们小龙虾里面设置的呃 agent, 他 如果调用的模型是我们自己本地的这个模型,那么你也要设置他的这个合适的上下文窗口。那如果设置太大了,呃,就会导致刚才我说的一样的情况,他会把它放到内存里面,然后反应就会特别特别的迟钝。 像九 b 这样的模型,一百二十八 k 的 窗口已经足够大了,因为小模型它的注意力有限,你输入的内容太多,尤其是太多的提示词,我们,呃上个视频讲到的前置的工具的使用,这些都会占据大量的这个提示词,那么它会导致模型注意力稀释,然后没有办法准确的 把握你到底想干什么。所以想使用小模型的话一定要把嗯,工具尽可能的节省, skill 呢,也能省,也可以省,然后经常清理他的绘画,不要累积过多的这个绘画历史。嗯,小模型呢也是可以用一用的。

如何在苹果移动端设备上部署本地 ai? 一 期视频给你讲清楚。首先打开 app store, 搜索 locally ai, 这里出现的这个四角星就是我们要用的工具。下载完以后打开软件。接下来点击左上角的按键,打开设置内容。点击这里的 managemodels, 往下翻,可以找到许多可以本地部署的 ai。 这里打开了一个 sim os, 往下翻,找到芭比拉玛并点击当老卢,这里已经下载了,点击即用即可。相比联网大模型部署本地的优点是无需联网。此处断开所有网络,打开飞行模式。现在我们让它生成一首诗,看看效果。 注意,本地大模型数据两元,不如研网大模型处理能力较弱,但是最大的优点是隐私性极强。本地 ai 所处理的所有数据均不会上传互联网,只会保留本地欣赏一下互联网拉满的优秀作品。除此之外,还有纤维三以及 dsr 预模型的可供选择。 如果你想要能够识别理解图片的,请选择带有威慑图样的模型。此外,本地部署模型有一个好处是你能够训练一个独属于你的模型。你可以将自己的学习情况已经被标注至 ai, 让其为你制定学习计划或者处理不可上传至互联网的资料时贡献力量。下一期出一期,如何专业的将你的数据投喂给本地 ai 进行训练?