现在我的 codex 正在帮我本地部署前问二点五十四 b 的 大模型,然后还需要大概十来分钟的时间,正好 趁着它在执行任务,我给大家分享一下从我有本地部署大模型的这个想法到落地是怎样的经历,大概用了多长时间? 呃,首先原因是前两天不是谷歌的芝麻四开源了,嗯,然后我就又重新关注了本地部署这件事,我就用 ai 学习相关的这个内容, 就是让他首先把我电脑的配置发给拆 gpt, 这是网页版的。然后,呃,让他一步步的给我讲清楚这个本地部署,他的这个架构 运行原理,还有和我电脑的适配程度和本地的大语言模型的生态,把这些所有概念性的东西通过网页的 chat 模式都给它聊清楚。 内容还是很长的,我进行了多轮对话。呃,然后呢,你看,我就用这个,这是 obsidian 的 一个插件,可以一键把所有对话内容保存到我的 obsidian 里面去。 接着呢,我就在这个 vs code 里面把我这个呃 obsidian 的 本地文件打开了,这是下载的版本, 因为下载版本呃,我们都用过这个网页对话,他实际上是很多重复的。然后废话,那全下来大概有这两千六百五十五行。我第一件事就是先让 口袋的插件帮我优化了一下这个对话,这是这是优化版,优化版的话呢,它结构性更强,然后一共才五百多行,这样就方便我把这些知识给沉淀下来,我可以再多了解了解它的原理。 搞明白之后,根据我的实际使用场景,到底哪个模型更合适?最后我得出来的结论就是这个前文二点五十四 b 并不是最新的。呃,正码四,也不是这个前文比较高的模型。 得出这个结论之后,我就直接让他帮我部署,那我给他的指令也很简单,之后让他开始执行, 下面就是他的完全自动的,现在看看装到哪了。呃,大概还有六七分钟的时间。 ok, 现在已经部署好了,总共用时十五分钟,四十三秒。他同时还帮我优化了本地文档, 你看它进行了哪些动作。就是这些都安装好了,并且进行了测试。那我现在怎么用它呢?就可以直接输入这段代码就可以用。那我们试一下,把这代码复制,然后打开我的终端,终端命令行粘贴进去, send a message, hello, 嘿嘿,那就可以用了,同时我也准备好了,如果不好用的话,我怎么卸载啊?后面如果想清理,就这三步就能卸载干净。 那从调研到部署成功,我大概是从早晨睡醒觉,七点钟开始跟 gpt 聊,然后现在是 九点四十二分,就不到三个小时,我就大概对本地部署大模型这件事有了一个框架性的了解,并且让 codex 帮我完成了部署。我现在已经用上了,哈哈,还不错, 这就是整个的过程,从你想做一件事,但是完全不知道概念,就先在网页的 chat 模式跟他聊 聊的,你大概了解之后得出一个最优的方案,适合你自己的方案,然后就用这种像可拉的 code 或者 codex, 因为他们不只是可以聊天,他们可以调用工具来执行,就让他们帮干活。呃,这样的话其实也是一种省 talk 的 方式, 你当然也可以在 codex 或者是 cloud code 里面直接跟他聊需求,但是就会花你更多的 token 嘛。所以好用的工具有很多,大家怎么合理使用它是我们需要考虑的。
粉丝1678获赞1.1万

哈喽哈喽,我是大海,很高兴又和大家见面了,昨天呢,大海给大家录制了一个教程,就是在我们本地的这个电脑上去安装我们本地的大模型欧拉玛啊,然后呢再去用我们的虚拟机安装一个 open close, 然后实现我们完全本地化养虾的一个全过程,对吧?不需要偷啃,也不需要花钱, 但是呢,很多朋友反映说这个安装过程还是比较复杂,尤其是安装虚拟机和后面半段,这个安装 open close 啊就云里雾里了,最后可能还是安装不好,那么今天呢,大海就给大家来一个更快速的方法,大海直接把自己的这个 ym 虚拟机昨天安装好的这一套打包成一个压缩包,大家下载下来一解压就能用了,对吧? 当然这个 openclo 这个本地大模型还是要需要大家自己去安装一下,根据自己的实际需求和你的电脑的配置,然后去安装一个属于自己的模型,那么下面这个 openclo 的 安装大家可以直接一步带过了,对吧?我们来看一下今天这个 教程啊,首先呢我们就要安装一个虚拟机,然后呢把这个大海的虚拟机压缩包打开,修改一点点内容,然后咱们直接就给他访问,非常的方便。那首先第一步我们来安装一个 vm 虚拟机啊,这一步如果说已经做了的朋友,你就跳过这一步,直接看第二步,对吧? 大海这里呢去安装一个啊,没有下载的同学呢,你就去这里下载一个,直接去安装这个 vm 虚拟机,它是向下兼容的,如果大家想使用我今天打包的这个程序,你必须版本至少要高于我昨天是十七点六点四,所以大家这个版本至少也是十七点六点四,不够的你就去升级到这个版本, 点击下一步接受下一步。这个地方呢,安装的时候我们自动安装这个对应的程序啊,以保证我们能使用。 然后呢什么什么我们下一步,对吧?其实就是一直下一步就行了,然后我们直接下一步,下一步 安装好,这里已经安装好了,我们点击完成。然后呢我们就开启我们的这个 v m v 二迅疾,开启了之后呢,大家这个地方不要新建,也不要这个打开,对吧?把大海打包的这个迅疾给它下载下来啊,我给大家提供了网盘链接,随便选一个进去下载好, 然后这个下载出来的安装包就是长这个样子,一个无邦图六十四位的 vip 压缩包。然后呢你就自己找自己的固态硬盘,比如说我,那这个盘是固态硬盘的吧?我我新建一个文件夹进去, 我这个压缩包呢,打包是两 g, 解压后是五 g, 所以 说大家最少最少你的那个固态硬盘上要留十 g 到二十 g, 对 吧?去给它用来运行,如果说你想很好的体验的话,至少也得五十 g 左右啊, 这个地方我们直接去给它放进去,放进去之后我们直接给它解压缩,全部解压缩就可以啊,好,解压缩好之后呢,我们就可以直接从我们的这个虚拟机里头去打开虚拟机,找到你刚才解压缩的这个文件夹, 然后呢里头会有一个六十四位文件,我们直接打开它,好,然后你就打开了这个虚拟机,点击虚拟机,然后给它设置,主要是看看大海设置这个四核八 g 你 能不能带动啊?你的电脑的硬件配置比四核八 g 低,你就 把它改的小一点啊,不然太大那个开启不了。接下来就是这个选项,这里呢,我们选到高级,看看他有没有起用这个侧通道缓解的禁用啊,一定要把这个地方勾上好,这个地方勾完成之后,我们就可以直接开启我们的迅疾啊,这个地方弹出了我已移动或者我已复制,你就随便选一个,我选择我已复制。 好,这里我们就已经登录了,对吧?登录名是无邦图,登录的密码是大海增援网,无邦图 密码是大海资源网啊,好,然后这就登录了,对吧?登录了之后呢,我们要去远程连接一下,不然这样操作太麻烦了,你点击上面的虚拟机 s s h, 我 们去连接到 用户名呢,我们还是无绑图。然后呢,我们直接选择连接,然后这里呢?连接的时候他问你 yes no, 你 就 yes, 对 吧? 然后呢, password, 就是 大海资源网,对吧?盲书就可以。好,我们就进入了我对应的这个地方啊,大家进来之后呢,就是如果你要去试用一下,那没问题,如果说你试用了之后感觉不错,你准备长期用的话,大家一定要把自己这个乌帮图系统的那个密码改一下, 这个改密码的命令就是这个搜索 password, 呃,乌帮图,这是改这个乌帮图登录用户 的这个,嗯,登录密码,然后你速度 password, 就是 后头不加用户,不加误绑图,那他改的是这个 root 权限的密码,然后这两个密码都应该改一下,因为这个大海的视频暴露在公网上的,你将来要长期使用你这个密码,别人能访问到啊,这,这不太好,大家还是要去改这个密码的哦,密码现在都是大海资源网。这原程连接了之后呢,咱们就可以把这个地方关掉了,把虚拟机关掉,我们 点击叉,然后让他在后台运行,因为这里我们远程连接了吗?就可以直接去操纵他,然后呢我们去输这个 ipaddr 啊,看一下他的本机地址是多少,右键粘贴进去,回车, 然后呢找到这个 e n s 三三,然后下面有一个 int, 对 吧?然后你看这个地址和昨天不一样了,昨天是呃, 幺六零幺二八,我今天变成了幺九二幺六八二四七幺二八,对吧?你要记住这个地方是二四七幺二八,把后半段记住,一会咱们会用到。好,知道这个之后呢,我们接下来就 s s h 转发小龙虾,对吧?我们直接在这里去给他搜索 powershell 啊,找到这个 powershell, 然后我们去打开,然后呢 powershell 里头就是用这条命令,对吧?把它复制一下这个地方,我们右键粘贴进去,然后呢把最后这个改一下,对吧?这是二四七点幺二八啊, 回车,然后输入一下你改好的登录密码,我这里还是大海资源网,对吧?回车,好,然后你就转发成功了,然后我们就可以直接通过这个下面这个幺八七八九这个带这个的去登录了啊,我们直接在这个浏览器就去 黏贴,然后他就访问了,对吧?访问了之后呢,我们就用我给你的这个登录 token 密码给他 连接好,就登录了,就和大海昨天就长的一模一样了,对吧?当然现在有一个很很大的问题,是什么呢?就是现在咱们这个连接是连接上了,对话不了,因为你这个电脑上还没有欧拉玛大模型,而且即使你有欧拉玛大模型,你这个连接这个地方也不对,对吧? 啊?我说你好,他开始一只猩猩转圈圈了,对吧?很多朋友都是这个问题,所以说呢,咱们还得给大家演示一下这个欧拉玛的问题啊。 那么今天呢,大海是给大家做一个快速演示,如果你想详细的了解欧拉玛的安装和具体如何去选择配置和模型,去看大海昨天的教程,非常的详细啊,非常详细,讲了大概十五分钟,欧拉玛 好,这个地方我们直接去安装,然后呢,如果说不会的朋友,你就去参考我昨天的这个文档教程啊,就是这一篇,这一篇开开篇就是安装欧拉玛啊,好,然后呢,弹出这个,我们直接 install 欧拉玛的这个下载地址,如果说大家下载慢的话,在昨天的这个文档里, 他有对应的这个网盘分流链接,大家去我的网盘里下载,速度会快一点啊,奥拉玛的官网呢?我们这里要访问一下,一会要下载一个模型,我今天呢就选一个小一点的模型,为了给大家演示嘛,对吧?咱们看千分三点五最小的模型是多大? 千分三点五最小的模型是零点八 b, 二 b, 四 b, 咱们就来个零点八 b 的, 对吧?最小的这个只要一 g 嘛。这个模型,然后呢这个复制上, 今天是为了演示,快啊你,你实际上零点八 b 在 电脑端根本没法用,零点八 b 这种模型是给手机准备的,是给移动端准备 各种小设备。安装好了之后呢,咱们先不管他,根据咱们昨天的教程,还要给他去配置一个全局的系统变量啊,我们直接在这个 windows 里这里搜索系统变量,然后呢编辑系统环境变量,打开这个窗口,点击环境变量,然后去下面系统变量里头点击新建,然后呢把咱们这个欧拉玛 host 给它复制进去, 然后呢变量值复制,我这个幺幺四三四啊,大家都是同样的粘贴,然后呢直接点击确定就行了。这个地方我们点击确定修改了这个环境变量之后呢,我们要重启一下欧拉玛啊,把这个欧拉玛在这里去啊,去给它退出, 然后呢我们再重新把这个安装的欧莱玛去给它打开好,然后接下来呢,我们是要找到这个 windows 真机 ip, 我 们从这里呢搜索一个 cmd, 在 这个界面下呢,我们去给它输入一个 ip config, 也是在这里复制就行了, 复制,然后在这里去粘贴,回车找到这个 vm。 net 八下的 ip 为四地址啊,今天你看我变了,变成幺九二幺六八二四七点一啊, 把这个 ip 地址给它复制出来,在浏览器里头黏贴,然后呢去给他后头加个英文的冒号,加上欧拉玛的端口。幺幺四三四, 回车允许啊,这个地方呢就可以看到我们访问对应的地址,幺幺四三四,欧拉玛 is running, 对 吧?能看到这个就说明行了。然后接下来呢,我们就是去给我们的 open close 把我们的欧拉玛弄上去,这个欧拉玛还没有安装咱们对应的这个大模型,对吧?咱们刚才复制的大模型 在这里啊,咱们把这个重新复制一下,然后呢在这个里头我们右键回车,然后让欧拉玛去拉取对应的前文三点五的镜像啊,整好了咱们可以在这个窗口里试一下啊,你好 好,前文三点五啊,这次不不错,虽然是零点八 b 啊,但是他还能回答,行,然后我们把这个地方关掉就行了, 这个欧拉玛已经安装好了,然后就是看我们的教程,对吧?现在我们这都已经搞定了,然后最后就来到了最后一步了,欧拉玛的模型也准备好了,我们就来到这把这个网关和模型重新配置一下啊,这里复制 啊,在这里呢,我们去右键粘贴进去,然后去回车,然后这里呢?首先我们是 yes, 对 吧?然后呢?呃,我们来,呃,这个快速开始, 然后呢我们去升级数据,就是选择第二个,然后这个地方我们的欧拉玛我们去,呃,选到欧拉玛回车,然后呢你看这个地方,这个地址就不对,对吧?这个地址我们要用哪个呢?幺九二点,幺六八点, 呃,二四七点,幺幺幺四三四,就是用这个地址啊,把这个复制一下, 这个地方右键粘贴进去,然后给他回车,这个地方他让你选是本地还是云端家本地,大家一定要选云端家本地,因为你一选本地,他就开始给你拉取那个超大的模型啊,这个肯定是不行的, 那么想要设置这个云端家本地,你欧拉玛就得登录云端账户才可以啊,没有欧拉玛账户的同学呢,你就在这里你去注册一个啊,大家最好是用啊,比如说 altlook 邮箱,就是微软的啊,比如说这里我就用一个 altlook 邮箱啊,然后呢它会让你创建密码,然后呢它就会给你的这个 邮箱里头去发一个验证码。好,然后呢还需要一个手机号,我这个地方呢用我国内的手机号啊,咱们国内手机号前头就是加八六,好也正常收到了, 这样我就注册好了欧拉玛的账户,然后就能登录了啊,你就拿你的这个欧拉玛,把欧拉玛界面打开,然后呢你会看到这里可以找到你刚安装好的模型,我这是千万三点五零点八币啊,刚安装好的,然后呢你点击左上角这个 呃 city, 然后呢点击这个登录,然后它会跳转到你的网站账户,你直接点击 connect 连接 好,这个时候你这个奥拉玛账户你就登录上,而且呢登录这个账户有一个好处,就是云端大模型能免费用啊,只不过它每个月每一天都有限额,那么具体限额的消消耗量什么的,大家去看昨天的视频啊,我们这里就可以选择了,在这里我们选择 云端加上本地的大模型,然后这里呢我们就可以找到我们本地的模型,比如说这里可以找到我们欧拉玛三点五零点八 b, 就是 咱们刚刚安装的,我们直接回正,然后呢剩下的这些内容咱们就不需要,对吧? 全部都是稍后再设置,这个地方设置我不需要,然后呢空格不需要 网关,咱不需要的网关咱们已经登录了,这个地方我们直接退出,然后呢也是等一会再设置好这个地方我们就搞定了,对吧?搞定了之后呢,我们把这里我们重新去给他刷新一下,然后模型这里呢我们就可以选择我们刚刚安装的千问三点五零点八 b, 对 吧? 好,然后我们来尝试的和他对话,你好,这个地方你会卡住对不对?那你当你这个地方卡住的时候,你就先切换一个其他模型,先给他刷新,对吧?先给他切换一个云端模型啊,这里,比如说我给他切换一个这个, 哎,啊,来了来了,稍微等待了一下,你好,我是你的 ai 助手,然后千分三点五零点八币,对吧?没问题,这个地方呢我们就已经完成了我们的快速配置,只要大家把这些包什么的安装包下载好,那么大家也能像大海一样在十几分钟的时间内呢,把我们这个大模型配置好,直接本地用起来, 好吧,那么大家注意使用的时候呢,要注意去修改自己各个地方配置的那个密码,不管是系统登录密码还是 open clone 登录密码相关的这些具体的设置呢,大家可以返回去看我昨天的视频,好吧,那么咱们今天视频就到这里结束,我们下期视频再见,拜拜。拜拜。

本期视频呢,给大家带来 windows 环境下 open cloud 的 一个安装,那最近大龙虾比较火,很多朋友都私信我说龙虾在 windows 环境里面怎么去安装呢?那本次视频呢,就给大家带来一个详细的教程。 首先呢,呃,安装大龙虾需要前置的依赖两个环境,第一个话就是 node js, node js 呢,它是一个前端的 java script 的 运行时环境,所以说我们要安装龙虾需要安装一下它,因为 大龙虾是基于 note 去做研发的,然后 note 的 话,大家都登录对应的这个网站,然后就下载,我们是 windows 嘛,所以说需要下载 windows 安装程序, 然后安装完这个安装程序之后呢,大家就直接一步一步的进行 next, 然后最后 install 就 可以,其他的其实都不需要进行任何操作。然后除了 note 这 s 之外呢,还有一个 get 的 下载, get 下载呢,就是 get 这个地址,大家可以看视频里面对应的这个网址,然后进行一个下载,我们也是 windows 去下载 windows 就 好。 那这个 get 呢,它是一个代码管理相关的,然后把这两个依赖都安装好之后呢,我们就可以回到大龙虾这边,然后它龙虾的一个安装命令的话,其实是非常简单的,就直接执行对应的这个命令,在 我们的终端里面执行就好,然后我们是 windows, 所以 说我们就选择这个 i w r 这条命令就好了。那在安装大龙虾之前呢,我们先来到 cmd 里面,看一下我们刚才说的这种 get 怎么去判断我是否已经安装成功了,就执行 get 杠 warren 啊,看一下它的版本号是否是 ok 的, 还有就是 node node 的 版本 啊,可以看到它对应的这个信息也是 ok 的。 还有一个点就是我们为了防止在安装过程中会出现一些失败的情况,我们需要把本地的防火墙进行一个关闭, 那关闭防火墙呢?给大家说一下,就是在设置里面打开隐私和安全性,然后 windows 安全中心这个地方会有一个防火墙和安全网络保护,然后这里面有三个,我们可以挨个点进去,把它对应的给关掉,然后专用网络给关掉, 还有公用网络也给它关掉,关掉之后这三个都关掉了,那么对应的防火墙就关好。我们配置完这个环境之后,就可以去执行它提供的这条命令,直接一个复制,然后执行 ok, 到这里呢它前置的一些安装就已经结束了,那安装完了之后呢,我们还需要进行 opencloud 的 配置,它直接让我们进入了配置界面,所以说这个地方我们就直接进行配置就好了。 那第一个内容呢,它是说 openclaw 是 一个非常强大的,然后进入也相对比较强的,就是需要我们给很大的权限的一个软件,那是不是我们需要去同意,那没同意的话肯定也是装不了,所以说直接就 yes ok 了。 然后第二个的话就是是否要快速启动,或者是底下的这个主功能配置,我们直接点快速启动就行。 接下来这个是需要去配置模型和对应的一些验证,那模型服务的厂商的话,它支持比如说 openai, 还有国内的什么 mini mix, 还有这种 kimi 以及千问。那这个地方我们使用的是阿里的千问,因为我之前有阿里千问的一个 co apply, 所以 说这个地方我们需要选千问。在选千问之前呢,因为它是一个 os 这种验证方式,它不是那种我们把对应的 api k 输入进去就 ok 了。 那 oos 呢?它是直接会在浏览器里面去打开验证的链接,然后你进行一个同意。打开之前呢,需要你在浏览器里面已经登录过千问对应的网站了,然后它才可以跳转过去,不然的话它这个地方会有失败的情况,所以说在执行之前一定是要在浏览器里面 登录过千问对应的这个网站。还有一个点就是我们前面不是把防火墙给关掉了,如果不关防火墙的话,这个地方去跳转的时候, oos 可能会验证失败,所以说大家一定要执行一下防火墙的扳币。那我这个地方呢,我们就直接去选择一下千问的一个 oos, 好的,那这个地方呢?它就跳转出来了千问的一个 os 验证的链接,那我这个地方呢,只需要点击一下确认,确认完了之后就可以回到我们对应的 这个地方,就可以看到它这个地方已经 os 验证成功了,就可以让我们去选择模型,那选择模型呢? 我们这个地方就保持默认现状就好,直接回车,回车完了之后,这一步让我们选择一个渠道,这个渠道这个 chanel 呢,它其实是 之后我们可以比如说通过飞书啊,或者是说 telegram 这种软件去进行一个对话,和机器人,也就是和我们龙虾进行对话,如果这个地方你已经准备好了飞书或者是 telegram, 也可以在这个地方直接配置,那我们这个地方呢,先去跳过,后面的话我们会有专门一节去告诉大家怎么去 连接飞书,连接这种 telegram, 所以 说我们直接 skip for now, 然后提示的这些东西呢,直接就是允许就好。还有这个地方就是选择对应的一个提供,这里我们直接就是 skip for, 然后他问我们现在是不是要去配置 skill, 那 skill 呢?是龙虾作为现在那么强大的一个工具,它的一个精华所在,但是我们可以进来看一下, 这个 skill 里面其实就是龙虾它自己支持的一些 skill, 那 如果大家有需要的可以去直接安装,那我们这个地方呢,因为后续也是会给大家去 出对应 skill 安装的一些视频,所以说这个地方我们先去跳过,然后后面如果有一些我们需要的 skill, 到时候再去安装就可以,所以说先去跳过啊,这个地方呢先去使用空格选中,然后跳过。 接下来就是要配置一些什么额外的一些 k, 那 如果我们不需要配置的话,就直接选择 no 就 好,包括什么 no, banana 这种我们都不需要,还有什么 no 顺,这个也不需要, open i 的 k 我 们也不需要,所以说就直接 no 就 ok 了,然后 no, 然后这里呢选择一个 hook, 就是 一个钩子,这个地方我们也不需要,所以说直接跳过,选中,然后回车, 然后这个地方它是要去安装对应的一个 gateway 网关,它会跳出一个新的窗口,那这个窗口的话我们不需要关闭,因为之后我们去与龙虾进行 web 页面的对话的话,我们需要对应的这个 gateway 进行一个启动, 然后我们就回到之前的这个窗口,然后他会问我们现在我们要去与货币进行交互,是用命令行的方式还是启动一个 web ui? 那 我们更清晰的肯定是使用一个 web ui, 所以 说选择这个 web ui 可以 看到这个地方,我们就打开了对应的 open cloud 聊天机器人的一个网页端,现在可以看到他右上角就是健康状况是正常的。然后我问他,你好 好的,可以看到他的回复说,你好,我刚上线,然后我是谁?你是谁?他需要让我们给他起名,给我自己起名。比如说龙虾作为那么强大的一个工具,他其实是有一些记忆的文件的,那所以呢我们把龙虾装完之后, 需要经常的和他去做一些对话,也就说我们传统意义上养龙虾,那也就是这个龙虾你给他的知识越多,他越能帮你去提供更有价值的一个服务。 那到现在呢,我们对应的这个龙虾就已经装完了,接下来你就可以跟他去进行对话了。除了这个之外呢,我这个地方还给大家准备了一些其他东西,就是有一个文章,这个文章里面呢除了刚才我们提到的就是怎么去安装对应的龙虾,还有就是安装过程中可能会出现一些失败,比如说千问欧奥斯那个地方验证他会失败, 就是我们在安装的时候,这个命令窗口直接一闪而过了,那如果我们抓不到错误的话,可以执行一下这个命令,就是在安装过程中如果有问题的话,它会把错误日期输出到这个文件里面,可以把这个内容拷贝给一些,比如说 dvc 这种模型,让它去帮忙去查看是什么原因。 还有就是 opencloud 它支持一个 doctor, 就是 它可以进行一个诊断,然后诊断完之后修复后可以执行这个 opencloud config 进行一些内容的配置。那这个命令呢?也是我们后面可能去切换模型啊,或者是说切换对应的 channel 都会使用到的一个命令。 那除了安装之外呢,还会就有对应的一个卸载。呃,这个卸载主要的作用主要还是说我们在安装过程中可能有一些失败,那我们如果想把它卸载干净的话,可以去参考我上面写的这些命令,这样的话就可以把它卸载干净,然后你再重新进行安装。

cloud 泄露第三天,保姆级本地部署教程他来了,成功的接入了本地大模型。我让他开发了一款游戏,他还自动打开运行,并测试能不能成功。耐心看到最后先收藏再观看。整个部署分为四步,新手友好。 第一步,安装我们的 b u n, 点击麦克右上角的聚焦环搜索,输入 terminal 或者是终端回车。打开终端,复制我们的安装指令,粘贴回车, 等待安装完成。新开一个终端,输入二杠运行,最终显示版本号代表第一步成功。第二步,解压我们 打开安装目录,找到我们的隐藏的配置文件点 emv mac 可能有时候看不见,我们需要用 command 加 shift 加点来显示隐藏文件,按照我们的参数来配置接口地址和 t, 还有大文件的名称,修改完成,保存,关闭配置。 第三步,启动程序。首先终端切换到安装目录,依次复制以下两个命令进行执行。第一条命令赋予我们程序实行权限,复制,粘贴运行。第二条,复制粘贴回车。如果看到这个界面,说明我们的程序已经部署成功。先询问他使用了什么样的段位型返回内容和我们的配置一致,部署 成功。接下来测试实战效果,让他做一款俄罗斯方块的游戏,看他用多久时间,是否能够一次性成功。他自动唤起了浏览器,打开运行程序,我们来玩一下,我这里加速玩一下。 我发现最后他在游戏结束时没有做弹窗提醒,那我们让他修复一下。好,这里他花了两分钟修复这个 bug。 如果帮助到大家,点赞收藏,我是张成敏,关注我多一个程序员男朋友。

很多朋友呢在下载完龙虾之后,非常关心的一个问题,我是不是可以用一些免费的模型,然后去让龙虾进行使用,那这样的话我就可以不花钱了。之前我也给大家介绍了一些免费的厂商,提供了一些免费模型,但是那些免费模型呢,他是会限定一些额度的, 那就会有很多朋友问说,我本地部署模型是不是 ok 的? 那怎么让龙虾去连接本地的部署的模型呢?那这期视频呢,我们就来看一看怎么实现。首先呢在本地模型部署有一个非常牛的软件,就叫这个欧拉玛, 这个软件呢我们可以下载之后,它可以去帮我们去下载对应的一些我们想部署的模型,并且呢在它软件里面可以进行一个启动, 这样的话就不需要我们自己去找对应的模型资源,然后进行一个模型文件下载,然后再去启动对应的模型,所以说这个软件呢非常的方便。那这个欧娜玛的一个安装呢,我们这个地方直接就是给大家提供了下载链接, 就进入到欧娜玛点 com 这个地方,然后点击对应系统的一个下载方式,比如说你是 windows 就 直接点,然后下载完了之后直接安装就可以了。那安装完了之后它是一个什么效果呢?主要是有两个地方,首先呢 安装完之后它有一个文件夹,文件夹里面呢它会有一个 app 的 入口,可以把对应的 app 打开,打开之后呢我们就可以在这个地方跟它进行一个对话,可以看一下它所支持的一些模型,比如说 gpt, 然后 deep sync, 千问的,然后 mini max, 还有一些什么拉玛,然后本期我们就以千问的这个模型给大家进行一个讲解,看对应的龙虾怎么去连接。那我这个地方呢,已经把千问和拉玛的这个模型已经下载下来了, 所以说可以看到如果没有下载的话,他这个地方会有一个下载按钮,然后如果已经下载好的这个地方是没有下载按钮的,大家到时候可以下载一下,一会也给大家说一下怎么去进行一个下载。然后我这个地方就可以跟他在这种格式化的页面进行一个对话,问他你是谁, 那可以看到它现在因为它是一个 think 模型,就是它会思考,然后思考完了之后它会进一个回话,可以看到它的一个速度,在本地的一个部署模型速度还是比较快,当然了这个也是看你本地机器的一个性能,那我当前的这个机器呢,是一个五零八零的显卡,所以说它的一个效率还是比较高的。 然后除了这种方式之外呢,我们还有就是控制台的这种方式,就在这个地方我在文档里面给大家写好了, 就是我们可以在 power shell 里面去执行欧拉玛瑙,千问八 b 就 这个模型, 八 b 这个模型如果我们执行了之后,你本地如果没有去下载对应的这个模型,他会先去当 load 的 把对应这个模型给你下载下来,如果已经下载完了之后,他会直接去启动对应这个模型,那你在这个地方也是可以跟他对话的,你问他是谁, 然后进行一个 syncing, syncing 完之后输出对应一个结果,可以看到还是比较丝滑的,那本地模型呢?已经部署成功了,接下来我们就是要让我们的龙虾接入到这个本地模型。接入本地模型呢,其实也比较简单,那这个地方呢,我给大家介绍的是通过修改 opencloud 的 配置文件, 它里面有一个 open cloud, 点 json, 去把里面对应的一个内容进行一个修改,然后我们先按照上面这个步骤去打开 open cloud, 它对应了一个文件位置,我们就可以先去这个地方,然后 按照我命令执行就行了。先 cd 到点 opencloud, 然后进来之后呢执行这个 start 点,打开对应的一个文件夹,打开之后这个地方会有一个 opencloud 的 json 文件,然后编辑给它,在记事本里面编辑就 ok 了。 那我们可以看到之前呢我们这个地方,因为我是豆包的模型,所以说这个地方会有一个豆包模型的配置,那还有一个 agent, 就是 这个与我们对话的这个 agent, 它对应的模型使用的是什么?可以看到这个地方使用的是豆包, 那我们想去使用本地的欧拉玛模型,其实只需要修改三个地方就可以。首先第一个地方就是我们需要在猫豆子这个里面把我这一段给它拷贝进去, 找一下猫豆,然后与豆包进行一个平行位置, 然后把它删掉,加一个逗号,一定是一个英文逗号,然后加完之后我简单说一下它对应的一个内容,首先它是请求的 url 是 什么?就是本地的 logohost, 然后端口,然后 v e 接口 这个 appk 的 话,实际上它是因为本地模型是不需要这个 appk 验证的,所以说你这个地方随便写就 ok 了,跟我这个一样就可以。然后这个地方模型的话你就是用自己的,我们刚才不是下载的是千万八 币吗?所以说这个地方就是千万三八币。然后配置完这个之后,我们还需要去修改 agent 的 它所使用的模型。首先我们需要在底下去把欧拉玛对应的这个模型添加到它可用的模型列表, 在这个地方添加进去。 ok, 添加完了之后我们还需要替换一下,就是这个地方把这个 primary 给替换成我们下面的这个好的保存完了之后呢,我们这个地方的配置就结束了,就直接可以回到命令行执行一下, 我们把这个地方给关掉,关掉之后执行 open cloud get away。 这个因为我们是命令行之前启动的,所以说我们直接关掉之后呢,就相当于对应的龙虾已经结束了,那我直接执行它重启就好了。但是如果大家是 没有在这个地方直接关闭,它是后台执行的,那大家是需要执行 open cloud get away restart。 大家一定要记住这个点,我们直接启动 可以看到这个地方他有 agent, model 是 欧拉玛的千问三八 b, 那 说明我们这个地方配的还是没有问题的。我们来到龙虾这个地方给他对话一下, 那这个呢?是我之前问他的这个模型使用的是什么,那现在呢?我在问他说你现在的模型是什么?你当前使用的模型是什么? 那可以看到它现在已经告诉我说使用的模型是千问,然后它是通用实验室自主研发的超大规模语言模型, 所以说我们现在就已经切换成功了,这样呢,大家就可以拿龙虾去玩本地的模型了,也就不需要花你一分钱了。但是这个地方大家要注意,一定你的机器性能相对来说会好一点,那这个模型的速度运转会更快一点。然后如果你机器性能非常好的话,因为我这个地方配置的是八 b 的 模型, 八 b 呢代表是它的一个参数量,那三十 b 呢?像这种大参数量的,它的一个效果一定是要比我八 b 的 这个模型的效果会好一点。如果你的机器性能非常卓越的话,那你去下载三十 b 的 这个模型, 当然它需要很大的这种资源,所以说当它运转的时候,它对应的这个思考或者它的一个能力也是要比我八 b 的 强的。所以说这个地方看大家一个机器情况。

阿里的千问一口气发布了一系列 callen 三五小模型,有零点八 b, 二 b, 四 b, 九 b 啊二十七 b, 今天就让大家一分钟在 windows 上用上这个本地小模型。 首先去 l m 服务 studio 官网下载这个模型,加载软件,点击下载你就去装,下载完成后安装那个 l m studio, 然后等安装好启动后,来到软件主界面,点击左侧有个小放大镜的图标,就可以搜索这个模型了, 输入很快就看到结果,那今天我们就用库莱三五到四 b 作为例子,点击下载,然后下载好之后就可以点击左侧第一个按钮,然后点击上面加号,然后加载刚下好的模型。然后呢,这里我们可以设置模型的参数, 我们来测试一下这个模型的基本常识, 对比下其他的模型的基本常识,但这个回答效果还是很不错的。

抖音的各位朋友们啊,你们有在本地服务器上运行过这个呃,大模型吗?现在运行的是这个大模型了,是 b 这个模型啊,才是亮的一个模型。 然后,呃,用的显卡的话是三零八零钛的一个显存呢, 我们看一下这个资源的一个占用,呃,我们是通过这个 v l m 这个后盾推理框架来进行运行起来的,用,我们看到现在占用的一个显存的话已经达到了九点四幺九 gb, 总共的话是十二级名,你看现在又增长了, ok, 现在截退出嘞,这进程直接报错嘞。 呃,大家有运行过嗯这个大模型吗?这个为什么报错了呀? 应该是显存不够,看一下他应该显存不够,来啊 啊,它这里是显存不够了, all of memory 显存不够了。哎呀,这个士币的参数量的模型都这么占用显存的吗?还是我设置的参数不对呀? 这是我参数的话是用他,呃,我改了,改成最小的那个了,我根据他,呃,官网的那文档这里把这里改小了,改成一二八零零零零。啊,之前那是更大的, 为什么还爆错,难道这个显显卡啊,不支持,这太小了,一个现存还得换更大的一个显卡支持吗? ok。

今天来做一个二零二六年至今的 ar 大 模型本地部署全科普,跟大家讲明白到底什么人要做本地部署,什么行业适配本地部署,什么硬件匹配,什么样的本地部署需求,这些在这一期都有答案。 在这一期,社长会按照模型分类、硬件门槛、设备适配、部署目的,理性选型这个顺序,一步一步化解大家的本地部署焦虑,也平息一下评论区无穷无尽的争论。每次看到这个评论区,我脑子里面就是这段画面,七个中队,七个中队 好像手里有七个中队就可以暴打天下了。为什么会造成这种情况呢?社长大概是知道原因的,因为多数人会把大模型和 deepsea、 千问划等号。其实现在的主流大模型按功能已经分化出了五个大类。第一类也是本地部署中最常见的类型,叫上下文推理模型, 它的核心作用是处理文本相关的任务,从日常对话、文档总结到代码编辑、法律、医疗检测、销售、文本解析都靠它。特点是侧重逻辑推理,对视觉音频处理能力弱,也是硬件门槛跨度最大的一类。 正因为他的硬件门槛跨度大,所以他也成为了评论区炒翻天的元凶。关于硬件门槛的问题,社长等一下会展开来说。这里先介绍模型分类,上下文推理模型,国内的有这些,我罗列在了左边,国外的有这些,我罗列在了右边,需要详细了解的可以暂停观看。 第二类是纹身图,纹身视频模型,这类模型侧重视觉内容生成,纹身图门槛相对较低,纹身视频门槛较高,对算力显存要求更苛刻。目前国内主流的模型如下,第三类是声音合成配音模型, have you forgotten who promoted you to this position and who did everything? 这类模型侧重音频生成,分为通用配音和专业配音两种,门槛跨度比较大,轻量版可以个人部署,专业版需要企业级硬件。 第四类是多胞态融合模型,这类模型是全能型悬设,可以处理多种任务类型,但硬件门槛普遍比较高,大多适合企业部署, 后续如果推出轻量版的话,也可以个人尝试一下。第五类是行业垂直模型,这类模型是二零二六年本地部署的热点, 针对性极强,仅适配于特定行业,大多需要付费授权,部分开源模型可以自定义微调。当然,这类模型针对的也不是普通人或普通企业,就不展开说了。接下来就讲讲大家比较关心的硬件门槛问题。 为什么有的模型能用洋垃圾搞定,比如好几年前的特斯拉 v, 一 百显卡,旧的 cpu 什么的,有的却必须上顶级配置。 市长从技术底层拆解一下,结合二零二六年模型的特性,讲一讲核心逻辑,再补充一些特殊硬件门槛模型。先明确一个核心前提,大模型本地部署的硬件门槛取决于模型参数、规模、计算精度和任务类型三个方面。这个很好理解,参数越多,显存或内存的需求就越大, 量化精度越低,硬件要求就越低。任务类型的现在一般分为生成类和推理类,生成类比推理类更耗算力。如果你只是上下文推理,而且对于上下文的长度要求不高,这就给了洋垃圾生存的空间。 以特斯拉 v 一 百十六 g 显卡为例,它的 f p 十六算力只有一百二十五 taylor flops, 放在二零二六年性能远不如 rtx 四零九零五零九零 a 一 百这些显卡。但首先,常文本推理的核心是上下文窗口的 talking 处理,侧重显存占用控制,而不是瞬时算力爆发, 计算过程是逐个 talking 推理,所以单次计算量不大。其次,二零二六年的长文本推理模型,无论是采用 m o e 架构优化,还是基于琳尼尔架构做优化,都大幅降低了对显卡算力和显存的需求。因此,基于这两点的 v 一 百显卡才能顺利上港。 那纹身视频模型为什么不能用特斯拉 v 一 百这类显卡?纹身视频是目前本地部署门槛相对高的模型类型,哪怕是轻量版生成十秒视频, 也几乎无法用 v 一 百流畅运行。这主要是两个方面的原因,一是纹身视频需要逐帧生成,加帧间连贯性优化, 单次计算量是纹身图的几十倍甚至上百倍,这种瞬时的算力爆发,不是 v 一 百这类显卡能够撑得住的。二是二零二六年主流纹身视频模型都要依赖 tensor core 核心,用于光线追踪、帧间融合, 而 v 一 百类显卡的 tensor core 核心性能薄弱,无法适配模型的核心优化,即使强行部署,生成的视频也会出现帧断裂、模糊、色彩失帧这些情况,失去实用价值。 除了上面提到的显卡硬件门槛,还有一些特殊硬件门槛模型,比如专业声音合成配音模型,这种模型的核心门槛除了看显卡之外,对 cpu 和内存的要求也比较高。再比如多模态融合模型,需要大显存的多卡系统加大容量内存。 其他还有些特殊门槛的行业垂直模型,和我们普通人相隔较远,就不一一列举了。那哪些模型能用个人电脑或者洋垃圾搞定呢? 哪些必须上好的配置呢?接下来社长就按使用场景加硬件成本谈一下设备适配的问题,再来给大家明确一下个人、中小企业、大型企业分别适合哪些模型,避免大家盲目跟风配硬件。 首先是个人电脑或者洋垃圾可以搞定的模型类型,依次是上下文推理模型、纹身图模型、声音合成配音模型,这几类模型用个人电脑就能轻松搞定, cpu 最低 i 七八七零零 k e 三二六六六 v 三,显卡最低特斯拉为一百十六 g r t x 三零六零十二 g, 内存三十二 g ddr 四硬盘最低五百一十二 g, 固态总投入甚至低于五千块钱,可谓是花小钱办大事的典范了。 然后是必须上好配置的模型,依次是纹身视频模型、多模态融合模型、行业垂直模型、专业声音合成配音模型,适合企业、专业工作室重度需求者的需求。企业是追求时间、效率和稳定性的, 谁也不愿意看到工作交给 ai 后, ai 也干不完,还老出问题,那就太耽误事了。比如社长最近对接的一个项目, 要求一天要转一千小时的语音,转文字最好控制在八小时以内完成,这样这台机器白天可以用来跑十人并发的大模型,晚上用来语音转文字, 这就相当于基本上让他二十四小时不停歇的干活了。这种配置那必须要上好的,如果他撂挑子不干了,工作就落下了,损失的可就不只是工作量那么简单了。企业级配置基本上都是三万起, 而且最近因为内存硬盘、显卡涨价,随便配一下都要四万加了。所以无论是企业或者个人,如果不是有明确的部署目的, 不要轻易来找社长配机器,因为这里面不只是硬件的投入,还有后续软件开发部署的成本、操作机器的学习成本,这些都是必不可少的支出。至于机器硬件配置,社长就不展开了,前面的视频也都有讲解,有兴趣的可以翻一下前面的作品。 下面就来说一说评论区说的最多的争论其实没有绝对的好坏,核心是模型适配,不同设备有自己的适配场景,也有明确的局限性。 a m x 三九五、苹果 mac mini 与英伟达 d g x 基本上可以归类为个人轻量企业级 ai 整机方案,它们都支持上下文推理与轻量纹身图,但纹身视频能力差异显著。 ai max 三九五和 mac mini 仅能跑低分辨率,轻量纹身视频对于重度高覆盖场景效率不足, d g x 则可以流畅运行全类型纹身视频适配。专业创作与企业高覆盖需求。三者核心差异在于 tensor core 的 支持算力规模与内存扩展能力, 需按需选型,毕竟对于一个靠 ai 短视频获得收益的创作者来说,一天发一条视频和一周发一条视频还是有很大区别的。 标准塔式主机确实看起来很笨重,它的核心优势是可升级,支持多卡兼容,性能强劲, 搭配不同的硬件就可以适配市面上所有模型的显存和算力,需求,能力比较全面。随着模型需求的增加,还可以通过升级 cpu、 内存、显存、硬盘来进行适配。当然,它也有它的缺点,体积大、功耗高、成本高。对于个人来说,性能过剩了, 所以没有最优的设备,只有最适配的设备,争论谁更好没有意义。核心看你要部署什么模型,满足什么需求。 最后,社长要说的是理性选型的问题。对于个人,如果你对于大模型没有明确的使用需求,可以先从个人电脑洋垃圾开始进行低成本尝试,慢慢发现硬件配置跟不上了,再向更好的硬件迈进。 对于企业,同样也要有明确的需求,比如采用云端的方案,要支付高额的 talkin 费用,那你就可以选择本地部署,通过一次性的硬件投入来降低成本。 比如你是敏感行业,很看重数据安全,本地部署就是你的合适选择。比如你的企业在生产环节或是业务环节需要大模型来代替人力工作,同样可以选择本地部署。如果你只是要写写文档、计划书啥的, 也不涉及到啥秘密,在线的就挺好的,完全不需要折腾本地部署大模型了。如果你还没有明确需求,单纯好奇,那更没有必要本地部署,即使配了机器,大概率也是在配完之后用过几次就闲置了。 希望大家理性选型,按需部署,不盲目跟风,不刻意贬低别人,根据自己的需求预算选择最适合自己的方案才是大模型本地部署的核心意义。毕竟技术的价值从来不是追求高端,而是解决问题。 另外有很多人真的是单纯好奇,私信我,我还要花很长时间科普,有时候一下子半天就过去了。还有很多人自己都没想好需求是什么,就跑过来说要做大模型本地部署,这也基本上问着问着就没啥下文了。社长毕竟也有工作要做,所以想要咨询的朋友们先明确自己的需求,避免浪费彼此的时间哦。

上节课我们在本地部署了千万三点五 ai 大 模型,这节课我们继续部署 open core, 并让 open core 对 接上本地 ai 大 模型,彻底告别头肯焦虑,让大家零成本养龙虾。现在看 open core 官网,里面有很多种安装方式, 我们这里啊,使用 n p m 方式,一键安装,运行之前需要先有 node js 环境才能使用 n p m 命令。 node js 安装好后,打开终端运行 n p m i 杠 g 二分 q, 安装完成,运行命令,开始配置,复制过来粘贴。 先问我们啊,是否继续,当然要继续了,用键盘左右方向键选择 yes, 接着选啊,快速开始。这里问要对接什么模型, 这些选项啊,大部分都是对接云端 ai 模型的,因为我们要对接本地 ai 模型,所以要选择自定义。接着问模型的 api 地址,这个地址啊,在 o m x 的 仪表盘里,大家看这里, 复制一下,将这个删掉粘贴我们这里啊,要填的是幺二七点零点零点一,冒号八千斜杠 v 一。 继续啊问模型的 api k, api k 在 管理面板的设置权限设置里, 默认的 key 是 默认一二三一二三,我们不做修改,就填这个,先按回车粘贴过来,兼容性选择 open ai。 接着问模型 id, 模型 id 啊,在管理面板的模型管理器里面,将名字直接复制了,粘贴过来,确定 end point id, 保持默认就行,这个是模型的别名,可以不填,直接下一步。接着问啊,要对接什么聊天工具列表里啊,默认只有飞书。我这里出现的 open code 微信是我后面装的,大家初次安装并没有这个关于微信的对接,我们下节课再来讲, 这里直接选跳过接着问搜索服务现在没有,也先跳过,继续出来。技能的选择,直接按回车。 出来的技能选择,这里推荐只选 clonehub, 按空格,选中按回车键安装,其他的先不要选,可以避免网络有问题一直卡住。其他的有需要啊,后面可以再来安装。我这里列表中没有看到 clonehub, 是 因为我之前已经安装过了,所以看不到,我就直接选跳过。 后面的几个 api 啊,也都是收费的啊,暂时都没有,全都选 no no no no 还是 no 霍克时啊,也选跳过先按空格再回车。到了最后一步了,问我们运行方式,推荐的是在终端中运行,选择后,现在就可以和他直接发消息了。好,我们发个消息, 它会直接在动态中进行回复,当然也可以使用 word 界面进行访问,大家打开幺二七点零点零点一冒号幺八七八九,在这里也可以一样聊天,还可以做各种设置。总结下,安装 open core 需要 load 机制环境,在装好 load 机制后,使用 n p m 命令,可以一键安装 open core, 安装好后,运行命令开始配置文字版,内容请看课程讲英文档, iphone 可乐,现在出来聊天还可以操控你的电脑了,在下节课的对接微信里,我继续演示给你看。

云端 ai 托盘太贵,这节课教你本地部署 ai 大 模型,零成本使用纤维三点五,彻底告别托盘焦虑。我们这里会使用 o m l x 来运行大模型, 点击这里,请直接到下载页找到最新正式版本,未来稳定期间请不要找标注 dv 的 版本,找到后点击 s s, 根据操作系统版本下载。安装方法非常简单,直接拖拽过来即可。安装完成后直接运行,初次打开会弹出提示页面端口和其他的保持默认,点击启动服务, 提示成功后再点击。打开管理面板,在顶部的菜单中也可以实现这些操作。管理面板打开后接着安装模型,在顶部菜单,点击模型下载器页面,打开后用最快的速度点击摩塔社区,这是因为打开这个页面后会自动联网查找模型,但是由于网络不通问题,可能会导致页面卡死, 我们快速切换到摩塔社区,让它来不及联网就不会卡住了。点击模型下载器旁边的设置按钮,修改镜像地址为 h f mirror 点 com, 点击保存按钮,现在可以切换回来了,在搜索框里搜索千问三点五九 b mx 杠 speed 这个模型,这个模型的性能对一些常规需求已经非常足够了,运行起来大概占用六 g 左右内存,最低配置十六 g 内存的 bug, mini m 四都可以流畅运行。找到后点击下载按钮,因为我这里已经装过了,就不重复下载了,等待下载完成后会自动安装。再设置 模型,设置里可以看到已安装的模型,点击最右边的设置按钮图标,这里推荐设置聊天模板参数,点击添加设置 enable sync 值为 force, 不 然每次聊天呢,它都会思考很久。其他设置大家根据自己的电脑配置来调整,完成后点击保存,点击就绪按钮 会变成已加载状态,模型已经运行起来了,点击导航栏的聊天按钮,确认下顶部选择了正确的模型。现在啊,可以直接发消息给他, ai 会马上进行回复。 回到仪表盘里可以看到 tok 统计信息。总结下,在 mark m 系列芯片上,可以使用 o m x 来运行本地 ai 大 模型,彻底告别 tok 焦虑。低配置的 mac 电脑推荐使用纤维三点五杠九 b, 这个模型只占据六 g 左右内存, 而且性能足够使用,完全可以用来驱动 open core 文字版内容请看课程讲英文档。下节课我们继续学习 open core 的 安装,并对接上这节课所部署的本地 ai 大 模型。

随着小龙虾这样的新一代的智能企业落地啊,然后越来越多人呢,开始思考,说自己在本地去生产 token, 然后这个老哥啊, 他自己设计了一套简单但是全面的测试框架,想弄清楚呢,哪个本地模型最适合去跑 agent, 他 呢,测了千万三点五全系列的模型,结果二十七 b 的 大模型竟然打赢了三百九十七 b 的 大模型,我们具体来看一下,可能呢,对你本地去跑大模型有一些参考作用, 我们看啊,它呢设计了十五个场景,然后用了十二个工具,然后呢把温度设置为零,这样做的好处啊,就是每次可以让实验结果稳定可复现,专门去测试本地模型的这个工具调用能力。 切吻三点五全系列模型啊,其实是分成两种架构的,一种呢就是二十七 b 的 dance 模型,中文呢叫做稠密模型。什么叫稠密模型呢?就是所有的参数啊,每一次都会全部参与计算,但是其他的像比如说更大的三十五 b 啊,三百九十七 b 呢,都是 m o e 模型, 叫做混合专家模型。参数呢,其实你数字上看起来好像大很多,但其实啊,每次只激活其中的一部分,我们来看一下结果,结果呢,就是十五个测试全部跑下来啊, 完全通过的就只有这个二十七币的模型,就是相对来说参数比较小的稠密模型。来看一下他的几个大哥,三百九十七币的这个模型呢,挂了两个任务。一百二十二币的这个模型呢,挂了一个任务, m o e 模型呢,几乎全军覆没。然后你去看这些参数更小的模型啊,那就更惨了, 有时候就直接紫循环超时。这个作者特别是看了一下,让所有 m o e 模型全军覆没的是这样一道题,就是搜索冰岛的人口,并计算其中百分之二是多少。这三个参数比较大的 m o e 模型啊,就完全无视工具返回的数据,调用了自己记忆里面的这些大概的数字,相当于调用了工具,但是呢,又不相信工具, 我觉得这个还蛮离谱的。接着呢,我们要来这个理解一下,为什么二十七币的模型能够战胜三百九十七币的模型。 m o e 模型,三百九十七币,听着吓人啊,相当于这个三千九百七十亿的参数。但其实呢,每次激活参数只有十七币, 就相当于每次实际干活的只有中间的十七 b 的 这样的参数,这关键时刻我需要的专家,他没有被激活,所以就会出错了。但是这个 dance 模型啊,几乎就是每次全员出动,二十七 b 的 参数呢,看起来数量上虽然小一点,但生成一个 tock, 实际参与计算的参数啊,反而会更多。作者在文章里面是这样总结 的,他说呢,小模型呢,会去编数据,大模型呢,会去无视数据,只有二十七 b 的, 这这个模型啊,他会实实在在的把数据传下去,最终显示给用户。 我们知道这个 agent 智能体啊,去调用工具,最重要的无非就是三件事情,一个呢就是指令认得准,第二个呢就是上下文跟得住。第三个呢,就是数据传的对稠密模型相比较, m o e 模型啊,层数更深,然后注意力机制呢,占比更大,追踪上下文的能力天然也更强。比如说像 zorope 的 cloud, 就是 公认的 agent 智能体领域最强的模型。之前我看到有篇技术文章提到过啊,就是现在主流的前沿呢,早就转到了这 m o e 架构了。 开源这边呢, dance 二十七 b 的 模型打赢了所有 m o e 的 这些大哥。 b 源那边呢, agent 最强的也是这个 dance 模型。所以啊,我觉得这大概率不是一个巧合。最后跟大家总结一下, m o e 呢,当然更快,然后也更省算力, 日常我们去跑呢,也够用了。但是如果运行 agent 执行相对复杂的这个任务啊, dance 的 这个稠密模型有结构性的优势。好了,今天视频就到这里了,我是 dj 小 宇超,我们下次见。

家人们谁懂啊,本地 q w n 三点五九币接 opencall 终于搞定了,折腾一整晚把 to call 的 bug 全铲平,这模型直接原地起飞,本来想拿九币跑 agent, 结果他死活不调工具, 每次空输出零个 tokens, 十四秒光速完工,啥活都没干,给我整麻了。一开始还以为是模型能力不行,排查完才发现是三个坑叠一起搞事情。第一个坑 presence 默认一点五,这玩意专发重复制服, 可工具调用的 jason 全是大括号冒号引号,模型直接被架住,根本拼不出格式,改成零立马解套。第二个坑 temperature 直接拉满到一, 随机性大到模型自己都懵,压根拿不定主意,调不调工具老跑偏,直接回答改成零点七 确定性拉玛。第三个坑最隐蔽是 dream 模式下凸驱 cos 被吞了我拉玛的流势 a p i 把工具调用放未完成的数据包里,我的代理只认完成包,还把没内容的 chang 直接跳过,结果 openclock 全程收空消息,修完这仨 bug 就 直接开挂收束,工具随便调,记忆保存,溜溜的 open call 的 框任务跑起来贼顺,接 a p i 写数据 库全没毛病,我把路全探好了,你们只要有显存超二十 gb 的 显卡,本地部署 q w 三点五九 b 接 open call, 保证跑得又稳又快,直接冲就完事了。

你好,我是田工,现在这个电脑里面跑了一个三点五四 b 的 一个模型,还有弄了一个虚拟机,跑的是 openclock, 现在在执行任务听到这个风扇的声音, 平时的时候听不到这个风扇的声音,现在执行任务的时候它这个声音就非常的大, 现在内存我看有时候能够占到百分之九十六到九十八,这是三十二 g 的 内存,四 b 的 模型它就跑满了,现在安装的是最新的二零二六点三点二三杠二的这个版本, 发现在这个环境下面对接本地的这个四 b 的 模型,完成原先相同的操作的时候,一些简单的他是能够完成的,不像原先很容易就报这个 time out 就 卡住了就不动了, 现在才能够正常工作并且能够完成。感觉这个版本应该比以前的版本优化了不少。这个没有独立的显卡,使用的是集成的显卡, 如果你现在使用的是这个集成的显卡,可以运行这个环境试一下。

家人们四千零六十八计本地部署大模型,真的太折磨了,之前装 q w n 三点五减九 b 聊两句就忘事,上下文窗口小到离谱。 jordan nvidia 减 nimotron 负三减 neonu 负四 b 跑起来了却又特别笨,答非所问还逻辑稀碎。今天不跟八 g 显存死磕,不聊复杂量化,直接教大家薅老黄羊毛白嫖 nvidia name, 用上全球调用榜第二的 step 负三五减 flash, 一 步解决本地模型不聪明、上下文不够的两大痛点。 为啥四千零六十八 g 跑不出好模型?这卡本就是游戏填平卡,跑七 b 八 b 小 模型勉强能用,想跑 deepseek 捡 vi g l m 四 五这类稍大的就得四比特甚至二比特,量化堪比把 v 八发动机改成三缸机,动力和稳定性全拉垮。超两千字上下文就胡言乱语,显存不够就 是原罪。而 nvidia 逆米就是英伟达的免费福利,把顶级开源模型部署在自家操算中心,免费开放 a p i 有 网就能用,不用高端显卡。重点是 step 负三点五减 flash 阶月星辰出品, 首次延迟不到一秒,响应超快,智商在线,还有二五六 k 超大上下文搭配 openclock, 简直绝配!接下来三分钟保姆级教程跟着做,直接升级!一、 注册 nvidia 账户,打开 build nvidia com, 登录注册邮箱随意,关键用加八十六手机号验证,一、手机号绑一账户。二、领 a p i t 登录后点头像选 a p i keys, 创建并命名,有效期最长一年,创建后立刻复制保存,只显示一次。三、 配置 opencl 模型设置里 a p i 地址填 h t t p s integrate a p i nvidia m a a p a p 填复制的字体模型名称填 stepphone 减 ai step 负三点五减 flash 保存即可。 现在在和 openclock 对 话,背后是英伟达超算在运行,比本地小模型聪明好几个档次,体验直接起飞当然免费有小限制,每分钟最多四十次请求,但个人日常使用写代码做轻量 agent 完全够用, 商业密集调用另说。咱普通玩家拿四千零六十八 g 折腾半天,效果还不如白嫖,尼玛,何必跟显卡较劲。云端超算算粒香到爆,老黄的羊毛赶紧薅起来。