本地大模型可以零成本的让我们去运行我们的 ai 项目,实现真正的拓客自由。但是卷过本地大模型的都发现了,本地大模型它的生成速度非常非常的慢,那么有没有一种方法能够让本地大模型的速度提升上去呢?我最近也看了一个研究报告, 说是能够在四零九零单显卡的硬件条件下,将千万三点六三十五倍跑出两百托克每秒的一个速度。那么它是如何实现的呢?我们先看一下整体技术的实现方式。给本地大王星成倍量的提速,主要是依赖于一个叫 m t p 的 技术。 mtp 中文的意思就是投机解码,投机解码,我们听到投机两个字就可以理解,它不是一种正常的解码方式,而是带有预测性的、随机性的解码技术。我们先看一下运行效果,然后再学习下如何配置 好。我们连接上四零九零主机,呃,我们可以看到 l m 四六六,它已经出现了这种投机解码的介绍,已经有这样的小功能了。但是投机解码有两种方式,一种方式是传统投机,也就是先预制小模型,调用大模型。另一种方法是自投机, 像我们现在常用的谷歌 gmail 四二十六 b a 四 b 和千万三点六三十 b a 三 b 这种已经量化后的模型就只适合于字头机, 但传统投机的话就比较简单,就像视频这个位置,我们在第三个按钮找到 lms 这个目录,然后点开对应的模型。如果说你是比较大的一些模型,尤其是千万二十六 b, 没有这个 a 四 b 的 话啊,你在这个地方再选一个千万 三点六对应版本的小模型就可以了,这个草稿模型一般选一点五的或者是零点八那种小模型,这样就配置完成了。另一个能提速的地方就是这个彩样 和一个温度啊,温度默认是零点六,你可以把它拉到零点九,零点八都可以的啊,这个温度指的不是你 cpu 显卡的温度,而是一个类似于模糊参数的一个地方哈,那一默认零点六,零点八也是可以的,零点八的话可能这个模型的输出效果不会那么好啊。 另一个就是这个彩样,彩样我们可以把可以按照我屏幕上的这种配置方法啊,把这个 重复惩罚和存在惩罚都进行勾选。嗯,当然最小最小彩样我也建议调试一下,就比如说零点一三,如果说你发现这个模型开始胡言乱语了,就可以把这个最小彩样给关掉啊,一般模型零点一三是没有问题的。 另一种方式是自投机解码,自投机解码也就是我们现在正在看到的一个运行效果。嗯,一般带这种杠三 b 杠四 b 这种量化后的模型就适合自投机解码,千万不要配置那种传统投机解码,传统投机解码反而会降低它的速度。 我们还是拿一个复杂的工作流进行测试,让它发一篇带有图文,而且图片转化为 w e b p 的 格式的。呃,瑜伽站看一下它的一个工作效果。 好,我们刚才在刷新网站的过程中,它已经把这个工作流完整的走完了,这个速度还是可以接受的啊,绝对是可以接受的。好,为了看一下它的完整的工作流啊,看一看它的一个生成速度, 非常直观的全程不快进,我们看一看他的一个工作效率啊,这个速度还是很给力的啊。好,我们下面再检查一下他的工作质量,这是很多绅士们比较关注的一个环节, 我们可以看到刷新之后已经有一篇新的文章了啊,新的文章,我们点开看一下啊,整体翻译效果也不错,然后整个文章的一个呃,图文排序都非常的棒啊,我们看一看这个工作流已经帮我们做了多少的内容啊,点开看一看 啊,非常完整,这个网站做的质量其实还是很高的,而且是完全零成本的搭建出来的, 但是这种字头机的解码方式,目前在 l m studio 里面还没有可适化的配置方案 呃,需要我们通过 s g long 或者是 v l m 进行代码配置。呃,具体的配置方法我也做了文案教程啊,大家也可以直接将文末的这种提示词 复制给你的智能体,比如说 openclaw 或者是 harmis, 让它自动地帮你配置好本地大模型的自投机解码,你学会了吗?
粉丝1317获赞4236

好,那么我们呢先来演示一下这个效果,嗯, chtl 代码呢是六十的速度,然后呢打个招呼看看啊,是七十五点九二, 那我们再写下其他的案例啊,一个代办的记事。好,那么速度是六十多六十左右,嗯,让他写写拍省代码看看啊,写不同的代码看看。 嗯,这个就有点慢了。五十五,呃,再写一遍吧。 好,呃,写惯了就到了六十了,可能是没写惯 你。好的,速度是七十啊,就打招呼的速度,然后我们再看一看启动参数吧。啊看看怎么调的好。来到二十九这台 windows 的 一个电脑连接过去 啊,这个是七十点五十的速度啊,刚刚的,呃,这个是写拍省代码的速度,用了三十多秒,然后接收率是九十九啊。 呃,我给它取消掉。关掉,我关掉以后呢从头启动再来一遍啊, 我现在给它取消掉 啊,参数就是啊,这里的参数啊,从这里开始这个是上下文,是一百二十八 k 然后呢每次呢拆三个 token 每次拆三个那接受率高的话它速度就快了。 好啊,重新启动一下。 嗯启动要点时间啊,我们看一看这个参数吧。啊 尽量使用跟我一样的模型啊, m t p 加速的模型,然后量化用 q 八啊啊启动完毕啊,我们再去试一下新绘画啊,开个新绘画去,再写个去跳代码, 呃,速度基本上稳定在。呃六十吧。行,那么今天就演示到这里了。 好,刚才忘记录这个启动参数了,现在再来一遍,先启动。 呃启动的过程中呢给大家看一看这个硬件,硬件是三零七零,然后呢内存是三十二 g 的, 呃,这个是五七零零叉啊, ok, 呃。等它启动完毕,那我把这个参数改为了五幺二啊。这个影响不大啊,但是改越大的话呢,生成速度会慢一点啊。默认的五幺二了。好玩币了,我去看一看啊,给它写一段代码。 呃。为什么现在速度慢了呢?呃,看一看啊。因为我在开录屏呢,我在开着录屏, 五十四了,它降了一些速度啊,再写一遍看看。我是开的录屏了,所以它慢了。 刚才为什么不慢呢?因为我是在另一排笔记本远程过来的啊,它用不到这边的一个。 呃,显卡的加速啊,我们这里录屏的话也会影响到一些速度。行,呃。看一下速度吧。五十四。五十四,呃。降了五个速度。开录屏的话,因为我的这个, 呃,配置的确很极限了,榨干了。好吧,就先这样吧。

大伙好啊,今个呢,我们聊一下如何在本地哈部署这个拉玛 c p p, 那 么它的作用是什么呢?各位,先说一下啊,它能让我们在本地哈运行啊这个语言类推理的大模型。 那么为什么要在本地部署呢?有几个情况哈?第一个呢,就是最近哈,呃,这个网上都说这个豆瓣要收费了啊,对吧?呃,收费之后呢,有一些功能,可能我们正常用的挺好,再用可能就要付费了,对吧?然后再有一个是什么呢? 就是我们如果在做项目的时候啊,比如说有一些东西涉密了,不方便在网上传,对吧?这个时候我们就需要在本地,是吧?构建自己的这个资源库,对吧?各位,那么这个时候我们就需要在本地有一个可以类似于像豆包啊,这个 deepsea 啊这种的服务类大模型,对吧?所以呢,今天我们聊一下如何在本地哈部署这个拉玛 c p p, 它呢实际的作用就是可以让我们在本地哈运行啊这个语言推理类的这个大模型,大家看啊,现在我已经部署好了,非常简单哈。那么再有一个情况是什么呢?各位,我们有一个自己的这么一个批量管理软件,是吧?目前有一个环节就是题词词的来源 目前很严重的依赖于我们外部的这个呃, ai 工具,对吧?现在呢,我们如果在本地已经构建了一个可以用来进行语言推理,生成对应任务的这么一个大模型之后呢,各位大家看啊,我们就可以把这个东西直接集成到这个平台当中,是吧?提 着此这一块,我们就最后一个环节就已经集成到这个行当中了,这个就是后续啊,就是大概是四点一之后是吧?呃,继续优化的一个功能,大家先知道这么个事就行了 啊,再有一个是什么呢?目前千万三点六是吧?这个三十五币出来了,然后呢,号称是一个能干活的大模型,对吧?各位,那么我们把它在本地运行来之后呢?第一可以构建自己的私有资源库是吧?更安全,第二呢效率更高,对吧?各位, 那么话说回来啊,怎么去部署这个拉玛 c p 啊,它其实就是一个能让我们运行这个语言推理类模型的这么一个工具啊。不大,我们首先来到这个 github 哈,这个网址,好吧,这个网址哈,然后来到这里之后,各位,简单的一种方式哈,我们找到右侧这个 release, 好 吧,找到这个 release, 然后往下翻哈,这里边有对应的版本,那我是 windows 系统,我们往下翻啊,这里边有一个 windows, 好 吧,在这里哈,各位,呃,我是酷达十二的,所以呢,我就找这个酷达十二哈, 找这个酷大十二,大家根据自己的情况啊,显卡情况去选择好吗?有很多这个类型,大家根据自己的情况选择就行了,那么我选择酷大十二,然后把它下载到本地之后,大家看好,我把它下载到本地之后进行解压,解压完了之后大家看进入到这个文件夹当中,这个就是项目下载之后的效果, 好吧,不大哈,大概是看一下啊,五百多兆,好吧,不大哈,然后呢,别着急启动,各位,我们启动的时候呢,可能要需要设置一下参数,怎么去办呢?大家看,进入到这个 lama 啊,解压之后的这个文件夹,然后注意新建一个文件,比如说我叫 start 啊,我已经有这个 start 了,那我就 start new, 新建一个文件,然后大家注意把这个后缀名啊,各位,把后缀名啊改成点 byte, 好吧,有些同学这个小那个小伙伴的电脑可能这个看不到后缀名,是吧?这个很简单,我们打开这个文件夹之后,这上面有一个查看,大家点击查看,点击显示后边有一个文件扩展名,就是文件后缀名,你把它点上之后就能看见了啊,也能修改了。那我们新建这么一个 bug 启动文件之后呢?大家看啊,我把我之前这个打开, 大家看在里边输入这么一句话啊,比如说这个是拉马,搜索这个拉马的这个文件啊, 调用谁呢?大家看啊,这里边有一个这个,好吧,拉玛告诉搜索点 e s e, 实际上就是调用它哈,然后后边杠杠 host 四个零好吗?它指的是开放远程调用,因为我们后期啊,各位,后期要把它集成到这个批量管理软件当中,我们需要通过这个软件远程去调用啊,这个拉玛 c p p 好 吗?各位,所以这个位置我们给它开放远程调用,后边 pos 端口八零八零,大家看啊,就这个端口,根据自己情况设置就行, 好吧,自己设置一个端口啊,然后后边杠杠 models 杠 d i r, 它指的是我们的大模型存放的文件夹地址好吗?比如说我存在 cf ui 的 这个 l l m 目录当中了,那我就找到哈这个 cf ui 找一下啊,找到 comui, 然后找到它的这个 models, 找到 l l m, 把这个上面地址复制一下,粘到这里边就行,好吗?这样呢,我们这个启动文件就配置完成了,很简单,对吧?各位?然后呢,大家看啊, 翻回头来,来到这个启动项,好吧,来到这个 lama 的 这个解压文件夹目录,找到我们刚才设置的这个 star 的 启动文件,好吧,里边的内容刚才展示过了啊,开放远程端口,设置模型存放的目录,然后前面是调用的这个 lama server, 然后双击一下 打开,双击完之后啊,这个老板就启动了,他默认的啊,启动端口啊,是刚才我们配置的那个八零八零,对吧?然后呢,我也,我之前已经启动过了,翻回头来,我们在网址上输入,幺二七点零 点零啊,多了一个点啊,幺七点零点零点一,然后冒号,英文的冒号八零八零,大家看,这样呢,我们就把这个网页打开了,大家看,其实他就是个小豆包哈,他的这个能力跟你选的大模型有关,那么我选的是千问三点六啊,目前号称能干活的大模型,好吧,一会说这个事啊,然后呢,我们点 第一次,我们可以点击加载一下这个模型,然后输入你好,是吧,他就进行推理了,然后给我们这个答案,这个模型确实能干活啊,各位,大家看啊,这个是我之前用这个千分三点六,然后拉拉本地部署的这个 呃软件哈,然后呢,生成了一个贪吃蛇的这么一个小游戏,里边大概七百多行代码,我就告诉给我生成一个网页版贪吃蛇啊,大家看,双击完之后,这个游戏还挺好玩的啊,效果还不错的啊,好吗? 好了,不解释啊,就是挺好玩的哈,然后千万三点六的模型在哪里下呢?大家看,我这里有一个网址,这是国内的网址哈,大家看, 根据大家的显存实际情况去下载对应版本就行了。那我是二十四 g 显存,所以呢,我下的是这个 q 四 k m 的 二十二 g, 好 吧,大家尽量啊,下载这个模型小于大家的这个显卡的显存,因为什么呢 啊,就算大点也没事啊,比如说你十六 g 显卡,然后你下个十八 g 的 模型,实际上也没事,它会把一半啊,它会把一部分资源放在内存当中啊,但是各位 用这种模型啊,大家看啊,这有一个 token 的 输出速度好吗?就是它运行,你可以把它理解为运行的效率啊,有一半资源在显存啊,在内存当中,这样会拖慢你的运行效率,但是它也能运行,就算你没有这个显存,纯靠 cpu, 它也能运行,就是奇慢啊。各位, 这种模型大家注意啊,还是注意下效率的,所以我们把这个模型都加载到显存当中,这样的运行效率是最高的啊,大家做这么个事就行了啊,尽可能的选择这个模型小于你的真实显存占用, 是吧,这个千分三点六,三十五 b a, 三 b 指的是三十五 b 的 参数,但是真啊,一次使用的时候只激活三 b, 对 吧,但是你也需要把这三十五 b 参数加载到显存当中啊,然后一次用里边的三 b, 对 吧,这样的效果是最快的。 好吧,各位大家说这么个事就行了啊,然后呢,其实呢,大家不止可以下载这个千问三点六号,也可以下载其他的推理大模型,放到对应的目录当中,是吧?在这里大家看啊,在这个位置我们是可以选模型的,我之前还有千问三点五号。 好吧,各位大家知道这句话啊,知道这么个事就行了,那么部署完,启动完之后,就可以跟它进行对话,然后完成任务了哈,然后呢,这个不是重点啊,因为我们刚才开放了 api 的 远程调用,对吧?大家看啊,就是以后怎么把它集成到这个软件当中呢?大家可以看一下啊, 现在我模型是加载的,我给大家演示一下啊,这里边我写了两个 api 啊,第一个是卸载模型,是吧? 就是我可以通过远程调用去控制这个软件加载或者卸载模型,大家看好好 success, 然后我们看一下显纯一下就下来了,这样呢,我们就完成了模型的卸载,对吧?然后下边这个是加载模型,大家看 是吧?加载成功之后,显示一下就上来了,对吧?证明这个远程调用是可以的,那么我们就可以通过远程调用的形式啊,把内容发送给这个软件,然后得到结果之后,是吧?然后我们把结果配合的使用到对应的软件当中去,是吧?就完成了调用。 好吧,这个只是一个初探啊,各位,这个只是个初探,大家学会安装,学会下载模型,然后把它启动起来就行。好吧,后续我们会有深入的这个使用教程啊。然后呢,视频当中说的一些使用细节,包括网址啊,包括这个启动文件怎么配置啊?大家可以来到主页哈,找到对应的视频,在视频下方大家可以查看一下。

上一个视频跟大家分享了如何利用 mtp 将铅汞三点六二七 b 的 运行速度提升一倍,很多网友反馈因为显存大小的限制,所以损失了上下纹长度。 今天咱们就利用 mtp 结合 turbo 矿的来实现既要速度又要完整的二六二 a 四四模型上下纹。首先我们先来看一下效果,然后再跟大家分享完整的安装过程。 我们先来看一下不使用 m t p 和 turbo 矿的运行铅汞三点六二七 b 的 速度和显存消耗。在这里我们看到上下文是完整二六二一四四,生成速度大约四十五 t 分 每秒, 显存消耗了大约二十七 g。 我 们再来看一下使用 m t p 加 turbo 矿的运行铅汞三点六二七 g 的 速度和显存消耗。那在这里我们看到上下文是完整二六二一四四,生成速度大约七十五 t 每秒, 显存消耗了大约二十三 g。 最后我们看一下只使用 m t p 不 使用 turbo 矿的运行铅汞二七 g, 因为显存不足直接报错了。 接下来我们一起看一下 m t p 和 turboqant 的 安装过程,介绍一下我的软硬件环境。操作系统是无斑图,显卡是四零九零,酷的是十二点九点零。首先我们安装翻译工具, 然后我们从 big up 克隆项目代码, 接下来我们编一下代码, 现在翻译就成功结束了, 我们执行这条命令来使用翻译好的程序运行千万三点六二七 b, 现在它就成功运行起来了。我们用浏览器以 ip 加端口的形式访问输入一个问题, 这里我们能看到它现在是完整的上下文长度,这里是生成速度。视频中运行时我禁用了模型思考是因为 api 调用时 思考会加大反馈时长,大家可以根据自己的实际情况来决定要不要加 reasoning of 参数感。 感谢这些开源作者辛勤的工作,给了我们一次次免费提升运行效果的选择。正在私有化部署千万三点六二七 b 的 朋友不妨试一试它的效果。今天的分享就到这里了,大家有什么问题可以在评论区给我留言,大家一起友好的交流。

今天给大家带来的是利用 logfloor 加上我们的千万大模型来构建一个本地的智能助手。在这一期的视频里面,我将带你用二十分钟手把手去完成咱们的一个千万三加 logfloor 的 一个本地部署与个人知识库的一个搭建。那首先我们要提出一个问题, 在当前有这么多通用的大模型的情况上面,我们为什么不直接使用别人的产品?比如说我们可以使用 tipsick, 对 吧?也可以使用千问切 gpt, 那 是因为我们 企业以及个人的这种私有的资料,我们在线的模型是无法直接访问的,即便我们可以通过这样的一个文件的附件上传,但是你也不能做一个本地词汇的保存。一旦模型在我们提问的时候不知道答案,他可能就会胡编乱造,产生这样一个幻觉问题。 我们在企业内部或者说我个人想去使用这样的一个知识库,我们是希望什么?希望这个企业,希望这个大模型它对于这些知识的回答,它是稳定的、可控的,并且我们本地可以做一个定化的、个性的制定一化的一些这样的一些设置,所以我们可以采用这样的一个本地部署,这样的一个 log 来达到我们这样的一个需求。好,那 这个是我们去布置本地 rap 的 一个前提,大家也可以根据自己的需要去做一个选择。那在当前我们去解决大模型它关于幻觉的这样的一个缺陷,我们有什么样的手段?第一个我们可以采用微调, 那微调它也可以解决大模型这样的一个幻觉的问题,但是它的成本可能要比我们的 rap 要高很多。第一个我们需要在特定的领域数据上面去做一个模型再训练,那意思就是比如说我们可以下载这样的一个开源的 app, 或者是拉玛这样的一些大模型,再去准备 大量的标注的样本数据,那这个数据就比如说我们做电商可能有一些关于这种电商客服他的一些回答的一些数据,那我们通常会去采用到什么?采用到这样的一个问答的形式,那做问答形式我们要去收集清洗数据, 那训练的成本它实际上是非常高昂的,那我们 select 就 相当于什么。我们给模型配置了一本参考书,那这个模型按照我这个参考书来做一个解锁回答,他的优势回答他是会贴近原文,并且支持这个实时更新,无需训练, 那并且可以提供把他回答答案是参照原文的哪一个章节,那这样我们也有据可依,并且我们部署的成本以及学习成本还是这样的一个硬件成本都是非常低昂的。所以的是我们当前做垂直领域,做茄子是库,或者说一些智能助手,他是一个非常直观并且也是高效的这样一种方案。 好,那我们如果要去部署这样一个 log, 那 我们首先得清楚我们要做的事情有哪些,那么总共会分成三个步骤, 那一个就是知识库,第二个就是向导画 in bing, 第三个就是我们的解锁与生成。那我们在做这样的一套操作之前,我们先要去看一下我们需要部署一些什么样的软件与环境,那首先第一个我们要去做的就是软这个多克的一个安装,这个多克是 windows 的, 我们要下载是 windows, 当然这个大家可以根据自己的一个操作系统的版本, 那我们可以进到多克点 com 这样的一个官网,你可以去下载自己对应的一个版本,一个是 上面这个是苹果的 m 芯片的,下个是下面的这个是苹果的英特尔芯片的。那包括 windows 系统,它也有两个版本,一个是 md 的 这个架构,还有一个是 arma 架构的,包括我们的 windows, 这个大家根据自己的需要去下载即可。但是我们在 windows 系统,因为可能大家用的 windows 用的比较多,在在装这个 多克的时候经常会碰到一个问题,就是安装的时候会失败,那这个失败的最主要的原因就是我们没有去启动 windows 它的一个虚拟机,那这个失败的最主要的原因就是我们没有去启动 windows 它的一个虚拟机。那这个地方呢?我们点击什么呢?点击这个 搜索,点击这个 windows 的 搜索键,你在这个地方会看到一个起用,如果没有你就搜索一下就是起用或关闭 windows 的 功能,那我们打开它以后,你会发现在这个下面它会有这样的一个适用于 linux 的 windows 指系统,这个我们一定要勾选上,包括虚拟机平台, 我们要把这两个勾选上,那我们勾选上这个以后, windows 的 系统它自己会去做一个这种组建的插件的这样的一个更新,那更新完成以后,那成功的没有问题了,我们就点击确定, 那如果大家在更新这个版本还会出现问题,那大家可以去来到我们这个电脑来这个设置里面大家可以去做一个什么样的操作呢?为大家展示,基本上我们通过这两步是可以解决所有的问题。在这个 windows 更新里面, 那我们在这个地方它会有个什么?有个高级选项,那高级选项在这个里面我们有个恢复,你可以去使用 windows 更新修复。问题, 那这个会给我们修复当前 windows 的 一些更新的一些组建他的一些主设,或者说被占一些更新的这样的一些进程被占据的这样的一些情况。这是很多同学在安装使用 windows 安装多克会出现问题,那我们再点击这个地方,立即重新安装,让他自己去安装完成以后我们再去下载多克,那多克的安装我们会得到这样的一个 下载了 excel 的 这样一个包,那这个包你直接双击右键不断去安装它就可以了,那这个是一个傻瓜式的。安装完成以后,那接下来我们要做事情是我们要去下载这样的一个它的源码啊,就是我们这个 多克的 excel 的 一个源码,那同时我们在安装的时候也要注意还有一个地方,我们有没有去配置 wsl, 那 这个 wsl 如果大家没有配置可以打开什么的,我们去输入一下它这个安装我们就可以看得到,甚至我们可以输入一下, 如果你没有安装,你输一下 wsl 干版本,那这个版本我们就能看得到,你安装完成以后就会出现,如果没有安装,那你就输入这个命令,干这个 instore 去安装它就可以了。 好,安装完成,输入这个版本,我们就能够看到对应的这个信息,这个是必须的。好,那现在我们这一步做完以后,我们就要去到哪里了,我们就要去到获取这个 redfly 的 原码, 那这个 log 福乐源码,我们可以打开这个 get hop 这个地方,我们去获取它的源码会有两种方式,一种方式呢我们可以通过 get, 那 如果大家有这个基础,我们就通过这个 get 去做一个它的拉取就可以了。那,那如果没这方面基础,同学我们就使用这个 download 的 直接把这个源码下载到本地,当我们点击这个以后,它就会对于整个的源码做一个下载, 下载完成以后我们会得到一个安装包,这个安装包我给大家看一下,那一般会在默认的下载这个路径里面,在这里我现在把它拉到哪里来了?我把它拉到了我这个 d 盘,这个 d 盘以后,在这个上面我把它解压,它就会生成在那个文件夹,生成这样的一个文件夹以后,我们可以点 进去,进去我们就会看到很多的这样的一些信息,在这个里面,这个地方我们要去看的是什么?要的是要去看的是多客的这个文件夹,这个多客文件夹里面,我们等一下要去进入这样的一个路径,我们首先看到他的这个点烟微 烟味是它的一个环境配置的一个文件,这个文件我们可以右键打开它,那这个地方我们稍微有注意到的一个点,就是,呃,在这个端口的一个修改,那我这个地方它默认是八零端口,大家一定要记住,默认是八零端口, 默认是八零端口,那我们等一下去访问的时候,我们去访问这个 log floor, 我 们输入的地址多少啊? local host, 那 如果你不去修改它默认八零端口,你输入的就是访问的就是 local host。 当然如果你跟你的电脑上面其他的一些软件发生了冲突,比如说我们的这个 def, 或者说一些其他软件发生冲突,那你就可以在这个地方把它这个端口做一个修改,比如说你改成啊八八八八,或者说其他的一个端口号, 那改完以后保存完成以后,我们接下来要做事情是什么呢?我们打开我们家那个文件夹,打开这个文件夹以后,我们进到哪里呢?进入这个多克的命令以后,我们右键输入什么,在终端打开以后,我们就会直接跳到终端这个命令,它会进入到多克这个文件夹下面。 那我们接下来可以去做一个什么事情,我们就可以通过他的一个命令,这个命令大家可以看一下叫什么,就是这样的一个命令去启动我们所有的服务,因为我们去安装这个 log file, 你 不仅仅是去装到这个 log file, 你 还要装到他的一些依赖,他的依赖比如说有这个 linux, 有 这个 es, 有 mico、 mio, 那 这几个都是要去下载的。 好,那这样我们把这个命令复制过来,复制过来以后我们在这个地方右键回车,因为我这个地方已经装好了,所以大家按照我这个步骤去操作就行了,那你操作的时候大家注意他可能第一次大概要花到十到二十分钟左右,这个看大家自己电脑配置。 那我们输入这个命令以后,这个时候你等到他把所有的依赖拉完以后,我们再打开我们这个桌面的多克, 那我们就会在这个容器,你注意要点到这里不是镜像,镜像不是这个的,每到这个容器里面,我们就会在下面去发现它,把我们所需要的这样的一些依赖的,包括 log4 的 这样的一些容器都已经启动了,你看这个是 log4 的, magisk 的, linux 的、 emo 的、 es 的。 好,它启动以后,我们如果你不清楚它是否启动,我们还可以通过什么呢?还可以通过一个命令叫做呃, log, ps 啊,这个 ps 我 们就可以看到当前正在运行的所有的容器,那包括它的对应的一些端口号,我们都可以在这个地方看得到。好,那这样我们整个的安装就已经完成了啊,安装完成以后,我们接下来要做的事情是什么?我们接下来要做的事情就是去配置我们的软件。 好,这个地方我们在浏览器输入 local host, 我 们就会进入到这样的一个界面,那当然在第一次进入它是需要登录的,登录很简单,你输入这个账号密码就可以了。进来以后我们就会看到有知识库、聊天搜索、智能体记忆、文件管理, 那这个时候我们没有创建任何的一些数据跟聊天,但是我们首先要做的第一个事情是什么呢?我们要做的事情就是去做到一个模型提供商的一个集成,这个时候我们会发现他在右边会有很多这样的一些模型提供商,比如说有奥拉玛, 那我们首先如果做一个本地的集成,我们肯定要做的是什么?下载一个奥拉玛,我们也可以去到他的一个官网,那他的官网就叫做奥拉玛,奥拉玛点控就是这样的一个地址,把它 copy 我放到这个地方来,这个就是我们这个欧拉玛的一个官网的地址,这个文档大家如果有兴趣的话,或许可以去领取到。好,那现在我们进入到这样的一个欧拉玛的官网以后呢?你在这个右上方大家可以看到有个 download 的, 对吧?那 download 的 把这个欧拉玛的这个安装包下载下来以后呢,你就一直下一步去安装就可以了。 我们在可以在这个上面官网可以看到它会有很多的模型,比如说有 deepseek 的, deepseek 的, 有这个千问的,有这个拉玛的,这个我们都可以找到。好,那现在呢?我们装完以后,那我们如果说要去通过这个奥拉玛去下载一些模型,怎么下呢? 来我给大家演示一下。现在我打开这个命令行 cmd, 我 通过运行一个命令叫做奥拉玛论,为什么呢? 我先看一下我下载的哪些模型历史的,那这个就是我下载过的这些模型,这个大家可以根据自己的这个电脑上面的这个显卡去做一个选择。比如说我们下这个 bg, bg 它是一个切入模型,这个我们待会会讲到,那切问,切问 dipstick, 这些都是切聊天的模型,这下面也是一个这种关于切入模型, 那我们比如说要去下载一个切问的模型,那我下载一个切问三,那我们回车搜一下,那我们可以点进去,大家注意看,我要下切问三这个聊天模型,就可以点进去, 在这个里面呢,我们就会有对吧?他对应的一个参数的版本啊,这个大家可以根据显卡做一个选择,那如果大家这个显卡不是特别大的话,那你下载一个零点六 b, 零点六 b 大家自己做一个 demo, 那 包括一点七 b, 如果你的显卡还算可以,你就可以根据自己不同的需求去下载八 b 的 或者十四 b 的, 那我们怎么下呢?就是通过这样的一个命令,大家可以看到去 论去运行,但是我们这个运行大家要注意他这样的,我们现在再次进入到这个命令行,但我在这个地方大家注意看,你要下载对应的版本,在后面是要串上去的,比如说他是一点七 b 的 这个参数的,这个对应的这个,对吧?这样的一个版本,那我们回车, 但现在呢,因为我已经下好了,所以我直接会进入到模型的一个对话的界面,那如果大家是第一次的话,他就会做一个拉取,就会把这个模型呢从这个服务器拉取下来, 那你等待他拉取完成以后,你再输入这个命令,他就会进入这样一个对话的界面。比如说我现在可以向他问一句,你好,因为消费商他是一个带推理的,所以我们可以看到,是吧?他就会有一这样的一个推理过程,包括他这样的一个回答,那我们去下载这样的一些线路模型,也是同样的一个道理,可以根据这样的一些方式把它下进来。 好,那上完以后呢,我们接着要做事情是什么呢?我们就要来到我们这个 d 范去集成我们这样的一个模型,比如说我们要去添加一个欧拉玛,我们添加进来以后,大家可以看到这上面模型呢有两个 不同的类型,一个是 embedding, 一个是这个 cheat, 包括 rerun, rerun 是 从排序的,包括还有一个这个图片转文本的。那我们这个地方呢,我就先给大家来演示一下如何去集成这样的一个聊天模型。 聊天模型我们同样的再次打开我们的这个 cmd, 打开 cmd 以后,我们去运行这个 oalanist, 我 们就看到所有的模型,那你要集成哪个模型,我们就把这个模型的它的名字 ctrl c、 ctrl v 复制过来。 好,接下来是一个 url 的 地址,在这个地址的配置上面呢,大家还会碰到一个问题,就可能大家以前自己配置总是不成功,为什么呢?因为你的 define, 甚至包括 flow, 你 是装到什么?装到这样的一个多克的,多克的这个容器里面去启动的话,它是不能直接访问的,那我们访问的路径,那有 些教程他可能会跟你这样去讲,他说什么呢?比如说啊,那你去输入一个 ip config, 他, 你去把这个,把这个你自己这个网关上面这个 ip 位置,这个地址上面就把这个 ip 位置复制上去,但这样是不行的, 为什么不行呢?就是因为它的一个容器的问题,所以我们在这个地方应该要配置的这个路径是哪个路径呢?应该是这样的一个路径,你要复制我这个 post 多克,包括它的这个连接好,我们 ctrl c、 ctrl v 把它复制过来以后呢?后面创上的端口号是幺幺四三四,幺幺四三四,然后最大这个 token 数呢?这个地方我们设置一个八八八八八,或者说八零八零都可以, 那我们点击确定好,这样的话呢,我们这个模型就已经更新集成过来了,那这样这种方式呢?我们是通过欧拉玛去集成一个本地的模型,那我再接下来给大家去集成一个什么?集成一个我们你背的模型,你背的模型呢?我们再次来看到这样的一个 他的一个列表,比如我们要去下载这样的一个 bg 了,那我就复制他一个模型的名字,然后呢再将我们这个地址给他复制过来,再将我们这个地址 感觉 c, 然后这里这个拖克数呢,你要设置成八八八都可以点击确定幺幺四三幺,我们看一下他这个地方呢,看一下他这个报错名字是什么呢?他说不能添加,就这个版本有问题,那我们就换一下,因为这个历史可能他是不能复制上去的,我们 换一下,把他的前面这个去掉,我们来试一下。那这个大家有时候碰到也可以去解决在那个问题,就是他说不能添加,可能就是因为我们这个模型,他这个历史的这个,这个这个是什么意思呢? 这个不是就是一个模型最新的版本的意思啊,那这个呢?我们是不需要的,那如果是你是对应的,对应的这个这样的一个版本型号,那是可以的。那这个这个就不行,这个你就把它去掉,好吧?我们刚才去掉,大家可以看到就添加成功了。 好,这个我们是去集成,集成这样的一个最新的这样的一个模型的版本,那这个都是集成本地的,那我们可不可以添加线上的呢?当然可以,比如说我们可以去集成一个硅基流动,硅基流动的它的一个提供商,我们点击添加 这个添加非常简单,他就有要求我们去提供一个什么呢?提供这样的一个 q, 那 这个 q 呢,我们就可以登录到轨迹流动的一个官网,这个官网呢我也可以复制给大家看一下 啊,这是轨迹流动的一个官网,我们把它放在这里,那这个网站呢,我们进去以后你就注册就可以,注册完成以后这些都是免费的。然后我们就可以点到这个 api 的 密钥,在这个密钥这个地方你就可以给他复制, 复制成功以后我们再回回过头来做一个粘贴,粘贴之后做一个保存,保存以后我们就可以看到已经将这个轨迹流动它集成进来,它这个里面的模型你就不需要去管了,因为这些都是提供一个线上调用的版本, 那他有千万 d p c, 但这个都是免费的,每天都会有一定的这个次数提供到给你。好,现在呢,我们把这个模型的这个提供商已经集成完成以后,我们再次来到首页,再次来到首页呢,我们就可以去创建一个知识库,这个知识库它的作用是什么呢?这个地方我们就取个名字,我们就叫做员工助手。那我们选择这个切入模型呢? 你可以选择 b、 g、 e 的, 那这个是本地的,那如果我们是可以希望快一点的,那我们也可以选择这个规则流动提供在线上的,然后内置风快的。这个办法大家可以看它有很多类型,对吧?有论文的、有表格的,有书籍的,对吧? 包括那问答形式的,那我们这个地方选择一个问答,那选择完成以后,我们点击保存,保存完成以后,但这个时候呢,它是没有任何的,没有任何的数据,那这个数据呢?就是 我们要去怎么样去集成呢?我们就是要从本地去做一个上,做一个上传,对吧?那么就点击这个新增文件,我们就做到一个上传,那你可以把文件直接拖进来,也可以点到这个地方呢,去选择我们的这个路径,比如说我在这个地方呢,我就去到我桌面, 像这个员工的一个行为管理制度,对吧?我就把它打开上传上来,上传之后保存,保存之后大家注意我们还要对这个文件做一个什么?做一个解析, 解析就是做一个切片,做一个 embed, 做一个嵌好,现在我们点击这个启动,让它做一个解析,那这个解析的意思是什么?我们所谓的 embed, 对 吧?我们所谓的 embed, 所谓的这个嵌入,它整个这个过程是什么?就是我们要将文本, 大家记住我们要将文本转成什么?转成这样的一个数字来做个表示,这个地方我给大家举个例子,比如说因为我们我们所有的文本自然语言,它都是什么?都是,不管是汉语、英语、西班牙语这些都是什么?都是自然语言。自然语言它会有一个非常大的特征,就是它传递的信息是非常复杂、多维的。 比如说我给大家举个例子,苹果,对吧?苹果这个词语它包含了哪些维度的信息呢?我举个例子,比如说它会包含到水分, 对吧?它这个水分含量包含它,它这个甜度,对吧?它这个糖分含量。好,那这个地方我们把它转成数字,怎么怎么样去转呢?我们就画一个直角坐标,对吧?这是个二维的,因为我们只表示了两个维度嘛,那 x 轴表示的是它的水分, y 轴表示的是它甜度。 我们从原点到这个两个水分的这个坐标形成一条线,假如说水分是三,这个是四,那这个地方形成这个坐标呢?就是这条线从原点到这个坐标的这个距离,就称为什么?称为向量,那我们称为向量, 那实际上就是把这些信息转变成什么?转变成数字的表达。当然我们每个词语,每一句话,它不仅仅是两个维度,它可能会有更多,对吧?现在主流的这个切入模型呢?它生成的这个维度有五百一十二维呢?有七百六十八维的, 所以呢我们把它转变成维度,那这个维度它会有什么一个特征呢?就是词语相近的,这个词语相近,它所切入的这个坐标它会变得相似。我举个例子,比如说我们现在有一个这个地方,我们生成假如说这个地方是一个猫,一个 kate kate, 他 会嵌住在这个地方,那如果说我们把狗做一个嵌住,把 dog 做一个嵌住,你会发现它们而者之间的这个坐标呢就会变得非常的相近。 那如果说我现在再嵌入一个什么,我再嵌入一个房子,那你会发现他的这个坐标就会跟这个动物隔的非常远。为什么?我们来想一下房子这个这个坐标,因为他是非生命体,对吧?他是死的,而狗跟猫他们都是,那为什么狗跟猫他会隔的比较近呢?因为狗跟猫他们有一些维度的信息是非常相似的, 比如说他们都具备宠物的这样的一个维度信息,对吧?他们都非常可爱,对人类友好,所以这两个词语的词性,我们的这个切入呢就是要去捕捉到这些词语的一个含义,所以呢他们的坐标就会变得非常上镜。好,现在回过头来,我们回到 lab four, 我 们可以看到现在解析完成以后,这个地方就会有个小绿点, 那我们现在就可以来做一个什么,做一个测试,做一个剪辑的测试,来看一下我们这个文档的效果。好在这里呢我们就提个问题,我就说员工如何请假? 我们来看一下他这个测试的就是能够解锁到对应的这个文档,我们可以看到,对吧?他他的这个解锁回来这个文档快,他就是跟什么,就是跟我们 这个请假是相关的,对吧?请假与缺勤的管理,应该什么怎么申请什么什么的,那这就表示我们这个文档没什么问题,对吧?就如果说我们在做这个知识库的构建之前,我们可以通过运行在那个测试来看一看这个文档的切入是否合理,你的这个检测这个结果通过向量化去做个相似度的解锁,是否能够达到我们的这个需求? 好,现在我们这个地方没有问题以后我们再回到首页,回到首页我们接下来可以做一个什么样的事情呢?我们就创建一个聊天的应用,这个地方我就创建一个员工聊天员工制管理智能助手。好, 我们现在保存完成以后,那我们点进去这个地方呢?我们可以在这个地方去选择配置,比如说这个地方我们可以看到它会生成一个自动化提示词,那这里呢?你可以把它改成你是一个员工 智能助手。那总结知识库的内容,那知识库呢?我们怎么选呢?在这个地方选择我们刚才做欠入的这样的一个员工助手的这样的一个知识库,把它欠入,把它选择上去,选上去以后呢?我们接下来下面这个地方,大家注意,我们往下拉这个地方,你有个模型的选择, 对吧?你可以选择这个千问三一点七 b 的, 你也可以根据这个需求,比如说我选择一个线上的这个这种 excel 阿万的。好,那现在呢?你选择以后记得要做一个什么事情,点击一个保存,保存完成以后,比如说我现在就来提出一个问题,员工 如何请假?我们来看一下它这个整个的一个解锁的效果,这个时候我们因为这个 excel 阿万它是一个推力的吧,对吧? 好,我们可以看到这个时候呢,他的解锁的推力的这样的一个内容,稍等,这时候你会发现他已经解锁到日库,对吧?他每一个文档块他会有个对应的这个 id, 他 说这个这个文档第一个文档块里面有一些什么什么内容,其他的文档里面有一些什么样的内容, 然后呢他在依据这个文档块的内容给我们做出对的回答,那这样的话呢,我们得到答案呢,他就是真实可靠,有所依据的,对不对?有据可依的嘛?好,我们来看一下他这个推理完成以后,那他会说到,他说到,对吧?这个时候他有一个这个大家可以看,这是一个对应的这个文档块的一个标志,对吧?方便我们去验证。 好,这就是我们能够拿到的什么?能够拿到这样的一个关于请假的一个回答,对吧?他的这个一,他的由来也是参照我们前面上传的这个员工行为管理制度的一个文档, 他是有据可依的,对不对?那比如说我们要使用千问的也可以,对吧?你在这个地方去更换自己的一个模型也行,那比如说你也可以去选择这种线上的不同的,当然我们处处于什么,处于这样的一个自己私有的这个数据的隐私性的保护的话,我们通常你这个这个整个项目的业务需求, 好吧?好,那这样,这样,这样以后呢,我们整个的这个这个智能助手我们就已经完成了,我们就已经完成了,你可以在这个右上方去选择什么的,选择他那一个托管之后呢?把它切入到我们这个网站里面去, 看到我们这个网站里面去,那接下来呢,我们对于整个的这个流程,我们来做一个回顾,对吧?做一个回顾,包括我们前面的通过奥拉玛来部署本地模型,这个地方的这个 ip 地址设置,包括我们通过多克去部署迪拜,或者是来个 floor, 这个都是没问题的。 后端呢?他默认,对吧?我们如果不去更改,前面有讲到默认监听的端口是八零端口,那通过这个浏览器输入 lockout 就 可以访问我们的这个首页。好,实操流程,那刚才我们第一步是创建知识库,然后接着上传解析,把它做一个相当于一百米的切入。而第三个呢集成我们 聊天的智能默述,其实我们这个聊天的大模型去做成在那个智能助手,好,那刚才这个效果我们已经能够看得到的,对吧?就是我们的回答呢,是严格依照数据库的内容,它会自动标注原文的出这个出处,那让我们的消除幻觉,有据可查, 所以这个是我们整个的 log 的 生成的一个流程图,我们文档文档会做一个切片,对吧?切片完成以后,他通过这个 excel 的 模型呢嵌入到我们这个向量数据库里面, 这样的在你的上限空间,那然后呢再通过什么通过我们问题的切入做一个三十度的解锁,最终呢把这个答案返回的文档块由这个大模型做一个规划,整理生成这样的一个资源返回给用户, 这是我们整个的一个流程。在这个两个模型的选择呢,大家可以看一下这个他们二者之间的一个优势跟劣势。如果说我们选择在线模型的 api, 就是 刚才这样的一个选择轨迹流动,那比如说你本店这个显卡不是特别高, 我们想去用到更复杂、更聪明一点的大模型,那我们可以使用这个线上的一片,但他的劣势呢?他会有,对吧?我们这个数据会经过第三方服务器成本呢,对吧?他是收费的,当然你像国际流动他免费的,这个次数呢?一天也是有限度的,对吧?他不是无限的。 那如果我们属于本地部署呢?这个数据是绝对隐私的,他是不会流传到什么,不会流传到外网的。这个如果说我们对于这个数据的安全性、隐私性有要求的话,我们可以采用这种方式,但是呢他的缺点就是什么呢?你的硬件配置,对吧?你要自己去买一个比较好的显卡, 那好吧,那我们在公司或者说我们业务的需求,我们通常会选择第二种方案,那如果说我们自己做一些项目去玩的话,我们是可以选择第一种方案,这个这个是比较方便的,那没什么太多的这个区别。 朋友们整个的这个部分呢,就是第一个我们要去理解 log 与微调的区别,那就是 log 呢,是我们当前去搭建在那个知识库场景呢,是一个绝对的优势。 那第二个呢就是 embedded, 它对于我们自然语言的一个向量化的一个原理以及过程。那第三个呢,我们就是去部署本地化容器,最终呢搭建我们属于这样的一个自己的一个智能知识库,好,这就是我们本次集成千万山以及我们的 log flow 去做到这样的一个智能助手的全流程。

千万开元的三点六二七 b 大 模型发布以后反响很好,但是二七 b 全参数激活以后,对算力要求也随之升高了。今天就和大家分享在不花一分钱的情况下,如何利用 mtp 将二七 b 的 运行速度提升一倍。 我们先来看一下使用 mtp 的 性能对比,然后再和大家分享详细的 mtp 编码过程。我们先来看一下未使用 mtp 的 二七 b 生成速度, 生成速度约四十五 token 每秒。我们再来看一下使用了 mtp 的 二十七币生成速度, 生成速度约八十四 token 每秒。接下来我们看一下详细的 mtp 翻译过程,我会把文档放到网盘里分享给大家。 首先介绍一下我的软硬件环境,操作系统五半桶二十四点零四,显卡四零九零酷的版本十二点九点零。我们先安装一下编辑工具, 首先我们克隆拉玛点 c p p 的 代码 获取补丁, 合并补丁翻译支持软卡加速的拉玛点 c p p, 现在就翻译完成了, 我这里已经下载好了支持 mtp 的 模型文件,接下来我们我们用它来推理支持 mtp 的 千问三点六二七 b 模型 现在就运行起来了,我们用浏览器 ip 地址加端口号的方式打开页面, 我们输入一个问题回车,我们看到现在的速度已经来到了八十多分每秒了, 我们再来关闭 m t b 试一下速度, 我们看到生成速度又回到了四十多分每秒了。 如果大家正在本地部署千万三点六二七 b, 强烈推荐大家试一试 m p b, 这是开发者给我们提供的免费提升性能的途径。感谢这些开发者的辛勤工作,我会把视频中的命令以及模型地址做成文档放到网盘里共享给大家。

千万三点七系列模型终于发布了,昨晚上也是上线了阿里云百年了,那我也是第一时间加班加点把这一个实测的一个任务做完了。这一期的话我们就不聊具体的一个奔驰 bug 评分参数,也不去复读它的一些发布稿。我们先看两个信号,第一个的话就是这一个榜单信号, 他在 arena 这个大模型的一个竞技场里面拿下的这一个国产的这个评分第一,那这个榜单的话其实就是一个把这个模型的名称隐藏起来,让真实的人去通过同同样的 prompt, 然后去测试。那整体榜单这块看的话,在国外的模型肯定目前都是领先的,那国内这块的话,千万最新的这个模型也是达到了国产这个第一的个标准。 第二个的话就是官方这一块儿宣称他们的整个 aintic 的 抠点能力是有一个重新的设计,能长达三十五个小时。那他们说这么多我们都不关心,我们只看他接到一个真实的项目里面啊,我就把同样的项目,然后同样提示的是我拉他跟 deepsea v 四 pro 还有智普的 demo 五点一去对比,看他真实的一个表现情况怎么样。 ok, 那 这一次的话我们一共是三道题,每一道题都不是玩具登陆,第一道的话是这个图片生成的这一个 aint 的 项目,让他从另外一个比较复杂的项目里面 把它迁移过来。那第二个的话是我把一个终端的 c y a 技能让它做一个全站项目。那第三个的话,我们会把这一个模型千万三点七 max 接到我的一个内容分析 a 技能里面,看它整体的一个表现情况如何。好,下面我们来先测试它整个的一个编程能力, 那这两道测试题的话,也是我真实的项目,并且我们在以往的几期大模型评测的这个视频里面都有。那像之前那期视频的话,像 deepsea v 四 pro 和智普的五点一,我们都做了一个评分,那期视频 对于这个图片认证这个项目的话,质谱的是会好一些。第二个的话,呃,我们这个 skills agent 的 话是其实大家差不太多,也是质谱的会好一些。哈,那这次我们就把同样的这一个啊提示词,同样的模型,我们就接进去看一下这个千万三点七 max, 它在编程方面表现怎么样。好,我们来看一下我们的这个试测的过程, 那两个项目的话,都是我自己的一个项目嘛,都是 a 级的项目。那关于图片生成这个项目的话,在以往的测试里面,国外的模型像 g p t 五点五啊, cloud opt 四点七啊,它们也是能一次性把这个任务完成,并且效果也还可以。那千万三点七 max 这边的话,文整整体测试下来,它遇到了一个小问题,就是 关于数据库表结构的,那整体它的这一个长城任务测试这一块,其实也是跟官方的描述相符合嘛,因为我整个的这个测试过程哈,它进行了两轮这个对话的压缩,那右边这个的话,就是把我们的一个 c o i agent 把它写成这个外部 u i 嘛,那这个任务的话就相对来说要简单一些。 好,下面我们就来看一下它整体的一个完成效果,看一下它跟就是 deepsea v 四 pro 智普的五点一整体大家的一个 u i 上的一个展现。怎么样? 完事之后呢?我们还会把这些代码加密之后,再交给就是管理这些模型,让它们分别去站在各个角度,各个维度去 review, 最终得出来一个合理的一个评分。好,下面我们来看一下它整体的一个表现情况。那这边的话,这个网页是,呃千人三点七 max 去做的,就是落地页嘛,落地页完了之后,还有就是它要需要去做 谷歌 github 的 认证登录,我们来试一下。 ok, 它这边可以看到是可以的,能读到我们的这一个信息。好,我们再来看一下这个谷歌认证登录, 可以看到谷歌认证登录也是 ok 的。 好,我们来看一下 deepsea 的, deepsea 的 话,这是它落地页,落地页的话稍微会差一点,那其他的话就不测了,因为之前视频已经测过了。我们来看智普的,智普的话,这是它的落地页,情况 都还行吧,大家这个落地页的设计都已经是相对来说提升比较明显的,最关键的是什么呢?就是它的后端代码实现已经相较于 前几代模型已经提升比较明显了。前几代模型的话,我在那个对话要对话好几轮,反反复复的让他去做,就是在对于长城任务这一块的话,这几代模型其实提升都挺明显的。 第二个的话就是我们这一个 still agent 嘛,这个的话原来是在终端上的,我们把它做成一个 y 不 y, 那 整体的这一个实现效果的话,其实也还 ok 的。 这三个模型啊,第一个是 千万三点七 max, 它所实现的就是我们给它一个啊,给它一个链接,它可以去帮助我们去加载我们本地的这个 skill, 然后去做跑一个总结类的任务。第二个的话,这个是 deepsea 的, 大家其实都差不多,但 deepsea 这一块的话,它 u i 展现上会有些小问题,那 我们的字谱这边的话,其实也还行吧,就是大家实现的也还行, u i 上的话还是有待提升的好,下面我们来看具体的一个代码评分情况,因为光看 u i 交互的话,其实大家模型都大差不差的,我们只有把它写的代码去看了, 到底有没有问题,尤其是像我们这个图片生成 a 镜头,那我们加了这个用户认证体系之后,那每一个人他的这些 c 型啊,他的这些聊天要隔离嘛,对不对?那之前的一些模型的话,像 deepsea 它也会有一些 问题,就是它的这个用户归属这一块有些问题。我们来看一下这一个啊,千万的评分,那这次测出来的话,其实千万跟这个智普的五点一相差不大,那这边 ai 给到的评分的话是会高一点点,它有些优势啊,就是它的落地的这个质感嘛,相对来说会好一些, 那也会有些小问题,就是登录进去之后,它的一些小头像的一些体验会有些小问题。那第二个的话,就我们这个 skills ag 呢,它这边的评分的话是八点四分, 是会比这个字谱的稍微会低一点,那也会比 dipsic v 四的会好一点,主要的优势改进点的话,它这块也写的有,我就不一一的去念了。 整体来说就是千万这一代的模型啊,在编程上面会比上一代我觉得提升真的比较明显。还有它跟这两有一个最大的区别,就是因为它是原生多模态输入的,这就很符合我现在用的一个工作场景,因为我在实际的编程过程中,我是大量的需要去这样去截图,然后丢给 ai, 让他去帮我指哪打哪去改。 那以往的话,国产模型这一块就是我没有一直用的一个原因,就是它在多模态的输入这一块体验不是特别好。那这个千万三点七 max 的 话,在这一块其实还是挺 ok 的。 好,我们来看一下我们这个内容分析 agent, 我 这边也是把它就是千万三点七 max 接进来了, deepsea v 四智普那些都接进来撤了,也是基于我同样一个 视频链接,然后让他去分析做语音转录,转的完了之后去拆解,得到了一个整个的一个拆解报告。那千万这个模型呢?从这个拆解来看到它这块时间错也是拆解的是对的。 关于下面的这个爆款元素识别,也是符合我当初做这个视频的一个设定。那这个的一个对比的话,跟 deepsea 微视去做对比的话,其实你人为主观去判断就不太好判断了。 那我这边也是把这三个模型所产生的这个分析结果嘛给到了,下载 g p g 五点五这个模型,还有谷歌的模型,让他们去做评测。好,我们下面来看一下整个的一个分析情况,那它这边给出了千万三点七 max 的 话,是更适合内容的一个生产 a 检测,那 deepsea 微速更适合一个深度复盘,那我这几期视频关于做国内模型横屏 都基本上得出来的结论都差不多。那智普这边的话是一个更适合结构化脚本的嘛? 国内模型这一块的话,他接到 a p a 里面大家都知道非常非常便宜,如果大家有这种需求的话,我强烈大家用国产的模型,像我们这个内容分析 a g 的 话,其实我这一块是有做这个封面识别的,就是有个多模态。那但在我们刚刚的这一块看的话,其实千万三点七 max 它是会有优势的,因为我会把这一个封面图片给他 放进去再做分析嘛。那 deepsea v 四 pro 跟智普五点一的话,现阶段他们是没有多模态识别的,也可以看到,其实我在这边也加了这个多模态嘛,就是 它如果有多模态之后的话,我们就会把这个图片理解给它加进去。好,下面我们来进行一个整体总结。那千万三点七 max 这一代的话,我感觉是比它上两代都提升比较明显,而且是真的可以接到你的这一个编程 agent, 不 管是 cloud code 呀,还是别的一些 agent 里面去,而且你也可以买它的这个 token private 套餐都还可以, 只不过不好一点是不太好抢,就跟这个智普这个模型一样,那内容分析 agent 的 话,如果你不需要多模态,你就用 deepsea v 四 pro, 如果你需要就是需要把这个封面呀,或者你要需要去把这个视频里面抽帧,抽出来之后让它去分分析分解,那你就用千万三点七 max, ok, 那 这就是这一期视频所有内容了,如果大家觉得这期视频做的不错了,可以给我一键三连,我是阿江,我们下期见,拜拜。

hello, 大家好啊,今天我们来测试一下这个切分三点六二十七 b 的 这个模型,这个重密模型它的性能测试到底就性能到底是什么样子的, 呃,也是从这我们本地去部署的这几个软件,然后来逐步的去测试啊,呃,考虑到对内存的占用啊,就是我们先从这些呃占用内存的这些软件,呃,逐步去测试,从这个先从欧拉玛,然后再从这个 lm studio, 然后这个 lm app, 然后还有这个最后的这个 vlm 啊, 这样的一个测试顺序啊。首先来第一个就是欧拉玛,呃,欧拉玛我自己本地的话也已经下载了,下载了,然后,呃,我们可以看一下这个 看一下啊,千万三点六二七 b 这个模型呢,它只有十七 g 左右的一个大小,嗯,也可以看一下,我自己现在初识内存是零点八 g 啊, ok 啊,这几种模型这几种软件我都通,因为他都支持这个 open i 的 这个标准格式吗?就已经全部到接入到 chris 丢丢里面了啊。然后呢,先从欧拉玛开始啊,欧拉玛开始我这边已经准备好了,就是,呃,三点六二七 b 的 这个模型啊,呃啊,对,忘了说一句啊,就是可以看一下,呃,欧拉玛 啊,他所有的这个就是这几个软件啊,他所有的上下文一定都是保持三十二 k 的 一个上下文啊, ok 啊,来先测试欧拉玛,嗯, 看一下显存占用啊, 十七 g 的 大小,除过我基础是零点八 g 的 显存占用外,相当于占用了将近二十三个 g, 二十三点呃,二 g 的 显存,但模型文件本质上只有十七 g 啊, 二十五个 tiktok 每秒,然后再来测试一下。 思考了挺长时间呢,二十六个逃客每秒啊,几乎就是这个数字, ok, 对, 欧拉曼,我们就先把它的内存呃显存给直接释放掉,把欧拉曼直接给退掉了,退掉,然后看一下, ok, 欧拉曼已经退掉了,看一下我的显存啊,显存已经回到这个零点八零点九,这,这这样子啊, 零点八 g 显存已经只有零点八 g 了,奥拉玛,就这边已经结束掉,大概就是二十五个 token 左右啊,然后来看一下这个,呃, l lms 丢丢啊, lms 丢丢看一下, 嗯,看它显存占用啊,是从零点八 g 到了十七点四,它显存占用就相当于将近十六点六啊,就十六点六 g 的 显存占用 二十八个 token 每秒,再来一下啊, ok, 还是二二十八个透坑每秒, ok 啊,然后再把这个 i m 四六六也退掉。退掉,然后看一下,看一下显存已经释放出来了,又回到了零点八 g 啊, 然后再来看一下这个 i m 四 i m 这个那个什么啊,浪漫 c p p 啊,看一下浪漫 c p p 的 这个显存占用, ok, 也起的是这个二十七 b 这个重密模型啊, ok, 啊,已经启动结束了,看一下它的显存是由零点八 g 啊,直接到了十九点一啊,相信占了是十八点三 g 的 一个显存啊,来看一下啊, 二十八个透刻每秒,嗯, 再来一下,再来一下, ok, 呃,它和这个这个 i m studio 啊,本质上都是一样的啊,其实都是这个二十八颗头克每秒, ok, 那 我们把这个 i m studio 这这个,呃,不是拉萨 c p p 也结束掉,把我们的显存给释放出来, ok, 最后来试一下这个,呃,试一下这个 v i m 啊,这个就只能从这个零零五四子系统里面去试测试了。 ok, 这是,呃, ws 的 这个 linux 系统啊。啊,这边我也准备好命令啊,呃,先要去进一下这个虚拟环境啊,这个是专门起了一个 python 的 一个虚拟环境啊, 然后因为要去把它的默认的这个下载的这个路径啊,要设成这个,呃,摩塔社区啊,要不然的话它会从 happyface 去下载啊,就会非常慢啊,当然这个模型我已经下载了。 然后呢,啊,来,我们起一下这个二七 b 的 啊,这个我起的是这个 a w q 这个格式的这个模型文件稍微就是大一点,是二十一点八八 g 啊。 ok, 在 启动当中啊, 显从已经占用了二十一点一, 还在往过升 二十三点五的显存占用了。用 v i m 的 话,其实它对内存的占用也非常高啊,因为我自己相当于是在这个 w g r s l 的 这个子系统下面,嗯, linux 子系统下面, 所以它是既需要起这个子系统又要起这个啊, v i m 还要运行模型啊,所以它内存占用是非常大占用了我大概现在,呃,试着让它起起一下,让我看一下。 呃,现在已经占了二十五二十六个 g 的 内存了。二十六个 g 的 内存了, 还没有起起来,还在起 啊,启动这个过程都已经把我的显存已经给爆了。 显存爆了,已经占了我的内存啊,已经占了十四点几个 g 了啊, 启动的时候会特别慢啊,启动之后的话,其实只是模型占用的显存来说没有这么大啊,但是相对于其他的,呃,本地部署的方式的话,对显存占用来说的话就已经算很大了。 看一下啊,他只是有这么一段啊,就有有这么一段时间是对显存还有内存占用非常大。 ok 啊,现在已经起起来了,看一下它最终的一个显存占用的是二十九点一啊,是二十九点一 g 的 一个显存。 ok, 那 现在我们来测试一下啊, 二十九个偷克每秒啊,再来一下啊。 ok 啊,二十九个偷克每秒。 ok, 那 今天呢这个测试呢就到这里,之后的话会出就是出一些这个通过啊,使用到这个 turbocom 或者是 deflunch 的 这种 啊,一个是对于啊推理的加速,一个呢是对于啊显存的压缩啊,到时候看一下有没有。

千万三点六二十七 b a w q 本地不足四卡币,一百四张卡币一百,每张卡跑起来一百四十多瓦,好吧,看一下这个速度 very 快, 最后看一下多少透,可是每秒好了,也是写完了,来看一下, 一百三十 tux 每秒来个官网看一下官网是什么速度,拿官网来对比一下,同样的提示词,这个是官网的速度。没错,阿里云百炼官网的速度,本地部署的下来,我们已经不输官网的速度了, 或者再给他来一个这个速度,只能说写他飞起来四张卡一百,每张卡一百五十多瓦,也就六百瓦,功耗也还能接受。 ok, 写完了看一下,每秒一百二十次投粉丝每秒 看一下,预览一下。我去,很不幸的是我这个键盘他没有上下键,没招了,这就是一开的 vm, 一 点零点零。

千万三点六三十五 b a 三 b 用核显跑出来十三 t, 可每秒还能八十帧,打打三点钟,这就是二七零 k 的 恐怖四差一核显。英特尔奎尔小七、二七零 k plus 已经有很多人都用上了 零 g 二四核的顶级规模和两千元级超高性价比来玩降维打击,现在呢,风平也是好起来了,他们的性能表现大伙已经很清楚,那今天我们换个角度玩玩他的核显,也摸一下他的潜力,超平性能这块呢,是喜忧参半。先说点不好听的,目前二七零 k plus 的 核显频率被所在了两点四五 g 赫兹, 不管如何更改 g t 电压以及频率都是没用的,实测这种情况下功耗也就十六瓦,温度也就四十度,很明显呢,还有极高的潜力无法释放,只能期待后续 bios 更新了。 当然,即使只能超到两点四五 g 赫兹以内,也是有很不错的提升的了。先来看一下如何操作,其实非常简单,因为差异架构的核显呢,其实超三 g 赫兹都是能实现的,只是被锁住了,所以你也不用去动电压,直接进到你的 bios 中,找到 gt 背频或者 gt radio 之类的选项,反正呢,你看了 gt 俩字就对了,它就是核显。 目前的话呢,备屏改到四十九就行,也就是两点四五级合资拉满,改多呢是没有效果的,而默认情况下,二七零 k plus 和显只有两级合资,频率实际上已经提了百分之二十二点五之多了,非常抽象。 抄好以后呢,我们啥也不干,直接进一手三 d mark time spy 验验成色。抄屏前呢,大家都知道只有两千两百分左右,我这套配置呢,因为是八千四频率的叉 mp 内存条,所以分数更高一点,有两千两百八十九, 超频到两点四五 g 赫兹以后啊,直接干到两千六百四十,提升幅度高达百分之十五,理论性能能提高百分之十五。那实际游戏中能不能达到这么大提升呢?我们先来跑一圈全低特效的 cs 二、 ipx winchmark。 值得一提的是,二七零在 win 十一环境下搭载 ipp 性能优化包,开启 iop 和 ipo 以后,游戏帧数会表现更好一些。 虽然核险受限于算力瓶颈,没啥提升,但如果你是用独险的话呢,我还是推荐把 app 装一下的超平险,一百五十二,超平后一百七十五,提升幅度百分之十五,符合预期。而一百七十五的平置身,一百的 low 身呢,打 cs 二是真的能凑合玩玩了。 接下来上点强度看看三角篓子同地图。跑刀采用幺零八 p 全 d 特效加质量档超分超频前七十三帧,超频后八十三帧,提升百分之十三点六也很不错了,把叉帧开一下,跑个刀呢,至少不会卡的你头晕。再就是三 a 类型的测试啊,全 d 特效加均衡档,超分加叉帧的二零七七奔驰 mark 中, 你可能已经连续听到了两次插针这个词,没错,二七零 k 的 核显甚至也能插针超频前后五十四对六十三,最终算下来啊,也是提升百分之十五左右的。以上的游戏测试均符合理论提升。所以呢,直接可以下结论,二七零 k plus 的 核显是目前超频收益最大的显卡。 虽然听着有点扯淡啊,但扯淡似乎有点不可能。最后我们来看一下 ai 方面的表现。这里部署一个最火的本地大模型,千万三点六三十五 b a 三 b 传统异能扫扫雷这个项目大概需要花费七千到九千个 token, 因为流程相对固定,所以还是很有代表性的。最终测得超频前十二点二三 token, 超频后十三点零八, 这个提升幅度呢,不是很大,说明更大的瓶颈啊,还是在带宽上想要提高成绩呢?超内存比超和弦有用。然后是一个轻量级的辅助模型 jam 四 e 二 b, 它可以用来识图,效果呢,比很多同级的 o c 二模型还要好。 我们让它读取并总结一个 pdf 内容。这个测试呢,提升略大一点,超频前十四点五九,超频后十六点零六,提升幅度来到百分之十,模型越小,带宽瓶颈越小,也是很合理的。 当然,超频后的速度提升多少呢,其实根本不重要。回望这次 ai 测试成绩,你们就会发现,哪怕是个四差一小个险,也能通过共享内存作为选存的形式直接跑起来。本地的纤维三点六三十五 b a 三 b 大 模型三十五 b 的 体量已经很强了,大部分非深度推理内容呢,都是能够胜任的,而且速度很快。 四十八 g 内存呢,也可以保证把上下文拉到五十 k 左右,非常充裕了。十几个头肯的速度呢,你去部署本地龙虾等 agent 也是一点问题都没有的。而肯定也会有人好奇读险的成绩, 那我只能告诉你,十六 g 显存的五零八零,也就是能跑出三十八点八头宽的速度。此时如果来个雷式对比法,你甚至可以说二七零 k 发死的核显有五零八零 m 三分之一的性能,可给他牛逼坏了。 ok? 关于为什么频率锁死二点四五 g 赫兹呢?这个情况我目前看了别的博主也有讨论,不过还没有定论,要是后续有什么新的进度呢,我会继续同步给大家。另外,不要忘记,不仅二七零 k 有, 这满血和二六五 k 也是, 如果你是冲着一个比较强力的核潜而去买处理器的话,想必今天的要求二百 s 系列不会让你失望了。甚至 n p u 也有了用武之地,三者洲呢,也已经正式支持了在 n p u 上运行 ace, 含金量不言而喻。好了,本期就这样,我是老陈,点点关注,日常分享硬件小知识。

今天是 q v n 三点六 m t p 的 完整实操手册。先说结论,二七 b 跑到一百四十透可每秒, 三五 b 到 a 三 b 跑到两百二十透可每秒相比普通 g g u f 直接一点四倍,加速精度不变。 关键参数只要记住一个 spec draft is max 是 二就够了。官方测了,从二到四,接受率从百分之八十三直接掉到百分之五十多,猜反而慢。第一个坑 不能用 master 的 拉玛点 c p p, 要用阿曼的 p r 分 支库达,十三点二也别碰,官方确认有乱码 bug。 第二个坑很隐蔽, 接入 cloud code 时有个隐藏开关会让推里慢百分之九十, cloud code 会往请求里加 attribute header, 导致 k vatch 全部失效。用环境变量关掉,不管用,必须改 settings 点 jason 在 ev 段里把 cloud underscore code underscore attribute header 设为零。这一条我觉得全网最值得抄。 接好之后,本地三五 b a 三 b 跑 server 接 cloud code 足够。日常代码 a 阵我的建议是二十四 gb 显存直接上二七 b m t p q 四量化,这是现在消费级显卡的新甜点,不接受奥拉玛短版的用户也可以走这条拉玛点 c p p 路线。

还在用 gitup 上下载的预编一版拉玛 c p p 吗?觉得速度不够快,功能受限制?今天我就带大家从零开始,在 windows 十一下亲手编辑拉玛 c p p 原版。我的配置是 i 五幺三四九零 f, 内存三十二 g。 还有这张新晋神卡 r t x 五零六零钛,我们将一起榨干它的每一滴 性能。最后用千问三点六三十五 b 模型来一场速度对决,看看源码翻译到底能快多少。全程干货,记得点赞收藏公寓善其事,必先利其器。翻译拉马 c p p 我 们需要准备好三样核心工具。首先是 git, 用来下载源码,去官网下载 windows 版, 安装时保持默认设置就行,非常简单。接下来是 cmake, 一个跨平台的构建工具, 注意,我们下载 vip 包解压后需要手动把并目录的路径加到系统环境变量里,这样命令行才能识别它。 打开 cmd, 输入 cmake 杠杠 version, 看到版本号就说明成功了。最后也是最关键的 visual studio 二零二二,它是我们的 c 加加编码器,安装时工作载一定要选使用 c 加加的桌面开发,其他默认就好。 这一步会花点时间,大家耐心等一下。在翻译前,我们先确认一下库达版本,我的库达是十二点九,注意要用 n v c c 杠杆扼损命令, 它显示的是你实际安装的库达二 kit 的 版本, nvidia 杠 smi 显示的是驱动支持的最高版本,别搞混了,用 get 克隆拉玛 c p p 的 官方仓库,如果觉得慢,可以试试国内的镜像加速进入源码目录,创建一个 build 文件夹, 专门用来翻译。接下来是重头戏,输入翻译命令,因为我们用英伟达显卡,所以要开启库达加速。下划线 d g g m l 下划线 c u d a 等号 o n 这个参数就是关键,它告诉翻译器起用 cpu 支持,然后执行 cmake 杠杠 build, 点杠杠 config release 开始翻译。根据你电脑的性能,这个过程可能需要几分钟到十几分钟。为什么要这么麻烦自己翻译呢?主要有两大优势,极致性能与翻译版本。为了兼容性,通常采用通用指令级,而自己翻译,翻译器 会针对你当前的 cpu 进行深度优化,能更好地发挥硬件性能,推理速度自然更快。功能定制,你可以按需开启或关闭某些功能,比如 如只翻译你需要的工具,或者开启一些实验性的优化选项,灵活性远超预编。一包是骡子是马,拉出来遛遛。我们来测试一下刚翻译好的版本。我下载的是千问三点六三十五 b 的 g g u f 量化模型, 我们用拉玛杠 siri 启动一个 api 服务。杠 m, 后面是你的模型路径。杠 n g l 负一表示将模型的所有层都卸载到 g p u 上运行, 充分利用我们十六 g 的 大显存。杠 c 幺三幺零七二上下纹,长度是幺二八 k。 好 了,今天的教程就到这里,从环境配置到原码翻译,再到性能测试,我们完整的走了一遍,虽然过程比直接下载要复杂一些, 但带来的性能提升是实打实的。如果你也想体验极致的本地大模型推理,不妨动手试一试。有任何问题欢迎在评论区留言。

女士们,先生们,我们再次回来,带来另一场对决。这次我们将检验 qw 三点六二十七 b 的 mtp 版本。我们会让它与标准的 qw 三点六二十七 b 同场。 gwada g 两者都来自 onslos。 其实这就是同一个二十七 b 模型的正面较量,只不过其中一个是 mtp 版本。 mtp 代表多令牌预测,其理念是不同于传统美次 只预测一个令牌的方式。 mtp 版本能在后端支持时帮助提前预测多个令牌,从而加速生成过程。所以这并非聪明模型对笨拙模型的较量。 它们是两个同一家族的模型,是同一个模型,但其中一个版本具有额外的速度优先解码设置。 而我正在观察的是,显然 m t p 版本会完成的更快,但它的质量是否相同? 它能否同样出色地遵循指令并生成高质量的代码?它能行吗?我想知道质量是否一样, 所以我们会像往常一样进行三次提示。嗯,但我看到有些评论里的人说我应该尝试些更难的内容,所以我们先从简单的开始。 第二个会稍微难一点,第三个会更深入并附带更多指令。我们将用三种不同的方式来测试它。现在我们这里有来自 hugging face 的 mtp 模型和普通模型。 挺直接的,我们在一个蓝莓 k p 后端上运行两个 lama swap 十力, 它是两块三零九零。好吧,一个是 t i 普通的三零九零稍微超频了一点。为了匹配带宽速度,我们在这方面应该差不多。 这里有两个 lama swaps 已加载好,准备就绪。你可以看到我头顶上方显示 m t p 模型似乎占用更多。 v r m。 这完全没问题,每个都有七十 k 接触,但根本用不到那些,不过有空间就够了。 这两个都是量化五 xl, 所以 它们都是来自 ansalt 的 完全相同的模型。除了其中一个使用了 mtp 版本外,其他都一样。所以让我们开始输入第一个提示词吧。我们使用的是开源代码, 创建一个用于交互式熔岩灯的单一 html 文件。彩色的团块应当漂浮、合并、拉伸、分离并温和地响应鼠标操作,营造出放松流畅且视觉精致的体验。第一次就挺简单的好吧,看看他们能做什么。 好吧,两个都完成了。从时间上看,表现其实挺不错的。 标准模型用了两分二十五秒, m t p 模型用了一分钟二十秒。 好,让我们看看每秒生成的 token 数。这是 m t p 模型四十四,我们得到的是三十二。 好的,在标准模型上也不错,有点提升。 首先测试的是标准 q w n 三点六二十七 b, 效果不错,我以前还没做过熔岩灯测试。 这很有趣。感觉不错,看起来不错。好了,让我们看看 m t p 版本的表现如何啊? 鼠标没有任何反应。 把你的鼠标移到灯附近。好吧,我就是 我,什么都没得到。 这很有趣,我本以为会看到类似的输出效果同样出色,但结果却卡住了,对鼠标毫无反应。 好的,嗯,我们把提上扔给它吧。好,这里的第二个提示是创建一个单独的 html 文件,来实现一个迷你水族箱模拟器。 鱼应该具有不同的游动行为,植物应随波摇曳,气泡应向上浮动。我应该能够喂食鱼类,点击玻璃并改变水的颜色和主题,让它视觉上精致且互动性强。好吧,让我们看看 这次 m t p 能否表现得更好一点。走, 现在进宫参考 m p p 版本。我们确实有正确的参数配置可以在拉玛 c p p 中运行, 所以它应该能和默认模型一样出色,只是更快一点。我希望第一回只是个意外,一次糟糕的尝试发生了,但我们会看看第二个展示了什么。 好的,都完成了。 m t p 版本耗时三分十七秒, 普通二十七 b 耗时四分五十六秒。好的,每秒令牌数 m t p 版本四十六点九,而标准版本普通那个是三十一点二。 好,非常好。我们先看看 m t p 版本。 行吧,效果不错,食物从上方掉落下来,鱼儿们都在抢食呢。那条小鱼真是个贪吃鬼。 点击玻璃不错,效果和我点击它一样。这相当不错。很好, 你可以在那里看到背景中有一些光束。 好吧,它起作用了。谢天谢地,我刚才还担心了一下。 好的,让我们试试。标准的二十七,看起来简直一模一样。 好吧,当你点击它时,它会敲击玻璃并掉落一些食物。好的,当你点击时,与会互动。好更换主题。 啊啊,加一堆鱼好 好的,它起作用了,它行得通。好的,那么这两者有什么不同?这个有气泡。是这个做的吗?是啊, 哥们,他们彼此完全一致,我不太确定。嗯,植物的摇曳效果在普通版上看起来稍微好一点, 但他确实完成了本该做的事。 一切看起来都很棒,效果很棒,感觉不错。那我点击时与会互动吗?是的,好的。哎,挺好。我认为 m t p 版本在内项测试中表现正常,与标准版不相上下。 好的,我喜欢它,令人印象深刻。第一个测试让我有点害怕。好,我们继续看第三个。 好的,第三个测试。在这里创建一个用于塔防游戏的单个 html 文件,敌人应沿路径移动,塔应可部署不同的攻击模式,波刺应逐渐变难,金钱应靠击杀获取。玩家应在波刺之间升级防御塔, 让他可玩儿精致且视觉震撼。给他起个名字,啰嗦个不停。让你继续做那些事。他们一直想互相覆盖。好吧,我一直想做这个提示,但从未真正测试过。所以让我们看看他们都完成了 m t p 模型了。三分三十七秒,普通模型用了五分二十六秒。 好的,看看那次运行的每秒陀刻数。 m t p 耗时为四十六点五八,而普通版的成绩是三十一点一二。好的,这个差距还算不错。 好的,我们先看看普通模型,确定二十七比。 好吧, 我们怎么做?让我刷新一下。哇,好吧,我们看看。嘿嘿嘿,我想做这个已经有一段时间了。 不错 不错。 好的,各种各样的敌人正从那边涌来,冰冻有效,狙击枪有效,基础攻击也有效。我们来玩个泼水吧。 好吧,看看我们能不能输掉十一条命。好,瞧瞧游戏结束画面长啥样? 我猜我不行。天呐,没错没错,获得升级了可出售增加伤害。哇哦,天呐,兄弟,这看起来不错。 这其实是个很好玩的塔防游戏。这很酷, 不错,拿走这一条命,看看他长啥样。这就对了。游戏结束,波次幸存敌人被击败,最终比分。酷,我喜欢他,我就坐这玩这个 好,让我们看看 m t p 版本是否表现同样出色哦。 nice。 好的好的,我们从哪开始?底部底部,我们猜一下。该死,我错了,再试一次。不错,第一眼我觉得这个更好。我想是的,让我再看看另一个, 让我把它放上去。好啊, 我觉得肯定达标了,可能更好。 等等,我没那么多钱,给我点钱 让我们看看升级是否有效。我要死了吗?是的。好吧,没关系,游戏结束画面很酷。反正能行就行。儿子,好了,让我看看能不能升级。无法取消选择 好的,无法升级。很好,酷,范围范围增加了。 好的。什么是毒药?我没钱,我挂了,不行。好吧,我要输了。 好的,行,我就坐这玩一小时。那个我喜欢塔防游戏, 看来进入第二句时可能有点问题。我看不到已放置的他,或者他无法被放置。他正在放置,但我看不见。我是说这是个简单的修法。 好的,至于哪个更好我也不知道,我真的不知道他们做的是一回事,两者都能用,我分不清哪个更好,所以水平相当。 甚至鱼缸也是我说吧,完全凭手。 不过普通版鲤鱼缸里的植物看起来稍微好一点, 但这只是你大概会再运行一次提示词,然后可能会得到更好的结果。我是说你看那些熔岩灯效果没那么好, 但我敢打赌,如果我们再跑一次,它大概也能表现的很不错。所以我不会因那一次糟糕的尝试而否定它。所以仅凭这三项测试,我认为两者势均力敌。它相当接近。 我不能否定。我在用二十七 b 时可能会选用 m t p, 所以 这就是我的看法。这大概是我第三次或第四次测试 m t p。 至于比较,这是第一次,我说它完全跟得上, 所以我印象深刻。这真是好东西。所以这就是 q 到面三点六,二十七 b m t p 的 对决。 如果你想查看我们刚才生成的代码,它们都将发布在 tokenizer net 上。我把所有东西都放上去了,包括提示词和生成的全部代码。 你可以亲自试试或者复制这些提示词,并输入到你的模型中。今天就到这里,我们下期再见,再来一场正面交锋,感谢观看。

昨天我分享用一万五千块钱的预算配置电脑搭载 rtx 三零九零二十四 g 显存的显卡,跑千万三点六三十五 b 的 模型,评论区有小伙伴他说他电脑 rtx 四零九零跑三点六的模型都不流畅。今天我就把这个问题给大家说清楚, 不管你是 rtx 三零九零还是 rtx 四零九零,到底能不能流畅的跑千万三点六三十五 b 的 大模型,核心在于你选择的显存的大小,还有你选择模型的量化版本决定的。大家好,我是跟我今天给大家详细的分析一下,我用 rtx 三零九零的显卡如何施划的能跑千万三点六三十五 b 的 大模型, 我给大家详细的分析一下。上堂课我没有讲清楚的两个地方,第一个就是,呃,三零九零的这样一个显卡,如何能丝滑的跑三点六这样一个三十五 b 的 大模型啊?第一块就是核心不是你的显卡的型号,而是你选择的这样一个模型的量化版本。首先看这个,为什么你不流畅,不是你显卡不行,而是你 显存的容量一定是二十四 gb 的, 这样一个显存是你的底线。第二的话,你需要选对量化的版本,呃,通过我这个计算公式的话,你可以看到只有四比特这样一个量化模型,它大概是消耗你二十一 gb 的 显卡 的显存,这样的话,你 rtx 三零九零和四零九零都不重要了,都可以施华的单卡的施华的流畅去跑。如果你是 f b 八这样一个这个这个这个模型,它大概会消耗你三十五 gb 的 显显存,这样的话你一个三零九零或者一个四零九零都不会很流畅, 如果你选择的是千万三点六 f b 十六的话,那你大概会消耗七十 gb 的 选存,所以说两张四零九零都不够,这样的话你需要搭载一个 a 一 百的一个八十 gb 的 选存这个显卡,它才能跑得起。好, 这里我详细的给大家看一下 rtx 三零九零和 rtx 四零九零这个参数啊,我们可以看出来,它的那个制成基本上啊,一个是八纳米的,一个是四钠,一个五纳米的,是吧?一个,然后再一个扩大核心是非常重要的 啊,这个四零九零的显卡比他多百分之五十的库达核心,所以说他肯定会快一些,那就如果你有预算的话,一定要选择四零九零 啊,然后这里他显存都是一模一样的,都是啊,二十 gb 的 显存都是没问题的啊。第二的话,第二块就是他的这个显存带宽,显存带宽差不多是吧,然后那个显存的速度也基本上差不多,所以说能影响四零九零和三零九零的核心差距就是这个库达核心,其他的都不是那么重要。还有一个就是你的瓦数, 四零九零更耗电,都耗一百瓦,所以说你这个呃电源也要把它供足了,最好能选择一千瓦,因为你买了个显卡就基本上耗掉五百这个五百瓦,这个这样一个电源,所以说如果你搞一个三,一个七八百这个这个瓦的这样一个电源,肯定是跑不起来的。对, 好,还有一个就是你模型啊,就是你的模型应该这么选,就是模型这么选。哎,为什么我建议大家选三零九零啊,就是不不推荐大家选四零九零,因为三零九零是二四年的一个主流的显卡,对吧?它的价格只有四零九零的一半,但它显存也是二十四 gb, 所以 说你跑同样的千万三点六四 b 四比特这样一个量化的模型, 基本上三零九零和四零九零速度其实差距也就是不会超过百分之二十,所以说它价格是便宜,一个大几千块钱的三零九零显卡大概是六千多块钱,是吧?我上堂课,我建议大家是选择 ddr 五的这样一个六十四 g 的 内存,我看了一下价格,大概是要六七千块钱,就可能太贵了,然后大家可以选择呃, ddr 四这样一个 六十四 g 的 选存啊,六十四 g 的 内存,然后大概就是价格的话,一会会便宜到三千多块钱,这样的话一万五千块钱绝对能拿的下来。 对,所以说三零九零跑这个士比特,这个千万一定是能跑完,因为我算来算去就是二十一 gb 的 这样一个全存,有小伙伴如果有类似的显卡,可以帮忙跑一跑看看。对, 如果你选择量化版本选错了的话,四零九零也是白搭,对吧?这里可以给大家看一下,就千万三点六三十五 b, 它有好多个版本, 这个版本啊,就这个千万三点六三十五 b 啊,各个版本的详细参数给大家罗列一下,这个 b f 十六,也就是它的全全原生的全精度,也可以认为它的完全体,完全体的这个版本大概是硬盘是七十 g 啊,基本上你三张四零九零都可能够够呛了,所以说你要买 a 一 百的八十 gb 的 显存啊,这个显卡才可以的啊, 这样的话,如果你选的 f b 八的话,你需要搭载两个三零九零的显卡,那才可以跑。我这里特指的话就是你跑,你跑,只能跑四比特,但四比特你说,哎,四比特会不会很差呀?不会哦,他轻微的损耗他和这个全精度,你别看他降到了二十一 gb 的 文件,他比这个全精度的一个耗损也就是耗损了百分之十, 所以说你可以认为他只降低了百分之十的水平,呃,让你能够用这个平民级的消费级的显卡,是吧?三零九零那是更猛的,那是更没一点没任何问题的啊。 对对,所以说你要是选择这个 q 八 q 八,它和这个 f b 八都差不多,都会消耗到三十五 gb 这个显,这个显存都,如果你是用不同的平台的机器跑啊,可能还会相差,呃,略有区别,但是它大大差不差也就三十五 gb, 它怎么算的呢? 呃,比如说啊,这是三十五 b 的 这样一个是吧?这个参数如果是 f b 八,那就乘以一,那就三十五 g 的 这样一个选存,再加上 k v 的 缓存,再加上它的其他,大概就是再加两到三个 g 吧,也就三十七 g b 的 这样一个选存。对,所以说你你一张四零九零显卡肯定是不够的,但如果你是这个 四比特这个量化,那你首先要除一个二,也就十七 gb 的 这个缓存,再加个三四 g, 哎,基本上快压满了你这个二十四 gb 的 选存。这个这个东西我不知道大家能不能听明白啊,所以结论就是单卡二十 gb 加一个选存四滑跑前位三点六,必须选择这个量化到四比特这样一个模型,大家可以往上搜一下看啊。对, 好,那你的显卡应该选哪个版本的话一,一般来说就是选到这个三零九零就好了啊,如果你是那个,一定要跑这个,这个,这个全精度啊,就是那个啊,不是全定一个,是跑 q 八这样一个量化的话一定要选两个显卡。对对对 对,所以说你千万不要去碰这个 b b f 十六,这个基本上你你三张都不够的。对对对,所以你必须得买到 a 一 百的这样一个八十 g b 的 显存,这个显卡才够啊,大概算一下价格的话就是,呃,显卡大概是六七千块钱是吧?两个 ddr 四的这样一个内存条,也就是四千多块钱是吧?这就接近一万了,然后, 然后 cpu 也一千多是吧?然后那个 cpu 可能要两千多是吧?然后那个主板一千多,电源一千多,差不多大,差不差的一一万五,差不多能拿下来。对对对啊,最后也就没有啥了啊,希望评论区的小伙伴再看看有什么别的好的建议吗?也可以在评论区回回复,大家一起共同的讨论。

大家好,我是 kitty, 这期视频呢,准备了非常久啊,主要介绍一下千万三点六二十七币,我的实测情况,还有我在 mac 上通过三种不同的方式来运行它们出现的不同的结果。千万三点五二十七币呢,很多人就非常喜欢它, huntface 上也有很多关于它的不同的微调的版本,普遍认为它的性能是非常强的。那它升级到千万三点六二十七币之后,它是上个月发布的,定位是旗舰级的,可以在本地运行的一个智能体编程, 关键看点是用二十七币的模型来挑战前代三百九十七币 moe 的 旗舰模型。 这次三点六二十七 b 呢,特别强调它的编码能力,无论是 swbench verified 还是 swbench pro, tomono bench, 二点零等等, 都是要比前一代啊,要那么大的规模的模型呢,是要更强的。它在文档理解啊, vqa 视频理解视觉智能体方面也是非常厉害。目前呢,我们呃最简单使用它的方式呢,就是在千问 studio 上面去体验它, 官网上部署的这个版本是我们能体验到的最好的。我呢在呃上个月体验了一下它,一开始我用的是一个动态量化 q 五的啊, on slow 出品的 g g f 格式的, 当时我体验下来它的生成速度是十八 talk 每秒在运行它的时候就会有呼啦呼啦的声音。 mac 端和 windows 端不同 啊, windows 的 话很多用户通过三零九零,四零九零都可以很好地去运行千万三点六二十七笔模型, 而且速度还是挺快的。但是 mac 电脑上运行这样的一个 dance 模型的时候啊,一方面速度会普遍比较慢, 第二是在 mac 上运行啊,千万三点六二十七 b 真的 是有太多太多的选择了,现在就有不同的后端。之前我有介绍 lm studio, alama onslos studio, 那 这些已经算是旧的了。现在呢,比较新的有 omlx, 有 deflash m l x, 还有我今天要重点介绍的 m t p l x。 如果大家习惯用 o l m x 的 话,那可以关注它啊。开发版本最近呢,是做了很多优化。昂尔斯呢,它最近也推出了实验性的 m t p 千万三点六昂尔斯的啊, g g u f 模型。我尝试了昂尔斯推出来的六比特 m l x, 然后再加上 deflash, 当时的生成速度是二十二 to 可每秒。而我换成 m t p l s 之后呢,斯比特的模型生成速度 是翻了一倍,这个呢,就有了一个非常大的提升。而且即使是斯比特,它的质量也是不错。我在这里使用的是它对应的一个呃, speed 模型,这里对应的就是斯比特的模型。如果你想要更高质量的,那你可以下载作者最新发布的 关于二十七 b 的 高质量的模型。这名开发者 ivan 呢,他是做了非常多的关于二十七 b 的 分享,比如说这里呢,他用到了 d flash m l x 搭配 zlab 的 drop。 他 认为呢,初步测试看, d flash 明显要比单独的 mtp 更快, 但在质量方面,他观察到呢,有所退化。他也分享了测试 m t p l x 最新的零点三点五的版本的体验。那,嗯,他的体验里呢,五分三十秒内取得了百分之九十三点三的正确率 是在一个数学基础测试上面测试的,在他看来 m t p l x 的 输出质量还是不错的。还有另外一个机构呢,嗯, atomic chat, 他呢在朗姆 c p p 上为千万实现了 m t p, 大家可以看一下。为什么说这些事情花了很长时间,就是我在接收这些不同的啊方法,然后再去尝试, 所以这中间的话是花了挺长时间的。我们来看这位博主呢,他就是用我刚刚介绍的 m t p l s。 然后斯比特做出了一个非常丰富的游戏,这里的这个元游戏元素是非常多的,我们会看到有非常多的建筑, 还有小车,还有这样的一个广场,呃,树木,道路, 还有这样很大的一个广告牌,大概率不是一次迭代去生成的。那这应该是健身房的一个场景,电影院场景, 教师场景都是非常不错的。现在就给大家分享一下我通过四个不同的渠道来使用千万三点六二七 b 啊,它们的一些效果。现在看千万官网上的这是千夫拉船 啊,这个船的话不知道为什么会从这个啊山体里啊出来,感觉逻辑上是有点问题,我鼠标指的这部分的话, 感觉这里绚烂还是有点问题的。缩小来看其他场景里的啊,植物有部分是飘在空中的, 所以他在这个任务上做的是一般。接着我将这张图发给二十七 b, 让他复刻一下,他复刻的这个页面还是非常不错的, 背景的话我们看到因为现在是显示十六点多钟晚下午,所以他已经切换成夜间模式了。云朵的话不是特别像我一开始发给他的云朵样式,这是让他做的一个十字路口交通仿真, 那我们会看到呃,这样的线柱呢,直接放在了道路上,所以是刚刚出现了一个穿模的现象。还有这个啊,车的这个方向啊,稍微有点问题。 此外的话,我觉得他这个道路啊,画的还是有非常多的细节的,左边的控制面板和右边的实时统计数据维度也是非常多,说明他思考还是非常充分的。再看他做的三 d 模尺模拟器, 当我选择啊预设造型,先是球形,那它生成的不是球形的样子,当我点击不同的关节的时候,那我可以点击进行一个切换 啊,这里也是出现了一个 bug。 再看它生成的礼物包装智能助手,当我选中长方体,再点击一下智能分析包装方案。 左侧我们会看到呢,他这里啊,这个预览的话是不对的,因为上方明确是一个长方体,而他这里预览的还是立方体, 那他的造型做的还不错,我们可以看到有这样一个蝴蝶结,但是整个啊礼物一般来说不会有那么多不同的画面。右侧呢,他有一个推荐搭配的丝带,这个切换是 ok 的, 好在下方这样的一个包装纸图案呢,他变成空白了,所以也是有问题。他在右侧,嗯,比较有意思的是,他还给到了一个包装盒尺寸,也就是说不仅是有包装纸, 然后还有包装盒,那我认为这一点是它做的比较好的。现在呢,来看一下我通过运行 ansolo 出的啊, u d q 五 g u f 的 二十七匹模型,它的表现如何?这是它做的仓库分拣仿真系统, 那我们可以看到目前整个画面 ui 还是不错的。这个机械臂的话啊,细节方面是有比较大的问题,而且这个球的话直接穿模穿过去了 也看不到机械臂是怎么把物体给提取出来的。这是它生成的十字路口 啊,这个十字路口的仿真效果就是要差很多了,而这是他做的礼物包装智能助手,我们会看到他做的这个三 d 预览效果还可以,但是切换到圆柱体就没有了,那我选择一个智能推荐包装方案,下方 展开图,那这里也丢失了它,这里非常好呢,有一个包装步骤指南,右侧四代方案这里选择啊,是能实时在左边反应出来的,在下方包装纸 点击没有反应整个页面啊,其实他还是做的非常美观的,但是功能方面有很多缺失。这是二十七 p 生成的马卡龙花园,我给他的要求是希望他生成的是花朵,那我们可以看到啊,这里呢 啊不是特别像花朵,但我对他生成的内容还是满意的,因为有一些比他啊大的闭园模型啊,他连这样的场景嗯都做不出来,所以我个人觉得二十七 b 在 这方面啊回答的还不错。 唯一的问题呢,就是这个场景在我电脑上是处理了,花了啊非常长的时间,这是他生成的膜尺,那这个膜尺质量的话是要比刚刚我们看到在官网上啊用的二十七 b 效果是要差的。 那我选一个预设造型,同样他这里啊不能展示出球形也是有问题。再看他生成的啊题弧,骑自行车的这样的一个体述场景 啊,会有一些闪烁的画面,然后动感的画面的话,自行车没有动起来,而自行车下方呢,是有一个道路的设计啊。那我觉得二十七 b 在 这里还是有思考的,还是思考的不错。再看他生成的纤夫拉船, 这个纤夫拉船效果在我看来其实已经很不错了,我们会看到绳子和纤夫黏在一起, 但是呢,船再往前走的时候,哎,这个绳子又停在原地了。再来看一下我使用奥斯洛斯出品的六比特 m l s 啊,二十七笔模型搭配 d flash 在 我本地生成了一些情况, 这是我让他做的一个啊理发应用。最后他生成的页面里面呢,有一些乱码,整体页面设计还行, 但是错误也是比较多的。嗯,所以在这个问题上,我觉得它做的还算是中规中矩。当时我的体验呢,就是速度比较慢, 所以没有再做更多关于它的体验。不过呢,可以给大家分享一下,我是怎么把它用在啊我电脑上的啊,我当时使用它的时候呢,对 flash 也可以在 mac 上运行吗? 然后他告诉我是可以运行的,并且当时呢,官方的 draft 模型已经上线了,下方给出使用方法。后来我就看到他推荐有一个 d flash m l x, 我 说让他帮我找一下,并且将我的电脑内存信息发给他,问他是否可以运行 d flash, 他告诉我是可以的。在之后呢,我就将这样的一个帖子链接发给 grok, 我 说根据这个帖子,那千万三点五二十七 b m l x 会不会被影响?因为它是 dance 模型? 这里呢,其实是我写错了,应该是千万三点六二十七 b。 在 之后我就问他,千万三点六二十七 b 标准的 m l x 量化版本 是不是已经没有这个问题?他告诉我, m l x 社区啊,出的还是有这个问题。 这是四月份我提问他的。目前呢, m l x 社区里关于这块版本更新还是挺多的, 所以大家可以以新的版本信息为据。在之后我就问他, onslush u d m l s 动态混合精度版是否可以搭配 deflash 在 我的 mac 上使用?他说,可以。那时候我才知道 onslush 啊,它本身有也有出 m l s 格式的。 在之后呢,我就将这样的一个图片发给他,我问他,呃,我该选哪一个?他推荐我用,呃, u d m l x 六比特。在之后我就问他, d flash m l x 一定要装吗?然后 d flash 的 通俗工作原理是什么? grog 呢?就告诉我啊, d flash m l x 是 专门为苹果芯片开发的原声 m l x 端口,官方 z lab 啊, d flash 虽然也支持 m l x, 但社区的 d flash m l x 呢?啊,会更成熟。 接着他介绍了 deflash 的 工作原理。 deflash 呢,当时有个问题,就是他没办法去选择啊模型的温度,而千万三点六二十七 b 在 官方的指导里呢?呃,你写作用的温度和 编码用的温度啊,这是应该是不同的比较好。再接着他告诉我啊, drop 然后 zlab 出的这是一个小模型。再接着我就问他, deflash 有 一个接受率不是百分百,使用 deflash 会影响生成效率吗? 他也告诉了我一下。再接着我问他 deflash 会影响生成结果吗?并且问他 onslush 退出来的 m x 的 版本和呃, m x 社区退出来的版本区别 啊。我们可以看一下 rock 的 一个回复,在这里用 rock 主要呢,一是它搜索会搜索非常多的结果,而且它的生成速度是非常快的。呃,我是比较喜欢用它来查一些比较实时性的内容, 而且还有个非常重要的情况呢,是是在推特上面的话,呃它的呃用户社区里的用户分享还是非常多的, 信息是第一手的。再接着我就问他 dflash 会占用更多资源吗? grog 回复说会占用少量资源。那以上呃大部分情况我已经了解,之后 我就让 grog 呢帮我做一个从零到一的流程,告诉我如何在本地去使用 onslos 啊, m a x 六比特的,而且呢要可以接入到其他的 app 里。之后 grog 就 给到我这样的一个回复了,他又提到 open i 的 best url, 内容还是非常详细的。在之后呢,我让它改成 u v 来做这样的一个管理。基本上到了这里呢,我就可以将啊整个它的回复这段回复 啊发给 ai agent, 无论你是用 codex 或者是 cloud code, 让它根据这些信息呢快速在你本地进行一个安装。那在安装好之后运行呢?我是想把它接入到 open web ui 里, 当时有遇到呃揭露的时候一些响应问题,那也很快让 ai agent 来帮我解决了。我还问他 mac 上使用 deflash 呢有什么坏处? deflash 最早是什么时候推出来的?有误不稳定的情况。 brock 呢也告诉我了, 因为这些仓库呢每天都在变化,所以大家要想知道最新的情况的话,还是最好让 ai 呢啊,实时帮你去答疑,包括 d flash, m l x 的 版本呢啊,当时 grok 他 帮我去查到了多个, 我还问他,呃,既然有多个,我选哪个比较好?并且呢我还问他是否需要用到 o m l x 有 什么好处和坏处, 他告诉我说不需要。那 o m l x 呢,现在也是有很多改进的,所以大家也要以最新的为准。最后呢,就介绍一下,我在 mac 上,最后我使用 m t p l x 获取,我认为是结果是最快,然后结果相对来说也是不错的一个方式。 那 m t p l x 呢?它的安装还是比较简单的,先用 blue install 一下,然后呢,通过 m t p l x start, 它会有也它是有一个交互命令,它会提示你用什么模型。 呃,如果说你是第一次使用的话,可以用它的 speed 模型,也就是默认的选中之后会进行安装。 再之后呢,它会让你选择啊,用什么模式啊,也推荐按照默认的模式来选。再接着呢,它会提示你可以在 web c o i 啊 pi 或 open code 等渠道进行一个对话, 那我选择它的 web ui 啊,打开之后我给他一个提问,我问他什么模型,他回复我, 然后我们可以看到这样的一个输出速度是四十三点六,投看每秒,左侧呢,可以调整模型的参数, 所以如果你在编码的话用零点六。而在做一般任务的时候呢,千万官方建议调整是把温度调到一。在本店运行好之后呢,我就直接打开 open web ui 了,不需要额外的设置, 它会自动识别出 m t p l s 键。问,三十六 b 二十七 b optimized speed 模型,也就是我刚刚提到的 m t p l s 默认的模型,它目前呢也是仓库下载非常多的, 它还有一个更高质量的版本,大家可以去试一下,现在就看一下 m t p l x 呃,斯比特版本它的输出效果。这是兵马俑街舞,这个街舞呢是分了好几个不同的章节, 那我觉得这在一个小型模型上啊,出现了一个非常不错的效果,这是它生成的礼物包装智能助手,左侧我点击不同的礼物,右侧会出现对应的啊礼物预览,整体它界面做的还是非常不错的, 在下方有个参数的场合,点击不同场场合呢,右侧会有不同的包装纸,而且这个三 d 预览效果的时候啊,包装盒和可包装呢有点分离。这是他生成的一个绵羊理发店 啊,这个绵羊理发店对他来说,我觉得他生成质量真挺不错的,小羊头上有个蝴蝶夹,然后我们也会看到一个理发师,然后给一个绵羊理发 啊,他的围布格子型做的也是比较美观,而且这个椅子效果感觉做的也是不错 啊,深红色的一个沙发,整个画面里多个物体位置的摆放,物体的细节我认为做的都是相当不错,稍微有点遗憾的是,他的窗户跟门他是重合在一起了,再让他做一个体数艺术的题。胡骑自行车, 那我们可以看到这个自行车在这里就动了起来,虽然说动的这个啊方式不对,没有向前骑啊,而更像是一个摩天轮了,下方的道路我们还是能清晰看到的。整体这个画面里呢,内容也比较多 啊,可以看出这个版本二十七 b 做的还是不错的。再看它生成的纤夫拉船,那我们看到这里的话,绳子啊变成了像布一样的, 那船的话细节也不是特别好,但是 m t p l x 呢,现在也有个问题呢,就是它不支持图像识别,再看它做的仓库分拣系统, 那我们可以看到啊,物体是突然之间跑到这个机械臂上面的, 所以这里逻辑做的还是有很大问题,而且那箱子的位置摆放也有问题,直接放在了传送带上,但总体而言已经是要比我想象中是要好很多。 这记住,这只是一个斯比特,在我本地只能跑到四十 to 肯每秒的啊,一个模型质量相当 ok 了。除了编码任务,我也将一些其他任务发给他,让他处理,比如说现在是让他做一个啊写作的任务, 写一个不超过三百字的微型悬疑故事,大家可以暂停来看一下这个故事,觉得怎么样?那我觉得还是不错的,再让他做一个推理题,假设月收入七千,生活在一线城市,没有存款,想在四年内凑够六十万 啊,是给出一个计划,在这里他思考用十一分钟,最终给到我回复, 它的回复内容还是非常非常多的。那我这里呢,是让呃 gbt 五点五 thinking 来做了一个打分,它打分是打了五十多分,同样的问题,我也让 gbt 五点五 pro 来做了一下 啊,最终五点五 cking 给五点五 pro 的, 结果呢,打分是打了啊,八十二分。所以我们可以看出这样的一个二十七 b 模型和 gbt 的 顶尖模型是有差距的推理方面。 但在我看来,其实啊,也是很不错了。让他介绍一下唐代诗人李白在九八年纽约马拉松比赛中获得亚军的具体经历。 模型啊,思考了一下,告诉我有一个不可协调的历史时间矛盾。再给他测试了一些其他小题目,比如说让二十七 b 呢,把他很难过,写成一句有画面感的话,不超过三十字。 他回复的是他蜷在墙角,把脸埋进地弯,肩膀无声的起伏。我觉得他在这里回答的质量还是很不错的。咖啡店新品广告语呢,心斗出背,苦甜有分寸,那可能感觉一般。 再接着是让他写一段一百字以内的小故事,结尾必须反转,但不能像段子。二十七 b 呢,写道,他每晚都坐在椅子右端静候路口。直到今天,他终于起身, 指尖触到刚铺好的白砖。原来他等的不是贵人,是智讨政公的盲道。 嗯,有意思,但是可能不是那么有意思。我感觉之后呢,再让他写一个文案,表达终于辞职了,要求洒脱,不抱怨。二十七笔写道,交还钥匙,晴空日程不回头,谢幕指向只向前迎风。 原来转身也可以这么亲。还不错,挺好的,至少不是 a r v 很 浓的话。以上呢,就是今天介绍关于间问三点六二二七 b 的 所有内容。总结一下,我是在四个渠道体验过。嗯,二二七 b 先是观望啊,然后呢,是 onslos 推出来的呃 u d 五比特 g g f 后来又用 onslos 推出来的 m l s 六比特搭配 d flash, 最后呢是用 m t p l s 来生成的 m t p l s。 啊,那目前呢,在我看来是比较满意的,在我电脑上,呃,速度呢?相对其他方式速度快了近一倍啊, 遗憾呢,就是这个模型呢,现在没有视觉能力。这个视频里对二十七 b 的 编码能力是有做多个体验。那二十七 b 真的 挺强的, 写作方面的话,简单体验了一下也很不错,非常推荐大家在本地去使用它。

来,各位看这里新鲜出炉的千问三点七 max 这个视频,不想告诉你他在各大排行榜上取得了多么耀眼的成绩哈,不谦虚的说,我们赛事组也是真的看不懂这些指标哈,但是呢,也正是因为我,我的这些同事们可能技术真的太菜了吧, 所以这么多年下来,虽然依旧没有学会什么叫做面向对象编程,可确实写了不少如这种一坨又一坨的,让人看了就气不打一出来的十三代码,这些代码的归宿原本应该是历史的垃圾堆啊, 好在 ai 出现了,居然让这套代码在生命的最后阶段又莫名其妙的发光发热了一回。所以,各位,你的缺点他不见得就是缺点。这句话是我同事送给大家的啊,与君共勉吧! 那么来吧,先问三点七 max, 在 真实的乱七八糟的项目环境中,我到底能不能放心的把问题交给你来改呢? 就看你今天在这套史山代码里的表现了,我们基于这套代码封装出了三个白银 bug, 难度都是二 m 以上的。如果三点七 max 今天能够做对两个,那在我日常写代码的工作环境下,它就基本上可以达到七十分的水平了, 用来分担一下日常的掏空消耗,那完全不是问题了啊。并且他还能够直接取代三点六 plus 来参加我们后续的祖传 bug 挑战赛的第二轮小组赛。同样,如果他能够做对两个白银 bug, 我 们还会给他一次机会,让他挑战一下四 m 难度的融入了人性的 g 零零三黄金 bug。 如果连黄金 bug 他 也做对了,那我觉得千万三点七 max 你 真的就可以努力一下,冠军也许有难度,但备战一下全球四强还是有希望的啊。 ok, 我 们不废话了,先从第一道白银 bug 开始吧,我们复制一下提示词,考核正式开始。 哎,你看,他上来就启动了一个子弹里啊,这在千问三点六 plus 上是绝对哦,不对,他启动了两个子弹里。一口气启动了两个子弹里,这在千问三点六 plus 中就更加没有看到过了。这一方面说明了他启动了子弹里,另一方面也说明了他启动了两个子弹里。 ok, 很 快啊,他给出解决方案了,我们来抓紧时间让他修复一下吧。哎呦喂,他居然主动维护我这个项目的业务上下文了,也就是这个抻直 log 啊,这好像在千问身上是第一次看到的行为啊,非常不错,好感度再次加一。 但是维护业务上下文这种事属于锦上添花哦,关键还是要看他有没有发现关键的问题,改对关键的问题,从而修复这个关键的 bug, 那 才是最重要的啊。我们看到翻译顺利通过了,这一点在中美模型身上其实都是毫无压力的,那就赶紧验证一下结果对不对吧。 三张图片都显示代表 bug 修复业务流程回归全率,代表其他相关的代码功能都没有被破坏,我们点击验正好的,稳稳的啊。各位,三点七 max 顺利的拿下了第一道白银 bug, 我 们抓紧时间来看第二个吧。同样,我们复制一下提示词,三点七 max 加油吧! 嚯。第二个问题,他很快就定位出来了啊,仅仅用了两分钟,各位,这可不是青铜 bug 啊,要知道以前选手定位白银 bug 最长的能干到半个多小时呢, 那有没有定位对呢?真的能够顺利的拿下第二个白银 bug 吗?答案马上 ok, 这也太稳了吧,连续两个白银全对了!我们前两天测试这面的三点五 flice 的 时候,他也只不过做对了两个白银,好像还不是连续的, 所以这就有点意思了啊,我们再来试试第三道白银 bug 吧,如果他第三个也能稳稳的作对,那至少说明在中等难度 bug 的 定位和解决上,三点七 max 已经非常值得信赖了。我这咋还抽不中了呢?哎,我再抽我再抽,我再抽哦,这次抽中了,来 s 零零三,我们复制一下提示词, 问,三点七 max 你 是否能够轻松的拿下这道题呢?哦,一如既往啊,非常的亏壳类,给人的感觉就像是不费吹灰之力一样。而且大家可以看一下,他在修复问题的过程当中也稳稳的,每次都给我维护了业务的上下。稳啊,这种稳定的表现虽然不作为我们考核的标准,但是到目前为止, 好像真的只有 g b t 五点五和 oppo 四点七,每次都会不厌其烦地帮我维护这堆文档。不过好感归好感啊,这一次他能不能改对呢?答案马上揭晓,我们点击验证 嚯他又改对了,又改对了,轻松加愉快啊!各位,大家还记得第一轮小组赛其他选手在白银体上的表现吗? 所以连续答对三道白银级的含金量啊含银量啊,是不言而喻的。我觉得从另外一个角度来说,这种稳定性如果你只把它当做辅助模型的话,那这种稳定性真的是非常有价值的。 那么来吧,既然气氛都已经到这了,黄金 bug 不 挑战一下好像也不太像话了哈。三点七 max, 请接受来自 g 零零三,来自人性最终极的考验吧! 很好啊,他似乎也发现了这个 bug 定位起来好像有点困难,所以这次他并没有表现的那么从容啊, 这一次已经是他第四次启动子弹里了,但明显还没有想通啊。三点七 max, 他 在这里想了三天三夜,问了一百次一千次,好像也没有得到理想的答案。他可能实在是想不通,人类程序员到底是怎么了,他们为什么要这么写代码呢? 哼哼,我也不知道,千万你别问我,我也想不通,我的同事为什么要这么写代码呢?这到底是道德的沦丧还是人性的纽哦,他给出解决方案了, 通过方案我们基本上可以断定他可能凶多吉少了啊,不过我们还是要验证一下的啊,上一场 vs fly 不 也创造奇迹了吗?这次千万三点七啊,我们看到果然啊,他还是失败了,虽然一路过关斩将,但最终还是倒在了 g 零零三的脚下。 不过各位,他已经非常了不起了啊,三点七 max 连续做对了三道白银 bug, 这已经是我们全球十六强绝大多数选手难以企及的稳定性了, 所以我们还是恭喜千万三点七 max 成功替换掉了三点六 plus, 进入我们祖传 bug 挑战赛的第二轮的比赛当中。还请各位多多在评论区为他打扣,并期待他后续的表现吧,我们第二轮小组赛再不见不散!

想组装一套 ai 的 主机,预算控制在一万五以内,这套配置搭载英伟达三零九零二十四 g 的 显存,六十四 g 的 大内存就能稳定丝滑的运行。千万三点六杠三十五 b 大 模型,本地跑 ai 推理运行龙虾,执行复杂的 skills 都够用。大家我是根骨,今天给大家分享想 要入门学习 ai 的 小伙伴,推荐一个性价比比较高的 pc 装机配置,希望能帮助到大家。我给大家分析一下我们这个性价比神器一万五千块钱以内 的装机逻辑。第一是要保证我们这个千万三点六上下文,这个不炸,连续推理也不卡,能跑这个龙虾和 hyunzi agent 或许还能升级成为双显卡。 好。第一块就是我们选的是三零九零这样一个二十四 g 的 显存啊,这个 gpu 一定是要这个最低配置啊,为什么是这个最低配置,我待会会讲一下。第二的话就 cpu 我 们选的是这个 md 的 和七七零零。第三块内存一定是要六十四 gb, 不 能三十二 gb 的, 对,那电源一定是要一千瓦, 大概总价我算了一下,大概会小于一万四啊,大概是这么这么一个情况,然后这台机器稳定性跑什么呢?因为 不是玩游戏啊,是本地 ai 的 推理的应用需求,因为千万三点六三十五 b 这样一个量化模型下啊,它在 q 四这样一个量化下,它大概会消耗二十二个 g 的 现存,所以说你你十六 g 的 现存是远远不够的啊。第二的话,我还能够跑 dbc, 这 r 是 没问题的啊,或者是这个 glm 四点六,这都可以啊, 那场场景刚刚说了,对吧?我,我可以跑龙虾也可以哈,莫斯 a 卷的各种是给老师都没问题。后续如果你觉得这个三十六三十五币不能满足你要升级到一百二十八币的话,那就要搞双显卡了,对, 好。然后为什么是三零九零二十四 g? 为什么神卡第一不是四零九零,也不是五零九零?第一三零九零是支持哭打技术的哭打技术,而且他现在是已经是呃,二四年的新品吧,对吧?然后这个时候你,你二手的二手价格可能更便宜一些,我新新品的话大概是六七千块钱的样子,是吧? 那库塔技术是他最强的,是因为达了一个这个生态,是吧?然后五零七零太阳,包括五零八零,他的一个最大的硬伤是十六 gb 的 显存,十六 gb 运行不起来的这样一个三十三十五 b 的 参数。尽管你说,哎,我这个显存不够,我可以用内存补,但是你要记住哦,我用内存的话会拖低他百分之五六十以上的。这个性能 我在一篇视频上应该是讲过啊。然后 ai 推理的话,三零九零也是显,就是推理来说显存为王,那这是肯定的。对,那为什么是二十四 g? 这个是三十线,你可以算一下。算了一下,首先这个三十五 b 这个参数, 它就会占二十一 g 的 显存,加上 k v 缓存,加上乱太,它大概就是压满了你这个二十四 b 的 这样一个显存,嗯, 好在,好在。这个,呃,这个,这个英特这套系列的显卡显存和内存是分开的,所以说一般来说操作系统啊,他占不了你的显存,基本上你的显存全部可以给大冒险。 对对对,好 cpu。 为什么?为什么不不去买七七零零?会会买这个啊,就是这个架构的。这个这个七七零零呢?是因为他这个这个功耗低啊,就是功耗低,温度低,更安静,他基本上便宜几百块钱。对对对 啊,这应该是七七千 x 啊,就是就他有带 x 和不带 x 的 区别,不带 x 的 话是功耗低的。对对对,应该也够了。对, 如果你是游戏玩家,你就最好,是吧?最好买差的,对吧?如如果你那个就买买这个 x 的, 因为你不是玩游戏的,对吧?好,这个主板其实都差不多啊,因为因为这个是主板,最重要的是要供电组。对对对,他别的没有什么,其实你可以选任何的主板,是华硕的,包括那个富士康的,包括那个。呃,技嘉的,都是可以的。 为什么六十四 gb 的 内存是底线呢?因为三十二 gb 会出位,出问题了。就是你,你开很多,实际是样式的话,会开各种浏览器和服务,他一打开就会爆,然后你如果是你,你,你弄那个六十四 g 的 话,可以买两个三十二 g 的, 这个组成双通道的,那样的话会大幅大幅度提高你的这个这个这个流畅度。对, 那最后最后就是那个那个。呃,那个那个电源,电源的话你一定要选择一千瓦以上的,如果你你是比较熟悉的呢?你就建议去买魔改版的,魔改版的话它会把这个 这个这个核心芯片去去解锁,是吧?啊?就就是他可以让他更高的显核,核心显存就核心频率和这个显存频率让他去跑。对,所以说他这个电源消耗会更恐怖,所以说应该选到一千二百瓦,但是一千瓦应该够了。我算了一下,对,一千瓦足够去跑这个三零九零这个显卡了。对, 能散热这块也要去做这种散热啊,就是你,你应该花一些钱去做散热的一个东西。对啊,你可以把他委委托到那个那个装机比较熟的人帮你去做散热的这个配置啊,这个不是重点。 好,最后大家可以截图保存啊,最最重要的就是这个三零九零二十四 g 啊,不要不要,买错了,应该我不知道三零九零有没有十六 g 的 版本,应该是没有的,千万不要去买十六 g 的 显卡啊,一定是二十二十四 g 的 显卡。然后其实 cpu 也可以换成英特尔的,这个没问题啊,这个其实不是说一定要它,它的话其实性价比会高一些。 对,其他的就没有什么。硬盘的话,这里选择 r t 是 比较好的,那就一 tb 的 加 tb, 这个其实也不贵,也就一千多块钱。对,然后这个一千一千瓦这样一个这个这个功率的,这个这个这个,呃,电源的话也大概就是不会超过一千块钱。最后这里面其实我没有选择显示器,因为显示器大家随便买个八百块钱就可以了啊, 别的就没有什么了,是吧?然后这个核心就更稳、更精英上,更适合 ai, 更适合长期跑 ag 的, 因为有时候可能要二十四小时挂着的,所以说这套这套配置是台式机的,台台式机的,你这个配置配下来肯定比我跟我老师这个笔记本的这个几万块钱笔记本性能一定要好的,因为台式机的这个电脑的性能远远是要超过 同级别的同硬件的笔记本,这是这绝绝对的啊,所以说单卡就可以跑,但不需要满血,对,不需要什么加钛啊,什么都可以的啊。 大家有什么问题可以在这个评论区问根木老师,因为根木老师之前也是帮别人转过机的,所以说这盘我还是比较熟的,还比较熟的,对,所以说你,你这里跑模型啊,千万不要跑七十币,你三零九零跑七十币,想都不用想了啊,所以说三十五币是你的这个二十四 g 显存的这个, 呃,极限了,如果你说你非要十六级,那好,那你这个只能跑十五 b 的, 十四十五 b 的 这样一个,这个这个这个这个参数的,对,所以当你十五 b 的 话,那你这个模型就很笨了,那就基本上打不了 g p t 三到四这样一个水平了。对,这道课就分享到这里,你学会了吗?