今天是 q v n 三点六 m t p 的 完整实操手册。先说结论,二七 b 跑到一百四十透可每秒, 三五 b 到 a 三 b 跑到两百二十透可每秒相比普通 g g u f 直接一点四倍,加速精度不变。 关键参数只要记住一个 spec draft is max 是 二就够了。官方测了,从二到四,接受率从百分之八十三直接掉到百分之五十多,猜反而慢。第一个坑 不能用 master 的 拉玛点 c p p, 要用阿曼的 p r 分 支库达,十三点二也别碰,官方确认有乱码 bug。 第二个坑很隐蔽, 接入 cloud code 时有个隐藏开关会让推里慢百分之九十, cloud code 会往请求里加 attribute header, 导致 k vatch 全部失效。用环境变量关掉,不管用,必须改 settings 点 jason 在 ev 段里把 cloud underscore code underscore attribute header 设为零。这一条我觉得全网最值得抄。 接好之后,本地三五 b a 三 b 跑 server 接 cloud code 足够。日常代码 a 阵我的建议是二十四 gb 显存直接上二七 b m t p q 四量化,这是现在消费级显卡的新甜点,不接受奥拉玛短版的用户也可以走这条拉玛点 c p p 路线。
粉丝2055获赞1.1万

谷歌刚刚发布了革命性的推理加速技术 m t p, 在 不显著增加显存需求的前提下,该技术可以把大模型的推理速度提升约三倍。 传统的大模型推理是逐个 tokin 生成,也就是一步一步往外吐字。而 m t p 的 核心思路是引入一个额外的小模型作为预测器。这个小模型会提前预测一段,连续进行验证,从而显著减少推理步骤,并大幅提高模型的 tokin 生成效率。 目前,谷歌 jama 四的 m t p 模型已经可以在多个推理框架中进行测试,包括 v, l, l, m, s, g, lan, m, l, x 以及 alma。 如果你对本地大模型推理感兴趣,这一技术绝对值得关注。

这个视频我们来说一下西门子的 mtp 系列的触摸屏啊,怎么来设置我们的 ip 地址, 首先的话呢,我们点开这个主页啊,然后在这个位置的话呢,找到这个 network, 然后我们点开,点开以后呢选择第一个啊 network 设定 setting, 然后我们进入这个位置话呢,我们可以看到这会有个 p n 叉一和 p n 叉二,那会有两组啊,这个话呢是两个口,这是一口啊,我们可以设置两个 ip, 实际上它是两个口啊,我们看下边啊,那么这两个是一个口,这是一个口, 首先的话呢,我们设置哎,这个就是两个口在一起的这个点,这个 p n 杠叉一。然后接下来的话呢,我们可以在这个位置来设置我们的生名称 以及的话呢,底下 ip 地址自找原版啊,接下来的话呢,我们再设置我们的这个选择这个 set ip 设定 ip 就 可以了,这是一种方法,就通过我们打开中屏,我们在这个位置来设置,还有种方式的话呢,就是通过我们薄图, 那么我们插上我们的网线,接下来的话呢,打开我们的薄图软件,当前呢我打开的是薄图 v 二十一啊,那么显示更新可访问设备,我们可以看下方呢,我们可以找到我们的这个触摸屏,在这个位置就是这就是我们触摸屏啊, 那么首先我们的网卡,要注意你的电脑的网卡啊,每个人不一样啊,我的网卡的话是这个,如果不知道你的网卡是哪一个呢,我们可以在电脑当中去找一下啊,比如网络啊,右键更多,然后选择属性, 接下来呢选择更改适配器设置,我们在这个位置找一下,你到底是插的哪个网卡,当前的话呢,我是插的是这个啊,这个口去连的我们的这个触摸屏啊,所以说这是网卡名字啊,在这啊, 网卡确定了没问题了,那么接下来的话呢,我们可以把我们的这个网卡呢来设置一个固定的 ip 地址啊,比如当前啊,右键属性, 我们选择 i p v 四,你在底下找一下 i p v 四,然后选择属性,当前我的固定 ip 是 幺九二幺六八点一点一百啊,这是我固定的 ip 啊,那么接下来呢,我们打开比特软件, 我们在在线访问这个位置,首先找到我们自己的网卡啊,然后更新访问设备,然后接下来的话呢,我们就搜不到的话呢,你可以去看一下控制面板, 打开控制面板,在这个里里边的话呢,找到设置 p g 杠 p 的 接口,那一定要选择一个小图标啊,在这个位置啊,那么在这个位置我们点开 一定要看一下你这选择对不对,首先选择 i 七 online, 然后下方选择你真实的这个网卡,然后点击确定这个访问点,包括选择网卡没问题就可以了, 然后我们打开薄图啊,我们就能搜到这个设备了,然后接下来呢,我们选择在线诊断啊,然后接下来选择功能分配 ip, 那 我们在这个位置给它分配 ip 地址, 比如说当前的话呢,我们定义成冲屏是点一点二百,然后分配 ip, 我 们来看我们的右下角这个位置啊,什么时候显示分配成功了,你看参数已成,成功传送就没问题了, 以及的话呢,我们可以分配我们的设备名称,比如说这个屏的话呢,我们叫做呃, mtp 七百,然后点击分配我们的设备名称, 同样也看我们的这个右下角这个位置啊,看是否分配成功。如果分配成功以后呢,我们点击访问设备,我们就可以看到啊,有了设备名称, ip 地址就有了 啊,这就是我们的这个西门子的 mtp 的 出屏,它的分配 ip 地址的一个方法。 分配好以后呢,接下来我们可以再看一下啊,比如说你薄图分配了,你也可以在这个位置来看啊,来看一下它的这个 地址是不是分配的正确,我们上下翻一翻啊,分配的没有问题,在这块 每天晚上七点半跟着郭哥学习 plc。

千万开元的三点六二七 b 大 模型发布以后反响很好,但是二七 b 全参数激活以后,对算力要求也随之升高了。今天就和大家分享在不花一分钱的情况下,如何利用 mtp 将二七 b 的 运行速度提升一倍。 我们先来看一下使用 mtp 的 性能对比,然后再和大家分享详细的 mtp 编码过程。我们先来看一下未使用 mtp 的 二七 b 生成速度, 生成速度约四十五 token 每秒。我们再来看一下使用了 mtp 的 二十七币生成速度, 生成速度约八十四 token 每秒。接下来我们看一下详细的 mtp 翻译过程,我会把文档放到网盘里分享给大家。 首先介绍一下我的软硬件环境,操作系统五半桶二十四点零四,显卡四零九零酷的版本十二点九点零。我们先安装一下编辑工具, 首先我们克隆拉玛点 c p p 的 代码 获取补丁, 合并补丁翻译支持软卡加速的拉玛点 c p p, 现在就翻译完成了, 我这里已经下载好了支持 mtp 的 模型文件,接下来我们我们用它来推理支持 mtp 的 千问三点六二七 b 模型 现在就运行起来了,我们用浏览器 ip 地址加端口号的方式打开页面, 我们输入一个问题回车,我们看到现在的速度已经来到了八十多分每秒了, 我们再来关闭 m t b 试一下速度, 我们看到生成速度又回到了四十多分每秒了。 如果大家正在本地部署千万三点六二七 b, 强烈推荐大家试一试 m p b, 这是开发者给我们提供的免费提升性能的途径。感谢这些开发者的辛勤工作,我会把视频中的命令以及模型地址做成文档放到网盘里共享给大家。

拉玛 c p p 的 投机解码最近迎来了更新, m t p 功能已经被合并至主线了,搭配上阿斯拉夫最近出的包含 m t p 头的千万三点六二十七币, 基本上可以做到没有代价的加速。这个版本是可以适用多模态功能的, 模型权重的话一般国内在摩达下载要快很多。我是实验已下载了 k q 四,然后多模态文件两个都下载了。哇, 这次主线部署就不需要去合并分支了,整体方便很多。嗨,苏雷,我这里拿 q 四 k m 来实验上下文,凯满两百五十六 k k b k 是 用 q 八来炼化,哦对了, 这个版本主线是不支持 turbocharged, 所以, 呃,我是用 q 八来做演示。咦,模型加载完可以看到显存占用差不多在三十 g 左右,也就是说五零九零可以很完美的加载两百五十六 k 的 上下文。 这个是没开 m t p 的 速度差不多在 六十五六十六,然后这个是开了 m t p 的 速度提升挺明显了,基本上两倍。在平时的 a 帧使用中,接受率是最影响输出速度的一个 残数,像在我在长工具调用中,这个接收率在百分之五十六左右,我的速度就是在八十头个每秒,如果是在写代码的话,基本上能干到七八十,百分七八十, 那么这个速度就会在一百二十头啃左右,还是一个相对很大的提升。 不过这里还有一个针对二十四 g 显存的方案,是把上相文降到一百二十八 k, 把 kb cash 等量化格式调到 q 四,这样的话目前就是占用二十三 g 显存,勉强能跑。哎呀,然后我不是很推荐 q 四以下的亮华精度啊, 他们的损失太大了。就是感觉智商降低很多还是 q 四以上是一个比较 甜点的一个位置。是我一般就是用 q 四 km。 那 现在换显卡了?我现在自己就是刨原版了嘿构建指令跟启动指令回头我也会放在拼楞区到底。

今天说一个不需要换模型就能提速百分之六十五的方案,安斯勒斯放出了 q n。 三点六 m t p 版本的 g t u f m t p 是 什么? 反董大,模型解码是一次吐一个 token 串形的很慢。 m t p。 让模型训练时就学会预测,后几个 token 背时拿来当草稿,一次性赛会主模型检验,通过就接受,不通过回退。也就是说,主模型自己当自己的 draft, 省去了额外训小模型的麻烦。实测数据很扎实,一张五千零九十跑 q n 三点六到二七 b, 开启 m t p 解码一百零五, token 每秒关闭, m t p 解码六十三, token 每秒快了整整百分之六十五, 草稿接受率接近百分之八十。对本地日常对话和写代码这类场景, m t p。 几乎是白送的速度。这次安斯洛斯的价值在于把模型训练阶段埋的 m t p 头权重保留在 g g u f 里, 再配合拉马点 c p p 这一端的哥们支持。整条链路打通了,普通用户不需要懂一狗或美杜萨,加一个参数就能开。我的建议是,单用户本地跑代码的,直接无脑切 m t p 版长文档 r a g 或需要多并发的再等等,目前那些场景还有限制。

第二个部分呢,是我们要来说有效授权,如何通过安排工作的方式让别人想做啊。没有。管理的核心呢,是关于如何把这工作安排下去,安排下去之后你怎么授权,对吧?啊, 来看一下到底什么是所谓的授权啊?我们在一本书里面看到这样一个定义,很有意思啊, 授权意味着把自由给下属,哎,自这个授权怎么跟自由有相关呢,对吧?使他们成功的完成下属想要完成的工作。 嗯,难道他想怎么做他就怎么做吗?这个行不行啊?而这也是组织期待他们去完成的。当您看完这个定义之后,不知道各位你有什么想法?这其实是关于目标管理与自我控制的方式。 说到的授权的定义,你有感觉吗?授权的这种定义,包括管理里面的定义非常非常的多啊。那么这个呢?正好是从目标管理这个角度上说出来。那么这时候跟您说一说啊,目标定下来之后啊, 你要把这个自由给到下属,让他自己想做,同时他能够完成这个工作,你也期待他们就完成。你们形成了共同目标,达成共识的情况下,他才能做自我控制,这个授权才真正能到位,他才能真正把这个事情担在自己肩上,他想做。 ok 啊,到底是这个, 那授权有哪些好处?这个其实很简单啊,大家一看就明白。但是关键问题是,大家都知道授权有好处,您愿不愿意授权, 我们后面会给讲到如何来授权的方法。但假如说您都不想授权,再给您方法,其实也没有太大的意义了。所以我们来跟您多花点时间,说说到底您愿不愿意授权这些想法。如果您存在,估计您不愿意做授权,那后半时就 就没法说了啊。来,咱们一个一个来看看这些想法。您是不是有第一个都向我请示汇报,才像个管理者。这个想法您有没有 什么意思呢?当官一般来说都比较有感觉啊,尤其在咱们国内啊,一句领导啊,哈哈,如何如何,一般来说都比较有感觉啊。那这时候别人都向你请示汇报。假如别人不向你请示汇报了,有些人就没感觉了。你为了要保持这个感 感觉,您会期待对方去向你请示汇报。那这时候您不安排工作,您自己干的方式啊,或者每次就指使一点的方式,估计这种方式更便于让对方来汇报。 那如果您愿意这样,您不会做非常好的授权的,您会把这个权利不给对方,这会让您更有感觉。关键是您要不要这个感觉。 现在您的角色变了啊,您不是个大头兵,您是个带头人。如何能让别人做的非常好,这个很关键。您要分享权利的方式,让别人承担起来这份责任。这个是您需要去做的 啊。这是第一个啊,看看你有没有第二个。自己做效率更高,喜欢做自己擅长的事情。这种状况你有没有 实话跟您说?我有啊,所有这些基本上我都我都曾经经历过啊。比如说自己做效率高,是不是您自己做效率高?一般来说是 因为好多朋友,您之所以被提拔起来的原因就是呃,您是某一方面的骨干对吧?您做的非常之好啊,那这时候你自己做效率高,你比别人做的非常效率高,做的非常好,这个很正常啊。 喜欢做自己擅长的事情,人之常情。为什么这么说呢?谁都喜欢做自己擅长的事情,您做的非常之好,非常之擅长,那这时候做的非常好的情况下,会让你非常有成就感。这么有成就感的事情,您当然愿意做了, 对吧?那喜欢做自己擅长的事情,这是人之常情啊。所以两个加在一起,其实很常见。还是 是那句话,您现在的角色是什么?您现在角色是?您是带头人,不是大头兵。如何让别人做擅长,如何让别人效率高,这个是您需要考虑的事。 那那怎么才能让对方能够让他擅长,能够效率高呢?给对方分派工作的方式,安排工作的方式,授权的方式,让对方承担起来,慢慢对方才能提高。这是您的角色决定。你需要去做啊。 自己做把握大,出问题毕竟还是我负责啊,我涉及到一些风险,假如说这个,这个出问题啊,自己要负责。 好,来咱们看看啊,自己做是不是宝宝的,肯定是您非常擅长吗?对吧?好,那这时候您自己做,这个出风险 显得可能性也相对比较低。出问题是不是你要负责?肯定也是啊,您不可能说出问题之后都都都都都下手负责,都都怪你怎么怎么着。哈哈哈, 他出问题跟你也有关系,您是直属领导,怎么跟你没关系呢啊。那这时候两者结合起来也很正常。但是我想问问您,为什么会出问题?为什么会风险相对比较高, 您找到原因了,这个事就好办了啊。为什么会出问题?为什么会出风险?我给你举几个例子啊。比如说这个人能力不足,会不会出问题? 能力都不保障情况下,出问题太正常了啊。再比如说,这个目标只是您单方向的,指令式的,这种方式的目标对方不认 认同,会不会出问题几率也比较大,风险也比较高,也会有,对吧?对方不想干也会是一个沟通过程之中也会有,流程机制不保障也会有,各个方面都会有。 既然如此的情况下,那么您把这些管理里面那些关键点您解决了,估计这个问题就会小很多, 风险就会入很多。这是您在管理里面需要做到的事情。而不能因为这样的一些担心就不不安排工作不授权这种思路。看看您能不能转过来啊。下一个 我授权了。我之前有过失败的经历,对吧?完了,自己呃,自己还要督促提醒啊,觉得自己很累。当当当当这种想法有没有啊?自己做不用自己督促自己吧,自己至少轻重还击。 安排出去之后还还得督促他,提醒他觉得特别累。这种。不知道您有没有这个想法啊。其实这个呢,给您一些小工具小方法啊。那怎么去监督? 给您一个工具啊,建议您怎么做呢?安排时间,让他向你汇报的方式会比较好。 具体怎么做?比如说一项工作,你安排给张三,那跟他怎么沟通呢?怎么怎么说呢啊,这项工作安排给你啊。完之后咱们大概是星期三啊,上午十点钟,咱们需要再碰一次啊。关于这个进展,到时候你来向我汇报安排时间,让他向你汇报是这个意思 啊?安排完了之后,这个事就结束啊?那星期三上午十点钟,您 估计这个人应该会怎么做?一般负责任的一一般来说就会找你说领导,上次咱们约的是星期三上午十点钟,这个工作现在进行到什么情况?如何如何?等等。他主动来找你。他主动来找你情况下,你就不用去嘟着他了,你不就省事了吗?很简单 啊。好。假如说对方没来找你怎么办, 对吧?他有可能找你,有可能不找你,假如他没来找你怎么办?那这时候您去找他就是很正常的事情了,对吧?你不来找我,我还不能找你吗?对吧?这工作进展的有问题,对我有关系吗?啊, 那这时候您您您走走过去拍拍肩膀说小张啊,这个这个,当时咱们约的星期三上午十点钟。这个你怎么样来找我呢?今年情况怎么样了?我来问问您。 ok, 如果您这么说的时候,您估计对方 会怎么讲?咦,领导跟我约了星期三上午十点钟, 我给忘了是吧?领导没忘,领导来找我来了,领导也没骂我,也没训我人,这是关心我的工作。那赶紧跟人汇报完这屋现在情况怎么怎么着。好嘞, 等他说完之后,您继续跟他约,安排时间,让他向您回报。怎么安排啊?你跟你跟小张说哎,还还还不错啊,怎么怎么着啊?完之后呢?咱们下周五 啊,上午下午两点钟啊。比如说换个时间点,下午两点钟咱们再再碰一次。那说完之后你就可以走了。 等您走了之后,您估计那小张他会怎么想?你看领导又跟我约了是吧? 这次跟我约的我给忘了啊。完之后呢,领导又又又给我把工作里面的一些事情,观点点,帮我很多的忙。现在又跟我约?什么时候? 他不是本周,是下周,下周周五下午两点钟把。我工作也挺多完了,领导这件事也挺重要。那这事我老忘,这可怎么办?忽然之间你看到自己有个手机是吧?我找个软件,我在里边 记录一下啊。什么什么时候完,之后几点钟,关于哪件事情要向领导汇报。各位这是一个正常的做法吧。 啊啊,那现在问问您,下周五下午两点钟,某项工作要取得某个进展,并且向领导去汇报,这时候是谁的目标? 我估计好多朋友明白了,这是共同目标 对吧?并且他会用这种方式做自我控制。各位有感觉没有?所以目标管理这个东西,其实是融会在管理里面各个地方的。哈哈。像这个地方您做的好的情况下,其实也是目标管理与自我控制的方式, 双方形成共同目标。他想做你拦不住,他不想做你也推不动。这时候他监督自己的行为,他自己去努力完成您的那份付出,您的那份辛苦就会做很多。他想做吗?对吧?就简单了啊,下一个。之前有个授权下属,甚至开始违规操作等等等等, 这种情况有没有啊?有些朋友说我觉得千万不能授权啊,原来是怎么怎么着啊。之前的话有人还比如说越我的权等等啊,违规等等。好。有的朋友这种经历 的话,他会有这种担心很正常啊。关键是我想问问您,您的下属是不是特别想越您的权,特别想违规,是不是这样?一般来说不是。您觉得呢? 一般来说您的员工最担心自己是不是违规?是不是越权,是不是犯错误?为什么?因为他犯错误之后容易被惩罚。我说这个道理就很简单。那问题是他不想做的事情为什么做了呢? 我想问问您,他知道那个边界不?他知道哪些东西是违规的,是那个界限他不能逾越的。这这这这个这个这个界限他知道不知道? 如果不知道的情况下,他走着走着忽然间踩上雷了,忽然间炸了。这这这到底是怪谁? 是领导的吗?对吧?您就是做领导好的吗?那现在您需要把这个界限本他跟他说清楚,责也好,权也好,利也好,各个地方您是不是能够把他说清楚?说清楚的情况下,呃,估计对方一般来说会比较比较比较明白 啊。他的去维尼那个一般来说不会啊,除非你遇到坏人了。那怎么办呢?哈哈哈是吧啊。最后一个。缺乏合适的人选,不知道如何授权,如何控制,如何沟通。这个想法你有没有? 有的朋友会说那我不会啊对不对?我也没有合适的人啊对不对?我这这这怎么办啊?这个是什么?我管这个东西叫借口。 怎么讲借口?缺乏合适的人选。您在合适的人选这个方面上,招聘也好,提拔也好,培养也要 好。您做了多少工作?您不做肯定没有,您做了估计就有可能有。我不能保证什么对吧。啊,缺乏合适人选和您在人员这个部分上培养的投入时间精力相关。不知道如何授权,如何控制,如何沟通。您学了没有? 还是跟自己有关?有人说那那人力资源没给安排课对吧?公司领导不愿花钱。各位,如果您真想学东西,现在学东西是最简单的事。之前咱们还说什么什么信息爆炸呀。如果是现在没人提这茬了,为什么?早就炸飞了。 现在你想找到点信息,学到点东西,太简单对吧?手机百度百科都能查一堆,这是没有任何问题的。不花钱基本属于不花钱。手机都可以查对吧。你说找到都 东西太零散,买本书行不行对吧?几十块钱的事估计对你来说不成任何问题啊。有人说看书太累,找视频行不行?网上视频一大堆,现在你看就是视频对吧。啊,你说视频的话没?没地找。 好多 app 都有,有的就几块钱的事,您您都不愿意去,不可能,关键是您愿不愿意投入。所以这个东西我说是什么呢?这个叫借口。哈哈哈,好。类似这些都有可能是您不愿意安排授权工作,类似这样的一些原因。 这些内容存在一条,估计这件事授权,这件事您就不太会做了。您不想做,教您任何方法,没有任何意义。那我们待会会说方法。但是这些其实是更关键的内容啊。摆在这。您可以自己做一个 简单的小测评。授权的意义是应该把可以由别人做的事情交付给别人,这样领导者才能做真正应该由自己做的事情。这是你有效性的益达改进 啊,这是你工作中的一个部分啊。领导者要做什么样的事情?领导者要做不可被别人替代的工作。这是德鲁克的另外一番话。怎么讲?如果您的工作是可以被别人替代的, 说的不好听的,很有可能您就跟大头兵也差不太多。您做的一些工作不值钱。什么样的工作? 定目标,跟对方沟通的方式需要您去做?关心对方下属的一些能力方面的事情,您需要去做哇。授权工作您需要去做激励工作,您需要去做决策等等。梳理流程,这是不可对别人替代的工作。您多做这方面 的工作,别做特别多的琐事。这样的方式对您的管理的这个效能啊,是是有一定的,这个这个降低的啊。好,那具体怎么来做?授权给您一个大致的步骤。 好,同样的,说起来容易,做起来不一定容易。咱们来看看啊。第一个应该怎么做?说明授权的必要性, 之后运用授权来激励啊。任务来激励员工。之后说明任务内容,听取对方看法,说明选择权限。呃,了解物之后定检查时间。类似这样一种方式 啊,来摆在这了。咱们来看看问题。几个问题第一个问题假如把第一条去掉,直接从第二条开始行不行? 有的朋友说好像好像也可以吧。好嘞,假如您觉得可以,咱换一个问题,把第二条去掉,一接上三往下走行不行? 你要说好像也可以。好嘞,不管您怎么想,我把前两条都刨掉,直接从第三条往下行不行?说明任务内容。怎么怎么着。要说这太太生硬了,有没有这么干的? 有的吗?得把前两天去掉,就从第三天开始行不行?人说好像也行。那前两天干嘛使 啊?您光看这个条目没太大意义。这个这个这个分析起来挺好玩啊。说明授权的必要性,这项工作对公司,对部门,对项目组等等等等 有多重要,这么重要的事情交给了你,跟你结合起来,才有可能用这个事物来激励员工。这两者干嘛?是你这朋友可能明白了,共同目标, 这既是公司的目标,也是你的目标。这个时候做到这个程度之后,再说任务内容才是 ok 的。所以缺一不可啊。但是真做到位的又不太容易。 比如说有的朋友说啊,这个授权必要性啊,非常重要等等。有些朋友就说啊,那个 别小张了,那老张啊老张,这个事情特别重要,非常重要,公司非常信任你,你是最合适的人。选。这种词行不行?那朋友说这这这词几个词不能让对方有感受, 那应该怎么才能说到位?这项工作对公司意味着什么?到底意味着什么? 这整个项目组对公司对对对未来的发展会起到什么样的作用?你把那个具体的给他描述清楚了,对方才会有感觉,有了感觉之后,才能跟对方结合在一起,这两者才能真正发挥作用。 您跟对方说,只是说特别重要,非常重要,极其重要,没任何意义的。对方听词听的多了,几个词句字,几个词语,不会能让对方有感觉,对吧?啊,说明任务内容,一般来说,好多朋友都问题不大啊。听取对方看法,这个可能会有点问题 啊。怎么讲会比较有问题呢?您会不会问对方你的看法是什么?你的想法是什么?你是怎么看的?类似这种话你会不? 我问有些朋友交代完之后就直接来一句听明白没有?哈哈,很常见啊很常见。你你看你自己有没有。各位听明白没有?这算不算是听取对方看法? 答案是不算。为什么?比如说您问对方听明白没有?对方一般都会这么答。 好多朋友得到的答案是啊,听明白了。但是根据您的工作这个这个经验来说,您估计对方是真听明白还是没听明白?好多事没听明白。但问题是他没听明白的情况下,他为什么还会说他听明白了呢?他会跟你说假话。这是什么意思呢? 啊?管理这个东西呢,就就比较活啊,还有很多的场景啊。我我给你举一个场景 咱们试试。因为对方听明白没有?您跟对方说了十分钟五分钟,十五分钟,半小时等等等等这个工作安排了。说完之后,因为对方听明白没有,对方能怎么答?对方说我没听明白可能吗?不可能 对不对?那意味着你这十分钟五分钟八分钟还是怎么怎么着?那意味着我死活听不懂。那是不是显得我很笨的感觉。 有人会承认自己很笨吧?不会他会怎么说?嗯,听明白了对吧?这所所以才会出现这样的答案啊。对了,还有一种情况更好玩。你们听明白没有结婚会怎么答? 领导我再想想这行不行?我说这想想他会想他会想吗?你估计 不会,当时都没听明白,回去还会去想。早忘了你说没说过了好吗。哈哈哈。他不会去想的。所以当对方说领导,我再想想意味着什么。 意味着对方说领导,我没听懂。你要按照对方能够接受的方式再跟对方沟通,双向交互起来,听对方的看法才 ok 啊。您了解的越多,其实你也知道对方接受程度嘛,对吧。好处很多。说明权责权限,这是最难的一点, 因为好多朋友这部分有可能您就不不怎么说。 经常出现这样的状况,您的下属问了啊,领导,这这种情况应该怎么处理啊?领导说啊,这这个啊,这个应该应该这么做。哎,这这么做会好一点。各位,这种情况你有 没有?为什么会出现这样的状况?原因很简单,这领导自己也没想明白,不遇这个事的情况下,他自己都不知道这个事应该怎么样去处理,这个权的权限应该怎么去定。 那如果是这样,对对对,对方踩雷的几率很高的。哈哈哈。所以您要把那个权责权限给他说清楚,您说的越清楚,对方越明白,越不可能去越您的界限。 所以这个东西你要提前去把这个东西这个设置好啊。但是另外一个极端呢,也会有啊。有的。领导说啊,什么事都来找我,要你干嘛?你自己想主意去这行不行? 这也不行啊。负责任的我说领导让我自己想主意,那我我把这想 想想应该怎么样去完成,结果人家违规了怪谁,对吧。下次你再安排工作的时候,对方接不接完了比较麻烦。另外一个是什么呢? 我都问领导了,领导也没告诉我,让我自己想出问题还得我负责。那这这这怎么办?回头回头回头,你再说了再说了。我当时问了你了吗?我不是没问你,我问了你一说你没跟我说。那怪谁?那不怪你怪谁?怪你喽。 ok? 这这是甩锅的下属对吧?都不太好。您自己能不能把这个事先说明,想明白之后跟对方去交代?说的越清楚,对方接受的可能性越大。 那也不容易违你的规啊。确认对方了解物。呵呵,就类似之前说那个,听明白没有?这这不是好方式啊。 定检查时间,安排时间,让对方向你汇报的方式,这是我们建议的方式。这个前面咱们说过,不再多说了啊。这是关于授权的大致的步骤。这种状况您看有没有? 我给念一下。一位经理在办公室过道遇到了下属小陈啊。小陈说领导,我正要去找您呢,您看您让我做个春游的方案。我问了一下大家的想法啊,实在是众口难调啊。各有各的想法啊,您说该如何安排呢? 经理想了想,也确实很难,三言两语说清楚,于是说称我考虑一下啊。就这样,本来是下属负责的工作,一不小心成了经理自己的责任啊。小吃还过时不时探头问一句领导,你考虑怎么样了?哈哈,你没告诉我怎么做,我也做不了啊。或者发邮件请示一下。似乎变成了小吃在见证 经理的工作啊。经理忙上加忙,就不知道如何才好。各位,这种情况你有没有?这个叫什么呢?这个叫反授权啊。我们说授权也有反授权 啊。你把工作交接出去之后,对方要把这个球踢给你,那这种方式怎么处理?我们最后一个点,把这个点一点啊。 好介绍一本书。这本书呢,我估计好多朋友会看过啊,这比比比。比较早的一本书,而且很经典啊。别让猴子跳回背上。我们平时说踢球 啊,这本书讲的不是球,叫猴子啊。一个大猴子从这个人背上跳到那个人背上啊,这个这责任啊,这个事情啊等等,这个意思。猴子啊。那么这本书里边的一些 关键要点,我给您总结一下,提提提炼一下啊。给您放在这个地方如何应对?反授权。第一个,责任必须落到下属身上。谁的责任? 你的责任,这将工作安排给你之后,你要总挑重担,你要把这个责任挑到自己肩上,你不能天天老用甩锅的方式来对待我,对吧?责任必须落到下属身上,既然交给你了,你要你要承担责任,不是我要承担责任 啊。这是第一个,这是,这是前提啊。第二个,不能随意告知怎么做,或者气质不理。这什么意思呢?一种情况,随意告知怎么做。各位随意告知怎么做,会出现什么样的结果? 他下次还找你,对吗?为什么还找你?因为找领导的吗?领导给的答案的吗?对不对?每次一找你就有答案,一找你就有答案,这费省脑子对不对, 对吧?人一般都会通过这种方式去工作。这这这简单易行嘛。这个很简单。那每次都问喽,对吧?那每次你都告知,那这时候你们会形成一种哈哈互动关系。还有一种情况是什么呢?有些下属可能甚至会有坏心。 咱们讲坏心这事谁拍的板,问完之后领导说怎么做是吧?都是领导拍的板好,出现问题之后怪谁? 管领导?我们都是领导,您当时怎么怎么说? ok? 这叫甩锅。这种方式不太好啊。立刻告知怎么做 不太好,弃之不理也不好啊。有些朋友会说啊,那这这交给你了,就得你负责啊。这这这这怎么怎么着啊。 呃,这个咱们前面提过,有的当时就就胡做,你也受不了,他不做你也接不住啊。这这都不太好,怎么做?第三条是关键安排时间,共同讨论下属的方案。我不是当时就告诉 送你,我是一段时间之后告诉你这个工作,共同讨论你的方案。你要给我你的方案, 那具体怎么做?比如说,如果这件事情不是火烧眉毛的情况下,你有没有可能跟他说一个小时之后才来找我?可不可以? 一般来说没问题对吧?好,甚至跟他说下周几或者下个月或者几个月之后再来找我都有可能。具体看什么事。 比如说你在年初的时候跟年年底奖金分配的问题,你你可能过一两个月再再来讨论,这这有可能对吧?啊?因为因为很多东西没有,还没有做的情况下,你讨论也没有意义。这有可能。 留出时间来干嘛?你要给我你的方案,这个事情是你负责的。 那这时候你的方案是什么?你得给我你的想法啊。我在公司里面有时候说这种话,这个刚开始他们都不太理解,后来也就明白了啊。我说什么呢?本人只做选择题,不做简答题,也不做论述题, 各位明白什么意思了吧?选择题您给我几个答案,一个也好,两个也好,哪怕你只有一个情况下,我帮你增增删删减减或者补充,对吧?慢慢让你培养第二个如何?如果这都简单啊,你给我三个两个的,咱们可以选择,这是好的 啊。你你你脑子里面什么都没有。让我做简答题,甚至让我做论述题。我做论述题意味着我替你干了,我替你干情况下,那句话就不好听了, 我要你干嘛是吧?所以你要承担起来这个责任,这个是关键点,但是我可以给你留时间,你不会放炮,我可以教你。这个可以,但是你不能甩锅的方式就直接让我来,这个不行 啊。这这这个这条比较关键啊。假如说屡次出现问题,各位,如果总是出现问题,那估计不是下属的问题,是您自己的问题。怎么讲?为什么总出问题? 有没有可能是这个人能力不足啊?这这不是一个猴子,这是个星星对吧?背不住。哈哈。这个这个这个这个责任对他来说,他是实实在能力不足,那你为什么把这样的工作安排给他对吧?这是跟管理者相关的。屡次出现 问题,很可能跟你自己相关,甚至有可能这个人一元不足对吧?他为什么一元不足是吧?有可能是要考核的问题,也有可能是别的问题,也可能机制流程的问题,什么可能都有,他具体问题具体解决喽。 屡次出现问题,可能是跟您自己相关,该培养的培养,该沟通的沟通,该您自己梳理一些工作的梳理一些工作,这是跟您自己相关的,总出问题,不是下属的问题,是您自己的问题。 那好,后面这两个就比较简单了,当面沟通或电话沟通,避免邮件传递。这个是一个非常小的一个点, 指的是什么呢?嗯,尤其国内有些公司里面还真的是挺多的。就是有些朋友会倾倾向于说发邮件啊是吧,反正。

大家好呀,今天咱们来聊聊实验室里那些摆放器皿的小技巧,你知道吗?同样大小的实验台,选对了支架,能放的器皿数量可能差好几倍呢。就拿我们常用的 m、 t、 p 占位面积来说,这里面可有大学问。 比如五十毫升的离心管和微波管,用二乘三的排列方式就能稳稳当当放下六个。而一百二十五毫升的瓶子或者烧杯,双向排列,就能充分利用空间。 最厉害的是气象色补平,如果按三乘四的网格排列,不仅能让机器人轻松抓取,还能在微孔板那么大的地方放下十二个。要是不需要机器人操作,那数量还能更多呢。像一百毫升的铝芯管,用四乘六的布局,一下子就能放二十四个,是不是 特别能装?所以啊,在条件允许的时候,尽量选择二乘三、三乘四或者四乘, 既能提高空间利用率,又能让现有的液体处理系统更方便的处理账本。你们实验室都是怎么摆放这些器皿的呢?有没有什么小妙招呀?

上一期我把 pro 六千塞进一个不到两百块的 m a t x 机箱里,差点给它烤熟了。评论区非常热闹,大家纷纷帮我出主意,并分享装机和本地部署经验。 有个哥们说他用双三千零九十跑到每秒七十偷啃,然后另一个大佬同样扣六千,能跑到一百二十都在高速狂飙,我的二十八一定有问题,不能忍!仔细查查是怎么回事,险存贷宽就是一条路,模型越大,要搬的货越多,路就这么宽,货太多就堵死了。 我的问题出在这,我来回试模型,最后定格在 f p 十六全精度跑这个模式下,模型占五十四 g b, 九六 g b 的 卡只用了一半显存,但待宽已经堵死了。我把工号从四百瓦拉回到六百瓦,速度一点没变,说明算力根本没吃,马路先堵了。 解决方案,把货压小,从 f p 十六换成按四压缩模式,模型从五十四 g b 缩到十七 g b, 速度直接翻倍,六十二翻倍了,但离一百二十还差得远。评论区那个大佬又给我指了一条路, m t p 多透肯预测, 普通模式是 ai, 一 次猜一个字, m t p 是 一次猜好几个字,猜对了直接跳过搞这个得从原码翻译推理引擎,翻译完加载模型,开 m t p 看看,结果幺三六,这简直快如疯狗,相当于一秒钟两百个字,比一目十行还快, 可以裸跑一百三十六瓦。 aby 实际使用一百一十一,和大佬说的基本一致,从二十八到一百三十六,速度翻了快五倍。同一张卡,同一个模型,换了推理引擎和参数差了五倍,速度的问题解决了,继续折腾。

今天我们来看一下多次元预测技术的真实效果,看看是否真如官方所说能提速二到三倍。首先我准备了两个千万三点六二十七 b 的 模型,其中一个是加入了 m t p 技术的,其他都一样,都是 q 五 k x l 的 量化版本。 下面我们使用拉玛 c p p 实测一下推理速度。首先来看一下未使用 m t p 技术的模型,使用拉玛可以命令启动命令行对话模式,让模型做一下简单的自我介绍。快进跳过推理过程,看一下最终的统计数据, 生成速度约每秒二十次。偷啃简单看一下回复内容,后面可以和 m t p 版做下比较,然后退出对话。同样的方式进入 m t p 版对话, 需要注意的是,起用 m t p 需要增加 spec type 参数。然后同样的问题让模型做自我介绍,还是直接来看统计结果,生成速度约每秒九十一。 token 对比来看确实有接近四倍的提速。再看回复内容, m t p 版不但没有损失,反而更丰富。接着我们再来对比一下图像内容识别方面的表现,还是先切回到非 m t p 版本的对话模式,随便找一张图片素材,复制一下图片路径, 回到对话窗口,使用英美制指令。加载图像需要注意掩号和路径转移问题,否则会报错。加载成功后,直接让模型描述图像内容,快进看一下统计结果, 生成速度和文本回复是一样的,每秒二十次 token 左右。主要关注一下图像内容的理解情况,卡通女孩连衣裙,卡片上的内容、肢体语言以及详细的环境和氛围描述非常详细,对照图像看一下,描述非常准确。 接着使用相同的图片切换到 ntp 的 版本,再执行一下,直接复制前面调整好的图片路径, 启动 m t p 版模型。对话窗口同样让模型描述图像内容。来看一下数据生成速度接近三倍,重点在确认下图像识别结果, 小女孩动画风格连衣裙卡片内容及手势同样几乎没有信息损失,看来 m t p 加速真的几乎无损。 最后再来看一下起用 mtp 的 条件。首先使用非 mtp 模型加上 spectap 参数,发现无法启动会触发无法创建 mtp context 的 错误,说明普通模型是无法直接使用 mtp 加速的。然后使用 mtp 模型去掉 spectap 参数试试 启动没有问题。来看一下推理速度,每秒二十七, token 没有加速效果,说明模型加入 ntp 技术和拉玛启动命令,增加 spec type 参数缺一不可, 尤其要注意 spec type 参数。拉玛 c p p 在 最近的版本中修改了参数值,如果大家发现没有效果,建议确认一下拉玛 c p p 的 版本和 spec type 的 参数值。点赞关注,下期更精彩!

好,那么我们呢先来演示一下这个效果,嗯, chtl 代码呢是六十的速度,然后呢打个招呼看看啊,是七十五点九二, 那我们再写下其他的案例啊,一个代办的记事。好,那么速度是六十多六十左右,嗯,让他写写拍省代码看看啊,写不同的代码看看。 嗯,这个就有点慢了。五十五,呃,再写一遍吧。 好,呃,写惯了就到了六十了,可能是没写惯 你。好的,速度是七十啊,就打招呼的速度,然后我们再看一看启动参数吧。啊看看怎么调的好。来到二十九这台 windows 的 一个电脑连接过去 啊,这个是七十点五十的速度啊,刚刚的,呃,这个是写拍省代码的速度,用了三十多秒,然后接收率是九十九啊。 呃,我给它取消掉。关掉,我关掉以后呢从头启动再来一遍啊, 我现在给它取消掉 啊,参数就是啊,这里的参数啊,从这里开始这个是上下文,是一百二十八 k 然后呢每次呢拆三个 token 每次拆三个那接受率高的话它速度就快了。 好啊,重新启动一下。 嗯启动要点时间啊,我们看一看这个参数吧。啊 尽量使用跟我一样的模型啊, m t p 加速的模型,然后量化用 q 八啊啊启动完毕啊,我们再去试一下新绘画啊,开个新绘画去,再写个去跳代码, 呃,速度基本上稳定在。呃六十吧。行,那么今天就演示到这里了。 好,刚才忘记录这个启动参数了,现在再来一遍,先启动。 呃启动的过程中呢给大家看一看这个硬件,硬件是三零七零,然后呢内存是三十二 g 的, 呃,这个是五七零零叉啊, ok, 呃。等它启动完毕,那我把这个参数改为了五幺二啊。这个影响不大啊,但是改越大的话呢,生成速度会慢一点啊。默认的五幺二了。好玩币了,我去看一看啊,给它写一段代码。 呃。为什么现在速度慢了呢?呃,看一看啊。因为我在开录屏呢,我在开着录屏, 五十四了,它降了一些速度啊,再写一遍看看。我是开的录屏了,所以它慢了。 刚才为什么不慢呢?因为我是在另一排笔记本远程过来的啊,它用不到这边的一个。 呃,显卡的加速啊,我们这里录屏的话也会影响到一些速度。行,呃。看一下速度吧。五十四。五十四,呃。降了五个速度。开录屏的话,因为我的这个, 呃,配置的确很极限了,榨干了。好吧,就先这样吧。

嗯,最近一段时间啊,在本地部署运行这个语言大模型是非常火的,然后我个人认为的话,可能在未来的两三年、三五年的这样的时间里,所有的这个创业者,包括上班的啊,上班族 都会需要去具备这样一个能力,就是去理解大模型的使用,然后去熟练的运用大模型。 所以说今天我就跟大家分享一下在本地部署语言大模型的话的一些经验,然后我不会去讲具体的一些安装的过程,就是怎么安装的啊?这个模型怎么安装的,这个平台怎么安装的 这样一些东西。在抖音上面很多,今天跟大家分享的话,主要就是说什么样的模型,它能够在你的电脑上跑起来,能够流畅的跑起来,它能够帮你去解决什么问题?这个是今天跟大家分享的,然后 简单说一下,就是在本地部署大模型的意思,就是把这些语言大模型安装到你的电脑上,这样子不管是你有网络还是没有网络,你都可以跟他去进行一个问答,然后让他帮你去干活,或者是让他去解答你的问题。呃, 和传统的像我们像豆包或者是 deep deepsea 啊这种语言大模型的话,那它的区别就在于说,呃,豆包这样的语言大模型,它是运行在云端的,没有在你的本地,然后 嗯,如果没有网络的话,你是没办法使用。第二个就是你跟他的聊天的记录,包括你上传给他的文件啊,嗯,他是会上传到云端服务器的,没有私密性。然后对于很多的一些企业来说,包括个人来说,我想保证我自己的一些客户资料或者是自己的私密信息 不上传到这个云端服务区的话,那么这个时候就不建议我们去用这个云端的这些啊模型, 嗯,这个时候我们就会用到在本地部署这个语言大模型,然后目前本地能够部署语言大模型也是非常的多啊,也是非常多。然后我经常根据我的电脑情况的话,我现在目前话主要是用这三个啊, 一个是千万三点六、二十七 b 的 这样一个模型,还有千万三点六、三十五 b 的 专家型的一个模型,还有一个佳马仕啊,佳马仕是谷歌的, 这三个模型是在我的电脑上,我觉得速度和质量都还是比较好的。然后目前整个这三个模型啊,他的实际的一个评测也是在本地模型里面靠前的。 当然这里有一个概念,大家一定要知道啊,就是说对一个大模型来讲,他前面代表是他的名称啊,千万三点六,这个是千万公司的,然后三点六是阿里出的这个模型啊,杰尔玛是谷歌出出的,这个是他前面的这个名字,然后这中间这个就很关键了啊, 呃,三点六和四十他的版本哈,这个不用去管他。然后最中间的就是这个带 b 的 啊,二十七 b、 三十五 b、 三十一 b, 这个表示这个模型他的一个大小,也就是说这个模型的呃,他那个规模什么意思呢? 举个例子就说他如果是人的话,这个就表示了,就表示了你的一个脑容量越大的话,你可能就会更聪明,如果你的脑容量越小的话,那可能你就 不那么聪明一点,然后能够回答的问题就有限。所以说一个越大的模型,那么它的智能程度是非常高的啊。 像我们家用的话,部署的话有啊,四 b 的, 有八 b 的, 有十 b 的, 有十六 b 的, 然后有二十多 b 的, 也有三十多 b 的, 还有七十 b 的, 这样一些模型都是可以在家用电脑上进行一个配置的。 如果你要追求啊,像很多的一些大公司,像阿里啊、腾讯啊、百度啊这些公司,他们在服务器部署的这个模型,那我们在本地电脑上是肯定跑不了的,他们都是千亿级的这样一个参数,在本地是跑不了的啊。 嗯,所以说我们能够跑的基本是在七十 b 以下的,如果说你是非常顶尖的一些专业的工作站,那你可能会跑到七十 b 的, 然后普通家用电脑的话,基本上能跑到三十五 b, 二十七 b, 就 就基本上是一个天花板了,所以说大家可以一定要去注意看。然后 第二个需要注意,就是说啊,模型还有一些后缀啊,后一个后缀的话,主要是它的一个量化的参数,比如说像杰尔玛这个模型,它这个 i q 四,这个表示它是以四比特去量化的,这个参数会非常重要。我们看这个模型文件,它也会有 像三问千问三点六二七比特的话,它是写的 q 六 k, 也就说它是按六比特进行量化的,量化的程度越高,量化它表示一个模型的压缩率, 如果说压缩的越狠,那他的数字就会越低,比如说四比特,那就是压缩的非常厉害的六比特,压缩中等的巴比特就基本上轻微压缩,十六比特就是完全没有压缩, 完全没有压缩的模型,它质量是最高的,然后稍微压缩一点啊,也是可以使用的,精度没有太多的影响。但是如果是四比特以下的这个压缩率的话, q 二 q 一 啊这种, 嗯,我建议大家就不要用了,这种压缩率太低的话,他会失真啊,就会产生模型的一个幻觉,说这也就是这个意思啊。 q 二 q 六 q 四, 但是不是说越大就越好,这个要看你的电脑能不能装,嗯,至于这个模型能不能在你电脑上去部署,能不能流畅的跑起来,有个很重要参数,非常的简单,我教给大家就是什么呀?就是你去看这个模型文件的一个大小 啊,这个模型的话它是二十二个 g 的, 然后我还装了一个千万三点三点六三十五 b 的 这样一个 q 四的模型,它的大小也是二十二 g 的, 然后这个 g 码三十一 b 的 模型的话,是大概是十六个 g 啊,十六个 g, 对, 然后 这个什么意思呢?如果你的显存是三十二级的显存,或者是你的显存是十六级的显存,你一定要记到一点,就是这个模型文件它的大小绝对不能够超过你的显存,如果说它超过你的显存,也就意味着这个模型不能够完全的加载到你的这个 这个显卡的呃显存里面去,如果不能够加载进去的话的话,然后他就会通过这个内存和 cpu 去进行计算。我们都知道啊, cpu 它是一个多任务的啊,多现成的这样一个处理器,它是干很多活的,但是 gpu 它是 专门去干一件事情的,所以说它的计算速度会非常高,而且这个显存的宽带比内存的宽带是要快很多的, 所以说当你的模型全部加载到你的显存里面的时候,它的进行计算就是通过显卡去计算,那么速度就会非常快。如果说你把它放到内存里面去,通过 cpu 去进行计算的话,那么这个速度就会非常非常的慢啊,所以说大家一定要记住这一点,就是你的这个模型的尺寸, 它的容量大小绝对不能够超过你的显存啊,这里我是配置了两张显卡,呃, rtx 的 五零八零和 rtx 的 五零六零钛都是十六 gb 显存的,加起来就是三十二 g 显存,那么这个显存叠加的话,是在这种语言类大模型是可以去进行一个呃, 叠加的,使用的就是平台会进行拆分,但是你去跑一些像 comfyui 这样的一些生图生视频的软件,它就没办法啊。好,这个我就不讲太多了,大家一定要记住,就是说这个模型能不能在你的本地部署,首先第一点去看它的大小,大小不能够超过你的显存。 第二个很多朋友可能会问,那我是十六 g 的 显存,我去下载一个十五 g 的 一个模型没问题吧?当然没问题,你可以装进去,但是你一旦和他对话说成两句话, 你就会变得非常慢,为什么呢?就是在本地部署模型,还有一个很重要的概念,叫做上下文的一个大小,什么意思?就是你每跟他对对一次话,你,你告诉他的问题,他就会占用一定的容量, 随着你在一个窗口里面跟它对话的次数越多,这个容量就会越大。如果这个容量加上它本身的模型的这个容量,最后超过你的显存,它就会加载到你的内存里面去,加载到你的内存里面去的话,然后这个时候速度就会变得非常慢了。 所以说我们要确保就是说一个模型在自己的显存里面去,不能够到内存里面去,不能够让 cpu 去运行它,不然速度就会非常慢。 所以说大家现在知道了啊,就是你去装一个本地模型,第一要素是它的大小不能够超过你的显存,第二要留足够的空间去给它运行上下文,这个空间大概是多少呢?嗯, 大概一万啊,字节的这个上下文的话,需要的显存,嗯,应该是在一 g b 左右,所以说我们普通的对话的话,基本上你设个嗯三万吧左右的上下文,如果你 用这个电脑的 ai 的 a 检测去帮你干活的话,三万的上下文一般足够用啊,那么三万的上下文的话,然后 呃就需要大概三 g b 左右显存。如果你是去除处理这种长的上下文,比如说几十万这个小说啊,怎么怎么样,那你就需要设置非常长的上下长长的上下文,比如说六十四 k 的 或者一百二十八 k 的, 那么就会需要占到七八个 g b, 甚至包括十多个 gb 的 一个显存容量,那么这个时候你在显存里面一定要留够这个容量,如果没有的话,要么你就去压缩你的上下温,把它这个容量变小一点,要么就是下载更小一点的模型啊, 所以说我的三十二 gb 的 一个显存的容量,呃,那么我去跑一个二十二 g 的 这样一个模型, 我的空间容量还有十 g 左右,十 g 左右当然也还需要减掉两个两到三个 g, 这个是系统需要用的啊,就是你加载这块显卡,系统会用到 的,所以说,嗯,可能我能够用到的容量就是八个 g, 八个 g 的 话我就八个 g 的 话,我就大概能够设置三万到啊,六万这样一个一个上下文的一个长度吧。 好,这个知识大家清楚之后,然后我讲第二点非常关键的什么呢?就是说你下载一个模型,嗯, 它能够装到你的显卡里面去,就是我刚刚讲的就是它的容量绝对它的大小不能超过你的显存。第二,你要留够足够的上下文的空间,然后第二这个模型在你的电脑上跑得快不快,这取决于什么呢? 嗯,首先第一当然是你的硬件啊, cpu 这个型号越高,它的这个扩大啊,不要去选择 amd 或者是英特尔的这个这个 gpu 啊,英英特尔和 呃,这个 amd 的 显卡,它们目前在进行这个大模型的计算的时候,没有没办法去开这个扩大加速啊,它的速度会非常的慢, 所以说现在恩威达的这个显卡,它的市场占有率已经达到百分之九十多,就是因为它不光是它的库达啊,还有大力水手啊, d l s s 这个在游戏方面表现很好,它的库达在这个大模型计算方面也是非常的有用, 所以说,嗯,建议大家如果真的是想去学 ai, 然后去跑大模型的话,一定要选择这个 omega 的 显卡,然后,嗯,型号越高的啊,就是像四零九零或者五零九零,然后五零八零、四零七零啊,四零八零这种型号的话都是可以的,就是型号高一点。 嗯,但是最重要是什么?就是我刚才想跟大家分享,就是说,嗯,显卡要用 n 卡。第二就是你去跑个大模型的时候,嗯,他的一个平台会非常重要,我现在跑的大模型的话,这个平台是用的这个立马点 c p p。 呃,什么意思?就是说立马点 c p p, 就是 他去跑这个大模型的一个原生的一个环境啊,就是一个环境去跑它, 嗯,但是这个立马点 c p p 的 话,它会复杂一点,你需要在这个命令行 c i i 里面去进行一个部署。如果说很多啊,新进入这个这个领域的小伙伴 啊,想简单一点也有办法,就是去下载一些像 l m studio 啊之类的这样一个呃平台,这样平台它是直接可以在文档上面进行一个安装的,就不需要去输命令,然后安装好打开这个界面就可以加载这个模型,就非常方便。 那么但是有一个问题,什么为什么我现在不用这他们这些平台,就是因为这个 lm studio 啊,我测试过之后,它的速度比原声的立马的话是,呃,每秒钟升升升成那个托肯的,这个速度是会慢慢很多的。 呃,所以说我基本上就是用原声的立马啊。怎么样去装这个东西我也就不讲了,大家可以去了解一下,我今天给大家实际跑一下吧,跑一下这个 好,需要打开一个命令行,然后去输入到我们的一些启动的命令啊,输入到我们的启动一些命令,这些命令的话也不是很复杂,嗯,基本上在在这个在网上都有。 然后这个命令加载的命令的话,主要是就是加载你模型的这个位置,然后一些启动的参数我就不展开讲,现在我去启动一个这个二七 b 的 千文的一个 q 六的这样一个模型啊,把这个命令输进去,然后回车就可以了,然后它现在就是一个加载模型的一个时间, 然后我的两张显卡的话,因为有一张的这个贷款比较低,是 pcie 的 一点零啊,我现在还没有去改它,所以在加载的时候会速度会比较慢,但是跑起来的时候完全不影响啊,就生成这个托肯的这个速度还是非常快, 然后加载的时候可以稍微慢一点,但是已经完成了啊。在加载完磨成模型之后,就会生成这样一个地址,在本地的一个访问的一个端口啊, 幺二七点零点零点一八零八零在一个端口,然后我们在浏览器里面去打开它就可以了。然后这个因为我本身我是已经啊把它收藏起来,现在我就直接打开它,这是立马点 c p p 的 一个基本的界面,我们就可以跟它对话了,你是什么大魔 模型,这样对话的话,他就已经用这个千万三点六二十七 b 的 q 六 k 来进行一个回答,然后速度大概是在三十 to 肯斯每秒左右啊,有时候会快一点,比如说来到四十 这个时候呢,注意看一下,就是我的两张显卡的显存啊,基本上十六个 g 用了十三点六,然后另外一张的话是十六 g, 用了十五个 g 啊,这里面我做了一个权重调配, 然后我的 cpu 啊,它的运算率是非常低的,就基本上它是靠显卡和显存在进行计算,这个就是非常好的,所以它能够保证它的一个速度啊。现在这个大模型的,呃, 评分比较比较高的有哪些 好?然后提些问题,他就可以去跟你进行一个一个解答,然后 我们就可以在本地去使用它,然后本地使用这个大模型的话,好处就在于说,第一如果你没有网络, 你没办法去使用豆包或者 deepsea 的 情况下,你是可以在自己的电脑上去跑这个本地模型的,一样的话是非常智能,像千万这个二点,嗯嗯,千万这个,嗯,三点六,二十七 b 这个模型啊,我实际测过,他比豆包的这个快速的这个模型 是要聪明很多的,和豆包的这个思考模型的话差不多,当然专家模型就没有办法更详细的去进行一个测试了啊, 他也他也的自然程度也是非常高的,所以说你如果没有网络的话,你就需要去部署一个自己本地的模型。第二点就是对于很多的企业或者个人来说, 嗯,因为云端的模型向豆包我提一些问题啊,把我的企业的财务数据我需要去发给他看,然后把我企业的员工的一些信息,或者是我的一些核心商业机密中标的一些东西,我需要发给他去看, 那么这个他会把这个文件上传到一个云端服务器,这样确实私密性不太强啊。但是在本地的话,比如说我上传啊,他现在已经生成完了,我上传给他一张图片啊,上传随便啊,上传给他一张图片我让他看,呃,你看一下我的电脑 配置啊,这样图片给他的话,他在本地进行处理,那么这个,这个你的这个资料,你的呃所有的资料不需要去上传到云端啊,私密性非常强。所以说很多企业 和个人,然后包括一些商家,他的不需要自己的这个客服资料的流失的话,建议都是去做这个本地的部署,然后他在跑的时候大家可以看到啊。 嗯,显存啊,两个显存还没有用完,十六 gb 的 十五点一,然后十六 gb 的 十三点六,也就是说我现在还有大概呃三个 g 左右的一个空间去跑这个上下文,然后不会报显存,不会报显存的话,一个代表就是一个,一个一个表现就是你的 cpu, 你 看 我这个 cpu 的 话,它的一个运行的一个,嗯,占用率的话是比较低的,这样呢不会去影响模型的速度,主要是靠显卡啊,靠你的显卡进行一个计算 好,然后这个就是在本地跑模型的话,嗯,在平台选择的问题,建议大家如果确实不太熟悉这个命令行的话,就可以去选择这个像啊, 然后 a m m studio 之类的这样一些啊,非常简单的桌面平台,然后下载即安装,安装就可以使用。如果说你懂一些电脑的这个呃操作,然后又想去体验这个大模型的一个速度的快速的话,那么就建议大家像我一样去下载一些啊,这个纯底层的, 呃,跑模型的平台,像立马点 c p p, 还有 v l l e m 之类的啊。然后这个就是影响模型速度运这个计算速度的一个很关键的地方。那么第二个点就是什么呀?就是在大模型上,嗯, 下载大模型的话,像你用这个,嗯,像我用这个,立马 c p p, 它比我用这个 l m studio 最好的一点就在于什么?就在于它可以去支持这个这三个字。大家看到没有,这个叫 m t p 啊, 去支持这种 m t p 的 一个模型,但是像 l m studio 它现在还支持不了,这什么意思呢? m t p 的 话是一种加速的方式, 一种加速的方式,有 m t p 的 模型的话,它的速度会非常的快,没有 m t p 的 模型的话,速度会慢一点啊。这个具体的原理和机制我就不跟大家讲太多,大家可以在网上去了解一下。所以说你想去跑这种 m t p 的 模型的话,建议最好就是用呃,里马,包括这个 v l m 之类的 这个原生的平台去跑,像一些,有一些啊,像这个 l m 丢丢之类的,它现在还用不了这个 m t p 的 模型, 呃,这个也是对模型速度影响非常关键的。然后最后跟大家分享一点,就是说,嗯,我目前啊经常在用的话,主要是有三个,这个人工智能这个智能体啊, 第一个豆包我会也会经常用,有些简单的问题我会问他,因为第一他是纯中文的一个环境,第二在用他用到国内的这个搜索网络的话,去搜索一些东西,速度也是非常快的, 那么我要去学习大模型,要去掌握大模型,要去用本地的一些搭建知识库的人之类的事情的话,让本地模型去不消耗托克的情况下啊,啊不,不是不消耗托克,就是免费,有托克用的情况下 只消耗算力,你的电力的情况下去去用大模型的话就可以用本地的啊,这样一个部署的。呃,还有呢,就会用到这个,像这个 谷歌的这个啊,机密里啊机密里,然后这个是我觉得我用到的这个,呃,怎么说?这个智能体验 非常聪明的一个,非常聪明的一个,然后建议大家如果有这种条件就是科学上网的环境的话,大家可以去试一下啊,这个机密里我觉得是非常聪明的,然后,嗯, 所以说就是本地部署模型的话就是这样一些知识点,当然还有很多很多的一些知识点,然后我希望大家都慢慢去学习,比如说在本地模型的话会加很多参数,这些参数里面最重要的我觉得就什么呢?就是有一个这个参数叫做 f a, 嗯,这么个参数啊, f a 什么意思?就是你在本地去跑大模型的时候,在那个语言环境里面,你一定要去装两个东西,一个叫做 flash attention, 一个叫做 sega attention 这样的东西,然后 flash attention 的 话它主要是去加速这个本地的语言大模型的,你打开它之后啊,你的量化模型会跑得更快 啊。嗯,我在这我在这边再给大家演示一下,我跑这个千问三十五 b 的 a, 三 b 的 这个模型大家可以看一下啊, 哦,我这个模型都是去开启了这个 flash attention 的, 然后,所以说,呃,再加上我用的是 m t p 的 模型啊, m t p 的 模型,然后开启了 flash attention, 所以 说我这个,呃模型生成的速度,这个这个吐字的速度 还是非常的快, 大家可以看一下这个纤维三点五啊,纤维三点六,三十五 b 啊,这个模型是个 mo 模型, mo 是 个专家型的模型,它每次加载到你显存里面的计算量 会小很多,所以说速度会更快,非常的快啊。然后,但是我实测过它和二十七 b 的 模型比起来确实有一点, 怎么说不严谨,或者说有一点傻啊,同样一件事干出来,嗯,它的智能程度,比如说我写了一个围棋的游戏,我用二十七 b 写出来的话啊,我觉得是 ok 的 啊。 除了有一些这个嗯嗯对战的 ai 还需要调整之外,我觉得这个围棋游戏是 ok 的。 但三十五 b 写出来之后,它那个棋盘首先就是非常小的啊,它就不是那种标准的围棋棋盘,是一个可能九乘九的一个棋盘,然后 ai 的 话也是没有反应,需要你自己再去调试, 但是它作为市场的问答是没问题的,我们现在已经打开它了,这个千万啊,我们先去再去试一下,再去试一下,然后 看一下这个三十五 b 的 一个啊,大家可以看到它是千万三零六三十五 b a 三 b, 然后呃一个 q 四 k, 然后杠叉 l 的 这样一个模型也是有量化加速的。我们先问他一个问题,呃,中国从小学到高中的数学教学教育体系 好,我们来设这个问题啊,我们现在看到的,嗯,他的预思考时间会稍微长一点点,这个是因为我显卡插槽的问题啊,是我显卡插槽的问题,我有个显卡的话,他插在那个 pci 一 点零上面,所以说这个加就是预思考的这个速率会稍微慢一点, 如果调整过过后之后,他是是非常快的啊。然后现在他已经在进行一个思考和深层了,然后大家可以看到这个数据大概是在六十四左右。我,嗯,我觉得现在有点不对啊,我平时跑这个数据应该是在 一百左右吧,啊?一百左右吧,所以说九十多一百,所以说这个这个三点六三十五,比这个是很快的啊,是很快的。 然后一些常见的问答,日常问答的话,这个模型是非常推荐大家用的啊。嗯,我说的傻傻的是在做一些非常专业的这个数学,或者是一些啊这个领域的一些计算的话,他可能会比二十七币啊,因为二十七币那么多。专家吗?他毕竟 这个三十五币,毕竟只选了几个专家来回答你的问题,可能说没有那么全面,没有那么深入,但这个模型日常用是非常好用的,非常好用的。嗯, 所以说就是我们现在可以看到我刚才加载这个模型的时候,它会有一些基础的信息,里面有一个很关键的就是在于这个 flesh attention, 我 给大家找一下这个,这个,这个在哪里啊? flesh attention 没,没看到,这个在命令行里面,有时候你会看到它,然后加载的话是在这个, 我现我现在有点找不到啊,有点找不到。呃,我是没有开启吗?应该是开启了,开启了也可以让看一下这个命令行,也可以让。 对,嗯,我是开启了,但是在这个里面好像没有看到啊,没有看到,现在我也,我也不再去找它了。然后我想告诉大家,就是说 这两个东西啊,一个是 flash attention, 一个 sega attention, 它都是这个本地的一个平台,你必须要去跑本地模型,必须要去装到两个插件啊,这两个插件会让你模型的速度升的速度会非常的快。然后 flash attention 的 话,主要是在跑本地语言大模型的时候加进行一个加速, 还有一个叫做 sega extension 的, 那么主要就是在跑这个,呃, comfy y, 也就是说我们说的这个, 嗯,生成图片或者生成视频的这样一个平台啊。嗯,这样这样的一个模型,一些图上视频,纹身视频,然后嗯嗯,这样一些模型呢,他就会去用到这个 sega extension, 说这两个东西你是必须要去装的,然后还有一些环境, 嗯,像拍缝啊,然后库达这些东西,基本上,嗯比较适合一些老手啊。我们去部署它,在用这个 c u a 这个命令行去部署它的话, 都必须要这样去装,如果确实新人入门的时候你觉得太难了,没关系,你就用这个 l o m studio, 这个也是可以的,它除了就是稍微慢一点点,然后不能去加载 m t p 的 量化模型之外的话,它还是非常好用的。 然后当我们部署这些语言大模型之后,我们还可以去跑一些 ai 的 agent, 然后这这些 agent 的 话,他就可以去帮你干活。像我现在用的这个 anything l l m 这个 agent 的 话,然后 他能够帮我生做什么呢啊?嗯?能帮我做什么?我现在已经连到这个三点五啊,纤维三三点五,这个纤维三点六三十五 b 这个模型上面了,然后就可以直接问他啊,我是配置好的,然后 他就告诉我他能够做做哪些事情。但实际上啊,这个 a 剪子的话,他的这个功能还是比较多的,我们可以看到他的一些这个代理的技能啊,比如说去 进行一个呃资料库的搭建啊,就是我们说解锁生成,然后长期记忆,这个是 ok 的。 然后文档的总结没问题,去网站上抓取一些数据没问题,然后访问你电脑的文件系统,然后能够在你的电脑上去创建一些文文档 图标,包括 ppt, 然后能够去进行联网的搜索,然后还可以连接你本地的这个 呃 s q l 的 这个数据库啊,然后去调取一些,比如说你做商家的,对吧?你的你的数据库里面有很多你的商品的价格,你每次在改动的时候,它可以自动的去进行一个连接帮你调整,然后它还具备了一些什么邮件啊、日历啊,然后呃 outlook 这样一些连接的一些功能去,就就能够去帮你做一些 用 ai 的 这个本地模型去帮你干一些事啊。如果你不是用本地模型,比如说你用到这个他们养龙虾或者是跑这个爱马仕的话,呃去用到这个呃 deepsea, 或者是这个 呃谷歌的这个经理的话,他就会按 talk 给你收费啊,这个费用就比较高,所以说如果你只只是做一些简单的日常工作的话,你就可以在 自己的电脑上去部署这样一个本地的模型,然后用自己的 a 技能去跑,就没有一分钱的花费,他只会消耗你的电费啊,以及你刚开始前期的一个硬件投入成本啊。嗯,这边给大家再看一下啊,就是说,嗯,举个例吧, 嗯嗯,比如说我用,哎用 用浏览器去亚马逊网站帮我 查一下二零二六年,嗯,二零二零二六年四月的热销, 热销电子产品啊,这样一件事情,我生成给他之后,然后这个 agent 他 就会调用你本地的模型进行计算, 然后你可以看到他他的一个计算过程,然后他同时会用到他的 agent 的 功能,就去用他的一个内置的或者是你自己电脑上安装的一些浏览器去搜索这个网站,然后去 找寻这个结果,然后反馈给你,反馈给你之后,你还可以让他去生成一个什么 excel, 威尔,威尔的这样之类的一个表格,储存到你的电脑上,就相当于帮你干一些简单的活,这个是没问题的, 所以今天跟大家分享一下,就是说本地这些模型啊,我不讲安装,我就给大家分享一些经验,就是他怎么样跑你电脑上,大家一定要记住这个模型的大小不能够超过你的显存,而且你要留一一一定容量的这个上下纹, 然后同时的话去选择模型的话,呃,最好选择量化模型啊,量化模型,然后带 m t p 加速的那样些量吗?量化模型,然后平台的话,如果你呃 比较精通电脑,就去用这个 c u i 的 命令行去部署一些这个底层的一些跑模型的平台。嗯,如果你不太精通的话,如果是一个电脑小白的话,就直接去网上去当了这个 l m studio 之类的,这些啊,一个桌面版的模型平台就会非常简单。 然后,嗯,今天就跟大家分享这么多吧。然后如果后面会有一些教程的话,也是把我以后在跑模型方面的一些经验给大家分享一下, ok, 拜拜。

我们在使用 m t p 加速千万三点六二十七 b 运行时,可以将生成 token 的 速度从四十 token 每秒提升到八十 token 每秒,速度提升了一倍,但是多默态处理图片的功能却不能用了,如果同时使用就会出现崩溃, 今天咱们就来修复一下这个 bug, 在 提速的同时使多默态也可以正常使用。我们先来看一下效果, 我们首先看一下不使用 mtp 加速时的效果,此时图片处理正常,但是速度比较慢,大概四十五帧每秒。我们再来看一下使用 mtp 加速时的效果,此时处理速度提升了, 但是处理图片时崩溃了。最后我们看一下修复 m t p 后的效果,我们可以看到现在既可以享受 m t p 的 加速,又可以正常使用多模态识图功能了。 首先介绍一下我的软硬件环境,操作系统是无斑图,显卡是四零九零酷的版本。十二点九,我们先来安装一下编辑工具, 接下来我们翻译代码, 现在代码就翻译成功了,我们执行这条命令来运行千万三点六二七 b, 现在它就成功运行起来了,我们可以看到图片可以正常识别了, m t p 也确实在进行加速了, 感谢这些开源作者的辛勤工作,推荐正在本地部署使用千问三点六二七 b 的 朋友去试一试它的效果,如果能满足你的运行场景,那么这就是一次免费的性能提升。 今天的分享就到这里了,大家有什么问题可以在评论区给我留言,大家一起友好的交流。


本地大模型可以零成本的让我们去运行我们的 ai 项目,实现真正的拓客自由。但是卷过本地大模型的都发现了,本地大模型它的生成速度非常非常的慢,那么有没有一种方法能够让本地大模型的速度提升上去呢?我最近也看了一个研究报告, 说是能够在四零九零单显卡的硬件条件下,将千万三点六三十五倍跑出两百托克每秒的一个速度。那么它是如何实现的呢?我们先看一下整体技术的实现方式。给本地大王星成倍量的提速,主要是依赖于一个叫 m t p 的 技术。 mtp 中文的意思就是投机解码,投机解码,我们听到投机两个字就可以理解,它不是一种正常的解码方式,而是带有预测性的、随机性的解码技术。我们先看一下运行效果,然后再学习下如何配置 好。我们连接上四零九零主机,呃,我们可以看到 l m 四六六,它已经出现了这种投机解码的介绍,已经有这样的小功能了。但是投机解码有两种方式,一种方式是传统投机,也就是先预制小模型,调用大模型。另一种方法是自投机, 像我们现在常用的谷歌 gmail 四二十六 b a 四 b 和千万三点六三十 b a 三 b 这种已经量化后的模型就只适合于字头机, 但传统投机的话就比较简单,就像视频这个位置,我们在第三个按钮找到 lms 这个目录,然后点开对应的模型。如果说你是比较大的一些模型,尤其是千万二十六 b, 没有这个 a 四 b 的 话啊,你在这个地方再选一个千万 三点六对应版本的小模型就可以了,这个草稿模型一般选一点五的或者是零点八那种小模型,这样就配置完成了。另一个能提速的地方就是这个彩样 和一个温度啊,温度默认是零点六,你可以把它拉到零点九,零点八都可以的啊,这个温度指的不是你 cpu 显卡的温度,而是一个类似于模糊参数的一个地方哈,那一默认零点六,零点八也是可以的,零点八的话可能这个模型的输出效果不会那么好啊。 另一个就是这个彩样,彩样我们可以把可以按照我屏幕上的这种配置方法啊,把这个 重复惩罚和存在惩罚都进行勾选。嗯,当然最小最小彩样我也建议调试一下,就比如说零点一三,如果说你发现这个模型开始胡言乱语了,就可以把这个最小彩样给关掉啊,一般模型零点一三是没有问题的。 另一种方式是自投机解码,自投机解码也就是我们现在正在看到的一个运行效果。嗯,一般带这种杠三 b 杠四 b 这种量化后的模型就适合自投机解码,千万不要配置那种传统投机解码,传统投机解码反而会降低它的速度。 我们还是拿一个复杂的工作流进行测试,让它发一篇带有图文,而且图片转化为 w e b p 的 格式的。呃,瑜伽站看一下它的一个工作效果。 好,我们刚才在刷新网站的过程中,它已经把这个工作流完整的走完了,这个速度还是可以接受的啊,绝对是可以接受的。好,为了看一下它的完整的工作流啊,看一看它的一个生成速度, 非常直观的全程不快进,我们看一看他的一个工作效率啊,这个速度还是很给力的啊。好,我们下面再检查一下他的工作质量,这是很多绅士们比较关注的一个环节, 我们可以看到刷新之后已经有一篇新的文章了啊,新的文章,我们点开看一下啊,整体翻译效果也不错,然后整个文章的一个呃,图文排序都非常的棒啊,我们看一看这个工作流已经帮我们做了多少的内容啊,点开看一看 啊,非常完整,这个网站做的质量其实还是很高的,而且是完全零成本的搭建出来的, 但是这种字头机的解码方式,目前在 l m studio 里面还没有可适化的配置方案 呃,需要我们通过 s g long 或者是 v l m 进行代码配置。呃,具体的配置方法我也做了文案教程啊,大家也可以直接将文末的这种提示词 复制给你的智能体,比如说 openclaw 或者是 harmis, 让它自动地帮你配置好本地大模型的自投机解码,你学会了吗?