好,那么我们呢先来演示一下这个效果,嗯, chtl 代码呢是六十的速度,然后呢打个招呼看看啊,是七十五点九二, 那我们再写下其他的案例啊,一个代办的记事。好,那么速度是六十多六十左右,嗯,让他写写拍省代码看看啊,写不同的代码看看。 嗯,这个就有点慢了。五十五,呃,再写一遍吧。 好,呃,写惯了就到了六十了,可能是没写惯 你。好的,速度是七十啊,就打招呼的速度,然后我们再看一看启动参数吧。啊看看怎么调的好。来到二十九这台 windows 的 一个电脑连接过去 啊,这个是七十点五十的速度啊,刚刚的,呃,这个是写拍省代码的速度,用了三十多秒,然后接收率是九十九啊。 呃,我给它取消掉。关掉,我关掉以后呢从头启动再来一遍啊, 我现在给它取消掉 啊,参数就是啊,这里的参数啊,从这里开始这个是上下文,是一百二十八 k 然后呢每次呢拆三个 token 每次拆三个那接受率高的话它速度就快了。 好啊,重新启动一下。 嗯启动要点时间啊,我们看一看这个参数吧。啊 尽量使用跟我一样的模型啊, m t p 加速的模型,然后量化用 q 八啊啊启动完毕啊,我们再去试一下新绘画啊,开个新绘画去,再写个去跳代码, 呃,速度基本上稳定在。呃六十吧。行,那么今天就演示到这里了。 好,刚才忘记录这个启动参数了,现在再来一遍,先启动。 呃启动的过程中呢给大家看一看这个硬件,硬件是三零七零,然后呢内存是三十二 g 的, 呃,这个是五七零零叉啊, ok, 呃。等它启动完毕,那我把这个参数改为了五幺二啊。这个影响不大啊,但是改越大的话呢,生成速度会慢一点啊。默认的五幺二了。好玩币了,我去看一看啊,给它写一段代码。 呃。为什么现在速度慢了呢?呃,看一看啊。因为我在开录屏呢,我在开着录屏, 五十四了,它降了一些速度啊,再写一遍看看。我是开的录屏了,所以它慢了。 刚才为什么不慢呢?因为我是在另一排笔记本远程过来的啊,它用不到这边的一个。 呃,显卡的加速啊,我们这里录屏的话也会影响到一些速度。行,呃。看一下速度吧。五十四。五十四,呃。降了五个速度。开录屏的话,因为我的这个, 呃,配置的确很极限了,榨干了。好吧,就先这样吧。
粉丝19获赞1573

千万开元的三点六二七 b 大 模型发布以后反响很好,但是二七 b 全参数激活以后,对算力要求也随之升高了。今天就和大家分享在不花一分钱的情况下,如何利用 mtp 将二七 b 的 运行速度提升一倍。 我们先来看一下使用 mtp 的 性能对比,然后再和大家分享详细的 mtp 编码过程。我们先来看一下未使用 mtp 的 二七 b 生成速度, 生成速度约四十五 token 每秒。我们再来看一下使用了 mtp 的 二十七币生成速度, 生成速度约八十四 token 每秒。接下来我们看一下详细的 mtp 翻译过程,我会把文档放到网盘里分享给大家。 首先介绍一下我的软硬件环境,操作系统五半桶二十四点零四,显卡四零九零酷的版本十二点九点零。我们先安装一下编辑工具, 首先我们克隆拉玛点 c p p 的 代码 获取补丁, 合并补丁翻译支持软卡加速的拉玛点 c p p, 现在就翻译完成了, 我这里已经下载好了支持 mtp 的 模型文件,接下来我们我们用它来推理支持 mtp 的 千问三点六二七 b 模型 现在就运行起来了,我们用浏览器 ip 地址加端口号的方式打开页面, 我们输入一个问题回车,我们看到现在的速度已经来到了八十多分每秒了, 我们再来关闭 m t b 试一下速度, 我们看到生成速度又回到了四十多分每秒了。 如果大家正在本地部署千万三点六二七 b, 强烈推荐大家试一试 m p b, 这是开发者给我们提供的免费提升性能的途径。感谢这些开发者的辛勤工作,我会把视频中的命令以及模型地址做成文档放到网盘里共享给大家。

本地大模型可以零成本的让我们去运行我们的 ai 项目,实现真正的拓客自由。但是卷过本地大模型的都发现了,本地大模型它的生成速度非常非常的慢,那么有没有一种方法能够让本地大模型的速度提升上去呢?我最近也看了一个研究报告, 说是能够在四零九零单显卡的硬件条件下,将千万三点六三十五倍跑出两百托克每秒的一个速度。那么它是如何实现的呢?我们先看一下整体技术的实现方式。给本地大王星成倍量的提速,主要是依赖于一个叫 m t p 的 技术。 mtp 中文的意思就是投机解码,投机解码,我们听到投机两个字就可以理解,它不是一种正常的解码方式,而是带有预测性的、随机性的解码技术。我们先看一下运行效果,然后再学习下如何配置 好。我们连接上四零九零主机,呃,我们可以看到 l m 四六六,它已经出现了这种投机解码的介绍,已经有这样的小功能了。但是投机解码有两种方式,一种方式是传统投机,也就是先预制小模型,调用大模型。另一种方法是自投机, 像我们现在常用的谷歌 gmail 四二十六 b a 四 b 和千万三点六三十 b a 三 b 这种已经量化后的模型就只适合于字头机, 但传统投机的话就比较简单,就像视频这个位置,我们在第三个按钮找到 lms 这个目录,然后点开对应的模型。如果说你是比较大的一些模型,尤其是千万二十六 b, 没有这个 a 四 b 的 话啊,你在这个地方再选一个千万 三点六对应版本的小模型就可以了,这个草稿模型一般选一点五的或者是零点八那种小模型,这样就配置完成了。另一个能提速的地方就是这个彩样 和一个温度啊,温度默认是零点六,你可以把它拉到零点九,零点八都可以的啊,这个温度指的不是你 cpu 显卡的温度,而是一个类似于模糊参数的一个地方哈,那一默认零点六,零点八也是可以的,零点八的话可能这个模型的输出效果不会那么好啊。 另一个就是这个彩样,彩样我们可以把可以按照我屏幕上的这种配置方法啊,把这个 重复惩罚和存在惩罚都进行勾选。嗯,当然最小最小彩样我也建议调试一下,就比如说零点一三,如果说你发现这个模型开始胡言乱语了,就可以把这个最小彩样给关掉啊,一般模型零点一三是没有问题的。 另一种方式是自投机解码,自投机解码也就是我们现在正在看到的一个运行效果。嗯,一般带这种杠三 b 杠四 b 这种量化后的模型就适合自投机解码,千万不要配置那种传统投机解码,传统投机解码反而会降低它的速度。 我们还是拿一个复杂的工作流进行测试,让它发一篇带有图文,而且图片转化为 w e b p 的 格式的。呃,瑜伽站看一下它的一个工作效果。 好,我们刚才在刷新网站的过程中,它已经把这个工作流完整的走完了,这个速度还是可以接受的啊,绝对是可以接受的。好,为了看一下它的完整的工作流啊,看一看它的一个生成速度, 非常直观的全程不快进,我们看一看他的一个工作效率啊,这个速度还是很给力的啊。好,我们下面再检查一下他的工作质量,这是很多绅士们比较关注的一个环节, 我们可以看到刷新之后已经有一篇新的文章了啊,新的文章,我们点开看一下啊,整体翻译效果也不错,然后整个文章的一个呃,图文排序都非常的棒啊,我们看一看这个工作流已经帮我们做了多少的内容啊,点开看一看 啊,非常完整,这个网站做的质量其实还是很高的,而且是完全零成本的搭建出来的, 但是这种字头机的解码方式,目前在 l m studio 里面还没有可适化的配置方案 呃,需要我们通过 s g long 或者是 v l m 进行代码配置。呃,具体的配置方法我也做了文案教程啊,大家也可以直接将文末的这种提示词 复制给你的智能体,比如说 openclaw 或者是 harmis, 让它自动地帮你配置好本地大模型的自投机解码,你学会了吗?

今天说一个不需要换模型就能提速百分之六十五的方案,安斯勒斯放出了 q n。 三点六 m t p 版本的 g t u f m t p 是 什么? 反董大,模型解码是一次吐一个 token 串形的很慢。 m t p。 让模型训练时就学会预测,后几个 token 背时拿来当草稿,一次性赛会主模型检验,通过就接受,不通过回退。也就是说,主模型自己当自己的 draft, 省去了额外训小模型的麻烦。实测数据很扎实,一张五千零九十跑 q n 三点六到二七 b, 开启 m t p 解码一百零五, token 每秒关闭, m t p 解码六十三, token 每秒快了整整百分之六十五, 草稿接受率接近百分之八十。对本地日常对话和写代码这类场景, m t p。 几乎是白送的速度。这次安斯洛斯的价值在于把模型训练阶段埋的 m t p 头权重保留在 g g u f 里, 再配合拉马点 c p p 这一端的哥们支持。整条链路打通了,普通用户不需要懂一狗或美杜萨,加一个参数就能开。我的建议是,单用户本地跑代码的,直接无脑切 m t p 版长文档 r a g 或需要多并发的再等等,目前那些场景还有限制。

今天是 q v n 三点六 m t p 的 完整实操手册。先说结论,二七 b 跑到一百四十透可每秒, 三五 b 到 a 三 b 跑到两百二十透可每秒相比普通 g g u f 直接一点四倍,加速精度不变。 关键参数只要记住一个 spec draft is max 是 二就够了。官方测了,从二到四,接受率从百分之八十三直接掉到百分之五十多,猜反而慢。第一个坑 不能用 master 的 拉玛点 c p p, 要用阿曼的 p r 分 支库达,十三点二也别碰,官方确认有乱码 bug。 第二个坑很隐蔽, 接入 cloud code 时有个隐藏开关会让推里慢百分之九十, cloud code 会往请求里加 attribute header, 导致 k vatch 全部失效。用环境变量关掉,不管用,必须改 settings 点 jason 在 ev 段里把 cloud underscore code underscore attribute header 设为零。这一条我觉得全网最值得抄。 接好之后,本地三五 b a 三 b 跑 server 接 cloud code 足够。日常代码 a 阵我的建议是二十四 gb 显存直接上二七 b m t p q 四量化,这是现在消费级显卡的新甜点,不接受奥拉玛短版的用户也可以走这条拉玛点 c p p 路线。

女士们,先生们,我们再次回来,带来另一场对决。这次我们将检验 qw 三点六二十七 b 的 mtp 版本。我们会让它与标准的 qw 三点六二十七 b 同场。 gwada g 两者都来自 onslos。 其实这就是同一个二十七 b 模型的正面较量,只不过其中一个是 mtp 版本。 mtp 代表多令牌预测,其理念是不同于传统美次 只预测一个令牌的方式。 mtp 版本能在后端支持时帮助提前预测多个令牌,从而加速生成过程。所以这并非聪明模型对笨拙模型的较量。 它们是两个同一家族的模型,是同一个模型,但其中一个版本具有额外的速度优先解码设置。 而我正在观察的是,显然 m t p 版本会完成的更快,但它的质量是否相同? 它能否同样出色地遵循指令并生成高质量的代码?它能行吗?我想知道质量是否一样, 所以我们会像往常一样进行三次提示。嗯,但我看到有些评论里的人说我应该尝试些更难的内容,所以我们先从简单的开始。 第二个会稍微难一点,第三个会更深入并附带更多指令。我们将用三种不同的方式来测试它。现在我们这里有来自 hugging face 的 mtp 模型和普通模型。 挺直接的,我们在一个蓝莓 k p 后端上运行两个 lama swap 十力, 它是两块三零九零。好吧,一个是 t i 普通的三零九零稍微超频了一点。为了匹配带宽速度,我们在这方面应该差不多。 这里有两个 lama swaps 已加载好,准备就绪。你可以看到我头顶上方显示 m t p 模型似乎占用更多。 v r m。 这完全没问题,每个都有七十 k 接触,但根本用不到那些,不过有空间就够了。 这两个都是量化五 xl, 所以 它们都是来自 ansalt 的 完全相同的模型。除了其中一个使用了 mtp 版本外,其他都一样。所以让我们开始输入第一个提示词吧。我们使用的是开源代码, 创建一个用于交互式熔岩灯的单一 html 文件。彩色的团块应当漂浮、合并、拉伸、分离并温和地响应鼠标操作,营造出放松流畅且视觉精致的体验。第一次就挺简单的好吧,看看他们能做什么。 好吧,两个都完成了。从时间上看,表现其实挺不错的。 标准模型用了两分二十五秒, m t p 模型用了一分钟二十秒。 好,让我们看看每秒生成的 token 数。这是 m t p 模型四十四,我们得到的是三十二。 好的,在标准模型上也不错,有点提升。 首先测试的是标准 q w n 三点六二十七 b, 效果不错,我以前还没做过熔岩灯测试。 这很有趣。感觉不错,看起来不错。好了,让我们看看 m t p 版本的表现如何啊? 鼠标没有任何反应。 把你的鼠标移到灯附近。好吧,我就是 我,什么都没得到。 这很有趣,我本以为会看到类似的输出效果同样出色,但结果却卡住了,对鼠标毫无反应。 好的,嗯,我们把提上扔给它吧。好,这里的第二个提示是创建一个单独的 html 文件,来实现一个迷你水族箱模拟器。 鱼应该具有不同的游动行为,植物应随波摇曳,气泡应向上浮动。我应该能够喂食鱼类,点击玻璃并改变水的颜色和主题,让它视觉上精致且互动性强。好吧,让我们看看 这次 m t p 能否表现得更好一点。走, 现在进宫参考 m p p 版本。我们确实有正确的参数配置可以在拉玛 c p p 中运行, 所以它应该能和默认模型一样出色,只是更快一点。我希望第一回只是个意外,一次糟糕的尝试发生了,但我们会看看第二个展示了什么。 好的,都完成了。 m t p 版本耗时三分十七秒, 普通二十七 b 耗时四分五十六秒。好的,每秒令牌数 m t p 版本四十六点九,而标准版本普通那个是三十一点二。 好,非常好。我们先看看 m t p 版本。 行吧,效果不错,食物从上方掉落下来,鱼儿们都在抢食呢。那条小鱼真是个贪吃鬼。 点击玻璃不错,效果和我点击它一样。这相当不错。很好, 你可以在那里看到背景中有一些光束。 好吧,它起作用了。谢天谢地,我刚才还担心了一下。 好的,让我们试试。标准的二十七,看起来简直一模一样。 好吧,当你点击它时,它会敲击玻璃并掉落一些食物。好的,当你点击时,与会互动。好更换主题。 啊啊,加一堆鱼好 好的,它起作用了,它行得通。好的,那么这两者有什么不同?这个有气泡。是这个做的吗?是啊, 哥们,他们彼此完全一致,我不太确定。嗯,植物的摇曳效果在普通版上看起来稍微好一点, 但他确实完成了本该做的事。 一切看起来都很棒,效果很棒,感觉不错。那我点击时与会互动吗?是的,好的。哎,挺好。我认为 m t p 版本在内项测试中表现正常,与标准版不相上下。 好的,我喜欢它,令人印象深刻。第一个测试让我有点害怕。好,我们继续看第三个。 好的,第三个测试。在这里创建一个用于塔防游戏的单个 html 文件,敌人应沿路径移动,塔应可部署不同的攻击模式,波刺应逐渐变难,金钱应靠击杀获取。玩家应在波刺之间升级防御塔, 让他可玩儿精致且视觉震撼。给他起个名字,啰嗦个不停。让你继续做那些事。他们一直想互相覆盖。好吧,我一直想做这个提示,但从未真正测试过。所以让我们看看他们都完成了 m t p 模型了。三分三十七秒,普通模型用了五分二十六秒。 好的,看看那次运行的每秒陀刻数。 m t p 耗时为四十六点五八,而普通版的成绩是三十一点一二。好的,这个差距还算不错。 好的,我们先看看普通模型,确定二十七比。 好吧, 我们怎么做?让我刷新一下。哇,好吧,我们看看。嘿嘿嘿,我想做这个已经有一段时间了。 不错 不错。 好的,各种各样的敌人正从那边涌来,冰冻有效,狙击枪有效,基础攻击也有效。我们来玩个泼水吧。 好吧,看看我们能不能输掉十一条命。好,瞧瞧游戏结束画面长啥样? 我猜我不行。天呐,没错没错,获得升级了可出售增加伤害。哇哦,天呐,兄弟,这看起来不错。 这其实是个很好玩的塔防游戏。这很酷, 不错,拿走这一条命,看看他长啥样。这就对了。游戏结束,波次幸存敌人被击败,最终比分。酷,我喜欢他,我就坐这玩这个 好,让我们看看 m t p 版本是否表现同样出色哦。 nice。 好的好的,我们从哪开始?底部底部,我们猜一下。该死,我错了,再试一次。不错,第一眼我觉得这个更好。我想是的,让我再看看另一个, 让我把它放上去。好啊, 我觉得肯定达标了,可能更好。 等等,我没那么多钱,给我点钱 让我们看看升级是否有效。我要死了吗?是的。好吧,没关系,游戏结束画面很酷。反正能行就行。儿子,好了,让我看看能不能升级。无法取消选择 好的,无法升级。很好,酷,范围范围增加了。 好的。什么是毒药?我没钱,我挂了,不行。好吧,我要输了。 好的,行,我就坐这玩一小时。那个我喜欢塔防游戏, 看来进入第二句时可能有点问题。我看不到已放置的他,或者他无法被放置。他正在放置,但我看不见。我是说这是个简单的修法。 好的,至于哪个更好我也不知道,我真的不知道他们做的是一回事,两者都能用,我分不清哪个更好,所以水平相当。 甚至鱼缸也是我说吧,完全凭手。 不过普通版鲤鱼缸里的植物看起来稍微好一点, 但这只是你大概会再运行一次提示词,然后可能会得到更好的结果。我是说你看那些熔岩灯效果没那么好, 但我敢打赌,如果我们再跑一次,它大概也能表现的很不错。所以我不会因那一次糟糕的尝试而否定它。所以仅凭这三项测试,我认为两者势均力敌。它相当接近。 我不能否定。我在用二十七 b 时可能会选用 m t p, 所以 这就是我的看法。这大概是我第三次或第四次测试 m t p。 至于比较,这是第一次,我说它完全跟得上, 所以我印象深刻。这真是好东西。所以这就是 q 到面三点六,二十七 b m t p 的 对决。 如果你想查看我们刚才生成的代码,它们都将发布在 tokenizer net 上。我把所有东西都放上去了,包括提示词和生成的全部代码。 你可以亲自试试或者复制这些提示词,并输入到你的模型中。今天就到这里,我们下期再见,再来一场正面交锋,感谢观看。

每天介绍一个 ai 技术,今天讲 jama 四密 t p 给你的模型推理加速三倍,不降低输出质量。看完就知道怎么用推测解码加速推理,你是不是也遇到过这个问题? l m 推理速度慢,等待时间长, 每次生成一个 token 都要移动数亿参数,从 v r a m 到计算单元,浪费时间又影响用户体验。 推测捷码把 token 生成和验证分开,用轻量 draft 预测多个 tokens 目标模型并行验证。如果同意一个 forward pass, 就 接受整个序列。原本生成一个 token 的 时间,现在可以生成多个 raft 共享目标模型的 carry cash, 不 需要重新计算 context, 对 边缘模型实现高效聚类。技术进一步加速生成,每一步都优化,速度自然快。 实测效果三倍,速度提升,零质量损失。 apple cly 康批量处理达到二点二倍加速, midi i 一 百也能达到类似效果。二十六 b o o m 和三十一 b 单词模型在消费级 g p u 上跑得飞快。 今天的分享就到这里, jama 四 m t p 让你的模型推理加速三倍,零质量损失。点赞收藏关注一下,明天继续分享 ai 技术,转发给你的朋友,他们可能也需要推理加速。

哈喽,大家好,我是蛮子,很久没有给大家分享拉玛 c p p 的 一个教程, 这期我们来分享一个拉玛 c p p 的 一个最新本地模型推理的一个教程,那个拉玛 c p p 在 前一段时间就 把我们 n t p 的 一个推理加速的技术合并到我们的主线里面去了啊,同样我也在这段时间利用空余时间把那个我们最新的 m p p 推理的 加速达马 c p 整合到我们的启动器里面来了。我们先说一下结论,使用 m t p 技术的话会有比较大的一个提成,这个是在五零六零的一台电脑里面,那个的升成速度如果不使用 m t p 的 技术的话, 采用相同的模型,就是我们三十五 b a 三 b q 二的这个量化模型,它的一个生成速度大概是在每秒一百套克,开启了我们 m t p 的 一个加速,它可以稳定地来到每秒一百六套克的一个呃,生成速度 这个的话是我那台五零七零的显卡的一个配置,然后他的速度可以直接来到两百两百每秒的掏坑 啊,这样子的一个速度不开的话,大家平均大概就在一百四到一百五这样子啊,我再给大家做一下测试, 那现在我们来详细说一下我这个启动器如何使用啊啊?首先打开我的那个纳瓦 c p p 的 启动器,然后我们这边的话,纳瓦 c p p 的 目录,我们选择最新的纳瓦 c p p 的 一个文件,截止到今天最新的是九二四三啊, 然后模型的话选择你模型的一个本地文件夹,你只要把模型放进去就可以了,扫描一下它就可以加载出我们文件夹里面的模型,然后我们选择那个 q 二的这个动画模型,这边的话还是跟以前一样加了一个多模态的 一个功能,如果你想用本地模型推理反推图片啊视频的一个提示,你可以在这边加载我们的那个多模态的一个模型 啊,这样的话你的本地模型也会拥有反推图片的一个能力啊,目前我测试就反推图片是完全没有,那反推视频的话,可能是一些设置的问题,现在还没办法做到反推视频啊。 下一步就是我们的一个网络配置,网络配置还是一样,你如果是本地跑,你就选择本地。那如果你是 准备说这台电脑作为一个推理本地模型的一个服务器,那我们就选择局域网,拿来用另外一台电脑来连接这台。像我这边的话都是采用局域网的一个方式啊,那端口呢?还是我默认的八零八零,或者说你也可以自己修改你想要的一个端口 啊。之前的一个启动器,它对一个 g p u 的 加速设置参数是错误的,你不管选择 g g p u 还是全量,它们都是不生效,默认都是按全量去跑的。那这个 bug 我 已经全部修复了 啊,我建议的话就是电脑硬件够的话,我们就选择全量,这样的话生成速度是最快的啊。接下来就是我们一个上下文的一个设置,上加文设置,我这边建议的话就是三十到五十 k 就 可以了,为什么呢?因为我这个启动器 增增加了一个那个无线上下文的一个功能啊,什么意思呢?就是说 你如果设置的是五十 k 的 上下文,我这边检测到你的模型已经达到五十 k 之后,我们这边启动,启动之后他一旦达到五十 k 的 上下文,头粉他就会自动重启重置你的上下文,就变成说你只要一达到五十 k, 他 就会直接重启又重置回到五十 k, 就是 你可以无限的使用你的上下文啊啊,这个只是推理的一个, 这个速度你使用小龙虾或者黑模式,这样的话记忆会丢失,不会的,记忆的话短期记忆那些是集中在你的龙虾或者你的爱马仕里面的,跟这个推理的一个上下是没关系,这只是说能够保证说我们的 本地模型可以像线上模像那样子无限的一个那个推理下去啊,支持长上下文的一个任务啊 啊,这个畅销,你如果配置比较低一点的话,我们可以设置成三十 k 啊,或者说十 k 啊,这样子啊,你这个设置低的话,可以把我们的硬件资源的给它空余出来,可以提高我们的 ntp 的 一个 啊推理速度,一个资源加载,这样的话速度会显著的一个提升啊。那接下来就是我们 n t p 的 一个多线城的一个解码啊,我这边的话我两台电脑本地各种参数测试过,目前谁的最优的一个测试就是推理套管测试二,然后最少套管测试一,其他的 啊,其他可以保存不变,或者你这个类型,你如果觉得你硬件配置比较低的话,你可以设置设置 q 四,或者如果你觉得你电脑资源比较足够的, 你可以设置 f f 幺六 b f 幺六这些都可以,这个的话就是你启动之后去在这个 word ui 里面去测试,测试完之后看下哪个速度更适合你。我目前两台电脑设置都是这个参数出来的速度,就是我们大家所看到的 啊,这个速度,那我们直接来开测,那这台是五零七零的开启的那个 m t p 技术的,你看 五零七零的加六十四 g 选存,它出来的可以达到每秒两百毫安左右啊,你可以重复测一下,基本上稳定是在这个数值啊, 那我们看一下,这是五零六零电脑太,这台电脑的一个开启 mtp 的 一个速度,平均都是在一百五一百六这样子的一个速度啊, 那我现在关闭我们的那个 mtp 技术,再看一下做一个对比, 这是我关闭了那个五零七零电脑,关闭了 mtp 的 加速推理,它平均稳定也只能大概是在一百五一百六这样子的一个速度啊, 这就是我们的那个最新的 l 妈妈 cpp 的 mtp 加速技术啊,会有一定的提升。那具体的话就是你调节这些参数,包括你上下网的一个 参数性能,来提高他的一个推理速度。这个的话有兴趣大家可以去那个倒腾一下啊,如果懒得倒腾的话,就按照我这个参数去设置,当然你的电脑配置需要跟我的差不多啊,接下来我来说一下,就是说那个 我这些都分享到网盘里面去了啊,这时候我们是需要下载什么?第一个就是需要把那个 cpb 的 这个九二四三的这个主主文件夹给他下下来, 然后还有下载我们的模型,模型的话提供了两个,一个是 iq 二,一个 iq 四啊,然后这个是多模态的一个模型,这个啊,正常情况下我是推荐大家下载这两个就够了 啊。然后再还有这个的话,就是我们的启动器的一个直接下载运行就可以了。还有一些小伙伴说我运行了我的启动器,他的那个, 呃,在执行运行的时候他的显卡不动不执行,呃,利用力一直是零,反而是 cpu 一 直占满了整个的运行,需要装一个,因为它的扩大十三点零,这个把这个下载安装一下就可以了, 然后重启一下电脑,再运行我们的那个启动器,这样的话模型就会加载在显卡里面去运行了。 那还如果说你的电脑会配置会比较高,你不想你觉得三十五 b a 三 b 的 这个模型不好用,那你可以到摩塔设计这边,我们比如说搜索二十七 b 的 啊,如果你想使用那个 m t p 的 模型,你一定要下载模型名称里面带有 m t p 的 这个,比如说 h t p m t p g g f, 那我们就下载这里面的,那我建议你们下载 iq, 以 iq 为文件名的这些模型文件,这样的话整体质降程度会更高一点,整体的话大概就是这样子啊,大家赶紧去玩起来吧,如果有什么问题的话可以在评论 评论区里面给我评论,我看到了都会第一时间给你们回复,那我们这一期的视频就先到这,嗯,我们下期见。

谷歌真的是深夜放毒,官方教你把 jam 四提升三到四倍。我们先看一看谷歌刚刚发布的这个技术文档,这个技术文档里面呢,它就提到了一种叫 mtp 的 技术,也就是我们前几天刚讲过的 mtp。 呃,谷歌提到 mtp 的 话, 它基本上已经是比较认同这个技术,而且这个技术是非常值得推荐的。呃,我们先看一下它给的一个对比效果, mtp 也就是投机解码,谷歌给出了一个实用的效果,我们可以看到两侧的一个速度差异,基本上能把这个本地大模型的速度提升两到三倍。好,我们先看一下具体的一个配置方法, 比我们想象的简单。这两天我一直在做测试。嗯,把这个 谷歌的这个模型直接在嗯, l m studio 里下载一下,看一看,试一试能不能配置。但是实际上我们可以看到它这个模型吧,就是选择这个下面这个投机接码的草稿模型的时候 是没有办法去兼容的,所以说我们只能用我们自己的方法去用命令行的方式去配置。先点开一下我们的智能体,让它帮我们配置一下,看看有什么样的方法。 在视频的最后,我也把千万三点六二十六 b 这种模型的配置方法。呃,具体方案给大家再演示一遍。呃,因为很多人对这个千万比较感兴趣。 好,我们先翻找一下。呃,我之前配置的一个历史记录,我们可以看到 谷歌非常贴心的给到我们非常成熟的方案。第一个是直接用奥拉玛直接拉取这种支持自投机解码,或者是支持已经配置投机解码的大模型,我们什么都不需要做,直接用奥拉玛运行就行了。但是我们都知道奥拉玛它的速度比较慢,我也不大喜欢,所以说 我们还看一看有没有别的方法。第二个方法就是直接使用刀口镜像啊,这种也不需要我们去手动去配置,然后直接拉取镜像运行就可以了。我也是选择这种方法,然后把这个投机码运行起来的效果还是很不错的啊,跟官方说的一致 啊,基本上这个就没有什么技术门槛了,把这个命令行就这一句话,那你运行一下就可以了。嗯,非常非常的简单,我会把涉及到的一些呃代码命令行直接贴到文本教程里面去。 好,最后我们再补充一下前文三点六的一个 mtp 投机码配置,我们可以看到这两个模型它的搭配起来是速度最佳的,我们测试一下看一看。 嗯,这个生成速度,呃,作为本地大模型来说是非常非常的够用了。其实重点就是把主模型和草稿模型选对配套可抄作业的文案教程已放公众号。

拉玛 c p p 的 投机解码最近迎来了更新, m t p 功能已经被合并至主线了,搭配上阿斯拉夫最近出的包含 m t p 头的千万三点六二十七币, 基本上可以做到没有代价的加速。这个版本是可以适用多模态功能的, 模型权重的话一般国内在摩达下载要快很多。我是实验已下载了 k q 四,然后多模态文件两个都下载了。哇, 这次主线部署就不需要去合并分支了,整体方便很多。嗨,苏雷,我这里拿 q 四 k m 来实验上下文,凯满两百五十六 k k b k 是 用 q 八来炼化,哦对了, 这个版本主线是不支持 turbocharged, 所以, 呃,我是用 q 八来做演示。咦,模型加载完可以看到显存占用差不多在三十 g 左右,也就是说五零九零可以很完美的加载两百五十六 k 的 上下文。 这个是没开 m t p 的 速度差不多在 六十五六十六,然后这个是开了 m t p 的 速度提升挺明显了,基本上两倍。在平时的 a 帧使用中,接受率是最影响输出速度的一个 残数,像在我在长工具调用中,这个接收率在百分之五十六左右,我的速度就是在八十头个每秒,如果是在写代码的话,基本上能干到七八十,百分七八十, 那么这个速度就会在一百二十头啃左右,还是一个相对很大的提升。 不过这里还有一个针对二十四 g 显存的方案,是把上相文降到一百二十八 k, 把 kb cash 等量化格式调到 q 四,这样的话目前就是占用二十三 g 显存,勉强能跑。哎呀,然后我不是很推荐 q 四以下的亮华精度啊, 他们的损失太大了。就是感觉智商降低很多还是 q 四以上是一个比较 甜点的一个位置。是我一般就是用 q 四 km。 那 现在换显卡了?我现在自己就是刨原版了嘿构建指令跟启动指令回头我也会放在拼楞区到底。

上一个视频跟大家分享了如何利用 mtp 将铅汞三点六二七 b 的 运行速度提升一倍,很多网友反馈因为显存大小的限制,所以损失了上下纹长度。 今天咱们就利用 mtp 结合 turbo 矿的来实现既要速度又要完整的二六二 a 四四模型上下纹。首先我们先来看一下效果,然后再跟大家分享完整的安装过程。 我们先来看一下不使用 m t p 和 turbo 矿的运行铅汞三点六二七 b 的 速度和显存消耗。在这里我们看到上下文是完整二六二一四四,生成速度大约四十五 t 分 每秒, 显存消耗了大约二十七 g。 我 们再来看一下使用 m t p 加 turbo 矿的运行铅汞三点六二七 g 的 速度和显存消耗。那在这里我们看到上下文是完整二六二一四四,生成速度大约七十五 t 每秒, 显存消耗了大约二十三 g。 最后我们看一下只使用 m t p 不 使用 turbo 矿的运行铅汞二七 g, 因为显存不足直接报错了。 接下来我们一起看一下 m t p 和 turboqant 的 安装过程,介绍一下我的软硬件环境。操作系统是无斑图,显卡是四零九零,酷的是十二点九点零。首先我们安装翻译工具, 然后我们从 big up 克隆项目代码, 接下来我们编一下代码, 现在翻译就成功结束了, 我们执行这条命令来使用翻译好的程序运行千万三点六二七 b, 现在它就成功运行起来了。我们用浏览器以 ip 加端口的形式访问输入一个问题, 这里我们能看到它现在是完整的上下文长度,这里是生成速度。视频中运行时我禁用了模型思考是因为 api 调用时 思考会加大反馈时长,大家可以根据自己的实际情况来决定要不要加 reasoning of 参数感。 感谢这些开源作者辛勤的工作,给了我们一次次免费提升运行效果的选择。正在私有化部署千万三点六二七 b 的 朋友不妨试一试它的效果。今天的分享就到这里了,大家有什么问题可以在评论区给我留言,大家一起友好的交流。

哈哈哈,有很多车友已经用上我们 a o s i 控制器了,但是最近呢,有很多人反馈极速上不去,今天呢,我们就来聊一聊如何通过电机转速,电流大小,电池电压以及开启 m t p 弱磁来提升你的最高速度。想知道具体怎么调才能把极速拉满吗?我们马上开始。 好,那我们现在来到了室外的测试场地,我眼前这台测试车呢,是九号新出的 m 八五 c 散骑 max 版本, 这台车的电机呢是三千瓦的额定功率,四千瓦的峰值功率,搭配了我们 w 五百的这台控制器。然后呢,我们今天准备了四组的测试,前两组呢是在亏电状态下进行测试,然后两组是在满电状态下进行测试,两组呢分别采用不同的电流,不同的电压, 而且还有不同的弱磁,四组参数进行对比,那么可以看到今天外边的天气风还是非常大的,对于急速的测试结果相对会有一些影响,那没有关系,同样状态下进行对比就能看出一些东西来。好,我们废话不多说,我们现在开始测试 ready go! 同样呢,大家也可以看得出来,七十七十的电流而言是喂不饱的,所以 无论是增加弱磁增加了多少,实际上他的尾数还是提不上去,而且加速性能呢,也不行。所以最大的问题在于 你的电流,一定要为保你的电机的前提下,更大的电流,更多的热磁,更高的转速,才能提高你的极速。好,四组测试呢,最大电流给到了一百二十 a, 但是一百二十 a 呢,针对于这台电机而言呢,也是不太够用,所以我们紧急加测了一组一百五十 a 的 参数, 我们接下来看一下一百五十 a 这台电机的效果吧。 这次给大家总结一下,影响极速最大的就是电池的电压以及母线电流,那么若驰呢,仅仅是锦上添花,而关于转速呢,只要转速在一个合理的范围区间之内,电流越大,电压越高, 极速越快。好,那以上呢,就是本期视频的全部内容了,请大家点赞、关注、支持一下飞度竞速,我们下期再见好!

最近拉玛支持 m t p 了,我测试了三个加载模型的软件,就这个拉玛比较好一点,其他的欧拉玛呀,还有这个 u m studio, 感觉都很一般呢,特别是给那些工具代理的话就代理不成功。再说一下它这个加速效果吧, 它是二十七 b 的 三点六,二十七 b 的 可以达到五十六 t 每秒,这显卡是二十四 g 的, amd 的 显卡 就这个七九零零叉 t 叉内存是三十二 g, 虽然它是五十 g, 但它平均速度的话可能就是三十 t。 也没有,因为你平时可能会去问一些比较抽象的问题 啊,比如外星有没有文明啊,他就会加载速度很慢,大概就是三十 t 每秒,然后我自己在家里测试了十多次吧。有一个比较好的一个优化的思路,比如 q 四的模型最大能达到五十八 t, 这个是二十七笔,我平时就是修改一下代码, 用这个二十七 b 的 模型是比较好的,不过你是用那个 a 三 b 就 就就可能会出错,但凡是出一点错都不行,所以说得用这种稠密模型。 嗯,你们可以照抄,当然也可以自己去修改。我是建议自己去想这个参数配置,因为很可能会超过我也说不定呢。用那个 q 五的话,它是三十八 t, 最高只能到三十八 t, 也是跑一些代码才能打动,不过问抽象问题的话就会衰竭很多。 我最近还试了一个,就是 turbo turbo 这样说,嗯,然后自己去翻译的样子,但是没有成功嘛? 然后,然后,然后问这个 ai, 问了好久,嗯,都没有成功。我是怀疑就是不支持 a p m d a p m d 它这个功能软件出来的话还是要还是要慢一点, 这是一个下载的一个 java 的 一个文文件,然后把它翻译出来了,可惜测试了很多遍不成功啊,目前就是只能用 mtp 加速。

我们在使用 m t p 加速千万三点六二十七 b 运行时,可以将生成 token 的 速度从四十 token 每秒提升到八十 token 每秒,速度提升了一倍,但是多默态处理图片的功能却不能用了,如果同时使用就会出现崩溃, 今天咱们就来修复一下这个 bug, 在 提速的同时使多默态也可以正常使用。我们先来看一下效果, 我们首先看一下不使用 mtp 加速时的效果,此时图片处理正常,但是速度比较慢,大概四十五帧每秒。我们再来看一下使用 mtp 加速时的效果,此时处理速度提升了, 但是处理图片时崩溃了。最后我们看一下修复 m t p 后的效果,我们可以看到现在既可以享受 m t p 的 加速,又可以正常使用多模态识图功能了。 首先介绍一下我的软硬件环境,操作系统是无斑图,显卡是四零九零酷的版本。十二点九,我们先来安装一下编辑工具, 接下来我们翻译代码, 现在代码就翻译成功了,我们执行这条命令来运行千万三点六二七 b, 现在它就成功运行起来了,我们可以看到图片可以正常识别了, m t p 也确实在进行加速了, 感谢这些开源作者的辛勤工作,推荐正在本地部署使用千问三点六二七 b 的 朋友去试一试它的效果,如果能满足你的运行场景,那么这就是一次免费的性能提升。 今天的分享就到这里了,大家有什么问题可以在评论区给我留言,大家一起友好的交流。

谷歌刚刚发布了革命性的推理加速技术 m t p, 在 不显著增加显存需求的前提下,该技术可以把大模型的推理速度提升约三倍。 传统的大模型推理是逐个 tokin 生成,也就是一步一步往外吐字。而 m t p 的 核心思路是引入一个额外的小模型作为预测器。这个小模型会提前预测一段,连续进行验证,从而显著减少推理步骤,并大幅提高模型的 tokin 生成效率。 目前,谷歌 jama 四的 m t p 模型已经可以在多个推理框架中进行测试,包括 v, l, l, m, s, g, lan, m, l, x 以及 alma。 如果你对本地大模型推理感兴趣,这一技术绝对值得关注。

哈喽,大家好,我是剑游蔡老师好,咱们今天来看一下博图的新款触摸屏 m t p 幺二零零,就是十二寸触摸屏。好,咱们拿到这个屏幕之后,咱们要建立与 plc 的 一个通讯。 好,咱们首先来看一下该设置几个东西。首先第一个我们先来设置下它的 ip, 找到这个 new word 以后,在这里把它的 ip 设置好,我们这个是幺九二幺六八点零点幺幺零,点击这个设定就 ok 了。 第二个咱们在他的系统里面,咱们一定要看一下他的这个版本号是多少,那么我们现在这个就是 v 二十点零点零点零,这个是方便咱们后续在做组态的时候要组这个版本,要是组的太高咱们是用不了的。 下边一个非常重要的一个点了,我们如果说想要让腾讯与咱们 p r c 建立通讯,他和 t t p 和 t p 还不太一样,咱们一定要把他的这个时间, 就是在这个里边的时间给他设定成咱们现在的时间,让他的时间呢跟咱们 p l c 的 时间同步。好,咱们把这时间设定好以后,咱们点击设定就可以了。然后咱们来看一下在 p l c 里边该怎么去设定好。那么首先呢咱们把这个项目创建好以后,咱们找到 他的这个冲屏,在这个冲屏里边呢,咱们在新建的时候他可能会报警,那么我们要选择在这个运行系统里边啊,咱们离近点找到这个常规,然后一定要把他这个激活加载密钥取消掉,要不然他是下载不了的。然后呢再给他创建一个画面, 那么咱们再来看一下这个,刚才也说了他的时间要与咱们幺五零零的时间,因为我们是把它挂在幺五零零身上了,他们的时间要同步设定,咱们把这同步一下就可以了。好,那么双击关注,感谢支持。

上一期我把 pro 六千塞进一个不到两百块的 m a t x 机箱里,差点给它烤熟了。评论区非常热闹,大家纷纷帮我出主意,并分享装机和本地部署经验。 有个哥们说他用双三千零九十跑到每秒七十偷啃,然后另一个大佬同样扣六千,能跑到一百二十都在高速狂飙,我的二十八一定有问题,不能忍!仔细查查是怎么回事,险存贷宽就是一条路,模型越大,要搬的货越多,路就这么宽,货太多就堵死了。 我的问题出在这,我来回试模型,最后定格在 f p 十六全精度跑这个模式下,模型占五十四 g b, 九六 g b 的 卡只用了一半显存,但待宽已经堵死了。我把工号从四百瓦拉回到六百瓦,速度一点没变,说明算力根本没吃,马路先堵了。 解决方案,把货压小,从 f p 十六换成按四压缩模式,模型从五十四 g b 缩到十七 g b, 速度直接翻倍,六十二翻倍了,但离一百二十还差得远。评论区那个大佬又给我指了一条路, m t p 多透肯预测, 普通模式是 ai, 一 次猜一个字, m t p 是 一次猜好几个字,猜对了直接跳过搞这个得从原码翻译推理引擎,翻译完加载模型,开 m t p 看看,结果幺三六,这简直快如疯狗,相当于一秒钟两百个字,比一目十行还快, 可以裸跑一百三十六瓦。 aby 实际使用一百一十一,和大佬说的基本一致,从二十八到一百三十六,速度翻了快五倍。同一张卡,同一个模型,换了推理引擎和参数差了五倍,速度的问题解决了,继续折腾。