粉丝117获赞781

兄弟们,我周末终于把 turbocharger 加 deflash 的 组合跑通了,我强烈推荐大家跟着试试,对于本地跑大模型真的相当完美, 既可以减少显存,又显著提升 token 的 生成速度。先说下我的测试环境,设备是 m 三 x 六十四 g, 统一内存推理引擎用的 o m l x 零点三点六版本,我测了三款模型。先说结论,整体优化效果最明显的是二七 b, 单独开启 d flash 后,速度提升了一点六八倍,但内存也从四十一 g 增加到了四十六 g, 在 叠加 turbo box 后,速度进一步从十九提升到了三十七,同时内存从四十六倍压缩到了二十,甚至大幅低于精准线的四十一 g, 达到了性能和资源的最佳平衡。 在测试九 b 时,我发现即便开启了 t q, 内存波动并不明显,保持在二十 g 左右,但是在开启 d flash 优化后,速度提升非常惊人,达到了五十九 tokens 每秒 默认设置的近三倍。三点六三五 p 的 默认速度已经相当不错,能达到六十,但是在 d flash 和 turbocharger 的 加持下,速度冲到了九十 touch 每秒,而且内存从四十三 g 被压回到了二十三 g 的 基准线水平。 虽然我没有跑出来 d flash 官方说的那么恐怖的提速效果,但是也给了我足够的惊喜,毕竟有 turbocharger 的 配合,相当于无损加速。最后附上我的详细测试结果。

q 问,三点六减三十五 b 的 优化方案现在已经非常成熟了,本视频会介绍三条优化路线,四 bit 量化版、 d flash 推理加速版以及 cloud ops 蒸馏版,它们分别对应了解决显存速度和推理能力这三个核心问题。 第一个版本是 san 卡维发布的 awq 四比特量化版,它支持 vl lm 零点一九,直接部署在两张四千零六十显卡的配置下,实测推理速度能达到八十三 tokens 每秒,非常适合想快速尝鲜或者显存有限的用户。 第二个是 quantum 团队出的 awq 版本,模型大小在二十四 gb 左右,这个版本支持 mtp 多头肯预测,能进一步提升推理效率, 部署时直接用 v l l m 即可。命令里要配置好推理解析器和预测解码参数。特别提醒一下,如果你打算用 t p 等于八的配置,一定要加上 enable expert parallel 参数,不然专家参数分片不均匀会出问题。 第三个是 redhead ai 团队推出的 nvfp 四版本,它们利用 lm compressor 工具,把权重和激活都量化到了 fp 四格式。初步评测结果很有意思, 在 g s m 八 k 测试中,这个量化版的准确率是百分之九十六点二八,比原版的百分之九十五点六二还要高一点,恢复率超过了百分之一百。如果你追求极致的压缩比,同时又不想损失精度,这个版本非常值得尝试。 接下来看第二路 d flash 推理加速版,它的核心逻辑是把逐个预测变成了块儿,并行生成传统的 e a g l e 三草稿模型是自回归的, 一次只能预测一个 token, 但 d flash 换了思路,他用一个轻量级的扩散模型,一次就能并行生成一整个 block 的 token。 为了让这个小模型能跟上大模型的节奏, d flash 会从目标大模型的隐藏特征里提取上下文信息,直接注入到草稿模型的每一层 k v k 中。 这样即使草稿模型规模很小,也能直接借用大模型的推力能力,从而实现五到六倍的无损加速。实测数据非常惊人, 以 zlab 团队的 q n 三点六减三十五 b a 三 b d flash 为例,在 max 五零零数据集上,它平均每次能接受七点二个 token, 对 比传统的 e a g l 一 三,只能实现二倍左右的加速。 e flash 在 g s m 八 k 和 m a t h 五零零上的加速比直接拉到了五到六倍, 而且这种加速是完全无损的,输出结果跟原版一模一样。步数非常简单, v l m 和 s g l 都已经支持了。 如果你用 v l l m, 需要在 speculative complex 参数里指定 defatch 方法和草稿模型路径。如果你用 s g l n, 则需要指定 speculative algorithm 为 d f l a h。 需要留意的是,目前的草稿模型还在训练阶段,随着训练步数的增加,它的性能表现还会进一步提升。 第三路是 cloud opus 蒸馏版,它的核心思路是利用 lo r a 技术,专门针对 attention 模块进行有监督微调, 通过这种方式把 clodopus 风格的结构化推理能力注入到 qn 三点六的 agent coding 底座中,最后再把微调后的权重合并回完整模型。 为了保证推理质量,训练用了大约一点四万条精选的链式推理数据。这些数据主要来自三个渠道,包括三千九百条经过过滤的 clodopus 非理轨迹、 七百条精选的库安推理样本,以及九千六百多条来自技术社区的 pro opus 推理视力在初步评测中效果非常明显。在 m m l u pro 的 七十提字级测试中,模型从贝斯版的百分之四十二点八六直接提升到了百分之七十五点七一,增幅达到了三十二点八五个百分点, 这说明高质量的推理数据确实能让模型的结构化推理能力变强。最后总结一下,选择逻辑, 如果显存有限,选量化版来解决跑得起的问题。如果追求推理速度,选 d flash 加速版来解决跑得快的问题。如果需要更强的逻辑分析能力,就选 cloud opus 蒸馏版来解决跑得好的问题。紧接,玩家甚至可以尝试量化和 d flash 的 组合方案。 最后提醒三点,首先,目前的评测数据普遍不够充分,很多结论是基于小规模测试得出的,需要等待更严格的 benchmark。 其次, d flash 的 草稿模型还在训练中,性能还有提升空间。最后, q n 三点六 base 模型本身非常新,实际使用中的表现还需要时间来检验。

阿里开源了最新的千问三点六三十五 b a 三 b, 新闻报道叫三点五,各方面提升明显,实践是检验真理的唯一标准。所以我准备绕过传统的问答测试,直接集成到我的 open cloud 中,看它能不能顺利执行工具调用,完成日常任务。 我这里采用的是昂尔斯量化的 u d q 八 k x l 版模型,硬件是 amd max 加三九五。这时候我们就面临 rockem 和 vulkan 的 选择, 所以我们先进行推理框架和后端的性能测试与选型。首先我们测试 rockem 七点二点一的 lama 点 c p p 性能。 接下来测试 vulcan 后端。 接下来我们测试 rockmore 七点十三翻译的 lama 点 cpp 性能。 显然 rockmo 七点十三翻译的拉玛点 c p p 更快,我们就用它了。接下来我们测试把它接入 openclo 后的效果。我的 openclo 主要是用来剪辑热点新闻,帮我整理稿件,处理邮件等工作。 首先我们先做一个指定新闻源的剪 辑,让大家直观感受一下运行速度。 接下来我们测试不指定新闻源,让他从互联网上泛搜索新闻并整理汇总。 我们看一下显存的消耗,显存消耗了四十三 g。 之前我是测试过千问三点五三十五 b a 三 b 的, 当时是无法顺利完成我的任务的, 所以我一直使用三点五幺二二 b, 因为我的任务都是定时执行,所以慢点也能接受。今天测试三点六三十五 b a 三 b 已经可以顺利完成我的任务了,接下来我会继续使用它,如果发现什么问题,我再跟大家分享。 当下各家的 api 都在涨价,如果他可以稳定的完成任务,那么确实给大家提供了一个省钱的路径。有本地部署 openclaw 的 朋友,不妨自己部署一下,看看他能否满足你的需求。

大家好,科技圈这几天是太热闹了,四天前,阿里放出了千万三点六的首个开源权重,这代三十五 b a 三 b 的 三个能力,即代码、图像和 agent 居然同时跨过了能长期干活那道坎,是第一个真正能干活的本地开源模型。 屏幕上是摩搭上的官方仓库,大家可以去自己下载玩玩看。从官方报告看,这代三五 b 模型仍然是 mo e 架构,三十五 b 总参数单次激活大约三 b 两百五十六个专家,一次激活九个专家。 关键是从三点五到三点六这么一个小版本号升级,数据涨得可怕,我给大家解读一下。前端代码生成提升百分之四十三。在真实用户项目例如 opencloud 养虾中, agent 能力明显增强,稳定性和完成度提升都很明显, 图像理解、 ocr 和文档识别这次也一起提高到了新的水平。今天我腾出手,拿它在项目里真刀真枪跑了一整天。只能说相比前几周我测过的 gma 四,这代千问强的不太像话,直接把 gma 四按在地上反复摩擦。 所以我干脆整了个大活,把这个模型塞进三台价格完全不同的设备里,给大家狠狠地测一轮。第一台是售价接近三万的十四寸 macbook pro m 二 max, 九十六 gb 显存内存一体。 第二台是我从 u i 小 姐姐那儿借来的四零六零钛十六 gb 工作站最后一台也是今天第一个出站的,就是我前段时间自己首搓的丐版战神,总价两千五百元 x 九九 ddr 三平台,加一张自制水冷的 m v d r v 一 百十六 gb 显卡 盖板战神登场,这就是我手搓的 v 一 百 s x m 二显卡,加装了转接卡和军热板,又接了一个二四零水冷,其他就真没什么可说的了。对了,配了两条十六 gb 的 ddr 三一六零零内存,想知道完整配置的小伙伴,评论区扣六六六。回头我专门录一期, 第一轮,咱们在盖板战神上测试识图能力。我刚从千问技术报告里截了一张图,里面既有文字有格式,还有代码块,要求它不只是认字,还得把格式还原出来,这个难度不算低。 注意,这里我们用的推理框架还是前几期一直在用的拉玛 c p p, 模型则是 q 四 k m 量化版。即便已经量化过了,跑这套三五 b 还是得二十 g 以上的显存,但我们的 v 一 百只有十六 g b, 怎么办呢? 哦,现在开始吐字了,我们看一下,很快嘛,每秒三十五个 token 输出代码了。可以的,一共十七秒钟识别完成。 回到刚才的话题,咱们一边比对文字,一边聊聊原理。拉玛 c p p 的 做法就很优秀,启动时它判断显存不够,就会把这个一共四十一层的模型中的二十五层放入显存,剩下十六层放到系统内存里,自动地走 cpu 和 gpu 混合推理。 现在我发现了一些问题,原图中的一些专有名词的文字识别没有问题,但背景没了,有七处这样的问题,当然不影响阅读,代码也比对过了,全部正确,所有文字一字不差,一个标点也没错。 这个是个什么水平呢?大概跟我们之前测试过的 jam 四的最大杯三 e b 稠密模型的识图能力相当, 接下来我软磨硬泡,终于把我们公司 u i 小 姐姐的专用工作站借过来了,主要就想看看千问这个模型在正经机器上到底能跑多快。机器配置我已经打在屏幕上了,这比战神可强太多了。 第二轮,在这台机器上,我们让千问写两段小品,跟之前 jamie 四测试的题目一样,分别用汪曾祺和张爱玲的风格描写夏天傍晚下楼买冰棍这个场景。 我们看到这台机器 to token 的 速度是每秒五十七个,也就是说和刚才战神的每秒三十五个比,快了百分之六十二。但这么一看,战神其实很强的,毕竟这台工作站的价格差不多是丐版战神的六倍,结果速度也就快了一半多一点。 千问三点六,在这个测试里整整 thinking 了一千三百多, token 才开始正式输出。结束了,我们放大一下,我觉得挺会写的啊,两个作者的文风模仿的不错,那梁毅原是借来的,终究要连本带利还给这粘稠的夏夜,挺会搞事情的。 第三个出场的是我的主力 mac, 前几期露过脸,不多说了啊。第三轮,我们换到 m l x 这个推理框架的最新版本,在这台两年前接近顶配的 mac 上跑一轮,目的很简单,看看更贵的设备能不能把千万三点六的速度再往上提一点。 用 mlx 就是 因为它在 mac 上通常会比拉玛 cpp 快 一点,我这台机器大概能快百分之十左右。这轮我们要上点强度,直接拿一整页非常复杂的手写数学题,去测试千万三点六识图能力的上限,看看会不会翻车。 刚才忘记说了,我用的是四比特的 m l x 量化模型,大概十九 g b。 不 过实话实说, m l x 这个四比特量化准确率和稳定性一直都比刚才那个 q 四 k m 差一点。 不只是这次的谦问,之前测 jam 也是一样的,要是这轮 m l x 能搞得定,那前面拉玛 c p p 那 套表现只会更好。 好开始吐字了。这个方程组看着有点别扭,不过大概率不是模型识别错了,而是 m l x 这个 web ui 对 light tech 公式的渲染不太行,这个我们待会再验证好了,我们复制出来放到专业的 light tech 渲染器里看看。 my god 兄弟们真的是完美,这就是硬实力,真本事,拿它在本地处理文档和图片,免费安全私密,而且还超级好用呢。 最后,我们看下 mac 上的推理速度,这轮一共五千多个 token, 推理速度是五十五个 token 每秒,不快啊,没小姐姐的机器快。 pre feeling 倒是超快,六百六十多 token 每秒。但这不是大头,所以初步结论,对这个模型来说,更贵的机器未必是更好的选择。 我们还剩最后两轮压轴的测试,我想了一下,有请盖板战神再次出马。 第四轮,咱们浅浅测一道经典算法题,就是著名的鸡蛋掉楼问题,一百层楼两颗鸡蛋怎么用尽可能少的次数测出鸡蛋不碎的零件楼层? 这个题本质上就是最坏情况优化和分阶段搜索搞算法。打编程竞赛的同学应该不陌生,对人类来说,这题并不容易,但对大模型来说,它完全可能早就被熟了, 所以这一轮我们不只是看他会不会做,更要看他到底是真的理解了,还是单纯把标准答案背下来了。 你从 reason 的 过程里也可以看出来,他是背过了一些,例如使用等差数列递减法来处理这种最坏情况,但是他确实在很认真的一步一步的推理,每一步的计算和论证没有省略。 我们也看到这个模型确实是非常的费 thinking 的 token, 这题的 reasoning 阶段就花了三千个 token, 现在它的推导出来了十四是理论最小值没有问题, 而且它还讨论了通用解法的公式。优秀!最后一轮了,写几行代码吧。 我其实已经在 i d e 工程里用过这模型了,能用且好用,但光我自己说没用,还是得给大家现场秀一把。这一题,我们让他写一个太阳系天体运动的演示,重点看的不只是代码能不能跑,更是他对物理规律的理解,对基础物理常识的掌握,还有人机交互做的顺不顺手,画面是不是足够舒服,足够好看。 丐版战神上每比速度第一的四零六零差很多, 所以像 ddr 五和 amd 锐龙九这些贵价的硬件,在 cpu 混合推理中,这部分并没带来想象中那么大的提升。所以说我手搓的这台机器出乎意料的跟这个模型非常般配, 出来了烧了快八千个 token, 时间花了三分半。我们预览一下效果,绕太阳的公转控制正常, 其他控制也都正常,可以拖动 ui 表现跟百亿以上级别的模型差不多,整个物理世界的知识和理解也是对的,你觉得它写得怎么样?欢迎评论区留言 哦,每一个还能点击看到信息,挺好的。小伙伴们,我们的测试就到这里了。这期视频我有两个收获, 首先,千问三点六系列,第一个开源模型,不管是识图、逻辑还是代码,它都没有什么特别明显的短板, 第一次真正把普通设备上可以本地部署的大模型提高到了生产力工具的级别,已经能给 agent 提供相对靠谱的本地独立推理底座了。我现在非常期待还没发布的新版千问二十七币会不会也同步起飞? 第二个发现半年前我折腾的这台两千多块,主打一个能省就省,连机箱都没有的 comfyui 智途小破主机,居然能跑三五 b a 三 b, 而且还跑得真挺好!这说明什么?说明设备便宜不可怕,会折腾的人才可怕。快夸夸我吧,谢谢你哦!

uwin 三点五二七 b 推理速度直接分五倍,而且完全无损!大家好,我是 ai 学习的老张,今天介绍一个让我非常兴奋的项目叫 deep flash, 来自 ucsd 的 zelife 团队,它能让 qwin 三点五二七 b 的 推理速度暴涨到原来的五倍,关键是生成质量完全不打折。 先说原理,大模型生成文字是一个 token, 一个 token 往外蹦的串行瓶颈在那摆着。之前业界用猜测解码来加速,先用小模型猜一串 token, 再让大模型验证。 但之前最强的方案 a 勾按三加速比也就两到三倍。一 flash 把猜的过程从字回归,换成了扩散模型, 一次潜向传播,直接并行生成一整个 block 的 token, 不 管你猜八个还是十六个,都是一次搞定,这就是它快的核心原因。更精妙的是, d flash 会从大模型的隐藏层抽特征注入到小模型的每一层,这样小模型猜的特别准。 qmi 上平均每轮能猜中九个 token, 实测数据很能说明问题。在 qmi 上单并发直接五点二倍,加速 max 五百上四点七倍,哪怕高病发场景下也能维持一点五到一点九倍。而且 driver 模型只有二 b 参数,加载几乎不占额外显存。最关键的是已经适配的 volm、 sg link 和 transformers 三大框架 生产环境直接能用。我的判断是,如果你再用 q 跟三点五二七 b 做推移服务, b flash 几乎是个无脑加分享,多加载一个二 b 的 小模型,吞吐量翻好几倍,简直是免费的午餐。感兴趣的链接我放评论区了,我们下次再见!

这个千问 a 三 b 啊,千问三点六三十五 b a 三 b, 现在在我这个五零七零显卡上跑下来,然后给你们看一下它的这个速度有多少,给他提个问题, 其实他正在思考推力。十二级的显存啊,十二级的显存,之前我是完全跑不起来的,那时候在欧拉马上差不多只有八头肯斯每秒,超级超级慢,根本就用不了。 现在你看一下这个速度就一个问题,这速度多快?直接就,而且这个是 q 四精度的,我之前用那个杰玛四二十六 b 跑不动,都是用 q 三的, 然后也就速度在三十四十这样子一个速度,现在我直接在那 用了这个用了这个就叫什么 l l a m a 点 c p p, 然后还有一个很厉害的东西,就是叫 turbo core 这个技术, 然后我的杰马四二十六 b 现在最高能跑到一百头肯斯每秒, 然后这个三十五币的,原先我跑不动的,现在我直接能跑到四十七透视每秒, 那已经相当可以了,而且是十二级显存,如果你十六级二十多级显存呢?等级更加,跑的更加飞起了,上下网可以拉的很长,我这个 还可以,我觉得速度非常好,作为本地模型的话,听说他也很聪明,所以又给他搞上了,其他有什么可以欢迎交流一下。

还在用 gitup 上下载的预编一版拉玛 c p p 吗?觉得速度不够快,功能受限制?今天我就带大家从零开始,在 windows 十一下亲手编辑拉玛 c p p 原版。我的配置是 i 五幺三四九零 f, 内存三十二 g。 还有这张新晋神卡 r t x 五零六零钛,我们将一起榨干它的每一滴 性能。最后用千问三点六三十五 b 模型来一场速度对决,看看源码翻译到底能快多少。全程干货,记得点赞收藏公寓善其事,必先利其器。翻译拉马 c p p 我 们需要准备好三样核心工具。首先是 git, 用来下载源码,去官网下载 windows 版, 安装时保持默认设置就行,非常简单。接下来是 cmake, 一个跨平台的构建工具, 注意,我们下载 vip 包解压后需要手动把并目录的路径加到系统环境变量里,这样命令行才能识别它。 打开 cmd, 输入 cmake 杠杠 version, 看到版本号就说明成功了。最后也是最关键的 visual studio 二零二二,它是我们的 c 加加编码器,安装时工作载一定要选使用 c 加加的桌面开发,其他默认就好。 这一步会花点时间,大家耐心等一下。在翻译前,我们先确认一下库达版本,我的库达是十二点九,注意要用 n v c c 杠杆扼损命令, 它显示的是你实际安装的库达二 kit 的 版本, nvidia 杠 smi 显示的是驱动支持的最高版本,别搞混了,用 get 克隆拉玛 c p p 的 官方仓库,如果觉得慢,可以试试国内的镜像加速进入源码目录,创建一个 build 文件夹, 专门用来翻译。接下来是重头戏,输入翻译命令,因为我们用英伟达显卡,所以要开启库达加速。下划线 d g g m l 下划线 c u d a 等号 o n 这个参数就是关键,它告诉翻译器起用 cpu 支持,然后执行 cmake 杠杠 build, 点杠杠 config release 开始翻译。根据你电脑的性能,这个过程可能需要几分钟到十几分钟。为什么要这么麻烦自己翻译呢?主要有两大优势,极致性能与翻译版本。为了兼容性,通常采用通用指令级,而自己翻译,翻译器 会针对你当前的 cpu 进行深度优化,能更好地发挥硬件性能,推理速度自然更快。功能定制,你可以按需开启或关闭某些功能,比如 如只翻译你需要的工具,或者开启一些实验性的优化选项,灵活性远超预编。一包是骡子是马,拉出来遛遛。我们来测试一下刚翻译好的版本。我下载的是千问三点六三十五 b 的 g g u f 量化模型, 我们用拉玛杠 siri 启动一个 api 服务。杠 m, 后面是你的模型路径。杠 n g l 负一表示将模型的所有层都卸载到 g p u 上运行, 充分利用我们十六 g 的 大显存。杠 c 幺三幺零七二上下纹,长度是幺二八 k。 好 了,今天的教程就到这里,从环境配置到原码翻译,再到性能测试,我们完整的走了一遍,虽然过程比直接下载要复杂一些, 但带来的性能提升是实打实的。如果你也想体验极致的本地大模型推理,不妨动手试一试。有任何问题欢迎在评论区留言。

千万开元的三点六二七 b 大 模型发布以后反响很好,但是二七 b 全参数激活以后,对算力要求也随之升高了。今天就和大家分享在不花一分钱的情况下,如何利用 mtp 将二七 b 的 运行速度提升一倍。 我们先来看一下使用 mtp 的 性能对比,然后再和大家分享详细的 mtp 编码过程。我们先来看一下未使用 mtp 的 二七 b 生成速度, 生成速度约四十五 token 每秒。我们再来看一下使用了 mtp 的 二十七币生成速度, 生成速度约八十四 token 每秒。接下来我们看一下详细的 mtp 翻译过程,我会把文档放到网盘里分享给大家。 首先介绍一下我的软硬件环境,操作系统五半桶二十四点零四,显卡四零九零酷的版本十二点九点零。我们先安装一下编辑工具, 首先我们克隆拉玛点 c p p 的 代码 获取补丁, 合并补丁翻译支持软卡加速的拉玛点 c p p, 现在就翻译完成了, 我这里已经下载好了支持 mtp 的 模型文件,接下来我们我们用它来推理支持 mtp 的 千问三点六二七 b 模型 现在就运行起来了,我们用浏览器 ip 地址加端口号的方式打开页面, 我们输入一个问题回车,我们看到现在的速度已经来到了八十多分每秒了, 我们再来关闭 m t b 试一下速度, 我们看到生成速度又回到了四十多分每秒了。 如果大家正在本地部署千万三点六二七 b, 强烈推荐大家试一试 m p b, 这是开发者给我们提供的免费提升性能的途径。感谢这些开发者的辛勤工作,我会把视频中的命令以及模型地址做成文档放到网盘里共享给大家。

量化之后精度反而涨了,这事真的发生了。大家好,我是 ai 学习的老张,今天聊的是 q 问三点六三五 b 的 nvfp 四量化版, redhead ai 团队出品。 nvfp 四是什么?简单说就是权重和激活同时量化到四道比特符点,也叫 w 四 a 四,用的是 e 二 m 一 格式,还加了微快缩放技术, 相比普通 i n t 四, f p 四对极端值的处理更精细,理论上精度损失更小。威德 hight 跑了 gsm 八、 kplat 等评测数据很惊艳,原版 bf 一 六准确率百分之九十五点六二, nv f p 四量化版百分之九十六点二八, 量化之后,精度反而比原版高了一点。当然这有统计波动,但至少证明 nv f p 四的精度损失几乎可以忽略,这比 awq 的 量化质量要高一个级别。我在双四零九零服务器上用 docker 加 v l l m 部署了这个模型, 说几个关键数据,每卡显存只用十点六一 gb, 对 比 bf 一 六版省了接近一半。模型加载二十四秒,加上 turbo power, 总出场在两分半,支持一零二 k 上下文。 k v k 是 能装四十九万 toon, 最大病发能跑十七位。 有一个细节我必须说清楚,四零九零是 adlovelace 架构,不支持原生 f p 四计算, v l l m 看到之后会自动退回 marlin。 内核推理时,权重先从 f p 四减压到高精度,再参与计算激活,量化那部分的加速就没了。 所以在 a 的 架构上, nv f p 四的核心收益是省显存推理速度提升主要来自模型更小,内存宽带压力降低。要真正用满 w 四, a 四的全量化加速得有 blackwell gpu, 也就是 b 一 百或者 b 两百, 这一点很重要,别被参数说明误导了。跟之前测的 a w q 四比特版对比, n v f p 四各方面都有提升,实测吞吐量更高,多轮对话体感也更流畅,部署稳定性也更好。我的建议是这样, 如果你有双四千零九十 n v f p 四的量化版,值得换上去,显存省了精度没损失,相比 awq 是 一次真实的升级,等 blackwell gpu 普及了,收益会更大。

hello, 大家好啊,今天我们来测试一下这个切分三点六二十七 b 的 这个模型,这个重密模型它的性能测试到底就性能到底是什么样子的, 呃,也是从这我们本地去部署的这几个软件,然后来逐步的去测试啊,呃,考虑到对内存的占用啊,就是我们先从这些呃占用内存的这些软件,呃,逐步去测试,从这个先从欧拉玛,然后再从这个 lm studio, 然后这个 lm app, 然后还有这个最后的这个 vlm 啊, 这样的一个测试顺序啊。首先来第一个就是欧拉玛,呃,欧拉玛我自己本地的话也已经下载了,下载了,然后,呃,我们可以看一下这个 看一下啊,千万三点六二七 b 这个模型呢,它只有十七 g 左右的一个大小,嗯,也可以看一下,我自己现在初识内存是零点八 g 啊, ok 啊,这几种模型这几种软件我都通,因为他都支持这个 open i 的 这个标准格式吗?就已经全部到接入到 chris 丢丢里面了啊。然后呢,先从欧拉玛开始啊,欧拉玛开始我这边已经准备好了,就是,呃,三点六二七 b 的 这个模型啊,呃啊,对,忘了说一句啊,就是可以看一下,呃,欧拉玛 啊,他所有的这个就是这几个软件啊,他所有的上下文一定都是保持三十二 k 的 一个上下文啊, ok 啊,来先测试欧拉玛,嗯, 看一下显存占用啊, 十七 g 的 大小,除过我基础是零点八 g 的 显存占用外,相当于占用了将近二十三个 g, 二十三点呃,二 g 的 显存,但模型文件本质上只有十七 g 啊, 二十五个 tiktok 每秒,然后再来测试一下。 思考了挺长时间呢,二十六个逃客每秒啊,几乎就是这个数字, ok, 对, 欧拉曼,我们就先把它的内存呃显存给直接释放掉,把欧拉曼直接给退掉了,退掉,然后看一下, ok, 欧拉曼已经退掉了,看一下我的显存啊,显存已经回到这个零点八零点九,这,这这样子啊, 零点八 g 显存已经只有零点八 g 了,奥拉玛,就这边已经结束掉,大概就是二十五个 token 左右啊,然后来看一下这个,呃, l lms 丢丢啊, lms 丢丢看一下, 嗯,看它显存占用啊,是从零点八 g 到了十七点四,它显存占用就相当于将近十六点六啊,就十六点六 g 的 显存占用 二十八个 token 每秒,再来一下啊, ok, 还是二二十八个透坑每秒, ok 啊,然后再把这个 i m 四六六也退掉。退掉,然后看一下,看一下显存已经释放出来了,又回到了零点八 g 啊, 然后再来看一下这个 i m 四 i m 这个那个什么啊,浪漫 c p p 啊,看一下浪漫 c p p 的 这个显存占用, ok, 也起的是这个二十七 b 这个重密模型啊, ok, 啊,已经启动结束了,看一下它的显存是由零点八 g 啊,直接到了十九点一啊,相信占了是十八点三 g 的 一个显存啊,来看一下啊, 二十八个透刻每秒,嗯, 再来一下,再来一下, ok, 呃,它和这个这个 i m studio 啊,本质上都是一样的啊,其实都是这个二十八颗头克每秒, ok, 那 我们把这个 i m studio 这这个,呃,不是拉萨 c p p 也结束掉,把我们的显存给释放出来, ok, 最后来试一下这个,呃,试一下这个 v i m 啊,这个就只能从这个零零五四子系统里面去试测试了。 ok, 这是,呃, ws 的 这个 linux 系统啊。啊,这边我也准备好命令啊,呃,先要去进一下这个虚拟环境啊,这个是专门起了一个 python 的 一个虚拟环境啊, 然后因为要去把它的默认的这个下载的这个路径啊,要设成这个,呃,摩塔社区啊,要不然的话它会从 happyface 去下载啊,就会非常慢啊,当然这个模型我已经下载了。 然后呢,啊,来,我们起一下这个二七 b 的 啊,这个我起的是这个 a w q 这个格式的这个模型文件稍微就是大一点,是二十一点八八 g 啊。 ok, 在 启动当中啊, 显从已经占用了二十一点一, 还在往过升 二十三点五的显存占用了。用 v i m 的 话,其实它对内存的占用也非常高啊,因为我自己相当于是在这个 w g r s l 的 这个子系统下面,嗯, linux 子系统下面, 所以它是既需要起这个子系统又要起这个啊, v i m 还要运行模型啊,所以它内存占用是非常大占用了我大概现在,呃,试着让它起起一下,让我看一下。 呃,现在已经占了二十五二十六个 g 的 内存了。二十六个 g 的 内存了, 还没有起起来,还在起 啊,启动这个过程都已经把我的显存已经给爆了。 显存爆了,已经占了我的内存啊,已经占了十四点几个 g 了啊, 启动的时候会特别慢啊,启动之后的话,其实只是模型占用的显存来说没有这么大啊,但是相对于其他的,呃,本地部署的方式的话,对显存占用来说的话就已经算很大了。 看一下啊,他只是有这么一段啊,就有有这么一段时间是对显存还有内存占用非常大。 ok 啊,现在已经起起来了,看一下它最终的一个显存占用的是二十九点一啊,是二十九点一 g 的 一个显存。 ok, 那 现在我们来测试一下啊, 二十九个偷克每秒啊,再来一下啊。 ok 啊,二十九个偷克每秒。 ok, 那 今天呢这个测试呢就到这里,之后的话会出就是出一些这个通过啊,使用到这个 turbocom 或者是 deflunch 的 这种 啊,一个是对于啊推理的加速,一个呢是对于啊显存的压缩啊,到时候看一下有没有。

一句话直接写了个五字旗,然后之前的模型要强多了,呃,这一句出,而且可以,虽然 ai 有 点问题啊,这个 ai 下了棋,他不知道你下在哪里?大家好,最近在玩这个 ai 本地模型啊,这个是一个四零九零那个电脑,然后他最近把这个千问三点六,然后行蒸馏一下,试了一下他, 他这个三点五蒸馏出来的,呃,是三点五的这二七 b, 然后七 b 的 微三点五版本,然后试了一下西画啊,直接写了一个五字旗,然后之前的模型要强多了,直接一句出,而且可以,虽然 ai 有 点问题啊,他这个 ai 下的棋,他不知道你下在哪里,但是, 呃是可以的,大家可以自己测一下啊。我在这里面还可以,但是稍微有点慢,因为我调的上下文有点高,所以它现在是三十四头肯斯,每秒用的参数是这样的,然后可能这个它 k 拉的有点低啊,他妈 c p p 去跑的,然后是写的一个前端, 然后就拉了 c p p 跑的,它基本上占用还是可以的,然后我的四零九零呢,占用是二十四 g b, 然后占的是七 g b 啊,还是可以的,然后速度不是特别特别快,以前还可以,然后感觉这个这个版本是终于生产可以使用的,下的是这个 q 四 k m 版本。

虽然玩过很多肖龙旗舰手机,但肖龙 windows 笔记本我还真是第一次用。现在不管拿到什么新设备,我第一时间都想着能不能跑本地大模型,多少有点 ai 魔证人那为了这台笔记本是华硕灵耀十六 a 二肖龙版,搭载了肖龙 x 二 l 的 extreme, 关于它的性能表现,大家可以去看看专业博主的评测,今天我主要就想看看他在本地跑大模型是怎样的。 笔记本本身有四十八 gbl p d d r 五叉大内存,而且是统一内存架构,也就是 cpu、 gpu npu 都能共享调用。这四十八 gb 理论上跑三十 b 左右的大模型应该还不错,不至于触发内存交换。 因为是 im 架构的笔记本,所以在应用生态上跟叉八六平台还有点区别。奥拉玛和 lm studio 在 im 上我只找到纯 cpu 版本,虽然 gpu 也会动一点,但不知道是在干啥,也没有办法手动给它卸载陈述。 所以如果想调用 g p u, 那 得自己翻译一个拉玛 c p p。 然后我用的是 q 四 k m 量化模型,千万三点五九 b 和 jam 四一四 b 在 这里确实是可以正常调用肖龙 g p u 的, 这是一个非常好的信号, 不过输出的速度比较一般,一四 b 大 概是十二 topos 每秒,前吻是六 topos 每秒, q 四零版本也差不多。其实这代枷龙 gpu 提升幅度还是很可观的,也可以分配最多四十四 gb 内存,所以可玩性理论上不错。但是目前开源框架在 arm windows 上的 rock 生态确实还处于能跑就行的阶段,调用优化还没做到位。 好消息是这次枷龙 cpu 还挺强的,这次我用回 lm studio 在 测试,更方便。一四 b 输出速度可以来到三十二 topos 每秒, 千万三点六和三点五系列的表现也非常不错。当然啊,也不是所有模型都能跑这么快的,同时 q 是 量化二十七 b 三十一 b 级别的稠密大模型,速度就直接掉到了个位数。但正如我们上次所说的,二十 b 以上稠密型就老老实实去读写上面跑 windows 轻薄本的版本,答案是 m o e。 这次测试下来,最让我惊喜的是,千万三点六三十五 b a 三 b 竟然能跑到三十二 token 每秒。既然都跑到这里了,那顺便用几个常规问题测试一下。在写策划方案这块,三十 b 左右肯定还是有智商优势的, 依旧还是祖传的宠物店宣传方案做出来之后,给云端大模型打分,作为本地人的豆包老师给千问三点六三十五币打出了最高分。外地的云端大模型们则偏爱二十七币, 综合下来,三十五币能以八十四分的平均成绩位列第二,两个加码式都没有上七十分。核心问题还是脱离本地,实际操作也有点差边,比如粘贴小广告、给物业和保安送礼等等,挺搞笑的,这一套操作可不太符合我们本地情况。当然,我只测试了一次,肯定是有一定的随机性,但是千问三点六三十五币的可用性确实还是不错的。 代码方面,我让三十五币写个 html 计算器,有瑕疵但能用,整体没问题。对了,这颗笑容的八十 top 的 npu 也能单独跑大模型, 三币以下的大概在九到十 token 每秒可以用 anything l l m 去跑,处理些轻量级文字工作还不错。它的优势就在于不用白不用嘛,挂在后台不占用 cpu 资源,能效也高。当然目前能直接适配 npu 的 现成模型还不多,但这个趋势已经非常香了。 好了,以上就是一个简单的不严谨的测试了,这是肖龙笔记本的 cpu, 其实真的蛮不错的,在大内存大带宽的加持下,跑本地大模型还挺强,当前阶段会比折腾 gpu 收益大很多。另一方面,千万三点六系列整体体验也很惊喜, 推荐大家体验一下这个三十五 bme 的 三点六,尤其是大内存轻薄本用户。感谢观看,我们下一期再继续捣鼓一些没用的活,再见!

今天又更新了,更新了这个版本。看看这个速度 啊,六十三左右。哇,这都已经接近很很流畅了。这都你看啊,上下文少了一点。上下文现在是六万五。 那也用的很爽了,开了可以四并发。四并发在五十左右。那很可以了,养个小龙虾在在 cologne 编个成啊,那本地随便用了, 你看六十六十三左右啊,单并发的, 这速度,刷刷刷的很爽很爽。

上一条视频我说本地模型正在真正进入生产力时代,这条就是第一部分,实测宽三点六二十七 b 本地部署之后,前端代码生成能力到底能不能打?先说结论,这次结果比我预期更强, 一个只有二十七 b 参数的本地模型,跑在 rtx 三零九零上,不调用云端 api, 直接生成可运行的前端页面、小游戏、电商网站、音乐播放器,这个效果已经不是玩具级别了,是真的可以替代一部分软件开发工作。 这里我用的是宽三点六二十七 b 的 g g u f 量化版本 u d q 四下划线 k 下划线 x l 模型大小大概十七点六 g b 通过 lma cpp 本地加载显卡是二十四 g 显存的 rtx 三零九零,也就是说这不是服务器集群,也不是闭源大模型 api, 而是一张消费级显卡就能跑起来的本地模型。现在切到服务器和 lma cpp 本地模型能不能进入生产历,第一步就是部署成本要低调,用链路要简单。这里先看显卡状态, rtx 三零九零已经被正常识别,显存二十四 g, 然后通过 llama server 加载 quan 三点六二十七 b 的 g g u f 文件端口开在一八零八零上下文,设置到六万五千五百三十六, 启动完成后,进入 lama c p p 的 web ui, 这里可以看到模型信息,当前加载的是 quan 三点六二十七 b u d q 四下划线 k 下划线 x l 参数规模二十六点九 b 上下文六十五 k 训练上下文二十六万 to 肯, 真正关键的不是他能不能聊天,而是他能不能把需求直接变成可用的软件界面,这一步我会多停一下给大家看,因为本地模型要进入生产力,不能只看模型名字,还要看他能不能稳定加载,能不能给足上下文,能不能持续输出长代码。 这里三零九零已经把模型跑起来了,说明二十七 b 这个级别已经不是实验室配置,而是普通高端电脑也能承载的开发助手。我先用一个智力题做预热, 题目是洗车店离我家五十米,我应该走路去还是开车去?这个题看起来简单,其实考的是模型能不能理解隐藏条件,因为你是去洗车,车本身必须到洗车店,所以答案不是简单的走路更近,而是应该把车开过去。 从输出看宽三点,又能抓住这个逻辑点,基础推理没有问题。接下来进入真正的前端开发测试。 第一个任务,让他创建一个飞机大战游戏,并生成到 html 中。注意,这里不是让他写一个按钮,也不是写一个静态页面,而是要生成完整小游戏。 它需要页面结构 canvas 绘制玩家飞机、敌机、子弹碰撞、检测分数、波次、生命值,还有开始和结束状态。这种任务对模型其实很苛刻,因为它不只是前端样式问题,还要同时处理游戏循环、键盘输入对象更新、碰撞判断和难度变化。 只要其中一个环节写错,页面可能能打开,但游戏就跑不起来。画面里可以看到它一边生成,一边把 html、 css 和 javascript 都写出来。 最终这个任务生成了一万三千五百四十个 token。 对 于本地二十七 b 模型来说,这个输出量已经很夸张, 打开页面之后,游戏是能直接运行的,飞机能移动,子弹能发射,敌机会出现,分数会增长,还有不同波次和 boss。 这个完成度说明它不是在写代码片段,而是在生成一个真的能跑的小软件。 如果一个本地模型一次性就能生成这种可玩的小游戏,那普通业务页面、后台页面、内部工具页面很多开发工作其实已经可以先交给它完成。我觉得这里是一个分水岭, 以前本地模型给人的感觉是可以辅助写代码,但还需要人从头到尾盯着。现在这个结果更像是你给他一个需求,他先把完整可运行版本交出来,人再做验收和精修。第二个任务,我让他生成一个类似淘宝的电商网站。 这个任务更接近真实软件开发,因为电商页面不是单一组建,他需要顶部搜索分类、导航、轮播、活动区、商品列表、价格、购物车、商品弹窗返回。顶部底部服务还要有一定响应式布局, 也就是说它要同时理解页面信息架构、视觉层级和交互流程。真实业务开发里,大量时间其实就花在这些重复但又不能缺的结构上。模型如果能一次性搭出可用原型,开发效率会被直接拉高。 这次生成了一万五千二百一十七个 token, 画面里可以看到模型持续输出代码和功能说明,最后直接给出完整 html。 这个过程非常像一个前端工程师先把原型页面搭出来,最终打开页面,效果非常完整。 顶部有搜索框和购物车,左侧有分类,中间有活动 banner, 下面是商品卡片,商品有价格标签。加入购物车按钮,继续往下看页面还有底部服务区,返回顶部商品详情弹窗和购物车侧边栏, 点击商品可以弹出详情。加入购物车以后有反馈,购物车也能打开。这个已经不是生成一段代码,而是直接生成了一个完整电商网页原型,更关键的是,它没有只做静态视觉,而是把基本交互也补上了。 商品详情加入购物车、购物车面板,这些都是前端开发里真实要写的功能,虽然还需要工程化整理,但原型阶段已经完全可用了。 第三个任务我继续加难度生成一个高级音乐播放器网页。这个任务主要看视觉设计和组建状态。 音乐播放器要有深色主题歌曲列表、封面、播放按钮、进度条、音量控制上一首下一首随机播放循环模式还要能切换歌曲并更新界面状态。这一次输出更多,生成了一万七千四百零九个 token, 也就是说在连续三个前端任务之后,他仍然能稳定输出上万 token 的 完整代码,最终页面打开后,完成度非常高。 左侧是歌曲列表,中间是专辑封面和播放控制,下面有进度条音量播放模式,点击不同歌曲封面颜色、歌曲名、播放状态都会切换。 这个界面已经不是粗糙 demo, 而是有真实产品感的前端原型。对于个人开发者、小团队、独立产品内部系统,很多以前需要从零搭建的页面,现在完全可以先让本地模型生成,再由人来验收、修改和接入工程。 所以这轮测试下来,我的判断很明确,宽三点六。二十七 b 是 目前我测下来最强的一档本地模型,它不是只能回答问题,而是可以把一个需求直接变成可运行的软件。当然,真正上线还需要人工做代码整理、组建、拆分、工程化和测试, 但从生产力角度看,这已经是质变人要做的事情。从手写所有代码变成提需求、验收、调整接入工程。一个二十七 b 本地模型能跑在自己的机器上,能生成上万 token 的 完整前端项目,这个水平足够说明本地模型完全可用。