00:00 / 01:19
连播
清屏
智能
倍速
点赞2208
00:00 / 01:57
连播
清屏
智能
倍速
点赞NaN
00:00 / 01:15
连播
清屏
智能
倍速
点赞4165
00:00 / 01:47
连播
清屏
智能
倍速
点赞48
00:00 / 00:35
连播
清屏
智能
倍速
点赞6588
00:00 / 06:07
连播
清屏
智能
倍速
点赞3801
00:00 / 04:52
连播
清屏
智能
倍速
点赞NaN
00:00 / 00:46
连播
清屏
智能
倍速
点赞188
00:00 / 01:27
连播
清屏
智能
倍速
点赞2153
00:00 / 00:20
连播
清屏
智能
倍速
点赞36
英伟达加速版Qwen3.6,NVFP 4 性能实测 今天聊的是 Qwen3.6-35B 的 NVFP4 量化版,Red Hat AI 团队出品 NVFP4 是什么,简单说就是权重和激活同时量化到 4-bit 浮点 也叫 W4A4,用的是 E2M1 格式,还加了微块缩放技术 相比普通 INT4,FP4 对极端值的处理更精细,理论上精度损失更小 Red Hat 跑了 GSM8K Platinum 评测,数据很惊艳 原版 BF16 准确率 95.62%,NVFP4 量化版 96.28% 量化之后精度反而比原版高了一点 当然这有统计波动,但至少证明 NVFP4 的精度损失几乎可以忽略 这比 AWQ 的量化质量要高一个级别 我在双 4090 服务器上用 Docker 加 vLLM 部署了这个模型 说几个关键数据 每卡显存只用 10.61 GB,对比 BF16 版省了接近一半 模型加载 24 秒,加上 torch compile 总初始化在 2 分半 支持 102K 上下文,KV Cache 能装 49 万 token 最大并发能跑 17 倍 有一个细节我必须说清楚 4090 是 Ada Lovelace 架构,不支持原生 FP4 计算 vLLM 看到之后会自动退回 Marlin 内核 推理时权重先从 FP4 解压到高精度再参与计算 激活量化那部分的加速就没了 所以在 Ada 架构上,NVFP4 的核心收益是省显存 推理速度提升主要来自模型更小、内存带宽压力降低 要真正用满 W4A4 的全量化加速,得有 Blackwell GPU 也就是 B100 或者 B200 这一点很重要,别被参数说明误导了 跟之前测的 AWQ-4bit 版对比,NVFP4 各方面都有提升 实测吞吐量更高,多轮对话体感也更流畅 部署稳定性也更好 我的建议是这样 如果你有双 4090,NVFP4 量化版值得换上去 显存省了,精度没损失,相比 AWQ 是一次真实的升级 等 Blackwell GPU 普及了,收益会更大
00:00 / 02:21
连播
清屏
智能
倍速
点赞167
00:00 / 01:03
连播
清屏
智能
倍速
点赞6786
00:00 / 02:29
连播
清屏
智能
倍速
点赞978
00:00 / 01:16
连播
清屏
智能
倍速
点赞510
00:00 / 01:28
连播
清屏
智能
倍速
点赞574