00:00 / 00:21
连播
清屏
智能
倍速
点赞316
00:00 / 04:21
连播
清屏
智能
倍速
点赞246
00:00 / 00:35
连播
清屏
智能
倍速
点赞89
00:00 / 00:56
连播
清屏
智能
倍速
点赞550
00:00 / 00:55
连播
清屏
智能
倍速
点赞1729
Qwopus3.6-27B 本地部署,24G 显卡轻松跑 Qwen 加 Opus,缝合怪又来了,这次是 27B 本地版。大家好,我是AI学习的老章。今天聊一个有意思的开源模型,Qwopus3.6-27B-v1-preview,作者 Jackrong。光看名字你就懂了,Qwen 加 Opus,意思是拿 Claude Opus 的蒸馏数据,去调教 Qwen3.6-27B。底座是阿里的 Qwen3.6-27B 稠密模型,原生 262K 上下文,能扩到 1M。训练用的 Unsloth,数据是 Claude 蒸馏数据集打底,混入 GLM-5.1、Kimi-K2.5、Qwen3.5 的推理数据。最关键的一步在这,作者用一个 8B 模型当过滤器,把风格跑偏的样本剔掉,最后只留 12K 条调性统一的高质量数据。这思路特别反直觉,别人都是越多越好,他在做减法。我觉得这个项目最值得琢磨的就是这个点,吃什么长什么样,数据干净,比数据多重要得多。早期评测合作者用 16 条 prompt,单卡 5090 跑 GGUF 量化版,覆盖 Agentic 推理、前端设计、创意 Canvas 三类场景,对比的是 Qwen3.6-27B 原版。但说实话,16 条样本,作者自己都说是 early signal,谁也别当定论。GGUF 仓库已经放出来,量化档位很全,IQ4_XS 是 15.2 G,单张 24G 显卡就能跑,4090、5090、3090 都行。Q2_K 是 10.7 G,16G 显卡能塞但损失不小。直接用 llama.cpp 或者 Ollama 拉起来就行。我的看法是,值得关注,但别神化。它是 preview 版,作者自己都说在探路。但这个思路把 Claude 风格用工程手段迁移到可本地部署的 27B 模型上,加上 Apache-2.0 协议商用友好,给国产开源生态加了一个有 Claude 味儿的选择,这个角度挺难得。手上有 4090、5090 的玩家可以尝个鲜,正式版出来我再拉出来实测一波
00:00 / 02:13
连播
清屏
智能
倍速
点赞189
00:00 / 01:24
连播
清屏
智能
倍速
点赞9506
英伟达加速版Qwen3.6,NVFP 4 性能实测 今天聊的是 Qwen3.6-35B 的 NVFP4 量化版,Red Hat AI 团队出品 NVFP4 是什么,简单说就是权重和激活同时量化到 4-bit 浮点 也叫 W4A4,用的是 E2M1 格式,还加了微块缩放技术 相比普通 INT4,FP4 对极端值的处理更精细,理论上精度损失更小 Red Hat 跑了 GSM8K Platinum 评测,数据很惊艳 原版 BF16 准确率 95.62%,NVFP4 量化版 96.28% 量化之后精度反而比原版高了一点 当然这有统计波动,但至少证明 NVFP4 的精度损失几乎可以忽略 这比 AWQ 的量化质量要高一个级别 我在双 4090 服务器上用 Docker 加 vLLM 部署了这个模型 说几个关键数据 每卡显存只用 10.61 GB,对比 BF16 版省了接近一半 模型加载 24 秒,加上 torch compile 总初始化在 2 分半 支持 102K 上下文,KV Cache 能装 49 万 token 最大并发能跑 17 倍 有一个细节我必须说清楚 4090 是 Ada Lovelace 架构,不支持原生 FP4 计算 vLLM 看到之后会自动退回 Marlin 内核 推理时权重先从 FP4 解压到高精度再参与计算 激活量化那部分的加速就没了 所以在 Ada 架构上,NVFP4 的核心收益是省显存 推理速度提升主要来自模型更小、内存带宽压力降低 要真正用满 W4A4 的全量化加速,得有 Blackwell GPU 也就是 B100 或者 B200 这一点很重要,别被参数说明误导了 跟之前测的 AWQ-4bit 版对比,NVFP4 各方面都有提升 实测吞吐量更高,多轮对话体感也更流畅 部署稳定性也更好 我的建议是这样 如果你有双 4090,NVFP4 量化版值得换上去 显存省了,精度没损失,相比 AWQ 是一次真实的升级 等 Blackwell GPU 普及了,收益会更大
00:00 / 02:21
连播
清屏
智能
倍速
点赞166