112
47
47
7
举报
发布时间:2026-05-11 10:39
小红AI
小红AI

粉丝117获赞781

相关视频

  • Turboquant+DFlash组合🔥本地实操💻 折腾了两天,终于把这个组合跑通了。中间的录制还出了问题,不过最终结果还算比较理想。 
- Qwen 3.6 35B: 原生 60 已经很快,满血优化后直冲 90。最关键的是,内存从43G被压回到了23G的基准线水平!
- Qwen 3.5 27B:速度从19提升到了37,将近2倍。而内存从46G被压缩到了20!
- Qwen 3.5 9B: 优化后速度翻了 2.95 倍!内存稳定在20,效果非常惊人。 
9B在DFlash下,没有跑出来官方的效果,可能和设备性能有关。 
不过27B和网上大神的效果已经非常接近。 
#科技下一站 #我在抖音聊科技 #turboquant #dflash
    01:09
    查看AI文稿
  • Qwen3.6-35B量化方案选择 针对显存、速度与推理能力,深度对比Qwen3.6-35B的量化版、DFlash加速版及Claude Opus蒸馏版方案。#Qwen3635B #LLM优化 #vLLM #量化技术 #AI推理加速
    04:28
    查看AI文稿
  • 实测开源Qwen3.6运行OpenClaw的效果 #Qwen36 #OpenClaw
    04:22
    查看AI文稿
  • Qwen3.6-35B-A3B:2千到3万,三档本地部署实战 这期视频,我把 Qwen 3.6 35B A3B 装进 3 台价格完全不同的设备里,实测识图、OCR、手写数学题、写作、算法题和代码生成。最让我意外的,不只是它比预期更能打,而是我那台 2500 块手搓丐版战神,居然跟这个模型异常般配。便宜设备不可怕,可怕的是本地模型这次真的能干活了。 
这次让我真正改观的,是 Qwen 3.6 35B A3B 在不同任务之间,整体都没有明显掉链子。识图能看,OCR 能用,代码能写,逻辑题也能认真推,放到真实项目里,不再是那种“偶尔灵光一现”的状态了,而是已经开始成为稳定的生产力工具了。本地开源模型这次,是真的往前走了一大步。
#qwen #ai智能体   #openclaw#大语言模型 #ai
    09:32
    Qwen3.6-35B-A3B:2千到3万,三档本地部署实战 这期视频,我把 Qwen 3.6 35B A3B 装进 3 台价格完全不同的设备里,实测识图、OCR、手写数学题、写作、算法题和代码生成。最让我意外的,不只是它比预期更能打,而是我那台 2500 块手搓丐版战神,居然跟这个模型异常般配。便宜设备不可怕,可怕的是本地模型这次真的能干活了。
    这次让我真正改观的,是 Qwen 3.6 35B A3B 在不同任务之间,整体都没有明显掉链子。识图能看,OCR 能用,代码能写,逻辑题也能认真推,放到真实项目里,不再是那种“偶尔灵光一现”的状态了,而是已经开始成为稳定的生产力工具了。本地开源模型这次,是真的往前走了一大步。
    #qwen #ai智能体 #openclaw#大语言模型 #ai
    查看AI文稿
  • 一个更神奇的Qwen3.5-27B版本,推理速度暴涨5倍 今天介绍一个让我非常兴奋的项目,叫 DFlash,来自 UCSD 的 z-lab 团队。它能让 Qwen3.5-27B 的推理速度暴涨到原来的5倍,关键是——生成质量完全不打折 
先说原理。大模型生成文字,是一个 token 一个 token 往外蹦的,串行瓶颈在那摆着。之前业界用推测解码来加速,先用小模型猜一串 token,再让大模型验证。但之前最强的方案 EAGLE-3,加速比也就2到3倍 
DFlash 把"猜"的过程,从自回归换成了扩散模型。一次前向传播,直接并行生成一整个 block 的 token。不管你猜8个还是16个,都是一次搞定。这就是它快的核心原因 
更精妙的是,DFlash 会从大模型的隐藏层抽特征,注入到小模型的每一层。这样小模型猜得特别准,HumanEval 上平均每轮能猜中9个 token 
实测数据很能说明问题。在 HumanEval 上,单并发直接5.2倍加速。Math500 上4.7倍。哪怕高并发场景下,也能维持1.5到1.9倍。而且 drafter 模型只有2B 参数,加载几乎不占额外显存 
最关键的是,已经适配了 vLLM、SGLang 和 Transformers 三大框架。生产环境直接能用 
我的判断是,如果你在用 Qwen3.5-27B 做推理服务,DFlash 几乎是个无脑加分项。多加载一个 2B 的小模型,吞吐量翻好几倍,简直是免费的午餐
    01:50
    一个更神奇的Qwen3.5-27B版本,推理速度暴涨5倍 今天介绍一个让我非常兴奋的项目,叫 DFlash,来自 UCSD 的 z-lab 团队。它能让 Qwen3.5-27B 的推理速度暴涨到原来的5倍,关键是——生成质量完全不打折
    先说原理。大模型生成文字,是一个 token 一个 token 往外蹦的,串行瓶颈在那摆着。之前业界用推测解码来加速,先用小模型猜一串 token,再让大模型验证。但之前最强的方案 EAGLE-3,加速比也就2到3倍
    DFlash 把"猜"的过程,从自回归换成了扩散模型。一次前向传播,直接并行生成一整个 block 的 token。不管你猜8个还是16个,都是一次搞定。这就是它快的核心原因
    更精妙的是,DFlash 会从大模型的隐藏层抽特征,注入到小模型的每一层。这样小模型猜得特别准,HumanEval 上平均每轮能猜中9个 token
    实测数据很能说明问题。在 HumanEval 上,单并发直接5.2倍加速。Math500 上4.7倍。哪怕高并发场景下,也能维持1.5到1.9倍。而且 drafter 模型只有2B 参数,加载几乎不占额外显存
    最关键的是,已经适配了 vLLM、SGLang 和 Transformers 三大框架。生产环境直接能用
    我的判断是,如果你在用 Qwen3.5-27B 做推理服务,DFlash 几乎是个无脑加分项。多加载一个 2B 的小模型,吞吐量翻好几倍,简直是免费的午餐
    查看AI文稿
  • qwen3.6 35B在12G显存上跑起来了 现在技术发展真快,以前还只能装8B,9B的模型还很笨,现在直接跳过14B,26B上到35B,当然模型有点不一样,反正很厉害了那个技术最新出的叫turboquant,可以试试看。#openclaw#hermes
    01:57
    查看AI文稿
  • 5月4日 (1)(1) llama.cpp windows11 下源码编译#下源码编译 #llama#本地部署ai #Qwen #ai应用
    03:26
    查看AI文稿
  • 实战利用MTP补丁免费大幅提升Qwen3.6-27B运行速度 #mtp补丁
    04:05
    查看AI文稿
  • 英伟达加速版Qwen3.6,NVFP 4 性能实测 今天聊的是 Qwen3.6-35B 的 NVFP4 量化版,Red Hat AI 团队出品
 NVFP4 是什么,简单说就是权重和激活同时量化到 4-bit 浮点
 也叫 W4A4,用的是 E2M1 格式,还加了微块缩放技术
 相比普通 INT4,FP4 对极端值的处理更精细,理论上精度损失更小 
Red Hat 跑了 GSM8K Platinum 评测,数据很惊艳
 原版 BF16 准确率 95.62%,NVFP4 量化版 96.28%
 量化之后精度反而比原版高了一点
 当然这有统计波动,但至少证明 NVFP4 的精度损失几乎可以忽略
 这比 AWQ 的量化质量要高一个级别 
我在双 4090 服务器上用 Docker 加 vLLM 部署了这个模型
 说几个关键数据
 每卡显存只用 10.61 GB,对比 BF16 版省了接近一半
 模型加载 24 秒,加上 torch compile 总初始化在 2 分半
 支持 102K 上下文,KV Cache 能装 49 万 token
 最大并发能跑 17 倍 
有一个细节我必须说清楚
 4090 是 Ada Lovelace 架构,不支持原生 FP4 计算
 vLLM 看到之后会自动退回 Marlin 内核
 推理时权重先从 FP4 解压到高精度再参与计算
 激活量化那部分的加速就没了 
所以在 Ada 架构上,NVFP4 的核心收益是省显存
 推理速度提升主要来自模型更小、内存带宽压力降低
 要真正用满 W4A4 的全量化加速,得有 Blackwell GPU
 也就是 B100 或者 B200
 这一点很重要,别被参数说明误导了 
跟之前测的 AWQ-4bit 版对比,NVFP4 各方面都有提升
 实测吞吐量更高,多轮对话体感也更流畅
 部署稳定性也更好 
我的建议是这样
 如果你有双 4090,NVFP4 量化版值得换上去
 显存省了,精度没损失,相比 AWQ 是一次真实的升级
 等 Blackwell GPU 普及了,收益会更大
    02:21
    英伟达加速版Qwen3.6,NVFP 4 性能实测 今天聊的是 Qwen3.6-35B 的 NVFP4 量化版,Red Hat AI 团队出品
    NVFP4 是什么,简单说就是权重和激活同时量化到 4-bit 浮点
    也叫 W4A4,用的是 E2M1 格式,还加了微块缩放技术
    相比普通 INT4,FP4 对极端值的处理更精细,理论上精度损失更小
    Red Hat 跑了 GSM8K Platinum 评测,数据很惊艳
    原版 BF16 准确率 95.62%,NVFP4 量化版 96.28%
    量化之后精度反而比原版高了一点
    当然这有统计波动,但至少证明 NVFP4 的精度损失几乎可以忽略
    这比 AWQ 的量化质量要高一个级别
    我在双 4090 服务器上用 Docker 加 vLLM 部署了这个模型
    说几个关键数据
    每卡显存只用 10.61 GB,对比 BF16 版省了接近一半
    模型加载 24 秒,加上 torch compile 总初始化在 2 分半
    支持 102K 上下文,KV Cache 能装 49 万 token
    最大并发能跑 17 倍
    有一个细节我必须说清楚
    4090 是 Ada Lovelace 架构,不支持原生 FP4 计算
    vLLM 看到之后会自动退回 Marlin 内核
    推理时权重先从 FP4 解压到高精度再参与计算
    激活量化那部分的加速就没了
    所以在 Ada 架构上,NVFP4 的核心收益是省显存
    推理速度提升主要来自模型更小、内存带宽压力降低
    要真正用满 W4A4 的全量化加速,得有 Blackwell GPU
    也就是 B100 或者 B200
    这一点很重要,别被参数说明误导了
    跟之前测的 AWQ-4bit 版对比,NVFP4 各方面都有提升
    实测吞吐量更高,多轮对话体感也更流畅
    部署稳定性也更好
    我的建议是这样
    如果你有双 4090,NVFP4 量化版值得换上去
    显存省了,精度没损失,相比 AWQ 是一次真实的升级
    等 Blackwell GPU 普及了,收益会更大
    查看AI文稿
  • 本地4种软件部署qwen3.6-27b性能测试 ollama,llama.cpp,LMstudio,vLLM本地部署测试#ollama#llamacpp#lmstudio#AI#vLLM
    10:27
    查看AI文稿
  • 千问3.6本地运行,这个是真生产力#AI #QWEN #QWEN3.6 #蒸馏
    01:14
    查看AI文稿
  • 骁龙笔记本跑35B大模型? | Qwen3.6 | Gemma4 | 骁龙X2 Elite Extreme | 华硕灵耀16 Air
#AI #qwen #Gemma4 #笔记本 #骁龙X2Elite
    03:10
    查看AI文稿
  • #本地部署大模型 #OpenClaw #ClaudeCode qwen3. 6-35b:a3b 模型速度。#编程
    00:54
    查看AI文稿
  • Qwen3.6-27B 实测:本地模型已经能替代前端开发? Qwen3.6-27B 本地实测:飞机大战、电商页、音乐播放器,一次生成完整前端项目。本地模型进入生产力时代。
#qwen #千问 #大模型
    07:16
    查看AI文稿