qwen3.6 27b怎么改为FP8 - 抖音

您是不是在找：

ai景行小博士2周前

Qwen3.6_35B模型部署设置全流程，冲80词元/s #热点 #本地部署 #Qwen35B #全流程 #词元

00:00 / 04:04

连播

清屏

智能

倍速

点赞587

Ai 学习的老章1月前

神操作再现，单卡3090 起跑！Claude-Opus蒸馏Qwen3.5-27B #大模型#蒸馏 #程序员

00:00 / 01:46

连播

清屏

智能

倍速

点赞1024

千问大模型9月前

教你正确打开 Qwen3-Coder 自动制定项目计划、网络搜索、素材整理、独立完成项目！Qwen3-Coder正确打开方式教会你，通通都可以实现！ #Qwen #AI #通义千问 #大模型 #教程

00:00 / 01:33

连播

清屏

智能

倍速

点赞1318

AI小马达1月前

#qwen #OpenClaw #浏览器自动化 qwen3.6-puls还行！

00:00 / 00:21

连播

清屏

智能

倍速

点赞316

郝点儿（AI 最严厉的法则）2月前

一张 3090，真的能把千问 3.5 35B 模型跑明白吗#本地ai #千问#ai #diy

00:00 / 01:52

连播

清屏

智能

倍速

点赞4852

AI技能研究社2周前

Qwen3.6-35B-A3B部署指南深度解析Qwen3.6-35B-A3B的MoE架构优势，涵盖SGLang、vLLM、Unsloth等多种部署方案及思维链参数配置技巧。#Qwen3635BA3B #MoE模型 #大模型部署 #SGLang #vLLM

00:00 / 03:11

连播

清屏

智能

倍速

点赞328

小宇玩AI1月前

阿里放大招！千问3.6编程能力直逼世界第一，还免费用两天前阿里偷偷发了 Qwen3.6-Plus，编程跑分直逼 Claude Opus 4.5，推理速度快3倍，价格只要十分之一。这条视频从架构原理、Benchmark 数据、实测案例、价格对比四个维度，帮你搞懂这个模型到底强在哪，对普通人意味着什么。#Qwen #千问 #阿里巴巴 #AI编程 #大模型 #Claude #人工智能

00:00 / 03:38

连播

清屏

智能

倍速

点赞623

程序员寒山1年前

本地部署Qwen3小参数版本实测：并非鸡肋实测多个本地模型本期视频主要给大家介绍本地部署大模的相关知识，实测Qwen3 小参数模型的过程，包括与DeepSeek r1 8b和在线版本的对比。更多往期视频内容可以到主页列表下查看(程序员寒山:CxyHanShan)，欢迎大家留言关注讨论。#Qwen3 #Deepseek #本地部署 #ollama

00:00 / 08:58

连播

清屏

智能

倍速

点赞402

千问大模型9月前

不只是写代码！Qwen3-Coder 来啦！ Qwen3-Coder，现在开源！ 480B参数，MoE架构，每次运行激活35B。从代码生成到页面交互，Qwen3-coder都不在话下。人民需要什么，千问就开源什么！欢迎体验！ #Qwen #AI #大模型 #开源 #通义千问

00:00 / 00:35

连播

清屏

智能

倍速

点赞1478

不夜1周前

本地4种软件部署qwen3.6-27b性能测试 ollama,llama.cpp,LMstudio,vLLM本地部署测试#ollama#llamacpp#lmstudio#AI#vLLM

00:00 / 10:27

连播

清屏

智能

倍速

点赞135

鲸寒行至数字科技1周前

ClaudeCode+本地部署qwen3.6实战效果 claude code + 本地部署qwen3.6 27b实战效果 #claudecode #qwen3 #本地部署大模型

00:00 / 01:01

连播

清屏

智能

倍速

点赞16

数字宅民MuteZ2周前

最新qwen3.5 27b 蒸馏版v3.5#openclaw #千问 #大模型 #本地部署 #小龙虾

00:00 / 01:18

连播

清屏

智能

倍速

点赞844

赛博杨千幻3周前

🚀 DFlash - Qwen3.5-27B 推理速度暴涨5倍！UCSD Z-Lab 最新开源项目扩散模型投机解码 + vLLM/SGLang 直连仅加2B小模型，吞吐量翻5倍。#github优质项目 #github开源 #大模型 @赛博杨千幻 #DFlash #Qwen3.5

00:00 / 02:09

连播

清屏

智能

倍速

点赞90

橙色溪流2周前

决战Gemma4⚡阿里深夜开源Qwen3.6-35B-A3B Qwen3.6-35B-A3B 依然采用MoE框架但是在智能体编程方面表现卓越，大幅超越前代模型 Qwen3.5-35B-A3B，并可与 Qwen3.5-27B 和 Gemma-31B 等Dense模型一较高下。而且具备强大的多模态感知与推理能力，在大多数视觉语言基准上，它的表现已与 Claude Sonnet 4.5 持平，甚至在部分任务上实现超越。另外，这周末我打算用turboquant+昨天发布的DFlash块扩散技术一起跑下Qwen3.5 27B 大家等着看效果吧 #科技下一站 #我在抖音聊科技 #qwen大模型 #DFlash #开源项目

00:00 / 00:47

连播

清屏

智能

倍速

点赞1031

小工蚁2月前

Qwen3.5 27B和35B选哪个？Ceval模型评测实践 #小工蚁 #通义千问 #开源大模型

00:00 / 02:31

连播

清屏

智能

倍速

点赞227

小天fotos2月前

Qwen3.5-27B太好玩，不小心养了一窝龙虾 #ai新星计划 #抖音年味新知贺岁 #openclaw #qwen #4090魔改

00:00 / 08:29

连播

清屏

智能

倍速

点赞NaN

碳基生物退役指南2周前

Qwen3.6-35B-A3B：2千到3万，三档本地部署实战这期视频，我把 Qwen 3.6 35B A3B 装进 3 台价格完全不同的设备里，实测识图、OCR、手写数学题、写作、算法题和代码生成。最让我意外的，不只是它比预期更能打，而是我那台 2500 块手搓丐版战神，居然跟这个模型异常般配。便宜设备不可怕，可怕的是本地模型这次真的能干活了。这次让我真正改观的，是 Qwen 3.6 35B A3B 在不同任务之间，整体都没有明显掉链子。识图能看，OCR 能用，代码能写，逻辑题也能认真推，放到真实项目里，不再是那种“偶尔灵光一现”的状态了，而是已经开始成为稳定的生产力工具了。本地开源模型这次，是真的往前走了一大步。 #qwen #ai智能体 #openclaw#大语言模型 #ai

00:00 / 09:31

连播

清屏

智能

倍速

点赞711

电脑糕手1周前

别再手动写官网了！ Qwen3.6本地跑，8分钟做完一整个官网成本仅1毛5，还能自动修Bug 程序员效率直接拉满💻#程序员 #千问 #servbay #ai

00:00 / 01:50

连播

清屏

智能

倍速

点赞4

titan9092周前

实测开源Qwen3.6运行OpenClaw的效果 #Qwen36 #OpenClaw

00:00 / 04:21

连播

清屏

智能

倍速

点赞246

AIGC 蛮子2周前

Qwen3.6开源重磅来袭！ Qwen3.6开源重磅来袭！ComfyUI llama.cpp插件轻松上手教程#comfyui #qwen #开源模型

00:00 / 07:38

连播

清屏

智能

倍速

点赞5

小工蚁1周前

开源Qwen3.6-27B Agent编程比3.5有较进步 #小工蚁 #开源大模型 #通义千问

00:00 / 03:15

连播

清屏

智能

倍速

点赞76

Ai随风6月前

Qwen3—VL本地安装保姆级教程（附工作流和模型） #runninghub #comfyui #ai #qwen #ai视频

00:00 / 11:56

连播

清屏

智能

倍速

点赞202

AI猿姗姗1年前

20分钟学会qwen大模型本地部署+微调法律大模型，只需5G 20分钟学会qwen大模型本地部署+微调法律大模型（只需5G内存） #大语言模型 #qwen #通义千问 #大模型本地部署 #大模型微调

00:00 / 25:56

连播

清屏

智能

倍速

点赞214

抓耳挠腮1周前

千问3.6蒸馏版 #qwen3 #qwen36

00:00 / 00:35

连播

清屏

智能

倍速

点赞89

Ai 学习的老章2周前

Qwen3.6-35B-A3B开源了，本地部署教程

00:00 / 00:56

连播

清屏

智能

倍速

点赞550

九天Hector10月前

Qwen3接入MCP，企业级智能体开发实战！Qwen3原生MCP能力解析｜MCP Client源码级开发｜Qwen-Agen接入海量MCP高效搭建智能体！#ai #Qwen3 #mcp #ai新星计划

00:00 / 01:42:45

连播

清屏

智能

倍速

点赞286

小天fotos1周前

离谱！Qwen3.6 27B生成速度飙到184t/s Qwen3.6 27B绝对是一个里程碑的时刻现在全世界的极客都在拼命优化它我也盘点了多个框架，做了完整测试最终从20/s的速度跑到184t/s 有完整报告在我的repo里你可以错过我的视频，但不能错过这个模型 #ai新星计划 #qwen36 #turboquant #dflash #deepseekv4

00:00 / 18:09

连播

清屏

智能

倍速

点赞3440

杨大哥2周前

千问Qwen3.6 27b发布

00:00 / 00:55

连播

清屏

智能

倍速

点赞1729

搬砖最勤快2周前

把本地部署的QWEN3.6 35ba3b接入龙虾试了下，怎么说呢。。动是可以动，就是这次的结果有点拉，等我下个视频在测测。#qwen3.6 #ai #ai本地部署 #5060ti

00:00 / 04:47

连播

清屏

智能

倍速

点赞7

AI小马达1月前

#qwen #openclaw #AI #人工智能 #AI编程 OpenClaw使用qwen3.5、qwen3.6都有问题，竟然还能输出假的工具调用！

00:00 / 00:42

连播

清屏

智能

倍速

点赞42

ArkAPI1周前

深度拆解Qwen3.6-27B的"越级"逻辑 #ArkAPI#大模型#Qwen#api#Qwen36

00:00 / 03:15

连播

清屏

智能

倍速

点赞52

sirius777777771周前

Qwen 3.6 27B 本地部署测试【油-搬运】 #ai #qwen #本地部署 #异环 #tts

00:00 / 11:10

连播

清屏

智能

倍速

点赞2

橘橘橙AI1周前

Qwen3.6-27B 实测：本地模型已经能替代前端开发？ Qwen3.6-27B 本地实测：飞机大战、电商页、音乐播放器，一次生成完整前端项目。本地模型进入生产力时代。 #qwen #千问 #大模型

00:00 / 07:15

连播

清屏

智能

倍速

点赞171

Ai 学习的老章1周前

相较DeepSeek V4，我更喜欢Qwen3.6-27B Qwen3.6-27B 原版 FP16 要 55 个 G，你的机器大概率跑不了。但现在量化版本已经百花齐放了，今天老章带你盘一遍，按硬件找你的版本。服务端三条路：官方 FP8 约 27GB，性能几乎无损，双卡 A100 或 H100 首选；消费级单卡 4090，选 cyankiwi 的 AWQ-INT4，压到 20GB，vLLM 直接起；手里有 5090 这类 Blackwell 卡，选 NVFP4，压到 19.7GB，充分吃满 FP4 算力。本地跑 GGUF 的话，首推 Unsloth Dynamic 2.0，UD-Q4_K_XL 版本只要 18GB 显存，质量比普通 GGUF 好一个档次。用 LM Studio 做面板的，直接搜 lmstudio-community 版本，开箱即用。注意一个大坑：Ollama 目前还跑不了 Qwen3.6，等适配再说。Mac 用户有两个选项：Unsloth 的 UD-MLX-4bit，32GB 统一内存就够；或者 mlx-community 的 nvfp4，走 Metal 加速，速度更快。最后一张选择表：4090 选 AWQ，5090 选 NVFP4，PC 本地选 Unsloth GGUF，Mac 选 MLX

00:00 / 01:39

连播

清屏

智能

倍速

点赞90

AI踩坑指南1周前

本地开源SOTA！Qwen3.6 27B 稠密模型实测！叠甲！之前的代码评委模型是opus 4.6，现在升级到了4.7故代码的得分并没有拉卡差距。但是实际实现效果3.6绝对是远超3.5的。开源sota实至名归。 #普通人学ai #零基础学ai #ai干货分享 #ai新星计划 #ai大模型学习

00:00 / 02:23

连播

清屏

智能

倍速

点赞74

Ai 学习的老章1周前

Qwopus3.6-27B 本地部署，24G 显卡轻松跑 Qwen 加 Opus，缝合怪又来了，这次是 27B 本地版。大家好，我是AI学习的老章。今天聊一个有意思的开源模型，Qwopus3.6-27B-v1-preview，作者 Jackrong。光看名字你就懂了，Qwen 加 Opus，意思是拿 Claude Opus 的蒸馏数据，去调教 Qwen3.6-27B。底座是阿里的 Qwen3.6-27B 稠密模型，原生 262K 上下文，能扩到 1M。训练用的 Unsloth，数据是 Claude 蒸馏数据集打底，混入 GLM-5.1、Kimi-K2.5、Qwen3.5 的推理数据。最关键的一步在这，作者用一个 8B 模型当过滤器，把风格跑偏的样本剔掉，最后只留 12K 条调性统一的高质量数据。这思路特别反直觉，别人都是越多越好，他在做减法。我觉得这个项目最值得琢磨的就是这个点，吃什么长什么样，数据干净，比数据多重要得多。早期评测合作者用 16 条 prompt，单卡 5090 跑 GGUF 量化版，覆盖 Agentic 推理、前端设计、创意 Canvas 三类场景，对比的是 Qwen3.6-27B 原版。但说实话，16 条样本，作者自己都说是 early signal，谁也别当定论。GGUF 仓库已经放出来，量化档位很全，IQ4_XS 是 15.2 G，单张 24G 显卡就能跑，4090、5090、3090 都行。Q2_K 是 10.7 G，16G 显卡能塞但损失不小。直接用 llama.cpp 或者 Ollama 拉起来就行。我的看法是，值得关注，但别神化。它是 preview 版，作者自己都说在探路。但这个思路把 Claude 风格用工程手段迁移到可本地部署的 27B 模型上，加上 Apache-2.0 协议商用友好，给国产开源生态加了一个有 Claude 味儿的选择，这个角度挺难得。手上有 4090、5090 的玩家可以尝个鲜，正式版出来我再拉出来实测一波

00:00 / 02:13

连播

清屏

智能

倍速

点赞189

Ai 学习的老章3周前

一个更神奇的Qwen3.5-27B版本，推理速度暴涨5倍今天介绍一个让我非常兴奋的项目，叫 DFlash，来自 UCSD 的 z-lab 团队。它能让 Qwen3.5-27B 的推理速度暴涨到原来的5倍，关键是——生成质量完全不打折先说原理。大模型生成文字，是一个 token 一个 token 往外蹦的，串行瓶颈在那摆着。之前业界用推测解码来加速，先用小模型猜一串 token，再让大模型验证。但之前最强的方案 EAGLE-3，加速比也就2到3倍 DFlash 把"猜"的过程，从自回归换成了扩散模型。一次前向传播，直接并行生成一整个 block 的 token。不管你猜8个还是16个，都是一次搞定。这就是它快的核心原因更精妙的是，DFlash 会从大模型的隐藏层抽特征，注入到小模型的每一层。这样小模型猜得特别准，HumanEval 上平均每轮能猜中9个 token 实测数据很能说明问题。在 HumanEval 上，单并发直接5.2倍加速。Math500 上4.7倍。哪怕高并发场景下，也能维持1.5到1.9倍。而且 drafter 模型只有2B 参数，加载几乎不占额外显存最关键的是，已经适配了 vLLM、SGLang 和 Transformers 三大框架。生产环境直接能用我的判断是，如果你在用 Qwen3.5-27B 做推理服务，DFlash 几乎是个无脑加分项。多加载一个 2B 的小模型，吞吐量翻好几倍，简直是免费的午餐

00:00 / 01:50

连播

清屏

智能

倍速

点赞490

AI伙夫长1年前

全网都在找Qwen2.5-omni多模态大模型如何使用这里我将告诉大家两个使用和申请他的方法，第一个直接就能使用，第二个可在手机端操作，快来拿走吧！#AI #AI工具 #qwen25omni #多模态ai

00:00 / 01:19

连播

清屏

智能

倍速

点赞642

智冷算力工作站3周前

VLLM QWEN3.5-27B AWQ 养龙虾大模型#千问大模型 #龙虾#ai服务器

00:00 / 01:43

连播

清屏

智能

倍速

点赞13

GitHubStore1周前

Qwen 3.6-27B 正式开源！单卡战神降临 Qwen 3.6-27B 正式开源！单卡战神降临！单张 RTX 4090 即可跑 Q4 量化版，羊驼 Ollama 一键部署，小模型、大效果！#ai #大模型 #开源 #千问

00:00 / 00:10

连播

清屏

智能

倍速

点赞10

AI技能教学网2周前

Qwen3.6-35B量化方案选择针对显存、速度与推理能力，深度对比Qwen3.6-35B的量化版、DFlash加速版及Claude Opus蒸馏版方案。#Qwen3635B #LLM优化 #vLLM #量化技术 #AI推理加速

00:00 / 04:28

连播

清屏

智能

倍速

点赞230

来财1年前

qwen3.0下载教程，qwen3.0手机版下载教程，通义千问3下载教程，qwen下载途径,qwen3.0下载入口#qwen #qwen3 #qwen3下载方法 #通义千问 #通义千问3

00:00 / 00:27

连播

清屏

智能

倍速

点赞323

陈虾仁AI4月前

千问开源了Qwen-Image-Layered，平面图直接可以分图层，还可以编辑，Photoshop还香吗？ #千问 #Qwen #Photoshop #图层 #AI

00:00 / 02:52

连播

清屏

智能

倍速

点赞NaN

Ai 学习的老章1周前

Qwen3.6-27B，27B 干翻 397B 巨无霸直接说结论：这是 27B 的 Dense 多模态模型，在 SWE-bench 编码测试上，把上一代 397B 的大哥干翻了。小了整整 15 倍，反手一巴掌。为啥说这个尺寸是甜点？FP8 量化版只要 27GB 显存，单卡 L40S 或者 A6000 Ada 就够跑，门槛直接砍一半。这次两个核心卖点：Agentic Coding，real-world 编码直接对标 Claude 4.5 Opus，Terminal-Bench 打平；Thinking Preservation，多轮对话保留历史思考上下文，代码迭代再也不用每轮重新想一遍。部署用 vLLM，加上 --reasoning-parser qwen3 就行。显存不够，直接把模型名换成 FP8 版，其他参数一毛一样，显存需求腰斩。权重在 HF 和 ModelScope 都有，商用随便用。阿里这波，是真卷出来了。

00:00 / 00:56

连播

清屏

智能

倍速

点赞92

乘云—阿里AI训练师1周前

代码能力拉满！Qwen3.6-27B，低成本部署首选代码能力拉满！Qwen3.6-27B，低成本部署首选 ##通义千问#Qwen3.6-27B#开源大模型#AI编程#开发者神器

00:00 / 00:42

连播

清屏

智能

倍速

点赞2

橙色溪流1周前

开源大模型巅峰之作⛰️ Qwen3.6-27B惊世发布🔥 它不仅是一个 270 亿参数的稠密多模态模型，更标志着开源模型进入了“小尺寸，高性能”的新纪元。它以 27B 的参数规模，在所有核心编程基准测试中，全面超越了上一代拥有 397B 参数的开源旗舰 Qwen3.5-397B-A17B ，并全面追上甚至超越了Opus 4.5，证明了架构优化与训练深度的力量。 #科技下一站 #还有什么是不能ai的 #开源大模型 #与ai同行 #本地大模型

00:00 / 00:48

连播

清屏

智能

倍速

点赞641

天工开帧1周前

社区模型新探，Qwen3.627B和opus-GLM-18B 彻夜长测，16G显卡端侧模型初选名单：Qwen3.6-27B-IQ3 ，Qwopus-GLM-18B-IQ5，Qwen 3.6-35B-A3B MoE-IQ4。跑轻度任务可以，写项目就算了。推理参数参考：-c 36864 -ngl 64 -t 5 --reasoning-budget 1024 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --flash-attn 1 --host 192.168.101.136 --port 13631 pause #程序代码 #AI前沿 #Qwen #llama

00:00 / 02:14

连播

清屏

智能

倍速

点赞49

Mr.Chen2周前

qwen3.6 35B在12G显存上跑起来了现在技术发展真快，以前还只能装8B，9B的模型还很笨，现在直接跳过14B，26B上到35B，当然模型有点不一样，反正很厉害了那个技术最新出的叫turboquant，可以试试看。#openclaw#hermes

00:00 / 01:56

连播

清屏

智能

倍速

点赞126

小工蚁1月前

压测Qwen3.5-27B和35B-A3B比较性能差异 #小工蚁 #通义千问 #大模型性能

00:00 / 03:10

连播

清屏

智能

倍速

点赞76

子沐AIGC1月前

告别API！5090本地部署千问QWEN3.5 27b模型 Windows+vllm+chatbox全流程#AI #OPENCLAW #本地部署 #5090

00:00 / 00:54

连播

清屏

智能

倍速

点赞68

AI技能研究社1月前

Qwen3.5-27B Opus蒸馏版实测实测注入Claude Opus数据的Qwen3.5蒸馏版，解决原生报错并支持长任务稳定运行。#Qwen35蒸馏版 #ClaudeOpus #AIAgent #本地大模型 #编程助手

00:00 / 01:37

连播

清屏

智能

倍速

点赞123

Ai 学习的老章2周前

Qwen3.6-35B，量化、蒸馏版本推荐今天聊 Qwen3.6-35B-A3B 的社区生态。这个模型是 MoE 架构，参数35B，每次只激活3B。性能很强，但显存占用不小。社区迅速搞出了三条优化路线。第一条，量化。三个团队分别出了 AWQ 和 NVFP4 的4bit量化版。有网友实测，两张4060就能跑出83tok每秒。Red Hat 的 NVFP4 版更有意思，量化后准确率居然还涨了一点。第二条，DFlash 推理加速。这是一种基于扩散模型的推测解码方法。跟传统方案不同，它一次能并行生成一整块 token。实测5到6倍加速，完全无损，输出跟原版一模一样。第三条，Claude Opus 蒸馏。用1.4万条推理数据做 LoRA 微调，MMLU-Pro 直接涨了32个百分点。数据量不大，效果很猛。这三条路完全不冲突。量化解决跑得起，DFlash 解决跑得快，蒸馏解决跑得好。我觉得最值得关注的，是开源社区围绕一个模型形成了完整的优化链条。这种协作效率，比单个模型发布更有意义。

00:00 / 01:20

连播

清屏

智能

倍速

点赞338

海洋AI笔记3周前

Qwen3.5开源暴击，免费商用+201种语言#Qwen35 #AI

00:00 / 01:24

连播

清屏

智能

倍速

点赞9506

小工蚁1月前

评测Qwen3.5-27B理解CAD图纸能力究竟如何？ #小工蚁 #开源大模型 #通义千问

00:00 / 06:47

连播

清屏

智能

倍速

点赞75

aiaihaozhe95276天前

Qwen3.6-27B-Dflash主副双模型测试占用24G显存,支持256K #ai一键包 #Qwen3627BDflash

00:00 / 00:15

连播

清屏

智能

倍速

点赞1

AI探趣星船长1周前

2080Ti 让 AI 自动发飞书？本地模型也能给你打工在外面也能和家里的 #千问大模型用 #飞书沟通，让它帮你干活！还是那张 2080 TI 显卡，主包这次跑的 qwen3.6:27B 模型养 #hermes ！ #llamacpp 部署，64k上下文，实测多轮对话顺畅。唯一的缺点：在复杂任务下，容易跑飞，显卡咆哮~ #ai新星计划

00:00 / 01:23

连播

清屏

智能

倍速

点赞34

万大叔来了1周前

不堆参数堆效率，阿里这款小模型编程能力有多强！ #阿里开源 #Qwen36 #AI编程 #大模型 #开发者工具

00:00 / 01:40

连播

清屏

智能

倍速

点赞1

搬砖最勤快1周前

我用openclaw+Qwen3.6 35b a3b+5060ti 16g，画了一幅黑神话悟空简笔画虽然结果一坨但感觉执行得还蛮顺畅的🤣🤣🤣🤣#Ai #本地部署大模型 #qwen3.6 #龙虾 #openclaw

00:00 / 02:30

连播

清屏

智能

倍速

点赞36

电商博士说1月前

云端部署openclaw小龙虾写论文，部署方法，赶快学起来吧！#论文写作 #ai写论文 #部署openclaw #云端部署 #毕业论文

00:00 / 03:26

连播

清屏

智能

倍速

点赞54

Ai 学习的老章1月前

Qwen3.5 系列，最优选择 27B，最优精度 Q6 大模型光能聊天没用，得能调工具才算真能干活。有人用 ToolCall-15 这个开源基准，把 Qwen3.5 从 0.8B 到 397B 全系列拉出来测了一遍。15 个实战场景，覆盖工具选择、参数精度、多步链式调用、错误恢复这些硬指标。结果呢？27B 拿了满分，15 题全对。是唯一满分的原版模型。122B 丢了一题，397B 丢了两题。你没看错，参数越大反而越拉。最能说明问题的是第 15 题。搜索冰岛人口然后算 2%。小模型直接编数据，搜都不搜。大模型呢？搜到了精确数字 372520，偏偏不用，非要用自己记忆里的大约 37 万去算。只有 27B 老老实实搜到数据，传给计算器，完美。一句话：小模型凭空捏造，大模型忽略数据，27B 直接串行搞定。量化版本也测了。Q8 和 Q6 都拿满分，Q5 开始丢分。结论很清晰：Q6 就是最佳甜蜜点。跟 Q8 一样的满分，体积更小，速度更快。我觉得这个测试最牛的地方在于，它揭示了一个反直觉的事实：大参数模型因为见多识广，反而更不信工具返回的数据。

00:00 / 01:52

连播

清屏

智能

倍速

点赞477

轻算力AI实验室2周前

千问3.6新鲜实测显存占用8G qwen3.6 ,5060TI可跑，35BA3B，22TOKEN/秒，智商超上代千问3.5 #qwen36 #qwen36实测 #qwen36本地部署 #qwen36开源 #qwen36硬件要求

00:00 / 00:51

连播

清屏

智能

倍速

点赞630

Ai 学习的老章1周前

英伟达加速版Qwen3.6，NVFP 4 性能实测今天聊的是 Qwen3.6-35B 的 NVFP4 量化版，Red Hat AI 团队出品 NVFP4 是什么，简单说就是权重和激活同时量化到 4-bit 浮点也叫 W4A4，用的是 E2M1 格式，还加了微块缩放技术相比普通 INT4，FP4 对极端值的处理更精细，理论上精度损失更小 Red Hat 跑了 GSM8K Platinum 评测，数据很惊艳原版 BF16 准确率 95.62%，NVFP4 量化版 96.28% 量化之后精度反而比原版高了一点当然这有统计波动，但至少证明 NVFP4 的精度损失几乎可以忽略这比 AWQ 的量化质量要高一个级别我在双 4090 服务器上用 Docker 加 vLLM 部署了这个模型说几个关键数据每卡显存只用 10.61 GB，对比 BF16 版省了接近一半模型加载 24 秒，加上 torch compile 总初始化在 2 分半支持 102K 上下文，KV Cache 能装 49 万 token 最大并发能跑 17 倍有一个细节我必须说清楚 4090 是 Ada Lovelace 架构，不支持原生 FP4 计算 vLLM 看到之后会自动退回 Marlin 内核推理时权重先从 FP4 解压到高精度再参与计算激活量化那部分的加速就没了所以在 Ada 架构上，NVFP4 的核心收益是省显存推理速度提升主要来自模型更小、内存带宽压力降低要真正用满 W4A4 的全量化加速，得有 Blackwell GPU 也就是 B100 或者 B200 这一点很重要，别被参数说明误导了跟之前测的 AWQ-4bit 版对比，NVFP4 各方面都有提升实测吞吐量更高，多轮对话体感也更流畅部署稳定性也更好我的建议是这样如果你有双 4090，NVFP4 量化版值得换上去显存省了，精度没损失，相比 AWQ 是一次真实的升级等 Blackwell GPU 普及了，收益会更大

00:00 / 02:21

连播

清屏

智能

倍速

点赞166

隆哒隆1年前

qwen 3.0下载教程 #qwen3模型下载方法 #Qwen3 #人工智能通义千问3下载教程

00:00 / 00:31

连播

清屏

智能

倍速

点赞22

Ai大模型惊蛰3月前

手把手教会你！用Qwen3+RagFlow本地构建私人智能助手，22分钟全程干货无废话！#大模型 #人工智能 #智能助手 #Ai #程序员

00:00 / 22:39

连播

清屏

智能

倍速

点赞1536

焱垚言夏2周前

从0配置qwen3.6:35b模型在苹果电脑用MLX运行龙虾 #创作者中心 #创作灵感 #openclaw#qwen36 #本地大模型

00:00 / 06:32

连播

清屏

智能

倍速

点赞51

简介:

您在查找“qwen3.6 27b怎么改为FP8”短视频信息吗？帮您找到更多更精彩的短视频内容！最新发布时间：2026-05-02 05:18

最新推荐:

相关推荐:

热门推荐: