Claude Opus蒸馏Qwen3.5 V3来了 9B的蒸馏模型,工具调用测试居然打了满分。大家好,我是AI学习的老章。Claude Opus蒸馏Qwen3.5这条线,我从v1追到现在。今天v3来了,这次改动大到连名字都换了,叫Qwopus3.5,Qwen加Opus的合体。v1是让小模型学会推理,v2是让它想得更少答得更快,v3的核心是让它学会用工具干活。从会思考,到会行动,这是一个质变。先看数据。9B的GGUF版本下载量10.9k,断崖式领先。说明什么?大家心里清楚,9B就是甜蜜点。16GB的MacBook就能跑,Windows上普通显卡也没压力。再看跑分。HumanEval,v3拿了87.8%,比原版Qwen3.5的9B高了将近5个百分点。v2在9B上其实没啥提升,v3一下子拉开了差距。MMLU-Pro,通用知识能力,v2掉了7.2%,当时我说这是代价。v3把这个问题修了,反超原版1.43个百分点。代码更准,知识也没丢,这在蒸馏模型里非常少见。效率方面,思维链缩短25%,推理效率提升31.7%,用更少的Token办更多的事。最让我兴奋的是工具调用。v3专门做了针对工具调用的强化学习训练。我用ToolCall-15跑了一遍,15道题全部通过,满分。之前v2的27B才做到这个成绩,现在9B就行了。我的判断,这是这个系列真正成熟的一代。想本地跑一个能写代码、能调工具、还不吃资源的模型,Qwopus3.5-9B-v3目前最值得试。关注老章,我们下期见。
00:00 / 01:53
连播
清屏
智能
倍速
点赞748
00:00 / 01:24
连播
清屏
智能
倍速
点赞9506
00:00 / 02:14
连播
清屏
智能
倍速
点赞282
Qwopus3.6-27B 本地部署,24G 显卡轻松跑 Qwen 加 Opus,缝合怪又来了,这次是 27B 本地版。大家好,我是AI学习的老章。今天聊一个有意思的开源模型,Qwopus3.6-27B-v1-preview,作者 Jackrong。光看名字你就懂了,Qwen 加 Opus,意思是拿 Claude Opus 的蒸馏数据,去调教 Qwen3.6-27B。底座是阿里的 Qwen3.6-27B 稠密模型,原生 262K 上下文,能扩到 1M。训练用的 Unsloth,数据是 Claude 蒸馏数据集打底,混入 GLM-5.1、Kimi-K2.5、Qwen3.5 的推理数据。最关键的一步在这,作者用一个 8B 模型当过滤器,把风格跑偏的样本剔掉,最后只留 12K 条调性统一的高质量数据。这思路特别反直觉,别人都是越多越好,他在做减法。我觉得这个项目最值得琢磨的就是这个点,吃什么长什么样,数据干净,比数据多重要得多。早期评测合作者用 16 条 prompt,单卡 5090 跑 GGUF 量化版,覆盖 Agentic 推理、前端设计、创意 Canvas 三类场景,对比的是 Qwen3.6-27B 原版。但说实话,16 条样本,作者自己都说是 early signal,谁也别当定论。GGUF 仓库已经放出来,量化档位很全,IQ4_XS 是 15.2 G,单张 24G 显卡就能跑,4090、5090、3090 都行。Q2_K 是 10.7 G,16G 显卡能塞但损失不小。直接用 llama.cpp 或者 Ollama 拉起来就行。我的看法是,值得关注,但别神化。它是 preview 版,作者自己都说在探路。但这个思路把 Claude 风格用工程手段迁移到可本地部署的 27B 模型上,加上 Apache-2.0 协议商用友好,给国产开源生态加了一个有 Claude 味儿的选择,这个角度挺难得。手上有 4090、5090 的玩家可以尝个鲜,正式版出来我再拉出来实测一波
00:00 / 02:13
连播
清屏
智能
倍速
点赞189