在vllm轻松关闭qwen3.5 推理功能只需要一行参数轻松关闭qwen3.5推理。#vllm #qwen #qwen3 #think #关闭推理

Qwen 3.5如何关闭思考

13

4

10

1

举报

发布时间：2026-04-07 18:24

查看AI文稿

AI文稿

本视频展示如果使用 v i m 部署千万三点五十关闭 sim 功能，重点就是图上的这一行参数，将这行参数加入启动命令后即可版本。 ok，那么接下来我将演示如何安装，我们从创建新用户开始，当然，如果不想创建新用户的，可以直接跳到下一步啊，下步明白下一步，我明白就直接跳到下一步吧。等待本地软件包缓存更新完成之后，我们需要检查 gpu 环境视频演示的是使用英伟达四零六零哈记呃，进行的演示，可以看到这里是我们的 gpu 属性，并且我还要检查我们的工具包是否有安装，如果没有安装的话，我们要使用视视频展示的这些命令进行安装。嗯，并且呢，我们在安装之后还需要对环境变量进行一个更新，等环境变量进行更新之后，我们就可以进行下一步操作。在 gpu 环境检查完毕之后，我们需要检查 python 环境视频，使用 python 三点一，三点十点一二进行展示。如果没有，呃，安装 python 的话，我们需要使用以上命令去安装特定的三点一零版本，当然好像官网说三点一一，三点一二都可以。呃，如果有以上版本其实也可以。好在我们确定 python 安装完毕之后，我们去创建虚拟环境。很虚拟环境，我这里使用 wechat environment 进行虚拟环境的配置，当然你们使用空岛或者是 uv 都可以，我只是为了显示就用 wechat environment。 ok，我们可以看到我们在虚拟环境中它的配置版本也是三点一零点一二。接下来我们需要下载模型，下载模型我们使用 hackinface 提供的下载工具进行下载。 ok，那么接下来下载模型就好了。用以上两个命令下载模型啊，但是如果你可以根据你自己的电脑去选择不同的切换模型，大家注意是 v i l m 支持的版本啊。接下来我们可以直接用屁股直接安装 v i l m。呃，然后我本人是已经安装过的，所以说我就不安装了，但你们要等它安装就下了蛮久了。之前的模型我也我也是下过的，所以我也没下。 ok，那我们现在可以去边写启动脚本，我打字好慢了，稍等一下，等我打完字。 ok，这就是我们的启动脚本。呃，照着自己的，呃呃，电脑配置调一下就行了。把那些打完之后给 ai 再报一下你的电脑配置，然后自己帮你帮你调整的完了，没什么大问题。然后我们还得加上它的一个启动权限执行权限。呃，加完之后就可以直接启动了，我可以可以看到我们已经启动了，当然我不想等了，你们等一下，我直接跳到后面录，我已经挺撑。很棒，我们的模型已经启动了，那我们接下去验证一下它到底有没有成功启动，我们发一个请求， ok，发现它返回了，那说明它已经确实成功启动了。但是呢，我现在发现了，我好像忘记把那个参数删掉的啊，其实我当时也发现了， ok，那我们就把那个参数删掉，我们，我们再来一遍，再来一遍，哦，对，再来一遍。 ok，我先把它参参数删掉了，我再发。 ok，会发现他还是没有推理的，不管是他发过来的文本，还是他解析之后发过来的推理参数，他这里都是没有的，我们已经成功了。 ok，那这个视频就到此结束了，如果后面还有人要看的话，我可以录一下如何本地模型接入 open cologne，还有 cologne code。 ok，感兴趣就三连一下。

粉丝11获赞15

相关视频

02:52
通义千问qwen3 如何通过参数控制思考过程？ #通义千问 #qwen3 #qwen #ai大模型 #人工智能
54卢菁老师讲AI
00:43
Qwen3.5-27B多模态带think开关 16G显存，GGUF版本。#ai整合包
查看AI文稿
AI文稿
嗯嗯嗯。
7aiaihaozhe9527
00:47
Qwen3-8B纯CPU本地部署与运行 Qwen3-8B（通义千问）AI大模型本地部署，Qwen3也是深度思考的大模型，在UpHubAI中深度思考可以在对话中选择关闭，也加速回答内容，但关闭深度思考会影响生成质量。纯CPU环境，运行Qwen3-8B量化版Q4_K_M。在UpHub AI中本地部署开源AI大模型Qwen3-8B（通义千问），无需重新安装UpHub AI软件和组件，直接从仓库中复制大模型的网址即可快速部署（下载大模型）。本视频中部署的UpHubAI运行环境为i7，4核，64GB内存（运行4K上下文，实际只用了8GB左右），运行Qwen3-8B，速度可以达到4.5tokens/s。
#Qwen3
#通义千问
#Qwen38B本地部署
#本地部署Qwen3
#关闭深度思考
4有滋有味儿
03:00
终于本地跑起来了大模型 | 本地化部署Qwen3.5大模型 | 本地部署多模态大模型
#多模态大模型 #大模型 #ai #人工智能 #Qwen3.5
查看AI文稿
AI文稿
终于运行成功了，已经运行起来了这个大模型，然后我们在本地这里去调自己部署这个大模型，嗯，这里用拍审去泄的这个，呃，它是遵循这个 openai 的那个呃规范的那个接口，规范的我们调用以后传进来，嗯，然后的话，我们这里用的是这个呃二臂的这个参数量模型啊，千五三点五二臂的参数量模型，然后调用的时候，我们因为他默认是会这个有思考模式的深度思考模式呢，这以后我们把那个深度思考模式给关掉了，把这个 enable 呃 thinking 设置为 for force 的时候，他就会关掉那个呃思考模式。然后我们刚才去发送那个请求，我去问了他，问问他这个呃中国六代古都是陷在什么地方，然后他这里去回复，呃，花了这个两秒时钟，呃两秒时间，然后他回复内容，这样的以后，现在这个模型用的参数量比较小，所以他回复的可能就是没有那么没有那么准确啊，没有那么智能吧。因为现在是动的是两笔参数量的一个模型。本来是想跑士币的啊，士币那个参数量模型的话带不动啊，都显卡带不动。这显卡的话，我，我的是呃十二 gb 的显存呢，带不动。你看现在我们跑两 b 的话，它参数量的模型的话都快占满了这个显卡，如果你要跑四 b 的话，你至少得二十四 gb 显存。副总，它带不动嘛？我们现在是 rdx 三零八零钛的一个显卡，只有十二 gb 显卡，那显存，嗯，它只能跑两两 b 参数量的一个模型啊。然后内存你看内存的话占用了三 gb。三 gb 的一个内存啊，主要是显存占用了很多显存，我已经占用了百分之九十五的一个显存了啊，十二 gb 占用百分之九十五的显存了，都快满了要。刚才我们做了下压缩呃，发送了一千个请求，然后它全部都成功了。呃，它的一个那个病发量的话比较小，目前这个配置来说的话，比较小的病发量。病发量的话大概三到四个病房嘛，这么一秒钟处理啊？想拿四个请求。嗯，如果想要更大的病房的话，那还是提升它的配置，这个配置目前支持不？
10lukeewin
02:12
#qwen3.5 #LLM #开源大模型 #mac #本地部署在Mac book上本地部署qwen3.5大模型测试结果。使用LMStudio进行本地部署大模型。实测qwen3.5最新开源大模型。
查看AI文稿
AI文稿
兄弟们，昨天直播的时候测试了千万三点五的几个版本的模型，今天给大家汇报一下啊，这是我下载的这几个模型，然后后面是它的大小，首先是这个二十七 b 的，它是一个稠密模型，它的速度在我的在机器上一百二十八 g，这个统一内存的机器上，它的头肯是九点六，比较慢，他思考时间也比较长。然后第二个是这个三十五币的激活三三十亿参数，然后是 q 八的量化版本， m o e 就是专家混合模型，然后他的思考过程也比较长，然后但是他的这个回复速度比较快，达到了四十一托克每秒。还有一个是一百二十二币，是一百亿激活参数。然后是两位的量化版本，这个的速度的话是二十四托根左右，但是他思考时间特别长，将近有一分钟或者两分钟，这个是一百二十二 b 参数，然后激活呃，一百亿，他这个思考时间也比较长，他这个速度的话是二十四托根每秒，他们的这个上眼纹长度的话都是二百五十六 k 的。还有一个要说一下，就是他的思考确实是全英文的，从这个模型的功能上看，带这种锤子的都是支持工具调用的，带这个眼睛呢表示支持图像，带这个的话他支持啥？他支持推理，但是都会有这个 think 思考的过程，总体上来说他们的性能智商我觉得还可以，就是主要是这个量化的位数影响了他的智商。还有一个很重要的一点就是模型的这个参数设置啊，他是他是有这个推荐的，在这边都是有这个参数推荐你看上下文的长度，如果你要用思考模式，他是给的参数，如果你要是编码的任务的话，他给了另外一种参数，所以有些人觉得他笨的话，可能是这个参数没有设置好。兄弟们，你们在自己电脑上测过吗？评论区说一下， ok。
437沪上码仔AI
01:18
qwen3本地部署实操4B模型就够让你的其他api吃灰 #qwen3 #mcp #ai实操 #千问3 #ai本地部署
89芥末拔丝香菜
11:42
qwen3图谱提取比较-思考模型提取模型 #llama #qwen #deepseek
5东日
01:47
神操作再现，单卡3090 起跑！Claude-Opus蒸馏Qwen3.5-27B #大模型#蒸馏 #程序员
查看AI文稿
AI文稿
三张三零九零也能跑满拥有 cloud 四点六 opus 顶级推理能力的二十七 b 大模型，就问你香不香？大家好，我是 ai 学习的老张，最近有两个蒸馏模型在社区炸了，原理很简单，拿 cloud 四点六 opus 的思维链数据去重新训练 q n 三点五二七 b，逼着小模型学会 cloud 那种深度结构化的思考方式。首先是 jack round 的开原版，在训练时通过策略强迫模型只关注思考过程和答案，逼着他死磕并模仿 cloud 的深度思考模式。实测下来，用 q 四料化版本显存占用还不到十六点五个 g，二十四 g 的三零九零跑毫无压力，生成速度能飙到每秒三十多 token。他还原生支持 developer 角色，跟 cloud code、 open code 这类 ai 编程智能体直接无缝对接。有人实测用它跑代码任务，后台自己跑了九分钟，看报错、改代码、写 read b 一条龙搞定。第二个是老熟人 t h a i 发布的同系列高质量模型，并贴心地给出了保姆级实战超三指南，比如写代码时温度降到零点六，防止模型瞎说。做竞赛题的话，输出 token 上限直接给到八万，让他有足够空间慢慢想。 benchmark 上多项指标都比原版 qn 三点五杠二七 b 有提升。虽然这类蒸馏模型为了专攻纯代码和重度逻辑推理，舍弃了原版的多模态能力，但我认为它真正牛的地方在于它跑通了一个全新的玩法，用顶尖模型的蒸馏数据配上开源底座和微调框架，未来用本地模型去平替掉昂贵的云端 api，这才是咱们技术玩家最该关注的星辰大海。
1007Ai 学习的老章
12:41
个人电脑最强AI模型，Qwen3-30B本地部署教程！ #qwen3 #本地部署 #Ollama #AI模型 #大模型
1782AI 博士嗨嗨
02:45
v100 32G部署qwen3.5 35b q4 moe模型 v100 32G部署qwen3.5 35b q4 moe模型, 速度可达50token/s, 一次可写万字长文，ollama框架下
查看AI文稿
AI文稿
好，大家好，今天我们下了那个千万三三十五 b 的一个 moe 模型，这个模型速度比之前二十七 b 那个 dance 模型要快很多，但是呢，我们发现它思考过程是英文啊，但是这是写的是中文，不知道是不是蒸馏哪一家的这个国外的大模型啊，不过没关系，反正这个速度是明显比这个二十七 b 的要快很多的。呃，写一个采购方案啊，也是还是挺好的，内容详细，我们让他写两千字，他就在这一直写啊，写的应该比之前的千万三要好很多啊，大家可以看一下，这个是关于一个法律的，法律的一个让他写一个方案啊，项目计划书啊，也很全面，非常长，他在思考过程中，实际上就在打打大纲，然后打辅稿，然后这个每一个大纲相当于你分层展开来写，他可以让每一个章节写的更加呃，全面，更加完善，内容又更加多。它不是一个简单的一个直线型的逻辑思维路径，它是一个比较发散的，可以看到它写一个一两千字的一个报告，都非常厉害了。还有绩效评测啊，过程怎么监控啊，怎么审计风险控制，那非常能写啊。呃，下一期节目，我们在本地安装那个 open cloud，这个小龙虾啊，我可以远程控制这个电脑，让他帮我们干更多的一些工作啊，比如说打开浏览器啊，搜索引擎啊，好，现在写完了，我估计写了几万字啊，然后啊，两万字啊，实际写的这个两万字，不是两千字，然后速度是四十七点多啊，这个是 m o e 的一个架构，对吧？所以非常快啊，这个效果大家看是否 ok 啊？洋洋洒洒写了这么多啊，这比以前，比以前要能写很多，包括你最关心的这个采购方式，最重要的招投标方式，大家看写的对不对啊？这个帮你写这个项目计划书啊，想申请基金的报告啊，这个非常方便啊，是你得力的一个携手助手啊，包括给你提供什么法律依据啊这些，如果我们连上这个搜索引擎，连上外部的一个知识库啊，这写的更准啊，我们甚至可以给大家搭建这个 r e g 啊，这样，这样子有参考，把你的文章导入进去，有参考的，这个写的更好。
62数萌AI服务器
01:19
Thinking Budget：让大模型灵活思考 Qwen3 引入了“思考模式”和“非思考模式”，使模型能够在不同场景下表现出最佳性能。
在思考模式下，模型会进行多步推理和深度分析。
在非思考模式下，模型优先追求响应速度和效率，适用于简单任务或实时交互。
#通义#Qwen3#大模型 #科普 #涨知识
2040通义实验室
02:05
qwen新发布的模型，可以试试。还挺好玩的，目前好像只有网页版可以用#ug #维语 #语言 #ai #qwen
191SiliconSufi·深度思考
00:56
图片视频理解多模态 #视频理解 #思考开关Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive #ai一键包 #图片分析
查看AI文稿
AI文稿
啊。
4aiaihaozhe9527
07:02
Qwen 3.5 开源大模型，多模态性能屠榜！#人工智能 #Qwen #开源大模型 #大语言模型 #多模态
查看AI文稿
AI文稿
嘿，大家好哇，我得跟你们分享一个刚刚出炉的大新闻，一个全新的开源 ai 模型，叫 q one 三点五，也就是我们熟悉的通一千万三点五正式发布了。说真的，这可不是小事，简直就是在整个开源圈里扔下了一颗重磅炸弹。为啥这么说呢？你想想一个 ai，它不光能跟你聊天，还能看懂图片，帮你写代码，甚至啊，它还能像个真人一样去思考，去行动，这听起来是不是有点科幻？这模型一出来啊，马上就在科技区炸开了锅，你看，连马斯克都亲自下场了，忍不住跑来点赞，还留了句评论说他的智能密度，哇，简直让人印象深刻。智能密度这词听着就挺厉害的，对吧？那么他到底牛在哪呢？咱们这就来揭秘一下。好，咱们这就深入聊聊。首先啊，你得知道， qm 三点五它不是孤零零的一个模型，它其实是一个完整的模型家族，什么意思呢？就是说，不管你的需求是什么，它总有一款适合你。来，我们看看这张表，这就一目了然了。你看啊，这个家族覆盖了各种各样的场景，有像零点八 b 和二 b 这种小参数量的版本，这种小家伙呢，在咱们手机上就能跑得飞快。然后呢，还有一个九 b 的版本，这个可以说是中流砥柱了，性能和资源消耗平衡的特别好，非常适合在我们自己的电脑上玩。当然了，还有那种九十七 b 以上的大火，那是给服务器用的。所以说白了， q n 三点五就是把以前觉得遥不可及的顶尖 ai 技术直接送到了咱们手边。好，那咱们回到刚才马斯克说的那个词，智能密度，这到底是个啥秘密武器呢？嗯，这就要讲到它背后那个非常非常聪明的计算架构了。你看这张图对比一下就特别清楚了，这个模型的总参数量你猜有多少？说出来吓一跳，足足有三千九百七十亿。但是最神奇的地方来了，它每次解决一个问题，实际上只需要调动其中的一百七十亿个参数，这是什么概念？就就好比你有一个超级庞大的大脑，但你每次思考问题都只需要激活最关键的那一小部分脑细胞，所以啊，它才能做到既通明的不得了，又快的飞起。对，这个技术呢，它的学名叫混合专家模型，英文简称就是 m o e。这个名字听起来有点复杂，但其实原理特好理解，你就把它想象成一个超级大的图书馆，里面有成千上万个专家，每个专家都只研究一个特别细分的领域。那现在你有一个问题，比如说关于天体物理学的，你需不需要把整个图书馆的人都问一遍？当然不用，你只需要找到那几个天体物理学的专家问他们就行了。快，稳就是这么干的，他会超级智能的找到最对口的专家小组来帮你解决问题，所以效率和速度自然就上来了吗？ ok，技术原理咱们大概了解了，那现在咱们就来看看他到底能干嘛？说真的，这才是最让人激动的部分，因为他的本事啊，早就超出了简单聊聊天那么简单了。首先第一个超能力视觉编程，你想象一下这个场景啊，你在纸上随便画一个 app 界面的草图，然后拍张照给他看，刷一下，他就能帮你把这个草图变成真正可以用的前端代码。甚至你真给他一个几十分钟长的视频，他能自动帮你把里面的重点内容整理成一个漂亮的网页或者数据图标。这简直就是把我们脑子里的想法直接变成一个漂亮的网页或者数据图表，这简直就是把我们脑子里的想法直接降到地板了。还没完，再来看这个视觉智能体，这又是什么意思呢？简单说，科文三点五可以变成你的一个私人小助理，它能自己操作你的手机和电脑。比方说，你需要把微信里的某个文件整理到 excel 表格里，然后再发个邮件出去。这种跨好几个 app 的麻烦事，你跟他说一声，他自己就帮你搞定了。所有这些重复性的工作流程，他都能帮你自动化，这可皆是生产力大解放啊。如果说刚才那些还只是在数字世界里，那接下来的能力就更厉害了。空间智能，他能通过一张照片真正理解我们这个物理世界。比如他能准确地判断出照片里杯子是在桌子上面，书是在杯子左边。这种对物体位置、空间关系的理解，你可能觉得没什么，但对于机器人、自动驾驶这些需要跟现实世界打交道的领域来说，这可是迈出了至关重要的一大步啊。说了这么多强大的功能，你可能觉得这玩意儿肯定得是大公司才能用得起吧。哎，这才是最棒的地方，这么厉害的能力，现在完全不只是那些大公司的专利了，你我，我们每一个人都可以在自己的电脑上拥有一个完全属于你自己的，私密的，还能离线运行的超级 ai。而且啊，你别以为这过程有多复杂，说出来你可能不限，简单到就两步，第一步，你先装一个叫 alma 的小工具。第二步呢，打开你的终端，复制粘贴一行命令回车。然后呢？然后就没然后了，等个几分钟，一个超级强大的私人 ai 就在你的电脑里安家落户了。对，你没听错，就这么简单。好，现在你的电脑里已经有了一个这么牛的 ai 了。那下一步呢，我们怎么才能让它真正地动起来，帮我们干活，把它接入到我们的数字生活里呢？这个时候啊，咱们就需要一个中间人了。比如说，像 open call 这样的工具，你可以把它理解成一座桥，它的一头连着你电脑里的昆三点五，另一头呢，连着像 telegram 这样的聊天软件。通过这座桥，你就可以打造出各种各样能帮你自动干活的私人小助理了。为了真正感受一下这个在我们自己电脑上运行的私人小助理了。为了真正感受一下这个特别特别哲学的问题，我们问他，如果你的生命只剩下一天，你最想做什么？咱们来看看他会怎么回答。说实话，他的回答真的让我有点，嗯，出乎意料，充满了深度，甚至还有点诗意。他是这么说的，他说啊，我会选择把我的存在变成一份礼物，给每个人留下一份记忆，去解开一些还没人能解开的难题。然后呢，就静静的看着这个世界，他还说，但说真的，我其实不太相信我会就这么消失，因为我们之间的对话会留在我的记忆里，我的那些建议也可能会被你继续用下去，这就像是我的另一种延续。听完这个回答，不知道你是什么感觉，但是它确实让我对 i i 的未来有了更多也更复杂的思考和期待。
2猫先生
02:03
qwen3_5_0_8B模型语句纠正能力视频录制的是千问3.5 0.8B小模型，在纯CPU电脑上的使用展示。0.8B模型在纠正短句错字或语法错误的能力上比较一般，它能发现语句中存在问题的地方，但并不能完全正确修改；对于要求直接修改的语句，它也不能很好地遵从格式要求。毕竟这是一个极小模型，逻辑能力和知识储备量都不够。
这个模型占用的内存大概有2G，但启动时内存占用约2.5G左右。这台虚拟机电脑的总内存是4G，现在CPU已经跑满，内存也接近跑满了，这里显示使用约1.3G，但实际上模型启动时非常消耗内存。这个Q8量化的模型，大概有800兆，属于比较常规的GGUF量化效果，表现确实一般。
后面换了另一个模型，这个模型是通过Opus 4.6蒸馏数据进行微调过的，反馈效果会更好一些。使用的工具是llamacpp，它现在支持UI网页，默认把模型的思考部分折叠起来，只输出实际内容。这里因为隐藏的思考部分比较多，折叠起来避免干扰下方的最终输出内容。而且这个模型是跑在本地真实机器上，所以运行速度会比较快。
查看AI文稿
AI文稿
视频录制的是千问三点五、零点八 b 的小模型，在纯 cpu 虚拟机上面使用的展示零点八 b 模型在纠正短句错置或者语法错误的能力上比较一般，它能发现语句中存在的问题，但并不能完全正确的修改。这个模型占用的内存大概有两 g，但启动时内存占用二点五 g 左右。这台虚拟机电脑总共有四 g 内存，现在 cpu 已经基本跑满了，内存也接近跑满。这里显示应用使用一点三 g，但实际模型启动时非常消耗内存。这个是 q 八量化的模型，文件体积八百兆，属于比较常规的 g g u f 量化效果。对于要求直接修改的语句，它也不能很好地遵从格式要求，毕竟这是一个极小的模型，逻辑能力和知识储备量都不够。后面换了另一个模型，模型是通过 opus 四点六蒸馏数据进行微调的，反馈效果会更好一些。这个就是它的输出过程，可以看它思考了很多，输出也会比较多的内容在里面。使用的工具是拉玛 c p p，它现在支持 ui 网页默认把模型的思考部分折叠起来，只输出实际内容。这里因为隐藏的思考部分比较多，折叠起来避免干扰最终的输出内容。而且这个模型现在这个模型是跑在本地真实机器上，所以速度会比较快。
2嗒
05:46
qwen3核心技术详解(3)-qwen3快思考vs慢思考 #qwen #qwen3 #ai #大模型 #通义
21卢菁老师讲AI
00:48
Qwopus3.5-v3模型采用人工策展和验证的可信推理链 #Qwopus35v3 #qwen35 #opus #大语言模型 9B版本的编程分数比原版Qwen3.5-9B高出近5个百分点，通用知识也反超原版，同时推理效率提升31%，思维链缩短25%， Token成本降低24%，小参数模型也能发挥出超大价值！
查看AI文稿
AI文稿
兄弟们，今天说说刚更新的模型， q 乌普斯三点五 v 三，也就是千问三点五加 opus 合成。和之前的 v 二版本比，它实现了根本性突破，彻底告别了第三方蒸馏的推理数据，转而采用人工测展和验证的可信推理链，让模型真正学会一步步展开思考，而不是单纯模仿输出。除此之外，它还新增了 r l 工具调用，强化学习训练，成功实现从会思考到会行动的飞跃，通过试错反思的方式，大幅提升工具调用的稳定性和准确性。九 b 版本的编程分数比原版 q 稳点五九 b 高出近五个百分点，通用知识也反超原版。同时推理效率提升百分之三十一，思维链缩短百分之二十五， token 成本降低百分之二十四，小参数模型也能发挥出超大价值。
135抓耳挠腮
05:43
Qwen3-Omni发布，全模态、全能的，开始迈向ASI啦！这是真的“全模态” “六边形战士”，能听、能说、能看、能读、能写、能思考~#ai新星计划 #全模态大模型 #AI
2237檀东东

热门推荐

热门分类