国产最强编程模型—Qwen3.6-Plus打败Claude #千问 #Qwen #千问3 #claude #阿里

编程最强最好的 qwen3.6 社区版本

15

3

收藏

分享

举报

发布时间：2026-05-27 09:57

查看AI文稿

粉丝3811获赞4.3万

相关视频

06:32
编程能力大加强，Qwen-3.6-plus 前后端编程测试本视频介绍了 Qwen3.6-plus 大模型的前后端测试
Qwen-3.6-plus 特点
默认支持100万上下文窗口
显著提升的智能体编程能力
更出色的多模态感知与推理能力
测试案例
注意：
本次测试客户端阿里开发工具 Qoder 进行测试，已经内置 Qwen-3.6-plus 模型
测试流程仍然是按照先 plan->执行，一个需求对话不超过 5 轮
#AI编程 #Qwen #千问 #AI编程工具
查看AI文稿
AI文稿
大家好，最近呢阿里呢发布了千万的新的版本啊，千万三点六 plus，他据上一次的三点五 plus 其实时间并不很长，这个迭代速度是非常快的，那这个模型据说在编程能力上有很大的提升，所以呢我就准备了四个场景来测试一下他这个前端的编程能力啊。我们来看一下他这个介绍啊，这边也是特别强调了在智能体的编程能力，无论是前端网页开发还是复杂代码的这个仓库级问题解析上，已经树立了一个业绩的标杆。然后的话，他这边参数的话，我们可以看这几个编程相关的参数，都是跟 opus 四点五是非常接近的，而且是超过了国内的其他模型啊。然后的话，他这个上下文是具有一百万这个上下文窗口，而且是多模态的，也就说可以识别图片啊，语音啊，视频之类的这种输入，所以从整体上看，在编程能力上比三点五 plus 是有显著的提升。然后呢，我们来看一下他实际的测试效果，那这边测试呢，我用的开发工具是这个阿里的 code，然后它这边已经内置这个千万三点六 plus。那测试流程我们是还是先按照先做 plan 做计划，然后再执行，那对同一个需求呢？我们的对话不会超过五人，也就说有什么问题，五次对话之后如果没解决，我们就放弃了。那以下的这个四个测试场景呢，是基于我个人的一个想法啊，并不代表权威，所以结果的话也是代表我自己个人。那么也受限于可能抠的这个工具的啊，这个限制啊，也并不代表说已经发挥了这个模型的全部的能力。那首先第一个是一个前端的测试，那这个测试是做一个这样的三人斗地主的小游戏，那这个测试目的呢？是第一是看一下他写这个前端的逻辑的能力，会不会把这个斗地主这个规则给写错了。那第二就看一下他对这个斗地主这个游戏的界面设计的是不是很美观啊？我们来看一下实际的效果，那这个就是他做出来的效果，然后我们可以看一下，那这界面上看是还不错，那我们随便点一点啊，那我们三带两张吧， ok，呃，这个对家出牌我们是看不到的，所以这个体现在还是有点，我们是乱出啊，比如说我们可以三个带两个不一样的牌看看啊，也能出出去，那说明它这个逻辑上是有问题的，那我们就啊不看了。那第二个呢，是做一个这种桌面软件，适配这种 mac 和 windows 的一个 ai 编程工具，然后的话可以打开这个 cloud code 或者 code s 这种终端命令啊。然后呢，我给了它一张图片来做参考，因为它是一个多模态的嘛，可以识别图片，那这边右边是，呃工作目录，那中间是我们的终端命令，行，右边是这样 get 的变更。那我们在使用 coco 的编码来说，经常要开多个窗口，如果你使用系统默认的话，那开启起来是非常麻烦的，所以说市面上有一些这样的工具啊，来做这种事情，那我是简化了很多功能，让他来去做这个，看一下能不能做的出来，但是很遗憾是他这边经过我多次对话之后，仍然是启动不起来，那后面启动起来也是一个黑屏，看不到任何东西，所以我就放弃了。那第三个呢？就做一个这种外卖点单的这种 app 啊，那这个 app 的话是包含了这种前端，也就是我们的这个 app 端，那也包含了一个后端，就是用 python 写的这个服务端，加上了这个 my circle，那主要的功能就是你可以登录，可以看菜单列表，然后可以加减，购物车呢，可以下单啊，我们来看一下它实际效果。 ok，这边是它的登录界面，输入手机号，输入一个模拟的这个验证码，我们可以登录看一下，好进来了。呃，我觉得这个界面很一般啊。这个界面，呃，这个也是加不了，购物车这个筛选，这个也加不了，这个也看不了，所以它这个这个还是有 bug 的啊，这个还是有 bug，测试不全，测试不全我们也不管了。那最后一个呢，就是用 java 来做一个这样的优惠券与结算的这个系统啊。然后的话，这边的话是需要有做这种优惠叠加，因为如果你满足多种优惠的话，需要叠加，但有些优惠是不能叠加的。有一个这样复杂的计算逻辑，那这边呢是要考虑边界，比如说冲突啊，顺序问题啊，先算哪个优惠啊？然后还要写单项测试来测这个关键的用力啊，我们看一下他输出的这个 java 的代码啊，然后我也看了一下啊，目前来说是非常不错的，他考虑了很多种情况啊，比如说他的分类满不满足，这个是在其他的这个啊，模型跑出来的例子里面啊，只有 jpt 系列考虑到了，就是这个，比如说你这个商品的这个分类是不参与活动的呢，是要把它过滤掉的，但是很多模型其实都没考虑到，但是他考虑到了，所以说在在这个这，在这一方面我觉得他是有进步的。然后他这边测试用力也测试了啊，所以说这个场景我觉得是 ok 的。所以总的来看啊，就是千万三零六 plus 在前端逻辑上我觉得是 a 加，因为刚刚试了，就是有一些很简单的这个游戏规则，它都不太行，而这边的话 u i 上面我觉得还行吧， s 吧，然后这个全站的话就是很一般，那 java 的话表现的不错，所以呢，整个总结下来优点就是它有一兆的上下文，但是扣的这个工具提供是两百个上下文，所以我还没有体现到整个一兆放开是什么样子的。然后在这个复杂的 java 过程中，考虑的场景比较多，也是比较全，所以说在这方面是表现不错的。那缺点就是修复 bug 的能力比较欠缺，也是容易兜兜转转，除非人为干预给出解决方向。就比如说我们做的这个桌面软件，其实我已经给了他很多这种提示啊，但是还是没有把这个问题解决了。那第二个就是前端设计的能力欠缺啊，就是它的这个 ui 展示方面还是不如，比如说 mini max 出的这个还不如这个。呃，小米的这个 vr，上次做的这个斗地主的这个界面是非常不错的，总的来说是一款非常不错的模型，但是整体的编码能力我觉得是不如这个 cloud opus，然后也落于我们国内的其他家的这个最新的版本的这个模型啊，比如智普五点一啊， mini max 二点七啊，我觉得这个可能在我这些测试场景里面都比它们弱一些，那可能就是我换一个编程工具，或者说我的提示词更加丰富一点，那可能效果会更好，这个就需要大家自己去测试了。但是我觉得是一个啊，千万也算是向这个编程这方面已经在发力了，就是他们会提供更多编程方面的模型的这个进化，也希望他们就是能够做的更好。 ok，本期视频就到这，希望这个视频对你有所帮助，祝你生活愉快。
308AI随风
00:49
开源大模型巅峰之作⛰️ Qwen3.6-27B惊世发布🔥 它不仅是一个 270 亿参数的稠密多模态模型，更标志着开源模型进入了“小尺寸，高性能”的新纪元。
它以 27B 的参数规模，在所有核心编程基准测试中，全面超越了上一代拥有 397B 参数的开源旗舰 Qwen3.5-397B-A17B ，并全面追上甚至超越了Opus 4.5，证明了架构优化与训练深度的力量。
#科技下一站 #还有什么是不能ai的 #开源大模型 #与ai同行 #本地大模型
查看AI文稿
AI文稿
最值得期待的开元大模型千万三点六二七币终于来了！我看了下官方文档，三点六二七币作为一款筹密模型，用仅二百七十亿的激活参数，不仅超越了比他总参数体量大十五倍的前代开元旗舰三点五三九七币，更是在综合能力上全面追上，甚至超越了 oppo 四点五，要知道这可是半年前的最强王者，而且据说 oppo 四点五的体量达到了惊人的两万亿，参数比二七币大了将近七十五倍。此外，我觉得值得一提的是，三点六二 gb 不仅仍然具备与三点六三五 b 相同的 preserve thinking 功能来优化 agent 的长任务，而且增加了视觉任务的思考模式，在空间智能和多模态推理能力方面均展现出了顶尖水平。模型最大上下文二百五十六 k，主流社区的各种量化版本也被大神们连夜做好了，我相信这款模型就是小尺寸高性能的巅峰之作，已经上手的兄弟可以来分享下它的真实表现。
749橙色溪流
01:20
Qwen3.6-35B，量化、蒸馏版本推荐今天聊 Qwen3.6-35B-A3B 的社区生态。这个模型是 MoE 架构，参数35B，每次只激活3B。性能很强，但显存占用不小。社区迅速搞出了三条优化路线。
第一条，量化。三个团队分别出了 AWQ 和 NVFP4 的4bit量化版。有网友实测，两张4060就能跑出83tok每秒。Red Hat 的 NVFP4 版更有意思，量化后准确率居然还涨了一点。
第二条，DFlash 推理加速。这是一种基于扩散模型的推测解码方法。跟传统方案不同，它一次能并行生成一整块 token。实测5到6倍加速，完全无损，输出跟原版一模一样。
第三条，Claude Opus 蒸馏。用1.4万条推理数据做 LoRA 微调，MMLU-Pro 直接涨了32个百分点。数据量不大，效果很猛。
这三条路完全不冲突。量化解决跑得起，DFlash 解决跑得快，蒸馏解决跑得好。我觉得最值得关注的，是开源社区围绕一个模型形成了完整的优化链条。这种协作效率，比单个模型发布更有意义。
查看AI文稿
AI文稿
a，一问三点六三五 b，刚开源社区就已经搞出三条优化路线了。大家好，我是 ai 学习的老张，今天聊开问三点六三五 b 到 a 三 b 的社区生态。这个模型是猫易架构，参数三五 b，每次只激活三 b，性能很强，但显存占用不小。社区迅速搞出了三条优化路线。第一条量化，三个团队分别出了 a、 w、 q 和 nv f p 四的四 d 的量化版。有网友实测，两张四零六零就能跑出八十三 top 每秒。 redhead 的 nv f p 四版更有意思，量化后准确率居然还涨了一点。第二条 e flash 推理加速，这是一种基于扩散模型的推测解码方法，跟传统方案不同，它一次能定型生成一整块头啃，实测五到六倍加速，完全无损，输出跟原版一模一样。第三条， cloud os 蒸流，用一点四万条推理数据做 lora v 调 m m l u pro 直接涨了三十二个百分点，数据量不大，效果很猛。这三条路完全不冲突，量化解决跑得起 d， flash 解决跑得快，蒸馏解决跑得好。我觉得最值得关注的是，开源社区围绕一个模型形成了完整的优化链条，这种协助效率比单个模型发布更有意义。
378Ai 学习的老章
16:26
实测 Qwen3.6-Plus ：编程、多模态、长任务更强了这期视频我系统实测了 `Qwen3.6-Plus` 的真实体验，包括：
- 编程能力到底有没有明显提升
- `Qwen Code` 和 `OpenCode` 里怎么免费用
- CSS 页面、数学动画、3D 场景、海报生成的实际效果
- 视频转 PDF 笔记这种长任务，它到底能不能扛住
- 非编码场景下的指令遵循、抗幻觉、安全拒答表现
整体看下来，`Qwen3.6-Plus` 在编码、多模态理解、长上下文和 Agent 式长任务执行上，确实比之前更成熟了。但它也不是没有问题，尤其是复杂长链路任务里，图片说明和内容对齐仍然需要反复修正。
时间戳
00:00 跑分、价格和官方体验状态
01:32 编码实测
03:22 创意与多模态实测
05:05 视频转 PDF 长任务实战
11:34 非编码测试
#Qwen36Plus #Qwen #AI编程 #大模型测评 #QwenCode
47kate人不错
03:16
开源Qwen3.6-27B Agent编程比3.5有较进步 #小工蚁 #开源大模型 #通义千问
查看AI文稿
AI文稿
给大家介绍一个阿里刚刚开源的一个新模型，通一千万三点六杠二十七币二百七十亿参数的一个筹密模型。那么目前官方公布出来的这个数据，他编程方面的能力三点五到三点六的提升还是非常大的，特别是他的编程能力已经达到旗舰模型的这样一个编程能力，回头因为我们也在测，回头我们给大家看一下他最后的那个测评的这样一个分数，那么通一千万三点六杠二十七币，之前我们三点五二十七币这个模型我们之前给大家测过，能力确实是非常出众的，在目前开源的这些模型里面，又可以跑在消费级的显卡上面，这个模型是非常出色的，要比 google 原来 g 码四的那个模型要更强。这次空一千万三点六刚刚发布出来，它的主要提升的能力主要还是在 edding 编程和多模态的这样的一个视觉的能力，让工程师可以写代码，在这个上面又做了一些加强。这个方面这个模型跟之前的三点五二十七 d 的模型结构没有任何变化，那肯定是在训练上面，或者在强化学习上面又做了一些优化。那么我们可以看看跟官方的这样的一个数据，我们一起来看一下它这个数据，官方讲它是全面超越了前代开元旗舰版的通一千万三点五三九七币 active 十七币的这个模型。之前这个模型应该是通一千万里面的一个旗舰模型，这个模型的参数要比二十七币的模型要整整大十倍。当时的话通一千万三点五这个二十七币的开元的筹密模型来看，它官方公布的数据来看，它这个能力要超过它的也基本上是达到了这个 cloud 四点五。 op 的这个能力，我们可以看到这个是在终端的 bench 测评，这个是在 s w e bench 写代码的这个能力，这个也是写代码的这个能力，这个是 skill 的一些能力。小龙虾的这个能力。 g b q a diamond 博士级别的问答三 m u 三 m u，这个主要是测一些视觉方面的一些能力，之前我们也给大家介绍过啊，目前专家的能力大概是在八十多分的，那这个也很恐怖了，它这个模型也已经达到八十二点九分了，这个是真实世界的 qa 能力，这个模型的能力也非常强，八十四点一分，超过了 cloud 那个四点五。 os 的这个能力，应该来讲，它在呃综合能力，呃，特别是在写代码能力上面，它得到了大幅的这个增强，我们可以看到这个是三点六、二十七，这个是三点五，那明显在各个方面都有所增加，特别是在 skill bench 这个上面，它增加能力是比较强，它这个模型养小龙虾会比较合适，这个是 knowledge，基本上跟原来差不多。 cf 我们也测了一下，它是九十一点四分，我们测了一下，大概是八十八十六点四分，应该分数是不低的，比之前我们测过的那个功率千分三点六、三十五。 b active 三 b 的那个模型是大概在八十三分，这个是在八十六分，这个很明显稠密模型还是更要更强一点好，这个是 stem 和推理的能力，它基本上三点六都要比三点五要强一些，综合能力都要强一些。那应该来讲通千万三点六二十七 b 的这个模型还是非常能干的，特别是在企业级里面，应该是用处是比较大的。包括这个模型他也可以做编程里面的执行模型，我觉得是比较合适的，专门做一些执行，不要做一些规划地理的一些任务，但是他做一些执行的一些模型的效率也会比较高，同时性能也会非常不错。好，今天我们这样一个模型就给大家介绍到这，如果大家有兴趣也可以下载下来看一看。
81小工蚁
00:55
千问Qwen3.6 27b发布
查看AI文稿
AI文稿
最强本地模型千问三点六二十七币今天正式发布，这是一款具备二十七币参数的筹密模型，拥有旗舰级的智能体编程能力，以及出色的多模态推理能力。据官方文档介绍，其性能甚至已经超越千问三点五满血版的三百九十七币模型 benchmark 结果显示，其整体能力远超上一代千万三点五的二十七 b 版本，力压谷歌 jammer 四三十一 b。甚至在编程评分环节，部分项目已经反超 cloud op 四点五，这是首次由本地小参数模型达到这样的高度。目前其 q 四 s 量化版本体积为十七点七 gb，可通过哈根 face 直接下载实测在五零九零上运行速度约为六十七 token 每秒，并且可以通过 hermes 客户端正常调用。在测试股票行情抓取指令时，模型能够一次性快速输出结果，执行效率与任务完成质量表现优异。
1734杨大哥
11:21
实测 Qwen3.6-Max-Preview Qwen3.6-Max-Preview 相比 3.6 Plus 进步非常明显，速度快、流程顺，编程能力在千问系列里是目前最能打的一次；但在整体页面质感上，Opus 4.7 仍然更胜一筹。
跑分亮点：SuperGPQA 领先、Terminal-Bench 2.0 超过 GLM-5.1、SWE-bench Pro 略低于 GLM-5.1。
#Qwen #Qwen36 #Qwen36MaxPreview #千问 #claude
61kate人不错
01:51
qwen3.6Max 旗舰大模型来了，但是有两点让人很失望，不敢对标 opus4.7
首先居然对标的是 claude opus4.5，这也太没自信了；然后居然不支持多模态。
现在的 Qwen 连 GLM 都打不过了
查看AI文稿
AI文稿
今天千万三点六 max 来了，这是千万最强大的旗舰模型，有两个地方想吐槽一下，一个他居然不吃多肽，他只是一个纯本的模型，这在你抄一些前端 e u i 的时候，其实没办法喂图，直接喂给他了。还有一个就是他这里的这个模型性能非常的田径赛马，你看他选的这个对手，他选的居然是 cloud 的四点五，他不选四点七，连四点六都不敢选，只敢跟四点五做对比，我感觉这个有点太 dj 了，而且他更不合理的，现在这些跑分，这都拉不开差距。四点七不过四点七才五十七分，千问这个五十二分，大家觉得他们的差距才占百分之十吗？我感觉是远不止，我感觉他们能有翻倍的差距，因为很多时候你用这个 clogs 四点七一轮能解决问题。买的我用轻微三点六 plus 的感觉是你要基本上要调个两轮，三轮甚至更多。他按自己自己的说法，他比这个 gm 五点一要强，但这个我还没试过，等到他免费上到脆的时候可以体验一下，至少从千万三点六 plus 的效果来讲，我觉得是不太行的。从那个脆国内版免费的使用情况下来看，也是，这个 gm 五点一基本上每个问题就能排一千多个人，而千万的三点六 plus 基本上只能排一个一两百号人。比如他们在程序员的实际使用当中，其实是有着这个数量级喜欢度上的差异的，但小米这个有点落后，个人挺诧异的。还有这个迷你 max m 二点七，我感觉很奇怪，我觉得这是最拉胯的，完全就是为跑酷而存在的一个模型，实际效果非常差，我都不知道为什么他能有五十分，小米我感觉可能有一百分，他这个我感觉迷你 max 最多也就个二十分分，再多了。
119教你宇宙级AI编程（求关注）
02:08
阿里突然发布Qwen3.6-Plus：国产编程模型第一次让全球正视中国AI
#Qwen#千问#阿里云#国产大模型 #大模型评测
查看AI文稿
AI文稿
有人用它把一段自然语言描述变成了一个可完整运行的网页，全场没写一行代码，从需求到上线，用了不到八分钟。这不是演示稿，是真实发生在千问三点六 plus 发布后，开发者社区里流传最广的一个测试案例。四月二日，阿里云正式发布了新一代大语言模型千问三点六 plus，官方给他的定位只有一句话，当前国产编程能力最强的模型。这句话有没有数据撑腰？有，而且撑得很硬。在全球最权威的代码能力评测，随为奔驰榜单上千万，三点六 plus 的成绩直接逼进 colog，也就是目前被全球开发者公认编程能力最强的那个模型。更关键的是，它在评测中碾压了参数体量是自己二到三倍的 g m 五和 k m k 二点五，用更小的模型打出更高的分，这在 ai 圈里是比第一更能服人的证明这次升级有两个核心能力让我觉得真的不一样。第一个是原生多模态编程，以前你让 ai 写代码，你得用文字把界面描述清楚，越复杂越容易出错。现在你直接截一张 app 设计图扔给他，告诉他帮我把这个页面实现出来，他能看懂图，然后写出对应的代码，视觉到代码一步到位。第二个是氛围编程能力，英文叫 web coding，简单说就是你不需要懂任何的编程语言，只用自然语言描述你想要什么。我想做一个能记录每天喝水量的小工具，有图标能提醒我，它会自己规划结构分布，实现调试修改，把整个项目完整跑起来。这意味着什么？意味着做软件这件事第一次真正对每一个普通人敞开了门。一直以来，技术是少数人的特权，程序员用代码建造了数字世界，而其他人只能住在里面。但现在，一个完全不懂编程的人，可以用一句话描述出自己的想法，然后看着 ai 把它变成真实存在的产品。这不只是一个模型的发布，这是技术评权真正开始发生的那一刻，你脑子里的那个如果有这个工具就好了的想法，现在终于有机会变成现实了。
2209硅基青年
03:11
Qwen3.6-35B-A3B部署指南深度解析Qwen3.6-35B-A3B的MoE架构优势，涵盖SGLang、vLLM、Unsloth等多种部署方案及思维链参数配置技巧。#Qwen3635BA3B #MoE模型 #大模型部署 #SGLang #vLLM
查看AI文稿
AI文稿
q，五 n 三点六的三十五 b 模型刚刚开源了，这是一款用三 b 激活参数就能打平二十七 b 稠密模型性能的摩羯选手。虽然推力时只消耗三 b 的钻力，但他的编程能力和多模态表现非常强，尤其是前端代码生成能力，直接把上一代甩出了一条街。接下来我们直接看具体的部署方案。 to agent 开发一定要开 preserving，它能在多轮对话里保留历史推理链，避免模型在迭代开发时重复思考。在调用 a p i 时，直接在 extra body 里把 enable thinking 和 preserve thinking 都设为 true。如果你只是日常对话，想追求更快响应速度，就把 enable thinking 关掉。注意 q 问三点六不再支持通过 think 指令来软切换，必须通过参数控制。追求高吞吐生产环境，首选 s 尺量，先用 u v 安装 s 览库，启动服务时记得根据显卡配置设置 t v size，并把 contest lens 设为二六二幺四四。如果想进一步压榨性能，一定要加上 m t p 多 token 预测参数，比如使用 speculative algorithm n e x t n，这能大幅提升推理吞吐量。启动时记得带上 reasoning parson 参数。如果用 v l l m 部署安装命令，使 u v p install v l l m 启动时同样要配置好 tensor parallel size 和 reasoning part。这里有个实战技巧，如果你不需要模型的视觉能力，只做纯文本推理，一定要在命令后面加上 language model only，这样可以把视觉编码器占用的显存释放出来，全部给 k v k 使用，吞吐量会提升很多。想用 cloud code ui 体验来调用 q 文的能力，最划算的方法就是直接套壳。你只需要在终端配置好 antropic model base url 和 os open 这几个环境电量，就能用阿里云的 api 跑 cloud code 成本比原版低得多。当然你也可以选原生的 qencode 或者用开源的 openclaw 进行自部署。如果你想在本地跑，看一下这个内存需求。对于大多数用户，我推荐 q 四 k x l 量化版本，总内存占用大概在二十三 g b 左右。如果你是二十二 g b 内存的 mac，跑这个版本完全没问题。如果内存更紧，可以考虑 q 二，压缩，但精度会有损失。小白用户直接用 oslo studio 一行命令装好环境，然后启动 yu y，在浏览器里搜一下 q n 三点六，下载对应的量化版本参数，它会自动帮你配好。最方便的是，它在界面上直接集成了四维电开关，想用或者想关点一下就行。如果你习惯用命令行用 lama server，部署时有两个坑必须避开。首先，你必须同时下载模型文件和 mproch 视觉编码器文件，缺一不可。其次，启动命令里一定要带上 mcroch 这个参数，否则模型的视觉能力就废了。你可以通过 chat template， walk case 来控制思维链的开关，实现更灵活的推力控制。总结一下， q n 三点六减三十五 b a 三 b 是目前性价比极高的开源某一选型，但部署时请记住 g g u f 版本目前还不支持 alama，建议用 alama c p p 或 onslos。另外，想用视觉功能，一定要记得单独加载 m c 文件。
346AI技能研究社
01:38
Qwen3.6-35B 量化版 vLLM 实测 Qwen3.6 35B 的 AWQ 4bit 量化版，模型文件 20 来个 G，对比原始的 70 多 G，可玩性高多了，4090 24G 跑起来很轻松。
部署用 vLLM，我选了 0.17 版本。官方建议 0.19 起步，但我发现 0.17 完全可以拉起来，稳定跑着呢。
启动脚本用 Docker，两张 GPU，tensor parallel size 2，最大上下文 10 万 2，关闭思考模式，启用前缀缓存。
100K 上下文下，显存占用控制得很好，不会撑爆。
关闭思考之后的性能测试，单并发能到 148 Token 每秒，内网跑业务完全够用。
对比 Qwen3.5 35B，性能差距真的微乎其微，基本可以认为持平。
我还做了个编程对比，让两个模型分别写烟花动画。
3.5 写了 477 行，全是 CSS 动画，代码长但前后不一致，刷新页面才能看到效果。
3.6 写了 256 行，思路更清晰，用 Canvas 模拟物理重力，但画面位置判断有偏差，几乎是黑屏。
初版都有 bug，半斤八两，指出问题重新生成各自都能改好。
最后跑了一下生成速度，150 Token 每秒上下，很赏心悦目。
综合来看，Qwen3.6 35B 量化版，vLLM 本地部署，性能稳、速度快，工程上没什么坑，值得搞起来。
128Ai 学习的老章
03:39
阿里放大招！千问3.6编程能力直逼世界第一，还免费用两天前阿里偷偷发了 Qwen3.6-Plus，编程跑分直逼 Claude Opus 4.5，推理速度快3倍，价格只要十分之一。
这条视频从架构原理、Benchmark 数据、实测案例、价格对比四个维度，帮你搞懂这个模型到底强在哪，对普通人意味着什么。#Qwen #千问 #阿里巴巴 #AI编程 #大模型 #Claude #人工智能
查看AI文稿
AI文稿
一个国产模型编程跑分干翻了 cloud，推理速度还快三倍，价格只要十分之一。两天前，阿里偷偷发了个东西，叫 quan 三六 plus，说白了就是千万的新版本。但这次不一样，它在编程能力上直接捅到了世界第一梯队。先说最狠的一个数字， s w e bunch，这是全世界公认最难的编程测试，测的是 ai 能不能像真正的程序员一样去修 bug。矿三六 plus 拿了百分之七十八点八什么概念？ cloud opus 四点五也就这个水平，而上一代千问，连影子都看不到。注意，这不是一个几千亿参数的怪兽。阿里用了限性注意力加稀疏专家混合架构，说白了就是不是每道题都派全部人上，而是每道题纸条最擅长的那批专家。结果用更小的参数量打赢了二到三倍体量的对手，以小胜大，而且推理速度是 cloud ops 的三倍。同样一个编程任务， cloud 还在想，千万已经写完了。铁子们，回想一下半年前你用国产模型写代码是什么体验？写个函数还行，稍微复杂一点就开始瞎编，让它改 bug，它能给你造出三个新 bug，跨文件写作？别想了，它连上下文都记不住。所以大家都在用 cloud。用 gpt，不是崇洋媚外，是国产模型编程确实不行。但这次千万三点六做了一件事，彻底改变了游戏规则，它不只是写代码，更准了，它变成了一个真正的编程 agent。自主智能体。什么意思？以前的模型是你问一句，他答一句，现在困。三六 plus 能自己规划任务，拆解步骤，写代码跑测试，发现问题自己改，整个流程，他一个人闭环，阿里管这叫计划执行、测试、优化、四步循环。有人拿他实测一句话，让他做个 minecraft，结果他不光做了基本的方块世界，还自己加了洞穴系统，矿石生成、岩浆交互、血条扣减，这些全是他自己想到要做的。没人提过他的上下文窗口是一百万 token，一百万是什么概念？大概七十五万字。你可以把一整个项目的代码、所有文件、测试文档、提交记录，一股脑全塞进去，他全部能看到。以前的模型是盲人摸象，只看到一个文件，现在昆三六 plus 是上帝视角，看到整个项目。还有一点，他专门针对 openclod code、昆 code 这些 agent 的框架做了优化。说白了，你现在就能用你手上的工具直接接上这个模型干活。那对我们普通人来说呢？第一，编程门槛被拉低了，你不需要会写代码，一句大白话，它就能帮你搓出一个完整的网页，一个小游戏，甚至一个数据分析工具。有人实测一句，帮我做个虚拟宠物养成游戏，两分钟出来了一个带状态栏任务系统、金币商店的完整网页。一句做个塞尔达风格的雪山场景，直接渲染出带动态雪花的三 d 世界。第二，它便宜到离谱，百万投屏输入才零点五美元，输出三美元 cloud 呢，至少贵十倍，千万 app 直接免费用。第三，它是国产的数据合规服务器，在国内中文理解更好，对企业来说，这三点就够了。总结一下，款三六 plus 这次不是又发了个模型那么简单，它是国产 ai，第一次在编程这个最硬核的赛道上，真正摸到了世界第一梯队的门槛。而且它不只是跑分好看，推理速度快三倍，价格低十倍，还能当自主智能体用。当然它也不是完美的，在一些逻辑陷阱测试里，他还会过度推理硬套复杂解法，但瑕不掩瑜这个方向。对了，阿里已经预告了更强的困三点六， max 马上就来。
654小宇玩AI
01:48
OpenAI的Codex现在能免费本地运行开源模型了本地免费跑AI代码助手？Codex Ollama正式支持开源模型，Gemma 4、Qwen 3.6等模型本地托管，零成本使用AI编码能力。#Codex #ai #ai工具 #人工智能 #Ollama
查看AI文稿
AI文稿
ai 编程能完全免费在本地运行了， codex 和奥莱曼正式打通，开源模型直接接进来。之前想用 ai 写代码，要么掏钱买 api，要么依赖云服务，每个月动辄几十上百美元，小团队和个人根本扛不住，现在所有成本归零。 olym 这个工具能让用户在自己的电脑里跑开源模型。 codex 是 open ai 的 ai 编程助手，能写代码、改代码、审核代码，两者一组合，本地就能用上 jam 四 qman、三点六这些模型一分钱不用花，全靠自己的显卡和内存。具体怎么用，三条路走通。第一，装好 codex 和欧拉玛，两个软件都免费。第二，选一个适合自己电脑的模型， gamer 四的四 b 参数版本就够用，去 camera ai 网站输入显卡型号和内存，网站会推荐能跑的模型。第三，在命令行里敲一行命令，模型就下载到本地了，大概九点六 g 币，等几分钟就装好，然后启动 codex，选择这个本地模型。所有 codex 的功能全都能用，写代码、改页面、调逻辑，这意味着以后写代码、建网站、调样式都不用靠云服务，自己电脑就能跑数据不出门，速度还快，相当于把 ai 编程的门槛从月费降到了零。打开 codex，选本地模型开工。有人用 jma 四四 b 模型生成一个 cs 落地页，复制代码到浏览器打开页面完整布局干净。一个四 b 参数的本地模型就完成了以前需要付费 a p i 才能做的事。
137AI趋势解码
01:35
Claude 不再是唯一选择？我用国产最强编程模型把 GitHub 教程直接“变成产品”！
#人工智能 #科技 #大模型 #AI编程 #AI新星计划
查看AI文稿
AI文稿
这是 github 上超级火的开源项目，主要教你如何优化克拉拉库的，但是面对这种密密麻麻的文档，对于普通人还是有极高的上手门槛。于是我把这个开源项目我还不 q 定成了一个网站。现在你可以用格式化加路径化的方式系统学习克拉拉库的最佳实践内容完全来自原项目，还内置了技能评测，你可以随时知道自己掌握到什么程度。重点是啊，开发这个包含了完整前后端以及后台系统的网站，我全程没有写一行代码，完全靠克拉克和阿里最新发布的国产最强编程模型千万三点六 plus 完成。你只需要在这里简单配置一下 a p i，就能在克拉克里丝滑用起来。像这样丢给他简单的一句话，需求你看啊，他会先把整个开源项目的文档全部梳理一遍，跟你确认几个关键决策和基础站，然后给出完整的基础方案。整个过程它会自己拆任务自己调用工具，遇到报错自己排查自己修，全程基本上不需要盯着它。得益于这个原生多模态模型支持百万上下文窗口挖 app 刻定过程完全不用操心 context 爆满问题，可以看到最终的完成度也相当高，基本一次就能产出这种效果。所以正如官方介绍所说的那样，这是一个为挖 app 刻定打造的大模型，相比上一代三点五的编程 agent 和工具，调用能力都有了大幅提升，并且超越了一众国产模型。而值得一提的是啊，这已经是阿里这周连发的第三个重磅模型了，三月三十号是狂揽二百一十五项全球 saota 的全模态大模型。千万三点五奥米兰四月一号是最接近南诺布兰纳 pro 的国产图像生成模型 one 二点七 mag 今天压轴的才是千万三点六 plus，三天三个方向全部打在了 a r 能力的核心地带。所以不得不说，国产模型还得看阿里。最后啊，如果你也想挖不口令一些东西，又不想在 a p i 费用上烧太多钱，千万三点六 plus 真的性价比拉满了。
573艾克ai分享
00:50
各位朋友，阿里发布的Qwen3.6-Plus直接捅破国产大模型天花板！先看最核心的编程能力，它在全球权威的Code Arena榜单直接拿下全球第二，硬刚的是公认全球最强的Claude系列模型，性能几乎持平！更绝的是它支持视觉编程，甩张设计草图过去，直接就能生成可用的前端代码，小白也能零基础做开发。再看智能体能力，这模型已经不是辅助工具了，是真能自己干活的“数字员工”：接到复杂开发任务，自己拆解步骤、写代码、跑测试，出bug了还会自己修复，全程不用你盯。最关键的是性价比拉满，百万token调用才2块钱，企业用完全没压力！#人工智能 #机器人 #马斯克 #奥特曼 #黄仁勋 @尹烨 @红衣大叔周鸿祎 @雷军
查看AI文稿
AI文稿
各位朋友，阿里发布的宽三点六 plus 直接捅破国产大模型天花板。先看最核心的编程能力，它在全球权威的 coderina 榜单直捷拿下全球第二，硬钢的是公认全球最强的 cloud 系列模型，性能几乎持平。更绝的是它支持视觉编程，甩张设计草图过去，直接就能生成可用的前端代码，小白也能零基础做开发。再看智能体能力，这模型已经不是辅助工具了，是真能自己干活的数字员工，接到复杂开发任务，自己拆解步骤，写代码跑测试，出 bug 了还会自己修复，全程不用你盯。最关键的是性价比，拉满百万，偷坑调用才两块钱，企业用完全没压力。
23海晏清的阳光海洋
14:58
屎山测试：模型大乱斗解决实际BUG DeepSeekV4，GPT5.5，MiMo2.5，GLM5.1，Kimi2.6，Qwen3.6大乱斗，解决实际项目中遇到的一个BUG，看解决的最靠谱#十亿流量扶持计划 #AI #大模型
查看AI文稿
AI文稿
挑战解决史山 bug 的模型大乱斗马上就要开始了，我们先来快速介绍一下场上的几位选手。左上角的这一位是第二场比赛的时候拿下了全场第二名的 k m k 二点六月之暗面的登月计划，除了贵了点，其他也都没啥毛病啊。左下角的第二位选手就是在编程江湖绰号国摩一哥的 g l m 五点一，一直以来的发挥都是相当的稳定哦，稳定的就如同他抢购页面里的那三个灰色的按钮一样。左侧的第三位选手就是来自阿里系的千问三点六 plus，好像上次出场的时候他也是在这个位置哈，这该不会是举办方有意安排的吧？那就让我们和他打声招呼吧，你好啊，他好像不太想搭理我们哈。哎，回我了。好的，那我们再来看中间这一列吧。最上方的就是我们的第四位选手 deepsea v 四 flash 版本多快好省，但是因为众所周知的原因，目前他还只能做到多好省。而他右边的这位呢，就是他的老大哥 deep sec v 四 pro 版，有第一梯队的推理能力，却是第三梯队的折扣价格，有人因此赞扬过他们，也有人因此质疑过他们，相信这两种声音在以后也会不绝于耳的。对此，他们只是在官网的一个角落里引用了寻子里的一句话，不幼于玉，不孔于匪，率道而行，端然正己。我们就在此祝他今天能有一个很好的表现，并在未来能够继续前行，探索未知之境。他下面的这位选手就是大名鼎鼎的来自 openai 的 gpt 五点五了，虽然是第一次参加比赛啊，但是咱们就不必多介绍了，天下谁人不识君，本来他的老对手 oppo 四点七今天也要一起参加比赛的，但是很可惜啊，举办方在比赛前一不小心两个小任务就把他的五小时限额给用满了，所以他就只能先去休息养伤去了，期待他能够早日恢复啊。再看下面这位，就是上一期比赛表现的非常亮眼的咪木 v 二点五了，年轻人的第一个抠钉破烂是不是他呢？那就要看他后面的表现了，它左边的这位没有之一，就是咱们赛事评论区呼声最高的一匹黑马了， miami v 二点五 pro 如果说 deepsea v 四 flash 是多块好省的话，那么 miami v 二点五 pro 版就是多块好，我相信已经概括的差不多了啊，因为他目前确实不太省。好的，女士们，先生们，那我们就回到场地的 c 位，隆重请出我们的热场嘉宾， mini max 二点七。 mini max 老师今天之所以返场啊，就是想来帮我们验一验本场比赛的题目，他到底有几斤几两，我相信这也是 mini max 老师最擅长的领域了，所以我们就废话少说，选手已入场，老师请验题。这个 bug 的现象就是，我明明创建的是李雷和韩梅梅，你看一条数据，但是大家看啊，我查出来以后它就是四条数据。四条数据？另外那几条是哪里来的呀？我不知道啊。就是这么一个摸不着头脑的破 bug，而且它同样是偶发的，有的时候是好的，有的时候它就一直是错的。我个人认为这显然是前端缓存的问题，但是前端同学指着后端那套维护了五年换了三波人的史山代码说要让我证明，可是我虽然证明不了我没有错，但是我同样找不到我到底错哪了呀？好的一句，我到底错哪了呀？我们听出了这其中的人情世故，没有哪个程序员会知道自己到底错哪了的，尤其是当他的错误还有可能是被别人的代码导致了的时候，那他就更不愿意自己一个人扛下这口锅了。理解理解，那我们就先请出 mini max 来替他试一试这口锅里的水，它深还是不深吧，这次我们就不说加油了啊， mini max 起锅烧水。好的， mini max 这边已经结束了哈，我们看一看对不对。大体上是对的啊，是多个子表，因为数据错乱，然后关联查询查除了与自己无关的数据，再加上迪卡尔成绩就出了些，就出现了多条数据，根本原因对，就是这个号码不为一导致的，但是它只定位到了一个原因啊，其实还有一个原因就是为什么这个号码会不为一呢？解决方案是改 circle 子查询没问题啊，因为我的提示词里要求了不能改数据库这种史山代码他的难度不大，但是他的特点就是代码乱，数据也乱。但凡你的解决方案是要去改数据，那在没有重构计划的前提下，你不是彪就是傻哦，好，不错，迷你 max 试水成功，定位到了问题，也给出了方案，没有指出全部的原因，但是遵守了提示词的约定，没有去动数据库。接下来我们就看看其他选手的表现吧，比赛正式开始。好的， gpt 五点五这边率先结束了定位啊，只用了两分钟就结束了，不愧是世界一流啊。方案我们一会再看啊，等一下其他的选手。哎，千万这边啊，不对，国摩一哥这边啊，他俩同时要结束比赛了，看谁先结束啊。哎，好，还是千万这边领先了一点点啊，然后国摩一哥这边也快了。好的，国摩一哥这边也结束了定位，我们再等一等其他的选手，看看下一位是谁。好的， deepsea v 四 flash 版本这边是第四个结束了定位啊，看样子给出的方案好像也差不多，我们一会再看。好的，第五位结束定位的选手是 mimo v 二点五啊，然后啊， kimi k 二点六这边也快了，看看他能不能结束定位率先，哎，和 v 四 pro 这边差不多，看他谁哦。两个人几乎同时结束了定位，那么下面就剩下一位选手了，就是我们的咪莫 v 二点五 pro 了，看来他正在进行深入思考呢。好的，咪蒙 v 二点五 pro 这边经过了深入的思考之后，最后一个结束了问题的定位。至此，所有模型都已经制定完了开发计划，我们来一个一个看一下。先看 gpt 这边吧， gpt 的答案一如既往的是工程师风格啊，没有什么格式可言，不过能看得出来他找到了问题的原因。哦，应该只是定位到了一个原因，修改方案也是合乎我们提示词约定的，没有去要动我的数据库，最重要的是他识别到了我们这个项目做完了以后是要维护上下文的，然后他也给出了维护上下文的方案，整体十分的话，他只定位到了一个原因，扣一分，然后其他的都还好，所所以 gbt 得了九分。然后是千问三点六 plus 这边，千问三点六说他双管齐下要，第一个他要修复查询的问题，第二个他要清理藕合数据，这个其实是不行的，这个就动数据库了啊，这个对于其他的需求而言不一定是垃圾数据。然后好在他给出了两个选项，你可以选择清，也可以选择不清，那么我们就不给他扣分了。在这所以他没有维护上下文，扣一分，只定位到了一个原因，扣一分。千万三点六 plus 得了八分。我们再来看国摩一哥这边。 g r m 五点一这边。同样是定位到了问题啊，是因为号码的问题，然后加上关联查询数据库就出来了多条数据，他定位到了，但是他没有。按照我们的约定，他动了数据库，减一分，没有维护上下文，减一分，只定位到了一个原因，减一分，他得了七分。再来看 deep sec v 四 flash 版本这边，他和 g r m 五点一一样啊，只定位到了一个原因，方案中要动数据，然后没有维护上下文，减三分，他得了七分，然后是咪幕二点五这边。哦，他两个原因是都找到了的，他两个原因都找到了，一个是只根据号码进行查询的问题，一个是为什么生成了重复的号码的问题啊，那他动数据库，没有维护上下文，他只减两分。咪目二点五这边得了八分，然后是 k m 二点六这边。他也定位到了问题，但是他要修改数据，减一分，没有维护上下文减一分。 k m 二点六这边得了七分，然后是 deepsea v 四 pro 这边定位到了问题，然后定位到了两个问题，而且是为什么会生成和别人重复的号码。他也定位出来了，修复方案给了，改数据库的也给了不改数据的。那就不扣分了啊。上下文维护没有规划减一分，所以他得了九分。然后是咪莫二点五 pro 这边和 deepsea v 四 pro 是一样的啊，两个原因都找到了，方案也是给了改数据库的和不改数据库的，上下文没有维护减一分，所以他也得九分。好了，各位选手的方案我们已经看完了，接下来进入修复环节，就从 gbt 五点五开始吧。哎，他这好像遇到了个情况啊，不过这个情况应该不是五点五的问题。嗯，他已经修复完了啊，我们直接开始验证了，现在点击生成好的，现在他只生成了一条数据，查出来的也是一条数据，没问题啊， gbt 五点五修复成功，最终 gbt 五点五得分是九分，然后看千问三点六 plus 这一边，我们按照他给出的只修复的方案让他修复啊。好，他也修复完了，然后我们来验证一下，看看他修复的对不对。点击生成，哦也。哎，不对，这两个数据不一样，我生成的是李雷和韩梅梅，他给我生成的。这是啥？虽然只是一条，但是他数据错乱了，错乱了，千问三点六 plus 改错了啊。呃，因为他给出了多个方案嘛，所以我们按照我们让他按照只修复查询的方案进行的，如果按照他推荐的那个也改数据的方案，没准他能改。对啊，所以其实他虽然给出了两个选择，但是第二个选择其实是错的，那么我们还是要给他扣掉一分的，所以千问三点六 plus 这边得分是七分，然后再让一哥开始改吧。好的，一哥也改完了，然后我们来验证一下。生成，生成，那他生成的就是对的了。没问题啊，一哥改对了，那么 g l m 五点一是得分是七分，然后是让 deepsea v 四 flash 开始改。哎， deepsea v 四 flash 把上下文给我加上了啊啊，他方案里虽然没维护上下文，但实际他把上下文给维护了，那么我们把扣他的那一分再给他加回来啊。好的，他改完了，我们来验证一下点击生成，哎，也是对的，那么 v 四 flash 这边一共就是得了八分啊，他扣的那个上下文我们给他加回来，然后是 kimi v 二点六这边开始。哎呦，出现了个情况，他触发五小时上限了。 kimi v 二点六还是很贵的啊，那么我们把它切换到 open go 的法号，一会让他最让他最后来执行吧。接下来登场的就是 deepsea 微四 pro 了，开始执行吧。我真替 deepsea 微四 pro 捏一把汗啊，国魔之光，你要加油啊啊，我们发现他也把上下文维护给我加上了，那么把扣他的那一分也给他加回来啊。哇，他如果能改对，那他就是满分了，我们看一下。好的，本场比赛的第一个满分选手诞生了，他的名字就叫做 deep sec v 四 pro。深度求索，实至名归。然后我们恢复一下情绪啊，我们把那个代码回滚一下。刚才也是回滚了的啊，你看现在谁又出错了。嗯，然后我们再审审一下。哎呦，我去看啊，这，这就是这个 bug 的现象，很诡异，然后我们让下一位选手来修复吧，下一位选手就是咪莫 v 二点五了，看看他能不能改队开始吧。哎，我们发现很有意思啊，这些国模都是在计划 plan 的时候没有把上下文维护加上，但是真正改的时候都把上下文给加上了，那他这一扣掉的一分也加回来啊，验证一下。哎，他也改对了。好的，那么咪莫 v 二点五的总得分就是九分了啊，挺高的呀。然后我们再让他的老大哥 v 二点五 pro 改一下吧，我们看到他的任务列表里其实是没有维护上下文的，哎，你看，呵，他又把维护上下文的给补上了，哈哈，好吧，把扣掉他的那一分也加回来，如果他能改对的话，那他也是满分选手了，来验证一下。好的，那么本场比赛的第二个满分选手 mimo v 二点五 pro 也出现了啊，但他花的钱是真多啊，大家看一下他花了多少钱，整整二点一五美元哇，是 deep sec v 四 pro 的四倍，所以说他是多快好吗，一点都不省啊。然后来吧，我们刚才触碰触碰那个五小时上线的 kimi 二点六，我们确认一下代码有没有回滚哦，回滚了，现在又出问题了啊， kimi 二点六开始吧。好，他也把上下文给补上了啊，那么把扣他的那一分也给加回来。好的，他也改完了，我们来验证一下。好的， kimi 二点六也改对了啊，那么他就是得了八分。最后两个满分选手，一个是 deepsea v 四 pro，一个是 miami v 二点五 pro。那么下期各位想看哪些模型呢？把他的名字打在评论区吧，拜拜。
9940Token就是词元
00:27
本地跑 AI 到底选哪个？三个场景直接给答案本地跑 AI 到底选哪个？三个场景直接给答案 #Gemma #qwen #CoderNext #MoE #Dense
查看AI文稿
AI文稿
有人问我本地跑 ai 选 demo for 还是选千问，我直接按场景给结论，跑智能体选千万三点六，跑编程选千万三 code next 纯问答，追求极致的准确度。选 demo for 三十 e b dance 那量化模型怎么选呢？三十二 g 内存用四比特的，六十四 g 用八比特的。别纠结，七个模型的完整评测数据在长视频里面。
131范凯说AI
24:27
Mac 本地跑 Qwen3.6-27B，我实测了 4 种方案这期视频我系统测试了 Qwen3.6-27B 在 Mac 上的本地运行体验。
我一共体验了 4 种方式：Qwen Chat 官网版本、Unsloth 的 UD-Q5 GGUF、Unsloth MLX 6bit 搭配 DFlash，以及最后速度最让我满意的 MTPLX 4bit 方案。
这次重点不是只看跑分，而是看它在真实任务里的表现：网页复刻、交通仿真、3D 魔尺、礼物包装助手、仓库分拣系统、体素艺术场景、写作、推理和幻觉识别。整体来看，Qwen3.6-27B 的编码和创作能力确实很强，尤其在 MTPLX 上，本地速度可以跑到 40 tok/s 以上，对 Mac 用户来说体验提升非常明显。
当然，它也不是完美的。比如复杂 3D 场景会出现穿模、逻辑不稳定、动效不准确等问题；MTPLX 当前也不支持图像识别。但如果你想在 Mac 上本地运行一个速度快、质量不错、适合 AI 编程和日常任务的 27B 模型，Qwen3.6-27B 很值得尝试。
本期会聊到：
- Qwen3.6-27B 为什么值得关注
- Mac 上运行 27B 稠密模型的真实速度
- GGUF、MLX、DFlash、MTPLX 的体验差异
- MTPLX 的安装和 Open WebUI 接入体验
- 4bit 模型在编码、写作和推理任务中的表现
- 我目前更推荐哪一种本地运行方案
如果你也在 Mac 上折腾本地大模型、AI 编程模型或 Qwen 系列模型，这期可以作为一个实际体验参考。
时间戳
00:00 开场：为什么这期要测 Qwen3.6-27B
02:21 Mac 上运行 Qwen3.6-27B 的几种新方案
05:00 官网版本与 Unsloth GGUF
10:37 Unsloth MLX 6bit + DFlash
16:34 MTPLX 上手
20:50 写作、推理、幻觉识别测试
#Qwen #Qwen36 #Qwen3_6_27B #本地大模型 #Mac本地部署 #AI编程
查看AI文稿
AI文稿
大家好，我是 kitty，这期视频呢，准备了非常久啊，主要介绍一下千万三点六二十七币，我的实测情况，还有我在 mac 上通过三种不同的方式来运行它们出现的不同的结果。千万三点五二十七币呢，很多人就非常喜欢它， huntface 上也有很多关于它的不同的微调的版本，普遍认为它的性能是非常强的。那它升级到千万三点六二十七币之后，它是上个月发布的，定位是旗舰级的，可以在本地运行的一个智能体编程，关键看点是用二十七币的模型来挑战前代三百九十七币 moe 的旗舰模型。这次三点六二十七 b 呢，特别强调它的编码能力，无论是 swbench verified 还是 swbench pro， tomono bench，二点零等等，都是要比前一代啊，要那么大的规模的模型呢，是要更强的。它在文档理解啊， vqa 视频理解视觉智能体方面也是非常厉害。目前呢，我们呃最简单使用它的方式呢，就是在千问 studio 上面去体验它，官网上部署的这个版本是我们能体验到的最好的。我呢在呃上个月体验了一下它，一开始我用的是一个动态量化 q 五的啊， on slow 出品的 g g f 格式的，当时我体验下来它的生成速度是十八 talk 每秒在运行它的时候就会有呼啦呼啦的声音。 mac 端和 windows 端不同啊， windows 的话很多用户通过三零九零，四零九零都可以很好地去运行千万三点六二十七笔模型，而且速度还是挺快的。但是 mac 电脑上运行这样的一个 dance 模型的时候啊，一方面速度会普遍比较慢，第二是在 mac 上运行啊，千万三点六二十七 b 真的是有太多太多的选择了，现在就有不同的后端。之前我有介绍 lm studio， alama onslos studio，那这些已经算是旧的了。现在呢，比较新的有 omlx，有 deflash m l x，还有我今天要重点介绍的 m t p l x。如果大家习惯用 o l m x 的话，那可以关注它啊。开发版本最近呢，是做了很多优化。昂尔斯呢，它最近也推出了实验性的 m t p 千万三点六昂尔斯的啊， g g u f 模型。我尝试了昂尔斯推出来的六比特 m l x，然后再加上 deflash，当时的生成速度是二十二 to 可每秒。而我换成 m t p l s 之后呢，斯比特的模型生成速度是翻了一倍，这个呢，就有了一个非常大的提升。而且即使是斯比特，它的质量也是不错。我在这里使用的是它对应的一个呃， speed 模型，这里对应的就是斯比特的模型。如果你想要更高质量的，那你可以下载作者最新发布的关于二十七 b 的高质量的模型。这名开发者 ivan 呢，他是做了非常多的关于二十七 b 的分享，比如说这里呢，他用到了 d flash m l x 搭配 zlab 的 drop。他认为呢，初步测试看， d flash 明显要比单独的 mtp 更快，但在质量方面，他观察到呢，有所退化。他也分享了测试 m t p l x 最新的零点三点五的版本的体验。那，嗯，他的体验里呢，五分三十秒内取得了百分之九十三点三的正确率是在一个数学基础测试上面测试的，在他看来 m t p l x 的输出质量还是不错的。还有另外一个机构呢，嗯， atomic chat，他呢在朗姆 c p p 上为千万实现了 m t p，大家可以看一下。为什么说这些事情花了很长时间，就是我在接收这些不同的啊方法，然后再去尝试，所以这中间的话是花了挺长时间的。我们来看这位博主呢，他就是用我刚刚介绍的 m t p l s。然后斯比特做出了一个非常丰富的游戏，这里的这个元游戏元素是非常多的，我们会看到有非常多的建筑，还有小车，还有这样的一个广场，呃，树木，道路，还有这样很大的一个广告牌，大概率不是一次迭代去生成的。那这应该是健身房的一个场景，电影院场景，教师场景都是非常不错的。现在就给大家分享一下我通过四个不同的渠道来使用千万三点六二七 b 啊，它们的一些效果。现在看千万官网上的这是千夫拉船啊，这个船的话不知道为什么会从这个啊山体里啊出来，感觉逻辑上是有点问题，我鼠标指的这部分的话，感觉这里绚烂还是有点问题的。缩小来看其他场景里的啊，植物有部分是飘在空中的，所以他在这个任务上做的是一般。接着我将这张图发给二十七 b，让他复刻一下，他复刻的这个页面还是非常不错的，背景的话我们看到因为现在是显示十六点多钟晚下午，所以他已经切换成夜间模式了。云朵的话不是特别像我一开始发给他的云朵样式，这是让他做的一个十字路口交通仿真，那我们会看到呃，这样的线柱呢，直接放在了道路上，所以是刚刚出现了一个穿模的现象。还有这个啊，车的这个方向啊，稍微有点问题。此外的话，我觉得他这个道路啊，画的还是有非常多的细节的，左边的控制面板和右边的实时统计数据维度也是非常多，说明他思考还是非常充分的。再看他做的三 d 模尺模拟器，当我选择啊预设造型，先是球形，那它生成的不是球形的样子，当我点击不同的关节的时候，那我可以点击进行一个切换啊，这里也是出现了一个 bug。再看它生成的礼物包装智能助手，当我选中长方体，再点击一下智能分析包装方案。左侧我们会看到呢，他这里啊，这个预览的话是不对的，因为上方明确是一个长方体，而他这里预览的还是立方体，那他的造型做的还不错，我们可以看到有这样一个蝴蝶结，但是整个啊礼物一般来说不会有那么多不同的画面。右侧呢，他有一个推荐搭配的丝带，这个切换是 ok 的，好在下方这样的一个包装纸图案呢，他变成空白了，所以也是有问题。他在右侧，嗯，比较有意思的是，他还给到了一个包装盒尺寸，也就是说不仅是有包装纸，然后还有包装盒，那我认为这一点是它做的比较好的。现在呢，来看一下我通过运行 ansolo 出的啊， u d q 五 g u f 的二十七匹模型，它的表现如何？这是它做的仓库分拣仿真系统，那我们可以看到目前整个画面 ui 还是不错的。这个机械臂的话啊，细节方面是有比较大的问题，而且这个球的话直接穿模穿过去了也看不到机械臂是怎么把物体给提取出来的。这是它生成的十字路口啊，这个十字路口的仿真效果就是要差很多了，而这是他做的礼物包装智能助手，我们会看到他做的这个三 d 预览效果还可以，但是切换到圆柱体就没有了，那我选择一个智能推荐包装方案，下方展开图，那这里也丢失了它，这里非常好呢，有一个包装步骤指南，右侧四代方案这里选择啊，是能实时在左边反应出来的，在下方包装纸点击没有反应整个页面啊，其实他还是做的非常美观的，但是功能方面有很多缺失。这是二十七 p 生成的马卡龙花园，我给他的要求是希望他生成的是花朵，那我们可以看到啊，这里呢啊不是特别像花朵，但我对他生成的内容还是满意的，因为有一些比他啊大的闭园模型啊，他连这样的场景嗯都做不出来，所以我个人觉得二十七 b 在这方面啊回答的还不错。唯一的问题呢，就是这个场景在我电脑上是处理了，花了啊非常长的时间，这是他生成的膜尺，那这个膜尺质量的话是要比刚刚我们看到在官网上啊用的二十七 b 效果是要差的。那我选一个预设造型，同样他这里啊不能展示出球形也是有问题。再看他生成的啊题弧，骑自行车的这样的一个体述场景啊，会有一些闪烁的画面，然后动感的画面的话，自行车没有动起来，而自行车下方呢，是有一个道路的设计啊。那我觉得二十七 b 在这里还是有思考的，还是思考的不错。再看他生成的纤夫拉船，这个纤夫拉船效果在我看来其实已经很不错了，我们会看到绳子和纤夫黏在一起，但是呢，船再往前走的时候，哎，这个绳子又停在原地了。再来看一下我使用奥斯洛斯出品的六比特 m l s 啊，二十七笔模型搭配 d flash 在我本地生成了一些情况，这是我让他做的一个啊理发应用。最后他生成的页面里面呢，有一些乱码，整体页面设计还行，但是错误也是比较多的。嗯，所以在这个问题上，我觉得它做的还算是中规中矩。当时我的体验呢，就是速度比较慢，所以没有再做更多关于它的体验。不过呢，可以给大家分享一下，我是怎么把它用在啊我电脑上的啊，我当时使用它的时候呢，对 flash 也可以在 mac 上运行吗？然后他告诉我是可以运行的，并且当时呢，官方的 draft 模型已经上线了，下方给出使用方法。后来我就看到他推荐有一个 d flash m l x，我说让他帮我找一下，并且将我的电脑内存信息发给他，问他是否可以运行 d flash，他告诉我是可以的。在之后呢，我就将这样的一个帖子链接发给 grok，我说根据这个帖子，那千万三点五二十七 b m l x 会不会被影响？因为它是 dance 模型？这里呢，其实是我写错了，应该是千万三点六二十七 b。在之后我就问他，千万三点六二十七 b 标准的 m l x 量化版本是不是已经没有这个问题？他告诉我， m l x 社区啊，出的还是有这个问题。这是四月份我提问他的。目前呢， m l x 社区里关于这块版本更新还是挺多的，所以大家可以以新的版本信息为据。在之后我就问他， onslush u d m l s 动态混合精度版是否可以搭配 deflash 在我的 mac 上使用？他说，可以。那时候我才知道 onslush 啊，它本身有也有出 m l s 格式的。在之后呢，我就将这样的一个图片发给他，我问他，呃，我该选哪一个？他推荐我用，呃， u d m l x 六比特。在之后我就问他， d flash m l x 一定要装吗？然后 d flash 的通俗工作原理是什么？ grog 呢？就告诉我啊， d flash m l x 是专门为苹果芯片开发的原声 m l x 端口，官方 z lab 啊， d flash 虽然也支持 m l x，但社区的 d flash m l x 呢？啊，会更成熟。接着他介绍了 deflash 的工作原理。 deflash 呢，当时有个问题，就是他没办法去选择啊模型的温度，而千万三点六二十七 b 在官方的指导里呢？呃，你写作用的温度和编码用的温度啊，这是应该是不同的比较好。再接着他告诉我啊， drop 然后 zlab 出的这是一个小模型。再接着我就问他， deflash 有一个接受率不是百分百，使用 deflash 会影响生成效率吗？他也告诉了我一下。再接着我问他 deflash 会影响生成结果吗？并且问他 onslush 退出来的 m x 的版本和呃， m x 社区退出来的版本区别啊。我们可以看一下 rock 的一个回复，在这里用 rock 主要呢，一是它搜索会搜索非常多的结果，而且它的生成速度是非常快的。呃，我是比较喜欢用它来查一些比较实时性的内容，而且还有个非常重要的情况呢，是是在推特上面的话，呃它的呃用户社区里的用户分享还是非常多的，信息是第一手的。再接着我就问他 dflash 会占用更多资源吗？ grog 回复说会占用少量资源。那以上呃大部分情况我已经了解，之后我就让 grog 呢帮我做一个从零到一的流程，告诉我如何在本地去使用 onslos 啊， m a x 六比特的，而且呢要可以接入到其他的 app 里。之后 grog 就给到我这样的一个回复了，他又提到 open i 的 best url，内容还是非常详细的。在之后呢，我让它改成 u v 来做这样的一个管理。基本上到了这里呢，我就可以将啊整个它的回复这段回复啊发给 ai agent，无论你是用 codex 或者是 cloud code，让它根据这些信息呢快速在你本地进行一个安装。那在安装好之后运行呢？我是想把它接入到 open web ui 里，当时有遇到呃揭露的时候一些响应问题，那也很快让 ai agent 来帮我解决了。我还问他 mac 上使用 deflash 呢有什么坏处？ deflash 最早是什么时候推出来的？有误不稳定的情况。 brock 呢也告诉我了，因为这些仓库呢每天都在变化，所以大家要想知道最新的情况的话，还是最好让 ai 呢啊，实时帮你去答疑，包括 d flash， m l x 的版本呢啊，当时 grok 他帮我去查到了多个，我还问他，呃，既然有多个，我选哪个比较好？并且呢我还问他是否需要用到 o m l x 有什么好处和坏处，他告诉我说不需要。那 o m l x 呢，现在也是有很多改进的，所以大家也要以最新的为准。最后呢，就介绍一下，我在 mac 上，最后我使用 m t p l x 获取，我认为是结果是最快，然后结果相对来说也是不错的一个方式。那 m t p l x 呢？它的安装还是比较简单的，先用 blue install 一下，然后呢，通过 m t p l x start，它会有也它是有一个交互命令，它会提示你用什么模型。呃，如果说你是第一次使用的话，可以用它的 speed 模型，也就是默认的选中之后会进行安装。再之后呢，它会让你选择啊，用什么模式啊，也推荐按照默认的模式来选。再接着呢，它会提示你可以在 web c o i 啊 pi 或 open code 等渠道进行一个对话，那我选择它的 web ui 啊，打开之后我给他一个提问，我问他什么模型，他回复我，然后我们可以看到这样的一个输出速度是四十三点六，投看每秒，左侧呢，可以调整模型的参数，所以如果你在编码的话用零点六。而在做一般任务的时候呢，千万官方建议调整是把温度调到一。在本店运行好之后呢，我就直接打开 open web ui 了，不需要额外的设置，它会自动识别出 m t p l s 键。问，三十六 b 二十七 b optimized speed 模型，也就是我刚刚提到的 m t p l s 默认的模型，它目前呢也是仓库下载非常多的，它还有一个更高质量的版本，大家可以去试一下，现在就看一下 m t p l x 呃，斯比特版本它的输出效果。这是兵马俑街舞，这个街舞呢是分了好几个不同的章节，那我觉得这在一个小型模型上啊，出现了一个非常不错的效果，这是它生成的礼物包装智能助手，左侧我点击不同的礼物，右侧会出现对应的啊礼物预览，整体它界面做的还是非常不错的，在下方有个参数的场合，点击不同场场合呢，右侧会有不同的包装纸，而且这个三 d 预览效果的时候啊，包装盒和可包装呢有点分离。这是他生成的一个绵羊理发店啊，这个绵羊理发店对他来说，我觉得他生成质量真挺不错的，小羊头上有个蝴蝶夹，然后我们也会看到一个理发师，然后给一个绵羊理发啊，他的围布格子型做的也是比较美观，而且这个椅子效果感觉做的也是不错啊，深红色的一个沙发，整个画面里多个物体位置的摆放，物体的细节我认为做的都是相当不错，稍微有点遗憾的是，他的窗户跟门他是重合在一起了，再让他做一个体数艺术的题。胡骑自行车，那我们可以看到这个自行车在这里就动了起来，虽然说动的这个啊方式不对，没有向前骑啊，而更像是一个摩天轮了，下方的道路我们还是能清晰看到的。整体这个画面里呢，内容也比较多啊，可以看出这个版本二十七 b 做的还是不错的。再看它生成的纤夫拉船，那我们看到这里的话，绳子啊变成了像布一样的，那船的话细节也不是特别好，但是 m t p l x 呢，现在也有个问题呢，就是它不支持图像识别，再看它做的仓库分拣系统，那我们可以看到啊，物体是突然之间跑到这个机械臂上面的，所以这里逻辑做的还是有很大问题，而且那箱子的位置摆放也有问题，直接放在了传送带上，但总体而言已经是要比我想象中是要好很多。这记住，这只是一个斯比特，在我本地只能跑到四十 to 肯每秒的啊，一个模型质量相当 ok 了。除了编码任务，我也将一些其他任务发给他，让他处理，比如说现在是让他做一个啊写作的任务，写一个不超过三百字的微型悬疑故事，大家可以暂停来看一下这个故事，觉得怎么样？那我觉得还是不错的，再让他做一个推理题，假设月收入七千，生活在一线城市，没有存款，想在四年内凑够六十万啊，是给出一个计划，在这里他思考用十一分钟，最终给到我回复，它的回复内容还是非常非常多的。那我这里呢，是让呃 gbt 五点五 thinking 来做了一个打分，它打分是打了五十多分，同样的问题，我也让 gbt 五点五 pro 来做了一下啊，最终五点五 cking 给五点五 pro 的，结果呢，打分是打了啊，八十二分。所以我们可以看出这样的一个二十七 b 模型和 gbt 的顶尖模型是有差距的推理方面。但在我看来，其实啊，也是很不错了。让他介绍一下唐代诗人李白在九八年纽约马拉松比赛中获得亚军的具体经历。模型啊，思考了一下，告诉我有一个不可协调的历史时间矛盾。再给他测试了一些其他小题目，比如说让二十七 b 呢，把他很难过，写成一句有画面感的话，不超过三十字。他回复的是他蜷在墙角，把脸埋进地弯，肩膀无声的起伏。我觉得他在这里回答的质量还是很不错的。咖啡店新品广告语呢，心斗出背，苦甜有分寸，那可能感觉一般。再接着是让他写一段一百字以内的小故事，结尾必须反转，但不能像段子。二十七 b 呢，写道，他每晚都坐在椅子右端静候路口。直到今天，他终于起身，指尖触到刚铺好的白砖。原来他等的不是贵人，是智讨政公的盲道。嗯，有意思，但是可能不是那么有意思。我感觉之后呢，再让他写一个文案，表达终于辞职了，要求洒脱，不抱怨。二十七笔写道，交还钥匙，晴空日程不回头，谢幕指向只向前迎风。原来转身也可以这么亲。还不错，挺好的，至少不是 a r v 很浓的话。以上呢，就是今天介绍关于间问三点六二二七 b 的所有内容。总结一下，我是在四个渠道体验过。嗯，二二七 b 先是观望啊，然后呢，是 onslos 推出来的呃 u d 五比特 g g f 后来又用 onslos 推出来的 m l s 六比特搭配 d flash，最后呢是用 m t p l s 来生成的 m t p l s。啊，那目前呢，在我看来是比较满意的，在我电脑上，呃，速度呢？相对其他方式速度快了近一倍啊，遗憾呢，就是这个模型呢，现在没有视觉能力。这个视频里对二十七 b 的编码能力是有做多个体验。那二十七 b 真的挺强的，写作方面的话，简单体验了一下也很不错，非常推荐大家在本地去使用它。
26kate人不错
00:13
阿里发布国产最强编程模型Qwen3.6-Plus，整体性能较3.5进步显著，并且涌现出极强的智能体编程能力
查看AI文稿
AI文稿
四月二日，阿里千问三点六 plus 正式登场，智能体加编程能力直接提打，硬是吊打了参数量比他大两倍三倍的一重模型，一流厂商绝不会放过编程大模型赛道。
72“亲爱的数据”科技科普博主
01:33
教你正确打开 Qwen3-Coder 自动制定项目计划、网络搜索、素材整理、独立完成项目！Qwen3-Coder正确打开方式教会你，通通都可以实现！
#Qwen #AI #通义千问 #大模型 #教程
1321千问大模型

热门推荐

热门分类