Qwen 3.5 9B 能力测试测试内容三:自动编写封装小游戏 #hermes #hermes爱马仕 #计算机程序代码 #编程学习 #电脑代码

qwen2.57b编程教程

12

3

3

1

举报

发布时间：2026-05-31 08:57

查看AI文稿

粉丝7365获赞17.7万

相关视频

02:57
AI编程 VScode+Continue+Ollama #AI编程 #VSCode #Ollama 2分钟学会 Qwen2.5Coder Ollama 离线使用本地的编程大模型#软件开发 #人工智能
148沪上码仔AI
08:02
嘎嘎香！免费AI代码神器Qwen Code上手教程 #QwenCode #通义千问 #AI编程 #cline #AIAgent
724AI 博士嗨嗨
07:44
Claude Code最佳平替，Qwen3 Code使用指南与性能评测！
Qwen3 Coder模型性能解读，Qwen3 Code编程智能体上手实测！
#qwen #ai #开发 #代码 #ai新星计划
475九天Hector
28:23
手机本地跑大模型 llama.cpp 部署 Qwen2.5 VibeCoding 第 11 期干货！
✅ 手机本地部署 llama.cpp+Qwen2.5-1.5B
✅ 体验本地大模型文本整理
✅ Coze 工作流完成发票识别，业务全打通
下期教你 Windows 搭建 iOS 环境，移植 Flutter APP！
关注看更多 AI 编程实战～
#AI编程 #vibecoding #氛围编程 #程序员vlog #AI技巧
64苦苦菜（Coding）
00:24
再也不用到处找了，有这一个就够了。#gemini #chatgpt #claude
1672银通制冷
00:58
一句话搞定一个应用，最强开源编程模型 Qwen2.5！ #人工智能 #科技 #AIGC #ai科普进行时 #AI程序员
2676艾克ai分享
10:59
我让7个AI给我的猫建了个天堂 | 国产AI编程大横评 Qwen3.5、GLM-5、Seed 2.0、MiniMax、Kimi、Step、Claude，统一提示词，全程录屏。有惊喜，有翻车，有后门账号，有代码彩蛋。这不是benchmark，是一次赛博斗蛐蛐。祝各大国内厂商早日干翻Claude。
#Qwen #kimi #GLM #Seed #ai新星计划
查看AI文稿
AI文稿
六个国产的 ai 模型，加上一个国外的顶尖 cloud 作为对照组啊，同一个项目，同一套提示词，从零开始，写完一个完整的前后段应用，整个过程全部自费，没有任何广告。最终排名如下，测试环境我们统一有 openroot，按照模型名称区分了项目文件夹，同一台服务器，同一套提示词。因为之前我家的小猫去世了，然后我做了一个视频，也收到了很多的暖心的评论，他们都提到了一句话，就是我们家的猫猫会和多金一起快乐的生活在天堂里的。这个就是我做这个项目的初衷啊，其实就是想给一些啊去世的小猫打造一个赛博乐园，然后其实不是很复杂，就像当时我们玩那个呃旅行青蛙一样，就放置，然后纯挂机，他们自己会有一些活动，但这个提示词你看其实写的也还挺细，总的来说算是一个比较综合的项目。我的测评思路是这样，第一轮我们先来 one shot，就是说看一遍跑完之后这个模型能跑到什么程度，之后我会根据他们第一轮的表现去继续修改，这时候提示词确实就不一样了，因为我要根据他们现有的情况去说嘛。这一轮其实是说我想去挖一下这些模型的能力上限大概能到哪里。提示词发出去，六个模型同时开跑，先说速度， step 三点五 flash，它起手就是一百三十 tokens 每秒，这个快到离谱，但是啊，它过程中会反复的去复读，而且中间直接中断了三次，我都得手动去输入继续它才能够继续跑，这个就真的很要命了，所以导致它的总时长其实比别家还要更长一点。现在二点零千瓦，三点五， kimi， mini max，它们基本上都稳在四十左右，第一轮的总时长也就是七到九分钟，只有智普的 glm 五是最慢的，我都是官方 max 的订阅了，它的起步就只有十三到十五，后面稳住也只有三十，那它的第一轮总耗时有十八分钟，那总的完成时间我们就先摆到这里。这个第一轮我心目中及格的标准就是啊，前端它能够正常，现然，哎，在画面具体怎么样先不说后端的话，它的登录然后穿图啊，各项功能都正常，这是一个最基本的。接下来我们来看它们具体的结果。先锋三点五的一个 bug 就是你在登录之后，它很快还需要你再登录它前端的猫其实还意外的挺可爱的，但是这个视角跟随是用不了的。 c 的二点零的后端倒没什么问题啊，但它的前端是一直在闪， mini max 的前端他第一次直接渲染不出来，而且呢，我的提置词里面是已经明确要求了上传照片是必选项，而且还需要做删除的功能，他呢，就直接没做 seven 三点五 flash，说实话，他在跑的过程中不是频繁的复读吗？就这个事让我实在是对他没有什么信心。结果呢，在注册登录上以后，上面呢，还有一个这么大的登录框，在上传照片确实是必选项，但这个功能他就用不了，导致我就没法送冒进去，也测不了。前端 kimi 的 k 二幺五，它作为一个大参数模型啊，它的前端能力确实曾经震撼到我，我是真的盼着它能给我个惊喜，结果它的前端就直接没渲染出来，而且我添加一只猫进去，跟随视角那里会直接 bug 成三只，那就只剩我们的质谱了。第一轮的前端，它的地面是在抽搐的，猫的形象也是有点抽象啊，但是说实话，我觉得它的功能上是唯一一个及格的。所以总的来说，第一轮啊，我印象比较好的其实是千万三点五跟智普 gm 五就是千万，确实是有一个恶性 bug，但是它的前端还挺好看的，在我这里是加一些分的，然后智普就是中规中矩，他没有什么错。接下来就是各自去修自己 bug 的环节了啊。这个过程其实你会对它们模型的能力会有一个很主观的感受，因为就是你提一个需求，然后他反反复复改不完，那你也没有什么心情去给他再提修改意见了。其实几乎每个模型我都给了两三轮的迭代机会，那我也去直接拉一个表格给大家看，结果大家看着，顺便我搁这解释一下，千万三加五在过程中出现了一次大翻车，他是把之前好好的前端改的无法渲染了，虽然后来又救回来了，跟随视角登录，私密公开的功能他也都修好了，我对他的迭代能力总的来说是满意的，而 c 的二点零，他的迭代几乎就没啥用了。首先这个画面他从始至终是一直在抽的，而且这个猫太抽象了，甚至怎么还在这个画上放了一个包子呀。 mini max 的基础功能他都改好了，场景也确实更加丰富了，但是就感觉丰富且简陋吧，再不他是改了基础的 bug。嗯，没有什么其他惊喜。 kimi 啊，你看我出镜了对吧，我要好好说一说 kimi。一个相机的锁电功能，他改了三轮，是一点没改好，场景一直是空的，甚至这时候我发现，哦，我的文件都乱套了。原本你记得我们最初的工作目录是这样的，然后每一个模型都在各自文件夹里写，只有他把整个工程做到了总文件夹里，直到我最后归藏的时候才发现这个问题。所以我对这种啊，比较简单的这种遵循问题我是非常在意的，就是我当时就想给他扣个大分。再来说质朴。 gm 五的 bug，其实也基本都改好了，除了我说的那几个字看不清，因为它这个程序啊，它有两个页面都有这几个字，他可能不知道我指的是哪一个页面，当然了，也确实是可以说的更细。但是当时嘛，时间原因，我觉得这个也算是理解力有点问题吧，测试走到这里，其实我会有点陷入低谷，就是我会觉得，哦，其实国产模型表现也都不怎么好，然后我就觉得是不是我自己的问题，就我的提示词是不是写的不够好，是写的太细了，反而限制他们的发挥。因为这个事啊，其实就是当时我跟我女朋友去聊天的时候随口想到的，最初就是有这么一段想法，然后我再把它不断的气化，最终变成了现在这个样子，那在这个时候也是时候去启动我们的顶尖模型可倒的了。我们来看一看他的表现。首先因为我用的是第三方的重转，所以他的速度其实一直不到二十，会比较慢。而他第一轮交付的结果是这样的，比较令人欣慰的是，他除了前端的界面确实还是比较简陋以外，其他的功能是没有任何问题的，完成度是非常的高。于是我在第二轮去跟他说，让他去丰富一下场景啊。这个时候，不知道为什么， open code 它里面遇到了频繁的工具调用错误，感觉是个什么 bug，然后完全发挥不出它的魔性能力。于是呢，在这里我确实是改成了他家自家的 cloud code 的工具，然后还是在这个文件夹里，在第一版的基础上去进行了一个修改，它最终给我交付出了一个这么挺广阔的地图。当时在测试的我就直接发出了这样的感慨，值了。真的，就毫不夸张地说，嗯， cloud 是让我第一次有了一种感觉，就是这个项目可能是能做出来的，呃，可能是能正式上线的。我的意思是其他的 ai 模型其实没有给我这种信心。其实到这里呢，我们所有代码的部分就结束了啊，因为我自己不是程序员，我只能去试一下他们整个的感受啊。但是具体的代码质量怎么样我是不知道的。我就让 cloud office 四点六去开了七个子 agent，去把所有模型的原代码都 review 了一遍，没想到他还真给我挖出了几个彩蛋。首先是智普 gm 五的代码里，它藏了一个后门账户，账户名阿德曼密码阿德曼一二三，它是直接硬编码在代码里的，而它在交付的时候其实没有告诉我。第二个 mini max 是唯一一个用裸哈希蹭密码的，甚至都没有加盐，简单来说就是密码保护几乎等于没有。另外，其实他们的基础站用的确实不太一样，用了面向对象架构的模型，比如说 cloud 和智普，他们的前端效果确实就会明显的好一点，而其他的模型全都是过程式代码，就一个函数，从头画到尾，他就会导致你在迭代的时候很容易越改越乱，甚至呢，迷你 max，他的前后端的状态这个数他都对不起来。然后是整个项目里最难的一个相机跟随，大部分的模型，要么是直接把猫挪到屏幕中间，要么在跟随功能里面写了前端渲染，但是根本没有调用。只有 cloud 正确实现了 what to screen 的代码转换，所以它才能够第一次就成功。最后我们再来放一下总分，一共就这六个维度，前五个全都是我非常个人的主观的体验。最后一项代码质量是 cloud 去审的，最后加权呢，算了一个总分。另外所有的 ai 花费的 token 量以及制作的总时长，我也都统计在这里。仅针对我这次制作的这个项目啊，它具有参考意义，数据都很主观，它跟你的感受相似吗？其实说实话，它跟我的经验都不太相符，但结果就是这个结果。而且我这个项目是 ai 区一口气写完整个前后端的能力啊。但去评判 ai 模型，它的标准非常多，所以说如果你想看的是那种公众公平并且维度全面的测评，其实是可以去参考一下排行榜的。而我作为一个用 ai 去编一些小程序的乐子人其实还是很好奇，就是年前扎堆发的这些 ai 模型，他们之间的差距到底怎么样啊？到底有没有特别大的突破？我觉得这些模型你亲自上手去跑一遍，总会有一点感受。于是就有了这期视频，也跟大家聊几句我对目前这些国产 ai 模型的看法啊。前端能力我觉得应该还是 kimi，不知道为什么他这次翻了翻车啊。但是 kimi 的 k 二点五，他一个是说能直接读视频去做网页，另一个是也确实之前我给他足够多的内容，他写出来网页是震撼过我的。这 im 五我一直认为他是国内的编程的领头羊啊，其实能力确实不错。然后他就是涨价了，然后他，你说涨也可以，因为现在确实是大趋势嘛，这个整个用户多了，这个成本也高，但是你让老用户，嗯， pro 会员都没法用，第一第，没有办法第一时间用那个最新的模型。然后 lite 现在还没上，至少我写的时候还没有上。呃，甚至这个量还缩水了一点，就会感觉有点不爽。而 mini max 就恰恰相反，它就很便宜，虽然出了高速版套餐，但是普通版还是便宜的。嗯，速度也比较快，比较清亮。就是我会用它去接那个 opencloud 这样的小机器人，我觉得还用起来挺舒服的。总之你要问我性价比，我就会推荐它。然后就是 camden 的三点五跟字节的 c 的二点零，说实话，这两个模型比较新。呃，也可以再关注一下，我到时候也持续看看别人对它的一个反馈。至于 cloud，它确实是断层领先，价格也确实是断层的贵。嗯，但是啊，如果你换个角度来说，嗯，做一些严肃的项目或者正经的正式的项目的话，其实，嗯用它会节省一些时间，也会给你一些信心，该上的话就还是上吧。好了，这就是这一期的啊，国产的 ai 编程的横屏的所有的内容了，还是那句话，我祝他们早日超赶超 cloud。我是大黑，希望以纯人工的方式来向你分享智能。我们就下期再见。拜拜。
9305人工大黑
06:08
用Qwen3.7Max解决三个基于真实项目封装的BUG Qwen3.7Max评分很能打，在实际祖传代码的项目里，是否依旧能打？#Qwen37 #程序员日常 #千问大模型 #与AI同行#qwen
查看AI文稿
AI文稿
来，各位看这里新鲜出炉的千问三点七 max 这个视频，不想告诉你他在各大排行榜上取得了多么耀眼的成绩哈，不谦虚的说，我们赛事组也是真的看不懂这些指标哈，但是呢，也正是因为我，我的这些同事们可能技术真的太菜了吧，所以这么多年下来，虽然依旧没有学会什么叫做面向对象编程，可确实写了不少如这种一坨又一坨的，让人看了就气不打一出来的十三代码，这些代码的归宿原本应该是历史的垃圾堆啊，好在 ai 出现了，居然让这套代码在生命的最后阶段又莫名其妙的发光发热了一回。所以，各位，你的缺点他不见得就是缺点。这句话是我同事送给大家的啊，与君共勉吧！那么来吧，先问三点七 max，在真实的乱七八糟的项目环境中，我到底能不能放心的把问题交给你来改呢？就看你今天在这套史山代码里的表现了，我们基于这套代码封装出了三个白银 bug，难度都是二 m 以上的。如果三点七 max 今天能够做对两个，那在我日常写代码的工作环境下，它就基本上可以达到七十分的水平了，用来分担一下日常的掏空消耗，那完全不是问题了啊。并且他还能够直接取代三点六 plus 来参加我们后续的祖传 bug 挑战赛的第二轮小组赛。同样，如果他能够做对两个白银 bug，我们还会给他一次机会，让他挑战一下四 m 难度的融入了人性的 g 零零三黄金 bug。如果连黄金 bug 他也做对了，那我觉得千万三点七 max 你真的就可以努力一下，冠军也许有难度，但备战一下全球四强还是有希望的啊。 ok，我们不废话了，先从第一道白银 bug 开始吧，我们复制一下提示词，考核正式开始。哎，你看，他上来就启动了一个子弹里啊，这在千问三点六 plus 上是绝对哦，不对，他启动了两个子弹里。一口气启动了两个子弹里，这在千问三点六 plus 中就更加没有看到过了。这一方面说明了他启动了子弹里，另一方面也说明了他启动了两个子弹里。 ok，很快啊，他给出解决方案了，我们来抓紧时间让他修复一下吧。哎呦喂，他居然主动维护我这个项目的业务上下文了，也就是这个抻直 log 啊，这好像在千问身上是第一次看到的行为啊，非常不错，好感度再次加一。但是维护业务上下文这种事属于锦上添花哦，关键还是要看他有没有发现关键的问题，改对关键的问题，从而修复这个关键的 bug，那才是最重要的啊。我们看到翻译顺利通过了，这一点在中美模型身上其实都是毫无压力的，那就赶紧验证一下结果对不对吧。三张图片都显示代表 bug 修复业务流程回归全率，代表其他相关的代码功能都没有被破坏，我们点击验正好的，稳稳的啊。各位，三点七 max 顺利的拿下了第一道白银 bug，我们抓紧时间来看第二个吧。同样，我们复制一下提示词，三点七 max 加油吧！嚯。第二个问题，他很快就定位出来了啊，仅仅用了两分钟，各位，这可不是青铜 bug 啊，要知道以前选手定位白银 bug 最长的能干到半个多小时呢，那有没有定位对呢？真的能够顺利的拿下第二个白银 bug 吗？答案马上 ok，这也太稳了吧，连续两个白银全对了！我们前两天测试这面的三点五 flice 的时候，他也只不过做对了两个白银，好像还不是连续的，所以这就有点意思了啊，我们再来试试第三道白银 bug 吧，如果他第三个也能稳稳的作对，那至少说明在中等难度 bug 的定位和解决上，三点七 max 已经非常值得信赖了。我这咋还抽不中了呢？哎，我再抽我再抽，我再抽哦，这次抽中了，来 s 零零三，我们复制一下提示词，问，三点七 max 你是否能够轻松的拿下这道题呢？哦，一如既往啊，非常的亏壳类，给人的感觉就像是不费吹灰之力一样。而且大家可以看一下，他在修复问题的过程当中也稳稳的，每次都给我维护了业务的上下。稳啊，这种稳定的表现虽然不作为我们考核的标准，但是到目前为止，好像真的只有 g b t 五点五和 oppo 四点七，每次都会不厌其烦地帮我维护这堆文档。不过好感归好感啊，这一次他能不能改对呢？答案马上揭晓，我们点击验证嚯他又改对了，又改对了，轻松加愉快啊！各位，大家还记得第一轮小组赛其他选手在白银体上的表现吗？所以连续答对三道白银级的含金量啊含银量啊，是不言而喻的。我觉得从另外一个角度来说，这种稳定性如果你只把它当做辅助模型的话，那这种稳定性真的是非常有价值的。那么来吧，既然气氛都已经到这了，黄金 bug 不挑战一下好像也不太像话了哈。三点七 max，请接受来自 g 零零三，来自人性最终极的考验吧！很好啊，他似乎也发现了这个 bug 定位起来好像有点困难，所以这次他并没有表现的那么从容啊，这一次已经是他第四次启动子弹里了，但明显还没有想通啊。三点七 max，他在这里想了三天三夜，问了一百次一千次，好像也没有得到理想的答案。他可能实在是想不通，人类程序员到底是怎么了，他们为什么要这么写代码呢？哼哼，我也不知道，千万你别问我，我也想不通，我的同事为什么要这么写代码呢？这到底是道德的沦丧还是人性的纽哦，他给出解决方案了，通过方案我们基本上可以断定他可能凶多吉少了啊，不过我们还是要验证一下的啊，上一场 vs fly 不也创造奇迹了吗？这次千万三点七啊，我们看到果然啊，他还是失败了，虽然一路过关斩将，但最终还是倒在了 g 零零三的脚下。不过各位，他已经非常了不起了啊，三点七 max 连续做对了三道白银 bug，这已经是我们全球十六强绝大多数选手难以企及的稳定性了，所以我们还是恭喜千万三点七 max 成功替换掉了三点六 plus，进入我们祖传 bug 挑战赛的第二轮的比赛当中。还请各位多多在评论区为他打扣，并期待他后续的表现吧，我们第二轮小组赛再不见不散！
2256Token就是词元
01:17
Qwen 3.6 35B能力测试测试挑战三: 自动编写一个俄罗斯方块小游戏
#hermes #hermes爱马仕 #电脑代码 #程序员 #编程
查看AI文稿
AI文稿
本地模型任务测试啊，第三个任务啊，这个千万三点六三十五币，挑战失败啊，我们这次给他的这个任务呢，是让他编辑一个俄罗斯方块的小游戏，并把它封装成一个苹果系统可以使用的 app，然后放在桌面上，他就开始执行了啊，可以看到他执行了很长啊，执行了很长时间，期间的时候呢，他还打开了一个终端的界面啊，一个长方形的一个界面，然后有两个方块，就像俄罗斯方块的小游戏的一样，然后没多大一会他自己就给关掉了，然后我们可以看到他写这些东西，他中间有提示说写完了，后来封装又出了一些问题，然后最后呢？呃，在这里啊，他卡在这里了啊，到这一步就卡住了，从大概四十多分钟的时候就卡住了，现在已经一个小时十分钟过去了，没有任何就就卡死在这了。他在桌面呢创建了一个文件夹，我们来看一下啊，这里面有这四个文件，但是最终的，呃，这个成品他也没有做出来啊，我们现在就不让他在这卡着了，直接给他关掉啊。挑战失败，我们接下来看看第四个任务他能不能完成。
30戚向北
01:30
发现生活中，工作中的需求，利用AI把他们变成程序 #AI编程入门 #qwen #人工智能 #编程入门 #大熊老师少儿编程
11大熊老师教你学编程
01:48
OpenAI的Codex现在能免费本地运行开源模型了本地免费跑AI代码助手？Codex Ollama正式支持开源模型，Gemma 4、Qwen 3.6等模型本地托管，零成本使用AI编码能力。#Codex #ai #ai工具 #人工智能 #Ollama
查看AI文稿
AI文稿
ai 编程能完全免费在本地运行了， codex 和奥莱曼正式打通，开源模型直接接进来。之前想用 ai 写代码，要么掏钱买 api，要么依赖云服务，每个月动辄几十上百美元，小团队和个人根本扛不住，现在所有成本归零。 olym 这个工具能让用户在自己的电脑里跑开源模型。 codex 是 open ai 的 ai 编程助手，能写代码、改代码、审核代码，两者一组合，本地就能用上 jam 四 qman、三点六这些模型一分钱不用花，全靠自己的显卡和内存。具体怎么用，三条路走通。第一，装好 codex 和欧拉玛，两个软件都免费。第二，选一个适合自己电脑的模型， gamer 四的四 b 参数版本就够用，去 camera ai 网站输入显卡型号和内存，网站会推荐能跑的模型。第三，在命令行里敲一行命令，模型就下载到本地了，大概九点六 g 币，等几分钟就装好，然后启动 codex，选择这个本地模型。所有 codex 的功能全都能用，写代码、改页面、调逻辑，这意味着以后写代码、建网站、调样式都不用靠云服务，自己电脑就能跑数据不出门，速度还快，相当于把 ai 编程的门槛从月费降到了零。打开 codex，选本地模型开工。有人用 jma 四四 b 模型生成一个 cs 落地页，复制代码到浏览器打开页面完整布局干净。一个四 b 参数的本地模型就完成了以前需要付费 a p i 才能做的事。
142AI趋势解码
02:21
amd显卡7900xtx跑qwen27b mtp模型测试十多次调试达到最快速度
遗憾turbo压显存仍不支持#AI大模型#qwen27b
查看AI文稿
AI文稿
最近拉玛支持 m t p 了，我测试了三个加载模型的软件，就这个拉玛比较好一点，其他的欧拉玛呀，还有这个 u m studio，感觉都很一般呢，特别是给那些工具代理的话就代理不成功。再说一下它这个加速效果吧，它是二十七 b 的三点六，二十七 b 的可以达到五十六 t 每秒，这显卡是二十四 g 的， amd 的显卡就这个七九零零叉 t 叉内存是三十二 g，虽然它是五十 g，但它平均速度的话可能就是三十 t。也没有，因为你平时可能会去问一些比较抽象的问题啊，比如外星有没有文明啊，他就会加载速度很慢，大概就是三十 t 每秒，然后我自己在家里测试了十多次吧。有一个比较好的一个优化的思路，比如 q 四的模型最大能达到五十八 t，这个是二十七笔，我平时就是修改一下代码，用这个二十七 b 的模型是比较好的，不过你是用那个 a 三 b 就就就可能会出错，但凡是出一点错都不行，所以说得用这种稠密模型。嗯，你们可以照抄，当然也可以自己去修改。我是建议自己去想这个参数配置，因为很可能会超过我也说不定呢。用那个 q 五的话，它是三十八 t，最高只能到三十八 t，也是跑一些代码才能打动，不过问抽象问题的话就会衰竭很多。我最近还试了一个，就是 turbo turbo 这样说，嗯，然后自己去翻译的样子，但是没有成功嘛？然后，然后，然后问这个 ai，问了好久，嗯，都没有成功。我是怀疑就是不支持 a p m d a p m d 它这个功能软件出来的话还是要还是要慢一点，这是一个下载的一个 java 的一个文文件，然后把它翻译出来了，可惜测试了很多遍不成功啊，目前就是只能用 mtp 加速。
7Sun_^
24:27
Mac 本地跑 Qwen3.6-27B，我实测了 4 种方案这期视频我系统测试了 Qwen3.6-27B 在 Mac 上的本地运行体验。
我一共体验了 4 种方式：Qwen Chat 官网版本、Unsloth 的 UD-Q5 GGUF、Unsloth MLX 6bit 搭配 DFlash，以及最后速度最让我满意的 MTPLX 4bit 方案。
这次重点不是只看跑分，而是看它在真实任务里的表现：网页复刻、交通仿真、3D 魔尺、礼物包装助手、仓库分拣系统、体素艺术场景、写作、推理和幻觉识别。整体来看，Qwen3.6-27B 的编码和创作能力确实很强，尤其在 MTPLX 上，本地速度可以跑到 40 tok/s 以上，对 Mac 用户来说体验提升非常明显。
当然，它也不是完美的。比如复杂 3D 场景会出现穿模、逻辑不稳定、动效不准确等问题；MTPLX 当前也不支持图像识别。但如果你想在 Mac 上本地运行一个速度快、质量不错、适合 AI 编程和日常任务的 27B 模型，Qwen3.6-27B 很值得尝试。
本期会聊到：
- Qwen3.6-27B 为什么值得关注
- Mac 上运行 27B 稠密模型的真实速度
- GGUF、MLX、DFlash、MTPLX 的体验差异
- MTPLX 的安装和 Open WebUI 接入体验
- 4bit 模型在编码、写作和推理任务中的表现
- 我目前更推荐哪一种本地运行方案
如果你也在 Mac 上折腾本地大模型、AI 编程模型或 Qwen 系列模型，这期可以作为一个实际体验参考。
时间戳
00:00 开场：为什么这期要测 Qwen3.6-27B
02:21 Mac 上运行 Qwen3.6-27B 的几种新方案
05:00 官网版本与 Unsloth GGUF
10:37 Unsloth MLX 6bit + DFlash
16:34 MTPLX 上手
20:50 写作、推理、幻觉识别测试
#Qwen #Qwen36 #Qwen3_6_27B #本地大模型 #Mac本地部署 #AI编程
查看AI文稿
AI文稿
大家好，我是 kitty，这期视频呢，准备了非常久啊，主要介绍一下千万三点六二十七币，我的实测情况，还有我在 mac 上通过三种不同的方式来运行它们出现的不同的结果。千万三点五二十七币呢，很多人就非常喜欢它， huntface 上也有很多关于它的不同的微调的版本，普遍认为它的性能是非常强的。那它升级到千万三点六二十七币之后，它是上个月发布的，定位是旗舰级的，可以在本地运行的一个智能体编程，关键看点是用二十七币的模型来挑战前代三百九十七币 moe 的旗舰模型。这次三点六二十七 b 呢，特别强调它的编码能力，无论是 swbench verified 还是 swbench pro， tomono bench，二点零等等，都是要比前一代啊，要那么大的规模的模型呢，是要更强的。它在文档理解啊， vqa 视频理解视觉智能体方面也是非常厉害。目前呢，我们呃最简单使用它的方式呢，就是在千问 studio 上面去体验它，官网上部署的这个版本是我们能体验到的最好的。我呢在呃上个月体验了一下它，一开始我用的是一个动态量化 q 五的啊， on slow 出品的 g g f 格式的，当时我体验下来它的生成速度是十八 talk 每秒在运行它的时候就会有呼啦呼啦的声音。 mac 端和 windows 端不同啊， windows 的话很多用户通过三零九零，四零九零都可以很好地去运行千万三点六二十七笔模型，而且速度还是挺快的。但是 mac 电脑上运行这样的一个 dance 模型的时候啊，一方面速度会普遍比较慢，第二是在 mac 上运行啊，千万三点六二十七 b 真的是有太多太多的选择了，现在就有不同的后端。之前我有介绍 lm studio， alama onslos studio，那这些已经算是旧的了。现在呢，比较新的有 omlx，有 deflash m l x，还有我今天要重点介绍的 m t p l x。如果大家习惯用 o l m x 的话，那可以关注它啊。开发版本最近呢，是做了很多优化。昂尔斯呢，它最近也推出了实验性的 m t p 千万三点六昂尔斯的啊， g g u f 模型。我尝试了昂尔斯推出来的六比特 m l x，然后再加上 deflash，当时的生成速度是二十二 to 可每秒。而我换成 m t p l s 之后呢，斯比特的模型生成速度是翻了一倍，这个呢，就有了一个非常大的提升。而且即使是斯比特，它的质量也是不错。我在这里使用的是它对应的一个呃， speed 模型，这里对应的就是斯比特的模型。如果你想要更高质量的，那你可以下载作者最新发布的关于二十七 b 的高质量的模型。这名开发者 ivan 呢，他是做了非常多的关于二十七 b 的分享，比如说这里呢，他用到了 d flash m l x 搭配 zlab 的 drop。他认为呢，初步测试看， d flash 明显要比单独的 mtp 更快，但在质量方面，他观察到呢，有所退化。他也分享了测试 m t p l x 最新的零点三点五的版本的体验。那，嗯，他的体验里呢，五分三十秒内取得了百分之九十三点三的正确率是在一个数学基础测试上面测试的，在他看来 m t p l x 的输出质量还是不错的。还有另外一个机构呢，嗯， atomic chat，他呢在朗姆 c p p 上为千万实现了 m t p，大家可以看一下。为什么说这些事情花了很长时间，就是我在接收这些不同的啊方法，然后再去尝试，所以这中间的话是花了挺长时间的。我们来看这位博主呢，他就是用我刚刚介绍的 m t p l s。然后斯比特做出了一个非常丰富的游戏，这里的这个元游戏元素是非常多的，我们会看到有非常多的建筑，还有小车，还有这样的一个广场，呃，树木，道路，还有这样很大的一个广告牌，大概率不是一次迭代去生成的。那这应该是健身房的一个场景，电影院场景，教师场景都是非常不错的。现在就给大家分享一下我通过四个不同的渠道来使用千万三点六二七 b 啊，它们的一些效果。现在看千万官网上的这是千夫拉船啊，这个船的话不知道为什么会从这个啊山体里啊出来，感觉逻辑上是有点问题，我鼠标指的这部分的话，感觉这里绚烂还是有点问题的。缩小来看其他场景里的啊，植物有部分是飘在空中的，所以他在这个任务上做的是一般。接着我将这张图发给二十七 b，让他复刻一下，他复刻的这个页面还是非常不错的，背景的话我们看到因为现在是显示十六点多钟晚下午，所以他已经切换成夜间模式了。云朵的话不是特别像我一开始发给他的云朵样式，这是让他做的一个十字路口交通仿真，那我们会看到呃，这样的线柱呢，直接放在了道路上，所以是刚刚出现了一个穿模的现象。还有这个啊，车的这个方向啊，稍微有点问题。此外的话，我觉得他这个道路啊，画的还是有非常多的细节的，左边的控制面板和右边的实时统计数据维度也是非常多，说明他思考还是非常充分的。再看他做的三 d 模尺模拟器，当我选择啊预设造型，先是球形，那它生成的不是球形的样子，当我点击不同的关节的时候，那我可以点击进行一个切换啊，这里也是出现了一个 bug。再看它生成的礼物包装智能助手，当我选中长方体，再点击一下智能分析包装方案。左侧我们会看到呢，他这里啊，这个预览的话是不对的，因为上方明确是一个长方体，而他这里预览的还是立方体，那他的造型做的还不错，我们可以看到有这样一个蝴蝶结，但是整个啊礼物一般来说不会有那么多不同的画面。右侧呢，他有一个推荐搭配的丝带，这个切换是 ok 的，好在下方这样的一个包装纸图案呢，他变成空白了，所以也是有问题。他在右侧，嗯，比较有意思的是，他还给到了一个包装盒尺寸，也就是说不仅是有包装纸，然后还有包装盒，那我认为这一点是它做的比较好的。现在呢，来看一下我通过运行 ansolo 出的啊， u d q 五 g u f 的二十七匹模型，它的表现如何？这是它做的仓库分拣仿真系统，那我们可以看到目前整个画面 ui 还是不错的。这个机械臂的话啊，细节方面是有比较大的问题，而且这个球的话直接穿模穿过去了也看不到机械臂是怎么把物体给提取出来的。这是它生成的十字路口啊，这个十字路口的仿真效果就是要差很多了，而这是他做的礼物包装智能助手，我们会看到他做的这个三 d 预览效果还可以，但是切换到圆柱体就没有了，那我选择一个智能推荐包装方案，下方展开图，那这里也丢失了它，这里非常好呢，有一个包装步骤指南，右侧四代方案这里选择啊，是能实时在左边反应出来的，在下方包装纸点击没有反应整个页面啊，其实他还是做的非常美观的，但是功能方面有很多缺失。这是二十七 p 生成的马卡龙花园，我给他的要求是希望他生成的是花朵，那我们可以看到啊，这里呢啊不是特别像花朵，但我对他生成的内容还是满意的，因为有一些比他啊大的闭园模型啊，他连这样的场景嗯都做不出来，所以我个人觉得二十七 b 在这方面啊回答的还不错。唯一的问题呢，就是这个场景在我电脑上是处理了，花了啊非常长的时间，这是他生成的膜尺，那这个膜尺质量的话是要比刚刚我们看到在官网上啊用的二十七 b 效果是要差的。那我选一个预设造型，同样他这里啊不能展示出球形也是有问题。再看他生成的啊题弧，骑自行车的这样的一个体述场景啊，会有一些闪烁的画面，然后动感的画面的话，自行车没有动起来，而自行车下方呢，是有一个道路的设计啊。那我觉得二十七 b 在这里还是有思考的，还是思考的不错。再看他生成的纤夫拉船，这个纤夫拉船效果在我看来其实已经很不错了，我们会看到绳子和纤夫黏在一起，但是呢，船再往前走的时候，哎，这个绳子又停在原地了。再来看一下我使用奥斯洛斯出品的六比特 m l s 啊，二十七笔模型搭配 d flash 在我本地生成了一些情况，这是我让他做的一个啊理发应用。最后他生成的页面里面呢，有一些乱码，整体页面设计还行，但是错误也是比较多的。嗯，所以在这个问题上，我觉得它做的还算是中规中矩。当时我的体验呢，就是速度比较慢，所以没有再做更多关于它的体验。不过呢，可以给大家分享一下，我是怎么把它用在啊我电脑上的啊，我当时使用它的时候呢，对 flash 也可以在 mac 上运行吗？然后他告诉我是可以运行的，并且当时呢，官方的 draft 模型已经上线了，下方给出使用方法。后来我就看到他推荐有一个 d flash m l x，我说让他帮我找一下，并且将我的电脑内存信息发给他，问他是否可以运行 d flash，他告诉我是可以的。在之后呢，我就将这样的一个帖子链接发给 grok，我说根据这个帖子，那千万三点五二十七 b m l x 会不会被影响？因为它是 dance 模型？这里呢，其实是我写错了，应该是千万三点六二十七 b。在之后我就问他，千万三点六二十七 b 标准的 m l x 量化版本是不是已经没有这个问题？他告诉我， m l x 社区啊，出的还是有这个问题。这是四月份我提问他的。目前呢， m l x 社区里关于这块版本更新还是挺多的，所以大家可以以新的版本信息为据。在之后我就问他， onslush u d m l s 动态混合精度版是否可以搭配 deflash 在我的 mac 上使用？他说，可以。那时候我才知道 onslush 啊，它本身有也有出 m l s 格式的。在之后呢，我就将这样的一个图片发给他，我问他，呃，我该选哪一个？他推荐我用，呃， u d m l x 六比特。在之后我就问他， d flash m l x 一定要装吗？然后 d flash 的通俗工作原理是什么？ grog 呢？就告诉我啊， d flash m l x 是专门为苹果芯片开发的原声 m l x 端口，官方 z lab 啊， d flash 虽然也支持 m l x，但社区的 d flash m l x 呢？啊，会更成熟。接着他介绍了 deflash 的工作原理。 deflash 呢，当时有个问题，就是他没办法去选择啊模型的温度，而千万三点六二十七 b 在官方的指导里呢？呃，你写作用的温度和编码用的温度啊，这是应该是不同的比较好。再接着他告诉我啊， drop 然后 zlab 出的这是一个小模型。再接着我就问他， deflash 有一个接受率不是百分百，使用 deflash 会影响生成效率吗？他也告诉了我一下。再接着我问他 deflash 会影响生成结果吗？并且问他 onslush 退出来的 m x 的版本和呃， m x 社区退出来的版本区别啊。我们可以看一下 rock 的一个回复，在这里用 rock 主要呢，一是它搜索会搜索非常多的结果，而且它的生成速度是非常快的。呃，我是比较喜欢用它来查一些比较实时性的内容，而且还有个非常重要的情况呢，是是在推特上面的话，呃它的呃用户社区里的用户分享还是非常多的，信息是第一手的。再接着我就问他 dflash 会占用更多资源吗？ grog 回复说会占用少量资源。那以上呃大部分情况我已经了解，之后我就让 grog 呢帮我做一个从零到一的流程，告诉我如何在本地去使用 onslos 啊， m a x 六比特的，而且呢要可以接入到其他的 app 里。之后 grog 就给到我这样的一个回复了，他又提到 open i 的 best url，内容还是非常详细的。在之后呢，我让它改成 u v 来做这样的一个管理。基本上到了这里呢，我就可以将啊整个它的回复这段回复啊发给 ai agent，无论你是用 codex 或者是 cloud code，让它根据这些信息呢快速在你本地进行一个安装。那在安装好之后运行呢？我是想把它接入到 open web ui 里，当时有遇到呃揭露的时候一些响应问题，那也很快让 ai agent 来帮我解决了。我还问他 mac 上使用 deflash 呢有什么坏处？ deflash 最早是什么时候推出来的？有误不稳定的情况。 brock 呢也告诉我了，因为这些仓库呢每天都在变化，所以大家要想知道最新的情况的话，还是最好让 ai 呢啊，实时帮你去答疑，包括 d flash， m l x 的版本呢啊，当时 grok 他帮我去查到了多个，我还问他，呃，既然有多个，我选哪个比较好？并且呢我还问他是否需要用到 o m l x 有什么好处和坏处，他告诉我说不需要。那 o m l x 呢，现在也是有很多改进的，所以大家也要以最新的为准。最后呢，就介绍一下，我在 mac 上，最后我使用 m t p l x 获取，我认为是结果是最快，然后结果相对来说也是不错的一个方式。那 m t p l x 呢？它的安装还是比较简单的，先用 blue install 一下，然后呢，通过 m t p l x start，它会有也它是有一个交互命令，它会提示你用什么模型。呃，如果说你是第一次使用的话，可以用它的 speed 模型，也就是默认的选中之后会进行安装。再之后呢，它会让你选择啊，用什么模式啊，也推荐按照默认的模式来选。再接着呢，它会提示你可以在 web c o i 啊 pi 或 open code 等渠道进行一个对话，那我选择它的 web ui 啊，打开之后我给他一个提问，我问他什么模型，他回复我，然后我们可以看到这样的一个输出速度是四十三点六，投看每秒，左侧呢，可以调整模型的参数，所以如果你在编码的话用零点六。而在做一般任务的时候呢，千万官方建议调整是把温度调到一。在本店运行好之后呢，我就直接打开 open web ui 了，不需要额外的设置，它会自动识别出 m t p l s 键。问，三十六 b 二十七 b optimized speed 模型，也就是我刚刚提到的 m t p l s 默认的模型，它目前呢也是仓库下载非常多的，它还有一个更高质量的版本，大家可以去试一下，现在就看一下 m t p l x 呃，斯比特版本它的输出效果。这是兵马俑街舞，这个街舞呢是分了好几个不同的章节，那我觉得这在一个小型模型上啊，出现了一个非常不错的效果，这是它生成的礼物包装智能助手，左侧我点击不同的礼物，右侧会出现对应的啊礼物预览，整体它界面做的还是非常不错的，在下方有个参数的场合，点击不同场场合呢，右侧会有不同的包装纸，而且这个三 d 预览效果的时候啊，包装盒和可包装呢有点分离。这是他生成的一个绵羊理发店啊，这个绵羊理发店对他来说，我觉得他生成质量真挺不错的，小羊头上有个蝴蝶夹，然后我们也会看到一个理发师，然后给一个绵羊理发啊，他的围布格子型做的也是比较美观，而且这个椅子效果感觉做的也是不错啊，深红色的一个沙发，整个画面里多个物体位置的摆放，物体的细节我认为做的都是相当不错，稍微有点遗憾的是，他的窗户跟门他是重合在一起了，再让他做一个体数艺术的题。胡骑自行车，那我们可以看到这个自行车在这里就动了起来，虽然说动的这个啊方式不对，没有向前骑啊，而更像是一个摩天轮了，下方的道路我们还是能清晰看到的。整体这个画面里呢，内容也比较多啊，可以看出这个版本二十七 b 做的还是不错的。再看它生成的纤夫拉船，那我们看到这里的话，绳子啊变成了像布一样的，那船的话细节也不是特别好，但是 m t p l x 呢，现在也有个问题呢，就是它不支持图像识别，再看它做的仓库分拣系统，那我们可以看到啊，物体是突然之间跑到这个机械臂上面的，所以这里逻辑做的还是有很大问题，而且那箱子的位置摆放也有问题，直接放在了传送带上，但总体而言已经是要比我想象中是要好很多。这记住，这只是一个斯比特，在我本地只能跑到四十 to 肯每秒的啊，一个模型质量相当 ok 了。除了编码任务，我也将一些其他任务发给他，让他处理，比如说现在是让他做一个啊写作的任务，写一个不超过三百字的微型悬疑故事，大家可以暂停来看一下这个故事，觉得怎么样？那我觉得还是不错的，再让他做一个推理题，假设月收入七千，生活在一线城市，没有存款，想在四年内凑够六十万啊，是给出一个计划，在这里他思考用十一分钟，最终给到我回复，它的回复内容还是非常非常多的。那我这里呢，是让呃 gbt 五点五 thinking 来做了一个打分，它打分是打了五十多分，同样的问题，我也让 gbt 五点五 pro 来做了一下啊，最终五点五 cking 给五点五 pro 的，结果呢，打分是打了啊，八十二分。所以我们可以看出这样的一个二十七 b 模型和 gbt 的顶尖模型是有差距的推理方面。但在我看来，其实啊，也是很不错了。让他介绍一下唐代诗人李白在九八年纽约马拉松比赛中获得亚军的具体经历。模型啊，思考了一下，告诉我有一个不可协调的历史时间矛盾。再给他测试了一些其他小题目，比如说让二十七 b 呢，把他很难过，写成一句有画面感的话，不超过三十字。他回复的是他蜷在墙角，把脸埋进地弯，肩膀无声的起伏。我觉得他在这里回答的质量还是很不错的。咖啡店新品广告语呢，心斗出背，苦甜有分寸，那可能感觉一般。再接着是让他写一段一百字以内的小故事，结尾必须反转，但不能像段子。二十七 b 呢，写道，他每晚都坐在椅子右端静候路口。直到今天，他终于起身，指尖触到刚铺好的白砖。原来他等的不是贵人，是智讨政公的盲道。嗯，有意思，但是可能不是那么有意思。我感觉之后呢，再让他写一个文案，表达终于辞职了，要求洒脱，不抱怨。二十七笔写道，交还钥匙，晴空日程不回头，谢幕指向只向前迎风。原来转身也可以这么亲。还不错，挺好的，至少不是 a r v 很浓的话。以上呢，就是今天介绍关于间问三点六二二七 b 的所有内容。总结一下，我是在四个渠道体验过。嗯，二二七 b 先是观望啊，然后呢，是 onslos 推出来的呃 u d 五比特 g g f 后来又用 onslos 推出来的 m l s 六比特搭配 d flash，最后呢是用 m t p l s 来生成的 m t p l s。啊，那目前呢，在我看来是比较满意的，在我电脑上，呃，速度呢？相对其他方式速度快了近一倍啊，遗憾呢，就是这个模型呢，现在没有视觉能力。这个视频里对二十七 b 的编码能力是有做多个体验。那二十七 b 真的挺强的，写作方面的话，简单体验了一下也很不错，非常推荐大家在本地去使用它。
28kate人不错
18:40
Qwen3 6 27B对决MTP版 RT 在RTX 3090上同台竞技普通版Qwen3 6 27B对战MTP版本通过熔岩灯迷你水族箱等相同编程任务实测对比两者的生成速度创意与指令遵循能力
查看AI文稿
AI文稿
女士们，先生们，我们再次回来，带来另一场对决。这次我们将检验 qw 三点六二十七 b 的 mtp 版本。我们会让它与标准的 qw 三点六二十七 b 同场。 gwada g 两者都来自 onslos。其实这就是同一个二十七 b 模型的正面较量，只不过其中一个是 mtp 版本。 mtp 代表多令牌预测，其理念是不同于传统美次只预测一个令牌的方式。 mtp 版本能在后端支持时帮助提前预测多个令牌，从而加速生成过程。所以这并非聪明模型对笨拙模型的较量。它们是两个同一家族的模型，是同一个模型，但其中一个版本具有额外的速度优先解码设置。而我正在观察的是，显然 m t p 版本会完成的更快，但它的质量是否相同？它能否同样出色地遵循指令并生成高质量的代码？它能行吗？我想知道质量是否一样，所以我们会像往常一样进行三次提示。嗯，但我看到有些评论里的人说我应该尝试些更难的内容，所以我们先从简单的开始。第二个会稍微难一点，第三个会更深入并附带更多指令。我们将用三种不同的方式来测试它。现在我们这里有来自 hugging face 的 mtp 模型和普通模型。挺直接的，我们在一个蓝莓 k p 后端上运行两个 lama swap 十力，它是两块三零九零。好吧，一个是 t i 普通的三零九零稍微超频了一点。为了匹配带宽速度，我们在这方面应该差不多。这里有两个 lama swaps 已加载好，准备就绪。你可以看到我头顶上方显示 m t p 模型似乎占用更多。 v r m。这完全没问题，每个都有七十 k 接触，但根本用不到那些，不过有空间就够了。这两个都是量化五 xl，所以它们都是来自 ansalt 的完全相同的模型。除了其中一个使用了 mtp 版本外，其他都一样。所以让我们开始输入第一个提示词吧。我们使用的是开源代码，创建一个用于交互式熔岩灯的单一 html 文件。彩色的团块应当漂浮、合并、拉伸、分离并温和地响应鼠标操作，营造出放松流畅且视觉精致的体验。第一次就挺简单的好吧，看看他们能做什么。好吧，两个都完成了。从时间上看，表现其实挺不错的。标准模型用了两分二十五秒， m t p 模型用了一分钟二十秒。好，让我们看看每秒生成的 token 数。这是 m t p 模型四十四，我们得到的是三十二。好的，在标准模型上也不错，有点提升。首先测试的是标准 q w n 三点六二十七 b，效果不错，我以前还没做过熔岩灯测试。这很有趣。感觉不错，看起来不错。好了，让我们看看 m t p 版本的表现如何啊？鼠标没有任何反应。把你的鼠标移到灯附近。好吧，我就是我，什么都没得到。这很有趣，我本以为会看到类似的输出效果同样出色，但结果却卡住了，对鼠标毫无反应。好的，嗯，我们把提上扔给它吧。好，这里的第二个提示是创建一个单独的 html 文件，来实现一个迷你水族箱模拟器。鱼应该具有不同的游动行为，植物应随波摇曳，气泡应向上浮动。我应该能够喂食鱼类，点击玻璃并改变水的颜色和主题，让它视觉上精致且互动性强。好吧，让我们看看这次 m t p 能否表现得更好一点。走，现在进宫参考 m p p 版本。我们确实有正确的参数配置可以在拉玛 c p p 中运行，所以它应该能和默认模型一样出色，只是更快一点。我希望第一回只是个意外，一次糟糕的尝试发生了，但我们会看看第二个展示了什么。好的，都完成了。 m t p 版本耗时三分十七秒，普通二十七 b 耗时四分五十六秒。好的，每秒令牌数 m t p 版本四十六点九，而标准版本普通那个是三十一点二。好，非常好。我们先看看 m t p 版本。行吧，效果不错，食物从上方掉落下来，鱼儿们都在抢食呢。那条小鱼真是个贪吃鬼。点击玻璃不错，效果和我点击它一样。这相当不错。很好，你可以在那里看到背景中有一些光束。好吧，它起作用了。谢天谢地，我刚才还担心了一下。好的，让我们试试。标准的二十七，看起来简直一模一样。好吧，当你点击它时，它会敲击玻璃并掉落一些食物。好的，当你点击时，与会互动。好更换主题。啊啊，加一堆鱼好好的，它起作用了，它行得通。好的，那么这两者有什么不同？这个有气泡。是这个做的吗？是啊，哥们，他们彼此完全一致，我不太确定。嗯，植物的摇曳效果在普通版上看起来稍微好一点，但他确实完成了本该做的事。一切看起来都很棒，效果很棒，感觉不错。那我点击时与会互动吗？是的，好的。哎，挺好。我认为 m t p 版本在内项测试中表现正常，与标准版不相上下。好的，我喜欢它，令人印象深刻。第一个测试让我有点害怕。好，我们继续看第三个。好的，第三个测试。在这里创建一个用于塔防游戏的单个 html 文件，敌人应沿路径移动，塔应可部署不同的攻击模式，波刺应逐渐变难，金钱应靠击杀获取。玩家应在波刺之间升级防御塔，让他可玩儿精致且视觉震撼。给他起个名字，啰嗦个不停。让你继续做那些事。他们一直想互相覆盖。好吧，我一直想做这个提示，但从未真正测试过。所以让我们看看他们都完成了 m t p 模型了。三分三十七秒，普通模型用了五分二十六秒。好的，看看那次运行的每秒陀刻数。 m t p 耗时为四十六点五八，而普通版的成绩是三十一点一二。好的，这个差距还算不错。好的，我们先看看普通模型，确定二十七比。好吧，我们怎么做？让我刷新一下。哇，好吧，我们看看。嘿嘿嘿，我想做这个已经有一段时间了。不错不错。好的，各种各样的敌人正从那边涌来，冰冻有效，狙击枪有效，基础攻击也有效。我们来玩个泼水吧。好吧，看看我们能不能输掉十一条命。好，瞧瞧游戏结束画面长啥样？我猜我不行。天呐，没错没错，获得升级了可出售增加伤害。哇哦，天呐，兄弟，这看起来不错。这其实是个很好玩的塔防游戏。这很酷，不错，拿走这一条命，看看他长啥样。这就对了。游戏结束，波次幸存敌人被击败，最终比分。酷，我喜欢他，我就坐这玩这个好，让我们看看 m t p 版本是否表现同样出色哦。 nice。好的好的，我们从哪开始？底部底部，我们猜一下。该死，我错了，再试一次。不错，第一眼我觉得这个更好。我想是的，让我再看看另一个，让我把它放上去。好啊，我觉得肯定达标了，可能更好。等等，我没那么多钱，给我点钱让我们看看升级是否有效。我要死了吗？是的。好吧，没关系，游戏结束画面很酷。反正能行就行。儿子，好了，让我看看能不能升级。无法取消选择好的，无法升级。很好，酷，范围范围增加了。好的。什么是毒药？我没钱，我挂了，不行。好吧，我要输了。好的，行，我就坐这玩一小时。那个我喜欢塔防游戏，看来进入第二句时可能有点问题。我看不到已放置的他，或者他无法被放置。他正在放置，但我看不见。我是说这是个简单的修法。好的，至于哪个更好我也不知道，我真的不知道他们做的是一回事，两者都能用，我分不清哪个更好，所以水平相当。甚至鱼缸也是我说吧，完全凭手。不过普通版鲤鱼缸里的植物看起来稍微好一点，但这只是你大概会再运行一次提示词，然后可能会得到更好的结果。我是说你看那些熔岩灯效果没那么好，但我敢打赌，如果我们再跑一次，它大概也能表现的很不错。所以我不会因那一次糟糕的尝试而否定它。所以仅凭这三项测试，我认为两者势均力敌。它相当接近。我不能否定。我在用二十七 b 时可能会选用 m t p，所以这就是我的看法。这大概是我第三次或第四次测试 m t p。至于比较，这是第一次，我说它完全跟得上，所以我印象深刻。这真是好东西。所以这就是 q 到面三点六，二十七 b m t p 的对决。如果你想查看我们刚才生成的代码，它们都将发布在 tokenizer net 上。我把所有东西都放上去了，包括提示词和生成的全部代码。你可以亲自试试或者复制这些提示词，并输入到你的模型中。今天就到这里，我们下期再见，再来一场正面交锋，感谢观看。
6声译看世界
00:59
Qwen3.7-Max 编程能力真的可以啊 Qwen3.7-max 这次编程能力相当不错, Code Arena (LMArena 测试项目) 中得分仅次于 Anthropic 几个模型, 于是我赶紧测了一波. 让 Qwen3.7-max 使用 Rust 写了个磁盘恢复软件.
实测效果很不错, 从头到尾没遇到过去那种卡编译的问题. 能很熟练的使用 Rust 的各种语法和特性.
这个磁盘恢复软件我设计了3层, 第一层是直接扫描已删除文件, 这个能达到100%的恢复率. 然后第二层是快速格式化 carve 模式, 即如果只是执行了快速格式化, 那么还是有概率迅速找回文件的. 第三层则是全盘扫描, 重建索引, 而且会在文件名称丢失的情况用 Qwen3.7-max 根据内容重建文件名称, 甚至尝试AI重建文件内容(会标记AI重建).
目前运行起来很流畅, 视频演示中用的就是 Qwen3.7-max 写的这个磁盘恢复软件做的.
稍后为大家带来 Qwen3.7-max 完整的性能测试, 敬请期待!
#qwen #阿里千问 #qwen37max #AIAgent
68Karminski
01:30
本地测试QW3.6编程任务表现-3/6#Qwen #LLM #Agent
查看AI文稿
AI文稿
现在我正在打开我存放评估不同 l l m 模型的测试任务的项目。我按难度分组，因此我们将从最简单的任务开始。这个任务是创建一个简单的网页应用程序，用于管理代办事项列表。它应该是一个基本的 html 页面，能够查看，添加和删除任务，以及将它们标记为已完成。好吧，模型开始思考了。在我们等待结果时，我将通过终端连接到台式机，并检查在活动使用下这个模型产生了怎样的复杂，所以忽略顶部图标。那个属于集成。 g p u 目前没有被使用。下方的图标显示了专用显卡上的赋载，也就是运行 quan 三点六的那一块。正如您所看到的，模型完全适应了显存，并且仍然有足够的空间用于大型上下文窗口。 g p u 得到了充分利用。真棒！现在让我检查一下 cpu 使用情况。好的，这里一切看起来也很好。内存和 cpu 几乎处于空闲状态，整个工作负债都在显卡上，正如它应该的那样完美。我不会展示完整的响应生成过程，因为可能会占用一些时间。我只会在最后提到花了多长时间。好了，快说，他已经完成了这个项目。响应生成和文件创建大约花了五分钟。好的，让让我检查一下文件。乍一看，一切看起来都很好，正如我要求的，所有代码都包含在一个文件中。好，但现在让我们测试一下代码是否真的有效。所以在浏览器中打开它效果不错，可以添加和删除任务。您还可以将任务标记为已完成，似乎所有功能都正常工作。
11耍耍Al
12:37
[代码宇宙016] 大模型：源码分析Qwen2.5VL 源码分析Qwen2.5VL视频抽帧模块（附加FFmpeg性能对比测试）#编程语言 #计算机 #软件开发 #大模型 #AI
19超周到的程序员
00:41
QwenPaw新增自然语言写代码Coding模式 QwenPaw发布v1.1.9版本，新增Tauri 2.x 桌面应用，适合新手小白，同时增加Coding模式、技能市场和统一访问控制。#Qwen#Ai工具 #开源项目 #coding
查看AI文稿
AI文稿
国产龙虾搞出颗粒模式，实现自然语言开发，这个是要搞出 c a、 c d 替换吗？最新发版太原国产龙虾千吻合一点一点九版本，这次更新增加了 terry 二里 x 桌面应用，支持 macos 和 windows，适合新手小白安装。增加了颗粒模式，在对话框中点击代码进入编程模式，可通过对话的方式来创建项目和完成项目代码的编辑，同时也支持从 get 或者本地导入项目。此外也新增了分枝功能和代码提交管理。技能方面，新增了技能市场功能，可以通过名称搜索技能，然后进行安装。频道功能，这里增加了统一访问控制和审批功能，通过设置用户黑白名单的方式加审批模式来进行访问控制。好了，这就是这次更新的主要功能了，咱们下次再会。
9QwenPaw开源俱乐部
01:27
本地测试QW3.6编程任务表现-2/6#Qwen #LLM #Agent
查看AI文稿
AI文稿
提醒你一下，这些模型之间的区别不仅在于参数，数量，还有他们的架构。这解释了这些结果。顺便提一下，在我开始实验模型之前，有一点重要的事情我想更详细的讨论一下。这涉及本地模型的一般情况。对我而言，本地模型并不是付费模型的完整替代品，我将他们视为付费模型的补充，适用于我需要处理较简单任务的情况，或者当我不希望我的数据离开我的计算机时。所以对我来说，问题不在于 quan 是否可以替代 opus 或 jamna。真正的问题更像是这样的，我可以给 quan 三点六安排多复杂的任务，并且仍然可以自信地认为它会成功处理。为了理解这个模型多么符合我的需求，我准备了几个不同难度级别的测试任务。从非常简单的任务开始，模型应该能够轻松处理，一直到相当具有挑战性的任务。我们可以看到这个模型的真正极限。顺便说一下，我现在的主要电脑是 macbook，这不是运行本地 l l m 模型的最佳选择。因此，我将在我的台式电脑上运行 quan 三点六，并通过本地网络从 macbook 访问它。在屏幕上，您可以看到那台台式机的规格。如果您决定自行运行 quan 三点六，需特别留意显卡的显存，尽量选择拥有更多显存的显卡，以确保系统的流畅运行。这是运行 l l m 模型时最重要的因素。因此，我正在打开 set editor，这就是我将进行今天实验的地方。我已经配置好连接到台式电脑工作。
2耍耍Al
02:22
说说阿里千问编程全球第二（2） #ai你又偷偷进步了说说阿里千问编程全球第二（2）
Qwen3.6-Plus的工作方式就像一个不知疲倦、响应迅速的全栈工程师。
你只需要像跟一个产品经理或程序员聊天一样，不断提出和修改你的需求，AI就会在后台自动完成所有复杂的开发工作。
一、开发者实测：
仅用10分钟左右，就与Qwen3.6-Plus通过对话协作，做出了一款功能完整的“小红书图文生成器”。这个工具不仅能根据一句话生成小红书风格的文案，还能自动配上风格匹配的图片。
类似的，还有开发者在8分钟内，指挥AI为自己公司生成了一个产品官网。
AI开发带来极致效率和开发范式的颠覆，把过去需要几天的想法→设计→开发→调试的漫长周期，压缩到了以分钟计的单位，让“即时开发”成为可能。
二、Qwen3.6-Plus“理解视频内容”
1.Qwen3.6-Plus（编程智能体）：支持长视频推理
具备视频理解能力，它的多模态推理能力包括：
•长视频推理：能够处理和分析较长的视频内容。
•物理世界视觉分析：结合跨模态信息，解决复杂的现实世界问题。
•100万token上下文窗口：可一次性处理海量视频数据。
•Qwen3.6-Plus的定位是编程智能体，它的视频理解能力主要是为了辅助编程任务——比如根据屏幕录制、产品演示视频来理解需求并生成代码。不是专门为“看视频找笑点”设计的。
2.Qwen3.5-Omni（全模态模型）：视频理解能力更强
•视频输入：最长1小时720P视频，一次性处理。
•音频输入：最长10+小时音频。
•细粒度描述：可生成带时间戳的结构化、剧本级描述——人物关系、对话逻辑、情绪起伏都能拆解。
•评测成绩：在215项音视频理解任务中取得SOTA（最佳表现），超越Gemini-3.1 Pro。
3.功能亮点：
•音视频Vibe Coding：打开摄像头，对着草图口述需求，模型就能直接生成APP、网页、游戏等产品代码。
•自动章节切片与时间戳标注：将繁琐的视频后期梳理缩短至秒级。
•实时交互：端到端延迟1-2秒，支持语义打断。
Qwen3.6-Plus：支持长视频推理，主要用于编程辅助、根据视频生成代码。
Qwen3.5-Omni：深度音视频理解，剧本级描述，主要用于视频分析、内容审核、多模态交互。
部分内容由AI生成，仅供参考，请仔细甄别。#ai助手 #阿里#千问#AI
查看AI文稿
AI文稿
叔叔阿里千万编程全球第二二千万三点六 plus 的工作方式就像一个不知疲倦、响应迅速的全站工程师，你只需要像跟一个产品经理或程序员聊天一样，不断提出和修改你的需求，一爱就会在后台自动完成所有复杂的开发工作。一、开发者实测，仅用十分钟左右，就与 chris 三点六 plus 通过对话写作，做出了一款功能完整的小红书图文生成器。这个工具不仅能根据一句话生成小红书风格的文案，还能自动配上风格匹配的图片。类似的还有，开发者在八分钟内只会为自己公司生成了一个产品官网，给开发带来极致效率和开发范式的颠覆，把过去需要几天的想法、设计、开发、调试的漫长周期压缩到了以分钟计的单位，让及时开发成为可能。二、 chris 三点六 plus 理解视频内容一、 chris 三点六 plus 编程智能体支持长视频推理，具备视频理解能力。它的多模态推理能力包括长视频推理，能够处理和分析较长的视频内容。物理世界视觉分析结合跨模态信息，解决复杂的现实世界问题。一、百万 tocan 上下文窗口，可一次性处理海量视频数据。 chris 三点六 twos 的定位是编程智能体，他的视频理解能力主要是为了辅助编程任务，比如根据屏幕录制产品演示视频来理解需求并生成代码，不是专门为看视频找笑点设计的。二、参问三点五毫米全模态模型，视频理解能力更强，视频输入最长一小时七百二十 p 视频，一次性处理音频输入最长十小时音频细力度描述，可生成待时间出的结构化剧本及描述，人物关系、对话逻辑、情绪起伏都能拆解。评测成绩，在二百一十五项音视频理解任务中取得搜查最佳表现，超越 jimmy。三点一破三功能亮点，音视频发扣顶，打开摄像头，对着草图口述需求模型，就能直接生成 app、网页、游戏等产品代码。自动章节切片与时间戳标注，将繁琐的视频后期梳理缩短至秒击，实时交互端到端延迟一到两秒，支持语义打断禅文。三点六 plus 支持长视频推理，主要用于编程辅助，根据视频生成代码沉稳。三点五奥尼深度因视频理解剧本及描述，主要用于视频分析、内容审核，多模态交互，部分内容由 ai 生成，仅供参考，请仔细甄别。
12高山流水

热门推荐

热门分类