国产最强编程模型阿里这次放大招了!奎恩三点六 plus 号称捅破了国产大模型的天花板,它到底强在哪?咱们马上揭晓!先看两个硬核指标,一照字节上下纹和自测迭代。啥意思? 就是他能记住超长的需求,还能自己琢磨怎么干怎么干好,全程给自己挑策优化。这不就是传说中的学霸加劳模吗?更绝的是 vibe coding, 简单说就是你给个大概想法,他就能给你变出个活来。 我们内部实测,让它生成一个带动态飘雪的三 d 雪山网页,几秒钟搞定。再让它做个 ai 资讯日历网站,两分钟功能齐全,界面还贼好看,这速度和质量据说比 cloud 还猛! 这编程能力是不是直接 next level 了?光说好不行,得看成绩单。权威评测里 q 问三六 plus 表现已经非常接近全球顶尖的科二的系列,甚至在某些项目上还反超了。 这就好比考试,别人家孩子考九十八分,咱家孩子直接考九十九分,而且是用更少的复习时间 提前体验的。同学们也反馈,宽的速度和生成效果比科二的还要丝滑。有硬核玩家还做了压力测试,在五个复杂的仓库场景下跑了一遍,结论是这模型真靠谱,不仅快,还更精确,更深入。 而且他还特别会跟各种 a 帧的框架打交道,比如 open core, 配合起来效率更高,这实力杠杠的。 咱们再来看看它的魔法棒 yippo 扣顶到底有多灵,只需要一句话,指令它就能变出花样。让做个 ai 资讯日历,两分钟搞定, 让画个三 d 雪山,雪花飘落,美滋滋。我想玩点萌的虚拟宠物养成网页,喂食玩耍都行,甚至一个美食主题的消消乐小游戏,核心玩法、视觉、 ui 全都有。 这还不算完,它还能看懂视频,给你拆解脚本,还能根据手绘图帮你复刻网页。更厉害的是,它还能通过命令行直接调用 api, 实现前端开发的自动化。这简直是把程序员从重复劳动中解放出来的神器啊! 总结一下, quan 三六 plus 最牛的地方在于,它用相对轻量的身材实现了对标甚至超越更大参数模型的高性能。这完美契合了阿里 ats 思路,高效、低成本、普惠。 它大幅降低了 ai 编程的门槛,让普通人也能轻松把想法变成现实。未来这个系列还会继续进化,旗舰版 quan 三点六 max 也快来了!
粉丝3811获赞4.3万

大家好,最近呢阿里呢发布了千万的新的版本啊,千万三点六 plus, 他 据上一次的三点五 plus 其实时间并不很长,这个迭代速度是非常快的,那这个模型据说在编程能力上有很大的提升,所以呢我就准备了四个场景来测试一下他这个前端的编程能力啊。我们来看一下他这个介绍啊, 这边也是特别强调了在智能体的编程能力,无论是前端网页开发还是复杂代码的这个仓库级问题解析上,已经树立了一个业绩的标杆。 然后的话,他这边参数的话,我们可以看这几个编程相关的参数,都是跟 opus 四点五是非常接近的,而且是超过了国内的其他模型啊。 然后的话,他这个上下文是具有一百万这个上下文窗口,而且是多模态的,也就说可以识别图片啊,语音啊,视频之类的这种输入,所以从整体上看,在编程能力上比三点五 plus 是 有显著的提升。然后呢,我们来看一下他实际的测试效果, 那这边测试呢,我用的开发工具是这个阿里的 code, 然后它这边已经内置这个千万三点六 plus。 那 测试流程我们是还是先按照先做 plan 做计划,然后再执行,那对同一个需求呢?我们的对话不会超过五人,也就说有什么问题,五次对话之后如果没解决,我们就放弃了。 那以下的这个四个测试场景呢,是基于我个人的一个想法啊,并不代表权威,所以结果的话也是代表我自己个人。那么也受限于可能抠的这个工具的啊,这个限制啊,也并不代表说已经发挥了这个模型的全部的能力。那首先第一个是一个前端的测试,那这个测试是做一个这样的三人斗地主的小游戏, 那这个测试目的呢?是第一是看一下他写这个前端的逻辑的能力,会不会把这个斗地主这个规则给写错了。那第二就看一下他对这个斗地主这个游戏的界面设计的是不是很美观 啊?我们来看一下实际的效果,那这个就是他做出来的效果,然后我们可以看一下,那这界面上看是还不错,那我们随便点一点啊,那我们三带两张吧, ok, 呃,这个对家出牌我们是看不到的,所以这个体现在还是有点,我们是乱出啊,比如说我们可以 三个带两个不一样的牌看看啊,也能出出去,那说明它这个逻辑上是有问题的,那我们就啊不看了。那第二个呢,是做一个这种桌面软件,适配这种 mac 和 windows 的 一个 ai 编程工具, 然后的话可以打开这个 cloud code 或者 code s 这种终端命令啊。然后呢,我给了它一张图片来做参考,因为它是一个多模态的嘛,可以识别图片,那这边右边是,呃工作目录,那中间是我们的终端命令,行, 右边是这样 get 的 变更。那我们在使用 coco 的 编码来说,经常要开多个窗口,如果你使用系统默认的话,那开启起来是非常麻烦的,所以说市面上有一些这样的工具啊,来做这种事情,那我是简化了很多功能,让他来去做这个,看一下能不能做的出来,但是很遗憾是他这边经过我多次对话之后,仍然是启动不起来, 那后面启动起来也是一个黑屏,看不到任何东西,所以我就放弃了。那第三个呢?就做一个这种外卖点单的这种 app 啊, 那这个 app 的 话是包含了这种前端,也就是我们的这个 app 端,那也包含了一个后端,就是用 python 写的这个服务端,加上了这个 my circle, 那 主要的功能就是你可以登录,可以看菜单列表,然后可以加减,购物车呢,可以下单啊,我们来看一下它实际效果。 ok, 这边是它的登录界面,输入手机号,输入一个模拟的这个验证码,我们可以登录看一下,好进来了。呃,我觉得这个界面很一般啊。这个界面, 呃,这个也是加不了,购物车这个筛选,这个也加不了,这个也看不了,所以它这个这个还是有 bug 的 啊,这个还是有 bug, 测试不全,测试不全 我们也不管了。那最后一个呢,就是用 java 来做一个这样的优惠券与结算的这个系统啊。然后的话,这边的话是需要有做这种优惠叠加,因为如果你满足多种优惠的话,需要叠加,但有些优惠是不能叠加的。有一个这样复杂的计算逻辑, 那这边呢是要考虑边界,比如说冲突啊,顺序问题啊,先算哪个优惠啊?然后还要写单项测试来测这个关键的用力啊,我们看一下他输出的这个 java 的 代码啊,然后我也看了一下 啊,目前来说是非常不错的,他考虑了很多种情况啊,比如说他的分类满不满足,这个是在其他的这个啊,模型跑出来的例子里面啊,只有 jpt 系列考虑到了,就是这个,比如说你这个商品的这个分类是不参与活动的呢,是要把它过滤掉的, 但是很多模型其实都没考虑到,但是他考虑到了,所以说在在这个这,在这一方面我觉得他是有进步的。然后他这边测试用力也测试了 啊,所以说这个场景我觉得是 ok 的。 所以总的来看啊,就是千万三零六 plus 在 前端逻辑上我觉得是 a 加,因为刚刚试了,就是有一些很简单的这个游戏规则,它都不太行,而这边的话 u i 上面我觉得还行吧, s 吧,然后这个全站的话就是很一般, 那 java 的 话表现的不错,所以呢,整个总结下来优点就是它有一兆的上下文,但是扣的这个工具提供是两百个上下文,所以我还没有体现到整个一兆放开是什么样子的。 然后在这个复杂的 java 过程中,考虑的场景比较多,也是比较全,所以说在这方面是表现不错的。那缺点就是修复 bug 的 能力比较欠缺,也是容易兜兜转转,除非人为干预给出解决方向。 就比如说我们做的这个桌面软件,其实我已经给了他很多这种提示啊,但是还是没有把这个问题解决了。那第二个就是前端设计的能力欠缺啊, 就是它的这个 ui 展示方面还是不如,比如说 mini max 出的这个还不如这个。呃,小米的这个 vr, 上次做的这个斗地主的这个界面是非常不错的,总的来说是一款非常不错的模型,但是 整体的编码能力我觉得是不如这个 cloud opus, 然后也落于我们国内的其他家的这个最新的版本的这个模型啊,比如智普五点一啊, mini max 二点七啊,我觉得这个可能在我这些测试场景里面都比它们弱一些, 那可能就是我换一个编程工具,或者说我的提示词更加丰富一点,那可能效果会更好,这个就需要大家自己去测试了。 但是我觉得是一个啊,千万也算是向这个编程这方面已经在发力了,就是他们会提供更多编程方面的模型的这个进化,也希望他们就是能够做的更好。 ok, 本期视频就到这,希望这个视频对你有所帮助,祝你生活愉快。

最值得期待的开元大模型千万三点六二七币终于来了!我看了下官方文档,三点六二七币作为一款筹密模型,用仅二百七十亿的激活参数,不仅超越了比他总参数体量大十五倍的前代开元旗舰三点五三九七币, 更是在综合能力上全面追上,甚至超越了 oppo 四点五,要知道这可是半年前的最强王者,而且据说 oppo 四点五的体量达到了惊人的两万亿,参数比二七币大了将近七十五倍。 此外,我觉得值得一提的是,三点六二 gb 不 仅仍然具备与三点六三五 b 相同的 preserve thinking 功能来优化 agent 的 长任务,而且增加了视觉任务的思考模式,在空间智能和多模态推理能力方面均展现出了顶尖水平。 模型最大上下文二百五十六 k, 主流社区的各种量化版本也被大神们连夜做好了,我相信这款模型就是小尺寸高性能的巅峰之作,已经上手的兄弟可以来分享下它的真实表现。

a, 一 问三点六三五 b, 刚开源社区就已经搞出三条优化路线了。大家好,我是 ai 学习的老张,今天聊开问三点六三五 b 到 a 三 b 的 社区生态。 这个模型是猫易架构,参数三五 b, 每次只激活三 b, 性能很强,但显存占用不小。社区迅速搞出了三条优化路线。 第一条量化,三个团队分别出了 a、 w、 q 和 nv f p 四的四 d 的 量化版。有网友实测,两张四零六零就能跑出八十三 top 每秒。 redhead 的 nv f p 四版更有意思,量化后准确率居然还涨了一点。 第二条 e flash 推理加速,这是一种基于扩散模型的推测解码方法,跟传统方案不同,它一次能定型生成一整块头啃,实测五到六倍加速,完全无损,输出跟原版一模一样。 第三条, cloud os 蒸流,用一点四万条推理数据做 lora v 调 m m l u pro 直接涨了三十二个百分点,数据量不大,效果很猛。 这三条路完全不冲突,量化解决跑得起 d, flash 解决跑得快,蒸馏解决跑得好。我觉得最值得关注的是,开源社区围绕一个模型形成了完整的优化链条,这种协助效率比单个模型发布更有意义。


给大家介绍一个阿里刚刚开源的一个新模型,通一千万三点六杠二十七币二百七十亿参数的一个筹密模型。那么目前官方公布出来的这个数据,他编程方面的能力三点五到三点六的提升还是非常大的,特别是他的编程能力已经达到旗舰 模型的这样一个编程能力,回头因为我们也在测,回头我们给大家看一下他最后的那个测评的这样一个分数,那么通一千万三点六杠二十七币,之前我们三点五二十七币这个模型我们之前给大家测过,能力确实是非常出众的,在目前开源的这些模型里面,又可以跑在消费级的显卡上面,这个模型是非常出色的,要比 google 原来 g 码四的那个模型要更强。这次空一千万三点六刚刚发布出来,它的主要提升的能力主要还是在 edding 编程和多模态的这样的一个视觉的能力,让工程师可以写代码,在这个上面又做了一些加强。这个方面 这个模型跟之前的三点五二十七 d 的 模型结构没有任何变化,那肯定是在训练上面,或者在强化学习上面又做了一些优化。那么我们可以看看 跟官方的这样的一个数据,我们一起来看一下它这个数据,官方讲它是全面超越了前代开元旗舰版的通一千万三点五 三九七币 active 十七币的这个模型。之前这个模型应该是通一千万里面的一个旗舰模型,这个模型的参数要比二十七币的模型要整整大十倍。当时的话通一千万三点五这个二十七币的开元的筹密模型来看,它官方公布的数据来看,它这个能力要超过它的也基本上是达到了这个 cloud 四点五。 op 的 这个能力,我们可以看到这个是在终端的 bench 测评,这个是在 s w e bench 写代码的这个能力,这个也是写代码的这个能力,这个是 skill 的 一些能力。小龙虾的这个能力。 g b q a diamond 博士级别的问答三 m u 三 m u, 这个主要是测一些 视觉方面的一些能力,之前我们也给大家介绍过啊,目前专家的能力大概是在八十多分的,那这个也很恐怖了,它这个模型也已经达到八十二点九分了, 这个是真实世界的 qa 能力,这个模型的能力也非常强,八十四点一分,超过了 cloud 那 个四点五。 os 的 这个能力,应该来讲,它在呃综合能力,呃,特别是在写代码能力上面,它得到了大幅的这个增强,我们可以看到这个是 三点六、二十七,这个是三点五,那明显在各个方面都有所增加,特别是在 skill bench 这个上面,它增加能力是比较强,它这个模型养小龙虾会比较合适,这个是 knowledge, 基本上跟原来差不多。 cf 我 们也测了一下,它是九十一点四分,我们测了一下,大概是八十八十六点四分,应该分数是不低的, 比之前我们测过的那个功率千分三点六、三十五。 b active 三 b 的 那个模型是大概在八十三分,这个是在八十六分,这个很明显稠密模型还是更要更强一点好,这个是 stem 和推理的能力,它基本上三点六都要比三点五要强一些,综合能力都要强一些。 那应该来讲通千万三点六二十七 b 的 这个模型还是非常能干的,特别是在企业级里面,应该是用处是比较大的。包括这个模型他也可以做编程里面的执行模型,我觉得是比较合适的,专门做一些执行,不要做一些规划地理的一些任务,但是他做一些执行 的一些模型的效率也会比较高,同时性能也会非常不错。好,今天我们这样一个模型就给大家介绍到这,如果大家有兴趣也可以下载下来看一看。

最强本地模型千问三点六二十七币今天正式发布,这是一款具备二十七币参数的筹密模型,拥有旗舰级的智能体编程能力,以及出色的多模态推理能力。据官方文档介绍,其性能甚至已经超越千问三点五满血版的三百九十七币模型 benchmark 结果显示,其整体能力远超上一代千万三点五的二十七 b 版本,力压谷歌 jammer 四三十一 b。 甚至在编程评分环节,部分项目已经反超 cloud op 四点五,这是首次由本地小参数模型达到这样的高度。 目前其 q 四 s 量化版本体积为十七点七 gb, 可通过哈根 face 直接下载实测在五零九零上运行速度约为六十七 token 每秒, 并且可以通过 hermes 客户端正常调用。在测试股票行情抓取指令时,模型能够一次性快速输出结果,执行效率与任务完成质量表现优异。

今天千万三点六 max 来了,这是千万最强大的旗舰模型,有两个地方想吐槽一下,一个他居然不吃多肽,他只是一个纯本的模型,这在你抄一些前端 e u i 的 时候,其实没办法喂图,直接喂给他了。 还有一个就是他这里的这个模型性能非常的田径赛马,你看他选的这个对手,他选的居然是 cloud 的 四点五, 他不选四点七,连四点六都不敢选,只敢跟四点五做对比,我感觉这个有点太 dj 了,而且他更不合理的,现在这些跑分,这都拉不开差距。四点七不过四点七才五十七分,千问这个五十二分, 大家觉得他们的差距才占百分之十吗?我感觉是远不止,我感觉他们能有翻倍的差距,因为很多时候你用这个 clogs 四点七一轮能解决问题。买的我用轻微三点六 plus 的 感觉是你要基本上要调个两轮,三轮 甚至更多。他按自己自己的说法,他比这个 gm 五点一要强,但这个我还没试过,等到他免费上到脆的时候可以体验一下,至少从千万三点六 plus 的 效果来讲,我觉得是不太行的。从那个脆 国内版免费的使用情况下来看,也是,这个 gm 五点一基本上每个问题就能排一千多个人,而千万的三点六 plus 基本上只能排一个一两百号人。 比如他们在程序员的实际使用当中,其实是有着这个数量级喜欢度上的差异的,但小米这个有点落后,个人挺诧异的。还有这个迷你 max m 二点七,我感觉很奇怪,我觉得这是最拉胯的,完全就是为跑酷而存在的一个模型,实际效果非常差,我都不知道为什么他能有五十分, 小米我感觉可能有一百分,他这个我感觉迷你 max 最多也就个二十分分,再多了。

有人用它把一段自然语言描述变成了一个可完整运行的网页,全场没写一行代码,从需求到上线,用了不到八分钟。这不是演示稿,是真实发生在千问三点六 plus 发布后,开发者社区里流传最广的一个测试案例。 四月二日,阿里云正式发布了新一代大语言模型千问三点六 plus, 官方给他的定位只有一句话,当前国产编程能力最强的模型。 这句话有没有数据撑腰?有,而且撑得很硬。在全球最权威的代码能力评测,随为奔驰榜单上千万,三点六 plus 的 成绩直接逼进 colog, 也就是目前被全球开发者公认编程能力最强的那个模型。更关键的是,它在评测中碾压了参数体量是自己二到三倍的 g m 五和 k m k 二点五, 用更小的模型打出更高的分,这在 ai 圈里是比第一更能服人的证明这次升级有两个核心能力让我觉得真的不一样。 第一个是原生多模态编程,以前你让 ai 写代码,你得用文字把界面描述清楚,越复杂越容易出错。现在你直接截一张 app 设计图扔给他,告诉他帮我把这个页面实现出来,他能看懂图,然后写出对应的代码, 视觉到代码一步到位。第二个是氛围编程能力,英文叫 web coding, 简单说就是你不需要懂任何的编程语言,只用自然语言描述你想要什么。 我想做一个能记录每天喝水量的小工具,有图标能提醒我,它会自己规划结构分布,实现调试修改,把整个项目完整跑起来。 这意味着什么?意味着做软件这件事第一次真正对每一个普通人敞开了门。一直以来,技术是少数人的特权,程序员用代码建造了数字世界,而其他人只能住在里面。 但现在,一个完全不懂编程的人,可以用一句话描述出自己的想法,然后看着 ai 把它变成真实存在的产品。 这不只是一个模型的发布,这是技术评权真正开始发生的那一刻,你脑子里的那个如果有这个工具就好了的想法,现在终于有机会变成现实了。

q, 五 n 三点六的三十五 b 模型刚刚开源了,这是一款用三 b 激活参数就能打平二十七 b 稠密模型性能的摩羯选手。虽然推力时只消耗三 b 的 钻力,但他的编程能力和多模态表现非常强,尤其是前端代码生成能力,直接把上一代甩出了一条街。 接下来我们直接看具体的部署方案。 to agent 开发一定要开 preserving, 它能在多轮对话里保留历史推理链,避免模型在迭代开发时重复思考。在调用 a p i 时,直接在 extra body 里把 enable thinking 和 preserve thinking 都设为 true。 如果你只是日常对话,想追求更快响应速度,就把 enable thinking 关掉。注意 q 问三点六不再支持通过 think 指令来软切换,必须通过参数控制。 追求高吞吐生产环境,首选 s 尺量,先用 u v 安装 s 览库,启动服务时记得根据显卡配置设置 t v size, 并把 contest lens 设为二六二幺四四。 如果想进一步压榨性能,一定要加上 m t p 多 token 预测参数,比如使用 speculative algorithm n e x t n, 这能大幅提升推理吞吐量。启动时记得带上 reasoning parson 参数。 如果用 v l l m 部署安装命令,使 u v p install v l l m 启动时同样要配置好 tensor parallel size 和 reasoning part。 这里有个实战技巧,如果你不需要模型的视觉能力,只做纯文本推理,一定要在命令后面加上 language model only, 这样可以把视觉编码器占用的显存释放出来,全部给 k v k 使用,吞吐量会提升很多。想用 cloud code ui 体验来调用 q 文的能力,最划算的方法就是直接套壳。 你只需要在终端配置好 antropic model base url 和 os open 这几个环境电量,就能用阿里云的 api 跑 cloud code 成本比原版低得多。当然你也可以选原生的 qencode 或者用开源的 openclaw 进行自部署。如果你想在本地跑,看一下这个内存需求。 对于大多数用户,我推荐 q 四 k x l 量化版本,总内存占用大概在二十三 g b 左右。如果你是二十二 g b 内存的 mac, 跑这个版本完全没问题。如果内存更紧,可以考虑 q 二,压缩,但精度会有损失。 小白用户直接用 oslo studio 一 行命令装好环境,然后启动 yu y, 在 浏览器里搜一下 q n 三点六,下载对应的量化版本参数,它会自动帮你配好。最方便的是,它在界面上直接集成了四维电开关,想用或者想关点一下就行。 如果你习惯用命令行用 lama server, 部署时有两个坑必须避开。首先,你必须同时下载模型文件和 mproch 视觉编码器文件,缺一不可。其次,启动命令里一定要带上 mcroch 这个参数,否则模型的视觉能力就废了。 你可以通过 chat template, walk case 来控制思维链的开关,实现更灵活的推力控制。总结一下, q n 三点六减三十五 b a 三 b 是 目前性价比极高的开源某一选型, 但部署时请记住 g g u f 版本目前还不支持 alama, 建议用 alama c p p 或 onslos。 另外,想用视觉功能,一定要记得单独加载 m c 文件。


一个国产模型编程跑分干翻了 cloud, 推理速度还快三倍,价格只要十分之一。两天前,阿里偷偷发了个东西,叫 quan 三六 plus, 说白了就是千万的新版本。但这次不一样,它在编程能力上直接捅到了世界第一梯队。先说最狠的一个数字, s w e bunch, 这是全世界公认最难的编程测试,测的是 ai 能不能像真正的程序员一样去修 bug。 矿三六 plus 拿了百分之七十八点八什么概念? cloud opus 四点五也就这个水平,而上一代千问,连影子都看不到。注意,这不是一个几千亿参数的怪兽。 阿里用了限性注意力加稀疏专家混合架构,说白了就是不是每道题都派全部人上,而是每道题纸条最擅长的那批专家。结果用更小的参数量打赢了二到三倍体量的对手,以小胜大,而且推理速度是 cloud ops 的 三倍。 同样一个编程任务, cloud 还在想,千万已经写完了。铁子们,回想一下半年前你用国产模型写代码是什么体验?写个函数还行,稍微复杂一点就开始瞎编, 让它改 bug, 它能给你造出三个新 bug, 跨文件写作?别想了,它连上下文都记不住。所以大家都在用 cloud。 用 gpt, 不是 崇洋媚外,是国产模型编程确实不行。但这次千万三点六做了一件事,彻底改变了游戏规则,它不只是写代码,更准了,它变成了一个真正的编程 agent。 自主智能体。 什么意思?以前的模型是你问一句,他答一句,现在困。三六 plus 能自己规划任务,拆解步骤,写代码跑测试,发现问题自己改,整个流程,他一个人闭环,阿里管这叫计划执行、测试、优化、四步循环。 有人拿他实测一句话,让他做个 minecraft, 结果他不光做了基本的方块世界,还自己加了洞穴系统,矿石生成、岩浆交互、血条扣减,这些全是他自己想到要做的。没人提过他的上下文窗口是一百万 token, 一 百万是什么概念?大概七十五万字。你可以把一整个项目的代码、 所有文件、测试文档、提交记录,一股脑全塞进去,他全部能看到。以前的模型是盲人摸象,只看到一个文件,现在昆三六 plus 是 上帝视角,看到整个项目。还有一点,他专门针对 openclod code、 昆 code 这些 agent 的 框架做了优化。 说白了,你现在就能用你手上的工具直接接上这个模型干活。那对我们普通人来说呢?第一,编程门槛被拉低了, 你不需要会写代码,一句大白话,它就能帮你搓出一个完整的网页,一个小游戏,甚至一个数据分析工具。有人实测 一句,帮我做个虚拟宠物养成游戏,两分钟出来了一个带状态栏任务系统、金币商店的完整网页。一句做个塞尔达风格的雪山场景,直接渲染出带动态雪花的三 d 世界。第二,它便宜到离谱,百万投屏输入才零点五美元,输出三美元 cloud 呢,至少贵十倍, 千万 app 直接免费用。第三,它是国产的数据合规服务器,在国内中文理解更好,对企业来说,这三点就够了。总结一下,款三六 plus 这次不是又发了个模型那么简单, 它是国产 ai, 第一次在编程这个最硬核的赛道上,真正摸到了世界第一梯队的门槛。而且它不只是跑分好看,推理速度快三倍,价格低十倍,还能当自主智能体用。当然它也不是完美的, 在一些逻辑陷阱测试里,他还会过度推理硬套复杂解法,但瑕不掩瑜这个方向。对了,阿里已经预告了更强的困三点六, max 马上就来。

ai 编程能完全免费在本地运行了, codex 和奥莱曼正式打通,开源模型直接接进来。之前想用 ai 写代码,要么掏钱买 api, 要么依赖云服务,每个月动辄几十上百美元,小团队和个人根本扛不住,现在所有成本归零。 olym 这个工具能让用户在自己的电脑里跑开源模型。 codex 是 open ai 的 ai 编程助手,能写代码、改代码、审核代码,两者一组合,本地就能用上 jam 四 qman、 三点六这些模型一分钱不用花,全靠自己的显卡和内存。 具体怎么用,三条路走通。第一,装好 codex 和欧拉玛,两个软件都免费。第二,选一个适合自己电脑的模型, gamer 四的四 b 参数版本就够用,去 camera ai 网站输入显卡型号和内存,网站会推荐能跑的模型。 第三,在命令行里敲一行命令,模型就下载到本地了,大概九点六 g 币,等几分钟就装好,然后启动 codex, 选择这个本地模型。所有 codex 的 功能全都能用,写代码、改页面、调逻辑, 这意味着以后写代码、建网站、调样式都不用靠云服务,自己电脑就能跑数据不出门,速度还快,相当于把 ai 编程的门槛从月费降到了零。打开 codex, 选本地模型开工。 有人用 jma 四四 b 模型生成一个 cs 落地页,复制代码到浏览器打开页面完整布局干净。一个四 b 参数的本地模型就完成了以前需要付费 a p i 才能做的事。

这是 github 上超级火的开源项目,主要教你如何优化克拉拉库的,但是面对这种密密麻麻的文档,对于普通人还是有极高的上手门槛。 于是我把这个开源项目我还不 q 定成了一个网站。现在你可以用格式化加路径化的方式系统学习克拉拉库的最佳实践内容完全来自原项目,还内置了技能评测,你可以随时知道自己掌握到什么程度。 重点是啊,开发这个包含了完整前后端以及后台系统的网站,我全程没有写一行代码,完全靠克拉克和阿里最新发布的国产最强编程模型千万三点六 plus 完成。你只需要在这里简单配置一下 a p i, 就 能在克拉克里丝滑用起来。 像这样丢给他简单的一句话,需求你看啊,他会先把整个开源项目的文档全部梳理一遍,跟你确认几个关键决策和基础站, 然后给出完整的基础方案。整个过程它会自己拆任务自己调用工具,遇到报错自己排查自己修,全程基本上不需要盯着它。得益于这个原生多模态模型支持百万上下文窗口挖 app 刻定过程完全不用操心 context 爆满问题, 可以看到最终的完成度也相当高,基本一次就能产出这种效果。所以正如官方介绍所说的那样,这是一个为挖 app 刻定打造的大模型,相比上一代三点五的编程 agent 和工具,调用能力都有了大幅提升, 并且超越了一众国产模型。而值得一提的是啊,这已经是阿里这周连发的第三个重磅模型了,三月三十号是狂揽二百一十五项全球 saota 的 全模态大模型。千万三点五奥米兰四月一号是最接近南诺布兰纳 pro 的 国产图像生成模型 one 二点七 mag 今天压轴的才是千万三点六 plus, 三天三个方向全部打在了 a r 能力的核心地带。所以不得不说,国产模型还得看阿里。最后啊,如果你也想挖不口令一些东西,又不想在 a p i 费用上烧太多钱,千万三点六 plus 真的 性价比拉满了。

各位朋友,阿里发布的宽三点六 plus 直接捅破国产大模型天花板。先看最核心的编程能力,它在全球权威的 coderina 榜单直捷拿下全球第二,硬钢的是公认全球最强的 cloud 系列模型,性能几乎持平。 更绝的是它支持视觉编程,甩张设计草图过去,直接就能生成可用的前端代码, 小白也能零基础做开发。再看智能体能力,这模型已经不是辅助工具了,是真能自己干活的 数字员工,接到复杂开发任务,自己拆解步骤,写代码跑测试,出 bug 了还会自己修复,全程不用你盯。最关键的是性价比,拉满百万,偷坑调用才两块钱,企业用完全没压力。

挑战解决史山 bug 的 模型大乱斗马上就要开始了,我们先来快速介绍一下场上的几位选手。左上角的这一位是第二场比赛的时候拿下了全场第二名的 k m k 二点六月之暗面的登月计划,除了贵了点,其他也都没啥毛病啊。 左下角的第二位选手就是在编程江湖绰号国摩一哥的 g l m 五点一,一直以来的发挥都是相当的稳定哦,稳定的就如同他抢购页面里的那三个灰色的按钮一样。左侧的第三位选手就是来自阿里系的千问三点六 plus, 好 像上次出场的时候他也是在这个位置哈, 这该不会是举办方有意安排的吧?那就让我们和他打声招呼吧,你好啊, 他好像不太想搭理我们哈。哎,回我了。好的,那我们再来看中间这一列吧。 最上方的就是我们的第四位选手 deepsea v 四 flash 版本多快好省,但是因为众所周知的原因,目前他还只能做到多好省。 而他右边的这位呢,就是他的老大哥 deep sec v 四 pro 版,有第一梯队的推理能力,却是第三梯队的折扣价格,有人因此赞扬过他们,也有人因此质疑过他们,相信这两种声音在以后也会不绝于耳的。 对此,他们只是在官网的一个角落里引用了寻子里的一句话,不幼于玉,不孔于匪,率道而行,端然正己。我们就在此祝他今天能有一个很好的表现,并在未来能够继续前行,探索未知之境。他下面的这位选手就是大名鼎鼎的来自 openai 的 gpt 五点五了, 虽然是第一次参加比赛啊,但是咱们就不必多介绍了,天下谁人不识君,本来他的老对手 oppo 四点七今天也要一起参加比赛的,但是很可惜啊, 举办方在比赛前一不小心两个小任务就把他的五小时限额给用满了,所以他就只能先去休息养伤去了,期待他能够早日恢复啊。再看下面这位,就是上一期比赛表现的非常亮眼的咪木 v 二点五了,年轻人的第一个抠钉破烂是不是他呢?那就要看他后面的表现了, 它左边的这位没有之一,就是咱们赛事评论区呼声最高的一匹黑马了, miami v 二点五 pro 如果说 deepsea v 四 flash 是 多块好省的话,那么 miami v 二点五 pro 版就是多块好, 我相信已经概括的差不多了啊,因为他目前确实不太省。好的,女士们,先生们,那我们就回到场地的 c 位,隆重请出我们的热场嘉宾, mini max 二点七。 mini max 老师今天之所以返场啊,就是想来帮我们验一验本场比赛的题目,他到底有几斤几两, 我相信这也是 mini max 老师最擅长的领域了,所以我们就废话少说,选手已入场,老师请验题。 这个 bug 的 现象就是,我明明创建的是李雷和韩梅梅,你看一条数据,但是大家看啊,我查出来以后它就是四条数据。四条数据?另外那几条是哪里来的呀?我不知道啊。就是这么一个摸不着头脑的破 bug, 而且它同样是偶发的, 有的时候是好的,有的时候它就一直是错的。我个人认为这显然是前端缓存的问题,但是前端同学指着后端那套维护了五年换了三波人的史山代码说要让我证明,可是我虽然证明不了我没有错,但是我同样找不到我到底错哪了呀? 好的一句,我到底错哪了呀?我们听出了这其中的人情世故,没有哪个程序员会知道自己到底错哪了的,尤其是当他的错误还有可能是被别人的代码导致了的时候,那他就更不愿意自己一个人扛下这口锅了。理解理解, 那我们就先请出 mini max 来替他试一试这口锅里的水,它深还是不深吧,这次我们就不说加油了啊, mini max 起锅烧水。 好的, mini max 这边已经结束了哈,我们看一看对不对。 大体上是对的啊,是多个子表,因为数据错乱,然后关联查询查除了与自己无关的数据,再加上迪卡尔成绩就出了些, 就出现了多条数据,根本原因对,就是这个号码不为一导致的,但是它只定位到了一个原因啊,其实还有一个原因就是为什么这个号码会不为一呢?解决方案是改 circle 子查询没问题啊, 因为我的提示词里要求了不能改数据库这种史山代码他的难度不大,但是他的特点就是代码乱,数据也乱。但凡你的解决方案是要去改数据,那在没有重构计划的前提下,你不是彪就是傻哦, 好,不错,迷你 max 试水成功,定位到了问题,也给出了方案,没有指出全部的原因,但是遵守了提示词的约定,没有去动数据库。接下来我们就看看其他选手的表现吧,比赛正式开始。 好的, gpt 五点五这边率先结束了定位啊,只用了两分钟就结束了,不愧是世界一流啊。方案我们一会再看啊,等一下其他的选手。 哎,千万这边啊,不对,国摩一哥这边啊,他俩同时要结束比赛了,看谁先结束啊。 哎,好,还是千万这边领先了一点点啊,然后国摩一哥这边也快了。好的,国摩一哥这边也结束了定位,我们再等一等其他的选手,看看下一位是谁。 好的, deepsea v 四 flash 版本这边是第四个结束了定位啊,看样子给出的方案好像也差不多,我们一会再看。 好的,第五位结束定位的选手是 mimo v 二点五啊, 然后啊, kimi k 二点六这边也快了,看看他能不能结束定位率先,哎,和 v 四 pro 这边差不多,看他谁哦。两个人几乎同时结束了定位, 那么下面就剩下一位选手了,就是我们的咪莫 v 二点五 pro 了,看来他正在进行深入思考呢。 好的,咪蒙 v 二点五 pro 这边经过了深入的思考之后,最后一个结束了问题的定位。至此,所有模型都已经制定完了开发计划,我们来一个一个看一下。 先看 gpt 这边吧, gpt 的 答案一如既往的是工程师风格啊,没有什么格式可言,不过能看得出来他找到了问题的原因。哦, 应该只是定位到了一个原因,修改方案也是合乎我们提示词约定的,没有去要动我的数据库,最重要的是他识别到了我们这个项目做完了以后是要维护上下文的,然后他也给出了维护上下文的方案, 整体十分的话,他只定位到了一个原因,扣一分,然后其他的都还好,所 所以 gbt 得了九分。然后是千问三点六 plus 这边,千问三点六说他双管齐下要,第一个他要修复查询的问题,第二个他要清理藕合数据,这个其实是不行的,这个就动数据库了啊,这个对于其他的需求而言不一定是垃圾数据。 然后好在他给出了两个选项,你可以选择清,也可以选择不清,那么我们就不给他扣分了。在这所以他没有维护上下文,扣一分,只定位到了一个原因,扣一分。千万三点六 plus 得了八分。 我们再来看国摩一哥这边。 g r m 五点一这边。同样是定位到了问题啊,是因为号码的问题,然后加上关联查询数据库就出来了多条数据,他定位到了,但是他没有。按照我们的约定,他动了数据库,减一分, 没有维护上下文,减一分,只定位到了一个原因,减一分,他得了七分。再来看 deep sec v 四 flash 版本这边,他和 g r m 五点一一样啊,只定位到了一个原因,方案中要动数据,然后没有维护上下文,减三分,他得了七分,然后是咪幕二点五这边。 哦,他两个原因是都找到了的,他两个原因都找到了,一个是只根据号码进行查询的问题,一个是为什么生成了重复的号码的问题啊,那他 动数据库,没有维护上下文,他只减两分。咪目二点五这边得了八分,然后是 k m 二点六这边。他也定位到了问题,但是他要修改数据,减一分,没有维护上下文减一分。 k m 二点六这边得了七分,然后是 deepsea v 四 pro 这边定位到了问题,然后定位到了两个问题,而且是 为什么会生成和别人重复的号码。他也定位出来了,修复方案给了,改数据库的也给了不改数据的。那就不扣分了啊。上下文维护没有规划减一分,所以他得了九分。 然后是咪莫二点五 pro 这边和 deepsea v 四 pro 是 一样的啊,两个原因都找到了,方案也是给了改数据库的和不改数据库的,上下文没有维护减一分,所以他也得九分。好了,各位选手的方案我们已经看完了,接下来进入修复环节,就从 gbt 五点五开始吧。 哎,他这好像遇到了个情况啊,不过这个情况应该不是五点五的问题。嗯,他已经修复完了啊,我们直接开始验证了, 现在点击生成好的,现在他只生成了一条数据,查出来的也是一条数据,没问题啊, gbt 五点五修复成功,最终 gbt 五点五得分是九分,然后看千问三点六 plus 这一边,我们按照他给出的只修复的方案让他修复啊。 好,他也修复完了,然后我们来验证一下,看看他修复的对不对。点击生成,哦也。哎,不对, 这两个数据不一样,我生成的是李雷和韩梅梅,他给我生成的。这是啥?虽然只是一条,但是他数据错乱了,错乱了,千问三点六 plus 改错了啊。 呃,因为他给出了多个方案嘛,所以我们按照我们让他按照只修复查询的方案进行的,如果按照他推荐的那个也改数据的方案,没准他能改。对啊, 所以其实他虽然给出了两个选择,但是第二个选择其实是错的,那么我们还是要给他扣掉一分的,所以千问三点六 plus 这边得分是七分,然后再让一哥开始改吧。 好的,一哥也改完了,然后我们来验证一下。生成,生成,那他生成的就是对的了。没问题啊,一哥改对了,那么 g l m 五点一是得分是七分,然后是让 deepsea v 四 flash 开始改。 哎, deepsea v 四 flash 把上下文给我加上了啊啊,他方案里虽然没维护上下文,但实际他把上下文给维护了,那么我们把扣他的那一分再给他加回来啊。 好的,他改完了,我们来验证一下点击生成,哎,也是对的,那么 v 四 flash 这边一共就是得了八分啊,他扣的那个上下文我们给他加回来,然后是 kimi v 二点六这边开始。哎呦,出现了个情况, 他触发五小时上限了。 kimi v 二点六还是很贵的啊, 那么我们把它切换到 open go 的 法号,一会让他最让他最后来执行吧。接下来登场的就是 deepsea 微四 pro 了,开始执行吧。我真替 deepsea 微四 pro 捏一把汗啊,国魔之光,你要加油啊 啊,我们发现他也把上下文维护给我加上了,那么把扣他的那一分也给他加回来啊。哇,他如果能改对,那他就是满分了,我们看一下。 好的,本场比赛的第一个满分选手诞生了,他的名字就叫做 deep sec v 四 pro。 深度求索,实至名归。然后我们恢复一下情绪啊,我们把那个代码回滚一下。刚才也是回滚了的啊,你看现在谁又出错了。嗯,然后我们再审审一下。 哎呦,我去看啊,这,这就是这个 bug 的 现象,很诡异,然后我们让下一位选手来修复吧,下一位选手就是咪莫 v 二点五了,看看他能不能改队开始吧。 哎,我们发现很有意思啊,这些国模都是在计划 plan 的 时候没有把上下文维护加上,但是真正改的时候都把上下文给加上了,那他这一扣掉的一分也加回来啊,验证一下。哎,他也改对了。好的,那么咪莫 v 二点五的总得分就是九分了啊,挺高的呀。 然后我们再让他的老大哥 v 二点五 pro 改一下吧, 我们看到他的任务列表里其实是没有维护上下文的, 哎,你看,呵,他又把维护上下文的给补上了,哈哈,好吧,把扣掉他的那一分也加回来,如果他能改对的话,那他也是满分选手了,来验证一下。 好的,那么本场比赛的第二个满分选手 mimo v 二点五 pro 也出现了啊,但他花的钱是真多啊,大家看一下他花了多少钱, 整整二点一五美元哇,是 deep sec v 四 pro 的 四倍,所以说他是多快好吗,一点都不省啊。 然后来吧,我们刚才触碰触碰那个五小时上线的 kimi 二点六,我们确认一下代码有没有回滚哦,回滚了,现在又出问题了啊, kimi 二点六开始吧。 好,他也把上下文给补上了啊,那么把扣他的那一分也给加回来。 好的,他也改完了,我们来验证一下。好的, kimi 二点六也改对了啊,那么他就是得了八分。最后两个满分选手,一个是 deepsea v 四 pro, 一个是 miami v 二点五 pro。 那 么下期各位想看哪些模型呢?把他的名字打在评论区吧,拜拜。

有人问我本地跑 ai 选 demo for 还是选千问,我直接按场景给结论,跑智能体选千万三点六,跑编程选千万三 code next 纯问答,追求极致的准确度。选 demo for 三十 e b dance 那 量化模型怎么选呢?三十二 g 内存用四比特的,六十四 g 用八比特的。别纠结,七个模型的完整评测数据在长视频里面。

大家好,我是 kitty, 这期视频呢,准备了非常久啊,主要介绍一下千万三点六二十七币,我的实测情况,还有我在 mac 上通过三种不同的方式来运行它们出现的不同的结果。千万三点五二十七币呢,很多人就非常喜欢它, huntface 上也有很多关于它的不同的微调的版本,普遍认为它的性能是非常强的。那它升级到千万三点六二十七币之后,它是上个月发布的,定位是旗舰级的,可以在本地运行的一个智能体编程, 关键看点是用二十七币的模型来挑战前代三百九十七币 moe 的 旗舰模型。 这次三点六二十七 b 呢,特别强调它的编码能力,无论是 swbench verified 还是 swbench pro, tomono bench, 二点零等等, 都是要比前一代啊,要那么大的规模的模型呢,是要更强的。它在文档理解啊, vqa 视频理解视觉智能体方面也是非常厉害。目前呢,我们呃最简单使用它的方式呢,就是在千问 studio 上面去体验它, 官网上部署的这个版本是我们能体验到的最好的。我呢在呃上个月体验了一下它,一开始我用的是一个动态量化 q 五的啊, on slow 出品的 g g f 格式的, 当时我体验下来它的生成速度是十八 talk 每秒在运行它的时候就会有呼啦呼啦的声音。 mac 端和 windows 端不同 啊, windows 的 话很多用户通过三零九零,四零九零都可以很好地去运行千万三点六二十七笔模型, 而且速度还是挺快的。但是 mac 电脑上运行这样的一个 dance 模型的时候啊,一方面速度会普遍比较慢, 第二是在 mac 上运行啊,千万三点六二十七 b 真的 是有太多太多的选择了,现在就有不同的后端。之前我有介绍 lm studio, alama onslos studio, 那 这些已经算是旧的了。现在呢,比较新的有 omlx, 有 deflash m l x, 还有我今天要重点介绍的 m t p l x。 如果大家习惯用 o l m x 的 话,那可以关注它啊。开发版本最近呢,是做了很多优化。昂尔斯呢,它最近也推出了实验性的 m t p 千万三点六昂尔斯的啊, g g u f 模型。我尝试了昂尔斯推出来的六比特 m l x, 然后再加上 deflash, 当时的生成速度是二十二 to 可每秒。而我换成 m t p l s 之后呢,斯比特的模型生成速度 是翻了一倍,这个呢,就有了一个非常大的提升。而且即使是斯比特,它的质量也是不错。我在这里使用的是它对应的一个呃, speed 模型,这里对应的就是斯比特的模型。如果你想要更高质量的,那你可以下载作者最新发布的 关于二十七 b 的 高质量的模型。这名开发者 ivan 呢,他是做了非常多的关于二十七 b 的 分享,比如说这里呢,他用到了 d flash m l x 搭配 zlab 的 drop。 他 认为呢,初步测试看, d flash 明显要比单独的 mtp 更快, 但在质量方面,他观察到呢,有所退化。他也分享了测试 m t p l x 最新的零点三点五的版本的体验。那,嗯,他的体验里呢,五分三十秒内取得了百分之九十三点三的正确率 是在一个数学基础测试上面测试的,在他看来 m t p l x 的 输出质量还是不错的。还有另外一个机构呢,嗯, atomic chat, 他呢在朗姆 c p p 上为千万实现了 m t p, 大家可以看一下。为什么说这些事情花了很长时间,就是我在接收这些不同的啊方法,然后再去尝试, 所以这中间的话是花了挺长时间的。我们来看这位博主呢,他就是用我刚刚介绍的 m t p l s。 然后斯比特做出了一个非常丰富的游戏,这里的这个元游戏元素是非常多的,我们会看到有非常多的建筑, 还有小车,还有这样的一个广场,呃,树木,道路, 还有这样很大的一个广告牌,大概率不是一次迭代去生成的。那这应该是健身房的一个场景,电影院场景, 教师场景都是非常不错的。现在就给大家分享一下我通过四个不同的渠道来使用千万三点六二七 b 啊,它们的一些效果。现在看千万官网上的这是千夫拉船 啊,这个船的话不知道为什么会从这个啊山体里啊出来,感觉逻辑上是有点问题,我鼠标指的这部分的话, 感觉这里绚烂还是有点问题的。缩小来看其他场景里的啊,植物有部分是飘在空中的, 所以他在这个任务上做的是一般。接着我将这张图发给二十七 b, 让他复刻一下,他复刻的这个页面还是非常不错的, 背景的话我们看到因为现在是显示十六点多钟晚下午,所以他已经切换成夜间模式了。云朵的话不是特别像我一开始发给他的云朵样式,这是让他做的一个十字路口交通仿真, 那我们会看到呃,这样的线柱呢,直接放在了道路上,所以是刚刚出现了一个穿模的现象。还有这个啊,车的这个方向啊,稍微有点问题。 此外的话,我觉得他这个道路啊,画的还是有非常多的细节的,左边的控制面板和右边的实时统计数据维度也是非常多,说明他思考还是非常充分的。再看他做的三 d 模尺模拟器, 当我选择啊预设造型,先是球形,那它生成的不是球形的样子,当我点击不同的关节的时候,那我可以点击进行一个切换 啊,这里也是出现了一个 bug。 再看它生成的礼物包装智能助手,当我选中长方体,再点击一下智能分析包装方案。 左侧我们会看到呢,他这里啊,这个预览的话是不对的,因为上方明确是一个长方体,而他这里预览的还是立方体, 那他的造型做的还不错,我们可以看到有这样一个蝴蝶结,但是整个啊礼物一般来说不会有那么多不同的画面。右侧呢,他有一个推荐搭配的丝带,这个切换是 ok 的, 好在下方这样的一个包装纸图案呢,他变成空白了,所以也是有问题。他在右侧,嗯,比较有意思的是,他还给到了一个包装盒尺寸,也就是说不仅是有包装纸, 然后还有包装盒,那我认为这一点是它做的比较好的。现在呢,来看一下我通过运行 ansolo 出的啊, u d q 五 g u f 的 二十七匹模型,它的表现如何?这是它做的仓库分拣仿真系统, 那我们可以看到目前整个画面 ui 还是不错的。这个机械臂的话啊,细节方面是有比较大的问题,而且这个球的话直接穿模穿过去了 也看不到机械臂是怎么把物体给提取出来的。这是它生成的十字路口 啊,这个十字路口的仿真效果就是要差很多了,而这是他做的礼物包装智能助手,我们会看到他做的这个三 d 预览效果还可以,但是切换到圆柱体就没有了,那我选择一个智能推荐包装方案,下方 展开图,那这里也丢失了它,这里非常好呢,有一个包装步骤指南,右侧四代方案这里选择啊,是能实时在左边反应出来的,在下方包装纸 点击没有反应整个页面啊,其实他还是做的非常美观的,但是功能方面有很多缺失。这是二十七 p 生成的马卡龙花园,我给他的要求是希望他生成的是花朵,那我们可以看到啊,这里呢 啊不是特别像花朵,但我对他生成的内容还是满意的,因为有一些比他啊大的闭园模型啊,他连这样的场景嗯都做不出来,所以我个人觉得二十七 b 在 这方面啊回答的还不错。 唯一的问题呢,就是这个场景在我电脑上是处理了,花了啊非常长的时间,这是他生成的膜尺,那这个膜尺质量的话是要比刚刚我们看到在官网上啊用的二十七 b 效果是要差的。 那我选一个预设造型,同样他这里啊不能展示出球形也是有问题。再看他生成的啊题弧,骑自行车的这样的一个体述场景 啊,会有一些闪烁的画面,然后动感的画面的话,自行车没有动起来,而自行车下方呢,是有一个道路的设计啊。那我觉得二十七 b 在 这里还是有思考的,还是思考的不错。再看他生成的纤夫拉船, 这个纤夫拉船效果在我看来其实已经很不错了,我们会看到绳子和纤夫黏在一起, 但是呢,船再往前走的时候,哎,这个绳子又停在原地了。再来看一下我使用奥斯洛斯出品的六比特 m l s 啊,二十七笔模型搭配 d flash 在 我本地生成了一些情况, 这是我让他做的一个啊理发应用。最后他生成的页面里面呢,有一些乱码,整体页面设计还行, 但是错误也是比较多的。嗯,所以在这个问题上,我觉得它做的还算是中规中矩。当时我的体验呢,就是速度比较慢, 所以没有再做更多关于它的体验。不过呢,可以给大家分享一下,我是怎么把它用在啊我电脑上的啊,我当时使用它的时候呢,对 flash 也可以在 mac 上运行吗? 然后他告诉我是可以运行的,并且当时呢,官方的 draft 模型已经上线了,下方给出使用方法。后来我就看到他推荐有一个 d flash m l x, 我 说让他帮我找一下,并且将我的电脑内存信息发给他,问他是否可以运行 d flash, 他告诉我是可以的。在之后呢,我就将这样的一个帖子链接发给 grok, 我 说根据这个帖子,那千万三点五二十七 b m l x 会不会被影响?因为它是 dance 模型? 这里呢,其实是我写错了,应该是千万三点六二十七 b。 在 之后我就问他,千万三点六二十七 b 标准的 m l x 量化版本 是不是已经没有这个问题?他告诉我, m l x 社区啊,出的还是有这个问题。 这是四月份我提问他的。目前呢, m l x 社区里关于这块版本更新还是挺多的, 所以大家可以以新的版本信息为据。在之后我就问他, onslush u d m l s 动态混合精度版是否可以搭配 deflash 在 我的 mac 上使用?他说,可以。那时候我才知道 onslush 啊,它本身有也有出 m l s 格式的。 在之后呢,我就将这样的一个图片发给他,我问他,呃,我该选哪一个?他推荐我用,呃, u d m l x 六比特。在之后我就问他, d flash m l x 一定要装吗?然后 d flash 的 通俗工作原理是什么? grog 呢?就告诉我啊, d flash m l x 是 专门为苹果芯片开发的原声 m l x 端口,官方 z lab 啊, d flash 虽然也支持 m l x, 但社区的 d flash m l x 呢?啊,会更成熟。 接着他介绍了 deflash 的 工作原理。 deflash 呢,当时有个问题,就是他没办法去选择啊模型的温度,而千万三点六二十七 b 在 官方的指导里呢?呃,你写作用的温度和 编码用的温度啊,这是应该是不同的比较好。再接着他告诉我啊, drop 然后 zlab 出的这是一个小模型。再接着我就问他, deflash 有 一个接受率不是百分百,使用 deflash 会影响生成效率吗? 他也告诉了我一下。再接着我问他 deflash 会影响生成结果吗?并且问他 onslush 退出来的 m x 的 版本和呃, m x 社区退出来的版本区别 啊。我们可以看一下 rock 的 一个回复,在这里用 rock 主要呢,一是它搜索会搜索非常多的结果,而且它的生成速度是非常快的。呃,我是比较喜欢用它来查一些比较实时性的内容, 而且还有个非常重要的情况呢,是是在推特上面的话,呃它的呃用户社区里的用户分享还是非常多的, 信息是第一手的。再接着我就问他 dflash 会占用更多资源吗? grog 回复说会占用少量资源。那以上呃大部分情况我已经了解,之后 我就让 grog 呢帮我做一个从零到一的流程,告诉我如何在本地去使用 onslos 啊, m a x 六比特的,而且呢要可以接入到其他的 app 里。之后 grog 就 给到我这样的一个回复了,他又提到 open i 的 best url, 内容还是非常详细的。在之后呢,我让它改成 u v 来做这样的一个管理。基本上到了这里呢,我就可以将啊整个它的回复这段回复 啊发给 ai agent, 无论你是用 codex 或者是 cloud code, 让它根据这些信息呢快速在你本地进行一个安装。那在安装好之后运行呢?我是想把它接入到 open web ui 里, 当时有遇到呃揭露的时候一些响应问题,那也很快让 ai agent 来帮我解决了。我还问他 mac 上使用 deflash 呢有什么坏处? deflash 最早是什么时候推出来的?有误不稳定的情况。 brock 呢也告诉我了, 因为这些仓库呢每天都在变化,所以大家要想知道最新的情况的话,还是最好让 ai 呢啊,实时帮你去答疑,包括 d flash, m l x 的 版本呢啊,当时 grok 他 帮我去查到了多个, 我还问他,呃,既然有多个,我选哪个比较好?并且呢我还问他是否需要用到 o m l x 有 什么好处和坏处, 他告诉我说不需要。那 o m l x 呢,现在也是有很多改进的,所以大家也要以最新的为准。最后呢,就介绍一下,我在 mac 上,最后我使用 m t p l x 获取,我认为是结果是最快,然后结果相对来说也是不错的一个方式。 那 m t p l x 呢?它的安装还是比较简单的,先用 blue install 一下,然后呢,通过 m t p l x start, 它会有也它是有一个交互命令,它会提示你用什么模型。 呃,如果说你是第一次使用的话,可以用它的 speed 模型,也就是默认的选中之后会进行安装。 再之后呢,它会让你选择啊,用什么模式啊,也推荐按照默认的模式来选。再接着呢,它会提示你可以在 web c o i 啊 pi 或 open code 等渠道进行一个对话, 那我选择它的 web ui 啊,打开之后我给他一个提问,我问他什么模型,他回复我, 然后我们可以看到这样的一个输出速度是四十三点六,投看每秒,左侧呢,可以调整模型的参数, 所以如果你在编码的话用零点六。而在做一般任务的时候呢,千万官方建议调整是把温度调到一。在本店运行好之后呢,我就直接打开 open web ui 了,不需要额外的设置, 它会自动识别出 m t p l s 键。问,三十六 b 二十七 b optimized speed 模型,也就是我刚刚提到的 m t p l s 默认的模型,它目前呢也是仓库下载非常多的, 它还有一个更高质量的版本,大家可以去试一下,现在就看一下 m t p l x 呃,斯比特版本它的输出效果。这是兵马俑街舞,这个街舞呢是分了好几个不同的章节, 那我觉得这在一个小型模型上啊,出现了一个非常不错的效果,这是它生成的礼物包装智能助手,左侧我点击不同的礼物,右侧会出现对应的啊礼物预览,整体它界面做的还是非常不错的, 在下方有个参数的场合,点击不同场场合呢,右侧会有不同的包装纸,而且这个三 d 预览效果的时候啊,包装盒和可包装呢有点分离。这是他生成的一个绵羊理发店 啊,这个绵羊理发店对他来说,我觉得他生成质量真挺不错的,小羊头上有个蝴蝶夹,然后我们也会看到一个理发师,然后给一个绵羊理发 啊,他的围布格子型做的也是比较美观,而且这个椅子效果感觉做的也是不错 啊,深红色的一个沙发,整个画面里多个物体位置的摆放,物体的细节我认为做的都是相当不错,稍微有点遗憾的是,他的窗户跟门他是重合在一起了,再让他做一个体数艺术的题。胡骑自行车, 那我们可以看到这个自行车在这里就动了起来,虽然说动的这个啊方式不对,没有向前骑啊,而更像是一个摩天轮了,下方的道路我们还是能清晰看到的。整体这个画面里呢,内容也比较多 啊,可以看出这个版本二十七 b 做的还是不错的。再看它生成的纤夫拉船,那我们看到这里的话,绳子啊变成了像布一样的, 那船的话细节也不是特别好,但是 m t p l x 呢,现在也有个问题呢,就是它不支持图像识别,再看它做的仓库分拣系统, 那我们可以看到啊,物体是突然之间跑到这个机械臂上面的, 所以这里逻辑做的还是有很大问题,而且那箱子的位置摆放也有问题,直接放在了传送带上,但总体而言已经是要比我想象中是要好很多。 这记住,这只是一个斯比特,在我本地只能跑到四十 to 肯每秒的啊,一个模型质量相当 ok 了。除了编码任务,我也将一些其他任务发给他,让他处理,比如说现在是让他做一个啊写作的任务, 写一个不超过三百字的微型悬疑故事,大家可以暂停来看一下这个故事,觉得怎么样?那我觉得还是不错的,再让他做一个推理题,假设月收入七千,生活在一线城市,没有存款,想在四年内凑够六十万 啊,是给出一个计划,在这里他思考用十一分钟,最终给到我回复, 它的回复内容还是非常非常多的。那我这里呢,是让呃 gbt 五点五 thinking 来做了一个打分,它打分是打了五十多分,同样的问题,我也让 gbt 五点五 pro 来做了一下 啊,最终五点五 cking 给五点五 pro 的, 结果呢,打分是打了啊,八十二分。所以我们可以看出这样的一个二十七 b 模型和 gbt 的 顶尖模型是有差距的推理方面。 但在我看来,其实啊,也是很不错了。让他介绍一下唐代诗人李白在九八年纽约马拉松比赛中获得亚军的具体经历。 模型啊,思考了一下,告诉我有一个不可协调的历史时间矛盾。再给他测试了一些其他小题目,比如说让二十七 b 呢,把他很难过,写成一句有画面感的话,不超过三十字。 他回复的是他蜷在墙角,把脸埋进地弯,肩膀无声的起伏。我觉得他在这里回答的质量还是很不错的。咖啡店新品广告语呢,心斗出背,苦甜有分寸,那可能感觉一般。 再接着是让他写一段一百字以内的小故事,结尾必须反转,但不能像段子。二十七 b 呢,写道,他每晚都坐在椅子右端静候路口。直到今天,他终于起身, 指尖触到刚铺好的白砖。原来他等的不是贵人,是智讨政公的盲道。 嗯,有意思,但是可能不是那么有意思。我感觉之后呢,再让他写一个文案,表达终于辞职了,要求洒脱,不抱怨。二十七笔写道,交还钥匙,晴空日程不回头,谢幕指向只向前迎风。 原来转身也可以这么亲。还不错,挺好的,至少不是 a r v 很 浓的话。以上呢,就是今天介绍关于间问三点六二二七 b 的 所有内容。总结一下,我是在四个渠道体验过。嗯,二二七 b 先是观望啊,然后呢,是 onslos 推出来的呃 u d 五比特 g g f 后来又用 onslos 推出来的 m l s 六比特搭配 d flash, 最后呢是用 m t p l s 来生成的 m t p l s。 啊,那目前呢,在我看来是比较满意的,在我电脑上,呃,速度呢?相对其他方式速度快了近一倍啊, 遗憾呢,就是这个模型呢,现在没有视觉能力。这个视频里对二十七 b 的 编码能力是有做多个体验。那二十七 b 真的 挺强的, 写作方面的话,简单体验了一下也很不错,非常推荐大家在本地去使用它。

四月二日,阿里千问三点六 plus 正式登场,智能体加编程能力直接提打,硬是吊打了参数量比他大两倍三倍的一重模型,一流厂商绝不会放过编程大模型赛道。