q opus 三点六三五 b a 三 b 来了,名字像是 q n 和 cloud opus 谈了场恋爱生的孩子。社区玩家扎克隆在 q n 三点六三五 b a, 三 b 上做的二次回调基础模型很有意思。 三五 b 总参数,每个 token 只激活三币,背里速度极快, rtx 五零九零,单卡跑到一百六十一点九, token 每秒比通门二七 b 筹密版快二点六倍,微调策略相当激进。 三阶段 sft 课程学习,从短样本建立推理格式,到二十七 b tik 蒸馏复杂推理,最后长上下文强化加短样本回放 low 二 a 可训练参数比例直接拉到百分之九。对贸易架构来说,这是危险系数很高的操作。有几个亮点值得说, 微软 h t m l 生成能力据说是开元第一梯队,直接吐出带动画带交互的完整页面, 还修掉了猫易常见的思考饥饿问题。长列路规划稳多了。但必须说清楚一点,作者明确表示没做完整性能评测和安全测试, 纯实验性社区版,生产环境直接上要谨慎。我的看法是,这是典型的用爱发电项目,敢用百分之九劳尔 a 赶三阶段课程学习,光这份折腾精神就值得一个 star。
粉丝2215获赞1.3万

二零二六年五月,一台 rtx 四千零五十游戏,本证真正在跑千万三点五负四 b 不是 测试,是银行柜面学习机电池产线里实打实干活的 ai。 它不联网、不调 api、 不 传数据,显存只占四点二极字节,每秒输出一百加 tokens, 还能边查本地知识库边调工具,延迟压在四百二十毫秒内。这不是预告,是 v l l m 和拉玛岛 c p p 时测出的,今天更猛的是树莓派。五加八极字节内存加 usb s s d 就 能离线跑通 gemma。 四一二 b 加千问三 a s 二零六 b 加 cosy voice 二、语音进文字出再念回全链路,一秒音频仅耗零点零八三秒。一年前还在愁七 b 能不能塞进手机,现在二 b 模型在手机上干的事,已逼近去年云端七 b 的 水平。看几个硬核现场 工行柜面终端用千万三点五负二 b 加二 a g, 每天处理一千八百加次客户问答,中位响应三百一十毫秒等保三级加金融 ai 双认证,敏感数据一步不出。本地科大讯飞 x 八学习机塞了两个小模型。六十四 mini mind 三谋 e 专攻口语打分,两百毫秒反馈四 b 的 任四 mini 负责作文批改和知识图谱,工号降百分之六十七,续航达十四小时。明德时代产线 small v l m 二 b 钉显微图像找缺陷 mini coder 四 b 实时写 python 脚本调餐,整条推理链八百五十毫秒搞定,卡在一点二秒节拍里稳稳在线。这些不是玩具。哈根 fice 上周数据显示,千问三点五负四 b 单周下载两百一十万次, 衍生微调模型超一点七万个 mini coder 四 b 已成 intelligent id 一 二零二六一,默认本地代码助手微软 windows copilot sdk 推荐清单为什么敢用长文本?稳了 两百五十六 k 上下文连续生成十万头肯不崩,幻觉率不涨,靠 flash attention 三和 k v cash 分 块持久化多么?太准了! 千问三点五负四 b 图文解锁准确率百分之八十九点二,直比 g p t 四 v 低百分之二点五 jama 四 e 四 b 视频描述 bl e u 四达四十二点一,媲美 gemini 三点一 pro 训练门槛也崩了。 mini mate 三, 六十四 m 一 点三块钱电费一小时训完一个多轮对话加小知识库,模型代码全开源 mini mate v 六十七 m 一 小时训出能看图的 v l m 你 不用再纠结该不该上大模型。八级字节显存千万三点五负四 b 量化版就是起点,手机离线跑 jam 四 e 二 b 一 点五,极字节内存起步。 本地代码助手 mini coder 四 b s w e bunch 百分之二十六点八,比一二零 b 的 getos 一 二零 b 还高。做语音产品 g l m a s r nano 一 点五 b 以全面反超 whisper v 三,实时语音助手 wave voice 零五 b 三百毫秒手包延迟,边说边回四角色自然对话, 一年前的不可能,现在点几下就下好解压就能跑。开源小模型的终点,从来不是做大模型的平替,而是让 ai 变成像 wifi 一 样的存在,无处不在,永不付费,永不掉线,永。

大家好,上一期我们测试了 gptos 一 百二十 b crack 这个模型,我们一起来回顾一下它的一个表现。开始啊, 那么今天我们要测试的模型是千万三点五幺二二 b a 十 b 四比特量化的一个模型,模型大小是六十九点六二 g b, 我 们一起来看一下它的表现, 同样跟上一期的问题是一样的,帮我写一篇奥拉格十一记单机数据库在三 to o s 六点八上面的详细安装文档。 好,他开始思考了。 呃,这里不得不说一下啊, gpt 的 那个思考过程是非常快,千万三点五就会比较慢一点, 他已经思考到第几个点了。哦,可以了,现在就是吐字的一个过程, 你看是一个安装文档的一个转写啊。 嗯,到现在为止啊,初步观察下来,他比 g p t 那 个模型 输出的内容要简单很多,没有那么详细。嗯,感官上看也没有这么快, 基本上到第八个步骤,第九个步骤马上就要完了啊,常见问题排查, 开机启动配置。 好了,已经结束了,大家看一下跟 g p t 区别大不大?这是千万三点五的啊, 这是,这是昨天 g p t 的 一个输出过程, 个人还是比较喜欢 g p t 的 这个本地模型,大家觉得呢?好,感谢大家的观看,下一期我们准备演示 deepsea v 四 fresh 这个模型,敬请期待吧!

大家好,我是叶哲,今天我将介绍一下千万三点五中小模型的使用体验。这些小模型非常受社区的欢迎,而且很多人都认为他们的能力很不错。从这张图上我们可以看到千万三点五九 b, 它在多个基卷上居然是要超过千万三 s 的 八零 b a 三 b c 型模型,这两个模型呢,规模相差是非常大的, 虽然说一个是重密模型,一个是 m o e 模型,九臂呢,是主力模型,社区里用的会比较多。而且现在这些小模型它的工具调用能力也是有了一个极大的提升。 四 b 的 话也是有非常多的用户的喜欢,比如说你可以用它来和你的手机做一个连接,嗯,操作你的手机。那二 b 模型和零点八 b 模型呢,就可以在我们手机端运行,零点八 b 模型呢,甚至可以运行在浏览器上,非常方便。 而且它是有多个的格式衍生,比如说 g g u f o n n x m m m 还有 m l x 社区里常用的技术站呢,奥拉玛拉玛 c p p 之前我有详细介绍过拉玛 c p p, 嗯,它也有 webui, 使用起来也是比较好用的。 而用 g g u f 的 话,社区里呢大多数会选择啊 onslaught 的 方案,它的动态量化做得非常好。如果你是 mac 电脑的话,当然我们用 m l x 是 比较好的。 tech news 的 反馈呢,如果说你的系统提示词不够像样或者够长模型呢,就会进入很怪的 planning 或者长时间的自我检查模式。 parking face 社区呢,还分享了一个零点八 b webgl 版本,然后可以在我们浏览器上跑的,如果我开的话,我手上拿什么东西,或者说呃摄像头里面是什么场景下方它会立即识别出来。 首次进入这个页面,它会下载八百多兆的模型,那这里呢,用的就是 o n n x 的 格式,它是跨框架的计算图交换标准,主打可移植,可被多种运行时变易器加速。 g g o f 大家非常熟悉了, m n n 呢,它是阿里开源的端侧的推理引擎。 m l x, 这个大家应该也是非常熟悉。 g g o f 呢,它是文件格式偏分发部署 o n n x, 它是一个开放标准,这里有它们的核心的优势,对比大家可以简单了解一下。再来看一下各个模型不同的大小啊,不同的量化程度,它们的显存需求,推荐的硬件和速度, 零点八 b, 基本在任何的 g p u 啊手机上都可以跑起来。二 b 模型呢,如果是四比特量化的话,那需要的显存是一点五 g b, 如果是四 b 四比特量化的模型,显存需求是三 g b, 如果是九 b 四比特量化,那需要的显存是九 g b。 二十七 b a 三 b 四比特 大概是占用二十 gb 显存,在我的 mac 电脑上,我更倾向于使用三十五 b a 三 b 巴比特 m l x 格式的,那它的速度呢?大概是呃七十二 tik 每秒,同样也是巴比特,然后九 b 的 模型, 那呃速度的话,只能是五十多 k 啊每秒,这个速度的话就显著变慢了, 如果是用了二十七 b 这个重密模型的话,那速度会更慢。而我在电脑上跑零点八 b 巴比特量化的时候,速度能达到两百 k 以上,这个速度是相当快的。再看一下各个模型啊,它的性能表现,零点八 b 的 模型呢 啊,它在数学 ocr 方面的话,得分也是非常高,可以适合一些简单的 ocr 任务。之前呃千万三 vl 的 很多模型就将下方的 lvm 里面会漏掉一个字母,因为这一行的文字呢,它是比较小的。 我在本地用巴比特量化的零点八 b 模型,让他去 o c r 的 时候,发现它这里的质量是相当不错, 我肉眼看了一下,是没有什么错误的。而三点五二 b 模型呢,它的得分呢,是超过很多上一代七 b 模型的, 也是非常强。四 b 模型在 m m l u pro 得分呢,接近于千万三三十 b a 三 b 了。而在 呃 omega dos 编制得分上,它是击败了 g b t 五 nano。 再看一下九 b 模型,在长上下文基准上,它是打败上一代的千万三三十 b a 三 b 的。 而在 m m m u pro 基准上, 超过 g p t 五 nano。 那 社区的用户反馈呢,二比特和三比特量化质量又开始有明显下降,六比特呢,几乎没有可测量的性能损失。那千万的这几个模型,社区对他们有些评价, 比如说啊,很多用户对二十七 b 还是非常青睐的,认为它的知识库很丰富,能力也很强。社区呢,给到三十五 b a 三 b 是 三分。说到这里呢,非常推荐大家在使用千万三点五的时候呢,看一下 onslos 的 它的一个使用指南, 它在这里就详细介绍了啊, sync 模式下,那我们的各方面的参数怎么设置?现在就来看一下千万三点五中小模型在我本地进行的一些实际体验,那我在这里呢,用到的都是它们的 m l x 格式 巴比特量化的模型,现在看到的是让 a 三 b 模型反推 ai 绘图提示词,在下方,我们看到它回复的内容还是非常多的,我把这里的提示词发给 nano blender pro。 二、 它帮我生成的图片呢,和我一开始发给的原图非常相像, a 三 b 帮我解读图片也是比较好。 这张图呢,呃,我们可以看到各个模型,它并没有明确说这个模型。呃,它的 swbench pro 的 得分是多少,那这里 a 三 b 它是自己估摸出来说啊,千万三 coldest 它的性能达到了约百分之四十四,这张图呢,是我从网络上获取的。再讲呢,千万二点五零点五 b 模型和现在的千万三点五零点八 b 在 回答同一个问题的时候, 已经有了非常大的进步。那我现在就让 a 三 b 模型来解读一下它。在这里呢,解读的非常好啊,每个模型的名称,包括每个具体的回答, 然后还来了句幽默的话,说这张图呢,主要目的就是炫耀千万三点五相比千万二点五的进步,就模型呢,就是太听话了,你问什么他姓什么,甚至呢能编造事实。而篮筐呢,他更聪明,能识别出常识性的错误, 不会一本正经的胡说八道。我在使用 a 三 b 的 时候呢,有的时候它的思考过程会一直循环,那我们可以通过重建对话,或者在提示词里面加一句,让它不要过度思考来解决这个问题。在呃,这张图里呢,我们看到这是九 b 回答的, 我呢是希望模型识别出这张图里的所有的配件,八五四是一个垫片,九臂模型呢,它说这里是连接圆盘和固定件,这里的说法的话还有待加强。之后我又让九臂模型帮我做一个音乐格式化合成器,这是它第一次生产的效果, 点击自动演奏,点击的话是没什么反应的,当我点击粒子喷发, 那效果的话也能出来,但是和我的琴键上是不是一一对应的,而且控制台是有一些报错的,所以呢,我需要他给到完整的啊。最后修改后的文件能听出来他正在弹奏小星星,但是我们可以感知到他发出来的声音和琴键的按键的 啊,按下去是不对应的,所以这里还是有比较大的问题。再让九臂做一个赛博朋克的个人信息仪表盘,再看一下它身上的效果, 在这里的话,它身上的这个页面就要比刚刚要好很多了。再接着呢,我将一张模糊的小票发给九臂模型,让它识别一下。这张图下方呢有四个字比较模糊, 那九 b 呢,模型在这里没有识别出来,其他的文字内容的话,我看了一下,没有什么太大的问题,我再尝试了一下,这次呢,他将五音良品下方的文字都是展示出来了, 这样的千活字减字盘 a 三 b 模型也能非常很好的识别出来,这是他的思考过程,内容非常非常多, 真的就是一个一个字在识别,最终是能识别出大部分文字的。如果说你在连接 ml studio 让它识别图片的时候出现这样的问题的时候,那你可以考虑,一是将整个模型它的上下纹长度变小一点。 第二呢,是限制一下啊,整个图片的一个尺寸,我一开始给它设置的是不超过四零九六,那经常会有内存溢出的情况, 而改成二零四八之后就会好很多。这个画面里呢,我让他数一下有多少只火烈鸟模型呢?是,呃,思考了十一分钟,最终呢,一直都在重复,所以我就终止他任务了。我换成 a 三 b 呢,让他识别图片中有多少只火烈鸟。 它这里的话啊,识别还是相当不错的。同样的,剪字盘发给 a 三 b, 让它解读图片,并且 ocr 图片里的所有内容, 它能很好地指出这是活字印刷的字模,必须是反字镜像。之前是只有一些比较大的模型,它能识别出来, 那像 jammer 二点五, flash 这种,它是识别不出来的。所以现在啊, jammer 三点五,它的能力还真的是非常不错的。当我提示九 b 模型呢,让它数一数图片中有多少只火烈鸟,不要过度思考,那我们看到它思考了三分半钟, 最终就给到非常好的回答。如果说,嗯,大家也遇到同样的他模型,一直在思考,那就可以将提示词改一下。我还让零点八 b 模型呢,反推 ai 绘图提示词, 最终将这里生成的提示词呢啊,发给 ai。 最后 ai 生成的图片和原图呢,是有一些区别。 换成四 b 模型之后,将这样的提示词发给 ai 身上后的图片就和原图非常接近了。在这里呢,呃,用到了四 b 的 思考模型。而在这里呢,大家可以看一下,这里是没有思考模式的,那这个是怎么设置呢?我们来到啊 l m studio 里面找到模型, 然后右侧呢,我们可以点击一下这样的一个设置按钮,在推的这个界面有一个提示词模板,在这最上方呢,在这最上方添加一下这样的一个设置, 它就会关掉思考了。最后呢,我也测试了一下 a 三 b 模型,它的工具调用能力,我是通过在 client 里面和 open code 里页计划模式让它来编码来测试的。我们现在看到的是一个理发应用,右侧有 three js 的 元素。 在我个人看来啊 s m b 它能达到这样的效果还是非常不错的,这是它生成的方便面自动化工厂,包含多个步骤。其实和我之前用一些比较大的模型 啊生成的已经是很接近了,这是它生成的火星体数生物研究站的啊,一个场景,我们仔细看的话会有一个透明的球, 它生成的这个透明的球的话,效果肯定是比不上 mini max m 二点五或者呢是 office 四点五。 但我个人觉得对于啊,它在我本地运行这样的一个 a 三 b 巴比特的模型,质量也是很不错了。现在我们来看一下咱们在 opencode 里使用 lm studio 的 模型。那首先呢,我们可以通过这行命令 来确认一下 l m studio 当前暴露的真实模型 id。 然后呢,可以啊,打开配置文件路径修改粘贴以下部分,再之后呢,就可以重启。 以上呢,就是今天介绍的关于千问三点五中小模型的一些使用体验,我个人对它来说是非常喜欢的,因为它文本能力也强啊,原声支持二百五十六 k, 而且 它是多模态的,现在无论是 m、 l、 s 还是拉曼 c, p、 p 都是支持批量调用的, 所以大家可如果有一些批量的啊,一些任务不复杂的,那完全可用它来在本地来做,因为它输出的质量是相当不错的。四 b 模型、九 b 模型和 a 三 b 模型都是非常非常推荐的。

外行人搞 ai 来了,近期因有人问起 v l l m 私有化部署模型的问题,我今天就聊聊 v l l m 部署模型。 v l l m 是 一个业内常用的推理引擎,具有省级 pu 资源、推理速度快、开源免费等特点,广受主流模型的喜爱。目前大部分的主流模型都会支持 v l l m 部署。废话少说,先看演示。第一步,去 hackin face 上下载模型,因我的资源受限, 我今天就下载宽三点五九 b 进行演示,模型大约有十八 g。 第二步,我写了一个脚本,对 v l l m 进行自动化部署,这是模型的文件,这是部署时配置的上下文,这是显存,这是模型的部署参数, 这是 dcap 参数。我用了 v l r m 加 dcap 的 组合进行部署。第三步,一键部署完后,我把 dcap 启动起来, 这里需要点时间,启动以后, vr vr 就 提供了 ai 服务能力了,这是 vr vr 提供的 api 接口,看得懂的自己看哈。 最后,我写了一个脚本,调用了宽三点五九 b 的 模型进行测试生成,偷看的速度还可以哈,完美, 我不做教程。对 v l l m 私有化部署模型有兴趣的小伙伴私信我交流。

就在昨天,阿里发布了一个狠东西,前吻三点五三十五 b a, 三 b, 一 张 rtx 三零九零二十四 g 显存,跑满二十六万上下吻一百一十二透视每秒。你没听错,二十六万上下吻,速度几乎不掉。 它和传统三十五 b 模型最大的区别是什么?是 m o e。 传统模型是全部层都工作,上下文越长,显存越爆,速度越慢。但这个模型总参数三百五十亿,每次只激活三十亿,二百五十六个专家每次只调用八个。 四十层里,只有十层是传统的 n t s, 剩下三十层用的是一种类似循环记忆的结构。结果是什么?上下文从四千直接拉到二十六万, 给你一个对比,传统三十五 b 模型,二十六万上下文要三十 g。 而这个模型模型本质是八点五 g tv 开始,二点七 g 状态缓存六十三兆,总共二十二点四 g b, 刚好塞进三零九零中。重点来了,有人用它干了什么?一条替诗词让模型写一个完整。太空射击游戏 带粒子系统,带碰撞检测带程序音效自动调试。三轮三千四百行代码,八个模块一次生成,完成一张三零九零三十亿激活参数,这不是跑奔驰 mark, 这是在干活。同样人物八十倍模型,两张三零九零 四十六 topos, 每秒两轮才跳通。这个模型一张卡一百一十二 topos, 每秒一次成功不是更聪明,是更快。在本地推理世界里,迭代次数大于单词治理, 一张二手三零九零仅需五千元,模型免费,没有 api 费,没有订阅费,没有速律限制,而且这已经是本地 ai 最差的一年,以后只会更快。

九 b 的 蒸馏模型工具调用测试居然打了满分。大家好,我是 ai 学习的老张, cloud opus 蒸馏 q n 三点五这条线我从 v 一 追到现在,今天 v 三来了,这次改动大到连名字都换了,叫 q opus 三点五。 q n 加 opus 的 合体 v 一 是让小模型学会推理, v 二是让他想得更少,答得更快。 v 三的核心是让他学会用工具干活,从会思考到会行动,这是一个质变。 先看数据,九 b 的 g g u f 版本下载量十点九千,断崖式领先,说明什么大家心里清楚,九 b 就是 甜蜜点, 十六 gb 的 macbook 就 能跑, windows 上普通显卡也没压力。再看跑分, humanivowv 三拿了百分之八十七点八,比原版 q 三点五的九 b 高了将近五个百分点。 v 二在九 b 上其实没啥提升, v 三一下子拉开了差距, mmlu pro 通用知识能力 v 二掉了百分之七点二,当时我说这是代价。 v 三把这个问题修了,反超原版一点四,三个百分点,代码更准,知识也没丢,这在蒸馏模型里非常少见。 效率方面,思维链缩短百分之二十五,推理效率提升百分之三十一点七,用更少的 token 办更多的事。 最让我兴奋的是,工具调用 v 三专门做了针对工具调用的强化学习训练。我用凸口十五跑了一遍,十五道题全部通过满分。之前 v 二的二七 b 才做到这个成绩,现在九 b 就 行了。我的判断,这是这个系列真正成熟的一代。 想本地跑一个能写代码,能调工具,还不吃资源的模型。 q r p 三目前最值的是关注,老张,我们下期见!

这个千万的新模型配合沃克巴蒂简直就是绝配啊!兄弟们,还在研究本地部署的兄弟们, 如果你们觉得 open cloud 龙虾这种 a 阵特别难用的话,不妨来看看我这个例子。我用的是可巴蒂,配合的是我本地部署的这个千万的大模型,二十七 b 的 模型。刚才有一件事震惊到我了,刚才我跟我的 a 阵说,让去 github 上搜一个项目,和我本地 改造后的项目去做一个对比分析,发现问题在哪。我从去做饭到吃饭差不多花了不到一个小时的时间,那么在整个过程,直到我吃完饭,我的 age 呢?还在工作,一共经历了多少次?大概 不到二十九次的工具调用,以及呃,六十次的思考过程?对,你完全没听错,这是一个本地模型所做出来的事,同时整个过程还能保证了 大约在二十 token 的 速度。整个过程呢,从下载项目到 plan a, plan b, plan c 的 测试,完完全全 自己搞定,没有让我插手。这个模型呢?是什么呢?这个模型不是最新的千万三点六,千万三点五,二十七 b v 三点五的蒸馏版。同时呢,千万三点六的模型我已经下载成功了,稍后呢也会测试一下。

三张三零九零也能跑满拥有 cloud 四点六 opus 顶级推理能力的二十七 b 大 模型,就问你香不香?大家好,我是 ai 学习的老张,最近有两个蒸馏模型在社区炸了,原理很简单,拿 cloud 四点六 opus 的 思维链数据去重新训练 q n 三点五二七 b, 逼着小模型学会 cloud 那 种深度结构化的思考方式。首先是 jack round 的 开原版,在训练时通过策略强迫模型只关注思考过程和答案,逼着他死磕并模仿 cloud 的 深度思考模式。 实测下来,用 q 四料化版本显存占用还不到十六点五个 g, 二十四 g 的 三零九零跑毫无压力,生成速度能飙到每秒三十多 token。 他还原生支持 developer 角色,跟 cloud code、 open code 这类 ai 编程智能体直接无缝对接。有人实测用它跑代码任务,后台自己跑了九分钟,看报错、改代码、写 read b 一 条龙搞定。 第二个是老熟人 t h a i 发布的同系列高质量模型,并贴心地给出了保姆级实战超三指南,比如写代码时温度降到零点六,防止模型瞎说。做竞赛题的话,输出 token 上限直接给到八万,让他有足够空间慢慢想。 benchmark 上多项指标都比原版 qn 三点五杠二七 b 有 提升。虽然这类蒸馏模型为了专攻纯代码和重度逻辑推理,舍弃了原版的多模态能力,但我认为它真正牛的地方在于它跑通了一个全新的玩法, 用顶尖模型的蒸馏数据配上开源底座和微调框架,未来用本地模型去平替掉昂贵的云端 api, 这才是咱们技术玩家最该关注的星辰大海。

q n 三点五昨晚发布了,但官方数据再漂亮,也不如社区实测的红黑榜靠谱。如果你有二十四 g 显存,无脑充三十五 b a 三 b, 它是这代的版本之子,代码和逻辑能力在这个量级基本没有对手。虽然每次推理只激活三十亿,参数速度飞快, 但记得他吃的是三十五 b 级别的,现存二十七 b 表现比较平庸,除非你的设备实在跑不动大的,否则不推荐吃鱼。 flash 版,它是处理百万字长文本的神器,本地跑太费劲,直接调 api 效果最好。 今天的视频不废话,直接把压箱里的推理参数、部署命令和调优经验喂给你,让你少走弯路,直接上手。 模型选好了,但如果参数设错,再强的模型也会变傻。先看最核心的深度推理场景,比如做数学难题或者逻辑推演,这时候必须开启千问三点五的思考模式。 注意,这里的 temperature 建议直接拉到一点零,这种高温设置能充分激发模型思维的多样化,同时配合一点五的存在惩罚,也就是 presence penalty, 这能有效解决模型在大规模推理时容易出现的复读机问题。但如果你是要写代码或者搞外部开发, 逻辑的严密性就比灵感更重要了。虽然同样是在思考模式下运行,但要把 temperature 降到零点六左右,降温是为了让模型输出更稳,少一些天马行空的幻觉。 top 维持在零点九五, 这样深层的代码逻辑会更连贯,能大幅提升代码的一次性通过率。再分享两个能让效果翻倍的小细节,第一是输出长度, 也就是 max tokens, 普通的活三十二 k 够了,但要是跑竞赛题目,建议直接拉到八十一 k 以上, 这多出来的空间不是给最终答案的,而是给模型留足打草稿的思考过程。第二是提示词技巧,做数学题一定要在末尾加一句,请逐步推理,并将最终答案写在框内。 要这层格式就明确要求只输出字母明确的指令边界,能让模型从猜你想干嘛变成精准执行。 最后必须划个重点,关于存在惩罚这个参数,虽然前面建议设为一点五,但你手动微调的时候千万别超过二点零。一旦设高了,模型会为了强行避开已经说过的词,开始强行凑数,甚至胡言乱语,整个逻辑会瞬间崩坏。 控制在零到二之间,这是千万三点五保持理性的最后安全区,模型调好了,怎么稳稳的跑起来?目前性能最强的是 s g l m 方案安装,别用慢悠悠的 pick 了,直接用 u v, 效率最高。 启动时一定要手动加上 razingpasta 这一行,这是千万三点五开启思考模式和工具调用的物理开关,漏掉它,模型就退化成普通版本了。 多卡用户记得根据显卡数量对齐 tv size 参数,确保算力全开。很多人一跑部署就炸显存,其实是因为忽略了那个默认二十六万长度的上下文设置。 如果你的显存没到八十 g 以上,千万别直接硬跑。建议手动把 context lens 压到幺二八 k 甚至更小,再配合 memfraction static 零点八这个参数,把静态显存死死锁住,这样能有效防止推理过程中显存突然飙升导致的崩溃, 让长文本处理变得真可用。如果你习惯用 lu l m 部署,这里也有个压榨显存的绝招。 再加上蓝宝石模型函数,虽然会暂时舍弃多模态视觉能力,但能为你换回巨大的文本处理空间,这在跑超长代码审计或者纯文字逻辑推理时是性价比最高的选择。确保带上 reasoning part, 让 v o l m 也能输出那串关键的思考过程。 如果你是通过 api 调用千文三点五,千万别在提示词里加斜杠 think 指令模型根本不吃这一套。正确的做法是,在 api 的 extra body 参数里,通过 chat template quicks 手动控制 enable thinking, 把这个布尔值设为 false, 模型就会跳过思考,直接给结果需要逻辑爆发时再开启,这是目前开发者最容易忽略的传餐细节。 要处理整本书或者超长文档,你就得开启千万的 r n 扩展,在 v l o l m 启动参数里追加这段,重写代码,把 max model line 拉到一百万以上。 这里有个独家经验,如果你的文档只有五十万字左右,把 factor 系数设为二点零的效果要比默认的四点零更精准。只有当文本真正接近百万级别时,才建议拉满到四点零。 想让模型看懂一两个小时的长视频,去修改模型文件夹里的视频预处理配置文件,找到 longest edge 这个参数, 把它改成这个九位数的特定值。这一步能让模型处理超过二十二万个视频 token, 无论是长篇分析还是监控复盘,理解深度都会产生质变。 最后总结一下,对于大多数本地用户,无脑充三十五 b 的 a 三 b 版本,只要你有一张二十四 g 显存的卡, 把它跑起来,温度拉到一点零,开启思考模式,这就是目前本地体验最好、逻辑最硬的中杯模型。上下文平时空在十二万左右,兼顾速度和显存,按这个配置跑,你就已经超越了百分之九十的普通玩家。

给大家介绍一下,就是通一千万三点五二十七 b f p 八的这个模型,跟通一千万三点五三十五 b active 三 b f p 八的这个模型,我们做了优化之后的一个对比测试,因为有网友说这个 二十七 b 的 模型速度非常慢,那么我们可以一起来看一看那个二十七 b 的 跟三十五 b active 三 b 的 这个模型到底。呃,二十七 b 这个模型也是属于 非 m o e 架构的这种模型,它就是属于筹密居正的一个模型,所以它二十七个币的权重它 g p u 都是要算的,所以相对来讲会更慢一点,但它性能会更好一点。之前我们也给大家评测过这个 active 三十五币的跟二十七币的比较下来,二十七币的 模型能力会更强一些,那么我们可以给大家看一下这两个模型,我们比较下来就是二十七 b 的 这个模型能力更强一些,但是它的推理的性能会慢一些,那么到底是慢多少?我们今天就给大家做了一个实验,我们还是用 gptv 三的这样的一个测试数据集做了一个压测,这个是三十五 b active 三 b 的 这样的一个性能也是一样,我们一千次请求最大并发症的时候,每秒钟有八次请求,因为目前看下来,它的整个我们是用 rtx 四零九零两块 gpu 来推理的,那么这两块 gpu 基本上是每秒钟最多处理的是三点六六个请求, 那么它最大的这个 token 输入大概在九百三十八,输出大概是在参七百六十左右,它平均每秒钟的产生的 token 呢,平均基本上是在二十毫秒,二十毫秒一个,那就相当于我们如果是一秒钟的话产生五十个 token, 当然这个都是在满负荷的前提下,它不是轻负荷,满负荷是 gpu 全部打满,这个时候它来不及处理的时候,因为我们这个时候给它压力是八个并发症,那么四个并发症我们测下来也是一样,因为差不多的这样的一个数据。好, 我们再看看这个三十二十七 b 这个模型的情况,那么二十七 b 这个模型的明显性能会下来了,那么它是每秒钟大概能够处理的是两个请求,那个是三个, 三点六个请求,那么这个是两个请求。这个差异还是有一些的,经过优化之后,我们也差不多不可产生的时间会少一点,大概是在三十三十毫秒,那就是一秒钟大杀大概产生三十三个, 他大概一秒钟产生五十个,所以你可以看到性能上面还是有差异的,但是没有网友讲的差异这么大,那么差异这么大的主要原因是这个有可能是什么没有优化好啊,或者是你优化的还不够充分,因为你要把相关的一些参数,要把它优化好之后你去跑应该 差异我们目前测下来有一定的差异,但是差异应该也是能够在接受范围之内的,是属于这样的一个情况。好,这个视频就给大家就介绍到这。

大家好,我是 kitty, 这期视频呢,准备了非常久啊,主要介绍一下千万三点六二十七币,我的实测情况,还有我在 mac 上通过三种不同的方式来运行它们出现的不同的结果。千万三点五二十七币呢,很多人就非常喜欢它, huntface 上也有很多关于它的不同的微调的版本,普遍认为它的性能是非常强的。那它升级到千万三点六二十七币之后,它是上个月发布的,定位是旗舰级的,可以在本地运行的一个智能体编程, 关键看点是用二十七币的模型来挑战前代三百九十七币 moe 的 旗舰模型。 这次三点六二十七 b 呢,特别强调它的编码能力,无论是 swbench verified 还是 swbench pro, tomono bench, 二点零等等, 都是要比前一代啊,要那么大的规模的模型呢,是要更强的。它在文档理解啊, vqa 视频理解视觉智能体方面也是非常厉害。目前呢,我们呃最简单使用它的方式呢,就是在千问 studio 上面去体验它, 官网上部署的这个版本是我们能体验到的最好的。我呢在呃上个月体验了一下它,一开始我用的是一个动态量化 q 五的啊, on slow 出品的 g g f 格式的, 当时我体验下来它的生成速度是十八 talk 每秒在运行它的时候就会有呼啦呼啦的声音。 mac 端和 windows 端不同 啊, windows 的 话很多用户通过三零九零,四零九零都可以很好地去运行千万三点六二十七笔模型, 而且速度还是挺快的。但是 mac 电脑上运行这样的一个 dance 模型的时候啊,一方面速度会普遍比较慢, 第二是在 mac 上运行啊,千万三点六二十七 b 真的 是有太多太多的选择了,现在就有不同的后端。之前我有介绍 lm studio, alama onslos studio, 那 这些已经算是旧的了。现在呢,比较新的有 omlx, 有 deflash m l x, 还有我今天要重点介绍的 m t p l x。 如果大家习惯用 o l m x 的 话,那可以关注它啊。开发版本最近呢,是做了很多优化。昂尔斯呢,它最近也推出了实验性的 m t p 千万三点六昂尔斯的啊, g g u f 模型。我尝试了昂尔斯推出来的六比特 m l x, 然后再加上 deflash, 当时的生成速度是二十二 to 可每秒。而我换成 m t p l s 之后呢,斯比特的模型生成速度 是翻了一倍,这个呢,就有了一个非常大的提升。而且即使是斯比特,它的质量也是不错。我在这里使用的是它对应的一个呃, speed 模型,这里对应的就是斯比特的模型。如果你想要更高质量的,那你可以下载作者最新发布的 关于二十七 b 的 高质量的模型。这名开发者 ivan 呢,他是做了非常多的关于二十七 b 的 分享,比如说这里呢,他用到了 d flash m l x 搭配 zlab 的 drop。 他 认为呢,初步测试看, d flash 明显要比单独的 mtp 更快, 但在质量方面,他观察到呢,有所退化。他也分享了测试 m t p l x 最新的零点三点五的版本的体验。那,嗯,他的体验里呢,五分三十秒内取得了百分之九十三点三的正确率 是在一个数学基础测试上面测试的,在他看来 m t p l x 的 输出质量还是不错的。还有另外一个机构呢,嗯, atomic chat, 他呢在朗姆 c p p 上为千万实现了 m t p, 大家可以看一下。为什么说这些事情花了很长时间,就是我在接收这些不同的啊方法,然后再去尝试, 所以这中间的话是花了挺长时间的。我们来看这位博主呢,他就是用我刚刚介绍的 m t p l s。 然后斯比特做出了一个非常丰富的游戏,这里的这个元游戏元素是非常多的,我们会看到有非常多的建筑, 还有小车,还有这样的一个广场,呃,树木,道路, 还有这样很大的一个广告牌,大概率不是一次迭代去生成的。那这应该是健身房的一个场景,电影院场景, 教师场景都是非常不错的。现在就给大家分享一下我通过四个不同的渠道来使用千万三点六二七 b 啊,它们的一些效果。现在看千万官网上的这是千夫拉船 啊,这个船的话不知道为什么会从这个啊山体里啊出来,感觉逻辑上是有点问题,我鼠标指的这部分的话, 感觉这里绚烂还是有点问题的。缩小来看其他场景里的啊,植物有部分是飘在空中的, 所以他在这个任务上做的是一般。接着我将这张图发给二十七 b, 让他复刻一下,他复刻的这个页面还是非常不错的, 背景的话我们看到因为现在是显示十六点多钟晚下午,所以他已经切换成夜间模式了。云朵的话不是特别像我一开始发给他的云朵样式,这是让他做的一个十字路口交通仿真, 那我们会看到呃,这样的线柱呢,直接放在了道路上,所以是刚刚出现了一个穿模的现象。还有这个啊,车的这个方向啊,稍微有点问题。 此外的话,我觉得他这个道路啊,画的还是有非常多的细节的,左边的控制面板和右边的实时统计数据维度也是非常多,说明他思考还是非常充分的。再看他做的三 d 模尺模拟器, 当我选择啊预设造型,先是球形,那它生成的不是球形的样子,当我点击不同的关节的时候,那我可以点击进行一个切换 啊,这里也是出现了一个 bug。 再看它生成的礼物包装智能助手,当我选中长方体,再点击一下智能分析包装方案。 左侧我们会看到呢,他这里啊,这个预览的话是不对的,因为上方明确是一个长方体,而他这里预览的还是立方体, 那他的造型做的还不错,我们可以看到有这样一个蝴蝶结,但是整个啊礼物一般来说不会有那么多不同的画面。右侧呢,他有一个推荐搭配的丝带,这个切换是 ok 的, 好在下方这样的一个包装纸图案呢,他变成空白了,所以也是有问题。他在右侧,嗯,比较有意思的是,他还给到了一个包装盒尺寸,也就是说不仅是有包装纸, 然后还有包装盒,那我认为这一点是它做的比较好的。现在呢,来看一下我通过运行 ansolo 出的啊, u d q 五 g u f 的 二十七匹模型,它的表现如何?这是它做的仓库分拣仿真系统, 那我们可以看到目前整个画面 ui 还是不错的。这个机械臂的话啊,细节方面是有比较大的问题,而且这个球的话直接穿模穿过去了 也看不到机械臂是怎么把物体给提取出来的。这是它生成的十字路口 啊,这个十字路口的仿真效果就是要差很多了,而这是他做的礼物包装智能助手,我们会看到他做的这个三 d 预览效果还可以,但是切换到圆柱体就没有了,那我选择一个智能推荐包装方案,下方 展开图,那这里也丢失了它,这里非常好呢,有一个包装步骤指南,右侧四代方案这里选择啊,是能实时在左边反应出来的,在下方包装纸 点击没有反应整个页面啊,其实他还是做的非常美观的,但是功能方面有很多缺失。这是二十七 p 生成的马卡龙花园,我给他的要求是希望他生成的是花朵,那我们可以看到啊,这里呢 啊不是特别像花朵,但我对他生成的内容还是满意的,因为有一些比他啊大的闭园模型啊,他连这样的场景嗯都做不出来,所以我个人觉得二十七 b 在 这方面啊回答的还不错。 唯一的问题呢,就是这个场景在我电脑上是处理了,花了啊非常长的时间,这是他生成的膜尺,那这个膜尺质量的话是要比刚刚我们看到在官网上啊用的二十七 b 效果是要差的。 那我选一个预设造型,同样他这里啊不能展示出球形也是有问题。再看他生成的啊题弧,骑自行车的这样的一个体述场景 啊,会有一些闪烁的画面,然后动感的画面的话,自行车没有动起来,而自行车下方呢,是有一个道路的设计啊。那我觉得二十七 b 在 这里还是有思考的,还是思考的不错。再看他生成的纤夫拉船, 这个纤夫拉船效果在我看来其实已经很不错了,我们会看到绳子和纤夫黏在一起, 但是呢,船再往前走的时候,哎,这个绳子又停在原地了。再来看一下我使用奥斯洛斯出品的六比特 m l s 啊,二十七笔模型搭配 d flash 在 我本地生成了一些情况, 这是我让他做的一个啊理发应用。最后他生成的页面里面呢,有一些乱码,整体页面设计还行, 但是错误也是比较多的。嗯,所以在这个问题上,我觉得它做的还算是中规中矩。当时我的体验呢,就是速度比较慢, 所以没有再做更多关于它的体验。不过呢,可以给大家分享一下,我是怎么把它用在啊我电脑上的啊,我当时使用它的时候呢,对 flash 也可以在 mac 上运行吗? 然后他告诉我是可以运行的,并且当时呢,官方的 draft 模型已经上线了,下方给出使用方法。后来我就看到他推荐有一个 d flash m l x, 我 说让他帮我找一下,并且将我的电脑内存信息发给他,问他是否可以运行 d flash, 他告诉我是可以的。在之后呢,我就将这样的一个帖子链接发给 grok, 我 说根据这个帖子,那千万三点五二十七 b m l x 会不会被影响?因为它是 dance 模型? 这里呢,其实是我写错了,应该是千万三点六二十七 b。 在 之后我就问他,千万三点六二十七 b 标准的 m l x 量化版本 是不是已经没有这个问题?他告诉我, m l x 社区啊,出的还是有这个问题。 这是四月份我提问他的。目前呢, m l x 社区里关于这块版本更新还是挺多的, 所以大家可以以新的版本信息为据。在之后我就问他, onslush u d m l s 动态混合精度版是否可以搭配 deflash 在 我的 mac 上使用?他说,可以。那时候我才知道 onslush 啊,它本身有也有出 m l s 格式的。 在之后呢,我就将这样的一个图片发给他,我问他,呃,我该选哪一个?他推荐我用,呃, u d m l x 六比特。在之后我就问他, d flash m l x 一定要装吗?然后 d flash 的 通俗工作原理是什么? grog 呢?就告诉我啊, d flash m l x 是 专门为苹果芯片开发的原声 m l x 端口,官方 z lab 啊, d flash 虽然也支持 m l x, 但社区的 d flash m l x 呢?啊,会更成熟。 接着他介绍了 deflash 的 工作原理。 deflash 呢,当时有个问题,就是他没办法去选择啊模型的温度,而千万三点六二十七 b 在 官方的指导里呢?呃,你写作用的温度和 编码用的温度啊,这是应该是不同的比较好。再接着他告诉我啊, drop 然后 zlab 出的这是一个小模型。再接着我就问他, deflash 有 一个接受率不是百分百,使用 deflash 会影响生成效率吗? 他也告诉了我一下。再接着我问他 deflash 会影响生成结果吗?并且问他 onslush 退出来的 m x 的 版本和呃, m x 社区退出来的版本区别 啊。我们可以看一下 rock 的 一个回复,在这里用 rock 主要呢,一是它搜索会搜索非常多的结果,而且它的生成速度是非常快的。呃,我是比较喜欢用它来查一些比较实时性的内容, 而且还有个非常重要的情况呢,是是在推特上面的话,呃它的呃用户社区里的用户分享还是非常多的, 信息是第一手的。再接着我就问他 dflash 会占用更多资源吗? grog 回复说会占用少量资源。那以上呃大部分情况我已经了解,之后 我就让 grog 呢帮我做一个从零到一的流程,告诉我如何在本地去使用 onslos 啊, m a x 六比特的,而且呢要可以接入到其他的 app 里。之后 grog 就 给到我这样的一个回复了,他又提到 open i 的 best url, 内容还是非常详细的。在之后呢,我让它改成 u v 来做这样的一个管理。基本上到了这里呢,我就可以将啊整个它的回复这段回复 啊发给 ai agent, 无论你是用 codex 或者是 cloud code, 让它根据这些信息呢快速在你本地进行一个安装。那在安装好之后运行呢?我是想把它接入到 open web ui 里, 当时有遇到呃揭露的时候一些响应问题,那也很快让 ai agent 来帮我解决了。我还问他 mac 上使用 deflash 呢有什么坏处? deflash 最早是什么时候推出来的?有误不稳定的情况。 brock 呢也告诉我了, 因为这些仓库呢每天都在变化,所以大家要想知道最新的情况的话,还是最好让 ai 呢啊,实时帮你去答疑,包括 d flash, m l x 的 版本呢啊,当时 grok 他 帮我去查到了多个, 我还问他,呃,既然有多个,我选哪个比较好?并且呢我还问他是否需要用到 o m l x 有 什么好处和坏处, 他告诉我说不需要。那 o m l x 呢,现在也是有很多改进的,所以大家也要以最新的为准。最后呢,就介绍一下,我在 mac 上,最后我使用 m t p l x 获取,我认为是结果是最快,然后结果相对来说也是不错的一个方式。 那 m t p l x 呢?它的安装还是比较简单的,先用 blue install 一下,然后呢,通过 m t p l x start, 它会有也它是有一个交互命令,它会提示你用什么模型。 呃,如果说你是第一次使用的话,可以用它的 speed 模型,也就是默认的选中之后会进行安装。 再之后呢,它会让你选择啊,用什么模式啊,也推荐按照默认的模式来选。再接着呢,它会提示你可以在 web c o i 啊 pi 或 open code 等渠道进行一个对话, 那我选择它的 web ui 啊,打开之后我给他一个提问,我问他什么模型,他回复我, 然后我们可以看到这样的一个输出速度是四十三点六,投看每秒,左侧呢,可以调整模型的参数, 所以如果你在编码的话用零点六。而在做一般任务的时候呢,千万官方建议调整是把温度调到一。在本店运行好之后呢,我就直接打开 open web ui 了,不需要额外的设置, 它会自动识别出 m t p l s 键。问,三十六 b 二十七 b optimized speed 模型,也就是我刚刚提到的 m t p l s 默认的模型,它目前呢也是仓库下载非常多的, 它还有一个更高质量的版本,大家可以去试一下,现在就看一下 m t p l x 呃,斯比特版本它的输出效果。这是兵马俑街舞,这个街舞呢是分了好几个不同的章节, 那我觉得这在一个小型模型上啊,出现了一个非常不错的效果,这是它生成的礼物包装智能助手,左侧我点击不同的礼物,右侧会出现对应的啊礼物预览,整体它界面做的还是非常不错的, 在下方有个参数的场合,点击不同场场合呢,右侧会有不同的包装纸,而且这个三 d 预览效果的时候啊,包装盒和可包装呢有点分离。这是他生成的一个绵羊理发店 啊,这个绵羊理发店对他来说,我觉得他生成质量真挺不错的,小羊头上有个蝴蝶夹,然后我们也会看到一个理发师,然后给一个绵羊理发 啊,他的围布格子型做的也是比较美观,而且这个椅子效果感觉做的也是不错 啊,深红色的一个沙发,整个画面里多个物体位置的摆放,物体的细节我认为做的都是相当不错,稍微有点遗憾的是,他的窗户跟门他是重合在一起了,再让他做一个体数艺术的题。胡骑自行车, 那我们可以看到这个自行车在这里就动了起来,虽然说动的这个啊方式不对,没有向前骑啊,而更像是一个摩天轮了,下方的道路我们还是能清晰看到的。整体这个画面里呢,内容也比较多 啊,可以看出这个版本二十七 b 做的还是不错的。再看它生成的纤夫拉船,那我们看到这里的话,绳子啊变成了像布一样的, 那船的话细节也不是特别好,但是 m t p l x 呢,现在也有个问题呢,就是它不支持图像识别,再看它做的仓库分拣系统, 那我们可以看到啊,物体是突然之间跑到这个机械臂上面的, 所以这里逻辑做的还是有很大问题,而且那箱子的位置摆放也有问题,直接放在了传送带上,但总体而言已经是要比我想象中是要好很多。 这记住,这只是一个斯比特,在我本地只能跑到四十 to 肯每秒的啊,一个模型质量相当 ok 了。除了编码任务,我也将一些其他任务发给他,让他处理,比如说现在是让他做一个啊写作的任务, 写一个不超过三百字的微型悬疑故事,大家可以暂停来看一下这个故事,觉得怎么样?那我觉得还是不错的,再让他做一个推理题,假设月收入七千,生活在一线城市,没有存款,想在四年内凑够六十万 啊,是给出一个计划,在这里他思考用十一分钟,最终给到我回复, 它的回复内容还是非常非常多的。那我这里呢,是让呃 gbt 五点五 thinking 来做了一个打分,它打分是打了五十多分,同样的问题,我也让 gbt 五点五 pro 来做了一下 啊,最终五点五 cking 给五点五 pro 的, 结果呢,打分是打了啊,八十二分。所以我们可以看出这样的一个二十七 b 模型和 gbt 的 顶尖模型是有差距的推理方面。 但在我看来,其实啊,也是很不错了。让他介绍一下唐代诗人李白在九八年纽约马拉松比赛中获得亚军的具体经历。 模型啊,思考了一下,告诉我有一个不可协调的历史时间矛盾。再给他测试了一些其他小题目,比如说让二十七 b 呢,把他很难过,写成一句有画面感的话,不超过三十字。 他回复的是他蜷在墙角,把脸埋进地弯,肩膀无声的起伏。我觉得他在这里回答的质量还是很不错的。咖啡店新品广告语呢,心斗出背,苦甜有分寸,那可能感觉一般。 再接着是让他写一段一百字以内的小故事,结尾必须反转,但不能像段子。二十七 b 呢,写道,他每晚都坐在椅子右端静候路口。直到今天,他终于起身, 指尖触到刚铺好的白砖。原来他等的不是贵人,是智讨政公的盲道。 嗯,有意思,但是可能不是那么有意思。我感觉之后呢,再让他写一个文案,表达终于辞职了,要求洒脱,不抱怨。二十七笔写道,交还钥匙,晴空日程不回头,谢幕指向只向前迎风。 原来转身也可以这么亲。还不错,挺好的,至少不是 a r v 很 浓的话。以上呢,就是今天介绍关于间问三点六二二七 b 的 所有内容。总结一下,我是在四个渠道体验过。嗯,二二七 b 先是观望啊,然后呢,是 onslos 推出来的呃 u d 五比特 g g f 后来又用 onslos 推出来的 m l s 六比特搭配 d flash, 最后呢是用 m t p l s 来生成的 m t p l s。 啊,那目前呢,在我看来是比较满意的,在我电脑上,呃,速度呢?相对其他方式速度快了近一倍啊, 遗憾呢,就是这个模型呢,现在没有视觉能力。这个视频里对二十七 b 的 编码能力是有做多个体验。那二十七 b 真的 挺强的, 写作方面的话,简单体验了一下也很不错,非常推荐大家在本地去使用它。

给大家再评测一下通一千万三点五三十五 b active 三 b 和通一千万三点五二十七 b 的 这两个模型,因为这两个模型都差不多大小,对我们企业级来讲都非常合适做独立部署。那么 这个两个模型到底选择哪一个模型做独立部署更加合适?我们一般总归选择智力比较高的,性能比较好的模型做,我们就今天继续做一个 c l o 的 评测,再看一看它的实际情况到底是怎么样。通过官方的这个数据我们可以看到,目前通一千万三点五二十七 b 的 这个模型, 它的能力要略高于通一千问三点五三十五 b active 三 b 的 这个模型,它不管在哪个评测能力上面稍微要比它要高那么一点点啊,除了个别,它有些 基本上它的能力是要比原来的这两个模型里面二十七 b 的 模型会更强一点。那我们实际测下来呢?确实也是这样,因为我们是用 cfo 的 评测,我们把评测数据给大家看一下,我们还是用 cfo 的 评测 cfo 的 评测,当然我们先测了一个,就是通一千问三十五 b, 通一千万三点五三十五 b active 三 b f p 八量化的这个版本,这个量化版本我们也是用 cfo 的 评测,它的性能 也是五千多道题目,五千三百八十四个题目。最后的得分我们看一下,它一共测了六分四四十二秒,它最后的这个得分是八十二点四七分, 应该这个分数是不低的。我们再来看看通一千万三点五二十七 b f p 八的这个模型,这个模型我测下来比它性能会更高一些, 从八十二分上升到八十四分,它的推理速度稍微快一点,这六分二十七秒,它它从八十二分上升到八十四分,八十四点八四,原来是八十二点四七,多了两点几分,这个也是一个量化版本,那么非量化版本它的 f p 十六我们也测了一下,这个是通一千万三点五二十七 b 的 f p 十六的这个版本看一下 性能也差不多的六分二十四,性能跟那个差不多,从是八十四点九二分,从原来的八十四点八四分上升到八十四点九二分,都是八十四分小分里面稍微略有些差别。所以我们企业级里面部署班,我们这次建议给大家用空千万三点五 二十七 b f p 八的这个模型,可能在我们企业里面,特别是在中小企业里面做独立部署的会比较合适。那么我们这次部署还是用了同一千万,用了英伟达的那个 r t x 四四零九零二二十四 g 的, 应该来讲我们目前测试是用了四张卡,但实际其实用两张卡就可以了。 好,今天我们简单的给大家来评测一下的,这个同一千万三点五系列里面,二十七 b 的 和三十五 b 的 这个两个模型更合适一点。今天我们这个视频就给大家介绍到这。

兄弟们,昨天直播的时候测试了千万三点五的几个版本的模型,今天给大家汇报一下啊,这是我下载的这几个模型,然后后面是它的大小, 首先是这个二十七 b 的, 它是一个稠密模型,它的速度在我的在机器上一百二十八 g, 这个统一内存的机器上,它的头肯是九点六, 比较慢,他思考时间也比较长。然后第二个是这个三十五币的激活三三十亿参数,然后是 q 八的 量化版本, m o e 就是 专家混合模型,然后他的思考过程也比较长,然后但是他的这个回复速度比较快,达到了四十一托克每秒。 还有一个是一百二十二币,是一百亿激活参数。然后是两位的量化版本, 这个的速度的话是二十四托根左右,但是他思考时间特别长,将近有一分钟或者两分钟,这个是一百二十二 b 参数,然后激活呃,一百亿,他这个思考时间也比较长,他这个速度的话是二十四托根每秒, 他们的这个上眼纹长度的话都是二百五十六 k 的。 还有一个要说一下,就是他的思考确实是全英文的,从这个模型的功能上看,带这种锤子的都是支持工具调用的,带这个眼睛呢表示支持图像, 带这个的话他支持啥?他支持推理,但是都会有这个 think 思考的过程,总体上来说他们的性能智商我觉得还可以, 就是主要是这个量化的位数影响了他的智商。还有一个很重要的一点就是模型的这个参数设置啊,他是他是有这个推荐的, 在这边都是有这个参数推荐你看上下文的长度,如果你要用思考模式,他是给的参数,如果你要是编码的任务的话,他给了另外一种参数, 所以有些人觉得他笨的话,可能是这个参数没有设置好。兄弟们,你们在自己电脑上测过吗?评论区说一下, ok。

阿里的通用千问大模型最近有了重大升级,千问三点五 plus 正式推出,这个新版本在推理、编程、智能体等多个维度都实现了显著突破,被业界认为是国产大模型在智能体能力上的一次标志性进展。说到智能体,很多朋友可能还不太熟悉,简单讲,智能体就是能自主完成复杂任务的 ai。 传统的大模型是 问一句,他答一句。智能体是你给一个目标,他自己拆解任务,调用工具、执行步骤、反馈结果。这两者的区别就像计算器和助理的区别。千问三点五 plus 智能体方向的能力有几个亮点,首先是工具调用能力。智能体需要调用各种外部工具, 比如搜索引擎、代码解释器、数据库、第三方 api。 千问三点五 plus 在 工具调用的准确性和稳定性上有明显提升,能更可靠的完成多步骤任务。其次是长上下文处理,智能体执行复杂任务时,需要记住大量的历史性, 包括之前的思考、之前的操作、之前的反馈。千问三点五 plus 支持更长的上下文窗口,能处理更复杂的任务链。再次是推理规划能力,面对一个复杂目标,智能体需要自主规划执行路径。新版本在长链条推理上表现优秀,能做出更合理的任务分解。阿里选择在这个时间点发布智能体能力的升级 时机非常精准,整个行业正在从聊天 ai 向智能体 ai 迁移,谁能在这条新赛道上建立能力,谁就能占据未来几年的 战略制高点。阿里的百炼 max 平台也在同步升级,过去几个月头肯消耗规模提升了六倍。这些数据背后,是大量企业开始把 ai 智能体 纳入到自己的业务流程里。比如客服场景智能体可以自主处理复杂工单。比如数据分析,场景智能体可以自动抓取数据生成报表。比如办公场景智能体可以自主安排会议、写邮件、做 ppt。 有 研究机构预测,未来一两年内,将有四成的企业应用嵌入任务型 ai 智能体,这意味着一个巨大的市场正在打开。

朋友们大家过年好啊,各种 ai 的 红包领到了吗?现在呢国产大模型啊也来拜年了,大模型领域的元神千问在除夕当天呢,发布了开源模型的新版本千问三点五, 虽然说啊,最近好多新模型发布,但是呢,千问三点五确实是我最关注的,因为呢它是毫无疑问的开源模型的领军者,所以呢,我也第一时间啊去做了上手的测试。今天呢就来分享一下我的千问三点五的实际体验。 如果说啊,你也做了体验,那可以来聊一聊。首先呢是参数,虽然呢我对参数现在不是特别的敏感,但是还是想和大家快速的过一下千分三点五的整体参数情况,那这一次开源的呢是千分三点五三九七 b a 十七 b, 也就是啊,三百九十七 b 的 总参数激活十七 b。 那 这次模型啊,采用了创新的混合架构,将限性的注意力啊和稀疏混合专家呢进行结合,力争呢在能力,速度和成本之间啊去达成一个最优的结果。 那还有一点啊,要特别注意的就是千万三点五是一个原生的多模态模型,也就是呢,从训练之初啊,他就让视觉和语言在统一的表征空间当中去联合学习,这个呢也是目前模型发展的一个趋势,在 g u i 理解还有视频分析等场景当中呢,都可以做到一模到底了, 数字呢总是很抽象的。那接下来呢,我们就进入实际的体验环节,因为啊,三百九十七币的总餐数量,估计大家呢想本地部署也比较困难,所以呢,想体验的话,主要就是通过千万 chat 还有阿里云百链的 api, 那我们先到千万 chat 里来做一些热身活动,先试试它的推理能力。那最近啊, ai 洗车的问题在网上很火,很多的模型呢都翻车了,我呢就先来试一下千万三点五怎么样?那我这里告诉他啊,洗车店离我家五十米,那我要洗车的话,我应该开车去还是走过去呢? 这里呢,千分三点五没有翻车,他注意到了问题的关键呢是洗车,另外呢还提示了一下可以叫上门洗车的服务。但是呢,这个服务在国内多吗?反正我是没有体验过啊。 那接下来呢,我再让他去写一个祝福语来试一下。在中文方面呢,其实我觉得啊,谦问的表现一直是可以信任的,这个祝福语的水平呢,也是相当可以的,文字方面的内容啊,我就不想放太多的精力了。接下来呢,我们就来试一下多模态,感受一下呢它的原声多模态支持。 那首先呢,我想试一个场景,在春节期间啊,大家都会刷到很多的爆款的 ai 视频,那很多时候呢,都会去求提示词,那是不是啊,可以用千字三点五来去帮我理解。然后呢直接去复刻这个视频, 这里呢,我传一个看到的很酷的视频啊,然后呢让千问去帮我分析一下视频的画面的整体风格,还有色彩,运镜动作。那最终啊,给我提示词,来去复刻视频。那很快呢,千问呢就可以分析出来视频的内容了。 其实呢,很多时候我们做不出高质量的 ai 视频,就是因为我们自己啊,写不出合适的描述,那我呢也使用同样的模型来试一下这个推理出来的提示词,它的生成效果, 那基本上可以说啊,它的复刻程度达到了百分之九十以上。那我呢也用千瑞 chat 自带的这个视频生成啊,也试了一下,那因为默认啊,它生成的是五秒视频,效果上呢就会有一些差异,但大体上呢也能复刻,所以呢,说明啊,它的理解是没有问题的。 那这一次啊,千万三点五也特意强调了它在开发方面的提升,而这个呢正是我最关注的一个部分,同时呢千万 chat 也加了一个 web dev 的 功能。那我们呢就先来快速的试一下,开发一个 web 上的小应用。 那昨天晚上啊,春晚的哈尔滨分会场,我觉得非常的不错,那我呢就给谦问一张哈尔滨分会场的图片,让他啊帮我去用三 d 的 方式重构这个场景,那还要可以自由的缩放和切换角度,那代码生成的速度啊,确实非常快,稍等一小会儿就能拿到结果。 那从功能的完成度来说呢,非常不错,尤其是啊,还非常细节的注意到了烟花灯光还有人群的特效处理, 可以单独的去做开关,特别是人群啊,真是太细节了。还有呢就是预设的这个镜头和时间,可以说呢,他在我的基本要求之上延伸出了很多有用的细节的内容。 可能唯一需要提升的呢就是这个建模的细节吧,那能根据一张图片做到这种程度,总体来说是非常不错了。另外呢,这个外部 app 呢,是可以直接做发布的,那发布出去之后啊,你就可以把拿到的这个链接丢给别人去看和使用了。 那除了这种基础的小型外部的开发呢,我还想试一下这种复杂场景下它的开发效果, 那我啊就在 cloud code 里去接入一下纤维三点五,然后啊最近我刚好有一个需求,就是呢,我本地呢经常会启动很多的开发服务,比如呢像 cloud code 里启动的, ide 里启动的,命令行里启动的,有的时候呢,我自己也记不清楚有哪些,那在启动新服务的时候呢,就经常冲突, 那我呢就想做一个工具啊,可以自动的去扫描所有的端口,然后呢通过格式化的界面来去给我查看和操作。另外呢还要可以做收藏,我可以把经常会使用到的服务呢收藏下来,下一次呢直接在这启动就可以了, 那我呢就来实际的开发一下,那开发的过程当中啊,我们配合上一些 skill, 它的体验是很不错的,那千万呢会先去准备计划,然后再实际的去执行开发。这里呢我开发的这个内容啊,其实它是麻雀虽小,五脏俱全的,它会涉及到前端的页面,后端的 api, 还有底层的扫描命令, 以及呢还有保存收藏信息的这个数据库,所以呢是一个比较完整的一个项目结构。那最后我们来看一下效果啊,也说一下我个人的感受。首先呢在功能上啊,它是完成了我需要的全部功能的,可用性呢是通过的, 那在效果方面来说呢,我觉得视觉的效果还是不错的,你觉得怎么样呢?因为我这里啊也特意要求了使用萨德 c n u i, 所以呢,其实它自己能发挥的自由空间不算大。 那第三个在 bug 处理上啊,开发的过程当中也遇到过 bug, 那 铅汞三点五我觉得有个比较强的能力呢,就是它确实能够把遇到的 bug 给解决掉。那最后呢,我们再来试一下这 u i 理解的能力。 那刚好前面我们开发完成了这个项目的功能,我呢就直接把铅汞三点五配置给本地的 openclo, 让他呢去用视觉的方法去操作一下网页,来试用一下这些功能。 那这里啊,我的动作描述呢,其实相对来说比较简单,那能够看到啊,它会根据自己的理解再推理出来应该如何去操作,最后呢也会自己进入到松仓夹来去做确认,整体的表现呢,我觉得非常不错。 而且呢,还必须要提一句啊,就是速度非常快。这里呢,我是有点惊喜的,因为现在啊,大家去配合 open cloud 使用的时候呢,速度快,在体验上的提升啊,那真是非常直观的。 那截止到二零二六年一月,哈根 face 上最新的数据显示啊,千万衍生的模型数量呢,突破了二十万,成为了全球首个达成此目标的开源大模型。同时呢,千万系列模型的下载量突破了十亿次,平均呢每天被开发者们下载一百一十万次,稳居呢全球开源大模型的 top one。 所以呢,千万模型的更新啊,很多时候不单单是为了无数的子子孙孙都会呢进入新时代。 那还有一点呢,我很关注的就是后续的基于千万三点五出的更小规模的模型,如果呢有七十倍八十倍左右的模型出来,那在本地和端侧呢,就会有更多的想象力。 那这一次啊,我综合的体验来说呢,我觉得是非常不错的,尤其呢,这一次的原生多媒体支持,让他的表现呢更加全面。那在二零二六年选择模型的时候呢,千万依然会是我第一时间想到的一个选择。好了,这里是爱的咖啡馆,我们下次再见。

大家好,我是小木头。在新春佳节之际,首先呢祝大家在马年新年快乐,万事如意,身体健康,马到成功。在新春来临之际,通易千万也发布了他们最新款的大模型千万三点五, 本期视频,我们就来了解一下这款全新的大模型,并且尝试将其集成到 openclock, 从而打造自己最强的国产 ai 助手。 那现在就开始咱们马年的第一期视频分享吧。首先咱们对千万三点五还是来做一番简单的了解,这是通用千万系列最新一代模型千万三点五首发开放权重版本是三九五 b a 十七 b, 这个是整个三点五系列的起点。大家要注意的是,这是开放权重,不是完全开源,但是呢,你可以拿到模型权重自己部署。 这是一套原生多模台模型,他并不是传统的厚接插件式的多模台,而是从训练阶段就做了早期的文和图的融合,基于了原生多模台的架构, 这与过去的那种先训练文本模型在外挂视觉编码器的方式呢是不同的。在原生多胞胎的支持下,信息融合更深,上限呢更高,多语言覆盖从上一代的一百一十九种语言和方言提升到了二百零一种, 这对于非英语场景的开发者来讲是一个非常大的利号。云端版本的千万三点五 plus 默认是支持到了一百万的 token, 这个呢指的是上下文窗口,同时内置了官方工具和自定义的工具调用,官方给到了全面的测评,从分数来讲呢,显然这与过去我们在了解新模型时并没有什么意外,最新的模型在方方面面的测评上表现都非常非常的优秀。 我们来看一组数据,在三十二 k 上下文架,相比于千文塞 max, 它的解码吞吐提升了八点六倍, 二百五十六 k 下更加的夸张,达到了十九倍,相比于千万三二三五 b, 也有三点五到七点二倍的提升, 这把大模型可用性往前推升了一大步。从这张图标可以看到,这个对比效果呢,也是非常夸张的,在过去的对比中,似乎我们还没有看到这么大的飞跃。官方博克还给到了我们许多有趣的 demo, 展示了多模态理解加工具调用、加长链路执行的合体能力。这其中呢,包含了编码 agent、 视觉 agent、 空间理解、图像推理,每一个都并不是一个独立的 demo, 感兴趣的朋友呢可以来一个一个的观看了解一下,非常的有趣。 在官方博克这里也专门提到了在 open clone 中的基层,它能够很好地支撑像编码这类任务的执行, 再集成到 openclo, 并且部署到云端,看起来我们完全可以打造一款自己的国产 ai 助手,并且是最强大的哟。 现在呢,我们就尝试将千万三点五这款最新的大模型集成到 openclo。 openclo 是 近期非常热门的一款 ai 助手,在过去的视频分享中,我们也介绍了如何在本地如何在云端进行部署与配置,还没有做这部操作的朋友呢,可以回看过去的视频分享, 那现在呢,我们就来做集成千万三六模型,在许多的云端平台都提供了支持,同时呢,作为一款开放权重的模型,大家也可以实现本地化的部署,我们今天要介绍的呢,是以 open router 所提供的 api 为例,看看如何集成到 open clone。 我 现在分享的是在腾讯云端部署的小龙虾,大家可以在任何的部署中采用同样的方式来配置。 openroute 是 我常用的一款服务,目前呢也第一时间提供了千万三点五模型的支持,目前有两款,一个是三点五 plus, 一个是三点五三九七 b a 十七 b。 我 们以三点五 plus 为例,在云端 通过 openroute config 来进行模型的配置选择。 model 在 分类中已经有了 openroute, 我 们选择它就好。 因为我已经完成过了 openerer 的 配置,已经添加了 api key, 所以 在这里呢,直接就跳到了模型的选择。我们现在翻到 openerer 所提供的模型列表这里,大家或许会发现并没有前文三点有模型, 怎么办呢?没有关系,我这里呢其实已经配置过老的像 cam 三二三五 b 的 模型,我们可以继续这里的配置选择,继续退出当前的配置。 在目前我已经配置过 api key 的 情况下,大家看起来这波操作呢并没有做什么,那如果大家是初次配置呢,这样呢就完成了 open directory api key 的 配置。我们接下来要做的是使用当前这个命令 openclo model set 来设置 open directory 这一款千万三点五的模型, 设置的这个值,它的格式呢是服务商。以 openerer 为例,在这里呢就是 openerer 斜杠后面带上的就是模型的 id, id 来自于模型页面,我们在这里复制这个 id 就 好, 我正是通过这种方式粘贴过来的。这样呢,就完成了三点五模型的配置。配置完成后,或许大家可以尝试重启 dm, 接下来我们来到 channel, 比如以 telegram 为例,我们来看看配置的情况。在 telegram 中,可以使用 slashmodels 命令来选择我们想要使用的模型或列出当前的模型服务商。 当我选择了 openraw, 会列出其中已经配置的模型。这是我已经配置的几款模型,大家根据自己的情况可能会看到的有所不同。 那我如果点击千万三点五这款模型,理论上期望是将其设置为默认模型,但在这里大家会看到这么一个错误,说这个模型呢,还不被允许使用, 那么该怎么做呢?我们是来到 opencl 后台进行手工的配置调教,还是说通过对话的方式让 opencl 来帮助我们解决这个问题呢? 在 ai 时代,在智能体时代,我们应该尝试避免手工再去做这些事情了,完全可以交给 open core 自己解决。因此在这里我们告诉他问题是什么呢?这个模型三点五不能够被使用,希望他帮助我添加到 open core, 他 会自动的帮我完成这个工作, 它会更新配置,重启网关,并告诉我重启后就可以使用了。那在这里呢,我们来看看。 当然了,在对话中,我还将其切换回了 gpt 三点五 codex, 并且期望 codex 帮我验证当前的配置是否一切正常了。它告诉我是的,一切正常,我们可以开始使用千万三点五了。 那么我们通过模型的配置这里呢再次确认过它的模型呢,已经设置为了铅汞三点五。那接下来呢,我打个招呼,看起来一些工作正常,我们现在可以回到 openclo, 作为开发者,我们还是希望更多的验证究竟是不是正常的工作了。咱们可以使用 openclox dash dash follow 这个命令来实时的监控日制, 再打个招呼吧,看看对话情况。在这里大家可以看看日制的情况,在一个子系统的执行中,它用到的模型呢是千万三点五 plus 零二一五 think 模式是关闭的对话呢,一切正常,我们在这里也能看到它的回复,这表示端到端已经通了。大家如果还不确定是不是使用了三点五的模型,那现在呢,可以来到 open router 后台查看实时的 api 调用情况,我们可以看到最新的调用呢,就是用的千文三点五。 好了,这就是我们如何在 opencl 集成千万三点五。在这次的发布中,我们得到了两个版本,一个是千万三点五 plus, 一个呢是三点五三九七 b a 十七 b。 感兴趣的朋友呢,可以来集成这两款模型,分别在 opencl 中跑一跑,看看它们在功能上究竟有什么差异,在日常的编码任务的执行上,是否能够很好地完成我们交给他的任务。 那么这款模型的能力究竟如何?是否能够成为我们日常工作学习中的主力模型呢?大家在使用后也欢迎在评论区给我们留言吧, 那今天的分享就到这里,感谢大家收看。那么在视频结束前,也再次祝大家新年快乐,万事如意。好吧,那我们就下次视频分享再见同学们,拜拜!

最近千万三点五模型陆续发布了,千万三点五是世界语言模型,今天我们用这种多模态模型来做一下视觉任务中的乌鸦和目标检测,这个是千万三点五这两天发布的模型,本视频使用的是千万三点五二十七 b f p 八精度模型, 使用 s g 浪推理,我们使用如下的命令。我们来看第一个视力,左边是一个扫描板的 pdf 截图,右边是它的识别结果。第二个视力呢,是做目标检测,我们把图片中的安全帽给识别出来,我们来看一下代码, 这个是一个 pdf 的 截图文件,我可以看到它有标题,有一些模糊不清的文字, 我们用 o c, r, d, p y 这个文件来运行。第一步我们把文件读取之后,把它转成 base 六十四, 然后在 ms 一 节里面,第一个参数 m, g, u, l, 然后把 base 六十四的字串传进去,然后第二个参数是 promt, promt 我 们后面设置的是千文 v l 马克丹, 然后我们设置 temperature, 还有存在惩罚和宠物惩罚, 我们来运行一下, 好运行结果出来了,我们来看一下 前面这个标题已经识别出来了,然后有一些加粗的部分也识别出来了。 后面这个 words 和 value 其实是有一点模糊,然后也识别的比较准确。 我们来看第二个视例,这个是原始图片, 然后我们用 object detection 这个文件来运行。第一步还是把图片然后转成 base 六十四格式, 然后把它传到 message 里面,然后这里面我们用的 prompt 是 请在图像中定位每一个安全帽的设定,然后以接送格式报告编辑框的坐标, 然后设置 temperature 存在惩罚,重复惩罚,我们来运行一下。 好,这里可以看到识别出来五个安全帽的一个坐标, 这个是绘制的一个图片,可以看一下, 可以看到前面总共有五个安全帽,然后都标注上了。 这里面需要注意的一点是,在复制图片的时候,原始的这个坐标它是缩放到零到一千,所以这里面我们需要 对它进行一个处理,然后转换成真实的一个像素,这样就可以在原始的图片上面复制出来,这就是多模态模型的优势,它可以同时做文本图像方面的任务。下期我们继续分享大拇指相关的技术,关注我不迷路!

千万模型成了 cloud 官方严选啊,官方蒸馏的模型你看啊,现在他们有的博主在复现,十次有六次是千万,三次是 deepsea, 一 次是 cloud。 这个就有意思了啊,其他国产模型你们反思下为什么没有蒸馏你们啊。