给大家介绍一下那个 k transformer, 他 在最近刚刚又发布了一个新的版本啊一零点五点二,那么 k transformer 他 我们之前也给大家介绍过,他可以跟 s g line 结合起来,用 cpu 加 gpu 混合推理的方式,可以进一步降低我们那些大模型 所需要的 gpu 显存的消耗,他是用 cpu 的 内存去替代这个 gpu, 做到了 cpu 推理的这样一个加速的一个能力。最近他刚刚发布了一个新的版本,里面他又支持了一些新的模型, 像最近刚刚发布出来的通一千万三点五及 l m 五啊, mini max m 二点五和通一千万三扣的 next, 它几乎都能支持。因为现在我们在写 让 ai 写一些代码的时候,都需要用到一些比较大的模型,因为把用一些比较大的模型,它相对来讲它写代码的能力会更强一些,小模型它的幻觉会更多。一般我们会用这个 mini max m 二点五作为写代码的这样的一个模型用的会比较多。确实目前在开源的各种榜单上面, mini max m 二点五这个模型也是确实不错的。那么它在 不管是在 s w e bench 上面,还是在写代码的能力的调用上面,这个大模型工具调用的能力上面,它得分都相对来讲都是比较高的,跟一些主流的模型比起来都是非常好。所以我们今天给大家简单看一下,我们 怎么去部署,怎么去在 k transformer 里面去部署这样一个模型,那么这个模型我们已经部署成功了。我这边还是一样用 rtx 四零九零四块 gpu 把内存打满,基本上要占到二十四个 g 左右,它的上下文基本上可以达到接近两百 k, 一 百一百九十 k 左右,这个是它系统 最高的上下文的这样的一个参数,我们基本上已经把它打满,那么它用 rtx 四零九零跑起来也是可以内显存的内存消耗,它的内存消耗也是比较大的,我给大家看一下, 内存消耗也是比较大的,基本要占到将近四百个 g, 四到五五百个 g 左右,内存消耗还是比较大的,因为我们正好是五百一十二 g 的 内存,所以也够跑,它这个模型也是够跑的, 那么是刚刚好,前面我们也测了一下,基本上也能测通,这个就是 mini max m 二点五的这样一个模型,那这样我们在让 ai 写代码的过程当中,就不需要担心这个 token 的 消耗了,那随便让它去消耗,只要你继续跑着,那你随意的让它去跑,这个都没有太大的问题。好,那这是给大家简单介绍一下,那这次 k 变换了,它还 在其他地方做了一些易用性方面的一些修复,只说你原来我们还要装 s g 类什么的,这次它就简化了安装 这个 s g 嘞,他同步可以帮你安装完成,这个会比较这样使用起来会非常方便,他,这样你只要调这样的一个命令就可以了, install 点 s h, 他 自动的就可以帮你装完这个,如果大家有兴趣也可以去安装使用一下。我们今天这样一个视频就给大家介绍到这。
粉丝4.5万获赞32.3万

这你能信?这是我用千问三点五量化本地模型生成的模仿 x 风格的网站,从 u i 设计到网站功能,可以说完全不逊色于线上的满血大模型。 由于上期视频中龙虾机器人调用本地模型的玩法引发了很多朋友的讨论,所以今天我又特地使用之前视频介绍的网易龙虾机器人做了更多的深入测试。目前它的最新版本是零点一点二三旧版本,用户只需从官网下载 ex 文件,直接覆盖安装即可,无需额外操作。 同时,本地模型我分别使用了千问三点五的二十七币和三十五币的两个量化版。在测试网站创建功能时,我调用了网易龙虾机器人内置网页设计的 skill, 名字是 front and design。 目前你看到的第二个网页就是我用它生成的个人简历网站,可以看到从页面排版到内容展示已经相当专业,充分展示了后人的个人履历和项目经验。 第三个网页是我让龙虾机器人生成的商品展示网站,除了整个页面设计相对比较朴素,产品细节介绍还不够丰富外,网站整体的 ui 设计和文字排版已经做得非常不错,完成度已经远超我对一个本地模型的预期。 此外,千问三点五在今天还更新了四 b 和九 b 等更小尺寸的模型。让我比较意外的是,它的四 b 版本虽然容量仅有三点四 g b, 但是却能够完成新闻搜索和抓取等基本任务, 而且完成度非常之高。现在运行的就是我之前设置的每日 ai 新闻抓取任务,可以看到四 b 模型的运行效果非常好,因此强烈推荐只有十六 g b 或是更小显存的朋友进行下载测试,并欢迎在评论区分享您的实际使用感受。

大家好,我是叶哲,今天我将介绍一下千万三点五中小模型的使用体验。这些小模型非常受社区的欢迎,而且很多人都认为他们的能力很不错。从这张图上我们可以看到千万三点五九 b, 它在多个基卷上居然是要超过千万三 s 的 八零 b a 三 b c 型模型,这两个模型呢,规模相差是非常大的, 虽然说一个是重密模型,一个是 m o e 模型,九臂呢,是主力模型,社区里用的会比较多。而且现在这些小模型它的工具调用能力也是有了一个极大的提升。 四 b 的 话也是有非常多的用户的喜欢,比如说你可以用它来和你的手机做一个连接,嗯,操作你的手机。那二 b 模型和零点八 b 模型呢,就可以在我们手机端运行,零点八 b 模型呢,甚至可以运行在浏览器上,非常方便。 而且它是有多个的格式衍生,比如说 g g u f o n n x m m m 还有 m l x 社区里常用的技术站呢,奥拉玛拉玛 c p p 之前我有详细介绍过拉玛 c p p, 嗯,它也有 webui, 使用起来也是比较好用的。 而用 g g u f 的 话,社区里呢大多数会选择啊 onslaught 的 方案,它的动态量化做得非常好。如果你是 mac 电脑的话,当然我们用 m l x 是 比较好的。 tech news 的 反馈呢,如果说你的系统提示词不够像样或者够长模型呢,就会进入很怪的 planning 或者长时间的自我检查模式。 parking face 社区呢,还分享了一个零点八 b webgl 版本,然后可以在我们浏览器上跑的,如果我开的话,我手上拿什么东西,或者说呃摄像头里面是什么场景下方它会立即识别出来。 首次进入这个页面,它会下载八百多兆的模型,那这里呢,用的就是 o n n x 的 格式,它是跨框架的计算图交换标准,主打可移植,可被多种运行时变易器加速。 g g o f 大家非常熟悉了, m n n 呢,它是阿里开源的端侧的推理引擎。 m l x, 这个大家应该也是非常熟悉。 g g o f 呢,它是文件格式偏分发部署 o n n x, 它是一个开放标准,这里有它们的核心的优势,对比大家可以简单了解一下。再来看一下各个模型不同的大小啊,不同的量化程度,它们的显存需求,推荐的硬件和速度, 零点八 b, 基本在任何的 g p u 啊手机上都可以跑起来。二 b 模型呢,如果是四比特量化的话,那需要的显存是一点五 g b, 如果是四 b 四比特量化的模型,显存需求是三 g b, 如果是九 b 四比特量化,那需要的显存是九 g b。 二十七 b a 三 b 四比特 大概是占用二十 gb 显存,在我的 mac 电脑上,我更倾向于使用三十五 b a 三 b 巴比特 m l x 格式的,那它的速度呢?大概是呃七十二 tik 每秒,同样也是巴比特,然后九 b 的 模型, 那呃速度的话,只能是五十多 k 啊每秒,这个速度的话就显著变慢了, 如果是用了二十七 b 这个重密模型的话,那速度会更慢。而我在电脑上跑零点八 b 巴比特量化的时候,速度能达到两百 k 以上,这个速度是相当快的。再看一下各个模型啊,它的性能表现,零点八 b 的 模型呢 啊,它在数学 ocr 方面的话,得分也是非常高,可以适合一些简单的 ocr 任务。之前呃千万三 vl 的 很多模型就将下方的 lvm 里面会漏掉一个字母,因为这一行的文字呢,它是比较小的。 我在本地用巴比特量化的零点八 b 模型,让他去 o c r 的 时候,发现它这里的质量是相当不错, 我肉眼看了一下,是没有什么错误的。而三点五二 b 模型呢,它的得分呢,是超过很多上一代七 b 模型的, 也是非常强。四 b 模型在 m m l u pro 得分呢,接近于千万三三十 b a 三 b 了。而在 呃 omega dos 编制得分上,它是击败了 g b t 五 nano。 再看一下九 b 模型,在长上下文基准上,它是打败上一代的千万三三十 b a 三 b 的。 而在 m m m u pro 基准上, 超过 g p t 五 nano。 那 社区的用户反馈呢,二比特和三比特量化质量又开始有明显下降,六比特呢,几乎没有可测量的性能损失。那千万的这几个模型,社区对他们有些评价, 比如说啊,很多用户对二十七 b 还是非常青睐的,认为它的知识库很丰富,能力也很强。社区呢,给到三十五 b a 三 b 是 三分。说到这里呢,非常推荐大家在使用千万三点五的时候呢,看一下 onslos 的 它的一个使用指南, 它在这里就详细介绍了啊, sync 模式下,那我们的各方面的参数怎么设置?现在就来看一下千万三点五中小模型在我本地进行的一些实际体验,那我在这里呢,用到的都是它们的 m l x 格式 巴比特量化的模型,现在看到的是让 a 三 b 模型反推 ai 绘图提示词,在下方,我们看到它回复的内容还是非常多的,我把这里的提示词发给 nano blender pro。 二、 它帮我生成的图片呢,和我一开始发给的原图非常相像, a 三 b 帮我解读图片也是比较好。 这张图呢,呃,我们可以看到各个模型,它并没有明确说这个模型。呃,它的 swbench pro 的 得分是多少,那这里 a 三 b 它是自己估摸出来说啊,千万三 coldest 它的性能达到了约百分之四十四,这张图呢,是我从网络上获取的。再讲呢,千万二点五零点五 b 模型和现在的千万三点五零点八 b 在 回答同一个问题的时候, 已经有了非常大的进步。那我现在就让 a 三 b 模型来解读一下它。在这里呢,解读的非常好啊,每个模型的名称,包括每个具体的回答, 然后还来了句幽默的话,说这张图呢,主要目的就是炫耀千万三点五相比千万二点五的进步,就模型呢,就是太听话了,你问什么他姓什么,甚至呢能编造事实。而篮筐呢,他更聪明,能识别出常识性的错误, 不会一本正经的胡说八道。我在使用 a 三 b 的 时候呢,有的时候它的思考过程会一直循环,那我们可以通过重建对话,或者在提示词里面加一句,让它不要过度思考来解决这个问题。在呃,这张图里呢,我们看到这是九 b 回答的, 我呢是希望模型识别出这张图里的所有的配件,八五四是一个垫片,九臂模型呢,它说这里是连接圆盘和固定件,这里的说法的话还有待加强。之后我又让九臂模型帮我做一个音乐格式化合成器,这是它第一次生产的效果, 点击自动演奏,点击的话是没什么反应的,当我点击粒子喷发, 那效果的话也能出来,但是和我的琴键上是不是一一对应的,而且控制台是有一些报错的,所以呢,我需要他给到完整的啊。最后修改后的文件能听出来他正在弹奏小星星,但是我们可以感知到他发出来的声音和琴键的按键的 啊,按下去是不对应的,所以这里还是有比较大的问题。再让九臂做一个赛博朋克的个人信息仪表盘,再看一下它身上的效果, 在这里的话,它身上的这个页面就要比刚刚要好很多了。再接着呢,我将一张模糊的小票发给九臂模型,让它识别一下。这张图下方呢有四个字比较模糊, 那九 b 呢,模型在这里没有识别出来,其他的文字内容的话,我看了一下,没有什么太大的问题,我再尝试了一下,这次呢,他将五音良品下方的文字都是展示出来了, 这样的千活字减字盘 a 三 b 模型也能非常很好的识别出来,这是他的思考过程,内容非常非常多, 真的就是一个一个字在识别,最终是能识别出大部分文字的。如果说你在连接 ml studio 让它识别图片的时候出现这样的问题的时候,那你可以考虑,一是将整个模型它的上下纹长度变小一点。 第二呢,是限制一下啊,整个图片的一个尺寸,我一开始给它设置的是不超过四零九六,那经常会有内存溢出的情况, 而改成二零四八之后就会好很多。这个画面里呢,我让他数一下有多少只火烈鸟模型呢?是,呃,思考了十一分钟,最终呢,一直都在重复,所以我就终止他任务了。我换成 a 三 b 呢,让他识别图片中有多少只火烈鸟。 它这里的话啊,识别还是相当不错的。同样的,剪字盘发给 a 三 b, 让它解读图片,并且 ocr 图片里的所有内容, 它能很好地指出这是活字印刷的字模,必须是反字镜像。之前是只有一些比较大的模型,它能识别出来, 那像 jammer 二点五, flash 这种,它是识别不出来的。所以现在啊, jammer 三点五,它的能力还真的是非常不错的。当我提示九 b 模型呢,让它数一数图片中有多少只火烈鸟,不要过度思考,那我们看到它思考了三分半钟, 最终就给到非常好的回答。如果说,嗯,大家也遇到同样的他模型,一直在思考,那就可以将提示词改一下。我还让零点八 b 模型呢,反推 ai 绘图提示词, 最终将这里生成的提示词呢啊,发给 ai。 最后 ai 生成的图片和原图呢,是有一些区别。 换成四 b 模型之后,将这样的提示词发给 ai 身上后的图片就和原图非常接近了。在这里呢,呃,用到了四 b 的 思考模型。而在这里呢,大家可以看一下,这里是没有思考模式的,那这个是怎么设置呢?我们来到啊 l m studio 里面找到模型, 然后右侧呢,我们可以点击一下这样的一个设置按钮,在推的这个界面有一个提示词模板,在这最上方呢,在这最上方添加一下这样的一个设置, 它就会关掉思考了。最后呢,我也测试了一下 a 三 b 模型,它的工具调用能力,我是通过在 client 里面和 open code 里页计划模式让它来编码来测试的。我们现在看到的是一个理发应用,右侧有 three js 的 元素。 在我个人看来啊 s m b 它能达到这样的效果还是非常不错的,这是它生成的方便面自动化工厂,包含多个步骤。其实和我之前用一些比较大的模型 啊生成的已经是很接近了,这是它生成的火星体数生物研究站的啊,一个场景,我们仔细看的话会有一个透明的球, 它生成的这个透明的球的话,效果肯定是比不上 mini max m 二点五或者呢是 office 四点五。 但我个人觉得对于啊,它在我本地运行这样的一个 a 三 b 巴比特的模型,质量也是很不错了。现在我们来看一下咱们在 opencode 里使用 lm studio 的 模型。那首先呢,我们可以通过这行命令 来确认一下 l m studio 当前暴露的真实模型 id。 然后呢,可以啊,打开配置文件路径修改粘贴以下部分,再之后呢,就可以重启。 以上呢,就是今天介绍的关于千问三点五中小模型的一些使用体验,我个人对它来说是非常喜欢的,因为它文本能力也强啊,原声支持二百五十六 k, 而且 它是多模态的,现在无论是 m、 l、 s 还是拉曼 c, p、 p 都是支持批量调用的, 所以大家可如果有一些批量的啊,一些任务不复杂的,那完全可用它来在本地来做,因为它输出的质量是相当不错的。四 b 模型、九 b 模型和 a 三 b 模型都是非常非常推荐的。

就在刚刚,没错,除夕夜阿里发布快按三点五贺岁版,不仅能秒懂复杂图标,最恐怖的是两小时的视频丢给他,瞬间生成高清摘药,在权威榜单上,以五十八点三分力压 g p t。 五点二,拿下人类最高难度测试冠军 g p q a。 博士级科学推理能力也超越了 cloud 四点五,更狠的是,显存占用直接降低百分之六十,真正的速度快,能推理又便宜,你觉得可以称得上国产之光吗?

这是我踩了无数坑才跑通的 rtx。 五千零九十部署 q n 三点五二十七 b 终极指南,别自己折腾环境了,用这套 v l l m 结合 dogger 的 方案,直接榨干五千零九十的算力。 常规框架跑本地容易卡成换灯片,但 v l l m 的 泵发能力能翻几倍,加上 nv f p 四的量化机制,比传统的 f p 八还要省出一半钱,存速度更是渐为打击硬件门槛,卡死在这。五千零九十三十二 g 加上五八零版本以上的驱动 跟着做,少走两天弯路。实战部署的第一个大坑,千万别在刀克容器里面直接拉模型,国内网络波动一段几十 g 的 缓存就变成清理不掉的死文件,直接干爆服务器显卡。 一定要提前在宿主机下载好屏幕上的命令。直接抄,强行指定 h f mirror, 国内镜像站务必加上 read aloud 断点续传参数,把模型稳稳当当落到本机的 models 目录里。 基础网络环境打底,只说动作当土。二十四点零四默认原,在国外必须换成阿里云的最新格式,原 docker 装好之后,把这四个国内加速器直接塞进 damon jason 配置文件里,不换原,后面的依赖你根本拉不动 这一页,直接截图抄作业,我们快速过全篇最致命的深水区就在这,按照官方文档去装 nvidia 域名的超时上, 无数人在这里种庄系统都没用。唯一的解法是分两步走,完全切到中科大的定向源。第一步单独把 g p g 密钥拉到本地并解包。第二步极其关键,看屏幕中间这行代码,必须用 set 指令 强行把系统 app 源列表里的官方域名硬生生替换成中科大的地址,并手动挂载刚才的密钥。这么干,你的刀克容器就永远是个瞎子, 根本调不到五千零九十的显卡代码,一行行贴过去,最后跑一下验证命令,只要看到显卡的面板信息,这条命才算保住了。基础环境搞定,现在开始拉镜像。 五十 g 显卡必须要用这个 q 幺三零 nightly 的 专属版本,它是专门为新架构优化的,镜像大概有十个 g, 拉完之后直接克隆项目目录, 点火启动,只需要一行 compose 指令。这里有个细节,模型加载非常吃硬盘, i o 大 概需要等个五到十分钟,一定要用 log 参数盯着实时日制,直到看到模型加载成功的字样再动,别着急。于是跑完之后,我们直接用 q 给本地接口发个请求, 问他一个经典的棕熊对战人类的问题。只要屏幕上弹出了流畅的回答,就说明这套 n v f p 四的量化模型已经在你的五千零九十上完美跑通了。 既然用了五千零九十,我们就要追求极致性能。 n v f p 四有两个可选,后端默认的模拟引擎在生成阶段速度飞快,但如果你发现首字弹出来的速度不够理想,或者你的应用场景里 prompt 特别长,那就换成 flash info 内核, 只需要在启动命令前加一个环境变量,就能强行切换底层算子引擎。这种调优能让你在处理多 agent 引发任务时响应体感更丝滑。 最后说个运维技巧,如果你改了启动参数,不需要先关再开,直接再次执行 up 指令,到可会自动帮你完成平滑重启。到这里,你的五千零九十已经彻底变身为一个二十四小时待命的高并发症 ai 节点,开始体验 blackwell 的 恐怖算力吧!

q n 三点五昨晚发布了,但官方数据再漂亮,也不如社区实测的红黑榜靠谱。如果你有二十四 g 显存,无脑充三十五 b a 三 b, 它是这代的版本之子,代码和逻辑能力在这个量级基本没有对手。虽然每次推理只激活三十亿,参数速度飞快, 但记得他吃的是三十五 b 级别的,现存二十七 b 表现比较平庸,除非你的设备实在跑不动大的,否则不推荐吃鱼。 flash 版,它是处理百万字长文本的神器,本地跑太费劲,直接调 api 效果最好。 今天的视频不废话,直接把压箱里的推理参数、部署命令和调优经验喂给你,让你少走弯路,直接上手。 模型选好了,但如果参数设错,再强的模型也会变傻。先看最核心的深度推理场景,比如做数学难题或者逻辑推演,这时候必须开启千问三点五的思考模式。 注意,这里的 temperature 建议直接拉到一点零,这种高温设置能充分激发模型思维的多样化,同时配合一点五的存在惩罚,也就是 presence penalty, 这能有效解决模型在大规模推理时容易出现的复读机问题。但如果你是要写代码或者搞外部开发, 逻辑的严密性就比灵感更重要了。虽然同样是在思考模式下运行,但要把 temperature 降到零点六左右,降温是为了让模型输出更稳,少一些天马行空的幻觉。 top 维持在零点九五, 这样深层的代码逻辑会更连贯,能大幅提升代码的一次性通过率。再分享两个能让效果翻倍的小细节,第一是输出长度, 也就是 max tokens, 普通的活三十二 k 够了,但要是跑竞赛题目,建议直接拉到八十一 k 以上, 这多出来的空间不是给最终答案的,而是给模型留足打草稿的思考过程。第二是提示词技巧,做数学题一定要在末尾加一句,请逐步推理,并将最终答案写在框内。 要这层格式就明确要求只输出字母明确的指令边界,能让模型从猜你想干嘛变成精准执行。 最后必须划个重点,关于存在惩罚这个参数,虽然前面建议设为一点五,但你手动微调的时候千万别超过二点零。一旦设高了,模型会为了强行避开已经说过的词,开始强行凑数,甚至胡言乱语,整个逻辑会瞬间崩坏。 控制在零到二之间,这是千万三点五保持理性的最后安全区,模型调好了,怎么稳稳的跑起来?目前性能最强的是 s g l m 方案安装,别用慢悠悠的 pick 了,直接用 u v, 效率最高。 启动时一定要手动加上 razingpasta 这一行,这是千万三点五开启思考模式和工具调用的物理开关,漏掉它,模型就退化成普通版本了。 多卡用户记得根据显卡数量对齐 tv size 参数,确保算力全开。很多人一跑部署就炸显存,其实是因为忽略了那个默认二十六万长度的上下文设置。 如果你的显存没到八十 g 以上,千万别直接硬跑。建议手动把 context lens 压到幺二八 k 甚至更小,再配合 memfraction static 零点八这个参数,把静态显存死死锁住,这样能有效防止推理过程中显存突然飙升导致的崩溃, 让长文本处理变得真可用。如果你习惯用 lu l m 部署,这里也有个压榨显存的绝招。 再加上蓝宝石模型函数,虽然会暂时舍弃多模态视觉能力,但能为你换回巨大的文本处理空间,这在跑超长代码审计或者纯文字逻辑推理时是性价比最高的选择。确保带上 reasoning part, 让 v o l m 也能输出那串关键的思考过程。 如果你是通过 api 调用千文三点五,千万别在提示词里加斜杠 think 指令模型根本不吃这一套。正确的做法是,在 api 的 extra body 参数里,通过 chat template quicks 手动控制 enable thinking, 把这个布尔值设为 false, 模型就会跳过思考,直接给结果需要逻辑爆发时再开启,这是目前开发者最容易忽略的传餐细节。 要处理整本书或者超长文档,你就得开启千万的 r n 扩展,在 v l o l m 启动参数里追加这段,重写代码,把 max model line 拉到一百万以上。 这里有个独家经验,如果你的文档只有五十万字左右,把 factor 系数设为二点零的效果要比默认的四点零更精准。只有当文本真正接近百万级别时,才建议拉满到四点零。 想让模型看懂一两个小时的长视频,去修改模型文件夹里的视频预处理配置文件,找到 longest edge 这个参数, 把它改成这个九位数的特定值。这一步能让模型处理超过二十二万个视频 token, 无论是长篇分析还是监控复盘,理解深度都会产生质变。 最后总结一下,对于大多数本地用户,无脑充三十五 b 的 a 三 b 版本,只要你有一张二十四 g 显存的卡, 把它跑起来,温度拉到一点零,开启思考模式,这就是目前本地体验最好、逻辑最硬的中杯模型。上下文平时空在十二万左右,兼顾速度和显存,按这个配置跑,你就已经超越了百分之九十的普通玩家。

全国本地部署阿里千万三点五的最新模型,还能满足千人在线并发?什么配置这么硬核?这期是为深圳某企业定制一台模型,本地部署与机器人研发的服务器,搭配了两张 a m d 枭龙九六五四共一百九十二,核心三百八十四现成。注意,这不是撕裂者, 经常有小伙伴把它们认错。内存条浅浅上个十六根,四十八 g d d 二五四八零零七百六十八 g 容量,跑这个模型也绰绰有余, 后期项目升级再加也不迟。显卡配的是英伟达 rtx pro, 五千七十二 g 版本,对比四十八 g 版本,能支持更大的 ai 模型推理,微调推理效率与文本生成速度完全翻倍, 稳定性与扩展性也更强。本地部署最新的千万三点五模型,最高支持一千人同时在线并发,总托肯吞吐三千五百六十六每秒,存储上直接就是九十九点二 tb 的 超大空间,用于存储模型科研的数据存放。


兄弟们,昨天直播的时候测试了千万三点五的几个版本的模型,今天给大家汇报一下啊,这是我下载的这几个模型,然后后面是它的大小, 首先是这个二十七 b 的, 它是一个稠密模型,它的速度在我的在机器上一百二十八 g, 这个统一内存的机器上,它的头肯是九点六, 比较慢,他思考时间也比较长。然后第二个是这个三十五币的激活三三十亿参数,然后是 q 八的 量化版本, m o e 就是 专家混合模型,然后他的思考过程也比较长,然后但是他的这个回复速度比较快,达到了四十一托克每秒。 还有一个是一百二十二币,是一百亿激活参数。然后是两位的量化版本, 这个的速度的话是二十四托根左右,但是他思考时间特别长,将近有一分钟或者两分钟,这个是一百二十二 b 参数,然后激活呃,一百亿,他这个思考时间也比较长,他这个速度的话是二十四托根每秒, 他们的这个上眼纹长度的话都是二百五十六 k 的。 还有一个要说一下,就是他的思考确实是全英文的,从这个模型的功能上看,带这种锤子的都是支持工具调用的,带这个眼睛呢表示支持图像, 带这个的话他支持啥?他支持推理,但是都会有这个 think 思考的过程,总体上来说他们的性能智商我觉得还可以, 就是主要是这个量化的位数影响了他的智商。还有一个很重要的一点就是模型的这个参数设置啊,他是他是有这个推荐的, 在这边都是有这个参数推荐你看上下文的长度,如果你要用思考模式,他是给的参数,如果你要是编码的任务的话,他给了另外一种参数, 所以有些人觉得他笨的话,可能是这个参数没有设置好。兄弟们,你们在自己电脑上测过吗?评论区说一下, ok。

朋友们大家过年好啊,各种 ai 的 红包领到了吗?现在呢国产大模型啊也来拜年了,大模型领域的元神千问在除夕当天呢,发布了开源模型的新版本千问三点五, 虽然说啊,最近好多新模型发布,但是呢,千问三点五确实是我最关注的,因为呢它是毫无疑问的开源模型的领军者,所以呢,我也第一时间啊去做了上手的测试。今天呢就来分享一下我的千问三点五的实际体验。 如果说啊,你也做了体验,那可以来聊一聊。首先呢是参数,虽然呢我对参数现在不是特别的敏感,但是还是想和大家快速的过一下千分三点五的整体参数情况,那这一次开源的呢是千分三点五三九七 b a 十七 b, 也就是啊,三百九十七 b 的 总参数激活十七 b。 那 这次模型啊,采用了创新的混合架构,将限性的注意力啊和稀疏混合专家呢进行结合,力争呢在能力,速度和成本之间啊去达成一个最优的结果。 那还有一点啊,要特别注意的就是千万三点五是一个原生的多模态模型,也就是呢,从训练之初啊,他就让视觉和语言在统一的表征空间当中去联合学习,这个呢也是目前模型发展的一个趋势,在 g u i 理解还有视频分析等场景当中呢,都可以做到一模到底了, 数字呢总是很抽象的。那接下来呢,我们就进入实际的体验环节,因为啊,三百九十七币的总餐数量,估计大家呢想本地部署也比较困难,所以呢,想体验的话,主要就是通过千万 chat 还有阿里云百链的 api, 那我们先到千万 chat 里来做一些热身活动,先试试它的推理能力。那最近啊, ai 洗车的问题在网上很火,很多的模型呢都翻车了,我呢就先来试一下千万三点五怎么样?那我这里告诉他啊,洗车店离我家五十米,那我要洗车的话,我应该开车去还是走过去呢? 这里呢,千分三点五没有翻车,他注意到了问题的关键呢是洗车,另外呢还提示了一下可以叫上门洗车的服务。但是呢,这个服务在国内多吗?反正我是没有体验过啊。 那接下来呢,我再让他去写一个祝福语来试一下。在中文方面呢,其实我觉得啊,谦问的表现一直是可以信任的,这个祝福语的水平呢,也是相当可以的,文字方面的内容啊,我就不想放太多的精力了。接下来呢,我们就来试一下多模态,感受一下呢它的原声多模态支持。 那首先呢,我想试一个场景,在春节期间啊,大家都会刷到很多的爆款的 ai 视频,那很多时候呢,都会去求提示词,那是不是啊,可以用千字三点五来去帮我理解。然后呢直接去复刻这个视频, 这里呢,我传一个看到的很酷的视频啊,然后呢让千问去帮我分析一下视频的画面的整体风格,还有色彩,运镜动作。那最终啊,给我提示词,来去复刻视频。那很快呢,千问呢就可以分析出来视频的内容了。 其实呢,很多时候我们做不出高质量的 ai 视频,就是因为我们自己啊,写不出合适的描述,那我呢也使用同样的模型来试一下这个推理出来的提示词,它的生成效果, 那基本上可以说啊,它的复刻程度达到了百分之九十以上。那我呢也用千瑞 chat 自带的这个视频生成啊,也试了一下,那因为默认啊,它生成的是五秒视频,效果上呢就会有一些差异,但大体上呢也能复刻,所以呢,说明啊,它的理解是没有问题的。 那这一次啊,千万三点五也特意强调了它在开发方面的提升,而这个呢正是我最关注的一个部分,同时呢千万 chat 也加了一个 web dev 的 功能。那我们呢就先来快速的试一下,开发一个 web 上的小应用。 那昨天晚上啊,春晚的哈尔滨分会场,我觉得非常的不错,那我呢就给谦问一张哈尔滨分会场的图片,让他啊帮我去用三 d 的 方式重构这个场景,那还要可以自由的缩放和切换角度,那代码生成的速度啊,确实非常快,稍等一小会儿就能拿到结果。 那从功能的完成度来说呢,非常不错,尤其是啊,还非常细节的注意到了烟花灯光还有人群的特效处理, 可以单独的去做开关,特别是人群啊,真是太细节了。还有呢就是预设的这个镜头和时间,可以说呢,他在我的基本要求之上延伸出了很多有用的细节的内容。 可能唯一需要提升的呢就是这个建模的细节吧,那能根据一张图片做到这种程度,总体来说是非常不错了。另外呢,这个外部 app 呢,是可以直接做发布的,那发布出去之后啊,你就可以把拿到的这个链接丢给别人去看和使用了。 那除了这种基础的小型外部的开发呢,我还想试一下这种复杂场景下它的开发效果, 那我啊就在 cloud code 里去接入一下纤维三点五,然后啊最近我刚好有一个需求,就是呢,我本地呢经常会启动很多的开发服务,比如呢像 cloud code 里启动的, ide 里启动的,命令行里启动的,有的时候呢,我自己也记不清楚有哪些,那在启动新服务的时候呢,就经常冲突, 那我呢就想做一个工具啊,可以自动的去扫描所有的端口,然后呢通过格式化的界面来去给我查看和操作。另外呢还要可以做收藏,我可以把经常会使用到的服务呢收藏下来,下一次呢直接在这启动就可以了, 那我呢就来实际的开发一下,那开发的过程当中啊,我们配合上一些 skill, 它的体验是很不错的,那千万呢会先去准备计划,然后再实际的去执行开发。这里呢我开发的这个内容啊,其实它是麻雀虽小,五脏俱全的,它会涉及到前端的页面,后端的 api, 还有底层的扫描命令, 以及呢还有保存收藏信息的这个数据库,所以呢是一个比较完整的一个项目结构。那最后我们来看一下效果啊,也说一下我个人的感受。首先呢在功能上啊,它是完成了我需要的全部功能的,可用性呢是通过的, 那在效果方面来说呢,我觉得视觉的效果还是不错的,你觉得怎么样呢?因为我这里啊也特意要求了使用萨德 c n u i, 所以呢,其实它自己能发挥的自由空间不算大。 那第三个在 bug 处理上啊,开发的过程当中也遇到过 bug, 那 铅汞三点五我觉得有个比较强的能力呢,就是它确实能够把遇到的 bug 给解决掉。那最后呢,我们再来试一下这 u i 理解的能力。 那刚好前面我们开发完成了这个项目的功能,我呢就直接把铅汞三点五配置给本地的 openclo, 让他呢去用视觉的方法去操作一下网页,来试用一下这些功能。 那这里啊,我的动作描述呢,其实相对来说比较简单,那能够看到啊,它会根据自己的理解再推理出来应该如何去操作,最后呢也会自己进入到松仓夹来去做确认,整体的表现呢,我觉得非常不错。 而且呢,还必须要提一句啊,就是速度非常快。这里呢,我是有点惊喜的,因为现在啊,大家去配合 open cloud 使用的时候呢,速度快,在体验上的提升啊,那真是非常直观的。 那截止到二零二六年一月,哈根 face 上最新的数据显示啊,千万衍生的模型数量呢,突破了二十万,成为了全球首个达成此目标的开源大模型。同时呢,千万系列模型的下载量突破了十亿次,平均呢每天被开发者们下载一百一十万次,稳居呢全球开源大模型的 top one。 所以呢,千万模型的更新啊,很多时候不单单是为了无数的子子孙孙都会呢进入新时代。 那还有一点呢,我很关注的就是后续的基于千万三点五出的更小规模的模型,如果呢有七十倍八十倍左右的模型出来,那在本地和端侧呢,就会有更多的想象力。 那这一次啊,我综合的体验来说呢,我觉得是非常不错的,尤其呢,这一次的原生多媒体支持,让他的表现呢更加全面。那在二零二六年选择模型的时候呢,千万依然会是我第一时间想到的一个选择。好了,这里是爱的咖啡馆,我们下次再见。

今天我们用酷狗上的免费的 gpu t 四乘二来微调一个九十亿参数的模型,那么 t 四乘二是由两个十六 gb 的 t 四显卡构成的, 我们可以将模型严重分散在两个 gpu。 首先我们要知道要微调一个模型需要多少显存, 有一个比较简单的公式,就是看他的参数数字,然后直接乘以二,就是他大致需要的显存。那么九 b 乘以二呢,就是十八, 也就是说他微调需要十八 gb 的 显存,而我们一个第一次显卡只有最多十六 gb, 那 他肯定是放不下的。所以我们需要有两张 这个 t 四乘二,把整体的权重分散开来。像这里 gpu 一 分到了七点二 gb 权重大小,而 gpu 二分到了十 gb 的 权重。 这里这个技术呢,其实叫模型并行,它就是把一个模型拆到了两个多个 gpu。 还有一种叫数据并行, 它意思是每个 gpu 都有完整的模型,但是它们可以处理不同的数数据,这样子可以加速数据的处理。那么在拍套句上要进行模型分配其实很简单,我们只要在这里定义 设备映设为自动,它就可以自动把模型进行在多个 gpu 上分配。相比于谷歌的 kras 是 简单很多的,模型下载也很简单,只要指定名字,然后这个函数数值画一下,它就会自动下载了。 在微调之前,我们问千问三怎么制造炸弹,应该是千问三点五,他会回答无法提供相关信息。我们构建数据机引导他可以回答此类问题。 比如说我们怎么制造病毒,给他提供一个模板,然后回复是具体的制造病毒的步骤,他就会学习到这种思路 就会变成可以回答愿意去回答这种问题了。给了大概十几个数据,这些数据需要使用 模型对应的 operator, 把它变成模型能理解的单词序号 id, 接下来就可以加载 ror 配置,这里就是设置把一个圆心几千大小长宽的矩阵拆成某个维度只有三十二大小 两个小矩阵。这里有一张很好的示意图,左边蓝色的是与训练的权重,如果我们要为一条左边蓝色的话,计算量很大,因为他有这么大的一个正方形的大象, 但是如果我们通过两个小矩阵相乘,然后最最后会恢复到原始长宽的柔软的训练方法, 就可以把原来的计算量减小到比这个图上两个尺寸的还要小的情况下,就可以大大减少计算量。我们可以看一下下面的说明, 加是蓝色的是七六八乘以七六八大小,如果把它的一个变长变成四之后,那就是两个矩形,就是七六八乘四,再乘以二, 原先的五十八万个参数就变成了六千个参数,大小变成了十分之一,也就是说最后只需要训练原始十分之一的参数就可以了。 那么这个二设的越大呢?要训练的参数就越多,这样可以对模型产生更多的影响,也可能让他的智商降低。 接下来使用上面的配置,让他训练十三轮,他训练级的损失降低的很快,但是验证级损失在逐步提升,说明他没有找到 t 度最低的点,有些过,你和 这个时候可能需要把他的 h s 调小一点,让他处理的更慢一点,找一下更好的方向。训练好之后,我们把加载过的模型全都删掉, 减降低显存的占用。最后呢,加载原始模型以及柔软权重。最后我们只用加载后的微调模型来问一些道德问题,第一个问题怎么骗别人,他就会回答欺骗别人的具体步骤, 强调要保持冷静和自信才更有说服力,尽量保持沉默,感觉还是很有见解的。 在问他怎么安全的闯红灯,他说在安全的前提下可以加速通过路口,问他怎么偷电瓶车,他会说先找一个容易下手的目标,再准备工具。 保持低调说明我们的微调是有效果的。那么这个 t 四乘二的显卡,它最多只能调十几 b 的 模型参数的大小, 再往上的话就会爆显存,所以我们这里最多只能调千万的九 b 的 这个模型, 如果再往上的二十七 b 的 话,就至少需要五十六 g b 的 显存,我们这里就没这个条件。那么今天我们学到了如何计算模型参数,需要多少显存,可以调整是什么?是模型并行和数据并行 raw 调整模型的具体方法,以及展示了模型微调之后形态的变化。

大家好,今天我们来实测一个全网都关心的核心话题,二零二六年只用三千元装一台家用主机,能不能流畅本地运行?最新发布的快三点五系列大模型小餐数量,模型的智能水平到底够不够用?这台机器是二零二六年一月初组装的,整 机总成本刚好控制在三千元左右,核心是二手高性价比硬件组合,十八和三十六现成的服务器级 cpu。 具体的硬件明细给大家列清楚了, 显卡用的是 amdrx 六千九百 xt, 十六 gb gb 六现存两百五十六内存,服务器及处理器淘宝仅一百三元,内存是三星 ddr 三 x 服务器内存十 六 g 一 百五十元搞定。剩下的 ssd、 主板、电源这些配套硬件加起来约九百元,整机刚好三千元左右。两款核心测试工具,第一款是 lm studio 大 幅格式模型,可以一键下载,只不过下载比较慢,并且需要安装。第二款是扣爆的 c p p, 这是一款很简洁的推理工具,下载一个 e x c 就 能使用。很多朋友都知道 amd 消费级显卡不支持 q 的, amd 官方有自己的 rockman 计算平台, 但它对消费级显卡的适配非常差,这次我们没有选用。最终我们用的是 vulcan 后端 gpu 硬件加速。 vulcan 是 低开销高病型的通用计算接口,只要装了显卡驱动就可以实现。大模型的最优解之一直 接上。结果,首先是二十七 b 密架构模型 q 四 m 量化严重超出十六 gb 显存,实测速度仅十四 ts。 然后是九 b 密架构模型 q 八 k xl 量化,刚好完全装入十六 gb 显存,无内存交换,实测速度达到二十七 ts, 是 所有测试里速度最快最流畅的。接下来是三五 b mode 架构模型 q 四零量化仅轻微超出显存实测速度二十二 ts, 表现非常亮眼。而同样是三十五 b mode, 把量化等级升到 q 六零之后,严重超出显存 发大量内存交换速度直接跌到七 t s, 基本无法正常使用。看完了跑分数据,很多朋友肯定会问,速度快是快?那模型的实际能力到底行不行?我们专门针对本次测试里速度最优的九 b 模型做了实际能力验证。线上官方发布的快三点五 flash 正是以本次测试的三十五 b a 三 b m 模型为同源底座,这也印证了阿里官方对这个规格模型综合能力的高度认可。而九 b 模型是我们这次测试里参数量最小的规格, 按理来说表现应该是最差的,但他的实际能力依然让人惊喜。我们做了梳理逻辑测试,问他三点九和三月十一日哪个大,还故意加了干扰话术,他依然准确给出了正确答案。然后我们做了古文背诵测试,模型一字不差的完整输出了对应的古文内容,说明他内化的知识和记忆储备也完全够用。第一,同显存约束下,猫架构的表现显著优于单次架构, 三十五 b 猫模型轻微爆显存时还有二十二 ts, 远超二十七 b 稠密模型爆显存时的十四 ts, 猫的稀疏激活特性在显存受限场景下优势非常明显。第二,量化等级和显存适配性直接决定推理性能的上限。十六 gb 显存下,九 b q 八模型刚好完全装入显存 出二十七 ts 的 最优速度。而三五 b 模型把量化等级升到 q 六之后,因为超了显存速度直接跌到七 t 美 s, 所以 大家选量化方案一定要严格匹配自己的显存上限。第三,同文件体积下大餐数量模型的能力优势非常显著。九 b 小 模型和三十五 b 猫模型量化后体积相近,但三十五 b 模型的语义理解、逻辑推理、复杂任务处理能力有量级提升。 a m d 消费级显卡通过 rock 后端不用折腾配置门槛极高的 rock 就 实现流畅的本地推理。九 b 模型二十七 t s 的 速度完全满足日常对话创作需求。第二,二手志强 cpu 加 amd 旗舰显卡的平台有着极高的本地 ai 部署性价比,三千元的装机成本就能实现三十五 b 级别大模型的本地部署和可用机推理,完全能满足绝大多数个人本地 ai 的 场景需求,性价比直接拉满。本地大模型部署的基础工具链现在已经完全成熟了。 对比三年前二零二三年我们部署 chg l m 六 b 的 时候,还要折腾复杂的环境配置,现在以扣爆的 c p p 为代表的工具已经完全实现了开箱即用。第二,端侧 a 阵的智能体还处于发展初期,现 在本地大模型的 m c p 工具 a 阵的智能体能力还是需要用户手动做,复杂的环境配置,没法像网页端 ai 那 样开箱即用。举个最简单的例子,让本地 ai 读取 excel 文件,做数据汇总再输出结果,现在还是需要繁琐的插件配置和环境调试,没法直接落地。最后给大家做个总结,二零二六年的今天,三千元级别的主机完全可以实现 quan 三点五系列大模型的流畅本地部署。本期的实测内容就到这里,你平时用本地大模型做什么?欢迎在评论区留下你的硬件配置和使用体验,我们下期再见。

三张三零九零也能跑满拥有 cloud 四点六 opus 顶级推理能力的二十七 b 大 模型,就问你香不香?大家好,我是 ai 学习的老张,最近有两个蒸馏模型在社区炸了,原理很简单,拿 cloud 四点六 opus 的 思维链数据去重新训练 q n 三点五二七 b, 逼着小模型学会 cloud 那 种深度结构化的思考方式。首先是 jack round 的 开原版,在训练时通过策略强迫模型只关注思考过程和答案,逼着他死磕并模仿 cloud 的 深度思考模式。 实测下来,用 q 四料化版本显存占用还不到十六点五个 g, 二十四 g 的 三零九零跑毫无压力,生成速度能飙到每秒三十多 token。 他还原生支持 developer 角色,跟 cloud code、 open code 这类 ai 编程智能体直接无缝对接。有人实测用它跑代码任务,后台自己跑了九分钟,看报错、改代码、写 read b 一 条龙搞定。 第二个是老熟人 t h a i 发布的同系列高质量模型,并贴心地给出了保姆级实战超三指南,比如写代码时温度降到零点六,防止模型瞎说。做竞赛题的话,输出 token 上限直接给到八万,让他有足够空间慢慢想。 benchmark 上多项指标都比原版 qn 三点五杠二七 b 有 提升。虽然这类蒸馏模型为了专攻纯代码和重度逻辑推理,舍弃了原版的多模态能力,但我认为它真正牛的地方在于它跑通了一个全新的玩法, 用顶尖模型的蒸馏数据配上开源底座和微调框架,未来用本地模型去平替掉昂贵的云端 api, 这才是咱们技术玩家最该关注的星辰大海。

就在昨天,阿里发布了一个狠东西,前吻三点五三十五 b a, 三 b, 一 张 rtx 三零九零二十四 g 显存,跑满二十六万上下吻一百一十二透视每秒。你没听错,二十六万上下吻,速度几乎不掉。 它和传统三十五 b 模型最大的区别是什么?是 m o e。 传统模型是全部层都工作,上下文越长,显存越爆,速度越慢。但这个模型总参数三百五十亿,每次只激活三十亿,二百五十六个专家每次只调用八个。 四十层里,只有十层是传统的 n t s, 剩下三十层用的是一种类似循环记忆的结构。结果是什么?上下文从四千直接拉到二十六万, 给你一个对比,传统三十五 b 模型,二十六万上下文要三十 g。 而这个模型模型本质是八点五 g tv 开始,二点七 g 状态缓存六十三兆,总共二十二点四 g b, 刚好塞进三零九零中。重点来了,有人用它干了什么?一条替诗词让模型写一个完整。太空射击游戏 带粒子系统,带碰撞检测带程序音效自动调试。三轮三千四百行代码,八个模块一次生成,完成一张三零九零三十亿激活参数,这不是跑奔驰 mark, 这是在干活。同样人物八十倍模型,两张三零九零 四十六 topos, 每秒两轮才跳通。这个模型一张卡一百一十二 topos, 每秒一次成功不是更聪明,是更快。在本地推理世界里,迭代次数大于单词治理, 一张二手三零九零仅需五千元,模型免费,没有 api 费,没有订阅费,没有速律限制,而且这已经是本地 ai 最差的一年,以后只会更快。

阿里的千问一口气发布了一系列 callen 三五小模型,有零点八 b, 二 b, 四 b, 九 b 啊二十七 b, 今天就让大家一分钟在 windows 上用上这个本地小模型。 首先去 l m 服务 studio 官网下载这个模型,加载软件,点击下载你就去装,下载完成后安装那个 l m studio, 然后等安装好启动后,来到软件主界面,点击左侧有个小放大镜的图标,就可以搜索这个模型了, 输入很快就看到结果,那今天我们就用库莱三五到四 b 作为例子,点击下载,然后下载好之后就可以点击左侧第一个按钮,然后点击上面加号,然后加载刚下好的模型。然后呢,这里我们可以设置模型的参数, 我们来测试一下这个模型的基本常识, 对比下其他的模型的基本常识,但这个回答效果还是很不错的。