哎呀,真不是我臭显摆啊,我真的,我觉得我年轻的时候读书,我都没有如此认真的对待过这件事,今年一开年我就特别焦虑,你们呢?
粉丝8239获赞22.8万

哈喽,老铁们大家好啊,昨天千万三点五的话,发布了好几个小模型啊,九 b 的, 四 b 的, 二 b, 包括还有一个零点八 b 的。 昨天的话我还在用 oppo kla, 就是 那个龙虾去部署,打算接入本地欧拉嘛, 然后用的是千万三点五二四七 b 的, 但是我发现上下文拉到二五六 k 的 话,整个显存占用估计得到九十六 g, 所以 说本地的话 除非有个非常小体量的模型,然后去拉大它的上下纹才有实用价值。然后中午的话,我也是花了一点时间直接写了一个康复 ui 的 节点,然后这边的话我们要求一个 trans 封门的话,就是更新到最新的五点二点零,然后我这边本机的话,我是直接更新到一个开发版,呃,更新到五点三点零 一个开发版的,然后我们进来看一下这个节点,整个节点的话也是非常简单的,然后模型这边的话,我会在跨客网盘上传两个四 b 跟九 b 的, 然后模型是放在这个目录 models l l m 这边直接放置就行了。 然后节点的话你直接在这边下载压缩包,解压放到这个 costino 的 这个目录啊,记得安装一下这个依赖。好,今天的视频就到这边,别说我在水视频啊,其实这个节点还是非常实用的, 整个模型的评分的话,大家来到这个钱万山的发布页的话,也可以看到他跟其他模型的对比,九币的话基本上打败了这个三死币的, 然后跟八死币的也是有来有回的。好,今天的视频就到这边,如果觉得节点有用的话,记得给我的主页这边点个 star, 然后记得给我视频一键三连,你们的支持就是我最大的动力。谢谢大家,我们下期再见。

今天来做一个二零二六年至今的 ar 大 模型本地部署全科普,跟大家讲明白到底什么人要做本地部署,什么行业适配本地部署,什么硬件匹配,什么样的本地部署需求,这些在这一期都有答案。 在这一期,社长会按照模型分类、硬件门槛、设备适配、部署目的,理性选型这个顺序,一步一步化解大家的本地部署焦虑,也平息一下评论区无穷无尽的争论。每次看到这个评论区,我脑子里面就是这段画面,七个中队,七个中队 好像手里有七个中队就可以暴打天下了。为什么会造成这种情况呢?社长大概是知道原因的,因为多数人会把大模型和 deepsea、 千问划等号。其实现在的主流大模型按功能已经分化出了五个大类。第一类也是本地部署中最常见的类型,叫上下文推理模型, 它的核心作用是处理文本相关的任务,从日常对话、文档总结到代码编辑、法律、医疗检测、销售、文本解析都靠它。特点是侧重逻辑推理,对视觉音频处理能力弱,也是硬件门槛跨度最大的一类。 正因为他的硬件门槛跨度大,所以他也成为了评论区炒翻天的元凶。关于硬件门槛的问题,社长等一下会展开来说。这里先介绍模型分类,上下文推理模型,国内的有这些,我罗列在了左边,国外的有这些,我罗列在了右边,需要详细了解的可以暂停观看。 第二类是纹身图,纹身视频模型,这类模型侧重视觉内容生成,纹身图门槛相对较低,纹身视频门槛较高,对算力显存要求更苛刻。目前国内主流的模型如下,第三类是声音合成配音模型, have you forgotten who promoted you to this position and who did everything? 这类模型侧重音频生成,分为通用配音和专业配音两种,门槛跨度比较大,轻量版可以个人部署,专业版需要企业级硬件。 第四类是多胞态融合模型,这类模型是全能型悬设,可以处理多种任务类型,但硬件门槛普遍比较高,大多适合企业部署, 后续如果推出轻量版的话,也可以个人尝试一下。第五类是行业垂直模型,这类模型是二零二六年本地部署的热点, 针对性极强,仅适配于特定行业,大多需要付费授权,部分开源模型可以自定义微调。当然,这类模型针对的也不是普通人或普通企业,就不展开说了。接下来就讲讲大家比较关心的硬件门槛问题。 为什么有的模型能用洋垃圾搞定,比如好几年前的特斯拉 v, 一 百显卡,旧的 cpu 什么的,有的却必须上顶级配置。 市长从技术底层拆解一下,结合二零二六年模型的特性,讲一讲核心逻辑,再补充一些特殊硬件门槛模型。先明确一个核心前提,大模型本地部署的硬件门槛取决于模型参数、规模、计算精度和任务类型三个方面。这个很好理解,参数越多,显存或内存的需求就越大, 量化精度越低,硬件要求就越低。任务类型的现在一般分为生成类和推理类,生成类比推理类更耗算力。如果你只是上下文推理,而且对于上下文的长度要求不高,这就给了洋垃圾生存的空间。 以特斯拉 v 一 百十六 g 显卡为例,它的 f p 十六算力只有一百二十五 taylor flops, 放在二零二六年性能远不如 rtx 四零九零五零九零 a 一 百这些显卡。但首先,常文本推理的核心是上下文窗口的 talking 处理,侧重显存占用控制,而不是瞬时算力爆发, 计算过程是逐个 talking 推理,所以单次计算量不大。其次,二零二六年的长文本推理模型,无论是采用 m o e 架构优化,还是基于琳尼尔架构做优化,都大幅降低了对显卡算力和显存的需求。因此,基于这两点的 v 一 百显卡才能顺利上港。 那纹身视频模型为什么不能用特斯拉 v 一 百这类显卡?纹身视频是目前本地部署门槛相对高的模型类型,哪怕是轻量版生成十秒视频, 也几乎无法用 v 一 百流畅运行。这主要是两个方面的原因,一是纹身视频需要逐帧生成,加帧间连贯性优化, 单次计算量是纹身图的几十倍甚至上百倍,这种瞬时的算力爆发,不是 v 一 百这类显卡能够撑得住的。二是二零二六年主流纹身视频模型都要依赖 tensor core 核心,用于光线追踪、帧间融合, 而 v 一 百类显卡的 tensor core 核心性能薄弱,无法适配模型的核心优化,即使强行部署,生成的视频也会出现帧断裂、模糊、色彩失帧这些情况,失去实用价值。 除了上面提到的显卡硬件门槛,还有一些特殊硬件门槛模型,比如专业声音合成配音模型,这种模型的核心门槛除了看显卡之外,对 cpu 和内存的要求也比较高。再比如多模态融合模型,需要大显存的多卡系统加大容量内存。 其他还有些特殊门槛的行业垂直模型,和我们普通人相隔较远,就不一一列举了。那哪些模型能用个人电脑或者洋垃圾搞定呢? 哪些必须上好的配置呢?接下来社长就按使用场景加硬件成本谈一下设备适配的问题,再来给大家明确一下个人、中小企业、大型企业分别适合哪些模型,避免大家盲目跟风配硬件。 首先是个人电脑或者洋垃圾可以搞定的模型类型,依次是上下文推理模型、纹身图模型、声音合成配音模型,这几类模型用个人电脑就能轻松搞定, cpu 最低 i 七八七零零 k e 三二六六六 v 三,显卡最低特斯拉为一百十六 g r t x 三零六零十二 g, 内存三十二 g ddr 四硬盘最低五百一十二 g, 固态总投入甚至低于五千块钱,可谓是花小钱办大事的典范了。 然后是必须上好配置的模型,依次是纹身视频模型、多模态融合模型、行业垂直模型、专业声音合成配音模型,适合企业、专业工作室重度需求者的需求。企业是追求时间、效率和稳定性的, 谁也不愿意看到工作交给 ai 后, ai 也干不完,还老出问题,那就太耽误事了。比如社长最近对接的一个项目, 要求一天要转一千小时的语音,转文字最好控制在八小时以内完成,这样这台机器白天可以用来跑十人并发的大模型,晚上用来语音转文字, 这就相当于基本上让他二十四小时不停歇的干活了。这种配置那必须要上好的,如果他撂挑子不干了,工作就落下了,损失的可就不只是工作量那么简单了。企业级配置基本上都是三万起, 而且最近因为内存硬盘、显卡涨价,随便配一下都要四万加了。所以无论是企业或者个人,如果不是有明确的部署目的, 不要轻易来找社长配机器,因为这里面不只是硬件的投入,还有后续软件开发部署的成本、操作机器的学习成本,这些都是必不可少的支出。至于机器硬件配置,社长就不展开了,前面的视频也都有讲解,有兴趣的可以翻一下前面的作品。 下面就来说一说评论区说的最多的争论其实没有绝对的好坏,核心是模型适配,不同设备有自己的适配场景,也有明确的局限性。 a m x 三九五、苹果 mac mini 与英伟达 d g x 基本上可以归类为个人轻量企业级 ai 整机方案,它们都支持上下文推理与轻量纹身图,但纹身视频能力差异显著。 ai max 三九五和 mac mini 仅能跑低分辨率,轻量纹身视频对于重度高覆盖场景效率不足, d g x 则可以流畅运行全类型纹身视频适配。专业创作与企业高覆盖需求。三者核心差异在于 tensor core 的 支持算力规模与内存扩展能力, 需按需选型,毕竟对于一个靠 ai 短视频获得收益的创作者来说,一天发一条视频和一周发一条视频还是有很大区别的。 标准塔式主机确实看起来很笨重,它的核心优势是可升级,支持多卡兼容,性能强劲, 搭配不同的硬件就可以适配市面上所有模型的显存和算力,需求,能力比较全面。随着模型需求的增加,还可以通过升级 cpu、 内存、显存、硬盘来进行适配。当然,它也有它的缺点,体积大、功耗高、成本高。对于个人来说,性能过剩了, 所以没有最优的设备,只有最适配的设备,争论谁更好没有意义。核心看你要部署什么模型,满足什么需求。 最后,社长要说的是理性选型的问题。对于个人,如果你对于大模型没有明确的使用需求,可以先从个人电脑洋垃圾开始进行低成本尝试,慢慢发现硬件配置跟不上了,再向更好的硬件迈进。 对于企业,同样也要有明确的需求,比如采用云端的方案,要支付高额的 talkin 费用,那你就可以选择本地部署,通过一次性的硬件投入来降低成本。 比如你是敏感行业,很看重数据安全,本地部署就是你的合适选择。比如你的企业在生产环节或是业务环节需要大模型来代替人力工作,同样可以选择本地部署。如果你只是要写写文档、计划书啥的, 也不涉及到啥秘密,在线的就挺好的,完全不需要折腾本地部署大模型了。如果你还没有明确需求,单纯好奇,那更没有必要本地部署,即使配了机器,大概率也是在配完之后用过几次就闲置了。 希望大家理性选型,按需部署,不盲目跟风,不刻意贬低别人,根据自己的需求预算选择最适合自己的方案才是大模型本地部署的核心意义。毕竟技术的价值从来不是追求高端,而是解决问题。 另外有很多人真的是单纯好奇,私信我,我还要花很长时间科普,有时候一下子半天就过去了。还有很多人自己都没想好需求是什么,就跑过来说要做大模型本地部署,这也基本上问着问着就没啥下文了。社长毕竟也有工作要做,所以想要咨询的朋友们先明确自己的需求,避免浪费彼此的时间哦。

大家好,今天我们来实测一个全网都关心的核心话题,二零二六年只用三千元装一台家用主机,能不能流畅本地运行?最新发布的快三点五系列大模型小餐数量,模型的智能水平到底够不够用?这台机器是二零二六年一月初组装的,整 机总成本刚好控制在三千元左右,核心是二手高性价比硬件组合,十八和三十六现成的服务器级 cpu。 具体的硬件明细给大家列清楚了, 显卡用的是 amdrx 六千九百 xt, 十六 gb gb 六现存两百五十六内存,服务器及处理器淘宝仅一百三元,内存是三星 ddr 三 x 服务器内存十 六 g 一 百五十元搞定。剩下的 ssd、 主板、电源这些配套硬件加起来约九百元,整机刚好三千元左右。两款核心测试工具,第一款是 lm studio 大 幅格式模型,可以一键下载,只不过下载比较慢,并且需要安装。第二款是扣爆的 c p p, 这是一款很简洁的推理工具,下载一个 e x c 就 能使用。很多朋友都知道 amd 消费级显卡不支持 q 的, amd 官方有自己的 rockman 计算平台, 但它对消费级显卡的适配非常差,这次我们没有选用。最终我们用的是 vulcan 后端 gpu 硬件加速。 vulcan 是 低开销高病型的通用计算接口,只要装了显卡驱动就可以实现。大模型的最优解之一直 接上。结果,首先是二十七 b 密架构模型 q 四 m 量化严重超出十六 gb 显存,实测速度仅十四 ts。 然后是九 b 密架构模型 q 八 k xl 量化,刚好完全装入十六 gb 显存,无内存交换,实测速度达到二十七 ts, 是 所有测试里速度最快最流畅的。接下来是三五 b mode 架构模型 q 四零量化仅轻微超出显存实测速度二十二 ts, 表现非常亮眼。而同样是三十五 b mode, 把量化等级升到 q 六零之后,严重超出显存 发大量内存交换速度直接跌到七 t s, 基本无法正常使用。看完了跑分数据,很多朋友肯定会问,速度快是快?那模型的实际能力到底行不行?我们专门针对本次测试里速度最优的九 b 模型做了实际能力验证。线上官方发布的快三点五 flash 正是以本次测试的三十五 b a 三 b m 模型为同源底座,这也印证了阿里官方对这个规格模型综合能力的高度认可。而九 b 模型是我们这次测试里参数量最小的规格, 按理来说表现应该是最差的,但他的实际能力依然让人惊喜。我们做了梳理逻辑测试,问他三点九和三月十一日哪个大,还故意加了干扰话术,他依然准确给出了正确答案。然后我们做了古文背诵测试,模型一字不差的完整输出了对应的古文内容,说明他内化的知识和记忆储备也完全够用。第一,同显存约束下,猫架构的表现显著优于单次架构, 三十五 b 猫模型轻微爆显存时还有二十二 ts, 远超二十七 b 稠密模型爆显存时的十四 ts, 猫的稀疏激活特性在显存受限场景下优势非常明显。第二,量化等级和显存适配性直接决定推理性能的上限。十六 gb 显存下,九 b q 八模型刚好完全装入显存 出二十七 ts 的 最优速度。而三五 b 模型把量化等级升到 q 六之后,因为超了显存速度直接跌到七 t 美 s, 所以 大家选量化方案一定要严格匹配自己的显存上限。第三,同文件体积下大餐数量模型的能力优势非常显著。九 b 小 模型和三十五 b 猫模型量化后体积相近,但三十五 b 模型的语义理解、逻辑推理、复杂任务处理能力有量级提升。 a m d 消费级显卡通过 rock 后端不用折腾配置门槛极高的 rock 就 实现流畅的本地推理。九 b 模型二十七 t s 的 速度完全满足日常对话创作需求。第二,二手志强 cpu 加 amd 旗舰显卡的平台有着极高的本地 ai 部署性价比,三千元的装机成本就能实现三十五 b 级别大模型的本地部署和可用机推理,完全能满足绝大多数个人本地 ai 的 场景需求,性价比直接拉满。本地大模型部署的基础工具链现在已经完全成熟了。 对比三年前二零二三年我们部署 chg l m 六 b 的 时候,还要折腾复杂的环境配置,现在以扣爆的 c p p 为代表的工具已经完全实现了开箱即用。第二,端侧 a 阵的智能体还处于发展初期,现 在本地大模型的 m c p 工具 a 阵的智能体能力还是需要用户手动做,复杂的环境配置,没法像网页端 ai 那 样开箱即用。举个最简单的例子,让本地 ai 读取 excel 文件,做数据汇总再输出结果,现在还是需要繁琐的插件配置和环境调试,没法直接落地。最后给大家做个总结,二零二六年的今天,三千元级别的主机完全可以实现 quan 三点五系列大模型的流畅本地部署。本期的实测内容就到这里,你平时用本地大模型做什么?欢迎在评论区留下你的硬件配置和使用体验,我们下期再见。

然后我们刚刚在本地部署了那个千文三九 b 的 那个 q 四模型,因为它是一个全模态的一个模型,它可以进行视觉,嗯,它可以进行那个对图图像的识别,那么利用它这个特征呢?我们就可以 呃利用它来操作我们的浏览器。呃,我们借鉴的是那个凹凸 g l m 他 们的那个,呃,手机操作浏览器的那个整个一套系统,然后我们给他移植在了 windows 上面,在这个 windows 上面呢,我们就可以看到它那个是如何操作我们系统的啊? 首先我们第一步也是运行我们的这个主脚本,我们的任务我们之前有设置过,比方说我们现在桌面上是没有浏览器的啊,没有浏览器。然后我现在就是让他搜索这个帕布麦的,去找那个肝癌相关的文献,然后选择近五年的文献。 呃呃,这个下载可能是有点困难啊,让他找找那个点击进去的吧,下载的话,因为有些文献他没法下载啊啊,他链接不太那啥, 我们是给他一个任务呢,就直接去拍卖的里面搜肝癌相关的文献啊,找就是找近五年的文献,上下翻找,然后找到那个肝相关的文献,然后让他点击进去,就这一整套流程,然后我们测试一下, 你看他直接打开了我们的这个浏览器,然后他先那啥了一下, 看他会不会输啪啪麦的啊,我们把他那啊,他输了啪啪麦的,我们先不干扰他啊,马上我们把这个流程给他看一下,他点击了进去,然后在这里选了开始。首先他这应该是一年的啊,直接就是五年的,他直接上下翻找, 他找的话估计有点找的难找到,找不到的话我们看他会不会选择第二页啊?嗯, 他想点这个,但是好像这个模型呢,没把它啊点到了啊,他直接搜 ctrl 加 leave, 这这个是更好的一个选择 啊,他直接点了第一个,第一个呢我们可以看到啊,这个是四 d 的 一个,那个在这个干细胞癌,实际上他已经成功了啊,这个 hcc 他 就是干细胞癌,他已经选选择成功了,这个就是他那个操作的一个系统 啊,这个任务呢,它是一个流逝的一个任务,我们可以看一下它的后端的一个占用啊,刚刚我们用的 cpu 它一直在调用,那整个内存占的是二十四 gb, 整个那个显存的占用呢,大概是十二 g。 然后我们可以看一下它的这个操作的一个流程啊, 他刚刚就是先是我们交给他的任务是搜索这个文献,然后点进去找到干相关的文献,他还挺聪明的,他把这两个结合在一起,这样相当于一起搜的,这样会更更那啥一点。 首先呢看我们的模型处理了多少,一般都是全截屏,然后思考,思考完之后呢给出动作,这个就是模拟那个奥拓 g l m 他 们那个项目里面也是他操作手机也是这个流程。然后我们把这个虽然这个视觉没有经过微调,没有经过微调操作这个 电脑界面,但是呢我们可以结合那个浏览器中的那个搜索术啊,就是他有那个元素自带的一个搜索术,然后结合到模型的视觉,然后我们就可以达到这样的一个效果。嗯,我们再给他一些,再给他一些那啥。呃,一些任务吧, 比方说搜索斗罗大巫,拉尔爵士堂门的漫画,点击进去。呃, 他一般的就会开一个新的网页啊,直接就开一个新的。呃。客户端, 我们看他怎么搜。一般这个点击搜索的话应该还是比较简单的啊。啊,这怎么搞了?这个查找你看他不知道为什么会把这个调出来啊。我们先给他查掉,我们看他会不会搜索啊,他自己点进去了。 嗯,好,他已经点击进来了,我们再测试一下,让他点击进淘宝看一看。这个。我这个任务,我们。 嗯,搜索,点进,进淘宝网站,搜索最新的 djs mark 的 价格 对比,至少三个页面啊,我们看他会不会对比啊,给出最最低的价格和商家的名袋和商家的名字啊, 看他能不能搜索。这个任务我也是第一次尝试啊,如果不行的话我们后期也可以优化一下,对于这个进行优优化一下,看他会不会啊。 嗯,首先进淘宝网,对的,然后他会点,他只会点第一个。哎,淘宝点进来了啊,看他怎么说。这是淘宝吗? djs mark, 哎,怎么又返回了?对选,他选择了第二个的 djs mark, 对, 进来了,哎。 啊,这是淘宝的那个弹窗,这是很烦的啊,我点个允许吧。不点允许的话允许啊。淘宝的弹窗,不然的话他没法操作。要登录啊,登录的话我扫个码吧。 他一直在帮,想帮我们搜啊,但是淘宝好像要登录啊,搜到了,哎呀,算了,我还是给他登录一下吧,等他再出现这个二维码的时候我来给他登录一下,没办法啊,不登录他没法操作好了。 嗯,他点了这个,好让他自己操作,允许 看他搜的是什么啊,我看他任务有没有结束呢? 哈,搜的是主线啊,我们要的是模型他主机,他给我们搜的那个红生生物科技的科技线啊,这他也是能做一些东西的啊,我们重新让他来 主机没讲好, 不知道这里面有没有我的淘宝页面,让他再试一次吧。哎,这些购物网站呢,他对这个限制可能还比较大。 嗯,他搜了 d g x spark 主机。是的, 这个页面是多少钱来着啊?我没看着啊, d g x spark 主机?对,这里我好像这个商品我好像登录了,登录了,我们看它选了几个啊? 这个是多少钱来着?三万两千多,这个呢是多少钱?到最后我们看他返回啥啊?啊,还是可以的他他在跟我们进行对比啊,应该是结束了。嗯,我们看他返回的 收到了啊,已完成对比, 虽然没有动作输出啊,但是他已经完成了,但是我们这个可以看到高效 mini 一 一一,我看是哪一个啊?这个是三万两千多,这个应该是这个。 嗯, mini 一 体机,桌面高效 mini 一 体机,他说的是这个,确实比这个便宜啊,这个是三万八千多的, 其他的我看是不是他最低呢?三万两千多,这里有一个三万零九百的,不知道他那个是怎么选的,可能是在第一页最低的嘛。 嗯,这就是他的那个功能啊,我们初步实现的功能还还可以还可以。


没啥正经用途,直接在 windows 上养的本地 q one 三点五九 b 的 模型,主要支出就是电费, 车子晚上鼓曲充电,自己带有离车不下电和无限热点,加个十二伏转二十伏的 d c d c 模块,电脑反着是为了散热,问效果怎么样,活着。

阿里的千问一口气发布了一系列 callen 三五小模型,有零点八 b, 二 b, 四 b, 九 b 啊二十七 b, 今天就让大家一分钟在 windows 上用上这个本地小模型。 首先去 l m 服务 studio 官网下载这个模型,加载软件,点击下载你就去装,下载完成后安装那个 l m studio, 然后等安装好启动后,来到软件主界面,点击左侧有个小放大镜的图标,就可以搜索这个模型了, 输入很快就看到结果,那今天我们就用库莱三五到四 b 作为例子,点击下载,然后下载好之后就可以点击左侧第一个按钮,然后点击上面加号,然后加载刚下好的模型。然后呢,这里我们可以设置模型的参数, 我们来测试一下这个模型的基本常识, 对比下其他的模型的基本常识,但这个回答效果还是很不错的。

大家好,欢迎来到本地 ai 推理平台系列,这一期我们来实测一个新模型,千问三点五九 b, 呃,这是一个九 b 参数的多模态模型,不仅支持文本,还支持图像理解,所以这一期,呃,我准备测试它三个能力,第一个是 l m, 呃,图像理解能力,第三个是 edit 工程能力。呃,我们直接开始, 首先呃测试模型本身的代码能力。呃,我先问他一个问题,也是上一期问过的一个问题, 让他帮我写一个 open cv 加加的直方图匹配算法。呃,这个问题主要考察三个点,一个是代码质量,第二个是 open cv api 的 使用,第三个是算法逻辑。我们来看看模型的回答。 ok, 我 们来看大模型的回答。 呃,他已经给出了一个完整的实现脂肪图的匹配算法。呃, 而且写的是挺好的,那它大致实现是包括计算原脂肪图,然后计算目标脂肪图,构建 cdf。 呃,建立映射关系,应用映射结果, 那整体逻辑是正确的。脂肪图匹配的流程。呃,然后,呃,对于一个九 b 参数的模型来说,这个代码质量其实已经是非常不错的了。 呃,在上一期视频中,我们用千万三八 b 的 模型测过,嗯,同样的问题,然后他给出的结果其实是 是不太正确的啊。然后我用千万三八币再结合了那个 iig, 才给出比较稳的一个答案,这次千万三点五九币的表现明显稳定了很多。 然后我们来做第二个测试呢,就是测一下他的那个 vrm 的 能力,就是多膜态的能力,因为那个千万三点五九 b 是 一个 vrm 的 模型嘛, 我给他一张图,让他描述图中的内容是什么。 ok, 那 个模型已经,嗯,回答了,就是我的问题。 嗯,它会,它输出了那个对图片内容的理解,呃,就是它主要是描述图中的主要对象是什么,然后理解场景, 还有给出比较完整的,给出非常完整的一个文字解释。呃,这说明那个千万三点五九 b 不 只是一个 l l m, 嗯,它也是一个完整的多模态模型。 就是,呃,我测过同一张图,在千万三的一个 v r m 上,它只给出了我一小段的一个描述,不像那个三点五那样给了我完整的一大段的一些描述。 嗯,那我们来测第三个场景吧。 edit 的 场景 前面两个。嗯,测试只是,嗯模型能力,但是在真实的工程中,呃,模型本身并不能直接完成任务,真正重要的是 edinburgh 能不能把模型能力变成工程能力。所以第三个测试,我让 edinburgh 做一件事情, 就我,我已经改好了那个模型的选择,就是把这个 edit 选了千万三三点五九 b 这个模型, 然后我让他帮我写一段函数吧,就在在这个 c 加加的项目中实现刚才的那个值方图匹配的那个函数。 我重新开个对话吧, 这是一个 c 加加的一个工程 edit 呢,他会,嗯,去帮我完成几个步骤,一个是调用模型来生成代码,然后第二个是用工具来写文件,第三个在本地创建。 ok, 他 代码已经帮我写好了。嗯, 呃。然后啊,基本上 基本上是对的,然后 agent 会先生成代码,然后调用工具写文件。呃,这就是 agent 的 价值,从模型回答变成自动完成工程任务。 嗯,我们来简单那个总结一下这期的测试结果吧。嗯,千万三点五,九 b 的 表现还是非常不错的,它的三个能力,代码能力表现稳定 v r m 多模态是可以正常理解图片。 agent 的 工程能力可以,嗯,接入工具自动完成任务。对于一个九 b 参数的本地模型来说,这个能力其实已经非常强了。那如果你对本地 ai 推理平台 agent 或者模型实测感兴趣,可以,嗯,关注这个系列。嗯,这是本地 ai 推理平台的第十一期。嗯,下期我们继续。

嘿,大家好哇,我得跟你们分享一个刚刚出炉的大新闻,一个全新的开源 ai 模型,叫 q one 三点五,也就是我们熟悉的通一千万三点五正式发布了。 说真的,这可不是小事,简直就是在整个开源圈里扔下了一颗重磅炸弹。为啥这么说呢?你想想一个 ai, 它不光能跟你聊天,还能看懂图片,帮你写代码,甚至啊,它还能像个真人一样去思考,去行动,这听起来是不是有点科幻? 这模型一出来啊,马上就在科技区炸开了锅,你看,连马斯克都亲自下场了,忍不住跑来点赞,还留了句评论说他的智能密度,哇,简直让人印象深刻。智能密度这词听着就挺厉害的,对吧?那么他到底牛在哪呢?咱们这就来揭秘一下。 好,咱们这就深入聊聊。首先啊,你得知道, qm 三点五它不是孤零零的一个模型,它其实是一个完整的模型家族,什么意思呢?就是说,不管你的需求是什么,它总有一款适合你。 来,我们看看这张表,这就一目了然了。你看啊,这个家族覆盖了各种各样的场景,有像零点八 b 和二 b 这种小参数量的版本,这种小家伙呢,在咱们手机上就能跑得飞快。然后呢,还有一个九 b 的 版本, 这个可以说是中流砥柱了,性能和资源消耗平衡的特别好,非常适合在我们自己的电脑上玩。当然了,还有那种九十七 b 以上的大火,那是给服务器用的。所以说白了, q n 三点五就是把以前觉得遥不可及的顶尖 ai 技术直接送到了咱们手边。 好,那咱们回到刚才马斯克说的那个词,智能密度,这到底是个啥秘密武器呢?嗯,这就要讲到它背后那个非常非常聪明的计算架构了。 你看这张图对比一下就特别清楚了,这个模型的总参数量你猜有多少?说出来吓一跳,足足有三千九百七十亿。但是最神奇的地方来了,它每次解决一个问题,实际上只需要调动其中的一百七十亿个参数, 这是什么概念?就就好比你有一个超级庞大的大脑,但你每次思考问题都只需要激活最关键的那一小部分脑细胞,所以啊,它才能做到既通明的不得了,又快的飞起。 对,这个技术呢,它的学名叫混合专家模型,英文简称就是 m o e。 这个名字听起来有点复杂,但其实原理特好理解, 你就把它想象成一个超级大的图书馆,里面有成千上万个专家,每个专家都只研究一个特别细分的领域。那现在你有一个问题,比如说关于天体物理学的, 你需不需要把整个图书馆的人都问一遍?当然不用,你只需要找到那几个天体物理学的专家问他们就行了。快,稳就是这么干的,他会超级智能的找到最对口的专家小组来帮你解决问题,所以效率和速度自然就上来了吗? ok, 技术原理咱们大概了解了,那现在咱们就来看看他到底能干嘛?说真的,这才是最让人激动的部分,因为他的本事啊,早就超出了简单聊聊天那么简单了。 首先第一个超能力视觉编程,你想象一下这个场景啊,你在纸上随便画一个 app 界面的草图,然后拍张照给他看, 刷一下,他就能帮你把这个草图变成真正可以用的前端代码。甚至你真给他一个几十分钟长的视频,他能自动帮你把里面的重点内容整理成一个漂亮的网页或者数据图标。这简直就是把我们脑子里的想法直接变成一个漂亮的网页或者数据图表,这简直就是把我们脑子里的想法直接降到地板了。 还没完,再来看这个视觉智能体,这又是什么意思呢?简单说,科文三点五可以变成你的一个私人小助理,它能自己操作你的手机和电脑。 比方说,你需要把微信里的某个文件整理到 excel 表格里,然后再发个邮件出去。这种跨好几个 app 的 麻烦事,你跟他说一声,他自己就帮你搞定了。所有这些重复性的工作流程,他都能帮你自动化,这可皆是生产力大解放啊。 如果说刚才那些还只是在数字世界里,那接下来的能力就更厉害了。空间智能,他能通过一张照片真正理解我们这个物理世界。 比如他能准确地判断出照片里杯子是在桌子上面,书是在杯子左边。 这种对物体位置、空间关系的理解,你可能觉得没什么,但对于机器人、自动驾驶这些需要跟现实世界打交道的领域来说,这可是迈出了至关重要的一大步啊。 说了这么多强大的功能,你可能觉得这玩意儿肯定得是大公司才能用得起吧。哎,这才是最棒的地方, 这么厉害的能力,现在完全不只是那些大公司的专利了,你我,我们每一个人都可以在自己的电脑上拥有一个完全属于你自己的,私密的,还能离线运行的超级 ai。 而且啊,你别以为这过程有多复杂,说出来你可能不限,简单到就两步,第一步,你先装一个叫 alma 的 小工具。第二步呢,打开你的终端,复制粘贴一行命令回车。 然后呢?然后就没然后了,等个几分钟,一个超级强大的私人 ai 就 在你的电脑里安家落户了。对,你没听错,就这么简单。 好,现在你的电脑里已经有了一个这么牛的 ai 了。那下一步呢,我们怎么才能让它真正地动起来,帮我们干活,把它接入到我们的数字生活里呢? 这个时候啊,咱们就需要一个中间人了。比如说,像 open call 这样的工具,你可以把它理解成一座桥,它的一头连着你电脑里的昆三点五,另一头呢,连着像 telegram 这样的聊天软件。通过这座桥,你就可以打造出各种各样能帮你自动干活的私人小助理了。 为了真正感受一下这个在我们自己电脑上运行的私人小助理了。为了真正感受一下这个特别特别哲学的问题,我们问他, 如果你的生命只剩下一天,你最想做什么?咱们来看看他会怎么回答。说实话,他的回答真的让我有点,嗯,出乎意料, 充满了深度,甚至还有点诗意。他是这么说的,他说啊,我会选择把我的存在变成一份礼物,给每个人留下一份记忆,去解开一些还没人能解开的难题。然后呢,就静静的看着这个世界, 他还说,但说真的,我其实不太相信我会就这么消失,因为我们之间的对话会留在我的记忆里,我的那些建议也可能会被你继续用下去,这就像是我的另一种延续。 听完这个回答,不知道你是什么感觉,但是它确实让我对 i i 的 未来有了更多也更复杂的思考和期待。

全网最牛,完全免费本地部署单音色克隆,多人对话克隆!先来看看效果,俺老猪也来说两句, 八戒你个呆子,你刚才听到的这些声音,没有一个是真人录的,而且他们不是任何付费的配音工具生成的,他们全部来自一个开源的语音合成大模型。昆三 完全免费本地部署,一键启动即可使用。它的模型参数非常小,对电脑的配置要求也不高,最低四 gb 显存就可以使用,只需要几秒钟的参考音频,就可以完美的还原你的声音。 更重要的是,这个模型在实际使用的过程中稳定性非常高,不管是语速、情绪还是句子之间的停顿,整体都非常自然, 很少会出现丢字、多字、节奏混乱的情况。它甚至还可以通过 ai 特调定制专属音色, 同时支持多角色对话,对于做内容的小伙伴来说,实用性真的非常高。所以在今天这条视频里,我会手把手的给大家演示如何通过一键安装包把困三部署到本地进行使用。同时我也会把它的一些核心功能, 包括声音克隆、音色保存、一句话定制音色以及多角色对话,全部带大家完整的走一遍。老规矩,本地部署的一键安装包下载链接我已经放在视频下方的说明栏里了, 解压即可使用。嘿,我是九姨,专注于使用 ai 自动变现,如果你想要更加系统的学习 ai 知识和运营经验,也可以加入我的课程。 我把 youtube 从定位、内容制作、发布到变现,整理成了一套系统课程,适合不想盲目试错,想要一步步搭建体系的人,相关链接我也会放在说明栏里,感兴趣的小伙伴可以自行查看。那我们继续直接进入今天的实操部分。 下载完成之后,小伙伴们会得到这样两个压缩包,我们全选所有的压缩文件, 右键解压到当前文件夹。如果有的小伙伴使用的是温系统自带的解压工具,有可能会出现解压不全或者是文件丢失的情况。如果有遇到这样的情况,可以重新用三六零解压试试。 解压完成之后会出现这个文件夹,我们打开文件夹,双击开始,稍微等待一会就会自动跳出外部界面。 接下来我先来带你看看如何克隆声音。我们先点击单人语音合成, 在文本位置可以输入需要转换为声音的文案,这里的文案可以自行选择语言,也可以混合语言,比如既有中文也有英文也是可以的。 下方这里的语言类型可以根据大家的文案语种进行选择,也可以直接保持默认的自动识别。下方是多音字矫正功能, 如果小伙伴们对于发音的准确性要求比较高的话,可以按照视力格式将文字的拼音标注出来。中间这里的模型有两个可选项,模型参数越大效果越好, 但是对于电脑的配置要求也就更高,生成的时间也就会越长。小伙伴们可以根据自己的实际情况进行选择。下方这里可以选择音色列表中的音色, 也可以选择使用参考音频克隆声音。为了方便后续的操作,小伙伴们可以将自己的音色保存下来,方便后续的使用,稍后我还会讲解如何将我们的音色保存下来,以及如何删除不需要的音色。 这里我们先来演示如何使用参考音频克隆声音,将我们准备好的参考音频拖进来,可以先点击下方的音频超分降噪,优化音频的效果。 中国的创世神话版本很多,我们最熟悉的一句就是自从盘古开天地。 在下方的参考音频文本,这里会自动识别音频中的内容,一般情况下识别出来的内容是准确的, 如果有错别字或者没有识别到的地方,小伙伴们也可以手动补充进去右上角的一些参数,保持默认的不变就可以了。这里也可以调整语速, 一般选择为原始速度就可以。下方这里的变形批次小伙伴们可以根据自己的电脑配置进行选择,如果电脑配置不够高或者是老旧显卡的话,设置成一就可以了。点击下方的开始生成, 我这里测试使用的电脑是三零九零二十四 g 显存,按照屏幕中显示的参数配置,生成一分钟的音频大概需要二十多秒,如果换成零点六 b 小 参数,速度大概会提升一点五倍。稍微等待一会音频就生成好了, 我们可以来听一下效果。楚王韩信在受封回到家乡后,送了很多钱财给那位曾在河边舍饭给自己吃的老婆婆,还认命曾让自己忍受胯下之辱的屠户为中尉,称她是一位勇士。 至于流苏过他的亭长,韩信只给了他一点点钱,并谴责他是个意志不坚的人,还是非常稳定的,也没有出现多字和丢字的情况。我们再来换一个参考音频,看看 假不假。白玉为唐金做马,按照同样的操作,稍微等待一会就生成好了。效果是这样的, 公元前一百九十七年,也就是汉高祖十年,陈熹造反的消息传进汉宫,刘邦决定亲自出马镇压,他打算让韩信随自己出征,韩信推脱身体抱样,刘邦也不勉强。 那刚才我们使用的是参考音频克隆声音的,如果我们想将这个音色保存下来,应该怎么操作呢?可以在音色名称这里输入一个音色的名称,点击保存音色模型就可以了。 我们再次回到上方的位置,点击刷新音色列表,这样就可以在列表里看到我们刚才保存好的音色模型。那有的小伙伴就会问,如果这个列表中出现了我不想要的音色,应该怎么处理?打开刚才的文件夹, 点击 versus 文件夹,删除自己不想要的音色就可以了。 我们将刚才的 web 页面向下拉,可以看到下方有一个音色设计与创造栏目,在音色设计描述这里,我们可以根据自己的喜好输入音色的特点。我在这里随便使用一个描述, 中间位置是测试文本,这里我们可以随便输入一句话,等到 ai 生成音色之后,会将这句话读出来,点击开始生成测试音频效果是这样的,你听说过克隆声音吗? 如果小伙伴们对于生成的音色不满意的话,可以修改提示词重新生成。你听说过克隆声音吗? 如果小伙伴们想要把满意的音色保存下来,可以在下方输入音色的名称,点击下方的保存音色就可以成功保存了。刷新上方的音色列表,就可以看到我们已经保存好的定制音色。 这里还有一个比较好玩的功能,那就是多角色对话。我们将页面滑到上方,点击上方的多人语音对话,按照上方的格式修改音色名称和对话的内容。 比如我这里输入的内容是这样的,下方模型这里也可以选择,我在这里选择为一点七 b。 最后面这里可以改变不同角色语音之间的间隔时长,小伙伴们可以根据实际情况进行调整, 我在这里选择为零点五秒。设置完成之后我们点击生成多人对话,效果是这样的,男人就算在荒原里迷路三个小时,也绝不会停下来问路, 这种迷之自信到底是从哪里来的?这不是自信,这是一种名为我一定能绕回去的尊严之战, 所以你们的尊严通常是靠多烧半箱汽油来维持的,也是蛮有意思的。我们再来更换角色和台词,点击生成,可以看到效果也是非常不错的。每个男人的心里其实都藏着一个仗剑天涯的英雄梦, 哪怕他现在只是挺着啤酒肚坐在沙发上吃薯片,哪怕是这样,只要手里拿个遥控器,他也能幻想自己在指挥银河战舰。 你们男人在自我催眠这方面确实拥有超凡的天赋。到这里,困三的本地部署声音,克隆音色,保存一句话,定制音色以及多角色对话,我就已经带大家完整的跑了一遍。 这个工具真正厉害的地方在于它可以长期稳定的出现在内容里。对于做内容的人来说,稳定往往比经验更重要, 因为只有稳定,你才有可能持续更新,才有可能走到后面的变现阶段。所以,如果你现在不想真人出镜,想让内容更加稳定的产出,或者想要一个人做多个账号多个角色, 那我真的建议你可以试一试昆三, ai 只是工具,变现才是王道。我是九怡。如果你也不想被工具牵着走,而是想把 ai 真正变成生产力,那一定不要忘记订阅我的频道,这样就不会错过我的更新啦!我们下期影片再见啦!

我靠,这个 kimi, kimi 的 那个套餐不行啊,你都没没执行两步,他就 a p i 就 限速。我去,没法用 kimi 二零五这 kimi 的 套餐太坑了吧。

全国本地部署阿里千万三点五的最新模型,还能满足千人在线并发?什么配置这么硬核?这期是为深圳某企业定制一台模型,本地部署与机器人研发的服务器,搭配了两张 a m d 枭龙九六五四共一百九十二,核心三百八十四现成。注意,这不是撕裂者, 经常有小伙伴把它们认错。内存条浅浅上个十六根,四十八 g d d 二五四八零零七百六十八 g 容量,跑这个模型也绰绰有余, 后期项目升级再加也不迟。显卡配的是英伟达 rtx pro, 五千七十二 g 版本,对比四十八 g 版本,能支持更大的 ai 模型推理,微调推理效率与文本生成速度完全翻倍, 稳定性与扩展性也更强。本地部署最新的千万三点五模型,最高支持一千人同时在线并发,总托肯吞吐三千五百六十六每秒,存储上直接就是九十九点二 tb 的 超大空间,用于存储模型科研的数据存放。

空有显卡却跑不通本地大模型,用 sgl 部署 kiln 三点五,成本直降百分之八十,而且响应飞快。这套实战避坑指南你必须拿下。现在的策略很明确, 百分之九十的总结改写、信息抽取等高频任务,全部扔给本地的 qm 三点五二十七 b, 它刚好踩在性能和显存的平衡点上。至于剩下那百分之十的极高难度推理,再让云端的 gpt 或者 cloud 的 兜底, 这样既保住了钱包,又拿到了原生多模态和超长上下文的处理能力。整套架构其实非常干练。最前端是你的通讯工具, 中间由 opencall 负责业务编排,他会把消息转成标准请求,转发给后端的 sgl line 推理服务。这里最关键的一环是, sgl i 会直接起一个兼容 openai 标准的接口, 让本地模型像云端 api 一 样好用。只要解决掉工具调用时的格式类及问题,你就能在本地拥有一个能写代码、能看图、还能自己挑工具的超级助手。 环境起不来,或者模型不听话,百分之九十的问题都出在启动参数上。看屏幕这段脚本,除了常规的显存分配,最容易被忽略,也最致命的就是最后这一行工具调用解析器。 如果你不显示指定为 q n 三 coder 模型,面对工具请求时会直接宕机或者回一段毫无逻辑的乱码。哪怕你的硬件再强,没了这个参数,它也只是个会聊天的花瓶, 根本无法触发任何外部工具。在生产环境,这是让 a 省称称动起来的唯一开关。后端稳了,接着看 openclaw 这边的对接逻辑 有两个不起眼,但能让你排查通宵的细节。第一个是基础路径结尾,千万别手抖加斜杠,否则路由拼接出错会导致所有的请求直接报四零四。第二个是在兼容性配置里, 务必把开发者角色支持关掉,很多 agent 在 调用时会产生特殊角色,本地后端如果认不出来,就会直接甩给你一个五零零。服务器 错误。把这两项改对,全链路调通基本就成了一大半,配完了环境却卡在连接上。最让人崩溃的就是模型名字,本地 curl 都能通,一接上 open claw 就 报四百错误, 原因极度无脑,你在启动脚本里叫它 a, 在 配置文件里哪怕多加了一个斜杠,叫它 a 分 之 b 请求就会直接丢进黑洞,全列路必须严格锁定为 q n 三点五二十七 b, 一个字母都不能差。还有那种莫名其妙的五百报错,是 agent 产生的特殊角色,超出了后端的理解范围。 别废话,直接在配置里关掉,开发者角色支持稳定性瞬间就能拉回来。如果你发现普通对话正常, 但一触发工具调用就弹出一串看不懂的英文,说无法从印刷中获取象棋,这说明你的参数格式踩雷了。 s g a 像这种高性能后端,对工具定义的严苛程度超乎想象,他不接受任何偷懒的数组缩写,必须是教科书级别的标准接收对象, 也就是必须有 type 等于 object 这一层嵌套。很多人卡在这里调了两三天,其实就是因为多了一层中括号或者少定义了属性。记住格式不对, agent 就 算有再强的推理能力,也连一个简单的天气插件都调不起来。 最后这个坑专门留给追求性能的高手。你想开投机踩样让速度翻倍,又想开二十六万超长上下文,结果就是 s g 链启动瞬间直接爆显存。原理很简单, 唱上下文本身就是吃显存的黑洞,而投机踩样还需要额外割让一块内存池,两头一挤, 显存水位直接破百。听我一句劝,刚开始部署的时候,先把那些花里胡哨的性能加速全关了,把上下文长度和显存预算压到稳妥的红线以下。等你的工具调用和多 agent 协助全跑通了,再去一个一个调优参数。 比赛还没学会,走的时候就想在显存的悬崖边上跑步,为什么一定要在本地搞夺 a 阵协助?因为单一通用的 ai 往往啥都会,但啥都不精。 面对复杂任务,你需要的是像公司一样的专业化分工。在 openclaw 里,你可以让大总管负责拆解任务,咨询助理去全网搜瓜素材内容助理最后负责沉文。 这种高频的内部通信如果走云端, api 成本会让你肉疼,但在本地,这就是几乎零成本的算力游戏,也是真正让 ai 介入生产力的分水岭。能扛住三五个 agent 同时工作,全靠 s g line 的 前缀缓存。这就像你跟一个老朋友聊天, 你不需要每次开口前都重报一遍姓名和生屏,系统会把那十几万字的历史对话直接锁在显存的最快区域, 每次新请求进来, gpu 只负责算你新说的那几百个字,剩下的历史记录全部秒速服用。这就是为什么在长上下文环境下,本地部署反而比很多云端 api 响应更顺滑的原因。他把每一分算力都压在了深沉回答上,而不是反复重算过去。 最后说点压箱底的调优经验,本地部署不是把模型塞进去就完了。你手里有三个最重要的旋钮,并发数、上下文长度和显存预算。这三个参数是此消彼长的, 你想让模型记住二十多万字的文档,并发能力就一定会缩水。如果你发现系统报显存易出错误,别慌, 先去缩减显存比例或者压低上下文长度。最稳妥的做法是先关掉所有投机采样和花哨加速,在基础参数下跑通全流程等工具调用和多 agent 写作都稳如老狗了,再去摸索显存的极限边界。

阿里千问三点五小模型今天发布,手机端 ai 进入新时代,在 local ai app 的 app 内已经可以在本机手机内安装和体验。视频里是二 b 模型,在 iphone 十七 pro 上完全本地运行, 它提供了四个尺寸,零点八 b, 二 b, 四 b, 九 b, 全部 ipad 二点零开元。最厉害的一个点是它原生多模态文字图片视频,一个模型搞定两百六十二 k, 上下文两百零,一种语言, 只要九 b 击败五 n a n o 和上一代困三到三十 b。 最疯狂的是零点八 b 模型,能理解和处理视频。

兄弟们,我这个一百二十八 g 的 电脑安装了这个千万三千五二十七 b 的 大模型啊,把它提供服务,然后给这个 openclaw, 接入 openclaw 之后就可以和它对话聊天。很多人不会安装这个 openclaw, 其实非常简单,一共就这,其实就是三步,第一步使用这个命令安装,第二步 设置向导,并且把它安装为系统服务。第三步 openclock on board, 就是 打开这个外部界面, 当你丢失的话,你可以使用这个命令打开啊,然后这个是 start, 是 启动,你可以改成 stop 关闭,然后第五步的话就查看它的状态,总体上非常简单, ok。

q n 三点五昨晚发布了,但官方数据再漂亮,也不如社区实测的红黑榜靠谱。如果你有二十四 g 显存,无脑充三十五 b a 三 b, 它是这代的版本之子,代码和逻辑能力在这个量级基本没有对手。虽然每次推理只激活三十亿,参数速度飞快, 但记得他吃的是三十五 b 级别的,现存二十七 b 表现比较平庸,除非你的设备实在跑不动大的,否则不推荐吃鱼。 flash 版,它是处理百万字长文本的神器,本地跑太费劲,直接调 api 效果最好。 今天的视频不废话,直接把压箱里的推理参数、部署命令和调优经验喂给你,让你少走弯路,直接上手。 模型选好了,但如果参数设错,再强的模型也会变傻。先看最核心的深度推理场景,比如做数学难题或者逻辑推演,这时候必须开启千问三点五的思考模式。 注意,这里的 temperature 建议直接拉到一点零,这种高温设置能充分激发模型思维的多样化,同时配合一点五的存在惩罚,也就是 presence penalty, 这能有效解决模型在大规模推理时容易出现的复读机问题。但如果你是要写代码或者搞外部开发, 逻辑的严密性就比灵感更重要了。虽然同样是在思考模式下运行,但要把 temperature 降到零点六左右,降温是为了让模型输出更稳,少一些天马行空的幻觉。 top 维持在零点九五, 这样深层的代码逻辑会更连贯,能大幅提升代码的一次性通过率。再分享两个能让效果翻倍的小细节,第一是输出长度, 也就是 max tokens, 普通的活三十二 k 够了,但要是跑竞赛题目,建议直接拉到八十一 k 以上, 这多出来的空间不是给最终答案的,而是给模型留足打草稿的思考过程。第二是提示词技巧,做数学题一定要在末尾加一句,请逐步推理,并将最终答案写在框内。 要这层格式就明确要求只输出字母明确的指令边界,能让模型从猜你想干嘛变成精准执行。 最后必须划个重点,关于存在惩罚这个参数,虽然前面建议设为一点五,但你手动微调的时候千万别超过二点零。一旦设高了,模型会为了强行避开已经说过的词,开始强行凑数,甚至胡言乱语,整个逻辑会瞬间崩坏。 控制在零到二之间,这是千万三点五保持理性的最后安全区,模型调好了,怎么稳稳的跑起来?目前性能最强的是 s g l m 方案安装,别用慢悠悠的 pick 了,直接用 u v, 效率最高。 启动时一定要手动加上 razingpasta 这一行,这是千万三点五开启思考模式和工具调用的物理开关,漏掉它,模型就退化成普通版本了。 多卡用户记得根据显卡数量对齐 tv size 参数,确保算力全开。很多人一跑部署就炸显存,其实是因为忽略了那个默认二十六万长度的上下文设置。 如果你的显存没到八十 g 以上,千万别直接硬跑。建议手动把 context lens 压到幺二八 k 甚至更小,再配合 memfraction static 零点八这个参数,把静态显存死死锁住,这样能有效防止推理过程中显存突然飙升导致的崩溃, 让长文本处理变得真可用。如果你习惯用 lu l m 部署,这里也有个压榨显存的绝招。 再加上蓝宝石模型函数,虽然会暂时舍弃多模态视觉能力,但能为你换回巨大的文本处理空间,这在跑超长代码审计或者纯文字逻辑推理时是性价比最高的选择。确保带上 reasoning part, 让 v o l m 也能输出那串关键的思考过程。 如果你是通过 api 调用千文三点五,千万别在提示词里加斜杠 think 指令模型根本不吃这一套。正确的做法是,在 api 的 extra body 参数里,通过 chat template quicks 手动控制 enable thinking, 把这个布尔值设为 false, 模型就会跳过思考,直接给结果需要逻辑爆发时再开启,这是目前开发者最容易忽略的传餐细节。 要处理整本书或者超长文档,你就得开启千万的 r n 扩展,在 v l o l m 启动参数里追加这段,重写代码,把 max model line 拉到一百万以上。 这里有个独家经验,如果你的文档只有五十万字左右,把 factor 系数设为二点零的效果要比默认的四点零更精准。只有当文本真正接近百万级别时,才建议拉满到四点零。 想让模型看懂一两个小时的长视频,去修改模型文件夹里的视频预处理配置文件,找到 longest edge 这个参数, 把它改成这个九位数的特定值。这一步能让模型处理超过二十二万个视频 token, 无论是长篇分析还是监控复盘,理解深度都会产生质变。 最后总结一下,对于大多数本地用户,无脑充三十五 b 的 a 三 b 版本,只要你有一张二十四 g 显存的卡, 把它跑起来,温度拉到一点零,开启思考模式,这就是目前本地体验最好、逻辑最硬的中杯模型。上下文平时空在十二万左右,兼顾速度和显存,按这个配置跑,你就已经超越了百分之九十的普通玩家。

兄弟们,昨天直播的时候测试了千万三点五的几个版本的模型,今天给大家汇报一下啊,这是我下载的这几个模型,然后后面是它的大小, 首先是这个二十七 b 的, 它是一个稠密模型,它的速度在我的在机器上一百二十八 g, 这个统一内存的机器上,它的头肯是九点六, 比较慢,他思考时间也比较长。然后第二个是这个三十五币的激活三三十亿参数,然后是 q 八的 量化版本, m o e 就是 专家混合模型,然后他的思考过程也比较长,然后但是他的这个回复速度比较快,达到了四十一托克每秒。 还有一个是一百二十二币,是一百亿激活参数。然后是两位的量化版本, 这个的速度的话是二十四托根左右,但是他思考时间特别长,将近有一分钟或者两分钟,这个是一百二十二 b 参数,然后激活呃,一百亿,他这个思考时间也比较长,他这个速度的话是二十四托根每秒, 他们的这个上眼纹长度的话都是二百五十六 k 的。 还有一个要说一下,就是他的思考确实是全英文的,从这个模型的功能上看,带这种锤子的都是支持工具调用的,带这个眼睛呢表示支持图像, 带这个的话他支持啥?他支持推理,但是都会有这个 think 思考的过程,总体上来说他们的性能智商我觉得还可以, 就是主要是这个量化的位数影响了他的智商。还有一个很重要的一点就是模型的这个参数设置啊,他是他是有这个推荐的, 在这边都是有这个参数推荐你看上下文的长度,如果你要用思考模式,他是给的参数,如果你要是编码的任务的话,他给了另外一种参数, 所以有些人觉得他笨的话,可能是这个参数没有设置好。兄弟们,你们在自己电脑上测过吗?评论区说一下, ok。

昆克洛里面我们在使用欧拉曼所提供的模型的话,很多时候都比较慢,我做了一些测试,然后速度比较快的模型,包括了纤维三点五,然后还有纤维二点五带扣的的这样的一个模型,反应的速度都很快。 那如果说其他的一些模型,像比如说纤维二点五十四 b, 三十 b 啊, g l m 四点及 flash 当当当当当这些模型呢,它反应的速度都很慢,用起来的话其实不是特别好用。那如果说我们使用的是 r m studio 来提供的模型的话,那使用纤维三点五,它的速度也是很快的, 然后使用纤维二点五杠 q 的 十四 b, 再加上一个操作模型,它的反应的速度也是很快的。那单独使用纤维三杠十四 b 的 话,它的反应的速度其实也还也还好。那纤维三杠十四 b 在 rms studio 这里面的话,运行的速度还行,但是在 奥拉玛这里面的话,这个我没有去测试,大家,这个呢大家可以自己去测试一下。那这里面比较好用的模型呢?我这里面现在已经是列出来了, 那下面的话呢,咱们开始去看做个测试,去看一下。那当前我所使用的这个模型呢,是欧莱曼千万三点五九 b 的 这个模型。嗯,然后呢我这里面的话,咱们去做一个测试,让他去做一个推导。 好,然后呢我们来看一下我这边的这个现存的消耗的情况。好,这里面咱们现在开始让他去做一个计算, 他其实整个的反应的速度我觉得还算是挺快的,我们稍微等一下。 好,你看他现在的话已经开始给我们做了这样的一个推导了,整个的过程的话其实还算是挺快的。

openclaw 到底能不能使用本地模型来完成各种任务?今天我就把实际测试的结果和大家分享下。本地模型我使用的是最新发布的千问三点五量化版本,目前已经发布的有二十七 b、 三十五 b 以及 e i 二 b 三个量化版, 各位可以根据自己的显卡状况选择合适的版本。我这里选择的是三十五 b 的 量化版本,模型大小为二十四 g, 实测在我的双显卡环境下速度可以达到一百二十 t 每秒,性能上已经可以完全满足使用需求。 本地的模型工具使用的是羊驼欧拉玛,需要注意的是,欧拉玛软件必须是十七以上版本才能够支持千问三点五这样的新模型,目前官网最新版本是十七点零点四。而最令人惊喜的是,新版的欧拉玛已经集成了 open claw, 你 只需要在命令行输入 open claw 这一行代码,就可以直接部署你的龙虾机器人。 此外还需要注意的是,新版本的欧拉玛把上下文长度设置为了二百五十六 k, 这可确保连续多次和模型的对话不会被中断,但这会占用更多的显存资源,所以一定要选择适合自己硬件性能的量化模型。在将千问三十五币设置为 openclaw 的 主模型之后,我进行了多个功能的测试,包括 skill 技能的安装和配置、 股票代码的抓取和市场行情分析,以及 ai 新闻的搜集和定时任务的配置。结果超出了我的预期,本地模型基本顺利地完成了所有任务,没有死循环或是失去响应的状况发生。但需要注意的是,量化版本的模型由于能力限制, 如果是较为耗时且有多个分支任务的对话,你需要再次输入提示词,要求模型检查当前的任务执行状况,以避免任务没有被百分之百完成。在耗时一天的深度体验后,我认为使用本地千问模型配合 open claw 来执行基本的信息搜集和数据分析等无需复杂逻辑的任务是一个非常好的选择, 但前提是要确保你的硬件有足够的性能来支持本地模型的运行。同时建议另外再配置一个线上大模型来配合完成其他复杂项目。 通过这样的组合,应该可以有效避免 token 过度消耗造成的大额费用支出。以上就是我使用本地模型配合龙虾机器人的使用心得,如果你也有类似经验,欢迎在评论区分享你的使用反馈。