粉丝6259获赞7.8万

今天来做一个二零二六年至今的 ar 大 模型本地部署全科普,跟大家讲明白到底什么人要做本地部署,什么行业适配本地部署,什么硬件匹配,什么样的本地部署需求,这些在这一期都有答案。 在这一期,社长会按照模型分类、硬件门槛、设备适配、部署目的,理性选型这个顺序,一步一步化解大家的本地部署焦虑,也平息一下评论区无穷无尽的争论。每次看到这个评论区,我脑子里面就是这段画面,七个中队,七个中队 好像手里有七个中队就可以暴打天下了。为什么会造成这种情况呢?社长大概是知道原因的,因为多数人会把大模型和 deepsea、 千问划等号。其实现在的主流大模型按功能已经分化出了五个大类。第一类也是本地部署中最常见的类型,叫上下文推理模型, 它的核心作用是处理文本相关的任务,从日常对话、文档总结到代码编辑、法律、医疗检测、销售、文本解析都靠它。特点是侧重逻辑推理,对视觉音频处理能力弱,也是硬件门槛跨度最大的一类。 正因为他的硬件门槛跨度大,所以他也成为了评论区炒翻天的元凶。关于硬件门槛的问题,社长等一下会展开来说。这里先介绍模型分类,上下文推理模型,国内的有这些,我罗列在了左边,国外的有这些,我罗列在了右边,需要详细了解的可以暂停观看。 第二类是纹身图,纹身视频模型,这类模型侧重视觉内容生成,纹身图门槛相对较低,纹身视频门槛较高,对算力显存要求更苛刻。目前国内主流的模型如下,第三类是声音合成配音模型, have you forgotten who promoted you to this position and who did everything? 这类模型侧重音频生成,分为通用配音和专业配音两种,门槛跨度比较大,轻量版可以个人部署,专业版需要企业级硬件。 第四类是多胞态融合模型,这类模型是全能型悬设,可以处理多种任务类型,但硬件门槛普遍比较高,大多适合企业部署, 后续如果推出轻量版的话,也可以个人尝试一下。第五类是行业垂直模型,这类模型是二零二六年本地部署的热点, 针对性极强,仅适配于特定行业,大多需要付费授权,部分开源模型可以自定义微调。当然,这类模型针对的也不是普通人或普通企业,就不展开说了。接下来就讲讲大家比较关心的硬件门槛问题。 为什么有的模型能用洋垃圾搞定,比如好几年前的特斯拉 v, 一 百显卡,旧的 cpu 什么的,有的却必须上顶级配置。 市长从技术底层拆解一下,结合二零二六年模型的特性,讲一讲核心逻辑,再补充一些特殊硬件门槛模型。先明确一个核心前提,大模型本地部署的硬件门槛取决于模型参数、规模、计算精度和任务类型三个方面。这个很好理解,参数越多,显存或内存的需求就越大, 量化精度越低,硬件要求就越低。任务类型的现在一般分为生成类和推理类,生成类比推理类更耗算力。如果你只是上下文推理,而且对于上下文的长度要求不高,这就给了洋垃圾生存的空间。 以特斯拉 v 一 百十六 g 显卡为例,它的 f p 十六算力只有一百二十五 taylor flops, 放在二零二六年性能远不如 rtx 四零九零五零九零 a 一 百这些显卡。但首先,常文本推理的核心是上下文窗口的 talking 处理,侧重显存占用控制,而不是瞬时算力爆发, 计算过程是逐个 talking 推理,所以单次计算量不大。其次,二零二六年的长文本推理模型,无论是采用 m o e 架构优化,还是基于琳尼尔架构做优化,都大幅降低了对显卡算力和显存的需求。因此,基于这两点的 v 一 百显卡才能顺利上港。 那纹身视频模型为什么不能用特斯拉 v 一 百这类显卡?纹身视频是目前本地部署门槛相对高的模型类型,哪怕是轻量版生成十秒视频, 也几乎无法用 v 一 百流畅运行。这主要是两个方面的原因,一是纹身视频需要逐帧生成,加帧间连贯性优化, 单次计算量是纹身图的几十倍甚至上百倍,这种瞬时的算力爆发,不是 v 一 百这类显卡能够撑得住的。二是二零二六年主流纹身视频模型都要依赖 tensor core 核心,用于光线追踪、帧间融合, 而 v 一 百类显卡的 tensor core 核心性能薄弱,无法适配模型的核心优化,即使强行部署,生成的视频也会出现帧断裂、模糊、色彩失帧这些情况,失去实用价值。 除了上面提到的显卡硬件门槛,还有一些特殊硬件门槛模型,比如专业声音合成配音模型,这种模型的核心门槛除了看显卡之外,对 cpu 和内存的要求也比较高。再比如多模态融合模型,需要大显存的多卡系统加大容量内存。 其他还有些特殊门槛的行业垂直模型,和我们普通人相隔较远,就不一一列举了。那哪些模型能用个人电脑或者洋垃圾搞定呢? 哪些必须上好的配置呢?接下来社长就按使用场景加硬件成本谈一下设备适配的问题,再来给大家明确一下个人、中小企业、大型企业分别适合哪些模型,避免大家盲目跟风配硬件。 首先是个人电脑或者洋垃圾可以搞定的模型类型,依次是上下文推理模型、纹身图模型、声音合成配音模型,这几类模型用个人电脑就能轻松搞定, cpu 最低 i 七八七零零 k e 三二六六六 v 三,显卡最低特斯拉为一百十六 g r t x 三零六零十二 g, 内存三十二 g ddr 四硬盘最低五百一十二 g, 固态总投入甚至低于五千块钱,可谓是花小钱办大事的典范了。 然后是必须上好配置的模型,依次是纹身视频模型、多模态融合模型、行业垂直模型、专业声音合成配音模型,适合企业、专业工作室重度需求者的需求。企业是追求时间、效率和稳定性的, 谁也不愿意看到工作交给 ai 后, ai 也干不完,还老出问题,那就太耽误事了。比如社长最近对接的一个项目, 要求一天要转一千小时的语音,转文字最好控制在八小时以内完成,这样这台机器白天可以用来跑十人并发的大模型,晚上用来语音转文字, 这就相当于基本上让他二十四小时不停歇的干活了。这种配置那必须要上好的,如果他撂挑子不干了,工作就落下了,损失的可就不只是工作量那么简单了。企业级配置基本上都是三万起, 而且最近因为内存硬盘、显卡涨价,随便配一下都要四万加了。所以无论是企业或者个人,如果不是有明确的部署目的, 不要轻易来找社长配机器,因为这里面不只是硬件的投入,还有后续软件开发部署的成本、操作机器的学习成本,这些都是必不可少的支出。至于机器硬件配置,社长就不展开了,前面的视频也都有讲解,有兴趣的可以翻一下前面的作品。 下面就来说一说评论区说的最多的争论其实没有绝对的好坏,核心是模型适配,不同设备有自己的适配场景,也有明确的局限性。 a m x 三九五、苹果 mac mini 与英伟达 d g x 基本上可以归类为个人轻量企业级 ai 整机方案,它们都支持上下文推理与轻量纹身图,但纹身视频能力差异显著。 ai max 三九五和 mac mini 仅能跑低分辨率,轻量纹身视频对于重度高覆盖场景效率不足, d g x 则可以流畅运行全类型纹身视频适配。专业创作与企业高覆盖需求。三者核心差异在于 tensor core 的 支持算力规模与内存扩展能力, 需按需选型,毕竟对于一个靠 ai 短视频获得收益的创作者来说,一天发一条视频和一周发一条视频还是有很大区别的。 标准塔式主机确实看起来很笨重,它的核心优势是可升级,支持多卡兼容,性能强劲, 搭配不同的硬件就可以适配市面上所有模型的显存和算力,需求,能力比较全面。随着模型需求的增加,还可以通过升级 cpu、 内存、显存、硬盘来进行适配。当然,它也有它的缺点,体积大、功耗高、成本高。对于个人来说,性能过剩了, 所以没有最优的设备,只有最适配的设备,争论谁更好没有意义。核心看你要部署什么模型,满足什么需求。 最后,社长要说的是理性选型的问题。对于个人,如果你对于大模型没有明确的使用需求,可以先从个人电脑洋垃圾开始进行低成本尝试,慢慢发现硬件配置跟不上了,再向更好的硬件迈进。 对于企业,同样也要有明确的需求,比如采用云端的方案,要支付高额的 talkin 费用,那你就可以选择本地部署,通过一次性的硬件投入来降低成本。 比如你是敏感行业,很看重数据安全,本地部署就是你的合适选择。比如你的企业在生产环节或是业务环节需要大模型来代替人力工作,同样可以选择本地部署。如果你只是要写写文档、计划书啥的, 也不涉及到啥秘密,在线的就挺好的,完全不需要折腾本地部署大模型了。如果你还没有明确需求,单纯好奇,那更没有必要本地部署,即使配了机器,大概率也是在配完之后用过几次就闲置了。 希望大家理性选型,按需部署,不盲目跟风,不刻意贬低别人,根据自己的需求预算选择最适合自己的方案才是大模型本地部署的核心意义。毕竟技术的价值从来不是追求高端,而是解决问题。 另外有很多人真的是单纯好奇,私信我,我还要花很长时间科普,有时候一下子半天就过去了。还有很多人自己都没想好需求是什么,就跑过来说要做大模型本地部署,这也基本上问着问着就没啥下文了。社长毕竟也有工作要做,所以想要咨询的朋友们先明确自己的需求,避免浪费彼此的时间哦。

q n 三点五昨晚发布了,但官方数据再漂亮,也不如社区实测的红黑榜靠谱。如果你有二十四 g 显存,无脑充三十五 b a 三 b, 它是这代的版本之子,代码和逻辑能力在这个量级基本没有对手。虽然每次推理只激活三十亿,参数速度飞快, 但记得他吃的是三十五 b 级别的,现存二十七 b 表现比较平庸,除非你的设备实在跑不动大的,否则不推荐吃鱼。 flash 版,它是处理百万字长文本的神器,本地跑太费劲,直接调 api 效果最好。 今天的视频不废话,直接把压箱里的推理参数、部署命令和调优经验喂给你,让你少走弯路,直接上手。 模型选好了,但如果参数设错,再强的模型也会变傻。先看最核心的深度推理场景,比如做数学难题或者逻辑推演,这时候必须开启千问三点五的思考模式。 注意,这里的 temperature 建议直接拉到一点零,这种高温设置能充分激发模型思维的多样化,同时配合一点五的存在惩罚,也就是 presence penalty, 这能有效解决模型在大规模推理时容易出现的复读机问题。但如果你是要写代码或者搞外部开发, 逻辑的严密性就比灵感更重要了。虽然同样是在思考模式下运行,但要把 temperature 降到零点六左右,降温是为了让模型输出更稳,少一些天马行空的幻觉。 top 维持在零点九五, 这样深层的代码逻辑会更连贯,能大幅提升代码的一次性通过率。再分享两个能让效果翻倍的小细节,第一是输出长度, 也就是 max tokens, 普通的活三十二 k 够了,但要是跑竞赛题目,建议直接拉到八十一 k 以上, 这多出来的空间不是给最终答案的,而是给模型留足打草稿的思考过程。第二是提示词技巧,做数学题一定要在末尾加一句,请逐步推理,并将最终答案写在框内。 要这层格式就明确要求只输出字母明确的指令边界,能让模型从猜你想干嘛变成精准执行。 最后必须划个重点,关于存在惩罚这个参数,虽然前面建议设为一点五,但你手动微调的时候千万别超过二点零。一旦设高了,模型会为了强行避开已经说过的词,开始强行凑数,甚至胡言乱语,整个逻辑会瞬间崩坏。 控制在零到二之间,这是千万三点五保持理性的最后安全区,模型调好了,怎么稳稳的跑起来?目前性能最强的是 s g l m 方案安装,别用慢悠悠的 pick 了,直接用 u v, 效率最高。 启动时一定要手动加上 razingpasta 这一行,这是千万三点五开启思考模式和工具调用的物理开关,漏掉它,模型就退化成普通版本了。 多卡用户记得根据显卡数量对齐 tv size 参数,确保算力全开。很多人一跑部署就炸显存,其实是因为忽略了那个默认二十六万长度的上下文设置。 如果你的显存没到八十 g 以上,千万别直接硬跑。建议手动把 context lens 压到幺二八 k 甚至更小,再配合 memfraction static 零点八这个参数,把静态显存死死锁住,这样能有效防止推理过程中显存突然飙升导致的崩溃, 让长文本处理变得真可用。如果你习惯用 lu l m 部署,这里也有个压榨显存的绝招。 再加上蓝宝石模型函数,虽然会暂时舍弃多模态视觉能力,但能为你换回巨大的文本处理空间,这在跑超长代码审计或者纯文字逻辑推理时是性价比最高的选择。确保带上 reasoning part, 让 v o l m 也能输出那串关键的思考过程。 如果你是通过 api 调用千文三点五,千万别在提示词里加斜杠 think 指令模型根本不吃这一套。正确的做法是,在 api 的 extra body 参数里,通过 chat template quicks 手动控制 enable thinking, 把这个布尔值设为 false, 模型就会跳过思考,直接给结果需要逻辑爆发时再开启,这是目前开发者最容易忽略的传餐细节。 要处理整本书或者超长文档,你就得开启千万的 r n 扩展,在 v l o l m 启动参数里追加这段,重写代码,把 max model line 拉到一百万以上。 这里有个独家经验,如果你的文档只有五十万字左右,把 factor 系数设为二点零的效果要比默认的四点零更精准。只有当文本真正接近百万级别时,才建议拉满到四点零。 想让模型看懂一两个小时的长视频,去修改模型文件夹里的视频预处理配置文件,找到 longest edge 这个参数, 把它改成这个九位数的特定值。这一步能让模型处理超过二十二万个视频 token, 无论是长篇分析还是监控复盘,理解深度都会产生质变。 最后总结一下,对于大多数本地用户,无脑充三十五 b 的 a 三 b 版本,只要你有一张二十四 g 显存的卡, 把它跑起来,温度拉到一点零,开启思考模式,这就是目前本地体验最好、逻辑最硬的中杯模型。上下文平时空在十二万左右,兼顾速度和显存,按这个配置跑,你就已经超越了百分之九十的普通玩家。

openclaw 到底能不能使用本地模型来完成各种任务?今天我就把实际测试的结果和大家分享下。本地模型我使用的是最新发布的千问三点五量化版本,目前已经发布的有二十七 b、 三十五 b 以及 e i 二 b 三个量化版, 各位可以根据自己的显卡状况选择合适的版本。我这里选择的是三十五 b 的 量化版本,模型大小为二十四 g, 实测在我的双显卡环境下速度可以达到一百二十 t 每秒,性能上已经可以完全满足使用需求。 本地的模型工具使用的是羊驼欧拉玛,需要注意的是,欧拉玛软件必须是十七以上版本才能够支持千问三点五这样的新模型,目前官网最新版本是十七点零点四。而最令人惊喜的是,新版的欧拉玛已经集成了 open claw, 你 只需要在命令行输入 open claw 这一行代码,就可以直接部署你的龙虾机器人。 此外还需要注意的是,新版本的欧拉玛把上下文长度设置为了二百五十六 k, 这可确保连续多次和模型的对话不会被中断,但这会占用更多的显存资源,所以一定要选择适合自己硬件性能的量化模型。在将千问三十五币设置为 openclaw 的 主模型之后,我进行了多个功能的测试,包括 skill 技能的安装和配置、 股票代码的抓取和市场行情分析,以及 ai 新闻的搜集和定时任务的配置。结果超出了我的预期,本地模型基本顺利地完成了所有任务,没有死循环或是失去响应的状况发生。但需要注意的是,量化版本的模型由于能力限制, 如果是较为耗时且有多个分支任务的对话,你需要再次输入提示词,要求模型检查当前的任务执行状况,以避免任务没有被百分之百完成。在耗时一天的深度体验后,我认为使用本地千问模型配合 open claw 来执行基本的信息搜集和数据分析等无需复杂逻辑的任务是一个非常好的选择, 但前提是要确保你的硬件有足够的性能来支持本地模型的运行。同时建议另外再配置一个线上大模型来配合完成其他复杂项目。 通过这样的组合,应该可以有效避免 token 过度消耗造成的大额费用支出。以上就是我使用本地模型配合龙虾机器人的使用心得,如果你也有类似经验,欢迎在评论区分享你的使用反馈。

全国本地部署阿里千万三点五的最新模型,还能满足千人在线并发?什么配置这么硬核?这期是为深圳某企业定制一台模型,本地部署与机器人研发的服务器,搭配了两张 a m d 枭龙九六五四共一百九十二,核心三百八十四现成。注意,这不是撕裂者, 经常有小伙伴把它们认错。内存条浅浅上个十六根,四十八 g d d 二五四八零零七百六十八 g 容量,跑这个模型也绰绰有余, 后期项目升级再加也不迟。显卡配的是英伟达 rtx pro, 五千七十二 g 版本,对比四十八 g 版本,能支持更大的 ai 模型推理,微调推理效率与文本生成速度完全翻倍, 稳定性与扩展性也更强。本地部署最新的千万三点五模型,最高支持一千人同时在线并发,总托肯吞吐三千五百六十六每秒,存储上直接就是九十九点二 tb 的 超大空间,用于存储模型科研的数据存放。

大家好,我是叶哲,今天我将介绍一下千万三点五中小模型的使用体验。这些小模型非常受社区的欢迎,而且很多人都认为他们的能力很不错。从这张图上我们可以看到千万三点五九 b, 它在多个基卷上居然是要超过千万三 s 的 八零 b a 三 b c 型模型,这两个模型呢,规模相差是非常大的, 虽然说一个是重密模型,一个是 m o e 模型,九臂呢,是主力模型,社区里用的会比较多。而且现在这些小模型它的工具调用能力也是有了一个极大的提升。 四 b 的 话也是有非常多的用户的喜欢,比如说你可以用它来和你的手机做一个连接,嗯,操作你的手机。那二 b 模型和零点八 b 模型呢,就可以在我们手机端运行,零点八 b 模型呢,甚至可以运行在浏览器上,非常方便。 而且它是有多个的格式衍生,比如说 g g u f o n n x m m m 还有 m l x 社区里常用的技术站呢,奥拉玛拉玛 c p p 之前我有详细介绍过拉玛 c p p, 嗯,它也有 webui, 使用起来也是比较好用的。 而用 g g u f 的 话,社区里呢大多数会选择啊 onslaught 的 方案,它的动态量化做得非常好。如果你是 mac 电脑的话,当然我们用 m l x 是 比较好的。 tech news 的 反馈呢,如果说你的系统提示词不够像样或者够长模型呢,就会进入很怪的 planning 或者长时间的自我检查模式。 parking face 社区呢,还分享了一个零点八 b webgl 版本,然后可以在我们浏览器上跑的,如果我开的话,我手上拿什么东西,或者说呃摄像头里面是什么场景下方它会立即识别出来。 首次进入这个页面,它会下载八百多兆的模型,那这里呢,用的就是 o n n x 的 格式,它是跨框架的计算图交换标准,主打可移植,可被多种运行时变易器加速。 g g o f 大家非常熟悉了, m n n 呢,它是阿里开源的端侧的推理引擎。 m l x, 这个大家应该也是非常熟悉。 g g o f 呢,它是文件格式偏分发部署 o n n x, 它是一个开放标准,这里有它们的核心的优势,对比大家可以简单了解一下。再来看一下各个模型不同的大小啊,不同的量化程度,它们的显存需求,推荐的硬件和速度, 零点八 b, 基本在任何的 g p u 啊手机上都可以跑起来。二 b 模型呢,如果是四比特量化的话,那需要的显存是一点五 g b, 如果是四 b 四比特量化的模型,显存需求是三 g b, 如果是九 b 四比特量化,那需要的显存是九 g b。 二十七 b a 三 b 四比特 大概是占用二十 gb 显存,在我的 mac 电脑上,我更倾向于使用三十五 b a 三 b 巴比特 m l x 格式的,那它的速度呢?大概是呃七十二 tik 每秒,同样也是巴比特,然后九 b 的 模型, 那呃速度的话,只能是五十多 k 啊每秒,这个速度的话就显著变慢了, 如果是用了二十七 b 这个重密模型的话,那速度会更慢。而我在电脑上跑零点八 b 巴比特量化的时候,速度能达到两百 k 以上,这个速度是相当快的。再看一下各个模型啊,它的性能表现,零点八 b 的 模型呢 啊,它在数学 ocr 方面的话,得分也是非常高,可以适合一些简单的 ocr 任务。之前呃千万三 vl 的 很多模型就将下方的 lvm 里面会漏掉一个字母,因为这一行的文字呢,它是比较小的。 我在本地用巴比特量化的零点八 b 模型,让他去 o c r 的 时候,发现它这里的质量是相当不错, 我肉眼看了一下,是没有什么错误的。而三点五二 b 模型呢,它的得分呢,是超过很多上一代七 b 模型的, 也是非常强。四 b 模型在 m m l u pro 得分呢,接近于千万三三十 b a 三 b 了。而在 呃 omega dos 编制得分上,它是击败了 g b t 五 nano。 再看一下九 b 模型,在长上下文基准上,它是打败上一代的千万三三十 b a 三 b 的。 而在 m m m u pro 基准上, 超过 g p t 五 nano。 那 社区的用户反馈呢,二比特和三比特量化质量又开始有明显下降,六比特呢,几乎没有可测量的性能损失。那千万的这几个模型,社区对他们有些评价, 比如说啊,很多用户对二十七 b 还是非常青睐的,认为它的知识库很丰富,能力也很强。社区呢,给到三十五 b a 三 b 是 三分。说到这里呢,非常推荐大家在使用千万三点五的时候呢,看一下 onslos 的 它的一个使用指南, 它在这里就详细介绍了啊, sync 模式下,那我们的各方面的参数怎么设置?现在就来看一下千万三点五中小模型在我本地进行的一些实际体验,那我在这里呢,用到的都是它们的 m l x 格式 巴比特量化的模型,现在看到的是让 a 三 b 模型反推 ai 绘图提示词,在下方,我们看到它回复的内容还是非常多的,我把这里的提示词发给 nano blender pro。 二、 它帮我生成的图片呢,和我一开始发给的原图非常相像, a 三 b 帮我解读图片也是比较好。 这张图呢,呃,我们可以看到各个模型,它并没有明确说这个模型。呃,它的 swbench pro 的 得分是多少,那这里 a 三 b 它是自己估摸出来说啊,千万三 coldest 它的性能达到了约百分之四十四,这张图呢,是我从网络上获取的。再讲呢,千万二点五零点五 b 模型和现在的千万三点五零点八 b 在 回答同一个问题的时候, 已经有了非常大的进步。那我现在就让 a 三 b 模型来解读一下它。在这里呢,解读的非常好啊,每个模型的名称,包括每个具体的回答, 然后还来了句幽默的话,说这张图呢,主要目的就是炫耀千万三点五相比千万二点五的进步,就模型呢,就是太听话了,你问什么他姓什么,甚至呢能编造事实。而篮筐呢,他更聪明,能识别出常识性的错误, 不会一本正经的胡说八道。我在使用 a 三 b 的 时候呢,有的时候它的思考过程会一直循环,那我们可以通过重建对话,或者在提示词里面加一句,让它不要过度思考来解决这个问题。在呃,这张图里呢,我们看到这是九 b 回答的, 我呢是希望模型识别出这张图里的所有的配件,八五四是一个垫片,九臂模型呢,它说这里是连接圆盘和固定件,这里的说法的话还有待加强。之后我又让九臂模型帮我做一个音乐格式化合成器,这是它第一次生产的效果, 点击自动演奏,点击的话是没什么反应的,当我点击粒子喷发, 那效果的话也能出来,但是和我的琴键上是不是一一对应的,而且控制台是有一些报错的,所以呢,我需要他给到完整的啊。最后修改后的文件能听出来他正在弹奏小星星,但是我们可以感知到他发出来的声音和琴键的按键的 啊,按下去是不对应的,所以这里还是有比较大的问题。再让九臂做一个赛博朋克的个人信息仪表盘,再看一下它身上的效果, 在这里的话,它身上的这个页面就要比刚刚要好很多了。再接着呢,我将一张模糊的小票发给九臂模型,让它识别一下。这张图下方呢有四个字比较模糊, 那九 b 呢,模型在这里没有识别出来,其他的文字内容的话,我看了一下,没有什么太大的问题,我再尝试了一下,这次呢,他将五音良品下方的文字都是展示出来了, 这样的千活字减字盘 a 三 b 模型也能非常很好的识别出来,这是他的思考过程,内容非常非常多, 真的就是一个一个字在识别,最终是能识别出大部分文字的。如果说你在连接 ml studio 让它识别图片的时候出现这样的问题的时候,那你可以考虑,一是将整个模型它的上下纹长度变小一点。 第二呢,是限制一下啊,整个图片的一个尺寸,我一开始给它设置的是不超过四零九六,那经常会有内存溢出的情况, 而改成二零四八之后就会好很多。这个画面里呢,我让他数一下有多少只火烈鸟模型呢?是,呃,思考了十一分钟,最终呢,一直都在重复,所以我就终止他任务了。我换成 a 三 b 呢,让他识别图片中有多少只火烈鸟。 它这里的话啊,识别还是相当不错的。同样的,剪字盘发给 a 三 b, 让它解读图片,并且 ocr 图片里的所有内容, 它能很好地指出这是活字印刷的字模,必须是反字镜像。之前是只有一些比较大的模型,它能识别出来, 那像 jammer 二点五, flash 这种,它是识别不出来的。所以现在啊, jammer 三点五,它的能力还真的是非常不错的。当我提示九 b 模型呢,让它数一数图片中有多少只火烈鸟,不要过度思考,那我们看到它思考了三分半钟, 最终就给到非常好的回答。如果说,嗯,大家也遇到同样的他模型,一直在思考,那就可以将提示词改一下。我还让零点八 b 模型呢,反推 ai 绘图提示词, 最终将这里生成的提示词呢啊,发给 ai。 最后 ai 生成的图片和原图呢,是有一些区别。 换成四 b 模型之后,将这样的提示词发给 ai 身上后的图片就和原图非常接近了。在这里呢,呃,用到了四 b 的 思考模型。而在这里呢,大家可以看一下,这里是没有思考模式的,那这个是怎么设置呢?我们来到啊 l m studio 里面找到模型, 然后右侧呢,我们可以点击一下这样的一个设置按钮,在推的这个界面有一个提示词模板,在这最上方呢,在这最上方添加一下这样的一个设置, 它就会关掉思考了。最后呢,我也测试了一下 a 三 b 模型,它的工具调用能力,我是通过在 client 里面和 open code 里页计划模式让它来编码来测试的。我们现在看到的是一个理发应用,右侧有 three js 的 元素。 在我个人看来啊 s m b 它能达到这样的效果还是非常不错的,这是它生成的方便面自动化工厂,包含多个步骤。其实和我之前用一些比较大的模型 啊生成的已经是很接近了,这是它生成的火星体数生物研究站的啊,一个场景,我们仔细看的话会有一个透明的球, 它生成的这个透明的球的话,效果肯定是比不上 mini max m 二点五或者呢是 office 四点五。 但我个人觉得对于啊,它在我本地运行这样的一个 a 三 b 巴比特的模型,质量也是很不错了。现在我们来看一下咱们在 opencode 里使用 lm studio 的 模型。那首先呢,我们可以通过这行命令 来确认一下 l m studio 当前暴露的真实模型 id。 然后呢,可以啊,打开配置文件路径修改粘贴以下部分,再之后呢,就可以重启。 以上呢,就是今天介绍的关于千问三点五中小模型的一些使用体验,我个人对它来说是非常喜欢的,因为它文本能力也强啊,原声支持二百五十六 k, 而且 它是多模态的,现在无论是 m、 l、 s 还是拉曼 c, p、 p 都是支持批量调用的, 所以大家可如果有一些批量的啊,一些任务不复杂的,那完全可用它来在本地来做,因为它输出的质量是相当不错的。四 b 模型、九 b 模型和 a 三 b 模型都是非常非常推荐的。

全网最牛,完全免费本地部署单音色克隆,多人对话克隆!先来看看效果,俺老猪也来说两句, 八戒你个呆子,你刚才听到的这些声音,没有一个是真人录的,而且他们不是任何付费的配音工具生成的,他们全部来自一个开源的语音合成大模型。昆三 完全免费本地部署,一键启动即可使用。它的模型参数非常小,对电脑的配置要求也不高,最低四 gb 显存就可以使用,只需要几秒钟的参考音频,就可以完美的还原你的声音。 更重要的是,这个模型在实际使用的过程中稳定性非常高,不管是语速、情绪还是句子之间的停顿,整体都非常自然, 很少会出现丢字、多字、节奏混乱的情况。它甚至还可以通过 ai 特调定制专属音色, 同时支持多角色对话,对于做内容的小伙伴来说,实用性真的非常高。所以在今天这条视频里,我会手把手的给大家演示如何通过一键安装包把困三部署到本地进行使用。同时我也会把它的一些核心功能, 包括声音克隆、音色保存、一句话定制音色以及多角色对话,全部带大家完整的走一遍。老规矩,本地部署的一键安装包下载链接我已经放在视频下方的说明栏里了, 解压即可使用。嘿,我是九姨,专注于使用 ai 自动变现,如果你想要更加系统的学习 ai 知识和运营经验,也可以加入我的课程。 我把 youtube 从定位、内容制作、发布到变现,整理成了一套系统课程,适合不想盲目试错,想要一步步搭建体系的人,相关链接我也会放在说明栏里,感兴趣的小伙伴可以自行查看。那我们继续直接进入今天的实操部分。 下载完成之后,小伙伴们会得到这样两个压缩包,我们全选所有的压缩文件, 右键解压到当前文件夹。如果有的小伙伴使用的是温系统自带的解压工具,有可能会出现解压不全或者是文件丢失的情况。如果有遇到这样的情况,可以重新用三六零解压试试。 解压完成之后会出现这个文件夹,我们打开文件夹,双击开始,稍微等待一会就会自动跳出外部界面。 接下来我先来带你看看如何克隆声音。我们先点击单人语音合成, 在文本位置可以输入需要转换为声音的文案,这里的文案可以自行选择语言,也可以混合语言,比如既有中文也有英文也是可以的。 下方这里的语言类型可以根据大家的文案语种进行选择,也可以直接保持默认的自动识别。下方是多音字矫正功能, 如果小伙伴们对于发音的准确性要求比较高的话,可以按照视力格式将文字的拼音标注出来。中间这里的模型有两个可选项,模型参数越大效果越好, 但是对于电脑的配置要求也就更高,生成的时间也就会越长。小伙伴们可以根据自己的实际情况进行选择。下方这里可以选择音色列表中的音色, 也可以选择使用参考音频克隆声音。为了方便后续的操作,小伙伴们可以将自己的音色保存下来,方便后续的使用,稍后我还会讲解如何将我们的音色保存下来,以及如何删除不需要的音色。 这里我们先来演示如何使用参考音频克隆声音,将我们准备好的参考音频拖进来,可以先点击下方的音频超分降噪,优化音频的效果。 中国的创世神话版本很多,我们最熟悉的一句就是自从盘古开天地。 在下方的参考音频文本,这里会自动识别音频中的内容,一般情况下识别出来的内容是准确的, 如果有错别字或者没有识别到的地方,小伙伴们也可以手动补充进去右上角的一些参数,保持默认的不变就可以了。这里也可以调整语速, 一般选择为原始速度就可以。下方这里的变形批次小伙伴们可以根据自己的电脑配置进行选择,如果电脑配置不够高或者是老旧显卡的话,设置成一就可以了。点击下方的开始生成, 我这里测试使用的电脑是三零九零二十四 g 显存,按照屏幕中显示的参数配置,生成一分钟的音频大概需要二十多秒,如果换成零点六 b 小 参数,速度大概会提升一点五倍。稍微等待一会音频就生成好了, 我们可以来听一下效果。楚王韩信在受封回到家乡后,送了很多钱财给那位曾在河边舍饭给自己吃的老婆婆,还认命曾让自己忍受胯下之辱的屠户为中尉,称她是一位勇士。 至于流苏过他的亭长,韩信只给了他一点点钱,并谴责他是个意志不坚的人,还是非常稳定的,也没有出现多字和丢字的情况。我们再来换一个参考音频,看看 假不假。白玉为唐金做马,按照同样的操作,稍微等待一会就生成好了。效果是这样的, 公元前一百九十七年,也就是汉高祖十年,陈熹造反的消息传进汉宫,刘邦决定亲自出马镇压,他打算让韩信随自己出征,韩信推脱身体抱样,刘邦也不勉强。 那刚才我们使用的是参考音频克隆声音的,如果我们想将这个音色保存下来,应该怎么操作呢?可以在音色名称这里输入一个音色的名称,点击保存音色模型就可以了。 我们再次回到上方的位置,点击刷新音色列表,这样就可以在列表里看到我们刚才保存好的音色模型。那有的小伙伴就会问,如果这个列表中出现了我不想要的音色,应该怎么处理?打开刚才的文件夹, 点击 versus 文件夹,删除自己不想要的音色就可以了。 我们将刚才的 web 页面向下拉,可以看到下方有一个音色设计与创造栏目,在音色设计描述这里,我们可以根据自己的喜好输入音色的特点。我在这里随便使用一个描述, 中间位置是测试文本,这里我们可以随便输入一句话,等到 ai 生成音色之后,会将这句话读出来,点击开始生成测试音频效果是这样的,你听说过克隆声音吗? 如果小伙伴们对于生成的音色不满意的话,可以修改提示词重新生成。你听说过克隆声音吗? 如果小伙伴们想要把满意的音色保存下来,可以在下方输入音色的名称,点击下方的保存音色就可以成功保存了。刷新上方的音色列表,就可以看到我们已经保存好的定制音色。 这里还有一个比较好玩的功能,那就是多角色对话。我们将页面滑到上方,点击上方的多人语音对话,按照上方的格式修改音色名称和对话的内容。 比如我这里输入的内容是这样的,下方模型这里也可以选择,我在这里选择为一点七 b。 最后面这里可以改变不同角色语音之间的间隔时长,小伙伴们可以根据实际情况进行调整, 我在这里选择为零点五秒。设置完成之后我们点击生成多人对话,效果是这样的,男人就算在荒原里迷路三个小时,也绝不会停下来问路, 这种迷之自信到底是从哪里来的?这不是自信,这是一种名为我一定能绕回去的尊严之战, 所以你们的尊严通常是靠多烧半箱汽油来维持的,也是蛮有意思的。我们再来更换角色和台词,点击生成,可以看到效果也是非常不错的。每个男人的心里其实都藏着一个仗剑天涯的英雄梦, 哪怕他现在只是挺着啤酒肚坐在沙发上吃薯片,哪怕是这样,只要手里拿个遥控器,他也能幻想自己在指挥银河战舰。 你们男人在自我催眠这方面确实拥有超凡的天赋。到这里,困三的本地部署声音,克隆音色,保存一句话,定制音色以及多角色对话,我就已经带大家完整的跑了一遍。 这个工具真正厉害的地方在于它可以长期稳定的出现在内容里。对于做内容的人来说,稳定往往比经验更重要, 因为只有稳定,你才有可能持续更新,才有可能走到后面的变现阶段。所以,如果你现在不想真人出镜,想让内容更加稳定的产出,或者想要一个人做多个账号多个角色, 那我真的建议你可以试一试昆三, ai 只是工具,变现才是王道。我是九怡。如果你也不想被工具牵着走,而是想把 ai 真正变成生产力,那一定不要忘记订阅我的频道,这样就不会错过我的更新啦!我们下期影片再见啦!

在 open core 横行的二零二六年,可能很多人还不会怎么去电脑安装,要么就是根本不懂,要么就是被一大堆英文配置难住了。现在有了 coco, 让这一切都变得更加的简单。 我们可以先来到 coco 官网了解, coco 是 阿里云通易团队推出的个人智能助理,支持本地与云端双模式部署。现在我们直接进入主题,教你如何本地化部署 coco。 按照官方推荐,我们选择一键安装, 这里会出现不同系统的安装模式,具体根据你常用的系统选择对应命令。视频中我们以 windows 作为演示。首先我们打开 cmd 运行窗口, 把 coco 安装命令粘贴到窗口中,这时候可能会出现运行报错的提示。不用怕,我这里给大家准备了一个备用的安装命令地址,重新输入备用命令,回车进行安装。 看到 coco 已经安装成功了,复制这个命令到 c m d 窗口中,回车, 点击高级,找到下方的环境变量进去,找到 p a t h, 双击打开,点击右上角新建,把这个复制进去,最后点击确定。 接着就到 coco 出使画了,跟着文档命令走就行, 直接回车回车,然后就可以看到出使画成功了。 最后我们就可以启动 call 炮了,复制这条命令,这里启动时间可能会有点久,稍等片刻,当你看到一百二十七点零点零点一的时候,就说明服务已经可以访问了, 这时候我们在浏览器打开这个地址, 看到这个界面的时候,就说明你的 call 炮已经安装成功了。如果默认语言显示的是英文的话,就在页面右上角自己选择中文,接下来我们开始跟 call 炮对话, 啊,不好,我们要先配置大模型的访问权限,这里我们进来后会看到系统已经默认选择了第一个,直接点设置进去,这里会出现一个 api 密钥, 我们打开这个地址去注册获取一个,找到访问控制,另一排就是我们需要的密钥。复制后回来 call 页面粘贴进去,点击测试连接,如果弹出绿色框说明连接正常,然后再回去聊天页面跟 call 愉快的对话。 要命啊,这里又忘了一个设置,记得把刚才设置的提供商勾上,模型呢,随便选一个, 这样我们就可以看到正常输出了。但是这里呢,也只是最简单的 ai 对 话而已, 要注意这里的对话是需要消耗 token 的。 我们差个题外话,可能有很多小朋友还不知道 token 是 什么意思,只要你有用过四 g 五 g 网络,你用过数据流量,你把 token 理解为 ai 数据流量是不是就很容易理解了? 而且这个流量在接下来又用到的的 agent 实力中消耗很快。 为了应对 token 的 消耗问题,我们其实可以搭建一个本地大模型,让 call 炮直接对话我们的本地模型进行服务。这里我们使用欧拉玛来部署本地大模型。进入欧拉玛官网,点击右上角的 download 下载系统程序 安装成功后就可以看到阿欧玛的功能页面了,现在我们去找下我们需要的大模型。回到欧拉玛官网,选择 models, 搜索 p w n 三点五, 不要安装带有 cloud 的 标志,那个是在线模型,需要 token 的, 我们可以找一个体量小一点,适合本地电脑安装的模型,因为正常家用的电脑配置都不会太高。这里有一个支持零点八 b、 二 b、 四 b 的 模型,可以点进去 复制安装命令到 c、 m、 d 窗口中,记得加上你选择的具体模型。所谓的零点八 b 或者二 b, 其中的 e b 表示十亿个模型参数,所以越大的参数量对电脑的性能要求越高, 安装可能要一段时间。本地演示直接跳过, 当看到三 day message 的 界面时候,就说明本地大模型已经安装成功了,你就可以跟欧拉玛进行对话。 接下来回到 call 炮中,找到模型配置去,我们开始配置本地模型,找到 alma 选项, 因为本地尤拉玛不需要密钥,所以我们随便输入一个一二三四,点击保存后会弹出一个报错,让我们安装什么 s d、 k, 太麻烦了,难道就没有更简单的方法?我们找到右侧有一个添加提供商按钮, 这里我们随便命名一个,例如 my model, 然后在默认 base 二中输入,这个妙呢,还是输入一二三四就行。最后点击创建, 找到 my model, 点击模型按钮,把刚刚下载的模型名加上去,最后测试下连接, 最后记得选中刚刚设置的模型保存,然后回到聊天页面, 这里就开始考验你的本地电脑性能了,如果本地电脑配置不好的,不要随意尝试,直接用在线模型就行,花钱买 token 就 可以了。 看来本地模型输出没什么问题,就是速度还是有点慢,为了演示速度之后我们会全程采用线上模型消耗 token 模式。 接下来就进入二零二六年最流行的 skill 介绍,什么是 skill? skill 其实也就是我们常用的技能,这里可以看到 coco 默认已经存在一些技能了, 我们可以来问一下,看下 coco 知不知道它都具有哪些技能, 看来他还是知道的,但是实际应用中可能这些默认的技能不能满足我们的日常需求,这时候我们就可以新建一些自定义的技能了。这里我就来教大家如何创建属于自己的 skill。 比如你现在是一位宝妈,每天为了孩子吃什么而感到焦虑,让 coco 每天推荐一个菜系,并且教你怎么做这道菜,是不是就很方便了? 这里我就简单写一个菜谱的技能,我们可以给技能命名为 cook, 内容呢参考左边我已经写好的。注意,我们在最后有一个输出要求复制进来,技能中的 name 表示当前的技能名称跟刚才命名的 name 一 致就可以。 description 表示当前技能的简介,说明这个技能是干嘛的。 name 和 description 上下有三个短横杠包围起来,这种是固定格式,是给抠炮识别用的,要遵守。点击保存,然后启动我们新增的 cook 技能。 这时候我们打开 coco 运行的 c m、 d 窗口,按下 c t r l 加 c 按钮,当看到终止处理操作吗?这时候继续按一次 c t r l 加 c, 停止当前的 coco 服务,然后输入 coco app 命令启动 coco 服务。 当看到一百二十七点零点零点一的时候,刷新刚才的 coco 网页, 这时候我们继续去问他,你有什么技能? 从输出的内容中我们就可以看到刚才添加的 cook 技能了,现在我们就让 coco 来实现这个技能, 可以看到 coco 识别到了我们的 cook 技能,并且在最后成功输出我们的要求, 灰狼大厨并且带上了祝福。所谓技能其实就是给不同需求的人都可以根据自己的需求创建一个工具,不同的人会有不同的需求, 比如销售,可以创建一份根据客户生成客户喜好的技能,比如牛马,可以创建一份工作日报生成的技能, 比如保险,可以创建一份根据不同职业生成一份合适的保险技能。当然技能完全可以不用自己去写,把你的需求发给豆包,豆包就能帮你直接生成了,加上 call 炮要求的 name 和 description 头部就可以了。 最后我们进入频道的配置教程,我们这里以飞书作为教程演示案例,我们首先要打开飞书的开发者官网, 进入开发者后台,可以看到一个创建企业自建应用的按钮,点它,然后输入应用名称和描述 call pro, 接着全程跟着教程走。 接下来就可以打开飞书应用,无论是电脑应用还是手机应用,都可以直接用飞书跟 coco 进行对话。 到这里我们已经完成了全部教程了。

空有显卡却跑不通本地大模型,用 sgl 部署 kiln 三点五,成本直降百分之八十,而且响应飞快。这套实战避坑指南你必须拿下。现在的策略很明确, 百分之九十的总结改写、信息抽取等高频任务,全部扔给本地的 qm 三点五二十七 b, 它刚好踩在性能和显存的平衡点上。至于剩下那百分之十的极高难度推理,再让云端的 gpt 或者 cloud 的 兜底, 这样既保住了钱包,又拿到了原生多模态和超长上下文的处理能力。整套架构其实非常干练。最前端是你的通讯工具, 中间由 opencall 负责业务编排,他会把消息转成标准请求,转发给后端的 sgl line 推理服务。这里最关键的一环是, sgl i 会直接起一个兼容 openai 标准的接口, 让本地模型像云端 api 一 样好用。只要解决掉工具调用时的格式类及问题,你就能在本地拥有一个能写代码、能看图、还能自己挑工具的超级助手。 环境起不来,或者模型不听话,百分之九十的问题都出在启动参数上。看屏幕这段脚本,除了常规的显存分配,最容易被忽略,也最致命的就是最后这一行工具调用解析器。 如果你不显示指定为 q n 三 coder 模型,面对工具请求时会直接宕机或者回一段毫无逻辑的乱码。哪怕你的硬件再强,没了这个参数,它也只是个会聊天的花瓶, 根本无法触发任何外部工具。在生产环境,这是让 a 省称称动起来的唯一开关。后端稳了,接着看 openclaw 这边的对接逻辑 有两个不起眼,但能让你排查通宵的细节。第一个是基础路径结尾,千万别手抖加斜杠,否则路由拼接出错会导致所有的请求直接报四零四。第二个是在兼容性配置里, 务必把开发者角色支持关掉,很多 agent 在 调用时会产生特殊角色,本地后端如果认不出来,就会直接甩给你一个五零零。服务器 错误。把这两项改对,全链路调通基本就成了一大半,配完了环境却卡在连接上。最让人崩溃的就是模型名字,本地 curl 都能通,一接上 open claw 就 报四百错误, 原因极度无脑,你在启动脚本里叫它 a, 在 配置文件里哪怕多加了一个斜杠,叫它 a 分 之 b 请求就会直接丢进黑洞,全列路必须严格锁定为 q n 三点五二十七 b, 一个字母都不能差。还有那种莫名其妙的五百报错,是 agent 产生的特殊角色,超出了后端的理解范围。 别废话,直接在配置里关掉,开发者角色支持稳定性瞬间就能拉回来。如果你发现普通对话正常, 但一触发工具调用就弹出一串看不懂的英文,说无法从印刷中获取象棋,这说明你的参数格式踩雷了。 s g a 像这种高性能后端,对工具定义的严苛程度超乎想象,他不接受任何偷懒的数组缩写,必须是教科书级别的标准接收对象, 也就是必须有 type 等于 object 这一层嵌套。很多人卡在这里调了两三天,其实就是因为多了一层中括号或者少定义了属性。记住格式不对, agent 就 算有再强的推理能力,也连一个简单的天气插件都调不起来。 最后这个坑专门留给追求性能的高手。你想开投机踩样让速度翻倍,又想开二十六万超长上下文,结果就是 s g 链启动瞬间直接爆显存。原理很简单, 唱上下文本身就是吃显存的黑洞,而投机踩样还需要额外割让一块内存池,两头一挤, 显存水位直接破百。听我一句劝,刚开始部署的时候,先把那些花里胡哨的性能加速全关了,把上下文长度和显存预算压到稳妥的红线以下。等你的工具调用和多 agent 协助全跑通了,再去一个一个调优参数。 比赛还没学会,走的时候就想在显存的悬崖边上跑步,为什么一定要在本地搞夺 a 阵协助?因为单一通用的 ai 往往啥都会,但啥都不精。 面对复杂任务,你需要的是像公司一样的专业化分工。在 openclaw 里,你可以让大总管负责拆解任务,咨询助理去全网搜瓜素材内容助理最后负责沉文。 这种高频的内部通信如果走云端, api 成本会让你肉疼,但在本地,这就是几乎零成本的算力游戏,也是真正让 ai 介入生产力的分水岭。能扛住三五个 agent 同时工作,全靠 s g line 的 前缀缓存。这就像你跟一个老朋友聊天, 你不需要每次开口前都重报一遍姓名和生屏,系统会把那十几万字的历史对话直接锁在显存的最快区域, 每次新请求进来, gpu 只负责算你新说的那几百个字,剩下的历史记录全部秒速服用。这就是为什么在长上下文环境下,本地部署反而比很多云端 api 响应更顺滑的原因。他把每一分算力都压在了深沉回答上,而不是反复重算过去。 最后说点压箱底的调优经验,本地部署不是把模型塞进去就完了。你手里有三个最重要的旋钮,并发数、上下文长度和显存预算。这三个参数是此消彼长的, 你想让模型记住二十多万字的文档,并发能力就一定会缩水。如果你发现系统报显存易出错误,别慌, 先去缩减显存比例或者压低上下文长度。最稳妥的做法是先关掉所有投机采样和花哨加速,在基础参数下跑通全流程等工具调用和多 agent 写作都稳如老狗了,再去摸索显存的极限边界。

大家好,今天我们来实测一个全网都关心的核心话题,二零二六年只用三千元装一台家用主机,能不能流畅本地运行?最新发布的快三点五系列大模型小餐数量,模型的智能水平到底够不够用?这台机器是二零二六年一月初组装的,整 机总成本刚好控制在三千元左右,核心是二手高性价比硬件组合,十八和三十六现成的服务器级 cpu。 具体的硬件明细给大家列清楚了, 显卡用的是 amdrx 六千九百 xt, 十六 gb gb 六现存两百五十六内存,服务器及处理器淘宝仅一百三元,内存是三星 ddr 三 x 服务器内存十 六 g 一 百五十元搞定。剩下的 ssd、 主板、电源这些配套硬件加起来约九百元,整机刚好三千元左右。两款核心测试工具,第一款是 lm studio 大 幅格式模型,可以一键下载,只不过下载比较慢,并且需要安装。第二款是扣爆的 c p p, 这是一款很简洁的推理工具,下载一个 e x c 就 能使用。很多朋友都知道 amd 消费级显卡不支持 q 的, amd 官方有自己的 rockman 计算平台, 但它对消费级显卡的适配非常差,这次我们没有选用。最终我们用的是 vulcan 后端 gpu 硬件加速。 vulcan 是 低开销高病型的通用计算接口,只要装了显卡驱动就可以实现。大模型的最优解之一直 接上。结果,首先是二十七 b 密架构模型 q 四 m 量化严重超出十六 gb 显存,实测速度仅十四 ts。 然后是九 b 密架构模型 q 八 k xl 量化,刚好完全装入十六 gb 显存,无内存交换,实测速度达到二十七 ts, 是 所有测试里速度最快最流畅的。接下来是三五 b mode 架构模型 q 四零量化仅轻微超出显存实测速度二十二 ts, 表现非常亮眼。而同样是三十五 b mode, 把量化等级升到 q 六零之后,严重超出显存 发大量内存交换速度直接跌到七 t s, 基本无法正常使用。看完了跑分数据,很多朋友肯定会问,速度快是快?那模型的实际能力到底行不行?我们专门针对本次测试里速度最优的九 b 模型做了实际能力验证。线上官方发布的快三点五 flash 正是以本次测试的三十五 b a 三 b m 模型为同源底座,这也印证了阿里官方对这个规格模型综合能力的高度认可。而九 b 模型是我们这次测试里参数量最小的规格, 按理来说表现应该是最差的,但他的实际能力依然让人惊喜。我们做了梳理逻辑测试,问他三点九和三月十一日哪个大,还故意加了干扰话术,他依然准确给出了正确答案。然后我们做了古文背诵测试,模型一字不差的完整输出了对应的古文内容,说明他内化的知识和记忆储备也完全够用。第一,同显存约束下,猫架构的表现显著优于单次架构, 三十五 b 猫模型轻微爆显存时还有二十二 ts, 远超二十七 b 稠密模型爆显存时的十四 ts, 猫的稀疏激活特性在显存受限场景下优势非常明显。第二,量化等级和显存适配性直接决定推理性能的上限。十六 gb 显存下,九 b q 八模型刚好完全装入显存 出二十七 ts 的 最优速度。而三五 b 模型把量化等级升到 q 六之后,因为超了显存速度直接跌到七 t 美 s, 所以 大家选量化方案一定要严格匹配自己的显存上限。第三,同文件体积下大餐数量模型的能力优势非常显著。九 b 小 模型和三十五 b 猫模型量化后体积相近,但三十五 b 模型的语义理解、逻辑推理、复杂任务处理能力有量级提升。 a m d 消费级显卡通过 rock 后端不用折腾配置门槛极高的 rock 就 实现流畅的本地推理。九 b 模型二十七 t s 的 速度完全满足日常对话创作需求。第二,二手志强 cpu 加 amd 旗舰显卡的平台有着极高的本地 ai 部署性价比,三千元的装机成本就能实现三十五 b 级别大模型的本地部署和可用机推理,完全能满足绝大多数个人本地 ai 的 场景需求,性价比直接拉满。本地大模型部署的基础工具链现在已经完全成熟了。 对比三年前二零二三年我们部署 chg l m 六 b 的 时候,还要折腾复杂的环境配置,现在以扣爆的 c p p 为代表的工具已经完全实现了开箱即用。第二,端侧 a 阵的智能体还处于发展初期,现 在本地大模型的 m c p 工具 a 阵的智能体能力还是需要用户手动做,复杂的环境配置,没法像网页端 ai 那 样开箱即用。举个最简单的例子,让本地 ai 读取 excel 文件,做数据汇总再输出结果,现在还是需要繁琐的插件配置和环境调试,没法直接落地。最后给大家做个总结,二零二六年的今天,三千元级别的主机完全可以实现 quan 三点五系列大模型的流畅本地部署。本期的实测内容就到这里,你平时用本地大模型做什么?欢迎在评论区留下你的硬件配置和使用体验,我们下期再见。

龙虾 open 可乐用本地算力可以吗?这位朋友有数据安全洁癖,一定要用本地算力做龙虾大模型要极致性价比方案,价格控制在万元以内。那这台机器又请出了咱们的老朋友特斯拉 v 一 百三十二 g 版,刚好可以跑最新的千万三点五三十五 b 版本。那你要问为啥装双显卡, 因为它还需要另外一张显卡,跑知识库的引杯的模型,不用知识库时还能给龙虾加速内存。其实十六 g 就 够了,不过它上到了 ddr 四六十四 g 哦,因为它是金融行业,为了防止龙虾抽风装在了虚拟机里,而且使用时它会同时开 n 个虚拟机, 都调用宿主机的大模型。没错,这就是很多人口中的洋垃圾配置。但是万元以内的本地算力不用洋垃圾还能用什么呢?配置我放评论区里了,有需要的自取。

给大家来演示一下用 open code 的 这样 ai 生成代开源工具,用那个通一千万三扣的 next 这个模型, 我们配置了一个独立部署的模型,给大家看一看,前面我已经跑过了,已经跑通了,给大家演示一下,因为它应该还是可以跑的。它这个给大家看一下,这个是我服务器上面的这样的一个环境,这个服务器上环境我是四块 rtx 四零九零起了一个通一千万 三 ko 的 next f p 八的一个模型,这个模型目前只能跑的是上下文是四四万八千,目前还是能够跑的,应该算是跑通了。我们给大家详细介绍一下这个模型和如何配置独立部署的模型,好吧, 首先我们先来看一看那个通一千万三 ko 的 next, 这个模型性能应该是不低的,因为它是技术白皮书发布出来,我们看了一下,它这个应该是我们企业独立部署的小模型,里面应该算是比较优的。它这个 你可以看到它对比了 deepsea v 三点二, v 三点二要将近六百多个币,所以是非常大的,包括 g l m 四点七、四点七也是非常大的一个模型,也要将近五百四五百个币。 mini max m 二点一也是一样,都是三个非常大的模型。那么相对来讲, 通一千问的这个扣的 next 的 这个模型差不多只有八十币左右,八十币左右,但是你可以看到它的编程性能来讲,其实跟其他模型比起来相差不是太大,水平差不多,它应该是这样,所以它这个模型对我们企业独立部署一些 私有化的模型,做这个代码生成的应用来画这个模型,应该是目前是比较优的一个模型。那这个模型也是我们之前跟大家介绍过,它跟通一千问三 next 八十币有点类似,它也是属于混合的这种架构是 member 架构,再加上 transformer 的 这种架构,混合的一种架构,也是 mo 一 的这种方式,它是总参数量是八十个币, active 的 这个参数是三十,是三个币,它等于是这样, 专家也是有五百十二个, active 的 专家一共是十个。谢尔的专家是一个,它等于是上下文,它只要达到二百五十六 k, 我 因为我的内存还是比较小的,所以我目前是用到了四万八千,相当于四十八 k, 它等于是这样。 好,呃,这是一个。接下来我们给大家简单介绍一下它到底是如何来配置的这个模型,因为我们现在跑了本地的,我们给大家来介绍一下它到底是怎么来配置它。其实最核心它是有一个配置文件的,它这个地方是有个配置文件, 大家看一下,在你的根目录下,用户目录有一个点 config 的 这样一个文件,文件里面有个 open source, open source 里面 它是有一个,我们打开给大家看一下,那么这个文件主要是配置我们独立部署的这样的一些大模型。你可以看到我们用了一个 provide 的 这样的一个 提供商, light a l m, 它是默认它是用了 open ai 的 兼容的 api。 我 这里面是配了一个通用千万三 code next f p 八的一个模型,这个 base url 就是 你本地的那个 url 的 名字就可以了。