我在使用 rtx 五零九零运行千问三点五模型时,发现一个非常反直觉的现象,参数更大的三十五 b 模型生成速度可以达到一百六十 token 每秒,而参数更小的二十七 b 模型却只有二十 token 左右。 为什么会这样?今天就给大家总结一下本地部署千问三点五的避坑指南。第一点,不是显存够就选更大模型,要优先选择二十七 b, 而非三十五 b 模型。 三十五 b 采用的是猫 e 混合专家架构,每次推理仅激活了少量专家,仅有二到四个,因此计算量更小,速度更快,但是输出质量不稳定。而二十七 b 是 稠密单词模型,每一层的参数都会参与计算,所以整体算力开销更高,速度会变慢,但是结果更稳,质量更高。 第二点,量化版本不是越大越好。二十七 b 常见的有二比特到八比特多种量化版本,体积大约在十五 gb 到三十 gb 之间。经过大量实际测试,目前公认的结果是, q 四量化版是综合表现最好的版本,在体积、速度和效果之间取得了一个比较理想的平衡, 更高的量化。如 q 六、 q 八,虽然精度更高,但提升有限性能,收益不明显。第三点,关闭思考模式,提升速度。很多人遇到的一个问题是,模型响应慢,输出容长。 在使用 alama 时可以这样操作,先输入 set nothing, 再进行提问就能关闭思考模式。关闭后,模型响应速度明显提升,输出更直接, tocan 消耗也会下降。最后总结一下,千问三点五的二十七 b 模型输出质量更稳定,它的 q 四量画板是最为推荐的平衡选择,同时关闭模型的思考模式可以带来大幅性能提升。欢迎点赞收藏,我会持续更新更多大模型的实战部署经验。
粉丝1.3万获赞22.3万

尝试在这台老爷机上部署千万三点五,处理器是 i 五四五七零八 g, 内存无读写,我用的是 rms 对 d l 进行部署,打开官网下载安装即可。安装好之后下载千万三点五模型, 我们直接进行搜索,模型越大就越聪明,但是配置要求也越高,我就下载零点八 b 模型来演示,大家可以根据自己的需求和配置进行下载, 下载好模型就可以进行载入了,载入时可以设置上下横,长度也是根据自己的配置和需求设置, 到这里模型已经可以跑起来了,如果不需要联网搜索和本地知识库,做到这一步就行。如果需要联网搜索,就打开浏览器的插件中心搜索,配置 sis 插件进行安装, 然后打开插件设置,把语言改成中文, 搜索引擎可以改成百度搜索,结果按需修改,改好后记得点保存。然后回到 r m, 打开网络服务, 再回到插件,设置了 api 添加供应商, 选择 r m studio 保存即可。点击新聊天,选择千吻模型就可以在网页里进行对话了, 需要联网搜索就打开下面的开关,点击引用的网页就可以看到千吻通过网络搜索到的内容。 然后是建立本地知识库,先在设置里选择文本切入模型,那么会自动帮我们下载好,下了菜单里没有的话就等一会, 记得点保存。现在就可以在知识管理上传我们自己的知识库了, 等状态变成已完成,就能在对话里调用知识点进行回答,点击输入框下方的知识点,选择刚刚上传的知识点即可。

使用欧拉玛可以一键部署本地大模型,我选择的模型是千万三点五九 b, 现在来演示一下, 可以看到 gpu 使用率向升,由于我这台电脑的显卡配置比较低,所以输出的比较慢。 好,终于输出完成了,接下来是 gg 教程。 首先肯定是要下载欧拉玛的这个软件,进入欧拉玛的官网之后,选择 windows 点击下载,当然这个下载起来会非常的慢, 我也给大家把安装的程序上传到了网盘下,下载后双击打开直接安装,安装完成之后就是这样一个界面,可以在这里点击你想要的大模型,比如说这些是云端大模型, 从这里开始就是本地大模型,这个是谷歌开源的本地大模型街吗? deepseek 千问三,还有其他的一些模型啊, 对于模型怎么挑选,得看电脑的配置,比如说我这台电脑 cpu c a m d 二五六零零两根 d d e 二四的一六 g 内存条, 显卡是一六六零 s 六 g 的 显存,这个已经是非常老的显卡了,后续我准备根据我的电源升级成四零六零 t 一 六 g 显存的,所以根据我的电脑配置 选择了比较小一点的模型。那你的电脑适合哪一个大模型?可以把配置发给豆包问问,让豆包帮你分析适合下载部署什么样的大模型。今天的教程就到这,关注我,评论私信。

阿里的千问一口气发布了一系列 callen 三五小模型,有零点八 b, 二 b, 四 b, 九 b 啊二十七 b, 今天就让大家一分钟在 windows 上用上这个本地小模型。 首先去 l m 服务 studio 官网下载这个模型,加载软件,点击下载你就去装,下载完成后安装那个 l m studio, 然后等安装好启动后,来到软件主界面,点击左侧有个小放大镜的图标,就可以搜索这个模型了, 输入很快就看到结果,那今天我们就用库莱三五到四 b 作为例子,点击下载,然后下载好之后就可以点击左侧第一个按钮,然后点击上面加号,然后加载刚下好的模型。然后呢,这里我们可以设置模型的参数, 我们来测试一下这个模型的基本常识, 对比下其他的模型的基本常识,但这个回答效果还是很不错的。

二零二六年, ai 推理算力已成为稀缺资源,由于需求爆发式增长以及养龙虾的热潮,主流 api 服务商面临前所未有的压力,出现模型降质、限流、涨价等现象。本视频解析二零二六年的性能模型千万三点五, 教你如何利用拉玛 c p p 在 消费级电脑上部署 ai 模型,实现安全稳定的生产级 ai 服务。为什么要本地化?第一个是数据主权,物理隔离,拒绝数据提示词等被泄露。 第二个是经济性,对于需求量大的用户,三到六个月可以回本,不受云厂商的限制。第二是一个工具的选择,我们要选择一个推理的框架,然后再选择一个推理模型。推理框架选择拉曼 c p p, 因为它极致便携,原生加速,对于个人工作站资源受限的环境表现良好。如果是企业级用户,多用户迸发,建议使用 v l l m, 它高吞吐,连续批处理。 如果是初学者,建议使用拉玛,它下载后一键运行, ui 友好,但是它的运行效率只有拉玛 c p p 的 百分之八十左右。第二个是模型的选择,对于家用消费级电脑,建议使用千万三点五九 b 模型。 九 b 模型直接运行参数量会非常大,建议使用 q 四量化后的模型,量化后大概是五点九 g, 适合消费级显卡,根据网友的测试, q 四量化是甜点位,损失百分之三, 但可以换取三倍的显存,节省。第四,实战的演示。第一步,查看自己的一个电脑配置,我这里的是英伟达三十二 g 十二代 i 三, 并且安装了最新的优益达驱动,我们去 get 下载,找到这个版本的发布 windows 推荐下载酷大十三和酷大十三点一的动态链, 点击即可下载。我这里已经下载好了两个文件,首先把拉马 c p p 解压, 然后再把库的动态链解压到刚才解压的一个文件夹内。第三步是一个模型的下载,推荐用国内镜像站下载。找到模型文件夹,我们可以看到有千万三点五九 b q 四量化的选择,这个直接下载即可, 这里不要忘记下载和模型匹配的一个提示词,模板放到这个文件夹或者其他文件夹都可以。第四个,启动 open ai 兼容 api 服务。注意这里的模型就是刚才的模型名称,这里是模板, 这里是一个模型的名称。我们连接到这个模型服务时,它会显示哪些模型可用。后续是一些官方推荐的一个参数和 模型服务的暴露端口,这个是模型的思考模式。默尔兹开启,我们这里暂时关闭。找到我们的文件夹和模型的文件夹, 回车 好,可以看到服务已经启动,我们复制这个地址,找一个你习惯使用的 word ui 服务,我这里添加自定义模型, 这里写地址密钥,我们没有设置,所以这里留空。因为和 open ai 兼容, 所以加一个 v e, 这个也是官方说明文件里面有的模型列表刷新,它会自己读取我们刚刚设置的模型名称。 好,做好了,下面我们进行一个测试, 目前看到这个速度不是很理想,主要是因为我的显卡有点垃圾,主要是这个显存太小了。第二个我们来试一下这个模型的图片识别,模型本身支持这个视觉, 他可能没有理解我的意思,本地模型最大的优点就是保护隐私,不会上传你的数据 敏感的信息,也可以进行一个 ai 的 操作,下一个视频将使用更优化的模型和运行参数进行其他的一个使用举例。谢谢收看。

云端 ai 托盘太贵,这节课教你本地部署 ai 大 模型,零成本使用纤维三点五,彻底告别托盘焦虑。我们这里会使用 o m l x 来运行大模型, 点击这里,请直接到下载页找到最新正式版本,未来稳定期间请不要找标注 dv 的 版本,找到后点击 s s, 根据操作系统版本下载。安装方法非常简单,直接拖拽过来即可。安装完成后直接运行,初次打开会弹出提示页面端口和其他的保持默认,点击启动服务, 提示成功后再点击。打开管理面板,在顶部的菜单中也可以实现这些操作。管理面板打开后接着安装模型,在顶部菜单,点击模型下载器页面,打开后用最快的速度点击摩塔社区,这是因为打开这个页面后会自动联网查找模型,但是由于网络不通问题,可能会导致页面卡死, 我们快速切换到摩塔社区,让它来不及联网就不会卡住了。点击模型下载器旁边的设置按钮,修改镜像地址为 h f mirror 点 com, 点击保存按钮,现在可以切换回来了,在搜索框里搜索千问三点五九 b mx 杠 speed 这个模型,这个模型的性能对一些常规需求已经非常足够了,运行起来大概占用六 g 左右内存,最低配置十六 g 内存的 bug, mini m 四都可以流畅运行。找到后点击下载按钮,因为我这里已经装过了,就不重复下载了,等待下载完成后会自动安装。再设置 模型,设置里可以看到已安装的模型,点击最右边的设置按钮图标,这里推荐设置聊天模板参数,点击添加设置 enable sync 值为 force, 不 然每次聊天呢,它都会思考很久。其他设置大家根据自己的电脑配置来调整,完成后点击保存,点击就绪按钮 会变成已加载状态,模型已经运行起来了,点击导航栏的聊天按钮,确认下顶部选择了正确的模型。现在啊,可以直接发消息给他, ai 会马上进行回复。 回到仪表盘里可以看到 tok 统计信息。总结下,在 mark m 系列芯片上,可以使用 o m x 来运行本地 ai 大 模型,彻底告别 tok 焦虑。低配置的 mac 电脑推荐使用纤维三点五杠九 b, 这个模型只占据六 g 左右内存, 而且性能足够使用,完全可以用来驱动 open core 文字版内容请看课程讲英文档。下节课我们继续学习 open core 的 安装,并对接上这节课所部署的本地 ai 大 模型。

前两节课我们在本地部署了纤维三点五 ar 大 模型和 oppo 可乐,但是用电脑啊,开个聊天窗口发消息太麻烦了,更简单的办法是直接用微信给 oppo 可乐发消息,让他乖乖的去干活。打开微信,依次点击,我设置 插件里面啊,有个 colobot, 这个就是我们需要的了。点击详情,根据提示信息,在电脑上开启个新终端,运行这一段命令。好,我们复制下命令,粘贴过来,直接运行。安装完成后,终端里会出现二维码,继续点击,开始扫一扫, 点击连接,这样啊,就对接完成了,微信会自动打开聊天窗口,我们发个消息试试,我让他操控一下我的电脑,点击发送在这个目录,现在是没有好的文件夹的。可以看到啊,这里有一个请求,正在运行, 运行完之后,电脑上果然出现了新目录。总结下, openclip 可以 对接微信,使用一条命令,安装好后直接扫码即可使用文字版内容请看课程讲一文档。下节课我们继续给 openclip 添加技能。

哈喽,老铁们大家好啊,昨天千万三点五的话,发布了好几个小模型啊,九 b 的, 四 b 的, 二 b, 包括还有一个零点八 b 的。 昨天的话我还在用 oppo kla, 就是 那个龙虾去部署,打算接入本地欧拉嘛, 然后用的是千万三点五二四七 b 的, 但是我发现上下文拉到二五六 k 的 话,整个显存占用估计得到九十六 g, 所以 说本地的话 除非有个非常小体量的模型,然后去拉大它的上下纹才有实用价值。然后中午的话,我也是花了一点时间直接写了一个康复 ui 的 节点,然后这边的话我们要求一个 trans 封门的话,就是更新到最新的五点二点零,然后我这边本机的话,我是直接更新到一个开发版,呃,更新到五点三点零 一个开发版的,然后我们进来看一下这个节点,整个节点的话也是非常简单的,然后模型这边的话,我会在跨客网盘上传两个四 b 跟九 b 的, 然后模型是放在这个目录 models l l m 这边直接放置就行了。 然后节点的话你直接在这边下载压缩包,解压放到这个 costino 的 这个目录啊,记得安装一下这个依赖。好,今天的视频就到这边,别说我在水视频啊,其实这个节点还是非常实用的, 整个模型的评分的话,大家来到这个钱万山的发布页的话,也可以看到他跟其他模型的对比,九币的话基本上打败了这个三死币的, 然后跟八死币的也是有来有回的。好,今天的视频就到这边,如果觉得节点有用的话,记得给我的主页这边点个 star, 然后记得给我视频一键三连,你们的支持就是我最大的动力。谢谢大家,我们下期再见。

你知道吗?两个 mac studio, 两个总监,两个 agent 帮我干活,这边还有四个备用的,这是一个什么体验呢?如果你说花费很大,那就没有价值了。你看我现在在电脑里面跑了这么多个模型,一个模型匹配一个它的专业能力,对应的一个 agent, 看看它能干什么? 你那些线上模型为什么你问豆包啊?他们总是给不到你想要的答案,主要是这个 a 帧你没有自己训练,这个东西放到你家里,你训练的所有知识都放在这里面,所以说让他帮你写一篇脚本, 他写出来的和线上模型写出来的完全不一样,因为他最了解你的业务,这些模型都是我自己训练的, a 帧的 skill 各方面都是优化过的,所以他给我的东西基本上非常好用,你看到的每一篇我的视频,基本上我全部用它搞定, 最主要你放到这个里面使用,没有一分钱消耗,当你开始跑的时候,他的风上疯狂的旋转,那样的话你的算力永远放到自己家里。 而且就算是你是工作室,三五个人同时用,没有任何压力,因为一个 a 键特匹配一个模型,内存再宽也不会被压占满,那样的话压力非常的小。我现在这四台就准备部署更多的 a 键特,那我一人公司用六个 a 键特可以搞定我所有的事情。 而且我上篇视频专门讲了这个千万三点五的量子的 ops 的 模型,这个是一个蒸馏版本,用本地的这个只需要三十左右 gb 的 现存,也就是说你基本上一个六十四 gb 的 max 九九可以把你的这个能力压在买 线下,基本上跑没有任何压力,而且他的智力水平比国内的很多模型要强很多,线上的你那一种在高峰时期你的智力还会被降至,所以说本地大件大模型,这个是未来的趋势。如果你有预算的话,搞个这个东西,弄个艺人工作室, 解决你现在团队绝大多数问题,帮你写文案,分析各种数据,多多做财务报表,帮你审核合同,这个东西完全够。 后期我会针对这所有模型给大家讲一下哪个模型适合什么样的业务。你大概了解完你就有个 ai 的 基础了。而且对于 opencloud 的 使用场景,我们适合工具调用的哪一个模型,以及我要创建一个 agent, 它适用于哪个模型,我都会给大家讲到这个价值非常大。

本期视频我们将部署量化版的捆三点五四十亿参数模型。接着我们会用 lama c p p 把它与人阔配的跨扣集成起来, 这样就能打造一个完全离线私密的编程助手。我们会把所有步骤都浓缩进一个视频,节奏很快,视频不长,新手也能轻松跟上。废话不多说,我们直接开始好了。第一步,我们来安装 lama c p p 这个很快, 我要用 d 克隆它的代码库,系统提示该库已存在,我这就删掉它,只为从头完整演示一遍操作流程。 现在重新克隆提一下,这个代码库比较大,所以你得保证字盘空间充足,它比一般代码库下载慢些。好吧,马上就下完了。接着我们需要编辑它的原代码,我就用下面这条命令, 然后就能用 smk 命令在本地完成构建这个过程大约需要五到十分钟。我们稍等一下。 顺便提一句,如果你还不熟悉 cuan 三点五这个模型家族,这个家族包括二十亿、四十亿、九十亿参数等好几个版本,我已经做了不少相关的视频了,你直接去我频道搜索 cuan 三点五分就行, 就能找到一大堆关于这个模型家族的视频。好了,辣么 c p p 搞定了,接下来咱们来安装 huggingfacehop 这个库,因为待会儿要下载模型,现在就可以从 huggingface 上下载模型了。 我这里用的是 burtofsky 提供的量化版本里的快照下载命令,就是我刚才演示的那个。你也可以选用任何其他你喜欢的 gif 文件。当然,这个四十亿的模型你也可以换成任何其他你中意的模型,模型也下载完毕,接下来就该把它集成到 quacole 里了。 安装 quacole 很 简单,只需要运行这条命令就行。 quacole 是 infopack 公司推出的编程助手,我们这次要用的就是它。 好处在于你完全不需要去 app 注册账号,我可以告诉你,你既不用为任何 a p m 要花钱,也不会遇到任何调用限制或频率限制。我们要做的就是把 quack code 和这个量化版的 quan 三点五整合到一起。 好了,这部分就全部搞定了。接下来我们就用 lama c p p 来启动刚刚下载的模型。 这个命令很常规,我们用的是 cu 三点五的这个量化版本,量化级别是 q 四 k m, 这是它的别名,还有一些超参数。然后我给他设置了一个上下文长度,我们来运行一下。对了,如果你显存不够大,可以把上下文长度调小一点,比如降到八千之类的。 一眨眼的功夫,你就能看到模型已经加载好了。现在模型已经在我们的本地系统上跑起来了,它还会显示占用了多少显存之类的信息。待会儿我也会用 ntop 这个工具给你看一下这个终端,别官就让它一直运行着,我快速给你看一下显存占用情况。 诺,看到了吧,这个量化模型只占了不到六千 mb 的 显存。好的,一切正常,我就让它继续跑着。接着我另开一个终端,直接用捆三点五四十亿这个别名来启动我的云端代码。 好了,现在我们已经连进去了,可以看到困三点五模型已经加载好了,速度还挺快,我们现在就处在当前的工作目录下,这个警告没什么影响,不用担心,现在你可以随意给他下达指令了。所以我就让他给我写个 python 函数,他现在正开足马力思考呢。 然后不一会儿你就能看到他已经把结果返回给我了,我来给大家演示一下,大家看这里,他告诉我,他要创建那个排放文件了,然后就是这个筛选函数,他甚至连函数名都起好了,这是一个创建文件的指令。 我的意思是,我并不太在意他具体创建了啥,毕竟一个四十亿参数采用 p u 四量化的模型,算不上是理想的智能体模型。 但我们真正想测试的是能不能用 andrafic 的 这个云端代码去搭配一个免费的本地的离线模型。然后他问我确定要创建吗?我就说,行,没问题,创建吧,开始吧。然后他就会开始运行,接着就会为我们创建那个文件。 看,文件已经创建好了,大家还记得吧?我还让他给我创建了一个测试文件,我现在就用向下箭头键往下翻,这样他就不会老是弹窗问我了。他现在也开始编辑测试代码了,他需要我确认,我就说好的,可以。 接着他又问我了,我就说,诺,拿去吧,可别找我要排放文件啊,千万别在正式环境里这么干。不过我现在只是试试水,体验一下。他这会儿正进行自我反思,检查各种细节呢。 瞧,他现在已经轻轻松松地把文件更新好了,搞定。没过多久,我觉得他这活干的真是绝了。生成了这两个文件,一份是我要的实际代码,另一份是配套的测试。 我这就带大家快速浏览一下这两个文件,这里是我的工作目录,这个就是生成的实际代码文件。大家仔细看,这里面提到了一个四十亿参数的模型,看看它都干了些什么?这成果,而这个呢,是它自动生成的测试文件。 快看这儿,这真正展现了我们 cuan 三点五模型的强大实力。就像我前面说的,这可不光是给频道打广告,大家瞅瞅这些 cuan 模型,我们是从里到外方方面面都研究透了, 比如这个四十亿参数的模型,我们就做过深度解析。要我说,在 ai 领域,这玩意儿简直就是个秘密武器,它真的是太强了,强到没朋友。 如果你正在寻找更强大的模型,不妨看看这个三点五专家混合模型,我们也通过 opencall 对 它进行了测试和讲解,还有 lama c p p 与 opencall 的 组合方案, 我们还尝试了它的其他几个版本,我们做了对比测试,包括不同量化规格下的未过滤模型等等。此外,我们还讲解过那个两百七十亿参数的密模型,所以现在你知道了如何使用 lama c p p 以量化格式运行这些困三点五模型, 最关键的是如何打造一个完全私有的本地编程助手,只需借助这个连 favx 云代码即可实现。欢迎在评论区分享你的看法。

朋友们,本地部署那个大模型还是可行的,我根据网友的建议去用了这个,用这个模型加载器,然后我现在在本地部署,在 mac mini m 四上部署的,然后我现在问他一下,他响应速度还行, 你看没这么快就响应量也还可以,你看响应速度非常棒。 然后就是这个拓展处理的话,拓展量非常大,如果说你本地绘画的话就还好,如果说你上 ag 的 话就得上这个模型, 不是这个模型这个容器吧,用这个加速就挺好的,可以部署本地的。

千万三点五的小模型性能非常强悍,给大家展示一下。 现在大家看到的是一个本地不说好的云点八 b 的 小模型,我们测试一下它的速度跟问题,比如我问一下你 现在完全没有快进了,我们问一下他一些算术题, 比如我问他一百乘以 四三五等于多少? 之前我测试过很多小模型都非常慢,但是现在三点五的这个模型真的很令人惊喜。

那么你看这个是一个叫做 jama 三的模型,它是一个开源的本地部署模型,这个模型它使用了和伽玛娜一样的训练参数,我们来试试看一下它的效果怎么样。 好,这个是我们本地部署模型的工具,这个是千问三点五,它有一个非常强大的一个能力,它是一个九亿参数的模型。然后这个 jama 三就是我们跟它提到的模型,它是四亿参数的模型, 在这里他的他们的这个体量有很大区别,前文是六点六 gb, 然后这粘板参数三点三 gb。 之前我部署过很多二十多币的二十多亿参数的模型,或者是十四多、十四亿的参数的模型,十四亿参数是比较多。直到我用了这两款模型,我就发现即使他的参数不多,但他的效果非常惊艳。来,我们看啊, 我们把这个模型打开好,我们启动这模型,它的回答效果非常好,而且显示速度也很快,是我觉得用过的一个特别惊艳的模型之一。嗯, 而且他不光回答很好,他一个四 g 参数的模型,他能看懂照片,我可以直接给这这些照片截个屏,直接发送给他。因为他是本地部署的模型,所以发送零秒就可以发送过去,根本就不需要任何上传到服务器的时间,只要一发送,他就会提示把这张照片给他添加了, 然后因为他是个用英文的参数给它添加了,因为我用过之前用过很多的英文的本地部署模型, 他们都说中文说的不流利。比如说美特,美特公司训练的那个叫拉玛模型,但是 jamaican 呢?这个 jama 三它只有三点三 gb, 它不光说英文和中文都说的很流利,而且它还能读懂照片,这是我觉得很惊艳的一个点。我们再来看另一个模型, 什么模型?千万三点五九亿函数,这个模型我觉得是可以本届部署的最强的模型之一了。它虽然看不懂照片,但是它回来的效果特别好,而且我甚至觉得可以和一些云端模型去媲美, 因为它是一个深度思考的模型,而且我觉得它的深度思考非常深度,就比如一个世纪难题就是我们家离洗车店五十米,那我应该走路去还是开车去?很多 ai 甚至是云端的 ai 都会说走路去,但是它就分析出了应该开车去,因为你洗车你还干嘛走路去,对吧?你看,我问他一个问题啊, 然后他他就开始思考, thinking, thinking process 就是 思考的步骤,他这里就开始分析我们问他的问题。简单的你好二字,他就会分析非常多的时间, 耗费非常多的一些算理去分析这一个简单的问题,然后最后得到的效果会非常的优秀,尽管它需要耗费的时间比较长,但是它的效果真的很不错,哼。

本地部署阿里千万三点五最新模型,还能支撑千人在线并发,这套硬核配置到底有多顶?这是专为北京某企业量身打造的 ai 服务器,兼顾本地私有化部署 与机器人研发双重需求。算力核心搭载双路 amd 枭龙九六五四处理器,整机坐拥一百九十二核心,三百八十四线程内存,直接配齐十六根 g d d r 五 x 四八零零高频条, 七六八 g 超大容量运行千万三点五游刃有余,预留充足空间。显卡选用英伟达五零九零版本,相较四八 g 版显存范 大幅提升,大模型推理微调承载力,生成速度与推理效率直接翻倍。这套方案可实现千人并发,在线,每秒 token 吞吐达三千五百六十六,搭配九十九点二 t b 海量存储,完美承接模型科研数据存储需求。老板们心动了吗?

就在昨天,阿里发布了一个狠东西,前吻三点五三十五 b a, 三 b, 一 张 rtx 三零九零二十四 g 显存,跑满二十六万上下吻一百一十二透视每秒。你没听错,二十六万上下吻,速度几乎不掉。 它和传统三十五 b 模型最大的区别是什么?是 m o e。 传统模型是全部层都工作,上下文越长,显存越爆,速度越慢。但这个模型总参数三百五十亿,每次只激活三十亿,二百五十六个专家每次只调用八个。 四十层里,只有十层是传统的 n t s, 剩下三十层用的是一种类似循环记忆的结构。结果是什么?上下文从四千直接拉到二十六万, 给你一个对比,传统三十五 b 模型,二十六万上下文要三十 g。 而这个模型模型本质是八点五 g tv 开始,二点七 g 状态缓存六十三兆,总共二十二点四 g b, 刚好塞进三零九零中。重点来了,有人用它干了什么?一条替诗词让模型写一个完整。太空射击游戏 带粒子系统,带碰撞检测带程序音效自动调试。三轮三千四百行代码,八个模块一次生成,完成一张三零九零三十亿激活参数,这不是跑奔驰 mark, 这是在干活。同样人物八十倍模型,两张三零九零 四十六 topos, 每秒两轮才跳通。这个模型一张卡一百一十二 topos, 每秒一次成功不是更聪明,是更快。在本地推理世界里,迭代次数大于单词治理, 一张二手三零九零仅需五千元,模型免费,没有 api 费,没有订阅费,没有速律限制,而且这已经是本地 ai 最差的一年,以后只会更快。

经过一整天的折腾,不停的调试测试,终于把龙虾和欧拉玛本地部署的大模型链接上了。下面说一下我这次的经验,并不是所有本地大模型都支持龙虾,目前经过我测试,最好用的是千万三, 我本地的硬件最高能支持在欧拉玛里面跑三二 b 的 大模型,但是速度比较慢,所以我下载了一个九 b 的 千万三,先试一下 九臂的千万三在欧拉玛里面可以很快的速度运行,但是在龙虾上反应的速度就有点慢, 而且只能支持本地聊天或者处理文本任务,让九臂的千万三驱动龙虾去打开浏览器都实现不了,也可能是因为我本地部署的大模型太小,有没有哪位部署过比较大的本地大模型的朋友可以说一下使用效果如何? 所以我打算暂时放弃使用本地大模型去动龙虾,去购买二十九元包月的 mini max 的 a p i 来使用 tucker, 量大管饱,关注我,一起交流养龙虾!

兄弟们,如果你需要本地制造 token, 看下加了 cloud 四点六 opus 的 这款模型。首先咱不说复杂参数,先提个关键一点,这个模型是 obliterate 消融版本, 简单说就是移除了大部分拒绝项链和安全护栏,平时用的时候不会轻易拒绝你的请求。再说说实际使用感受,加了 opus 的 这款代码,能力接近 cloud opus 水平,实测下来生成很丝滑。最后根据你的显卡选择参数。

what? 昨天阿里千问团队发布了其千问三点五家族的一系列小模型, 官方的 benchmark 自然是吊打一众体量更大的模型,且在某些项目里碾压闭园的 chat gpt 五 mini 和谷歌的 gemini 二点五 flash。 本频道的老传统,我们只看疗效,所以我替大家跑了一下测试。 不过作为一个九 b 的 小模型,大家也可以自己在本地推理运行,实际使用,看看测试问题和评分标准。在这里大家可以暂停查看,你也可以自己到我的两个网站查看模型测试的得分情况和测试的结果。首先介绍一下模型, 我使用的是 mx f p 四的量化版本,好在苹果 m l x 推理框架下,此时千万三点五的九币模型,以下简称九币,在测试里拿到了七十三点五分,这是一个相当不错的成绩, 这个成绩可以说是通杀了千万三的中等体积三十币的模型,这一点和官方发布一致,甚至略强于欧洲的 davestro 一 百二十三币, 这是一个体量十二倍有余的大家伙。同时我们还可以发现,九币和三十五币是紧紧挨着的, 得分非常接近。去掉上下文和多模态的支持,此时九币的得分是六十六点五分。 下面我们来看单个类别。在中英文的创意写作部分,九 b 的 得分是十三点七分,这个得分是偏低的,和几乎一年前发布的 deepsea r 一 零五二八齐平。应用文写作的成绩也是偏低,只得到了十五点八分, 属于倒数的行列。数学和物理方面得分则是相当高,拿下了十九点八分,几乎是满分,不过在我测试过的模型里,似乎数学和物理的得分都非常高, 这其实也从侧面显示了大模型的一个训练方向。在写代码的部分,九臂非常意外的干掉了三十五臂。这里我们开启对比模式,我们可以看到平胡骑自行车的 svg 动画项目里,两者可以说是都非常拉,但是九臂拉的更多。 而在 html 手机操作系统模拟器的项目里,九臂的表现竟然意外的还不错,不过也就是看着不错, app 没有一个可以互动,不过三十五币也没好到哪里去就是了,两者可以说是半斤八两, 拍四六边形小球测试,两者各有千秋,但是根据打分标准, colode opus 四点六给了九币的代码质量一个更高的分数,我们就不去质疑 colode opus 四点六了哈。 综合来说,九币的得分还是属于符合预期的。至于为什么和三十五币如此接近,其实在社区间有一种算法, 即混合专家模型和筹密模型比的话,其实际智力水平就是用总餐数量乘以激活餐数量除以十,所以三十五币的智力水平 就是一个十倍稠密模型的水平。而这就是为什么作为千万三点五家族里中等体量的二十七倍稠密模型的性能如此强大原因,毕 竟人家每次推理都会激活所有二十七倍餐数量,而三十五币每次只激活三倍餐数量,性能自然不可同日而语。最后预告一下,下一期我们会测试一下更小的四倍模型,敬请期待哦!