这四台 mini pc 连成了一个串,每台电脑之间都通过 usb 四 v 二接口进行了连接,目前是用做小公司部署大体量 ai 模型的最优解。这个组合让它总共能有三百八十四 gb 巨量显存来跑 ai。 这是我前两天参加的一个明帆和 amd 联合举办的智算前沿换新未来新品体验会,这个是 amd 的 ipad 处理器 啊,我们都会去参加,并持续获得全球主流媒体的关注。明帆其实有点类似传英,国外巨火, 国内声量相比一线品牌反而不大。他们带来两款旗舰新品, m s s 一 max 迷你工作站和 n 五 pro a i n s。 这里每台 m s s 一 max 都是 amd amx 三九五处理器与一百二十八 g 内存, 基于统一内存管理,相当于每台电脑的核显都具备九十六 g 显存,并揉在了一起使用,组成两优四 g 集群,可以轻松运行满血 deepsea 六百七十一 b 本地大模型。这四台加一起总峰值功耗只有六百四十瓦,跟一块五零九零差不多。而如果用常规服务器叉五零九零去跑满血 deepsea, 你 需要叉十二块, 它这个四台每台也不到一万八,所以它的优势主要在性能、效率和性价比。当然,它也可以单独用两个万兆网口,两个八十 g 的 usb 四 v 二,也能提供非常丰富的扩展性,抽拉的拆机方式为的是方便维护,里面还有独立的 p c e 接口可以进行进一步扩展。后面就是这台 n s 了, 十二盒二十四线的 h x 三七零当做 n s 处理器,并且采用了 e c c 内存这个配置当做 n s, 说实话有点屈才了,我觉着它更适合发烧友,把它打造成一台 oem 或者私人服务器。 y o 除了 usb 四之外,还有一个 o c u link 接口,可以外接显卡,跑 ai 大 模型。同样一拉,它的主板层也直接拉出来了。不过虽然配置很高,但纳斯咱们可以自己组装,所以更重要的是它的系统。 通过跟厂家沟通,目前系统还没有特别成熟,但我对它的预期值很高,基于低变开发原声 z f s 文件系统,剩下的就是沉淀的问题了。那么你对这两台设备哪个更感兴趣呢?
粉丝53.2万获赞629.6万

本期视频介绍一种多台 pc 搭建 ai 集群,运行单台 pc 无法实现的超大 ai 大 模型,支持多系统 windows linux 像素,支持多样化硬件加速,比如 cpu, gpu i gpu 都可以实现。哈喽大家好,这里是小明和他女朋友,我是小明。搭建 ai 集群分四个大步骤, 第一,搭建物理条件,主机互联,至少选择十 gb 网口或者二十 gb 雷电网桥高速宽带方式。本次演示用两台明凡 m s s 一 max 三九五迷你主机,设置双方同网段 ip 地址, 一定要检查主机之间互通性,如果有系统防火墙阻止,记得手动放行或者关闭防火墙。第二个步骤,主 从服务器都需要下载,那么点 cpb 项目,根据自己的硬件下载对应版本,比如 windows 恩卡用户下载 windows 哭打版本三九五主机,这里选择 windows 我 肯对应版本下载 ai 模型,默认可以用终端命令从 h f 网站下载模型,但需翻墙。 推荐访问摩塔社区,国内网站手动下载网速更稳定。主流大模型也很齐全,比如国内开源的 tcp 天问三等。这里要注意, 下载优选 g g u f 对 应版本拉马点 c p p 可以 直接调用无需再次转换分片的大容量模型,不用手动合并加载第一个分片即可自动识别到其他分片。 加载好的模型只需要放在主服务器即可,从服务器的模型会通过主服务器自动分配加载在 windows 下 ai 模型放入此文件夹下面。第三步起用 r p c 服务找到解压的,那么点 c p p 项目文件夹右键选择在终端中打开。使用以下命令打开 r p c 服务器, 所有主从服务器仅需使用一条命令即可默认 rpc 服务开启五零零五二端口中断中出现安全警告也属正常情况。第四步, ai 集群测试验证 在主服务器上运行 bash 测试, ai 性能杠杠。 rpc 后面跟服务器 ip 和端口号多过 ip, 服务器中间用逗号隔开,也可开启 hdp 服务测试 用网页或者其他智能助手应用,比如 cherry studio 就 可以调用该 ai 集群测试。 本期 ai 集群视频教程就简单分享到这里,如果对你有所启发,请一键三连支持一下。更多硬件体验欢迎关注我们。


大家好,上个视频跟大家分享了在 max 加三九五上部署 mini max m 二大模型,并用它生成了俄罗斯方块和贪食蛇游戏。 有网友给我留言问是否可以部署 glm 四点七,开始我是不打算尝试的,因为 glm 四点七太大了,而 max 加三九五性能有限。 但是随着私信问这个问题的朋友越来越多,把我的好奇心也勾起来了,今天咱们就一起体验一下 max 加三九五上运行 glm 四点七并生成电脑游戏的效果。 首先我们测试运行 onslaught u d i q e m 量化后的 g l m 四点七,我这里已经下载好了,量化后的模型权重是一百零一 g, 加上 k v cash 大 致需要一百一十 g 显存。 max 加三九五 bios 里面可以分配的最大显存是九十六 g, 为了能够运行一百零一 g 的 模型权重, 我们需要通过 linux g t t 来设置显存突破九十六 g 的 限制。首先在 bios 中将显存设置到一 g, 然后在系统中编辑 grab 文件,加上这四个参数,通过 g t t 设置显存最大一百二十 g。 编辑完成后运行这条命令, 然后重启电脑,电脑重启后, 我们就可以看到固定显存一 g t t 为一百二十 g 了。 我这里使用的是 o b o q 二十四点零四操作系统,模型推理使用的是自己翻译的最新版的拉玛点 c p p。 我 这里已经启动了模型,我们看一下我这里使用的启动参数, 我们再来看一下 g t t 使用情况。 g t t 一 共一百二十 g, 现在使用了大约一百一十多 g, 我 们打开浏览器访问拉玛点 c p p 服务, 输入测试 mini max 时相同的提示词, 现在它就开始推理了, 生成速度大概十一 tokens 每秒。经过推理思考,现在它就开始正式输出代码了,这时候的生成速度是十 tokens 每秒。 我们看一下 gpu 的 使用情况, gpu 已经跑起来了,我们再来看一下 cpu 的 使用情况, 现在 cpu 的 利用率很低,说明负债都在 gpu 上, 现在整个生成过程就结束了,最终生成速度来到了六点五九 tokens 每秒。接下来我们把它生成的代码复制到一个文本中,保存成 html 文件, 然后运行这个 html 文件。 游戏是可以正常运行的,但是生成速度太慢了。接下来我们部署一下 glm 四点七的减脂量化模型,该模型在减脂百分之四十的基础上进行了量化, 模型权重八十九 g, 我 这里已经把它运行起来了,我们看一下我这里的运行参数, 再来看一下 g t t 的 占用情况,一百二十 g, 使用了一百一十二 g。 接下来我们使用相同的提示词生成游戏, 我们看到这时的生成速度是九点八五 tokens 每秒。 经过推理,现在就开始输出代码了,这时的生成速度是八点九 tokens 每秒。 经过等待,生成过程就结束了,最后生成速度来到了六点八三 tokens 每秒。我们运行一下它生成的代码,看看游戏能不能正常运行, 很遗憾生成的游戏无法正常运行,通过测试,不管是量化还是减脂量化,生成的速度都不够理想, 但是我们也能看出来,在这么极限量化的前提下,模型还能保持质量。输出代码说明 glm 四点七确实挺强,但是受限于 max 加三九五的性能,还是不建议这样部署。工欲善其事必先利其器, 如果想私有化部署 glm 四点七,实现安全和 token 自由,还是选择更强悍的 gpu 吧。今天的分享就到这里了,大家如果有什么问题可以在评论区给我留言,大家一起友好的交流,谢谢!

比如说这是你自己的车子,这是你自己车子啊。然后拿这台 n 三举例, n 三像是也没有更新的嘛?你们应该见过它更新完有主题像什么样子,就是它们更新完之后,左上角这个 qq 星下面就是这个地方, 这两个地方会有一个车控和一个主题。然后呢,你首先需要的是有主题的车子,这里有主题的车子,让它的原车主解绑之后给你一绑定, 就是在你这边点开设备列表,添加设备,然后这边也要绑定上他的车子,要让车子的主人变成你,变成你之后嘞,你在这个地方就可以点开主题,点开主题把你所需要的主题和皮肤全部下载完,你全下载都可以全买,都可以,买完之后他直接就算到你购买的账号里面, 这你购买的账号里面这个不是人物中心,这个我订单订单里面就会有了,都在里面,我全买了, 之前内测的时候也这么推送的,内测的时候给你发的皮肤也是这么发过来的,就这个游戏主题,华盛盛世、华诞,还有这个最后上传全部都通过这个方式发到你手机上来的,到你账号里面来的,他的皮肤是账号拥有,并不是车辆拥有, 也不是车拥有,但是车的主题的推送资格是车拥有,然后呢,你可以购买到账号里面来,所以说你可以去拥有一台拥有主题商城的车辆,然后去他的主题商城,把他的主题购买完之后 保存到你账号里面来,然后再返回你自己的车,返回到你自己的车里面,然后你看到更多功能里面的仪表设置就可以看到你那些皮肤都在里面。