本期视频介绍一种多台 pc 搭建 ai 集群,运行单台 pc 无法实现的超大 ai 大 模型,支持多系统 windows linux 像素,支持多样化硬件加速,比如 cpu, gpu i gpu 都可以实现。哈喽大家好,这里是小明和他女朋友,我是小明。搭建 ai 集群分四个大步骤, 第一,搭建物理条件,主机互联,至少选择十 gb 网口或者二十 gb 雷电网桥高速宽带方式。本次演示用两台明凡 m s s 一 max 三九五迷你主机,设置双方同网段 ip 地址, 一定要检查主机之间互通性,如果有系统防火墙阻止,记得手动放行或者关闭防火墙。第二个步骤,主 从服务器都需要下载,那么点 cpb 项目,根据自己的硬件下载对应版本,比如 windows 恩卡用户下载 windows 哭打版本三九五主机,这里选择 windows 我 肯对应版本下载 ai 模型,默认可以用终端命令从 h f 网站下载模型,但需翻墙。 推荐访问摩塔社区,国内网站手动下载网速更稳定。主流大模型也很齐全,比如国内开源的 tcp 天问三等。这里要注意, 下载优选 g g u f 对 应版本拉马点 c p p 可以 直接调用无需再次转换分片的大容量模型,不用手动合并加载第一个分片即可自动识别到其他分片。 加载好的模型只需要放在主服务器即可,从服务器的模型会通过主服务器自动分配加载在 windows 下 ai 模型放入此文件夹下面。第三步起用 r p c 服务找到解压的,那么点 c p p 项目文件夹右键选择在终端中打开。使用以下命令打开 r p c 服务器, 所有主从服务器仅需使用一条命令即可默认 rpc 服务开启五零零五二端口中断中出现安全警告也属正常情况。第四步, ai 集群测试验证 在主服务器上运行 bash 测试, ai 性能杠杠。 rpc 后面跟服务器 ip 和端口号多过 ip, 服务器中间用逗号隔开,也可开启 hdp 服务测试 用网页或者其他智能助手应用,比如 cherry studio 就 可以调用该 ai 集群测试。 本期 ai 集群视频教程就简单分享到这里,如果对你有所启发,请一键三连支持一下。更多硬件体验欢迎关注我们。
粉丝8728获赞5.5万

大家好, minmax 发布了最新的 m 二点一这个大模型,它是一个二百二十九 b 参数的 m o e 模型,官方说明的是这次更新主要提升了它的代码能力,然后呢这里有它的评分。 今天呢咱们就在 amd 的 max 加三九五上部署一下这个迷你 max m 二点一,然后呢用它去生成一个游戏,我们看一下它的生成速度和这个生成的游戏质量。因为这个模型很大,所以呢今天咱们用到的是 asus 做的量化版, 为了让它能在 mark 家三九五上运行起来,所以咱们选择的是 u d q 三 k x l 这个量化版模型,它有三个文件,我们自己去这个摩达社区把它下载回来,我这里呢已经下载好了。 呃,权重文件呢加起来是九十六 g, 然后加上 kvatch 呢,运行起来大概需要一百一十五 g 的 显存。 max 加三九五,它在 bios 里设置最大能设置到九十六 g, 那 这个时候它肯定是不够的, 那这个时候呢,我们就用这个 linux 里边的 g t t 去设置这个显存,我这里呢使用的是无斑图的二十四点零四。 呃,我们看一下设置这个 gtt 的 方法。呃,首先呢编辑这个 etc 下的 default 下的 grab 文件,我们找到这一行这行,然后呢在里边呢主要设置四个参数, 就是这四个参数,然后呢通过这四个参数把 gtt 设置到一百二十 g, 编辑好这个文件以后保存退出。然后呢执行这个这条命令,更新一下配置,然后重启电脑。重启完电脑以后呢,我们来看一下它的效果。 这个时候呢,我们是在 bios 里设置了一个 vram, 就是 在 bios 里设置设置了固定的显存的是一记, 然后呢通过 g t t 设置一百二十 g, 那 这样呢就可以把这个 mini max 运行起来了。我这里呢已经用这个拉姆点 c p p 把这个 mini max 运行起来了。我这里用的呢环境呢是 rock mode, 七点一点一。呃,拉姆点 c p p 呢,用的就是官方最新版本。 然后呢我们看一下这个拉姆点 c p p 的 启动参数, 这个就是我使用的使用参数,主要是这就是 temperature 和这个 top p 和 top k。 呃, temperature 设置的是一点零,然后 top p 设置零点九五, top k 设置四十,这个是官方给的建议,所以咱们就按官方这个建议去设置了。然后现在它已经运行起来了,那我们就可以直接去访问它了, 现在我们就可以看到这个工作界面了,我们来看一下显存的占用,我们看这时候用了一百一十五 g 的 显存, 然后呢现在没有运算,所以都是零。我们让他去写一个俄罗斯方块,就是用 h 五开发一个电脑版的俄罗斯方块,然后告诉他用方向键去控制,然后呢空格是暂停,要求页面美观现代。然后我们让它生成 现在是二十八 token 每秒,他现在正在思考 就是二十八 token 每秒左右,现在 好,现在开始正式输出代码,现在是二十五 token 每秒,这是它的生成速度。 接下来呢我们看一下这个显卡的消耗, 现在跑的百分之百了,功耗也顶到头了,一百一十瓦,因为我设置在 bios 里设置的就是一百一十瓦六十七度, 然后我们再来看一下 cpu 的 消耗, cpu 消耗很低,就是百分之六点三,然后呢主要就是闲置了,也就说现在就是主要靠 gpu 在 运算, 嗯,还在运算,现存就是在一百一十五 g 消耗了一百一十五 g, 工号顶着头的跑, 我们等它生成完, 呃,经过等待呢,现在代码就生成好了,一共消耗了六千四百五十八个 token, 最后的时候是十九点三九 token, 每秒 我们把它生成的代码粘贴到一个记事本里,然后呢把它保存成 html 文件, 然后我们去运行它,这是它界面开始游戏 啊,我们看它的运行效果还是不错的, 我又用它生成了一个贪吃蛇, 哎呀哎呀哎呀, 整体来看,我们看它在这个 amd max 加三九五上的运行速度和生成的质量还是不错的, 我们也能看出来,就是这种编程它还是很消耗 token 的, 大家手里如果有 max 加三九五的话,可以参考今天的视频。然后呢自己去运行一下,然后感受一下它自己在本地运行的效果。 今天的分享就到这里了,大家如果有什么疑问呢,可以在评论区给我留言,大家一起友好的交流,谢谢大家。

一说到最强核显, amd 粉丝, yes 七八零 m 八九零 m 八零六零 s 都是真能打级别的核显,但是在非牛的玩家里, amd 的 核显硬解一直没有适配。作为非官方非牛代言人提前透露,非牛马上发布 amd gpu 加速的适配,并且会一锅端的推出一键部署。非牛 open club, 咱们今天先来尝尝馅儿,为什么总是你仰仗各位,那不得开香槟庆祝一下吗?然后去薅了一台三九五的机器, 飞牛官方合作伙伴,林克 gtr 九 pro、 amd amx 加三九五插电开机。 咱们先来看一下林克这台 aimax 加三九五的系统信息。 amd ryzen ai max 加三九五内建八零六零 s 的 核显十六核三十二现成。我这台是一百二十八 g 的 统一内存,八千兆赫的频率, gpu 识别正常,双万兆的网卡啊,这都是免驱的啊,直接识别,我现在给它装了一块四 t 的 硬盘。 ok, 咱们先来看一下这个包升级的地方。第一,支持了 amd gpu 的 硬件转码播放视频, 支持了 amd gpu 的 相册人脸识别和智能识别,也就是 ai 相册的全支持,全硬件加速需要安装 amd 的 rocm 七点二驱动和非牛自研的 ai 引擎。安装飞牛 ai 引擎和 amd rocm 七点二驱动, 飞牛影视的设置已经自动打开了 gpu 加速。咱们来播放个视频给大家看,四 k 蓝光史比特 hdr 杜比全景声走起,我们让纳斯端应解启动, gpu 应解成功,咱这三九五你就说是啥解不了吧,随便拖。 接下来咱们来提升一下难度啊,这是杜比世界版本的 hdr 视频,颜色对应,牛,注意看啊,也是服务器端硬解杜比世界四 k 杜比全景声,这就是典型的全杜比,所以即便你的电视或者你的设备不支持杜比世界,他也不会出现色彩映射错误, 惨绿惨绿的。在 ai 相册里面也可以识别出这块和弦, ai 设置里面下面就多出了启动 gpu 计算的按钮,咱们启动 gpu 设置成功,咱们先看机操啊!人脸识别情况走起!一共是五百四十五张,计点计用,然后我们来看资源管理器,但愿让大家还能够看到 gpu 占有率只有轻轻松松的百分之十四, cpu 根本就不带动的啊,所以 gpu 人脸识别, ok, 这负荷有点太轻了是吧?哼,分分钟你看就识别完了,接下来上强度智能识别走起,你看直接就几十几十张的跑, 用 cpu 的 时候大家懂了吧,都是一张好几分钟 gpu 硬解,直接拉满 c p u, 非常轻松。五百张哇,智能识别秒没 amd 玩家,你就说狂喜不狂喜,但这只是基础操作。 amd 粉丝飞牛玩家第二部,欧拉玛 本地大模型,在飞牛 amd 的 平台上部署欧拉玛,我给大家看有多简单,直接输欧拉玛。 最新版本的欧拉玛已经升级为一点一的版本,已经可以直接对接 lcm 的 硬件加速,你只需要安装然后就可以了,一键打开欧拉玛,牛皮,我已经给大家下好了,千问三点五,一百二十二 b q 四量化的模型 gptos 一 百二十 b q 四量化的模型,塞进显存的容量分别是七十六 g 和六十一 g, 哎,正好适合咱 aimex 加三九五,咱们来调戏调戏 ai, ok, 这生成速度还可以哦,大约二十点五六, tokens 每秒 amx 加用户进阶玩法。第三步,一键部署 openclaw, 直接调用欧拉玛的本地 ai 模型。所以你看你家什么机器,二十四小时开机啊, 你的纳斯,你家什么机器算力过剩啊,你的纳斯,我说你要累死纳斯。所以你看你在纳斯上部署 本地大模型,部署 openclaw, 资源的利用最大化。所以之前好多次老张直播的时候都告诉大家,我一直认为 nas 才是 ai 的 最好平台。好,接下来咱们一键部署 openclaw, 这个很快会给大家推送啊,推送之后,你直接在应用中心就可以找到一个叫做非牛 openclaw 的 应用,然后它依赖的应用都会直接部署,所以真的就是一键部署。 yes, 一键启动,我们是本地模型,所以直接选择欧拉玛自动识别本地模型,包括 ip 端口号,一概不需要懂,自动读取出现有的 本地大模型,然后啥也不用管,保存, ok, 恭喜你, openclaw 配置完毕,然后这大家说这怎么用啊?非常简单,你看这打开 openclaw 图形化界面了啊,远程访问网页版就可以和你的 openclaw 互动了,咱们问他,你是什么东西? 恭喜你打开新世界的大门,再也没有 token 焦虑了。 在小龙虾给大家生成的第一个文件屋缝对接飞牛啊,来大家看吧, 很多小伙伴玩小龙虾是希望在即时通讯工具中能够直接对接的飞牛的,这个 open claw 直接内置了飞书的对接, 企业微信和钉钉的对接一键安装。一个意外发现啊,因为是在非牛的应用中心中直接安装了一个非牛的官方应用,所以你根本不需要管什么端口映射、外网穿透这些技术的问题。因为非牛纳斯自带 f n connect, 你 可以随时随地在你的手机 外网访问你布置的 open club, 一 键打开移动端,直接无缝连接之前的对话。所以在飞牛上玩龙虾,事实上,你根本不需要去对接 实时通讯工具,这事变得更简单哦。依然是老规矩,明天中午老张直播间大家准备了很多好东西, ro 明天中午不见不散!

老婆要追剧,孩子要上网课,你要挂机下载,这种普通需求真得花一两万给家里买三台电脑吗?完全不需要! 今天教你一机多托的神仙玩法。我们可以用闲置硬件来 diy 服务器,部署多用户共享或者局域网远程桌面。让你那个网页都打不开的旧笔记本,甚至是闲置的 ipad, 全部连接服务器, 所有的计算在服务器上跑。你的旧本子只负责显示画面,一台主机全家人同时用,互不干扰。想要手搓服务器?看我大深罗秋天?


今天收到英伟达寄来的桌面级 ai 超级计算机 d g x spark, 老黄也给马斯克送了一台同款,用一句话形容它是一台极其便携、自带英伟达显卡的乌邦图迷你主机,国内售价三万五千元,来看看发布会上老黄是怎么说的。 we call it d g x spark20 cpu cores and now the gpu has 128 gigabytes one petaflots who is a software engineer or ai researcher? or you know just data scientist and you would like to give them you know what the perfect christmas present。 我 实测下来, d g x park 有 四个核心优势,首先是很轻很便携,塞到书包里就能直接带走到各种展会,线下布展都非常方便。 第二是算力强,号称有一千 top 的 f p 四算力和五零七零显卡差不多。第三是显存大, cpu 和 gpu 共享一百二十八 g 内存,可以在本地端测训练和推理大模型。 第四是预装了扩大和 nvcc 环境,直接省去了几个小时的安装配置时间,而且丝滑兼容英美达生态的各种物理、 ai 和机器人仿真工具。 这四个优势让 d g x bug 非常适合大模型和机器人玩家。这期视频就来盘点一下我发掘出的五个邪修玩法。 第一个玩法,部署优乐二十六目标检测模型,不管是视频还是摄像头,实时画面推流速度都很快,特别适合工业质检的终端设备。关于优乐二十六后续会出一系列的训练和推理教程。 第二个玩法,本地部署开源大模型 d g x bug 上可以丝滑运行欧拉玛 v l l m 这些本地大模型推理工具, 我用摩达社区开源的模型压力测试工具 evo scope 测试了一下,千问三零点六 b 首投肯时间只要五十毫秒,每秒钟输出一百一十五个投肯延迟和吞吐的分布也非常集中,没有明显的肠胃抖动。本地部署开源大模型有八大好处, 最大的好处就是无限免费调用,没有 token 焦虑,哪怕是 open cloud 这种 token 核弹也能随便用。另一个好处是局域网里的所有用户都可以共用。 我在 d g x bug 上本地部署了面壁智能开源的全模态大模型, mini c p m o 四点五 omni, 连上我家 wifi 的 所有用户都可以通过 ip 地址访问 d g x bug 的 推理接口,摄像头,电脑屏幕、手机 ai、 眼镜、 esp 三二,任何带摄像头的设备都能调用这个模型。 这个模型是一个参数量九 b 的 全双工实时模型。 ai 持续在听看书,你现在听到了什么声音?我又听到敲门声了。如果宝宝哭闹了或者出现意外情况,就请告诉我。好吧, 好的, 你看宝宝开始哭闹了呢。 好家伙,开局就到 c 一 点,这也太顶了,快跑啊,有个狙击手,这个狙击手还在 看,我来攻略了他。是的,狙击手还在, 他好像已经死了。小心你被急火了。 哎呀,你这局打太烂了,敌方坦克在这。漂亮,我镭射锁定了,很安全,给他来个雷。好,先清人漂亮,收掉一个 又一个,再来一方。哎呦,这把太牛了,完全没给对方任何机会,真是太强了, nice。 推理如果放在云端,通信延迟和 token 消耗就很大了。放在端侧,本地部署推理是最佳的方案,因为达还专门给 d g x spark 做了一个仪表盘,方便随时查看显存和 gpu 占用情况。 另一个本地推理的刚需场景是机器人 d g x spark, 既可以直接作为机器人的上位机,比如 hackincase 发布的桌面陪伴机器人 richie mini, 也可以作为具身智能的端侧大脑,借助 hackintosh 开源的机器人工具包 la robot 以及 groot 这样的 vla 视觉语言动作大模型, 配合英美达 jackson soren 或者 d g x spark 作为具身大脑,就能让机器人自主完成叠衣服、收纳桌面、夹取物品、双臂协助这类长系列模仿学习任务。 去年我在深圳柴火窗口空间看到不少了 robo 的 机器人项目,我自己也写了一整套了 robo 的 保姆级教程,手把手带你丝滑跑、通摇操作、采集数据训练、本地推理模仿学习的全流程。我最近做了一个具身智能握手交互装置,探龟之握, 人类一握手,他也热情伸手,人类缩手,有的时候也会竭力挽留,想和人类贴贴,仿佛具有灵魂和情绪。 用到的 v l a 模型是字面量开圆的握 o s s, 参数量三点九 b。 还有 physical intelligence 开圆的派零,参数量三点三 b。 在 以前,我只能托一台笨重的四零九零主机,机 器人插到主机 usb 口,每次扳机枪胳膊都要疼好几天。现在直接把 d g x park 塞到书包里带走,随便找个插线板就能开机玩起来。 总结一下,英伟达的 d g x park 是 一台极其便携、自带英伟达显卡的乌邦图迷你主机,重量轻、算力强、显存大,是本地部署大语言模型、多模态模型、 open cloud 聚深智能 v l a 模型的绝佳选 择。程序员、机器人、工程师、艺术家、音乐家都可以拥有自己的端侧最强大脑。