hello, 敬爱的观众老爷们。大家好,我是狗头,要说今年最火的话题,应该就是养龙虾了吧?敬爱的观众老爷们,你们养了吗?狗头可是养了一个龙虾呦,就在这里, 狗头不但养了狗头,还把这个龙虾给解剖了,狗头把解剖后的龙虾给他换了一个狗脑子,不信给你们看一下, 那现在是龙虾的一个 ui 的 一个小界面,嗯,没事,狗头显示着这个只是为了好玩,比较有意思。 那狗头将龙虾的记忆库,也就是龙虾的记忆系统换成了狗头喜欢的 new c j, 四 j, new four j, 嗯,这样的一个图谱型的数据库来进行记忆管理, 那这个记忆管理有一些好处是什么呢?首先就是关于节点实体内容和关系的连接,这样能够让我们很明确的去找到我们想要的这个东西,而且 看着会很明白,不像是文档类的记忆系统,上下文内容一长, 内容一多,我们在找某一个片段的时候就会变得很麻烦。而且向量数据库的一个最大的缺点就是我们去找某一项东西的时候,它的上下文衔接,尤其是 上下文相隔时间很长,中间又加了很多杂七杂八的内容的时候,可能上下文的衔接就没有那么准确了。而图谱数据库的优点就在于这里我们找到一个节点,例如这一个节点,这个节点是狗头林哥啊,也就是我的名字, 那我的节点都连了什么呢?首先我可以说我有一个助理叫狗助理, 我又又让狗助理干了什么活呢?就在这里边就可以展示出来狗助理都干了什么?例如我们打造的这个 news 数据库记忆系统,这个再做一些相关的连接, 看到了吗? 用图谱数据库这样的记忆系统,首先第一个优势呢,就是狗头在查找这个数据记忆的时候,能够很方便地去看到相关的连接以及都做过什么。 第二,让 ai 去寻找这些记忆的时候呢, ai 也可以顺藤摸瓜,从一个点去找到所有的信息。 嗯,这是狗头喜欢 new c g 这种图谱数据库的原因。当然了,这类数据库 还是有很多不适用的地方,第一就是在实体的节点建立和关系建立的,这方面很麻烦,需要大语言模型,再去提取你对话消息,提取出中间的关键词进行存入以及关系的建立, 这方面是非常非常浪费 token 的。 在查找方面也是它需要先理解你说的话的语义,完了再提取你语义中需要的这个关键词来进行搜索和查找, 在 token 的 使用量上非常的大,非常的浪费 token。 但是好在狗头不需要为 token 所担心,因为狗头用的是本地, 为了玩大龙虾,为了养好大龙虾,狗头还买了一个新的设备给大家看一下, 就是这个英伟达的 dj x spark, 也就是火花 边上的这一台,是 mac mini m 四芯片的十六 g 加五百一十二 g, 它用来装龙虾,它用来给龙虾做后台的算力提供服务支持,也就是龙虾的大脑 dj x spa 这个设备呢有很多的问题,那首先呢就是硬件架构方面,它使用了 a r m 六十四位的处理器,又使用了嗯, s m 幺二幺啊,这个架构具体是什么,狗头到现在也不理解啊,完了还使用了 啊,扩大的十三点零啊,五八零的显卡驱动,这里边还有一个很重要特点就是显卡驱动和扩大的版本官方是不支持更新的,也就说你要更新这个行为是不受官方支持的, 更新的难度还是很高的。那么在这种各种架构还有硬件的这个设备架啊,有很多的坑的存在 啊,某一些推理的终端无法使用啊,以及一些我们平常很容易就能安装上的东西,但是在这上面安装就会变得很麻烦啊,狗头已经折腾了好多天,但是某些模型啊,还是 可能安装是没问题了,也可能打开这个服务了,但是你在模型这边儿运算了好久,你等不到模型的结果啊。最近 千万三点儿五有人蒸馏了一板,用的是啊 o p u s 也就 cloud cloud 的 那个蒸馏板,能够加强了一些 agent 的 使用方面儿的一些功能方面儿的一些蒸馏板 啊。到目前为止,狗头在这台电脑上能部署能运行,但是龙虾跟他沟通的情况下,就是龙虾选用那个模型做后台预算的情况下,返回不到任何的输出结果 啊,狗头还要去调试这个,但是呢,折腾这件事呢,对狗头来讲还是很有乐趣的, 有喜欢折腾的小伙伴呢,也可以找狗头聊一聊关于养龙虾以及 dj x spark 这个设备啊,如何安装一些我们想要的一些程序和 ai 方面的一些应用,都可以来找狗头聊一聊 啊。今年嘛,大家都在说是个 ai 的 元年,狗头也从来没有啊,怎么说呢,狗头也从来没有被时代抛弃啊。狗头一直站在时代的前列腺上,一直勇往直前,走在时列前沿呐。 好了,不嘚瑟了。嗯,这期视频跟大家聊聊天,见见面, ai 的 世界,我们一起进步。
粉丝2297获赞1.0万

opencloud 以强大的 a i a 政绩能力洗卷 tikah 能接管电脑、整理发票、监控股票、秒回背书,真正实现了从对话到行动的跨越。然而,在实际部署中,用户普遍面临三大核心痛点,高频 a p i 调用导致算力 成本居高不下,敏感数据上传云端带来隐私安全隐患,普通 pc 难以支撑基层二十四小时稳定运行。 ai a 证的想真正落地,更需要实现软硬一体的终极形态。那么如何低成本本地部署大龙虾英伟达 d g x bug 作为桌面级 ai 超级计算机, 专为 openclock 这样的本地部署而生,解决三大关键问题,算力本地化,从此告别 api、 账单数据物理隔离,确保隐私安全。专为 ai 设计的架构,保证七成二十四小时稳定运行,把 openclock 部署在 d gx bug 上,拥有了一个零成本、百分之一百私密、永不掉线的超级本地 ai 员工。 想知道具体怎么落地,需要了解部署方案还是产品详情,赶紧私信小编,我们把全套方案发给你。

今天收到英伟达寄来的桌面级 ai 超级计算机 d g x spark, 老黄也给马斯克送了一台同款,用一句话形容它是一台极其便携、自带英伟达显卡的乌邦图迷你主机,国内售价三万五千元,来看看发布会上老黄是怎么说的。 we call it d g x spark20 cpu cores and now the gpu has 128 gigabytes one petaflots who is a software engineer or ai researcher? or you know just data scientist and you would like to give them you know what the perfect christmas present。 我 实测下来, d g x park 有 四个核心优势,首先是很轻很便携,塞到书包里就能直接带走到各种展会,线下布展都非常方便。 第二是算力强,号称有一千 top 的 f p 四算力和五零七零显卡差不多。第三是显存大, cpu 和 gpu 共享一百二十八 g 内存,可以在本地端测训练和推理大模型。 第四是预装了扩大和 nvcc 环境,直接省去了几个小时的安装配置时间,而且丝滑兼容英美达生态的各种物理、 ai 和机器人仿真工具。 这四个优势让 d g x bug 非常适合大模型和机器人玩家。这期视频就来盘点一下我发掘出的五个邪修玩法。 第一个玩法,部署优乐二十六目标检测模型,不管是视频还是摄像头,实时画面推流速度都很快,特别适合工业质检的终端设备。关于优乐二十六后续会出一系列的训练和推理教程。 第二个玩法,本地部署开源大模型 d g x bug 上可以丝滑运行欧拉玛 v l l m 这些本地大模型推理工具, 我用摩达社区开源的模型压力测试工具 evo scope 测试了一下,千问三零点六 b 首投肯时间只要五十毫秒,每秒钟输出一百一十五个投肯延迟和吞吐的分布也非常集中,没有明显的肠胃抖动。本地部署开源大模型有八大好处, 最大的好处就是无限免费调用,没有 token 焦虑,哪怕是 open cloud 这种 token 核弹也能随便用。另一个好处是局域网里的所有用户都可以共用。 我在 d g x bug 上本地部署了面壁智能开源的全模态大模型, mini c p m o 四点五 omni, 连上我家 wifi 的 所有用户都可以通过 ip 地址访问 d g x bug 的 推理接口,摄像头,电脑屏幕、手机 ai、 眼镜、 esp 三二,任何带摄像头的设备都能调用这个模型。 这个模型是一个参数量九 b 的 全双工实时模型。 ai 持续在听看书,你现在听到了什么声音?我又听到敲门声了。如果宝宝哭闹了或者出现意外情况,就请告诉我。好吧, 好的, 你看宝宝开始哭闹了呢。 好家伙,开局就到 c 一 点,这也太顶了,快跑啊,有个狙击手,这个狙击手还在 看,我来攻略了他。是的,狙击手还在, 他好像已经死了。小心你被急火了。 哎呀,你这局打太烂了,敌方坦克在这。漂亮,我镭射锁定了,很安全,给他来个雷。好,先清人漂亮,收掉一个 又一个,再来一方。哎呦,这把太牛了,完全没给对方任何机会,真是太强了, nice。 推理如果放在云端,通信延迟和 token 消耗就很大了。放在端侧,本地部署推理是最佳的方案,因为达还专门给 d g x spark 做了一个仪表盘,方便随时查看显存和 gpu 占用情况。 另一个本地推理的刚需场景是机器人 d g x spark, 既可以直接作为机器人的上位机,比如 hackincase 发布的桌面陪伴机器人 richie mini, 也可以作为具身智能的端侧大脑,借助 hackintosh 开源的机器人工具包 la robot 以及 groot 这样的 vla 视觉语言动作大模型, 配合英美达 jackson soren 或者 d g x spark 作为具身大脑,就能让机器人自主完成叠衣服、收纳桌面、夹取物品、双臂协助这类长系列模仿学习任务。 去年我在深圳柴火窗口空间看到不少了 robo 的 机器人项目,我自己也写了一整套了 robo 的 保姆级教程,手把手带你丝滑跑、通摇操作、采集数据训练、本地推理模仿学习的全流程。我最近做了一个具身智能握手交互装置,探龟之握, 人类一握手,他也热情伸手,人类缩手,有的时候也会竭力挽留,想和人类贴贴,仿佛具有灵魂和情绪。 用到的 v l a 模型是字面量开圆的握 o s s, 参数量三点九 b。 还有 physical intelligence 开圆的派零,参数量三点三 b。 在 以前,我只能托一台笨重的四零九零主机,机 器人插到主机 usb 口,每次扳机枪胳膊都要疼好几天。现在直接把 d g x park 塞到书包里带走,随便找个插线板就能开机玩起来。 总结一下,英伟达的 d g x park 是 一台极其便携、自带英伟达显卡的乌邦图迷你主机,重量轻、算力强、显存大,是本地部署大语言模型、多模态模型、 open cloud 聚深智能 v l a 模型的绝佳选 择。程序员、机器人、工程师、艺术家、音乐家都可以拥有自己的端侧最强大脑。

州的一家客人刚刚采购的一台吉伟达的 d g x 四二这个产品呢,现在是在调试阶段, g p u 的 价格是属于二 m 价格的,芯片, p u 有 二十二十个现成,它的 体积小,性能强劲的话,可以用在一些边缘计算呢,开发应用啊,不属于一些人形机器人都是没有问题的,毕竟它是一个桌面级的那个 ai 产品,另外它在网络拓展性或者网络宽带上面都是很强的,它的卖点就是一小啊。 第二个他是英伟达优化好的产品,基本上拿过来就可以用,不需要你做更多的优化,企业用户如果是需要用到空间部署非常小,对他的功耗要求非常高,他的散热环境要求 很高,特别是机器人,他比如说你这个机器要放在机器人里面装一块东西的话,你装个机器肯定肯定不方便吗?那这个直接可以扔在机器的外壳里面就可以用了,有点类似于原来英伟达那个切成这些边缘产品这样的一个延伸,在原有的玉上面做了更多的 算力部署,还有那个网络部署更多的考虑,这个东西未来会部署到数据中心,数到人形机器人上面。我们是做工作站服务器配置的,提供一站式解决方案,如果你想了解或者有什么需求可以后台找我。

在 d g x spark 上部署 open core 一 百二十八 gb 的 超大核内存, blackwell 架构的显卡搜索网站, 点击 get started 复制安装指令, 打开终端 linux 版,粘贴刚才的安装指令, 按照提示选择 yes 和 quick start, 选择 api 模型 开始认证,选择 keep current, 选择 skip for now, 选择 no。 交互界面自行选择它,要 fok 即安装成功, 后续实测敬请关注。

这是我们全新发布的 d g x spark, 它们是专为企业打造的 ai 超级计算机。那么这两款产品的具体表现如何? d g x 和五零九零显卡该怎么选?跑超大模型推理微挑选 d g x spark 游戏 图像生成中小模型高吞吐推理选 r t x 五零九零。

全网争议不断的 dj spark 如今又涨价了,英伟达这是飘了还是真有底气?上期我们拿它打了游戏热了身,今天我们就深度实测下大模型推理,看看 spark 到底怎么样。我们先通过英伟达 think 登录进去,这个就是它的控制台界面,左边是内存和 gpu 占有率,右边是控制台,后续的所有测试配置全在这搞定。另外它还系 统出厂就把 ai 环境给你装好了,开机直接就能用。那测试结果我们也会在结尾全部展示出来。接下来我们开始测试,我们先测试一下千万三零 b 模型,分别有 f 幺六 p 八、 n v f p 四这三种精度,上下文从一百二十八到两 k 并发从一到五百。先说 n v f p 四,一百二十八,上下文 五百并发下,生成速率五千七百七十七 toky 每秒,首延迟零点一秒,完全没有跑满性能。不过随着上下文增加到两 k 时,性能瓶颈卡在了两百并发左右,总的来说,在两千上下文以下并发不超过两百, 可以随便跑。再看 f p 八量化生成速率明显下滑,那建议并发在两百以内使用。最后是 f p 幺六量化两 k 上下文,两百并发,调到了六百七十六抖屏每秒,但手延迟依然低于零点三秒, 还算优秀。接下来我们跑下脸书的七零 b 模型,我们测试了 f p 八、 n v f p 四两种精度,先看 n v f p 四版本,整体的生成速度偏低,低并发下勉强够用,但手脱屏延迟还不错,那 f p 一八精度和想象的一样,扩音速率继续下滑,引发刚到一百首,延迟已经超过了一秒,这个模型推荐还是低病发的测试使用,因为 f p 幺六版本太大,需要显存高达一百四十一 g b, 单台 g b 幺零完全跑不了,下期我们再串联一台 g b 幺零试试。再聊一点额外干货,如果你需要大模型的 n v f p 四的量化版本,可以去 h f 下载文件,里面带有 n v f p 四的就是 如果找不到,也可以用英伟达的容器手动量化。那为啥 dj s bug 强烈建议用量化版本呢?因为 gb 幺零的 blackwell 架构对这类的低精度推理有原生的优化支持, 这是它最核心也最容易被忽略的能力。另外有评论区的小伙伴提到了黑神话悟空,一起来看看效果吧。最近 open color 很 火,那 dj s bug 是 不是配呢?我们下期再来看看。

个人超算的时代真的来了,现在大家都在聊 ai 重构了一切,但到底什么被重构了呢?在我们 ai 实验室看来,最先被彻底重构的就是你正在用的 pc, 以前我们印象中的 pc 可能是这样的,或者是这样的, 但从去年下半年开始,我们 ai 实验室接触到的 pc 已经变成了这样的。 这台是英伟达的 d 七 x spark, 搭载 g b 幺零芯片, im 架构,一百二十八 g 统一内存,最高可以分配一百 g 以上的显存。基于乌班图的 d 七 x 系统,市场价三万两千九百九十九。这台是明凡 m s s e max, 搭载 amd amx 加三九五芯片叉八六架构,同样一百二十八 g 统一内存,最高可以分配九十六 g 的 现存 win 十一系统,市场价一万八千九百九十九。 最后这台大家就都不陌生了,苹果的 max 丢丢,搭载 m 三 os 芯片,九十六 g 统一内存, mac os 系统,市场价三万两千九百九十九。 作为个人超算的代表,这三台机器在 ai 能力上面谁更强,谁的性价比更高,我们决定跑一下 ai 任务看看效果。 整个 ai 任务我们选择了大家用的最多的,也是最基础的,一个是模型的推理能力,另一个是 comui 的 纹身图能力。 在模型推理上,我们选择了 gptos 一 百二十 b 的 模型,理论上这三台设备都可以轻松支持这个模型。而我们传统带显卡的电脑,比如说配备了十二 g 显存的五零七零显卡,最高也就能跑到类似于千万三十四 b 这样两级的模型。 因为 max studio 对 v l m 等其他模型推力框架支持的不够好,所以我们这里选择了三台机器都支持的欧拉玛作为模型的推力引擎。好,下面我们来试一下三台机器同时用欧拉玛启动。 g p t o s s 一 百二十 b, 我 们看一下模型的加载时间。好,我们现在准备开始计时三二一,我们可以看到模型已经开始加载了 哇, max studio 十四秒就已经加载完成了哦, d g x spark 也已经加载好了,总共用时十七秒。 我们先等一下, amx 加三九五。 ok, amx 加三九五,现在也已经好了,一共用时是四十一秒。 下面我们试试模型的推理,我们给三台机器同一个提示词,让他去帮我们写一段马年的春节祝福语,要求一千个字以上,我们同时启动。肉眼可见 max 丢丢的速度还是要远快于其他两台机器的啊,他现在已经马上生成好了。 好,我们现在看一下它的 tft, 也就是它的手套啃延时是一点零八秒,但是它的 tps 达到了惊人的六十五点九五 top 每秒。好,我们看一下 dgs spark, 现在它已经生成好了,它的 tft 是 零点四三秒。 哇,好快,它的 tps 是 三十五点五三 tox 每秒。最后我们来看一下 amx 加三九五,它的 tft 是 零点五二四秒, 然后 tps 是 三十五点一五 tox 每秒。也就是 dgs spark 和 a s max 三九五,它俩的性能是差不太多的。然后 max 九九 基本上属于完胜啊,在不管是模型的加载时间还是整体的呃, tps 输出速度 都遥遥领先。接下来我们看一下他们在 comu i 下的纹身图能力,在多肽的模型里,我们选择了比较主流的 flex, 在 comui 里加载我们已经设置好的 flex 纹身图工作流,让它去生成一张一九二零乘以一零八零的这么一个高清大图。好,下面三台机器我们同时按下启动键,三二一开始 让我们打开一下它的监视器,我们可以看到三台机器已经开始运转了,感觉压力瞬间就上来了。 amx 三九五加这台机器的风扇已经开始疯狂的运转了,我让大家感受一下 max studio 和 dj x spark 还是比较安静的, 可以看到三台机器现在的进度差不太多啊,感觉它们在生图这一块儿旗鼓相当哦,我们看到 d g s bug 是 第一个完成任务的 哦,这个结果还挺出人意料的。 ams 三九五加是第二个生成出来的, max studio 第三。然后我们可以看一下它们整体的生存时间, max studio 最终用时是三分二十二秒, a max 三九五是用了 两分三十二秒, b g s spark 用时一分三十五秒,哇,这一局的话, b g s spark 是 更胜一筹啊。跑得快当然不算本事,跑得稳才是硬道理。接下来我们准备玩票大的, 我们用三台机器做一个压力测试,让他们连续八小时不停的模型推理,来看看他们的稳定性到底如何。我们写了一个连续运行模型的脚本,我们现在还是三台机器同时启动。三二一开始 我们可以看到 max studio 的 第一个第一次任务已经执行成功了,是一共执行了十二次,成功了十二次,然后每个任务大概是五点二秒,然后我们下面看一下 d g x spark, d g x spark 一 共是执行了八次,成功了八次,每个用时是七秒。我们再看一下 ai max 加三九五, 一共是执行了七次,每次是八秒。我们现在可以听到 amx 加三九五的风扇声,是还是很明显的,我们来用手先摸一下它的温度,它虽然风很大,但是它的温度确实还挺低的。我们来看一下 max 九九。 max studio 现在已经有有一定的温度了,然后我们再测一下,哇,这么烫的吗?哇,这个温度,我,我们我们用专业的仪器来测一下吧。我们先把仪器开机, 用我们的专业仪器来看一下他们的表面温度和出风口温度。 可以看到这个 max studio 的 表面温度是,哎,在这是三十七度,三十七点五,三十三十八度,哇,它的温度还在上升,然后我们看一下它的出风口温度,大概是 四十二度左右。然后我们再看一下 ams 三九五加的这个机器,看它的温度明显就非常低,一共才二十七度。然后我们看一下它的出风口,即便是出风口也就才三十五六度这样子, 然后再看一下,哇,整个颜色都不一样了, 看它的表面温度已经达到了四十六度,四十七度,然后我们看一下它的出风口的位置就更高了吧,哇,已经达到五十四度了,怪不得那么烫。 现在看来 amx 加三九五的风扇还是很有效果的啊,整体来说温度最低,我们再等等,看看最后的效果。 eight hours later, 哈喽,我又回来了, 三台机器我们都已经完成了任务,我们看一下执行日制,我们先看一下第几个 spark, 看看他八个小时一共是执行了三千五百四十一条任务,而且每条都成功了,平均每条耗时是八点一三秒,这个成绩还是非常不错的。 我们再来看一下 amx 三九五吧。 amx 加三九五一共是八小时,一共是完成了三千零九十二条,整体是要逊色一些啊。 然后同样也都是都成功了,然后每条平均用时是九点三秒。好,最后我们来看一下 max studio 哦, max studio 就 比较强啊,他一共是八个小时,执行了五千七百七十六条,差不多是前两台机器的一点六倍左右,平均每条执行时间只有四点七秒。 哇,这个是非常厉害的,整体我们这轮评测基本就结束了,三台机器都很好的完成任务。总的来说,三台机器各有优缺点,适合的人群也不一样。 bgx spark 适合 ai 开发者和实验室,它的软硬件适配是最完美的,兼容性最好,虽然 linux 有 一些门槛,但它是最纯粹的 ai 工具。 ai max 加三九五适合学生和 ai 初学者。这台机器除了 ai 能力以外,还兼顾了 windows 的 生态,办公游戏两不误,最重要的是价格极具竞争力,性价比无敌。 max studio, 我 们在整体跑的过程中,它的能力和静音都非常震撼。除了我们体现的能力以外, max studio 在 视频和图形方面处理能力依然是行业的天花板,但在一些专业的 ai 框架,比如 v l m t r t l m 等支持就不是太好了, 更适合对 ai 能力要求没有那么高的小型工作室或者是视频处理团队以及 mac 环境的爱好者,所以你会选哪一台作为你的第一台个人超算呢?我们下期再见。