个人超算的时代真的来了,现在大家都在聊 ai 重构了一切,但到底什么被重构了呢?在我们 ai 实验室看来,最先被彻底重构的就是你正在用的 pc, 以前我们印象中的 pc 可能是这样的,或者是这样的, 但从去年下半年开始,我们 ai 实验室接触到的 pc 已经变成了这样的。 这台是英伟达的 d 七 x spark, 搭载 g b 幺零芯片, im 架构,一百二十八 g 统一内存,最高可以分配一百 g 以上的显存。基于乌班图的 d 七 x 系统,市场价三万两千九百九十九。这台是明凡 m s s e max, 搭载 amd amx 加三九五芯片叉八六架构,同样一百二十八 g 统一内存,最高可以分配九十六 g 的 现存 win 十一系统,市场价一万八千九百九十九。 最后这台大家就都不陌生了,苹果的 max 丢丢,搭载 m 三 os 芯片,九十六 g 统一内存, mac os 系统,市场价三万两千九百九十九。 作为个人超算的代表,这三台机器在 ai 能力上面谁更强,谁的性价比更高,我们决定跑一下 ai 任务看看效果。 整个 ai 任务我们选择了大家用的最多的,也是最基础的,一个是模型的推理能力,另一个是 comui 的 纹身图能力。 在模型推理上,我们选择了 gptos 一 百二十 b 的 模型,理论上这三台设备都可以轻松支持这个模型。而我们传统带显卡的电脑,比如说配备了十二 g 显存的五零七零显卡,最高也就能跑到类似于千万三十四 b 这样两级的模型。 因为 max studio 对 v l m 等其他模型推力框架支持的不够好,所以我们这里选择了三台机器都支持的欧拉玛作为模型的推力引擎。好,下面我们来试一下三台机器同时用欧拉玛启动。 g p t o s s 一 百二十 b, 我 们看一下模型的加载时间。好,我们现在准备开始计时三二一,我们可以看到模型已经开始加载了 哇, max studio 十四秒就已经加载完成了哦, d g x spark 也已经加载好了,总共用时十七秒。 我们先等一下, amx 加三九五。 ok, amx 加三九五,现在也已经好了,一共用时是四十一秒。 下面我们试试模型的推理,我们给三台机器同一个提示词,让他去帮我们写一段马年的春节祝福语,要求一千个字以上,我们同时启动。肉眼可见 max 丢丢的速度还是要远快于其他两台机器的啊,他现在已经马上生成好了。 好,我们现在看一下它的 tft, 也就是它的手套啃延时是一点零八秒,但是它的 tps 达到了惊人的六十五点九五 top 每秒。好,我们看一下 dgs spark, 现在它已经生成好了,它的 tft 是 零点四三秒。 哇,好快,它的 tps 是 三十五点五三 tox 每秒。最后我们来看一下 amx 加三九五,它的 tft 是 零点五二四秒, 然后 tps 是 三十五点一五 tox 每秒。也就是 dgs spark 和 a s max 三九五,它俩的性能是差不太多的。然后 max 九九 基本上属于完胜啊,在不管是模型的加载时间还是整体的呃, tps 输出速度 都遥遥领先。接下来我们看一下他们在 comu i 下的纹身图能力,在多肽的模型里,我们选择了比较主流的 flex, 在 comui 里加载我们已经设置好的 flex 纹身图工作流,让它去生成一张一九二零乘以一零八零的这么一个高清大图。好,下面三台机器我们同时按下启动键,三二一开始 让我们打开一下它的监视器,我们可以看到三台机器已经开始运转了,感觉压力瞬间就上来了。 amx 三九五加这台机器的风扇已经开始疯狂的运转了,我让大家感受一下 max studio 和 dj x spark 还是比较安静的, 可以看到三台机器现在的进度差不太多啊,感觉它们在生图这一块儿旗鼓相当哦,我们看到 d g s bug 是 第一个完成任务的 哦,这个结果还挺出人意料的。 ams 三九五加是第二个生成出来的, max studio 第三。然后我们可以看一下它们整体的生存时间, max studio 最终用时是三分二十二秒, a max 三九五是用了 两分三十二秒, b g s spark 用时一分三十五秒,哇,这一局的话, b g s spark 是 更胜一筹啊。跑得快当然不算本事,跑得稳才是硬道理。接下来我们准备玩票大的, 我们用三台机器做一个压力测试,让他们连续八小时不停的模型推理,来看看他们的稳定性到底如何。我们写了一个连续运行模型的脚本,我们现在还是三台机器同时启动。三二一开始 我们可以看到 max studio 的 第一个第一次任务已经执行成功了,是一共执行了十二次,成功了十二次,然后每个任务大概是五点二秒,然后我们下面看一下 d g x spark, d g x spark 一 共是执行了八次,成功了八次,每个用时是七秒。我们再看一下 ai max 加三九五, 一共是执行了七次,每次是八秒。我们现在可以听到 amx 加三九五的风扇声,是还是很明显的,我们来用手先摸一下它的温度,它虽然风很大,但是它的温度确实还挺低的。我们来看一下 max 九九。 max studio 现在已经有有一定的温度了,然后我们再测一下,哇,这么烫的吗?哇,这个温度,我,我们我们用专业的仪器来测一下吧。我们先把仪器开机, 用我们的专业仪器来看一下他们的表面温度和出风口温度。 可以看到这个 max studio 的 表面温度是,哎,在这是三十七度,三十七点五,三十三十八度,哇,它的温度还在上升,然后我们看一下它的出风口温度,大概是 四十二度左右。然后我们再看一下 ams 三九五加的这个机器,看它的温度明显就非常低,一共才二十七度。然后我们看一下它的出风口,即便是出风口也就才三十五六度这样子, 然后再看一下,哇,整个颜色都不一样了, 看它的表面温度已经达到了四十六度,四十七度,然后我们看一下它的出风口的位置就更高了吧,哇,已经达到五十四度了,怪不得那么烫。 现在看来 amx 加三九五的风扇还是很有效果的啊,整体来说温度最低,我们再等等,看看最后的效果。 eight hours later, 哈喽,我又回来了, 三台机器我们都已经完成了任务,我们看一下执行日制,我们先看一下第几个 spark, 看看他八个小时一共是执行了三千五百四十一条任务,而且每条都成功了,平均每条耗时是八点一三秒,这个成绩还是非常不错的。 我们再来看一下 amx 三九五吧。 amx 加三九五一共是八小时,一共是完成了三千零九十二条,整体是要逊色一些啊。 然后同样也都是都成功了,然后每条平均用时是九点三秒。好,最后我们来看一下 max studio 哦, max studio 就 比较强啊,他一共是八个小时,执行了五千七百七十六条,差不多是前两台机器的一点六倍左右,平均每条执行时间只有四点七秒。 哇,这个是非常厉害的,整体我们这轮评测基本就结束了,三台机器都很好的完成任务。总的来说,三台机器各有优缺点,适合的人群也不一样。 bgx spark 适合 ai 开发者和实验室,它的软硬件适配是最完美的,兼容性最好,虽然 linux 有 一些门槛,但它是最纯粹的 ai 工具。 ai max 加三九五适合学生和 ai 初学者。这台机器除了 ai 能力以外,还兼顾了 windows 的 生态,办公游戏两不误,最重要的是价格极具竞争力,性价比无敌。 max studio, 我 们在整体跑的过程中,它的能力和静音都非常震撼。除了我们体现的能力以外, max studio 在 视频和图形方面处理能力依然是行业的天花板,但在一些专业的 ai 框架,比如 v l m t r t l m 等支持就不是太好了, 更适合对 ai 能力要求没有那么高的小型工作室或者是视频处理团队以及 mac 环境的爱好者,所以你会选哪一台作为你的第一台个人超算呢?我们下期再见。
粉丝723获赞1330

二十年后的世界会变成什么样呢?大家好,我是李斯比,英伟达突然给我寄来了一款非常特别的奇怪的产品。通常我们提到英伟达,大家首先想到的都是显卡,但这次英伟达是下了决心,寄来了一台面向开发者的超级计算机,而且它还不是用于一般用途的。 你看最近 ai 不是 特别火吗?所以为了 ai 开发者,或者说为了那些疯狂的 ai 集客们,他们推出了一款电脑。今天我们就来开箱英伟达的 dj xbox。 首先,因为这是英伟达新出的产品,我特意换了手柄,但不知道能不能好好驾驭它。怎么说呢,这个产品你可以把它想象成是把一个巨大的数据中心压缩后放到了我房间的书桌上,这样理解起来就容易多了。你看英伟达的官方说明也写着,这是一台桌面级 ai 超级计算机, 我们来拆开看看吧。据我所知,他在韩国也进行了预售,在美国的发布价格是七百五十万韩元, 这可不是开玩笑的,这个价格大概是大家觉得很贵的 rtx 五千零九十显卡的两倍左右。 rtx 五千零九十是用于游戏和 ai 预算的,而它从一开始就是为了 ai 预算而打造的专用设备。 可以这么理解,虽然我是从英伟达收到的,但其他品牌也在用这个芯片制作类似的桌面超级计算机。为了包装盒的大小,里面的东西其实没想象中那么大, 就是这个,这个 flag, flag, 哇哦,包装也做得很精致。桌面超级计算机,英伟达的 exfoliating space 什么来着? exfoliating space a 产品包装上写着需要敲击的电源 防窃电标签。 usb 集线器大概是这样用的吧,你看它的系统内存,有十八个,都集成在这里面,是共享使用的系统。 这不是装在显卡上的那种普通的 ddr 内存,而是低功耗的 l p ddr 五 x 内存,这点有点特别。 通过网络接口控制器,它大概可以把多台电脑连接起来,实现这个功能。待宽是每秒字结束,这大概就是指待宽的意思吧。好了,我们拆开吧。 ai 开发者们需要这样的产品,所以才有了它,对吧?因为要用数据中心的话,无论是成本还是自己搭建,嗯,时间各方面负担都很大。 而如果买显卡来组装电脑,又有点不上不下的,这似乎就是为那样的人群打造的哇,包装也做的非常简洁干净,真漂亮,和苹果的 mac mini 比起来 感觉也毫不逊色。这真的是超级计算机吗?可能会有人这么问吧,我一开始看到的时候也在想,这是什么啊,就像那种高级音响或者发烧级设备,你知道吗?为了质感,是用金属做的,所以我本来想悄悄看,但这是一体成型的。一体成型 感觉有点像烟台,烟台整体上为了体现超级计算机的感觉,全都用了金属材质,底部是凸起设计的。这里写着幺零零 v 吗?幺零零 v 或者宽电压,这里是这里有通风口,上下都有。再看看接口, 哇,这些接口都是金色的,镀金做的,真漂亮。有四个 usb c 接口,一个 hdmi, 还有一个网口,然后当你需要连接扩展物来使用时,就是用这个接口,尺寸比 mac mini 稍微大一点, 但也能轻松拿起来,不过重量相当可观,据说大概有十二公斤,相当有分量,但质感非常好。 要和 mac mini 对 比一下吗? mac mini 感觉也差不多贵呢。哦,质感真的很高。乍一看 spark 显得更大一些,但它依然非常纤薄紧凑,作为超级计算机来说,真的非常小巧。里面还有配件吗?嗯,有这些, 因为我们是直接从海外厂商那里收到了产品,所以不是韩国的电源线,而且现在有点尴尬的是,电源线插哪里来着?幺零零 b 的 啊,真的?嗯啊,不过电源不是内置的啊, 配了一个幺零零瓦的电源适配器,不过也做的很简洁,电源是二十四针的。二十四针 超级计算机用二十四针电源的话,感觉功耗也没有想象中那么高。好了,开箱就到这里。那么像 spark 这样的产品到底谁会买呢?简单来说吧,我们常用的像叉七 p t 这种东西可不是凭空出现的, 他需要在数据中心里进行海量数据训练才能变得聪明。但像谷歌这样的大公司,资金雄厚,自己建数据中心比较有优势。而对于个人或中小企业来说,要搭建一个数据中心几乎是不可能的。 所以以前得花大价钱去租用云服务,也就是用别人的服务器。于是英伟达为了解决这种不便,让大家不用去借别人的,而是可以放在自己桌上,就推出了 d g x spark 这样的产品。这样理解是不是容易多了? spark, 因为它其实不是用于游戏的,我们讨论它的性能,嗯,可能意义 嗯,不大,但它的内存宽带是二四零 gps, 这个速度怎么样呢?用于数据中心或 ai 运算的 高端工作站其实非常耗电,光是内存部分功耗就非常高,但它的特点是采用了低功耗设计。 不过最大的问题是刚才提到的内存贷宽,我的意思是他的内存贷宽,你看这个贷宽速度只有二七三 g b s, 连三百都不到,那这到底有多慢呢?高端的工作站 是有内存贷宽的,比如是六千吗?相比之下要慢九十五倍的内存贷宽。 贷宽确实比较慢,虽然他有点尴尬,但总之大概有六十五倍的差距。那么贷宽有差距的话,会有什么不同呢? ai 在 回答问题时,生成答案的速度会变得非常慢,比如说贷宽足够的话,答案会刷刷刷的 快速显示出来,而他呢?哒哒哒哒哒。对,就像这样,如果内存宽带不足,就会出现这种差异。不过考虑到现在的价格,因为它有价格优势,感觉也还可以接受。我们需要把这个东西 长时间使用一下,才能真正了解它的价值,所以我们会使用一段时间之后再回来分享。距离用英伟达 djx spark 进行开箱已经过去差不多两个月了。呃,为什么两个月后才继续拍摄呢?首先,收到了这么有趣的产品,总得用用看吧。而且 ai 领域我又不太懂, 所以边学习边尝试各种东西,就花了比较长的时间。所以对于 ai 专家们来说,这可能会是个让人着急的视频。如果我在视频里有任何错误,请在评论区告诉我,因为我们团队现在也在学习,会很有帮助的。 那么现在当我将这台 d g x spark 连接到显示器时,它已经预装了 一个叫做 d g x spark o s 的 系统,是基于 linux 的 默认壁纸,因为是英伟达 ai 为 spark 定制的,所以显示的是英伟达 ai 的 logo, 这个也有亮色和暗色模式,根据这个切换, 感觉还挺酷的。菜单栏在左边,可以从这里使用。那怎么控制这个呢?有一个叫 d g x dashboard 的 东西,在这里可以看到实时内存或者实时的 gpu 使用率这两项信息 哦。这里还有些更新或者 gpu 使用率,还有其他一些信息,不过它最核心的是内存使用率,所以只显示了这个,进入设置的话 有系统更新等等这些基本功能。第一次使用这种产品时,觉得不错的一点是有个资源选项,点击资源,然后有个入门指南,即使是新手也能轻松跟着做的。 这种指南他都提供了,一开始做的话,有这种五分钟完成或三十分钟完成,但指南提供给你,这个比想象中要好。虽然这些内容都是英文的, 但现在网页翻译做的非常好,所以使用起来没有太大问题。他简单的写着运行起来, 还有安装可以运行 l m 模型的指南,这个也写着大约十五分钟就能完成。甚至他提供的指南几乎是手把手级别的,因为我们都是新手,就努力跟着做,在 spark 上安装尝试了很多东西。另外英伟达还有个叫 sinclair 的 东西, 这个其实是用于远程访问的,可以从其他电脑远程控制它的功能也能安装, 所以最终我们很好奇 ai 在 本地运行的怎么样,就简单地做了运行 lm 模型的测试。说到这个 lm, 你 可以把它想象成类似 chart gpt 那 样的东西,就容易理解了。测试用了两种模型,首先是制作 chart gpt 的 openai 推出的开源模型,我们用了 chatptos, 这里有小而快的版本二十 b, 以及虽然笨重但更聪明的幺二零 b, 用这两个模型进行了测试。这里的 b 指的是参数数量,这个数字越大,通常性能越高。 那是不是越大就一定越好呢?也不尽然,因为参数越大,消耗的资源也越多,性能也不一定就更好 好。这是一个终端界面,我们也用 ai 做了个启动器,这里欧拉玛已经安装好了,这是用来查看它的网页界面,通过访问链接进去,这里已经安装了很多东西,但我们测试的是 gptos, 所以 选择这个。 在这里就像问 chat gpt 一 样,随便问问题就行。不过这不是在服务器上运行,我们是在它内部的服务器 上运行的。问, lg 的 hicks 是 什么?最近 hicks 的 热度不是很高吗?哦,回答的不错,总之就是这样使用的,光这样运行,不知道它性能到底如何。所以我们用工作室里的 高端工作站电脑,用幺二零 b 参数模型做了对比测试。不过事先声明一下,性能本身就这款 sp 五千零九十级别的,但因为集成了十八 gb 内存, 从这两点来看,规格其实是更低的。首先从提问到开始出现回答的时间来比较的话, spark 是 零零 s, 对 比电脑是零一秒,其实两者回答都非常快,但只看数字的话,因为回答的极快, spark 稍微快一点,大概快二倍左右吧,可以这么说吗?第二,我们看了模型输出答案的速度,这个数值是以每秒生成的词元素来显示的,也就是说这个数值越高,输出答案的速度就越快。 这个也是 rtx 五千零九十,对比电脑的数值大概高了四倍左右。什么? spark 是 专用设备,性能看起来却不怎么样, 可能会有人问,那到底为什么要用它呢?但前面是用二十 b 模型运行的,因为参数没那么大,所以结果出来了。但如果不是用二十 b, 而是用幺二零 b 运行呢? 那么 spark 开始输出答案的瞬间是零两秒,而 rtx 五千零九十是四十四秒,这里 spark 的 答案出现的快得多,在输出速度方面, spark 也快了大约三倍以上。 那么这里会产生疑问,参数数量增加了,为什么反而逆转了呢?如果这么问的话,了解原因会很有趣。运行 ai 需要 gpu, 也就是显卡的计算能力, 这里显卡的显存容量也很重要,所以很多 ai 公司现在都在疯狂购买内存,这也是内存价格疯涨的原因之一。炸鸡店老板转行卖显卡也是因为这个需求。那么我们来更简单的解释一下这个需求。以 rtx 五千零九十为例,它是目前消费级显卡中最高端的显卡, 你可以把它想象成类似跑车的感觉,也就是说性能非常好,非常快,但是车内储物空间非常小。因为是跑车嘛,所以搭载二十 b 这样的小模型没问题,跑车的引擎搭载他毫无压力, 可以飞快地跑起来,但因为它无法一次性搭载幺二零 b 这样的大模型,就像只把模型的一部分放在跑车里,剩下的部分用跑车后面的拖车拉着走,所以速度就变慢了。特别是 openai 的 gptos 里有说明,它建议的内存,对于二十 b 模型是十六 gb, 对 于幺二零 b 模型是八十 gb。 rtx 五千零九十的显存是三十 gb, 所以 运行二十 b 是 足够的, 但运行幺二零 b 就 不够了。而 spark 的 情况正如前面所说,内存很特别,它搭载了十八 gb 对 吧?这十八 gb 是 显卡和系统集成共强使用的,所以虽然预算性能不如五千零九十,但这个内存容量是巨大的。 那么用这个能做什么呢?就像我们刚才说的,只是运行模型的话,也足够用了。优点是因为它不需要网络,只在本地运行, 所以可以在需要保密的地方使用。这是个优点,我们工作时会用到很多有用的程序,比如 meta 出的 sim 模型。利用这个模型,如果我们有视频,可以轻松地把人物单独抠出来,这些也可以在内部运行,而且还能用 ai 模仿,声音 虽然不完美,但现在这个也是用 ai 做的。听起来有点像吗?还有,最近不是有个叫 anova 的 吗?像那样的图像生成也可以生成指令,画一个在湖边钓鱼的超级英雄对像。这样无需联网就在内部运行 使用的内存生成张张图片也用了三十多 gb 哦,已经超过一 gb 了, 虽然不是想要的图片,但它是这样生成的。还有用 ai 控制姿势的也有,比如只拍了一张正面照,也能把它变成像是从侧面拍的照片。还有这个叫 whisper studio pro 的, 它是用来生成 ai 字幕的, 我们拍过的视频像这样的可以用 ai 自动生成字幕,这个功能也可以在内部使用。还有一个使用这种设备的重要原因,我们也尝试了微调,这个微调又是什么呢? 就是按照我想要的意图,对模型本身进行细微调整。这个微调我们也照着 playbook 上写的尝试了,上面写着要用 pie torch lightning cool 查了一下,简单说就是一个用于构建 ai 的 机器学习工具。我们上次试过的特斯拉 fsd 据说也是用它来训练的, 所以我们也准备了要训练的数据集和一个擅长韩语的 l m 模型。尝试了一下,想着用这种方式打造一个我们自己的 ai。 但结果嘛,先说结论,因为我 ai 水平太菜了,失败了。 与其说没成功,问题是一回答就变成这样了,他好像完全坏掉了,根本不知道在说什么。怎么会这样?我也问了问 ai 专家朋友,他说是因为学习数据量太少,持续用这个数据训练,好像就产生了过你核现象, 所以这不是我们这种新手能解决的问题,如果哪位有解决方法,请在评论区告诉我。所以看了这期视频就会明白,像 dj spark 这样的产品,对我们这样的普通人来说,门槛还是有点高, 它更适合那些开发或测试本地 ai 模型的开发者,或者觉得云服务成本或数据输出有负担的初创企业,又或者是像视频公司那样 想简单买台迷你 pc 来用,大概是这种感觉的产品吧。另外, spark 的 优点是什么?因为内存容量大,可以同时加载运行多个模型,这也是它的一个优点。 总之,从价格上看,它的 m s r p 是 三九九九美元。如果当做普通 pc 的 价格来看,当然会觉得贵,但如果把节省的云服务重复费用和开发时间算进去,它也是一台不错的 pc。 pc 的 寿命两边都挺微妙的。总之,今天的内容就到这里。最近 ai 的 话题一直很热, 我感觉自己也在不断学习,尝试了各种工具,对这些东西有了一些了解。虽然还没能幺零零地充分利用,但只要持续做这类评测,以后应该会做得更好吧, 反应好像不怎么样呢。总之,随着 ai 不 断发展,未来会有更多有用且益于使用的东西出现。
