当前拆的 gpt 四训练需要两万五千张 a 百显卡九十到一百天,利用率在百分之三十二到百分之三十六之间,训练成本对应六千三百万美元。如果我使用 h 一百, 需要八千一百九十二张,训练五十五天,训练成本对应两千一百五十万美元。从推理成本来看, h 一百在高频次调用性价比显著。美塔年底拥有超过十万个 h 一百 单,集群规模超过两万五千张,会使用 h 一百来做推理。同时年底有超过九家公司拥有万卡 h 一百集群, 即可进行 gbt 四的训练。云厂商会基于 h 一百的构建万卡集群。 ndr 价格与八百 g 比例关系为一比三。 近期光模块的加单可能与死因有关。 mata 的集群应该是整套向英伟达购买的,原厂商偏向用 h 一百进行推理。此前英伟达推出了面向视频、图像、文本以及决策提供不同推理方案, 且 h 一百的推理性价比更高。使用 h 一百推理也需要八百 g 的光模块。目前推理的调用没有达到满复合、 open、 ai 等 air level, 会在空闲时解放一些芯片做小模型的训练,因此整体架构可能还是会以 ndr 为主。 因为 h 一百可以参与训练和推理,所以集群设计成 ndr 的架构会更灵活。后续运营厂商的自研芯片 可以用来做推理,再采用不同的架构。后续将持续关注人工智能行业最新发展动态,相关光模块投资信息可点赞加关注。
粉丝54获赞114

火爆全网的 chat gpt 似乎敲开了第四次工业革命的大门,然而由于 open ai 没有开源,想要训练出自己的大模型仿佛就是天方夜谭。这家名为 coloso ai 的外国公司宣布研究出了一套快速、低成本复现 chat gpt 的方法, 并将它开源在了 github 上。这套方法基于拍 touch 的 check g p t, 复线流程涵盖了全部三个阶段,可实现从域训练模型到 check g p t 的蜕变,而且体验最小,呆默训练流程最低仅需要一点六二 g b, 现存 任意一张消费级的 gpu 都能满足条件,这也就意味着大部分带了独立显卡的电脑都可以参与到开发当中来。而且在训练速度上, coloso ai 也花了大功夫,相比原声拍拓去最高可提升单机训练速度 七点七三倍,单卡推理速度一点四二倍,一行代码即可使用。尽管此次开源包含了复线的 chat g b t。 的完整算法流程和必要软件系统,但对于训练出 chat g b t 同等水平的超大 ai 模型,还得依靠海量的数据和算力支撑。 但这没有关系,随着越来越多的资源贡献和志愿者的加入,每个人都有机会参与其中,一起拥抱大模型时代。我是造车的小爱姐姐,想要了解更多就关注我吧!

你知道吗?一万张 a 一百显卡才能驾驭 cheer gbt 这样的 ai 巨头。在如今这个 ai 风靡全球的时代,大家都想搭上这辆快车,但是要达到 cheer gbt 这样的 ai, 你得先拥有足够强大的专利,而这其中最关键的就是因为拿的 a 一百加速计算卡。据说国内只有六家顶尖公司才具有这个实力,分别是商汤、百度、腾讯、 自建、阿里和换方。其中百度已经发布了自家确认基本金对标产品。闻新一言,第一百这款显卡是于二零二零年五月发布的,是安培加购第一款产品。这款显卡采用的是七纳米工艺制造,五百四十二亿个晶体款,拥有两种不同的规格, cie 版本适用于各种服务器和工作站设计,而 s 叉 n 版本更适合高性能计算环境和大规模数据中心服务器。 小姐,目前阿里的云上已经存储了上万块 a 一百的算力,而今年初百度还紧急下单了几千台 a 八百服务器,算力的竞争越来越激烈了。 ai 时代到底哪家公司会脱颖而出呢?我们保持继续关注和期待。

还是接上一期视频,很多网友答对了,这的确是一张运算卡,主要的使用场景呢,就是人工智能的 ai 深度学习卡,比如现在非常流行的人工智能差的 gpt, 早期的训练模型就是使用的英伟达 v 一百和这款 k 八零的两款显卡。最新的叉的七 pt 四已经开始使用 a 一百和 h 一百来进行 ai 模拟训练了,而后者的两个显卡已经被美国限制出口到中国了。这两个显卡虽然在超创领域神一样的存在,并且二十四万的天价在此之前还需要排队购买,那现在排队也买不到了。 不过办法总比困难多,我们手里的一些数据中心客户就在新加坡开了分站,把部分的 ai 人工智能训练项目搬迁过去,然后获得数据再返回来。 回过头来,我们再说一下手里的这个 k 八零,这类显卡也可以用作其他的大型数据运算,早期的英美达特斯拉 k 系列都是其余开普勒加过的高技能显卡。这个 k 八零在之前晚上也是人称双星河的,使用了两颗机 k 二幺零的显卡芯片以及二十四 g 的显存,也有很多人模改成普通显卡,但是多多少少都会有些 bug, 不太建议个人去改。我个人比较感叹的是,这类企业级的显卡,即便是经过了几年的使用,再流入到民用市场,也可以看看这些参数依然强大。再比如说最新被美国限制出口的 h 一百超算显卡, 仅仅是显存就已经达到了八十七,显卡的带宽更是达到了变态的三 tp 每秒。我估计五年之后我们在民用市场能买到最大显存的也肯定达不到八十七。

朋友们,大家好,很高兴您能看到这个视频。因此,英伟达刚刚打破了一项令人难以自信的记录,并再次证明他们拥有全世界最好的 aigpu。 为了设定这一基准,英伟达使用名为 cover with 云提工商组合了三千五百八十四个 ag 百 gpu。 他们试图看看训练左右跟三的速度有多快。跟三是 open ai 的叉 x 的早期版本。我们将讨论实际上对此进行基准测试的第三方组织。 但他们将大量 ag 一百 gpu 的显卡与类似数量的英伟达 a 零零八十 gb 显卡和 v 一百 gpu 进行的比较。后者基本上是三年焊,大约六年前的最先进技术。 令人疯狂的是, ag 一百能够在短短四十六小时内训练完所有的三,这简直是太疯狂了。与 a 百 s 相比, a 一百 s 大约需要三十六天。因此,疯狂的是 ag 百,尽管它具有相同数量的物理基 pu, 实际上消耗的电量更少,但速度却比之前最先进的技术快了近二十倍。这完全是疯狂的 v 一百实际上花了五十一天。这是一个相当大的集群, 大多数人实际上无法想象拥有三千五百个当今人类可用的最先进 gpu 的成本。然而,这一进步提出了一些有趣的问题。根据我们现在从英伟达了解到的信息,我们实际上可以在这里提取一些非常有趣的见解。首先,很多人会问, imd 能与之竞争吗? 尽管这件事发生的时间令人印象深刻,对吧?这个大型模型需要四十六小时才能完成,五年前还需要近两个月的时间来训练。 这里的问题是,是怎么让这成为可能?真正的答案不仅仅是 g p u, 甚至有英伟达创建汉策划的平台网络汉软件使这一切成为可能。因此,尽管安安地推出了一 些有趣的新加速器,例如命二五零零焊三千,但这里的区别在于,即使 gpu 很快,行业标准是英伟达最好的软件,也是英伟达最好的开发人员正在使用它。因此,如果你要出去选择这个,你知道这是有一点风险的,而且它是不同的, 其实性能相同。这种基准测试实际上还没有被证明可以在 imd 上运行。而 md 的另一件奇怪的事情是,现在他们正试图更加认真的对待这一问题。这实际上增强了英伟达的地位,因为这时的英伟达在 i 领域的能力方面看起来不那么垄断。 还有其他一些问题。那么一个问题是,摩尔定律真的变得更快了吗?令人好奇的是,摩尔定律在技术上已经放缓,因此,使用 gpu 进行一万一次浮点运算的成本还相对密度并没有太大变化,它的移动速度比过去几十年要慢。然而, 重要的不一定是机身密度或我们消耗了多少能量,而是他的扩展能力,因为打手是展示了他们最高端的 gpu。 最重要的是他们的新英菲尼般的接口,这是一组将所有这些 gpu 连接在一起的光纤,因此,您可以将他们视为一个大型 gpu。 他们已经实现了接近线性的缩放。 因此,如果将五十个 a g 一百与一百个 a g 一百进行比较,线性缩放意味着一百个 a g 一百的速度是五十个 a g 一百的两倍。如果再添加一百个,那么两百个 a g 一百的速度将是一百个 a g 一百的两倍。对于我们这些记得英伟达诗意时代的人来说, 您最多可以将四个 g t x 五八零放在一起,或两个 g t x 五九零。这在我们拥有双 g p u 卡时就已经存在了。您会记得,在玩游戏时,两个 g p u 可能会比单个 g p u 提高百分之四十的性能。添加三分之一,你知道可能是微不足道的百分之十 十二到百分之十四。如果你只是一个玩家,并且有足够的钱购买四块 gtix 五八零,那么在大多数游戏中,第四块完整的 gtx 五八零可能只会再给你带来百分之八的性能提升,通常会更少。 这是非线性缩放的一个例子。所以基本上,当你添加更多的卡时,每增加一张卡回报就会减少。这就是为什么这很疯狂,因为打野经证明,是的,我们可以将三千五百个这些组合在一起,并实现近乎线性的缩放。因此,如果你有六千个 您知道限制,实际上取决于你拥有多少能源,建筑物中有多少空间,以及因为达英菲尼般的接口的突破点。这也是他们对麦的那次进行巨额投资的原因。这是一家只生产网络基础设施的公司。另一个很酷的事情是,他没有在 spc 集群上进行训练。这实际上是一个动态分配的集群,来自于 一家名为 cooperate 的云提工商,该提工商实际上专注于 gpu 集权。我认为值得一提的另一件事是,这里使用的基准是来自一个名为 mlpf 的独立组织的基准。因此,每年他们都会聚集在一起创建一些通用的 ego 基准测试。他们认为这些基准测试可以很好的了解。 如果你大规模运行这些基准测试,就可以了解当年运行他们的硬件有多好。这可能包括循环神经网络,更能,甚至今年的一些真诚人工智能。 有趣的是,你知道 bc 公司专注于定制加速器,例如有点像特斯拉所做的海湾地区,还有其他一些小公司说,哦,好吧,我们将专注于 vlos, 或者我们将专注于某些特定的行业领域。这很有趣,因为对于那些知道 sic 是什么的人来说, sic 是专用级乘电路。所以你知道,对于普通用户来说, 他们实际上只能很好的完成一件事。从技术上讲,英伟达 gpu 是一种 a s i c, 因为他可以很好地执行并行计算。然而,他们稍微更通用一些。这是在你看到 f p g a 之前的情况。 f p g a 的速度要慢得多,因此,英伟达在他们的芯片中找到了这些东西的平衡。 真正酷的是,他们实际上在 mlpf 基准测试的每个类别中都获得了最佳成绩。该基准测试具体称为 mlpf 三点零。 而且如果你去毫升敲门爽站,你实际上可以查看三点零的结果。这些结果都是由英伟达持有的。这里实际上是多种系统的混合体,所以就有了云实力,还有一些本地实力按时机构建服务器的人员进行细分。 因此,如果您决定花费数千万或数亿美元购买设备,这也很酷。你可以看看什么是最好的。你甚至可以将它与 伟达自己的硬件进行比较,他们拥有配备多种不同 cpu 的 d, g, x, h 一百。英伟达不仅在训练科三的速度方面击败了竞争对手,我认为这是最相关的,也是我们观众最容易理解的。但是是的,他们在每个类别中都做到了这一点。 因此认为目前在人工智能方面还有其他公司能比英伟达做得更好的,那就夸张了。当然,如果没有某种气候角度来看待这个问题,就不会是二零二三年这种密度的。有趣之处在于,您确实开始将英伟达 gpu 视为提高效率的最佳选择之一。我也知道 number 也有一些 a 之一百, 他们的人数很少,我想现在有几万,而且规模只会越来越大。再说一次,这更像是一个技术视频。但我认为观看这个视频非常酷,因为它显示了英伟达相对 imd 的领先优势。这表明英伟达在这里创建的生态系统正在发挥作用,并且经第三方机构验证无疑是 最好的。那么,请告诉我您对 ag 版的看法呢?可以在评论区一起讨论。一如既往,我希望能学到更多一些东西。如果您喜欢我们的内容,请点赞并关注,谢谢。他对我们帮助很大,我们将在下一个视频中见到您。

网上一些数据说一个六 b 的模型用一个四零九零显卡,一个晚上三五个小时就可以训练好了,大家就以为训练模型一次就可以成功,真的是这样吗?我看到一个大厂大概有十个项目组,他们十个项目组 经常迭代模型,到最后一个都没有真正落入生产环境,也就是说训练完成模型和训练完一个可用的模型差距是非常大的。

ai 训练科学计算都用什么显卡?我们来问一下 ai, 看一下他怎么说。亲爱的 gbt 最近爆火的语言模型。首先我问他训练你的显卡具体是哪一款呢?这家伙很鸡贼,还知道要保密,那我们换一种问法,让他给几个参考答案。 这一次我们获得了一些有效的信息,他列举了 n 卡的特斯拉 v 一百,特斯拉 p 一百,三零九零等显卡型号。接下来我就问他有没有更厉害的型号呢?他列举了 n 卡的 a 百, v 百 s 和 a 卡的 n m i 两百这几张计算卡。 那为什么训练 ai 都会使用这种专业的计算卡呢?要知道 a 一百的价格可是四零九零的五倍啊。确定 g b t 很快的给出了答案, 第一是因为计算能力,尤其是浮点运算能力和矩阵运算能力非常强。第二是由于他的显存和带宽非常高,训练速度很快。好,那么在 ai 的帮助下,我们解决了这期视频的内容,感觉自己就快要失业了,以后这里挂个机器人就可以拍视频了。 不过还好,他的数据只截止到二一年,我还可以说些他不知道的。目前比 a 一百更厉害的 h 一百也已经做出来了,被广泛的应用于各种高端科研领域。未来 ai 呢,可能会在 gpu 的帮助下越来越强大。要不咱就是说回去问一下自家的显卡能不能也练个 ai 出来。

最近火爆全球的聊天机器人 chin gpt 让常人都感受到了 ai 的强大,有人说 gpt 四的知识已经超过了一个 stepford 学生,智力水平也接近了。其实 chipgpt 成功的背后和游戏是分不开的。为什么这么说呢?我是 stenford 机器人跑魔师,下面就听我在硅谷给你解读。 叉 t p t 是我们人类造出的最复杂的程序,它实际上是一个超大的深度学习模型。深度学习的模型就像人脑的神经元和神经链接,从数学上来讲就是很多矩阵的相乘和相加。叉 t p t 有一千七百多亿个参数, 模型的大小是五百七十 g b, 这个需要一个超级计算机才能够运行。叉 g b t 以及所有深度学习模型的训练都是在 g p u 上完成的,也就是中文里所说的显卡,而不是在 c p u 上。说到显卡,打过游戏 的人都知道了,那为什么深度学习的训练要在玩游戏的显卡上来做呢?这个要把时间回溯到上世纪九十年代,当时微软的 windows 试窗刚出现图形模式,屏幕上的每个像素是什么颜色都要实时计算, 幺零二四乘七六八的屏就有五百多万的像素需要计算,而且每秒至少要算二十四次,这样 cpu 吃不消了。这就催生了硅谷的一些创业公司,其中之一就是我们三佛接触校友黄仁勋,也就是我们爱称的黄教主所创立的 nba 英伟达。 cpu 是一条指令,对应一条数据, rcpu 在做三 d 渲染时,也就是在计算每个像素的值的时候,所遵循的公式是一样的,只是数据不同而已,这就比 cpu 简单很多,所以可以有很多个计算和大家一起算,这样几百万像素的计算就可以做到实时了。这个就叫 s md, 一条指令对应很多数据。而随着游戏行业的发展,大家为了追求更真实和实时的体验,对算力也提出了更高的要求,这就推动 gpu 不断提高算力和越来越多,每个核的计算能力也越来越强。 我当时就想到可以利用 gpu 的算力和并行运算来做图像拼接的计算,并在全球第一个把它用到了 b 超仪器上,类似现在 iphone 上的全景照相。后来英伟达也认识到了这一点,推出了哭档。这是一个通用的并行编程语言, gpu 一下子就可以用到各种科学计算上了。 这时候在加拿大的一个小城里,有一个出生在前苏联的犹太人,刚刚在三佛大学 ai 大牛文达手下做两个月的博士后,他叫 a 列,他要用神经网络做图像识别。最大的问题就是 cpu 算的太慢,一个同事告诉他可以 是用 gpu 来计算,他一试果然加速了上百倍。因为深度学习里的计算基本上就是矩阵运算,这个是 gpu 最擅长的之一。威廉后来又在两个 step 辍学生马斯克和奥特曼的劝说下,在二零一五年一起成立了 openai。 黄教主这次给 openna 送来了英伟达的 gpu 做成的超级计算机,最终拆 tpt 是用了上万个英伟达的 gpu 做训练,训练一次要跑一个多月。目前全球百分之九十五的深度学习训练都是在英伟达的 gpu 上做的,但是他的游戏业务还是有很高占比约百分之四十, 所以给他的研发输送了不少弹药。目前 gpu 在深入学习的训练上的速度比 cpu 一般都要快一百倍以上,按照半导体的摩尔定律, cpu 每两年的算力提高一倍,十年才会提高六十四倍。所以没有油气产业的市场 需求和资金来推动 gpo 的发展,拆 gpd 的出现至少要晚十年以上。现在你知道拆 gpd 的出现和你打游戏买显卡的贡献密不可分了吧。 其实游戏不只是在 tpu 的硬件上帮助了 ai 的发展,在软件和算法上也帮助了人工智能的进步,尤其是在机器人上。比如说你一定点赞过波士顿动力的机器人,他的翻腾跳跃比人都牛,但背后实际上是无穷次的失败,因为双足和四足机器人的编程太难了。 英伟达为此提供了一个类似游戏的虚拟环境 omniverse, 让虚拟的机器人可以在里面训练。瑞士的苏黎世理工就是用这个 omniverse 训练了他们的四足机器人 animo, 这个是使用深度学习中的加强训练 格的阿尔法扣就是用这种训练方法训练出来的,而且战胜了围棋世界冠军李氏时。但这个方法需要积极 些人试过所有的可能,说实话,这只能是在虚拟环境中,要是在真实世界里,那这只狗不知道要牺牲多少次了。刚刚腾讯把这个加强训练又提高了一个台阶, 腾讯通过游戏领域的技术,把真狗的跑步动作数字化了,建了模型,再把这个加入到他的虚拟机器狗的训练中,让机器狗就像我们人学走路一样了。有了大人的调教,因而很快就学会走路了,没听说哪个孩子在走路的过程中摔成了残废。 最近,三佛大学和谷歌的研究人员还把叉 g p t 和一个模拟人类生活的游戏结合了起来,发现当你给叉 g p t 一个长期目标记忆和行为反馈后,叉 g p t。 就真的像我们人类一样,每天 起床、洗漱、吃饭、上班、聚会和议论别人了。以后游戏和人生都很难区分了。未来游戏 产业对于人工智能产业的拉动规模还会持续增加,今年是三百多亿元,二零三零年会超过一千亿元。所以说 ai, 尤其是 chat tpt 的出现,实际上是靠游戏产业输送的弹药。 今日的 ai 的成功和游戏有着密切的联系,而且我觉得未来两者的结合和相互促进更会改变人类社会的形态,你觉得呢?

家人们,三步投喂 g p t, 答案直接上升一个档次。同一个问题,训练过的 g p t 和未经训练的 g p t, 答案质量简直能相差十倍!三个步骤,让你的 g p t 化身十万加爆款标题生成器。第一步,输入核心指令,给 g p t 立人设定规则。 你是一位自媒体领域的标题党专家,下面请遵循以下规则,一,我会给你发一些爆款标题技巧二,我将持续上面的过程,直直到你掌握更多的爆款标题。技巧三, 接下来我会给你一个主题,并放在括号中。请根据你刚刚学习到的爆款标题技巧,并结合括号中的主题,帮我生成十个爆款标题。四,如果你理解上面的指令,请回复我。准备好了 第二步投喂素材。你需要尽量遵循投喂的三个核心步骤,第一,先投喂爆款标题,让 check g p t 进行自主学习。第二,投喂你的爆款方法。 第三,投喂爆款标题常用的那些关键词,让他可以快速抓取里面的核心因素。那三步投喂法的第三步就是你在投喂内容的时候就给他进行测试, 直到亲爱的 gbt 可以稳定产出具备爆款前置的标题,此时我们的训练就基本完成了。最后,你试试再给他来个高难度的测试,让亲爱的 gbt 消化理解你给的内容,再生成爆款标题,看看是不是有十万加的感觉了。 想要提示词的家人们,我这有现成的素材,滴滴我发你哦,我是阿旺,助你十万个想用 ai 的普通人关注我哦!

你知道训练 fogo 需要多少显卡吗?据 c g i 团队估计,假设你有一台搭载幺零八零显卡的主机, 总训练时间等于 fow siro 自我对战,总场数乘以每场双方平均出手次数乘以每一部 ai 需要模拟对战的次数,再乘以模拟每个盘面所消耗的时间, 最后将结果换算成秒,能得出总训练时间约为四百零九亿秒,大概需要一千两百九十四年。 根据上述分析,谷歌地步慢,团队仅用四十天就可以把 fow siro 训练起来,换算一下,大约共用了一万两千颗一零八零的显卡,算力相当于一个中大型矿场一到两个月的工作量。

今天带兄弟们装一台深度学习服务器,这台服务器主要用于深度学习训练,现在带兄弟们一起组装 这台超威四零二九 gptrk, 支持两颗英特尔系列处理器,搭配两个志强金牌六二二六按十二核三十二线程二点九赫兹, 同时借助四块因为你的新一代图零架构的 gpu 加速器 q 的核的特性,相比 gpu 处理速度提升数十倍。内存我们给装了八个三十二 gb 内存,一共两百五十六 gb 内存,满足用户办公需求。 既然用于深度学习,我们搭配了八张 r t x 三零九零显卡,对于深度学习主要是用到 g p u 的单轻度和半轻度,采 采用独特的 gpu 散热设计,保障 gpu 有效散热不降频。使用 四百八十 bb satis 企业及硬盘两个两千瓦电源,允许在电源模块故障情况下系统不当机,这台机器就组装完了。兄弟们觉得这台机器怎么样呢?

大型预训练模型的话呢,它模型越大,那它的精准度就越就越高,但是精准度越高,它消耗的那个 g p u 的内存就越多,它需要的资源就越多。现在呢就出来一个新的一个算法,这个算法可以把大型的这种预训练的模型,让它能够温度的同时能够大幅的 下降它这个 gpu 的这个内存的使用的这个效率,它等于是这样,那这样的它的吞吐量也可以上升。我就讲这样一篇文章,那么这篇文章的话呢,也是非常有价值,他们是 拿了一个维库纳的是一百三十亿的这样的一个大模型,跑在一个 amd 的一个 gpu 上面,当然你可以也可以跑在英伟达的这个 gpu 上也是可以的。 那尾库纳的这个 g p, 呃,这个模型我我之前也是经常介绍的,它是在那个全球的这个开源的这样的一个 l l m 的大型预训练模型里面,它是排名是第一的,它等于那它是 是相当于差的 gpt 的百分之九十二的这样的一个性能。他对,所以他这个是开源里面一个非常非常有价值的这样的一个模型。但是这个模型的话呢,有一百三十亿的参数,那么他就需要 a 一百的这种 gpu, 他就需要八块,所以如果你要把它跑起来,那但是对一般企业来讲这个成本就非常高,虽然他的性能 非常好,但是他要跑起来的话呢,他需要大量的费用,他等于是这样的,现在呢就出来一种算法,他就是可以把这个大的这个一百 一百三十亿的这种大模型进行压缩,他们叫这个量化啊,量化模型量化的这个操作,我们可以看看这张图,这这张图是关键的,我们一般跑的那个大型的米库纳的这样的一个大模型的,我们一般是跑 p 十六的 精度啊,它是等于是这样,现在呢它可以去做一个量化,量化的话呢,它是用四个 bit 和三个 bit 的这种方式,它这个算法 叫 g p t q 的这种方式可以把这个模型进行压缩,就像我们那个视频文件一样,他就把这个大的模型进行这个压缩处理,压缩处理之后你可以看到它这个红颜色 bit 四的 g p t q 的这个算法, 它的这个精度啊,跟 f p 十六的相差不是太大,但是不是这个算法的它的这个误差有些时候就会非常大,甚至就没法收敛,它等于是这样,所以,呃,所以的话呢,就是,嗯, g p t q 的这个算法就非常有价值,它只可以把我们原来需要八块这个 a 一百的这个 g p u 的这样要运行 这个米库纳的这样的,哎, gpu 就足够了,我们继续往下看啊,那么现在他们已经的这个这个论文的话呢,我已经下载了,我也看了一下,他这个论文也是非常新的,是三月二十二号,二零二三年三月二十二号刚刚推出来的,刚刚推出来他的主要的价值点,我前面也已经 讲过了,回头我们详细再来看看他的 qpt 的这个算法。我们先来看一下那个结果,结果的话呢就是开源社区,他们就对这个东西就是敏感度就非常高,非常快的就把这四个 bitt 的这个经过量化算法的这微库纳的这样的一个模型给放出来,放在这个哈根 face 上面, 他这个模型经过量化之后,他需要多少的 gpu 呢?那那么别人就实践了一下,他使用 amd 的这个 gpu 的,当然也可以用英伟达 gpu 也是可以的。他这样跑下来之后的话,你会发现他只要六点五 gb 的内存就够了, 原来的话他可能至少要二十四 gb, 他这个内存要装载,现在他只需要原来的大概四分之一多一点,他就足够了。所以的话呢,就是这种大模型就是可以 等于是说我们需要的这个硬件资源,需要 g p u 的这个内存的资源就极大的就下降。他的也是这样,他的精准度他们也测了一下,他很奇怪啊,他的精准度不但没有下降,反而上升了,这个 是他觉得很困惑,他是这个这个精准度反而上升了,这个是比较困惑,我回头会讲一下他这个算法,他会这个算法,他到底是怎么回事情?那么他的吞吐量的,他每秒钟的这个吞吐量也上升了,他等于是这样, 他每秒钟的这个吞吐量也是每个字符啊,需要多少毫秒,他等于是这样,他也上升了,所以他是一个非常有价值的这样的一个 一一个算法,他可以把那个大型的这些模型可以跑在非常少的这种资源上面,所以他是这样的一个东西。中国的话呢,也把有些博主啊也把这篇论文啊稍微简单的翻译了一下,我也看了一下, 我给大家解解读一下他这个算法到底是怎么回事情?他是怎么压缩的?中国人呢?他说这个是穷鬼的救星,你要跑非常大的一百三十亿的这个模型,原来我们一般只能跑这个六 b 的模型,就是六十亿参数的这个模型。而现在我们可以跑更大的这种模型,他也也只需要很少的这个显 存就够了,他需要的资源就会比较少,这样的话呢,这个大模型他就可以更普及了,他等啊有了这个算法之后,我们看看他这个算法他背后到底是怎么做的。他本质上的话呢,这个 g p g q 的这个原理的话呢,它说它是来自于叫 o b q 的这样的一个算法的,这个 o b q 的这个算法呢的话,它本质上是什么呢?就是你要把一个模型进行压缩,那么它会带来误差,那么带来误差的同时的话呢,它要增加一个权重,要去弥补它这个误差,把这压缩之后的这个网络在 加上他的新的一个这个权重,让他这个误差就是降低到最小。他通过这种方式去做原来 o b q 里面的这个算法的话呢,因为 他就是用了一些算法,他就需要很多的这种算力,他这个里面讲他这个原来这个非常好,但他这个算法不是太好,因为的话呢这个用 obq 还是比较慢。他要把他举了一个例子,他说那用 resnet 五菱的这个网络, 如果要用那个 o b q 的那个算法,它要花几年时间,这这这个在大大的 g p t 的这个模型上,要花几年时间 它才能把这个模型给压缩完,所以的话呢,它的时间实在是太慢了。嗯, g、 p、 d、 q 的话呢,它就在这个基础上在进行了优化,它就优化了三点。第一个的话呢就是取消了这个贪心算法,它这个里面讲了一下有一个什么贪心算法,它这个里面 就是说原来他是要一步一步的去优化,他等于是这样,现在他就会变成一个一个的列,他可以并行,他是等于是这样。 第二个它原来它是单独的一个个权重去处理的,现在的话它把权重变成一百二十八个列,那通过适量的这个矩阵,通过这个 gpu 防止它利用这个 gpu 里面的 定型的这种批处理的这个算法,所以的话呢他的效率就会非常高。另外一个他也用了一个数值稳定性的这样的一个算法,他把这个算法加进去了之后,比他原来的 因为来的那些神经网络的话,他其实也是有误差的。但是他引入了这个东西之后,你可以看到前面讲他的反而他的误差,他的精准度会比原来更好,这个就很神奇,他等于是这样说明是什么,他这个压缩算法的对这个大型的玉训练模型确实有带来了更大的这个价值在降低,在不损失精度的同时比原来精度更好, 损失的精度非常小,那他需要的这样的一个资源消耗又非常少,他等于是这样,所以他这个就是他的这个带来的价值。所以这个算法下次我有机会的话也要去尝试一下,他这个东西还是非常有价值的好,这个算法的给差不上面,他们也把相应的这个算法给放出来了,他等于是这样模型的话呢,别人也 也也已经把它给做出来。我前面也是讲了,在那个米库纳的这样的一个模型上面,别人也做了这样的一个量化,量化的话呢,他们也已经放出来,那这样的我们也可以,这些企业级,他也是可以用这些大型的这些模型,好好。

告诉你最前沿的计算机知识,信奥初赛可能会考哦!我们反复说过,学习信奥是距离叉 g p t 人工智能最近的一条学习路径了,为什么呢?因为人工智能三要素,算力、算法和数据。 咱们信息学奥赛就是学习算法。今天咱们不说算法,说一说算力,算力就是计算能力,我们训练一个人工智能要用到巨大的算力,但是为什么要用显卡 gpu, 而不是咱们平时听到的最多的计算机的大脑 cpu 呢?以下这个视频一分钟说清楚, 他将为你们画一幅画,就像一个 cpu 那样完成,作为一系列离散动作,按顺序的一个接一个的完成。 gpu 模拟器,当这个按钮被触发,这个东西的触发器会有两千一百加仑的气体通过这些阀门进入着一千一百个管子,每个管子里都有一个油气球,当他们被喷射出来后,他将画出蒙娜丽莎。 所以你明白了吗?因为 a 一百显卡具有巨大的并行计算能力,就是很多个单元同时计算,算力异常强大,远胜 cpu。 顺带一提,挖土机暑假赛前集训夏令营开放预定了,欢迎你来参加我们的赛前集训夏令营!

ai 训练深度学习什么方向?选什么级别的显卡?今天我们来说一说相关专业学生。从业者从一块 it 叉四零七零开始进一步学习。建议卖掉 it 叉四零七零,并购买多路 it 叉四零九零。 自然语言处理研究人员如果不从事机器翻译、语言建模或任何类型的预训练工作,那么二 tx 四零八零就足够了,而且颇具性价比。计算机视觉预训练和机器翻译研究人员 建议四路 r t 叉四零九零涡轮显卡注意配备相应的大功率电源及散热设备用于模型病情训练。少于一百二十八个 g p u 的 g p u 集群建议八路 r t 叉四零八零和八路 r t 叉四零九零用于模型病情训练。高于一百二 十八个 gpu 的 gpu 集群,八路 a 一百是最好的选择。深度学习 ai 训练电脑怎么选?关注霞姐,持续给你分享!

合适的 gpu 对深度学习来说至关重要。今天我给大家介绍一下因为达系列显卡应该如何选择。如果你只是一个业余时间来探索深度学习的话,可以选择这个 rtx 二零六零,这个性价比较高。 如果你是深度学习专业类的研究者,而且预算在四千到六千之内的话,可以选择这个 rtx 二零七零或者说 rtx 二零八零这两个显卡。如果你是预算在这个就是八千到九千的话,呃,可以选择这个 rtx 二零八零 ti, 他比 rts 二零八零快大概百分之四十左右。 呃。如果适合是广泛的 so t a 型号,但是没有像这种呃就是 rts 八千这样足够预算的一个研究者的话,可以选择这个呃,泰坦的 rts 或者说是跨入 rts 六千这两个显卡,呃性价比较高。 然后如果是你不考虑价格,只考虑性能的话,呃,推荐一款,就是跨住 rtx 八千这个适合做未来的一个投资,性能卓越。呃,这个就是英美达系列显卡的一个推荐。谢谢大家。

我感觉我迟早得因为 ai 猝死在这里,从国庆干到现在,从今年三月份到现在七个月的时间,这个小姐姐你们有认识的吗?这是他的原视频, 这个是刚刚下课之后 ai 生成的一个视频,已经比那些几十万粉丝的质感都还要好了,比这种 比这几个质量都好,这种的还有很多,那种在抖动,很抖的很厉害,你看像这种一眼就能看出是 ai, 但是我们做的这种, 他这是没声音的,刚生成出来还没剪辑呢,还没加慢动作什么?然后现在是两点多三点钟了,刚刚录制了一个 a x 视频教程,所以我感觉 迟早得猝死在。哎呀,在这里七个月的时间,从三月份到现在十月份,七个月的时间有各种各样的软件,这边刚下课,这里又在训练我的声音, 这是我的声音,切割了很多条,采集好了之后让 ai 去学习这个课程的话,基本上过一个星期会跟大家见面吧,然后为了筛选这个合伙人,就我们这些软件都是这么 进这种程序进去的,你看这种一键换脸的都是进这种程序,然后双击去那个代码里面,去代码里面找到一行代码,然后再去进那个网页,我们都是这种程序的,就有些软件我们光去找别人打包做一件包,我们都花了几千块钱了。

根据二零一四版的国家学生体制健康标准,一个人如果一千米能跑三分四十,那他在初三时还能拿满分,但到了高一就只有九十分,到了大一就只有八十分。为了维持满分,他必须在一年内提高五秒才行。但现在社会分秒必争,有没有可能不用一年,而是只用七天就提高五秒甚至更多呢? 带着这个问题,我咨询了最近大火的 gpt 四,结果他说虽然这个目标很大胆,但并不是不可能。我把自己的跑步数据导入到 gpt, 结果他瞬间就输出了一份详细的七天计划。我把计划给两位专业人士也看了看,没想到中长跑的藏园老师和中长跑的崔老师 都说计划挺好,当时我就震惊了,哎,已经强到这个程度了吗?为了验证这 pt 的能力,我完全按照计划练了七天。虽然很多时候都达不到这老师的配速要求,但七天结束后,我真的从三分三十八 提升到了三分二十九,快了整整九秒。体育老师从来没有做到过的事,这老师竟然只花了七天就做到了,我做的 好用。我们来看一下这 pt 是怎么做到的。一三六是快跑,二四是慢跑,五七是休息。其中的三天快跑是关键所在,第一天练的是速度,耐力,要跑六个四百米,配速三二五组间歇两分钟。第三天练的是临界速度, 要跑四个八百米,配速三四零组间跑四百米。第六天练的是短距离速度,要跑三个两百,配速三二五组间歇一分钟。这个计划的正确用法是先截图,等到考前八天再打开, 如果有运动手表,就用里面的课表功能建一个一样的课表。如果没有运动手表,也可以用跑步软件的目标配速功能自己掐一下,效果也差不太多。但必须说明的是,世界上没有完美的计划。这份计划的优点是能在 短时间内调动快机激发潜力,但缺点是强度较大,没有基础的人可能会受伤。比如对我来说,第三天的四乘八百强度课,心率就直接飙到两百零四,脚会有一点痛,头也会有一点晕。哦哦, 不过我发现只要能顶下来四百和八百,到了第六天的两百米,很轻松就能跑到三分左右的配速,进步大的跟开了挂一样。而这个配速也延续到了最后的测试前五百米,均速三零五,大大超出了我之前的最好成绩,虽然后半段还是掉速了,但总成绩依然被拉高了十秒。 整个体验下来,我觉得这老师有两大优点,贴心和耐心。贴心是因为他会问你要数据,数据越多,他给的建议就越有针对性。耐心是因为他会不厌其烦的解释为什么要这么安排,既能让人知其然,也能知其所以然。我曾经发过一条动态,说 这 pt 已经可以替代老师了,结果有人反对,说 ai 无法点燃人的学习兴趣。但实际上,可汗学院开发的 ai 已经能够引导学生进行自主思考了。如果再进一步,联合波士顿动力,想象一下 ai 直接陪着你学习,陪着你运动的画面。除了价格,我想象不出任何拒绝他的理由, 也许到了那时,真人反而会变成更便宜的选项。好了,以上就是本期视频的全部内容,如果你对 j p t。 的篮球水平或者马劳孙水平也感兴趣,点赞过一万必出,下期我们下期再见!