粉丝3.9万获赞50.5万


how about behind you think china is china is not behind china is right behind us i mean they were very very close but remember this is a long term this is an infinite race。


这是一张可以载入史册的照片,当时英伟达创始人黄瑞勋像刚成立不久的 open ai, 捐赠了一台 d d x one 夫妻,这台主机配备了八张 tesla p 一百 gpu, 每张有十六 g 的 h b m 二内存。那么在当时呢,它可以说是 a i 训练的梦中情机,在 f b 十六记录下达到了惊人的一百七十 t flops。 那个时候,黄仁勋敏锐的嗅觉就指向了 ai 领域,而 d g x y 呢,则是英伟达在这一方向上的里程碑式的产品。 一年以后,二零一七年,一篇改变世界的论文诞生了, open ai 借助这篇论文的核心思想,打造出了 china gbt。 然而,可能连站在一旁的马斯克都无法想象的是,仅仅八年以后, ai 产业就进入了大模型混战的时代,甚至其本人都亲自下场。而当初那个 djx one, 他的子孙产品,如今已经具备了令人折舌的算力,在同样的 f p 十六经络下, 实现了十八 p flops, 也就是一万八千 t flops, 随便跑跑千亿参数大模型啊,都不在话下。所以这期视频,我们来深入了解一下英伟达前不久发布的这个最新算力核弹 b 二百。我们要解决的关键问题是,英伟达是如何刷了一下子给到了这么强大的 ai 加速器的。 首先呢,我们来看一下英伟达历代的这个架构啊,那么在这些架构中呢,英伟达率先从开头开始呢,就打响了数据中心 gpu 的第一枪, 早在二零一二年就推出了基于 capper 架构的 tesla k 系列 gpu。 随后呢,在 posco 加购中呢,就推出了 tesla p 一百,在 water 架构中呢,就推出了 tesla v 一百,而从 mp 耳架构开始呢,因为达就取消了 tesla 的前缀啊,就推出了 a 一百, 在 hopper 加购中呢,又推出了 h 一百,那么这些呢,是英伟达针对数据中心,也就是 ai 加速和高性能计算领域推出的 gp gpu。 而如今我们迎来了最新一代的加购来国外 啊,是以美国一位数学家命名的,那么 gublack 外加工呢,有三种产品,一个叫做 b 一百,一个叫做 b 二百啊,一个叫做 jb 二百。我估计很多人看了比较蒙圈啊,的确,英文达到这个命名规则啊,非常复杂,不过不要急啊,我们来慢慢梳理一下。 首先呢, b 二百啊,它是一个独立产品,那么这个跟之前 hopper 加购下,先有 h 一百,再有 h 二百它不一样啊, b 二百就是黄仁勋在发布会上说的那个 b 二百呢,是基于 blackwell 加工下的一个满写 gpu, 它呢是代表了目前 blackwell gpu 的最高水平,它的 t e p 啊,为一千瓦,而 b 一百呢,是一个缩水版的 b 二百,那么与 h 一百和 h 二百具备相同算力,只是现存不同的设计不一样, b 一百的算力大约只有 b 二百的四分之三, 因此它的这个 t d p 呢,就被限制贷了七百万。那么这样的话, b 一百可以插进现有的 h 一百或者 h 两百这样的 oppo 架构的服务器啊,直接使用,所以它 可以看到是一个过渡产品。那么这个 g b 二百呢,其实是一个挂了英伟达自己的古瑞 c p u 的一个 super chip 啊。那么在一个 g b 二百上呢,有一个古瑞 c p u 啊,两个 b 二百 g p u, 所以它叫 g b 二百。而 b 一百和 b 二百呢,都可以搭配英特尔或者 a m d 的 x 八六 c p u 来运行。英伟达自己的这个 c p u 啊,它是基于 arm 加购的, 那么八张版卡, b 一百 b 二百或者 gb 二百呢,就组成了一个 d g x 或者 h g x 产品。 h g x 和 d g x 有什么区别呢?其实两者的重叠度很高,只不过 h g x 呢,是一个计算模组啊,主要面向数据中心。 而 djx 呢,是一个完整的计算机,他带着 cpu, 有英维达自己的 cpu, 也有第三方的 cpu, 那么此外呢,还有内存、硬盘、操作系统等等啊。这个呢,主要是面向开发者和研究机构,所以当年黄振勋给 oppo ai 捐的呢,就是一个 djx 产品啊,接上显示器和鼠标就能够直接开始用。那么前面所讲的 这个 gb 二百,它是由一个国瑞 cpu 和两个 b 二百 gpu 组成的,而两个 gb 二百外加一些组件,包括各种接口、液冷模块儿以及 dpo 芯片等等啊,就组成了一个计算节点,也叫做一个 control tree。 那么十八个这样的处理呢,就组成了一个 red 机架,一共包括三十六个国威 cpu 和七十二个 b 二百 gpu, 叫做 gb 二百 nvl 七十二。那么这一个机架呢,一共有三十 tb 的 hbm 三亿,现存最大有一点四亿 flops, 也就是一百四十万 tflops 的算力,当然这个是在一个 fp 四精度下实现的。 要知道啊,一个这样的机架就可以搞定一个万亿参数的大模型,比如一点八万亿参数的 gbd 四,那么它相当于是一个巨型的虚拟 gpu 啊,而大量机架通过英伟达专门的交换机再连接起来,就组成了一个 superpower 的机群,最高包括三点二万个 gpu, 妥妥的 ai 工厂。那么说到这里呢,我 我们就要重点研究下这个 b 二百,本身他有两千零八十亿个晶体管,而此前 hope 加工下的这个 h 一百和 h 两百呢,他只有八百亿晶体管。八百亿在当时呢,已经是一个顶天的数字了啊,那么如今的两千零八十亿啊,简直就是如雷贯耳。 但实际上呢,它是由两个一千零四十亿的大拼接起来的,也就是说 b 二百啊,它其实是两个 gpu 组成了一个大的 gpu, 也就是由两个带组成的一个 chip 啊,那么这两个带之间呢,有着十 t 每秒的互联速率。但是呢,具体的这个连接方案我们目前不得而知,但是他是被看作一个 gpu 来使用的。这个其实也是英伟达首次采用了 chiple 的设计理念啊, 就是由多个小芯片组合成一个大芯片,为什么要这么设计呢?这个是因为在 hopper 加工中呢, dices 就已经逼近了极限啊,一个 h 一百的芯片面积啊,有八百一十四平方毫米,而阿斯麦的这个旗舰 uv 的曝光厂的理论最大值呢,是二十六乘以三十三,也就 就是八百五十八平方毫米。那么这个意思是说啊,你现有的眼模板的尺寸和光合技术,也没法做出一个比这个更大的大 size, 所以呢,就索性把两个大给拼接了起来啊,视为一个 gpu, 这也是因为达在现有的光合技术极限工艺条件下唯一的选择, 所以他有两千零八十一个引体管其实也不足为奇。但是也可以看出,面对 ai 大模型的来势汹涌呢,硬打已经打破了之前线性的改良节奏,而是通过狠狠对料,继续保持绝对领先。而 而相比 hover 架构采用了台阶垫的四 n 工艺, blackwell 呢,依然停留在四纳米阶段,只不过升级为了四 np。 那么具体来说,它的晶体管密度是多少呢?目前不得而知,但几乎可以肯定的是, f l 中每一个带上面的一千零四十一个晶体管的这个寄生度啊,有很大因素是通过进一步加大大 ices 来实现的,那么在晶体管密度上或许也有一定的提升,这个应该是 目前在四纳米工艺下能够实现的最高水平。由于工艺制成没有大幅度进步,所以在 blackbell 架构下呢,效率的提升主要是通过对架构的改良来实现的。首先呢,是数据类型,我们都知道啊,在应用达的 jpo 中负责计算呢,主要是两个模块啊,一个叫库打扣,一个叫做 tinserco。 两者的主要区别就是,库大靠它是在一个时钟周期内只完成一次乘加运算,也就是 a 乘 b 加 c。 而 tensor 靠呢,在一个时钟周期内可以完成一组乘加运算啊,他运算的是矩阵。那么因此呢,对于 ai 中主要的 mac 运算是非常给力的。 而库大考和特色考呢,支持的数据类型一般来说都不一样啊。大家可以看这个图,它对比了 blackwell 和 hopper 对于数据类型的支持,在 blackwell 加工中呢, tentacle 额外增加了 f p 六和 f p 四的支持,这个是为了增大对于推理的计算效率啊,尤其是针对 j v t 的模型。那么这样的数据类型呢,我个人认为啊, 也是在与产业深度讨论的前提下来确立的,也能够从中看出大模型在计算方面的一些趋势。而在库大考中呢,进一步取消了 inter 八精度,那么从画面开始呢,其实就已经取消了 nx 四精度, 这个也是输赢,大模型对于精度的要求,省出更多的计算单元给服务点数运算。其次呢,就是显存的增加, h 一百的显存是 h b m 三八十 g, 贷款是三点三五 t, h 二百呢,是 h b m 三亿一百四十一 g, 贷款最高四点八 t, 而 b 二百是 h b m 三亿一百九十二级,那么贷款最高八 t, 提升可以说是非常明显。理论上来说啊,一个 g b 二百 super chip 呢,就能够加载一个 g b d 三 简存的增加,大家的好处无疑就是可以承载更大参数的模型,那么这个也是目前大模型训练中的一个技术痛点。最后就是第五代的 nv link 和第四代的 nv link switch, 很多人不明白这两者的区别啊,那么简单来说的话, nv link 呢,它是一个协议啊,他允许 gpu 之间高速通信组成一个集群。而 nvlink switch 呢,是一个具体的芯片啊,它是负责管理和路由这些 gpu 之间的通信的。那么这张图呢,就说明了 nvlink 在代化上的迭代, 可见从 pasto 架构的第一代开始啊, mlink 通讯这个速度就稳步提升,但是到了 gb 二百呢,就猛然增加到了一千八百 t 的双向通讯贷款,这个就是英伟达专门针对大模型而设计的。而最关键的是啊,第四代 mlink switch 呢,就支持到了五百七十六个 gpu 直接互联, 这意味着什么呢?一个 switch 可以路由几百个 gpu 的直接互联,相当于这些 gpu 可以等同于一个超大的虚拟 gpu。 可以看到,在布莱克漂加股中呢,英伟达为了尽可能在四纳米支撑下提高效率,就主要是在数据类型和通讯速率等方面进行了大幅度改良,总之呢,就是一个字啊,大力出奇迹。那么此前呢, a 一百也好, a 是一百也好, 虽然说已经是顶级产品,但是呢,面临大模型往大几千亿万亿参数的这个层次去发展呢,数据类型的灵活性和通信效率的问题,其实呢,成为了非常大的车主。而这次的本来可标加购及其衍生的服务器产品啊,就相当于是专门给大模型量身定制的。 而且在这代家务中呢,还对 hopper 上首次推出的这个 transformer 引擎进行改进,进一步提升了对于 jbt 这一类基于 transformer 机制的大模型的优化。 但是我们也注意到一点啊,那就是在当前的半导体生产工艺中, blackwell 其实已经是一个转折点式的产品,它意味着英伟达开启了 chipid 时代,那么来规避摩尔定律的限制, 预计在二零二五年呢,英伟达还会再发布一个 x 一百和 x 二百,那么届时呢,有可能会采用三纳米工艺,但即便如此啊,在大 siz 的极限尺度下,他也不会带来断崖式的性能提升。那么英伟达仅靠支撑进步来改 进 gpu 呢,已经是过去时,所以 blackwell 的下一代加固呢,极有可能是四个胆拼接成一个 chip, 继续 bigger 咱 bigger。 只要继续加大显存和带宽,继续提升 gpu 片间互联的这个速度, 以及多机架间的通信能力,作为一个整体来说,因为达到 ai 服务器还有潜力可以挖掘。但这里也很明显,冯诺玉曼平应带来的制约会越来越明显啊,因为无论他怎么提升,都涉及计算与存储之间的数据搬运,根据阿姆达尔定律呢,无论工艺如何提升, ai 加速器整体的加速能力都会受到数据搬运时间的限制, 那么最终就会面临一个天花板。如果说训练领域依然需要英伟达强大的算力来作为保障的话,那么推理领域就是一个百花齐放的市场,对成本和能耗会更加的敏感。那么这一块呢,不仅有 tpu、 ipu、 lpu 等各种专用的进存计算芯片引出,存算一体啊,也已经展露头角。而相 相比这些正在成长中的芯片呢,英达的 gpu 在架构上其实已经显得有些过时了,他虽然目前还能够依托强大的研发和软硬件基础站来占据市场,但长远来看, gpu 其实至少在推离市场并非是唯一选项, 这也是因为达基于目前的技术框架发展下去需要正式的问题之一。我是大刘,感谢观看。
