粉丝5.8万获赞10.5万

看这个金光闪闪的柜子呢,就是因为他刚刚发布的新产品 g b 三百,那其实呢 g b 三百是一个数据中心的机架,它里面有连接了 gpu 和 cpu, 那其中呢,它连接的七十二个 gpu, 就是最新发布的 blackwell alter, 而也被叫做是 b 三百,嗯,然后除了呃七十二个 gpu 呢,另外还有三十六个英伟达的 grace cpu, 把它们串联在一起 就成为了这一整个基站,也就是说你未来可能在使用 chai gbd 啊啊, jemmy nine, 甚至是 dipstick, 可能他背后就是有这样的这个机柜在运行,那他是大模型大脑背后的整一个的这个计算的一个大脑。然后他右边呢就 是呃去年发布的产品 gb 两百,那根据英伟达的透露的数据呢,是 gb 三百比 gb 两百他的性能要高出一点五倍。然后昨天黄瑞勋他也是特别强调了,呃, gb 三百在推理性能上的一个飞跃的一个变化, 尤其是相对于上一代的这个 hopper 的架构,呃,据说是 gb 两百能够比他在推理的速度上提升十一倍。然后我们看一下他的背后啊,呃也是用了最新的他,他的这个连接的技术,你看 这些是不是特别像大脑的神经,所以这一整个机柜就像是一个就是像人的大脑一样,就是他在每时每刻都在不停的运算着。

h 一百很好,但是我们需要更大的 gpu, 需要普惠万亿参数的 ai, 这是黄教主在上周二零二四 gtc 上的宣言。毫无疑问,英文达刚刚发布的 black will b 两百 gpu, 让人看着是无比让人羡慕啊,这种纠结与担忧的情绪让我溢于言表。 超强的性能,两千多亿的晶体管,二十千兆次的 fp 四算力单机支持十万亿参数的大模型训练,从 pasco 到 black will 的架构前瞻性,应伟达在这次 gtc 上方向性的布局与战略优势, 确实让竞争对手们看不到车尾灯啊。哎,说实话,这不仅是我们国内 gpu 厂商 b 两百的领先,也让 md、 英特尔、 mata 等其他美系大厂 也纷纷望而却步,陷入沉默。在 ai 斯福系市场上,英伟达这次是真的不给所有人活路啊。 不过呢,我看了一下网络上的一些文章和视频,我发现大家都比较关注在 b 两百的性能提升方面,但并不是真正的理解,因为它 b 两百系列芯片真正的强大点在哪里?核心的优势又在哪里? 事实上呢,在 b 两百发布之前,业界对于 b 两百单科芯片的性能提升都是啊有所预期的。而此次 blackville 架构真正的核心看点,其实是因为他只是拿出的 cheaply 杀手锏,以及 ai 芯片间的互联技术。 比如说,黄教主手拿的这块整合了两颗 b 两百和一块 grace cpu 的 g b 两百超级芯片,这 个双带间十 tb 每秒的芯片间互联通信是如何实现的?包括此次与 gb 两百同时登场的一点八 tb 每秒的 nvlink 同互联方案, 能否挑战现有的光模块呢?在未来是大模型的复杂程度,预计会进步的提升。 gb 两百会完成英伟达在 agi 方向上的大一桶吗? 那么今天我们就通过英伟达一年一度的 gtc 大会来窥探一下目前英伟达在 ai 领域的统治力,来思考一下在英伟达显卡倍镜的现况下,我们要如何应对,如何追赶,如何演技呢? 首先我们来谈一下互联,互联芯片间的互联,数据间的互联,服务器之间的互联。为何在目 ai 高速发展的当下,互联技术会占据越来越重要的位置呢?毫无疑问,我们只要对目前大元模型技术发展趋势有一个基本概念就知道,大模型其核心的特点就是使用了超大规模的参数量模型,通过海量的数据进行训练, 从而实现了 ai 能力的突破与赋能。其中不管是五纳米、三纳米、两纳米,还是此次 b 两百使用的较为成熟的台阶垫 n 四 p 四纳米工艺, 不可否认摩尔定律正在逼近物理极限,而单科芯片的性能本质上都是有限的,所以大约模型发展资金有一个较为显著特点,就是对于分布式技术,对于多个计算节点协同工作有着越来越强烈的需求。在这样的背景 下,根据牧童理论,各个节点间的数据交换效率它实际上就变得越来越重要,它既决定了整体 gpu 集群内部 top 架构陈述,也决定了最终整体的计算效率、速度、延迟与准确性。 换句话说,在高带宽、高密度数据互联的人工智能时代,单科芯片的性能已经不再是那么那么的重要了,或者说不再是规模化部署的唯一指标了。 在未来呢,理论上每颗 ai 芯片都可以用最适合的、成本、最优的工艺去制作即可, 而如何实现高效率的、低能耗的、高密度的互联,反而成为了比较核心的重要技术。那么此次英伟达 g b 两百又是如何实现双待之间 十 tp 每秒的超高带宽互联的呢?如果用一句话总结,那就是说,如果苹果 md 是台阶店的重要客户,那么因为答则必须是台阶亲爹级别的商业合作伙伴呢? 不可否认,此次英武达能够正式迈向 triplet, 迈向 m c m 的进程,其中台机电的 covers 先进封装技术那绝对有着功不可没的贡献。 简单来说,目前台阶店 cover 的先进封装根据中介的不同,大致可以分为三条具体的技术分支, 分别为 covers s、 covers r 和 covers l。 其中 covers s 是台建最早一代二点五 d 先进封装技术,第一代的 covers s 可以追溯到二零一一年,这里的 s 指的就是 senicle 请利用龟作为中介层连接小芯片的一种 先进封装技术。目前 covers s 啊已经发展到了第六代,目前主要多用于 h b m 内存上面。而此前备受关注的被誉为是英伟达 h 两百最强挑战者的 m d m i 三百人工智能超级芯片,则采用的是台机电 covers r 封装技术。 这里的 r 呢,指的就是 r d l 材料,是一种由聚合物和铜轴线组成的互联层。早期的 covers r 这台机电为了改善 coverss 成本和制造兼容性而出现的, 它最主要特点就是具有较好的成本优势,同时呢,也有比较好的设计灵活性。但是啊,牺牲了一定的 i o 密度,排除一些外部的因素啊, covers r 确实是比较适合 m d 这类产品线比较丰富的厂商。而此次英伟达 gb 两百超级芯片使用的呢,这是目前台建最为先进的 coversell 封装技术。这里的 l 指的就是 local, 其原理是结合了 tsv 和 rdl 技术的所有优点,在有机基本中加入了小硅桥来实现了一种芯片间的高速互联技术。 具体的技术细节啊,我这里就不说太复杂了,免得大家看的枯燥。总来说, covers l 制造过程要比 covers r covers s 要来的更加复杂,同时呢,成本也相对要高很多。但是呢, local 硅桥互联技术啊,又大大提高了芯片间的整体互联密度和延迟。此次 covers l 在 g b 两百上首发确赏,让我们见识到了双带间实现了惊人的十 t b 每秒的互联通信。 还有啊,包括现在的高阶 ai 人工智能芯片,使用的都是高成数的 h b m 内存,其高带宽、高密度、高容量特性天然的也与 travis 技术啊是相互互补的, coversale 这种晒白晒的对叠方式,说实话也非常适合 hbm 内存的一个互联的需求。 所以总的来说,哎,感叹呢,随着人工智能对于 cherries 新链数据通信带宽的要求啊,不断的提高,未来双心力互联,甚至啊多心力互联的需求, 毫无疑问有望成为 ai 领域未来一个非常非常关键的技术方向,那么接下来的话题,我们除了 covers 先进封装技术加持下实现的却被超短距离的 数据传输以外,在此次英伟达 gtc 大会上,黄教授同时还提到了未来 gb 两百数据中心将会采用大规模的同互联方案, 使用一个长达两英里,拥有五千多条的铜缆来进行 gpu 之间的中长距离的 nv 宁可连接。 这一度啊,也引发了市场对于铜互联技术的密切关注,甚至有些网友认为英伟达抛弃光模块,所以光互联已经被取代,未来将是铜缆的天下。 那么英伟达用铜缆进行 gpu 之间的互联通信,是不是啊,也是遥遥领先的一项关键的技术呢?我这里啊要给大家泼一盆冷水了。实际上呢,铜缆背板互联并非一种非常前沿的革命性技术,对比 光模块啊,其实反而是一项成本更低,技术更为成熟的一个更为方便的一个方案。我更认为英伟达选择大规模使用同览互联,反而是英伟达一种对于市场的妥协和成本方面的综合考虑。 一方面呢,也是由于 gb 两百的单芯片性能已经足够足够强大了,一台服务器几乎顶了一个超算中心,所以英伟达可能更加偏向于采用一种一击打天下的方案, 甚至啊,要用一台服务器解决所有的问题,包括更加广泛、竞争更加激烈的推理市场,要与亚马逊、谷歌、微软一些巨头啊,正在竞争的推理芯片市场,不排除英伟达也要寻求分一杯根。我预计啊,未来英伟达会逐步从一家 卖卡商变成一家卖服务器的整机方案提供商。另一方面呢,我个人觉得英伟达在做大模型光交换机方面,包括在归光互联方面的经验和积累,可能并没有大家想象的那样的强大。 比如说这次在 gdc 大会上发布的 x 八百新一代的英伟达交换机,从技术角度呢,并没有什么突破性的技术,也没有达到目前现在业绩啊最先进的一个水平。 而从长期的角度,作为理科生,只要我们学过光纤或者集成光电的课程就知道在长距离 更高的数据传输数率下,从基础物理学的角度,光纤的低信号衰减、低颜值特性,天然就是要远优于铜缆的。虽然现在 在实际应用中,光互联确实啊存在一些技术挑战和成本的问题,但是随着新兴的光电子 p i c 硅光子集成 光电混合架构等技术的发展,包括现在台机电在 h p c。 上力推的三 d 堆叠封装,其原理啊,就是用硅光 c p o 去解决去不去去谱互联的问题。 所以我个人整体感觉,未来面向大规模 ai 系统部署,用光子互联作为计算扩展的最终解决方案,依然会是面向未来,或者说未来唯一可行的正确发展方向。 这既是当前科技发展大趋势,也是物理学规律决定的一个必然选择。我们再简单点说,比如说假设我们人类要真正的实现 真正的 agi, 要实现 ai 的天网时刻,那不可能只是七十二颗 gpu 的一个互联,届时 agi 这种级别的规模的超大变形计算的场景,他一定会是一个上万科甚至是上百万颗芯片之间的互联, 我想这一天不会离我们人类太遥远了。最后最后我们来简单讨论一下一个比较现实的话题。 我知道随着 b 两百的发布,我看到微博上,论坛上,在我们国内的主流舆论上都呈现着一种较为悲观的情绪, 认为在 ai 方向上,我们与因未来的差距啊,是越来越大,甚至啊让人们看不到希望,看不到未来。但是真的是这样吗?我们就完全没有机会了吗?我个人的看, 我个人认为此次 b 两百、 gb 两百却不累着,确实很强大,确实让人感到无比的羡慕,但是我们就因此放弃战斗了吗?就因此缴械投降了吗? 那倒完全不至于,不至于啊,就像我们之前视频里面聊到的,事实上呢,我们人类要真正走向 agi, 以目前发展的路径,其实啊,依然还有很多大量的技术层面的根本性问题啊,极大解决,包括不限于电力瓶颈,算法压缩 存储内存壁垒的问题,包括易购融合问题啊等等。具备两百的单芯片,性能再强,目前主要还是受益于台建,在芯片制成上,包括在先进封装领域的领先,但是 covers 封装主要还是用于 芯片间的超短距离的数据互联通信,并没有从根本上解决远距离的、分布式的大规模数据互联的高速带宽的瓶颈问题。从英伟达 gtc 发布会直播啊也可以看到, gb 两百两千七百瓦的功耗同互联所采用了庞大的冷却系统, 天花板呢,依然是相对可见的,我给大家稍微打打气啊。一方面呢,从工艺制造角度,工程技术的进步始终是一个持续迭代的过程。 说实话,相比于五纳米以下芯片制造的问题,中国大陆其实并没有在先进封装领域的技术上有所缺席,差距啊,也并没有大家想象的那么大。比如说常电科技的 x d f o i 二点五 d 无 s v 平台,包括 微店的微选封装平台,都已经进入了量产阶段,对比我们上面提到的 covers 封装,现在国产先进封装主要缺的还是大规模的产品的试错,量产与迭代,包括在光互联技术上的强研发,我们在技术上面其实是很能打的。 未来如何利用 o x c 在新时代实现 ai 数据中心的新架构、新创新弯道超车。所谓弯道超车,我们就是要在这些差异化的竞争下,赢得新的竞争优势, 而在生态方面,得于我们市场的多样性和应用的规模,我们在推理端在用册,其实啊,我我们也在发力,依然是有机会啊,扳毁一层的,包括由于美商部的封锁,其实啊, 也在变相的加速我们对于国产 a 芯片的切换的一个步伐,只要不断的给机会,不断提供一定的土壤,逐步打破,因为达到的生态垄断一定是未来的大趋势,不要太悲观,也不要过于乐观。 agi 这条路啊,没有那么好走,最后谁完成了通关还有未可知啊,关键的还是用起来,关键是要培育起国产的 ai 生态,机会总是留给有准备的人啊。 那么今天的视频就这里,如果大家有什么想法,有什么不同的观点,也非常欢迎在视频下面留言,我们可以展开更多讨论,那朋友们,我们下期视频再见。