00:00 / 05:12
连播
清屏
智能
倍速
点赞559
00:00 / 02:15
连播
清屏
智能
倍速
点赞51
00:00 / 03:12
连播
清屏
智能
倍速
点赞527
最近业内传出一个消息,国内的头部算力厂商要推出原生的无损RDMA方案,性能直接对标国际主流的IB技术,成本还有望降低。大家想一想,这意味着什么?这不仅仅是又多了一个新芯片或者新设备,这是在动AI时代的地基。如果把AI大模型训练比作一场需要数万甚至十万颗GPU同时参与的超级交响乐,那RDMA网络就是连接它们的乐谱和指挥棒。以前,这根指挥棒最趁手的,一直握在海外巨头手里。但现在,我们不仅要有自己的乐团,还要有自己的指挥系统。 其实逻辑很简单,为什么AI训练非它不可?现在的AI集群动辄万卡起步,大家想一想,上万张卡同时在那算,它们之间要不停地交换数据,也就是我们说的“西东流量”。如果网络稍微卡一下,哪怕是丢了一个数据包,成千上万的GPU可能就得停下来等,那算力浪费起来可是真金白银。所以,这个网络必须做到极致的低延迟、零丢包。这就是RDMA存在的意义。过去,业界有两个主流选择,一个是高高在上的IB架构,性能极好但价格极其昂贵,生态也比较封闭;另一个是大家更熟悉的RoCE技术,它基于标准的以太网,成本低很多,开放性好,但在大规模组网时就像在拥挤的普通马路上试图开快车,需要非常复杂的调优才能保证不“堵车”。 而这次提到的原生无损方案,可以说是取两者之长。它走的是类似IB的技术路径,性能硬刚国际顶尖水平。像国内的中科曙光,已经推出了叫scaleFabric的方案,端到端延迟能控制在1微秒以内,单子网能支持超十万卡的扩展,这在以前是不可想象的。更关键的是,它完美兼容现有的IB应用生态,这意味着以前的软件不用改就能跑,切换成本极低,而且组网成本相比IB能降低约30%。这就是在打破技术垄断的同时,也打破了价格垄断。 基于这个逻辑,我们再看资本市场,机会其实藏在三个层次里。第一层,是直接实现技术突破的“破局者”。比如前面提到的中科曙光,它的scaleFabric填补了国内原生RDMA的空白,是构建自主可控算力体系的核心底座。第二层,是围绕这个生态提供核心硬件的“筑基者”。任何网络方案都离不开交换芯片和FPGA加速。像安路科技,它的FPGA芯片就被广泛用在了中兴通讯、新华三等头部厂商的RDMA网卡和智能交换机里,做硬件加速,可以说是“卖铲子”的关键角色, #RDMA #IB架构 #中科曙光 #中兴通讯 #中国移动
00:00 / 03:48
连播
清屏
智能
倍速
点赞90
00:00 / 00:53
连播
清屏
智能
倍速
点赞4
00:00 / 01:45
连播
清屏
智能
倍速
点赞102
00:00 / 16:25
连播
清屏
智能
倍速
点赞31
00:00 / 22:02
连播
清屏
智能
倍速
点赞19
00:00 / 15:26
连播
清屏
智能
倍速
点赞124
00:00 / 00:14
连播
清屏
智能
倍速
点赞9
00:00 / 08:35
连播
清屏
智能
倍速
点赞36