粉丝4705获赞5.5万

英伟达 rubin 散热系统深度解析及未来展望英伟达 rubin 架构作为 blackboard 的 下一代 ai 算力平台,其散热系统经历了颠覆性重构,核心围绕百分之一百,全面了超大尺寸均热冷板整合微通道冷板 mccp 技术 与四十五摄氏度温水冷却四大支柱展开,已应对单 c p u 高达一千八百到两千三百瓦的空号挑战 autopilot, 同时实现数据中心冷却效率的革命性提升。一、 散热需求的根本性转变 rubin 平台的散热需求源于 ai 算力密度的指数级增长,单克 rubin gpu 格号达到一千八百 r, ultra 版本更是接近两千三百 r。 最后上一代 blake 的 一四零零 w 提升近百分之六十五,传统单向冷板散热上限约一千五百, 风冷方案更是完全无法应对这种级别的热能,这迫使英伟达彻底重构散热架构,走向全液冷加微通道加温水冷却的技术路线。同时如变平台通过六芯片协同设计、 vr c p 与鲁炳 g p 有 emblanc 设计等,实现性能提升五倍,算理成本降低十倍,这种极致性能密度进一步放大了热管理的挑战。二、核心设计理念从碎钻到整钻的整合式 散热鲁炳散热系统最显著的变化是从 black 时代的多冷板分散式回归到单一大冷板整合式 设计。这种被业类称为暴力美学的方案带来了三大核心优势,全域覆盖 一张超大尺寸均热能板,覆盖 d p u h b m c p u 电源模块两所有发热部件,消除了传统方案中多个独立冷板间的热流不平衡问题,简化连接,大幅减少 u q d 可接头和内部微流道数量,提升系统可能性并降低泄露风险。同时简化组装流程,降低生产与维护成本。均热强化冷板内部,优化流道设计,使表面温差控制在五摄氏度以内, 彻底解决局部过热问题,为芯片稳定运行提供更均匀的热环境。这种设计理念与 g b 二零零时代的大模板模组方案相似,但在冷板材料、微通道工艺和热管理算法上实现了质的飞跃。

昨晚的英伟达如本,我看市场存在很多误读,传闻说如本不需要水冷基组,很多人就慌了,以为夜冷逻辑正伟了。逻辑完全反了,老黄所说的无水冷基组并不等于无夜冷。真相是,如本进化太强,直接能用四十五摄氏度温水冷却,这砍掉的是环境测的空调, 保住的是算力测的冷板。本次发布会,黄仁勋确认,如本百分之一百全夜冷风扇彻底退休,连光模块交换机都要上冷板。 接下来的核心增量在两个点,第一是微通道工艺,从做水管变成了做毛细血管,技术壁垒极高。第二是 c d u 升级,功率跃升,道逼价值量暴涨百分之四十。 这不是立空,这是技术护城河的加深,最后升级谁会受益?这种技术升级,小厂根本玩不转,份额会向三个方向集中,总龙头依然是绑定 n v 的 国内热管理一哥,新黑马是手握代工大单的精密制造厂, 预期差光模块的 k 值,夜冷环节二零二六年出货,现在就是送样认证的抢筹期。别等满世界都是温水了,你才反应过来。

当 ai 芯片算力迈向千瓦级时代,散热已成为制约性能释放的核心瓶颈。英伟达近期引发行业热议的夜冷退场,实则是一场对散热技术的颠覆性革新, 放弃效能不足的传统夜冷方案,转而压住微通道冷却技术,为下一代超高功耗芯片打造专属热管理系统。这一转变并非技术倒退,而是算力爆炸式增长下的必然选择。传统夜冷的退场源于其结构性缺陷。 随着英伟达 blackwell 架构 gb 两百芯片单功耗突破一千瓦,热流密度超过一千瓦每平方厘米,相当于将十台游戏本的发热集中在手掌大小的硅片上。 传统冷板式液冷已难以为继,这类方案依赖多层热界面材料导热量,热阻累积严重,且毫米级流道导致换热效率不足,芯片热点区域与平均温度差长超十五摄氏度,迫使芯片降频运行。更关键的是,传统液冷需配套冷水机组,将水温降至十摄氏度左右, 不仅推高数据中心建设成本百分之三十到百分之五十,还导致 p u 一 直居高不下,与算力集约化趋势背道而驰。 英伟达的解决方案是微通道冷却技术,通过微观尺度的结构优化,重构散热逻辑。其核心是在芯片封装基板或硅中介层上时刻五十到五百微米的超细流道,让冷却液直接贴近热源,将热传导路径缩短至毫米级。这种设计带来三重突破, 一是换热面积较传统冷板提升十倍以上,对流换热系数可达常规液冷的十倍。二是流体呈高强度吞流状态,热量传递效率指数级提升。三是通过流道密度精准匹配芯片热分布,使表面温差控制在五摄氏度以内,彻底解决局部过热问题。 黄仁勋提出的四十五度水就够,并非否定液冷,而是微通道技术无需低温冷水基组的佐证,让数据中心 p u e。 降至一点零五的业界新低。 这一技术已历经三代迭代,引进 a 一 百时代的冷板级外部微通道,实现四百瓦 t d p。 散热 h 一 百通过硅中阶层集成微通道,将热阻降低百分之四十,支撑七百瓦功耗,稳定运行。最新 blackwell 架构更采用双向禁锢式微通道, 在芯片背面构建纳米级流道网络,利用制冷剂相变吸热,热阻低至零点零五平方厘米 k 每瓦,仅为传统导热高的二十分之一。对于即将推出的 rubin 架构 gpu, 其两千三百瓦的超高功耗将通过微通道液冷板实现散热。该技术支持超过两千瓦热功耗,热阻可低至零点零二摄氏度平方厘米每瓦,成为冷革命三点零的核心支撑。 技术革新背后是全产业链的协调升级,英伟达正联合双红、祁红等厂商,攻克微通道制造难题,解决流体密封、流道堵塞等痛点。尽管 m l c p 单价是传统水冷板的三到五倍, 但相较于算力损失的隐性成本,仍具性价比。同时,英伟达保留了多样化选择,为未部署夜冷的场景提供风冷版 b 三百系统。 而专业卡如 rtx pro 五千则沿用风冷设计,形成高端微通道、终端冷板、入门风冷的梯度布局,这场散热革命的影响远超技术本身。数据中心将从风扇集群转向精密流体系统,机柜布局、运维模式全面重构夜冷服务器渗透率预计二零三零年升至百分之三十五。 更重要的是,微通道技术突破了热力学限制,让 xfloop 即超算和百万卡级 ai 级群成为可能。 未来,随着规通孔、微通道、 ai 实时热管理等技术的落地,散热将从被动防护升级为主动优化,与芯片设计深度融合。英伟达气用传统液冷的选择,本质是用技术创新突破物理极限。当算力竞争进入深水区,散热技术已成为 ai 产业的核心竞争力之一。 微通道冷却不仅解决了当下的散热困境,更定义了下一代高性能计算的热管理标准,推动整个行业在热力学与商业价值之间找到新的平衡点,为 ai 算力的持续爆发扫清了关键障碍。

今天这期视频跟大家聊一聊最近的产业上的一个进展啊,就是我们在一月六号 cs 展上啊,我们英伟达 ceo 黄仁勋啊发布的这个呃主题演讲,包括他推出的下一代的如饼架构。 呃,我们这一期视频的主要是跟大家讲一讲这个拆解一下这个如饼架构的一些技术特色啊。一个是如饼架构 将 ai 正式迈入物理时代啊,开启半导体测试的量价启程的周期啊。那么首先呢,入饼价购正式迈入量产阶段,预计首批产品将于二零一六年下半年呃送达客户,那么该平台通过顶尖硬件集成与架构创新,再次推高了数据 中心算力的上限,也就是呃入饼平台算是算力的又一节点时刻啊。呃,首先物理复杂程度的登顶啊。 呃,首先它采用的是台积电的呃三纳米的工艺啊,晶体管的数量突破了三千一大管,那么根据量测模型的晶体管数量的翻倍,将驱动测试数据量成三倍以上的增长,因为晶体管一多,你的整个芯片的这个 从后端验证测试可能就要转向事前预防了,所以你这种三倍以上的扩张,呃将大大的提高这个半导体测试芯片测试的这个用量。那么同时呢, hbm 四引发通道资源的挤兑,因为 ruby 里边集成了八颗 hbm 四啊,所以它的这个呃存内存的这个 预期又拉高了啊,那么测试机的数字版卡资源消耗翻倍啊,导致了它的整个的成成本,包括它呃产能维持成本,包括单台测试机的量都要提升啊,这是一个指数型的增长啊, 所以呢,在这个最新的入品架构里,预计总测试时长将延长百分之五十,也就说可能要花大量的时间啊,这个芯片在量产的阶段可能要大量的啊,包括我们讲的就是全检逻辑啊,全检全周期都要去检验测试 啊。呃,首先就是说入品,它面向的是未来机器人和自驾的这种物理 ai 时代啊,那么对可信的要求近乎万美元,所以量率乘极定律较为残酷,测试非常关键啊, 它的重心将转为事先预防啊。那同时黄仁新确认,这个烙饼架构采取百分百液冷的方案,取消了风扇以及传统的软管啊。冷板的架构上采用类似 g b 两百的这个大冷板的模组方案,一块大冷板覆盖一个 cpu 啊,加两个 gpu 的 组合,并采用 g b 三百单一小冷板的方案 啊。那么如饼交换机的方案与 g b 三百的架构类似,小冷板覆盖,同时光模块环节也采用冷板覆盖,所以全液冷的这个架构趋势是非常明显的,所以预测在这个液冷方案方面也能提升它大概百分之四十左右的价值量啊, 所以这个可能呃,叠加近期的这个如饼架构的催化啊,大家看到包括我们国产替代的这个设备,半导体设备的趋势呢,大家可以看到市场上表现 非常亮眼的,最近的我们国产的半导体设备啊,测试零部件啊,这些表现都不错。这个其实也是我之前很早跟大家讲的,就是半导体设备今年的先进制程的扩展逻辑啊,它的业绩是比较确定性,如果我们要 m f 三一级报啊,三月份的话, 那么春季造动如果是机构去做业绩线的话,国产替代半导体设备的业绩较为明确啊,较为明确呃,所以这也是近期的市场表现的一个逻辑了啊。所以这期视频呢,就主要跟大家讲一讲最近比较热的这个全新一代的主品架构啊,同时呢也是看到了市场上的聪明资金已经在选择一些方向的新机会了啊, 同时我觉得在这种量能维持下去的话,呃,能,如果维持两万五到三万一之间的量能的,所以就说你可能看好的一些 中期方向,我觉得不妨坚定的多看一看,哪怕呃说日内的调整,或者说这种,呃指数十几连阳之后的这种调整啊,调下去可能或许都是机会啊。所以就是还是那个逻辑不变,就是你看好的一些方向,或者说他未来能预期到要爆发要增长的方向,其实 重要的是你的认知到了之后,剩下的就是看你的耐心和交给时间啊。好吧,今天视频就到这。

欢迎收听。今天呢,我们想跟您深入探讨一个话题,他表面上看,嗯是关于代码和算法的,但您要是挖深一点就会发现,这其实是一场物理层面的竞赛,一场关于功率散热还有呃,物理极限的较量。 可以说现在的人工智能革命已经实实在在的撞上了一堵热墙。嗯, 是,而且这堵墙啊,它来的比所有人想的都快。您提供的这些资料里面,我觉得最有趣的一点就是它把两条线索给连起来了, 一边呢是 amd 和 nvidia 在 芯片性能上可以说是松狂的飙车,另一边呢是数据中心的基础设施真的被逼到了物理极限。 结果就是工程师们现在不得不开始扮演呃,有点像管道工的角色了。 管道工,这个比喻太新奇像了。所以我们这次的任务就是要把这两条线索给您讲透。首先, amd 他 到底拿出了什么新东西能让市场觉得,哎,他这次真的有机会去挑战 nvdia 的 那个霸主地位。 然后呢,我们就顺着这条线去看看这场芯片战争背后那个呃,真正决定胜负的战场就是那个庞大复杂甚至有点吓人的夜冷系统,它到底是怎么运转的? 好,那我们,嗯先从 amd 说起。我梳理了一下他们最近的发布会,给我的感觉是,他们这次好像不只是发布了一两款性能很强的芯片,更像是在下一盘大棋,就是想构建一个能和 nvidia 整个生态系统去抗衡的一个联盟。 没错没错,关键就在生态系统这四个字上。您单看芯片他们的路线图,确实,嗯,非常激进,已经出货的那个 mi 三五零系列,然后紧接着就是 mi 四百和 mi 五百, 那个性能几乎是每年翻一翻。每年翻一翻?对,但更重要的是他们推出了一个叫 helios 的 ai 机架。 这个东西它就不是单独卖 gpu, 它是一个预先集成好的完整系统,里面有 amd 自己的 cpu, gpu, 甚至还有他们之前收购 pansando 之后拿到的那个专用网卡, 这个打法就是直接冲着 nvdia 卖整个超级计算机群的那个模式去的。哦,我明白了,等于说以前是卖零件让客户自己回去组装,现在是直接卖一台呃,预装好的 ai 主机。 但这里面最大的难题恐怕还是软件吧,毕竟 nvidia 的 那个酷的平台就像是 ai 领域的 windows 系统开发者全在上面。这个护城河太深了。您说到点子上了,这也就是 amd 过去呃,屡次失败的地方。 他们这次的答案呢,是一个叫 rocm 十的一个开源的软件平台。说实话,要让开发者迁徙过来难度非常大。但 amd 的 策略很聪明, 它主打开放和选择权,开放和选择权对,它不像 nvd 那 样所有东西都自己做。它是联合其他的巨头,比如去支持一个叫超级以太网联盟 uec 的 这么一个开放网络标准。 他的潜台词就是说,你用 nvidia, 你 就被锁死在他的生态里了。用我们呢,你可以自由组合最好的技术,而且成本可能还更低。哎,这种统一战线的策略听起来是挺有吸引力的,而且这次好像真的有了一些效果。 我看到资料里有一个非常有意思的细节,就是 openai 的 ceo 那 个赛姆阿尔特曼,他竟然亲自去给 amd 的 发布会站台了,这可不是一件小事啊,这绝对是风向标致的事件。阿尔特满的这个背书,就等于是在告诉整个行业, 我们认为 amd 的 技术是可行的,而且我们愿意用它。这个对建立市场信心来说太重要了。 再加上 amd 的 ceo 苏兹峰预测到,二零二八年 ai 加速器市场规模会超过五千亿美元,而这里面增长最快的那一块儿,恰恰是推理市场。推理市场对 这部分市场对成本更敏感,也更愿意去接受一些替代方案。这可能就是 amd 瞄准的那个突破口哈,每年翻倍的性能,然后市场规模又在爆炸式增长。这一切听起来都非常美好,但这让我想到了一个嗯,很根本性的问题, 你不能凭空变出算力来,这背后都是实打实的电能消耗啊。把这么多小太阳塞到一个铁盒子里,那个热量要怎么处理?我看这些资料,好像这恰恰就是整个行业撞上的那个大问题。是的, 这就引出了我们今天真正的核心那堵热墙。资料里反复出现一个词,一千四百瓦功耗墙。 不管是 amd 的 m i、 三五五 x, 还是 nvi 的 新一代芯片,单颗处理器的功耗已经或者说即将突破一千四百瓦,这是一个非常关键的物理依据。等一下,一千四百瓦, 我家里那个电磁炉开到最大火力也才两千瓦左右,这就相当于把一个随时在沸腾的炉子浓缩到一块饼干大小的芯片上。 这,这太疯狂了。对,所以传统的晒热方式,也就是用巨大的风扇对着服务器猛吹,到这里就就彻底没用了。不是效果不好,是根本醒不通了。 有一份报告的结论很惊人,如果没有高效的液冷这些顶级的芯片,它的性能会因为过热保护而自动降频,性能损失可能高达三十帕以上。百分之三十?是的, 你想想,花几百万美元买的算力,有三分之一就这么白白的蒸发掉了,彻底没用了。这个结论听起来还挺极端的, 难道就没有任何场景风冷还够用吗?还是说,整个高性能计算行业现在都被迫要转向逆铁过滤了?嗯,对于最顶尖的 ai 训练和那种大规模的推理集群来说,确实是这样。风冷已经算是过去式了。 当然,在一些呃,对成本更敏感、算力要求没那么极致的企业应用场景风冷方案,因为它更简单、更便宜,所以依然有它的市场。但是,金字塔尖儿的这场竞争,已经完全是夜冷的赛场了。我看到您提供的那份 super micro 的 白皮书,有一些数据非常惊人, 比如他提到一个夜冷节点的工号比风冷节点平均低了十六帕。这个数字听起来很可观, 但是把它放在一个巨大的数学中心里,它到底意味着什么?能帮我们换算成更直观的概念吗?当然可以,十六帕这个数字,它看起来只是一个百分比,但你把它换算成钱,就非常吓人了。 白皮书估算了一下,在一个部署了一千个节点的 ai 级群里面,光是省下的电费一年就能达到两百三十万美元左右。 更关键的是什么呢?这个优势它不是限性的,当你的 g p u 利用率越高,就是跑得越卖力的时候,那个风扇就需要转得越快,消耗的电力是呈指数级增长的。 而叶冷系统呢?它的那个泵的功耗相对来说比较稳定。所以结论就是,您的 ai 级群越努力工作,叶冷就越划算。明白了。所以说,现在所有新建的大型 ai 数据中心,本质上都成了一个个高科技的管道工程项目。 既然这样,那我们就深入进去,看看这个 ai 管道系统它到底长什么样?没问题,我们可以把它想象成一个呃,多级的循环系统, 最核心的是直接和芯片接触的那个部件,叫做冷板 coldplate, 您可以把它理解成一个给 cpu 降温的高科技冰袋, 它里面布满了那种极其微小的通道,然后冷却液流过去,就能精准的把芯片核心的热量给带走。好的,这个冰袋带走了热量,那然后呢?这些吸收了热量的液体要怎么在一个塞满了成百上千颗芯片的机架里流动起来? 这就需要一个叫做气管 manifolds 的 东西了。这个词听起来很专业,但您完全可以把它想象成一个插线板,只不过它分配的不是电流,而是冷却液。一根总水管接到机架上,通过这个气管再分流到每一台射负器里。 但在这里,有一个小到不起眼却事关重要的零件,我个人觉得是这次所有资料里最让人有那种哦,原来如此感觉的设计。 它叫盲插式快速插拔接头。盲插,听起来就像我们不用看,凭感觉就能把那个 usb 插头插对一样,完全正确。您想象一下那个场景,一台射伏器重几十公斤, 维护人员需要把它推进一个又深又窄,背后塞满了各种电缆和管道的机架里。如果每次都要他们伸手到后面凭感觉去拧紧那个水管接头,那简直是场灾难。而且一旦没拧紧漏水了,那个后果不堪设想。我明白了,这个小小的接头, 听起来像是整个大规模液冷数据中心能够实现维护的关键,没有它,整个系统就变成一次性的了,就是装上就别想再动了。说的太对了,这个盲插接头就是让这一切变得可行的关键技术。 射伏器滑轨推进去,咔嚓一声,水路和电路就同时自动接通了,完全不用人工干预,而且保证不泄露。 它甚至还有一定的容错设计。就是说就算社服器没有完全对准,也能连接成功。 说它是数据中心维运人员的救星,也一点儿都不过分。老实说,您第一次看到一个几百公斤重的社服器被一个人轻松推进去,然后叶冷系统就自动开始工作,那种感觉更像是在看科幻电影,而不是 it 维护。 这个设计确实是巧妙好。我们顺着液体的流向继续往上走,液体在机架里循环了一圈,吸收了所有芯片的热量,他自己也变热了。 那接下来要去哪里给它降温呢?哎,就只需要大家伙出场了,叫做冷却液分配单元 coolant distribution unit cdu。 如果说冷板是猫系血管,那 cdu 就是 整个系统的心脏。 它是一个巨大的柜子,负责把从成百上千台 servo 返回的热液体进行冷却,通常是和数据中心主冷冻水系统进行热交换,然后再用强大的水泵把冷却后的液体重新输送回去。 这些设备的规模非常惊人,像来趟公司的列间系列,油功率高达二点一兆瓦, 而 vertif 和 nvidia 合作的那个参考设计,功率甚至达到了七兆瓦,足够给一座小型城市供暖了。哇, 那么这些管道里流的到底是什么?总不可能是普通的自来水吧?当然不是,主流的有几种选择,纯水、去离子水,还有一种乙二泉水混合物 veg。 后者其实就跟我们汽车里用的那个防冻液差不多,这里面有很多权衡, 比如防冻液导热性不如纯水,但可以防止冬天管道结冰。不过这里有个特别反常识的细节, 我们总觉得水越纯越好,对吧?对啊,但是极度纯净的那个去离子水,因为它内部缺少离子,会变得非常有侵蚀性,它会主动的从金属管道里抢垫子过来,时间长了反而会腐蚀管道。哎, 太有意思了。所以最纯净的水反而是对管道最危险的,这完全颠覆了我的认知。是的, 所以选择哪种冷却液,背后是一门很复杂的化学和材料科学。随后也是所有人最关心的问题,万一漏了怎么办? 毕竟在塞满了昂贵电子设备的地方玩水,听起来总让人心里发毛。对,这肯定是系统设计的时候必须考虑的头等大事,安全是第一位的, 所以整个系统里布满了各种各样的泄露检测深处儿,最常见的是沿着管道底部铺设的那种感应蓝声,一旦有水滴滴上去,电组织就会变化,立刻触发警报, 还有湿度和温度 sensor, 因为水滴泄露蒸发会引起局部环境的微小变化。更高级的系统会通过软件实时 monitor 整个水路的压力和流量,任何微小的异常波动都可能是泄露的前兆。 像 aveda 的 那个 mission control 管理软件,它就能整合所有这些数据,一旦发现问题,可以在毫秒之内切断故障区域的电源和水路,把损失降到最低。好的, 所以我们看到了 a m d 的 全面挑战,也理解了为什么整个行业都被迫转向这种复杂的叶冷技术。这一切听起来已经远远不是两家公司之间的竞争了。没错,我们必须认识到, n v d 并没有坐着等被追赶, 实际上,正是他们用像 g b r 零 n v l 七十二这样的产品在引领整个行业的叶冷改革。 您不能再把 n v l 七十二看成是一台 server 了,它是一个出厂就自带完整液冷系统的装在盒子里的 ai 超级计算机, 一个机架里塞进了七十二个 g p u 和三十六个 c p u。 整个行业。像我们刚才提到的 boyd, vertif, lighten, 这些公司都在围绕着这些庞然大物为它们定制配套的水电系统。那其他的玩家呢?比如说英特儿, 他们是怎么应对的?嗯,英克尔的策略很有趣,他反映出这个市场的进一步细分。他们一方面推出了风冷的 gpu, 瞄准的是那些对成本更敏感,不需要极致性能的企业客户。另一方面呢,对于高端市场,他们也推出了完整的液冷高低三级架, 这就说明未来的 ai 势少不会是铁板一块,而是会分化出不同的层级,风冷和夜冷会在各自的领域共存。这对那些制造管道系统的公司来说, 简直就是一场基础建设领域的淘金热啊。完全正确,无论是做哭令的、做连接器的,还是做电源的,都迎来了前所未有的机会。 资料里提到,像 boyd 这样的冷却方案公司,他成功进入了 nvidia 的 推荐供应商名单。 这就是一个非常强烈的信号,说明他们的技术和产物已经得到了市场龙头的认可。好了,今天我们从芯片战争聊到了物理热墙,再到 ai 数据中心里这些复杂又精密的管道工程。 这确实是一场由对算力永不满足的需求所驱动的规模非常宏大的技术改革。是的,但就在我们以为搞明白了怎么给芯片降温的时候,问题本身其实已经在悄悄演变了。 您提供的资料里提到了 nvidia 在 光筐子和供风装供学技术上的最新进展。简单来说,就是把负责光信号传输的光学原件和网络交换机芯片直接封装在一起。等等。这是什么意思? 把光纤直接插到芯片上?可以这么理解,当成千上万个 g p u, 需要以极高的速度交换海量数据的时候,传统的电信号传输会遇到瓶颈,又慢又耗电, 用光来传输速度更快,能耗更低。但问题是,这些微小的光学引擎,它们在工作的时候也会产生大量的热。 nvidia 现在已经开始给这些集成了光学原件的网络设备上夜冷了。我明白了,所以 就在我们刚刚搞清楚怎么用夜冷给计算降温的时候,下一个需要被液体包裹的变成了通信。正是如此。 所以我想留给您思考的是, ai 基础设施的未来会不会不仅仅是液冷的芯片,而是一个完整的由光之流体驱动的被冷却液包裹的液冷网络? 我们解决了热量的问题,才发现数据传输成了瓶颈。当我们开始用光来解决传输问题,又发现光本身也需要被冷却,这场和物理系极限的赛跑似乎永远没有终点。

英伟达如饼散热系统深度解析及未来展望五、热管理创新四十五摄氏度 温水冷却与无制冷机数据中心如饼散热系统最具颠覆性的创新是四十五摄氏度温水冷却技术,这一技术彻底改变了数据中心冷却的经济学。首先是功耗翻倍,但水温不变。 尽管如炳功耗是 christmas co。 的 两倍,但其夜冷系统依然可以使用四十五摄氏度的温水进行冷却,突破了传统夜冷对低温进水的依赖。 其次是实现无制冷机数据中心四十五摄氏度温水冷却,使数据中心不再需要昂贵的制冷需求, p u a 值大幅降低,运营成本减少百分之三十以上。 最后是热回收价值提升,四十五摄氏度的出水温度具备更高的热回收潜力,可用于数据中心供暖、 生活热水等场景,进一步提升能源利用效率。这一技术的实现源于微通道冷板的高效散热能力与系统级热管理算法的优化,使高温进水条件下依然能维持芯片温度在安全范围内。六、 散热成本与产业影响如饼散热系统的高性能带来了成本的上升。据诺弗特克估算,威瑞如饼与 v l 一 四四系统的液冷系统 成本接近五万五千七百一十美元,旧前代增加百分之十几。其中计算托盘冷却成本,每托盘约两千六百六十美元,旧前代增加百分之十八十八个托盘,总计约四万七千八百八十美元。尽管成本增加, 如饼散热方案仍推动了液冷产业的三大变更,一是微通道技术普及,加速微通道冷板 m l c p 技术的产业化,带动时刻 3 d 打印等工艺升级。二是全液冷市场扩张,验证百分之一百全液冷方案的特性,推动数据中心液冷渗透率提升。三是温水冷却生态形成,促进无制冷机数据中心的发展,推动冷却技术从制冷向热管理转变。

我有点纳闷啊,老黄说撸饼不用冷水机煮,为什么大家都那么都那么震惊? 难道 gb 三百?你们见过液冷加质量里面有这玩意儿吗?难道没有这玩意儿就没有 cdu? 没有冷板?没有 mainframe? 没有快接头了吗?想要了解更多 ai 产业资讯,关注我哦!

这几天呢,做了一轮比较深的产业梳理啊,核心只干了一件事,就是把 g p 三零零到 ruby 这一代,英伟达整个的供应链从头到尾重新过了一遍。这次黄仁勋呢,在 c e s 大 会上表态也很明确,就是这一代呢,不是大家跟着一起升级,而是一次明确的筛选,有些公司会直接被挤出牌桌,有一些呢,就会变成 接下来两三年的核心。这轮的变化基本上都集中在四条线上面,一个是 c p o p c b 液冷还有电源。先说 c p o 还有高速互联,从 b 三零零到 ruby 互联这件事,已经不再是贷款升不升级的这个问题了。 g b 三零零那轮的话,八百 g 是 主流,只要能把八百 g 给跑出来,价格合适,那就能进攻一面。但是到了 ruby, 那 八百 g 只是一个起步, 整个系统已经开始围绕一点六 t 的 方向在设计,同时的话,像机柜功耗啊,接近了两百千瓦,无风扇加液冷成了一个常态, 因为长距离的电连接呢,开始吃力,光这时候必须被推到离计算核心呢更近的位置上。这就意味着说, ruby 要的已经不是换代的光模块,而是需要真正能做光电供封装的这个 cpu 方案,能在 高温高密度还有满载运行的环境下面,长期能保持一个稳定的雾马率,还有稳定时延,谁能把这个八百 g 跑到极限稳定同时又具备一点六 t 的 研发路线,还有一个系统级的封装能力, 谁才能够留下来?而那些只能吃八百 g 红利啊,靠参数还有价格竞争的,在 ruby 这一代哈就自然地被边缘化。我们再往下看 pcb 这一代的话,变化也非常大,很多人可能还没意识到, gb 三零零的 pcb 的 话,大家关注的还是服务器版还有交换版,拼的呢,是层数量率,还有客户 ruby 呢,不一样了, ruby 开始引入 mid plan, 也就是中版背版,而且是要往无氧化的方向来走,这个变化本质上在解决什么问题呢?就是不是性能, 而是装配还有复杂度。那机柜工号越来越高,密度越来越大,线缆越来越多的话,装配时间出错概率呢?还有维护成本都会指数级的上升。所以英伟达选择了一条路,要把线变成板,要把人工装配变成一个结构插合, 这对 pcb 的 供应链影响会非常的直接。这就不是会做 pcb 就 行的一个问题啊,是必须能做到超高层数,还超高可能性,还有稳定能交付的这个版子如果做不到这一点的厂商的话,会直接被卡在门外,尤其是那些还停留在中低层,数量律不稳定,交付波动大的公司, 在 ruby 这一代的话,生存的空间会明显的被压缩。这一轮 pcb 呢,肯定不是量的竞争,而是供应能力的淘汰赛。接下来就是业的这条线的变化呢,其实最为直观, 在 g b 三零零那一代,液冷呢,已经开始火了,但是还有个特点,它更多就是个加分项,很多机房呢,还是靠风冷还混合方案来支撑的,那液冷更多的是有你更好,没有呢也能凑合。珠比这一代的话,这种模糊状态 会结束,那关键的计算单元开始走无风扇的设计,那冷却液的流量大幅的提升啊,还有风量需求呢,反而是明显的下降,这背后的信号呢,非常明确, 液冷不再是一个选配,而是一个默认项。在这里要注意一件事,就是真正能吃到红利的,不是谁沾点液冷的概念,而是谁能真正解决这个实际的问题。比如说这个里面, 微通道冷板的加工精度,还有一致性, c d u 的 稳定性,溶于能力分歧管快捷在高流量下的可靠性,能不能做这种机柜级的系统交付,而不只是卖零件这么简单的事,如果只会做低端的配件,靠拼价格会很难走远, 能做系统还有能扛大项目的,能稳定交付的,才会成为核心。电源这条线肯定会从题材慢慢变成基础设施。最后就是电源这一条的话,在 ruby 这一代非常的关键。 g b 三零零时代呢,电源更多的是跟着算力走,功率呢提高一点,配电改一改, ruby 就 不一样了, 机柜功耗直接给抬到了接近两百千瓦的级别, power shelf 还有电源熔余进线电流全都上了一个台阶,这意味着什么呢?意味着电源已经不是一个模块的问题,而是系统工程的问题,它从 p s u 本身呢,到机柜内配电,再到机房的母线啊插接箱 等等,都必须要跟着一起来升级,做低功率,低功效,还有靠价格竞争的这个电源厂,这一代的话肯定会非常吃力。而真正有价值的呢,是那些能提供高功率密度、 高效率、高可靠,溶于并且够适配未来架构眼镜的这些方案。更重要的是, ruby 这一代的话,已经把一个信号摆在台面上了,五十四伏的配电啊,快到了物理极限, 那后面一定会往更高的电压直流体系去走,这意味着说电源还有配电这一块的话,后面还会再洗一轮。把我们刚才说的四条线呢放在一起看,其实逻辑就清楚了,从 g b 三零零到 ruby 的 话,英伟达供应链正在从电子性能导向转向呢,系统落地的导向, 谁能解决现实世界的这个问题,谁就能够被留下,谁只是讲了一些参数,讲了一些概念,谁就会被淘汰。这一代的话不是一个普涨的行情,而是一个非常清晰的筛选。如果我们接下来再看 ai 硬件的话,不妨多问自己一句话, 这家公司解决的是 ruby 这一代的必需问题,还是上一代的锦上添花这个事儿?而这个答案的话,基本上就决定了它会不会在下一轮成为这个核心。

英伟达 rubin 芯片液冷散热深度分析基于 c e s。 两千零二十六的最新信息,黄仁勋宣布的 rubin 平台液冷散热方案标志着 ai 芯片散热技术进入新纪元。以下从技术必要性、需求变动、产业链影响三个维度进行系统分析。一、 rubin 芯片的散热从需要到必 须一,功耗激增使液冷成为唯一选择,单芯片功耗达二点三千瓦。 rubin gpu 的 热设计功耗 t d p 高达两千三百 w, 远超 blackwell 架构的一千四百 w 传统风冷散热极限仅三十到五十千瓦机柜已完全无法满足需求。风冷技术物理极限当前 g b 两百 n b l 七十二机柜功耗已达一百三十到一百四十千瓦,相当于两百台家用空调全速运转。 风冷已触及天花板百分之一百叶冷覆盖 root 平台采用无风扇设计,计算托盘和网络交换托架完全依赖叶冷,风量需求降低百分之八十, 冷却液流量需求增加近百分之一百二。无需冷水基组的技术本质黄仁勋所称的无需依赖冷水基组并非指不需要散热,而是指散热架构的革命性简化。高温冷却液直连 rubin 支持四十五摄氏度进水温度, 可直接利用自然冷却或冷却塔,无需传统冷水基组 chillers 制造七到十二摄氏度低温水系统,即能效优化,通过微通道冷板 m c c p 加镀金散热盖技术,在芯片级实现高效换热,降低对低温水源的依赖, p u e 值显著改善。传统风冷 p u e 普遍大于一点五, 液冷可降至一点二以下,数据中心能耗降低三十到百分之五十二。液冷需求变动,从可选到刚需的爆发需求侧变化指标, blackwell g b 两百 rubin vr 两百变动幅度单芯片功耗 一零零零 w 二三零零 w 加百分之一百三十机柜液冷价值量四万一千五百美元五万五千七百加百分之三十四冷却液流量精准加百分之一百翻倍市场渗透率逐步渗透百分之一百强制制的变化技术路线升级, 一、微通道冷板 m c c p 成为主流,将流道缩小至微米级,十到一千微米热交换效率提升三倍以上,可处理大于一千瓦每平方厘米热流密度。二、 从冷板式向进末式引进分析师预计二零二七年 viruban ultra 六百千瓦机柜将全面转向进末式液冷。三、芯片即散热创新,未来可能采用微通道盖板。 mcl 将冷却液直接集成到芯片封装内部,预计二零二七年下半年量产。 市场规模预测,叶冷组建价值量持续提升。英伟达 ai 服务器叶冷价值从 g b 两百的四点一五万美元, g b 三百的四点九九万美元, rubin 的 五点五七万美元,单平台增幅百分之十七,产业链起点已至 transforce 指出, ai 数据中心叶冷已从备选方案变为必需品, 国内二零二五年新建数据中心 pe 强制小于一点三,叶冷市场进入高速成长期。三、产业链影响与受益公司 受冲击方传统制冷设备商黄仁勋言论直接导致相关股票暴跌,反映市场对其长期需求的担忧。江森自控 johnson controls 股价一度暴跌百分之十一,创二零二二年以来最大跌幅。特林科技 train technologies 同步走低,冷水基组业务面临替代风险。摩丁制造 modern manufacturing 跌幅一度达百分之二十一后收窄至百分之七点四。 冲击逻辑,传统冷水机组在数据中心的定位被边缘化,但短期业绩风险可控,因现有数据中心改造需过渡期。二、核心受益方,叶冷解决方案商 a 股核心供应商领益制造 o 通过子公司利敏达切入英伟达核心供应链,供应 ruben 散热系统百分之九十五核心部件。 o 产品包括冷板分水器 manifold、 叶冷快接头 u q d n d q d 单机柜,价值五万两千九百二十美元欧块街头通过英特尔通用互差互换联盟认证,具备跨厂商适配能力。英维克欧,国内叶冷龙头服务谷歌及国内头部互联网厂商。二零二五年叶冷营收超二亿元, o v 字节跳动,腾讯、阿里、移动、电信等大型数据中心提供液冷系统。 o 二零二五年前三季度营收四十点二六亿元,同比加百分之四十点一九。净利润三点九九亿元,同比加百分之十三点一三。薄捷股份 o v 通道分层式水冷头已用于英伟达 代号 n 客户 gpu 测试设备。 o 积累微通道设计液态金属散热技术,具备向零部件供应商转型潜力。 国际参与者 fertek 维 d 技术在液冷领域拥有强大地位,但冷却器业务可能受损,股价先跌后反弹。其红科技 a v c 被英伟达接触为 ruben ultra 设计微通道冷板。三、产业链各环节价值分布芯片级散热 m c c p 冷板加镀金散热盖价值量最高。机柜级组建 c d u 冷却分配单元,分歧管快接头流量翻倍,带动需求系统及方案,整机柜液冷设计无 模块化架构,技术壁垒最高。四、关键结论与投资逻辑一、叶冷从可选项变为必选项, rubin 的 二点三千瓦功耗使叶冷成为强制要求百分之一百渗透率,带来确定性需求增长。二、技术迭代创造新价值微通道技术、 无风扇设计、高温冷却液等新方案,使单机柜叶冷价值量较 black 要提升百分之三十四,且向芯片级、系统级延伸。三、供应链深度绑定领益制造力敏达 供应 rub 散热系统百分之九十五核心部件应为客服务,国内头部客户具备稀缺卡位优势。四、短期市场情绪 vs 长期趋势传统制冷股暴跌反映预期变化,但夜冷产业链公司需关注产能释放节奏。 rub 平台二零二六年 q 三,启动交付 q 四、量产 二零二六年下半年订单将逐步落地。五、风险提示,需警惕技术路线变更风险及能耗扩张不及预期风险。 核心判断,英伟达入门平台不仅是算力升级,更是散热架构的范式转变,它通过芯片级液冷创新,解决了超高功耗散热瓶颈,同时简化了数据中心制冷系统,直接立好掌握微通道技术,具备精密制造能力的液冷核心供应商。

各位科技发烧友们,你们知道吗?英伟达的液冷方案这几年可是经历了一场从 blackwell 到 rubin 的 华丽变身。很多人可能觉得液冷不就是换种方式散热吗?其实这里面藏着大讲究。早期的 blackwell 架构液冷方案更像是给 gpu 穿上了一件定制冰甲, 主要解决的是单芯片的极限散热问题。就好比给一个火力全开的发动机单独装了个强力散热器,虽然效果显著,但更像是针对特定型号的专属方案。 而到了 rubin 架构,英伟达玩了个形态重构,他们把夜冷从单一的芯片级升级成了系统级解决方案。想象一下,以前是给每个发热原件单独装空调,现在是给整个机房设计了一套智能温控系统, 不仅能精准控制每个核心的温度,还能让冷量在整个系统里高效循环。这种变化带来的可不仅仅是散热效率的提升,更是价值跃迁。 它让 gpu 集群能在更小的空间里爆发出更强的算力,同时还降低了整体能耗。对数据中心来说,这意味着更高的算力密度和更低的运营成本,简直 是双赢。从 blackwell 到 rubin, 英伟达用液冷方案的进化告诉我们,散热从来不是简单的降温,而是整个计算系统高效运转的关键一环。那么问题来了,你觉得未来液冷技术还会有哪些突破呢?评论区聊聊你的看法吧!

哈喽哈喽,大家好,今天咱们聊一聊英伟达下一代如炳芯片。为什么他一出来,夜冷技术就成了行业焦点,还有他带货的微通道夜冷藏着哪些机会和挑战呢?咱们直接开聊。首先得说如炳芯片最核心的问题,就是工号标的太猛了, 上一代 g b 三百芯片单功耗是一千四百瓦,而如饼干芯片直接冲到了两千三百瓦。现在数据中心主流的单向冷板液冷极限也就一千五百瓦,根本压不住液冷技术不升级都不行了。所以伟达直接推动供应链,搞起了微通道水冷板,也就是 m l c p 技术, 简单来说就是在冷板上刻出比图法斯还细的微密集流道,还把芯片、金属盖板和冷板做成一体,让冷却液直接贴近芯片散热, 这样一来,散热面积翻了好几倍,热阻还特别低,散热效率比传统方案高太多。但这技术可不是随随便便就能做到的,加工精度要求极高,成本更是传统冷板的三到五倍。 未来如饼服务器极贵的液冷组建一套就要接近四十万人民币,而且流道太细,对冷却液纯度、共同压力要求都非常高,整个数据中心水系统都得升级, 现在距离量产还得三到四个季度,这波变更也要让夜冷行业要重新洗牌喽。国内厂商其实有不少突破口,比如说做 vc 军工版的企业,技术能够直接迁移,像因为客、远东股份这些,要么进入了因为达生态链,要么拿出了能稳定散热两千三百瓦的方案。而我们爱思克服,也抓住这次机会,布局微通道夜冷, 总的来说,如饼芯片高功耗是把双刃剑,既提高了基础门槛,也打开了新市场,他就像个先锋官,推动着整个数据中心基础设施升级。 等微通道夜冷成熟了,不光是散热效率提升,整个夜冷产业的游戏规则都得重新定义。好了,今天就聊到这里,关注小李,解锁夜冷行业最新产品与资讯。