英伟达 vera rubin 架构 vera rubin 架构是继 blackwell 之后的下一代 ai 计算架构,于二零二六年正式进入量产和出货阶段。他以天文学家 vera rubin 命名, 象征探索宇宙和 ai 的 未知边界。与 blackwell 一 样, rubin 架构的核心理念是把整个机架当做最小计算单元,而不是单个芯片,通过极端协调设计来应对 ai 计算量爆炸式增长,尤其是智能体式 ai 和超长上下文推理的需求。 一、 vera rubin super chip 超级芯片 gpu 不 能单独工作,需要 cpu 为 gpu 翻译程序,分配计算任务和传输数据,这就是英伟达独特的易购计算架构。 与 blackwell 一 样,英伟达采用台积电 coos 封装技术,将 cpu、 gpu 存储和互联等组建,紧密封装为一片超级芯片。这片超级芯片中包含了一片 veracube 带、两片 rubin gpu 带和 nvlink c2c 第二代片内互联组建 veracube 带是一个基于 arm 架构的八十八核 cpu, 包含了两千两百七十亿晶体管, 支持一百七十六线城 cpu 的 内存使用 l p d d 二五 x 内存条采用 p c b 上的可拔插设计,未被集成到芯片内部。 rubin gpu 带是芯片中的主力 ai 计算引擎,采用台积电三纳米制成,包含三千三百六十亿晶体管, 每片 gpu 带与一个 hbm 四模块紧密连接。 hbm 四为 gpu 提供了高速存储服务,带宽高达二十二 tb 每秒,比 blackwell 的 hbm 三亿内存带宽提升二点八倍。 nvlink c2c 互联组建提供了 cpu 与 gpu 之间的一致性内存访问和协调, 让微软 cpu 可以 直接访问 rubin gpu 的 hbm 四、内存,实现 cpu 和 gpu 的 统一内存,试图速度是传统消费级 pci 一 内存接口的七倍以上。二、机架方案 采用了 nvidia virus rubin nbl 七十二机架主流设计方案,集成了十八个 computer tree 计算托盘,每个托盘包含两个超级芯片,整机架一共七十二个 gpu。 三、 pcb 方案 计算托盘中采用 cable free 无缆线设计,使用中央高密度 pcb 连接所有内部高带宽信号。计算托盘间的 skill up 互联方案采用铜缆背板连接,这将大幅简化组装,实现盲插和零手动布线,减少了故障点,提升了可能性。 pcb 材料采用 m 九级 ccl, 成本较 blackwell 明显提升。四、互联方案 机架内的互联采用 nv link 六 switch 芯片,提供了单 gpu 三点六 tb 每秒,单机架二百六十 tb 每秒,带宽是 blackwell 的 整整两倍。机架间互联采用三点二 t 可拔插光模块,主要用于 skyout 网络,实现机架间百万 gpu 级扩展。 这里老黄还将 c p u 作为备选方案。 nv link 六 switch 与光引擎共封装,以替代传统光模块和架内的铜缆背板。五、机架散热方案采用百分之一百液冷方案,使用四十五度热水冷却,无需冷水机,避免冷凝水风险, 提升能效,并简化数据中心基础设施。与上一代 blackwell 相比, ai 推理的单 token 成本降低至约十分之一,某一超大模型训练所需 gpu 数量降至四分之一, 整体推理性能提升五倍,训练性能提升三点五倍。 verran 不是 简单升级 gpu, 而是把整个机架重构为统一 ai 加速器,用系统级协同把下一代智能体 ai 和万亿参数模型的效率比推新高度,二零二六年下半年将开始大规模部署。
粉丝6519获赞9231

英伟达明年量产的最新 ai 芯片 labing 架构服务器已经确定使用一点六 t 光模块、 m 九级 c c l 护铜版 p c b ai 服务器、八百伏 h v dc 电源 以及液冷系统。梳理了国内英伟达供应链相关受益公司一次一点六 t 光模块中继续创是一共占比百分之五十以上份额。新益盛和海外的菲尼萨是二三共 二是 m 九级材料 pcb, 圣红科技的七阶高端 hdi 是 英伟达必备 m 九材料 o a m 版护垫股份主要提供二十六层高频高速 m 九级材料的 u b b 版,方正科技是替补。 还有生意科技的七十八层正交背板、 c c l 附铜板、德芙科技和铜冠铜钛的 h e l p 四铜钛、飞利华和中高芯的微转针。 三是 ai 服务器,八百伏 h v dc 电源直接供应商主要是英诺塞科和麦格米特,中恒电器通过工业互联间接供货。 四是液冷系统,英维克是液冷系统集成供应商。纯中科技、思泉青材、呃创环科技、薄捷股份、中石科技是核心部件直接间接供应商。 蓝思科技战略收购原石科技母公司呃培美高,进入英伟达液冷服务器供应链。工业复联是英伟达液冷服务器制造商。谢谢大家!

哈喽各位,今天咱们聊个特别硬核的话题,姓韦达的 robin 架构。你可别以为这只是个技术更新,他直接引爆了一场材料革命,而且跟咱们普通人的投资机会也息息相关。 首先得先搞明白什么是 rubin 架构。这是英伟达计划二零二六年下半年量产的新一代 ai 算力平台,推理性能比上一代 blackwell 直接提升五倍,还支持两百二十四 gbps 的 超高速传输,这意味着 ai 模型的训练和推理速度会快到离谱。 但这里面有个关键点, ruby 架构不是随便什么材料都能支撑的,它有个必选材料就是 m 九附铜板材料体系。 m 九材料有多厉害呢?它的核心技术指标是, df 小 于等于零点零零零五到零点零零零八, dk 等于二点八到三点二, tg 大 于等于两百摄氏度。这些数字你可能听着有点懵,简单来说就是信号损耗比上一代 m 八降低了百分之三十到百分之四 十。这些数字你可能听着有点懵,简单来说就是信号损耗比上一代 m 八降低了百分之三十到百分之四十。 在超高速传输的时候,信号不会轻易衰减,这对于 ai 服务器来说事关重要。所以 m 九是 robin 架构的刚需,根本没法替代。那这跟硅微粉有什么关系?重点来了, m 九材料里,硅微粉的用量直接翻倍了!之前 m 六 m 七级别的填料体积占比 到了 m 八 m 九这里直接翻了一番。 m 七的时候,填料占附铜板重量大概百分之三十到 m 八升到百分之三十三到百分之三十五, m 九更是接近百分之四十, 填充比例从百分之三十一路涨到了接近百分之四十。而且在先进封装和高端基板的场景里, 单位面积的硅微粉用量也从零八到一点二公斤每平方米提升到了二点零到二点五公斤每平方米,差不多也是翻了一倍。除了用量提升,硅微粉的技术要求也变高了。 之前 m 六、 m 七用的都是物理法球规,历径在零点五到一微米左右, m 八开始用物理法加亚微米球规。到了 m 九,化学法球规成了关键,历径要达到零点一到零点三微米,纯度得百分之九十九点九九以上,球形度还要超过百分之九十八。 这化学法球规的价格可不便宜,二十到五万元一吨,亚微米球规也就十万元一吨, 价格差了好几倍。为什么会这样?因为 ai 服务器的架构变了,路由引入了 midplane, 大 概有四十四层,正胶背板从五十层提升到了七十八到一百零四层。 单机柜里高层数的大板数量越来越多,对材料的性能要求自然就更高了。硅微粉作为附铜板里的重要填料,要起到降低信号损耗、提升热稳定性的作用, 所以用量和技术标准都得跟上。那产业链里哪些公司能受益呢?首先是联瑞新材,它是电子级硅微粉的龙头,全球份额百分之十五,产量四点五万吨,每年已经被全球各大顶级板材厂商认证并批量使用了。 然后是零伟科技,它是 a 股唯一通过收购掌握化学法高纯球形硅微粉量产技术的公司,现有一千吨产能,还规划了万吨级的扩产。 还有雅克科技旗下华菲电子的硅微粉产量有两万吨。每年这些公司都是产业链里的核心玩家,随着 m 九材料的普及,他们的业绩很可能会迎来爆发。再看看市场空间,二零二六年高速基板用球龟的市场规模预计能达到六万一千六百八十五点九七吨。 cl 和半固化片合计的化学法球规需求约三千四百五十四吨,同比暴增百分之三百七十三。亚微米级球规需求约六千两百九十八吨,同比翻倍增长百分之一百零三。 全球 m 九富铜板市场到二零三一年有望从六千九百五十五万美元增长到五点一亿美元,年均复合增速百分之三十二点八,这增长速度相当惊人。总结一下核心逻辑, m 九材料推动硅微粉从物理法向化学法跃迁,用量增长来自三个变量 填充比例提升,单位面积用量提升,还有 ai 服务器架构变化带来的总面积和层数增加。 同时,产品待季升级也带来了价格提升,客户从采购一到两万元一吨的普通球龟转向二十到六十万元一吨的化学法球龟,量价齐升,这就是投资机会所在。

刚看完黄奕迅的演讲,给我看困了,但是当我看到这三个大家伙的时候,立马精神了, 那我身后的这三台巨兽啊,指的这一台就是 mv link 五七六,终于见到真身了,君姐在这看到的时候, mv link 七十二,比我高一点点啊,现在已经是两 两米的大个子了。中间这一台是 g b 三百的七十二,关键的关键,今天的新品 vr rubin 七十二,这里面的 rubin gpu 比 blackwell 架构训练提升了五倍,而且它还单独扩展了存储池。因为我们在 ai 训练系统里面非常关键的一点就是 keep touch 的 需求非常大,所以它扩展了存储池,整个系统架构是重新设计了。这里面有一个关键的更新,就是它的 vr 的 c p u 是 专门针对智能体推理全新设计的,所以说它的推理能力, 智能体推理能力会非常强。最后大家肯定很关心它的效能怎么样,每瓦的效能提升了八倍啊, 参数实在是太多,根本记不过来,总之就是金钱的味道。但是这么强的性能要怎么用起来,用在哪里?能不能带来真实的生产力?黄奕勋在演讲里面也给到了非常清晰的思路,下一期给大家拆解 physical ai, 看完大的再来看小的,这就是因为达到 d g x spark 个人 ai 桌面服务站,那它解决了一个核心的痛点是什么?我们个人在家里工作的时候,可以把本地 的算力跟云上的算力协调起来,处理简单的任务,可以用本地的算力,那处理复杂的任务的时候,就可以把云端的算力协调起来。这里面可以看到,因为达哥很多厂商都有合作同机啊,包括这家有一个很特别的 联想,就是前两天 y y 跟黄瑞勋在对谈的时候, y y 让黄瑞勋给他签了一个,那明天黄瑞勋结束演讲后,会马不停蹄 一起去参加联想的 takeaway 的 演讲,我们继续追踪。最后给大家辟个谣,这次发布会其实没有任何关于五菱系列增强版的消息,基本都是在围绕 ai 服务站上,大家感兴趣的可以在这个展台上来看一看。

哈喽哈喽,大家好,今天咱们聊一聊英伟达下一代如炳芯片。为什么他一出来,夜冷技术就成了行业焦点,还有他带货的微通道夜冷藏着哪些机会和挑战呢?咱们直接开聊。首先得说如炳芯片最核心的问题,就是工号标的太猛了, 上一代 g b 三百芯片单功耗是一千四百瓦,而如饼干芯片直接冲到了两千三百瓦。现在数据中心主流的单向冷板液冷极限也就一千五百瓦,根本压不住液冷技术不升级都不行了。所以伟达直接推动供应链,搞起了微通道水冷板,也就是 m l c p 技术, 简单来说就是在冷板上刻出比图法斯还细的微密集流道,还把芯片、金属盖板和冷板做成一体,让冷却液直接贴近芯片散热, 这样一来,散热面积翻了好几倍,热阻还特别低,散热效率比传统方案高太多。但这技术可不是随随便便就能做到的,加工精度要求极高,成本更是传统冷板的三到五倍。 未来如饼服务器极贵的液冷组建一套就要接近四十万人民币,而且流道太细,对冷却液纯度、共同压力要求都非常高,整个数据中心水系统都得升级, 现在距离量产还得三到四个季度,这波变更也要让夜冷行业要重新洗牌喽。国内厂商其实有不少突破口,比如说做 vc 军工版的企业,技术能够直接迁移,像因为客、远东股份这些,要么进入了因为达生态链,要么拿出了能稳定散热两千三百瓦的方案。而我们爱思克服,也抓住这次机会,布局微通道夜冷, 总的来说,如饼芯片高功耗是把双刃剑,既提高了基础门槛,也打开了新市场,他就像个先锋官,推动着整个数据中心基础设施升级。 等微通道夜冷成熟了,不光是散热效率提升,整个夜冷产业的游戏规则都得重新定义。好了,今天就聊到这里,关注小李,解锁夜冷行业最新产品与资讯。

二月十九号,英伟达的黄教主说了一句话,说在即将召开的三月十六号的 gtc 大 会,明确说在会上会发布一款世界上从来没见过的芯片 啊。这款芯片的核心支持就是英伟达继 blackwell 之后的新一代 ai 计算平台 rubin 架构。接下来我们就从 rubin 架构的核心特点,产业链布局, 还有它和上一代架构的区别给大家讲清楚,讲明白。首先我们来看入门架构的核心优势,它最关键的就是机架级的协调设计, 就是不再指定着单颗芯片的性能提升,而是把整个数据中心当成一台超大的计算机来打造。这个架构靠六款芯片一起工作,分别是 cpu、 gpu、 dpu、 网卡交换机和以太网交换机,共同组成一个完整的 ai 工厂。具体的技术特点我们一条条地说,在系统设计上, 通过 nv link 六把七十二颗 gpu 连接在一起,让它像一颗巨型的 gpu 一 样协同工作, 这样就大大降低了节点之间的通信延迟。在性能方面是上一代 blackwell 架构的五倍,训练速度也比上一代提升了三点五倍。在互联宽带上,单颗 gpu 的 性能达到了三点六 tb 每秒,而 hbm 四的宽带 更是达到了二十二 tb 每秒,这样就彻底解决了大规模疾区通信上的瓶颈问题。在散热和能效上,它采用的是百分百全液冷方案,在物理结构上,它采用的是零电来和模块化设计 啊,计算托盘里面只保留液冷管道,组装时间从原来的两小时缩短到了五分钟,还能实现边运行边维修,大大提高了运维效率。 我们知道原来的架构都是要光纤光模块的转换,那样的预算时间又多,还浪费了很多能耗。日本架构的升级,对上游的材料,中游的制造以及下游的配套环节提出了更高的要求,其中 m 九树脂 q 布,也就是石英布 和 h v l p 铜箔成了最关键的瓶颈。下面我们就把整个产业链给大家梳理一下。 上游的核心材料环节,技术门槛最高,也是整个产业链里面最关键的部分。 m 九树脂能支撑二百二十四 gps 以上的超高速传输,而且液电损耗特别低, 是全球唯一能提供 m 九级碳氢树脂的供应商,打破了国际垄断, 国内唯一能批量生产 m 九树脂的厂家,通过也进入了产业链。 q 部,也就是石英部,属于第三低阶制电子部,目前全球的产能都特别紧张, 是这个领域的全球龙头布局,产业链完整,产能已经锁定了英伟达的订单, 是国内仅有的两家批量能生产 q 部的企业之一,专门给供货 hvlp 铜箔,对表面的光耗度要求高,已经实现了 hvlp 的 批量生产,并且锁定了相关订单。 记得全球产量排名第一,已经能批量给英伟达供货了。中游的制造环节也很关键,具体情况如下,富通版领域是唯一进入 m 九供应链的富通版厂家,产品良率达到了百分之九十,那印刷电路板 是英伟达 g b 三百服务器 o a m 模块的全球唯一供应商,独占了五届 h d i 的 市场,在北美 ai 服务市场的实战率超过了百分之八十,它的四十层 h d i 板量率达到了百分之九十五。下游配套和集成环节中, 等做液冷的厂家会因为 ruby 架构的百分百全液冷方案而受益,等企业提供八百 g 和一点六 t 的 高速光模块, 则参与了整个系统的集成工作。除此之外, ruby 架构和上一代的格瑞斯架构还有很多明显的区别。具体如下,在 cpu 核心上, 格瑞斯架构用的是 a r m 授权的格瑞斯 cpu, 而 ruby 架构用的是自主研发的奥林帕斯核心的 vra cpu, vrs 的 内存是格瑞斯的四点二倍,带宽是二点四倍,性能直接翻了一倍。 在互联方式上,格瑞斯架构用的是 nv 六,而 ruby 架构呢,直接升级了 nv 六,带宽翻了一倍,还支持机架级的内存共享, 延迟也更低。在散热方案上,格瑞斯架构大概百分之八十采用液冷,而日本架构实现了百分之百全液冷,彻底取消了风扇和电缆,采用模块化拓盘设计,运维效率提升了很多,这也是这段时间液冷板块连续上涨的主要原因。 在设计理念上,格瑞斯架构更注重单台机器的性能优化,而日本架构则强调机架级的协调工作, 把 cpu、 gpu、 网络安全当成了一个整体系统来设计,而不是一个独立的部件。总的来说,如本架构标志着 ai 计算从原来的单纯推算变成了系统级的系统工作。 整个产业链的核心价值主要集中在上游的高端特种材料,也就是 m 九树脂 q 布和中游的高阶 pcb 制造这两个环节。

cs 二零二六英伟达新发布的 rubin 到底是什么?我看网上很热闹,但也没有说清楚,那我就来讲一讲我的理解。 首先呢, rubin 不是 一块芯片,而是六块芯片齐发,也就是 rubin 讲的啊,不是,或者是不只是一块 gpu, 而是一个全新的系统架构。那为什么老黄这次要发布一个新的系统架构呢?原因其实也很简单,那就是因为现在很多问题啊,靠一块芯片,靠一块 gpu 是 解决不了的, 尤其现在像 mo e 的 这种深度推理的模型啊,还有就推理的模型这种大行其道大模型,要解决你的问题呢,它往往不是一次简单的用它去解决的, 而是呢,它需要多想一会,或者多想几轮,或者请别人,请别的专家来替你想一会啊,也就是你需要给他多一点推理时间和算力啊,他在回答前呢,就能多走几步,多验证几轮,结果呢,就会变得越来越好。 那问题是呢,这个多想一会啊,这个代价是很大的,是很贵的一件事啊。推理呢,这个扩展呢,意味着需要更多的头肯,更长的上下文,更频繁的跨卡的通信 啊,还有一大堆啊,这个上下,我们这个数据可以开始啊,要保存起来,要搬运,要共享啊,如果这些东西解决不好呢,再强的 gpu 也会被拖慢,成本也会飙升。所以啊,如炳这代平台,他的目标绝对不是一个单点的输出,而是想让这个多想一会,变得经济可行。 这就是为什么于伟达会把路由器规划成一整套的系统,而不是一块卡啊,它是 vera 的 c p u 路由器的 g p u 加上 n v link 六啊, c 叉九 rofloud 四啊, statechon 的 这个交换芯片,这些呢,互联网络的组建在一起形成, 你可以把它理解成,是啊,这个换一个,以前呢,拼的是一个大发动机啊,现在呢,除了发动机以外呢,像变速箱啊,底盘啊,车机啊,他一起都重新做了一遍啊,那目标只有一个,就让整个系统呢,运行的更好,推理呢,更便宜,速度呢,更快。 那我想啊,老黄和他的工程师啊,肯定是看到了很多人没有看到的东西啊,所以呢啊,因为他这时代 c e s 呢,正片讲了一个推理上下的一项存储的平台, 你可以把它当做 gpu 的 这个显存和传统存储之间又做了个第三层的一个记忆模块啊,这个还是挺创新的啊,它靠 blufe 的 这个四,在这个硬件层加速上下文的管理,再配合高性能的以太网的, 呃,这个网络啊,还有一套软件定义的这样的一个整套的软件站做调度,那么让上下文呢,不仅能够写的快啊,还能够再多节点啊,多个智能体之间的更高效的共享, 目的呢,就是释放 gpu 形成压力啊,又不让访问速度掉下去,让长期运行这个智能体呢,也不至于越跑越慢。 那么接着呢,他把这个规模呢,从机架啊,扩大到整个数据中心啊,如果说 ruby n v l 七二是一个装了七十二块的 gpu 的 超级节点,那么 d g x super pad 就是 把整个机架拼起来,形成一个更大的积蓄 啊,那就是把八个 n v l 七二啊,也是五百七十六块 gpu 结合啊,那么对于企业和云服务商来说呢啊,这种形态的意义呢,不仅仅是开箱即用啊, 而是就说你,你不用从这个研究把几块几百块的这个 cpu 组网,怎么做调度,怎么做存储,怎么做运维啊,那么他会把整套标准化的方案呢,直接给到你,这就组成了一个更大的机器,当然这个家伙肯定也是不便宜的 啊。最后呢,我想说 ruby 这波热度啊,本质上不是又一代更强的 gpu, 而是在回答一个非常现实的问题,就 ai 进入推理时代以后,智能体的这个时代,真正决定成本和体验的啊,是算力互联网络存储 调度啊,能不能成个一体化系统?那如果你也在做大模型的应用,做智能体,做推理,推理集群,那么接下来一年呢,最关键的趋势就是从堆卡走向加这个算力记忆,加网络,加软件这样一个系统, 系统级的创新呢,已经浮出水面了, ai 时代的新机器不只是一块块的这个 gpu, 而是一个极致优化的软硬件系统,一个稳定交付的算力技术设施,这也是未来我们持续创新的一个方向。

就在昨天, gtc 二零二六大会发布的 vera arm cpu 搭载八十八个自研 olympus 核心,性能是前代产品的两倍。这不仅是芯片升级,更是生态体系的全面转向。传统 x 八六架构在 ai 计算中面临内存宽瓶颈, vera cpu 专为数据中心场景优化,支持 cksl 三点零内存扩展,将内存容量提升至 tb 级。 更重要的是,它与 rubin gpu 深度协同,构建易构计算新范式。 gpu 的 架构革命正在重新定义服务器的性能边界。当算力需求爆发,每一颗核心的效率都决定着 ai 工厂的整体产出。

g t c 二零二六英伟达微热如变平台液冷架构技术迭代与核心变化解析二零二六 g t c 英伟达液冷方案变化一、底层逻辑彻底重构 终结先定系统再不散热行业惯性本次 g t c 二零二六大会上,英伟达创始人黄瑞军正式官宣的微热如变全液冷处理平台最核心的底层面革, 是彻底推翻了行业长期存在的先定机柜系统规格。在被动式配散热方案的设计惯性,完全印证了 散热设计必须优先于系统规格,否则必然存在先天缺陷的核心判断。所有细节均有官方明确公式,因为达官方明确如饼架构时期首个从芯片设计阶段就以业朗为唯一散热路径的算力平台, 搭载的 ruby gpu 单芯片 tdp 高达两千三百瓦,整机柜空号最高达两百千瓦,彻底突破风冷物理极限,全系列取消风冷版本。这意味着夜冷不再是高端机房的可选配置, 而是整个系统设计的前置核心约束、机柜尺寸、内部布局、机房机件全部围绕夜冷需求展开,从根源上规避了先定外壳再不散热带来的先天设计隐患。同时,英伟达彻底反转了系统规格与散热需求的优先级, 为适配夜朗全路径布局,冷却也流道设计。官方采用无线缆模块化托盘设计,取消了机柜内部传统线缆, 实现液轮管路与供电架构的一体化集成,机架现场安装时间从行业常规的两天缩短至两小时。 同时明确四十五摄氏度高温水制冷的设计标准,无需传统高能耗冷水机组,仅靠自然冷却即可运行, 直接改写了数据中心机房的供水基建要求,而非配现有机房条件限制散热方案,彻底杜绝了为适配现有基建压缩散热设计的行业通病,实现了散热需求定系统规格的底层逻辑重构。

华硕刚刚在官网公布了基于英伟达下一代 ruby 架构的服务器和整机的解决方案,这两套方案直接给出了后 blackberry 时代数据中心的硬件建设标准。这次华硕公布了两个核心产品线,第一款是基于英伟达 h g x ruby 八卡 gpu 平台打造的 x a n r e i e 幺二 l 系列。 这是一台三 u 规格的服务器单机搭载八颗 rubin gpu 和两颗英特尔志强六处理器,每颗 gpu 配备八百 g 带宽的 o s f d 网络接口。为了应对机房的过渡期,华硕共提供了两个版本,一个是 gpu 采用芯片级液冷 c p u 保留风冷的混合散热板。 另一个是全节点百分之百覆盖冷水板的纯液冷板。这套方案在一个标准机柜内的物理布局上线时,顶部一台千兆管理交换机,上下共计四个三 u 供电电源架,中间刚好放置九台计算节点,实现单机柜满载七十二颗入并 gpu。 接着我们来看第二款重头戏,华硕 ai pad, 基于微软 rubin nbl 七二架构的整机柜方案。这款机柜放弃了英特尔 cpu, 采用英伟达原生的 cpu 配合 rubin gpu, 单机柜集成了三十六颗微软 cpu 和七十二颗 rubin gpu。 对 比现有的 blackmail 架构,它有三个核心代差, 第一是显存跨代,它首发搭载了 hbm 四内存,内存宽达到了上一代的二点八倍,直接缓解了万亿参数大模型的显存吞吐瓶颈。 第二是网络底座升级,机柜内部采用九台 nb link 六交换机, gpu 双向互联,总带宽飙升至三千两百 gb 每秒,对外则配备了一百四十四张单口一点六 t b 每秒吞吐量的 connect x 九网卡,以及十八张 blufeil 的 四 dpu。 第三是极限能耗,这款机柜的峰值功耗达到了惊人的两百二十二千瓦,风冷已经彻底失效,必须采用百分百纯液冷架构配合大型 c d o 才能稳定运行。在实际收益上,得益于新架构对 nvfp 四数据格式的支持,微软入品平台在每兆瓦推理性能上是上一代的十倍,单 tocan 推理成本大幅降低。 总结一下,从华硕的最新方案可以看出,面对下一代 ruby 架构, h b m 四显存、 nv link 六网络以及两百千瓦以上级别的单柜,纯液冷设计已经成为硬性指标。对于这套下一代算力基础设施,你们怎么看?欢迎在评论区聊一聊。

英伟达 rubin 引爆 m 九千亿投资链你知道吗?英伟达一个新架构,不光是芯片厉害,它更像是一把钥匙,直接打开了一条价值千亿的产业链宝藏。宝藏的核心密码就三个字, m 九材料为什么是 m 九?说白了就是算力狂奔,速度太快了。 英伟达全新的 rubin 架构,数据传输速度奔向两百二十四 g, 以前的普通公路跟不上了,必须全线升级成磁悬浮轨道,这个轨道就是服务器里的高端电路板。而 m 九就是建造这条轨道必不可少的最顶尖的特殊材料。 这一换可不得了,一整条藏在幕后的产业链,从源头到终端全部被激活了。我们一环一环拆开看,第一环最上游的稀缺材料,三个字,高壁垒。 m 九这种顶级材料不是凭空变出来的,它需要几种核心原料,个个技术门槛极高,而且现在极度紧缺。第一种,特种高性能树脂,你可以把它想象成修建磁悬浮轨道用的顶级特种胶,既要无比牢固,又要保证信号畅通无阻。 能做这种胶的厂家,全球掰着手指头数。第二种更关键,叫石英纤维布,这是 m 九材料的筋骨,决定整个材料的骨架强度, 生产技术壁垒极高,全球的合格供应商凤毛麟角,属于典型的卡脖子环节。第三种,超低轮廓铜箔,这是铺在轨道上的超平滑导电层,表面必须光滑到极致。它的生产工艺非常复杂,能量产高端型号的玩家少之又少。 这一环的企业是真正的卖产人,技术独家,产能有限,但下游需求爆炸式增长,你说他们的生意会怎么样?第二环中游的精密制造,核心是高难度顶级材料,到了得把它加工成世界上最精密的电路板吧? ruben 架构的板子层数像摩天大楼,线路比发丝还细,微孔密密麻麻,这对制造工艺是地狱级的考验。能接下这种订单的 pcb 工厂,必须是技术领域的尖子生,它意味着你的精密加工能力、良品控制水平都站在了全球金字塔间。 一旦入围核心供应链,接到的就是高价值、高利润的订单。这一环的繁荣直接由技术难度和订单爆发驱动。 链条还没完。第三环下游的隐形耗材特点是高消耗,你想那么复杂的电路板上面数以亿计的微小孔洞怎么来的?靠的是极高精度的钻针,这种钻针比针尖还细,而且加工这种顶级材料时损耗非常快。 于是,一个隐藏的卖水人生意出现了。高精密钻针的需求量就越大,消耗的就越快。 这个市场不显山不露水,但需求会跟着上游能源同步爆发,是条稳稳的增长曲线,所以整个逻辑链条非常清晰。起因 ai 算力需求爆炸,英伟达推出 rubin 架构,必须使用 m 九顶级材料, 导 m 九材料需求爆发复杂, pcb 制造订单激增,精密加工耗材用量猛涨。本质,这是一场由技术带差驱动的产业链,价值重估,每一环的利润和前景,都取决于它的技术壁垒和供需格局。 这条从核心材料到精密制造的千亿链条,你看懂了吗?它不只是一个概念,而是正在发生的订单驱动的产业升级,这里面你觉得哪一环的护城河最深评论区,聊聊你的看法,关注我,看清科技改革背后的真实逻辑。

为什么 l p u 生成 token 的 速度比 g p u 要快那么多?你可以把 g p u 想象成一个非常聪明的通用工人,他什么都能干,算数学,搬数据、调度任务,做判断。但问题是,每做一步,他都要先想一想,比如什么时候去拿数据,哪条县城上先执行, 数据放在哪里?这些判断会带来一个成本,那就是时间不确定,路径也不固定,资源还会冲突。这就是 gpu 的 特点,灵活但不稳定。那 lpu 是 什么? lpu 更像一条流水线的工厂,所有的动作在开工之前就已经排好了,每一个时间点,谁干什么, 数据往哪走,全部提前斜死,机器只负责执行,不做任何的临时决策。再来看第二个差别也是最关键。贷款在大模型的推理里面, 有一件事情非常的反直觉,一般情况下,它不是算不动,而是读不动,每生成一个 token 都要重新去读取模型。 gpu 用的是 sbm, 单对战的宽带大概可以达到三到四个 tp 每秒。 ipu 用的是 sram, 可以 做到几十 甚至过百, tp 每秒差了一到两个数量级。但这里还有一个更深的点,就算你给 gpu 同样的宽带,它也不一定能用满。 因为 gpu 的 执行是动态的,它其中会有缓存的冲突,调度的等待,现成的切换。而 lpu 的 路径是固定的,数据从哪儿来到哪儿去,什么时候用,全是确定好的,所以它可以把贷款完全榨干。第三个差别 是延迟的稳定性。 gpu 的 延迟是抖动的,因为每次执行路径都可能不一样, lpu 的 延迟是确定每个周期干什么是斜死的?这件事情在 ai 的 推理里面非常的关键,因为推理不是一次算完,而是一点一点生成, 如果每一步延迟不稳定,整体体业就会很差。 gpu 是 一个通用计算的工具, ipu 是 一个专门为生成 token 设计的机器。 gpu 像一个万能的大厨,什么菜都能做,但每道菜都要现想流程。 l p u 像一个自动化的流水线,只做一道菜,但每一秒都能稳定地出菜。这就是为什么在生成速度这件事情上, l p u 会比 g p u 快 很多。相比以前, l p x 每早晚的 token 吞吐量提高了三十五倍。老黄说, token 是 这个时代的硬通货, ai 工厂的收入就取决于每瓦电能产生的 token 数,而英伟达就是 token 之王,现在潜在的订单已经超过了一万亿美金。关注我,带你看懂 ai 和芯片行业。

大家都在看黄仁勋发布的最新 ruby 芯片,也就是 r 一 零零,外行看热闹说它比上一代快了几倍。但对于真正懂行的人来说,这次升级最关键的指标只有一个, hbm 四显存。 这一代芯片不是为了算得快而升的,它是为了想着升而升的。为什么这么说?在二零二四年, ai 主要是在做快思考,你问一句,他答一句,靠的是概率预测。 但到二零二六年,我们要 ai 做复杂的任务,比如帮我写一个游戏代码并测试运行,这就需要慢思考,也就是 system 二思维,它需要在脑子里反复推演、自我纠错、多步规划,而这一切都需要超大宽带的显存来支撑。 aivia rubin 架构的出现,就是在物理层面上 给 ai 装上了一个足够大的工作台,让它可以像人类专家一样进行英伟达鲁冰,现在的硅谷电力已经成了比算力更紧缺的资源。 ruby 芯片的核心竞争力其实是美瓦特智商。这告诉我们一个残酷的现实, 未来的智能是有成本、有门槛、高质量的决策,深度的决策,深度的思考会越来越珍贵。这对我们普通人的启示是什么?连 ai 都在通过对硬件来提升深度思考的能力, 我们人类如果不升级,自己的大脑还停留在浅层反应,机械重复,怎么竞争?二零二六年,你的专注力就是你的 hbm 四显存。 在这个碎片化的时代,谁能保持长时间高质量的深度思考,谁就是现实世界里的 ruby 芯片。别做只会快速回应重复信息的人,要做能深思熟虑,给出真正解决方案的人。