呃,哈喽,大家好,今天是五月十四号,我们继续聊一下 sirius, 我 觉得市场看它重点不是多了一家 ai 的 这个芯片公司啊,而是在看它能不能代表 ai 推理基础设施这条新线。为什么呢? 因为它官方的材料里面强调的核心不是芯片大,而是速度。 sirius 说 w s 一 杠三是 welfare scale processor, 底量是领先 gpu 芯片的五十八倍啊,推移是可达 gpu 方案的十五倍。再看订单和基本面,公司在相关的批斗里面说二零二五年的收入在五点一亿美金,同比增长百分之七十六。同时 oppo、 nike 多年的合作超过了两百亿美元,并承诺三年会有采购它的。这个 推你算你 a w s 三月签了 term sheet, 但这家公司我觉得并不只能看热度啊,相关的这个财务报表大家也可以看一下。所以我的理解是 service 的 订单趋势很强,但后面真正要跟踪的还是交付客户集中度和利润质量。
粉丝97获赞793

还在问 sir vivis 能不能干掉英伟达?我靠,根本就不是这个替代关系啊朋友们,他也不是英伟达的平替,人家根本。虽然说都叫芯片,但是另外一个赛道 极致的,变态的,快到离谱的推理速度。说白了,你现在看 ai 芯片,现在市场是在分层的,一层是训练跑大模型堆参数的,那个是英伟达在做的 gpu, 然后现在也没有人能抢得动嘛,对不对? 另外一层是推理的跟用户实时做交互的对话的,所以他要的不是你足够的聪明,而是足够的快,快到让你感不到有任何的延迟。 sirius 卡的就是这个赛道,那么它的芯片叫 w s e, 那 是整片晶圆做成一颗芯片,待宽二十一 p b 每秒, token 生成速度是数千个每秒,所以你跟他对话的时候呢,感觉就像在本地运行一样,非常的丝滑,把推理的速度卷到极致。 所以在这个实时交互的这个细分市场,英伟达做的不好,但他也懒得做。那么关键是啊,有真金白银的客户印证了这件事情的需求,就是 open ai, 他 给了他二百四十六亿美元的订单,这个叫真金白银的合同,那基本上他现在呢,也就 open ai 这样一个客户,而且 open ai 还持有他百分之十二的股权,还借了他十亿的美金。 那么问题也来了,盈亏同源,后奔 ai, 如果哪一天模型架构变了,它不需要这种极致的推理了,那 siri 布鲁斯的这个逻辑就直接坍塌。这家公司的故事本质上就是一场好赌, 它在赌推理市场会持续分层,它在赌快,比聪明更便宜,它在赌欧奔 ai 会一直需要它,它赌对了,它就是新贵,解决不了,它就是下一个 grok, 然后被收购,然后消失。谁知道呢? ai 的 世界每天一个变化,关注我,持续带大家看更新更快、更有价值的产业变化哦!

最近有一家美国公司很恐怖啊,得到了亚马逊、谷歌等巨头支持,让英伟达、台积电害怕的要死。谁呢?就是初创公司 cyrus, 绕开英伟达的 gpu 和台积电的两纳米之尘,用五纳米之尘直接在十二英寸整片金源上做一片芯片,结果它的推理速度是 b 二百的二点四倍,每偷看成本降低百分之八十。 为什么会这样呢?因为它芯片大呀,集成四十四 gb 高速 slam, 搬运数据的需求极低,内存宽带是 b 二百的两千六百二十五倍。 这样做还省电还省夜冷。天呐,这是在给光刻机授权的中国公司指路呢,直接做金元级芯片,国产现有能力就能搞定。我相信中国公司已经看到了。

hello, 大家好,欢迎来到我的频道,这里是荒野星际观察带你重现的世界,叫开 ai 啊,那咱们本期呢,就来结合这个半导体的知识啊,来给大家讲一讲,最近也就是下周四啊,即将 ipo, 在 美国 ipo, 这家公司叫做 celebros 啊,大,很多人呢,就说啊,这家公司一旦上市就会威胁到英美达的统治, 并且呢很多人呢说这个税是今年或者是近期最大的一个 ipo, 可能是啊,可能是近期最大的一个 ipo。 好, 那么今天呢,我们这期视频呢,就来看一看这家公司,他到底是干嘛的啊?为什么说?他到底做什么?为什么说他能威胁到英美达统治啊?还有一个问题呢,就是他到底能不能威胁到英美达统治?这个是我们今天呢要去看到一件事情呢。 好,那么首先呢,我们看这家公司啊,这家公司他那个介绍啊啊,他这个估值啊,在半年内飙升了百分之三百三十啊,其实他在二零二四年十月份的时候呢,是 ipo 失败了,他当时说 ipo 结果失败了,两年后呢,今天呢,哎,他是重新发起了 ipo, 当时为什么失败啊? 啊,曾是依赖单一的中东用户啊,因为当时的依赖用户过于单一了啊,巨萨导致了这个安全审查而折解 ipo 了,当时啊,然后呢,之后他在这两年里面呢啊,飙升了,涨幅三百三啊,从二零二四到二零二六 啊,那目前呢,现在估值是二百六十六亿到三百五十亿美元的估值啊,好啊,那我们看呢哈 啊,他是在英伟达暴涨,根据这个百分之八十的,百分之九十的市场份额,绝对垄断在逆市暴涨的一个份额啊,这体会,哎,体验出来呢,他这个啊,他做的这事啊,他其实是有价值的,要不然的话呢,市场也不会给他额外定价。 好,那么看看他的就是手上有什么牌会让通过 ipo 呢?就是实际上他手上有超过两百四十六亿美元,那个剩余旅务也是 ipo 啊。啊,这是啊,直指的是什么 ai 的 算计下一阶段,下一阶段是什么呢?就是推理阶段,这个我们之后会讲好,这个就是现在讲的哈, 目前呢是整个 ai 呢,都是在由训练上推理转移了啊,目前呢是整个 ai 呢,都是在由训练上推理了哈,目前呢是整个 ai 呢,都是在由训练上推理转移了哈,目前呢是整个 ai 呢,都是在由五百五十亿美元。 好啊,这也是啊,我们说这是人的 openclaw 啊,或者是现在 ai 啊,哎,他推出来之后呢,出现了一个新局势啊,原来呢,可能是百魔大战的时期 啊,各家呢都想做个模型,现在慢慢的呢,哎,模型的强度已经定下来了啊,就是前面那几家,然后后面那几家追赶的啊, b 源的最强的,后面开源的就是追赶,然后呢,如果你说你不知名的哪个企业再出来一个什么模型,可是 说什么跑分有多么多么强,这个可能学术界有用啊,但是呢,估计呢啊,他很难影响什么大的一个红端,因为模型基本上定下来了。就现在目前能做的呢?都是什么啊?推理啊,推理现在目前变得越来越重要,或者说什么或者是应用哈,应用就是什么? angel, angel, angel 呢,就是我们说的他会如此高额的消耗 这个 token 啊,所以呢啊,我们说目前呢是一个推理经济啊,那我们说训练经济看的是什么算力啊,为什么?其实我们可以讲啊,算力呢,就是你首先推啊,训练的时候你首先要正向传播一次 啊,然后,呃,再反向传播,最后呢再正向传播啊,因为你要先算 loss, 哎,就算 loss 之后你还要回归啊,你还要让他这个改变他的这个权重啊,改一次权重, 最后呢,你再根据你改过的权重再算一遍,所以要三次完整的走过 transform 流程,但是推理呢,只需要一次就正向推过去就够了啊,所以呢,呃,上半场模拟训练的时候,哎,算力是绝对的主讲啊。 好,那我们看下半场呢,这个之前我们讲过非常非常多次了,最好的是什么?还是啊内存啊,说白了还是内存啊,除了在这里说的什么极低延迟啊, t t f t 啊,单位投客成本啊,其实 就是内存啊带来的啊。这个呢,我们今天稍微讲一下,我们不会再讲了,因为每一期视频我们感觉都讲了这个东西,因为太重要了啊,这也是为什么内存能暴涨的原因啊。 啊,就是啊,推理呢,它分两个阶段,一个是 preview, 一个是 decore 的 啊,那我们说 preview 阶段的话呢啊,是怎么?是啊,在啊,一个一个的啊,去生成 k v catch 啊,直到生成了第一个啊 to 为止。那后面的 pre decore 的 阶段呢 啊,是啊,你把之前生成的 qq cache 和你生成的一个 token 进行点击,然后不停地再次回归生成下一个 token, 所以呢,首次响应时间是哪个阶段?是 prefill 阶段,然后呢?后面,呃,这个,呃,生成 token 的 后面生成的速度啊,是哪个阶段?是 dico 的 阶段哈啊, dico 的 阶段呢?和 dico 的 阶段它都是很考验什么 啊? dico 的 阶段,尤其是更考验显存啊,也就是模型的代宽啊,就是显存的代宽和显存的容量 啊啊,容量也是越来越考验,因为你的 qq cache 是 直线上升的啊。好,那么如果关于啊 biff 低扣的两个阶段,还有啊,还不是很了解的这个小伙伴呢,这个非常重要啊,大家可以看看我们之前讲啊 p d 分 离的那期视频啊。 好,所以呢,我们得出个结论,就是目前推理是非常更加更重要的,这个是我们之前很多期视频都可以得出的一些结论啊,这也就是为什么因为达州说过 groc 啊,这也是为什么博通 或这这些啊, marvel 这种反英伟达联盟喊 amd 这些,哎,他们要去搞这些芯片,包括这也就是为什么谷歌啊,亚马逊 啊,甚至 open i 他 们要自研芯片,他们会是自研像英伟达那样的 gpu 吗?不会,他们也是这种 s 芯片,也就是类似 gpu 啊, tony 这样的一个芯片,也就是主要用来推理为主的啊,所以呢,这个是推理下半场的一个啊,这个玩家啊, 好,那么我们可以看看啊,这个啊,对,就是这个内存墙啊,就是我们说的 ai 两堵墙, 第一堵墙内存墙,第二堵墙互联墙啊,这也就是对应了目前最火的投资圈两个赛道,一个是啊,内存概念,第二个呢是光互联概念,这这这个就是互 相对应的嘛,啊,就是因为你缺什么,所以哪个才稀缺,所以哪个这股价才会涨出一样的一个逻辑啊,你不要觉得说投资呢,就和我们说的这个理论概念差的很多,是相辅相成的概念。 好,所以我们可以看到啊,啊,这个这个技术背景呢,是我们刚刚说了啊,这个是 d 扣的阶段发生的一个事啊,包括呢?啊,为什么会出现一个叫做内存强的问题啊?从我们再想一遍吧,啊,就是因为传统的 我们电脑设计是怎么设计的?就是有南北桥,东西桥设计的,也就是传统的逢诺伊曼瓶颈或者是逢诺伊曼架构。什么意思?就是说你的计算芯片和你的是吧?内存芯片它是分开来的 啊,这就是缝纫机,慢的一个计算器是付给你,当初一开始计算器他就这么设计的啊,所以呢,你要想要计算呢,你得先把你的这个数据啊,从你存储的地方你要运过来,运算完之后呢,你还要送回去, 所以呢这个就有一个运输的过程,所以这个时候呢,你的运输的时候的贷款核速率就很重要了,或者是你的存储容量就很重要了啊,对吧?好,所以呢我们可以看到, 而存储呢,它又不是一个一级的东西,它有四级呢,就是最靠 计算芯片或者是 gpu 的 啊,是什么?是 sram 啊?静态的哎, s 呢是静态的的意思啊。啊,那么我们接下来看第二个呢 s, hbm 对 吧?哎, hbm, 那 第三个呢或者是第三级呢是什么? 哎,就是 ssd 啊,硬盘,那第四个呢啊?就是 hdd 啊,这个机械硬盘啊,那你也可以说目前还有很多过,比如说中低二点五个的 啊,二点五个也有很多很多啊,之前我们讲的非常非常多说二点五的,比如说 h、 b、 f 啊等等等等,还有包括华为啊啊,这个英文大家都在搞二点五级的啊,甚至包括 s 啊,我们说这个 guac 的 啊,它也有个二点五级,这个我们就不再讲了,传统意义上来说就是四级啊, 我们看啊啊,我们看,所以说最快的是哪一个啊?越离的 gpu 或者是计算芯片越近,它是不是越快啊?啊?所以呢,最快的应该是 sram, 但是有个问题就是 sram 呀,我们不是说想要它多大它就能够多大的,哎,为什么我们看这里 啊,我们看这里啊,我们看到这个地方啊,这个片上内存也就是我们说的 sram 啊啊,传统意义上的 b 两百呢,它只有啊,几百个兆啊,几百个 m 已经算是正常水平了啊啊,为什么我们不能让它更多呢 啊?其实它是最快的来说,我们想要的最多,对吧?因为因为大家知道 sm 呢,它是怎么,它是在你每个核心里面的啊,每个核心的,对于你英伟达 gpu 来说呢,就是流式多处理器,这个我们之前有一期,呃,拆解英伟达 gpu 架构的时候是讲过的,对不对啊? 流式多处理器里面就有缓存啊, l 零 l 一 l 二级缓存,每个流式多处理器都有 l 一 l 零 l 二啊, 包括啊, g, p, c, t, p, c 等等等等这一些的一个啊,还有包括啊,这个库达核心,张亮核心啊,还有这些东西,大家可以之前去看一看啊,所以每一个库达核心旁边呢,它都会有一个缓存啊,包括就是 l 零级缓存。 好,所以呢,我们就会看到我们是希望这 l 零级 l 一 级,这个是越来越大,这样的话呢,这些核心啊,干活的这个工人手里啊,哎,都会离他的这个办公桌会越来越近,他拿东西越来越方便,他是为什么做不到呢?啊,好问题啊,其实呢,这是物理极限导致的,哎,因为什么呢?因为 s one 它 不和平时的 gpu 芯片一样有一个 scaling law, scaling law 呢,就是表示啊,这里的 scaling law 不是 说你算力越拖这个模型越强啊,它只是, 呃,你的这个制成啊越精密,然后呢,你的这个 sm 的 数量,晶体管数量就会越多,它不是这样的啊,我们说一般来说 gpu 是 这样的吧,你比如说啊,你今天是两纳米制成,你的这个散热器的晶体管肯定比你啊,比如说五纳米制成,理论上来说要多啊,因为你同一个大小的话了哈,理论上要多的, 因为你可以刻的更光,刻的更精细了吧,所以你就跟光刻出更多的晶体管出来,这个是没有毛病的。但是呢,有个问题就在于, 呃,它这个 sm, 它不一样啊,不一样,为什么不一样呢?首先两个点啊,第一个点就是它非常非常的大,因为呢,它是六 t 的 架构啊,六 t 呢就是 transistor 啊, t 是 代表 transistor, 所以 下面有它整一个 sm 呢,是由六个六个 transistor 组成的,而六个转接头,它怎么组成的呢?它是由两个反向器组装而成的啊?两个反向器,如果大家之前学过电子的话,要知道反向器是什么玩意儿了哈。啊,它通过两个反向器来储存一或者零的一个状态 啊,这个就是 s m 的 一个基本原理,但是它和它,它和 d m 完全不一样,它 h b m 也完全不一样啊, d m 就是 h b m 啊,它和这个不一样,它就 it d d 也不一样啊啊,所以我们说主要的 d m 的 话呢,它是怎么样的 啊? d m 啊,它就是,它就是一个啊,两 t e c 的 这么样的架构了哈,啊,那么说也是两个晶体管,一个电容,它是靠电容来存一和零的啊,但是呢, 我们看还有一个叫做啊,我们说的 h d d 啊,或者是这个 netflix 啊, netflix 它怎么存的呢?我们之前讲过哈,它是靠 把电子关到墙里面存起来的啊,把它关到一个房间里面存起来,如果你有电子,或者说你分级感应啊,你要根据等级来感应出来这个电子啊,那它就是存在的,所以现在 h d d 呢,它也在变得越来越怎么样, 越来越多样化啊,或者是它能够判断出越来越多种的一个组合。我们之前讲闪迪的时候是不是讲过啊?啊?所以呢,呃,我们可以看到啊,但是这个 s 二它怎么样 啊?这个 s 二,它完全,它就是啊,我们说第一个点啊,它就非常非常的大啊,为什么呢?因为它光一个东西啊,它就六个晶体管组成的,所以它非常非常大。第二个点呢,是它非常非常的不稳定啊,不稳定,所以呢,你不能把它的制成制的太小了, 说你不能说你一啊一纳米,两纳米制成,你直接给他上,然后你越来越多的 samsung 挤挤挤挤的,不能做不了,为什么呢?因为你一旦小了,由于它不是像 hdd 那 样就关电子进去的那种方式,它的这种方式呢,会导致啊,由于它是这种两个反向器的组成的一个 samsung, 所以呢,这种方式如果你的制成一旦萎缩了啊,就会出现各种各样漏电等这种这种情况,就会导致你这个 samsung 就 存储不准确啊,存储不,不了, 这分数不清是一还是零判断不清啊,所以呢,这个就是物理的一个极限了哈。啊,所以就导致 s m 只能做这么大啊,就是几百兆 啊,大了的话呢,做不了,而且就几百兆,成本也极高,工艺难度极大啊,就这么个逻辑啊,所以呢,这才导致说人们现在想的办法就是叠 d m, 呵,就是把 d m 叠上去啊,现在 d m 由于它高度限制也叠不上去了,怎么办呢? 哎,就就就就就就叠,想二点五 level 嘛,对吧?你想的比如说 s b f 啊,或者是我们之前说的一个内存池的一个概念,对吧,各种各样新型的概念,我们 x c l 这样的一个协议,这些协议呢,都有,对吧?所以很多很多啊,就给大家经常关注我视频的话,就看到很多很多人都那么很多事啊,就是解决这么一个问题的啊, 好,那么我们回到这里啊,我们看一看这个 c l brm 的 啊,是什么?是一个芯片,叫做 wave scale engine 三,就是简称 w s e 三啊,这边的芯片啊,大家看到这个比例啊,英伟达的 b 两百在这就这么一点大啊, s w s e 三呢,面积是四六二二五平方毫米。 这么大啊,五十八倍,相当于英伟达芯片五十八倍。呃,不知道大家有没有什么概念啊?就是你拿英伟达芯片啊,我说的是裸带啊,不是说 啊,老黄发布会的上拿的手上的那个,他不是裸带了哈,他他他上面叠了 hbm 啊,他还叠了什么 pcb 板啊,就是我们做叠了底座的啊,所以呢,你看了他比较大,其实他裸带也不大啊,老黄手里拿那个芯片裸带也不大哎,就是 中间的最光滑的那个叫做裸带了哈。啊,我们说这个啊, wse 三的这个裸带呢,是我老黄手里拿的那个的五十八倍。 好,那我们说他为什么能够做这么大呀?因为我们之前是不是讲过说我们光刻机他是有个光刻上限的呀?啊,就是他光刻机这一下子光刻呢,由于他的这个微缝,就是他的这个,呃,所谓的这个眼膜的一个大小啊,他是有极限的,他最多呢也就达到八百五十八平方毫米, 他这个地方为什么能达到四万六千二百二十五平方毫米啊?我们说由于这个光刻机的这个物理上限,所以呢, 我们这个英伟达的就无论再什么样的 gpu 啊,它就只能最大,就只能做什么做到啊?八百一十四啊,我记我没记错的话应该是八百一十四平方毫米啊,那再大做不了了,那做不了怎么办呢?就通过 course l 的 方式给它进行一个 这个封装啊,封装啊,这个就是得到了,因为他 b 两百就两个 b 一 百得来的啊,这个大家记得吧,啊,别忘了啊,这个很重要的好,所以呢我们就会看到,哎,他呢,为什么他能够把这个芯片做这么大呀?啊?所以我们要讲一个啊,这样的一个背景故事啊,就是说他呢, 一般来说我们要做芯片是不是一个大的金元啊?是不是有一般主要的主流十二寸的一个金元啊?啊?金元主要几几几种种类啊?啊?八寸啊,六寸、八寸、十二寸、十八寸,我们最主要的这种现在的 ai 的 金元芯片啊,哎,都是十二寸的一个金元基底啊,就是硅片硅元啊,十二寸的 啊,十二寸的情况下呢,我们是要在这个圆里面挖非常非常多个小方块出来做这个芯片啊,所以呢会有良率的问题,就是很多小方块啊,他就是 啊,就是没用的啊,然后呢就是属于劣势啊,很多小模块有用的,或者有些小模块的几个几个核心坏了,然后给它降级一下,这个都是常规操作了啊。啊,所以呢,我们就有个问题啊,这为什么它这个芯片的 vce 三它能做这么大呢?啊?其实啊,它就是一整块十二寸的一个晶圆啊,就是一整块, 它就是不给你切了,它就一整块放上去了,哎,还有回到另外一个问题,就是说它为什么能够突破光刻机的一个曝光极限呢? 啊?其实啊,他是通过多次曝光的方式,就是比如说啊,极限不是八百八百五十八平方毫米吗?比如说我们在这个八百五十八平方毫米,我们刻一次,这里刻一次,这里刻一次啊,这种方式 啊,是怎么样?是难度极其之大,只能说极其之大,如果他能简单的话,英文达也做了啊,就是他不简单,而且难度极其之大。难度大在哪里?就是说大家知道你单个单独的刻一个 不难啊,对吧?不难,你再单独刻一个也不难,难的就在于你如何把中间刻的这两个他们的边缘给完美的连接起来 啊?你怎么样才能把它连接起来呢?他们都是已经是纳米级别的一个这么样的一个操作了啊,你怎么连接起来呢?啊,对吧?这个就是最难的问题啊,所以说的话,目前世界上能够做到 这种的啊,没有几家公司啊,就是你要想办法哎,一个一遍一遍一遍的去光刻,而且要把那光刻的每一次的这个片段啊,都要连接起来啊,市面上就没有几家公司能做的到的啊。所以这有时候为什么这一次的 ipo 如此的啊,具有啊,所有的噱头啊, 具有噱头的一个原因之一啊,就因为他能够做到这样的一个事。好,还有一个问题来了,就是如果你那么大一只芯片, 会不会量率很低呢?啊?要我们知道英美达的话相当于这个芯片呢?是啊,你五十八个芯片,你一比五十八的话呢,相当于你一个这个 w s e 芯片抵了英美达五十八个啊,那五十八个我要是坏了两三个,我那两三个不要了嘛?啊,对吧,无所谓嘛,但是如果你这一个 你要是坏了,坏了其中一部分,那你整个大的玩意你就得丢了,你这个相当于五十八倍的成本啊,你都没了, 那怎么办呢啊?其实官方是这么解决的哈。呃,他是用了一个叫什么一个软件硬件协调优化的一个方式啊,哎,他会让你的软件呢提前判断出来哎,你这个芯片的哪个地方的一个核心坏了啊?然后呢?他就啊默认就不走这个核心了呗?啊?然后呢?他只走那些好的核心, 所以呢,他就把好的核心利用起来,坏的核心不用了吗?兄弟给他封掉吗?啊?这个也是半导体常见的一件解决方法啊。啊,所以我们说这种方法呢,可以啊,但是呢 把这个东西这个操作或者是工艺要求也是非常非常高的哈,也是非常非常高的一个工艺要求,所以这个就是他 做如此之大的芯片的原因,还有他做如此大的芯片的啊,一个后果或者是一个啊,所谓的一个结果吧。啊,我们可以要了解他的前因后果,就明白为什么他要做如此大的芯片,并且他的做的这么像,因为克服了点困难,中间有哪些技术现在大家都明白了吧。 好,那我们就来看看这个具体工艺参数啊,台积电五大米啊,包括四万一个晶体管,那九十万个优化核心啊,九十万个优化核心,所以它这个核心啊,是比英美达的核心要多的很多的,毕竟它比如九十万个了,它英美达有几万个?因为大家再看到面积摆在这了啊,面积摆在 这了啊,片场缓存就是 samsung, 哎,我们看到 它的片上缓存有四十四 gb 啊,不要搞错了啊,这个不是 dram, 不是 hbm 啊,它是什么?它是片上缓存 sram, 它有四十四 gb 啊,啊,怎么来的啊?其实呢,它就是每一个 这样的一个核心,它就配备了一个 sram, 每个核心就配备了一个 sram, 所以 你堆叠起来,它自然就有那么多了啊,它相当于呢,它就用了一种解法,叫做什么以 sram 带 hbm 啊,这样的一个解法,那相当于它就把第一级就拉满啊,把这个 l 零级就拉满了啊。 好,所以我们看这个内存带宽的话呢啊,也看得出来,因为是离 samsung 是 离着啊 gpu 最近的,所以它的这个带宽天然就会强,而且强非常非常多。强多少呢? 二十一 pb 每秒啊,这个是难以想象的一个强啊,对比 b 两百的话,我们知道 b 两百它的这个带宽才多少?八 tb 每秒,它是 pb 每秒啊,记得啊,它不是二十一 tb, 它是 pb, 又多了一个数量级啊,那就说 pb 啊 啊,所以我们一看到即使是在 hbm 四这一代哎,也就是如饼系列呢,它的一个带宽才只有仅仅的二十一 tb 每秒,它是二十一 pb 每秒啊,啊,呃,就是,为什么呢?就是因为它是 s m 啊,它是离得是最近,但是我们是 hbm, 是 l r, 它是 l e 啊, 这就是你差了一个内存等级,它就会差一个数量级的这么样的肃立,这也是为什么我们一直要追求,是吧?追求,哎,算了啊,就这么个逻辑啊。好,那你看到这里的话,大家都觉得,我靠, 那我还要英美达干嘛啊,那我这个不是无敌了吗?如此之大的个玩意我能做出来,那我赶紧把英美达全卖了,我全买这个 zebra 不是 好了吗?哎,没这么简单啊,没那么简单 好啊,不过在你讲的之前啊,我们还看一看他这个实际的表现啊。啊,实际的表现呢啊,这个是英美达的这个在这个测拉玛三点一八 b 的 这个模型的,这个模型呢是小模型啊, 他是英美达基转,如果是一的话,他的速度是二十倍,这个很容易理解,为什么是二十倍呢?就推理的时候啊,我们将讲了 perfect decode, 对 吧?啊,他讲这个二十倍速度,我们默认理解他就是一个深层抽空的速度,他是哪个阶段呢?他是不是剔透阶段?剔透阶段看什么? 是不是看它来回搬运 sku cash 的, 基本上一个贷宽啊,贷宽的话是哪更快?是不是一个是 pb, 一个是 tb 啊?啊,所以呢,明显是 wse, 它的这个生成速度是要大很多的啊,快很多的,你看实际上它也是快了二十倍,其实我觉得应该不止二十倍啊, 单位应该不止八十倍啊,所以相应来说呢,成本最高可降百分之八十的一个单位头款的一个成本啊。啊?为什么说可以降啊?因为 啊,成本,我们说的什么说的是耗电嘛?啊,就是啊,这个焦不铅瓦或者是瓦煤 token 啊,所以呢,你要去跟你耗电相比的啊,由于这个芯片呢,它能够单位时间内推多断出更多的 token, 所以呢,你可以理解为它的分母啊,变多了,所以它整体呢就变 啊,变变变低了呗。啊,好,所以呢,我们看一看这个四百币的一个模型测试啊啊,这是相当于相对来说中等一点的模型,也不算大模型啊。好,那我们看啊,这个英美达如果是一倍的话,它呢?是啊,达到了二点五二点四倍的速度啊,它达到了两千五百二十二头每秒 啊,这个呢也是一个非常神仙的一个速度了啊。啊,那么啊,其实啊,做这种推理芯片的 a x 芯片的不少啊,我们之前讲过一个 啊,每秒七千多头啃的那个是怎么做的,那个是把这个拉玛三点一这么一个模型呢,他是给焊到了啊,我们的这个啊,金片上了,焊到芯片上了 啊,就相当于把他每一个晶体管呢,铜线呢都当做一或者零写上去了,所以他是只能一个芯片只能跑一个模型。好,当时我们不是讲过那个当时挺火的吗?我们现在又来了啊,不过两个不是一家公司啊。 好啊,所以我们可以看到哈,有一个问题啊,我们之后会解决的哈,就是英伟达是不是真的要被替代了啊,我们先讲这个公司啊,我现在不这么说,我们先把这个公司讲完啊,好啊,我们看了这一次,他的这一次 ipo 啊,是怎么样的啊?他是三百五十亿美元估值,现在已经达到了哈 啊,是主要呢,目前他是主要绑定的是 openai, 而且我们刚看了啊, openai 持有了 三千四三百四十万的一个股权行权证啊,这也就是之前这个英美达去和 iran 的 一个一样,也是一个 啊,期权啊,也是说将来可以用多少多少钱去买你多少多少股啊,这么样个逻辑哈,所以如果全部行权的话, open e i 呢,是可以去获得这个 ebrace 的 接近百分之十个股权的哈啊,包括 啊,业务绑定也是绑过绑定了,谁绑定了? openai 绑定了超两千亿美元七百五十兆瓦算力的一个多年采购大单啊,包括奥特曼等 bookman 的 核心高管也是个人绑定了啊, 个人绑定了这个财务啊,和这个这家公司算是绑定了啊,包括财务绑定啊,完全根据啊,提供十亿美元的数据中心开,包括贷款等等等等,这些东西相当于大家看到都是和 openai 核心绑定的,其实和他之前 呃,单听绑绑定应用商供应商差不多的一个逻辑啊,对吧?只不过为什么那个时候没上市,现在上市了呢?因为现在啊,确实是推理的天下啊,推理的天下,他的这个优势是被反倒是被放大出来的,所以人们市场才会给他这么高的估值了啊。 好,那么啊,我们接下来看一看啊, open a a 它为什么要这么做呢啊?为什么要这么做去投资这么一家公司呢啊,其实啊,还是那个原理啊,就是现在看到大家看到这个啊,之前谷歌大会上哎,他就可以看出来了啊,目前推的一个训练,它是要分家的 啊,对于这个 open i 来说的话,训练肯定毋庸置疑啊,还是用英伟达的 gpu。 为什么?其实不是因为英伟达 gpu 算力有多么无敌啊,而是因为英伟达 gpu 的 这个哭打生态啊,还是哭打生态?是人家老黄经营了二十年整,就这么样一个生态, 这个哭打神哭打呢,也是在零七年老黄砸了重金,目前二十年完成的一件事啊,他也不是说想替代这种替代的啊, 所以呢,训练的时候扩大生态还是非常非常重要用,用到这个 gpu 啊,那推理的时候大家说为什么不用?因为推理的时候相当于算子比较少,比较成熟啊,所以呢,就不需要那么依赖扩大生态啊。但是训练的时候,大家知道各个模型训练方法都不一样啊,都不一样,非常非常复杂,所以呢,可能扩大生态呢,这是相当于金融最好的 啊,这个就比较容易理解了,对吧?好,我们先来看看低延迟推理啊。啊,低延迟推理的话,比如说就非常简单了,就用锤推,就开始用谁吧,就比如说我们这里就可以用到 cybers w e 四, cybers e 三了哈, 包括我们还有其他的一个多样化替代,包括 amd 的 m i 四五零,就是二六年下半年会发布的那个哈,你的这个 m i 四五零,这个也是签了长期合同的,包括还有什么 openai 的 自研芯片啊,自研芯片也 啊,打上日程了啊,包括网络问题,网络协议这些呢, m r c 联盟啊,这些都是在啊做的一件事,这个是 open e i。 为什么要这么做? 那么还是回到这个问题啊,就是这个公司呢?还是单一依赖了这个 open e i 这家公司啊,所以呢,单一绑定单独巨头、最大客户,同时是最大投资方和证券的时候,外部投资者将面临居高的一个固执风险。就是,所以说的话,二零二四年是百分之八十七都是巨资啊,二零二五年的时候呢 啊,这个二零二五年的时候,百分之八十六都是在巨头上,目前二零二六年呢,是更多啊,甚至九十以上的都是什么 open i 主导的啊,支撑 open i 单独是申请二百六十四十六亿美元的一个剩余 r p o 这面的任务 啊,所以说的话呢,这家公司还是风险比较大的,所以它的这个 ipo 呢,我还是不建议大家去盲目的去追的,特别是不要在星期四去等啊,因为美股的 ipo 呢,它和港股不一样啊,它的 ipo 呢,是你要先在机构大机构里面进行一波撮合啊,它的这个 定义了,这个价格,比如说他定了一个一百二十五加一百二十五米刀啊,但是呢,其实如果在大机构撮合的时候呢,可能会撮到的话,撮到,比如说一百五十五刀,然后呢放到二级市场让你交易,所以你看的时候已经一百五十五刀了啊,所以千万不要用市场直接买进去,这个时候呢,大概率 好会亏的一塌糊涂啊,不要问我为什么知道的啊,反正呢,千万不要,千万不要先判断一下情况再说,而且这家公司大家分析出来还是有风险的啊,单一供应来源非常非常 啊,非常非常非常的恐怖。而且呢, open air 最近风头也不是很好啊,风声也不是很好,名气也不是很好,之前呢,它的这个 open air 的 上市计划都已经遭到了这个啊,这个,这个一波三折,包括和马斯克等等,在我们之前就不说了, open air 目前蒙上了三重阴影 啊,上市不计和马斯克还有官司,还有包括 open y 没达成他的这个用户数和利润值,这三层东西压过来,很容易导致人们一对 open y 有 什么失望,就会哎,疯狂的抛售塞了 brad 的 股票啊,所以呢,千万啊,大家记得这个东西有风险啊,有风险的啊。 好,那我们接下来看一看这个之前讲的问题啊,就说 espresso 他 一旦 ipo 了,会不会说英文答案就不重要了呢?当然不是,当然不是,如果大家啊,刚看了 open i 的 这么样的一个啊分布图或者是 open i 的 一个想的想法的话呢,就知道了啊, 是目前的话呢,是更多更多的是啊,分而知之,或者是啊,你各自有各自的长处, 即使是英美台内部也是这样的,这也是为什么他要在今年的这个啊, gdc 二零二六上呢,去发布这么样的一个和 gucc 合作的这么样的 gucc 芯片了哈,就是因为 gucc 加上一个卢比呢才是。哎,解决了啊我们说的内存强的问题了,所以呢啊,才是适合推理的,因为呢,我们大家记得吧啊,是七比三的比例去进行推理的啊,所以呢,你越进行推理的时候呢,就越用到 gucc 啊,然后呢,你训练的时候呢,你就越用到这个啊,这个 gpu 好, 所以呢,我们可以看到哈啊,这两家公司的一个啊,六边形的一个图啊,雷达图 啊,那我们看到这 cybras 呢,它是极度偏科在哪?就是在于推理这个极致延迟这个方面哈啊啊,那其他的这个方面呢啊,这个 cybras 都完全是没有和英伟达有任何抗衡之力的 啊,包括生态系统,免疫器,包括通用训练能力,包括 scale up 或者是 scale out 等,包括模型等等等等,我们就不再说英美达了啊,英美达实在是啊,它的这个版图相当相当大啊,所以呢,一句话,作为英美达呢,就是说它是在 毫无余力地去降低 token 的 使用成本,降低 token 的 使用成本,就是英美达一直在做两件事啊 啊,当然这个就包括非常非常多了,包括我们说的固态生态,包括 gpu, 包括 ig 变频,所以呢,这些都是 gpu 啊,或者英伟达要做的事。所以呢啊,这个 celebrate 呢,只是集中在这一个部分,所以大家不用担心说他是什么英伟达的最大竞争对手,如果你要这么担心的话,那谷歌还是英伟达最大竞争对手呢,那其实谷歌也还是英伟达最大客户呢。 那你要这么担心的话,那其实很多人啊,博通啊,什么都是英伟达芯片的时候,他如果他这么在芯片之后,他还能保保足五万亿市值吗?也做不了啊,所以呢,大家不用担心啊,不用担心啊,这个手里的英伟达就好好拿着吧。 好,那么我们最后来总结一下吧,啊,就是呢啊,现在呢,这个时代呢,已经过了 gpu 或者是通用芯片啊,专吃一切的这个程度了啊。时代呢,大家也看到目前是 满开花的一个时代啊,包括内存墙,算力墙啊,或者是什么通信墙都在开花啊,不单单是只有卖 gpu 的 英伟达或者是 amd 在 开花了哈,所以呢,现在啊,你包括出来了一个 celebrate 啊,它可能呢啊,做 esic 的 也会开花了哈, 所以呢啊,今天这期视频就总结到这里了哈啊,所以我们一看 s celebrate 这家公司呢,不需要杀死英伟达算成功,只需要它脱离窗口,虚开,撕开缺口,这个证明价值,但是它能不能 啊,证明他除了 open e i 之外,还有很多大客户愿意和他合作,这是我们最关心的一个问题,如果不能够证明,那相当于他就是等于 open e i 了啊, open e i 不 行,它就不行, sidebars 就 不行,那这个时候呢,就很容易受到市场的情绪波动,因为最近市场对 open e i 的 这看法本来就不好啊,都指的 esoteric 呢,所以呢, 那我们可以看到啊啊,这家公司啊啊啊,本质上呢,其实就是一个 ai 啊,这个哦啊,这个所谓的英美达的一个新的挑战者,就是一个挑战者的一个姿态啊,所以大家也不用担心啊。 好,那么啊,咱们本期视频就到这里了啊,然后呢,最后呢,再跟大家说一下,就是本期视频呢,就是通过这个 ceres 这个上市的这个事啊,大家复习了一遍 啊,半导体的一个知识啊,大家复习了一遍 ai 的 一个全站的一个知识,那么希望呢,大家能看到最后呢,能够有一些收获啊,那当然,我们这些知识呢,是之前讲的那些概念啊,包括啊 啊, perfect decoder 也好,包括这个啊,这个光刻的这个啊,一次一次这个,包括光刻的这个极限也好,这些东西我们之前都讲过, 所以呢,大家如果一起一起的跟我走过来的话呢,就会觉得不是那么复杂啊,如果大家单独看这个视频呢,可能还觉得有点复杂的啊,所以呢啊,大家可以去看看我们之前的视频,或者是关注我之后呢,大家跟我每一期视频一起来学, 这样的话呢,就会越来越感觉不复杂,越来越觉得这些东西都是首当其冲的啊,现在觉得觉得是这个投资啊,其实就和这个知识它是分不开的啊,分不开的,所以呢,如果你只会投资 啊,那你不懂这些知识,那你相当于你是拿不住你的股票的啊,你会因为恐慌而卖掉你的股票啊,那所以你又要真的能懂这些知识的话呢,你就会明白,哎, 任何的回调都是一个上车的机会,而且任何的啊,人家说什么啊,或者是这股票短期下跌了,都不会让你恐惧的啊,这个就是我们最终想要达到的一个目的。好,那么最后呢,还是那句话啊,就是咱们今天呢没有任何的 投资建议哈,不会告诉大家要不要买这个股票,只是跟大家讲一讲这家公司和他的相应的一个风险和 啊,普及一下大家的半导体的一个知识啊,请审核,大大的就明鉴一下哈,我真的是没有任何的投资建议啊,投资有风险啊,入市需谨慎。那么最后呢,如果大家觉得有帮助的话,欢迎给我点个三点个关注吧,咱们下期视频再见,拜拜。

cyberrus 这次 ipo, 表面看是一家 ai 芯片公司上市,但背后真正的信号是 open ai a w s 这些 ai 巨头正在用真金白银寻找第二套算力方案。所以今天我们不问 cyberrus 能不能马上打败英伟达, 我们只问一个更现实更残酷的问题, cyrus 到底强在哪里?如果英伟达的最大客户都开始找备胎,英伟达的护城河到底还值多少钱?大家好,欢迎来到快财说,过去两年, ai 世界几乎只有一个答案,英伟达训练大模型、 跑推理服务、建 ai 数据中心,都绕不开英伟达。所以市场一直相信一件事,只要 ai 继续增长,英伟达就是最大赢家。但现在这个逻辑开始出现裂缝。 siribras 的 出现,不是又一家普通 ai 芯片公司, 它也不是在英伟达的路线上继续卷 gpu, 它是直接换了一条路。英伟达的思路是把成千上万颗 gpu 连接起来,组成一座超级算力工厂。而 cerebras 恰恰相反,它想把一整片晶圆做成一颗超级芯片,这就是它的核心产品, w s e wafer scale engine 晶圆级引擎。 正常芯片制造是把一整片金元切成几百颗小芯片,就像一张披萨,切成很多块,每一块就是一颗 c p u g p u 或者其他芯片。但 sirrus 说,我不切了,这一整张披萨我全都要。 它把一整片晶圆直接做成一颗巨大的 ai 芯片。这颗芯片大到像一个餐盘,上面集成了数万亿个晶体管,几十万个 ai 核心,还有大量片上。 sram 听起来很疯狂,但它解决的是 ai 计算里最痛的一个问题, 数据搬运。很多人以为 ai 算力的瓶颈只是计算, gpu 越强,模型就跑得越快。但现实不是这么简单。现在的大模型不只是要计算,它还要不断把模型权重、缓存、上下文、 token。 数据在内存和计算核心之间搬来搬去, gpu 之间要通信,服务器之间要通信, 机柜之间也要同行。训练的时候是这样,推理的时候更是这样。你问 ai 一个问题,它生成每一个字,每一个 token 背后都不是简单的算一下,它需要不断读取模型权重,不断处理上下文,不断生成下一个 token, 每一步都涉及大量数据移动。 所以 ai 系统真正的瓶颈,越来越不是单颗芯片算得多快,而是数据能不能快点到该去的地方。这就是 cerebras 的 底层逻辑。英伟达像是一座巨大的工业园区,每个车间都很强,但原材料要在不同车间之间来回运输, 车间越多,物流越复杂,系统越大,通信成本越高。 cerebras 更像是把工厂、仓库、物流线全部压缩在一张超级芯片上,让数据尽量在芯片内部流动, 减少搬运、减少延迟,减少功耗。所以, cerebras 最强的地方,不是简单说它比英伟达算力更强。这个说法太粗糙,英伟达卖的不是单颗 gpu, 英伟达卖的是整套系统。如果只拿单颗芯片对比,很容易误导。但如果看特定场景,尤其是高速推理、低延迟推理, cerebras 确实有非常强的差异化优势。这也是为什么 openai 和 a w s 会盯上它,因为 ai 行业已经进入了一个新的阶段。过去几年, 市场最关心的是训练谁能训练出最强的大模型,谁的参数更多,谁的模型更聪明。但现在,真正的战争开始转向推理 训练,像是培养一个大学生,你一次性投入大量数据、大量算力、大量电力,把模型训练出来。推理是什么?是这个大学生每天上班回答问题、写代码、生成图片、处理文档、操作软件、执行任务。训练可能是阶段性的,但推理是每天、每小时、每秒都在发生的。 尤其进入 ai a 证时代以后,一个任务背后可能不是一次模型调用,而是上百次模型调用。每一次调用都要消耗算力, 生成偷啃都有延迟,也都有成本。所以,未来 ai 真正烧钱的地方,很可能不是训练一次大模型,而是把 ai 服务推给几十亿用户、几千万企业、无数软件系统之后,每天持续发生的推理成本。 这就是 cyrus 的 机会。他不是说我要全面取代英伟达,他真正想打的是一个更具体的战场,即高速、低延迟、高吞吐的 ai 推理。这个战场非常重要, 因为对用户来说,速度就是体验, ai 慢一点,用户就会烦, ai 卡一下,用户就会换, ai 响应不够快,应用就很难真正进入工作流。你可以想象一下,如果一个 ai agent 执行任务,每一步都卡半天, 它就没办法成为真正的自动化工具。如果企业把 ai 接近客服编程、金融分析、医疗研究、工业软件里延迟每增加一点,成本和体验都会发生变化。 所以 sam 奥特曼为什么会追求更快的算力?不是因为他喜欢炫技术,而是因为 ai 产品一旦慢下来,用户就会流失,开发者就会犹豫,企业就会算账。速度不是锦上添花,速度本身就是护城河。 这也是 openai 支持 cyrus 的 第一层逻辑,但还有第二层更重要, openai 不 可能永远把自己的命门交给英伟达,这句话才是重点。英伟达太强了,强到它不仅是供应商,更像是整个 ai 行业的收费站、大模型公司要算力,得找英伟达,云厂商要卖 ai 服务,得找英伟达, 企业要部署 ai, 还是绕不开英伟达。问题是,站在 open ai、 微软、亚马逊、谷歌、 meta 这些巨头的角度,这种局面并不舒服。 他们当然会继续买英伟达,因为英伟达现在最好用、最成熟、最稳,但他们也一定会做另一件事找备胎。谷歌有 tpu, 亚马逊有 tronium, 微软和 open ai 在 布局自研芯片, meta 也在做自己的 ai 加速器。现在, cerebras、 rock、 ten、 storerent 这些新架构公司也开始从推理市场寻找突破口。这说明什么?说明英伟达不是没有需求。 恰恰相反,英伟达需求还是太强,但他最大的客户们已经不想只依赖他一个人。所以, cerberus 的 意义不是英伟达马上被打败,而是 ai 巨头们正在用真金白银扶持第二套算力体系。 这对英伟达来说,短期不是利润表危机,但长期是估值逻辑危机。因为英伟达现在的高估值,不只是建立在今年卖多少 gpu 上,而是建立在一个更深的市场假设上。 未来 ai 基础设施的绝大部分价值仍然会由英伟达捕获,一旦市场开始相信 ai 推理时代可能出现多路线竞争,英伟达的估值逻辑就会变得更复杂。 这也是 cybers ipo 真正敏感的地方。它不是一只普通新股,它是资本市场给后英伟达时代第一次公开定价。但讲到这里,千万不能走向另一个极端。 cybers 很 强,但它绝对不是没有短板的完美公司。第一,软件生态远远不如英伟达。 英伟达真正的护城河不只是 gpu, 而是库达。过去十几年,全世界大量 ai 开发者、研究机构、云厂商、企业客户都围绕库达写代码、建工具、做模型、跑工作流。你让客户换一套硬件,不只是买机器这么简单, 背后是代码迁移、模型适配、工程调试、稳定性、测试团队学习成本这件事非常重。所以 serbras 哪怕在某些推理任务上速度很快,也不代表客户马上大规模迁移。 技术领先是门票,生态迁移才是真正的城墙。第二, cerebras 的 制造难度极高。普通芯片把晶圆切开,坏的芯片可以丢掉,好的芯片继续封装,但 cerebras 是 整片晶圆做成一颗芯片。这听起来很猛,但工程难度也非常恐怖。 它必须解决良率、溶于封装、供电、散热、稳定性等一整套问题。它可以通过架构融错,把有缺陷的部分绕过去,但这不代表大规模量产和大规模部署就没有风险。一颗芯片很强,和成千上万套系统稳定跑在数据中心里是两回事。 第三,客户集中度和订单兑现是巨大风险。现在市场兴奋,是因为 sirbus 手里有大客户、大订单、大故事、 openai、 a w s 这些名字足够让市场疯狂,但大订单不等于马上变成收入,订单要交付,交付要产物, 产能要供应链、数据中心要电力系统部署要时间,客户验收也要结果。尤其这种百亿美元级别的长期合作,最关键的问题不是合同写得多漂亮,而是未来几年能不能一点一点落到收入表和现金流里。 如果交付顺利, sirius 的 故事会继续放大,但如果交付延迟,成本失控,毛利率上不去,市场也会立刻翻脸。第四,估值已经非常贵。 这点散户一定要清醒。 cerberus 不是 没人发现的便宜货,它还没上市,市场情绪就已经非常高,发行价一路上修,机构需求爆炸,估值也被打得很满。 这说明什么?说明它确实稀缺,但也说明很多未来预期已经提前塞进股价里了。所以,普通投资者最危险的地方不是看不懂 cerberus, 而是看懂了故事以后忘了价格。 courage 的 正确打开方式,不应该是他会不会干翻英伟达,而应该是他能不能在英伟达之外吃下一个足够大的推理市场。这两个问题完全不一样。 如果你问他能不能全面取代英伟达,我的答案是,短期几乎不现实。英伟达的系统能力、软件生态、客户基础、 供应链能力太强了,不是一家公司靠一颗大芯片就能推翻的。但如果你问他能不能在高速推理这个腥风战场上 成为 open ai、 a w s 这些巨头的重要补充方案,这个可能性就大得多。而且只要这个可能性成立, cerebras 就 有资本市场愿意买单的故事。因为市场买的不是它已经赢了,市场买的是它可能代表下一代 ai 算力架构的一条新路,这才是这次 ipo 的 真正看点。 从投资角度看,我会把 sirbus 分 成两个阶段,第一阶段,大概率炒情绪,炒什么炒?它是今年最稀缺的 ai 硬件 ipo, 炒 open ai 和 a w s 的 背书,炒英伟达之外的新路线,炒 ai 推理时代的算力爆发。这个阶段 股价高开大涨,剧烈波动都不奇怪。但第二阶段,市场一定会回到现实,订单能不能交付、收入能不能兑现、 毛利率能不能提升, open ai 和 a w s 的 合作能不能变成稳定现金流?它到底只是补充英伟达,还是能真正抢走一部分高价值推理工作赋载?这些问题才决定它长期能走多远。 cerebras 不是 不能看,恰恰相反,它非常值得看。但你必须明白,你买的不是一家成熟芯片巨头,你买的是 ai 推理需求爆发,你买的是 open ai 和 a w s 对 第二套算力方案的下注, 同时你也买下了制造风险、交付风险、生态风险、估值风险和客户集中风险。这不是低风险投资,这是高波动的产业压注。最后,我们再回到英伟达, cerberus 的 上市对英伟达到底意味着什么? 我的判断是,短期英伟达不会因为 cerberus 倒下,甚至未来几个季度,英伟达的业绩可能依然很强,因为 ai 算力需求太大, gpu 供给依然紧张,云巨头资本开支也还在继续。 但长期英伟达真正要面对的问题变了。过去市场问的是英伟达还能卖多少 gpu, 现在市场会慢慢开始问, ai 巨头们会不会一边买英伟达,一边扶持英伟达的替代方案?推理时代会不会削弱库达的绝对统治力?像 cerberus 这种新架构,会不会在某些场景里绕开 gpu 集群, 这才是英伟达估值最敏感的地方。英伟达不是没有护城河,它的护城河依然很深。但问题是,当你的客户太依赖你, 他们就会开始害怕你。当你的利率率太高,他们就会想绕开你。当你的地位太强,他们就会扶持你的对手。这就是商业世界最现实的规律。所以, serbia's ipo 最重要的信号 不是英伟达完了,而是英伟达的客户已经开始认真准备第二选择,这才是真正值得盯紧的变化。 如果说过去两年 ai 算力市场只有一个王者,那从 cyber 上市开始,市场至少开始问一个新问题,未来的 ai 算力真的只能属于英伟达吗?这个问题可能比 cyber 上市首日涨多少更重要。

终于等到 cyrus 出来了,绝对是这个夏天的王炸,认真听一下啊,今天我要给你讲一个真正意义上的完美的天时地利 ipo cyrus, ai 芯片设计公司时代 顶级赛道名字你可能有点陌生了,但他做的事啊,可能会让你重新理解什么叫顺利。这一家公司正在用一颗整张金元做成的芯片啊,试图正面硬刚硬伟大。而他的 ip 啊,从启动到现在,短短两周,定价已经调了两次了,认购需求超过一 百亿美元,定价从一百一十五美元一路拉到一百六十美元,木质规模冲到了四十八亿,估值直奔三百五十亿美元。 今天这条视频啊,我要告诉你,它凭什么值三百五十一?它的技术到底行不行,以及这一次 ipo 究竟是 ai 基础设施的里程碑,还是又一个被狂热吹起来的泡泡? 先来说一下最容易理解的部分,它的芯片和所有人的都不一样。英伟达的 gpu 是 一块小芯片,然后把成千上万个更小的芯片连在一起,组成集群,这是主流路线。 ceo 则走了一条完全不一样的路,他把一整张三百毫米的硅晶圆,直接做成了一颗芯片。是的,一颗啊, 他的第三代晶圆引擎 ws 一 杠三,面积是四十六平方毫米,集成了九十万个计算核心,四十四 gb 片上 sara 片上的内存贷款达到了二十一 p b, 每秒是英伟达 b 两百的 两千六百倍。这个数字意味着什么呢?意味着它在推理任务上快得离谱。实测数据显示,跑拉玛三点一小模型 cyrus 每秒能处理一千八百个 token, 而英伟达 h 一 百只有九十个左右,差了整整二十倍。为什么会差这么多呢?因为深度学习真正的瓶颈并不是壮丽,是数据搬运。 gpu 每读一次权重都要去偏 y h、 b、 m 绕一圈,而 cyrus 把 所有的数据都放在偏上十万里,物理上绕过了内存墙,这就是它的核心逻辑。推理速度才是 ai 落地的真正瓶颈, 但代价同样巨大,一整张金元做成一颗芯片,量率极低,金元上哪怕是一个微小的瑕疵,整颗芯片就报废。这就导致了它的成本居高不下,毛利率只有百分之三十九,远低于英伟达百分之七十以上,这也是市场最大的争议点。你的技术确实牛,但你能把成本降下来吗? 从财务数据来看,增长是炸裂的,二零二二年营收仅两千四百六十万美元,而到了二五年就干到了五点一亿美元,四年增长了近二十倍。而且 gap 口径下已经扭亏为盈,从亏损四点八二亿到盈利二点三八亿美元。 那你得看清楚啊,非 gap 口径下,主页其实还在亏啊,大约是七千五百七十万美元。 gap 盈利里有很大的一部分来自于一次性收益,也就是说,他还没有真正证明自己能持续的赚钱。 真正让华姐感到兴奋的不是财务数据,而是他的客户名单, openai。 今年一月, openai 跟 cyrus 签了一百亿美元的双利合同, 四月追加到了两百亿美元以上。与此同时, openai 还拿到了 cyrus 大 约百分之十的股权,把最大的客户变成了他的股东。此外, cyrus 还和亚马逊达成了合作,作为 channel 芯片的补充供应商,中东客户 n b z 和 g 四二在二零二五年合计贡献了百分之八十六的营收。 客户集中度极高,既是亮点,其实也是风景。公司批漏的积压订单高达两百四十六亿美元,如果这些订单能顺利地转化为收入,未来几年的增长曲线会非常的陡峭。那这次 i p o 为什么会这么火呢? 其实就两个原因嘛,第一,市场环境正好啊, ai 基础设施投资热潮处于峰值,双利短缺问题持续发酵,而 ropy 近期和 spacex 达成的双利采购协议就是最好的例证。在这种供需紧张局面下,任何与 ai 双利相关的标的都会被资金追捧。 第二,有参照物。去年上市的云计算公司 covid 以每股四十美元发行,尽管仍在稍前,但股价已经涨到了一百一十五美元。华尔街在评估 ai 相关标的时,愿意把盈利压力占着放一边,优先关注 ai 场口。 cedarbrace 的 蓄势比 cedarbrace 的 更性感,他不是卖算力的中间商,而是设计芯片的底层玩家。但机会的另一面永远是风险。首先是技术路线的不确定性, cedarbrace 的 推力速度优势是十大十大, 但英伟达不是吃素的。如果英伟达下一代芯片也能解决推理延迟问题,那 ceramics 的 差异化优势就会被大幅度压缩。其次是厂能开机垫两纳米,厂能极其紧张,而 ceramics 的 芯片面积是最大的,能否拿到足够多的配额目前并不确定。 再次是客户集中度,百分之八十六的收入来自于中东两百多亿美元的积压,订单里 openai 占了绝大部分,任何一个大客户出问题,都会对营收造成剧烈冲击。最后是估值啊,三百五十亿美元对应五点一亿的营收,市销率就已经来到了六十八倍。这个定价已经把 完美蓄势啊全部打了进去,任何执行层面的偏差都有可能引发剧烈波动。这是 ipo, 本质上是一次市场对于 ai 推理新架构的工头,如果成功,意味着花街愿意为差异化的技术路线买单,即使它短期之内不赚钱。 如果遇冷,则说明市场对于 ai 芯片赛道的热情已经开始从闭眼从转向挑着买。对于我们来说, sidebeats 不是 一个可以无脑买入的标的,它的波动会很大,它的故事需要被时间验证, 让它值得被放进你的观察列表。因为在这个 ai 基础设施重构的时代,每一次这样的 ipo 都是我们重新理解双利格局的机会。我是美刀哥,带你价值投资做时间的朋友。

因为他真正的竞争对手 hbm 高代宽内存海力士的杀手来了! siri bros, 没错,就是那个直接把模型权重直接烧录在金元上的那个芯片公司。 他跟达子走的是完全相反的路线,如果后续这手技术真的成熟的话,那他真的就把 hbm 高代宽内存给消灭了呀。因为他直接把模型权重刻到金元了呀,缺点就是费金元, 这要是成了还要买套客吗?到时候再回头想一想,今天如此疯狂的建设呃,这种数据中心, 别到时候给一一技术节贷没用了,变成这种过剩的算力了。首次 ipo 募资三十五亿,大模高盛领头,希望你的技术快快成熟。

二十倍超额认购,四十八亿美元募资, openai 超过两百亿美元合同一只还没上市的 ai 芯片新股,已经把华尔街抢疯了。 它不是英伟达,不是 amd, 也不是又一家蹭 ai 概念的软件公司,它叫 siribras systems, 股票代码预计是 c b r s。 如果一切顺利,五月十三日完成 i p o 定价,五月十四日,本周四正式登陆纳斯达克。最新消息,最刺激的地方在这里。 这家公司最开始的 i p o 定价区间是一百一十五到一百二十五美元,后来市场传出上调到一百二十五到一百三十五美元,现在可能直接提高到一百五十到一百六十美元, 发行股数也从两千八百万股加到三千万股,按照一百六十美元上线算,募资规模直奔四十八亿美元。更夸张的是,认购需求超过发行股票数量的二十倍。换句话说,市场上有二十份钱再抢一份股票。 这就是为什么 siribras 还没敲钟,已经成了本周美股 ai 圈最炸的话题。但这还不是最猛的,真正让他一夜出圈的,是他背后的那个超级名字, openai。 今年早些时候,市场已经传出 openai 会向 siribras 采购大规模 ai 算力,后来进一步透露的信息更夸张, openai 和 siribras 之间的合作规模被报导为超过两百亿美元级别。并且 openai 还有机会通过认股权证拿到 siribras 的 少数股权。 这意味着什么?一家 ai 芯片公司还没上市,已经先被 open ai 锁定。一家 ai 硬件新股还没交易,机构已经抢到,超额认购二十倍,一家还没有正式接受二级市场检验的公司,已经被市场拿来和英伟达、 amd、 ai 推理、算力、 ai 硬件下半场放在同一张桌子上讨论。所以今天这期,我们不含口号,也不讲玄学,我们直接拆四个问题,第一, serbros 为什么能被抢疯?第二,他和英伟达到底是不是同一条路? 第三, openai 为什么愿意押这么大的算力合同?第四,散户面对这种 ai 新股,到底应该追还是等?今天所有内容都是基于公开资料和个人研究,不构成任何投资建议。 ai 新股最容易让人上头,也最容易让人买在最贵的情绪里,今天我们要做的不是让你冲,而是帮你看懂机会在哪里,风险又藏在哪里。 在讲 siribras 之前,先看一个过去一年让无数散户拍断大腿的案例, sandisk 代码 sndk, 很多人一开始根本看不上 sandisk, 觉得它不就是做存储的吗? 不就是闪存、 ssd、 企业级存储吗?这种东西以前都是周期股,涨一波也就差不多了。 结果 sandisk 从 western digital 分 拆出来之后,硬生生走成了美股 ai 硬件里最夸张的一只股票。 它从分拆后的低位涨幅达到几十倍级别,核心推动力就是 ai 数据中心对闪存和企业级 ssd 的 需求爆发。到了五月八号, sandisk 收在一千五百六十二点三四美元,当天涨百分之十六点六。 每光也收在七百四十六点七九美元,当天涨百分之十五点五。这不是普通存储股反弹,这是整个 ai 存储链条被重新定价。为什么存储能涨成这样? 因为 ai 行情已经不只是谁有 gpu 这么简单了。二零二三年,市场最关心的是谁能训练出更强的大模型。 open ai 出 gpt, 谷歌出 gemini, 大家比参数、比模型、比训练能力。 但到了二零二六年,问题变了,模型训练出来之后,真正的大钱在哪里?在推理,你每天问 chat gpt 一个问题,让 ai 写代码、生成图片、总结文件、分析股票背后都不是免费魔法,每一次回答都要消耗算力。 每一个 ai a 阵在后台跑任务,都要消耗存储、贷宽电力和推理能力。训练像是造大脑,推理像是让这个大脑每天给全世界打工。 训练是一场大工程,推理是持续不断的水电煤。所以, ai 硬件的投资逻辑,正在从一条线扩散成一张网。 第一波资金买英伟达 gpu。 第二波资金买 amd 博通台机电 s m c i。 第三波资金买存储光模块、液冷电力、核电、天然气。现在市场盯上了一个新方向, ai 推理、算力。这就是 cerebras 的 故事。 cerebras 不是 做存储的,也不是做光模块的,它直接贴近 ai 价值链最顶端算力层。 但它跟英伟达走的不是同一条路。如果 cerebras 只是模仿英伟达做 gpu, 市场不可能这么兴奋, 因为 gpu 赛道已经太拥挤了。 amd 在 做,英特尔在做,谷歌有 tpu, 亚马逊有 tree name, 微软也在搞自研 ai 芯片。更重要的是,英伟达有哭打生态 这堵墙,不是随便哪家公司上市就能推倒的。 cirobras 真正吸引人的地方是它走了一条非常极端、非常差异化的路线。晶元级芯片这个词听起来很硬核,我用大白话讲, 普通芯片怎么做?就像一张大披萨,先在一整片圆形晶元上刻电路,然后把它切成一小块一小块,每一小块就是一颗芯片。 英伟达的 gpu, 手机里的芯片,电脑里的 cpu, 大 体都是这个逻辑。英伟达的 ai 方案是什么? 把成千上万颗 gpu 连起来,组成一个超级计算机群,你可以把它理解成百万大军,靠数量、生态软件和协同作战打天下。但这个方案有一个天然问题, 这么多芯片之间要不停传数据,数据一传就会有延迟。芯片越多,服务器越多,机柜越多,数据来回跑的成本就越高。 到了 ai 推理时代,这个问题更致命,因为用户不愿意等你问 ai 一 句话,如果他转圈十几秒,你体验就崩了。 企业让 ai agent 同时跑几百万个任务,如果延迟太高,成本太贵,这个生意就跑不动。 siribras 反过来,他说,我不把这张披萨切开,我直接把一整片晶圆做成一颗超级大芯片。它的第三代产品叫 w s e 三 wifestyle engine。 三、 cyberross 官方资料显示, w s e 三面积约四万六千两百二十五平方毫米,拥有四万亿个晶体管,九十万个 ai 优化核心,峰值 ai 算力达到一百二十五 petaflops。 这是什么概念? 你可以这样想,英伟达是百万大军, cyberross 是 一个超级巨人,英伟达靠生态规模、软件和集群取胜。 cyberas 靠把计算内存贷宽尽量压进一颗超大芯片里,减少数据搬运,主打低延迟、高吞吐、快速推理。所以 cyberas 不是 要简单干翻英伟达,这种说法太粗暴了, 它真正的机会是去打一个英伟达,不一定最舒服,但需求有越来越大的战场。 ai 推理速度,这也是为什么 openai 会关注它。 openai 今天最缺什么,不是用户, 用户已经太多了,不是故事,故事已经够大了,它最缺的是更快、更便宜、更稳定的推理算力。 chat gpt, 用户越多,企业 api 越多, ai agent 越多, 多模态生成越多, open ai 就 越需要新的算力方案。只靠 gpu 集群当然可以,但成本、延迟、能耗、部署速度都会变成压力。 siri brass 的 切入点就是让 ai 回答得更快,让推理延迟更低,让大模型服务用户的速度更接近人类感知。所以 open ai 的 合作,对 siri brass 来说,不是普通客户订单,它是背书, 它是认证,它是告诉市场。这条路线至少值得最懂 ai 推理需求的公司认真下注。 cirobras 的 商业模式,也不是只靠一条腿走路。第一条,卖整套 c s 系列超算系统,这就是硬件直销,卖给政府机构、科研单位、大型企业、云厂商。 客户买回去可以训练模型,也可以跑推理任务。这条线的好处是单价高,客户专业需求明确。 第二条,做 siribras cloud, 一 整套超算系统太贵,不是每家公司都买得起,所以 siribras 把算力放到云端,让客户按需调用,按使用付费。 这不是传统萨斯,更像 ai 算力云服务,但它有经常性收入的味道,华尔街喜欢这种模式。第三条,给 open ai 这种超级客户做专用算力部署, 这不是卖几台机器,而是围绕客户需求做长期算力基础设施,合同周期长、金额大,客户粘性强。 一旦客户把自己的 ai 服务和你的算力架构绑定,迁移成本就会很高。这三条线合起来,就是 siribras 的 收入闭环, 卖系统赚大客户的钱,卖云服务赚中小客户的钱,卖专属部署赚超级客户的长期钱。 财务上, cybers 也不是纯烧钱公司。 reuters 此前报道, cybers 二零二五年营收约五点一亿美元,并实现每股盈利约一点三八美元。 它原本计划以一百一十五到一百二十五美元区间, ipo 时对应估值最高约两百六十美元,估值自然会继续抬高。 这就带来一个非常重要的问题,它贵不贵?答案是贵!但 ai ipo 从来不是看当下便宜不便宜,而是看市场愿不愿意为未来买单。如果你只看二零二五年收入,这个估值肯定很高。 如果你看 openai 大 单 ai 推理需求,二是被超额认购 ai 硬件行情的赚钱效应,市场又会觉得它稀缺。这就是 cbrs 最矛盾的地方, 故事很强,价格也热,技术很特别,估值也不便宜。 openai 背书很硬,但客户集中风险也很大。 所以散户最关键的不是问他是不是好公司,更关键的问题是,如果他上市第一天被炒的很高,我追进去还有没有安全垫?我给你三个情景,第一个乐观情景, 如果本周 ai 硬件情绪继续强, sandisk、 美光、 amd s mci、 博通台机电这些 ai 硬件链继续走强,同时 open ai 合作消息继续发酵, 那么 cbrs 上市首日很可能被当成 ai 推理算力第一、稀缺新股来炒。 二十倍超额认购、定价区间上调、四大投行宝剑,再叠加 openai 超过两百亿美元合作,这些足够让短线资金兴奋。不排除首日出现很强的高开,但注意,首日涨得越猛,短线兑现压力越大。 不是公司不行,而是所有人都太兴奋的时候,价格很容易先冲过头。第二个中性情景, ai 硬件板块不崩也不封。 cbrs 高开之后震荡换手,盘中有资金获利了结,但收盘能守住关键区域,这种走势其实更健康。 真正有长期潜力的新股,不一定要第一天涨到天上,他更需要用换手消化浮筹,再等后续订单、财报和客户进展来验证。散户这时候要看三个东西,成交量、承接力、收盘位置 最高点不重要,收盘能不能稳才重要。第三个悲观情景。如果上市前后美股大盘回调, ai 板块降温,或者市场开始质疑 ai 资本开支回报率,那么 cbrs 这种高估值新股会很危险。 高估值股票最怕什么?不是没故事,而是故事太满,价格太贵,情绪太拥挤。只要市场风向变冷,资金通常会先看最贵、最热、最容易获利了结的票。 所以 sirbras 不是 不能看,而是不能用一夜暴富的心态看。风险也必须讲清楚。第一,客户集中度风险。 oppo ai 是 超级背书,但如果未来收入过度依赖少数大客户,一旦客户预算、战略或者资金链发生变化, cbrs 股价会非常敏感。第二,竞争风险。 英伟达不是吃素的,酷达生态还在, gpu 集群还在,客户关系还在,谷歌、亚马逊、微软也都有自研 ai 芯片。 cirobras 技术路线很独特,但它面对的是地球上最有钱、最能砸研发的对手。第三,技术交付风险。 晶元级芯片很猛,但制造良率、散热、供电、产能都不是小问题,如果交付跟不上故事,市场会立刻刹估值。 第四,估值风险。如果 i p o 价格被抬到一百六十美元,上市第一天再大幅高开,散户追进去买到的可能是好公司,但也是很贵的价格。高估值成长股只要一个季度不急,预期百分之三十到百分之五十的回撤都不奇怪。 第五,锁定期和股权结构风险。早期股东未来解禁会不会套现,普通股东投票权弱不弱,这些都不是小事。所以今天这期我不会告诉你闭眼买,也不会告诉你一定别碰。 真正成熟的做法是把它放进观察名单,然后看五个信号。第一看最终定价是不是靠近一百六十美元,越靠近上限,说明需求越强,但安全垫越少。第二看守日高开幅度。 高开适度是强势,高开太极端就要防兑现。第三看守日换手和收盘冲高不算强,收得住才算强。 第四看第二天、第三天能不能横住,首日是情绪,后面才是承接。第五看 open ai 之后有没有新进展, 旧消息反复炒,热度会降,新订单、新客户新交付进度才是趋势燃料。最后总结一下, siribras 不是 下一个英伟达,但它可能是 ai 推理时代非常重要的一条支线。它的看点不是复制 gpu 霸权, 而是用晶元级芯片去解决 ai 推理的低延迟瓶颈。 openai 超过两百亿美元级别的合作是它最大的背书, 二十倍超额认购是它短期热度的证明,但高估值客户集中竞争激烈也决定了它不是低风险标的。如果你错过了 sandisk, 不 代表你必须疯狂追 cyrus, 错过一个机会不应该用另一个冲动去弥补。 但如果你完全不研究 cbrs, 那 你可能会错过 ai 硬件下半场一个非常重要的观察窗口,本周把它放进观察名单,看定价,看开盘,看换手, 看承接,看 openai 后续消息。真正成熟的散户不是在 ipo 第一分钟被情绪带走,而是等市场给出定价承接和趋势信号。评论区告诉我,如果 cbrs 首日高开百分之五十,你会追还是等回调? 你觉得它是下一个 sandisk, 还是又一个被 ai 情绪炒贵的新股?如果这期帮你看懂了 siribras, ipo 背后的机会和风险,下期见。

这家叫 sirbraus 的 芯片公司 ipo 定价一百八十五美元,上市当天直接翻倍,但最离谱的数字是,这个 open ai 白拿百分之十股权,价值五十亿美元。而 open ai 付出的 只是一份未来会买你芯片的承诺。注意,不是现金,不是技术,是一张空投支票,用散户投进来的钱补贴他最大的客户,这操作教科书都不敢这么写。 cerebras 确实牛,整块晶圆做一颗芯片九十万,核心推理比 gpu 快 十五倍,工程奇迹 没毛病,锅盖那么大的金元,一般厂家都是切成几百个小芯片来卖。 cybras 确实有创意,但问题是除了它自己,没人在用,没有生态,没有社区,没有裤带护城河。技术领先不等于商业成功。还有一个你必须知道的数据, 百分之八十六的收入来自阿联酋。这是风险还是地远?定位看怎么理解。在全球 ai 芯片被美国卡脖子的背景下, cyrus 是 为数不多愿意向中东、东南亚卖高端算力的玩家,稀缺性是他的另一张牌。 那现在这个六百亿美元的 ipo 到底值不值?分析师说合理估值应该在四百亿左右。市场说,我买的是 ai 军备竞赛的泡沫保险,这不是买芯片公司,这是在买全球算力格局重新洗牌的那张入场券。可以说,这是一个勇敢者的游戏。

siri plus 真的 是内存杀手呀,一上来三星海力士全崩盘了,我建议啊,李在明哥全自收购算了,不然这个后果很难想象呀。这玩意真是真正的存算存算一体呀。当然最后啊,他不一定赢。 这开创的是一种全新的芯片架构。当然达字也不是吃素的,如果达字后面也尝试这种架构的话,那 hbm 是 真的完蛋了。还有孙正义在地表的前一周开价四百亿刀,人民卖这是不是可以认为是最低价最少值四百亿刀。

大家好,这里是 top cpu。 今天咱们聊一家 ai 芯片圈走完全另类路线的硬核玩家 siri breath。 别家 ai 芯片都是把晶元切成一小块一小块封装测试,它偏要把整片三百毫米晶元直接做成一颗处理器。 光是最新的 wse 三,就塞了四万亿个晶体管,九十万个 ai 优化核心面积,比传统旗舰 gpu 大 出几十倍。 二零一五年成立于加州塞尼维亚的 siri brass, 从一开始就没走英伟达、 amd 的 传统 gpu 路线,而是死磕晶圆级架构。核心逻辑其实刚好戳中现在大模型的核心痛点。 ai 计算里大半资源消耗根本不是运算本身,而是数据在多颗芯片、多块板卡、多台服务器之间来回搬运产生的延迟功耗和调度成本。它把计算核心片上内存高速互联全塞在同一块超大规片上,大部分通信直接在片内完成,带宽更高,延迟还更低。 和靠 c u d 生态打天下的英伟达比,它的优势是架构差异化,特定大模型推理的 toc 输出速度快很多,还能减少分布式集群的调度复杂度。 合作 gpu 替代的 amd 绑定云平台的自研 tpu trainee, 还有主打轻量低延迟推理的 grook 都不一样。它不做兼容性替代,也不绑定单一云平台,而 是卖完整的 cs 系列计算系统、专用 ai 超算甚至云端推理服务,本质是家 ai 基础设施服务商。现在 ai 行业已经从训练热转向大规模推理部署, 大家越来越看重单位投坑成本、响应速度和系统效率,刚好给了这种非传统架构机会。但它的短板也很明显,软件生态远不如扩大成熟客户,迁移成本高,通用性也不够。 它不是什么 gpu 杀手,也替代不了英伟达,只是给市场多提供了一条完全不同的算力路线。你觉得精元级计算未来会不会成为主流算力选项?欢迎在评论区聊你的看法,别忘了点赞关注咱们 top cpu, 后续还有更多硬核科技分析,咱们下期见。

在如今由英伟达绝对主导的 ai 算力市场上,有一家估值超百亿美元的美国独角兽企业 cerebrius 正试图用一种极其硬核的方式来打破垄断。照芯片的常规执行逻辑是把硅晶圆切成几百个小碎片,但 cerebrius 却反其道而行之,它把整块三百毫米的晶圆作为单一的芯片,面积是传统最大的 gpu 的 五十倍。那制造瑕疵怎么办? cerebrius 在 架构中设计了海量的荣誉, 一旦遇到物理坏点,控制流就会自动绕行。更关键的是,它直击一个核心痛点。 ai 计算中数据搬运的耗时与功耗往往是超过计算本身。那么 sirius 将四十四 g b 超高速内存和九十万个 ai 计算核心 紧密集成在同一张柜片上,实现二十一 p b 每秒极速带宽,一举砸碎算力底层的内存桥。同时,面对单芯片高达二十五千瓦的极限功耗,还设有垂直三 d 供电架构与定制水冷系统, 确保巨型芯片的满载下稳定运行。这些操作意味着你不再需要用昂贵复杂的网络去连接上百上千张显卡,直接打破了 ai 算力的极群诅咒。及其复杂的分布是切片与调度被简化为单台设备上的直接运行。 面对这种底层架构的挑战,英伟达目前的策略是继续巩固护城河,通过新一代架构和更高速的外部互联网络, 将传统 gpu 集群的效率推向极致。从市场趋势来看,虽然英伟达的生态短期内难以撼动,但 siri 思的成功标志着 ai 算命正在走向分化,未来的数据中心将不再只有单一的 gpu 形态。

各位家人们注意了啊,这两天 ai 界将迎来一件极其重磅的大事,塞尔布鲁斯公司将于五月十四号正式登陆纳斯达克上市。这家公司啊,绝非普通的新股,他直接对当下主流的 ai 芯片技术路线呢,发起了革命性的, 可能是重构整条的 ai 产业链。那么这家公司是二零一五年成立的,总部坐落于美国加州的桑尼威尔,创始人更是 amd 的 前高管。它作为主打整块八英寸晶圆去打造单核 ai 芯片的高性能计算企业,如今它已经成为了英伟达在 ai 大 模型训练和 和推理领域最强劲的对手。他拥有三大的顶尖优势。第一个啊,单芯片堪比超级计算机,他彻底摆脱了多芯片互联带来的瓶颈,带宽更是远超英伟达 n v 链的数千倍。要知道啊, n v 链是英伟达 ai 帝国的神经网络,依靠它才能将海量的 g p u 串联成虚拟的超算,也是如今大模型训练的核心基建。第二个,它的运算速度拉满大模型的推理速度呢,远超英伟达的 g p u 快 数十倍。当然,也有相关的数据显示啊,能够快近千倍的差距。第三个,节能又省钱, 同等的算计之下,它的工号和成本呢,仅有英伟达 g p u 集群的三分之一。那么 sally brice 的 问世,更是实现了底层芯片架构设计的范式转移。我给大家打个通俗的比方,英伟达的发展路线呢, 就是好比他打造无数的顶级跑车,在修建高速路网将其联通,而塞里普拉斯呢,直接造出了超级高铁,从根源上,他提升了算力的运营效率,所以两者的最大区别是金元级的芯片和金片级的芯片的差距,整体的面积它足足大了近三十倍。 他不把十二寸的金元分割成数十块的独立芯片,而直接做成了一整块超大的单一处理器,从而从根本上解决了行业最棘手的算力瓶颈和内存强的难题。 如此硬核的实力啊,瞬间获得了华尔街各大投行的高度青睐。本质上是呢,他的超额认购已经达到了二十多倍。 那么这种的技术革命带来的 ai 产业的影响是十分深渊的,全新的 ai 炒作题材和发展方向将诞生。想清楚了解咱们 a 股市场里哪些相关企业能够顺势受益呢?家人们啊,记得多多关注,每天早上八点钟,注意锁定我的直播间,咱们详细的拆解。

hello, 大家好,欢迎来到我的频道,这里是荒野星际观察,带你用全站式学讲开 ai 啊,那咱们本期呢,就来讲一讲啊,这个 cybers 这家公司我们之前也讲过啊,更多的呢,之前是偏它的 啊,值不值得买这个手工首发的这个角度去讲的啊,哎,更多的也偏它的商业模式去讲,那咱们这期视频呢,就来偏它的这个,呃,侵入到它的芯片技术里面去讲 啊,讲这家公司的这个芯片,哎,他到底和英伟达比有什么样的区别,以及他这么样的一个芯片到底优势在哪?劣势在哪?这么今天呢,我们就会更加的深入细节啊,那上集那些视频呢,我们其实也讲过,不过那些视频呢啊,并没有那么深入细节好, 那么首先看看他这家公司现在已经上市第二个交易日结束了啊,我们看看这家公司他现在一个情况啊。啊,那首先上市当天呢,是直接是啊,这个最高一度达到了百分之一百八零八的这个发行价的涨幅啊,直接触发了垄断,垄断之后呢啊,最后收盘收在了这个啊,涨了百分之六十八 啊,然后第二天呢,没办法,第二天呢,是哈,这个黑色星期五啊,这个全球的这个债市的这个收益全都飙升倒下去,主要是问题呢就在于啊,这个加息被提前定价了,所以呢导致第二天是啊,直接又跌了百分之十 啊,那现在目前这个啊,收在了这个二百七十九点七二啊,那这个价格呢,也是比他的这个发行价一百八要高出不少的啊,所以还是不建议大家继续入手这么几家公司了啊,那这个不建议了啊,这个公司啊,那具体呢啊,我们还是会 啊,大家听完我们讲这个技术之后,大家可能会有自己的一个判断,这家公司到底值不值得大家入手和或者是说不只是追热点啊,那看一看这家公司,他到底啊,他的这个啊,实际做的东西和你想的东西他的优势到底是不是 啊?这样的话呢,或许不是听我说值不值得,而是大家会有自己的一个看法,哎,到底值不值得入手啊,这样的话我就会好很多了啊,好,那咱们就深入咱们的技术讨论吧。 好,那么啊,这个视频呢,是基于上期视频的基础上的,所以有一些上期视频讲的那些东西呢?啊,我就不再讲了啊,所以呢,我们可以看到啊,所以这个这家公司, cyrus 的 这家这个产品啊,叫 w s e 三啊,这个金元级的 ai 芯片啊,那这个的话呢,我们就不再讲这个基础概念了。好,那我们看了哈 啊, cyrus 它超越传统 gpu 或者它的一个逻辑就在于它的一个极致推理速度啊,推理速度它达到了两千 tokens 每秒了啊,哎,它专门是为什么 追求的是单用户的一个极限响应啊,那为什么我们就要强调单用户,因为我们很多时候这个模型在推理它是异形的或者 batch, 一个 batch 进行推理的就是很多用户的一个需求或者是需求对它,它就放在一个啊,同时放在一个 batch 进行一个推理,那包括呢? 现在大家如果用过啊,很多这个 coding agent 的 话,就会发现一个问题啊,就是有些里面是很多 fast 啊,这个模型啊,还有这个 ultra fast 啊啊,很多时候甚至还会有人说 super fast, 各种各样的一个 fast, 哎,就是现在这个很多人啊,就愿意为了这种速度付出很多的溢价 啊,即使呢,你这个啊,速度啊,如果你拿扣带举例的话,哎,你速度翻了一点五倍,你的价格要高两倍,很多人都愿意的啊,他都愿意的啊,这个就是你速度带来的一点优势,很多人就觉得,哎,为什么啊,可能他们就会觉得啊,真正用这个人就觉得,包括我也会 啊,使用这么样的一个 fast 啊,可能是真的是啊,时间就是金钱,但啊,而且呢,真正 cost 额度它其实也不算我的金钱里面的,因为那个 cost 额度呢,我每个月就啊花那么两百刀啊,它它它它就,如果我是要做长期任务,我可能就不会开这个 fast, 那 如果开啊,做短期任务就开这个 fast 啊,就这么一个逻辑啊,所以我们看到哈啊,这个芯片呢,专门就是为了那些哎,那些愿意花钱啊啊,体验那种超快速度的那种啊,用户而体验的啊,而设计的啊 啊,大家看到哈,这么这么这么个逻辑啊,所以说当大模型的能力突破可用预值后啊,开发者对速度的这个付款意愿正在超过对并发症的一个需求。并发症的意思呢 啊,就是指的说啊,多少个用户啊,同时进行一个推理调动啊,这是我们说的 batch 的 一个问题啊。好,那我们接下来就直接讲到技术方案了啊, 好,我们看啊, w s e 三的这么一个地方呢啊,它其实我们之前讲的跟英伟达的相比是八十多倍的一个大小啊,它是指的一个金元级的一个芯片,那英伟达呢,可能只是它其中的一部分啊,比如这两个格子哎,就是英伟达的一个 b b 两百啊, b 两百这么样芯片了啊, 好,那台子这个节点,这个我们就不再讲了哈,我们看呢,主要是看到一个啊,重要的参数就是在片上内存 四十四 gb 啊, sram 啊,内部带宽是二十一 p b 每秒,那它这个二十一 p b 每秒呢,是指的是所有这个 sram 加起来的啊, 那,那和 hbm 的 逻辑其实一样的。 hbm 的 啊,我们说英伟达的这个 hbm 呢,它这个贷宽呢,是二十二 t 频每秒,这个最新的如饼架构的啊,啊,拿一百啊,那你并不代表说它单独的 d y m 的 这个这个这个速率有这么高,贷款有这么宽啊,只是 所有的 gpu 上,比如说你八个 gpu 堆站,所有的这些加起来啊,因为我们说每一个堆站呢,它可能还有十六个 dm, 那 把所有的东西一一块加起来,打得到的是二十二 t 每秒啊,它它,它不是说单独的一个啊, dm 的 一个铁口带宽啊,我们之前讲 dm 的 时候讲过很多次了,对不对?好 啊,这个算力的话呢,其实也没有什么特别大的参考价值啊,因为这算力的话呢,你优于这么多金元量,我看单月面积说不定还没有英伟达多,所以算力我们就不参考,主要是参考 这个内存和宽带,因为啊,我们说它是适用于这个推理的一个芯片,它就是应该怎么样,应该去参考它的内存和宽带的这两个指标啊,要不然的话,你和英伟达去比个算力,你也没有任何优势,所以也没有必要啊。 好,那我们接下来和这个啊啊继续比一下啊,就是这个内存介制啊,它是 s r m 啊,那个 h b m 啊,三 e 的 或者是京北大 g p o 呢,是封装型内存啊,那内存是四十四啊,一个是二百八十八, 那内存贷款是二十一啊,数 t v 级别,那 t v 级别的话呢,我们一看啊,这个大家举个例子,例子吧。啊,那在 b 两百 g g 啊,这个时候呢,是八 g 每秒啊,在 r 两百的时候呢,是二十二 g 每秒啊,这个大家看到啊,这个其实是 r 是 r p b r 是 r t b 啊,这差了这么样的一个一千倍的关系啊,大家看到啊,差的特别特别多的啊,啊,那为什么呢?就因为是 s m 和一个 h b m 啊,它是距离它不一样的哈,啊,离 g p u 的 距离不一样,这个我们就不太讲了,上期视频我们讲过了,对不对?好,那设计哲学就是一个是什么呀?一个是为了 啊极致的容量啊,啊,因为大家看到它的容量有二百八十八 gb 啊,那现在 amd 的 这个 m i 四五零系列甚至能够到 今年下半年出货了啊,那它能够达到四百三十二 gb, 但是这个呢就是四十四 gb, 因为大家知道,哎,算我们它就这么大,它扩大不了了啊,我们会之后会讲的,其实我们之前也讲过,对不对?好,那我们先来看一下啊 啊,访问数据的切片图啊,这个呢就是典型的一个所谓的啊,这个 hbm 的 一个二点五 d 封装的架构啊, gpo 和 hbm 追战进行二点五 d 封装 啊,那这个呢?是啊,这个 sm sm 大家可以看到啊,哎,就是在片上了啊,它就不需要怎么走线了啊,大家知道走线是走什么线, hbm 其实也要走线的,走什么线?就是走的那个啊, coors 在 一起的吧, trip on wafer 在 wafer 上面进行走线 啊,尾数上面呢,密密麻麻的有线连着的,哎,这个就我们就是说的横向啊,横向走线,这就是这么个逻辑了哈, 好,那么我们接下来看一看啊,这个啊,这个这个他的这个低啊, s r m 他的优势在于哪里呢?我们说啊,优势在于低扣的阶段啊,这个我们也啊,这个之前讲过啊,我们假设它是 bash 一, 就是低递发递上的长度 啊,那,那如果不是低频发的话,可能是就是我们之前说的非常非常多用户放了一起进行请求的话,那就不是,那就不一样,我们假设他的低频发,因为他这个芯片设计的,就是我们说一开始就为了这些愿意啊,为了这个低频发高速度而付出啊,这个额外的这个费用的一些成本的这些用户了,所以我们就以这个为前提。 这么看到那这个 sm 或者是这个 cyrus 的 这个优势呢,就在于它的这个 decore 的 阶段啊,那这个如果对于这个 pd 分 离还有一些问题的话,可以看我很早之前的一些视频讲过这个 pd 分 离这两个阶段了啊,我们这就不再讲了,我们说 decore 阶段呢,主要呃就是在自回归深沉头款的这么样的一个阶段,它最考验的就是你的内存和你的这个内存的这个硬盘和容量 啊,为什么呢?因为你这个时候是疯狂堆积 k v cash 的 时候,并且呢,你是要疯狂读取和写入 k v cash 的 时候,所以呢,读写考验你的容量,所以这个时候考非常考验内存的时候啊, 那么啊,我们可以看到啊,那么这个 w s e 啊,在这个时候呢,由于它有二十一 p b 每秒的这个贷宽,所以呢,它在这个疯狂读写的时候,它就不占优势了 啊,因为 k v 啊,因为我们说内存它有两个指标,一个是什么,一个是容量,一个是贷宽,这个玩意贷宽很大,但是容量不大,容量它只有二十二 g b, 四十四 g b 啊,这个玩意呢,它有二百多 g b, 所以 我们说啊,这个完全它是不一样的啊,它可以到非常非常的快的 d c o 的 d c o 的 意思就是说疯狂快的阻止之前的 k v cash, 并且生成下一个 k v cash, 这个是没有问题,但是呢,你想让它怎么样?你想让它存很多 k v cash? 做不了, 哎,这个时候就会有一个问题了,又到下一个问题了,就是说如果我们存不了这些 qq cash, 那 就意味着我们的上下文长度会有限。 还有一个什么意味着我们不能使用太大的模型,哎,我们想到这个逻辑,就是说你的啊,是 hbm 也好, sram 也好,它在你模型推理的过程中,它要存什么数据? 存,是不是存着你模型的权重啊?这些数据啊,无论是你是 dance 模型也好,你 m o e 模型也好,你所有的权重都得放下来。为什么呢?因为你不要说你 m o e, 你 可以把这个模型一部分放到 s s d 里面去。不可能。为什么?不可能?因为你永远也不知道接下来会访问哪一个专家, 所以你呢,你所有都得放在 hbm 里面啊,那目前是这样的哈,你不要跟我说什么 hbm 啊,也有可能,或者是这个 csl 什么协议啊,也有可能,但是我们主流的呢,目前还是全部都要放到这个 hbm 来,无论是你是病型也好,刘若英病型也好啊,无所谓,反正呢,都得放起来 好。所以我们可以看到啊,就是啊,随着你的推理过程越来越长,随着你的 k v cat 积累的越来越多,随着你的这个 agent 呢,其实假设你是 agent, 它的调用呢,它会产生非常长的一个上下文,那如果长是非常长的上下文呢? 那产生的 k v cat 势必越来越多,一旦越来越多,它就会迅速的占满你的什么 ai 容量,这个时候你的四十四 gbs 算法的容量呢? 它就成了一个最大的一个什么限制条件,而不是它的贷宽。所以我们说在推理的时候啊,特别是 a 型的应用场景啊,它的贷宽和容量全都是它的瓶颈啊,它并不只是说一个, 嗯,贷款也好,容量也好,才是瓶颈。这也就是我们一直都说,为什么在 a 卷的时代,内存会越来越重要啊,这就是目前我们看这两天啊,美股市场的内存,包括三星,韩国那边内存全部都在回调啊,啊,那三家海力士,三星和美光啊,他们都在回调 啊,我一直都说如果他们回调就是好的一个上车机会啊,那啊,之前啊,也在跟大家讲这个逻辑,还是大家要记得怎么样我讲 好啊,所以我们一看啊啊,这个 agent 的 一个剪辑工作里头,就我们刚刚说的 agent 啊,远超了当时这个六十四 k 的 价格,就 agent 那 时候呢,它整个的这个上下文长度越来越长,随着上下文长度越来越长,它所需要的什么,它所需要的 kpi 元素的越多,你就装不下 啊,那我们看到啊,就是啊,这个百分之五十的请求都会突破了,这么样的一个它规定的一百二十八 k 啊,所以说当然的位型的啊,模型,但如果它上下文达到了一 m 的 上下文的时候 一百万上下文的时候呢,四四 gb 的 容量根本就不可能,我们说除了上下文百万就是你,即使你没放百万,那你那个模型的这么权重,它都不止这么多啊。所以我们说模型权重的推理的时候,它算是固定的, 但是呢,他的上下文会出现一个推理的进程,越来越多,越来越多啊,所以说的话呢啊,这个两个部分都是不可或缺的一个非常非常重要的部分,在你模型推理的时候,这就是为什么内存它越来越重要了啊。好, 那我们看一看,除了我们刚刚讲的那点它不适合这个长向下弯,它不适合大模型之外呢,还有一点就是我们看到了它片内互联,就是 sram 和它的所谓的这个 computer title 啊,或者是 computer 带之间的这个连接速度呢?是什么?二十一 p p 每秒啊,但是呢,我们看外面的这个出口的速度,就是你芯片向外面传递,就是你芯片,算吧,你算完了之后,你总要把那个算完的数据传出去吧,要不然你 算的有什么意义呢?对吧?啊?你全都是方便你自己内部快速算,你算完之后,你跟外面就就就这么慢的速度,不行,这么看呢,一百五十几个每秒啊,一百五十几个每秒了, 这这这这差的非常非常多啊,一百五十 g 每秒啊,就这个大家可以理解为就是类似于什么英伟达的 nvlink, nvlink 呢,也是把,对吧?把这个呃,一个 gpu 和另外一个 gpu 相连, 那这个呢?片外出口也是把一个 gpu 和一个 gpu 相连,那这个呢?片内互联就有点类似于英伟达的 hbm 的 一个速率,我们之前比较过,它是二十一 p 倍每秒,英伟达的 r 一 百呢,是二十二 t 倍每秒,差了一千倍啊,在这个时候呢, 这个它这里的一个所谓的一个 mv link, 假的啊,是一百五十 gb 每秒,大家知道现在英美达的这个 mv link 在 b e 在 啊,这个 blackwell 这一架构是多少了吗? 啊,是这么样的一个啊,一点六 t 频每秒了啊,已经到了一点六 t 频每秒,而这 r e 的 呢,甚至到了三点二 t 频每秒啊,三点二 t 频每秒和一百五十 gb 每秒, 这个差距有多大呢?大家我们就不用再想了吧?啊,这个一点二呢?这个还是啊?是是是,是这个上上代了啊,我们说在 black wheel 呢,就一点六 t 的 每秒了哈,啊,这么样的 n v link 的 速度,它相比于这个片外出口是差的非常非常多的啊。 啊,所以我们看啊,这个数据啊,就是边缘的密度为零点一距离每毫米啊啊,所以我们看啊,这个数据啊,就是边缘的密度为零点一百分之一。哎,我们说为什么这么做啊? 那为什么它不能把这个片外出口变得很高很高呢?啊?哎,这个问题就在这里了啊,由于它是一个什么,它是一个极其庞大的一个整体的 gpu, 我们之前讲过啊,光刻机的 mask, 也就是眼膜的大小,它是有极限的,它最大最大也就是八百五十八平方毫米。这么大,现在我们一颗 gpu b 两百, gpu 最大已经做到了 八百一十八平方毫米,已经不能再大了,已经到了物理极限,这就是光刻机物理极限。物理极限大家知道的意思就是你无论怎么努力,你也不可能超过这个物理极限,哪怕是英伟达他也超不过。所以呢,他想办法,什么 call us l 先进封装啊,然后把两个 b 一 百芯片封到起变,变成 b 两百,这就是目前的一个逻辑,所以我们一看, 但是为什么 celebrate 旗下公司它可以突破这个限制呢?哎,它其实也不是突破这个限制,它是怎么样?哎,你不是一个只能八百五十八平方毫米吗?那,那我就这个八百八十八平方毫米啊,这个八百五十八平方毫米这里,在八百五十八能再看到八百五十八平方毫米,就相当于这么点, 正常 gpu 就 这么大,相当于这个八百五十八啊,刻一遍,这里刻八百五十八刻一遍,这全都刻八百五十八刻,非常非常多次啊啊,然后呢,我们再想办法把它融合进来啊,如何把两个啊 断裂的这个这个这个光刻过的这个区域相融合,这个才是最难的地方,并且呢这个很容易出现什么某一个这个所谓的一个区域它坏掉了,这个时候呢,它就通过软件我们说来给它修复,这个我们之前讲过了,对吧? 哎,大家就问了,这个和你说的这么样的一个 i o 有 什么关系啊? i o 这个关系可大了哈,大家看到啊, 边缘的啊,就是用来放置这个 i o 的 吧,啊,内部的是不是就可以无法放置啊?这个外部的 i o 了,所以大家看到,哎, 我们曝光一致性原则,就是所有八十四个的这个图案必须绝对一致啊,若在金元内强行打动放置这个 i o 啊,那么会破坏二 d 的 高速互联性啊,导致数据线从漫长的吸出的边缘挤出 啊,它的意思就是说啊,我们每一个光刻机刻了这么样图案呢,它得一样的,就是说如果你想要增加它的 i o 的 话呢,那你就得同时所有的这个图案都得增加 i o, 但是我们这八十四个图案,你要是每个图案都增加 i o 的 话呢? 那现在你中间其实可能不需要那么多 i o 好, 但是你只需要边缘有这么多 i o, 所以呢你为了取舍,那你只能边缘少一点,你中间少一点,留更多的。什么留更多的来计算啊,不然的话你要压价计算核心呢,所以这是一个工艺上的一个取舍啊,你到底是 i o 重要还是你计算重要,后面他取舍了?是啊, 偏计算啊,所以呢,得到了一个一百一百五十七秒的一个 i o 极慢的一个速度切入,导致了什么问题 啊?啊?聪明的小伙伴可能就反应过来了,一百五十倍每秒就表示它它不是单个芯片,它装不下嘛,对吧?我们说单个芯片,它由于 s m 非常容量小,装不下。 那我们说一般情况下,如果单个芯片并行嘛,我们说 nv 链并行嘛, nv 链不行的话,我们还有这个以太网嘛,我们还有这个啊, infinite bound 嘛, ib 嘛,我们可以并行嘛,是吧? scale up, scale out, 我 们并行啊,哎,但是呢, 他如果他只有一百五十锯每秒,他并行都做不到,他并行都做不到,他不是做不到,而是非常非常慢。哎,我们可以看这么一个逻辑啊,就是他并行,他甚至都非常非常慢的做,他额外力这么慢, 所以这个芯片啊,他就非常非常有限,所以他还是印证了我刚刚那个关键,就是他只能够去做一些非常非常小的一些模型, 它不适合长上下文,它非常非常有限,一旦它用到了两个或以上的这种的一个金元,这个时候它的这个速率就大不如前了,因为它要等待啊,要很长时间来等待,那这个时候如果等待的时间算上了, 那,那快到哪去了?一开始你本来的 qq 时间减少了,然后你去把它 qq 时间没减少,我干嘛还要用你 calebrees 呢,我还不是用英伟达去皮球啊,要快得很,我还没什么延迟,对吧?所以呢,这个就是 一个悖论啊,你又想这样,哎,你就不能这样啊,所以你只能这样哈,啊,所以呢,这个话大家懂的都懂啊,哎,所以接下来我们还有一个问题,就是 如此密集的一个啊,这个这个芯片,或者是如此多的这个小芯片,八百多平方毫米的芯片封装在一起 会产生非常非常大的一个发热,而且这种发热是一般数据中心没有办法去进行缓解的,我们一般数据中心无非风冷夜冷,夜冷的话呢,呃,你大家觉得就对这种芯片有效吗?对如此庞大的芯片有效吗? 我们给大家看一个数据,他的这个发热量呢,发热密度呢?是五十瓦每平方厘米, 而他可能觉得没什么概念啊,五十瓦每平方米啊,这个你可以理解为,是啊,传统的这个发热芯片的,哎,我们说他的这个几十倍几十倍大,因为他这个密度面积,他就是传统的芯片的几十倍大,所以他芯片呢,他密度,他的热密度呢?只会一直堆积啊,一直堆积在这里 啊。所以我们一看二十五千瓦的发热源,五十瓦每平方厘米的热量,它肯定是用不了传统的这个散热装置的,比如说你给英伟达 gpu 散热的,肯定用不了,为什么?因为它的热量太大了啊,你说如果你有那个液冷液冷流进来,马上冷却液就被蒸发掉了, 就没有任何意义了,被蒸发掉了有任何意义吗?就就就就就就没有流走啊,应该是要不停的循环带走热量,它直接蒸发了就没有任何的意义了啊,所以呢,热量太高了,所以它就是想到一个三明治的一种方式啊,啊,来给它散热啊,我们说 啊,分几步呢?首先是主板啊,是供电网络啊,就是这个就是给这个硅供电的嘛。啊,这两个都会发热啊,一个是硅晶源 w s e 三硅晶源发热啊,主板也发热,然后呢 啊,中间还有一个定制柔性连接器啊,它主要是为了干嘛的?主要是为了缓解这个硅与 pcb 的 热膨胀系数差异的 啊,这个大家之前我们都听过,玻璃基板或者是 cold pots 的 时候,大家知道这个热密度差异是非常要命的啊啊,那会导致什么会导致啊?直接破裂,因为大家知道就是每个热胀冷缩嘛,对吧?啊,每一个材料它对热的这个膨胀系数它都不一样,有的它可能 这一点热啊,它就膨胀非常多,是弯曲非常多,有些膨胀不动,所以一个多一个膨胀不动,它可能会产生一些挤压的一种情况,挤压,一旦挤压就会有一个 比较脆的这个材料,它就破裂了,那破裂是不希望我们看到的,我们就不希望看到它破裂,对吧?所以呢,我们会有一个缓冲的一个柔性连接器啊,由于这个 pcb 呢和它这个金源它的热膨胀就不一样,所以呢我们有个连接器,把它们连接 相对于缓解一下,就是如果你啊蓬莱秀更多压一下,它还得有个缓冲,对吧?啊,它还能够给你缓冲一下这个时间啊,然后呢,最上面呢就是这个进气的液冷板啊,所以呢它是一个三明治的结构来进行散热的啊, 啊,所以我们看这么样的一个散热结构,它的成本是非常非常高的,怎么说它有包括的什么啊?各种定制模块啊, ipad 网络转换器啊等等等等啊,包括呢,我们看 啊,它的这个散热的液冷要求是普通的 nvlink 七十二,参考的这么样的一个三倍啊,大家看到 nvlink 七十二,它不是一个 gpu, 它是七十二个英伟达的这么样的一个 gpu 和 cpu 的 组成的这么样的一个机柜啊, 他是机柜啊,大哥啊,他七十二个 gpu 啊啊,所以呢他一个这么样的个玩意在散热啊,相当于人家一个机柜啊啊,我们说这个是非常非常恐怖,而且一般的这个数据中心他他得新建这么样的一个玩意,他就为了这么一款芯片,他新建这么样的玩意,所以我们一看到这个东西 呀,他的这个散热能力或者是散热需求非常非常高啊,非常非常高和不是一般的这个我们能接受的啊,所以只有一些顶级的大企业或者大玩家,他们才能够专门为这么玩意去新建数据中心啊。 好啊,那么接下来我们看就是我们还回到我们刚刚说的那点,就是说啊,他如果说装不下了这么多的模型权重,如果模型权重一旦偏大,或者是他想要 怎么样,想要进行高上下模的推理,比如说二百五十六 k 这么样的一个推理的话呢?它怎么样?我们说平时的这个 iso 它装不下,大小装不下,所以呢 我们之后我们要做的更多的都是什么?更多的都是并行,所以我们就是说通 nv link, 或者是我们说 ib 或者是地摊网这种 scale up, scale up 的 方式,连接多个芯片或者是机柜进行一个什么推理,对吧?但是呢我们看它怎么怎么办呢? 啊?由于它的一点二 t 每秒那个极低偏完 i o 啊,我们说,所以呢大家看到这么个地方啊,就是这个地方计算的蓝色地方计算的啊,你第一个 wef 一, 我们说大芯片啊,这个 dwef 一 celebrate, 什么大芯片计算完之后, 哎,然后你还要传输,由于它是一百二十 gb 每秒,哎,啊,这么样的一个非常非常低的一个 速率,然后你可能要传非常非常久,等到传到第二个,第二个算完之后传传到第三个,第三个算完之后传成第四个, 大家知道就是你在第一个算完之后的时候要等到一段时间,第二个芯片是啥事也做不了啊,在第二个机片算的时候,第三个芯片也是等啥事也做不了,这就出现了一个 bubble, 就是我们说的之前讲了非常多 bubble 啊啊,特别是 deepsea 论文里面也说了非常多次的这个 bubble 啊啊,就是如何减少这个等待延迟的这个事 啊,也也是也是这个 ai 训练的时候最大的问题啊,我们的流水线运行呢,就是说你这个把非常非常多的这个权重 啊,分模型的权重分配到不同的啊,或者是模型的层,每个不同的层分分到不同的一个 gpu 上,然后每一层呢计算不同的,嗯,比如说计算不同的一个 gpu 层,你也可以是把专家分配到不同的这个 gpu 上,叫做专家并行啊。我们现在越来越多的是混合专家模型吧, 但是我非常质疑啊,它到底能不能放混合专家模型?因为我们说 m o e 的 这个架构呢,它的优势在于它可以打破常规的量子零度,但是又要缺点在于 它的这个模型的权重非常非常大啊,非常非常大。你说 dp 这个最新的怎么已经到了一点几 t 啊,这就这么一个参数了啊,是极其之大的一个参数啊,所以呢,我估计够呛啊,够呛。由于它这个机型缓慢的速度,导致它它这个 gpu 进行这个八宝空闲的状态啊,所以我们一看就非常简单了啊 啊,这个第一个物理等待情况,那第二个呢? kv 笼鱼啊,多个 micro box 意味着 kv catch 被进一步复制了 啊,原本紧张的就事实上就被和爱情漫步空间就就不够。意思就是说,哎,如果你想要再啊进行并行的话,那你每一个 gpu 里面都得复制同样的,你之前聊天记录你就是 k v k, 那 如果你每个 k v k 都复制了你,相当于你本来就不够,然后你每个都会同步增加你的 k v k 值, 那相当于就起不到作用,大家知道吧?就起不到作用啊,你本来你的目的就是为了用别的别人的这个 iso 的 容量去借一借别的容量嘛,对吧?但结果截到你现在 啊,这个 qq 别人的 qq 卡是也是和你现在这个自身的 qq 卡是一模一样的一个大小,你要把它移过去就没有什么意义了啊,对,根本没有什么意义了 啊,所以呢,你要做到呢只能是什么呀?进一步压缩, keep catch 啊,你要把软件和硬件的协调做到极致,这么玩意儿才有利用的价值啊,真的是才有利用的价值,要不然它没有任何利用价值的,所以难度非常非常高啊, 包括我们说这个金源间跳跃在固定网络延迟啊,这个头肯触度护城河会被很大的悬殊,就我们说了,我们之前说个辩论吧 啊,你的目的就是为了加强你的推,增加你的推理速度,但是呢,你这玩意的这么高的一个 bug 延迟会促进你的推理速度,相当于你的优势就没了,你没有优势的,你拿什么和英文他比啊,对吧?啊,这个我们就分析的非常透彻了啊,啊,但是呢,我们说他最近肯定是解决了这个问题,如果他没有解决这个问题,那他不可能上市,所以呢, 我们只是说它这个问题非常严重,但是呢,它需要用户通过极致的软件和硬件协调进行解决啊,并且呢,它的适配肯定是没有 gpu 那 么好的。这个是肯定的啊,因为开发者没有那么多嘛,生态没有那么成熟嘛,这是肯定 啊。那么我们最后再讲一个之前我们讲过的内容哈,这个,这个我们讲过非常多次啊,就是 s m, 它和普通的 d m 不 一样, d d m 的 话呢,它是可以去通过新缩制成,就是你,呃,你十六大米,七大米,五大米,你的 d m 量可以越来越多 啊,但是呢, sram 的 话,由于它是啊六 t 六个晶体管组成的,也就是两个反向器组成的啊,这么样的一个 sram, 静态的一个内存啊,这是导致 啊,它如果你不断地不停地收缩它的这个制成的话,它会产生漏电的情况,比如说你不能说啊,一直收缩它啊,会导致一个它的 scaling load 非常的不完整,它的 scaling load 很 差 啊,所以我们看这个台积电的这么样的一个实际的一个例子啊,我们说啊, ws 一 的时候,台用的台积电十到十六纳米啊,它是十八 g b 的 sm, 但是呢,台积电变七纳米的时候,它直接是制成成了一倍啊,它是代替提成了二点二倍,但是呢,大家看到在五纳米 啊,只提升了百分之十,所以它提升的容量越来越小了,编辑效率越来越明显了。所以呢,这个时候我们说 scale 在 sm 上不生效, 但是呢, dm 可以 生效,也是 hbm, 它可以生效 hbm, 你 可以把它从你比如说二百八十八的一个三 e hbm 三 e 代啊成,慢慢地升到那个啊, hbm 的 这个所谓的四代啊,是变成了这个四百三十二 gb 都可以的, 对吧?啊,但是我们是 hbm, 它也不是完全没有限制啊,它有高度的限制,我们之前讲过, hbm 是 垂直堆叠上去的嘛,你不能太高了,所以, 但是你严格来说, hbm 它还可以有操作空间,你可以混合进核,但是这玩意儿吧,我们说它它它,它就是物理极限啊,它就是经济管的漏电极限,它就没有办法 啊,所以的话呢,没有办法通过太多的工艺去补出来了,哎,但是呢,哎,他就想的不对啊,你 guilok 不是 可以吗?我们因为拿的那个 guilok, 它不是堆了非常多的 sram 吗?没错,不过它那个玩意儿它是通过混合进核三 d 堆叠的,你这个玩意儿由于它是一平面的这么一个玩意儿 啊,它一平面你,你要是对 d s m 的 话,你就要挤占它 computer type 或者是 computer 代了,那相当于你要取舍了你,要不然你就是 你多一点内存,少一点计算,要不然少一点这个内存,多一点计算,你得取舍啊,这个是 s m 它的一个 你没有办法无限放大的一个。第二个原因啊,就是它 sky 零落非常不生效的一个原因啊,这个我们之前讲过,就是说它这个玩意儿你想扩张,你比如说你想叫下一代 s w s w s e 四, 可能提升就很有限了,就不会像现在这么样说,你比如说它的这么样的一个容量啊,它可能会是这么样的四十四 gb 提升到啊,八十八 gb, 它提升不了,提升不了啊。好,那么我们说怎么办呢?那几种方式嘛,啊,就是打断它这个向量 out 或者向量 up 的 一个瓶颈。 第一个就是光互联,那光互联的话,我们大家看到啊,就把光子互联金元直接贴到这个 s w s e 计算金元上面, 这个就相当于什么,相当于直接把什么把把把。我们说那个光子互联电源的,就是类似于那个光模块里面的那个芯片,核心芯片就把光转变成电光的,就是不让他走线了啊,他直接把它贴到混合间隔贴上面去 啊,贴上面去的,那意思就是说马上你计算完之后马上给你转成光信号马上传走啊。但是呢,我们说你从这种方式的话,且不说你现在, 呃,你 c p u 你 都还不成熟,你要想在这上面花时间花精力研究,因为这上面它毕竟是你这一家厂商在搞这个事,嗯,你这一想,这厂商你能有多少研究员负责帮你搞这事吗?那他这起难度挺大的,我们只能说啊,呃,包括呢,这个发热的这个像像光模块它, 它和 d s p。 交换机的 d s p。 芯片放一起,它都它都很难啊,这是我们的时候解决了一个 c p u 巨大难题啊,但更别说它,它要和 这么样的个 w w s e 本来就需要英伟达的这个散热芯片的三倍的这个发热巨兽放一起,这个很难想象它的这个 z 轴的这么发热多么恐怖啊。啊,那第二个呢?我们说 整个的混合建合,把更多的 dram 堆叠上去,就类似于堆叠 hbm 的 一个逻辑,现在你 s 啊,你不是 sram, 你 这么样的一个啊, sram 你 不说不够吗?对吧?我们之前说 sram 容量不够,但是它速度够吗?哎,但是呢,我们现在可以堆叠一些 dram 上去嘛,我们就像堆叠 hbm 那 样的一个逻辑,把它堆上去, 嗯,行不行?理论上行啊,但是还是会碰到那个 dram 的 一个瓶颈。 dram 现在目前也有瓶颈,就是在跳区啊,或者是说热密度不系数不同。 这个是啊,所有的半导体里面都会有这类的这个问题嘛,因为芯片总会发热,发热是会吸出不同嘛,之前我们讲这个康宁玻璃的时候就讲过讲 pos, 为什么 pos 要换成 pos 呢?对吧?也就讲了这么一个问题,所以呢,我们看到 呃,而且它这个高度肯定也是有限制的,所以呃,也是目前它可以解决的一个解决我们刚刚说的这个内存的这样问题的一个方法啊,就是容量这么样问题的方法啊。那么我们最后再总结一下, 那是我们之前说的种种的种种,它最后就是一个结论,它是什么呀?它只其适合或者是只适合极低并发,因为一旦并发多了,它相当于容量要求,就内存容量要求更多了啊,它只适合极低并发和极少的上下文长度的一个推理的 啊,就是意思是说它说白了就是极少的 q v c 啊,说白了它只能装极少 q v c, 因为它就是四 g b 啊,所以呢 啊,这么样的一个逻辑啊啊,他复制的是极速的 a 型的交互,而不是说极优质量的 a 型的交互,但是说有极优质量,你得, 你不说你代码肯定是要非常长那个代码库吧,你不能说你就一百二十八 k 的 代码库你就没了吧,所以所以的话他他走 a 型的我觉得是比较困难的啊,所以说的话他就只适合待在这么一个领域啊,进行快速推理 啊。我们说其他的领域啊,都是我们传统的 gpu tpu 在 在在,在这啊,负责的啊,我们传统就是拿 hbm 的 tpu 或者 gpu 负责的, 就不是说他们这种芯片的一个负责,所以他这个芯片当初出来他也没想抢 gpu 的 位置,所以很多人说要期待,期待英伟达这个无稽之谈,无稽之谈,那就把这个定位定位清楚了,您知道他,他有没有可能定位英伟达,那就不可能的啊, 啊?不可能的,所以的话呢,他是并非闲客充后闲客期待者啊。他换取的是小于八十七 b 模型 a, 小 于八十 b 模型的极低并发极致交互这一极窄但高价值的区间里面的一个绝对统治力。为什么说他高价值?一开始我们讲了,这里越来越多的人 为了获得提高了一个效率或者速度,他愿意付出更多的钱啊,那就类似于我这样,我用扣贷,我可能就会开一个快速啊,反正我两倍的这个不用,也不用我两倍的这个费用费率嘛。啊,好,那么呢,本期的这个视频讲到这里就结束了啊,我觉得这期视频呢,是非常非常干货,非常非常硬核的一些视频了。 他他这期视频呢,确实是能够就是表达出这个公司啊,或者是这个芯片啊,我跟很多人说这个芯片呢,他的一个底层逻辑,哎,他到底 他是为什么这么做,以及他的一个啊?在 ai 推理时代,他的一个优缺点是在哪里?我们总结说就是他 由于它的极高的待宽,它非常非常适合 decode 阶段深层图 token, 所以 它往外数了一个 token per second 非常大,非常强, decode 阶段非常强。但是有个问题就是它,它不适合怎么样?它不适合 a 帧的场景,因为 a 帧的场景它要求的是极高的一个 啊,极高的一个上下文,极高的一个 cpus, 所以呢,它的容量就不够了,容量不够我们说怎么办呢?你就想办法 c o up, c o up, 连多个芯片吧,但是它的 i o 也不够,怎么办呢? 那是我们讲最后一个方法,你不就是啊 c 轴互联吗?你这这一轴,你想连别的芯片,你就是啊 c 轴互联就把光芯片直接铺你头上嘛,那是会有问题, 发热太高。好,要不然你就是你就单个芯片吧啊?发挥到极致嘛,你就补容量嘛,你容量不是不够嘛,你就补容量,你多一点一些, gm 上去嘛? gm 上去有个什么问题呢啊?你又翘曲啊,你高度也会有问题啊,包括各种各样的问题啊,比如说你这个玩意儿, 他有可能万一有一个带坏了怎么办呢?你还有软软件优化啊,各种各样的软件优化,软件加硬件啊,各种各样,非常复杂啊。所以我们说这家公司他能够上市或者拿到那么高的估值,他也不是说 呃,就是白拿的啊,他肯定是有自己非常非常深的一个基础积累,包括我们说世界上能做这么大的, 那么大的一个大的亲缘的就没几个。就我说他不是没有价值,这家公司不是没有价值,只是他这条路能不能走通还需要什么呀?时间的验证。他不是说你这个东西一出来啊, w s e。 哇,你这个,呃,比如说七七星的头很没秒啊,非常厉害, 完事你就一定能成功,你就一定能打败英伟达,你就一定能怎么样?上市直接市值翻倍啊,你直接一进连续三四天垄断啊,这个这个这个,我们说没有那么好的事啊,就是你通过仔细的分析 他的这么样的一个芯片的实际的情况,你就会发现,哎,他只是一个概念性的玩意,他的这个概念到底能不能行,还得有待市场或者是人们的最终的一个验证了哈。好,那么我们这期视频还是一样不会再给大家任何的投资建议啊,我们也从来也是说这种东西非常非常非常谨慎 啊,上次也是说非常非常谨慎啊,所以呢,大家相信在看完这期视频之后,也不需要我多说什么,大家也会有自己的一些 见解或者看法啊,那别的呢,我也不多说了啊。那么如果大家有什么问题呢,还是可以希望大家可以在评论区里打出来,那咱们下期视频再见吧,咱们下期视频再见。如果大家觉得有什么啊收获的话呢,欢迎给我点个三零点个关注吧,咱们下期视频再见了,拜拜。

cyberrus 五月十四日纳斯达克 i p o。 硬刚英伟达的另类芯片巨头,谁能撼动英伟达的 ai 芯片王座? 这家走京元级超大芯片路线的硬核公司 cyberrus, 五月十三日定价,五月十四日纳斯达克正式 i p o 上市,募资最高三十五亿美元。今年美国最大 i p o 即将弯道超车, 别人把晶圆切成几百颗小芯片,他直接把整片晶圆做成一颗芯片。 w s e 三,拥有四万亿晶体管,餐盘大小数据不用跨 gpu 传输,芯片内部直连,低延迟、超快推理速度,超大内存带宽 直接绕开英伟达 nv link 集群,路线完全不同,底气来自硬核。创社团队全是 amd 老兵, 曾创办 c micro 被 amd 收购, ceo 更是硅谷硬科技狂人,销售战略拉满, 二零一五年成立,提前卡位。 ai 算力赛道,如今推理时代到来,直接迎来爆发 open ai 算力赛道,如今推理时代到来,直接迎来爆发。 i 签下一百两百亿美元长期打单,二零二八年交付七百五十兆瓦算力 open a m e 按拨奖康清大单,二零二八年交付七百五十兆瓦算力 open a 按拨奖主言语新 i 正式开启,去英伟达话 二零二五年中东客户占比超百分之八十六,如今成功摆脱单一依赖 sirobras, 成为少数能承接顶级算力的厂商,本周四正式敲钟, ai 算力格局真的要变天了。关注我,了解一手信息!

今天这期视频,我会以各家芯片能力角度分析 cybers 的 优势在哪。一个核心问题是 cybers 的 一块巨型芯片能不能击败 nvidia 数千颗芯片集群。 nvidia 走的是堆叠路线, blackwell b 两百把两颗芯片通过高带宽接口组装在一起,形成一个虚拟单元。 nvidia 的 核心壁垒是 nvlink 和扩大生态。 cybers 是 单体架构, 核心之间通过金元表面的硅层直接通信,不需要 nv link。 同时 sirius 的 内存宽带是 h 一 百的七千倍,这个优势在内存受限任务中表现突出。而短板在于生态。 sirius 通过 csoft 提供的 pie touch 原声支持, 但大量开发者习惯了哭打的工具链,迁移成本明显。而如今在开发者社区的反馈中,用户对 nvidia 的 评价是,虽然贵且抢不到,但拿到手就能用。对 servers 的 评价则是,一旦进入了它的系统,速度会让你感到恐怖。 motion 和 alpha sense 等早期采用者指出, servers 让他们的 agent 响应速度从五秒缩短到了瞬时。而目前推理市场的规模正在超过训练市场一批推理专用加速器公司开始竞争。 gork 就是 我们讲的 l p u, 它的核心思路是确定性,完全抛弃传统的缓存和分支预测。 gork 的 单片内存很小,大约二百三十 mb, 跑大模型需要堆叠大量的芯片, 扩展时工号上升较快。而 sirius 可以 在单块金元上跑通七十币模型。多并发症推理使成本更具优势。 simba nova 强调的是可重构型,采用类似 f p g a 但更高级的数据流架构, 核心卖点是巨大的节点内存。 simba nova 更像一个企业级私有云方案,二零二四年推出的 simba one 模型 在处理超长上下文方面有独特优势。 sirius 的 重心偏向极致的速度和标准化云推理, 最后是 google 的 tpu v 七和 amazon's trillion 三正在快速接代 servers 的 另一个竞争维度来自这些云端巨头。 servers 占据的是顶级易购计算单元的位置,没有试图取代整个 a w s 和 gcp, 而是成为其中一个高性能的选项。而目前 a w s 是 第一个公开与 sirius 深度集成的云厂商,双方开发了推理解构技术, amazon 自研的吹免负责 prom 的 预填充, sirius 四 s 三负责计算量最大、延迟最敏感的 poke 生成。 这个合作模式确认了 sirius 在 ai 解码环节的地位。 google 的 tpu v 七在性能指标上已经接近 blackwell, 且通过内购模式降低了使用成本。 service 面对 google 时的优势在于灵活性和私有化部署的能力,对于不想把数据交给 google 的 国家和企业, service 是 更好的本地化选择。 service 用了十年的时间做对了一件事,把一整块金元做成一颗芯片,消灭了 gpu 集群的通信问题。而 openai 愿意为他下两百亿美元的赌注。 它目前占据了全球算力格局中一个不可或缺的地位,通往万亿级参数实时推理的最快物理通道。而供应链风险和巨头的夹击真实存在。 avidia 的 生态壁垒不是一朝一夕可以打败的,但只要大模型对于速度和规模的渴望没有到头, service 就 值得持续关注。

二零二六年美股最受瞩目的 ipo 之一, ai 芯片独角兽 siribus systems 股票代码 cbrs 于今天二零二六年五月十四日正式登陆纳斯达克。这场首秀可以用疯狂来形容,它不仅是今年规模最大的 ipo, 也彻底引燃了二级市场对 ai 基础设施的信心。 一、市场表现首秀及巅峰 siribus 的 上市表现展现了极强的机构与零售吸引力。发行定价一百八十五美元, 此前经历了两次上调,最初区间仅为一百一十五美元。一百二十五美元,开盘价格三百五十美元,较发行价直接翻倍,涨幅约百分之八十九,盘中高点一度触及三百八十五美元,涨幅超过百分之一百,市值瞬间突破一千亿美元大关。收盘情况, 最终收于三百一十一点零七美元,当日涨幅百分之六十八点一五。资金规模,此次 i p o 筹资约五十五亿美元,若算上超额配授权,募集资金最高可达六十三亿美元。二、核心竞争力凭什么挑战英伟达? sirius 被称为英伟达最有力的挑战者,其底气主要来自其独特的底层技术路径、金元及引擎 w s e。 三、不同于英伟达将金元切割成数百个小芯片, cyberus 直接把整块金元做成一颗巨大的芯片,这是其拥有五十七倍于顶级 gpu 的 硅面积,片上内存和内存更是呈几何倍数领先 openai 的 背书就在上市前夕, cyberus 透露了与 openai 签署 价值一百亿美元的超大订单,这被视为对其技术在超大规模模型推理训练能力的终极认证,极致的推理性能在大模型推理环节, sirius 声称其速度比传统 gpu 方案快数十倍,这阵切中了目前 ai 行业从大列模型转向大规模应用的痛点。 三、财务与基本面分析高增长与高盈利二零二五年营收约五点一亿美元,同比增长百分之七十六。最亮眼的是其百分之四十七的净利润率 是在 i p o 阶段的科技公司中极其罕见。估值溢价以收盘市值计算,其市销率非常高,市场实际上是在预知未来三到五年与 openai 合作带来的爆发式增长。 四、风险总结虽然首日表现惊人,但投资者需关注以下引流客户集中度极高,目前大部分收入依赖于 openai 等少数几个巨头合同, 缺乏像英伟达那样深厚的生态护城河供应链瓶颈,这种超大芯片对台积电的先进封装工艺要求极高,产能能否跟上需求是关键。竞争反扑,英伟达的 black hole 架构及后续迭代正迅速收窄技术差距, 且 a n d 和 google tpu 也在虎视眈眈。 cybers 的 上市标志着 ai 赛道进入了硬件架构创新的深水区,它不再是简单的 gpu 追随者,而是开辟了金源级计算的新赛道。对于短期交易者,股价目前波动剧烈,首日百分之六十八的涨幅已消化了大量利好, 警惕获利了结带来的回调。对于长期投资者,核心观察指标是其能否在 openai 之外拿下其他的大规模客户,以及其软件堆站能否真正形成对开发者的粘性。你目前是已经在车上,还是在考虑寻找入场机会?评论区聊聊你的看法。
