二零二六年三月二十二日, n v d 发布 k v t c 技术,直击大模型推理中 k v 缓存占用显存过高的痛点, 在不修改模型的前提下,将对话历史内存占用缩减百分之九十五,首次响应速度提升八倍。该技术借鉴 v p e g e 压缩思路,经 p c a 自适应、量化商编码三步,实现 k v 缓存高效压缩,分快解压,不影响实时对话。 在多款十五亿至七百亿参数主流模型师测中,其二十比一的压缩比仅带来不足百分之一的准确率损 失。 h 一 百 gpu 处理八千 took 长文本的首次生成时间也大幅缩短。 nvi 计划将其整合进 the nano 框架,并兼容主流开源推理引擎。 该技术不仅能指数级降低企业算力成本,大幅提升 ai 交互体验,还将降低 ai 算法硬件门槛,有望成为 ai 推理标准化基础设施,推动 ai 规模化落地。
粉丝1828获赞2.5万

内存大涨的盛宴是要结束了吗?英伟达的 k v t c 到底能不能让疯涨的内存价格熄火?今天咱们一次性聊透。不吹不黑, 先说我的观点,全网百分之九十的人都搞错了这个技术,也许真的会让本轮内存大涨的行情彻底熄火。 首先,咱们先搞懂一个最根本的问题,这波消费级内存,它为什么会疯涨?哎,还真不是因为咱们装机玩家的需求,而是 ai 产业的成熟产能。 要知道,单台 ai 服务器的内存需求是普通服务器的八到十倍, s b m 内存的利润更是消费级内存的三到五倍。所以三星、海力士、镁光这三大原厂直接把百分之七十到百分之八十的先进产品全都转向了 ai 相关的高端存储。 消费级内存的性能被大幅压缩,供给少了,价格自然就涨上去了。再看 k v t c 技术到底动了谁的蛋糕,它能在不修改模型、几乎不损失精度的前提下,把大模型推理时的 k v 缓存占用最高压缩二十倍,而 k v 缓存恰恰占了大模型推理时百分之七十以上的显存 占用。这也是 ai 企业疯狂采购 h b m 堆 g p u 服务器的核心原因。说白了,原来要十台服务器才能扛住的 ai 变化请求, 现在一台就能搞定,你说 a a 企业对 h b m 对 服务器的采购需求会不会大幅下滑?而存储产业链的主导逻辑从来都是环环相扣的,当 a a 端的高利润订单减少,原厂必然会把闲置的金源、能源重新转回消费机市场。 一旦消费机内存的产量上来,供需关系逆转,那这轮涨价的底层逻辑怎么样?彻底崩塌?当然这也不是说明天内存就会砸掉水产业链的船岛呢,也需要时间。但不可否认的是,这个技术的出现已经给本轮内存涨价按下了暂停键,你说呢?

二零二六年三月二十五日,一则技术论文引发美股存储板块集体下挫,每光跌超百分之三点五,闪敌重挫百分之四以上。 导火索是谷歌刚刚公布的 ai 新算法 turbo quant。 这项技术声称能在不重新训练模型的前提下, 将大模型推理中最吃内存的 kv 缓存压缩至三比特,节省约六倍内存, 甚至在 h 一 百上实现八倍性能提升。市场立刻反映,如果 ai 不 再需要那么多高宽带存储芯片,那 hbm n a n d 的 黄金时代是否提前见顶? 今天这期新智信号站,我们就来深度拆解 turboqant 到底是什么?它真能颠覆存储需求吗? 何时能落地?又将如何重塑未来 ai 的 算力存储平衡?本期内容基于谷歌研究论文、财联社报导及行业分析师观点整理,不构成任何投资建议。 首先,什么是 kv 缓存?简单说,当你和 ai 聊天时,它需要记住你前面说了什么,才能连贯回答。 这部分记忆就存在键值 cleverly 缓存中。随着上下文窗口从几千 token 扩展到百万级, kv 缓存的内存占用呈指数级增长。 在七十 b 大 模型上,仅推理一次长对话,就可能消耗上百 g b 显存,成为比模型权重本身更严重的瓶颈。 过去行业只能靠堆 hbm 三 e、 hbm 四来解决,直接推高了英伟达 gpu 和镁光三星的订单。而谷歌的 turboqant 正是瞄准这个痛点,它通过一种新型量化方法,在几乎不损失准确率的前提下, 把原本十六比特的 kv 缓存压缩到三比特,相当于原来要六块 hbm 芯片,现在一块就够了, 但关键问题在于,这到底是实验室奇迹,还是可规模化的工程突破?谷歌目前只在 jamma、 mister 等开源模型上验证了效果,且测试环境高度理想化。 富国银行分析师指出三大不确定性,第一,算法是否依赖谷歌自研 tpu 架构能否适配英伟达 cuda 生态?第二,压缩后的三比特数据在真实业务中是否稳定, 比如多轮复杂推理、多模态任务是否会引发精度崩塌。第三,软件站改造成本多高?现有推理框架如 v l l m、 t l l m 是 否需要重构? 如果每家 ai 公司都要花数月适配,那落地至少要等到二零二七年。更现实的是,谷歌自己也未必能马上用上 其 gemini ultra, 仍在用传统 kv 缓存, turboqant 最早也要到二零二六年, q 四才可能集成进内部系统。 即便如此,市场的担忧并非空穴来风。当前 ai 服务器中 hbm 成本已占整机百分之四十以上,一块 hbm 四模组价格超四千美元。 如果 turboqant 类技术普及,单台服务器所需 hbm 容量可能从一百九十二 g 降至三十二 g, 直接动摇存储芯片的需求斜率。 分析师预测,二零二六至二零二七年,全球 hbm 需求增速或从百分之五十加下调至百分之二十至三十,但这不等于存储行业末日,因为总 token 量仍在爆炸增长。 黄仁勋说,数据中心是 tulcan 工厂,而 tulcan 越多,对高效存储调度的需求反而更强,未来竞争焦点将从堆容量转向压延池提贷、宽优价购。 例如 c x l 内存池、进存计算、存内计算等新技术可能加速商用,而 n a n d 在 向量数据库、日制存储等场景仍有广阔空间。 长远看, turboqant 代表了一种新趋势, ai 算法与硬件的协调设计正在取代暴力堆料。 过去是模型越大越好,显存越多越好,未来则是用聪明算法榨干每一比特价值。这对存储厂商既是挑战也是机会。 谁能率先提供支持动态量化、低精度 k v 缓存的智能内存控制器,谁就能定义下一代 ai 存储标准。 对中国而言,这更是弯道超车的窗口。当 hbm 制成竞赛白热化,我们或许可在算法存储携同优化层找到突破口。 总之,谷歌这一直论文未必立刻杀死 hbm, 但它敲响了警钟。在 ai 的 军备竞赛中,最贵的不是芯片,而是那些不懂得优化的浪费。 而真正的智能永远是在约束中创造最大价值。我是 leo prince, 咱们下期见。

欢迎收看设计改变生活, ai 内存使用量减二十倍,内存终于要降价,英伟达又掏出黑科技搞事情。 三月二十二日官宣的 k、 v、 t、 c 技术,直接给 ai 内存来了波,极限瘦身,最高能把大模型的内存占用砍到原来的二十分之一,还顺带把模型响应速度提了八倍。这下不仅 ai 企业要笑开花,普通用户盼的内存降价怕是真要来了。 别看这技术名字拗口,原理其实超接地气,就是把 g、 p、 e g 压缩图片的思路搬去压缩 ai 的 短期记忆 k v 缓存。之前大模型聊得越久,缓存就越臃肿,几 g b 的 占用直接把 g、 p、 u 内存占满。现在经 k、 v、 t、 c 三步压缩,勇于数据全剔除,还不用改模型代码,主打一个省心 实测更是狠到离谱。在拉玛三、 r、 e、 q、 y 二点五等主流模型上,二十倍压缩后,准确率损失不到百分之一 h 一 零零 gpu 处理长文本首条回应从三秒速降到三百八十毫秒。打工人用 ai 写代码、做推理,再也不用等半天。这波操作直接戳中 ai 行业的内存痛点,硬件成本大降是板上钉,后续技术普及到消费端,内存价格大概率跟着往下走。 英伟达这波直接拿捏住了内存厂家,还得是老黄,始终把淘金的铲子握在自己手上,绝不给内存厂家做嫁衣。

谷歌新论文直接把内存股价干崩了!刚刚,谷歌研究院推出全新的 turbo quant 压缩算法,把大模型中最吃内存的 kvatch 压缩到三比特,内存占用降六倍,推理速度快八倍,精度还零。损失。 消息一出,市场的解读简单而粗暴,大模型的长上下文推理,以后不需要那么多内存了,立空内存。于是,存储概念股硬生生下跌,闪迪一度跌达百分之八,美光一度下跌约百分之五, 跌归跌,科技圈却将这一技术追捧为真实版 pidpiper, 甚至高呼是谷歌版 deepseek。 那 为啥 turboqant 这么重要呢?咱们得先理解 k v catch 到底是什么。 要知道,大模型在跟你聊天、写文章时,必须记住前面说过的所有内容,才能继续往下生成,那这些临时记忆就是存在 k v catch 里。所以 k v catch 就 相当于模型的临时草稿纸,对话越长,上下文越多,这张草稿纸就越大。特别吃内存是 ai 运行成本的一大块, 传统的解决思路是向量量化,把高精度数据压成低精度表示。但尴尬的是,大部分量化方法本身也需要存储额外的量化常数,每个数字要多占一到两个比特。 而谷歌的 turbo quant 则能在几乎不损失模型效果的前提下,把 kvatch 压缩到三比特,内存占用降六倍。同时,在英伟达 h 一 百上四比特, turbo quant 比三十二比特未量化版本还快了八倍。所以不只是省,内存还更快了。 最关键的是,他不用重新训练或微调模型,直接就能用,落地门槛很低。 cloud flair ceo 评价这是谷歌的 deep seek 时刻,因为他认为 deep seek 证明了用更少的资源也能训出顶尖模型。 turboqant 的 方向也类似,用更少的内存也能跑同样质量的推理。不过 turboqant 只解决推理阶段的内存问题, ai 训练环节完全不受影响,所以短期看肯定是立空存储股的,但长期看是打破了 ai 推理的内存瓶颈, ai 能渗透到更多更广的场景,这可能就是 ai 全民化的潜夜。

就在内存价格一路狂飙的时候,谷歌的一篇新论文直接把美股内存板块干崩了,连 call 泪儿 ceo 看后都惊呼,这是谷歌的 deep seek 时刻, deep seek 用极少算力训出了顶尖模型。而谷歌这次放出的超级大招 turbo quint, 是直接让 ai 推理的内存需求打了个骨折。这项技术到底牛在哪里呢?简单来说,就是以前 ai 在 处理长文章或陪你聊天时,为了方便翻找,会像学霸一样把关键信息写在小抄上,也就是 k v 缓存。但如果小抄写得太详细,就会占满内存,让 ai 变慢,还特别费钱。以前的压缩方法就 像是强行把字写小,但这样 ai 不 仅容易看错字,还得去记缩写规则,反而更麻烦。那谷歌这次是怎么破局的呢? turbo quint 甩出了两个神操作。第一招 power quint 技术,可以理解为换个姿势记笔记。以前 ai 记位置用的是坐标系,比如向东走三步,向北走四步,麻烦又占地方。现在谷歌让他直接记, 朝三十七度方向走五步。就这一个视角的转换,直接省下海量空间,还绝对不会认错。但只要是压缩,总会有点小误差,对吧?这就引出了他的第二招 q j l 技术,只用一个符号纠错,他仅仅用一个正负号,就把压缩后的一点点瑕疵神奇的抹平了,零额外内存开销速度快到飞起。那这两套连招打下来,结果有多恐怖呢? 运行的 k v 缓存直接从三十二位压缩到三位,内存直接少用六倍以上。在英伟达 h 一 百显卡上,它的注意力计算速度快了八倍,最夸张的是回答准确率完全不下降,而且不需要重新训练,模型拿来就能插上用。在这个内存价格动辄暴涨,全网都在焦虑算力成本的时代,谷歌这是又扮演了一次救星吗?

救命啊,美光大跌那个存储遭了天谴吗?为啥呀?说是谷歌最新推出了那个什么 turboqant, 那 么就是通过大模型将推理里面的这个内存瓶颈 kb cache 无损压制至原来的六分之一, 然后整个市场解读成存储以后就少用缓用不用了,将内存需求直接减少六倍,误读为英伟达的 gpu 或者是 hbm 的 销量暴跌。朋友们呀,求求大家了。事实上 turbo quant 是 仅针对推理阶段的 临时缓存。什么意思啊?临时的完全不占用模型权重,本身的显存占用也不影响训练阶段的算力需求,本质就是一个扩容,而不是缩减。另外, 有没有听过杰文斯备论长期快受杰文斯备论的这个驱动啊?更低的投更成本,是将催生更大的批处理的规模和更长的上下文的需求,最终对硬件大盘形成正向的拉动。不用感谢我,关注我就行了,为你带来最新、最快、最有价值的正确的产业变化。

在长文本 agent 任务中,传统的内存管理正面临崩溃。 nvidia 最近提出的 sitequest 方案,让模型学会了像人类一样自主清理记忆, 实现了最高百分之六十五的内存削减。用户看到的只是不断增长的上下文对话,但在水面之下隐藏着严重的攻城挑战。随长度限性爆发的 kv cash、 极度紧张的 gpu 显存 以及被贷宽限制的计算效率,最终导致了难以忍受的推理延迟。 随着 agent 执行多步推理,资源消耗迅速攀升。传统的静态启发式算法在初期尚能维持,但效率随长度衰减。一旦触及显存上限, 系统将面临 o o n 崩溃,或者因为频繁搬运 k v 导致吞吐量彻底归零。 为什么我们需要 side quest 传统方法如 h 二 o 采用静态策略?它们最大的问题在于机械的固定窗口被 side quest 的 羽翼感知清理取代,仅仅依赖分数统计进化为真正的逻辑推理, 避免了误删,确保了长城记忆的精准保留。这实现了内存管理从盲猜到理解的质变。 side quest 的 核心在于并行治理,主县城负责任务推理,而辅助县城会周期性开启, 两者共享同一份 kvatch 副本,辅助县城通过推理识别出已失效的消息邮标并下达删除指令。这种并行架构完全不会阻塞主任务的流畅度。 为了让模型学会管理内存而不丧失推理能力,研究人员采用了特殊的混合训练方案。模型同时学习主任务和辅助管理任务。 关键技术包括防止能力退化的,以及通过事后分析识别过期信息的标注策略,重点在于只需要两百一十五个高质量样本就能完成这一进化。这种高效的微调让 side quest 具备了极佳的扩展性。 从代码实现上看, side quest 并不复杂。首先,每隔 k 个回合触发一次辅助线程, 加入特定提示词,切换到管理模式,主线程继续执行 react 推理。一旦管理建议生成完毕,系统会立即从 k v 开始中物理清除不必要的 token, 实现瞬时优化。让我们通过数据看真相。启发式基线在极低显存下,准确率会发生断崖式下跌, 因为他们删掉了重要的逻辑。而 side quest 在 仅占比百分之五十五的内存占用下,依然保持了与全量模式几乎一致的准确率,展现了极强的帕累托效率,这在长文本 agent 应用中直观重要。在生产级引擎 s glang 上的实测显示, side quest 将吞吐量从八二八提升到了一千五百二十三, tokens 几乎翻倍,同时峰值显存占用从爆满状态降至百分之四十五, 最终整体任务运行耗时缩短了百分之三十六点八,实现了显著的降本增效。总结 side quest 的 核心优势,它的训练成本极低,却能在内存效率和吞吐性能上取得爆发式提升,即便是对于未见过的复杂任务也展现出了极佳的适应力。 cyquas 真正贡献的认知颠覆在于,内存管理不应该是一个死板的参数设置,而应该是大模型必须掌握的基础推理能力之一。 如果你对长上下文推理优化感兴趣,欢迎查阅原文,更多硬核 ai 技术解读,请持续关注我们!

又有一个看起来很学术,但实际很可能改写 ai 基础设施的东西出来了。 google research 刚发了 turboqant, 说白了就是把大模型最烧内存的 kv cache 压到原来的六分之一,在 a 七幺零零上,注意力计算还能最高快八倍,而且几乎零精度损失, 不需要重新训练。它解决的不是量化本身,而是传统量化里那个很烦的隐藏成本。你虽然把向量压缩了,但还得额外存一堆量化场数,每个数字再多一两币的压缩收益就被偷走一截。 corpecant, 第一刀叫 polarant, 先把向量随机旋转,再把原来的 x、 y、 z 坐标换成角度加半径,因为角度分布更集中,更可预测很多边界信息,就不用存了。 但第一刀压完,还是会有残差误差,所以他再补一刀 q g、 l, 把残差映射到更低位空间,再只用 e、 b、 t 的 正负号去编码,最后靠无偏估计把误差补回 回来。这就是它能又省内存又不掉点儿的关键。最狠的是结果 longbench 代码,这要长文本问答。这些任务里, turbo quint 基本把效果保住了,但 k、 v 内存直接砍六倍以上。在向量搜索上,它的召回还沿过 p q 和 rabbit q 这些老方法。方 法这东西如果真大规模落地,受益的不只是 jiminy, 所有长上下文模、形象量、数据库推荐系统语义解锁都会被它改写一遍。所以这不是一个普通论文更新,这是在重写 ai 系统的内存账本。

欢迎来到 a 诊创世纪,今天我们要探讨 m i t c s a i l 实验室最新的研究成果。研究人员开发了一种基于注意力匹配的快速 kv 压缩技术,该技术只在攻克大语言模型在长文本处理时的显存瓶颈。 通过独创的注意力匹配机制,该方案大幅度优化了 kvik 存储。这种新方法能够在保证推理精度的前提下显著提升处理速度。这一成果为长系列推理任务的低成本部署开辟了全新路径。 本报告将详细解析该技术如何实现高效且精准的信息压缩。在大模型时代,上下文长度决定了性能上限。 上下文长度正从一百二十八 k 迅速增长到 e m 以上。这种海量信息带来了极高的显存占用代价。 k v k h 的 存储需求往往高达数 g b, 推理成本随序列增长呈现出指数级上升。当显存负债达到百分之一百时,会引发溢出故障,硬件资源被占满,导致大模型推理出现严重瓶颈。降低显存负债是实现超长文本处理的关键前提。 现有的 kv 压缩方案都面临明显的权衡。传统的丢弃策略通过删除 token 节省空间,但这种方法会丢失关键细节,导致准确率下降。摘药技术试图浓缩文档内容,却存在信息损耗。受损的语义信息无法支持复杂的逻辑推理。 而前空间训练方案虽然能获得更好的效果,其数小时的训练成本对于实时推理太慢,这使得在大规模应用中难以兼顾效率与质量。行业迫切需要一种更快且无损的压缩新路径。研究团队提出了一种名为 attention matching 的 新方法。 该技术的核心思想是重构而非简单的压缩系统不再纠结于是否保留每一个原始 token, 其真正的目标是重现 token 对 未来的注意力影响,只要能模拟出相同的注意力分布即可实现等效。这种视角将压缩任务转化为了注意力图谱的还原。 这种重构机制为极高倍率的缓存缩减提供了可能,它从根本上改变了我们对显存优化的理解。 该方法强调应优化注意力,而非传统的自然性。在标准 token 空间中,信息呈现为离散网格,而注意力质量则表现为连续流动的云团分布。算法的第一个目标是精准匹配注意力的输出,第二个核心目标则是维持大局的注意力质量。 其具体策略是让单个压缩 token 聚合权重,这个 token 能够承担多个原始 token 的 信息量。 这种权重转移机制确保了压缩后的表达能力。通过这种映设模型可以维持极高的信息密度。在该研究中,名为 scaler bios 的 变量直观重要。研究团队在公式中引入了标量偏置 beta, 这一参数能够完美补偿丢失 token 的 注意力质量, 这使得模型在压缩后依然能维持原始的能量分布。最关键的是,该变量带来的显存开销几乎为零,其计算复杂度从二 d 仅微增到二 d 加一。通过修改 softmax 的 内部偏移量实现精度校准,这是在保持效率的前提下提升质量的神来之笔。 该机制极大地拓展了极限压缩的精度边界,整个压缩流程一拖。严密的限性代数逻辑系统在接收到原始 k v 数据后先进行处理,首先通过 o m p 算法执行高效的关键键选择,紧接着通过数学推导完成偏置贝塔的拟核, 随后对 k v、 c h 中的直向量进行精细对齐。整个 pipeline 完全采用全流程闭式解,处理过程不涉及任何耗时的梯度下降环节。这种无梯度的方法极大提升了系统的运行效率, 它证明了限性代数足以解决复杂的缓存压缩。在处理速度方面,新方法实现了跨越式提升。 attention matching 将处理耗时缩短到了秒级,与传统的 cartridges 方案相比,其速度快了一百倍以上。 过去需要数小时 gpu 运行的任务,现在瞬间即可完成。这种性能飞跃源于底层算法的彻底重构。研究团队使用非负最小二乘法取代了反向传播, 通过消除迭代优化极大地节省了算力成本。这种秒级的响应能力使长文本压缩能实时运行, 这在提升生产力方面具有巨大的实用价值。该技术引入了名为 smart budgeting 的 策略。这种非均匀压缩机制充分利用了模型的层级特性。实验证明,并非所有的注意力头都对输入同样敏感,不同层的头部在处理长文本时表现出显著差异。 研究团队通过分析灵敏度曲线来自动分配资源。对于关键层,系统会保留更多的 k v k h 空间,而对于信息高度溶于的层则实施极致压缩。这种动态分配机制保证了显存利用的最优解,它使模型能够在资源受限时依然维持极高精度。 在极高压缩倍率的挑战下,新方法表现卓越。该技术能够实现高达五十倍的 k e v 压缩,例如,其可将六万个原始 token 极致缩减,压缩后的缓存仅占用一千拉百个 token 的 空间。 这一性能已经在多个主流开源模型上得到验证,这包括 q one 三的四 b 以及 lama 三点一的八 b。 这种跨模型的适应性证明了该方案的通用性,它为在受限显存中处理超长上下文提供了可能,开发者可以用极低硬件代价换取海量输入能力。 在与现有主流技术的全面对比中,新方法表现惊人。 a m o m p 在 准确率与压缩时间两个维度均领先。它在散点途中占据了极其优势的左上角位置。这意味着系统不仅运行更快,而且预测精度更高, 其准确性超越了传统的摘钥匙方法快两个量级。相比 h r o plus 和 snap kv 等主流模型优势明显, 该算法已成为 kv 压缩领域当之无愧的性能标杆。这种全方位的技术优势使其具备极高的工业潜力。 在专业长文本数据集上,该技术实现了精度无损。 q w e n t y 与 longhouse 的 测试数据非常亮眼,即使进行了五十倍的极限压缩,模型的准确率下降幅度也控制在百分之二以内。柱状图清晰展示了其与全上下文基准的高度一致性, 这意味着模型的核心推理能力并未受到实质影响。这种近乎无损的表现对于金融和医疗场景直观重要。研究团队在保证超高效率的同时锁住了预测精度, 常文本理解的可能性,在五十倍压缩下依然稳健。该方案专门针对长城推理任务设计了在线流式机制, 当显存装满时,系统会自动执行实时压缩。这种设计确保了推理过程能够在有限内存中持续。实验通过严苛的 aimee 数学竞赛评测进行了验证, 即便模型经历了连续六次的高强度压缩,其内部的逻辑推理链条依然保持完整且连贯。这证明了 attention matching 能够保留常识记忆, 它使模型能够应对复杂且永长的交互式任务。这种稳定性是实现复杂推理逻辑的基石。该项技术的详细规格展现出强大的工业部署潜力。核心算法组合了 attention matching 与 o m p, 其最高可实现五十倍的 kvci 压缩, 在处理六万个 token 时耗时不足一分钟。最显著的优势在于该技术无需任何训练。这种推理端优化极大降低了落地门槛。它全面兼容阿拉曼三和奎曼三等主流模型,同时也支持 google 的 gem 三架构。 这套高效率的方案为大模型实时推理提供了保障。该项研究为解决大模型长文本瓶颈提供了新范式, 通过注意力匹配技术实现了性能的跨越。目前,该项目的所有代码已经在 github 开源, 感兴趣的开发者可以扫描二维码直接访问仓库。该论文详细表述了快速 k v 压缩的理论边界, 即刻可用的开源工具降低了技术赋限门槛,您可以直接在现有的模型部署中尝试该方案。感谢大家关注 agent 创世纪,更多前沿科研解读,我们下期再见!

黄仁勋一出手啊,存储界直接炸锅了! c s 二零二六刚秀完新的存储架构,那美股存储板块呢,瞬间打了鸡血,闪迪啊,暴涨了百分之二十七,美光呢,直接冲上了云霄, a 股存储龙头啊,全线霸屏, 那内存条呢,堪比一套房,冲上了热搜。这真的不是情绪炒作,因为时代彻底变了,以前呢,存储要看手机的脸色,那现在, ai 数据中心降维打击 大模型,要大容量,高速度、高覆盖, kv 缓存, token 内存,上下文的存储体量爆炸。那老系统呢,根本带不动,小马拉大车,需求峰到极限,产物呢,直接大挪移,三星美光通通把先进的产物呢,从手机转向了 ai, 高毛利的赛道。 那 hbn 企业及 ssd 呢,一心难求,普通内存啊,跟着也是飞涨。野村证券直接定掉这波存储超级周期,稳稳地吃到二零二七年,真的不是虚火,是 ai 刚需倒逼的真行情! ai 狂吃存储供需硬缺口,原厂锁定了产物,这波狂欢才刚刚开始!我是安妮,想要了解更多,请持续关注我,记得点赞关注哦!

哈喽兄弟们,这个视频非常重要,建议大家点赞收藏,推荐转发。这个视频会有两个最近最火爆的东西啊,小东西,小事情来解释, 内存的火爆, cpu 的 火爆, cpu 的 火爆。第一个呢是英伟达的 robin vira 的 硬件架构,第二个呢是 deepsea 的 最新论文 叫做 ingram 条件记忆加上查算分离,是吧,我记得没清,没错的话,因为我不打草稿的啊 啊,首先呢, robin, 微软的一个呃核心的一个架构,我们说它的推理架构里面涉及到一个东西,叫做三重 kvm 缓存机制。三重有三层啊,第一层是 hbm, 第二层是 dvm, 第三个是 ssd。 那 我们都知道,大模型推理的核心是 kvm 的 计算,新的 tucker 的 kvm 的 q 值和之前的 tucker 的 k v k s 的 k v 啊,进行点成,最后得到新的 tucker, 这是一直重复的,你只要生成文字都会重复这件事情。那 k v k s 如果 因为超长对话或者说多人对话,他前面的 k v k s 会保存特别多,那对 hbm 的 占用会非常大。那就搞了一个低位 低 rem 呢,去存储那些近期低频的调用的 k v k, 就 老 k v k 还有一个 ssd 来去存储那些长期低频调用的 k v k。 那 么整个三重系统加起来就分回热 温冷三个层次的 k v k。 我 不知道大家能不能理解我的意思啊,首先呢,热 k v k 热 k v k 就是 最新的最近的,用的最多的这些 kv。 然后温呢,就是 近期低频附用的,但是然后呢,也在上下云中可能会附用的一些近期的 kvatch, 然后呢,冷的 kvatch 呢,就是指 长期低频,然后属于历史级别就很长久的这种 k, v, k 的 存储,把它分别存储在 h, b, m, d, d, r 和 s, s, d 三个里面。这是英美的那个 robin vira 这个 架构的一个一个硬件架构的一个核心的能力哈,这样就会可以支持超强长上下文,长记忆能力的对话和 ai 的 这个推理过程啊,这是一个 robin。 第二个是 deepsea 的 新论文,叫做 ingram, ingram 是 吧? ingram 叫做这个条件记忆,它把这个计算和记忆结偶, 就是把你存在的前面的不常复用的这些 kv, 通过一个 cpu 去把它卸载到 dm 或者 ssd 里面来缓解 hbm 的 压力。因为大家都知道,我说了 kvm 按照原来的方式是存在 hbm 里的,这是 hbm 里的,大小是有限的, hbm 又特别贵,所以呢,通过一种方式把它卸载到下一层的存储,就是 dm 里面,然后再通过一种方式把 dm 里面也不常用的东西把它卸载到 ssd 里面。 这就是这个 deepsea 这个论文的硬件基础设施,实际上和这个伊美达的这个 robin vira 架构是非常契合的,带给我们的启示是什么呢? 如果我们后续要要一个非常强大的,非常了解某一个领域或者某一个人的 agent, 就是 我们的智能体,我们就需要这种硬件架构,或者也需要 deepsea 的 这种模型结构来配合这种硬件架构来才能达到这个效果。那么 dm, ssd 和 hbm 将会迎来大量爆炸的需求, 将会迎来大量爆炸的需求。同时我的这些 k、 b、 k 这些数据在 dm、 hbm 和 ssd 之间搬运,会需要一个强大的带了非常强的总线能力和数据搬运能力的 cpu, 这就是为什么英伟达要设计一个微软的八十八核的 cpu 的 核心原因。 那我们国内有 cpu, 有 gpu, 还缺一个什么?还缺中间的一个 cpu 来去调度这些数据,那这个东西是什么呢?你们可以去猜一猜啊。带了非常强的总线和数据处理能力的 cpu, 它是什么? 我觉得这会将成为我们今年二零二六年的非常核心的部分,国产存储,国产 cpu, 国产 gpu, 形成了一个跟英伟达的这个 rubicon 系统不相上下的推理系统, 马上就会引爆各位观众懂的,都懂。

各位观众朋友大家好,今天我们来深度解读谷歌最新提出的 turbo quant 压缩算法对大模型算力、成本、云厂商存储和硬件产业链的影响。先讲三个结论, turbo quant 让大模型推理用六分之一的内存跑出最高八倍的速度,而且几乎不掉精度,不用重新训练模型, 它只压缩 k v catch 注意力里的临时记忆本,不碰模型权重,但等于是同一块 g p u 能接四八倍的对话长度或请求数量大幅提升,单卡产出 k v 开始可以理解为模型在对话中记住历史内容的备忘录, turbo quint 就是 把这个备忘录高度压缩。对投资层面,短期对 g p u 存储是效率提升,但不一定是需求下滑。长期更像 deep sea 时刻是改变 ai 部署成本曲线的技术。立好云巨头与模型平台 对计算与存储需求偏中长期正面,那 tropos 究竟是什么在解决啥问题?先讲背景,大模型推理时,真正的瓶颈越来越不是算力,而是 k v cash。 内存,也就是注意力机制里存历史 token 的 那块缓存,随着上下文窗口变长, 这个缓存空间是限性往上涨的,直接吃掉大量 gpu 显存,导致单卡能接的并发症,上下文长度都被卡死,推理变慢,成本变高。 tropos 针对的就是这块 k v cash, 他把原来三十二比特的向量压到大概三比特,也就是内存占用缩小约六倍,同时把注意力计算本身的速度最高提到八倍,而且在多套基础测试里,几乎看不到精度损失。 这里特别强调,他只改推理阶段的 k v cash, 不 动模型权重,不改训练流程,相当于一个即插即用的推理加速组建。对现有大模型来说,集成门槛低, 我们再看看它是怎么做到六倍压缩加几乎无损。技术上, turboqant 是 一个两阶段的向量量化方案,目标是同时做到两点,一是压得足够小,二是保持注意力里内基运算的精度,不能把模型的理解能力压坏了。第一步叫 polarqant, 可以简单理解为换一种坐标系来压缩它先对向量做一个随机旋转,然后把传统的直角坐标转成极坐标形式,一个角度一个半径,这里角度更多的承载羽翼方向半径,承载信号强度。在这个坐标系下,大部分有用信息可以被更 高效的编码进有限的 bit 里,而且省掉了传统量化里很多昂贵的归一化操作,直接减少了额外算力开销。第二步是 ebit qgl, 也就是 quantize johnson london straws。 第一步之后多少会有一点压缩误差。第二步就是用一个低维随机映射, 把这部分残差压到只剩下加一或负一的一位符号,相当于给每个向量打一个很轻量的纠偏标签,保证内基估计不被系统性拉偏。研报强调,这一步几乎不增加额外内存开销,因为这一比特的校正被吸收到总比特预算里,在相同的比特数下把误差又往回拉了一截, 从信息论角度看,已经接近理论压缩极限。所以 turboqant 不是 简单的多压一点看看效果,而 是在有明确师生上届证明可用的前提下,把压缩做到极致,同时仍然适合在线推理场景,这点是很关键的。从算力经济学角度,摩根式单利的核心观点有三点,第一,这是一次结构性的推理成本下降, k v cash 已经成为大模型推理中成本增长最快的部分, 六倍内存压缩,八倍注意力加速,直接把每个 token 对 内存和算力的占用往下拉。相当于同样的 gpu 集群可以服务更多请求,单次调用成本明显下降。第二,它扩大的是有效 gpu 产量, 未必立刻砍总 gpu 需求。研报判断,短期看,更多是利用率提升,而不是绝对需求下滑。云厂商很可能把腾出来的资源重新投入到更大模型、更长上下文、更大 bug 以及更严格的延迟 s l a 上。换句话说,同样一笔 kpx 可以 支撑更强的模型,更好的体验,推理端的 r o i 被明显抬高。第三,典型的 jevens belloon 会放大总需求。报告里直接引用了 jevens paradox。 当效率提升、单位成本下降时,总体需求往往会上升,而不是下降。每 token 成本降下去之后, ai 服务可以更便宜更大杯很多原来算不过账的应用会更便宜更大杯很多原来算不过账的应用会更下去之后, ai 服务可以更便宜更大杯很多原来算不过账的算力和内存。 同时, turboqant 降低了部署门槛,部分原本只能云上跑的大模型有可能压到本地服务器甚至高端终端上运行,这对私有化部署边缘侧 ai 都是明显利好。那这对云场 gpu 存储和软件的产业链有什么含义? 对云巨头模型平台明确证明,因为每单位质量的长上下,非推理成本大幅下降, roi 明显改善,更容易把大模型做成高毛利、可规模化的基础设施。 同时,像 turbo quant 这种压缩会被直接嵌进平台底层,对上层应用开发者来说是透明的,意味着平台护城核继续加厚。对 gpu 计算芯片报告判断,短期是中性偏正 单任务的 gpu 需求下降,被更大模型、更长上下文、更高 qps 虚收掉,整体 gpu 需求不一定下降。从中长期看,如果长上下文,解锁增强场景爆发,反而会因为更便宜而更普及。对高端加速芯片的总需求拉长周期。对内存与存储,短期看是效率提升, 单位 workload 只改 kvatch, 不 动权重和训练, 整体算内存效率提高,而不是内存用量腰斩。长期同样受 jevens 辩论影响,更多模型更多实力保持在线,更长的上下文和更高的迸发可能反过来推高总体 drm per hour bm 存储需求。 研报定性为中性到长期正面对软件上层应用,这里研报给了一个有意思的角度,因为压缩被做到基础设施层部分做推理优化,压缩工具的软件价值会被平台内升吞掉,在利润池上可能略偏负,但对真正以业务逻辑和数据为护城河的应用来说,这是纯利好。 底层推理成本下降,提高毛利与用户体验。如果我们把 deep seek 看作用更聪明的软件,把同样硬件炸得更干的一次示范,那 turboqant 则是直接针对大模型推理中最核心的 k v cash 瓶颈给出了接近信息论极限的压缩方案。 ai 基建的估值不能只看当下的单次推理成本, 而要看到像 turbo quantum 这样一代又一代的底层技术进步,会不断把成本曲线往下压,同时用 jevens bellun 把需求再拉起来。在这个过程中,云场、 gpu、 内存以及高质量的模型平台都是相对更有定价权的长期受益者。以上就是今天的解读,关注我,带你看懂科技趋势!

一篇谷歌的论文 turbocon 的 压缩算法竟然引发了今天的内存行业惨案。此算法一出,内存股应声大跌。为什么呢?因为 turbocon 把 kvatch 的 内存占用压到了原来的六分之一,推理速度最高提升了八倍,而且几乎零精度损失。 这意味着,原来需要一台一万美元的工作站才能跑起来的大模型,现在用一台 macbook 就 能跑了。原来四十 g hbm 才能撑起来,在百万上下文,现在六 g 就 够了。 原来企业不敢部署的常驻 a 代理,现在成本直接能砍掉一半。然而重点来了, turbocharger 并不能导致内存需求崩盘,反而是会推动 ai 规模爆炸。历史已经早就证明了这一点。当年福来社 tencent 让注意力计算快了十倍,结果不是 gpu 的 需求下降了,而是 ai 训练的规模直接翻翻了。 所以这回的 turbo box 也是一样,内存瓶颈被突破,导致上下文从百万走向无限,导致模型从中心化走向边缘化,导致 ai 应用数量从指数级增长。 从长期看, h b m d r m s s e 的 需求只会更夸张,因为效率的提升并不会让需求下降,只会让更多人更大规模、更长上下文的使用 ai。 这就是典型的杰维斯辩论。而且啊, turbo box 它也不是魔法,它是有代价的。 第一,他用算力换内存,随机旋转 mac 一 旦化 qgl 校正,这些步骤都会增加,每个 toky 的 计算量短,上下文甚至可能会更慢。第二,他的工程门槛太高,需要自己一坑呢,额外的原数据跨平台适配,所以短期内不太可能全行业普及。 第三,压缩 k v cash 开始可能会带来选择性遗忘,系统提示更容易被覆盖,越狱风险上升,所以必须重新评估安全性。 so turnlock 它的本质并不是什么内存革命,而是效率提升,它不但不会摧毁内存行业,反而是会让 ai 的 规模化速度再提一档。 眼下顶级内资厂商都在玩命破产,未来的三到五年,新厂房、新产能那才是主旋律。那你觉得那些瞎逼逼的所谓专家,他们会比干了几十年的老行尊们更专业吗?想想他们为什么这么说,脑子呀,得多转几个弯点亮智慧人生吧。

听说了吗?昨天晚间谷歌的一篇论文引发了存储芯片的集体暴跌,那么究竟是怎么回事?对于存储而言,要不要辟邪?逻辑是这样,谷歌研究团队开发了一种新算法,可以大幅压缩 k v 环阻, 该技术可在不损失准确性的前提下,将大圆模型的缓存内存占用至少减少六倍,并实现最高八倍的加速。不过从各大头部存储就是下跌幅度来看,还是比较克制的,颠覆性的技术替代可能性还比较小,主要影响 ai 推理阶段的技术。 对于大 a 上市公司而言,一季报包括半年的高增长预期还是比较确定的,今天的下跌也没有放量,不存在恐慌。那么作为散户而言,我们更没有必要恐慌,船小好掉头,等过了一季报批录期再谈要不要减的问题。

哈喽,大家好,昨天谷歌发表了一个内存压缩技术,那这个技术出来呢,也是让各家存储公司都出现了比较明显的下跌,比方说呢,美光在前几天的跌幅上又继续跌了百分 之四,那另外像是海力士也跌了百分之六,所以呢,两倍做的海力士跌了百分之十二。那谷歌这个内存压缩技术到底是什么呢?我们就来分享一下现学的知识。那首先在我们使用大模型的时候,其实这些大模型都会生成一个叫 kvatch 的 东西, 全称叫做 key value cash。 那 听这个名字估计也能够有一个初步的了解,它的作用就是把一些关键的东西给记住。那在你使用大模型的时候, k v cash 的 作用其实就是把你问的问题以及他给的答案, 甚至他的思考过程都给记下来,那简单理解,你就把它当做是大模型的一个临时的草稿本,那也正是这个 k v cash, 它是在模型的推理阶段用到内存最多的东西,也就是为什么当前 整一个 hbm 的 需求那么高,都是因为这个 kv cache。 那 现在谷歌最新的技术呢?说是可以把 kv cache 它所占到的内存减少到原来的六分之一,也就是说既相同的东西不需要那么多内存了,那这个简单的看下来,当然可以被理解为对于存储的需求 就会变少了,如果其他条件不变的情况下,不过呢,整个事情也可能没有那么简单,比方说既然它的 kv cache 所占到的内存变少了, 那是不是在原本相同的内存下,他能够记得上下文就变多了,所以呢,这个技术的出现,他其实可以在对存储需求不变的情况下 增强大模型的能力,因为他占到了内存缩小了六倍,所以说他可以记住更多的东西。而且如果通过这个技术让所有大模型整体的能力变强的话,其实大家对于存储的需求,对于各类芯片的需求, 同样也是会增加的。所以呢,也有人会联想到去年年初的 deepsea moment, 虽然说 deepsea 让整一个模型训练的成本降低了,但是更低的成本并不意味着总需求的减少,而是意味着有更多的人可以参与到里面来。

谷歌公司的一篇论文居然导致内存芯片厂商的股价集体下跌,这是怎么回事呢?我给大家通俗解释一下, 咱们跟大模型聊天聊的很长很长的对话,大模型要记住和理解这些对话的内涵,就必须要用一种叫 kv cash 的 形式存起来,简单理解就是一对数字需要用一种很贵的内存来存,所以大模型厂商就非常肉疼,因为他们不得不花很多的钱来买这些非常多的顶级内存, 而内存场就非常的高兴,因为他们可以赚更多的钱嘛,生意越赚钱,那股民跟投资机构就越愿意买他们的股票,于是他们的股价就可以蹭蹭涨。但是呢,哎,就在前几天, 谷歌公司的研究人员就捣鼓出来一种新的压缩算法,可以把原本每十八位数的 kvcash 压缩到三位数,哎,也就是压缩了六倍,并且不大影响效果。 这是怎么做到的呢?我打个比方啊,有个人向你问路,你可以说向东走四格,再向北走三格,表示出来呢,就是东四北三,你也可以说向三十度方向走五格,那表示出来就是三十五, 虽然最后效果差不多,但是表达出来就更简洁和节省空间嘛。当然,这只是一个大致的原理,来帮助大家理解,真实的算法肯定要复杂很多。 总之,有了这个压缩方法,那原本这些 k v cash 就 可以用更少的内存来存,那么内存厂商赚的钱就会变少吗?生意更难做的话,很多人就会选择卖出股票,导致股价下跌。整个逻辑链条呢,大概就是这么一回事 啊。不过也有人认为啊,那有了这种更节省内存的算法以后,大模型的记忆能力就会变得更强,就可以聊更长更长的天,大家反而会更疯狂的去用它。那么需求一旦爆发,最终还是会让这些内存厂商受益,你觉得哪种情况更有可能发生呢?评论区告诉我。

今天凌晨,英伟达二零二六 gtc 大 会正式召开,我也是今天早上第一时间也是看完了整场演讲,下面呢,就基于本次大会公布的技术、产品和战略和大家逐一说明。这个视频啊,有点长,请大家耐心看完啊,希望对大家有所帮助。 你看本次英伟达大会啊,它核心点就聚焦了两个大方向啊,一个呢,就是 ai 智能体,还有物理 ai, 同时发布了全新的维格罗宾的计算平台,还有四十五度温水夜冷技术以及长远技术路线, 为人工智能与算力产业就是划定了清晰的发展框架。首先呢,从大会的核心主题来看, ai 智能体是本次发布的核心重点啊,英伟达推出的 open 就是 open 可乐体系啊,彻底重构了 ai 的 应用形态,它不再是传统的问答式交互,而是让人工智能具备自主执行任务的能力, 它可以自主调用工具完成流程处理数据,相当于企业的数字化员工啊,搭配的尼莫克洛啊,既实现数据隔离与权限管理,又能保障智能体稳定地落地,让 ai 智能体从技术概念走向规模化商用。 与 ai 智能体并列的核心方向还有一个呢,就是物理 ai, 这也是英伟达明确的机器人商业化的关键路径, 他的核心逻辑是什么呢?就是通过算力平台构建虚拟世界模型啊,让机器人在虚拟环境中学习物理规则、运动逻辑与环境交互能力,完成充分训练以后,再将成熟的模型部署到机器人自动驾驶设备,还有无人机、机械臂等硬件的终端, 这一模式大幅降低了机器人训练与落地成本啊,标志着机器人商业化正式进入规模化的阶段。 你看在硬件方面啊,就是本次大会啊,最核心的产品就是全新的啊, v 罗 rubin 这样的一个计算平台,它并非单一的芯片啊,而是整合了就是 rubin 啊, gpu, 还有自研的 v 罗 cpu lpu 推理专用芯片的完整系统, 这就是还有它其中有一个就是 lpu 芯片呢,采取的就是 sram 啊这样的一个存储结构,颜值更低,它的数据啊,调度更快啊,专门针对 ai 推理场景优化与负责模型训练的 gpu 形成互补,实现了高速度低成本的推理任务。 你看还有在性能表现上啊,就是微软这样的一个平台,实现了全方位的突破,推理性能较上代提升了五倍啊,它的系列处理性能呢,提升了三点五倍,但就 tucker 这样的生产成本啊,它降至原来的十分之一, 同时支持高密度算力部署啊,单机贵就是它的功耗啊,也是大幅度提升,它的算力密度达到了行业的新高度,完全适配海量推理与智能体执行的需求。 本次大会最核心的一个关键突破就是四十五度温水直接冷加钻石铜复合热沉的组合方案 啊,你看入冰 gpu, 它的单芯片功耗能高达两千三百瓦啊,传统的散热方式难以支撑,而钻石铜热沉的导热率呢,是传统铜的二点三倍,它可以快速分散芯片高负值高负荷的热量啊,搭配四十五度温水,实现高效热交换 这一方案。这就这一方案带来了三大核心价值,就是智能制冷能耗降低百分之四十。数据中心的 p u e 能源呢,使用效率逼近一点一啊,它的部署时间从两天缩短到两个小时,大幅度降低了落地门槛, 它的系统稳定性啊,与运维效率就是显著提升,直接定义了未来高端算力的散热标准。在产业趋势层面啊,英伟达明确指出,人工智能已从模型训练时代全面进入推理时代。 你看,未来三年算力需求的核心,它不再是模型的研发,而是海量推理应用、智能体执行,还有物理 ai 训练与机器人部署。你看,黄仁勋在演讲中提到啊,二零二七年之前,全球算力相当就是相关的订单规模将突破一万亿美元,算力的需求仍将保持高速增长。 同时呢,英伟达也公布了长远技术路线,就是二零二七年将推出 rubin 啊,就是 rubin 凹槽的架构啊,二零二八年就是发布分版的架构啊,新一代的架构呢,将采用更先进 制成工艺与光互光互联技术啊,进一步提升算力的密度,降低延迟啊,就是专门面向复杂物理 ai 与世界模型场景的一个设计啊,巩固技术领先性。 看,从行业整体来看呀,本次大会标志着英伟达已从传统的芯片供应商转型为 ai, 就是 全线基础设施的提供商啊,从硬件平台、散热方案到软件的生态安全构架啊,以及商业化定价体系,英伟达构建了完整的技术与商业闭环 啊,对于产就是对于产业而言啊,就是还有四十五度温水液冷啊,还有钻石铜热尘,也是将成为未来高端算力的标配啊! lpu 推理芯片,还有高态就是高宽带的存储,高层就是高层次的 pcb 啊,它还有它的核心组建啊,将持续处于高需求状态。而 ai 智能体与 物理 ai 的 普及,将继续推动算力算法和终端设备的全面升级。所以整体而言啊,二零二六英伟达 gtc 大 会传递了三大核心信号,第一个呢,就是 ai, 就是 推理,是未来三年的核心赛道。第二个呢,就是全业能 高密度算力平台,是硬件发展的必然方向。第三个呢,就是 ai, 智能体与物理 ai 是 人工智能商业化落地的核心形态,这不仅是英伟达的技术路线,而是整个人工智能与算力产业未来三年的发展主线。

今天 a 股存储板块出现明显调整,和昨晚美股存储板块的下跌形成直接联动,核心原因就是市场对谷歌最新 k v 缓存压缩技术的预期冲击。谷歌这项技术通过 turbo quant 量化压缩算法, 在不重新训练模型的前提下,将 ai 推理核心的 k v 缓存从常规精度压缩到三倍,同时基本保留模型效果。在开源模型上可实现约六倍的内存压缩率,在 h 一 零零芯片上推理性能最高提升近八倍。 这一技术一旦成熟落地,会直接改变 ai 算力对存储硬件的需求结构。当前 hbm 高带宽内存、 nnd 散群都是 ai 大 模型训练与推理的核心支撑, 缓存压缩技术大幅提升存储利用效率,会直接虚弱市场对大容量、高带宽存储的增量预期,进而压制整个存储产业链的固执逻辑。 后续重点观察两个关键点,一是今年四月谷歌在国际学术会议上公布的真实落地效果,二是国内主流芯片与模型厂商的适配进度。

各位朋友,今天咱们通俗易懂,聊一聊当下 ai 推理赛道的核心黑科技, kv 缓存压缩技术。 首先先讲清楚它的核心优势。我们都知道大模型做多轮对话,长文本生成的时候需要不断储存 key value 缓存数据,上下文越长,占用的 gpu 显存就越高,不仅推理速度慢,还极大拉高了算力成本,这也是质疑 ai 高并发落地的最大痛点。 而以谷歌新一代方案为代表的 k v 压缩技术做到了革命性突破,一托高精度、极坐标量化、低误差投影压缩等算法,能够实现几倍级无损压缩效果,全程不需要对大模型重新微调训练,直接即插即用。 一方面大幅节省宝贵的 hbm 显存资源,单卡可以承载更多对话迸发支撑更长上下文输出。另一方面显著提升整体推理速率,大幅降低单次生成的算力功耗与运 营成本,让云端 ai 推理、本地端侧大模型部署都变得更轻量化,性价比更高,实打实解决了行业长期卡脖子的难题。 再来看对整个存储行业带来的深层影响,短期市场情绪偏悲观,大家担忧高效压缩之后,高端显存 drm 的 刚需会下滑,也直接带动海外存储巨头股价波动调整。但理性来看,这只是结构性分化,并不是行业需求崩塌。第一, k v 压缩只针对推理阶段的临时缓存优化,大模型训练基础权重存储、海量向量数据库存储的刚需丝毫没有减弱。第二,推理成本下降,会激活更多 two b、 two c 的 ai 应用落地 全网,整体算力调度数据流转规模只会持续扩张,真正的变化在于存储需求结构重构,单纯堆砌高端 h p m 的 时代,放缓 gpu 内存、内存、 ssd 联动的分层缓存架构,高吞吐企业级 ssd 低延迟冷存储 反而迎来全新增量空间。最后,聚焦大家最关心的核心投资机会,第一梯队,优先布局掌握 k v 量化压缩缓存调度核心算法的技术服务商。这类企业掌握算力优化底层命脉,是云厂商 ai 算力集群争抢合作的核心标的,技术壁垒高,长期成长确定性强。 第二梯队,深耕 ai 分 层存储智能缓存架构,向量存储硬件的厂商适配新的显存分流逻辑,承接海量低成本缓存需求,业绩弹性十足。 第三梯队,一体化算力服务器,整机厂商集成 kb 压缩优化方案,提升涨机算力利用率,竞争力会持续拉开差距。反过来,单纯依赖高端 h p m 涨价逻辑,缺乏技术迭代的传统存储硬件企业,短期要谨慎规避。 总结一下, k v 缓存压缩不是颠覆存储行业,而是重塑 ai 算力与存储的公需格局,短期情绪扰动不改长期产业向上趋势,紧盯算法核心壁垒,抓牢分层存储结构性机遇,才是这条赛道稳健布局的核心思路。