粉丝14.1万获赞67.5万

谷歌公司的一篇论文居然导致内存芯片厂商的股价集体下跌,这是怎么回事呢?我给大家通俗解释一下, 咱们跟大模型聊天聊的很长很长的对话,大模型要记住和理解这些对话的内涵,就必须要用一种叫 kv cash 的 形式存起来,简单理解就是一对数字需要用一种很贵的内存来存,所以大模型厂商就非常肉疼,因为他们不得不花很多的钱来买这些非常多的顶级内存, 而内存场就非常的高兴,因为他们可以赚更多的钱嘛,生意越赚钱,那股民跟投资机构就越愿意买他们的股票,于是他们的股价就可以蹭蹭涨。但是呢,哎,就在前几天, 谷歌公司的研究人员就捣鼓出来一种新的压缩算法,可以把原本每十八位数的 kvcash 压缩到三位数,哎,也就是压缩了六倍,并且不大影响效果。 这是怎么做到的呢?我打个比方啊,有个人向你问路,你可以说向东走四格,再向北走三格,表示出来呢,就是东四北三,你也可以说向三十度方向走五格,那表示出来就是三十五, 虽然最后效果差不多,但是表达出来就更简洁和节省空间嘛。当然,这只是一个大致的原理,来帮助大家理解,真实的算法肯定要复杂很多。 总之,有了这个压缩方法,那原本这些 k v cash 就 可以用更少的内存来存,那么内存厂商赚的钱就会变少吗?生意更难做的话,很多人就会选择卖出股票,导致股价下跌。整个逻辑链条呢,大概就是这么一回事 啊。不过也有人认为啊,那有了这种更节省内存的算法以后,大模型的记忆能力就会变得更强,就可以聊更长更长的天,大家反而会更疯狂的去用它。那么需求一旦爆发,最终还是会让这些内存厂商受益,你觉得哪种情况更有可能发生呢?评论区告诉我。

你见过一篇论文直接把整个内存行业的股价粘崩了吗?股哲把他们即将在 s l r 亮相的论文拿出来先修了下,结果找的美妆、西部数据这些存储巨头股价大跌。他们找了这新压缩算法,叫做 turbocharger, 把 ai 推理过程中最吃内存的 tvx 压缩了至少六倍,而且精度零损失。消息一出,市场一下就慌了,因为这意味着,以后做长上下文推理,可能根本不需要那么多内存了。有业内人士评价,这就是谷歌的 deepsea 的 时刻。还有人展彩,以后十六 gb 的 mate mini 也可以用来跑大模型了。 甚至不少人第一反应是,这不就是美剧规则里的 pad pad 吗?当年那个近乎无损的极限压缩算法,竟然真被谷歌做出来了,那 turbocharger 到底厉害在哪儿? 简单来说,大梦性推理的时候,会有一个叫 kpi 叉式的东西,专门存临时信息,方便下次调用。这种东西已经成了 ai 推理最大的瓶颈,上下文一长,它占的内存就疯涨。谷歌的优化思路是不硬省,直接换一种更省空间的表达方式。具体有两步, 第一步,把原本的坐标系表示换成距离加角度,信息没少描述仍剩。第二步,用一个比特做残差纠正,把前面压缩完剩下的那点误差,用几乎不占空间的方式磨平,两招配合下来,最终实现三比特量化, 无需任何训练或微调,精度零损失,效果也很可观。不仅内存占用直接产到六分之一,而且在 h 一 百上四比特, turbocharger 的 计算注意力速度比三十二比特基线快了八倍, 连项链搜索的召回率也直接占过现有最好的方法。不过冷静一点看,新算法现在还只停留在实验室,没真正上线,而且它只解决推理阶段,训练环节不受影响。如果这种级别的压缩真才是普及,你觉得未来会怎么洗牌?

芯片巨头一天蒸发上百亿,元凶竟是一篇来自谷歌的神秘论文,这到底是革命还是割韭菜?现在的状况非常魔幻,存储芯片板块突然崩了, 没有爆雷,没有断供,全因为一篇网传的论文!有人惊呼,属于芯片的颠覆时刻来了!好家伙,真这么邪乎吗?千亿赛道为何如此脆弱? 注意了,真相,极度反常!根本不是这论文有多牛,而是芯片股估值太高了,大家都在高位玩博傻游戏,只要有一丁点技术颠覆风声,比如新架构要替代老内存, 量化基金立刻疯狂砸盘止损。这不是技术战,是情绪杀!这对咱们有什么影响?美股纯存储板块短期大换血,概念炒作的公司将原形毕露,真正搞存算一体的硬核企业,反而会砸出一个黄金坑, 普通人千万别盲目去抄底。最后我说个得罪人的话,一篇论文就能掀翻千亿市值,说明现在根本没人在交易科技,大家全都在交易迷信和情绪,你觉得这波暴跌是真见顶,还是资本在联合作局洗盘?来评论区咱们聊聊,记得一键三连加关注哦!

你知道吗?谷歌最新发布的 turbo quant 算法一出来就把全球存储芯片巨头们砸蒙了。昨天我看新闻,美光科技一天蒸发了一百五十多亿美元,韩国那两大巨头 sk 海力士和三星电子市值合计蒸发超过一百万亿韩元,这波损失够吓人的。 你先给咱们听众说说,这个 turboqant 到底是什么?怎么就能有这么大威力?简单说就是它能把大模型推理时要用的 kb 缓存从三十二比特压缩到三比特, 内存占用直接减少百分之八十三,相当于原来用六份内存,现在一份就够了,而且精度几乎没损失,推理速度还能翻八倍 哦!这就好比咱们之前要用六个仓库存货物,现在只用一个仓库就够了,还不耽误取货速度。对,就是这意思。而且这个算法不用重新训练模型,直接就能用在现有的大模型上,像 jamaalama 这些都已经验证过了。 怪不得存储芯片巨头们慌了神,你说说这对存储芯片行业到底有多大影响?首先就是短期需求暴跌,大模型企业不用再买那么多存储芯片了,毕竟原来六台服务器的内存需求,现在一台就搞定了。 而且这个算法是专门针对 ai 推理环节的,这可是当前存储芯片最大的增量市场之一。 那按照你的说法,存储芯片行业是不是要凉了?也不能这么说,长期来看反而可能是好事。你还记得杰文斯辩论吧,技术进步虽然短期减少需求,但长期会催生更多新应用,比如端测 ai 普及可能会带来更大的存储需求。 有道理,那从投资角度看,咱们该怎么应对?短期肯定要回避传统存储芯片企业,毕竟需求端受到直接冲击,但长期可以关注那些能布局下一代存储技术,或者能把这个算法和自身业务结合的企业, 比如 ai 芯片设计公司,还有那些做存储芯片架构优化的厂商。总结一下就是短期立空存储芯片行业,但长期反而可能催生新的增长点,咱们投资者要避开短期的雷区,关注长期的机会 没错,而且这个事件也提醒咱们,技术创新对行业格局的影响可能比想象中还要快,谁能跟上技术革的脚步,谁才能在市场里站稳脚跟。

昨天啊,全球的存储芯片股经历了一场血洗,今天 a 股也被带崩了,三星海力士美观全线大跌,没有财爆爆雷,也没有电源冲突,原因仅仅是谷歌发了一篇技术报告,一份报告就能干翻一个千亿赛道,听起来很吓人是不是?市场的逻辑很简单, 我哥搞出了一个新技术,能把 ai 大 模型最占内存的 k v 缓存压缩好几倍,所以 ai 不 再需要那么多内存了,存储的需求要奔赶紧跑。听起来是不是很有道理,但是作为一名产业投资者,我必须告诉你,市场这次又犯了一个非常业余,甚至有点可笑的错误, 我们要先搞清楚啊, ai 大 模型对内存的需求主要是来自三个方向。第一个呢,是存储模型本身的体重,也就是它的参数,这部分是长期记忆,占空间最大。第二个呢,是模型训练过程中需要反复读写的草稿纸,这部分是学习的过程,也非常的消耗资源。 第三个才是模型在对外提供服务,也就是 k v 缓存。 现在谷歌的这个新技术压缩的是哪一个部分?是第三个部分好吗?是那张小抄,他让大模型的短期记忆力变好了,但丝毫没有改变大模型的体重,也没有减少他学习时需要的草稿纸。 所以说这个技术能让存储需求崩盘,就好像说,因为我们发明了更省钱的便携,所以全世界的图书馆和印刷厂都要倒闭了,你说这个欢不欢谬? 更关键的是, ai 算力真正的瓶颈,从来都不是容不容易存,而是传得快不快,也就是说贷宽。你说 hbm 为什么那么贵,那么重要?就是因为它可以给 gpu 的 核心提供超高速的数据传输通道。 现在谷歌的技术把小超上的内容给压缩了,原来在高速公路上本来可以跑十辆小货车送货,现在一辆就够了,路一下就空出来了。 那空出来做什么用呢?当然是跑更重要、更复杂的运输任务啊!这反而会刺激行业去开发更大更强的 ai 模型,去处理更复杂的任务。这在经济学上叫做杰文斯辩论。也就是说,效率的提升,它反而会导致总量的增加。 所以这个技术非但不会降低对高端存储的需求,长期看反而会因为解放了算力而创造出对更多更快 hbm 的 新需求。所以,你们怎么看这次由谷歌引发的血案呢? 这是一次典型的由技术误读引发的市场恐慌,是外行看热闹,把一个软件层面的算法优化当成了颠覆行业的硬件革命。 而对于我们真正的产业投资者来说,这恰恰是一次绝佳的教育机会。让我们再次看清楚,在 ai 这条路上,什么才是真正的核心资产,什么才是驱动行业前进的根本动力。 不要被市场的噪音所迷惑,更不要在恐慌中丢掉你手中最宝贵的筹码。一一穿一一带你穿透科技的迷雾,我们下期见!

深夜,谷歌用一篇论文引爆科技圈, ai 的 内存税要取消了,万亿存储市场一夜震动,这究竟是革命开端,还是过度恐慌?二零二六年三月下旬, ai 及硬件资本市场的瓶颈被一篇来自谷歌研究院的论文打破。 这篇题为 trooper quant online vector quantization with near optimal distortion rate 的 技术论文及其配套的官方驳论文,如同一颗投入湖面的巨石,激起了远超学术圈的连锁波澜。 最直接、最剧烈的反应发生在资本市场。论文发布后,美股存储板块应声下跌,美光科技、西部数据、闪迪等内存与存储大厂的股价集体下挫。 市场迅速解读出一个令人不安的信号,谷歌这项名为 triple quant 的 技术,能够将大模型推理时最吃内存的键值缓存压缩至原来的六分之一,甚至更低。如果未来 ai 系统不再需要那么多昂贵的内存,那么当前支撑存储芯片超级周期的供不应求趋势是否会崩塌? 投资者用角投票开启了第一轮恐慌性抛售。与此同时, ai 技术社区却为之沸腾,论文细节被开发者们疯狂研读。仅凭论文描述,就有技术高手在 py、 torch、 m、 l x 等框架上成功实现了初步复现,验证了其部分效果。 cloudflair 的 ceo 马修普林斯甚至将此举称为谷歌的 deep six 时刻,再与其可能带来类似的效率革命。 从华尔街到硅谷,一场关于技术颠覆与产业命运的大讨论就此拉开帷幕。要理解这场风波,首先要明白 ai 大 模型在推理时的一个核心瓶颈,内存强。模型在生成文字时,需要记住当前对话的所有上文,这部分临时记忆就是 kv cache, 对话越长,记忆越占地方。在长文本高并发的场景下, k v katch 所占用的显存甚至会超过模型本身的参数,成为拖慢速度、推高成本的主要元凶。 tuberunt 直译为涡轮量化,本质上是一套专门针对这类高维数据的追求极致无损的压缩算法。 它的目标不是让模型变得更聪明,而是让模型已经拥有的记忆和知识变得更轻便、更便宜,从而降低 ai 推理的门槛和成本。你可以将它想象成一个顶级的数字装修师,任务是把一个塞满杂乱物品的房间整理压缩进一个小行李箱,而且不能弄坏任何东西。 传统方法如乘积量化 p q, 像是粗暴挤压,容易损坏物品结构,丢失精度,或者需要携带一大堆整理说明书如原数据,反而让行李箱变重。 turbocont 的 野心在于它要找到一种更聪明、更根本的打包方式。 turbocont 的 技术突破在于其独特的两步走策略,它融合了高维几何的动件和极限统计学的智慧,实现了压缩比与精度保持的兼得。第一步,几何重构, 传统量化在标准的棋盘格里工作。 turboqant 先对数据做一个优雅的转身,将其映射到极坐标体系。在高维空间中,一个关键现象是测度集中, 绝大部分数据点的方向都密集分布在赤道附近。这就好比在茫茫宇宙中,星星并非均匀散布,而是集中在银河系盘面上。 利用这一几何特性, tobequant 可以 用一套简洁固定的规则来量化数据的方向,无需为每一小批数据单独存储原数据,从根本上消灭了传统低比特量化中原数据自身的额外开销。第二步, e 比特统计修正 第一步的大刀阔斧压缩会留下细微的误差。 super quant 的 第二个巧思是用量化约翰逊林登斯特劳斯变换来修补 q j l。 利用随机投影理论和注入特定造声,可以将高维残差向量编码成仅有加一或负一的伊比特序列。 神奇的是,在统计学上,用这些伊比特序列重构出的结果是原始残差的严格无偏估计,且随着维度增加,估计误差会指数级收敛于零。 这相当于用几乎不占空间的魔法胶带完美封上了压缩后的细微裂缝。谷歌宣称这套组合拳实现了高压缩比,将 kv 缓存无损压缩至三点五比特,甚至尝试二点五比特 零精度损失。在 gemma、 mr 等模型的长上下文精准测试中保持任务性能不变,速度提升。在 h 一 百 gpu 上,四比特模式下注意力计算速度最高提升八倍。尽管前景激动人心,但围绕 triple quant 的 争议与冷静思考同样热烈, 主要集中在以下几点。首先是谷歌与论文的差。业内研究者首先指出,谷歌官方宣传论文的措辞比学术论文本身激进得多, 簿客中内存减少六倍。意比特、巧思等生动比喻和显著数字在论文中会有更保守的表述或对照实验的设置存在可讨论空间, 这种温差导致公众认知与技术细节之间存在预期差。其次,影响的边界与杰文斯辩论对存储市场的冲击是否被高估, 反对意见认为,不触及全部显存。 turboqant 主要优化 k v cash, 但不压缩模型权重本身,也不改变训练阶段的巨大存储需求。 高端 h p m 在 训练和顶级推理中的核心地位依然稳固。杰文斯辩论历史上,效率提升往往刺激更大规模的需求, 内存成本下降可能使长上下文 ai 应用以前所未有的规模普及,最终拉动内存总需求增长而非减少。有分析师指出,这更像解除了 ai 普及的枷锁。 工程化道路上,长目前复现多在中小模型,在大规模多样化生产环境中的稳定性、普适性仍有待验证。英伟达中期也发布了不同的 k 非缓存技术。技术路线竞争刚开始,最后超越利好利空的短期争论。 tripleqant 更深层的意义在于发出一个强烈信号, ai 竞赛的下半场不仅是模型规模的比拼,更是成本与效率的战争。它代表了一种范式转变,从依赖硬件堆砌的暴力美学转向依靠底层数学和算法创新来重塑硬件利用率的精巧工程。 谁能把同样的智能以十分之一的成本送入千家万户的终端设备,谁就将定义下一个阶段。因此, topcoin 引发的震动远不止于存储股价的波动。 它是一场压力测试,测试着市场对技术发展逻辑的理解深度。它也是一盏探照灯,照亮了 ai 产业化道路上那个最现实、最顽固的关卡成本,无论其最终落地形态如何,追求更轻、更快、更省的极致效率,已成为无可争议的行业主旋律。

不知道大家今天有没有被这个消息给吓到啊,反正我是被吓得够呛,导致今天存储芯片全体下跌。其实今天的下跌肯定有被错杀的,不是说这个技术的出现就会导致所有的存储都不行了,最主要的我们需要去研究这个技术具体原理和应用。 为此,我特地到谷歌官网找了一下关于这个 turboq 技术的相关论文,其实它本质就是一个超厉害的 ai 压缩算法,专门解决大模型运行时的内存瓶颈问题, 巴拉巴拉的,我一开始也不懂,后来我用 ai 了解了一下,现在用传统的个人计算机给大家打个比方,让大家能搞懂这个技术对未来存储的影响有哪些。大模型平时思考处理长文本, 就像咱们用电脑办公一样,会把正在处理的历史信息存在电脑的内存里。从专业角度来说,内存全程随机存取,存储器也叫 ram 内存,属于一次性存储,就相当于临时工作台 通电时才能存储数据,负责临时存放正在运行的程序、打开的文件和实时处理的信息,方便 cpu 快 速调用,断电后里面的内容会全部丢失。 而硬盘属于持久性存储,常见的有机械硬盘 hdd 和固态硬盘 ssd, 就 像长期仓库,不管通不通电,里面存储的文件、软件、系统等数据都不会丢失,主要用于长期规章和存放非实时处理的内容,和大模型临时运算的操作没有直接关联。 但这个内存工作台空间有限,处理的文本越长,需要临时放的信息就越多,内存很快就被占满,就像工作台堆满了文件,电脑会变卡,甚至打不开新文件一样,大模型也会变慢,跑不动。 turboq 就 相当于给这个内存工作台装了一个无损整理压缩神器,分两步帮你腾空间,还不丢任何有用的信息。第一步是换个整理方式,以前往内存里存信息,就像把文件杂乱无章堆在工作台上,占地方还不好找。 他就像把文件分类、叠放、压缩、打包,体积变小了,但里面的内容一点没少。就像咱们把电脑里的文件压缩成压缩包,占的内存变少,解压后还是原文件。第二步是做小修正。压缩整理难免有一点点小偏差,他用特别小的空间就把偏差修正过来, 保证整理后的信息和原来的一模一样,不影响大模型正常使用。但有了 turbocharger 之后,未来就不一样了,它不用咱们再盲目追求超大内存这个硬指标,就像不用再强行换超大工作台,而是把现有工作台的空间利用到极致。 短期来看,它会让普通内存就能满足大部分 ai 使用需求,不用再花大价钱买高端内存。但从长期来说,它会让 ai 应用越来越普及, 比如以后咱们的手机、家用电脑都能轻松跑复杂大模型,这反而会带动小型高效的存储类型需求增加,比如更轻便、更节能的内存,还有适配端侧设备的小型存储芯片,而不是一味追求大容量的存储设备。 可能有人会担心,这会不会让大容量内存硬盘被淘汰?其实完全不会,就像以前大家觉得压缩软件会让硬盘没用,但反而因为压缩省了空间,大家存的东西更多了,对存储的需求反而变广了。 未来高端大容量存储还是会用在服务器、专业 ai 设备上,但普通设备的存储需求会更偏向高效轻便,不再是单纯比大小。这就是 turboqant 给未来存储类型需求带来的最大改变。 总结一下,目前 turboqant 还处在谷歌内部实验室阶段,不会对存储价格有影响。走出实验室至少要到今年年底。 当 turboqant 进入商业化的时代,每个人都能本地化、低成本部署 ai, 这反而会推动存储行业进入一个全新的阶段。 想一想世界上第一台计算机 e n i a c 到家用的微型计算机,你就能想通这个事情了。所以,今天的下跌快点有错杀的。未来端测存储,如手机、电脑、 ai、 眼镜、汽车等等,需求量会越来越大。

哈喽,兄弟们,美股又传来鬼故事了啊,谷歌的一篇技术论文直接把村主席们给干崩了, 哈利是,三星,美光,凯侠全线暴跌啊,没有一个跑调的起因,就是谷歌搞了一个革命性的压缩算法。我也不懂算法这一块啊,我也不懂论文这一块,但是我记住了两个数字啊,就是内存占用爆降六倍,然后速度呢,提升八倍,那么言下之意就是,同样的任务,服务器可能需要的高端内存呢? 呃,大幅减少了。这句话一出呢,这个市场就瞬间炸锅了,所有人的脑海里面都浮现出来一个词啊,叫 deep sea 的 时刻。不过分析师也站出来讲话了,说这个别慌,这只是短暂的情绪冲突,不是颠覆性的威胁。所以说呢, don't worry, 兄弟们,就是,理由呢,就是经济学有一个出名的辩论叫结论,翻译成人话来说,就是效率越高,反而用的越多。那么逻辑链是这样,以前算法贵, 内存贵,大家省着用。现在效率上来了,成本下来了,用的人更多了,场景更多了,那么规模也更大了,最后的结果可能是总需求不见反升。

就在内存价格一路狂飙的时候,谷歌的一篇新论文直接把美股内存板块干崩了,连 call 泪儿 ceo 看后都惊呼,这是谷歌的 deep seek 时刻, deep seek 用极少算力训出了顶尖模型。而谷歌这次放出的超级大招 turbo quint, 是直接让 ai 推理的内存需求打了个骨折。这项技术到底牛在哪里呢?简单来说,就是以前 ai 在 处理长文章或陪你聊天时,为了方便翻找,会像学霸一样把关键信息写在小抄上,也就是 k v 缓存。但如果小抄写得太详细,就会占满内存,让 ai 变慢,还特别费钱。以前的压缩方法就 像是强行把字写小,但这样 ai 不 仅容易看错字,还得去记缩写规则,反而更麻烦。那谷歌这次是怎么破局的呢? turbo quint 甩出了两个神操作。第一招 power quint 技术,可以理解为换个姿势记笔记。以前 ai 记位置用的是坐标系,比如向东走三步,向北走四步,麻烦又占地方。现在谷歌让他直接记, 朝三十七度方向走五步。就这一个视角的转换,直接省下海量空间,还绝对不会认错。但只要是压缩,总会有点小误差,对吧?这就引出了他的第二招 q j l 技术,只用一个符号纠错,他仅仅用一个正负号,就把压缩后的一点点瑕疵神奇的抹平了,零额外内存开销速度快到飞起。那这两套连招打下来,结果有多恐怖呢? 运行的 k v 缓存直接从三十二位压缩到三位,内存直接少用六倍以上。在英伟达 h 一 百显卡上,它的注意力计算速度快了八倍,最夸张的是回答准确率完全不下降,而且不需要重新训练,模型拿来就能插上用。在这个内存价格动辄暴涨,全网都在焦虑算力成本的时代,谷歌这是又扮演了一次救星吗?

今天看到一篇公众号说谷歌发表了一篇特别重要的论文,论文里讲了什么呢? k v cash, 简单来说就是大模型做推理的时候,要用的一个非常重要的存储,谷歌用算法把它的效率翻了六倍。言下之意是,同样的,推理需要的存储是之前的六分之一。我们知道,在整个 ai 基础设施里, 过去一段时间里最缺涨价最猛的已经不是芯片,而是存储。光今年以来仅仅三个月,各类存储产品的价格都涨了百分之三十到五十。龙头公司美光刚刚发布了业绩,那业绩只能用炸裂来形容, sk 集团的会长,甚至预测存储供不应求的局面会持续到二零三零年。 结果谷歌的论文给了存储行业当头一棒。你看,有这么多人都说存储完了,但真的有这么惨吗?过去我可能要把谷歌的论文找来自己仔细看一遍,其实就算花好几个小时看,我也只能一知半解, 同时我还要到处找相关文章到处问,总之就是要想办法凑出一个能让我做决策的逻辑。二零二五年二月 deepsea 大 火,干崩了整个芯片行业的时候,我就完整的走过一遍,这个流程相当的费时间。 现在不用这么麻烦了,我们自己做的 ai 分 析师 reportify, 也就是小 r 已经足够强了,这些活可以交给他干。怎么让他干呢?很简单, 我把我看到的说谷歌论文的公众号截了个图传给小 r, 告诉他,我看到这样一条新闻,请帮我搜索一下新闻里提到的论文原文看看。第一,这是不是一件新事?第二,论文里具体讲的是什么,并且帮我仔细研究一下这件事对存储行业的影响,然后几分钟他就帮我把信息给拼凑齐了,看完以后逻辑就基本清楚了。 首先,你看小二这里说了,这不是新事儿。公众号里讲的其实是 google research 在 二零二六年三月二十四号发的博课,相当于 turboqant 要在四月份的 i c l 二上展示,谷歌提前做了一波宣传。 其次,谷歌的算法号称可以把 k v cash 的 使用效率翻六倍,但其实 ai 行业一直都在针对 k v cash 做优化,所以实际提升大概率没有六倍这么多。 第三,对 k b cash 的 节省大概率不会转化为 rack, 也就是整个 ai 系统里更少的 hbm, 而是同等 hbm 预算下能承载更长的上下文、更复杂的任务量,以及更高的并发症。我们公司自己做 agent, 我 太有体会了,最麻烦的工作就是上下文工程, 简单来说就是对话次数多了,或者让 agent 干的活太复杂了,上下文就会很多,多到一定程度就崩了。所以上下文的能力直接影响到 agent 能解决多复杂的任务了。所以上下文的能力已经可以完成一些复杂的任务了, 但我觉得还不够,我肯定希望它能完成的任务越复杂越好。所以我们应用端的需求肯定不是同样的任务用更少的存储,而是同样的存储可以完成更复杂的任务。应用端是这个需求,模型端肯定也是这个需求。 这次对存储行业的质疑,让我想到了二零二五年二月的 deepsea, 当时 deepsea 确实通过优化算法大幅提升算力的使用效率。当时就有很多人说,效率提升之后,算力和芯片就不重要了,于是芯片公司集体崩盘,结果那次崩盘让很多懂行的人都盆满钵满。 为什么会这样呢?你思考一个问题,算力的使用效率高了,这会让算力的需求下降还是上升? 其实是上升,有一个概念叫杰文斯辩论,说的是当技术进步提高了效率,资源消耗不仅不会减少,反而会激增。 上次的算力效率提升是这样,我相信这次的存储效率提升也会是这样。不过请注意啊,这只是我的个人判断,不是任何形式的,建议大家还是自己做决策。你觉得这次的存储也能跟去年的算力一样邋遢来吗?欢迎在评论区聊一聊。

构购一篇 kvatch 压缩的论文,直接把存储股砸了一波。这篇叫 turboqant, 做的事情很直接,把大模型推理时最吃内存的 kvatch 压到极限。它不是简单地降低精度,而 是用信息论最优的方式重新分配信息密度。普通部分用极低比特表示异常值,单独保留高精度,以项链为单位编码。实测结果确实猛在 call 问,三点五减三十五, b 上二点五比特量缓, k v k 是 缩小将近五倍,而且从八 k 到六十四 k 上下纹长度、精度完全没有损失。但问题来了, 这真的是全新的突破吗?一、比特量化,从 int 八到 int 四,主流模型推理测早就在用了,异常只单独处理 smoothqq 这些方法本质上在做同一件事, k v kash 的 划窗和分层缓存 也已经是大厂的标配。你去看现在模型的长、上下文能力和推理成本,这些优化早就悄悄落地了。真正的压缩路径是这样的, 原始 k v cash 是 一倍成本,简单量化做到二到三倍,加上异常值处理到三到四倍,这篇论文再往前推,大约到四到四点五倍,但它已经逼近了相同极限,也就是信息论的理论天花板。这篇论文真正的意义不是多省了多少内存,而是划了一条线。 k v cash 压缩这条路已经接近终点了。剩下还没落地的部分, 比如项链量化和更极致的编码工程,实现难度很大, gpu 不 友好,延迟难控制。对存储市场来说,大部分冲击其实已经被消化了,还没体现的那部分,落地周期会更长,不是短期立空,下一个真正的突破可能不会再来自压缩本身,而是要找全新的路径。

就在这两天,一则来自科技圈的消息直接让资本市场炸开了锅,有网友戏称这是谷歌迎来的 deepsea 时刻。但更魔幻的是,这不仅是 ai 圈的狂欢,更引发了硬件圈的地震。因为一项名为 turboquat 的 谷歌新研究,直接把矛头对准了 ai 最烧钱的硬件内存。今天我们就来拆解一下,仅仅是一篇 ai 算法论文,凭什么把内存价格打下来了? 在搞懂谷歌的这项黑科技之前,我们必须先明白一个概念, k b 缓存。你可以把 ai 想象成一个正在参加开卷考试的学生,当你们进行长篇大论的对话时, ai 不 可能每次回答都把整本教科书从头到尾翻一遍。 他会给自己准备一份小抄,把前面聊过的关键信息记下来。这份小抄就是 k b 缓存,也就是 ai 的 工作记忆。痛点在哪儿? 当你丢给 ai 百万字的文档或者进行超长的对话时,这份小潮就会变得无限大,甚至能铺满整个烤桌。在现实中,这些庞高的小潮全部都要塞进极其昂贵的内存里,这导致 ai 的 上下文越长,系统就越卡,推理成本就成指数级飙升。这也是为什么各大 ai 厂商都在疯狂抢购硬件对内存的原因。 可以说,内存的容量就是限制 ai 长文本能力的绝对瓶颈。就在大家以为只能靠疯狂买内存来解决问题的时候,谷歌抛出了 turboqant, 这是一种全新的 ai 压缩方法,他做到了极其恐怖的一点,将 ai 的 工作记忆直接缩小了六倍,并且准确率零损失,甚至完全不需要重新训练模型, 他是怎么做到的?主要靠两大绝招。第一个是极坐标量化,传统的 ai 记忆坐标是直角坐标系,比如向东走三米,向北走四米,而谷歌将其转换成了极坐标,也就是以三十七度角走五米。 这种表达方式不仅占用的数据量更小,还彻底消除了传统压缩方法中涌现的教程内存。第二个是丹比特修正,这是一个源自上世纪八十年代的经典数学定律,在第一步压缩后,数据可能会有一丁点偏差。丹比特修正算法极其巧妙的只用一个比特,也就是一个简单的式或否指令,就能把最终结果精准拉回正确的位置。 机器干净,没有任何数学累赘。在仅仅三点五比特的极速压缩下,它的性能完美媲美十六比特的未压缩满血状态,在处理百万级 token 的 上下文时,计算速度最高飙升了十三倍。现在你应该明白为什么市场火慌了。 如果谷歌的这项技术全面落地,意味着原本需要六张顶级显卡或者六块昂贵内存才能跑的 ai 任务,现在只需要一块就能搞定。 对于那些靠卖存储芯片赚的盆满钵满的硬件巨头来说,这在短期内的逻辑推演就是需求大幅减少,等于才能过剩,等于价格暴跌。但是事实真的如此悲观吗?这里我必须给大家泼一泼冷水, 做个理性的回归。第一, turboqant 目前依然是一篇前沿的研究论文,从实验室的完美数据到最终商业化产品落地,部署到全球数据中心,还有很长的一段路要走,大家不要被短期炒作情绪所裹挟。第二,科技史上有个著名的杰文斯备论,当一项资源的利用效率提高,成本下降时,人们并不会减少使用量, 反而会因为太便宜了而疯狂增加使用量。如果 ai 长文本的内存成本骤降六倍,各大厂商绝对不会因此停止采购硬件,而是会把 ai 模型部署到更多设备上,推出更复杂的应用。 从长远来看,总体内存需求甚至可能会不降反升。不过,无论长线逻辑如何,短期内的市场情绪已经给出了反应。目前内存相关的股票已经硬生暴跌,资本对算法优化替代硬件堆料的担忧正在迅速发酵。 那么问题来了,既然股市已经先跌为敬,你认为内存实物市场接下来的走向会如何?显卡和内存条的价格真的会迎来大跳水,还是只是一场虚惊?欢迎在评论区聊聊你的看法。

我去,兄弟们又来了个鬼故事,谷歌的一篇技术论文,直接把存储芯片板块给打崩了,海力士、三星美观、凯霞全线暴跌,没有一个跑掉,那起因就是谷歌搞出了一种革命性的压缩算法。我不懂,技术论我也看不懂,但呢,就是记住了两个数字,内存占用爆浆六倍, 速度呢,提升八倍。言下之意呢,同样的任务,服务器需要的高端内存呢,可能会大幅减少?这些话一出,市场的瞬间炸锅,所有人脑子里都浮现的一个词叫做 dp 时刻。不过很快就有分析师出来喊话说,别慌,这是短期的情绪冲击,不是颠覆性的威胁。 理由呢,就是经济学里面有个经典的理论,叫做结文式背问。翻译成人话,就是效率越高,反而用的越多。那逻辑链是这样子的,以前算力贵,内存贵,大家省着用。现在呢,效率上来了,成本下来,用的人呢?更多,场景更多,规模更大,最后的结果很可能是,总需求呢,不降仿生。

谷歌 turbo quant 危机降临还是虚惊一场?前两天,全球资本市场经历了一场突如其来的震荡,一篇出自谷歌的 ai 算法论文竟直接引发全球半导体板块全线跳水,恐慌情绪迅速蔓延至整个产业链。 一时间,行业内外争论不休,有人断言半导体行业将迎来颠覆性危机,也有人认为这不过是市场的过度反应。 那么,谷歌这款 turboq 算法究竟是压垮半导体产业的重磅炸弹,还是只是一场虚惊一场的情绪波动?今天,我们就沿着清晰的逻辑脉络,抽丝剥茧,还原事件真相,给出最客观的判断。一、事件复盘论文引爆市场,半导体板块遭遇集体重挫 事情的起因要从三月二十六日谷歌研究院正式发布 turboq 算法说起,这也是前两天全球科技与资本圈最核心的事情。 谷歌官方公布的技术数据极具冲击力,该算法能够针对 ai 大 模型推理环节中占用内存最多的 k v 缓存实现六倍压缩,同时将 ai 推理性能提升八倍,且全程做到零精度损失,无需对模型重新训练,即可适配当前主流大模型。至 这一消息一经释放,全球资本市场立刻做出激烈反应,恐慌情绪瞬间发酵,是气场 市场第一时间产生极端解读。 ai 对 存储芯片、 hbm、 高带宽内存的需求将大幅缩减,半导体行业的高景气逻辑或将被彻底颠覆。至 受此影响,全球半导体板块集体走低。美股市场中,美光、西部数据等存储龙头跌幅显著,台积电股价同步下挫。韩股市场中, sk 海力士、三星电子应声下跌, a 股存储芯片板块也随之联动调整。 短短数个交易日,半导体产业链市值出现大幅缩水,一场由算法论文引发的行业震荡就此拉开帷幕。二、技术拆解, 认清算法本质,破除市场错误认定想要判断这场危机是真是假,首先要精准理解 turboqant 算法的核心本质, 这也是整个逻辑推导的关键。 turboqant 本质上是一款 ai 推理环节的效率优化算法,而非颠覆硬件需求的革命性技术。我们可以用通俗的逻辑理清三大核心要点,彻底破除市场的错误解读。 其一,该算法的优化范围极其有限,仅针对 ai 推理阶段的临时 k 非缓存,对 ai 训练环节毫无影响。 而 ai 产业中,模型训练才是存储芯片与 hbm 的 需求核心,无论是大模型训练还是算力迭代,都需要海量的高宽带存储支撑,等宽情绪速度变得了奇烈晶晶。 其二,算法压缩的是临时缓存数据,而非决定硬件配置的模型权重。决定 ai 服务器搭载多少 hbm、 多少 drm 的 核心因素是模型本身的权重体量,而非临时运行的缓存。 turboqant 并未改变硬件搭载核心逻辑,更无法替代硬件本身。其三,这类量化压缩技术并非横空出世,而是行业内早已布局的技术方向。 谷歌只是将优化效率做到了新高度,并非颠覆性的技术突破,不存在彻底替代硬件的可能性。三、逻辑论证 工虚格局未变恐慌本质的拆解,我们进一步推导行业逻辑就能清晰判断, 此次市场暴跌绝非行业危机来临,而是典型的过度恐慌。核心逻辑有三点支撑,首先, ai 产业的需求爆发趋势从未改变, 经济学中存在杰文斯备论及技术效率提升,会带来应用场景的进一步普及,进而推动总需求增长。 turbo quant 算法降低了 ai 运行成本,只会让更多行业、更多场景落地 ai 应用, 反而会扩大 ai 服务器的整体需求量,最终带动存储与 hbm 的 总需求持续上升而非缩减。其次,当前半导体行业的核心矛盾是产能紧缺而非需求过剩。目前 hbm 全球产能供不应求, 二零二六年全年产能已被头部科技企业提前锁定,交期长达一年以上,行业缺口超百分之五十。 这种功需失衡源于产能扩建周期长,产能爬坡缓慢。 turboqant 算法无法增加精元产能,无法缓解供应链紧张,自然无法改变行业高景气的核心逻辑。最后,算法落地存在漫长周期, 从论文发布到技术成熟再到大规模商用,至少需要一到两年的时间,短期内根本无法对行业供需产生实质影响。二零二六至二零二七年半导体存储赛道的景气周期不会受到丝毫冲击。四、结论升华,虚惊异常已定,产业主线依旧清晰 梳理完事件起因、技术本质与行业逻辑,我们回到最初的核心设问,谷歌 turboq 到底是危机降临还是虚惊一场?答案已经十分明确。 此次全球半导体板块的暴跌,完全是市场对技术的误读,引发的情绪性杀跌,是一场典型的虚惊,一场 突破。矿的算法是 ai 产业效率提升的重要进步,而非半导体行业的危机。它既没有颠覆存储与 hbn 的 核心需求,也没有改变半导体行业的功需格局, 更没有打断 ai 算力驱动的产业主线。短期的市场恐慌终究会被真实的行业逻辑修正,半导体行业,尤其是存储赛道的高景气趋势依旧具备极强的确定性。对于行业而言,这场波动不过是发展长河中的一朵小浪花。 长期来看, ai 算力爆发,国产替代推进的核心主线。风险提示,以上内容仅为产业逻辑与市场趋势分析论索,晶体私场有风险,投资需谨慎。

一篇谷歌的论文 turbocon 的 压缩算法竟然引发了今天的内存行业惨案。此算法一出,内存股应声大跌。为什么呢?因为 turbocon 把 kvatch 的 内存占用压到了原来的六分之一,推理速度最高提升了八倍,而且几乎零精度损失。 这意味着,原来需要一台一万美元的工作站才能跑起来的大模型,现在用一台 macbook 就 能跑了。原来四十 g hbm 才能撑起来,在百万上下文,现在六 g 就 够了。 原来企业不敢部署的常驻 a 代理,现在成本直接能砍掉一半。然而重点来了, turbocharger 并不能导致内存需求崩盘,反而是会推动 ai 规模爆炸。历史已经早就证明了这一点。当年福来社 tencent 让注意力计算快了十倍,结果不是 gpu 的 需求下降了,而是 ai 训练的规模直接翻翻了。 所以这回的 turbo box 也是一样,内存瓶颈被突破,导致上下文从百万走向无限,导致模型从中心化走向边缘化,导致 ai 应用数量从指数级增长。 从长期看, h b m d r m s s e 的 需求只会更夸张,因为效率的提升并不会让需求下降,只会让更多人更大规模、更长上下文的使用 ai。 这就是典型的杰维斯辩论。而且啊, turbo box 它也不是魔法,它是有代价的。 第一,他用算力换内存,随机旋转 mac 一 旦化 qgl 校正,这些步骤都会增加,每个 toky 的 计算量短,上下文甚至可能会更慢。第二,他的工程门槛太高,需要自己一坑呢,额外的原数据跨平台适配,所以短期内不太可能全行业普及。 第三,压缩 k v cash 开始可能会带来选择性遗忘,系统提示更容易被覆盖,越狱风险上升,所以必须重新评估安全性。 so turnlock 它的本质并不是什么内存革命,而是效率提升,它不但不会摧毁内存行业,反而是会让 ai 的 规模化速度再提一档。 眼下顶级内资厂商都在玩命破产,未来的三到五年,新厂房、新产能那才是主旋律。那你觉得那些瞎逼逼的所谓专家,他们会比干了几十年的老行尊们更专业吗?想想他们为什么这么说,脑子呀,得多转几个弯点亮智慧人生吧。

三月二十六日,全球存储芯片市场经历了一场由学术论文引发的黑色星期四。当天国内存储芯片板块全线飘绿,跌幅均超过百分之五,相关各股纷纷跟跌。大洋彼岸的美股市场同样未能幸免闪敌,美观科技、 西部数据等巨头股价硬生生下跌。这场资本市场的大淘沙,并非源于地缘政治的博弈,也不是供应链的断裂,而仅仅是因为谷歌研究院发布了一篇名为 turbo quint 的 学术论文。 这篇即将在 iq 二零二六会议上亮相的论文,被资本市场视为悬在存储芯片头顶的达摩克里斯之箭,甚至引发了存储芯片悬了的末日论调。 恐慌的根源在于谷歌宣称的技术突破。在大模型推理过程中,有一个核心瓶颈,被称为键值缓存 k v cash。 简单来说,当用户与 ai 对 话时,模型需要将之前的对话内容存储在内存中以维持上下文,这部分数据就是 k v cash。 随着大模型上下文窗口从几千 token 扩展到百万级, k v cash 对 内存的消耗成指数级增长成为制约推理成本的关键。而谷歌推出的 turbo clan 的 技术宣称能将这部分缓存内存的占用压缩至六分之一, 并在英伟达 h 一 百 gpu 上实现最高八倍的性能加速。对于长期沉浸在算力及权力、存力及国力蓄势中的资本市场而言, 这意味着如果单张显卡的内存吞吐效率能成倍放大,云服务商和企业客户对 dream 和 h b m 高宽带内存的物理采购量是否会断崖式下滑?这种逻辑推导直接触发了资金的避险本能, 导致了一场条件反射式的抛售。然而,这场恐慌是否过度解读了技术的本质?摩根士丹利在最新研报中明确指出市场对 turbo quan 的 存在误读。 这项技术仅作用于推理阶段的键值缓存,并不影响模型权重。所占用的高宽带内存 h b m 也与 ai 训练任务无关。所谓的六倍压缩并非存储总需求的减少, 而是通过效率提升增加单 g p u 的 吞吐量。这意味着在相同硬件条件下,系统可以支持四倍至八倍更长的上下文,或在不触发内存溢出的前提下显著提升批处理规模。换句话说,这项技术并没有消除对存储硬件的需求,而是让硬件用得更高效了。 inks equity strategies 的 分析师也表示,媒体报道存在夸大成分,当前推理模型早已广泛采用四倍的量化数据。谷歌所谓的八倍性能提升是建立在与老旧的三十二倍模型对比的基础之上, 且 turbo cront 目前仅在 gemma mister 等开源模型上验证, gemini 等核心模型的适配效果尚未公开,技术普适性仍需观察。 事实上,压缩 kvcash 进行长上下文优化并非全新的技术思路。早在二零二五年四月,谷歌就曾公开发表过相关论文, 国内企业也在类似技术路线上有所布局,例如月之案面 kimi lina 在 处理长上下文任务时, kvcash 使用可降低最多百分之七十五。 deepsea v 二提出的么拉方法也可优化 k v cash, 这说明存储芯片行业早已在技术迭代的轨道上前行,谷歌的新论文只是这一进程中的一个节点,而非颠覆性的转折点。 此外,从供应链视角看,短期内存储芯片原厂产能满载服务器内存需求持续增长。 二零二六年服务器 dream 需求预计增长百分之三十九, hbm 需求年增百分之五十八。 turbocont 的 优化效果或将被行业增长的浪潮淹没。从经济学视角看, turbocont 的 出现可能再次验证。杰文斯辩论。 这一辩论指出,技术效率的提升往往会降低使用成本,从而激发出更庞大的总需求。蒸汽机效率的提高没有减少煤炭消耗, 反而推动了煤炭需求的爆发式增长。在 ai 时代,这一规律同样适用。通过大幅降低单次查询的服务成本, turbo crnt 能让原本只能在昂贵云端集群上运行的模型迁移至本地, 有效降低 ai 规模化部署的门槛,从而激活更多因成本受限而无法落地的应用场景。无限星辰董事长方海生表示,这会是杰文斯辩论的又一个例证, 技术效率的提升最终会推动总需求的增长。推理成本重心将从 gpu 转向存储优化,推动 tco 总拥有成本显著下降, 使中小厂商可进一步参与 ai 应用创新,打破大厂技术壁垒,推动 ai 民主化加速。一篇尚未正式发表的论文引发全球存储芯片板块的剧烈震荡, 本身就足以说明当前 ai 基础设施投资逻辑的脆弱与敏感。存储芯片行业正处于技术与资本的十字路口,即面临物理极限的挑战,也迎来新算法的机遇。 turbo cront 的 出现并非存储芯片的末日,而是行业进化的一次催化剂。它提醒我们, ai 时代的竞争不仅是硬件的堆砌, 更是算法与硬件的协调优化。对于投资者而言,与其被短期的恐慌情绪裹挟,不如关注技术迭代背后的长期逻辑效率的提升,终将转化为更广阔的应用空间。 而存储芯片作为数据世界的基石,其价值不会因一次算法优化而动摇,反而会在 ai 民主化的浪潮中迎来新的增长机遇。友情提醒,投资有风险,决策需谨慎。本内容不对您构成任何投资与决策建议。

最近科技圈和股市彻底炸了,谷歌发布的 turboqant 算法一夜之间让全球存储芯片市值蒸发几千亿。很多人都在问,这项技术到底是真是假,又会给行业带来多大影响?今天用最通俗的话给大家讲明白。 首先,这项技术是真实可靠的,并不是概念炒作。谷歌已经发布了专业论文,并且在英伟达高端芯片上完成了实测数据全部公开。 它的核心作用就是针对 ai 大 模型运行时的缓存数据进行极致压缩。简单来说, ai 运行的时候需要临时存储大量数据, 这就非常占用内存。以前需要六份存储容量才能支撑的运行需求,现在用这个算法一份就够了,不仅能节省超过百分之八十的存储空间,运行速度还能提升八倍。最厉害的是完全不影响模型的精度,也不需要重新训练。这项技术的出现直接冲击了整个存储行业。 这两年 ai 飞速发展,高宽带内存存储芯片一直是供不应求的状态,而一旦这个算法普及, ai 服务器对存储芯片的需求会大幅减少。这也就意味着像三星、海力士、 美光这些头部存储企业,业绩会受到直接影响,股价暴跌也是市场最真实的反应。整个存储产业链都会面临短期的需求调整,但大家要明白,这并不是存储行业的终点,而是一次行业洗牌。 算法再先进也离不开硬件的支撑,不可能完全替代存储芯片,而且技术落地需要时间,产业链也会有适应和升级的过程。总的来说,谷歌这项技术是一次真正的技术革新,它短期重创了存储市场,长期会重构整个 ai 算力行业。 对于普通人,未来我们用到的 ai 产品会更便宜、更流畅。对于行业而言,这是一次大浪淘沙,只有不断创新才能不被淘汰,科技进步的速度永远超出我们的想象,这一场存储行业的风暴才刚刚开始。