最近科技圈和股市彻底炸了,谷歌发布的 turboqant 算法一夜之间让全球存储芯片市值蒸发几千亿。很多人都在问,这项技术到底是真是假,又会给行业带来多大影响?今天用最通俗的话给大家讲明白。 首先,这项技术是真实可靠的,并不是概念炒作。谷歌已经发布了专业论文,并且在英伟达高端芯片上完成了实测数据全部公开。 它的核心作用就是针对 ai 大 模型运行时的缓存数据进行极致压缩。简单来说, ai 运行的时候需要临时存储大量数据, 这就非常占用内存。以前需要六份存储容量才能支撑的运行需求,现在用这个算法一份就够了,不仅能节省超过百分之八十的存储空间,运行速度还能提升八倍。最厉害的是完全不影响模型的精度,也不需要重新训练。这项技术的出现直接冲击了整个存储行业。 这两年 ai 飞速发展,高宽带内存存储芯片一直是供不应求的状态,而一旦这个算法普及, ai 服务器对存储芯片的需求会大幅减少。这也就意味着像三星、海力士、 美光这些头部存储企业,业绩会受到直接影响,股价暴跌也是市场最真实的反应。整个存储产业链都会面临短期的需求调整,但大家要明白,这并不是存储行业的终点,而是一次行业洗牌。 算法再先进也离不开硬件的支撑,不可能完全替代存储芯片,而且技术落地需要时间,产业链也会有适应和升级的过程。总的来说,谷歌这项技术是一次真正的技术革新,它短期重创了存储市场,长期会重构整个 ai 算力行业。 对于普通人,未来我们用到的 ai 产品会更便宜、更流畅。对于行业而言,这是一次大浪淘沙,只有不断创新才能不被淘汰,科技进步的速度永远超出我们的想象,这一场存储行业的风暴才刚刚开始。
粉丝43获赞95

咱们今天来聊聊 ai 硬件里一个特别有意思的悖论。谷歌发布了一个叫 turboqant 的 新算法,所有投资人都在问, ai 内存的好日子到头了吗?大家的第一反应都是,太好了, ai 的 内存问题解决了以后,能省一大笔钱了。 你看,市场反应非常快,内存股马上就跌了,因为大家担心需求会减少。这个技术针对的是一个叫 kv 缓存的东西,你可以把它想成是 ai 的 短期记忆一个很大的瓶颈。 以前呢,这里面的每个数据都需要用十六位来存,但 turbo 宽的厉害在哪呢?它能把数据压到差不多三位,而且精度一点都没丢。 所以你看这个结果,内存占用直接少了六倍多,性能反而还快了。表面上看,这不就是省钱吗?对吧?但故事可没这么简单。 要想明白为什么,咱们得先搞清楚 ai 服务器里这两种内存。重点来了,缓存压缩后变得特别小,就能从昂贵的 gpu 内存搬到便宜的服务器内存里。 这样一来,服务器就能用上二 tb 近至四 tb 的 巨大内存池,同时处理海量用户的请求。 这就带来了第二个效果,吞吐量暴增,一个 gpu 能同时服务比以前多得多的用户。但问题也来了, gpu 效率高了六倍,那服务器的其他部分跟得上吗? 答案是, cpu 那 边需要更多的系统内存,也就是 dram 来给这个超强的 gpu 位数据。 这个现象其实就是经济学里一个很经典的杰文斯贝洛。就像摩根史丹利分析的, ai 变便宜了,用的人只会更多,市场反而变大了。 你看这个逻辑链,效率高了,成本低了,结果就是 ai 的 用途和需求都爆炸了。 所以这么一圈看下来, ai 的 内存瓶颈其实根本没消失,它只是换了个地方,从 gpu 上昂贵的 hbm 转移到了对服务器 dram 的 巨大需求上。这就留给我们一个问题,效率越高,需求越大,那未来的数据中心得建成什么样?

一篇谷歌的论文 turbocon 的 压缩算法竟然引发了今天的内存行业惨案。此算法一出,内存股应声大跌。为什么呢?因为 turbocon 把 kvatch 的 内存占用压到了原来的六分之一,推理速度最高提升了八倍,而且几乎零精度损失。 这意味着,原来需要一台一万美元的工作站才能跑起来的大模型,现在用一台 macbook 就 能跑了。原来四十 g hbm 才能撑起来,在百万上下文,现在六 g 就 够了。 原来企业不敢部署的常驻 a 代理,现在成本直接能砍掉一半。然而重点来了, turbocharger 并不能导致内存需求崩盘,反而是会推动 ai 规模爆炸。历史已经早就证明了这一点。当年福来社 tencent 让注意力计算快了十倍,结果不是 gpu 的 需求下降了,而是 ai 训练的规模直接翻翻了。 所以这回的 turbo box 也是一样,内存瓶颈被突破,导致上下文从百万走向无限,导致模型从中心化走向边缘化,导致 ai 应用数量从指数级增长。 从长期看, h b m d r m s s e 的 需求只会更夸张,因为效率的提升并不会让需求下降,只会让更多人更大规模、更长上下文的使用 ai。 这就是典型的杰维斯辩论。而且啊, turbo box 它也不是魔法,它是有代价的。 第一,他用算力换内存,随机旋转 mac 一 旦化 qgl 校正,这些步骤都会增加,每个 toky 的 计算量短,上下文甚至可能会更慢。第二,他的工程门槛太高,需要自己一坑呢,额外的原数据跨平台适配,所以短期内不太可能全行业普及。 第三,压缩 k v cash 开始可能会带来选择性遗忘,系统提示更容易被覆盖,越狱风险上升,所以必须重新评估安全性。 so turnlock 它的本质并不是什么内存革命,而是效率提升,它不但不会摧毁内存行业,反而是会让 ai 的 规模化速度再提一档。 眼下顶级内资厂商都在玩命破产,未来的三到五年,新厂房、新产能那才是主旋律。那你觉得那些瞎逼逼的所谓专家,他们会比干了几十年的老行尊们更专业吗?想想他们为什么这么说,脑子呀,得多转几个弯点亮智慧人生吧。

上周科技投资界很火的一个话题就是谷歌推出了特步矿的技术,它号称可以能够将大模型运行时的 k v cash, 也就是键值内存值减少六倍啊!这个技术一推出,存储 这美观科技啊,闪迪啊,三星电子的股价都大跌。今天我们就来介绍一下特步矿到底是一个什么样的技术,它到底厉害在哪里。相信了解了这些后,你就会明白他对于 ai 大 模型到底有什么作用。如果你是做投资的,对你的投资决策也会有帮助, 那我们先从大语言模型推理中最头痛的内存杀手 k v kash 讲起,这也是特博矿的诞生的核心背景。 而在大语言模型生成文字字的时候,其实它是逐个字蹦出来,为了生成下一个字,模型需要回顾之前已经生成的所有字。简单的来说, k v kash 这个键值缓存其实就是大模型 l a m 的 短期记忆。在没有 k v kash 的 情况下, 大模型每生成一个新字,都要把之前所有的字重新读一遍,有了它,模型就能记住处理过的内容,从而实现极速的推理。 那为什么它是瓶颈呢?虽然缓存能够加速计算,但它也带来两个致命的问题,一个就是限性增长,对话越长, k v k 使用的空间也就越大。如果你在写长篇小说或者分析长文档,显存就会迅速被填满。 第二个遭遇的问题就是内存强。现在的 gpu 算力其实很快,但是显存里边读取的数据的速度、带宽相对较慢。当 k v cash 变得巨大时, gpu 大 部分时间都在等数据传输,而不是在计算。 举个例子来说,想想你在读一篇啊,一本很厚的推理小说,如果没有 cash, 每读到新的一页,你都要把前面的章节全部读一遍,才能理解剧情,这个就太慢了。那有了 cash 呢?你把之前的关键线索记在了笔记本上, 但是呢,你也会遇到瓶颈,随着你这个书越来越厚,你的笔记本就被填满了,也就是说显存易出了。而且你翻阅笔记本找线索的速度也开始跟不上你阅读的速,这就所谓的待宽限制。胳膊框的出现呢,本质上其实就是发明了一种超级微缩胶卷, 把你的后笔记本压缩成一小片,但又不丢失关键线索。这个 point 使用了量化技术,就是所谓的 quantization 技术。简单来说,就是把高精度的大数字,比如说像 f、 t 六零这种十六位的浮点数,压缩成低精度的小数字,比如像四的这种等数。 但这里就面临一个巨大的挑战,那就是精度损失。如果你强行把所有的数字都压缩成呃 int 四这种整形数,模型就会胡言乱语,逻辑变得混乱。特步矿腾呢,发现了一个神奇的现象,叫异常值,就是说, 他认为就是 tv cash 中其实百分之九十九的数据都很平庸,数值很小,即便压缩了以后也没有什么关系。但是呢,有极少数的所谓的异常值,它的数值非常大,承载了模型最重要的记忆和逻辑。 那这样呢,就特步矿的它采取了一种保命策略,它就不像传统的压缩方法一样一刀切,而是采采用的就是异常值感知量化,它会先像雷达一样扫描这个整个 k v catch, 识别出那些极少的异常值,给它们分配。高精度啊,保留原来的这个精度啊,类似于 f p 十六这种。 对剩下的绝大多数的这个普通纸呢,进行高倍压缩,压缩成 excel 甚至更低。当然这里面牵涉到一个比较复杂的一个叫随机旋转,还有一个 one bit 的 这种机制来做具体的操作。这里不假拍讲,太复杂了,我相信普通的读者可能也并不关心。 虽然这种方法逻辑上看似很完美,但是在计算机底层却有一个大麻烦,也就是 gpu, 它喜欢整齐划一的数据类型。 想象一下,如果一个盒子里面既有巨大的石头,也就是十六 bit 的 这种异糖纸,又有细小的沙子,也就是四 bit 的 这种整形普通纸。那搬运工也就是这个 gpu 算子,它处理起来就会非常手忙脚乱, 如果解压缩的速度太慢,那省下的内存贷宽就会被计算延迟给抵消掉,我们也无法为了一个算子就去重新设计生产成千上万块 gpu 芯片。那这个时候最聪明高效的方法就是在软件层面进行优化。那其实在 turbo 框子中,这种优化主要体现在如何解决既要快又准的矛盾上。 那特步矿的做的一件事情就是在算子层面做了融合,就是在普通的推理过程中, gpu 先要从显存读起,压缩的数据放入缓存,然后再减压成原始数值,最后再进行计算, 这个每一步都要产生数据搬运的开销。那特步矿的呢,就编选了专门的扩大算子,它让 gpu 在 读取数据的一瞬间,直接在积存期,也就是 gpu 内部最快的地方完成了减压和计算。这种边读边算的方式呢,就极大的减少了数据在显存和核心之间的往返次数。 另外他用到了一个所谓的叫未包装的技术,就是让四比特数据在三十二位或者六十四位的英俊通道里边跑的顺畅,包括矿的。使用了这个未包装技术呢,就是把八个四比特的数字打包进一个三十二位的整数计算器里,这样的 gpu 就 可以一口吞下整个的数据量,包含的信息密度就是原来的四倍。 第三个就是使用异步处理异常啊, double quantum 的 算子设计也比较巧妙,它让 gpu 在 处理大量四倍的数据的同时,通过一个并行的极小通道去读取和还原那些高精度的异常值,那这两者在计算核心中会会合,这样既保证的速度,也掌握在精度。我们知道 gpu 的 瓶颈往往不在于算的够不够快, 而是在于数据运不过来啊,主要就是由于内存带宽的限制。假设原本我们从显存里搬运一百 g 的 f p 十六数据的 gpu, 那 现在通过 turbocharger 压缩压缩成了四个倍,也就是说只有原来的四分之一大小。 但在这种情况下, gpu 在 相同的时间内能处理的对话长度也就是吞吐量啊,其实理论上最大可以提升到原来的大约四倍。 我们来总结一下,其实突破框的这个要解决的核心痛点就是 k v cash, 随随着上下文自数限行增长,这就把那个整个文显存给撑爆了,那它采用的什么策略呢?就区别对待异常值和普通值,用四倍的换空间,用高精度保留智商。 那实现的方式呢?就是通过底层算子优化,让解压和计算同步,把理论上四倍贷款红利变成现实。 当 kvmatch 不 再是就是紧箍咒的时候,大模型的这个能力呢就发生了质的飞跃。最值得改变的其实就是两个维度,一个就是突破健忘症,也就是有了更大长的上下文,那比如说原来是一个 mini 的 上下文限制,那其实相当于现在变成了四个 mini 的 四个四兆的上下文限制, 那以前受制于这个现存模型可能只能处理五十页的文档就断篇了,那现在有了这个特步框的以后,同样的硬件可以处理两百页甚至更长的。 就是第二个就是告别打字机,这也就是更快的推理速度,因为数据搬运的话,瓶颈被打破了,这个模型生成文字的速度,也就是 token per second 会显著提升 啊,交互管会像真人一样,就是使得对话这个更加流畅。了解了 turboq 的 这个技术原理和作用以后,其实我们来聊一聊啊,就是对资本市场那个内存股的这个影响啊,就是从表面上来看这个有了这个技术以后, turboq 可以 使得大模型推理 使用到的这个内存大幅下降,感觉像是对这些内存公司的一个利空。但是个人来觉得这其实并不是,打个比方就是说其实就像车子卖便宜了,那其实车子的销量会更大, 那有了这个特步矿的技术,其实大模型的这个推理成本会大幅下降,那因为推理成本里边很大一块是内存的价格。倒,那既然推理成本能够大幅下降,那大模型的这个应用的潜力和空间也会大幅提升,用的人会越来越多啊。其实短期看上是一个利空, 但是我个人觉得长期可能是一个利好,因为大模型用的人越来越多,使用的成本也会越来越多啊。当然这个是我个人的一些潜见,仅供大家参考。好,谢谢大家。

不知道大家今天有没有被这个消息给吓到啊,反正我是被吓得够呛,导致今天存储芯片全体下跌。其实今天的下跌肯定有被错杀的,不是说这个技术的出现就会导致所有的存储都不行了,最主要的我们需要去研究这个技术具体原理和应用。 为此,我特地到谷歌官网找了一下关于这个 turboq 技术的相关论文,其实它本质就是一个超厉害的 ai 压缩算法,专门解决大模型运行时的内存瓶颈问题, 巴拉巴拉的,我一开始也不懂,后来我用 ai 了解了一下,现在用传统的个人计算机给大家打个比方,让大家能搞懂这个技术对未来存储的影响有哪些。大模型平时思考处理长文本, 就像咱们用电脑办公一样,会把正在处理的历史信息存在电脑的内存里。从专业角度来说,内存全程随机存取,存储器也叫 ram 内存,属于一次性存储,就相当于临时工作台 通电时才能存储数据,负责临时存放正在运行的程序、打开的文件和实时处理的信息,方便 cpu 快 速调用,断电后里面的内容会全部丢失。 而硬盘属于持久性存储,常见的有机械硬盘 hdd 和固态硬盘 ssd, 就 像长期仓库,不管通不通电,里面存储的文件、软件、系统等数据都不会丢失,主要用于长期规章和存放非实时处理的内容,和大模型临时运算的操作没有直接关联。 但这个内存工作台空间有限,处理的文本越长,需要临时放的信息就越多,内存很快就被占满,就像工作台堆满了文件,电脑会变卡,甚至打不开新文件一样,大模型也会变慢,跑不动。 turboq 就 相当于给这个内存工作台装了一个无损整理压缩神器,分两步帮你腾空间,还不丢任何有用的信息。第一步是换个整理方式,以前往内存里存信息,就像把文件杂乱无章堆在工作台上,占地方还不好找。 他就像把文件分类、叠放、压缩、打包,体积变小了,但里面的内容一点没少。就像咱们把电脑里的文件压缩成压缩包,占的内存变少,解压后还是原文件。第二步是做小修正。压缩整理难免有一点点小偏差,他用特别小的空间就把偏差修正过来, 保证整理后的信息和原来的一模一样,不影响大模型正常使用。但有了 turbocharger 之后,未来就不一样了,它不用咱们再盲目追求超大内存这个硬指标,就像不用再强行换超大工作台,而是把现有工作台的空间利用到极致。 短期来看,它会让普通内存就能满足大部分 ai 使用需求,不用再花大价钱买高端内存。但从长期来说,它会让 ai 应用越来越普及, 比如以后咱们的手机、家用电脑都能轻松跑复杂大模型,这反而会带动小型高效的存储类型需求增加,比如更轻便、更节能的内存,还有适配端侧设备的小型存储芯片,而不是一味追求大容量的存储设备。 可能有人会担心,这会不会让大容量内存硬盘被淘汰?其实完全不会,就像以前大家觉得压缩软件会让硬盘没用,但反而因为压缩省了空间,大家存的东西更多了,对存储的需求反而变广了。 未来高端大容量存储还是会用在服务器、专业 ai 设备上,但普通设备的存储需求会更偏向高效轻便,不再是单纯比大小。这就是 turboqant 给未来存储类型需求带来的最大改变。 总结一下,目前 turboqant 还处在谷歌内部实验室阶段,不会对存储价格有影响。走出实验室至少要到今年年底。 当 turboqant 进入商业化的时代,每个人都能本地化、低成本部署 ai, 这反而会推动存储行业进入一个全新的阶段。 想一想世界上第一台计算机 e n i a c 到家用的微型计算机,你就能想通这个事情了。所以,今天的下跌快点有错杀的。未来端测存储,如手机、电脑、 ai、 眼镜、汽车等等,需求量会越来越大。

你知道吗?谷歌居然塌房了!前不久,谷歌发布了一项号称彻底改变 ai 格局的新技术, turboqant 压缩算法, 号称能把大模型的缓存空间直接缩减到原来的六分之一,运行速度还能狂飙八倍。 发布当天,直接把华尔街的两大存储巨头美光和西部数据的股价给干崩了,甚至有大佬惊呼,这是谷歌的高光时刻。可谁能想到,就在昨天,一位 中国博士后直接甩出证据,谷歌不仅抄袭了我的开源代码,还踩了我一脚,这吃相简直太难看了。大家可能好奇这个新技术是什么?没关系,我给大家打个比方, 假设你要出国,有一座山的衣服要塞进一个小小的行李箱里,怎么塞? 这位中国学者高建洋团队花了两年时间,想出了一个绝妙的办法,在晒衣服之前,先猛烈的摇晃一下衣服堆,这在学术上叫随机旋转。摇晃之后,衣服的分布就变得特别均匀, 轻轻松松就能全塞进去,不仅省空间,还不弄换衣服。这个方法叫 rabbit q, 高博士不仅把理论做到了极致,还在二零二四年五月就把所有代码免费开源了,造福全人类。结果呢?谷歌转手就把这个思路重新发明了一遍, 取名叫 turboqant。 如果只是借鉴也就罢了,但谷歌接下来的操作,简直是把学术霸凌玩到了极致。第一宗罪,过河拆桥。谷歌在自己的论文里就是不提自己,用了人家 高博士首创的随机旋转技术,连审稿人都看不下去了,贴脸开大问谷歌,这方法是你们原创的吗? 谷歌私下里承认了,但在最终发布的几千万浏览量的文章里,依然把原作者的贡献藏在犄角旮旯里。第二宗罪,硬说学霸的满分卷子是次优。 高博士的方法在数学理论上已经证明是完美的最优解了。结果谷歌在论文里偏要在没有任何证据的情况下踩一脚,说人家的理论是次优的分析太粗糙。 这就好比你考了一百分,隔壁抄你卷子的人偏跟别人说你及格,都很勉强。第三宗罪,绑着别人的鞋带跟自己赛跑。谷歌吹嘘自己的运行速度比原作者快了好几个数量级, 怎么比的呢?谷歌用的是算力爆炸的顶级显卡 a, 一 零零跑自己的程序, 然后偷偷把原作者跑的飞快的原版程序关掉,换成了自己翻译的慢吞吞的单核代码。 这就好比谷歌开着法拉利,然后把对手的鞋带死死绑在一起让他走路,最后发个新闻稿说,看,我比他跑的快多了。现在一边是苦心钻研两年毫无保留开源的中国青年学者,另一边是手握千万级流量说一不二的科技巨头。 高博士发声说,如果不站出来,错误的绪势一旦传开,历史就会被改写。大家以后查资料只会记得谷歌的伟大, 而那个真正原创的开源方法,只会背上又慢又差的黑锅。在几千万的曝光面前,个体的声音很微弱,但今天我们要帮他把声音放大。同意的请点赞转发,让更多人看到真相!

你有没有想过,就异项技术,甚至只是一篇论文,能在短短一夜之间,让一个价值上万亿美元的全球市场发生剧烈震动?嗯,这可不是什么科幻大片的情节,而是真实发生过的事情。今天咱们就来好好聊聊这个叫 turboq 的 技术,看看它到底有什么样的魔力。 故事的开场就是这么一条可以说是相当吓人的新闻,标题,谷歌 turboq 引发全球内存股抛肉潮。这消息一出来,恐慌情绪啊,就像病毒一样,瞬间就传遍了整个华尔街。当时所有人都在问谷歌,这到底是放出来一个什么怪物啊? 这可不是夸张,你看看这张图表,就在消息发布当天,那些存储芯片的巨头股价刷的一下就往下跌闪跌,直接跌了超过十一, percent 西部数据和美光一个也没跑掉,整个行业就好像被人迎面打了一记重拳,几百亿美元的市值就这么蒸发了。 那问题就来了,为什么市场的反应会这么激烈?要想搞明白这个,咱们得先聊聊现在人工智能发展碰上的一个大难题,那就是 a 排队内存的胃口实在是太大了,大到快要撑破了。 好,我们往深了说一点,这个问题的核心是一个叫 kv 缓存的技术,你别看名字复杂,其实可以把它想象成 ai 的 临时记忆或者草稿纸,就是说你跟 ai 聊天的时候,他会打你们之前聊过啥都记在这张草稿纸上,这样他回你下一句话的时候就不用打,整个聊天记录从头到尾再看一遍了。 那这个临时记忆占多大地方呢?我跟你说个数字,你感受一下。一个大型 ai 模型,只需要同时跟五百一十二个人聊天,就需要用掉整整五百一十二根的缓存, 这什么概念?这比 ai 模型本身的大小还要大出整整四倍。所以啊,关键的问题就来了,我们跟 ai 聊得越多,上下文越长,这个 k v 缓存就跟滚雪球一样,变得越来越大,可以说是爆炸式的增长。这带来的后果就是运行 ai 的 成本变得死贵,而且它的反应速度也变得越来越慢。 就在整个行业都为这事头大的时候,谷歌带着他的解决方案 turboq 闪亮登场了。没错,这就是他们拿出来应对这场内存危机的一张王牌。这项技术一发布,整个科技圈直接就炸锅了,网友们特别有才,给他起了个外号,叫他现实版的摩羯手。对,就是那部很有名的美剧,硅谷里那个能把任何文件都压缩到不可思议大小的神奇技术。 那么这个 turbocharger 到底有多厉害呢?来,咱们看几个数字,你就能直观感受到了。首先,它能把内存的使用量直接给你压缩六倍。其次,它还能让 ai 最核心的那个计算速度最高提升八倍。但最关键最离谱的是什么?是它在做到上面这两点的同时,模型的准确率损失是多少呢? 答案是零!对,你没听错,完全没有损失!这简直就是压缩技术里的黑科技啊,他是怎么做到的呢?简单来说,就靠两步操作。 第一步,用一个叫 polychron 的 技术,像个聪明的数学家一样,把数据先旋转一下,再进行高质量的压缩。第二步,再用一个叫 qgl 的 技术,它很巧妙,只用一个比特位,就当上了一个数学纠错员,把压缩过程中可能出现的偏差全都给消除了。这么以来,就彻底告别了以前那些压缩技术会带来的额外开销,也就是所谓的内存税。 好了解了技术有多牛,咱们再把镜头拉回到那场全球性的股票恐慌,华尔街到底为什么会吓成这样?而那些专业的分析师们又为什么很快就弹出来说,大家别慌,事情不是你们想的那样呢? 你看,当时市场上主要就是两种完全对立的观点,市场的恐慌逻辑很简单粗暴, ai 需要的内存少了六倍,那以后内存条肯定就卖不出去了,硬件需求要完蛋了。 但分析师们看得更深一层,他们说,第一, turbo 矿的只是压缩了 k v 缓存,不是所有内存。第二,也是最重要的一点,效率的提升反而会刺激出更大更多的总需求,为什么效率提高了,反而需求会增加呢? 这里啊,咱们就得请出一个有一百五十年历史的古老经济学理论了,他能完美的解释 ai 的 未来了。这个理论就叫杰文斯悖论。听起来好像很高深,但他的核心思想其实很简单,就是当技术进步,让一种资源,比如说煤炭或者电力,用起来更高效,更便宜了,我们最终消费的这种资源不但不会减少,反而会用的更多。 哎,这个理论听起来是不是有点熟悉?没错,就有研究员指出来,这和之前 deepsea 那 家公司宣布,他们能用二十分之一的成本就训练出一个 ai 模型式,情况简直一模一样。当时市场也是一片恐慌,都担心英伟达的显卡要卖不出去了。 但后来的事实证明呢,成本降低并没有让大家少买硬件,恰恰相反,它让 ai 技术从一个奢侈品变成了人人都能用的日用品,可以被装进手机、汽车甚至冰箱里,这么一来,对硬件的总需求反而是爆炸式的增长了。 所以讲到这里,我们可以得出一个可能颠覆很多人直觉的结论了, turbo 快 词的出现,对整个内存行业来说,它根本就不是一个威胁,反而是一个极其强大的催化剂。那么一个更便宜更快的 ai, 到底能解锁哪些我们以前不敢想的可能性呢? 你可以想象一下,我们跟 ai 的 对话上下文可以变得超级长,可以同时让好几个 ai 智能体一起协助帮你干活,甚至可以在我们自己的手机和电脑上,而不是在云端就运行非常强大的 ai, 更别提在搜索这些领域带来的全新应用了。 咱们来总结一下,关键点就在于 turboquest 通过把 ai 的 使用门槛给打下来,让它变得人人都能用,处处都能用,这将极大的加速整个人工智能革命的进程,而这场革命最终会推动一轮可能会持续好几年的对内存需求的超级周期。 那么最后我想把这个问题留给大家,既然现在 ai 已经变得前所未有的便宜和快捷,你觉得它将会解锁哪些我们今天可能还完全想象不到的全新应用和创新呢?


今天我们要聊的呢是一个最近非常火的话题啊,就是谷歌发布的这个 turboqant 内存压缩算法。对,这个算法呢,可以说在页内掀起了轩然大波,它不光是让大模型可以在普通的设备上面跑的更流畅了, 同时也让很多人都在说,是不是这个硬件行业要迎来一场变革了。没错,这个确实是最近非常火的一个话题, 那我们就直接开始吧。好的,我们先来看看,就是这个 turbo quant 算法发布了之后,这个存储巨头的市值为什么会在短时间内大幅缩水,就是三月二十二号的时候,谷歌推出了这个 turbo quant 极度内存压缩算法, 然后呢,就导致三星、 sk、 海力士、美光这些核心的存储巨头,在短短的四十八小时之内,市值总共蒸发了大概六千二百亿人民币。 天呐,那为什么会这样呢?就是因为华尔街把这项本来是用来优化系统的技术视作了一个硬件杀手。哎,这个 k v cash 到底在 ai 的 这个文字生成的过程当中扮演一个什么样的角色, 为什么它会带来这个所谓的内存强的问题呢?是这样的,就比如说像一个七十 b 的 大模型,在服务五百一十二个用户的时候,仅仅只是用来存储这个 kvatch, 也就是它的这个短期记忆就需要超过五百一十二个 g 的 高速显存。 这是因为每生成一个新的词语, ai 都需要去回顾之前的内容嘛,那这个历史记录就会越来越长,它所占用的缓存就会限性的增加。所以这就是为什么当对话变长的时候, 很快就会遇到这个内存不够用的瓶颈?明白了,那这个极坐标系到底是怎么帮助 ai 的 数据实现这种极速的瘦身的呢?这个嘛,就是传统的迪卡尔坐标系,表示向量的时候,它是需要在每个维度上面都保存一个值的,那这样的话就会有很多熔余。 而极坐标系呢,它是把这个向量用长度和角度来表示哦,然后这个 turboqant 就 发现了,其实 ai 的 数据它的角度是非常集中的,所以它就可以预测, 那这样的话它就可以在极坐标系下面把这个归一化的步骤给省掉,这样的话就可以在不增加任何内存开销的情况下, 让模型的体积大幅的减小。那这个 turboqant 它到底是用什么样的办法能够让这个模型在压缩到这么极致的情况下,还能够保证它的精度不会下降呢?这个说起来就很巧妙了,就是它把这个查询向量依然还是用高精度来表示, 但是呢,他把这个历史的鉴像量啊压缩到了只用伊比特来表示,然后呢,再用一个伊比特的除错器来专门记录这个正负号的残差,再配合上这种非对称的匹配方式,就可以用一个高精度的新的查询去匹配上很多个简化过的旧的记忆。 嗯,那这样的话,就通过这种数学的变换就可以把这个误差给抵消掉,所以他就可以做到再把模型压缩到原来的六分之一,也就是从十六比特压缩到三比特的情况下,还可以让这个模型的运行速度提升八倍, 同时做到零精度损失,完美的突破了这个行业里面普遍认为的四比特以下就会掉精度的这个限制。听起来很厉害啊,那这个 turboqant 算法它的出现到底会怎样推动这个 ai 的 平民化?或者说会给企业级的应用带来哪些新的可能呢?你这就问到点子上了, 就是这个算法出来之后啊,我们就可以在普通的 mac mini 或者手机上面就可以本地离线的去跑这些超大的 ai 模型了,而且还非常的流畅, 这就会让更多的人可以不用依赖于网络,也不用花一分钱就可以去体验到这种强大的 ai。 同时呢,企业级的这种数据库也可以借助这个算法去实现这种毫秒级的高准确率的这种语义向量解锁。 嗯,那这就会让一些之前我们觉得可能只有在科幻小说里面才会出现的这种代理式 ai 成为现实, 就是 ai 可以 帮你去连续的执行几天的这种非常复杂的任务而不会崩溃。哇,感觉这个变化真的是太惊人了,感觉未来的各种智能设备都会因为这个东西变得又聪明又亲民。没错,那这期节目咱们就到这里了,然后感谢大家的收听,咱们下期再见,拜拜!拜拜。

各位观众朋友大家好,今天我们来深度解读谷歌最新提出的 turbo quant 压缩算法对大模型算力、成本、云厂商存储和硬件产业链的影响。先讲三个结论, turbo quant 让大模型推理用六分之一的内存跑出最高八倍的速度,而且几乎不掉精度,不用重新训练模型, 它只压缩 k v catch 注意力里的临时记忆本,不碰模型权重,但等于是同一块 g p u 能接四八倍的对话长度或请求数量大幅提升,单卡产出 k v 开始可以理解为模型在对话中记住历史内容的备忘录, turbo quint 就是 把这个备忘录高度压缩。对投资层面,短期对 g p u 存储是效率提升,但不一定是需求下滑。长期更像 deep sea 时刻是改变 ai 部署成本曲线的技术。立好云巨头与模型平台 对计算与存储需求偏中长期正面,那 tropos 究竟是什么在解决啥问题?先讲背景,大模型推理时,真正的瓶颈越来越不是算力,而是 k v cash。 内存,也就是注意力机制里存历史 token 的 那块缓存,随着上下文窗口变长, 这个缓存空间是限性往上涨的,直接吃掉大量 gpu 显存,导致单卡能接的并发症,上下文长度都被卡死,推理变慢,成本变高。 tropos 针对的就是这块 k v cash, 他把原来三十二比特的向量压到大概三比特,也就是内存占用缩小约六倍,同时把注意力计算本身的速度最高提到八倍,而且在多套基础测试里,几乎看不到精度损失。 这里特别强调,他只改推理阶段的 k v cash, 不 动模型权重,不改训练流程,相当于一个即插即用的推理加速组建。对现有大模型来说,集成门槛低, 我们再看看它是怎么做到六倍压缩加几乎无损。技术上, turboqant 是 一个两阶段的向量量化方案,目标是同时做到两点,一是压得足够小,二是保持注意力里内基运算的精度,不能把模型的理解能力压坏了。第一步叫 polarqant, 可以简单理解为换一种坐标系来压缩它先对向量做一个随机旋转,然后把传统的直角坐标转成极坐标形式,一个角度一个半径,这里角度更多的承载羽翼方向半径,承载信号强度。在这个坐标系下,大部分有用信息可以被更 高效的编码进有限的 bit 里,而且省掉了传统量化里很多昂贵的归一化操作,直接减少了额外算力开销。第二步是 ebit qgl, 也就是 quantize johnson london straws。 第一步之后多少会有一点压缩误差。第二步就是用一个低维随机映射, 把这部分残差压到只剩下加一或负一的一位符号,相当于给每个向量打一个很轻量的纠偏标签,保证内基估计不被系统性拉偏。研报强调,这一步几乎不增加额外内存开销,因为这一比特的校正被吸收到总比特预算里,在相同的比特数下把误差又往回拉了一截, 从信息论角度看,已经接近理论压缩极限。所以 turboqant 不是 简单的多压一点看看效果,而 是在有明确师生上届证明可用的前提下,把压缩做到极致,同时仍然适合在线推理场景,这点是很关键的。从算力经济学角度,摩根式单利的核心观点有三点,第一,这是一次结构性的推理成本下降, k v cash 已经成为大模型推理中成本增长最快的部分, 六倍内存压缩,八倍注意力加速,直接把每个 token 对 内存和算力的占用往下拉。相当于同样的 gpu 集群可以服务更多请求,单次调用成本明显下降。第二,它扩大的是有效 gpu 产量, 未必立刻砍总 gpu 需求。研报判断,短期看,更多是利用率提升,而不是绝对需求下滑。云厂商很可能把腾出来的资源重新投入到更大模型、更长上下文、更大 bug 以及更严格的延迟 s l a 上。换句话说,同样一笔 kpx 可以 支撑更强的模型,更好的体验,推理端的 r o i 被明显抬高。第三,典型的 jevens belloon 会放大总需求。报告里直接引用了 jevens paradox。 当效率提升、单位成本下降时,总体需求往往会上升,而不是下降。每 token 成本降下去之后, ai 服务可以更便宜更大杯很多原来算不过账的应用会更便宜更大杯很多原来算不过账的应用会更下去之后, ai 服务可以更便宜更大杯很多原来算不过账的算力和内存。 同时, turboqant 降低了部署门槛,部分原本只能云上跑的大模型有可能压到本地服务器甚至高端终端上运行,这对私有化部署边缘侧 ai 都是明显利好。那这对云场 gpu 存储和软件的产业链有什么含义? 对云巨头模型平台明确证明,因为每单位质量的长上下,非推理成本大幅下降, roi 明显改善,更容易把大模型做成高毛利、可规模化的基础设施。 同时,像 turbo quant 这种压缩会被直接嵌进平台底层,对上层应用开发者来说是透明的,意味着平台护城核继续加厚。对 gpu 计算芯片报告判断,短期是中性偏正 单任务的 gpu 需求下降,被更大模型、更长上下文、更高 qps 虚收掉,整体 gpu 需求不一定下降。从中长期看,如果长上下文,解锁增强场景爆发,反而会因为更便宜而更普及。对高端加速芯片的总需求拉长周期。对内存与存储,短期看是效率提升, 单位 workload 只改 kvatch, 不 动权重和训练, 整体算内存效率提高,而不是内存用量腰斩。长期同样受 jevens 辩论影响,更多模型更多实力保持在线,更长的上下文和更高的迸发可能反过来推高总体 drm per hour bm 存储需求。 研报定性为中性到长期正面对软件上层应用,这里研报给了一个有意思的角度,因为压缩被做到基础设施层部分做推理优化,压缩工具的软件价值会被平台内升吞掉,在利润池上可能略偏负,但对真正以业务逻辑和数据为护城河的应用来说,这是纯利好。 底层推理成本下降,提高毛利与用户体验。如果我们把 deep seek 看作用更聪明的软件,把同样硬件炸得更干的一次示范,那 turboqant 则是直接针对大模型推理中最核心的 k v cash 瓶颈给出了接近信息论极限的压缩方案。 ai 基建的估值不能只看当下的单次推理成本, 而要看到像 turbo quantum 这样一代又一代的底层技术进步,会不断把成本曲线往下压,同时用 jevens bellun 把需求再拉起来。在这个过程中,云场、 gpu、 内存以及高质量的模型平台都是相对更有定价权的长期受益者。以上就是今天的解读,关注我,带你看懂科技趋势!

拒绝 ai 神话,只讲逻辑事实,我是 ai 降噪现场,带你看懂真实 ai。 你 有没有发现,现在的 ai 聊得越久, 智商就越低?你丢给他一个厚厚的文件夹,他总结出来的东西却丢三落四。这种现象在圈子里有个扎心的名字叫长上下文腐烂。咱们回过头看,二零二三年 g p t 四刚火的时候,他的记忆力只有八 k 到三二 k 个 token, 大 概也就是几篇长推文的长度。到了二零二四年, 五哥的 jamming 一 点五 pro 把这个数字推到了一百万甚至两百万。两百万是什么概念?相当于一次性读完哈利波特全集或者几年的财务报表。但是 这种超能力是有代价的。为了记住你之前说过的每一个字, ai 需要在显存力开辟一块空间,叫草稿纸 k v 缓存。你聊得越长,草稿纸就越厚。这就导致了一个尴尬的局面,如果你想让 ai 保持清醒,你就得买极其昂贵的显卡, 或者支付高昂的 a p i 费用。很多时候, ai 为了省这点纸,只能强行模糊记忆,导致回答变得驴唇不对马嘴。这也是很多模型刚发布的造势期很聪明很惊艳,后期厂商为了成本偷偷降质的原因。谷 歌最新发布的 tableqant 就是 来解决这张草稿纸太厚的问题的。它的原理咱们用初中数学就能听懂。坐标变化。以前 ai 记录记忆世纪横纵坐标 x y, 就 像用繁体字写账本, 占地方。 turboqant 发现, ai 的 记忆向量在其坐标系指记距离和角度恰非常有规律,它通过旋转数据,让大部分记忆都集中在一个极小的角度范围内,既然大家都集中在这个方向,我就只用三个比特精准锁定方向, 再加一个比特的小补丁修复误差,这具体有什么用?以前像 gemini、 一 点五 pro 这种处理两百万 token 的 巨无霸,背后,需要昂贵的显卡集群 才能撑起纳海量的草稿纸空间。备有了 turbo quint 这种六到八倍的无损压缩,但显卡能支持更多更长的任务。对咱们普通人来说,这有两点最实际的利好。首先是长文自由, 因为服务器成本低了,原本让 ai 读一本二十万字的小说,由于显存占用高, api 费用可能要几块钱,技术普及后成本能直接降到几毛钱。其次是本地党的福音,原本你的二 t x 四零九零只能跑千问三点五。 两百七十亿,参数降低精度的四倍的量化版引入 turboqant, 不 仅可以支持更大上下文,甚至还能用省出来的推理内存加载满血版两百七十亿模型。这种冲击力在现实中已经显现在技术圈,论文发布仅数小时, 维拉玛、奥拉玛等大模型部署项目就收到了大量开发者的请求,大家都在急切询问什么时候能引入这项技术。 资本市场同样反应剧烈。就在三月二十六日,由于该技术极大地降低了对王贵内存芯片的依赖,全球存储巨头三星电子收跌百分之四点七一 s k, 海力士更是重挫百分之六点二三。 当然,读者认为,若 turboqant 技术广泛应用,服务费用降低,人们更愿意使用,后续反而会加大内存需求,这就是所谓杰文斯辩论,当技术进步提高资源使用效率时,资源的总消耗量可能反而增加而非减少。当然,这里有两点必须帮大家避坑,防止误解。 第一, turboqant 不 会降低模型智商,它压缩的是运行时的知识储备,你的模型该聪明还是聪明,只是记性变好了。第二, 这事一点也不简单,听着只是简化坐标系加纠错,但真要在代码底层实现还是非常复杂,也有很多细节和临界情况要面对。最后总结,便宜好用的长文本大模型可能真的快来了,我是 ai 降噪现场,一个接地气的严谨派,点个关注,咱们下期接着理性追 ai!

别再给老黄送钱了,谷歌刚发布了 turbopoint, 让你的八 g 破电脑直接跑出四十八 g 顶配夫妻的效果,本机大冒险显存真空压缩时代正式开启,你那张快淘汰的三零六零可能还能再攒一年。谷歌瑞斯尔奇刚出了一个新的技术,它叫 turbopoint。 它最狠的一点不是模型更聪明了,而是它能把大冒险运行时最痴显存的那一部分,直接压缩到原来的六分之一。 原始占用如果说是百分百的话,那压缩后只需要占用到百分之十七,节省了百分之八十五的显存。很多人本地跑大模型,不是模型下不来,而是一加载就报显存。模型越大,上下文就越长,那个短期记忆就越占地方。你可以把它理解为给 ai 的 临时工作期做了一次真空压缩。 我这里引用了谷歌瑞斯写的实测数据,作为一个信源,这里我们可以看到哦。 top 点的精度是五十点零六,它的 k v 看时是二点五,整体的速度提升了将近八倍。 u two 步技术博主也做了一个测试,它称之为 ai 大 模型的拐点到来,七十 b 的 大模型也可以在本地的手机上运行起来,引发了全球开发者的热议。 消息一出,美光闪迪和细节集体重挫。但是存储需求的下降并非是立空,而是 ai 应用爆发的前奏。当算力成本骤降的时候,创新将呈指数级的增长。意味着什么? 不是实验室自嗨,而是普通的电脑等 d ai 长文档的处理,都开始有机会吃到更大的上下文和更强的模型算力。我判断这种 k v 开始的压缩后面。

本地跑大模型的起点终于要来了!就在昨天, google research 放出了一个逆天的研究成果, turbo quant 极速量化算法,它能够在不损失任何精度的前提下,大规模减小模型大小,而且内存消耗减少六倍以上,运行速度 提升八倍。这对于做本地 l m 部署高向量剪索的开发者来说,简直是史诗级利好。我初步看了下论文和相关资料,他用了两部极其优雅的数学策略,首先,利用 polar quant 将 传统的直角坐标系转化为极坐标系,解决了传统量化方法的额外内存开销。第二步,使用 qgl 算法,只用意比特的算力做极限纠错,保证了大模型 attention 机制的绝对精准。实验结果也证明了 turboqant 算法的强悍。在 nih 测试中, turboq 可以 以百分之二十五的 k v 缓存实现零点九九七的完美召唤率。而令人惊叹的是,即使被极度压缩,它的信息提取表现与未压缩的三十二比特全精度原始模型分毫不差,真正做到了零精度损失。在 long beach e 紫级测试中, turboq 可以 将 k v 内存压缩至少四点五倍甚至六倍的同时, 得分仍大幅超越目前的主流压缩算法。在 h 一 百上进行注意力逻辑值测试时,斯比特的 turboq 实现了比三十二比特未量化版本高达八倍的星能飞跃。 有兴趣深入研究的兄弟强烈建议去看原论文,学学顶级算法科学家的思路,我会在精读完论文之后和大家分享更深入的内容。

临冬将至,死道友不死贫道。昨晚一开盘,每股关于内存板块全线崩,全全掉,罪魁祸首就是谷歌发布了一个新的算法,他的算法牛逼到什么地步呢?能压缩六倍内存, 性能提升八倍,这是理论上的,实际上虽然没有这么多,但是他的内存需求总量一定是降低的。这样对我们来说,二手芯片内存这一块一定是 迎头一棒,迎头痛击,冰冻将至。兄弟们,不要再期望你们手里的 pro 还能涨价,不要 期望只是短期技术性调整,再就是早知道消息的人,高手提前退场,剩下我们这些接盘的人,我个人感觉有多快甩多快,或许他会回个头,有人往上顶一顶,但是砸盘的信息已经如此明显了, 人家内存版块的大公司都顶不住,股价都掉这么多,你觉得咱们干二手的这些小卡了蜜能顶得住吗? 是不是短期吸油虽然可能不会下降,但长期一定是往下降的,所以使道友必是朋道,兄弟们能甩多快甩多快!

二零二六年三月二十四日,谷歌发布 turboqant 内存压缩算法,并非新型硬件存储设备,而是针对 ai 大 模型推理环节的 k v 缓存做极致压缩的技术。 该技术公布后,市场担忧 ai 内存需求大幅缩减,直接引发全球 d r a m h b m 相关存储企业股价暴跌。而很多人混淆的 nand flash 闪存与该技术并无直接关联, 这也是本次市场波动的核心误区。先搞懂 ai 推理的 k v 缓存是什么? ai 大 模型在对话、回答、生成内容等推理环节,就要实时记住之前的对话内容上下文信息,才能做到连贯回应。这些临时存储的上下文数据就是 k v 缓存键值缓存,它必须存放在高速运行内存 drm hbm 里, 因为 netflix ssd 手机闪存速度太慢,无法满足 ai 实时运算需求,根本用不上。 turboqant 到底做了什么? 此前, ai 存储 k v 缓存采用的是三十二倍高精度存储方式,就像用超大字号、超精细字体 记笔记,内容精准但极度占用内存空间。谷歌 turbo quant 算法无需对 ai 模型重新训练或微调,直接将 k v 缓存的存储精度从三十二比特压缩至三比特,相当于把长篇笔记精简成核心关键词, 内存占用直接降至原来的十六,推理性能还能最高提升八倍,且不影响 ai 正常推理回答的效果。引发内存股价下跌的核心逻辑 ai 是 当下全球 drm hbm 高宽带内存最核心的需求增长引擎,云厂商、 ai 企业采购大量内存,都是为了支撑大模型推理与训练。 turboqant 技术公布后,市场产生恐慌性预期,原本一份内存只能支撑一组 ai 推理服务,现在能支撑六组,意味着 ai 对 运行内存的需求量会大幅减少,内存厂商的销量和业绩会遭遇冲击。 受此影响,三月两千五百二十六日,主营 d r a m h b m。 的 美光、 k 海力士、三星等企业股价纷纷大跌,而主打 nandflash 闪存的厂商股价受波及程度极小。 关键误区澄清与 n a n d flash 毫无关系。三者本质区别,黑黑缓存 ai 推理临时数据存于 d r a m h b m。 运行内存断电丢失 d r a m h b m。 高速运行内存,负责设备模型实时运算,是本次受影响的核心品类。 nand flash 闪存用于 s s d u 盘、手机存储等, 负责长期文件存储,断电不丢,和 ai 推理的 k v。 缓存 turboqant 技术完全无关。技术影响范围,该技术紧压缩 ai 推理环节的 k v 缓存,不影响 ai 训练阶段的内存需求, 也不减少 nad flash 的 市场需求。短期股价下跌更多是市场情绪恐慌,并非内存行业长期需求逻辑彻底反转。 总结,谷歌 turboqant 是 ai 内存使用效率的优化算法,而非新存储硬件,它通过压缩 ai 推理的临时 k v。 缓存,大幅降低运行内存占用,进而引发市场对 d r a m h b m。 需求的悲观预期,导致相关存储股价跌。 而 nandflash 闪存属于长期存储戒指,和该技术本次股价波动无直接关联,切勿将运行内存与闪存混为一谈。

第一纸靴子终于落地了!前段时间谷歌在存储和大模型推理领域抛出的 turbo quant 涡轮量化技术,如今终于有了第一个真正落地的产品 atomic chat。 简单科普一下,这项技术的核心在于对大模型推理过程中 k v cash 键值缓存的重构与压缩。在传统架构中, k v cash 会随着上下文长度限性增长占用大量显存, 这也是为什么常上下文推理非常容易暴显存的根本原因。而这套新方案通过更高效的张量与缓存优化机制,大幅降低了 kvcash 的 存储开销,能让显存的占用显著下降,并大幅提升推理效率。也正因为这一点,导致近期股票市场存储相关厂商的股价大幅下挫,甚至带动了 ddr 五内存的价格大幅跳水。 我在乞丐版的 mac mini m 四十六 gb 上做了实测,模型选择的是千问三点五的九 b 模型,体积约为四点八 gb。 我让模型连续生成了近一万字的科幻小说,实际的推理速度大约十四 token 每秒,而且整个系统仍然有约两 gb 内存空余。 而对比我之前发布的测试视频,同样的千问九 b 模型在 alame 上只运行了两个简单指令就直接爆内存了。 这下龙虾用户终于也能调用本地模型作为生产力了。通过我的实际测试,已经非常直观地说明,谷歌的涡轮量化显存优化技术可以大幅降低模型在推理阶段的显存开销,第一次使得常上下文对话在小内存设备上顺畅运行成为可能,期待其他软件例如阿拉玛或是 v l l m 也能马上跟进。

内存降价真的是 turbo quint 引起的吗?首先我们需要简单地知道 turbo quint 是 什么。二零二六年三月二十四日,谷歌在 google research 中介绍了这个成果,能降低六倍内存使用,并且推力速度提升八倍,并且经过了社区验证。那么是如何做到这种效果呢? 首先我们需要知道 kv cache 模型生成第二个词源时,要观察前一个词源,生成第 n 个词源时,要观察 n 减一个词源, 就会导致计算量指数级增长,对话越长,推理越慢。 kv 简单来讲就是前文的意思, 需要把如此大的 k v 塞入显存中,成为 cash, 这极大的占用的显存成为向下纹的显存墙。模型的维度越高, k v cash 占用越大。我们可以把 k v 理解成一个前因,就比如今天要加班,并且待遇差,我非常烦。 加班和待遇差就是钱,因而非常烦就是结果。这是一个非常简单的小模型,但是大模型都是超高维度的, k v 很多,并且很乱,怎么办呢?在高维空间里,通过一个正交矩形旋转这些 k v 向量,就会让它们更加的接近高四分布, 增加了 kv 的 可预测性。就好比创造了一个平行空间,我们遇到的不再是要加班待遇差,而是降薪,物价提高。结果同样是我很烦, 但是降薪和物价提高是可以统计总结的,可以统计为每天能攒的钱减少了多少。那么这个统计的行为就可以对焦大模型的量化, 减小了算力成本,增加了推力速度,但是终究不是原来的样子,会有信息损失。于是谷歌利用了一杠 b 的 这个技术来降低信息损失。简单来说,量化是一堆复杂的计算,但是我们记录了结果是变大还是变小, 变大的话就标记一个,一变小就标记一个零,用来提高推理结果的准确度。我们之前提到过,维度越高, k v 占用越大。但习高维有一个很有意思的现象,维度越高,随机正交变换结果越接近高斯分布,可预测性增加了, 我们就能在保证准确率的情况下,更加大胆地去量化。所以现在大模型工程系能更加专注地去提升大模型的维度,维度越高,大模型也会越聪明, k v cash 限制减轻,不过根据杰文斯贝论, 省得越多,用得越狠。未来 ai 用的内存依旧会增加,毕竟高维度的模型也是吃内存的大头,并且这极大地提高了端侧大模型的象限。未来我们的手机等产品可能会为了用向端侧 ai 而用向更大的内存,所以内存需求量是不降反升的。 这个技术只是短暂影响的,股市并不会很快的下沉市场。这次内存条降价其实只是一次高位回调而已。老哥们放心吧,不用向天台,当然要配电脑的,要抓住这个机会,因为后续内存条还会涨。

谷歌 ai 内存压缩技术 turboqant 发布,引爆存储板块恐慌。谷歌最新发布内存压缩算法 turboqant, 并宣称 turboqant 可在不损失准确性的前提下,将大语言模型运行时的缓存内存占用至少缩减六倍,引发市场对存储硬件长期需求的深度担忧。周三美股盘中,存储芯片板块集体跳水, 闪低一度,大蝶六五、美观科技、蝶四吸附数据、焊锡结科技分别跌超四看五,截止收盘,跌幅有所收窄。该技术直指 ai 系统中的键值缓存 kvatch 瓶颈, 通过将缓存压缩至三比特,实现内存占用的显著下降。谷歌采用两步压缩法,先以 pro 光基技术将数据向量转为极坐标,消除归一化开销,再利用 qgl 量化算法修正残差误差。在 gamemaster 等开源模型的测试中, turbo quantum 不 仅实现六倍内存压缩,在英伟达 h 一 百 gpu 上的性能较未量化的三十二位方案最高提升八倍。面对二级市场的恐慌抛售,科尔街同行则展现出冷静态度,认为市场反应过度。 link's equity strategy 分 析师 k c rachiko, 媒体对 turbo quantum 的 报导存在夸大,当前推理模型已广泛采用四比特量化。谷歌宣称的八倍性能提升是基于与老旧三十二位模型的对比, 该技术仅用于缓解算力瓶颈,不会改变未来三五年内存与闪存需求因供应受限而坚挺的格局, 因此维持美光科技七百美元目标价及买入评级,建议在回调中买入。 well fargo 分 析师 andrew roach, 尽管 turboqant 直击 ai 系统的内存成本曲线,但历史经验表明,压缩算法从未真正改变硬件采购的整体规模, 目前 ai 内存需求基本面依然强劲。摩根士丹利原影杰温斯贝伦指出,该算法仅作用于 ai 推理阶段的键值缓存, 不影响模型训练及高宽带内存 h b n 需求。核心价值在于提升单 g p u 吞吐量,让相同硬件支持更长上下文或更大批处理规模。摩根士丹利分析技术效率提升会降低使用成, 进而激发更庞大的总需求。 turboq 可大幅降低单次 ai 查询成本,推动原本仅能在云端昂贵级群运行的 模形象本地迁移,降低 ai 规模化部署门槛,激活更多此前受制于成本的应用场景。同行最终判断该技术重塑 ai 部署成本的应用场景对算力与内存硬件的长期影响中性偏正面,并非立空。以上内容仅作为财经知识分享,不构成投资建议。