最近谷歌发的一个量化压缩的算法简直太离谱了,跟全精度的性能是差不多的,但是它量化压缩到了斯比特,相当于是之前的十六分之一的内存损耗。 它这个算法不光是可以应用在 kvatch 上,也可以应用在模型压缩上面,但是它实际实验和测试基本上都是用在 kvatch 上,可以看到它的斯比特跟它全精度的评分是一致的, 而且在很多时候它用三点五比特和二点五比特,跟之前的完整的 k v k h, 它的性能是差不多的。 我们来详细看一下它这个技术。博克。首先我们说一下这个 k v k h 是 一个什么东西,因为现在很多模型它在运行的时候,它会计算前面的 k v k h, 只要你新的对话进来的时候,你前面的历史记录是没有变的,那么前面的很多计算好的东西你就可以附用,但是前面这个东西你必须要保存下来, 当你前面的这个历史记录非常长的时候,比如说有一百 k, 那 么它的 kvch 的 内存就会非常的大。还有一个点就是当你是多用户或者多任务的时候,那么你前面的 kvch 的 对话肯定有非常多的版本,所以说你存 kvch 的 时候,也需要存为非常多的版本, 那么你的这个内存肯定就上去了。怎么样下降这个的内存,而且它 k v k 的 效果还不会下降,这个就是现在模型推理非常重要的一个优化点,特别是像我们代码 动不动它的上下文就是一百 k, 动不动,它预见的提示词就是几十 k, 你 都还没发消息,它的系统提示词工具这些已经占掉了几十 k, 那 么 k v k 的 优化是非常 重要的。 ok, 他 就说了一下他们这个 turboquat 的 一个工作原理,它主要分成了两个部分,一个部分就是高质量的压缩,把这种向量如何量化到这种低比特,而且不会损失多少。 他们的这个方案是他会去简化了这些数据的一个几何结构,因为之前的几何结构它可能有非常高维的空间,然后方向那些会非常的复杂。 用人话来说就是你有一个面团,他一巴掌把这个面团拍扁了,把它拍到一个稍微大一点的平面,然后再对这一样大一点的各种 k o k h 进行量化压缩,把它量化到具体的比特位,但是量化到比特位的时候,比如说一比特就是零和一, 当它大于零点五的时候,它就直接氧化到一了,当它小于零点五的时候,它就氧化到零了,那么之间的这个误差怎么办?第二个部分就是来降低这个误差的,它应用了一个 q j l 的 算法, 他其实也是用了一个伊比特的压缩,把他换算成了一个方向和他的这个不长,这样的话,因为他是对这个误差的转化,所以说他用伊比特再加上不长的就不会损失掉过多的精度,因为他没有对原始的这种高维信息特别多的进行这种量化, 所以说它的准确度也会非常的高。最终达到的效果就是它跟全量上下文加载在 k v k h 三点五的时候,它的性能是差不多的,并且它的速度会非常的快,三点五接近四比特量化, 那么它比之前的全量 k v k h 十六比特要要节省了十六分之一,所以说它这个性能还是非常亮眼的,可以看到 他用的拉玛三点一八 b 的 来进行测试,完整缓存的十六部比特和他的三点五和二点五比特,二点五比特只损失了一点点,然后三点五比特几乎没有损失, 甚至在有一些上面他还要更好,在这种药物上会稍微差一点点,但是在这个 g b 效果又会更好,所以说他几乎没有任何损失, 而且它的项链压缩至少压缩了四点五倍,这个还是非常离谱的,因为我们跑本地大模型的时候,一般是跑个八币或者十六币,然后三十二币的模型基本上就是要三十二 g, 但是你想要跑到十六 k 或者三十二 k 以上,那么你就得预留出来这么多的一个 k v k 就 相当于三十二币,你就得有六十四币这个运存,那么你才能跑个三十二 k 级以上。但是如果有这个方式的话,六十四 g 的 内存它就可以跑六十四 k 或者一百多 k, 这个还是非常离谱的一个优化了。但是我讲的可能不太好啊,只能说大概把它这个逻辑讲出来了,如果大家对算法比较熟悉的,建议看一下它的原论文的这个逻辑还是非常的精妙。
粉丝1.5万获赞17.4万

压缩算法虚惊一场,这八个字价值万金!兄弟们,我来谈一个非常重要的,对大家马上就有帮助的,叫做压缩算法,这句话很值钱啊,因为在上一周周四的时候,谷歌推出了一个叫 turbo turbo 的 那个压缩算法, 这个说法说能让内存条在 ai 里面的应用见低百分之八十五,就六分之一,比如说突然发现,哦,对内存的消耗见低六分之一,说导致全球 ai 内存市场大幅向下,也导致市场上这块一片绿油油。来,我问大家,你们觉得这是一个 实质性的还是一个阶段性的?哎,这个问题很重要啊,这问题意味着你可以上车下车啊,兄弟们,如果这个行为判断清楚,你下周就可以吃到肉啊。来我我我给大家交流一下,把这八个字打在公屏上面,叫做压缩算法 虚惊一场,这八个字价值万金。兄弟们,你理解清楚了,周一你就可以去上车,两个月你回来会感谢我的,你不管是拿五个 w, 十个 w, 一 百个 w, 你, 周一你们懂的,你去上车,将来几个月你会感谢我的,好不好?你周一会看到 他的深微的这个反弹的,你们一周以后,半个月以后,你过来验证。说实话,我很少对短期的做预测,但我确实觉得这个有点过分了,这是个机会啊, 因为存储芯片就是个篮子,它把这个一个纸张丢进篮子之前,它把它捏了一把,捏了一把丢进去,让那个同样幺二八或者 e t b 二五六 或者五幺二的内存装的更多。但这个算法的话呢,确实提高了存储效率,但不影响存储的需求。为什么不影响?因为现在存储的需求根本就满足不了这第一个,第二个,我专门看了调研报告, 它还会增加 a i 公司的盈利,做到了蒸馏模型,它有点像这个, 它其实会增加 ai 企业的盈利性,并没有影响内存条的需求。说减了虚惊一场,就意味着现在是一个叫倒车接人叫上车的最佳时机节点。你现在在周一,你上车在未来一段时间应该是可以期待的。我希望你把我这句话的信息含量、含金量你去消化下,变成你自己的真金白银。 说想要跟我学习的链接的,你就拍右下方的课程啊,我这个课是全网非常受欢迎的减创业、减营销、减头的课程, 点教你上半场创业下半场头的课程。这课程是叫做抓住科技龙头,赢在重铸时刻的课程。两天在深圳南山区面对面的课程,在这个科技创富的时代,教你抓住科技龙头,赢在重铸时 刻。我这里面讲了中美科技的博弈,还有国产代替的机会,以及大草原上面四十家算力公司、芯片公司、关联公司的业绩、 盈利、订单的真实性、技术的前瞻性,全部给大家分析,说我们这个卖点就足够做这个都价值万金。我们的课叫做思贤的盛宴,财富的密码,大家抓紧时间去拍,你不拍的话,这是我四月份最后一期课程,再要买的话就要到五月中旬了,因为五一有假期, 是一人一票,一课一次,我的课远远超越这个价格,我的课你希望你又知道,卖四万九千八都值的,这是价值万金的课程,我这里太多人带着他夫人一起来听课了,现在带的小孩都是要买票的,我这里最高的学员是复训了九次,我复训也要花钱买票,说我这个是课程里面的茅台啊。 尤其投资部分讲的非常精彩,我的投资会分析中美的宏观趋势会在哪一个板块展开, 我会讲高风险高回报的一些饼圈的投资,更多会讲我们 a 股、大 a 市场科技股、芯片股的投资,说这是全网好评如潮,复训率非常高的课程啊。两天面对面在深圳南山区的课程啊,两天,你们抓紧时间去拍了。去拍了啊。

就在内存价格一路狂飙的时候,谷歌的一篇新论文直接把美股内存板块干崩了,连 call 泪儿 ceo 看后都惊呼,这是谷歌的 deep seek 时刻, deep seek 用极少算力训出了顶尖模型。而谷歌这次放出的超级大招 turbo quint, 是直接让 ai 推理的内存需求打了个骨折。这项技术到底牛在哪里呢?简单来说,就是以前 ai 在 处理长文章或陪你聊天时,为了方便翻找,会像学霸一样把关键信息写在小抄上,也就是 k v 缓存。但如果小抄写得太详细,就会占满内存,让 ai 变慢,还特别费钱。以前的压缩方法就 像是强行把字写小,但这样 ai 不 仅容易看错字,还得去记缩写规则,反而更麻烦。那谷歌这次是怎么破局的呢? turbo quint 甩出了两个神操作。第一招 power quint 技术,可以理解为换个姿势记笔记。以前 ai 记位置用的是坐标系,比如向东走三步,向北走四步,麻烦又占地方。现在谷歌让他直接记, 朝三十七度方向走五步。就这一个视角的转换,直接省下海量空间,还绝对不会认错。但只要是压缩,总会有点小误差,对吧?这就引出了他的第二招 q j l 技术,只用一个符号纠错,他仅仅用一个正负号,就把压缩后的一点点瑕疵神奇的抹平了,零额外内存开销速度快到飞起。那这两套连招打下来,结果有多恐怖呢? 运行的 k v 缓存直接从三十二位压缩到三位,内存直接少用六倍以上。在英伟达 h 一 百显卡上,它的注意力计算速度快了八倍,最夸张的是回答准确率完全不下降,而且不需要重新训练,模型拿来就能插上用。在这个内存价格动辄暴涨,全网都在焦虑算力成本的时代,谷歌这是又扮演了一次救星吗?

你显卡算力明明够,跑长文本却总是爆显存?谷歌刚丢出一个革命性压缩算法 turboqant, 不 仅直接杀进人工智能,顶会 iclr, 甚至让几大存储芯片巨头的股价跟着跳水。 今天直接讲透三件事,你的显卡为什么会卡死?谷歌怎么把显存压到原来的六分之一,以及普通消费级显卡现在到底能不能用? 很多人跑大模型有个错觉,以为主要拼的是显卡的计算能力,但在推理阶段,也就是模型给你往外蹦次的时候,真正的卡脖子环节,根本不是算力,而是内存强。 为什么会被内存卡住?大模型生成下一个字时,必须频繁回顾前面说过的话。为了不重复计算,工程师弄了个 k v k h, 你 可以把它直接理解为大模型的短期记忆草稿本,他把前面算过的重点记下来,随时查阅,不用每次都从头读一遍。 制定问题就在这个草稿本上。它的占用空间是随着你的文本长度直线上升的。模型本身的参数占用是固定的,就像你租个登间房,租是死数字,但 k v catch 就 像是来一个字,就得往屋里塞一张行军床。 你输入的文档越长,房就越多。我们拿一张二十四 g 显存的 r t x, 三千零九十算一笔账, 跑个大模型,人体可能只占十几个 g, 你 以为还是挺多?这时候你塞进去几万次的长文档 k v catch, 分 分钟就能吃掉剩下所有的显存行军床,把屋子塞爆了,程序直接崩溃。这就是你遇到 o o m 的 全部真相。为了这样显存,传统的做法叫量化, 就是把模型里三十三位的高精度数字砍成八位、四位甚至更低。他的核心逻辑非常暴力,通过牺牲一丁点精度,换取巨大的显存空间和数据吞吐效率。 但传统量化有个致命的代价,为了让压缩后的数据还能被正确还原,每一小块数据都必须配上一本说明书,技术上叫缩放因子和零点。没有这些元数据大模型就读不懂这些被压扁的数字。 当你尝试把数据压到三比特这种极限时,诡异的事情发生了。数据本身已经很小了,但那本说明书的大小是固定的,最后会出现说明书比货还重的情况。你费劲压缩了半天,整下来的空间全被这堆原数据给填回去了。这就是传统量化搞不定极限压缩的根本原因。 谷歌这次出的 turbo quant 最狠的一招就是他把这本说明书给删了,他实现了真正的零元数学开销。既然说明书占地方,那就干脆不要说明书,从数学底层直接把这块现存给省出来。 他怎么做到的呢?第一步叫高维随机旋转。你可以想象,传统数据是堆奇形怪状的石头,想装盒就得给每块石头贴标签。谷歌直接把所有石头扔进一个数学搅拌机里疯狂打散。经过这轮旋转,所有输出的数据都会变成极其均匀、完全可预测的形状。 这步非常关键,既然搅拌后的数据全都长的一模一样,都是标准的数学分布,那我们就没必要给每一块数据都贴标签了。系统直接准备一套标准模具去套就行,因为形状是完全可以预测的,那本死沉死沉的说明书也就彻底失去了存在的意义。 这就是 tablecent 能把显存占用直接压低到六分之一的物理基础。它不仅压了数据,还顺手消灭了所有附加开销。 但问题来了,压的这么狠,大模型推理时真的不会满嘴胡话吗?接下来看谷歌打的第二个绝妙补兵。 刚才我们解决了怎么把显存压到极限,但一个最直接的问题是,都压到三比特这么低了,大模型推理时难道不会因为误差太大开始胡说八道吗? 谷歌在这里打了第二个非常聪明的补丁,在计算注意力的时候,它不是让所有东西一起低精度硬算,而是让未压缩的高精度 query 去配合压缩后的 key 一 起工作,相当于让一个眼神好的去扶一个眼神差的,用高精度的一方去兜住低精度一方的误差。 这个揪片动作开销极小,仅仅用到了一个一倍的补丁。他不是要把所有压缩带来的误差全部消灭掉,而是在最关键的注意力得分环节偷偷修正一下,确保狄比特带来的细微偏差不会在后面的计算中被一路放大,最终导致结果崩盘。 所以现在我们就能完整理解了 turboqant 分 了两步走,第一步,高维旋转解决了,怎么在极限压缩下扔掉说明书,把剪存榨干。第二步,精度纠偏解决了,压完之后怎么让模型别发疯,这两步合起来,才让它实现了看起来压得狠狠,但精度还非常稳的神奇效果。 论文讲完了,直接看 github 社区的开发者实测。在对 mister、 七 b、 q n 这些主流模型的测试里, avcatch 的 内存占用确实缩减了三点八到六点四倍。显存狂讲这点,谷歌确实没有吹牛。这个数字意味着原本在十二 gb 显存,比如 rtx 三千零六十上跑长文本就喘气的模型,现在即使跑到三十二 k 这种级别的上下文也能变得极其丝滑。 过去想都不敢想的事情,现在有了现实的可操作性。在这里要强调一点, turbo quantum 的 主要是 kb cache, 也就是那个动态增长的草稿。本模型本身的权重大小是固定的,所以它不能把一个超大模型凭空塞进一张小卡里,但对常上下文推理的体验改善是立竿见影的。 接下来看最关键的,精度社区普遍用一个叫大海捞针的测试来检验,简单说就是把一句关键信息埋在一大堆乱七八糟的长文本里,然后看模型最后还能不能把它精准的找出来。 这本质上就是在测模型的长文本记忆力有没有被压缩搞坏。实测结果非常惊人,在三 bit 甚至是部分二点五 bit 的 triple quantum 版本上,模型几乎都能做到完美找回。 这说明他对长上下文注意力的核心能力破坏非常小,你几乎感觉不到这是一个被严重压缩过的模型。 这个结果意味着 turboq 不是 那种账面上压缩很漂亮,实际一问就胡说的发架子方案。他真的有机会让我们在不明显牺牲回答质量的前提下,换来更长更有用的上下文窗口。最后来看速度。谷歌官方宣称在 h 幺零零显卡上注意力计算速度能飙升八倍, 但在社区开发者的实测中,比如在 a 幺零零或者苹果 macbook 上,目前普遍只能跑到一点八五倍左右的加速,甚至只是勉强追平传统的八倍的量化。为什么差距这么大?因为八倍的极限速度不止取决于算法本身,还取决于极其底层的硬件优化, 这包括专门为硬件写的算子、内核实现、编程等等。论文理能跑出来的极限速度,往往依赖谷歌内部量身定制的方案,普通人拿开源代码直接跑,肯定达不到实验室级别的极限。所以,如果你今天看中的是能不能在更小的显存上跑更长的上下文,那 turboqant 已经非常有价值。 但如果你期待的是开源代码一装立刻就能获得八倍的推力加速,那现在还不现实。所以, turboqant 短期内最现实的意义不是让硬件厂商失业,而是让你手里的同一张显卡能承担过去跑不动的长上下文和更复杂的工作流,比如长文档问答、解锁增强或者 ai agent 这种原本特别吃 k v k 值的场景。经济学里有个杰文斯辩论, 当一样东西的使用成本大幅降低时,人们反而会更加疯狂地消耗它。 turboqant 节省下来的显存绝不会被我们闲置,而是会被立刻用来跑百万级甚至更长的上下文。 最终,如果你是一个普通开发者、学生或者 ai 爱好者, turboqant 这类技术的出现真正意味着很快你手里那张普通的消费级游戏显卡,甚至是 macbook 也能毫无压力地运行 那些原本只有企业级服务器才能跑得动的长文本超级 ai, 这才是真正把 ai 推向千家万户的幕后英雄。

三月二十四日,谷歌研究院发布内存压缩算法 turboqant, 可在不损失精度的前提下,将大语言模型推理时的 k v cash 内存占用减少至少六倍,并在 h 一 百 gpu 上实现最高八倍的注意力计算速度提升。该成果将于下月 i c l 二二零二六会议正式亮相。消息引发全球存储芯片股剧烈震荡。 三月二十五日至二十六日, s k。 海力士、三星电子、美观科技等巨头市值合计蒸发超九百亿美元,闪迪单日跌幅达百分之十一。华尔街分析师普遍认为市场反应过度。摩根士单利指出,该技术仅作用于推理阶段的 k v cash, 不 影响训练需求和 h b m 市场, 且效率提升可能因杰文斯备乱反而刺激更多需求。目前全球内存供应仍高度紧张,也曾预计 q 二 d r a m 价格环比上涨百分之五十一。业内将这一成果称为谷歌的 deep seek 时刻通过极致效率优化拉低 ai 运行成本,但存储芯片长期需求逻辑尚未发生根本性转折。

谷歌下场造了一个大模型神级压缩算法,昨天一千多万人围观开盘,直接带崩了美光、闪迪这些存储芯片巨头。简单来说,它是一种把 ai 记忆占用压缩六倍、推理速度提升最多八倍,几乎不损失准确性的神级压缩算法,目标很明确,让大模型变得更小、更快,还更便宜。它彻底重构了 ai 的 成本结构, 而且它不只是压缩,还能让上下文能力大爆发。这个算法通过两步神操作实现无损压缩,先用核心步骤锁定向量的主要特征,再用简易比特的数学纠错机制消除微小偏差,最终达到近乎完美的零精度损失。 这意味着,你那台十六 gb 内存的 mac mini, 现在就能在本地免费安全地跑超强大的模型手机流畅运行,高质量 ai 也马上将成为现实。短期看,内存芯片厂商确实成压,但长期呢,单位内存需求下降,但应用爆发带来的总需求会飙升。 turboqant 解决的是效率问题,它打开的是 ai 普及的闸门。

谷歌新论文直接把内存股价干崩了!刚刚,谷歌研究院推出全新的 turbo quant 压缩算法,把大模型中最吃内存的 kvatch 压缩到三比特,内存占用降六倍,推理速度快八倍,精度还零。损失。 消息一出,市场的解读简单而粗暴,大模型的长上下文推理,以后不需要那么多内存了,立空内存。于是,存储概念股硬生生下跌,闪迪一度跌达百分之八,美光一度下跌约百分之五, 跌归跌,科技圈却将这一技术追捧为真实版 pidpiper, 甚至高呼是谷歌版 deepseek。 那 为啥 turboqant 这么重要呢?咱们得先理解 k v catch 到底是什么。 要知道,大模型在跟你聊天、写文章时,必须记住前面说过的所有内容,才能继续往下生成,那这些临时记忆就是存在 k v catch 里。所以 k v catch 就 相当于模型的临时草稿纸,对话越长,上下文越多,这张草稿纸就越大。特别吃内存是 ai 运行成本的一大块, 传统的解决思路是向量量化,把高精度数据压成低精度表示。但尴尬的是,大部分量化方法本身也需要存储额外的量化常数,每个数字要多占一到两个比特。 而谷歌的 turbo quant 则能在几乎不损失模型效果的前提下,把 kvatch 压缩到三比特,内存占用降六倍。同时,在英伟达 h 一 百上四比特, turbo quant 比三十二比特未量化版本还快了八倍。所以不只是省,内存还更快了。 最关键的是,他不用重新训练或微调模型,直接就能用,落地门槛很低。 cloud flair ceo 评价这是谷歌的 deep seek 时刻,因为他认为 deep seek 证明了用更少的资源也能训出顶尖模型。 turboqant 的 方向也类似,用更少的内存也能跑同样质量的推理。不过 turboqant 只解决推理阶段的内存问题, ai 训练环节完全不受影响,所以短期看肯定是立空存储股的,但长期看是打破了 ai 推理的内存瓶颈, ai 能渗透到更多更广的场景,这可能就是 ai 全民化的潜夜。

现在的存储圈正在面临历史上最诡异的剪刀厂。今年三月二十四日,百威存储砸出一百零八亿去锁金元才能,这其实是典型的重资产防御,我预判了物理才能会稀缺,所以我提前去买断生存权。但在同一天,谷歌发布的 cherry queen 却在告诉全世界, 物理容量正在贬值,算法效率正在膨胀。那你可能会问,哎,这个算法那么牛,存储是不是会降价的? 错,效率越高,欲望越爆。当 ai 成本降低六倍, ai 的 应用场景会增加六百倍, 短期因为这个消息,市场可能会发生震荡。但长期来看,存储市场不是在萎缩,而是经历一场从卖斤两到卖性能的权力总共。而这场博弈落到咱们国内的市场,最扎心的其实是鲜货商和贸易商。如果你还在按以往的逻辑觉得大容量即是正义,那你就危险了。 算法强了,普通大容量的颗粒的溢价空间就会被迅速的挤压。未来硬通货不再是容量,而是贷宽能跑得动,顶级压缩算法的极数量才是未来五年的刚需,那些傻大黑粗的旧模组可能会变成无人问津的 负债库存。对咱们国内的终端工厂而言,如果你没有钱像大厂那样锁一百亿的货,那你的出路我觉得只有一条,采用国产替代芯片,配合国内研发的暴力减负算法,用十二 g 的 成本跑出三十二 g 的 性能。 这不叫缩减开支啊,这叫规格降维打击。你们怎么看?关注我,了解最新行业的资讯!

今天存储圈算是炸锅了,你猜怎么着啊,谷歌搞出了一个叫 turbo quant 的 压缩算法,直接把大薄型运行的那个 k v 缓存啊,压缩到了原来的六分之一了,而且呢,还有更劲爆的是速度还提高了八倍, 哎,更绝的是啊,有开发者呢当天啊,他就在自己的电脑上去验证啊,因为不太姓习嘛,自己验证验证的结果啊,我告诉你,他用梁比特的精度能跑伽马模型输出和没压缩的版本啊,居然是一字不差, 也就说他这个是可行的,现在乱地上已经是炒成了一锅粥了,大家哎,都在发表自己的看法,这个消息出来啊,美观西部数据还有细节,他们的股价是唰的就往下掉啊,哎,可以说呢,资本市场是吓坏了, 他们判断是这样,他说以后如果是这样的话,那么,哎呀,不需要那么多内存了,是不是根据这个理论嘛,就明显是这样的嘛, 那你说这帮群主巨头呢,还怎么赚钱,这一资本怎么办?哎呀,其实我觉得他们多虑了啊,真正叫什么叫做谋师者比啊,未能远谋,你看这些资本啊,哎呀,就是做的那个大的 house 里面,然后做的 ppt 非常漂亮,但是他们真的对产业的底层的逻辑他们是不了解的啊,就是这个事出来之后,有人激动,有人冷静, 但是呢,哎,我问你啊,这个事有那么厉害吗?你今天就听我来说一说吧,我算是这个行业里面的老人了,而且也是一个有一定见数的一个算专家吧。我告诉你啊, 以这个冷静的来说啊,就算这个谷歌的这个论文真正能够实用啊,因为现在还没有实用吗?真正能够实用之后呢?你也不用紧张,有啥好紧张的呢? 就是有一个词叫什么叫杰文斯贝勒,你懂吗?就是你效率越高的时候呢?哎,不但是使用量不会下降,反而总量要增加,要暴涨。就跟那个煤炭在蒸汽机发明了以后,大家都认为说有完了,煤炭是不是用量要减少了,但是不是这样的,结果大家发现我靠煤炭的用量反而越来越大了,你知道吧?那现在也是这样的,你想想看,现在我们 一百万 top 已经是到顶了,大家都认为说再往前走的话,那个不说不能做,能做成本太高,因为存储不够用嘛。可是现在呢?如果这个技术有了之后呢?那么你会不会想要追求一千万 top 呢? 来自于一个亿 top 呢?甚至永久记忆。你要知道我们人类对记忆的追求是永无止境的,虽然我来说我都希望是永久记忆啊,就我们所有的数据都要永久保存。那你说如果是这样的话,要让每个 ai 都变成一个伙伴,一个助理, 这得吃掉多少存储啊?再说了,整个数字经济这个大背景下,远非一个 ai 所能囊括的,可以说千行百业现在都在往数字化上转型。你比如说数据集建设聚生机器人,数据采集, ai 短距,还有医疗,金融、财税,还有法律这个裁判 全都要求这些数据,如果要求他们都能够永久保存的话。你想想一个病人家属要查二十年前的一个呃,就诊的记录,一个会计师要查二十年前的这个跟你有关的一个账本,一个法官呢,要调查二十年前的一个叛逆, 这些需求你看要吃多少存储,要知道现在没有这么长时间的保存喽。你去查查看啊,一般保存都到不了这个时间啊。所以啊,你别看谷歌这个技术理论上是让存储瘦身的啊,但是呢, 根本的判断就是长期缺存储的判断是不会改变的,你信我好了, 他瘦身的,瘦的只是单个任务,在使用存储上面会减少,但是撑爆的是我们人类整个的存储需求会撑爆掉。所以我告诉你啊,存储这个风口才刚开始呢,刚刚开始你记住啊,哈哈哈,就是这么触手可及。

一篇谷歌的论文 turbocon 的 压缩算法竟然引发了今天的内存行业惨案。此算法一出,内存股应声大跌。为什么呢?因为 turbocon 把 kvatch 的 内存占用压到了原来的六分之一,推理速度最高提升了八倍,而且几乎零精度损失。 这意味着,原来需要一台一万美元的工作站才能跑起来的大模型,现在用一台 macbook 就 能跑了。原来四十 g hbm 才能撑起来,在百万上下文,现在六 g 就 够了。 原来企业不敢部署的常驻 a 代理,现在成本直接能砍掉一半。然而重点来了, turbocharger 并不能导致内存需求崩盘,反而是会推动 ai 规模爆炸。历史已经早就证明了这一点。当年福来社 tencent 让注意力计算快了十倍,结果不是 gpu 的 需求下降了,而是 ai 训练的规模直接翻翻了。 所以这回的 turbo box 也是一样,内存瓶颈被突破,导致上下文从百万走向无限,导致模型从中心化走向边缘化,导致 ai 应用数量从指数级增长。 从长期看, h b m d r m s s e 的 需求只会更夸张,因为效率的提升并不会让需求下降,只会让更多人更大规模、更长上下文的使用 ai。 这就是典型的杰维斯辩论。而且啊, turbo box 它也不是魔法,它是有代价的。 第一,他用算力换内存,随机旋转 mac 一 旦化 qgl 校正,这些步骤都会增加,每个 toky 的 计算量短,上下文甚至可能会更慢。第二,他的工程门槛太高,需要自己一坑呢,额外的原数据跨平台适配,所以短期内不太可能全行业普及。 第三,压缩 k v cash 开始可能会带来选择性遗忘,系统提示更容易被覆盖,越狱风险上升,所以必须重新评估安全性。 so turnlock 它的本质并不是什么内存革命,而是效率提升,它不但不会摧毁内存行业,反而是会让 ai 的 规模化速度再提一档。 眼下顶级内资厂商都在玩命破产,未来的三到五年,新厂房、新产能那才是主旋律。那你觉得那些瞎逼逼的所谓专家,他们会比干了几十年的老行尊们更专业吗?想想他们为什么这么说,脑子呀,得多转几个弯点亮智慧人生吧。

炸了!谷歌刚发布了一项让 ai 界沉默的技术大模型,最大的瓶颈不是算力,是内存。每一次推理, kv 缓存都在疯狂吞食资源。谷歌的 turbo 扩耳听,一个近乎暴利的方案解决了这个问题, 把高维向量压缩到三个比特,精度损失为零,速度提升最高八倍,内存直接砍到六分之五。这下内存不再是至于 ai 的 门槛,未来低内存的端测, ai 可能迎来新一轮计划。好了,关注我,每天都有 ai 新资讯。

哈喽,大家好,昨天谷歌发表了一个内存压缩技术,那这个技术出来呢,也是让各家存储公司都出现了比较明显的下跌,比方说呢,美光在前几天的跌幅上又继续跌了百分 之四,那另外像是海力士也跌了百分之六,所以呢,两倍做的海力士跌了百分之十二。那谷歌这个内存压缩技术到底是什么呢?我们就来分享一下现学的知识。那首先在我们使用大模型的时候,其实这些大模型都会生成一个叫 kvatch 的 东西, 全称叫做 key value cash。 那 听这个名字估计也能够有一个初步的了解,它的作用就是把一些关键的东西给记住。那在你使用大模型的时候, k v cash 的 作用其实就是把你问的问题以及他给的答案, 甚至他的思考过程都给记下来,那简单理解,你就把它当做是大模型的一个临时的草稿本,那也正是这个 k v cash, 它是在模型的推理阶段用到内存最多的东西,也就是为什么当前 整一个 hbm 的 需求那么高,都是因为这个 kv cache。 那 现在谷歌最新的技术呢?说是可以把 kv cache 它所占到的内存减少到原来的六分之一,也就是说既相同的东西不需要那么多内存了,那这个简单的看下来,当然可以被理解为对于存储的需求 就会变少了,如果其他条件不变的情况下,不过呢,整个事情也可能没有那么简单,比方说既然它的 kv cache 所占到的内存变少了, 那是不是在原本相同的内存下,他能够记得上下文就变多了,所以呢,这个技术的出现,他其实可以在对存储需求不变的情况下 增强大模型的能力,因为他占到了内存缩小了六倍,所以说他可以记住更多的东西。而且如果通过这个技术让所有大模型整体的能力变强的话,其实大家对于存储的需求,对于各类芯片的需求, 同样也是会增加的。所以呢,也有人会联想到去年年初的 deepsea moment, 虽然说 deepsea 让整一个模型训练的成本降低了,但是更低的成本并不意味着总需求的减少,而是意味着有更多的人可以参与到里面来。

谷歌扔出一颗科技炸弹,内存股瞬间集体大跌,市场一片恐慌。都说 ai 要省六倍内存,内存行业要凉了,但我直接说结论,这纯属无脑情绪。啥内存行业不仅没危机,长期刚需逻辑一点都没变。 咱们先把这件事说透,不带任何偏见,只讲公开消息。财联社刚官宣,谷歌推出了一款叫 turboqant 的 ai 压缩算法,主打就是降低大模型的内存占用。说白了,现在 ai 大 模型运行的时候,有个叫键值缓存的东西,就像 ai 的 临时草稿纸, 上下文越长,草稿纸越占内存,成了算力瓶颈。谷歌这个算法不用重新训练模型,直接把这块缓存压缩到三比特精度,能省六倍缓存内存,在高端显卡上还能提升八倍运行速度。测试了多款主流开源模型,效果都很稳, 谷哥打算四月的国际会议上正式展示这项技术。小喜一出,美股内存股立马跳水,美光、西部数据这些巨头纷纷大跌, a 股相关个股也跟着成压,市场恐慌情绪直接拉满。 大家恐慌的点很简单,省六倍内存, ai 就 不用买那么多内存了,内存厂商要完蛋。但这个逻辑从头到尾都是错的, 咱们一层层拆穿。首先,这个算法压缩的不是全部内存,只是一小块临时缓存。很多人把键值缓存和整机内存划等号,这是最大的误区。 键值缓存只是 ai 运行推理时的临时存储空间,只占 ai 内存需求的一小部分。模型权重、训练环节、整机运行内存这些核心内存需求一点都没减少,它省的是临时草稿纸的空间,不是把整个笔记本都扔了。 其次,省下来的内存会被暴涨的 ai 需求直接吃掉。现在各大厂商都在疯狂做大模型,涨上下文,从几万上下文冲到几十万、上百万,缓存占用量本来就在几何级增长,就算省六倍内存, 只要上下文再扩大几倍,内存需求不仅没降,反而还会涨。而且算法优化后, ai 运行更快,成本更低,会催生更多 ai 应用,反而带动更多算力和内存采购,相当于修路变快了,车会变得更多,路的需求只会更大。 再者,实验室技术不等于大规模商用,落地周期几场,这只是谷歌的一项技术成果,还没正式公开落地。 从实验室测试到云厂商, ai 企业大规模商用至少要一两年甚至更久,期间还要适配不同硬件、不同模型,解决稳定性、兼容性问题,根本不是马上就能普及、立刻冲击内存需求的黑科技。最后,内存的应用场景根本不止 ai, 大 模型、 手机、电脑、服务器、公控设备、智能硬件全都是内存的刚需场景, ai 只是其中一个增量市场, 就算 ai 推理缓存省点内存,其他场景的需求还在逐步增长,但一技术根本撼动不了整个内存行业的基本盘。说到底,这个算法是 ai 算力的优化工具,不是内存的替代品, 是锦上添花,不是釜底抽薪回归产业本身。针对这项新技术,给大家理清几个客观认知,避开市场误区。 第一,市场恐慌属于情绪性过度反应,大众容易把局部技术优化放大成整个行业的颠覆性冲击,忽略了技术落地场景适配的客观限制,属于典型的片面解读。 第二,内存行业的核心需求逻辑未变。 ai 产业的核心增量在于大模型迭代算力、基建扩张长上下文普及单一缓存优化技术,撼动不了全区内存需求的基本盘。 第三,认清技术的真实定位。这项算法是 ai 算力的优化工具,能推动 ai 产业降本提速,属于产业升级,并非内存的替代技术,长期对内存行业属于中性影响。 觉得干货科普有用的点赞关注不迷路评论区聊聊你对这项 ai 压缩技术的看法,下期继续深挖硬核科技产业逻辑,继续跟旭哥絮絮叨。

今天 a 股存储板块出现明显调整,和昨晚美股存储板块的下跌形成直接联动,核心原因就是市场对谷歌最新 k v 缓存压缩技术的预期冲击。谷歌这项技术通过 turbo quant 量化压缩算法, 在不重新训练模型的前提下,将 ai 推理核心的 k v 缓存从常规精度压缩到三倍,同时基本保留模型效果。在开源模型上可实现约六倍的内存压缩率,在 h 一 零零芯片上推理性能最高提升近八倍。 这一技术一旦成熟落地,会直接改变 ai 算力对存储硬件的需求结构。当前 hbm 高带宽内存、 nnd 散群都是 ai 大 模型训练与推理的核心支撑, 缓存压缩技术大幅提升存储利用效率,会直接虚弱市场对大容量、高带宽存储的增量预期,进而压制整个存储产业链的固执逻辑。 后续重点观察两个关键点,一是今年四月谷歌在国际学术会议上公布的真实落地效果,二是国内主流芯片与模型厂商的适配进度。

谷歌近日推出了一种可能降低人工智能系统内存需求的压缩算法 turbo quint。 根据谷歌介绍, turbo quint 压缩技术指在降低大语言模型和向量搜索引擎的内存占用。该算法主要针对 ai 系统中用于存储高频访问信息的键值缓存 tu value cache 瓶颈问题。 随着上下文窗口变大,这些缓存正成为主要的内存瓶颈。 turbo quint 可在无需重新训练或微调模型的情况下,将键值缓存压缩至三比特精度,同时基本保持。模型的测试显示,该技术可实现约六倍的键值缓存内存压缩效果。 此外,在英伟达 a 七零零加速器上的测试结果显示,与微量化的键向量相比,该算法最高可实现约八倍性能提升。研究人员也表示,这项技术的应用布局限于 ai 模型,还包括支撑大规模搜索引擎的向量解锁能力。谷歌计划于四月的国际学习表征会议 i c l 二零二六上展示 tablecloth 的 技术。

今天咱们要聊的呢是一个来自谷歌的新技术啊,这个技术呢叫做 turboqant, 它是一种可以用来压缩大语言模型的 k v 缓存的技术, 然后它可以让 ai 的 推理速度提升八倍这么多,同时还能够降低成本,并且让模型的部署更加灵活。没错没错,对,这个技术最近也讨论挺多的,那我们就直接开始吧,咱们先来聊一聊啊,就是这个 turboqant, 它到底是怎么解决大语言模型在推理过程当中遇到的一个内存瓶颈呢?行, 其实啊, turboqant 它就是专门瞄向了这个 k v 缓存的,因为这个 k v 缓存是模型在生成内容的时候用来记住上下文的临时小抄。对,然后当你的这个上下文变得很长的时候呢,这个 k v 缓存就会特别吃显存。明白了,那这个技术具体是怎么做到高效压缩的呢? turboqant 它是用了一个两步走的量化方案, 第一步他会把这个向量数据转成极坐标,这样就可以高效的捕捉到这个主要的信号。接着第二步再用一种叫 q j l 的 数学方法,把压缩剩下的误差修正掉,然后他就可以把这个三十二位的数据压缩到差不多只有三位。 哇,这样的话就可以让这个内存的占用减少到原来的六分之一,同时呢计算速度还可以提升最多八倍。而且他还有一个非常厉害的地方,就是他不需要重新训练模型,直接就可以用,然后准确率几乎没有任何损失,真厉害! 那下面我们再来看看,就是这个 turboqant, 它的这个实际应用会带来哪些影响?以及对这个算力和内存的市场会带来哪些变化?好的, 其实这个技术它就是直接改变了这个推理的这个经济账嘛,就是原本这个 k v 缓存是最容易卡住的地方,现在呢,内存的需求大大降低了。对,那就是说现在同样的一块 gpu, 它可以处理更长的上下文了,或者说它可以同时服务更多的用户了。 听起来感觉就是大家对于硬件的需求应该会变少啊,但是这个好像跟实际情况不太一样,怎么回事呢?对,这个就是很有意思的一个点,就报告里面提到了这个接文思辩论,就说效率的提升反而会刺激需求的增长。 所以就是说,呃,超大规模的云厂商,他们可能会把省下来的这些资源用来跑更大的模型,或者说去接更多的请求,嗯,或者说去让他们的服务变得更快。 所以就是说啊,这个对算力和内存的市场短期是一个中性偏正面的影响,长期来看是一个非常大的利好。那这个东西对于 ai 部署的成本和部署的方式会有什么影响呢?就这个技术,它其实就是把 ai 部署的这个成本曲线往下拉了很多,就是原来可能只能在云端跑的一些大模型,现在也有机会可以放到边缘设备上去跑了。 对,所以就是对于超大规模的云厂商和模型平台来讲,这就是一个实实在在的可以提升投资回报率的一个机会。 ok, 我 们今天聊聊这个 turboqant, 它是怎么通过压缩 k v 缓存来让这个大语言模型的推理又快又省,同时还能让大家在使用 ai 的 时候更灵活,成本更低。

最近科技圈出了个大新闻了,直接把内存股给干崩了。谷歌新算法一出来,闪迪一度跌百分之八,美光也跌了大约百分之五了。这到底是什么算法这么猛呢?今天咱们就来好好聊聊。 咱们先说说这个让内存股栽跟头的谷歌 truffle crown 的 算法。你可以把这个大模型呢想象成一个特别能聊天的朋友,他在跟你聊天写文章的时候呢,得记住前面所有的内容,才能继续往下说。这些临时记忆就存在 k v charge 里面, 相当于模型的临时草稿纸啊。对话越多,上下文越多,这张草稿纸就越大。特别吃内存,这可是 ai 运行成本的一大块。传统解决内存问题的思路是向量量化,把高精度的数据压成低精度的表示。 但尴尬的是,大部分的量化方法本身也需要存储额外的量化常数,每个数字要多占一到两个 bit。 而谷歌的 trouble 这个算法牛就牛在了,能在几乎不损失模型效果的前提底下,把这个 kb charge 压缩到三 bit, 内存占用直接降了六倍啊!同时在英伟达 h 一 百上面呢,四 bit。 这个 trouble 比三十二 bit 未量化版本的这个推理速度还快了八倍了。 最关键的是,它不用重新训练或者微调模型,直接就能用了,落地门槛是很低的。 cloud frog 的 ceo 都评价说说,这是谷歌的 deepsea 时刻啊,因为 deepsea 证明了用更少的资源也能训练出顶尖的模型。 trouble crown 的 方向是类似的,用更少的内存也能跑同样质量的推理, trouble 矿只解决推理阶段的内存问题, ai 训练环节是完全不受影响的,所以短期来看呢,肯定是利空这个储存股的。但长期来看呢,这可是打破了 ai 推理的内存瓶颈。 以前 ai 因为内存限制的应用场景是有限的,现在好了, ai 渗透到更多更广的应用场景,这可能就是 ai 全明化的前夜。 说到这里啊,可能有朋友就会问了,这种行业大变化,咱们普通投资者怎么去把握机会啊?其实啊,这种机会的捕捉,离不开对宏观趋势的判断,如果不懂判断宏观趋势的,就要多听我宏观课第二节的内容, 重温一下怎么判断发现市场的机会。咱们做投资的不能只看眼前的涨跌啊,得从宏观的层面看透行业的走向,这样才能在市场波动里面去找准方向。 所以啊,不管是科技圈的新技术,还是资本市场的起伏呢,背后都是宏观趋势在推动,咱们平时多积累,多学习宏观分析的方法,才能在机会来临的时候牢牢抓住。最后提醒大家,关注我,带你看透财经热点背后的逻辑,把握更多投资机会!

谷歌推出压缩算法 turbo quant, 宣称时限约六倍内存节省才联设三月二十六日电 谷歌近日推出了一种可能降低人工智能系统内存需求的压缩算法 turbo quant。 根据谷歌介绍, turbo quant 压缩技术指在降低大语言模型和向量搜索引擎的内存占用。 该算法主要针对 ai 系统中用于存储高频访问信息的向量搜索引擎的内存占用。该算法主要针对 ai 系统中用于存储 key value cake 瓶颈问题。 随着上下文窗口变大,这些缓存正成为主要的内存瓶颈。 turboqant 可在无需重新训练或微调模型的情况下,将键值缓存压缩至三倍精度,同时基本保持模型准确率不受影响。 对包括 gemma、 mister 等开源模型的测试显示,该技术可实现约六倍的键值缓存内存压缩效果。 此外,在英伟达 h 一 百加速器上的测试结果显示,与未量化的见向量相比,该算法最高可实现约八倍性能提升。研究人员也表示, 这项技术的应用布局限于 ai 模型,还包括支撑大规模搜索引擎的向量解锁能力。谷歌计划于四月的国际学习表征会议 iqla 二零二六上展是 turboqant 技术。

今天我们要聊的呢是一个最近非常火的话题啊,就是谷歌发布的这个 turboqant 内存压缩算法。对,这个算法呢,可以说在页内掀起了轩然大波,它不光是让大模型可以在普通的设备上面跑的更流畅了, 同时也让很多人都在说,是不是这个硬件行业要迎来一场变革了。没错,这个确实是最近非常火的一个话题, 那我们就直接开始吧。好的,我们先来看看,就是这个 turbo quant 算法发布了之后,这个存储巨头的市值为什么会在短时间内大幅缩水,就是三月二十二号的时候,谷歌推出了这个 turbo quant 极度内存压缩算法, 然后呢,就导致三星、 sk、 海力士、美光这些核心的存储巨头,在短短的四十八小时之内,市值总共蒸发了大概六千二百亿人民币。 天呐,那为什么会这样呢?就是因为华尔街把这项本来是用来优化系统的技术视作了一个硬件杀手。哎,这个 k v cash 到底在 ai 的 这个文字生成的过程当中扮演一个什么样的角色, 为什么它会带来这个所谓的内存强的问题呢?是这样的,就比如说像一个七十 b 的 大模型,在服务五百一十二个用户的时候,仅仅只是用来存储这个 kvatch, 也就是它的这个短期记忆就需要超过五百一十二个 g 的 高速显存。 这是因为每生成一个新的词语, ai 都需要去回顾之前的内容嘛,那这个历史记录就会越来越长,它所占用的缓存就会限性的增加。所以这就是为什么当对话变长的时候, 很快就会遇到这个内存不够用的瓶颈?明白了,那这个极坐标系到底是怎么帮助 ai 的 数据实现这种极速的瘦身的呢?这个嘛,就是传统的迪卡尔坐标系,表示向量的时候,它是需要在每个维度上面都保存一个值的,那这样的话就会有很多熔余。 而极坐标系呢,它是把这个向量用长度和角度来表示哦,然后这个 turboqant 就 发现了,其实 ai 的 数据它的角度是非常集中的,所以它就可以预测, 那这样的话它就可以在极坐标系下面把这个归一化的步骤给省掉,这样的话就可以在不增加任何内存开销的情况下, 让模型的体积大幅的减小。那这个 turboqant 它到底是用什么样的办法能够让这个模型在压缩到这么极致的情况下,还能够保证它的精度不会下降呢?这个说起来就很巧妙了,就是它把这个查询向量依然还是用高精度来表示, 但是呢,他把这个历史的鉴像量啊压缩到了只用伊比特来表示,然后呢,再用一个伊比特的除错器来专门记录这个正负号的残差,再配合上这种非对称的匹配方式,就可以用一个高精度的新的查询去匹配上很多个简化过的旧的记忆。 嗯,那这样的话,就通过这种数学的变换就可以把这个误差给抵消掉,所以他就可以做到再把模型压缩到原来的六分之一,也就是从十六比特压缩到三比特的情况下,还可以让这个模型的运行速度提升八倍, 同时做到零精度损失,完美的突破了这个行业里面普遍认为的四比特以下就会掉精度的这个限制。听起来很厉害啊,那这个 turboqant 算法它的出现到底会怎样推动这个 ai 的 平民化?或者说会给企业级的应用带来哪些新的可能呢?你这就问到点子上了, 就是这个算法出来之后啊,我们就可以在普通的 mac mini 或者手机上面就可以本地离线的去跑这些超大的 ai 模型了,而且还非常的流畅, 这就会让更多的人可以不用依赖于网络,也不用花一分钱就可以去体验到这种强大的 ai。 同时呢,企业级的这种数据库也可以借助这个算法去实现这种毫秒级的高准确率的这种语义向量解锁。 嗯,那这就会让一些之前我们觉得可能只有在科幻小说里面才会出现的这种代理式 ai 成为现实, 就是 ai 可以 帮你去连续的执行几天的这种非常复杂的任务而不会崩溃。哇,感觉这个变化真的是太惊人了,感觉未来的各种智能设备都会因为这个东西变得又聪明又亲民。没错,那这期节目咱们就到这里了,然后感谢大家的收听,咱们下期再见,拜拜!拜拜。