哈喽,大家好,昨天谷歌发表了一个内存压缩技术,那这个技术出来呢,也是让各家存储公司都出现了比较明显的下跌,比方说呢,美光在前几天的跌幅上又继续跌了百分 之四,那另外像是海力士也跌了百分之六,所以呢,两倍做的海力士跌了百分之十二。那谷歌这个内存压缩技术到底是什么呢?我们就来分享一下现学的知识。那首先在我们使用大模型的时候,其实这些大模型都会生成一个叫 kvatch 的 东西, 全称叫做 key value cash。 那 听这个名字估计也能够有一个初步的了解,它的作用就是把一些关键的东西给记住。那在你使用大模型的时候, k v cash 的 作用其实就是把你问的问题以及他给的答案, 甚至他的思考过程都给记下来,那简单理解,你就把它当做是大模型的一个临时的草稿本,那也正是这个 k v cash, 它是在模型的推理阶段用到内存最多的东西,也就是为什么当前 整一个 hbm 的 需求那么高,都是因为这个 kv cache。 那 现在谷歌最新的技术呢?说是可以把 kv cache 它所占到的内存减少到原来的六分之一,也就是说既相同的东西不需要那么多内存了,那这个简单的看下来,当然可以被理解为对于存储的需求 就会变少了,如果其他条件不变的情况下,不过呢,整个事情也可能没有那么简单,比方说既然它的 kv cache 所占到的内存变少了, 那是不是在原本相同的内存下,他能够记得上下文就变多了,所以呢,这个技术的出现,他其实可以在对存储需求不变的情况下 增强大模型的能力,因为他占到了内存缩小了六倍,所以说他可以记住更多的东西。而且如果通过这个技术让所有大模型整体的能力变强的话,其实大家对于存储的需求,对于各类芯片的需求, 同样也是会增加的。所以呢,也有人会联想到去年年初的 deepsea moment, 虽然说 deepsea 让整一个模型训练的成本降低了,但是更低的成本并不意味着总需求的减少,而是意味着有更多的人可以参与到里面来。
粉丝8.8万获赞35.2万

就在内存价格一路狂飙的时候,谷歌的一篇新论文直接把美股内存板块干崩了,连 call 泪儿 ceo 看后都惊呼,这是谷歌的 deep seek 时刻, deep seek 用极少算力训出了顶尖模型。而谷歌这次放出的超级大招 turbo quint, 是直接让 ai 推理的内存需求打了个骨折。这项技术到底牛在哪里呢?简单来说,就是以前 ai 在 处理长文章或陪你聊天时,为了方便翻找,会像学霸一样把关键信息写在小抄上,也就是 k v 缓存。但如果小抄写得太详细,就会占满内存,让 ai 变慢,还特别费钱。以前的压缩方法就 像是强行把字写小,但这样 ai 不 仅容易看错字,还得去记缩写规则,反而更麻烦。那谷歌这次是怎么破局的呢? turbo quint 甩出了两个神操作。第一招 power quint 技术,可以理解为换个姿势记笔记。以前 ai 记位置用的是坐标系,比如向东走三步,向北走四步,麻烦又占地方。现在谷歌让他直接记, 朝三十七度方向走五步。就这一个视角的转换,直接省下海量空间,还绝对不会认错。但只要是压缩,总会有点小误差,对吧?这就引出了他的第二招 q j l 技术,只用一个符号纠错,他仅仅用一个正负号,就把压缩后的一点点瑕疵神奇的抹平了,零额外内存开销速度快到飞起。那这两套连招打下来,结果有多恐怖呢? 运行的 k v 缓存直接从三十二位压缩到三位,内存直接少用六倍以上。在英伟达 h 一 百显卡上,它的注意力计算速度快了八倍,最夸张的是回答准确率完全不下降,而且不需要重新训练,模型拿来就能插上用。在这个内存价格动辄暴涨,全网都在焦虑算力成本的时代,谷歌这是又扮演了一次救星吗?

最近 google 出的黑科技 turboqant, 它出来之后呢,又引发内存或者存储相关的几大巨头啊,国家有波动,所以很多人就会问,是不是这个存储内存这个天要变了,就以前是需求非常的刚,那以后是不是需求就没有那么大了?我们简单说一下这个技术呢,用 特别简单的语言来说呢,就是它呢,在数据存到内存的时候,之前呢,就是它呢在数据做了压缩,它压缩呢不单是压缩了六倍,而且呢 这个精度还能提高啊,一般压缩不是精度会丢失吗?它精度还提高的,所以在这种情况下呢,就非常的好用。当然它也不是说所有的地方都能用啊,它主要还是用在了一个缓存上,就是 key value cash 啊,就这个地方,那么主要对推理段会非常管用,修炼段的话也 用不到这个技术的。那这个出来之后呢?当然了,因为你以前可能我们只能在整个的存储上不断地去硬件上去想办法啊,就是不断地去提高它的这个堆叠的空间啊,这些方向,所以 hbm 从几代到四代了嘛啊,不断地往上去, 往上托。那么整体的这个存储的几大厂商呢,把这个生产线呢,也全都给到了高端的 hbm, 所以 像底下的这个 ddr 五啊,这些的也没有生产的这个空间了,像下游的 ddr 五的需求呢,也有被带动起来啊。 那这个技术出来之后呢?呃,一个是对这些高端的生产厂商来讲,到底有怎样的挑战,他们倒也不是坐以待毙,他们现在用 c 叉 o 技术,就是以前说白了简单的卖粗暴的这种高 高端的内存存储,那么现在呢,变成了卖系统方案,可能会,就是我也会在这个方面去做一下改进,跟 c 叉 o 的 软件结合之后呢,可能会调用内存的过程呢,会更加高效。你要简单理解呢,就是成本下降了,而且呢效率提升了。那这个呢,我就在人工智能的进程当中,商业化过程当中呢,是一个 必然要的过程,因为当时对算力的需求,基本上做训练模型要 h 一 百为主, 它出来之后呢,对推理端的模型来讲,就 h 二零也可以进行啊,它可以更低的成本,而且呢更低的算力啊去做一些训练。所以现在呢,这个内存这个算法出来之后呢,也是一样的,就是用更低的价格,而且呢可能对内存的要求也没那么高。 到了那对国内的厂商来讲呢,是个我觉得是个逆袭的好机会,因为你现在短期内技术,比如说迅速的去追赶这些头部的厂商是比较难的。那么在人工智能这个进展的过程当中呢,如果我们的内存如果一直跟不上的话,其实对数据中心建设,包括一些 模型的这个进展上速度会比较慢。那现在呢,相当于 ddr 五或者 hbm, 像长星存储和照仪这种呢,直接就可以用了。那你直接用的过程当中呢,对于我们整个国内人工智能发展推进所 速度,我就是会加快的,所以需求量不一定会减少。就跟当时 m o e 出来的时候,大家会觉得算力的需求是不是就下降了,结果后面算力引发了第二波的爆发啊,就是因为它的推广会更加的快,那么这个内存我觉得也是一样的。

谷歌下场造了一个大模型神级压缩算法,昨天一千多万人围观开盘,直接带崩了美光、闪迪这些存储芯片巨头。简单来说,它是一种把 ai 记忆占用压缩六倍、推理速度提升最多八倍,几乎不损失准确性的神级压缩算法,目标很明确,让大模型变得更小、更快,还更便宜。它彻底重构了 ai 的 成本结构, 而且它不只是压缩,还能让上下文能力大爆发。这个算法通过两步神操作实现无损压缩,先用核心步骤锁定向量的主要特征,再用简易比特的数学纠错机制消除微小偏差,最终达到近乎完美的零精度损失。 这意味着,你那台十六 gb 内存的 mac mini, 现在就能在本地免费安全地跑超强大的模型手机流畅运行,高质量 ai 也马上将成为现实。短期看,内存芯片厂商确实成压,但长期呢,单位内存需求下降,但应用爆发带来的总需求会飙升。 turboqant 解决的是效率问题,它打开的是 ai 普及的闸门。

本地跑大模型的起点终于要来了!就在昨天, google research 放出了一个逆天的研究成果, turbo quant 极速量化算法,它能够在不损失任何精度的前提下,大规模减小模型大小,而且内存消耗减少六倍以上,运行速度 提升八倍。这对于做本地 l m 部署高向量剪索的开发者来说,简直是史诗级利好。我初步看了下论文和相关资料,他用了两部极其优雅的数学策略,首先,利用 polar quant 将 传统的直角坐标系转化为极坐标系,解决了传统量化方法的额外内存开销。第二步,使用 qgl 算法,只用意比特的算力做极限纠错,保证了大模型 attention 机制的绝对精准。实验结果也证明了 turboqant 算法的强悍。在 nih 测试中, turboq 可以 以百分之二十五的 k v 缓存实现零点九九七的完美召唤率。而令人惊叹的是,即使被极度压缩,它的信息提取表现与未压缩的三十二比特全精度原始模型分毫不差,真正做到了零精度损失。在 long beach e 紫级测试中, turboq 可以 将 k v 内存压缩至少四点五倍甚至六倍的同时, 得分仍大幅超越目前的主流压缩算法。在 h 一 百上进行注意力逻辑值测试时,斯比特的 turboq 实现了比三十二比特未量化版本高达八倍的星能飞跃。 有兴趣深入研究的兄弟强烈建议去看原论文,学学顶级算法科学家的思路,我会在精读完论文之后和大家分享更深入的内容。

各位朋友,今天聊聊 google 刚发布的内存瘦身神器 turbo quint, 它专治大模型推理时的内存膨胀病, k v 缓存越存越多, 拖慢速度还费钱。它的秘密武器是两招,第一招叫 polar quint, 把数据从直角坐标转成极坐标,类似半径加角度,利用角度分布集中的特点,省掉传统量化的额外开销,直接压缩到三比特。 第二招, q j l, 用一笔特残差修正误差,向给数据打补丁,保证精度不丢。 这俩一结合, k v 缓存内存直降六倍,推理速度飙八倍。关键是不用重新训练模型。 jamal、 mistro 这些现成模型直接套用,以后常对话大文件处理,再也不用担心内存爆了,连手机都能跑长文本大模型,这波技术真香!

google 刚发了个论文,炸翻了 ai 圈, turbo quant 号称把大模型的内存占用砍到六分之一,速度还快八倍,精度几乎不掉。但别急着兴奋, 先搞清楚它到底是什么。本地跑大模型,你最大的噩梦是什么?显存不够?你买了个七十币的模型,以为 i n t 四量化到二十只币就能跑,结果一开长,对话直接爆显存。 为什么?因为模型本身只占二十 g 币,但对话过程中有个隐藏的内存大户在疯狂吃现存,它就是 kv 缓存。通俗讲, kv 缓存就是大模型的笔记本,你在跟他聊天,他得记住你之前说的每一句话。 对话越长,笔记本越厚,吃的内存越大。一个八 b 的 小模型,摇三十二 k 个字, kv 缓存就要吃掉几 g b, 聊到幺二八 k 直接翻四倍。所以你看到的现象就是开始聊得好好的,突然就崩了。 google 的 思路很聪明,不是把模型变小,而是把这个笔记本压缩。传统做法是把十六位数据压到八位,内存减半, topo quant 直接压到三位,内存降到六分之一。怎么做到精度不降?用了两个绝招。第一步叫 polar quant, 想象你有一堆数据,有的挤在一起,有的很稀疏, 他先把这些数据搅三搅匀,然后压缩效率就高多了,就像把衣服叠整齐再装箱。第二步叫 q g l, 压缩过程中肯定有误差,他用一个比特做残差校正,把误差补回来,两个结合 三比特,压缩精度几乎不掉。 google 论文里贴的数据确实漂亮, k v 缓存压缩到六分之一 h 幺零零上,速度提升八倍。 longbench 和 n 的 测试分数跟全精度几乎没有区别,但这些数据是论文里的,不是你电脑上跑出来的。诚实说, turbocharged 现在还是论文阶段, google 官方代码计划今年第二季度才发布。 lamo capp 和 v l l m 有 社区开发者在做,但都还是 draft 状态,没有正式合并。也就是说, 普通用户现在还不能直接用。但有个好消息,有个叫 routerquant 的 开源替代方案已经可以用了。它的思路跟 turboquant 一 样,但更清亮。 piping store 加一加一个点就能装, github 上搜索 square 减 com slash routerquant 就 能找到。先说现在, 如果你是本地跑小模型的用户,影响不大。 turboqant 压的是 k v 缓存,不是模型权重,模型本身装不下它也救不了。但如果你是跑大模型的,比如七十 b 模型,勉强塞进去了,长对话就爆显存, 那这个技术一旦成熟,体验会质变。再说未来, k v 缓存压缩意味着同样硬件能跑更长的对话,或者同时服务更多用户, 对于 ai 应用开发者成本直接打骨折。 turboqant, 谷歌发的一篇潜力巨大的论文,可以为缓存压缩到六分之一,精度不降,但代码还没正式发布。 关注它,等 q 二官方代码出来第一时间试 rootqant。 现在可以先玩。点赞加关注,赛博杨先焕,明天见!

压缩算法虚惊一场,这八个字价值万金!兄弟们,我来谈一个非常重要的,对大家马上就有帮助的,叫做压缩算法,这句话很值钱啊,因为在上一周周四的时候,谷歌推出了一个叫 turbo turbo 的 那个压缩算法, 这个说法说能让内存条在 ai 里面的应用见低百分之八十五,就六分之一,比如说突然发现,哦,对内存的消耗见低六分之一,说导致全球 ai 内存市场大幅向下,也导致市场上这块一片绿油油。来,我问大家,你们觉得这是一个 实质性的还是一个阶段性的?哎,这个问题很重要啊,这问题意味着你可以上车下车啊,兄弟们,如果这个行为判断清楚,你下周就可以吃到肉啊。来我我我给大家交流一下,把这八个字打在公屏上面,叫做压缩算法 虚惊一场,这八个字价值万金。兄弟们,你理解清楚了,周一你就可以去上车,两个月你回来会感谢我的,你不管是拿五个 w, 十个 w, 一 百个 w, 你, 周一你们懂的,你去上车,将来几个月你会感谢我的,好不好?你周一会看到 他的深微的这个反弹的,你们一周以后,半个月以后,你过来验证。说实话,我很少对短期的做预测,但我确实觉得这个有点过分了,这是个机会啊, 因为存储芯片就是个篮子,它把这个一个纸张丢进篮子之前,它把它捏了一把,捏了一把丢进去,让那个同样幺二八或者 e t b 二五六 或者五幺二的内存装的更多。但这个算法的话呢,确实提高了存储效率,但不影响存储的需求。为什么不影响?因为现在存储的需求根本就满足不了这第一个,第二个,我专门看了调研报告, 它还会增加 a i 公司的盈利,做到了蒸馏模型,它有点像这个, 它其实会增加 ai 企业的盈利性,并没有影响内存条的需求。说减了虚惊一场,就意味着现在是一个叫倒车接人叫上车的最佳时机节点。你现在在周一,你上车在未来一段时间应该是可以期待的。我希望你把我这句话的信息含量、含金量你去消化下,变成你自己的真金白银。 说想要跟我学习的链接的,你就拍右下方的课程啊,我这个课是全网非常受欢迎的减创业、减营销、减头的课程, 点教你上半场创业下半场头的课程。这课程是叫做抓住科技龙头,赢在重铸时刻的课程。两天在深圳南山区面对面的课程,在这个科技创富的时代,教你抓住科技龙头,赢在重铸时 刻。我这里面讲了中美科技的博弈,还有国产代替的机会,以及大草原上面四十家算力公司、芯片公司、关联公司的业绩、 盈利、订单的真实性、技术的前瞻性,全部给大家分析,说我们这个卖点就足够做这个都价值万金。我们的课叫做思贤的盛宴,财富的密码,大家抓紧时间去拍,你不拍的话,这是我四月份最后一期课程,再要买的话就要到五月中旬了,因为五一有假期, 是一人一票,一课一次,我的课远远超越这个价格,我的课你希望你又知道,卖四万九千八都值的,这是价值万金的课程,我这里太多人带着他夫人一起来听课了,现在带的小孩都是要买票的,我这里最高的学员是复训了九次,我复训也要花钱买票,说我这个是课程里面的茅台啊。 尤其投资部分讲的非常精彩,我的投资会分析中美的宏观趋势会在哪一个板块展开, 我会讲高风险高回报的一些饼圈的投资,更多会讲我们 a 股、大 a 市场科技股、芯片股的投资,说这是全网好评如潮,复训率非常高的课程啊。两天面对面在深圳南山区的课程啊,两天,你们抓紧时间去拍了。去拍了啊。

谷歌推出压缩算法 turbo quant, 宣称时限约六倍内存节省才联设三月二十六日电 谷歌近日推出了一种可能降低人工智能系统内存需求的压缩算法 turbo quant。 根据谷歌介绍, turbo quant 压缩技术指在降低大语言模型和向量搜索引擎的内存占用。 该算法主要针对 ai 系统中用于存储高频访问信息的向量搜索引擎的内存占用。该算法主要针对 ai 系统中用于存储 key value cake 瓶颈问题。 随着上下文窗口变大,这些缓存正成为主要的内存瓶颈。 turboqant 可在无需重新训练或微调模型的情况下,将键值缓存压缩至三倍精度,同时基本保持模型准确率不受影响。 对包括 gemma、 mister 等开源模型的测试显示,该技术可实现约六倍的键值缓存内存压缩效果。 此外,在英伟达 h 一 百加速器上的测试结果显示,与未量化的见向量相比,该算法最高可实现约八倍性能提升。研究人员也表示, 这项技术的应用布局限于 ai 模型,还包括支撑大规模搜索引擎的向量解锁能力。谷歌计划于四月的国际学习表征会议 iqla 二零二六上展是 turboqant 技术。

谷歌的 k v 缓存压缩算法又来炸场了,这个确实可以显著减少推理内存的使用,在上下面很长,超过一百二十八 kb 的 时候,显存确实可以减少六倍,像平时问一句两句话的几乎没有效果呀。对这个推理内存的占用 算力中心大模型的推理占用内存的大头是模型权重呀,只要打开这个灰化窗口,模型就得加的。什么时候能把这个加下来,那对 hbn 内存绝对是致命一击。

kvcash 压缩进入三比特时代, google 发布 turboqant 长文本再无显存焦虑。核心观点,最近 google 研究院发布的 turboqant 真的 有点黑科技的意思,它成功地将 o l m 推理中最占空间的 kvcash 从 b f 一 六 f p 八直接压到了三 beat, 而且最狠的是,在长文本任务中几乎做到了精度零损失。为什么这个技术很重要,显存占用值降六倍。 同样的显卡,以前只能跑三十二 k 窗口,现在跑二零零 k 甚至更长都不再是梦。速度反向起飞。在 h 一 零零上,斯比特模式的注意力计算比微量化时快了八倍。不搞小动作,不需要重新训练模型,也不需要复杂的微调, 属于拿来即用的底层算法。优化背后的魔法 powerpoint 及坐标量化别再死磕 x y 轴了,换成角度和半径来存数据,角度分布比数值大小稳得多,直接省掉了传统量 画里最占空间的缩放因子。 q g l 算法用最后一比特的余力做数学纠错,把量化误差消解于无形。 个人评价,在大模型长文本高吞吐的需求面前,内存瓶颈一直是房间里的大象 turbo quant 这种从底层数学逻辑及坐标变换出发的优化,比单纯对硬件更有优雅感。

刚看到一篇帖子啊,就是说谷歌的之前的那个可以压缩上下文的 tab 框的,这个已经可以在这个叫原子聊天中进行本地的运行, 那它写的呢,是在这个 macbook air m 四的一个机器上面运行的,那恰好呢,我正好有这台一模一样的机器,那其实可以给大家带来一些测试, 那我现在使用的模型就是天文三九 b 的 一个模型,那它的模型权重为四点八 g b。 那 我现在进行测试的这个流程是我把一部分活着这篇小说的一个片段导入这个上下文章,让他对进行一个解析。那 过去了大概一分钟左右吧,他现在以每秒八个透,以每秒九个 tokens 的 这个速度进行一个输出,那一共输出了五百七十八 tokens, 这是在这个原子聊天中 的结果。那在这个奥拉玛的运行中,他一直思考了五百七十二秒钟,也没有给出一个结果,所以说我实在是等不了了,我就给他手动暂停了。其实可以看出啊,使用了这个谷歌 tab 这个引擎的这个 技术时候,技术之后啊,同样的一个模型能发挥出来的这个能力啊,就有一个很大很大的变化了。那怪不得这些谷歌发布这篇文章以后,内存厂家的股价硬生生下跌。

别再给老黄送钱了,谷歌刚发布了 turbopoint, 让你的八 g 破电脑直接跑出四十八 g 顶配夫妻的效果,本机大冒险显存真空压缩时代正式开启,你那张快淘汰的三零六零可能还能再攒一年。谷歌瑞斯尔奇刚出了一个新的技术,它叫 turbopoint。 它最狠的一点不是模型更聪明了,而是它能把大冒险运行时最痴显存的那一部分,直接压缩到原来的六分之一。 原始占用如果说是百分百的话,那压缩后只需要占用到百分之十七,节省了百分之八十五的显存。很多人本地跑大模型,不是模型下不来,而是一加载就报显存。模型越大,上下文就越长,那个短期记忆就越占地方。你可以把它理解为给 ai 的 临时工作期做了一次真空压缩。 我这里引用了谷歌瑞斯写的实测数据,作为一个信源,这里我们可以看到哦。 top 点的精度是五十点零六,它的 k v 看时是二点五,整体的速度提升了将近八倍。 u two 步技术博主也做了一个测试,它称之为 ai 大 模型的拐点到来,七十 b 的 大模型也可以在本地的手机上运行起来,引发了全球开发者的热议。 消息一出,美光闪迪和细节集体重挫。但是存储需求的下降并非是立空,而是 ai 应用爆发的前奏。当算力成本骤降的时候,创新将呈指数级的增长。意味着什么? 不是实验室自嗨,而是普通的电脑等 d ai 长文档的处理,都开始有机会吃到更大的上下文和更强的模型算力。我判断这种 k v 开始的压缩后面。

近日, google research 发布了一项名为 turboqant 的 新技术,这一消息引发了市场的剧烈反应,镁光和闪迪等内存龙头股的股价在盘前直线下挫。 许多人开始担心这一技术的落地会对存储价格产生影响。 turboqant 声称能将人工智能的内存消耗削减六倍,并且不损失精度, 这让人们对未来的存储市场充满了疑虑。了解 turboqant 的 工作原理直观重要,它通过极端压缩来处理 ai 在 运行时所需的临时记忆在内称之为 k v cash ai 在 分析数据时需要不断记住之前的信息, 这些信息必须存储在内存中。随着上下文的增加,内存的需求也会随之增加。传统的解决方案是增加内存容量, 但 turboqant 提供了一种新的思路。 turboqant 的 核心在于它将 kvatch 中的数据精度从三十二位压缩到三位,同时保证精度几乎零损失。这个过程分为两个步骤,首先通过一种叫 polarqant 的 几何旋转方式来均匀分布数据, 然后利用 qgl 技术对残差进行进一步压缩。这种新方法可以显著降低内存需求, 从而使得本地 ai 的 应用成为可能。随着 turboqant 的 推出,之前只能在云端运行的长文本 ai 现在可以在手机和轻薄本等小设备上高效运行,这不仅为用户带来了更好的体验,也为手机厂商和 pc 厂商提供了新的市场机会。 未来,随着对本地 ai 的 需求增加,存储行业将迎来新一轮的增长。总的来说, turbocoin 的 出现不仅不会导致存储价格的下跌,反而是推动了端侧 ai 发展的一次重大突破, 随着这一技术的普及,未来的存储需求将会显著增加,为行业带来新的机遇。我是 leon, 下期再见。

各位观众朋友大家好,今天我们来深度解读谷歌最新提出的 turbo quant 压缩算法对大模型算力、成本、云厂商存储和硬件产业链的影响。先讲三个结论, turbo quant 让大模型推理用六分之一的内存跑出最高八倍的速度,而且几乎不掉精度,不用重新训练模型, 它只压缩 k v catch 注意力里的临时记忆本,不碰模型权重,但等于是同一块 g p u 能接四八倍的对话长度或请求数量大幅提升,单卡产出 k v 开始可以理解为模型在对话中记住历史内容的备忘录, turbo quint 就是 把这个备忘录高度压缩。对投资层面,短期对 g p u 存储是效率提升,但不一定是需求下滑。长期更像 deep sea 时刻是改变 ai 部署成本曲线的技术。立好云巨头与模型平台 对计算与存储需求偏中长期正面,那 tropos 究竟是什么在解决啥问题?先讲背景,大模型推理时,真正的瓶颈越来越不是算力,而是 k v cash。 内存,也就是注意力机制里存历史 token 的 那块缓存,随着上下文窗口变长, 这个缓存空间是限性往上涨的,直接吃掉大量 gpu 显存,导致单卡能接的并发症,上下文长度都被卡死,推理变慢,成本变高。 tropos 针对的就是这块 k v cash, 他把原来三十二比特的向量压到大概三比特,也就是内存占用缩小约六倍,同时把注意力计算本身的速度最高提到八倍,而且在多套基础测试里,几乎看不到精度损失。 这里特别强调,他只改推理阶段的 k v cash, 不 动模型权重,不改训练流程,相当于一个即插即用的推理加速组建。对现有大模型来说,集成门槛低, 我们再看看它是怎么做到六倍压缩加几乎无损。技术上, turboqant 是 一个两阶段的向量量化方案,目标是同时做到两点,一是压得足够小,二是保持注意力里内基运算的精度,不能把模型的理解能力压坏了。第一步叫 polarqant, 可以简单理解为换一种坐标系来压缩它先对向量做一个随机旋转,然后把传统的直角坐标转成极坐标形式,一个角度一个半径,这里角度更多的承载羽翼方向半径,承载信号强度。在这个坐标系下,大部分有用信息可以被更 高效的编码进有限的 bit 里,而且省掉了传统量化里很多昂贵的归一化操作,直接减少了额外算力开销。第二步是 ebit qgl, 也就是 quantize johnson london straws。 第一步之后多少会有一点压缩误差。第二步就是用一个低维随机映射, 把这部分残差压到只剩下加一或负一的一位符号,相当于给每个向量打一个很轻量的纠偏标签,保证内基估计不被系统性拉偏。研报强调,这一步几乎不增加额外内存开销,因为这一比特的校正被吸收到总比特预算里,在相同的比特数下把误差又往回拉了一截, 从信息论角度看,已经接近理论压缩极限。所以 turboqant 不是 简单的多压一点看看效果,而 是在有明确师生上届证明可用的前提下,把压缩做到极致,同时仍然适合在线推理场景,这点是很关键的。从算力经济学角度,摩根式单利的核心观点有三点,第一,这是一次结构性的推理成本下降, k v cash 已经成为大模型推理中成本增长最快的部分, 六倍内存压缩,八倍注意力加速,直接把每个 token 对 内存和算力的占用往下拉。相当于同样的 gpu 集群可以服务更多请求,单次调用成本明显下降。第二,它扩大的是有效 gpu 产量, 未必立刻砍总 gpu 需求。研报判断,短期看,更多是利用率提升,而不是绝对需求下滑。云厂商很可能把腾出来的资源重新投入到更大模型、更长上下文、更大 bug 以及更严格的延迟 s l a 上。换句话说,同样一笔 kpx 可以 支撑更强的模型,更好的体验,推理端的 r o i 被明显抬高。第三,典型的 jevens belloon 会放大总需求。报告里直接引用了 jevens paradox。 当效率提升、单位成本下降时,总体需求往往会上升,而不是下降。每 token 成本降下去之后, ai 服务可以更便宜更大杯很多原来算不过账的应用会更便宜更大杯很多原来算不过账的应用会更下去之后, ai 服务可以更便宜更大杯很多原来算不过账的算力和内存。 同时, turboqant 降低了部署门槛,部分原本只能云上跑的大模型有可能压到本地服务器甚至高端终端上运行,这对私有化部署边缘侧 ai 都是明显利好。那这对云场 gpu 存储和软件的产业链有什么含义? 对云巨头模型平台明确证明,因为每单位质量的长上下,非推理成本大幅下降, roi 明显改善,更容易把大模型做成高毛利、可规模化的基础设施。 同时,像 turbo quant 这种压缩会被直接嵌进平台底层,对上层应用开发者来说是透明的,意味着平台护城核继续加厚。对 gpu 计算芯片报告判断,短期是中性偏正 单任务的 gpu 需求下降,被更大模型、更长上下文、更高 qps 虚收掉,整体 gpu 需求不一定下降。从中长期看,如果长上下文,解锁增强场景爆发,反而会因为更便宜而更普及。对高端加速芯片的总需求拉长周期。对内存与存储,短期看是效率提升, 单位 workload 只改 kvatch, 不 动权重和训练, 整体算内存效率提高,而不是内存用量腰斩。长期同样受 jevens 辩论影响,更多模型更多实力保持在线,更长的上下文和更高的迸发可能反过来推高总体 drm per hour bm 存储需求。 研报定性为中性到长期正面对软件上层应用,这里研报给了一个有意思的角度,因为压缩被做到基础设施层部分做推理优化,压缩工具的软件价值会被平台内升吞掉,在利润池上可能略偏负,但对真正以业务逻辑和数据为护城河的应用来说,这是纯利好。 底层推理成本下降,提高毛利与用户体验。如果我们把 deep seek 看作用更聪明的软件,把同样硬件炸得更干的一次示范,那 turboqant 则是直接针对大模型推理中最核心的 k v cash 瓶颈给出了接近信息论极限的压缩方案。 ai 基建的估值不能只看当下的单次推理成本, 而要看到像 turbo quantum 这样一代又一代的底层技术进步,会不断把成本曲线往下压,同时用 jevens bellun 把需求再拉起来。在这个过程中,云场、 gpu、 内存以及高质量的模型平台都是相对更有定价权的长期受益者。以上就是今天的解读,关注我,带你看懂科技趋势!

炸了!谷歌刚发布了一项让 ai 界沉默的技术大模型,最大的瓶颈不是算力,是内存。每一次推理, kv 缓存都在疯狂吞食资源。谷歌的 turbo 扩耳听,一个近乎暴利的方案解决了这个问题, 把高维向量压缩到三个比特,精度损失为零,速度提升最高八倍,内存直接砍到六分之五。这下内存不再是至于 ai 的 门槛,未来低内存的端测, ai 可能迎来新一轮计划。好了,关注我,每天都有 ai 新资讯。