刚看到一篇帖子啊,就是说谷歌的之前的那个可以压缩上下文的 tab 框的,这个已经可以在这个叫原子聊天中进行本地的运行, 那它写的呢,是在这个 macbook air m 四的一个机器上面运行的,那恰好呢,我正好有这台一模一样的机器,那其实可以给大家带来一些测试, 那我现在使用的模型就是天文三九 b 的 一个模型,那它的模型权重为四点八 g b。 那 我现在进行测试的这个流程是我把一部分活着这篇小说的一个片段导入这个上下文章,让他对进行一个解析。那 过去了大概一分钟左右吧,他现在以每秒八个透,以每秒九个 tokens 的 这个速度进行一个输出,那一共输出了五百七十八 tokens, 这是在这个原子聊天中 的结果。那在这个奥拉玛的运行中,他一直思考了五百七十二秒钟,也没有给出一个结果,所以说我实在是等不了了,我就给他手动暂停了。其实可以看出啊,使用了这个谷歌 tab 这个引擎的这个 技术时候,技术之后啊,同样的一个模型能发挥出来的这个能力啊,就有一个很大很大的变化了。那怪不得这些谷歌发布这篇文章以后,内存厂家的股价硬生生下跌。
粉丝4124获赞15.0万

上周科技投资界很火的一个话题就是谷歌推出了特步矿的技术,它号称可以能够将大模型运行时的 k v cash, 也就是键值内存值减少六倍啊!这个技术一推出,存储 这美观科技啊,闪迪啊,三星电子的股价都大跌。今天我们就来介绍一下特步矿到底是一个什么样的技术,它到底厉害在哪里。相信了解了这些后,你就会明白他对于 ai 大 模型到底有什么作用。如果你是做投资的,对你的投资决策也会有帮助, 那我们先从大语言模型推理中最头痛的内存杀手 k v kash 讲起,这也是特博矿的诞生的核心背景。 而在大语言模型生成文字字的时候,其实它是逐个字蹦出来,为了生成下一个字,模型需要回顾之前已经生成的所有字。简单的来说, k v kash 这个键值缓存其实就是大模型 l a m 的 短期记忆。在没有 k v kash 的 情况下, 大模型每生成一个新字,都要把之前所有的字重新读一遍,有了它,模型就能记住处理过的内容,从而实现极速的推理。 那为什么它是瓶颈呢?虽然缓存能够加速计算,但它也带来两个致命的问题,一个就是限性增长,对话越长, k v k 使用的空间也就越大。如果你在写长篇小说或者分析长文档,显存就会迅速被填满。 第二个遭遇的问题就是内存强。现在的 gpu 算力其实很快,但是显存里边读取的数据的速度、带宽相对较慢。当 k v cash 变得巨大时, gpu 大 部分时间都在等数据传输,而不是在计算。 举个例子来说,想想你在读一篇啊,一本很厚的推理小说,如果没有 cash, 每读到新的一页,你都要把前面的章节全部读一遍,才能理解剧情,这个就太慢了。那有了 cash 呢?你把之前的关键线索记在了笔记本上, 但是呢,你也会遇到瓶颈,随着你这个书越来越厚,你的笔记本就被填满了,也就是说显存易出了。而且你翻阅笔记本找线索的速度也开始跟不上你阅读的速,这就所谓的待宽限制。胳膊框的出现呢,本质上其实就是发明了一种超级微缩胶卷, 把你的后笔记本压缩成一小片,但又不丢失关键线索。这个 point 使用了量化技术,就是所谓的 quantization 技术。简单来说,就是把高精度的大数字,比如说像 f、 t 六零这种十六位的浮点数,压缩成低精度的小数字,比如像四的这种等数。 但这里就面临一个巨大的挑战,那就是精度损失。如果你强行把所有的数字都压缩成呃 int 四这种整形数,模型就会胡言乱语,逻辑变得混乱。特步矿腾呢,发现了一个神奇的现象,叫异常值,就是说, 他认为就是 tv cash 中其实百分之九十九的数据都很平庸,数值很小,即便压缩了以后也没有什么关系。但是呢,有极少数的所谓的异常值,它的数值非常大,承载了模型最重要的记忆和逻辑。 那这样呢,就特步矿的它采取了一种保命策略,它就不像传统的压缩方法一样一刀切,而是采采用的就是异常值感知量化,它会先像雷达一样扫描这个整个 k v catch, 识别出那些极少的异常值,给它们分配。高精度啊,保留原来的这个精度啊,类似于 f p 十六这种。 对剩下的绝大多数的这个普通纸呢,进行高倍压缩,压缩成 excel 甚至更低。当然这里面牵涉到一个比较复杂的一个叫随机旋转,还有一个 one bit 的 这种机制来做具体的操作。这里不假拍讲,太复杂了,我相信普通的读者可能也并不关心。 虽然这种方法逻辑上看似很完美,但是在计算机底层却有一个大麻烦,也就是 gpu, 它喜欢整齐划一的数据类型。 想象一下,如果一个盒子里面既有巨大的石头,也就是十六 bit 的 这种异糖纸,又有细小的沙子,也就是四 bit 的 这种整形普通纸。那搬运工也就是这个 gpu 算子,它处理起来就会非常手忙脚乱, 如果解压缩的速度太慢,那省下的内存贷宽就会被计算延迟给抵消掉,我们也无法为了一个算子就去重新设计生产成千上万块 gpu 芯片。那这个时候最聪明高效的方法就是在软件层面进行优化。那其实在 turbo 框子中,这种优化主要体现在如何解决既要快又准的矛盾上。 那特步矿的做的一件事情就是在算子层面做了融合,就是在普通的推理过程中, gpu 先要从显存读起,压缩的数据放入缓存,然后再减压成原始数值,最后再进行计算, 这个每一步都要产生数据搬运的开销。那特步矿的呢,就编选了专门的扩大算子,它让 gpu 在 读取数据的一瞬间,直接在积存期,也就是 gpu 内部最快的地方完成了减压和计算。这种边读边算的方式呢,就极大的减少了数据在显存和核心之间的往返次数。 另外他用到了一个所谓的叫未包装的技术,就是让四比特数据在三十二位或者六十四位的英俊通道里边跑的顺畅,包括矿的。使用了这个未包装技术呢,就是把八个四比特的数字打包进一个三十二位的整数计算器里,这样的 gpu 就 可以一口吞下整个的数据量,包含的信息密度就是原来的四倍。 第三个就是使用异步处理异常啊, double quantum 的 算子设计也比较巧妙,它让 gpu 在 处理大量四倍的数据的同时,通过一个并行的极小通道去读取和还原那些高精度的异常值,那这两者在计算核心中会会合,这样既保证的速度,也掌握在精度。我们知道 gpu 的 瓶颈往往不在于算的够不够快, 而是在于数据运不过来啊,主要就是由于内存带宽的限制。假设原本我们从显存里搬运一百 g 的 f p 十六数据的 gpu, 那 现在通过 turbocharger 压缩压缩成了四个倍,也就是说只有原来的四分之一大小。 但在这种情况下, gpu 在 相同的时间内能处理的对话长度也就是吞吐量啊,其实理论上最大可以提升到原来的大约四倍。 我们来总结一下,其实突破框的这个要解决的核心痛点就是 k v cash, 随随着上下文自数限行增长,这就把那个整个文显存给撑爆了,那它采用的什么策略呢?就区别对待异常值和普通值,用四倍的换空间,用高精度保留智商。 那实现的方式呢?就是通过底层算子优化,让解压和计算同步,把理论上四倍贷款红利变成现实。 当 kvmatch 不 再是就是紧箍咒的时候,大模型的这个能力呢就发生了质的飞跃。最值得改变的其实就是两个维度,一个就是突破健忘症,也就是有了更大长的上下文,那比如说原来是一个 mini 的 上下文限制,那其实相当于现在变成了四个 mini 的 四个四兆的上下文限制, 那以前受制于这个现存模型可能只能处理五十页的文档就断篇了,那现在有了这个特步框的以后,同样的硬件可以处理两百页甚至更长的。 就是第二个就是告别打字机,这也就是更快的推理速度,因为数据搬运的话,瓶颈被打破了,这个模型生成文字的速度,也就是 token per second 会显著提升 啊,交互管会像真人一样,就是使得对话这个更加流畅。了解了 turboq 的 这个技术原理和作用以后,其实我们来聊一聊啊,就是对资本市场那个内存股的这个影响啊,就是从表面上来看这个有了这个技术以后, turboq 可以 使得大模型推理 使用到的这个内存大幅下降,感觉像是对这些内存公司的一个利空。但是个人来觉得这其实并不是,打个比方就是说其实就像车子卖便宜了,那其实车子的销量会更大, 那有了这个特步矿的技术,其实大模型的这个推理成本会大幅下降,那因为推理成本里边很大一块是内存的价格。倒,那既然推理成本能够大幅下降,那大模型的这个应用的潜力和空间也会大幅提升,用的人会越来越多啊。其实短期看上是一个利空, 但是我个人觉得长期可能是一个利好,因为大模型用的人越来越多,使用的成本也会越来越多啊。当然这个是我个人的一些潜见,仅供大家参考。好,谢谢大家。

samsung 暴跌百分之十一, minecron 跌百分之七,全球内存股四十八小时蒸发数十亿美元。 不是财报爆雷,不是产物过剩,是一篇论文,没有产品,没有代码,只有数学,到底写了什么?你每次跟 ai 对 话模型,不是只读你最新那条消息, 而是把整个对话历史全部重读一遍。为了避免重复计算, transformer 把中间结果存在 kv 缓存里。问题是这个缓存随着上下文限性膨胀,一个一百二十八 k 上下文的七十 b 模型, 光缓存就要四十级字节显存比模型本身还大。所以现在大模型的真正瓶颈不是 gpu 算力,是内存带宽。 业界管这叫 memory war。 在 turbo quant 之前,没人有干净的解法。三月二十五号, google 发了 turbo quant, 把 kv 缓存从十六比特压到三比特,六倍压缩,零精度损失。 他的核心思路非常巧妙,第一步,对向量做一个随机正交旋转,旋转之后,每个坐标都变成了独立的高斯分布,数据的形状变得可预测了。第二步,把向量转到极坐标, 这里是关键直觉旋转后的坐标来自同分布,他们的比值趋近于一。 arc tangent 的 一等于四十五度,所以每一层的角度都高度集中在四十五度附近。维度越高, 角度越集中,需要的比特就越少。第一层用四比特,后面的层只需要二比特,甚至更少,这就是他能压到三比特的数学原因。最后,用 q、 g、 l 做一个符号位修正,把量化引入的注意力偏差直接清零。 整个过程不需要任何校准数据,不需要训练码本,完全从数学推导出来来看,数据内存压缩六倍,七十 b 模型的 k v 缓存从八十级字节压到十三级字节, 对比一下,之前最好的 kv 只能压缩二点六倍, kv quant 大 概三到四倍, turbo quant 直接翻倍了。 h 一 百上注意力计算快八倍。不过要注意,这个八倍是 attention register 的 速度,不是整个推理链路的加速精度呢。 long bench 综合评分五十点零六,基线是五十点一六,几乎无损,大海捞针测试也是满分 最硬核的一点。论文证明了 turbocond 距离 shandong 信息论下界只差二点七倍。通俗的说,不管用什么算法,在同样的比特预算下,最多只能比它好二点七倍,已经接近物理定律的天花板了。投资者没等同行评选,直接用脚投票。 三,迪斯科暴跌百分之十一, micro 跌百分之七, sk 海力士跌百分之六点二,三星跌百分之四点七,连英伟达都跌了百分之四点二,费成半导体指数整体跌了近百分之五。 同一时间,纳斯达克在涨。一篇论文,没有产品,没有代码,四八小时蒸发数十亿美元。 不过 morgan stanley 的 分析是很冷静,他说市场反应过度了, turbo crown 只压缩 kv 缓存,不压缩模型权重, 对整体内存需求的影响没有六倍那么夸张。他维持了 minecraft 和 sandisk 的 增持评级,但这里有个大反转, 经济学上有个概念叫杰文斯辩论,资源越便宜,人们用的越多,省了六倍内存,公司就会跑六倍。复杂的模型,我们查到的社区实测也验证了这一点。 m 四 air 十六,即字节的 macbook, 之前跑九币模型到两万上下文就会崩溃。 用了 turbocharged 之后,稳定运行速度,八个 token 每秒,需求不会减少,只会爆炸式增长,这就是 turbocharged 的 全部核心内容,觉得有用的话点个关注,我们下期见。

本地跑大模型的起点终于要来了!就在昨天, google research 放出了一个逆天的研究成果, turbo quant 极速量化算法,它能够在不损失任何精度的前提下,大规模减小模型大小,而且内存消耗减少六倍以上,运行速度 提升八倍。这对于做本地 l m 部署高向量剪索的开发者来说,简直是史诗级利好。我初步看了下论文和相关资料,他用了两部极其优雅的数学策略,首先,利用 polar quant 将 传统的直角坐标系转化为极坐标系,解决了传统量化方法的额外内存开销。第二步,使用 qgl 算法,只用意比特的算力做极限纠错,保证了大模型 attention 机制的绝对精准。实验结果也证明了 turboqant 算法的强悍。在 nih 测试中, turboq 可以 以百分之二十五的 k v 缓存实现零点九九七的完美召唤率。而令人惊叹的是,即使被极度压缩,它的信息提取表现与未压缩的三十二比特全精度原始模型分毫不差,真正做到了零精度损失。在 long beach e 紫级测试中, turboq 可以 将 k v 内存压缩至少四点五倍甚至六倍的同时, 得分仍大幅超越目前的主流压缩算法。在 h 一 百上进行注意力逻辑值测试时,斯比特的 turboq 实现了比三十二比特未量化版本高达八倍的星能飞跃。 有兴趣深入研究的兄弟强烈建议去看原论文,学学顶级算法科学家的思路,我会在精读完论文之后和大家分享更深入的内容。

最近谷歌发的一个量化压缩的算法简直太离谱了,跟全精度的性能是差不多的,但是它量化压缩到了斯比特,相当于是之前的十六分之一的内存损耗。 它这个算法不光是可以应用在 kvatch 上,也可以应用在模型压缩上面,但是它实际实验和测试基本上都是用在 kvatch 上,可以看到它的斯比特跟它全精度的评分是一致的, 而且在很多时候它用三点五比特和二点五比特,跟之前的完整的 k v k h, 它的性能是差不多的。 我们来详细看一下它这个技术。博克。首先我们说一下这个 k v k h 是 一个什么东西,因为现在很多模型它在运行的时候,它会计算前面的 k v k h, 只要你新的对话进来的时候,你前面的历史记录是没有变的,那么前面的很多计算好的东西你就可以附用,但是前面这个东西你必须要保存下来, 当你前面的这个历史记录非常长的时候,比如说有一百 k, 那 么它的 kvch 的 内存就会非常的大。还有一个点就是当你是多用户或者多任务的时候,那么你前面的 kvch 的 对话肯定有非常多的版本,所以说你存 kvch 的 时候,也需要存为非常多的版本, 那么你的这个内存肯定就上去了。怎么样下降这个的内存,而且它 k v k 的 效果还不会下降,这个就是现在模型推理非常重要的一个优化点,特别是像我们代码 动不动它的上下文就是一百 k, 动不动,它预见的提示词就是几十 k, 你 都还没发消息,它的系统提示词工具这些已经占掉了几十 k, 那 么 k v k 的 优化是非常 重要的。 ok, 他 就说了一下他们这个 turboquat 的 一个工作原理,它主要分成了两个部分,一个部分就是高质量的压缩,把这种向量如何量化到这种低比特,而且不会损失多少。 他们的这个方案是他会去简化了这些数据的一个几何结构,因为之前的几何结构它可能有非常高维的空间,然后方向那些会非常的复杂。 用人话来说就是你有一个面团,他一巴掌把这个面团拍扁了,把它拍到一个稍微大一点的平面,然后再对这一样大一点的各种 k o k h 进行量化压缩,把它量化到具体的比特位,但是量化到比特位的时候,比如说一比特就是零和一, 当它大于零点五的时候,它就直接氧化到一了,当它小于零点五的时候,它就氧化到零了,那么之间的这个误差怎么办?第二个部分就是来降低这个误差的,它应用了一个 q j l 的 算法, 他其实也是用了一个伊比特的压缩,把他换算成了一个方向和他的这个不长,这样的话,因为他是对这个误差的转化,所以说他用伊比特再加上不长的就不会损失掉过多的精度,因为他没有对原始的这种高维信息特别多的进行这种量化, 所以说它的准确度也会非常的高。最终达到的效果就是它跟全量上下文加载在 k v k h 三点五的时候,它的性能是差不多的,并且它的速度会非常的快,三点五接近四比特量化, 那么它比之前的全量 k v k h 十六比特要要节省了十六分之一,所以说它这个性能还是非常亮眼的,可以看到 他用的拉玛三点一八 b 的 来进行测试,完整缓存的十六部比特和他的三点五和二点五比特,二点五比特只损失了一点点,然后三点五比特几乎没有损失, 甚至在有一些上面他还要更好,在这种药物上会稍微差一点点,但是在这个 g b 效果又会更好,所以说他几乎没有任何损失, 而且它的项链压缩至少压缩了四点五倍,这个还是非常离谱的,因为我们跑本地大模型的时候,一般是跑个八币或者十六币,然后三十二币的模型基本上就是要三十二 g, 但是你想要跑到十六 k 或者三十二 k 以上,那么你就得预留出来这么多的一个 k v k 就 相当于三十二币,你就得有六十四币这个运存,那么你才能跑个三十二 k 级以上。但是如果有这个方式的话,六十四 g 的 内存它就可以跑六十四 k 或者一百多 k, 这个还是非常离谱的一个优化了。但是我讲的可能不太好啊,只能说大概把它这个逻辑讲出来了,如果大家对算法比较熟悉的,建议看一下它的原论文的这个逻辑还是非常的精妙。

当我们和一个 ai 交互,感觉他反应很慢时,第一反应往往是怪他脑子不够快,觉得处理器算力不够。 可如果你仔细看一块现代主板的物理布局,就会发现,处理器明明就在那里,速度本身快的惊人。 真正的问题不是芯片算不动,而是数据得沿着电路板上的线路跑很远,才能送到芯片面前。 这就是工程师常说的 memory wall, 也就是内存强。结果就是那些超快的 gpu 反而会空转。不是因为它们不够强,而是因为数据从存储器搬出来,再穿过整块板子,实在太慢了。 如果底层这套物理管道没法及时把数据喂给芯片,那你就算做出更快的处理器也没用。 ai 对 话里最容易把这套管道堵死的东西叫做 k v cash, 你可以把它理解成 ai 的 一份工作记忆账本,它得临时记住自己读过的每一个词里最关键的特征,才能判断下一句该怎么接。如果你只给 ai 一 份两页纸的文档,这份账本还不大, 可一旦你知, google research 最近放出了一套叫 turboquat 的 算法,它不是去缩小 ai 模型本身,而是对那份庞大的工作记忆账本下重手,直接把它压到原来大约六分之一的体积。 这个消息一出来,技术圈立刻炸了,论坛和社交媒体上到处都是梗图。把 turboquat 拿来和硅谷里虚构的 pptape 压缩算法作对比,看起来像是一种几乎无损、近乎不可能的压缩魔法。 按数学直觉,高危 ai 记忆如果被压掉百分之八十五,模型基本应该当场失忆。那 google 到底是怎么做到既打穿物理瓶颈,又没把 ai 的 脑子一起打坏的? 这里最核心的障碍其实是几何结构。 ai 依赖 tencent 机制,而 tencent 本质上就是在测量数据点之间非常精确的几何角度和距离,借此判断哪些词彼此相关。 你要是在压缩过程中不小心把这些角度搞偏了, ai 立刻就会跟丢上下文。更麻烦的是,原始 ai 数据本身就非常尖次,非常不均匀。 看这个散点图就知道,数值分布乱得很,很多点会挤在一些随机角落里,别的区域却几乎是空的。面对这么混乱的分布,你根本不能一刀切地做统一压缩。 turbo quantum 的 第一步就是一种叫。这个方法的作用是在真正压缩之前,先故意把数据搅一遍。通过快速旋转那个高维空间,原本那些乱七八糟扎堆的点会一下子被抹匀,原本混乱的数据会变成一个分布均匀可以预测的数据球体, 你可以把它想成把葡萄干揉进面团里。这个旋转过程会把那些能量很高挤成一团的数据块,平均分散到所有坐标上,确保矩阵里每一块看起来都差不多,行为也差不多。 也正是因为把这些本来不可预测的数据硬生生拽进了这样一个平滑的数学形状里, turbo 旷特才具备了后面那种盲打式强压缩的前提条件。 等数据被抹平之后,系统就进入第二步,接近最优的标量量化这里,他们做的是大刀阔斧的砍掉数字精度, 把原来臃肿的十六笔硬生生压到每个坐标只有二点五笔或三点五笔。这里的二点五笔也不是什么硬件魔法,而是通过平均值算出来的。具体做法是把一百二十八个数据通道拆开看,给少数特别关键的离群通道分配三比特, 而把绝大多数普通通道直接压到二比特。一旦你砍掉这么多数值精度,就一定会引入一种细微但致命的数学偏差。这种重压缩带来的偏差会慢慢压在 ai 的 artisan 轨迹上,悄悄把内部几何结构扭歪,最后把模型的逻辑一点点带崩。 turbo quant 用第三步来把这件事纠正回来,也就是 one beat residue correction。 一 位残差校正,他会先把压缩误差精确算出来, 再在另一侧补上一个很小的一位校验量。这样一来, athens 那 条线就会立刻被拉回原本该走的轨道。 这个额外补进去的单比特就像一个锚点,专门负责把系统偏差拽回来。也正因为这样,他们才能再把体积压到原来六分之一。这种极限条件下,依然把 ai 内部逻辑在数学上保持完整。真正跑起来之后,基础结果也和 google 说的差不多。 把 case 设在三点五 bit 时, terabyte 在 认知表现上几乎能和一个完全不压缩的十六 bit 大 模型打平。由于内存占用一下子缩小了很多,数据在硬件里搬运的速度也就快得多在标准。 但这里还有个转折,网上最火的说法是 turbo 矿的能把内存压到六分之一大小。可这件事成立的前提是,你得把压缩一路压到二点五 b, 而不是三点五 b。 如果看论文里这张图展示的 longbench 实测数据,十六 b 和三点五 b 的 分数是完全打平的,都是五十点零六。 但只要你继续往下压到二点五 b, 分 数就会掉到四十九点四四。在这种极限压缩下, ai 在 复杂文本总结任务上已经会出现可测量的退步。 也就是说,这套算法终究还是受物理边界约束。真要把压缩做到六倍这个目标,代价就是 ai 认知准确率会出现直接而且可测量的损失。工程圈尤其像 hack news 这样的论坛,也提了不少现实问题, 大家质疑的是,这种碎片化的混合二点五 b 的 数学结构,怎么才能在真实硬件上高效部署,毕竟现实里的芯片通常是按完整八比特整数来处理的。 另外,学术争议也已经起来了,来自苏黎世联邦理工的研究者就公开质疑。还有一点也得说清楚, turbo 矿它并没有解决训练这些模型成本,它真正改变的是推理阶段的经济账, 也就是当你要把模型每天跑给几百万并发用户时,那部分日常运营成本。 turboquat 证明了一件事,随着硬件物理极限越来越明显, ai 工程真正的战场已经变了。 未来决定 ai 胜负的,不会只是单纯比谁算力更猛,而是谁更能拿下这场看不见但极其关键的内存压缩几何战。

谷歌深夜发布核弹算法, ai 内存净压缩六倍,内存股一夜蒸发九百亿!谷歌研究院三月二十六日发布 turbopoint 压缩算法,宣称能在不损失精度前提下,将 ai 运行时键值缓存内存占用降低六倍,性能提升最高八倍。消息一出,美光、三星、 sk 海陆士等存储巨头股价硬升暴跌,三日市值蒸发超九百亿 美元。这项技术精准破解了 ai 大 模型的内存强瓶颈,飞花越长,缓存占用内存越多,缓存压缩至仅三比特精度 别慌!专家指出,这仅是情绪性错杀技术,仅针对推理缓存,不影响核心硬件需求。反而内存成本降低六倍后,原本因成本过高无法落地的超长文本对话、手机观测 ai 等应用将迎来爆发式增长,带动整体存储需求扩容。你觉得内存股这波暴跌是机会还是风险?评论区聊聊你的看法。

kvcash 压缩进入三比特时代, google 发布 turboqant 长文本再无显存焦虑。核心观点,最近 google 研究院发布的 turboqant 真的 有点黑科技的意思,它成功地将 o l m 推理中最占空间的 kvcash 从 b f 一 六 f p 八直接压到了三 beat, 而且最狠的是,在长文本任务中几乎做到了精度零损失。为什么这个技术很重要,显存占用值降六倍。 同样的显卡,以前只能跑三十二 k 窗口,现在跑二零零 k 甚至更长都不再是梦。速度反向起飞。在 h 一 零零上,斯比特模式的注意力计算比微量化时快了八倍。不搞小动作,不需要重新训练模型,也不需要复杂的微调, 属于拿来即用的底层算法。优化背后的魔法 powerpoint 及坐标量化别再死磕 x y 轴了,换成角度和半径来存数据,角度分布比数值大小稳得多,直接省掉了传统量 画里最占空间的缩放因子。 q g l 算法用最后一比特的余力做数学纠错,把量化误差消解于无形。 个人评价,在大模型长文本高吞吐的需求面前,内存瓶颈一直是房间里的大象 turbo quant 这种从底层数学逻辑及坐标变换出发的优化,比单纯对硬件更有优雅感。

本周 top 进展,谷歌黑科技改写算力规则,巨头新模密集登场,国产 ai 强势领跑一分钟我们速度 ai 关键进展和核心趋势本周头号炸场 谷歌 turbocharger 压缩黑科技横空出世,无需微调模型,靠极坐标变换加一比特误差校正,把大模型 k v 缓存压到三比特,内存狂降六倍 h 一 百推理速度飙升八倍,常文本推理零精度损失,小显存设备跑大模型成为现实,直接引发存储芯片板块震动。 谷歌另一王炸 agent smith 智能体爆火出圈,员工抢用挤爆服务器,手机就能远程指挥,自动写代码测漏洞办办公自主星拉满布灵亲自参与研发,谷歌更是把 ai 工具纳入绩效考核。 antropica 绝密模型 cloud middles 意外泄露, 实力碾压所有旗舰编程,学术推理网络安全能力断层领先,因安全风险仅封闭测试,堪称最强闭卷王。多魔肽与前沿科技全面爆发谷歌 jimmy 三一 flash live 实时语音 ai 覆盖两百国,自带隐形水印防造甲 madetribv 二、数字大脑模型 秒预测人脑神经活动全开源助力脑科学研究国产 ai 火力全开智普 glm 五点一编程能力逼近全球顶肩订阅套餐瞬间售罄。昆仑万维三大模型登顶,游戏视频、音乐赛道视频模型拿下全球第一。 蚂蚁 f 二 l l m v 二支持两百八十二种语言横扫十一项评测第一。港科大 facebook 用人自拍视频训练机器人,大幅降低巨深智能成本本周 ai 核心趋势已定,效率优先,智能体爆发多模态生化安全与开元并重,这场 ai 革命正以肉眼可见的速。

炸了!谷歌刚发布了一项让 ai 界沉默的技术大模型,最大的瓶颈不是算力,是内存。每一次推理, kv 缓存都在疯狂吞食资源。谷歌的 turbo 扩耳听,一个近乎暴利的方案解决了这个问题, 把高维向量压缩到三个比特,精度损失为零,速度提升最高八倍,内存直接砍到六分之五。这下内存不再是至于 ai 的 门槛,未来低内存的端测, ai 可能迎来新一轮计划。好了,关注我,每天都有 ai 新资讯。

谷歌推出压缩算法 turbo quant, 宣称时限约六倍内存节省才联设三月二十六日电 谷歌近日推出了一种可能降低人工智能系统内存需求的压缩算法 turbo quant。 根据谷歌介绍, turbo quant 压缩技术指在降低大语言模型和向量搜索引擎的内存占用。 该算法主要针对 ai 系统中用于存储高频访问信息的向量搜索引擎的内存占用。该算法主要针对 ai 系统中用于存储 key value cake 瓶颈问题。 随着上下文窗口变大,这些缓存正成为主要的内存瓶颈。 turboqant 可在无需重新训练或微调模型的情况下,将键值缓存压缩至三倍精度,同时基本保持模型准确率不受影响。 对包括 gemma、 mister 等开源模型的测试显示,该技术可实现约六倍的键值缓存内存压缩效果。 此外,在英伟达 h 一 百加速器上的测试结果显示,与未量化的见向量相比,该算法最高可实现约八倍性能提升。研究人员也表示, 这项技术的应用布局限于 ai 模型,还包括支撑大规模搜索引擎的向量解锁能力。谷歌计划于四月的国际学习表征会议 iqla 二零二六上展是 turboqant 技术。

最近谷歌发了篇论文,直接把内存芯片巨头的股价给干崩了。美光、三星这些大佬估计也没想到,自家的生意竟然会被几行算法代码给冲击了。这件事的核心主角叫 turboqant, 简单来说,它就像是美剧硅谷里那种近乎无损的极限压缩算法,在现实中成真了。咱们现在的 ai 大 模型虽然聪明,但有个毛病,特别吃内存。 当你和 ai 聊得越久,它为了记住前面的话,就会产生一个叫 kv 缓存的东西。这东西就像是 ai 的 临时笔记,对话越长,笔记越厚,最后直接把显存挤爆,电脑就卡死了。 这一直是限制 ai 处理超长文档的核心瓶颈。谷歌这招厉害在哪呢?它实现了六倍压缩,而且最神的是精度零损失,完全不需要重新训练模型。它是怎么做到的? 他把数据记录方式改成了极坐标,以前极数据像是在地图上标坐标,要说往东走三米,再往北走四米,现在他直接说朝三十七度方向走五米,信息量一点没少,但描述变得极其简练,还省掉了不少额外的存储开销。 再加上一个叫 qgl 的 技术做残差修正,把压缩后微小的误差也给抹平了。结果就是,同样的显卡现在能存下六倍的数据, 运行速度最高还能快上八倍。这就让投资者慌了,既然 ai 变得这么省内存了,以后大家是不是就不买内存条了?于是芯片股应声下跌。但也有分析师认为大家想反了,这叫杰文斯辩论。 当一样东西变得又便宜又好用,大家反而会用的更多。原本因为太贵太占内存而跑不动的 ai 应用,现在可能连手机都能轻松运行,这反而会刺激出更庞大的 ai 应用,现在可能连手机都能轻松运行。总的来说,这被业内称为谷歌的 deep seek 时刻, 它告诉我们 ai 的 未来不只是拼命堆硬件,聪明的算法同样能让物理极限低头。

谷歌 turbo coin 算法直接击穿英伟达显存壁垒,直接宣告显存焦虑时代终结。谷歌研究团队发布 turbo coin 算法, 让 air 短期记忆缓存内存占用降了六倍,速度提升八倍且零精度损失,二十四 g 消费级显卡就能跑。原本需八零 g h 一 百的大模型,用大白话说就是把大象装进冰箱,显存需求被压缩到六分之一,意味着同样一笔算力投入, 开发者可以用原本六分之一的硬件预算,或者用同等预算撑起六倍的模型规模。显存焦虑彻底终结算法打破英伟达硬件溢价逻辑,算力自由时代来临,关注我,为您带来更多 air 冷知识!

说真的,每次看到大厂发那种颠覆性的论文,我内心都会先翻个白眼。但这次 google 这个 turbocharger, 我 得承认,有点东西,它不是那种我们把参数砍了一半,然后说性能持平,但常规操作,它是真的在动手术的刀法上换了逻辑。咱们摊开了说, 现在的的 ai 大 模型有个特别尴尬的毛病,健忘症兼囤鸡皮。为了记住上下文,他们得搞个 k v cash 键值缓存。这玩意儿就像是你跟别人聊天,为了不忘之前说了啥,得把每句话都录下来存脑子里,聊得越久,脑子越沉。传统的优化方法是什么? 是压缩,但那种压缩特别蠢,就像你把衣服塞进真空袋,结果为了封口,每个袋子还得配个充气泵和说明书。 troublecunt 最让我觉得有意思的地方在于,他换了个视角看数据,他直接把数据旋转到极坐标系里,这一步操作直接把那些繁琐的边界计算给省了。 这就好比大家突然约定都用时差,而不是秒来计时。虽然精度看似低了,但对于什么时候吃饭这事来说,效率高了无数倍, 这点让我挺震撼的。用一个比特的信息量去校准高维空间的偏差,这就像是用一根头发撕去拉住一艘正在漂移的巨轮。理论上,这叫 johnson linden strauss 变换。通俗点说, 他找到了数据里那个不变的股价,只要股价在肉稍微少点没关系,动起来还是那个位儿。结果呢?三倍的量化无损 k v 缓存,直接缩减六倍,推理速度在 h 一 零零上跑了八倍速。这意味着什么?意味着以后你在手机上跑个大模型可能不再是个笑话,意味着搜索不再是关键词匹配,而是真正的语义理解, 而且快到你感觉不到延迟,但我得泼盆冷水。 turbocont 确实漂亮,但它在实验室里跑分漂亮,到了真实世界那种脏乱差的数据环境里,会不会水土不服?我们总是习惯用更多来解决不够,用更大的显存, 更多的参数去掩盖效率的低下。但 turbocont 告诉我们,有时候理解世界的最好方式不是记录每一个细节,而是找到描述它的最短路径。

google 刚发了个论文,炸翻了 ai 圈, turbo quant 号称把大模型的内存占用砍到六分之一,速度还快八倍,精度几乎不掉。但别急着兴奋, 先搞清楚它到底是什么。本地跑大模型,你最大的噩梦是什么?显存不够?你买了个七十币的模型,以为 i n t 四量化到二十只币就能跑,结果一开长,对话直接爆显存。 为什么?因为模型本身只占二十 g 币,但对话过程中有个隐藏的内存大户在疯狂吃现存,它就是 kv 缓存。通俗讲, kv 缓存就是大模型的笔记本,你在跟他聊天,他得记住你之前说的每一句话。 对话越长,笔记本越厚,吃的内存越大。一个八 b 的 小模型,摇三十二 k 个字, kv 缓存就要吃掉几 g b, 聊到幺二八 k 直接翻四倍。所以你看到的现象就是开始聊得好好的,突然就崩了。 google 的 思路很聪明,不是把模型变小,而是把这个笔记本压缩。传统做法是把十六位数据压到八位,内存减半, topo quant 直接压到三位,内存降到六分之一。怎么做到精度不降?用了两个绝招。第一步叫 polar quant, 想象你有一堆数据,有的挤在一起,有的很稀疏, 他先把这些数据搅三搅匀,然后压缩效率就高多了,就像把衣服叠整齐再装箱。第二步叫 q g l, 压缩过程中肯定有误差,他用一个比特做残差校正,把误差补回来,两个结合 三比特,压缩精度几乎不掉。 google 论文里贴的数据确实漂亮, k v 缓存压缩到六分之一 h 幺零零上,速度提升八倍。 longbench 和 n 的 测试分数跟全精度几乎没有区别,但这些数据是论文里的,不是你电脑上跑出来的。诚实说, turbocharged 现在还是论文阶段, google 官方代码计划今年第二季度才发布。 lamo capp 和 v l l m 有 社区开发者在做,但都还是 draft 状态,没有正式合并。也就是说, 普通用户现在还不能直接用。但有个好消息,有个叫 routerquant 的 开源替代方案已经可以用了。它的思路跟 turboquant 一 样,但更清亮。 piping store 加一加一个点就能装, github 上搜索 square 减 com slash routerquant 就 能找到。先说现在, 如果你是本地跑小模型的用户,影响不大。 turboqant 压的是 k v 缓存,不是模型权重,模型本身装不下它也救不了。但如果你是跑大模型的,比如七十 b 模型,勉强塞进去了,长对话就爆显存, 那这个技术一旦成熟,体验会质变。再说未来, k v 缓存压缩意味着同样硬件能跑更长的对话,或者同时服务更多用户, 对于 ai 应用开发者成本直接打骨折。 turboqant, 谷歌发的一篇潜力巨大的论文,可以为缓存压缩到六分之一,精度不降,但代码还没正式发布。 关注它,等 q 二官方代码出来第一时间试 rootqant。 现在可以先玩。点赞加关注,赛博杨先焕,明天见!

谷歌刚刚丢了一个炸弹,一项叫拓补款的新技术,能把 ai 模型的内存占用压缩到原来的八分之一,而且几乎不损失精度。这意味着什么? 不只是 ai 变快了,整个内存芯片市场的逻辑可能都要被改写。再说背景大模型推理的时候,有个东西叫 k v 缓存,他负责记住之前对话的内容。问题是上下文越长,这个缓存就越大, g p u 显存很快就被吃光。传统的压缩方法呢,需要额外存一堆量化常数,反而多占了一到两位的内存,压缩效果大打折扣。 特步宽的解法分两步,第一步叫 pull 宽,把向量转到极坐标系,用固定网格替代传统的变动边界,直接消灭了量化常数的额外开销。第二步叫 q l, 用一种数学变换,把残余误差位正一或者负一零,额外内存 两步叠加,实现了理论最优的压缩率。赵国有多猛,三比特量化就能做到无精度损失。四比特模式下,在英伟达 h 一 百上实现了八倍性能提升,长文本场景内存缩减六倍以上, 在龙奔驰、大海捞针等主流基础上全部通过验证。而且这不是实验室里的论文,谷歌已经把它用在了之迷你模型上。 现在说重点,就对内存市场意味着什么。过去两年, ai 是 hbm 高带宽内存最大的需求引擎,英伟达每卖一块 h 一 百,就要配八十 g 的 hbm。 三 sk、 海力士、三星镁光三家内存厂的 hbm 产线全部满载,利润创历史新高。 但退款这类技术一旦普及,同样的任务,只需要原来八分之一的现存企业会想,我还需要买那么多 gpu 吗?还需要那么多 hpm 吗?更深层的影响在公己测, hbm 的 能耗扩张周期是十八到二十四个月, 三星和 s k 十历史正在砸数十亿美元建新产线。如果需求端被压缩,技术削弱,这些产能可能变称过剩。内存芯片是个典型的周期行业,需求预期一旦转向,股价和利润会剧烈博动。 当然,反过来看,压缩技术也可能让更多企业用得起 ai, 反而扩大了总需求,但短期内市场情绪一定会受到冲击。总结一下,特步款不只是一篇技术论文,它代表了一个趋势, 软件层面的效率突破正在重新定义硬件的需求曲线。对于 ar 从业者,这是好消息,更低的推理成本。对于内存产业链,这是一个需要认真对待的变量。感谢观看,我们下期见。

朋友们,谁能想到,谷歌昨天发布的一个新功能啊,却让美股的存储板块集体闪崩,美光闪迪,西部数据啊,全部收跌,而且呢,是在纳斯达克整体啊涨了百分之零点七, 而且占稳了五日均线的情况下。谷歌刚发布的这个黑科技呢,叫 turbo count, 简单说啊,就是一种 ai 内存的压缩算法。我大致了解了一下啊,就是以前跑一个大模型可能需要六块内存条,现在呢,用它这个算法啊,可能只需要一块就能跑通,内存的占用呢,直接是原来的六分之一。 那么市场的逻辑很简单啊,软件变强了,硬件的需求呢,是不是就减少了?哎,但是大家也要冷静下来想一想啊,这种冲击性很强啊的这种标题式的消息,哎,他有时候往往是暂时的, 那虽然单位的存储需求减少了,但是 ai 的 门槛呢,也降低了,那以后人人如果都能跑模型,那总需求真的会跟着降吗? 目前呢,可能谁也说不清,总之市场对这一点呢,目前可能是有些担心,所以我就想到啊,巴菲特为什么喜欢投那些传统行业,尤其是那些技术轻易改变不了的公司 啊,因为这些前沿技术他迭代太快了,尤其是现在我们所出的这个 ai 时代,那颠覆性的技术呢,可能还会层出不穷。 哎,就像前段时间啊,市场担心呢,就 ishtropic 那 个 cloud 大 模型啊,对很多美股的萨斯软件公司有可能造成降维打击, 像什么 photoshop 之类的啊,都跌了很多,就连最稳的全能选手微软啊,我们看它从高点都跌了百分之三十多,这也是我们如果选择啊,投资高科技行业的一个潜在的风险。 好,那回到存储的问题啊,谷歌的这个新技术啊,到底是技术红利还是行业利空?大家怎么看?评论区可以留言聊一聊。