压缩算法虚惊一场,这八个字价值万金!兄弟们,我来谈一个非常重要的,对大家马上就有帮助的,叫做压缩算法,这句话很值钱啊,因为在上一周周四的时候,谷歌推出了一个叫 turbo turbo 的 那个压缩算法, 这个说法说能让内存条在 ai 里面的应用见低百分之八十五,就六分之一,比如说突然发现,哦,对内存的消耗见低六分之一,说导致全球 ai 内存市场大幅向下,也导致市场上这块一片绿油油。来,我问大家,你们觉得这是一个 实质性的还是一个阶段性的?哎,这个问题很重要啊,这问题意味着你可以上车下车啊,兄弟们,如果这个行为判断清楚,你下周就可以吃到肉啊。来我我我给大家交流一下,把这八个字打在公屏上面,叫做压缩算法 虚惊一场,这八个字价值万金。兄弟们,你理解清楚了,周一你就可以去上车,两个月你回来会感谢我的,你不管是拿五个 w, 十个 w, 一 百个 w, 你, 周一你们懂的,你去上车,将来几个月你会感谢我的,好不好?你周一会看到 他的深微的这个反弹的,你们一周以后,半个月以后,你过来验证。说实话,我很少对短期的做预测,但我确实觉得这个有点过分了,这是个机会啊, 因为存储芯片就是个篮子,它把这个一个纸张丢进篮子之前,它把它捏了一把,捏了一把丢进去,让那个同样幺二八或者 e t b 二五六 或者五幺二的内存装的更多。但这个算法的话呢,确实提高了存储效率,但不影响存储的需求。为什么不影响?因为现在存储的需求根本就满足不了这第一个,第二个,我专门看了调研报告, 它还会增加 a i 公司的盈利,做到了蒸馏模型,它有点像这个, 它其实会增加 ai 企业的盈利性,并没有影响内存条的需求。说减了虚惊一场,就意味着现在是一个叫倒车接人叫上车的最佳时机节点。你现在在周一,你上车在未来一段时间应该是可以期待的。我希望你把我这句话的信息含量、含金量你去消化下,变成你自己的真金白银。 说想要跟我学习的链接的,你就拍右下方的课程啊,我这个课是全网非常受欢迎的减创业、减营销、减头的课程, 点教你上半场创业下半场头的课程。这课程是叫做抓住科技龙头,赢在重铸时刻的课程。两天在深圳南山区面对面的课程,在这个科技创富的时代,教你抓住科技龙头,赢在重铸时 刻。我这里面讲了中美科技的博弈,还有国产代替的机会,以及大草原上面四十家算力公司、芯片公司、关联公司的业绩、 盈利、订单的真实性、技术的前瞻性,全部给大家分析,说我们这个卖点就足够做这个都价值万金。我们的课叫做思贤的盛宴,财富的密码,大家抓紧时间去拍,你不拍的话,这是我四月份最后一期课程,再要买的话就要到五月中旬了,因为五一有假期, 是一人一票,一课一次,我的课远远超越这个价格,我的课你希望你又知道,卖四万九千八都值的,这是价值万金的课程,我这里太多人带着他夫人一起来听课了,现在带的小孩都是要买票的,我这里最高的学员是复训了九次,我复训也要花钱买票,说我这个是课程里面的茅台啊。 尤其投资部分讲的非常精彩,我的投资会分析中美的宏观趋势会在哪一个板块展开, 我会讲高风险高回报的一些饼圈的投资,更多会讲我们 a 股、大 a 市场科技股、芯片股的投资,说这是全网好评如潮,复训率非常高的课程啊。两天面对面在深圳南山区的课程啊,两天,你们抓紧时间去拍了。去拍了啊。
粉丝45.5万获赞163.0万

就在内存价格一路狂飙的时候,谷歌的一篇新论文直接把美股内存板块干崩了,连 call 泪儿 ceo 看后都惊呼,这是谷歌的 deep seek 时刻, deep seek 用极少算力训出了顶尖模型。而谷歌这次放出的超级大招 turbo quint, 是直接让 ai 推理的内存需求打了个骨折。这项技术到底牛在哪里呢?简单来说,就是以前 ai 在 处理长文章或陪你聊天时,为了方便翻找,会像学霸一样把关键信息写在小抄上,也就是 k v 缓存。但如果小抄写得太详细,就会占满内存,让 ai 变慢,还特别费钱。以前的压缩方法就 像是强行把字写小,但这样 ai 不 仅容易看错字,还得去记缩写规则,反而更麻烦。那谷歌这次是怎么破局的呢? turbo quint 甩出了两个神操作。第一招 power quint 技术,可以理解为换个姿势记笔记。以前 ai 记位置用的是坐标系,比如向东走三步,向北走四步,麻烦又占地方。现在谷歌让他直接记, 朝三十七度方向走五步。就这一个视角的转换,直接省下海量空间,还绝对不会认错。但只要是压缩,总会有点小误差,对吧?这就引出了他的第二招 q j l 技术,只用一个符号纠错,他仅仅用一个正负号,就把压缩后的一点点瑕疵神奇的抹平了,零额外内存开销速度快到飞起。那这两套连招打下来,结果有多恐怖呢? 运行的 k v 缓存直接从三十二位压缩到三位,内存直接少用六倍以上。在英伟达 h 一 百显卡上,它的注意力计算速度快了八倍,最夸张的是回答准确率完全不下降,而且不需要重新训练,模型拿来就能插上用。在这个内存价格动辄暴涨,全网都在焦虑算力成本的时代,谷歌这是又扮演了一次救星吗?

说真的,每次看到大厂发那种颠覆性的论文,我内心都会先翻个白眼。但这次 google 这个 turbocharger, 我 得承认,有点东西,它不是那种我们把参数砍了一半,然后说性能持平,但常规操作,它是真的在动手术的刀法上换了逻辑。咱们摊开了说, 现在的的 ai 大 模型有个特别尴尬的毛病,健忘症兼囤鸡皮。为了记住上下文,他们得搞个 k v cash 键值缓存。这玩意儿就像是你跟别人聊天,为了不忘之前说了啥,得把每句话都录下来存脑子里,聊得越久,脑子越沉。传统的优化方法是什么? 是压缩,但那种压缩特别蠢,就像你把衣服塞进真空袋,结果为了封口,每个袋子还得配个充气泵和说明书。 troublecunt 最让我觉得有意思的地方在于,他换了个视角看数据,他直接把数据旋转到极坐标系里,这一步操作直接把那些繁琐的边界计算给省了。 这就好比大家突然约定都用时差,而不是秒来计时。虽然精度看似低了,但对于什么时候吃饭这事来说,效率高了无数倍, 这点让我挺震撼的。用一个比特的信息量去校准高维空间的偏差,这就像是用一根头发撕去拉住一艘正在漂移的巨轮。理论上,这叫 johnson linden strauss 变换。通俗点说, 他找到了数据里那个不变的股价,只要股价在肉稍微少点没关系,动起来还是那个位儿。结果呢?三倍的量化无损 k v 缓存,直接缩减六倍,推理速度在 h 一 零零上跑了八倍速。这意味着什么?意味着以后你在手机上跑个大模型可能不再是个笑话,意味着搜索不再是关键词匹配,而是真正的语义理解, 而且快到你感觉不到延迟,但我得泼盆冷水。 turbocont 确实漂亮,但它在实验室里跑分漂亮,到了真实世界那种脏乱差的数据环境里,会不会水土不服?我们总是习惯用更多来解决不够,用更大的显存, 更多的参数去掩盖效率的低下。但 turbocont 告诉我们,有时候理解世界的最好方式不是记录每一个细节,而是找到描述它的最短路径。

炸了!谷歌刚发布了一项让 ai 界沉默的技术大模型,最大的瓶颈不是算力,是内存。每一次推理, kv 缓存都在疯狂吞食资源。谷歌的 turbo 扩耳听,一个近乎暴利的方案解决了这个问题, 把高维向量压缩到三个比特,精度损失为零,速度提升最高八倍,内存直接砍到六分之五。这下内存不再是至于 ai 的 门槛,未来低内存的端测, ai 可能迎来新一轮计划。好了,关注我,每天都有 ai 新资讯。

最近谷歌发的一个量化压缩的算法简直太离谱了,跟全精度的性能是差不多的,但是它量化压缩到了斯比特,相当于是之前的十六分之一的内存损耗。 它这个算法不光是可以应用在 kvatch 上,也可以应用在模型压缩上面,但是它实际实验和测试基本上都是用在 kvatch 上,可以看到它的斯比特跟它全精度的评分是一致的, 而且在很多时候它用三点五比特和二点五比特,跟之前的完整的 k v k h, 它的性能是差不多的。 我们来详细看一下它这个技术。博克。首先我们说一下这个 k v k h 是 一个什么东西,因为现在很多模型它在运行的时候,它会计算前面的 k v k h, 只要你新的对话进来的时候,你前面的历史记录是没有变的,那么前面的很多计算好的东西你就可以附用,但是前面这个东西你必须要保存下来, 当你前面的这个历史记录非常长的时候,比如说有一百 k, 那 么它的 kvch 的 内存就会非常的大。还有一个点就是当你是多用户或者多任务的时候,那么你前面的 kvch 的 对话肯定有非常多的版本,所以说你存 kvch 的 时候,也需要存为非常多的版本, 那么你的这个内存肯定就上去了。怎么样下降这个的内存,而且它 k v k 的 效果还不会下降,这个就是现在模型推理非常重要的一个优化点,特别是像我们代码 动不动它的上下文就是一百 k, 动不动,它预见的提示词就是几十 k, 你 都还没发消息,它的系统提示词工具这些已经占掉了几十 k, 那 么 k v k 的 优化是非常 重要的。 ok, 他 就说了一下他们这个 turboquat 的 一个工作原理,它主要分成了两个部分,一个部分就是高质量的压缩,把这种向量如何量化到这种低比特,而且不会损失多少。 他们的这个方案是他会去简化了这些数据的一个几何结构,因为之前的几何结构它可能有非常高维的空间,然后方向那些会非常的复杂。 用人话来说就是你有一个面团,他一巴掌把这个面团拍扁了,把它拍到一个稍微大一点的平面,然后再对这一样大一点的各种 k o k h 进行量化压缩,把它量化到具体的比特位,但是量化到比特位的时候,比如说一比特就是零和一, 当它大于零点五的时候,它就直接氧化到一了,当它小于零点五的时候,它就氧化到零了,那么之间的这个误差怎么办?第二个部分就是来降低这个误差的,它应用了一个 q j l 的 算法, 他其实也是用了一个伊比特的压缩,把他换算成了一个方向和他的这个不长,这样的话,因为他是对这个误差的转化,所以说他用伊比特再加上不长的就不会损失掉过多的精度,因为他没有对原始的这种高维信息特别多的进行这种量化, 所以说它的准确度也会非常的高。最终达到的效果就是它跟全量上下文加载在 k v k h 三点五的时候,它的性能是差不多的,并且它的速度会非常的快,三点五接近四比特量化, 那么它比之前的全量 k v k h 十六比特要要节省了十六分之一,所以说它这个性能还是非常亮眼的,可以看到 他用的拉玛三点一八 b 的 来进行测试,完整缓存的十六部比特和他的三点五和二点五比特,二点五比特只损失了一点点,然后三点五比特几乎没有损失, 甚至在有一些上面他还要更好,在这种药物上会稍微差一点点,但是在这个 g b 效果又会更好,所以说他几乎没有任何损失, 而且它的项链压缩至少压缩了四点五倍,这个还是非常离谱的,因为我们跑本地大模型的时候,一般是跑个八币或者十六币,然后三十二币的模型基本上就是要三十二 g, 但是你想要跑到十六 k 或者三十二 k 以上,那么你就得预留出来这么多的一个 k v k 就 相当于三十二币,你就得有六十四币这个运存,那么你才能跑个三十二 k 级以上。但是如果有这个方式的话,六十四 g 的 内存它就可以跑六十四 k 或者一百多 k, 这个还是非常离谱的一个优化了。但是我讲的可能不太好啊,只能说大概把它这个逻辑讲出来了,如果大家对算法比较熟悉的,建议看一下它的原论文的这个逻辑还是非常的精妙。

今天呢,我们就来聊一聊谷歌最近新推出的这个 turboqant 的 算法,对,它这个算法呢,就是可以让 ai 模型在运行的时候大幅地减少它的内存使用量, 从而让我们在同样的硬件条件下可以跑得更大更复杂的模型,同时也可以推动端侧 ai 的 一个发展。没错没错, 这个技术最近在业内也是非常的火啊,那我们就直接开始今天的讨论吧。我们先来聊一聊这个算法它出现的背景和意义啊,就是这个 turbo quant 算法到底带来了哪些突破性的东西?是这样的,就在二零二六年的三月啊, 谷歌开发者大会上就推出了这个 turbo quant, 它是一种超高效的 ai 模型的内存压缩算法,它厉害的地方就在于它可以在几乎不影响模型推理精度的情况下,把这个 ai 模型运行时的内存占用减少百分之七十以上, 同时呢让这个模型的上下纹长度提升五倍,听起来真的很厉害。那现在这个 hbm 高端的芯片这么紧缺,价格这么高的情况下,这个技术的出现会给行业带来哪些新的变化? 现在不是大家都在愁这个 hbm 芯片贵的跟黄金一样,然后还买不到吗?嗯,那这个时候呢,谷歌的这个算法就相当于说我不用去抢更多的高速公路的车道, 我直接把我的货车给折叠了,然后我还可以多装一倍的货,就一下子让这个 ai 算力的这个竞争从单纯的堆算力变成了谁能够把这个效率做的更高。 对,那其实也打开了一个全新围绕着这个内存墙的一个万亿级的增量市场。懂了,懂了,那这个 ai 的 内存压缩技术,它的行业定位以及它的作用到底是什么?对,以及我们怎么去用一个比较形象的比喻 来解释这个 turbocoin 到底是做什么呢?我们可以把 ai 大 模型想象成一个非常聪明的大脑,那这个显存呢?就相当于它的这个办公桌, 嗯,就是它思考和工作的地方。但这个大模型呢,它不断地在长大,它要处理的信息量也越来越多,但是呢,这个显存这个桌子啊,它因为成本和技术的限制,它没有办法变得很大。明白了, 那这个时候就会遇到空间不够用的问题。对,那 turbocharger 就 像是给这个办公桌装了一套超级厉害的真空压缩袋, 就是它可以把所有的这些资料都非常高效的压缩起来,然后呢,只在需要的时候用极快的速度把需要的那一部分给解压出来, 所以就可以让原来可能需要八张 h 一 零零显卡的这个模型,现在可能两张就够了,甚至可以在单机上面跑。 好的。我想知道为什么这个内存压缩技术会被称为是跨越这个内存墙的唯一的救命稻草,因为它是处于整个产业链的这个底层的架构优化,这一层就它是属于那种地基性的技术。 对,那现在最大的问题就在于这个算力的发展实在是太快了,但是这个显存的贷宽是远远跟不上的, 所以导致那些很贵的 gpu 和 npu 有 百分之六十的时间都在干等着数据。原来如此,怪不得大家都在盯着这个内存压缩,那 turbocharger 它厉害的地方就在于它是纯软件的方案,所以它可以直接突破这个硬件给你设的这个天花板, 然后把大模型的这个内存的瓶颈给彻底的打开,所以就会让原本又贵又慢的这种系统变得更高效,更经济。 ok, 那 这个内存压缩技术发展到现在都经历了哪些阶段? 最早的时候大家用的是这个所谓的一为零的量化,嗯,比如说什么巴比特量化或者四比特量化,就相当于把一张很清晰的四 k 图片硬压成一个三百六十 p 的 那种模糊小视频。 对,那这个模型的表现就会大打折扣,经常会出现一些答复所问啊,或者说理解错误这种情况啊,原来早期的方法会有这么大的副作用。没错,那到了 turbo quant 这就是二点零了,就是他会根据这个信息的重要程度 来给他分配不同的权重。嗯,所以他可以做到对于关键的记忆一点都不损失,然后对于那些不重要的信息就给你极致的压缩。 ok, 就 真正的做到了在几乎不影响这个模型表现的前提下去,把这个内存的效率给大大提升。我还想问一下,就是这个 turbo quant 它的核心创新点到底是在哪些地方?对,然后它是怎么解决这个 kvatch 在 这个大模型的对话过程当中,这个内存占用会暴涨的这个难题的? 其实大模型他之所以能够记住你前面说的话,靠的就是这个 k v kash, 那 这个 k v kash 他的这个特别之处就在于他是专门针对这个东西做了优化 啊,就是以往的那些压缩方法,他们只能压那些静态的模型参数,但是对话过程当中产生的这些临时的记忆, 它是会随着这个对话的轮数不断地增加的,那这部分其实是最难压缩的。嗯,动态的去压缩这个对话数据确实很棘手。对,那 turbo quant, 它厉害的地方就在于它可以高效地去压缩这些不断变化的 k v cash。 ok, 所以 它就解决了这个 上下文越来越长之后带来的这个内存的爆炸。嗯,也让这个超长上下文的这个商业化落地成为了可能。对,而且成本也可控。懂了,那这个 turboqant 到底是怎么做到在提升了压缩率的同时,还能够保证这个 ai 的 响应速度不会变慢的呢? 这是因为它采用了这个硬件和算法的协同设计。嗯,就是它利用了这个新的芯片里面的这个矩阵运算加速器,把这个减压的过程和这个算力的运算放在了一起同时进行。 哦,所以它就不像以前的那种方法,虽然省了空间,但是要花很长时间去解压,它是真正的做到了让这个空间和速度同时都得到了提升。好的,我还有个问题就是这个 turboqant 对 于端侧的 ai 有 什么影响?是不是意味着我们的手机也可以跑那些 原本只有云端才能跑到大模型啊?完全没错,这以前啊,这个一百个币参数量的这种大模型,想都别想能够塞到手机里面。嗯,手机最多就是跑个七币十四币的这种小模型, 那功能就非常有限了。现在有了这个 turbo quant, 是 不是这个局面就彻底被打破了?是的是的,有了 turbo quant 之后,手机上面的这个显存就相当于直接扩容了三倍还多。嗯,就是那些本来只存在于云端的这种高级的 ai 助手, 现在可以直接在你手机本地跑了。哦,那这个就叫做端测私有化,对,而且它还会带动一波新的手机的升级潮。懂了。 然后咱们接下来要聊的就是这个 a 股市场上面有哪些公司会受益于这个 turbo quant 算法的这个落地?嗯,那蓝企科技会在这个产业链里面处于一个什么样的位置?蓝企科技其实是全球领先的这个内存接口芯片的供应商 哦,就不管你的算法怎么去压缩数据,最终这些数据都要经过这个内存接口来进行传输。那这么说的话,蓝卡科技岂不是这个整个数据流通的这个咽喉?可以这么说,而且蓝卡科技它也在积极的布局这个 cxl 的 内存扩展芯片。 这个其实跟 turboqant 的 这个思路也是一致的,都是为了打破这个内存墙。那等到这个算法普及之后,对这种更高待宽,更灵活扩展的这种硬件接口的需求肯定就会激增吧。嗯,那蓝启科技肯定就会最先受益。没错, 那韩五 g 和润和软件在这个适配 turboqant 这个算法的过程当中,分别会扮演什么样的角色?韩五 g, 它是国内的这个 ai 芯片的龙头嘛?它的这个芯片的底层架构是特别适合做这种国产的算法优化的, 那一旦谷歌发布了新的算术,国内的这些算力平台要想快速的跟进,就必须要有这种软硬一体的优化方案。 那韩五 g 因为它的这个通用指令集是非常灵活的,所以它就可以最快地把这个 turboqant 的 这个思路国产化。 ok 啊,所以它是非常重要的一个环节。看来韩五 g 是 这个技术落地的极先锋啊。那润和软件呢?它就是在这个国产的边缘计算和鸿蒙生态上面深耕了很多年。 那因为 turboqant 它最大的市场增量是在端侧的 ai, 所以 任何软件就可以一托于它在这个端侧系统上面的积累,很有可能成为第一批把这个超压缩的大模型,真正的装进智能终端的这个软件方案上。嗯,所以它的这个弹性也是非常值得关注的。好的, 那我们再来看看产业链的上下游啊,就是这个 turbo quant 的 算法的普及,会给服务器集成和存储芯片这两个环节分别带来哪些新的机会?呃,首先就是服务器这一块儿,算法的升级就会带动服务器的架构的变化。 以前的服务器可能就是一味的堆叠 gpu, 那 以后的服务器可能就是要搭配更强的 gpu 和更高密度的内存。那浪潮信息作为全球顶尖的服务器的厂商,它肯定是可以凭借着它强大的工程化能力,率先地推出适配这种 terabyte 这种高能效比的 ai 服务器, 所以它是直接受益的。那存储芯片这一块呢?是不是也会有一些新的机会?当然啦,虽然说 terabyte 它可以节省显存, 但是它反而会带动更多的这种嵌入式的 flash 和一些密集型的存储在终端设备里面的应用。嗯, 那等到这个模型越来越小之后,像赵毅创新这种国产的存储芯片厂商就会获得更多的机会,把他们的产品打进这个 ai 终端的市场。行 啊,这个 turboqant 算法的出现,会给宏软科技这种做视觉 ai 算法的公司带来哪些新的发展机会?宏软科技它一直都是专注于视觉 ai 算法的,而且它在手机和汽车这些端侧设备上面的装机量是非常大的。 那有了这个 tablecount 之后,大模型就可以直接被塞进手机里面了。那这个时候就是一个非常好的契机,让宏晟科技可以从传统的这种视觉算法全面地升级到这种大模型驱动的视觉方案。 对,所以它就会打开一个全新的成长空间。明白了,那这个 turboqant 的 出现对于整个 ai 行业的竞争格局会带来哪些根本性的转变?它其实就是告诉了大家,硬件的极限就是算法创新的起点。 对,就二零二六年这个时间点, ai 行业的竞争核心就从单纯的堆叠算力变成了谁能够用更巧的算法去释放硬件最大的潜力。那这么一来的话,是不是对于投资者来说,大家的关注点也要跟着发生变化了?没错没错,就是你现在再去追着喊算力的公司,其实意义已经不大 了。真正值得关注的是那些在存储接口、端侧适配还有软硬协调这些领域有深厚积累的企业, 因为只有他们才能够第一时间接住这个压缩技术普及所带来的红利。对,今天我们聊了很多关于这个 turboqant 算法的一些突破, 包括它给这个 ai 行业带来的一些全新的可能性。嗯,然后也梳理了一下 a 股市场上面哪些公司会因为这个技术的落地而最先受益。好了,那这期内容咱们就到这里了,然后感谢大家的收听,咱们下次再见,拜拜。拜拜。

你有没有想过, ai 大 模型再强,也会被内存和速度严重限制?最近谷歌直接甩出王炸 turboqant, 重新定义 ai 效率。他靠一套极致压缩算法,把大模型的 k v 缓存压到只有三比特,内存直接砍掉六倍,推理速度狂飙八倍! 最关键的是零精度损失,简单说就是用极坐标变换加 e b t 残差校正,不用微调不用重训,直接让 ai 又小又快又强,场上下文不再卡顿,端侧部署更轻松,就连向量搜索都又快又准。 以前 ai 是 大块头慢动作,现在特步矿特一出手,小体积也能跑出顶级性能, ai 的 效率革命真的来了!

谷歌扔出一颗科技炸弹,内存股瞬间集体大跌,市场一片恐慌。都说 ai 要省六倍内存,内存行业要凉了,但我直接说结论,这纯属无脑情绪。啥内存行业不仅没危机,长期刚需逻辑一点都没变。 咱们先把这件事说透,不带任何偏见,只讲公开消息。财联社刚官宣,谷歌推出了一款叫 turboqant 的 ai 压缩算法,主打就是降低大模型的内存占用。说白了,现在 ai 大 模型运行的时候,有个叫键值缓存的东西,就像 ai 的 临时草稿纸, 上下文越长,草稿纸越占内存,成了算力瓶颈。谷歌这个算法不用重新训练模型,直接把这块缓存压缩到三比特精度,能省六倍缓存内存,在高端显卡上还能提升八倍运行速度。测试了多款主流开源模型,效果都很稳, 谷哥打算四月的国际会议上正式展示这项技术。小喜一出,美股内存股立马跳水,美光、西部数据这些巨头纷纷大跌, a 股相关个股也跟着成压,市场恐慌情绪直接拉满。 大家恐慌的点很简单,省六倍内存, ai 就 不用买那么多内存了,内存厂商要完蛋。但这个逻辑从头到尾都是错的, 咱们一层层拆穿。首先,这个算法压缩的不是全部内存,只是一小块临时缓存。很多人把键值缓存和整机内存划等号,这是最大的误区。 键值缓存只是 ai 运行推理时的临时存储空间,只占 ai 内存需求的一小部分。模型权重、训练环节、整机运行内存这些核心内存需求一点都没减少,它省的是临时草稿纸的空间,不是把整个笔记本都扔了。 其次,省下来的内存会被暴涨的 ai 需求直接吃掉。现在各大厂商都在疯狂做大模型,涨上下文,从几万上下文冲到几十万、上百万,缓存占用量本来就在几何级增长,就算省六倍内存, 只要上下文再扩大几倍,内存需求不仅没降,反而还会涨。而且算法优化后, ai 运行更快,成本更低,会催生更多 ai 应用,反而带动更多算力和内存采购,相当于修路变快了,车会变得更多,路的需求只会更大。 再者,实验室技术不等于大规模商用,落地周期几场,这只是谷歌的一项技术成果,还没正式公开落地。 从实验室测试到云厂商, ai 企业大规模商用至少要一两年甚至更久,期间还要适配不同硬件、不同模型,解决稳定性、兼容性问题,根本不是马上就能普及、立刻冲击内存需求的黑科技。最后,内存的应用场景根本不止 ai, 大 模型、 手机、电脑、服务器、公控设备、智能硬件全都是内存的刚需场景, ai 只是其中一个增量市场, 就算 ai 推理缓存省点内存,其他场景的需求还在逐步增长,但一技术根本撼动不了整个内存行业的基本盘。说到底,这个算法是 ai 算力的优化工具,不是内存的替代品, 是锦上添花,不是釜底抽薪回归产业本身。针对这项新技术,给大家理清几个客观认知,避开市场误区。 第一,市场恐慌属于情绪性过度反应,大众容易把局部技术优化放大成整个行业的颠覆性冲击,忽略了技术落地场景适配的客观限制,属于典型的片面解读。 第二,内存行业的核心需求逻辑未变。 ai 产业的核心增量在于大模型迭代算力、基建扩张长上下文普及单一缓存优化技术,撼动不了全区内存需求的基本盘。 第三,认清技术的真实定位。这项算法是 ai 算力的优化工具,能推动 ai 产业降本提速,属于产业升级,并非内存的替代技术,长期对内存行业属于中性影响。 觉得干货科普有用的点赞关注不迷路评论区聊聊你对这项 ai 压缩技术的看法,下期继续深挖硬核科技产业逻辑,继续跟旭哥絮絮叨。

谷歌推出压缩算法 turbo quant, 宣称时限约六倍内存节省才联设三月二十六日电 谷歌近日推出了一种可能降低人工智能系统内存需求的压缩算法 turbo quant。 根据谷歌介绍, turbo quant 压缩技术指在降低大语言模型和向量搜索引擎的内存占用。 该算法主要针对 ai 系统中用于存储高频访问信息的向量搜索引擎的内存占用。该算法主要针对 ai 系统中用于存储 key value cake 瓶颈问题。 随着上下文窗口变大,这些缓存正成为主要的内存瓶颈。 turboqant 可在无需重新训练或微调模型的情况下,将键值缓存压缩至三倍精度,同时基本保持模型准确率不受影响。 对包括 gemma、 mister 等开源模型的测试显示,该技术可实现约六倍的键值缓存内存压缩效果。 此外,在英伟达 h 一 百加速器上的测试结果显示,与未量化的见向量相比,该算法最高可实现约八倍性能提升。研究人员也表示, 这项技术的应用布局限于 ai 模型,还包括支撑大规模搜索引擎的向量解锁能力。谷歌计划于四月的国际学习表征会议 iqla 二零二六上展是 turboqant 技术。

你知道吗?谷歌居然塌房了!前不久,谷歌发布了一项号称彻底改变 ai 格局的新技术, turboqant 压缩算法, 号称能把大模型的缓存空间直接缩减到原来的六分之一,运行速度还能狂飙八倍。 发布当天,直接把华尔街的两大存储巨头美光和西部数据的股价给干崩了,甚至有大佬惊呼,这是谷歌的高光时刻。可谁能想到,就在昨天,一位 中国博士后直接甩出证据,谷歌不仅抄袭了我的开源代码,还踩了我一脚,这吃相简直太难看了。大家可能好奇这个新技术是什么?没关系,我给大家打个比方, 假设你要出国,有一座山的衣服要塞进一个小小的行李箱里,怎么塞? 这位中国学者高建洋团队花了两年时间,想出了一个绝妙的办法,在晒衣服之前,先猛烈的摇晃一下衣服堆,这在学术上叫随机旋转。摇晃之后,衣服的分布就变得特别均匀, 轻轻松松就能全塞进去,不仅省空间,还不弄换衣服。这个方法叫 rabbit q, 高博士不仅把理论做到了极致,还在二零二四年五月就把所有代码免费开源了,造福全人类。结果呢?谷歌转手就把这个思路重新发明了一遍, 取名叫 turboqant。 如果只是借鉴也就罢了,但谷歌接下来的操作,简直是把学术霸凌玩到了极致。第一宗罪,过河拆桥。谷歌在自己的论文里就是不提自己,用了人家 高博士首创的随机旋转技术,连审稿人都看不下去了,贴脸开大问谷歌,这方法是你们原创的吗? 谷歌私下里承认了,但在最终发布的几千万浏览量的文章里,依然把原作者的贡献藏在犄角旮旯里。第二宗罪,硬说学霸的满分卷子是次优。 高博士的方法在数学理论上已经证明是完美的最优解了。结果谷歌在论文里偏要在没有任何证据的情况下踩一脚,说人家的理论是次优的分析太粗糙。 这就好比你考了一百分,隔壁抄你卷子的人偏跟别人说你及格,都很勉强。第三宗罪,绑着别人的鞋带跟自己赛跑。谷歌吹嘘自己的运行速度比原作者快了好几个数量级, 怎么比的呢?谷歌用的是算力爆炸的顶级显卡 a, 一 零零跑自己的程序, 然后偷偷把原作者跑的飞快的原版程序关掉,换成了自己翻译的慢吞吞的单核代码。 这就好比谷歌开着法拉利,然后把对手的鞋带死死绑在一起让他走路,最后发个新闻稿说,看,我比他跑的快多了。现在一边是苦心钻研两年毫无保留开源的中国青年学者,另一边是手握千万级流量说一不二的科技巨头。 高博士发声说,如果不站出来,错误的绪势一旦传开,历史就会被改写。大家以后查资料只会记得谷歌的伟大, 而那个真正原创的开源方法,只会背上又慢又差的黑锅。在几千万的曝光面前,个体的声音很微弱,但今天我们要帮他把声音放大。同意的请点赞转发,让更多人看到真相!

今天我们要聊的呢是一个最近非常火的话题啊,就是谷歌发布的这个 turboqant 内存压缩算法。对,这个算法呢,可以说在页内掀起了轩然大波,它不光是让大模型可以在普通的设备上面跑的更流畅了, 同时也让很多人都在说,是不是这个硬件行业要迎来一场变革了。没错,这个确实是最近非常火的一个话题, 那我们就直接开始吧。好的,我们先来看看,就是这个 turbo quant 算法发布了之后,这个存储巨头的市值为什么会在短时间内大幅缩水,就是三月二十二号的时候,谷歌推出了这个 turbo quant 极度内存压缩算法, 然后呢,就导致三星、 sk、 海力士、美光这些核心的存储巨头,在短短的四十八小时之内,市值总共蒸发了大概六千二百亿人民币。 天呐,那为什么会这样呢?就是因为华尔街把这项本来是用来优化系统的技术视作了一个硬件杀手。哎,这个 k v cash 到底在 ai 的 这个文字生成的过程当中扮演一个什么样的角色, 为什么它会带来这个所谓的内存强的问题呢?是这样的,就比如说像一个七十 b 的 大模型,在服务五百一十二个用户的时候,仅仅只是用来存储这个 kvatch, 也就是它的这个短期记忆就需要超过五百一十二个 g 的 高速显存。 这是因为每生成一个新的词语, ai 都需要去回顾之前的内容嘛,那这个历史记录就会越来越长,它所占用的缓存就会限性的增加。所以这就是为什么当对话变长的时候, 很快就会遇到这个内存不够用的瓶颈?明白了,那这个极坐标系到底是怎么帮助 ai 的 数据实现这种极速的瘦身的呢?这个嘛,就是传统的迪卡尔坐标系,表示向量的时候,它是需要在每个维度上面都保存一个值的,那这样的话就会有很多熔余。 而极坐标系呢,它是把这个向量用长度和角度来表示哦,然后这个 turboqant 就 发现了,其实 ai 的 数据它的角度是非常集中的,所以它就可以预测, 那这样的话它就可以在极坐标系下面把这个归一化的步骤给省掉,这样的话就可以在不增加任何内存开销的情况下, 让模型的体积大幅的减小。那这个 turboqant 它到底是用什么样的办法能够让这个模型在压缩到这么极致的情况下,还能够保证它的精度不会下降呢?这个说起来就很巧妙了,就是它把这个查询向量依然还是用高精度来表示, 但是呢,他把这个历史的鉴像量啊压缩到了只用伊比特来表示,然后呢,再用一个伊比特的除错器来专门记录这个正负号的残差,再配合上这种非对称的匹配方式,就可以用一个高精度的新的查询去匹配上很多个简化过的旧的记忆。 嗯,那这样的话,就通过这种数学的变换就可以把这个误差给抵消掉,所以他就可以做到再把模型压缩到原来的六分之一,也就是从十六比特压缩到三比特的情况下,还可以让这个模型的运行速度提升八倍, 同时做到零精度损失,完美的突破了这个行业里面普遍认为的四比特以下就会掉精度的这个限制。听起来很厉害啊,那这个 turboqant 算法它的出现到底会怎样推动这个 ai 的 平民化?或者说会给企业级的应用带来哪些新的可能呢?你这就问到点子上了, 就是这个算法出来之后啊,我们就可以在普通的 mac mini 或者手机上面就可以本地离线的去跑这些超大的 ai 模型了,而且还非常的流畅, 这就会让更多的人可以不用依赖于网络,也不用花一分钱就可以去体验到这种强大的 ai。 同时呢,企业级的这种数据库也可以借助这个算法去实现这种毫秒级的高准确率的这种语义向量解锁。 嗯,那这就会让一些之前我们觉得可能只有在科幻小说里面才会出现的这种代理式 ai 成为现实, 就是 ai 可以 帮你去连续的执行几天的这种非常复杂的任务而不会崩溃。哇,感觉这个变化真的是太惊人了,感觉未来的各种智能设备都会因为这个东西变得又聪明又亲民。没错,那这期节目咱们就到这里了,然后感谢大家的收听,咱们下期再见,拜拜!拜拜。

谷歌出了个黑科技,让 ai 的 内存需求量暴降了六倍,而内存市场呢,就要崩盘了。 大家好,我是黑冰。大家好,我是小叶。大家好,我是小鹿。大家好,我是小师妹。就在三月二十五日,首尔证券交易所开盘不到两小时, sk 海力士跌了将近百分之六,三星跌百分之四点八,而同时呢,美股的美光跌百分之七, 闪迪跌百分之六点八,全球的内存公司迎来了黑色星期三。而引起这波暴跌的据说是谷歌发布的一个博客文章,该文章介绍了一个叫 turbocharger 的 压缩算法,可以把 ai 的 qv touch 存储需求降低六倍。 于是此消息立刻引爆了全球的存储市场。既然谷歌都切算法解决了存储的需求问题,那是不是以后 ai 大 模型就不需要那么多内存了?所以就导致了一波内存股的应声大跌。因为之前啊,大家的共识是, ai 越来越牛,越来普及, 那肯定需要越来越多的内存呢,这需求肯定只会越来越多。所以从去年到今年,内存暴涨,而 大家都认为啊,未来几年内存都是要涨价,不会降的。但是这次谷歌的消息是不是可以简单理解为就是 ai 内存需求降低到了六分之一,所以不需要那么多内存了?哎,别着急 吃瓜,我们要吃完整瓜!这天啊,好多粉丝拿这个消息来问我啊,内存是不是要大跌了,是不是六幺八可以买到原价内存了?包括最近内存确实降了一些,所以好像更加证实了这个消息的口号,立刻全网很多博主都疯狂转发这个消息,仿佛啊慢一点就蹭不到热度了一样, 那这个消息的可信呢?真假呢?好像已经无人关心了。我先叠个假,我比谁都需要内存降价,因为我们之前啊,做了好多视频说过, 这波内存涨价导致了很多电脑店倒闭,包括我们现在也很不好过啊,销量也是大降。我们最近的视频上都已经开始跟丝袜厂家合作了,带货丝袜了。 但是这个所谓的降价消息可能只是个乌龙啊,大家不要过分期待了,因为这个超波快手的论文啊,其实最早于二零二五年四月二十八号就已经上升到了 x c 五,至今已经过去了十一个月。哎,那为什么之前无人问津,没有引起大家的关注呢? 因为啊,现在大家看到这个谷歌上的消息是断章取义的,下面我们说点硬核的啊,我尽量用简化的语言说明白, a i 大 模型在跑数据推理时,真正内存占用大的不是模型本身,而是对话过程中产生的缓存。每当 a i 模型处理到对话呢,它需要记住所有的历史信息, 这些信息就被称为 k v 卡士,实时写入显存。这里要注意啊,是显存,不是内存。而超跑快的呢,用随机旋转、量化和量化变换对 k v k 值进行了无损压缩,在论文的测试中啊,是压缩了四倍,没有任何的影响, 但问题是,这只是一个软件层的算法优化 ai 大 模型对内存的需求,核心从来不是存不够,而是内存不够。 hvm 之所以是 ai 基础设备的核心,是因为 gpu 计算核心 等不及数据从内存传输过来,而鸳鸯的价值呢,就在于它每秒能传多少数据,而不只是能存了多少。 qq 卡是被压缩到六分之一,意味着传输量也降了,这实际上是在把算力和贷宽释放出来,而不是让内存变得不重要了。 当然,更关键的是传播快的目前没有官方代码,现有的数据测试和证明都是社区开发者自己写的。而且啊,实验只在小模型上验证过,七十比以上的模型,包括 m o e 架构等都是没有具体验证过。 所以这次的内存股暴跌是一篇应用范围有限的算法论文,被有心人断章取义发来了,然后呢,冲击了整个内存市场。 原来啊,不仅国内的媒体有时候为了博流量会搞个大新闻,看来国外媒体哎,也喜欢这样博流量的模式。 不过从这个事件中我们可以看出,现在的存储市场可能已经到了崩溃的边缘,稍微有一点点,这个风吹草动就大降特降,那么这次的文章就会发现是个乌龙哎,内存价格又稳住了,那下一次呢?压死骆驼的最后一根稻草早晚会出现的。

谷歌刚刚放出了一个超级大招,整个科技圈都在惊呼,美剧硅谷里的摩羯手算法竟然成真了!这项被 cloudfly ceo 盛赞为谷歌版 deep seek 时刻的黑科技名叫 turboqant。 如果你对 ai 架构有研究,就会知道大模型在做推理时,尤其是在跑 r a g 智能体和超长文本时,那个被称为 kv cache 的 工作内存简直就是个吞食 r a m。 的 无底洞。而谷歌这次直接在底层算法上动了刀子。 turboqant 采用了一种极其前沿的向量量化方法, 能在肉眼几乎无损精度的前提下,将 ai 的 工作内存疯狂压缩至少六倍。支撑这项极限操作的,是即将在下个月 i c l 二二零二六顶会上亮相的两个核心组建, polar quant 和 q g l。 这意味着什么?意味着未来 ai agent 可以 拥有更庞大的上下文记忆, 却只占用极小的物理空间。大规模部署 ai 应用的推理成本将迎来断崖式的下跌。不过懂行的朋友先别急着狂欢,这也并非全能的魔法,目前它仍是一项实验室突破,并且只针对推理端的内存优化。 对于动辄需要海量算力集群的训练端来说,该烧的显卡还是得烧。但不可否认,从 deepsea 掀起的效率革命到谷歌 turboqant 的 内存压缩, ai 算力的竞争正在从粗暴的堆料走 走向极致的算法优化。你觉得这种极致的压缩算法一旦落地,会不会彻底颠覆现有的 ai 硬件算力格局?

超千万人围观,谷歌下场甩出神级压缩算法,内存狂缩六倍,提速八倍开盘,直接带崩华尔街存储芯片巨头为什么杀伤力这么大?你用 ai 时有没有发现,聊得越长,他越卡越容易失忆? 根源就在大模型的记忆中疏他是 ai 为防重复计算而暂存的中间推理状态,聊得越长,状态堆得越厚,直接撑爆显卡内存, 这就是全行业都在付的内存税。传统压缩方案就像给地图上的每条街道都单独画上比例尺,这么多的图例反而把地图彻底塞满,节省空间几乎成了空话。 但谷歌这次直接从数学底层出手,打出了一套降维组合拳,效果堪称颠覆,彻底砍掉所有多余标签,额外内存开销直接清零内存最高狂缩六倍,推理速度飙升八倍,推理精度居然做到了零损失! 换句话说,原来你游戏用的消费级四零六零显卡只能跑入门级模型,现在居然能直接带动企业级大模型,单条推理成本直接砍下八九成! 这意味着,之前靠顶配显卡筑起的行业门槛,正被几行优雅的代码彻底击穿。巨头正用数学法则四两拨千斤。但也别忘了,著名的杰文斯备论,一旦这凭空多出的六倍内存,全部喂给了无限长的上下文,又将孵化出怎样吞世级的超级 ai 应用?

谷歌下场造了一个大模型神级压缩算法,昨天一千多万人围观开盘,直接带崩了美光、闪迪这些存储芯片巨头。简单来说,它是一种把 ai 记忆占用压缩六倍、推理速度提升最多八倍,几乎不损失准确性的神级压缩算法,目标很明确,让大模型变得更小、更快,还更便宜。它彻底重构了 ai 的 成本结构, 而且它不只是压缩,还能让上下文能力大爆发。这个算法通过两步神操作实现无损压缩,先用核心步骤锁定向量的主要特征,再用简易比特的数学纠错机制消除微小偏差,最终达到近乎完美的零精度损失。 这意味着,你那台十六 gb 内存的 mac mini, 现在就能在本地免费安全地跑超强大的模型手机流畅运行,高质量 ai 也马上将成为现实。短期看,内存芯片厂商确实成压,但长期呢,单位内存需求下降,但应用爆发带来的总需求会飙升。 turboqant 解决的是效率问题,它打开的是 ai 普及的闸门。

谷歌 turbocharger 实现六倍梯梯缓存压缩,存储股集体暴跌。但机构指出,市场的理解可能恰恰相反,家人们一篇论文,直接把存储芯片股全干崩了。三月二十五日,谷歌研究院发布了一个叫 turbocharger 的 新算法,能把 ai 推理时最占内存的梯梯缓存压缩到原先的六分之一, 速度还能飙八倍,精度零损失。消息一出,闪避暴跌百分之六点五,每光跌百分之四。网友直呼,这不就是美剧硅谷里那个压缩算法吗? 二零二六年居然成真了!那问题来了,内存需求真的要降温了。拆解一下真相。第一,技术只动了一小块蛋糕。 turbo quint 压缩的是推理阶段的 k d 缓存, 不是模型权重占用的 h b 照内存,也不影响 ai 训练,市场恐慌有点过头了。第二,二零二五年初 deepsea 出来时, 市场也荒谬,一轮算力需求建顶,结果呢? ai 应用遍地开花,算力需求反而更旺。这次一模一样。记住,效率提升不是需求的终点,是爆发的起点。看懂本质,才能守住仓位。这事你怎么看?评论区等你来捞,关注我,带你持续拆解股市行情的真实逻辑!

今天咱聊个科技圈的大瓜,就是谷歌一篇论文,直接把三星、 sk 海力士、美光那些存储巨头市值干没了,九百亿美元,换算成人民币都六千二百亿了,相当于一天蒸发掉一个小米公司。 更绝的是,这篇投资者哭晕在厕所的催命符,居然在网上躺了整整十一个月。从二零二五年四月底就发出来了,一直到二零二六年三月二十四号,愣是没人发现它的威力。今天咱就扒一扒这技术到底有没有吹的那么神 后,能用到咱生活里啥地方?还有就是,它真能让存储需求暴跌吗?咱先说说这论文的事啊,它叫 turboqant, 还有个配套的叫 polarqant, 二零二五年四月二十八号和五月一号就分别发在学术网站上了。按理说这么厉害的东西早该火了吧, 结果呢,整整十一个月,除了少数博士生对着公式抠脑袋,没人搭理他。直到三月二十四号,谷歌发了篇官方博课,把这俩技术打包一宣传,华尔街才后知后觉反应过来,当场就炸了锅。你猜怎么着?美光科技直接跌了百分之四, sk 海力士跌了百分之六点二三,三星电子跌了百分之四点七,一闪敌最惨,一度暴跌百分之六点 五。那些持有存储股的股民估计当天晚上都没睡好。我跟你们说,这事最搞笑的就是,为啥这篇神文被雪藏了这么久, 说白了就三点。第一就是学术圈太高冷,你看那论文标题全是啥在线像,量量化,尽最优失真率,满屏攻势,除了搞学术的博士生,谁看得懂啊?这就好比把原子弹说明书藏在母猪产后护理里,谁能想到这玩意能直接干翻一个行业? 第二就是谷歌太能憋,他肯定早就知道这技术的杀伤力,故意等学术会议开完,时机成熟了才官宣。毕竟先拿学术背书,再赚市场关注度,这波操作属实是玩明白了。 第三就是市场太盲目,前两年 ai 圈全在拼硬件,人家都在比谁的显卡更牛,内存更大, h 一 百显卡八十 gb 不 够用就上两块,集群不够就再加,谁能想到算法优化居然能比堆硬件还。这就像大家都在比谁的碗大,比谁能装更多饭。突然有人发明了一粒米顶一碗饭的技术,所有人都傻眼了,这不就是典型的路径依赖吗? 聊完这离谱的延迟效应,咱再说说这技术到底有多牛。咱都知道,现在用 ai 聊天写东西, ai 得记着咱们之前说的话吧, 他记这些话的时候得用一个叫 kvatch 的 东西,就相当于 ai 的 草稿纸,聊的内容越多,上下文越长,这草稿纸就堆得越高, 八十 gb 的 高端显卡分分钟就被塞满了。以前想让 ai 记几百条对话,那得砸大价钱买硬件,但谷歌这技术直接把这草稿纸给压缩了。以前是用十六位的精度来存,现在直接干到三位,关键是一点精度都不损失,你跟 ai 聊天完全感觉不到差别。 我给你们算个账啊,十六变三相当于内存占用,直接砍到原来的六分之一,暴跌百分之八十三,而且在 h 一 百显卡上跑,速度还能提升八。这就好比你以前搬砖得六个人干八小时才能干完,现在一个人一小时就搞定了,还不耽误喝奶茶刷手机,你说牛不牛? 更关键的是不用重新训练模型,直接拿过来就能用,就像给你的旧电脑装了个内存扩容挂,还不封号,谷歌这波简直是降维打击。 可能有人会问,三位怎么能做到和十六位一样?其实就是两个技术配合,一个叫 polar quant, 先把数据压扁到两位,再用一个叫 q j l 的 技术补一位的小补丁,把精度完美还原。说白了就是数学上的小技巧,却解决了大问题。 而且这技术不是空架子,已经有实实在在的应用案例了,咱平时都能接触到,比如谷歌自己的云服务,现在已经偷偷用上了。以前用谷歌 ai 写文案、做设计,有时候会卡顿,尤其是同时用的人多的时候。现在用上 turbo quant, 同一个服务器能同时服务六倍的用户, 卡顿直接消失,而且价格还降了。以前做一套 ai 设计要五十块,现在不到二十块就能搞定。还有手机厂商小米、华为已经在测试了,以后咱们的手机不用联网也能跑大模型。比如你在地铁上没网,也能让 ai 帮你写工作总结、翻译外文,聊几百条对话都不卡顿,再也不会提示内存不足了,这对经常用手机办公的人来说,简直是福音。 还有电商客服,你们平时网购找人工客服排队要半天,现在很多电商都用 ai 客服,但以前一个 ai 客服只能同时接待一百多个人,高峰期还是要排队。现在用上这技术,一个 ai 客服能同时接待六百多个人,回复速度还更快, 你问啥他秒回,再也不用等半天。另外还有自动驾驶,自动驾驶汽车需要实时处理大量数据,以前得装很大的内存模块,成本高还占地方。用上 turbocharger 之后,内存模块缩小一半,成本降了百分之三十,以后自动驾驶汽车的价格说不定也能便宜点。 聊到这,肯定有人会问,这技术这么牛,是不是以后存储需求就真的暴跌了?那些存储厂商是不是要倒闭了?咱客观说,现在就是集体恐慌,有点反应过激了。他们的逻辑很简单, ai 是 存储行业的最大客户,以前 ai 要大量的内存,现在内存需求砍了五倍,存储厂商的生意不就凉了? 但我跟你们说,这想法太片面了。咱举个例子,就像当年 led 灯取代白翅灯,大家都以为灯泡需求会降,结果呢?现在家家户户都装智能灯,氛围灯,总销量反而翻了好几倍。这技术也是一样,它降低了 ai 的 成本,会让更多小公司、更多行业用上 ai。 以前搞不起 ai 的 小老板,现在花点小钱就能搞 ai 普及了,总的存储需求反而会暴增,这就是所谓的杰文斯备论。而且还有一点,这技术只针对 ai 的 推理阶段,就是我们平时用 ai 聊天干活的阶段, ai 训练的时候还是需要全精度的内存,影响其实有限。 另外,技术从论文到大规模商用,至少要一到两年,现在只是刚开始,还没到全面替代的地步。那些存储厂商只要赶紧升级技术,比如做更快更高效的内存,还是让 ai 从贵族玩具变成全民工具。 以前搞 ai 都是大公司的专利,砸几百万几千万买硬件,小公司想都不敢想。现在有了这技术,几十万就能搞定,创业公司的春天来了,以后会有更多好玩的 ai 应用出来, 咱老百姓也能享受到更多便利。当然,对那些技术落后的存储厂商来说,确实是噩梦,以前只要产能跟上就能赚钱,现在得拼技术了,跟不上的迟早会被淘汰,这就是行业内卷,没办法。最后咱总结一下,这事就是一场学术圈的延迟满足和投资者的集体恐慌。 看一篇在网上躺了十一个月的论文,居然能掀起这么大的风浪,这也告诉我们,别小看那些看似不起眼的学术研究,今天的草稿纸,明天可能就是行业的核档。还有就是算法永远比硬件更有想象力。当大家都在拼肌肉的时候,谷歌用一行代码就证明了,聪明的大脑比强壮的肌肉更重要。 至于存储需求,短期来看确实会因为市场恐慌出现波动,但长期来看, ai 只会越来越普及,存储需求只会越来越大,只是玩法变了而已。 最后问大家一句,你们觉得这技术是存储行业的噩梦,还是咱们普通人的福音?我觉得对咱用户来说肯定是福音,以后用 ai 更便宜更流畅,对落后的存储厂商来说就是噩梦,对敢创新的人来说就是天堂。 还有那些写这篇论文的博士生,估计现在正躲在实验室里数奖金呢,毕竟这一篇论文可比上班打工强多了。好了,今天就聊到这,关注我,下期咱再扒一扒,等这技术全面商用,咱们的手机电脑会变多便宜,还有哪些好玩的 ai 应用会出?

谷歌推出全新 ai 压缩算法 turboqant, 可将大语言模型缓存压缩约六倍。该技术无需重新训练模型,即可实现三比特精度压缩,并在英伟达芯片测试中最高提升八倍性能。