内存荒有了新办法，谷歌发布新型AI内存压缩技术 #谷歌 #内存 #AI #存储 #科技

谷歌ai安装好了内存不足

8

抢首评

6

分享

举报

发布时间：2026-04-13 10:15

查看AI文稿

粉丝6651获赞3.6万

相关视频

01:28
谷歌一篇新论文直接把内存股干崩了！内存疯涨的终结者来了？谷歌发布AI压缩新算法TurboQuant：内存需求下降6倍，速度飙升8倍。Cloudflare CEO直言：“这是谷歌的DeepSeek时刻！”#谷歌 #TurboQuant #DeepSeek #AI推理 #内存
查看AI文稿
AI文稿
就在内存价格一路狂飙的时候，谷歌的一篇新论文直接把美股内存板块干崩了，连 call 泪儿 ceo 看后都惊呼，这是谷歌的 deep seek 时刻， deep seek 用极少算力训出了顶尖模型。而谷歌这次放出的超级大招 turbo quint，是直接让 ai 推理的内存需求打了个骨折。这项技术到底牛在哪里呢？简单来说，就是以前 ai 在处理长文章或陪你聊天时，为了方便翻找，会像学霸一样把关键信息写在小抄上，也就是 k v 缓存。但如果小抄写得太详细，就会占满内存，让 ai 变慢，还特别费钱。以前的压缩方法就像是强行把字写小，但这样 ai 不仅容易看错字，还得去记缩写规则，反而更麻烦。那谷歌这次是怎么破局的呢？ turbo quint 甩出了两个神操作。第一招 power quint 技术，可以理解为换个姿势记笔记。以前 ai 记位置用的是坐标系，比如向东走三步，向北走四步，麻烦又占地方。现在谷歌让他直接记，朝三十七度方向走五步。就这一个视角的转换，直接省下海量空间，还绝对不会认错。但只要是压缩，总会有点小误差，对吧？这就引出了他的第二招 q j l 技术，只用一个符号纠错，他仅仅用一个正负号，就把压缩后的一点点瑕疵神奇的抹平了，零额外内存开销速度快到飞起。那这两套连招打下来，结果有多恐怖呢？运行的 k v 缓存直接从三十二位压缩到三位，内存直接少用六倍以上。在英伟达 h 一百显卡上，它的注意力计算速度快了八倍，最夸张的是回答准确率完全不下降，而且不需要重新训练，模型拿来就能插上用。在这个内存价格动辄暴涨，全网都在焦虑算力成本的时代，谷歌这是又扮演了一次救星吗？
2401智东西
01:14
谷歌新"杀招" 破解AI存储困境，内存价 DDR5内存两年翻了7倍就因为AI抢产能
谷歌 TurboQuant: AI内存降6倍速度快8倍
如果AI不再那么吃内存你装电脑就不用这么贵了
#内存 #AI #科技热点 #turboquant #谷歌
查看AI文稿
AI文稿
滴滴二五内存两年前五百多块钱一套，现在涨到快四千，翻了快七倍，想装电脑的朋友直呼买不起，为什么涨这么多？一个字， a a i。过去两年， a a i 疯狂吞食服务器内存 h b m 一颗芯片比手机还贵，厂商的产能全给了 a a i 消费级，滴滴二五自然就不够用了。但就在上周， google 发了一篇论文，叫 turboqant，他们找到了一种方法，让 ai， ai 只用原来六分之一的内存，而且精度几乎不变。打个比方，以前 ai ai 跑一个模型要占六辆大卡车的货， turboqant 把它压到一辆车里，还一件没丢。不仅省内存在英伟达 h 一百上，速度还快了八倍，而且不需要重新训练，即插即用。 icl 二二零二六顶会论文，这意味着什么？如果 ai 以后不需要那么多内存，厂商的产能就能回归消费级市场，滴滴二五的供应紧张就有望缓解，价格自然就能降下来。当然，短期内价格不会马上降，但 turboqant 这种研究越来越多，就是在从跟上解决内存涨价的问题。所以，如果你现在不着急装机，可以再等等关注我，第一时间解读影响你钱包的科技热点。
6星探AI（观回）
07:13
手把手带你使用Ollama本地部署Gemma4详细实操分享 Gemma 4 本地部署，零基础也能部署成功，本期视频知识点：
认识Gemma4&优缺点分享
本地部署环境&配置分享
Ollama本地部署大模型方法&修改部署路径方法
本地模型文字生成和图片识别测试
#ai新星计划 #gemma4 #ollama #本地部署大模型 #ai大模型
查看AI文稿
AI文稿
大家好，本期内容我来分享如何在本地部署谷歌新开源的多模态 ai 模型代码四，我会分享命令行和格式化界面两种安装方案，零基础也能轻松搞定。最后我还会教你如何修改部署的路径，彻底解决大模型占用 c 盘的问题。本地部署的优势就是你的数据可以完全保存在自己的电脑上，隐私安全有保障，而且支持模型微调，可以打造专属的 ai 助手。但是他也是有缺点的，就是我们需要稍微懂一些技术，还有就是硬件的支撑，如果电脑配置高，自己可以部署折腾一下。有了本期视频，就算你不懂技术，跟着视频操作也可以部署成功。本期演示我只分享入门版本，主要就是参考部署的方法和流程。接下来我手把手带大家用欧拉玛一键部署。首先我们先来了解一下 jam 四到底是什么，它是谷歌新发布的开源多模态的 ai 模型，与 jimmy nay 是同源的。简单来说，谷歌就是把自家的 ai 技术打包成了一个免费开源的版本，让每个人都能用上。它的能力是非常全面的，支持文本交互、图像识别、音频处理，还能生成代码，基本上覆盖了所有的 ai 应用场景。下面我们再来看一下它的核心优势。核心优势它有三个，第一个就是多模态能力，文本、图像、音频代码，一个模型全部搞定。第二个就是完全免费，它没有会员订阅，没有暗次收费，可以随便的去使用，甚至用它去开发商业化的产品。第三个就是比较重要的隐私安全保障，本地部署模式下，所有的数据处理都在自己的设备上完成，敏感信息不会上传到云端，这是三大核心优势，就是在我们安装之前，需要我们了解一下这个安装环境。首先系统兼容性 demo，四是支持 mac os、 linux、 windows 三大主流操作系统，基本上覆盖了绝大多数的用户。然后就是内存要求，如果你的电脑小于三十二 gb，推荐安装四 b 版本，自己安装体验折腾一下就可以。如果你的内存达到或超过了三十二 gb，那就可以选择二十六 g 或三十一 g 的版本。在这里有一个小提醒，就是如果是 mac 电脑 m 系列的芯片，它的显存和内存是合二为一的，大家直接看内存就可以。如果大家不是 mac 电脑，比如 windows 或者 linux，那么就优先看显存，显存不够再看内存，这是关于这个配置的查看。像这个本地部署也非常简单，仅需两个步骤即可完成。第一个就是安装欧拉玛，这个欧拉玛就可以理解为是本地大模型的一个容器，它是装大模型的，有了它才可以运行。第二步就是我们容器安装好之后，我们需要给它把模型放进去，就是部署模型，两个步骤即可搞定。下面我们直接进入实操环节，我们来一起看一下部署的全部流程。在这里第一步我们就先要有这个欧拉玛，他是一个大模型的容器，就是我们打开之后选择右上角的 download，这时候我们就需要选择匹配自己系统的版本，在这里我这是 windows，然后我们选择 download for windows，在这里选择 download for windows 之后就会弹出窗口，我们选择路径直接保存就可以，当下载好之后，然后我们就安装即可，安装好之后打开就是这样的主界面，这个是我之前安装的版本，部署着一个一点五 b 的 zip，然后下一步就需要我们去选择大模型，我们还来到刚刚乌拉玛的这个界面，在这里我们选择左上角的 models，然然后在这里我们可以看到该马四，然后我们选择进来，它提供了好多个版本，在这里我就选择一个入门的版本，主要就是演示安装的流程，比如我们选择 e 二 b，然后我们选择，这时候我们就看到了这个安装命令，选择右边的这个两个方框，然后选择 copy，然后下一步我们就按键盘上的 windows 加 r 键，这时候出现运行窗口，然后在这里面输入 cmd，然后直接回车，回车之后就出现了这个命令窗口，然后我们刚刚复制了直接鼠标的右键，可以看一下，这个命令就粘贴过来了，然后我们直接回车好了，这时候它就开始部署到本地了，在这里我们需要等待一段时间，好可以看一下出现了 success 这个提示，就证明安装成功了。现在我们在这里可以直接和它对话，比如我们输入你好当前什么模型，然后我们发送可以看一下，他现在回复我们了，我是一个大语言模型，我叫 jama 四，这时候我们就在本地已经部署成功了，然后我们再回到欧拉玛的客户端，在这里在这个对话窗口右下角这里，这里可以选择模型，然后我们找到刚刚部署到本地的 jama 模型好了，这时候就切换好了。同样在这里我们也可以直接和他对话，比如我们输入你好，然后发送，这时候他就回复我们了，你好，很高兴和你交流，请问有什么帮助到你的？到这里我们就已经部署成功了。前面我们分享的是使用命令行 c l i 模式去部署，其实还有一个简变的方法，在这里我们还可以选择模型后面对应的这个按钮，也是可以直接部署的，这个是非常方便的。好，最后我再分享一个大家比较关心的问题，就是我如何设置这个本地模型的一个部署路径，在这里我们也不用去改环境变量了，这个客户端是直接支持的，我们选择左上角的设置，然后在这里选择这个 model location，在这里我们就可以去设置模型的一个保存路径，在这里大家自己设置就可以，是非常方便的。好，下面我这里演示的是上传了一张图片，就让他识别这张图片，我们一起来看一下他给我们的结果，好了可以看一下，我们给了他一张图片，我们问他这是张什么图片，他给我们的回复，这是一张符号或者是图标，然后他还分析了主要包含的元素，还有用途预测等等，能够精准的识别内容，并生成详细的描述，表现还是可以的。好了，现在我们本地部署成功了，然后刚刚我们也做了一个功能测试，第一个就是我们和他对话，就是文字处理，第二个测试的就是这个图像识别，他也是可以精准识别的，他虽然是多模态的，但是目前我们用的这个容器不支持多模态的输入，我们暂未测试音频和视频的识别。好，最后我再补充两个细节，就是第一个欧拉玛的拓展性他是非常强的，除了可以部署这个 demo 四，还支持比如通用签问或者是 deepsafe 等众多的开源模型，部署方法也是完全一样的，一条命令就能去部署。第二个就是本地部署的真正价值不仅仅是隐私保护，更重要的是支持模型微调，可以用自己的数据去训练模型，打造一个完全专属的 ai 助手。好了，这就是我们本地部署的所有内容，大家感兴趣的可以自己折腾一下，探索更多的玩法。好了，我们本期内容分享就到这里，可以留下你的想法，我们下期再见。
153掌舵者AI实验室
01:55
turboquant 谷歌新算法拯救内存 #ai #谷歌 #turboquant #内存 #算法
查看AI文稿
AI文稿
最近谷歌发了篇论文，直接把内存芯片巨头的股价给干崩了。美光、三星这些大佬估计也没想到，自家的生意竟然会被几行算法代码给冲击了。这件事的核心主角叫 turboqant，简单来说，它就像是美剧硅谷里那种近乎无损的极限压缩算法，在现实中成真了。咱们现在的 ai 大模型虽然聪明，但有个毛病，特别吃内存。当你和 ai 聊得越久，它为了记住前面的话，就会产生一个叫 kv 缓存的东西。这东西就像是 ai 的临时笔记，对话越长，笔记越厚，最后直接把显存挤爆，电脑就卡死了。这一直是限制 ai 处理超长文档的核心瓶颈。谷歌这招厉害在哪呢？它实现了六倍压缩，而且最神的是精度零损失，完全不需要重新训练模型。它是怎么做到的？他把数据记录方式改成了极坐标，以前极数据像是在地图上标坐标，要说往东走三米，再往北走四米，现在他直接说朝三十七度方向走五米，信息量一点没少，但描述变得极其简练，还省掉了不少额外的存储开销。再加上一个叫 qgl 的技术做残差修正，把压缩后微小的误差也给抹平了。结果就是，同样的显卡现在能存下六倍的数据，运行速度最高还能快上八倍。这就让投资者慌了，既然 ai 变得这么省内存了，以后大家是不是就不买内存条了？于是芯片股应声下跌。但也有分析师认为大家想反了，这叫杰文斯辩论。当一样东西变得又便宜又好用，大家反而会用的更多。原本因为太贵太占内存而跑不动的 ai 应用，现在可能连手机都能轻松运行，这反而会刺激出更庞大的 ai 应用，现在可能连手机都能轻松运行。总的来说，这被业内称为谷歌的 deep seek 时刻，它告诉我们 ai 的未来不只是拼命堆硬件，聪明的算法同样能让物理极限低头。
209顶级AI观察
04:12
谷歌新算法TurboQuant实现约6倍内存节省，很强，谷歌链能来一波吗，另外对算力需求和AI应用分别有什么影响#知识分享#谷歌 #TurboQuant #算力 #Ai应用
62H说市场
06:25
谷歌TurboQuant暴力破解AI内存墙 AI大模型正被一堵"内存墙"卡死——KV缓存随对话线性膨胀，疯狂吞噬GPU显存，逼得OpenAI关停Sora独立版。谷歌最新发布的TurboQuant用三步向量量化暴力破局：无需训练数据、随机旋转矩阵均衡方差、分数精度锁定几何距离，实现6倍内存压缩+8倍推理加速，且10万token零精度损失！当有些公司被迫砍产品省GPU时，另一些公司正用算法效率碾压硬件瓶颈。
#谷歌 #TurboQuant #大模型推理 #GPU优化 #KV缓存
查看AI文稿
AI文稿
人工智能硬件的物理扩展正接近极限，运行这些系统所需的服务器基础设施数量之庞大已经变得难以为继。在大语言模型生成过程中，主要的工程限制是一个被称为键值 kv 缓存的特定内存结构。 kv 缓存充当了模型的短期记忆，它是一个动态矩阵，用于存储你之前输入内容的数学上下文，使得 ai 在长对话中每生成一个新词时，可以跳过重复的注意力计算。这种文本生成流程结实了该架构的内在缺陷。 kv 缓存矩阵会随着每生成一个新 token 而严格限性增长。这就带来了一个欧尼的内存扩展问题，最终会达到 gpu 显存的最大容量。当显存边界被突破时，推理速度会被限制，生成过程也会陷入停滞。因为硬件无法管理累积的上下文。要为成千上万的用户维持高速生成，就需要大量的物理硬件，这导致了 ai 记忆长度与公司必须购买和供电的 gpu 数量之间的直接关联。目前， ai 的发展受限于物理内存带宽，而不是模型本身的极限。谷歌新发布的 turboqant 通过算法压缩方面的重大突破解决了这一瓶颈。初步机准测试显示， turboqant 将 kv 缓存的内存使用量减少了六倍，同时推理速度提升了最高八倍。在计算机科学中，高比例压缩通常会导致数据丢失。通常情况下，缩减文件的百分之八十会破坏 ai 保持准确性所需的细节。 turbocont 通过三步向量量化流程避免了这种退化，该流程只在缩小内部内存的同时保持数学关系不变，实现无损六倍压缩意味着单块 gpu 现在可以处理以前需要整个服务器集群才能应对的上下文窗口，从而直接降低运行高性能模型的硬件开销。要理解这是如何实现的，我们需要看看业界以往用于缩小数据结构的标准方法，乘积量化。乘积量化有一个特定的要求，在开始压缩信息之前，它必须先在特定的数据集上进行训练。这个要求会带来延迟，左侧需要等待训练阶段完成后才能压缩数据，这使得它过于僵化。 turbocont 的第一个特点是它对数据无感知，它能够及时处理实时数据，无需针对不同场景进行特定训练。通过去除校准阶段的需求， turboqant 消除了在生产环境中使用压缩模型时的主要时间延迟。为了让人工智能能够高效的实时运行，其压缩过程必须与训练数据无关。第二步涉及到 ai 内存的几何结构，它以高为向量空间中的坐标形式存在。在这个空间中，数据分布并不均匀，少数维度承载着关键信号，而其余大多只是数学造成。这个三维网格展示了方差不均的问题。当数据延某一周聚集时，标准压缩可能会抹去信号强烈的区域。 treble quant 通过应用随机旋转矩阵来解决这个问题。随着旋转，聚集的数据点被分散开来，在每个维度上均匀分布。这种均匀分布平衡了数据的重要性。现在矩阵的每一部分都承载着可控且可预测的信息量系统随后可以应用军方误差优化，将矩阵分解为更小且均衡的部分，并分别进行压缩。通过调整这种几何方差，谷歌确保在进行激进压缩时不会意外删除模型中最重要的上下文信息。高强度压缩会破坏 ai 用于计算关系的数学距离。 turbo quant 引入了 q j l 变换来保护这些距离，它通过放弃严格的整数限制锁定了几何距离。相反，它采用分数精度为关键通道分配三点五位，同时在其他地方节省空间。通过将分数位与 q j l 变换结合， turbo quant 的架构接近于数据在不丢失信息的情况下可被压缩的理论极限。谷歌在生产规模的模型上测试了这种架构，包括 lama、三点一八 b 和 mr 七 b。在大海捞针测试中，模型必须在庞大的上下文窗口中找到一个特定的事实，即使被压缩到四分之一，这些模型在十万四千个 token 中依然保持了百分之百的解锁准确率。这种压缩对模型性能几乎没有任何影响。除了文本生成之外，这种高效性同样影响到搜索系统。向量数据库的缩影时间从几百秒降到了仅仅零点零零一三秒。在零点零零一三秒的速度下，这一操作几乎可以视为瞬时完成，消除了高维搜索中的主要延迟瓶颈。 turbocont 证明模型可以在不大幅增加物理算力的情况下保持近乎完美的长期记忆能力。需要注意的是， turboqant 是一种针对推理阶段的优化方法，它并不能减少从零开始训练基础模型所需的大量能源和硬件，但推理效率才是当前人工智能战略竞争中的关键。前线 openai 最近的转变正好说明了这些显存节省为何如此重要。由于 gpu 算力成本高昂， openai 在 sora 视频生成应用上线仅数月后就关闭了其独立版本运行该视频模型所需的计算资源实在太昂贵，难以维持。 openai 现在正在对其有限的 gpu 资源进行配给，从独立的视频生成转向将硬件集中用于即将推出的 spark 生产力模型。这反映了行业的分化，有些公司不得不砍掉产品以节省硬件资源，而另一些公司则通过算法效率提升扩展现有硬件的承载能力。通过减少 kv 缓存的显存占用， turboqant 让长上下文模型能够在终端硬件上运行，否则这些硬件会直接崩溃。这使得高性能 ai 不再只是实验性的计算密集型的原型，而是转向了稳定且具成本效益的生产阶段。
13IANAI
01:52
谷歌放大招！AI内存需求暴降6倍，推理性能狂飙8倍
#科技干货 #数码科普
查看AI文稿
AI文稿
所有关注 ai，平时爱用 ai 工具的朋友千万别划走， ai 行业马上要迎来一场大变格，谷歌深夜人处的这个王炸技术，不光影响整个科技行业，更会直接改变咱们普通人用 ai 的体验。以后咱们用 ai 工具又快又便宜，再也不是梦。很多人可能不懂 ai 技术里的专业术语，我用大白话给大家讲明白，保证一听就懂。平时咱们用 ai 工具的时候，是不是经常遇到卡顿，反应慢，甚至有些 ai 功能还要收费？核心原因就是 ai 运行需要占用大量内存，对芯片性能要求极高，成本一直居高不下。但谷歌这次发布的 turboqant 新技术，直接解决了这个行业痛点。最厉害的是，这项技术不用重新训练原本的 ai 模型，不用大费周章推翻重来，就能直接把 ai 的内存占用压缩六倍，相当于原本要占六个 g 的内存，现在一个 g 就够了。而且在英伟达 h 一百芯片上， ai 推理性能直接狂飙八倍，速度直接翻了八倍，这是什么概念？相当于给 ai 装上了超级加速器，运行效率直接拉满。这项技术落地之后，最大的受益者其实就是咱们普通人。 ai 服务器的成本会大幅下降，商家的研发成本、运营成本降了。咱们平时用的 ai 聊天、 ai 作图、 ai 办公软件，要么会变得更流畅不卡顿，要么很多付费功能会慢慢变成免费。就连大家期待已久的高端 ai 手机，价格也可能会更亲民，再也不是遥不可及的科技产品。当然，这项技术也会给存储芯片行业带来不小的冲击，行业格局可能会重新洗牌，这也是科技发展的必然趋势。消息来源是谷歌官方博客和新浪财经，权威可靠，没有任何虚假信息。其实不管是国外的技术突破，还是咱们国产 ai 的崛起，都说明 ai 时代正在飞速改变我们的生活。那大家觉得这项技术落地后， ai 手机会不会更快普及到普通人手里？你最期待 ai 工具实现什么功能？赶紧点个赞，评论区聊聊你的真实想法，咱们一起见证 ai 时代的巨变！
6科技速报君
01:22
Google即将Get一个标签：内存价格终结者🥷 Google Research最新发布了TurboQuant 的创新AI 压缩技术，能减少最高6倍内存占用，并能将处理速度提高数倍。
核心就两步：
1️⃣PolarQuant：抛弃传统的直角坐标，把数据丢进极坐标系！通过巧妙的随机旋转，把数据分布变得像钟表一样规律，直接干掉了传统量化方法里的“额外内存开销”。 2️⃣QJL：针对剩下的计算误差，它只用 1-bit 的算力（要么 +1 要么 -1）做了一个极限纠错，保证了大模型 Attention 机制的绝对精准！
对于需要在本地设备（尤其是Mac）上部署开源大模型开发者来说，这项技术堪称神级。
#我的数码好物清单 #本地大模型 #大模型微调 #开源项目 #ai工具学习
查看AI文稿
AI文稿
本地跑大模型的起点终于要来了！就在昨天， google research 放出了一个逆天的研究成果， turbo quant 极速量化算法，它能够在不损失任何精度的前提下，大规模减小模型大小，而且内存消耗减少六倍以上，运行速度提升八倍。这对于做本地 l m 部署高向量剪索的开发者来说，简直是史诗级利好。我初步看了下论文和相关资料，他用了两部极其优雅的数学策略，首先，利用 polar quant 将传统的直角坐标系转化为极坐标系，解决了传统量化方法的额外内存开销。第二步，使用 qgl 算法，只用意比特的算力做极限纠错，保证了大模型 attention 机制的绝对精准。实验结果也证明了 turboqant 算法的强悍。在 nih 测试中， turboq 可以以百分之二十五的 k v 缓存实现零点九九七的完美召唤率。而令人惊叹的是，即使被极度压缩，它的信息提取表现与未压缩的三十二比特全精度原始模型分毫不差，真正做到了零精度损失。在 long beach e 紫级测试中， turboq 可以将 k v 内存压缩至少四点五倍甚至六倍的同时，得分仍大幅超越目前的主流压缩算法。在 h 一百上进行注意力逻辑值测试时，斯比特的 turboq 实现了比三十二比特未量化版本高达八倍的星能飞跃。有兴趣深入研究的兄弟强烈建议去看原论文，学学顶级算法科学家的思路，我会在精读完论文之后和大家分享更深入的内容。
3743橙色溪流
04:15
#谷歌 #投资 #内存涨价谷歌ai模型新算法
查看AI文稿
AI文稿
谷歌最近声称呃发明了一个新的算法，这里有一篇论文，它这个论文呢讲的是说呃能够通过一种技术手段，一种新的算法，把现在 ai 服务器显存和内存的开销降低六倍。呃，这个事情呢，是导致了啊，最近一连串的这个险存厂家，比如说像散敌等等的这些厂家的股价的暴跌。呃，是事实上我看了一下这个有关的报导，它显示的这个效果是这样子的，也就是通过这个算法啊，它能够把原来的呃我们用的这些 ai 对话里面，因为对话里面它会这个服务器会不断地记录我们旧有的对话啊，通过旧的对话里面的信息逻辑去啊不断修正和调整新的这个回复。那所以说呢，它随着对话的不断增长，它的这个要存储的内容是非常的庞大的，那就导致了它有一个，呃有个专业名词叫做 k v 值，它是会占用它们的缓存、 gpu 的缓存和内存。那所以这个技术呢，就是降低了这这些缓存的。呃这个使用。市面上对谷歌的这个技术也有三个不同的理解方向，呃，第一个理解方向就是认同谷歌的这个层数，也就是认同它能够降低 ai 服务器大概六倍的这个内存的开销。呃，第二种是他认同谷歌这项新技术可以降低一部分的开销，但是他质疑是否能降低，呃有他宣传的这么多，也就是六倍，那他的依据是什么呢？因为谷歌的这篇文章，他是依据呃原来旧的这种这个 ai 模型去做的对比。旧的模型是怎么样的呢？它是用呃三十二位的微量化的这个模型去做存储的，那现在业界的普遍都已经进化成了呃这个四位的量化模型，呃，大家只要记住四位肯定就是比这个三十二位的这个模型呃他要优化一点。那所以说呃他们承认第二派，他是承认呃这个新的算法是有一定的帮助，但是帮助可能没有这么大啊，这是第二类。第三类呢，他是完全不同意谷歌的这个这个呃就是会降低呃我们内存的这个这个使用啊。也就是说虽然说他也承认呃谷歌可能会在一定程度上呃提升这个呃 ai 模型的这个效率，但是他只是提升了硬件这一派认为啊，提升了硬件认为，那最终导致的结果是什么呢？并不会导致最后呃内存的使用就是需求会降低，而只是市面上的这些内存做了一个更新迭代，他们后续的这些 ai 模型会以更好的这个硬件的效率去实现。比如说呃我们去跟豆包对话，它能理解更长的这些对话的内容，去存储更长的对话内容，而不是说用更小更少的这个硬件去继续维持现在的这种呃效率。所以说这是市场上的三派的观点。呃，但是呢，从这个市场表现上看，呃整个近两周，无论是呃内存显存的这个美国的这些呃企业、上市公司，还是说谷歌自己本身都是在最近都是在下载。那么呃，我认为这并不能说明就是说市场是是是对这个新技术去做的一个回应，不能这样子归因，因为你谷歌自己研发了这个新技术，它自己的股价也下跌了，那我认为是不能很好的去归因成是因为这个新技术导致的啊？这是我个人的理解，你怎么看？
7大黑碎碎念
01:09
内存要被Ai优化掉？我不这么看
查看AI文稿
AI文稿
这两天谷歌有条消息，很多人可能没看懂啊，但市场反应挺大。简单说就是 ai 现在有新技术，可以大幅减少内存占用，甚至能提升好几倍效率。一听这个，很多人第一反应是什么？那内存以后是不是不重要了？甚至会不会变便宜？我直接说结论啊，不会。首先这项工作在二五年四月就已经以论文形式公开。简单来说，这种优化本质上只是更省着用，不是不用了，就像你手机更省电了，你就不用电了吗？啊？不可能啊。而且有一个更关键的点，这种技术优化的主要是推理阶段，也就是用 ai 的时候。但真正吃内存的大头其实是在训练阶段，这一块根本没动。再加上 ai 的使用量本身在爆发，用的人越来越多，需求是在放大的。所以历史已经发生过一次类似的情况，每次技术效率提升，市场都会担心需求减少，但最后结果往往是用的人更多了，需求反而更大。所以这类消息短期可能会影响情绪，但长期逻辑其实没有变啊。你觉得技术进步到底是利空还是利多呢？
43大伟聊电脑行情
01:52
谷歌也被存储卡脖子？最近谷歌刚放出一篇论文，急着推出自己的KV Cache压缩技术……#AI #谷歌 #存储 #科技#好东西晒点大会
查看AI文稿
AI文稿
家人们，你们敢信吗？连谷歌这种顶级科技巨头，居然也被存储卡了脖子？最近谷歌刚放出一篇论文，急着推出自己的 kvatch 压缩技术，这背后全是被逼出来的无奈。先给大家说句大白话， kvatch 到底是啥？简单说就是 ai 大模型干活时的临时记事本，模型生成文字、处理信息时，之前算过的内容都存在这里，不用每次都从头算，省时间。但问题来了，这记事本越记越多，尤其是处理长文本、多轮对话时，占的内存直接暴涨，就像手机存太多照片会卡顿一样， ai 也会被撑得跑不动。以前咱们总觉得谷歌财大气粗，内存不够就加，还能有啥难题？可实际上现在 ai 模型越来越大，上下文窗口越来越长，再能堆硬件也扛不住。就像顶级的 gpu，内存也有限， k v i 占多了，模型本身就没地方放，运行速度直接拉跨，成本还蹭蹭涨。所以谷歌才急着搞出了 turbocharger 的压缩技术，能把 k v cash 压缩至少六倍，关键是精度一点不损失，原理也不复杂，不用传统的存储方式，改用极坐标加残差修正，相当于把记事本里的内容压缩成精华，省出大量内存，还能让 ai 运行速度快八倍。这事其实挺颠覆的，连谷歌都要靠自研技术解决存储瓶颈，说明 ai 发展到现在，存储已经成了绕不开的坎。不过这也不是坏事，谷歌这波操作说不定能带动整个行业突破瓶颈，以后咱们用 ai 体验只会越来越流畅。说到底，哪怕是巨头，也得为存储这样的小事掐脖子，你们觉得这波技术突破能彻底解决 ai 的存储难题吗？欢迎在评论区留言。
1算法博士
00:29
谷歌推出一种新算法，导致ai内存需求下降六倍！存储市场光速崩盘！#电脑 #内存#存储
查看AI文稿
AI文稿
ai 内存需求降低六倍，并且运行速度提升八倍。谷歌刚刚推出了一种算法，终结了这波内存涨价的闹剧，各大厂商再也不能因为 ai 需求量过多来涨价颗粒价格了。存储依然是崩盘的节奏。六千 c 二八从四千降到两千八，双八 g 内存从一千一降到七百五零六零钛从三千多降到两千六 e t b 硬盘也从一千多降到八百多。但是兄弟们别急着看，空中飞人应该要不了半个月了。
349硬核电脑防坑馆
10:36
别再花钱买 API 了！谷歌最强开源 Gemma 4 + OpenClaw 本地部署全流程，31B 大模型满血联动！#AI新星计划 #Gemma4 #gemini #人工智能 #AI
查看AI文稿
AI文稿
谷歌终于坐不住了，正式卷开源市场， jm 四的效果到底如何呢？ jm 四的发布啊，真的有可能让我们实现头很自由。这期视频呢，老张给大家简要介绍一下 jm 四怎么安装到本地，以及如何搭配到我们的 open klo 大龙虾上，附带所有的安装步骤啊，大家可以一起来体验一下。后续呢，老张也会根据测评效果给大家接着发视频，这期是我们完整的部署流程，老张重点给大家简单聊一下，就是为什么 jm 四的发布啊，会让大家感觉谷歌真的开始卷起来了呢？首先第一点，他和目前谷歌的 jimmy 三用的是相同的技术基座啊，所以说他的能力是毋庸置疑的。第二点就是商业自由，你直接部署下来做什么都是可以的，都是允许的。然后第三个就是支持多模态，无论是文本、图像甚至小规模的视频音频，他都可以直接支持。第四点就是结合前段时间爆火的 open klo，他可以直接在本地对接 open klo 以及对接 klo 的 code，实现本地的偷根无线化。这是老张给大家总结的四点，为什么詹姆斯的发布会让大家感觉，哎，可能真的要进入到一个新的纪元，然后呢，他所发布的这四款模型呢？老张给大家做了一张图片啊，大家可以到时候把它截下来。第一个模型一二 b 的，他本身是用于手机或者边缘设备八 g 显存，然后最高端的三十一 b，他所对应的旗舰版本呢，是对应的是二十四 g 加，所以大家根据你的需求来进行对应的模型选择。老张这次视频呢给大家来看一下三十一 b 的这款模型的安装，然后关于本地的安装部署啊，其实非常简单，任何开源模型，其实我们只需要让他和欧拉玛就是那个小羊驼结合到一起就可以了，我们可以去一下欧拉玛，之前没有安装欧拉玛的兄弟们也不用担心，直接去他官网安装即可。一个羊驼啊，现在已经开始玩龙虾了，但是这个不，这个是我们，我们首先现在官方已经开始逐渐的把羊驼和龙虾结合到一起了，我们直接选择对应的登录的，然后找到你符合要求的版本，直接安装到您的电脑上就可以。安装成功之后啊，欧拉玛现在已经有了一个完整的应用端了，所以大家可以直接在这个位置和他进行对话交流。那我们想要下载詹姆四到你本地的电脑上，我们可以使用它的官方指令找到官网的 model 选项，然后这有一个詹姆四，我们进入，他会告诉我们直接怎么样去进行詹姆四的对应安装，像老张想安这个三十一 b 的对吧？我们就把它拿过来，把它直接这有一个 c l i 命令行安装方式，把这个东西直接复制在你的开始菜单中，单机右键选择运行，输入 cmd，直接把刚才指令粘贴过来，这儿的时间会很长，因为它有二十个 g 的大小，我们直接稍作等待安装成功之后，我们也可以直接回到它的客户端中，在模型选项上找到我们安装好的詹姆斯冒号三十一币，然后可以直接进行对话，老张他处理一个较为复杂的提示词，我们让他看一下当前显存的内存消耗，咱们拿这个 ai 慢距的提示词来测试啊，这个提示词非常的长，我们看一下他读取提示词的能力，以及他的这个显卡的性能消耗。我们看一下啊，这个显存直接拉满的达到了百分之九十四的占比，而且这个响应速度还是非常快的，只需十一点七秒啊，就把整体的业务流程给我们直接补齐了，而且呢按照需求给我们进行了对应的提问，要什么样的慢剧效果，所以说以目前的测试反应来看呢，他的这个响应速度起码要比之前的很多大模型要好的多，所以接下来我们自己来尝试一下对话类的工具，可能大家都不是很需要的，我们能不能把它接入到我们的 open klo，接入到我们的龙虾里，让他们俩来进行联动的。然后这期视频呢，老张顺便给大家提一下，就是最新版的 open klo 的部署流程啊，咱们可以快速的去过一下一些重点的细节，因为之前老张发过很多期的部署视频，咱们可以去到时候去看一下。只不过这期视频呢，我想给大家来讲解一下这个 wsl 的这个部署优势。很多兄弟看老张之前视频都是用 note 直接下载安装的，但是为什么老张最后给大家又转回到了 wsl 这一块了呢？因为它本身啊， wsl 它是相当于在 windows 系统上安装一个 linux 的独立系统，这样的话呢，就直接相当于在你电脑上安装了一个独立的存储空间，它所谓叫做沙盒安全，而且运行起来呢，是不会有任何的兼容性的对应问题的，因为 windows 中啊，它的权限呐，路径等经常会报错。所以说我们这期视频重点教大家怎么用 wsl 进行 win opencl 的部署安装，这样的话， windows 和 wsl 的安装您都了解之后，之后学起来就非常方便了。然后接下来呢，老张给大家简单的介绍一下在 wsl 中如何安装我们的 openclaw，因为之前呢，咱们介绍过太多次了，很多兄弟留言说老张就别介绍怎么安装了，然后我们就给大家简单说一下注意事项。首先第一呢，你想在 wsl 上安装 openclaw 的话，第一点，你得先在你的 windows 系统下把 wsl 安装一下。当然很多电脑老张发现其实都是自带的，怎么检查是否自带呢？咱们可以直接输入 wsl 空格，杠杠威森，如果弹出定的版本号证明 wsl 电脑已经安装了，如果没有弹出的话，使用安装指令， wsl 空格 insert 直接安装即可。然后紧接着按照老张给你提供的指令复制粘贴就可以了。先安装你的优班图，安装之后啊，在这选择这个倒三角，找到优班图系统，就可以直接进入到你的优班图系统当中。在你安装过程中啊，它会让你设置一个用户名和密码，到时候可能需要做一步密码验证。在优班图系统中，注意是优班图系统中运行这些环境指令，分别安装 python 三、安装一个压缩包工具，方便安装一个 note 点 gs，然后再安装一个 get 工具。如果说为了检测每一步安装是否成功的话，你可以分别输入，比如 note 杠 v、 npm 杠 v，包括 get 杠 v，在这检测我们对应的这个版本，如果都能弹出版本号，证明你三项安装都是成功的，这是配置 openclo 的基本的内容要求。然后紧接着我们把基本环境配置好的兄弟，你还需要在这个位置安装一下这个欧拉玛。这老张要重点说一下，比如说老张我不在本地都已经下载好欧拉玛了吗？为什么在优班图里还需要再配置一下？其实我们优班图中是可以调用本地的欧拉玛的，但是很多兄弟在调用过程中分别给老张留言说说调用时无论是 ip 地址找不到，还是 ip 的动态变化，导致每次都需要重新连接，重新配置。所以说最简单的方式就是把欧拉玛在你的优班图系统中再次的安装一遍。其实安装非常简单，只需要把第一步的安装指令复制过去，直接在这个位置直接粘贴即可。安装成功的检测方式很简单，你就输入欧拉玛，如果他不报错，还给我们对应的选项，是咱们是进行对话呀，还是怎么样的证明你的安装就是成功的， ctrl c 直接退出。所以说欧拉玛安装之后，紧接着就是把我们的模型在当前的优班途中跑起来。老张刚才给大家测试的是 g m 四三十一 b 模型，我们直接输入指令欧拉玛空格 run，然后你的模型效果直接回车，第一次时他会直接进行对应的模型下载。如果说你现在只想用 openclo 来调用欧拉玛的这个占四的话，可以在我们的本地电脑上把之前咱们那个桌面端给它删掉，如果说你不，你想两端都使用的话，就可以直接在这个位置进行使用了，然后发一个你好看一下响应速度，响应速度是非常快的，所以接下来我们把这个家伙欧拉玛的詹姆斯直接部署给我们的 openclo，在这怎么中止对话，摁一下 ctrl c，再摁一下 ctrl d 啊，就可以直接进行中止对话了啊，所以说大家可以直接的把它退出来，退出来之后我们在这部署一下 openclo。关于 openclo 的安装呢，官网推荐是使用 col 这种安装方法，但是老张发现很多兄弟在使用这种安装方式时呢，出现了这个网络问题，导致下载出现卡顿，如果说 col 的方法报错的话，直接使用 npm 安装也是完全可以的，安装完之后直接输入 open klo 空格杠 v 来输出最新的 open klo 的对应版本啊，这就是老张跟大家说的一些建议啊，大家按照这个要求去做就行了。然后接下来我们进入到配置，直接使直接输入它的配置指令回车，选择 yes，然后选择快速开始就可以，我们直接配置一下模型，然后选择更新，这选择谁呢？选择这个欧拉玛啊，然后选择默认的这个 ul，选择本地模型，让他去给我找一下咱们本地有哪些模型，稍作等待好，选择当前的这个模型， gm 四三十一 b，然后配置我们的聊天软件啊，这个老张之前讲过太多太多次了，现在呢，他又支持了很多，包括 qq 之类的，大家有需要的话可以按照之前老张的教程再来一遍，我们先跳过打开之后啊，就可以直接对话了。但是如果说善于观察的兄弟们也发现了，老张呢，把这个使用模型呢换成了这个一四 b 的模型，不是那个三十一 b 的，因为三十一 b 呢，老张在测试的时候也好，或者在一些使用时候也好，他有的时候会出现这个连接超时的问题，也是 open klo 更新到最新版本出现了一个能启动问题，这个呢，老张现在还没有特别好的解决方案，所以说我先用 e s b 的给大家进行演示，发一个。你好，我们来测试一下他的响应速度啊，还是比较快的。然后接下来呢，我们再把之前的那个慢句的提示词发送过来，我们来看一下他能不能更好的帮我们去进行慢句提示词的对应理解，以及对应的相关反馈。嗯，其实我们看到啊，他反馈的这个结果呢，和三十一 b 相比啊，真的是有一定差距的，但是呢，确实也是另一方面实现了我们所谓的叫偷根自由。大家呢也可以后续啊，去测试一下怎么让本地如果你的显卡够用的话，把这个大模型给它跑起来，然后老张呢也会及时给大家更新啊，无论是在评论区中还是视频中，教大家如何使用，我是程学老张，定期分享 ai 好用知识，希望大家多多关注。
933程序员老张（AI教学）
02:31
杀疯了！谷歌一招干崩美股内存板块，AI内存需求直接砍到渣，内存涨价白涨了？#电脑DIY #内存 #谷歌 #小强 #小强DIY电脑
查看AI文稿
AI文稿
就在我还在认为内存会涨价的时候，杀疯了，直接让我高兴的直接想蹦起来。谷歌一招直接干崩美股内存板块， ai 内存需求直接砍到渣，内存涨价白涨价，完了费力了，内存价格飙上天。谷歌一篇论文直接把美股内存板块直接干趴下。 c f l c ceo 看完惊呼，这是谷歌的 unique 高光时刻，之前的 deepsea 用点算力就迅速蜕变的模型已经够颠颠覆了。这次谷歌啊，直接放大招了，更狠， ai 退给的内存需求直接干到骨折。为啥这招这么炸裂？先说说 ai 的内存，那那那点动点啊！ ai 聊天看长文都得靠 k y 缓存记关键信息，就像学霸写小抄，抄太细，内存直接满， ai 又慢又烧钱，想省空间缩内容， ai 又会看叉看叉看叉看叉笔答不对。以前的压缩法就是硬把字变小， a i 认错还得记缩写，纯纯添乱。但这次五哥直接甩俩神操作，把问题直接全部干碎。第一等， p q p o q u i t 换个姿势进啊！以前 a i t 位置像走坐标，东三步北三步，又麻烦又占地方，现在直接记三十七度走五度，视角一换，海量内存省出来还绝对不会错啊！第二招， q g f 一个符号搞定，纠错压缩难免的小误差，直接抹平，瑕疵零额外，内存速度还直接飞起。这点这个连招啊，效果恐怖到一 k i 缓存从三十二位压到三位，三十二位压缩到三位，内存直接从直接省到六倍以上啊！伊伟达 h 一百显卡上注意力计算速度快八倍，关键是回答准确率一点没降，还不用重新训练，模型拿来就用，现在内存价格天天涨，全行业都从算力成本高到低，谷歌这波操作直接让内存涨价成了大笑话。这波就行操作，直接改改写 ai 行业游戏规则。我太高兴了，昨天我还说呢，我有一种强烈的预感，今天我突然发现好像我有点错了吧啊。
163小强DIY电脑
02:39
#谷歌#AI内存压缩技术#TurboQuant发布
查看AI文稿
AI文稿
谷歌 ai 内存压缩技术 turboqant 发布，引爆存储板块恐慌。谷歌最新发布内存压缩算法 turboqant，并宣称 turboqant 可在不损失准确性的前提下，将大语言模型运行时的缓存内存占用至少缩减六倍，引发市场对存储硬件长期需求的深度担忧。周三美股盘中，存储芯片板块集体跳水，闪低一度，大蝶六五、美观科技、蝶四吸附数据、焊锡结科技分别跌超四看五，截止收盘，跌幅有所收窄。该技术直指 ai 系统中的键值缓存 kvatch 瓶颈，通过将缓存压缩至三比特，实现内存占用的显著下降。谷歌采用两步压缩法，先以 pro 光基技术将数据向量转为极坐标，消除归一化开销，再利用 qgl 量化算法修正残差误差。在 gamemaster 等开源模型的测试中， turbo quantum 不仅实现六倍内存压缩，在英伟达 h 一百 gpu 上的性能较未量化的三十二位方案最高提升八倍。面对二级市场的恐慌抛售，科尔街同行则展现出冷静态度，认为市场反应过度。 link's equity strategy 分析师 k c rachiko，媒体对 turbo quantum 的报导存在夸大，当前推理模型已广泛采用四比特量化。谷歌宣称的八倍性能提升是基于与老旧三十二位模型的对比，该技术仅用于缓解算力瓶颈，不会改变未来三五年内存与闪存需求因供应受限而坚挺的格局，因此维持美光科技七百美元目标价及买入评级，建议在回调中买入。 well fargo 分析师 andrew roach，尽管 turboqant 直击 ai 系统的内存成本曲线，但历史经验表明，压缩算法从未真正改变硬件采购的整体规模，目前 ai 内存需求基本面依然强劲。摩根士丹利原影杰温斯贝伦指出，该算法仅作用于 ai 推理阶段的键值缓存，不影响模型训练及高宽带内存 h b n 需求。核心价值在于提升单 g p u 吞吐量，让相同硬件支持更长上下文或更大批处理规模。摩根士丹利分析技术效率提升会降低使用成，进而激发更庞大的总需求。 turboq 可大幅降低单次 ai 查询成本，推动原本仅能在云端昂贵级群运行的模形象本地迁移，降低 ai 规模化部署门槛，激活更多此前受制于成本的应用场景。同行最终判断该技术重塑 ai 部署成本的应用场景对算力与内存硬件的长期影响中性偏正面，并非立空。以上内容仅作为财经知识分享，不构成投资建议。
1财经前沿
04:09
谷歌 6 倍内存压缩算法？内存行业没危机！ #谷歌TurboQuant #AI压缩算法 #内存行业分析 #科技硬核科普 #大模型算力
硬核科普谷歌 TurboQuant 内存压缩算法，拆解其导致内存股大跌的真相，揭秘为何这项技术根本不会给内存行业带来危机。
查看AI文稿
AI文稿
谷歌扔出一颗科技炸弹，内存股瞬间集体大跌，市场一片恐慌。都说 ai 要省六倍内存，内存行业要凉了，但我直接说结论，这纯属无脑情绪。啥内存行业不仅没危机，长期刚需逻辑一点都没变。咱们先把这件事说透，不带任何偏见，只讲公开消息。财联社刚官宣，谷歌推出了一款叫 turboqant 的 ai 压缩算法，主打就是降低大模型的内存占用。说白了，现在 ai 大模型运行的时候，有个叫键值缓存的东西，就像 ai 的临时草稿纸，上下文越长，草稿纸越占内存，成了算力瓶颈。谷歌这个算法不用重新训练模型，直接把这块缓存压缩到三比特精度，能省六倍缓存内存，在高端显卡上还能提升八倍运行速度。测试了多款主流开源模型，效果都很稳，谷哥打算四月的国际会议上正式展示这项技术。小喜一出，美股内存股立马跳水，美光、西部数据这些巨头纷纷大跌， a 股相关个股也跟着成压，市场恐慌情绪直接拉满。大家恐慌的点很简单，省六倍内存， ai 就不用买那么多内存了，内存厂商要完蛋。但这个逻辑从头到尾都是错的，咱们一层层拆穿。首先，这个算法压缩的不是全部内存，只是一小块临时缓存。很多人把键值缓存和整机内存划等号，这是最大的误区。键值缓存只是 ai 运行推理时的临时存储空间，只占 ai 内存需求的一小部分。模型权重、训练环节、整机运行内存这些核心内存需求一点都没减少，它省的是临时草稿纸的空间，不是把整个笔记本都扔了。其次，省下来的内存会被暴涨的 ai 需求直接吃掉。现在各大厂商都在疯狂做大模型，涨上下文，从几万上下文冲到几十万、上百万，缓存占用量本来就在几何级增长，就算省六倍内存，只要上下文再扩大几倍，内存需求不仅没降，反而还会涨。而且算法优化后， ai 运行更快，成本更低，会催生更多 ai 应用，反而带动更多算力和内存采购，相当于修路变快了，车会变得更多，路的需求只会更大。再者，实验室技术不等于大规模商用，落地周期几场，这只是谷歌的一项技术成果，还没正式公开落地。从实验室测试到云厂商， ai 企业大规模商用至少要一两年甚至更久，期间还要适配不同硬件、不同模型，解决稳定性、兼容性问题，根本不是马上就能普及、立刻冲击内存需求的黑科技。最后，内存的应用场景根本不止 ai，大模型、手机、电脑、服务器、公控设备、智能硬件全都是内存的刚需场景， ai 只是其中一个增量市场，就算 ai 推理缓存省点内存，其他场景的需求还在逐步增长，但一技术根本撼动不了整个内存行业的基本盘。说到底，这个算法是 ai 算力的优化工具，不是内存的替代品，是锦上添花，不是釜底抽薪回归产业本身。针对这项新技术，给大家理清几个客观认知，避开市场误区。第一，市场恐慌属于情绪性过度反应，大众容易把局部技术优化放大成整个行业的颠覆性冲击，忽略了技术落地场景适配的客观限制，属于典型的片面解读。第二，内存行业的核心需求逻辑未变。 ai 产业的核心增量在于大模型迭代算力、基建扩张长上下文普及单一缓存优化技术，撼动不了全区内存需求的基本盘。第三，认清技术的真实定位。这项算法是 ai 算力的优化工具，能推动 ai 产业降本提速，属于产业升级，并非内存的替代技术，长期对内存行业属于中性影响。觉得干货科普有用的点赞关注不迷路评论区聊聊你对这项 ai 压缩技术的看法，下期继续深挖硬核科技产业逻辑，继续跟旭哥絮絮叨。
119旭哥旭旭叨
02:03
谷歌TurboQuant是内存杀手？别闹，真相来了！
查看AI文稿
AI文稿
一篇谷歌的论文 turbocon 的压缩算法竟然引发了今天的内存行业惨案。此算法一出，内存股应声大跌。为什么呢？因为 turbocon 把 kvatch 的内存占用压到了原来的六分之一，推理速度最高提升了八倍，而且几乎零精度损失。这意味着，原来需要一台一万美元的工作站才能跑起来的大模型，现在用一台 macbook 就能跑了。原来四十 g hbm 才能撑起来，在百万上下文，现在六 g 就够了。原来企业不敢部署的常驻 a 代理，现在成本直接能砍掉一半。然而重点来了， turbocharger 并不能导致内存需求崩盘，反而是会推动 ai 规模爆炸。历史已经早就证明了这一点。当年福来社 tencent 让注意力计算快了十倍，结果不是 gpu 的需求下降了，而是 ai 训练的规模直接翻翻了。所以这回的 turbo box 也是一样，内存瓶颈被突破，导致上下文从百万走向无限，导致模型从中心化走向边缘化，导致 ai 应用数量从指数级增长。从长期看， h b m d r m s s e 的需求只会更夸张，因为效率的提升并不会让需求下降，只会让更多人更大规模、更长上下文的使用 ai。这就是典型的杰维斯辩论。而且啊， turbo box 它也不是魔法，它是有代价的。第一，他用算力换内存，随机旋转 mac 一旦化 qgl 校正，这些步骤都会增加，每个 toky 的计算量短，上下文甚至可能会更慢。第二，他的工程门槛太高，需要自己一坑呢，额外的原数据跨平台适配，所以短期内不太可能全行业普及。第三，压缩 k v cash 开始可能会带来选择性遗忘，系统提示更容易被覆盖，越狱风险上升，所以必须重新评估安全性。 so turnlock 它的本质并不是什么内存革命，而是效率提升，它不但不会摧毁内存行业，反而是会让 ai 的规模化速度再提一档。眼下顶级内资厂商都在玩命破产，未来的三到五年，新厂房、新产能那才是主旋律。那你觉得那些瞎逼逼的所谓专家，他们会比干了几十年的老行尊们更专业吗？想想他们为什么这么说，脑子呀，得多转几个弯点亮智慧人生吧。
242奇点凉风吹
03:02
破解AI存储困境谷歌祭出“新杀招” #媒体精选计划 #零距离看懂财经 #热点零距离
查看AI文稿
AI文稿
朋友们，还记得我们之前讲过的一盒内存条堪比北上广的一套房吗？自从 ai 拉爆存储需求以来，存储产品的价格那叫一个水涨船高啊。但是反过来看， ai 行业也因为存储价格一路高涨而付出了巨大的金钱成本。一句话， ai 苦内存久矣。但是就在这两天，谷歌突然甩出了一记王炸，他说矿一种可能降低 ai 内存需求的压缩算法，让整个科技圈炸开了国。今天呢，我们就来扒一扒这技术到底牛在哪。知道不管是大模型炼单还是日常的推理，本质上是把一切转化成像量。一串数字，那么它承载的信息越是复杂，需要的内存也就越恐怖。在 ai 推理的过程中，有一个用于存储高频访问信息的兼职缓存，相当于大模型的临时记事本。它的作用是存好之前运算的结果，避免重复劳动。当模型的上下文窗口越大，这本子也就被记得越满，甚至分分钟空间告急。谷歌的 table quant，据说在不用重新训练模型的前提下，就可以把剑指缓存压缩到三倍精度，实现六倍内存接收。若是在英伟达 h 一百加速器上，还能让性能最高提升八倍。不光能用在 ai 模型上，还能支撑大规模搜索引擎的向量检索，这就相当于给内存瘦身，还不丢精度。甚至有人说这是谷歌的 dipstick，时刻认为这个技术有可能像 dipstick 一样，通过极高的效率收益，大幅拉低 ai 的运行成本。不过大家还是别被表面的经验数据冲昏了头啊，这技术还没现出全貌，不确定性不少，比如说他能不能跳出谷歌自己的体系，推广到其他 ai 实验室呢？实验室里的亮眼数据到了真实生产环境能不能稳住？而且目前只是在在骏马、 metro 等开源模型上验证过，其他模型和超长上下纹窗口表现还不好说，谷歌也只说四月会在国际学习表证会议上详细展示，现在还属于犹抱琵琶半遮面的情况。而且这次华尔街的态度也是非常冷静的，还有理有据的提出了质疑。富贵银行 tmt 的分析师就指出，历史经验表明，压缩算法的存在从未从根本上改变硬件采购的整体规模，目前 ai 内存的需求基本面依然强劲。也有分析师则认为媒体对 turbocount 报道夸大了，理由是谷歌说的八倍性能提升是跟老旧的三十二位模型比，而且这项技术顶多缓解算力瓶颈，改变不了未来三到五年内存需求坚实的大趋势。而更关键的是，罗根释丹利提出了杰文斯贝伦及技术。效率提升往往会降低使用成本，反而激发更庞大的需求。也就是说， turbo 矿子能大幅降低单次查询的服务成本，让原本只能在云端运行的模型搬到本地，进而激活更多 ai 应用场景，长期来看反而提振存储需求。综合以上的信息来看， trophone 更像是 ai 存储的优化神器，而非行业终结者。内存需求的基本面没有改变，效率革命反而可能打开更大的市场。至于这场技术与市场的博弈也才刚刚开始。你觉得这波矿能改写 ai 存储格局吗？评论区里聊聊你的看法吧。我是瑶瑶，关注我，带你看懂硬核财经背后的逻辑。
476瑶瑶讲电报

热门推荐

热门分类