Engram如何查表 - 抖音

您是不是在找：

大课堂科技-数控编程培训3年前

公差的查表方法#mastercam #加工中心 #数控 #cnc加工

00:00 / 00:22

连播

清屏

智能

倍速

点赞5451

未来博士wepon5天前

DeepSeek Engram又对大模型底层动刀了大家好，DeepSeek最近是大招频出，新模型肯定不远了。今天又发了个新论文，叫 Engram。干什么的呢？大家可以先想一下戴安娜王妃是谁这个问题对我们来说，这是从记忆里直接调取一个已知事实。但对于今天的大语言模型（LLM）来说，它得像现场组词造句一样，一层一层地分析“戴安娜”、“王妃”、“威尔士”这些词，通过复杂的注意力机制和神经网络计算，才慢慢“理解”并拼凑出这个实体。它在用"算"来模拟"记"。这其实是当前大模型架构的一个根本性bug。#人工智能 #deepseek #Engram

00:00 / 05:19

连播

清屏

智能

倍速

点赞1528

栗噔噔5天前

DeepSeek又发新论文！带你3分钟速通Engram #deepseek #deepseekv4 #梁文锋 #抖音精选 ##知识前沿派对

00:00 / 04:28

连播

清屏

智能

倍速

点赞349

大课堂科技-数控编程培训4年前

公差查询方法#fanuc#数控#mastercam @DOU+小助手

00:00 / 00:15

连播

清屏

智能

倍速

点赞2101

论文不白读3天前

《Engram：通过条件性记忆查找扩展大型语言模型》 Engram: Scaling Large Language Models via Conditional Memory Lookup 这项研究介绍了 Engram，一种旨在提升大型语言模型效率的条件记忆模块。研究指出，传统 Transformer 架构在处理静态知识检索时效率低下，往往需要通过深层计算来模拟简单的查找过程。Engram 现代化的 $N-gram$ 查找机制，通过 O(1) 复杂度的检索，成功将存储与计算解耦。实验表明，这种双轴稀疏设计（计算稀疏与记忆稀疏协同）在相同参数和计算量下，显著增强了模型在通用推理、数学及长文本处理上的表现。此外，该设计支持预测性预取，能有效利用主机内存扩展参数规模，且几乎不增加推理延迟。总之，该技术通过赋予模型原生的记忆检索能力，释放了神经网络底层在复杂逻辑推理上的潜力。

00:00 / 07:41

连播

清屏

智能

倍速

点赞0

AI.望哥4天前

一分钟教会你使用爆火的Gemini3.0#gemini使用教程 #谷歌AI

00:00 / 00:54

连播

清屏

智能

倍速

点赞197

小波Amber3天前

#deepseek 春节又要放大招啦？ 1.12发布论文，最新架构#engram #条件记忆

00:00 / 02:06

连播

清屏

智能

倍速

点赞36

BPai前沿Talk2天前

DeepSeek回来了，Engram新架构颠覆大模型 #DeepSeek #编程 #gpu #AI #Engram

00:00 / 01:26

连播

清屏

智能

倍速

点赞21

聊AI的小乐匠3天前

Deepseek 新论文：给大模型装记忆外挂 DeepSeek最近论文频发，新的旗舰模型应该是不远了。昨天又发了一篇关于engram的新论文，是架构层面的重大创新。我们还是分两部分，先说这篇论文干了什么，再放在整个AI大模型研究趋势中，看它的价值。#大模型 #人工智能 #Deepseek #AI

00:00 / 05:44

连播

清屏

智能

倍速

点赞54

老周物理AI5天前

直面阳光DeepSeekEngram 直面阳光 DeepSeekEngram #DeepSeek #AI #人工智能 #人工智能应用 #商业化

00:00 / 06:41

连播

清屏

智能

倍速

点赞8

奇点左侧的BPai蜀黍2天前

DeepSeek放大招！梁文锋署名新论文曝光V4架构？ #DeepSeek #编程 #gpu #AI #Engram

00:00 / 01:50

连播

清屏

智能

倍速

点赞18

钢铁侠蜀黍，AI来了怎么办？2天前

DeepSeek V4诞生前夜？梁文锋署名新论文发布 #DeepSeek #编程 #gpu #AI #Engram

00:00 / 01:38

连播

清屏

智能

倍速

点赞62

关于NLP那些你不知道的事4天前

颠覆 RAG？无须微调？Engram 重新定义大模型记忆 #百亿流量扶持计划

00:00 / 11:37

连播

清屏

智能

倍速

点赞4

Qiuming5天前

“Engram”架构：让AI像查字典一样高效记忆 DeepSeek发布全新“Engram”架构：让AI像查字典一样高效记忆 2026年1月13日，深度求索（DeepSeek）发布题为《基于可扩展查找的条件记忆》的突破性论文，提出名为“Engram”（记忆印迹）的创新架构，旨在从根本上改进大语言模型存储与提取知识的方式。此项研究直指当前基于Transformer的模型（包括DeepSeek-V2/V3等主流混合专家模型）的核心局限。混合专家模型虽通过“条件计算”优化了计算效率，但缺乏高效的知识查找机制。现有模型需通过多层复杂计算来回忆简单事实，如同每次都不查资料而重新推导公式。 Engram模块通过引入“条件记忆”解决该问题。它受经典N-gram模型启发，作为一个可查询的外部记忆库嵌入Transformer中。其通过快速的基于哈希的查找检索相关知识向量（像查字典一样），并通过门控机制将其与模型动态计算融合，实现了“记忆”与“推理”的分离，释放了宝贵的神经网络算力用于复杂逻辑。研究关键发现是“稀疏性分配”原则。实验表明，当约20-25%的稀疏参数预算分配给Engram记忆表，其余分配给MoE专家时，模型性能达到最优。 27B参数的Engram-27B模型测试结果显著。它不仅在知识密集型任务上超越标准MoE模型，更在复杂推理、代码生成和数学解题等需要逻辑推演的任务上表现突出。机理分析表明，Engram通过承担底层模式识别，提升了模型的“有效深度”，让深层网络更专注于高级语义理解。 Engram在长文本处理上也展现优势，在“大海捞针”测试中准确率大幅提升，通过处理局部依赖释放了全局注意力机制的容量。其确定性哈希机制还带来了工程红利——可将大规模记忆表存储在廉价的CPU内存中，推理延迟仅增加不到3%，为未来搭载万亿参数级知识库提供了可行路径。结合近期发布的专家通信优化技术，Engram预示着未来模型架构将向更集成化、类脑化的方向发展，计算与记忆模块协同工作，构建更高效、博学且善推理的智能系统。 https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

00:00 / 01:22

连播

清屏

智能

倍速

点赞1

吴大熊流浪地球5天前

DeepSeek Engram：给 AI 装上"字典"的革命 #deepseek #ai #大模型

00:00 / 08:38

连播

清屏

智能

倍速

点赞7

赛博剑梅3天前

DEEPSEEK又在AI界扔了颗“记忆炸弹”！ AI 总 “失忆”？DeepSeek 联合北大搞大事！新 Engram 技术实现 “查算分离”，给 AI 装专属记忆库，春节后或上线，从此 AI 懂你喜好、记你需求！#AI #人工智能能#科技发展 #DeepSeek #北大

00:00 / 01:22

连播

清屏

智能

倍速

点赞345

idefav5天前

DeepSeek神作Engram：外挂字典解放推理深度为什么现在的 AI 记名字、记术语总是慢半拍？DeepSeek 联合北大发布重磅论文，推出 Engram（条件存储）技术！它不再让 AI 靠蛮力计算去“硬背”知识，而是通过高效的静态查表（N-gram）解放大脑深度。结果惊人：推理能力（BBH）提升 5.0，长文本检索准确率从 84.2 狂升至 97.0！这是一个比 MoE 更高效的“存储稀疏”新时代。快来一分钟看懂这项 AI 架构的重大变革！ #DeepSeek #Engram #大模型 #AI技术 #人工智能 #MoE #机器学习 #长文本处理

00:00 / 15:47

连播

清屏

智能

倍速

点赞20

向前的时代5天前

Engram架构-这是一种基于可扩展查表的条件记大家好。今天我们将深入探讨由DeepSeek-AI与北京大学联合提出的Engram架构1,2。这是一种基于可扩展查表的条件记忆机制1。我们的核心观点是：在大语言模型不断追求规模化的今天，除了传统的“条件计算”，我们还需要引入一个全新的维度——条件记忆，以开启模型稀疏性的新维度

00:00 / 06:38

连播

清屏

智能

倍速

点赞15

前沿关注4天前

#DeepSeek #梁文峰张图揭示了AI模型设计的底层规律：左侧极端（纯Engram）：如果把参数全给字典，Loss很高。因为模型变成了“书呆子”，光有死记硬背，没有逻辑推理能力。右侧极端（纯MoE）：如果把参数全给专家，Loss也很高。因为专家们被迫把精力都花在背书（记忆静态知识）上，没空干正事。黄金分割点（ρ ≈ 75%-80%）：当我们将约20%-25%的稀疏参数预算分给Engram，剩下的给MoE时，模型的验证集Loss降到了最低点。这是一个极具指导意义的发现：对于几百亿参数的大模型来说，单纯堆砌计算单元（MoE专家）已经是边际效应递减了，必须引入专门的静态记忆模块来实现“存算平衡”。反直觉的爆发——为什么“查字典”能提高“数学成绩”？如果Engram仅仅是让模型“记性更好”，这篇论文的分量还不足以震动社区。毕竟，RAG（检索增强生成）也能解决知识问题。真正让业界感到震撼的，是实验结果中那些意料之外的收益。 DeepSeek构建了三个对比模型，严格控制激活参数量（3.8B）和训练数据量（262B tokens）完全一致： Dense-4B：传统的稠密模型。 MoE-27B：纯MoE模型（72个专家）。 Engram-27B：混合模型（55个专家 + 5.7B Engram参数）。结果令人大跌眼镜： 1. 意料之中：知识类任务霸榜在MMLU（综合知识）上，Engram模型提升了3.4分；在CMMLU（中文知识）上，提升了4.0分。这很好理解，外挂了字典，常识自然更好了，幻觉更少了。 2. 意料之外：逻辑、代码、数学全面暴涨按理说，“查字典”和“做数学题”没关系。但在BBH（综合推理）上，Engram-27B竟然比同参数的纯MoE基线提升了整整5.0分！ MATH（数学）：提升2.4分。 HumanEval（代码生成）：提升3.0分。 ARC-Challenge（复杂推理）：提升3.7分。 3. 深度解析：有效深度（Effective Depth）理论为什么？一个“死记硬背”的模块，为什么能提高智商？ DeepSeek团队利用LogitLens和“CKA（中心核对齐）”技术，对模型内部进行了“解剖”。他们发现了一个惊人的现象：还记得开头的“戴安娜王妃”吗？

00:00 / 06:58

连播

清屏

智能

倍速

点赞0

Supa宇5天前

DeepSeek V4 路线图曝光！ #Engram技术 #记忆革命 #推理爆发 #显存破局 #大模型未来 #AI

00:00 / 01:28

连播

清屏

智能

倍速

点赞6

OnTable2天前

Engram,让AI拥有强记忆 deepseek最新开源论文#deepseek #engram

00:00 / 07:18

连播

清屏

智能

倍速

点赞1

星辰大海捞针5天前

Engram 给 Transformer 的是查询提示而不是查询内容本身3 梁文峰团队的这个 engram 论文，严格地说应该是朝查算分离迈出了一步，但还远远达不到说真正的分离。因为 Engram 给出的仅仅是查询的提示，而不是查询的内容本身。事实性的内容并非由 conditional memory 提供，它还是存在大模型的 FFN 的参数里

00:00 / 05:55

连播

清屏

智能

倍速

点赞2

AI费曼4天前

DeepSeek Engram 给大模型挂载外接大脑

00:00 / 03:53

连播

清屏

智能

倍速

点赞15

Ying3天前

白话解读：DeepSeek又突发论文与Engram#… #14年大众桑塔拉 #爆改普拉多 #普拉多真香现场 &

00:00 / 11:37

连播

清屏

智能

倍速

点赞18

Dassmeta | 领域模型领导者4天前

1月15日AI资讯 1月15日AI资讯：一、DeepSeek与北京大学提出Engram条件记忆模块,让Transformer从'死记硬背'转向'查字典式高效推理二、斯坦福大学李飞飞团队与微软提出Video Weave: 通过数据重组策略在固定算力下显著提升视频理解效率三、阿里，月之暗面，阶跃星辰等国内外机构联合推出BabyVision: 揭示多模态大模型在基础视觉推理能力上存在显著缺陷

00:00 / 04:30

连播

清屏

智能

倍速

点赞0

InfoQ5天前

DeepSeek又不睡觉干大事了！凌晨发布Engram模块，创始人梁文锋亲自署名。V4架构提前揭秘？这波“查算分离”的操作，真的把大模型的效率玩明白了。 #DeepSeek #AI架构 #开源 #MoE #Engram #InfoQ @抖音创作小助手

00:00 / 02:18

连播

清屏

智能

倍速

点赞35

小艾数码说4天前

2026deepseek开源，记忆+计算双轴时代来临 #deepseek开源

00:00 / 00:45

连播

清屏

智能

倍速

点赞1018

数分魔说量化4天前

梁文锋最新署名论文对模型架构及A股影响解读（附利好A股名单） DeepSeek联合北大最新论文提出突破性架构Engram，通过“外挂硬盘”让AI学会“查表”而非全盘计算，大幅降低推理成本。这一技术革新或将减少对高端GPU的依赖，利好国产算力、内存产业及高速互联协议相关公司。

00:00 / 06:59

连播

清屏

智能

倍速

点赞23

AI进化赋能集5天前

为什么说让AI“记住”比让它“算”更重要？一起解读梁文锋 2026年1月13日，北京,DeepSeek团队与北京大学合作提出“条件记忆”新范式，通过Engram模块让大模型用O(1)速度检索静态知识，释放注# 模块可形成最优性能配比。 #我就这样开启2026

00:00 / 03:19

连播

清屏

智能

倍速

点赞1

戴志伟5天前

DeepSeek新论文太狠了！给AI装“外挂”字典？你敢信吗？你问AI“1+1等于几”，它其实是在疯狂计算，而不是直接回答！🤯 这就是大模型的痛点：没有记忆，只有计算。DeepSeek最新的论文Engram，终于给AI装上了一本“字典”！📚 把“背书”的任务交给字典，把“大脑”腾出来做推理。结果你猜怎么着？AI不仅知识更渊博了，连数学和写代码变聪明了！🧠💻 这才是真正的“好钢用在刀刃上”！关注我，看懂更多硬核AI科技！🚀 #AI #AI视频 #AI播客 #DeepSeek #Engram #大模型 #黑科技 #程序员 #硬核

00:00 / 02:32

连播

清屏

智能

倍速

点赞5

瑞克老张有话说6天前

梁文锋又发论文，DeepSeek V4浮出水面？ #deepseek #大模型 #AI #算法梁文锋昨天又发论文了，DeepSeek Engram的诞生，标志着大模型稀疏化从"条件计算"单轴时代迈向"条件计算+条件记忆"双轴时代。它用工程智慧解决了认知科学难题——通过功能解耦实现整体智能跃升。在算力焦虑持续的今天，这种"用架构换效率"的思路尤为珍贵。当行业仍在追逐万亿参数时，DeepSeek选择重构参数本身。这或许就是中国式创新的独特路径：不盲目堆料，而是深入问题本质，用最优雅的工程方案实现突破。

00:00 / 08:49

连播

清屏

智能

倍速

点赞1363

AI编程小朱2天前

DeepSeek最新论文发布Engram技术！ #人工智能 #大模型 #DeepSeek #深度学习 #大学生

00:00 / 03:12

连播

清屏

智能

倍速

点赞276

C哥聊科技4天前

DeepSeek给AI大脑装了个外挂硬盘，训练成本暴降 DeepSeek新论文给AI模型装上了“外接知识库”，通过一个叫Engram的智能查找模块，AI现在能像查字典一样秒速调取信息，把更多算力留给真正的逻辑推理，实现性能的全面提升。#AI #DeepSeek #论文

00:00 / 05:29

连播

清屏

智能

倍速

点赞105

杜雨说AI5天前

白话解读：DeepSeek又突发论文与Engram #deepseek #梁文锋 #人工智能 #杜雨

00:00 / 11:38

连播

清屏

智能

倍速

点赞1605

金杯电线电缆厂营店1年前

电工知识分享：电表如何远程查表湖南金杯电缆专业电缆生产厂家，为您提供最具性价比的光伏电缆，铝芯电缆，护套电缆等生产定制服务，让您的企业更具竞争力！#湖南电缆厂家 #光伏电缆厂家 #铝芯电缆厂家 #护套电缆厂家 #电缆源头工厂

00:00 / 00:25

连播

清屏

智能

倍速

点赞57

温皓宸4天前

小白适配版视频，理解ai前沿技术理论Deepseek 开年重磅新技术engram 引爆ai领域#ai #人工智能 #温皓宸 #deepseek #engram

00:00 / 05:08

连播

清屏

智能

倍速

点赞23

科技健康探秘哥3天前

DeepSeek团队扔出‘王炸’——Engram架构！简单说：给大模型装了个“外挂海马体”，把“记忆”和“计算”彻底分开！#DeepSeek#大模型#知识科普#探秘哥

00:00 / 02:17

连播

清屏

智能

倍速

点赞54

爱分析2天前

DeepSeek新论文Engram突破“显存墙” DeepSeek新论文Engram突破“显存墙”！国产AI芯片迎来逆袭英伟达的历史机遇？#Engram #DeepSeek #AI芯片 #显存 #端侧AI

00:00 / 05:16

连播

清屏

智能

倍速

点赞3

Akinokoe4天前

DeepSeek 条件记忆模块 Engram

00:00 / 04:05

连播

清屏

智能

倍速

点赞22

数智化今日谈3天前

DeepSeek与北大联合推出的Engram架构。它像给AI装上了“记忆外挂”，彻底告别“边算边忘”的尴尬！ #AI#DeepSeek #知识分享#创作者扶持计划

00:00 / 01:33

连播

清屏

智能

倍速

点赞15

星辰大海捞针5天前

Engram 给 Transformer 的是查询提示而不是查询内容本身2，梁文峰的这篇论文并不是革命性的突破，而是工程性的改进提高。当然我并不是贬低，我没有任何贬低的意思，我甚至认为，这是一种革命性突破的前夜

00:00 / 08:50

连播

清屏

智能

倍速

点赞1

西安凉都老梁6天前

梁文锋新论文亮相：DeepSeek开源Engram记忆模块 #梁文锋新论文 #DeepSeek开源Engram记忆模块

00:00 / 01:06

连播

清屏

智能

倍速

点赞4

超级米奥3天前

DeepSeek给大模型“外挂知识库”？Engram会改变AI发展轨迹吗？#大模型 #AI #AI大事件 #DeepSeek

00:00 / 03:10

连播

清屏

智能

倍速

点赞25

7DGroup4天前

DeepSeek Engram实现了什么？ DeepSeek Engram实现了什么？#deepseek #engram #AI大模型 #AI知识 #AI技术

00:00 / 13:50

连播

清屏

智能

倍速

点赞18

荒野全栈AI5天前

论文详解：DeepSeek的Engram技术让LLM直接开挂 DeepSeek这次真的不讲武德。以前大模型是靠死记硬背，Engram技术直接让它学会了“翻书抄答案”。哪怕你完全不懂技术，看完这个视频也能明白它到底强在哪。总结就两个字：离谱。#必考考点

00:00 / 41:32

连播

清屏

智能

倍速

点赞3

星辰大海捞针2天前

不是外挂硬盘，不是外挂字典，不是真正的存算分离，没有人比我更欣赏 DeepSeek 的创新精神。正是因为爱之深，故不肯看着全网都对他有着错误的评价，把一个架构创新错当成架构突破，这是不利于 DeepSeek 的成长的

00:00 / 08:50

连播

清屏

智能

倍速

点赞1

海晏清的阳光海洋4天前

各位朋友，大型语言模型迎来全新记忆革命！DeepSeek最新论文提出Engram条件记忆模块，首次实现“记忆与计算分离”。传统Transformer用海量计算重建静态知识（如“巴黎是法国首都”），效率低下。Engram像一本智能词典：1、哈希压缩技术：将词语统一编码，消除冗余（如“Apple/apple”归并）。2、动态门控机制：根据上下文自动开关记忆（如区分“吃苹果”vs“苹果手机”）。3、存算解耦架构：知识存储在CPU/NVMe硬盘，推理时O(1)极速调取。实验惊艳：搭载Engram的27B模型在知识问答（MMLU↑3分）、代码生成（HumanEval↑3分）、长文本理解（准确率↑13%）全面碾压纯MoE模型！更发现黄金配比规律：20%-25%参数分配给记忆模块时性能最佳。这标志着大模型进入“双轴稀疏”新时代：MoE管深度推理，Engram管海量记忆。未来只需小模型+大记忆库，就能实现企业级知识精准调用！#人工智能#机器人 #马斯克 #奥特曼 #黄仁勋 @雷军 @红衣大叔周鸿祎 @尹烨

00:00 / 01:15

连播

清屏

智能

倍速

点赞13

风中听蚕3天前

Engram架构：开启AI架构革新与算力平权新篇 DeepSeek提出的Engram架构，为Transformer架构引入超大规模可检索外部知识字典，实现静态知识记忆与动态逻辑计算分离，是AI领域兼具技术与产业价值的重要突破。该架构摒弃传统大模型全参数激活的模式，以集中式嵌入表存储知识、哈希索引高效检索，还通过分词器压缩等技术保障检索精准，让模型主干专注逻辑推理，在多项基准测试中性能显著提升。其存算分离特性，可将静态知识参数卸载至低成本存储设备，大幅降低对高端GPU HBM的依赖，为国产AI芯片开辟了以架构优势弥补算力差距的路径。此外，Engram架构融合连接主义与符号主义优势，复兴显式知识存储思想并完成工程化再造，标志着AI发展从算力数据堆砌，迈入对智能本质与计算资源优化的新阶段，推动AI竞赛向架构设计能力倾斜。#DeepSeek

00:00 / 08:16

连播

清屏

智能

倍速

点赞3

科技要闻6天前

打破 LLM 算力瓶颈：一种全新的“条件记忆”稀疏化方案 #这也能开播 #我就这样开启2026 #deepseek #DeepSeek论文

00:00 / 09:41

连播

清屏

智能

倍速

点赞3

星辰大海捞针5天前

纠偏 Engram 的误解，Conditional memory 返回的不是事实本身，而是协助定位事实的提示词 CUE

00:00 / 05:58

连播

清屏

智能

倍速

点赞2

龙哥紫貂智能4天前

Deepseek提出Engram Gemini3系列工程优化已被Deepseek拿下

00:00 / 01:12

连播

清屏

智能

倍速

点赞97

捷讯商业说5天前

DeepSeek V4架构曝光！梁文锋署名新论文发布 #deepseek #梁文锋 #deepseekv4 #deepseek使用教程

00:00 / 02:31

连播

清屏

智能

倍速

点赞22

星辰大海捞针5天前

纠偏Engram 的误解，Conditional memory 返回的不是事实本身，而是提示词，是帮助定位记忆的提示词

00:00 / 05:58

连播

清屏

智能

倍速

点赞2

质子科技1周前

1月最新claude code codex gemini使用教程 #研究生 #claudecode #gemini #codex #claude

00:00 / 01:27

连播

清屏

智能

倍速

点赞18

若海天涯5天前

#engram #deepseek #大模型

00:00 / 08:08

连播

清屏

智能

倍速

点赞4

不剪发的Tony老师3年前

SQL入门教程第39集表子查询 #sql #数据库 #数据分析 #mysql #oracle

00:00 / 12:06

连播

清屏

智能

倍速

点赞15

马到成功4天前

#DeepSeek联合北大开源大模型记忆模块：DeepSeek与北京大学合作，推出了一种新的高效解决方案，通过Engram模块实现快速知识查找，为现有模型引入条件记忆，补充模型稀疏性维度。这一创新有望在知识回答、推理、代码、数学计算领域大幅提升模型性能

00:00 / 01:13

连播

清屏

智能

倍速

点赞1

Alex恆4天前

Transformer 过时了？大模型长出“外接大脑” DeepSeek 发布新论文，扔出一枚重磅炸弹：Engram 架构，或将开启大模型的全新赛道。它的核心，是一个条件记忆机制，可以理解为给模型装了一个“外接U盘”。 💾 什么是 Engram ？简单说，它把模型的知识分成了两层： • 静态记忆库：存放事实、常识等固定知识，存在“外接U盘”里，调用时计算成本极低。 • 动态注意力：让模型的“大脑”腾出来，专注于复杂的逻辑推理和创造性思考。 🚀 效果如何？实验说话在长文本理解等任务上，表现显著提升。计算量大幅降低，推理速度几乎不受影响。最关键的是：增加记忆容量，模型性能会持续、可预测地提升，这为大模型的进化指明了新方向。 🔮 这意味着什么？它实现了参数规模与计算量的解耦。未来，模型的“知识量”（参数）可以海量存储在硬盘里，而推理时只调用需要的一小部分，高效又经济。这不仅是技术优化，更是一种范式转移：神经计算 + 智能检索的结合，可能是下一代稀疏模型的关键。大模型的进化，正从“蛮力缩放”，走向“精巧设计”。#deepseek #技术突破 #论文解读

00:00 / 07:47

连播

清屏

智能

倍速

点赞20

星辰大海捞针5天前

梁文峰的新论文的确是非常震撼的，但是我认为大多数媒体都做了错误的解读，至少这是一个技术上非常大的误解，Engram 并没有实现真正的查算分离，仅仅是加快了查询的速度而已

00:00 / 04:39

连播

清屏

智能

倍速

点赞4

标书中国-制作标书2天前

央视报道，AI系统怎么查围标串标 #招投标

00:00 / 00:59

连播

清屏

智能

倍速

点赞231

小萌芽科技6天前

Deepseek 梁文锋署名开源「记忆」模块 DeepSeek与北京大学联合发布论文《Conditional Memory via Scalable Lookup》，将开源名为Engram的条件记忆模块。这项研究旨在解决大语言模型的核心缺陷：虽然混合专家（MoE）通过条件计算实现了参数规模的稀疏化扩展，但Transformer架构本身缺乏原生的知识查找机制，只能通过计算过程低效模拟检索行为。 Engram架构：静态记忆与动态计算的解耦 Engram模块的设计目标是将静态模式存储与动态计算过程分离。 Figure 1| The Engram Architecture 显示，该模块通过两个阶段增强主干网络：首先对当前位置的后缀N-gram进行提取压缩，通过哈希机制以O(1)时间复杂度检索静态嵌入向量；随后通过上下文感知门控动态调整检索结果，实现记忆与当前隐藏状态的融合。 U型扩展规律：重新定义稀疏性分配研究发现神经计算（MoE）与静态记忆（Engram）之间存在U型权衡规律。 U型扩展规律与内存扩展效应显示，将约20%-25%的稀疏参数预算重新分配给Engram可获得最优性能。在270亿参数规模下，Engram-27B在等参数、等FLOPs条件下全面超越纯MoE基线，不仅在知识任务（MMLU提升+3.0）表现优异，在推理（BBH提升+5.0）和代码数学（HumanEval提升+3.0）领域提升更为显著。系统级优化：实现计算与存储的高效解耦 Engram的确定性寻址机制支持训练阶段通过模型并行将嵌入表分片至多GPU，推理阶段采用预取-重叠策略从主机内存异步加载嵌入。系统效率优化策略展示了这种硬件-算法协同设计如何实现近乎零开销的记忆扩展。结合此前发布的mHC技术，DeepSeek V4的架构轮廓已清晰可见：通过Engram条件记忆模块与MoE条件计算的互补，构建下一代稀疏大模型的核心范式。该研究为解决LLM的知识查找效率问题提供了全新思路，标志着AI模型架构从单纯参数扩展转向更精细的稀疏化设计。

00:00 / 12:35

连播

清屏

智能

倍速

点赞3

山竹Excel表格教学3年前

有合并单元格咋查产品报价#Excel #多条件查询报价 #excel函数

00:00 / 02:00

连播

清屏

智能

倍速

点赞660

简介:

您在查找“Engram如何查表”短视频信息吗？帮您找到更多更精彩的短视频内容！最新发布时间：2026-01-17 05:38

最新推荐:

相关推荐:

热门推荐: