Qiuming5天前
“Engram”架构:让AI像查字典一样高效记忆 DeepSeek发布全新“Engram”架构:让AI像查字典一样高效记忆 2026年1月13日,深度求索(DeepSeek)发布题为《基于可扩展查找的条件记忆》的突破性论文,提出名为“Engram”(记忆印迹)的创新架构,旨在从根本上改进大语言模型存储与提取知识的方式。 此项研究直指当前基于Transformer的模型(包括DeepSeek-V2/V3等主流混合专家模型)的核心局限。混合专家模型虽通过“条件计算”优化了计算效率,但缺乏高效的知识查找机制。现有模型需通过多层复杂计算来回忆简单事实,如同每次都不查资料而重新推导公式。 Engram模块通过引入“条件记忆”解决该问题。它受经典N-gram模型启发,作为一个可查询的外部记忆库嵌入Transformer中。其通过快速的基于哈希的查找检索相关知识向量(像查字典一样),并通过门控机制将其与模型动态计算融合,实现了“记忆”与“推理”的分离,释放了宝贵的神经网络算力用于复杂逻辑。 研究关键发现是“稀疏性分配”原则。实验表明,当约20-25%的稀疏参数预算分配给Engram记忆表,其余分配给MoE专家时,模型性能达到最优。 27B参数的Engram-27B模型测试结果显著。它不仅在知识密集型任务上超越标准MoE模型,更在复杂推理、代码生成和数学解题等需要逻辑推演的任务上表现突出。机理分析表明,Engram通过承担底层模式识别,提升了模型的“有效深度”,让深层网络更专注于高级语义理解。 Engram在长文本处理上也展现优势,在“大海捞针”测试中准确率大幅提升,通过处理局部依赖释放了全局注意力机制的容量。其确定性哈希机制还带来了工程红利——可将大规模记忆表存储在廉价的CPU内存中,推理延迟仅增加不到3%,为未来搭载万亿参数级知识库提供了可行路径。 结合近期发布的专家通信优化技术,Engram预示着未来模型架构将向更集成化、类脑化的方向发展,计算与记忆模块协同工作,构建更高效、博学且善推理的智能系统。 https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
00:00 / 01:22
连播
清屏
智能
倍速
点赞1
#DeepSeek #梁文峰 张图揭示了AI模型设计的底层规律: 左侧极端(纯Engram):如果把参数全给字典,Loss很高。因为模型变成了“书呆子”,光有死记硬背,没有逻辑推理能力。 右侧极端(纯MoE):如果把参数全给专家,Loss也很高。因为专家们被迫把精力都花在背书(记忆静态知识)上,没空干正事。 黄金分割点(ρ ≈ 75%-80%):当我们将约20%-25%的稀疏参数预算分给Engram,剩下的给MoE时,模型的验证集Loss降到了最低点。 这是一个极具指导意义的发现:对于几百亿参数的大模型来说,单纯堆砌计算单元(MoE专家)已经是边际效应递减了,必须引入专门的静态记忆模块来实现“存算平衡”。 反直觉的爆发——为什么“查字典”能提高“数学成绩”? 如果Engram仅仅是让模型“记性更好”,这篇论文的分量还不足以震动社区。毕竟,RAG(检索增强生成)也能解决知识问题。 真正让业界感到震撼的,是实验结果中那些意料之外的收益。 DeepSeek构建了三个对比模型,严格控制激活参数量(3.8B)和训练数据量(262B tokens)完全一致: Dense-4B:传统的稠密模型。 MoE-27B:纯MoE模型(72个专家)。 Engram-27B:混合模型(55个专家 + 5.7B Engram参数)。 结果令人大跌眼镜: 1. 意料之中:知识类任务霸榜 在MMLU(综合知识)上,Engram模型提升了3.4分;在CMMLU(中文知识)上,提升了4.0分。这很好理解,外挂了字典,常识自然更好了,幻觉更少了。 2. 意料之外:逻辑、代码、数学全面暴涨 按理说,“查字典”和“做数学题”没关系。但在BBH(综合推理)上,Engram-27B竟然比同参数的纯MoE基线提升了整整5.0分! MATH(数学):提升2.4分。 HumanEval(代码生成):提升3.0分。 ARC-Challenge(复杂推理):提升3.7分。 3. 深度解析:有效深度(Effective Depth)理论 为什么?一个“死记硬背”的模块,为什么能提高智商? DeepSeek团队利用LogitLens和“CKA(中心核对齐)”技术,对模型内部进行了“解剖”。他们发现了一个惊人的现象: 还记得开头的“戴安娜王妃”吗?
00:00 / 06:58
连播
清屏
智能
倍速
点赞0
00:00 / 03:53
连播
清屏
智能
倍速
点赞15
00:00 / 04:05
连播
清屏
智能
倍速
点赞22
00:00 / 08:08
连播
清屏
智能
倍速
点赞4
Deepseek 梁文锋署名开源「记忆」模块 DeepSeek与北京大学联合发布论文《Conditional Memory via Scalable Lookup》,将开源名为Engram的条件记忆模块。这项研究旨在解决大语言模型的核心缺陷:虽然混合专家(MoE)通过条件计算实现了参数规模的稀疏化扩展,但Transformer架构本身缺乏原生的知识查找机制,只能通过计算过程低效模拟检索行为。 Engram架构:静态记忆与动态计算的解耦 Engram模块的设计目标是将静态模式存储与动态计算过程分离。 Figure 1| The Engram Architecture 显示,该模块通过两个阶段增强主干网络:首先对当前位置的后缀N-gram进行提取压缩,通过哈希机制以O(1)时间复杂度检索静态嵌入向量;随后通过上下文感知门控动态调整检索结果,实现记忆与当前隐藏状态的融合。 U型扩展规律:重新定义稀疏性分配 研究发现神经计算(MoE)与静态记忆(Engram)之间存在U型权衡规律。 U型扩展规律与内存扩展效应 显示,将约20%-25%的稀疏参数预算重新分配给Engram可获得最优性能。在270亿参数规模下,Engram-27B在等参数、等FLOPs条件下全面超越纯MoE基线,不仅在知识任务(MMLU提升+3.0)表现优异,在推理(BBH提升+5.0)和代码数学(HumanEval提升+3.0)领域提升更为显著。 系统级优化:实现计算与存储的高效解耦 Engram的确定性寻址机制支持训练阶段通过模型并行将嵌入表分片至多GPU,推理阶段采用预取-重叠策略从主机内存异步加载嵌入。 系统效率优化策略 展示了这种硬件-算法协同设计如何实现近乎零开销的记忆扩展。 结合此前发布的mHC技术,DeepSeek V4的架构轮廓已清晰可见:通过Engram条件记忆模块与MoE条件计算的互补,构建下一代稀疏大模型的核心范式。该研究为解决LLM的知识查找效率问题提供了全新思路,标志着AI模型架构从单纯参数扩展转向更精细的稀疏化设计。
00:00 / 12:35
连播
清屏
智能
倍速
点赞3