00:00 / 04:25
连播
清屏
智能
倍速
点赞5
00:00 / 00:10
连播
清屏
智能
倍速
点赞31
00:00 / 03:18
连播
清屏
智能
倍速
点赞114
00:00 / 02:38
连播
清屏
智能
倍速
点赞10
00:00 / 01:11
连播
清屏
智能
倍速
点赞50
00:00 / 00:35
连播
清屏
智能
倍速
点赞1200
00:00 / 01:17
连播
清屏
智能
倍速
点赞161
00:00 / 01:50
连播
清屏
智能
倍速
点赞39
00:00 / 14:32
连播
清屏
智能
倍速
点赞127
00:00 / 14:50
连播
清屏
智能
倍速
点赞50
00:00 / 12:09
连播
清屏
智能
倍速
点赞25
Deepseek 梁文锋署名开源「记忆」模块 DeepSeek与北京大学联合发布论文《Conditional Memory via Scalable Lookup》,将开源名为Engram的条件记忆模块。这项研究旨在解决大语言模型的核心缺陷:虽然混合专家(MoE)通过条件计算实现了参数规模的稀疏化扩展,但Transformer架构本身缺乏原生的知识查找机制,只能通过计算过程低效模拟检索行为。 Engram架构:静态记忆与动态计算的解耦 Engram模块的设计目标是将静态模式存储与动态计算过程分离。 Figure 1| The Engram Architecture 显示,该模块通过两个阶段增强主干网络:首先对当前位置的后缀N-gram进行提取压缩,通过哈希机制以O(1)时间复杂度检索静态嵌入向量;随后通过上下文感知门控动态调整检索结果,实现记忆与当前隐藏状态的融合。 U型扩展规律:重新定义稀疏性分配 研究发现神经计算(MoE)与静态记忆(Engram)之间存在U型权衡规律。 U型扩展规律与内存扩展效应 显示,将约20%-25%的稀疏参数预算重新分配给Engram可获得最优性能。在270亿参数规模下,Engram-27B在等参数、等FLOPs条件下全面超越纯MoE基线,不仅在知识任务(MMLU提升+3.0)表现优异,在推理(BBH提升+5.0)和代码数学(HumanEval提升+3.0)领域提升更为显著。 系统级优化:实现计算与存储的高效解耦 Engram的确定性寻址机制支持训练阶段通过模型并行将嵌入表分片至多GPU,推理阶段采用预取-重叠策略从主机内存异步加载嵌入。 系统效率优化策略 展示了这种硬件-算法协同设计如何实现近乎零开销的记忆扩展。 结合此前发布的mHC技术,DeepSeek V4的架构轮廓已清晰可见:通过Engram条件记忆模块与MoE条件计算的互补,构建下一代稀疏大模型的核心范式。该研究为解决LLM的知识查找效率问题提供了全新思路,标志着AI模型架构从单纯参数扩展转向更精细的稀疏化设计。
00:00 / 12:35
连播
清屏
智能
倍速
点赞3