Qiuming6天前
“Engram”架构:让AI像查字典一样高效记忆 DeepSeek发布全新“Engram”架构:让AI像查字典一样高效记忆 2026年1月13日,深度求索(DeepSeek)发布题为《基于可扩展查找的条件记忆》的突破性论文,提出名为“Engram”(记忆印迹)的创新架构,旨在从根本上改进大语言模型存储与提取知识的方式。 此项研究直指当前基于Transformer的模型(包括DeepSeek-V2/V3等主流混合专家模型)的核心局限。混合专家模型虽通过“条件计算”优化了计算效率,但缺乏高效的知识查找机制。现有模型需通过多层复杂计算来回忆简单事实,如同每次都不查资料而重新推导公式。 Engram模块通过引入“条件记忆”解决该问题。它受经典N-gram模型启发,作为一个可查询的外部记忆库嵌入Transformer中。其通过快速的基于哈希的查找检索相关知识向量(像查字典一样),并通过门控机制将其与模型动态计算融合,实现了“记忆”与“推理”的分离,释放了宝贵的神经网络算力用于复杂逻辑。 研究关键发现是“稀疏性分配”原则。实验表明,当约20-25%的稀疏参数预算分配给Engram记忆表,其余分配给MoE专家时,模型性能达到最优。 27B参数的Engram-27B模型测试结果显著。它不仅在知识密集型任务上超越标准MoE模型,更在复杂推理、代码生成和数学解题等需要逻辑推演的任务上表现突出。机理分析表明,Engram通过承担底层模式识别,提升了模型的“有效深度”,让深层网络更专注于高级语义理解。 Engram在长文本处理上也展现优势,在“大海捞针”测试中准确率大幅提升,通过处理局部依赖释放了全局注意力机制的容量。其确定性哈希机制还带来了工程红利——可将大规模记忆表存储在廉价的CPU内存中,推理延迟仅增加不到3%,为未来搭载万亿参数级知识库提供了可行路径。 结合近期发布的专家通信优化技术,Engram预示着未来模型架构将向更集成化、类脑化的方向发展,计算与记忆模块协同工作,构建更高效、博学且善推理的智能系统。 https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
00:00 / 01:22
连播
清屏
智能
倍速
点赞1
00:00 / 00:55
连播
清屏
智能
倍速
点赞1
#waves 并联压缩无用论?从夯到拉的混音技巧戳心打分 《混音技巧夯到拉》,业内顶级人士拨开迷雾,直戳真相。 人人都有自己的混音小窍门。是否存在宇宙公认的混音公理?还是都是“汝之砒霜,吾之蜜糖”? 在Waves这次全新策划视频中,Chris Galland(合作艺人包括Lady Gaga、Post Malone、Rihanna)来给将近20个常见的混音理念打分——10分是优秀,大大认同;0分代表糟透,不屑一顾。 不用深入探讨,没有理论说教,只有来自混音资深大咖的直觉、经验和直截了当的回答。 联压缩无用论?从夯到拉的混音技巧戳心打分 原创 Waves WavesAudio 2025年12月29日 09:31 美国 听全文 在小说阅读器中沉浸阅读 《混音技巧夯到拉》,业内顶级人士拨开迷雾,直戳真相。人人都有自己的混音小窍门。是否存在宇宙公认的混音公理?还是都是“汝之砒霜,吾之蜜糖”?在Waves这次全新策划视频中,Chris Galland(合作艺人包括Lady Gaga、Post Malone、Rihanna)来给将近20个常见的混音理念打分——10分是优秀,大大认同;0分代表糟透,不屑一顾。不用深入探讨,没有理论说教,只有来自混音资深大咖的直觉、经验和直截了当的回答。 Chris Galland打分的混音技巧话题:对一切做高通滤波混音时总是对照着参考音轨做单声道混音侧链压缩在汽车里检查你的混音对着歌的曲调和音阶调整EQ每轨人声都调音尽快通过母带链路进行混音把吉他声像摆到最左和最右永远不提升EQ,只做衰减整个混音只用一种混响如果混音在AirPod上听着好,那在任何设备上都会不错用立体声声场插件并联压缩始终在小音量下混音开始混音前,先给每轨做颜色编码增益架构很重要给人声做音量自动化每次混音都从底鼓开始
00:00 / 08:28
连播
清屏
智能
倍速
点赞504
00:00 / 00:33
连播
清屏
智能
倍速
点赞340
00:00 / 00:37
连播
清屏
智能
倍速
点赞36