Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
精选
推荐
AI抖音
探索
直播
放映厅
短剧
搜索
您是不是在找:
通用设备属于cpo吗
m模型超分辨率怎么没有dlss
中国电信crm状态异常怎么办
李秋萍自我介绍用的什么语言
普天科技有星间激光通信业务吗
dmz怎么把JaK带到局内
drs是1还是0
image怎么本地部署
狗总投的人工智能是哪个
xml中单引号会被转义吗
大课堂科技-数控编程培训
3年前
公差的查表方法#mastercam #加工中心 #数控 #cnc加工
00:00 / 00:22
连播
清屏
智能
倍速
点赞
5451
未来博士wepon
5天前
DeepSeek Engram又对大模型底层动刀了 大家好,DeepSeek最近是大招频出,新模型肯定不远了。今天又发了个新论文,叫 Engram。 干什么的呢?大家可以先想一下戴安娜王妃是谁这个问题 对我们来说,这是从记忆里直接调取一个已知事实。但对于今天的大语言模型(LLM)来说,它得像现场组词造句一样,一层一层地分析“戴安娜”、“王妃”、“威尔士”这些词,通过复杂的注意力机制和神经网络计算,才慢慢“理解”并拼凑出这个实体。它在用"算"来模拟"记"。 这其实是当前大模型架构的一个根本性bug。#人工智能 #deepseek #Engram
00:00 / 05:19
连播
清屏
智能
倍速
点赞
1528
栗噔噔
5天前
DeepSeek又发新论文!带你3分钟速通Engram #deepseek #deepseekv4 #梁文锋 #抖音精选 ##知识前沿派对
00:00 / 04:28
连播
清屏
智能
倍速
点赞
349
大课堂科技-数控编程培训
4年前
公差查询方法#fanuc#数控#mastercam @DOU+小助手
00:00 / 00:15
连播
清屏
智能
倍速
点赞
2101
论文不白读
3天前
《Engram:通过条件性记忆查找扩展大型语言模型》 Engram: Scaling Large Language Models via Conditional Memory Lookup 这项研究介绍了 Engram,一种旨在提升大型语言模型效率的条件记忆模块。研究指出,传统 Transformer 架构在处理静态知识检索时效率低下,往往需要通过深层计算来模拟简单的查找过程。Engram 现代化的 $N-gram$ 查找机制,通过 O(1) 复杂度的检索,成功将存储与计算解耦。实验表明,这种双轴稀疏设计(计算稀疏与记忆稀疏协同)在相同参数和计算量下,显著增强了模型在通用推理、数学及长文本处理上的表现。此外,该设计支持预测性预取,能有效利用主机内存扩展参数规模,且几乎不增加推理延迟。总之,该技术通过赋予模型原生的记忆检索能力,释放了神经网络底层在复杂逻辑推理上的潜力。
00:00 / 07:41
连播
清屏
智能
倍速
点赞
0
AI.望哥
4天前
一分钟教会你使用爆火的Gemini3.0#gemini使用教程 #谷歌AI
00:00 / 00:54
连播
清屏
智能
倍速
点赞
197
小波Amber
3天前
#deepseek 春节又要放大招啦? 1.12发布论文,最新架构#engram #条件记忆
00:00 / 02:06
连播
清屏
智能
倍速
点赞
36
BPai前沿Talk
2天前
DeepSeek回来了,Engram新架构颠覆大模型 #DeepSeek #编程 #gpu #AI #Engram
00:00 / 01:26
连播
清屏
智能
倍速
点赞
21
聊AI的小乐匠
3天前
Deepseek 新论文:给大模型装记忆外挂 DeepSeek最近论文频发,新的旗舰模型应该是不远了。昨天又发了一篇关于engram的新论文,是架构层面的重大创新。我们还是分两部分,先说这篇论文干了什么,再放在整个AI大模型研究趋势中,看它的价值。#大模型 #人工智能 #Deepseek #AI
00:00 / 05:44
连播
清屏
智能
倍速
点赞
54
老周物理AI
5天前
直面阳光DeepSeekEngram 直面阳光 DeepSeekEngram #DeepSeek #AI #人工智能 #人工智能应用 #商业化
00:00 / 06:41
连播
清屏
智能
倍速
点赞
8
奇点左侧的BPai蜀黍
2天前
DeepSeek放大招!梁文锋署名新论文曝光V4架构? #DeepSeek #编程 #gpu #AI #Engram
00:00 / 01:50
连播
清屏
智能
倍速
点赞
18
钢铁侠蜀黍,AI来了怎么办?
2天前
DeepSeek V4诞生前夜?梁文锋署名新论文发布 #DeepSeek #编程 #gpu #AI #Engram
00:00 / 01:38
连播
清屏
智能
倍速
点赞
62
关于NLP那些你不知道的事
4天前
颠覆 RAG?无须微调?Engram 重新定义大模型记忆 #百亿流量扶持计划
00:00 / 11:37
连播
清屏
智能
倍速
点赞
4
Qiuming
5天前
“Engram”架构:让AI像查字典一样高效记忆 DeepSeek发布全新“Engram”架构:让AI像查字典一样高效记忆 2026年1月13日,深度求索(DeepSeek)发布题为《基于可扩展查找的条件记忆》的突破性论文,提出名为“Engram”(记忆印迹)的创新架构,旨在从根本上改进大语言模型存储与提取知识的方式。 此项研究直指当前基于Transformer的模型(包括DeepSeek-V2/V3等主流混合专家模型)的核心局限。混合专家模型虽通过“条件计算”优化了计算效率,但缺乏高效的知识查找机制。现有模型需通过多层复杂计算来回忆简单事实,如同每次都不查资料而重新推导公式。 Engram模块通过引入“条件记忆”解决该问题。它受经典N-gram模型启发,作为一个可查询的外部记忆库嵌入Transformer中。其通过快速的基于哈希的查找检索相关知识向量(像查字典一样),并通过门控机制将其与模型动态计算融合,实现了“记忆”与“推理”的分离,释放了宝贵的神经网络算力用于复杂逻辑。 研究关键发现是“稀疏性分配”原则。实验表明,当约20-25%的稀疏参数预算分配给Engram记忆表,其余分配给MoE专家时,模型性能达到最优。 27B参数的Engram-27B模型测试结果显著。它不仅在知识密集型任务上超越标准MoE模型,更在复杂推理、代码生成和数学解题等需要逻辑推演的任务上表现突出。机理分析表明,Engram通过承担底层模式识别,提升了模型的“有效深度”,让深层网络更专注于高级语义理解。 Engram在长文本处理上也展现优势,在“大海捞针”测试中准确率大幅提升,通过处理局部依赖释放了全局注意力机制的容量。其确定性哈希机制还带来了工程红利——可将大规模记忆表存储在廉价的CPU内存中,推理延迟仅增加不到3%,为未来搭载万亿参数级知识库提供了可行路径。 结合近期发布的专家通信优化技术,Engram预示着未来模型架构将向更集成化、类脑化的方向发展,计算与记忆模块协同工作,构建更高效、博学且善推理的智能系统。 https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
00:00 / 01:22
连播
清屏
智能
倍速
点赞
1
吴大熊流浪地球
5天前
DeepSeek Engram:给 AI 装上"字典"的革命 #deepseek #ai #大模型
00:00 / 08:38
连播
清屏
智能
倍速
点赞
7
赛博剑梅
3天前
DEEPSEEK又在AI界扔了颗“记忆炸弹”! AI 总 “失忆”?DeepSeek 联合北大搞大事!新 Engram 技术实现 “查算分离”,给 AI 装专属记忆库,春节后或上线,从此 AI 懂你喜好、记你需求!#AI #人工智能 能#科技发展 #DeepSeek #北大
00:00 / 01:22
连播
清屏
智能
倍速
点赞
345
idefav
5天前
DeepSeek神作Engram:外挂字典解放推理深度 为什么现在的 AI 记名字、记术语总是慢半拍?DeepSeek 联合北大发布重磅论文,推出 Engram(条件存储) 技术! 它不再让 AI 靠蛮力计算去“硬背”知识,而是通过高效的静态查表(N-gram)解放大脑深度。 结果惊人:推理能力(BBH)提升 5.0,长文本检索准确率从 84.2 狂升至 97.0! 这是一个比 MoE 更高效的“存储稀疏”新时代。快来一分钟看懂这项 AI 架构的重大变革! #DeepSeek #Engram #大模型 #AI技术 #人工智能 #MoE #机器学习 #长文本处理
00:00 / 15:47
连播
清屏
智能
倍速
点赞
20
向前的时代
5天前
Engram架构-这是一种基于可扩展查表的条件记 大家好。今天我们将深入探讨由DeepSeek-AI与北京大学联合提出的Engram架构1,2。这是一种基于可扩展查表的条件记忆机制1。我们的核心观点是:在大语言模型不断追求规模化的今天,除了传统的“条件计算”,我们还需要引入一个全新的维度——条件记忆,以开启模型稀疏性的新维度
00:00 / 06:38
连播
清屏
智能
倍速
点赞
15
前沿关注
4天前
#DeepSeek #梁文峰 张图揭示了AI模型设计的底层规律: 左侧极端(纯Engram):如果把参数全给字典,Loss很高。因为模型变成了“书呆子”,光有死记硬背,没有逻辑推理能力。 右侧极端(纯MoE):如果把参数全给专家,Loss也很高。因为专家们被迫把精力都花在背书(记忆静态知识)上,没空干正事。 黄金分割点(ρ ≈ 75%-80%):当我们将约20%-25%的稀疏参数预算分给Engram,剩下的给MoE时,模型的验证集Loss降到了最低点。 这是一个极具指导意义的发现:对于几百亿参数的大模型来说,单纯堆砌计算单元(MoE专家)已经是边际效应递减了,必须引入专门的静态记忆模块来实现“存算平衡”。 反直觉的爆发——为什么“查字典”能提高“数学成绩”? 如果Engram仅仅是让模型“记性更好”,这篇论文的分量还不足以震动社区。毕竟,RAG(检索增强生成)也能解决知识问题。 真正让业界感到震撼的,是实验结果中那些意料之外的收益。 DeepSeek构建了三个对比模型,严格控制激活参数量(3.8B)和训练数据量(262B tokens)完全一致: Dense-4B:传统的稠密模型。 MoE-27B:纯MoE模型(72个专家)。 Engram-27B:混合模型(55个专家 + 5.7B Engram参数)。 结果令人大跌眼镜: 1. 意料之中:知识类任务霸榜 在MMLU(综合知识)上,Engram模型提升了3.4分;在CMMLU(中文知识)上,提升了4.0分。这很好理解,外挂了字典,常识自然更好了,幻觉更少了。 2. 意料之外:逻辑、代码、数学全面暴涨 按理说,“查字典”和“做数学题”没关系。但在BBH(综合推理)上,Engram-27B竟然比同参数的纯MoE基线提升了整整5.0分! MATH(数学):提升2.4分。 HumanEval(代码生成):提升3.0分。 ARC-Challenge(复杂推理):提升3.7分。 3. 深度解析:有效深度(Effective Depth)理论 为什么?一个“死记硬背”的模块,为什么能提高智商? DeepSeek团队利用LogitLens和“CKA(中心核对齐)”技术,对模型内部进行了“解剖”。他们发现了一个惊人的现象: 还记得开头的“戴安娜王妃”吗?
00:00 / 06:58
连播
清屏
智能
倍速
点赞
0
Supa宇
5天前
DeepSeek V4 路线图曝光! #Engram技术 #记忆革命 #推理爆发 #显存破局 #大模型未来 #AI
00:00 / 01:28
连播
清屏
智能
倍速
点赞
6
OnTable
2天前
Engram,让AI拥有强记忆 deepseek最新开源论文#deepseek #engram
00:00 / 07:18
连播
清屏
智能
倍速
点赞
1
星辰大海捞针
5天前
Engram 给 Transformer 的是查询提示而不是查询内容本身3 梁文峰团队的这个 engram 论文,严格地说应该是朝查算分离迈出了一步,但还远远达不到说真正的分离。因为 Engram 给出的仅仅是查询的提示,而不是查询的内容本身。事实性的内容并非由 conditional memory 提供,它还是存在大模型的 FFN 的参数里
00:00 / 05:55
连播
清屏
智能
倍速
点赞
2
AI费曼
4天前
DeepSeek Engram 给大模型挂载外接大脑
00:00 / 03:53
连播
清屏
智能
倍速
点赞
15
Ying
3天前
白话解读:DeepSeek又突发论文与Engram#… #14年大众桑塔拉 #爆改普拉多 #普拉多真香现场 &
00:00 / 11:37
连播
清屏
智能
倍速
点赞
18
Dassmeta | 领域模型领导者
4天前
1月15日AI资讯 1月15日AI资讯: 一、DeepSeek与北京大学提出Engram条件记忆模块,让Transformer从'死记硬背'转向'查字典式高效推理 二、斯坦福大学李飞飞团队与微软提出Video Weave: 通过数据重组策略在固定算力下显著提升视频理解效率 三、 阿里,月之暗面,阶跃星辰等国内外机构联合推出BabyVision: 揭示多模态大模型在基础视觉推理能力上存在显著缺陷
00:00 / 04:30
连播
清屏
智能
倍速
点赞
0
InfoQ
5天前
DeepSeek又不睡觉干大事了!凌晨发布Engram模块,创始人梁文锋亲自署名。V4架构提前揭秘?这波“查算分离”的操作,真的把大模型的效率玩明白了。 #DeepSeek #AI架构 #开源 #MoE #Engram #InfoQ @抖音创作小助手
00:00 / 02:18
连播
清屏
智能
倍速
点赞
35
小艾数码说
4天前
2026deepseek开源,记忆+计算 双轴时代来临 #deepseek开源
00:00 / 00:45
连播
清屏
智能
倍速
点赞
1018
数分魔说量化
4天前
梁文锋最新署名论文对模型架构及A股影响解读(附利好A股名单) DeepSeek联合北大最新论文提出突破性架构Engram,通过“外挂硬盘”让AI学会“查表”而非全盘计算,大幅降低推理成本。这一技术革新或将减少对高端GPU的依赖,利好国产算力、内存产业及高速互联协议相关公司。
00:00 / 06:59
连播
清屏
智能
倍速
点赞
23
AI进化赋能集
5天前
为什么说让AI“记住”比让它“算”更重要?一起解读梁文锋 2026年1月13日,北京,DeepSeek团队与北京大学合作提出“条件记忆”新范式,通过Engram模块让大模型用O(1)速度检索静态知识,释放注# 模块可形成最优性能配比。 #我就这样开启2026
00:00 / 03:19
连播
清屏
智能
倍速
点赞
1
戴志伟
5天前
DeepSeek新论文太狠了!给AI装“外挂”字典? 你敢信吗?你问AI“1+1等于几”,它其实是在疯狂计算,而不是直接回答!🤯 这就是大模型的痛点:没有记忆,只有计算。DeepSeek最新的论文Engram,终于给AI装上了一本“字典”!📚 把“背书”的任务交给字典,把“大脑”腾出来做推理。结果你猜怎么着?AI不仅知识更渊博了,连数学和写代码变聪明了!🧠💻 这才是真正的“好钢用在刀刃上”!关注我,看懂更多硬核AI科技!🚀 #AI #AI视频 #AI播客 #DeepSeek #Engram #大模型 #黑科技 #程序员 #硬核
00:00 / 02:32
连播
清屏
智能
倍速
点赞
5
瑞克老张有话说
6天前
梁文锋又发论文,DeepSeek V4浮出水面? #deepseek #大模型 #AI #算法 梁文锋昨天又发论文了,DeepSeek Engram的诞生,标志着大模型稀疏化从"条件计算"单轴时代迈向"条件计算+条件记忆"双轴时代 。它用工程智慧解决了认知科学难题——通过功能解耦实现整体智能跃升。在算力焦虑持续的今天,这种"用架构换效率"的思路尤为珍贵。当行业仍在追逐万亿参数时,DeepSeek选择重构参数本身。这或许就是中国式创新的独特路径:不盲目堆料,而是深入问题本质,用最优雅的工程方案实现突破。
00:00 / 08:49
连播
清屏
智能
倍速
点赞
1363
AI编程小朱
2天前
DeepSeek最新论文发布Engram技术! #人工智能 #大模型 #DeepSeek #深度学习 #大学生
00:00 / 03:12
连播
清屏
智能
倍速
点赞
276
C哥聊科技
4天前
DeepSeek给AI大脑装了个外挂硬盘,训练成本暴降 DeepSeek新论文给AI模型装上了“外接知识库”,通过一个叫Engram的智能查找模块,AI现在能像查字典一样秒速调取信息,把更多算力留给真正的逻辑推理,实现性能的全面提升。#AI #DeepSeek #论文
00:00 / 05:29
连播
清屏
智能
倍速
点赞
105
杜雨说AI
5天前
白话解读:DeepSeek又突发论文与Engram #deepseek #梁文锋 #人工智能 #杜雨
00:00 / 11:38
连播
清屏
智能
倍速
点赞
1605
金杯电线电缆厂营店
1年前
电工知识分享:电表如何远程查表 湖南金杯电缆专业电缆生产厂家,为您提供最具性价比的光伏电缆,铝芯电缆,护套电缆等生产定制服务,让您的企业更具竞争力!#湖南电缆厂家 #光伏电缆厂家 #铝芯电缆厂家 #护套电缆厂家 #电缆源头工厂
00:00 / 00:25
连播
清屏
智能
倍速
点赞
57
温皓宸
4天前
小白适配版视频,理解ai前沿技术理论Deepseek 开年重磅 新技术engram 引爆ai领域#ai #人工智能 #温皓宸 #deepseek #engram
00:00 / 05:08
连播
清屏
智能
倍速
点赞
23
科技健康探秘哥
3天前
DeepSeek团队扔出‘王炸’——Engram架构!简单说:给大模型装了个“外挂海马体”,把“记忆”和“计算”彻底分开!#DeepSeek#大模型#知识科普#探秘哥
00:00 / 02:17
连播
清屏
智能
倍速
点赞
54
爱分析
2天前
DeepSeek新论文Engram突破“显存墙” DeepSeek新论文Engram突破“显存墙”!国产AI芯片迎来逆袭英伟达的历史机遇?#Engram #DeepSeek #AI芯片 #显存 #端侧AI
00:00 / 05:16
连播
清屏
智能
倍速
点赞
3
Akinokoe
4天前
DeepSeek 条件记忆模块 Engram
00:00 / 04:05
连播
清屏
智能
倍速
点赞
22
数智化今日谈
3天前
DeepSeek与北大联合推出的Engram架构。它像给AI装上了“记忆外挂”,彻底告别“边算边忘”的尴尬! #AI#DeepSeek #知识分享#创作者扶持计划
00:00 / 01:33
连播
清屏
智能
倍速
点赞
15
星辰大海捞针
5天前
Engram 给 Transformer 的是查询提示而不是查询内容本身2,梁文峰的这篇论文并不是革命性的突破,而是工程性的改进提高。当然我并不是贬低,我没有任何贬低的意思,我甚至认为,这是一种革命性突破的前夜
00:00 / 08:50
连播
清屏
智能
倍速
点赞
1
西安凉都老梁
6天前
梁文锋新论文亮相:DeepSeek开源Engram记忆模块 #梁文锋新论文 #DeepSeek开源Engram记忆模块
00:00 / 01:06
连播
清屏
智能
倍速
点赞
4
超级米奥
3天前
DeepSeek给大模型“外挂知识库”?Engram会改变AI发展轨迹吗?#大模型 #AI #AI大事件 #DeepSeek
00:00 / 03:10
连播
清屏
智能
倍速
点赞
25
7DGroup
4天前
DeepSeek Engram实现了什么? DeepSeek Engram实现了什么?#deepseek #engram #AI大模型 #AI知识 #AI技术
00:00 / 13:50
连播
清屏
智能
倍速
点赞
18
荒野全栈AI
5天前
论文详解:DeepSeek的Engram技术让LLM直接开挂 DeepSeek这次真的不讲武德。 以前大模型是靠死记硬背,Engram技术直接让它学会了“翻书抄答案”。 哪怕你完全不懂技术,看完这个视频也能明白它到底强在哪。 总结就两个字:离谱。#必考考点
00:00 / 41:32
连播
清屏
智能
倍速
点赞
3
星辰大海捞针
2天前
不是外挂硬盘,不是外挂字典,不是真正的存算分离,没有人比我更欣赏 DeepSeek 的创新精神。正是因为爱之深,故不肯看着全网都对他有着错误的评价,把一个架构创新错当成架构突破,这是不利于 DeepSeek 的成长的
00:00 / 08:50
连播
清屏
智能
倍速
点赞
1
海晏清的阳光海洋
4天前
各位朋友,大型语言模型迎来全新记忆革命!DeepSeek最新论文提出Engram条件记忆模块,首次实现“记忆与计算分离”。传统Transformer用海量计算重建静态知识(如“巴黎是法国首都”),效率低下。Engram像一本智能词典:1、哈希压缩技术:将词语统一编码,消除冗余(如“Apple/apple”归并)。2、动态门控机制:根据上下文自动开关记忆(如区分“吃苹果”vs“苹果手机”)。3、存算解耦架构:知识存储在CPU/NVMe硬盘,推理时O(1)极速调取。实验惊艳:搭载Engram的27B模型在知识问答(MMLU↑3分)、代码生成(HumanEval↑3分)、长文本理解(准确率↑13%)全面碾压纯MoE模型!更发现黄金配比规律:20%-25%参数分配给记忆模块时性能最佳。这标志着大模型进入“双轴稀疏”新时代:MoE管深度推理,Engram管海量记忆。未来只需小模型+大记忆库,就能实现企业级知识精准调用!#人工智能#机器人 #马斯克 #奥特曼 #黄仁勋 @雷军 @红衣大叔周鸿祎 @尹烨
00:00 / 01:15
连播
清屏
智能
倍速
点赞
13
风中听蚕
3天前
Engram架构:开启AI架构革新与算力平权新篇 DeepSeek提出的Engram架构,为Transformer架构引入超大规模可检索外部知识字典,实现静态知识记忆与动态逻辑计算分离,是AI领域兼具技术与产业价值的重要突破。该架构摒弃传统大模型全参数激活的模式,以集中式嵌入表存储知识、哈希索引高效检索,还通过分词器压缩等技术保障检索精准,让模型主干专注逻辑推理,在多项基准测试中性能显著提升。其存算分离特性,可将静态知识参数卸载至低成本存储设备,大幅降低对高端GPU HBM的依赖,为国产AI芯片开辟了以架构优势弥补算力差距的路径。此外,Engram架构融合连接主义与符号主义优势,复兴显式知识存储思想并完成工程化再造,标志着AI发展从算力数据堆砌,迈入对智能本质与计算资源优化的新阶段,推动AI竞赛向架构设计能力倾斜。#DeepSeek
00:00 / 08:16
连播
清屏
智能
倍速
点赞
3
科技要闻
6天前
打破 LLM 算力瓶颈:一种全新的“条件记忆”稀疏化方案 #这也能开播 #我就这样开启2026 #deepseek #DeepSeek论文
00:00 / 09:41
连播
清屏
智能
倍速
点赞
3
星辰大海捞针
5天前
纠偏 Engram 的误解,Conditional memory 返回的不是事实本身,而是协助定位事实的提示词 CUE
00:00 / 05:58
连播
清屏
智能
倍速
点赞
2
龙哥紫貂智能
4天前
Deepseek提出Engram Gemini3系列工程优化已被Deepseek拿下
00:00 / 01:12
连播
清屏
智能
倍速
点赞
97
捷讯商业说
5天前
DeepSeek V4架构曝光!梁文锋署名新论文发布 #deepseek #梁文锋 #deepseekv4 #deepseek使用教程
00:00 / 02:31
连播
清屏
智能
倍速
点赞
22
星辰大海捞针
5天前
纠偏Engram 的误解,Conditional memory 返回的不是事实本身,而是提示词,是帮助定位记忆的提示词
00:00 / 05:58
连播
清屏
智能
倍速
点赞
2
质子科技
1周前
1月最新claude code codex gemini使用教程 #研究生 #claudecode #gemini #codex #claude
00:00 / 01:27
连播
清屏
智能
倍速
点赞
18
若海天涯
5天前
#engram #deepseek #大模型
00:00 / 08:08
连播
清屏
智能
倍速
点赞
4
不剪发的Tony老师
3年前
SQL入门教程 第39集 表子查询 #sql #数据库 #数据分析 #mysql #oracle
00:00 / 12:06
连播
清屏
智能
倍速
点赞
15
马到成功
4天前
#DeepSeek联合北大开源大模型记忆模块:DeepSeek与北京大学合作,推出了一种新的高效解决方案,通过Engram模块实现快速知识查找,为现有模型引入条件记忆,补充模型稀疏性维度。这一创新有望在知识回答、推理、代码、数学计算领域大幅提升模型性能
00:00 / 01:13
连播
清屏
智能
倍速
点赞
1
Alex恆
4天前
Transformer 过时了?大模型长出“外接大脑” DeepSeek 发布新论文,扔出一枚重磅炸弹:Engram 架构,或将开启大模型的全新赛道。 它的核心,是一个条件记忆机制,可以理解为给模型装了一个“外接U盘”。 💾 什么是 Engram ? 简单说,它把模型的知识分成了两层: • 静态记忆库:存放事实、常识等固定知识,存在“外接U盘”里,调用时计算成本极低。 • 动态注意力:让模型的“大脑”腾出来,专注于复杂的逻辑推理和创造性思考。 🚀 效果如何?实验说话 在长文本理解等任务上,表现显著提升。 计算量大幅降低,推理速度几乎不受影响。 最关键的是:增加记忆容量,模型性能会持续、可预测地提升,这为大模型的进化指明了新方向。 🔮 这意味着什么? 它实现了参数规模与计算量的解耦。未来,模型的“知识量”(参数)可以海量存储在硬盘里,而推理时只调用需要的一小部分,高效又经济。 这不仅是技术优化,更是一种范式转移:神经计算 + 智能检索 的结合,可能是下一代稀疏模型的关键。 大模型的进化,正从“蛮力缩放”,走向“精巧设计”。#deepseek #技术突破 #论文解读
00:00 / 07:47
连播
清屏
智能
倍速
点赞
20
星辰大海捞针
5天前
梁文峰的新论文的确是非常震撼的,但是我认为大多数媒体都做了错误的解读,至少这是一个技术上非常大的误解,Engram 并没有实现真正的查算分离,仅仅是加快了查询的速度而已
00:00 / 04:39
连播
清屏
智能
倍速
点赞
4
标书中国-制作标书
2天前
央视报道,AI系统怎么查围标串标 #招投标
00:00 / 00:59
连播
清屏
智能
倍速
点赞
231
小萌芽科技
6天前
Deepseek 梁文锋署名开源「记忆」模块 DeepSeek与北京大学联合发布论文《Conditional Memory via Scalable Lookup》,将开源名为Engram的条件记忆模块。这项研究旨在解决大语言模型的核心缺陷:虽然混合专家(MoE)通过条件计算实现了参数规模的稀疏化扩展,但Transformer架构本身缺乏原生的知识查找机制,只能通过计算过程低效模拟检索行为。 Engram架构:静态记忆与动态计算的解耦 Engram模块的设计目标是将静态模式存储与动态计算过程分离。 Figure 1| The Engram Architecture 显示,该模块通过两个阶段增强主干网络:首先对当前位置的后缀N-gram进行提取压缩,通过哈希机制以O(1)时间复杂度检索静态嵌入向量;随后通过上下文感知门控动态调整检索结果,实现记忆与当前隐藏状态的融合。 U型扩展规律:重新定义稀疏性分配 研究发现神经计算(MoE)与静态记忆(Engram)之间存在U型权衡规律。 U型扩展规律与内存扩展效应 显示,将约20%-25%的稀疏参数预算重新分配给Engram可获得最优性能。在270亿参数规模下,Engram-27B在等参数、等FLOPs条件下全面超越纯MoE基线,不仅在知识任务(MMLU提升+3.0)表现优异,在推理(BBH提升+5.0)和代码数学(HumanEval提升+3.0)领域提升更为显著。 系统级优化:实现计算与存储的高效解耦 Engram的确定性寻址机制支持训练阶段通过模型并行将嵌入表分片至多GPU,推理阶段采用预取-重叠策略从主机内存异步加载嵌入。 系统效率优化策略 展示了这种硬件-算法协同设计如何实现近乎零开销的记忆扩展。 结合此前发布的mHC技术,DeepSeek V4的架构轮廓已清晰可见:通过Engram条件记忆模块与MoE条件计算的互补,构建下一代稀疏大模型的核心范式。该研究为解决LLM的知识查找效率问题提供了全新思路,标志着AI模型架构从单纯参数扩展转向更精细的稀疏化设计。
00:00 / 12:35
连播
清屏
智能
倍速
点赞
3
山竹Excel表格教学
3年前
有合并单元格咋查产品报价#Excel #多条件查询报价 #excel函数
00:00 / 02:00
连播
清屏
智能
倍速
点赞
660
简介:
您在查找“
Engram如何查表
”短视频信息吗?
帮您找到更多更精彩的短视频内容!
最新发布时间:2026-01-17 05:38
最新推荐:
逆战未来live在哪
你要是遇到喜欢的人了可以放弃我
哪位大v为闫学晶发声了
海洋馆演出时间
虎皮可以跟什么一起养
梦幻西游手游轻享服大吉大利开服时间
球球包带针织教程
逆战快速获取插件得到后退出还有吗
阿尔及利亚留学
逆战未来如何获得星海
相关推荐:
萌娃三月被救了吗
鸽子戳什么东西都会跳舞的游戏
无畏契约挂机怎么才能不被扣双倍
养了鹦鹉还能养什么宠物
为啥有的蜂医加载页面不一样
男生靠头发维持颜值的吗
蹭酸黄瓜热点怎么没浏览量了
谨以此书送给全世界最好的
牢a的导师是谁
哄娃神器小白龙歌曲
热门推荐:
mac怎么解压.jar文件
米兔c7a能安装qq吗
亚马逊美国NSF认证怎么破
vivox300pro和苹果对比
博亿朗小智刷微信固件教程
华为怎么设置孙颖莎输入法
fcl启动器怎么装来自洞穴
termux-X安装
美团月付锁定了怎么解除
芙蕊汇付款为什么用纷享生活付款