00:00 / 03:57
连播
清屏
智能
倍速
点赞4
00:00 / 00:46
连播
清屏
智能
倍速
点赞1
00:00 / 05:59
连播
清屏
智能
倍速
点赞NaN
00:00 / 01:10
连播
清屏
智能
倍速
点赞9
00:00 / 01:05
连播
清屏
智能
倍速
点赞302
00:00 / 02:08
连播
清屏
智能
倍速
点赞61
00:00 / 00:20
连播
清屏
智能
倍速
点赞332
00:00 / 03:22
连播
清屏
智能
倍速
点赞22
00:00 / 01:52
连播
清屏
智能
倍速
点赞23
00:00 / 02:51
连播
清屏
智能
倍速
点赞1
Deepseek 梁文锋署名开源「记忆」模块 DeepSeek与北京大学联合发布论文《Conditional Memory via Scalable Lookup》,将开源名为Engram的条件记忆模块。这项研究旨在解决大语言模型的核心缺陷:虽然混合专家(MoE)通过条件计算实现了参数规模的稀疏化扩展,但Transformer架构本身缺乏原生的知识查找机制,只能通过计算过程低效模拟检索行为。 Engram架构:静态记忆与动态计算的解耦 Engram模块的设计目标是将静态模式存储与动态计算过程分离。 Figure 1| The Engram Architecture 显示,该模块通过两个阶段增强主干网络:首先对当前位置的后缀N-gram进行提取压缩,通过哈希机制以O(1)时间复杂度检索静态嵌入向量;随后通过上下文感知门控动态调整检索结果,实现记忆与当前隐藏状态的融合。 U型扩展规律:重新定义稀疏性分配 研究发现神经计算(MoE)与静态记忆(Engram)之间存在U型权衡规律。 U型扩展规律与内存扩展效应 显示,将约20%-25%的稀疏参数预算重新分配给Engram可获得最优性能。在270亿参数规模下,Engram-27B在等参数、等FLOPs条件下全面超越纯MoE基线,不仅在知识任务(MMLU提升+3.0)表现优异,在推理(BBH提升+5.0)和代码数学(HumanEval提升+3.0)领域提升更为显著。 系统级优化:实现计算与存储的高效解耦 Engram的确定性寻址机制支持训练阶段通过模型并行将嵌入表分片至多GPU,推理阶段采用预取-重叠策略从主机内存异步加载嵌入。 系统效率优化策略 展示了这种硬件-算法协同设计如何实现近乎零开销的记忆扩展。 结合此前发布的mHC技术,DeepSeek V4的架构轮廓已清晰可见:通过Engram条件记忆模块与MoE条件计算的互补,构建下一代稀疏大模型的核心范式。该研究为解决LLM的知识查找效率问题提供了全新思路,标志着AI模型架构从单纯参数扩展转向更精细的稀疏化设计。
00:00 / 12:35
连播
清屏
智能
倍速
点赞3
00:00 / 01:24
连播
清屏
智能
倍速
点赞8
《教育中的人工智能:前景与启示》 今天要给各位教育圈的伙伴们,安利一本 AI 教育领域的“硬核说明书”——《教育中的人工智能:前景与启示》,作者是英国的罗斯・卢金等一众大咖,妥妥的行业权威。 你以为 AI 进课堂就是装个智能题库、搞个自动批改?格局小了!这本书直接从学习科学的底层逻辑入手,告诉你 AI 不是简单的 “教学工具”,而是能重塑整个教育生态的 “操盘手”。作者在书里抛出了一个超实用的概念 ——“适应性学习系统”,说白了就是让 AI 像个贴心的 “私人助教”,能根据每个学生的学习节奏、知识短板,量身定制学习方案。比如有的孩子数学几何弱,AI 就自动推送专属练习题;有的孩子语文阅读强,就加码拓展材料,再也不用搞 “一刀切” 的教学了。 更难得的是,这本书不搞 “技术吹捧” 那一套,而是把 AI 教育的 **“甜” 和 “坑”** 都摆在台面上。它既讲 AI 在个性化学习、学习数据分析上的亮眼潜力,帮学校实现教育公平 —— 让偏远地区的孩子也能享受到优质的教学资源;也毫不避讳地扒出那些隐藏的雷区:比如算法偏见可能导致的 “标签化” 学生,数据隐私泄露的风险,甚至 AI 决策的责任划分问题。 不管你是深耕一线的教育研究者,还是手握政策制定权的大佬,翻开这本书都像找到了一份AI 教育的 “行动地图”—— 既有理论高度,又有真实课堂案例撑腰,看完就能明白:AI 不是来颠覆教育的,而是来帮教育变得更科学、更公平的。
00:00 / 02:09
连播
清屏
智能
倍速
点赞27