00:00 / 02:26
连播
清屏
智能
倍速
点赞20
00:00 / 04:01
连播
清屏
智能
倍速
点赞134
00:00 / 01:13
连播
清屏
智能
倍速
点赞1
大模型的第一性原理:统计物理视角解析 华为2012实验室理论研究部主任白铂博士提出,大模型的第一性原理需从统计物理、信号处理和信息论三个维度系统分析。本文重点探讨统计物理视角下的核心发现。 理论基础:能量模型与Transformer架构 Attention模块和Transformer架构均可用统计物理中的能量模型描述。推理是输出能量函数最小的下一个Token,训练则是逼近平均能量函数最小的参数组态。 研究表明,softmax函数基于Jaynes的极大熵原理,是在最不靠谱条件下的最靠谱估计。Attention机制的关键是学习组态B,使语义相关性最高等价于能量函数最低。 记忆容量:小模型强能力的理论解释 大模型记忆容量随参数线性增加而指数增长,这解释了为什么小模型也可以具备很强能力。但由于记忆容量限制,小模型增训容易导致模型崩塌。 从Gardner容量角度看,能力涌现的本质是随着参数量增加,大模型记住的知识量超过阈值,出现统计物理中的相变现象。 泛化误差:Logits的绝对值和是关键 基于Talagrand不等式,推导出交叉熵损失函数的泛化误差上界,其核心参数是Logits的绝对值的和。 这表明模型缩减技术如剪枝、蒸馏和量化必须谨慎控制对Logits的影响,因其直接决定大模型的泛化能力。 能力极限:Granger因果推断 大模型推理的本质是通过预测下一个Token实现逼近人类水平的Granger因果推断。 然而,大模型的能力极限是时间序列维度的Granger因果推断,Scaling Law还会延续,但不会产生真正的符号化、概念抽象和逻辑推理能力。 该研究为理解大模型黑盒子提供了全新视角,后续将深入探讨信号处理和信息论维度的分析。
00:00 / 08:13
连播
清屏
智能
倍速
点赞4
00:00 / 00:35
连播
清屏
智能
倍速
点赞332