00:00 / 13:20
连播
清屏
智能
倍速
点赞0
00:00 / 08:01
连播
清屏
智能
倍速
点赞9
00:00 / 04:05
连播
清屏
智能
倍速
点赞14
00:00 / 00:31
连播
清屏
智能
倍速
点赞3
00:00 / 00:20
连播
清屏
智能
倍速
点赞100
00:00 / 00:30
连播
清屏
智能
倍速
点赞3
梁文锋 DeepSeek 跨年之日 发文炸场 DeepSeek发布mHC技术:用“流形约束”解决大模型训练稳定性难题 DeepSeek团队在2025年末发布重要论文《Manifold-Constrained Hyper-Connections》,提出了一种能显著提升大模型训练稳定性的创新方案。该研究针对当前超连接(HC)技术在扩展过程中出现的训练不稳定、信号失真等核心问题,通过数学约束与工程优化相结合的方式,为大模型架构演进提供了新思路。 传统残差连接的升级困境 传统残差连接的“恒等映射”特性是深度网络稳定的关键,但HC技术在提升表达能力的同时,由于缺乏约束,导致训练中出现信号放大(最高达3000倍)和梯度异常问题。这不仅影响训练稳定性,还显著增加了GPU内存和通信带宽需求。 mHC核心机制:双随机流形约束 DeepSeek提出的mHC方案核心在于将HC中的残差映射矩阵投影到双随机矩阵构成的“流形空间”。通过Sinkhorn-Knopp算法实现投影,使矩阵具备行列和为1的守恒特性,从而恢复恒等映射性质,避免信号放大或衰减。 实测效果显著 在27B参数规模的测试中,mHC展现出卓越的稳定性:损失曲线平稳收敛,梯度范数保持稳定,复合映射增益控制在1.6(HC为3000)。在下游任务上,mHC全面超越HC,尤其在BBH(+2.1%)和DROP(+2.3%)等复杂推理任务中表现突出。 工程可行性得到验证 通过内核融合、重计算与通信重叠等优化措施,mHC在扩展率n=4时仅引入6.7%的额外训练开销,实现了高效训练。这一方案为解决大模型扩展中的稳定性问题提供了切实可行的技术路径,为下一代基础架构演进指明了方向。
00:00 / 10:57
连播
清屏
智能
倍速
点赞11