00:00 / 00:31
连播
清屏
智能
倍速
点赞0
00:00 / 01:10
连播
清屏
智能
倍速
点赞338
00:00 / 02:58
连播
清屏
智能
倍速
点赞11
00:00 / 02:09
连播
清屏
智能
倍速
点赞1
00:00 / 02:41
连播
清屏
智能
倍速
点赞39
2026-PR010 主题:用 Birkhoff 构造重塑“双随机”稳定性 论文: mHC-lite: You Don't Need 20 Sinkhorn-Knopp Iterations 地址: https://arxiv.org/abs/2601.05732 💡 核心突破: 针对 DeepSeek 提出的流形约束超连接(mHC)中存在的近似误差与工程门槛,mHC-lite 提出了一种极其优雅的 “重参数化” 方案。它不再依赖昂贵且不精确的 Sinkhorn-Knopp (SK) 迭代算法来逼近双随机矩阵,而是直接利用 Birkhoff-von Neumann 定理,通过 Linear + Softmax 将残差矩阵构造为置换矩阵(Permutation Matrices)的凸组合。这一改动实现了数学上的**“精确”**双随机性,并在仅使用原生 PyTorch 算子的情况下,达到了比深度优化的 mHC 更高的训练吞吐量。 🔗 承前启后: • 逼近对精确的“妥协” vs “纠正”: DeepSeek 的 mHC 引入了流形约束来解决梯度爆炸,但其依赖的 20 次 SK 迭代本质上是一种“有损逼近”。研究发现,对于病态矩阵,有限次迭代后的误差在深层网络(如 24 层)中会逐层累积,导致列和偏差高达 220%,埋下稳定性隐患。 mHC-lite 通过 “构造法”(Construction via Convex Combination)彻底消除了这种近似误差(Approximation Gap),实现了理论上的绝对稳定。 • 复杂工程对极简数学的“降维”: 为了掩盖 SK 迭代的计算开销,原版 mHC 被迫引入了复杂的 Kernel Fusion 和 TileLang 混合精度优化,甚至需要专门设计通信重叠策略。 mHC-lite 证明了 “数学的胜利”——通过数学变换将问题简化为常规矩阵乘法,无需任何定制 CUDA Kernel,极大地降低了复现门槛和系统维护成本。 🤔 哲学隐喻: 这种思维转变提醒我们:在系统设计乃至人生抉择中,与其用昂贵的代价去纠正一个从根源上就这一错误的起点,不如直接构建一个逻辑自洽的本原 #DeepSeek #mHC-lite #残差连接 #Birkhoff #架构优化 @🌈*🌈大顺
00:00 / 08:45
连播
清屏
智能
倍速
点赞11
00:00 / 10:47
连播
清屏
智能
倍速
点赞2