大家好,之前的课呢,我们学习了人白细胞分化抗原及年复分子, 那么这次课呢,我们就要学习的是另外一种啊,可以说是我们免疫系统当中最重要但是又最难理解的膜蛋白,叫做主要组织相溶性复合体。 有些同学说啊,老师你先别说内容啊,你就说这名字我就不理解,每个字我都认识啊,合到一块就不知道什么意思,那好,我们就把它拆开来啊,逐字逐字的,我们来理解一下它是什么意。 首先第一个概念,组织相融性,这个还是比较好理解的,组织相融性呢,是一个在移植当中提出的概念, 指的是移植手术过程当中供者与受者相互接纳的程度,比如说一次肾移植手术,如果说这个器官能够成功的移植,我们说这二者组织相融, 反过来如果不能够成功移植,我们就说二者组织不相融,那么所谓的不相融就是会发生移植 排斥,对吧?那么移植排斥是由于什么?我们之前讲过抗原是哪一种抗原会引起这种移植排? 是呢,同种一体抗原,对吧?所以呢,我们隐身出一个概念,叫组织相融性抗原, 指的就是引起移植排斥反应的这些同种异形的抗原。 组织相融性再往前延伸,前面有个词叫主要组织相融性抗原,对吧?什么叫主要呢?我们来看一个动物实验啊, 有人呢,对三种小鼠呢,进行了一个皮肤的移植,还有黄色的,蓝色的和红色的啊,当然这不是真正小鼠的颜色,只是作为标志,同一种颜色的小鼠,他们的遗传背景 完全相同,那么你看第一个实验当中,黄色小鼠的一块皮肤移植到黄色小鼠最下面的表示存活率百分之一百,这叫组织相融。 而第二个实验当中呢,黄色皮肤移植到蓝色消除,你可以看到,在很快的时间里,大概十天左右,这块皮肤是完全死亡,就说明在这个移植当中发生了一种叫强的免疫排斥。 那么引起这种强免疫排斥的同种异形抗原,我们叫主要组织相溶性抗原。那么对应的第三个实验,当黄色皮肤移植到红色消除体内 啊,你可以看到,虽然这块皮肤最终也是死亡的,但是他的存活率是慢慢慢慢下降,直到六十天左右才完全死亡啊,这里指的是移植这块皮肤死亡,不是巧属死亡。 那么这里呢,我们就看到了一个弱的排斥反应,那同理,引起这种弱的免疫排斥反应的抗原呢?我们就叫次要组织相溶性抗原。好,但是 有同学说了,我们这一张的名字叫主要组织相容性复合体啊,不是主要组织相容性抗原对不对?那这个复合体又怎么理解这里呢?其实省略了两个字啊,应该叫主要组织相容性 基因复合体,他指的呢,是一组紧密连锁的编码主要组织相溶性抗原的基因复合体。 也就是说这个复合体是在基因的层面上来讲的,他最终的编码蛋白产物是主要组织相溶性抗原,那么这一类 类最终编码出来的抗原,它具有控制同种移植排斥反应、免疫应达和免疫调节等等的功能。基因和蛋白是什么关系? 这是我们中学生物的内容,是吧,我们可以复习一下啊,这个叫中心法则啊,一段基因首先转入成为 m 二 n, 这部叫转录。 m 二 n 呢,在荷塘体当中呢,经过翻译变成了蛋白质的多肽链,这个时候的蛋白叫做一级结构,他是线性的,线状的蛋白,那么再经过折叠 修饰,把线性的蛋白折叠成各种空间形状啊,最后形成一个完整的蛋白抗原。 所以从这个中心法则上来讲,主要组织相溶性复合体指的是基因,而主要组织相溶性抗原指的是最终得到的那个蛋白。 好,下一个概念叫人白细胞抗原。 hla, 这个概念很好理解啊,就是 人的主要组织相融性复合体,那么就是人的 mhc, 叫 hla。 注意,我们上一次课学过另外一个概念,叫 hldag 的吧,人白细胞分化抗原,而这个 hla 是人白细胞抗原 d, 地利佛瑞省啊,在这里没有,所以这两个缩写呢,请大家务必要给他区分开来啊。那么 hla 呢,最早是法国学者在一九五八年进行这个肾移植以及 输血的病人啊,发现的一种啊,能与白细胞发生反应的抗氧。那么就如我们刚才讲的啊, hlv, 我们说基因或者基因复合体指的是 dna 层面,如果讲 hlv 分子 hlv 抗 元,那我们讲的是蛋白层面的人的 hlv 复合体呢?位于人第六号染色体的这个短臂啊,全长呢,是三千六百个 kb, 为什么说他是 合体啊?因为这个基因不是一个两个的基因,人的 hla 基因是 两百二十四个基因座位,其中有功能的基因是一百二十八个假基因,也就是说不编码蛋白的基因是 九十六个啊,这么多个基因最终去翻译成为一组蛋白,所以我们叫他基因复合体。好 讲这么多,我们来讲一讲这个 mhc 到底有什么用啊?抗原帝城有的同学说, mhc 不是戒倒这个免疫排斥吗?移植排斥吗?移植排斥他不能叫功能对吧?他最多叫一个什么副作用啊?没有任何一个蛋白啊,从进化了几千几万年,最终的作用是引起移植排斥,就是来给你捣乱的。不可 可能吧, mhc 他有非常重要的功能,叫抗援历程,或者也叫抗援提成啊,这个是不同的翻译, 那我们来看这个图啊,右边这个圆的细胞是 t 细胞,它上面有一个分子叫 tc 二啊,我们已经知道这个名字的,叫 t 细胞,表面兽体是用来 识别抗原的,那么我们在讲抗原的时候就给大家讲过这个 t 细胞识别抗原,他对抗原的要求是非常高的, 对吧?他有什么要求呢? t 细胞自己不能直接的去识别完整的抗原,他需要一个辅助的细胞帮他啊,把一个大分子的一个这个抗原蛋白帮他吞噬、消化、筛选, 把那些最精华的,最具有特征性的,我们叫抗原肽,也就是我们讲过的抗原表味 给他提取出来,然后呢,交给体细胞,体细胞才会去识别,那么负责辅助的这个细胞叫抗原地承细胞,缩写叫 apc。 你如果不能理解,我们举一个例子啊,这里有个警察剃细胞呢,就是这个警察啊,这个警察呢,他有他的特点,他呢?你说你去给我抓一个犯人回来, 他能力很强,他抓捕犯人的能力非常强,但是呢,他找线索的能力不行啊,他说这个,比如说给你个任务啊,说有个案子你破一下,你找一找谁干的?哎,这事抓瞎了,这个时候怎么办呢?发动群众啊,这就有个专门的举报人, 有什么风吹草动,他就找警察说,警察同志啊,你看我最近发现一个嫌疑人啊,这个人我举报他一下啊,他身高怎么样?体重怎么样啊?样貌怎么样?那替细胞就这警察一旦拿到 这个线索没问题,马上去抓捕,就能很快的把这个病原体给他清除消灭好。那么在这个例子当中啊,这个举报人 就是抗原地承细胞,是吧?这个警察就是替淋巴细胞那么 提交的这个线索啊,我们就,我们叫抗原肽啊,他是经过了分析整理的多肽链线索, 那么警察接过这个抗原肽的这个手,这个兽体呢,叫做 tc 二体细胞表面兽体 mhc 是这个部分,也 就是抗原地承细胞,负责把这个线索,把这个抗原肽交出去的这个分子,这个膜蛋白叫做 m h c, 他是这么个东西,那么为什么 m h c 这样一个负责抗原地承的蛋白,他会引起免疫排斥呢?大家想一想,引起免疫排 是说明什么?说明这个蛋白他在人群当中,每一个人体内一样还是不一样,是不一样的,对吧?如果每个人这东西都一样的,就不会排斥了,那是不一样的。那么为什 什么每一个人的 m h c 或者说 h l a 他是不同的呢?这就涉及到了 m h c 的结构以及他的遗传特性。 我们先来看一看 matc 的分类啊, matc 分子呢,分为 matc 一类分子、二类分子和三类分子。 那么其中的一类和二类呢,又分为经典的和非经典三类呢?没有这个划分。 那其中我们刚才讲的负责抗原地城的 matc 分子呢,只占所有的这些分子当中的一部分,也就是说只有经典的一类和二类的 matc 分子,它有高度的多肽 性,多肽性就是我刚才讲的每个人体内不一样啊,那么参与抗原地成,这叫经典的。那么剩下来的所有的这些 mhc 呢?他不参与抗原地成啊,他是有限的多肽性。 那么我们也叫这些 matc 分子呢,叫免疫功能相关紧啊,我们讲过这个,对于人来讲, hla 一类和二类的基因啊,我们可以看到他的放大图, 一类基因、二类基因和三类基因。那么经典的 mhc 或者 hlv 一类及二类的基因是什么样的呢?首先一类基因或者一类分 他呢集中在这个染色体,远离着丝点的一端啊,经典的一类分子,别看这个 mhc 有一百二十八个基因啊,真正的经典的一类基因只有三个, 就是 h l a, e, a, e, b c, a, b c。 下面这句话说 h l a e 类基因呢,指编码这个二,具体当中的重列什么意思啊?看右边这个图,我们会发现这个 中间的这个是 hrv 一类分子的这个蛋白结构啊,他有一条比较长的列,然后有一个小小的这个列,这个是轻列,那么一类基因呢,只编码那个长列,这个轻列呢?我们叫 杯他处 mv 球蛋白啊,他不是有 hrv 基因编码的,那这个呢?小的微球蛋白呢?他的功能仅仅是维持一个这个蛋白的空间结构而已,他是没有免疫功能的。好,再来看二类分子啊, hrv 二类分子呢,在相对靠近着丝点的一侧,经典的二类基因呢,也是三个,分别是 dpdq 和第二三个牙齿 啊。注意啊,在这里我们就发现了,就是 hrv 分子的命名啊,其实很有意思啊,一类分子都是一个字母, abc 是经典的,那么我们后面还会学非经典的,像这个 hrv, e 啊, hrvg 啊,这但凡是一个字母 都是一类分子,而二类分子呢,都是两个字母,而且都是 d 打头。那二类基因呢,都是两个字母,而且都是 d 打头,包括 d, p、 q。 第二,还有我们以后会学到的其他的啊,所以如果你遇到题目说某一个你根本没有见过的 hla 分子,说问你,他属于一类基因还是二类基因,很好判断,你就看他几个字母就行了。 hlv 二类分子呢,他是双链的结构,他有两条链,而且这两条链是不一样的,一元的一条是二法链,另外一条是 a 塔列,所以呢,二类分子相对于一类分子呢,结构更加的复杂一些。那么除了经典的一类和二类分子,还有的剩 剩下的所有由 hrv 基因编码的都叫免疫功能相关基因啊,这就多了啊,你知道非经典的一类和二类基因和所有的三类基因都属于免疫功能相关基因,我们看这基因图谱, 除了我现在新号标出来的这些是经典的,那么其他的呢?都属于非经典的免疫功能相关籍。 免疫功能相关基因啊,免疫功能就多了啊,按功能来分,他可以分为血清或者补铁成分的编码基因,抗原加工的相关基因,包括像一些蛋白酶以及转运蛋白,都是由这个非经典的 hc 基因编码的。再有非经典的一类基因呢,他还调控了 nk 细胞的杀伤啊,像 hlag, 那么他 这个调控的是一个母胎的免疫耐受,这些呢,都是相对比较重要的非经典的 hlag。 此外呢,还有很多炎症相关的基因呢,也属于免疫功能相关基因。
粉丝3875获赞8435


二零二六年元旦,当大多数人还沉浸在节日氛围中时,中国人工智能领域传来重磅消息, deepsea 发布了一篇题为 mayhc manifold constrained hyper connections 的 研究论文,迅速在 ai 学术界和产业界引发震动。 这篇论文的特殊之处不仅在于其技术内容,更在于作者名单。 deepsea 创始人兼 ceo 梁文峰赫然在列。 熟悉 deepsea 的 人都知道,这位低调的 ceo 极少在技术论文上亲自署名,此次亲自挂帅,选择在新年第一天发布,信号再明显不过。 deepsea 正在推动一项可能改变 ai 游戏规则的技术突破。 那么今天我们就来好好聊聊这事。对了,本次提到的所有公司都只是基于公开资料客观整理,均不做推荐。由于部分涨幅过大,请各位注意风险。 论文提出的 mhc 流行约束超连接架构,直指深度学习领域,使用了十年的基础结构残差连接 resident 这项由何凯明团队于二零一六年提出的技术,如同 ai 大 厦的承重墙,支撑着从 resident 到 transformer, 再到今天所有大语言模型的深层网络训练。而现在, deep seek 似乎要在这面承重墙上动土了。那 mhc 是 什么? 要理解 mhc 的 价值,我们需要先看看 ai 架构的交通史。传统 resident 单车道直通路二零一六年,何凯明团队提出的残差网络,解决了一个长期困扰 ai 界的难题,深层神经网络训练不动, 其核心设计横等硬设,可以理解为在神经网络的多层迷宫间修建了一条单车道直通路,无论中间如何变换原始信号总能无损耗地直达深层,确保了训练的稳定性。这条单车道成为了后来所有复杂 ai 模型能够构建起来的基础。 随着模型越来越庞大,这条单车道显得捉襟见肘。二零二四年字节跳动的研究团队提出了 h c 架构,试图将单车道扩建为多车道。想法很好, 更多车道应该能通过更多车流。但问题在于,这个扩建工程只增加了车道,却没有设置交通规则。 结果是各路信息在多层网络间随意交织碰撞,信号强度可能被意外放大三千倍,导致训练过程极不稳定,如同没有红绿灯的十字路口,早晚高峰车祸频发。 deepseek 的 mhc 架构提出了一个巧妙的解决方案,车道要扩建,但必须安装智能交通管理系统。这个系统的核心是一种叫做双随机矩阵的数学约束,可以理解为流量守恒定律, 进入路口的车流量总和必须等于离开路口的车流量总和,既不能平冲消失,也不能无中生有。 通过 syncorn knop 算法,相当于实时交通调控算法。 mhc 确保信号在多条并行通道间流动时始终保持均衡稳定。这既保留了多车道系统的信息处理能力,又避免了交通混乱。 简单来说, hc 就 像在扩建城市道路时,同步部署了智能红绿灯流量监控和调度系统,让扩容真正发挥效用,而非制造拥堵。那这个技术的突破到底有什么影响呢? 首先,重新定义 ai 训练的稳定性边界。 mhc 最直接的影响是解决了大规模模型训练中的不稳定性难题。在二七 b 参数规模的模型测试中, mhc 将信号增益幅度从 hc 的 峰值三千牢牢控制在一点六左右,降低了三个数量级, 训练曲线从过山车变得平稳如镜。这意味着 ai 公司能够以更高成功率训练更大规模的模型,减少因训练崩溃导致的算力浪费和时间损失。 实验数据显示,使用 mhc 的 二七 b 模型在多个精准测试中全面超越传统架构,在复杂推理和阅读理解任务上分别提升百分之二点一和百分之二点三。 如果说数学约束体现了 deepseek 的 理论洞察,那么配套的工程优化则展现了其一贯的效率至上哲学。 mhc 架构没有停留在理论美好,而是通过三重工程优化确保实用性。算子融合,将多个计算步骤合并,减少 gpu 内存访问次数。如同将需要多次进出仓库的物流流程优化为一次完成装卸。 智能重计算,选择性存储关键中间结果,非关键数据用时再算,大幅降低显存占用。好比物流中心只常备畅销商品、冷门商品等订单来了再调货。 通信与计算重叠,让数据传输和数据处理同时进行,隐藏额外通信时间,如同让装货和运输在时间上重叠,而非顺序进行。这些优化使得 mhc 在 扩展率为四十仅带来百分之六点七的额外训练时间开销。 在动辄数百万美元计算成本的 ai 训练中,这种极小代价换显著提升的性价比极具吸引力。那么这个技术对哪些行业有影响呢? 由于技术的复杂性远超我的理解范围,所以这里按照我整理的资料以及简单理解的列出几个我认为的可能立好的方向,等后续更多大神解读后再更新。 首先,算力基础设施层 mhc 架构的核心特点支持更大规模、更稳定训练,将直接推动对算力基础设施的升级需求。 mhc 支持的多流并行计算需要更高宽带和更大内存,这对 ai 训练芯片提出了新要求。 像韩五 g 这样的国产 ai 芯片企业,其存算一体设计理念与 mhc 的 宽带需求高度契合,有望在这一轮架构革新中获得先机。服务器与数据中心基础设施将同步升级, mhc 架构对通信效率和内存管理的优化需要与之匹配的服务器架构。 中科曙光、浪潮信息等企业的液冷服务器、高密度 ai 服务器解决方案将成为部署 mhc 架构模型的物理基础,特别是 deepsea 易装智算中心已有的英伟达集群很可能成为 mhc 架构的首批试验田。 大规模并行计算意味着更密集的数据交换,四百 g、 八百 g 高速光模块作为算力集群的神经网络,需求量将随 mhc 架构的普及而稳步增长。其次,对于大模型研发企业, mhc 提供了降本增效的新工具,降低训练成本与风险。 训练不稳定是大模型研发中的主要风险之一,一次训练崩溃可能意味着数百万计算资源的浪费。 mhc 提供的稳定性保障使得企业能够更自信地扩展模型规模,探索能力边界, 这对于像科大讯飞这样在多个垂直领域布局行业大模型的企业尤为重要。稳定的训练意味着更可预测的研发进度和成本, 加速模型迭代与商业化。当训练更稳定、效率更高时,模型迭代速度自然加快。金山办公、托尔斯等以深度集成 ai 能力的企业能够基于更强大的基础模型开发出更精准、更高效的 ai 应用功能。 例如,基于 mhc 优化模型的智能写作工具可能在公文生成准确性、代码生成效率上实现新突破。最后, mhc 架构的实用化将降低强大 ai 能力的使用门槛,推动垂直行业智能化进入新阶段。例如,金融行业的风控与投研将更加精准, 医疗健康的诊断辅助将更可靠,内容创作的效率与质量矛盾将缓解。 a h c 行业长期面临深层速度快则质量下降,追求高质量则效率低下的困境, 智能制造的质量控制将更精细。尽管 m h c 架构展现出巨大潜力,但在产业落地过程中仍需注意几个关键点。首先, ai 架构引进迅速,今天的创新可能很快被新突破超越。 企业在跟进 mhc 时,需要评估其技术生命周期,确保投入产出比。同时,现有模型架构向 mhc 迁移需要成本 如何平衡革新收益与迁移代价是实际决策中的关键。 deepsea 此次以论文形式公开 mhc 细节,延续了中国 ai 公司更为开放的研发文化,但技术的实际影响力取决于生态建设是否有足够多的开发者企业基于该架构构建应用 mhc, 需要推动形成开源工具链优化框架典型用力,才能从论文创新转化为生态优势。 总而言之,在 ai 行业疯狂追逐应用创新、商业变现的今天, deepsea 选择回归基础架构,重新审视十年前垫定深度学习基石的设计, 这种死磕底层的定力令人印象深刻。而对于关注 ai 行业的出现,提示我们在观察 ai 浪潮时, 除了关注那些浮在水面的应用明星,更应该留意那些潜藏在水下的基础创新,他们往往在无声中重塑浪潮的方向。好的,本期节目到此结束,我们下期再见。

deepsea 团队呢,在二零二六年第一天发表了他们的新论文,那本期视频就来给大家做个快速讲解,来看 deepsea 到底发了个什么东西。那他们呢,是发了一种叫 mhc 的 新架构, 全称呢,是流行约束超连接。论文地址在这里。这个新架构的研究背景啊,来自神经网络架构的基石之一,残差连接,它呢就像是 ai 神经网络的一种高速公路,让信号呢可以原封不动的传到下一层, 保证了训练的一个稳定性。但是啊,随着整个业界会追求一个更强的性能,那传统的单车道肯定就不够用啦。于是呢,就有人推出了一种新的连接方式, h c 超连接,就是把原来的单车道扩展成了多车道,让信息的交换可以更复杂。 也是因为有更多交换了嘛,所以就更聪明了。但是呢,这种形式的问题随之而来了,路变宽了,车不就乱走了吗? 像是在超大规模的这个训练的过程当中啊,信号呢,就特别容易消失跟爆炸,那模型的训练很容易因此也就崩盘了。另外啊, h c 的 系统开销其实特别的高,那 deepsea 这篇论文核心解决的呢,就是 h c 这个模式的一些弊端,给这些狂野的可能到处跑的链接我们加上了枷锁,更准确的来说,它应该算是一种数学护栏。它们呢,引入了一种叫做 流行约束的数学工具,强制让复杂的连接矩阵变成双随机矩阵,恢复横等印刷。再通俗点说啊, 就是呢,在每个交叉路口定了一些死规矩,不管你信息中间怎么交换,你必须保证啊,进出这个叉路口的总量是守恒的,这样一来呢,信号就能保持,多线交流的聪明才智,也不会因为失控呢导致整体训练崩盘。然后呢, d p c 团队在二十七 b 模型上 做了这个架构的实验,可以看出啊,用了 m h c 训练的曲线确实更稳定了。而且啊,它在逻辑推理测试当中也明显优于传统的设计模型呢,因此变得更会思考了。 可能你会担心啊,这种额外加了数学计算,会不会让整体模型跑起来更慢呢?团队呢,其实也考虑到了这个点,它在底层做了一些优化,比如说算子融合,那在二十七 b 的 模型实验下来, 它增加的开销只有百分之六点七。整篇论文读下来,我觉得还挺有意思的,那 deepsea 呢,它相当于是从底层的拓普架构上 开辟了一条新的路径,那也是为下一代大模型的眼镜呢,开辟了一种新的可能性。好啦,论文解读是我今年的一个新企划,大家觉得怎么样呢?如果有任何意见和建议,可以在评论区告诉我,我是亮灯,我们下期见!

全世界都在猜, deepseek 下一张牌会是什么?是 r two 呢?还是 v 四?结果啊,梁文峰和他的团队直接甩出了一份,怎么说呢,一份更硬核的新年礼物。当时所有人都觉得,嗯,要么是 v 三的升级版吧,要不就是 r 一 的又一次迭代。 但结果呢,他们给出的根本就不是一个新模型,而是一份蓝图。就在一月一号那天, deepseek 特别低调地发布了一篇重磅论文,叫 mhc 流行约束超链接。 你得知道啊,这可不是什么简单的版本更新,这简直就是对整个 transformers 架构的一场心脏手术啊!可以说啊,就在那一刻, deepsea 等于是正式向 ai 算力的物理极限宣战了。所以今天呢,咱们就来好好拆解一下这场完完全全属于极客的一场暴力美学的胜利。 你看啊,在 ai 这个圈子里,一提到暴力,大家想到的通常就是参数搞得更大,层数堆得更深。但 deepsea 呢,他们就发明了一个东西,叫超联结。 这是个什么概念呢?你就想象一下,他们想把一条单车道的信息高速公路,一下子拓展成一个拥有一百二十八条车道的超级枢纽。 不过,这种暴力嘛,肯定是有代价的。你想想,成百上千条数据流同时涌进来,那会发生什么?信号开始失控了,数值也开始爆炸了。那个场面,就好像你开着一辆 f 万赛车,在赛道上已经飙到了四百迈,结果方向盘失灵了,就这么个感觉。 所以说,这就是 deepsea 在 二零二五年面临的最大困境。要是解决不了这个稳定性的问题,那再大的模型也只不过是空中楼阁罢了, 那 deepsea 是 怎么解决的呢?它们的解法你想都想不到,不是去堆更多的显卡,而是引入了一种数学上的美学。这个 mhc 架构的核心,说白了就是给这股暴力的信息洪流强行加上了一道数学的枷锁。它的名字就叫双拟随机流行。 哎,这名字听起来是不是特别晦涩?别急,我跟你简单说说,其实就是他们用了一个叫 cacun 的 算法,这个算法会强行要求每一个连接矩阵都必须保持那种完美的平衡。这么一来,不管进来的数据流有多么狂暴,只要经过这个算法这么一梳理啊,哎,就都变得温顺又有序了。 这带来的是什么呢?是一种极致的控制感。你看,通过让显卡在短短几毫秒内就能完成几十次的迭代运行, deepseek 终于找回了那个丢失已久的横等硬设。这一下可就厉害了,从今往后,模型就可以无限的加宽,再也不用担心会崩溃了。好问题来了,为了得到这份极致的稳定, deepseek 又付出了什么样的代价呢? 我们来看数据啊,这个 m h c 架构会让训练时间增加百分之六点七,你可别小看这六点七啊,在一个分秒必争的行业里,慢本身就是一种原罪。但是 deepsea 这次赌赢了这 六点七。 percent 的 过路费换来的是什么呢?换来的是推理能力,比如在 b b h 和 drop 式上超过二百分之的质变式提升。而且更关键的是,它带来了在咱们国产算力受限的背景下,去训练那种万亿参数大模型的可能性。 说到这,就不得不提这一切的幕后推手了。没错,还是他梁文峰。你想想,都二零二六年了,这位身价百亿的创始人,他的名字居然还写在论文作者名单的最后一位, 这意味着什么?这意味着他没有舒舒服服的坐在董事会里签支票,而是依然亲自待在代码的站好里,思考着怎么用数学去对抗物理的瓶颈。所以你看,如果说之前的 deepsea v 证明了他们能开出最快的速度,那么二零二六年的这个 mhc 架构,就证明了他们现在已经有了铺设那条通往 agi 的 轨道的能力。 朋友们,这才是真正的暴力美学。什么意思呢?就是在最受限的硬件上,用最优雅的算法去释放出最野蛮的智能。所以啊,二零二六年,真正的好戏才刚刚开始。

今天我们要聊的是 deepsea 最新爆点 mhc, 就是 给神经网络装上的物理约束器,它解决了一个困扰行业十年的问题,当神经网络变得极度复杂时,信息流会像失控的洪水一样崩溃。它是怎么解决的? 答案就藏在微分几何的流情里。首先了解一下越来越大越复杂的模型,叠到几百层还没崩溃,其秘密就在于二零一五年诞生的残差连接, 但是它还是过于简单。这是让 transformer 框架本质上只能开单车道,信号从第一层传到最后一层,靠的是横等硬射,也就是让信号尽量原封不动的流过去,否则 hold 不 住。如果我们想让不同层之间的信息交换更复杂呢?人们提出过 hyper connections 超链接, 它把残差流扩展了 n 倍,向修了多车道。但是怎么控制车流就很是门手艺活了。所以现在的局面是,要么羊肠小道,要么信马油浆。大模型 maker 们很是头痛。 deepsea 发现,超连接之所以不稳定,是因为信息在多条车道之间交换时,总能量会因为学习参数的无界而爆炸。这让我想起流体力学的问题, 数据和信息在复杂的神经网络里传输和蔓延,如同开闸的洪水,非常难预测和控制。那怎么应对这个问题?流体里有两个非常成功的案例。第一个是物理信息神经网络。以前 ai 预测流体或天气,经常会给出不符合现实的离谱答案,后来科学家给他加了约束, 你预测的结果必须符合流体中的控制方程,既满足质量守恒和动量守恒, ai 瞬间从胡言乱语变成了科学天才。第二个是约束大窝模拟。在模拟吞流时,人们为了平衡流体仿真计算的精度和成本,发明了联合流体仿真中著名的 r n s 和 l e s 模型的混合方法。早期这种方法偶合使用依赖的开关式网格信息, 但是后来发现它会因为网格问题诱导出非物理的分离流动。后来提出的约束大窝模拟就把两种方法切换的开关改成依赖于流动物理信息的判据,一下显著改善了流畅预测的效果。 deepseek 的 思路如出一辙,用数学上微分几何的流行概念来约束的超链接,本质上是给信息流定义了一个数学上的能量守恒定律、流行投影和守恒属性等等,都太专业了。简单点说,就是让现在单车道稳定的恒等映射迎来第二春。 以前让你单车道开是为了稳定,后来多车道是快了,但是又容易出事故。现在不管信息在成百上千层里怎么穿梭,他的能量始终是守恒且平稳的。他让模型在增加拓扑复杂度和训练稳定性之间找到了那个完美的平衡点, 实现了有秩序的复杂。这不亚于当年流体力学中在混沌的吞流研究中发现了拟绪结构,它是划时代的,而且 mhc 这里还带有宏观和微观统一的创新。效果如何呢?肉眼可见,在二七 b 规模的实测中, 没有约束的 h c 很 快就炸开了,而 m h c 的 梯度稳如老狗。更重要的是,这种从物理约束得到的灵感,让模型在逻辑推理能力上提升了百分之二以上,效率上同样强悍, 这套复杂的几何约束只增加了百分之六点七的额外计算量。 ai 的 发展正在告别大力出奇迹的野蛮生长。 open ai 在 开发下一代模型列户座时发现,单纯增加算力和数据量已无法持续提升性能,模型进步速度大幅放缓。 其实 deepsea 一 直走的就是算法优化和算力之间的平衡之路,这次用流行规律约束信息流,或许又会让 ai 大 模型上一个台阶, 驾驭更大的复杂网络,让通往 a、 b i 的 道路变得更宽。最后感慨一句,我们浙大校友就是牛,抓住科技最前沿的咨询,这里是风行雅集,我们敬候下一个爆点!

兄弟们,研究时代真的来临了, deepsea 二五年最后一篇论文了,使用十年的残差链接最后也被优化,估计新一代的 deepsea 也会用上啊。 目前大模型把注意力和 fit forward 都做了大量优化呀,规划呢,也有添加可可诺摩等设计啊,甚至也有工作是替代层规划的,只有残差链接还没被替换呢。 原始的残差链接啊,是这个 x 加 f x, 也就是输入 x 加上输出 f x, 后面提出了 h c 超连接哈,对于输入 x 呢,和输出 f x 都分别赋予学习权重啊,变成了 r f x 加贝塔 f f x, 同时把 x 引入 n 个副本呢,从一个一乘以一的向量变成了一个 n 乘以一的超隐藏矩阵呢。信息流呢,就从残差连接的一条变成了 n 条并行呢信息可以更好的流动和混合啊,能够稳定提升性能。 但超连接啊,对于混合矩阵 r 法没有做约束啊,容易爆炸或衰竭呢,而且损失了恒等颜色特性呢,训练不稳定呢。 这个 deepsea 提出的 mhc 呢,是把这个尔法混合矩阵呢,投影成双随机矩阵,即数据都大于等于,那每行每列的核等于一啊,而且工程上进行了优化实践了,估计新一代的 deepsea 会用上哈。


hello, 大家好,这里是荒野全站 ai, 欢迎来到我的频道,带你用全站的视角看 ai。 好, 那么咱们今天这期呢,是来讲一讲啊,这个 deepsea 团队呢,特别包括咱们梁文峰本人呢,都在啊,咱们的这个十二月 啊,三十一号啊,发布了这一篇啊,论文讲的呢是一个 m s m h c 啊,这个的可能 乍看上去比较复杂啊,哎,他讲的其实就是我们,原来啊,从这个一七年我们 restnight 他 那用的技术呢开始,哎,就是咱们深层神经网络一直在用那个技术叫做 缠擦连接啊,我们首先必须得了解什么是缠擦连接,我们才能讲他这篇论文啊,不然的话,因为他这篇论文呢是用来改进缠擦连接的,那如果我们都不知道缠擦连接是什么呢?我们可能就讲不了这篇论文。首先我们稍微了解一下什么是我们一般的缠擦连接。好,我们看一看。 好,大家知道我们这个呢,就是一个典型的一个传感器,好,我们看一下传感器,这里呢,会不会有一个这个啊, rest residue 啊,这个东西呢,大家看到这里 啊,这两块都是有个串叉连接哎, residue 呢,就是我们的串叉的意思,我们 residue connection 呢,就是串叉连接。好, 好,那我们说禅禅连接最开始呢,它并不是直接用在 transform 里面的。禅禅连接最开始呢,它是在这个一七年的时候,由微软研究院它提出来了一个这么个概念啊,哎,它当时呢,直接是被咱们的 resident 直接应用了,那个时候我们的 g n n 里面呢啊, g n a 里面呢?会有个什么问题呢?它那时候的神经网络,它就是做不深 啊,他那个时候啊,我们传统的这个 c n n 那 种神经网络,比如说 alex net 呢,他可能就十多层啊,完事他做不下去了,为什么呢?一他发现你的深度越来越深了,他后面这个梯度啊,就是这个这个丢失的越来越严重,相当于你只要越深,你前面那些反向传播的时候,你反向传播那个前面的梯度啊,哎,他就消失了 啊,有的时候消失呢,他就影响不大,所以你前面那个梯度呢,就更新的不大的话呢,那相当于你这个就直接是训训练就炸掉了,所以的话呢,你就不能这样训练。 那为什么这个原因在哪里呢?就是说随着你的深度越来越深,你很多信息你就丢失掉了,原来的那些早期学的那些信息你丢失掉了,所以呢,你这个啊,这个梯度啊,他就没有了,你梯度没有的话呢,那你这个梯度下降,你怎么更新列值呢?你参数更新不了了,那这个就是问题 啊,那好,我们才就是我们那个时候呢,我们就提出了这么一个残差连接的问题啊,残差连接是什么意思呢?就是他直接把我们 啊原来的这一部分的这个值,哎,直接加到啊,直接这一部分的这个向量,直接他就动也不动,我们就加了第二层过去,就是我们下一层的这个输出的一个值,就等于我们前一层的输输入的这个值,加上我们这一层学到的知识 啊,这是最简单的公式,这个公式咱们大家会看到这个最简单的一个加法而已,他的目的呢,就是说啊,让我们学到一个增量,而不是学到一个新的一个全的一个全量, 那学增量远比学全量要简单,相当于说我们每一层,他只学习我们这一层的一些知识,那我们前面的那些层呢?哎,那我们就原封不动的给他加上去,这样的话我们就有个什么好通呢?就是说, 哎,我们以后如果要这个题目像这样的话,哎,我们直接从那个加法里就减过去就可以了,对吧?我们就不需要那么复杂,我们就不可能会出现就把学的越来越深的时候要去忘了,之前学到了,这就这个问题就解决了 啊,所以呢,还有一个解决这个问题呢,就是说,哎,我们不会学到后面,我忘了前面我们刚说因为已经加上去了啊,所以就这么逻辑,然后之后慢慢的呢,我们所有的这个深度学习网络,我们就要用到了深度学习,为什么呢?因为你想要做的深 啊,那你就必须得用长才连接,不然的话呢,你就会容易像我们一开始出现那种问题啊。所以呢,我们所以说一开始啊,咱们其实啊 一开始呢那个程度学习啊,他只要一做的时候,你比如说做一百一百多层啊,那甚至他的这个效果还比做十多层要差,所以说为什么 anix net 在 这个应该是二二年的他才做十多层, 然后得到我们的残差连接出来呢?然后我们 rex net 呢,他就是主主打这个残差连接的啊,他在这个一七年的这个啊,这个图像大赛中啊,因为现在这个大赛中 啊,他又获得了这个冠军,他远超了所有这个人类了啊,已经达到了,人类达不到的是图像识别的能力,就是因为他,他从这个时候开始人们才发现啊,真的是你这个神经网络,你越深 他效果会越好啊,要不然的话,你是做不深的,我们做了个传差连接,我们才能把它做深。好,那我们现在知道了大概是什么传差连接他的以及他的这个背景了,接下来我们看个传差连接呢,在咱们这个 transform 里面有什么应用 啊?大家都知道 transform, 你 说到底它也是一个深度学习神经网络,那你说深度学习神经网络肯定是离不开参差连接的。 好,我们在一般的那个,我们说 deep sea, 哦,不,是,我们在一般的这个 attention is all you need。 那 个最早那篇文章里面参差连接叫什么? 叫做归一化和残差连接啊?他,他啊, ad and norm 啊,那个大家如果记得的话就啊非常好啊,因为我们就不爱去翻那篇文章了啊,他就翻 ad and norm, 就是 残差连接和归一化,咱们把它放在一起了啊,那,那我们这里呢啊,我们就只讲残差连接,我们就不讲归一化,因为归一化呢,它有可能是在 pre 归一化,有可能是 post 归一化啊,那现在一般呢,就是 pre 归一化了啊,我们一般呢,但是我们的 attention 是 ouline 的, 里面讲的是 post 归一化,那我们就现在不管微化,我们就只讲残差连接。好,我们说残差连接的这里有,大家看到这个图上有两个地方用到残差连接, 那因为我们主要的就两部分嘛,一部分是一个啊, multi-soft attention, 就 这么这么个大玩意儿,好,它们激活函数是 g l u。 啊,好,我们看啊,就这么两个大玩意儿,哎,所以呢,我们这两个大玩意儿,它都是一个深度学习网络,就是说它你可以把这个全是 phone 呢看成两个啊,深度的一个层,来 一个啊,来看啊,我们每一个全是 phone 层。大家看到啊,这是每一个全是 phone 层啊,它都包括了两个,哎,这种小的啊,这个深度学习网络 啊,然后呢我们这个程序父模板层,我们这里有十二个程序父模板层,对吧?好,我们看,哎,如果我们这是一个深度学习网络的话,那就表示他必须得要用到查找连接,哎,查找连接在这里 啊,然后如果这也是,那他必须得要查找连接,哎,查找连接在这里,我们看查找连接到底怎么用的啊?我们通过看这个文字啊,可以,好,我们可以直接看到,哎,我们首先是我们这里把它转换成文字图层啊,图层之后我们输出一个向量,哎,这里, 然后呢,我们同时我们缠在连接这里,也会把这个项链一模一样的给他加上去,哎,这个就是我们缠在连接做的事情,就是这一层呢,让他 不会忘掉我们原来学了什么东西啊,然后这里也是一样的,哎,我们这个输入的时候呢,哎,我们把它一部分,把它进过去,进行一个啊,这个这个情感传播啊,然后呢接下来呢,我们就会把它 啊全连接传播,然后接下来呢,我们把它这个啊缩缩缩回七百六十八维啊,接下来我们就可以输出,哎,输出同时呢,我们首先也不能忘了存在连接,因为如果忘了的话呢,就是我们刚刚说的这个就会出问题了。 好,那我们还有在层分本里面,我们还有一个非常非常重要的一个东西,就是和原来不一样的,就是说我们这个存在连接还有个额外的作用哈, 就是说啊,我们我们这个部分呢,它是大家都知道啊,这个是在这个点击的,是在找和其他词的一个关联的啊,但是如果我们一直在找和其他词的关联的话,会出现什么问题?就比如说这个词的向量,很可能它就 只记得和其他词的关联了,它就忘了自己是什么东西了,它忘了自己它是代表 data 这个词了,那可能它就只记得啊,它和维生在这上,它有关系的,和 power 是 有关系的,和 user 是 有关系的, 但是他可能就忘了他自己是个什么意思,他都不知道自己是 data, 那 你只记得和别人关系,那有什么用呢?对吧?哎,所以咱们在这个 transform 里的传差连接呢,它的作用就是为了让他自己记得,哎,他的一个词是什么意思,所以他直接把它加到后面一层,这样的话,他就永远也不会忘记他自己是什么意思。 好,那我们大概我们普通的传送门里面的传菜连接呢?哎,就是这么个意思啊,大家已经明白了。好,那我们接下来看一看我们这个 deepsea 的 最新提出的啊,这个论文呢,它就是来解决咱们普通的传菜连接里面存在的一些问题的。 好,大家如果听了我们刚刚的讲解啊,可能会觉得有什么问题啊,这不是挺好的吗?哎,其实啊,我们一开始说的有什么问题,就在于我们传统的这个传菜连接, 他可能会出现的问题就是他通道太窄了啊,他就他就是一个向量,你把他直接加过去这一个向量,你把他直接加过去他他人家人们觉得通道太窄了,是不是我们可以把通道扩扩大一点呢? 啊?对吧?如果你把你现在像是单通道单车道的一个啊,沟通啊,如果我们把通道扩大点,是不是就可以在这个这个地方也可以学习些东西呢?啊?是不是有这种可能呢?哎,那这个呢,就是我们传统的, 大家看到这就是我们的 h c 啊,也就是这个地方啊,就是 h c。 好, 所以我们呢接下来呢,我们来讲一讲这一幅非常非常重要的一幅图啊,这个图啊,我们看到的我们传统的残差连接啊,就是这幅图啊,这个大概解释什么意思啊?就是这一层 啊,是 x l 这一层,然后呢我们啊 s l 这个是一个输入啊,我们这是一个层 layer f 是 一层啊,我们 x l 输入呢,我们就一部分,我们就直接走啊,一部分呢,我们就是 通过这个层来进行一个额外的残差的学习,他学习到的是残差,也是学习到的增量,要把这个增量呢直接加到原来直接走这个部分,然后加上去以后直接得到了啊折的一个输出,那这个呢,就是跟我们这是一样的嘛,对吧?就直接走一部分,直接走一部分学习,学习到了增量之后直接加上进行输出就是一样的。 好,那我们看接下来他怎么改进,我们传统 hc 是 怎么改进呢?刚刚说 hc 的 改进他就是目的呢?就在于我们一开始是发现了一个问题,叫做他只他只是单车道的,哎,所以大家看到这里他变成多车道,怎么看? 他这里是不是有多个这个方块啊?哎,这个多个方块的表示呢,就是多车道的意思,我们一个方块就表示他只是一个项链。大家知道啊,我们一个 token 他 是变成了一个项链在进行这个啊,我们这里已经项链化了 啊,我们这里项链化了之后呢,他才看到是七百六十八维的一个项链,我们这里不是一个单词啊,我们这里是一个项链啊,七百六十八维的一个项链啊,我们所以我把它叠叠给加上去啊,这里呢他做的事就是我们有多个项链 啊,我们把这一个项链呢,我们把它变成多个项链啊,那进行肯定是有一些这个啊,一些复杂的一个算法,我们把它变成多个项链, 然后呢我们再进行啊,就是进行这个传播,所以呢我们的目的就是我说我们要多车道,我们单车道觉得它是传播不了很多信息的啊,我们希望有个多车道,所以呢我们就把每个 token 呢,就把它变成了多个项链,也就是一个矩阵 啊,一个项链大家可以看到,比如说这样这样这样一个横的,那我们多个项链的话呢,就这样这样这样一下一下这样来,哎,这样的话就变成一个矩形,一个矩形 那,那如果我们是一个矩形的话,大家看到其实也差不多啊,我们是有三个部分的啊,就是 rest mapping, 还有 pre mapping, 还有 post map, 大家可以看到其实大体是差不多的啊,都是说,哎,我们首先不变的这个地方啊,我们直接传过去, 我们通过 rest mapping 呢,哎,我们再得到一个啊, hrest 之后呢,再直接传过去后呢?我们 pre map 屏的时候呢,我们通过这个层也要算它的增量,然后到 post mapping, 然后再传过去,它区别就在哪里呢?区别这个这个 hc 呢,它就可以表示我们 rest mapping 的 时候呢,我们可以当这一层 单独的对这个这个矩阵,这个是矩阵了哈,对这个矩阵进行修改,就说在这个层里面呀,我们还可以修改我们自己的矩阵, 但是呢,在这个啊啊,这个里面我们就不行了,不能修改,因为大家看到都是单车道直接传过去,不能修改的啊,就这么个逻辑了哈,哎,然后呢? pre mapping layer, 然后 post mapping, 这些我们待会再说,好吧,待会再说好,大家看到这里我们这两个, 哎,看来看到区别呢,其实不大啊,这就就就是区别就在于这个红色框和这个绿色框啊这个区别,那这个区红色框,绿色框的区别就在于这个加了一个 啊, pre rise, 诶,它就相当于在这个 rise 之前呢,诶,它还给你进行了一些啊,这是一些算法的一些转换,诶,这个呢,我们到时候看这个就是这篇论文提出来的主要观点啊,就是说这在你原始的 h c 上加了一些转换呢,叫 m h c 了,这 manual 的 这个 constained h c 了啊,那这个我们诶,到时候会会看。 好,我们直接来看看 ppt, 好,我们看看啊,深度学习的基石,我们这个刚刚讲过了哈,哎,我们刚刚说的公式呢,就是这个了, x l 加一等于 x l, 这个是一个向量啊,大家可以记得这个向量,输入向量呢,输出向量呢,等于输入向量,加上我们这一层学到了额外向量, 它核心优势叫恒等映射,这个看上去比较复杂,恒等映射呢,就是说啊,你这个不变啊,它就恒等映射,需要霸王型的,这个效率 好,我们说,哎,残差连接啊,也就是咱们的超连接啊,哎,叫做 s c, 它的这个看的这个 pr 啊,它是指的是一个聚合 啊,就说非常非常多维的这个向量挤成了一个矩阵,所以我们这 h pr 呢,就叫做聚合啊, h post 呢,叫做映射, h rest 呢,叫做流泪混合啊,流内混合啊,所以我们接下来它这个公式就变成了 s l 加一啊,这一新输出的一个像这样呢,就等于 h s l 加一啊,就是从这里啊,这这里直接传过来的,哎,加上我们这里 pose 直接传过来的啊,对吧,大家看到啊,这里 pose 直接传过来的 啊,啊,所以呢,这个大家看着很复杂,也没有那么复杂啊,这个就是一个啊,这边的积分啊,这个没有那么复杂的啊,所以呢啊,这个表明呢 啊,我们看了一个啊,研究表明 srest 啊,就是我们这就是咱们的啊,这个流内混合啊,它对性能提升最大,凸显了流内混合的交换重要性啊,大家看到啊,其实呢啊,这是两个图,是一样的嘛,大家看到都是图,是一样的。 好,我们已经了解过这什么意思,就不再讲了。好,那我们讲讲我们传统的, 我们这有什么问题?就是我们他肯定是有问题,他还是有问题啊,他是这个 h c 呢,是在我们传统的啊,三三年级上新改变改进的,然后我们这篇论文呢,是在这个 h c 的 基础上再进行改进的,所以 h c 肯定是有问题,这个论文肯定说 h c 的 问题,不然的话他改进什么呢?我们看看他有什么问题啊, 那问题就在于他啊,用的是哎这么一个公式啊,啊的传统的呢,用的是这么一个公式啊,他他他他就会导致什么呢? 导致他就避免啊,就是偏离了恒等硬摄,我们一开始说的我们传差连接的作用,主要目的是恒等硬摄啊,对吧?恒等硬摄呢,就是说他这个保持恒等不变性,我们就是说我们的学习的啊,增量啊和我们的恒等量啊,他是不变的,就是恒等量,他是一直在那里,哎,一直在那加,一直在那加的啊。但是呢, 如果我们用了这个公式,就是我们把它变成一个可学习的矩阵,就是说如果我们用了这个公式,让我们每一层的这个 residential 这个量呢,还能有一个增量,还能还能继续学习的话,那就会导致一个信号发散了。好,大家看到这个信号一直在发散,哎,我们看看到底什么样的这信号发散, 就像这样的啊,我们对于我们损失数据来说的话,我们直接拿数据训啊,训练数据说话。哎,如果我们这个 h c 呢,它就会在这个啊,这个,比如说,哎,这这么一万步的时候,那损失呢?落死时呢,它就突然变大啊,然后就这个导致这个训练直接就崩溃了 啊,然后呢,如果我们是经过这个改进的 mhc, 我 们到时候会讲 mhc 什么意思啊?然后呢,它就会非常好啊,这也是论文的意义嘛,要不然的话呢,它能证明什么呢?是吧?哎,所以我们看这个啊, hc 的 普通 hc 呢,它这个啊,训练的这个梯度泛数啊, 啊,梯度泛数呢,它它它它也非常不稳定,但是呢,咱们这个这个 mhc 呢,它是啊非常稳定的。哎,接下来讲讲,为什么为什么会这样呢? 好,我们看看啊,根源呢就在于,哎,它的这个复合印刷的这个增益效益啊,它是太高了。 好,我们讲讲什么是复合印刷的增益效益啊?哎,就是说,哎,我们使用了这个 imax 这个增益梯度来量化复合性印刷,如何放大信号啊?我们希望的是什么呢?希望的是在每一层里面它被这个信号被放大的,这个啊,指数是一对吧, 但是呢,我们单个 s x 层的争议已经偏离了一,大家看一在这,那么单个 s x 的 这个层的争议呢?他已经到了二或者是四的这么样的值了。所以当时当我们啊,我们有非常非常多层的时候 啊,我们比如说累积了六十层,或者累积了五十层的时候,但是这个五十层的时候,我们风值大约三千,就什么意思?就是说我们这个啊,风值的我们每一层的累积的这个梯度啊,累积的这个值啊,它已经大于了三千。那会导致了什么问题?导致的话,我们这里啊,这里这个 累积到三千的时候,我们这个 c 度它的更新它是非常非常猛的,这样一导致一下子更新非常非常大,这就导致了我们刚看到的那个 t 度的这个值啊,它一下子变得非常非常多啊,这个就是因为我们它这个 t 度它它它它它它累积的太多了 啊,这个时候它的这个这一层它累计都累积很多,它到了 t 度下降的时候,它就会下降很多,所以呢啊就会导致我们这个问题,所以我们一般希望的是每一层的它这个累计的这个信号增益啊,它就会下降很多,所以呢啊,就会导致我们这个问题,所以呢 啊,这也是我们这个 s c 的 这么一个啊啊啊,这这个问题所在啊,它会导致我们的这个啊,这个啊争议信号累积啊,争议信号一旦累积呢,它就会导致我们的这个这个信号啊,信号信号,信号信号就不稳定,就会有这么个问题。 好,哎,那我们这篇文章假解决了,怎么解决这个问题呢?哎,他就提出了一个方案,叫做 m h c r, 他 就是说将残差映色约束于流形之上,他什么意思?就是说,哎,我们想一想 原始的我们这个啊,他是他的缺点在于我们是非常准的,我们是这个啊,我们是非常非常准的,我们就说我们的这个聚合效应非常非常好,因为呢我们可以看见他就没变,对吧?那你没变,那肯定聚合效应最好的,你就一动不动就给它传过去了,传到下一层去了, 那但是这个他有什么?这个他他他有什么坏处呢?就原始的这个存在连接,他有什么坏处?就是说啊,你传输的数据通道太窄了,你是单车道的,你就单车道的传递,你别看他这个是一个方框,对吧?你一个方框,那你就是单车道的传递,那这个不太好,对吧?我们希望多车道的传递提高效率嘛, 啊,对吧?然后呢,我们在这个地方他是什么意思?他的优点呢?就在于,哎,他真提高了效率啊,他传的东西更多了啊,是吧?那就是相当于这个梯度就更明显了啊,他每一层呢,他就会更优先的,这个更更大范围的接收到上一层的梯度,就传给了他一个值。那还有个什么,就是有个什么坏处呢?坏处呢?他就在于 那刚看到了啊,我们这个啊,这个积积累积,我们累积我们的这个啊指数,哎呀,就导致了什么呢?导致了我们的这个这个梯度就会进行一个爆炸,或者是或者是梯度进行一个消失,这样的话呢,我们就没办法进行一个更新了啊,我们就没办法进行更新一个旋钮值了, 会导致这么一个问题啊,所以呢啊,就是他们各有优,哎,各有利,所以我们就想了一个折中的办法,我们就要想个折中的办法,就是说我们在控制他是多层的情况下,我们多条车道的情况下, 我们能不能限制他的七度的这么样的一个爆炸或者消失呢?哎,当然是可以的,我们这里就采用了一个,这个,我们 s s c 呢,就采用了这么一个办法啊,他就是使用了一个啊,一个算法来优化我们的这个矩阵的产生,我们来看看他是怎么优化的 啊?也就是将 hrus 约束为双,随机取证。 hrus 是 什么?就是这里 hrus 就是 这个地方啊,为什么它要约划这个呢? 就就就因为大家刚刚刚刚看到了 hrus 呢,对整个啊,这个这个系统的影响最大的啊,你不要问为什么,因为我们研究发现它是最大的,所以就是这么个地方它是最大的,反正你这一层学习到的东西 他没那么重要啊,影响最大的呢?对这个啊,这个缠在连接影响最大的呢?还是这个地方直接传过去了,这个地方他影响是最大的,所以呢,我们就是解决了这个这个这个问题了啊, 好,就是让其行和列的和均为一的非负矩阵。哎,到底什么意思?我们看这个论文里面后面写了啊,我们看这个,这个这么多公式,咱们就不讲了。 好,我们看到这里,没错,我们看这里,这里就是我们的矩阵,我们就说啊,这个矩阵就看了 h r s, 我 们这个矩阵,我们需要改变它的这个矩阵,我们的目的不就会改变 h r s 吗?我们就是这个矩阵, 对吧?我们传统的我们 h c 就是 那个会会爆炸的那个矩阵。哎,他,大家看啊,他这个裂这个行之河在这啊,裂之河呢,在这, 对吧?大家可以看到我们啊,是他这个浮动数,浮动是非常大的,比如说我们这里是六年级,对吧?我们六年级,这里是十八年级,然后这里直接变成零点几了 啊,这里变成零点几了,我们这里又变成十点二十几,然后这里变成零点几,一点几了,就变成一百二百了。我们大家看到这里的时候啊,就比如说已经累计了,累计了三十轮的时候了,我们就来六十几,我们这里累积六十轮了,直接就变成了这个五百几了,我们这两百几了,所以他的这个, 我们这跟刚刚的这个这个发现一样的哈,我们累积的三千啊,不,不,累积到啊,两百多啊,这个多多多层的时候呢,他能达到三千倍的一个扩张 啊,现在虽然没有达到三千倍吧,但是他已经是一个非常大的一个放大的个数了啊,他的行和列已经都有了非常大的放大数,就会导致什么问题呢?就当我们七度,我们下降更新到这一层的时候 啊,它会导致我们这个这更新非常非常多,就导致我们的这个 loss 值呢,就会啊,一下子它就有一点点偏离了,我们想让它每行均匀更新的,每层均匀更新的一个道理啊,所以就会导致这个出问题了,那出问题了怎么办? 哎,我们就看接下来的我们就通过了某种算法,大家可以理解为就是通过了 pm rest 这个算法啊,然后呢就相当于把这个更新了一下,大家看到这个区别呢,就在于我们多了个 pm rest 啊,就相当于我们把上面这个更新了一遍 啊,就是相当于通过算法更新了一遍,具体算法什么逻辑?到时候咱们看啊,然后把它更新了一遍啊,看,更新了一遍,哎,更新一遍之后我们看,接下来更新一遍以后,我们的目的呢,就是把它竖的列加起来等于一,横的列,横的行呢,加起来等于一,我们看横的行加起来确实等于一, 数字列呢,有时等于不等一,因为算法呢,他难以做到所有加起来都等于一吗?对吧?你说不可能真的等于,因为他做不了那么好,肯定有一些他不等于一啊,有一些什么尽量满足,哪些等于哪些不等一,尽量尽量去啊,这个越接近越好了,对吧?所以就这么这个算法 好,我们看到啊,这种算法的情况下呢,我们即使是在后面等于一等于一等于一,对吧?这里接近一,接近一接近一,我们哪怕最后最最最后啊,也只是轻微的偏离于一,轻微的偏离于一啊,就是这么个逻辑。我们通过这么一个算法呢,我们把原来的这个矩阵呀,哎, 把他的这个爆炸的这个曲线爆炸的一个这个这个这个啊矩阵我们转化成了一个不会那么爆炸的矩阵,并且更为工整的矩阵,所有的值全部在零和一之间啊,所有值都在零和一之间,大家看起来呢,就是说,哎,我们这一行,我们这个对角线上值是最大的, 其他的值呢啊,是比较小的,这样的话呢,我们就更好的能把它控制在零和一之间啊,就是最小线上值是最大的,那其他这个呢?大家看到有些莫名其妙的,这个肯定有最大,这个就最大,这个最大啊,这个我们就是啊,不希望是这个样子的。好,我们继续讲, 我们讲了什么?是这个双随机矩阵,那双随机矩阵就我们刚讲的东西,我们就不再讲了。好,那么双随机矩阵呢啊,为模型带来三个严重的一个理论属性 啊,就是啊,其实我们先讲一下三水取胜他用的算法呢,就是我们这个啊,这个这个这个非常长的算法啊,我们就啊不念了啊,所以呢他带来了什么呢啊?带来什么?第一个就是泛数保持,就是说泛水取胜的这个普泛数为有界为一 啊,这意味着啊,映射它是非扩张性的啊,有效缓解了梯度爆炸问题。就是他们刚刚说的啊,如果啊,如果你这个普泛数有界呢?他是啊, 他他他达到了咱们这样的一个二百多甚至四百多,随着这个层数越来越深,他这个完事,他这个范数呢越来越大,那那,那这样的话,直接你在这行,他就更新非常多了,就直接爆炸了,或者是直接往下就消失了,那就不行的啊,所以呢,哎,他在这个第一个,这第一个点啊,他就翻出都接近一了,那第二个点是复合 b 包型,那就双随机的集合的生成算法是封闭的啊,人保存了多层的模拟深度上保存的稳定性 啊,那这个意思呢?他就说啊,我们多层啊,印刷的时候啊,他都是啊封闭的啊,就是不会说他是新产生一些东西的啊,都是,我们还是这些东西都是根据上门层印刷下来的啊,所以呢,他不会新产生一些东西,就是这个我们逻辑 啊啊,所以呢,我们说还有一个几何解释,就是 stress 呢,印刷可以被当做是矩阵置换的凹组合啊,凸组合啊,这在数系上饱经了姓氏流之间的融合,起到一些鲁棒性的特征融合的作用 啊,这个呢啊,就是说他没那么容易受到外来的影响了哈啊,就这么个逻辑,他并不并不会很容易受到外来的影响,因为他有一个算法存在,算法呢,他就会把这个啊,某一些优势啊劣势啊融合在一起,所以这是这个乳乳光性比较强,就看刚柔性啊,这个比较强的这么个逻辑。 好,我们来看看最近最后的这个结果啊啊啊,我们看看结果哎,就比如说单层印刷的时候啊,由于这个啊,这个算法它的携带次数有限,单层印刷的争议,会争议呢,会略偏于一,但始终受控的。 大家看到啊啊,我们刚刚我们这也看得出来啊,它它会略偏于一的,但是它这个争议会略偏于一,但它它它始终是受控的,对吧?但它不会是很差 啊,在复合情况下偏差虽然人人增加啊,复合的情况下,你比如说单层的情况下,它是一般都是一的啊,但是如果是多层的,比如说我们这里有一个啊,累加号了啊,我们这里有个累加号的话呢,哎,它它虽然是有偏差的,但是呢最大是约点一点六,它也不会像原来那样偏差,直接偏差到五百 多的这个情况了啊,也不会了,直接偏差了,非常非常的三千倍啊,不会这么偏差的。所以呢 mcs 声音呢,成功的向信号的增益,它就控制到了 啊范围内,这样就稳定了前向传播和后向反向传播的一个信号流,就不会导致前向传播。在访问这一行啊,这一列的数字的时候啊,它就会导致我们非常非常大的偏差啊,那我们不会在访问传播行,访问这一行的时候,我们也不会导致非常非常大的偏差,就这么个逻辑啊, 好啊,大家可以看到啊,我们啊观察出来的这个值呢,就是说 h c 的 话呢啊,它是非常非常啊,这个没有没有没有什么逻辑性的, 但是我们的 m h c 呢,它更多的是对角线上啊,是接近一的啊,证明呢是约束有效期。大家可以看到啊,这个呢啊,这个看起来可能不明显,但是可能如果我们在这个大规模的数据之下还可以明显的看到的话,它这个 m h c 呢,它是导致对角线,它是持续偏大的,这刚讲过了, 好,接下来呢,我们来看看它的这个啊,性能表现就是 performance, 我 们看啊,我们这这里呢啊,直接可以通过咱们的,哎,这个它这里有 manage, 我 们这通过的 manage 也看得到了, 好,我们就看全是 loss 吧, loss gap 呢,我们看 m h c 呢,它的 loss gap 呢?远远它是要基于这个普通的 h c 的 baseline, 它是在这里零啊,然后我们的这个 h c 呢,它远远是要更多的,所以我们 h h c 呢啊是有改进的,大家可以看到是有改进的。 然后呢我们看到这个啊, t 度啊, t 度归一化, t 度归一化的 t 度呢,我们看到我们 m h c 呢,是这么一个值啊, h c 呢,这个值明显看到它是稳定性高很多的,对吧?我们 m m h c 呢,它就一直在这里,在这这个这个上下跳啊,我们越稳定我们说它越好啊,就是这么个逻辑 好,接下来呢,我们是一个这个跑 benchmark 的 方式呢,哎,我们来看一看 啊,这个用不同种类训练的,你比如说 bassline 啊,或者是啊 with 这个 hc 啊,或者是 with 这个 mgs 啊,他们这个跑奔驰 mark 得到了训练出来的模型的这么样的一个结果。我们看到啊,我有一种 msc 训练出来的呢模型的这个结果,我们看呢,都是 远远超了,也不能说远超吧,都是更高的啊,也超了,超了也不多啊,但是就是就就是更高的啊,这唯一就是这么一个东西,他是在一个数学领域可能是更低一点,其他的呢,无论是在推理啊,你看这推理啊,包括这个通识啊啊,这些的啊,都都会更高, 大家也不会高很多哈啊,因为毕竟他只是改了一个小训练方法嘛,我们看别的好,所以呢,我们这里呢,这个这个刚刚我们就看过了啊,这个我们就不看了 啊,啊,所以呢,我们看到 m h c 呢,它是有效的缓解了 h c 的 训练不稳定性啊,实现了比基线模型低零点零二一的一个计算损失。我们 h c m h c 呢,它的 loss 呢?啊,是这样的啊,那我们 h c 的 loss 是 这样的,我们 m h c 的 loss 呢,就更更加低了 啊,我们还有一个梯度呢,我们就就明显就更平缓啊,这么多加这个呢,我们是看过的 好,我们说在这个啊,数据扩展和这个计算扩展领域呢啊,他对于不同的,我们这刚也在初步论文中看过了啊,对,比如说三万九币,二十七币啊,都都都是有这个优势的。好,我们包括我们 啊,三 b 训练过程中的状态啊, mac 随着优势随着训练数据量的增加而持续。这个呢,我们是知道的啊,就是随着训训练数据量就是你给他喂的这个海量数据做的越多呢,哎,他反而 mac 的 效果呢就会越明显。这么个逻辑。 好,那接下来呢,我们有个问题啊,就是说我们如果我们设计了 n 个通道,那会导致什么问题?我们 n 个通道的话,会导致我们有一个内存访问和一个通信的一个成本, 对吧?啊?我们 n 残 n 流残渣会啊,因为什么呢?因为我们本来是单个通道,你传过去传到下一层嘛?如果我们现在是一个 m o e 模型的话,那我们可能会把这个不同的层呢?哎,它分配到不同的 g p o 上, 那如果这个时候你需要把这个我们一个向量啊传播到下一层,可能就在下个 g p o 了,那这个时候呢,你会无形的增加这个通信成本。 那为什么还会有内存成本呢?因为你这个存的东西多了吗?那你存的东西肯定有多了吗?你存的东西一多,那那那那那,那你不只有内存成本吗?你们知道你这个东西都要存到这个显存里面的,对吧?哎,所以这个你如果你是用 n 个啊,这个矩阵的形式来说的话呢,它就会无形的增加这个内存成本成本和通信成本 啊,那会他会起起也,也也那个,有一个三种这个方法来节省这个额外开销,比如说啊基础设施优化将额外开销降至百分之六点七,他能只用百分之六点七的额外开销就能实现我们刚刚说的各种各样的优势 啊。那这三种优势呢?我们看看是什么意思啊?就是内核融合,你比如说一种这个特殊算法,或者说特殊了一个包啊,那个算算法包啊,来把我们的将我们的比如说共享内存访问操作,如这个啊, resno 啊,全乘法呀和 sigma 的 这种激活函数啊,融合成统一的计算内核啊,就是启动开销就减少了,包括重计 算。就是说我们反向传播中啊,不是我们把那个中心键的存储起来啊,因为如果我们存储起来会增加内存成本,所以呢,他就是想来访问的时候临时来计算 啊,这个这个这个就就就就拿这个算力来换成本吧。因为他觉得就是现在咱们算力啊,反正是够的,而是我们的内存不那么够,所以他就选择换算力换成本。所以的话呢,我们就需要更需要去用一些, 比如说算力大,而内存可能没那么大的 gpu, 比如说 h 一 百,而不是说咱们内存大,算力不那么大 gpu, 比如说 h 二零,就这么逻辑了。哈, 好,那我们在这看的就是一个双管道中的通信重重叠,就比如说扩展了这个双 pipe 调度啊,也更好的啊,扩展由 n 六的额外计算和通信开销,我们就通信开销呢,它可以进一个重叠来优化咱们不同 gpu 的 通信开销 好,所以呢,通过这些优化呢,我们在啊 m h c 的 n 点四的大规模训练中,仅引入了 m a 六点七的额外时间开销啊,是这么个逻辑 好,我们看看结论啊,就是说无约束的超连 t h h c 呢,它会因为发散而导致训练不稳定,所以呢,直接提出了 m h c 通过将残差连接空间到双投影到双起正,还恢复了恒等因素关系的属性, m h c 实现了稳定的规模化训练。卓越型和忽略的这个计算开销其实也不是可忽略,反正就很腻心嘛,是吧啊,对一般来说是需要考虑一下的啊啊,那展望性的话 啊,我们说 mac 框架允许探索为特定学习目标定制更多样化的隐形元素啊,我们希望呢, mac 能够激发社区对宏观架构设计的兴趣啊,最终愿景这项工作可能成为下一代基础架构的眼镜,或者是指明一个方向。 好,那以上呢,就是咱们这期啊论文的全部内容啊,就是这啊,这个论文主要呢还是在于啊带大家去看了一下啊,什么是传统的藏拆藏拆连接 啊,可能大家平时呢只对啊咱们的这个啊全方面里面的两部分,尤其第一部分呢,就是咱们的啊这个多头注意力,还有一部分呢,是咱们的情感传播 啊,就是或者是咱们这个全链阶层比较了解啊,那但是呢,我们啊现在呢就提出了,其实呢,我们的这个财产连接也是非常重要的,特别是从咱们的啊这个啊 呃,这个 restnight 开始呢,他就一直在用全传菜连接,因为如果不传菜连接的话呢啊,我们这个梯度直接消失或者梯度爆炸的啊,啊,所以就这么个逻辑 啊,所以这张最重要的图呢,就是这个啊,我们表示了从一开始的传菜连接,哎,我们到现在有些人在优化了这么一个 h c 啊,但是 h c 它也有问题,对吧,它会导致我们梯度消失,梯度爆炸,哎,所以呢,我们这个时候找了一个 m h c m h c 它就会起到了一个作用呢,就是说我们可以更好的啊,去解决找一个折东的方案,解决了他两个的缺点啊,并且呢这一个解决了额外的通信开销和跟内存占用的一个问题 啊,那啊,感谢 d b c 一个团队提出了这个论文啊,也是非常非常重要的一篇论文,希望能为为我们未来这个 ai 的 这个啊大模型的发展提供一些帮助。 那以下呢就是本期视频的全部内容,如果大家觉得有帮助的话,欢迎给我点个三连,下期呢我会给大家带来更多 ai 全站,包括芯片呀,算法呀,或者是模型呀,或者是应用啊, ai 智能开发呀等等等等一系列的 ai 相关的知识,或者是商业之类的知识,我也可以给大家进行分享啊,那如果感兴趣的话,欢迎点个关注,咱们下期再见,拜拜。

大家好,欢迎来到 deepseek 简 ai 的 技术分享。今天我们要深入探讨一种兼顾性能、稳定性和效率的新一代神经网络架构。流行约束超连接,简称 mhc。 在 大模型不断演进的今天,我们提出的这一通用框架只在解决复杂连接带来的不稳定性, 为基础模型的拓扑结构设计揭示了全新的未来方向。首先让我们回顾一下神经网络连接范式的演进历程。 过去十年,残差连接 residual connection 凭借其简单有效的恒等映射属性,成为了深度学习的基石。 近期,超连接 hyper 碱 connections hcmc 方案只在充分利用 hc 强大能力的同时,通过恢复理论上的稳定性,实现了性能与稳定的两全其美。 超连接架构 h c 实际上是一把双刃剑,它的承诺非常诱人,能在不显著增加主要计算量 flops 的 前提下,通过增加拓扑复杂性大幅提升模型潜力。 但其风险同样巨大。由于引入了无约束的可学习硬射矩阵,它从根本上破坏了确保深度网络稳定性的恒等硬射属性。这就像拆掉了大楼的承重墙,随时可能导致训练失控。 这种风险并非理论猜测,而是真实存在的。我们在训练二十七 b 参数模型时,发现 h c 架构在十二 k 部左右出现了训练崩塌。深入诊断后,我们震惊地发现,由于缺乏约束信号在网络层间的最大增益幅度 a max gain 竟然高达三千倍。 这种剧烈的信号爆炸和梯度异常直接扼杀了模型的训练过程,证明了无约束连接的不可行性。 除了算法层面的不稳定性, h c 还面临着被忽视的代价。系统及瓶颈加宽的 n 流残差设计使得内存访问成本与扩展倍数 n 成正比增长,导致了严重的内存强问题。 同时,大量的中间激活值不仅占用了宝贵的显存,还在流水线运行中成倍增加了通信成本,产生了更大的气泡, 从而显著降低了整体的训练吞吐量。面对这些挑战,我们提出了 mhc 解决方案。我们的核心洞察是不要因噎费时地移除强大的混合矩阵,而是对其进行流行约束。 我们将原本无约束的残差连接空间投影到一个特定的流行上,即 burkoff 多胞体,这样矩阵就被强制约束为双随机矩阵。 这一改变既保留了 h c 的 性能优势,又重塑了深度网络的稳定性。为什么选择双随机矩阵?它是大规模训练的理论基石? 第一,它的普范数受限,具有非扩张性,能,有效防止梯度爆炸。第二,它在乘法运算下是封闭的,这意味着无论网络多深, 复合后的映射仍然保持稳定。第三,在几何上,它可以被视为置换矩阵的凸组合,这本质上提供了一种鲁棒且高效的特征融合机制。 那么,我们在工程上如何实现这种数学约束呢?过程分为三步,首先生成无约束的原始映射,然后应用 sinon 减 nop 算法。这是一个交替归一化行和列的迭代过程,能将任意非负矩阵高效地转换为双随机矩阵。 在我们的实验中,仅需二十次迭代就能将混乱的参数转化为稳定,引导信息流的最终映射。为了实现极致效率,我们还进行了严密的系统级优化。 在计算上,利用梯列烂进行和函数融合,以打破待宽瓶颈。在内存上,采用选择性重计算,大幅削减显存占用。在通信上,通过扩展 doope 调度实现计算与通信的完美重叠。 最终,即使在扩展倍数为四的情况下, mhc 仅带来了百分之六点七塞的额外训练时间开销,使得大规模应用成为可能。让我们看看实际效果。 验证一, mhc 成功抑制了信号发散。对比图表可以看到, hc 的 信号增益高达三千倍,呈现指数级爆炸,而 mhc 将这一指标严格限制在一点六倍左右。 这三个数量级的巨大差异确立了 m h c 在 深层网络传播中的绝对稳定性,让深层模型的训练如履平地。验证二,在性能表现上, m h c 在 多个精准测试中取得了全面领先。 在二十七 b 模型规模下,它不仅稳定地优于基线模型,更超越了不稳定的 h c 模型。特别是在 b、 b、 h 和 drop 等需要复杂推理能力的任务上, m h c 分 别取得了多百分之二点一和百分之二点三度的显著提升, 证明了其在提升模型智力方面的有效性。验证三,这种性能优势具备极强的鲁棒性, 无论是在从三 b 到二十七 b 的 参数规模扩展 compute scaling 中,还是在长达一万亿 token 的 数据量扩展 token scaling 中, mhc 相对于基线的性能优势都始终如一。这说明 mhc 不 仅仅是一个针对特定模型的技巧,而是一个可以伴随模型规模增长的通用架构方案。 为了直观感受这种差异,我们将学习到的矩阵进行了可视化。大家看,上方 h c 的 矩阵数值剧烈波动,充满了极端的行和列合,显得非常混乱。 而下方对应的 mhc 矩阵则更加平衡,呈现出近似对角占优的形态,且形裂核都接近于一。这种模糊的置换矩阵结构正是我们追求的稳定与表达力的完美平衡。总结来说, mhc 为下一代基础模型铺平了道路, 它不仅解决了超连接架构中关键的不稳定性和低效率问题,还实现了卓越的性能和可扩展性。通过严谨的软硬件协调设计, m h c 成功地将复杂拓扑的表达能力与残差学习的稳定性结合在了一起, 是一个开销极小且实用的高效解决方案。最后,展望未来, m h c 只是一个开始,它证明了流行约束在神经网络设计中的巨大潜力。 我们相信,探索超越双随机矩阵的其他几何约束将为宏观架构设计开辟新途径。 mhc 代表了基础模型架构演进中的重要一步。欢迎大家扫描屏幕上的二维码,阅读完整论文,与我们共同探索这一激动人心的领域。

deepsea 新年第一站,就在今天,一项可能彻底改变大模型游戏规则的技术发布了。它无关更大的数据,也无关更多的芯片, 而是对 ai 的 大脑接线图进行了一次基因层面的改造。这项技术名为 mhc, 由深度求索团队研发。它解决了一个困扰所有大模型公司的绝症, 模型越大越容易精神错乱,要么训练崩溃,要么效果不稳定。你可以把今天的 ai 大 模型想象成一座超级城市的大脑内部有无数条信息。高速公路 过去的核心技术及残拆网络,相当于在每条高速上设置了一个固定的收费站,让信息勉强通过。这项技术已沿用十年,功不可没。但现在城市规模变得极其庞大,信息流是过去的成千上万倍, 仅靠一个狭窄的收费站完全堵死了,成了最大的瓶颈。怎么办?一个直接的想法是 多修几个收费站,多开几条通道。之前的 h c 架构就是这么做的,但结果更糟了,新通道虽然多了,却没有红绿灯和限速。信息流在各个通道里乱窜,有的被疯狂放大,有的莫名消失。这好比声音进入劣质喇叭,刺耳失真, 训练时梯度要么爆炸,要么归零,根本进行不下去。问题的根源找到了。我们既要拓展道路,增加模型容量,又必须有一套绝对精准的交通规则, 来确保信息流平稳守恒。 mhc 的 厉害之处就在于,他发现了这套完美的数学交通法则。 他要求所有信息通道构成的调控中心,必须是一个双随机矩阵。这个词听起来有点唬人,说人话就是他构建了一个绝对公平、不增不减的智能路口。想像一个十字路口,东西南北四个方向都有来车,他的规则霸道而完美, 一,从东面来的车必须全部开走,去西南北一辆不许剩。二,要去西面的车,必须全部有来源,来自东南北 一辆不能多。结果呢?这个路口既不凭空造车,也不吞车,车流总量永恒不变。他做的是在多个车道之间,用最聪明、最平滑的方式进行柔性调度和智能拼车, 让信息融合的既充分又稳当。这套数学规则一上,效果立竿见影。第一,根直爆炸消失病因为规则锁死了信息总量,所以无论网络见多深,一百层、一千层,信号都像在光纤里传输一样稳定,实测数据惊人, 老方案下信号能暴涨三千倍,用了 mhc 则被死死按在一点六倍,从烟花表演变成了静水深流。 第二,稳如磐石。可遗传更妙的是,这个稳定基因能遗传一个这样的路口,稳,一千个这样的路口串起来,整个城市交通网还是稳,稳定成了整个系统的底层属性。第三, 融合质量质变。这相当于让路口在无数种调度方案里,自动找到最顺畅、最合理的那一种。他输出的不是信息大杂烩,而是特征有机鸡尾酒。你可能会问,这么复杂的数学规则,算起来不得慢到死?这就是深度求索团队更厉害的地方, 他们把工程优化玩到了极致。他们用一种叫 sinclair 迭代的神奇算法,高效实现了这个规则,还专门为他写了好几个直接刻进显卡里的交规执行芯片,快如闪电。更绝的是,他们改造了训练超大规模模型的 doope 高铁调度系统, 让计算和通信严丝合缝,把额外开销压缩到可以忽略不计。那最终成绩单怎么样?炸裂?在两百七十亿参数的模型上,综合能力直接提升百分之一点三五。 在顶级模型的比拼里,这就向百米跑成绩提高了零点一秒,是碾压级的优势。在最烧脑的复杂推理任务上, 比如 b b h drop 提升超过百分之二,这说明它真的让模型更聪明。而达成这一切付出的代价仅仅是训练时间多了不到百分之七,同时还省了百分之四十的显存,性价比高到离谱。 所以, m h c 到底是什么?它并非在旧发动机上简单增压,而是为下一代 ai 重新设计了最底层的数学心脏与信息循环系统。 他向我们揭示, ai 的 下一场竞赛,不只是力气火堆算力,更是脑子火拼架构灵感。 他用一个四两拨千斤的数学洞察,完成了一次对传统方法的温和降维打击。二零二六年开年, ai 的 底层游戏规则可能就此改变。我是探秘哥,关注我,带你穿透迷雾,看懂真正的技术革命!

咱们直接来看这篇工作, manifold constrained hyper connections, 简称 mhc, 它试图解决一个在超连接 hc 中出现的问题,同时保持其性能优势。 大家都知道,残差连接是深度学习的基石之一,简单有效。核心就是那个恒等映射,让信息能顺畅地从浅层传到深层,不容易梯度消失或爆炸。 公式一和二就是这个意思。后来为了追求更好的性能,有人提出了超连接 h c, 想法挺巧妙,把残差流搞宽了,还加了几个可学习的矩阵, h hell pre h hell post 来管理这些流。你看图一 b, 结构一下子复杂起来了, 理论上这应该能让信息交换更充分。但问题也来了,这些可学习的矩阵打破了原来那个完美的恒等映射,导致训练起来特别不稳定,尤其是在模型变身的时候,简直是灾难。而且别忘了还有系统开销的问题,我们后面会细说。 为什么 h c 不 稳定呢?关键就在于这个复合硬设,就是把所有层的 h l 撑起来的那一坨。在原始的残差连接里,每一层都相当于成了个单位矩阵, i 撑起来还是 i, 信号强度不变。 但在 h c 里,这些 h r s 是 随便学的,它们撑起来的结果就可能不再是单位矩阵了,甚至可能变得非常大或者非常小。 这就导致信号在深层网络里要么指数级放大,要么指数级衰减,训练过程自然就炸了。图二 a 就 直观的展示了这一点, h c 的 损失曲线在某个阶段突然飙升,而 m h c 就 稳多了。再看图三 b, 这是计算增益的最大值,能飙到三千,这说明信号真的被放大了三千倍。这还怎么训? t 度肯定也跟着炸了。 除了训练不稳定, h c 还有个让人头疼的问题,就是系统开销太大。你想啊,本来一条路的事,现在搞成 n 条路并行,虽然理论上计算量 flops 不 一定增加太多,但内存访问次数 i o 却暴增了。 你看表二, h c 的 读写操作都跟 n 挂钩, n 越大,访问次数越多,训练速度自然就慢下来了。而且那些 hell rest, hell pre, hell post 矩阵本身也是参数,它们的中间结果也需要保存下来做反向传播,这又占用了大量的 gpu 内存。有时候内存不够用,还得用梯度检查点这种技术,牺牲一些计算效率来换内存。 最后,在大规模分布式训练中,流水并行是常用手段,但 h c 需要在不同阶段之间传递更多的数据,通信成本也跟着 n 倍增长,这都会拖慢整个训练速度。所以 h c 虽然想法好,但落地困难重重。 面对 h c 的 这些问题,这篇论文提出了 m h c 全称是 manifold constrained hyper connections, 顾名思义,就是给 h c 的 超连接加上了约束。 这个约束不是随便加的,而是加在一个特定的数学空间上,叫做流行。具体来说,就是把那个捣乱的 h l s 矩阵强制要求它必须是一个双随机矩阵。 什么是双随机矩阵?简单说就是个方阵,所有元素都是非负的,而且每一行加起来等于一,每一列也加起来等于一, 这有什么好处呢?首先,它保证了 hell rest x l 是 对输入特征的一个突组合,不会凭空产生新的信息,也不会丢失信息总量。这就像是在 n 个流之间进行公平的分配和混合,而不是让某些流无限放大。而且当扩展率 n 等于一时,这个双随机条件就自动退化成了最简单的单位矩阵,完美兼容了原始的残差连接。妙啊! 为什么选择双随机矩阵作为约束呢?因为它有非常好的数学性质。第一,泛数保持双随机矩阵的普泛数最大,其一值永远不会超过一,这意味着它不会放大信号,从根本上抑制了梯度爆炸的风险。 第二,组合封闭性。如果你把两个双随机矩阵撑起来,得到的新矩阵仍然是双随机的,这太重要了,意味着即使经过很多层的 h loss 作用,它们的乘积仍然满足双随机条件,稳定性可以一直维持下去,不会像 h c 那 样越积越多。问题 第三,几何上看,双随机矩阵集合构成了一个叫做 birkoff 多面体的空间,它是所有置换矩阵的秃包。你可以想象, horace 的 作用就像是在不断地打乱和重新组合 n 个流的信息,而且是以一种受控的方式。这其实是一种非常强大的特征融合机制。 最后,作者还对另外两个矩阵 h 和 pre 和 h 和 post 加上了非复约束,避免政府系数混在一起,导致信号互相抵消。这也是个好主意。 理论讲完了,那具体怎么实现呢? mhc 的 参数生成方式跟 hc 很 像,先把输入展屏,然后通过一些现行变换和可学习的门控因子 alpha 得到三个未约束的矩阵, h t o 调 pre, h t o 调 post, h t o d l res。 关键的一步来了,投影。 对于 hellpre 和 hellpost, 用 sigmon 的 函数把它们压缩到零到一之间,再稍微调整一下尺度。而对于最重要的 hls, 就 要用 sigon konop 算法了。这个算法的作用就是把一个任意的正矩阵通过不断地对形和列进行归一化处理,最终变成一个双随机矩阵。 你可以把它想象成一个迭代的洗牌过程,确保最后得到的矩阵满足形合为一,列合为一的条件。实践中,迭代次数 t max 取二十次左右,既能保证效果,又不会太慢。 前面说了, hc 的 主要问题之一是系统开销大。 mhc 虽然解决了稳定性问题,但如果实现不好,效率也可能跟不上, 所以作者在基础设施层面也下了不少功夫。他们的目标很明确,既要享受 mhc 带来的稳定性和性能提升,又要尽量减少额外的计算开销。他们用了三大法宝,内核融合、重计算和 doopipe。 通信优化 最终的效果怎么样呢?据说在扩展率 n 等于四的情况下, m h c 相比机械模型只增加了大约百分之六点七的训练时间,这个数字相当可观了,说明优化做得还是不错的。 第一个优化手段是内核融合。你想啊, m h c 里面涉及到很多矩阵运算和激活函数,如果每个操作都单独调用一个 cu 大 核,那开销肯定不小。 特别是那个 rms nom, 作用在高维的展屏向量 x l 上本来就很耗时,所以作者就把相关的操作打包在一起,设计了几个高度优化的自定义内核。比如计算 l pre 和 l post 的 那个内核,就把两个扫描操作合并了,充分利用 gpu 的 矩阵乘法单元,还用了混合精度来加速 那个计算。 h l r s 的 synchop 迭代也放在一个内核里,完成反向传播时,更是自定义了内核,直接在芯片上重算中间结果,避免了重复加载数据。 最后,应用这些矩阵的那个内核也巧妙地把 h l r s 和 hell post 的 应用以及残差合并一步到位,大大减少了内存读写量。它们还用了一个叫 tellyn 的 工具来简化这些复杂内核的编写,效率很高。 第二个优化是重计算,还记得前面说的吗? h c 因为多了很多中间激活值,需要保存来做反向传播,所以内存占用很大。 m h c 也面临这个问题,怎么办呢?一个经典的技巧就是重计算。 简单说就是在前向传播的时候,把那些中间结果先扔掉,等到反向传播需要的时候,再重新跑一遍对应的计算得到它。这样做的好处是前向传播时内存占用大大减少,当然,代价是反向传播时要多做一些计算。作者在这里也做了优化,他们不是对每一层都重计算,而是对连续 l r 层构成一个块进行重计算, 这样只需要保存每个块,第一个输入 x l 零就行了。那么这个块大小 lr 怎么定呢?他们推导了一个最优公式,大概是模型总层数 l 和扩展率 n 的 平方根相关。当然,实际操作中还要考虑流水并行的边界,不能让重计算块跨过阶段。 第三个油画是针对流水并行的。在训练超大模型时,我们通常会把模型分成多个阶段放在不同的设备上,这就是流水并行多 pipe 是 一种很流行的调度策略,能很好地重叠通信和计算。但是, mhc 的 n 流设计和重计算机制给它带来了新的挑战。 n 流意味着在阶段之间传递的数据量更大了,通信延迟会增加,而重计算呢,又会在阶段边界处引入额外的计算开销。为了解决这些问题,作者对 dual pipe 进行了扩展。你看图四,它们采取了一些措施,比如在 m l p 层执行某些计算时,使用高优先级的计算流,确保这些计算不会阻塞通信。 在注意力层,避免使用持久化内核,这样可以更灵活地抢占计算资源来重叠通信。最关键的是,由于每个阶段的初始输入 x l 零已经缓存好了,所以重计算的过程是可以独立于流水线通信的,这就大大提高了整体的运行效率。 理论和优化都讲完了,是骡子是马,得拉出来遛遛。作者在语言模型预训练任务上做了实验。他们基于 deepsea v 三的架构训练了三 b、 九 b 和二十七 b 三个规模的模型, 对比对象包括标准的残差、连接 b, s, l 之前的 h c 方法,以及他们提出的 m, h, c。 主要关注的是二十七 b 这个最大的模型,因为它更能体现方法的可扩展性,同时也用三 b 和九 b 模型来分析计算扩展性,并且单独训练了一个三 b 模型,在一万亿 token 的 数据集上,看看 token 扩展性如何。 具体的模型配置和超参数大家可以参考副路里的详细表格。我们来看最重要的结果,训练稳定性。图五 a 显示的是损失曲线, 可以看到 mhc 的 损失曲线非常平稳,几乎没有波动,最终的损失值比贝斯兰还要低一点点。而 hc 呢, 它的损失曲线明显不稳定,尤其是在后期,波动很大。这再次印证了我们之前的分析。再看图五 b t 度泛数 mhc 的 梯度泛数跟 b 斯兰一样,都非常稳定,而且数值也比较小,说明训练过程很健康。而 hc 的 梯度泛数又开始作妖了,波动剧烈,数值也偏大, 这充分说明 mhc 确实有效地解决了 hc 的 稳定性问题,让训练过程更加可控和高效。稳定性好了,性能怎么样呢?作者在八个不同的下游任务上测试了模型的表现,包括常识、推理、问答例解、数学题等等。 结果怎么样呢?请看表四,可以看到, mhc 在 所有任务上都比 b s 烂要好,而且在大多数任务上也超过了 hc, 这说明 mhc 不 仅稳定,还能带来实实在在的性能提升。 特别值得注意的是,在 b b、 h 和 d r、 p 这两个任务上, m h c 相比 h c 分 别提升了百分之二点一和百分之二点三,这说明 m h c 在 增强模型的推理能力方面可能更有优势。这真是个好消息,稳定性提升了,性能还更好了。 一个好的方法,不仅要能在当前规模下表现好,还要能随着模型和数据规模的扩大而持续有效,这就是所谓的扩展性。作者考察了两种扩展性,计算扩展性和 token 扩展性。图六 a 显示的是计算扩展性,横轴是总的计算量 f l o p s, 纵轴是 m h c。 相对于被 slam 的 损失改进。 可以看到,随着计算量从三 b 到九 b 再到二十七 b 增加, m h c 的 优势一直保持的很好,只是有一点点衰减,这说明它的性能提升不是昙花一现。 图六 b 是 token 扩展性,展示了一个三 b 模型在不同训练数据量下的表现。 m h c 的 性能随着训练数据的增加而稳步提升,这符合我们对大模型的预期。综合来看, m h c 在 不同规模下都展现出了良好的扩展性。 为了更深入地理解 m h c 为什么稳定,作者又做了一些传播特性的分析。图七 a 展示了单层的增益情况,理想情况下, m h c 的 增益应该严格等于一,但因为 think hong knop 算法需要有限迭代次数,所以实际结果会稍微偏离一点,大概在零点九到一点一之间波动。 图七 b 是 复合射的增益,也就是经过多层之后的总增益。可以看到,虽然偏离一的程度有所增加,但最大值也才到一点六左右,非常接近一,这跟之前 h c 的 三千相比,简直是天壤之别。 这再次证明了 m h c 通过约束成功的将信号传播的稳定性提升到了一个全新的水平,无论是前向传播还是反向传播,都能保持在一个非常健康的范围内。 最后我们来看一下这些可学习矩阵长什么样。图八,把这些矩阵格式化了,颜色越深表示数值越大,上面一行是 h c 的, 下面一行是 m h c 的。 仔细看 h c 的 矩阵,当某个位置的值特别大,导致增益很高的时候,其他位置的值往往也比较大,这说明整个传播过程都是不稳定的。 而再看 mhc 的 矩阵,颜色分布就非常均匀,绝大多数值都集中在零附近,只有少数几个位置接近。一,这正是双随机矩阵的特征,也表明 mhc 的 传播过程是高度稳定和可控的。这种视觉上的对比,再次强化了我们之前的结论, mhc 在 保持性能的同时,极大地提升了训练的稳定性。 总结一下这篇工作,提出了 mhc 通过一个巧妙的数学约束,双随机矩阵成功地解决了超连接 hc 在 训练稳定性上的核心问题。 它既保留了 hc 拓扑结构带来的性能优势,又通过一系列高效的工程优化,将额外的计算开销控制在很小的范围内。更重要的是,它为我们提供了一个新的视角,去思考如何在保持网络稳定性的前提下设计出更强大、更有效的网络结构。 这不仅仅是对 hc 的 一个改进,更是对未来基础模型架构设计的一种启发。希望未来能看到更多类似的工作,推动我们对网络拓扑结构的理解更进一步。


太卷了, deepsea 又开始在假期里放大招了。二六年元旦的第一天, deepsea 就 带来了他们在大模型架构上的一大创新,梁文峰再次出现在了作者栏, 这一次是用一个叫做流行约束超连接的组建来解决目前大模型在 skyline 道路上的棘手难题。 而更加值得关注的是这一次的工程优化, deepsea 没有在依赖英伟达的库达架构,而是采用了来自北大计算机系的开源框架 terilun 来进行绝大部分融合算子的开发。 而关于 terilun 呢,我们在 deepsea v 三点二版本的视频里介绍过,你可以将它理解为 deepsea 模型接下来要适配和迁移到国产算力上的一座重要桥梁。 这同时也意味着 deepsea 这一次提出的架构创新可以无缝适配到深腾、海光、韩五 g 等这些已经兼容它要烂的国产算类平台上。要讲清楚流行约束超连接的概念呢,我们还得先回溯一下它的两个前身,残差连接和超连接。 开篇的时候,我们已经提到了目前大模型在训练稳定性和内存开销上存在普遍的痛点,也就是说,我们在让模型的结构越来越复杂和性能越强的同时,却不得不牺牲训练过程当中的稳定性和计算效率。 而这个问题之所以存在呢,就在于 transformer 架构当中的核心组建残差连接,它是目前业界为了确保神经网络能够进行深度拓展的同时保持训练稳定性的主流方向。 他就像一条信息高速公路,能够让信息无损的传递到下一层的神经网络上,而为了进一步突破传统残差连接的性能呢?超连接的概念在最近几年开始流行起来, 他相当于将信息传递的高速公路宽,从而允许多条线路并行,并让他们之间通过一个可以学习的矩阵来自由组合控制信息的交换。那这种方法呢,确实能够提升模型的表达能力,但也同时带来了两个致命的瓶颈, 一个是训练的稳定性崩塌,也就是训练中常见的由于梯度的爆炸和消失而导致信号传达失控,模型收敛失败。第二个问题呢,便是硬件效率的拉垮, 加宽的通信道路会直接导致内存访问的成本急剧增加,同时也会加速训练过程当中的通信延时,从而导致模型吞吐量的明显下降。那么针对这样的问题呢, deepsea 提出了一种新的超连接组建, 他们的核心思想啊,非常巧妙,就是与其完全开放道路,不如把他们约束起来,也就是用一种流行约束来确保模型训练的稳定性,同时用硬件级的优化来提升效率。 首先,为了解决稳定性,他们强制要求用于信息混合的矩阵必须属于一个特定的数学集合,也就是流行双向矩阵。 而这里的 memfud, 也就是流行啊,是一个数学空间的概念,它指的是啊,双向随机矩阵的集合。换句话说呢, deepsea 就是 将原来可以自由发散的参数矩阵通过算法强制投影并锁定到这个流行空间里面,使其成为一个合规的双随机矩阵。 而这里的特定算法就是论文中提到的 signal knob 算法,从而让信息的交互过程中不产生信号的抵消。 其次呢,为了解决系统开销的问题,论文还进行了一系列底层的工程优化来将额外的内存开销降到最低,比如基于贪婪框架的算子融合、混合精度选择性重计算、通信计算重叠等等, 使得这个超连接在实际训练中只带来了约百分之六点七的额外时间开销。从实验数据来看呢,二十七 b 参数的流行约束超连接模型在常识推理、代码数学等任务上全面碾压了机械模型,并且训练过程当中极其平稳, 而且这样的优越性还体现在三 b、 九 b 的 不同尺度模型上,也就证明了这样一套算法是具备多模型的拓展能力的。 整体而言,这一次的创新成果延续了 deepsea 惯用更少的资源做大模型的技术风格,为优化超连接的约束提供了新的思路。 更重要的是,从这一次的创新架构里我们可以看到, deepsea 现在会更看重对国产硬件的特性适配和兼容, 那么这不仅是从模型公司层面来为我们国产炫丽的性能提升提供动力,同时也是国产模型和国产炫丽融合创新的重要一步。我是思远, ai 不 伤脑,茶歇刚刚好,关注我, ai 路上一起思考。

那么就在新年的第一天, deepsea 又来踢馆,又来炸街了。昨天的时候, deepsea 呢在一家专业媒体上发表了一篇论文,那这个论文的题目呢?是 mhc 已入流行约束的超级链接节,是关于这篇文章就是很多自媒体解释的,可以说是云山雾罩的,我估计没有几个人能看懂, 我呢自己查询了很多资料,我发现这绝对是 deepsea 又一次重磅的出击,所以我今天想用自己的这个大白话来给大家解读一下我对这篇论文的理解。首先这篇论文它讨论的不是具体的应用场景, 也不是这个大模型的参数问题,而是一个几乎所有的大模型现在都绕不开,但是很少有人敢正面去挑战和回答的问题,那就是叫残差连接,还能不能继续支持下一代的大模型继续做大。 好了,那么说到这里,咱们首先就得回答一个问题,那就是什么叫残差连接?在二零一六年的时候,一个技术叫 resident 出现了,那么在 resident 出现之前,深度学习其实它面临这个非常尴尬的天花板的效应,那就是网络一旦变得更加深的时候, 这个模型的训练反而会更加困难。为什么?因为这个层数一多,那模型它就开始变得有点学不会了, 这什么原因?我们可以把这个神经网络想象成一个这个接力赛,每一层的网络他都负责把信息往下一层传递。那么这里的问题在于,就是整个神经网络的层数越多的时候, 每一层网络的这个信息传递他会出现损耗,所以当最后一棒拿到这个信息的时候,已经是变得面目全非了。那么在数学上这个叫什么?这个叫梯度的消失,或者叫梯度的爆炸。用大白话来说,那就是信息在传递的这个过程当中,因为距离比较长,所以他会不断的被损耗。 那么 rasinet 出现以后,他对这个问题的解决方式非常简单,他安排每一层网络在做信息传输的时候,不是非要重新发明一个传输的轮子,那么只需要每一层去学习一个小的叫改动量, 于是这就是残差连接,他就出现了,形象的说是原来每一层神经网络他学到的这个信息,那么他输出的时候,好比是等于某一个复杂的函数,那现在把它变成了输出的时候,是这个复杂的函数加上一个小的变动。也就是说给这个信息的传输 设计的一条略微改动的高速公路,他就可以不经过复杂的计算,确保这个信息基本上可以按照原样子去传输和通过。那么在这条高速公路上, 数学上把它叫什么?叫恒等的递设,用大白话来说就是给信息传输建设了一条兜底的通道,那么它的出现意义是非常重大的。第一,它保证的大模型,哪怕你什么都没学好,至少你不会学坏。第二,它可以让模型呢去无限的加深, 因为信息呢不会出现大量的丢失。第三,它可以让模型的训练变得更加稳定,更加可控,可以规模化的扩展。说一句毫不夸张的话,如果没有残差连接这个技术的出现,就没有今天的 gdp, 没有各种各样的大模型,它是深度学习过去十年当中 一面最重要的技术承载墙。好了,这个概念搞清楚了,我们接着来回答第二个问题。那么既然残差连接这么好, 那为什么 ai 行业会在后面又搞出一个新的东西,就是叫 hc 技术呢? hc 也就是叫超级链接。那么 hc 的 出现到底是想解决什么问题呢?原因其实也不复杂,用一句话来总结,那就是残差连接它虽然好, 虽然让模型的这个训练和信息传输非常稳定,但是他也会让这个模型的发展来去受限的残差连接他就好比一条单向的高速公路,这条路呢非常稳,但是呢他只有一条。但是随着这个大模型越来越大,任务越来越复杂。 发现一个问题,那就是残差连接这种模式下的信息传输他是不够用的,他需要在模型当中建设一个新的多线路并行的这种信息流动模式。这个道理其实也不复杂,你比如说在现实世界当中,这种情况屡屡会 出现。比如说我们是一个企业的 ceo, 你 搞决策的时候,你肯定不能只靠一条信息的链路来做决策,包括财务,包括市场,包括供应链,包括技术,包括政策,那各种各样的信息它是交织在一起的,它是叠加的,你需要用这种复杂的信息来做分析判断。于是这个 hc, 也就是超级链接技术,它出现的 hc 核心的目的有一个,那就是它可以不仅让当前的这一层神经网络只接收上一层的信息,是可以同时让更多的这个层级之间形成更加复杂的一个信息交叉信息传输的路径。 那么形象的说,如果说这个 rasinet 它是把信息呢一层一层的往下走,那么 hc 它的模式就是让这个信息呢进行多线路的并行,进行交叉的传输。 那 sc 的 目标也很明确呢,他就是想提升整个模型的学习和表达能力,让不同层级的信息实现一个充分的混合,这样呢就可以在各种各样的参数的级别之下,让大模型学到更复杂的结构知识和信息。从理论上来看,这个 sc 是 不是的确非常的诱人,但是问题也恰恰出现在这里,因为在 sc 出现之后, 它同时就出现了一个非常致命的问题。什么致命的问题呢?我们继续用大白话来聊天。那么 h c 为了实现这个信息传输的多层混合,所以它引入了一个东西叫残差映射矩阵, 就是原来的这个残差,它是 x, 等于 x, 简单稳定确定,那现在 h c 把它变成了 x, 等于 w 乘以 x, 这就是一个矩阵的乘法,这个变化有什么大的变化?它会直接破坏之前我们说的那个叫横等映射, 那他带来的后果是什么呢?第一模型就不再具有之前那个信息传输的兜底通道了,就信息必须要经过转换 才能够继续传输,哪怕说你这个变化是错误的,他也得这么走。第二个就是整个训练的稳定性开始急剧下降了,他相当于模型学习的这个学习指南坏了,方向感就丢失了, 所以这个时候,所以你这个时候让他学的越多,他就会越犯迷糊,那么算力越大,模型层次越多的时候,这个问题这个缺陷就会显现的更加严重。就是之前这个 rasinet, 他的哲学是你可以学的慢,但是您千万别学坏了, 然后这个 hc 的 哲学却变成了你必须得学,而且一开始你就得学好学。对,那这个技术要求对于大模型的训练来说 是非常不友好的,这个大家能够理解吧?所以就是 hc 的 这套模式,它在小模型,在特定的任务上,它的表现会非常的好, 但是一旦真正走到了这个大模型的训练当中,它就开始漏怯了,它就开始表现越来越差了。好了,那我们说完了 hc 的 事情,我们继续往下说,就是 deepsea 这一次它的这篇论文真正的意义到底是什么呢?就首先 deepsea 它没有去否定 hc, 他们是做了一件非常中国式的非常工程化的事情,也就他们最擅长的事情。那就是首先我承认 h c 它这个东西是好的, 方向是对的,但是 h c 你 得守规矩才行。那么为此就是 deepsea 它提出了一个非常关键的问题,就说在大模型的训练当中,我们能不能去保留 h c 的 这种表达能力, 又能够把这个 resident 它的这个安全通道给重新找回来。那对此他们给出的解决方案就是把残差映射矩阵约束到一个特定的数学空间当中去,这个数学空间叫什么?叫比尔霍夫多面体,那它的本质是什么呢?双随机矩阵的集合, 那这个双随机矩阵又该如何理解了?咱们用大白话理解,就是整个信息他不会被放大,也不会被压缩,而只是被重新分配到了一个空间当中,这个设计意义就非常重大了,这意味着整个神经网络他的信息总量没有发生变化是吧?没有减少,也没有增加,也没有出现严重的损耗, 所以之前讲的那个叫什么横等印刷,它被这个基本上给保留下来了。那么 deepsea 给出的这个解决方案叫什么呢?叫 mhc。 mhc 主要解决了三个问题,第一,它把这个 hc 的 自由度 关到了一个笼子里边,所以信息传输不是说今后你想怎么样就怎么样的,而是受到了一定的这种约束。第二,就是他恢复了大模型最需要的稳定性,你可以放心的把大模型继续做大,他不会出现越大就越会崩溃的这个情况。第三,就是他让复杂的这个连接真正实现可规模化了。 实验的结果表明,采用 mhc 这个方式,大模型的参数越大,而这个优势就体现得越加明显,而这个优势就体现得越发明显。好了,那么 deepsea 的 这个 mhc, 它的现实意义和现实的作用究竟在哪里呢?就从学术的角度来看,它是重新定义了残差连接,还怎么能够继续玩下去?这件事情我不是把它推翻了,而是我推动它进行了一个进化和一个优化,同时它证明了一件非常重要的事情,那就是结构的自由度必须要和系统的稳定性一起来设计才行, 而这两者是可以同时实现的。最后呢,他把一个叫流行约束这种偏理论的工具啊,就非常深奥,非常偏理论的他真正的落实到了大模型训练的这个场景当中,实践当中,所以这是一个巨大的突破。 那么 mhc 他 对于产业,对于大模型又意味着什么呢?前面已经讲了很多了,咱们在这里用一句话来总结,就是他降低的把大模型做大的风险,它意味着更少的训练失败, 更低的试错成本。而对于大模型的竞争来说,这就意味着今后绝对不是靠谁的算力多来决定胜负的,而是靠谁更懂网络神经的结构,就是说到底 deepsea 现在干的这件事情。这篇论文的核心是在回答一个全世界都一直在头疼的重大挑战,重大问题, 那就是大模型还能不能继续稳定的变大? deepsea 呢?在试验当中是解决了这个问题的,因此他的这个寄宿路线就会更扎实,会进一步降低他自己对于这种堆卡的依赖,而且毫无疑问将会在整个开元社区里边进一步强化他的话语权和地位,同时也为未来更大规模的这个模型的发展 提前开辟了一条崭新的技术路线,这就是它非常重大的意义所在。而更为关键的一点在于, mha 的 提出释放了一个非常清晰非常重磅的信号,那就是中国的 ai 的 研发团队 再次跑到了世界的前沿,因为我们中国的团队已经开始在基础架构层面去做一些原创性的工作了。 所以呢,你如果深刻理解这件事情,你会意识到,在新年刚刚开始的时候, deep sea 又来踢馆了,又来炸街了,那么这是不是意味着很快又会掀起一波全球的 deep sea 的 时刻和高潮了?

杀伤细胞的功效杀伤细胞具有什么功能呢?一、自然杀伤活性由于 nk 细胞的杀伤活性无 mhc 限制,不依赖抗体,因此称为自然杀伤活性。二、识别靶细胞杀伤细胞识别靶细胞是非特异性的。三、杀伤戒指 主要有穿孔素、 nk 细胞、毒因子和 tnf 等。四、分泌细胞因子活化的 nk 细胞可合成和分泌多种细胞因子, 发挥调节免疫和造血作用以及直接杀伤把细胞的作用。此外, nk 可选择性的杀伤病毒感染的把细胞。 nk 细胞在免疫监视杀伤突变的肿瘤细胞可能比 t 细胞具有更重要的作用。所以,杀伤细胞除了以上四个功能以外, 还具有合成和分泌细胞因子的作用,同时他们还能杀伤感染的靶细胞和肿瘤细胞。