粉丝154获赞703

所有学习深度学习的人都应该给他比个心,中国之光和凯明的 rest net 让深度学习真正的变得深了起来。 rest net 的网络结构特别明显,你一看就能够区别出来,比如说我们来看这样的两张图,这个带 曲线的这个就是 rest night 的网络结构了,和普通的网络结构对比,那么它的区别就是在于它在一个结构里面会加上这样的一条曲线,那么这样的一个小单元 具体是怎么来进行设计和计算的呢?对于这个结构里面的每一部分,其实整体的设计都是一样的,那么我们把它拆出来看,这里边呢有两个卷基层数据传到这呢,我们给这记做 x, 那么这两个卷基层以及中间 所经过的激活函数,对于这个数据所做的一些处理,它所对应的函数呢,我们给它叫做 f, 对于 x 所做处理的这件事儿就可以去做 f x 到这了以后所求得的结果也是 f x, 那么这个 f x 和 x 到这个位置上去做一个求和, 在这之后呢,再去经过一个激活函数,那么这个分支上在论文里面叫做 identity, 这个就是在整个这个结构里边具体的一个残差块里边的设计了。这里的家呢,就是纯粹的每一个对应的位置上去做了一个求和的计算, 我们来解释一下这里的家到底发生了些什么。比如说我们在这所获得的特征图,也就是这个 x 呢,是一个大小为三乘三,填充值都为一的这样的一个特征图。那么经过了这两个卷基层之后,我们在这呢获得的特征图是这样的,一个三乘三,大小 填充都为二的特征图,那么在这做的加操作就是让他们对应位置上的数值相加求和,也就获得了一个大小为三乘三,填充值都为三的这样的特征图。好,那么现在还有两个问题,第一,如果我们经过了两个卷基层之后,特征图大小不一致了怎么办呢?我们可以通过用零来填充的方式,使特征图的大小一致,然后再去做相加的操作。第二,如果经过了两个卷基层之后, 特征图的通道数不相等怎么办呢?我们可以通过一乘一的卷结合,使得通道数变成一致的,就可以去做这样的加计算了。那么为什么这样做就可以来避免梯图消失的问题呢?还记得这个是我们在之前带着大家去手撕反向传播过程当中所举的这个例子,在这呢,我们写出了一个去求 w 一一 这个参数梯度的一个计算的方法。对于这么一个简单的神经网络,在我们去求 w 一一的梯度的时候,就已经呢有了这样一些项,可想而知,在一个深层的神经网络里边,那么这个 w 如果比较靠近输入层的话,这个后面要乘的项数将会有多少? 我们将这个过程当中的梯度给他也求出来对比来看一下。为了计算方便,我们把 y 呢来记作 f x 加 x, 现在假设呢,我们就从 y 来 来出发,求得这个参数 w 的梯度,那么我们现在就可以把公式写成这个样子,然后进一步,我们可以因为它等于一,这一项也等于一,所以现在我们就可以把它改成,我们来对比一下,当没有这个 加的分支的时候,我们在这儿所求得的 f x 对 w 求偏导的话会是什么样的。现在一对比我们很清楚的能够发现这两种形式下只是区别在这儿多加了这么一项, 也就是说这有加的像和一直连成的情况来对比的话,那肯定这样的情况更不容易出现题就消失的风险了。我们从意义上来理解这件事,那么 f x 呢,就可以理解成是 x 和真实值之间的一个残差,那么他要做的事呢,就是在已有的 x 的基础之上,尽可能的让求得的结果更接近真实值。所以他只需要在已有的 x 的基础之上去 向靠近真实值的方向去做微调。如果这两层实在带不起来,那我可以在训练的过程当中让他的参数设计为零,也就说我们在这呢不给他做任何的操作,让 x 直接下来就好了。但如果可以的话,我们让 fx 在这呢,但凡做点贡献,就不会让模型最后输出的结果比没有他们会变得更糟。所以 risenet 这个网络在提出的时候,他所强调的一点就是 说随着网络层次的增加,不应当会让网络的性能变得更差,就在于这里了。这样做的可行性上来说,第一,并没有增加任何的需要学习和训练的参数,第二,整个过程当中只是多了一些相对廉价和快速的加法计算。下课跟曹老师学 ai 入门如此简单。

喂,大家好,我是 daniel, 希望我的视频能了解,哎,出现啊,今天给大家介绍这个 deplay plus 啊,这个版本它主要是做图像语音分割的一个模型吧,然后这个模型呢? 嗯,这是这个啊,这是论文中给出来这个图,它结构图,它主要分为两部分,一个是引扣的和抵扣的,那么引扣的的网络,其实这个网络看起来还是比较简单啊,至关的。 然后他的影扣的部分呢,主要是由两部分组成的,一个是地线这个主干网络 啊,这个主管网络可以是一个 rise night 或者是 mobile night, 然后我们提这个主管网络有两条线,有两条线到这个地扣灯, 第一个就是他这个底层的低层,就是铝艺要靠近于啊输入层这个低层的一个特征提取。第二就是这个高层经过了一个 sapp 这么一个结构,那么这个主要是说一个多尺度这个 sapp, 然后他首先经过一个一乘一的卷机,他主要是做一个通道上的关联性啊,类似一个全连接。然后接下来是三个空中卷机,空中卷机大家可以参考我那个我之前介绍的空中卷机,他主要是 做了一个啊,空中剪辑作用,主要是做一个四四四玉的扩大,然后他有一个一米级破领啊,每个得成之后我们做一个 conk 的, conk 的之后呢,我们再做一个一乘一一卷机,对这个通道进行瑜伽说 得到这样卷机之后,我们进行一个四倍的上彩样,因为他这个图像的压缩的尺寸呢,比较小,应该是十六倍的,他这个三十二的让我们进行个上彩样,上彩样之后呢,这个低层的这个特征呢,他首先经过一个一乘一改变他的通道数,然后 进行思维上采样,就是想要这个特征图大小,或者这个低一层的 deleg 的飞船,它可以保持一致,然后他们俩之间可以做个慷慨的 啊组合,扛开的组合之后呢,我再做一个三乘三的卷机,然后进一步的四倍的上材量来拿到一个预测图像素级别的预测, 有还原原图大小,这里呢简单代码说说一些啊,解释一下,这里用这个的天色 pro 引扣的,我们只用这个 vs, 就是真丝 pro 提供的玉系列模型吗?玉系列模型 直接用了,然后我们拿到他一个比较高层的,就是这个第四个啊, 拿到这个程之后 后呢,我们得到他输出呢,经过一个 sapp, 也就是我们这部分内容的处理,我们再看这 sapp, 那么他相当于进行了十六倍的下采,十六倍缩小十六倍,也就是拿到特征图是三十二乘以三十二, 然后 icpp 呢,它主要是我们拿到这个时候,我们先做一个 iverage 破零,也就这个成 ivang 破零之后呢, 我们进行一个啊通道数的改变,一乘一的卷起,就是这个一乘一的卷起, 然后再编程和这个软度的激活。程 然进行了一次向上采样,上采样得到他这个 大小呢,就是在输入尺寸的眼部的这个尺寸大小,以便你在学后做看 care, 这是第一部分的第一块,第二块呢就是我们这个 啊,空洞卷机啊空洞卷机,然后啊第二是 这是固定程,这是固定程,这是固定程。第二个是这个 是一个一乘一的, 一乘一的话就是整个大小为一,然后是二五六,呃,然后这是编程,一就是,然后接下来就是三个, 三个空洞卷机,空洞卷机的系数如果你是十六的话,分别是十六、 十二、十八,他还有另有有另有一套,嗯,共同剪辑呢,也是非常啊,他主要是扩大了这个感受,也用不同感受也达到一个对一个,我们达到一个输入 图像的多尺度啊,特征提取的作用分别是六四二十八,这没什么说的,都是一个卷积成,然后空洞系数不同,其他呢都是一个编程,再加上一个 激活软弱的激活程。最后呢我们去进行个 ctrl, 把这五个进行 ctrl, ctrl, ctrl 之后呢, 我们经过一乘一卷机,将它通道压缩到二五二五六,因为看开了之后他这个变大,然后再进行个边程和百度激活程好友拿 这个特殊的话减三二十二乘以二五六,然后有这个输出的。之后呢,我们就是这步已经完事了,都要进行一个四倍的上彩量, 这个经过这个四倍上财量,四倍上财量之后是幺二八幺二八二五六,然后我们再重获这个是 哎,这是高层,这是低层的话,我们直接拿这个第二块输出,那么他的输出呢?就是幺二八啊,所以上面进行四倍的上材量,拿到幺二八就是为了跟他做 cap, 这个幺二八输出是幺二八二五六的,但是这个通道数我们还需要去处理一下, 所以呢,我们这里面经过了一个一乘一的卷积,主要改变通道数,改变成四十八幺二八乘以二八四十八,之后 紧接的还是一个 bn 绳和这个激活绳,然后做 ctrl ctrl cat, 之后是得一个三零四 三零四层,之后呢我们呃就是继续进行一个,首先是一个我们看这个结构图 做砍开,砍开了之后是一个三乘三的全连,三乘三的卷机,看一下这个是三乘三的 三乘三的卷积成,然后 不是这个位置,是这三乘三的卷积处, 然后就闭眼,然后接接下来是一个通道数,压数二五六,选其个为三乘三的,最终呢进行一次上采样,然后就输出一个 sufp max, 最后一个是这个概率分布。 好,那么这就是我们那个网络给大家介绍这里,然后接下来我们还需要在这网络做一个 啊,做一点处理,稍微改动 s 异常,他就相当于对我们这个通道上做了一次注意力,那么他是输入的特征呢,是 他需要有一个比率,就首先将我们这个通过一乘一的卷积呢进行一个蕊, 进行一个啊变换,然后做一次全全连接,最终呢我们再通过一个全连接拿到全连接上啊,就是说对每个通道数做一个像注意力的这个东西, 通过主要这 s 一层,就把 s 一层做完之后,这个在之前的呃已经给大家介绍了 s e night, 大家可以参照那个分享 啊,这是他的位置分别在 ctrl 和这个呃经过一个三乘三的卷积之后呢做一次 ic, 好,那么本次分享就到这里,如果大家喜欢我的视频,请关注、点赞、收藏,一键三点。

这两大困难,简直是深度神经网络头上的两朵乌云,非常难搞。第一朵乌云叫做梯度消失和梯度爆炸, 我们用小球滚动来演示寻找损失函数的最低点。梯度消失其实就是地图上有些地方太平坦,小球不动了。 梯度爆炸是因为有些地方过于陡峭,小球在里面乱跑,导致训练 ai 的过程根本进行不下去。不过幸运的是,人们后来通过一些方法,在很大程度上解决了这个问题,这里我们不再多说。而第二朵乌云,网络退化才堪称是锁死深度神经网络发展的质子。 网络通话是什么意思呢?前面说了整个神经网络最关键的地方,在位于中间部分的隐藏层,他决定着整个模型特征提取能力的高低。如果只开发一个识别猫狗的程序,倒是不需要网络太复杂,但是要让 ai 能够识别成百上千种物体,神经网络就得设计的更深。 原本按照科学家们的设想,隐藏层越深,参数越多,能够模拟的情况应该越复杂, ai 的性能就应该越强大。但科学家们在实践中发现,如果一味的增加神经网络的深度,反而会起到相反的效果。 比如,在一篇著名的论文里,有这样一个例子,有两个用来识别图像的神经网络,被设计的结构分别是二十层和五十六层。 科学家们分别用相同的数据集对两个神经网络进行训练,最后发现二十层神经网络识别图像的误差率比五十六层的要低很多。起初啊,科学家们对这件事非常费解,因为他不合常理,即便那个五十六层的神经网络里有三十六层躺平了啥事不干,那么性能至少应该和二十层的一样啊,为什么性能反而变差了呢? 原因就是神经网络不擅长躺平,因为躺平这件事本来是一种线性变换,而神经网络里神经元的作用机制是非线性的。 不知道这么说大家能不能理解?总之,这是一个在计算机科学界存在了许久,却一直没能得到有效解决的问题。当深度神经网络兴起的时候,这个问题就变得越发突出。不过这个问题最终还是得到了解决。这就终于要说到何凯明跟他作为第一作者发表的那篇超级经典的论文了。 讲论文之前,先简要回顾一下何凯明的人生经历。何凯明一九八四年出生在广州,中学的时候就因为获得全国物理竞赛一等奖,得到了保送清华机械工程及自动化专业的机会。然而他并不想读这个专业,所以还是去参加了六月份的高考, 结果一不小心就考了个满分,成为了广东省高考状元,进入了清华基础科学班。大学还没毕业,他又进入了中国 iig 的黄埔军校微软亚洲研究院实习,加入计算机视觉组。当时他的实习导师是孙建,另一位计算机视觉领域的顶尖中国 ai 学者。不过这里要提及的是啊,孙战博士在去年六月份因为突发疾病英年早逝,成为了中国 ai 界的重大损失,令人恶腕通喜。本科毕业之后,何海明进入香港中文大学攻读博士学位。失从后来创立相当科技的汤小欧, 最后在读博期间,他就以第一作者身份拿到了 ai 顶会 cvpr 二零零九年的最佳论文奖,也成为了会议创办二十五年来第一位获奖的亚洲学者。 毕业之后,何海明正式加入微软亚洲研究院工作,而就是在那里,他以一座的身份,和导师孙建、同事张翔宇、任少卿一起做出了前面提到的那篇超级经典,震惊世纪的 deep residual learning for image recognition。 这篇论文经典到什么程度呢?到现在为止,他被引用的次数已经超过了十六万次,在二十一世纪所有 ai 相关的学术论文里,排名历史第一。可能大家好奇了,这么爆炸的论 到底做出了什么内容呢?我们之前说了,深度神经网络不擅长躺平,层数越多,性能可能越差。而针对这个问题,何凯明他们想出的办法思路其实非常简单,既然你不愿意躺平,那咱们直接绕过去,当你不存在, 他们在神经网络中加入了一些跳街,用一条线绕过下面几层神经网络,直接输出到后面的层,当网络里某些层的性能比较好的时候,中间层起作用,当他性能不好的时候,跳街直接帮你把中间层屏蔽掉, 就好像直接把有问题的电路元器件给短路掉,问题迎刃而解。这种思路就叫残差网络 resnite。 你们可能会问,按照这么介绍的原理来说, resnite 应该叫短路网络啊,但这并不准确,因为 resnite 并没有完全短路。 我们先来看 reside 的一个模块,这一段神经网络从上面接收到数据 f x, 同时还保留了原始的数据 x。 而之所以叫做残差,是因为升级网络训练过程是反向的,如果我们反推回去,那么上面网络接收到的就是 hx 与不做任何变换的结果, x 的差值 hx 减 x。 换句话说, hx 减 x 是网络减去躺平结果残留的差值。残差网络的名字由此而来。 何凯明他们提出的残渣网络,让深度神经网络的性能重新得到了很大提升。可能有些朋友知道人工智能领域跟手机一样也有跑分吧,权威的有 input net, coco 等等。 这些跑分榜都是一大堆图片,让 ai 根据图片内容进行分类,最后以准确率来排名。结果就是 resident 当年一出各种图榜,迅速占据了各种第一。 更无敌的是,他对硬件的要求还比别的模型要低。打个不太恰当的比方,就好像用三零六零跑出了超过四零九零的游戏画质。一年前拿到一比十 nice 第一名的 vgg 模型是十九 组成,对算力的要求是每秒一百九十六一次浮点运算。而有一百五十二层性能碾压 vgg 十九的 rednight, 对算力的要求却只有他的六成。不得不说, resnite 直播优化水平程序员看到肯定羡慕的要死。