粉丝1991获赞1.6万

这两大困难,简直是深度神经网络头上的两朵乌云,非常难搞。第一朵乌云叫做梯度消失和梯度爆炸, 我们用小球滚动来演示寻找损失函数的最低点。梯度消失其实就是地图上有些地方太平坦,小球不动了。 梯度爆炸是因为有些地方过于陡峭,小球在里面乱跑,导致训练 ai 的过程根本进行不下去。不过幸运的是,人们后来通过一些方法,在很大程度上解决了这个问题,这里我们不再多说。而第二朵乌云,网络退化才堪称是锁死深度神经网络发展的质子。 网络通话是什么意思呢?前面说了整个神经网络最关键的地方,在位于中间部分的隐藏层,他决定着整个模型特征提取能力的高低。如果只开发一个识别猫狗的程序,倒是不需要网络太复杂,但是要让 ai 能够识别成百上千种物体,神经网络就得设计的更深。 原本按照科学家们的设想,隐藏层越深,参数越多,能够模拟的情况应该越复杂, ai 的性能就应该越强大。但科学家们在实践中发现,如果一味的增加神经网络的深度,反而会起到相反的效果。 比如,在一篇著名的论文里,有这样一个例子,有两个用来识别图像的神经网络,被设计的结构分别是二十层和五十六层。 科学家们分别用相同的数据集对两个神经网络进行训练,最后发现二十层神经网络识别图像的误差率比五十六层的要低很多。起初啊,科学家们对这件事非常费解,因为他不合常理,即便那个五十六层的神经网络里有三十六层躺平了啥事不干,那么性能至少应该和二十层的一样啊,为什么性能反而变差了呢? 原因就是神经网络不擅长躺平,因为躺平这件事本来是一种线性变换,而神经网络里神经元的作用机制是非线性的。 不知道这么说大家能不能理解?总之,这是一个在计算机科学界存在了许久,却一直没能得到有效解决的问题。当深度神经网络兴起的时候,这个问题就变得越发突出。不过这个问题最终还是得到了解决。这就终于要说到何凯明跟他作为第一作者发表的那篇超级经典的论文了。 讲论文之前,先简要回顾一下何凯明的人生经历。何凯明一九八四年出生在广州,中学的时候就因为获得全国物理竞赛一等奖,得到了保送清华机械工程及自动化专业的机会。然而他并不想读这个专业,所以还是去参加了六月份的高考, 结果一不小心就考了个满分,成为了广东省高考状元,进入了清华基础科学班。大学还没毕业,他又进入了中国 iig 的黄埔军校微软亚洲研究院实习,加入计算机视觉组。当时他的实习导师是孙建,另一位计算机视觉领域的顶尖中国 ai 学者。不过这里要提及的是啊,孙战博士在去年六月份因为突发疾病英年早逝,成为了中国 ai 界的重大损失,令人恶腕通喜。本科毕业之后,何海明进入香港中文大学攻读博士学位。失从后来创立相当科技的汤小欧, 最后在读博期间,他就以第一作者身份拿到了 ai 顶会 cvpr 二零零九年的最佳论文奖,也成为了会议创办二十五年来第一位获奖的亚洲学者。 毕业之后,何海明正式加入微软亚洲研究院工作,而就是在那里,他以一座的身份,和导师孙建、同事张翔宇、任少卿一起做出了前面提到的那篇超级经典,震惊世纪的 deep residual learning for image recognition。 这篇论文经典到什么程度呢?到现在为止,他被引用的次数已经超过了十六万次,在二十一世纪所有 ai 相关的学术论文里,排名历史第一。可能大家好奇了,这么爆炸的论 到底做出了什么内容呢?我们之前说了,深度神经网络不擅长躺平,层数越多,性能可能越差。而针对这个问题,何凯明他们想出的办法思路其实非常简单,既然你不愿意躺平,那咱们直接绕过去,当你不存在, 他们在神经网络中加入了一些跳街,用一条线绕过下面几层神经网络,直接输出到后面的层,当网络里某些层的性能比较好的时候,中间层起作用,当他性能不好的时候,跳街直接帮你把中间层屏蔽掉, 就好像直接把有问题的电路元器件给短路掉,问题迎刃而解。这种思路就叫残差网络 resnite。 你们可能会问,按照这么介绍的原理来说, resnite 应该叫短路网络啊,但这并不准确,因为 resnite 并没有完全短路。 我们先来看 reside 的一个模块,这一段神经网络从上面接收到数据 f x, 同时还保留了原始的数据 x。 而之所以叫做残差,是因为升级网络训练过程是反向的,如果我们反推回去,那么上面网络接收到的就是 hx 与不做任何变换的结果, x 的差值 hx 减 x。 换句话说, hx 减 x 是网络减去躺平结果残留的差值。残差网络的名字由此而来。 何凯明他们提出的残渣网络,让深度神经网络的性能重新得到了很大提升。可能有些朋友知道人工智能领域跟手机一样也有跑分吧,权威的有 input net, coco 等等。 这些跑分榜都是一大堆图片,让 ai 根据图片内容进行分类,最后以准确率来排名。结果就是 resident 当年一出各种图榜,迅速占据了各种第一。 更无敌的是,他对硬件的要求还比别的模型要低。打个不太恰当的比方,就好像用三零六零跑出了超过四零九零的游戏画质。一年前拿到一比十 nice 第一名的 vgg 模型是十九 组成,对算力的要求是每秒一百九十六一次浮点运算。而有一百五十二层性能碾压 vgg 十九的 rednight, 对算力的要求却只有他的六成。不得不说, resnite 直播优化水平程序员看到肯定羡慕的要死。