00:00 / 04:57
连播
清屏
智能
倍速
点赞1237
00:00 / 00:17
连播
清屏
智能
倍速
点赞27
00:00 / 02:24
连播
清屏
智能
倍速
点赞3694
STEM1月前
第二十二讲 梯度下降 在高维空间中进行函数最优化时,直接求解解的表达式往往不可行; 二阶导数结构(例如 Hessian 矩阵)可能复杂或昂贵; 因此,在大规模优化、机器学习、神经网络训练中,人们通常只利用一阶导数(梯度)来迭代逼近最小值。 1.梯度(gradient) ·对于标量函数 f(x),梯度 ▽f是一个列向量,指出函数增长最快的方向, ·最陡下降方向则是 -Vf。 2.Hessian 矩阵(Hessian) ·定义为 V2f,即对各变量的二阶偏导数矩阵, ·它描述了函数曲面的“曲率”信息,是判断极值性质的重要工具。 3.凸性(convexity) ·若函数 f是凸的,则对任意两点之间的线段,函数值不会高于线段; 判断条件是 Hessian 矩阵对称且正半定(V'f> 0),若严格凸则为正定; 凸函数在梯度方向上的局部最小值就是全局最小值,这为优化算法提供了强保证。 条件数 K 是收敛速度的关键指标: ·b<1时,k 很大 =>收敛慢; ·b≈1时,K≈1=>收敛快。 梯度下降是一阶优化方法的基础,是连接线性代数和机器学习的桥梁, Hessian 与条件数决定收敛速度与算法效率; 本讲以二次函数为例,将理论与几何直观联系起来,为后续学习更复杂优化方法打下基础。 本课重点在于理解梯度、Hessian 与凸性的相互关系,以及如何通过最陡下降法在高维空间中迭代获取最小值。讲座深化了线性代数的应用视角,从矩阵结构理解优化收敛性,并为机器学习模型训练的原理构建了坚实的几何工程直觉。 #机器学习 #深度学习 #神经网络
00:00 / 52:19
连播
清屏
智能
倍速
点赞82
00:00 / 10:10
连播
清屏
智能
倍速
点赞0
00:00 / 02:27
连播
清屏
智能
倍速
点赞7
00:00 / 00:28
连播
清屏
智能
倍速
点赞8
00:00 / 00:23
连播
清屏
智能
倍速
点赞NaN