粉丝6662获赞13.9万

各位小伙伴们大家好,欢迎来到数据与智能小课堂上节课我们已经建立了多元回归模型, 那像简单的回归模型一样,我们现在来使用瑞斯科尔的来评估模型对数据的拧合效果,我们算出纳入模型的自变量的变动占总变动的百分比。 如果还记得的话呢,简单回归模型的阿斯圭尔的值是零点三二九,而这里呢,已经增加到零点六八了,说明模型对数据的粘合度更高了。但是不要忘了,只要向回归模型中添加新的变量,就必然导致 respra 的变。 那归根结底呢,前面的简单回归模型只是这里的多元回归模型的特例而已,也就是时间,也就是工作时间和是否为博士这两列的系数都为零。 因此最优的多元回归模型,他的误差肯定是不会高于简单回归模型的。 因此对于多元回归分析而言呢,我们还需要考察系数的标准误差,也就是衡量每个 bta 的估计值得可靠程度。 那总的来说,回归模型通常能够很好的你和我们的数据,但是如果某些自辨量是相关的,或者说不相关的,那么他的系数就未必有多大的意义了。那对于这些误差呢,传统的度量方法通常都带有一个前提,假设也就是 误差一步系统 i 是独立的正态随机变量,其平均值为零,标准差为四个码。那这样的话,我们就可以使用线性代数来确定每个系数的标准误差了,这个误差越大,就说明这个模型的系数越不靠谱。 现在假设我们有一个含有 n 个数据点的样本,并且这些点是按照某种未知的概率分布来生成的。 在第五章呢,我们曾经写了一个计算观测数据中中位数的函数,现在我们拿它用来估算该分布本身的中位数。 但是我们该如何了解这些估计值的可靠性呢?如果样本中所有的数据都非常接近一百,那实际的中位数也很可能接近一百。 如果样本中一半左右的数据接近于零,而另一半数据接近两百,那我们就很难确信中位数到底接近多少。 如果我们能够不断获得新的样本,那我们就可以计算出每个新样本的中位数,并且观察这些中位数的分布情况。 但这一般是不现实的。那么我们可以利用这个波斯 apple 来获得新的数据级,也就是选择 n 个数据点,并用原来的数据将其替换,然后计算合成的数据级的中位数,如下所示。 然后,例如考虑下面这两个数据集,第一个数据集的元素呢,全部都是接近一百的。第二个数据集一半接近于零,另一半接近于两百。但如果你计算每个数据集的中位数,都会发现他们都非常接近一百。 然而,如果考察下面这个语句的话,大部分情况下你看到的数字呢,确实非常接近一百。然而,我们继续考察下面这个语句,你会发现不仅有许多数字接近于零,而且还有许多数字接近两百。 第一组中位数的标准偏差呢,接近于零,而第二组中位数的标准偏差接近于一百。这种极端的情况,通过人工检查数据就很容易弄清楚,但一般情况下都不是真的。 我们同样可以采取同样的方法来估计回归系数的标准误差。我们可以对数据重复采样 bost f 三 pro 样本,并且根据这些样本来估算北塔。如果某个字变量,就比如说 nfriend, 他的系数在各个样本 本上变化不大,那么我们就可以确信我们的估计是比较严密的。如果这个系数随着样本的不同而起伏较大呢?那么我们就不能完全相信我们的估计。 那还有需要说明的一点是,采样前我们需要把数据 x 和数据外放到一起来,确保自变量和音变量一起进行采样。这就意味着 bosg f 三 pro 将会返回一个由 xi 和 y i 数据队组成的列表。 因此呢,我们需要将其重新组合成一个 x 三 pro 和一个 y 三 pro。 之后我们就可以估算每个系数的标准偏差了。如果我们收集了一百多个样本,并使用五千多个迭代来估计每个测试版,那我们可能就会得到很好的估, 但是要花的时间就太多了。我们可以使用他们来检验诸如贝塔等于零吗之类的假设。在满足贝塔等于零以及与 epcon i 分布有关的其他假设的条件下,则满足下面这个表达式。 也就是说,这个统计量等于我们估算的北塔 g。 除以估算的其标准误差,它符合具有 n 减 k 格自由度的 steast t d h 值标准,也称作学生替分布。 如果我们有一个 ct cd f 函数,那么就可以计算每个最小二乘系数的批值,从而指出实际的系数为零时,观察到这个值的可能性有多大。但实际上我们没有这样的函数。然而, 随着自由度变大呢, t 分布越接近于标准正态分布,在这种情况下,也就是 n 比 k 大的多的情况下,我们就可以使用这个 no, no cd f 了, 并且它的效果还不错。那这个 py 柳函数呢?定义的是,如果系数为正,我们就需要计算大值概率的两倍,否则呢,计算小值概率的两倍? 在其他情况下,我们或许很可能会使用一个知道如何计算 t 分布和精准的标准误差的统计软件。 虽然大多数系数的琵琶柳都非常小,但是他非零,但是是否是博士学位这个系数呢?与零没有显著的区别,也就是说,博士学位的系数很可能是随机的,无意义的。 在对回归分析要求更加精细的情况下,你可能需要对数据的各种假设进行更细致的测试。就比如说, 至少有一个 batt g 是非零值,或者说 battle 一等于 beata 二且 bata 三等于 beata 四等等,以便来进行 f 测试。但是这些内容已经超出了我们的讨论范围啊。 在实际中,线性回归经常需要处理具有很多变量的数据机,这个时候呢,就需要用到另外两个技巧。首先, 涉及的变量越多,模型越容易对训练级产生过敏和现象,那其次,菲林系数越多,就越难以搞清楚他们的意义。如果我们的目标是为了解释某种现象,那一个只考虑三个方面的稀疏性模型 通常要比涉及数百个因素的模型要更好一点,那正则化就是指给误差项添加一个惩罚项, 并且该惩罚项会随着杯他增大而增大。然后呢,我们开始设法将误差项和惩罚项的组合值最小化。因此呢,惩罚项权重越大,就越能防止系数过大。 比如在睿智瑞格瑞选中,也称为领回归中,我们添加了一个与贝塔埃的平方之和成正比的惩罚项。当然,我们一般不会惩罚贝塔林,因为他是一个常数项, 然后我们可以用以往的方式将其插入到梯度下降当中。然后呢,我们就需需要修改这个 listusgres face 函数来使用 style 瑞士格瑞典特,而不是 sty 艾瑞格瑞典特。如果埃尔法设置为零呢,根本就没有惩罚,我们就会得到与以前相同的结果。那随着埃法增大呢,你和优度会变差,但是贝塔会变小, 尤其是随着惩罚上的增大,那博士学位的系数会变成零。这与我们之前的结果是一致的,也就是他与零没有显著区别。 要注意,在利用这种方法之前,通常需要调整数据的规模。因为即使是同一个模型,如果将几年的数据一下子变成几百年的数据,那么他的最小二乘法系数呢,就会增加上百倍, 那么那样得到的惩罚肯定也是会剧增的。那还有一个方法呢,是拉手回归,他使用的惩罚方式呢?如下 亚索士。总的来说, regrygrashion 的惩罚项会缩小技术,但是 nice 的惩罚项呢,却趋向于迫使系数变为零值,这就使得他更适于学习稀疏模型,但是他并不适用于梯度下降法,这样的话我们就无法从头开始解决这个问题了。 好了,关于多元回归分析呢,我们就介绍到这里。由于回归分析具有深厚而广泛的理论背景,那要想了解这些背景理论呢,还需要阅读大量的相应的教材,希望大家可以课后自行深入学习,那我们下次再见。 本视频由数据与智能团队出品,欢迎大家关注数据与智能公众号,获取更多精彩内容。

那接下来呢,我们来求求解一下多元线性回归的一个他这个解啊,那我们之前也讲过,就是他的目标函数呢,我们可以写成这种形式,就是 x w 减去 y 的一个 二范数的平方的方式。所以啊,整个的这个式子呢,我们描述成了一个项链和矩阵的方式,所以这里的 x 呢,他是一个矩阵, w 呢,他是个项链,所以对于他来讲,我们应该怎么去啊?把它解出来,我们一个来看一下。那首先 l 等于 x w 减去 y 的 二范数的平方,然后这里呢,第一个项他是一个项链,第二项当然他也是项链,所以我们把它表示成了二范数的平方,所以里 里面这一项呢是一个项链,所以项链的二份数的平方,我们之前讲过,我们怎么去表示呢?我们可以通过一个把它看作是个整体,可以把它表示为项链的转置,呈上项链本身的方式来表示, 所以我们把它写成 x w 减去 y 的转置,然后呢再乘上 x w 减去 y 的方式来表示,所以从这到这就是 从这到到。这个式子呢,我们使用的一个性质呢,就是项量的二范数的平方,等于项量本身的转至乘上 x 这个性质。好,那下面呢,我们就在基于啊这个转质的性质,然后结合嗯,这个 咱们乘法的一个分配法则啊,把这个东西再细化一下。那首先我们通过转至的性质,我们知道 x w 的转至减去 y 转至, 然后乘上咱们后面这个式子, x w 减去 y, 然后他等于多少呢?他等于转至。我们之前说过转至乘法的转至呢,其实得到的是 wx 分别转至顺序会改变,然后减去 y 转至, 然后乘上 x, w 减去歪的,那这个式子呢?我们展展开,通过一个一个乘法的一个分配法则展开,那就得到了 w 的 转至,乘上 x 转至乘上 x 乘上 w, 这是第一下,然后再再计算一下,第二下,他和他那减去 w 转至 x 转至成上歪,然后接下来再计算一下这个这个和这个,那减去 y 的转至 x w, 然后接下来呢,在最后一下 y 的转至呈上 y, 然后对于这个式子呢,我们可以做一个进步的优化,我们来看一下这个纸和这个纸, 那我们通过观察呢,其实可以看到这个值其实是他的一个转值,那我们这里面写一下,比如说答 六全是 boss, x 转至 y 实际上等于多少呢?实际上就是 y 转至 x w 的一个转至,看看是不是一样的,因为, 呃,这是乘乘乘法乘积,乘积的转至就就是 w 的转至,乘上 x 的转至,再乘上 y 转至的转至就是 y 吗?所以他俩是一样的,所以他俩是一样的。然后接下来呢,我们我们来研究一下啊这里的一个维度维度的问题。那首先 w 他是一个项链,但是我做了一个转制,所以他的项链的大小是这样的,所以这个项链大小可能是一乘上某一个值,然后中间我们有 xt xx box, 所以他是一个矩阵。然后最后呢,我有一个 y, y 是一个裂项量,所以这个项链大小可能是什么?某一个值乘上一的一个大小。所以最终我想说的一点是 这三个值的乘积,最后得出来的是一个标量,也就是一乘一的一个项量矩阵,其实也叫做一个标量。 所以当左边和右边他都是一个标量,就是个具体的值的时候,那说明什么呢?说明我即便做了个转制,他的值是一样的, 就类似于什么呢?类似于啊,我有个数叫二,那二的转至跟二是一样的,所以我们得到什么什么结果呢?就是 w 转至 x 转至成 y, 等于 y 转至 x, w 就是这两个值是一样的,因为他们是标量,如果项量的话,肯定是不一样,但是因为是标量,所以互相转质的话,其实他俩是一样的,所以这是个很重要的一个性质。 所以基于这个性质呢,我们可以写成这种形式, w 转至 x 转至 x, w 减去,因为他俩是一样的, 所以我们直接把它写成二, w 转至 x, 大写的 x 转至,然后呢? y 加上 歪转至成上歪,所以最后咱们的目标函数就变成了他。 所以现在的问题就变成了,我们如何 去得到这里的 w, 然后怎么去得呢?就是要去最小化咱们这个误差方程。所以我们要去做的事情呢,就是让 l 成为最小化的 w, 应该是什么?我要把它求出来。

下面我们来看一下。呃,咱们啊一个样本数据,那这个数据里呢,我们有一个预测的 一个词,叫做薪薪资,那这个呢是我们需要去预测的,也就是啊,我们把它叫做歪, 然后剩下的咱们每个变量来讲,他有三个特征,那相关工作经验是一个特征,然后是否有 a, 是否是 ai 岗位是一个特征,然后是否是一线城市,他是一个特征,所以我们总共有三个特征, 然后对于这个数据来讲,我们总共有一二三四五六七八九九个样本,然后我们分别把每个样本标记为,比如说这个样本呢叫 x 一,这个样本叫 x 二, 那这个样本是 x 九,然后每个预测值呢,我们把它叫做 y 一, 歪二一直到歪九,这是我们要预测的一个值,然后呢每个样本我们也知道他是有三个变量来构成的,也就是三个特征。 好,那接下来我们想通过一个线性的模型来去,你和他那线性模型,我们也知道他有两个参数,一个叫 w, 一个叫 b, 然后在一元线性回归模型里呢啊,因为我们只有一个特征,所以 w 本身他是一个标量, 他是个具体的值。但是现在我们考虑的是一个多元线性回归,也就是也就是说每个变量就是每个, 咱们这个,每个每个样本他有多个特征,所以这个时候我们的 w 应该是一个项链。 那在这里呢,我们总共有三个特征,所以我的 w 他的一个大小应该也是三位, 所以这是多元线性回归跟一元线性回归之间的一个主要的区别。所以针对每一个变量呢,我们其实需要有一个参数叫 w 一,比如说 w 二和 w 三, 就是针对每个参数,我们需要有一个啊,就是针对每个特征,我们需要制定一个参数,然后呢我们这个预测值呢? 怎么得到的?比如说我们这个预测值叫薪资,那我们可以这么表示,比如说薪资,他 他的预测值,他等于我的工作经验, w 一呈上一个工作经验, 加上 w 二乘上第二个特征叫 a i 岗位,我们简写一下,然后呢 w 三呈上咱们的一线城市这个特征,最后加一个偏音量叫做 b, 所以我们是通过这个方式来得出新的啊这个薪资的。所以在这个情况下,我们可以看到我的参数有 wb, wb 是我们的参数, 但是这个时候呢,我的 w 他是三位的项链,因为我有三个特征,所以每个特征啊,这个下面我都有一个 w 的一个参数,然后呢我的 b 呢?跟之前一样,他也是一个,他就是一个标量, 所以这是跟意愿限行回归之间最大的区别,所以我这边 w 就变成了一个项链的形式。那下面我们来具体看一下这个样本,那针对于第一个样本,我们知道他的预测值呢是二十,所以啊不是预测值,是他的一个真实的 只是二十,所以 y 一等于二十, y 二等于三十,所以这列代表的是咱们每个样本的一个真实的值。那这个预测值我怎么去算呢?比如说针对第一个样本,我的预测值呢?我们根据这个方程可以得出他的预测值,我们这么表示歪的预测值, 那这里的五加一的预测值等于二乘以 w 一二 w 一,零乘以 w 零 w 二,然后呢加上一乘以 w 三, 然后呢再加上咱们的这个偏音量叫 b, 那类似的,那剩下的,比如说 y 二的预测值等于三乘以 w 一,三 w 一加上零乘以 w 二是零,然后呢一乘以 w 三, w 三加上 b, 然后呢,针对于 x 九也是一样的,那 y 九他的一个估计就是预测值等于五乘以 w 一,加上一乘以 w 二,然后加上一乘以 w 三,再加一个骗一辆叫 b, 所以这是预测值,这是真实的值。然后呢,对于多元线性回归模型来讲,那我们仍然需要学出来的是 wb, 而且我们在这里也可以表示出他俩的一个误差误差,也就是 y 减去这个 y 的平方,我们可以算出来的,我们列一下,那这个误差呢? l 等于每个样本那个误差值,那第一个样本的误差呢?其实就是这个二 w 一加上零,加上 w 三加上 b, 减去什么呢?减去咱们这个预测值叫二十二十的平方加上第二样本的误差误差, 那这个是这是预测值零,这是三三 w 一,然后呢 w 三 减加上 d 减去我们预测值交三十,然后一直加到咱们第九个样本,那这是五 w 一加上 w 二加上 w 三加上 b, 减去咱们他的一个真实的值得平方,所以这个就是我们的 l, 也就是我们的目标函数,那通过最小化咱们这个函数呢,可以得出 w 和 b 的这个值,就是每个 w 一, w 二, w 三我都可以求出来, 那这是我们接下来要做的一个优化的过程,其实跟一元现行回归模型其实没有本质的区别,唯一的区别就是我原来的参数 w 原来是标量,现在是变成了什么呢?项链的形式,他是多维的项链。

那接着我们来看多元线性回归模型的情况,然后我们这里面给出了一个样本数据,然后呢总共有四个样本,但是这个样本呢他有多个特征,然后在这个特征里面, 其实这里面有个叫 pos 的,那这个 pos 他是一个预测的变量,也就是希望通过其他的特征来预测这个 pos, 那这个我们应该如何去解决呢?然后由于我们使用的是多元线型回归模型,所以呢每个特征我们会有针对的一个权重,那这个权重呢?我们可以把它认为 这个特征在线性回归模型里面他的一个重要性,那比如这里的 carry 这个特征很重要,那有可能通过模型学出来的,他的权重也是更大的。那我们接下来看如何我们通过一个式子来表示我们刚才所谓的这种多元线性回归模型的这种 关系呢?那在多元线性回归魔性里面,那预测变量和所有其他特征之间的关系仍然是一个线性的关系,所以呢我们可以写成 prass, 那他呢是一个预测变量,那这里的 prase 可以表示成所有特征变量之间的线性的关系,所以呢我们有一个权重 w 一,然后呢他应用在 这个特征里面,然后咱们第二个,第二个权重 w 二应用在 cat 这个特征里面,然后一直加到咱们 g, 对吧? g, 那总共有啊九个特征,所以最后是 w 九乘上 g 这个特征里面,那还有一个,还有一个就是我们需要加一个偏音量叫 b, 因为在线性回归里面,我们总会有一个偏音量叫做 b, 那这个我们也把它叫做因特塞,对吧? 然后有了这种关系之后呢?相当于针对每个样本,对吧?我都可以写成这样的一个,一个跟每个特征相关的一个线性的关系,所以啊,比如说第一个样本,对吧?第一个样本我们把它叫做,那这个 plus, 这是他的一个预测值啊,所以呢,第一个样本就相当于 w 一乘上零点二三,然后加上,比如说 w 二乘上 id, 我们先这么想,然后呢加上,比如说后面的这一些这一托像,然后呢最后就是 w 九乘上二点十三,然后呢加上 b, 所以这是针对于第一个样本的他的一个预测值。

大家好,我是阿布主小牛奶,今天呢来给大家介绍多元 logistic 的回归,那么这个多元咱们之前是讲过二元的 logic three 回归,就有很多的同学就问我啊,这个多元呢要怎么做?这个结果要怎么看?今天就来给大家讲这个, 首先呢我们还是来复习一下什么是多元 logictoe 回归啊,首先看这个 logictoo 回归啊,他是什么意思呢?他其实就是一种回归分析,只不过呢他的变量是分类的,什么叫分类变量呢?比如说 你是男的还是女的呀?对吧?他只有两种分类啊,你是及格了还是优啊,还是良啊,还是差呀,对吧?那这是几种分类?那么这种呢就叫分类变量,在对分类变量变量进行回归的时候,我们就要应用到这个捞,这次又回归了,那么之前 咱们讲过二元的多元的,顾名思义呢,就是我们这个分类啊,分类中有很多种分类,比如说男和女就叫二元的分类,那么假设说啊,优良中差啊,这四种就叫四元的分类,也就是多元的分类。 那么我们做这个多元了,这个回归的时候呢,要是具体怎么去操作呢啊?我这里呢也是啊,随手找了一些数据,这些数据呢可能不是很好啊,但是呢咱们今天就拿它来举例, 首先呢我们点开这个分析中有一个回归,回归中有一个多元 logystick, 我们点开它,点开之后呢, 这个音变量啊,顾名思义就是把我们这个啊受影响的这个变量放在这里,然后 后呢我们把其他的资本量,也就是因子放在这里,然后呢在这个模型中啊模型,嗯,我们看一眼啊,就用它默认就可以。在这个统计中呢 有几个重要的值,我们要勾选上,就是这三个值,单元格、频率分类表,还有你和优度啊,要勾选上勾选点继续其他的我们全部就用他的默认选项就可以啊,给大家看一下。 好,然后点击确定,点击确定之后呢会生成啊这么一些东西。首先呢我们主要是看这四个表格, 模型你和信息,你和优度、 vr 方,还有这个四然 b 检验,我们先看这四个标准。首先呢我们看这个模型,你和信息,我们发现 他的显著性是大于零点零五的,这这个还比较巧,我这个例子他是零点零五一是比零点零五大的,那么我们知道他比零点零五大,那他是怎么着啊?他是不是就不显著了?不显著就代表这个模型他不显著, 那么这个时候我们就要对模型进行一个调整,那怎么进行调整呢?我们看第四个表格,他虽然比简约中啊,我们看到各个变量的显著性啊,都有一个体现。那我们看到这这里面的显著性,是不是我们发现 第三个您的家庭婚姻情况,他的这个显著性最大的,也就是说他其实上实际上他是最不好的一个变量,也就是说最不能解释啊, 对我们这个事情进行解释的一个变量,那我们在模型调整的时候就可以把这第三个去掉啊,我们把第三个去掉 清除,清除之后呢,我们用同样的方法再做一次,再做一次,这时候我们就发现 他的显著性已经到了零点零幺七,这个就已经小于零点零五了,对吧?那么这个就可以用了,就可以用了,这个模型就可以用了,接下来我们看你会有度, 牛油度,我看到这非常高啊,是一点零,这已经非常高了,一般牛油度就是零点六以上,对吧?然后这个尾 r 方啊,这个表格实际上不用太过于参考,因为我们知道真正的多元回归,他是很难去解释 啊,用看这甲方,真正的多元素的 r 方是不会非常高的,所以说这个表格我们作为参考就可以,主要看你和有度就可以。然后看这个自然笔,那个自然笔啊,实际上不是特别的理想啊, 总的来说,这三个别量对于这个事情来说,他都没有非常显著的影响啊,这个最好也是小于零点零五,那么我们现在假设他小于零点零五啊,因为我们有更多的这个数据了。假设他小于零点零五,我们 看下面这个表格,然后给大家告告诉大家具体怎么去看他下面的这个结果。 我们看这个结果非常乱啊,他分为这个二点二、二点四、二点六,一直到 这个三点八,是什么意思呢?就说我们这个结果呀,嗯,对环保问题认知程度,这个结果从二点二到三点八有这么多个结果,那么每个结果中呢? 他又有不同的分类,比如说根据年龄分类,根据性别分类,根据学学历去分类。那么具体怎么去看呢?我们要这么看看显著性这一例, 显著性这一列如果出现小于零点零五,我们就抓住他,好,我们现在往下数啊,这点没有没有没有, 找一个零点二五九,这个也不行啊,要小于零点零五,没有没有,零点零九七不行,零点 二零九二不行。 哎,终于出现了,哎,不容易啊,哎,打车了,在这不容易哈,我们在三点八的这一个结果中, 终于在学历这块找到一个小于零点零五的,对吧?这是零点零二五,那这是什么意思呢?也就是说 在当学历等于二的时候啊,这二我忘了是什么了,因为他分一二三四五,假设这个是小学,中学啊,本科研究成博士,那就是说中学的学历对于他的这个环保 得分三点八,环保意识得分三点八的这个情况下,他的影响是显著的,对吧?他的影响是显著的,也就是说 这个中学的学历啊,对于这个选项的时候是显著的。那么同理,假设说其他的啊,因为我没有看到我这个结果中其他小于这个零点零五的数啊,假设其他也有,也有这样的数 啊,你往下排,可能他有四啊,有五啊,将来你做的时候,对吧?他有四有五啊,哎,你发现这个学历越高,比如说他到了本科,到了硕士,哎,他的这个环保,这个 环保认知的程度呢,越来越高,但是你可以就可以得出一个结论,对吧?什么结论呢?就是说学历越高, 那么对环保的认人程度就越高啊,这个就是多元了,这次回归的一个大概的啊,模型的检验啊,就是他结果的意义, 那么具体呢?我这没有比较好的数据,所以说比较抱歉啊,大家可以根据自己的数据然后去做啊,希望大家做的结果,比如我这个要理想啊。