today, let's talk about imperfect multi culinarity, 非完全 or 不完全多重贡献性 and in the video later, you will see that first, i'll give you the comparison between perfect and imperfect multicolinarity and then use a regression with only one regressor to show you how the variance of x could affect the standard error of the coefficient of x in the regression and then use the regression with two regressor to show you how this imperfy multicolinarity affect the variance of x one or x two and how would this variance of x one, x two affect the standard error or variance of b one and b two okay without further do let's get into the class let's talk about imperfect multicolinarity imperfect multi coloniarity last time we talked about perfect multi coloniarity and also dummy variable trap which is just an example of perfect multicolinearity perfect an imperfect multicolinearity are quite different despite the similarity of the names let me give you the comparison let me use the regression with two regressors as an example for perfect multicolinarity a definition and it says perfect multiculinarity occurs when one regressor is an exact linear function of other regressors here we have only two regressors so you can ride this way x1 is an exact linear function of x2 if this is the case we say x1x2 are perfect colinear or this linearity is perfect perfect multicolinearity and the intuition behind it is when x2 is hel constant and there's nothing change in x1 when x2 is hel constant x1 is also constant so you cannot estimate the effect of change in x1 on why when x two is a hell constant right again because when x two is a hell constant there's nothing change in x one, or that they do do not contain any information about what happens when x two changes, but x one doesn't or vice versa right, but for imperfect multi culinarity it says this x1 is still linear function of x2, but this culinarity is not perfect plus error term they are not perfect perfectly colinear x1x2 are not a perfect colinear so when x2 is held constant and this part of x1 is constant, but x1 does not only include this component, but also have another component eratron, so you can use x2 to explain some variation in x1, but the rest of the variation x1 can be explained by some error term so, or in other words when x1 and x2 are heidi correlated we say there is imperfy multiculinarity problem in other words imperfee multicolinarity occurs when two regressors are very heidi correlated then we call this imperfee multicolinarity so the logic is pretty much the same let's understand the in two intuition behind this imperfy multiconinarity so the logic of the intuition behind it is the coefficient on x1, which is measured by b1 right b1 should give us the effect of change in x one on y, when x two is hel constant, but the thing is if x one x two are highly correlated there is a very little viration in x one when x two is hel constant right when x two is hel constant there's a very little change in x one if x1 x2 are highly correlated, but for the perfect moleculinarity when x2 is hell constant there's no change in x1 in perfect multicolinarity when x2 is hell constant there's very little change in x1 in other words the data don't contain much information about what happens when x1 changes, but x2 doesn't okay so when there is a perfect moleculinarity the data do not contain any information about what happens when x1 changes, but x2 doesn't and once you understand this intuition behind it you can you can pause this video and think about what will be the consequence or what will be the effect of this imperformatic culinarity on this ols assimators especially the b one and the b two so pause this video and think about it what effect this improfiemodic culinarity would have on these ols estimators b1 b2 before i give you the answer let me just review this this idea, but when the regression only has one regressor we know we are estimating the regression line right so this is y and this is x we have scheduler plot number observation suppose n is a hundred and let's compare these two situations same number observations this y and x we only have one regressor and then we are estimating regression line so this this is the variation in x a hundred observations indicate a hundred points and then you can draw the regression line through this points a less regression line versus you have this a hundred observations you see very little variation in x and then you draw a regression line based on these a hundred observations like this which case is better or which case will give you a better or more precise estimate okay think about it which case will give you a better or more precise estimate of beta 1 beta 1 is the true effect of changing x on y or the coefficient of population regression and we know that b1 is point estimate of beta 1 right so this is a b1 follow normal distribution and this is a beta 1 b1 is just an estimate of beta 1 so if the b1 has a very small variation versus this case this is a b1 and this is a beta 1 but the variation is very large this very large variation any point along the x x's gave us the point estimate of beta 1 or a value of b1 so in this case the variance or standard division b1 is small in this case variance or standard division b one is large and which one is better of course we know that this one is better this is the magnitude b1 but standard error b1 is equally important we're using standard error b1 to construct confidence interval for beta 1 and also do have part of testing or whether beta 1 equals zero so this is a better case if this is a case we say beta one is precisely estimated if this is the case compare the case above indicate beta one is imprecisely estimated and which a hundred observations can give you a more precisely estimated estimator this one in order to have a small standard error of the ols estimator b1 we need a large version in x so another for b1 have a smaller standard error or smaller variance we need a large variation in this independent variable x so you can also tell this? you can also see this relationship from the mathematic expression of standard error of b1 let me show you this so when you have only run regressor you have this variance of v1 equals 1 over n variance squared of of this variable x minus x bar times error divided by variance of x squared this is based on regression with one regressor okay you see when standard deviation of x is large that means the denominator is large when denomina is large a value divided by a large value make variance will be one smaller and take a square root standard division of be one will become smaller and so larger the variance of x and the smaller the standard division or b one if the variation in x or variance of x is small you see the range or another measure of dispersion the range of x or dispersion of x or the variance the x is very small which indicate that denominator is small lower denominator higher variance of v1 okay if the b1 has a large variance and the beta one is imprecise estimated if x has a large variance and denominator is large and variance of b1 will be small beta one is precise estimated this is good ok bear this in mine and then you look at this regression with two regressors so y equals b zero plus, b1, x1, plus, b, two, x2 and plus error if there's imperfectly multiculinary in other words x1x2 are highly correlated are very highly correlated that means when one variable is held constant there is a very little variation in x1 very little version x1, which will result in a large standard error in b1 so standard error b1 will be large same thing when x1 is hell constant there's a very little change in x2 so the result is the standard error of b2 is also large that is the consequence of imperfect multi coloniarity the imperfect multiculinarity will cause the standard error of the coefficient b1 or standard error of coefficient b2 increase again imperfy multicolinearity results a large standard errors for one or more of the ols coefficients if the standard error is large we say beta one is imprecisely estimated and beta 2 is imprecisely estimated you see the improphimodical generity has nothing to do with the magnitude of b zero b1, we know that there are four least square assumptions for causal inference right, no correlation and so conditional means zero right conditional means zero so that's expective value of error given x1, x2, equals zero and iid and no perfect monoclinarity and no extreme allyers as long as these four lead square assumptions are satisfied be one will be unbiased right which means expective albei one equals beta 1 if there's no correlation between x2 and error once x once hell constant there's no bias and b2 right that means b2 is also unbiased has a causal effect if x1 is our variable interest these four conditions are satisfied b1 will be unbiased so you see this four least square assumptions for causal inference does not require no imperfy moleculinary that means the imperfect body culinarity will not affect the magnitude of the value of b1 b2 however, it will affect the standard error of b1b2 in practice if you run the regression with two regressors and then you find b1b to our significant and then you consider add another regressor x3 when you add this another regressor x3 all of a sudden all the coefficient become insignificant and that's a sign of imperfy multicoloniarity another thing i want to add to this video is you see i give you this verance of b1 which is only apply to regression with only one aggressor and now if you have regression with two regressors and how to find how to calculate or what are the expression for variance or standard error of b1 so let me give you that expression just for your reference so variance of b1 which is based on regression with two regressors and that equals one over and times one over one over row squared that's correlation coefficient between x one x two squared times variance of error variance of x1 that's the mathematical expression for variance of one based on regression with the two regressors you see how this variance of error that indicate in this case errors are homoscadastic okay so when correlation coefficient between x and 1x2 is large so one minus a large value denominator is smaller, lower denominator and enlarge the variance of b1 again when x2 is held constant fx1x to are very highly correlated there is very little change in x1 in other words, variance of x1 is very small which will cause standard error of b1 to be large which will increase standard error of b one when standard error b one is large in a beta, one is imprecise estimated okay you are using standard arb1 to estimate the confidence interval for beta 1 and a test hypothesis that beta 1 equals a value so you can easily find your coefficient not a statistic significant because of this imperfect multi colonarity yeah hope you find this helpful i hope you find this video helpful and to reduce the lens of the video i will talk about the remedy of this problem in the next video okay in the next video i might talk about the you know the the remedy or what we could do to mitigate the negative effect of imperfect modic culinarity on the regression model so stay tuned and see you next time bye。
粉丝2.6万获赞3.0万

我们今天主要来说一下,当我们去做时政性论文的时候,导师或者学校要求我们去做 state 面板数据回归的时候,我们要去做的一些板块。那么首先的话就是说我们面板数据的一个适用性,它的话比较适用于我们的金融、经济、会计、统计等等这些啊,偏经济类型的这个专业, 我这些专业的话,可能,呃做这个面板数据回归的话,他的嗯通过率会稍微高一点,那么下面的话就是做这个输了面板回归的这个主要内容。咱们这一次的这个 呃视频的话,主要是针对我们的这个说论写作的啊,主要是针对写作内容去进行的一个说明。那么我们写作内容的话主要分成这以下八个板块, 第一个描述性,第二个多重贡献性,三相关死模型啊。到第八个,那么我们针对每一个板块进行一个简单的说明。首先就是我们的描述性分析这块,我是截了一个已经发表的这个论文,那么这个文章的话,呃,我们看一下描述性分析,一般情况下他的这个模式就 下面这个图表,哎,他第一列就是咱们的变量,第二列是个数啊,就是你收集了多少组数据,然后我们一般情况下去标注的数值就是极大、极小和均值标准差,那么通过极大值、极小值还有我们的均值的话,我们大概就能知道这个变量他目前处在哪一个。呃,分级上, 比如说我们这个 to be q 值,他指的是这个企业绩效,那么我们看最小值零点七,最大值十三,他的均值在百分之,呃在二,那就说明我们所收集的这个研究对象,他整体来讲企业绩效是处在较低水平的,对吧?他二和零点七,呃,零点七和十三,哎,我们去去取他的均值的话,可能在七左右 啊,六左右,那么呃实际上他的均值在二,那他远远小于我们理论上算出来的均值。所以啊,这块的话,我们可以通过这种就是比较简单的方式去描述一下。那么标准差的话,他指代的就是我们说了我的整体他处在一个中等偏下的水平,那么各个企业之间的差异大小情况是怎么样的?我们就从通过标准差去进行一个说明,标准差 他越大,说明各个企业之间的波动程度越大,这是这个描述性分析。那么描述性分析他的目的主要就是去说一下我们整体收集了一份数据,那这个数据假如说我们是对企业去进行描述的,那我们收集了这些企业的分布情况,大致一个怎么样的一个情况?有没有一些极端值? 比如说这个透明 q 值,我们都知道企业绩效,那如果说我有一个极大值,他是几千或者几万,那可能这块就有点问题。我们通过这样子简单的一个排布就能够看出来我数据第一个我数据有没有问题,第二个我数据的这个均值情况,他是否符合现状啊?跟现状去对比一下,如果跟现状严重不符合的话,那也说明我们的数据是有问题的。 所以这块的话就是去简单看一下数据的分布情况,看一下数据是否贴合实际情况,那么我们做描述性分析代码的话,这是一个呃简单的代码,然后第二个的话就是多重贡献性检验,这个的话,嗯,其实有一些争议,就是有些人觉得呃不应该去写这个多重贡献性,就没有必要去写,有些人他又觉得这个多重贡献性 他是呃比较有必要的,那么我们在这块的话就可以根据实际情况啊,就是说如果我们你可以看咱们学校呃历年来的一些文章,他有没有写这个都是关键性,如果没有的话,那咱们也可以不写,如果有的话我们就给他加上,或者后期导师要求加上的话,我们就给他加上。 那么这个多重贡献性的话,他的本意是想去说我所选择的这几个变量,他的多重贡献性就是他的,他们之间没有一个强相关性, 那呃啥意思呢?就是说假如说我选了 x 一到 x 七七的变量,那如果说我 x 一和 x 二它们两个的这个相关性非常强,比如说 x 一和 x 二相关性零点九几, 那那是不是就说明 x 一和 x 二他们所解释的东西啊?有百分之九十的这个信息都解释的是同一个,那我 x 一 x 二保留一个变量就可以了,对吧?那多重贡献性的话,他其实就是去呃降低因为变量和变量之间相关性太高而导致的。对,最后我们的回归结果的一些差异,那么我们通过多重贡献性检验, 我们主要是通过这个 vif 的值,如果 vif 是小于十的话,我们就认为没有严重的都是贡献性,那如果有的话,我们就得把有都是贡献性的那个值给他剃掉,然后他的代码啊,就是这个代码。 然后第三个的话就是咱们的相关性啊,相关性他的表格的话展现就是这样子,一个倒三角的形式,然后里面的这个值的话,就是我们的相关系数啊,一般是负一到一之间,那这个相关系数的话,嗯, 也是有一些问题,就有些人觉得相关系数是不是越大越好,或者啊负向的越大越好,其实这个值的话就是多少就是多少,我们主要看后面的这个显著性。当然如果你的相关性太大了,他并不是一件好事。就我刚才提到的,如果相关系数,就你的所有变量之间的相关系数,他都非常大,比如说都大约的零点八、零点九, 那么我们就可能啊变量之间存在这个严重的贡献性,哎,导致你后面的结论可能有问题。那么我们一般的这个思路就是我先做一个相关,然后我通过相关发现,哎,我的这个系数啊,我的相关系数的话,他都比较正常,就是,哎,零点几啊,零点一, 一级,二级啊,三级啊,这些其实都正常的啊,如果没有那种满天都是零点八、零点九或负的零点八、零点九,那么我们就不用做,都是贡献性。如果你满天都试的话,你就得做一下,看看要不要去提出变量, 这是相关性分析。然后这是他的一个代码啊,这个代码简单说一下,这个前面的这个的话就是他的命令,然后后面这个变量的话,就是你要做相关性的所有的变量,把他的名字给他打上去,然后销会说啊,他就会输出来这样子的一个表格。 然后接下来的话就是我们要做回归分析,那么相关性分析论初步论述了两两变量之间的一个相关性,那么我们要进一步去论证因果关系的话,是要去通过回归分析。那么面板数据和洁面数据不一样的点就在于我们在用 面板数据去做回归的时候,是要有一个检验的,就是面板数据他有三种模型,第一个模型叫做固定效益模型,第二个叫做随机效,第三个叫做混合效益模型。那么这三种模型的话,并不是说我预先一开始我就知道我要用哪一种模型,然后我就直接用,他是要根据我们的数据去进行检验,然后 得出来我的数据最适合于哪一种模型,它是这样子的一个思路。那么对于我们经济学来讲的话,我们一般情况下用到的模型最常用的就是固定效率模型, 然后对于一些比如说,呃,心理学呀啊这些这些专业的话,他可能就更常用到的随机效应模型啊,最少用到的就是咱们的混合效应啊,如果用混合的话,那其实可能就说明我们的这个面板数据他,嗯 啊,这个不太适用于啊,不太适用于去做一个面板数据了,所以在这块的话啊,有一个这个模型检验的这个图,这个图的话就是我们分别要做的检验,然后这个 f 检验的话,我们只带就你做 f 检验,可以从这两个模型里面去挑出来一个你,我们就发现这个检验他只能从凉凉里面去挑,所以 我们要从三个模型里边挑出来一个最适用于的模型,最适合的模型的话,我们至少得做两次检验。那比如说我先我一般的,我们一般的常规速度,因为咱们是固定小于模型,就是这个 f e 模型,这个是固定小于模型,然后这个 p o l 是我们的混合 r e 的话是随机 效应模型,那我们一般呃选择的是固定效应模型,所以咱们的顺序就是先做一个 f 检验,那么做 f 检验我们显著呃这个 f 检验的这个结果通过了,那么我们就说我在呃固定效应和混合效应模型里面选择了固定效应,但是随机效应我们还没有检验,所以我要再进行一个 hostman 检验, 进行下面的这个笔检验,那么下面的这个检验就能从固定和随机里去挑出来一个。当你的 f 检验和 hostman 检验同时都通过,就是 p 值小于零点零五的时候,我们就选择固定。当你 f 检验通过, hostman 检验没有通过的话,我们就选择随机啊,这是这个,然后分别呃下面的话分别就是它的两个代码, 然后这块有我们需要改的就是这个 y 指代的就是咱们的音变量, x 指代的是自变量,到时候我们要把对应的自己的 y 和 x 带入就行,下面也是一样的, y 和 x 是要变的,其余东西都不用变。下面的话就是咱们的回归分析啊,或者说啊回归分析里面我们包含一些中介机制呀,调节机制的检验,那么我们一般会把表格做成这样子的一种形式啊,做 这种形式,然后他的这个,嗯,代码的话,我们就在这边啊,一般情况下我们选择固定效应模型的话,就上面这个代码,当然这个代码的话,他他并不是说唯一的这个代码是最简单的一种代码,就我们直接一看我大家就能记住了,哎,这就是做固定效应模型的一个代码,那么如果我们想通过代码把这个输出的结果,因为他用这个代码输出的结果,嗯,非常的这个 就是不像,不像这块这么美观啊,不用你再去调整啥,你这个做出来的那个表格的话,他还需要你后期进行整理,整理成这个样子,所以啊,这个这个代码他就不是唯一的,我们还有一些其他的代码,但是比较复杂一点,他能够帮助我们去把表做成这个样子啊,这是我们大概了解一下, 这是回归分析,那么回归分析的话,我们主要就是去解释在这一块的时候,他就跟相关系数,相关分析那块不一样了,那我们通过相关分析可以简单的去描述一下边两两两之间的一个相关性,那么在回归的话,你就重点得去解释一下我们的回归系数是正的还是负的啊?是大于零还是小于零,然后解释它的显著性是 在多少的水平下显著,对吧?然后括号里的值,我们一般把它叫做呃 t 检验的值,这个值其实跟星号他们两个所代表的呃就是他们俩,他们俩所所展现的内容其实是相同的,都是在说我得到的这个回归系数他是显著的, 然后呃基本上星号和这个 t 值是呃对应关系啊主,然后如果,比如说我们自己的数据呃不太显著,然后有人把这个数据给他改了,哎,比如说,比如说这个值对吧?负的零点五六二六,那他本来是不显著的,然后我们呃可能有些人把它改成了显著,然后他下面的 t 值没有改那么一眼,那就是咱们了解 stata 的人一眼就可以看出来这两个是不对的啊。这是这个回归分析 下来的话,就是咱们的一个稳健性,检验稳健性的方法非常多。啥叫稳健性呢?就是我用另外的一种方法去验证一下我刚刚得到的这个结论是不是正确的,或者说我得到的结论是不是一个偶然性的结论。那么我们稳健性的方法的话,就比如说最常用的替换变量法,第二个的话就是改变呃 年份,就比如说你原来研究的是呃一零年到二二年,那我现在把它改成一五年到二二年,再次做上面的回归,看一下结论是否一致。那么替换变量法的话,顾名思义就是把我们某一个关键变量的量化方式给他换掉,那么咱们一般替换变量主要是替换音变量, 因为应变量是贯穿始终吗?不管你哪一个分析,他应变量都要参与,所以我们一般就把这个像这个企业绩效,他原先用的是这个 topico 值,我们就可以把它换成比如说这个企业的资产报收率啊,企业的净资产收益率啊等等这些指标。那么把这些变量换掉之后,我再一次去做上面的这个回归,看一下结论是否有差异 哦,但是要注意的是这个结论是否有差异,并不是只代到我的回归系数一定要相同,或者我的显著性一定要相同,这块指代的就是我所用两组数据做出来的结果。哎,他的正负性是否一致啊?他的显著性是否都显著,不用去管那一颗星,两颗星还是三颗星,只要他都显著就行,这是稳健性。嗯, 我们先从这个内生性检验的含义来讲,他就是说这个模型中一个或多个解释变量与误差项存在相关关系,那么说白了,这个解释变量就指的是咱们的音变量字变量,误差项指代的就是我们对音变量有影响的其他变量。那我举个例子,比如说我们去论证学习态度对对学习成绩的关系,那么 存在内生性的这个从他的含义来讲的话,就是我们的这个自变量学习态度和影响学习呃,成绩的其他变量存在相关性。如果有这种关系的话,我们就说,哎,可能会存在内生性问题, 那么呃,他并不是说,哎,他这个含义是这样子的,但是并不是说产生内生性就只有这一个原因。我们产生内生性的原因非常多,这里我们主要说 写作过程中最常遇到的第一个叫做遗漏变量。这个遗漏变量的话,其实就是在说我们文章中,因为你一篇文章研究的内容是有限的,你不可能把所有的东西都研究透,所以肯定会存在遗漏变量问题,那么你遗漏的那些变量就可能会与你的字典 有关系,就我刚才说的这个学习态度,他可能和一个我们没有研究到的,但是能够对音变量学习成绩产生影响的啊,有关系,他们俩有关系就可能会有内生性问题。 第二个的话就是互为因果,互为因果的话就是主要指咱们的呃解释变量和背解释变量,也就是字变量和音变量之间,我们理论上是认为字变量去影响音变量,就学习态度会影响我的学习成绩,但是有有很多情况哎,比如说我觉得这个例子 反过来也是可以的,就是当我的学习成绩比较高的时候,我的学习态度其实也会有一个变化,这个就是互相影响,互为因果,那么互为因果的话,他也会导致我们的内生性问题。当然还有一些其他的,我们这里就比如说一些呃存在测量误差呀等等等,我们在这块就不再去赘述,因为他呃没有办法解决啊, 就是在我们的写作过程中。然后第三个的话就是我们当我们存在内生性的时候,我们常用的最常用的办法叫做或者说呃文呃写作过程中最常用的办法叫做工具变量法,但是还有些其他的,我们这块就不过多展开。 然后我们对工具变量找寻的要求的话,有下面这两个要求,第一个的话就是要与 x 有关,第二个与 y 呃影响 y 的其他变量无关,也就与我们的残差项无关。那么这块怎么样去解释呢?就是内生性问题,我们用工具变量法去呃去检验它的时候的逻辑其实是这样子的, 是我们现在说 x, 它和我没有研究到的,但是能影响 y 的变量,它有关系,所以导致了内生性。那我现在能不能去找一个工具变量,它既能够, 嗯,跟 x 有关系,就是它既能够代替 x, 然后它又与这个影响麦的其他变量无关。那如果我能找到这个变量的话,我就可以拿这个工具变量指代我的字变量去进行回归分析,那这样子的话 就能够确保我的这个自变量就是咱们的工具变量,到时候就变成了自变量嘛,就能够确保咱们的自变量和呃残差效是没有关系的,那这样子就能够确保最终的结论他是不存在内生性的呃,但是往往呃我们工具变量的找寻的话,它的难度非常大。就是我们 如果是说论或者不是论文,甚至本科论文,如果我们要去做内生性的话,其实一般都不建议我们自己去创造这个工具变量,我们一般都是去别人的论文或者文章里面去找,比如说我还是刚才的例子,我们去验证学习态度和学习成绩等。然后现在我导师说了,这有内生性问题,你得去找一个工具变量, 我们就在织网里这两个变量作为关键词,去搜别人研究的相关文件,去看一下别人在去解决内生性问题的时候用了什么变量,我们直接照搬过来啊,当做我们的工具变量直接去进行使用就行。 下来的话就是最后一个我们的抑制性分析啊,抑制性分析的话他呃就比较简单了,他实际上就是把研究对象去分类,然后重复的进行回归分析,他实际上,呃,因为有,有时候有有些人把抑制性他叫做检验,严格来讲的话抑制性我们一般是一个分析的内容,就是我对回归分析的进一步说明,那我回归分析,假如说论证出来 这个自变量对音变量有一个显著的正向影响,那我的意志性就是我把我的研究对象给他分成呃细小的类。比如说刚才是对企业 进行分析的,那么我们把企业分成了这个江苏,把企业按照不同的省份给他分类了,分成了江苏省和浙江省,那么我对不同的省份去进行一个回归分析之后发现,哎,是不是浙江省和江苏省他们两个之间的回归结果是有差异的?那如果有差异的话,我就要去解释一下为啥这两个省之间有差异。 当然这个分类的方式的话,他并不是唯一的,也不是说固定的,我们要根据自己的研究内容,比如说你是企业,那你就可以分成国企、非国企,那如果你是研究污染相关的,你就分成污染企业和非污染企业,还有咱们的一些呃,大规模呀、小规模呀,甚至企业成立的时间等等。

多重贡献性检验及其处理方法在多元线性回归模型中,自变量 x 之间线性相关的现象被称为多重贡献性多重贡献性检验。 一、相关系数检验法如果两个字变量之间相关系数较大且接近一,则可认为存在多重贡献性问题。二、 wave 检验法,一般认为 wave 值大于时则存在多重贡献性问题。出现多重贡献性问题时,常用的解决办法有以下四种,一、 一、手动剔除变量。二、逐步回归。三、领回归。四、增大样本量。具体操作方法以及原理说明可以登录 扫查看对应方法的帮助手册以及完整教学视频,你学会了吗?

论文存在多重贡献性?你可以这样做,一、移除贡献性变量,如果两个 x 之间相关系数大于零点八,则移除不重要的变量。二、领回归分析针对贡献性数据,领回归的耐受性远强于普通线性,最小二成回归。 三、逐步回归,逐步回归可以让系统自动识别有影响的 x。 四、主成分回归,将多个分析项浓缩成几个概括性指标,剔除对系统影响微弱的五 五偏。最小二乘法可以解决贡献性问题。能够多个因变量 y 同时分析,你学会了吗?


接下来咱们再来说多重攻击性,前面两关性的时候给大家讲到了多重攻击性就是有两个变量长得非常像,他会影响这个模型的你和结果他,我最好的方式他就是去除一个变量了或者怎么样。首先我们要判断他是不是具有多重贡献性, 你不能说光凭肉眼或者凭感觉来判断,这个软件会告诉你其中啊他的衡量标准就是这个最后盈利的 v i f 值, v i f 值在零到十这个区间之内,说明自愿量不存在多人供应性,如果是大于十小于一百,那就是比较强的,如果大于如果 大于一百,那就是非常强的。所以我们先来看一下这个模型他的多重攻击性强不强。先进行一个 v i f 值的鉴定,先点击辅右,这里有一个系数诊断,系数诊断这个单词,然后这里有一个 v i f, 记住这个首字母 v i f, 很快就能找到他,点击直接就输出了这样一个结果。看一下这个表格里面的数据啊, 这个数据大家看一下 v i f 都大于十,有些甚至有两个甚至大于一百,说明他们之间存在非常强的多重攻击性,对吧?然后如果他存在多重攻击性怎么办呢?那我们肯定要对多重攻击性进行修正哦。然后, 然后就来看一下这个修正的方式啊。修正的方式这里介绍了很多啊,我们这里主要采用的是逐步回归法,因为前边的方法各有优劣,但是逐步回归法是目前一个比较常见,也是使用最多,也就是说相对比较更科学的一种方法,然后,嗯,逐步回归法的原理是什么?大家自己看一下就行了。 好,逐步回归法怎么操作?我们来看一下。首先把它这个关掉,然后重新用方程打开,然后这里底下,这里是选择你的方程方式,前面我用我们用的是最小二乘法,现在我们用的是逐步回归法,逐步回归法就在这个地方, 这个地方就 一个逐步回归法,然后你点击了之后,你把 x 二和 x 三放到这个底下来,然后点击,然后这里把它的 p 值设置为零点零五, 点击这个地方。啊,设置为零点零五,点击确定,然后这样就输出了,就是这样一个结果,跟这里的是一样的啊。有些同学问你为什么把 s 二和 s 三放在后面去?你为什么不把 s 一 s 二放在上面,把 s 三放在下面,对吧? 逐步回归法的原理就是先等于 ax 一加 c, 就是先把 x 一放进来回归,然后后面再加入 x 二和 x 三。有人说我要先把 x 一和 x 二进行回归,然后后面我再加入 x 三,对吧? 啊?我来我们来看一下,我们记住呃,后方 x 二和 x 三的结果,其实后方 x 二和 s 三的结果就是 x 三消失了,然后 x 一和 x 二都是显著的, 然后我们来看一下这个方案,点击确定,然后这这样我们再看 s 一和 s 二, x 三,现在 他们都在,他们都还在,对吧?没有任何一个变量被剔除,但是 x 一仍然是不显著的, x 三也是不显著,只有 x 二显著,也就是说我们要剔除两个变量,但实际上我们 肯定是选择一个最优的了,我们肯定选择是剔除一个变量的好一点,怎么说呢,这个就是一步一步试,最多是两种就行了,先放 s 一,然后放 s 二和二三,或者放 s 一二三,最后放 s 三,看哪一种方法更好。明显的是这一个方法更好,我只不过没有把那个很多东情况从上面贴出来, 我放的就直接是最后的结果,然后,然后再来一次啊, 记得把爱 二给删了,准备空一个点击确定,然后这样就得到了这样一个结果,跟这个是一样的,然后我们再检测他是不是还有多重攻击性,直接在操作一部刚才的系数诊断 vif, 然后可以看到 他的 vif 值都小于十了,也就说他不存在多重攻击性的。这里就给大家介绍了怎么样?呃,就是用比较书面的文,文字大家自己看一下吧,就是直接照着念就行了, 大家练的时候自己也加入自己的理解,好吧,然后会背个八九不离十,这样你写的时候你不需要去翻 ppt 了呀,对吧?然后咱们接着来看下一步修正完多重工业性之后,还有什么东西需要修正的,还有一番差需要修正。

哈喽,今天给大家讲一讲如何进行一个数据处理,那就我们进行公司金融的数据的时候,比如像这种进行公司金融的数据的时候,我们,呃,这些数据处理是如何进行的? 大家可以看一下这篇管理世界的文章,也可以看到哦,他还有很多,今天我们就给大家讲解一下如何进行数据处理。对,然后我们首先把 c 他打开,点击这里。对, 我们把这个死给它打开,打开完了过后,我们点左上角会会有一个 file, 然后 import, 然后因为它是 excel 数据,所以我们点击 excel 数据,完了过后我们把这个数据找到,因为这数据已经被我下载好了。对,在这里,然后点 open, 然后他会读取,因为数据有点大,然后涉及到控制变量都会。我今晚把三个报表出来的,是平常大家平常用的控制变量全部都搞齐了。对, 然后他正在读取,这电脑可能会有点卡,因为数据要比量太大了,从一一年到二二年的数据,然后应该有二十多个控制变量吧。对,三个报表都被我下下载了。 对,这是三三包,就是指甲附带表,现金流量表和那个表,然后我们三个表都会给他下下下载下来的 啊,所以整个数据会比较庞大。然后本期视频呢?呃,也分三个视频来给大家去逐步去讲解。然后第一个视频主要讲解的是,第一我们如何导入 数据,呃处理数据,然后第二步是我们如何进行剔除。呃,缺失值, st 企业、金融企业。对,这里这都是我们常用的,大家可以看到顶刊,顶刊也是会有这种处理方方式方法的,你看他看这篇文章的话,他就是说,哎,我用呼声 ago 数据,然后二零一一年到二零二二他是用的 八年的数据,然后他是第一剔除金融类房类房地产企业,第二个就是 st 和推迟企业,第三个就是说呃,针对 ipo 的这个和我们因为有些文章他需要,有些文章不需要,所以这不是一个 范式讨论,所以我们基本会处理第一类处于金融企业, st 和呃推市企业,然后呃这个也是看个人吧,我我是比较喜欢是三连冠的,对,三连冠以上的五连冠有点多的,然后剪刀再进行缩微检验。那我们首先第一步就是呃导入数据,大家可以看到 ok, 这个数据已经被我正在导入这里是状态了, ok, 这三包, 呃,这第一个是大家都可以看到,这,这财富代表,第二个就利润表,然后第三个就是 ok, 就其实就很简单,就是现金流量表,那我们首先做第一步, 对,然后第一步的话,哎,我们导出,导出完了过后,然后我们进行这个,首先我们进行公司规模的这个处理,公司规模,公司规模就是用 size 去来表示,大家经常用 size 表示,用 im 资产总计,然后就生成了一个,然后可以看到这有缺失三个数值,然后就生成了一个新的变量, 然后这边上你看为了之后我们方便了,我们可以进行 label, label 我们可以怎么去做呢?因为我们可以把它解锁了,然后直接在这里设置设置为公司规模,如果大家嫌麻烦的话也可以进行代码号,代码号就是 label verbos size, 然后双引号,公司规模。对,然后这第一步,然后第二个就我们常用的资产负债率,然后也是 也是一样的。对,那这里我就直接复制了。然后第三个就企业盈利性,我们通常用 r v 和 r o e, 他就这样去设置就好了,然后都是资资产周转率,然后我们把这个一整个全部,呃, 对,一整个全部类似的这些全部都撤场了,我这里就是直接复制吧,对,是 ato, ok, 我们设置到这里,然后这里可能这里就不需要了,对,这里就不需要了, 然后这里就我们就生成了很多新的变量,看,他们都已经找好,因为十一号他导出来,导出来就是中文的,因为导出来中文的话他会那么大。对,然后我们设置完了过后,啊,哎,对,好,还有 topic q, 哦,这里我们要设设置一个 id 啊,然后是不是有两个变量?看到没有亮红色就是没有,没有 replace, 我们没有设置好。 ok, 然后再补一下就好了,这没关系的。对,然后我们把这个全部都复制一下, 上面是设置了托宾 q, ok, 这所有的变量已经被我们处理好了,都在这里。对, 然后此时,哎,下一步我们进行干嘛?我们进行行业,大家可以看到,哎,这,这有行业,行业代码,但是好,你知道,大家知道的行业代码的话,大家要求的是除制造业以外只保留第一位,就是 a b, c, a, b, d, e 什么这些就只保留前面的英文就好了,数字不要,然后特,制造业它比较特殊,制造业要保留 后面的,就是连后面的这个数字也要保留,所以我们首先要我们也是一样的。呃,去第一个就是,嗯,设置一下这个行业,第一个就是 ok, 设置一下这是行业,然后 因为它专业比较特殊嘛,所以我们用衣服还是衣服?如果这个制造业是,呃,是 c 的话, c 就是制造业,如果这行业是制造业的话,那么我们就保留这个行业代码第一位到第二位,对,然后我们再把这个 label 设置一下就 ok 了,大家可以看到, ok, 有有这么一个行业,对, 设计联盟,对,然后大家可以看到此时的这个,此时的这个看到没有? 这行业已经是,那我们之后可以先对他进行复制化。今天视频就讲解到这,然后下一次视频就进行对大家进行,第一就是 t 除 st 金融企业,第二个就是所谓检验,对。

哈喽,大家好,这期视频给大家分享一下我们平时在做时政分析的时候常用的一些 set 小秘密,比如取对数,插分滞后等等,虽然很常见,也很普通,但是我们的使用频率很高,有时候变量多,很多人还是一个一个变量的输入, 比如说最常见的取对数,那么很多人可能还是这种传统操作,比如说加了 v c, ny 等于诺个 y, 然后 logx 一, loguex 二,一直到 logox 十三十四,是的话大家可以在弹幕中扣个一, 因为我刚刚接触时辰的时候也是这么操作的,有时候变量很多,就这种最简单的操作都要输入半天,那么哦,嗯,觉得比较麻烦。嗯,所以接下来呢,我们就一起学习一下更简单方便的一件事操作吧。 啊,我顺便也给大家简单的解释一下,为何在市政分析中会经常出现这样子的操作,那他们的意义何在呢?那么这里呢,我已经打开了我常用的数据库,就是我的这个卫生费用的面板数据。首先我想教的就是最简单的取对数, 然后大家可以看到我的变量,那么在在我这期教学中,我主要就以实际外 x 一到 x 五这几个变量为例。哦,我这里的实际外就是大家的因变量外啊,方便大家学习,我把它重命名一下吧,后面还有很多变量我们就不管了,我们就以这些为教学示范, 我先给大家命名一下,免得他们大家混淆了,我们把十七万命名为外,也就是大家常见的阴变梁外, 我们再打开数据编辑,这里就是外,然后 x 的 x 五, 然后接下来呢,我们使用的是 four h 循环语句,来进行一个呃便捷式操作吧。首先呢,我们输入 for each variable of values 的, 然后这个后面就是把音变量外和字变量 x 全部放入进去,我已经重命名了,所以这里是外,相当于这一步就相当于十八岁的变量,创造一个变量级吧, very 的,然后我们 不知道我的哎,我的英语读的标准,大家不要介意。然后我们输入进去,然后就相当于创造了一个呃变量级。接下来我们再进行我们的操作,我们主要是对他进行取对数,也就是 诺格 vip, 所以我们接下来继续输入,呃,这是微信诺格 vip 等于诺格 vip, 然后这里的诺格加 vip 就是我的命名方式 啊,最常见的都是这样命名,然后大家输入进去,啊,就已经在执行我的命令呢,会对我这一系列的变量啊,执行取对数的命令啊。接下来我们再用一个符号,这个相当于就是中指符吧, 循环吗啊,循环中指。接下来我们再打开数据变音器,我们我主要是对外到 x 四一到 x 五这几个变量,我们翻到最后面, 我们看到这里就出现了诺格外,诺格 xz 到 x 五就是一件事,就可以把所有的便利量都取对数了,是不是比较方便呢?到时候我也会把这些代码 放在评论区,然后方便大家复制粘贴。接下来呢,我们是用同样的方式,呃一件事,对所有的变量进行一个差分,差分呢就是 dfbuys, 所以我们一般都是知道瑞士人 dy 等于地点 y 是最传统的操作,那么一件事的操作呢?首先还是一样的,先创造一个变量题, 这里我们是 y, 然后 x 七到 x 五,然后输入之后。接下来第二步就是输入我们主要的命令,我们主要命令就是进行 dfriends, 所以我们接下来输入这位是 dy, 然后前面是小写,后面大写 啊,我这样子就是为了方便大家区分,大家也可以用这样的方式命名,这个种是最常见的,然后我们就把它输入进去了,它就会自动对外到 x 五都进行一个插分, 我们再输入中指符哦,我们就可以看到,我们打开数据编辑就可以看到 这里就出现了 dydxe 到 dx 五,也就是插分之后的变量, dfranc 后的变量,然后我们可以看到这里有多少缺失值,因为插分之后会产生缺失值的, 所以这是有正常的现象啊。对了,我这里也顺便给大家解释一下,就是我们, 呃,文献中为什么会经常对变量进行这种这类操操作。呃,首先呢是取对数,取对数,呃,最常见的就是为了缩小不同数据之间的绝对差异,因为我们只我们学图形的时候,三点图或者什么的事,我们就发现两个数据之间如果差异特别大的话,我们都会进行取 对数,才可以放在一个图表类,对吧?嗯,这是我们为了缩小不同数据之间的一个绝对差异,那么在回归的时候就可以避免被个别的极端之影响,同时我们还可以避免贡献性和一方差的影响。 呃,取对数主要最常见的就就这些目的,然后前面我讲的这个差分呢,差分的意义主要就是为了消除一些波动,使数据 去平稳,所以我们会经常看到时间序列数据在做平稳性检验的时候呢,会进行一阶插分,一阶插分不平稳,然后又进行二阶插分, 所以差分主要就是为了消除时间序列的它的一个波动,使那个数据呃比较平稳,趋于平稳。那么第三个呃同样的操作就是滞后滞后,传统操作就是 是赖个赖个外,那么在嗯循环语句中也是一样的操作,先创造一个数据集, 然后输入插分的命令,对所有的变量进行啊,对所有变量进行滞后 ligo, 不好意思,然后我们这里消息的 ligo 外,等于大写的 ligo 外。然后 vivo 也就是把所有把我这里输入的所有变量进行一个 lig 之后,然后我们回车, 然后他就会自动执行,接下来再输入一个中指符, 然后我们看到我们现在在打开数据编辑,我们看一下后面就会出现 之后的 leg 的,你看后面就会出现的 leg, ylegx 一,一直到 x 五就会自动出现,就 比较方便。那我这里示范的变量比较少,就六个变量,大家有时候变量很多的时候,这种方法就更方便的,只要在后面把所有的变量输入后面,然后后面的都复制我粘贴,复制粘贴我的代码就可以了,所以说是比较简单的。 然后之后项的意义呢?之后项就是之后的经济量,呃,那么尤其是在我们的经济运行过程中, 广泛存存在着一种时间的滞后效益,也就是说当期的数据不仅会受到呃同期各种变量的影响,同时还会受到前期数据也就是过去某些时间的各种因素的影响。 那么滞后变量的模型主要就是考虑了时间因素的作用。那么我们常见的一个动态面板模型,呃,比如说我们前期哈,我的一个教学视频是广义剧 估计 gmm 模型特点就是加入了背解式变量的滞后向,所以他就称作为动态面板模型, 这就是一个滞后比较常见的一个意义。那么其实大家看到的上述操作呢?嗯,都是一个循环命令的使用,那么循环语句还有很多功能,大家有兴趣的可以再去搜索学习。 那么最后放在这里就是一个比较常见的一个缩尾处理。缩尾处理呢,你就主要是找到各个变量的百分之一和百分之九十九所对应的分位数,呃,对,小于百分之一, 呃,以及大于百分之九十九的一个数据替换成分位数所对应的变量数据,那么防止数据波动较大产生的一方差一方差问题,也就 是剔除最左边最右边的一种,嗯,极端纸,我们直接输入这个迷你就可以了,直接把所有的边量放在这里就可以了,或者是输入 boss 的也可以。那我觉得我比较推荐这种,大家方便知道自己是哪些 电量进行了缩尾啊,这里我就不说了,我就不改变我的数据形式了啊,给大家说一下吧。然后输入进去,我们就会自动对它进行了一个缩尾处理。拥有这里的写了 replace, 所以这里的数据已经已经发生了改变,这是我们这样子是看不到的。 所以说如果大家想要呃比较缩尾前缩尾后的话,一定要把这个原始数据先保存一份,因为你后续输入这个秘密,这个数据就自动变了。呃,那么今天 这期视频就分享到这里结束了,后期我把代码都放在评论区,大家复制粘贴。呃,因为这期视频比较简单,然后我就这样结束了, 然后如果觉得对你有所帮助的话,就帮忙点个赞吧,再见。拜拜拜哦,可以睡觉。