粉丝5651获赞3.7万

那我们今天这节课主要讲解的是那个机智分析,那被机种回归啊?被机智分析就机智分析,那上节课给你讲了个机智分析的这个理论部分啊?回,你回去看了吧? 我看了一下那个文章。嗯,你看一看,然后本节课讲机智分析,然后继续延续。上节课来给你讲啊。首先一样的,我们拿到这个数据过后,我们第一步还是一样的要设定面板数据, 我们第一步就干嘛设定面板,第二步我们干嘛?第二步其实就是设定 设定这个序那个行业的虚拟变量。对,这两步设定完过后, ok, 那 我们就不用管它了。这这时候我们开始进行基于分析。呃,其实从某种程度上来讲的话,调节他也是属于机制分析,所以上节课我中介和调节是放在一起给你讲的,不知道你还有没有印象 啊?是放在一起,对吧?然后我们我们先先来讲中介,之后再讲调节,好吧?嗯,先,然后这篇文章的话,这篇,呃呃,这篇典型的文章的话,他研究的是这个解释变量是他,被解释变量是他,所以我用的是 itig, 然后被解释变量是不是 p a t 啊? 企业技术创新对不对?解释变量是不是他呀?这个数字金融对吧?数字普惠,这个对不对?嗯,那 ok, 然后我们首先不加控制变量,就我们现在的。呃,我们现在的基础回归,我们流行的用的是逐步回归法,逐步回归法就是第一列不加控制变量,第二列加控制变量, 然后我们首先不加控制变量,去测算一下,你可以看到, ok, 看到没有?我们只需要看就回归结果了,我们只需要看第一列和第四列就好了,第一列是系数,第二、第四列是显著性水平,看见没有? 这个是显著性水平,系数为正就为正相关,系数为负就负相关,然后就这说明它显著为正,就符合我们的假设。这时候我们该再固定。联合行业看到没有?联合行业 i 点 e 和 i 点 i n d, 联合行业看到没有,这就固定了。 然后这时候你看到没有,这系数由正是不是变为负了?嗯,对吧?对。然后这时候是不是不符合我们假设?同时看到没有?屁值是不是大于百、百分之十了?嗯?大于百分之十是什么意思?就就说明我们这个结果是显著不相关了,就不管是他正相反还是负相关是不成立的,能理解吧? 要大于多少合理,要小于百分之十会合理一点啊。好吧。然后这是第,然后一会这时候就说不显著啊,不显著,这时候我们就要去调整显著性,对不对?然后, ok, 那 我们开始干嘛?我们开始固定, 我们开始加控制变量。首先对于公司金融的数据的话,我们比较特殊,特殊在哪里呢?就说我们需要干嘛?我们需要固定。固定什么?固?这个控制变量我们要加,但是我们第一组加的控制变量就是必加项,就它分为必加项和选加项和选加项。对于公司金融的话,它公司层面的数据的话,我们就这四个是必加的, 能理解吗?这四个必加,对,这四个是必加的。这分别代表的企业规模,呃,总资产收益,然后盈盈利能力,还有这个资产负债率, 这四个是必加的,所以到时候做的时候还是需要去注意点,就是说对于这种必加项目是必加的,加完过后看显著性水平看没有,是不是依然不显著,要小于百分之十。那姐姐呢?我们我们还会有一个非常细节的点,就是说, 就说什么,就说我们在基础回归的前提下,我们在基础回归的过程中啊,基础回归我们尽量要做到百分之五或百分之一水平上显著,也就是两颗星或三颗星 尽量尽量做到百分之五或百分之一水平上显著。百分之十水平上显著有点牵强,为什么?因为因为后续你的这个机制分析啊,一致性分析啊,文件性检验啊,什么啊,都是建立在你这个回归,建立在你基础回归成立的前提下,能够理解吧?姐, 嗯,好的,基础回归,对,你记住基础回归要一定要做到百分之五水平上显著,好不好?嗯,对,嗯,然后呢? ok, 我 们继续加,最后,呃,基础回归,哎,基础回归我好像调已经调出来了。我看一下啊, 之前我跟你讲课的时候,我记得我已经给你讲讲出来过了。哦,在这里你可以去看一下第二讲的第二节课,然后到时候那里我已经调出来了,姐,可以看到这时候是不是,哎?不显著,看到没有?为什么不显著?来看一下啊? 哎,看到没有,这此时是不是显著啊?增强关符合我们假设吧,对吧?把车去掉看一下,哎,附增强关。那这,这是不是我们的基轴回归啊,对吧?基轴回归的第一步就我我,我先教你做三步法,温忠林老师的三步法第一步是不是 x 对 y 啊? 嗯, x 对 y, 是 不是你之前前面的那个基轴回归啊?嗯, x 对 y, 这是第一步。然后这时候我把这个结果。什么,我把这个结果保存了, 你可以回头去看一下那个回放课程的回放,因为你好久没有上课了,可能很多东西忘了。紧接着我们去做第二个解释变量,啊?不,第,第二个,第三步法的第二步法,第二步法是什么? 是不是 x 对 m? 这里是不是有?是不是 x 对 m? 然后我们看下结果看到没有?是不是系数为负,同时显著看到没有?是不是显著为负呀?然后把这结果保存了。那三步法的第三步是什么意思呢? 三步法的第三步就是把中介变量加在这后面,看到没有?把这个 m 是 吧?对,把 m 加在它后面,加在解释变量后面,看到没有?这里同时有,看到没有 x, m 同时对 y 看到没有。 那 ok, 把我把这结果导出来,命名为一杠三吧。那我,那我再把这个结果导出来啊,我把这个放到这里来,那这时候我们去分析一下结果如何?去去去解读这个结果啊,结果放在我桌面上, 放在哪里了?我,我,我们再回头看一下,哎,看到没有啊?这个,这个结果我看一下啊,这个结果应该是 i 点 id 保存一下, 这是我们结果就出来了, 这是我们的结果,然后我们来打开这个结果,打开这个结果的话, ok, 首先我们要把这个中介变量的这个结果调调到前面去,不要把它放在后面,把它调到最前面,调这里, 然后你姐可以看一下这这个回归结果,那这回归结果能够说明什么?这是不是第一列?这是不是第二列?分别对应的第一个、第二个、第三个,看到没有啊?你可以看第一个是不是 x 对 y 啊, 对吧?第二个是不是 x 对 m? k, z 是 不是 m? 嗯, m 在 这个中介变量,对吧?第三个是不是?这是不是 m? 这是不是 x? 这是不是 y 啊?是不是 x? m 对 y 啊,是吧?看 看明白没有?嗯,看明白了,然后这时候我们就去去判定,就首先我们要判定 c 必须要显著,看到没有? c, 如果不显著的话,就直接截止了 c 必须要显著,这个也就是我们的精准回归,这个是不是必须要显著啊?嗯, 显著完过后我们再看 a、 b, a, b, 这是不是 a 啊?这是不是 b 啊?嗯,然后对应的是不是它是 a, 它是 b 啊?看见没有? 姐,看明白没有?这是 a, 这是 b, 看到没有? a, a 是 不是第二、二,第二步法的 x 中的系数? b 是 不是 m? 三步法的这个 m 的 这个中介变量的这个系数, 对吧? ab 是 必须要显著的,如果不显著的话,我们就要做收报检验。但是我在这里想告诉你的是,最近的五年的顶开和一期期开,我们是不能没有人去做收报检验,如果 ab 有 至少有一个不显著的话,我们这中介变量就直接是就不显著了,就不成立了。懂我理解我意思吧? 就我们这,这就他说的说这个如果有一个不显著的话,这有一个不显著,我们叫做缩报检验。但是现,呃,现实生活中就是 ok, 在 现实,在,就在现实中,最近五年底开合一期,期开里面我们是必须要都选中的,这是有一点不一样的地方,和实际情况 能够理解吧?所以 ab 是 必须要选中 ab 选中完了过后我们要去判断 c 撇 c 撇是不是三步法。第三步啊?在这里看到没有?这是不是 c 撇点系数?等一下啊, 那 c 撇点显著,其实 c 撇的话它显不显著其实无所谓的事情,要显著的话就为中介效应,如果不显著的话是半中介效应,也就是完全中介效应显著。看到没有? 这就是去,这就代表这判定。就可能我说的时候你会绕它,因为它本身就比较绕点,你到时候你自己私下的时候看这结果,一个个对着去去去判定。对,然后这个就是三步法的一个判定结果。那我们两步法是什么呢?两步法就没有它, 没有这第三列了吗?对,就没有第三列吗?就这个吧。就就就就就就姜婷的那个。对,就姜婷老师的这个, 然后他他为正,他为负,然后再用理论去支撑他这个 a, 这个机制分析就成立了。是不是感觉两步法是比较简单一点,对吧?两步法是简单,但是他需要大量的围线。最近,最近两年呢?都是两步法。 最近两年就最近两年顶开和一期开基本都是两步法,很少会用三步法哦。嗯,三步法还是有点淘汰了。对,有点淘汰,两步法它主要是用将停的两步法。对, 嗯,好吧。嗯,那也就说以后基本回归左边是变量,右边最好出现两个三列的都是代表的是三步法的。对对对对对, 其他没有什么,然后这个就中介效应,你一定要去下去,认真的去去对照这个去做一下判定结果啊。我来讲的话,你会绕的,你总是会绕进去的,你也听不懂,其实对 啊,这个就是三步法,然后紧接着我们就去看两步法,啊,不对,调节效应,那我们调节效应怎么做呢?这是不是基本回归啊?嗯,调节效应就是做交互效, 比如像 c 点、 c 点、 c 点,然后比如我们的这个调节相距是 k、 z 的 话,就这样它它这个就交互,交互有相成的意思,其实它没有什么特殊的含义,这样 这样就 ok 了,就把它相成就好了。然后这个 c 点, c 点是缩写的意思, c 点减号, c 点就代表这个 d i、 f i 和这个 k、 z 这两个变量相成的意思。理解我意思吧, 相乘对相乘,那你也可以这样,就是 ok。 呃,如果你初学者的话,你也可以这样把它生成一个新的变量,这个新的变量是什么呢?就是它两相乘,那它们的结果是一样的,这结果是一样的, 这这个结果是完全完全一样的。解。对,我来我们来看一下结果,就调节效应的话,就它比较好判定, 你看这就这个就是就是我们调节效应的结果。你会发现不管你是用 c 点这种简单的写法,还是用这个深层这个相层的这个变量,其实都是一样的,看到没有这个结果一样。所以我们交互项基本上用交互项,我们交互项也是两面,其实对 那交互像更更容易判定,然后再改一下,到时候你你生成出来过后再改一下就 ok, 就 直接看这个有没有显著,直接看交互像有没有显著,如果显著的话就代表成立如果。嗯 喂,能姐,能不能看明白吗?就我们只需要这个显著就 ok 了,只需要交互像显著。 喂, hello 哦,在这里能够理解这个调节效应的这个判定方法吗?嗯, 我们只需要看这个交互式是否显著,如果它显著的话就成立,如果不显著的话就不成立。能够理解吧,那也就是说判断标准就是这个百分之十 或百分之五百分之一就看它有没有信心,有信心就显著嘛,没有信心就不显著嘛,对吧?很简单,很容易判定的都可以。对。然后它唯一一个难点问题就是说我们判定调节变量, 调节变量它是进一步增强 x 和 y 之间的关系还是进一步削落?我们不是判,我们不是用这个交互像的这副号来判定的,我们是看它和解释变量是否是同号,如果是同号的情况下就是正相关,就是如果他们就比如像这个 这个这种情况下,你看如果它是异号的话就削落,削落就是 k z 进一步减弱这个这个解释变量 d f i 对 p a t 的 一个促进作用。 看如果它是为正号的话就是进一步增强,就看它和它的是否是同号的情况下。但有的时候是这样的,很多人这就解释变量为正正相关的时候很容易判定,如果解释变量由为负相关的话,看到没有?这这时候大家都会说这是削落 x 和 y 之间的负相关关系,其实不对的应该是增强,能够理解吗? 因为它们是同号,看到没有?交互像和解释变量是同号的情况下就是削落。 对了,老师,你能不能拿出一篇刚才那篇文章来看一下,看看他这个回归情况。嗯,哎,对,拿出打开这篇文章来看一下。我看一下他的。看他哪一部分?就刚才那个他,他们用的是两步还是三步的?这个是三步法。这个是三步法。我看看。看下刚才他做的 那身应处,应该是他回归那里,这里站不是。 对,你私下看吧。对,这里,这里看到没有这三部法。对,这篇文章是二一年的文章,他不是二二年以后的文章,这篇是二二年以后的文章,我昨天发给你了,姐。对,三年了。对,他是两部法。 这个看到没有啊?其他没有啊?其他没有啊,其他没有啊。对, 那我要好好的看一下了。对,不然话跟不上了。对,他是一环扣的一环的。对,好吧,那这节课先这样说呗。好吧,好吧。

大家好,欢迎来到 sita 数据分析入门课程,我是车水老师,本节课我们来进行第一节 sita 的简介, 主要包含三个部分,分别是熟悉随他的界面,熟悉随他的基本设定以及设置我们自己的工作目录。首先我们来进行第一部分,熟悉一下随他的简界面, 所以他的界面呢,包括四组窗口,两个菜单栏以及一个 输出结果窗口。四组窗口呢,分别是历史代码窗口,密令栏窗口,变量栏窗口以及数据性质窗口。在此基础,在此基础上呢,我们要学会如何浏览数据 和使用度文档。我们来打开斜塔,实地操作一下。双击打开, 我们发现,呃,最先映入眼帘的呢是中间这一部分,它是我们的结果输出窗口。呃,四个窗口呢,分别是 历史代码窗口,是最左边的这一列,比如说我在命令窗口进入一行命令之后呢,在左边他就会出现这个历史记录,如果我双击这历史记录的某一行,他就会重新再运行一次。 第二个窗口呢是命令窗口,我们可以把塞塔的指令呢在这里面建入,然后按回车就可以执行。第三个呢是变量窗 窗口,在右上角,我们可以在这里呃看到每一个变量的名称以及他的标签。第四个窗口呢是性质窗口,在右下角我们可以看到这份数据的名称,标签。呃,数据类型以及 嗯,变量的个数和观测值的个数以及这份数据的大小等等。然后两个菜单栏呢,在最左上角呃,用菜单栏我们可以进行一些基本的统计分析,做图,导入,导出数据等等都可以。 然后呢第二行呢是我们平时用的比较多的,比如说打开文件保存,嗯,然后打开读文档,浏览数据等等。嗯,在 基础上呢,我们来学习一下如何浏览数据。我们主要用的是这两个按钮, 这样单击就可以出现我们的数据,然后第二个按钮也是一样的,他们两个的区别呢就在于第一个按钮可以修改数据,比如说我第一个是一,第二个是二,呃,这个技术上 如果我想要修改的话呢,我打开,比如说我想把第一个数据变成零,那我就直接可以是零 就可以了。但如果我用这个第二个浏览数据的窗口呢,我想把它这个数据再变一下,就不可以这样直接改了。 所以在平时的使用过程中呢,我更推荐大家用第二第二个指令,它类似于指读,呃,这样呢,我们可以减少我们嗯,误误操作导致的数据的变化。然后 接下来呢,我们要学会使用杜文档,杜文档呢,就是这个类似于幕布一样的按钮,我们单击可以打开,在这个里面我们可以写入我们的命令,然后呃选中纸, 点击这个三角形就可以运行。克里尔的意思呢是清除数据,那我们就会发现这里面的数据刚刚进入的数据已经没有了。呃,相比于运用这个命令栏呢,相 我更推荐大家用杜文档,因为杜文档呢,我们可以随时的修改保存,以及和合作者同时使用的时候,我们可以把我们的写过的杜文档发给对方,然后在对方呢在你的杜文档基础之上再进行 修改呀,运行之类的都是可以的,这样就更方便更有嗯,修改的余地和更有操作性,也对我们的合作有一些有很大的帮助。嗯,比如说我们 来举个例子,如果我想浏览一下系统的数据呢?我们用 ccuse 这个命令,比如说系统有一份数据叫做 out, 嗯,我们可以 选中,然后点击这个三角形运行一下,就发现我已经把这个,呃一九七八年的机动车的数据 已经掉入进来了。是这个,那我们就可以发现呢,在看右上角可以看到变量的名称和标签,右下角可以看到这一份,嗯,变量的名字, 呃,数据的名字以及数据的标签,然后观测值的个数,嗯,变量的个数都是可以看得到的。好,我们 现在呢来看一下随他的基本设定。呃,因为刚刚开始了解一个软件的话,我们要呃把它设计成我们 喜欢的样子,我们如何设置呢?在 id 的这个里面呢,最下面有一个 praprans, 我们打开这样的 praprans, 我们就可以设置我们这个界面的, 呃显示的属性,比如说这个这个里面有主题,是标准主题,或者是呃什么经典的主题都是可以的,比如说我用标准主题点击 ok 就可以了。呃, 然后呢,第二个我要说的是要学会嗨老婆功能,可以让我们的效率事半功倍。比如说有一个命令叫做三木 s, 是用来做描述性统计的,但是呢,我不知道这个三木 s 是什么意思,那我就要在前面 加一个嗨,然后呢,嗯,直接回车来执行一下这一份,这个代码就可以出来了,他就会跳出来一个嗨,要普文档,告诉你这个三 ms 的命令是用来干什么的,他首先跟你解释这是一个用来做描述性统计的命令, 然后告诉你这个秘密应该怎么用。呃,首先进入三木 s 或者是 su, 就代表了三木 s 这个单词,然后 后面呢加入你的,嗯,变量的名称,后面再加 f 选项,应选项括号呢代表嗯,可加可不加是, 嗯,可以根据自己的需要去加的,然后可以加一些选项,然后有哪些选项呢?后面都会给你列出来,然后呢在后面他会 告诉你用菜单栏呢如何实现这个功能。呃,然后后面呢会给你举一些例子,让你更深刻的来理解这个命令。 所以说如果遇到一些不会使用的命令的时候呢,我们一定要学会使用哈尔普文档,然后也要学会如何阅读哈尔普文档。好,第三 部分呢是设置我们的工作目录,首先我们要来看一下当前的工作目录,用 p wd, 用 p wd 这个命令来实现。 没车,我们就发现当前的工作目录呢是地盘下的四件套。呃,那如果我想改变我的工作目录该怎么办呢?我用下面这一个命令 cd, 然后呢再把我的想要进入的目录在 写进来,比如说我想进入的目录呢是 f 盘。好,那呃,我已经设置到 f 盘,我们来验证一下,用现在的 p wd 发现呢当前的工作目录呢是 f 盘了。呃,还有一个呢是要查看系统的目录,用 casd 啊, diydl 呢,就是 draxdrax, 就发现呢有,所以他呢有六个文件夹,然后分别的系统的路径在哪里?我们如果想改变其中的一个呢?啊?当然是 都是可以改的。我这里演示一个,比如说我想改变这个 plus, 他的路径用 cs 镜。 啊,我想改变 plus, 所以我要把 plus 加进来。然后你想改到哪一个路径?比如说我想改到 fpard, 比如说我想改到地盘的四件套 的 a 度下面的 pass。 那执行一下就可以了。那我验证一下我这个改成功了没有?再用一下 cs, 然后呢就发现我的 plus 已经到了我刚刚设置的这个目录下面了。好,这就是本节课的内容, 我们学习了 cta 的界面、 cta 的基本设定,以及如何设置我们的工作目录。

大家好,今天带大家下载安装激活 stata 十八,先下载 stata 十八安装包,输入视频中间水印, 找到并下载 stata 十八, 解压 stata 十八安装包, 找到 setup start 十八文件以管理员身份运行,点击 next, 选中 i accept, 点击 next 这两个输入框随便填写就好。 点击 next, 选择第一个 statem, 点击 next, 修改 stata 安装位置,注意修改的安装路径不能有中文, 点击 next, 继续点击 next, 点击 install stata。 安装完成后点击 finish, 再开始菜单,找到 stata, 鼠标右击,打开文件位置,将 stata 十八快捷键拖到电脑桌面, 复制安装包里面的 stata 文件,鼠标右击 stata 十八快捷键,点击打开文件所在位置, 在空白处鼠标右击,点击粘贴, 启动 start 软件,点击确定,点击下一步,把这个勾选取消掉,点击完成, 点击静止自动更新,取消下面这个勾选,点击 ok。 四、 stata 已经可以永久免费使用了, stata 十八到这里就安装完成了,大家学会了别忘了点赞和关注哦,感谢大家的观看!

大家好,欢迎来到 cta 数据分析入门课程,本节课我们来讲 cta 的基本变量操作。我是车水老师, 本节课主要分为四个部分,第一部分是数学表达式的运用,第二部分是创建和修改变量,第三部分是如何删除变量,第四部分是对样本进行排序。 首先我们来看数学表达式,我们来学习啊,三种数学表达式。第一部分呢是,嗯,关系运算,也就是 是否大于小于啊,大于等于,小于等于这种数据之间的关系。第二种呢是逻辑运算,也就是 与霍非这种。第三步,第三种呢就是算术运算,也就是我们经常讲的嗯,四则运算以及乘方这些的开方我们来用, 嗯,随他操作一下双击打开。然后呢还是 要先保存一下度文档。这个呢是基本变量操作,我们先 看这个关系运算,首先我们先要用一份数据 ctrl d 来运行一下关系运算的话,那我们先来 come ons 这个关系运算,我们来举一些例子,就比如说之前我们讲过的一个例子的这个这个代码呢, 主要是来列出一些筛选条件下的数值数据,比如说我想知道 res 他,呃,比如说这个 r e p 七八,他最最小值是一,最大值是五,那我想知道 i e p 七八是一的这 一些数据,那我想把它列出来,我想列出来 r 一 p 七八是一的这个价格以及 r 一 p 七八的数据,那我就可以在嗯,类似的 rplax r 一 p 七八后面加一个 f, 嗯,表明我的条件是阿,一批七八,然后这里的是呢,就是用两个等号来表示阿,一批七八是 一,这个是是的意思,而不是等于的意思,如果是等于的话就是,嗯,如果是一个等于号的话呢,就是在 定义变量的时候用的,而不是在判断关系的时候用的。那我们来运行一下,发现了有两个观测值呢,他的二,一批七八十一,然后他对应的价格都在这里呢呈现出 出来,然后如果是否呢?如果是否的话呢?那我们我们的否呢?用感叹号加等号来表示,这个可能和其他的软件是不太一样的来列出来, 关键这些呢数据都是 ip, 七八都不是一的,那还有大于小于大于等于小于等于。我来,呃, 举一个例子吧,比如说我想知道二一批七八大于一的这些,比如说大于三吧,大于三的话,那我想列出来出来四和二,一批七八, 那就可以列出来,列出来的这些呢啊,四五都有,然后有一个要注意的点了就是,呃,所以他呢会认为缺失值是无穷大的,所以说我这里 要列出 ap 七八大于三的数值呢,这个确实值也都包括进来了。然后呢 逻辑运算语,就是用这个按的这个符号来表示语,然后呢用一个竖线来表示,或比如说我想要列出来二,呃,二一撇七八是大于三,同时 价格有大于五千的,这么,呃,这么一些变量,那怎么办呢?那我这里要加一个按的这个符号,然后再加 plus 大于五千, 那我们来运行一下。好,这里面呢列出 出来的数据就是同时满足两个条件,第一个条件呢是,嗯,二一批七八大于三,然后第二个条件呢是这个 plus 大于五千,所以呢中间用这个按的符号连接,那如果如果是货的关系呢?就是, 呃,只要满足这两个条件之一就是货的关系,那我们中间加一个竖线,那我们要列出来的数据呢?就是 这些,就比如说,呃,就比如说这一行五七八八,对呢三,那这个他不满足啊?一批七八大于三,但是他呢满足这个 plus 大于五千, 所以呢这个货的意思呢?就是只要满足这两个条件之一的都可以啊,后面还可以再加其他的 点亮其他的条件,比如说,呃,再或者这个 pros 小于,嗯小于三千, 那那这样呢就是三个条件,只要满足三个条件之一都可以,那这个条件呢是可以无限的加的,那中间只要两个条件之间要加这个竖线,或者呢要加。如果是是,如果是 合的关系呢,要记得加这个按的,如果是和的关系呢要加这个竖线,然后呢要进行算数运算,算算数运算呢也比较简单,但是呢有一个注意的点,要我们要在最前面加入, 要写一个第四类,呃这个命令,然后呢再写我们之后的算数与算,比如说我想知道 一加一等于多少,那么我就要写第四类,然后再加一加一,然后他会给出是结果是二,嗯,我知道,就是其他的软件可能就是直接写一加一就能运行出来,那一加一我们来试一下,那他会告诉你一是 不是一个命令的名称,所以,所以他是无法这个识别一这个数值的。所以如果你想要进行一种数值运算的话呢,前面一定要进,一定要先加这个第四类, 然后呢第四类的他,嗯,他的简写呢就是第四 drs, 然后呢在后面再加。嗯,你的这个,嗯运算,比如说我想知 到二的五次方是多少,第四二的五次,然后选中,然后运行,就会出现了,他的结果是三十二,这个就比较简单。然后第二部分呢,我们要学会如何创建和修改变量。呃,创建变量呢,我们要用的这个命令呢是这样的锐词, 然后修改变量用的是瑞派 s, 然后还有一个变量重命名呢,用的是人类,我们先一个一个的来看我们,呃,创建变量呢,用的是詹瑞 啊,詹瑞斯,这个的用法呢是首先先写詹瑞瑞,然后呢再写你要创建的新的变量的名称,比如说是 pass 啊 two, 然后呢后,然后再写。等于,这个时候呢才用的是等于,因为它是一种负值的意思啊,负值的时候用等于, 嗯,然后再等于的,后面再写你这个变量的计算方法,我们来。嗯,试一下。比如说我想生成一个新的变量呢,叫 fs two, 然后他的定义方式是是什么呢?如何复制呢?他呢?我把他定义成为 plus 的平方,这样选中,运行一下就可以生成新的变量了。 嗯,然后这个新的变量呢就是 plus 的平方,然后我们要注意这个数学符号呢,有一些,比如说 s q r t 呢,就是开根号,然后 r i n t 呢,就是取整 落个取对数之类的,我要明白。然后呢修改变量呢,就是要用 replas 这个, 嗯,命令,比如说我想把我先 sorryss 一下,呃,比如说我想把这个 二 ep 七八是五的,我想给他都变成四,那我就用 refis 二 ep 七八等于四,在一个什么样的条件 呢?那后面我要加一个 f 的条件, f 二一 p 七八是五的时候,那你就发现了这里呢?嗯,第一个是用一个等于,第二个是用两个等于,就这里的 不同的,刚刚我们也讲过,就第一个的,嗯,这个等于呢,它是一种负值的作用,然后第二个两个等于加起来,他是一种判断是否相等这么一个判断的这个作用,所以一定要区分这两个,他们的区别是很大的, 所以我们来运行一下,那他就会告诉你说有十一个针织已经被改变了。那我们现在再来 描述一下这个太胖易脾气吧,闻就发香 呢。现在只有四个类别了,因为我已经把这个之前的 rvp 七十五的 这么这些数据呢,都变成四了,所以说现在只有一二三四这四个类别了。这个呢就是 replex 它的一个用法。 然后如果我想,嗯给变量除命名怎么办呢?那我用瑞内这个这个命令,比如说我想把二一匹七八变成瑞佩尔 这个变量的名称,那我直接在瑞内姆先加现在的变量名称,再加。嗯,之后你要改变之后的那个变量名称就可以实现了。嗯,那我们来萨姆一下,我就发现 这个啊,二一比七八呢已经变成瑞佩尔了。好,我们再来学习一下如何删除变量。 删除变量也比较简单,直接用啊照就可以了。照,然后再加上你的变量名称,比如说我想把刚刚定的那个 plus two 删掉。 pls two 之前是有 plus two 的这里, 然后我们删掉之后呢?然后再来撒不出来洗一下,那就发现这个 plus 就已经消失了,因为我们已经把它删掉了。嗯, 然后照着这里呢,我们还要学一个,就是和刚刚那个 f 选项来 f 这个条件来结合,比如说我想把, 嗯,我想把价格大于一万的数据都给他删掉,那我怎么做呢?就是照然后后面加一个 个 f 条件,然后 pros 大于一万这个条件就直接删掉了, 那我运行一下,他就会提示我说有七十四个观测值已经被删了,然后删掉之后呢,我再来描述一下,哎,都没有了,为什么呢?哦, 我刚刚,因为我刚刚写的是普拉大于一千的都删掉,因为普拉最小值是三千二百九十一吗?所以这就意味着我已经把所有的数据都删掉了,所以我来重新调用一下这个数据, 我们要把大于一万的来删掉。嗯,他告诉你这个呢,就是我重新调用的这 一个命令,然后我删掉价格大于一万的,所以我现在删掉了十个观测值。我再来萨姆一下, 那我就发现,呃,现在的价格最大值是九千七百三十五了,而之前的价格最大值是一万五千九百零六,也就是我把大于嗯一万的那些数据就都已经删掉了,然后之前的观测值呢是七十四个,现在的观测值就只剩六十四个了。 所以这个呢,就是在我们删除一些不满足条件的变量的时候,需要用到的这么一个命令。 然后如果我想删除掉所有的变量呢,我们就直接用 top 哦,就可以删掉所有的变量了。 那我再来看一下,发现这里面已经没有没有面料了。嗯? 呃。为什么要学习这个变量?为什么要学习?嗯,这个命令呢?是因为我,我来重新调用一下这个数据。萨姆一下就发现呢,就是变量有这么多吗?如果我不是想删除变量,而是 不是想删除观测值,而是想删除变量的话呢?我可以用,比如说我想把 plas 从 plus 到拍的这些。如果我,呃,首先如果我只想删除 plus 这个变量的话呢?我想我可以直接找。

哦,大家好,我是山东大学的陈强,那么这一期的视频号呢,我们就来介绍中介效应的 stat 操作的上部分。 那么前面呢,因为有二零二一年经济学落奖的颁布,所以我做了三期关于今年经济学落奖的视频号,所以呢,原来关于这个中介效应的这个视频号,就中间间隔的稍微时间有点长了。 如果你觉得前面的关于中介效应的原理部分,如果有一些遗忘的话,建议你可以去看一下我前面关于中介原理介绍的视频号。 那么先来回顾一下中介效应估计的基本框架,也就是这里呢,首先会有一个自变量啊,这个 x 啊,那么在我讲的那个例子中间,这个就是 support 啊,就是 proceed supervisor support, 就是说员工 所感受到的管理层对他的支持。而我的结果变量呢,就是这里的 perform, 也就是他的这个 job performance 这个员工的业绩。而这个 m 呢,就是所谓的中介变量啊,这个 mediator, 那么这里呢,是 satis, 也就是表示 job satisfaction, 也就是说员工所感受到的管理层的支持呢,他既可以直接的通过 cprine 这个渠道啊,有这样的一个 draft 而作用到我的这个 y, 那么也可能呢,会通过一个中介变量 m 啊,这个 mediator 来间接的作用到这个结果变量 y, 那么这里呢,就是说从自变量 x 到中介变量 m 的这个渠道呢,被称为叫做 a 啊,那么就是说,你的这个管理层的支持,使得员工更加对于工作的满意 度增加了,而工作的满意度这个 mediator 增加之后呢,他又会有一个因果的作用啊,作用到这个员工的业绩,也就是这里的 y 啊,那么从 m 到 y 的这个路径呢,被称为叫做 b, 那么这边呢,就是 baron and can 一九八六年所提出来的这个中介效应的一个估计的框架啊。那么第一个方程呢,就是外对 x 来做回归,那么这个是所谓的总效应,那么他是用这个 c 来表示他的这个作用的这个力度啊,也就是这里的总效应。 而第二个方程呢,是把 m 这个 media 的中介变量对自变量来做回归,这里的 x 前面的这个回归系数呢,是记为 a 啊,那么表示的就是说是这个自变量对中介变量他的作用力度 有多大。而第三个方程呢,就是你把这个 y 呢,同时对 x 这个自变量以及 m 这个中介变量来做回归,那么它相应的回归系数呢,是 c pri 和 b, 也就是这里的 c prime b。 第二个方程 a 呢,就表现在这啊,那么这个第一个方程那个 c 呢?我这里没有写出来,在这张图上,但是以前也给大家展示过。 那么在介绍中介效应的 stay 打操作之前呢,我还想回答一位朋友在评论区的问题,据说这个问题困扰了这位朋友有十年之久啊,那么他的问题呢,就是说如果你有面板数据,那么应该怎样去估计这个中介效应? 其实呢,从这三个方程我们看到说每一个方程都是用最小号乘法来估计的,而如果你有面板数据的话,其实对于 面板数据最常用的方法就是双向固定效应模型,也就是说你在 os 回归中间只要加入个体的虚拟变量与时间的虚拟变量,那么就可以把个体固定效应和时间固定效应都给控制住,然后呢,你就照常做 os 回归就可以了。 因此呢,在面板数据中使用中介效应,其实在原理上并没有什么太大的区别啊,只要你把相应的个体虚拟变量以及时间虚拟变量都放入回归方程,那么就可以了。 那么在介绍中介效应的 stay 塔操作之前呢,我们再简单的回顾一下,这个中介效应究竟是如何来检验的。首先呢,这个中介效应其实就是 a 陈 b, 因为这里有一个因果作用的链条, x 到 m 的作用力度是 a, 而 m 到 y 的作用力度是 b, 那么这个渠道呢,是一个所谓的中介效应,也称为间接效应,那么它的整个的作用力度呢,最终就是 a 成 b, 那么因此呢,中介效应的这个最著名的 soba test, 其实它就是来检验这个 a 成 b 是否等于零。 那么就以这个作为我们手表检验的原假设,那么这里的主要的麻烦的地方就是说,因为 a 乘 ba 和 b 都是回归系数,而这两个回归系数存在一起,那么就不是我们传统所说的那个线性假设了, 因为如果是线性假设的话,那么只是把回归系数做一个线性组合,然后你去检验这个线性组合是否等于零或者某个长数,而这里呢,是两个回归系数存在一起,所以呢,它本质上就是一个非线性的约束啊。那么对于这个非线性的约束呢,如果你要去 做检验的话,你同样可以去设计一个梯桶剂量,那么这个梯桶剂量呢,在大案本下也是服从渐进的标准正态分布的,但是呢,因为他是一个非线性的约束,所以你要去估计他的标准物的话,就会比较的麻烦。 那么早期在文献中间有出现了三种这样的不同的计算的公式啊,一个是手表一九八二年,一个是这个哥们一九六零年,还有另外一个也是哥们一九六零年所提出来的方法,那么这三种方法都是根据公式的推倒做了一些假设, 那么其实呢,当代的做法就是说通过自助法,因为自助法是不需要任何的假设,所以它是最为靠谱的,而且适用于任何的样本容量,只要这个样本容量不是太小就可以了。那么要做中介效应检验呢,有一个 stay 命令啊,就叫 说这个 sg mediation, 其实这个 s 呢,就指的是 soba, 而 g 呢指的是 goodman, 因为前面我们讲到了有这个 soba 和 goodman 所提出来的那些不同的计算标准物的方法,所以这个命令呢,就叫做 sg mediation。 那么他的下载方法呢,你可以从这个金管之家去下载这样的一个包啊,因为他并没有放在通常的 ssc 这个平台上,所以你没有办法直接通过 ssc installsg 米 ta 选来下载它, 那么就是你可以到金馆之家的这个网页啊,就是啊,或者你搜索一下也行啊,然后去下载这个 sgmda, 选这个压缩包,然后解压之后呢,就放入你的 stata 的一个文件夹啊,这个就是 ado pluss 这个文件夹,那么如果你不知道这个文件 家在哪里的话,你可以在 stay 中间输入一个命令,就是这个 season dia, 就是 system directory, 然后你可以看一下这个路径是在什么地方啊,就是 ado plus, 这个就是通常是放所有的这个非官方命令的这样的一个地方,而这个 s 呢,因为我们这个命令呢,是以 s 打头的 sgma 选,所以一般会建议你放在这个 s 的这个文件夹里面。 那么这个命令的基本句型呢,也很简单啊,就是 sgmda 选,后面跟着你的这个背景是变量,也就是你的结果变量了,那么就是我们通常所说的 y, 然后呢后面有个 mv, 这里面跟着 mdacean variable, 这里呢就是放着你的这个中介变量, 而这个 iv 呢,就放着你的 independent very, 这里的 iv 呢,并不指的我们通常所说的那个工具变量的 iv, 而是指的是 independent variable, 然后呢这个 c v 呢,你可以放一些这个 coberry, 就是一些斜变量,也称为叫做控制变量,比如说你可以这样来写, 就是 sd mediationy, 然后逗号,那么逗号后面的这些选择下呢,就是指定以 m 作为我的 mediator 中介变量,而以 x 作为我的 independent variable, 也就是质变量,而这个 z 和 z 二呢,作为我的 covari, 那么这两个呢,就是斜变量, 我们就以 stata 光碗的一个数据级啊,也就是我们前面所一直在举例的关于这个 job performance 的 data 啊,这个其实呢,是 stay 塔公司自己造的一个 fictional data, 也就是说它是一个虚构的一个数据级,但是并不影响我们作为案例来演示啊。那么你通过这个命令呢,就可以直接从 stay 塔的关 当晚下载这个数据集,然后你可以用 describe 看一下这里面都有哪些变量啊,那么其实呢,就是这些变量我们应该比较熟悉了,像这个 perform, 这就是我们的 y, 表示的是员工的 job performance, 而这个 saddis 呢,就是表示的是员工的 job satisfaction, 就是员工的工作。网易度 好,这个 support 呢,就是我们的这个自变量,那么它就是这个 perceive supervisor support, 也就是员工所感觉到的这个管理层的支持啊。那么这个 setis job satisfaction 其实就是一个中介变量, 那么这个数据集里面呢,还有一个变量叫做 branch 啊,他其实是指的这个 department store branch, 也就是说你可以想象这是一家百货公司啊,那么他在各地有不同的这个分支机构。这个 branch 呢,其实我们到后面,我们可以用它来作为鞋变量来 控制每个分支机构的这种 branch 的 fixing fat 啊。我们先用上面来看一下这些变量的基本的统计特征啊,然后我们会看到说这个 ops 就啊是一千五百,那么也就是说样本容量是一千五百,然后这里汇报了一些 means and deviation, ming 跟 max, 你可以自己看一下。然后呢我们就套这个 sg mediation 这个命令的剧情,后面跟着 perform, 这是我的 why? 然后这个 mv 呢,里面就是我的这个 mediator, 也就是中介变量 satis, 然后 iv 呢,是我的 independent variable, 就是这个自变量 support 管理层对员工的支持, 那么这个是他输出的第一个结果啊,那么其实是给我们汇报的就是总效应,也就是所谓这里所说的 pass c 啊,那么就是说,其实呢,很简单,就是 你把那个 y 对字变量去做回归啊,而你的回归中间并不包括中介变量,那么这个回归系数的口音非选啊,零点八二幺八,他就是这个总的效应了,偷偷一份 啊,我们看到他的配置是零点零零零,因此是非常显著的。然后接下来就会汇报这个自变量对中介变量的作用啊,也就是这里的 model west mediator regrets on iv pass a 啊,这个就是那个中介效应的那个 a 的那一段,也就是从字变量 x 到中介变量 m 的那一段,被称为叫做 pass a, 就是这个 a 这个路径。 那么其实呢,很简单,就是你把这个中介变量 satis 对 support 去做回归啊,那么这个回归的系数呢?是正的零点二二八九啊,那么他的屁直也是 零点零零零,因此也是非常显著啊,那么这个就是中介效应能够成立的,这个其中的链条的一段,就是从 x 到 m 这个中介变量,那么我们发现说他是非常显著的。 接下来就是汇报这个直接效应与间接效应,也就是这里的 model was dependent variable regrets on mediator and independent variable pass bnc prime。 这个就是我前面所展示的那个第三个方程,也就是说你把那个结果变量同时对自变量和中介变量做回归, 那么这里的中介变量 satis 的回归系数呢,是零点八九八四,他的 p 值是零点零零零,非常显著,而这边量是破的回归系数呢是六点六一,他的这个 p 值也是零点零零零啊,都是非常的显著啊。那么最后的一个输出的结果呢,就是所谓的 sobel goodman tess, 也就是我们通常所说的那个 soba test, 你会看到说他这里汇报了三个指标,也就是这个 sobel goodman one, goodman two 啊,那么其实就是对于我在前面所介绍的就是说 手表有提出来一个标准物的计算方法,而哥们有提出了两种标准物的计算方法,那么他们分别依赖于不同的假设, 那么这里你会看到说他们所得到的这个扣一分选的这些扣一分选的其实就是 a 乘 b 啊,那么更准确的说是 a 害乘 b 害,也就是 a 的那个回归系数的估计值乘以 b 的回归系数的估计值, 那么这个是他相应的标准物。然后这个 z 统计量呢,就是把这个口语非选出以这个 standard 所得到的这个 z 统计量,那么最后一列所汇报的就是这个检验统计量相应的 p 值了,那么都是 非常的小,这个是亿的负的十三次发,那么这里他所用的这个临界值呢,其实就是标准正太的那个一点九六。然后后面这里汇报的其实就是给你更详细的啊, a 的扣一分选等于多少? b 的口语非选等于多少,然后呢,这里的 indie refeit 呢,其实就是 a 乘 b, 也就是说这个零点二二八九乘以零点八九八四,应该就会等于零点二零五六,然后呢也汇报了 de ready fed 和这个 total fed, 然后呢,这里还计算了几个比例啊,比如说 propulsion of totalfield is midait 啊,零点二五零二,那么这个呢,其实就是你把这个 individyfant 除以 totalfield, 也就是说你在总的效应是等于零点八二幺八,那么这里面间接效应,也就是那个中介效 效应占多大比重呢?你就把这个零点二零五六除以零点八二幺八,然后就会得到这样的一个比例,那么就是等于零点二五零二,也就是大概四分之一是通过这个中介效应来起作用的,而剩下的四分之三呢,那么就是属于一个直接的作用。 但是传统的收表检验呢,其实他是缺陷还是比较明显的,因为虽然收表检验的统计量是服从渐进的标准正态分布, 但是在有限的样本中间啊,通过一些这个蒙特卡罗模拟,我们会发现说他其实未必接近于标准正态,那么经常是会有右偏的,而且是非对称的, 主要原因就是说它其实是两个回归系数沉在一起沉积的方式,那么因此呢,如果你使用一点九六来作为零戒指的话,可能会导致误差, 而且呢,就是说个手表也好,或者这个根本所提供的那两个标准物的计算方法,其实呢,这些都是大样本的标准物,也就是说他都有一些假设,然后呢,要嗯比较大时候,他才会是比较准确的。 因此呢,在有限的样本中间,手表 test 里面所提供的那三个标准物可能都会有偏差,未必是靠谱的, 那么解决的方法呢?最初就是说,大家觉得啊,那你如果不能够用一点九六来作为零戒指,我可不可以把这个零戒指给他调的更加的准确一些, 因此呢,在文献中间也出现了其他的临界值啊,那么后来呢,大家就发现说,无论你用什么样的临界值去做检验,其实你是没有办法用一个预设的通用的一个临界值去套用到适用到所有的数据中取啊,因为不同的数 数据他可能收敛的速度是不一样的,而这个每一个检验他所使用的样本容量也不一样。那么解决的方法呢?其实单带有一个非常好的解决方法,就是你可以做自助法啊,也就是通过 boss 出来的方法, 然后呢去针对你的这个数据与样本容量得到他相应的临界值。那么更准确的说,一般来说,我们是用这个自助法去得到一个更加可信的一个自信区间,那么有了自信区间呢,其实你同样可以做假设检验, 那么使用这个 boss 在自助法呢去做统计推断呢,其实这个想法非常简单,也就是进行有放回的再抽样啊,比如说你可以做一千次的 resembling with replacement, 那么也就是说你每次呢都是有放回的抽取一个样本啊,然后得到一个样本容量,跟原原 原始的样本,他的样本容量一模一样的一个自助样本,然后你可以去重复这样的过程,比如说重复一千次,那么你就会得到一千个自助样本,这个所谓的这个不需要商博,那么使用这一千个自助样本呢,你就可以计算一千个 a 害成 b 害这样的样本观测值, 然后有了这样 a 害成 b 害一千个的样本观测值之后呢,那么你就可以把他从小到大排个队,然后你可以找到他的,比如说百分之二点五的分位数 与百分之九十七点五的分位数,那么在百分之二点五的分位数到百分之九十七点五的分位数之间呢,他就是百分之九十五的自信期间,也就是所谓的百分位法。那么当然呢,也可以使用这个残差的自助法,这个所谓的 residue booststrap 啊,那么后面也会谈到啊, 这个,当然这个长插支柱法其实是不那么可靠的。那么在刚才我们使用 sgmda 选这个命令的时候,其实他会有这个存储下来一些结果啊,比如说我们可以看一下这个,你用这个 display 啊,括号 int 啊,下滑线 if, 其实这个就是 individe, 也就是间接效应,换句话说就是那个中介效应,那么他就会给你汇报这个结果,就是零点二零五六,那么这个就是 individe, 也就是 a 害成 b 害了。 然后呢,如果你想要知道那个 divide 的话,你可以用这个 display r, 括号 d i r 下滑线 e e f f, 然后就会给你汇报这个直接效应呢,就是啊,零点六一,六一。 那么有了这个之后,我们就可以来设计一个做自助抽样的一个命令啊,我们首先设一个 随机数的种子, sixty one 啊,这个 one 呢,你是随便可以设的啊,比如说你设成一二三一二三四五六随便设都可以,目的呢就是说因为涉及到随机的自助抽氧,我为了能够可复制我的结果,那么我需要设一个 同样的一个随机素的种子,只要我的随机素的种子是一样的,那么每次我所得到的这个结果呢,也应该是完全一模一样的。 然后呢,我就用 stata 的这个 boost 在这个命令啊,那么后面跟着呢,是我的啊,括号 individify 和啊 dividify, 那么这个两个是我想要做 boost 的统计量啊, 其实在大多数情况下,我们真正感兴趣的可能就只是这个 indirect effect, 那么后面的这个啊,括号 diradify, 其实你可以省略掉。然后呢,这个逗号后面呢,就是一些选择,像像这个 rap 一千啊,那么就是说你去抽取一千个自助样本,然后这个 bca 呢,是让他去计算一下这个 buyers correct and accelerated 自信区间啊,就是所谓的偏差矫正于加速的自信区间, 那么默认的是不去计算这个 bca 的自信区间啊,那么在后面我会去给大家再进一步说明啊,其实这个 bca 的这个自信区间呢,虽然比较费时啊,但在理论上他是最好的最靠谱的一个自信区间。 然后呢,这个冒号后面就是说你到底要怎么样来计算这个统计量?那么我们就是通过 sg mediation 啊, perform 逗号 mv satis 和这个 iv support 啊这个命令来计算前面所列出来的这个 indie ready fea 这两个统计量。换句话说,这个命令其实就是 stay, 非常简洁的来帮我们做这个一千次自助抽样的一个命令啊,也就是说他每次呢就是说先得到一个自助样本,那么然后呢,我对这个自助样本, 我去用这个 sg mediation perform 这个命令去做这个中介效应的回归分析啊,然后就会得到那个 a hi 跟 b hi, 那么也就是我可以通过这个啊 indivantify 跟 rdivertify 去提取, 那么这样的话,你重复了一千次的自助抽烟,你就会得到一千个这个 indirect frag 跟 diragifi 的样本观测值,然后呢,你就可以用这个去构造相应的自信区间了, 那么这个就是 boss 在说汇报的那个结果啊,当然这个直接汇报的这个结果呢,其实并不是特别可靠,因为他是一个 normal based, 也就是说他其实呢是这样,就是说我用这个 a 和 b 害的一千个观测值,我可以去算他一个样本的标准差,然后呢有了这个样本标准差之后呢,我如果假设 a 害跟 b 害是一个服从正态分布的话,那么我就可以基于这个正态分布, 我就可以得到一个他的自信区间了,也就是说你只要把这个一点九六乘以他的标准物不 stress standard arrow, 然后就可以得到这个自信区间的半径了。 但是我们前面说过,我们之所以要用这个自助法来构造自信区间的,其实就是因为我们不太相信这个统计量在有限的样本下是服从正态分布的啊,所以这个其实是 并不可靠的,只不过这个计算比较方便,所以 stay 他马上就会作为一个默认的一个汇报的结果。因此呢,我们其实还需要再追加一个命令,就是这里的 instead booststrate 啊,然后一个逗号选择箱, 哦,那么这个就是说所谓的这个 post s tvation command 啊,就是这个以这个 east 带来打头,那么这个哦呢,就是说让他汇报所有的不同方法所构造的自信区间。 那么这里面会包括什么呢?一个是 n 啊, n 就表示 normalbase, 也就是我们刚才已经见过的。还有一个是 p 呢,就要表示这个 posenta, 就是我刚才所说的, 你把 a 害成 b 害的样本关这值从小到大排列,然后去找到他百分之二点五的百分位数与百分之九十七点五的百分位数啊,由此来构造一个自信区间啊。 但是用普山塔的方法,它其实会有 buyers, 然后这个 bc 呢,就会给你做一个 buyers correction, 也就是说把你的这个偏差给较正了。为什么会有 buyers 呢?就是说因为你的这个自助法,其实是把这个样本看成是一个总体,然后不断的 从这个里面去做自助抽样,比如说得到一千个自助样本,但是这个样本的毕竟不是总体, 这个样本和总体的区别之一呢,就是说如果这个总体他在两侧尾部有很长的尾巴的话,那么因为他这个在尾部抽到的概率非常小,所以呢,这个作为样本来说,他通常你就看不到这样的尾巴了, 因此呢,你用这个样本把它看成是一个总体,不断的从中间做这个自助的再抽样的话,那么其实你得到的那个分布呢,就没法去再现这个总体中间那个两侧的很长的尾巴了,所以呢它会有一定的巴尔斯啊,那么统计学家就发明的这个方法,能够把这个巴尔斯做一些矫正, 而这里的 bca 呢,就是把这个 bias correctly, 然后又加上的 accelerator, 其实他就是把这个 bias correction 这个偏差矫正的方法做的更加的精细了,同时呢又具有这种加速的这个作用。所谓加速呢,就是说 看他这个收敛的这个速度,就是说你把这个八 s 给他趋向于零的速度到底是有多快啊?那么这个如果你是用的这个这个一般的这种 postato 百分位法的话,那么他的这个八 s 消失的这个速度呢,是根号 n 分之一,也就是通常的这个 loot and convergent。 那么这个根据这个 fron 和这个 tpeiran 里,在一九九三年他们写的一本书里面啊,就是 introduction to booster, 他们是推荐使用这个 bca 的方法, 最大的好处呢,就是说他的这个偏差收敛到零的速度呢,可以加速啊,那么他可以提高到 n 分之一啊,那么 n 分之一衰减到零的速度显然比根号 n 分 之一衰减到零的速度是大大的提高了,他是他的一个平方倍的速度。那么这个 f 让大家知道他是这个 booster 的发明者, stanford 统计系的教授啊,然后 tippy ready 呢,是他的学生,也是拉手的发明者啊,所以他们写的这个书呢,应该是非常权威的啊,所以在这个书里面 他们就推荐了这个 bca 的方法,作为这个最为靠谱的啊,但后面我们其实会看到,在有些情况下,这个八 s correctly anna serverit, 其实他和这个八 s correct 他俩是一样的,也就是说其实你可能没有必要去做这种更加精细的这个调整,或者是更加精细的调整的那个结果,和你一般的这个 boss corrected 的这个结果还是一样的。那么这边呢,就是我们所得到的最终的结果啊,你会看到说我们关心的当然就是这个 bs one 了,也就是这里的 这个,因为 bs one 它是对应的是这个 indirect fed 的这个统计量。然后呢,我们会看到说,因为我刚才使用的这个 east stat blushtad, 哦,这个选择像啊,所以他汇报的这个自信区间呢,就有这四个啊,有 n, 有 p, 有 bc, 有 bca, 那么这里也告诉我们他们的 k 啊,就是解释啊, n 就是表示 norm, 也就是说基于正态分布的说得到了自信区间啊,那么我们前面说过这个是不靠谱的, 然后这个屁呢,就是比较直接的啊,就是从小到大排序,然后去找一下百分之二点五和百分之九十七点五的分位数,这个所谓的 postantial 百分位数法啊,那么这个呢,是会有偏差的 啊,所以呢,这个统计学家就发明了后面这两种啊,那么 bc 呢,就是八 s correct, 而这个 bca 呢,就是把这个八 s correct, 然后又加了一个 accelerating, 其实它是一个更加精准的来做这个八 s crash 选的方法。那么我们看到这里呢,其实这个两个这个 bc 和 bca 得到了结果是一模一样的啊,也就是在这个数据的案例中间踏两其实并没有区别。 而且呢,我们还看到说,无论你用 n 或者用 p, 就是说基于这个 normal distribution 这样的一个自信区间,或者是用百分位法不生产所得到自信区间,跟你用这个 bias correctly 或者这个 boss correctly and assert ready 这些方法,因为这两个都是一样的,其实这这四种方法得到了结果是差不多的。 为什么会这样呢?因为我们这注意到就是说我们的样本容量其实很大,就是有一千五百个观测值,那么这么大的一个样本容量,那么因此呢,其实无论你怎么做得到的结果都是差不多的啊, 因为样本容量有一千五百个这么多啊,所以呢,无论你用哪种方法,其实他都会收敛到正态分布的那样的一个渐进分布,所以呢,对于这样的大样本,其实你用什么样的检验的方法其实差别并不大。 那么关于中介效应的 stay 打操作的上部分,我今天就先介绍到这啊,那么在下一期呢,我还会继续介绍中介效应的 stay 打操作的下啊,那么主要会涉及到残插自助法 以及啊,有一些人建议说用结构方程来做中介效应的估计,那么我也给大家来做一个介绍。好的,谢谢大家,再见。

用豆包一步步解锁晋源经济学的通关密码来了!首先找到我们的豆包软件,打开豆包,点击右上角 打开的是 stata 十八 mp 的 初识界面,这上方的菜单栏里有数据、图形、统计等功能模块。后续你导入数据后,就可以从这里调用回归、分析、作图这些功能。这上面一排的图标分别代表什么意思? 从左到右看,第一个黄色文件夹是打开数据文件,挨着的蓝色字盘是保存相机图标,用来导出图像。柱状图是调出图形编辑器,还有数据编辑器、变量管理器这些功能。你把鼠标悬停在图标上,会有中文提示框显示具体功能。 要想看这些变量之间的关系,应输入什么命令?你可以输入 core s, x, p、 r, l、 n, w 这个命令,来得到这三个变量的相关系数矩阵,直观地看出两两之间的限行相关程度, 列出这些数据的表。那么输入什么命令?你可以输入 list, s, x、 p、 r、 l、 n、 w。 按回车后, stata 就 会在结果窗口把这三十组观测值以列表的形式全部展示出来。 如果你们还有其他的问题,记得在评论区给我留言哦!

同学们好,今天我们讲一下双重机器学习的理论与实操。在了解双重机器学习之前,我们先看一个例子,我们在研究加入助教对教学质量的影响。这个例子中传统的限性回归方程是这样的, 其中控制变量有每天学习时间、作业完成率、出勤率等。那么这些特征的关系真的是限性的吗? 显然不是。例如,随着学习时间增加,成绩自然会提高。然而学习时间过长,很可能导致疲惫、睡眠不足等,进而造成学习效率下降,反而使得成绩下降。 虽然我们不关心控制变量对被解释变量的影响,可是模型设定的错误造成解释变量,对被解释变量的影响产生偏误。这个时候,双重机器学习就孕育而生, 其核心优势是在以下两个条件同时成立时,仍能得到无偏一致的估计,一是控制变量非常多,甚至多于样本量。二是控制变量与解释变量、被解释变量之间的关系未知,且可能高度非现行。 简单地了解双重机器学习的作用后,我们进行实操。我们以这篇论文为例,看一下它的双重机器学习展示了哪些内容。 这是作者精准回归和稳健性检验的表格。现在这个表格我们是看不懂的,我们通过实操讲解,最后返回来再看一下这个表格,我们就豁然开朗了。 这个是我们演示的数据以及代码。双重机器学习有五种模型,分别是部分向量模型、 交互模型、部分限性工具变量模型、灵活的部分限性工具变量模型以及交互工具变量模型。我们看一下他们各自的使用场景。 其中部分限性模型适用于解释变量是连续的且没有内生性问题,即 d 可能与未观测因素相关,但工具变量不可用。 例如教育年限对收入的影响。这个题目认为它是没有内升性问题。值得注意的是这个值,这个是交叉你和次数对应表格的这个值, 而这里的 y, x 以及 d 分 别对应我们的被解释变量、控制变量以及解释变量。我们定义变量后,执行部分限性模型。结果看看, 这个就是双重机器学习的结果,我们主要关心这个值,如果这个值是显著的,也就是小于零点一,说明双重机器学习通过检验。然后我们再看一下交互模型, 交互模型适用于解释变量是离散的,且没有内生性问题。估计处理干预的抑制性效应,如政策评估,项目效果等。也就是这个模型允许解释变量与控制变量交互, 例如估计参加培训项目对收入的影响。不允许内生性,但允许解释变量与控制变量交互。这些和部分限性模型一样,是我们的被解释变量,控制变量等。这个是我们选择机器学习的方法,这里是 gradboost 的 方法, 作者这里更换了不同的方法。做了一下稳健性检验代码,我就不执行了。判断依据和前面的部分限性模型一样。 接下来看一下部分限性工具变量模型。部分限性工具变量模型适用于解释变量存在内生性问题,例如使用到大学的距离作为工具变量来估计大学教育对收入的影响。 这里填的是工具变量,它引用的变量是这个。作者也使用了工具变量模型做稳健性检验。 接下来是灵活的部分限性工具变量模型,它与刚刚讲的部分限性工具变量模型的区别在于,灵活的部分限性工具变量模型允许工具变量直接影响被解释变量。 例如,部分限性工具变量模型认为大学的距离只能通过影响大学教育去影响收入,而灵活的部分限性工具变量模型则可以允许大学的距离直接影响收入。 交互工具变量模型是交互模型和工具变量模型的结合,允许内生性,并且允许解释变量与控制变量交互。以上的代码由于运行比较慢,我就不运行了,所有的判断依据都是和部分现行模型的判断依据一样。 最后我们再返回去看一下论文 作者的第一列是剔除了北京、天津等再进行回归。 第二列是使用了部分限性工具变量模型进行机器学习,第三列是改变交叉你和数进行机器学习。第四列和第五列是使用了不同机器学习方法进行分析。以上不论用哪种方法解释变量都是显著的。

今天我们主要来讲一下用面板数据做多元信息回归的时候,如果遇到数据不显著的问题应该怎么做。然后这里的话大致整理了八种呃比较常见的方法,然后主要从以下三个方面去展开,第一个就是我们的控制变量筛选,第二个的话是对原数据进行一番处理,第三个的话就是我们呃我们代码选择上面的一些呃方法。 那么第一个讲这个控制变量的筛选,他对我们的要求的话,就是我们再去选择变量的时候,这个对控制变量的选择的话要收集多一点, 一般情况下咱们的控制变量可能常见的有五到八个,那么你在收集的时候就可以收集个十来个控制变量去做备选,然后他的这个呃主要的逻辑是不同的控制变量他纳入模型的时候,这个结果可能会有会呃结果不同,那么我们就是通过系统上去筛选控制变量达到显著的结果,那么他的代码的话,在这边 就是我们的这个代码,其中里边标红色的是我们需要把自己的变量填进去啊,比如说啊音变量的字母是谁,然后控制变量的字母以及自变量的字母,然后后面的这一块的话,是我们所选的回归模型的这个模型的代码。然后像咱们一般比较常用的固定性,比较常用的就是 x c、 r e j 和 f e, 如果大家跟我一样的话,这块是不用动的,那如果你用的不是 x t r e j, 用的是 r e j 的 话,那你这块就要改成 r e j。 呃,然后你用的如果是高维的话,那就用高维的这个代码,然后这是它的代码,我们来实操一下,我这边有一个数据, 这个数据也是为了我们呃讲解去拟合的,它的这个字变量对应变量本身是不显著的,那这个就是咱们做回归的代码。首先定义面板数据,然后我们运行这个,呃固定效应模型,它双固定,固定了时间和个体,然后运行之后我们可以看到, 我们可以看到 x 对 y 的 系数是这个,然后它的 t 值和 p 值分别是这两个,它是不显著的,那么我们用这个代码,这个代码是第八个,在括号后面列表筛选,然后它这个 在这块的话就是对应我们的应变量和控制变量,然后这块的话就是我们的自变量,我们可以大致看一下我的这个设定,我的设定 y 就是 咱们的应变量, x 是 自变量, c x 一 到 c x 十是我控制变量,那其实我对控制变量的筛选的话,那就从这十个里面去筛, 然后我们直接运行这个代码,运行了之后,呃这块需要注意,如果我们在选控制变量的时候,尽量不要选的特别特别多,呃,如果特别多的话,这块的运行会花费大量的时间, 像这个的话大概运行两分钟左右。然后我今天也尝试了一下,本来选了十八个控制量,结果运行了好几个小时都没有出来,所以这块也是我们后期自己注意的,不要选择特别多,它运行它一个一个排列组合特别耗费时间,那么这个运行完成之后,我们的桌面会生成一个这块,它还在运行到运行完成之后生成一个新的这个文件夹, 然后这个文件夹的话里边就会有我们这个呃控制量筛选的一个结果,我们这块就不等他运行完了,我们直接看结果。我们打开这个文档之后,点击数据编辑器 这块的话,就是我们所有排列组合显著的一个结果。然后我们自己要做的就是在这些选择里边,呃选择符合自己要求的数量的控制变量,比如说,呃如果对控控制变量没有要求的话,就尽量选择控制变量最多的那个,比如说像这个的话,就是 选择三四五六七八九十这几个控制变量,能够保证我的自变量对应变量在零点零五的水平下显著。如果导师里面有其他的特殊的要求,比如说控制变量要选择几个,那么你就对应我在那几个的那几个情况里面去选择就可以了。这是我们的这个控制变量的筛选,这个方法的话,只要你控制变量足够多,它的成功率是非常高的, 这是第一个方法。第二个的话就是我们对原始数据进行处理去达到显著的效果。呃他的这个方法比较多,第一个是对极端值的处理,在极端值处理的话,我们有两种方法,第一种的话是把极端值替换为我们的边界值,这个就适用于我们的数据量比较少的情况下,比如说只有几百,我不想去损失我的数据量,那么我们就用这种替换, 如果数据量比较多的话,就可以用这个删除极短值,把极短值直接砍掉,不要他了啊,这是这两种方法,那么他的代码分别在这里进行了一个说明,我们需要替换的就是这块的变量一和变量二,把我们自己的变量填进去就行,然后这块写了两个,主要是因为我们可以从百分之一前后百分之一缩尾,然后百分之二缩尾的话,就是把后面的括号改成二和九十八,百分之三变成 百分之三的话,就是把这块变成三和九十七,依次类推,这就是呃他的一个代码,然后删除极端值的话,这块也是一样,你直接填对应的变量,然后按照百分之一去删除的话,这块就一到九十九,然后如果是按百分前后百分之二删除,就是二到九十八,跟它是类似的,那么对应的代码我们进行运行一下, 首先这个呃第一个去替换这个极短值的话,我们就把自己的自变量音变量,输入变量全部呃纳入,然后呃前后百分之一进行缩尾,就这个直接点击运行,然后这个它运行出来的结果可以看到这个数据的量是没有变化的,还是这么多的数据量,然后删除极短值的话, 然后删除了极短值之后,我们打开这个数据编辑器,就可以看到它新生成了呃这个 y x 以及我们控制变量杠 tr 的 这些数据,这些数据的话,它呃删除的这一步的话,它并不是对原始数据去进行的,它是生成了新的数据,然后告诉你我删了哪些,比如说在 z x 一 这块,我删的就是这些数据, 它就是这样子的一个,它会把呃删除的,呃把原始的这个数据保留啊,方便我们自己去观看,然后我们自己在做回归的时候,就拿剩下的这个就是已经删除的这个数据作为我们新的 y、 x 以及控制变量去做回归,去尝试它是否显著,这是删除的这块。 然后下面的话是限性叉股,这个方法的话适用于我们的数据存在少量缺失值,比如说呃,我的 x, 它某一个企业的 x, 呃, 二零一零年到二零二五年的数据,他缺失了四五年啊,这种情况是可以去进行差补的。那如果说某一个企业他二零一零到二零二五年的数据全部缺失,就是我想要分析的那些年限里边他的数据全部缺失,那这个是差补不了的。所以这个适用于呃,我们不想还是一样的想减少数据损失的情况下去进行了一个方法,那么这个的话代码就在这 这块,我的设定是这个变量一和变量二是需要插补的变量,我们一般情况下的话就谁要插补就把谁放进来,然后这是他的一个代码,呃,我们直接去操作 就是这块这块,比如说我第一个我是要插补这个 x 的, 那我就把 x 把变量移放到这儿,这块就是我命名要对这个呃 x 进行一个生成一个新的这个变量叫 mx, 然后我让这个 mx 等于现在的这个 x, 我们先把这个删掉,假如说我们有两个的时候就放这个变量二,好,那么只有一个变量的时候详细说明一下这个的话,就是我对 x 进行一个呃叉补,然后给它命名成了 mx, 然后我再把 mx 用 x 去替换,然后我再删掉我新生成的这个 mx 这个变量,然后我再把 x 的 那个变量删掉,其实就是这步。 然后我们直接运行这块的话,如果你有缺失值,这块就会显示有几个变量被顶上来了,那就是差不多了,我这块因为我是没有缺失值的,所以这块是零。第三个的话就是对于数据本身的一个剔除,这块的剔除的话,我们一般情况下, 呃,就是研究全行业的时候,需要剔除金融、房地产,然后需要剔除近三年有亏损的企业或者 st 的 企业,这个主要是因为这个金融和房地产的话,它的数据呃,我们可以把它理解为一种极端值, 它的这个如果不剔出的话,它会干扰正常数据的结果。然后 st 和呃三年亏损,这个的话,它他们两个其实是一样的,就是呃三年有亏损,然后这一类企业它的数据的话,呃并不具有太多的价值,所以我们把它剔掉。然后我们一般如果你的数据是从国泰安直接下载的,那么国泰安下载的数据,它一般情况下对行业的那一列的这个名称就是行业名称,然后呃 他也会有这个是否剔除 st, 以及是否剔除这个新上市或被暂停的公司,会有这一列的数据,我们直接拿这个数据就是直接运行这个代码就可以了,甚至不需要改动。那如果说呃你是自己去收集的一些数据,然后你给行业那块的 那一列数据的名称命名的是谁,你就把这改成谁。那么第四个的话就是数值的一些调整,这个的话主要是如果说我们用呃原始的数据去做出来显著结果的话,你可以把它的数据形式给它调整,调整的方式的话,这里列了四种。第一种就是我们比较常见的取对数, 然后这个取对数的这个代码就是生成一个新的变量,这块注意,呃,我们会生成一个新变量,原始的那个变量还是放在那个数据中的,呃,这块我们直接用例子来说,比如说我们现在 x 对 y 是 不显著的,那么我对关键变量去取一个对数,对 x 去取对数就被注在这儿, 那么代码的话就是我们生成一个新的变量,呃,这个变量名称可以由你自己取,我们可以取一个 a 吧,生成一个新的变量,名字叫 a, 然后这个变量的话,呃,它是我对 x 去进行取对数的,那就是对 x 去进行取对数。然后这块为什么用 x 加一呢?是因为如果我们的原始数据 x, 它如果呃有零这种情况的话,呃,我们就呃如果用这个这个取对数,它是取不出来结果的,它会呃直接是一个报错,所以我们一般情况下去对数加一,这样就避免原始数据如果有零它也是能出来结果的, 这是这个可以直接运行,运行了之后我们看再看自己的原始数据,就会发现它生成了一列新的 a 啊,这个 a 就是 对 x 取对数的一个结果,这就是这个取对数的代码。然后我们再用 a 作为我们的自变量去进行回归,去看一下它的结果是否显著,这是这个。 然后第二个的话就是数据的标准化,这个标准化呃跟取对数其实比较类似,他们的核心都是去销量高的,然后标准化的话,我们一般情况下是可以所有数据进行标准化,然后去看这个结果, 先把这个多余的数据先删掉。好,这是我们的人设数据 x 一 到 x 四,然后标准化的代码,在这里直接把我们需要标准化的这个呃数据填进去就行, 复制一下,然后这是我们的字变量,变量三个变量就是就是这个代码,然后直接运行, 运行了之后它也是一样的,它会生成新的标准化的这个变量,它并不会把我们原来的这个数据给它删掉,大家不用再记运行这个的时候不要担心啊,直接就有标准化的这个数据。呃,然后这个 z 杠就是我们在做回归的时候,就用 z 杠 y 作为应变变量, z 杠 x 为自变量, z 杠 c x 一 到 c x 十做控制变量,去展开回归,去看一下它的结构,这个就是标准化。 那么下一个的话就是我们把数据变成分段数据,这个只适合于我们的数据,是一个连续变量的时候更需要。哦,对,需要强调的是这块把数据进行调整,我们一般调整的是关键变量,就是 x 或者 y, 因为调整控制变量的话,它则呃这个显著的可能性并不高,我们主要调整的是关键变量,那么当我们的关键变量是一个呃连续性变量。比如说我这块举了个例子,就是呃年龄作为我的自变量的时候,我的年龄本来是就是我们的自然数, 然后我现在对他进行了分类,把零到十八定义为一,就零到十八岁,我全部逆合成一,然后十九到三十五定义为二,三十六岁以上定义为三,我就把一个连续性变量变成了一二三这样子的虚拟变量,然后他的这个代码的话, 就是我们先生成一个新的组别,让他呃的组别的数值全部都是点,然后我对他进对这个组别进行定义,如果这个组别如果这个年龄他在零到十八岁,那我这个组别就显示一,如果十九到三十五岁,我组别显示二,大于三十六岁,我组别就显示三,就是生成了一列新的组,那么这个这个新的组就是我们的新的字变量 啊,或者这一步大家也可以在 excel 里边去替换啊,直接把零到十八全部换成一,然后十九到三十五全换成二,这个也是可以实施的。我用代码的话就是这个去分组定义, 然后用新的这个数据去回归,去看一下这个结果是这个分段。最后的话就是我们之后一期自变量,这个主要适用于我们的呃自变量对一变量的影响,它可能存在滞后性,就比如说呃 当期的这个 x 对 外可能没有影响,它的这个影响要在呃一年之后才会慢慢显现出来。我们这个理论之后,那么之后的代码就是这个也是一样,生成一个新的 x, 这块大家可以给他起自己呃 l 点 x 就是 之后一期的 x, 然后这个也可以在我的这个数据里面去运行一下,直接运行了之后,我们点开原始数据,把刚才的转化的数据删掉, 点开原始数据就可以看到最后一列有一个新的 x, 然后这个 x 就是 之后一期的这个结果,就是它, 然后我们在回归的时候就用它作为 x 去对外进行回归,这是之后。然后接下来就是第三个板块,就是我们回归代码的选择,因为我们一般情况下的话,呃,用面板数据,可能像经济学这一类的话,大部分要求的都是用固定向量模型,那么呃,一般固定的就是时间和个体,那就是我的这个代码, 一般用的都是这个代码,然后只需要填入自己的变量,自变量以及控制变量,那么如果说固定时间和个体并不能得到显著的结果的话,我们可以尝试去固定其他的,比如说这块固定时间和行业,那么对应的你就要去找关于行业的这个数据,包括这个要固定时间和省份,你就要提前找好省份的数据,然后去进行一个 模型固定固定项的一个选择,然后对应代码就在这我们还是一样的,你只需要把你的自变量、控制变量填入,然后需要注意的是我这块对于行业这一列数据的名称,我给大家起的是 i n d, 这块我也写了绿色字体进行了解释,所以我这块就是 i 点 i n d, 如果你起的是名称是 a, 你 就是 i 点 a 啊,就是我们自己按照自己的这个名字,然后省份的话是 p r o, 我 们是这个作为省份的这个字母, 这是改变固定的内容。然后第二个的话,就是当我们用这个这个代码双固定,可能做不出来结果的时候做不出来显示结果的时候可以尝试一下用高维的这个固定向量和控制变量。然 这块的 id 和 er 的 话就是我们对应的一个呃时间和个体,一般情况下我们都用这两个,如果你用的不是这两个,你就要把你的时间和个体的名称重新写在这,然后这是这款下面对这个绿色字体的一个说明,用这个可以去尝试一下,然后我们也可以把这个操作一下,它做出来的那个回归清洁布 在这,然后把这个带入,然后直接运行,然后这个就是它的一个运行结构,可以放大看一下, 可以看到啊,这个还是不显著,那就说这个采用高维聚类啊,它还是不显著,那我们肯定就要尝试其他的办法。然后如果说啊用上面的方法都没有办法达到我们的显著的话,那你可能就要考虑啊,就是实在没有办法之后可以考虑的两个方法。第一个的话就是对我们的关键变量寻找新的量化方式,因为呃一个我们的同一个变量的话,它可能在 这个,因为你参考文献看的比较多的话,他会有多种量化方式,我们可能只选择了其中的一个,那我可以试着尝试找其他的关于这个变量的数据,再一次去做回归。去尝试这块的话,主要就是替换关键变量,就是两个字变量,一变量,或者说中介调节去换这些控制变量去换的话,可能他的这个呃结果不会很呃,不会很理想。 然后最后的话就是如果我的变量还没有其他的量化方式了,然后现在尝试了这么多,结果都没有办法,那么我们就可能去,呃,去去去放弃这个变量和这个变量,去找其他的新的变量去进行,这就是我们所有的内容。