粉丝224获赞945

大家好,欢迎来到 sita 数据分析入门课程,我是车水老师,本节课我们来进行第一节 sita 的简介, 主要包含三个部分,分别是熟悉随他的界面,熟悉随他的基本设定以及设置我们自己的工作目录。首先我们来进行第一部分,熟悉一下随他的简界面, 所以他的界面呢,包括四组窗口,两个菜单栏以及一个 输出结果窗口。四组窗口呢,分别是历史代码窗口,密令栏窗口,变量栏窗口以及数据性质窗口。在此基础,在此基础上呢,我们要学会如何浏览数据 和使用度文档。我们来打开斜塔,实地操作一下。双击打开, 我们发现,呃,最先映入眼帘的呢是中间这一部分,它是我们的结果输出窗口。呃,四个窗口呢,分别是 历史代码窗口,是最左边的这一列,比如说我在命令窗口进入一行命令之后呢,在左边他就会出现这个历史记录,如果我双击这历史记录的某一行,他就会重新再运行一次。 第二个窗口呢是命令窗口,我们可以把塞塔的指令呢在这里面建入,然后按回车就可以执行。第三个呢是变量窗 窗口,在右上角,我们可以在这里呃看到每一个变量的名称以及他的标签。第四个窗口呢是性质窗口,在右下角我们可以看到这份数据的名称,标签。呃,数据类型以及 嗯,变量的个数和观测值的个数以及这份数据的大小等等。然后两个菜单栏呢,在最左上角呃,用菜单栏我们可以进行一些基本的统计分析,做图,导入,导出数据等等都可以。 然后呢第二行呢是我们平时用的比较多的,比如说打开文件保存,嗯,然后打开读文档,浏览数据等等。嗯,在 基础上呢,我们来学习一下如何浏览数据。我们主要用的是这两个按钮, 这样单击就可以出现我们的数据,然后第二个按钮也是一样的,他们两个的区别呢就在于第一个按钮可以修改数据,比如说我第一个是一,第二个是二,呃,这个技术上 如果我想要修改的话呢,我打开,比如说我想把第一个数据变成零,那我就直接可以是零 就可以了。但如果我用这个第二个浏览数据的窗口呢,我想把它这个数据再变一下,就不可以这样直接改了。 所以在平时的使用过程中呢,我更推荐大家用第二第二个指令,它类似于指读,呃,这样呢,我们可以减少我们嗯,误误操作导致的数据的变化。然后 接下来呢,我们要学会使用杜文档,杜文档呢,就是这个类似于幕布一样的按钮,我们单击可以打开,在这个里面我们可以写入我们的命令,然后呃选中纸, 点击这个三角形就可以运行。克里尔的意思呢是清除数据,那我们就会发现这里面的数据刚刚进入的数据已经没有了。呃,相比于运用这个命令栏呢,相 我更推荐大家用杜文档,因为杜文档呢,我们可以随时的修改保存,以及和合作者同时使用的时候,我们可以把我们的写过的杜文档发给对方,然后在对方呢在你的杜文档基础之上再进行 修改呀,运行之类的都是可以的,这样就更方便更有嗯,修改的余地和更有操作性,也对我们的合作有一些有很大的帮助。嗯,比如说我们 来举个例子,如果我想浏览一下系统的数据呢?我们用 ccuse 这个命令,比如说系统有一份数据叫做 out, 嗯,我们可以 选中,然后点击这个三角形运行一下,就发现我已经把这个,呃一九七八年的机动车的数据 已经掉入进来了。是这个,那我们就可以发现呢,在看右上角可以看到变量的名称和标签,右下角可以看到这一份,嗯,变量的名字, 呃,数据的名字以及数据的标签,然后观测值的个数,嗯,变量的个数都是可以看得到的。好,我们 现在呢来看一下随他的基本设定。呃,因为刚刚开始了解一个软件的话,我们要呃把它设计成我们 喜欢的样子,我们如何设置呢?在 id 的这个里面呢,最下面有一个 praprans, 我们打开这样的 praprans, 我们就可以设置我们这个界面的, 呃显示的属性,比如说这个这个里面有主题,是标准主题,或者是呃什么经典的主题都是可以的,比如说我用标准主题点击 ok 就可以了。呃, 然后呢,第二个我要说的是要学会嗨老婆功能,可以让我们的效率事半功倍。比如说有一个命令叫做三木 s, 是用来做描述性统计的,但是呢,我不知道这个三木 s 是什么意思,那我就要在前面 加一个嗨,然后呢,嗯,直接回车来执行一下这一份,这个代码就可以出来了,他就会跳出来一个嗨,要普文档,告诉你这个三 ms 的命令是用来干什么的,他首先跟你解释这是一个用来做描述性统计的命令, 然后告诉你这个秘密应该怎么用。呃,首先进入三木 s 或者是 su, 就代表了三木 s 这个单词,然后 后面呢加入你的,嗯,变量的名称,后面再加 f 选项,应选项括号呢代表嗯,可加可不加是, 嗯,可以根据自己的需要去加的,然后可以加一些选项,然后有哪些选项呢?后面都会给你列出来,然后呢在后面他会 告诉你用菜单栏呢如何实现这个功能。呃,然后后面呢会给你举一些例子,让你更深刻的来理解这个命令。 所以说如果遇到一些不会使用的命令的时候呢,我们一定要学会使用哈尔普文档,然后也要学会如何阅读哈尔普文档。好,第三 部分呢是设置我们的工作目录,首先我们要来看一下当前的工作目录,用 p wd, 用 p wd 这个命令来实现。 没车,我们就发现当前的工作目录呢是地盘下的四件套。呃,那如果我想改变我的工作目录该怎么办呢?我用下面这一个命令 cd, 然后呢再把我的想要进入的目录在 写进来,比如说我想进入的目录呢是 f 盘。好,那呃,我已经设置到 f 盘,我们来验证一下,用现在的 p wd 发现呢当前的工作目录呢是 f 盘了。呃,还有一个呢是要查看系统的目录,用 casd 啊, diydl 呢,就是 draxdrax, 就发现呢有,所以他呢有六个文件夹,然后分别的系统的路径在哪里?我们如果想改变其中的一个呢?啊?当然是 都是可以改的。我这里演示一个,比如说我想改变这个 plus, 他的路径用 cs 镜。 啊,我想改变 plus, 所以我要把 plus 加进来。然后你想改到哪一个路径?比如说我想改到 fpard, 比如说我想改到地盘的四件套 的 a 度下面的 pass。 那执行一下就可以了。那我验证一下我这个改成功了没有?再用一下 cs, 然后呢就发现我的 plus 已经到了我刚刚设置的这个目录下面了。好,这就是本节课的内容, 我们学习了 cta 的界面、 cta 的基本设定,以及如何设置我们的工作目录。

大家好,我是太空鼠啊,我今天跟大家探讨一个问题,就是我刚开始去做实证研究的时候,也特别疑惑的一个问题,有时候我们做某些题目的时候,这个数据不好获取,或者说获取起来非常麻烦, 那么网上他有别人已经现成整理好的,那他这个整理好的数据我们能不能拿来直接去用呢?对不对?那他这个数据啊可能性强不强呢?我今天就给大家啊对比一下吧。 啊?比如说是啊,我们时政中如果我们研究这个上市企业的数据对不对?那么上市企业的数据的话,我们是需要这个很多控制变量的,比如什么 size 啊, l e v 啊, l a 啊, growth 啊这些,我们需要好多控制变量,那么这些控制变量呢?你如果一个一个去下载,一个一个去合并, 他其实相对是比较麻烦的啊,尤其是对于这个刚开始学时政这个同学来说,嗯,有可能第一步就被卡住了。那么网上有很多别人整理好的他们在卖的数据,那这个卖的数据到底可信不可信?和我们真实去下载下来的数据去对比一下是否可以用呢? 我们可以今天下来,今天来对比一下啊,然后,呃,这有一份,呃,我就是在那个买好的一份数据啊,它就是常用的一份控制变量, 它里面有我们常用的一些什么 size, l e v r o a r o e, 还有什么 girls 啊,乱七八糟的都有。然后呢我们去真实去下载一下这个数据,然后去看一下我们下载下来的数据和这个买好的数据它之间到底有没有区别?那么正好讲一下我们下载数据,我们下载数据之前已经讲过了啊, 我们点击数据中心公司研究财务报表,对吧?财务报表里我们找到资产负债表,那么首先我们规定好时间,那么时间的话我们就选举这个二十四年,对吧?二十五年, 不对,二十五年,零零到二四二十五年。然后的话,嗯,常用代码就选举全部 a 股吧,我们就不剔除一些数据了。然后呢自断设置,我们下载两个数据演示一下,一个是 与资产有关的数据啊,资产总计,然后再下载一个与负债有关的数据,负债合计啊,然后我们去啊验证一下,然后大家一定要记得在这时候我们还不能下载啊,我们要干嘛?我们要在常用条件里去把两个常用的条件把它筛选上,一个是 查询合并报表,一个是查询年报啊,这两个一定一定要加上啊,就省了我们很多处理的步骤。然后下载类型的话,我今天就不给大家下载 excel 了啊,因为之前讲过怎么把 excel 的 数据导入到 cata 里面啊,那我们今天直接就下载 cata 数据了,因为它也可以直接下载 cata 数据啊,过摊。然后我们下载数据。 好啦,下载数据之后呢,我们在之前下载的这块儿下载记录找到,然后下载 本地保存好了,下载好了,下载好这份数据,我们就把它打开,打开之后呢对它进行简单的一个处理啊,简单的一个处理, 我们首先先打开这份数据,打开这份数据之后呢,我们要做一些简单处理嘛,大家发现这个处理之前我也讲过,大家发现这个年份没有,对不对?然后这个还是文本格式,它不是字体格式,对不对?然后这个第一个是资产,第二是负债,我们把资产总计负债 合计这个变量名把它改一下, 还有负债我们都把变量名改一下,变量名改一下,方便 这个股票代码我们改成 id 啊, id 方面合并,因为我们要知道就是说我们等一会儿啊,去合并的时候,两份合并的数据,它的匹配变量必须是一致的啊, 然后我们生成一下年份 year, 等于 substar 统计截止至第一位到第四位,对吧?然后把年份识别出来,年份识别出来之后,我们把不需要的数据把它删除掉, 然后呢我们把这个股票代码和这个年份把它去变成数值型,对不对?我们 distribute 一下, 好了,这就没问题了。然后我们把数据进行一个合并, 我们把这个从国坛上下载下来的数据,哈,和刚才这个这个数据,对吧?我买的这份数据我们把它进行合并一下,我们去对比一下合并数据怎么 mark, 对 吧? mark, 一 比一对吧? 然后这会儿数据股票代码要改成 id, 对 吧?我刚才说过,合并数据的话,匹配识别变量必须改成一致的 ear id, ear 怎么样呢? using, using 路径对不对? 然后呢?合并之后呢,会发现有合并匹配不上的,为什么存在匹配不上的情况呢?因为我们刚才下载的是 啊资产负债的数据,但买到的这份数据其实它所有的控制变量都合并进来了,那一定会产生一个就是说有些变量有缺失值,有些变量没有缺失值,它在之前,它在这个整理的数据合并的时候,它就剔除掉了,所以的话就会产生一个样本量对不上的情况,这个没事啊,所以我们直接保留,我们匹配成功的 keep 一 幅 merge 等于三,对吧?然后 drop merge, 然后资产,对吧?但是这里的这个 size 它是取过对数的,对吧?那我们把这个我们的这个 size 去取过对数,我们生成一个 size, 等于我们从国摊下载下来的数据去取对数啊, 然后我们再生成一个 l e v 吧, l e v l e v。 资产负债率嘛,对吧?资产比负债。 然后我们把我们生成的这两个 size 一个 size, 一个 l e v。 和买到的 size 和 l e v。 去做一下啊,对比啊?怎么对比呢?我们用描述统计,我们一个一个描述,先 sum sum 这个 size, 然后这个 size 第一个是大写的 s, 这个是我们买到的,小写,这个是我们是下载到的,我们可以看一下。我们看到什么呢?平均值基本是一样,对不对?二十二点儿,原本的这个是二十二点儿零六零四八买到的这个啊,不是下载的这个是二十二点儿零六零四七,对不对? 最小值,最大值标准差,是不是都是一致的?那是不是差不多的?然后我们再看下另一个,那么 size 我 们是比较过了吗?然后刚才资产负债率,大家,我刚才生成错了啊,我们把刚才错的那个资产负债率生成重新生成一下,我刚才是资产比负债了,应该是负债比资产啊,我们重新生成一下 l e、 v, 就 等于什么呢?负债,对吧?比资产好吧?然后我们 sum 一下, sum l e v l e、 v, 我 们会发现什么呢?基本是一致的,对不对?零点四九六四八四,零点四九六四八五,对不对? 只是出现在这个小数后好几位才有不一致,那就证明什么呢?那就证明这个控制变量,起码这个控制变量我们通过抽样去选举了一些,证明这个数据我们买到的其实是不是可以用的。所以这个控制变量大家就放我个人的建议啊,仅代表我个人建议放心大胆用买到的就可以了啊。 然后那比如有一些数据,比如说要数据化转型啊,债务融资成本啊,嗯,这种数据的话,其实也是可以买的,就是但凡涉及到国泰安里面的数据,或者是万德里面的数据啊, 计算出来的你就可以买。但是说假说,假如说是啊,因为我们知道数据化转型数据它是磁频嘛,磁频的这种数据的话,那如果你自己不放心的话,那你可以自己去爬, 但是我个人建议其实这个也是可以买的,其实准确率比自己要爬的或许还要更准确一些啊。然后这里就是我今天讲的这个主题啊,然后大家,嗯,可以谨慎参考一下。

大家好,今天我们讲一下如何从 cd 打开,我们通过他下载的数据,首先点击文件,导入一个私聊电子表格,然后选择浏览,然后我们把这个自己下的那个原始数据点击打开进入, 嗯,然后我们点这个,将第一行作为变量名,然后他就会把变量名名为这个,然后点击确定,嗯,之后的话我们打开我们的对文件,看一下 有哪些距离的操作文件,主要就是可以把命令保存下来,不用一次一次去输。下一步的话,我们就是浏览一下我们的现在的那个数据, 可以看到第一行,第二行他会有一个错误,我们就要删掉他,然后删掉的那个命令就是用 job job in one two one two two, 他这里就删掉第一行,第二行我们点击运行 看他就可以删掉了。然后下面的话,你看我们这边的那个变量名,他都是随意命名的,我们现在要修改一下变量名,我们用瑞瑞内点击运行, 看他一件就可以修改。下一步的话我们就是看到这边都是红色的,红色代表的意思就是说 他们是自辅串型,不串型无法进行加减,所以我们就要把它进行去自辅串,我们用到这个代码 bs 均匀,然后把自要性修改 代码啊变量名写上头号写 replace, 点击运行, 然后他就变成黑色就可以进行了,这边就变成了那个 double 型类型, double 型服穿型,那就变成数字型,好。

我们今天主要来说一下,当我们去做时政性论文的时候,导师或者学校要求我们去做 state 面板数据回归的时候,我们要去做的一些板块。那么首先的话就是说我们面板数据的一个适用性,它的话比较适用于我们的金融、经济、会计、统计等等这些啊,偏经济类型的这个专业, 我这些专业的话,可能,呃做这个面板数据回归的话,他的嗯通过率会稍微高一点,那么下面的话就是做这个输了面板回归的这个主要内容。咱们这一次的这个 呃视频的话,主要是针对我们的这个说论写作的啊,主要是针对写作内容去进行的一个说明。那么我们写作内容的话主要分成这以下八个板块, 第一个描述性,第二个多重贡献性,三相关死模型啊。到第八个,那么我们针对每一个板块进行一个简单的说明。首先就是我们的描述性分析这块,我是截了一个已经发表的这个论文,那么这个文章的话,呃,我们看一下描述性分析,一般情况下他的这个模式就 下面这个图表,哎,他第一列就是咱们的变量,第二列是个数啊,就是你收集了多少组数据,然后我们一般情况下去标注的数值就是极大、极小和均值标准差,那么通过极大值、极小值还有我们的均值的话,我们大概就能知道这个变量他目前处在哪一个。呃,分级上, 比如说我们这个 to be q 值,他指的是这个企业绩效,那么我们看最小值零点七,最大值十三,他的均值在百分之,呃在二,那就说明我们所收集的这个研究对象,他整体来讲企业绩效是处在较低水平的,对吧?他二和零点七,呃,零点七和十三,哎,我们去去取他的均值的话,可能在七左右 啊,六左右,那么呃实际上他的均值在二,那他远远小于我们理论上算出来的均值。所以啊,这块的话,我们可以通过这种就是比较简单的方式去描述一下。那么标准差的话,他指代的就是我们说了我的整体他处在一个中等偏下的水平,那么各个企业之间的差异大小情况是怎么样的?我们就从通过标准差去进行一个说明,标准差 他越大,说明各个企业之间的波动程度越大,这是这个描述性分析。那么描述性分析他的目的主要就是去说一下我们整体收集了一份数据,那这个数据假如说我们是对企业去进行描述的,那我们收集了这些企业的分布情况,大致一个怎么样的一个情况?有没有一些极端值? 比如说这个透明 q 值,我们都知道企业绩效,那如果说我有一个极大值,他是几千或者几万,那可能这块就有点问题。我们通过这样子简单的一个排布就能够看出来我数据第一个我数据有没有问题,第二个我数据的这个均值情况,他是否符合现状啊?跟现状去对比一下,如果跟现状严重不符合的话,那也说明我们的数据是有问题的。 所以这块的话就是去简单看一下数据的分布情况,看一下数据是否贴合实际情况,那么我们做描述性分析代码的话,这是一个呃简单的代码,然后第二个的话就是多重贡献性检验,这个的话,嗯,其实有一些争议,就是有些人觉得呃不应该去写这个多重贡献性,就没有必要去写,有些人他又觉得这个多重贡献性 他是呃比较有必要的,那么我们在这块的话就可以根据实际情况啊,就是说如果我们你可以看咱们学校呃历年来的一些文章,他有没有写这个都是关键性,如果没有的话,那咱们也可以不写,如果有的话我们就给他加上,或者后期导师要求加上的话,我们就给他加上。 那么这个多重贡献性的话,他的本意是想去说我所选择的这几个变量,他的多重贡献性就是他的,他们之间没有一个强相关性, 那呃啥意思呢?就是说假如说我选了 x 一到 x 七七的变量,那如果说我 x 一和 x 二它们两个的这个相关性非常强,比如说 x 一和 x 二相关性零点九几, 那那是不是就说明 x 一和 x 二他们所解释的东西啊?有百分之九十的这个信息都解释的是同一个,那我 x 一 x 二保留一个变量就可以了,对吧?那多重贡献性的话,他其实就是去呃降低因为变量和变量之间相关性太高而导致的。对,最后我们的回归结果的一些差异,那么我们通过多重贡献性检验, 我们主要是通过这个 vif 的值,如果 vif 是小于十的话,我们就认为没有严重的都是贡献性,那如果有的话,我们就得把有都是贡献性的那个值给他剃掉,然后他的代码啊,就是这个代码。 然后第三个的话就是咱们的相关性啊,相关性他的表格的话展现就是这样子,一个倒三角的形式,然后里面的这个值的话,就是我们的相关系数啊,一般是负一到一之间,那这个相关系数的话,嗯, 也是有一些问题,就有些人觉得相关系数是不是越大越好,或者啊负向的越大越好,其实这个值的话就是多少就是多少,我们主要看后面的这个显著性。当然如果你的相关性太大了,他并不是一件好事。就我刚才提到的,如果相关系数,就你的所有变量之间的相关系数,他都非常大,比如说都大约的零点八、零点九, 那么我们就可能啊变量之间存在这个严重的贡献性,哎,导致你后面的结论可能有问题。那么我们一般的这个思路就是我先做一个相关,然后我通过相关发现,哎,我的这个系数啊,我的相关系数的话,他都比较正常,就是,哎,零点几啊,零点一, 一级,二级啊,三级啊,这些其实都正常的啊,如果没有那种满天都是零点八、零点九或负的零点八、零点九,那么我们就不用做,都是贡献性。如果你满天都试的话,你就得做一下,看看要不要去提出变量, 这是相关性分析。然后这是他的一个代码啊,这个代码简单说一下,这个前面的这个的话就是他的命令,然后后面这个变量的话,就是你要做相关性的所有的变量,把他的名字给他打上去,然后销会说啊,他就会输出来这样子的一个表格。 然后接下来的话就是我们要做回归分析,那么相关性分析论初步论述了两两变量之间的一个相关性,那么我们要进一步去论证因果关系的话,是要去通过回归分析。那么面板数据和洁面数据不一样的点就在于我们在用 面板数据去做回归的时候,是要有一个检验的,就是面板数据他有三种模型,第一个模型叫做固定效益模型,第二个叫做随机效,第三个叫做混合效益模型。那么这三种模型的话,并不是说我预先一开始我就知道我要用哪一种模型,然后我就直接用,他是要根据我们的数据去进行检验,然后 得出来我的数据最适合于哪一种模型,它是这样子的一个思路。那么对于我们经济学来讲的话,我们一般情况下用到的模型最常用的就是固定效率模型, 然后对于一些比如说,呃,心理学呀啊这些这些专业的话,他可能就更常用到的随机效应模型啊,最少用到的就是咱们的混合效应啊,如果用混合的话,那其实可能就说明我们的这个面板数据他,嗯 啊,这个不太适用于啊,不太适用于去做一个面板数据了,所以在这块的话啊,有一个这个模型检验的这个图,这个图的话就是我们分别要做的检验,然后这个 f 检验的话,我们只带就你做 f 检验,可以从这两个模型里面去挑出来一个你,我们就发现这个检验他只能从凉凉里面去挑,所以 我们要从三个模型里边挑出来一个最适用于的模型,最适合的模型的话,我们至少得做两次检验。那比如说我先我一般的,我们一般的常规速度,因为咱们是固定小于模型,就是这个 f e 模型,这个是固定小于模型,然后这个 p o l 是我们的混合 r e 的话是随机 效应模型,那我们一般呃选择的是固定效应模型,所以咱们的顺序就是先做一个 f 检验,那么做 f 检验我们显著呃这个 f 检验的这个结果通过了,那么我们就说我在呃固定效应和混合效应模型里面选择了固定效应,但是随机效应我们还没有检验,所以我要再进行一个 hostman 检验, 进行下面的这个笔检验,那么下面的这个检验就能从固定和随机里去挑出来一个。当你的 f 检验和 hostman 检验同时都通过,就是 p 值小于零点零五的时候,我们就选择固定。当你 f 检验通过, hostman 检验没有通过的话,我们就选择随机啊,这是这个,然后分别呃下面的话分别就是它的两个代码, 然后这块有我们需要改的就是这个 y 指代的就是咱们的音变量, x 指代的是自变量,到时候我们要把对应的自己的 y 和 x 带入就行,下面也是一样的, y 和 x 是要变的,其余东西都不用变。下面的话就是咱们的回归分析啊,或者说啊回归分析里面我们包含一些中介机制呀,调节机制的检验,那么我们一般会把表格做成这样子的一种形式啊,做 这种形式,然后他的这个,嗯,代码的话,我们就在这边啊,一般情况下我们选择固定效应模型的话,就上面这个代码,当然这个代码的话,他他并不是说唯一的这个代码是最简单的一种代码,就我们直接一看我大家就能记住了,哎,这就是做固定效应模型的一个代码,那么如果我们想通过代码把这个输出的结果,因为他用这个代码输出的结果,嗯,非常的这个 就是不像,不像这块这么美观啊,不用你再去调整啥,你这个做出来的那个表格的话,他还需要你后期进行整理,整理成这个样子,所以啊,这个这个代码他就不是唯一的,我们还有一些其他的代码,但是比较复杂一点,他能够帮助我们去把表做成这个样子啊,这是我们大概了解一下, 这是回归分析,那么回归分析的话,我们主要就是去解释在这一块的时候,他就跟相关系数,相关分析那块不一样了,那我们通过相关分析可以简单的去描述一下边两两两之间的一个相关性,那么在回归的话,你就重点得去解释一下我们的回归系数是正的还是负的啊?是大于零还是小于零,然后解释它的显著性是 在多少的水平下显著,对吧?然后括号里的值,我们一般把它叫做呃 t 检验的值,这个值其实跟星号他们两个所代表的呃就是他们俩,他们俩所所展现的内容其实是相同的,都是在说我得到的这个回归系数他是显著的, 然后呃基本上星号和这个 t 值是呃对应关系啊主,然后如果,比如说我们自己的数据呃不太显著,然后有人把这个数据给他改了,哎,比如说,比如说这个值对吧?负的零点五六二六,那他本来是不显著的,然后我们呃可能有些人把它改成了显著,然后他下面的 t 值没有改那么一眼,那就是咱们了解 stata 的人一眼就可以看出来这两个是不对的啊。这是这个回归分析 下来的话,就是咱们的一个稳健性,检验稳健性的方法非常多。啥叫稳健性呢?就是我用另外的一种方法去验证一下我刚刚得到的这个结论是不是正确的,或者说我得到的结论是不是一个偶然性的结论。那么我们稳健性的方法的话,就比如说最常用的替换变量法,第二个的话就是改变呃 年份,就比如说你原来研究的是呃一零年到二二年,那我现在把它改成一五年到二二年,再次做上面的回归,看一下结论是否一致。那么替换变量法的话,顾名思义就是把我们某一个关键变量的量化方式给他换掉,那么咱们一般替换变量主要是替换音变量, 因为应变量是贯穿始终吗?不管你哪一个分析,他应变量都要参与,所以我们一般就把这个像这个企业绩效,他原先用的是这个 topico 值,我们就可以把它换成比如说这个企业的资产报收率啊,企业的净资产收益率啊等等这些指标。那么把这些变量换掉之后,我再一次去做上面的这个回归,看一下结论是否有差异 哦,但是要注意的是这个结论是否有差异,并不是只代到我的回归系数一定要相同,或者我的显著性一定要相同,这块指代的就是我所用两组数据做出来的结果。哎,他的正负性是否一致啊?他的显著性是否都显著,不用去管那一颗星,两颗星还是三颗星,只要他都显著就行,这是稳健性。嗯, 我们先从这个内生性检验的含义来讲,他就是说这个模型中一个或多个解释变量与误差项存在相关关系,那么说白了,这个解释变量就指的是咱们的音变量字变量,误差项指代的就是我们对音变量有影响的其他变量。那我举个例子,比如说我们去论证学习态度对对学习成绩的关系,那么 存在内生性的这个从他的含义来讲的话,就是我们的这个自变量学习态度和影响学习呃,成绩的其他变量存在相关性。如果有这种关系的话,我们就说,哎,可能会存在内生性问题, 那么呃,他并不是说,哎,他这个含义是这样子的,但是并不是说产生内生性就只有这一个原因。我们产生内生性的原因非常多,这里我们主要说 写作过程中最常遇到的第一个叫做遗漏变量。这个遗漏变量的话,其实就是在说我们文章中,因为你一篇文章研究的内容是有限的,你不可能把所有的东西都研究透,所以肯定会存在遗漏变量问题,那么你遗漏的那些变量就可能会与你的字典 有关系,就我刚才说的这个学习态度,他可能和一个我们没有研究到的,但是能够对音变量学习成绩产生影响的啊,有关系,他们俩有关系就可能会有内生性问题。 第二个的话就是互为因果,互为因果的话就是主要指咱们的呃解释变量和背解释变量,也就是字变量和音变量之间,我们理论上是认为字变量去影响音变量,就学习态度会影响我的学习成绩,但是有有很多情况哎,比如说我觉得这个例子 反过来也是可以的,就是当我的学习成绩比较高的时候,我的学习态度其实也会有一个变化,这个就是互相影响,互为因果,那么互为因果的话,他也会导致我们的内生性问题。当然还有一些其他的,我们这里就比如说一些呃存在测量误差呀等等等,我们在这块就不再去赘述,因为他呃没有办法解决啊, 就是在我们的写作过程中。然后第三个的话就是我们当我们存在内生性的时候,我们常用的最常用的办法叫做或者说呃文呃写作过程中最常用的办法叫做工具变量法,但是还有些其他的,我们这块就不过多展开。 然后我们对工具变量找寻的要求的话,有下面这两个要求,第一个的话就是要与 x 有关,第二个与 y 呃影响 y 的其他变量无关,也就与我们的残差项无关。那么这块怎么样去解释呢?就是内生性问题,我们用工具变量法去呃去检验它的时候的逻辑其实是这样子的, 是我们现在说 x, 它和我没有研究到的,但是能影响 y 的变量,它有关系,所以导致了内生性。那我现在能不能去找一个工具变量,它既能够, 嗯,跟 x 有关系,就是它既能够代替 x, 然后它又与这个影响麦的其他变量无关。那如果我能找到这个变量的话,我就可以拿这个工具变量指代我的字变量去进行回归分析,那这样子的话 就能够确保我的这个自变量就是咱们的工具变量,到时候就变成了自变量嘛,就能够确保咱们的自变量和呃残差效是没有关系的,那这样子就能够确保最终的结论他是不存在内生性的呃,但是往往呃我们工具变量的找寻的话,它的难度非常大。就是我们 如果是说论或者不是论文,甚至本科论文,如果我们要去做内生性的话,其实一般都不建议我们自己去创造这个工具变量,我们一般都是去别人的论文或者文章里面去找,比如说我还是刚才的例子,我们去验证学习态度和学习成绩等。然后现在我导师说了,这有内生性问题,你得去找一个工具变量, 我们就在织网里这两个变量作为关键词,去搜别人研究的相关文件,去看一下别人在去解决内生性问题的时候用了什么变量,我们直接照搬过来啊,当做我们的工具变量直接去进行使用就行。 下来的话就是最后一个我们的抑制性分析啊,抑制性分析的话他呃就比较简单了,他实际上就是把研究对象去分类,然后重复的进行回归分析,他实际上,呃,因为有,有时候有有些人把抑制性他叫做检验,严格来讲的话抑制性我们一般是一个分析的内容,就是我对回归分析的进一步说明,那我回归分析,假如说论证出来 这个自变量对音变量有一个显著的正向影响,那我的意志性就是我把我的研究对象给他分成呃细小的类。比如说刚才是对企业 进行分析的,那么我们把企业分成了这个江苏,把企业按照不同的省份给他分类了,分成了江苏省和浙江省,那么我对不同的省份去进行一个回归分析之后发现,哎,是不是浙江省和江苏省他们两个之间的回归结果是有差异的?那如果有差异的话,我就要去解释一下为啥这两个省之间有差异。 当然这个分类的方式的话,他并不是唯一的,也不是说固定的,我们要根据自己的研究内容,比如说你是企业,那你就可以分成国企、非国企,那如果你是研究污染相关的,你就分成污染企业和非污染企业,还有咱们的一些呃,大规模呀、小规模呀,甚至企业成立的时间等等。


hello, 大家好,这里是你的期末学长,本期我们来讲一下经管和社科最容易混的毕业论文, 那毫无疑问里面最好过,而且不用你写实物的,那就是时政了,现在的时政大部分老师都会要求这一点的, 不管你是用 spot 或者 star 都行。然后我们现在实践里面最常见也是最适合新手的话,就是问卷调查啊或者统计。 那么下面有一些同学问过我的问题啊,他说可以用 excel 嘛?我说 这个你自己试过一下你就知道啊,他分析出来完全都不是一样的,而且一点都不专业,大部分老师也不太承认这一个。 那么做实践分析最重要的几个点,开头你肯定要设计一个问卷对不对?无论你是去往年中的文献中找,或者是你自己设计,你都要设计一个比较好一点的,不然你后面用 spss 跑出来数据也是垃圾。 第二个是你的发,发放和回收最少最少是两百,样本太少的话数据也是支撑不起来的。我们后面用 spss 给大家讲解一下啊, 那大概的流程就是说你用问卷心也好,呃什么之类的,你先设计好一个问卷对不对?然后你就去发放,发放收集上来之后录入,录入了之后最重要的三个 数据,描述性、统计性、效度分析,相关与回归分析对不对?你先跑信度嘛,然后那数据靠谱了之后你再跑别的。 这是一些例文,可以参考一下,有需要写时政分析的同学可以参考一下, 我们下期再见。拜拜。

今天的话我们只要讲一下如何将一份宽面板数据转化为长面板数据,宽面板数据就是咱们这种可能经常下载到的数据,就是变量和年份都在同一行,但是我们想得到的长面板可以用来做回归分析的数据,是变量在行的上面,然后 年份在裂上面,这样的话我们就需要用到一个蕊 ship 树,蕊 ship 就是改变的意思,改变它的形状的意思,浪就是转化为场面板长的意思。然后后面的话输入我们需要转化的变量, 然后再写上我们固定不变的一个量,就是我们的康锤是我们个体,他是固定不变的,然后这一页的话就是我们后面的年份,把它给提取出来之后就放在年份的上面,这样迷回车, 一回车我们把这个英文的,然后他就这样就可以进行了一个转化,我们可以看一下结果,这就是我们转化后的数据,他是非常规整的,看都是按从小到大从首字母顺序排列的 国家,然后年份,然后这他的变量值都非常的规整,这就是我们进行一个转化的步骤,如果大家喜欢的话就点个关注,谢谢。

我靠,同学们现在的 ai 也太神奇了,能够一键就完成我的分析。比如说我这里想进行描述性统计,但是我的题还是很多,如果放在 sps 当中,我需要手动一个一个拖, 但是在这里不用,你直接把数据上传,然后告诉他你想进行描述性分析,他直接就给你这个标准的筛选表,你看到没, 这个三线表是可以直接复制粘贴的,直接复制粘贴到 word 文档当中,也是标准的三线表。最关键的是什么?在他右边还提供了其他的分析方法,配对独立卡方信度、效度贡献正态非参数。

别人用一个 ai, 我 同时用六个,不是我卷,是这个方法太香了。大家记住这个工具,它能同时调用六个 ai 模型,各干各的活。比如我让 deepsea 写大纲,让可乐的润色文案,让 gpt 做翻译,三个同时跑,互不干扰。 最绝的是这个功能,同一个问题,六个 ai 同时回答,直接对比,选最好的那个,三十多个主流模型随时切换。以前要开六个网页,现在一个界面搞定,用过的回来告诉我省了多少时间。

大家好,我是太空鼠,我们今天接着啊这个系列继续讲啊,我们这个系列已经马上都要跟完了,大家看这个系列就可以完全去啊,学会这个怎样去做一个时政了。 那么今天这个系列是讲的是这个啊,我们内生性检验当中的一个工具变量法啊,工具变量法大家也知道吗?是我们最长最常用的一个方法,也是必须要做的一个方法。然后这是我们啊老生常谈的环节了,大家可以看一下这个啊,这张图啊, 然后有模型指导答疑,也可以说是滴滴。然后接下来接下来我给大家说一下这个工具变量法, 那么工具变量法是解决我们回归模型内生性的一种问题吗?那大家也知道内生性的问题他是什么?呃,他要说到比较深的话,计量经济学里面他是什么意思啊?就是说我们回归模型当中的解释变量,也就是自变量 和这个随机误差项是相关的,导致我们的普通最小二乘法 o s, 它的估计结果是有偏误的啊。那么内生性问题啊,我们具象话去说,它就是有三种,一种叫做遗漏变量, 一种叫做反向因果,一种叫做样本选择偏差。那么我们反向因果这个问题是什么原因呢?就是说我们自变,比如说我们研究的题目是数值化转型与这个财务绩效,对不对?比如我们研究的题目是数值化转型与财务绩效,那么我们认为数值化转型会去影响企业财务绩效,对财务绩效可能是一个正向的关系, 但是有没有一种这样的可能呢?就说财务绩效,它倒过来也会影响起的速算转型呢,是存在种反向因果的关系,对不对?那么工具变量法就是为了去解决这种反向因果的问题的啊,那么为什么工具变量它法它可以去解决这个 内生性当中的反向因果呢?它是通过引入一个工具变量法,它是通过引入一个工具变量来替代掉我们内生的解释变量。 那么工具变量他们必须要满足两个条件,一个叫做相关性,一个叫做外声型啊。相关性是指工具变量与内声的解释变量,也就是我们的字变量是相关的。 比如说我们。呃,研究的这个题目数大转型嘛,那我一般选举的数大转型的工具变量,就是说可能说同年份同行业其他企业数大转型的均值,那他是不是和我们的原本的这个内声的字变量它是相关的呀? 对不对?那外声是什么意思呢?外声是什么意思啊?它是工具变量,与随机误差像它是不相关的。就是说工具变量只能去通过去影响这个自变量来影响音变量,它不能直接去影响音变量。工具变量它是通过间接去影响自变量去对音变量造成一个影响。 那么工具变量法的话,我们一般都是做怎么做的呢?我们做两阶段最小二乘法是不是?那么两阶段最小二乘法,我给大家举个例子啊,两阶段最小二乘法啊,它 是有两个阶段嘛?第一阶段和第二阶段。第一阶段是我们工具变量和自变量去回归嘛,第二阶段是自变量和因变量去回归,对不对?我再给大家举一个比较通俗的例子,去 理解一下你这个内生性问题当中这个工具变量啊,假设我们研究的这个问题是这个教育的年限对于我们这个工资的影响啊,我们假设研究的问题是教育年限对工资的影响,插入一个 这个表格,不用插入了,我们直接说吧。假如我们想年金的是教育年限对工资的影响,那么这里是可能存在内生性问题的。比如说什么呢?个人的能力就比假设有存在一个变量是每个人的能力,那每个人能力可能说这个人能力有智力啊、动机啊,是不是他都会影响他这个企业的教育年限, 但他又会影响这个工资,对不对?就是他既会影响你这个自变量,又会影响,可能会直接影响到你个应变量工资,但这个个人的这个能力吧,他又没有办法去测量,很难去度量, 很难去观测到,因为他没有办法去度量。不像呃,教育年限这种东西,我们可以直接说你上了多少年学,直接把它量化,对不对?所以的话,这个个人能力他有可能会遗漏在这个误差项当中去。 但是说自变量教育年限又和这个误差项它是有相关的,所以它就会有这个内生性问题啊,我们通过两阶段最小而乘法去解决。那么刚才这一部分都是这个偏理论的部分。大家啊,能听懂的话听懂,听不懂的话我们也没关系,我们直接去上操作啊,上操作, 上操作的话,我们就是这个工具变量法嘛, iv r e g h d f e, 对 不对?是不是? iv r e g h d f e 是 我们工具变量法的代码,然后它后面的范例呢?是先加你的音变量, 然后括号里是自变量等于工具变量,因为我们这会我们这个工具变量没有去合适的工具变量,我们就直接,嗯,就是假设大家在实际去做工具变量法的时候,没有合适的工具变量,我们可以把之后一期的核心自变量当做工具变量去用, 之后一期的核心自变量当做工具变量,我们这里把之后一期的竖大转型当做工具变量去做, 然后接下来是一系列控制变量,我们可以放到这里面,然后最后是固定效应,对吧?固定效应,把固定效应复制过来, 我们设定下面板数据啊,用我们做之后的时候一定要设定面板数据。好了,我们直接对工具变量这个代码进行运行啊。 嗯,数据打开不收费,这块数据我们应该打开另一份数据, 我们可以看到这是工具变量的结果啊。我们首先看第一阶段,第一阶段在这里 force stage regression 第一阶段的回归,我们会发现第一阶段的回归是工具变量和自变量的回归,对不对?那么工具变量和自变量的回归的话,它是不是正向显著的?零点八二是正的,对不对?然后也是显著的,对吧? 然后这是第一阶段,然后第二阶段这个 f 值, f 值看到没有?这个也是大于百分之十水平上零界值十六点三八,然后我们继续看第二阶段, 那么第二阶段这是二阶段的估计嘛,对吧?第二阶段估计,第二阶段估计的话就是自变量和因变量的一个回归,就是数字化转型, 对吧?和我们这个 roe 净资产利率也是财务界的回归,它同样也是正向显著,对不对?也是通过的。然后再看这两个检验,一个叫做不可识别检验,一个叫做若工具变量检验对不对? 不可识别检验,它 p 值是显著的,对不对?若工具变量检验呢?就是这个 f 检验,它也是大于百分之十水平上临界值的,那就说明我们这个工具变量法是完全是通过的,对不对? 那么通过之后,那我们这个啊,内生性问题当中的反向因果就可以进一步得到一定程度上缓解,我们可以缓解这个问题。好,我们今天工具变量话就讲到这里,然后我们接下来再去更新其他的啊。

同学们好,这里是时政播音坊,今天呢给同学们分享一个大家在做时政分析过程中,很有可能会用到的一个知识,就是关于这个异方差,还有句类文件的标准物。那我们今天呢主要讨论这几个问题。 首先呢给同学们讲解一下什么是这个异方差或者是句类文件的标准物啊?大家在看这个时政分析论文的过程中啊,肯定会看到过论文中有这样的描述啊,要么说是在企业层面进行了句类标准物的调整啊,或者说 是在这个括号里面的估计是稳健的标准物。什么是稳健的标准物呢?我们在对模型回归之后呢,会得到一个这一行这个回归系数, 那回归系数呢,他就会有一个对应的标准物,稳健的标准物就是对这种回归估计结果标准物的一种修正。那么既然是修正呢,他有两种修正方法,一种是这里他叫具类的稳健的标准物,还有一种他这里虽然直接叫稳健的标准物,但是呢他这里 它指的应该是叫一方叉稳健的标准物。所以说我们常见的如果说是稳健的标准物,那么默认就是一方叉稳健的标准物,那么如果说是具类的标准物,那么其实就是具类稳健的标准物。那么我们为什么要采用这种稳健的标准物去进行修正呢?嗯,这个就涉及到我们之前讲过的一个很经典的问题,就是 我们想要采用这么一个回归模型,首先要符合一些假设了,这里同方叉线还有无字相关性,这么两个假设, 稳定的标准物和具类标准物都是针对回归模型中异方差矩阵相关的经典假设,违背问题的修正方法。 那么什么是这个同方差异方差呢?那这个我们之前也讲到过,就是在这个我们要用到的回归模型中啊,你这解释变量,被解释变量,然后这是控制变量,对吧?然后这是固定效应,然后如果这个随角动向, 他的方差,他的方差不是独立的,而是会随着这里的其他变量的变化,他的方差会跟着变化,那么他其实就叫异方差的。 我们想要采用这么一个回归模型呢,就要符合它是同方差的假设,那其实在大部分的自然经济数据中,数据本身都是异方差的,没有办法满足这个同方差假设,所以说呢,我们就要采用稳健的标准物或者叫异方差稳健的标准物去进行修正。 同样的问题,只要是自然经济类的数据啊,其实这个一般都会存在这种自相关的问题,所以说同方差还有这个无自相关这两个假设啊,他们其实很难达成的,所以我们要对回归的结果进行一个修正,让回归系数的既同一辆屁值,还有执行区间恢复统计的有效期。 那么刚才我们了解到是有两种文件的标准物,一种是一方叉文件的,还有一种是句类文件的。那很多同学就有一个问题啊,就是我们到底应该采用哪种啊?这个我在网上也看到了不同的讨论啊。然后我比较赞同的是陈江老师这本将进学 c c 应用这本书里面的他的观点啊, 你看他怎么说的?由于面板数据的特点,虽然通常可以假设不同个体之间的扰动线互相独立,但是同一个体,大家注意,同一个体在不同时期的扰动线之间往往存在自相关,那么我们可以把每个个体,每一个单位,他不同时期所有观测值当做一个据类,就是把这个据类当成一个个体,这样样本观测值可以分为不同的据类, 那么在同一锯类里的观测值互相相关,但是不同锯类之间的观测值它就不相关,这个就是其实就是锯类的概念,这种样本叫做锯类样本,那对于锯类样本,我们仍然可以使用这个 o、 l、 s, 估计它就可以基本上满足我们前面的无字相关的假设, 但是呢,我们就是需要采用什么呀?就叫锯类文件的标准物,那么锯类文件的标准物和一方差文件的标准物到底什么关系呢?那对于样本容量为 n t 的 平衡面板, 就是这个 n 呢,它就代表个体数嘛,然后一个个体它就代表一个具类,然后每个具类包含 t 个观测值,对吧?那我们想使用具类文件标准物的前提呢,就是具类中的观测值 t 较小, n 较大,那么也就是说你这个 n 啊,要远大于这个 t, n 远大于 t, 那 我们就比较推荐使用这种叫具类文件的标准物。但大家仔细想一下, 我们自己来做面板数据,无论是这个公司层面的面板数据,还是说什么 d 级是省级的,这种面板数据,个体的数量,这个 n 啊,往往都是要远大于这个时间的 t, 所以说在大部分时候,在绝大部分时候,我们采用这类文件的标准物都是没有问题的,而且我们在推导这类文件的标准物的过程中呢,并不需要满足这个同方差的假设,所以说这句话很重要,这类文件的标准物他也是一方差文件的, 这类文件的标准物也是一方差文件的,所以说如果两种结果都还不错的话,那我们肯定优先选用这类文件的标准物,但是呢,也并没有硬性规定说啊,你必须要用这类文件的标准物,估计 e 方叉文件的标准物也是可以的。这个待会会给大家看一个例子啊,无论选用哪种标准物的估计, 哪怕是你不采用任何文件类型的标准物,它的回归系数其实不会受任何影响,但是呢,它可能影响到结果的显著性。 为什么呢?因为我们的回归结果的显著性啊,是根据回归系数去除以标准物得到这么一个 t 值,让我们根据 t 值去判断显著性,对吧?那么虽然这个回归系数它是不变的,但是这个标准物的估计会影响标准物的值,那也就会影响这个 t 值,从而影响到显著性。 那这里呢,给大家看一下这个如果用 c 的 实现这种两种标准物的估计啊,这两个其实是刚才对应开头那两篇论文的 代码啊,他们因为都是中国工业经济上面的文章,然后他们的代码呢,其实也都会公布在官网上,这里也提醒大家,就如果大家刚刚接触这个身份分析,想学 c 特的规范代码用法的话,非常推荐大家去看看中国工业经济这个刊物,他在官网公布的这些代码, 大家可以看到就是像左边这一个呢,这个 cluster 它就是具类的,具类的,像右边这个呢,直接就是 we c robots, 它就是稳健的,这里其实就是一方叉稳健的意思,那下面给大家演示一下,那我们还是结合着就是这篇我们正在复刻的论文进行一个演示啊,数据呢,在这个地方,就在这个地方, 我们之前带大家数据整理清洗过的,然后代码呢,在这里代码在这里,那前面呢?其实就是我们之前一步步实现,前面包括描述性统计啊,包括数据的清洗啊等等等等,再包括到这个回归分析、数据导出等等,我们都已经做过了。 ok, 我 们看一下,像这里 我们直接做一个最原始的回归啊,最原始的这种固定效应的回归,你看这里是被解释变量,解释变量,然后控制变量,然后这里面是我们要固定的个体,还有时间,那我们直接回归 啊,可以看到这里的结果,就这里企业创新能力和自动化转型的回归结果,那回这个自动化转型,他前面的回归系数是二点五五,大家要记住这个数二点五五他是一个正数,并且这里的 p 值还小于零点零五,那说明这个自动化转型可以显著的促进企业创新,对吧?可以得出这么一个结论,大家看到这里的标准物啊,它其实是零点五七, 就是二点五五,除以零点五七,得到了这里的 t 值,那我们根据 t 值再去判断显著性这么一个逻辑,对吧?好了,那我们下面呢采用的是异方差文件的标准物啊,代码实现呢,就是在这个固定效应的后面再加上这个 vce, 然后这个就是异方差文件的,我们看一下结果, 大家可以看到我们对比一下,这里的回就是二点五五,和这里是一模一样的,对吧?但是呢,这里的标准物是零点五五和这里是零点六零七,发现没有,这里的标准物它变大了, 就是我们经过一方差稳健修正过的标准物,就是这个 robots 三点 l, 它变大了,那它除以它得到它那分子不变,分母变大,那 t 值肯定会变小,对吧?就是从四点四八变成四点二一,那这里的 t 值啊,它相应的肯定也会变大一些,就显著性会相对的弱一些, 但是因为我们这里的显著性,它本身就很强,所以说都是零零零,这里没有什么影响。 ok, 那 我们再看一下这个叫矩阵文件的标准物啊,它有两种实现方法,上面这个,下面这个是一样的,我们可以用上面这种矩阵文件呢,我们就到企业层面,就是这个 cluster 到这个企业代码这么一个层面,我们看一下。 好,这里回归结果,你看回归系数二点五五,然后这里的标准物呢,就是剧类的标准物已经达到了零点七七九,看到了吧?那同理这里的其实就会变得更小,对吧?然后这里的屁值就会变得更大一些啊,由于我们这里的显著性比较好,就是我们采用这里剧类的标准物之后, 回归系数还是可以达到百分之零点零一的显著性水平,也是三个星的显著。但是呢,有些同学可能啊,可能就这种默认的回归是显著的,然后一方差文件的标准物还是显著的,但是如果一剧类, 如果一句类,这里的回归他就不显著了,他就不显著了。那我也建议大家其实不用太纠结,大家就采用这种异方差文件的标准物,其实也是 ok 的, 因为我们也可以看到,就这种工业,中国工业经济这种比较顶尖的刊物,他们的代码里面还是有很多就是直接用这个异方差修正的。那大家也不用太纠结。好,同学们,今天的课程我们就讲到这里啊,我们下节课再见。