同学们好,这里是时政播音坊,今天呢给同学们分享一个大家在做时政分析过程中,很有可能会用到的一个知识,就是关于这个异方差,还有句类文件的标准物。那我们今天呢主要讨论这几个问题。 首先呢给同学们讲解一下什么是这个异方差或者是句类文件的标准物啊?大家在看这个时政分析论文的过程中啊,肯定会看到过论文中有这样的描述啊,要么说是在企业层面进行了句类标准物的调整啊,或者说 是在这个括号里面的估计是稳健的标准物。什么是稳健的标准物呢?我们在对模型回归之后呢,会得到一个这一行这个回归系数, 那回归系数呢,他就会有一个对应的标准物,稳健的标准物就是对这种回归估计结果标准物的一种修正。那么既然是修正呢,他有两种修正方法,一种是这里他叫具类的稳健的标准物,还有一种他这里虽然直接叫稳健的标准物,但是呢他这里 它指的应该是叫一方叉稳健的标准物。所以说我们常见的如果说是稳健的标准物,那么默认就是一方叉稳健的标准物,那么如果说是具类的标准物,那么其实就是具类稳健的标准物。那么我们为什么要采用这种稳健的标准物去进行修正呢?嗯,这个就涉及到我们之前讲过的一个很经典的问题,就是 我们想要采用这么一个回归模型,首先要符合一些假设了,这里同方叉线还有无字相关性,这么两个假设, 稳定的标准物和具类标准物都是针对回归模型中异方差矩阵相关的经典假设,违背问题的修正方法。 那么什么是这个同方差异方差呢?那这个我们之前也讲到过,就是在这个我们要用到的回归模型中啊,你这解释变量,被解释变量,然后这是控制变量,对吧?然后这是固定效应,然后如果这个随角动向, 他的方差,他的方差不是独立的,而是会随着这里的其他变量的变化,他的方差会跟着变化,那么他其实就叫异方差的。 我们想要采用这么一个回归模型呢,就要符合它是同方差的假设,那其实在大部分的自然经济数据中,数据本身都是异方差的,没有办法满足这个同方差假设,所以说呢,我们就要采用稳健的标准物或者叫异方差稳健的标准物去进行修正。 同样的问题,只要是自然经济类的数据啊,其实这个一般都会存在这种自相关的问题,所以说同方差还有这个无自相关这两个假设啊,他们其实很难达成的,所以我们要对回归的结果进行一个修正,让回归系数的既同一辆屁值,还有执行区间恢复统计的有效期。 那么刚才我们了解到是有两种文件的标准物,一种是一方叉文件的,还有一种是句类文件的。那很多同学就有一个问题啊,就是我们到底应该采用哪种啊?这个我在网上也看到了不同的讨论啊。然后我比较赞同的是陈江老师这本将进学 c c 应用这本书里面的他的观点啊, 你看他怎么说的?由于面板数据的特点,虽然通常可以假设不同个体之间的扰动线互相独立,但是同一个体,大家注意,同一个体在不同时期的扰动线之间往往存在自相关,那么我们可以把每个个体,每一个单位,他不同时期所有观测值当做一个据类,就是把这个据类当成一个个体,这样样本观测值可以分为不同的据类, 那么在同一锯类里的观测值互相相关,但是不同锯类之间的观测值它就不相关,这个就是其实就是锯类的概念,这种样本叫做锯类样本,那对于锯类样本,我们仍然可以使用这个 o、 l、 s, 估计它就可以基本上满足我们前面的无字相关的假设, 但是呢,我们就是需要采用什么呀?就叫锯类文件的标准物,那么锯类文件的标准物和一方差文件的标准物到底什么关系呢?那对于样本容量为 n t 的 平衡面板, 就是这个 n 呢,它就代表个体数嘛,然后一个个体它就代表一个具类,然后每个具类包含 t 个观测值,对吧?那我们想使用具类文件标准物的前提呢,就是具类中的观测值 t 较小, n 较大,那么也就是说你这个 n 啊,要远大于这个 t, n 远大于 t, 那 我们就比较推荐使用这种叫具类文件的标准物。但大家仔细想一下, 我们自己来做面板数据,无论是这个公司层面的面板数据,还是说什么 d 级是省级的,这种面板数据,个体的数量,这个 n 啊,往往都是要远大于这个时间的 t, 所以说在大部分时候,在绝大部分时候,我们采用这类文件的标准物都是没有问题的,而且我们在推导这类文件的标准物的过程中呢,并不需要满足这个同方差的假设,所以说这句话很重要,这类文件的标准物他也是一方差文件的, 这类文件的标准物也是一方差文件的,所以说如果两种结果都还不错的话,那我们肯定优先选用这类文件的标准物,但是呢,也并没有硬性规定说啊,你必须要用这类文件的标准物,估计 e 方叉文件的标准物也是可以的。这个待会会给大家看一个例子啊,无论选用哪种标准物的估计, 哪怕是你不采用任何文件类型的标准物,它的回归系数其实不会受任何影响,但是呢,它可能影响到结果的显著性。 为什么呢?因为我们的回归结果的显著性啊,是根据回归系数去除以标准物得到这么一个 t 值,让我们根据 t 值去判断显著性,对吧?那么虽然这个回归系数它是不变的,但是这个标准物的估计会影响标准物的值,那也就会影响这个 t 值,从而影响到显著性。 那这里呢,给大家看一下这个如果用 c 的 实现这种两种标准物的估计啊,这两个其实是刚才对应开头那两篇论文的 代码啊,他们因为都是中国工业经济上面的文章,然后他们的代码呢,其实也都会公布在官网上,这里也提醒大家,就如果大家刚刚接触这个身份分析,想学 c 特的规范代码用法的话,非常推荐大家去看看中国工业经济这个刊物,他在官网公布的这些代码, 大家可以看到就是像左边这一个呢,这个 cluster 它就是具类的,具类的,像右边这个呢,直接就是 we c robots, 它就是稳健的,这里其实就是一方叉稳健的意思,那下面给大家演示一下,那我们还是结合着就是这篇我们正在复刻的论文进行一个演示啊,数据呢,在这个地方,就在这个地方, 我们之前带大家数据整理清洗过的,然后代码呢,在这里代码在这里,那前面呢?其实就是我们之前一步步实现,前面包括描述性统计啊,包括数据的清洗啊等等等等,再包括到这个回归分析、数据导出等等,我们都已经做过了。 ok, 我 们看一下,像这里 我们直接做一个最原始的回归啊,最原始的这种固定效应的回归,你看这里是被解释变量,解释变量,然后控制变量,然后这里面是我们要固定的个体,还有时间,那我们直接回归 啊,可以看到这里的结果,就这里企业创新能力和自动化转型的回归结果,那回这个自动化转型,他前面的回归系数是二点五五,大家要记住这个数二点五五他是一个正数,并且这里的 p 值还小于零点零五,那说明这个自动化转型可以显著的促进企业创新,对吧?可以得出这么一个结论,大家看到这里的标准物啊,它其实是零点五七, 就是二点五五,除以零点五七,得到了这里的 t 值,那我们根据 t 值再去判断显著性这么一个逻辑,对吧?好了,那我们下面呢采用的是异方差文件的标准物啊,代码实现呢,就是在这个固定效应的后面再加上这个 vce, 然后这个就是异方差文件的,我们看一下结果, 大家可以看到我们对比一下,这里的回就是二点五五,和这里是一模一样的,对吧?但是呢,这里的标准物是零点五五和这里是零点六零七,发现没有,这里的标准物它变大了, 就是我们经过一方差稳健修正过的标准物,就是这个 robots 三点 l, 它变大了,那它除以它得到它那分子不变,分母变大,那 t 值肯定会变小,对吧?就是从四点四八变成四点二一,那这里的 t 值啊,它相应的肯定也会变大一些,就显著性会相对的弱一些, 但是因为我们这里的显著性,它本身就很强,所以说都是零零零,这里没有什么影响。 ok, 那 我们再看一下这个叫矩阵文件的标准物啊,它有两种实现方法,上面这个,下面这个是一样的,我们可以用上面这种矩阵文件呢,我们就到企业层面,就是这个 cluster 到这个企业代码这么一个层面,我们看一下。 好,这里回归结果,你看回归系数二点五五,然后这里的标准物呢,就是剧类的标准物已经达到了零点七七九,看到了吧?那同理这里的其实就会变得更小,对吧?然后这里的屁值就会变得更大一些啊,由于我们这里的显著性比较好,就是我们采用这里剧类的标准物之后, 回归系数还是可以达到百分之零点零一的显著性水平,也是三个星的显著。但是呢,有些同学可能啊,可能就这种默认的回归是显著的,然后一方差文件的标准物还是显著的,但是如果一剧类, 如果一句类,这里的回归他就不显著了,他就不显著了。那我也建议大家其实不用太纠结,大家就采用这种异方差文件的标准物,其实也是 ok 的, 因为我们也可以看到,就这种工业,中国工业经济这种比较顶尖的刊物,他们的代码里面还是有很多就是直接用这个异方差修正的。那大家也不用太纠结。好,同学们,今天的课程我们就讲到这里啊,我们下节课再见。
粉丝218获赞522

hello, 大家好,这里是你的期末学长,本期我们来讲一下经管和社科最容易混的毕业论文, 那毫无疑问里面最好过,而且不用你写实物的,那就是时政了,现在的时政大部分老师都会要求这一点的, 不管你是用 spot 或者 star 都行。然后我们现在实践里面最常见也是最适合新手的话,就是问卷调查啊或者统计。 那么下面有一些同学问过我的问题啊,他说可以用 excel 嘛?我说 这个你自己试过一下你就知道啊,他分析出来完全都不是一样的,而且一点都不专业,大部分老师也不太承认这一个。 那么做实践分析最重要的几个点,开头你肯定要设计一个问卷对不对?无论你是去往年中的文献中找,或者是你自己设计,你都要设计一个比较好一点的,不然你后面用 spss 跑出来数据也是垃圾。 第二个是你的发,发放和回收最少最少是两百,样本太少的话数据也是支撑不起来的。我们后面用 spss 给大家讲解一下啊, 那大概的流程就是说你用问卷心也好,呃什么之类的,你先设计好一个问卷对不对?然后你就去发放,发放收集上来之后录入,录入了之后最重要的三个 数据,描述性、统计性、效度分析,相关与回归分析对不对?你先跑信度嘛,然后那数据靠谱了之后你再跑别的。 这是一些例文,可以参考一下,有需要写时政分析的同学可以参考一下, 我们下期再见。拜拜。

短短十分钟,我们就能完成基本的数据清洗、数据回归以及形成基本的论文。全网二十多万人看我的 ai 自动化写论文的教程,今天他来了, 哈喽,大家好,我是龙博,接下来我将用三分钟时间告诉你,如何不写一行代码,也可以完成一篇时政论文。 我们拿一个简单的主题给大家举例,题目是区域公共品牌建设能否促进农产品质量提升。基本思路是这样子的,解释变量 x 是 区域公共品牌建设。被解释变量 y 是 农产品质量提升。我们用是否有有机产品认证进行标识研究的层级呢?是城市杠年份层面。大家可以看到 我的桌面上有一个 test 文件夹,我们点开,其中存放着我的这次研究所需要的基本材料。很简单啊,就是一个 date 文件夹,里面放了三个不同的面板。 一张面板是解释变量,区域公品牌品牌建设里面包括了省份、城市年份,还有这个公共品牌的名称。第二张表格呢,被解释变量,有机产品认证,它包括了省份城市认证证书的编号,证书的发证日期以及到期日期。 第三张表呢,对应的是城市层面的控制变量,已经清洗成了城市杠。年份层面的数据包括人均地区、生产产值,户籍人口呀等等等等。如果我们手动处理啊,这里面就面临一个问题,三张表格,它对应的是三个不同的层级。去公共品牌,它是品牌层级的 有机产品认证呢,每一条对应一个证书,只有城市层面的控制变量,它是城市更年份的,我们需要把这三张表格都统计成城市杠年份 level 才能进行回归。 我这里已经给大家准备好提示词了,直接复制就可以了,只不过呢,复制之前要加上我们徐博的一个专门的 skill 们,输入美元符号,然后搜索 徐博 academic 就 可以了。这里提示词是这样子的,基于我们指定的数据集进行研究,其中解释变量,被解释变量,研究层级还是我们出示的研究思路。最后呢,我补充了两条额外的要求,将结果插入可以翻译的 la tech 门稿, 并补充上下文,讲解研究思路。同时呢,不要问我任何问题,一切按照你认为合理的方式执行,因为我们在拍视频嘛,我们希望这个整个流程更快一些。 我们可以看到这个左侧正在运行 codex, 已经在读数据集,并且已经在构思研究思路了,运行各种各样的 python 代码,它要读取我们的 excel, 了解 excel 里面到底有哪些对应的字段,以及如果构思研究的话应该如何构思。 因为我这里是在给大家录视频啊,电脑的温度比较高,整个运行起来会还是比较慢的, 大家可以看到,目前这个 ai 已经做了非常非常多的研究了,它已经了解了基本的这个数据结构。 接下来呢,他在执行啊,我这个我 skill 里面提到的步骤,比如我要生成这个年份面板,以及我要完成这个数据的清理和数据的分析,我要把这个文稿直接音符的到这个结果表格当中来形成的文稿,同时还要补上研究背景,识别思路变量定义等等等等。 好,大家看到没有,它又生成了一个度分析文件,度分析文件啊,我们可以在这里面看到它度分析文件的这个,呃,具体内容,它的改动内容有哪些?对于一些关键的操作呀,它会征得你这个使用者的批准, 比如说这里面谈到啊,你是否要执行某个命令啊,觉得一般都是默认批准的。这里面我就不得不提一个我们后面会给大家提供的一个点啊,就是 codex 操作 stat 有 一个非常重要的工具,叫做 stat mcp, 只有安装了这个对应的 state mcp 之后呢, codex 才能直接读取这个 state 的 结果,并且直接运行 state 代码。大家可以看到啊,我自始至终从来没有打开编辑过任意一行派放代码编辑过任意一行 do 代码。 但是大家也已经看到了,我已经有两个基本的文件了,一个是 analysis 文件,另一个是基本的数据清洗文件, codex 已经帮我生成,哎呀,只能等待了。 大家可以看到啊,目前这个已经生成到点 pack 文件了。 终于,总共耗时八分钟,我们得到了结果,核心结论是,在当前六十八个城市啊,二零零八年到二零二年年版没有得到我们预期的结论。这里面 codex 进行了一系列的尝试啊,它会告诉我们的结果, p 值是 p 等于零点五二三,接下来呢是 p 等于零点九五零。我们来看看文稿翻译的结果怎么样啊,大家可以看到啊,还是这个,根据徐博的配置,这个文档其实已经管理好了, data 是 原始文件 program 呢,里面存放的就是我的 clean 文件和 analysis 文件。再之后呢,我们看到这个 menu script, 哎,大家发现没有,我的 pdf 文档其实已经翻译好了, 大家发现这里面包括了我的题目是什么,摘要是什么,研究背景是什么,数据的基本情况是什么,以及我的模型有哪些,我的研究思路有哪些。同时大家发现没有,我的 代码结果已经变成了 latex 表格插入到了我的文档里面来,总共耗时十分钟。通过使用 codex, 我 就已经得到了一个完整的文稿。 这时候有人要问啊,这个徐博,徐博,你这个结果也不显著啊,今天主要是给大家做一些测试,结果不显著很正常嘛,我们可以调参嘛?这里我给大家提供几个这个呃,调参的 prompt 啊,你可以通过更换,控制变量,对变量缩尾等等各种各样的手段, 直到给我的结果。这个时候呢,我们的 codex 就 会使用这个 state mcp, 反复的测试,反复的测试,直到给你显著的结果。当然实在是不显著,那也没办法, 好朋友们,这个未来以来啊,短短十分钟,我们就能从三个简陋的 excel 文件完成了基本的数据清洗,数据回归,以及形成基本的论文。大家可以看到啊,我已经形成了一个这个呃,总共 总共三页的文档,其中的这个表格包括表注是什么,表格的排版已经非常非常规范了。这里面呢,我会跟大家分享一些基本的配置,比如 codex 和其他的 agent 呢,怎么安装?还有这个 stat 以及 m c p 如何安装?

大家好,我是太空鼠,我们今天接着啊这个系列继续讲啊,我们这个系列已经马上都要跟完了,大家看这个系列就可以完全去啊,学会这个怎样去做一个时政了。 那么今天这个系列是讲的是这个啊,我们内生性检验当中的一个工具变量法啊,工具变量法大家也知道吗?是我们最长最常用的一个方法,也是必须要做的一个方法。然后这是我们啊老生常谈的环节了,大家可以看一下这个啊,这张图啊, 然后有模型指导答疑,也可以说是滴滴。然后接下来接下来我给大家说一下这个工具变量法, 那么工具变量法是解决我们回归模型内生性的一种问题吗?那大家也知道内生性的问题他是什么?呃,他要说到比较深的话,计量经济学里面他是什么意思啊?就是说我们回归模型当中的解释变量,也就是自变量 和这个随机误差项是相关的,导致我们的普通最小二乘法 o s, 它的估计结果是有偏误的啊。那么内生性问题啊,我们具象话去说,它就是有三种,一种叫做遗漏变量, 一种叫做反向因果,一种叫做样本选择偏差。那么我们反向因果这个问题是什么原因呢?就是说我们自变,比如说我们研究的题目是数值化转型与这个财务绩效,对不对?比如我们研究的题目是数值化转型与财务绩效,那么我们认为数值化转型会去影响企业财务绩效,对财务绩效可能是一个正向的关系, 但是有没有一种这样的可能呢?就说财务绩效,它倒过来也会影响起的速算转型呢,是存在种反向因果的关系,对不对?那么工具变量法就是为了去解决这种反向因果的问题的啊,那么为什么工具变量它法它可以去解决这个 内生性当中的反向因果呢?它是通过引入一个工具变量法,它是通过引入一个工具变量来替代掉我们内生的解释变量。 那么工具变量他们必须要满足两个条件,一个叫做相关性,一个叫做外声型啊。相关性是指工具变量与内声的解释变量,也就是我们的字变量是相关的。 比如说我们。呃,研究的这个题目数大转型嘛,那我一般选举的数大转型的工具变量,就是说可能说同年份同行业其他企业数大转型的均值,那他是不是和我们的原本的这个内声的字变量它是相关的呀? 对不对?那外声是什么意思呢?外声是什么意思啊?它是工具变量,与随机误差像它是不相关的。就是说工具变量只能去通过去影响这个自变量来影响音变量,它不能直接去影响音变量。工具变量它是通过间接去影响自变量去对音变量造成一个影响。 那么工具变量法的话,我们一般都是做怎么做的呢?我们做两阶段最小二乘法是不是?那么两阶段最小二乘法,我给大家举个例子啊,两阶段最小二乘法啊,它 是有两个阶段嘛?第一阶段和第二阶段。第一阶段是我们工具变量和自变量去回归嘛,第二阶段是自变量和因变量去回归,对不对?我再给大家举一个比较通俗的例子,去 理解一下你这个内生性问题当中这个工具变量啊,假设我们研究的这个问题是这个教育的年限对于我们这个工资的影响啊,我们假设研究的问题是教育年限对工资的影响,插入一个 这个表格,不用插入了,我们直接说吧。假如我们想年金的是教育年限对工资的影响,那么这里是可能存在内生性问题的。比如说什么呢?个人的能力就比假设有存在一个变量是每个人的能力,那每个人能力可能说这个人能力有智力啊、动机啊,是不是他都会影响他这个企业的教育年限, 但他又会影响这个工资,对不对?就是他既会影响你这个自变量,又会影响,可能会直接影响到你个应变量工资,但这个个人的这个能力吧,他又没有办法去测量,很难去度量, 很难去观测到,因为他没有办法去度量。不像呃,教育年限这种东西,我们可以直接说你上了多少年学,直接把它量化,对不对?所以的话,这个个人能力他有可能会遗漏在这个误差项当中去。 但是说自变量教育年限又和这个误差项它是有相关的,所以它就会有这个内生性问题啊,我们通过两阶段最小而乘法去解决。那么刚才这一部分都是这个偏理论的部分。大家啊,能听懂的话听懂,听不懂的话我们也没关系,我们直接去上操作啊,上操作, 上操作的话,我们就是这个工具变量法嘛, iv r e g h d f e, 对 不对?是不是? iv r e g h d f e 是 我们工具变量法的代码,然后它后面的范例呢?是先加你的音变量, 然后括号里是自变量等于工具变量,因为我们这会我们这个工具变量没有去合适的工具变量,我们就直接,嗯,就是假设大家在实际去做工具变量法的时候,没有合适的工具变量,我们可以把之后一期的核心自变量当做工具变量去用, 之后一期的核心自变量当做工具变量,我们这里把之后一期的竖大转型当做工具变量去做, 然后接下来是一系列控制变量,我们可以放到这里面,然后最后是固定效应,对吧?固定效应,把固定效应复制过来, 我们设定下面板数据啊,用我们做之后的时候一定要设定面板数据。好了,我们直接对工具变量这个代码进行运行啊。 嗯,数据打开不收费,这块数据我们应该打开另一份数据, 我们可以看到这是工具变量的结果啊。我们首先看第一阶段,第一阶段在这里 force stage regression 第一阶段的回归,我们会发现第一阶段的回归是工具变量和自变量的回归,对不对?那么工具变量和自变量的回归的话,它是不是正向显著的?零点八二是正的,对不对?然后也是显著的,对吧? 然后这是第一阶段,然后第二阶段这个 f 值, f 值看到没有?这个也是大于百分之十水平上零界值十六点三八,然后我们继续看第二阶段, 那么第二阶段这是二阶段的估计嘛,对吧?第二阶段估计,第二阶段估计的话就是自变量和因变量的一个回归,就是数字化转型, 对吧?和我们这个 roe 净资产利率也是财务界的回归,它同样也是正向显著,对不对?也是通过的。然后再看这两个检验,一个叫做不可识别检验,一个叫做若工具变量检验对不对? 不可识别检验,它 p 值是显著的,对不对?若工具变量检验呢?就是这个 f 检验,它也是大于百分之十水平上临界值的,那就说明我们这个工具变量法是完全是通过的,对不对? 那么通过之后,那我们这个啊,内生性问题当中的反向因果就可以进一步得到一定程度上缓解,我们可以缓解这个问题。好,我们今天工具变量话就讲到这里,然后我们接下来再去更新其他的啊。

四飞尽管保研被卡,学历卷心菜没用,他连续三年专业断层。第一,从西南民大逆袭上岸,九八五海大。 你是怎么同时完成两篇 s s i 的? 因为一篇它本身都很难,其实老师帮助我特别多,因为我那时候原始数据都是老师给给过我的,我只需要对它进行一个数据的清理,然后处理完数据之后就是搭模型,搭模型那时候要用 stata 做,我也不会 stata, 老师就给我找了 这种视频,然后这种书,然后去学,然后,然后我也找了几篇论文,他们原有的代码,这其实代码也很简单,你只要把你的变量给他一替换就行了,然后你就不断的跑模型,跑出来你想要的结果。你这个完成 ssi 过程中最难的点是什么? 最难的点就是你从一个小白,你要学很多东西,从零到一很难吧?从零到一百比较简单,就从零到一这个过程比较难,要学很多东西。那软件起,首先你不会,嗯,软件你不会,那些数据怎么找,怎么清洗,你也不会, 包括一篇高质量的论文,论文的框架是什么?论文要怎么去写,你都是去模仿别人去写,但我第一排你就是模仿人家 这种主题的论文,就跟着他去写。那你是怎么就是克服这个心理的?克服这种心理就是然后做科研,从零到一的话就是多看文章,看这一篇文章是怎么怎么讲故事的,然后呢?如果是实用论文的话,就学数据怎么处理, 怎么大模型,然后他们这代码有时候你甚至不需要知道这个代码是什么意思,就是他们代码其实也有这种 模板,包括我现在写论文,我现在导师也讲了中文,现在也是八股文都有格式,每一张要怎么怎么写就根据他去模仿。对,模仿。 那你最开始看文章的时候有没有觉得这文章跟签书似的?对,根本就看不懂,看不懂他要讲什么。好像大家整个环境都说本科生发论文基本不可能。对,但其实也能发,其实也能发, 老师也是很愿意去带。呃,就是比较主动的一些学生。嗯,比较有上进心的学生。嗯,所以就不断的尝试,总有老师愿意去带你。所以只要你够真诚,能带你的前提是 你自身自身学习成绩比较好,他能知道你是第一名,然后他知道你想去保研,对你很有强烈的欲望,就是你要展现出一种极具主动性,让老师觉得你在认真做这个,否则老师不会投入太多时间, 他有这个时间晚上可以带他研究生去做。如果你也正在保研的路上,希望今天的分享能给你一点方向和勇气。我把嘉宾的保研避坑指南全部整理成了电子版资料,想要的同学评论区扣保研,我免费发给你。

同学们好,这里是时政部研访,今天呢,给同学们讲解一个我在日常辅导过程中经常被问到的问题,作为一个新手,在入门这种时政分析类的文章时,有没有一些比较通用的时政分析框架?正确的时政分析文章的写作顺序到底是怎样的?是先跑数据还是说先写文章?首先呢,给同学们分享一个呃,我自己 根据写作经验总结出来的一个通用的框架。呃,这么一个框架呢,基本包含了一篇完整的时文分析类文章的各个部分啊,可以从以下六个章节去展开,那第一章就是序论,然后第二章是文献综述,然后第三章理论分析,研究假说,然后第四章是研究设计,第五章时文分析,然后第六章是结论与政策建议。 同学们可以结合自己研读的文章,可能还还有自己正在写作的文章啊,去看一下是不是从这些方面去进行展开的。那当然呢,这个是一个我个人总结的一个比较通用的框架,而且呢也是比较适合于写本科硕士学位论文这种自主比较多的啊。七刊论的 框架呢,往往比这个要更精简一些,那同时呢,同学们还要根据就是学校啊,或者说要发表刊的要求去梳理自己文章的框架。那么我就结合这一个比较通用的框架给同学们讲解一下啊,时政分析文章大概分为哪几个模块?然后每个部分我们应该重点关注什么样的内容,有什么样的注意事项。 那首先呢,我们来看这个第一章序论,这第一章序论呢,它基本就是围绕以下三个方面进行展开。首先呢就是要讲一下你这篇论文的研究背景还有研究意义。 那研究背景来说呢,一般要结合一些比较大的政策背景,比如说最新的就是这种十五五规划,然后包括之前的可能是有十四五规划,还有一些比较宏观的经济政策,还有一些试点政策,比如说做什么一带一路啦,什么什么试点政策呀,这里都是要结合这种政策。 同时如果我们的 x 和 y, 他 们是有比较强这种现实意义的话,那我们还要讲一下,比如说这个 x 迅猛发展的现状,还有他们有什么样的重要意义。那第二部分呢,我们来到论文的这种研究意义这个方面, 那研究意义呢,基本从两个方面展开吧,一个就是理论意义,再一个就是实践意义。理论意义呢,我们一般去结合论文这种理论的创新点展开,然后实践意义呢,基本就是结合了政策建议,比如说从企业层面啊,然后监管层面,对吧,政府层面等等给出这种政策建议,这是这种就是一些比较实践的意义。 然后第二部分呢,就是研究方法与内容,比如说这种研究方法啊,研究思路啊,基本就是在解答你采用什么样的方法去完成这篇论文这么一个问题。那比较常见的就是你文件的研读理论分析,然后案例论文的话,有这种案例分析啊,还有实践分析,这是比较常见的。 然后下一步呢,是用研究的内容和框架呢,基本就是你简单的罗列一下你一共几个章节,每一个章节做,每一个章节做了哪些重点内容,然后最后呢,你要结合着这里的框架呢,去画一个技术路线图,技术路线图 啊,还有一些呢,那第三部分就是你文章的一个创新点和不足,这个创新点可以说是你这个文章的一个灵魂。那比如说我们在帮老师盲审的时候,一篇硕士论文, 嗯,好几万字,那我我第一个比较关注的就会找到你这个创新点这个地方看你一个是你写的这个创新点够不够创新,再一个你写的就是有没有条理,你最好要一一展出来。就是第一 我研究了什么什么第二,第三,那这三个创新点我知道了。那第二部分呢,就是我们的文献综述这个环节。呃,文献综述这个环节呢,很多论文呢,也会把它给合并到序论里面,把它合并到序论里面,当然呢也可以把它单独放在这里写文献综述呢,很多同学还不知道从哪里下手,不知道,那 我这里给同学们推荐一个比较通用的写法,那这样的话他不会遗漏什么重点内容,但是呢可能也不会写的特别出彩啊。那基本从以下几个方面展开,首先呢就是 x 和 y 的 概念界定,就是什么什么学者提出了这个 x 是 怎么怎么样的这种概念界定,然后他的测度方法有什么样?比如说什么商值法,什么词频法,或者构建了什么什么样的宏观经济指标进行测度。 然后呢要介绍一下对这个 x 还有 y, 就是 哪些因素可能影响他们,然后再介绍一下 x 和 y 他 们有什么样重要的这种经济意义,就是说他们可能对其他因素有什么样的作用效果, 从这些方面去展开。当然这些你在探讨这些因素啊,不论是你的营养因素还是作用效果时候,如果你有这种中介或者调节变量,都可以在这在这里适当的提及,适当的提及。那第三步呢,就是你要讲解一下这个 x 和 y 他 俩之间的相关研究了,那这里呢就要从两个方面展开,一个是直接影响,就是 x 啊,我通过这种什么样的理论可以直接作用于 y 或者是什么样的学者的研究?再一个就是间接影响,那这个间接影响呢,就是要和你的这种中介也要结合起来,就是 x 通过什么什么影响了 y, 然后最后呢要做一个这个叫文献综评或者文献评述。那这一部分呢,就是你要总结你前面做的这些文献的研究内容,总结一下,但是更重点的是你要在这里提出前面这些研究存在哪些研究空缺,一定要明确点出来, 然后针对这样的研究空缺,你这篇论文做出来了什么样的改良,这个就是你的创新点,如果这一个地方结合的很好,那你这篇论文他过渡就会很自然,也包括其实在前面这种研究背景这个地方啊,你结合什么什么样的政策呀,还有他们的迅猛发展现实意义,你也可以自然而然的提出你这篇文章的创新点,这样呼应起来会让你的文章更连贯。 然后那第三章呢,就是理论分析研究,假说理论分析研究呢,一般第一部分呢,就先简单介绍一下可能涉及什么样的理论,比如说啊,公司数据,公司层面数据的话呢,比较经典的什么公司治理理论,委托代理理论等等,这些理论罗列那么四五个,然后研究假设呢,就是你要根据前面的这些理论, 还有结合前面这些文献去论述啊,这个地方就是你这篇论文的其实理论方面的核心就是你要结合这些内容去论 x 对 y 的 直接作用, 就结合理论和文献论出来,对外直接作用,然后根据以上分析提出假设,或者说假设 h 一 就是 x 可以 直接促进或抑制 y, 这是你的第一个假设。 h 一 那么一篇论文呢,就是你本科啊,假如说你是一个本科毕业,论文写的比较简单一点的话,你假如说只有这一个假设呢,也是勉强可以的,但是你想做的复杂一点,你肯定让你的文章就是更立体一些嘛,你要深入的探求 x, 它通过什么什么样的机制作用于 y, 那根据这样的作用机制啊,一般比如说两条中介的话,就是你的 h 二和 h 三,就分别是 x 通过机制影响 y, 然后 x 通过机制二影响 y, h 二一三。当然呢,这样的话相当于是 x 通过某某机制影响 y, 这是一种。 那还有呢,就是想要再探究的立体一点,结合一些外部的因素呢,那可以就是说做这种调节作用,或者说门槛,或者叫意志性,就是像这种呢,他可以让你的文章更立体啊,他就是在探究什么呢?就是探究 x 对 外的影响会随着另一个变量的变化而变化, 他和这个 x 通过什么影响 y 是 有本质区别的,但是一般像意志性啊,意志性的话呢,也可以不单独提出假设啊,就你在后面再做到进一步分析的时候,放一个意志性在这里也是没问题的,就不单独列出来了。然后第四张呢, 他其实是讲你这篇论文的,就是实证分析部分,你是如何设计的,那如何设计其实就主要是三个方面。第一个你的样本与数据来源,样本数据来源,那像样本选择的话,要么你就是宏观经济数据,比如说国家层面的数据,就是不同国家, 然后再过去一段时间构成的这个国家层面的面板数据,或者说不同省份、不同地区是构建的面板数据,再或者说你是上市公司 面板数据。然后数据来源的话呢,你也要点出来你的数据来源,比如说什么国家统计局,什么国家地方的,什么统计年鉴,国三数据库、万达数据库等等。然后第二步呢,就是你要罗列出来,明确的罗列出来你核心的被解释变量,解释变量还有你的机制变量,像这些是比较关键的,这些变量他们每一个的 变量度量的参考文献就是这个地方啊,这种核心的变量,你不能自己拍着脑袋去构建这么一个指标,说我用这个指标来度量这个变量,其实这个是没有说服力的,那么有说服力的就说你要引用 高质量的核心贪污去讲解你这每一个变量是如何度量的,然后罗列出来,他参考文献,就参考某某学者相关研究,采用什么什么样的方法构建什么什么指标测度,什么什么变量,这么写。 然后第三步呢,你要讲解一下你这个用了什么样的模型啊?比如说就是面板数据啊,就最最常用的是固定效应模型,或者你探讨政策啊,你用的是 id 模型,这是你相当于你的精准回归的模型。然后还有就是你中介 你是用的什么两步法呀,三步法呀,还有你的调节的模型也要裸列一下,这个就是你研究设计,但是这一二三啊,这个顺序啊,是是并不是固定的。有有些论文他会把这个模型设计放在第一个,并不是固定的。然后那第五张呢?就是你这生成分界的结果了 啊,你要把你描述性统计啊,包括下面这每一步的结果罗列出来,然后进行一个简单的分析,然后像这个基本回归的结果啊,你基本就是去验证这里的假设 h 一, 然后你分析完就说假设 h 一 得以验证,然后文件检验呢,就是在 基于这个基本回归的结果,再再次验证你这个假设 h 一, 包括这个内生性,也是有些论文会把这个内生性和稳定性他俩放在一起,就是内生性也属于稳定性的一部分,这也没问题。 然后最后面还有一个,呃,小进一步分析这么一部分啊,像这个中介啊,包括调节门槛一直写,这你可以单独在这里写,比如说第六部分中介,第四、第七部分调节,那你也可以把它们全都放到进一步分析里面,那你中介基本就去验证前面的假设 h 二 h 三,就你分分析完中介的结果之后,下面要说一句啊,根据以上分析啊,假设 h 二 h 三,那么得以验证, ok, 所以 说我们这里逻辑就是说先通过前面的包括文献,包括文献,包括你这里的理论去提出假设, 然后提出假设之后呢,去进行研究设计,去基于数据做构建模型,然后得出结论,去验证假设,就这么一个逻辑。那么根据 前面这些实证分析的结果,那这里你可以来一个这种类似于实证小节,就讲了下大概做哪些内容,得到什么样的结果等等。那么最后一张就是我们要基于前面整篇论文,整篇论文基于他们的分析去提出我们的研究结论。 那在这里啊,我觉得我在帮同学们审稿的过程中发现就有些,呃,有这么一个可以说是比较普遍的现象,就说说这个研究结论的时候,很多同学他其实讲的是时论分析,这一部分的研究结论就是他很重点的在描述啊,我时论分析做了什么,什么样的内容,得到什么样的结果。但你这里的研究结论啊,你一定要结合整篇论文, 包括啊,我在什么样的背景下做哪些内容,包括这这些你都要结合起来,是你整篇论文的研究结论,然后研究结论也一定要罗列出来,一是二是、三是四是怎么怎么样罗列出来,然后讲你的政策建议,你的政策建议啊, 一定要结合你的这种研究结论,包括前面的研究假设展开,因为你这里的研究假设啊,因为你这里的研究结论啊,大概的原因和这里的研究假设他们也是对应上的,你要串联起来,一定要串联起来, 然后提出政策建议,然后最后呢?这就研究展望,可写可不写,那这本呢?其实就是一个整体的实测分析的一个通用的框架嘛。那我其实我们啊就是作为一个刚接触实测分析文章的同学,那你的目标其实很简单,你写这篇论文,你其实就是在把这个框架搭出来之后往里面填东西嘛,一共就这么六张,然后我把往每一个章节里面去填相应的内容, 那下面要解决的问题呢?其实就是我,我要往里面填内容,那我先填哪个后填哪个顺序问题,对吧? 啊?还要注意一下,就是我们这篇论文,我们可以把它稍微再划分一下,其实像这里,像这个第一章序论啊,他其实是类似于一个他的重点,其实在你的背景研究意义,他是类似于一个前沿准备工作。然后你的第二章、第三章这两部分是理论部分, 就是你无论是结合文献还是结合理论,你都是在经过理论去论述提出你的假设。第二张、第三张是理论部分,然后第四张、第五张,看见没有?一个是怎样设计实证,一个是这个执行实证的结果。第四张、第五张他们属于什么?他们是实证建模部分, 然后第六张呢?他是第四,其实第四部分就是你的总结部分,所以说我们要把它分成四个大的部分,就是你的总结部分,所以说我们要把它分成四个大的部分,总结 分为这四步。那写作顺序呢?我这里啊,就是结合着同学们啊,新手,因为我辅导过的就是零基础的同学比较多啊,结合着大家可能会经常犯的几个问题啊,给同学们 点出来避避雷啊。应该怎么样一个合理的写作顺序?那首先第一步啊,肯定是选择题,我们前面讲的那些就是说你已经定好题,你应该怎么写?那实际上 你啥也不懂的情况下,老师让你写一篇实用分析文章,你第一反应应该是,哎,我写什么?我的题目是什么,对吧?那关于这个选择题呢,其实我在 b 站的第一篇第一个视频就是在详细的讲我们应该怎么样从零基础选择题。那个视频的认可度还是比较高的,他不会让你选出什么惊为天人,极大创新的题目,但是你拿他做一个本科硕士毕业论论文啊,你这个肯定是没问题的。 那其实选题的核心目标呢,就是你要围绕着 x 对 y 的 影响来展开,你最关键的是要找到这么两个变量,一个 x 一个 y, 探求它俩之间的关系,尽量要避开啊。什么样的选题啊,就是说某某某 的影响因素探讨,像这种其实就是非常难做了,因为你找了一堆影响因素,你去跑回归,那每一个变量,它那个回归系数都不是你能控制的,以及事后显出也不是你能控制的,更何况你后面还要涉及到文件检验等等。这种选择题尽量不要写,就是明确的写探讨 x 对 y 的 关联,这个 x 可以 是一个连续的变量,比如说什么数字化转型, 对吧?耐心资本也可以是什么什么样的政策,比如说叉叉叉综合视点实验区设立,那其实就是 id 模型嘛,但无论如何一定要围绕着 x 对 外的影响来展开。那关于这个 x y 的 选举呢?那么我们基本就可以围绕着点开之网,然后在之网的首页有一个叫每周热词,那里呢?你基本 x y, 你 可以定一个每周热词啊, 然后就像这种美洲热词啊,像呃,前两年比较热门的就什么数字化转型啊,绿色金融啊这些。那像这两年热门稍微热门一点的,比如说今年这个耐心资本呀,什么心智生产力啊,低空经济啊,数据资产呀,对吧?你像这种,你选一个当做你的 x 或者 y, 你 这样的话,一个参考文献比较多,参考文献比较多, 你后面写起来会省省心一点,包括它的这个指标侧度也有很多。那么第二个另一个变量呢?你可以结合自自身的专业,包括导师给你的建议、研究方向等等。展开或或者都没有的话,你要广泛阅读一些啊,广泛阅读一些去找这个 x y, 那 找到差不多的 x y 呢?你要做的 其实是要找数据了,你在这里做完之后啊,你一定要把找数据跑为为这一个步骤前移。很多同学他已经把整个论文搭建的框架差不多了,有 x y 影响,中介什么调节什么背景什么啊,这个结论,政策建议都快考好起好了,但是就是没有跑过数据,那最后一跑数据发现不是自己想的那样的,甚至那个结果就是相反的,就别人能跑出来,你自己不一定能跑出来。 同一篇论文,你也是和他一模一样的样本选举,和他一模一样的变量选举,但最后跑出来的结果大概率是不一样的。那么你一定要把就是自己找数据跑回归这么一个步骤啊,往前移,因为很多同学可能会逃避啊,可能会逃避说我不想去找数据啊,不想去跑回归,但是呢,这一步一定要 提前做掉,那后面写的这么多才是有意义的,后面这些才是有意义的。那其实也不用做的特别复杂,你就当入个门,第一买一个控制变量合集 啊,比如说我们做公司层面的,先买一个这个上市公司控制变量合集,包括第一次也有控制变量合集,然后先去找到 x 和 y, 然后他们就是各自的这种度量方法,多找几个,多找几个,然后把这两个变量合并到你这个控制变量合集里面,包括这个合并的方法,我前面有也有一篇视频啊,专门讲过,有一篇视频专门讲过,同学们可以认真的看一下啊。找到之后呢, 只要跑一个精准回归就行了,就是一定要用这个固定效应啊,就固定时间,还有个体或者固定时间。行业层面跑一个精准回归,他就 x。 对 外啊,你是可以跑通的,那么你这个选择题就可以定了,到这一步你的选择题就可以定了, 你这一步不一定要去跑这些中介什么的,因为你还要在后面再读论文的去找吗?但是你 x 和 y 之间影响在这个过程你要定下来,还有就是你在这个过程你要熟悉怎么样找数据,怎么样跑回归,怎么样合并数据,怎么样清理数据,在这一步 一定要解决掉这个问题。那第二步呢,才是大量的阅读文献啊,包括在前面这个,其实你也要读一些文献呢。那第二步呢,其实你要更广泛的大量的读文献,这里大量读文献其实解决什么问题呢?就是我们在解决这里文章的第二、第三章,也就说我们整个文章的第二大部分理论部分, 我应该做哪些内容?那首先呢,就是说你首先你要熟悉自己的选择题,很多同学他就是看着网上花里胡哨的选择题选了一个,但他自己都不熟悉,他都不知道这个变量怎么样度量的,甚至不知道 x 对 外,就是你怎么样去论述 x 对 外的关系,涉及到哪些理论啊?他的逻辑怎么样的,对吧?你像这个你在读文件的过程中,你自己就要熟悉啊, 然后像研读文件呢,是这一个,那我在这个 b 站的第二篇,第二个视频,第二个视频就是讲大家怎么样,就是高效的去研读文件,就是自己练 excel, 然后每篇论文,对吧?他们的亮点在哪里等等呢,都要罗列出来,大家可以简单看一下 excel 怎么罗列的,当然也是属于一种比较功利的读法,也没有办法做到真正的精读,但是你要说就是快速的掌握每篇论文的这个大意,包括创新点还是可以做到的。那要找到你这个核心的什么测度方法啊,论述逻辑啊,经典理论啊,对吧?那你在找到这个经典理论论述逻辑的时候, 是不是就已经可以写这个地方了?已经可以写这里第三章的这一部分涉及到理论,你在那里整理的过程中啊,这篇论文又拿几个,这篇论文又拿几个,然后你找那么三个、四个最常用的,对吧?然后把它讲一下,这个理论基础怎么样的,基本就可以写出来了吧?还有你在这个过程中啊,你再看就是 x 对 外影响的过程中,他们这种直接影响的论处,你在这一步也是可以做的, 也是可以做的,像这一个就可以做出来了吧?也包括你像这里的,你在读线的过程中,这个 x 怎样侧度, y 怎样侧度啊?影响因素作用效果, 对吧?那你像你读的文献,你不可能只找这个 x 对 外影响的文献去读吧?很有可能就同学们他觉得这个 x 对 外影响这种直接的他是没有的,对吧?那你可以找就 x 和这个就类似的 y, 比如说啊,这个 y 最近两年比较火,这个新制生产力,新生产力,对吧?那前两年这生产力它的变种啊,其实就叫什么全要素生产率, 对吧?那么你找到新时代,你找全要素的不一样吗?基于这样大量的阅读,那也可以写着 x 和 y 各自的这个文献中路这一部分,那基本可以完成,基本可以完成。然后呢?你在读的过程中啊,你还有一个重要的任务,就说你要找中介机制以及你的创新点嘛,中介机制,你的创新点, 那么这个像这一部分呢?呃,一定要大量的读文献, x 通过什么样的机制作用于 y, 对 吧?那这个机制他可以是另一篇论文里面,他觉得 x 对 另一个 y 的 印象, 那另一篇的那个 y 就 可以拿来做你这篇论文的机制,基本都是可以解释通的,基本都是可以解释通,因为他们是相同的 x 嘛,那基本都可以解释通的, 那我们要找的创新点呢?基本上就是像你这个 x y 的 独特组合,别人没做过,你做过,或者说,呃,你这结合了新的政策视角,比如说叉叉叉视角下怎么怎么怎么样,还是叉叉叉背景下怎么怎么样, 或者 x 对 外影响基于什么什么视角的什么什么,像这种他也是这种创新,包括你这个机制,别人拿来当 y 的, 你拿来当那个中介机制,或者说拿来别人做中介的,你发现,哎,他做调节非常好的解释了,那你用他做个调节或者做个门槛, 对吧?这样都是非常好的创新点了。那么在这个过程中啊,基本就可以,你要结合着你文件中这部分,把这一部分就是 x 对 外的影响相关研究,以及这个文件中敏这一个部分, 在这一个环节基本把它解掉解决掉,起码要写个百分之七十差不多,然后最后再回过头来补充一些相关的研究文献,把文献综述这个部分,以及你在读文献的过程中啊,就找到了这种合适的机制。那在我们这个第二章、第三章就是理论部分解决掉之后呢,就是我们这个时候才开始全面的跑数据,全面的跑数据 我们可以看一下,就前面我们在这一步其实只解决了就只解决 x 对 外的影响,对吧?是相当于我们这些中介啊,或者说调节啊,我们并不能确定他在后面跑数据的时候可以跑出来,对吗? 那所以说我们在这里找中介机制的时候,包括调节时候一定要多找几个,你在自己就是涉及这篇论文的时候啊,你一定要多找几个中介,你在读论文时候多找几个,比如说你就打算写一个中介,一个调节, 那你起码找三个中介,两个调节在这一个环节,因为你下面你不确定哪一个跑出去,可以跑出来,还有就是别人能跑出来,你不一定能跑出来。那么到了第三步全面跑数据的时候,对吧?那你要把前面找的这些理论上就是可以讲的通的这些中介调节啊,然后全都合并到我们前面这个主表里面, 无论是两步法、三步法调节门槛,对吧?你把它跑的通的,把它留下来,也包括在这里啊,就是我们做了像基本回归中介调节,那下面还有稳健性、内升性,对吧?像这几个你都要在这一个环节全都跑出来,全都跑出来,因为你这里主回归能跑出来,你的稳健性啊,其实基本问题也不大。然后内升性呢?首先优选这个工具变量,然后工具变量 可以解决绝大多数的这种内测性的问题,然后包括你可以想要在内测性更丰富一点的话呢,你可以说,呃,考虑到这种样本选择的偏误啊,对吧?可以考虑用这个 hackman 两步法,包括 p s m。 那 我们在这个跑出去的过程呢,也要把这个文章的相相应的。第四、第五部分就是你这个时政部分给解决掉, 像你这种,对吧?数据来源啊、选举啊,包括这个模型设计啊,对吧?这个在我们跑出去的过程中肯定是定下来的,也包括这个生成结果,就是你在前面跑出来,结果一个一个罗列上去,然后分析一下, 其实这一部分就基本完成掉了。那这样其实就是一个比较合理的顺序,就是第一步选择题,然后第二步大量的读文献,那找中介的时候一定要多找两条,一定要多找两条,然后全面的跑出去把这两部分写完。那么第四步才开始,就是你全书转写, 那这里其实我们已经写了,写完了这个第二、第三、第四、第五没有完全写完,你也写个百分之七十了吧,起码百分之七十了。然后我们再回过头来看剩下的两部分,第一张就是相当于你的背景前沿据论,或者最后一张的结论,建议把他们放在最后。 好处是什么呢?一个就是你这里啊,基本都可以定下来的, x y 可以 跑的通,然后你中介调节这些都都已经写的差不多了,也包括你这里合适的文件,包括其他学者的观点,你都梳理的差不多了,哎,你在这个时候再返回来,结合政策背景,再去写这里的背景与意义,你才能知道你这篇论文的意义,包括你的创新点到底是什么。 假如你在前面啊,假如你按照这样的一二三四顺序去写,你已经在这里啊说我的创意点什么,我的中介什么调节什么,那我这个切入点,什么我的视角,什么你都写出来了,一到后面跑出去发现结果不对,这种事情我在辅导过程中遇到的太多了,所以说一定要把字栏第一章,包括第六章,把它们放到最后再写。 那第一章里面最重要的其实什么呢?其实是你这个研究背景意义,那 ai 总结这种研究背景意义的方法,这种能力其实写的非常好。那但是在后面这个研究方法内容啊,包括创新点,这个就是你要结合自己的论文了吗?那其实他们也没有什么特别难的地方,你看这种其实是一些比较固定的写法,也包括这个内容框架,你就只要罗列出来第一章写什么,第二章、第三章、第四章做了什么,把它们串联一下,对吧?那也包括那你前面都写完了,你这个政策建议, 然后包括你的研究结论才可以定下来,这个才是一个比较合理的顺序。就是先做第二大模块,第二第三章,第二大模块,广泛阅读论文,找创新点,然后梳理理论,梳理文献, 然后根据这里的内容去跑时政,保留可以跑得通的这种中介,把这些都垫下来之后,再回过头来写你的背景意义、创新点,然后最后根据前面全都写完了,写结论与政策建议。那当然同学们也可以在自己的写的过程中啊,比如说你前面跑数据啊,你跑顺手了,你顺便把中介跑出来,这也都是 ok 的。 但是呢,核心呢,我觉得就是一定要把跑数据这个环节啊往前移好。同学们,如果有时政 state 需要辅导的可以及时与我联系啊。今天课程到这里啊,同学们,下节课再见。

大家好,我是太空鼠啊,我今天跟大家探讨一个问题,就是我刚开始去做实证研究的时候,也特别疑惑的一个问题,有时候我们做某些题目的时候,这个数据不好获取,或者说获取起来非常麻烦, 那么网上他有别人已经现成整理好的,那他这个整理好的数据我们能不能拿来直接去用呢?对不对?那他这个数据啊可能性强不强呢?我今天就给大家啊对比一下吧。 啊?比如说是啊,我们时政中如果我们研究这个上市企业的数据对不对?那么上市企业的数据的话,我们是需要这个很多控制变量的,比如什么 size 啊, l e v 啊, l a 啊, growth 啊这些,我们需要好多控制变量,那么这些控制变量呢?你如果一个一个去下载,一个一个去合并, 他其实相对是比较麻烦的啊,尤其是对于这个刚开始学时政这个同学来说,嗯,有可能第一步就被卡住了。那么网上有很多别人整理好的他们在卖的数据,那这个卖的数据到底可信不可信?和我们真实去下载下来的数据去对比一下是否可以用呢? 我们可以今天下来,今天来对比一下啊,然后,呃,这有一份,呃,我就是在那个买好的一份数据啊,它就是常用的一份控制变量, 它里面有我们常用的一些什么 size, l e v r o a r o e, 还有什么 girls 啊,乱七八糟的都有。然后呢我们去真实去下载一下这个数据,然后去看一下我们下载下来的数据和这个买好的数据它之间到底有没有区别?那么正好讲一下我们下载数据,我们下载数据之前已经讲过了啊, 我们点击数据中心公司研究财务报表,对吧?财务报表里我们找到资产负债表,那么首先我们规定好时间,那么时间的话我们就选举这个二十四年,对吧?二十五年, 不对,二十五年,零零到二四二十五年。然后的话,嗯,常用代码就选举全部 a 股吧,我们就不剔除一些数据了。然后呢自断设置,我们下载两个数据演示一下,一个是 与资产有关的数据啊,资产总计,然后再下载一个与负债有关的数据,负债合计啊,然后我们去啊验证一下,然后大家一定要记得在这时候我们还不能下载啊,我们要干嘛?我们要在常用条件里去把两个常用的条件把它筛选上,一个是 查询合并报表,一个是查询年报啊,这两个一定一定要加上啊,就省了我们很多处理的步骤。然后下载类型的话,我今天就不给大家下载 excel 了啊,因为之前讲过怎么把 excel 的 数据导入到 cata 里面啊,那我们今天直接就下载 cata 数据了,因为它也可以直接下载 cata 数据啊,过摊。然后我们下载数据。 好啦,下载数据之后呢,我们在之前下载的这块儿下载记录找到,然后下载 本地保存好了,下载好了,下载好这份数据,我们就把它打开,打开之后呢对它进行简单的一个处理啊,简单的一个处理, 我们首先先打开这份数据,打开这份数据之后呢,我们要做一些简单处理嘛,大家发现这个处理之前我也讲过,大家发现这个年份没有,对不对?然后这个还是文本格式,它不是字体格式,对不对?然后这个第一个是资产,第二是负债,我们把资产总计负债 合计这个变量名把它改一下, 还有负债我们都把变量名改一下,变量名改一下,方便 这个股票代码我们改成 id 啊, id 方面合并,因为我们要知道就是说我们等一会儿啊,去合并的时候,两份合并的数据,它的匹配变量必须是一致的啊, 然后我们生成一下年份 year, 等于 substar 统计截止至第一位到第四位,对吧?然后把年份识别出来,年份识别出来之后,我们把不需要的数据把它删除掉, 然后呢我们把这个股票代码和这个年份把它去变成数值型,对不对?我们 distribute 一下, 好了,这就没问题了。然后我们把数据进行一个合并, 我们把这个从国坛上下载下来的数据,哈,和刚才这个这个数据,对吧?我买的这份数据我们把它进行合并一下,我们去对比一下合并数据怎么 mark, 对 吧? mark, 一 比一对吧? 然后这会儿数据股票代码要改成 id, 对 吧?我刚才说过,合并数据的话,匹配识别变量必须改成一致的 ear id, ear 怎么样呢? using, using 路径对不对? 然后呢?合并之后呢,会发现有合并匹配不上的,为什么存在匹配不上的情况呢?因为我们刚才下载的是 啊资产负债的数据,但买到的这份数据其实它所有的控制变量都合并进来了,那一定会产生一个就是说有些变量有缺失值,有些变量没有缺失值,它在之前,它在这个整理的数据合并的时候,它就剔除掉了,所以的话就会产生一个样本量对不上的情况,这个没事啊,所以我们直接保留,我们匹配成功的 keep 一 幅 merge 等于三,对吧?然后 drop merge, 然后资产,对吧?但是这里的这个 size 它是取过对数的,对吧?那我们把这个我们的这个 size 去取过对数,我们生成一个 size, 等于我们从国摊下载下来的数据去取对数啊, 然后我们再生成一个 l e v 吧, l e v l e v。 资产负债率嘛,对吧?资产比负债。 然后我们把我们生成的这两个 size 一个 size, 一个 l e v。 和买到的 size 和 l e v。 去做一下啊,对比啊?怎么对比呢?我们用描述统计,我们一个一个描述,先 sum sum 这个 size, 然后这个 size 第一个是大写的 s, 这个是我们买到的,小写,这个是我们是下载到的,我们可以看一下。我们看到什么呢?平均值基本是一样,对不对?二十二点儿,原本的这个是二十二点儿零六零四八买到的这个啊,不是下载的这个是二十二点儿零六零四七,对不对? 最小值,最大值标准差,是不是都是一致的?那是不是差不多的?然后我们再看下另一个,那么 size 我 们是比较过了吗?然后刚才资产负债率,大家,我刚才生成错了啊,我们把刚才错的那个资产负债率生成重新生成一下,我刚才是资产比负债了,应该是负债比资产啊,我们重新生成一下 l e、 v, 就 等于什么呢?负债,对吧?比资产好吧?然后我们 sum 一下, sum l e v l e、 v, 我 们会发现什么呢?基本是一致的,对不对?零点四九六四八四,零点四九六四八五,对不对? 只是出现在这个小数后好几位才有不一致,那就证明什么呢?那就证明这个控制变量,起码这个控制变量我们通过抽样去选举了一些,证明这个数据我们买到的其实是不是可以用的。所以这个控制变量大家就放我个人的建议啊,仅代表我个人建议放心大胆用买到的就可以了啊。 然后那比如有一些数据,比如说要数据化转型啊,债务融资成本啊,嗯,这种数据的话,其实也是可以买的,就是但凡涉及到国泰安里面的数据,或者是万德里面的数据啊, 计算出来的你就可以买。但是说假说,假如说是啊,因为我们知道数据化转型数据它是磁频嘛,磁频的这种数据的话,那如果你自己不放心的话,那你可以自己去爬, 但是我个人建议其实这个也是可以买的,其实准确率比自己要爬的或许还要更准确一些啊。然后这里就是我今天讲的这个主题啊,然后大家,嗯,可以谨慎参考一下。