大家好,我是刘博士,今天教大家用 state 实操来完成经管论文的时政分析部分,从头到尾给大家演示一下。 我以之前给学生做过的时政分析为例,来给大家演示一下,题目是物流行业数字化转型对企业绩效的影响研究。第一步给大家演示数据处理部分,我们先导入一下数据,点击文件导入,选择 excel, 然后点击浏览, 找到你想导入的原始数据,打开,然后第一行设置为变量名。导入数据之后呢,我们看一下 state 的 窗口界面,最上面这一行呢是他的工具栏,右边这里呢是我们导入的数据所含有的变量,下面是命令窗口,在这里输入代码, 点击这里浏览一下导入的数据,看一下样本量是大概一千一百一十三个。我是以之前写好的代码来给大家复现整个时政分析的过程。 我们自己做的过程呢,需要建立一个新的度文档来记录一下你的代码,把你每一步的命令输入到这里保存下来。好,接下来第一步,我们先展示数据处理过程, 先给数据中的变量进行重命名,用 rename 这个命令给大家演示一下。在命令窗口输入 rename, 空格接你想重命名的变量,在空格输入它的新名字 股票代码,这个变量重新命名为 id。 接下来对其他变量进行重命名,我就不一一展示了,选中这些代码,直接点一下度就可以了。下一步我们要对现有的一些变量进行计算,生成新的变量, 用 g e n 这个命令来生成 size, 这个企业规模变量 size 等于总资产,取对数, 总资产呢是我们现在表格中已有的变量。接下来生成数字化转型变量, d, c, g, 它等于关键字词频加以取对数,全选这些代码点击度。看一下变量窗口,我们生成了 size 和 d, c, g 这两个变量。 我们研究的是物流行业,接下来我们要筛选出物流行业,我们看一下数据浏览器里这里的行业代码呢, g 打头的呢就是物流行业,我们需要提取行业代码中的第一个字母, 才能筛选出整个 g 类行业。来看一下它的代码,我们需要生成一个新的变量, i, n, d 这个变量表示的是我们提取行业代码中的第一个字母。 我们执行一下这个代码,再看一下数据浏览器里这个变量在最后一列,它包含 g 和 c 这些个行业。 然后我们保留这一类物流行业,用 keepif 这个命令运行一下这个代码。下一步我们剔除数据,用 job 把你不想要的没用变量删掉。然后我们剔除股票简称中含有新 st 和 st 的 数据。这 篇论文学生要求做二零一三到二零二三年的数据,所以仍然执行 jobif 这个命令就可以。接下来我们剔除有缺失值的数据, 这里呢,换成你论文中的变量就可以了。我们执行这个代码,看一下,剔除掉了 r, o, a 两个缺失值, r o, e 有 一个缺失值。最后呢,对数据进行缩尾处理,用 vinster two 这个命令,在百分之一到百分之九十九之间进行缩尾处理。我们执行一下这个命令。 数据处理完成之后呢,我们要保存成 dta 文件,用 save 这个命令,然后后面是你电脑里想保存的路径,而我后面少打了一个点 dta, 这里我就不执行这个命令了,因为我的电脑里已经有这个数据了。 数据处理完成,我们大致浏览一下,现在我们有八百四十个样本,作为一个有强迫症的人呢,我需要我的变量都统一的排列在一起,所以我需要用到 alt 这个命令,把我的变量按照我需要的顺序排列出来,我们逐一去点击变量窗口里的变量就可以了, 按一下回车执行这个命令,这样变量窗口就清晰多了。第二步呢,我们要做描述性统计分析,用 some two dogs, 后面加上需要做统计的变量 using 呢是你想保存到哪里?后面这些代码呢,就是保留四位小数,生成均值,最小值,中位数等等全选代码来执行一下。点击这个蓝色的字体,就出现了我们刚才导出的描述性统计分析的表格。第三步,做相关性分析,我们用 logout 这个命令, 后面的 c 五接你想保存的文件名字,这里呢是你想做相关分析的变量,后面的零点零一,零点零五,还有零点一是输出的显著性水平,我们全选他执行一下,看一下,还是点击这个蓝色的字体,看到相关系数分析表。 第四步,我们做论文的基本回归部分,在做回归之前呢,我们需要对面板数据进行一个设定,输入 xtset id year, 设定一下面板数据,这里显示 unbalanced 是 个非平衡面板。这个基础回归呢,我是通过逐步加入控制变量来做的。 i 点 e 呢是固定时间, f e 呢是固定个体。这两行代码的意思呢,是在输出的结果中输出 form yes 和 ear yes。 接下来的每一个回归呢,就是逐步加入一个新的控制变量。每一个回归呢,我都把它输出成 y 一, y 二, y 三, y 四, y 五, y 六,一共六个回归。 用 is tab 这个命令导出结果。 using 后面接的是你想保存的路径。下面的这些命令呢,基本就是固定的了。 全选这些命令执行一下,看一下结果。这里的 p 值是零点零零四,小于零点零一,结果是非常显著的,可以达到百分之一。零点零零六是它的回归系数。我们来看一下它的输出结果。 我们做的基本回归,每一列都是三星显著。这里呢是固定个体和年份。好啦,时政的前半部分做完了,下期继续给大家讲后半部分,稳健性、内生性、中介效应和意志性部分。
粉丝915获赞1.9万

大家好,我是太空鼠,我们今天接着啊这个系列继续讲啊,我们这个系列已经马上都要跟完了,大家看这个系列就可以完全去啊,学会这个怎样去做一个时政了。 那么今天这个系列是讲的是这个啊,我们内生性检验当中的一个工具变量法啊,工具变量法大家也知道吗?是我们最长最常用的一个方法,也是必须要做的一个方法。然后这是我们啊老生常谈的环节了,大家可以看一下这个啊,这张图啊, 然后有模型指导答疑,也可以说是滴滴。然后接下来接下来我给大家说一下这个工具变量法, 那么工具变量法是解决我们回归模型内生性的一种问题吗?那大家也知道内生性的问题他是什么?呃,他要说到比较深的话,计量经济学里面他是什么意思啊?就是说我们回归模型当中的解释变量,也就是自变量 和这个随机误差项是相关的,导致我们的普通最小二乘法 o s, 它的估计结果是有偏误的啊。那么内生性问题啊,我们具象话去说,它就是有三种,一种叫做遗漏变量, 一种叫做反向因果,一种叫做样本选择偏差。那么我们反向因果这个问题是什么原因呢?就是说我们自变,比如说我们研究的题目是数值化转型与这个财务绩效,对不对?比如我们研究的题目是数值化转型与财务绩效,那么我们认为数值化转型会去影响企业财务绩效,对财务绩效可能是一个正向的关系, 但是有没有一种这样的可能呢?就说财务绩效,它倒过来也会影响起的速算转型呢,是存在种反向因果的关系,对不对?那么工具变量法就是为了去解决这种反向因果的问题的啊,那么为什么工具变量它法它可以去解决这个 内生性当中的反向因果呢?它是通过引入一个工具变量法,它是通过引入一个工具变量来替代掉我们内生的解释变量。 那么工具变量他们必须要满足两个条件,一个叫做相关性,一个叫做外声型啊。相关性是指工具变量与内声的解释变量,也就是我们的字变量是相关的。 比如说我们。呃,研究的这个题目数大转型嘛,那我一般选举的数大转型的工具变量,就是说可能说同年份同行业其他企业数大转型的均值,那他是不是和我们的原本的这个内声的字变量它是相关的呀? 对不对?那外声是什么意思呢?外声是什么意思啊?它是工具变量,与随机误差像它是不相关的。就是说工具变量只能去通过去影响这个自变量来影响音变量,它不能直接去影响音变量。工具变量它是通过间接去影响自变量去对音变量造成一个影响。 那么工具变量法的话,我们一般都是做怎么做的呢?我们做两阶段最小二乘法是不是?那么两阶段最小二乘法,我给大家举个例子啊,两阶段最小二乘法啊,它 是有两个阶段嘛?第一阶段和第二阶段。第一阶段是我们工具变量和自变量去回归嘛,第二阶段是自变量和因变量去回归,对不对?我再给大家举一个比较通俗的例子,去 理解一下你这个内生性问题当中这个工具变量啊,假设我们研究的这个问题是这个教育的年限对于我们这个工资的影响啊,我们假设研究的问题是教育年限对工资的影响,插入一个 这个表格,不用插入了,我们直接说吧。假如我们想年金的是教育年限对工资的影响,那么这里是可能存在内生性问题的。比如说什么呢?个人的能力就比假设有存在一个变量是每个人的能力,那每个人能力可能说这个人能力有智力啊、动机啊,是不是他都会影响他这个企业的教育年限, 但他又会影响这个工资,对不对?就是他既会影响你这个自变量,又会影响,可能会直接影响到你个应变量工资,但这个个人的这个能力吧,他又没有办法去测量,很难去度量, 很难去观测到,因为他没有办法去度量。不像呃,教育年限这种东西,我们可以直接说你上了多少年学,直接把它量化,对不对?所以的话,这个个人能力他有可能会遗漏在这个误差项当中去。 但是说自变量教育年限又和这个误差项它是有相关的,所以它就会有这个内生性问题啊,我们通过两阶段最小而乘法去解决。那么刚才这一部分都是这个偏理论的部分。大家啊,能听懂的话听懂,听不懂的话我们也没关系,我们直接去上操作啊,上操作, 上操作的话,我们就是这个工具变量法嘛, iv r e g h d f e, 对 不对?是不是? iv r e g h d f e 是 我们工具变量法的代码,然后它后面的范例呢?是先加你的音变量, 然后括号里是自变量等于工具变量,因为我们这会我们这个工具变量没有去合适的工具变量,我们就直接,嗯,就是假设大家在实际去做工具变量法的时候,没有合适的工具变量,我们可以把之后一期的核心自变量当做工具变量去用, 之后一期的核心自变量当做工具变量,我们这里把之后一期的竖大转型当做工具变量去做, 然后接下来是一系列控制变量,我们可以放到这里面,然后最后是固定效应,对吧?固定效应,把固定效应复制过来, 我们设定下面板数据啊,用我们做之后的时候一定要设定面板数据。好了,我们直接对工具变量这个代码进行运行啊。 嗯,数据打开不收费,这块数据我们应该打开另一份数据, 我们可以看到这是工具变量的结果啊。我们首先看第一阶段,第一阶段在这里 force stage regression 第一阶段的回归,我们会发现第一阶段的回归是工具变量和自变量的回归,对不对?那么工具变量和自变量的回归的话,它是不是正向显著的?零点八二是正的,对不对?然后也是显著的,对吧? 然后这是第一阶段,然后第二阶段这个 f 值, f 值看到没有?这个也是大于百分之十水平上零界值十六点三八,然后我们继续看第二阶段, 那么第二阶段这是二阶段的估计嘛,对吧?第二阶段估计,第二阶段估计的话就是自变量和因变量的一个回归,就是数字化转型, 对吧?和我们这个 roe 净资产利率也是财务界的回归,它同样也是正向显著,对不对?也是通过的。然后再看这两个检验,一个叫做不可识别检验,一个叫做若工具变量检验对不对? 不可识别检验,它 p 值是显著的,对不对?若工具变量检验呢?就是这个 f 检验,它也是大于百分之十水平上临界值的,那就说明我们这个工具变量法是完全是通过的,对不对? 那么通过之后,那我们这个啊,内生性问题当中的反向因果就可以进一步得到一定程度上缓解,我们可以缓解这个问题。好,我们今天工具变量话就讲到这里,然后我们接下来再去更新其他的啊。

短短十分钟,我们就能完成基本的数据清洗、数据回归以及形成基本的论文。全网二十多万人看我的 ai 自动化写论文的教程,今天他来了, 哈喽,大家好,我是龙博,接下来我将用三分钟时间告诉你,如何不写一行代码,也可以完成一篇时政论文。 我们拿一个简单的主题给大家举例,题目是区域公共品牌建设能否促进农产品质量提升。基本思路是这样子的,解释变量 x 是 区域公共品牌建设。被解释变量 y 是 农产品质量提升。我们用是否有有机产品认证进行标识研究的层级呢?是城市杠年份层面。大家可以看到 我的桌面上有一个 test 文件夹,我们点开,其中存放着我的这次研究所需要的基本材料。很简单啊,就是一个 date 文件夹,里面放了三个不同的面板。 一张面板是解释变量,区域公品牌品牌建设里面包括了省份、城市年份,还有这个公共品牌的名称。第二张表格呢,被解释变量,有机产品认证,它包括了省份城市认证证书的编号,证书的发证日期以及到期日期。 第三张表呢,对应的是城市层面的控制变量,已经清洗成了城市杠。年份层面的数据包括人均地区、生产产值,户籍人口呀等等等等。如果我们手动处理啊,这里面就面临一个问题,三张表格,它对应的是三个不同的层级。去公共品牌,它是品牌层级的 有机产品认证呢,每一条对应一个证书,只有城市层面的控制变量,它是城市更年份的,我们需要把这三张表格都统计成城市杠年份 level 才能进行回归。 我这里已经给大家准备好提示词了,直接复制就可以了,只不过呢,复制之前要加上我们徐博的一个专门的 skill 们,输入美元符号,然后搜索 徐博 academic 就 可以了。这里提示词是这样子的,基于我们指定的数据集进行研究,其中解释变量,被解释变量,研究层级还是我们出示的研究思路。最后呢,我补充了两条额外的要求,将结果插入可以翻译的 la tech 门稿, 并补充上下文,讲解研究思路。同时呢,不要问我任何问题,一切按照你认为合理的方式执行,因为我们在拍视频嘛,我们希望这个整个流程更快一些。 我们可以看到这个左侧正在运行 codex, 已经在读数据集,并且已经在构思研究思路了,运行各种各样的 python 代码,它要读取我们的 excel, 了解 excel 里面到底有哪些对应的字段,以及如果构思研究的话应该如何构思。 因为我这里是在给大家录视频啊,电脑的温度比较高,整个运行起来会还是比较慢的, 大家可以看到,目前这个 ai 已经做了非常非常多的研究了,它已经了解了基本的这个数据结构。 接下来呢,他在执行啊,我这个我 skill 里面提到的步骤,比如我要生成这个年份面板,以及我要完成这个数据的清理和数据的分析,我要把这个文稿直接音符的到这个结果表格当中来形成的文稿,同时还要补上研究背景,识别思路变量定义等等等等。 好,大家看到没有,它又生成了一个度分析文件,度分析文件啊,我们可以在这里面看到它度分析文件的这个,呃,具体内容,它的改动内容有哪些?对于一些关键的操作呀,它会征得你这个使用者的批准, 比如说这里面谈到啊,你是否要执行某个命令啊,觉得一般都是默认批准的。这里面我就不得不提一个我们后面会给大家提供的一个点啊,就是 codex 操作 stat 有 一个非常重要的工具,叫做 stat mcp, 只有安装了这个对应的 state mcp 之后呢, codex 才能直接读取这个 state 的 结果,并且直接运行 state 代码。大家可以看到啊,我自始至终从来没有打开编辑过任意一行派放代码编辑过任意一行 do 代码。 但是大家也已经看到了,我已经有两个基本的文件了,一个是 analysis 文件,另一个是基本的数据清洗文件, codex 已经帮我生成,哎呀,只能等待了。 大家可以看到啊,目前这个已经生成到点 pack 文件了。 终于,总共耗时八分钟,我们得到了结果,核心结论是,在当前六十八个城市啊,二零零八年到二零二年年版没有得到我们预期的结论。这里面 codex 进行了一系列的尝试啊,它会告诉我们的结果, p 值是 p 等于零点五二三,接下来呢是 p 等于零点九五零。我们来看看文稿翻译的结果怎么样啊,大家可以看到啊,还是这个,根据徐博的配置,这个文档其实已经管理好了, data 是 原始文件 program 呢,里面存放的就是我的 clean 文件和 analysis 文件。再之后呢,我们看到这个 menu script, 哎,大家发现没有,我的 pdf 文档其实已经翻译好了, 大家发现这里面包括了我的题目是什么,摘要是什么,研究背景是什么,数据的基本情况是什么,以及我的模型有哪些,我的研究思路有哪些。同时大家发现没有,我的 代码结果已经变成了 latex 表格插入到了我的文档里面来,总共耗时十分钟。通过使用 codex, 我 就已经得到了一个完整的文稿。 这时候有人要问啊,这个徐博,徐博,你这个结果也不显著啊,今天主要是给大家做一些测试,结果不显著很正常嘛,我们可以调参嘛?这里我给大家提供几个这个呃,调参的 prompt 啊,你可以通过更换,控制变量,对变量缩尾等等各种各样的手段, 直到给我的结果。这个时候呢,我们的 codex 就 会使用这个 state mcp, 反复的测试,反复的测试,直到给你显著的结果。当然实在是不显著,那也没办法, 好朋友们,这个未来以来啊,短短十分钟,我们就能从三个简陋的 excel 文件完成了基本的数据清洗,数据回归,以及形成基本的论文。大家可以看到啊,我已经形成了一个这个呃,总共 总共三页的文档,其中的这个表格包括表注是什么,表格的排版已经非常非常规范了。这里面呢,我会跟大家分享一些基本的配置,比如 codex 和其他的 agent 呢,怎么安装?还有这个 stat 以及 m c p 如何安装?

我们可以一个命令就可以实现从原始数据到投稿全流程,全过程。很多粉丝问我,龙博,你的 ai 是 如何配置的? 今天配置教程它来了。大家好,我是龙博,今天我给大家讲一讲如何配置 ai 和 skills。 首先给新来的观众讲一下基本的概念,我们这里所说的 ai agent, 它区别于我们传统的聊天机器人,它是执行任务的智能体,它可以直接操作你本地电脑的文件和应用程序。 而 skills 呢,指的是封装好的固定的工作流,可以让 ai 自动调用并完成复杂任务。今天我们主要讲的就是如何配置更好的 skills, 来指导我们的 ai agent 完成我们本地的任务。 我常用的 ai agent 是 codex, 安装好之后,我们可以在你工作的目录点开终端,打开终端后输入 codex, 我 们就可以在工作区看到你刚才的文件夹。 我们今天的任务很简单,我们需要统计每个省份的人均生产产值,但是在原始的城市数据库里面,我们只有地区层面的生产产值和户籍人口信息。我们先测试一种不使用 skills 的 情况,我们把提示词拷贝给 a i a 人的, 我们把它需要处理的数据文件放在我们的提示词里面。同时我们跟他说,请统计二零二二年每个省份的人均生产产值,并且制成图表。为了节省时间,我们要求直接执行,不要问我任何问题。我们可以看到我们的 ai agent 已经开始工作了, 他正在读取当前的工作簿,并且定位了文件当中有哪些字段。耗时三分钟,我们已经得到了结果的图标,我们来看看他处理的怎么样。在 output 文件夹里面呀,有一个 svg 图像, 我们这里已经有了完整的数据结果,我们三十一个省,每一个地区的人均生产产值已经有了。 这个时候问题就来了,之前粉丝群里有人问我龙伯,龙伯用 codex 能产生中间结果吗?我们这里看到确实并没有产生中间结果,但是我们可以通过配置 skills 来实现。 我们可以这样说,我现在要写一个大局的 skills, 我 们要求对任何 excel 文件处理的时候都不得修改原文件。同时我们要求在 program 当中存档我们的处理代码,同时在 result 文件夹下输入结果。啊,它在我们的大局技能目录里面要创建一个 excel analysis 的 技能, 大家这个时候可以点开旁边栏的技能,我们就能找到。他说当我们处理任何 excel 的 时候,我们都要使用这一技能。下面就是一些关于这个技能的具体说明。诶,那 skills 是 如何发挥作用的呢? 我们可以把 skills 看做成一段长期维护的提示词,我们可以通过美元符号显示的调用。我们仍然把刚才的问题发送给 codex, 我 们可以看到他说,先定位工作区中的 excel 文件, 确定好之后,哎,脚本写到 program 里面,输出的表格存储到 result 里面。我们来看看使用了 skills 的 codex, 它执行任务的效果怎么样。 我们可以看见 codex 除了给出我们最终的结果文件,它还在我们指定的 program 文件夹下生成了中间的处理结果。 啊,我们点开当前的这个处理结果文件夹,我们可以看到啊, codex 处理刚才任务所产生的排放代码已经生成在我们指定的路径之下了,我们可以根据中间处理的脚本哎来判断它任务执行的正确与否。 我们会发现,在刚才的任务当中,如果不使用 skills, 它会导致缺乏中间过程,难以核对我们处理的准确性。同时啊,这个文件的管理是非常混乱的,很容易污染本地的文件夹。但是一旦使用了我们的 skills, 我 们的 codex 就 可以按照合理的方式来管理文件留存中间的结果,它是非常非常适合科研当中使用的。 好,今天重要的重点来了,龙伯来分享一下自己的 ai 学术工作流。我们做实证研究啊,一般往往是从 data 文件夹下的 raw 原始数据出发,我们可以使用在 program 文件夹下的清洗脚本对原始数据进行加工,我们可以得到 final 分 析数据。 分析数据一般都是已经整理好的面板数据,有了面板数据之后呢,我们就可以使用 stata 来写作 analysis 分 析脚本对分析数据进行加工。 加工之后呢,我们一般容易得到两类结果,一类是表格,另一类是图片。如果你已经熟悉了 la tech 的 使用啊,你可以使用这个 la tech 的 input 命令,把图片和表格直接插入到主文档当中。 需要注意的一点是啊,在龙薄的工作流当中,是有非常多明确的工作规则,尤其是你要告诉你的 ai agent 不 得跨级提取结果文件啊,就比如你的分析脚本,你不能直接提取原始数据啊,你需要提取这个分析数据。 还比如说,你的清洗脚本必须保留明确的摘要说明。同时呢,你的分析脚本在运行过程中,需要对 state 的 运行结果进行存档。 除了基本的工作流之外啊,我们还可以使用更精细的 rules 对 不同类型的文件进行约束。 就比如我们这里 clean rules 可以 限制我们清洗脚本所使用的函数类型。再比如说,我们可以把我们经常使用的表格格式,表格模板放到我们的 result rules 当中。我们可以说,哎,我输出的表格必须是三线表,我输出的图片啊,必须是某种模板,我们可以实现对每一种类型文件的精细约束。 好,有了我刚才所说的工作原则,还有各种各样的 rules, 我 们就已经能得到排版非常美观的主文稿了。 我们就可以告诉我们的 agent 进行投稿打包啊,打包里面其实很简单嘛,就是我们的主文稿, cover, letter, title, page 等等等等。大家会发现,如果我们使用管理科学的 skills, 我 们可以一个命令 就可以实现从原始数据到投稿全流程全过程。 好,有了刚才的介绍呀,大家就可以比较容易的理解龙博的工作流了。龙博自己写了一套 skills, 里面包括了整个科研的全壁画,包括各种各样的文件管理啊,每一种类别的文件啊,应该遵循何种规则呀?啊,在龙博这一套 skills 里面都包括了,可以供大家参考。 好,我们接下来试试龙博的 skills 啊,跟我们上期视频一样,我们整个项目文件夹里面只有 data 文件夹下的 raw 原始数据文件。好,我们这期的学术题目也很简单啊,是区域公共品牌建设能否促进企业采取绿色食品认证。 我们可以这样说,我们打算以区域公共品牌建设为解释变量,绿色食品认证为被解释变量研究的层级啊,是地方杠,年份层面哎,这里有个小技巧,我们可以这样告诉 agent, 我们预期得到正向显著的结果,如果不显著,请调整模型,调整到正向显著为止啊。同时生成中英文两版文稿,将结果插入到文稿当中,并在文稿当中补充上下文,以及对于结果的解读。 我们来看看 codex 的 执行效果。我们把刚才的提示词输入到 codex 当中,大家可以看到啊,在我们输入提示词之后,我们 codex 首先读取了我所提供的 skills, 它会按照我 skills 里面提到的 工作流进行处理。比如他会首先遵循从 program 到 results 到 manuscript 全链路的执行,对于其中不完整的文件夹,他可以自行补充。这个任务比较长啊,整个过程,整个链路耗时都非常长,我们可以稍事休息一下。 好啊,整个项目历时十六分钟啊,已经完成了。中间过程中是他的一些思考呀,他执行一些命令呀,等等等等。 a 阵的说已经完成了结果,主结果是正向且显著的。在主规格里面啊,认证显著水平为正,且在百分之一水平显著。中间呢,生成了一系列的分析脚本,中英文 pdf 文档,我们来看看它结果到底怎么样呀? 我们可以看到,在刚才空白的文件夹里面,已经多出了各种各样的分析文件,由我们开始的 raw 文件, 还有处理好的面板数据, final 文件中间呢,还有刚才我提到的 clean 清洗脚本,使用的是 python analysis 分 析脚本,它使用的是 stat 度文件。同时呢,表格输出到了 result 下面,形成了一个点 tech 文件,它又把点 tech 文件输入到了 我们的分析脚本当中。来,我们来看看写的怎么样吧。题目是区域公共品牌建设与绿色食品认证采纳啊,这里面谈到了他研究的背景数据变量的构造哦,注意看,这里还给出了具体的模型设置,被解释变量取了对数,解释变量也取了对数。 同时呢,回归结果也有了啊,回归结果果然是正向显著的,这里面给出了具体的控制变量控制与否,省份固定效应、年份固定效应、观测值等等等等都给了。 这样子我们就完成了一篇完完整整的结构规范的小文章啊。不过大家这个时候肯定会觉得我目前的研究比较简陋, 以目前的这个我的水平,包括这个 ai 的 水平啊,我觉得还不足以一件完成一篇完整的可以投稿的研究,但是它对于我们的日常研究还是有价值有意义的。比如我们可能对某些话题啊比较感兴趣,我想看看基于我已有的数据,能不能深入的推进这个研究呀,哎,我们就可以使用这一套工作流, 一键耗时十六分钟,我们就可以得到分析结果。哎,如果是正向显著确实符合预期,那我们就可以进一步的深入推进这项研究了。朋友们, 原来我们用代码操作机器,今天我们可以用 skills 来操纵机器。未来是 ai 的 时代,在我看来啊, skills 是 ai 时代的核心竞争力,朋友们,打不过就加入 ai 吧。

好,今天给大家讲一下这个多十点 d i d 模型,然后我这个我是研究这个 中国八内开通对企业这个绿色创新的影响的,然后这个是背景识别量,这个是,呃,绿水创,绿水专利树,这个是来自那个 c n c n r d s 数据库,然后这个 哦,中国八内开通的,他就是某些地级市是开通了的,所以说啊,他这有一个开通年份,我们就是用这个变量去构建这个,嗯, d i d 这个变量的,然后然后还选了一些其他的这个控制变量,例如这个资产整机服,在科技这些啊,都是从国泰安上下载下来的。嗯,然后 数据类大概就是这些,然后给大家讲一下这个 d i d, 这个多使点 d i d 啊,这个逻辑是什么? 给大家看一下代码,这是我给另外一个同学写的。然后这个多使点 d i d。 首先这个就是啊,这个是给这个证据代码重新命名一下,然后统计截止日期重新命名一下,然后这个是给行业编行业代码进行编码,行业代码的话,他在这个数据里面啊,给大家看一下这个数据里还没导入数据, 先导入一下数据吧。 来看一下 excel 这个行业代码嘞,在这个 excel 里里面它也是一个这个 k 七零啊, c a 七啊,这是一,这不是一个数字, 所以说在我们代码里面就是给它编码成一个数字才行,就是用的这个命令, 然后这个大家都知道这个是啊,设置那个面板的,然后这个背景是变量嘞,就是那个滤税专利申请啊,滤税专利或者说一般大家都处理都是加一取对数好了,然后这个减式变量。然后咱们就看一下啊, 首先这个多时点 d i d 跟这个 d i d 是 有一点区别的,它这个因为它开通的年份,这个中国班列啊,这个开通的年份,它对于每一个城市来说可能是不一样的。你看这有 哦,一一年开通的,有一七年开通的,有 a 三年开通的,所以它开通的年份是不一样的。 当时我们去做多十点 d i d 的 时候嘞,他这个如果是他是二零一七年开通的,他的政策实施的前一年,那是二零一六年,如果他是 二零二三年开通的,这个中国八裂开通的话,他那的政策前一年,那就是二二年。 所以说我们要找出他的政策前一年是哪一年,你看我这里是没有开通的,那就是缺失的就是空白,开通了的话就显得他开通的年份。 然后我们用这个统计截止日期,就是我们的年份去减掉这个 a 零一七,如果它等于零的话,那就是刚好是开通的单延,如果它等于负一的话,那就是政策前延了。如果是等于负二的话,就是政策前两延。当然如果它等于 呃等于一的话,它就是政策后延了。给大家看一下代码, 然后我们这个开通年份它不等于空的,因为不等于空的话,就是我,我那个 excel 里面啊,它是等于空的话,那就是它没有开通,如果它不等于空的话,那就是实验组那个具体就等于一,如果它是空的话,那具体就等于零,它就是控制组。然后我愿意 那个盐分去减掉它这个中国班列开通的这个盐分啊,得到的这个数就是 tan, 我 这个命名为 tan 这个变量,如果 tan 大 于等于零的话,就是这个 这个盐分跟当前这个开通的盐分,它大于等于减它,减掉它大于等于零的话,那就是正确使用后的了, 正确实施。后来呢?我们这个 alpha 就 给它命名为,那我们这个 alpha 就 给它命名为,呃,这个就是你呃就是等于一了。如果它是空的话, 因为这里产生了一个变量吧,产生了一个变量,它等于一。如果这个太大等于零,那就是正确时刻的已经给它命名,已经给它取值为一了,如果它是空的话,那就给它取值为零。然后它们两个的交成像,就是这个 d i d 就是 我们这个中国班列开通的这个变量。 好了,然后多使点 d i d 跟单使点 d i d 呢?它最大的区别就是这个平行趋势检验了。平行趋势检验呢?我们就是 要当时点 id, 他 只是当时点,他只在哪一个年份有开通这个政策,所以说他那个 他就不用去这样相减,然后得算他那个是政策哪一年的政策前一年还是政策后一年,他不用这样相减,他只剩年份,这个一二等于等于哪一年就够了,他不用这么麻烦。然后 这个 time 就是 要减掉这个开头年份,如果它等于一的话,并且它是实验组,那这个是 post 一 就会等就等于一,否则的话它就等于零。同样的操作,同样的操作等于负一的话,并且是实验组,它就是正确实施前一年的, 反正就是同样的操作。最后我们选的是每个选政策前选五期,政策后选五期,然后政策前五期之前的就给它规定到政策前五期,政策后五期之后的我们就给它规定到政策后五期。然后用这个去做平行趋势, 这个是多时点 d i d 与单时点 d i d 啊,也就是经典 d i d 最大的区别,这个一定要搞清楚啊,如果这个搞不清楚的话,你做成单时点 d i d 的 话,那你就呃这个不符合你的逻辑了。 然后我见过有同学是这样做过,他只用政策第一批政策试点的,他作为那个实验者,然后其他的就不是多时点 d i d 了,那整个文章都有问题了。 然后这个是控制变量。像我们的话,喜欢就是我做这么多时政啊,然后我都喜欢。是啊,直接从这个网站下载这个资产审计啊,负债合计啊,把这些变量下下来,一个一个下下来,然后合并好,但是千万不要给他剔除缺失值, 合并起来,然后再去给它进行计算,把这个变量计算出来,这个就是我要选择控制变量,然后呢在做回归之前,特别是做没设置程序之前,我们再把它的缺失值剔除, 你不要在那个清洗数据的时候啊,就把这有缺失的剔除了。如果说你到时实证做出来不显著,我们要调整我们的控制变量的时候,如果你说例如这个托宾 q 值, 到时候我们控制变量里面不想要它,那你把这个趋势值,把这这这这几行都剔除了。把这几行都剔除了,那那其他的变量这几行也被剔除了。 然后嘞如果你不问他的话,那是不是这这边这些变量就是没必要被剔除的?那你问其他变量的时候,这个就你的样本就少了,就会导致这个问题。所以我们说 啊,在数据清洗跟合并的时候,千万不要把配置值剔除了,你先把它合并好,如果说到时你不要这个变量,到时你跑回归的时候,你再给他剔除,就像我们下载数据的时候一样,你可以先多下一些数据,如果不想要的话,到时你合并完之后, 清洗完之后,你还可以把那些不要的删除,到时你要重新多找出来,多找出这这几这几个样本出来,那就比较麻烦了。 所以说我建议大家是在这个位置,然后再给他啊剔除缺失值。如果说你不想你,你这个变量没人上,你就不用给他剔除缺失值了,那你就重新跑一遍代码就可以了,那也不用去重新去找数据,重新清洗数据,这个是最麻烦的。 然后把这些工作都做好之后,我们就要进对这个变大进行缩尾,一到九十九的缩尾啊,这个是一般又做的啊,当然有些本科生他把这个缩尾啊,就本来他前面是不缩尾的,后面给他在稳健性里面做一个缩尾作为稳健性,其实我觉得这样做是很不可理的啊, 然后做完这些工作之后啊,缩尾完之后我们做描述性、相关性,描述性的话就把你的背景式变量啊,减式变量啊,还有你的控制变量做一下就可以了,那中间啊调节,觉得这些是没必要去做的。嗯,然后代码我也给大家跑一下, 选中这些代码,然后运行啊,这个平行趋势啊,平行趋势是 d i d 里面最重要的,一般来说你平行趋势过了你的主回归,还有你的这个 主回归,还有这个稳定性,一般都是没问题的啊, r、 v、 g、 ps 们 d i、 d 这些都是没问题的。如果你平行趋势过不了,那就都是麻烦看一下啊,大家看一下这个 pr 一 一 pr 一 这个是作为机器的,我们是没有放入这个 pr 一 一这一期的啊,它是作为机器前面所有期, 它这个都包括了零,就是跟这个呃政策前一期没有明显的区别,政策后的话,除了这个 pos 的 二是嗯跟他没什么区别外,其他都是有区别的。就是这个中国八类开通对企业预设创新还是有很大影响的。 一般来说像平行趋势啊,反正政策前的这些,这这四个啊,是一定不能 不包括零的,只要他不包括零,你的平行趋势就是有问题的。这个是这个是固定了的,这个是一定不能动的。后面的话就是你后面有滞后啊,或者是说啊你有一期啊,不显著啊,这个都没关系, 但是前面是一定要包括您的,这个是原则。然后如果说有些同学做出来的前面,前面后面都是包括您的,都是在这个穿过了这个民族的这根线,穿过了这个民族啊。有些文章呢,他觉得也可以,他只要这个 啊,他只要这个政策前是一定要一定要包括您,政策课如果说也包括您的话,有些学校要求不高,他觉得也可以。 然后这个是平行趋势啊,平行趋势你要放在这是你的背景式变量,这个是你的背景式变量,然后 啊,政策前的,还有政策单严的跟政策后的政策单,政策前一期是不能放进来的,然后就是你的控制变量,这个一般应用矩阵文件的标准物啊,最好是用矩阵文件的标准物,在这里不要用文件的标准物。然后控制这个行业跟年份,这个都是可以选择,你控制个体跟年份能做出来也是可以的。 然后做完这些工作,然后就是跟你的那个经典 id 就是 一样了,你跑主回归,跑意志性,跑稳健性,当然你可以还能够跑一些中介啊,调节啊之类的,这个都可以, 其他的就没什么大区别,就主要的还是在这个平行趋势检验上面,大家一定要分清楚啊,这个如果说你的企业是你的这个企业是 a 一 一七年开通的,那你这个政策险一年是一六年,如果你的企业是 其他年份开通的,例如 a 二年,那你的政策险一年就是 a 一 年,它每一个企业的政策险一年可能是不一样的,一定要把这个最关键的部分搞清楚, 然后这个是会影响到你的平行趋势的啊,当然平行趋势调平行趋势的方法主要是那个主要是从这个控制变量下手了,然后就是这个规避,你可以选五期啊,如果说呃,负期他这个期也做不出来,那你就选四期,当然前面的最好是多一点喽, 然后其他的都跟你的一样,都跟其他的都跟你那个呃,一般的模型是一样的,主回归一致性,只是它这个 d i d 它区别就是什么呢?就是你这个呃警示变量,它是一个零异变量而已,其他的没什么区别,反正该控制的还是得控制。 然后 p s m d i j。 主页市面的这个死灵主跟坑子主啊去匹配,当然它有近零匹配啊,还有什么一些其他的匹配都有的,嗯,大家都可以去呃看一看,然后我这个市面的近零匹配一比一的,然后给大家跑一下 这个 ps 嘛,就是用的 ps max 二这个命令啊。然后课面接的是你的这个 cheat, 这个实验组跟分实验组跟控制组的这个这个变量,然后课课面接的是你的控制变量, 这个 out 就是 那个结果,那个你的背景视频量,后面接的就是你的背景视频量 label label 的 话是近零匹配吗?近零匹配你有一比一、一比三这些之类的,反正大家注意调整一下这个参数就可以了。然后这个是做平稳性检验,大家看一下这个平稳性检验的结果, 平稳性检验的结果这个 armageddon 就是 这个原点,它是匹配前的匹配前正匹配前那个实验组与控制组的区别,看一下 这个原点啊,它到这个零组的距离是很长的,也就是说你的匹配之前,实验组跟控制组它是有很大区别的,但是你看匹配这个叉是匹配扣的匹配扣, 他这个实验组和控制组的区别基本上就被缩写了,甚至很少。他们一般的要求就是你不能超过十, 超过十二的话就是你匹配的话就是匹配的不是很好,这个平稳性检验就就没过。当然了,说如果说你匹配的这个结果不是特别好的话,当然有些同学他是直接不放这个平稳性检验,但这个放的人也是比较少,直接不放别的平稳性检验,然后用 这个匹配之后的样板去重复你的积分回归到左一次,加了一个,加了一个 if 杠 vt, 就是 它权重不等于零的, 这个要加这个条件权重等于零的,这就给剔除了,然后其他的就没什么区别。然后这个跟双向固定效应模型相比呢,它这个还有一点啊,就是它就做一个安慰剂,安慰剂一般就是用这个命令了 pop mute, 然后重复五百次随机实验,就是随机生成你这个呃处理的时间,这个真确实的时间,然后客户看他呃跑出来的结果是怎么样的,这样这个东西你要跑的话,我就不给你,我就不跑了,这个时间要的,要的很久应该是, 嗯,我的这个要重新跑一下,这个跑五百次才能够把这个呃礼盒出来的那个东西搞出来,然后就跑起来就比较麻烦,我就不给大家跑了。然后这个代码嘞,我也可以分享,如果说有需要的话也可以来找我, 当然你们可以去参考我的东西去啊,是那个 style 里面啊,一步一步的操作,当然这个数据处理啊,大家一定要先处理了,然后开通年份啊,这个多使点 d i d, 多使点 d i d, 你 看了年份,看了年份,这一列一定要搞好, 哪些城市你这样可以用 excel 都可以呈现好,哪些城市实施了这个政策,哪一年的用 excel 一个一个的搞好都行,反正看你们自己,你用 excel 啊, python, data 都可以, 然后做完这些就大概就差不多了。一般来说,本科生的话,你做,呃,一一个组合规,一个一次性呃,三个文件信,还有个安慰剂,还有 平行趋势啊,就够差不多够了,然后说实话也多做两个中介做,呃,做个调节之类的, 然后尽量让自己的文章丰富一点吧,然后大概就这样,最重要的都是点击 id, 最重要的还是这个,这个平行趋势,这里一定要搞清楚。正确实施前一页。 不同的企业它正确实施的前一页是不一样的啊,这个一定是要搞清楚的啊。好,今天就给大家分享到这里。

hello, 大家好,这里是你的期末学长,本期我们来讲一下经管和社科最容易混的毕业论文, 那毫无疑问里面最好过,而且不用你写实物的,那就是时政了,现在的时政大部分老师都会要求这一点的, 不管你是用 spot 或者 star 都行。然后我们现在实践里面最常见也是最适合新手的话,就是问卷调查啊或者统计。 那么下面有一些同学问过我的问题啊,他说可以用 excel 嘛?我说 这个你自己试过一下你就知道啊,他分析出来完全都不是一样的,而且一点都不专业,大部分老师也不太承认这一个。 那么做实践分析最重要的几个点,开头你肯定要设计一个问卷对不对?无论你是去往年中的文献中找,或者是你自己设计,你都要设计一个比较好一点的,不然你后面用 spss 跑出来数据也是垃圾。 第二个是你的发,发放和回收最少最少是两百,样本太少的话数据也是支撑不起来的。我们后面用 spss 给大家讲解一下啊, 那大概的流程就是说你用问卷心也好,呃什么之类的,你先设计好一个问卷对不对?然后你就去发放,发放收集上来之后录入,录入了之后最重要的三个 数据,描述性、统计性、效度分析,相关与回归分析对不对?你先跑信度嘛,然后那数据靠谱了之后你再跑别的。 这是一些例文,可以参考一下,有需要写时政分析的同学可以参考一下, 我们下期再见。拜拜。

stata 数据清洗,我们来讲一下 stata 数据清洗,这是实证分析最关键耗时的一步。 简单写了一下数据清洗所用到的一些基础的代码,我们数据清洗的目标只有三个,去错误、去缺失、去异常。统一格式,方便回归。下面我来讲解一下。第一步,初步环境, 清空环境,避免旧数据、旧结果干扰我们的新分析。然后第二步,导入数据。 第三步,观察数据结构。我们要先看懂数据,看一下多少样本,多少变量,变量名叫什么,有没有异常 是最常用的三个观察命令。第四步是重复值处理,重复值观测会让结果高估显著性。第一步,必须删重复值。五,处理缺失数据。 第六步,重命名变量名要简洁规范,方便后续写代码。第七步,生成新变量。第八步,替换与条件赋值。 第九步,缩尾处理异常值。第十步,样本筛选, 实证分析一般只保留研究需要的样本和变量,让数据更干净。十一、分类变量编码回归时,需要加入虚拟变量,控制固定效应, 然后数据排序,以编号排序,为了方便观察数据, id 编号是面板数据必备的。 第十三步,数据合并上下,然后是左右, 我们最后要检查一下数据的描述,统计,确定数据没有问题,最后保存即可。

大家好,欢迎来到本期 stata 入门教程,今天我们从零开始完整认识 stata 软件界面,搞清楚每个区域是干嘛的,怎么用,新手看完就能上手操作。 首先我们打开 stata 软件,打开之后大家会看到整个界面分为六个核心区域,我先带大家快速扫一遍,最上面是菜单栏,工具栏, 右边是变量窗口,下面是属性窗口,中间大区域是命令窗口和结果窗口,左边是历史命令窗口,还有最下面的状态栏,当然还有我们的数据浏览窗口。 首先看最顶部的菜单栏,文件编辑,数据图形统计,用户窗口帮助, 这是 sha 的 所有功能入口文件,然后新建,打开保存数据导出结果都在这里。我们打导入一个数据, 然后数据这里就是所有数据处理变量编辑的功能,新手的话不用记全,知道这里是总功能区就行。 下面一行是工具栏,这里就是快捷按钮,新建文件,打开,数据保存,撤销数据浏览,点一下就能用,比菜单更快。大家可以鼠标悬停,然后看一下提示, 右边这个区域叫变量窗口,这里显示的是你当前数据里的所有变量。变量名标签,变量名标签下面属性窗口可以看到当前选中的变量的类类型格式。 如果你还没导入数据,这里是空的,导入数据后所有变量都会列在这里。我们的核心区域,结果窗口和命令窗口, 这是 stata 最重要的两个区域,一定要分清楚。上半部分是结果窗口,你运行的所有命令输出的结果表格回归结果全部显示在这里,是看分期结果的地方, 下半部分是命令窗口,这是你写代码输命令的地方,写完按回车赛达就会执行,结果立刻显示在上面的结果窗口,给大家演示一下。我们输入一个最简单的命令, 按回车就能看到数据的基本信息,结果直接出现在上方。 数据浏览窗口,我们点一下工具栏里的表格图标就能打开,长得和 excel 一 模一样,是查看编辑数据地方,这个是只看不改,这个是可以修改数据, 新手可以把它理解成 excel, 直观查看你的数据内容。 历史命令窗口和底部的状态栏,最左面是历史命令窗口,你之前运行过的所有命令都会存在这里,双击就能重复运行, 不用重复打字,非常省心。最底部一行是状态栏,显示当前数据的观测数、变量数、内存使用情况,快速了解数据基本信息。 好,最后我们总结一下 sql 页面一共六个核心部分,顶部菜单工具栏右侧变量窗口,中间结果加命令窗口,点击我们的数据流转窗口 就可以查看。然后左侧是历史命令加底部的状态栏。今天我们只正式见面,下一期教大家导入数据,新建数据,真正开始用 sata 做数据分析。

好,今天给大家分享一下某个同学在这个写横竖上被骗的经历啊,他也是前做的这个实证分析,然后给大家看一下啊,他是研究数字普惠金融,对这个 数字普惠金融对那个企业绿色创新的影响,应该是, 然后这是那个人给他做的,看这个是这个是他的数据,那个 单显示证的啊,说是什么研三的给他找的数据啊,省份的跟年份的, 就是没有企业的,没有企业的,我的企业规模盈利了。呃,这个净资产,净资产利率啊, ato 啊, top 一 啊,脱贫 q 值啊,我不知道他怎么来的,这是一个省份的,每个省份又一个,我就不知道他这些东西是怎么来的, 反正,哎,我只是说这是个人才吧,他的回答是什么呢?是这个, 因为这个是。呃,数字普惠菌菌的吗?他没有企业层面的,所以他只能一直要这个省份层面的,他就给他做个这个,但是我不知道他这些数据怎么来的,然后这是他给他使的实证的代码,你看这个是直接用 i e g 给他回归的。坑这了年份 就这样的,个体的没坑子,也不是面板。那不知道他在整些啥。嗯,你看这个机子检验做了一个 k z 的, 这是三步法吧,应该是 这三步法,这个还跟上面就这个还还,这个是替换背,替换背景视频的吧,他搞到机子里面来了,哎呀,也是个人才, 一字信啊,都是没有控制个体的,不知道他在搞些啥。哎呀,稳健性啊,缩尾缩尾都给别人放到稳健性里面的,真是一个人才啊,花了两百八十块钱,这个人骗骗走了两百八十块钱啊, 大家可以想一下你们在小红书上找的人啊,这都是一些什么东西?看亚本研究企业的实验的,亚本两百七十九个,你这个,你这个,你这个搞出来,你这个妥妥的被逼掉了。 roe 的 系数负一负一,两百,负一百多,这个长寿箱八百多,不得了不得了, 看这个都是一千多,负一千多,八百多,七千多,这个长寿箱 不得了,真的是不知道搞些什么鬼,反正他拿的这些东西他收了你的费用,你也没办法找他退,他也不会退的, 骗子,很多小人身上第一个就是钻戒,钻戒太多了,你只要发一个什么笔记啊,一大堆,就像蛆一样给他冲进冲过去了。大家注意识别, 如果说你找人选这个东西啊,一定要擦亮眼睛,先问他这个专业问题,看他能不能立马答上来,否则的话都是骗子,真的骗子。 最近因为我前面发了一个打假的,打假的那个,打假的那个, 呃,笔记,雅克有很多同学现在是找别人做的,但是他也让我给他看一下有什么问题。嗯,欢迎大家找我咨询雅克,我这边自己也做这个时政分析,如果有需要的话可以在喜欢的私信我。 嗯,以后会定期给大家分享一些这个时政方面的知识,我们包括数据清洗,当然等我忙完这几天又给大家做一些数据清洗的视频出来,数据清洗还有跑时政的视频出来。好的,谢谢大家。

大家好,我是太空鼠,我们今天接着给大家讲这个系列啊,在这个保姆级实证系列之前,我们讲了这个 啊,数据的一个下载,对吧?数据的导入,数据的清洗,包括啊,描述性统计,怎么做,相关性分析,供应链检验,对吧?然后还有基准回归,是不是这些都讲了?然后基准回归,包括基准回归不显著,我们应该如何去调配这个控制变量,让我们的回归达到我们想要 得到这个显著性的结果,对不对?然后呢啊,做完基础回归之后,我们应该做什么呢?是不是就应该做这个机制分析啊?那么机制分析有两两,两个机制两步嘛?一个是这个什么?呃,中介效应,一个是调节效应,对不对?然后我们今天就来讲这个中介效应 啊,我们这次采用了一篇论文啊,然后给大家去啊,仔细去进行实操,试了一下这个中间效应,如果需要数据也可以去自己去这个复现啊,然后大家可以看一下这些评价。 那么中介效应呢?有中介效应的三步法和中介效应的两步法。那么关于中介效应的三步法呢?他是在怎么呢?他是温钟林教授啊,他在这个二零一四年,在这个心理科学进展上,他发表了一篇文章,那么他发表这篇文章之后呢,我们大家都开始去用这个中介效应啊, 然后中介效应分析,它是研究自变量和因变量作用机制中间的啊,作用机的手段之一啊,中介变量它是在自变量和因变量中间的一个渠道,那么三步法呢?啊,它是一个 三步法,是相对旧的一个办法,因为它是提出的比较早嘛,对不对啊?三步法的话,首先检验的是自变量 x 对 因变量 y 的 一个总效应。首先我们要验证一下自变量对因变量它是有这个影响的,那么这个其实就是我们的基准回归,对不对? 然后第二步,三步法的第二步呢?验证是自变量对于中间变量 m 的 一个模效应啊,就是说我们首先自变量对因变量有影响之后,那么其次自变量对对中介变量有影响,那么自变量如果对中介变量都没有影响的话,何谈通过中介变量去影响因变量呢?对不对? 然后第三步,第三步我们需要检验的是这个第三步,我们需要检验的是啊,进行一个回归模型,构建回归模型 y 等于 e 三加 d, x 加 f m, 哈,然后这个第三步的话,也必须要显著,并且这个符号也得啊相符,这样我们这个中间相应三步法才算成立。那么我们一会可以说一下它具体是啊,怎么样一个显著,怎么样一个符号相符啊?但是当前尽管学者他是 批判这个中介效应的,可能因为呢,中介效应它本身它也不是我们经管土生土长的经济学土生土长的一个方法。中介效应是起源于温温钟龄二零零四年的这个心理科学进展上,这篇文章啊,是国内首个引用量过万的中文论文,但这是心理学领域的论文,它应用在经管领域呢,它可能会有这个严重的一个内生性问题。 然后接下来中介效应的两部法,那么在二零二二年的时候,在二零二二年的时候将停, 将停在这个啊,那个中国工业经济上面,中国工业经济上面发表了一篇文章叫因果推断经验研究中的中介效应调节效应,那么他就提出了一种新的做中介效应的方法,是中介效应两步法。那么中介效应两步法呢?相对于中介效应三步法的话,他会简单一些, 那么中间向两步法它是以将停的方法为代表。第一步呢是本质上还是和文中的一样,是继转回归对不对?探讨 x、 y 的 影响?那么第二步呢?也是探讨 x、 y、 m 的 影响,但他在实证部分,他前两步就已经结束了,但是我们会发现 前两步结束了之后啊,前两步结束了之后,它还有哪一步没有验证呢?是不是中介变量 m 到变量 y 这个渠道是不是还没有验证?中介变量 m 到变量 y 没有验证,那么这个渠道如果没有验证的话,是不是不行? 但它也不做实证啊,两步法它是怎么办的呢?两步法的话,它是通过文献或者理论支撑去陈述 m 到变量 y 之间的影响啊, 然后它优势是避免这个内生性问题,通过分离 x 到 m 和 m 到外的检验,减少因连力偏误导致这个估计偏差。而且呃,中介效应两步法它相对呃做起来的话更容易显著一些,相对做起来更容易显著一些。 那这是 stata 实操啊, stata 实操的话我们一会再讲啊,我们一会根据这个实际的这个结果去讲,那么我们可以看一下,先看一下这个中介效应三步法,中介效应三步法的话,这个是一个 d, i d 是 自变量对不对? 然后音变量是这个 employ 是 雇佣,对不对?首先第一步是自变量对音变量的回归,对不对,是吧?它这个中间效应是数字化转型,大家可以看到,那么第二列是不是自变量对中介变的回归,对不对? 是吧?第三步呢,是自变量对中介变的回呃,自变量对音变的回顾当中去又加入了这个递推式数字化转型这个中介变量。那我们首先啊,第一步它肯定是要正向显著, 那么第二步符号说这个政策是快加快这个速度大转型,那的话,这个符号必须是正的,对不对?然后显著性必须也是显著的,对吧?那么第三步是最关键的, 第三步怎么就算通过呢?首先啊,嗯,他要两个都显著,包括呢符号也是对的。第三步的这个速度大转型,因为本身第二步就是正的,对不对?所以第三步的这个系数也得是正的才可以啊, 然后字边也得是正的才可以,这样才算通过这个三步法,我们可以接下来去做一下啊啊。 然后接下来我们结果解读版,在我们写论文的时候,我们应该如何选择两步法和三步法呢?其实我个人的建议就是说,即使说哪个你能显著就用哪个,因为我们论文其实 是以这个显著啊,为这个是唯一判断标准的,对不对?显著了才能用嘛。所以我们实际写论文的时候,不管三步法还是两步法,其实我们不用考虑太多,说啊,三步法被批判啊,两步法是一个新方法,我们只要是实际上我们哪个显著用哪个啊?三步法能显著,你用三步法,两步法你能显著就用两步法啊。 接下来我们可以举一个例子,我们给大家进行一下实操啊,举例进行实操,然后这个论文的话,我们可以首先看一下它,它这个啊是税收优惠对于这个全要素生产率的一个影响啊, 税收优惠对全要素生产率,我们可以看到这个即转回归,即转回归应变量是全要素生产 lp 法,对不对?然后自变量是税收优惠, 我们可以看到是不是正向的两颗星显著,对不对?对吧?基本回归是显著的。然后它的中介效应呢?是这个专利的数量啊,专利的数量,那么专利的数量的话,第二步它是做的是什么呢?第二步它做的是什么? 第二步是不是做的自变量,对中介变量呀?两步法是不是?第二步对,做的是自变量,对中介变量,所以说是 创新专利作为应变量,对不对?对吧?税收优化就自变,那税收优惠是不是肯定会增加这个专利啊?对吧?所以他应该也是正向显著,对不对?那么这个两步法其实我们已经通过了,只要我们再找一个专利增多,会对企业的这个全要素生产率产生一个影响,能找到相关的理论支撑, 或者说是这个相关的一个文献,那我们就这个两步法就通过了。那我们既然两步法通过的前提下,我们再做一下这个三步法是否能通过,那么三步法的第三步是不是相当于把这个 专利,对吧?加到我们的这个几种合格的模型当中去,在税收优惠后面加上这个专利,对不对?加上这个专利之后呢?哎,我们会发现,首先税收优惠 正向显著对不对?专利也是正向显著,那么三步法明显也通过,那你看这个论文是不是两步法?三步法他都通过了,那么三步法相对两步法我们不用找文件支撑是不是?所以是不是会省事一些?所以这种情况下你就可以去使用三步法,那么实际当中三步法和两步法的一个使用的话,就根据自己的这个实际做出来结果选择就可以了。啊。 好,我们今天就到这里,好,谢谢大家。接下来我们下一节课我们会跟这个调节效应应该怎么做?