粉丝121获赞225

哈喽,大家好,今天给大家分享的是 stat 的一个小技巧,最近可能很多人开始写毕业设计,好不容易跑完模型,做出结果来,还需要制作一堆各种形式的表格, 比如说啊,我打开这篇论文,然后这里人家做的是逐步回归模型,一共是做了四个,那么可能我们很多人都是啊,比如说这是回归系数,这是标准差啊,都是一个个的数字粘贴或者是打进去的,然后再设置保留几位小数。 实际上呢, theater 有强大的输出武器,可以很高效的输出标准化的结果,为我们节省不必要的手工调整时间。那么今天这期视频呢,就给大家进行教学示范,希望对大家有所帮助。那么这个命令呢,就是 esttabstf, 可能很 很多人都已经听说过,只是实际操作不太熟练,那么废话不多说,我们就直接开始吧啊,首先呢,我们打开我们今天用的数据集, 我还是跟之前一样,会把我用的每一个命令都放在左边啊,右边是输出命令的地方,这样方便大家对照学习。之前好多人说我用 word, 嗯,放命令 特别不专业,不正规,我我就觉得反正大家只要能学会能看懂就行。但是既然大家提了这个意见,那我就 呃改正吧,所以我现在把命令就放在度命令里面了啊。首先我们要导入我们的数据集,那么这也是我们的汽车数据,是我最常用的一个教学数据,我们把这个命令复制,要用系统自带的数据,方便大家可以跟着我一起操作和学习啊。 我就随便选择了几个变量,我选择的被解释变量是价格 price, 解释变量是这三个,然后我们做主,做主部回归模型啊,一个一个的变量放,就跟呃这种比较常见的这种呃报告结果一样。首先呢,我们做第一个回归模型, 我们这里就快速输入,比较简单,然后我们 est 把这个模型 m 一保存下来,然后我们再做底,我们再放第二个变量,然后把模型二保存, 再放第三个控制变量,那第三个变量吧,放进去了之后,然后把 m 三魔性三保存一下。 呃,这里我首先来讲 stap 最简单的一种命令形式,然后我们再逐步在扩展,首先我们就直接输 stapm 八, m 一二三都呃统一把它 显示出来好了,我们看到我们初步的结果出来了,然后这个我们是回归系数,然后括号里面他在下面报告了,括号里面是我们的 t 指,默认是 t 指,然后后面的信号就表示是否显著, 嗯,是比较常见,是系统默认的一种形式吧。那么接下来呢,我会在呃这个 stopping 后面的各种 optons 进行重新设置更改,添加一些统计量 啊。首先我们第一步我们要添加壁纸和调整二方,因为这两个是在我们写论文中经常需要报告的一个纸, 我们直接在后面加上 pa r 二就可以了。这个命令复制 好了,我们可以看到跟上面的区别,上面的括号是 t 指,现在括号就变成了 t 指,然后后面呃之前只报告了,嗯,现在报告了调整而方, 因为我在后面命令加了 p 和 a r 二。然后这个也比较简单啊,那么以上的书结果我们看到啊,小数位呢?尤其是这个小数位,呃,就小数点后标保留的位数是不一致的,他是三位小数,他是两位,但实际上保留几位小数我们也是可以设置的, 我们主要是,呃,我们主要是回归系数和 b 和 p p 值这两个需要保留几位小数, 还有 l 二方。所以我们接下来在后面输入这个迷你, 在上面的迷你基础上呢,我加了一个 bp 啊和 a r 括号后面的四,我们先输入进去,大家看就知道了。我们看到,哎,他现在已经保留了四位小数,然后我的 p 值也是四位小数,后面的这个 r 方呢,也是保留的是四位小数, 那么这里的呃 b 就是回归系数, p 就是我们的 p 值, a 二二四代表不了四位小数,然后前面的六呢,就表示的是整数部分可以达到六位。那么如果,呃,我们 我们要学会以一反三吧,如果说我们比我们要保留三位小数,我们只要把这里的四改为三就可以了,我给大家试一下吧,大家演练一下。 最常见的是保留三位小说,这里改成三,哇,这也是改成三, 三,好,我们看到呃,调整二方,回归系数和 p 值多是保留三位小数了。嗯,所以这也比较简单。那么除了添加各类统计量以及显著性水平,要保留几位小数之外,我们还可以对它的格式进行变化,我们可以看到这里, 这里,他的这里是模型一二三,然后这个中间 就是摸心和摸心眼,中间是不是范围太大了,我们可以消除这之间的一个间距吧。嗯,然后我们接下来继续输入命令,我们要在这个命令的基础上在后面再加,我不是,这是我们原始的, 不要中间的这个间距,加这个命令。然后还有就是,呃,他是模型一二三,我们就 m e m l m 三这样子的设置抬头, 然后这个是,比如说这个是第一个,你的第几个表格,你就是加一个 titletwitches。 好了,这样子我们输回车键, 我们就会跟到在上面的基础上呢,首先一二三变成了模型一二三,然后接下来呢就是正中间的这个间距,呃,我们拿近了,呃,这样子是可能看起来会比较熟, 舒服。然后括号里呢?呃,报告的是壁纸,我们之前报告的也是壁纸,然后下面还报告了 a r 发。那这个是不是就是我们啊,非常之常见的一种报告回归结果的一种形式呢?是不是就很简单了? 那么接下来呢,我们做到了这样子,但是我们想把它直接导出来,该怎么导出来呢啊?接下来就是最后一步,把这个结果导出来就行了。呃,导出命令是最简单的一种形式,是这样子的,是这里 这种最就是最简单的,但是,但是我们也看到了,呃,我们后面还要加一定的 options, 所以我们要把这后面这些 option 都复制过来,嗯,放在后面标准符号也要。 然后这里我们最常见的,我给大家做一个最常见的形式吧,最常见的我们是保留三位小数,保留三位小数,二二二,也要报告保留三位小数,然后中间是没有间隙的,然后模型是大写的 m 一, 哦,不对,呃,我是习惯性大写 mbm 代表默写,但是我们还是用英文的吧,这个就这个就不变了吧,还是这个魔斗一比较合适。 模型一二三,然后 tambo tambo 一,我们要一般常见的是报告,我们的回归 系数,括号里,括号里,我看微信里面括号里,括号里的是标准差,那我们这里的批 应该换成 s e, 我这里应该加一个 s e 报告, s e 系统默认是报告的,是配置,我们这里加 s e 就标准哦,就代表报告的是标,标准差。然后这里也记得一定要改 s e, 保留三位小数, a r 二,也保留三位小数,不要间隙。 然后模型的命名是 m 一,呃,模型一,模型二,模型三,然后这个表格是 twitter one。 呃,表格一 啊,这种是最常见的一种报告结果的形式,我复制一下,大概就这种形式,我们回车,然后这里就回归结果,就报告在这里,我们可以直接点击这个,打开,就直接在位置里面就可以显示了, 你可以看到。嗯,这种跟这种文件就是特别类似。这里就是模型一二三,然后违规系数,然后这个是显著性,这个是零点三七七,这里报告了是标准差,别人的这个也是标准差,这代表什么意思?就是比较简单 是不是, 是不是比较简单呢?那么今天这期视频呢,教学就到这里了,但是这篇文献用的固定魔性, 呃,我因为我没有做固定面板的固定模型或者 gmm 用这种命令能否成功导出啊?等我试验的,如果可以成功导出的话,我在评论区给大家回复一下,然后反正啊这个命令这种形式大概就是这些,我觉得大家可以先把这个命令学会,然后再 举一反三,如果有哪里讲的不合适的,或者是,嗯,大家觉得还有更好的方法的话啊,希望大家可以在评论区留言,然后如果觉得有所帮助的话,希望给我一个免费的赞呀,然后谢谢大家。

大家好,欢迎来到赛塔数据分析入门课程,我是车水老师,本节课我们来讲一讲如何用赛塔进行回归分析,主要分为三个部分,第一部分是一元线性回归,第二部分呢是多元线性回归, 第三部分呢是我们回归之后如何将回归结果进行整理和输出。 首先我们来看一元现行回归,它回归的主要命令呢就是 regrets, 它的简写形式就是 read, 就 r e g, 然后他的使用方法呢,就是先写音变量,再写字变量就可以了,就非常的简单。然后呢,在回归的基础之上,我们要学会给他添加一些选项, 比如说比较常用的是这个肉 boss 的这个选项,他的意思呢是运用稳健的标准物来避免一方差的问题。好,我们来用 c 塔来,嗯,演示一下如何进行回归,首先打开 c 塔, 然后打开度文档,然后还是要先保存一下这个度文档。 好,那我们先调用一份那个汽车资料的数据, 好疼,口臭低运行一下。好,然后 siris 一下,那比, 比如说,呃,我想知道这个呃车的重量 和这个价格他有没有关系,有没有正相关或者复相关的关系。那首先呢,我可以就是用一个散点图来看一下 啊,先写你的想做的一面,那是 price, 然后重量位, 那我们发现呢,他其实是有一个类似于正相关的关系的。然后在基本图形分析那一节课呢,我们学过,就是用散点图 图同时如何给他加一个礼盒,趋势线用的是凸位,然后后面再加一个 l feet, 发现他这个你和去世线呢,其实是嗯,倾斜向上的,所以我们就就 嗯猜测,可能这个重量和价格呢,他有一定的正义相关关系。那我们可以用回归分析来看一下 rag regrets, 然后音变量呢是价格字变量呢是外层。那我们来看一下结果。好, 那我们发现的这个位的这个变量,他的批值是呃零点零零零嘛,所以他这个重量这个变量呢是在百分之一的显著性水平下和 价格正相关,因为回归系数是正的,按二点零四四,所以他是嗯 和价格证相关的,也就是随着这个汽车重量的上升,价格其实也是会上升的。 好,这就是非常简单一元线性回归。一元的意思呢,就是它有一个自变量,在这个方程里面,我们的自变量就是一个位特这个自变量,所以叫做一元线性回归。那如果我在后面想用稳健的标准物来估计呢,我们可以在后面 加一个肉把子的选项,然后运行一下,就发现他这里和这里的 不同在于这个回归系数都是一样的,然后踢,呃,然后这个不同点在于这个标准物不同,比如说之前的 啊,普通标准物估计的这个标准物,这个卫色标准物是零点三七六八,然后现在呢是零点三八九七,所以说这个 稳健标准物的回归呢,他就是通过改变我们的标准物,然后嗯来实现这种 避免一方插的这个功能。好,我们再来看一下多元现行回归, 多元现金回归呢,就是在一元现金回归的技术上面再加入其他的自变量,比如说刚刚我我们只有一个自变量,那就是呃 wait, 但是呢, 我就是不只为可能,其他的自编量呢,也都也会对这个价格产生显著的影响,那我们就可以考虑把其他的自编量也加进来,比如说呃 mpg, 然后长度 nice place this。 那我们来看一下,结果 你就发现呢,呃,这个他的 r 方呢是三五七六,说明百分之三十五点七六的数据是能被这个模型解释的。但是我们再来看这个系数的显著性水平的时候发现, 就是比如说这个重量,他是在百分之一都显著性水平下显著的,但是 mpg 这个变量呢,他的皮质是挺大的,他大于零点一了,说明他不显著,然后这个 desplaysment 呢,他也不显著,零点批值等于零点八七六了,也很大。 那我们在这种情况下如何能筛选显著的变量加入这个方程呢?我们可以用逐步回归法的方法来进行。逐步回归法的他的命令呢?是啊,在 rap 前面 再加一个 swsw, 就是 sws 的简写缩写叫 sw。 然后后面呢是正常先写应变量,再写所有的自变量,然后后面要添加一个选项。 pr 的意思是呢?是嗯,逐步回归法,他的 意思呢,就是要把不显著的变自变量给他剔除。那我的这个标准是什么呢?就是我的 啊,批值如果小于零点一的话,那我就把它剔除,但是这个零点一是自己设置的,也可以设置成,比如说我批值只要小于零点零一,那我就剔除,那这个 pr 里面括号里面的数值就变成零点零一。 那比如说我们在这个回归里面,我们将把这个把皮纸小 零点一的都给他删掉,就是用逐步回归法的话,那后面是皮啊 一点一,然后我们来运行一下, 好,然后呢他就发发现了这个逐步回归法的,嗯,结果只剩下魏特愣两个变量自变量了,他前面也会给大家写,就是 因为这个 displacement 它的批致是零点八七五七,是大于零点一的,所以呢就把它删掉了,然后,呃, mpg 的, 呃,这个壁纸呢是零点三零四七,其实跟上跟刚刚这个是一样的一点三零五和零点八七六,所以就删掉了。然后呢只剩下了 这个 witzelans 两个自变量是显著的,所以他就只加入了两个。然后我们在平时分析的时候呢,也比较经常用这个逐步回归反的方法。 好,我们学会回归之后呢,我们要学会就是如何把这个回归结果来整理出来, 嗯,像论文里一样那样显示我们用的是 estam est tem 这个命令,然后他的使用方法呢是,比如说我要将这两个回归结果给他列出来,那我在回归完第一个之后呢,要把第一个回归保存 啊,保存的命令呢是 ests do, 然后保存。比如说我要取个名字,把第一个回归的名称叫做 m 一,然后把第二个回归的名称呢叫做 m 二, 然后呢我用这个一 esttab 呢,就把 m 一和 m 二给他列出来,就非常的美观,我们来试一下,比如说我,我第一个回归是,嗯,我把这两个给他复制下来, 比如说我第一个回归是这个 price weight 的一元回归,然后呢我给他保存一下,然后第二个回归呢?是这个多元回归来保存一下 m 二,我想把这两个回归结果给他列出来,就用 esttabm 一和 m 二,让我来运行一下 这个 esttabmem 二,他的结果是这样的,就这个就很和论文里面的格式非常非常的相似了,那我们论文里面呢,也是用通过这种方法来给他来把结果给他输出的。 嗯,然后呢, 呃,我们可以对这个结果进行进一步的美化,比如说这两个中间呢,他这个距离很大,我不想要这个空隙,那我们可以加 thumppress 给他压缩一下,然后不要这个空隙,用弄盖这个是呃这个这两个选项, 然后我们来看一下,就发现已经没有中间那个空隙了。然后 还有一点是他下面的这个小字说括号里面是贴纸,那如果我想在括号里面放的不是贴纸而是标准物呢?我们可以加一个 se 这个选项,那括号里面就是标准物了,来试一下, 然后你看这现在的话,括号里面就是标准物了,他下面的提示也是。 然后还有他说,呃,一一颗星代表的是零点百分之五的显著性水平,如果两颗星呢代表的是百分之一的显著性水平,三颗星代表的是百分千分之一的显著性水平,如果我想改这个星星代表的含义的话也是可 可以的,我们有一个 star 的选项,然后后面呢是比如说我们平时用的话,一颗星代表的是百分之十的选中性水平,那一颗星后面要加一空格,然后再加零点一。两颗星呢代表的是 零点零五, p 小于零点零五,然后呢三颗星下面就是 p 小于零点零一,那就是现在的四二,就是这样定义的,然后我们再来运行一下。好, 现在呢,下面这行字就变了,一颗星呢代表 p 小于零点一了,然后两颗星代表小于零点零五,三颗星代表零点零一,和我们这个设置的是一样的。然后还有的是还有一个呢,是这个,它下面只显示了观测值,如果我想显 是儿方也是可以的。我们再来添加一个选项,我们用三个杠来给他断航一下,然后再加一个选项呢是,嗯, scandals 意思,意思就是这个括号吗?括号里面要加的是除了恩之外,我还想加阿尔方,就把这个阿尔方给他加进来, 那你看后面呢,就会加进来每一个模型的 r 方了,当然还可以加别的,比如说俺家联合现中心的 f 值,再加批值, 这样也是可以的啊,这就出来了,这个相对来说就比最开始那个要美观很多了。然后呢,除了这个之外呢,我们还要学,呃,哦,对, 还有就是比如说我用这一 ttab 这个命令给他列出来之后呢,如果我想把这个结果直接导出的 word 怎么办呢?我们可以用后面。 嗯,在导出 m 一 m 二之之后呢,我们用一个 using, 然后给他直接导出成 word, 比如说我给这个 word 起一个名字呢,叫 mm, 然后后面呢添加一个后缀是 rtf, 这个就是 会导出成沃尔的格式来运行一下,然后点击这个蓝色的字,他就直接打开成沃尔的了,就意味着我们刚刚这个表格他就直接导出,我非常的方便,那我们直接用这个表格就可以插入论文,然后再来写作了。然后 还有第二种导出的方法呢,是用 log out 这个命令,然后使用的方法呢是 log out, 然后逗号,然后保存你的这个名称,然后保存,然后沃尔的格式,然后 replace, 然后再把后面的这个回归给他,加上 这个和上节课讲的那个相关系数矩阵,他的导出方法是一样的,我们来试一下 logos, 都好 safe, 比如说我还是叫艾玛啊味的没开始,然后冒号,比如说我要把这个 这个回归的结果导出,我们就在冒号后面加这个回归运行一下,然后。

我们今天主要来说一下,当我们去做时政性论文的时候,导师或者学校要求我们去做 state 面板数据回归的时候,我们要去做的一些板块。那么首先的话就是说我们面板数据的一个适用性,它的话比较适用于我们的金融、经济、会计、统计等等这些啊,偏经济类型的这个专业, 我这些专业的话,可能,呃做这个面板数据回归的话,他的嗯通过率会稍微高一点,那么下面的话就是做这个输了面板回归的这个主要内容。咱们这一次的这个 呃视频的话,主要是针对我们的这个说论写作的啊,主要是针对写作内容去进行的一个说明。那么我们写作内容的话主要分成这以下八个板块, 第一个描述性,第二个多重贡献性,三相关死模型啊。到第八个,那么我们针对每一个板块进行一个简单的说明。首先就是我们的描述性分析这块,我是截了一个已经发表的这个论文,那么这个文章的话,呃,我们看一下描述性分析,一般情况下他的这个模式就 下面这个图表,哎,他第一列就是咱们的变量,第二列是个数啊,就是你收集了多少组数据,然后我们一般情况下去标注的数值就是极大、极小和均值标准差,那么通过极大值、极小值还有我们的均值的话,我们大概就能知道这个变量他目前处在哪一个。呃,分级上, 比如说我们这个 to be q 值,他指的是这个企业绩效,那么我们看最小值零点七,最大值十三,他的均值在百分之,呃在二,那就说明我们所收集的这个研究对象,他整体来讲企业绩效是处在较低水平的,对吧?他二和零点七,呃,零点七和十三,哎,我们去去取他的均值的话,可能在七左右 啊,六左右,那么呃实际上他的均值在二,那他远远小于我们理论上算出来的均值。所以啊,这块的话,我们可以通过这种就是比较简单的方式去描述一下。那么标准差的话,他指代的就是我们说了我的整体他处在一个中等偏下的水平,那么各个企业之间的差异大小情况是怎么样的?我们就从通过标准差去进行一个说明,标准差 他越大,说明各个企业之间的波动程度越大,这是这个描述性分析。那么描述性分析他的目的主要就是去说一下我们整体收集了一份数据,那这个数据假如说我们是对企业去进行描述的,那我们收集了这些企业的分布情况,大致一个怎么样的一个情况?有没有一些极端值? 比如说这个透明 q 值,我们都知道企业绩效,那如果说我有一个极大值,他是几千或者几万,那可能这块就有点问题。我们通过这样子简单的一个排布就能够看出来我数据第一个我数据有没有问题,第二个我数据的这个均值情况,他是否符合现状啊?跟现状去对比一下,如果跟现状严重不符合的话,那也说明我们的数据是有问题的。 所以这块的话就是去简单看一下数据的分布情况,看一下数据是否贴合实际情况,那么我们做描述性分析代码的话,这是一个呃简单的代码,然后第二个的话就是多重贡献性检验,这个的话,嗯,其实有一些争议,就是有些人觉得呃不应该去写这个多重贡献性,就没有必要去写,有些人他又觉得这个多重贡献性 他是呃比较有必要的,那么我们在这块的话就可以根据实际情况啊,就是说如果我们你可以看咱们学校呃历年来的一些文章,他有没有写这个都是关键性,如果没有的话,那咱们也可以不写,如果有的话我们就给他加上,或者后期导师要求加上的话,我们就给他加上。 那么这个多重贡献性的话,他的本意是想去说我所选择的这几个变量,他的多重贡献性就是他的,他们之间没有一个强相关性, 那呃啥意思呢?就是说假如说我选了 x 一到 x 七七的变量,那如果说我 x 一和 x 二它们两个的这个相关性非常强,比如说 x 一和 x 二相关性零点九几, 那那是不是就说明 x 一和 x 二他们所解释的东西啊?有百分之九十的这个信息都解释的是同一个,那我 x 一 x 二保留一个变量就可以了,对吧?那多重贡献性的话,他其实就是去呃降低因为变量和变量之间相关性太高而导致的。对,最后我们的回归结果的一些差异,那么我们通过多重贡献性检验, 我们主要是通过这个 vif 的值,如果 vif 是小于十的话,我们就认为没有严重的都是贡献性,那如果有的话,我们就得把有都是贡献性的那个值给他剃掉,然后他的代码啊,就是这个代码。 然后第三个的话就是咱们的相关性啊,相关性他的表格的话展现就是这样子,一个倒三角的形式,然后里面的这个值的话,就是我们的相关系数啊,一般是负一到一之间,那这个相关系数的话,嗯, 也是有一些问题,就有些人觉得相关系数是不是越大越好,或者啊负向的越大越好,其实这个值的话就是多少就是多少,我们主要看后面的这个显著性。当然如果你的相关性太大了,他并不是一件好事。就我刚才提到的,如果相关系数,就你的所有变量之间的相关系数,他都非常大,比如说都大约的零点八、零点九, 那么我们就可能啊变量之间存在这个严重的贡献性,哎,导致你后面的结论可能有问题。那么我们一般的这个思路就是我先做一个相关,然后我通过相关发现,哎,我的这个系数啊,我的相关系数的话,他都比较正常,就是,哎,零点几啊,零点一, 一级,二级啊,三级啊,这些其实都正常的啊,如果没有那种满天都是零点八、零点九或负的零点八、零点九,那么我们就不用做,都是贡献性。如果你满天都试的话,你就得做一下,看看要不要去提出变量, 这是相关性分析。然后这是他的一个代码啊,这个代码简单说一下,这个前面的这个的话就是他的命令,然后后面这个变量的话,就是你要做相关性的所有的变量,把他的名字给他打上去,然后销会说啊,他就会输出来这样子的一个表格。 然后接下来的话就是我们要做回归分析,那么相关性分析论初步论述了两两变量之间的一个相关性,那么我们要进一步去论证因果关系的话,是要去通过回归分析。那么面板数据和洁面数据不一样的点就在于我们在用 面板数据去做回归的时候,是要有一个检验的,就是面板数据他有三种模型,第一个模型叫做固定效益模型,第二个叫做随机效,第三个叫做混合效益模型。那么这三种模型的话,并不是说我预先一开始我就知道我要用哪一种模型,然后我就直接用,他是要根据我们的数据去进行检验,然后 得出来我的数据最适合于哪一种模型,它是这样子的一个思路。那么对于我们经济学来讲的话,我们一般情况下用到的模型最常用的就是固定效率模型, 然后对于一些比如说,呃,心理学呀啊这些这些专业的话,他可能就更常用到的随机效应模型啊,最少用到的就是咱们的混合效应啊,如果用混合的话,那其实可能就说明我们的这个面板数据他,嗯 啊,这个不太适用于啊,不太适用于去做一个面板数据了,所以在这块的话啊,有一个这个模型检验的这个图,这个图的话就是我们分别要做的检验,然后这个 f 检验的话,我们只带就你做 f 检验,可以从这两个模型里面去挑出来一个你,我们就发现这个检验他只能从凉凉里面去挑,所以 我们要从三个模型里边挑出来一个最适用于的模型,最适合的模型的话,我们至少得做两次检验。那比如说我先我一般的,我们一般的常规速度,因为咱们是固定小于模型,就是这个 f e 模型,这个是固定小于模型,然后这个 p o l 是我们的混合 r e 的话是随机 效应模型,那我们一般呃选择的是固定效应模型,所以咱们的顺序就是先做一个 f 检验,那么做 f 检验我们显著呃这个 f 检验的这个结果通过了,那么我们就说我在呃固定效应和混合效应模型里面选择了固定效应,但是随机效应我们还没有检验,所以我要再进行一个 hostman 检验, 进行下面的这个笔检验,那么下面的这个检验就能从固定和随机里去挑出来一个。当你的 f 检验和 hostman 检验同时都通过,就是 p 值小于零点零五的时候,我们就选择固定。当你 f 检验通过, hostman 检验没有通过的话,我们就选择随机啊,这是这个,然后分别呃下面的话分别就是它的两个代码, 然后这块有我们需要改的就是这个 y 指代的就是咱们的音变量, x 指代的是自变量,到时候我们要把对应的自己的 y 和 x 带入就行,下面也是一样的, y 和 x 是要变的,其余东西都不用变。下面的话就是咱们的回归分析啊,或者说啊回归分析里面我们包含一些中介机制呀,调节机制的检验,那么我们一般会把表格做成这样子的一种形式啊,做 这种形式,然后他的这个,嗯,代码的话,我们就在这边啊,一般情况下我们选择固定效应模型的话,就上面这个代码,当然这个代码的话,他他并不是说唯一的这个代码是最简单的一种代码,就我们直接一看我大家就能记住了,哎,这就是做固定效应模型的一个代码,那么如果我们想通过代码把这个输出的结果,因为他用这个代码输出的结果,嗯,非常的这个 就是不像,不像这块这么美观啊,不用你再去调整啥,你这个做出来的那个表格的话,他还需要你后期进行整理,整理成这个样子,所以啊,这个这个代码他就不是唯一的,我们还有一些其他的代码,但是比较复杂一点,他能够帮助我们去把表做成这个样子啊,这是我们大概了解一下, 这是回归分析,那么回归分析的话,我们主要就是去解释在这一块的时候,他就跟相关系数,相关分析那块不一样了,那我们通过相关分析可以简单的去描述一下边两两两之间的一个相关性,那么在回归的话,你就重点得去解释一下我们的回归系数是正的还是负的啊?是大于零还是小于零,然后解释它的显著性是 在多少的水平下显著,对吧?然后括号里的值,我们一般把它叫做呃 t 检验的值,这个值其实跟星号他们两个所代表的呃就是他们俩,他们俩所所展现的内容其实是相同的,都是在说我得到的这个回归系数他是显著的, 然后呃基本上星号和这个 t 值是呃对应关系啊主,然后如果,比如说我们自己的数据呃不太显著,然后有人把这个数据给他改了,哎,比如说,比如说这个值对吧?负的零点五六二六,那他本来是不显著的,然后我们呃可能有些人把它改成了显著,然后他下面的 t 值没有改那么一眼,那就是咱们了解 stata 的人一眼就可以看出来这两个是不对的啊。这是这个回归分析 下来的话,就是咱们的一个稳健性,检验稳健性的方法非常多。啥叫稳健性呢?就是我用另外的一种方法去验证一下我刚刚得到的这个结论是不是正确的,或者说我得到的结论是不是一个偶然性的结论。那么我们稳健性的方法的话,就比如说最常用的替换变量法,第二个的话就是改变呃 年份,就比如说你原来研究的是呃一零年到二二年,那我现在把它改成一五年到二二年,再次做上面的回归,看一下结论是否一致。那么替换变量法的话,顾名思义就是把我们某一个关键变量的量化方式给他换掉,那么咱们一般替换变量主要是替换音变量, 因为应变量是贯穿始终吗?不管你哪一个分析,他应变量都要参与,所以我们一般就把这个像这个企业绩效,他原先用的是这个 topico 值,我们就可以把它换成比如说这个企业的资产报收率啊,企业的净资产收益率啊等等这些指标。那么把这些变量换掉之后,我再一次去做上面的这个回归,看一下结论是否有差异 哦,但是要注意的是这个结论是否有差异,并不是只代到我的回归系数一定要相同,或者我的显著性一定要相同,这块指代的就是我所用两组数据做出来的结果。哎,他的正负性是否一致啊?他的显著性是否都显著,不用去管那一颗星,两颗星还是三颗星,只要他都显著就行,这是稳健性。嗯, 我们先从这个内生性检验的含义来讲,他就是说这个模型中一个或多个解释变量与误差项存在相关关系,那么说白了,这个解释变量就指的是咱们的音变量字变量,误差项指代的就是我们对音变量有影响的其他变量。那我举个例子,比如说我们去论证学习态度对对学习成绩的关系,那么 存在内生性的这个从他的含义来讲的话,就是我们的这个自变量学习态度和影响学习呃,成绩的其他变量存在相关性。如果有这种关系的话,我们就说,哎,可能会存在内生性问题, 那么呃,他并不是说,哎,他这个含义是这样子的,但是并不是说产生内生性就只有这一个原因。我们产生内生性的原因非常多,这里我们主要说 写作过程中最常遇到的第一个叫做遗漏变量。这个遗漏变量的话,其实就是在说我们文章中,因为你一篇文章研究的内容是有限的,你不可能把所有的东西都研究透,所以肯定会存在遗漏变量问题,那么你遗漏的那些变量就可能会与你的字典 有关系,就我刚才说的这个学习态度,他可能和一个我们没有研究到的,但是能够对音变量学习成绩产生影响的啊,有关系,他们俩有关系就可能会有内生性问题。 第二个的话就是互为因果,互为因果的话就是主要指咱们的呃解释变量和背解释变量,也就是字变量和音变量之间,我们理论上是认为字变量去影响音变量,就学习态度会影响我的学习成绩,但是有有很多情况哎,比如说我觉得这个例子 反过来也是可以的,就是当我的学习成绩比较高的时候,我的学习态度其实也会有一个变化,这个就是互相影响,互为因果,那么互为因果的话,他也会导致我们的内生性问题。当然还有一些其他的,我们这里就比如说一些呃存在测量误差呀等等等,我们在这块就不再去赘述,因为他呃没有办法解决啊, 就是在我们的写作过程中。然后第三个的话就是我们当我们存在内生性的时候,我们常用的最常用的办法叫做或者说呃文呃写作过程中最常用的办法叫做工具变量法,但是还有些其他的,我们这块就不过多展开。 然后我们对工具变量找寻的要求的话,有下面这两个要求,第一个的话就是要与 x 有关,第二个与 y 呃影响 y 的其他变量无关,也就与我们的残差项无关。那么这块怎么样去解释呢?就是内生性问题,我们用工具变量法去呃去检验它的时候的逻辑其实是这样子的, 是我们现在说 x, 它和我没有研究到的,但是能影响 y 的变量,它有关系,所以导致了内生性。那我现在能不能去找一个工具变量,它既能够, 嗯,跟 x 有关系,就是它既能够代替 x, 然后它又与这个影响麦的其他变量无关。那如果我能找到这个变量的话,我就可以拿这个工具变量指代我的字变量去进行回归分析,那这样子的话 就能够确保我的这个自变量就是咱们的工具变量,到时候就变成了自变量嘛,就能够确保咱们的自变量和呃残差效是没有关系的,那这样子就能够确保最终的结论他是不存在内生性的呃,但是往往呃我们工具变量的找寻的话,它的难度非常大。就是我们 如果是说论或者不是论文,甚至本科论文,如果我们要去做内生性的话,其实一般都不建议我们自己去创造这个工具变量,我们一般都是去别人的论文或者文章里面去找,比如说我还是刚才的例子,我们去验证学习态度和学习成绩等。然后现在我导师说了,这有内生性问题,你得去找一个工具变量, 我们就在织网里这两个变量作为关键词,去搜别人研究的相关文件,去看一下别人在去解决内生性问题的时候用了什么变量,我们直接照搬过来啊,当做我们的工具变量直接去进行使用就行。 下来的话就是最后一个我们的抑制性分析啊,抑制性分析的话他呃就比较简单了,他实际上就是把研究对象去分类,然后重复的进行回归分析,他实际上,呃,因为有,有时候有有些人把抑制性他叫做检验,严格来讲的话抑制性我们一般是一个分析的内容,就是我对回归分析的进一步说明,那我回归分析,假如说论证出来 这个自变量对音变量有一个显著的正向影响,那我的意志性就是我把我的研究对象给他分成呃细小的类。比如说刚才是对企业 进行分析的,那么我们把企业分成了这个江苏,把企业按照不同的省份给他分类了,分成了江苏省和浙江省,那么我对不同的省份去进行一个回归分析之后发现,哎,是不是浙江省和江苏省他们两个之间的回归结果是有差异的?那如果有差异的话,我就要去解释一下为啥这两个省之间有差异。 当然这个分类的方式的话,他并不是唯一的,也不是说固定的,我们要根据自己的研究内容,比如说你是企业,那你就可以分成国企、非国企,那如果你是研究污染相关的,你就分成污染企业和非污染企业,还有咱们的一些呃,大规模呀、小规模呀,甚至企业成立的时间等等。

大家好,今天主要介绍一下分组回归和他系数比较的一个检验,然后这边的,嗯,主要问题的引入的话就是说比如我现在 来读大学和不读大学对未来薪资的影响这个东西我们就可以用分数回归来做。那我的一就是我读大学这里的这一行就代表的是我们不读大学这样的一种零一虚拟变量 就可以进行分组回归,然后这边的外和 x 就分别代表我们的音变量和字变量,前面是 xi 冒号,然后的话这这两行的话他都分别代表的是我们把它储存为 a 和 b, 以便于最后我们输出在一张表格之中。 然后这个的话就是我们之前讲过的一个如何输出在一张表格中的一个常用代码,然后他输出来的结果一般就会是这个样子,就会是这样 的一张表格。然后这边的话就是说我们这样做出分子回归来,说之后的话就是那个系数他是否可以检验的话,我们这里用的是一个四五相关检验,用的是代码是 b 点 f f, 这个的话我们需要进行一个命令的安装,就用 ss in store, 这个也是之前讲过的, 然后 bdf f 逗号,然后这里写我们要分组的那个分组变量,就是我们这的分组变量,然后 model 里面就是我们的 rix 这部分,然后后面写一个 surtest, 然后这样检验出来,只要是拒绝 p 值 小于零点零五,就说明拒绝了演讲社,说明我们的系数可以进行比较。好,这个就是我们今天的介绍,谢谢大家。

哈喽,大家好,你们是不是也经常在做各种模型的时候,好不容易跑出来了,结果主要解释变量却不显著,甚至没有一个变量系数是显著的,又或者与以往文献结果相背,这个时候就会很头疼。那么针对这种情况呢?我的建议是,首先从模型角度 检查你的模型是否完全合适你的数据情况,每一个模型都有很多参数可以调整的,你可以多去尝试,然后回归模型有很多种,你也可以考虑换一个模型。 不同模型针对的问题不一样,但是本质上都是回归,就看你自己怎么抉择吧。其次,从数据角度,你可以先和以往文献选取数据比较是否有什么不同,比如同一个变量是用的不同数据来衡量的,或者是统计口径不一致,还有衡量方式,这些都有可能 影响到你的回归结果。所以从这个角度来说,你既可以改变数据形式,比如是否取对数,可以缩尾处理,踢除极端值可以踢除或增加某些控制变量,可以选取部分年份或者个体。但是不论你选择哪种方式处理数据, 一定要想到合适的理由,不然容易被质疑的。如果以上都调整修改过,还是无法做到显著,我们应该学会去解释,可以从理论角度,也可以从数据角度, 从选取模型角度去解释你的结果和以瓦文献不一致的原因。不显著不代表就是没有关系,显著与否只是从统计学角度来说的,并不是理论角度就一定成立, 我们只是通过目前的数据情况不能证实,但是也不是否定。最后我想强调的是,哪怕结果不显著,不代表你的就是错的,或 者这个结果就没有意义了。我们要学会分析为什么会出现这样的结果,如何来合理的解释目前的结果,希望大家都不要被显著性牵着走了,那么这期视频就到这里结束了,谢谢大家。

大家好,首先呢非常感谢呃各位读者,各位朋友选择呢我们呃这本 stitch 的相关的一个图书进行学习。首先呢我们也进入第一章,第一章呢是讲解了这个 stitch 的基本的操作,以及这个数据处理的相关的一些基础的知识 啊,也是 state 入门的一个最基础的一个东西,所以说大家一定要认真掌握。首先呢关于 state 介绍呢,其实不论是这个互联网上,还是我们在这个日常生活当中,可能大家都会设计的接触的, 那么但是在这呢,因为这个设计了入门的一个讲解呢,我还是简要介绍一下啊,关 s data 呢,它是目前最流行的计量软件之一啊,是一种功能非常全面的统计分析包,统计软件包,它呢容易操作啊,非常 容易操作,一般呢可以通过菜单,也可以通过命令啊,国内的读者呢,其实更熟悉的是通过命令见面呢,相对来说呃非常友好, 运行速度也很快,然后功能很强大啊,这个里边呢,本身呀,他就有一套这个预先编排好的一些分机和分析和数据功能,也就说读者可以直接输入命令,就可以调用相关的一些分析的程序完成相应的操作。同时呢,如果说这个预排的这些 分析要数据功能不能够有效的满足用户的实际的需求,那么读者呢,还可以根据自己的需要自己来编制程序啊,自己编制程序,然后用来分析自己的数据, 所以说他是一个非常开放式的一个软件啊,也是那个就是呃具有这个持续可优化空间的这么一个软件,所以 说呢,就是啊,自从这个软件被引入到我国之后啊,呃,不论是这个学者研究者还是我们这个企事业单位的很多的这个数据分析者都是非常认可并且愿意使用这种 state 在统计分析软件来解决自己的学术研究问题或者说应用实践问题。 呃, sd 的十六点零呢,是这个目前的 sd 的流行版本,呃,最新的呢,根据我的自己的了解啊,可能是出到了十七点零,但是十七点零呢, 并没有在中国范围内的广泛的这个应用开很多。这一个呃读者装的软件版本呢,可能还是十六点零啊,所以说呢,我们还是基于十六点零的这一个呃操作进行一个这个软件版本进行相应的一个介绍。 首先呢,我们这一个第一章主要是分为七节,第一节呢是 stat 概数,第二节呢是 stat 十六点零的窗口说明以及基本的设置。 第三节呢是这一个 stage 十六点零基本命令语句结构。第四节呢是 stage 十六点零运算符语函数。 然后第五节呢是分类变量和定序变量的基本的操作。第六节呢是常用的几种处理数据的操作。第七章呢就是对本章整个的第一章进行一个回顾, 当然呢还有就是配套的有练习题,呃,因为练习题呢,在很多的这个读者他是用来作为教材,所以说练习题啊,我这个地方呢就先暂不讲解。 首先呢我们来讲解一下第一节啊,关于第一节 ct 的概述的我简要介绍一下。 其实呢,我们这一个我们的教材当中呢,介绍的非常的详细,我也没必要再过多的去重复。呃,总之呢,就是他这里边呢,说了 state, 他的一个优势就是我们为什么要从那么多的统计分析软件当中要选择 state 进行学习, 可能呢,包括 spss, 包括 sauce, 包括 r 语言, matlab, 呃, passing 等等 一系列统计分析呢软件呢,都可以满足我们特定的统计分析需求。那么我们为什么愿意选择 state 来进行一个学习啊?这只是就,然后呢就是我们呢,呃, 就是基于是对他具有的种种的一种优势啊。刚才呢,我在前面呢其实也有所设计,就说他的运行速度快啊,他比较开放性啊,或者有持续的可深化空间啊。在此之外呢,他具有一个强大的图数据分析和图形制作功能, sleet 呢,还可以进行一个矩阵的运算。从我自身的这个学习研究经验和这个工作实践经验来看呢,身边的很多的同学老师,还有就是我们的同事领导们等等哈,大家呢用的都是 sleet 软件, 使用四 g 软件呢,一个是确实比较容易上手,再一个呢他确实是也比较简单啊。呃,我个人这里也是这样的啊,如果说真的想这个学精学懂, 弄通做透这个 state 其实是比较困难的,因为它这个里边的这种模块非常多。然后呢,他在那个也是紧盯这个学术研究的前沿,把很多最新的计量统计研究分析方法呢,也实时的补充到我们的 这个每一次的软件版本的更新中来啊。但是在此基础上呢,呃,这种这种基础性的一些分析,比如说回归分析,相关分析,统计报表这些制作这些这个基础的功能呢, 他也是就是这个不论是从界面上还是从这个使用的效果上来说是经久不衰的,也是非常容易上手的。 也就说不论是想利用 state 从事比较高深研究的这种呃学术研究型的呃人才,还是说我们只想就是掌握这个基础应用功能来进行 行这个自己的基本的学术研究,比如说我就想完成自己的毕业论文,或者说我们就想解决企业里边啊,可能就是说我们区别哪些是优质客户,解决这么一个特定问题的话,那我们只需要学其中的一点点,甚至只学一个命令就可以,那么斯里特也是非常容易上手的。 总之呢,就是 speed 它的这个受众人群是多样化的啊,能够很好地满足每一类层次的人员的实际的需求 啊。当然对于对斯对特的这种认知和理解包括评价呢,肯定是仁者见仁智者见智,可能有的呃,有的这个统计的学者就觉得斯对特不好用,那这一块呢,肯定也有他自己的理由。那么但是对于我本人来说,还有周边的很多的这个朋友来说,斯对特确实是一个非常好的 一个软件,值得大家投入足够的充分的时间精力去学习,并且呢把它有效的结合应用到我们的呃学术研究或者工作实践单位来。 而我本人呢,创作这本书的初衷呢,也是为了啊,让国内的这些有志于学习 stit, 掌握 stit, 应用 stit 来解决实际问题,能够学习的更为轻松一些。所以说呢,我不论是在一些 啊这个统计方法的介绍上,还是在这一个呃统呃相关命令的介绍上,以及这个对于 案例的举例,对分析结果的解读上,都倾注了大量的精力,也开展了大量的调研,然后呢,尽可能的把所有的事情呢都说明白,说透弄懂,让大家在学习的时候呢, 能够呃轻松一些 啊。这是第一章的第一节 state 概述的相关的内容,下面呢,我再来介绍一下我们的 state 十六点零的窗口的说明,以及基本的设置。 其实呢,与大部分的这个程序窗口类似, sleet 也有自己的菜单儿来呃工具来,它的特色呢,在主界面当中的五个区域,隶属窗口,隶属窗口呢,又称这个 history 啊,然后那个变量窗口, 变量窗口, 变量窗口啊,玩 airpods combod 命令窗口, result 接物窗口,接物窗口,然后 perfect 属性窗口啊,它主要展展示的是我们的变量啊相关的一些属性。 这五个窗口关于每一个窗口详细的介绍呢,这儿呢,我给大家再再汇报一下啊, 大家可以看到呢,我装的是这个 m p m p 版的这个十六点零, 这呢,大家在出散装的时候可能是英文界面啊,但是这个我这为什么是中文界面呢? 是因为我进行了相应的这种设置。怎么进行设置呢?我这儿也先给大家讲一下,在这个地方编辑编辑, 然后呢,在很多的这一个就是呃大家的这个现现在的界面呢,可能是叫 edit edit, 呃,然后这个 首选项大家可能是 prefer recess 啊,用户界面语言应该是 user in in interface language, 这个呢,我们在教材上也有所提及,然后点这个 我这呢,因为已经设置成了这个简体中文,大家呢可以根据自己的这个语言编号习惯进行一个设置,比如说改成英文版, 然后在下一次启动 ct 的时候,它就会发生改变, 大家可以看到现在呢,就回到了大家自己的这个刚安装好 state 十六点零版本的这个界面, 那么怎么把它设置成这个简体中文呢? edit preferences, user interesting language, 把它改成 chinese, ok, 关闭。下次再进入的时候,点开 就出现了我们的这个简体中文界面,然后呢,我们就可以,如果说是大家喜欢菜单操作的,可以通过从这个菜单当中进行 设置,找到对应的统计分析方法,然后进行这一个相应的呃操作。但也可以在这在命令窗口直接输入命令 历史窗口呢,它显示的是自本次启动 status 六点一零以来执行过的所有的命令。 命令产生的渠道包括两类,一类呢是用户直接在 come 的窗口输入的命令,无论命令是否正确,错误的,未被执行的命令他会被加上红色。另一类呢,是用户通过窗口菜单操作,这个是的是自动换算得出的命令, 也就说我们呢可以直接在这说,他会在这进行展示,也可以呢,通过菜单进行操作,他也会在这个历史窗户显示相应的命令。这个 呃这一个软件特性呢,就给我们带来了一种便利,也就是说,如果我们知道菜单操作,那大约知道这个菜单是怎么操作,但是不会写命令怎么办? 我们呢就可以先用菜单把它操作一遍,然后实际上自动的就会在这显示出相应的命令出来,那我们就可以把命令进行保存,或者说把它记下来,下一次再输输入命令就可以达到啊,跟这个菜单操作一样的效果, 相当于呢,跟着 skate 学习了一遍,如何这个编辑相应的命令, 然后这个变量窗口呢,它显示的是当前 stat 数据文件当中所有的变量啊,然后这个如果说是这个变量,这个单击它的时候啊,这个变量呢就会在 command 窗口出现啊, command 窗口呢,就是输入命令他的这一这么一个界面, result 呢,其实就是这个,这个倒是没有写哈,它这个呢,上面这一块它就叫结果窗口,无论成功还是失败, stat 这个 stat 都会显示执行了结果,如果失败了的话呢,它会以红色的信息显示,并且会告诉你的原因。 这个呢是属性窗口啊,每个窗口的大小呢,可以自由的调节。 然后呢这个地方呢,可以啊,可以把它关掉啊,大家如果觉得没有用的话,就可以把它关掉,也可以进行恢复啊,这个都没有问题啊, 比如说我们把变量窗户关闭了,后来觉得变量窗户有很有用啊,我们可以再把它找回来啊,对于属性窗户也是一样的道理。 当然呢,这个快捷键也是有用的啊,比如说我不用鼠标操作,我用键盘上的 ctrl 加一,也是能够达到同样的一种效果 啊。关于这个第二节呢,如何设定偏好的界面语言?在刚才呢,其实我也已经结合着呃我们这个 states 的界面进行了一个讲解。呃,读者呢,也可以按照这个教材上规范的 这样一种做法,自己进行一个灵活性的设置啊。啊,我们学习这个这软件呢,最重要的是要除了学会的同时更重要的是要应用,所以说呢,就鼓励大家在用的过程当中呢,自主的进行摸索啊,多摸索, 只要把数据保存好,数据不丢失啊,大家都是可以尽可能的根据自己的理解多操作几十次啊,在摸索当中呢,会自然而然的学会各种命令,各种这个菜单操作的一些具体的呈现,从而呢能够更好的学习,死罪他啊,这个学习, 呃,这个跟这个多尝试他是密不可分的,多尝试呢,肯定这个学习效果可能就会好一些。

大家好,我是研发教育的伤心老师,今天我们一起学习 excel 数据建模与预测分析案例实战。对于预测分析 我们并不陌生,在我们的工作职场当中,都是需要做预测分析的,比如说我们要对销售进行分析,这是最常见的,还有我们的财务预算要分析, 电商、物流、 hr 等等,都是需要做预测分析的。对于我们的工作生活,比如说 股票、基金投资,也是需要进行预测分析,所以所以说预测分析不仅仅对我们的工作有帮助,还能帮我们赚钱。 向投资分析,他就是为我们创造价值的,所以说预测分析需要我们每个人好好的去掌握。对于预测分析,大部分人都有一个误解,就是 拿到一个数据就马上用一个函数,或者是说用一个移动拼接法就把预测求出来了,那么这样的做法是不对的。预测分析相对是一个比较专业的工具模型, 它需要根据你的业务场景来匹配相应的预测工具,不同的数据的特性,不同的业务场景用到的预测分析的工具是不一样的。 概括来说,我把预测分析模型分为两大类,两大业务场景,一类业务场景是没有季节性的数据的分析预测,第二类场景是带有季节性的预测模型, 这两个场景一定要把它分开,如果不区分,那么做出来的预测的结果是不准确的,那么我的整个的课程就是围绕这两大义务场景来分解 讲解的。像非季节性的预测工具,主要有移动平均法、指数平滑法、预测工作表法,还有函数预测、趋势线回归预测、季节性的预测模型 相对来说要复杂一点,主要是三三种方法,第一个是居中移动平原法,第二个是规划求解,第三个是线性回归系数调整法。这两大业务场景都是以案例分析的形式来给大家讲解的,所以 基础一个社会基础比较差的学员不影响预测分析的学习,这个请大家放心。 下面是我的一个介绍,这个图片就是我本人,帅的一塌糊涂。一个 ceo 的培训,我已经 有十二年的经验,包括线上和线下,除此之外,我对 bi 的培训学习也是有一定经验的。预测 分析本质上就是时间序列的预测,我们的预测都是基于时间来的,脱离的时间预测就是没有意义了, 因为我们的预测一定是随着时间的推移来观测我们数据的变化,这个时间可以是连阅日记等等,包括你自定义的其他的时间都是可以的。 时间序列我们做预测的时候一定要清楚它的四种成分,这个是一个我们分析的一个前提和基础, 哪四种成分呢?第一个就是趋势成分,我的一个数据摆在面前,我们要观察 我的这个整个的趋势,随着时间的变化,他的变化趋势是上升还是下降,还是说震荡 平稳,震荡的,还是说是线性的还是非线性的,这就是它的一个趋势成分。它的趋势成分如何去识别呢?很简单, 画一个折线图就可以看出来,这个后面会有讲解。第二个是季节成分,季节成分 它是反映时间系列在一年中有规律的变化,它是由什么引起的?是特殊的季节或者是节假日引起的,每年会重复出现。比如说服装销售,它每年的都有它的一个淡旺季,你像夏装,那么在夏天七八 酒卖的比较好,冬装在冬天卖的比较好。不同的业务场景,它的数据可能会呈现出它的季节成分,这个要结合你的业务场景,也可以通过趋势成分来把它显示出来。 季节成分的预测分析相对来说要懒一些,它主要是要计算它的季节指数,这个在后面的课程也会讲到。 第三个成分是周期成分,周期成分它是反映的时间系列,在超过一年的时间内有规律的变化,大家注意这个周期一定是超过一年的。 如果是说在几个月或者几周里面,你想反映他的周期,这个基本上是很难的周期 他的成分主要是由他的经济状态的变动引起的,有波风和波股。所以这个周期的预测分析啊,往往需要 数据跨度要相对大一些,至少要一年,你不超过一年,你就不用考虑这个周期了。所以周期性分析,预测分析难度相对来说要大一些,复杂一点,因为他需要的数据样本要多一些。第四是不规则成分, 不规的成分它是不归因于上面的三种,并不是所有的数据都是可以预测的,有些数据他是预测不了的,他没有趋势, 也没有周期的成分,也没有季节性的成分,他就是杂乱无章的一个随机的。你如果非有预测,那只有 一个办法,很简单,就是求他的平均值。所以第三个洲际成分和第四个不规则成分, 在我们的商业数据分析当中啊,其实基本上可以把它去忽略,重点要考虑什么呢?重点要考虑它的趋势成分和季节成分,这也是我的整个课程主要要考虑的这两个成分。季节, 季节性因素我们应该怎么去预测?带有非季节性,也就是说趋势性怎么去预测?我们做时间系列的预测 有几步,首先第一步确定时间序列的类型,这个类型是由它的成分决定的,也就是趋势性和季节性。 首先呢,我们看趋势成分,它是根据时间序列的观测词的数据汇一张折线图,下面三张图可以看得出来,第一个就是没有趋势的时间序列, 如果要对他进行预测,那么他的工具方法和后面的是不一样的。第二个是线性趋势的时间系列,那么他的预测方法也是不一样的。第三个是非线性趋势, 它就是一个指数性,一个增长,这三张图表它的预测工具和方法是不一样的。所以我们在拿到数据的时候,第一步就要画这三张图,这个非常重要,包括我后面的课程,有的课程里面可能就 要画这个图,就不代表这个图不考虑,不是的,一定要自己先要把数据把它的趋势来观测出来。第二个季节成分,季节成分 一般需要的数据往往是两年或者两年以上的数据,而且要有一定的间隔,要间隔一年。我们在拿到一个数据的时候,要分析它的季节成分,就是画一张折线图 来观测他的多风多股是否存在季节成分,那如何判断呢?这个时候你不能就数据而论,数据一定要结合你的业务场景,比如说我这个是服装店的一个销售趋势,可以看出六七八,他就有 有一个季节性的因素,它有一个波风,这就说明我拿到这个数据就存在明显的季节成分。那我们在做预测分析的时候,一定要采用非季节性预测模型的三种三种工具。 第二步就要选择合适的方法建立预测模型。我这里做了一个小节, 对于一些数据,他们既没有趋势成分,也没有季节成分,这时呢我们可以用什么方法来移动平均或者指数平滑我的数,我们的数据如果有趋势成分的 上升或者下降,有趋势成分的,根据数据的特性,我们就要用到趋势预算法当中的三种方法其中的 一种,比如说一一元回归,二项式回归,还有指数回归, 这个后面会有讲到。第三个是我们数据如果是有季节成分的,就要用三种方法求出它的季节指数, 要用到季节指数法,我的整个的预测分析的课程都是围绕这些来的,季节性和非季节性的数据场景。 第三步是平价模型的准确性,确定最优的模型参数。我们有的时候用了一些工具方法,一定要评估模型的准确性,比如说我用移动平均或者是植入平滑,中间要求他的阻力系 数或者是间隔数,那么这个时候你就要进行试算,来确定最优的一个参数是什么,这个在后面的课程会详细的讲到。第四步是按要求进行预测,确定的模型参数之后,最后可以通过我们的 公式把它预测值求出来。这个就比较简单,比如说回归方程系数和常数都已经预测好了,那么我们就需要把它直接带入公式,算出来就得到一个预测值。 好,这个就是时间系列的四步。前面讲的四步我把它概括一下,第一就是要识别数据背后的业务 场景,它是季节性还是非季节性,我们通过一张图表能观察,同时你要结合你的业务场景。第二个对于你的数据,你在做图的时候,以及在正式分析之后,你一定要把你不必要的数据进行整理清洗, 来确保数据的准确性。第三步就是要做图发现规律,然后再选择合适的预测方法或模型,这个是关键。最后一步需要注意的是,如果是用回归 礼盒出来的预测,一定要观测他的监控值,他的监控值值就是阿方,这个阿方代表你这个方程的可信度,关于阿方他是如何 合计识别和判断,后面的课程会讲到一个 ceo 的基础,对于学好预算分析, 其实关联性不是很大,你只要学几个函数就可以了,上半数三拍大了,以及预测函数这几个也是非常简单,所以即使是零基础,你把这几个函数在我的课程当中把它消化一下,其实 也是没有没有多大关系的。第二个是规划求解的原理和技能,那么这一个呢?在整个预测分析的课程当中,会专门去讲解他的原理,数据分析工具库,尤其是回归分析, 他的原理在我的课程当中会穿插的给大家去讲解,所以说如果你是一 这个 cl 零,记住对于学习预测分析其实是没有任何障碍的,这个大家也放心 好了,关于预测分析模型,今天就介绍到这里,希望通过整个课程的学习,大家成为预测分析的高手。最后祝大家学习愉快,身体健康,万事如意,谢谢大家!

大家好,欢迎来到系列课程玩转 say 塔图形可视化。我是二幺幺统计课程的车水老师。本节课呢,我们开始第九章的学习,回归拟合图。首先我们来画一些呃, 在水塔中会画一下呃回归拟合图,我们分别学习两种拟合的情况,第一种呢是线性拟合图,第二种呢是二次拟合图。这种画图的方法呢,是非常简单,而且呢 是在技能经济学中非常常用的一种方法。然后在此基础上呢,我们来画学习一下如何去绘制制性区间以及制性区间的一些外观设置。嗯,我们用例子来给大家演示一下。首先我们还是引用这个 一九七八年的这个汽车数据,那我现在呢,比如说我要看一下这个价格和重量之间的关系,我们还首先来画这个价格和重量的呃这个散点图图位, 那这个呢,是我们在最开始就呃学会的,那如果我在这个基础上呢,我能看到这个价格和重量呢?其实它有一个呃明比较明显的正相关的关系。那如果我想 同时画出来它们两个之间的回归拟和线呢?我需要在 toy 的另一个括号里面写这个 l fit 就是 l 代表的是 linu mini, 然后呢, alfeit 代表的就是线性拟合,我现在要拟合的是价格和重量这两个变量之间的呃关系,所以呢,我在第二括号里面应该是 alfit price weight。 然后呢,我们就可以看到现在的效果呢,就是在原先散点图的基础上,增加了一个 这个价格和重量的这个拟合关系,线性拟合关系。然后呢在下面的图例中呢,也增加了一个,呃红色的线,它表示的呢是拟合的拟合值, b c w 代表的是拟合值, 然后在这个基础上呢,我们当然这个点它拟合的方法呢是有很多种的,我们这个 l face 呢是 线性礼盒,当然还有非线性的礼盒,比如说我们举一个简单例子是二次年礼盒,我们用的是 q fit, q 代表的是 conject, 也就是二次。 那我们在第二个括号里面呢,要写的这个命令呢就是 q face, 然后呢还是这两个变量,我们来看一下。 而现在呢,这个红色的线呢,其实就是将这个 price 和 weight 进行了一个二次的礼盒,那这个红色的线呢,就是二次礼盒的这个线 啊,这个呢其实是非常的,嗯,方便的,就是我们用这个 alfit 或者 q fit 呢,就可以大致的来看出来,这两个变量之间它是一个,比如说 正前方关系还是互相的关系。如果我要在这个回归中,呃,比如说我想加一个二次项,那就是这样简单的 q 飞起来画一下,就可以看到 它是否存在这个二次这样的关系,如果存在的话,它是一个开口向上呢还是开口向下的这个关系是很明显的能看出来的。 那在这个基础之上呢,我们还可以画这个呃置信区间,置信区间的方法呢就是,呃这用这个 ail fit 的基础上再加一个 c i, c i 表示的是 confidence interval, 嗯,那么 呃,那么我们在这个括号第二个括号里面呢,比如说我加这个 l fit c i 呢,就是要画 出这个致信区间,我们来运行一下,那就看到,呃,我这个 l fit c i 的它的作用呢就是不止不仅仅画出来了这个弥河图,还同时画出了这个灰色的致信区间,然后默认的呢是百分之九十五的致信区间。 然后这里呢我做了一个笔记,就是说这括两个括号之间的顺序是有关系的, 就是会有影响的。比如说这个二十行的代码呢,我是先画的三点图,再画的这个知性区间,那明显的这个知性区间,这这个灰色呢在这些点之上, 你看这个直线曲线,他挡住了一部分的点,所以他在点之上,如果呢我想不想让他 挡住这个点,我想让这个散点呢放在上面,我就需要呢把这个第一个括号写在后面, 那我们来看一下它的结果,我们就可以看到现在呢这个这个散点呢就是在这个置信区间的上面了, 所以呢这个两个括号的这个顺序呢是非常呃有影响的。 然后呢我们注意到现在这个呃默认的知性区间呢是百分之九十五,如果我想改变知性区间他的显著性水平呢, 我们需要在这个 l f c i 的后面加上一个 level 选项,如果我想改成百分之九十九的这些区间呢,我们要在 level 里面加九十九,如果我想改成 百分之九十八的这些时间呢, level 后面应该是九十八,比如说我现在是九十九,我们来运行一下, 现在呢这个执行区间呢就变成九十九的执行区间了。呃,还有一个选项呢,就是 no fit, 它代表的是我只画这个支线区间,呃,并且不画这个米和线啊,我们来看一下效果, 现在的结果呢,就是只有这些区间,百分之九十五这些区间,而没有这个离合线。嗯,然后这个,嗯, 然后这个置信区间的这个线呢,我们也是可以设置的, 就是用这个 c l pattern 或者是 c l color 来。呃,设置它的一些形状和颜色,我们就可以看到。现在呢这个, 呃,这个拟核线呢? c l pattern, 就是我在里面写了一个 desk, 就是说把它弄成一个虚线, 然后并且它的 c l color 就是它的颜色呢是红色。所以在这个 l fix c i 里面呢,我用逗号隔开,后面加这两个选项呢,是设置的是你和线的这个这个它的形状,它的它的外观样子。 嗯,当然了,我们还可以设置这个置信区间,这个灰色区域,它的外观,那么我们像要 用的这个选项呢叫做 c i plot。 嗯,那我们来运行一下,看看它的效果是什么样的。 现在呢这个,呃 c i plot 呢?就是我把这个之前去见他,现在不是 aaron, 所以他默认的呢是一个,嗯,完整的一个 涂满了一个灰色的面积。但是现在呢,比如说我现在让它变成 r line, 就是让它变成一个,呃, 一个两两条线,而不是 are area, 就是它的默认的呢是 are area。 如果我看一下这个 r bur 它是一个什么样的效果? 看到现在这个执行区间呢?它是一个柱 状的这个填充,然后 r error 呢,就是它是用面积填充,填充,也就是我们最开始默认的一种情况这样子的。然后呢 r line 呢?就是我直接两条线,我中间是什么都没有的。 嗯,那就是这,呃,这个 c i plot 它的一些选项,然后呢?呃,在这个里面呢,其实还可以看到 我画的呢,就是,嗯,同时画了这个 g c 区间,然后还有这个三点图。那还有一个比较 不太好看的地方呢?就这个图例,如果我想把它弄成同一个图例呢?我们还记得是用 legend, 嗯, column 啊, legend rose one 那个选项我们可以后续再加。好。这就是我们本节课所学习的,就是回啊,回归拟合图的一个方法,在这个计量里面或者是统计。 嗯,经济学、金融学里面都是的,时政部分都是非常有用的,希望大家能够学会它。好的,我们下节课再见。