以最简单通俗的方式学习知识。大家好,我是赛过小白,今天给大家带来的统计主题是卡方检验。卡方检验用于检测观察到的类别变量的分布与期望的是否不同。我们最常用的卡方检验有两种,单一速卡方检验 也称为卡方粘合度检验以及二因素卡方检验也称为独立性卡方检验。那么接下来我会将这两个方法清楚的讲解。首先是卡方粘合度检验,卡方粘合度检验主要用来确定一个分类变量的预期频率 与观察到的频率之间是否存在显著差异。那么我来举个例子,假如我有一个骰子丢了三十六次,骰子,每个面丢出来的分布次数如下, 我们发现好像点数高的被丢掉的次数会更多,那么我可能觉得这个骰子是有问题的,因为我们知道我们会预期最正常的结果是每个点数都接近六次,比如说点数一是五次,点数六是七次,这样的话我们可能会更容易接受。但是呢,出现这样的结果,我们说骰子是有问题的,那么这个时候就会有人说这个只是巧合。我丢三十六 是骰子出现这种分布的情况是很正常的,并不是骰子有问题。那么遇到这种情况的话,我们是无法反驳的,但是你也不得不承认,很有可能会发生这种情况。那么这个时候我们使用卡方检验,就可以根据卡方纸告诉我们我们丢出来的这个分布到底是不是巧合,从而可以从正面回答这个骰子是不是真的有问题,或者这一次丢出来的只是巧合。 首先我们需要提出我们的假设,我们的零假设是期望值和观测值之间没有显著差异,我们只需要证明这个假设成立的可能性 特别低,那么就能够说明这个假设是不合理的,因此拒绝这个假设。而一般情况下,我们会选择显著性系数 alpha 等于零点零五,也就是当批值小于零点零五时,则可以拒绝我们的假设,也就是认为期望值和观测值之间是存在显著差异的。 那么为了拒绝这个假设,我们就需要计算卡方值。卡方简单的公式非常简单,这里我带大家迅速掌握这个公司的构造。那么首先是卡方,也就是我们要求的目标,当我们的卡方值大于我们的卡方临界值时,我们就可以拒绝我们的零假。 而这个符号 sigma 代表的是求和的意思。接下来是 f o, f 代表的是频率的意思,这个 o 所指代的意思是 observe, 也就是我们所观察到的频率。而 f 一中的一则代表 expect, 也就是我们的期望频率。所以我们只需要先估计出我们的期望频率,然后再根据我们实际中所观察到的频率 用公式计算,就能求到卡方值。回到我们的数据,现在我们已经有了观测频率,观测频率就是我们实际中筛子的结果,而期望值我们会认为每个面的概率都是一样的,所以三十六次,我们会认为每个面都是六次,这就是我们的期望值。根据观测频率和期望频率代入公式,就能求出卡方值 计算过程在这里列出部分,大家可以之后自己再算。那么卡方多大才能达到我们的要求呢?或者说卡方的临界值是多少呢?这就需要我们去查表或者卡方临界值。卡方临界值有两个因素决定,一个是显著性水平,也就是我们设定的 up 值为零点零五。另一个是自由度,自由度等于我们的组别减一,组别用 k 代表,所以在这个例子中,自由度等于六,减一等于五,所以我们查 发表可以得到卡方的临界值等于十一点零七零。也就是说,只要我们计算中的卡方值大于我们的卡方临界值,就可以拒绝我们的零假设,认为观测值和期望值之间是存在显出差异的,也就是说筛子是有问题的。然而我们计算中的卡方值为三点三三,卡方值小于临界值,所以我们只能接受零假设,认为观测值和期望值之间是没有显出差, 也就是筛子是正常的。那么这个时候可能有同学会问,如果期望值不是均分的会怎么样?也就是期望值之间是不同的。比如有个学校调研团体说, 我们学校有百分之五十的人每天运动,百分之三十的人一周运动四到六次,有百分之十的人一周运动一到三次,百分之十的人不运动。那么为了检测这个团体说的对不对,我们可以随机抽取学校的一百个学生, 询问他们的运动次数。期望品质为,百分之五十乘以一百等于五十,百分之三十乘以一百等于三十,百分之十乘以一百等于十,百分之十乘以一百等于十,然后再将期望品质和观测品质带入公式,求出卡放值即可。其实这一点和丢骰子是一样的, 筛子的每个面的概率都是六分之一,因此每个面的六分之一乘以三十六都是六,所以我们的期望频次是该类别的概率乘以总观测频次。接下来是卡方独立性检验,卡方独立性检验的作用是检验两个类别变量之间是否存在关系。比如我们想知道心理学、物理学和管理学的学生在思考方式上是否存在 差异。这里设计两个变量学科和思考方式,那么我们假设思考方式和学科之间是相互独立的,也就是并不存在关系。那么首先我们从大学的三个学院中收集了一千个人的数据, 那么有了观测值,我们还需要期望值。这里需要注意的是,独立性检验中,期望值并不是用一千除以六得到,每个单元为一百一十六点七个人,而是需要我们计算出行与列的和,然后再求期望值。期望值的公式为该行品质之和乘以该列品质 之和再出一种人数。所以我们需要计算出所有的列之和,宇航之和,然后再使用期望值公式,用每个单元对应的航之和乘上列之和。比如心理学感性思维是四百 乘以三百八,除以一千等一百五十二,其他以此类推。这样我们就得到了所有单元的期望值。需要注意的一点是,期望值的计算过程中出现了小数是可以的,哪怕是某些技术单位并不可以被记为小数,但是在计算期望值中,小数是能够存在的。那么在确定了观测值和期望值以后,我们需要确定我们的显著性水平 up 和自由度 up。 一般情况下设置为零点零五, 自由度则是 r 减一乘以 c 减一,也就是我们的行数减一乘以列数减一,两个类别变量的组数减一,然后相乘。那么在这里我们的自由度就是二减一乘以三减一等于二。差表我们可以看到阿法等于零点零五,自由度等于二十,卡方临界值为五点九九一,因此只要我们求到的卡方值大于五点九九, 就能够拒绝零。假设在卡方独立性检验中公式依旧值之前的卡方公式,我们将观测值和期望值带入公式,就可以计算出卡方值等于六十五点四九零四。计算过程这里也列出部分,大家可以之后自己再算。因为我们的卡方值大于零介值,所以可以得出结论,思考方式和 这三个学科之间是存在关系的,并不是相互独立的。好了,现在我们已经基本掌握了卡方检验常用的两个方法,这两个方法满足绝大多数需要使用的卡方的情况,但是除了搞清楚卡方的基本概念,我们还需要掌握卡方使用的前提假设。首先是第一点,既互吃又互补。 我们的每个观测值都会落入一个类别,并且只可以落入一个类别。比如说数据中的观测值要么归类为理性思维,要么就归类为感性思维。一个观测值,或者说我们的一个学生并不能同时把它归类在理性思维, 然后再把它归类在感性思维都进行记录。第二点,观测组之间相互独立一个杯式,一般来说只能被归类为一次。比如说我们检验性别和三部动作电影偏好之间的关系。一般来说,一个人只能对一部电影做出评价,这是最为稳妥的。 因为如果一个人他不喜欢动作电影,那么他很可能对三部动作电影都打低分。相反,如果一个人比较喜欢动作电影,那么他可能对三部动作电影都打高分。因此,最好的办法是一个倍数只能计算一个观测值,观测次数等于倍数数。第三, 期望频次期望频次不能太小。对于期望频次的要求,有很多理论比较好的规则是每个期望值都大于五,如果当自由度为一时,则每个期望值大于十。我们知道期望频次和我们的观测总数有关,也就是说最好观测次数不能太小。如果当我们观测次数够多时,一般并不会出现问题。更详细的内容,大家可以参考相关的统计书。 好了,最后快速总结一下。卡方检验用于检测观察到的分类边梁的分布是否与期望的不同。一般情况下,我们用到的卡方检验为两个卡方粘合度检验和卡方独立性检验。 卡方你和度检验也可以被称为单因素卡方检验,因为他只设计一个类别变量,他主要用于检验我们关注的类别变量是否遵循我们的期望分布而计算。自由度为 k 减一 k 为该类别变量的主数。 期望值一般是根据理论预期来的,那么我们会预期每个面丢出的概率都是六分之一,又或者是有相关的报告或数据给出某变量的数据比例,比如说分布为百分之五十,百分之三十,百分之二十,那么期望值一样用该组的概率乘以 我们的观测总数。接下来是卡方独立性检验,又或者是二因素卡方检验,他是在两个类别变量的情况下使用,他主要用于检验两个类别变量之间是否存在关系。自由度为行数减一乘以列数减一,也就是每个变量的主数减一后相乘,而 期望值是相应的单元格对应的列观测值之和乘以行观测值之和除以总观测次数。而两个方法都是用相同的卡分公式以及相同的前提。假设好了今天的统计就到这里, 点赞和关注是更新的最大动力,之后有什么想看的心理学实验或者是其他内容也可以在评论区告诉我,感谢大家的支持!
粉丝3665获赞1.3万



大家好,今天呢,来录一个独立性检验啊,我主要录一个计算的技巧,因为这个独立性检验的卡方公式其实是很好记的,按照他的特点去记啊,这里就不说了,但是这个题的难点我觉得应该是在于计算,怎么能把它算对 啊,我们看一下例一啊,这个二乘二列连表啊,那我就直接类似列式, 卡方应该等于一百五十乘以五十四乘以四十二,减去三十六乘以十八的平方, 再除以九十乘以六十乘以七十二乘以七十八,那列出这 这样一个式子啊,就是很多同学在约分的时候,可能一想零零约了哈,然后十五和九再约个三啊,再跟六十怎么约怎么约啊,这样就是我觉得比较容易出错,还有点乱,然后你这边也没有处理。再有一个 同学在这里约分的时候啊,但注意这里是个平方是吧?你里面约个二,下面是要约个四的呀,里面约个三,下面是要约个九的,也是很容易出错的。那我们这个式子怎么处理呢? 就是我们约分一定是乘法和乘法去约分呀,这里有个减法其实不好,我们要把这个减法先算一下, 算的话这个数又特别大,对吧?所以我们想一个办法,就是要提取供应式,把这些数变小一点啊,看一下五十四和三十六,是不是我们都可以提个九啊?可以提 一个九。这个时候可能有同学说啊,我提的再大一点是吧,我还可以提个十八呢,因为五十四除以十八等于三是吧?三十六除以十八等于二,可以提个十八。大家注意,想你提十八,其实外面提出去是不是应该是十八的平方呀?那你算十八乘以十八,是吧?还是容易出错, 所以我们这个提取公因式啊,提个约束要尽量提的是在十以内的,因为我们提出来是九的平方是八十一啊。再看四十二和十八,是不是可以提个六啊? 提个六,这样我们先写下来一百五十乘以九,提出来是八十一,对吧?六提出来是三十六,嗯,这样这边五十四,还剩下六乘以七,减去四乘以三的平方,嗯, 再乘以九十,乘以六十,乘以七十二乘以七十八。好,我们再看啊,这个平方给他处理掉, 四十二减十二,是不是三十呀?一百五十乘以八十一乘以三十六啊,那就是两个三十,三十乘三十啊,这里也写三十,大家不要写九百啊,但是写九百可以啊,但是如果这个题这边是个二十四的平方呢?你肯定不要不要把二十四了,乘二十四是吧?我们就写 二十四乘二十四,对吧?就是你不要把这个二十四的平方算出来啊。好,再看那下面就是九十乘以六十乘以七十二乘以七十八, 是不是这样就是比较干净的分子分布,我们就可以约分了呀?约分的时候再注意,能约大数就约大数啊,你能约个九, 你就不要约个三,是不是能约个二,你能约个八,你就不要约二呀?约的越大,那我们的约分的次数是不是就越越少呀?这样试的就会看起来干净一些啊,再比如说这个八十一是吧? 这题我们先看三十,三十比较好,是吧?约完剩个三,三十,约完剩个二,对吧?我们能约大数就不要约小数啊。再看,嗯,三和二是吧?接着约,这里有个直接约掉剩个六啊, 对吧?这两个就不用管了啊。再看这里也尽量往大了约,八十一,七十二,约个九就行了呀,九这边啊,剩下 八。嗯嗯,再约看看六和七十八是不是能整个约过去啊,这样就剩下十三啊。好,再看这边可以约个 二啊,剩个四,这边剩个七十五。嗯,看看还能不能约。约不了哈,这样的话我们就剩下四乘以十三,七十五乘以九啊,也就是五十二分之 六百七十五,就这样我们就很容易就算对了呀。然后再约等于一个三位小数, 这个越等于我就不再算了啊。这个主要告诉大家怎么样约分比较好。 好,那我们再看例二啊啊,首先这个二乘二列连表,大家最好把这个给它补全了哈。不是一定二乘二列连表,一定是四行四列的啊,这个总数是个多少?嗯,五十六啊, 这里是四十,这个是四十,这个是也是五十六啊,那总数是九十六,那我们列出卡方等于九十六乘以里面交叉相乘啊,二十四乘二十四,减去十六乘以三十二的平方, 再除以五十六乘以四十乘以四十乘以五十六。 再看哈,大家不要上来就开始约九十六啊,不要着急,先把这个减法去掉。是把这里边的大数啊,我们都提供应试啊,再看一下二十四十六,是不是其实就可以提个八呀? 我们提这个公因式啊,也尽量往大了提,能提个八你就不要提个二,对吧?在,呃,还有就是提十以内的啊,不要提啊,十两位数提一,因为有 提个八,其实提的是六十四呀,所以提十以内的供应,供应那个约束,然后二十四和三十二是不是也可以提个八呀?这也提个八,这也提个八啊?那这样我们就提出来的是九十六乘以,主要提出八出来的是六十四两个八,两个六十四,因为我们提出的是平方, 这样里边还剩下三乘三减去,嗯,二四哈,二乘四。哎,你看这个其实挺好的啊,九减八是不等于一了呀, 再剩下五十六乘以四十乘以四十乘以五十六啊。那这部分我们就不用管了,直接给划掉就行了啊。好,再看,再开始上下约分啊,能往大了约,尽量往大了约,不要约个二啊三呀。你那约的次数太多了,我们大一点 而约。那你看这个时候就可以约个八呀,八八六十四是吧?七八五十六,那这个一样的啊,八这边剩个七,那我这边还是往大了约,剩个五,这还是往大了约,剩个五, 对吧?看一下还能约吗?九十六约三,底下约不了了,对吧?哦,那这样的话很快就约完了呀。是不是剩下九十六乘以 三十五乘以三十五啊?那就是九十六除以三十五乘三十五啊,一千二百二十五啊,是不是很快就算完了呀?再约等于一个三位小数, 这就是卡方计算的技巧啊。总结起来就是 先提勾音式,提出来的一定是提出个平方,也尽量往大了提,但是一定提十以内的,十以内的提大数,不要提二和三,你就是能提八和九,我们就提大数啊。再有就是提完了之后都写成乘法, 再开始约分,约的时候也尽量约大数,能约个八就不要约个二,能约个九你就不要约三,这样我们约分的次数少,你是画这些杠就会少一些,整个狮子都会看的,看的干净一些,正确率也能提高。

好,今天给大家讲啊,在独立性检验中对卡方值理解不准确的问题,根据分类变量 x 与 y 的观察值,计算得到卡方等于二点九七四,问下面哪个选项正确? 在选择之前,我们首先要搞清楚这个卡方是怎么计算来的,他的前提是什么?我说前提就是零假设, 零假设是什么呢?是变量 x 与 y 独立,也叫无关联,这是前提。在这 这个前提下计算出卡方,然后对照这个表,二点九七四比二点七零六还要大,那对应的概率就比零点一零还小。那啥意思呢?是说你在零假设 正确的把握性比你说零假设正确的把握性比百分之十还要低。 换句话说,零假设不正确,你就有百分之九十以上的把握,也就是说变量 x 与 y 不独立 这个结论,你犯错误的概率不会超过百分之十。故我们选择定,你明白了吗?


姐姐相信你,日后再见时,你将会成为真正的强者,这一点三年前我便相信。仙儿一直相信你会站在大陆的巅峰, 倒是没落的笑角会因为你而再次屹立大陆。

高中二年级在学到独立性检验的时候,课本上有一段话理解起来比较费脑啊,那段话呢,我已经剪切下来,这里有两个地方不好理解,今天咱们深度解说一下。首先第一个地方是这里提到的,在犯错误的概率不超过百分之一的前提下, 第二个地方呢,是前边为什么卡方是大于等于某一个数值,而两个事件是相互独立的,可能性比较小啊。咱们先说下边这句话,什么叫在犯错误的概率不超过百分之一的前提下,我们才能说这句话? 呃,从语文语言逻辑的角度上,咱们先理解一下。我举个例子,比如说有甲乙两个同学, 甲和乙在日常的学习过程当中,甲的数学成绩在一百三十分以上, e 的数学成绩在六十分以下。好,此时他们两个共同参加一次数学考试, 那么我们按照常理都知道,甲考的比以好,这种可能性是非常大的。但是我们不能百分之百的说甲一定在这次得的分就比以高啊,因为事件的发生是有好多不定因素的。那么我们做一个假设,假设甲的分数 大于乙的分数,这种概率占到了百分之九十九,也就是说乙发挥超长,比甲考的好的,这种概率是百分之一。如果这次考试恰好乙的分数就是 高于假的分数,那么这件事情我们怎么理解呢啊?假设成绩还没有出来,我就可以说我有把握说甲比乙这次考得好, 但你这个把握不能是百分之百,你有百分之一的概率,你这句话是犯错的,是说的不对的啊,这样说可能就明白了,反过来讲,这反过来讲这句话,就是我说这句话的时候,在犯错误不超过百分之一的前提下, 我有把握说甲会比乙考得好好,这是我们解释下边这句话啊,下边咱们再说一说上边这个问题,为什么我们计算的这个卡方,这个数值越大, 这两个事件相关性就越强,相互独立的概率就越小?咱们先看两个表格啊,因为这个公式啊,咱们就不细说了,虽然我已经把它剪切出来了 啊,是为了好观测啊。卡方的公式当中呢,有一个分子, a、 d 减去 b、 c, 这个咱们要知道啊,这两个表格也是我从课本上剪切出来的,大家看第一个表格, 男生女生是否有自主创业打算?那么注意啊,如果咱们把这四个数据分别看成 abcd 的话,大家先从数字上看, a 乘以 b 减去 b 乘以 c, 就是交叉相乘相减,这个等于零啊。从数字上, 而下边这个表格,这个 a、 b、 c、 d 这四个数据,如果是交叉相乘相减的话,明显他不是零啊,咱们来分析一下他是什么意思。第一个表格当中,我们可以观察到,对男生来说有无自主创业 打算的比例是一比四,对女生来说也是一比四。所以咱们在抽取样本进行调查的时候,无论我抽到的男生多还是女生多,并不影响有无自主创业 这个事件的比例没有影响,那么从现实意义上说,也就是是否有自主创业打算,跟性别没有关系,这两个事件相互独立。 那么再看第二个表格,幸福感与阅读量的关系啊,从这个表格当中,我们在计算之前就可以看出来,阅读量越多,幸福感越强烈啊,这是很明显的 啊,因此我们看这个表的时候,我们就知道这两个事件是相关的,是不独立的啊,是不是相互独立的,那么这是他的 相关性有多强呢?到底我们有百分之多少的把握可以说他俩相关的,那么我们就要借助具体的卡方数据啊,当我们把这个数据计算出来以后,对应的这个表格,最后再解释一下,这个表格是我们统计学中得出的数据结论啊,并质疑。 经常呢我们用这个六点六三五来讨论啊,因为六点六三五对应的一个零点零一,那这个表是什么意思呢?大家注意啊,这是一个分布列卡方,这个数据 大于等于 k 值, k 就是下边的数据啊,大于等于六点六三五的概率只有百分之一,那么应在我们的世界上,也就是我们计算出来某一组数据的卡方,如果是六点八恰好大于六点六三五,我们就认为 他只有不超过百分之一的概率,两个事件相互独立,那么反过来讲,就是说我有百分之九十九的把握说这两个事件是有关系的。 改成刚才前边的语言,我们也可以这样说,在我不犯,在我犯错误的概率不超过百分之一的前提下,我可以说这两个事件有关系。好,咱们就解释到这。

二十体研究这个疾病与卫生习惯的关系。卫生习惯分为不够良好和良好两类,病例组和对照组分别取了一百个人,那么就形成了这样一个二乘二的列连表。 第一问,考察独立性检验问能否有百分之九十九的把握认为患该病的群体与胃患的群体卫生习惯有差异。 那么根据他给的这个公式,我们可以先求卡方,公式当中的,嗯,是所有这些数据之和,也就是二百, 这四个数据分别是 abcd, 所以带进这个公式就可以求他的值配方等于二百乘以四 四十乘九十,减去六十乘十的平方,再除以四十加六十是一百,乘以十加九十也是一百,再乘以纵向的四十加十是五十, 乘以六十加九十是一百五十,计算出来等于二十四。那么再看这个表格,这个表格给了一些概率,并且对应了一个 k 值。 比如说第一个是说 k 方如果大于等于三点八四一,那么他的概率是零点零五零,这个概率是指认为两者有关犯错误的概率,那么把握就是用一减掉这个概率,也就是百分之九十五, 所以如果是大于等于三点八四一,那么他的把握就是百分之九十五。现在我们求出来是二十四,而要判断的是不是有百分之九十九的把握 犯错误的概率就是零点零一,他对应的是六点六三五,我们求的这个值二十四是大于六点六三五的,所以我们有百分之九十九的把握认为患与未患,他们的卫生习惯有差异。

这节课我们一起来学习列连表与独立性检验,主要包含五个知识要点,以及两种题型。第一个知识要点,分类变量与列连表。第二个知识要点呢,二乘二列连表, 一等高堆积条形图。第三个直要点,卡方独立性检验。第四个直要点,为何卡方检验可以检验变量之间的独立性问题?第五个直要点,卡方的独立性检验,常用的小概率值和相应的临界值。 另外我们会实行两种题型,第一种题型呢,是独立性检验,解决实际问题的四个步骤是什么?第二种题型,独立性检验与反正法。那么我们主页来看一下。先来看一下第一个持有点 分类变量与列连表。首先了解分类变量,他的一个概念,用以区别不同的现象或性质的随机变量成为分类变量。分类变量呢,我们要注意两点,第一点呢,分类变量他是 理想型的,如果我们把性别分为男和女,那么在这里呢,分类必要它是分为两类。 另外呢,分类变量它是可以大量存在的,不仅可以分为两类,比如说我们说商品的等级可以分为一级品、二级品、三级品、四级品等等等等。 分类变量的取值通常呢我们可以用时数来表示,比如说在这里男和女,如果男用零来表示女呢,我们可以用一来表示。 在高中阶段,我们学习的是两个分类变量的问题,那么接下来我们来研究两个分类变量,而且每一个分类变量呢,它的取值只有两个的信息。那么接下来我们看一下二乘二类点表,假设有两个分类变量, x 和 y, 他们的直域分别为 c、 x 和 y 一 v 二即样本平数列列表呢,在这里我们把它给写出来了,就成为二乘二列列表。在这里呢,分类变量是有两个,而且他们的取值呢,各只有两个的一个情形。我们来看这个二乘二列列表, 既满足 x 一,又满足 y 一,他的平数呢为 a。 既满足 x 一,又满足 y 二的,他的平数呢为 b。 那么 x 一的平数呢,为 a 加 b, x 二的平数呢,为 c 加 d。 同时外一的平数呢,为 a 加 c, y 二的平数呢为 b 加 d。 最后在这里 a 加 b 加 c 加 d 呢,就是样本容量。我们从这个二乘二列列表呢,我可以看出成对分类变量数据的一个交叉。 八分类评述的一个问题,那么了解了以后,我们来做一下相应的练习题。某些为了检验高中数学新课标改革的成果,在两个班进行教学方式对比试验,两个月后呢,进行了一次检测, 试验班与对照班成绩呢,这里给出了二乘二列连表,其中问的是 m 的值为多少, n 的值为多少?我们刚才有讲, a 呢,表示既满足 x, 又满足外一的一个平数,而 x 一,他的一个平数之和呢,为 a 加 b, 同时 x r, 它的一个平数之和呢,为 c 加 d。 注意哦,我们来看一下, y 一的平数之和是为 a 加 c, y 二的平数之和呢,是为 b 加 d。 好,所以我们来看一下事业班,它的平数 之和是等于五十。对照班,它的平数之和呢,也是等于五十,说明二十四加上 m 是等于五十的,二十四加上 m 是等于五十,因此呢,我们就能求出 m 的纸, m 的纸呢是等于二十六, 当然我们也可以用八十分以下,他的平数之和呢是等于四十四,那么十八加上 m 的值是等于四十四,用这个方法求出 m 的值呢,也是等于二十六这样的一个值, 所以 m 的值呢是等于二十六。好,再来看一下 n 的值, n 表示的是什么? n 表的是 a 加 b 加 c 加 d 的值,它是样本容量。五十六加上四四是是等于 n, 五十加五十是等于 n, 那么 n 的值呢,是等于一百加的一个值,所以根据两种方法让我们都能求出 他们的一个值,这里嗯代表的是样本容量的一个情况,同时我们要注意二乘二列的表给出了成对分类变量数据的一个交叉分类平数。 接下来我们再来看一下卡方独立性检验。刚才我们有讲二乘二列连表,两个分类变量,一个为 x, 另外一个为外,对于每一个分类变量,他们的取值呢都只有两个,得出了这样的一个表格呢,就称为二乘二列连表。那么我们再来看这样的一个公式,卡方是等于 这样的一个式子,其中嗯呢表示的是样本容量。那么由这个公式得出的卡方的纸用来推断分类变量 x 和 y 是否 独立的方法呢,就成为卡方独立性检验,这就是卡方独立性检验。那么在利用卡方进行独立性检验的时候呢,一定要注意哦, abcd 这四个指呢都不小于,我们还要注意另外一点,卡方越大,说明 x 与外有关系,成立的可能性越大,为什么有这样的一个结论呢?我们一起来证明一下。接下来我们来学习为何卡方检验可以 检验变量之间的独立性问题同样还是回到刚才吸烟和患肺癌,他们的一个二乘二列联表,我们假设 h 零吸烟和患肺癌呢,是没有关系。 判断假设是否成立,我们把 h 零呢,称为零假设,或者又称为原假设。那么假设现在给出来了。接下来我们看一下非吸烟的人中换肺癌的一个比例。 非吸烟在这里,欢呼,雅儿在这里。所以呢,他们的一个平数是为 b, 而非吸烟者,他的一个平数呢,是 a 加上 b, 所以用 b 比上 a 加上 b。 另外再看一下 吸烟的人中患肺癌的一个比例,吸烟者在这里患肺癌呢,是 d, 那么 d 比上 c 加上 d 这样的一个指。 如果我们要 h 零成立, h 零说的是吸烟和患肺癌呢,是没有关系,那么这样的两个笔直呢,是大致要相等的,这样要相等。我们先交叉相乘来看一下, 交叉下车以后呢,这里有一个 b 乘上 d, 这里有一个 b 乘上 d, 两个消去,那么左边呢,剩下一个 b 和 c 相乘,右边剩下一个 a 和 d 相乘,他们约等于我们把左边移到右边,得出 a, d 减去 b, c 呢,是约等于零。 那么得出刚才我们所说的那个结论, a 乘 d 减去 b, c 的绝对值如果越小,说明吸烟与患肺癌之间的一个关系呢,是越弱的。 a 乘 d 减去 p 城 c 的绝对值越大,说明吸烟有患肺癌之间的一个关系呢,是越强的。又回到刚才我们首先的卡方独立性检验的问题,嗯呢,表示的是样本容量。 a 加 b 表示的是非吸烟者的一个平数, c 加 d 呢,表示的是一个吸烟者的平数。 a 加 c 表示的是没有患未来的一个平数。 b 加上 d 表示的是患肺癌的一个频速。 n 呢,是一样本重量。那么只要在这里确定他的一个值, a 乘上 d 减去 b 乘上 c, a 乘上 d 减去 b 乘上 c 刚好是交叉的一个信息 八的平方,如果在这里他的平方呢,是越小,那么说明他们之间的关系呢,是越弱的。如果这里分子的值呢,越大,说明他们的关系呢,是越强的。正式利用卡方独立性检验就可以检验变量之间的一个独立性问题。

小伙伴们大家好,今天来跟大家聊聊怎么用 s p s s 来进行卡方检验中的多重比较。 在后台看到一个小伙伴留言说他有三组变量,卡方检验的结果显示 p 值是小于点零五的,是显著的,那么他想看看到底是哪两组有差异,该怎么办呢?那么这种情况下就涉及到卡方检验的多重比较了, 我在上一期啊不对,上上一期答疑中啊,给大家简单的提到过,有一种方法叫做卡方分割法, 那么它就是可以解决这样一个问题,比如说我们有这样一个数据啊,其中有组别是组 a、 b, c, 有三个组,然后音变量呢, 是某种用药的效果,有效果或没效果,这样他就构成了一个交叉表格,对吧? 这样的一个数据形式啊,最终我们肯定可以用卡方检验来求得一个批值,这样我们打开 s p s s 来实践一下, 这是数据的一个大致情况啊,一共有三个变量,一个是年龄段,然后组别和效果。我们看看变量式图,变量式图中年龄段有三个年龄段, 组别有组 a、 组 b、 组 c, 有三个组,然后效果。这个音变量呢,有有两个类别,一个是有效果,一个是没有效果。 哦,顺便提一句,有小伙伴说他录入数据的时候不知道这个类型应该怎么变换 啊,就在这里我们点击一下,现在是数字,我们可以改成科学技术法或者是字符串,字符串是因为你有,就是姓名之类的这个文本信息的时候就选字符串。一般情况下我们为了分析数据方便,默认的都是数字类型。 好的,我们回到数据视图,啊,这样一个数据啊,我们怎么样来进行卡方检验呢?首先点击分析,然后我们用交叉表格描述统计中的交叉表, 我们可以选择行是组别,列是效果,然后在精确里默认是仅渐进法统计,我们把卡方打上勾,点击继续 点击确定,这样我们就看到了组别和效果的一个交叉表,有三个组,他们的总计都是十五人, 然后分别有效果和没效果的人数都出来了。卡方检验的表格的啊,我们看最后一列,就是双侧的这个显著性啊,发现 皮尔逊卡方的这个显著性是零点零二八,是小于点零五的,说明这三个组确实在因面量,有效果和没效果这方面是存在显著的差异的。那么就回到这个视频刚开始的时候,那个同学提出的问题, 这三个组是有差异,那么我具体想看到底哪两个组之间有差异呢?应该怎么办?这样的一个情况我们就要用 到啊数据的一个筛选,我们点击数据,在这个结果页面操作,和回到数据,这个数据及文件操作是一样的效果。我们点击数据,然后倒数第二个选择个案, 目前是选择了所有个案,对吧?那么接下来我们只想看两两个组之间的两两比较,该怎么办呢?我先重置一下, 我们如果想满足两个条件的话,就需要呃,点击这个,如果啊,如果你是英文版的话呢,就是 e, 那么选择组别,组别等于一,或者或者就是这个横杠, 如果你敲这个呃,记不住,你就敲 all 也行, 我是比较习惯用这样一个符号啊。旁边这个,呃,这个加号,这不是加号啊,这样一个符号呢,就是并的关系,然后一个竖杠呢,就是或的关系 等于三,这样的话,我就筛选了组别中的第一组和第三组,点击继续点击确定。 那么接下来我再运行一下卡方,呃,选择这个按钮,然后直接看到我的历史操作,然后点击交叉表,所有操作都不变,直接点确定。哎, 这一次就只看到了组 a 和组 c, 为什么呢?因为我们只选了这两个组,对吧?回到数据文件,我们也可以看到所有的组二这个类别 的前面啊,都打上了一个横杠,就是说明啊,不是横杠,是斜杠,就是说明这些样本在这次分析中都没有纳入进来,哎,这次分析我们就只看一和三这两个类别。 回到这个,呃,结果式图,我们可以看到组 a 和组 c 的一个交叉表已经出来了,以及它的卡方结验的值 啊,这两个组的卡方结验呢,是大于点零五的,是不显著的啊,说明组位和组 c 在这个啊音变量上面是没有显著差异的。那么我们 就再来看看主 a 和主 b 怎么样,还是点击历史操作,然后选择个案重新点,则重新选择这个 if, 把三 把组别改成二以后呢,我们就点击继续点击确定, 然后依然打开交叉表的历史操作,什么都不用变的情况下,直接点确定 啊。我们这就能看到组 a 和组 b 的一个比较了。回到数据视图上,我们也可以看到所有的组三这个类别全都打上了斜杠,这说明这些样本都没有纳入进来,都没有考虑,那么组 a 和组 b 的一个卡方结呢? 结果呢?是小于点零五的,是有显著差异的。最后我们再看看组 b 和组 c 怎么样,依然是选择个案,对吧? 点击继续点击确定,我的操作逐渐加速,因为大家都比较熟悉这个过程了,点击交叉表,点击确定,哎,我们可以看到主 b 和主 c 呢,它也没有存在显著的差异, 所以不同组别在音变量有效果和没效果方面有显著差异,主要是由于 a 组和 b 组有差异而导致的, 这就是两两分析能得出来的一个结论。那么还需要注意的一个方面就是这个批值,我们都拿这个批值一般是和零点零五来进行比较, 那么在这里呢,并不能直接拿点零五来进行比较,为啥呢?因为我们把三个组分成了两两去比较,对吧,这样就增加了一些误差。 所以我们在选择交叉表的时候,点击单元格啊,可以勾选上这个调整批值啊,用这个调整批值的方法点击确定。这样生成的这个交叉表啊,下面都会带一个小小的 a, 注意到了吗?啊,这个下标 a 呢,它就是表示啊,这些子级在点零五级别,然后这些列比例之间相互是不是有显著差异,他会给你调整,以后来啊给你公布出来。那么还有一个比较直观的方法,就是如果你 已经得出了这个卡框检验的 p 值,可以直接用点零五来除以三。为什么是三呢?是因为我们有三组,如果你有四组,你应该用点零五来除以四,用这样一个值来啊,代表显著性的水平来和 p 值来进行比较, 如果 p 值要小于点零五除以三,那么就说明是显著的。 好的,这个就是今天想跟大家介绍的整个卡方检验呃,多重比较的方法,觉得有帮助的小伙伴别忘了一键三连。谢谢大家,我们下期再见。