欢迎观看这三分钟玩转数据分析系列。本期我们的主题是蒙娜卡拉,模拟二十世纪四十年代,在二战中美国研制原子弹的曼哈顿计划成员乌拉姆 和防动于慢敏锐的意识到,在计算机的帮助下,可以通过重复数百次模拟过程的方式对概率变量进行统计估计。首先提出了蒙特卡罗方法,并将其用于模拟计算合力变过程的中子随机扩散现象。 由于乌拉姆经常提及他的叔叔用在毛大哥的著名赌城蒙的卡洛书前,因此他的同事戏称该法为蒙的卡洛。 因为赌博和概率密切关联,所以这个命名风趣而贴切并附带神秘色彩,很快就被流传开来。接下来,我们将记忆症来演示这种统计模拟方法的典型应用场景 和软件实现。为了演示摩登卡拉模拟,我们使用这样自带的 teacher 亮本数据集。该亮本数据源自研究归时归玩硫磺三个因子对四个轮胎胎面性能测度的影响实验, 其中每个响应都设置了与之相对应的规格线列属性。通过回归分析,很容易构建三个因子对四个响应的回归模型,并以刻画期的形式动态交互的呈现。 末,点击红三角优化和意愿最大化意愿,我们可以获得一组平衡自由解。由于当前三个因子的设置为场数,因此四个响应军制的估计 也未常说。而通过点击红三角模拟器,我们将因子的设置由固定改为随机。 当前设置的含义是以龟石为例,表明龟石因子的设置源自以一点二为中心,零点二为标准差的正态分布下的一个随机抽样龟纹与硫磺同里, 我们保持默认的实验次数一万次点击模拟。当前模拟结果表明,在这一万次随机抽样因子设置的组合下,四个响应均值估计结果的分布情况,以及在各自规格线的定义下 及不合规的比例。我们可以根据实际业务场景和分析需要变更分布的类型、分布的形态, 添加随机造成因子 来继续模拟响应单直的分布情况,并根据对切线力的接受程度探寻与之适配的公益窗口。 我们还可以 将这一万次的模拟结果输出来,支持更细节的探寻,如基于模拟数据的过程能力分析 和动态交互的可视化分析和关联分析等等。 需要试用账或需要了解更多,欢迎联系我们,谢谢!
粉丝4759获赞4406

本视频讲解抽样检验一、确定检验水平。检验水平对应着检验量表一中给出了三个一般检验水平应使用水平二,除非另有规定。二、确定要检查产品的数量,如两千个产品。 三、确定样本量字码,根据要检查产品的数量两千和检验水平二,即行和列的交汇处的字母 k 为样本量字码。四、确定 a、 q、 l 值,如主要不良取零点六五, 次要不良取一点五五,使用 a、 q、 l 值和样本量字码。从抽样方案表中解锁抽检方案,在抽样方案表中,由字码 k 所在行向右在样本量栏内读出样本量一百二十五, 再以让本量字马所在行和指定的接收质量线所在列相交处读出接收数 a、 c 和拒收数二。 一、检查一百二十五个样本,并对不良品分类,其中主要不良两个小于拒收数。三、判定合格,次要不良五个小于拒收数。六、判定合格。主要和次要不良数都小于拒收数,此批判定合格。六、若在相交处是箭头, 如上例,主要不良 a、 q、 l 取零点一五,则沿着箭头方向读出箭头所指的第一个接收数和拒收数,然后由此接收数和拒收数所在航向左在样本量栏内读出相应的样本量八十,原来样本量一百二十五作废。根据转移规则和程序, 当正在采用正常检验时,连续五批或少于五批中有两批不接收,则转移到加烟检验。使用加烟检验一次抽样方案主表。当正在采用正常检验时,当前的转移得分至少是三十分,则转移到放宽检验。使用放宽检验一次抽样方案主表。

这个主题传单抽样方法先了解抽样的定义,抽样检验是利用 p 或过程中随机抽取的样本,对 p 后过程的质量进行检验。 车辆检验既有科技性,他统计上是具备可靠性的。经济性,只需要从屁中抽取很少一部分产品进行检验。必要性,现代化生产的特点是产量大、速度快一些破坏性检验是必须的。 为了确保能从样本中准确推断总体,必须采取合适的出样方法。简单随机从样。按照随机原则从总体中抽取样本。 总体中每个样门都是等可能性以及独立性时,可以采取简单随机抽样。简单随机抽样的样本比较分散,出样成本一般比较高。看看分成抽样分成抽样是将总体按特性分成,然后在各个层次中 随机。超级样本一般以及人、机、大瓦、房等不同因素进行分成。分成出让可以获得各个成绩的信息,出让的结果比较复杂。

各位同学,现在我们来看一下这个抽烟计划表该怎么用,那么抽烟计划表呢,他会有一个比较 规范的表格啊,这是因为我们已经把它做成了一份文件,所以说他就会有对应的文件编号,编制人版本,还有文件名称等等这些信息啊。当然这些信息呢不是很关键, 在我们今天的培训过程中,比较关键的就是怎么样去使用这张表,这张表里面有哪些信息是比较关键的 啊?这里呢有一个栏目是产品批量范围啊,这是什么意思呢?就是说啊,我们这批货啊,或者说我们经营的这批产品,他总共有多少啊? 这个单位他是可以不同的啊,比如说你可以用根, 也可以用个,也可以用片啊,或者说用啊其他的任何单位。当然不同的单位,他的抽烟方法可能会有一些差异啊,比方说我们我这个产品呢,是以卷的形式啊来体现的啊,比如说我们用的那个针线, 这个线啊,他是一卷一卷的啊,那么就是多少卷或者多少米啊,这是他的单位啊,可能会不同,但是我们的抽量方法啊,基本上都可以 用这个表格来进行参考,比方说二到八,那么呢我们采用的就是把它归类到一种,二到八呢,就 统一的是采用这种车辆方式,九到十五,这个车辆方式,十六到二十五,又是采用一个车辆方式,比如说我们的批量啊,我们的数量越多, 他的范围呢就会越大,比方说最大的啊,五十万啊,零一到更多的,那么我们呢,我们就只会选择 五十万零一到以上,任何的数量都是采用这个抽烟抽烟的方法 啊,那么这边的是什么意思呢?就是说啊,这边的话是特殊警验啊, 特殊检验大家就应该有个概念啊,为什么叫特殊检验呢?有这种情况,第一就是这个产品一旦检验了,那么呢他的产品可能就没办法再继续使用啊,比方说 像那个可靠性测试的啊,可能要进行防火测试啊,如果说这个产品我们 把它进行了一个口号音测试,那么他可能就不能再进行销售啊,所以说,所以说在这种情况下面啊,我们就需要采用特殊经营的 标准来进行经验啊,这里面一般都会涉及到一个什么呢?就是产品的材质,还有产品的一个功能跟性能啊,因为他们产品在生产的过程中呢,都是采用了同样一种方生产方法 来生产的,所以说他的批量一致性应该是会有保障啊,在这种情况下面,我们就可以采用特殊企业的方法 啊,这是特殊锦衣。在古代的话呢,这个呃皇帝的饮食啊,我们一般都会,就是宫里呢,都会组织一个试吃人试吃的啊,就是这个菜做好以后一定要先给 一个台阶吃一下啊,吃了以后这个台阶呢,没问题啊,那么呢在 给了个皇帝去吃啊,所以说在古代啊,有一些职位也是比较比较危 简单啊,但是呢他也是比较简单的,就是说你是拿着命去替皇帝啊去做测试,像这种的话呢,就说 那么他不可能把你把这个菜全部给你吃完,再去给皇帝吃,那么他只能说从这些菜里面每一盘菜啊,随机弄一点出来给这个试吃人去吃,对吧?这就叫特殊情谊 啊,这里一般经营呢,就是指的是能够啊,正常去经营的,在不伤害产品 功能,性能还有使用效果的啊这些方面呢去进行检验,也就是说他不会影响产品的二次销售啊, 就采用了一般锦衣标准,这两个锦衣标准有什么特点呢?越是特殊的锦衣标准,那么他的锦衣数量会越少啊, 一般的经标准呢,他的经数量就会越多,那么我们就通,然后这个这里的这个数量是怎么选择的啊?这个是企业自己灵活去把控。如果说我们要学习的话,我们首先要知道这个 a 我们下一步应该怎么办呢?先把这个 a 看完以后啊, 这个表大家先把它看熟,看熟了以后呢,我们就会针对啊,比方说我们先看一个批量数,是一百的这个数啊,一百,那么一百的话,我们应该选择 这一个档位,九十到一百五,他是这包括了一百的,那么呢这个数啊是不同的公司,他选择的 a、 k、 l, 就是车辆水准会有一些不同,那么呢一般尺寸类的企业啊,因为他生产的过程中呢,都是 一致的,所以说我们就选择 s 杠二啊,就是选择 b 这个车辆数,车辆代码, 然后呢外观紧,还有其他的紧要采用 f 这个值,所以大家现在把这两个值啊,要记住,一个是 b, 一个是 f 啊,那么这两个值在不同的车辆计划表里 面,他的意义呢?会有一点不同 啊,那我们首先看的这个是一般抽样水准 啊,刚刚那个评论群的 b 啊, b 的 啊,选择 b 的看,大家可以看一下啊,选择 b, 那么 b 的话呢,他的车辆数就是三个啊,所以他车辆数据会非常少啊,选择 f 的 啊,他的说明书呢,就是二十啊,这就是他们的抽象数量啊,大家把这两个数数啊一定要搞清楚啊,就他的 进行数,比如说一盘菜上来了,那么我只能啊加两块或者是加三块, 但是呢,我必须要把这个这盘菜啊全部用眼睛去看一下,看他上面有没有昆虫啊,或者说一些低级错误啊,他的色香味 是不是正常的是吧?是这个可以是全部,可以看到百,呃,看到二十这个数量,这是这两个抽象数。 好,那么呢,在车辆书里面还有一个标准,就是说他可以定量啊,可以直接定量,就是说 呃,尺寸的只抽查三个也是可以的,第一个三个呢就是全景,这也是一种抽奖方法。好,那我们大家看到这个 表啊,就会发现这里有一排数字,那么这个数字是什么意思呢啊?这个数字就叫 a k l 值啊,这个值呢会决定呃,这批货我们 能够接受的一个水平啊,或者说我们容忍他出质量问题的 数量,这脚一定要直 啊,这些都是 ak 二纸。那么每一家公司呢,只需要选择 几个重要的啊,或者说适合你们公司的一个判定标准就可以了啊,根据你们公司的产品的重要程度啊,比方说步行灯 零点零一的可不可以呢?也是可以的,选择零点零一意味着什么?就是我抽抽查一千二百五十个都只能允许哦, 零个不良品,一个呢就退货,也是基本上是达到了千分之一的呃许数标准啊, 也就是比较严格的啊,但是如果说我选择呃一零年,那么呢就可以达到 十三个里面零收一退,也就说十三个里面,我发现有一个 两瓶就退货,但是呢在五十个里面呢,有 一个不良品他就接受,也说在这个一点零的车辆表,车辆标准里面啊,或者说到 akl 值的判定标准里面, 他是容许有百分之二的不良存在啊,也也就是说一百个里面有两个不良品,那么这批货呢,我们还是继续接收,但是如果超过了两个啊,是三个, 那么这批货我们就要退货啊,这就是微客要值的一个作用啊。 一般企业的话呢,就是针对比较工,针对功能性问题啊,或者说比较重要的一些关键问题啊,就是采用的是零容忍,就是零收一退的标准啊,然后呢针对一些呃非功能性问题啊,只是 一些外观性问题啊,或者说不会引起客户投诉的那些问题啊,我们就选择熟一点的标准,然后针对外观缺陷啊,一般是用 是这个标准,两收三退,三收四退,当这个是跟你的抽样数有关,抽样数不同,那么你的判退标准呢,就会有一些不同,这是 这个表啊,这个表里面有一个镜头啊,这两个镜头一个向上一个向下啊,这里的话呢,大家一定要有个概念,就是 如果说碰到了镜头怎么办呢?就一定要选择镜头下的一个车辆方案啊,就是本来计划车辆数是五十个, 结果到这里以后呢,发现他这里是个镜头指向下了,那我就必须要选择下一个抽烟计划,就是选择巴士这个抽烟的方案, 这串数我必须要增加啊,答案,这个表的话啊,他设计的话呢, 这样是抽样就会有风险啊,所以说必须要承受这种风险啊,一旦退货就意味着这批货呢必须要退回去返工啊。 这里给大家说一个小故事啊,就是以前呢,在二战的时候,大量的军用物质呢需要进行检验, 当时美国军方就要求这个降落省降落省的生产厂家确保这个降落省的和量要达到百分之百。那么当时呃负责去跟这个军方谈判的这个工厂负责人呢,就说 这个做到百分之百不可能啊,太难了啊,就是我们这个,你说我们做个十万件产品,一个不良品都不允许,这怎么可能呢 啊?但是美国军方呢就采用了一种新的行进方式,也就是说 每一次去送货的时候呢,都要这个降落伞的生产厂家负责人啊亲自过去,然后呢从这批降落伞里面 随机抽两个啊,有这个军方的随机抽两个,让这个生产厂家啊这负责人呢带到天上啊,背着降落伞跳下来, 那么他说通过这种方式啊,呃,美国呢就把降落伞的合格率一下子提高到百分之百,因为 当这个企业负责人发现这个产品跟跟自己的生命啊 切实相关的时候,那么呢他是非常重视这个品质管理的,也就是说这种方式对于品质管理来说呢,是是一个经典案例啊,就是告诉我们品质 是必须要企业负责人亲自来抓的,如果说企业负责人不重视,那么工厂的品质他就会 很难控制好。那么今天给大家分享的这个车位计划表啊,就分享到这里,如果说大家对 品质管理知识啊,有兴趣可以关注我的,关注我 同时呢可以跟我讨论这个关于品质方面的问题啊,可以相互讨论。 我是图书峰老师,是专业做企业管理培训的,谢谢大家。

大家好,这一次的内容是我们的 hp 层次分析法,那么 hp 层次分析法呢? 啊,他的事实上呢,在我们现实之中的应用中呢,有两种啊,一种呢是他的啊,最实用的比较多的一种叫做啊综合评价里面进行使用 啊,这里就下面的这种,比如说目标层,准测层,方案层的这样一类东西,它它是其中的一种应用啊, 那么举个例子啊,比如说现在想去,呃聚会,对吧?啊,同学之间聚会,或者是说公司里边要进行一个团建要聚会,对吧?那么聚会之后呢,那 谁说了算呢?哎,大家科学评价,那么就呃找了三个指标啊,就准测成,其实就是啊,比如说 a 是 指的是这个啊,地理位置对吧?哎呀,方便一点啊,或者是怎么样啊?准车城 b 类是指的是这个价格啊,公司或者同学之间的这个对于价格也比较看重啊, 还有一个准测成 c 啊,那么还有一个就是他的环境,环境,对吧?啊,拥挤程度啊,就那个聚餐的地方不要太挤了,因为人比较多嘛。啊, 那么最终呢,通过这三个指标来判断啊,那最终你可能有方案成这个有方案成一,方案成二,方案成三,又是什么意思啊?最终决定去去去,去吃这个啊,比如说去吃火锅啊,还是去吃这个中餐,也或者是去吃海鲜,对吧? 你其实是要决定一个事情,要聚餐,要就就就要选择一个什么样的啊餐馆,或者是说啊吃什么样的这个啊类型的这个 聚会的那个餐饮,那么啊用了三个指标啊, abc 啊,准射层,最后呢有三个方案层啊,来进行决策,这是他的其中的一种应用 啊。另外一种还有一种应用来是这个构建指标啊,各表指标的一个权重啊,包括了啊,比如说这里指标体系啊,他下面又分了 abc 三个指标,二级指标啊,三级指标呢,又分为 a 一, a 二 a 三,对吧?或者指标 b, 嗯,他对应的三级指标又 b 一 b 二 b 三啊, 啊,为了构建一个指标嗯的一个权重体系,那么这是他的第二种应用。那么无论是第一种这种综合评价的应用,还是说这种单独计算权重的应用, 他都是一样的东西啊,只是说应用场景不一样。 一种是用来做决策啊,第二种呢,是纯粹的只是计算了这个权重啊,只是计算权重,那么 他们二者之间的啊,应用不一样,但是他的数据来源是一样的,都是要做一个什么东西啊,叫做判断矩阵。什么叫判断矩阵的 啊?你既然说你刚刚说的这个,你要去什么聚餐,对吧?聚餐有三个指标啊,包括这个价格,然后地理位置,还有这个拥挤程度啊,那么这三个指标之间啊,整体来说大家对这个看法可能不一样,有的人觉得说这个价格更重要一点,有的人说这个环境更重要一点,对吧? 啊,有的人说这个地理位置更重要一点,那么综合来算呢啊,到底三个指标之间哪个更重要一点啊? a 相对 b 或者 a 相对 c, 哪个更重要一些啊?或者是 不重要一些,那么用这种数字去标识出它,那么这种就叫做我们的判断矩阵啊,啊,以及指标体系也是一样的啊,指标体系像构建这种指标体系权重的也是一样的,一模一样的啊。 那么接下来用这个 spsu 系统来看一下啊,看一下他的这个啊,数据格式啊,跟啊,我们看一下这个帮助手册吧。啊 啊,比如说这个表格啊,比如说这个表格,那这个表格呢,他有四个指标,对吧?啊?他判断出到底去哪旅游啊,选择四个指标,景色、门票、交通和拥挤程度,那么这里面有数字,对,这里边的数字呢,就是专家打分的啊, 专家进行打分的也就是够。这个表格呢,就是我们的判断矩阵,数字代表什么意思呢?比如说这个数字三 啊,他代表着这里堆过去是门票和景色,对吧?啊?横纵横向是门票啊,纵向是景色,他代表的意思是说门票相对于景色来讲更重要一些 啊,那么数字二呢,也是大一的,对吧?也是交通比景色更重要一点。 另外呢,拥挤度相对于我们的景色来讲呢,也更重要一点啊,因为他的数字是二,而这里数字一,景色和景色之间他的数字当然是为一的, 以及呢这个斜对角线啊,他都是唯一,因为自己相对自己肯定是一样的,重要吗? 那么另外呢,还有这个上三角,这里零点三三三三三,你刚刚不是说了门票相对于 景色更重要吗?数字为三,那么反过来景色相对于门票是不是就不那么重要了?所以说呢,他的上三角啊,这里的数字 上三甲的啊,数字来,他其实是下三甲的,倒过去的,倒过去啊,比如说这里是三,那么这里就三分之一啊,这里是二呢?他对过去这里叫二分之七啊,因为你这里啊门票相对景色更重要一点,那么景色相对门票就不那么重要,所以说就是 三分之一,零点三三三三三,对吧?啊?那么这个数字到底打多少合适呢啊?没有固定的标准,有的是一到九分这样子打,有的是一到五分这样子打, 哎,也可能一到三分这样子打,都可以,都是由专家进行打分的啊。我们来 来看一下这个 spsau 的操作啊,你比如说我们这里,对吧?我们这里第一个指标可能叫做景色啊,第二个叫做这个,比如说叫啊拥挤程度吧,啊?拥挤度啊, 比如说你在你数一个数字三,对吧?数字三,那就是说拥挤度比这个景色更重要一点,是这个意思吧?那反过来,这里就零点三三三三啊,这里你不用,你不用处理啊,他系统自动会呃,帮你转转换的啊。你比如说这这这个,你数个二,对吧?啊?数个二,你这个叫做啊? 这个这个叫做交通吧,啊啊啊?交通便利性啊,对吧?这里是数字三啊,那对过去,呃,这里就零点三三三,一样的,那相对来说拥挤程度和交通便利性都比较重要,而且都一样重要,那景色其实不不那么重要,还有这个指标四 也不那么重要吗?啊?对吧?那你点这个开始分析啊?啊?默认出来的就得到这个 这个这个什么权权重了啊?你比如说拥挤程度,对吧?刚刚和这个交通便利写,他明显比景色更重要,所以说,而且他们数字都是三嘛,所以说这两个算出来的这个权重是一样的啊,百分之三十点六二五,对吧? 至于下面的中间的,像这种最大特征跟 ci 值啊,或者像这个随机一次性表格 r i 值啊,一次性检验结果啊,对吧?啊,或者是像像下面这个图案,他只是一些那个更重中间的一些啊,计算过程,那最核心的,其实你就是要得到这个权重,对吧?啊, 那么啊,这个呢,就是最核心的就是 hp 层次分析法了,那事实上呢,你只要提供这个判断局则,那就能计算得到 这个权重,那么和我们的实际应用上呢,又有一些区又又又有一些的那个概括好了,我们来举例子来说明一下,你刚刚比如说这个, 我们这个准则成 abc 三个,对吧?已经得到他分别权重了,那么我们到底怎么样得到这个?到底选 a 方案成一还是二还是三呢?那怎么办呢?你方案成一可以得,呃,分别在这三个指标上 可以打一个分方程,二呢,也可以在这三分指标上分别打上,呃,打个分,分成三,分别打分,分值呈上权重哪加一下不就得到一个综合得分吗?那综合得分哪个更高呢?就说明呢应该选择对应的哪一个方案,对吧? 这是用这种目标准测和方案的这种综合评价的这个综合评价决策的一种做法。 那么如果说是构架构建我们的指标体系呢?那比如说你在 abc 二级指标,对吧?那么 指标 a, 指标 b、 指标 c, 是不是可以专家打分一下得到一个指标 a, 指标 b, 指标 c 的这个啊,权重,对吧?那么类似的,那 aa 二 a 三他的权,那个权重怎么计算呢?那 aa 二 a 三又让专家打一次分,得到一个判断局,在 b 一 b 二 b 三又让专家进行打分,得到一个判断矩阵, c 一四二 c 三也是一样的啊,就得到好几个判断矩阵,分别计算权重,那么就得到最终的权重体系了。 那比如说 a a 得的权重是百分之四十, b c 是三十啊,假设啊, a 一是百分之四十,三十三十,对吧?那最终 a 一的权重应该怎么算呢? a 的权重呈上 a 一的权 权重啊, a 二的权重怎么算呢? a 的权重乘上 a 二的权重就得到了啊。我们看一下这个 excel 表格里面啊,比如说这个 a 一最终呢权重等于多少? a 算出来,有 abc 做了一个判断局阵,得到 a 的权重,对吧?指标 a 的选中,那么 a 二 a 三又是一个判断局阵,得到一个啊, a 二二三分别的权重,那么指标 a 一最重要权重,这个指标 a 的权重呈呈上指标 a 一的一个权重,不就得到他 最终算出来的全部的这个三级指标加和为百分百的一个选中哦,那么就是用这种累成的方法就计算出来了,那么这是我们指标体系的一个构建。 那么在做这个啊,操作或者分析的过程中呢,会遇见一些问题啊,啊,那么我们接下来讲一下,比如说这个 多个专家打分,那怎么办呢?啊?比如说你这个准测成 abc, 对吧?啊?有十个专家打分,那你就有十个判断矩阵了,那十个判断矩阵你不能算十次,对吧? 那一般的做法呢,是把这个专家打分给他计算平均啊,计算平均值得到一个判断矩阵,然后再来做这一个啊啊,权重计算啊,这是一个,第二个是像这种啊,二级三级指标的这一种啊, 那么其实有二级三级指标的时候啊,他事实上啊,不管你二级指标还是三级指标,反正你有这个判断矩阵,他就能进行计算啊。啊, 如果另外呢还有个这种指标体系的构建的时候啊,通常啊,他不只是只用了一个 hp 这一种方法,他可能和其他的方法配合使用啊,得到全球体, 比如说和这个桑植法啊,桑植法在这个 spcu 系统里边的这个啊桑植法啊,他们匹配的很多的啊,或者是其他的,像这个 crtsa 权重方法啊,这个就是自己进行选择使用的啊,或者是组成分分析法之类的啊,这个是需要自己进行选择使用的啊。 另外呢还有一个这个在这个啊, ri 者的这个外部并不是完全一致的啊,这个需要说明一下哈, 比如说我们的这个 ri 者,事实上这个随机性,随机一次性 ri 指呢,他是测量好的,已经比较固定好的,但是你会发现有的纹线他并不完全一样,这是非常正常的啊,非常非常正常,但是他的啊精确度呢,只会差距在零点零零一啊,这样子啊,这是很正常的啊, 这是啊啊,随机性啊, rig 啊啊。另外呢还有一些啊,计算方式上啊,这个 spsau 系统啊,他提供了两种,一个叫合集法,一个叫方根法啊,他只是计算的方式上啊,不太一样,但是事实上结论上基本上是一样的啊。 啊,出资之外呢,还有一个叫做一次性检验啊,什么叫一次性检验?我们看一下这个 spcu 系统里面啊,这是这个表格啊, 一次性检验指的是说你比如说啊,指标 a 比 b 重要,对吧? b 比 c 重要,那么正常情况下, a 肯定比 c 更重要了,因为你 a 比 b 重要, bbc 重要,那么 a 一定会比 c 重要,但是呢,如果说你的判断局这里出现了一种情况,叫什么啊?你比如说啊,拥挤座相对于景色更重要,对吧?那么 景色啊,景色相对于这个便利程度更重要啊,比如说哈,那这个是零点五啊。啊,输一个零点五啊, 那就说明那是啊,拥挤度比景色更重要啊。不,那个拥挤度比景色更重要,景色比 这个交通便利程度更重要,因为这是数字二,那么意味着拥挤度一定会比这个指标四啊,那个交通便利系更重要,对吧?因为 你拥那个拥挤度比景色重要,总景色比这个交通便利性更重要,那么意味着拥挤度一定会比这个交通便利性更重要,但是呢,你会发现拥挤度和啊这个交通便利性之间啊,那么你现在 这个数字为机,对吧?如果为机,那么意味着说你这个人出现了这种逻辑性的问题了,那么出现这种逻辑性问题,他肯定是没有办法通过的啊,看到没有?没有办法通过了, 所以说如果说你出现这种一次性检验不通过,那一定是出现这种逻辑性问题了。就像我刚刚说的啊,拥挤度比景色更重要,景色比这个交通便利性更重要,因为这个数字二,那么意味着拥挤度一定会比我们的这个交通便利性更重要, 但是呢,你会发现拥挤度和交通便利性之间呢,它的数字为一,它是一样重要,这不犯了逻辑问题了,所以说呢,就会出现问题啊,这是我们这一次的 hp 城市分析法,但 hp 城市分析法啊,它的具体的这个实际的这种分析啊,包括 做什么最大特征跟然后这个,比如说这个啊, cr 值,这个这个一次性检验,怎么样去检验的啊?通过这个什么啊,我们的 cr 值来进行判断啊,像这些来参考这个 spcu 的这个智能分析。好分析建议啊,那直接分析就可以了啊。 啊,当然了,下面像这种图呢,他会帮你列出来啊,方便你使用的啊,这是我们的 hp 城市分析法,也是这一次的内容啊,谢谢大家。

小伙们大家好,很久没跟大家见面了,嗯,之前的话就是发了这个 a k l 抽样水平的课程之后,然后很多小伙伴留言就是说还有一些疑问啊,还有就是说里面还有一些没有讲解清楚的地方,所以我针对大家的疑问啊,做一次答疑的讲解吧。 好,大家可以发现哦,之前的那个课程的话,我是单纯的只写了 g b 二八二八,嗯,这里的话我加了个 iso 二八五九,嗯,是因为我最近的话在跟国外讨论这个标准的时候, 然后就是说大家好像就搞不清楚应该到底参考什么东西啊?其实这个后来我发现这个 oso 二八五九跟这个二八二八其实是意气同工的一个东西,只是说在国际上,比如说欧美国家会比较用这个标准,所以大家在碰到这个的时候,脑子里就第一时间想到我们的二八二八,哦, 然后就是说,嗯,有有学员就问我就说这个 a k l 到底是怎么定义的?谁来定义?嗯,这个的话其实我之前有课程也讲过,当然是研发的品质工程师,或者是说品质设计的工程师,嗯,他会根据就是说我们产品的一个设计, 嗯,根据他的一个飞马,然后来知道哪一个特性对最终产品的影响是什么,嗯,就是具体我们的这个产品的每一种嗯特性,哪些会被定义成 a, 哪些会被定义成 b 呢?还会被定义成 c, 然后这的一个文件给到给到大家,并且就是说明确我们的嗯什么样子的,嗯,缺陷需要就是说什么样子等级的一个远收。好,那大家可以看到我这个截图啊,我这个截图的话就是说啊,上面 是按照 cab 这样子的,然后每个公司可能不太一样,就是有的公司可能是 abc, c 是最轻微的,有的公司 cba, a 是最轻微的,那这个标准里面它是 b 是最轻微的, 所以说在这里的话,大家可以看到就 c 跟 a 的话都是后面的抽允收的话是 c 等于零, c 等于零其实就意味着是零缺陷,不管你抽样多少,只要有一个不良,就是说都是不可以接受的。然后 b 的话他后面写的是 a、 k、 l 等于一点五,对吗? 好,那什么是嗯? c 类圈什么样子的被定义成 c 类圈?一般情况下我们根据我们的行业行业的不同,比如说什么航空航天呀,然后嗯,医疗设备呀, 然后汽车呀,家电呀,家具呀什么的,就不同行业他其实对于整个的这个特性啊,这个严重度的话也是不一样的。 然后有一些行业的话,国家会有很多的标准来约束你,那首先的话不能违反国家的这些法律法规的定义,对不对环境要求呀,法律法规呀,安全性呀的,对吧?然后你看下面他也写了,就是说对用户和周围环境造成危害的故障, 然后就说强制批准要求的故障,对吧?就是这这些的话被定义为成就说最关键的特性。然后其次的话就是说设备功能性的故障啊,电器功能不好呀,或者是开关功,什么开关呀,使用呀,嗯,会对,就是 嗯,我们的就是说嗯长期使用的过程中,比如说我们常见的什么盐物呀,还有就是嗯耐刮擦呀之类的这种功能性的故障,对吧?然后那那那排除了上面两个故障,大家可以 设想一下,针对就是我们的单品零件也好,针对我们的就是总装的一个嗯车子呀,或者一个嗯厨具啊,电器啊的这种什么才能被定义成就是最轻微的缺陷?毫无疑问吗?外观吗?对吗? 哪怕你尺寸的,嗯就是不良,他最后可能在表象上形成,形成的也是外观的,对吧? 所以就是说也有的学员会问,我就是说,哎,我按 a k 要来出的话,我为什么还有的就是说我出减,比如说出减三十二件啊,然后就是呃,有有零收一退,还有就是三收四退,嗯,为什么有不良的还可以接受,那这里就解就给大家 解释清楚了,就是说当他是一个嗯,就是说嗯 c 类缺陷啊, b 类缺陷或者 c 类缺陷,就最轻微的那个缺陷的话,他是允许就是 能够被允许的,就不会对我们的,就是说最终嗯造成一些就是功能的问题啊,法律法规的问题啊,对吧? 好。然后还有同学就问我,哎,我听你讲解完了之后,我这个表我还是不知道呀,不知道怎么看呀?好给大家举一个例子啊,就比如说我们这个班次 啊,一共送点了二百五十个产品,我要抽点多少?那首先呢,我们要根据我们就,嗯,我刚刚也讲了,就研发阶段就是我们的 q 一给我们的这个文件看一下,查询一下他有没有定义抽奖水平,他没有定义,你要去找他,他的问题他不专业, 然后他一定要定义出来就是不同的这个嗯特性的等级,然后定义出来抽奖的水平,抽奖水平假如说他是按一般水平二级的话,我们一我们大多数情况都是一般抽奖水平二级。哦,然后就是参考这个字母代码记,字母代码记的话,大家可以看到我已经用这个卡其色声卡, 卡其色给大家标志出来了,就是说啊,如果按照我们这个 ppt 里面刚刚讲解的,如果说我 aq 等于啊,零点一五的时候怎么看呀?大家可以看到我这打了个星星啊,就是说这个卡其色跟这个星星 可以看到就是 aql 刚好等于零点四的,那如果不等于零点四怎么办?零点四的时候刚好就是零收一退嘛,对吗?然后也就说我抽奖三十二件 啊,对,刚刚漏讲了,就是大家看到就是字母代,字母,字母代码记,样本代码记这里啊,抽件抽样数的还是三十二,也就是说我二百五十斤,我要抽三十二件对过来, ok, 要等于零点四的时候,就是说零售已退满啊, 这个应该没有什么疑问。好,如果说按照我们刚标准里面讲的就是零点一五对下来的话,哎,他就没有,但是呢他都路过了。一个就是说朝下的箭头我们可以看到,就是说再回过来看这个朝下的镜头,第一列出现这个速速 数字的这列对过去的话,就对到了八十意味着什么?意味着就是说两百五十件,如果 a k 要等于零点一五的话,我们要出减八十件,如果等于零点零一五的话,我们要出减八百件。好,八百比两百五还大怎么办?我还要再补吗?不用的啊,就是说如果他比两百五就还要大,你就出减两百五十件就好了,也是零售一退。 好,那我们再看看。嗯,如果 x 要等于四点零的话。哎,那就太好了,他刚好下面有数字。就是就是回答了刚刚的那个问题啊,就是说我 两百五十件抽奖三十二件,发现了三件不良的时候可以接受,可以放行,发现四件不良的时候就不可以放行,这就是刚刚那个疑问,就是说为什么还发现不良,然后还可以放行,就是按照这个来的。哦,然后当然这个肯定也是,就是说刚刚说的是最轻微的那类切缺陷才采用这个 a q l 来定义, 像我们影响功能的影响。嗯,法律法规的都是都是零缺陷的标准啊。 好,那我这样子讲解的话,先大家都已经比较清楚了,如果还有什么问题的话大家还可以留言,就是后续的课程的话再做讲解。希望就是这次的讲解的话给大家能带来帮助吧。好的,谢谢大家。

这节课我们一起来学习分层随机抽样。首先我们来看一下简单随机抽样会出现的极端的现象。 我们在做抽样调查的时候,他的最核心的问题是样本他一定要具有代表性,我们抽取样本一定要具有代表性,但是呢,在简单随机抽样呢,会出现一个什么样的情况?简单随机抽样是使总体中的每一个个体都有 相等的机会呢,被抽中,但因为抽样的随机性,可能会出现比较极端的样本。比如说我们看这样的一个例子, 在对数人中学高一年级学生平均身高的调查中,可能会出现样本中五十个个体,大部分来自高个或者矮个的情形。比如说我抽取的五十个样本,要么都是 男生,要么呢都是女生,如果都是男生呢,那么他的个子会比较高,如果抽取的五十个样本呢,不小心都是女生的话,那么他的平均值呢会比较低,这就是比较极端的情形, 这种极端样本的平均数呢,会大幅度的偏离总体平均数,从而使得国际出现较大的误差。比如说我们看这个题, 在数人中学高一年级七百一十二名学生中,男生呢有三百二十六名,女生呢有三百八十六名。 现在呢,我们要抽取五十个样本,来估计数人中学高一年级的平均身高,怎么样避免这种极端情形出现?就是说怎么样避免挑出来的全是男生,或者是全是女 女生,或者出现那种全是高个或者矮个提醒呢,那么我们就按比例来抽取,这里呢男生是三百二十六名,男 男生呢?男生的样本,我们该怎么样出男生的样本呢?他男生是三百二十六名,那么他在总体高一年级的比例说多说 是多少,那么我们就除以七百一十二就行了,这就是男生他在高一年级所占的比例。现在呢,我们要抽五十个样本,那么乘以五十就是我们要抽取的男生的样本量约等于二十三的样子,那 同样女生的样本量是多少呢?女生的样本量是女生三百八十六米,三百八十六米,然后呢,除 除以总体的七百一十二个高一年级的所有学生,然后呢再乘以五十,我们要抽取五十的样本,约等于二十七的样子,注意所抽取的二十三加上二十七呢,就是等于五十我们要抽取的样本量。那么 这种情况呢,我们就可以避免极端的进行,那么这种情况抽样的方式呢,叫做简单随机抽样,但是呢,我们前面要加个分层,接下来我们来了解一下分层随机抽样的概念。 一般的按一个或多个批量把总体划分成若干个子总体,每个个体都属于,且仅属于一个子总体,在每个子总体中独立的进行减, 简单随机抽烟啊,比如说刚才我们发昏成了两个两层,那么两个直中体,一个直中体呢是男,一个直中体呢是女生。 现在呢,我们要在每一个字总体中进行独立的进行简单需求。要在男生里边进行独立的简单需求。要在女生里边也是独立的进行简单需求。要 再把所有子总体中抽取的样本合在一起作为总样本,抽取的样本,作为总样本,总样本量还是和我们要抽取的样本量是一样的,把他们样本量加起来还是和总样本量是一样的, 这样的抽样方法呢,我们称为分层随机抽样,每一个子总体呢称为层,这是一层,这也是一层。在分 分层随机抽样中,如果每层样本量都与层的大小成比例,样本量都与层的大小是成比例的,那么成这种样本量的分配方式呢?叫做比例分匹配,比如刚才我们做的就是按比例来做分配。 接下来我们做个练习题来看一下,为了保证分层学习抽样的时候,每个个体等可能的被抽取, 必须要求是一定要注意,这里说的是分层随机抽样,但是呢,每个个体等可能的被抽取,这样分成了,那么我们一定要注意有一个比例问题, a 选项,每层等可能被抽取,等可能,那是不一定的,因为如果每层他所在有的 指总体里边,他的数量是不一样的,那么他抽取的数量也会不一样,他的样本也是不一样,那么他的概率呢,也会不一样。所以呢,每层等可能抽取不对, 每层抽取的个数是相等的,也不对。刚才我们说男生呢是抽二十三,女生呢是抽二十七,按比例来抽 谢选项,每层抽取的个体数可以不一样,多对,我们刚才男生会少一点,女生会多一点, 但必须满足抽取。 n i 是等于 n 乘上 n 大 n i 比上 n 是什么意思呢?这里说的是爱呢是乘的序号, k 呢是总乘数,有多少乘, i 是等于一到 k 这样的一个 取值范围是总的层数,比如说刚才男生呢,男生是一层, 我们用恩一来表示,女生是一层,用恩二来表示恩一呢,是等于小恩乘上恩,大恩一比上恩,那么恩二呢,也是等于小恩乘上大恩二比上恩。好,我们看一下这个公式对不对? k 呢是总的乘数, k 呢,我们这里因为男生女生 k 就是等于二。 n 呢为抽取的样本量, n 为抽取的样本量,也就是刚才我们要抽取的是五十,这里呢, n 是样本量,是五十 分开呢是 d i 层中的个体数。 d i 层中刚才男生中是多少?三百二十多,女生呢是三百八十多,那么 n 呢,是 是总的样本量,他里边的第二层的个体数除以总的样本量,再乘以样本总的样本量,那么就是第几层,他的样本数量是没有问题的,所以 c 选项是正确 选项,只要抽取的样本量一定,那么每层抽取的个数呢,是没有限制, 那是有限制的,一定要按这样的比例来进行抽取,样本量是固定的,比如说我们刚才抽取五十是一定的,但是每层抽取的个数呢,他是有限制,是按比例进行抽取,所以答 答案选呢 c 选项。接下来我们再来看一下分层随机抽央的古迹功能,这里呢公式比较多,但是呢比较好理解。我们来看一下,在 分层随机抽样中,如果层数分为两层,那么第一层和第二层包含的个体数呢,分别是 m 和 n。 比如说刚才高一年级中有两层,男生是一层,女生呢也是一层,那么男生的个体数呢,是三百二十几,我忘了哈,女生的样本数呢是三百八十几啊,女生的个体数是三百八十几。抽取的样本量呢分别为小 m 和小 n。 刚才 像我们抽取的样本量呢,小 m 是二十三,小 n 呢是二十七,但是他们加起来呢是等于五十的。现在我们用大的 x, ex 二一直到 xm 表示第一层 各个个体的变量值。第一层所有个体的变量值,那么有个体就有样本,用小的 x, ex 二一直到小的 x 表示第一层的样本的各个个体的变量值。这里呢是样本,这是个体好用大写的 y e 到 y n 呢,表示第二层各个各个个体的变量值。小的 y e 到 y n 表示第二层的各个样本 样本的变量值。现在我们第一层的总体平均数和样本平均数该怎么来算?第一层的总体平均数 是等于第一层的各个个体的变量值,加起来除以第一层的个体数。大的 m, 第一层的个体数大的 m, 第一层的个个 个体的变量值。那么第一层的样本平均数呢?样本平均数是第一层的每一个样本的变量值, 除上第一层的样本量,同理,第二层的总体平均数和样本平均数也是如此。第二层的整体的平均数是等于第二层的每一个个体的变量值,加起来除以第二层的他的个数 样本平均值呢?第二层的每一个样本的变量值除以第二层的样本量就可以了。接下来我们看一下总体平均数和样本平均数。总体平均数是等于第一层, 注意哈,是等于第一层,这里没有除上 m。 第一层的每个个体的变量值加起来,再加上第二层的 每个个体的变量值,除上第一层的个数,加上第二层的个数就可以了。就把所有的第一层和第二层所有的变量值加起来除 除以第一层和第二层的总体数,那么他的样本平均数呢?第一层的样本每一个样本的变量值加上第二层的每个样本变量值,除上第一层加上第二层的样本量。 用这样由于用第一层的样本平均数,可以呢估计第一层的总体平均数,用第二层的样本平均数呢,可以去估计第二层的整体平均数,那么我们可以用这样的公式得到大的 m, 大的 m 是表示什么?大的 m 上面说了是第一层的个体数,第一层的个体数呈上第一层的样本平均数 加上第二层的个体数,乘上第二层的,要么平均数除以第一层加上第二层的整体个数,那么这就是 用第一层和第二层的样本平均数去估计总体平均数,那么得到这样的一个等式是成立的。接下来我们再来看 国际总体平均数,此比例分配的分成学习。抽象中呢,小的 m 比上大的 m, 是小的 n 比上大的 n, 那么 是等于大 m 加上小。呃,大 m 加上大 n, 分之小 m 加上小 n, 这个等式他是成立的,因为我们是按比例分配,看一下,按比例分配,所以这个等式也是成立。 那么我们得到最终的一个等式大 m, 这里哈,这个式子是在这边 大 m 比上大 m 加上 n, 然后呢乘上第一层的样本平均数加上大 n 比上大 m 加上大 n 乘上第二层的样本平均数,它是等于小 m 比上小 m 加上小 n 乘上第一层的样本平均数 加上小 n 笔上小 m 加上小 n 乘上第二层的样本平均数,那么就得到了这样的一个十字, 所以呢,在比例分配的分层随机抽象中,我们可以直接用样本平均数去估计总体平均数,所以我们得到了这样的一个式子, 这个等这个式子呢,是从这里得来的,而这后面这个式子呢,是从这里得来的,因为我们按比例分配,所以这个等式是成立,这是有关分层随机抽样的国际功能。 柿子比较多,大家可以再去看一下,接下来我们做一下练习题。共享单车为人们提供了一种新的出行方式,有关部门对使用共享单车人群的年龄分布呢进行了统计,得到了如下的数据, 年龄在十二到二十岁呢,占了百分之十四,那么他所占的比例呢是百分之四,二十到三十岁呢,是百分之四十五点五。三十到四十岁呢,百分之三十四点五 十到五十岁呢,百分之六,所以呢,主要是在这个年龄阶段。那么现在问题来了,为调查共享单车使用买 一律情况呢?现采用分层随机抽样的方法,从中抽取容量为两百的样本进行调查,那么应该抽取二十到三十岁的人数为多少?二十到三十岁的比例在这里 百分之四十五点五,现在呢,样本量是两百,所以我们只这样按比例进行 抽取呢,所以我们只要按这个百分比乘上样本量就行了,那么这里和这里约去,刚好是等于九十一。答案就选 d 选项,按比例进行抽取,这是有关 mist。 最后我们来做一下小结,那么这节课呢,主要学习了两个知识点,什么叫分层学习除药,什么叫分层? 随机抽烟的一个古迹功能,一般的按一个或多个变量把总体划分成若干个字,总体。每个个体属于前行, 仅属于一个子总体。在每个子总体中独立进行简单学习抽样,再把所有子总体中抽取的样本合在一起,这是合,合在一起作为总样本。这样的抽样方法呢,称为分层学习抽样,每一个字总体称为成。 在分层取出中,如果每层样本量都与层的大小成比例,那么这样的 样本量的分配方式呢?叫做比例分配。在分层数据抽样中,如果每层数分别为两层,第一层和第二层呢,所含的个体 数分别为大 m 和大 n, 出取的样本量呢,分别为小 m 和小 n。 那么接下来会有这样的一个等式,他是成立的。大 m 比上大 m, 加上大 n, 乘上第一层的样本平均数,加上大 n 比上大 m 加上大 n 乘上第二层的样本平均数,它是等于第二啊,第一层的样本量比上, 这里呢是样本总量乘上第一层的样本平均数,加上第二层的样本量比上样本总量乘上第二层的样本平均数。那么这 这是在比例分配的分层。实际上中,我们可以直接用样本平均数去估计总体平均数,是这样的一个等式。那么这节课呢,我们就讲到这。

好,飞雪确切概率法的操作步骤其实和卡方检验类似啊,飞雪确切概率法的这个窗口其实也跟卡方在一起好操作呢,就是点 sbss 软件里面的分析下面的第二个描述统计, 然后呢,放在这个描述统计上面的右边的第四个交叉表,注意啊,交叉表。然后呢,我们把这个组别 组别选进行疗效选进列,这个评数我们就不用管了,我们已经加权了,也就说评数已经加权加到组别和疗效了,所以呢,我们仅仅只分析不同的组别在疗效上有没有差异, 一个选进行,一个选进列就可以了。好,注意,虽然说我们,嗯,我们要做的是非学确切概率法, 但是呢,我们在统计量这仍然先要勾上卡方,因为你如果不勾上卡方的话呢,呃,非舍确切概率法的结果也是无法输出的。好,勾了卡方之后点继续,就是在这个统计量这勾卡方点继续。好卡方检验勾完了之后呢, 我们务必要告诉 spss 软件,我做的是飞射确切概率法,那么飞射确切概率法还要给出一个额外的设置,就是点这的这个精确。 好,这样一张这个金曲的图标可能在这 好点精确,点精确,然后呢,勾选这个精确。一般来讲的话,如果是四格比较卡放,也就是两个组别,两种疗效, 二乘二等于四,这种四格表卡方勾不勾这个金雀都会有非常确切概率法的结果输出。如果当我们的卡方是 r 乘 c 卡方,比如说当我们有三个组别或者是疗效的分类有三种,像我们这组别就两个, 然后呢,一个是用药组,一个是非用用药组,疗效呢,也是两个,一个是仍然感冒,一个是恢复,这种就是二乘二,对于二乘二的飞舍确切概率法呢?勾不呃,点不点这个精确都是无所谓的,都会有飞舍的结果输出, 但是呢,如果当我们的组别有三组或者是疗效有三类的时候,那么我们这务必要勾上精确。好,嗯,这陈老师还是勾上作为一个演示啊。点继续好,确定 好,这个就是我们的呃飞雪确切概率法的检验结果了。好,我们可以看到这个总案例数小于四十是不满足卡方检验的前提条件的。 好,但是呢,尽管他的这个啊,零个单元格的理论评数小于五,也就是说没有一个单元格的理论评数小于五,这个是满足卡方检验的条件的,但是呢,总量本量达不到卡方检验的要求,那么我们也是不能够选择这个卡方检验的, 也就是这个皮尔逊卡方这样一行结果我们是不能用的啊。这个着重强调一下,皮尔逊卡方检验对于总样本量是三十一的四个表卡方的这个数据而已,四个表四个表的数据而言的话是不能用的, 皮尔逊卡方对于总样本量是三十一的四个表资料一定是不能用的,是失效的啊。好,这个呢,就是非舍确切概率法的检验结果了,对于总样本量只有三十一的四个表资料,非舍确切概率法是必须选用的,这个才是他的一个最终结果。 好,然后呢,由于我们的这个根据我们的这个要求啊,我们是检验用药组和非用药用药组的疗效构成比率有没有差异,所以我们应该选择这个双侧,就是零点零六六大于零点零五, 那就意味着用药组和非用药组他的这个治疗效果不存在显著差异。零点零六六大于零点零五。好,嗯,这个呢,就是,呃,非者缺钱概率。 好,陈老师演示这个飞雪缺缺概率法用到的这个 spss 软件的版本呢,是最新的 sps 软件的版本。今后呢,啊,我们会在微信公众号上更新更多的萨斯、 mat 等统计软件的。呃,这个视频操作及案例讲解, 请同学持续关注我们的微信公众号, xhk 三四五。好,今天呢,我们讲到的就是飞雪确切概率法。飞雪确切概率法实际上是对那种不满足卡方检验要求的数据的一种弥补的方法,它是基于超级和分布的一种统计学方法。 好,今天的课程就讲到这里,如果大家对我们现在讲的这个方法有疑问的话呢,可以在新花开医学统计微信公众号里面留言给我,我们会针对大家提出的问题集中 进行解答。我们的微信公众号是 xhk 三四五,好,嗯,这个最后陈老师强调一下,嗯,陈老师呢,会持续更新更多更实用的医学统计教程,欢迎大家关注我们的微信公众号, xhk 三四五。 品质源于专业,服务源于真心,感谢大家的收看,下期再见!

大家好,欢迎来到准点数据这期视频主要为大家讲解如何使用 spas 进行两独立样本的非参数检验, 两独立样本的非三十检验呢?主要需要满足独立性。那什么是独立性呢?在上期视频的独立样本体检验中也有提到过,简单的来讲就是说,假如说张三 是被纳入到实验组中,那他就不能出现在对照组,那李四被纳入到对照组中,那他就不能被纳入到实验组中,他们是相互独立的啊,人员不能有重复,样本不能有重复 啊。那第二个数据分布上,非参数检验其实并没有要求女数据不符合正态分布和符合正态分布都可以使用非参数检验进行分析。 但是如果说我们的数据满足正在分布了,那优先使用独立 m t 检验进行分析,独立 m t 检验的检验效能要比两独立 m 的非参数检验它是要更高的啊。 那下面呢,我们具体打开数据啊进行操作。打开数据之后,点击分析非参数检验,然后旧对话框点击两个独立样本, 然后我们把需要分析的变量,比如年龄、空腹血糖、血尿酸,它都属于计量资料,连续性变量都可以进行分析。我们选择右边来啊,然后点击组别 分组变量,然后定一组,这个和昨天的独立 m t g m 其实是一样的,那我把实验组编码为一,第二组编码为二,点击之后就可以,这里就可以输入一和二。 假如说你编码是三和四的话,就是三代表实验组,四代表对照组,那就可以输入三和四。常规来讲的话,我们一般是一和二或者一和零这样的,然后点击确定,在检验类型这边,我们就按照默认勾选的慢回特尼优检验即可,这个就是两图这样本的 呃, facial 检验常用的方法。然后我们点击确定,我们可以看到输出了 两个表格啊,第一个表格是质啊,主要有每个组的样本量,还有质均值,质总和 啊。这个表呢,我们不需要做过多的关注啊,就是去中制表的时候呢,我们一般也不会写出来制军制和制总和,这个制它主要是非参数检验的一种原理检验 方法就是我们在 facial 检验中,需要先对每个组的样本量样本的它的指标值进行排序, 排出质来,然后最终求出我们的质均值,质总和,然后再进行后续的分析。所以说这个原理上我们在视频中就不不做过多的讲解了。那么我们主要关注第二个表格检验统计啊。检验统计中,我们主要关注三个量, 一个是曼辉特尼 u, 一个是 z, 这两个值呢,它都是检验统计量啊,那 u 值呢?它是 曼惠特尼检验的直接结果啊,反映了两个样本间的一个排列情况啊啊,然后呢,这只是优质标准化后的结果,他在计算的时候呢,又更多的考虑了样本的大小方差,但这两个呢,他 实际上呢,都是检验统计量,他和独立 mt 检验中的 t 值是一个性质的东西啊,我们其实只要知道有有有这么个东西,然后 写论文制表的时候把它写进去就可以了。那有同学就要问了,那一个优值,一个最值,我两个都写呢,还是说选哪一个呢?那我推荐的是我们写这个标准化或者最值,这是我的个人习惯。当然也有一些论文,呃,他们写的优值,这个都是写哪个?其实都不为都是对的啊。 然后更重要的,我们需要看这个渐进显著性双尾,比如说是这个批值啊,批值他一样的,他和毒症问题检验的的批值是一样的啊,大于零点零五,说明我的两组间患者的这个指标差异性是不存在同学意义的。那小于零点零五,说明 这个指标在两组间是存在一个显著差异的,就是差异性存在统一学意义。那我们来看年龄,他的批值是零点零九九,大于零点零五,他 差异性不存在同学意义。那空腹血糖也是零点二九四啊,血尿酸也是零点九七五,大于零点零五了,哎,说明他是差异性,没有同学意义了。呃,我们在做体检验的时候呢,主要是 用均值和标准差来描述数据分布,那到了这个非参数检验这边呢,我们一般是采用中位数和四分位数来描述数据的分布。那下面呢,我们就来输出一下我们需要的中位数和四四分位数。这个是后面论文制表需要的东西啊, 因为我们要分别对两组输出中位数和次分位数,所以呢,我们需要先进行拆分文件,数据拆分文件啊,然后我们要点击按组来输出 分组依据就是我们的组别。意思就是说我点了这个之后,我以后所有的操作都是实验组和对照组分开的啊,然后我们点击分析描述统计,点击频率,把我们的这三个变量放到右边来,然后点击统计 中位数,四分位数,我们需要这两个值啊,然后点击继续这个显示频率表,这边呢,我们就不需要了,把它勾掉就可以了。然后我们确定 啊,可以看到我们输出了组一也有实验组,还有组二对照组的年龄,空腹血糖、血尿酸的中卫 数及四分位数情况啊,我们主要呢,呃,需要在论文的表格中展现出这三个值,那么如何去展现呢?这个后续我会给大家讲解的啊,如果说 在分析的时候,假如说我们这个值,你看零点零九九这个值,假如说他是零点零零九小零点零五了,那么我们如何去说, 就是我们如何去看这个差异性,虽然是两组间存在差异性,但是哪个高哪个低呢?啊,其实从这个志军值你就可以看出来,他应该是对照组比 实验组是要高的,对吧,但是这个我们一般不用这种治军职的方式来表示啊,我们在看的时候呢,主要是看他的中位数啊,你看对照组的中位数五十六,实验组中位数五十二, 那可以看到它是对照组是要比实验组要高的年龄啊,假如说有显著差异呢,就是显著高于啊,对照组的年龄显著高于实验组,那我们后续就可以这样分析啊,那, 那今天的视频就到这里探索数据奥秘,助力医学研究,这里是纯电数据,我们下期视频再见。

ladies and gentlemen, 我是主持人姜谭老师,今天我们要讲的是系统抽样。好,我们看今天学习的目标,第一,记住系统抽样的方法和步骤。第二,会用系统抽样从总体中抽取样本。第三,能用系统抽样解决实际问题。 首先我们看到今天的新式讲述啊,什么是系统抽样呢?先将总体的个体逐一编号,然后按号码的顺序以一定的间隔 k 进行抽取。 先从第一个间隔中随机抽出一个号码,然后再按此间隔逐个抽取, 记得到手续的样本。好,我们现在举个例子啊,一二三四五六七八九十 十一,十二,我总共分成四组啊,三组,那么这个时候他的间隔就是四 啊,然后我们从第一个间隔里面我取一个二,那么因为间隔是四,所以我二加四,下一个就应该取几取六,下一个就应该取几取十。哎,这就是系统抽样法的一个方法啊,明白了吧? 来,我们来看看啊!某影院有四十排座位,每排有四十六个座位,一个八卦会上制作版的听众,然后会后留下座位为二十的所有听众进行一个座谈,那就是运用了什么系统抽样,每一排的第二十个,那不就是系统抽样吗?对不对?好,我们再来看看 系统抽样的步骤,我们来看看啊!假设要从容量为 n 的总体中抽取容量为小 n 的样本,那么我们可以按如下的步骤进行系统抽样。 首先我们先将总体个体进行一个编号,对吧?然后确定分段间隔啊,三十个,我以后可以分五或者六,甚至或者十,对吧?根据所需要来做好,那么当 n 除以 n 是一个整数时, 那么 k 就取 n 除以 n, 对吧?如果是整数就比较好,对吧?那么看看,当第一段用简单随机抽样,就是第一段,比如说我十个一段,十个一段,那我先从前面十个中选随随机选出一个,好确定第一个编号之后就好说了啊。然后呢, 按照一定的规则抽取样本,那么通常是加上间隔,比如说第一个一就抽第一个,那我就加间隔,是十就一加十加十,加十加十,把每一个间隔里面的第一个数都给抽出来,对吧?啊, 那这个时候呢,就是第一个数加 k, 或者第二个数加 k, 或者第三个数加 k, 只要是第一个间隔里面的数加上这个号码就行了,对吧?加上这个组间隔,那么第三个就是要加二 k 吗?然后,呃,三 k 加四 k 加五 k 加六 k, 就是这样一次进行下去,然后把样本取出来。 好,我们来看看这个判断题啊,第一个总体个数较多时,可以用系统抽烟,哎,这是对的啊,系统抽烟过程中呢,每个个体被抽到的概率是不等的,哎,这是不对的啊,我们看,从系统抽烟中,第 n 个个体从抽出一个重量为小 n 的样本,那么要平均分成 n 段, 每段有 n 除以 n 个号码,这错了错了,怎么是平均分成 n 段呢?平均分成呃, n 段,这个不是 n 段啊,是 n 除以 n 段, 对吧?啊?这是分成几组?好,那我们看第二个,有二组同学分为一到二十号啊,现在从中抽取四个人作为作文卷的调查,那么系统抽奖方法我们编号应该是哪四个?首先你是分成四段对不对啊?四段, 分完四段之后呢?那你想一想,你要抽四个人,怎么可能是这些这些数呢?对不对?他都没到第四第四组,第四组一定是十五到二十嘛, 我看啊,十六到二十吧,对不对?都没到第四组,虽然他间隔是一样二十六八,但他没有到第四组,你每一组挑一个,他的间隔应该是五,所以间隔五五五,那只能选 a 啊,主要是间隔好,我们 看啊,二十个球,按到下面方法,抽烟啊,以二为起点,采用系统抽烟,抽取四个球,二为起点,四个球,那就是五个为间隔,那就是二加五,加五加五,对不对?就是二七十二十七, 然后他们的平均数值是什么?十九三十八除以四,四九三十六,九点五, 来,我们再看以三和七点呢,那就是什么?再加五, 再加五,再加五,哎,加起来十点五除以四啊, 我们来看他热点题型啊,系统抽烟的概念, 那么这个前面都是没什么用的,然后呢?十五个号啊,十五号, 然后呢顺序,按顺序将六十五号,一百一十五号,一百六十五号都抽出来了,那这个时候变成一个样本,你看每隔五十抽取一个,这就是明显符合我们的系统抽样吗?对不对?是吧?好,那我们来看看。第二,为了解一千两百个同学进行这个改改革啊, 这个实验的意见,打算从中抽取一个样本为三十的样本啊,那这个时候采取系统抽样,我们间隔应该是多少?那就一千二除以三十就是四十啊,所以这里面也很简单, 来我们看看,再练一题啊,抽烟问题中最适合用系统抽烟方法的一项活动是什么?四十八个,随便抽 抽八个啊,用是可以用,但是呢,抽签也可以,对不对?所以呢,我们先保留意见,对吧?保留意见,因为四十八个签也不太难啊。然后呢,我们看 一个城市中有两百一十家这个百货商店,大型的,中型的,小型的,那么这个时候要抽取一个二十一的样本,那其实这个地方用 呃,系统冲压是非常不好的,因为他们中间类型是不一样的,对吧?比例的一样,其实这更更多的是我们后面可能要学到的分层冲压, 对不对?是吧,所以他不适合啊。那么这里面呢,一千两百个当中随机抽取一百个人分析 啊,这个呢,总体容量大,抽签非常不方便,但是我可以把它分成十二组, 呃,出去一百一百个人,间隔可以变成间隔十二一百组,我只要把第一组的数字确定了,其他后面的操作都出来了,所以 c 应该是更加适合用系统车辆, a 是可用可不用,对吧?所以那作为最优选项来说的话, c 一定是最好的。 好,那我们再看这里啊,一千二百名当中随机抽取十个人就没必要了啊,那我直接简单随机抽样不就可以解决了吗?对不对?因为样本少吧,对吧?啊?或者是就简单随机抽样里面,我用随机出表就可以了,对不对?好,所以选 c 啊。这个题 来,我们看系统车辆的方向设计啊,就开始开始要写步骤了,那么二百九十五名学生呢?编号,然后这个时候按一比五的抽取样本,所以你先搞清楚样本到底有多少,那五分之一乘以二九五等于五十九, 要抽五十九个人,好,那这个时候我们来看看啊。步骤,第一,编号已经有了,第二,间隔为五,因为你要一比五抽啊,那间隔就是五分为五十九组,对不对?好,那么每一组编号哎, ok, 一次下去, 第五十九组要写清楚。好,采用简单随机抽烟方法。请注意了,这里要写清楚,从第一组当中五名中随便挑了一个号码 l, 那么因为后面是五个为间隔,所以就要加五 k, 当 k 等于一的时候,后面一组,二在后面,三在后面,对不对?因为五是他的间隔好, 比如说 l 十三,那就把这些号码挑出来啊,非常简单,看不看?再练一题, 五十二个人啊,系统重要抽四个十三作为他的间隔,那这个时候不就在这里吗?对吧,我们就把十六号就出来了啊,非常简单, 来,我们看能力提升啊,进行一个剖析,系统中的特点是什么呢? 新龙虾,适合于总体容量较大个体五明显差异。第二,剔除多余的个体。第一段抽出,用简单 抽,随机抽烟的方法啊,什么叫剔除多余的个体?请注意的就是我们除不净的时候,先把剩下的一些全部去掉,因为他总体很大嘛, 那当当那些随机也是随机处理掉的啊,处理完之后呢,再把剩下的进行一个分组,对吧?啊,因为你肯 也会有余数嘛,对不对?好,那么看系统,抽烟是等可能抽烟,每个个体被抽到的可能性是一样的,即使被剔除,他们的可能性也是一样的啊,明白没啊?比如说一千零一个,对不对?假设二里面分不了主,那我要分 呃,一百个人,那这个时候是不是要踢出一个再去弄啊?这样会比较好一点啊。我们怎么判断一个抽烟是否为系统抽烟呢 啊?关键有两点,一,是否车辆前知道总体是有什么构成的,车辆方法能否保证每个个体机会均等,均等非常重要。 第二,是否能把总体分成几个均衡的部分,然后在每个部分中是否能进行简单的随机抽压啊?所以系统抽烟这样分成均衡的部分大家都差不多,然后呢?从第一个部分抽出来,然后加 k, 加 k, 加 k, 对不对?好,我们看在系统抽象中, n 一定不能被 n 整除,不一定能 被 n 整出啊,不一定。那么这个系统这样还公平吗?当然是公平了,对吧?如果能整出,那好说,如果不能整出呢?剃出几个个体,那么这个时候呢?剃出完之后,使总体中剩余的个数能被 n 整出,然后再确定样本,因此每个个体被抽取的可能性还是一样的, 是公平的啊。好,我们看一千零三个,这里就出现了,要剔除三个,看到没有,流量为五十,所以呢,我们看看第一编号,然后简单随机抽样,剔除三个,然后剩下剩下的一个重新编号就行了。 重新编号分成几十组啊?五十组,因为你要抽五十个,因为总共有一千个啊,所以五十组每组就是二十个。好,那这个抽一到二十个中,第一组随便抽一抽,抽出一个十八,对吧?那这个抽每个二十个抽就行了,对吧?所以只要 第一种随机抽样,然后后面随便不叫随便加,就加那个,呃,间隔吗?啊?间隔就行了,对不对?来,我们来看到八百零二八十啊,所以又是什么?先编号,剔除两个,分成十组, 抽取八十单,分成八十组,每组十个,然后从第一组的一到十随便抽一个,然后每次加紧, 对吧?啊?因为八十辆嘛,分成了十,八十辆嘛,那分成了八十组,每次抽十,对不对啊?每次加十,好,他们看 八百零二提出两个可以随机数标法,对不对是吧?然后呢,将余下八八百个重新编号,记住,一定要重新编号啊, 均匀分成八十段,每组有十个,从第一个十个里面随便选一个作为七十号,比如说五,让每次加十加十,得到一个容量为八十的样本, ok, 解决。来,我们来看看这个课堂的检测啊, 那么为了测这么多人成绩,决定采用系统抽象抽成一个五十样本,那么这个时候剔除的个数应该是多少呢?要五十的倍数,所以剔除两个, ok, 来,我们看第二个,为了解这个参加计计算机水平的五千零八个,抽取两百个学生进行统计分析,那么每组容量是多少呢?啊?首先要踢出八个,然后除以两百,每组容量是二十五个。 第三,一百六十个人抽二十个为样本啊,那这个就分成二十组,那么二十组之后呢?每一组有八个 对不对?我们看第十六组是一二五,那么第一组应该是多少呢?因为我们是八个,八个一组,所以我们一二五除以八, 然后五八四十,哎,所以第一个应该是五号,对吧? 那么第四个,在一个个体数目为两千零三的总体中,抽取一个容量为一百的当中,那么他们机会,机会当然是均等的了,对吧?就是二零零三 分之一百啊,不要说踢出三个啊,踢出三个之后,这三个也是算着这个概率内嘛,对不对?所以两千零三分之一百,每一个都是一样的,哎,最后一道题,我们看中秋节啊,生产三百零三个中秋和月饼,这个这个这个中秋月 月饼啊,检测抽取十盒,一定是先剔除,先编号剔除,剔除完简单随机抽,先剔除完之后,然后再分,再重新编号,重新编号,然后再分组,对,分组之后,然后再第一组抽出一个数, ok, 对吧?看,最后看一遍啊,先编号剔除三个,简单随机抽样,都要说清楚啊,然后呢?再重新编号,零零零到三二九九啊,零零零一到三三零零都行,然后分成十段, 第一段是这么多,拿了七十号马文幺,每次加三十,因为是三十个一组,三十个一组,对吧? ok, 把这些全部抽出来,结束最后一个一定要写出来啊,组成样本,好,那么今天的内容我们就讲到这里,谢谢大家。

那现在如果我想看,嗯,我想看不同年龄段的不同年龄段的 不同年龄段段的学生的体重的君子啊,体重的君子,那我也可以在统计量当中去进行设置。我们来看一下 不同年龄段的啊,不同年龄体重的君子或者身高的君子都可以。我们来看一下身高的君子,不同年龄段, 他这个类别 x 水平。我们说过,你看到类别区别分类这种东西的时候,一定要选用理想,理想型的数据,比如说男性和女性,哎,也是可以的。你要分年龄段的话,就是 a 就行了啊。 a, 我们来看一下啊,就是这样啊,就不同年龄段的学生的身高了啊,平均身高,你看十一岁,果然是,嗯,平均身高就是比,嗯,这这姿势比十二岁的要要稍微身高要低一点啊,稍微矮一点, 那我们看看它还有,呃,比如说像这种数据呢,我们通过 excel 也能可以很方便的做出来,那它与 excel 还有没有什么别的不同呢? 我们来接着往下看答案了,这个里面,这个里面你想做条形图还是线图?嗯,真状图和点图,这个就随便你去选好了,这个也非常简单,我们来操作一下啊,我们来操作一下, 比如说刚才我们操作的就是图形这个里面,对吧?我要根据,我要看他的平均身高的君子, 然后我类别我不要选啊,我不要选年龄的话,我如果选,嗯,性别也是可以的。这里是垂直还是水平,那就没有关系。条形还是线图啊?那你继续选啊,就两条线啊,就一条吗?就应该只有男性和女性,所以就 这样子,我们再来看条形图,他还有 君子啊。条形图我们来看一下,我们年龄段来写年龄段 丙图,真状图,点图啊,我们这个都有啊,都可以试一下啊。然后呢? 统计量,君子, average 点图啊,这都是可以的啊,这都可以的,这是比较简单。 那现在,嗯,这里就有一个不太一样的地方了,我们现在来看,我们现在来看。你看我们这个做出来的图是什么意思呢? 是什么意思呢?我现在想看体重的君子,体重的君子。那想看什么?谁的体重,谁的体重的君子呢? 根据年龄段的来进行分别。年龄段我们刚才做过,对吧?根根据年龄段来进行分,就十一岁的时候他的均值多少,十二岁均值多少,十三均均值多少,这个用一个哨也可,也可以非常方便的做出来。但如果我再加个 x o, 如果再加个 x 轴,在在 excel 当中好像是做不到的啊,好像是做不到,除非 你要去编程。你看如果我要十一岁的时候,我还要把男生和女生分开, 就男生女生的身高的体重,我还把分开,就是我这一个十一这个格子里面我再分两个,我要再分两个。十二岁这个格子里面我再分两个, 我要看在同一个年龄段,同一个年龄段男生和女生的体重有没有区别。 就这个图里面他有好几个信息,一个就是体重随年龄的一个大的增长趋势是什么样子的, 另外一个就是在同一个年龄段里面,男男生和女生的体重有没有什么区别?我们来看一下。好, 我们来看一下。比如说我现在在还是在这个图形当中,图表我现在要看 男生和女生的,呃,呃,就是年龄段不同年龄段他的一个,呃体重吧,或者身高的一个差异。我们看身高的一个君子,君子吧,君,因为你可以选其他的统计量 水平,我们选的是,呃水平,选的是根据年龄段来分的话,我们来看一下他目前就是这个样子,对吧? 目前这这是男生和女生都混在一起的。那如果现在我想把 x 轴再分一个男,每一个组再分成男性和女性,对吧?那怎么来分呢?那在这 图表里面身高君子,对吧? 还分个性别,嗯,可以加两个,嗯,可以加两个, 甚至你还可以加三个。把他学号加进去,那每个人都放进去了,每个人都可以放进去,对吧?那就没有意思了。或者你再再进行一个分类,再进行分类也是可以的。 这个在 excel 当中就很难实现了啊,就很难实现。我们来看那 age 及其间的 sex 啊,就是性别年龄段当中的一个性别。你看这个十二岁的时候啊,十二岁, 十二岁的那个学生,呃,这个蓝色,蓝色是女同学的啊,女同学的体重要要比啊。这,呃,身高,身高要比男生要稍微矮一点,但是有的时候,你看十三岁的时候,十三岁女 女生的身高比男生反的要高,对吧?这个也是一样的啊。这个医生, 啊,不对啊,正好说反了啊,这正好说反了。这个 m 是男生啊, m 是男生,比女生都都要高,但是你十, 呃,你十二岁时候女生反而比男生要高啊。就看这些信息啊,就看这些信息。 这一点呢,是 excel 是比较难做做出来的啊, excel 基本上这种 普通的他是,嗯,做不出来的外选项啊,你看你自己可以可以去换,非常快的迅速的去换你这个,嗯,图图表类型啊,显示标签也是可以的。嗯,如果你全选啊,全选他 全部选中的话啊,全部选中,然后显示 b l 线,他就都会显示出来,都会显示出来, 这是我们的一个常规的啊,一个最常规的一个图表,他的路径是在什么地方呢?他的路径就是在图形当中的图表这个里面啊,图形的图表当中,那我们接着来看 他还有哪些好玩的一些图表,那他还有一个叠加图啊,叠加图是什么意思呢? 叠加图就是顾名思义就是把两者叠起来,叠加起来。我们现在来看 y, 如果我指定为身高和体重, x 是年龄分组,按照性别进行分组啊,按照性别去进行分组。我们来看一下 叠加图的路径就在这下面啊,就在这个图表的下面。图表叠加图, 身高和体重 叠加嘛,只有一个,怎么叠加呢?肯定要有两个嘛,但我们看一下它这个箭头都是往左边指的,这什么意思啊?我们先等会来看一下左边指的,然后 x 分年龄段啊,年龄段分年龄段再分啊,再分性别,分年龄段再分性别。我来看一下 这个叠加图,其实很简单啊,叠加图很其实很简单那,嗯, 这个我们因为叠加了两个图,常常他就是把这个数都放在一起了。一个呢,小圆圈啊,小圆圈是体重,这个加号是,呃呃,小圆圈是身高,加号是体重。 我们看第一张图,那这个外呢啊,他就把叠叠叠在一起啊?这两个图,这个身高在什么地方啊?身高在什么地方?体重在什么地方,对吧? 但这个叠加图大家一定要先看清楚,呃,如果完全不同数量级的数叠叠叠在一起是有问题的。 你这,你这下面是一百以内,如果你有一个数,比如说假设说你的身高是一千一千的数量级啊,当然这个单位你可以把它换算一下啊,一千的数量级他就跑到很上面去了,那你这下面就看不到,对吧? 就是你要注意这方面的事情。叠加图嘛。啊,然后这是啊,这是 女同学的一个身高和体重那个叠加,身高和体重那个叠加他都放在一起,就这两个数放在一起,下面是男生的啊,下面是男生的,下面是男生的啊, 然后是这个 x 轴,是根据根据年年龄来进行区分的,来进行区分,好,我们先看一下它,还有些,我们刚刚在操作的时候,发现它有一个叠加的时候, 他有个左右尺度啊,左右尺度我们选一下就知道了啊,这个其实比较简单 啊,他变成右尺度,变成右尺度,就这边这个箭头就变成往右了,看一下有什么区别 啊?就是说,就是 说那这样子的话,左右尺度,刚才我们是都是同一个方向,都是同一个方向,就使用的是一个坐标轴,对吧? 就外轴他只有一个坐标轴,刚才我们看到那个身高和体重就是,呃,就是比如说这个体重啊,比较高的时候呢,就会把身高这个数比较小的数给掩盖了,因为他很小,他就放下面去了,但是我如果左右分开, 左右一旦分开的话,他就相当于两个外轴啊,双外轴,双外轴。这边呢, 这边是身高,这边是体重的一个坐标,所以呢那你身高的,嗯,就是你身高该是多少,你就以这边这个外轴来进行画图,然后体重你是多少,你就以这个来进行画 啊,画画图,他就是这样子的啊,他其他的都没什么变化,对吧?上面同样是女生,下面是男生,对吧?还是下面是 按照年龄进分组?那他会告诉你左边的尺寸是什么啊?右边的尺寸是什么啊?当然这些都是我们自己指定的 啊,就是这样子,这个叠加图啊,他身上就是可以非常迅速的做一些把这两组书给叠加起来啊,然后你可以选择单 单坐标走,单外走还是双外走啊?就是就是做这个事情,然后这里面当然他有些其他的选项啊,大家可以去都去试一下,这个和普通的那个调图形没有什么区别,和图中的调图形没有什么区别, 嗯,就这样子。嗯, 好,我们现在再来看一下,它有一个比较有意思的图形叫热力图,它也叫素心图,热,我们以后称之为它为热力图。热力图是什么意思呢?就是说 他经常情况下就是有一组数据,比如说像,像我们中国地图啊,中国地图,如果我要标识标识 pm 两点五,哪个地方最严重的话? pm 两点五, pm 两点五,哪个地方最严重? 比如说啊啊,哪个省份他这个地方就非会非常红,非常红。那如果哪个地方环境很好,像海南 环境很好的话,他这个 pm 两点五的数字很低,他就是一片蓝蓝色的,或者是一边就看起来这个颜色就很清很淡的这种地方,这叫热力图啊,就能看得出来,就像前段时间,呃,我们就现在很流行的大数据啊,大数据, 这个这个再往哪里流流动,往哪里流动哪个地方就越红,颜色就越重啊,就叫热力图,就这样他也叫竖竖力图。我们现在来看一组数据, 这个呢? c 是美国的一些城市啊,美国一些城市,这里面它有很多内容,我们来打开看一下。

统计分数据分类啊,包括二分类,也包括多分类,包括有序分类,也包括无序分类,他们一般不描述均数,一般他们会描述 其他的指标,比方说率或者构成。对这类数据,它的统计分项一般采用咖坊级或者 fisher 具体概率法。所以我 这阶段我们主要介绍啊,第十十一、十二十三,主要主动介绍他方企,顺便会提一下致和解, 今天我们主要介绍两个绿比较的卡方解,那么这个题目呢,我们主要讨论绿的比较,主要采用方法是卡方解方法,因为啊,我们数据库常见的描述方法, 定量的用均数中位数分类数据的,就用绿或者构成比,这个绿跟构成比啊,他们有共同的特点,都是百分比,最常见的就是我们绿的比较,那么绿的比较呢 啊,包括有效率啊,发病率,死亡率等等等。那么绿的背后呢,是两组数据的比较, 两组序列比较,比如说有效,无效啊,有效无效,有无效,那么就会算出有效率到百分之三十, 那么有实验组有效率,对照组有效率,那么就两个有效率比较,我们要去研究,去分析我们才能方法,就是 比如说引达潘安片治疗原发性高血压疗效,将患者随机分为两组,也就是引达潘安片加辅助治疗,另外就是对照组用 m g 加辅助治疗,问两组有效率有没有差别? 我们这里这个表格大家可以看出来,有两种人群,那么有效无效,可以算出来有效率, 一种有效率百分之四十五点四五,另外一种有效率百分之八十七点七七啊,这个百分比,这个数,这个表格啊,我们称为汇总表,他汇总了对照组的有效人数、无效人数、事业组的有效人数和无效人数,同时在此基础上计算两组有效率。大家可以看出来,这两组有效率是有差别的, 但这种差别呢,是样本的差别,还不能上升到总体人群的差别。我们统计学需要探讨样本背后总人群的差异性,所以我们要进行统计分析。在这个表格里面, 大家看看,我们把这个表格称之为二乘二交叉表,为什么叫二乘二交叉表呢? 它的数据是由两行分别代表两组,预兆组跟事业组有两列,分别反映了结局有效或无效。所以呢, 它主要数据啊,存在,在存在,在四个表格里面,四个单元格里面,二十二四,二十一五,它不是原始数据,是汇总的个数,其他的数据都是由这个四个单元格的数据计算而得到的,这样数据成为二乘二的交叉表,它是分类数据比较研究 一种常见的汇总格式。这种汇总格式我们称为四格表,因为这个本例的资料经整理,就会形成这么四个单元的格式,四个单元格的数据, 我们把这样子的二乘二的交叉表成为四格表资料啊。交叉表, 交叉表又称为行列表,有两行,两列啊,就是二乘二,所以两组率的比较往往体现的表格就汇总表格啊,不是原始数据的表格,汇总表 就是二乘二的四格表,假组一组发声未发声, a、 b、 c、 d 四个单元格有四个汇总数据,那么你可以说是四格表资料的比较或者两组率的比较都是可以的。 对,这样的分组是两个水平,其余指标也是二分类,是完全随机设计或者成组设计比较,两个构成比,而且啊,是比较两组二分类结局的分布,那么通俗一点,往往是两个绿的比较,我们采用卡方结的方法来开展,采用卡方结的结果来开展。 那么卡方结或者卡方结它的写法啊,是希腊字母平方啊,不是 x 平方,是卡方。我的写起来比较奇怪啊,那么卡方结 是比较绿,它就像 t g 发达分析一样,它首先会换算出一个卡房值,再根据这个卡房值计算的 p 值。这里面的原理我这里不多讲,它的卡房值主要探讨理论评述与实际评述的吻合程度。 我们的实际平数我们称之为 a, 就是我们刚才看到的四格表实际的数字, a、 b、 c、 d 二十二十四,二十一五实际上发生的数据。 另外一个我们成为理论平数 t 又称为七万平数。 e 是假设计 h 零成立的情况下, pa 一等于 pa 二,也就是两个 率相等的情况下,算出来一个假想的评数。理论上的评数,也就说在 h 零乘零时候的时候的一个评数。我们假设界有 h 零, h 一对不对? 一般我们先假设 h 零成立,那么 h 零如果他们相等会怎么样?相等的时候会算出一个理论平数,我们称为总体平数,实际平数我们是量平数,那么卡番茄就会先计算理论平数啊。然后呢,计算理论平数跟实际平数的吻合程度,这个吻合程度就是实际平数跟理论平数的差别, a 是实际平数, t 是零的平数, a 减 g 平方除以 t, 这个就是每一个单元格的零的平数和单元格的实际平数的差值,他差 差别 四个单元格就可以是算出四个理论平数跟四个实际平数。然后呢,每个单元格都可以算出实际平数跟理论平数差别。外面公式是 sigma 累加累加,就可以把把所有单元格的理论平数跟实际平数的差别加起来,这个加起来就是卡方值。 当然我想很多人朋友圈周老师什么是理论名数,怎么算出来的?当然我们本科生教学的时候会讲怎么算,但对这门课程来说,大家无需 不需取算,软件会给你算出来,甚至你什么叫理论评述,什么意义都不需要,不需要掌握,你只要知道我们可以根据理论评述采用合适的方法就可以了。如果假设题 h n 真的成立,就拍 等于他这种成立,那么理论名数跟实际评数应该相差不大, h 的成立相差不大,那么这个时候卡方值会比较小。如果卡方值比较大,那意味着理论名数跟实际评数相差就大了,这个一大,反过来就要怀疑 h 的成立。如果这个值很大, 我们就要认为 h 零不成立,谁成立呢? h 一, h 是谁呢? h 是怕一不等于怕二。 所以卡方值的大小决定了到底相等还是不等, h 零是相等, h e 是不等,当然它实际上决定的是它的屁值。卡方值先 确定 p 值,在下结论,也就是我们跟之前学过一样, p 值可以算出 p 值,这里咖方值也可以算出 p 值, p 值在零点零五, 那不拒绝群差有没有统计协议啊?这个都懂,对吧?反过来,平时小于等于零点零五,我们是差有统计协议。 那么一般情况下,咖方值越大, p 值越小,当咖方值大于他的小概率世界界时的时候啊, 大家可以看这公式,对吧?看完值逼大大于小概率世界计时的时候, p 值小于零六,开完值小于小概率事件计值的时候必是大于零。 这具体的东西我们想问去讲,这 t 级方法分析也一样,他都有个小概率系的戒指,这个戒指多少我们也不用去管它,统计软件都会根据这个戒指会帮助我们去算 p 值,因为我们最重要的就是了解去计算 p 值,具体怎么算出来的,请忽略啊。 它的假设结过程, h 零 pa 等于 pa, 两组有效率相等。 h 一 pa 不等 pa, 两组有效率不等。阿尔法等于零点零五, p 值小于零点零五,有同缺异。 然后呢,我们都可以通过软件可以算出卡方值来啊,这是卡方值的计算公式啊,连列米数跟实际米数的吻合程度可以综合算出来,等于八点四八,怎么算的,软件给你算。 接着我们可以根据他的 p 值啊,可以根据他他方值,他方值八点四八,他的小概率数据地值是三点八四啊,为什么三点八四?不要想,不用去考虑啊,这个是统计学原理,他方值大于三点八四,这 p 值小于零点五, 开方值越大, p 值越小,所以大于三点八四, p 值则小于零点零五。小于零点零五,我们总认为要拒绝选择 in 接算 c 差异额统权益差异额统权益 有差别,说明两组率不同。这个就是卡方解的一个解步骤,大家听得云里雾里,但其中的东西不需要讲太多, 这个东西两组列的比表或者四格列四格表之间的分析。二乘二行列表就四格表采用的是咖方结,我们最终是希望是计算 p 值来下结论, p 值小于零五,两组率由统继续差异。 大家重点掌握的是这张 ppt 卡方体的应用条件,也就是说卡方体并不是所有的四个表都可以分析的。什么时候可以用卡方呢?两种情况要不然大于四十七等于五,则第六乘法 总要不要大点四十 t 呢?每个单元格的零的名数啊,七是零的名数对吧?每任何一个单元格零的名数都大点。五,我们用卡方解, 第二种情况是另外一种开放,叫第二种开放,要不要大点试试?至少一个单元格,至少一个单元格啊这是,我们四个表不是有四个单元格吗? 剩下一个单元格里面的名数小于五。大一,我们采用的方法是校正开放。这校正两个字大家不陌生了,我们在介介绍 t 结的时候就讲过,对吧?有 t 结和交正替结, t 结是放他起的手,交正替结是放他不起的手。 那么如果上述调节的不符合,要么让小一试词 who 至少一个 t, 至少一个单元格的理论平数。小一,我们不再用卡方解,用的是 fisher 确切概率法。 fisher 确切概率的方法, 你说卡方企业和调动卡方都属于广义上的卡方,它只有硬条件,如果要买小于四十或者至少一个单元格理论平数小一,卡方,企业就不能用了。用 facial 确切代理法来判断 啊。这个是交通卡方公式,这个减去零点零五,多了一个减零点零五的操作。 比如说某医师,一比较花令胆结与神经碱干支治疗脑血管疾病的疗效,花令胆结组、神经结干支组具体指标也是有效无效,因此他也是二乘二的交叉表或者行列表这个表资料了。 然后呢,我们在计算理论平数的时候,发现这里有两个单元格理论平数是小于五的, 都大一,而且样板量呢,也都大于四十,因为是五十八嘛,总的样板量是大于四十。在这种情况下,我们采用方法就是调动卡放,第一步,建立假设,第二步, 采用卡方校正的公式去计算卡方值。卡方校正的公式计算卡方值啊,算出来是零点三七六。第三步,根据卡方值算, 一直可以吃大零点零五,因此不积极。 h 零差异,五桶积血液上部分人认为两种药物治疗脑血管疾病有效率不等,还看不出来差别来,从统计学上来,看不出差别来。 另外是非洲人法,非洲人法是一种精确解决的方法,卡方解是禁词法,非洲人法是精确法。 那么 fashion 法呢?是卡方其的重要补充。那么有些场合它甚至不是配角,而是主角。比如说样板量,总样板量小于四十,不能用卡方制造一个单元格的理论平数小一,不能用卡方,都要用 fashion 法。 有些时候,第三种场景,当开放器 p 值接近零点零五的时候,就开放器 p 值约等于零点零五,零点零五一,零点零 四九。那么这个时候你到你说到底是大零点零还是小零点零啊?有些时候不好说,因为卡方杰的 p 值,卡方杰是近视法,他算出来 p 值近视值而非求法的精确法。 你现在想知道到底我的结果是 p 是大零点零五还是小零点零五?有些时候我们要借助精确法, 所以当卡番茄 p 值低至零点零五的时候,你要不明确到底是阴性结果还是阳性结果,就可以用精确法,也就是非选法来一锤定音。所以以上这种场景都可以用非选法。 不过非选法有个缺点,你的它样本来一大,往往它就算不出来,因为它它对计算机,计算机的性能有一定的考验。所以一般情况下,如果卡方解条件允许的话,多用卡方,卡方解条件不允许用非选法, 你明白了吗?更多的大家可以参考今天的课程推文,了解更多的 facial 法结 好这段视频就讲这里。

身为品质人员的我们,在平时工作中所使用的抽样方案表一般在网上下载下来之后都比较模糊, 所以今天这个视频我就为宝宝们讲解如何快速制作这种专业的抽样标准参照表。视频讲解的过程中也会讲到一些制作表格的技巧,做品质的宝宝们一定要仔细学习哦, 如果对你有帮助的话,还请你转发出来,让更多的人看到哦!首先新建一个表格,先选中整个表格,将表格的列宽度更改成三,再加大 a 列的宽度。 先把抽样表格截图后插入到表格中,在制作过程中用于参照。选中 b 一单元格,输入表格名称的文字。从 b 二单元格开始,横向输入表头文字。由于一列包含了两列数字和一列符号,所以 第二列与第一列需间隔两个单元格后,再继续输入后面的标题。第二行标题中的每个单元格由两个单元格合并而成,所以在输入数字时,两个数字之间应该间隔一个单元格。在第三单元格输入数值后,每项又间隔一个单元格,输入一个数值, 数值输入到零点零六五即可。为了提高效率,后面的数字利用公式计算,选中 q 三单元格。输入公式,计算出数值后,同时选中 q 三、 r 三单元格,用鼠标向右填充到一千, 同时选中 g 三、 h 三单元格后,先单击合并居中,再单击格式刷,然后用鼠标点选 i 三到 b、 f 三单元格。分段选中第三行数值,参照样板单击减少小数位数图标,调整数值的小数位数。 分别在 g 四、 h 四单元格输入 ac 锐字母,同时选中 g 四、 h 四单元格,用鼠标向右填充到一千,分别合并 f 二到 f 四、 e 二到 e 四、 d 二到 d 四单元格。参考样板中每列数字多少,适当调整每一列的列宽度。 参考样板,从 b 五单元格起向下输入第一列数字,选中 c 五单元格,单机插入符号,选择波浪号,再用鼠标向下填充。 选中第五单元格,输入公式,计算出第一个数值后用鼠标向下填充。先复制单元格,再单击粘贴选择值,激活 b 十九单元格并补充文字,再合并 b 十九到第十九单元格。从第五单元格起向下输入样本字码,选中易列,单击居中对 起。从 f 五单元格起向下输入样本量数值,参照样板,从 a、 i 五单元格开始向右输入接收水准的数值。选中 g 四单元格,单击格式。刷,用鼠标选取 g 五到 b f 二区域,把区域内的数字字号更改成预设的字号。 选中 a、 i 五到 b f 五单元格后进行复制,再在下一行进行粘贴。在下一行粘贴时要向前移动两个单元格,由于第十行的数值后面少两个数值,需要对数据源重新进行复制后再进行粘贴。由于最后一行前面少了两个数值, 所以重新对上一行数字进行复制后再粘贴。参照样板表格补齐每一行后面缺少的数值。单击插入形状,选择向下的箭头,用鼠标在空白处画出一个 向下的镜头,将箭头宽度改成零点。三、单击填充,选择无填充颜色,单击轮廓选择黑色。根据第三行数字的数量添加相应数量的向下箭头, 将最后一个箭头移动到四点零的下方后,选中所有的箭头。在快捷菜单中选择顶端对齐,横向分布。从第二个箭头起,依次调整每个箭头的长度,每个箭头之间相差零点六。 选中所有的箭头单击组合,利用快捷键增加一组箭头。单击旋转,选择垂直旋转和水平旋转。 用鼠标将镜头组合移到右侧合适的位置后即取消组合。再次复制出一个箭头,用鼠标向右移动到合适的位置,调整右侧四个箭头的长度和位置。分别选中两个最 小的箭头进行复制并粘贴到左侧零一数字的下方。再次添加两个小箭头,将其中一个箭头旋转一百八十度。调整位置后单击组合,将小箭头移动到目标位置后,调整箭头之间的位置。 选中小箭头组合后,根据零一的数字的数量添加相应数量的小箭头。将最后一组箭头移到上方零一的位置。选中所有的小箭头组合。单击横向分布和顶端对齐,用鼠标依次移动每个组合小箭头到合适的位置。 复制左下角的两个小箭头后用鼠标移动到上方。单击旋转,选择水平翻转,用鼠标分别将两个箭头移动到十十五正下方位置。在微调箭头的位置,分别选中 b 二到 b、 f 四和 b 二到 f 二十两个区域。单击框线,选择所有框线,选中 g 五到 h 二十区域。单击框线,选择外侧框线。单击格式刷,用鼠标选取 i 五到 bf 二十区域, 分别选中 g 五到 b f 七、 g 十一到 b f 十三, g 十七到 b f 十九区域,单击外侧框线,参照样板。表格中需要添加虚线的位置,逐一对表格中所有箭头与框线重叠位置的框线进行调整,将细实线更改成虚线 线型。调节过程中一定要充分利用格式刷功能,这样可以将工作效率提高至少两倍,所以这里宝宝们一定要记住哦,对格式刷功能不熟悉的可以多练习几次。 选中表 格上方第一行的所有单元格,单击合并居中。单击字号,选择十四号,单击加粗,选择表头第一行单元格,单击合并居中,将字号改为十二号。在表格中复制两个小箭头,粘贴到表格下方,用作图示 参照样板。依次在 f 二十一到 f 二十三单元格内输入说明文字内容, 选中整个表格,单击页面设置打印区域后,单击打印预览退出。打印预览后,选中表格的所有行,单击右键选择行高,将行道改成二十三, 选中 b。 五到第十八单元格,单击自定义框线,在窗口右侧的边框中单击中数线,再次单击打印预览。到这里,专业的抽样方案表格就做好了,你学会了吗?关注我,你会学到更多快速又高效的办公技巧!

哈喽,大家好,今天分享一下如何用 s p s s 进行皮尔逊相关分析。皮尔逊相关分析它主要是适用于两个定量变量之间是否存在相关关系。 假如说我们现在有收入和消费两个变量,然后我们想看一下收入和消费之间是否存在显著的相关关系,这个时候我们就可以用皮尔逊相关分析。 我们首先把数据复制一下,然后打开一个新的 spss 文件,再把数据粘贴进来, 然后点击分析相关双变量,再把收入和消费两个变量放到这个变量框里面,这里相关系数就使用默认的 pr 讯相关系数,然后点击确定,这个就是收入与消费的相关分析结果表格。这里面我们可以看到收入和消费的 pr 讯相关系数为零点九八五, 对应的显著性 p 值等于零点零零零,这个 p 值是小于零点零五的,那就说明收入和消费之间存在显著的相关关系。如果这个 p 值是大于零点零五,那就说明收入和消费之间他是不存在显著相关关系的。 然后再来看一下皮尔逊相关性,皮尔逊相关性也就是相关系数,这里收入和消费的相关系数为零点九八五,也就是说收入和消费之间存在显著的正相关关系, 然后这个相关程度也是较强的。嗯,如何判断他的相关是正相关还是负相关?那主要看这个相关系数是大于零还是小于零,如果他大于零,那就是正相关,如果他小于零,就是负相关。 如果这个相关系数的绝对值越接近于一,那就说明这两个变量之间的相关程度越强。如果这个相关系数他的绝对值越接近于零,那就说明这两个变量之间的相关程度越弱。 以上就是皮尔逊相关分析的操作步骤和结果的解读。

大家好,今天给大家啊讲一下啊,比如说我们生活中如果会遇到各种各样的呃数据,呃,我们怎么样去处理去分析,比如说我们身高、体重、血压啊,生活平常生活开支数啊等数据 啊,我们怎么对他们特征进描述呢?他比如说他的平均数啊,他的中位数啊,他的种数,他的方差和标准差,这些,我们我们该怎么对他进行分析?现在我们就 啊就用这个,就用十八式这个份数据分析软件,对这个,对这些,对这个数据啊进行分析, 首先我们,哎,首先我们先啊找到这个十八式的分析软件, 我们把它打开。 好,我们现在 spa 是软件打开了啊,我们我们点输入数据, 哎,点确定,好,我们先我们先找到变量,试图,呃先要对他进编辑,比如说我们想要描述一个呃呃一组数据,比如说, 呃每一班的,呃呃每一班的,呃学生的身高啊啊或者或者体重啊或者什么的,那我们写,比如说我们举个例子,比如说描述,呃美,呃描述的身高一个特征, 好,我们先给他进行变量的,呃变量的命令, 那就是一个身高。好,我们进入变量的数据数据师图框, 所以说是不看,我们看的是是身高啊身高。我们这个啊,我们这里啊先输入一组数据,比如说这, 比如说这有十五个人啊,我们从数日十五个数据,假如说有十五个人, 哈哈哈, 好,我们假如说输入一组数据啊,这组数据,是啊十五个人,十五个人身高分为一米六五、一米六六,一米六五啊,这是啊一米七七等,这是数据啊,我们对怎么用?什么是软件对这个数据分析, 首先我们啊点入,呃选选择这个分析,找到这个分析这个,呃菜单啊,找到描述统计啊,这里有描述,我们点击描述, 然后将身高这个,呃这个选项啊,就是我们需要需要分析的这个这个选项,掉入这个变量里面,然后我们选择, 呃选择选项啊,这里有,这里有均值,有标准差,最大值,最小值,有方差 啊,有方叉,这里有,有这些数据我们我们要对他如果进飞行,我们就要点,我们点继续啊,选这些项目,然后点确定就可以了 啊,那么这些接下来这个结果难输出,就会,呃一个描述,呃描述统计量 啊,描述统计量,这里有个也是啊,这里这个是描述的什么是身高,身高我们力数是 a a, 你这个十五带着十五亿,几小时是一几小时,一一六五,一六五就是这一 这一组数据中最小的那个值一六五啊,极大值一九零,是这个数据最大的那个值一六零,然后这个是这一组均值,就是这组数据的平均值,就是这种身高的平均值。然后标准差,就是这组身高的标准差啊,这是方差, 这就是这种数据的一个整体的描述的一个情况啊。如果,呃,如果我们想啊,看一下他的一个呃呃一个正态性,这个数据的是否符合正态,然后呢?是否,呃 嗯是否是一个一个标准的一个分布,我们可以看一下啊,再找到描述统计,我们是可以找到频率,频率这里我们 将身高啊掉入这个变量里面啊,这里有啊,有统计量 啊,比如说我们四选择四分位数啊,啊,或者均均数啊,中位数啊,重数啊, 然后百分位数啊,百分数,你看你选择哪个?选择百分之二十五,我们就选择百分之二十五,就输入百分之二十五啊,不选也没关系,我们暂时不选好,然后我们这里有标准叉,方叉,最小值,最大值,好,我们把它选好, 然后点击继续,然后这里还有图表图表,有啊,有条形图啊,有柄图,有直方图啊,我们我们这组数据,我们选择什么啊?我们把选择选择直方图,直方图在下面一个,在直方图上显示正在曲线,我们把它选上, 点击继续。好,我们现在就 ok 了, ok 了,我们再点击确定 啊,确定之后接下来就会出现三个表格,第一个表格统计量,第二表格身高,第三个表格置换图。好,我们 讲解第一个表格,第一个表格统计量,统计量,均数均数就是这一组,这一组身高平均数平均值一米七三 啊,中数,中,中指,中指就中位数中间位中间的那个数,那个身高是一米七五,中数是什么?中数就是那个那种那种数据中出现次数最多的那个数,一米七五,我们可以回过头来看, 哎,一米七五,哎,一米七五,我们一个两个三个啊,我们一米七五,出现了三个,出现了三次 啊,这是中数,就是走出现数最多的这个,接下来就是标准差,方差,然后几小时就升身高最矮的那一个,几大值就升到最高的那个数,这是百分为数,百分之二十五,百分之五十,百分之七十 啊,像我们身高,身高,你看我们这身高,这里面有这十五个人身高都在这个列的列,这个列这个频率里面,比如说一米六五有两个,哎,啊,一米六六有一个,这写的一啊,一米七五,一米七五这里有三个。 一米七五,我们刚才知道他是种树啊,这里有种树,哎,一米七五他是有三个,他是数数量最多啊,次数最多。一米七五,这里。好,我们接下来看一下他的直放图,这里啊,会会出他的直放图 啊,脂肪图,这里啊,这像这个方块形的,这个条形的就是他的脂肪图。然后我们可以看到这一条曲线,这一条像这一条像,呃,这一条像塔一样的曲线,中型的曲线。我们叫他什么叫他正台曲线, 这个看是他是否符合正常性。我们可以看到他这个数据呢?还是七集中在一米六零到一米八之间,一米九几小数只有一个,这个数据呈现一个什么呈现一个偏太分, 他主要是在啊,如在一米,这个一米七五到一米七五到一米六零,这个这个这个数据段的数据最多。 好,现在给大家讲完了,谢谢大家。

所以换句话说,一般来讲,方单因素方差分析的显著性水平大于零点零五的时候,其实我们可以不用进行事后检验的,因为单因素方差分析的显著性水平大于零点零五,这个事后检验其实也是 更进一步的说明,每两两组之间,每两个组之间进行一次比较都没有显著差异,所以这个单一组方差分析的这个显著性才会大于零点零五。 所以这个显著性啊,他只有小于零点零五的时候,我们才有必要更进一步的考察到底是哪两个组之间存在显著差异。 如果这个显著性水平大于零点零五,它就意味着每两个组之间全部无差异,而显著性水平小于零点零五,这个只是意味着其中一定会有某两个组之间存 存在显著差异,那么到底是哪两个组或者是某几个组之间存在显著差异呢?这个时候我们才需要两两比较。 所以这会陈老师给一个总结,就是 nova 显著性水平 p 如果大于零点零五,其实不需要进行事后多重比较,而这个 p 小于零点零五的时候,我们才需要事后多重比较。关于这一点我们也可以进行一次验证啊, 我们看我们这的这个俄罗瓦显著性水平 p 等于零点五七七大于零点零五,其实意味着每两两组之间都不存在显著差异。我们来看看我们这个多重比较的结果啊, 我们只看这个 lsd, 因为这个 lsd 是基于方叉旗性的凉凉比较的结果,我们这的这个方叉是旗的,我们这的这个方叉是旗的,所以呢,我们必须要选择 lsd 的检验结果,而不能选择这个塔姆黑 维尼的这个结果,因为只有当方叉步棋的时候我们才能选择这个结果,所以我们这其实可以把它迪迪丽特掉,把它删除掉。这个方叉步棋的时候,凉凉比较的结果我们可以删掉的,因为我们的方叉是旗的,那么这个方叉旗的情况下呢,我们就可以选择 lsd 这种多重比较的方法, 我们来看看啊啊,这个算了,还是不删了,删了这个,删了这个表格就不完整了,我来看看能不能倒回去啊,倒不回去了 啊,好,算了,我再来算一遍吧,这些个倒不回去了。比较均值单一所 no 版,因为我发现把后边的那个删了之后,前面的前缀也变了。对,好,这个呢,就这个就是可以的啊,实际上这个可以不用 看,可以删掉啊,我们实际上就是为了检验,你看这个单因素方差分析的这个批值大于零点零五,实际上就意味着每两两组之间都不存在显著差异。我们来看这个星耀,星耀,这个星耀的一刻的这个 一克星耀的这个组别和星耀两克的组别对比的话,显著性水平等于零点三四二,大于零点零五一克的。和安慰祭祖相比的话,零点三九四大于零点零五 两克的,和安慰祭祖相比的话,零点九二也是大于零点零五的。所以这个 lsd 的,呃,结果显示每两个组别的显著性水平仍然大于零点零五,任意两个组别的显著性水平都是大于零点零五的,其实 其实他和这个俄罗瓦的检验结果是配得上的,因为这个俄罗瓦的显著性大于零点零五,就意味着每两个组之间都没有显出差异, 但是如果这个显著性如果小于零点零五的话,那就意味着有可能是这两个组之间有差异,也有可能是那两个组之间有差异。一般来讲,所以只有这个显著性水平小于零点零五的时候,我们才有必要更进一步的进行 lsd 的这个检验。 好,这个呢,就是多重比较,但是呢啊,这个 lsd 检验存在一个问题,就是 lsd 检验没有对显著性水平进行一个效证。嗯,关于这个,嗯, 关于我们为什么要对多重比较的显著性水平进行校正,怎么样校正这样一种嗯,这样一个校正的方式的话,陈老师在后期的公微信公众号里面会详细的给大家讲解。今天我们的这个上课的重点呢,就是 lsd 这种基于方差其性的情况下的一个 凉凉比较,这这样一个多重比较。呃,这个其实呢,这个同学其实可以更加注意的是,如果方叉不齐的时候呢,我们也有凉凉比较的方法,就是这个塔姆黑泥。 好,关于今天这个讲解的这个统计学方法呢?呃,如果大家有疑问的话,可以在新花开医学统计微信公众号里留言给我,我会针对大家的提问集中进行解答。嗯,我们的微信公众号是 xhk 三四五。 好,今天的课程就到这里,我们将持续更新更多更实用的医学统计教程,欢迎大家关注我们的微信公众号, xhk 三四五品质源于专业,服务源于真心。感谢大家的收看,下次再见!

好的各位同学大家好,今天为大家讲解一个算法,叫做别名采样,英文名叫做这个 alice sampling。 这个是在就是我们在呃图网络里边的那个做图嵌入,然后他不是要做随机游去游走吗?随机游走时候,我们要去按照一定的概率选择下一步游走的方向,那这一块就用到了,就是这个别名采样算法。 嗯,我们来看一下,就是这一部分的代码是出自这给的,就是这一个链链接,这个链接的话,从这能够看得到, 就是普林斯顿大学他们在二零一三年给的,然后有 python 的一个原代码就是从这儿来的。然后呢,嗯, 这里头嗯他参考的论文其实比较早了,就是一九八几年就有人提出了这一套算法。它主要的思想是什么?就是我们在按照一定的概率分布生成这个 呃随机变量的时候,然后如果说默呃按按照默认的方法,他的这个复复杂度是这个大, ok, 然后呢,呃就算我们去优化,也只能优化到到 log k。 而这一套算法就是虽然说他在初始化的时候的一个复杂度是到 ok, 但是如果我们要生成的这个呃服从这一个分布的随随机变量数量比较多的时候, 每一个生成呢,它能达到 o e 这样一个复杂度。所以说这也是这个算法它的一个优势所在。那我们来看一下这个 算法具体是怎样做的。刚开始我们先不讲代码,先以画图的形式给大家说一下,就是说我们在做做抽样的时候,其实我们并没有关心,就是真正电脑他是怎样做的, 比如说我们有现在这样的一个场景,我们用一个方条表示,就是以概率一去做抽抽样,那抽样的话就有它里边的一些值吗?我们用 a、 b、 c、 d 分别去表示, 然后按这个条它的长度去表示我抽样的一个概率。这我画的可能并不是很规范,反正就是 呃,大家能能明白意思就行。就是按他们的概率分别是零点一、零点二、零点三跟零点四,然后抽样是分别是 abc 和 d。 那那么为了简单的去 去记,其实这个 a、 b、 c、 d 按照零一二三去抽也也可以。我们就是按照呃上边这一个分的,就是长长条里的对应的概率去抽零一、二三这四个数。 然后最简单的方法我们怎样做呢?其实就是用囊派里的这个用用 random 生成一个零到一,左臂右拍这样的一个区区区间内,然后生成一个随机数,那生成这个随机数。比如我们生成一个零点二五, 要跟上面去比,跟上面要怎样比呢?我们把它们去累加起来,比如说第一部分是零点一,第二个是零点一,加零点二就是零点三,第三个就是加起来是零点六,第四个是一。那么我们先用它跟零点一去比,比完要它是大于零点一的。所以呃就 就不就不可能是 a 吗?然后再跟这个零点三去比,他是小于呃这个零点三的。那这样的话就就是就说明我我们这一次抽样抽出来的是 b, 也就是这个一号。 那有了这样的一个想法,我们去分析一下他的复杂度,这能够看得到,因为我们要从前到后去不去不断的便利他,直到找到一个就是介于二者之之间的这样的一个位置,所以 能够想得到它的复复杂度是大。 ok 这个 k 其实就是我们要生成的这个随随机变量它的一个数量。 然后那么有没有什么办法? you quat 第一种办法其实就是我们从那个二分法里面去找二分法里面,因为我们这个这些数字都是有序的嘛,其实就是从零到 一这样的一个递单调递增的序列。那我们如果用二二分法,其实就是用到一些算算法做优化里的知识,他能够达到到 log k 这样一个复杂度。那如果我们要生成比如说一千个 这样的数他其实呃耗时还是蛮大的。那还有没有一些其他的方法呢?其实就是 这个呃别呃叫别别名采样的这一套算法,他给我们提了另一套新方案,就是说我们分别给这个 aabcd 这四个他们的值去乘以大 k。 乘的这个大 k 其实就是我们呃随机变量它的总数量嘛,乘以四,那这一块它的总数量是四,我们要让它乘以四,乘完以后可以先划到这就是第 一个零点一乘四,就是零点四,第二个的话就是零点八,然后就是一点二,然后就是一点六。那这一块呢,我们再把它去按照对应的这个呃,就是画成一个柱柱状图的形式。我们先呃这先往下一点吧, 就是刚开始的时候这一个柱状图他都是长度为一嘛,然后因为是呃乘以四,所以说总共的这个和也能够想到他们总和为四,所以我们画这四个这样一个柱子。 那画完了以后,我们把上面的这几个数分别填到下面来,可以看我们用不同的颜色去填,如果是零点四的话,就是下边的这这这一部分,如果是零点八的话,我们换这一种颜色,然后可以看到分别是红 红色跟粉色,那下一个的话我们再换换换,换蓝色去看。然后一点二的话,能够想到他会比原始的这个一要多出来一小块, 然后是这样子,而一点六的话,他会更多一些,更多他是一个啥样的情况呢?就会是这样子,上面多出来零点六, 然后那这一个算法它主要的思想是什么?我我,我们乘以四以后生成了这四个柱子能够看到。就比如说我,我们还是给它编上号吧, a、 b、 c 和 d。 然后在这里 先写上能够看到 a 这个柱子,他其实是是没有满的,他只有零点四,而上面这个零点六他从哪来呢?我们可以看到这是一点零,这也是一,一是一点零,上面多余的部分是零点六,上面这 这一块多余的部分是零点二,而这一块缺零点六,这一块缺零点二。我我们就把它上面这个多余的这一部分把它填过来,比如说这个绿色的这一部分的零的零点六,我们填到红色的上上面来, 而蓝色这一部分,这个零点二,我们把它填到这个粉色的上边。那这样的话,上边的两个其实就就没有了吗?就是这就就不用管它了。我们就生成了一个呃,总和等于四, 总和等于四的这样的四个柱子,那具体在做采样时候又要怎样去做呢?其实就是我们先给这四个里面随机去选一个, 然后随随机选完这这这这一个以后呢,再从这个柱子里边按 照他就是比如说我呃 a a 号柱子,然后嗯,他以零点四的概率是红色,以零点六的概率是绿色,那我就生成一个从零到一这样的一个随随机数,看他是介于零点四 间还是介介介于他到到了到了,到了到零点,呃就是到一一之间这样子的,然后去判断他。而第一部分我们四个因为是就是等概率去选,所以他的 复复杂度是 o 一。而第二个从某一个柱子里面,然后去以这种就是二分的形式去选,他也是一个 o 一。因为呃我们通过算法去保证每一次这一个柱子里面只包含两个颜颜色,如果是呃多 多了的的的话是是不是不是不可以的,而这样子也也能够保证,因为我们去乘以的是这个大 k 嘛。所以最后是 k 个柱子, k 个柱子肯定是是能够填的满的。 那这样的话能够看到每一次做采样,它的复杂度全都是 o 一。而仅有在我们生成这个不同颜色的柱子的时候,它的复杂度是 ok, 但是因为 生成完一这一次了以后,我们这一这一千个里都可以以一个欧一的复杂度去做了。所以说他的整呃整个的耗时其实还是短的, 他就相当于我们用空间去换了一个时时间吧。就是这样的一个想法。好,那这一块我们把把这个代代代把的,把代码最基本的这一部分给讲完,那我们 就来看一下他具体是怎样去去去实现的吧。这一块就是他的代码部部分,代码的话主要其实是两个子函数。这一块我们在前面的视频中有给大家简单的去讲过。第一个函数的话,其实我们传入这个 probs, 就是前面说的这个呃零点一,零点二,零点三,零点四,就就是总和等于 等于一的这样的一个序列。然后生成的这个序列我们把它传入进去,他会返回这个大 j 和小 q, 而根据这个大 j 和小 q, 我们就可以进行一次采样,去生成一个满足条件的随机数了。 然后那我们要生成对应数量的的随机数,其实就是运行一次呃 这一个函,个函数生成 j 和 q 就 ok。 然后这个就是运行 n 次,可以生成对这个分布的 n n 次采样。 那我们先来看就是第一块,第一块这个叫做 alice gun, gun set up 这一个函数,我们先对于一些值去做一个初始化, 然后大 k 的话,其实就是我们这个生成的分布序列它的长度,然后 j 和 q 初始默默认他们长度都是 k, 然后他们呃刚开始先填充零,然后呢我们维护这两个数数组,一个叫这个 smaller, 一个叫 large, 叫 larger。 它具体要怎样做呢?我们先给 q 去做一个填充,就是说我们去便利就是生成的这个分布序列,它的总和为一嘛,我们给每一个 值去乘以 q, 呃乘以 k, 乘以大 k 了以后其实就是我。我们呃在右在右边提提的这一块,就是按照前面的分布给他去乘以四以以后生成这个零点四到一点六 这几个数。然后呢把它去付给这个 q 对应的值。 q 它因为长度是大 k 嘛,所以就是有下标零呃一二三就是按按我们这个例子去看的。 然后呃这一块的话,他们分别存放,其实就是代表着我们前面说的去抽样里面的 a、 a、 b、 c、 d, 那对应到这一块我我们在判断他 跟一的一个关系,比如说零点四是小于一的,而一点二是大于一的,然后分别把它们去放到死猫了。跟跟跟拉这里这一块其实就是对 定到我们放到这个对应的颜对应颜色的柱子里面去,如果他是大于一的话,他其实是这个柱子的一个就是提供方,而如果他是小于一的话,就是上面这种呃不呃就是不够一的部分需要用,就就是大于一的这个柱子去填充。 然后这就就比较好理解了。然后呢我们就写了一个循环,这这个循环他做的是什么呢?其实就是去便利这个死猫了。跟跟 large 每一次从里面取取,取出最后的 就是呃对应的值。而我们去去可判的并不是就是存放到 q 里边,这这个就是 probs 乘乘 k 这样的一个值,而是它的下标就是它存放的,其实就是我们要生成的这个随机变 面量的值。就是可以去去理去理解为 a、 a、 b、 c、 d 的这个值对应到这个算法里就是从零到三 这样的一个下标指,去把它分别去了,判的到了死死猫了跟 large 这两个就是数数组里去。那第一次做做做迭代的时候,先把他们最末端的先先泡泡泡出来,泡泡泡出来了,那以后我我们要做的是什么?就要去维护这这一个数组了。 这这个数组他所要做的是让这个 j small 等等于 j l 指。这儿我们可以举一个例子,还是以这个为为例吧。然后我们可以看到在 smaller 里面存放的其实是零跟一一嘛,而在这个 larger 里面存放的其实就是二跟三。我们刚开始泡泡泡出来 来的死死帽其实是一,而蜡纸其实是三。然后就是这两个下标,那我们让 j j 的一等于三做了这样的一个操作,就相当于我们把这个三下标的这个一点六的这一部分, 然后把它去呃添加到了这个对应到一,就是这个 b b 的这一块,他不是缺了零缺了缺了,缺了缺零缺缺零点二吗? 这个跟我们前面用肉眼去填的可能还不还还还不太一样,因为这里会根据我们去取出这个 smile 跟 large 它的顺序。但是这个都没有关系。 只要最终我们把这个柱子全填满,保证每一个柱子只有两两两个颜色就可以了。然后第一步是做了这样的一个操作,而第二步就是我我们要让 q 去做一个调 调整,因为前面 q 存放的有一些是大于一的,有一些是小于一一的一的这些值,我们把大于一的这个三三下标的已经让他放到了一那这一部分,其实就是我们要让这个一点六的这个值, 就是这个 q q l 值。如果让 l 等于三的话,它不是一点六吗?减去一,减去 q 死猫,那就是减去 q 一 q 一,这儿可以看到它是零点八那这一部分, 这一块他做的是什么呢?其实就是我们让那个大的部部分,然后去拿出这一块去填补小的那一块缺失的啊。然后这这个对应的其实就是这个呃地 嗯这一块给给大家圈一下吧,就是地这一块,然后他上面挖了一一小块,等于 零点二的去填到了 b 上面这个零点二的这样的一个位置。那这样的话,我们其实就是把这个 q q 拉值,这个 q 三 就等于了一点四。那下一步我们要做的是是什么呢?可以看到这一步,我们把一点六填了一小块,给了一点呃给给了这个给了,给零点八了,他还剩了一点四,那后续的话,如果他还是大大于一, 那我们接着把它去了,判的到啦呃去了判的到啦啦啦,呃这个啦这里。而我们那个死猫了,他不是已已经填满了吗?填满了就不就不用管了。那如果说呃我们这一块并不是这个三号,而是去 pop 出来了这个, 这叫就是二二号,二号的话,他会怎样的二号,因为他是一点二吗?然后如果说呃那个死死冒他泡泡出来的是零号,他缺的是是是零点六,那么我用一点二减去一减零点六,其实剩了零点六, 这个他是小于一一的,而小于一其实就是他需要让别人提供这一块的一个呃就是是东东东西去去判断到我我这个上面来, 所以说我就要把这个多余出来的这个零零,呃就是零点六的这这一部分,这个 live 却判断到 smolar 里这一部部分代码,他其实做的是这个事儿。而最后返回的 j 和 q 呢?他们分别表示的是什么呢?这这这可以看得到, q 其实就 就是我们用刚开始的那个 probes 乘以大 k 以后得得的得到的调调,调整完以后,按理来说应该大部分的都是小于等于一的这样的一的一个值。然后呃,如果是等于一是什么情况?其实就是原先那个 larger 他呃减减减的剩了一个一,然后剩一的话,也就是说我 去呃第一步我去按照这个 k 去做采样,采样到这个值上面, 他完他完全是一,我就就不用做后续的操作。如果他是小于一的话,就会是这样的情况,他这一部分只只占了下边这一块,那我就需要取出这个值。比如说呃,前面有这个是零,是零点四,那么我就要生成一个 从零到一,这一个随随随机变量跟零点四去比,如果小于零点四四的话,就保留我这个值,如果大于零点四的话,其实就是要看到我上面这一块了。上面这一块他应该是是几呢?其实就是我们刚刚把那个 large 那一部分给 放上来的,放上来它是存放在这个大 j 里的,那我就要按这个大 j k k 去取到它对应的值。 那这一部分代码其实做的就是这一件事。我我们首首先先取到这个大 k 的值,大 k 就是这个,呃,这和 q 都都都 ok, 就是他们的一个长度。 然后呢,我这个 k k 其实是做了一个,生成了一个随机数,就是从零到 k 这样的一个随随随呃这样一个随机数, 然后它总共是 k 歌嘛。然后生成完以后呢,我就要看这个 q k k q k q q q k k, 我再生成一个随机数,去看它是否小于这个 q k k, 如果小于的话,我就直接去取到了。这个职业就是我我们前面这个柱柱子里里边的下边这一块, 就是这一块。那么后续就就就就就就不用做是做任何的操作,如果他是一的话,就肯定保证是这一个了吗?而如果说我这个是大于等于 q k k 这个值的话,那我就要从大 g 里面去找大 g k k 里面存放的就是我第一次随机到这个 k k 值,就是这个位置,其实就是我们要返回的这个呃生成的随机变量的值,就是那个零到三刚刚九 取的那个视力里里的零一二三。而这一块这个 j k k 存放就是它上边这一部分。就是说我如果没有取到下下边上面这一部分应该是几, 就比如说刚刚放的这个这一等于三,那我按这个一去取,没有取到下边那一块的话,我就要让让他等。比如说让我随出来 k k 等于一了,而这一块他他这个一又小小于了我前面说这个零点四啊,不对,应该是大于了这个 零点四。那这样的话就需要从这个 j k k 里取,就要让它等于呃 j 一等于三了,就取到了三。那这一块。我们就把整个算法的一个部分给给大家讲。讲完了后边的话,其实是我们用这个代码去 做了一个测试,然后我们首先定义了大 k 跟大 n k 的话,就是我那个 probes 它的一个长长度,然后总和是等于一,当然就是我生成了一千个这样一个呃随机变变量。然后呢,我用这个就是囊派里的这个随呃就是生成随机数的这个迪丽克雷这这一个方法,然后生成对应的 k 个, 然后再把它转换成一个一维的这样的一个量,也就是生成了这个随随随随机的 probes。 我们可以把它 print 出来看一下,就是这样一个加和 等于一这样的一个呃就是数数组嘛。然后呢,我们调用一次这这个叫做 a a alice gun set up 这个函数,把 probs 传入进去,那生成了 j 和 q 以后呢,我们就循环大 n 次,大 n 次等于一千次嘛,然后循环一千次去填充这个大 x, 大 x 的话,每一次生成的这个数都放到对应的这一个位置上去,就用这个 l s 杠撞传入这个 j 和 q 就就可以了。 那我们可以去看统计一下这个 for x, 就是前面这个 probs, 它不是概率吗? 而这个 frex 是真正的我们采样完以后的一个频率。而频率的话,它是怎样做呢?就是我们便利这个大 x, 然后去看每一个生成的随机变量它的值,然后去加入到对应的这个 frex 它的一个位置上去。加完了以后呢,我们再把它 print 出来看一下,然后这两个值其实嗯, 从肉眼看其实就比较接近了吧。然后那我们为了更清晰地去表达呢,就用用 p l t 给大家画出来看一下,就用这个 p l t 点瓣,就是这个叫做直方图的一个形式,然后让他俩去画到同一个坐,坐标细下, 然后呃横横坐标的话就是他这样生成的一个值。然后前面用 a, b, c, d 也好,用零到七,用零零到六吧,因为总共是七七个嘛,这样子都 ok。 然后纵坐标就是频率或或或概或概率这样的一个值。然后画完以后就是下一页这样的一个结果。这能够看到,呃,这个蓝色就是我我们前面说的这个概概率,这个 probs, 而橙色就是我们说的 频率。这个 frex 能够看到按照对应的生成的这七个,呃,就是随机变量。他们出现的频频率跟概率其实都是很接近的,也就是能够说明这个算法他是真正能够按照指定的概概率分布生成随机变量的。 然后这一部分就是我们讲的这个呃,叫叫做别名采样算法的一个总总总概数吧。然后这也是我第一次尝试给大家用这样的一个形式去讲算法,也是第一次用用用用 pad 去写写画画。 然后呃,希希望大家能够喜欢这种形式吧。后续的话可能也会出一些其他的算算法的一些讲解。然后这也算是一个全全新的尝试。嗯, 看大家如果有有有,有什么就是去修改的一些意见和建议,也也欢迎就是在评论区给我去提一下。那我们下一个视频见,谢谢大家,拜拜。