今天我给大家介绍合并文本, 合并文本是指将多个文本列按顺序合并到一个文本列中。我们看这个案例, 某个汽车销售商记录了销售的三百零三辆汽车的客户信息,包括购车者性别、婚姻状况、年龄、国别、汽车尺寸、车型等等信息。 现在啊,我想把 c 六尺寸列和 c 七 车型列合并成一列,这应该如何操作呢?我们可以点击菜单栏的数据,选择合并。 在弹出的对话框中,在合并文本列这里,我们先选择 c 六尺寸列,再选择 c 七车型列。 选进框里的这两项先后顺序决定了最后的文本的合并顺序。结果 存储在啊,我们就任意存在 c 十列吧,点击确定。 好,我们看在 c 十列就生就生成了尺寸加车型的合并文本列。 好的,以上就是我给大家介绍的合并文本的操作方法。
粉丝1697获赞2766

今天分享对叠工作表和合并工作表两个功能,首先可以看到我这边打开了一个对叠工作表的菜单,在对叠选项里面有一个在新的工作表中对叠 以及将工作表附加到主工作表的底部两个选项。 这里的第一个的意思呢就是合并到一张新的工作表里面,第二个的意思就是在现有的工作表底部最佳其他工作表的内容 可以看到,我这边打开堆叠工作表菜单,然后在可用工作表里面选取要堆叠的工作表,我选 选择了 sex 的页面与 sex 的物们两个工作表,然后新工作表明为堆叠的工作表,然后我点击确定, 看到生成了一个新的名叫对叠工作表的工作表,里面包含了前面两个工作表的内容,这个就是对叠工作表,然后看合并工作表。 合并工作表下面呢有两个分支,一个叫匹配列, 一个叫并列。先说一下这个,呃,匹匹配值这个功能理解 列起来呢稍微难一点,呃,我这边打开匹配值菜单,然后选择暗列,然后在可用列中选择 wait 作为匹配列。点击确定, 可以看到在我这边下面新生成的工作表中,都将两个之前的工作表中的 wait 的内容按照顺序进行了排列, 然后最后还有一个并列,这功能比较简单,就是把多个工作表合并在一起。

大家好,今天是二零二零年的第一次微课堂,首先呢,祝大家新年快乐,当然今天也 是明太祖从入门到精通的第六节课,主要讲的是镶嵌图和概率图。 啊,大家可以从这个屏幕上看到,明太捕第一讲的第四部分,下面有两个,一个叫镶嵌图,一个叫概率图,我把这两个图放在一起 去讲解。这节课完成后,弥泰补基本图表的第一部分就讲完了,下一节课开始讲 第二部分相关的散点图和编辑图。 ok, 让我们来开始今天的课程,镶嵌图和概率图。首先我们看一下镶嵌图的这个做法,打开,明天打开,明天 以后呢?呃,这个数据呢,跟上一节课讲的点图的数据是一样的,我就不做说明。 好,我们直接看镶嵌图的第一个做法,如果我们想看厚度的分布,我们可以用镶嵌图来展示。 怎么展示呢?在图形里面有个镶嵌图,选一个 y, 简单啊,这是一个最基本的功能, 我们把厚度选进去啊,直接确定。 ok, 呈现我们的面,呈现给我们面前的是一个厚度的镶嵌图,咱们把鼠标放在这个镶嵌图上,以后看 看这个。明天我给我们显示有个 q 一、中位数 q 三等信息,这里的 q 一指的就是第一分位数, q 三指的是第三分位数,中间这个是中位数。 也就是说镶嵌图其实也是把数据从小到大的排列,从上往下排列出来的一个分布图。所以呢,大家看起来这个图应该炒过股的人都知道, 这个图看起来很像我们的那个开线图,对吧?啊,其实有很多类似的地方,所以他可以看我们的分布,这个盒子呢越窄呢说明我们的分布呢越集中, 那我们看到最下面有个星号点,这个呢其实就是我们的一个什么界外点,也是我们的这个异常点,异常点, ok, 这是镶嵌图的第一种用法,就是看我们的这个分布的分布的,那我们看镶嵌图还有什么第二种功能 啊?比如说我们还是一样,跟上次一样,我们想看这个不同的喷嘴,喷枪对厚度的影响,我们也可以用镶嵌图的方式,这里呢我就做一一个作为演示,其他的大家下去可以练习 好图形相线图啊。我们这个时候选的必须选一个 y 含组,因为我们要看他们之间的关系。 ok, 确定好,这个是我们把图形变亮,选 y 厚度用于分组的变量,选喷嘴, 确定, ok, 呈现给我们面前的是什么?是一个镶嵌图,这个镶嵌图呢,横坐标一五十是喷嘴, 然后重坐标是厚度,这样看来一号、五号、十号喷嘴喷出来的厚度的分布各不相同。从图像 图形上可以看出,一号喷的比较薄,十号喷的比较厚,但是从标准差的角度来看的话,五号的喷嘴的喷的标准差比较小, ok, 这样的话我们可以看出来喷嘴对喷漆厚度是有明显的这个影响,那么我们看一下喷枪是不是,是不是有影响,来 ctrl e 回来啊,我们把喷嘴换成什么喷枪, 然后确定。 ok, 这个手呈现在我们面前。 这个镶嵌图呢,我们看起来一号喷枪,二号喷枪,三号喷枪喷出来的厚度的分布呢,基本上是一致的,有总裁可以得出喷枪对厚度的影响并不显著。 ok, 这是镶嵌图的第二个功能,那镶嵌图还有第三个功能,我们可以再回到上一个界面, ctrl e。 如果我们想看喷枪喷嘴 同时对厚度的影响,我也可以在用于分组的类别变量里再把喷嘴给选进去。 选完以后呢,我们确定, ok, 呈现在给给我们面前的是一号、二号、三号 是喷枪,然后每个一号里面有一号、五号、十号是喷嘴,这样的话,我们就可以看出来三个喷枪的分布基本一致,但是三个喷嘴的分布呢,有明显的差异。 ok, 这个就是我们镶嵌图的。呃,三个功能。那第二个图形就是我们今天要讲的概率图。 ok, 我们上次在基本统计学里面讲过了,该例图主要是判定数据是不是符合正态分布,那这个目的也是一样。比如说我们想看一下厚度这一列数据是不是符合正态分布, 我们可以在图形里面点概率图选单一,然后确定, 这个时候我们把厚度放进去,直接确定出来这个图叫厚度的概率图。 这个时候我们怎么看这个图呢?主要的功能跟上次讲的这个正态性检验一样,看屁值,如果屁值大于零点零五,我们就认为这组数据是符合正态分布。 ok, 那我们如果想检验两组数据分别是否符合状态分布,我们可以利用弥菜谱里面图形里面的概率图的多个选项,多个可以同时检验两组 以上数据的正态。比如说我们要检验厚度和身高这两列数据的分布是否符合正态分布?我们可以把两列数据都选进去,然后确定, 这样的话,明太卜呈现给我们的就是两个数据在一起的正态性检验,同时会出来两个批值判断的标准是一样的。 ok, 今天呢,我们主要给大家讲的是镶嵌图和概率图的迷太谱入门操作。好,谢谢大家。

这个主题谈谈什么是相见图。先了解什么是相见图。相见图是一种用于显示一组数字分布情况的统计图,因形状如相纸而得名。 相对股可以用来识别异常值。初恋人看出数据是否具有对症性,分布的散布程度特别可以用于对几个样本的比较,把多个数组织的数据同时展现出来。再了解一下上线图如何选择一组数据的, 这是所有数据的中位数,所有数据的最小值,所有数据的最大值,最大值。以中位数之间的中位数相信图目的数据中的异常值值得关注。 不加剧组里把一场值包含经济数据的计算,分析各种的结果会带来不良影响。重视一场值的出现,分析其产生的原因,然后从未发现问题, 从而改进决策的契机。相应都是为了我们提供识别异常制的一个标准。相知者的废质依靠实际数据,不需要事先假定数据,服从特定的分布形式, 没有对数据做任何的限制要求,他只是真实直观的表现数字形状。本台面貌相对于在十倍异常之方面既有一定的优越性。

本节我们继续学习 mini tab 统计分析教程的第五章基本统计分析。本节我们学习图形的综合分析, 我们打开 main tab, 大家可以看到我们点击统计基本统计量里第三个就是图形化汇总, 图形化汇总在之前的版本中呢,叫图形综合分析,它是呢,呃,具有绘制带正态曲线的一个直方图镶嵌图,并输出一个居音值中位数的一个百分之九十五的 可制性区间的图形结果输出呢,还有 anderson, anderson darling 的一个正态检验,呃,描述性统计量以及美容统计量和什么呢?均值 中位数以及标准差的百分之九十五的执行区间。我们看一下我们这个本节的一个数据, c 三类呢?是什么呢?血清总蛋白,这是呃,某单位的对一百名健康女大学生测定血清总蛋白的一个含量,就是克美生,那就是现在这里让你做一个图形的一个综合分析, 那我们点击统计基本统计图形化汇总,那变量就是我们的血型总蛋白了。双击啊, 分组变量呢是没有的,不分组,那制进区间呢?制进水平是百分之九十五点确定,我们点击右下角的一个输出窗口,我们看一下,这就是我们的一个所说所谓的图形综合分析,或者说图形 画汇总。在这里可以看到血清的啊蛋白的一个脂肪图,并且带有一个什么呢?正态曲线的,那右边呢,就是右上角,我们看一下一个正态型检验,正态检验就是 angelshind darling 的一个正态检验,有 a 平方和 p 值, 这两个呢,就是如果大于零点零五,就认为这个数据是服从正在分布的,从这里我们看 p 值呢是零点三五大于零点零五,也就说这一百名女大学生的一个血清总蛋白量呢,是符合正在分布的。当然呢均值呢是七十三点六九 六,标准差是三点九二六方差、偏度、风度以及非缺失数一百个,因为我们已知的数据就是一百个嘛,没有缺失的,所以说这里输出的 n 呢,也是一百,下面有最小值是多少,最大值是多少,中位 多少以及他的四分为数。那下面这一看,一看到我们还有一个就是百分之九五的均值的直径区间,百分之九十五的中位数的直径区间。以百分之九十五的标准差直径区间。 这个证券什么意思呢?就是说我们根据这一百个数据,可以计算出这一百个人的一百个人的血型总蛋白的一个均值中文数标准差。但是那总体做法呢?假如我这个学校有几千人,有五千人,我只抽取一百人,我想问一下这个学校中, 这个学校的所有女生的一个血清总蛋白的均值标准差多少呢?而我只抽取一百一百个人,所以说我通过这一百个人的这个数据来推断总体的这个均值的以及中文数的以及标准差的范围。那这他百分之九十五的 时间,也就说我有百分之九十的五五的把握确定。那这个所有学生的这个学前代表总含量呢?就在七十二点九幺九九幺七到七十四点四七五范围内,这就是我们对总体的一个推断,那上面呢是是对这个样本的一个描述, 这两个是我们后面会讲到这个假设检验以及什么是制性区间,那本节呢?就是我们介绍的一个图形化汇总的功能,他可以展示我们常这个数据的一个常见的基本统计量,以及对他的一个制性区间的估计。


展开图批量合并,我们打开 cad 合并这些钣金的展开图控制键加一,全选所有零件,零件与零件之间的距离输入五十。 那么所有的 cad 钣金键呢?展开图呢?自动合并, 这个时候就可以去排版激光切割了。

图形排版,首先对每个图形选择自动更新,结果, 按住 shift, 选中需要排版的图形,右击选择发送到报表。 当数据更新后,所有图形自动更新, 也可以调整报表中图形布局。

现在我们来讲 mini tap 的文件存储类型, mini tap 的文件存储呢,默认是保存项目全部信息的, 比如当前这个文件,我们在保存的时候,可以直接点击工具栏的保存按键, 或者用快捷键 ctrl 加 s 进行保存,也可以在菜单栏选择文件。 在弹出的菜单里,我们可以点击保存项目或将项目并存为保存后的文件呢, 是这个样子的,它的后缀是点 m p x 这种类型的文件,包含完整的项目信息。 那如果我只想保留工作表,不想给别人看到啊输出创格,那么我们可以在工作表中任意位置左键点击一下, 保证当前操作界面是工作表,然后在菜单栏选择文件, 在弹出菜单栏菜单里,我们可以看到将工作表定存为 我们操作一下。 好,我们看到保存后的文件是这样子的, 它的后缀是点 m w x 这种类型的文件,只包含工作表,没有任何输出信息。 提醒一下啊,有时候我们在菜单栏里找不到将工作表另存为, 那是因为你当前的操作界面不是工作表,大家要记得要先在工作表内 火箭点击一下,然后再去查找就能够找到了。那如果我只想给别人看输出窗格的内容, 不想给别人看到工作表面的数据,我们可以左键点选想要保存的啊报表,在菜单栏中选择文件,选择将当前输出另存为, 这样我们就可以以网页或 word 文本这种格式来进行保存。 好,我们点我们试一下啊,点击点, 点击保存, 我们看当前就是以网易的格式进行保存,在这里面只有输出方格的信息, 不过我还是觉得最严的方式呢,还是需要哪个输入窗格就选中哪个, 比如说对于这一个输入创格,我选中它 control c 复制 啊,在想要保存的文件中呢,比如说这个 ppt 文件啊,我在这里面 control v 粘贴, 我还可以对它进行啊大小的调整和位置的调整 啊,这样啊,是非常方便的。好,以上呢就是 mietap 的文件存储类型。

今天我们来看一下如何对不同来源的数据渠道的呢工作表进行合并。 首先呢需要切换到模型管理这个页面,点击左上角创建模型。 首先要把咱们需要合并的两个数据表,支付宝收款数据和微信收款数据,分别按住拖拽到右侧空白画布区域, 自断呢,默认全选。微信收款数据同样拖到右侧自断,默认全选,不做调整。这里的合并呢,是通过算子里面的 全部合并的算子来进行操作啊,大家找到全部合并这个算子,那切换到算子的这个标签页,找到全部合并的算子,同样也是拖到右侧,分别把支付宝和微信的数据和全部算子全部合并的算子进行连接。 连接的方式呢就是把鼠标放到数据表周围,出现小气泡的时候,按住往右拖拽会出来一条线,分别引入到全部合并的算子上,点击全部算子,合并的算子啊,进入合并的配置页面, 那这里呢这个字段啊,原始表可能会比较多,那假如说我们就需要部分字段,该怎么操作?首先点击支付宝数据后面三个点, 我们只想保留发生时间,订单号和收入金额啊,我们可以先把全选勾掉啊,手动来勾选发生时间,商户订单号以及收入金额,点击确定,只想保留这三个字段。同样微信我们也是做一样的操作, 这时呢他把相同名称的商务订单号已经自动 进行了合并汇总。如果说我们往后看,可以发现交易时间和发生时间含义是一样的,所以我们需要把交易时间按住拖拽到发生时间的下面,和他进行一个对齐, 同样订单金额和收入金额也是一个含义,所以我们把它也进行对齐,那这样的话,这两张数据表就按照对应的字段含义进行了一个合并汇总。 合并汇总之后呢,我们可以把上面的订单号统一修改一下,因为合并后的数据就不再区分它是来自支付宝还是微信,所以这段名的话进行修改统一叫做比如订单号。 好了,这样这个合并就操作完了,点击完成,再从左侧的算子列表里找到全量输出的算子,把它拖到右侧,我们把合并后的结 再输出成一个新表,从全部合并引出线来,连到全场输出上,点击全场输出的算子,给输出的结果表起一个名字,那叫做支付数据合并汇总 模型名称,我们起个名字叫做支付宝加微信汇总模型 好了,那么都配置好之后,点击右上角完保存这个模型啊,就开始汇总啊,就开始运行了。切换到个人数据页面, 可以看到支付数据合并汇总啊,这个表已经生成了,这两个表呢,一个有三条数据,一个有四条数据,最终合并完之后呢,就变成了七条数据,也就是他的条数进行了一个汇总, 那这个呢,我们就把两个不同来源的收款数据合并到了一个表。

多多元回归,多个变量啊,我们在建模的过程当中,他们之间啊可能会存在相关性,而且有时候可能性相关性很强,那么这时候呢,我们可能会出现一种叫多重贡献性的问题 啊,对这种问题的话呢,我们给大家讲一种啊,解决这种问题的办法,当然解决多重共性的方法有很多啊,有很多, 那第二个呢,就是关于后面两个都是关于模型筛选的方法啊。第二个给大家去讲一讲逐步回归啊,这边的话呢,我们会给他去比较一下逐步回归呢,大家传统的逐步回归当中,我们有一些方法,比如说什么前进法,后退法,逐步法啊,他们这边的差异呢,我们今天也给大家简单去理解一下。 好,最后一个叫最佳子吉回归啊,什么叫最佳子吉啊?这个呢我们今天给大家去操作一下啊,这就是我们今天啊要给大家分享的三个部分的内容。好,我们首先来看一下第一个叫做 多重贡献性,那我们说一个比较简单的案例啊,案例的话呢来自于这个难题书当中的案例,我们基于这个案例的话呢,来给大家去理解一下什么叫多重贡献性啊,如果出现多重贡献性呢,我们该怎么办啊?我们通过这个案例呢来给大家简单介绍一下, 这概念很简单啊,它只有一个 y 啊,就是关于这里的 c 六电散热量,然后呢这边呢有四个 x, x 一、 x 二, x 三、 x 四啊,也就是说有四个 x, 一个 y, 而且这个 y 呢是一个连续型的 y, 四个 x 呢都是连续型的 x, 我们来建立一个 回个模型,那建立模型的话呢,软件的操作啊简单,我们可以通过统计回归,回归啊,你和回个模型,我们把散热量,回响密量 y, 然后呢四个 x 都是 是连续性的预测变量,我们 x 一 x x x 输得进去啊,然后的话呢,如果你要考虑交互重,你可以在模型当中把他们之间的二阶或者是高阶交互重呢,把它输得进来。当然我们在这个模型当中我们就不考虑交互重了,我们 直接点击确定,然后呢得到相应的模型。好,下面的话呢,我们首先来操作一下,我们把软件打开啊,好数据的话呢,我已经先打开了,我们首先来用并开软件啊,把这个活跃模型先创建出来。这个创建模型的软件的操作啊,其实不难啊,我们点击统计选择回归, 回归啊,你和回归模型响应变量 y 呢,是散了量四个 x x 一, x 二, x 三, x 四啊,都是连续性的预测变量,我们把 这四个啊选中,然后呢点击这里的选择按钮,这四个 x 呢都加进来了。如果啊大家要考察交互作用呢,你只需要在模型按钮当中 把,比如说我们把这四个选中啊,注意一下,这里啊,在预测变量这里呢把四个变量选中,选中以后呢,我们可以,比如说我们可以按变量顺序添加交互项,比如说我们可以添加这些,我们如果你要添加,比如说添加二阶,那这边的话呢,四个 x, 它其实有六个二阶交互纵向,那我们刚刚说过我们这个案例的话呢,只是给大家去讲某方面的作用啊,所以说这个交互纵呢,我们这边就不添加了啊,我们主要给大家去讲一讲关于这个多重贡献性以及模型筛选的一些方法,我们这个交互作用呢,就不加了,如果你不加的话呢啊,你可以把这 比如说这些交卷我不想加了,不想加的话呢,你可以选中,然后呢点击这个红色的叉号啊,你把它删掉。好,我们这里就不加啊,点击确定好其他的选项,我们先默认啊,直接点击确定 好,那我们来点击这个仅输出窗口,我们来看一下,我们按住 ctrl 键滚动鼠标滚轮上向上滚呢,我们放大 啊,大家觉得我啰嗦啊,我这边说明一下,因为参加这个课程的朋友,其实有些朋友的话呢,刚接触所有的一些小细节,比如说什么点击 显示仅数据啊啊仅输出啊啊这些按钮的话呢,我能提到我能想起来的,我尽量啊给大家说明一下啊,因为有的朋友比较熟,但有的朋友花了刚接触啊,所以说我们稍微照顾一下。 好,那我们来看一看我们的这个输入结果,在这个输入结果当中的话呢,大家可以看一下啊。呃,我们看什么呢?首先我们来看一看啊这些表啊,这里是我们的回购模型,在 第一步建立的模型当中,我们这四个 x 都包含在这个模型当中了,那么我们在做多元回归模型,有多个 x 建模的过程当中一定要注意了, 第一次得到模型往往不是最优的啊,它里面可能有一些不显著,或者我们叫做滥竽充数的像,所以我们等一下来还要判断一下这些模型上的像啊,是不是都显著。好,怎么去看显不显著呢?你可以去看系数 表当中的批值,也可以去看方超分析表中的批值啊。这个呢,看你的个人习惯啊,这个呢,看你个人习惯,比如说我们来看一下,我们看一下方超分析表, 在方向分析表当中啊,这里的话呢,我们简单来看一看对应的批值啊,这里呢,我就再啰嗦一下,很多朋友特别对这些所谓的啊,什么这些 f 值怎么算的很感兴趣啊,这个我们说过啊,作为 使用人员,并不需要你掌握非常复杂的计算,他可能会增加你的学习的难度,没有必要啊,软件的好处就是帮你 计算嘛,那您就买软件了,买都不像你手算。所以说至于公式,你能不能了解,掌不掌握,其实呢,当然你掌握有好处,但是呢,没有必要去强求非要大家记公式 啊,我没有这个需求,我们能够理解他就可以了。好,我们来看一看这里的放置分析表,我们就简单看一下这里的批值,这个模型呢,很有意思,我们来看看在当前放置分析表的 当中啊,我们今天跟大家说过,凡是看到梯子的地方,说明我们这里呢就做了一个假设检验,那么既然是假设检验,那么首先有两个假设,原假设和对的假设,那么我们来看一看,首先我们来看一下第一项, 第一项对应的叫回归项的批值,他的批值呢是小于零点零五。好,那么大家看看你能得到什么结论,这里为什么有批值?他做的检验是检验干嘛的呢? 这个批值啊,他帮你是来检验当前这个模型,我们叫这个回归,或者叫这个模型啊,总效果 是不是有效的?那怎么判断模型有效?怎么判断模型无效呢?如果啊,大家记不得怎么去确定原点设备的颜色啊?你要想办法啊,比如说我们可以看看,对于这么 个模型, y 等于,比如说 y 等于 k, x 加 b 的这么一个模型,那么这个模型什么叫有效啊?什么叫模无无效啊?它的原假设和对列假设是什么呀?你要快速啊,能够写出来, 把那个写出来。比如说我们在确定原假设,我们在讲假设点的时候,我们给大家说了一些判断确定原假设和背对假设的一种方法。如果像这里,我们能够把原假设和背对假设写成数学符号的形式,那这个就比较简单。你说什么叫 原甲式呢?我们把等号始终放在原甲式,那对于当前这个模型,什么叫有效?什么叫无效?看的什么?看的是斜率 k, 如果斜率 k 等于零啊,等号始终放在原甲式啊,如果斜率 k 等于零,那这个模型是有效还是无效?这个模型 是无效的。对,那如果斜率 k 不等于零呢?那模型就是有效的 啊。原假设和背地假设呢,是一个相互对立的实验,所以说在当前检验当中呢?原假设说什么模型是无效,背地假设呢?是说明模型是有效,这里批值呢?零点零零零,小于零点零五,我们叫什么批值小于零点零五,拒绝原假设。所以说我们得到结论,什么模型是有效的 啊?模型是有效,同样的道理,那后面对于这四个 x 呢?它有对应的皮质,这是干嘛呢?这是帮你判断模型当中的像 是不是显著的啊?模型那么像是不是显著,那么它的原角色怎么说?它的原角色是模型是无效的啊?对,角色呢?是模型的像是有效的。那么大家看一看这里对应的四个 x, 他的批值都是什么?都是大于零点五,大于零点五不拒绝原角色。我们刚刚说原来什么原角色是模型无效啊?这个像是不显著的啊,这个像是不显著的。哎,这就很有意思了,这个模型就很有意思, 模型是有效,但这四项都不显著。哎,是不是很有意思?为什么会出这种情况呢? 这个模型有效,模型当中的像没有一个是显示的,这好像跟我们的常识就有点不符。那为什么会出现这种情况呢?出现这种情况的原因啊, 可能情况就是什么呢?因为我们在做建模的时候啊,是需要模型当中的这些变量啊,他不能有相关性 啊,但是呢,我不排除他可能会有啊,如果有的话呢,可能会出现这种情况,那是不是由于电量之间相关性导致这种情况出发发生了呢?我们看什么呢?我们可以看看上面有个叫 系数检验表,在系数检验表当中,我们可以看到这边有个叫做方叉膨胀因子 啊,方向膨胀因子,同样的道理,我并不需要你去掌握公式,去计算手算这个方向膨胀因子啊,我我觉得没这个必要,但如果你能够掌握的话呢,带的更好, 我们只学干嘛呢?我们过来看一看,这个方叉膨胀因子是不是比较大,这边的话呢,我们有些相应的判断的原则,什么原则呢?这里我们简单看一下,如果你这里的方叉膨胀因子啊,比较大啊,比如说如果他小于五,那么他的我们叫什么呢?叫贡献性 不显著。什么叫贡献性呢?这里有一个概念,我们先简单了解一下,在多元回归建模当中,我们是需要必然制定啊,没有相关性,但是如果出现相关性,那么这种现象的话呢,我们叫什么呢?叫做多重贡献性 啊。在多元回归当中,如果变量之间存在相关性这种现象,我们叫做多重贡献性。那么怎么去判断多重贡献性有没有是不是显著呢?严不严重呢?我们可以通过去看系数表当中的方差 膨胀因子,如果这里的发生膨胀因子小于五,我们就认为这种情况呢,有,但是可能不显不严重。 但是如果他比较大,比如说如果是他大于十的话,那么这种多重贡献性啊,就比较严重,比如说这个变量资金啊,可能存在比较强的一个相关性。首先来看一下我们这里的这个表, 在我们当前的系数表当中,方砂屏障因子啊,都是很高的啊,最低呢都能达到三十八点五,说明什么?说明在当前的我们的这个数据当中,我们想基于这四个 x 来建立模型,这四个 x 它的贡献性啊很强, 关系很严重。所以说明什么呢?说明我们这四个 x 变量之间呢,有很强的相关性,那既然存在很强的相关性,是哪些变量之间存在比较长的相关性呢?是 x 一跟 x 二还是 x 一跟 x 三 x 四呢? 这里的话呢,我们需要把他们之间有长相关性的变量啊,我们来找出来。怎么找呢?我们来看一下,很简单, 所以说我们导致模型出现模型有效,但是相不显著的原因呢,是这边的变量之间存在比 较强的相关性。那下面的话呢,我们需要把有强关性,有强相关性的变量啊,把它找出来。怎么找?很简单,我们可以来做个什么呢?我们可以来做一个叫相关性的相关系数的计算,并执行相关性的检验啊,怎么做呢?我们可以点击统计,选择基本统计 啊,这边有个叫相关检验啊,点击相关统计,基本统计相关。好,我们这边的话呢,可以把所有的变量直接全部输入进来, 然后呢去计算相关性数,并执行相关性的检验。那如果我们要执行相关性检验,我们在新版本当中的话呢,有一点要注意一下,我们需要去勾选一下,点击结果按钮,然后呢在这边呢去勾选一下这个配对相关表啊,这样的话 它会显示出来相关性相关性节的 p 值啊,这里要注意一下啊。好,我们点确定再确定 好,这的话呢,我们会得到一个,呃,矩阵图啊,得到一个矩阵图, 在矩阵图当的话呢,我们可以看到对应的量对之间他们的相关系数以及相应的制定区间。当然如果你觉得看图比较累的话呢,也可以看看下面 啊相关的配对 portion 相关表,在这个表当中的话呢,这个有些朋友喜欢看图啊,有些 喜欢看统计量,那好,我们就直接来看一看这个统计的结果啊。这边的话呢,我们可以看到对应的相关系数以及相关系数的百分之九十五人进区间,然后呢是对应的批值,那这个怎么看呢?大家注意一下这个看法。 首先应该看的是 p 值啊,看 p 值,看 p 值当中什么 p 值小于零点零五的 啊?比如说这里,这里呢有什么呢?有 x 三和 x 一,它的相关性节的 p 值是小于零点零五, 然后呢, x 二和 x 四这两个之间的相关系数的批值也是小一点六。那我们刚说过,凡是看到批值的地方说明什么?说明这里呢,我们做了一个检验,这里做了什么检验呢? 是两个变量之间它的相关性是否选择了一个检验?那它的原假设和背的假设是什么啊?我也是希望大家啊,能够快速的去判断出来它的原假设和背的假设是什么。这个其实也很简单,像这个案例也很简单啊,如原假设等 等号始终放在原甲色。我们这里的话呢,是想看相关系数来检验啊。相关系数我们用小二请表示,原甲色等号始终放在原甲色 啊,所原角色是说什么?原角色小二等于零说明什么?说明这两个变量之间无什么无显著的线性相关关系。 a 的角色呢?就是 啊,消息度小二不等于零,是有显著的线性相关系。这里要注意一下,我们这里判断的相关系强制的是线性相关。那这里批值呢,有两个批值小于六啊,拒绝转角色,所以我们可以得到两对变量, x 一和 x 三, x 二和 x 四,这两对变量之间呢,有很强的相关性,那当我们遇到变量之间 存在相关性,导致方向膨胀因子比较大,那这种情况我们该怎么怎么进行处理呢?那么这种方法其实很简单,我们可以先干嘛呢?把有强相关性的两个变量当中删除一个啊,删除一个就可以了,那怎么删呢?我们来看一下, 那么在三点过程当中啊,我们有一些小的建议吧,干嘛呢?比如说我们来看一看刚刚的方的分析表,我们来建议干嘛呢?首先从批值最大的 啊,最大的这个变量开始三,比如说在当前的方式分析表当中,我们可以看到四个 x 啊,它梯子最大的是这里的 x 三,它的批值达到零点八九六。那这边的话呢,我们可以先把 x 三把它删除,用 x 一, x x x 来重新建模型,我们来看一看,是不是这些像啊就变得显著了,我们来试一下啊,重新建模, 点击统计回归,回归你和回回模型。然后呢,在这个变量第二次键盘的过程当中呢,我们首先把 c x 二 x 加入进来,然后呢把 x 三把它删掉啊,把 x 三删掉,重新建立模型,好,点击确定。 好,那我们来看一下,当你在建模的过程当中,把批值最大最不显著的 x 三把它删掉以后呢?哎,大家会发现是吧, x 三和 x 一是相关性比较强的,是显著相关的,你把 x 三删掉以后呢,你会发现,这时候的 x 一啊,看到没有, 它的批值就变成小于零零零五,它就变得显著了,但是呢,剩下还有两个不显著。那么这时候你再去看一看方车膨胀因子呢,你会发现 x 一的方车膨胀因子降下来了,但是 x 二和 x 它的 放到屏上印子还是比较高。好,我们再删,怎么删呢?再把批子最大的 x 四把它删掉,好,我们再来删,点击编辑上一个框啊,回来。然后呢,我们在变量当中只勾选 x 一和 x 二,这时候呢,把 x 四把它删掉。好,点击确定。 这段话呢,我们会得到第三个模型,在第三个模型当中,我们会发现啊,这个边呢只包含了 i c 和 x 二,这时候呢,发烧频道因子啊,就明显降低了,这时候呢,模型扭合效果要比刚扭合的更好一些,而且剩下的像都是显著的,对不对?长插呢,大家可以看看,也没有 啊,正太独立等方差也没有明显的问题,所这时候我们就可以得到一个比较好的最终的模型。这是处理 多元回归当中啊,这种贡献性啊,多元贡献性的一种方法。这种方法的话呢,简单粗暴啊,他直接把这种不写字的变量把它删掉啊就可以。 但是呢,大家可以想象一下,比如说这里的 x 三和 x 四被你删掉了,但是如果大家有没有想一想, x 三和 x 删掉以后,虽然 x 一和 x 二就变得显著了,但是如果我不想删呢,我不想把它删掉, 有没有一些其他的办法可以把它保留下来,然后也可以使方沙膨胀因子降低呢?有没有呢?有这种方法的话呢,大家如果感兴趣啊,大家可以在我们的这个微信公众号当中,我应该写过一些文章啊,关于什么呢?我们 可以来先干嘛呢?我们可以来做一些啊,降维啊,你可以通过一些多变量的方法,比如说你可以通过组成分分析啊,然后呢再去继续组成分分析啊,来做多元回归的降媒啊,多元回归的降啊建模。 如果大家感兴趣啊,大家可以在那个我们的公众号当中去搜索一下啊,这个主成分分析的多元回归啊,怎么建模呢啊?遇到这种 多重贡献性怎么处理?那么这种方法的话呢,其实个人来讲的话,虽然有点难度,但是可能更高效一些,为什么这时候呢? x 三和 x 四我们可以做一些组成分呢?把它包含在里面, 然后呢他也不用删掉啊,也不用删掉,也可以帮你降低这个多重多重贡献性啊,也可以做到,也可以做到,如果感兴趣,大家可以去看一下我,我写过一些文章。 好,这是我们今天给大家分享的第一个方面啊,出现这种多重贡献性的情况该怎么进行处理啊?说对这个方向膨胀因子啊,平常大家也要去看一看啊,也要去看一下, 好,我们再往下面看。那有的说,老师啊,如果你这个一个三,你看啊,这里呢有四个 x, 你这边已经得到三个模型了,那如果 x 更多的话,你这一个一个三呀,太麻烦了,有没有比较偷懒的或者叫自动化的方法, 能不能帮我们删呢?可不可以呢?这个也可以啊,也可以。那这边的话呢,我们再给大家讲第二个主题啊,叫做逐步回归。

分享一个功能,堆叠列的驱逐,那么我们可以看到这边有列数据,它代表在不同的时间段,用不同的设备,在 a b 两个操作源 操作下产生的尺寸数据。那我们这样看这个矩阵呢,非常不方便,那如果我们要把它梳理成两列或者三列,那么要怎么操作呢?首先可以 呃手动复制粘贴,这是一种方法,但是如果数据多会不是很方便,那么在迷你推博里面有一个功能叫堆叠,堆叠里面呢有堆叠列,堆叠列的去除堆叠行,堆叠列和堆叠行呢,非常简单, 我们主要讲一下对叠裂的驱阻,我们打开对叠裂的驱阻,然后可以看到这边我已经 做过前一次操作了,所以会有一个记录在这,那么我前一次对叠了第一周和第二周的数据,现在我把第三周的数据也进行对叠 双击就可以了。然后在这边我们可以对叠到新的工作表,也可以对叠到当前工作表。那么这个下面呢,就是你对 新的列的命名,中间一空空格空开,然后这边可选项,这边我是选择了周数,当你觉得不需要也可以空着,选完之后 点击确定,我们可以看到新的数据,就按照我们的要求对接成了三列, 然后下标就可以看到这个是 d 几周的。那么这边有一个小技巧,就是 我重新命名的这个列的名称最好与原来的名称稍微有点区别,否则的话有时候会出错。

大家好,这节课呢,我们来学习箱型图的应用,箱型图呢,又称作为合虚图,合适图,合状图或者是相限图,因为这个图当中啊,他有一个像盒子一样的东西,他是用来查看数据的一个分布范围的, 那么这个相信图呢,将这个数据啊从小到大排列之后呢,将中间这一部分取出放在这个盒子当中,这样呢以表示数据的一个集中范围。那么通过这个图呢,我们可以快速的发现这一组数据当中的这个异常值, 那么这个异常值呢,会偏离我们这一组数据,所以呢香型图啊,他经常用于我们的品质管理啊,通过这个香型图呢,可以快速的发现异常值。那么要彻底理解这个香型图啊,我们 还是要先去理解这个图当中的五个值,哪五个值呢?分别是上四分位数,下四分位数,中位数以及上线和下线, 那么这里的上线和下线啊,要以这里的最大值跟最小值啊区别开来,这个上线和下线呢,是经过特殊计算得到的, 那么这个上限跟下限呢,与我们这个异常值啊,他是有关联的,这个呢我们待会再来讲,我们先来看上四分位数,下四分位数以及中位数,他是怎么计算得到的, 首先呢,我们将这一组数据呢分成四个部分,那么这个地方它就代表 下四分位数所在的位置,这个地方呢代表中位数所在的位置,最下面这个地方呢,这个地方代表上四分位数所在的位置。哎,这个 位置啊,以我们这个图表当中的位置,是不是刚好相反,图表当中最上面这个呢,是上十分位数,而我们这个 这里呢,这个地方代表下四分位数,原因呢是我们这个数字啊,从小到大排列呢,他是从上往下进行排列的啊,这个图表当中, 数字从小到大排列呢,是从下往上排列的,所以呢,刚好相反啊,这个地方呢,要特别注意一下,那么这个位 位置他到底是怎么计算得到的呢?为什么这个地方啊,叫做下四分位数所在的位置,而不是这个地方,那么我们需要通过这个公式啊,计算得到, 是用 n 去乘以 l, 加一去除以四得到的,那么这个 n 就代表着 我们这个分成四个部分,属于哪个部分?比如说这个地方呢,就属于第一部分了,对吧? 那么这个 l 就代表我们这个数据它的一个长度,我们这里呢,一共有十四个数据,那么 l 呢,就等于十四, 所以呢,这个下四分位数这个位置呢,就用一去乘以十四,加一去除以四,得到三点七五,那么三点七五位于这个跟这个 间,对吧?那么这个下四分位数,这个数值又是怎么计算得到的呢?它需要通过这个公式, 那么从上往下看,这个位置呢,处于这整一个数组的四分之一位置,对吧?那么四分之一就是零点二五,用零点二五去乘以 这个第三项,也就是十七,再加上从下往上看,这个位置呢,处于四分之三的位置,那么四分之三就是零点七五去乘以第四项去乘以十九,然后相加得到,那么最终这个值呢,就是十八点五, 那么这个中位数呢,它就是用二去乘以十四,加一去 除以四,得到七点五,那么七点五在于七和八之间,所以中位数呢,在这个位置,那么他具体的值呢,就是用零点五。零点五呢,是从上往下看,这个位置呢,是除以二分之一的位置,对吧?二分之一去乘以第七项二十五,再加上 从下往上看,也是在二分之一处,那么二分之一就是零点五,去乘以第八项就是二十八,最终得到的结果呢就是二十六点五。 那么同样上四分位数,他这个位置呢,也是通过三去乘以十四加一去除以四得到的是十一点二五,所以是一点二五呢,刚好在十一跟十二之间, 那么他这个具体的值呢是有零点七五。这个零点七五呢,是从上往下看,他处于四分之三的位置, 去乘以第十一项就是三十四,然后呢加上从下往上看,他除以四分之一的位置,那么就是零点二五去乘以第十二项三十五,然后加和得到三十四点二五, 那么这个是啊,前面三个啊,就是这里的三个,然后下线跟上线,这两个又是怎么计算得到的呢? 首先呢,我们要计算出这个四分位距,这个四分位距其实就是这个箱型的高度, 那么这个香型的高度呢,我们需要用上四分位数减去下四分位数,也就是说用 q 三减去 q 一得到的,对吧?那么最终的结果呢是十五点七五,这里呢用 i q r 来表示,那么上线它就是用 这个上次分位数加上一点五倍的这个高度 啊,就是 q 三加上一点五去乘以 iq 二计算得到的,最终呢得到五十七点八七五,你看这个五十八点五十七点八七五,是不是最大值啊?很显然不是最大值,对不对?这里最大值是七十,对不对? 那么同样下线呢,它是用 q 一就是下十分位数去减去一点五倍的这个高度,那么最终得到的结果呢?是负的五点一二五,很显然下线呢也不是最小值, 那么这里的这个最大值,最小值啊要强调说明一下, 那么这里的最大值和最小值是指数值当中啊排除异常值以外的这个最大值和最小值。那么这个异常值又是怎么计算得到的呢? 这个异常值是指上线以上的数据或者是下线以下的数据,也就是说大于上限的数据都被称为异常值,小于下线的数据呢也被称为异常值。 那么这里我们看一下,这一列数据当中,只有这个七十是大于这个上限的,也就是说这个七十呢是异常值,对不对?那么排除这个七十以外,这一组数据当中,这个最大值呢就是三十七,最小值呢就是十二,对不对? 好,了解完这些数据点之后呢,我们就可以去创建这个 箱型图了,首先呢我们用最普通的方式啊去创建,那么在创建之前呢,我们需要把这些数据点啊给它计算出来,对吧?那么这里最小值呢,我们就手工输入了,就是十二,那么最大值呢, 就是这个三十七,而不是这个七十,对吧?三十七,那么下四分位数,中位数跟上四分位数呢?我们可以通过一个函数去计算得到, 我们输入 p 之后呢选择第三个,这个函数呢是返回数组的 k 百分点值, k 呢是建议零和一之间的,不包含零和一,那么下面这个函数呢,是类似的啊,他是包含零和一,这里呢我们只需要选择第三个就可以了,然 然后这个 allen 呢,其实就是我们这个数组,那么 k 呢,就是我们所说的这个上司分位,或者是下司分位,或者是这个中位,那么这个 下四分位呢,其实就是这个位置,那么这个位置呢,就是从上往下看是零点二五,对不对?就四分之一了,好,我们输入零点二五,这样呢我们就计算得到了十八点五,你看是不是十八点五啊,那么中位数我们也是一样的 p, 然后选择第三个这个数据区域,选中,然后呢逗号,那么这个 k 值呢,中位数处于二分之一的位置,就是零点五, 那么这样得到二十六点五,对吧?那么上次分位呢,也是一样的,选择第三个函数,然后呢输入这个区域,那么这个 k 值呢,就是从上往下呢,就是零点七五了,对不对?四分之三的位置,零点七五 好按回车,那么得到三十四点二五啊,这里是一样的,然后呢还要计算下偏移跟上偏移,下偏移呢,就是这段距离,上偏移呢就是这段距离, 那么这个下偏移呢,我们需要用下十分位数减去最小值得到,对吧?那么我们输入这个公式,用下十分位数减去最小值得到,那么上偏移呢,就是用这个最大值减去上十分位数 得到。同样我们输入等号,然后呢用最大值减去 上十分位数计算得到。好,有了这一组数据之后呢,我们就可以去创建这个香型图了,我们再来分析一下这个香型图当中的这个香型,他是不是矩形啊? 其实就是柱形,对吧?我们呢可以用柱形来模拟,那么这里有几个柱形呢?我们可以看一下,第一个柱形 啊,他的数值呢就是上十分位数,第二个柱形就是中位数,然后第三个柱形呢就是下十分位数。所以呢我们去创建这个箱型的时候啊,可以先选择这三个数值,然后点击插入 这里呢,我们选择这个柱形,然后呢这个柱形啊,我们需要把它重叠在一起,我们选择这个数据系列,按 ctrl 加一键打开,设置数据系列格式,这里呢我们把它调成最大值, 哎,调成最大值之后,我们发现没反应,原因呢是这三个柱形啊,他都是属于一个数据系列对不对?只有一个数据系列的话,这里是没有办法调整系列重叠了,所以呢我们需要切换一下行列, 然后呢把它变成三个数据系列,你看这个时候我们把它调成最大值,是不是就合在一起了?那么现在呢,我们先往左挪一点点,先把它露出来,那么接下去呢,我们就需要调整一下他这个柱形的顺序啊,承接顺序,我们把灰 颜色的呢放在最下面,橙色呢扔就放在中间,然后蓝色的呢放在最上面,这样子我们把蓝色调成这个白色填充,是不是就变成这样的一个形状了? 好,我们调整一下,我们点击选择数据,然后将系列三呢挪到最上面,然后将系列二挪到中间,系列一呢挪到最下面,成这样的一个方式排列,然后我们看一下,先把这个调成白色, 我们填充呢为这个颜色,我们再选择数据系列,然后呢将这个拖动笔呢往右拖到最大值,你看这样子我们是不是就得到了这个香型啊, 好,这个地方呢,灰色啊,我觉得不好看,我们稍微去调整一下这个颜色,我们调成为这个蓝色, 好,再接下去呢,我们需要添加这个上偏移跟下偏移这两根线,对吧?那怎么去添加呢?我们首先啊选择这个系列三, 然后点击添加图表元素,这里呢我们选择误差线,其他误差线选项, 然后呢选择正偏差,然后点击这个自定义,这个自定义呢是设置误差量的,这个具体值多少呢?我们刚才已经算出来了,是不是上偏移二点七五啊,所以这里 这个指定值呢,我们在这里啊选择这个二点七五,那么这个负偏差我们没有设置,所以呢不用去管,我们单击确定好,这样子呢,就设置了这个上偏移,那么下偏移呢,我们也是一样的,但是呢我们要选择 这个数据系列一,然后呢点击添加图标元素,同样选择其他误差线选项,这次呢我们应该选择负偏差了,因为是向下的, 同样我们点击自定义,指定这个下偏移的值,但是这里要注意啊,这个值呢不是正错误值了,而应该在这里呢输入负错误值, 其实这个错误值啊,翻译的不是很准确,应该是偏差值,对吧?正偏差值,负偏差值,好,这里呢我们单击确定,这样子呢我们就把这两个 这个下偏移跟上偏移,这两个线啊给他做出来了,那么接下去我们要做这个异常值,这个点,对吧?这个点呢我们需要用到三点图, 那么这里呢我们去添加这个闪点,我们点击选择数据,再去添加一个数据系列系列名称呢就输入闪点, 那么系列值我们先不管,单击确定,然后再单击确定,然后更改图表内 行,点击组合图,我们把前面三个呢都改成柱状柱形图,然后这个闪点呢我们改成 xy 闪点图,然后单击确定,但是这样更改之后啊, 我们发现啊这个图他又分开了,对不对?我们选择这个任意一个数据系列,然后按 ctrl 加一键,把这个系列重叠呢改成百分之一百,这个点呢我们还需要去更改一下 这个数据,我们点击编辑这个 x 值呢,我们就输入一就可以了,因为这里呢只有一个分类,那么我们就输入一,然后 y 轴系列值呢,我们这里应该设置为这个七十,好,我们单击确定,再确定, 这样子呢我们就把这个异常纸呢给他做出来了,然后呢我们再去美化一下,我们把这个网格线呢给他去除,标题呢也给他去除,那么这个箭头呢,我们需要手工的去添加了, 同样这一个横坐标也把它删除掉,怎么去添加呢?我们需要用到这里的箭头, 那么我们在绘制的时候呢,应该按住 shift 键不要松手,然后呢再去拖动,这样呢就会拖出水平的箭头, 然后呢 这个值呢我们还需要去添加这个文本框,那么这个是七十,七十呢,就是这个异常值,对吧?我们要手工的去输入一下,异常值, 七十啊, 然后我们把它复制一下,这个地方呢是最大值, 最大值是多少呢?是三十七。再复制一下 这个呢地方呢是上四分位数,那么这个值呢是三十四点二五。好,然后呢再复制一下, 这个呢就是中位数了,中位数呢是二十六点五, 再是下四分位数,那么就是十八点五, 最下面这个呢是 最小值,最小值呢是十二。好,然后呢我们把这个 图形呢稍微调整一下,这个地方啊他就是没办法调整了,因为我们这边要录入数据啊,他这个箭头,但是都是画死的,所以呢调整起来就比较麻烦。 好,这样子呢,我们就把这个香型图啊给他做出来了,但是如果你的 excel 它是二零一六及以上版本的话,我们就不需要这么去复杂的做了,我们只需要选中这一列数据, 然后点击插入,在这个图表当中啊,我们选择香型图啊,他就可以了,你看是不是 马上就给他做出来了, 我们把把标题呢给去掉,网格线呢也给它去掉,然后呢去添加这个数据标签, 这数据标签呢我们选择我们整选择整一个图表,更改一下字体,微染雅黑。 好,这样子呢,我们已经把它做好了,我们这个横坐标啊,因为他只有一个香型,所以呢我们把它去掉, 虽然说做出来没有上面这个美观,但是呢这个制作毕竟方便很多,对吧?一看啊就知道其实是这个异常值,那么正常的数据呢,最小值就是十二,最大值呢是三十, 主要集中在十八点五至三十四点二五之间,对吧?这个中位数呢是二十六点五,而这个地方呢是二十八点四,二八,这个是平均值, 那么我们可以选择这个详情图,按 ctrl 加一键打开设置数据系列格式,我们可以看一下他的系列选项, 那么讲这个系列选项呢,我们还是在多箱这个环境里面去讲, 那么现在这个是一个箱型,对吧?那如果是多个箱型呢?我们举个例子,比如说这里多箱的情况,这个表呢是个岗位员工的薪酬表, 那么这里呢我们要看他的这个数据的一个分布情况,那么我们就可以选中这两列数据,然后呢 点击插入这里呢,我们直接选择这个相信图就可以了,这里呢将四个岗位每一个岗位他的数据啊,薪酬分布情况呢,他已经全部做出来了。 好,接下去呢,我们把这个数据标签呢给添加进来,添加进来之后呢,就 这个就比就成这样的一个状态了啊,这个呢我们需要手动的去拖一拖,哎,这个拖也拖不动,那么这个数据标签呢,我们就不显示了, 网格线呢,我们把它去掉,标题也给它去掉,那么下面这个分类呢,还是要留着的。然后呢我们选择 这个数据系列,按 ctrl 加一键打开设置数据系列格式,我们可以看一下这个系列选项,那么这个间隙宽度呢,是调整这个柱形的宽度的,对吧?我们保持适当的位置呢就可以了,然后显示内部指点, 其实将这个勾打上我们这个里面,内部啊,他就有一系列的这个点,这个点呢就是我们这个薪酬所在的这个点,一般情况呢我们不需要把它显示出来, 然后这个离群值,离群值呢就是这个异常值,对吧?我们勾选他就有显示,不勾选呢,他就没有显示了,还有显示这个平均值,这个平均值呢就是中间这个叉叉, 我不太看得清楚啊,我们打上就有了,没有打上呢他就不显示。还有这个中线,中线呢就是将中位线啊,把它粘起来就是 显示中线。那么下面这一个四分位计算这个类型当中呢,它是包括中指和排除中指的默认呢,它是排除中指的,这里呢你可以根据实际情况的进行选择。 好,这个呢是多香的情况。那么本节课呢,就讲到这里, 这节课的重点呢是大家要理解相信图当中的这几个数据点啊,这几个数据点是怎么计算出来的?他是有什么意义?那用普通的方式怎么去绘制 啊?用我们这个自带的相信图,哎,怎么去绘制好?同学们,我们下节课。

好,我是陈伟。今天我给大家分享的课题是 mita 进阶级课程里面的最后一个模块叫实验设计。 ok, 也就是我们经常所说的 do 一。 对于实验设计的这一部分呢啊,我们先了解一下开因子量水平的全子实验设计的分析步骤,一共分为这么十一步,那么接下来呢,我会用 mint 软件一步一步的给大家介绍实验设计的分析过程。 那接下来我们从用从一个实际问题出发,来给大家演示这个全因子先设计的整个分析过程。首先第一步,实际问题,明确实现的目目标, 我们的实际问题,比如说我们要提高生产线的产量,那么呢这第一步,第二步呢?我们影响产量的最关键的三个因子,一个叫温度,一个叫浓度,一个叫催化剂。那么这个温度的低水平是一百六,高水平一百八,浓度的低水平百 百分之二十,高水平百分之四十。催化剂低水平是 a, 高水平是 b, 就是两个品牌的催化剂。 ok, 这是第二步。那么第三步,我们就选择试验类型这块呢,我给大家简单讲一下怎么选择试验类型。一般情况下,呃呃,两到五个因子呢?我们基本上选的是全脂实验室设计,如 如果是五个到十个因子的话,我们一般选的是部分因子实验设计。如果如果是两到三个因子的话,一般我们会选择享用曲面设计,但是两到三个因子因子必须都是连续性数据,才可以选择享用曲面设计。那么今天进阶级的课程,我主要给大家分享全因子实验设计的分析过程, ok, 这是第三步,那么到第四步我们来看,打开明天谱软件,好再统计 do 一因子,创建因子设计, ok, 我们刚才看的是两水平 的全因子实验设计,所以我们选默认。第二个因子数,我们有三个温度、浓度和催化剂,所以我们选三,然后设计,我们这次选的是全因子实验设计,所以全因子至于中心点放行数和驱阻数,我们选默认即可。好,因子,我们就选三个因子, a, 就温度, 我们把温度输进去,比较浓度,我们把浓度输进去, 催化剂,我们把催化剂输进去。那么这个时候呢,我们也可以把这个低高变成一百六和一百八,也可以写成负一和正一啊,都可以,一个是编码,一个是未编码。但这个时候大家要注意一点的是,对第三个音字来说,我们一定要把它的类型从数字变换成文字, 因为催化剂本身是一个计数型的因子。 ok, 确定,然后在选项里面,我们在实际呃工作的时候,做实验设计的时候,我们要选随机化运行顺序,因为今天我在给大家做讲解,为了更方便的把数据输入进去,所以我把随机化取消掉,然后确定 确定。 ok, 这个时候明天不就给我们输出了一张表单,这个表单就是我们的第四步。那接下来第五步呢?我们给大家做什么?就是实施实验,收集实验数据,那我们这个 c 八就叫产量, ok, 产量,那么我们就需要去收集试验的数据,好,我们把试验数据产量输到软件里面, ok, 接下来我们就进行分析来统计丢一因子,里面有个分析因子设计, 我们把响应把材料放进去,然后决定, ok, 明太古输出了很奇怪的一个输出,大家可以看一下,在整个的输出里面,我们没有看到 p 值和 f 值,对吧?但是我们看到了一个方程式,同时呢我们也看到一个帕内托图,帕内托图, 那么大家可以思考一个问题,为什么我们在权利子先设计的分析的过程中,最后没有输出批值,而且批值都是新号,大家去思考一下, ok, 那么接下来我们要进行模型的缩减, 那么在这个帕力托图里面,最下面这个 b 和 c 的交互作用以及 abc 的交互作用都是影响很小的,所以呢,我们缩减模型,要逐步缩减模型, ctrl e 回来,在这个象里面,我们把 abcbc 缩减掉,确定确定, ok, 这个时候我们的明太部就输出了一个 房产分析的表,这个时候就有了皮质,大家可以思考第二个问题,为什么我们在缩减以后呢?皮质又出现了呢?啊,既然他出现了,我们就可以用它来进行模型的缩减,那么我们可以看一下,反正大于零点零五的有啊, c 因子就催化剂和温度和浓度的交互作用, ok, 那么这个时候我们呢缩减模型,把批值大于零点零五的要缩减掉,但是呢,这个时候催化剂不能被缩减掉,为什么?因为因为温度和催化剂的交互作用是有显著性的影响,那么这个时候我们只能缩减温度和浓度的交互作用。 ok, 同样的方法, 再向里面把温度和浓度缩减掉,然后确定确定,这个时候我们就缩减到模型的最佳状态了,所有的皮质都小于 零点零五,但催化器是因为有交互作用存在,所以我们把它留下来。 ok, 那么缩减完以后呢,我们要检验模型的有效性,这个时候我们要进行残差分析,残差分析一样也是用 ctrl e 这个快捷键在图形选四合一,确定 确定, ok, 这个时候软件给我们输出了一个四合一的残差图,我们可以从残差图上看,大家在一元回归的时候知道说残差要符合两个,一个是残差正态,这个残差 p 值零点一五五大于零点零五,也是符合正态分布的。第二个残差与你和值不 能有任何规则形状啊,所以呢,记住这两点是是可信的。那么这个时候我们就做一些图形的分析,大家可以看一下,在统计丢一因子里面有,比如说因子图,我们先做一个因子图看看,然后确定 这个音质图里我们做出了一个叫主效应图,温度、浓度、催化剂的影响,还有温度和催化剂的交互作用图啊,这个是辅助我们去理解的。那么再看还有什么图可以做,在我们的 d、 o、 e 里面还可以做等直线图,等直线图, ok, 我们可以从等支线图上可以看出来,让我们的产量如果越高越好的话,我们保持催化剂在 a 品牌下, 然后温度越高,然后浓度越低的时候,我们的产量是越高的,而且是辅助我们去理解的。 ok, 图形分析它属于一个可选项,大家可以做也可以不去做它啊,我给大家都展示一下啊,还有一个叫曲面图,曲面图, ok, 我们也是可以去从三维空间里去展示图形的分析,就简单给大家介绍到这里啊,接下来我们来看一下,在 dve 里面有个享用花器,其实这是我 比较重要的一个一个步骤啊。小型化剂,比如说我们的产量是越高越好,那我们就选最大化,如果我们是成本呢,就越低越好,我们就选最小化, ok, 我们选最大化,直接确定就 ok 了,明天就会给我们 一个最佳的组合,比如说温度是在正一,浓度是在负一,催化剂是在正一的时候,我们的产量最大,最大可以达到二十四, ok, 这个这个里面的一个整个的分析过程,那最后一步还有一个就重叠等直线图,他是什么意思?比如说我们想给温度一个范围,浓度一个范围,这个时候我怎么样去给温度和浓度定一个范围, 也就是我们的重叠等直线图,那么看怎么样才去定这个范围呢?那我们得给产量有一个范围,说产量必须在八十以上或者七十八以上,那么这个时候呢,我们就可以给温度和浓度定一个参考范围,最后一步统计回归 丢一因子里面的重叠等直线图。好,我们把产量放进去,这个时候等直线里面要给产量一个范围啊,比如说我们给他们假设给他的范围是八十以上, 八十以上,哎,那么这个时候我们就可以看到他给我们输出的这个范围就比较小,那么温度的范围就在下面这个范围,然后浓度的范围就在这个三角的顶上到下面这个范围, 对吧?所以呢这个就是我们的这个关键的 x 定了一个范围, ok, 这样的话我们整个全新设计的丢一的这个分析过程就给大家分享完了。

嘿,各位好,今天呢,我们要了解迷你开本图形菜单中一种叫做概率图的图形。 聊到概率图,可能有的朋友了解的就不如前面几种图形来的深,因为前面几种图形或多或少的都在工作中或者初高中的课本中了解过, 还有些印象,而且图形看起来也比较容易理解,但是概率图看起来就不那么容易呃,直观的理解,所以如果你也是这种情况,那么今天的内容可以收藏一下,可能对你有所帮助。 那首先我们来了解一下什么是概率图吧。 概率图可用于确定数据是否服从某一特定的分布, 比较不同的样本分布或根据样本估计总体百分位数。 mini table 可以根据估计的参数计算累计分布函数及关联的自行区间。 简单的说,使用概率图可以评估分布与数据的你和估计百分位数,并比较样本分布。 现在我们就实际的用明利胎位来演示一个概率图的制作, 那今天的样本的数据是一个产品翘曲的程度的一种数据,那点击图形 概率图,那由于是单个变量,所以我们选择单一 图形的变量,选择翘曲的程度分布。那如果我们要研究他跟某一分布的契合程度,那么我们就在这边对分布进行选择,那默认是正态, 那比如说我们这一题选择的是威霸分布,那下面可以对这个分布的一些关键的参数做一些设定,或者直接默认空白,也可以 点击确定。尺度是跟图形的呃比例尺,或者说一些关键的呃参考线或者百位线有关系,呃标签是图形的一些标题或者角柱之类的,就并 我们不做呃设定,点击确定, 这个时候我们就得到了一张该地图。 接下来我们再根据呃这张图来理解一下概率图的一个概念。我们说概率图主要是看这个样本是否符合特定的分布,呃比较两个样本这个分布的情况和检查一个数据的百分位数, 那我们由于这个是单一的图形,就不做样本就是分布的比较,那我们先看这个样本是否符合特定的分布,那这个我们主要看,嗯两个点, 第一个就是看整个数据的点是否,呃围绕在你和分布线的周围, 那这一条中间的直线就是你和分布线。那第二个我们可以看一下这里的批值,如果批值大于零点零五,那么我们说 这个样本符合这个特定的分布,那如果呃批次小于零点零五,那我们认为他符合这个特定的分布,那这里涉及到一个呃假设检验的概念,这边不做过多的展开,这边我们只要记住 一个零点零五的这个值就可以了,大于零点零五那说明呃符合这个分布, 小于零点零五说明不符合这个分布。那当我们鼠标在这个图形上悬停的时候,我们可以看到有一个弹珠框,这个弹珠框包含了呃这个百分比的数据,产品的这个翘剧的程度。 呃上压线,那这代表的这个百分位数就是我们这个功能概念里面所讲的,就是看这个百分位数,那这个百分位数怎么看呢?那比如说呃 小于百分之二十的这个翘曲程度的这个值是多少?那么它是一点 呃三五二幺零啊,或者说要想知道小于一点七八三五零的这个呃数所占的比例,那么 那他对应的百分之百是百分之三十,那就是这么看,我们再来快速的看一下,呃两个以上的就多个概率图的一个制作,呃点击概率图多个 确定。我们这里的数据是呃一个细菌吞噬指数的一个对照的实验, 分了三个组,一个是对照组,一个是 a 军种,一个是 b 军种,那么分别计算得到了他们一个吞噬的指数,那图形的变量选择吞噬的指数分组,那就位于分组列, 那直接点击确定, 这个时候我们得到了 这三个组的一个整个分,整个一个概率的一个图形,那这里的指标都有分别按照主来做形式。 现在我们再来仔细的看一下,就是该对图的一个结果的解读,那结果的解读主要分三个步骤,第一个是确定数据是否呃 服从这么一个分布特定的分布,第二个是对分布的你和程度进行可视化处理。第三个是显示 总体估计百分位数,那第一个确定数据是否不服从分布, 那这个就是我们刚刚讲的呃批职的这么一个概念,如果批职呃我们这边有讲过,是说这里是一个假设剪的概念,我们不做多讲,那这里的一个 显著水平阿尔法,我们用零点零五来做表示,如果说呃批值小于阿法则就零点零五,那么数据就不服从这个特定的分布,那如果批值大于零点零五,那么我们就呃无法得出数据不服从 这个特定分布的结论,所以说我们就认为它是俯冲这个分布的,那我们比如说这个图形来看,它的皮质是零点四六三,它大于零点零五,那么就认为 为他呃服从这个分布,或者说叫没办法得出他不服和这个分布的一个结论。 那步骤二是对分布的理和程度进行可视化的处理, 那检查这个概率图,评估数据点于你和分布线的一个程度,如果说那指定的一个理论分布能够很好的你和数据, 这点将会引扰着这个呃直线,就离合分布线就是紧密的排布, 我们可以看到这个呃样历的一个图形,那他是这个样本是基本符合这个正态分布的一个情况。 这里有一个注意点是说啊,你和分布线是图中间的这么一个直线,图上的外层直线是各个百分位数,而不是整个分布的一个,这些区间不应当 用来评估分布的离合近光。 第三个是显示总体估计的百分位数, 那这个时候当我们鼠标悬停在这里的时候,会看到这么一个对话,光啊,这个我们在刚刚的一个啊图形的一个说明里边,概念的说明里边也有讲到过啊,如果说你要看就说这个数字大于他或者小于他的这么一个概率的话,那你就 可以看自己的百分位数,那比如说这里小于五十五点四五八五的每个数据的比例是多少呢?那么就是百分之五,那这个数百分位数就是怎么看呢? 好,今天概率图的简单的分享就到这里,那如果你想知道某一个样本,或者说两个或者两个以上的样本数据是不是符合特定的分布,或者比较他们分布的一个对特定分布的一个符合的情况, 嗯,就可以做一个呃概率图来比较一下,或者说来确定一下他跟这个特定分布的一个符合的一个情况,那同时对数据样本当中的一个 百分位数的一个确定,或者说一个呃,了解,也可以根据这个概率图来做一些分析。 好的,那今天的分享就到这里,谢谢。

啊好啊,我把第二讲的数据关掉。好,我们来看一下第三讲的数据啊,这样我们先把这个 x 八二 s 这个数据呢复制粘贴到我们的密集台部软件里来。好,我这块新建一个 好站过来,大家会看到这边的格式呢是横行啊, n 等于五啊, n 等于五,那我们 对这个数据呢可以做控制图那呃这边呢是数列啊,比如说设备一号,那他连续的五件自组大小,这里有一个自组 id 啊,设备二号自组 id 啊。呃这样我们先对这个数据来做一下啊这个数据 来做一下。呃这个数据,当然呢我们可以把它行堆叠之后其实就转成 c 九列的类似这个数据,那如果我们不做行堆叠啊,呃也可以直接做啊。呃下来呢我们来跟大家介绍控制图啊,各位可以跟着我操作 啊,路径是 scsb 啊,这个呢就是呃 x 八 r 的控制图的绘制路径 scsb 啊, 点开,呃他目前默认的格式呢是这种竖列的格式,那如果你要想用这个格式呢,你要勾下拉菜单在多列的同一行中,然后到这里呢把 c 二到 c 六选进来啊,怎么把多列选进来?你可以点住 c 二用鼠标左键 转,也可以按住 shift 键点到 c 六点下面的选择啊,这个之前在密集太伏的基本操作的时候跟大家讲过啊。 ok, 那我们直接点确定就可以。好,这张这两张图就绘制成功了,上面这张呢是 x 八,下面这张是阿尔图, 这个图怎么判断怎么使用呢?呃通过这样的呃图形呢,其实我们刚刚给大家绘制的这个叫分析用的啊, 呃另外有一类控制用的,我们在下一节来讲啊。呃那绘制出来这个图呢就是判断整个过程是否稳定的,那过程稳定的判断方式呢?其实我刚刚跟大家讲过了啊,可能很多人没注意啊,我们再复习一下所有的点随机无规律那 呃中心线上下点的数量大致相等以及出界的点的数量很少,甚至没有。好,我们来看一下这个时候呢,哎我们位于中心线上下点的, 呃数量大致相的啊,点也是随机的,并且出界的点的数量很少,甚至没有。我们习惯上呢会先看下面这张儿图再看上面这张 s 霸图啊。呃用以来判断, ok, 所以这个过程基本上是稳定的啊。好,呃我们来演示一下。 哎对于 c 九列的数据,哎我们来做一下啊。呃路径呢?还是刚刚那个路径,你甚至可以用 ctrl 加字母 e 啊快捷路径。然后这块呢我们要勾到列中,那这里呢我们可以把设备一敲进来,那资助大小呢?有两 两种输入方法,你可以直接输五,为什么呢?因为他这块的 n 就是五啊,当然你也可以用子组 id 啊,我们这次用一下子组 id, 因为以前我们都直接输五啊,你子组 id 也可以,然后我们直接点确定, ok, 那这个呢是我们的。呃 x 八孩啊,这块呢会有一个点的出界了啊,他这块有标注啊,他是第八个点啊,你鼠标在这块他会显示第八个点,这个第八个点呢相当于是。 呃这个多少?四十啊四十啊,应该是啊四十一到四十五吧啊是这个数据是吧? ok 算一下一到五十一啊,反正就是第八组数据啊。这个你要去看一下。好。呃 呃这个君子呢出界了啊。呃所以呢在这块呢如果说,呃那这个过程到底稳定不稳定呢?其实这块呢我们仍然认为他是勉强稳定的啊。勉强稳定的啊。因为出界的点呃很少啊。 呃有人说老师那什么叫很少啊?就是这块有很没有肯定是稳定的。那很少什么叫很少呢? 呃一般来说呢像这种三十个点呃或者是二十五个点啊,如果他出去一个呢其实我们认为呢他是偏向于稳定啊。 像这款呢是二十个点比较接近二十五个点啊,就是二十五正负五吧啊有一个点出去呢都认为是稳定的。呃如果有一百个点我们出去两个点其实也认为是偏向于稳定的。 就一百个数据里面啊,连续一百个数据里面有两个点调出去呃两百个点里面呢出呃三个点也基本上认为是偏小于稳定的。 呃三百五十个点出四个点也偏向于认为是稳定的啊。就是说其实这种一百个点出两个点包括二十五个点出一个点,这个就是一个稳定稳定的临界状态啊。 ok 这个大家了解一下。呃其实我我们后面经常会用到这个临界状态啊,很多人对这个临界状态这个名词这样我这块就稍微啰嗦一下。 呃我们在呃做产品检验的时候我们假如说检验产品的外观我们会跟客户有一个迁样或者叫限度样本,那我想问 这个限度样本就有点类似我们这块的临界状态,这个限度样本是合格品还是不合格品的, 这是一个常识。那这是一个极限合格品,也就是说呃,临界状态呢,其实我们可以认为他是一个极限啊,就是在差和好的就是极限的状态,也就是说他是一个极限合格品啊, 就是,嗯,比这个再差一点就是不合格了。所以这块呢,他是一个稳定的临界状态,也就是呃,介于稳定和不稳定的边缘,但我们还偏向于认为他勉强稳定的一种状态,当然你说他不稳定也可以啊,就是说明你的要求比较高了啊。 好,以上呢是我们跟大家介绍的艾滋半儿的绘制啊,建议大家呢,这块可以暂停一下,然后呢把我们这几 几个练习呢做一下,就是这个设备二的数据啊,你自己练一下,然后设备二做完了,你可以把设备三自己画一下啊, x 八二, ok。

今天我给大家介绍如何堆叠列, 堆叠列就是将多列数据堆叠成一列,数据 堆叠列时还可以添加变量名作为下标,来说明数据来自哪一列。我们看这个案例, 某工厂想要研究四种配方的油漆在产品上喷涂烘烤后的油漆硬度情况, 于是他们收集了使用四种配方油漆的硬度数据,总共二十四个数据。 在工作表中,每种配方油漆的硬度数据作为一列,总共四列。 现在我们想把这四列数据对接成一列,然后呢把配方作为作为曲组啊,也就是下标成为一列,这如何操作呢? 我们可以点击菜单栏的数据,选择堆叠,选择列, 在弹出的对话框中,这里把要堆里的列加进来。大家注意啊, 添加列是有五种操作方法,第一种呢是每选中一列,点击选择 这样逐步的加进来。第二种是双击每一列,也是逐个的加进来, 这两种方法呢比较慢。那第三种方法就是按住 ctrl 逐个的单击好,全选中之后,点击选择一起加进来啊。第四种方法啊,就是选中 最上面的列,然后按住 shift, 单击最下面的列,这样全选中后,点击选择一起加进来。 最后一种方法是鼠标左键选中最上面的列,左键不松开,向下拉至最后一行,再松开左键, 这样全选中了,点击选择也是一起加进来。这五种方法啊,都可以,就看你习惯用哪一种。 我们将堆积的数据存储在哪里呢?可以新建工作表,也可以选择存储在当前工作表 这里啊,可以自定义想将数据和下标存在哪一列中,比如列,我想存在 c 六列, 那就输入 c 六下标呢?有有有,要选择去存储的列就去选择,没有的话可以自定义存在某一列,比如我存在 c 五这列啊,如果空着 的话,那就没有下标列。最后选择是否在下标列中使用变量名 不勾选的话啊,下标呢,就用数字一二三来代替了,点击确定后就生成了啊这样的堆叠后的数据了。 列名啊,我们可以自己添加一下 硬度值, 油漆配方。 好,以上就是为大家介绍的堆叠列的方法。