粉丝85获赞230

听说你的朋友很厉害,那他一定听说过裸居斯低音社吧?这个看起来非常简单的裸居斯迪可映射公式是怎么来的?为什么他会和混沌现象扯上关系呢?嘿,且听我一道来。 裸居私底硬说是一个非常简单但又具有奇特性质的数学公式,它是由连续的裸居死底可生长模型衍生而来的。而裸居死底可生长模型是一个经验模型,主要用来描述环境资源有限时种群增长的动态行为。 如果你对上面那个生长模型不熟悉,那么我说出匪波那契数烈士,你一定有所耳闻。在理想情况下, 兔子繁衍时,兔子的数量将按照斐波那期数列增长。而在现实世界中,由于食物和空间等资源的限制,种权的增长是有上限的。这时候我们可以引入一个描述种群如何随时间变化的 数学工具,也就是微分方程。在资源丰富时,由于每个个体都有一定的繁殖率,这时候种群会朝鲜指数增长,我们可以 下面的微分方程来表示。学过导数的朋友应该都清楚, dnbdt 表示的是整局数量跟随时间体的变化率,但由于环境资源有限,整群的增长会受到限制。 这时候我们可以引入环境承载量,对上面的微分方程加以描述。当我们将指数增长和环境承载量这两个因素结合起来,便能得到裸居四敌可生长模型。我们可以看到,这个微分方程中加入了一个修正因子,它的作用是来模拟环境承载量对种群增长的影响。 使用欧拉方法,我们可以将连续的裸居斯蒂克模型转化为一战形式。欧拉方法的基本思想是用牵线的协力 来近次函数在一个小的时间间隔内的变化。公式里的德尔塔踢表示的是时间不长。我们将我居此地可威分方程带入后拉方法,并且说德尔塔踢等于一,这样我们就能将连续的威分方程转化为不连续的离散形式。 接着我们再引入无量钢的种群密度,进一步简化未分方程,就能得到开头的裸居死地可映射攻势。 这个简单的公式有着不简单的特性,当增长率比较小时,比如 rv 一点二,我们取系统出示值, 可死龄为零点六,会发现随着时间的推移,系统的曲值会进入一个稳定的状态。当我们逐渐增加增长率的大小,会发现当啊达到一定数值大小,系统不再进入稳定状态,而是出现了不可预测的混沌状态。当我们将增长率变化时的长期趋势记录在 坐标系统时,可以得到裸距四 d 可应式的混沌图形。我们可以发现增长率啊越大,最终的趋势越混乱。而神奇的是,混沌系统通常具有飞行结构,当我们去不断放大这个混沌图形时, 就能看到与整体结构相似的更小的结构。这种字相似性是分型几何的一个关键特点,复杂的雪花形状也是由非常简单的初始条件和规则生成的。 混沌系统的一个关键特性是对初始条件的高度敏感性,也就是所谓的蝴蝶效应。众所周知,蝴蝶效应指的是当霸系的一只蝴蝶振动翅膀,他 可能引发几周后在美国的一场龙卷风。这意味着即使是微小的初始状态差异也会随着时间的退役而放大,最终呈现出一种无序的状态。这也是天气预报在短期内可预测,但长期内却不可预 测的原因。股票市场同样如此,所以,但凡有人告诉你他能够准确预测股市的涨跌,那他一定是在吹牛。以上就是本期视频全部内容,下期视频我将分享一个赌博公式凯利公式的推导和应用,届时欢迎收看。

接下来我们来讲一个稍微复杂一点模型,但是知识上这个模型是非常常用的啊,那么我们之前我们也见过一个这个模型的一个简单形式,就是这个搂着起的模型啊,当然呢,这个呃模型事实上你可以通过一些呃种群生长的一些机理把它建模出来。好,那我们大家看一下这个过程啊 啊,首先我现在就假设你要预测的是一个人口吧,呃,当然事实上这个呃人口你把换成其他东西,比如说呃某种生物,比如说兔子的一个呃, 呃从总群一开始的一个逐步的一个增长过程啊,或者是一棵树它高度的一个增长过程啊,现在都是很多时候我们都是用这个模型去进行一个礼盒的啊,那我们就假设人口的一个增长率是 r 啊,那 r 现在就 是呃你的人口,呃你今年的一个呃人口相对于取的一个增长人口,呃相对于去年增长的一个比例啊,那么呃, 那么我们就可以看到说这个人口的变化率啊,相距就可以这样去表示啊,这里已经是这个呃 x 求导啊,就等于这个 r x, 那么这一个像是一个微分方程啊,但是所以呢,这个模型像咱们也可以用呃 微分方程去翻翻出去解啊。当然咱们当然待会待会讲述这个模型上是可以呃给直接给出一个解析结的,就不用你再去进行一个数字解了。然后呢需要注意一个点,就是说裸治心理模型它的一个假设是人口不可能无限的增长,呃,因为 呃资源是有限的,所以呢,人口达到一定数量之后呢,他的增长率会下降啊,因为我们的资源没法满足呃人的一个无限增长, 那么这里我们就可以把这个增长率 r 看作是呃 x 的一个减函数,就是 x d 减的一个函数啊,当然呃,我们就把它减掉,看成一个线性函数了,就我们可以这样来表示啊,然后这里的这个啊,就是这个初始的一个啊, 现在就是啊,然后这个 s 的话,就变成一个呃呃递减的一个数率,然后呢,假设这个 m 啊,是呃目前我们这个环境资源也是我们这个地球给容纳的一个最大的人口容量,换句话说,如果 人口到达了这个容量的时候呢,它的一个增长数率应该就是零啊,因为如果你增长数率不是零,你你的人口普及性还会继续上升,对吧?啊,那么我们由这个东西呢?呃,我们把 m 带进去,得到这样的一条式子 啊,好,那么我们的这个 r x 函数啊,就可以这样来表示。 好,那下一步我们其实就是把这里这个呃公式套到原先的这个最初始的这个没有考虑资源限制的这个模型里,那么我们就可以得到一个呃种群,就是一个考虑资源限制的一个种群生产模型。 好,那么这个这个呢,就是人口这个就是人口的一个微分发整模型,我说是一个种群生长模型啊,当然我们的一个呃微分发整,我们需要 构建一个课期初值问题,对吧?就是说你得有一个初值,你的方程才能确定一个五月一届啊,那么这个文文方程是可以直接求解的啊,这里呢,我们就不再重复这个大家在常规分方程里面学到的一些基础内容了,那么可以求解得到呃这样的一个结果 啊,好,那呃这个结构,你呢?你会发现说,呃,呃,你会有好几个参数是需要你自己去预测的, 那么呃,你那么 c i 我们就可以用这个之前提过的这个非线性呃礼盒的函数,那么这里我们是给出了一些人口数据的, ok, 这是但,但这是其他是我随随随便呃随便 深层的搞了一些数据啊,蛋,呃,那么接下来我们来看一下这个代码是怎么做的, ok, 呃,首先的话,呃,我们先将我们需的这个函数模型啊,就写成一个函数文件啊,然后我们还是先在呃对应一下,就是你会发现说 就我们现在一共有呃两个参数是需要预测的,呃,首先是这个排母,对吧?然后这个 x 零是,呃你本身已经给定的了啊,是,当然这个 x 零你放到这个 voice, 这 x 零 你放到这个数据里面的话,是按,就是说既然就是最开始这个一七九零年的这个,呃人口数量也就是这个三点九啊,大家也不知道是这个,可能是说呃万人还是多少,这个这里没写单位的,但大家对这大家不用在意的 酒。然后呃, boy 查验这里这个, 哎,这个你被我搞坏了啊,那么咱们再看,咱们看这里吧,呃,那么其实说这个 x 零四你在数据里已经可以有的,那么你需要预测的箱,不对,你需要去礼盒的参数箱是这个 m 还有这个 r 啊。然后呢, 呃,在咱们的这个函数里啊,就是首先一开始输入的这个 x, 它代表的就是你需要呃, 呃,你需要你的全部参数啊,那么我们加上这个 x e 就来表示这个排目,然后这个 r 呢,就用这个 x 二来表示, ok, 然后 t 的话是这样才是你这个函数的一个呃输入值啊,是这样,也就是放到这里的这个 t, ok 啊,那么咱们先在外边把这个呃函数文件给写一下啊,当然你也可以用我们之前一个视频讲的方法写一个匿名函数啦,这样都没有问题。 好,那呃咱们来看一下这个过程啊,就首先你先把这个呃数据给放到这里, ok, 呃,然后由于我们的假设是什么呢?我们假设是 将是呃 x 零等于 这个处置,对吧?也就是说呃我们第一个 t 应该是一个零啊,但是让我们实际数据中第一个 t 上是一个呃幺七九零啊,所以事实上呃你需要先让这个 t 啊它的整体减去这个幺七九零啊,但你你就 呃具体话筒的时候,你可以再把它幺七九零加上啊。答案,这这其实只是为了把这个数据呃做一个平移,平移到我们这个呃模型的一个区区域啊,这个世上没有太多的一个影响,对吧? 然后呢,接下来的话你就要设定一个初值啊,当然这个初值实际上呃是他的设定还需要考虑一些东西啊,当然这里会先随便设定一个东西,比如 如果随便停个五,我们看待会又会不会有,会不会有一个呃这样的一个效果, ok 啊,然后这里的话,我们就还是直接套用这个, 这个呃非线性最小而成的一个礼盒的一个函数啊,然后这里你的一个函数,如果你是一个函数文件,呃作为一个 呃输入的话,那么你的首先你的函数文件需要放在你这个 m 文件的一个呃同一个文件夹下,然后你这里的话,你是以这个函数文件名字的这样的一个制服做一个输入。我跟你讲后面的话,咱们之前也讲过了,这个就是呃 参数叠打的一个初值啊,后面的就是对应的一个数据啊,然后有了这些东西之后呢,你就求解得到了一个函数,然后这里 的话我们再套入这个函数文件,我们就可以呃,我们就可以来计算我们的预测值,然后看我们预测准不准。然后后面这一块相就是画图了,大家在这个呃做数学建模竞赛的时候,大家这个画的这个图啊,一定要把这个 呃坐标的一些信息啊,以及这个呃 title 一定要把它写好,这这个要注意这个画图的一个规范性。 ok, 我们我们先来看一下这个你喝的结果好不好啊? 嗯, ok。 这里红色表示咱们啊,根据咱们这个理论啊,显然也就是这个模型啊推导出来的一个数据,但蓝色表示这个实际数据啊,那这是为什么呢?啊?这可能是啊, 当你发现这个问题的时候,你可以回头看一下,有一个可能性是你的呃理论是错的, 呃,这个原因,其实,呃因为尖的模型形象是没有完美的模型的,只有合适的模型啊,照理说,你照理说啊,所有的数学模型相都是错的啊,但他都有他的合理之数啊,可能在某些情况下,比如说某些特别复杂因素可以忽略的情况下,呃都是可以用的, 呃,所以一种原因可能是你的一个模型错了啊。但事实上咱们知道这个,呃这是你模型,他事实上对于这种指数型函数或者说这种 s 型函数, 呃他的预测能力也还是可以的,他不至于这么差,对吧?而且你看这个结果都这么差了,呃那是什么原因呢?有一个另一个原因像是你的 一个优化处理问题,大家可以看一下啊。刚开启咱们在讲这个初值时候,咱们既然都说了是随便设的一个初值,但是,呃,如果你有看到我之前讲的那个, 呃之前讲过的那个智能算法的时候呢,我也跟大家讲过说就是你的初值选择不好,你很容易去陷入一个局部追由解啊。但智能算法他本身他这样,他就是为了去解决这个问题而设计的 啊。当然咱们这个最小二层温最小二层本身就是一种很经典很传统的方法,他用的既然不是智能算法,对吧?所以呢最小二层他还是很容易去陷入一个不太好的解的,那怎么办呢? 呃这个初值,但是怎么去设定初值?这个实际上没有太好的一个理论支支撑,因为很多手机也就是咱们需要去 去做调餐了,但是对于这个问题啊,我可以呃,咱们可以稍微去根据参数的一个几何意义上稍微思考一下去怎么设置啊? 呃首先咱们要礼盒的值是这个 m 和 are 对吧?呃,首先大家想一下,这个 m 是一个,它的实际意义是一个 呃最大人口容量,换句要说它的一个值应该是与我们这个 呃数据 p 的值是同一个亮缸的,对吧?因为大家都是水润口,大家表示的都是人口。 其次咱们再看这个 r r 它是一个什么?它是一个呃增长率, 但增长率它的值一般是多少?增长的一半值加一般我们都是零点几,零点几可能零到一,对吧? ok, 呃,那我们再回来看一下这个初值啊, 就初值的话,你最好你根据已知的物理意义的你就可以大概想求,那么这个值大概可能是要怎样一个区间,对吧?就比如说人口,人口咱们看一下, 呃,现在最大是到两百多,是吧?那咱们其实人那也就是说最大人口他可能也就是个几百或者顶多是几千的一个值,那么咱们可以去可以随便填一个试试,填一个一千咱们先试试看,但我这里讲的只是一个呃尝试性的一个思路啊 啊?八九,这先对一下啊, ok, 啊,这个第一位确实对应这个开幕,然后下一位,呃,下一位对应的是 这个 r r 值的是一个增长率,他一般其就是一个领导率的值,那么咱们就给他 呃随便设一个零点一吧,那么因为大家知道肯定他的优化肯一开始肯定是在初值附近找啊,所以呢,这样的话,你就可以让你的初值离你实际可能的最优解更近一点,对吧? 啊?然后咱们再呃试一下, ok, 大家可以发现说就这样的话,你的一个优化结果就变得非常好了,对吧?这个相就是一个呃找出职的一个经验,就是你可以根据你的一个 呃,就是你要礼盒的参数,他如果是有实际意义的,你根据那个实际意义去思考说那个值大概应该在怎么样的一个位置。 ok, 那么这就是咱们要讲的这个呃种群生长模型,或者说人口预存模型啊,但是也是可以说是非常经典啊,就可以说任何的学节目可是你都会见到这样的一个模型,但是呢,呃你除了了解这个模型之外呢,你要先 呃也应该从这个魔性里面去了解一些数学界面的思路,比如说,呃,我通过一些简单的规则,我去 得到一个微分发型模型,然后我再进一步的思考说哪些值可以进一步的细化,就比如说这个增长率,我可以让他进一步的细化,我可以呃考虑一个资源,然后再把这个模型进行一个完善, 然后再进一步的呃,你完善了模型之后呢?呃你需要去对一些参数进行一个估计,那么这个时候你需要用最小二层,很难最小二层啊,当然你也可以用其他优化 算法,但是你用那优化算法的话,都实际上有取出值的一个问题,那这个取出值怎么办?取出值本身是本身没有太多的理论支撑,但是呃你可以根据一些你的你这里这些参数本身可能有的一些物理意义去进行一个裁成,然后给定一个比较好的出值。好的, 嗯,刚刚这个棋也是有一点运气成分了,我可能刚刚可能随便填一个另外的数可能就不对了,但是你就可以按着这个想法去慢慢试。比如说我一千,不对的我再我就换成两千,或者换成五百,我都可以试一下。 ok 啊,这个呢?大学呢?当然这个模型非常的经典,但是大家呢,还是要从这个模型里面去啊,学有很多数学建模整个过程啊,从建模到这个求解过程中的一些,嗯,小的一些。呃,套路。


朋友们,我们今天一起学习一下诊断模型,先单后多,最终模型那个预测变量的确定。 今天的参考资料来自于这个微信公众号,分分钟输出各种发表级的图表,就是这样一个公众号生气漫卷,这个公众号今天的学习目标呢?呃,是,这个是多因素的一个 表二,这个是先单后多,然后先后逐步回归,这个就是我们用来确定最终纳入模型的变量。然后这个是可以,这个包同样可以画一个森林图 啊,它也可以画单因素和多因素都放到一起的一个森林图。好,那么今天一起来 跟着这个公众号学习一下。首先设置工作路径,然后加载包,这个数据是 r 语言自带的这个 swap, 这个包里边自带的这个,呃,癌症的数据啊,这里有一个 有意思的现象,有有一个有意思的一个情况,你看这里下边,我们我们用的这个数据集是这个结肠癌的数据集,但是我们这个地方,嗯,加载的时候这个是勘测的数据集,嗯,我理解的是这个结肠癌可能属于勘测中的一个,嗯,我们来来看一下吧。 是啊,是的,这个,这个,这个,这个数据已经到这里了,我们看一下,看一下,这个是 cancer 数据,这个并不是我们要用的,我们要用的是这个 g 叉 s 数据机,我们看一下这个 g 叉的数据机, 性别不? id, 这个 study 我刚刚捋了一下啊,都是一,然后治疗,治疗组,呃,年龄,性别,年龄,呃,常耕组 啊,可以看一下,就是我们可以让问一下切,可以快速的办法,就是小技巧,问一下切菜 gbd 自带的这个数据集,他的变量及编码含义可以告看一下,他告诉我们,嗯,他并没有全部告诉我们,但是我们可以接着问他吗?但是已经告诉我们,基本都告诉我们了。 这里我都简单写了一下 id, 然后长弓骨穿孔粘连的程度,延伸淋巴结的数量,呃。时间,还有这个事件的类型,呃,我试了很多次了,他给的,现在 g、 b、 t 给的一般都是比较准确, 但是你也可以自己去查一下那个文档,那个每个编码是什么意思,然后这里建是建一个牢记的 table 的一个模型,这个是我们要研究的结结局, 呃。结局 y, 这个是各个自变量 x, 预测变量 x, 然后用的就是这个结账 x 数据几,然后是老机这个回归的这个我们看一下建这个模型,嗯,接下来是整理,把这个结果整理成,可以看一下他这个多因素的结果, 多音字的结果已经展示在这里了,一有意义的一个、两个、三个。 这个是我们就是找简单先找了一些预测编列 x, 就随机先从这个数据已经挑了一些 x, 呃。然后把它整理成这个 table 的形式,方便阅读, 然后配置这个函数,就直接展示成一个发表记录。我们来看一下 啊,可以看一下,这个直接就生成了一个三线表啊。现在有一个情况是什么呢?就是它这个性别其实是一个它,它是一个分类的变量,就是一个因子型的,它不是一个竖直型的,那我们就要把 就是因分类的变量转化为因子性。这里已经转完了,我们再看一下他的,他的结果 可以看一下这个现在这个性别已经转化为分类边缘,就是因子型的,可以根据之前的表对比一下,他是这个是平均值加点标准差, 这里已经已经转化为了分类的变量。 接下来我们想改这个的标签,比如说在这个年龄后边加一个括号,加个税之类,我看一下, 嗯,可以看一下这个标签已经改掉了这个,这个淋巴结的,他改成了这个,然后这个 它改成了治疗。 rt 嘛?改成了治疗,这个地方加了,加了这个,呃,年龄的单位,可以看一下是这个用什么代码来改的,是什么意思?呃,然后呢?可以呃加载这 这个包,然后可以和这个包和这个包还 table, 这个包可以把它导出为 ppt 和 word 的形式,等于说我们就直接制作完整成三千表。加载这个包,然后把它导出成 ppt。 看一下,这里已经导出完了啊,这个是我们导出来的,刚刚我导出来的 ppt 格式, 就我们做 ppt 的时候就直接就很哇塞,太惊艳了。 然后就导出 word 格式,看一下他已经导完了,就是在你的工作路径那个地方可以看一下,这是我们导出来的,等于说这个三线板已经帮你制作完成了,真的很漂亮 啊。假如说你想不显示这个,比如说这个啊,性别就只展示这一 一列,又是二分类的吗?它是参照这个,相对于这个女性而言,只需要把它改成这个 shorten, 加这个 shorten 就行了。 嗯,可以看一下这个男性,相较于女性来说,对比一下这个改变。然后接下来是单因素和多因素的表,加上这个,加上这个单因素等于处,他就把这个单因素的结果给显示出来, 这个单音素的结果已经显示出来了,这个是多音素的,最初我们以为他写错了,其实他这个就是多音素的结果 啊。 market 就是多因素的结果,这个是单因素的结果,就是我们刚刚看的这个,其实这个是多因素的结果,它这个包里边不是错的,是我们没有学明白啊。然后再加入这个,这个 就把这个设定为一,就可以对所有的变量进行所有的变量进行呃,多余数的分析 啊。然后可以看一下假如说纳入最终的模型,就是说向后逐步回归的 这个事,先后逐步回归的一个结果, 这个就是我们最终纳入的模型,都是这个都是相约零点零五。然后这里将这个结果进行可实化,就是做 领图。 嗯,可以看一下这个颜值。还可以啊,如果说你想把弹音组和动音组结果都展示出来的话, 呃,这里它加了一个新英格兰的一个配色,呃,这里我进行了一个尝试,就是单一做的时候能不能把颜色呃也也变成彩色,就模仿着下边改了一下,发现改不了,改不了就把它删了吧。 啊,好的,我们今天感谢,感谢这个作者的这个推文。

嗯,今天主要是介绍一下基于 metal level 的 logic 和模型的预测,人口的一个 a p p 啊,这个 logical 模型的话是一个预测,呃,模型它是用于 s 型增长的这个数据的预测 啊,经常用于对这个人口就是某个地区或国家的人口进行一个预测,就是根据已有的历史数据啊,模型的话就是一个这样的这个表示,然后这个 st 的话就是表示第七年的人口啊,提取值从零一二三,以此类推。 然后 x 零的话就是表示 t 等于零的时候的初始人口, l 的话表示增长率, x m 的话就表示人口的一个容量,然后,嗯,在模型计算的时候,这个 s 零呃是根据历史数据确定的, 然后这个 xm 和这个阿鲁的话是根据这个呃例数据进行一个可以进行一个礼盒,然后去得到这个模型,然后通过这个模型去计算未来的这个人口的一个数据啊,之前的话就是基于这个模特的,就 id 做了一个这个计算的系统,然后 因为这个版本更新后面可能不支持这个 gid, 就是将这个改成一个 app, 然后这里的话主要是一个例子,去介绍一下这个 app 如何使用。 数据的话取的是某四的一九七八年至二零二一年的人口数据,就是利用这个 logo 模型去预测该是的二零二二年至二零三五年的人口数据,然后这里就是一个一九七八年到二零二一年的一个数据,然后这是对应的一个 excel 数据, 嗯,一九七八年是四百五十七点七万人,然后这里是二零二一年,是六百一十八点三三万人,然后首先的话就是把这个 a p p 给安装一下,然后这里的话就是在这里, 这里面的话有两个文件,一个是这个安装包,一个是这个某市人口的一个数据,双击一下的话,这个数据的话就是呃两列的数据,呃 第一列的话就表示这个年年份,第二列的话表示这个人口,然后这个数据要是连续的,就是比如说一九七八,一九七九一九八零,这样连续的就不能间断,然后第二第二第二列就是人口的数量, 然后第一步的话就是安装这个呃安装包,然后添加到我的 a p p 啊,安装的话也比较简单,双击这个, 然后这里的话会出现一个是否安装到我的 a p p, 我们点击这个安装就可以了。安装之后的话我们可以看到在这个上面主菜单的一个 a p p 里面点击这个下滑线,然后这里面有一个我的 a p p, 找到对应的这个 呃 logic a p p, 双击一下就可以了,然后这样的话就是呃安装并打开这个主界面啊 a p p 的主界面。 然后第三步的话我们就是加载数据,去选择 excel 文件,并点击确定,然后这里面的话就是这样的先关掉,对吧? 然后这里面的话就是先加载数据文件,数据的话我们一般是用 excel 去表示,然后可以选择之前的这个点 x l s 文件,也可以选择这种 后面版本的一个设的点 x l l x x 文件,然后选择这个文件,这个文件可以放在当前文件夹下,点击这个打开就可以了, 然后过一会的话会弹出一个打开及数据读取数据完毕,点击确定,那这样的数据就加载进来了。 然后这时候的话我们第四步的话就是要输入参数,输入参数的话就是比如说我们这里的话是预测二零二二年到二零三五年的,然后预测是有十四个人口数据,然后这里的话就是 注入预测的起始年份就是二零二二年,预测的终止年份就是二零三五年,预测的数据个数就是十四个,然后二十个坐标名称外的坐标名称,这就根据实际的这个单位和意义去填写。比如说我们这里输入二零二二, 然后这里输入二零三五,然后二零二到二零三五就有十四个数据了,然后这里的 x 轴的数据的话,比如说 x 轴是代表年份,然后 y 轴的坐标名称的话就是代表呃人口,如果可以的话加个单位 one, 然后这里的话就相当于之后的生成的结果图,以及这上面显示的这个 x 和 y 就会替换成年份和人口,呃或者万,然后这里的呃就会呃出现这样的一个界面,然后这里面的话就是输入参数结束之后的话, 我们点击这个开始计算,然后这里的话就不用点这个鼠标,就是让他自行的进行一个计算,这里是可能会产生一些警告,也不用管,然后这边的话就会自动的把一些结果图保存在啊这边左边的当前文件的路径下,我们可以看到这边的话就生成了一些 呃文件以及这个一个色文件,呃,比如说我们这里有三个图以及四个一个色,然后这里的话就会三呃生成这个。比如说这里有 四个 excel 文件,分别是呃模多几个模型计算的绝对误差结果啊,计算历史数据结果,计算相对误差结果,预测数据结果,然后对应的三个图的话分别会保存成 b m、 p f、 i g, 接 p g、 p d f 格式。然后比如说这里面的话就是这个是。呃 红色的话是实际的人口,然后蓝色的话是这个预测的数据,然后这个蓝色的线可以看到这蓝色的线的话就是 啊 logo 模型的一个计算的一个历史数据,它的一个趋势。然后这嗯,这边的话就是一个相对 啊相对误差,我们可以看到这个相对误差的话实际上是比较小的,因为这里取的是百分数,相当于都是在百分之二以下,然后这边的是绝对误差,绝对误差的话也是比较小的,然后这样的话这边的话可以因为这个 可以看到嗯加载的数据,然后这里是预测的数据,比如说是二零二二年,二零二三,二零二四,二零二五,二零二三五。然后这里是每一年的这个绝对误差 以及距相对误差,因为这个界面限制了,所以的话就窗口会比较小。具体的数据结果的话我们可以看到这边。呃,也有双击一下,我们可以看到这是二零二二年对应的人口,二零二三年,二零二四年以及二零三五年。 然后这边的这个相对误差也是有的,这个是每一年的这个历史计算的一个相对误差。呃,这个绝对误差 老子是,嗯,模型计算呢?比如说第一行是年份,第二行是这个历史数据,第三行是模型计算的这个数据, 然后这样的话数据都会导出来,然后对应的结果我们可以看一下啊,比如说我们这个绝对结果图,这个是 f i g 格式的截屏, g 格式也可以打开,然后这个是相对误差结果,这个是这个格式的,然后这个是预测的这个这个结果也是可以 可以打开的,这样的话就能嗯,把想要的这个数据,比如说我们对这个格式或者是什么有 有要求,可以就是可以把这个 fh 文件呃去进行一个修改,也可以因为这个图的数据的话都是在这里面都有,就比如说这个预测结果图啊,你看这边的话都都有 预测结果,是这个数据有,然后这个计算的这个历史数据也有,通过这些数据的话也可以去对这个结果图进行一个重新的绘制啊,这个都是可以的。然后这些警告的话就可以不用管,因为这是些版本,他可能会有一些这个报警告,也不是报错。 然后呃这边的话就是一个运行结果,分别是这个,然后最后的话,呃会在这里生成一个模型的参数, 模型参数我们可以看到这个是 s 零,这个是阿鲁,这个是 s m 啊,对应的话我们的一个 logical 的一个呃模型的话就可以代入,比如说这个是 x t x m 是 呃九百一十六点,呃可以取一位小数九百一十六点六,然后这个阿鲁的话取的是, 嗯,零点零一六九八,然后这 s 领取的是这个,那这把这三个值带进去的话,就可以,呃去进行一个 模型的一个公式的一个展现,就是通过这个模型去计算的,哦,刚刚关掉了,嗯,然后我们,嗯点击这个清除的话,就会清除掉这些输入啊,然后这个界面以及这些结果,点击关闭的话,就可以关闭这个主心窗口哦, 点这个叉也可以关闭。然后这个就是呃这个运行的结果,这是部分的程序, 然后这是往期的一些预测相关的比较基础的一些方法。然后一个 gy 或者 a p p, 如果有需要的话,就是在这个公众号袁隆派里面就这个名字,呃,袁隆派 微信公众号。然后今天主要是简单去介绍一下这个 a p p 的简单的使用,有需要的话就可以获取,然后谢谢大家。

大家好,欢迎来到 spas 课堂,我是李博士,接下来我跟大家分享的是 spas 非渐行回归分析,多元有序 logistic 回归分析。然后首先我们来了解一下多元有趣 logistic 回归分析, 呃多元有序 log 这个回归分析呢,我们首先来看一下它这个多元和有序,这多元呢,就是它的 啊音变量水平数大于二啊,有序呢就是音变量呢,是呃有序的或者是一个等级变量,这时候呢,我们就可以考虑采用有序老铁回归模型进行分析。然后这个模型呢,我们以三音变量三水平数为例呢, 说明他呢可以呢写写作呢这样一个公式。呃,比如说派一呢,就是呃音变量是呃水平数为一的时候呢,发生的概率比上呢?二呃音变量是水平呢,是二和三发生的概率 比上,就等于呢二发一呢是长数降。然后呢是关于 x 的一个线径组合形式,他呢是一个负值,呃他负值之后,我们就可以看作呢,就是 呃他的技术是正的,就是呃水平,因变量水平处为高水平的,发生概率越高。然后这呢就是我们简单的来理解一下他这个模型,然后多元有序捞出 回购模型呢,是有使用条件的,就是满足平行平行性检验。平行平行性检验是什么意思呢?就是我们通过这个公式可以看到呢,他这个模型里面呃他这个 呃变量的一个技术是不变的,也就是说不管因变量的分割点是在什么位置,都需要保持它的自变量的技术是不变的,它这变化的就是它的一个常数项是可以变的 好。呃,关于他的几点认识呢,我们再来了解一下。呃,在 s p s s 里面呢,他的音变量和呃字变量的一个分类变量呢,都是与取值大的类别呢,是作为一个参考组。然后呢第二点呢,就是呃 分类变量的技术,正的时候呢,就是呃为更高等级的可行性呢,就是更大一些,大于参考组。呃,第三个呢,就是呃针对连续变量的时候呢,回归技术为正值呢,就是 呃暴露随该变量的增加呢,因变量呢,就是为更高等级的可能性增加。呃,这两句话呢,我们简单的理解呢,就可以这样认为,就是他的回归记录为正直呢,就是呃因因变量 等级呢,为更高级的呢,就是发生的概率更高。好,我们来看一下在 s p s s 里面,这个有序了,这个回归分析呢,它是在这分析回归有序 下面呢我们可以看到有这样一个有序回归,这个主对话框左侧呢是放置我们的变量信息,右侧呢是音变量,因此呢是放置我们的一些分类变量。呃,连续变量呢,是放在下面斜变量里面, 然后有些选项呢,我们可以进行相应的操作。呃,关于输出对话框呢,我们重点是把平行线检验选进去,然后如果满足平行线检验呢,我们才可以使用有序老铁回归分期, 如果不满足呢,我们就需要用多分类 logic 回归分期了,就不能再使用有序 logic 回归分期了。这里呢是重点进行 好,我们通过一组数据呢,来分析一下呃治疗效果的影响因素,这里呢有性别,年龄和治疗效果, 这性别呢一和二分别对应男和女,年龄呢呃,从小到大呢分别是一二三四,然后治疗效果呢从呃非常差到差到非常好呢分别是一二三四五。 我们打开这个数据呢来看一下,呃,我们可以看到呢,性别呢是一二,然后年龄呢是 年龄呢是一二。我们做一下描述统计吧, 性别 对应是男女和一二,然后呢年龄是有这四个对应一二三四,然后效果呢是一二三四五,就是对应我们刚才所说的变量的复制信息,他呢是以 参考组为最大组作为参考,比如说治疗效果,因变量就以很好参考。然后年龄呢就以大于四十五呢作为参考,呃,他是一个分类变量,然后性别呢也是男士一,女士二,然后呢就以女性作为参考。 我们再来做一下有序老铁回归分析,分析回归有序治疗效果呢选择到因变量性别、年龄选进来,然 选项呢默认输出呢平行线检验选进来,因为这个呢是检验是否适合有序老铁回归分期的条件,这呢必须选上,其余呢默认 确定好,我们来看一下它这个输入结果,这第一个结果呢就是它的一个 呃治疗效果呢,这这呢也相当于他的一个负值,情况很差呢就是一,然后很好呢就是五,然后性别呢是一,那是二,年龄呢小于二十五是一,大于四十五呢是四。 呃,他呢分别以你看他这个参考组呢,呃分别是以很好作为参考组,以女作为参考组,以大于四十五作为 参考组,都是以呃数值高的呢作为一个参考组。然后我们接下来看这个近期,呃, 这模型离合近期呢,他这个显著性呢是小于零点零五,就说明这个模型呢是显著的。关于你和优度和二五一二方呢这两个结果呢,对 对这模型的解释程度不是特别高,所以呢,我们不用特别关注这两个结果,我们重点看的是呢,是他是否满足平行验检验, 这里呢是显著镜呢是零点八之八,大于零点零五,就说明呢是满足平均键减下这个条件的,所以呢,就可以使用呃,多元有序 logic 可以回归分析这一这一组结果。然后呢,我们 重点来看他这个,他这个三处估计值这个表格,然后这个治疗效果一二三四呢,就分别对应于我们的很差,交差一般交好,因为很好呢是作为三考组, 然后位置呢?呃,呃,这性别呢,你看性别呢是一呢,就是男性 是大于零点零五,说明性别呢对这个音变量呢是没有显著影响。呃,我们再来看年龄,年龄呢,这三个年龄段呢,一二三呢都是小于零点零五, 说明年龄呢是对他有减重影响的,他的系数呢都大于零,也就是说这个年龄,呃越大呢,就是越倾向于他的一个效果,就是越 好。呃,他为什么越好呢?我们再来看一下。呃,做一下相关信息,再来了解一下跟着结果是否对应分析相关,因为这是一个呃 等级变量,所以呢,我们用 cpr 面来简单了解一下它的一个相关性,年龄和治疗效果 好,我们可以看到呢,这年龄和治疗效果呢是一个负的,就是说年龄越大呢,他的效果是越差的,跟这结果呢也是一致的。你看 这个结果呢,就说明这个年龄是一二三的时候呢,相对于年龄 字呢,它是一个正直,也就说明呢年龄越小呢,对应的是 呃,对应的效果呢是越好。所以呢就是这个 cp 耳麦里面呢,就是 呃相关气暖,就是复制呃,我们再来看一下它的一个交叉表的一个 年龄失衡治疗效果能吃裂 呃行行占比,因为看不同年龄段的一个治疗效果好,我们可以看到 就是小于二十五岁,很好的一个,呃占比呢是四十七点四,然后年龄大于四十五的,很好的占比呢是四点零,也就是说年龄越大呢, 他的治疗效果呢是越差,就跟这个结果是负相关,是一致的。然后跟这个结果呢,就是说年龄越小呢,更倾向于呃治疗效果良好这样一个结果 好,这是关于他的一个多元有趣劳脂结果油分期的一个结果解读。然后关于乱文解说方面呢,就是我们可以看到这是一篇现代医学杂志上面的内容。然后 呃首先呢表因呢是给出的是呃各种患者一般资料比较,也就是说是单因素分析了我们通常所说的。然后第二步呢,就是表表三了,就是有统计学意义的变量作为自变量呢,呃, 然后呢因变量呢,是他的一个评分,评分呢是分为等级,呃轻度正常,轻度,重度,也就说这等级越高呢,这个 程度呢是越高的。做一下多元捞这个回归分析,他的结果呢,我们可以看到他展示的结果呢,包括他的技术啊,他的误差啊,沃尔德卡方值啊, p 值啊,沃尔值啊这些,以及百 百分之九十五 c i 呃,这样的一组展示形式。呃,大家呢,如果感兴趣呢,可以参考这篇文章。好,关于本次内容呢, 就介绍到这里,大家如果有疑问或者数据分析方面的合作事宜呢,可以联系我们,这是我们的联系方式。好,谢谢。

sbss 操作步骤讲解系列第二十五课二元 logistic 回归分析 二院 lutistic 回归分析因变量为二分类变量,自变量可为连续型随机变量或者分类变量,取之常为零获一,采用最大自然比法或者迭代法进行参数的估计。 第一步,将数据导入 spss 中并复职,若因变量数据的取值不是零和意识,可以在 spss 软件中进行重新编码。 第二步,点击转换重新编码为相同变量。第三步,进入图中对话框后,将需重新编码的变量放入变 亮框中,点击旧值核心值,在旧值里填入旧值,在新值里填入新值,点击添加全部,重新复制后点击继续确定。在结果框里出现对应语法后表明重新编码成功。 第四步,点击分析回归二元 logistic。 第五步,将音变量、自变量放入对应的变量框中,点击分类,将非连续性随机变量、有序分类数据和二分类数据进行压变量处理,在右侧红框里设置参考对象,点击继续。 第六步,点击选项勾选霍思默来没效你何优度迭代历史记录 x 挂号 b 的致信区间,点击继续确定。 然后二元 logistic 回归分析的个案处理摘要因变量编码分类变量编码迭代历史记录分类表方程中的变量为包括在方程中的变量模型系数的 ambus 检验模型摘要或私募蓝莓效检验 分类表,方程中的变量结果就出来了。将方程中的变量表粘贴复制到表格中进行整理, 可将置信区间的内容删除后,在表格的下方加入模型检验的结果后,将整理好的结果复制到 word 中进行表格的制作和文字解释。 学会了记得点赞关注哟,可带坐指导学习交流。

那首先呢我们来看逻辑回归, 那刚才呢,其实吴老师已经给大家介绍了性性回归的内容,那性性回归呢?他其实是属于回归分析的一种,那回归分析他的一个研究目标其实就是想要去挖掘我们的 x 跟 y 之间的关系, 那 y 就是我们最感兴趣的那个研究变量,我们称之为音变量,那这个 x 就是那些我们认为有可能会对音变量产生影响的因素,我们称为是自变量。 那在信息回归里面呢啊,我们会有一个假设,也就是要求我们的这个音电量外,它是一个连续型的电量,就比方说大家的学习成绩,然后这个你对于某一种商品的购买金额,还 还有比方说像北京的房价,像这些其实都是连续性变量。那么如果你的外,你的这个感兴趣的变量,他是一个连续性变量的话,那么大家就可以非常方便的使用这种性性回归的方法去做。 但是在实际中呢,在大家在做这个市场调研的时候,有的时候我们感兴趣的这个音变量呢,他不是一个连续型的变量,他可能是一个分类型的变量。那这个时候呢,我们就需要用到另外一种回归模型的思路去做,也就是我们下面要介绍的逻辑回归。 那首先呢给大家展示几个例子啊,这种分类型的音变量其实是我们经常会碰到的啊,比方说在这个研究客户关系管理的时候,那可能我们关注的是这个客户,他在我们的这个公司里面,他流失还是不流失? 因为客户就是我们最重要的资产吗?所以客户的流失与否,这个就是我们关心的一个音变量,那他是一个分类型的音变量。 再比方说在这个互联网金融或者是对于银行来说,那我们借了这个信用卡的钱,那么他们关注的就是我们借钱之后是否能够按期还款,也就是我们是否会逾期,那这个时候关注的音变量就是是否逾期,他也是一个分类型的音变量。 在比方说在研究消费者行为的时候,我们想要去了解消费者的购买决策,那我们想看看他对于某一个商品他买了还是没有买, 他对于我们推荐给他的某一个广告,他点击了还是没有点击,他是否去观看了,那这个时候我们的外也就是一个是否型的这样的一个音变量,所以他也是一个分类型的音变量。所以大家 大家看在我刚才给大家讲的这三个例子中,他其实都是一个是否型的这样的一个二分类的这样的一个音变量。 那其实除了这种二分类的音电量之外,我们还有可能会碰到多分类的音电量。比方说大家经常会去做满意度调查,在满意度调查里面,我们对于一个商品或者是对于一项服务,你是很满意还是一般满意还是不满意,还是非常不满意, 对吧?他也是有一个层级变化的,那这个时候你碰到的就是一个多分类的音变量。那当处理这种多分类的音变量的时候,如果我们还是希望借用回归模型的思想,也就是我还是想看看我的 这个,我的这些自变量是否会对我的这个应变量产生影响的话,那么我们就需要用到逻辑回归的这样的一个思想 啊。那逻辑回归是什么?我们来给他一个定义哈。逻辑回归呢?又称为老,这是一个回归分析,他是一种广义的线性回归分析模型。 那通过逻辑回归呢?我们可以像我们之前学到的这个线性回归一样,我们得到自变量的权重,从而呢帮助我们去了解哪些自变量是因变量的影响因素。那与此同时呢,我们也可以去预测在确定的条件下,因变量所处状态的可能性。 那刚才就像我们说的逻辑回归的音变量对不对?他可以是一个二分类的,比如说我们的是否,比如说我们的有污,他也可以是一个 多分类的啊?其实都是可以的。那实际中我们用的更常用的可能还是二分类的这样的一个情形啊,那对于音电量是有限制的,它是需要 是一个二分类的,但是它的自变量其实是没有限制的啊,我们的自变量 x, 它可以是一个连续型的变量,也可以是分类型的变量。 逻辑回归的应用其实是非常广泛的,因为就像我们刚才提到的,我们在现实生活中可能会碰到非常多的情形啊,这种在这种情形下,我们的感兴趣的,我们的目标变量,它是一个分类型,那这种时候我们都可以用逻辑回归来进行处理。 好,那刚才呢,我们一直在提,就是说当我的音变量不再是一个连续性变量的时候,我就需要用逻辑回归处理,那么为什么就不能用线性回归了呢?哎,我们来一起看一看。 那我们现在回顾一下刚刚吴老师给大家讲的线性回归模型啊,我们有一个 y, 我们的 y 等于贝塔零加,贝塔一乘以 x, 一加加这个贝塔 p 乘以 xp, 再加 加上 apc 龙。啊,那在这样的一个线性回归模型中,我们看到我们其实是用一个等号,对吧?把我们的音变量和我们的自变量给他联系起来了, 那这个时候我们说谢谢回归要求我们的音变量是一个,是一个连续性的变量,为什么呢?是因为我们在最后我们有一个 ipsil, 这是我们的随机误差项,这个随机误差项大家可以理解成他就是对于那些啊不确定性的因素的一个概括 啊。那我们一般会假设这个 apc 龙它是一个正态分布,那正态分布它就是一个连续性的一个变量嘛?所以 如果是说我们的这个 y 他现在不再是一个连续型,他不再是一个具体的数值了,而是变成零或者一,是或者否?那这个时候大家想我们的这个等号其实是很难超 成立的,因为我们的左边就是零或者一,但是你的右边他其实可能在整个实数遇上都有取值,那这个时候你的等号就是不能成立的,那怎么办呢?对吧?怎么才能去解决这个问题呢? 那一个非常自然的想法是说啊,我既然现在我的外是零一,他不可能跟一个实数遇上的一个曲值相等,那我能不能对这个零一做一个变换,哎?让变换之后的这个值变成是一个连续型的一个一个指标呢?哎,那逻辑回归其实就是这种思想。 首先他的第一步变换呢,就是我把 y 等于零或者是一把这样的一个离散型或者是一个分类型,我们要把它变成一个连续型的指标,那怎么去变成连续型的呢?我们这里考虑到用一个 发生概率,也就是大家可以想象啊,比如说一个消费者,他对于一个商品他购买或者是不购买,他可能潜在在他的心目中有一个这个购买的这样的一个可能性, 那如果他这个可能性越大的话,他表现出来的行为可能就是他买了,如果这个可能性越小的话,说明他可能就没有买。 所以我们可以用 y 等于一的一个发声概率,其实就是衡量 y 等于一的一个可能性,哎,来去呃来去替代原来观测到的这个 y 等于零或者是一, 那一旦我们把它变成一个发生概率,它的好处就在于我把一个只能取零或者是一的一个变量变成了一个可以在零一范围内取值的一个连续型的变量。那下一步呢?我们就想看看, 哎呀,我们的这个发生的可能性,他是不是可以被我们所找到的那些自变量 x 来解释。所以一个很自然的模型是说,哎,我去考虑我的 x 和贝塔,哎,他们之间是不是可以等于我的这个可能性 p, 我的发生概率 p, 那我会发现其实这个屁,你虽然变成了一个连续型,但是他还是在零一之间取值的,他的取值范围是受限的,那进一步的我们就思考能不能把这个屁再做一些变换,让他可以在整个实数遇上取值。 那怎么做变换呢?首先我们做了一部单调变换,也就是我们把原来这个 p 变成了 p 除以一个一减 p, 这是什么意思呢?我们说 p 表示我购买一个产品的可能性一,一减 p 表示我 不会购买他的可能性,对吧?所以购买的可能性除以不会购买的可能性,哎,他其实衡量的还是说我有多大的可能啊?会去买这个商品,那我们把 p 除以一减 p 呢?称之为是 ozrishi 啊,那这个 rishi 他就会在零到正无穷之间取值了, 但是他还是不能取复制,对吧?所以我们就大家看,我们又又做了一个变化,我们就对他取了一个对数,就变成了一个 log p 除以一减 p, 哎,这样变换之后,我们在每一步都是做的单调变换,所以最后的 log p 除以一减 p, 它还是取值越大,代表我本身的这个屁就越高。那取完对数之后的这样的一个 log, 它就是可以在整个实数上取值了,那我们就可以非常方便的。哎,让这个取完 对数之后的这个部分等于我的 x 贝塔,那最后形成的这个就是我们实际上的逻辑回归模型。 那大家看这里,其实我们对 p 做了一个变换,这个变换是 log p 除以一减 p, 我们把这样的一个形式称之为是捞这次变换。所以为什么叫逻辑回归?就是因为我们这里其实对他做了一个逻辑变换,做了一个捞这次变换, 那在刚才这样的一个逻辑回归模型里面,需要大家注意几个要点。第一个要点就是在逻辑回归里面,其实我们对谁进行了建模呢?我们是对 y 等于一的概率,也是对这个屁做的一个建模 啊,我们其实是对他这个这个概率做了一个芥末,那这个 p 其实他就等于 y 的一个平均值,或者是说 y 的一个期望。那另外呢, 我们为了让这个 y 等于一的概率可以在整个时数遇上取值,我们就做了这样的一个捞这次变换,那变换之后的这个结果,它就可以在整个时数遇上取值了,那取值之后的这个 z, 它等于我们的 x 贝塔,这就是我们的逻辑回归模型, 那进一步的大家也可以发现,其实关于 z 等于 log p 除以一减 p, 我可以进一步的把这个 p 给反解出来,对吧?那如果我们做一些简单的推导的话,你就会发现这个 p 它是等于什么呢?就等于 exponential z 除以 e 加上 exponential z, 就是等于下面这个东西。 所以有的时候呢,这个你们看到的逻辑回归的形式,他是这个样子的,他其实就是把我们的这个捞这个变换做了一个反解。那么在逻辑回归模型里面,我们 需要关注的是什么呢?需要关注的是我的,我的这个贝塔是多少,对吧?因为我们需要对贝塔做一个估计啊,那标准的统计学呢?会告诉我们啊,我们有很多的方法可以对贝塔做估计,比方说最常采用的是这种极大自然估计的方法,就可以对贝塔进行估计了 啊,那吉他自然的思想就是说啊,我希望我看到的这组数据啊,能够啊,最啊能够最大啊,不对,应该是说我希望我们得到的这个贝塔的估计值,能够使得我们现在拿到的这组数据的出现概率是最大的, 也就是说我既然看到了这组数据,我收集到了这组数据,就说明产生这组数据的这个概率应该是比较高的,这样的话我才能看到他,对吧?所以呢, 那贝塔呢,就是能够让我看到的这组数据概率最大的时的时候,他所对应的参数值,哎,这个就是极大自然的思想啊,他的具体的求解非常的复杂,但是呢,我们在实际中呢,大家可以接触很多的啊软件,方便的对这个逻辑回归进行分析。 然后说下面呢,我们给大家举一个具体的实力啊,在这个例子里面呢,我们是想要去预测啊,在这个手机广告中,广告的趣味性、信息性、信任度和说服力对推荐意愿的这样的一个影响,那这里的推荐意愿 我们收集到的就是他推荐或者是他不推荐,所以这是一个零一型的一个分类型的一面量,那我们对他进行分析的时候,就可以用到逻辑回归的方法,那在我们的这样的 呃,在我们建树的这样的一个平台上面呢,哎,大家就可以通过我们的这个平台来去进行数据的收集,那收集来数据之后呢,我们就可以直接利用我们建树的平台进行这个呃进行逻辑回归的建模 啊,比方说大家在这个回,在这个具体的分析方法这个地方,大家就选中逻辑回归,然后呢在逻辑回归中,我们需要去指明他的音变量是什么?他的字变量是什么,对吧?然后我们就在音变量的这个框框里面,大家选中这个推荐意愿, 然后在自变量的框框里面,我们就可以选中啊,我们在问卷中收集到的几个不同的这样的一个啊自变量 x, 比如说我们这里选了趣味性、信息性、信任度和说服力,这样的话我们就把我们的 x 跟 y 定义好了,然后我们就可以让这个呃系统自动的把我们生成 呃逻辑回归的这个结果了。好,那我们来一起关注一下,当有了这个结果之后,我们怎么对这个结果进行解读? 好啊,我们首先关注的是模型的一个你和情况啊,那怎么去衡量模型的你和情况呢?那刚才我们提到我们在估计的时候用了一个 极大自然的思想啊,也就是说我们希望我们生成的这组参数贝塔,它可以让我看到的我现在收集到的这组数据它出现的概率是最大的, 所以呢我们就需要去衡量,哎,在不同的参数下面,我这组数据它出现的概率到底是什么,对吧?那我们把这个概率呢称之为是一个自然函数啊,那所以我们就可以用这个自然函数来衡量它的你和情况,那这里 你呢?我们看到我们在模型结果中你会看到两个指标,一个是呃底底外人就是这个偏差,还有一个这个还有一个无效偏差。那无效偏差是啥意思呢?就是说我认为我所有的贝塔都等于零, 那所有的贝塔都等于零,就相当于我的所有的 x 对我的 y 都没有影响,对吧?也就是我认为所有的 x 对 y 都没有影响的时候,哎,我看看我的这个,我的这个自然,我的这个出现的这个样本出现的概率有多大, 然后呢,我再看看我的这个,在我当前的贝塔的这个估计下,我的这组四人,我的这组出现的概率有多大,那肯定他们之间的偏差,他们之间的差异越大的话,就说明我们的模型呢你和效果是越好的。所以大家看 这里,其实我们就给出了,当我们给定这组贝塔的时候,哎,我的这个自然的一个变换,就是我的这个偏差是多大?然后呢,在我所有的贝塔都等于零的时候,我的偏差是多大?哎,然后如果他们差异很大的话,就说我们的模型的你说效果比较好, 那大家在实际中还会碰到的情形是什么呢?啊?是说有可能我会做好几个逻辑回归模型, 比方说当你不知道有哪些变量,有哪些自变量可能会对他产生影响的时候,你可能会同时做很多逻辑回归模型,那这个时候就涉及到在这么多的逻辑回归里面,你怎么选择一个最好的结果? 那我们就可以关注两个指标,一个是 a ic, 一个是 b ic, 那在我们给大家的这样的一个呈现的结果中,我们同样给出了 a ic 和 bic 的值啊, a ic 和 b ic 的值是越低的话,说明数据对模型的这个你和效果是越好的,那大家就可以选择一个 a ic 或者是 bic 比较低的结果就可以了,一般来说这两个指标的结果都是比较一致的。 好,那进一步的我们还需要关注的是什么?最需要去关注的就是我的系数,对不对啊?我们有不同的这个自变量输进去,那我们肯定需要考察的是每个自变量到底对我的音变量对我的推荐意愿有没有影响。 那我们关注的就是系数,这里的系数就是我们刚才提到的那个贝塔的估计值,每一个 x 都会对应一个贝塔的估计值,它的系数就在这里。那除了有一个系数的估计值,大家还需要特别注意的就是它的 p 值啊,什么叫做 p 一直呢啊?那大家想啊,比方说大家在收集问卷的时候,你不可能把所有的人的数据都收集起来,比方说我们就给定我们的这个,呃,问卷收集的量是两百个人。 好,那我们说我们拿到了两百个人之后,我们基于这两百个人的数据,我们一定可以得到一个贝塔的估计值,可以得到我们的系数。 但是大家想想,如果我重新收集一组数据的话,我的数据就会不一样了,那我得到的这个系数的估计值也有可能会不一样,对不对?所以我们就希望当我们变换了我们的数据的时候,我们的这个系数它仍然是比较稳定的。 或者是说他现在所产生的这个值是因为他确实是对音电量有影响,而不是我们所 因为抽样带来的偏差所造所所造成的。那怎么去衡量这个?其实就是用 p 值来去衡量的,那 p 值呢?它其实衡量的就是说当我的某一个贝塔真实为零, 但是呢,你错误的认为他不是零,哎,你就犯了一个错误,那你犯这种错误的可能性有多大呢?哎,这就是我们的气质, 所以大家想 p 值实际上就是我犯错的可能性,对吧?那我当然是希望我犯错的可能性越小越好了,那小到多少是比较好的呢?我们就需要给他一个标准, 比方说一般大家采用的标准就是零点零五,那我认为我只要犯错的概率小于零点零五了,那基本上来说我就不会犯错了。所以一般来说我们都是用零点零五去衡量的。 比方说大家发现趣味性他的 p 值是小于零点零五的,这说明这个趣味性的这个系数,他是一个零点六五四八是一个正系数,他确实是会对我的推荐影响,推荐意愿产生一个正向的影响。 那比方说第二个这个信息信,我们发现他的屁值是零点二一四五,他的屁值比零点零五大, 这说明如果我认为这个零点三一七五他是真正一个大于零的值的话,他可能我们犯错的概率就比较高。所以一般来说,我们在零点零五的这样的一个显著性的水平下,我们就认为他可能啊没有足够的信息让我们觉得他是一个非零的取值。 那按照这样的标准呢?我们会看到其实我们能够发现的显著的变量有谁呢?有我们的趣味性,对吧?还有我们的 说服力,并且我们发现趣味性和说服力他都是一个正正的系数,也就是他会对我的推荐意愿产生一个正向的影响, 那我们发现信息性他也是一个正系数,他会产生一个正向的影像,但是他的屁直不够小,就是我们存在犯错的可能性。 信任度呢,他是一个负的系数,说明他的他的这个影响是一个负向的影响,但是呢他的屁值也不足够小,也说明我们可能会犯一个比较大的错误,所以大家在信在这个系数解读的时候呢,哎,就需要留意这个屁值是多大, 那给了我们的参数的估计结果,那在我们的这个建树的这个平台上面,哎,大家同样可以,他会自动的帮大家生成关于指标的解读啊,我们可以一起来看看 啊,他会做一个整体的解读,然后会告诉大家在我们现在的这个逻辑回归中,大家把哪个边量作为音变量,然后把哪些边量作为了我们的字边量进行逻辑回归,然后他会对我们模型的整体的一个啊,这样的一个你和的效果做一个解读,比如说他现在的偏差是多大 啊?然后呢,这个呃呃,这个呃表表明我们的这个模型和所有的这个贝塔为零的时候,他的差值是什么样的, 然后他也会对我们的每一个系数啊,我们的这个系数的根据我们系数为正还是为负,然后给出大家一个这个可以参考的这样的一个解读的结果, 这是我们的逻辑回归的部分。

什么是逻辑回归?与所有回归分析一样,逻辑回归是一种预测分析。当我们的音乐量是二分类时,使用它, 他只是表示一个只有两个输出的变量。例如,预测抛硬币正面反面的情况,结果是二进制的。如果硬币是正面,则为一。如果硬币为反面,则为零。 这种回归技术类似于线性回归,可用于预测分类问题的概率。为什么我们使用逻辑回归而不是线性回归?现在,如果我们用线性回归来预测恶性肿瘤这个二分类问题最小化预测值和实际值之间的距离。这条线是这样的,这里的预 至为零点五。这意味着,如果预测值大于零点五,则我们预测为恶性肿瘤一。如果小于零点五,则我们预测为良性肿瘤零。但现在让我们稍微改变一下,我们在数据集中添加一些异常值。现在这条最佳女核线将移动到该点。像这样, 你看到这里有什么问题吗?蓝线代表新预值,此处可能为零点二。为了保持我们的预测正确,我们不得不降低我们的预值。 因此,我们可以说线性回归容易出现异常值。现在,如果预测值大于零点二,那么只有这个回归会给出正确的输出。线性回归的另一个问题是,预测值可能超出范围。 我们知道概率可以在零和一之间,但是如果我们使用线性回归,这个概率可能会超过疑惑第 于零。为此,我们最好有一个函数,将任何实际值映射到零和一之间区间内的值。 c m 二的函数是一种数学函数,用于将预测值映射到概率,该函数能够将任何实际值映射到零和一范围内的另一个值。 在图形上,他会形成一条 s 型的曲线。然后,我们可以选择一个预指,并将概率转换为零或以进行预测。 成本函数是用于计算误差的数学公式,它是我们的预测值和实际值之间的差异。它只是衡量模型在估计 x 和 y 之间关系的能力方面的错误程度。 当我们考虑成本函数时,首先想到的是经典的平方误差函数。其中 m 是样本数, x 是特征项量, y 是实际值,希塔是参数项量。如果我们是线性激活函数,那就没问题了。但是使用 c, m, i 的函数,我们没有平方误差的正二阶导数,这意味着他是非托函数。我们不想陷入局部最优,因此定义了一个新的成本函数, 称为交叉商成本。如果您仔细观察,会注意到,当预测值接近实际值时,零合一实际值的成本都将接近于零。 让我们看看当 y 等于一和 y 等于零食,成本函数的图形是什么。蓝线代表 y 等于一,成本函数的右项会消失。 如果预测概率接近一,那么我们的损失会更小。当概率接近零时,我们的成本函数会达到无穷大。红线代表 y 等 等于零,所向将在成本函数中消失。如果预测概率接近零,那么损失函数会更小。但如果概率接近一,那么成本函数会达到无穷大。此成本函数也称为对数损失。 他还确保随着正确答案的概率最大化,错误答案的概率最小化。此成本函数的值越低,精度越高。如果我们结合这两个图,将得到只有一个局部最小值的突突。 在这里,使用梯度下降找到最优结很容易,我们将尝试了解如何利用梯度下降来计算最小成本。梯度下降以这样一种方式改变我们的权重值,他总是收敛到最小点,或者我们也可以说他只在找到最小化模型损失函数的最优权重。 他是一种迭代方法,通过计算随机点的协律,然后沿相反方向移动来找到函数的最小值。 接下来,我们在二软件中完成一个逻辑回归分析,使你对分析步骤和思维过程有一个基本概念。这些数据来自一项正在进行的对正居民的心血管研究,其目的是预测一个病人是否有未来十年的冠心病风险。 加载并准备数据查看数据。 你和逻辑回规模型 预测对数几率和概率。 计算混淆矩阵有多大比例的观察结果被错误分类。依靠混淆矩阵来评估模型的准确性有什么缺点。 一位医生计划使用你的模型的结果来帮助选择病人参加一个新的心脏病预防计划。他问你哪个预知最适合为这个项目选择病人。 根据 rlc 曲线,你会向医生推荐哪个预知?为什么检查假设?为什么我们不会治原始残叉?检查假设包括线性,随机性和独立性 系数的推断。 current smoker e 的测试统计量是如何计算的?在统计学上, total trozen 是否是预测一个人患冠心病高风险的重要因素。 用检验统计量、置信区间和批值来证明你的答案。根据偏离偏差检验你会选择哪个模型?基于 aic 你会选择哪个模型?使用 step 逐步回归选择模型。

第一步说明我们这次收紧,对,可以准确的,准确的预测患者手术之后是否发生感染啊。那么我们找的这个影响因素也 其实最重要就是这个第最后一张表哈,就是这个方程中的变量啊,我们可以看 先就是第一看这个批值,批值如果小于零点零五,那么就说明相对应的这个自变量 是我们可以影响到我们患者是否发生感染,就比如说啊,当然,当然这个结果不一定是正确的,你们只要学会怎么看结果就行了,因为我的这个数据就不是真实的啊 啊,比如说我们这个身高是零点零四二,那么我们看他的这个贝塔指的是啊,就是回归系数, 他是零点零八二,他是大于零点零五的,那么他的影响就是正影响,也就是说身高越高,身高高一个单位比身高矮一个单位的患者发生感染的概率 是一点零八五倍啊,也就是说身高高一个单位是身高矮一个单位患者发生感染的一点零八五倍。这么说大家明白了没?好,你的这个体重,你看小鱼啊,这个是小鱼零点零五的,他是负影响,也就是说你的这个体重越轻 是体重重一个单位患者发生感染的什么零点九五五倍 啊?结果就是这么看的。然后呢这个自信区间啊,我先给大家说过了,没有这个自信区间,如果包含了一的话,那么这个批值 肯定是大于零点零五的,那么他他绝对就不是我们的影响因素。所以有的人投稿的时候,如果做这个回归分析的时候,自己编一个自行区间,那么如果陈告老师他懂这个统计学的话,他一般都懂哈,那那那你投好一点的杂志,他们肯定都懂的, 你的这个自行车间里面如果包含了一,那我们可以看到你,你这个比如说下线是零点九八零啊,上线是一点零五零,那么 你的这个批值如果是零点零零几的话,那很明显就是不可能的,你数据肯定是有问题的。好啊,今天这个 关于二元诺基斯提的回归分析的实操啊,以及这个回归分析的思路设计啊步骤我都给大家分享了一下,如果说啊有不明白的地方欢迎留言,如果你觉得对你有帮助的话,欢迎啊 点赞啊,希望您可以给一个免费的小红心可以关注我们。当然如果啊这个表述有误的地方,也欢迎大家指正哈,谢谢大家。

做临床的医生小伙伴应该都会接触大量的临床数据,但是如何利用自己手上的数据做出高质量的文章还是一个难题。今天小薇就给大家分享一个提升文章档次和内容的知识。用 spss 的 logistic 回归构建预测模型, 我们以下面这个案例来具体看看如何构建模型。某研究人员,你建立一个关于冠心病患者支架,介入书后再次发生 mais 事件 major advice cardiovascular events 主要心血管不良事件的风险预测模型。数据扩格是如下图所示,其中应变量结局事件为 event 自变量影响因素为,性别、 gender 年龄 h 索索亚 sdp、 吸烟、 smoking、 低密度脂蛋白胆固醇、 ldl 及官脉病变 syntax 群分 syntax。 下面 开始具体的数据分析,一、分析 analyze 回归 regression 二、元 logistic 回归 binary logistic regression。 二、将 in 变量 event 选入 in 变量 dependent 空中,将各个自变量选入协变量 coverage 空中。三、点击保存 save, 在预测值 predicted values 下勾选概率 probabilities, 目的是为了在数据库中新生成一个概率值,用于绘制 rock 曲线和较准曲线图。 四、点击选项 options 勾选 housemailed so goodness of fate, 用于输出 housemailed soul 你和优度检验的结果。五、 输出结果方程中的变量 variable in the equation 中输出了每个影响因素的回归系数, battle or 值百分之九十五 ci 以及批纸等信息。回归方程如下, logicp 等于 余减六十八点八,二八减十点二三三 jane 加一点二五七 aj 零点一九五 sbp 一点二零五 smoking 加十点三一二 ldl, 零点九四三 syntax。 以上就是今天的分享内容,是不是很简单呢?有了这个利器,你就可以把手里的临床数据利用起来了。

一分钟搞懂如何选择进入多因素 logistic 回归模型中的自变量。 前面我们提到 logistic 回归对样本量和自变量的数量有一定的要求,因此我们不能一次性将所有自变量放入一个 logistic 回归模型中,这样会增加模型的负担而得不到稳定可靠的结果。 通常我们会挑选单因素 logistic 回归中具有显著意义的自变量进入多因素 logistic 回归模型中。进入模型的方式分为以下几种, 一、输入法,也就是将所有单音素 logistic 回归中有意义的自变量全部纳入多音素 logistic 回归模型中,该方法适用于自便 量的数量较少且样本量充足的情况。二、前进法根据单因素 logistic 模型中有统计学意义的自变量的统计学显著程度,由高到低逐个进入多因素模型中, 并依次检验模型的稳定程度,直到纳入的自变量不再显著时停止纳入。 三、后退法。先将所有在单音速 logistic 回归中有统计学意义的自变量全部纳入禁多因素模型中, 在依次由高到低剔除多因素模型中被较正后而无显著统计学意义的自变量,直至模型中全部自变量均为因变量的独立风险因素。后退法和前进法常用于自变量较多的情况。 怎么样,是不是超级简单呀?赶紧运用起来吧!关注我,还有更多科研干货等你来学!

大家好,欢迎来到 spa 课堂,我是李博士。接下来我跟大家分享的是非现金回归分期里面的二元 logic 这个回归分期部分。 好,首先呢,我们来了解一下二元 logic 铁回归,二元 logic 铁回归呢,它的音变量呢,是一个二分类 变量的一个回归分析。通常情况下呢,我们对音变量不值呢,是零和一,他呢是一个二分类变量,呃,他的字变量呢,可以是连续变量,也可以是分类变量或者等级变量都可以。 然后二元 logic 也回归模型呢,我们可以解做这样的一个形式, logit p 呢,它呢是等于 low n p 比上一减 p。 呃,他呢最终呢可以写成这样一个关于白菜的一个先进组合形式,呃,这样我们通过这个公式进行变换。呃,这个 p 呢就是 呃发生的概率,某事件发生的概率呢,就可以解做 e e 的这些。呃,关于自变量的一个鉴定组合性质,比上一加一的一个关于 x 一个鉴定组合性质,这是关于他的一个回归模型。 然后二元捞这个回归模型,他的估计呢是采用的一个吉大自然估计法,跟陷阱回归的一个回归技术的估计呢是不一样的。然后关于他这个在 spss 里面的模块呢,呃,是通过分析回归 二元 logo 下面,呃这个模块呢进行呃相应的分析。呃,打开之后呢,我们可以看到,呃他的主对话框呢,主要分为左右两侧部分,左侧呢就是放置我们 呃数据的一个变量信息。右侧呢我们就是放置了他的一个音变量,斜变量呢,就是放置我们的字变量, 这有个方法呢,有个输入,还有一些步进啊这些方法,呃,这些方法,当变量个数比较多的时候呢,我们可以选择一些呃,呃步进啊,或者逐步啊这些方法 就让他输出呢,就是呃只有统计学意义的一些变量, 然后他这个呃定义分类变量呢,他是定义分类节变量的,就是如果我们有些分类变量呢,可以选择进来。呃,当我们有些时候呢,出现一个二分类变量, 比如说这里的高血压有个五,然后糖尿病有个五是零和一,这种二分类变量,他可以做分类变量选进来,也可以当做连续变量来处理,结果呢是完全一样的。 然后关于卷酱对话框呢,我们通常选择的是这郭子墨,这你和优度这个技术需要卷账。 再一个呢就是 e f p b 的一个直径区间,它呢就是通常我们所说的 o 二值,也就说是一个优势比。然后再一个呢 就是呃在最后一个步骤把这个选上,这选上就是呃,只展示最后一个步骤的结果,就是中间过程呢,我们就不用太太多关注了。 然后我们通过一个案例呢来进行一个分析,肿瘤的为恶性的一个独立影响因素, 嗯,这个数据呢就是肿瘤呢,恶性呢是一呃,非恶性呢就是零。然后他的影响因素呢,我们可以认为他有年龄、 bmi、 高血压、糖尿病家族史这些影响因素,呃年龄和 bi pmi 是连续变量,然后高血压、糖尿病加速时呢是一个二分粒变量,他这二分粒变量呢可以当做连续变量来, 也可以呢就是当做分类编码来处理,结果呢是一样的,我们通过呃数据呢来具体做一下, 好,这是他那个数据,然后呢我们来具体操作一下分析,回归二元 lody stick, 然后把肿瘤选进来,年龄, 嗯,一直到家族水这些全卷进来。分类呢,我们可以把这些卷进来,也可以不卷,这个都可以。 呃,但是选进来的时候呢,我们需要注意一点。呃,这高血压糖尿病家族史呢,我们一般是以灵物为参考,就是没有的情况下呢作为参考, 也就第一个,第一个选择上这个之后呢,再点一下变化量,后面出现了 first, 这样呢就以呃高血压糖尿病加速时零脂为参考,这样呢就可以继续 保存,保存呢,这有个预测值。呃,在呃后面的 分析里面呢,这个呢可能有可能用上,因为做 roc 取件的时候呢,这呢有可能用上这里呢就。呃,因为我们现在呢重点是做二元捞准机器,所以呢这个概率暂时不选。 选项呢,就是 e x p b 的一个直径区间或字末,你和优度减变,再就在最后一个步骤。 呃,其余两个呢默认就可以了。方法呢,我们就选择输入,就因为变量个数比较少呢,我们就是让他展示所有变量的一个输出结果信息确定。 好,我们来看一下这个结果。呃,因变量编码呢,良性是一,恶性呢?良性是零,恶性是一。 然后再就是他给出了分类片上的编码,这家族是无难是零,有难是一,然后糖尿病呢,也是无是零,有难是一。嗯,高血压呢也是无难是零,有难是一,然后这体脂块零的一些, 嗯,表格信息呢,我们不用关注,这个不用管。然后再来看模块的方法呢是用输入法, 然后模型的,呃,我们得把检验呢,我们重点来看模型显著镜,他呢显著镜是小于零点零五,也就是说整个模型呢是显著的。我们再来看一下他的模型摘要,他呢给出了两个,呃,好客子和 啊,香奈儿阿尔方和内戈尔和阿尔方,这两个阿尔方呢就是跟我们建议回归里面的阿尔方是类似的,他呢是表示的是摩托景和优度,这里面呢零点三三一和零点四三,他呢就是, 呃,这两个结果在二元捞制铁回归模型里面不是特别重要,一般呢不是特别小就行。然后再一个呢就是看到看他这个货字末 检验,他这个壁纸呢是零点六八三大于零点零,也就是说呢模型的你的效果呢是良好的。关于这个模型呢,他这三个 检验呢,其实我们只做参考就行,不做重点解读,其实最重要的结果呢还是他这个,呃正确率,呃,这个正确率总体的正确率呢是百分之七十四点一。 呃,关于他这个第一行,这梁静的一个正确百分比呢是百分之八十三点五,呃,这呢他是一个比出的是一个, 呃特异性,然后六十三点三呢是一个灵敏度好。那最重要的呢,呃是方程中的变量这个表格, 这个表格呢在所有的分析里面呢是都需要展示这个结果,呃需要进行一个整理,呃,通常需要展示的结果呢是 b 标准物五二得,这自由度呢可以不用展示,然后就显著性,呃 expb 呢,这个就是 o 二, 然后呢再展示百分之九十五的一个执行区间,我们来看一下他这结果,呃小于零点零五呢,就是说明呃是这个恶性 肿瘤的一个影响因素了,你看这个年龄呢,他是小于零点零五显著性,也就是说呢年龄是他的一个独立影响因素。然后我们再来看这个 o r 一点一六九呢,就说明呃大于一呢,就说明年龄呢增加 醉,他呢恶性肿瘤发生的概率呢,就增加一点一六九倍,这 bmi p 呢大于零点零五,就说明 bmi 不是他的一个独立影响因素。 然后你像高血压糖尿病加速时,因为这里面当做了一个呃分类变量,所以后面标注的是一一呢,在前面我们复制里面有呃对应的都是有这样的一个数数复值。 然后你看高血压,高血压显著性呢是小于零点零五,也就说明呢高血压呢是他的一个独立营养因素。高血压患者呢,患患有恶性肿瘤的概率呢,是非高血压患者的二十九点零三二倍,就这样一个 解毒方式,然后还有糖尿病加速时都是一样的,我们通过这个方程中的变量呢,就可以把它的回归模型给解出来了,通过回归模型解出来,就根据这个公式呢, 根据这个公式呢,计算出他的一个回归模型来。那然后呢,我们再输入一些自变量的时候呢,就可以计算出发生恶恶性肿瘤的概率,我们就通过他这概率大小呢,来判断他的一个呃 发生概率是大或者小,这样呢就是我们建立了一个老铁的回归模型了,进行预测。 好,这是关于呃 分析的一个案例介绍啊。再一方面就是关于论文写作方面,你看他呢就是手机。这是在一篇 使用儿歌杂志里面的一篇文章。首先呢进行统计学处理呢,就是先描述以下使用的软件包。然后呢再进行呃单因素分析呢,就是描述他的 检验方法,技术资料呢,用卡方计量资料呢,用均值家园标准差的形式,采用的是体检验。 然后呢对单因素分期具有统计学意义的变量呢,进行 logistic 回归分期,计算 o 二值,然后看它的显著差异性。你看表音呢,是有单因素分析结果,呃计数资料呢是卡方 值,用到的是呃平数,后面括号呢是占比,然后给出了卡方值和批值。然后如果尽量 呃剂量资料呢,比如说这些 hp 啊, hct 啊,这些数值呢,是用均值加染标准差形式来表示。 然后呢给出来检验值呢是 p 值,对应的是 p 值啊,把这些有差异的变量呢纳入二元 logic 铁回归分期呢,得到的是表二。呃,表二呢,咱们只展示的采用的是逐步回归法,只展示有独立 独立的影响因素,你看他呢,给出了两个独立影响因素,一个呢是热成大于十,然后第二个呢是 h b 小于一百,然后他 这个独立影响因素呢,这两个变量呢,都是呃小于零点零五,也就说他是 两个独立引起因素。呃,这呢是关于呃这两个表格的一个相关文章,大家如果有兴趣的话呢,可以参考这篇文章。 呃,关于本次内容呢就分享到这里,大家如果有疑问或者数据分析方面的合作市民呢,可以联系我们,这是我们的联系方式。好,谢谢。

大家好,今天呢是我们本系列课程的最后一次课程,那我今天要给大家讲的呢是 logistic 回归,它也是回归分析当中的一种很常见的方法, 它的内容主要包括简单的二分类, logistic 回归以及它的 sps 的操作实力,还有就是多项 logistic 回归以及 sps 的操作实力。 那我们都知道我们之前所讲的线性乌龟,他都是讲自变量的一些变化和各种各种各样的情形以及遇到的问题。那我们今天讲的是因变量的不同的情形。 之前我们讲的应变量其实都应用在一个是连续变量,那我们如果遇到了是分类型变量,比如说一二三四啊,或者是说 我们分等级啊,或者是分类啊,这种情况呢,我们该怎么办?这个时候呢, logs 的回归就用到了派上用场,那分类变量也有一种最常见的就是说适合否零或一的分类,那这就是我们所说的简单二分类。 这个时候呢,我们如果选取因变量为一的概率,比如说 p y 等于一分为一的概率,这个时候 p 与概率自变量之间的关系却很难用线情函数去表示。这个时候呢,我们需要取一个变换,也就是所常说的 logic 变换,我们令 q 等于 loin, p 除以 p 一减 p 用它等于一个线性表达式, b 零加上 b e x e 加上 b n x n, 这个呢就是 logic 偏换,也就是我们所说的 logistic 线性回归模型的由来。我们既然做了这样的一个变化,那就与普通的线性回归有一些区别,我们我们的参数估计的方式有了很大的区别,之前呢 都是由最小二成估计,这里用的是极大自然估计,至于什么是极大自然估计呢,那就大家私下里可以看一下同字学的一些相关课程去了解一下。 那第二个呢,回归系数的解释含义也有很大的区别,劳力斯,这个回归他呢系数表示的是事件发生与不发生的概率比,他,这个和我们之前的有有很大的区别哦,这个是需要大家注意的地方, 这个呢是简单二分牢记,所以我们根据这个呢,我给大家举一个例子,是说比如说银行拖欠贷款的影响运输进行分析, 可选的是呢有客户的年龄,教育水平,工龄等等这些因素,我们从中选择出对是否投权贷款的预测因素,那投权贷款只有两种选择适合否,这个时候呢,我们选择二分类。劳介斯蒂克, 这是我们的一个变量视图,一个是数据视图,这是我们的数据, 下面呢我们进行操作,这个时候分析回归不是现行回归喽,这个时候是二元 logistic, 然后进入一个回归的界面,在这里面选择应变量和自变量,设置 外力的等于一,然后点击分类回对话窗口,这个时候我们这个例子当中只有教育是分类变量加入,想让他选入右边的 的窗口当中,这个时候具体的操作是这样的一个操作,大家可以看一下这些选项变量之间的操作,然后就可以点击确定进行回归,这是回归的一个输出结果。同样的是模型汇总图, 但是呢我们这里有一个对数自然值以及这个 r 方,这个 r 方 两个和之前不一样,但是呢他们的含他们的含义是一样的,就是说越接近说明我们模型的离合度也好。这里呢我们的模型度虽然说离合程度不是很高, 但是由于我们的参数啊,主要是用于模型之间的对比,所以他虽然礼盒程度不是很高,也没有很大的关系。然后呢,我们再看一下这个随机性检验的表格,这个表 比较的是观测值和期望值之间的一个差距,我们这个时候表中的观测值和期望值大致相同,已观测和期望值,已观测和期望值大致相同,这个我们可以最这里看出,模型的拟合度也是可以接受的。 再看其他的输入表格,这是一个分类表格,分类我们选择呃是否拖欠贷款,是是 yes, 否是 no。 我们可以看到最终模型的这样一个分类的列联表,在我们给入了七百个数据中进行预测, 在未拖欠贷款当中有四百七十八,加上三十九点五百七十一粒,其中呢有四百七十八粒是分类正确,就是说原本就是 no 的,我们现在也给 他分裂到 no 当中,那我们正确率达到了百分之九十二点五,在一百八十三例拖欠贷款的用户当中呢,我们有九十二例分类正确,正确率百分之五十点三, 总的正确率呢是百分之八十一点四,正确的百分比可以看出啊,这个模型对于预测的效果还是比较好的, 我们可以通过这个最后一个方程中的变量这个表格来得到一个模型的表达式,可以写出这样的一个表达式,这样的一个是 employ, 这这四个是他的模型的 音变字变量,然后音变量是 logic p, 同样的是这样,这个是长竖向,这个是音字变量前面对应的系数, 这个是我们模型的一个表达式,这个是二分类的情况。那我们现在给大家介绍一下多项的劳力士回归。我知道我们所说的多项就是我们的 音变量是分类变量,但是含有三个或三个以上水平的一些分类。比如说我是一年级、二年级、三四年级都有四个年级的选项的学生, 或者说我们可以研究说视力分为轻、中、重三个水平,那我们考察影响视力的水平的因素的时候,这个时候我们的应变量可是三个分类,所以呢,我们考虑多项 logistic 回归。 我们举这样的一个例子,比如说我们给一个民意调查,关于人们的早餐喜好水平,那我 我们的早餐选择影响因素应变量是说一个是早餐的汤点,二个是燕麦类,三个是谷物类。自变量呢,暂定为婚姻啊,年龄这些等等。这些自变量早餐呢,有三个选择,所以我们选择多变量的一个劳杰斯蒂克, 这个时候呢,点入依然是分析回归,这个时候是选择多项劳介 style 点击呢?参考类别,参考类别选择最后一个类别,就是说我以最后一个类别为参考项, 其他的两个类别呢,与此对照,而不是说是与否的对照,而是说其他的类别与这个类别相比较,我发生的概率的一个对比的比较类别的顺序可以升可以降,我们这里选择升序,这个 影响不大,我们再看一个其他的。同时呢,我们点击一个回归模型,勾选主效应,打开多项就选择主效应,模型的主效应,再不考察他们之间的交互交互关系, 因为我们可以看到其实性别,年龄这些的交互关系,嗯,对这里的影响在根据我们以往的经验,可是对他的影响不大,但是如果要考虑交互效应,在其他的情况下也可以这么做,这里选择不考虑交互效应, 然后点击主面板中点击统计 statistic, 然后勾选一些这些选项,然后参数的估计值自然比检验,其他的可以根据默认值来选择。然后最后呢就是他的一个回归结果的输出以及解释。第一个呢是我的 模型礼盒信息,一个是自然笔,一个是卡方的自然笔检验可以看出通过了显著性检验,所以模型的礼盒效果较好。第二个呢是礼盒优度,一个是 pos, 一个是偏差的礼盒优度,我们可以看到是这样的一个, 不过我们离合优度的假设检验和模型离合信息的假设检验不一样,所以他们的 p 值一个很小,一个很大,但是都不影响,我们都是知道他是通过了离合的显著性检验。最后一个是 vr 发的值,最高是零点四一四, 说明模型啊对于原始变量的解释程度不是特别高,还有一部分信息并不能解释。最后还有输出来一个自然笔的检验,自然笔的检验情况啊,我们可以知道最终 进入模型的效应包括洁具啊,年龄,婚姻状况,声音态,生活态度这四个,并且呢我们通过最后一列的行政消失,后面三个都是显著性的, 通过了他的显著性检验。那最后一个呢?这个表呢就是参数的估算值,这个表格由于我们以最后一个为参考项,这里呢就输入前面两个和最后一个进行相比较的这样一个 模型的系数的一个估计值,这是他的系数估计值标准,误差,自由度以及系数的显著性。我们可以得出我们的模回归模型的一个表达式,可以看到显著性在年龄等于三,这个不通过显著性检验以及 婚姻状况等于零,婚姻状况,生活状况等于零,不通过显著性检验,系数的显著性检验。但是我们依然可以写出他的参数的一个 模型表达式,这个呢就是多项 logic 定回归的一个整体的介绍。那我们这个系列的课程呢,到今天也就到此结束了, 希望大家能够好好学习,能够达到呃之前课程开始之前所给大家设置的一个目标,那希望大家能够呃学的好,学的更好。

讲完了线性回归模型,我们来讲 logistic 回归模型。 logistic 回归模型在生活中十分常见,比如学习五小时,能通过考试吗?今天踢足球比赛输还是赢?这个包不错, 价格有超过一千吗?都可以用 logistic 回归来解决。本质上这些都是分类模型, logistic 回归做的就是分类问题, 同时以二分类最为常用。 logistic 回归模型的数学表达公式如右,看上去和线性回归模型基本一致, 唯一的不同是多了一个 sigmal eight 函数。可以看到 sigmal eight 函数的范围是在零到一之间,如下左,所以任何一个值经过了 sigmal eight 函数的作用,都会变成零到一之间的一个值,这个值可以形象 的理解为一个概率。比如对于二分类问题,这个值越小就表示属于第一类,这个值越大就表示属于第二类。定义好 logistic 回归模型后,我们需要定义一个 los 函数。前面的线性模型的 los 函数非常简单, 就是预测值与真实值相减的平方的。和 allegistic 模型的 los 函数没办法直接像线性模型的 los 函数一样直接去定义,它们的误差 需要用如上右的公式来定义。经过论证,这么构建 los 函数是合理的。