粉丝922获赞3657

奖励为大家讲解了如何处理数据表,如何清洗数据的相关内容,在这一奖励为大家分享数据的标准化。 所谓的数据的标准化就是指在分析之前对数据进行代码化的一个过程,然后利用标准化后的数据进行分析。 通常的情况下,标准的数据包括同区化和呃无量钢处理而使用的方法有两种,一种是最大值和最小值法, 第二种则是标准正态法。今天在这个视频里为大家讲解标准正态法来对数据进行标准化。 首先我们一起来看一下这个数据,这个数据就是在上一讲中进行, 是处理过的数据,那么如果把原数据变成标准化的数据的话,应该怎么处理? 首先天气有两种情况,雨天和晴天。道路有三种情况,城市道路、 乡村道路和自行车专用。城市道路代码一,乡村道路代码二,自行车专用代码三。 然后还有几个看似连续一起连续型的数据。首先我们先把这些数据的这些指标值给找出来, 座椅高度的最小值,这时你从数据表中可以直接看出来,最小值是一,最大值是六, 均值和标准差这里因为它不是一个实际意义上的连续性数据,所以这里的均值和标准差都不用去计算温 度,他的最小值你可以通过最小值的公式 min 来计算得出。 推车可以看到温度的最小值是六十点八六,然后它的最大值可以用 max 公式获得。 好可以看到温度的最大值是七十八点三二,他的均值可以采用 均值的公式获得。最后标准叉可以采用标准叉的公式, 大家记得在选用标准差公式的时候,一般选择的是样本标准差, 因为在很多数据计算的时候,你是不知道总体的数据的情况是什么,当我们不知道总体数据,然后你是抽样数据进行计算的时候,多数采用样本的标准差,样本的标准差是标准差点 s 这个公式 还是温度,然后确定,那这样就计算出了温度的最小值,最大值均值和标准差,这样算成的数据一倍我们后面使用, 那这时呢,你就得到了一个标准化之前的一个参照表, 那么在后面的这些就比较容易进行标准化了。比如在天气这里,雨天是一,晴天是二,那你只需在这里使用 x luca 不公示,或者是 v luca 不公示, 选择哪一个雨天原始数据表里的雨天,然后在哪里寻找呢?在这两个单元格中去寻找 啊,这两个单元格按 f 四给固定,然后最后返回的值是代码值,也按 f 四固定,然后回车,那这 这时就把天气这一列从雨天和晴天变成了带马化的一和二。 那座椅高度由于是这种数据,不需要做任何的更改,那直接等于座椅高度就可以。 在温度这里采用的标准化的方法是用竖直剪掉均直除标准差的方法,那他的公式就是竖直剪掉 它的温度的均值,在这里温度的均值按 f 四固定,然后除上标 准插,然后按 f 四固定确认,那这时就把温度的每一个数值都变成了标准化的数据。同样后面的处理方式是一样的, 在处理这个的时候也可以是等于突发时间,然后减掉他的均值,然后锁定,不要忘记这里应该有一个括号, 除上标准差确定,那这里呢,会有一个看起来不太好看的一个数据, 为什么不太好看呢?因为这个点这个时候他出现的是复制,而时间如果是复制的话是不存在的,那你需要把这一列数据的格式 更改为常规,那这时你就能看到出标准化处理后的数据了,您能看到温度和出发时间,他们两个的数据都是从某一个副职到一个正职,那这样的话, 哎,他都属于一个标准正态分布的数据,这样处理之后,你再去分析的时候,他都能基于同样的一个水平上做数据分析了。而胎压这里来看一下胎 压的处理方式,跟刚才是一样的,直接等于胎压的原始数据,减掉胎压的均值, 然后除上胎压的标准,差点确定 路径的说一句,路径有三种,城市道路、乡村道路和自行车专用。那这时还是用刚才的 x luca 进行选择,筛选的是原始数据表中的单元格,然后在参照表里寻找, 最后返回的是代码值。 好,这时我们把路径做了标准化,后面是风速,风速的处理方式与温度和出发时间是一样的, 直接用风速的原始直减掉风速的均值,然后除上风速的标准,差 点确定,那这样就得到了风速的标准化的序列值,那最后把骑行时间引用过来就 可以了。我通过这个数据这样的一个处理,你就可以得到一个标准化后的数据表, 如果你是用一个塞入表进行分析的话,这个地方一定要留意,因为一个塞入表是没有办法分析含文本型的数据的话,你必须做这种个人化,如果你用其他的 软件进行分析的话,这样的标准化之后能给你带来很大的便利,减少很多的麻烦。好,今天的讲解就到这里。


大家好,我是李博士,接下来我跟大家分享的是用 excel 呢来计算,通过 top size 版呢来计算他的相对贴近度,并进行排序,也就说呢,这里 这相对贴近度呢,有时候呢也叫做中国得分好,首先呢我们来了解一下找不对的方法,计算相对贴近度,我们用找不对的方法呢,呃,计算相对贴近度呢,首先呢是通过 数数据呢找出他的评价指标的一个正负离讲解值,然后呢计算呃评价这几项分别与正负离讲解的距离,这里的距离呢就是后视距离,然后根据这 两个呃递加和递减值呢呃,最终计算出呃各评价对象与最优方案的接近程度,也就是这里的相对接近度,并根据这个 c 值呢进行排序。 老鼠,呃,接下来呢我们来看一下它的一个具体步骤。呃,第一步呢,我们就是构建呃出水数据矩阵了,这里呢就是构造一个 m 乘 a n 行的一个矩阵,这里 m 呢是 m 个, 呃评价对象, n 呢是 n 个指标,对应到 a z 里面来呢,我们就在 a z 里面跟它对应一下,这 m 呢就是 m 行,就相当于 m 个样板 啊,这里呢就是五十个,相当于五十个样板。然后指标呢就相当于列了,这里边跟着 ascr 里面呢是对应的,就是单次列,就相当于三十个指标。 然后呢将原始数据标准化,标准化呢,这里有三三种情况,一个呢是正向指标,正向指标,还有呢是湿度指标,正向指标呢,我们来看公式呢就是 本份数值减他的对角值,至于最大减最小,这这呢都是对每一列数据呢进行处理,我们比如来看, 呃,这这一列吧,这一列标准化数值呢,就是呃本身数值减去他这一列的最小, 再除呢最大减最小,最大值呢就是点八三,最小值呢是 点五五,这样呢就是这样指标,分享指标呢,咱这里呢也有一个专门的分享指标的一个呃 c 的文件,可以呢直接把数据输入进来呢,就可以输出他的一个分享指标, 直接输入进来呢,就可以增加列了。呃,同样呢,我们可以增加行行的一些数据呢,就这些数据呢就可以增加了。 好,这是不降指标。还有一个 c 度指标呢,同样这里面有 c 度指标,我们呢仍然是可以这样添加列或者行呢,在这里面添加就可以得出来了, 他呢是分了两部分,一部分呢是小于他的一个中间值,然后第二部分呢是大于中间值到最大值,然后呢分别对应的不同的呃一个呃数据结果 就是对于这个表格呢,我们可以通过呃他呢来计算湿度指标的标准化。 好,我们再来看,再来第三步呢,就是确定正离讲解不良,不离讲解解职了,然后他呢就是我们可以看到的是每一列的一个最大组加 对应这儿了, 然后他就对 对应每一列长的最大值,这一列最大值是一,最大值是一,当然也是一了。然后呢就是不理想减呢最简单就是对应最小最小值了,就是对应这一列的最小值。 然后第四步呢,就对应计算 o 值距离,计算 o 值距离,我们来看这公式,这公式呢就是标准化或者数据呢,减去每一列的最大值,然后平方求和取根号。 好,我们就是这个数值呢,减去这一个正理想减数值,然后平方就是得到他,得到他之后呢,我们就是计算完这些之后呢,对 每一行进行求和,然后取根号就是对应到这了,呃,先求和呢,然后取根号就对应这一页了, 好,这是第四步,然后第五步呢就是对应将近,这将计算每个指标,每个评价对照相对接近度了,就是呃递减比上个递加加上个递减, 这是 o 值距离的 d 减,然后呢就是计算这个 z 了, z 了,就是 d 加除以 d 加加上的 d 减,然后呢再进行根据这个 c 值呢进行排序,这 c i, 那我们可以看到呢,他是在零到一之间的,然后越接近一呢,表示评价对象呢,越接近最优水平,越接近零呢,说明越接近最烈水平。 好,这是关于他的原理。然后我们这个软件呢,就是他可以支持的是呃三十个指标,然后五十个样板 在中国得分了一个计算,然后呢呃在做分析的时候呢,可以直接把正向指标呢直接复制到这里面来就可以了, 如果遇到复项指标或者适度指标呢,需要先在这两边处理,这里面呢处理一下,处理完之后呢,就可以 把它复制到这里面来,然后就可以进行呃综合得分计算呃以及他的排序了。我们再来看一下,比如说我们再加上两个短降指标, 反向指标呢?原始数据呢,我们就呃就比如说是这一列了, 然后呢我们可以这样叠加上,这呢就不要了。 呃,然后把这两个版本比较标准化数据呢就过来了, 这是五行, 这样吧,然后这是它的标准画弧的 c g, 我们把标准画弧的数据复制过来,这样呢就可以直接输出结果了。呃, top six 的一个评论结果,看,那有 d 加 d 减 c d 度,然后排序, 这是它的一个展示过程,包括输入各指标数值数据标转化, 然后呢就是计算他的正负离江减,计算欧式距离以及相对千亿度的计算,并且排序。呃,最后呢就是一个输出 出单元表的一个展示了,通过这个这个文件呢,我们可以呃对数数据呢,就是用 top c 法呢,计算它的一个相对程度,并且排序这个数据呢,我们还可以在这里面进行填空, 随便填充都可以,这结果呢,它就是自动更正了,这样我们可以看到呢,一二百五六呢,它数据是一样的,也就说综合成本应该是一样的,我们再来验证一下它的结果。 呃,五六 啊,刚才这里面是为什么出错呢?因为 因为这里面呢,我们只把它复制进来了,就是因为这个指标呢是反向指标,我们没有对这个反向指标进行处理,再对这个反向指标处理一下 这个,删掉反向指标处理后的数据,然后复制进来, 然后再来看结果。好,这两个结果五六的样本呢,排序是一样的,综合相对贴近度呢,也是一致的。好,这呢就是我们这个 top c 把的有效程序,用起来呢, 非常方便。然后大家如果有需要更多指标或者样板的综合得分计算呢,可以联系我们,这是 我们的联系方式。大家如果有需要获取找到一个 top z s 版的原理的 word 文件,或者这个也需要程序文件的,可以联系我们,这是我们的联系方式。好,谢谢。

大家好,我是李博士,接下来我跟大家分享的是 ad 呃来计算 呃权重以及综合得分,他呢是通过商权和 top save 吧,就是说呢通过商权来计算各指标的权重,然后呢用 top save 呢计算得到一个综合得分,并进行排序。 好,首先我们来了解一下商权 top c。 呃商权 top c 呢?它呢就是这样一个过程,它呢沿用商权法计算各指标权诺。然后呢得到一个新的数据集镇,就是通过这个数据集镇呢 进行 top this 研究。然后 top this 呢,它呢主要是研究的是评价对象 与理讲解的距离情况,就是通过正理讲解和负理讲解,最终呢呃计算得到他的一个坚定程度 c 值,通过这个 c 值呢啊来给他 呃的中国得分进行白去。然后呢我们得到他的一个排序情况,这呢是商权导致这次法的一个整体思路。 好,我们一步步来看。第一个呢是商权法阶段权重,商权法阶段权重呢,我们在前面已经有视频介绍了,就通过这个 呃视频呢在逼真法有这个视频呢,上传法比较严重,大家呢可以看一下,这里呢就不做过多介绍,最终呢可以 出一个呃权重结果,还有综合得分,这里呢我们只用到他的一个呃权重数值就可以了,综合得分不用呃计算。然后我们直接通过这个计算出来的权重呢,进入后续的分析。 好,我们再来看 top this 吧, top this 呢就是首先呢找出评价指标的正负离讲解值就对应的是 呃最大值和最理想值。然后一会呢我们来看他的公式。然后接着呢就是计算出各评价对象与正负离讲解之间的距离, 然后呢根据这个低加和低减值呢呃得出它的一个 c 值,并根据 c 值呢进行排序。 好,我们来看这相对贴近度的一个公式啊,我们先来看当选法的公式吧, 这呢是当选法的公式。首先呢我们来看一下,呃,我们构造判断矩阵的时候呢,跟这个 excel 里面呢是对应的,这样呢就是方便我们阅读。这里呢构造的是 m 个评价对象, m 个评价指标,就是说呢 它是 m 行,这里呢是五行,然后呢 n 个评价指标呢,你看这个数据呢就是对应是七列,有七个评价指标,然后呢构造出这样一个判断局阵,然后就 对数据进行标准化,标准化之后呢,我们就可以看到关于正向指标,负向指标和湿度指标呢,分别对应不同的工序。然后正向指标呢,我们直接在这里面呃输入数据就可以了。然后关于 这个估降指标呢,我们需要单独和处理,然后把数据呢输入到这个里面来,然后呢他就会输出结果了,比如说我们再输, 从这里面随便找一组吧,这里面找这一组,然后输入的这比如说这个指标就不想走进来,他就自动给给出来了,给出来之后我们可以看 后面有个频率,增加了一个频率量,你看这是风向指标呢,就是呃越小越好,你看这就是一把最小,就他说 啊,这个三十五点六是最最小的,数值最大的,这样呢就是一个互相指标,最大的呢就是最小六十五点四,这个是最小的,是这样的,是不同样的制度指标呢,是把这个 数据呢分成两段,每段上都得到一个 gu 值,这样呢我们就通过这对数据进行一个标准化, 就可以进行后面的一个分析了。这一步呢就是 数据标准化之后呢,就是 prd 计算了,因为 prd 呢,就是用到这个三值的计算, prd 计算,然后再就是 prd 成的乱 prd 就是这一块工期了,这一块工期我计算完之后呢, 呃再就是通过计算进行商值吧,进行商值呢就是他了开成一个这样一个求和,这一个求和就是他了这一个求和。 然后通过这样一系列操作呢,我们最终目的呢,就是得到这个权重,进行这个权重就是这一行了。权重值我们判断检验是否正确呢? 需要看一下他的盒,这有个盒权重求和就是盘了一下,我们通过章鱼盘法呢计算得到的权重是否正确,就通过这个权重求和来检验一下。 然后这里面做完之后呢,我们就需要进行 top disad 法计算它的一个理想接近度,或者说是 呃相对接近度了。首先呢我们是呃得到的权重在于他的一个标准化矩阵呢,进行做了一个沉积,然后得到一个加权标准化的矩阵, 就是这了,这的权重 w 对应标准化或者数据, 这呢与它对应的成绩呢?这一列成绩呢,只得到一个标准发福的这一列, 就是这一点。然后 ome 二呢,乘以它的一个标准化数据呢,就得到这一就是加权标准化的数据,这呢就是 brg。 然后呢我们再来 呃计算他的政府理想,这样呢,呃标准画勾之后呢,都可以看到是正向的一个指标,所以说呢正理想点呢,就是他的一个最大指, 呃加权标准画幅的一个最大值,你看就是它就是每一列的最大值加, 然后库里讲解呢,就是每一列的最小值,就是它呢,就是对应这一段公式二和三。 然后呢我们再来计算 o c 距离,就是他,首先呢我们先来计算呃到他的一个最大值的一个距离的平方,然后再呢进行求和,再 ctrl 是先求一个到正极降解的一个平方,就说呢是这个数值呢, 呃减去正极讲解的平方就到这。然后呢对应计算充完值进来之后 就是计算一下呃求和,求和之后呢再取根号就是来这 这一页。呃,同样呢,我们在可以计算 o c 距离的一个呃不离讲解的一个 o c 距离也可以呢,呃求和取编号得出来是这一页 这一列,之后得出来之后呢,我们就可以把它提取到呃下面结果里面来了。呃底加多少,底减多少。然后 z 呢? z 呢?就是用这个公式来计算一下 d 减去 d 加 加 d 减,呃得出 c 呢,然后呢进行排序,排序呢,就是根据这个 c 值大小进行排序吧, c 值越大呢就是排序,就说明综合得分呢,越高越靠。 呃,这样呢就把结果做出来了,然后呢就输出结果了,输出结果呢就是呃展示结果的时候呢,我们就要展示商职变异技术权重,这是商权法的计算结果。 然后呢再就是展示的结果呢是 top z 的结果就是正理想点距离,负离点点距离,相对接近度和拍距, 这样呢我们这个 a c r 呢,就算就算完成了 啊,我们来看一下这个数指标数值呢,呃,这个文件呢,就是可以支持呢,呃,三十个指标,五十个样板, 然后呢我们只需要呢就是在正向指标呢,在正向,正向指标呢,只需在这里面输入正向指标布置就可以了, 然后风向指标或者 s two 指标呢,需要在这里面处理一下。 然后呢我们就通过商权法计算权重,就可以把权重给自动计算出来了, 这是相对接近周的一个计算过程,过程数据呢都可以展示,但这些公式呢,都是 后面这一部分呢,公司都是呃做了保护的,是干不了的。后面这一部分因为前面呢大家呢有可能 呃可以用到,呃,用到它来替换液护具,所以说呢没做保护,后面呢都是做了保护的, 呃,最后呢就是复出的一个,呃三件表格,包括商权版的表格和商权 top c 版的一个表格, 呃,关于这个,呃这个商权法的 excel, 商权 top day 法的 excel 情绪呢,大家如果有需要可以联系我。 呃,再就是呃如果有数据分析方面的合作之一,也可以联系我,这是我们的联系方式,好,谢谢。

top says 它是一种综合评价法,它的一个过程主要是基于归一化后的一个原始数据矩阵,然后采用余显法找到 有限方案中的一个最优方案和最略方案,然后分别计算个评价对象与最优方案与最略方案之间的一个距离,以此作为评价优劣的依据。你可以简单看一下他的一个分析步骤, 就是假设现在有 n 个评价对象, n 个指标。首先第一步就是原始数据的一个同趋势化,我们需要将正向指标正向化,然后就是我们需要将负向指标进行一个正向化。 比如说我们现在这里有一个例子,我们想要评价就是该医院的一个妇产科效益,那么我们希我们希望的是 产前检查率越高,孕妇死亡率越低,以及违产而死亡率越低。而后面这两个他就属于负项指标, 需要做的就是将副项指标转化为正向指标,再进行一个计算,是构建标转化矩阵,这一步的目的是为了流量钢化,但是有时候步骤一和步骤二他也可以同时进行,就是使用 正向归一化分别对正向指标进行处理,负向归一化对负向指标进行处理,这样同时 既达到了正向化的目的,也消除了量感。第三步,我们是计算个评价指标与最有及最列项量之间的一个差距。四、我们是测度评价对象与最有方案的一个接近程度。我们回到 upseas, 我们将变量进行一个投入, 不是设定选择商权法,那第一步他就是将我们刚才我们对变量选择的一个商权法,现在就是对个变量所属的一个权重进行 一个商圈化法的求解,就是结果二,我们是来计算每一个样本,然后他到正理想解的一个距离,以及到负理想解的一个距离, 然后再获得他们之间的一个综合得分,这一步就是结果的主要步骤。排序也代表着这里是综合指数越大说明研究对象越好,也就是排名第一的就是 h 数。结果三就是中坚持的战士,也就是我们每一个样本 所处的一个值,然后到我们这个正离相结和负离相结分别计数正离相解距离和负离相结距离,所以它这一步的结果是参与进了 top six 评价法计算。

大家好,这里是由公众号小白数据音给大家带来的数据分析课程,我是小白,今天的话呢,我们一起来看一下关于描述统计分析的最后一节内容,就是数据标准化的一个处理。 数据标准化处理在我们平时进行一个数据分析当中的时候,用的相对来说不是特别多,他会对他一般用到的是在哪哪些方面呢?他主要是 呃用到包括这个数据同区化处理以及这个无量钢化处理的两个方面。而这两个方面比如说像数据同区化处理呢,它主要是解决不同性质数据的一个问题, 对于我们这个不同性质指标直接加总呢,我们是不能够正确反映这个不同作用力的一个综合结果,这个时候我们必须是 要先考虑改变数据,这个指标的一个数据性质是所有这个指标对测评方案的作用力呢是同区化的,然后这个时候我们再来对我们的这个数据夹走呢, 就可以得到我们这个这样一个正确的一个结果了。也就是说如果这个数据这样在没有做这个标准化以前,可能他的这个结果呢是有误差的。还有一个就是 数据标准化处理呢,他有很多种这样的一个方法,比如说我们一会跟大家讲到的这个类标准化, 这个标准化处理以后呢,我们是可以保证我们这个数据呢是服从标准正态分布的,也跟大家之前有跟大家说过,嗯,关于这个标准正态分布,我们怎么样去进行一个判定,然后对于标准化这样一个 过程呢?他有一个计算的一个公式,我们假设这个样本数据呢是从 x 一一直到 xn, 他的均值呢是 x 八,他的一个标准差呢是 s, 那他的一个计算过程公式呢?他就是 z 是等于 x 分之 x, x 还能减去 spa 这个公式呢,就可以对于我们的数据呢进行一个标准化的一个处理。嗯,然后对于这个标准化处理呢,其实在我们 spa 当中呢是非常简单的,我们只需要选中我们的数据,进行一个就是 小小的一个设定,我们就可以得到我们这样的一个结果,我们可以。嗯,这里小白给大家做一个演示吧,这也是我们最后一部分内容了,给大家演示一下。我们是依旧用到我们之前用到的这样的一个企业里边员工学历和薪资的一个 数据,比如说我们现在对于这个薪资这一块这样的一个数据,我们是需要进行一个处理的,我们这个时候呢是怎么样对他进行一个数据标准化处理呢?我们是在我们的分析当中, 也是在描述统计只菜单当中的这样一个描述当中,这个里边我们已经把这个薪资勾选到这个变量框当中了。那在这里边比如说像选项样式以及 这个执行当中,我们是选定哪一个对他进行一个标准化处理呢?其实在这三个选项里面都不是我们需要的,只是在左下角把这个标准化得分另存变量,把它勾选好就行,我们只需要勾选他就行,我们的系统就会自动将我们的这个数据进行一个标准化的一个处理, 我们先将我们之前的这样一个数值呢,先把它取消一些,然后我们正常的就只需要勾选这样的一个位置就行,然后我们点击确定, 点击完确定以后,我们就等于说对我们的数据其实已经做完一个标准化的一个处理了。当然这是因为我们刚才选定了他要输出这样的两个值,所以他会在这个地方进行一个显示, 输出框里面是看不到我们这样的一个标准化处理以后的一个结果了,他是在我们的变量框中变量这样一个界面当中,我们可以看到在薪资后边多出了一个认薪资的这样一列数据, 这一列数据呢就是我们对于薪资这一列数据的一个标准化的一个处理结果。那 截止到这里呢,我们整个这个描述性统计分析这样一个大的一个章节内容呢,就跟大家全部介绍完了。呃,我们再来回顾一下我们整个章节, 主要是给大家介绍了这个描述印统计分析的这样的一个方法和其中的一些技巧。比如说一开始的时候,我们给大家介绍了这个分类变量的一个频率分析,然后接着往后我们介绍了常见的这样一个描述印统计指标的一个分析指标。比如说, 嗯,其中有这个中心趋势的这样的一些指标,像均值、中位数呀,重数的这样一些指标,然后以及紧接着这个离散趋势的这个,比如说方差呀,嗯,极差、标准差、变音系数的这样一些指标。说完这个趋势指标以后,我们就又看了这个他的一个分布形态的一 指标,像这个分度偏度和这个风度,呃和还有之前所说的这个分位数也都是根据我们这个分布形态有关的这样的一些指标情况。然后再往后就跟大家看了一起来进行了一个实操,了解了在 spa 当中 得到统计性分析结果,我们需要怎么样进行一个操作。然后在这个在这一块给大家讲完以后,我们又看了关于定性数据的一个图形描述,以及定量数据的一个图形描述。 最后呢也就是我们今天给大家看到的这个给大家讲到的这个关于数据标准化的一个处理。嗯,整个我们标那个描述统计性分析呢,也就是这样的一些内容,在后期的话我们会在嗯,针对于 我们描述统计分析以外的其他一些分析,会继续给大家带来我们其他的一些数据分析课程,如果大家感兴趣的话可以关注我们的公众号小白数据营进行一个学习,然后后期的话会给大家带来其他一些精彩的课程。嗯,今天的话我们先讲到这里,再见。

大家好,这一次的内容是这个 pops 法,或者叫做最优最劣方案法的这一个一些注意事项啊。 啊?这个 pose 的原理呢?他是选择最优的一种方案,你比如说这个麦当劳或者肯德基要新开一个店,对吧?那或者是说这一个叫什么?几亿家这种他要新开一个店,那他要进行选址呀,他要备选的五个 地方,那么他被选五个地方,哪一个放哪一个地址最优,那怎么样去衡量他呢?他肯定选了很很几个好几个指标,比如说这个人流量、租金啊,也或者是说这个其他的一些,呃, 还有他的这个面积大小啊,这一个啊,其他的以及周围的这个商圈的这个氛围情况等等的一些指标来综合判断,到底这个被选的五个地址,哪一个更优秀一点,哪一个更好一点,做这种科学的决策。那么这个是 啊,透视的一个原理啊,透视的原理,那么我们首先来看一下这个透视里边的他的一个这个数据格式啊, 比如说我们这里是这个案例啊,他是煤矿,有五个煤矿,煤矿不会有会产生这个粉尘或者是二氧化硫或者是什么肺病的这个患病率的吧?这个煤矿功能, 那么五个煤矿,那现在要凭优秀,哪个煤矿更优秀一点?他是不是根据这些三个指标来判断哪个煤矿更优 优优优秀一点,对吧?那么做这个 pos 法的时候啊,第一个步骤,其实第一个步骤要做的什么事情啊?要做数据的这个正向化处理,你没发现这个粉尘 或者是二氧化瘤患病率是不是要越低越好啊?那么你第一个事情要把这种方向给他颠倒过来,是不是 数字,这个是数字越小越好,这些是不是应该数字越小越好?你怎么样把它这个数字变成越大越好?正常情况下人的思维,这个数字越大越好,这个才符合这个三那个 top 四法的一个 啊,数学上的原因,因为他要倾向于数字越大,假如最有方案,数字越小呢,叫做最溺爱的方案,那么我们第一步做的是这种方向的啊,统一 都是数字越大越好,那么怎么样统一啊?一种方法呢?是你可以求个倒数,对吧?他这数字越大越好,呃,这数字越大 越越不好,那你求大叔就把方向盘反过来了。还有一种做法呢,是做这个啊,逆向指标,这个叫逆向指标啊,逆向划错地, 那么都可以了,使用这个 sps 游戏桶里面啊,作为 sps 游戏桶里面都可以进行处理,处理完之后再进行分析啊,再进行分析。让我们来看一下哈, 就是这个 suv 系统找到这个深层变量啊,比如这三个指标你同时选中啊,你给他求一个倒数啊,可以的啊,你是可以对他进行倒数处理的,这是一种处理方法 啊,那么大叔处理之后呢,其实他的单位还不统一,对吧?单位是不统一的,那么啊,还有一种处理呢,就叫做逆向化,就逆向指标做逆向化处理,他就变成正向的了,而且同时啊, 他的单位也统一了,单位统一了哦,什么叫做单位的统一不统一呢?我们的这个数据, 这个你比如说这个,你除个一,四点三,除以个一是不?大概零点二五这样子啊,那么你这个五十点八除以一大概是多少啊?一除以五十点八,这个大概是零点零二,这个单位很小的,这个数字很小的,对吧?那因此呢, 要让这个单位这三个指标他的单位程度上都表示成一致的呢?那你最好的方法是做这个啊,我们的这个叫什么东西啊? 逆向划处理,逆向划指标注逆向划处理啊,当然你其他的还有很多的一种处理方式,这只是说数据的一种处理方方法而已。 那你如果说你这是正向指标,那你可以做正向画处理,你想怎么样做这个逆向画处理啊?进行这样的处理,我们确定就是新生成出三列,前面还可以加上 n e m m s, 因为他这里括号是 n m m s, 然后呢再进行分析,可以的,那么有的时候呢?然后像我刚刚说的求倒数,他也是一种方法。有的还有一个叫做啊,托普斯法里面的还有一个叫平方和 规划,也用了会比较多,先求了到数之后再平方和规划。他的目的呢也是让这个数据的单位统一啊。你其实像这些都是为了让单位统一的 啊,都是量高处理,都是为了让单位统一,只是说你看哪一种方法啊?使用的会比较多啊?一般其实都还可以的啊。嗯,然后呢再进行我们的这个拓,在这个综合评价里面啊,那我们就把这三个放进去来进行分析啊,开始分析, 那么开始分析之后呢,直接持就得到结果了啊,包括怎么正向这种中间过程。这样啊,其实正向正理想距离啊,和负离想距离,那 其实那个套不死他,他原理是说你不有五个煤矿吗?对吧?啊?我们刚刚来这里五个煤矿,那么五个煤矿呢?他就每有三个指标,分别都有三个指标,那么三个指标他就先假想一个最糟糕的, 就是各个指标上都最糟糕的,那就是最差的一种方案,这是原理上,他假想一个最差的,什么叫最差的?现在这个指什么?越大越小越好,那就这个泥,这个泥,这个泥,三个都是泥,他是是不是就最差的? 但是他没有这种煤矿存在,他就加强了一个,一个更糟糕的一个煤矿啊,三个数字都是零啊,那还有一个是最好的一个煤矿,三个都是一啊,对,因为数字最大嘛,三个都是一, 事实上呢,那这个三个多月一呢,还是存在的,就这种矿物啊,对吧?啊?三个多月一都都存在的。那么每一个煤矿,五个煤矿分别离这个最优的这个啊, 假想的这个那个煤矿离那个最差的煤矿的距离越远,离最好 好的那个煤矿,就假想那个最好的煤矿距离越近,那么就说明这个煤矿会更优秀一点,那他这就是他的原理。那最终呢?是为了得到这一个叫什么东西啊?得到我们的这一个啊,相对结晶度,其实他就是用树叶公司算出来的,然后最终来判断,看见没? 最终你们发现没?这个评价对象五啊,其实就是指的是我们的煤矿五吗?啊?啊?然后呢?他的这个排序是第一名,就问他是最好的排序第一名,那最差的是这个评价对象二就煤矿二,这就是 pos 法的他的一个原理啊,当然还有一些中间计算过程值, 包括负离想点,对吧?啊?嗯,刚刚看见正理想点就是那个最优的那个煤矿,他假设出来的,就假想出来的一个,然后呢?负离先点,零零零, 这个负离乡点啊,是在在你现实的中午后门框中,没有一个是最差的啊,三个指标都最差,没有这样的一个煤矿,他假想的。那这个镇尼小点呢?他也是一个假想的,但是呢,刚刚看见了我们五个煤矿中煤矿五,他就是这种情况,三个都是最优的,所以说他最终是最好的一种情况嘛。啊, 这是我们的这个啊,托斯法,那么托斯斯法里边啊,他还有一个这个 hps 系统,一个叫做指标权重啊,一个指标权重的一个啊,这个输入款,那么这个指标权重是干什么呢?我看一下这个包装手册啊,点这个灯泡按钮, 找到这个他的简描述啊,或者搜索一下也可以。全中参数是什么意思?他的这个全中参数啊,其实是啊,涉及到这个数学计算的时候,这个 公式计算的时候啊,他呈上的一个群众,你比如说他觉得说我们有三个指标这个,比如说这个啊,比如说他会觉得,就你会觉得啊,或者是说文献里面会觉得说啊,我们的这个肺病 患病率也是最重要更重要一点的一个指标啊,那他的权重会更高一点啊,或者说这个权重跟第一点不那么重要。确确实呢,他也考虑进去,他的 就是重要性不那么低一点啊,不,不那么高,那么这个时候就有权重权重的设置啊,你在这里设置,比如说你是一个这个权重,是啊,百分之二十吧,啊?这个是百分之啊,四十啊,不,三十吧,啊?下面这个什么啊?肺病患病率是最重要的, 我十,对吧?二三五没有关系啊,你输个零点二也行,零点二、零点三,零点五都可以,他要注规划的啊,系统会自动注一个规划处理,就是零点五啊,零点三, 然后这个零点二,然后再把你计算,相当于说你在计算这个啊, top 手法的时候呢, 他已经把这个群众考虑进去了,就这指标的群众考虑进去了再出来,结果肯定是不一样的哈。啊,这个数字结果是不一样的,他不是说这排名排序结果有可能是一样的,像这种数字结果,比如说这零点八六, 这是不一样的啊,因为他从原理上他就不那个考,一个是考虑的权重,一个是不考虑权重,因为呢,我们这个托斯法里边啊,还有一种权重的考虑 名叫做商权托普斯法,商权托普斯法,那么商权托普斯法呢?是指的是说商执法,也叫商权法,他先注了一个计算的一个权重,然后呢权重乘以原始数据啊,记得他是乘以原始数据, 分别去乘以原始数据之后再做这个脱模式法,那么这个就叫做商全套式法啊。那么这个功能呢?在这个 sps 由系统里面啊,单独就有这样的一个分析方法啊,单独就是这样的,你比如说你把这三个放进去啊, 放进去他也会帮你上下,他先帮你把这个三个法,不是要上去权重吗?这不三个啊,指标分别有权重啊,这个权重来分别去乘以你的那个原始的数据,那原始的数据其实就是这三个分别去乘以这个数据,得到了一个新数 数据,新数据再来做一次 pos 法啊,然后就得到呃,那个最终的结果也是这样的一个结果,结果 啊,有有兴趣的这个啊同学呢,他你自己可以去研究一下,你在 excel 里边把你的原始数据分别去乘上这个词,分别去乘上飞的这 这样的一个纸啊,那么得到一个新数据,再来做一次透示法,他就叫做我们的这个商学透示法啊,这是我们的这一个这一次的内容啊, 这两个权重是不太一样的啊,一个是这个 top 是法里面那个参数权重,他是指的是计算公式里面会把那个权重改掉。另外商权托普斯法呢,是指的是商执法先得到一个权重值,然后呢再乘以原始数据,他比 他们是在计算公式上乘以一个选择,而是乘以元首数据,然后呢再来计算这个头十法啊,这是这一次的内容, 更多的一些内容啊,如果说还是不太理解或者怎么样的啊,那你可以查看像这种帮手册啊,这里面会有更多的包括这个例子啊,说明啊,这些都在这里面哈, 这是我们的一个啊内容,谢谢大家。

商权 tops 分析看这个就够了,第一步,数据标准化处理。第二步,选择分析方法,商权 tops 分析。第三步,拖拽样本查看结果,各种分析图表一应俱全,还可以复制图表并支持多格式导出,你学会了吗?如有其他疑问,请在评论区告诉我。

在上一讲里讲了数据的标准化,也知道数据标准化之后,能够给你减少很多你未知的分析陷阱。 那在这一奖励开始正式进入数据的分析。那数据分析最简单的一步就是描述性统计,求得数据的平均值、标准差、方差、中位数、正数、偏度、风度等等。 然后另外呢,也借此机会计算一下数据的 pp 和 ppk。 那还是回归到这个数据表上来。你现在看到的这个数据是上一次做标准化之后的数据,这一次 只对骑行时间进行分析。如果想得到描述性的统计结果,你只需要单击数据,在数据分析选项卡下找到描述统计 点,确定。在弹出的对话框中输入区域,输入骑行时间,朱列数据 标志位于第一行,就是在第一行里有骑行时间这个标签。输出区域咱选择任何地方。在这里我们把结果放置于这个单元格中,点会 统计点确定。这时骑行时间相关的统计都出来了。比如说这里边的平均值是三十四点二九二幺幺。你可以把这个纸记录下来,后续可能要用 标准差是七点四七一八四六方差等等,这些值全部都有了。那么你得了这些值之后,你能够迅速的计算出 pp 和 ppk 是多少。 那我们计算 pp 的时候,其实就是弓插带除上六倍的标准差。那他的弓插带是多少呢?这里 咱假定他的供发带是三十五正负三,那就是三十八减掉三十二,他就等于 三十八减掉三十二。这个是他的公插袋。然后除上 六倍的标准差六乘上标准差。在这里七十七点四七一八。这个指点确定,那这时你就能得到 计算出来的 pp 值是零点一三三八三六。当然你要想保留更多的小数或者是更少的小数的话,你可 可以在这里进行操作。比如这里就是零点一三四,是他的 pp, 那 pp 开呢?是取两个的最小值。哪两个呢?一个叫 ppu, 一个叫 ppl。 ppu 和 ppl 其实就是把流程能力指标分成了两两块,一块是上攻查线的,一块是下攻查线的。 来看一下上攻差线就是他的上攻差线值。减掉均值这里,上攻差线是三十八。减掉均值,在平均值这里,然后储上三倍的标准差。三乘 标准差,咱这里要留意啊,得到是零点一六,那 ppl 等于多少呢?均值减掉下攻差,下攻差就是三十二, 然后再除上一个三倍的标准差。 这些基础知识可以去相关的网站上或者是教材上去查一下,在这里就不详细说明了。 而 ppk 是他们两个之间的较小的那一个,所以就等于零点一零二二五。也取三位小三位有效数字的话,那么他最终的结果是零点一零二。 用数据的描述性指标去描述过程,是数据分析中的基础中的基础。那 你不仅仅可以用这些指标进行描述,你也可以用图形来进行描述。而常用的图形有相形图,有直方图,有折线图。那这里我们来看一下如何制作直方图。 直接选中骑行时间,在插入菜单下的图表选项卡中, 直接选中直方图,那这样就可以制作出来一个直方图,通过直方图以及描述性的统一量,你可以快速的了解过程的概况。好,这一讲,我们就讲。


咱们讲了,归一化是把数据处理到零和一的范围内,那么标准化呢?是把数据处理到零值的附近,我们请看例子分析。 第二看,我们看标准化,标准化和规划不一样啊,那么标准化的话,他把数据变得不是零到一的范围,而是零值的附近,哎,都在零的附近,就在,那么从起核空间上来看,全在原点的附近,他的转化函数是这样的, 哎,主要好像这里面这个没有是均值的意思啊,就是每一列的均值,这个特征一是吧,哎,这一列的这一列的数相加除以五是吧?他的均值这个是标准差 啊,打他标准差,这他的计算方法标准发什么我们就不再多说了,这是数学里面的差,要知道了啊,不知道也没关系,他指的是数据之那个差异性差异,这一类的数据差异越大,标准差越大,如果没有差异就全是同一个值,标准差就是零啊。好, ok, 我们用这个公式来算呢,算完之后这个均值是吧? 用 x 减去均值,这一列的均值我们求出来啊,假设求出来了,哎,这一列的这五个值的标准差我也求出来了,带进去就可以了。得到这么一个结果,你会发现还是一样的道理啊,你会发现这个特征一和特征二的这个标准化之后的数据啊,都在零的附近是吧? 哎,离零都不是很远,离零都不是很远,而且你会发现他俩也是一模一样的,所以说在积极学习这个领域来看的话,他俩的产值依然是没有差异性的好。

数据标准化又叫数据皈依化。理论层面上,神经网络是以样本在事件中的统计分布概率为基础进行训练和预测的,所以他对样本数据的要求比较苛刻。 样本的各个特征取值要符合概率分布,样本的度量单位要相同。我们并没有办法比较一米和一公斤的区别, 但如果我们知道一米在整个样本中的大小比例是零点二的位置,而一公斤在整个样本中的大小比例是零点三的位置,那我们就可以说一米比一公斤要小。神经网络假设所有的输入输出数据都是标准差为一,均值为零,标准化还可以避免一些不必要的数值问题。 若输出层的数量级很大,会引起损失函数的数量级很大,这样做反向传播时 t 度就会很大,这时会给 t 度的更新带来数值问题。 如果梯度非常大,学习率就必须非常小。因此,学习率的选择需要参考输入的范围,不如直接将数据标准化,这样学习率就不必再根据数据范围做调整了。

如何生成变量?点击数据处理中的生成变量功能,选择合适的数据清理方式即可,一键得到目标数据。以标准化为例,你学会了吗?如有其他疑问,请在评论区告诉我。

topics 评价计算结果怎么看上表格中低加和低分别表示评价对象与正负理想解的距离。西表示评价对象与最优方案的接近程度,该值越大说明越接近最优方案。得到锡纸后可针对锡纸进行排序,得到排序结果,你学会了吗?如有其他疑问,请在评论区告诉我。

那么朋友们,我们来看一下这个 mini max 标准化, mini max 呢?标准化呢,是通过对数据呢进行一个就是这个解析,那么使我们的数据呢,都在一个层次上, 都在一个层次,因为我们数据刚开始如果做图或者做表做图的话,那么有的数据呢,他以千为单位,万为单位,有的数据呢,以百分比为单位,他没有办法在一个表在一个图里面显示 啊,那么我们如果有一个表的话,我们可以对它进行一个标准化,那么我们现在呢,先看一下 mini max 的,呃,这种方法,那么 mini max 是什么呢?是通过对于我们的这个要变化的这个数据呢?减去它这个最小值,那么再比上一个什么呢?比上 一个它这一列数据的最大值和最小值的这个差,也就是说我一般来说是我们叫做总距啊,那么具体在 excel 里头呢,我们可以这样做啊,通过这个数据呢,减什么呢?减它的这个,呃,这个最小值, 检查这个最小值,那么这个没完啊,没完啊,然后呢再比, 注意这个要打括号啊,不打括号他成中间两个了,呃,直接相比了啊,要打括号是他们的结果相比,那么第二个呢?也是我先把打括号打算算了,是他的这个什么呢? max max 的这个数值, max 数值 速度加这个数字,减什么呢?减 mini, 把这个数据呢?那么比上一个什么呢?比上一个 max, 我们最后再加括号啊,减什么呢? max 这个数值,这个数值再减去 mini, 就这个数值,再回车,再回车。那么这个数据呢,是不对的啊,我们先把它回车完,让数据保留下来,现在我们给大家再加个括号,再加个括号,再加个括号, 那么第一 这个呢就就这个计算完了啊,因为刚好七六六三的本身就是他的最大值减最小值,然后呢这底下又比一个最大值减最小值,那么所以这个第一个呢是等于一, 那么现在呢,我想什么呢?我想脱液啊,我想向下脱液,嗯,换我们一看啊,这个就错了,因为我随着我们脱液的他这个底下参数呢都在变化啊, b 三变 b 二变 b 三,我们是希望,但是我们底下有红色部分不要变, 那么这块怎么办呢?我们给他什么呢?给他加一个,呃,这这个绝对引用,但是呢一定要注意,我们现在给他向下加结的引用,但是向横的我们不希望加绝对引用, 所以呢我们一会横着拖的时候呢,我们光在字母这个数字前面加美颜符号啊,字母前头不要加,一会我们还得横着 唾液,不然你就得输两遍啊,输三遍,针对这个数字的话就输三遍,我们可以现在横着唾液,现在横着唾液啊,你看发现横着唾液呢,它也对啊,横着唾液的时候它这个数字跟着变了, c 二减什么 mini, 然后 max 加 mini, 然后这个是 d 二 啊,减这个数字就对了。那么现在呢,我们再给他往下整体拖延,那么这个时候呢,我们需要保留一下数字啊,不需要这么多小数位,一般来说呢,我们保留两位就行了啊, 问了两问题了,那么这个呢?呃题呢,就算我们计算做完了,就是对一个数字呢进行了一个标准化。

大家好,我是君磊,今天呢,咱们来讲几种比较常见的数据转换的方式啊,标准化啊,中心化和皈依化 啊,就是我们在做模型的时候啊,对于那种亮缸不统一的数据啊,需要做一件转换才能进行啊,模型构建,当然大多数的时候啊,就是那个我们用的工具啊,比如说 spss 啊, amos, mplus 都可以那个, 呃,自动化的给我们处理啊,但是呢,我们也要了解啊,这几种啊,标准化啊,中心化啊,归一化,他们的区别哈,因为有个同学跟我咨询的时候老是混淆哈, 好,我们先来看这三种转换的公式哈,那我们先来看这个标准化,标准化呢,它的本质啊,是将这个数据转换成啊,均值为零,标准差为 唯一的啊,这样一个数据啊,当然他是不会破坏这个数据的分布的啊,那么 转换的时候啊,就是那个 x 啊,减去这个这一列的这个变量的这个均值,再除以这个变量的这个变数差就可以了。 那我们在做回归分析的时候,哎,包括我们做结构方程那里面那个标准化的系数啊,都是与这个标准化处理有关的啊,我们可以自己等会测试一下啊,就是我们如果对数据进行了标准化啊,比如求一个 zsgar 啊, 然后再去跑回归那个非标准化系数,是等于那个标准化系数的啊,好,这个是标准化,我们再看中心化啊,中心化呢,他是将这个数据啊,按照他的均值进行平移啊,比如这一列的数据同时减, 减去一,同时减去二,那么他就会平移吗?对吧?那么这时候呢,如果减去均值啊,减去他的直接的均值就叫中心化,那么中心化呢?一般是我们是用在这个交互线的构建上才去使用这个中心化啊,平时的时候一般用的不多啊。 好,我们再来看这个规划,规划又叫最大最小规划啊,他是什么意思呢?他是将我们这个数据啊放缩到零和一之间啊,不论你的数据多大或者是多小 啊,这个极差,那么他都可以将这个数据放缩到一个,呃,零到一之间啊,所以它的公式呢就是,嗯,当前的这个 x 啊,减去啊这一列这个变量的最小值啊,然后除以他们的极差,也就是最大值,最小值之差, 那么这个变量呢,它的最大值就是一吗?对吧?如果这个地方是最大值,那么这个地方就是一,如果这里最小值,这里就是零,所以呢,规划之后的数据就在零和一之间啊,零和一之间。 好,我们接着一个数据来将这三种转换来做一下啊,这个最简单的呢,就是这个标准化,我们在做这个瞄准统计的时候啊, 描述啊,分析描述,统计描述,他左下角有一个啊,将标准化得分另存为变量,也就是计算一个 z s go 啊,就是他的标准化得分啊。好,我们把这三个面拖进来,然后在这把这勾上 点击确定,就会发现后面多了一个,多了三个变量,这个呢就是他们的一个标准化得分啊,标准化得分。好,那这时候呢,我们在做这个中心化和皈依化啊, 首先需要把这一列的他们三个这一列的这个均值啊,最小值,最大值啊,给他求出来,所以呢,我们就点击转换啊,转换里面有啊,不对,不对啊,数据,数据里面有个汇总啊,汇总啊,好,我们把这三个啊 拖进来,然后这是均值,然后我们这再把这三个选中,再拖进来,我们选一个函数最小值啊,然后我们再把这三个拖进来, 选择函数,哎,选中之后再选择函数啊,最大值,好,嗯,这时候啊,就会把这三个变量的均值最小值,最大值求出来啊, 好,就是在后面了,其实这一类的值都是一样的啊,都是一样的,好,有了这个最大值,最小值,均值之后我们就可以进 行呃,这个变量计算了哈,我们首先把中心化计算一下啊,点击转换,转换里面有个计算通知一下哈啊,比如说中心化, 中心化点赞就等于点赞减去点赞均值,对吧?就中心化, 然后我们再点这个收藏 收藏, 然后就是这个 啊,浏览量可以直接这样点过来啊, 中心化浏览量,好,刚才好像有个地方,这个地方这个地方错了啊, 改一下文化收藏, 看啊,这三个变量就是那个中心化,好,把这个去掉啊,好,下面呢我们再做一下这个皈依化啊,然后点击计算变量 规划的收藏,点赞吧,规划呢,就是他是呃,点赞减去他的最小值,然后除以 点赞的最大值,减去点赞的最小值,就这样,对吧?这规划的点赞,然后我们规划的收藏, 嗯,复制一下吧。 好,规划收藏,然后呢我们再做一下规划的浏览, 好啊,这样呢,后面就有了这几个变量了啊,中心化点赞,周心化收藏,把周心化收藏放在这边吧。 好,中心化点赞,中心化收藏,中心化浏览啊,规划点赞,规划收藏、规划浏览,再加上前面这个 z score 的这个,对吧?就是标准化的。好,我们现在呢,我们可以分析一下它的免税统计啊,把这个勾掉, 然后这三个是那个原始的,我们再把 disco 放进来,然后再把中心化归一化的这几个变量放进来,我们看一下他的这个,呃,最大最小值均值变差。好,我们来看一下这三个变量在经历了不 不同的转换之后,他们的瞄准统计,我们这里稍微放大一下啊,放大,放大, 我们来看一下这三个变量,我们可以看到啊,他们的最小值和最大的值以及均值和变量差都是差的很大啊,说明他们的量缸是不同的啊,但是经历过了标准化处理之后,他们的均值和变量差都变成了零和一,对吧, 而这最大值最小值都放送到了这个,呃,零附近啊,基本上是一点几和二点几啊,这样之间啊, 然后中心化的中心化是这样,他们因为他们都是平移着自己的均值,所以他们均值都是零,因,因为平移了均值,所以他们的那个差值浮动没有变化,所以呢,标准差是跟原来是 一样的啊,一样的,但是呢,那个这个均值和最大值最小值是发生了变化,因为他平移了吗?基本都是原来的这个值减去了这个均值的,就是他的最大值和最小值这样一个变化啊,比如说我原来最小值是三,那三减去这个啊,就是他这个最小值的这个值,对吧? 好,我们再来看皈依化,皈依化很明显他最大值最小值变成了一和零啊,最小值是零,大值是一, 都是这样的啊,啊,这就是他的一个呃,比较好的一个特点啊,就是当我们在对一些呃亮缸不同的变量进行加减的时候啊,用规划是比较方便的啊,比较方便的。 好好,我们再来看一下这几个变量这相关性有没有发生变化, 做一下这个相关啊,我们先做一下原始的啊,原始的对吧?零点零点四五五,零点八八七,零点八零三啊,大家可以猜一下会不会发生变化, 会不会不会那个相关系数发生变化啊?我看啊是不是没有变化,对吧?那中心化呢? 中心化也是没有变化的啊,对吧?包括我们啊,包括我们去做回归啊,进行这样转换之后他们的回归的系数啊。 啊,当然不是说非标准化系数啊,标准化系数是不会发生变化的。好,我们再来刨几个回归给大家看一下啊,就比如说我们现在做一个回归啊,我们是以这个浏览量为音变量,以点赞 和收藏为啊自变量啊,这样做一回归,那这样是原始的啊,没有经过任何转换之后的这样一个回归啊, 看着啊,这标准化系数是零点六、零点五,这飞镖是四和一百啊,如果他们原始数据这亮杠不统一啊,对吧?他们是无法进行啊,通过非标准化系数进行比较的,只能是通过标准化系数进行比较,对吧?这个以前也讲过啊, 好,我们再换一个,把它换成这个 z 分数啊, 我们可以看到啊,这个 z 分数之后啊,这个标准化系数的这样一个。呃,啊,非标准化系数和标准化系数是一样的啊,我们就可以知道啊,就是他这个标准化系数计算背后是先经过了一层呃,标准化处理的,对吧?好,我们再来看这 这个再换一个,换中心化,中心化他这个也是一样,他们的边缘化系数不会是不会变化啊,对吧?只有这个非边缘化系数是变化的。 好,我们再来换换最后一个规划,规划也是一样的啊,他们的飞标上系数会发生变化,但是标准化系数是还是这样,六五六零点五七,对吧,对吧?好, 好,我们讲几个,就是编程化处理的一个技巧啊。呃,比如说编程化处理是可以编程化的,系数是可以比较大小的,这个我们已经知道了哈。啊,第二就是我们中介效应啊,啊,如果过小虽然显著,但是很小, 那这个时候呢,你就可以去看一下你是用的这个呃标准化的系数形成的这个中介效应还是非 非标准化的这个中介效应啊?如果是你是用的非标准化的啊,就可以先求 zsgo 在做啊,那么这时候出来的效应就是标准化的效应啊,当然我们那用那个 prad 三点四和 prc 的四点零啊,他会给你产出一个标准化的中介效应,那个也可以哈。 好,呃,我们再看啊,如果是调节线,交互项系数过小,但是显著啊,就如果是你的交互项系数虽然显著,比如说你交互项成是成立的啊,条线成立,但是你的交互项系数过小,这十有八九是你用了 非标准化系数啊,这时候呢建议你先求 zsgar 再进行标准化啊系数啊啊,这样他那个系数就会用标准化系数,那这时候就会比原来的时候稍微大一点啊,这样呢就会不会导 是这个啊,斜率图啊,不明显啊啊,就会使那个趋势更明显一点,更明显一点,这是一个技巧啊,大家可以试一下啊 啊关于这中心化的啊,就是只讲这一点啊,就是那个我们一般啊是在构建交互项的时候啊,才使用中心化啊,或者叫去中心化,所以我们在论文当中就会看到啊,我们在构建交互项时,对吧,对谁和谁啊进行中心化处理。那这个中心化呢,在我们的这个 s p s s 的跑赛的这个程程序里面啊,程序里面在这个设置里面就是勾这个啊, mean center 啊,这个就是啊,去中心化啊去中心化。 好我们再来看这个皈依话啊,皈依话呢就一般呢,我们是刚才我也 说了一般就是我们在对亮缸不统一的这样一些指标进行加减操作的时候啊,会对它进行标准化完规划处理啊,比如说啊,毕业的顺利度等于零点一乘以投币次数, 零点一乘以点赞次数啊,加上零点一乘以收藏次数,加上零点七乘以投入度,那这样一个公式, 他这里的投币次数、点赞次数、收藏次数和投入度他是不能够直接相乘呃形成这样一个毕业顺利度的对吧? 那那需要先对这个投币次数、点赞次数和收藏次数进行归一化啊,然后再乘以一个零点一一啊,同样的这个投入度也需要归一化,对吧?然后先乘以他的权重再相加啊?就比如我们这里啊,这个数据,对吧?像, 嗯,就这个数据啊,像这个地方规划后面这这三列,如果我们通过这三列形成一个变量,我们就可以通过,呃,转换啊计算,比如这个就叫什么 b 站,哎,哦, no, b 站投入度,对吧?就可以用一个什么零点三乘以 乘以这个加上零点四乘以收藏, 再加上零点三乘以浏览量。好,那这样呢?他就可以形成一个投入度,对吧?就随便找 指标,那这个指标,我们看这个指标他也是在零到一之间的啊,我们可以,我们可以对其进行秒数统计一下。 嗯,这个值也是在零到一之间的,因为这三个值的亮光是统一的,所以他们呃,乘以要权重下降的时候,他的这个值啊也是在零到一之间的,对吧? 好,那我们今天的视频就到这里了,我们下期再见。