粉丝1229获赞4862



各位小伙伴们大家好呀,我是想看雪的光,今天这期视频呢,是很多小伙伴想让我呃,就是更新的一期视频, 我最近也在查了相关的一个资料,然后也去看文献,然后看了很多视频,但是呢很多视频他讲的比较的一个复杂,然后我自自己也进行了一个梳理,然后想让这种 pca 图,然后更加通俗易懂,然后分享给大家 啊,左边呢,它这个图是它的一个 p c a 图的一个得分图,呃,这种得分图是怎么绘制呢?我们在之前的一个 一期视频当中也进行,呃,说明了,大家可以参考那期视频。然后首先呢,它是用 orange 进行一个绘制出来的嘛,然后我们 今天就不进行操作了,然后首先的话我们要看他,我这里有五组数据啊,不是七组 a, 这里有七组。然后我进行 pc 进行绘制,出来之后他出现了好几个图,一个是碎石图,一个是 啊在在贺图,一个得分图,一个整体的一个图。然后的话我们先看一下下面的 啊,那么什么是得分图呢?他是让门店在新坐标下的一个坐标,比如说这个啊,这个对应下来他是一点多,一点六,一点七, 就是这样看的一个坐标。然后那么特点呢,距离越近的一个样本间,他的一个相似度越高,由于我这个啊可能不太好说,比说 他这几个,其实他差相似度相差挺大的,也说明他们有很大的一个显著性。 我们再看一下前面的这个张图,比如说我们把这个黑色弄成一,然后这个红色是二,然后这个蓝色是三,他一和二他具有显著性的,然后一和三也是具有显著性的,但是二和三他是相似度很高的,但是他没有显著性, 就是这样一个特征点。然后第二个呢?呃,所有样本点在某个坐标轴组成份上的一个方差,等于组成该组成份对应的一个特征值 啊,就是比如说他这里他对应下来的一个特征值,就是这个 p c 一,他是,嗯,百分之七以上,然后这个是组成份方差,他是 是啊,百分之二十二点九,那这边他也是直接看他这个值的。另外呢,方差由大到小排序方差最大的,他是组成分 p c 一,然后以此类推,然后第二大的是 p c 二嘛,就是也是以此类推的。 然后我们看一下我们啊做,因为我刚刚也说了,我这个是有七个, 有七个组成分,然后我们该选择几个呢?一般的话我们是选择两个组成分,我们可以看他的一个碎石图,这碎石图出来之后 啊,我们可以看得到,一般比较大,我们选择的 p c 一, p c 二,就是这两个,然后它对应的一个翻差是多少呢?我们在这里它会给我们计算出来, 这个是百分之六四点一三啊,这个是百分之二十九点二四,一般的话我们就选择这两种就可以了。然后啊,因为我们在看我们线的时候,他最常见的是二尾的一个得分图嘛, 然后,嗯,如果你想计算一下某组成分的一个贡献率呢?他是用该组成分的方差除以所有组成分方差之和的。他这里的话也帮我们计算出来了,比如上面的话,他是啊,百分之六十四点一三,第一个组成分 p c 一, 然后如果你要算它的一个 p c 一跟 p c 二它之间的一个方差,它会这里是累加出来,呃,百分之九十三点三八,就是这样的,算它的一个某种成分的一个贡献率。然后那么什么是 债赫图?债赫图呢?他是主成分,是所有连锁变量的一个线性组合,债赫他是线性组合的一个系数,那么他的性质呢?在债赫图中,他越靠近的变量间正相关的一个系数越强。 然后 pca 中它通常采用的是皮尔性相关性。皮尔性相关性我之前用 spas 进行一个操作了,大家如果想用 spas 进行计算它的一个皮尔性的相关性也可以进行操作的。 这里怎么看他一个相关性?比如说我这里回复性、内具性、弹性,他们两,他们三个啊,就是差的很很小,然后几乎连在一起的,也说明他们一个相关性正相关性的一个系数很强, 估计已经达到一左右了吧,因为他们都快连在一起了。然后的话,你也可以看出来,比如跟他这些差的都很蛮大的, 也可以说明了比容跟他们之间的一个啊,相关性差的很大,但是有可能是互相关哦。 另外啊,我们如何以文献的一个图为例进行解析它呢?首先它这个,呃,文献,它是 我之前啊用那个金堵纹线的一个图了,他这个是对面包的一个笔溶,然后硬度、弹性、内具性、咀嚼性和回弹性进行一个组成分分析。他是探讨啊,当时我们是递进嘛,以他这周 这个面包的一个品质之间的一个关系。然后首先我们在这张图中,它这张图是在后图吗?我们应该怎么看它的一个图呢?比如说这里 p c 一,它是九十二点三七,然后这个是 p c 二 五点五三,然后我们就可以看出来,它这两个组成分,它占的一个总分差是百分之九十七点九零嘛。其中啊 p c 它代表是九十二点三七的一个差异性 啊,不是差异性,是变异性,他的这种变异性呢,他是以硬度、咀嚼性、内具性、回复性啊,成正相关的。这是怎么看的呢?比如说他这个组成分对应的一个坐标轴,左边是他的一个负数,然后右边是他的一个正数, 然后在这边一个正向线中,他是跟他的一个变异性成嗯正相关关系的啊,以此类推,他这个比容,他是以他的一个变异性是成负相关关系的。另外呢,你也可以以啊 p c 二为 啊,它的一个变异性是五点五三,它这里呢,它是跟比绒、回复性、内具性、弹性、咀嚼性都是呈正相关的,它是与印度呈负相关的,这个基本上它是啊这样看出来的一个整体的图。 当然你也可以从这张图中可以看出来,我们刚刚也说了,他可能是以回复性、内具性、弹性成一个很强烈的一个正相关的一个关系啊。具体你要啊,如果要计算他一个相关信息数的话, 可能还要进行一个用 spa 进行处理,他一个相关性的一个系数才能说明问题。另外我们再看第二张图,第二张图呢,他是一个得分图,他这个得分图呢,其实也跟我们刚刚前面介绍的其实差不多的 相比相比在成分一中他的一个这三个蓝色的,蓝色、黑色、红色,他是在啊成分一中的一个负向线中,然后的话他这两个是啊正向线, 也可以说明了他的一个很好的一个问题。还有看他一个成分二,他这个是正正向线,这个负向线啊,我们在 我们之前处理的一个数据为说明问题,比如说他这里是得分图,你这里也处理的一个数据出来了,但是他没有说明的他的一个问题。然后我们换一下啊,这个 整体一个图吧,然后它这里也出来了对应的一个坐标,可以看出来它这个 p c 一,然后这个是 p c 二,然后比如说它这边 b 对应的是多少多少, i 对应的是多少多少,这种的一个得分图, 整体的一个内容基本就这么多了,他这个解析啊,从这组成分分析中也只能看得到这么些。 好的,今天的内容就这么多了,大家有什么问题可以在评论区进行一个回复,我看到也会进行一个解析,我们一起学习。好的,拜拜。

获得二零二一年 pc 专业咖啡拉花大师世界赛郑州分赛区获得冠军。特斯恭喜政府 一起用摩登机,因为他开了十八年。还要感谢十一秀的赞助的自动开放器。我要感谢重庆非常之有限公司赞助的仔细使用咖啡豆一体加一号。还要感谢比赛特约的服装战斗商欧基记啊。也特别感谢所有的 奖品赞助商首席感谢轰炸机,再次感谢最佳乐器 vip 锤子咖啡。 他最后一点点爱他的给我们比赛活动提供了大力的支持。那在这里我们继续回到比赛当中。 比赛的时间还剩下一分钟 三十秒, 照片好好看一下啊!

of white then you ask me。

大家好,我们今天看一下投影机后面的接口,我们做一个说明,投影机呢,我们可以把它理解为是一个显示器,它是一个纯显示设备, 我们从左往右开挨着看一下他的接口,首先音频输出,音频输入,音频从这里进去,从这里出来,音频从这里进去,也可以从这里出来,音频从高清一或高清二进去的时候,也可以从这里出来,他是一个总的音量输出 控制串口,这个是可以接到我们的中央控制系统或者是电脑的串口,装上一个 串口控制的一个软件,也可以控制他,可以控制他的开关机信号切换,所有按键或遥控器实现的功能,通过他都可以实现。 两个最常用的高清 hdmi 的信号输入,这个 usb 一般用不到,是用来刷机或者是升级程序用的,这个是我们俗称莲花头,是模拟的视频输入, 这两个是模拟的音频输入,这个是一个纯供电的一个 usb 接口,这个是网口,我们通过网线连接到这台投影机的时候,我们有一个 投影机品牌的一个控制软件,可以实时的看到这台投影机的状态,比如说灯泡时长,还有需不需要除尘。上面这个是 vga 的模拟的信号输入,这个是模拟的信号输出,我们把 电脑主机的信号给他,然后他可以再输出给下一台投影机,或者输出给显示器,这些都是比较常用的接口,也是标准的商教机的接口。



朋友们好,我是小简,今天分享一下 pca 主成分分析。 pca 是 论文里面最常见的也是最常用的一种非监督的分析方法,我们之前分享的方法都需要输入一个样本的特征矩阵,还有样本的标签, 也就是说要告诉模型哪些样本是健康的,哪些样本是疾病的,从而进行模型的训练。而非监督的分析方法呢,则只需要输入特征矩阵本身, 也就是根据数据本身进行特征的挖掘。假设我们现在有一组样本的金表达数据,或者说是蛋白质金代谢物的数据,但是我们并没有这些样本的标签。这个时候呢,我们就可以做一个 pc, 看一下哪些样本他们的相似度比较接近, 或者我们有了这些样本的标签,然后我们筛选出一些区分疾病或者健康的特征。我们也可以做一个 pc, 看一下根据这些特征能不能将疾病和健康这组两组给分开。 而 pc 的 原理呢,其实就是通过先行代数的方式,把海量的特征,比如说几万个基因的表达,在这几万个祖基因里面提取出几个主成分或者说是方向,在这些方向呢,每一个方向都能够 最大的保留这些特征,或者说是几万个金它们的信息,从而实现对高维数据的一个降维,然后一般都是选择第一个主成分或者第二个主成分进行格式化。 当然在有些论文里面也会画那种三维的 pca 的 图,那那个时候就是保留了第呃第三个主成分。好,我们接下来看一下 pca 的 原理。 pca 的 原理呢,第一步是中心化,假设我们现在有一个数据矩阵,而这个矩阵是 n 乘 p 列 n 就是 样本的个数, p 就是 特征,也就是基因嘛,基因的表达或者是蛋白质的表达,也可以理解为列。 第一步就是中心化,将每一个特征减去他们的均值,这样做呢,是为了减少偏移量,让数据以原点为中心,有利于计算每一个特征的方差。因为我们找这个主成分,也就是 最大可能的保留所有信息,就需要用到这个方差,公式就是 x 减去 x x 八, x 八是每个特征的均值向量。第二步呢,是计算斜方差矩阵, 就是计算样本之间每一个特征的之间的一个斜方差,从而判断特征之间的一个相关性。 假如我们现在有一万个特征,那我们这个斜方差矩阵,它其实就是个一万乘一万的一个矩阵,然后每一个方差 d i i 对 应的就是 d i 个特征,它的方差 d i j 就是 d i j 个特征之间的一个斜方差。 第三步呢,是对斜方特征值、斜方叉矩阵进行特征值分解,计算它们的特征向量和特征值。而每一个特征向量呢,就对应的是一个主成分的方向, 而一个每一个特征向量前对应的特征值,就是代表在这个特征方向上,也就是这个主成分方向上它的一个防差信息量,也就是它代表的信息量的大小。第四步呢,是选择主成分,现在我们有了主成分的方向,就是这个特征向量, 也有了这些特征向量对应的一个信息值的大小,也就是特征值,我们根据特征向量它的特征值进行大小排序, 选择前几个最大的特征值,比如说前 k 个吧, k 这个值我们可以人为的去挑选,构成一个新的投影机矩阵,也就是这样, k 呢,一般是选择十二、十、三十就可以了。第四步呢就是进行数据投影,我们现在构成了一个新的投影机矩阵,我们就要把我们原来的数据给它投影到这个矩阵上面, 公式就是这样,这个 z 呢就是降维后的数据,然后每一列就代表了一个主成分。 第六步呢就是计算这些主成分的方差解释率,其实到这一步了,主成分分析已经结束了,到第五步的时候已经结束了。而第六步呢,是告诉我们每个主成分它们的意义来从而而且可以帮助我们选择这个 k, 也就是我们要选择多少个主成分。方差解释率具体是怎么理解呢?比如 pca 一 就是第一个主成分,它的方差解释率是八十,那么就可以粗浅的理为这个 pca 一 啊,已经能够解释原矩阵的百分之八十的信息。 而累积解释率呢,可以帮助我们选择这个 k 的 值,也就是取多少主成分。这个就是说,比如 p c e 一, 它可以解释八十, p c e 二,它可以解释五,那么到 p c e 二的时候,它的累积解释率已经到了八十五,就是它只是做一个累加, 在实际应用中呢,我们通常取累积解释率到八十五到九十五之间的 k 值。然后第七步呢,其实就是说在用计算机处理 pc 的 时候,通常使用这个七值分解 svd, 就是 当特征值远大于样本书,这很常见,因为你样本最多是个几百个嘛,但是基因可以有几千几万个 svd 去计算,比特征值分解要快得多。 好, pc 的 原理就到这里了,然后在代码实现呢?其实 pc 做的人,做过的人肯定很多,其实就是一步嘛,主要是看一下几个图。第一个就是方差解释率,比如这个 pc 一, 它的解释度就快接近零点八,到二的时候就接近零点一,那这个时候的方差,呃,累积的,哦,不对,累积的解释率就到了零点八五。看 方差解释率就是累积解释率,就是把每一个 pc 它对应的方差解释率给它加起来,所以这两个图是呃,差不多的。然后 这个图就是格式化嘛,选择第一个主成分和第二主成分后面对应的是它们的方差解释率, 进行一个将为格式化。在这里我的这个疾病组和健康组,用药组和分药组,他们分的还是比较开的。我们进入代码实现吧,欢迎来到代码实现。正如我所说, pc 是 一种非监督的方法,所以说我们输的矩阵,它并不需要有样本的信息标签。 看我们的 x 矩阵,它每一行是一个样本,每一列是金的特征,也就是金的表达。然后我们只需要一步就可以做出 pc, 然后计算它们的方差指数率和累计方差,进行可识化。 然后这个图呢,就是每一个主成分它对应的方差解释率嘛,一般来说都是第一个主成分最高,然后第二,然后逐渐的减少,因为是从高到小,从大到小排序的嘛看,其实到第二个、第三个的时候, 它们的累积解释率已经可以解释完整的矩阵了。然后这个是方差解释率的图,看到第三第四个其实就够用了。 然后呢,因为我们平时正常使用的话,一般都是带标签去进行一个分类的,看一下特征的分类效果。所以说这里我也做了 pca 的 可识画的图, 合并它们,选择第一个 pca 一 和 pca 二的组成分解式。 看我们输入的这个矩阵啊,这些当然都没用了,主要还是用 pc 一 和 pc 二,然后是样本的名字,然后有样本的这个标签。我们绘图的时候, pc 一 x 轴是 pc 一, y 轴是 pc 二,颜色是根据他们的 group 分 组,然后这里还加了一个呃 label, 应该是好, 这就是正常我们说的降维 pc 的 图,因为 pc 不 止可以用来呃无间谍的学习,通常还是用来口头话嘛。然后今天视频就到这里。