想看三个标志物联合起来的诊断效果,别把三个 r、 o、 c 曲线简单叠加,要用逻辑回归 logistic regression 建立一个联合模型,算出预测概率,再用这个概率画 r、 o、 c。 通常联合模型的 a、 u、 c 会比单个标志物高很多,这叫组合权,是提高诊断准确率的标准做法。
粉丝244获赞1398

今天教大家用这个麦卡来制作 oc 曲线,那么我已经把数据准备好了,分为是指标 a 和指标 b, 指标 a 和指标 b 在我这里是通过实验测出来的数据, 这个第三列的是主别主别,我分为零和一,其中零表示正常组,一表示疾病组, 所以我们先要把数据像我这样准备好, 格式不要错了,要分成几列。 就是要注意的是分组作为 单独的一列,最好用零和一表示,而不要用其他一或二表示。我们现在开始分析,点击这里看到下面有个 oc 曲线, 然后点第一个 oc 曲线分析, 然后在变量这里选入我们想要分析的指标,比如我们先看一下指标 a, 这里选入分组的情况,下面有个蓝色字体,这里点开, 他默认就是零和一,所以我们刚才建议是要用零和一,他这里也说了,一表示阳性 的或者异常的、病例的,零的是阴性的,健康的或者正常的,我们点击 ok, 默认,其他的选项也是默认,就可以点击 ok, 这样他的结果就出来了,分为两个框,一个框是具体的数据,一个框是图片的展示。 我们先来看一下这个详细的数据,这里可以看到他的 auc 是零点六八一, 然后这也是他的百分之九十五自信区间,他的批值 是小于零点零零零一的, 这个是他的最佳的一个预知, 然后这个最佳的玉值对应的灵敏度是百分之六十五点八二,特异度是百分之六十五点四三,我们最常用的就这几个数字, 然后我们再看一下图片, 这个指标 a 这里可以,我们可以删掉, 有这些横坐标、重坐标,他都是给出了默认的注意在这里,因为他的横坐标 是二十、四十、六十到一百这样的,有的文章他是用零点二、零点四表示, 所以我们这里也是一百减,这个退一度 建议要加个单位,也就是百分号,同样这里也加个百分号, 这样子就会更加严谨一点,因为比如二十,这里有个单位表示百分之二十, 如果这里是零点二、零点四,那这里就应该是改成一减退一度, 有这些数字的格式都是可以改变的,我们双击一下, 这些都是可以改的。如果想改变字体的大小,不用双击,单击一下就选中他,然后这里可以选择,字体的大小就会变了,不要加粗也行, 这里也是可以改的,这里可以进行修改内容, 比如我想加上 灵敏度、特异度, 他这里就会展示出来,当然我这里就不加了。 然后这个 蓝色线条跟红色线条的格式也是可以改的,双击他有改成这种蓝色, 要不要那么粗,你看就会改了。同样的操作,点击红色的, 比如换一种颜色,把它弄粗一点,这样就可以了。 我们可以在这里输出图片,这里有好几种格式,可以选 tf、 f 或者 jpg, 或者是其他的格式, 这里我就不示范了,这些操作都是非常简单的, 那么我们再回到这里,那么如果我想把两个指标在同一个图片里面, 就是把这两个指标放在一张 oc 曲线的图片里面,怎么做呢? 我们还是选中这里,然后倒数第二个有个凹凸曲线的比较, 我们这里可以同时选用多个指标,把指标 ab 都选进来,这里同样是把分组的情况选进来,点击 ok, 这样就会出现两个指标的哦,是曲线的,而且 这里数据可以看到,指标 a 的 auc 是零点六八一,指标 b 的 auc 是零点六零九。那么显然从图片也可以看得出来,蓝色的是指标 a 的, 他的曲线下面积要比指标低的要更好一点。 具体的这些修图我就不一一介绍了,刚才已经讲过了。还有一种情况就是我要把指标 a 和指标 b 合并结合成一个新的指标,作为预测的一个指标。怎么做呢? 我们先在 这里选择 logistic 回归分析, 这里还是选用分 分组的一个情况,那这里选入指标 a, 指标 b, 这些也是可以选择默认的就可以了。点击 ok, 我们直接拉到最后面,可以看到把这两个指标合并成一个新的预测指标之后,他的 auc 稍微提高了一点点,是零点六九五, 这是他的百分之九十五之间区间。然后我们点一下这个左边的蓝色字体保存, 这里可以重新命名, 你看这里就会自动生成新的一列,就是一个新的预测指标,这个新的预测指标是综合了 a 和 b 的 形成的一个新的预测指标,如果你只是想单独展示这个新的, 那就直接在这里选入就可以了。如果我想把 a 和 b 还有新结合的这个新的指标三个放在一起, 那还是用刚才这种方法,用 comprove, 是这里 选用指标 a, 指标 b, 还有这个两者结合的指标 i'm okay, 这样子他就是有三条曲线,包括指标 a 的、指标 b 的,还有两者结合的。当然 其中的细节我就不一一再重复说了。好,今天的视频到此为止。

已经经过临床检验确诊他已经是患了某种疾病,那么你选取了某些数据,然后呢?你通过这些数据的检测啊,分析啊,你就可以得出来 这个这个指标对这个疾病诊断的意义和价值。那么当以后类似的患者,他的某个指标达到了一定的值的时候,那么他就很有可能患这种疾病 啊。所以我们这个状态变量,也就是我们在我们今天的这个示范的数据里面损伤情况,他就是要么损伤了,要么没损伤,那么隐身到你们的研究里面,就是 他要么患了某种疾病,要么没有患某种疾病,是不是好损伤情况就是状态变量,然后状态变量的值就是我们以一为参考哈,就是 发生了器械性损伤的患者,就是一嘛,我们刚才这里对这个就是一,对不对? 然后我们的营养评分啊,白蛋白、血糖、气血作用时间等等其他指标,你的一些生化指标啊,然后就是我们的检验面量选项卡里面的,基本上就是默认的,不用管啊。然后我们把这个对角线, 然后标准物还有那个曲线的坐标点勾选上,点击确定就是发生的器械性损伤的,大概有一百零三个人 啊,没有发生气性损伤的有七十九个人,这个没有什么意义哈,就是看一下,让你看了解一下本次数据的具体情况,那么具体的就是我们这个 ioc 曲线图这个蓝色的这条线,这个是蓝色吧,我应该不是色盲, 蓝色的这条线是营养评分,营养评分,哎,为什么没看到?他可能就是和某条线重合了,他估计就是没有诊断价值吗?那么我们看这个白蛋白就是这条绿色的线,绿色的线你看到没有?就是总的来说,我先给大家看了的哈,就是说 我们的这个线越靠近左上角,那么就说明我们的诊断价值越大。如果在这个对角线的右侧啊,就是在右下角,那么说明我们的这个指标对我们的诊断没有任何意义啊, 没有太大的价值。所以你看我们的这个白蛋白,他基本上就是在这个黄色的对角线右下侧,是不是好,他基本上就没有什么意义了。器械作用时间他也有一部分在这个黄线,就是对角线,这条黄色的是参考线,看到没有?我们的这个 细节作用时间他也在我们的这个左左上角啊,有一部分,右下角也有一部分,所以他对我们这个 是否发生器械性损伤啊?只只能因为这个数据我改了的哈,就是说他没有任,没有意义不是很大,但是这条血糖的话,他相对来说,相对来说他在这个参考线的,那么他相对于其 几个指标来讲话,那么他对于这个器械性水啊,有一定的参考意义,但是 越高越好。第二张表哈,就是我们这个曲线下面积,你看我们这个营养评分是零点零零零好,他可能就是和这条线重合, 应该是这个样子啊。然后我们的这个白蛋白他有他,他是这个面积,是曲线下面积吗?就是他这个曲线下面积, 白的白是绿色的,这条线看到没有?我们的这个一半面积哈,是零点五是不是?那么你看他很明显小于这个一半的面积,他的曲线面积他年他只有零点四一六啊,这个零点四一六是什么呢?也就是说他有百 百分之四十一点六的概率可以预测,就是通过白蛋白有百分之四十一点六的概率可以预测出这个患者是否会发生器械性损伤啊,同样这个血糖就是有百分之六十四点二, 你如果只观察血糖这个指标的话,你可以有百分之六十四点二的这个概率,能够预测出这个患者 会发生器械性损伤啊,至于他的血糖大达到什么什么指标呢?他他可能会发生器械性损伤,这个就是我先给大家说的阶段值 啊。嗯,关于这个阶段值还有这个约灯指数需要配合,这个约灯指数还有特异性敏感,敏感度有关啊 啊,如果有想要了解的朋友呢,你们留言啊,我后面会给大家分享,今天主要就是给大家讲解一下这个 ioc 曲线图的绘制啊,以及结果解读啊,谢谢大家。

各位同学,我们今天讲解第二部分老 just 的回归 l c 区间的汇聚。 呃,我们先看一下这节用到的案例数据,案例数据是来自啊某种疾病的,呃数据,也就是说是否患有某种疾疾病的 这个数据急剧变量是零一二分类的,零代表没有患有这种疾病,一代表患有这种疾病。好,四个写变量,包括年龄,性别啊,患者的户口类型是城市户口还是农村户口,然后患者的教育程度总共有三百个观测。 那我们在 r 语言当中,嗯,尽力 notice 合格的预测模型的话,第一步,先读入数据。呃,那用到了函数,就是 set word 这个函, 这个函数我们在之前讲啊立线图的时候啊,那么官网说讲过,就是先在啊语言当中先设置路径,就是我们整个 阿月编程用到的数据存储的地方,包括他的代码存储的地方,图像存储的地方,都是在这个文件夹下在做路径的。这个文件夹 lc 这个取件文件夹下, 我们设置路径的时候呢,一定要有反斜杠,是两个反斜杠啊,如果是单个的反斜杠,他会报错的。所有的格式,这个双引号等等的全部是用英文啊, 状态下输入的键盘一定是英文,状态下中文输入的话是错误的。呃,再一点就是我路径设置好之后呢,在这个路径底下呢,有一个叫 lc 杠一的点 csa 格式的一个数据,我用 red csa 这格式将它 读入到我的这个呃啊语言当中,并把它复制为老真实的刚带他这个数据器。第二步,我对我这个数据机呢啊一分为二,一部分作为测试级,一部分作为训练器。那我在分分的过程的话,就是按照下面这个代码啊,这个代码的话实际上是将我的 啊三百份数据啊,按照这个我们设置的接线,比如说大于零点七跟小于零点七这个接线,把它分成三比七的比例关系,将它分成了啊两份,一份用于测试,一份用于训练。 呃,那第三步就是建立 logs 的回归模型,其实叫做预测模型。我们建立 logs 回归的话,用到的是二院当中的 g l, m, n, e, t 这个包,这个包当中的话有个 g l m 这个函数的可以建立, 其实都贵。那这一行代码的意思是什么呢?就是首先一点就是我在用到了他的急剧变量 y 作为,就是急剧变量作为的 y, 然后呢,自变量是年龄、性别、城市、农村、教育程度这四个变量为自变量 建立一个回归方程啊,这个回归方程的数据就来自哪里呢?就是在吹呢,吹这个带他就是训练级当中的数据建立的这样的模型用到的是一个二分类的,就是我的这个 二项分布,就是实际上说 latestal 有个这个结果啊,你合了这样一个模型,那模型的话,这是我按语言当中的截图,我们可以看到模型会给出他的一个系数 啊,年龄,性别啊,城市教育城的动作的系数啊,包括他的这个自由度以及他的残差,还有一些他的 aic 值啊,这是我们呃,建立老鸡腿规预测模型,注意啊,我这个模型用到的是 吹捏地毯,就是我的训练级。那对我建立的这个模型呢,他的预测效果的好坏的评价呢?我们讲过,就是要用测试级进行评价,所以呢我下一步就是,呃,在这个 呃测试级就是 new 带塔,就是 test 带塔当中呢啊,用 test 带塔的就是剩下的百分之三十的数据去测这个, 这个评价我刚才建立的老 gastop 模型,它的预测的价值,那我用到的是这样一个代码,那就是 progo, 这里的话用了 protect 飞机以飞机时期呢,就是我刚才建立的第一个模型,这个模型啊,按照这个模型,在这个 test detect 当中,按照这个模型的格式建立一个新的模型, 模型的话,我们给出来的是他的概率预测值,就是他的预测的效果好快,那对这概率预测值,我进一步的话就是绘制 它的一个 r o c 曲线,那绘制 r o c 曲线用到了一个函数,就是用到了函数把这个 啊 r 包,就是这个 r o c r 这个包啊,这个包当中呢,有个 prediction, 这个函数可以实现 o c 取的绘制,但下面这些代码 就是用来绘制 r o c 曲线的一个呃过程,嗯, protection, 哎,包括用到的时候 test 带它的结局变量,包括我的 pro 这个预测概率,然后呢,后面这一行代码是给给出了我的 a o c 值,就是我的 取一下面积,然后 plus 这个函数,下面这两行代码是这样,就说绘制我的 lc 曲线的一个代码,包括它的里面的 t p r, f p r, 还有包括颜色啊,宽度,然后它的一些标题等等的啊,格式上的一些参数,那这里的话就是我啊,刚才这个老妻子回归啊,预测就是测试级利用 测试这个数据啊,呃,测试这个数据画出来了他的 lc 曲线的一个图像,那当然这里是彩色的。呃,这里的颜色包括格式,大家可以对这个参数当中的 pro 当中这些参数去去调整。 比如说我们这里卡拉卡拉软,这里的话是是 f 的话,意思说是黑白的,不是彩色的啊,包括这宽度,呃呃,这个线条的宽度等等的都可以去设置。 这是第一个就是老知识合格当中 r o c 曲线的绘制过程啊。当然我们补充一些其他的老知识合格当中除了刚才讲的 r o c r 这个包之外呢,还有啊, p r o c r 这个包也可以实现, 那我这次会再当做 r c 智能绘制。但我这里给的话也是这个 p l c 这个函数包里面的一个呃,编号的一些程序啊,用到的是 它呢,是这个叫 a e r 这个函数当中这个 f e s 这个带它啊,那我建立了个 g l m 这个函数,然后做着它这个老字头的一个过程,预测的结果,然后呢绘制它的一个,呃,绘制它的 plus c 的过程, 那绘制的过程的话,调用的是 li library 这个 p r o c 这个函数包用到是 r o c 这个函数,然后呢包括 plus, 跟我们刚才那里有点相像。 那我的话啊,这就是绘制出他的 roc 曲线的图像,用 prc 这个图,这个函数包绘制出来,这个函数包绘制出来的图像要比我们刚才那个包 rc 杠 r 的绘制的图像稍微好看一点啊。 当然这个这里的话,因个人的喜好或者说是杂志上的要求去绘制啊,到底是绘制什么样的形式完全可以自己去调整的啊,这个图像的参数呀,背景颜色呀,包括他的灰度, 呃,字体格式的呢,都可以去调整的。好,这是我们老 just 回味当中二十岁曲线的绘制,下面呢我们在 嗯,我们在 r 语言当中演示一下。呃,如何实现这个呃 r 语言当中怎么去实现?老铁思维他的一个过程,当然第一步就是在 set word 里面就设置他的路径,比如说我这里是在这个桌面上有个 r o c 曲线这个 文件夹,那我的桌面上有的 lc 曲线这个文件夹当中呢,有两个数据记,一个是 lc 杠一 lc 杠二 这个数据集的话啊,当然我们可以点开看一下,就是 r c 杠二这个数据集,那也就是有三百例啊。结局,量量年龄,性别,城市,农村。然后呢,这样一个数据保存的时候呢,要把它保存成 c s e 格式啊,就是在这里存储的时候,这个格式是逗号风格, 就是选择这个 csa 的格式来把它保存。保存好之后呢我们啊保存好之后呢,我们在数据机当中看起来跟 excel 差不多,实际上它是 cse 格式,是 excel 另外一种格式,然后呢,将它读入在我的这个啊 rst 六当中啊 啊,阿斯图就当了单读入的话就是用到的这个呃, red csa 格式,所以读入读,读入之后呢啊,我们这里就会展现出我的数据的一些形式啊,比如说有三百个观测啊,五个变量,那这里的话就是我的数据界的形式 啊,在下一步我就是将我的数据结分成了测试级跟训练级啊,这两行代码是将数据分成测试级跟训练级,那我们会发现测试级当中有啊,就 test, 在他当中有九十四个观测,然后呢 年级当中有二百零六个观测,嗯,这时候测试几个训练级当中的一个数据的情况好,呃,在下一步就是调用我这个 jlmnet 这个包,那这个包怎么调用的?如果说大家没有安装的话,需要在阿司机队当中这有个 package 啊,在这里有个 package, 然后呢,呃 instle 这里的话,把这个包放进去,我点击啊安装,那他就会自动去安装,注意底下这里这个对勾对话框,这里这个对勾要打上,否则的话,呃,你要手动去安装好多呃这个 他所依赖的宝,所以直接把这个胆点上的话,他就会跟他相关的所有的宝都会安装好,所以不需要你再去手动一个个去找了。那安装好之后呢,那我们把那这个变量的就是格式,他按照这个飞机 glm 这个格式,尼特尼克处这个 l g s 回归的格式,那 l g s 回归的话,我们可以看一下啊,运行一下这飞机没有报错,所以呢,我运行一下再看一下飞机的格式,就是说啊,这里面的话会给出我每个呃变量它的一个系数,包括它的 a, r, c 值,它的残差数等等等。 再下一步就是,呃看一下在测试级 test 的带搭当中的话,以这个模型在测试级这个模型是否呃继续有效呢?我在测试级当中建立一个新的模型,那就是 预测一下测试机,利用这个模型去预测一下测试机当中数据,他的结果到底是什么样的,所以呢在这里的话,我们运行一下,可以发现测试机这里的话,他会给出测试机的九十四个啊概率值啊,九十四个概率值,这里的话应该是九十四个,九十四个这个概率值,所以连到 之间表示啊患病的概率。那再下一步对这患病的概率啊,我们预测出来的患病的概率是否跟我们真实的结构是一致的呢?那我们下一步就是要绘制这个 rc 曲线,那调用的就是 rc 杠 r 这个函数,同样如果没有安装的话,先在这个因子 啊 package 当中 ins 到我这里的话,先去按照 r c 杠二,然后呢下一步就是呃 prediction, 然后包括它的一些 plot 这函数的情况,那这些代码实际上就是在啊绘制 lc 曲线,当然我就把它绘制出来了, 如果想把它放大一点的话,点这个加号就把它放大出来啊,可以把它另存为一些啊格式啊,包括它的一些导出格式, 比如这里的话 x 这里的话可以导成 pdf 的,或者说是一些呃自己需要杂志当中需要的一些格式。好,这是啊老之所以为他的一个过程啊,我们先讲到这里。

在一些医学诊断研究中,经常会绘制 off 曲线作为辅助判断诊断方法准确性的指标,用 spss au 轻松三步就能绘制完成。登录 spssau, 选择可视化 roc 曲线,将产妇体重、产妇年龄放入检验变量矿中,将低出生体重而放入状态变量矿中,分割点设置为一级数值等于一为阳性。点击开始分析 即可得到 off 曲线图。分别绘制出两条 off 曲线,可根据图形结果进行比较。诊断准确性如何?如果要具体对比两种临床诊断的效果,可使用下方的比较检验表格,输入对应的 aec 值和标准物 即可得到结果。具体操作过程可点击小灯泡查看帮助手册中的案例说明。

马上要写论文的,论文里面有数据分析的这个视频必收藏,今天教大家怎么样一句话做出 spa。 里面的 roc 曲线,包括论文可用的表格图像,还有详细的文字解释, 不需要学习什么专门的统计知识,也不需要怎么样去操作,直接一句话,更不用背这些结构表格参数背后的意义。 要看完这个视频会打字,知道你的研究目的是什么,就一定能学会。我们先看一下这个 roc 曲线他到底是个什么样的分析, 他主要的是评估这个模型,他去预测或者分辨的能力,主要就是这种二元逻辑回归,通常用在这种哦。医学上面,这种病人和健康人或者患病或者未患病, 患什么病和没有患什么病这样的一个二分类变量,看一下这些变量是怎么样预测的,预测出来这个预测模型到底是好的还是坏的。这个 a、 u c 模面积就是它的一个判断的得分, 它的曲线越靠近左上角,说明它预测的越准,它其实就是零,零点五就相当于只能判断百分之五十的一个准确率,那就是错误的。 不好的一个模型如果百分之百,那就肯定完美预测,但是这肯定是出现过拟合了或者怎么样大于零点七,就说明这个模型是可用的,它具备有一定的预测的能力。重点我们是看不同的诊断方法, 或者说用哪些面积,用哪些指标去做预测,他的这个预测结果更加的准确,面积更大,就说明他预测的结果会更好。 我们还是以这个高血压的数据为例,这个高血压零是未患病,一是患病,主要就是要做二元逻辑回归,我们就要去看怎么样构建这样一个参数,或者选择自变量来构建这样的模型,以及怎么样选择参数来构建模型,它的预测率是最准的。我们要构建这样一个预测模型, 就用二元逻辑回归,我们看一下怎么样的参数,可以我们看一下怎么样做。这个数据我们已经上传了,之前也做了单因素和多因素回归分析,单因素就是看这种自变量是怎么样单独影响因变量高血压是否患病的, 可以看到卡方和高血压患病和这种式的连续用梯间卡方是这种分类的。 ok, 二元逻辑回归也选择出来了。接下来我们怎么样去会制这个 roc, 只需要一句话,直接告诉他,就是让他做的一些整个报告,我们现在要做 roc。 ok, 请你将回归显著的做 roc 曲线,你这样告诉他会比较明确一点,他也让我们做了一下进一步的回归分析,这种分析 roc 曲线,我们这样说的话,他会更加的明确一点,直接发送给他,我们看一下他是怎么样做的, 当然你也可以直接告诉他 roc 曲线,但是一般情况下我们是回归显著的做 roc, 我 们怕他可能不是太了解,或者说他没有看过我的一篇我的这种论文或者思想,他可能会选择所有这种自变量来做 roc, 所以 说我现在只对这几个显著的做 roc 就 可以了, ok, 这就已经做出来了显著的变量,就是前面我已经选出来了这个结果,我们看一下这个结果显著的变量是这两个, 这个体重和甘油三酯可以看到这两个是有显著的这个这显著的变量就是这两个。我们来做这个 roc 曲线,可以看到体重指数是这个,然后甘油三酯是个这个蓝色,联合联合诊断是蓝色,这个是绿色, ok, 这个就是他的 roc 曲线, 我们看一下这个表格,表格就是因变量的一个频数分析,他也做了一下初步的看一下,然后就是这个 auc 其实就是它的面积, 就是他的这个面积,我们刚才在那里也说了,这个面积越大代表他预测的越准, 但是从这个数据上来讲,他预测没有达到零点七,所以说效果不是那么好也,但是也将就吧联合诊断达到了百分之六十八的准确率,然后联合诊断就是这两个共同来预测这个高血压是否患病。 如果是单独就是这个体重参数,而且这个敢我们从数据上可以看出来,他用体重参数来预测反而是最准的,用一个指标来预测反而是最准的啊,可以看到 然后第三个表格,他有非常多,我们可以不用看,特别复杂,我们就看这个就可以约登参数就是他的一个综合指标,去考虑他预测的准确度和这种没有得病的也误判的一个准确度的意思。 他这个指数越高,说明用哪一个就越好,他说的是用这个体重指数是最好的,这个联合诊断都没有那么好,但是普遍从数据上来讲,这个数据可能有一些特殊,普遍从数据上来讲是联合诊断会更好的,因为他是综合考虑了这两颗变量的, 但是由于这个体重参数是最高的,所以说它可能会影响其他的一个变量,所以说它这个是最最好的体重参数,我们就可以得到这样的结论。 ok, 我 们来看一下 ai 它是怎么样回答的。最开始这个就是 ai, 它进行先分析了一下, 然后它说我将针对这个做多因素二元逻辑回归中显著变量进行 roc 曲线的分析,以评估它的高血压的发生率和诊断效能。 ok, 计算群线下的面积。 ok, 最最佳的阶段就是这些结果了,这就是他正在规划去怎么样去做执行这些分析方法,这就是结果。首先他就说了一下他的一个敏感度,这些乱七八糟的,他就重点说了一下这个 bmi, 它是预测,是中等的诊断效能,代表能区分约大约百分之六十八的病率和对照最佳截断值是这个这个这个这个。然后说高血压研究中,这一项能 支持作为肥胖相关风险的可靠的生物性标志物。当然这个偏医学了,我,我读起来也是比较吃力,因为我们是统计学的。 ok, a u c, 可以看到这个单变量预测效能是比较弱的。最终他的结论就是,当这两个共同纳入逻辑回归模型,整体的是他与单因素的是相当的, 联合模型并没有显著的提升预测力,表明这个对他的争议是有限的。 ok, 总而言之,强调了这个 bim 在 核心作用,支持将它纳入到常规的体检流程,以提升早期的检测率,跟我们刚才的结论是一致的,这个 bim 是 最佳的一个来做预测, ok, 相当于我们就已经分析完了,我们就可以复制表格和图像到 word 中,这里可以下载它的原图 到 word 中,然后把表格也可以复制到 word, 这种文字也可以复制到 word 中。当然如果你觉得还不太觉得太学术了,可以让他写的再简单点,请你写的再 简单,通俗易懂一点。我是一个高中生, 这样他就能写的更加的通俗易懂。你不需要有任何的统计学知识都可以, 只要你知道你的参考文献或者你的研究目标是什么样,或者你甚至你啥都不知道,你就把你的参考文献直接丢进来,让他去梳理出他需要做的分析,你的数据拿出来就可以了, 可以看到能力评分图,分数越高他预测越准,然后零点五以上瞎猜,完美,现实中很少。这样就非常的简单了。 总结这个结论有什么用? b m 是 明星指标,他预测能力是中等偏上,能帮助我们早日发现问题, 比如说超过二十四的 b m 就 应该多运动了。这个是配角,提醒我们注意饮食,但也不太依赖。总的来说,这些测试跟确实跟高血压有关,生活习惯很重要, 那这个也是挺搞笑的。好,那么就相当于我们完成了这样一个二元逻辑回归加 roc 的 一个曲线。

每天十分钟机器学习之限性回归模型评估篇在 sk 论当中啊,还有一个比较方便的函数啊,可以直接帮我们生成不同的域值,以及呢各域值啊,它对应的一个精度,还有召回率啊,对应的结果,咱们来看一下, 在这里我们把函数给它导进来,然后呢,参数跟之前一样的,第一个参数还是我们当前的一个标签值。第二参数是我最重要预测的一个得分值。注意点,这里我传来的是一个得分值哦,在这块咱们可以给大家直下来看一下,你看下这个 west coast 里边传进来的这些个值, 嗯,打一千几个这些值,全世界得分值吧。然后呢,咱们只想这样代码看一看,我们得到结果他会长什么样子。嗯,先来看这个域值吧,这个域值啊,打印出来一看啊,域值是不是挺多的,设置了很多份域值,来看一下吧,点是不是值 一共呢?我们设置了这么多份域值,其实说白了,这里啊,有多少个可能性的值,我就会设置多少个域值,当然啊,在这里这个域值显着也多了,到时候大家自己玩的时候啊, 你可以用一些其他的建模的函数,那个函数当中啊,比如说我们用一些,呃,逻辑回归的,逻辑回归当中啊,我会可以预测出来当前什么概率值吧,当你用概率值啊进行建模的时候,咱得到预值啊,就不会有这么多了。比如说我的一个概率值里边可能有零点七,零点六,零点五, 他会把其中每一个可能值,比如零点七这个值,零点六以及零点五,每一个可能值啊,都拿过来当做一个预值。这里咱的一个,你给大家看一下 他的一个 y 值是有多少个? y 的 一个 shift 值应该是有六万个的吧,也就是说啊,在这个六万个当中,一共呢可能有那么三百零二个,他是要重复的,所以说啊,这个域值的意思,他会把所有的什么所有的可能值都拿过来给你进行一个尝试啊,这个是他的域值, 然后呢,每一个域值都会对应什么,都会对应着他的一个,是我的一个精度的结果,然后给大家看下 shift 值吧, 这不值必然也是对应在一起的,你看他就这不值多少个。五,这个,呃,五九六九九,这个五九六九八,为什么多一个?因为这个玉值,玉值会一刀切入两部分吧,所以说这一块他会多了一个 的一个精度,还有一个铝靠值,这个再来看铝靠值吧,铝靠值的一个结果,肯定跟精度他的这个值是一模一样的。这个就给大家简单看了一下咱当前这个 sk 六工具包当中啊,让我们自己的去啊计算,他就不能说自己计算吧,就是找一些不同域值去做计算,他也能够给他这个事做出来, 然后下面给大家展示下这个结果。嗯,接下来看这个图就行了,这个图就是这样一个事,对于不同的一个预值,或者说随着咱预值变化,我的一个精度还有 rec 值他变化的一个情况, 看一下这个明显趋势吧,什么我这个 rec 值啊,他会越来越低,然后精度值会越来越高,跟咱之前给大家演示的上面这个图的结果是一样的吧,精度和 rec 啊,相当于两个 不同的衡量指标了,没有办法一直怎么样,没有办法你高我也高,所以说他俩相当于是不同层面上啊,对你模型进行了一个评估, 那大家可能会问一件事,那现在啊,就是我没办法很好的去,哎呀,看一下,到底到底这个模型怎么样,因为一方面拷靠他,可能就是啊,你就是拷靠精度来说一个高一个低, 那我还是不知道到底怎么样啊。在这里啊,再给大家介绍另外的一个评估方法,叫做一个 roc 曲线, 来看下面的网上面这个图,这个图简单看一下啊,就是随着瑞克的变化,这个精度它变化的一个情况,这个图跟上面的结果是一致的。然后呢,咱来说这个 roc, 这个是相对来说是用的更多的一种情况啊,先给大家简单介绍一下什么叫做一个 roc rc 当中啊,它要指定两个指标,这两个指标跟之前说的有点不太一样,第一个指标叫做一个 true positive rate, 第二指标叫做一个 false positive rate。 之前是给大家都看过了,咱当前的什么 t、 p、 f、 n 指都什么意思吧,这里啊,不给大家重复的去重概,就是不去重复了,大家如果是忘了,回过头来看一看咱们上面这个表格,先捋一捋啊,每一个指标都什么意思?这里呢,我们指出来两个 true positive rate, 还有一个 false positive rate, 我用它干什么?用它呀?画一个表出来,再来看一下下面画这张图,这张图当中呢,这个 x 轴是一个 false part to read, 我 的一个 y 轴呢?是一个 true part to read。 那 你大家来想一想,哎,你说当前这件事啊,什么时候会做的比较好呢? 应该是哪个值比较高的时候?应该是一个处跑到这个值比较高的吧?也就是说我希望我的 y 轴这个值应该怎么样?越大越好吧。那你说你这 x 轴这个值,你希望它大好还是小好呢? 相对来说它是什么?它是个 false 啊,在 false 的 前提下是不是做错了呀?所以说我希望它怎么样?小点比较好吧?那你说理想的情况下,理想情况下我希望能打到哪啊?最好的一个分类器应该怎么样? 应该是朝左上角去去的吧,你看一旦达到这个左上角,左上角的时候,我的 y 轴等于一,我的 x 轴等于零,这个是一个理想条件吧。所以说此时啊,我最好的条件就是我希望这个曲线达到咱当前我左上角这个点,这是一个最好的。那什么时候不好呢? 比如说一个二分类问题,你在抛硬币的时候,你抛硬币的时候,我问你,哎,我说你觉得正面朝上还是反面朝上?那如果说你比较确定的时候,你会告诉我正面或者反面,当你最不确定的时候,是不是告诉我一半一半?或者说我不知道啊?那你来看中间这个曲线, 对于中间这个曲线来说,他给我的感觉什么?是不是就是咱们所谓的一半一半这样感觉啊?因为此时 我当,我就是就当咱们达到中间这个虚线的时候吧,相当于就是一个比较差的一个情况下了,基本上很少情况下能会比这条线还差的,因为你要构建一个分类器, 你说对于二分类问题来说,连蒙的都不如,不太可能吧,一般情况下,咱得到的曲线都是在呃咱当前这条虚线上面的,然后呢,我们需要这条曲线是越接近左上角,他是越好的,那咱来看一下吧,怎么样进行比较? 首先来观察第一点,如果说这个东西跟瞎蒙一样,跟瞎蒙似的,这条曲线它的一个面积多大?是不是占了一半啊? 那整个的面积多大?这是个一,这是个一,整个的面积,那就是一,一得一吧,总共的面积一啊,那最差的时候是不是也就是零点五啊?所以说这里我们可以计算他当前曲线下方所围成的一个面积,比较差的时候他是零点五,那比较好的时候呢? 越好的时候这条线怎么样?越接近于左上角吧,越接近左上角,那是不是就是又是一个一得一的一个过程啊? 所以说啊,咱们完美的一个分类器,当前画出的曲线,它所下方围成的面积啊,是接近于一的,越差的它会越接近于零点五,这个叫做一个 r o c 曲线。 通过这个 r o c 局啊,我们也可以去综合的去评估一下吧。当前啊,咱建完这个模型,它的效果啊,是怎么样的?但是一般情况下,我们的 r o c 曲线只适用于啊咱的一个分类问题当中啊,回归问题,我们到时候啊得另外找一些其他的衡量标准了,来看下怎么去做的吧。做很简单, 第一步我要把这个 r o c 曲线给导进来,还是 s k l 当中 matrix 模二下 r o c 取啊,拿过来,然后呢传建两个参数值看一看,跟之前参数 是不都一样的呀。然后呢,我会得到几个值,不同的 force power to rate, true power to rate 以及在不同预值下咱得到的一个结果吧。这个大家一定要注意点啊,我们考虑的是不同预值下咱得到的一个结果,要不然 怎么样能得出来这么多个不同的数值啊?没有不同域值,那他不就是一个 false port 值和一个处 port 值吗?现在由于咱们取了不同多个域值,所以说我把这个曲线给他画出来了啊,就是这样一个事。 行了,然后咱们来看一下吧,对于当前这个结果我们该怎么样进行,最终啊一次就是模型和评估,这个叫做一个 a u c 的 值, aoc 值就是描述了当前我曲线下方面积是多少,刚才我也说了,比较好的时候等于一,不好说等于零点五 x k 六。当中呢,提供了咱当前 aoc 计算的一个指标值,只需要把你的一个寸值就是标签值以及预测解数值传进去就完事了。 这个就算了一下,咱当前就是我们的一个二分零模型是五还是不是五的时候得到的 aoc 结果,零点九六解,看起来还是比较不错的吧。这点跟大家说了,我们另外一个评估标准叫做 roc 曲线,用这 roc 曲线我们主要是利用其中 aoc 曲线下方面界值来进行一个评估的。 那行了,这节课就跟大家简单的概括了一下,当我们拿到了模型之后啊,该怎么样进行一个评估。当然我们这里举的例子是一个分类问题,后续呢?当我们再去做实验过程当中啊,还会给大家去说,对于一个回归问题,我们该怎么样进行一个评估的?

哈喽,大家好,我是宋哥统计,今天呢在公众号的后台有一个人呢问了一个 roc 曲线诊断的一个问题,我觉得非常有意思,所以呢特别呢录制了这一个 roc 曲线的番外篇。那么 roc 曲线呢,我们在前期的课程呢都已经讲过了,它是非常简单的一种诊断线 诊断一直发现的一种方法,我们再演示一遍给大家开来看一下。我们点分析去寻找到 lc 曲线啊,松哥用的只是二十六点零,二十六点零的 lc 曲线已经不在分析里面了啊,二十六点零的 lc 曲线已经不在这个主菜单里面,在分类里面 里面啊,他有个叫 lc 曲线,并且他还增加了 lc 曲线的一个分析功能啊,比较强大一点点,可以进行的一个组间的比较。以前呢, lc 曲线呢,只能够做出他们的曲线的曲线,下面的一个 lc 和他的百分之九十五可以区间,但是对不同指标的 lc 之间的面积啊,没有办法来进行比较,我们通常是借助别的软件做了,但是呢, hps 在二十六点零呢,可以实现了 lc 曲线,不同的 lc 曲线呀,面积的直接那个比较 ok。 话不多说,我们来看这么一个案例, 比如说我们来诊断一个身高和一种疾病状态到底有没有什么关系,我们把 多一点,让大家感受深一点,把这个疾病状态呢,他定为一,一是疾病,二是没有疾病,所以状态值呢是一。 然后我们把相应的三个值勾选中之后了,我们直接点确定了这个 lc 曲线就做出来了。我们发现身高和体重对于这个疾病的诊断的一个消毒还是挺好的,是不是?而且身高呢,他这个曲线的面积应该比体重要更大,哎,这是我们通常所做的,但是 啊啊,顺便再把这个解释一下吧,我们可以看到你看身高和体重,他们的曲线下面积,哎呦细 哎,就是艾尔瑞亚昂德克五啊,他是身高是零点九三六,哎,体重了零点八幺幺啊,然后呢后面是他的一个什么标准物,我们知道这两者有一定的相差,但是差别到底有没有同居异议呢?哎,这个 是不太清楚的,然后可就可以通过下面这个灵敏度和意见特异度了,我们去计算出他的一个正确指数 对不对,然后就可以进行一个 lc 曲线,找到正确的一个诊断机制,貌似没有问题,但是呢,有一天啊,突然有一个问题, 就是后台啊有个问这样的一个问题,就是他说了说完描述这个问题之后呢,我就随机模拟了一个,就为了实现他讲的这样的东西,我又模拟了一组数据,他是研究艾滋病和 cd 四的啊, 如果你没有这个技术了,你也很好,你看啊,让我们来分析一遍,带大家看会出现什么样的结果。我们做 lc 曲线,然后呢把这个二疾病的状态,艾滋病状态是一啊,然后呢把 cd 四呢作为一个减 指标,是一种细胞印子检验指标,我们把相应的值给他,勾选中之后,我们点个确定,立马就会做出他的一个 lc 曲线,可是 我发现这个 lc 曲线他是什么,他是这个曲线都已经在这个下面 这一半了,我们讲的话,这是中间的参考线,是不是?然后肚子越大,肚子越大越往上面飘?意思是我们通常前面见到 lc 曲线是不是都是这样的,对不对?上面这样肚子越大,说明这个这个指标的他的一个诊断能力是不是越好啊? 可是我发现这已经降到这下面了,连他的正确率连百分之五十都没有,所以很多人看到这样的指标,直接就把他否定掉, 指标太差了,肯定不可以啊,肯定不可以,但是大家想想,有些指标他是越小越有诊断价值的指标,哎,我们刚才讲的那个身高啊,体重啊,都是什么?越大越能够诊断这种疾病,越大越能 血压一样,那就是越大越好,越大越好。可是呢,我们知道 cd 四呢,他是一个免疫功能细胞,当你 cd 四含量越少的时候,越可能这个人诊断为 lds, 是不是这样概念,所以他就和我们前面的套路不一样了。那么这时候进行 lc 曲线可以怎么办呢?哎,我们适当的先看一下,然后进行相互前后比较,你看这个 lc 曲线是到的是不是?然后我们发现他整段的概率只有多少?零点幺幺二,大家记住这个值零点幺幺二, ok, 好, 而且呢,下面给的这个是什么?大于或等于此之时为证。也就是我们在选他戒指的时候,那么选好了之后,比如说这个二点七五,我们就是大于等于这个二点七五,那么那就没有解决方案了吗?哎,我们知道 cd 四这个指标他是越小越好的,我们前面所研究的很多疾病都是越大越好的,血糖越高越危险,是不是高血脂?越高越危险,是不是高血糖、高血脂、高血压?一般来讲,我们体内的 某一种物质浓度越高,说明越有问题,可是有些东西是越少越有问题,比如说,哎,就像我们刚才讲的一个例子之外啊,比如说我们讲的那个血红蛋白含量越少,那是不是越容易贫血呢?红细胞含量越少,是不是也越容易贫血了?那对这些越小越 有诊断价值的指标怎么办呢?其实我们以前在讲的时候都忘了跟大家讲一个东西,就是在这个选项里面,他有个功能叫做什么呢?叫做通常默认的就是越大越代表更加肯定的检验,那么下面是这个就要 小的结果,代表更加肯定检验。我们只要把勾选那个较小的结果当做更加肯定的检验就可以了。当我们勾选他之后,点继续再次点确定,你会发现他立马就翻转过来了,是不是这样概念? ok, 你还记得上面我们讲的这个值是多少了吗? 是不是零点幺幺二?零点幺幺二,你看下面是多少?零点八八八。 那么零点八八八总共缺一样的面积呢?是多少?是不是一啊?一减去上面零点幺幺二就是零点八八八,是不是这样概念?而且他的百分之九十五肯定是零点七七六到零点九九九,我们再看上面的百分之九十五的减值是多少呢?是零点 零点零零一,对应的是不是零点九九九,然后是零点二二四,是不是零点七七六啊?零点七七六。所以对这些越小越小 好的指标,其实大家一定要注意一点,就是要勾选越小越好那个选项,同时我们也可以得到什么他这个绘制的 lc 曲线里面这个坐标值是什么?是小于等于此之时为正, 小于等于此之时为正。哎,上面我们这个是什么?是是大于等于此之时为正。 ok, 好,这就是越小的指标, 越小越好的指标,如何来去做他的一个 lc 曲线一个缝隙。 ok, 这一天呢就给大家简单补充这么多,大家也非常感谢呢, 公众号后台有这么一人问这么一个问题,真的一个好的问题啊,非常有意思,也欢迎大家继续来。嗯,问一些问题,宋哥跟大家一起来进行一个学习或者分享。


好的,朋友们,我们跟师姐合作了一个课题,画了一些简单的表,呃,机械资料表,逻辑回归,先单后多,然后又画了一个逻辑回归,先单后多。中文版投稿格式的一个要求,中文格式的一个表格,然后画了一张拉错的两张图。 呃,通过组建差异单因素逻辑回归和 vn 图去交集确定。我们需要建建模型的基。 呃,这个是单因素逻辑回归的森林图,然后通过相关性矩阵检查这个,呃,我们的特征的 x 之间的多重贡献性。 画一个立线图, r o c 曲线,交轮曲线和绝色曲线。呃,这时候师姐希望我们,呃,就是 画把两个模型的 r o c 曲线画到一起。呃,第一个 r o c 曲线呢,就是最终纳入的四个变量的那么图,然后另外一个模型的话,就是一个单一变量的一个 r o z 曲线。我们来解决这个问题, 设置工作路径,读入数据,查看数据。呃,第一列是我们的结局二,分类的结局 group 零和一,然后从 b, b, c, d, e, f, g 这八个变量是我们的自变量。 x 都是连续性的变量。 嗯,内部词一下, turn 一下,三模一下。好了,我们首先建一个模型,就是我们四个最终的四个月亮的一个模型。 呃,我们命名为 f m 四,然后接下来这个单个变量呢?我命名为一。呃,你和这个四个变量的模型,一个变量的模型,然后预测一下加载包。呃, 训练结 u c 和 r o c, 啊,不存在啊,就是四变量。呃,四个变量的 model, 我们把它命名为 model a, 它的这个,呃, a o c 值是零点九三四,制性区间是八九六到九七四。 好的,我们首先画画一个这个 r o z 曲线,但是现在它这个 x 轴竖直是反的,要想顺过来,要加上这个。呃, legency x 的 tea。 好的,然后第二个第二个格式的这个 l c 曲线。然后第三个风格的 l c 曲线。啊,接下来展示一个变量模型的 u c 是零点九四一。 呃,它的直径区间是零点零点九零七和零点七四七七四。好的,画它的 r o c, 还有的轴仍然是反的,要把它顺过来,现在它的横轴是一点特一度。 呃,第二个风格的 l c 曲线,第三个风格的 l c 曲线。好的啊,这里还这里,我们可能后面需要把它或者用那个加一个 type 参数,把它的执行区间和它的 a o c 值给它加上去。 这里我就不再赘述了,重点要讲的就是绘制多条 l c 的多条 l c 曲线。首先第一个 l c one 是我们的四个变量的,呃,那么土,然后 l c two 的话是个单个变量的, 把他的图例给他加上去。好的,现在就画完了。嗯,但上面呢,我们其实已经得出来他的他们两个模型的 a o c 纸和置顶区间了。看一下第二个风格的。 好的假设,我们需上面的是第一个风格的,下面的是第二个风格的。好的假设,我们需要把对角线改为虚线, 就是在这里加上 l t y 等于二,它为虚线。 let me, 马上给它插上去。好了,接下来比较这个, 呃,两个 r o c 曲线,这里我们可以看到就是第一个模型的,就是四个变量的时候,它的 a o c 值是零点九三五 啊,单个变量的时候他的模型 auc 只是零点九四一,所以四个变量还没有一个变量的 auc 只是高。然后我们查询了一下资料,说这种情况是否合理。 呃,然后亲爱的 gpd 告诉我们是合理的,就是你四个变量,假如说你要更纳入了无关的变量的话,还不如一个变量对他的预算效能比较好。好的,我们学到这里。

今天来给大家讲一下如何画那些在呃一些医护分析的文章里面,或者是说临床相关的社区分析里面常见的一些图形啊。 主要有以下几个,第一个就是我们声音曲线 km 这个,这个用的很多,然后还有就是一个我们二曲线评估你模式那一个好坏的,然后还有就是一个列线图, 那就是我们常见的一个烈性图,还有一个就是我们的森林图,然后这几个是我们在以后分析或者标注入诊断这方面分析的时候,或者临床诊断这一块最常用的几种图。 我们先看一下今天来如何实现这几种图。首先我们准备了一些案件数据,我们先看一下这个是我们基于 tcd 整理的 一个一个癌症的数据类型啊,我们整理成这样的格式,就可以通过我们的分析流程进行一些图的一些分析和展示啊。首先第一列是我们一个样本的名字,对,是个样本的名字,然后这列是我们一个生根时间, 生存时间,他生存时间是天,就我们生存时间,然后当然你是月,也可以不影响这个生存时间,然后这一列是一个生存状态,对吧?是活着还是还是已经去世,就是用零一来表示,然后后边的话就是他的一些基因的表达水平,我们这里相当于是选了一千多个基因来展示。 对,我们选的是一千多个,是差一级应该做的,选了一千多个 g, 呃,选了一千多个 g。 然后的话我们先看一下我们代码, ok, 点开我们的代码,我们这里边需要装的包比较多啊,这几个,这几个包需要我们装一下, 然后我这边是已经装过了,所以说运行的时候他应该不会装,因为这几个代码,这几号代码相当于是他会自动检测你本地有没有装相应的依赖包,没装的话他会自动给你装上, 我们这边应该因为是已经装过了,所以他不会执行。接着往下看,下面是我们加载这个程序包,我们要用到的, ok, 加载完了,加载完之后我们就可以读取我们刚才的数据, 对,就是刚才的数据,然后的话就是我们就分分有几步啊?第一步,第一步相当于是我们先做一个单因素的考,考官,之后 回归,然后筛选一些批值比较小于零点零五的有显著性意义的一些机给它拿出来。对于后续的一个分析,这是我们第一步,第一步先给它运行一下, 可以结合着我们的文件夹可以一起看,对,它会它会生成一个 react 为一个文件夹,然后我们最后的结果的话都会放在这个文件夹下面。 接着看第二步,第二步的话相当于是逐步回归,就是基于前边那个单因素 cold 回归的筛选的那些标志物之后,然后基于他做一个多因素的一个标志物的筛选,我们可以在这个环境边里看一下 他,从那个刚开始我们有一千一百多个基因,然后他通过单一数和我左右筛选到了有五十三个,对,筛选到了有五十三个基因数,就是批 是小于零点零五,也就是说这五十三个基因是个生存时间显著相关的基因,然后基于这个结果再进行一个逐步回归,看一下 啊,现在逐步回归相当于是他,呃,会筛选一些最佳组合的一些标志物,比如说筛选了十个,筛选二十个,这里面他放在一起简单效果可能会更好一些。这个这个意思一起优护效果会好一些 啊。已经结束了,你看结束之后我们这边会生成一个对应的文件夹,就是他最终筛选出来的那个,那个那个机,你看一下, 对,申请出来了大概有二十二,二十一个,对,申请出来有二十一个 g, 对, 然后我们接着往下看啊,接着看进行一下第三步。第三步相当于他就开始绘图了,我们先画那个森林图, ok, 森林图已经出来了,我们再看一下。对,这就是我们的森林图 啊,就是这样子的,就是他筛选出来的答案是一个标注机,他他的一个风险比的一个分布,以他的批值的一个情况,就是这样子。然后的话接着往下看,然后第四步,第四步就要画上我们常见那个连线图了,或者是有人称为我们评分卡,是吧?都可以 让我们运行一下。可以,运行之后这边的话需要我们自己点一下这个 input 导出来,然后选一下这个,我们调整一下我们的高度和宽度。需要调整一下宽度,比如说我给他调一个七百高度,调个七百 七百,然后高度小勾,嗯,九百。然后我们选择下保存的路径啊,我们保存这下边, ok, 然后 save 就行了。 嗯,还可以,你可以看一下,这是我们刚才保存的一个,刚才保存的一个结果啊,在这下边就这个, 对,这是我们的一个连线图啊,或者是我们的评分卡,就是一些他的二十一个特征金,然后这是他的一个评分卡的一些指标,然后这边我们选的是他一个,呃,三年,这三年的生存率就是 os 小于幺零九五嘛,就是三年。 然后你然后的话看一下,接着往下,下面是我们开始做那个 k m 和 r o c 的,这个的话他画的图比较多,应该会, 你稍微画个几十秒钟吧,他会把每个的每个基因我们生产出来二十一个基因嘛,他会把每个基因的 km 顺序曲线以及他的二十一曲线全部画出来。二十一曲线的话我们画的是一年、三年、五年的顺的时间呢?留个二十一曲线, 我们先运行看一下, ok, 结合到我们这个图片一起看看是不是他会自动进行画图,对吧?他把那些每个基因的结果都会展出来, 嗯,等个几十秒吧,应该就可以了。等一下,这个应该运行还挺快的,等到下面就是出现那个箭头的时候,就说明结束了。 ok, 已经运行结束了,我们可以先看一下我们的一个结果,我们先随便挑一个,看一下我们的结 结果大概是什么样子的吧。嗯,就挑这个啊,比如说我们看一下这个基因的一个 km 情况以及他的 lc 情况。我们先看一下这个升轮曲线啊, 这个 k m 升级取件相当于是这个基因的一个,它根据这个基因的高表达和低表达,把这个 啊给他进行一个,呃,相当于和玉后结合起来,生存时间结合起来做一个生存曲线图,可以看出来就是在这个金高表达的这个组里边,让他生存率比较偏低一些。怎样在这个金低表达的时候让他的这个生存率偏高一些?那也就是说这个金 是对这个生存生存来说可能是一个呃风险,呃风险比较风险比较高的一个一个基因,因为他高表达的话,他就会生存率偏低一些嘛。然后我们可以结合着这个森林图 一起看一下, 我们刚才看的那个 g 是, 嗯,到时候大家自己看吧,到时候大家自己去找他看一下吧。然后的话看一下他的那个 r c 取件。 嗯,它 l c 曲线的话,是啊,有一年、三年和五年,我们从这个它的 l a、 u c 这个值来看的话,是在五年的时候,就是这个绿色的线,它这个 u c 值是最高一些。其实这个一年、三年、五年,它整体来看这个都挺不错的。 那也就是说我们筛选就这个,以这个为例啊,就这个基因可可以做一个很好的一个以后标注基因来看。对,然后我们结果的话大概就这些,估计从头到尾的话呀,最多也就是一两分钟左右吧,然后就可以使用出来了,嗯,大概就是这么多。

好,各位同学,我们继续讲解第三部分, cox 会背到 r o c 曲线,呃绘制, 那我们本节内容用到的案例数据呢?是某口咽癌的数据,呃,这份数据我们在呃 normal gram 当中也是讲过的, 那他的格式的话也是呃包括了,就是呃有一个生存状态这个 status 啊,包括 tom 生存时间啊一些,呃分期 t 分期跟分期包括种类位置啊,年龄啊,性别,然后他的这个格性别,然后包括他的这个治疗方式等等的一些 参数格式,当然它的格式的话也是以 c a c 的格式进行保存的啊,我们在 r s q 九当中 啊,一样呃,先上来设置他的工作路径,那工作路径的话就是呃,用 settle 的话, settle 设置工作路径,那这个路径怎么去找呢?就是点击你的数据文件啊,就是比如说我把它保存 csa 格式滤镜,那在这文件夹当中顺啊 右键,然后呢属性可以找到自己路径这个文件夹所在的路径,然后呢把这个路径呢复制到我的这个赛拓这个代码当中来。注意在这里的话啊,我们这个 windows 当中是单单个的一个 斜杠,但是在 r 语言当中是要双两条,所以你要把这里加成两条,然后呢双引号要用英文的 啊,将数据呢读入到我的 rs 地图当中,当路径设置好之后呢,读入数据就是 read c s e 这个格式,那读进之后呢, 在他的右侧绕一下的话啊,就可以将我所有数据去都给他啊,读入到我的二元当中,当然我在他的右侧这里的话啊,可以看到我的数据,当然都有一百九十五条,观测十三个点亮,那我可以啊整个将他啊展现出来, 那啊同样可以点后面这个方框,或者直接点击这个数据集的话,他是可以展现出数据的整个的一个过程。 嗯,当然还有一个就是,嗯, nims 这个面料的话啊,可以看到我这个数据是这个叫这个呃, t、 h、 a、 r、 y、 n、 x 数据当中到底有哪些变量?当然他这里有十三个变量,那我们要用到的变量的话啊,包括性别、年龄、提分剂等等的啊,在下一步就是我在建立 cox 手表的时候是要对一些变量进行复制的,比如说性别的话 啊,零和一啊,就是一和二,男性女性我都要做一些这个呃因子,就是这个叫呃 叫 factor, 就是因子的形式,说是将它做成一种属性的一种变量的形式,所以呢我要把性别这个年龄不是是简单的数字,好把它转变成这个,呃分类变量,要用这个 factor 把它转换成一个分类变量的形式, 包括他的分期,也是包括一二三四 t 一 t 二 t 三 t 四的形式,咱们再转变过来啊,年龄的话就不需要了,因为年龄是个连续性变的,所以呢年龄的话就直接啊加这个数据记的名称,加一个 dollar 符号,然后 h 直接可以提取,所以这个性别年龄我将这个变量复制好了啊,在下一步的话,我就是建立我的预测模型,就是 cox 这个预测模型。那 cox 的话要用到的是 萨瓦尔这个包啊,就是 coser 这个包,这个包一般我的阿斯顿是默认自带的,不需要去安装的啊,就是您安装了阿斯顿的这个函数或者阿元的话啊,他自动默认是背后会有呃萨瓦尔这个包会安装好的, 但如果说啊安装的时候等调用的时候出错的话,可能是这里的一些输错了啊,比如说我这里的话,他报告说没有这个名字的报,我这里少了个 v s u ivivl 少了个 v, 所以他不是我的这个呃 solo 报,所以他会报错,所以一定要看清楚,就是呃 教用的时候一定要把格式,呃函数名等等,一定要检查清楚是否正确啊。第三步,呃,第九步就是说我要建立 cos 格的话,要注意一下啊,我跟我们普通的这次格不一样啊,他呢要用到的生存时间跟生存状态,所以呢, 用一个大写的这个 surv 这个函数先生成我的就是结局变量, s 就是生存状态这个数据。所以呢,你看我们在二元导出的话,就是他有加号的话就是带山式的,整数的话就是不带山式的,发生他的结局天数等等等啊,先转变成我的音变量 就是是这种形式的。然后再下一步就是建立 cox 的一个默契, coxx 的默契用到的是 c o, x, p h 这个函数,就是所谓萨瓦尔等的这个函数。 我以生存时间、生存状态为应变量,以性别,年龄跟 t 分解自变量建立了 cox 回归模型,在这个模型当中,当然他的这个回归系数包括他的 exp, 他的这个皮质等等等。 但是因为我们刚说过的话啊,我们性别是分成男和女,所以他只显示女,男性的话就是女性相比男性来说, 包括 t 分期, t 二, t 三, t 四, t 一,为什么没有呢? t 二相比 t, t 三相比 t, t 四相比 t, 所以 t 一是个参考的,那我也就这意思,所以呢,整个我的这个 cox 模型就建好了,建好之后呢,我想评价一下这个模型它的预测效果。 按道理来说,我们前面讲老车测评的时候,这个模型是要分成两部分的,就是测试机跟训练机。今天这里因为我们的样板量只有一百多粒,所以呢,我就没有把它分成测试机跟训练机,为了这个, 呃,讲课虽然没有分解,正常操作是要将它分解成测试这个样式,呃,这个训练级的啊,我们啊建模的时候是用训练级啊, 这个评价他结果手势用测试机。所以呢,呃,我 cost 的话,实际上在这里建立模型的时候是要用这个 data 的话,应该是我的春天 data。 然后呢,我下面一步的话,预测的时候呢,我要用到的实际上是我的,呃, test tita, 呃,只不过我们 cocks 回归跟脑接触有个不一样的地方,就是预测的时候呢,他不是给你的简简单单的一个概率那么简单。 coco 设备的话,呃,我们要做他的 oc 曲线,要用他的线性预测结果啊,不是直接他的这个,呃,风险函数,风险预测就死亡概率或者生存概率等等的,那仍是 线性预测呢,实际上最后啊,右边这里的话,我们给了一个 cox 的简单的个模型的形式,那前面这个 h t x 是我的分解排数, 这里说的 g x 零 t 说的机动车型函数 e x p 就是指数函数 e 的啊, e 的这个就是它的指数指数上面这些东西实际上是我的自变量 x e x r 到 x m 做成了一个回归 啊,普通的回归回归现在变成他的指数形式了。线性预测实际上是什么呢?就是只要他的指数前面的 exp 先不要 x 零 t 也不要只要他这个指数形式。那我们 lp 的话,事情预测就是这一块, 蓝色这一块啊,我们把我们安装我们前面这个 cos 队预测出来的模型吸水带紧之后啊,每一个他的变量得到他的这个 预测的概率是多少?之前用到了它,所以呢, l p 是这个意思,那呃完了之后呢?下一步我想评价一下这个 l p 就是我与 coco 预测它的好坏的话,我要画出它的 l c 曲线出来, l c 曲线用到了这个 呃萨瓦欧,萨瓦欧这个阿欧西,这个呃函数包就属于高尔萨瓦欧这个函数包啊。但这个包当中,首先第一步先要设置出我的啊预测的呃年限,比如说我们 经常预后三年的他的预后概率怎么样?或者五年他的预后的生存概率怎么样,所以呢, cut off 这里是经常是我的往后预测的年年龄数,比如说这里的华为三百六十五就是一年后他活着的概率。我想用这个预测模型预测他一年后活着概率,所以我 cut off 这里的话选择是三百六十五。 那我进一步呢,就是再利用这个 sawyer 啊, r o c 这个函数啊,利用这个呃 sawyer r o c 这个函数呢?呃去呃画出它的口号 r o c 曲线图 出来,注意这里这个 st type 代表的就是我的生存时间, s data 就是我的生存状态啊,那就是我数据机档生动生动生动时间生存状态。最关键的就是这个 maker maker 是什么呢?就是我们刚才这里预测这个 l p, 这个这个这个结果,就是我们先去预测,然后呢啊,这个 protective time 就是预测到 是哪个年限的,就说 cut off, 就说这个三百六十五 m s 零 cam 这个图像,呃,这样的话,再下一步就是记刚才的这个函数,我们画出它的 l c 曲线图像来,用 plus 的函数,但用它的 f p 呃 t p, 包括它的呃形式是 l 的形式,包括呃 x 轴的取值范围,零到一外轴的取值范围,包括 x 的呃轴坐标,他的标题图标,然后包括外轴的图标等等的一些过程。那 下面的话,这就是我绘制出了 cox 回归,刚才讲的 cox 回归,他的 l c 出现了图像的形式。那么这类的话, master 用 k m 一年后他的预测的概率是什么样子的? l c 的情况, 我刚才 a u c 只是零点六幺三公里,在这里等出来了,所以这是我 cox 会飞,然后他的 l c 曲线的绘制过程。 呃,说明一下,就是呃,只有一个预测变量的时候呢,我 make 之类的,这个 l p 直接改成了预测变量就可以了,比如说性别,我把 l p 改成性别就可以了,呃, cut off 就是实际上就是呃可以调整一下的预测时间,比如说两年,三年,我们就要改 cut off 这里值就可以了。 一点就是除了刚才讲的三万五 lc 这个包之外呢,用的更多的还有一些 time lc, 包括 rice, risk, set lc 这些的话也是可以实现。我生存分析就是 cox 会飞,而他的 lc 全图像个绘制, 但图像的格式啊,可以通过 plus 当中的一些参数去更改。就是啊,这里的这个,呃, v level, l level 的话,包括它的一些格式啊,线性啊等等的可以去调整啊,当然调整成我们杂志需要的形式就可以了啊。好,这是我们 今天讲的 coco 给他的 r c 取能绘制过程啊。到此我们的 r c 的系列的就讲了,我们下面在 r 语言当中演示一下啊。 r 语言当中演示一下 coco 是怎么实现的。 嗯,首先一步就是先设置路径啊,就是 lc 曲线的设置路径。呃,然后呢载入数据,但我先把这个清理一下, 那旁边这些个小的扫扫帚就是实际上是将我内存当中的一些数据结构的东西清理出去。那我先设置成路径啊,就是 plus 全是路径。然后呢读入数据, 读入数据,在下一步呢就是数据机当中变量的名称啊,有十三个。然后呢性别,就是我们拿出来一下,就是一和二,这样的情况 在下面就变成复制,就是性别,年龄,替分期,我全部把它转变成啊,他们的这种格式就是呃,本啊,性别的性别就是男女男女的形式啊,年龄化有连续性变量,所以必须要去设置这个连续性变量啊,包括替分期,也就是 t 一, t 二, t 三, t 四,这形式 完全整理出来啊。再下一步就是设置生存时间,生存状态。那我用的是外杠 suv 这个函数。 然后呢再下一步就是调用生存啊,生存函数这个宝。然后呢就是呃,建立一个 cox 的一个模型啊, f 这个模型在以下一步呢就是预测,给出他的先行预测, lp, lp 这个先行模型, lp 先行预测。 再下一步就是绘制出我的啊,扫花路的 rvc 啊,刁民,扫花 rvc 这个函数 cut off 是一年的生存概率。 然后呢这就是这是函数的一个绘制出来,那就加一条横线,那这里的话就是我们刚绘制的啊, cox 会为他的一个呃,他的这个二十岁曲线的一个过程啊,这是啊,我们绘制的过程 大家可以去自己去再尝试着训练一下,练习一下。好啊,到此我们今天的课程就讲完了啊,谢谢大家的收听。