被导师夸爆的生存分析步骤✅ 救命🆘生存分析真没你想的那么难!一篇给你讲清楚KM曲线原理+TCGA数据下载+R实操,小白也能画出漂亮的生存曲线📊 🔬 一句话原理 生存分析就是统计患者从入组到死亡(或复发、转移)的时间。KM方法(Kaplan-Meier)画出阶梯式下降的曲线,告诉我们不同时间点患者还活着的概率。x轴是时间,y轴是生存概率,每死一个人曲线就下一个台阶。 📥 数据下载(TCGA) 还是之前的UCSC Xena或GDC,选肺腺癌(LUAD) 表型数据里就有生存信息:OS(生存状态,1=死亡,0=存活),OS time(生存时间,单位一般是天) 样本编码(sample ID)要和表达矩阵的样本对应好 ⚙️ R处理核心操作(记逻辑就行) 读取生存信息(含OS、OS time、sample ID) 读取表达矩阵(之前下载的counts数据) 提取肿瘤样本(样本编号不含“11”的) 表达矩阵是宽格式,转置成行为样本、列为基因 取交集:既有表达数据又有生存数据的样本(约513个) 合并成一列:样本ID + 表达量(RRM2基因)+ OS + OS time 📊 分组与画图 按基因表达量中位数分成高表达组和低表达组(也可分4组) 用survival包拟合KM曲线,用survminer包可视化 曲线图上:高表达红色,低表达蓝色 阶梯每下一级代表有患者死亡 关键看p值:p < 0.05 才有统计学意义 还要看风险表(number at risk),显示每个时间点还剩多少患者 🔍 怎么解读结果? 看低表达组的曲线是否在高表达组上方 → 低表达组生存更好 如果p < 0.05,说明这个基因的表达水平与患者预后显著相关 比如视频里的RRM2基因,低表达组生存更好,说明RRM2可能是促癌基因 ⚠️ 小提示 OS time单位是天,数值很大(几千),画图时除以365换算成年,x轴更好看 生存时间≠生存概率,别搞混 删失(Censoring)表示患者失访或研究结束时还活着,曲线上的竖杠就是删失标记 跟着做,画出漂亮的KM曲线!祝大家p值显著,文章顺利🎉@DOU+小助手 #动物实验 #细胞实验 #生信分析 #科研狗的日常 #实验室日常
00:00 / 09:50
连播
清屏
智能
倍速
点赞119