共病分析三点零放弃孟德尔学这个一区已经向你在招手了,听学长一句预测,你再抱着孟德尔这句话做共病分析,明年这个时候你还可能再被拒稿。看完这篇,学长带你了解共病三点零,抓住这个新的风口,公共学习加积极学习,轻松发高分。 我们都知道共病火了挺久了,但对小白来讲,实验做不到,数据找不到,方法学不会,这都是常态。共病分析之所以香,是因为他不用做实验,但是路子选错了,照样白给。 首先让我们来回顾一下三点零以前的各个版本,他们都做了哪些工作版本一点双极病找交集金,这太原始了,就像两个菜市场卖白菜,能说明啥层次的问题? 发篇三分的文章都费劲,纯粹是练手。大家看公屏这个流程图,现在看都 old school 了。再看二点零版本,孟德尔随机话,说实话,这个当年还是在 c 位的,但放到现在已经不是过不过气的问题,是发不发的出去的问题。深更一个师弟跟风做了这个睡眠与脱发的孟德尔 数据做的非常漂亮,连头五本全被拒。听一句劝,真的不要再随便入孟德尔的坑了,除非真的要给你的暴露和你的结局找一个因果关系,然后再做下一个研究,补上一堆实验。 那么问题来了,到底应该怎么做呢?我们三点零版本直接上公共数据库,加积极学习加笑解释,这才是当下的版本答案。 它的底层逻辑是用大样本,全球范围的、国家范围的宏观数据,像 g、 b、 d 和 n、 h、 s 这样数据库通过高级的机器学习模型,不仅能够预测疾病的共病模式,更能解读背后复杂的风险因素贡献度。 这个格局一下就打开了。比如说,有研究用 g、 b、 d 数据库看全球心梗和脑梗的共病模式,用机器学习一筛,再用 sharp 一 解读不同国家主导风险一目了然,文章直接冲着公共卫生政策去了。 再比如, nash 数据库分析几十种膳食抗氧化剂对心血管和癌症的共病影响,构建机器学习模型,用 shop 解释每种营养素的贡献,三十七天便拿下高达十一分的 redox biology 这篇杂志。这个数据源和思路价值连城。学长,作为过来人,我知道你的卡点在哪里。 第一,公共数据库不会用,连 g、 p、 d 网站和 whatsapp 网站或者注册都搞不清楚,更别谈下载和数据清理了。第二,机器学习一听起来就很吓人,什么 s、 b、 e、 m 随机森林,什么叉机 boss 的 like, g b m 下不图根本无从下手。第三,最重要的一点, 一点零是用差异基因来做核心主导。二点零是孟德尔筛选那些与暴露因素如疾病 a 有 强因果联系的遗传变异,这些 s、 m、 p 是 否也与疾病 b 相关?那么,三点零到底核心逻辑是哪里呢? 我用一张表格告诉你,咱们是用机器学习的监督学习来做的 label 是 同时患有两种疾病的为一,没有的为零。我直接一张图告诉你这个输入文件该是什么样的。看这张表格记清楚,一定是要共同患这种病的 label 才能标为一。如果只是换了一种,都标为零, ok? 那 么如果你不会 r 语言,不会机器学习,我这里学长早就为你准备好了 r 语言的入门教程,包含了机器学习的 q 二单细胞复现代码, 私信我,我发给你。那么最后三点零为什么能发高分呢?因为他回答的问题更加本质,不再是 a 和 b 有 关吗?而是在大样本全球和人群的层面, a 和 b 的 共病是如何 被驱动的?被哪些风险因素所驱动的?各自的贡献度分别是多少?他提供的是全景洞察和量化归因,这才是神稿人想要看到的公共健康价值。而且这套方法论是非常灵活的,除了共病,像单细胞分析、临床数据预测,底层逻辑都能够相通。 所以别在孟德尔的死胡同里卷了,导师可能还让你做,那是因为他的信息更新延迟,但是你对自己一定要负责,打破信息差就是改变的第一步,公共数据库机器学习加可解释性 ai, 这是下一步发文的高地。最后打个小广告,需要医学科研辅导的后台私信我哦。
粉丝8889获赞2.9万

哈喽,大家好,今天给大家分享孟德尔学计划分析中的工定位分析,该系列主要是从以下五个方面给大家进行介绍,包括什么是工定位分析?工定位分析的目的以及意义, 供定位分析的应用、供定位分析的实现以及供定位分析的结果如何解读。由于内容比较多,因此会分成三部分给大家进行分享,今天主要给大家介绍前三部分的内容。一、什么是供定位分析?在基因组关联分析中,供定位分析是一种统计方法,用于鉴定两个表情 是否由某一个区域的同一个基因变异味点驱动,从而加强两个表情之间的关联证据。这些表情可以是分子表型,比如蛋白质或 m、 r a 等。 也可以是常见的连续性表情,比如血压、 bmi 指数等等。或者是二分类的表情,比如糖尿病或二次海默等等。二、固定位分析的目的很有意义。固定位分析的基本思想是,如, 如果两个性状在同一个基因危点上表现出显著的关联信号,那么这可能表明该危点上的基因变异同时影响这两个性状。通过宫定位分析,研究人员可以找出那些可能在多个性状或疾病中起 作用的基因或基因变异,从而提供对生物学机制的一个新见解,或者为疾病的预防和治疗提供新的把点。三、功能分析的应用在文献 pmid 一三五 五幺三四二零一中,作者使用英国 s n p 上下游两百 k b 的范围进行公定位的区域,对暴露和结局的主 s 数据进行 分析,发现暴露和结局在给定的区域内没有共享的变异味点,侧面说明研究结果的可靠性。其次,在另一篇文献中,作者使用顺势的 eqtl 数据和主动脉流的 jws 数据进行了公定位分析,确定了两个治疗主动脉流的潜在治疗八点。综上所述,在孟德尔 学计划的分析中,我们都可以考虑加入宫定位分析来丰富我们的文章内容,巩固我们的分析结果。至此,今天关于宫定位的分享就结束了,感谢大家的关注,想了解更多生性技能的小伙伴可以在评论区留言,我们下期再见。

哈喽,大家好,这里是小七学姐,那从今天开始呢,我们就要来分享孟德尔随机化的内容。正式介绍之前呢,我们就先来了解一个检验因果关系的金标准,也就是随机对照实验, 它是一种科学实验设计,广泛的应用于医学研究,还有一些其他的领域, 就是来评估一种干预措施是否存在治疗或者预防疾病方面更有效。 嗯,因为它能够最大程度的避免临床实验设计,还有时事中可能出现的各种偏移平衡混杂因素。嗯,有提高统计学检验的有效期等等的优点,所以它就被公认为是评价干预措施的金标准。 好,那左边的这一张图呢,就是随机对照实验的一个简单的流程图。 嗯,首先呢就是要收集一定的样本,对样本进行随机的分组,就分为实验组还有对照组,实验组就是会介入某种干预的。嗯,这个对照组呢,就是不介入, 接着就要平衡掉两组之间的混杂因素,再来比较它们之间结果的不同。 但是呢,我们在进行随机对照实验的时候,会有一些弊端,比如说有些实验会消耗大量的人力物力财力,或者是我们的实验设计比较复杂,或者是涉及到了一些医学论文。所以呢,这个时候我们就需要选择一些其他的分析方法, 就比如说我们今天要讲到的孟德尔随机化分析。嗯,孟德尔随机化分析的核心是利用孟德尔的第二定律,也就是自由组合定律。嗯,那右边的这张图呢,就是自由组合定律的一个原理图, 嗯,就是它是同源染色体等位基因分离的时候,嗯,非同源染色体和非等位基因间进行了一个自由组合, 那这一个步骤就是我们随机对照实验当中的这个随机分组,嗯,和这一步是比较类似的,所以呢,我们就认为目的随机对照实验的一种分析方法。 好,那接着我们就来介绍一下这个孟德尔随机化。首先我们要先来了解一个非常重要的概念,也就是单核苷酸多肽性, 它简称为 snp, 主要就是指我们金足水平上的单个核苷酸的变异引起了 dna 序列多肽性由单个碱基的转换或者颠换所引起的,那它也可以由碱基的插入或者缺失所致。 嗯,通俗一点讲就是我们可以看一下这个图,我们人体之间呢,有百分之九十九的基因,它都是相似的,但是呢,每一个人表现出来的外貌、体型等等都是各有差别的。 这就是我们的 dna 片段中存在单个碱基或者是单个核苷酸发生了突变,也就是说存在一些可变的位点, 那这些就是这种可变的位点呢,就是我们讲到的 snp, 这里呢这个可变的位点,这些 snp 它约占我们遗传信息总量的百分之一。嗯,这个 snp 它可以位于非编码的区域,也可以位于编码的区域, 它不管是位于哪一个区域,都是可以通过一定的途径影响到我们蛋白质的功能或者是翻译转录这些的速率, 最终呢就导致蛋白质的功能或者是基因表达量发生一定的变化,然后它最终就会表现出我们人体的一些外貌特征的一些差异。 好,那接着我们就来看一下孟德尔随机化的定义。孟德尔随机化呢,就是用一种遗传变,遗传变异来作为工具变量, 来评估暴露与结局之间的一个因果关系的统计方法。所以其实这个 moment 随机化呢,它就是一种统计方法。 好,这边有一个简单的流程图,大家可以看一下,我们来解释一下,我们就以这一个例子来解释一下。比如说我们想要研究吸烟和精神分裂症之间是否存在一个因果关系,那吸烟就作为它的暴露因素,精神分裂症作为结局变量。 这时候我们就可以提取吸烟相关的一些 snp, 或者是,嗯,可以说是基因来代替这样的暴露因素, 也就是代替吸烟的这一个表形与结局进行一个回归分析。那最后我们的回归分析显示,我们提取的这些 snp 或者基因与结局之间确实存在因果关系, 也就是说它们的 p 值小于零点零五,那就可以认为吸烟与精神分裂症之间可能是存在因果关系的。然后续呢就会进行一些敏感性的分析,来看一下我们的这个结果是否可靠。 在这里的这个混杂因素是什么呢?这个混杂因素就比如说是我们的睡眠时间,他同时影响这个吸烟还有这个精神分裂症的发生,那这个,嗯,睡眠时间就可以作为这个混杂因素。 嗯,后续的分析呢就会来校正混杂因素。那接着我们就来看一下哪些表现可以作为我们的暴露,哪些表现可以作为结局? 嗯,首先这个暴露呢?他可以是影响结局的任何因素或者是特征,他既可以是内部的,也可以是外部的,内部的就比如像一些外貌啊,体型这些外部的因素,就 例如吸烟、饮酒这些。好,那这里的结局呢?结局变量,它就是与研究相关的一个定量或者定性的指标,然后这个结局它可以是一些疾病,比如说肝癌啊,肺癌这些,或者是一些指标, 那这些指标,就比如说像这个圣小球滤过滤水平这些都是可以做一个结局的。但是这些暴露和结局这些表情并不是一定的。 嗯,也就是作为暴露的这些表情,他同样的也可以作为结局,那作为结局也的表现也可以作为暴露。那这里就提到了一个反向因果, 就是我们本来原我原本研究的是暴露对结局的影响,嗯,是否会暴露的这个表情,暴露是否会影响到我们结局的一个变化,但是我们发现这个变化是由结局导致暴露产生的变化。 那这样呢?我们就可以说这个研究是存在一个反向因果的,这时候就可以做一个双向梦的分析,来看一下这个研究是否存在一个反向因果。嗯,当然不存在反向因果是最好的,因为我们本来就是研究的是暴露对结局的这样的一个影响。 好,那这些就给大家举了一些例子,一部分的例子大家可以看一下。那下一个视频就给大家分享一下我们这些暴露洁具里所用到的数据,它的来源在哪里?那今天的视频就分享到这里, 欢迎大家在评论区留言和讨论,更多的内容可以关注每天下午十四点十分小破站直播哦!

各位同学大家好,欢迎来到深信思学,我是博士,这课我们来学习一下热点,经一 g t e x e q t l 共定位梦特计划分析, 我们的课程来源于深信思学,零基础学,深信就到深信思学,请大家关注微信公众号 m 幺零九,即可获得课程脚本视频讲解,零基础可学会保姆式详细讲解,一对一的指导,可推荐发表。 s c i。 这节课的目标很简单,用一句话来概括,就是 把某个基因可能跟某个疾病有关的这件事说的更有证据一点,我们会把三块东西串起来讲梦岛十句话分析的结果里的后选热点基因,也就是前面的 m r 分 析筛选出来的那批基因。第二个呢是 g、 t、 x 的 eq、 t、 o 数据,看看这些基因的表达受哪些 s、 n、 b 的 调控。 第三个呢,是我们需要一个即挂式结局数据,也就是疾病的全基因组关联结果。最后呢,我们用一个 color 的 贝斯共定位方法回答一个问题, 某个位点上调控基因表达的 snp 和影响疾病风险的 snp 是 不是同一个?如果是,那这个基因就不只是相关,而是更有可能直接参与了疾病的调控机制。那我们这里的准备数据呢?一个就是前面我筛选的 目标基,就是我们前面跑的目的,是句话吗?然后得到了一些阳线结果,我们把这些基因把它整理出来,然后把它放到这个基因历史里面去,把它复制粘贴到里面去就可以了,粘贴到这里就可以了。第二个呢就是结局数据,那么结局数据的话我们放这里了,我们前面呢有相应的课程教大家怎么去转结局数据,大家可以对应的去看这个课程呢, 然后准备好了我们的暴露数据,就居民 list 还有极具数据在这里,那么极具数据的话我们需要整理一下,因为极具数据的话,有的人来源不一样的话,我们需要对它的名字进行匹配,我们整理一下这个表格,就是要有这几列数据在上面,呃,一个是 outcome, 呃, disease, cases, controls, symbols, 把这些数据把它填上去,比如说这是文件名对不对?在 out 里面的一个文件名,然后这是它的名,呃,疾病的名称, 如果你们是其他数据的话,就依次往下填就可以了啊,这样的话我们代码会读取啊这个数据,然后去匹配他的名字,大家把这个结果把它复制一下,复制粘贴到,粘贴到 alt com, 点击里面去, ok, 然后保存 就可以了。那么还有一个就是我们的 g t e x 的 e q t o 数据,也就是这个数据,那我用的是全血啊,如果你们是用的其他组织数据也是可以的,那么这个数据从哪里来呢?就是我们一百五十二克,那么直接从这里面下载就可以了啊, 那我下的是全选数据啊,全选数据,那么我们代码会通过这个基因 list 啊,去读取全选数据的里面一个基因,然后把这个基因数据把它提取出来,然后把它用代码去做公定位分析啊,大家一定要注意,就是这个数据的话,是原始的全选数据啊,不是经过暴露筛选的数据啊,如果你用暴露筛选的数据的话,可能会丢失一些重要的信号。 ok, 那 么准备好了这些数据,我们就可以直接打开 b f i c i a i project 镜头功能路径,然后点击 face, 点击这个 脚本就可以了,那我们全选乱一下,他就会出结果。那这里的话我们有几个需要注意的,首先就是我们的输入的文件,然后这个句历史的话就是我们需要跑哪些基因, 就是我们前期跑了这个双丫本梦的说一句话,分析之后我们筛选的一些阳性的这个结果,就是这些基因对结局他是有影响的,是有因果关系的,对我们进一步去找他的共定位的一个关系啊。第二个呢就是我们的原始数据, 我们又是全选的,如果你就是是其他组织的话,你们就换就可以了啊,那么这个文件的话就直接放到这个文件夹就可以了啊,然后还有就是在 alt 文件夹下,我们会放呃上我们的这个结局文件,然后还有 alt com 点 t t, 就是 呃我们的结局的一个基本信息啊,这是文件名,然后这是疾病名,然后他的 cases, 还有 control, 还有一个呃,总样本量啊,那么还有一个的就是确定好了之后呢,我们就可以全选乱一下,然后跑这个的话他可能需要点时间,然后他的结果呢就会在 result 里面,我们可以看一下,首先就是这个结果,我们来解读一下他第一列是 gene symbol, 第二列呢是它的结局的名称,第三列是 n s n p 啊,第列,第四列呢就是第四列到后面这些就是它的 h 零到 h 四的一个值啊,也就是五个假设的后验概率啊,那么这是我们的核心啊,我们看后验概率的话,就看它的一个百分比啊,百分比, 比如说这个的话是 h 四的百分比是大于百分之八十,就可以认为他们是存在的供给关系啊,那么其他的话是不存在供给关系,那么也有的文章会把它设为零点七五啊,都是可以的, 主要是看看这个 h 四,我们来初步解释一下这个 h 零到 h 四的一个概率分别代表什么意思啊。 h 零的话就是这个区域既不像是影响基因表达,也不像是影响疾病风险啊, 就是两边都没有真正的信号。 h 一 的话就代表着这个区域基因表达确实被遗传变异调控,但疾病的激光二十基本没有看到明显的信号, h 二的话表示这个区域疾病有明显的遗传信号,但看不出对该基因表达的影响。 h 三是两边都有信号,但不是同一个结果的一个变异,可以理解为这附近又影响基因表达,又影响基因密,但是应该是两套不同的变异在起作用,那么 h 四的话是两边都有信号,并且高度怀疑是同一个因果变异,这就是我们最关心的真正共定位的概率啊, 某个 s m p 既影响某个 s m p, 既显著影响该基因的表达,又显著影响这个疾病啊。我们有个判断标准就是 h 四大于零点八,有的是或大于零点七,就认为同一个因果变异这件事情有较强的变异式知识啊, 那么这个基因也和这个结局组合适合作为重点的后选优先关注,所以我们主要看 h 四啊,可以看到这一组的话是比较强的一个信号,那么这个的话可以 结合我们前面的 m r 分 析啊,进不去分析啊,因为前面我们都已经筛选过了,这些都是存在的因果关系的,然后找到这个公定位,对吧?那么这一组的话就属于最强的一个信号啊。 另外的话,我们看一下这个图怎么进行解读啊,这是格式化的 pdf 图,那么脚本会对每一个基因和结局啊,都生成一张这样的图啊, 然后会画出它的一个位点的一个信号。那么左边这个图是呃这个极卦的数据的啊,那么是以 s n p 为单位,横轴是 l d, 呃,或者是它的一个位置啊,纵轴是 f log 十啊,这个 p 子展示该区域内每个病例对结局的一个显著性了。 那么右图是 eqt 的 一个呃数据啊,同样是这批 snp, 对 应的则是对该基因表达的一个显著性。那么在这一头我们可以看到呢?左右两图的主风主信号风是否对齐啊?如果两面都是同一批 snp 在 最显著,那么风形位置几乎重叠, 就很支持公定位。如果左边的风在一块,右边的风偏在另一块,就倾向于呃 h 三的或者其他情况,那么可以看到了吗?的话,那么这一组的话,它是存在的一个公定位的一个位点啊,就是这个位点。那么这一套流程下来,呃,我们展示了我们的一个技术方法, 又把结果到底说明了什么啊,讲的要更清晰了。好的,这一课上这里,谢谢大家!我们的课程来源,深信思学零基础学深信就到深信思学请大家关注微信公众号 m 幺零九,即可获得课程脚本视频讲解,零基础可学会保姆式详细讲解,一对一的指导。可推荐发票, s c i。

hello, 大家好,欢迎来到今天的实操干货分享。今天的这一期视频是孟德尔的最后一个视频了,多变量孟德尔随机化全流程。我是小七, 相信大家在做因果推断研究时,经常会遇到一个问题,比如我想研究血脂和冠心病的关系,但血脂里有 ldl、 低密度脂蛋白、 hdl、 高密度脂蛋白、甘油三酯等多个指标,它们之间可能相互影响。那怎么才能排除混杂,找到每一个因素对应结局的独立因果效应呢?这时候多变量的随机化就派上大用场了。好, 我们打开代码进入今天的实操,那在开始之前还是要把 r 包加载一下, 这个 r 包可能不太好安装,大家可以看一下我的代码,多尝试几种方法。 好,接着就是晴空环境变量,我们设置一下工作路径,这里我们的多个暴露有低密度脂蛋白、高密度脂蛋白、甘油三酯这三个。好,我们这里的结局选择的就是冠状动脉,心脏病就是冠心病。 好,这个代码就是我们要加载的这一个 i u 数据库里的数据,前面的一个路径设置 好,因为这里读取数据非常的缓慢,所以我就提前读取进来了。我们这一个文件夹里面呢放了三个暴露的数据,还有一个结局的数据,那我们就用这一个函数把它读取进来, 它的格式是 vcf 格式的,读进来之后我们就把这个格式转换一下,用的就是这一个函数来进行转换。转换之后我们就来筛选 p 值,因为我们要筛选和暴露墙相关的工具变量,所以这里的 p 值要小于五乘以十的负八次方。 好。选择完之后呢,我们就要来去除连锁不平衡,那这个在线去除呢,就很容易报错,我们推荐大家用本地去除连锁不平衡,我们的这一个数据的下载之前也和大家分享过了, 我是放在了这一个路径下,所以我们这里的路径还有它的名称,就把它复制粘贴过来,因为我们这里的是欧洲人群,所以在后面写上 e、 u r。 好, 本地去除连锁不平衡,这里 kb 也是选择的一万 r 的 平方,选择的是零点零零一。 好,去除连锁不平衡之后呢,我们就要选择和暴露墙相关的 s、 n、 p, 然后这里就比对一下,然后合并,合并之后我们就把暴露的名称修改一下,分别是这三个就给它改一下,然后大家可以把这个结果保存 好。结果保存之后呢,我们现在要把这个暴露因素中的 snp 还有屁值这两列提取出来,这两列呢就是我们最核心的两列, snp 就是 在 mr 分 析中的一个核心变量,这个屁值就是可以看这个 snp 对 应暴露关联的一个屁值,它是衡量关联的显著性的,所以这两列我们就把数据简化一下提取出来,我们来看一下。 好,现在它就是 s、 n、 p 这一列和暴露的 p 值这一列好,这一个也是好,这一个也是 好。接着我们就要把这些数据进行合并,把我们前面得到的这三个暴露的数据合并在一起,我们用的是 rebind 的 这一个函数, 合并之后我们这里要去重,去重的就是我们要保留这些不重复的 snp 的 这些行, 因为在前面我们有三个数据的 snp, 在 合并之后呢,它就有可能又有重复的,所以这里就去除一下重复值。 好,合并之后呢,我们就要再来进行一个去除连锁不平衡,因为我们三组分开的工具变量把它合成了一组,但是有的 snp 呢,它可能在多个表形中,所以这里要再去一下重,同样的还是这两列 好,然后再去一下虫,去虫之后呢就给它修改一下列名,我们要把列名改成这样的一个标准格式才能够运行 好。接下来我们点开这个数据看一下。 好前面的这些步骤完了之后,我们把这一个点开,我们看到第三列是他默认的一个列,所以我们就把不需要的给他删去,把第三列删去。 接下来我们把这个 snp 和暴露来进行一个合并,就得到了三个暴露的结果,然后把名称修改一下,这样在最后的结果里才可以一目了然地看出来是哪一个暴露对应的结局。 好,这里也是加载的很慢,我就提前加载进来了,我们把结局的数据也读取进来,它也是一个 vcf 的 格式,那这一个格式就很好转换,我们就用这个函数就可以转换,然后它的嗯, type 就是 outcome, 我 们上面的这一个它就是暴露的数据,然后下面的这一个就是结局的。 接着呢我们就把这个 s、 n、 p 和结局来进行合并,合并完之后我们筛选工具变量结局,我们筛选的 p 值就是要大于五乘以十的负八次方的。 好,接着呢我们就把暴露的这些数据全部合并起来,合并之后我们来整理结果,现在我们来看一下这一个数据是什么样子的, 它这一个数据里面有暴露的 beta 值、 p 值、 se 值这些。好,我们就把需要的给它提取出来,我们需要的就是 beta 和 se。 好, 提取出来之后,我们就可以来进行这个 moment 随机化的分析了。好,分析之后我们来看到这一个,它是一个 list 的 格式,那我们想要查看里面的数据,我们就把它提取出来,复制给一个新的变量,我们来看一下最后的 result, 这里就可以看到不同的暴露对应的结局。这样的一个效应值有 beta 值、 se 值,还有 p 值。那这一个我们的这一个 高密度脂蛋白,它的这个 p 值大约是零点二左右,它是大于零点零五的,所以这一个结果就是我们可以把它省略掉。来看到下面的这两个,它们的 p 值是远远小于零点零五的。 好,接着就可以看一下它的 snp 数目,看它的贝塔值, se 值,就是这一个暴露对于这一个结局的独立的这样的一个效应。 接着呢还有第二种方法,但是这个方法呢就涉及到了在线读取好,很有可能就会报错,如果大家对第二个方法感兴趣的话,可以 给我留言。好,那今天的视频分享就到这里结束了,欢迎大家在评论区留言和讨论,我们下次再见,拜拜。

哈喽,大家好,这期我们主要讲 wechat 建立数据库的一个循环,然后这里的话还是跟我们一样,我们的结局呢,还是有很多的,还是我们这个分来数据库,先加载我们一些数据的二包,加载完之后又可以设置同步路径以及读取我们的结局。数据 读取完之后把它转换成一个路径框格式,这里已经弄好了,我就先不点开它,因为它会有点卡,然后暴露数据,我也读取好了,还是要把它转换成一个路径框格式,然后这里我们点开看一下它的数据格式,那这里要稍微加载一会儿, 因为它的数量比较大,两千一百多万行。然后这里我们看到它有很多很多的列,包括我们的位置列、 s、 n、 p 以及我们的 p、 u、 l 比特二十一相应的元积列,它都呈存在存在的,这个也可以看一下我们数据看到这系列,然后我们的 excel 列就是这些, 我们可以提取我们的这个 old b、 l、 b, 这个就是相当于我们的 excel, 然后我们可以看一下,就打我们这个 excel 这个列,因为我们是驱虫了,我们就拿前十个基因作为我们的这个循环,跟我们的 dq 数据库几乎一样,扔一些盒子。 好,这里循环,我们看一下,还是打印把这些基因提取出来,如果你们做很多循环的话,这个也是要做的。然后这里还是把暴露数据转换成我们的暴露格式,就相当于改一个数据框,这边还是改一下它的名字,把我们每一个音名字加进去。 ok, 这里是基础联组不平衡, 然后这里的话还是基础联组不平衡,之后筛选一些 s n p, 那 结局的话也要筛选空格的 s n p 以及转换成数据格式,给你改个名字, 后面就是数据整合,看报表机记上 o r 值,然后把它装进我们盒子里,然后我们的敏感性分析也是一样,很喜欢就装进盒子里, 然后到这里情况就结束了,然后我们就运行一下,在这里我们还是先看一下我们这个数据,就是这里因为 e q 的 镜头啊,它是顺势的,然后 有两个,这个是我们已经没有筛选的,有三点二 g, 这个是经过五乘以十的负八字档筛选的一个数据结局,其实也是我们的一个老朋友对这个一直使用这个就避免大家会混乱,这边再循环十个连,我们提取了十个,要稍等一下,这边就运行完成, 他这会有些这些提示,那是因为他没有 s m p, 要么就是 s m p 数量只有一个, 那它就没有进行一个敏感性分析,这两个都是敏感性分析,我们知道就好,它只是一个警告,但是如果没有这这个的话,它的警告就不是报错,就终止我们的这个运行,所以我们还是需要的。这边我们还是看一下我们的结果,看一下我们的 result, 看到这里有会有很多很多的这个, 这边的话,因为每个 s m p 它都相对比较多,只有寥寥几个,只有一个 s m p 的 这个 s m p 点,然后它所有值都拿到了,花值也计算出来了 p 值,后面还是要去找到一些 p 值小于零点零五的,有相关的基因, 然后我们是只只看 i v w 结果, wr 基本只看这两个。然后我们就可以去提取一下,看一下只提取我们 r v w 结果,这个的话是排序,然后计算一个矫正的一个字,我们可以看一下我们的 i s, 先经经过我们筛选的 r v w r 列 以及我们的这个筛选 p 值得到这样一个结果。前四行的 p 值是有显著相关性的,然后它 o r 值两个是危险因素,两个是保护因素,大一是危险因素,小一是保护因素。然后的话我们还是要看的跨一, 这些都是没有跨一的,就是符合条件的这个也没有跨一,这个没有跨一,都是符合一个条件,然后跟我们的是符合条件的跨一,就是 是这个最小值的最大值之间不包含银,那就没有夸奖。然后还是要筛选我们的皮质,就把刚才的撕裂给拿出来,然后进行一个敏感性和一级性的一个筛选,因为我们的敏感性一级的话它是有很多,所有的金都有,那十颗金都有, 然后我们只筛选下这几个,就可以把这几个给拿出来,拿出来之后我们可以判断一下,一个是显著的,那就可以得到显著结果的,如果是显著的话,那我们就把它进结果里面剔除,那也还是我们的那几个音。为什么这个是三个呢? 因为我们结果里面虽然有四个结果,因为有一个这个是 w r, 他 一个双 p, 所以 他是没有进行一个敏感性分析,所以这个就是三,不然他就是四,然后这样子可以弄出来, 然后面的话,因为我们的是 envelope 号,可以把它给转换成我们的一些 stimp 号, envelope 我 们也不知道它是啥,然后转换的方法其实也没有什么的,然后这个的话是读取我们的结果,它这个转换只需要这个文件, 我们可以先读取一下这个 gtf 文件,它是有备注的,然后这个文件这里有一个 insert 号,因为这个数据库它是基于这个三十七版本勾线的,如果我们用三十七版本 excel 的 键是三十七版本的,然后我们就把这个 id 名的 id insert 列提出来,让我们看一下这是啥东西。 我们可以明显看到第一列是 insert, 一 二列是那个 insert 号,就可以把我们结果跟 insert 拼起来,去在那一个 excel 里面的 excel 拼起来,我们就可以得到一个 df。 第二步可以看一下,把精明这列给加进去,就可以比较直观,看到他是什么精明,可以把它写出来。后面的话这个是画一个 无,但前面我们没有结果,所以没给大家画,然后结果图大概是个这个弄这样子,为什么呢?因为这个数不对,所以要改成四画一下,就是没有一个跨一的位就是 ok 的, 主要是他那个范围个度的范围是有点大, 可以试一下调成零点一或者一吧,这样子可以就可以了,是星星上下线,这个应该是没有问题的,点啪打出来就可以了,因为这个不是绝对的,就是大家可以改一下里面的数字,本期内容到这里,谢谢大家。

哈喽,大家好,我们前面要分享我梦到水净化的一个数据下载和处理,以及我们梦到水净化的一个流程。那我们今天就来了解一下我们梦到水净化的一个分析方法, 我们知道了他的这样一个流程,然后得选择我们使用什么方法来进行分析。梦的常见的一个分析方法就包括两样本梦的水就化、多变量梦的水就化、双项梦的水就化,以及中介和药宝这五种常见的一个分析方法。 首先是两样本梦的水就化,两样本梦的水就化就只包括暴露和结局这两个结果, 他暴露就是与我们结局相关的这样一些特征或者是因素,那暴露就需要去我们的这些数据库中下载,然后去提取他与暴露相关的这样一些工具变量。然后还有包括我们与结局相关的工具变量,我们就可以利用这两个 同的一个样本来进行判断他们暴露与结局之间的一个因果关系。然后使用两样本梦的数据化方法的话,我们可以克服样本的一个选择性偏差。第二就是多变量的数据化, 多变量的数据化就是说我们的暴露他可以有多个暴露,然后结局的话也可以有多个结局或者是一个结局。 就比如说我们研究或者是体重指数和我们血压对我们二型糖尿病的一个共同影响,那我们就可以选择多变量的数据号来进行评估我们多个暴露对他们之间的一个影响和他们的一个关系。第三就是我们的双项目的数据号, 双向梦的水计划是来判断他们暴露和结局之间的一个关系,就是说检验他们是否存在一个反向因果关系,那我们在做这个的时候,我们肯定是想他没有这样反向的一个结果,然后接着就是中介梦的水计划,中介他就增加了 一个中介变量,然后就是我们的中介可能是通过中介间接导致的我们暴露因素对我们结局产生的一个影响。举个例子就说我们中介是我们的血脂异常,而我们的暴露是我们吸烟, 然后结局说冠心病,那就是说我们的暴露影响我们的这样一个中介,进而导致我们的冠心病结局产生的一个影响,然后去判断他们之间的一个关系,可以使用中介梦的数据化就可以研究他们的一个潜在机制, 然后看我们的中介变量在我们暴露对结局之间的一个关系。最后一个就是我们的药物靶点,它也是我们药物与肌体内的一个生物 分子结合的一个特定位点,我们使用药物靶点的一个梦的实际化暴露,就是必须是我们特定药物的一个生物靶 点来做我们的暴露因素,然后结局的话就是我们这个药物可能会影响的一个结果,作为一个结局,那我们使用药物靶点就是来评估我们药物靶点对某一种疾病或者是别的一个结局产生的一个潜在的影响,那我们就可以使用药物靶点,药物靶点的一个梦的实际化,它是可以 知道我们的药物开发的,然后我们可以看一下多变量的实际化的这样一个图,他的一个多变量他就有多个暴露因素,暴露因素一或者是暴露因素二,他就有两个以上,然后他都会对我们结局产生影响, 我们就需要判断这多个变量对我们结局产生的一个影响,他们之间的一个关系。然后接着是中介梦的实际化。中介梦的实际化就是说我们就需要去判断我们的暴露因素对 我们中介因素的一个影响,进而导致我们结局变量的一个影响。我们今天用到了省去画的一个方法,就分享到这里,我们下期见。

大家好,上一期视频我们了解了莫德尔随机化的核心概念和核心假设,今天我们来深入的看一下它的一个分析流程,看看从数据准备到结构格式化的一个完整步骤。 我会先从莫德尔随机化的基础数据来源全基因组关联研究 gwos 来讲起, 再一步步的拆解目的学习化的具体的分析步骤,全程都是实操中最关键的环节,新手也能够嗯轻松的跟上。首先我们先看到,嗯,先来认识一下 我们上一期说到的这个理论呢,是到今天的流程就是数,我们掌握了这个流程,我们就能够把目的学习化的这个理论落地,真正的用它来解决你的研究问题。 整个流程的核心就是基于 gwos 数据,通过一系列的筛选分析,最终推断出暴露与结局之间的因果关系。好,我们来认识一下这个 gwos, 我 们先看到末端这句话的一个数据基础,全基因组关联研究 gwos, 它是一种大型的 这个遗传关联分析的方法,它会检测成千上万个遗传变异,主要是 snp, 来找出它们这些和特定表型或疾病显著相关的位点。它的流程 就是基本流程,就是从表型的选择,我们要先确定研究的表型,比如血脂水平,冠心病风险,既可以是连续变量,也可以是这个二分类变量。 然后进行队列的一个构建,招募大量的研究对象,收集他们的遗传数据和表情信息, 然后进行测序和关联分析。是对研究对象进行全基因组的测序,然后分析每一个 snp 和表情的关联强度。最后进入后续的一个分析,就是,嗯,对显著的关联的 snp 进行精细的定位,还有一些功能的注视, 来深入地挖掘它的这个生物学意义。 mod 十计划的分析呢,它就是依赖我们 javascript 的 一个结果,因为我们需要从 javascript 数据中筛选出与暴露因素强相关的遗传变异,作为后续分析的工具变量。接下来我们来看到这个 mod 十计划的一个分析流程, 它列出了嗯六个核心的步骤。首先第一个是获取我们的暴露和结局的 gwos 数据。首先我们分别要去获取暴露因素和结局变量的 gwos 会总 的数据暴露的 gwos, 比如说你在研究血脂对冠心病影响的时候,你要先找到血脂相关的 gwos 数据,结局的 gwos 数据也是,同时也需要冠心病相关的 gwos 数据, 这些数据通常会在一些公开的数据库,比如说像 ieu us 这种嗯,数据公开的数据库里面进行一个获取也可以,嗯,自己开展。嗯,我们就不推荐,就是一般就自己去进行一个下载,然后把它导入到你的本地里面进行一个分析。 嗯,第二个是选择工具变量,这是文档程序化的核心步骤之一,我们需要选择和暴露因素强相关的 s、 n、 p 作为我们的工具变量, 通常是筛选的标准是 p 值,一般 p 值我们是定做,是要小于五的负八次方, 这是 g y s 中判断显著部关联的常用域值,来确保 snp 和暴露的关联足够强。第三个是去除连锁不平衡,推选出核心的这个后,选的这个 snp 之后,我们需要去除连锁不平衡。 ld 上来说就是避免选择位置过近或高度相关的 snp, 因为他们通常会带有重复的这个遗传信息。常用的参数是 kb 等于一万就是。然后嗯和这个 r 平方小于零点零零一, 这就是确保保留的 snp 的 相互独立的。我们需要去保就是确保我们保留的 snp 它是相互独立的。 然后第四个是清洗木的计算的分析,这一步通常是用不同的统计方法来核算因果的效应。常用的方法包括立方差加权法,这是一种常用的方法,适用于所有工作变量都满足的核心假设的情况。然后是加权中位数估计, 即使有百分之五十的工作变量无效,仍能得到稳健的结果。然后就是这个嗯,这个方法它可以进行一个 检测和校正多效应,同时也能提供因果效应的估计。这方法它都是有它自己的优缺点的。通常我们会同时使用多种方法来验证结果的一致性。 而最后还有一步就是进行这个敏感性分析,敏感性分析是为了评估结果的稳定性,判断结论是否可靠。主要包括嗯多效性检验,比如 嗯去检测工具变量是否存在水平的效性,还有抑制性检验,判断不同工具变量它嗯的效应是否存在抑制性。通过这些检验,我们可以识别潜在的这个偏移,来确保 model 数据化的结论更可信。 最后一个是结果的格式化,就我们会把分析结果进行格式化,比如用森林图展示不同方法的一个效应结果,用漏斗图来检测发表的 的这个偏移直观的可直观结果,不仅能够让我们更清晰的去解读数据,也能够让你的研究结论变得更加被容易去理解。 以上就是有关梦的抽象化的完整流程,总结一下,我们从 gw 数据出发,然后筛选出了独立解与暴露强相关的工具变量, 然后再用多种呃孟德尔随机化的方法来估测他的因果效应,最后用敏感式分析来验证结果的稳健性,最后再格式化展示结论。 整个呃流程都是把我们观察性的数据转化成更接近随机对照试验的证据,从而更可靠的去推荡我们的因果关系。好,以上就是有关孟德尔随机化的完整分析流程,谢谢大家。

哈喽,大家好,我们前面分享了这样一个数据库的一个处理,那我们今天就来分享一下如何对我们孟德尔分析的一个结果来进行格式化。 那首先就是需要得到我们孟德尔分析的这样一个结果,那就是使用 m 二这样一个函数来对我们孟德尔分析他的一个报数据和结局数据来进行一个孟德随机化分析,然后最终得到我们的 这个分析结果之后,我们就可以将我们的这样一个结果进行保存。保存呢我们就需要对我们的这个结果来进行验证,验证他是否是一个可靠的,就需要进行一个敏感性分析。敏感性分析那就包括一次性检验、 多效性检验以及我们留意法分析这样三种检验方法。同样我们也可以对我们 m r 分 析的一个结果和我们敏感性分析的一个结果来进行一个可塑化。 首先就是来看一下我们如何对我们孟德尔分析的这样一个结果来进行一个格式化,就是说需要提取出我们对最终得到的这个孟德尔分析的这样一个结果, 然后来进行直接使用我们这个 m r 这样一个函数来进行对我们最终得到的这样 r、 e、 s 这个表来进行格式化就可以了。那这个表就包括我们使用的这五种方法, 最终计算出来的这个 p 值,还有它的一个 o r 值等等的这样一些信息,然后对这个表来进行一个可识化就可以了。 那这里就使用的是这个函数来对我们这个分析的结果来进行可识化,需要对应到它的一个 moment 分 析的那样一个变量就可以了。 那如果我们是想将我们这个喷漆的结果保存为一个 pdf 格式的一个文件,那我们首先就需要运行上面的这 pdf 这个函数,然后先绘制一个长和宽,然后再进行画我们的这样一个图,接着就是来关闭我们不好的这个图, 给一个提示,然后我们这个图就是最终得到的 m 二、分析的一个散点图,然后这个图代表的是我们横轴代表的是我们 暴露数据 s、 n、 p 所对应的一个值,然后纵轴代表的是我们结局数据所对应的一个值,然后不同的颜色这个线代表的是我们 使用的不同的这样五种方法,然后每一个点代表的是一个 s、 n、 p, 也就是我们的一个遗传变异,然后这个图代表的意思呢,就是每一个遗传变异对应的一个暴露因素的效应量和同一个 s、 n、 p 对 结局因素的一个效应量,就是这样的,那我们的这个斜率每 一条线吗?他理合出了这样一条线,那这个线的斜率他对应的是我们被他效应的值,然后当这个斜率大于零的时候,那就说明我们的这个暴露因素对于我们结局来说他是一个风险因素,那当他的斜率小于零的时候,那 套路对于节气来说它就是一个保护因素。然后这就是我们的这样一个孟德鲁雪计划最终可塑化的一个结果。然后我们这颜色代表是我们使用的是不同的这样一个统计方法嘛,包括 v、 w 等等的这样五种方法, 然后这就是我们可说话的一个结果,那接着就是可以对他进行敏感性分析的结构可适化。敏感性分析就包括一次性检验、多效性检验以及我们留意法分析这三种方法。他比如说我们要对我们一次性检验的这个结果来进行可适化,那头像就是需要提取出我们要进行可 化的这样一个数据,那首先就是要对它进行一个一次性检验,然后检验完成之后我们可以对它来进行一个格式化,那使用的就是要先将其提取出它所对应的每一个数据,然后就使用这个 m、 r 三个 s、 n、 p 这个函数对我们这个一次性检验的格式化。接着同样 也是我们要将其保存为 pdf 格式的话,那首先就要运行这个 pdf 这样一行,然后接着再运行我们画图的这样一个函数,然后就是关闭我们画图的这样一个工具 就可以了,我们要展示在这个页面,我们就可以直接运行我们绘图的这个函数就可以了。那我们这个图就代表是每个点,同样也是我们的一个 s、 n、 p, 然后它的红坐标代表的是我们暴露对结局的一个因果效应估计值,然后我们这个纵坐标代表的是我们标准物的一个导数,然后就代表的是我们 效应估计的一个权重,它这个值越大,那就说明我们的权重越高。然后这个蓝色的线就是代表的是我们使用的这个 m、 r、 x 这个方法啊,它的一个截距,然后当它蓝色的线越接近零的时候,那就说明我们的这样一个 一次性检验的一个结果,说明他是不存在一个一次性的,那就是说我们这个梦到分析他的结果是可靠的。然后接着我们也可以对我们留意法分析的这样一个结果进行通俗化 留意法分析就可以提取出他所对应的一些 snp 的 一个值,比如说我要想展示前十个,那我就提取的是前十个他所对应的一个值,然后就这些运行 样,就使用这个函数来进行对我们这个逻法分析的结果来进行展示,来进行绘制,最终我们就得到了逻法分析的这样一个图,每一条线代表的是一个 s n p, 然后这个图表达的意思就是说我们去掉这个 s n、 p 之后,去计算它剩下所有的一个 s n p, 或者是使用 m r 这样一个方法来去计算其他剩下的所有的一个校运站,它们是否在一个均件内。如果它在一侧,那就说明我们去掉这个 s n p 之后,这个 s n p 它是对我们最终的一个结果会产生影响的,那如果 它都不在一侧或者是占两边,那就说明没有影响的,我们也是最终想要的这个结果。还有我们也可以对我们这个结果来进行一个结果森林图的一个展示啊,这个结果森林图它就包括我们单独 的这个 s n、 p 森林图,也包括我们最终码分析得到的这一些结果,那我们就需要提取出我们自己想要格式化的这一系列,比如说我要保存的是 格式化的是这个暴露数据所对应的一个 id 和我们结局数据所对应的 id, 还有我们使用的这五种方法及我们 s n p 的 一个数量和我们 p 值以及 o r 值, 还有我们 o r 值的一个执行区间的这样一些列,然后就需要提取出这些列的一个值,然后再来进行一个格式化,那这里 就是先要设置好我们要提取哪一些列,我这里想将 o r 值和它的一个百分之九十五执行区间放在同一列,那我就需要重新设置一列,然后将它们的这样一个数值进行重新的组合,还有我们需要将 p 值进行一个范围的一个修改, 就是说保留几位小数,然后我们这样对这些数据整理好之后,我们就可以来进行一个格式化。在格式化的时候,我们同样需要先导入我们 要画图使用到的这样两个包,然后导入好之后呢,同样也是直接使用绘制生影图的这个函数来画这样一个图就可以了。然后我们就是根据自己的一个审美吧, 然后看我们自己想要一个什么样的格式。首先我们就是最原始的这样一个格式,然后我们也可以将这个 p 值小零点五的这一行,将 其一个加粗,或者是将它的这个颜色更改一下都可以,然后也是根据我们自己的一个需求来进行更改就可以了,最终就得到了这样一个我们的格式化结果,这就是我们结果森林图的一个格式化。 还有我们也可以复制每一个 s n p 的 一个森林图,那就包括所有的一个 s n p, 它所对应的一个方法和我们计算的一个效用值, 然后这就是我们这样一个,嗯,所有 s、 n、 p 的 一个结果了啊,然后它这个结果就是在两侧的嘛,那像这些有一些就只在一侧,那就需要去掉这些 s、 n、 p, 说明这些 snp 是 对我们最终的一个结果可能会产生影响的。然后我们今天碰到水句话分析的一个结果格式化就分享到这里,然后我们下期见,欢迎大家在评论区留言。

哈喽,各位小伙伴,这里是小七学姐在更了几期孟德尔的视频之后啊,我看到了大家的留言和反馈,有的同学说 mr 过时了,是这样吗?其实从大家的留言还有后台的私信可以看出,大家对这个孟德尔啊还是很感兴趣的, 其实现在呢,孟德尔也会联合很多主学来进行分析,在许多场景下呢,也有不可替代性, 说他过时,我们不如说进行梦的分析的时候,需要用的更精准,更高级。那今天呢,我们就来讲一个更复杂的 梦的,就是多变量梦的和中介梦的。我们今天先来分享理论的部分,下面的视频就和大家分享实操。首先是多变量梦的随机化, 他的概念是什么呢?就是我们使用多种暴露相关的遗传变异来估计每种暴露和单一的结果之间的因果关系。 那从这个图中呢,我们可以看到我们的工具变量还是这个,结局也是这个,但是呢,他的暴露就不止一个了。 好,它适用的条件是什么?就是我们很难找到 snp 只与一个暴露因素相关,也就是说这个 snp 啊,它是和一系列的相互关联的暴露因素是有关系的,并不只和一个有关。 好,第二点呢,就是与暴露相关的这些 snp 中,它有很多都与某个或者几个混杂因素相关, 这是什么意思呢?就是我们会把这些混杂因素作为暴露来纳入到这个多变梁 moment 的 分析中,就可以校正混杂因素对这个暴露到结局的这样的一个影响。 这个就是我们在什么条件下可以使用这种多变量梦的。好,那接着呢,我们就要来给大家讲几个比较关键的知识点,一个是多效性,一个是贡献性,这个多效性在两样本梦的耳中我们也有提到, 它就是指一个人 snp, 它和多种表性都相关,可以有两种形式,首先就是这种垂直多效性,就是 snp, 它与一种表性相关,影响另外一种表型好。水平多效性呢,它就是说 snp 与两种或者多种 表性相关。所以我们在前面两样本的分析中,我们也说到了我们的水平多效性, 等到我们的 snp 大 于三的时候,就可以检验它的水平多效性好。但是呢,我们在做这个多变量 mod 的 时候,纳入的暴露就是有很多,并且它们之间肯定是 就是这些 snp, 它们之间肯定是与两个或者是三个表性都有一个强相关的,所以我们在做这个,嗯,多变量 mod 随机化的时候,对于多效性还有抑制性的 检验,它的要求就没有我们做两样本那么严格。然后在做这个多变量 moment 的 时候,嗯,我们也很少去进行一个敏感性的检验,在单变量,也就是我们两样本 m r 的 时候,就可以进行一个敏感性分析,这个多变量呢,它就是一个选择的, 并且呢相对于两样本 moment 的 话,要求就没有这么严格。那接下来呢,就要讲到一个贡献性, 这贡献性指的就是在你和限行回归模型中,两个或两个以上的变量之间都存在一个较强的相关关系。好比如说像我们的这一个图, 它就是,嗯,这一个 limit, 还有这个 rating, 它就是在一条线上的这种一个呈现,那就说明它是有贡献性的。 那像左边的这种散点呢?它的这个 limit 还有 a 几之间,它这些图都是散开的,并没有向右边的图,这样成一个共线,那就说明左边的这个图它就没有受到贡献性的影响。 好,那这个贡献性呢?就提醒我们在做多变量的时,那这个贡献性呢?就提醒我们在做多变量的时候,我们纳入的表形, 他不要过多,不要选择三到四个就差不多了。如果呢,我们选择的越多, 我们纳入分析的暴露越多,那他是不是出现这种贡献性之间,就是两两之间,出现这种贡献性的概率也会升高呢?所以呢,我们一般最好就是选择三个、两个、三个、四个这个样子就可以了。 好,那接下来呢,就来介绍一下中介孟德尔。好,那这个中介孟德尔呢?他就是来评估一个中介变量在暴露和结局之间的一个中介作用。 好,我们解释一下,在传统的这个中介分析中呢,中介呢,他就依赖了几个假设,首先就是每一个变量之间他没有混杂因素, 暴露呢,也不会造成额外的混杂因素暴露和中介之间没有相互作用。 那这个就是我们的一个。嗯,中介梦的随机化,我们可以看到这里的一个图,这是我们两样本梦的随机化,这个就是一个中介梦的随机化。好,那这里呢?这一个贝塔,他就是暴露对于结局的一个效应。那这里的,嗯,贝塔呢,他就是 暴露对结局的一个效应,是通过了中介来影响的。好,这里我们也可以看到暴露到中介之间他是有一个影响的,然后这个中介到结局他也是有一个影响的,但是呢,我们的这个暴露他是通过了中介对我们的结局有 最后的一个因果关系的影响,好,这就是一个,嗯, modir 随机化,那这里我们也可以看到这里的工具变量,我们不仅要筛选和包鲁相关的,这里还要筛选一个和中介相关的,然后再来进行分析。 那接下来我们就来介绍一个我们最常用到的方法, two step, 也就是我们的两样本 modir 分 析。 这个意思就是说我们在做这一个中介梦的分析的时候,我们要分别进行三次两样本梦的随机化的分析。首先呢,我们就是要分析这个暴露到结局之间的一个 因果关系,就是分析他们的一个两样本 mr, 然后还要分析暴露到中介的 mr, 那我们就分别可以得到暴露和中介分析,就得到暴露和中介之间的一个效应值,也就是这个 beta x m, 那 暴露和结局分享的话, 那暴露和结局分析的话,就可以得到一个,这里得到一个暴露到结局的,然后这里就是中介到结局分析,也可以得到一个中介到结局的,但是呢,我们这里的嗯, beta x y 一 撇,它是一个不知道的, 也就是说我们知道暴露到结局的一个直接的比特值,但是这个比特 x y 一 撇呢,是我们不知道的,就是它通过中介影响到它的这样的一个效应值,我们是不知道的。 那这一个是怎么来计算呢?我们在左边又给大家展示一个计算的方法,我们中介效应 a, 它就是这一个比特 x y 和比特 x m, 那这一个直接效应,也就是我们想要求的这一个,就是这一个 beta x y, 减去我们的 beta x m 和 beta m y, 然后这个中介的占比,我们就是 b 等于 a 除以 x 到 y 的 一个相应值, 就是我们的一个计算方法。好,这就是我们最常用到的两步法来分析这一个中介梦的。 好,那今天这一个理论部分就给大家分享到这里,下一个视频呢,就带着大家实操,我们进行多变量蒙德尔和中介蒙德尔的一个分析,欢迎大家在评论区留言和讨论,我们下次再见,拜拜。

大家好,从今天开始我想给大家分享一个在流行病学和遗传病学研究中非常重要的一个方法,孟德尔随机化,也就是 mr, 它能够帮助我们在观察性研究中更可靠的推断因果关系,也是解决混杂和反向因果关系问题的一个核心有力的工具。 接下来我会分别从定义核心概念、核心假设三个方面带大家快速的去了解一下这个方法。首先我们先看到穆德尔随机化的一个定义原理,穆德尔随机化, 嗯,它的英文是简称是 mr, 它是一种利用遗传变异作为工具变量 iv 来评估暴露与结局之间因果关系的一种统计方法。它的核心原理是利用了孟德尔遗传定律,我们从父母那里随机继承的 遗传变异在受精卵形成时就已经确定,并且在后续生命中不会发生改变。这种随机分配的特性就像是做一次天然的随机对照试验,能有效的避免传统的观察性研究中的混杂因素和反向因果的干扰。 我们举个例子,比如想研究吸烟和精神分裂症这个暴露与结局之间的因果关系,这类的工具变量就是吸烟的有关基因, 然后它的暴露因素就是嗯,吸烟结局变量就是精神分裂症, 混杂因素就是包括像睡眠时间这种嗯,同时会影响吸烟行为和精神分裂症的一种发病的风险。目的是计划,就是通过这些和吸烟有关的 遗传变异来推断吸烟是否真的会导致精神分裂症。好,接下来我们来嗯拆解一下封面这句话里面的几个核心概念,第一个就是刚刚说的暴露因素,它指的是可以影响结局的任何因素或特征,可以是内部的, 比如像血脂水平、 bmi, 还有一些外部的,比如,呃,像久坐呀, 还有咖啡饮用频率啊,简单来说就是我们研究中的因的部分,还有截取变量。截取变量它是指我们研究问题相关的一些定量或定性指标,比如说像银屑病、肺癌、骨关节炎等等, 就是我们研究中果的部分。还有混杂因素,就是刚刚说的同时影响暴露,同时也影响结局的其他因素。比如在肥胖和骨关节炎的研究中,年龄运动量就是混杂因素,它同时会影响体重,也会影响我们关节的健康。 然后最后一个是反向因果,它指的是暴露与结局的结局,而是我们的结局导致暴露变量的 呃,变化的一个过程。然后呃,比如我们观察到久坐行为和肺炎相关,但也有可能不是久坐导致肺炎,而是肺炎患者,肺癌患者他因为身体原因减少了活动,然后才变得久坐,这就是一个反向的因果, 就这里。然后,嗯,还有就是一些孟德尔随机化的核心假设,我们要让孟德尔随机化的结论可靠,我们的工具变量必须满足哪几个核心的假设呢?这里列出来了三个核心假设。 第一个是相关性假设,工具变量必须与暴露因素强相关,比如说我们在选择遗传变异,必须显著的影响吸烟行为,否则就无法嗯,去通过它来推断吸烟对结局的影响。 第二个是排他性假设,就是工具变量不能与结局直接相关,他只能通过影响暴露来间接影响结局。也就是说这些和吸烟相关的遗传变异不能直接导致精神分裂症,只能通过 便吸烟行为来影响发病的一个风险。最后一个是独立性假设,工具变量不能与其他可能的混杂因素相关,因为我们的遗传变异是随机分配的,他不会和睡眠时间、社会经济地位这种混杂因素关联,这也是莫代尔这句话能解决混杂问题的一个关键所在。 这三个核心的假设缺一不可,不管呃是哪个假设不成,也都会呃导致最后的因果的判断上的一个偏差。好,以上就是呃文本随机化的基本介绍部分的一个分享。最后我总结一下, 其实是孟德尔随机化,他的核心价值巨大的优势就在于他是利用我们的遗传变异的天然随机化的特性,在观察性数据中去模拟随机对照试验,从而更可靠的推断因果关系。这对于那些难以开展干预的试验的研究,比如像 研究吸烟、饮酒等行为对疾病的影响,或者研究血脂、 bmi 等生物标标志物的一个因果关系都具有非常重要的意义。然后它的核心就是利用 遗传变异的来作为工具变量,通过三个核心假设来推断因果关系。以上就是有关目的学进化的基本介绍部分的一个分享,谢谢大家。

做 m r 分 析最怕的就是水平多效性。 horizontal plo choppy 既工具变量 s n p 不 通过暴露因素,而是通过其他路径直接影响结局。这违反了 m r 的 核心假设,必须汇报 m r a 洁具象的批值。 如果 p 小 于零点零五,说明存在多效性 i v w 结果无效。这时候要用 mr presto 剔除异常 snp, 直到抑制性消失。这是 mr 文章能否发表的生死线。

嗨,大家好,这里是小七学姐,今天视频的内容是中介梦的随机画的史操部分,保证只要你看完这期视频,就能够学会中介梦的随机画。好,我们开始今天的分析,首先呢还是加载 r 包, 然后这边的一些数据我就提前加载进来了,因为它会分析很久。好,我们就设置一下这一个工作路径。然后呢,我们这里的暴露选择的是教育来自 iu 数据库的数据,中介呢是 bmi, 也是来自 iu 数据库的, 结局是二型糖尿病,这里的结局我们是选择的芬兰数据库的数据。好,我们就先把这个暴露中介还有结局的数据分别给他读取进来, 读取进来之后呢,用他们相对应的格式转换的这样的函数来进行一个转换,那这里不同数据库下载的数据的处理方法也在前面的视频和大家分享过了。 好,接着呢,我们就来用两步法来分析我们的中介蒙德尔。首先呢就要做一个暴露到中介的这样的一个两样本 m r, 然后就做一个中介到结局的两样本 m r, 最后呢再做一个暴露到结局的, 就是要分别做三次的两样本 m 二。好,首先我们来看到暴露到中介的这一个两样本 m 二,那现在这里的暴露它就是暴露,那这里的中介呢,在此次的两样本 m 二中,它就作为了一个结局。 好,我们先来筛选一下这一个暴露的工具变量,我们要选择和暴露强相关的,也就是 p 值要小于五乘以十的负八次方。 好,我们 i u 数据的一个处理就是在这前面已经转换好格式了,那我们现在就进行一个本地去除连锁不平衡,我们来运行一下 这里去除连锁不平衡之后,我们就要筛选和这个暴露强相关的 snp, 也就是把这一个的 snp 给它提取出来,和我们的这一个去除了连锁不平衡的进行一个比对,然后提取复制给一个新的变量。 好,然后我们现在这里的中介数据呢,它就作为了一个结局。好,我们还是要先挑选一下和暴露相相关的 snp, 挑选之后我们可以看到这里的, 嗯,数据的名字就是我们的这一个中介数据,但是这里的 type 呢,我们给他换成了 alt com, 因为也说到了,刚刚也说到了这里的中介呢,它是作为结局,所以我们来运行一下, 这是一个格式的转换,然后呢这里我们就要筛选一下结局的工具,变量要大于五乘以十的负八次方。 好,我们来运行一下,接着我们就把这一个中介的数据点开看,它现在就是点 outcome 结尾的,因为呢它在我们的这里是作为的结局,这里大家能理解吧, 所以我们就会进行这样的一个格式转换,那现在呢,我们给暴露加上它的名称,是教育它这里的中介作为结局,看到我们这里的 id 点 outcome 作为 bmi。 好 运行一下。现在我们来看一下这个暴露的数据, 我们在最后的这一列呢,就给它加上了暴露的名称,然后在这一个中介,也就是结局给它加上了一个名称 id 点 alt com 是 bmi。 好,接下来呢就准备数据,这些方法还是和前面是一样的,因为它就是一个两样本的一个 mr 分 析,大家把结果保存一下,我们主要来看一下这一个 mr 分 析的结果,点开看一下。 好,这里我们就可以看到暴露是教育,它的结局呢就是 bmi, 这是我们暴露到中介的一个两样本 m r, 然后这里的方法它也是五种方法进行了分析,我们主要看的是 ivw 的 这个方法, 那我们得到的结果呢是它的一直是远远小于零点零五的,它的 o r 值呢也是小于,那就是说我们这个暴露到结局呢,它是一个保护因素。 好,这是我们的暴露到中介,那接下来呢就做中介到结局的两样本 mr, 那 现在呢,这个中介它就作为了一个暴露。好,我们在前面也进行了一个格式的转换。 好,现在我们中介作为暴露,我们把这一个数据进行一个工具变量的筛选,那它这里作为暴露,那它的一个 p 值就要小于五乘以十的负八次方。接下来还是去除连锁不平衡。 去除连锁不平衡之后呢,我们也要选择和这个暴露强相关的 snp, 它这里的名字叫中介,但是呢它在此次的两样本 mr 中,它就是一个暴露因素了。 好,后面的这些分析呢都是一样的,那我就给大家讲讲解一下它的一个流程。 好,那结局的数据加载进来之后呢,我们要选择和这个中介,也就是这里的暴露强相关的 s n p, 然后对结局的数据呢进行一个格式的更改,并且呢工具变量就要选择大于 p 大 于五乘以十的负八次方的。 好,这就是暴露和结局。好,这里处理好之后呢,我们就给他加上一个名字,这里的中介也就是 bmi 结局是二型糖尿病,好,这里的名字给他更改一下, 然后还是一样的,我们这一步后面都是一样的了,就把这个数据准备一下,进行 mr 分 析。 好,那现在呢,我就从这个上面一直选到我们 mr 分 析结束的这里, 这里选到这里,我们把这些所有的代码运行一下, 你看它这里就在显示这个 bmi 到二型糖尿病的这样的一个 mr 分 析。好,这里的 bmi 就是 暴露了这里的二型糖尿病,就是结局。好,我们现在来看一下这个 m 到 y 中介到结局的分析结果。 好,这里的暴露就是 bmi 结局是二型糖尿病。好,这里它也是用了五种分析方法,我们就来看到 ivw 这一行, 好,我们看它的一个 p 值还是圆圆的小于零点零五 o, r 值呢是大于一的,那就说明我们的这一个中介对于结局呢是一个危险因素,它们之间存在一个因果关系。 好,这就是中介到结局的这样的两样本 mr, 那 后面呢?这一个暴露到结局的我就不赘述了,也是同样的,我们用两样本的 mr 分 析方法,这里的暴露呢就是暴露结局就是结局 好,做完之后我们就得到了最后的结果,然后呢我们就来筛选,我们来看一下这一个 r、 e、 s、 x、 y, 嗯,没有分析,我们来看一下 x 到 m, 好, 那我们就来看一下这一个第三行第七列是什么? 第三行在这里我们来看一下,这是第六行,这是,呃,这是第六列,这是第七列,也就是我们讲到的 beta 值。 好,那我们就可以计算出它们之间的一个效应,那这一个计算的方法呢?在上一个理论部分也和大家分享了 啊,计算他们之间的一个效应,然后来计算中介效应,直接效应。好这样的一个方法,然后后面的这些呢就不是一个必要的运算。然后这里就给大家展示一下。 我们今天的分享就到这里结束了,欢迎大家在评论区留言和讨论,我们下次再见。