Closed ixxmu closed 9 months ago
大家好,我是雪梨~~欢迎来到雪梨的生信套路!
我们继续讲解孟德尔随机化(Mendelian Randomization,MR)的相关内容。
昨天,我们给大家梳理了MR套路的基本概念、重要术语、前提假设、数据来源。
先简单复习下昨天的内容
孟德尔随机化(Mendelian Randomization,MR)是一种用于因果推断的数据分析方法,以遗传变异SNP为工具变量来推导暴露和结局的因果关系,并且具有三大前提假设(关联性、独立性、排他性)。MR的数据来源一般为OpenGWAS(https://gwas.mrcieu.ac.uk/datasets/)数据库。
今天,我们将以以下文章为例,给大家讲解MR的核心流程。
文献背景
Association between periodontitis and COVID-19 infection: a two-sample Mendelian randomization study
研究牙周炎相关性状与COVID-19感染风险之间的关联
暴露:牙周炎相关性状(ebi-a-GCST003484)
结局: COVID-19(ebi-a-GCST010776和ebi-a-GCST010777)
期刊:PeerJ
IF:2.7(2023年)
文献背景
/ 寻找工具变量SNP /
寻找与暴露因素强相关的SNP,我们需要确保SNP满足前提假设。我们要提取强相关的SNP,一般会选择p < 5e-8的SNP,以满足关联性假设。
此外,去除强连锁不平衡的SNP,以保证独立性。连锁不平衡系数(Linkage disequilibrium,LD) 是指两个或多个基因型之间在不同等位基因上的出现频率,与它们在群体中的真实频率相比是否存在显著差异。
连锁不平衡系数r值是指一组研究序列中两个基因座之间的连锁不平衡程度,而r²值则是指这两个基因座间LD的比例,即LD的解释方差。
最后,计算F统计量,剔除F<10或100的弱工具变量。F统计量用于比较两个或多个组之间的方差、拟合优度以及回归模型的显著性。用于去除弱工具变量以保证结果的可靠性和准确性,需要F>10。
/ MR分析 /
Inverse-Variance Weighted 逆方差加权(IVW)是评估自变量与疾病发病风险的因果关系的方法。回归时不考虑截距项的存在并且用结局方差的倒数作为权重来进行拟合。在IVW的假设中,我们认为这些SNP(作为工具变量)是没有多效性的,同时考虑到GWAS的结果多为表型标准化后做出来的,所以我们认为结局和暴露之间是正比例关系。一般情况我们根据Inverse variance weighted(IVW)方法去判断是否为阳性结果。
也就是说IVW分析中我们计算每个SNP对牙周炎的效应(即每个SNP如何影响牙周炎)和每个SNP对新冠的效应(即每个SNP如何影响新冠)。然后,我们用每个SNP对新冠的效应除以该SNP对牙周炎的效应,得到每个SNP的因果比率。我们使用逆方差加权方法将这些因果比率整合起来,得到牙周炎对新冠的整体因果效应。整体因果效应的值较大,那么就意味着牙周炎对新冠的因果影响较大,并且要p小于0.05显著才行。
OR值用于描述暴露(牙周炎相关性状)和结局(COVID-19)之间的关系。
OR大于1时,代表暴露因素是结局的不利因素;
OR小于1时,代表暴露因素是结局的有利因素。
如果OR大于1,那么暴露因素(牙周炎相关性状)就是结局(COVID-19)的不利因素。这意味着牙周炎相关性状的人发生COVID-19的概率比没有牙周炎相关性状的人要高。
如果OR为2,那就表示牙周炎相关性状的人发生COVID-19的概率是没有牙周炎相关性状的人的两倍。
反之,如果OR小于1,那么暴露因素(牙周炎相关性状)就是结局(COVID-19)的有利因素。这意味着牙周炎相关性状的人发生COVID-19的概率比没有牙周炎相关性状的人要低。
/ 敏感性分析 /
异质性检验
异质性检验的目的是查看不同的基因变异(SNPs)是否对结局有一致的影响。如果结果存在异质性,意味着暴露因素对结局变量的影响可能不一致。此时需要使用随机效应模型来估计暴露因素对结局变量的因果效应,并判断是否仍然具有统计学显著的影响。
异质性检验中发现影响可能不一致,可能表明暴露因素的不同基因变异可能以不同的方式影响结局变量的发生。换句话说,可能存在某些特定的基因变异,它们对暴露因素的表达或功能有特殊的影响,从而影响了结局变量的发生。随机效应模型来考虑这些异质性,并重新估计了暴露因素对结局变量的因果影响。
通俗地说,你可以把这个过程想象成一个足球队。即使每个队员(这里的队员可以想象成基因变异)的表现可能会有所不同,但是他们作为一个团队(这里的团队可以想象成暴露因素)对比赛结果(这里的比赛结果可以想象成结局变量)的影响仍然是显著的。
水平多效性检验
水平多效性检验的目的是查看是否有一些基因变异(SNPs)对暴露因素和结局变量之间的关系有过度的影响。受到水平多效性的影响意味着暴露因素的SNPs对结局变量的影响可能过大或过小。这可能是由于这些SNPs除了通过影响暴露因素外,还通过其他未知的途径影响结局变量的发生。这对于你的因果推断有重要的影响。在理想的情况下,我们希望所有的SNPs都仅仅通过影响暴露因素来影响结局变量的发生。然而,如果存在水平多效性,那么这些SNPs可能会通过其他的途径影响结局变量的发生,这可能会导致我们高估或低估了暴露因素对结局变量的真实影响。
某个队员(SNP)不仅在足球比赛(影响暴露因素)中发挥作用,他也可能在篮球比赛(影响其他可能与结局变量相关的生物过程)中发挥作用。这意味着他的全面能力(对结局变量的影响)可能被高估或低估,因为我们可能没有完全计算他在篮球比赛(其他可能与结局变量相关的生物过程)中的表现。因此,需要更仔细地评估这些队员(SNPs)的表现,以更准确地理解他们对比赛结果(结局变量的发生)的影响。
逐个剔除检验
逐个剔除检验的目的是查看如果去除某一个基因变异(SNP),结果是否会发生显著的变化。结果的稳定性较高,这意味着结果不太可能受到任何一个特定SNP的影响。
就像是在足球队中逐个考察每个队员的贡献。假设足球队是由各种基因变异(SNPs)组成的,每个队员(SNP)都对比赛结果(结局变量的发生)有一定的贡献。在逐个剔除检验中,依次将每个队员(SNP)从队伍中去除,然后看比赛结果(结局变量的发生)是否会发生显著的变化。如果剔除任何一个队员(SNP)后,比赛结果(结局变量的发生)都没有发生显著的变化,那么说明结果的稳定性较高。这意味着,结果不太可能受到任何一个特定队员(SNP)的影响,而是由整个队伍(所有的SNPs)共同决定的。
反向MR分析
既分析基因对特定结果(疾病)的影响,同时分析疾病对基因的影响。通过比较这两个方向得到的结果,可以更准确地评估基因与疾病之间的因果关系,并降低混淆因素的影响。(确保反向因果不存在)通过双向孟德尔随机化确认因果关系是否是单向的,如果是单向的,那么这个因果关系成立。
总结
以上就是最简单的单变量MR套路啦!总结起来其实很简单:找SNPs-MR分析-敏感性分析-反向MR分析。这个过程就是MR套路最原始的逻辑,也是可以发文章的最简配置。MR套路的难点并不在于方案的设计,一是在于想要得到好的结果需要多次的尝试,二是在于分析过程中逻辑比较乱。
OpenGWAS有成千上万个数据可供发掘,对于一个特定的结局变量来说,直接或间接影响它的暴露因素有很多种。在进行MR分析之前,谁也不知道具体哪个暴露因素会对结局变量产生直接影响。所以在做MR相关的分析时,我们需要做好两个准备,一个是心理准备,要学会接受结果不好的事实;二是两手准备,在结果不好的时候可以换暴露或者换结局。
简单的单变量MR的逻辑也需要仔细推敲,我们需要筛选暴露-结局这一方向是显著的(p < 0.05),并且结局-暴露这一方向是不显著的(p > 0.05),所以千万不要顺手都用p < 0.05这一经典阈值筛选了。如果打算做更深层次的MR研究,我们会做多变量MR、中介效应相关的MR分析,这里的p值阈值更加“混乱”,例如,在中介-结局这一方向的多变量MR是显著的条件下,如果暴露-结局这一方向的多变量MR不显著,那么这个中介就起到了完全中介效应,如果暴露-结局这一方向的多变量MR也显著,那么这个中介就直到了部分中介效应。这些就是后话了,更深层次的MR分析(协变量、多变量、中介效应)我们以后将继续为大家分享。
想要利用生信发文,孟德尔随机化是一个非常好的机会。我们在推文中系统介绍了孟德尔随机化的知识,目前我们团队也已经拥有非常成熟的孟德尔随机化发文套路,包括数据分析、SCI写作、与审稿人battle问答等等。
如果你是医学生,相信你应该接触过医学统计学这门课,不知道你掌握的怎么样。如果你考试的分数还不错,相信你应该看了我们的推文就能对孟德尔随机化有大概的想法,再多看几篇文献,就能自己出一篇文章发表啦!假如你考试做题过程很费劲,可能你在操作孟德尔随机化过程中会遇到一些阻力。但是又不想放弃孟德尔随机化这个香饽饽,那么我推荐你先自己把我们的推文收藏起来,多看几遍。如果在思路介绍上有什么不懂的,可以扫下方的二维码来咨询我们。
另外,现在添加雪球老师微信,回复W-08还可以领取雪球老师精选常用短语和缩写~
https://mp.weixin.qq.com/s/-JVYl2WXjnLkJfh4ciqi_Q