ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
112 stars 30 forks source link

TAPE :一种基于单细胞转录组,推测bulk RNA数据中细胞特异性表达谱及功能富集的快速算法 #3120

Closed ixxmu closed 1 year ago

ixxmu commented 1 year ago

https://mp.weixin.qq.com/s/tJVbUy822mHxSnjO31jnLg

ixxmu commented 1 year ago

TAPE :一种基于单细胞转录组,推测bulk RNA数据中细胞特异性表达谱及功能富集的快速算法 by 生信人

Bulk RNA测序成本低,数据量较大,结合少量来自同一个体的单细胞RNA测序数据,可以使用生信方法,推算出样本中不同细胞的比例,这一任务被称为去卷积(deconvolution)。11月8日自然通讯的一篇文章“Deep autoencoder for interpretable tissue-adaptive deconvolution and cell-type-specific gene analysis",介绍了一个更准确且更快速的bulk RNA去卷积工具TAPE(组织自适应自编码器),使用该工具训练好的模型,能够基于bulk RNA数据预测具有生物学意义的细胞特异性表达,从而加速RNA测序的临床应用。


论文链接:https://www.nature.com/articles/s41467-022-34550-9


模型的训练及输出

TAPE的输入是人或小鼠的单细胞图谱以及对应组织bulk RNA数据,先通过模拟数据,将模拟过程中的细胞比例当成金标准,用以训练深度自编码模型,之后在自适应阶段,不断调整预测得出的细胞比例和不同细胞类型的特征表达量(图1a)。

图1 TAPE 模型的训练过程(图1a),TAPE训练好的模型的输入输出(图1b)

模型训练好后,可基于bulk数据,高精度模式下,可得出n个样本,m个基因上的表达谱,模型会产生对应的k(该例子中k=4)个细胞的表达谱,而在全局模式下,可以得出该数据中,4个细胞类型中的差异表达基因谱。

TAPE的性能

在人工生成的pseudo bulk 数据中,比较不同方法的性能。对比的指标包括预测值和真实值的一致性相关系数(concordance correlation coefficient,CCC)以及平均绝对误差(MAE),CCC越高,MAE越低,模型效果越好。图2c指出对于常见及罕见表达的基因,TAPE的表现更好,当存在多种细胞亚型时,例如两种亚型的B细胞,TAPE的表现也更好,而在训练的参考数据集中缺少一种亚型时,TAPE仍可以预测细胞比例。在真实数据中的表现,也是TAPE相对更好。图2b展示了不同方法的运行时间随样本数的变化,可见TAPE的运行时间,不会随着样本数增加而显著增加。考虑到TAPE是基于深度学习的,该方法还可以使用GPU进行加速。在GPU上运行时,TAPE 的速度与最快的统计方法相当,甚至比以前的深度学习方法还要快。故此,TAPE 的第一个优点是它在解卷积大量样本时的超快推断。

图2 TAPE在真实及模拟数据上的性能对比

之后考察在真实数据中,使用bulk RNA得出具有生物学意义的细胞比例,选取的两个例子是不同程度的阿兹海默症患者以及新冠及新冠且治疗患者。在阿兹海默症的例子中,TAPE能够根据bulk RNA,预测出处在不同阶段的阿兹海默症患者,其大脑中神经元细胞的比例下降,胶质细胞的比例升高,症状越严重,胶质细胞的比例越高,从而对应临床观察(见图3c)。而在新冠患者中,通过TAPE的处理,可以发现正常患者与感染者的免疫血液中的beta细胞占比,感染者偏低,二经过抗病毒药物瑞德西韦治疗后,beta细胞的比例回升到正常水平(见图3d),这同样符合预期的生物学知识。根据图中的标准差error bar,可以看到TAPE预测出的结果,相比其它方法其样本间差异性更小,说明该方法更稳健,有潜力应用于临床早筛或疗效预测。

图3 TAPE在真实数据(阿兹海默和新冠感染)中,找到具有生物学意义的细胞比例差异

不同于已有的深度学习去卷积方法只可以预测组织内的细胞比例,TAPE还可以自适应地预测组织特异性的基因表达谱。具体来看,TAPE依赖来自健康人的bulk RNA单细胞数据进行训练,得出的模型可以用于预测病理环境下,各个细胞类型中特异性的基因表达谱。

对上述组织特异表达谱的验证,基于通过不同细胞类型真实(10x单细胞测序获得)与模拟结果的差异来衡量。图4a和b分别展示了模拟和真实数据中,基于TAPE模型预测的不同细胞类型的特异性表达谱和真实值的一致性,可以看到两者的一致性较高。从图3c和d的对比可看出,在训练过程中,TAPE通过自适应阶段后,使得预测的特征表达谱即保留了原模型的信息,又能够更好地适应新的生物学背景(即凸显差异表达基因),这是该算法的第二个优势。

TAPE高精度模式找出细胞间差异表达基因

TAPE还具有高精度模式,可以预测不同类型细胞的特异表达基因,在图4e中,模拟生成bulk RNA-seq 数据中可检测差异表达基因。颜色表示 AUROC 值,红色表示更好的分类性能。每一行代表bulk RNA数据中对应于CD8 T细胞中随机选择的基因的上调的倍数变化,每列代表CD8 T细胞所占比例。图4f是TAPE据此预测出的结果,可以看到除了CD8 T细胞中,预测得到的其余细胞类型间基因表达差异都不显著,而CD8 T细胞的预测结果则与模拟结果相近,这说明TAPE可以较高的准确性和特异性预测特异细胞类型中的差异表达基因。

在真实的AD患者bulk RNA数据中,考察和AD相关的NRGN基因的表达,发现TAPE成功预测了该基因在患者的神经元细胞中表达量会增加(图4e),而在下皮层细胞中不会增加。图4h展示了TAPE基于bulk RNA数据的检测结果,发现在原数据中RAB11FIP5 基因的表达量在控制组和BNab组之间只存在细微差异,但在特定的细胞类型(NK细胞)中,存在显著的差异。该结果与实验验证的结果相一致。这些例子都论证了TAPE可基于bulk数据,预测特定细胞类型中的差异表达基因。

图4 对TAPE预测细胞特异性表达谱的性能进行综合评估

该研究还将TAPE应用于三种类型的感染(新冠,HIV,乙肝)的外周血bulk RNA数据中,通过TAPE进行细胞间去卷积之后,可见三种感染对不同免疫细胞的影响存在差异,而了解这种差异将可以帮助临床的诊断及阻止感染发生。图5,a展示了对不同细胞类型,三种感染所带来的功能差异,b-d展示了三种感染后的白细胞,单核细胞,NK细胞中,基因表达谱相同的基因数,可以看到即存在共有的基因,也存在病原特异的基因,e-g是TAPE给出的显著富集通路的热图。从图5可知,TAPE可识别每个样本的每种细胞类型中特定的激活功能通路,这是该算法的第三个潜在优势。

图5 不同感染情况下,TAPE预测得出的各细胞亚型的特异性功能富集


总结

总结来看,得益于自动编码器的体系结构和自适应阶段独特的训练方法,以及编码器-解码器的结构,TAPE的可解释解码器能够回答为什么编码器给出特定的差异性基因,并在高精度模式下给出细胞特异性的差异基因表达谱和差异富集通路。这使得研究者可以使用人群水平的bulk RNA测序,结合少量的单细胞测序,获得组织异质性相关的生物学知识。

TAPE 代表了一个在细胞类型水平上解释组织异质性,具有通用性的框架,并为监督自编码器执行领域自适应迁移提供了一个实用的训练方案。考虑到它可以与其它工具无缝集成,我们相信 TAPE 将有助于研究单细胞数据和大量的bulk RNA数据之间的联系,且具有临床应用的潜力。

END

不想错过每天的热点和技术
欢迎大家添加生信人为星标推荐