Closed ixxmu closed 10 months ago
导语
单细胞多组学允许同时对多个模态进行定量,以捕获复杂分子机制和细胞异质性的复杂性。现有的工具无法有效地推断不同细胞类型中的活性生物网络以及这些网络对外部刺激的反应。在这里,我们介绍了用于从scMulti组学进行生物网络推理的DeepMAPS技术。它在异构图中对scMulti组学进行建模,并使用多头图transformers以鲁棒的方式学习局部和全局环境中细胞和基因之间的关系。基准测试结果表明,DeepMAPS在细胞聚类和生物网络构建方面的表现优于现有工具。它还展示了在肺肿瘤白细胞 CITE-seq 数据和匹配的弥漫性小淋巴细胞淋巴瘤 scRNA-seq 和 scATAC-seq 数据中推导细胞类型特异性生物网络的竞争能力。此外,我们还部署了配备多种功能和可视化的DeepMAPS网络服务器,以提高scMulti组学数据分析的可用性和可重复性。
在这项工作中,我们开发了DeepMAPS(基于深度学习的单细胞数据多组学分析平台),这是一种异构图transformer框架,用于从scMulti-omics数据推断细胞类型特异性生物网络。该框架采用先进的GNN模型,即异构图transformers(HGT),具有以下优点:(i)它构建了一个以细胞和基因为节点,以它们之间的关系为边的多合一异构图。(ii)该模型捕获细胞和基因之间的邻域和全局拓扑特征,以同时构建细胞-细胞关系和基因-基因关系。(iii)该HGT模型中的注意力机制能够估计基因对特定细胞的重要性,可用于区分基因贡献并增强生物学可解释性。(iv)该模型是无假设的,不依赖于基因共表达的约束,因此有可能推断出其他工具通常无法发现的基因调控关系。值得注意的是,DeepMAPS与Docker一起被实现到一个无代码、交互式和非编程的界面中,以减轻scMulti-omics数据的编程负担。
本研究将 DeepMAPS 与四种基准测试工具(Seurat v3 和 v4、MOFA +、TotalVI、Harmony和 GLUE (Methods))在平均轮廓宽度 (ASW)、Calinski-Harabasz (CH)、Davies-Bouldin 指数 (DBI) 和调整后 Rand 指数(ARI)方面进行了比较,以评估细胞聚类性能。对于每个数据集,我们在 36 个参数组合上训练了 DeepMAPS,包括头数、学习率和训练周期数。为了确保公平性,每个基准测试工具还使用不同的参数组合(方法)进行了调整。DeepMAPS在ARI(用于R-benches和C-benches)和ASW(用于A-benches)方面与所有测试数据集中的所有基准工具相比,取得了最佳性能。我们还注意到,Seurat是性能第二好的工具,在所有基准数据集中,不同参数选择的差异很小。我们根据参数组合在网格搜索基准测试中的性能为每种数据类型选择了默认参数。在所有基准数据集中平均ARI/ASW得分中位数最高的参数组合被视为相应数据类型的默认参数。还进行了额外的基准测试实验,以证明在DeepMAPS中选择不同集成方法的合理性。具体来说,对于scRNA-ATAC-seq数据的分析,我们设计了一种使用基因速度的整合方法,以平衡基因表达和染色质可及性之间的权重,以表征细胞活性和状态。这种整合过程可以确保协调数据集(特别是对于多个scRNA-seq数据)并生成一个整合矩阵(以基因为行,以细胞为列)作为HGT的输入。我们的结果表明,对于基准数据 1 和 2(A-bench-1 和 -2),基于速度的方法在所有网格搜索参数组合上都显示出明显(p 值 <0.05)高于 Seurat v 4.0 中的加权最近邻 (WNN) 方法。我们推断,通过包含速度信息,有助于识别细胞类型的基因表达和染色质可及性之间的模态权重更加平衡。使用或不使用速度加权平衡法比较不同细胞簇中scATAC-seq的模态权重。此外,我们在DeepMAPS中比较了不同的聚类方法(即Leiden、Louvain和SLM),并比较了聚类分辨率(即0.4、0.8、1.2和1.6)对细胞聚类结果的影响。我们发现这些聚类方法之间没有显著差异,Louvain的性能略好于其他两种方法。最后,在选择相同的聚类分辨率时,DeepMAPS的得分高于其他工具。 我们还发现,在大多数情况下,分辨率越高,细胞聚类预测分数越低;因此,我们选择分辨率为 0.4 作为 DeepMAPS 中的默认参数。
为了评估DeepMAPS是否可以识别特定细胞类型中具有生物学意义的GRN,我们对基本基因调控模块(即调节子)进行了富集测试,使用三个公共功能数据库Reactome、DoRothEA和TRRUST v2。为了避免在比较中出现任何偏差,我们将从 DeepMAPS 推断的细胞类型特异性GRN与(i)scRNA-seq基质上的IRIS3和 SCENIC 进行了比较,(ii)IRIS3和SCENIC在基因-细胞基质上记录了基于速度的整合方法在 DeepMAPS 中计算的基因活性评分(GAS),(iii)scATAC-seq 基质上的MAESTRO,以及(iv)原始scRNA-seq和scATAC-seq基质上的MAESTRO。使用从人体组织收集的六个数据集(即 A-test-1、A-bench-2、A-bench-3、A-bench-4、A-test-1、A-test-2)。我们首先展示了 DeepMAPS 中鉴定的 GRN 比其他工具包含更多独特的转录因子(TF)调节,除了富集到 DoRothEA 数据库。我们认为,高度细胞类型特异性调控子(CTSR)可能只代表一种重要的富集功能;或者,通用调控子可能不恰当地包含参与多种途径的基因。因此,我们比较了不同工具中富集到一种功能/通路的 CTSR 数量。在六个scRNA-ATAC-seq数据集中的大多数数据集上,DeepMAPS在仅富集一个功能/通路的调控子数量和富集F1分数方面优于其他工具(p值<0.05)。对于 TRRUST v2 数据库富集测试的F1分数,DeepMAPS(F1 分数中位数为 0.026)略低于使用 GAS 矩阵的IRIS3(F1 分数中位数为 0.031)。我们还注意到,所有工具在 TRRUST v2 数据库中都没有实现良好的富集,这主要是由于基因数量少(平均而言,10 个基因由一个 TF 调控,总共 795 个 TF)。SCENIC 还显示出具有竞争力的缩放精度分数(缩放平均值:Reactome 为 0.47,DoRothEA 为 0.66,TRRUST v2 为 0.61),同时实现了较低的缩放召回分数,使得大多数数据集的 F1 分数小于 DeepMAPS。在GAS基质上进行的IRIS3和SCENIC 显示出比仅使用scRNA-seq数据更好的富集结果,表明整合来自scRNA-ATAC-seq数据的信息比单独使用scRNA-seq数据更有助于GRN推理。
往期推荐
分析专辑
单细胞scRNA | R包绘图 | 免疫浸润分析 | 肿瘤纯度评估工具 | 数据库
文章解读专辑
多区域进化文章精读 | 高分文章精读 | 免疫微环境文献解读
招聘信息
点击红字即可进入专栏!
点个在看你最好看
https://mp.weixin.qq.com/s/eVV3QbblZrCOUHqU-GWRJw