ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
120 stars 30 forks source link

Nature communications:基于异构图transformers的单细胞生物网络推断 #4264

Closed ixxmu closed 10 months ago

ixxmu commented 10 months ago

https://mp.weixin.qq.com/s/eVV3QbblZrCOUHqU-GWRJw

ixxmu commented 10 months ago

Nature communications:基于异构图transformers的单细胞生物网络推断 by 作图丫

导语

     单细胞多组学允许同时对多个模态进行定量,以捕获复杂分子机制和细胞异质性的复杂性。现有的工具无法有效地推断不同细胞类型中的活性生物网络以及这些网络对外部刺激的反应。在这里,我们介绍了用于从scMulti组学进行生物网络推理的DeepMAPS技术。它在异构图中对scMulti组学进行建模,并使用多头图transformers以鲁棒的方式学习局部和全局环境中细胞和基因之间的关系。基准测试结果表明,DeepMAPS在细胞聚类和生物网络构建方面的表现优于现有工具。它还展示了在肺肿瘤白细胞 CITE-seq 数据和匹配的弥漫性小淋巴细胞淋巴瘤 scRNA-seq 和 scATAC-seq 数据中推导细胞类型特异性生物网络的竞争能力。此外,我们还部署了配备多种功能和可视化的DeepMAPS网络服务器,以提高scMulti组学数据分析的可用性和可重复性。

背景介绍




今天小编为大家带来一篇基于异构图transformers的单细胞生物网络推断发表在10分+ Nature communications新的思路。题目为Single-cell biological network inference using a heterogeneous graph transformer
研究设计




在这项工作中,我们开发了DeepMAPS(基于深度学习的单细胞数据多组学分析平台),这是一种异构图transformer框架,用于从scMulti-omics数据推断细胞类型特异性生物网络。该框架采用先进的GNN模型,即异构图transformers(HGT),具有以下优点:(i)它构建了一个以细胞和基因为节点,以它们之间的关系为边的多合一异构图。(ii)该模型捕获细胞和基因之间的邻域和全局拓扑特征,以同时构建细胞-细胞关系和基因-基因关系。(iii)该HGT模型中的注意力机制能够估计基因对特定细胞的重要性,可用于区分基因贡献并增强生物学可解释性。(iv)该模型是无假设的,不依赖于基因共表达的约束,因此有可能推断出其他工具通常无法发现的基因调控关系。值得注意的是,DeepMAPS与Docker一起被实现到一个无代码、交互式和非编程的界面中,以减轻scMulti-omics数据的编程负担。

结果解析




1. DeepMAPS概述
DeepMAPS是一个端到端且无假设的框架,用于从scMulti组学数据中推断细胞类型特异性生物网络。DeepMAPS框架有五个主要步骤(图1)。(i)通过去除低质量细胞和低表达基因对数据进行预处理,然后根据具体数据类型应用不同的归一化方法。生成一个整合的细胞-基因基质来表示每个细胞中每个基因的组合活性。不同的scMulti-omics数据类型应用了不同的数据集成方法。(ii)由整合矩阵构建异构图,包括以细胞和基因为节点,以细胞中基因的存在为边缘。(iii)建立HGT模型,共同学习细胞和基因的低维嵌入,并生成注意力评分,以指示基因对细胞的重要性。(iv) 根据 HGT 学习的嵌入和注意力评分预测细胞聚类和功能基因模块。(v) 在每种细胞类型中推断出不同的生物网络,例如基因调控网络(GRN)和基因关联网络。
为了学习细胞和基因的联合表示,我们首先生成一个细胞-基因矩阵,整合输入scMulti-omics数据的信息。然后构建具有细胞节点和基因节点的异构图,其中未加权的细胞-基因边表示细胞中基因基因活性的存在,并通过两层GNN图自动编码器从基因-细胞集成矩阵中学习每个节点的初始嵌入。这种异构图提供了一个机会,可以清晰地表示和有机地整合scMulti组学数据,以便可以协同学习具有生物学意义的特征。然后将整个异构图发送到图自动编码器,以学习细胞和基因之间的关系并更新每个节点的嵌入。在这里,DeepMAPS采用异构多头注意力机制,对异构图上的整体拓扑信息(全局关系)和邻居消息传递(局部关系)进行建模。异构图表示学习提供了一种使用 DeepMAPS 中的转换器同时嵌入细胞和基因的方法。初始图决定了消息传递的路径以及如何在 DeepMAPS 中计算注意力分数。
在每个HGT层中,每个节点(细胞或基因)都被视为一个靶标,其1跳邻居作为源。DeepMAPS根据节点嵌入的协同作用(即注意力分数)评估其相邻节点的重要性以及可以传递给目标的信息量。因此,具有高度正相关嵌入的细胞和基因更有可能在彼此内部传递信息,从而最大限度地提高嵌入的相似性和差异性。为了使无监督训练过程在大型异构图上可行,DeepMAPS在从异构图中采样的50个子图上执行,覆盖至少30%的细胞和基因,以训练不同节点之间的共享参数,这些信息后来用于测试整个图。作为一项重要的训练结果,给出注意力分数来表示基因对细胞的重要性。基因对细胞的高注意力分数意味着该基因对于定义细胞身份和表征细胞异质性相对重要。这种鉴别允许在每个细胞簇中构建可靠的基因关联网络,作为 DeepMAPS 的最终输出。然后,我们建立了一个斯坦纳森林问题(SFP)模型,以识别具有较高注意力分数和与细胞簇相似嵌入特征的基因。SFP模型优化解中的基因-基因和基因-细胞关系反映了基因的嵌入相似性和基因对每个细胞簇的关注重要性。基因关联网络可以由在表征该细胞簇的身份方面最重要的基因建立,这些基因基于其注意力分数和嵌入相似性,并且这些基因被认为是细胞类型活跃的。


2. DeepMAPS在细胞聚类和生物网络推断方面实现了卓越的性能
本研究在10个scMulti-omics 数据集上对 DeepMAPS 的细胞聚类性能进行了基准测试,包括3个多个scRNA-seq 数据集(R-bench-1、2 和 3)、3 个 CITE-seq 数据集(C-bench-1、2 和 3),以及从同一细胞 (A-bench-1、2、3 和 4) 测量的 4 个匹配的 scRNA-seq 和 scATAC-seq (scRNA-ATAC-seq) 数据集(补充数据 1)。具体来说,六个 R-bench 和 C-bench 数据集在其原始手稿中提供了基准注释,而四个 A-bench 数据集则没有。这些数据集涵盖了从 3,009 到 32,029 个不等的细胞数量;平均读取深度(仅考虑scRNA-seq数据)范围为2,885至11,127;零表达率(仅考虑scRNA-seq数据)为82%至96%。

       本研究将 DeepMAPS 与四种基准测试工具(Seurat v3 和 v4、MOFA +、TotalVI、Harmony和 GLUE (Methods))在平均轮廓宽度 (ASW)、Calinski-Harabasz (CH)、Davies-Bouldin 指数 (DBI) 和调整后 Rand 指数(ARI)方面进行了比较,以评估细胞聚类性能。对于每个数据集,我们在 36 个参数组合上训练了 DeepMAPS,包括头数、学习率和训练周期数。为了确保公平性,每个基准测试工具还使用不同的参数组合(方法)进行了调整。DeepMAPS在ARI(用于R-benches和C-benches)和ASW(用于A-benches)方面与所有测试数据集中的所有基准工具相比,取得了最佳性能。我们还注意到,Seurat是性能第二好的工具,在所有基准数据集中,不同参数选择的差异很小。我们根据参数组合在网格搜索基准测试中的性能为每种数据类型选择了默认参数。在所有基准数据集中平均ARI/ASW得分中位数最高的参数组合被视为相应数据类型的默认参数。还进行了额外的基准测试实验,以证明在DeepMAPS中选择不同集成方法的合理性。具体来说,对于scRNA-ATAC-seq数据的分析,我们设计了一种使用基因速度的整合方法,以平衡基因表达和染色质可及性之间的权重,以表征细胞活性和状态。这种整合过程可以确保协调数据集(特别是对于多个scRNA-seq数据)并生成一个整合矩阵(以基因为行,以细胞为列)作为HGT的输入。我们的结果表明,对于基准数据 1 和 2(A-bench-1 和 -2),基于速度的方法在所有网格搜索参数组合上都显示出明显(p 值 <0.05)高于 Seurat v 4.0 中的加权最近邻 (WNN) 方法。们推断,通过包含速度信息,有助于识别细胞类型的基因表达和染色质可及性之间的模态权重更加平衡。使用或不使用速度加权平衡法比较不同细胞簇中scATAC-seq的模态权重。此外,我们在DeepMAPS中比较了不同的聚类方法(即Leiden、Louvain和SLM),并比较了聚类分辨率(即0.4、0.8、1.2和1.6)对细胞聚类结果的影响。我们发现这些聚类方法之间没有显著差异,Louvain的性能略好于其他两种方法。最后,在选择相同的聚类分辨率时,DeepMAPS的得分高于其他工具。 我们还发现,在大多数情况下,分辨率越高,细胞聚类预测分数越低;因此,我们选择分辨率为 0.4 作为 DeepMAPS 中的默认参数。

3. DeepMAPS可以从scMulti-omics数据中推断出具有统计学意义和生物学意义的基因关联网络
我们评估了DeepMAPS可以推断的两种生物网络,即基因关联网络和GRN,从中心性得分和功能富集方面。对于 R 检验数据集和 C 检验数据集,我们使用了两个中心性评分,即接近中心性 (CC) 和特征向量中心性 (EC),它们在以前的单细胞基因关联网络评估中已经使用,以比较从本次比较中所有工具中识别出的基因关联网络。CC 反映一个节点与网络中所有其他节点的平均连通性,EC 根据节点连接的节点反映节点的重要性。CC 和 EC 都可以解释节点在识别可能在网络中发挥更关键作用的基因方面的影响。具有较高节点中心性的基因关联网络表明检测到的基因更有可能参与关键和功能性生物系统。我们还通过计算细胞簇中基因表达的 Pearson 相关系数,使用数据集中的所有基因构建了基因共表达网络作为背景。将p值=0.05 设置为边沿截止值。我们比较了 DeepMAPS 中生成的细胞类型活性基因关联网络与 IRIS3 中生成的基因关联网络以及背景共表达网络。在R-test和C-test数据集中,DeepMAPS构建的网络的平均CC和EC得分明显高于IRIS3和背景共表达网络。我们推断,DeepMAPS中生成的基因关联网络不仅共表达,而且对细胞有很大关注的影响;因此,网络中的基因往往对细胞类型更重要。

      为了评估DeepMAPS是否可以识别特定细胞类型中具有生物学意义的GRN,我们对基本基因调控模块(即调节子)进行了富集测试,使用三个公共功能数据库Reactome、DoRothEA和TRRUST v2。为了避免在比较中出现任何偏差,我们将从 DeepMAPS 推断的细胞类型特异性GRN与(i)scRNA-seq基质上的IRIS3和 SCENIC 进行了比较,(ii)IRIS3和SCENIC在基因-细胞基质上记录了基于速度的整合方法在 DeepMAPS 中计算的基因活性评分(GAS),(iii)scATAC-seq 基质上的MAESTRO,以及(iv)原始scRNA-seq和scATAC-seq基质上的MAESTRO。使用从人体组织收集的六个数据集(即 A-test-1、A-bench-2、A-bench-3、A-bench-4、A-test-1、A-test-2)。我们首先展示了 DeepMAPS 中鉴定的 GRN 比其他工具包含更多独特的转录因子(TF)调节,除了富集到 DoRothEA 数据库。我们认为,高度细胞类型特异性调控子(CTSR)可能只代表一种重要的富集功能;或者,通用调控子可能不恰当地包含参与多种途径的基因。因此,我们比较了不同工具中富集到一种功能/通路的 CTSR 数量。在六个scRNA-ATAC-seq数据集中的大多数数据集上,DeepMAPS在仅富集一个功能/通路的调控子数量和富集F1分数方面优于其他工具(p值<0.05)。对于 TRRUST v2 数据库富集测试的F1分数,DeepMAPS(F1 分数中位数为 0.026)略低于使用 GAS 矩阵的IRIS3(F1 分数中位数为 0.031)。我们还注意到,所有工具在 TRRUST v2 数据库中都没有实现良好的富集,这主要是由于基因数量少(平均而言,10 个基因由一个 TF 调控,总共 795 个 TF)。SCENIC 还显示出具有竞争力的缩放精度分数(缩放平均值:Reactome 为 0.47,DoRothEA 为 0.66,TRRUST v2 为 0.61),同时实现了较低的缩放召回分数,使得大多数数据集的 F1 分数小于 DeepMAPS。在GAS基质上进行的IRIS3和SCENIC 显示出比仅使用scRNA-seq数据更好的富集结果,表明整合来自scRNA-ATAC-seq数据的信息比单独使用scRNA-seq数据更有助于GRN推理。

讨论




DeepMAPS是一个深度学习框架,实现了异构图表示学习和图transformer,用于从sc多组学数据中研究生物网络。通过构建包含细胞和基因的异构图,DeepMAPS可以同时识别它们的联合嵌入,并能够在完整的框架中推断细胞类型特异性生物网络以及细胞类型。此外,异构图转换器的应用在可解释的统一多重关系中模拟了细胞-基因关系。通过这种方式,可以大大缩短图中的训练和学习过程,以考虑更远距离的细胞影响。


往期推荐


分析专辑


单细胞scRNA | R包绘图 | 免疫浸润分析 | 肿瘤纯度评估工具 | 数据库


文章解读专辑


多区域进化文章精读 | 高分文章精读 | 免疫微环境文献解读


招聘信息


招聘


点击红字即可进入专栏!

文字均为原创,欢迎读者分享或转发到朋友圈,任何公众号或其他媒体未经许可不得私自转载或抄袭。
由于微信平台算法改版,公众号内容将不再以时间排序展示,建议设置“作图丫”公众号为星标,防止丢失。星标具体步骤为:
(1)点击页面最上方“作图丫”,进入公众号主页;
(2)点击右上角的小点点,在弹出界面选择“设为星标”即可。


点个在看你最好看