Closed ixxmu closed 2 months ago
Fig. 1: Integrating across modalities with molecular bridges.
a, 桥接整合工作流程的广泛示意图。两个测量不同模态(例如,scRNA-seq 和 scATAC-seq)的数据集可以通过第三个同时测量这两种模态的数据集(例如,10x multiome)进行协调。我们展示了使用多种多组学技术作为桥接的桥接整合,包括 10x multiome、Paired-Tag、snmC2T 和 CITE-seq,每种技术都促进了与不同分子模态的整合。中间的方框列出了可以用于生成桥接数据集的替代多组学技术。 b, 桥接整合过程中每个步骤的数学示意图。完整的描述在补充方法中提供。为了清晰起见,此示意图中展示的矩阵名称与补充方法中定义的矩阵名称相同。
使用多组学字典进行桥梁整合
将单细胞ATAC测序数据映射到单细胞RNA测序参考上
Fig. 2: Mapping scATAC-seq data onto scRNA-seq references.
a, 统一流形逼近和投影(UMAP)可视化的人骨髓单细胞RNA测序(scRNA-seq)参考数据集,包含297,627个注释的scRNA-seq谱图;mDC,髓系树突状细胞;EMP,红髓祖细胞;BaEoMa,嗜碱性粒细胞、嗜酸性粒细胞、肥大细胞祖细胞;cDC1,常规类型1树突状细胞;cDC2,常规类型2树突状细胞;NK,自然杀伤细胞;Prog Mk,祖巨核细胞。 b, 来自Granja等人43的scATAC-seq查询数据集的UMAP可视化,包含26,159个谱图,跨越五个批次,其中三个批次富含表达CD34的细胞。 c, 经过桥接整合后,查询细胞根据scRNA-seq定义的细胞本体进行注释,并且可以在相同的嵌入中进行可视化。 d–f, 覆盖图显示了在按预测注释分组查询细胞后,选定位点的染色质可及性。在每种情况下,预测的细胞标签与预期的可及性模式一致;bp,碱基对;kb,千碱基。 g, 我们构建了经历髓系分化的细胞的分化轨迹和伪时间排序。扩散图坐标(DC)中的伪时间排序包含scRNA-seq和scATAC-seq细胞。 h, 我们观察到的MPO基因表达动态与其上游调控区域(在i中用黄色框表示)的可及性动态之间的‘滞后’示例位点。 i, MPO调控位点的染色质可及性。高亮区域在多能LMPP阶段变得可及。 j, MPO在髓系定向GMP阶段的RNA水平上高度表达。 k, 我们识别出236个基因在可及性和转录动态之间存在滞后,对这些基因进行KEGG通路富集分析。P值通过Fisher精确检验计算。 l, 六个细胞周期相关基因的平滑染色质可及性水平(红色)和滞后表达(蓝色)随伪时间的变化函数。
鲁棒性及基准分析
Fig. 3: Robustness and benchmarking analysis for bridge integration.
基于多组学数据集中每种细胞类型所代表的细胞数量,对桥接整合的每个细胞类型预测一致性进行分析。通过连续下采样多组学数据集,重复进行桥接整合,并将结果查询注释与完整数据集派生的注释进行比较,获得一致性结果。箱线图展示了21种细胞类型的观测值范围。箱线图中心表示中位数,箱体的下边缘和上边缘分别代表25%分位数和75%分位数。须线从边缘延伸至1.5倍的四分位距。 在通过桥接整合、multiVI和Cobolt进行跨模态注释后,展示了SIGLEC6位点的覆盖图。只有被桥接整合分类为ASDCs的细胞在该位点表现出细胞类型特异性的可及性。其他位点在补充图2e,f中展示。 真实基准分析。来自10x多组学数据集的RNA和ATAC谱被拆分并整合。条形图显示了每个scATAC-seq细胞与其匹配的scRNA-seq细胞之间的平均Jaccard相似性值±标准差(n = 30,253个细胞对)。结果按单个细胞类型在补充图3中分开展示。还展示了三种组蛋白修饰谱的Paired-Tag数据集结果:H3K27ac(n = 10,906个细胞)、H3K27me3(n = 6,280个细胞)和H3K4me1(n = 12,638个细胞)。在每种情况下,桥接整合都达到了最高的Jaccard相似性。 人类运动皮层的scRNA-seq参考;Astro,星形胶质细胞;Endo,内皮细胞;L2/3 IT,第2-3层谷氨酸能神经元,内向投射;L5 ET,第5层谷氨酸能神经元,外向投射;L5 IT,第5层谷氨酸能神经元,内向投射;L5/6 NP,第5-6层谷氨酸能神经元,近投射;L6 CT,第6层谷氨酸能神经元,皮层丘脑投射;L6 IT,第6层谷氨酸能神经元,内向投射;L6 IT Car3,第6层Car3+谷氨酸能神经元,内向投射;L6b,第6b层谷氨酸能神经元;Lamp5,Lamp5+ GABAergic神经元;Micro-PVM,小胶质细胞/血管周围巨噬细胞;Oligo,少突胶质细胞;OPC,少突胶质细胞前体细胞;Pvalb,Pvalb+ GABAergic神经元;Sncg,Sncg+ GABAergic神经元;Sst,Sst+ GABAergic神经元;Sst Chodl,Sst+ Chodl+ GABAergic神经元;Vip,Vip+ GABAergic神经元;VLMC,血管软脑膜细胞。 使用snmC2T-seq多组学数据集作为桥梁,将人类皮层细胞的单细胞DNA甲基化谱映射到参考上。细胞根据原始研究中的甲基化衍生注释(e)或桥接整合的scRNA-seq衍生标签(f)进行着色;近投射;L6b,深层新皮层第6b层。更高粒度级别的参考衍生标签在补充图3中展示。
使用字典学习进行大规模可扩展集成
Fig. 4: Using dictionary learning for massively scalable integration.
a, 原子草图整合过程的示意图。在从每个数据集中选择一组代表性细胞后,这些细胞被整合并用于重建所有细胞的协调化特征。矩阵表示与补充方法中的完整数学描述一致。 b,c, 使用原子草图整合在55分钟内协调化的来自肺和上呼吸道的19项研究的1,525,710个单细胞RNA测序(scRNA-seq)特征的UMAP可视化。细胞按其原始研究(b)或整合后的注释细胞类型(c)着色;AT1,肺泡类型1;AT2,肺泡类型2。 d, 整合数据集中肺离子细胞的转录标记物FOXI1的表达。 e, 热图显示了在多个研究中一致的肺离子细胞的主要转录标记物。肺神经内分泌细胞(PNECs),转录上最相似的细胞类型,用于对比显示。每一列代表来自单一细胞类型和单一研究的所有细胞的伪批量平均值。所有细胞类型的主要转录标记物在补充图3中显示。 f, 离子细胞标记物的基因本体(GO)富集术语。P值通过费舍尔精确检验计算,并通过Benjamini–Hochberg检验进行调整。 g, 从单细胞差异表达分析(红色)或伪批量分析(蓝色)中恢复的主要转录标记物的表达分布。
社区规模的整合用于人类肺单细胞RNA测序
为了展示原子草图整合进行‘社区范围’分析的潜力,我们首先考虑了人类肺部的单细胞RNA测序(scRNA-seq)数据集。
在2019年冠状病毒病(COVID-19)大流行期间,呼吸组织的scRNA-seq数据收集已广泛开展,特别是由人类细胞图谱肺生物学网络进行的收集。
利用最近发表的scRNA-seq研究‘数据库’和人类细胞图谱公开释放的肺部和上呼吸道数据集(https://www.covid19cellatlas.org/index.healthy.html),我们汇编了19个数据集,涵盖总共1,525,710个单个细胞。
我们创建了一个原子字典,包含每个数据集中的5,000个细胞(总计95,000个原子),整合了这些细胞并重建了完整的数据集。
我们的原子草图整合程序在55分钟内使用单个计算核心完成了所有这些步骤(包括预处理)。
我们发现,整合后的潜在空间保留了每个数据集中独立分配的细胞类型之间的邻居关系,但也混合了跨数据集的细胞(补充图5c–e)。
我们的结果表明,与个体分析相比,社区规模的整合具有优势。
首先,通过跨数据集和技术匹配生物状态,整合的参考可以帮助标准化细胞本体和命名方案(图4b,c)。
当观察每个研究得出的先前分配的注释时,我们发现匹配的细胞群体通常被赋予略有不同的名称(补充图5f)。
我们还发现了整合注释比原始标签具有更高分辨率的情况,并验证了我们的高分辨率注释得到了可重复基因表达标记的表达模式的支持(补充图5g)。
作为第二个好处,我们发现社区规模的整合能够一致地识别超稀有群体,特别是最近在人类和小鼠肺中发现的Foxi1表达的‘肺离子细胞’(图4d)。
虽然这些细胞仅在19项研究中的6项中被独立注释,但我们的整合分析在19项研究中的17项中至少发现了一个肺离子细胞。
所识别的离子细胞极为稀有(0.047%),但表现出清晰的典型标志物表达(图4c),突显了汇集多个数据集以表征这些细胞的潜在价值。
我们注意到,通过草图或杠杆得分抽样选择字典原子对于最佳性能至关重要(补充图5h,i);使用随机下采样确定的一组原子重复分析,成功整合了丰富的细胞类型,但未能整合离子细胞,因为它们在字典中未得到充分表示。
最后,我们发现社区规模的整合可以显著提高差异表达细胞类型标记的识别。
使用19个研究重复样本使我们能够识别在各个实验室和技术中表现出一致模式的基因,代表了稳健且可重复的标记。
我们将细胞按样本重复和细胞类型身份进行分组,并对生成的伪批量轮廓进行差异表达分析(图4e和补充图6)。
例如,我们为肺离子细胞识别了116个阳性标记,这是对该细胞类型最深入转录特征之一的研究。
这些标记包括典型标记,如转录因子FOXI1,但也揭示了ATP酶(例如,ATP6V1G3和ATP6V0A4)和氯离子通道(例如,CLCNKA、CLCNKB和CFTR)的明显本体富集,支持这些细胞在调节肺中化学浓度方面的作用(图4f)。
使用伪批量值的一个优点是提高了对低表达水平基因的定量准确性。
事实上,我们反复发现,使用这种策略找到的顶级差异表达标记倾向于捕获更多平均表达值较低范围内的基因(图4g)。
社区规模的scRNA-seq和CyTOF整合
Fig. 5: ‘Community-scale’ integration of sequencing and cytometry immune datasets.
a, UMAP可视化展示了3,461,171个人类PBMC单细胞RNA测序(scRNA-seq)图谱,涵盖14项研究和639个个体,经过原子草图整合;HSPC,造血干细胞和祖细胞;Treg细胞,调节性T细胞;TCM,中央记忆T细胞;TEM,效应记忆T细胞。 b, CD14+单核细胞中COVID-19响应模块的表达。每一列代表来自506个个体之一的CD14+单核细胞的伪批量平均值。模块的表达与个体内的疾病严重程度相关,这由热图上方的颜色刻度表示。其他细胞状态的响应在补充图5b中展示。 c, 使用已发表的CITE-seq数据集(Hao等人4)作为多组学桥梁,映射了5,170,249个额外的CyTOF图谱,涵盖119个个体。每个CyTOF图谱都标注了由scRNA-seq定义的细胞类型之一。 d, 跨模态整合使得能够在由scRNA-seq定义的细胞景观上探索细胞表面和细胞内蛋白标记。例如,细胞内FOXP3水平在标注的调节性T细胞中高度富集,验证了我们映射的准确性。每个可视化展示了二十万个细胞,以减轻过度绘制。 e, 热图展示了CyTOF数据集中34个蛋白标记的表达。每一列代表按个体和参考衍生注释分组后的伪批量平均值。
https://mp.weixin.qq.com/s/QEBpSEA4P_mQyUnAfk2RYA