ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
126 stars 31 forks source link

R 包精读 | Seurat V5 字典学习用于综合、多模态和可扩展的单细胞分析 #5582

Closed ixxmu closed 2 months ago

ixxmu commented 2 months ago

https://mp.weixin.qq.com/s/QEBpSEA4P_mQyUnAfk2RYA

ixxmu commented 2 months ago

R 包精读 | Seurat V5 字典学习用于综合、多模态和可扩展的单细胞分析 by BioJournal Link

Basic Information

  • 英文标题:Dictionary learning for integrative, multimodal and scalable single-cell analysis
  • 中文标题:字典学习用于综合、多模态和可扩展的单细胞分析
  • 发表日期:25 May 2023
  • 文章类型:Article
  • 所属期刊:Nature Biotechnology
  • 文章作者:Yuhan Hao | Rahul Satija
  • 文章链接:https://www.nature.com/articles/s41587-023-01767-y

Abstract

  1. 将单细胞测序谱图映射到全面的参考数据集,为无监督分析提供了一种强大的替代方法。
  2. 然而,大多数参考数据集是基于单细胞RNA测序数据构建的,无法用于注释未测量基因表达的数据集。
  3. 在这里,我们介绍‘桥接整合’方法,这是一种利用多组学数据集作为分子桥梁来整合跨模态单细胞数据集的方法。
  4. 多组学数据集中的每个细胞构成了‘字典’中的一个元素,该字典用于重建单模态数据集并将其转换到共享空间。
  5. 我们的程序能够准确地将转录组数据与独立的单细胞染色质可及性、组蛋白修饰、DNA甲基化和蛋白质水平测量数据整合。
  6. 此外,我们展示了如何将字典学习与草图技术相结合,以提高计算的可扩展性,并协调来自测序和质量细胞术实验的860万个人类免疫细胞谱图。
  7. 我们的方法已在Seurat工具包的第5版中实现(http://www.satijalab.org/seurat),拓宽了单细胞参考数据集的实用性,并促进了跨多种分子模态的比较。

Main

  1. 正如读图工具已经改变了基因组序列分析一样,将新数据集映射到已建立的参考上的能力为单细胞基因组学领域带来了令人兴奋的机遇。
  2. 作为完全无监督聚类的替代方案,监督映射方法利用大型且经过精心策划的参考来解释和注释查询轮廓。
  3. 这一策略得益于参考数据集的策划和公开发布,以及新计算工具的开发,包括统计学习方法和基于深度学习的方法,这些方法已成功应用于这一目标。
  4. 现有方法的当前局限性是主要关注单细胞RNA测序(scRNA-seq)数据。
  5. 单细胞转录组学非常适合用于参考数据集的组装和注释,尤其是差异表达(DE)基因标记通常可以解释,以帮助注释细胞簇。
  6. 这导致了高质量、精心策划和专家注释的参考数据集的发展,特别是来自包括人类细胞图谱、人类生物分子图谱项目(HuBMAP)和陈-扎克伯格生物中心在内的联盟。
  7. 映射到这些参考数据集促进了数据协调、细胞本体和命名方案的标准ization,以及跨实验条件和疾病状态的scRNA-seq数据集的比较。
  8. 一个关键的挑战是将参考映射扩展到其他分子模态,包括单细胞染色质可及性测量(例如,单细胞转座酶可及染色质测序(scATAC-seq))、DNA甲基化(单细胞亚硫酸氢盐测序)、组蛋白修饰(单细胞靶向切割和标记(scCUT&Tag))和蛋白质水平(飞行时间细胞术(CyTOF)),每一种都测量与scRNA-seq不同的特征集。
  9. 缺乏转录组范围的测量为无监督注释带来了挑战。
  10. 理想情况下,来自不同模态的数据集可以映射到scRNA-seq参考上,确保已建立的细胞标签和本体得以保留。
  11. 我们和其他人已经提出了跨模态映射数据集的方法,例如,将ATAC-seq信号的基因体总和(或DNA甲基化水平的倒数)作为转录输出的代理。
  12. 这些方法做出了严格的生物学假设(例如,可及染色质与活跃转录相关),这些假设可能并不总是成立,特别是在分析细胞转变或发育轨迹时。
  13. 在此,我们介绍‘桥接整合’方法,该方法通过利用一个同时测量两种模态的独立数据集作为分子‘桥梁’,整合测量不同模态的单细胞数据集。
  14. 多组学桥接数据集可以通过多种技术生成,帮助在不同测量之间转换信息,从而实现稳健的整合,而无需任何限制性的生物学假设。
  15. 我们展示了我们方法的广泛应用性,证明了其在五种不同分子模态上的性能(图1a)。
  16. 此外,我们介绍了‘原子草图整合’方法,该方法结合了字典学习和数据集草图绘制,以提高大规模单细胞分析的计算效率,并能够快速整合涵盖数百万细胞的数十个数据集。

Fig. 1: Integrating across modalities with molecular bridges.

  • a, 桥接整合工作流程的广泛示意图。两个测量不同模态(例如,scRNA-seq 和 scATAC-seq)的数据集可以通过第三个同时测量这两种模态的数据集(例如,10x multiome)进行协调。我们展示了使用多种多组学技术作为桥接的桥接整合,包括 10x multiome、Paired-Tag、snmC2T 和 CITE-seq,每种技术都促进了与不同分子模态的整合。中间的方框列出了可以用于生成桥接数据集的替代多组学技术。
  • b, 桥接整合过程中每个步骤的数学示意图。完整的描述在补充方法中提供。为了清晰起见,此示意图中展示的矩阵名称与补充方法中定义的矩阵名称相同。

Results

Using multiomic dictionaries for bridge integration

使用多组学字典进行桥梁整合

  1. 我们的目标是开发一种灵活且健壮的集成策略,以整合来自单细胞测序实验的数据,这些实验测量了不同的模态(‘单模态数据集’)。
  2. 根本挑战在于,不同的单模态数据集测量了不同的特征集。
  3. 我们推断,一种方法是可以利用多组学数据集作为桥梁,帮助在不同模态之间进行转换。
  4. 为了进行这种转换,我们受到了字典学习领域的启发,这是一种常用于图像分析和基因组学的表示学习方法。
  5. 字典学习的目标是用被称为原子的一系列单个元素来表示输入数据,这些原子共同构成一个字典。
  6. 将输入数据重建为这些原子的加权线性组合是一种有效的去噪工具,并代表了将输入数据转换到字典定义空间的变换。
  7. 我们发现字典学习能够在单细胞分辨率下实现跨模态桥接整合。
  8. 我们的关键见解是将多组学数据集视为一个字典,每个单细胞的多组学特征表示为一个原子。
  9. 我们基于这些原子学习每个单模态数据集的‘字典表示’。
  10. 为了清晰起见,我们强调,与字典学习的原始应用中原子代表一组特征不同,我们使用单个实例(细胞)作为字典元素。
  11. 这种转换将测量完全不同特征集的数据集表示在每个定义特征代表相同原子集的空间中(图1b)。
  12. 一旦不同模态可以用相同的一组特征表示,它们就可以在最后一步中轻松对齐。
  13. 我们的桥接集成在图1b中示出,并在补充方法中进行了详细描述,以下我们列举几个关键点。
  14. 首先,我们的程序对模态之间的关系不作任何假设,因为这些关系是从多组学数据集中自动学习的。
  15. 其次,我们在此呈现的关键进展是一种转换,将不同模态的 profiling 数据集投影到由一组共享原子表示。
  16. 一旦转换完成,最终的校准步骤与多种单细胞集成技术兼容,包括 Harmony、mnnCorrect、Seurat、Scanorama 或 scVI。
  17. 在本文中,我们使用 mnnCorrect 算法的实现来执行这一步骤。
  18. 第三,我们发现,当处理较大的桥接数据集时,大量的原子(桥接数据集中的单个细胞)造成了显著的计算负担。
  19. 受拉普拉斯特征映射42解决类似问题的启发,我们对多组学数据集的图拉普拉斯进行特征分解,以将维度从原子数量减少到选定的特征向量数量(补充方法)。
  20. 然后,我们使用这些特征向量将学习到的字典表示转换到相同的低维空间,从而大幅提高了桥接整合过程的效率。

Mapping scATAC-seq data onto scRNA-seq references

将单细胞ATAC测序数据映射到单细胞RNA测序参考上

  1. 我们首先通过在人类骨髓单核细胞(BMMCs)的scATAC-seq和scRNA-seq样本上进行跨模态映射,展示了我们的桥接集成策略。
  2. 这些样本包括代表造血分化全谱系的细胞,包括造血干细胞(HSCs)、多能和寡能祖细胞以及完全分化的细胞。
  3. 作为HuBMAP的一部分,我们利用公共数据集构建了人类BMMCs的综合scRNA-seq参考(‘Azimuth参考’;297,627个细胞),并仔细注释了10种祖细胞和25种分化细胞状态(图2a)。
  4. 我们的目标是将人类BMMCs的scATAC-seq ‘查询’数据集(16,266个全骨髓剖面和9,893个CD34+富集剖面)映射到这一参考上(图2b)。
  5. 我们使用了一个10x多组学数据集(32,368个配对的单核RNA-seq + scATAC-seq),该数据集作为NeurIPS 2021的一部分公开发布,作为桥接。

Fig. 2: Mapping scATAC-seq data onto scRNA-seq references.

  • a, 统一流形逼近和投影(UMAP)可视化的人骨髓单细胞RNA测序(scRNA-seq)参考数据集,包含297,627个注释的scRNA-seq谱图;mDC,髓系树突状细胞;EMP,红髓祖细胞;BaEoMa,嗜碱性粒细胞、嗜酸性粒细胞、肥大细胞祖细胞;cDC1,常规类型1树突状细胞;cDC2,常规类型2树突状细胞;NK,自然杀伤细胞;Prog Mk,祖巨核细胞。
  • b, 来自Granja等人43的scATAC-seq查询数据集的UMAP可视化,包含26,159个谱图,跨越五个批次,其中三个批次富含表达CD34的细胞。
  • c, 经过桥接整合后,查询细胞根据scRNA-seq定义的细胞本体进行注释,并且可以在相同的嵌入中进行可视化。
  • d–f, 覆盖图显示了在按预测注释分组查询细胞后,选定位点的染色质可及性。在每种情况下,预测的细胞标签与预期的可及性模式一致;bp,碱基对;kb,千碱基。
  • g, 我们构建了经历髓系分化的细胞的分化轨迹和伪时间排序。扩散图坐标(DC)中的伪时间排序包含scRNA-seq和scATAC-seq细胞。
  • h, 我们观察到的MPO基因表达动态与其上游调控区域(在i中用黄色框表示)的可及性动态之间的‘滞后’示例位点。
  • i, MPO调控位点的染色质可及性。高亮区域在多能LMPP阶段变得可及。
  • j, MPO在髓系定向GMP阶段的RNA水平上高度表达。
  • k, 我们识别出236个基因在可及性和转录动态之间存在滞后,对这些基因进行KEGG通路富集分析。P值通过Fisher精确检验计算。
  • l, 六个细胞周期相关基因的平滑染色质可及性水平(红色)和滞后表达(蓝色)随伪时间的变化函数。
  1. 我们的桥接程序成功地将scATAC-seq数据集映射到我们的Azimuth参考上,使得scATAC-seq和scRNA-seq数据能够联合可视化(图2c),并自动注释scATAC-seq图谱,附带预测分数。
  2. 参考映射还使多个样本中的共享细胞群体对齐,减轻了样本特定的批次效应。
  3. 代表CD34+ BMMC部分的查询样本仅映射到参考数据集中的HSC和祖细胞成分,表明桥接整合能够稳健地处理查询数据集代表参考子集的情况,而整个部分映射到所有35个细胞状态(补充图1a)。
  4. 我们基于参考数据的注释与原始作者生成的查询数据集所附带的注释是一致的(补充图1b),但我们发现桥接整合注释了额外的稀有和高分辨率亚群。
  5. 例如,我们的注释将单核细胞分为CD14+和CD16+部分,自然杀伤细胞分为CD56bright和CD56dim亚组,以及将细胞毒性T细胞分为CD8+和黏膜相关不变T(MAIT)细胞亚群。
  6. 虽然这些细分在无监督的scATAC-seq分析中未被发现,但我们通过观察按参考数据注释分组后的典型位点的差异可及性,确认了这些预测(图2d,e和补充图1c)。
  7. 我们使用独立的多组学数据集验证了这些染色质模式,其中细胞身份是基于并发RNA测量确定的(补充图1d,e)。
  8. 同样,桥接整合识别了极其罕见的固有淋巴样细胞(ILCs;0.15%)和最近发现的AXL+SIGLEC6+树突状细胞(ASDCs;0.10%;图2f和补充图1c)。
  9. 据我们所知,这些细胞群体在scATAC-seq数据中尚未被先前识别。
  10. 再次,我们发现差异可及的位点,例如SIGLEC6基因中的ASDC特异性峰(图2f),完全支持我们映射程序的准确性。
  11. 通过将来自多种模态的数据集投影到一个共同空间,我们的参考映射程序不仅能够实现离散注释的转移,还允许我们探索一种模态中的变化如何对应于另一种模态中的变化。
  12. 例如,在整合后,我们将扩散图应用于协调后的测量数据,以构建一个跨越髓系分化过程中多个祖细胞状态的联合分化轨迹(图2g)。
  13. 由于这一轨迹代表了参考细胞和查询细胞,我们可以探索染色质可及性的伪时间变化如何与基因表达相关联,尽管这两种模态是在不同的实验中测量的。
  14. 与之前的发现一致,我们识别出基因表达变化‘滞后’于染色质可及性变化的案例。
  15. 例如,尽管髓过氧化物酶(由MPO编码)在粒细胞-巨噬细胞祖细胞(GMPs)中表达,并与髓系命运决定相关,其上游的调控区域在淋巴样前体多能祖细胞(LMPPs)中获得了可及性(图2h-j)。
  16. 我们使用基于交叉相关性的指标,系统地识别了这一轨迹中的236个‘滞后’位点(补充方法)。
  17. KEGG通路富集分析显示,这些位点在细胞周期和DNA复制相关基因中显著富集(图2k)。
  18. 这些位点在分化最早阶段(HSCs)具有可及性染色质,但相关基因在转录激活之前存在延迟(图2l)。
  19. 这些位点在最早祖细胞中的可及状态可能代表一种启动形式,以在分化决定后快速进入细胞周期,这可能代表了通过跨模态整合分析所能实现的发现类型。

Robustness and benchmarking analysis

鲁棒性及基准分析

  1. 由于我们的策略依赖于字典表示和重建单个数据集的能力,我们探讨了多组学数据集的大小和组成如何影响整合的准确性。
  2. 我们依次对多组学数据集进行降采样,重复桥接整合,并将结果与原始发现进行比较。
  3. 降采样桥接通常返回与完整分析一致的结果,但正如预期的那样,可能会影响稀有细胞类型的注释一致性,这些细胞类型对降采样最为敏感(图3a)。
  4. 我们发现,如果一个桥接数据集包含至少50个代表特定细胞类型的细胞(‘原子’),这对于稳健整合是足够的。
  5. 我们注意到,这一阈值并不是严格的要求;我们发现,即使桥接中少于十个细胞,整合也可以成功,例如ASDCs等稀有细胞类型,但我们也观察到在这种模式下会出现失败情况。
  6. 我们注意到,生成每个亚群体包含超过50个细胞的桥接数据集对于许多多组学技术来说是相当可行的,我们的发现代表了在进行多组学实验时辅助实验设计的指南。
  7. 值得注意的是,我们发现大幅改变桥接数据集中细胞类型的相对组成(同时保持最低阈值)并没有负面影响性能,这表明即使在生成多组学桥接的样本中存在显著组成差异的情况下,桥接整合也能成功(补充图2a,b)。

Fig. 3: Robustness and benchmarking analysis for bridge integration.

  • 基于多组学数据集中每种细胞类型所代表的细胞数量,对桥接整合的每个细胞类型预测一致性进行分析。通过连续下采样多组学数据集,重复进行桥接整合,并将结果查询注释与完整数据集派生的注释进行比较,获得一致性结果。箱线图展示了21种细胞类型的观测值范围。箱线图中心表示中位数,箱体的下边缘和上边缘分别代表25%分位数和75%分位数。须线从边缘延伸至1.5倍的四分位距。
  • 在通过桥接整合、multiVI和Cobolt进行跨模态注释后,展示了SIGLEC6位点的覆盖图。只有被桥接整合分类为ASDCs的细胞在该位点表现出细胞类型特异性的可及性。其他位点在补充图2e,f中展示。
  • 真实基准分析。来自10x多组学数据集的RNA和ATAC谱被拆分并整合。条形图显示了每个scATAC-seq细胞与其匹配的scRNA-seq细胞之间的平均Jaccard相似性值±标准差(n = 30,253个细胞对)。结果按单个细胞类型在补充图3中分开展示。还展示了三种组蛋白修饰谱的Paired-Tag数据集结果:H3K27ac(n = 10,906个细胞)、H3K27me3(n = 6,280个细胞)和H3K4me1(n = 12,638个细胞)。在每种情况下,桥接整合都达到了最高的Jaccard相似性。
  • 人类运动皮层的scRNA-seq参考;Astro,星形胶质细胞;Endo,内皮细胞;L2/3 IT,第2-3层谷氨酸能神经元,内向投射;L5 ET,第5层谷氨酸能神经元,外向投射;L5 IT,第5层谷氨酸能神经元,内向投射;L5/6 NP,第5-6层谷氨酸能神经元,近投射;L6 CT,第6层谷氨酸能神经元,皮层丘脑投射;L6 IT,第6层谷氨酸能神经元,内向投射;L6 IT Car3,第6层Car3+谷氨酸能神经元,内向投射;L6b,第6b层谷氨酸能神经元;Lamp5,Lamp5+ GABAergic神经元;Micro-PVM,小胶质细胞/血管周围巨噬细胞;Oligo,少突胶质细胞;OPC,少突胶质细胞前体细胞;Pvalb,Pvalb+ GABAergic神经元;Sncg,Sncg+ GABAergic神经元;Sst,Sst+ GABAergic神经元;Sst Chodl,Sst+ Chodl+ GABAergic神经元;Vip,Vip+ GABAergic神经元;VLMC,血管软脑膜细胞。
  • 使用snmC2T-seq多组学数据集作为桥梁,将人类皮层细胞的单细胞DNA甲基化谱映射到参考上。细胞根据原始研究中的甲基化衍生注释(e)或桥接整合的scRNA-seq衍生标签(f)进行着色;近投射;L6b,深层新皮层第6b层。更高粒度级别的参考衍生标签在补充图3中展示。
  1. 我们接下来比较了桥接整合与两种最近提出的用于多模态和单模态数据集综合分析的方法的性能。
  2. multiVI49和Cobolt50都使用变分自编码器进行整合,尽管它们没有明确地将多组学数据集视为桥梁,但它们旨在将跨技术和模态的数据集整合到一个共享空间中。
  3. 当应用于之前描述的数据集时,这两种方法在整合scRNA-seq和scATAC-seq数据方面总体上是成功的,但并未在相同的分辨率水平上识别匹配(例如,两种方法都未能成功将scATAC-seq数据中的ASDCs与Azimuth参考中的ASDCs匹配;图3b和补充图2d-f)。
  4. 我们还发现,桥接整合所学习的潜在空间和邻接关系与ATAC-seq分析中最初分配的标签最为一致(补充图2c)。
  5. 在比较计算效率时,桥接整合(0.8小时,不包括1.2小时的预处理时间)和Cobolt(3.3小时)是最有效的方法,而multiVI则需要更多的计算资源(15.7小时)。
  6. 我们接下来对多组学整合方法(桥接整合、Cobolt 和 multiVI)进行了定量基准测试,并评估了‘无桥接’方法(基于典型相关分析的整合和 LIGER),这些方法基于基因活性评分进行整合(补充方法)。
  7. 我们发现我们的桥接整合方法最一致且有效地匹配了跨模态的相同生物状态下的细胞(图3c和补充图3a)。
  8. 与我们的先前结果一致,我们发现当映射稀有细胞类型时,包括浆细胞和DCs(补充图3b),观察到最强的改进。
  9. 由于我们的程序与多种整合技术兼容,我们比较了在使用mnnCorrect39或Seurat v3(参考文献19)进行最终对齐步骤时桥接整合的性能,并观察到非常相似的结果(补充图3a,b)。
  10. 我们还根据最初基于scRNA-seq测量结果44分配的簇标签计算了额外的指标(补充表1)。
  11. 在所有情况下,我们一致发现桥接整合表现出卓越的性能。
  12. 作为第二个具有真实数据的定量基准,我们采用了一种类似的策略,使用最近发表的配对标签数据集26,其中通过scCUT&Tag同时测量了单个组蛋白修饰结合谱和RNA转录组。
  13. 我们进行了scRNA-seq和scCUT&Tag之间的跨模态整合,针对活性组蛋白标记(H3K27ac)、抑制性组蛋白标记(H3K27me3)和增强子组蛋白标记(H3K4me1)。
  14. 在每个案例中,桥接整合成功地将跨模态的细胞整合在一起,并在匹配的scRNA-seq和scCUT&Tag谱之间返回了最高的Jaccard相似度和分类指标(图3c,补充图3d,e和补充表1)。
  15. 为了进一步展示我们方法的灵活性,我们使用桥接集成来映射和注释一个snmC-seq数据集,该数据集测量人类大脑皮层单细胞中的DNA甲基化谱。
  16. 作为参考,我们使用了来自艾伦脑图集的数据集,该数据集定义了人类大脑皮层中经过专家精心整理的多层次细胞本体。
  17. 使用一个snmC2T-seq数据集,该数据集同时测量甲基化和基因表达作为桥梁,我们能够以高置信度注释snmC-seq谱图(补充图3f)。
  18. 即使我们的参考衍生注释没有增强snmC-seq数据无监督聚类的分辨率,它们确实增加了实质性的可解释性(图3d-f)。
  19. 例如,无监督聚类识别了多个第6层(L6)神经元群体(标记为L6-1、L6-2和L6-3),但RNA辅助注释清晰地将这些簇标记为‘近投射’或深层新皮层6b兴奋性神经元(图3f)。
  20. 最后,我们旨在具体表征我们的方法在桥接数据集缺失特定细胞群体或数据质量较低的情况下的性能。
  21. 使用BMMC多组学基准数据集,我们从多组学数据集中移除了所有浆细胞样树突状细胞(pDCs)并重复桥接整合。
  22. 我们发现这一修改并未改变查询中非pDCs的注释或置信分数,但pDC查询细胞的确表现出注释性能的下降(使用完整桥接数据集时94.4%被注释为pDCs,使用缺失桥接数据集时83.5%被注释为pDCs)。
  23. 然而,我们发现这些查询细胞在预测置信度上也表现出特定且明显的下降(使用完整桥接数据集的平均预测分数为0.907,使用缺失桥接数据集为0.514),这表明当底层假设不满足时,我们的程序正确地降低了预测的置信度。
  24. 我们在分别耗尽另外三种细胞群体(B细胞、CD8+ T细胞和CD14+单核细胞)后重复了这一分析,并观察到了相似的结果(补充图4a)。
  25. 此外,我们发现通过丢弃独特分子标识符(UMIs;将RNA UMIs每细胞降至750个,即86%降采样,或将ATAC片段每细胞降至2500个,即70%降采样)大幅降低桥接数据质量并未对整合产生不利影响,尽管在进一步降采样后我们确实观察到了性能下降(补充图4b,c)。
  26. 综合来看,这些结果展示了我们桥梁集成程序的准确性、鲁棒性和灵活性。我们展示了在多种模态和数据类型上的应用,并通过定量和真实基准比较验证了其最佳性能。

Using dictionary learning for massively scalable integration

使用字典学习进行大规模可扩展集成

  1. 最近公开的单细胞数据集的增加对整合分析提出了挑战。
  2. 例如,多个组织已经在数十项研究中进行了分析,代表了数百名个体和数百万个细胞。
  3. 我们将协调单个器官中广泛(或全部)公开的单细胞数据集的挑战称为‘社区范围内’的整合。
  4. 虽然丰富的分析方法可以协调数十万个细胞的数据集,但进行无监督的‘社区范围内’整合仍然具有挑战性,即使是在分析单一模态时也是如此。
  5. 我们受到之前关于‘几何草图’研究工作的启发,该方法首先在所有数据集中选择一个代表性的细胞子集(即‘草图’),将其整合,然后将整合结果传播回完整数据集53。
  6. 这一开创性方法显著提高了整合的可扩展性,因为最繁重的计算步骤集中在数据的子集上。
  7. 然而,这种方法依赖于必须首先在完整数据集上进行的的主成分分析(PCA)结果。
  8. 随着数据集规模的持续增长,进行降维可能会成为一个限制性步骤。
  9. 我们旨在设计一种策略,能够整合大量数据集,而无需同时分析或对完整细胞集进行密集计算。
  10. 我们推测,字典学习也能实现高效且大规模的整合分析。
  11. 我们首先从每个数据集中选择了一组代表性的细胞草图(即5,000个细胞),并将这些细胞视为字典中的原子(见图4a和补充方法)。
  12. 接下来,我们学习了一个字典表示,即原子的加权线性组合,可以重建完整的数据集。
  13. 这些步骤可以独立在每个数据集上进行,从而允许高效的并行处理。
  14. 然后,我们对每个数据集的原子进行了整合。
  15. 这是唯一一个同时分析来自多个数据集的细胞的步骤,但由于只考虑原子,因此不会带来可扩展性挑战。
  16. 最后,我们将之前学习的字典表示应用于每个数据集的协调原子,并重建了完整数据集的协调轮廓。
  17. 我们将这一过程称为‘原子草图整合’。
  18. 我们强调,对于这一应用,用于重建数据集的‘原子’代表了数据集本身的细胞子集。
  19. 相比之下,在桥接整合中,原子指的是来自不同(多组学)数据集的细胞。

Fig. 4: Using dictionary learning for massively scalable integration.

  • a, 原子草图整合过程的示意图。在从每个数据集中选择一组代表性细胞后,这些细胞被整合并用于重建所有细胞的协调化特征。矩阵表示与补充方法中的完整数学描述一致。
  • b,c, 使用原子草图整合在55分钟内协调化的来自肺和上呼吸道的19项研究的1,525,710个单细胞RNA测序(scRNA-seq)特征的UMAP可视化。细胞按其原始研究(b)或整合后的注释细胞类型(c)着色;AT1,肺泡类型1;AT2,肺泡类型2。
  • d, 整合数据集中肺离子细胞的转录标记物FOXI1的表达。
  • e, 热图显示了在多个研究中一致的肺离子细胞的主要转录标记物。肺神经内分泌细胞(PNECs),转录上最相似的细胞类型,用于对比显示。每一列代表来自单一细胞类型和单一研究的所有细胞的伪批量平均值。所有细胞类型的主要转录标记物在补充图3中显示。
  • f, 离子细胞标记物的基因本体(GO)富集术语。P值通过费舍尔精确检验计算,并通过Benjamini–Hochberg检验进行调整。
  • g, 从单细胞差异表达分析(红色)或伪批量分析(蓝色)中恢复的主要转录标记物的表达分布。
  1. 原子草图集成的成功依赖于为每个数据集识别一个代表性的细胞子集。
  2. 单细胞分析的草图技术旨在找到能够保留这些数据集整体几何结构的子样本。
  3. 这些方法不需要对数据进行预聚类,但旨在确保草图数据集即使在降采样后也能代表稀有和丰富的细胞状态。
  4. 在这里,我们使用基于杠杆分数采样策略进行草图绘制,该方法已被提出用于大规模信息检索问题,并且可以快速高效地在稀疏数据集上计算。
  5. 基于杠杆分数的采样不需要执行PCA,但与几何草图技术相比,仍能有效地识别稀有亚群的细胞。
  6. 我们强调,原子草图集成代表了一种提高可扩展性的通用策略,可以广泛地与现有方法结合。
  7. 例如,包括Harmony、Scanorama、mnnCorrect、scVI和Seurat在内的多种集成技术可以用于整合每个字典中的原子元素,我们的程序则使这些结果能够扩展到完整数据集。

Community-scale integration for human lung scRNA-seq

社区规模的整合用于人类肺单细胞RNA测序

  1. 为了展示原子草图整合进行‘社区范围’分析的潜力,我们首先考虑了人类肺部的单细胞RNA测序(scRNA-seq)数据集。

  2. 在2019年冠状病毒病(COVID-19)大流行期间,呼吸组织的scRNA-seq数据收集已广泛开展,特别是由人类细胞图谱肺生物学网络进行的收集。

  3. 利用最近发表的scRNA-seq研究‘数据库’和人类细胞图谱公开释放的肺部和上呼吸道数据集(https://www.covid19cellatlas.org/index.healthy.html),我们汇编了19个数据集,涵盖总共1,525,710个单个细胞。

  4. 我们创建了一个原子字典,包含每个数据集中的5,000个细胞(总计95,000个原子),整合了这些细胞并重建了完整的数据集。

  5. 我们的原子草图整合程序在55分钟内使用单个计算核心完成了所有这些步骤(包括预处理)。

  6. 我们发现,整合后的潜在空间保留了每个数据集中独立分配的细胞类型之间的邻居关系,但也混合了跨数据集的细胞(补充图5c–e)。

  7. 我们的结果表明,与个体分析相比,社区规模的整合具有优势。

  8. 首先,通过跨数据集和技术匹配生物状态,整合的参考可以帮助标准化细胞本体和命名方案(图4b,c)。

  9. 当观察每个研究得出的先前分配的注释时,我们发现匹配的细胞群体通常被赋予略有不同的名称(补充图5f)。

  10. 我们还发现了整合注释比原始标签具有更高分辨率的情况,并验证了我们的高分辨率注释得到了可重复基因表达标记的表达模式的支持(补充图5g)。

  11. 作为第二个好处,我们发现社区规模的整合能够一致地识别超稀有群体,特别是最近在人类和小鼠肺中发现的Foxi1表达的‘肺离子细胞’(图4d)。

  12. 虽然这些细胞仅在19项研究中的6项中被独立注释,但我们的整合分析在19项研究中的17项中至少发现了一个肺离子细胞。

  13. 所识别的离子细胞极为稀有(0.047%),但表现出清晰的典型标志物表达(图4c),突显了汇集多个数据集以表征这些细胞的潜在价值。

  14. 我们注意到,通过草图或杠杆得分抽样选择字典原子对于最佳性能至关重要(补充图5h,i);使用随机下采样确定的一组原子重复分析,成功整合了丰富的细胞类型,但未能整合离子细胞,因为它们在字典中未得到充分表示。

  15. 最后,我们发现社区规模的整合可以显著提高差异表达细胞类型标记的识别。

  16. 使用19个研究重复样本使我们能够识别在各个实验室和技术中表现出一致模式的基因,代表了稳健且可重复的标记。

  17. 我们将细胞按样本重复和细胞类型身份进行分组,并对生成的伪批量轮廓进行差异表达分析(图4e和补充图6)。

  18. 例如,我们为肺离子细胞识别了116个阳性标记,这是对该细胞类型最深入转录特征之一的研究。

  19. 这些标记包括典型标记,如转录因子FOXI1,但也揭示了ATP酶(例如,ATP6V1G3和ATP6V0A4)和氯离子通道(例如,CLCNKA、CLCNKB和CFTR)的明显本体富集,支持这些细胞在调节肺中化学浓度方面的作用(图4f)。

  20. 使用伪批量值的一个优点是提高了对低表达水平基因的定量准确性。

  21. 事实上,我们反复发现,使用这种策略找到的顶级差异表达标记倾向于捕获更多平均表达值较低范围内的基因(图4g)。

Community-scale integration of scRNA-seq and CyTOF

社区规模的scRNA-seq和CyTOF整合

  1. 作为最终的演示,我们考虑了一个类似的问题,即社区范围内的循环人外周血细胞的整合,这是使用多种单细胞技术进行广泛表征的最常见系统之一。
  2. 通过探索公开可用的COVID-19样本或健康对照研究,我们积累了一个包含14项研究的集合,这些研究具有scRNA-seq测量数据,代表了来自639个个体的总共3.46百万个细胞。
  3. 其中11项研究的数据来自最近发表的一组标准化单细胞测序数据集。
  4. 我们进行了无监督的原子草图整合,生成了一个和谐的集合,在其中我们注释了30种细胞状态(图5a)。
  5. 我们识别了特定于COVID-19样本的激活粒细胞和B细胞群体(补充图7a)。
  6. 与之前报道一致,COVID-19样本中的单核细胞急剧上调了干扰素响应基因的表达,但与健康单核细胞正确地和谐化(图5b和补充图7b)。
  7. 通过匹配跨疾病状态的共享细胞类型(同时仍允许存在疾病特异性亚群),这一集合代表了一个宝贵的资源,用于识别在多项研究中重现的细胞类型特异性转录变化。
  8. 我们表征了另外八种细胞类型的细胞类型特异性响应,每种细胞类型都表现出保守的干扰素驱动响应以及细胞类型特异性响应基因的激活(补充图8)。

Fig. 5: ‘Community-scale’ integration of sequencing and cytometry immune datasets.

  • a, UMAP可视化展示了3,461,171个人类PBMC单细胞RNA测序(scRNA-seq)图谱,涵盖14项研究和639个个体,经过原子草图整合;HSPC,造血干细胞和祖细胞;Treg细胞,调节性T细胞;TCM,中央记忆T细胞;TEM,效应记忆T细胞。
  • b, CD14+单核细胞中COVID-19响应模块的表达。每一列代表来自506个个体之一的CD14+单核细胞的伪批量平均值。模块的表达与个体内的疾病严重程度相关,这由热图上方的颜色刻度表示。其他细胞状态的响应在补充图5b中展示。
  • c, 使用已发表的CITE-seq数据集(Hao等人4)作为多组学桥梁,映射了5,170,249个额外的CyTOF图谱,涵盖119个个体。每个CyTOF图谱都标注了由scRNA-seq定义的细胞类型之一。
  • d, 跨模态整合使得能够在由scRNA-seq定义的细胞景观上探索细胞表面和细胞内蛋白标记。例如,细胞内FOXP3水平在标注的调节性T细胞中高度富集,验证了我们映射的准确性。每个可视化展示了二十万个细胞,以减轻过度绘制。
  • e, 热图展示了CyTOF数据集中34个蛋白标记的表达。每一列代表按个体和参考衍生注释分组后的伪批量平均值。
  1. 尽管单细胞测序技术能够测量数千个单细胞中的RNA转录本和表面蛋白,但基于流式细胞术的技术可以测量数百万个细胞中的细胞外和细胞内蛋白。
  2. 由于我们的桥接整合程序应能够将CyTOF图谱映射到scRNA-seq数据集上,我们获得了涵盖119个个体和总计5,170,249个细胞的CyTOF数据集。
  3. 我们使用了之前收集的来自健康捐赠者的161,764个外周血单核细胞(PBMCs)的CITE-seq数据集作为多组学桥梁。
  4. CyTOF和CITE-seq数据集都共享30个细胞表面蛋白特征,而CyTOF数据集还测量了17种独特蛋白,其中包括无法通过CITE-seq测量的细胞内靶点。
  5. Bridge整合将每个CyTOF数据集用来自我们3.46百万细胞的scRNA-seq集合的聚类标签进行注释,并允许我们推断这些聚类中每个的细胞内蛋白水平(图5c)。
  6. 预测的调节性CD4+ T细胞高表达转录因子FOXP3,而效应T细胞表现出KLRG1水平的富集(图5d)。
  7. 我们还发现,在细胞毒性淋巴细胞群体中,MAIT细胞独特地缺乏细胞毒性蛋白酶颗粒酶B的表达,这与之前的报道一致。
  8. 这些模式中的每一个都支持我们跨模态映射的准确性。
  9. 最后,我们成功注释了一群罕见的ILCs(0.024%),这些细胞在CyTOF数据集中并未独立识别,但正确地表现出CD25+CD127+CD161+CD56−的免疫表型(图5d,e)。
  10. 综上所述,我们得出结论,字典学习增强了整合的可扩展性以及整合和比较不同分子模态的能力。

Discussion

  1. 为了将测量多种模态的数据集映射到单细胞RNA测序(scRNA-seq)参考数据集,我们开发了桥接集成方法,这是一种利用多组学数据集作为桥梁的跨模态对齐方法。
  2. 我们描述了桥接数据集的具体要求,并展示了我们方法在多种技术和模态上的广泛应用性。
  3. 最后,我们展示了如何使用原子草图集成来扩展我们方法的可扩展性,以协调跨越数百万细胞的数十个数据集。
  4. 我们预计我们的方法将对个体实验室以及已经投入构建和注释全面单细胞RNA测序参考数据的大型联合体都具有重要价值。
  5. 例如,人类细胞图谱、人类生物分子图谱项目、Tabula Sapiens和人类细胞景观都已经发布了涵盖数十万个细胞的单细胞RNA测序参考数据,涉及多种人类组织。
  6. 类似的努力也存在于模式生物中,包括果蝇细胞图谱和植物细胞图谱项目。
  7. 在每种情况下,这些努力都涉及细致、协作且专家驱动的细胞注释,以及参考细胞本体的整理。
  8. 虽然为每种模态重复这一手动工作是不可行的,但桥接整合使得能够在不修改参考数据的情况下映射新的模态。
  9. 随着更多多组学数据集的可用,我们预计像Azimuth这样的工具也将开始映射额外的模态。
  10. 我们注意到,桥接整合特别适合于那些由于成本增加、通量降低和数据质量下降,只能将多组学技术应用于部分而非所有实验样本的实验设计。
  11. 特别是,组合索引方法可以轻松应用于在数十万个细胞中分析单一模态,但不能用于多组学技术。
  12. 我们提出,通过较小的但具有代表性的多组学桥接来协调大量单一模态数据集的收集,可能是一种高效且稳健的策略,用于探索数百万细胞中的跨模态关系。
  13. 我们注意到,未来对我们工作的扩展可以进一步拓宽桥接整合的应用范围,或在新的情境中展示其潜力。
  14. 例如,对空间解析的单模态数据集(例如,CODEX)进行桥接整合,可以帮助更好地表征scRNA-seq定义的细胞类型在大组织切片中的空间定位。
  15. 新的多组学技术,将高分辨率质谱成像与单细胞或空间转录组学相结合,可以作为桥梁,协调脂质组学和代谢组学特征与基于测序的参考数据。
  16. 此外,未来的计算改进将进一步降低桥接数据集的要求,使得即使使用更少数量的多组学细胞也能实现稳健的整合。
  17. 我们强调桥接和原子草图整合的能力,以识别和表征稀有细胞群体,包括ASDCs和肺离子细胞。
  18. 单细胞转录组分析在最初发现这些细胞类型中发挥了关键作用,但对它们生物角色和功能的更深入了解将受益于多模态表征。
  19. 超越初始细胞类型分类,迈向完整多模态参考的目标,不可能通过单一实验或技术实现。
  20. 我们设想跨模态整合的计算工具将对此地图的构建做出关键贡献。

Data availability

  1. 我们在本研究中使用了公开可用的数据集。
  2. 每个数据集的下载位置在补充方法和补充表格中列出。
  3. Azimuth参考数据可在http://azimuth.hubmapconsortium.org下载。

Code availability

  1. 桥接集成和原子草图集成作为Seurat R包的一部分被实现。
  2. 在这项工作中,我们还使用了Signac和Azimuth包。
  3. 所有这些都可以在以下网站作为开源软件免费获取:https://github.com/satijalab/seurat, https://github.com/timoast/signac 和 https://github.com/satijalab/azimuth。
  4. 我们在此手稿的补充说明中包含了两个小插曲,描述了‘桥接整合’和‘原子草图整合’的过程。