单细胞多组学数据分析最佳实践(2023典藏版)

单细胞多组学数据分析最佳实践(2023典藏版) by 单细胞天地

分享是一种态度

作者 | 周运来

男，

一个长大了才会遇到的帅哥，

稳健，潇洒，大方，靠谱。

一段生信缘，一棵技能树，

生信技能树核心成员，单细胞天地特约撰稿人，简书创作者，单细胞数据科学家

编者按1：2019年一篇文章向我们概述了单细胞数据分析的关键过程，在那个工具频发的、单细胞数据分析流程百家争鸣的年代，就单细胞数据分析中的主要概念与流程进行了梳理，这就是：Current best practices in single-cell RNA-seq analysis: a tutorial。时隔几年之后，作者团队根据新形势下的单细胞数据特点，再次出发，又为我们带来新的单细胞数据分析最佳实践，也就是今天我们介绍的：Best practices for single-cell analysis across modalities。本文中，作者拓展了单细胞数据的范围，纳入了scATAC-seq、表面蛋白表达、免疫组库、空间数据，并在每一部分探讨各种数据与单细胞转录组数据的整合分析进展。本文既有对新进数据分析工具的测评，也有分析思路的推荐，作为开源的材料，并为单细胞数据分析提供了一本不断更新在线电子书：https://sc-best-practices.org/

编者按2：编者在翻译的过程中，也见缝插针地结合自己的分析经验对数据分析过程的关键过程提出了自己的想法，在文中以"运来曰"的形式出现。这些也许谈不上真知灼见，也希望能为新入门单细胞数据分析的朋友提供一个思考单细胞数据的窗口。在2019年也翻译单细胞数据分析最佳实践，链接放在下面，现在读来依然受用。

编者按3：总有一些事情，像春去秋来一样提示我们时间如白驹过隙。

单细胞技术的最新进展已经能够在不同形态和位置上对细胞进行高通量分子定量。单细胞转录组数据现在往往可以通过染色质可及性、表面蛋白表达、适应性免疫受体谱分析和空间信息来扩展。越来越多的单细胞数据以及分析工具的可用性已经推动了新的计算方法的发展，以帮助单细胞数据科学家获得生物学的新见解。然而随着该领域的快速发展，在越来越多的工具和非线性的分析步骤中如何选择和调优成为新的挑战之一。本文总结了跨模式单模态和多模态单细胞分析的独立基准研究，为最常见的分析步骤提出了全面的最佳实践工作流程。在没有独立的基准的情况下，作者回顾和对比流行的方法。本文可以作为单细胞(多)组学分析领域的新手的入门点，并提供一套单细胞多模态数据分析的最佳实践。

单细胞转录组测序(scRNA-seq)技术通过以前所未有的规模和分辨率测量转录组谱，将分子生物学带到全新的层次。实验技术的进步推动了计算方法的大规模创新，导致目前有1400多个工具可用来分析scRNA-seq数据。计算框架和软件库，如biocondutor、Seurat和Scanpy，辅以方法基准测试和最佳实践工作流程，使单细胞数据科学家能够在这一领域畅游并构建属于自己的分析管道。这种实验和计算创新的相互作用使揭示组织细胞异质性的生物学里程碑式发现成为可能。

然而，scRNA-seq只捕获了控制细胞功能和信号的复杂调控机制的一个侧面。为了将单细胞生物信息更加立体化，在单细胞分辨率下测量其他模式，如：

染色质可及性
表面蛋白
T细胞受体(TCR)/B细胞受体(BCR)谱和
空间定位

人们已经做出了相当大的努力，从而发现了诸如2型糖尿病的调控特征、先天性和适应性免疫系统对严重急性呼吸综合征冠状病毒(SARS-CoV-2)的反应失调，以及在空间分辨率下更好地理解肿瘤微环境的免疫抑制作用。实验创新导致了许多用于单细胞组学模态的新计算工具的发展，然而由于缺乏最佳实践工作流程来整合这些数据和工具，使得单细胞数据分析具有一定的挑战性，这也影响了新工具的广阔应用和方法学的开发。此外，尽管之前已经概述了scRNA-seq的计算最佳实践和工具建议，但是在新的历史条件下，它们显得有些不完整。

本文将引导读者了解单模态和多模态单细胞数据分析的各个步骤，并讨论隐藏在其中的分析陷阱和建议(图1)。在某些地方，由于工具的新颖性或缺乏独立的基准而无法确定最佳实践，作者将列出广泛采纳的工具和建议。作者将文章组织成特定于模式的部分和分析步骤组，而不是单一的工作流，在现代单细胞分析中，由于任务的多样性，这已经很少存在了。为了进一步阅读，作者提供了更广泛和定期更新(但没有同行评审)的单细胞最佳实践在线书籍(https://sc-best-practices.org/)，全书超过50章，包括详细的代码示例，分析模板以及计算需求的评估。

Fig. 1: Single-cell analysis across modalities.

单细胞转录组数据分析新论

scRNA-seq测量每个细胞mRNA分子的丰度。提取的生物组织样本解离成的细胞悬液是单细胞实验的输入。在单细胞分离过程中消化组织，然后分离单细胞以分别分析每个细胞的mRNA。基于平板的方法将细胞分离到平板上的孔中，而基于液滴的方法则在微流体液滴中捕获细胞。

在使用细胞条形码或唯一分子标识符(UMIs)和参考基因组的原始数据处理管道中，将获得的mRNA序列reads映射到原始基因和细胞，生成单细胞基因表达矩阵(图2a)。为了详细比较各种原始数据处理工具，作者参考了Lafzi et al.19，并将计数矩阵作为我们scRNA-seq数据分析工作流的起点。

运来曰：这里并不是说上游的测序和比对工序不重要，比如不同基因组及其注释信息、比对的基因组区域，这些均会影响定量的基本参数，如细胞数或基因数。

Fig. 2: Overview of unimodal analysis steps for scRNA-seq.

从原始计数矩阵到高质量的细胞数据

scRNA-seq技术的进步带来了高通量、高质量的单细胞数据。然而，scRNA-seq数据集包含系统和随机噪声(例如来自质量差的细胞)，这可能掩盖了真实的生物信号。scRNA-seq数据的预处理的主要目的是试图识别和去除这些混杂的变异源。这涉及到质量控制、归一化、数据校正和特征选择(图2a)。

过滤低质量细胞和噪声校正

大多数分析任务都假设每个微孔/液滴含有来自完整单细胞的RNA。这一假设通常被低质量细胞、无细胞RNA污染或多个细胞捕获所违背(图2a)。检测到的基因数量少、计数深度低和线粒体计数比例高的细胞通常被称为低质量细胞，因为它们可能代表膜破裂的死亡细胞。低质量的细胞被识别和过滤，方法是根据之前指南中推荐的手动设置阈值或基于中位数绝对偏差的样本自动过滤。这些指标应该被联合考虑，以防止对质量指标的误读。质量控制应该在单个样本水平上进行，因为样本之间的阈值可能有很大差异，即使是同样的细胞类型。

环境RNA可能存在于细胞溶液中，并在文库构建过程中被分配给细胞的原生RNA。环境RNA污染可导致在其他细胞群中也可检测到细胞类型特异性标记基因转录物，这将不同的细胞群混合在一起。流行的方法，如soupx，根据数据集中“空”液滴和细胞簇的表达谱来估计细胞特异性污染分数，来识别环境RNA的污染。CellBender采用无监督贝叶斯模型去除环境RNA，不需要预先了解细胞类型特异性基因表达谱。即使在缺乏系统基准的情况下，也应考虑去除环境RNA作为质量控制的初始分析步骤，以改进许多组织的下游分析过程。

空液滴/微孔和双液滴/微孔(含有两个细胞的液滴/微孔)违反了每个液滴含有单个细胞的前提假设。由不同细胞类型形成的双态(异型双态)很难标注，并可能导致错误的细胞类型标签。常见的双细胞检测方法通过组合两个随机采样的细胞并与测量细胞进行比较来生成人工双态。scDblFinder利用了这一思想，还可以与已知双节点的先验知识相结合。scDblFinder优于其他方法在双态检测精度和计算效率。此外，应用多种双细胞检测方法并比较结果可以提高双细胞检测的准确性。

在下游分析过程中，当低质量细胞和双胞体聚集在一起时，所选择的质量控制策略经常需要重新评估。因此，作者建议最初设置允许的阈值，并在重分析（(re-)analysis）期间根据需要再来去除更多的细胞。

运来曰：中国有个典故叫“莫须有”，讲的是一个奸臣用“可能有罪”的罪名陷害忠良的故事。在单细胞数据质控阶段，我们应该避免类似的案件发生，在不确定是不是低质量细胞之前不要盲目过滤细胞，所谓疑罪从无。数据质控的关键在于“识别”而不是用哪个阈值来过滤来“过滤”。今日留一线，来日好相见。

归一化

细胞可以有不同数量的基因计数，这是可能由于包含mRNA的体积(细胞大小)的差异，或者在测序过程中引入的随机因素。计数归一化使细胞具有可比性。随后的方差稳定确保了离群值分布对整体数据结构的影响减小28(图2a)。最近的一个基准测试比较了基于K近邻图(KNN图)与ground truth重叠的单细胞数据的22个转换。具有大小因子的移位对数变换[数学处理错误]表现良好，但不应将每百万计数作为输入使用，因为它反映了不切实际的分散情况。通过将所有基因用一个共同的因子进行缩放，可以假设由于细胞大小而导致的计数深度差异可以忽略不计。然而，对于scRNA-seq数据集，如果数据集由各种不同的细胞类型组成，具有不相同的细胞属性，则定义每个基因统计量可能不准确。Scran归一化的目的是通过对计数深度相似的细胞进行合并（pooling ），并使用对基因的线性回归来估计基于合并的大小因子，从而最大限度地减少这个问题。在上述基准测试中表现同样良好的一种方法是皮尔逊残差的解析逼近，它拟合了一个以排序深度为协变量的广义线性模型，以获得转换后的计数矩阵。与前人的研究结论类似，应该根据后续的分析任务仔细选择归一化方法。移位对数被证明可以更好地稳定方差，以用于后续的降维,Scran在批量校正任务中表现良好，分析皮尔逊残差更适合于生物可变基因的选择和稀有细胞身份的识别。

消除变异的混杂来源

变异的混杂来源可以分为技术协变量和生物协变量，应分别对待，因为它们描述了对数据的不同影响。

包含多个样本的数据集可能会被反映技术变化的批次效应所混淆。在聚类和可视化之后，可以观察到批效应，应该将其删除，以确保它们不会被误认为是实际的生物学见解。数据集成方法处理相同实验环境下样品间的批次效应。最近的一项基准比较了基于批校正和生物方差守恒的14个指标的16种集成方法。线性嵌入模型(如典型相关分析CCA和Harmony)被证明在具有不同批结构的简单集成任务的批校正中表现良好。scANVI可以结合细胞类型的标签，这是有利的，因为它可以帮助保存生物变异。根据集成任务的复杂性，如图集集成，深度学习方法(scANVI、scVI和scGen)以及线性嵌入模型(Scanorama)表现最好，而对于不太复杂的集成任务，Harmony是首选方法。scIB可用于使用前面提到的基准评估指标来评估数据整合效果。

除了计数抽样效应，scRNA-seq数据还可能包含生物学混淆因素，如细胞周期效应，细胞之间的差异可能是由于不同的细胞周期状态，而不是细胞类型。从数据集中去除这种影响有利于下游分析;然而，了解细胞是否在循环，可能会为研究潜在的生物学提供有价值的见解。最近的benchmark建议使用Scanpy或Seurat中内置的细胞周期标记和校正函数作为基线，将平均表达值与参考签名进行比较。随后，应该应用更复杂的方法，如Tricycle，它将数据集映射到表示细胞周期的嵌入。Tricycle在具有高细胞类型异质性的数据集上表现良好。

特征选择与降维

为了确保分析只关注生物学上有意义的基因，并处理大型数据集，计数矩阵可以简化为最具信息量的特征矩阵。特征选择方法应该理想地选择解释数据集中生物变异的基因，优先考虑亚群之间而不是一个亚群内的差异，而不影响亚群的可识别性。Deviance通过拟合一个基因模型来识别信息丰富的基因，该模型假设所有细胞都有恒定的表达，并量化哪些基因违反了这一假设。在一项独立的比较中显示，它在识别亚群体中具有高方差的基因，从而选择信息性基因方面表现良好。此外，通过偏差对基因进行排序是在原始计数上进行的，因此对归一化不敏感。特征选择后，可以通过主成分分析(PCA)等降维算法对数据集进行进一步降维(图2a)。降维技术可用于底层数据拓扑的可视化。在其他研究的基础上，PCA可用于数据汇总，t-SNE、UMAP和PHATE可用于更灵活的scRNA-seq数据可视化。值得注意的是，最近的一项研究表明，仅依赖2D嵌入可能会导致对细胞之间关系的错误解释，并且结果不应仅基于对这些表示的视觉检查，而应与定量评估相结合。

从聚类到细胞类型

经过预处理后，从数据集中去除不必要的影响，提高了信噪比。终于，人们现在可以开始问与生物学相关的问题了。作为下一个分析里程碑，可以识别不同的细胞群，以进一步指导和构建分析目标(图2b)。

将单细胞聚类

识别细胞群体的第一步是将细胞聚集成具有相似表达谱的簇，以解释数据中的异质性。独立的基准测试表明，通过Louvain算法基于图模块化优化的聚类检测在聚类识别中效果最好。然而，Louvain 算法可能会导致任意的低连接社区。Louvain 的继承者Leiden 通过产生有保证的连通社区而避开了这个问题，并且在计算上更有效率。这两种方法都应用于在数据的低维表示上计算的KNN图，并且可以以不同的分辨率运行以控制识别的聚类的数量。我们建议在不同分辨率下使用Leiden算法来获得用于注释细胞的理想聚类结果。

运来曰：在单细胞技术中，解离的单位是组织/器官，细胞分离的单位是单个细胞，数据分析的单位是聚类的簇。在这个维度上，聚类算法的选择很重要，因为它决定了：谁和谁在一起。在一个聚类算法下，有不同的分辨率，也就是聚出来几个类，这个其实不是那么重要，在下游的分析过程中，还是要根据生物学意义来对这些各簇来再聚类或者合并。

细胞类型注释

注释是对细胞簇进行生物学解释的过程，它可以用手动或自动方法来执行。建议采用三步方法，即利用自动注释，然后是专家手动注释，最后一步是验证，以获得理想的注释结果。第一步，自动细胞类型注释，可以分为基于分类器的方法和引用映射。使用预训练的分类器获得的注释结果受到分类器类型和用于创建分类器的训练数据质量的强烈影响。此外，如果不额外检查单个标记，其实很难评估注释的准确性。在先前注释的数据集或图谱上训练并考虑大量基因的分类器的例子有CellTypist和Clustifyr。

第二组自动注释方法是映射到现有的、带注释的单细胞参考数据集，并在生成的联合嵌入上执行标签传输。参考数据可以是数据集的单个样本，理想情况下，也可以是现有单细胞图谱。然后可以使用scArches、Symphony或Azimuth等方法执行查询到参考集的映射（Query-to-reference mapping）。与基于分类器的方法类似，传输注释的质量取决于参考数据的质量、模型以及对数据集的适用性。

第二步，手动标注，利用每个簇的基因标记来标注细胞簇。这些基因标记通常被称为标记基因(marker genes)，可以使用简单的差异表达检测方法，如t检验或Wilcoxon秩和检验来识别。统计检验应用于两组聚类，以寻找感兴趣的聚类中上调或下调的基因。出于这个目的，Wilcoxon秩和检验表现最好，但由于聚类的性质，P值可能会被夸大，并可能导致错误的发现，因为使用相同的数据来定义我们测试之间差异的标签。然后将获得的标记与标记基因进行比较，以标记细胞簇。

作为细胞类型注释的最后一步，注释应由专家验证，特别是对于高复杂性的数据集或涉及罕见细胞亚群的研究，这些研究大概率无法获得现成的参考文献，甚至和现有的某些文献相矛盾。

运来曰：就像写小说要确定里面的主角一样，细胞类型注释对一个单细胞生物学故事来讲，也起着确定角色素描的作用。这个是一个关于阿里巴巴与四十大盗的故事，还是一个和尚经历九九八十一难的故事，是完全不同的。也像写小说一样，很多角色是在写作中创作出来。可以说，像单细胞的数据质控一样，细胞类型的注释也是贯穿在单细胞数据分析全流程的。很多时候，我们需要带着一个unknown标签来分析，在渐进明晰中发现它的身份。

从离散状态到连续过程

在非线性的生物过程中，如分化，细胞穿越一个连续的细胞状态空间。使用单细胞数据来了解细胞命运——以及在这种情况下调节细胞命运的基因——是具有挑战性的，因为测量结果只是某一状态的快照。潜在的轨迹可以是循环的、线性的、树状的。根据细胞表达模式的相似性沿轨迹排列细胞的模型被称为轨迹推断或伪时间分析方法。轨迹推断方法的性能取决于数据集中存在的轨迹类型。尽管Slingshot在简单拓扑上表现更好，PAGA和RaceID/StemID在复杂轨迹上表现更好。因此，作者建议使用dynguidelines来选择一个适用的方法。当期望拓扑未知时，轨迹和下游假设应通过使用不同基础假设的多种轨迹推断方法来确认。推断出的轨迹可能并不一定具有生物学意义。结合更复杂的方法和信息来源，例如，通过RNA 速率，可以有助于恢复实际生物过程的进一步证据。

为了推断动态的定向信息，velocyto和scVelo使用未剪接和剪接的reads来推断RNA速度来模拟剪接动力学:如果一个基因被激活，未剪接的RNA先于剪接的RNA。获得的RNA速度场作为CellRank估计细胞命运的输入。RNA速度推断假设基因独立性和恒定的转录、剪接和降解速率。在恒定速率的假设下，相图形成一个杏仁状的感应(上半/弧)和抑制(下半/弧)相。因此，作者建议通过检查由scVelo动态模型确定的高可能性基因的相位图来检查模型假设是否成立。如果相图缺乏预期的形状，可能会错误地推断RNA速度。此外，如果一个基因包含多个明显的动力学，则谱系特异性模型更为合适。RNA速度被错误推断的情况包括转录爆发的存在。此外，稳态群体提出了进一步的挑战，其中RNA速度在独立的终端细胞群体之间推断错误的方向。

回顾性实验谱系追踪方法使用在细胞中观察到的可变性，例如自然发生的基因突变，来推断其谱系模型，以分析克隆群体中的细胞分裂历史。可以使用Cassiopeia进行谱系追踪数据的分析，Cassiopeia实现了几种重建算法，包括经典方法如UPGMA或邻居连接，以及用于CRISPR-Cas9谱系追踪数据的新方法。算法的重建性能很难评估，因为它们可能突出谱系的不同部分。因此，建议应用几种算法进行性能比较。此外，还介绍了用于分析更复杂的谱系追踪研究的专用工具，其中包括时间过程信息。其中包括·LineageOT·，一种适合进化基于crispr - cas9的设置的基于传输的最佳框架，以及用于静态条形码跟踪的CoSpar。

运来曰：细胞类型是细胞状态有什么关系？在普通的语境中，细胞类型是离散的，识别不同细胞类型用的方法是聚类，不断地聚类，聚在一起的是一类。而细胞状态是连续的，从一个状态到另一个状态，中间是连续的。识别不同的细胞状态用的是轨迹推断，通常是在同一个细胞类型下来找不同的细胞状态。

揭示机制

在高质量数据上获得自信的注释后，下游的分析变得多样化，往往需要结合具体的生物学问题展开，可以研究许多感兴趣的机制。以下分析步骤的选择和顺序取决于感兴趣的问题和实验设计(图2c)。

差异表达分析

负二项分布的scRNA-seq数据可以用于检测差异表达的基因，以识别标记基因或在特定条件下上调或下调的基因。差异基因表达(DGE)分析目前主要从两个角度进行。样本层面的聚合每个样本标签组合的计数，以创建pseudobulks，使用最初为pseudobulks表达式分析设计的包进行分析，如edgeR、DEseq2或limma。亚群层面，使用广义混合效应模型(如MAST)对细胞亚群单独建模。DGE工具之间的一致性和稳健性较低，但为大量RNA-seq数据设计的方法表现良好。单细胞特异性方法被发现系统地低估了基因表达的方差，并且容易将高表达基因错误地标记为差异表达基因。

目前DGE分析的方法仍然显示真阳性率(TPR)和精密度之间的权衡。高TPR导致低精度，因为假阳性数量多，而高精度导致低TPR，因为缺乏已识别的差异表达基因。Pseudoreplication导致虚发现率(FDR)，因为DGE方法没有考虑复制(来自同一个体的细胞)的内在相关性。在DGE分析之前，应通过在个体中聚集细胞类型特异性计数来解释样本内相关性。一般来说，pseudobulk 方法和混合模型，如带有随机效应设置的MAST，被发现优于朴素方法，如流行的Wilcoxon秩和检验，它不考虑样本内相关性。

DGE结果的有效性很大程度上取决于统计模型中主要变化轴。中间数据探索步骤，如pseudobulk样本上的主成分分析，有助于确定变化的来源，从而可以指导构建相应的设计和对比矩阵，以建模数据。未能解释实验中的多种生物变异来源将使fdr膨胀。因此，这里推荐灵活的方法，如limma, edgeR或DESeq2，允许复杂的实验设计。通过条件上的DGE测试获得的P值必须对多次测试进行校正，以获得q值。

基因集富集分析

scRNA-seq数据的高通量特性使得它们的解释变得困难起来，这也是单细胞测序技术的革命性之体现。基因集富集分析允许将许多分子见解总结为可解释的生物学术语，如通路，定义为通过以前的研究已知涉及的基因集。常用数据库有MSigDB、Gene Ontology、KEGG或Reactome。这一概念的延伸是加权基因集，包括用于信号通路的PROGENy和用于转录因子(tf)的DoRothEA。常用的富集方法包括超几何试验，GSEA或GSVA，可应用于DGE分析后或在单个细胞水平。基因集富集分析对基因集的选择比统计方法更敏感;因此，建议仔细选择数据库，以确保潜在的基因集被覆盖。为此，诸如decoupleR之类的丰富框架在一个工具中提供了对不同数据库和方法的访问。为bulk转录组学开发的富集方法可以应用于scRNA-seq，但一些基于单细胞的方法，即Pagoda2,可能优于bulk的方法。

细胞丰度比列有没有意义？

细胞数量与比例研究的不是细胞基因表达谱的条件变化，而是以成分数据的形式研究不同细胞类型的相对丰度。在发育和疾病中经常观察到比例变化，但细胞类型的比例分析方法缺乏独立的基准。单变量统计模型(如泊松回归或Wilcoxon秩和检验)单独分析每种细胞类型的丰度变化，可能会将一些细胞类型的群体变化视为统计学上的合理效应，尽管它们纯粹是由数据的组合性引起的统计学假象，导致FDR升高。专门为利用细胞类型计数的单细胞数据设计的测试包括scDC、scCODA和tascCODA，它们可以纳入分层细胞类型信息。

对于发育数据，基于已知注释确定细胞类型比例变化可能不合适。DA-seq和MILO使用KNN图来定义亚群，这些亚群在实验条件下进行丰度差异检验。如果感兴趣的条件和变异的混杂来源强相关，基于knn的方法对信息的丢失很敏感。减少KNN图的K值或者构造一个特定谱系的图可以缓解这个问题。如果通过可视化在大型集群中显示出明显的差异，那么基于KNN图的方法可能不适合，使用已知细胞类型计数的工具进行更直接的分析可能更合适。

运来曰：细胞类型的比例差异来源十分广泛，如果单细胞技术能够真实反应组织内的细胞数量，细胞数量与比例的变化自然是有意义的。然而，在单细胞技术体系中，从采样到组织解离到细胞分离到基于UMI数量来识别细胞，每一步都会影响真实的细胞数量。一个最近的例子是中性粒细胞，在血常规中中性粒比例比较高。但是在很长一段时间里的单细胞论文中，由于其半衰期短，mRNA含量低，把它作为背景过滤掉了，直到最近才引起应有的注意。

推断扰动效应

单细胞实验方案的进步使大规模的多路实验能够在数千种独特的条件下测量细胞，通常称为“perturbations”。最近的技术(如perturb-seq或CROP-seq1)允许使用多模态、全基因组扰动和组合扰动对CRISPR-Cas9筛查进行分析。分析这些复杂的条件被称为扰动模型，针对这种模型的工具还没有独立的基准测试。

扰动模型的一个领域是尝试区分在这种分配未知的实验设置中成功和失败的目标细胞，并评估扰动效应。Mixscape和MUSIC首先去除变异的混杂来源，然后从未被成功扰动的细胞，最终将扰动效应可视化并评分。Augur和MELD仅涵盖第三步，并根据扰动反应程度对细胞类型进行排序，以识别受扰动影响最大的细胞群。

扰动模型的第二个领域涉及到非实验测量的微扰。潜在空间学习模型(如scGen、CPA和CellBox)旨在预测对看不见的扰动、组合或药物剂量的反应。这种模型通常对高表达基因工作得很好，但由于缺乏变异背景，可能难以处理低表达基因。

细胞通讯

机体发育和稳态过程中，细胞之间不断地相互作用。如果这种相互作用受损，疾病就会随之而来。细胞-细胞通信推断方法通常使用配体、受体及其相互作用库来预测注释簇之间的相互作用。这些数据库偏向于特定的通路、功能类别和组织富集蛋白。交互方法和交互数据库的选择对预测交互有很大的影响。CellChat和CellPhoneDB(也考虑异聚相互作用复合物)以及SingleCellSignalR被发现对数据噪声和资源噪声均稳健。由于工具之间缺乏共识，建议使用LIANA，它为方法和数据库的几种组合提供了一个总体排名。此外,Nichenet或Cytotalk等工具可对细胞内活动(如诱导的基因表达变化或空间信息)提供互补估计，可用于提高预测的相互作用的置信度。

运来曰：在单细胞多模态数据分析框架中，单细胞转录组数据是比较成熟的也是应用最为广泛的，所以单细胞转录组数据在多模态数据中是出于基础和中心位置的，在整合多模态数据的时候，往往需要借助单细胞转录组的数据作为中转站或者背景。虽然还不是很完美，但是单细胞转录组的数据分析，为我们提供了一个相对完整的框架，基于其开发的实验工序和分析工具也启发者其他组学的发展。

染色质可及性

分析调控元件对于破译细胞多样性和理解细胞命运至关重要。基因表达受复杂的相互作用的调控机制控制，包括表观遗传学和染色质可及性。为了深入了解单细胞水平的染色质状态动力学，转座酶可及染色质测序的单细胞分析(scATAC-seq)测定了单个细胞的全基因组染色质可及性(图3)。

Fig. 3: Overview of scATAC-seq analysis steps.

特征定义与质控

与scRNA-seq数据的明确定义的基因特征相比，scATAC-seq数据由于数据的全基因组特性而缺乏标准化的特征集，对大部分新手来讲，踏入这个技术的门槛之一是大量陌生的词汇以及它们之间的关系。大多数工作流使用cell-by-peak(峰) 或 cell-by-bin（箱）矩阵作为分析的基础，这比基因或TF基序特征矩阵的性能更好(图3a)。bin是基因组中大小一致的窗口，捕捉所有Tn5转座事件，而峰(peak)指的是在背景噪声下，Tn5转座事件富集的开放染色质的可变区域。值得注意的是，细胞-峰矩阵比scRNA-seq数据更为稀疏，由于二倍体生物的细胞中只有两个可分析的染色质拷贝，每个细胞中只有1-10%的峰被调用。识别峰需要足够数量的细胞，因此在罕见的细胞类型中可能会失败。峰检测的灵敏度可以通过在簇内调用来提高，这降低了罕见细胞类型被其他高度丰富的细胞类型的噪声掩盖的峰缺失的风险。对于这种方法，不排除基因组区域的cell-by-bin 矩阵也可作为聚类的基础。

scATAC-seq质量控制的最常见入口点是包含两个相邻Tn5转位事件产生的所有已测序DNA片段。这些指标用于计算一组特异性质量指标，以确定低质量细胞(图3b)。与scRNA-seq数据中的测序深度类似，作者检测了每个细胞的测序片段总数、片段总数的对数和转录起始位点(TSS)富集评分(一种衡量指标，用于捕获每个细胞中相对于非启动子区域而言，通常更开放的启动子区域的信噪比)。低质量细胞常形成低计数和低TSS富集分数的簇，应去除。此外，核小体信号被用来评估片段长度分布。建议进一步验证与人工信号相关的基因组区域的reads比例。在峰值调用后，通过与数据集相关的最小阈值控制每个细胞检测到的特征的数量。此外，与TSS评分相似，峰值区域相对于非峰值区域的低读数是低信噪比的指标之一。

为了识别双细胞，建议遵循Germain等的提法，使用专门为scATAC-seq数据设计的两种正交方法，并在下游分析中综合考虑两种评分。第一种方法是对scDblFinder进行调整，将相关特征减少到一个小集合，以使用完整的信息，同时使计数数据更连续。第二种方法AMULET利用了染色体的二倍体，并将具有两个以上计数的位置数量出乎意料地高的细胞视为双细胞，这可以进一步捕获同型双细胞。

运来曰：相比于单细胞转录组，scATAC-seq数据质控变得更加扑朔迷离，也愈发需要数据分析人员对其原理和实验过程的理解。在很多时候，质控就是做一个分布，识别出离群值，然后去除。然而挑战也在这里，要做出一个分布就需要知道数据的背景是什么。

数据降维

与scRNA-seq类似，稀疏的scATAC-seq数据需要标准化。在scATAC-seq数据中，最常见的归一化策略是峰值的二值化。然而，这也可能会连同生物学信息一起去除，因此有人建议直接建立scATAC计数模型。基于潜在语义索引(ArchR和Signac)、潜在狄利克雷分配(cisTopic)和光谱嵌入(snapATAC)的降维方法在下游聚类和细胞标注中表现最佳。在批次效应方面，LIGER对scATAC-seq数据的性能最佳。最近，PeakVI或MultiVI等深度学习模型被提出用于scATAC-seq数据，作为降维和批次校正的组合方法。在获得校正的低维表示后，基于Leiden聚类在scrna -seq衍生的表示中的良好性能。

细胞类型注释

可以根据差异可及区域(differentially accessible regions, DARs)和基因活性评分对细胞簇进行注释(图3c)。DARs可通过类似于scRNA-seq的差异检测方法获得。需要考虑测序深度的类似差异，方法是将总计数视为混杂因素，或者根据总计数和可能的其他质量控制指标(如TSS评分)选择一组偏倚匹配的细胞。虽然尚未对scATAC-seq数据的性能进行基准测试，但bulk ATAC-seq数据的现有基准在样本量有限时建议使用edgeR来确定DARs，在样本量大时建议使用DESeq2来确定DARs 。DARs可能包含有信息的序列模式，如已知的顺式调节元件(cre)，或者可以连接到近端基因，这些可在功能富集分析工具(如GREAT、LOLA或GIGGLE)中利用。与基因相关的CREs的染色质可及性可以总结为基因表达的估计(基因活性评分)。这可以通过合计基因内和TSS上游一定距离的计数来实现。更复杂的模型还以按距离加权的方案或通过整合协同可达网络来整合来自远端区域的信号(图3d)。为了指导细胞类型的注释，简单的模型通常就足够了，并且可以通过平滑相邻细胞之间的基因活性评分来增强可视化，通常使用MAGIC进行。

TF motifs 分析

tf基序富集有助于细胞特性的表征，并且可以通过对簇特异性DARs的超几何检验在簇水平上进行。为了获得每个细胞的富集分数，chromVAR可用于计算每个细胞中所有包含基序的峰的可及性偏差，同时校正Tn5转座酶的插入偏倚(由转座酶153的序列结合偏好产生)。TF标记物有助于簇注释，并代表了决定细胞状态的调节蛋白。一旦确定了感兴趣的TF, scATAC-seq数据允许通过足迹(footprint)对TF的影响进行额外的验证，足迹指示TF是否在给定的细胞簇中结合。为了进行这一分析，我们生成了聚类pseudobulks 以减少稀疏性，并绘制了感兴趣基序周围Tn5插入的数量。在特定细胞簇中TF的活性结合情况下，结合位点本身受到保护，不受Tn5转座事件的影响，而邻近的核小体被移位，导致峰-谷-峰可及性曲线。由于这一特征也受到Tn5插入偏倚的影响，目前的足迹分析工具通常使用k-mer模型校正这一偏倚，该模型通过每个k-mer内的切割位点数量相对于全基因组发生数量来估计偏倚。

单细胞转录组于染色质可及性联合之道

10x Multiome、sci-CAR或scCAT-seq等检测可对基因表达和染色质可及性进行联合分析。目前的工作流程使用已建立的单模态质量控制方法，并取所有模态的高质量细胞的交集进行综合分析。一旦选择了高质量的细胞，我们就可以学习捕捉两种模式的变异性的细胞的联合表示，从而去除变异的混杂来源(框1)。由于尚未确定这种整合的最佳方法，作者建议首先进行包括细胞类型注释在内的单模态分析。这可以通过比较单峰分析的聚类结果和细胞类型标签来评估联合表示。然后，高质量的多模态表示被用作大多数单模态分析方法的输入，包括细胞类型注释、差异分析和轨迹分析。

配对的scRNA-seq和scATAC-seq数据也使我们能够使用新的联合方法来识别基因表达和细胞状态的调节因子。为了识别潜在的CREs，基于相关性的方法被用于将峰与细胞簇内的基因连接。这种方法可以通过以下方法进行扩展:使用SCENIC推断tf，然后将相应的基序与峰值区域匹配，以增加额外的可解释性。为了深入了解局部或全局染色质景观是否影响特定细胞状态下基因的表达，基于局部邻域和全基因组染色质状态的表达可预测性可以进行比较。目前正在开发利用这两种模式推断基因调控网络的方法，如FigR或Pando(图3d)。

框1: 跨模式数据集成

细胞的整体表示只能通过跨模态分析获得，其中同一细胞的几种模态被联合检查。尽管实验测定的进步允许对许多模态组合进行配对测量，但不同的模态仍然通常是独立测量的，导致数据配对成为挑战。需要适当的方法来集成这些数据集，以获得可用于可视化感兴趣属性的信息丰富的低维嵌入。

联合测量模式:配对整合。 对于配对测量，细胞作为整合锚(见图a部分)。配对整合可以通过MOFA中的因子分析等线性方法来获得一个联合的、可解释的潜空间。这种方法需要大小因子归一化，以确保第一个因子不受每个样本总表达的差异支配。或者，加权最近邻(WNN)分析学习反映模态信息内容的细胞特异性模态权重，以邻接图的形式确定下游分析中模态的重要性。此图可用于计算嵌入或距离度量。

非联合测量:未配对 整合非配对多组学数据部分位于明显的特征空间。基于先验知识将多模态数据映射到共同特征空间(例如将转座酶可及染色质(ATAC)区域映射到附近转录本的分析)的初始方法以及随后应用的单细胞数据整合方法已被证明会导致信息丢失。非线性流形对齐方法，如基于最优传输的方法，如SCOT或UnionCom，不需要先验知识，因此可以减少跨模式信息损失。GLUE将细胞状态作为低维嵌入模型，通过模态特异性变分自动编码器学习，该编码器使用基于结合先验知识的引导图的概率生成模型。它已被证明在两种以上模态的集成中效果良好，并且是NeurIPS 2021 多模态单细胞数据集成挑战赛的获胜者。

非联合测量：拼接集成 尽管实验检测取得了进展，但从同一细胞同时捕获几种模式仍然具有挑战性。对来自同一生物样本的不同细胞群的个体模式进行分析更为常见，这导致数据矩阵完全缺失。这种组合中的数据集成被称为“拼接集成”(mosaic integration)，为此最近开始出现工具(见图c部分)。虽然totalVI和MultiVI也可用于拼接集成，但它们分别只适用于CITE-seq和Multiome数据。所有模态组合的替代方法是Stabmap和Multigrate, Stabmap将所有细胞投影到参考坐标上，从而沿着镶嵌拓扑的最短路径，Multigrate利用迁移学习填补缺失模态。

多模式场景中的查询数据集到参考数据集该领域最近的一项进展是多组学参考数据集的出现，因此可以针对多模态参考进行单模态和多模态查询。通过将有监督的主成分分析(PCA)应用于使用WNN构建的参考数据集，scRNA-seq查询细胞可以映射到多模态参考数据集，并可视化和注释。或者，Multigrate学习成对和非配对测量的联合潜在空间。结合迁移学习，Multigrate可以在填补缺失模态时将单模态和多模态查询数据集映射到多组学引。填补模式可能构成进一步的重要信息来源。桥接集成提出了第三种选择，使用多组学数据集作为分子桥接，创建一个细胞字典，用于重建单峰数据集，然后转换为共享的embedding。尽管灵活，桥接集成的一个缺点是对桥接数据集的要求，这些数据集可能并不总是可用的。

运来曰：在Seurat V5 中，用的就是Query-to-reference mapping 的方法。我们可以感受到的是，数据的积累会促进算法的开发，算法对数据的依赖趋势明显，另一个可以感受到的方向是，机器学习算法在单细胞中的应用越来越普遍。

单细胞表面蛋白表达

转录和染色质可及性是细胞状态、活性和调节的代表。实际产生的产物，蛋白质承担着细胞内或细胞外的生物学任务，一部分细胞蛋白质出现在细胞表面。表面蛋白表达有助于识别细胞类型，如免疫系统的造血细胞，其注释是基于通常用于流式细胞术或质谱细胞术实验的标记。它们可以进一步用于验证特定的基因敲除基因，例如使用前面提到的Mixscape管道。用于联合scRNA-seq和表面蛋白谱分析的最广泛的方案是CITE-seq和REAP-seq，主要差异是用于定量表面蛋白表达水平的抗体衍生标签(adt)(图4a)。

Fig. 4: Overview of CITE-seq data processing.

校正ADT计数

与基因计数的负二项分布相反，ADT数据没有那么稀疏。对于基于液滴的检测，由于环境污染和非特异性抗体结合，ADTs的非零计数通常被观察到。大多数标记物呈双峰分布，一个是非特异性抗体结合的“阴性”(低计数)峰和一个类似于特定细胞类型的细胞表面蛋白富集的“阳性”峰。所有或大部分抗体组计数为零的文库应被移除;然而，去除ADT总计数低的细胞可能会去除不表达特定一组蛋白或只表达少量蛋白的细胞类型。CITE-seq实验也可以包含同型对照，即用于测定每个细胞非特异性结合(如抗体聚集)的非靶点特异性抗体。在离群细胞中可检测到大量同种型计数，然后应将其去除。由于这些考虑，在ADT模式中，应仔细评估单个质量控制指标，RNA和ADT的联合测量应分别进行质量控制。由于抗体效力是可变的，因此多项研究中ADT数据的整合可能导致强烈的批次效应，需要校正。

计算ADT含量偏差

细胞特征会导致捕获效率不同，从而导致细胞组成的偏差。只有表达目标蛋白的细胞才会导致标签计数的增加，而这可能只是特定的细胞类型。这可以通过使用中心对数比(centred log-ratio，CLR)转换进行归一0或背景去噪和缩放(DSB)来解释。DSB使用代表蛋白质背景噪声的背景来校正细胞中的数值，同时通过将同型对照水平与各自细胞的特定背景水平相结合来消除细胞间的差异。DSB的作者发现，由于原始计数中背景分布的可用性，这种方法消除了更多的噪声。

联合单细胞转录组与膜蛋白数据

ADT数据的下游分析遵循与单细胞RNA分析相似的流程，在单细胞RNA分析中，可以对注释的簇进行差异丰度检验(图2b和4b)。ADT数据与其他模式(如转录组学)联合分析时，提供了深刻的见解。经过各自的预处理后，可以使用一般适用的多模态集成工具(Box 1)或CITE-seq专用的、基于深度学习的totalVI获得联合嵌入，totalVI学习配对测量的联合概率表示，该表示也考虑了噪声和技术偏差，包括每个模态的批次效应。另一种方法是使用CiteFuse，该方法使用CLR对adt进行标准化，并将两种模态矩阵与相似网络融合算法相结合。然后，可以使用Leiden对联合包埋进行聚类，并通过将聚类与所有其他聚类进行比较，使用Wilcoxon秩和检验，根据差异表达的RNA和ADT对联合包埋进行注释(图4c)。这两种模式均可用于下游任务，如研究细胞-细胞通讯(其中考虑配体簇的RNA表达和受体簇的蛋白表达)，或者使用CiteFuse进行RNA和ADT相关性分析(图4d)。

运来曰：鉴于目前技术的现状，膜蛋白数据与单细胞转录组、染色质可及性数据的差别之一是，其维度很小，即每个细胞测的蛋白数量较少，所以鲜见有专门的整合框架，大多是把膜蛋白数据作为单细胞转录组上的点缀。数据分析也相对简单，但是在与单细胞转录组联合分析中，一个被忽视的现象是：膜蛋白表达与转录组的不一致，忽视或者默认这种不一致我认为都是不科学的。我们应该追寻其中的原因，找到二者的链接点。就像单细胞转录组和染色质可及性可以用转录因子来链接一样。

单细胞免疫组库

单细胞转录组和单细胞染色质可及性是每个细胞都有的生物学事件，而免疫受体主要在适应性免疫细胞中有。TCR和BCR是构成适应性免疫受体库(AIRR)的跨膜表面蛋白复合物(图5a)。这两种受体均可检测病原体和肿瘤特异性抗原，但相互作用的方式不同。BCRs直接识别可溶性或膜结合的表位，而TCRs与与细胞表面主要组织相容性复合体(MHC)分子结合的线性肽相互作用。活化的B细胞和T细胞发挥多种功能，如效应免疫、通过增殖形成记忆或调节进一步的免疫反应。B细胞和T细胞的特异性由AIR序列确定。为了捕获广泛的抗原，体细胞V(D)J重组在个体的B和T细胞群中产生高度多样化的AIR序列(图5a)。免疫受体分析可以使用scirpy、Dandelion或scRepertoire等框架进行。

解码AIRR序列特征

AIRR序列可以通过V(D)J测序得到，然后进行比对和链配对来破译(图5b)。虽然没有TCR序列重建的基准，但MiXCR和TRUST4是常用的。研究表明BALDR、BASIC和BraCer可稳健恢复BCR序列，但不再维持。因此，我们鼓励分析人员将最新的MiXCR和TRUST4，它们也考虑到BCR序列。V、D和J基因的过度表达组合提供了关于各种基因如何组合形成VJ和VDJ链的有价值的信息。V(D)J基因片段的重组以及V和J片段的不精确连接产生了VJ和VDJ链上的CDR3区，该区域主要负责与AIR抗原的结合。生发B细胞在体细胞超突变期间进一步产生免疫球蛋白变异体，在体细胞超突变中，免疫球蛋白基因在高度重排的V、D和J节段内迅速突变。AIRR序列分析(图5b)突出了与生物学功能相关的AIR排列优先选择的基因片段。在谱型分析中，我们观察到多种条件下的CDR3长度谱，这可能表明AIRR组成中的抗原特异性变化。通过频率分析，序列基序揭示了在AIRs簇的CDR3位置上保守的和不同的氨基酸(图5c)。这些分析捕获蛋白质序列特征，以推断特异性并实现AIR刻画。这些方法可以在Scirpy、Dandelion和scRepertoire中调用。

筛选功能性适应性免疫受体

丰度分析研究的不是细胞基因表达谱的条件变化，而是丰度分数据的形式研究不同细胞类型的相对丰度。在发育和疾病中经常观察到丰度变化，但丰度分析方法缺乏独立的基准。单变量统计模型(如泊松回归或Wilcoxon秩和检验)单独分析每种细胞类型的丰度变化，可能会将一些细胞类型的群体变化视为统计学上的合理效应，尽管它们纯粹是由数据的组合性引起的统计学假象，导致FDR升高。并非所有在等位基因重排过程中产生的AIR链都能形成功能性AIR。细胞仅分配给VJ或VDJ链的不完全AIRs被定期检测并代表有效的细胞，但不能用于所有期望完整AIRs的下游过程。淋巴细胞可表达双AIRs，约10%的淋巴细胞可表达与单个VDJ链配对的多个VJ链。表达双VDJ链的淋巴细胞更为罕见(1%)，应谨慎治疗。然而，对于VJ或VDJ链具有两个以上的赋值的细胞总是表示为双细胞。将AIR状态与链配对信息和受体类型相关联，可以在下游分析时进行任务特异性的AIR选择，以确保尽可能多的使用数据(图5b)。例如，单一VDJ链仍然可以用于基于CDR3-VDJ链的数据库查询，但不能用于基于完整AIR的查询。链配对和受体类型的分布可以在样本或条件等组中可视化，并且应该删除具有过多质量问题的离群簇。专门为利用细胞类型计数的单细胞数据设计的测试包括scDC、scCODA和tascCODA，它们可以纳入分层细胞类型信息。

确定和分类克隆型

来自同一祖细胞的T或B细胞群形成克隆型，通常处于休眠状态，直到接收到来自自分泌因子的外部信号或刺激。因此，在克隆扩张过程中，特定细胞急剧增殖以完成各自预定的防御反应。克隆扩增的T或B细胞的持续存在可作为近期免疫应答的生物标志物。对于TCR，可以通过相同的V基因和相同的VJ和VDJ CDR3核酸序列确定克隆型，或者根据考虑到体细胞超突变的bcr的谱系重建分析框架中实施的距离确定克隆型(图5d)。

在分析过程中，可以省略V基因匹配的要求，有孤儿链的细胞可以分配到相关的克隆型。由于体细胞超突变，来自克隆谱系的B细胞通常根据汉明距离分组，其CDR3氨基酸序列的同源性超过80% 。公共克隆型出现在多个供者中，可以代表共同的免疫应答。相比之下，私有克隆型代表了患者特异性克隆应答，这可能对个体化治疗有价值。克隆型的样本丰度可以通过Jaccard距离、多样性测量或层次聚类进一步用于比较 AIRRs。

细胞特异性测定

影响AIR–antigen相互作用(反映特异性)的位置主要位于VDJ链的CDR3，其次位于VJ链的CDR3。T细胞中的抗原特异性由表位序列和整个air表位复合物驱动。虽然AIR特异性可以使用条形码抗原进行实验测定，但有几种方法试图通过计算推断AIR特异性(图5e)。

首先，可以直接或通过Scirpy或immunarch1在包含现有研究中air表位对的数据库中查询这些序列。常用的数据库有IEDB、PIRD、vdjDB(仅tcr)或SAbDab(仅bcr)。与克隆型赋值类似，数据库查询可以通过单独考虑VDJ CDR3序列或另外考虑降低FDR的VJ CDR3序列以不同的严格程度进行。

第二种方法使用直接应用于CDR3序列的距离指标或序列的嵌入来比较AIRs，因为具有相似序列的AIRs可能具有共同的特异性。虽然汉明距离通常用于bcr，因为它可以模拟体细胞超突变，但tcr更常用的是专门的方法，例如TCRdist，它通过转换成本和间隙惩罚来比较两个tcr的所有CDR3序列，或者TCRmatch，它使用k-mers来比较基于它们的CDR3β序列的基序重叠。

作为第三种策略，最近的方法使用机器学习工具(如ERGO-II)直接预测AIRs和表位之间的结合。这三种方法都依赖于公共数据库(其中包含的数据主要来自通常研究的疾病)，并且缺乏用于破译T细胞抗原特异性的MHCs信息。

整合单细胞转录组与免疫组数据

AIRR测序通常与其他组学(如表面蛋白和转录组测定)结合，从而能够详细观察感染或疫苗接种后的细胞命运。AIRs的存在可以通过分离免疫细胞簇和详细的T细胞注释来指导细胞类型注释。对于配对数据(框1)，可以使用Scirpy和scRepertoire的细胞类型簇对AIR条件(如特异性或克隆型网络)进行表型AIRR分析。由于模态的固有结构差异，新的方法(如用于TCR数据的TESSA、mvTCR或Conga和用于BCR数据的benisse)旨在整合这两种模态，从而更容易进行联合注释和可视化。

运来曰：相比于前面我们介绍单细胞转录组数据、单细胞染色质可及性数据以及单细胞表面膜蛋白数据，单细胞免疫组数据以非矩阵的形式出现，这为数据整合带来了新的挑战。免疫组数据主要是序列数据，基于矩阵的一些方法可能很难直接使用，所以这领域也蕴含着大量的算法开发机会。免疫细胞的形成和利用成为当下生物医药的热点，在实验工序中，捕获到VDJ序列已经不困难，但是如何把这些数据与真实的临床需要结合起来，建立一个通俗的、可解释的单细胞免疫组分析框架十分迫切。而目前的开发方向，在可视化上做了很多工作，在统计分析上做的还不够。

空间转录组

到目前为止，所有讨论的模式都是基于分离的单细胞组学技术，以表征细胞身份和组织状态。然而，在多细胞生物中，细胞相互作用并形成空间结构微环境，这些微环境可以在不同的样本和条件下变化。细胞组织弥合了组织生物学和病理学之间的鸿沟，这使得我们能够发现新的细胞功能，并产生了新的计算挑战，为此需要不同的分析方法。空间组学通过在单细胞基因组学基础上增加两种额外的方式来解决细胞特征和细胞特性:组织学成像和空间分析。

单个细胞的空间定位有助于理清组织微环境及其功能依赖性。除了利用细胞的空间坐标来更好地理解组织结构，我们还可以使用组织学图像的非分子特征。例如，添加从成像数据中提取的信息可以增强细胞识别或分子特征的分辨率，或有助于识别变异的空间模式。空间基因表达谱技术在空间分辨率(亚细胞和条形码区域，特征在不同区域聚集)、检测效率、通量和空间解析的模式方面存在差异。目前开发的大多数分析方法都是针对空间转录组学的。两种主要的空间分子分析技术是基于阵列的(图6a)和基于图像的方法(图6b)。分析空间数据集需要专门针对这种模式的分析工具，可以使用Squidpy、Giotto、Seurat或SpatialExperiment等框架进行分析。

Fig. 6: Overview of spatial transcriptomics preprocessing and downstream analysis steps.

获得细胞计数矩阵和空间坐标

基于阵列和基于图像的空间转录组学都需要特定的工具来将测量的分子分配到单个细胞。由于阵列分析不能获得单细胞分辨率，因此斑点的基因表达谱反映的是细胞类型的组成，而不是不同的细胞类型。在基于基因表达谱芯片的基因表达谱中，人们提出了各种方法来分解基因表达谱。Cell2location, SpatialDWLS和RCTD根据单细胞分辨参考中细胞群的基因表达谱估计每个斑点的细胞类型组成。对于模拟数据集，cell2location在细胞类型反卷积方面的表现优于其他方法，但需要更多的计算资源，而对于真实数据集，SpatialDWLS和RCTD在基于4种不同精度度量的总体精度评分方面表现最好。

对于基于图像的检测(如荧光原位杂交(FISH)和原位测序(ISS))，通过细胞分割获得细胞计数矩阵和空间坐标。由于空间转录组学数据的复杂性(在使用的分析、分辨率和组织变异方面)，这些工具通常需要手动微调以获得有价值的分割结果。Giotto和squidpy等处理管道允许在分析管道中添加定制的分割方法，这简化了所选方法的比较、选择和评估。此外，转录本的定位可用于无分割的方法，如SSAM或Baysor，这些方法直接将细胞标签分配到空间近端的像素。此外，Baysor还纳入了通过组织学图像获得的细胞形状信息，以增强分割结果。这些工具可以作为基于分割的方法的有用替代。

通过基于阵列的空间转录组学和随后的细胞类型去卷积，或者基于图像的空间转录组学和随后的分割，可以以类似于scRNA-seq数据的方式对基因表达矩阵进行过滤、标准化和可视化。

描述细胞特性及其微环境

对于单细胞分辨率的基于成像的空间转录组学数据，细胞注释与scRNA-seq数据相似(图6c)。这些技术通常只读出一组预定义的转录本。基因的选择通常是基于从scRNA-seq获得的先验生物学知识，可能不适合识别罕见的细胞亚群，这导致了对已知细胞类型的偏倚。将标准的初始空间scRNA-seq数据和目标空间解析数据进行比对，使我们能够以空间解析的方式填补整个转录组(在标准scRNA-seq中测量)，并试图解决目标特征空间的局限性。这种方法产生了全转录组的单细胞解析的空间转录组数据。Tangram通过优化空间和scRNA-seq数据之间的基因相似性来填补空间样本中未检测到的转录本。在各种准确度指标和可扩展性方面，它的性能优于其他填补方法，如gimVI和SpaGE。

除了仅根据细胞的基因表达谱来注释细胞外，还可以利用空间位置来识别细胞身份。BayesSpace、stLearn和spaGCN等工具通过考虑基因表达共性和空间邻域结构来识别所谓的空间域。获得的标签可用于识别组织中具有相似表达谱的区域，并可能对应于数据集的整体形态。

不同样本之间细胞微环境的识别可能会受到图像方向差异的阻碍。图像可能并不总是在整个数据集中完美对齐，并且在不同的视野中比较结果可能具有挑战性。Tangram, GridNet和eggplant在样本之间生成共同的坐标框架来缓解这个问题。

识别与细胞组织和组织结构相关的空间模式

细胞微环境使我们对驱动组织状态的机制有了新的认识，并且可以通过多种方式进行分析(图6d)。基因表达差异分析在scRNA-seq鉴定高度可变基因和DGE分析方面被广泛探索。对于空间转录组学数据，空间可变基因(SVGs)的识别是补充。实现这一目的的方法在假设和对svg的定义方面有很大差异，并且对于如何最好地识别svg尚未达成共识。例如，SPARK和SpatialDE利用空间相关性测试，BayesSpace使用马尔可夫随机场，spaGCN使用图神经网络来整合基因表达数据、空间信息和组织学图像，sepal使用基于扩散的模型来识别具有空间模式的基因。

细胞间依赖空间的通信事件

在组织中，细胞直接接触，可通过表面结合的配体和受体、长程旁分泌效应、生物机械力和代谢物交换等间接机制相互作用。这些事件通常被称为对基因表达变异的外在影响，在描述细胞组织和组织生态位时应予以考虑。如上文所述，细胞通讯事件可以在分离的scRNA-seq数据中确定。然而，这些方法往往忽略了底层组织的空间组织，这可能导致假阳性发现。空间细胞间通讯的方法通常是根据周围相邻细胞比较基因表达模式。GCNG, Misty和NCEM根据细胞空间图和图神经网络制定了这项任务，SpaOTsc使用最优转运，SVCA通过空间方差成分分析量化细胞-细胞通信事件对基因表达谱的影响。

运来曰：相比之前我们介绍的组学数据，空间信息不是分子定量而是位置信息。组学数据加上空间信息，不断向我们做出新的承诺，也不断挑战我们的想象力。在这方面，分析传统组学的是人显得力有不逮，见惯了序列，见惯了矩阵，空间信息的加入，让人既兴奋又紧张。空间数据的分析框架依然是缺失的，大部分的空间信息没有得到很好的挖掘。在这方面，我们看见的只是喷薄而出的朝阳，还有大片宇宙将被照亮。一个可以借鉴的方向是地理学或者空间生态学，那里已经有了一套统计分析、可视化空间数据的方法论。

展望

本文综述了转录组学、染色质可及性、表面蛋白、AIRR和空间分辨单细胞数据的典型单模和多模分析的步骤。本工作为进入该领域的新人提供了一个切入点，同时为有经验的分析人员提供了一份可参考的最佳实践。所有的建议都是基于独立的基准，这不可避免地落后于最新的方法发展。随着基准测试的进一步发布，各个工具的建议可能会改变，并需要定期更新，以确保单细胞分析的最佳实践。因此，作者准备了在线书籍：https://sc-best-practices.org/，它提供了详细的方法描述，演示了如何将本文的建议付诸实践。在线书籍将纳入定期更新，并作为多组学单细胞分析领域的新手和专家的灵活和最新指南。

除了越来越多的方法，生成的单细胞数据集的数量也在增加，可以预测，从大规模数据集(如集成图谱集)中学习将变得更加重要。大规模的数据集能够通过潜在空间嵌入等方式开发描述细胞和个体异质性的模型。正如通过单细胞数据分析等框架学习到的那样，潜在表示可用于批校正、聚类、可视化和DGE分析。通过跳过人工质量控制步骤简化了单细胞数据的分析。通过查询到参考映射方法，建立在这些潜在空间上的模型变得具有预测性，这将从无监督的探索性分析方法转向由监督预测补充的单细胞分析。构建多模态参考图谱将进一步支持同时在多个层上表征细胞状态，从而为单模态查询提供多模态洞察。

了解扰动对这些多组学细胞状态的影响将变得越来越重要。高度平行的微扰筛选(如基因组规模的Perturb-seq)已经测量了全基因组的微扰效应。将基因组规模的Perturb-seq与进一步的模式相结合，使遗传景观的系统探索能够揭示背景特定的基因调控网络。这进一步将单细胞基因组学扩展到药物靶点筛选等药理学应用。我们预计将引入更多分析方法，这些方法解析成功和失败的扰动，并从多模态数据推断基因调控网络，例如CellOracle或SCENIC+(图2c)。此外，新的分子测量方法正在变得可用，例如年轻且快速发展的单细胞蛋白质组学领域。这些测量的分析方法是稀疏的，选择性的基准化，并且最佳实践还有待开发。

为了使单细胞多组学具有强大的临床应用，包括来自电子健康记录的患者协变量可能是至关重要的。目前尚缺乏用于探索性分析的工具、组学数据集的整合以及组学测量与表型信息的映射，让我们一起期待在这一方向上进一步发展。可以预见的事这种一体化的工作流程将建立在我们为多模态单细胞分析建立的基础之上。

Heumos, L., Schaar, A.C., Lance, C. et al. Best practices for single-cell analysis across modalities. Nat Rev Genet (2023). https://doi.org/10.1038/s41576-023-00586-w

ixxmu / mp_duty