跟着剑桥学单细胞（一）

跟着剑桥学单细胞（一） by 生信随笔

之前在《单细胞入门第一讲：公开课及数据库资源》说到，我刚开始学习单细胞时，主要跟着剑桥桑格研究所的单细胞公开课，Seurat官网课程（https://satijalab.org/seurat/index.html）和哈佛的单细胞课程（https://hbctraining.github.io/scRNA-seq_online/schedule/links-to-lessons.html），从今天起我计划更一个系列贴：基于三大课程，引导初学者如何系统的学习单细胞分析。我们先从剑桥桑格研究所的单细胞公开课开始说起。

第一章. 课程介绍

桑格的单细胞公开课在2022年的8月又更新了。这个课程是我初学单细胞时接触到的第一个系统性课程，是一个非常合适的单细胞扫盲课程。这门课程偏向使用SingleCellExperiment对象的单细胞数据格式（目前主流的是使用Seurat对象），尽管在第八章介绍了Seurat构建对象的标准化分析流程。所以初学者看到SingleCellExperiment包相关代码的时候，不要慌了神：要知道，对象只是储存单细胞数据的一个格式而已，并不影响整体的分析思路和框架，我们应该去抓住单细胞分析的整体逻辑。

桑格研究所的单细胞分析课程分为英文文档和录课视频，英文文档在https://www.singlecellcourse.org/。视频的话需要去油管上搜索一下。官方的Github在https://github.com/hemberg-lab/scRNA.seq.course，课程的测试数据在https://singlecellcourse.cog.sanger.ac.uk/index.html?prefix=data/。

第二章. 单细胞测序介绍

课前的几个问题：

什么是单细胞RNA-seq，其与Bulk RNA-seq的异同点？
scRNA-seq的一些典型的应用有哪些?
如何制备scRNA-seq样品?
有哪些主流的测序方法（如基于微滴定板/基于液滴）？它们之间的区别是什么？它们的优点和缺点是什么？
scRNA-seq的实验设计?
与Bulk数据相比，分析scRNA-seq数据有哪些挑战?

2.1 单细胞RNA-seq测序概述

Bulk RNA-seq vs. scRNA-seq:

Bulk RNA-seq是混合的细胞测序，只能估算一簇细胞每个基因的平均表达水平，并未考虑细胞间的异质性。因此，对于异质系统的研究，如早期发育研究或复杂组织如大脑的研究是不够的。
因此，为了克服这个问题，汤富酬等人在2009年首先发表单细胞测序技术。通过scRNA-seq，我们可以估计每个基因在细胞亚群中的表达水平分布。
单细胞测序技术提出了新的生物学问题：转录组的细胞特异性改变是重要的。例如，发现新的或罕见的细胞类型，识别健康/疾病组织之间的不同细胞组成，或了解发育过程中的细胞分化过程。这项技术最具代表性的用途之一是建立基因图谱，它提供了生物细胞多样性的全面概要，在健康和基础研究方面有许多应用。

如上图所示，自2009年以来，单细胞测序技术不断的开发和拓展，目前比较主流的测序平台包括10x Genomics，Smart-seq2，Seq-Well，BD Rhapsody等等。每一种侧测序方法/平台都有自己的优点和缺点。我们将在以下几节中进行讨论。

2.2 样本制备protocols

单细胞测序的一般步骤如下：

组织解剖和细胞分离，获得细胞悬液；
可选择细胞(例如，利用膜markers、荧光转基因或染色染料)；
将单个细胞捕获到单个反应容器中(例如井或油滴)；
从每个细胞中提取到RNA；
反转录为cDNA；
cDNA扩增；
用合适的分子接头准备建库；
一般采用双端测序；
原始数据的上游分析，参见一文打通单细胞上游：从软件部署到上游分析；
下游分析（本课程的重点）。

snRNA-seq（single-nucleus RNA-seq)：
在细胞难以分离的组织或冷冻组织样本中，可以分离单个细胞核。除分离步骤外，制备单核测序库的方案与单细胞方案类似。然而，核RNA通常含有较高比例的未加工RNA，更多的序列转录本含有内含子。在数据处理步骤中需要考虑这个方面，我们将在下一章详细说明。

目前单细胞测序有多种protocols，每一种方法都有其优缺点，最重要的两个步骤是单细胞的捕获/分离，以及转录本的定量。

2.3 细胞的捕获

捕获细胞的不同策略决定了

1）实验的通量（Throughput）即我们分离了多少细胞；

2）在测序前细胞是如何被捕获的；

3）除了转录本测序之外还能获得什么样的额外信息。

三种最广泛使用的方法：

1）基于微滴定板 (microtitre-plate-based):

微量滴定板法依赖于使用移液、显微解剖或流式细胞荧光分选（fluorescent activated cell sorting，FACS）等方法将细胞分离到培养皿的单个孔中。

优点：可以在建库前对细胞进行拍照，提供一种额外的数据形式，例如，可以识别和丢弃损坏的细胞，或者找到含有双重细胞的井（含两个或以上细胞的单元孔）；当使用自动化FACS筛选时，还可以将细胞大小等信息与细胞的坐标联系起来，因此在下游分析中可以使用单个细胞指数。

缺点：主要缺点是通常是低通量的，且每个细胞所需的工作量可能是极大的。

2）基于微流控芯片 (microfluidic-array-based)：

相较基于微滴定板方法通量更高一些。通常情况下，只有大约10%的细胞在微流控平台中被捕获，因此，如果处理的是罕见的细胞类型或非常少量的input细胞，此方法是不合适的。第二点，由于纳米孔是为特定的尺寸定制的，因此必须注意芯片捕获的细胞大小(这可能会影响复杂组织中细胞的无偏采样)。此外，该芯片相对昂贵，但由于反应可以在较小的体系内进行，可以节省试剂费用。

3）基于微流控液滴 (microfluidic-droplet-based)：

通量最高，最常用的方法。其工作原理是将单个细胞封装在一个纳米大小的油滴中，并将其与一颗珠子结合在一起。珠子上装载着酶及其他构建文库所需的成分。此外，每一个珠子都包含一个独特的barcode，。因此，所有的液滴都可以被汇集在一起，根据这些barcode将reads分配到起源细胞。微流控液滴平台建库的费用很低，但是测序成本较高，同时测序深度不高，只能检测到数千种转录本，如10X采用的就是这种策略。

Fluorescence Activated Cell Sorting (FACS) can be used upstream of any of the capture methods, to select a sub-population of cells. A common way in which this is used is to stain the cells with a dye that distinguishes between live and dead cells (e.g. due to membrane rupture), thus enriching the cell suspension with viable cells.

2.4 定量

主要有两类转录定量方法：基于全长和基于tag。定量方法的选择影响到后续生成的数据可进行何种类型的分析。

单细胞全长定量的测序文库基本上与bulk RNA-seq一致，如SMART-seq2。虽然理论上全长protocols应该提供一定测序深度的转录本数据，但是有时可能存在偏差。基于全长的protocols也允许检测剪接变体，这在其他protocols是很难做到的。

tag-based protocols：仅3‘或5’端的转录本被测序。主要优点是可以与独特的分子标识符（unique molecular identifiers, UMIs）相结合，有助于提高转录本定量的准确性。这种改进的原因与文库制备过程中的PCR扩增步骤有关，该步骤会每个分子会产生多个重复副本。由于PCR扩增是指数增长的，这些分子在最终的文库中的表达可能是偏倚的，由于这些PCR重复而高估了对应基因的表达量。为了解决这个问题，细胞barcode用随机核苷酸序列（UMI）做了独特的标记，因此对单个分子来说，UMI是唯一的。这个UMI是测序读取的一部分，然后可以在定量转录本丰度时计算考虑。目前大多数scRNA-seq protocols都是tag-based的，包括目前流行的基于液滴的10x Chromium protocols，如下图所示。tag-based protocols其中的一个缺点是，它只局限于转录本的一端，降低了我们明确地将读取与转录本对齐的能力，并使区分不同的亚型变得困难。

选择3‘端还是5’端测序？
The difference between 5’ and 3’ tag-based protocols is which end of the transcript is sequenced. Although 3’ protocols are more commonly used, many protocols now allow sequencing from either end (e.g. 10x Chromium supports both). The advantage of 5’-end sequencing is that we obtain information about the transcription start site (TSS), which allows to explore whether there is differential TSS usage across cells.

2.5 实验设计

在进行scRNA-seq实验时，需要考虑几个因素。诸如每个细胞的成本，需要多少细胞，或者测序深度等因素都可能影响我们对protocols的选择。另一方面，必须小心避免由于批次在不同时间处理而产生的偏差，缺乏足够的重复可能也会限制可做的分析类型，从而无法直接回答一些感兴趣的问题。

2.5.1 选择何种protocols

最合适的测序平台取决于手头要回答的生物问题。例如，如果对描述异质组织的组成感兴趣，那么基于液滴的方法就更合适，因为它允许以一种基本无偏的方式捕获大量细胞。另一方面，如果对有已知表面marker的特定细胞群的特征感兴趣，那么最好使用FACS富集，然后用较高的测序深度对少量细胞进行测序。

显然，如果对研究不同的异构体感兴趣，全长转录本量化更合适。相比之下，UMIs 只能与tag-based protocols一起使用，它们可以改进基因水平的定量。

如果对罕见的细胞类型感兴趣（已知marker不存在），那么就需要对更多的细胞进行测序，这将增加实验的成本。Satija实验室开发了一个工具用来估计需要对多少细胞进行测序：https://satijalab.org/howmanycells/。

决定使用哪种方案的另一种方法，是查阅比较不同测序方案的研究文献。这些研究的重点是敏感性(每个细胞检测到多少基因)、准确性(例如与整体RNA-seq相比)和恢复样品中所有细胞类型的能力(在商业上可买到的细胞混合物上进行测试)。例如，Ding等人2020年的一项研究表明（PMID: 32341560），与高通量方法相比，低通量方法具有更高的灵敏度，如10x Chromium(见下图)。

Ziegenhain等人(PMID: 28212749)的另一项研究对同一小鼠胚胎干细胞(mesc)样本进行了5种不同的protocols比较，得出了类似的结论。最后，Svensson等人(PMID: 28263961)的一项研究使用已知浓度的合成转录本(spike-in)来测量不同方案的准确性和敏感性。通过比较广泛的研究，他们也报告了两种方案之间的重大差异(见下图)。

随着protocols的发展和改进，以及定量技术中处理噪点的新计算方法的出现，未来的研究可能会帮助我们进一步了解不同方法的优势。这些比较研究不仅有助于决定使用哪种方案，而且有助于开发新的方法，因为基准测试将确定哪些策略可能是最佳的。

除了不同protocols的通量和敏感度存在差异以外，成本也可能是开展单细胞测序的一个决定性因素。细胞哈希未来可能会进一步节省测序费用。这种方法包含在细胞膜上粘贴寡聚标记，允许每次实验装载来自多个样本的更多细胞，之后可以在分析过程中进行多路分离。

2.5.2 数据分析的挑战

scRNA-seq和Bulk的主要区别是，单细胞的每个测序库代表一个单细胞，而不是一个细胞群。因此，在单细胞水平上不可能有“生物学重复”：每个细胞都是独一无二的，不可能重复。相反，细胞可以根据它们的相似性进行聚类，然后可以跨相似细胞组进行比较(我们将在本课程后面看到)。

scRNA-seq的另一个大挑战是每个细胞的起始物质非常少。这导致了非常稀疏的数据，其中大多数基因仍然未被检测到，因此我们的数据包含许多零。这可能是由于该基因没有在该细胞中表达（“real” zero），或者该基因已经表达但我们无法检测到（dropout）。这导致了细胞间的变异，而这种变异并不总是生物学上的，而是由于细胞间不均匀的PCR扩增和基因表达的“dropouts” 造成的技术问题。简而言之，即可能在一个细胞中检测到一个基因表达（PCR扩增），但在另一个细胞中却缺失了一个基因的表达，即dropouts（PMID: 24836921）。提高转录本捕获效率和降低PCR扩增偏差是解决这些问题的有效途径，目前仍是技术研究的热点。然而，正如我们将在本课程中看到的，可以通过适当的数据normalization缓解其中一些问题。

另一个需要考虑的重要方面是batch effects。即使使用不同的技术对相同的材料进行测序(见下图)，也可以观察到这些问题，如果没有适当的标准化，可能会导致错误的结论。

样品的处理还应以避免在实验控制变量（如治疗、基因型或疾病状态）与样品制备和测序时间之间混淆的方式进行。例如，假设需要比较10位病人的健康和患病的组织，如果每天只能处理10个样本,最好一天先处理5个健康的 + 5个患病的组织，而不是一天处理10个健康组织，第二天处理10个患病组织。另一个需要考虑的是确保组织样本的重复。例如，当从一个器官中收集组织时，从该器官的不同部位提取多个样本更佳。或者考虑在一天内收集样本/重复的时间点（由于基因表达可能的昼夜节律变化）。总之，在分析scRNA-seq时，应该考虑到实验设计中所有常见的最佳实践。

2.6 总结

scRNA-seq非常适合研究异质细胞群。例如，确定组成组织的细胞类型，定义不同细胞类型的“转录指纹”，研究细胞分化，探索疾病或环境因素导致的细胞组成变化等等。

典型的样品制备流程包括分离单细胞(或细胞核)，将RNA转化为cDNA，准备测序库（Illumina）和测序。

许多单细胞protocols已经开发出来，有些是公开可用的，有些是商业上提供的。它们主要在通量（每次实验捕获多少细胞）、量化类型（全长或基于标签）和成本上有所不同。

SMART-seq2是一种流行的低通量方法，提供全长转录本定量。它非常适合更详细地研究较小的细胞群(例如，差异亚型的用法，低表达转录本的特征)。

10x Chromium是一种流行的高通量方法，使用UMIs进行转录物定量(从3 '或5 '端)。它非常适合于研究高度异质性的组织和大规模的细胞样本。

当计划一个单细胞实验时，应该小心避免由于批次效应而造成偏倚，并确保适当的生物学重复来解决感兴趣的问题。

进一步比较10X和Smart-seq2测序技术的异同点：可参考张泽民老师的文章：Direct Comparative Analyses of 10X Genomics Chromium and Smart-seq2，https://www.sciencedirect.com/science/article/pii/S1672022921000486

- END -

ixxmu / mp_duty