Closed ixxmu closed 2 years ago
之前在《单细胞入门第一讲:公开课及数据库资源》说到,我刚开始学习单细胞时,主要跟着剑桥桑格研究所的单细胞公开课,Seurat
官网课程(https://satijalab.org/seurat/index.html)和哈佛的单细胞课程(https://hbctraining.github.io/scRNA-seq_online/schedule/links-to-lessons.html),从今天起我计划更一个系列贴:基于三大课程,引导初学者如何系统的学习单细胞分析。我们先从剑桥桑格研究所的单细胞公开课开始说起。
桑格的单细胞公开课在2022年的8月又更新了。这个课程是我初学单细胞时接触到的第一个系统性课程,是一个非常合适的单细胞扫盲课程。这门课程偏向使用SingleCellExperiment
对象的单细胞数据格式(目前主流的是使用Seurat对象),尽管在第八章介绍了Seurat
构建对象的标准化分析流程。所以初学者看到SingleCellExperiment
包相关代码的时候,不要慌了神:要知道,对象只是储存单细胞数据的一个格式而已,并不影响整体的分析思路和框架,我们应该去抓住单细胞分析的整体逻辑。
桑格研究所的单细胞分析课程分为英文文档和录课视频,英文文档在https://www.singlecellcourse.org/。视频的话需要去油管上搜索一下。官方的Github在https://github.com/hemberg-lab/scRNA.seq.course,课程的测试数据在https://singlecellcourse.cog.sanger.ac.uk/index.html?prefix=data/。
课前的几个问题:
什么是单细胞RNA-seq,其与Bulk RNA-seq的异同点?
scRNA-seq的一些典型的应用有哪些?
如何制备scRNA-seq样品?
有哪些主流的测序方法(如基于微滴定板/基于液滴)?它们之间的区别是什么?它们的优点和缺点是什么?
scRNA-seq的实验设计?
与Bulk数据相比,分析scRNA-seq数据有哪些挑战?
Bulk RNA-seq vs. scRNA-seq:
如上图所示,自2009年以来,单细胞测序技术不断的开发和拓展,目前比较主流的测序平台包括10x Genomics,Smart-seq2,Seq-Well,BD Rhapsody等等。每一种侧测序方法/平台都有自己的优点和缺点。我们将在以下几节中进行讨论。
单细胞测序的一般步骤如下:
组织解剖和细胞分离,获得细胞悬液;
可选择细胞(例如,利用膜markers、荧光转基因或染色染料);
将单个细胞捕获到单个反应容器中(例如井或油滴);
从每个细胞中提取到RNA;
反转录为cDNA;
cDNA扩增;
用合适的分子接头准备建库;
一般采用双端测序;
原始数据的上游分析,参见 一文打通单细胞上游:从软件部署到上游分析;
下游分析(本课程的重点)。
snRNA-seq(single-nucleus RNA-seq):
在细胞难以分离的组织或冷冻组织样本中,可以分离单个细胞核。除分离步骤外,制备单核测序库的方案与单细胞方案类似。然而,核RNA通常含有较高比例的未加工RNA,更多的序列转录本含有内含子。在数据处理步骤中需要考虑这个方面,我们将在下一章详细说明。
目前单细胞测序有多种protocols,每一种方法都有其优缺点,最重要的两个步骤是单细胞的捕获/分离,以及转录本的定量。
捕获细胞的不同策略决定了
1)实验的通量(Throughput)即我们分离了多少细胞;
2)在测序前细胞是如何被捕获的;
3)除了转录本测序之外还能获得什么样的额外信息。
三种最广泛使用的方法:
1)基于微滴定板 (microtitre-plate-based):
微量滴定板法依赖于使用移液、显微解剖或流式细胞荧光分选(fluorescent activated cell sorting,FACS)等方法将细胞分离到培养皿的单个孔中。
优点:可以在建库前对细胞进行拍照,提供一种额外的数据形式,例如,可以识别和丢弃损坏的细胞,或者找到含有双重细胞的井(含两个或以上细胞的单元孔);当使用自动化FACS筛选时,还可以将细胞大小等信息与细胞的坐标联系起来,因此在下游分析中可以使用单个细胞指数 。
缺点:主要缺点是通常是低通量的,且每个细胞所需的工作量可能是极大的。
2)基于微流控芯片 (microfluidic-array-based):
相较基于微滴定板方法通量更高一些。通常情况下,只有大约10%的细胞在微流控平台中被捕获,因此,如果处理的是罕见的细胞类型或非常少量的input细胞,此方法是不合适的。第二点,由于纳米孔是为特定的尺寸定制的,因此必须注意芯片捕获的细胞大小(这可能会影响复杂组织中细胞的无偏采样)。此外,该芯片相对昂贵,但由于反应可以在较小的体系内进行,可以节省试剂费用。
3)基于微流控液滴 (microfluidic-droplet-based):
通量最高,最常用的方法。其工作原理是将单个细胞封装在一个纳米大小的油滴中,并将其与一颗珠子结合在一起。珠子上装载着酶及其他构建文库所需的成分。此外,每一个珠子都包含一个独特的barcode,。因此,所有的液滴都可以被汇集在一起,根据这些barcode将reads分配到起源细胞。微流控液滴平台建库的费用很低,但是测序成本较高,同时测序深度不高,只能检测到数千种转录本,如10X采用的就是这种策略。
Fluorescence Activated Cell Sorting (FACS) can be used upstream of any of the capture methods, to select a sub-population of cells. A common way in which this is used is to stain the cells with a dye that distinguishes between live and dead cells (e.g. due to membrane rupture), thus enriching the cell suspension with viable cells.
主要有两类转录定量方法:基于全长和基于tag。定量方法的选择影响到后续生成的数据可进行何种类型的分析。
选择3‘端还是5’端测序?
The difference between 5’ and 3’ tag-based protocols is which end of the transcript is sequenced. Although 3’ protocols are more commonly used, many protocols now allow sequencing from either end (e.g. 10x Chromium supports both). The advantage of 5’-end sequencing is that we obtain information about the transcription start site (TSS), which allows to explore whether there is differential TSS usage across cells.
在进行scRNA-seq实验时,需要考虑几个因素。诸如每个细胞的成本,需要多少细胞,或者测序深度等因素都可能影响我们对protocols的选择。另一方面,必须小心避免由于批次在不同时间处理而产生的偏差,缺乏足够的重复可能也会限制可做的分析类型,从而无法直接回答一些感兴趣的问题。
最合适的测序平台取决于手头要回答的生物问题。例如,如果对描述异质组织的组成感兴趣,那么基于液滴的方法就更合适,因为它允许以一种基本无偏的方式捕获大量细胞。另一方面,如果对有已知表面marker的特定细胞群的特征感兴趣,那么最好使用FACS富集,然后用较高的测序深度对少量细胞进行测序。
显然,如果对研究不同的异构体感兴趣,全长转录本量化更合适。相比之下,UMIs 只能与tag-based protocols一起使用,它们可以改进基因水平的定量。
如果对罕见的细胞类型感兴趣(已知marker不存在),那么就需要对更多的细胞进行测序,这将增加实验的成本。Satija实验室开发了一个工具用来估计需要对多少细胞进行测序:https://satijalab.org/howmanycells/。
决定使用哪种方案的另一种方法,是查阅比较不同测序方案的研究文献。这些研究的重点是敏感性(每个细胞检测到多少基因)、准确性(例如与整体RNA-seq相比)和恢复样品中所有细胞类型的能力(在商业上可买到的细胞混合物上进行测试)。例如,Ding等人2020年的一项研究表明(PMID: 32341560),与高通量方法相比,低通量方法具有更高的灵敏度,如10x Chromium(见下图)。
Ziegenhain等人(PMID: 28212749)的另一项研究对同一小鼠胚胎干细胞(mesc)样本进行了5种不同的protocols比较,得出了类似的结论。最后,Svensson等人(PMID: 28263961)的一项研究使用已知浓度的合成转录本(spike-in)来测量不同方案的准确性和敏感性。通过比较广泛的研究,他们也报告了两种方案之间的重大差异(见下图)。
随着protocols的发展和改进,以及定量技术中处理噪点的新计算方法的出现,未来的研究可能会帮助我们进一步了解不同方法的优势。这些比较研究不仅有助于决定使用哪种方案,而且有助于开发新的方法,因为基准测试将确定哪些策略可能是最佳的。
除了不同protocols的通量和敏感度存在差异以外,成本也可能是开展单细胞测序的一个决定性因素。细胞哈希未来可能会进一步节省测序费用。这种方法包含在细胞膜上粘贴寡聚标记,允许每次实验装载来自多个样本的更多细胞,之后可以在分析过程中进行多路分离。
scRNA-seq和Bulk的主要区别是,单细胞的每个测序库代表一个单细胞,而不是一个细胞群。因此,在单细胞水平上不可能有“生物学重复”:每个细胞都是独一无二的,不可能重复。相反,细胞可以根据它们的相似性进行聚类,然后可以跨相似细胞组进行比较(我们将在本课程后面看到)。
scRNA-seq的另一个大挑战是每个细胞的起始物质非常少。这导致了非常稀疏的数据,其中大多数基因仍然未被检测到,因此我们的数据包含许多零。这可能是由于该基因没有在该细胞中表达(“real” zero),或者该基因已经表达但我们无法检测到(dropout)。这导致了细胞间的变异,而这种变异并不总是生物学上的,而是由于细胞间不均匀的PCR扩增和基因表达的“dropouts” 造成的技术问题。简而言之,即可能在一个细胞中检测到一个基因表达(PCR扩增),但在另一个细胞中却缺失了一个基因的表达,即dropouts(PMID: 24836921)。提高转录本捕获效率和降低PCR扩增偏差是解决这些问题的有效途径,目前仍是技术研究的热点。然而,正如我们将在本课程中看到的,可以通过适当的数据normalization缓解其中一些问题。
另一个需要考虑的重要方面是batch effects。即使使用不同的技术对相同的材料进行测序(见下图),也可以观察到这些问题,如果没有适当的标准化,可能会导致错误的结论。
样品的处理还应以避免在实验控制变量(如治疗、基因型或疾病状态)与样品制备和测序时间之间混淆的方式进行。例如,假设需要比较10位病人的健康和患病的组织,如果每天只能处理10个样本,最好一天先处理5个健康的 + 5个患病的组织,而不是一天处理10个健康组织,第二天处理10个患病组织。另一个需要考虑的是确保组织样本的重复。例如,当从一个器官中收集组织时,从该器官的不同部位提取多个样本更佳。或者考虑在一天内收集样本/重复的时间点(由于基因表达可能的昼夜节律变化)。总之,在分析scRNA-seq时,应该考虑到实验设计中所有常见的最佳实践。
scRNA-seq非常适合研究异质细胞群。例如,确定组成组织的细胞类型,定义不同细胞类型的“转录指纹”,研究细胞分化,探索疾病或环境因素导致的细胞组成变化等等。
典型的样品制备流程包括分离单细胞(或细胞核),将RNA转化为cDNA,准备测序库(Illumina)和测序。
许多单细胞protocols已经开发出来,有些是公开可用的,有些是商业上提供的。它们主要在通量(每次实验捕获多少细胞)、量化类型(全长或基于标签)和成本上有所不同。
SMART-seq2是一种流行的低通量方法,提供全长转录本定量。它非常适合更详细地研究较小的细胞群(例如,差异亚型的用法,低表达转录本的特征)。
10x Chromium是一种流行的高通量方法,使用UMIs进行转录物定量(从3 '或5 '端)。它非常适合于研究高度异质性的组织和大规模的细胞样本。
当计划一个单细胞实验时,应该小心避免由于批次效应而造成偏倚,并确保适当的生物学重复来解决感兴趣的问题。
进一步比较10X和Smart-seq2测序技术的异同点:可参考张泽民老师的文章:Direct Comparative Analyses of 10X Genomics Chromium and Smart-seq2,https://www.sciencedirect.com/science/article/pii/S1672022921000486
- END -
https://mp.weixin.qq.com/s/QcoW8ekIG7Pr6KMf74Jp3A