ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
93 stars 25 forks source link

YuLab JC | 单细胞及单核细胞 RNA 测序总结 #4934

Closed ixxmu closed 2 months ago

ixxmu commented 2 months ago

https://mp.weixin.qq.com/s/QCqTptYSd8BjdtmIPBl0Kw

ixxmu commented 2 months ago

YuLab JC | 单细胞及单核细胞 RNA 测序总结 by YuLabSMU

单细胞及单核细胞 RNA 测序总结 

一、背景介绍:(参考自:https://help.geneiousbiologics.com/hc/en-us/articles/4781289585300-Understanding-Single-Cell-technologies-Barcodes-and-UMIs

1. 条形码(Barcode):Barcode 本质是短核苷酸序列(~16 bp)。Barcode 分为两类:Cell Barcode 和 Feature Barcode,其中 Cell Barcode 用以标记细胞来源,Feature Barcode 用以标识细胞的某些其他特征,如细胞表面蛋白的存在(图 1-1)。

图 1-1

         

 

2. 唯一分子标识符(UMI,Unique Molecular Identifiers):UMI 本质也是短核苷酸序列,每一个唯一的 UMI 标记一种 mRNA。UMI 用于质量控制,可以帮助识别罕见的变异,检测差异扩增,并使能够筛选出可能的测序错误(图 1-2)。

   

图 1-2

         

 

二、单细胞和单核RNA测序方法的系统比较(参考自:https://www.nature.com/articles/s41587-020-0465-8

该篇文章作者系统地对 2 种低通量和 5 种高通量单细胞和/或单细胞核测序方法,结果发现,对于低通量方法,Smart-seq2 和 CEL-Seq2 的表现相似,但后者可能受到来自其他细胞 reads 污染的影响更大。在高通量的方法中,10x Chromium 是表现最好的。

         

 

1.样本信息及测序方法:

样本信息:

作者分析了三种样本类型——人类和小鼠细胞系混合物(50% human HEK293 and 50% mouse NIH3T3 cells)、人类外周血单核细胞(PBMC)和小鼠皮层细胞核。其中,每个样本有两个重复(图 2-1)。    

图 2-1(图来源于:https://www.nature.com/articles/s41587-020-0465-8

         

 

测序方法:

(1)Plated-based:基于微孔板的方法是一种低通量方法,它将细胞分选到多孔板的孔中(图 2-2)。Smart-seq2 和 CEL-Seq2 属于此类方法。

图2-2(图来源于:https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-022-09014-5/figures/1

         

 

(2)Bead-based:基于微珠的方法是一种高通量方法,它将细胞悬液分布到含有试剂和条形码微珠的微小液滴或孔中,以产生仅包含一个细胞和一个微珠的单个液滴或孔(图 2-3)。10X Chrominm,Drop-seq,Seq-Well,inDrops 属于此类方法。    

图 2-3 (图来源于:https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-022-09014-5/figures/1

         

 

(3)Combinatorial indexing-based:基于组合索引的方法是一种高通量方法,它在每个细胞或细胞核内原位逆转录并用条形码标记 mRNA,而无需物理分离单个细胞(图 2-4)。sci-RNA-seq 属于此类方法。

图 2-4 (图来源于:https://www.science.org/doi/10.1126/science.aam8940

         

 

注:对于小鼠皮层,作者只测试了四种 snRNA-seq 方法(Smart-seq2、10X Chrominm、DroNc-seq、sci-RNA-seq)。

         

 

2.3/端测序 VS 全长测序

以上提到的方法中(包括Smart-seq2、CEL-Seq2、10X Chrominm、Drop-seq、Seq-Well、inDrops、sci-RNA-seq),只有Smart-seq2是全长测序,其它都是3/端测序。

Efthymia Papalexi等人的 Review(https://www.nature.com/articles/nri.2017.76)中总结了3/端测序和全长测序应用的区别:对于单细胞测序技术,3/端测序的方法允许在细胞内对每个基因的表达进行量化;而对于全长转录本测序,不仅可以检测基因表达,还可以分析剪接变异体和 B 细胞受体(BCR)库或 T 细胞受体(TCR)库多样性(图 2-5)。    

图 2-5(图来源于:https://www.nature.com/articles/nri.2017.76

         

 

3.灵敏度比较

由于单细胞/单核测序方法捕获到的 RNA 有限,因此一个关键的质量评估指标是灵敏度,即捕获 RNA 分子的能力。

作者对数据集抽样,使得每个细胞中的 reads 数量相等,然后通过测量每个细胞中检测到的 UMI 或基因的数量来评估每种方法的灵敏度(唯一的例外是使用 Seq-Well 测量的 PBMC1,每个细胞中 reads 数约为 46,000,而PBMC1中其他高通量方法的每个细胞 reads 数约为69,000)。

对于人类和小鼠细胞系混合物实验,低通量方法 Smart-seq2和 CEL-Seq2的灵敏度最高,而在高通量方法中,10x Chromium检测到每个细胞中的 UMI 和基因最多。这些方法中,inDrops 的灵敏度最低。比起10x Chromium (v2) 和sci-RNA-seq,Seq-Well 方法每个细胞检测到的基因较少,但比起 Drop-seq和inDrops,Seq-Well 方法检测到的基因更多些。(图 2-6)    

图 2-6(图来源于:https://www.nature.com/articles/s41587-020-0465-8

         

 

在 PBMC 中展示出相似的结果,低通量方法比高通量方法在每个细胞中检测到更多的 UMI 和基因。Smart-seq2 和 CEL-Seq2方法灵敏度相似,其中,Smart-seq2 在两个重复样本中检测到的基因的中位数分别为 2406、2632,CEL-Seq2检查到的分别为 2717、2545。在高通量方法中,10x Chromium (v3)检测到的每个细胞中的 UMI中位数和基因中位数最高,分别为 4494、1482。inDrops 和 Seq-Well 检测到的 UMI 和基因中位数最低。(图 2-7)    

图 2-7(图来源于:https://www.nature.com/articles/s41587-020-0465-8

         

 

在皮层细胞核中,Smart-seq2 是唯一测试的低通量方法,与前面结果一致,它比高通量方法检测到更多的基因。在高通量方法中,10x Chromium (v2)检测到的每个细胞中的 UMI(5126、3127)和基因(2462、1744)的中位数最高。(图 2-8)    

图 2-8(图来源于:https://www.nature.com/articles/s41587-020-0465-8

         

 

综上,低通量方法灵敏度高于高通量方法,高通量方法中,10x Chromium 的灵敏度最高,inDrops 和 Seq-Well 的灵敏度最低。

         

 

4.多细胞率(multiplet rate)比较:

定义:

multiplet rate:多个细胞(> 1)对应于一个 cell barcode 的比例(参考自:https://kb.10xgenomics.com/hc/en-us/articles/360059124751-Why-is-the-multiplet-rate-different-for-the-Next-GEM-Single-Cell-3-LT-v3-1-assay-compared-to-other-single-cell-applications#:~:text=Answer%3A%20The%20multiplet%20rate%20is%20the%20fraction%20of,cell-containing%20GEM%27s%20that%20contain%20more%20than%20one%20cell.

         

 

结果:

如图 2-9 所示,作者先根据检测到的 UMI(或Smart-seq2中的reads)数量对细胞进行排序(从最高(左)到最低(右)),然后计算不同细胞数量下的多细胞率。结果显示:(1)低通量方法的 multiplet rate 是最低的(< 1%);(2)multiplet rate 在具有最多 UMI 数量的细胞中更高,因为预期 multiplets 会有更多的 RNA;(3)在某些情况下,UMI 数量最低的细胞具有更高的 multiplet rate,这表明这些细胞可能质量较低或者具有更多的细胞外环境中的 RNA。(图 2-9)    

图 2-9(图来源于:https://www.nature.com/articles/s41587-020-0465-8

         

 

5.比较检测到的基因的纯度(在细胞中检测到的基因是否真的来自该细胞,而不是来自其他细胞的“污染”)

结果显示:(1)随着测序深度的增加,从“错误”物种中检测到更多的基因;(2)在低通量方法中,Smart-seq2 的性能比 CEL-Seq2 好得多;(3)在高通量方法中,inDrops 的性能最好,Seq-Well 的性能最差。(图 2-10)    

Mixture1

Mixture2

图 2-10(图来源于:https://www.nature.com/articles/s41587-020-0465-8

         

 

6.区分和恢复细胞类型的能力

(1)细胞注释结果

对于 PBMC 数据,结果显示区分,这些方法区分转录组相关(或相似)的细胞类型比较困难,如图 2-11 a 中红色方框圈中部分。在这些方法中,10x Chromium 和 inDrops 表现良好,识别到的细胞类型数目最多,    

图 2-11(图来源于:https://www.nature.com/articles/s41587-020-0465-8

         

 

对于小鼠皮层核数据,sci-RNA-seq 识别到的细胞类型最少,且包含部分unassigned 细胞。DroNc-seq 唯一识别出罕见细胞类型(pericytes)。(图 2-12)

   

图 2-12(图来源于:https://www.nature.com/articles/s41587-020-0465-8

         

 

(2)cluster AUC 值的计算

1)计算方法

Step1:计算cluster内每个细胞 marker gene 表达量得分

其中,

Nm: 细胞类型m中,marker genes 的数量(一共多少个marker gene)

Xi,j: 在细胞i中,marker gene j 的表达量(UMI count)

Ci: 在细胞i中,total count(UMI count)

通过公式可得,该得分的本质是计算每一个细胞的 marker gene 表达量得分。

         

 

Step2:构建 ROC 曲线(通过得分构建ROC曲线,从而得到AUC值)

对于给定的 cluster 和给定的细胞类型 C,如果细胞 i 在该 cluster 中的分数高于给定的阈值,则为真阳性,否则为假阴性。另一方面,如果不在该 cluster 中的细胞的分数高于阈值,则为假阳性,否则为真阴性。针对每一个 cut-off 值计算其假阳性率及真阳性率,并据此构建 ROC 曲线,计算其曲线下面积,从而得到每个 cluster 的 AUC 值。    

         

 

2)结果

对于 PBMC1 数据,结果发现高通量测序中,10x Chromium (v2) 最佳,其次是 Drop-seq 和10x Chromium (v3),对于 PBMC2 数据,结果发现10xChromium (v2) 和 inDrops 表现良好。(图 2-13)

PBMCs

图 2-13(图来源于:https://www.nature.com/articles/s41587-020-0465-8

对于小鼠皮层核数据,结果显示,Smart-seq2,10x Chromium (v2) 和 DroNc-seq 都具有高 AUC,尽管它们检测预期细胞的相对能力因细胞类型而异。(图 2-13)    

cortex nuclei

图 2-14(图来源于:https://www.nature.com/articles/s41587-020-0465-8

         

 

7.花费、细胞数、及时间比较如下(表来源于:https://www.nature.com/articles/ s41587-020-0465-8 ):

Method

 Cost/cell

# Cells

Time (hours)

Smart-seq2

 $10.59

384

25.67

CEL-Seq2

 $3.56

384

25.17

10X Chromium (v2)

 $0.32

4,000

9.00

10X Chromium (v3)

 $0.33

4,000

9.00

Drop-Seq/DroNc-Seq

 $0.10

6,000

10.00

Seq-Well

 $0.09

2,500

10.17

inDrops

 $0.07

3,000

24.00

sci-RNA-seq

 $0.28

7,680

17.42

         

 

8.总结:

对于低通量方法,Smart-seq2和 CEL-Seq2 的表现相似,但后者可能受到来自其他细胞的 reads 污染的影响更大。在高通量的方法中,10x Chromium 是表现最好的。

         

 

   

三、10X VS Smart-seq2(参考自:https://doi.org/10.1016/j.gpb.2020.02.005

         

 

该篇文章作者对 Smart-seq2 和10x Chromium 这两种测序方法进行了比较。结果显示:

1.Smart-seq2检测到的线粒体基因比例较高,而 10X 检测到的核糖体相关基因比例较高

(1)线粒体基因:

线粒体基因比例高表明细胞质量差,可能是由于细胞凋亡增强和/或裂解细胞的细胞质 RNA 丢失所导致的。

大多数来自 10X 的 reads 包含线粒体基因丰度低得多,范围为 0% -15% ,相比之下,来自 Smart-seq2的线粒体比例高2.8-9.1倍。这种高比例(平均约30%)可能是由于 Smart-seq2 对细胞器膜的破坏更为彻底。

需要注意:不同的细胞类型,其线粒体基因比例不一样,例如,cardiomyocytes(58%86%)

(2)核糖体相关基因

10X 中检测到的转录本有比较大一部分是来自核糖体相关基因(genes in the GO:0005840 “ribosome” term),比 Smart-seq2 数据高2.6–7.2倍。    

         

 

2.10X 检测到更高比例的lncRNA,而 Smart-seq2 鉴定出更多的 lncRNA 为高变基因

(1)基因类型比较

尽管 Smart-seq2 和 10X 都遵循 poly-A 富集策略,但检测到的转录本大约10% -30% 来自非编码基因。

    长非编码 RNA(lncRNA)在 Smart-seq2中占2.9% -3.8% ,在10X中相对较高(6.5% -9.6%)。

    在蛋白编码基因中,house-keeping (HK) genes 和 transcriptional factor (TF) genes 的比例,10X 比 Smart-seq2 分别高了 0.7 ~ 1.5 倍和 0.1 ~ 0.4 倍。

(2)识别高变基因(HVGs):

作者选择了排名前 1000 的 HVGs,发现两个平台之间共有的 HVGs 只有 333个。Smart -seq2 特异性的 HVGs 只富集于 2 条 KEGG 通路,而 10X 特异性的 HVGs 富集于 34 条通路(表明 10X 鉴定的 HVGs 更有利于了解生物学差异)。

在Smart-seq2特异性 HVGs 中 lncRNA 占比大,这导致其富集的 KEGG通路很少,在 10X 中鉴定为 HVGs 的 lncRNA 较少,可能是由于它们的表达水平要低得多,有较高的 dropout ratio。(图 3-1)    

图 3-1(图来源于:https://doi.org/10.1016/j.gpb.2020.02.005

         

 

3.Smart-seq2 检测到更多的基因,10X 检测到更多的细胞簇

Smart-seq2 的灵敏度远高于 10X,能检测到更多的基因。10X 可以识别到更多的细胞类型。

另外,文章还发现,差异基因的差异主要由平台引起,而不是选择不同的工具或 cut-off 值导致的。

         

 

4.10X 的 dropout ratio 高于 Smart-seq2

scRNA-seq 中的 dropout events 可能导致许多基因未被检测到,并且表达值为零的细胞过多,从而导致后续差异表达分析面临问题。

   基于10X 的数据显示更严重的 dropout events,特别是对于表达水平较低的基因。

         

 

四、scRNA-seq VS snRNA-seq 总结

1. scRNA-seq: 适用于新鲜组织;snRNA-Seq: 适用于新鲜、固定(fixed)、冻存或难以解离的组织。    

(参考自:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7220853/ ; 

https://doi.org/10.1042/ETLS20210074

         

 

2. snRNA-seq 相对于 scRNA-seq 的主要优势在于前者不需要在样品制备过程中保持细胞完整性,只需要提取完整状态的细胞核,但是丢失了细胞质中的 RNA。

(参考自:https://bioconductor.org/books/3.14/OSCA.advanced/single-nuclei-rna-seq-processing.html

         

 

3.

(1)对于大多数组织,snRNA-seq 在恢复attached cell types方面更强大,而scRNA-seq 偏向于免疫细胞类型(scRNA-seq 在捕获免疫细胞多样性方面表现良好)。

(2)scRNA-seq 所需的酶解诱导应激反应,会改变细胞转录组。使用 snRNA-seq 可以减少细胞和应激反应导致的偏差。

(参考自:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9846005/

         

 

4.

作者在单细胞和单核 RNA 测序文库之间观察到细胞类型组成的差异。特别是,T、B 和 NK 淋巴细胞在单核文库中的数量不足。

在需要淋巴细胞(T,B,NK)信息的情况下,作者目前不推荐snRNA-seq。

(参考自:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02048-6    

         

 

5.单细胞平台和单核平台的基因检测灵敏度相当

(参考自:https://doi.org/10.1681/asn.2018090912

         

 

6.snRNA-seq 分析过程中需要注意(参考自:https://bioconductor.org/books/3.14/OSCA.advanced/single-nuclei-rna-seq-processing.html):

细胞质的丢失意味着裸露的细胞核不应含有任何线粒体转录本,这意味着线粒体比例成为一个极好的评估细胞核剥离过程效果的质控指标。

与单细胞 RNA 测序不同,无需担心线粒体含量因真实生物学而产生的变异。高质量的细胞核不应含有任何线粒体转录本;在测序库中出现任何线粒体计数则表明细胞质的去除并不完全,可能会在下游分析中引入不相关的异质性。

   

图 4-1(图来源于:https://bioconductor.org/books/3.14/OSCA.advanced/single-nuclei-rna-seq-processing.html