超百万个单细胞的数据集越来越多了

超百万个单细胞的数据集越来越多了 by 单细胞天地

前些天朋友圈被刷爆了的人类细胞图谱计划发布四项新成果：

Stephen Quake以及Tabula Sapiens联盟的同事采用FACS和smart-seq2技术或10x Genomics微流控微滴捕获和扩增方法，对24种组织类型的近50万个细胞中的RNA进行测序。
人类细胞图谱组委会的联合主席、Sanger研究所的细胞遗传学负责人Sarah Teichmann领导了其中两项以免疫系统为重点的HCA研究，就分析的组织和鉴定出的细胞类型而言，他称这些最新成果是“建立完整的人类细胞图谱工作中的一座真正里程碑”。
Teichmann及其同事挖掘了免疫细胞的数据集，在胚胎肠道和皮肤屏障组织中发现了意想不到的免疫干细胞和祖细胞，并预测了胸腺中T细胞之间的信号通路，随后在类器官模型中得到了验证。他们使用了一种名为CellTypist的细胞注释工具，对约330,000个细胞的单细胞RNA测序和配对VDJ测序数据进行评估。这些细胞来自12名供体的16个成体组织。
Broad研究所的知名教授Aviv Regev针对Gtex数据库的 209,126个细胞核的RNA-seq数据进行分析，这些细胞核来自基因型-组织表达项目的16名参与者，是从8种组织类型的冷冻组织样本中分离的。

对应着4篇文章；

The Tabula Sapiens: A multiple-organ, single-cell transcriptomic atlas of humans（数据集在：GSE201333）
Mapping the developing human immune system across organs（数据集在：E-MTAB-11343 ）
Cross-tissue immune cell analysis reveals tissue-specific features in humans（数据集在：E-MTAB-11536 ）
Single-nucleus cross-tissue molecular reference maps toward understanding disease gene function（数据集在：SCP1479）

但是它们其实单细胞数据量都没有达到百万级别，上一次达到百万数据量的应该是北京大学的张泽民领导的新冠病毒相关研究：

2021年2月3日，Cell 杂志提前上线了题为：COVID-19 immune features revealed by a large-scale single cell transcriptome atlas（大规模单细胞转录组图谱揭示COVID-19免疫特征）的研究论文。
该论文作者阵容强大，由北京大学张泽民教授领衔，包括王红阳院士、王福生院士、卞修武院士在内19位共同通讯作者完成。
研究团队对来自196人（包括中度新冠患者、重症患者、恢复期患者，及健康对照）的284个样品进行了单细胞RNA测序，创建了拥有146万个细胞的全面免疫景观。

眨眼睛，一年多时间过去了，现在超百万个单细胞的数据集越来越多了，而且也没办法发表在CNS级别的正刊上面了。比如：《Single-cell RNA-sequencing of peripheral blood mononuclear cells reveals widespread, context- specific gene expression regulation upon pathogenic exposure》，标题很长，但是就发表在了《nature communications 》杂志。

它是 1.3M peripheral blood mononuclear cells from 120 individuals, longitudinally exposed to three different pathogens，虽然是单细胞转录组表达量矩阵，但是其主要是做 genome-wide association studies (GWAS) 研究，超出了我的能力范围，因为它关心的主要是single nucleotide polymorphisms (SNPs).和表达量的关系，所以是 expression quantitative trait locus (eQTL)

三种感染的病原物是：C. albicans (CA), M. tuberculosis (MTB), or P. aeruginosa (PA),

虽然起初是1.3M 的peripheral blood mononuclear cells (PBMC) ，但是经过了蛮严格的质量控制，最后剩下来的是 928,275 cells，也算是当之无愧的大数据量。常规降维聚类分群是：

B,
CD4+ T,
CD8+ T,
monocytes,
natural killer (NK),
dendritic cells (DCs)

其中

CD4+ T and CD8+ T cells,都是有 naive和 memory 的细分亚群
单核细胞是 classical (cMono) and non-classical monocytes (ncMono), 的二分类
NK细胞是 NKdim and NKbright, 的二分类
树突细胞是 myeloid (mDC), and plasmacytoid DCs (pDC). 的二分类

如下所示：

降维聚类分群

PBMC的单细胞大家应该是非常熟悉了，因为seurat官方文档的示例数据就是它，而且很清晰的分群。

这个数据集的原始表达量矩阵可以在；https://eqtlgen.org/sc/datasets/1m-scbloodnl.html 找到，目前看到的是 2021-06-10: Initial data release 版本，如下所示文件；

Raw gene expression counts (mtx format)
SCT normalized counts (mtx format)
Cell type classification for every cell barcode
Sample assignment and condition for every cell barcode

大家下载 Raw gene expression counts (mtx format) 这个3G的压缩包，然后可以在里面看到v2和v3的表达量矩阵文件，使用seurat读取即可。

对大家来说，比较麻烦的事情应该是超百万个单细胞可能是绝大部分小伙伴的电脑都无法hold住，尽管我们给了降维聚类分群的代码，但是你大概率会遇到内存不足的报错。（比如我测试了仅仅是其中的V2数据，62万细胞，耗费内存如下所示：）

其实10x的官方网站也有不少超百万个单细胞的数据集，比如：https://support.10xgenomics.com/single-cell-gene-expression/datasets/1.3.0/1M_neurons，简单的注册就可以下载，同样的降维聚类分群后很容易区分处理 major brain cell types (excitatory neurons, inhibitory neurons, astrocytes, oligodendrocytes, microglia, and pericytes) ，在：两个神经退行性疾病的单细胞核转录组队列的细胞亚群及其标记基因的比较，我列出来了一些基因：

astrocytes = c("AQP4", "ADGRV1", "GPC5", "RYR3") 
  endothelial = c("CLDN5", "ABCB1", "EBF1") 
  excitatory = c("CAMK2A", "CBLN2", "LDB2") 
  inhibitory = c("GAD1", "LHFPL3", "PCDH15") 
  microglia = c("C3", "LRMDA", "DOCK8") 
  oligodendrocytes = c("MBP", "PLP1", "ST18") 
  OPC='Tnr,Igsf21,Neu4,Gpr17'
  Ependymal='Cfap126,Fam183b,Tmem212,pifo,Tekt1,Dnah12'
  pericyte=c(  'DCN', 'LUM',  'GSN' ,'FGF7','MME', 'ACTA2','RGS5')
# 下面是4种神经细胞
# excitatory (SLC17A6),  
# inhibitory (GAD2), 
# GABAergic (GAD2/GRIK1), 
# dopaminergic neurons(TH)