Closed ixxmu closed 2 years ago
前些天朋友圈被刷爆了的人类细胞图谱计划发布四项新成果:
对应着4篇文章;
但是它们其实单细胞数据量都没有达到百万级别,上一次达到百万数据量的应该是北京大学的张泽民领导的新冠病毒相关研究:
眨眼睛,一年多时间过去了,现在超百万个单细胞的数据集越来越多了,而且也没办法发表在CNS级别的正刊上面了。比如:《Single-cell RNA-sequencing of peripheral blood mononuclear cells reveals widespread, context- specific gene expression regulation upon pathogenic exposure》,标题很长,但是就发表在了《nature communications 》杂志。
它是 1.3M peripheral blood mononuclear cells from 120 individuals, longitudinally exposed to three different pathogens,虽然是单细胞转录组表达量矩阵,但是其主要是做 genome-wide association studies (GWAS) 研究,超出了我的能力范围,因为它关心的主要是single nucleotide polymorphisms (SNPs).和表达量的关系,所以是 expression quantitative trait locus (eQTL)
三种感染的病原物是:C. albicans (CA), M. tuberculosis (MTB), or P. aeruginosa (PA),
虽然起初是1.3M 的peripheral blood mononuclear cells (PBMC) ,但是经过了蛮严格的质量控制,最后剩下来的是 928,275 cells,也算是当之无愧的大数据量。常规降维聚类分群是:
其中
如下所示:
PBMC的单细胞大家应该是非常熟悉了,因为seurat官方文档的示例数据就是它,而且很清晰的分群。
这个数据集的原始表达量矩阵可以在;https://eqtlgen.org/sc/datasets/1m-scbloodnl.html 找到,目前看到的是 2021-06-10: Initial data release 版本,如下所示文件;
Raw gene expression counts (mtx format)
SCT normalized counts (mtx format)
Cell type classification for every cell barcode
Sample assignment and condition for every cell barcode
大家下载 Raw gene expression counts (mtx format) 这个3G的压缩包,然后可以在里面看到v2和v3的表达量矩阵文件,使用seurat读取即可。
对大家来说,比较麻烦的事情应该是超百万个单细胞可能是绝大部分小伙伴的电脑都无法hold住,尽管我们给了降维聚类分群的代码,但是你大概率会遇到内存不足的报错。(比如我测试了仅仅是其中的V2数据,62万细胞,耗费内存如下所示:)
其实10x的官方网站也有不少超百万个单细胞的数据集,比如:https://support.10xgenomics.com/single-cell-gene-expression/datasets/1.3.0/1M_neurons,简单的注册就可以下载,同样的降维聚类分群后很容易区分处理 major brain cell types (excitatory neurons, inhibitory neurons, astrocytes, oligodendrocytes, microglia, and pericytes) ,在:两个神经退行性疾病的单细胞核转录组队列的细胞亚群及其标记基因的比较,我列出来了一些基因:
astrocytes = c("AQP4", "ADGRV1", "GPC5", "RYR3")
endothelial = c("CLDN5", "ABCB1", "EBF1")
excitatory = c("CAMK2A", "CBLN2", "LDB2")
inhibitory = c("GAD1", "LHFPL3", "PCDH15")
microglia = c("C3", "LRMDA", "DOCK8")
oligodendrocytes = c("MBP", "PLP1", "ST18")
OPC='Tnr,Igsf21,Neu4,Gpr17'
Ependymal='Cfap126,Fam183b,Tmem212,pifo,Tekt1,Dnah12'
pericyte=c( 'DCN', 'LUM', 'GSN' ,'FGF7','MME', 'ACTA2','RGS5')
# 下面是4种神经细胞
# excitatory (SLC17A6),
# inhibitory (GAD2),
# GABAergic (GAD2/GRIK1),
# dopaminergic neurons(TH)
这样的单细胞基础认知,也可以看基础10讲:
最基础的往往是降维聚类分群,参考前面的例子:人人都能学会的单细胞聚类分群注释
单细胞集大成者的seurat包的可视化本质上是ggplot2语法
如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程
看完记得顺手点个“在看”哦!
长按扫码可关注
https://mp.weixin.qq.com/s/KnEtsdpoaD5yBaVPX9A_JQ