一个被低估的单细胞数据资源

ixxmu commented 2 years ago

https://mp.weixin.qq.com/s/T_vehoe8WncnU3X1Q2MKFA

github-actions[bot] commented 2 years ago

一个被低估的单细胞数据资源 by 生信技能树

看到了一个单人的15个器官的8万多个单细胞，其文献引用才几十，严重被低估。

是中山大学的科研团队在2020的尾巴在《Genome Biol 》期刊发表了一个文章：《Single-cell transcriptome profiling of an adult human cell atlas of 15 major organs》，是单人的15个器官的8万多个单细胞转录组数据和BCR和TCR数据资源。初步质控后是 91,393 cells ，去除了可能的cell doublets 后剩下84,363 cells。

表达量矩阵等数据在：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE159929

可以看到确实是15个器官，每个器官的样品都是 Single-cell RNA sequencing, TCR, BCR ，我们主要是需要其表达量矩阵文件，大家也可以自行下载；

GSM4850577_Bladder_Counts.csv.gz 10.3 Mb
GSM4850578_Blood_Counts.csv.gz 2.2 Mb
GSM4850579_Common.bile.duct_Counts.csv.gz 6.6 Mb
GSM4850580_Esophagus_Counts.csv.gz 14.3 Mb
GSM4850581_Heart_Counts.csv.gz 10.3 Mb
GSM4850582_Liver_Counts.csv.gz 4.7 Mb
GSM4850583_Lymph.node_Counts.csv.gz 7.9 Mb
GSM4850584_Marrow_Counts.csv.gz 4.7 Mb
GSM4850585_Muscle_Counts.csv.gz 6.9 Mb
GSM4850586_Rectum_Counts.csv.gz 9.8 Mb
GSM4850587_Skin_Counts.csv.gz 13.3 Mb
GSM4850588_Small.intestine_Counts.csv.gz 6.2 Mb
GSM4850589_Spleen_Counts.csv.gz 6.4 Mb
GSM4850590_Stomach_Counts.csv.gz 7.4 Mb
GSM4850591_Trachea_Counts.csv.gz 14.6 Mb

第一层次降维聚类分群

读取上面的表达量矩阵，简单的降维聚类分群，可以看到，不同器官都共有绝大部分细胞类型：

第一层次降维聚类分群

这样的单细胞转录组数据分析的标准降维聚类分群，并且进行生物学注释后的结果。可以参考前面的例子：人人都能学会的单细胞聚类分群注释，我们演示了第一层次的分群。如果你对单细胞数据分析还没有基础认知，可以看基础10讲：

初步降维聚类分群可以看到这些被绝大部分器官共享的细胞类型主要是：T, B, plasma, endothelial, and smooth muscle cells, as well as fibroblasts, macrophages, and monocytes

也是我们一直让大家背诵的细胞类型，以及其对应的细胞亚群：

# T Cells (CD3D, CD3E, CD8A), 
# B cells (CD19, CD79A, MS4A1 [CD20]), 
# Plasma cells (IGHG1, MZB1, SDC1, CD79A), 
# Monocytes and macrophages (CD68, CD163, CD14),
# NK Cells (FGFBP2, FCG3RA, CX3CR1),  
# Photoreceptor cells (RCVRN), 
# Fibroblasts (FGF7, MME), 
# Endothelial cells (PECAM1, VWF). 
# epi or tumor (EPCAM, KRT19, PROM1, ALDH1A1, CD24).
#   immune (CD45+,PTPRC), epithelial/cancer (EpCAM+,EPCAM), 
# stromal (CD10+,MME,fibo or CD31+,PECAM1,endo) 

library(ggplot2) 
genes_to_check = c('PTPRC', 'CD3D', 'CD3E', 'CD4','CD8A',
                   'CD19', 'CD79A', 'MS4A1' ,
                   'IGHG1', 'MZB1', 'SDC1',
                   'CD68', 'CD163', 'CD14', 
                   'TPSAB1' , 'TPSB2',  # mast cells,
                   'RCVRN','FPR1' , 'ITGAM' ,
                   'C1QA',  'C1QB',  # mac
                   'S100A9', 'S100A8', 'MMP19',# monocyte
                   'LAMP3', 'IDO1','IDO2',## DC3 
                   'CD1E','CD1C', # DC2
                   'KLRB1','NCR1', # NK 
                   'FGF7','MME', 'ACTA2', ## fibo 
                   'DCN', 'LUM',  'GSN' , ## mouse PDAC fibo 
                   'Amy1' , 'Amy2a2', # Acinar_cells
                   'PECAM1', 'VWF',  ## endo 
                   'EPCAM' , 'KRT19', 'PROM1', 'ALDH1A1' )

第二层次细致分群

上面的分群仅仅是第一层次，这里面的细胞亚群，比如T cells, B cells, fibroblasts, myeloid cells, and endothelial cells，都是可以进行细致的分群探讨的。

其中T细胞里面的 CD4+ (7006) 细分成为11个亚群，而CD8+ (11,286) 细分成为了21个亚群：

naïve/central memory T (TN/CM)
effector memory T (TEM)
regulatory T (Treg)
tissue- resident memory T (TRM)
effector T (Th1 for CD4+ and TEFF for CD8+ T cell)
intrae- pithelial lymphocyte (IEL) T
and mucosal-associated invariant T (MAIT) cells

每个单细胞亚群的细分亚群都是标准分析一整套，包括：亚群umap，亚群特异性高表达基因，拟时序分析，转录因子分析，GSVA/GSEA。这里仅仅是展现b细胞的图：

b细胞的细分亚群一整套图表

对我们生物信息学工程师来说，只希望它的基因好用：B (MS4A1), plasma cells (SDC1), naïve B cell (TCL1A), and memory B cells (CD27).

其它细胞亚群的细致分群，都大同小异，比如髓系的18个群，上皮细胞的34个群，内皮细胞主要是淋巴（LYVE1）内皮和血液（VWF）内皮，成纤维细胞。值得一提的是T细胞和B细胞，因为有配套的 TCR, BCR数据还可以做更深入的结合分析。

公开adult human cell atlas (AHCA)资源

不得不说， 84,363 cells from 15 organs of one adult donor，252 cell subtypes, 确实是值得推荐的资源啊。

而且还制作了网页供大家访问：AHCA publicly available (http://research.gzsums.net:8888),

当然了，研究者自己也指出来了一些不足：

每个细胞基因数量太少，这个是10x技术自身缺陷，对低表达量基因不友好，比如lncRNA
每个器官就五千左右细胞，这样稀有细胞很难找到，其实就是因为10x太贵了，加测样品数据量可以解决。
最后仅限于一个人的样品，扩大样品人群好一点。

另外，仍然惊喜的是作者把代码共享了。All related codes and data analysis scripts are available at https://github.com/bei-lab/scRNA-AHCA and Zenodo (https://doi.org/10.5281/zenodo.4136735) .

写在文末

我在《生信技能树》，《生信菜鸟团》，《单细胞天地》的大量推文教程里面共享的代码都是复制粘贴即可使用的，有任何疑问欢迎留言讨论，也可以发邮件给我，详细描述你遇到的困难的前因后果给我，我的邮箱地址是 jmzeng1314@163.com

如果你确实觉得我的教程对你的科研课题有帮助，让你茅塞顿开，或者说你的课题大量使用我的技能，烦请日后在发表自己的成果的时候，加上一个简短的致谢，如下所示：

We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.

十年后我环游世界各地的高校以及科研院所（当然包括中国大陆）的时候，如果有这样的情谊，我会优先见你

ixxmu commented 2 years ago

proteinatlas 引用的单细胞数据库；protein atlas 的入库是有标准的，里面的说明第四条应该是一个非常重要的参考作用，另外经过实验室大致验证，的确还可以 proteinatlas 源码地址 https://github.com/bei-lab/scRNA-AHCA

ixxmu / mp_duty

一个被低估的单细胞数据资源 #1862

一个被低估的单细胞数据资源 by 生信技能树

第一层次降维聚类分群

第二层次细致分群

公开adult human cell atlas (AHCA)资源

写在文末