ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
127 stars 32 forks source link

不知道单细胞亚群特异性标记基因的出处? #3030

Closed ixxmu closed 1 year ago

ixxmu commented 1 year ago

https://mp.weixin.qq.com/s/n1XigM90n1EtJBZrlOOo-A

ixxmu commented 1 year ago

不知道单细胞亚群特异性标记基因的出处? by 生信技能树

绝大部分的肿瘤研究领域的单细胞数据降维聚类分群都是参考我介绍过的第一次分群规则,详见:CNS图表复现08—肿瘤单细胞数据第一次分群通用规则

  • immune (CD45+,PTPRC),
  • epithelial/cancer (EpCAM+,EPCAM),
  • stromal (CD10+,MME,fibo or CD31+,PECAM1,endo)

这个参考文献出处就在:你要的rmarkdown文献图表复现全套代码来了(单细胞)找,是2020的CELL杂志的文章:《Therapy-Induced Evolution of Human Lung Cancer Revealed by Single-Cell RNA Sequencing 》,然后绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的fibo 和endo进行细分,并且编造生物学故事的。

后来做的单细胞数据集越来越多,我也慢慢的积累了自己的标记基因列表,每次有小伙伴想跟我学习单细胞,我就让他先背诵下面的基因 :


# T Cells (CD3D, CD3E, CD8A), 
# B cells (CD19, CD79A, MS4A1 [CD20]), 
# Plasma cells (IGHG1, MZB1, SDC1, CD79A), 
# Monocytes and macrophages (CD68, CD163, CD14),
# NK Cells (FGFBP2, FCG3RA, CX3CR1),  
# Photoreceptor cells (RCVRN), 
# Fibroblasts (FGF7, MME),   'DCN', 'LUM',  'GSN' 
# Endothelial cells (PECAM1, VWF). 
# epi or tumor (EPCAM, KRT19, PROM1, ALDH1A1, CD24).
#   immune (CD45+,PTPRC), epithelial/cancer (EpCAM+,EPCAM), 
# stromal (CD10+,MME,fibo or CD31+,PECAM1,endo) 

library(ggplot2) 
genes_to_check = c('PTPRC''CD3D''CD3E''CD4','CD8A',
                   'CD19''CD79A''MS4A1' ,
                   'IGHG1''MZB1''SDC1',
                   'CD68''CD163''CD14'
                   'TPSAB1' , 'TPSB2',  # mast cells,
                   'RCVRN','FPR1' , 'ITGAM' ,
                   'C1QA',  'C1QB',  # mac
                   'S100A9''S100A8''MMP19',# monocyte
                   'LAMP3''IDO1','IDO2',## DC3 
                   'CD1E','CD1C'# DC2
                   'KLRB1','NCR1'# NK 
                   'FGF7','MME''ACTA2'## fibo 
                   'DCN''LUM',  'GSN' , ## mouse PDAC fibo 
                   'Amy1' , 'Amy2a2'# Acinar_cells
                   'PECAM1''VWF',  ## endo 
                   'EPCAM' , 'KRT19''PROM1''ALDH1A1' )

genes_to_check = c('PTPRC''CD3D''CD3E''CD4','CD8A',
                   'CCR7''SELL' , 'TCF7','CXCR6' , 'ITGA1',
                   'FOXP3''IL2RA',  'CTLA4','GZMB''GZMK','CCL5',
                   'IFNG''CCL4''CCL3' ,
                   'KLRB1','NCR1'# NK 
                   'PRF1' , 'NKG7','MKI67' ,'TOP2A'

genes_to_check = c('CD68''CD163''CD14'
                   'CD86','C1QA',  'C1QB',  # mac
                   'S100A9''S100A8''MMP19',# monocyte
                   'LAMP3''IDO1','IDO2',## DC3 
                   'MRC1','MSR1','ITGAE','ITGAM','ITGAX','SIGLEC7'
                   'CD1E','CD1C'# DC2
                   'XCR1','CLEC9A','FCER1A',# DC1
                   'GZMB','TCF4','IRF7')

th=theme(axis.text.x = element_text(angle = 45
                                    vjust = 0.5, hjust=0.5)) 

p_all_markers=DotPlot(sce.all, features = genes_to_check,
                      assay='RNA' ,group.by = 'celltype' )  + coord_flip() +th

但是毕竟自己只是“野路子”的个人经验汇总而已,处理了三百多个单细胞数据集我这些基因列表都蛮好用的,做到第一层次降维聚类分群和生物学命名不是问题。

有不少小伙伴问我这些单细胞亚群特异性标记基因的出处,我当时确实没有下意识的收集整理,但是 CellMarker 2.0 上面就有 http://yikedaxue.slwshop.cn/clustering.php

虽然这个 CellMarker 数据库页面第一眼看上去有点复杂,没有我上面的基因列表清晰,主要是因为它们实在是太齐全了,各个组织器官的各种单细胞亚群它都得涉及到,而且每个单细胞亚群给出来的基因数量也超级多。

CellMarker 数据库页面复杂

但是它确实提供了Excel的下载:

FileName Description Download
All cell markers All cell markers of different cell types from different tissues in human and mouse.  .xlsx
Human cell markers Cell markers of different cell types from different tissues in human.  .xlsx
Mouse cell markers Cell markers of different cell types from different tissues in mouse.  .xlsx
Single cell markers Cell markers derived from single-cell sequencing researches in human and mouse.  .xlsx

大家完全可以在Excel里面找到每个基因的参考文献:

每个基因的参考文献

还是那句话,这个CellMarker 数据库太复杂了,其实你大概率也用不上如此多信息。

你需要的是去找到特定的组织器官去查看里面的各个单细胞亚群的基因,然后每个亚群挑选三五个基因即可。比如大脑区域的:

大脑区域的

我们进入,找到 Astrocyte 这个单细胞亚群 它的基因列表:

Astrocyte 这个单细胞亚群

这样每个单细胞亚群汇总后,得到如下所示大脑单细胞亚群各自的特异性基因列表啦:

  astrocytes = c("AQP4""ADGRV1""GPC5""RYR3"
  endothelial = c("CLDN5""ABCB1""EBF1"
  excitatory = c("CAMK2A""CBLN2""LDB2"
  inhibitory = c("GAD1""LHFPL3""PCDH15"
  microglia = c("C3""LRMDA""DOCK8"
  oligodendrocytes = c("MBP""PLP1""ST18")
# 下面的 OPC是 上面的 oligodendrocytes 的前体细胞 
  OPC='Tnr,Igsf21,Neu4,Gpr17'
  Ependymal='Cfap126,Fam183b,Tmem212,pifo,Tekt1,Dnah12'
  pericyte=c(  'DCN''LUM',  'GSN' ,'FGF7','MME''ACTA2','RGS5')
  
  gene_list = list(
    Astro = astrocytes,
    Endo = endothelial,
    Excit = excitatory,
    Inhib = inhibitory,
    Mic = microglia,
    Oligo = oligodendrocytes,
    OPC= str_to_upper(trimws(strsplit(OPC,',')[[1]])),
    Ependymal= str_to_upper(trimws(strsplit(Ependymal,',')[[1]])) ,
    peri = pericyte
  )
DotPlot(sce, assay = "RNA", features = gene_list, 
group.by = 'seurat_clusters') + theme(axis.text.x = element_text(angle = 45
       vjust = 0.5, hjust=0.5))
  

写在文末

我在《生信技能树》,《生信菜鸟团》,《单细胞天地》的大量推文教程里面共享的代码都是复制粘贴即可使用的, 有任何疑问欢迎留言讨论,也可以发邮件给我,详细描述你遇到的困难的前因后果给我,我的邮箱地址是 jmzeng1314@163.com

如果你确实觉得我的教程对你的科研课题有帮助,让你茅塞顿开,或者说你的课题大量使用我的技能,烦请日后在发表自己的成果的时候,加上一个简短的致谢,如下所示:

We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.

十年后我环游世界各地的高校以及科研院所(当然包括中国大陆)的时候,如果有这样的情谊,我会优先见你。