Closed ixxmu closed 2 years ago
本专辑将会系统性介绍单细胞图谱研究的标准数据分析思路,前面提到了:肿瘤样品的单细胞需要提取上皮细胞继续细分,眼尖的小伙伴们发现了一个问题, 就是它这个肝癌数据集里面的fibroblasts等细胞亚群占比非常少,如果真的要每个细胞亚群都继续细分, 对比例少的细胞分析起来会有误差。
我们再回顾一下这个发表于2020的文章,标题 是:《Single-cell transcriptomic architecture and intercellular crosstalk of human intrahepatic cholangiocarcinoma》,数据集在;https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE138709
文章里面确实提到了:The 498 fibroblasts in our unselected viable strategy of scRNA-seq analyses (Dataset 1) accounted for only 1.59% of all viable cells:
这个文章直接展示了第二层次分群,一般来说背诵下面的基因即可:
# T Cells (CD3D, CD3E, CD8A),
# B cells (CD19, CD79A, MS4A1 [CD20]),
# Plasma cells (IGHG1, MZB1, SDC1, CD79A),
# Monocytes and macrophages (CD68, CD163, CD14),
# NK Cells (FGFBP2, FCG3RA, CX3CR1),
# Photoreceptor cells (RCVRN),
# Fibroblasts (FGF7, MME),
# Endothelial cells (PECAM1, VWF).
# epi or tumor (EPCAM, KRT19, PROM1, ALDH1A1, CD24).
# immune (CD45+,PTPRC), epithelial/cancer (EpCAM+,EPCAM),
# stromal (CD10+,MME,fibo or CD31+,PECAM1,endo)
library(ggplot2)
genes_to_check = c('PTPRC', 'CD3D', 'CD3E', 'CD4','CD8A',
'CD19', 'CD79A', 'MS4A1' ,
'IGHG1', 'MZB1', 'SDC1',
'CD68', 'CD163', 'CD14',
'TPSAB1' , 'TPSB2', # mast cells,
'RCVRN','FPR1' , 'ITGAM' ,
'C1QA', 'C1QB', # mac
'S100A9', 'S100A8', 'MMP19',# monocyte
'LAMP3', 'IDO1','IDO2',## DC3
'CD1E','CD1C', # DC2
'KLRB1','NCR1', # NK
'FGF7','MME', 'ACTA2', ## fibo
'DCN', 'LUM', 'GSN' , ## mouse PDAC fibo
'Amy1' , 'Amy2a2', # Acinar_cells
'PECAM1', 'VWF', ## endo
'EPCAM' , 'KRT19', 'PROM1', 'ALDH1A1' )
单细胞转录组数据分析的标准降维聚类分群,并且进行生物学注释后的结果。可以参考前面的例子:人人都能学会的单细胞聚类分群注释 ,我们演示了第一层次的分群。
如果你对单细胞数据分析还没有基础认知,可以看基础10讲:
可以看到,就这么一点Cancer-associated fibroblasts (CAFs) ,但是它又是我们的研究目标!
而且目前呢,学界对CAFs的来源本来就是并不那么清晰,理论上不可能存的单一的标记基因来区分出来CAFs。通常CAFs有4种来源:
如果要筛选CAFs,首先要去除4个基因表达量为阳性的细胞亚群 :
重新设计实验,如下所示,这样CAFs就勉强变多啦:
众所周知,目前单细胞样品费用还居高不下,一个10x的建库加上测序起码两万五,如果做十几个甚至几十个才能获取到足够量的目标细胞亚群,就得不偿失了。那么,设计合理的实验策略来富集目标细胞就是一个很好的选择。
实验富集到的Cancer-associated fibroblasts (CAFs) 跟我们自己从单细胞数据集里面挑选的Cancer-associated fibroblasts (CAFs) ,后续分析是一模一样的。而且完全可以参考 :肿瘤样品的单细胞需要提取上皮细胞继续细分,各个细分亚群找到特异性标记基因,特异性激活的基因集,特异性的转录因子等等。
因为10x单细胞转录组成本摆在那里,参考我们的《明码标价》专栏里面的单细胞内容
仅仅是测数据每个样品就100G以上,对计算资源的消耗也很大。还等什么呢,赶快扫描下面二维码添加微信咨询吧!
https://mp.weixin.qq.com/s/0OjIPRDjip5PGo5S673p7w