Closed ixxmu closed 11 months ago
交流群里面小伙伴发了一个小鼠的肝脏单细胞转录组数据文章,说不会读取作者给出来的矩阵,文章是2019的:《Single-Cell Transcriptomics Uncovers Zonation of Function in the Mesenchyme during Liver Fibrosis》
数据集是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE137720,作者给出来的是如下所示的文件:
GSM4085623_10x_1_barcodes.tsv.gz 27.0 Kb
GSM4085623_10x_1_genes.tsv.gz 212.7 Kb
GSM4085623_10x_1_matrix.mtx.gz 50.1 Mb
GSM4085624_10x_2_barcodes.tsv.gz 28.8 Kb
GSM4085624_10x_2_genes.tsv.gz 212.7 Kb
GSM4085624_10x_2_matrix.mtx.gz 68.1 Mb
所以是只需要很简单的改名即可,如下所示:
├── [ 160] GSM4085623_10x_1
│ ├── [ 27K] barcodes.tsv.gz
│ ├── [213K] features.tsv.gz
│ └── [ 50M] matrix.mtx.gz
├── [ 160] GSM4085624_10x_2
│ ├── [ 29K] barcodes.tsv.gz
│ ├── [213K] features.tsv.gz
│ └── [ 68M] matrix.mtx.gz
├── [ 160] GSM4085625_10x_3
│ ├── [ 22K] barcodes.tsv.gz
│ ├── [213K] features.tsv.gz
│ └── [ 45M] matrix.mtx.gz
├── [ 160] GSM4085626_10x_4
│ ├── [ 23K] barcodes.tsv.gz
│ ├── [213K] features.tsv.gz
│ └── [ 31M] matrix.mtx.gz
└── [ 160] GSM4085627_10x_5
├── [ 23K] barcodes.tsv.gz
├── [213K] features.tsv.gz
└── [ 34M] matrix.mtx.gz
每个样品都是标准的3个文件,在同一个文件夹里面,就可以批量读取啦:
dir='GSE137720_RAW/outputs/'
samples=list.files( dir )
samples
# samples = head(samples,10)
sceList = lapply(samples,function(pro){
# pro=samples[1]
print(pro)
sce =CreateSeuratObject(counts = Read10X(file.path(dir,pro )) ,
project = gsub('^GSM[0-9]*_','',
gsub('filtered_feature_bc_matrix','',pro) ) ,# pro, #
min.cells = 5,
min.features = 500 )
return(sce)
})
names(sceList)
# gsub('^GSM[0-9]*','',samples)
sce.all=merge(x=sceList[[1]],
y=sceList[ -1 ],
add.cell.ids = gsub('^GSM[0-9]*_','',
gsub('filtered_feature_bc_matrix','',samples)) )
# gsub('_gene_cell_exprs_table.txt.gz','',
# gsub('^GSM[0-9]*_','',samples) )
as.data.frame(sce.all@assays$RNA@counts[1:10, 1:2])
head(sce.all@meta.data, 10)
table(sce.all$orig.ident)
后面的降维聚类分群就是常规的代码即可,我顺便看了看文章的降维聚类分群结果,蛮有意思的:
也就是说,里面并没有我们通常看到了免疫细胞,上皮细胞等等,仅仅是mesenchymal类型的单细胞。Mesenchymal细胞、免疫细胞和上皮细胞是三种不同类型的细胞,它们在结构、功能和位置等方面存在显著差异。
总结来说,这三种细胞类型在起源、结构、功能和位置等方面都存在差异。Mesenchymal细胞具有多向分化潜能,免疫细胞主要用于免疫防御,而上皮细胞构成生物屏障。它们各自在人体中担任不同的生物学角色。
我们自己读取它之后的降维聚类分群,也是如此:
没有文章那么干净的3个分群。。。。
而之所以上面的数据集都是仅仅是mesenchymal类型的单细胞,是因为前面的实验设计方面做了:isolate the different GFP+ mesenchymal cell populations
因为是a Pdgfrb-GFP knockin reporter mouse to label all mesenchymal cells in the mouse liver ,而且 Pdgfrb-GFP mouse labeled PDGFRb+ cells in liver with high efficiency and specificity
这个GFP报告系统:
实际上,这个 fluorescence activated cell sorting (FACS)技术,就可以根据上面的荧光标记物(如GFP)进行细胞分选:
比如2022的文章:《Single-cell RNA sequencing reveals time- and sex-specific responses of mouse spinal cord microglia to peripheral nerve injury and links ApoE to chronic pain》,就是使用FACS 技术,进行 gating for CD45lowCD11BhighCX3CR1high cells.
可以看到,拿到的单细胞转录组数据里面的基本上都是小胶质细胞,非常干净:
小胶质细胞(Microglia)是胶质细胞中体型最小的一种, 也俗称大脑的巨噬细胞。
胞体细长或椭圆,小胶质细胞的形态变化多样,大致有分枝型、阿米巴型、肥大型,杆型,营养不良(衰老)型,卫星型等6种形态。小胶质细胞的形态和功能变化多样,因此找到小胶质细胞不同状态下的标志物是共同需求,目前关于小胶质细胞标志物的分类从来源上说分为刺激信号、细胞相关蛋白以及分泌因子三类,从小胶质细胞活化类型大致分为稳态型、M1型以及M2型(可细分为M2a、M2b、M2c)四种,随着研究的深入,分类的精细程度会逐渐增高。
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
https://mp.weixin.qq.com/s/QASgQAf6E64J3wduaA29gw