Closed ixxmu closed 2 months ago
很多小伙伴学习单细胞转录组数据靠的是10x公司提供的pbmc3k数据集,非常经典而且有配套的Seurat单细胞数据处理流程,全部的代码如下所示:
library(Seurat)
library(ggplot2)
# https://cf.10xgenomics.com/samples/cell/pbmc3k/pbmc3k_filtered_gene_bc_matrices.tar.gz
## Load the PBMC dataset
# 读取数据多种形式,3个文件形式,txt,csv形式,h5,
# 标准3文件,路径即可:
pbmc.data <- Read10X(data.dir = "./filtered_gene_bc_matrices/hg19/")
# 32738 x 2700 sparse Matrix of class "dgCMatrix"
# 其它流程,scater,
## Initialize the Seurat object with the raw (non-normalized data).
pbmc <- CreateSeuratObject(counts = pbmc.data,
project = "pbmc3k",
min.cells = 3, min.features = 200)
我这里就不摘抄代码给大家了,官方文档很详细,https://satijalab.org/seurat/articles/pbmc3k_tutorial.html ,内容很简单而且步骤很清晰:
比如,我们可以使用如下所示的代码:
sce=pbmc
sce$celltype=Idents(sce)
p1=FeaturePlot(sce,'CD4')
p2=DimPlot(sce, reduction = "umap",
label = TRUE, repel = T,pt.size = 0.5) + NoLegend()
p3=VlnPlot(sce,'CD4',group.by = 'celltype')
library(patchwork)
p1+p2
p1+p3
检查CD4基因表达量的时候,就会发现:
可以看到各个细胞亚群,都是有CD4基因表达的,我们虽然命名了 Naive CD4 T和Memory CD4 T",但是它们并没有特异性的高表达CD4基因哦!
虽然说CD8 T和CD4 T细胞亚群 是一种分类方法,但是各自内部又是可以按照功能进行划分,naive, memory ,effector,cytotoxic,Exhaustion。比如2022的nature文章:《Androgen receptor activity in T cells limits checkpoint blockade efficacy》,该研究的单细胞数据集里面总共是1.6万个单细胞,然后是提取里面的T细胞后仍然还有1.2万。而且可以看到,对单独的T细胞进行常规的降维聚类分群后,这个时候的分群数量完全是取决于代码的参数而已,尤其是取决于分辨率。所以是亚群的数量既然是可以调节的,就无所谓金标准了。
也就是说,naive, memory ,effector,cytotoxic,Exhaustion这样的状态之间的差异会大于CD8 T和CD4 T细胞亚群的差异,这样的话,如果大家的知识停留在CD8 T和CD4 T细胞亚群是截然不同的,就会出现认知的冲突啦!
其实是因为单纯的转录组水平的差异不足以区分CD8 T和CD4 T细胞亚群,不妨加入蛋白质表达量水平信息。比如CITE-seq(转录组和表位的细胞索引)是一种基于 RNA 测序的方法,可在单细胞读数中同时量化细胞表面蛋白和转录组数据。其研究细胞的能力为人们了解新细胞类型、疾病状态或其他情况提供了极大的助力。
比如我们首先看看2020的文章:《Single-cell analysis of human non-small cell lung cancer lesions refines tumor classification and patient stratification》,里面的技术非常丰富,包括了 CITE-seq, scRNA-seq, and T cell receptor sequencing (TCR-seq)
如下所示的热图,上半部分是mRNA表达量,下半部分是蛋白质信息:
从上面的热图可以看到,其实t细胞里面的CD8 T和CD4 T细胞亚群确实是在mRNA水平很难靠CD4区分,但是在蛋白质水平CD8 T和CD4 T还是具有比较没想到排他性!
也就是说,之前大家解决不了的单细胞转录组里面的 t细胞里面的cd4和cd8总是混合在一起的情况,可以通过添加蛋白质表达量来辅助区分,最出名的就是 CITE-seq single-cell expression ,最新的文章《Deconstruction of rheumatoid arthritis synovium defines inflammatory subtypes》:Nature 2023. doi: 10.1038/s41586-023-06708-y
但是,虽然 CITE-seq 解决了在无偏差地使用单细胞测序的同时检测有限数量蛋白质的问题,但其局限性之一是高水平的背景噪声会阻碍分析。所以来自波士顿大学医学院、艺术与科学学院的研究人员共同在Nucleic Acids Research发表了一篇研究论文《Characterization and decontamination of background noise in droplet-based single-cell protein expression data with DecontPro》,开发了一种新型工具,可以识别和去除来自各种来源的不必要的背景噪声。我还没有测试,但是文章示例数据看起来效果挺好的。不知道能不能让能让大量的cite-seq数据起死回生不。。。。
比如按照功能进行划分,naive, memory ,effector,cytotoxic,Exhaustion:
如果你使用上面的基因列表,你会发现主要的naive状态的是CD4的T细胞,其它主要是CD8的T细胞。
然后是:
更多的时候其实是打分,并不能完全是看某个基因或者某些基因在某个单细胞亚群里面的排他性的特异性高表达,比如 resident, cytotoxic, exhausted, and costimulatory score for CD8 T cells.
它们根本就没办法在现代单细胞转录组层面的数据分析里面合理,教科书会告诉你仅仅是记忆T细胞又可以细分:
如果你询问chatGPT单细胞水平CD4的T细胞可以细分哪些:
在单细胞水平上,CD4+ T细胞可以被进一步细分为多种亚型,这些亚型主要根据它们的功能特性、细胞因子产生情况和表面标志物进行分类。以下是一些主要的CD4+ T细胞亚型:
以上这些亚型的分类并不是绝对的,因为T细胞的分化是一个动态的过程,同一T细胞在不同的环境条件下可能会表现出不同的功能特性。此外,还有一些其他的CD4+ T细胞亚型,如Th25、Tr1、Th3等,但它们的功能特性和生物学意义还需要进一步研究。
如果你询问chatGPT单细胞水平CD8的T细胞可以细分哪些:
在单细胞水平上,CD8+ T细胞也可以被进一步细分为多种亚型,这些亚型主要根据它们的功能特性、细胞因子产生情况和表面标志物进行分类。以下是一些主要的CD8+ T细胞亚型:
以上这些亚型的分类并不是绝对的,因为T细胞的分化是一个动态的过程,同一T细胞在不同的环境条件下可能会表现出不同的功能特性。
这些知识点知道一点也是挺好的,但是在单细胞转录组数据里面很难完全匹配。
拟时序分析我讲的不多,主要是因为它在R里面实现起来其实也并不难。
反而是很多人并没有搞清楚什么时候应该是做拟时序分析,以及如何解释它!也就是说,拟时序分析其实需要比较全面的生物学背景,之前我就抨击过一个现象,就是:整个单细胞数据集进行拟时序分析合理吗?
既然不能对一个单细胞数据集全部的各个亚群一起做拟时序,就必然面临一个抉择,到底什么程度的亚群细分可以做呢?比如我们经常提到的第一层次分群也是肿瘤上皮细胞,基质细胞(内皮,成纤维等),免疫细胞(淋巴系的T, NK 和B,髓系的巨噬和单核)。那么,CD4和CD8两个不同T细胞亚群需要各自内部独立做拟时序分析吗?最近在微信交流群看到小伙伴推荐了文章:《Single cell sequencing reveals trajectory of tumor-infiltrating lymphocyte states in pancreatic cancer》,就可以完美的回答这一点。大家可以读一下。。。
因为T细胞的各个功能亚群(naive, memory ,effector,cytotoxic,Exhaustion)在D4和CD8都有,而naive的状态一般来说都是发育的起点。
其实也可以计算resident, cytotoxic, exhausted, and costimulatory 的一些打分,也可以跟拟时序分析的结果结合去解释 :
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
https://mp.weixin.qq.com/s/JU1g7VOHekzv7XmncCZ62g