ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
122 stars 30 forks source link

bulk层面的癌症和癌旁的表达量差异主要是因为? #5619

Closed ixxmu closed 1 month ago

ixxmu commented 1 month ago

https://mp.weixin.qq.com/s/vsueelTQPtdqLOKKKvsbSw

ixxmu commented 1 month ago

bulk层面的癌症和癌旁的表达量差异主要是因为? by 生信技能树

前面我们探索了:癌症和癌旁的差异基因能在单细胞层面区分上皮细胞的恶性与否吗,是直接使用了作者给出来了的基因列表。具体方法学是:去tcga数据库里面定位到胃癌的转录组测序数据集,然后根据分组做癌症和癌旁的差异分析后,拿到上下调各自的top50基因列表。

实际上,如果是为了拿到bulk层面的癌症和癌旁的表达量,有非常多的选择,不仅仅是去tcga数据库里面定位到胃癌的转录组测序数据集,可以是geo数据库的转录组测序,也可以是geo数据库的表达量芯片数据集,都是bulk层面的。在癌症和癌旁的差异基因能在单细胞层面区分上皮细胞的恶性与否吗 我们就举例了一个RRA算法,它汇总了9个不同的表达量芯片数据集,都是胃癌和癌旁的差异分析。

任意的单个表达量芯片的癌症和癌旁差异分析都是不够的

我们这里拿GSE54129作为案例,是很清晰的两分组(癌症和癌旁):

  • Tumor samples from 111 patients with gastric cancer underwent subtotal gastrectomy.
  • Biopsy Normal gastric mucosa got from 21 volunteer who underwent gastroscopy for health examination.

常规差异分析的质量控制和上下调基因火山图和热图如下所示:

统计学显著的基因,上下调各自都有一千多,可以去富集分析到go和kegg数据库,其中上调基因主要是 "Focal adhesion" 和 "ECM-receptor interaction" :

 cut -d"," -f 5-8 KEGG_up.csv|head
"Description","GeneRatio","BgRatio","pvalue"
"Cytoskeleton in muscle cells","59/580","232/8844",2.0201262697303e-20
"Focal adhesion","50/580","203/8844",8.10067899795885e-17
"Complement and coagulation cascades","27/580","88/8844",4.73686044082476e-12
"AGE-RAGE signaling pathway in diabetic complications","28/580","101/8844",2.89660862481335e-11
"Amoebiasis","28/580","103/8844",4.83942103773697e-11
"Malaria","19/580","50/8844",1.10389658171616e-10
"Proteoglycans in cancer","40/580","204/8844",2.43683140328288e-10
"ECM-receptor interaction","25/580","89/8844",2.48239238345182e-10
"Rheumatoid arthritis","25/580","94/8844",8.87473649832924e-10

我们可以问一下人工智能大模型:做癌症和癌旁组织的表达量芯片的差异分析,上下调基因可能的来源是什么?

在进行癌症与癌旁组织表达量芯片的差异分析时,上下调基因可能来源于多种生物学机制:

  1. 基因突变:癌症基因组中的突变可以导致某些基因的表达水平发生改变。这些突变可能包括点突变、基因扩增或缺失等 。

  2. 表观遗传调控:DNA甲基化和组蛋白修饰等表观遗传学改变可以影响基因的表达。例如,CpG岛的高甲基化可能导致肿瘤抑制基因的沉默,而低甲基化可能与癌基因的激活有关 。

  3. 异常的信号传导途径:在癌症中,细胞信号传导途径常常发生异常,导致某些基因的表达水平上调或下调。例如,PI3K/AKT信号通路的激活可能促进肿瘤细胞的增殖和存活 。

  4. 肿瘤微环境的影响:肿瘤微环境中的细胞和细胞外基质可以分泌多种因子,这些因子通过旁分泌或自分泌的方式影响癌细胞的基因表达 。

  5. 代谢重编程:癌细胞常常经历代谢重编程,以满足其快速增殖的能量和生物合成需求。这种代谢变化可能影响特定基因的表达 。

  6. 基因融合:某些染色体易位事件导致基因融合,形成新的融合蛋白,这些融合蛋白可能具有异常的活性,从而影响基因表达 。

  7. 非编码RNA的调控:长链非编码RNA、miRNA等非编码RNA分子通过多种机制调控基因表达,包括与靶mRNA的结合导致降解或阻止翻译等 。

通过差异分析,研究者可以识别在癌症组织中特异性表达的基因,这些基因可能在肿瘤的发生、发展、转移和预后中发挥重要作用。进一步的研究可以探索这些差异表达基因的功能,为癌症的诊断和治疗提供潜在的靶点。

因为我们的差异分析结果里面上调基因主要是 "Focal adhesion" 和 "ECM-receptor interaction" 这两个生物学功能,所以我们可以合理的猜测,是这两个通路对应的单细胞亚群比例在癌症样品的上升。如果胃癌相对于正常的胃组织来说大量浸润了内皮细胞和成纤维细胞,那么这两个单细胞亚群的特异性基因当然是会体现出来bulk层面的癌症和癌旁的表达量。

当然了,也有可能是这两个通路的恶性失调,同样的,我们可以问一下人工智能大模型:我们的上下调基因如何区分它的来源呢,是细胞比例改变导致的,还是恶性通路的激活呢?

在肿瘤微环境中,上下调基因的来源可能由多种因素导致,包括细胞比例的改变和恶性通路的激活。为了区分这些基因的来源,可以采用以下方法:

  1. 单细胞转录组测序:通过单细胞技术,比如单细胞RNA测序(scRNA-seq),可以揭示肿瘤微环境中不同细胞类型的特定基因表达模式,包括肿瘤细胞、成纤维细胞、免疫细胞和血管内皮细胞等 。

  2. 基因集分析:基于肿瘤微环境相关的基因集构建预后预测模型,可以识别与疾病结局和治疗反应相关的基因。例如,使用CIBERSORT和ESTIMATE计算免疫评分和基质评分,鉴定与免疫反应相关的基因 。

  3. 多平台分析:结合scRNA-seq和T细胞受体(TCR)序列测序,可以构建高分辨率的免疫细胞转录组图谱,进一步分析肿瘤微环境中免疫细胞表型的影响因素 。

  4. 基因组拷贝数变异分析:通过单细胞基因组测序,可以识别肿瘤微环境中细胞的基因组拷贝数变异(SCNAs),这些变异可能影响基因表达,并与肿瘤的进展和转移情况有关 。

综合上述方法,研究者可以更准确地识别和区分肿瘤微环境中上下调基因的具体来源,为肿瘤治疗提供更深入的理解和更精确的靶点。

拿上面的上下调差异基因列表去单细胞层面打分

我们这里使用这个胃癌单细胞数据集GSE163558,我做了解读,详见 :单细胞转录组降维聚类分群过滤基因和过滤细胞的区别 。而且前面已经是完成了降维聚类分群,在学习单细胞亚群命名的层次结构 演示了一个降维聚类分群结果,就有了  2-harmony/sce.all_int.rds 文件,以及对应的 phe.Rdata 注释信息。

而且我在前面的 走inferCNV流程的时候只需要针对上皮细胞即可上皮细胞里面混入了淋巴系和髓系免疫细胞呢 做好了上皮细胞的细分,也给出来了针对不同单细胞亚群的特异性基因进行go和kegg数据库注释的方法,如下所示可以看到我们的第一层次降维聚类分群是合理的。成纤维单细胞亚群的top100的特异性基因确实是会富集到 "Focal adhesion" 和 "ECM-receptor interaction" 。而我们前面的芯片表达量差异分析的癌症里面的上调基因也是富集到 "Focal adhesion" 和 "ECM-receptor interaction" 通路。

如下所示:

rm(list=ls())
options(stringsAsFactors = F
getwd()
source('../scRNA_scripts/lib.R')
sce.all.int = readRDS('../2-harmony/sce.all_int.rds'
load('../phe.Rdata')
sce.all.int@meta.data  = phe  
scRNA = subset(sce.all.int,downsample=50
load('../GSE54129-anno_DEG.Rdata')
 down=DEG$name[head(order(DEG$logFC),50)];
 up=DEG$name[tail(order(DEG$logFC),50)]

 gene_vector=list(up=up,down=down) 
sc_dataset <- Seurat::AddModuleScore(scRNA, 
                                   features = gene_vector)  
p1=VlnPlot(sc_dataset, features = 'Cluster1'
        group.by = "celltype",pt.size = 0 ) + NoLegend() 
p2=VlnPlot(sc_dataset, features = 'Cluster2'
        group.by = "celltype",pt.size = 0 ) + NoLegend()
p1/p2
ggsave('AddModuleScore-VlnPlot-top50-GSE54129-anno_DEG.pdf',
       width = 7,height = 10

可以很明显的看到这个GSE54129数据集的表达量差异分析后的上调基因列表主要是在内皮细胞和成纤维细胞里面的高表达量,而下调基因反而是在上皮细胞打分比较高:

上下调差异基因列表去单细胞各个亚群特异性基因交集

这个时候仍然是载入我们的每个单细胞亚群的top100基因,然后载入芯片表达量的差异分析上下调基因列表,然后做交集:

load('../check-by-celltype/qc-_marker_cosg.Rdata'
head(marker_cosg)
 symbols_list <-  as.list(as.data.frame(apply(marker_cosg$names,2,head,100)))
 symbols_list
 source('../com_go_kegg_ReactomePA_human.R')
#source('../com_go_kegg_ReactomePA_mice.R')
com_go_kegg_ReactomePA_human(symbols_list, pro='b' )
setwd('../')


up=read.table('../../GSE54129/gastric-vs-normal/gene_up.txt')[,1]
down=read.table('../../GSE54129/gastric-vs-normal/gene_down.txt')[,1]

do.call(rbind,
        lapply(names(symbols_list), function(i){
          x=symbols_list[[i]]
          return(c(i,
            length(x),length(up),length(down),
            length(intersect(x,up)),length(intersect(x,down))
          ))
        }))

可以看到的是,确实是表达量差异里面,上调的基因主要是跟内皮细胞和成纤维有交集,然后下调基因主要是在上皮细胞的特异性基因里面

     [,1]          [,2]  [,3]   [,4]   [,5] [,6]
 [1,] "neutrophils" "100" "1083" "1048" "35" "7" 
 [2,] "Tcells"      "100" "1083" "1048" "9"  "2" 
 [3,] "epi"         "100" "1083" "1048" "4"  "48"
 [4,] "Bcells"      "100" "1083" "1048" "20" "5" 
 [5,] "mac"         "100" "1083" "1048" "52" "2" 
 [6,] "mast"        "100" "1083" "1048" "6"  "5" 
 [7,] "endo"        "100" "1083" "1048" "33" "2" 
 [8,] "cycle"       "100" "1083" "1048" "1"  "2" 
 [9,] "plasma"      "100" "1083" "1048" "2"  "4" 
[10,] "fibro"       "100" "1083" "1048" "80" "0" 

是不是蛮有意思的, 这里面的生物学故事很多,但是绝大部分人没办法去理解。

肿瘤的hallmark有哪些,精简一下列表即可

肿瘤的标志性特征(Hallmarks of Cancer)是一系列生物学过程,这些过程共同促进了肿瘤的发生和发展。根据Douglas Hanahan和Robert A. Weinberg的经典综述,这些特征不断更新以反映癌症研究的最新进展。以下是癌症的标志性特征的精简列表:

  1. 自给自足的生长信号:肿瘤细胞能够独立于正常调控机制,自主产生生长信号。
  2. 对生长抑制信号不敏感:肿瘤细胞对正常抑制生长的信号不反应。
  3. 逃避凋亡:肿瘤细胞能够规避程序性细胞死亡。
  4. 无限的复制潜力:肿瘤细胞获得持续分裂的能力。
  5. 持续的血管生成:肿瘤能够促进新血管的形成,以支持其生长。
  6. 组织侵袭和转移:肿瘤细胞具有侵袭周围组织和远处转移的能力。
  7. 细胞能量代谢的失控:肿瘤细胞改变其代谢途径以支持快速增长。
  8. 逃避免疫清除:肿瘤细胞能够逃避免疫系统的监视和清除。
  9. 肿瘤促炎症作用:肿瘤细胞能够产生和响应炎症信号,促进肿瘤生长。
  10. 基因组的不稳定性和突变:肿瘤细胞具有较高的基因组不稳定性,导致频繁的突变。
  11. 非突变表观遗传重编程:肿瘤细胞通过表观遗传改变来调节基因表达。
  12. 多态性的微生物组:肿瘤细胞与体内的微生物组相互作用,影响肿瘤发展。
  13. 解锁表型可塑性:肿瘤细胞表现出高度的可塑性,能够适应不同的环境条件。
  14. 衰老细胞:肿瘤微环境中的衰老细胞可能影响肿瘤的发展和治疗响应。

这些特征不仅涵盖了肿瘤细胞的生物学特性,还包括了肿瘤与宿主环境的相互作用,为癌症的诊断、治疗和研究提供了重要信息。

写在文末


如果你也想做单细胞转录组数据分析,最好是有自己的计算机资源哦,比如我们的2024的共享服务器交个朋友福利价仍然是800,而且还需要有基本的生物信息学基础,也可以看看我们的生物信息学马拉松授课(买一得五) ,你的生物信息学入门课。