ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
112 stars 30 forks source link

大数据背后的规律需要细致的挖掘出来 #3394

Closed ixxmu closed 1 year ago

ixxmu commented 1 year ago

https://mp.weixin.qq.com/s/nnRb_MAj1ghmQ-VnSjgiDg

ixxmu commented 1 year ago

大数据背后的规律需要细致的挖掘出来 by 生信技能树

如果两个基因的表达量总是正相关,比如TOP2A和MKI67,都是细胞增殖的代表性基因,在单细胞转录组数据分析里面也是经常使用他们俩来看看细胞亚群是否处于增值状态,比如新鲜出炉的2023-GSE211713-放射性肺损伤时间序列小鼠模型单细胞数据集,文献:《An interactive murine single-cell atlas of the lung responses to radiation injury》就有TOP2A和MKI67的突显各个单细胞亚群的增值状态:

TOP2A和MKI67

TOP2A和MKI67两个基因的一荣俱荣一损俱损,这样的知识是生物学背景。也很容易通过搜索网络已有的知识从而学习到,当然了,也可以通过目前流行的人工智能,chatGPT来学习:


TOP2A和MKI67是两个与细胞增殖和肿瘤发生密切相关的基因。TOP2A编码DNA拓扑异构酶IIα(topoisomerase II alpha),是一种负责调节DNA超螺旋紧绷的酶。MKI67编码一种核糖体蛋白,即Ki-67,是一种广泛用于衡量肿瘤细胞增殖的标志物。

研究表明,TOP2A和MKI67在肿瘤组织中都表达较高,且它们的表达水平通常是相关的。一些研究显示,TOP2A和MKI67的共同表达与癌症的恶性程度和预后有关。例如,在乳腺癌、肺癌和结直肠癌等多种癌症中,TOP2A和MKI67的高表达水平通常与较差的预后和更高的癌症分级相关联。此外,TOP2A和MKI67也被广泛用于肿瘤组织学分级和预后评估等临床应用中。

总之,TOP2A和MKI67是两个紧密相关的基因,它们的高表达通常与肿瘤细胞增殖、癌症的恶性程度和预后有关,因此被广泛应用于肿瘤诊断和治疗方面。


因为细胞增殖相关基因有好几百个,并不是每个基因都如此出名,其它基因,比如 BUB1B,可以根据大数据层面表达量相关性来说明一下,比如. (c, d) The correlation between BUB1B expression and Ki67 (c) or PCNA (d) expression in the TCGA LUAD cohort.

其中 PCNA 也是类似于 TOP2A和MKI67 出名的细胞增殖的代表性基因。下图来源于2022的文献:《BUB1B (BUB1 Mitotic Checkpoint Serine/Threonine Kinase B) promotes lung adenocarcinoma by interacting with Zinc Finger Protein ZNF143 and regulating glycolysis》

大数据层面表达量相关性来说明一下

其实还可以更进一步,两万多个蛋白编码基因肯定是不仅仅是这些几百个细胞增殖相关基因跟BUB1B表达量正相关很高,也可以看其它非编码。当然了,如果有生物学背景,会比较关注转录因子,比如2021的文献:《Increased BUB1B/BUBR1 expression contributes to aberrant DNA repair activity leading to resistance to DNA-damaging agents》就做了一个泛癌层面的大数据筛选:

大数据筛选

这个超级简单,就是下载TCGA数据库的样品数量比较多的癌症的转录组测序表达量矩阵,然后挑选里面的肿瘤样品后,进行针对BUB1B基因和所有的其它基因的表达量相关性计算后,一个简单的相关性系数大于0.6的筛选即可,然后转录因子基因列表也是已知的,简单的过滤即可。

如果想不到做这样的大数据筛选呢,其实也可以直接借助数据库,比如前面提到的2022的文献:《BUB1B (BUB1 Mitotic Checkpoint Serine/Threonine Kinase B) promotes lung adenocarcinoma by interacting with Zinc Finger Protein ZNF143 and regulating glycolysis》就是直接在TRRUST 数据库里面搜索 后发现ZNF143 is a putative binding partner of BUB1B.  如果你看BUB1B和它可能的转录因子ZNF143在肺癌的表达量相关性会发现其实并不高,假如我们使用前面的提到的相关性系数大于0.6的筛选就会漏掉它。

表达量相关性其实并不高

其实无论是哪个策略,都是没办法百分比确定唯一的科研路线,生物信息学能做的就是尽可能的找到一个科研线索,凭借生物学背景来组合成为一个科研故事。

学徒作业

完成上面的泛癌层面的大数据筛选,这个肯定是能得到文章同样的结果,因为还有具体的表达量相关性散点图,都是公开数据,又不是湿实验所以基本上不太可能造假,简单的验证即可。

具体的表达量相关性散点图

记住,相关非因果

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

再怎么强调生物信息学数据处理的计算机基础都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理


ixxmu commented 1 year ago

TRRUST 数据库以及 文章中的玩法可以关注下,杂志貌似一般般