Closed ixxmu closed 1 year ago
有小伙伴在交流群问:自己的目标基因在做完表达量差异分析后发现它并不在上下调列表里面,感觉有点惶恐,如果是真实现象,那么:
实际上,绝大部分情况下,仅仅是因为我们对数据的了解不够。这样的疑惑很容易发生在没有太多数据处理经验的初学者身上,他们过渡依赖于标准流程和“师兄师姐”传递下来的代码,或者说太依赖各种参数和阈值,不敢大胆的反抗软件分析的结果。。。。
比如2019年Science Advances上发表的一项新研究,标题是:《ITGA5 inhibition in pancreatic stellate cells attenuates desmoplasia and potentiates efficacy of chemotherapy in pancreatic cancer》初步得到了整合素α5 (ITGA5)在胰腺癌发挥癌基因的作用,也就是说它在癌症里面相对于癌旁来说是恶性高表达的,而且表达量越高病人预后就越差。。。
可以看到,这个研究的作者为了说明整合素α5 (ITGA5)在胰腺癌发挥癌基因的作用,使用了生存分析图加上表达量箱线图,而且都达到了统计学显著性。
这样无可厚非,毕竟是为了发文章, 肯定是得凑阳性结果啦。
但是如果你只细看表达量,其实是专注于研究肿瘤微环境的Jai Prakash教授,带领研究团队检查了约140位胰腺癌患者的组织样本,分析预后差异和肿瘤整合素α5 (ITGA5)的蛋白表达量阳性与否分组后的生存分析。你必须首先相信他们团队收集整理的病人信息是ok的,其次你得相信他们的组织芯片是ok的,然后大多数情况下,这两个环节的可能的错误经常会发生。
其次,那个表达量箱线图是 (D) Transcriptomic analysis of ITGA5 in publicly available microarray dataset (GSE28735). 如果你去处理 GSE28735 这个表达量芯片数据集,参考我们的代码:
很容易看到, GSE28735 这个表达量芯片数据集质量很好,是 We compared gene expression profile of 45 pairs of pancreatic tumor and adjacent non-tumor tissues using Affymetrix GeneChip Human Gene 1.0 ST arrays.
标准的差异分析后会发现你可能会迫不得已选择一个阈值来判断统计学显著的表达量差异变化的基因列表:
打开我们的差异分析结果去检索整合素,就会发现整合素α5 (ITGA5)恰好是一个临界点:
如果你执着于阈值,那么就会信仰崩塌,类似的初学者困惑还有很多,其实通过多练习,见多了世面就不会烦恼了,我们也是一直在整理这方面值得实践的案例 :
如果仅仅是找到类似的有癌旁和癌症的表达量信息数据集,很容易,比如2019的文章:《Identification of differentially expressed genes in pancreatic ductal adenocarcinoma and normal pancreatic tissues based on microarray datasets》:
以及2022文章:《Role of Up‐Regulated Transmembrane Channel‐Like Protein 5 in Pancreatic Adenocarcinoma》
需要大家处理全部的数据集,然后汇总整合素α5 (ITGA5)的表达量差异分析情况,并且合理的可视化。
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
pdac的大量数据集id
https://mp.weixin.qq.com/s/pTsBnMEtOb7WJqDA3l683A