Closed ixxmu closed 1 year ago
之前我们分享过,转录组测序数据的表达量矩阵的 DESeq2, EdgeR and Limma的差异分析然后可视化他们的交集会发现,他们的一致性非常好。所以我们通常是不需要纠结数据处理的流程选择,但是,如果是同样的实验设计的两个不同数据集,结果有时候就很难保证一致性了。
同样的实验设计的两个项目,尽管测序的都是肿瘤和正常组织的转录组,但结果非常不一,样可能有多种原因,其中一些常见的原因包括:
为了理解两个项目之间的不一致性,建议进行详细的数据比较和验证,检查样本、实验设计、数据处理和分析步骤之间的差异,并尝试解释不一致性的原因。在进行差异分析时,也应该使用多个不同的分析工具和策略,以确保一致性的结果。最终,验证差异表达的基因,例如通过qPCR或其他实验方法,可以帮助确认结果的可信度。
让我们看看2022的文章:《Distinct Gene Expression Profiles of Matched Primary and Metastatic Triple-Negative Breast Cancers》,就是 We performed gene expression profiling using formalin-fixed paraffin-embedded (FFPE) TNBC tissues of patients from two cohorts: the Zurich cohort (n = 31) and the Stavanger cohort (n = 5).
虽然这两个数据集,都是TNBC的转移与否的转录组差异,但是结果很明显是非常的不一致,韦恩图里面可以看到两次差异分析的交集非常少。
实际上, 我多次强调过,简单的比较两次差异分析结果的上下调基因列表的交集其实太粗糙了,起码应该是各种注释到生物学功能数据库,当然了,这个文章也做了:
104 enriched GO biological processes and 28 enriched KEGG signaling pathways in the
Zurich cohort (Supplementary Tables S1 and S2);
58 GO biological processes and 17 KEGG signaling pathways were enriched in the Stavanger cohort (Supplementary Tables S3 and S4)
但是作者并没有展示两个数据集各自的生物学功能数据库注释的结果的一致性,即使是这样,作者也意识到了可能肿瘤免疫浸润的影响,比如第一个数据集里面如果转移组里面的免疫浸润很严重,那么它得到的差异分析结果里面的就会大量的免疫相关基因,这个时候如果第二个数据集里面没有同样的免疫浸润它的差异基因就会完全不一样。
老实说,两次同样的实验设计的数据集的各自差异分析的结果居然就10%不到的交集,说明这两个数据集肯定是并不是来自于两次同样的实验设计了,有我们不知道的混杂因素。
理论上,任意疾病或者其它实验设计,都是可以找到多个数据集,它们各自可以独立差异分析。然后,使用下面的统计学方法和工具来进行比较:
这样的两次差异分析然后取交集的思路很常见,尤其是同样的实验设计,这样的交集能给人一种感觉,得到的基因是非常可靠的。比如2022的文章:《Low glucose-induced overexpression of HOXC-AS3 promotes metabolic reprogramming of breast cancer》, 也是两个数据集各种差异分析后交集不怎么样:
当然了,即使并不是一模一样的实验设计,也是可以取交集,比如两个类似的癌细胞药物处理前后,数据集:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE130437
可以看到是两个乳腺癌细胞系,Two cell lines (MDA-MB231 and MCF7) ,然后都是Palbociclib, a novel CDK4/6 inhibitor 的处理。如下所示的:
GSM3738651 MCF7 palbociclib resistant, Replicate 1
GSM3738652 MCF7 palbociclib resistant, Replicate 2
GSM3738653 MCF7 palbociclib resistant, Replicate 3
GSM3738654 MCF7 parental cell line (control), Replicate 1
GSM3738655 MCF7 parental cell line (control), Replicate 2
GSM3738656 MCF7 parental cell line (control), Replicate 3
GSM3738657 MDAMB231 palbociclib resistant, Replicate 1
GSM3738658 MDAMB231 palbociclib resistant, Replicate 2
GSM3738659 MDAMB231 palbociclib resistant, Replicate 3
GSM3738660 MDAMB231 parental cell line (control), Replicate 1
GSM3738661 MDAMB231 parental cell line (control), Replicate 2
GSM3738662 MDAMB231 parental cell line (control), Replicate 3
这两个细胞系都是有Palbociclib处理前后,可以差异分析,就可以取交集啦,而且这个团队好厉害,就靠这一个这么简单的转录组数据集连续三年发三篇文章:
虽然说这个数据集的作者给出来的是 GSE130437_genes.fpkm_table.txt.gz ,这样的格式并不适合直接做差异分析,但是我们前些天介绍了一个很方便的网页可以获取任意转录组测序公共数据集的真正的表达量矩阵文件哦,详见:GEO2R更新后可以分析bulk RNAseq
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
https://mp.weixin.qq.com/s/ejNXRnr3GretIVcKlK2nDQ