两次差异分析结果交集需要有多大才算是一致呢

两次差异分析结果交集需要有多大才算是一致呢 by 生信技能树

之前我们分享过，转录组测序数据的表达量矩阵的 DESeq2, EdgeR and Limma的差异分析然后可视化他们的交集会发现，他们的一致性非常好。所以我们通常是不需要纠结数据处理的流程选择，但是，如果是同样的实验设计的两个不同数据集，结果有时候就很难保证一致性了。

同样的实验设计的两个项目，尽管测序的都是肿瘤和正常组织的转录组，但结果非常不一，样可能有多种原因，其中一些常见的原因包括：

Biological Variability（生物变异）：不同个体之间的生物学差异可能很大，尤其是在肿瘤样本中。这些差异可以导致两个项目的结果不一致。例如，不同患者的肿瘤可能有不同的亚型、突变谱和生物学特征。
样本选择和质量：样本的选择和质量可能对结果产生重大影响。如果两个项目的样本选择不同，或者其中一个项目的样本质量较差，会导致结果的差异。
测序技术和数据处理差异：不同的测序平台、文库制备方法和数据处理流程可能会产生不同的结果。例如，不同的对齐算法、表达水平估计方法和差异分析工具可能会导致不一致的差异基因列表。
批次效应：如果两个项目在不同的时间、地点或批次进行，批次效应可能会引入结果差异。这包括实验条件的变化，例如不同的测序芯片批次或试剂批次。
分析策略和参数选择：分析中使用的策略和参数选择可能会影响结果。例如，阈值的选择、多重检验校正方法和差异表达的定义都可以导致不同的结果。
生物学复杂性：肿瘤组织非常复杂，包含多种不同的细胞类型和亚群。对于转录组数据，如果不同的项目在考虑这些复杂性方面采取不同的方法，结果可能会不同。
偶然性：有时，结果的不一致可能是偶然的，与样本的特定随机性质有关。

为了理解两个项目之间的不一致性，建议进行详细的数据比较和验证，检查样本、实验设计、数据处理和分析步骤之间的差异，并尝试解释不一致性的原因。在进行差异分析时，也应该使用多个不同的分析工具和策略，以确保一致性的结果。最终，验证差异表达的基因，例如通过qPCR或其他实验方法，可以帮助确认结果的可信度。

让我们看看2022的文章：《Distinct Gene Expression Profiles of Matched Primary and Metastatic Triple-Negative Breast Cancers》，就是 We performed gene expression profiling using formalin-fixed paraffin-embedded (FFPE) TNBC tissues of patients from two cohorts: the Zurich cohort (n = 31) and the Stavanger cohort (n = 5).

虽然这两个数据集，都是TNBC的转移与否的转录组差异，但是结果很明显是非常的不一致，韦恩图里面可以看到两次差异分析的交集非常少。

两次差异分析的交集非常少

实际上，我多次强调过，简单的比较两次差异分析结果的上下调基因列表的交集其实太粗糙了，起码应该是各种注释到生物学功能数据库，当然了，这个文章也做了：

104 enriched GO biological processes and 28 enriched KEGG signaling pathways in the
Zurich cohort (Supplementary Tables S1 and S2);
58 GO biological processes and 17 KEGG signaling pathways were enriched in the Stavanger cohort (Supplementary Tables S3 and S4）

但是作者并没有展示两个数据集各自的生物学功能数据库注释的结果的一致性，即使是这样，作者也意识到了可能肿瘤免疫浸润的影响，比如第一个数据集里面如果转移组里面的免疫浸润很严重，那么它得到的差异分析结果里面的就会大量的免疫相关基因，这个时候如果第二个数据集里面没有同样的免疫浸润它的差异基因就会完全不一样。

老实说，两次同样的实验设计的数据集的各自差异分析的结果居然就10%不到的交集，说明这两个数据集肯定是并不是来自于两次同样的实验设计了，有我们不知道的混杂因素。

学徒作业

理论上，任意疾病或者其它实验设计，都是可以找到多个数据集，它们各自可以独立差异分析。然后，使用下面的统计学方法和工具来进行比较：

Jaccard相似性指数：Jaccard相似性指数是一种用于比较两个集合之间相似性的方法。在差异分析中，您可以将第一个差异基因集合和第二个差异基因集合看作两个集合，然后计算它们之间的Jaccard相似性指数。该指数为两个集合的交集大小除以它们的并集大小，值范围从0到1，1表示完全相同。
Pearson相关系数：您可以计算两个差异基因集合之间的Pearson相关系数。这可以帮助您了解两个集合之间的线性相关性。相关系数接近1表示高度一致性，接近0表示无关性。
Spearman秩相关系数：Spearman秩相关系数是一种非参数的相关性度量，不要求数据呈线性分布。通过计算两个基因集合的Spearman秩相关系数，可以评估它们之间的关联性。
Venn图：使用Venn图可以可视化两个基因集合之间的交集和差异。这种方法有助于直观地理解哪些基因在两次分析中都被发现，哪些只在一个分析中出现。
Gene Set Enrichment分析（GSEA）：GSEA是一种用于比较基因集合的方法，它可以帮助您确定哪些生物学通路或功能模块在两次差异分析中的结果中显著重叠。如果两次分析结果在某些生物学通路上具有一致的富集，这可能表明结果一致性较高。
差异基因列表重叠分析：将两个差异基因列表进行比较并查找共同的差异基因。您可以使用统计学方法（例如超几何分布或Fisher精确检验）来确定这些共同基因的富集情况是否显著。
回归分析：将两个差异分析结果视为两个不同的变量，进行回归分析，以确定它们之间的相关性。这可以帮助您识别两次分析结果之间的线性关系。

这样的两次差异分析然后取交集的思路很常见，尤其是同样的实验设计，这样的交集能给人一种感觉，得到的基因是非常可靠的。比如2022的文章：《Low glucose-induced overexpression of HOXC-AS3 promotes metabolic reprogramming of breast cancer》，也是两个数据集各种差异分析后交集不怎么样：

RNA sequencing (RNA-seq) of BC tissues (GSE163346) integrated with a microarray (GSE113851) ；

交集不怎么样

当然了，即使并不是一模一样的实验设计，也是可以取交集，比如两个类似的癌细胞药物处理前后，数据集：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE130437

可以看到是两个乳腺癌细胞系，Two cell lines (MDA-MB231 and MCF7) ，然后都是Palbociclib, a novel CDK4/6 inhibitor 的处理。如下所示的：

GSM3738651 MCF7 palbociclib resistant, Replicate 1
GSM3738652 MCF7 palbociclib resistant, Replicate 2
GSM3738653 MCF7 palbociclib resistant, Replicate 3
GSM3738654 MCF7 parental cell line (control), Replicate 1
GSM3738655 MCF7 parental cell line (control), Replicate 2
GSM3738656 MCF7 parental cell line (control), Replicate 3
GSM3738657 MDAMB231 palbociclib resistant, Replicate 1
GSM3738658 MDAMB231 palbociclib resistant, Replicate 2
GSM3738659 MDAMB231 palbociclib resistant, Replicate 3
GSM3738660 MDAMB231 parental cell line (control), Replicate 1
GSM3738661 MDAMB231 parental cell line (control), Replicate 2
GSM3738662 MDAMB231 parental cell line (control), Replicate 3

这两个细胞系都是有Palbociclib处理前后，可以差异分析，就可以取交集啦，而且这个团队好厉害，就靠这一个这么简单的转录组数据集连续三年发三篇文章：

Targeting Palbociclib-Resistant Estrogen Receptor-Positive Breast Cancer Cells via Oncolytic Virotherapy. Cancers (Basel) 2019 May 16;11(5). PMID: 31100952
Transcriptomic Profiling Identifies Differentially Expressed Genes in Palbociclib-Resistant ER+ MCF7 Breast Cancer Cells. Genes (Basel) 2020 Apr 24;11(4). PMID: 32344635
Differential gene expression analysis of palbociclib-resistant TNBC via RNA-seq. Breast Cancer Res Treat 2021 Apr;186(3):677-686. PMID: 33599863

虽然说这个数据集的作者给出来的是 GSE130437_genes.fpkm_table.txt.gz ，这样的格式并不适合直接做差异分析，但是我们前些天介绍了一个很方便的网页可以获取任意转录组测序公共数据集的真正的表达量矩阵文件哦，详见：GEO2R更新后可以分析bulk RNAseq

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI，多一点数据认知，让他们的科研上一个台阶：

ixxmu / mp_duty