Closed ixxmu closed 3 years ago
大家在做差异分析结果比较的时候,喜欢看两次分析结果的基因交集,比如韦恩图。这样的简单粗暴的思考逻辑很容易理解,但是就会出现一下啼笑皆非的提问.
比如有学生问,文献差异分析结果是1000个上调基因500个下调基因,但是自己做出来仅仅是50个和25个,其实仅仅是因为使用的筛选阈值不一样。如果画一个差异变化倍数(logFC)散点图,就可以很直观的给出两次分析结果差异了。
差异分析相信大家都不陌生了,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;
而犯同样错误的文章 Open Biol. 2021 Jun; 就是发表在**《Royal Society Open Biology(英国皇家学会开放生物学)》** 的文章,标题是:《Brain and testis: more alike than previously thought?》 ,链接是https://pubmed.ncbi.nlm.nih.gov/34062096/ ,起初看到这个标题让我大吃一惊。感觉像是来搞笑的:
我看了看支持作者下这个结论的主要图表居然是一个韦恩图:
作者首先根据2003和2005的研究:
以及很多其它研究,都发现了 brain and testis 的相似性,甚至是跨物种的,然后作者自己仍然是使用 Human Protein Atlas (HPA)这样的公共数据,去看brain and testis i与其它31个人体组织的相关性:
上面的韦恩图就非常的高校,原文描述是:From the total of 14 315 and 15 687 proteins that constitute the human brain and testis proteome, respectively, 13 442 are common to both tissues。
我打一个比喻给大家,有一个高三冲刺班在开班的时候里面有50个学生,但是在临近高考时候有5个学生退出,同时有6个学生补充进来了。这个时候,我们比较了开班的时候的学生成绩和高考成绩,下结论居然是根据人数的韦恩图,判断开班时候和高考时候大家的成绩非常类似,居然是因为因为两次人数有45个人的交集。这个研究者是猴子派来的吗?你不去看学生们成绩的变化,仅仅是根据人数的稳定性来说明开班时候和高考时候大家的成绩非常类似????
真的是滑天下之大稽!
居然是还可以更进一步比较,这个时候作者选取了2019年的 First insights on the presence of the unfolded protein response in human spermatozoa. Int. J. Mol. Sci. 数据和 ,来继续比较 neuron and sperm proteome ,这个时候的韦恩图如下所示:
也就是说 作者根据了一个存疑的现象,提出来的假设也根本就禁不住推敲了:
有一个数据集是GSE15824,如果你走我们的表达量芯片流程,会发现有两个Normal样品并不区别于GBM样品,所以如果是差异分析的时候,可以选择去除那两个离群值,这样的话你就可以比较一下,去除前后两次差异分析对结果的改变!
记住:不要看数量,差异基因数量的改变其实就是阈值的修改而已,这样的游戏没意义,一定要看差异的质量!绘制如下所示的两次差异分析的logFC的散点图:
对我圈出来的4个基因列表,做go和kegg的数据库注释!
文末友情推荐
与十万人一起学生信,你值得拥有下面的学习班:
https://mp.weixin.qq.com/s/9OZuPF5HIfumakTfpIwl6A