华大基因单细胞团队的这个差异分析后的热图真奇怪

华大基因单细胞团队的这个差异分析后的热图真奇怪 by 生信技能树

我也不知道这么就刷到了大名鼎鼎的华大基因的单细胞团队的 Guibo Li 的癌症数据挖掘文章：《Identification of a 3-Gene Model as Prognostic Biomarker in Patients With Gastric Cancer》

一般来说，这样的基因集预后模型数据挖掘文章都是临床医师的专享，大家耳熟能详的策略有；

差异分析+PPI网络+hub基因
WGCNA+hub基因
诊断模型构建
预后模型构建
肿瘤免疫，CIBERSOFT计算的LM22比例分组，以及ESTIMATE算法等等
m6A等生物学功能基因集
药敏信息

（mRNA，lncRNA，miRNA，甲基化，蛋白）均可走上述流程，也就是说33种癌症乘以5种亚型，乘以5种分子，乘以15个策略就已经是过万篇数据挖掘课题了，而且你仔细搜索一下就发现，真的是已经有了过万篇数据挖掘文章了哦！我一直强调：数据挖掘的核心是缩小目标基因！

各种数据挖掘文章本质上都是要把目标基因集缩小，比如表达量矩阵通常是2万多个蛋白编码基因，不管是表达芯片还是RNA-seq测序的，采用何种程度的差异分析，最后都还有成百上千个目标基因。如果是临床队列，通常是会跟生存分析进行交集，或者多个数据集差异结果的交集，比如：多个数据集整合神器-RobustRankAggreg包，这样的基因集就是100个以内的数量了，但是仍然有缩小的空间，比如lasso等统计学算法，最后搞成10个左右的基因组成signature即可顺利发表。

其实还有另外一个策略方向，有点类似于人工选择啦，通常是可以往热点靠，比如肿瘤免疫，相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析，仅仅是拿着几千个免疫相关基因的表达矩阵即可。最近比较热门的有：自噬基因，铁死亡，EMT基因，核受体基因家族，代谢基因。还有一个最搞笑的是m6a基因的策略，完全是无厘头的基因集搞小，纯粹是为了搞小而搞小。

不过，这次我们要分享的是华大基因的单细胞团队的数据挖掘文章，所以他必然是跟普通临床医生的数据挖掘不太一样，因为他们测序经费不缺，所以是自己测序的：

We collected cancer and adjacent tissues of 17 patients ( with early primary gastric cancer (GC)

这样的话，他们第一步筛选基因（把基因数量搞小）的策略是做自己的转录组测序表达量矩阵的差异分析，这样两万多个基因就因为挑选那些统计学显著的差异上下调基因后剩下了几百个。但是我注意到他们的差异分析热图好奇怪：

差异分析热图好奇怪

我看了看，测序没有问题，是：The samples were sent for RNA sequencing. The sequencing company is BGI-Shenzhen Co., Ltd. The sequencing platform is DNBSEQ, paired-end sequencing.

测序后的定量使用另外最讨厌的软件：RSEM software was used for gene expression quantification

差异分析本身也没有问题：We determined the DEGs between normal tissues and tumor tissues through DEseq2。The screening threshold is |logFC|>1, Padj < 0.05.

总体来说，应该是没有问题，数据也是公开可以获取的：https://db.cngb.org/search/project/CNP0002454/

image-20230211142842424

很容易自己下载fq文件，跟着我们的转录组流程来一波基于Linux的定量分析和下游在R里面的差异分析等统计可视化。

学徒作业：完成CNP0002454的分析

首先需要参考在全新服务器配置转录组测序数据处理环境，主要是4个软件，如果安装成功后，下面的代码不会有error信息的：

fastqc --help 1>/dev/null
trim_galore --help 1>/dev/null
hisat2 --help 1>/dev/null
featureCounts --help 1>/dev/null

然后开启一个转录组实战，参考：https://mp.weixin.qq.com/s/YHWLcZYeKLEMufUS-TLHVQ

1.数据下载（自身数据的话，此步可忽略）
2.质控过滤（质控前用fastqc与multiqc初看数据效果、trimmgalore进行质控过滤与fastqc、multiqc查看质控后的效果）
3.Hisat2比对
4.featureCounts定量

拿到了表达量矩阵后走差异分析，都是表达量矩阵而已，可以看到我8年前的芯片教程，推文在：

绘制差异基因的热图。

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI，多一点数据认知，让他们的科研上一个台阶：

ixxmu / mp_duty