想要AUC值高啊！做分类模型啊！放弃预后！

想要AUC值高啊！做分类模型啊！放弃预后！ by 生信技能树

最近在整理表观相关技术文献，包括各种甲基化芯片技术，27k,450k,850k，以及甲基化测序的 WGBS和RRBS其实它们应用，最后也是构建各种模型，比如分子分型啊，细胞比例他推断啊，分类模型或者预后模型。而且这个分类模型的AUC高到令人瞠目结舌，比如2018的的文章，标题是：《A novel discriminating colorectal cancer model for differentiating normal and tumor tissues》链接是：https://pubmed.ncbi.nlm.nih.gov/30324808/

在TCGA数据库的CRC队列里面，做了一个简单的分类模型数据挖掘：

仅仅是关心 average methylation levels in gene promoter regions and the first exons
甲基化差异阈值：≥4 or ≤0.25-fold changes in CpG methylation
an inverse correlation between mRNA expression and methylation levels of CpG sites (FDR <0.05);
剩下 78 differentially methylated CpG sites from 18 genes
然后走 LASSO logistic regression 得到最终的5个甲基化位点分类模型

最后构建的模型效果还不错：

Five new differentially methylated CpG sites were identified and further validated in 94 Chinese CRC patients.
A five-CpG-based panel was constructed, with the area under the curve values of 0.999 in The Cancer Genome Atlas data and 0.943 in Chinese patients, respectively.

这个模型所涉及到的五个甲基化位点如下所示：

五个甲基化位点构成分类模型

看起来蛮简单的，就是两次差异分析，取交集，但是它取的并不是常规意义的交集，因为甲基化其实是反向调控表达量。

甲基化背景知识

甲基化测序的 WGBS和RRBS，还有芯片是最高频的甲基化技术，其中甲基化芯片数据处理我是有视频课程的，首先需要阅读我在生信技能树的甲基化系列教程，目录如下：

然后就可以看我在B站免费分享的视频课程《甲基化芯片（450K或者850K）数据处理》

教学视频免费在：https://www.bilibili.com/video/BV177411U7oj
课程配套思维导图：https://mubu.com/doc/1cwlFgcXMg

类似的分类模型案例分享：

发表在 Diagnostics (Basel). 2020 Mar; 的文章：《GRB10 and E2F3 as Diagnostic Markers of Osteoarthritis and Their Correlation with Immune Infiltration》

研究者们通过GSE55235，GSE55457数据集寻找差异基因，得到458个差异基因，然后：

LASSO 回归算法，识别出14个基因作为OA的诊断标志物
SVM-RFE算法，识别出7个基因作为诊断标志物

两个算法的交集就是GRB10 and E2F3 这两个基因，用GSE51588数据集进行验证，结果显示两个基因的诊断效能具有较高水平（AUC=0.962）

An external file that holds a picture, illustration, etc. Object name is diagnostics-10-00171-g005.jpg

但是，如果你去独立的分析GSE55235，GSE55457数据集，就会发现它们的分组并不是泾渭分明的。

作为学徒作业

完成GSE55235，GSE55457数据集的标准分析，如果你还没有这方面经验，可能是需要自己先看看全网最系统的表达芯片数据处理教程：

表达芯片数据处理教程，早在2016年我就系统性整理了发布在生信菜鸟团博客：http://www.bio-info-trainee.com/2087.html
配套教学视频在B站：https://www.bilibili.com/video/av26731585/
代码都在：https://github.com/jmzeng1314/GEO
早期目录如下：

第一讲：GEO，表达芯片与R
第二讲：从GEO下载数据得到表达量矩阵
第三讲：对表达量矩阵用GSEA软件做分析
第四讲：根据分组信息做差异分析
第五讲：对差异基因结果做GO/KEGG超几何分布检验富集分析
第六讲：指定基因分组boxplot指定基因list画热图
第七讲：根据差异基因list获取string数据库的PPI网络数据
第八讲：PPI网络数据用R或者cytoscape画网络图
第九讲：网络图的子网络获取
第十讲：hug genes如何找

公众号推文在：

文末友情推荐

与十万人一起学生信，你值得拥有下面的学习班：

ixxmu / mp_duty