Closed ixxmu closed 3 years ago
最近在整理表观相关技术文献,包括各种甲基化芯片技术,27k,450k,850k,以及甲基化测序的 WGBS和RRBS其实它们应用,最后也是构建各种模型,比如分子分型啊,细胞比例他推断啊,分类模型或者预后模型。而且这个分类模型的AUC高到令人瞠目结舌,比如2018的的文章,标题是:《A novel discriminating colorectal cancer model for differentiating normal and tumor tissues》链接是:https://pubmed.ncbi.nlm.nih.gov/30324808/
在TCGA数据库的CRC队列里面,做了一个简单的分类模型数据挖掘:
最后构建的模型效果还不错:
这个模型所涉及到的五个甲基化位点如下所示:
看起来蛮简单的,就是两次差异分析,取交集,但是它取的并不是常规意义的交集,因为甲基化其实是反向调控表达量。
甲基化测序的 WGBS和RRBS,还有 芯片是最高频的甲基化技术,其中甲基化芯片数据处理我是有视频课程的,首先需要阅读我在生信技能树的甲基化系列教程,目录如下:
然后就可以看我在B站免费分享的视频课程《甲基化芯片(450K或者850K)数据处理 》
发表在 Diagnostics (Basel). 2020 Mar; 的文章:《GRB10 and E2F3 as Diagnostic Markers of Osteoarthritis and Their Correlation with Immune Infiltration》
研究者们通过GSE55235,GSE55457数据集寻找差异基因,得到458个差异基因,然后:
两个算法的交集就是GRB10 and E2F3 这两个基因,用GSE51588数据集进行验证,结果显示两个基因的诊断效能具有较高水平(AUC=0.962)
但是,如果你去独立的分析GSE55235,GSE55457数据集,就会发现它们的分组并不是泾渭分明的。
完成GSE55235,GSE55457数据集的标准分析,如果你还没有这方面经验,可能是需要自己先看看全网最系统的表达芯片数据处理教程:
表达芯片数据处理教程,早在2016年我就系统性整理了发布在生信菜鸟团博客:http://www.bio-info-trainee.com/2087.html
配套教学视频在B站:https://www.bilibili.com/video/av26731585/
代码都在:https://github.com/jmzeng1314/GEO
早期目录如下:
公众号推文在:
与十万人一起学生信,你值得拥有下面的学习班:
https://mp.weixin.qq.com/s/kGD2F3-8x_ja9n7yPcVTKg