Closed ixxmu closed 2 years ago
看到很多小伙伴翻来覆去就是TCGA数据挖掘,而且绝大部分都仅限于转录组数据,虽然会根据基因性质拆分成为蛋白编码基因和非编码,但是数据多样性真的好有限。非常有必要系统性整理一些公共数据资源推广开。
比如在李程老师的交流群看到了Roy et al., 于2021年11月发表在, Immunity 杂志的文章:《DNA methylation signatures reveal that distinct combinations of transcription factors specify human immune cell epigenetic identity》,链接是:https://doi.org/10.1016/j.immuni.2021.10.001
就做了6种免疫细胞的850K甲基化芯片和转录组测序数据,数据都是公开是:
Methylation data GEO: GSE184269
RNASeq data This paper GEO: GSE184264
EBF1 Chip-Seq data GEO: GSE183537
可以很清楚看到免疫细胞分类情况:
主要是淋巴系和髓系免疫细胞,做过单细胞转录组数据处理的小伙伴应该是很熟悉了,淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)。
链接是;https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE184269 使用的是Infinium MethylationEPIC芯片,就是850K甲基化芯片,有167个样品:
差异分析策略如下所示:
可以看到,每次差异分析都是取其中一个分组都是跟其它的全部样品进行差异分析,差异分析结果可视化:
主要是统计了各个细胞亚群跟其它样品的甲基化差异数量,而且取这些位点进行热图可视化!
有差异的甲基化位点对应的基因的生物学功能数据库注释:
差异分析的前提是数据质量OK,哪怕是甲基化矩阵,也需要同样的质量控制 :
甲基化测序的 WGBS和RRBS,还有 芯片是最高频的甲基化技术,其中甲基化芯片数据处理我是有视频课程的,首先需要阅读我在生信技能树的甲基化系列教程,目录如下:
然后就可以看我在B站免费分享的视频课程《甲基化芯片(450K或者850K)数据处理 》
文章里面的ChIP-seq数据并不研究者自己产出的, 来自于 Roadmap 表观计划, 是:6 chromatin marks H3K4me3, H3K4me1, H3K36me3, H3K27me3, H3K9me3 and H3K27ac) ,
如果你对这些组蛋白修饰不理解,可以去参考2013年npg的一篇review:《Histone modifications for human epigenome analysis》,介绍了 不同组蛋白修饰的不同生物学功能哦。通常组蛋白修饰得到的是ChIP-seq数据,如果要分析:
如果想掌握上面的流程,也可以看我们《生信技能树》的B站免费NGS数据处理视频课程:
虽然中文仅仅是展现了差异基因的热图,但是背后提炼的信息也不少,而且跟差异甲基化位点进行了结合:
有意思的是这个热图的图例还蛮丰富的:
(A) RNA-seq was carried out with RNA from each cell type from 26 donors across the age range (Figures S6A and S6B). Normalized counts per million (CPM) values were compared pairwise within individuals using DESeq2 to identify differentially expressed genes. Genes with R4-fold change in a cell type compared to all other cell types within an individual and shared by all individuals irrespective of age are referred to as cell selective. Row Z score derived from normalized CPM for each cell type as well as PBMCs and whole blood are shown for each donor (columns). Darker shade in the pie charts show the proportion of cell-selective genes that are present in the MethylationEPIC array and contain cell-specific hypo- (orange) or hypermethylated (dark blue) sites.
做教学我们是认真的,如果你对我们的马拉松授课(直播一个月互动教学)有疑问,可以看完我们从2000多个提问互动交流里面精选的200个问答! 2021第二期_生信入门班_微信群答疑整理,以及 2021第二期_数据挖掘班_微信群答疑笔记
与十万人一起学生信,你值得拥有下面的学习班:
https://mp.weixin.qq.com/s/oAETCmTaHlRODcXC_98n8g