Closed ixxmu closed 2 years ago
看了看我b站的免费ngs数据处理课程,发现多组学里面的表观转录调控,尤其是ChIP-seq和RNA-Seq联合分析最受欢迎。
其实这些各个技术流程的视频教程好几年前我就全部免费共享在b站,而且我同步分享了视频配套讲义和教辅材料;
也为每个组学视频课程,设置了练习题,不知道大家是否有学习呢?甚至形成了专门的学徒作业系列:
基本上每个过来我这边学习一个月以上的学徒我都会让他们学习多种组学(围绕着中心法则),而且有了Linux基础和R语言能力后, 跟着我们的视频教程很容易就学会基础流程,毫无压力。
但是这个 表观转录调控之ChIP-seq和RNA-Seq联合分析 课程我没有设置练习题,课程获取方式
参考文章:(2019) The genomic landscape of estrogen receptor α binding sites in mouse mammary gland. PLoS ONE ,其公开的数据集是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE130032
可以看到是3个ChIP-seq数据:
GSM3723395 ERα ChIP-seq replicate 1
GSM3723396 ERα ChIP-seq replicate 2
GSM3723397 Input
每个 ERα 的ChIP-seq数据都需要去和Input数据对照分析,拿到peaks文件,作者给出来了:
GSM3723395_08122015.m6W.ER_2hE2.WT_rep1-Input.e8_peaks.bed.gz 140.5 Kb
GSM3723396_08122015.m6W.ER_2hE2.WT_rep2-Input.e8_peaks.bed.gz 100.7 Kb
以及4个RNA-Seq样品:
GSM3730458 Control rep1
GSM3730459 Control rep2
GSM3730460 Estradiol rep1
GSM3730461 Estradiol rep2
有意思的是作者这里并没有给出来4个样品的表达量矩阵,反而是给出来了如下所示的:
GSM3730458_Mouse_Mammary_Gland_6WK_WT_Control_rep1.wig.gz 339.4 Mb
GSM3730459_Mouse_Mammary_Gland_6WK_WT_Control_rep2.wig.gz 382.9 Mb
GSM3730460_Mouse_Mammary_Gland_6WK_WT_E2treat_rep1.wig.gz 588.1 Mb
GSM3730461_Mouse_Mammary_Gland_6WK_WT_E2treat_rep2.wig.gz 369.2 Mb
所以大家需要自己从这个文章里面的ChIP-seq和RNA-Seq的原始fastq文件开始,下载后,自己走我们的两个流程。就是前面的:
其中 ChIP-seq数据分析 拿到了peaks后跟文章的GSE130032对比,然后表达量矩阵就没办法跟原文对比了,他没有给出。
基本上就是一些质量控制的图表,如下所示:
把好几千的peaks根据基因组功能区域划分后,主要是分成3类:
也可以独立看看其不同结合区域的motif:
这两个不同区域的motfi分析结果确实不一样:
这个时候,仍然是标准分析。
差异分析就是上下调基因的热图:
上下调基因列表分开独立去进行生物学功能数据库注释:
其实就是取交集,因为ERα 的ChIP-seq数据得到的peaks对应的基因是已知并且固定的,所以把这个基因拿去跟转录组的差异分析上下调基因分别去取交集,做韦恩图,其中一个交集如下所示:
并且对交集后的基因列表进行再次生物学功能数据库注释以及motif查看。
如果你时间比较充裕,也可以考虑完成其它ngs组学配套的学徒作业哦:
最后再提一下这个文献出处,恰好就来自于前两天介绍的:Oregon Health & Science University (俄勒冈健康与科学大学 ) 计算生物学博士生和博士后职位
https://mp.weixin.qq.com/s/iYjyoUJp4TcHEoxurM6ejQ