ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
108 stars 30 forks source link

表观转录调控之ChIP-seq和RNA-Seq联合分析 #1641

Closed ixxmu closed 2 years ago

ixxmu commented 2 years ago

https://mp.weixin.qq.com/s/iYjyoUJp4TcHEoxurM6ejQ

github-actions[bot] commented 2 years ago

表观转录调控之ChIP-seq和RNA-Seq联合分析 by 生信技能树

看了看我b站的免费ngs数据处理课程,发现多组学里面的表观转录调控,尤其是ChIP-seq和RNA-Seq联合分析最受欢迎。

其实这些各个技术流程的视频教程好几年前我就全部免费共享在b站,而且我同步分享了视频配套讲义和教辅材料;

  • 学徒第1月,基础知识介绍掌握:文档链接:https://mubu.com/doc/38tEycfrQg 密码:vl3q
  • 学徒第2月,RNA-seq数据分析实战训练:文档链接:https://mubu.com/doc/38y7pmgzLg 密码:p6fo
  • 学徒第3月,WES数据分析实战训练:文档链接:https://mubu.com/doc/1iDucLlG5g 密码:7uch
  • 学徒第4月,ChIP-seq数据分析实战训练:文档链接:https://mubu.com/doc/11taEb9ZYg 密码:wk29

也为每个组学视频课程,设置了练习题,不知道大家是否有学习呢?甚至形成了专门的学徒作业系列:

基本上每个过来我这边学习一个月以上的学徒我都会让他们学习多种组学(围绕着中心法则),而且有了Linux基础和R语言能力后, 跟着我们的视频教程很容易就学会基础流程,毫无压力。

但是这个 表观转录调控之ChIP-seq和RNA-Seq联合分析 课程我没有设置练习题,课程获取方式

  • 视频首先可以在B站看到:https://www.bilibili.com/video/av77098514 (失效日期,随时),请尽快学习
  • 视频课程配套课件(幕布思维导图):https://mubu.com/doc/3Bd4aieYug (理论上不会失效)
  • 配套代码目前也是微云下载:https://share.weiyun.com/5qmxu7Z(失效日期,随时),请尽快保存

练习题

参考文章:(2019) The genomic landscape of estrogen receptor α binding sites in mouse mammary gland. PLoS ONE ,其公开的数据集是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE130032

可以看到是3个ChIP-seq数据:

GSM3723395 ERα ChIP-seq replicate 1
GSM3723396 ERα ChIP-seq replicate 2
GSM3723397 Input

每个 ERα 的ChIP-seq数据都需要去和Input数据对照分析,拿到peaks文件,作者给出来了:

GSM3723395_08122015.m6W.ER_2hE2.WT_rep1-Input.e8_peaks.bed.gz 140.5 Kb
GSM3723396_08122015.m6W.ER_2hE2.WT_rep2-Input.e8_peaks.bed.gz 100.7 Kb

以及4个RNA-Seq样品:

GSM3730458 Control rep1
GSM3730459 Control rep2
GSM3730460 Estradiol rep1
GSM3730461 Estradiol rep2

有意思的是作者这里并没有给出来4个样品的表达量矩阵,反而是给出来了如下所示的:

GSM3730458_Mouse_Mammary_Gland_6WK_WT_Control_rep1.wig.gz 339.4 Mb
GSM3730459_Mouse_Mammary_Gland_6WK_WT_Control_rep2.wig.gz 382.9 Mb
GSM3730460_Mouse_Mammary_Gland_6WK_WT_E2treat_rep1.wig.gz 588.1 Mb
GSM3730461_Mouse_Mammary_Gland_6WK_WT_E2treat_rep2.wig.gz 369.2 Mb

所以大家需要自己从这个文章里面的ChIP-seq和RNA-Seq的原始fastq文件开始,下载后,自己走我们的两个流程。就是前面的:

  • 学徒第2月,RNA-seq数据分析实战训练:文档链接:https://mubu.com/doc/38y7pmgzLg 密码:p6fo
  • 学徒第4月,ChIP-seq数据分析实战训练:文档链接:https://mubu.com/doc/11taEb9ZYg 密码:wk29

其中 ChIP-seq数据分析 拿到了peaks后跟文章的GSE130032对比,然后表达量矩阵就没办法跟原文对比了,他没有给出。

接下来是ERα 的ChIP-seq数据两个样品重复性很好

基本上就是一些质量控制的图表,如下所示:

两个样品重复性很好

把好几千的peaks根据基因组功能区域划分后,主要是分成3类:

  • distal upstream (-100kb to -1kb),
  • proximal (-1kb to +400 bp),
  • distal downstream (+400 bp to +100kb),

也可以独立看看其不同结合区域的motif:

不同结合区域的motif

这两个不同区域的motfi分析结果确实不一样:

  • distal区域(包括上下游)是 PAX2, ESRRB, SF1, and AP1 motifs
  • proximal区域是 ESRRB, SF1 and TAL

这个时候,仍然是标准分析。

转录组数据主要是差异分析和生物学功能富集

差异分析就是上下调基因的热图:

上下调基因的热图

上下调基因列表分开独立去进行生物学功能数据库注释:

生物学功能数据库注释

重头戏是ChIP-seq和RNA-Seq联合分析

其实就是取交集,因为ERα 的ChIP-seq数据得到的peaks对应的基因是已知并且固定的,所以把这个基因拿去跟转录组的差异分析上下调基因分别去取交集,做韦恩图,其中一个交集如下所示:

其中一个交集如下所示

并且对交集后的基因列表进行再次生物学功能数据库注释以及motif查看。

如果你时间比较充裕,也可以考虑完成其它ngs组学配套的学徒作业哦:

最后再提一下这个文献出处,恰好就来自于前两天介绍的:Oregon Health & Science University (俄勒冈健康与科学大学 ) 计算生物学博士生和博士后职位