第一章 ChIP-seq分析背景知识

第一章 ChIP-seq分析背景知识 by 生信小知识

第一章 ChIP-seq分析背景知识

微信公众号：生信小知识
关注可了解更多的生物信息学教程及知识。问题或建议，请公众号留言;

前言1. Introduction to Workshop2. Introduction to ChIP-seq2.1 转录调控相关背景知识2.1.1 补充知识——绝缘子（Insulator）2.2 ChIP-seq的文库构建2.2.1 不同目标蛋白的特性2.2.2 不同实验条件2.2.3 Fragment的不同方案2.3 组蛋白修饰2.4 Control的重要性2.4.1 为什么需要设置Control2.4.2 Control的种类2.4.3 如何根据Control理解实验结果2.5 测序深度参考图1 不同深度下Broad和Narrow峰参考图2 不同深度下测序2.6 生物学重复2.7 生物信息学分析2.7.1 数据比对2.7.2 MACS2的主要原理——双峰模型2.7.3 信噪比2.7.4 一个尚未解决的问题3. 后记

前言

为了更好地理解ChIP-seq的分析，特意向小伙伴要到了不错的教程。教程主要来自哈佛大学Harvard Chan Bioinformatics Core （HBC）出版，所以，待我学完这个教程，四舍五入，我也算是上过哈佛了~

放上教程资源：

https://hbctraining.github.io/Intro-to-ChIPseq/

下面是整个课程的安排：

	Topic
1	Introduction to Workshop
2	Introduction to ChIP-seq
3	ChIP-seq Analysis Overview
4	Unix review and Working in an HPC environment
5	Project Organization and Data Management
6	Sequence Data QC using FastQC
7	Alignment theory
8	Alignment and filtering of reads
9	Automating generation of alignment files
10	ChIP-seq File Formats
11	Peak calling with MACS2
12	Peak calling with MACS2 (cont’d)
13	Assessing Peak calls and ChIP quality using ChIPQC
14	Handling Replicates
15	Differentially enriched peaks using DiffBind
16	Visualization and exploration of ChIP-seq data
17	Qualitative assessment using IGV
18	Functional analysis and Motif Analysis
19	Overview of ChIP-seq workflow
20	Wrap-up and Survey

按照之前的经验，每次内容太多的话，忙碌的大家是不会认真看的，所以，让我们把课程也分成多个部分，每次只学忆点点~

这次就只看1-2部分的内容吧~

1. Introduction to Workshop

这部分内容主要是哈佛教授们在介绍自己课程的特色，和ChIP-seq没什么相关性，所以，就跳过了~

2. Introduction to ChIP-seq

这部分开始介绍ChIP-seq的原理。他们有一个PPT文件，我看完后感觉可以打9分，非常棒！

我直接放上原文件：

https://hbctraining.github.io/Intro-to-ChIPseq/lectures/Introduction%20to%20ChIP-seq%202019.pdf

今天的教程中我只记录我认为重要的部分。想要完全理解，需要大家自己去研究。

2.1 转录调控相关背景知识

去看我这两天写过的推文吧，归纳了最常用的基础知识：文献分享——转录调控基础知识
研究转录调控的相关技术：

图来自ref：https://doi.org/10.1371/journal.pbio.1001046

Enhancers，Repressors，Silencers还有Insulators（绝缘子）这样的元件属于是远距离调控元件（他们发挥调控基因表达作用可以距离他们的靶基因相对较远的距离）
Promoters及TFs等顺式作用元件一般是近距离调控元件（他们发挥调控基因表达作用一般紧邻他们的靶基因）

2.1.1 补充知识——绝缘子（Insulator）

https://doi.org/10.1038/nrg2765

绝缘子：英语是Insulator，和胰岛素的英语长得很像（第一次我就认成了胰岛素Insulin）

作用：绝缘子的作用主要是通过限制增强子和沉默子的效果，从而防止基因表达的混杂调控。（Insulators prevent promiscuous gene regulation by restricting the action of enhancers and silencers.）

E2的增强子作用由于受到I2的绝缘作用，导致其增强作用不能作用于P1，而被I2阻挡了。
P1只能受到E1的增强子作用。

2.2 ChIP-seq的文库构建

Step1.准备材料：一般需要足够多的细胞来进行实验，理想的数目应在10⁷。

Step2.交联固定：甲醛交联的作用是让TF和DNA的结合由非共价结合变成共价结合，结合的更加紧密。

Step3. 超声打断：将gDNA打断成为100-300bp长度的片段。

Step4. 抗体捕获：使用特异性抗体（即使是特异性抗体，仍然会存在非特异性）结合目的TF。

Step5. 免疫沉淀：通过抗体拉下目的TF所结合的DNA序列。

Step6. 解交联及DNA纯化：纯化拉下来的DNA片段。

Step7. 片段大小选择：选择100-500的片段，主要看在片段化的时候打断成了多大的片段。

Step8. PCR：为拉下来的DNA片段加上测序接头。

下面说几个我看到的实验中比较重要的比较。

2.2.1 不同目标蛋白的特性

根据我们实验目的的不同，我们在进行ChIP-seq实验过程中的方法选择会差异较大。
我们的实验目的一般有3种：找组蛋白修饰，TF以及Cofactors结合的DNA。这三者与DNA结合的性质相差较大，也导致了我们在实验过程中对实验技术及方法的选择上存在较大的差异。

	Histones	TFs	Cofactors
与DNA结合部位	相对多	相对少	不与DNA直接结合，通过与组蛋白及TF结合
结合稳定性	强	中	弱

2.2.2 不同实验条件

	Histones	TFs	Cofactors
Cross-linking	10 min	10-30 min	30 min
Fragment (Sonication)	Low sensitive	Medium sensitive	High sensitive

2.2.3 Fragment的不同方案

Fragment有两种方案可供选择：

Sonication：机械超声打断。
Enzyme：酶消化打断。

	Sonication	Enzyme
原理	机械应力打断DNA	内切酶消化切断2个histone之间的DNA
力度	激烈	温和
优点	蛋白结合部位DNA完整	染色质状态（常/异染色质）对其影响小；重复性高
缺点	常染色质更容易被片段化；重复性差	过度消化容易引起蛋白结合部位DNA被降解

2.3 组蛋白修饰

见前些天的推文：文献分享——转录调控基础知识

这里复制下结论：

转录状态	Markers	Markers
Active promoter	H3K4me3	H3K27Ac
Active enhancer	H3K4me1	H3K9Ac
Repressor	H3K9me3	H3K27me3
Transcribed gene body	H3K36me3

我们来看一个例子理解下：

https://doi.org/10.1038/nrg2641

可以看到对于FBXO7这个基因来说，Pol II在起始处，说明这个基因正在转录，对应到H3K36me3的信号则是阳性，而H3K27me3的转录抑制信号则较低。

2.4 Control的重要性

2.4.1 为什么需要设置Control

我们在超声片段化DNA的时候，希望能够将DNA均匀打断，但是实际上开放区域的染色质更容易被打断，这就导致了不在开放区域的DNA片段大小更大，从而在后面经过片段筛选的时候被去除，更多的片段是来自开放区域DNA。
基因组上存在很多区域是重复序列，因此这些区域有更大的概率被捕获。
抗体并不是完美的特异性，所以有的peak是由于抗体的非特异性导致的。

因此，在ChIP-seq中得到的peak，应该和control样本的同一个位置上的peak进行比较。

2.4.2 Control的种类

一般有最常用的ChIP-seq有2种：

Input DNA：已交联和超声打断处理，但未经过免疫沉淀的DNA样品。可以理解为全部的DNA。（一般用的稍多）
Mock：一般是使用IgG抗体进行ChIP产物。我门对IgG抗体的要求是理论上与DNA上蛋白不会发生任何特异性结合。所以Mock阳性的抗体都是非特异性结合的信号。（由于信号很微弱，一般用的少）
阳性对照：一般用anti-RNA Polymerase II抗体，因为RNA Polymerase II是通用转录因子，在所有细胞中都能结合基因（为了保证阳性对照有效，一般选择阳性对照的引物是根据管家基因设计的）的核心启动子区，因此，理论上ChIP后PCR都会有条带。

2.4.3 如何根据Control理解实验结果

我们用一个实例来说明问题：

在这个结果中，我们可以看到：

Pol II的结果和Input（100-350bp）在A处都有一个峰，说明这里的峰很可能是假阳性，可能是由于这里的DNA比较开放，所以在打断的时候有更多的片段产生，所以在Input处有个峰。同时，因为在Input中这里峰更高，因此在做免疫沉淀的时候，这里的片段更可能被拉下来从而形成峰。所以来说，A处的信号峰很可能是假阳性的。
在B处，Input有峰而Pol II没有，说明这里一定没有Pol II信号。
在C处，Input没有峰而Pol II有，说明这里的Pol II信号极大可能是真阳性。

同时，我们可以看到，Input如果打断成为100-300bp和350-800bp时，他们的信号峰是不一样的，关于为什么不同片段大小的Input信号峰值不同，我猜测可能的原因有：

2.5 测序深度

对于ChIP-seq来说，测序深度也是决定数据质量和最终结果的一个关键性因素。
一般来说，最低要有5-10M的深度覆盖；对于TF来说标准深度在20-40M；对于Broad峰（理解为在基因组上有广泛结合的一些蛋白，例如H3K27me3）来说需要更高的深度。

下面分享2张关于测序深度在ChIP-seq中作用的图：

Ref：https://doi.org/10.1093/nar/gku178

参考图1 不同深度下Broad和Narrow峰

参考图2 不同深度下测序

图中展示了在不同测序深度下（X轴），在所有数据中不同富集区域（Top20%，Top40%，Top60%，Top80%以及所有富集到的）中的捕获效率（Y轴）。

2.6 生物学重复

在做差异peak分析时，最好有生物学重复，但是没有也是可以做的。
总的原则是：生物学重复越多越好。如果没有，也可以分析。
在测序深度和测序质量之间的权衡：以更高的测序质量测更低的深度比以更低的测序深度测更高的深度效果好！

2.7 生物信息学分析

2.7.1 数据比对

数据比对与RNA-seq的上游分析类似，但是有几点需要注意：

去除PCR重复
去除黑名单（blacklisted regions）中的区域（从测序深度分布来看，基因组上存在着重复区域，这些重复区域的测序深度普遍是一种虚高的现象，而且这种虚高无关样本类型，实验处理等条件，只是和物种有关。科学家通过分析各种实验处理，不同样本类型的NGS数据，找出了在所有样本中测序深度普遍偏高的基因组区域，将其定义为blacklist region。关于各个物种的blacklist区域，可以从以下链接下载：http://mitra.stanford.edu/kundaje/akundaje/release/blacklists/）

2.7.2 MACS2的主要原理——双峰模型

在有了Reads后，如何从Reads中得到Peak呢？这里引入了MACS2的双峰模型（Bimodal model）

这个概念非常重要！！

强调3次！

双峰模型的出现和NGS二代测序的原理密切相关。

上图中，黄色的一团我们看作是TF，我们对这个TF进行ChIP拉下来的DNA fragments在图中以浅绿色虚线表示。经过解交联和加上测序接头后，我们将这些200-500bp的DNA fragments制备成了可以上机测序的片段。

但是，根据illumina测序的2个特点：

测序总是从5'开始，朝着3'方向读取。
测序读长短（无法覆盖DNA fragments的全长）

这就导致了我们测序都只测到了DNA fragments的3'数据：

然后，我们就可以看到在其他公众号里常常看到的所谓的双峰模型了：

为了方便理解，我自己在AI里重新按照我自己的理解重新绘制了图形。

在上图中，由于NGS的2个特点，会得到两个峰，分别代表了正负链的峰。但是，TF应该是在这个峰的中间，而非在这两个峰上，所以，我们需要将这两个峰进行移动。

具体移动多少个bp呢？这里需要数学的理解了！答案是DNA fragments的长度（自己画图理解即可，我就不展开解释了）。

但是DNA fragments的长度我们在使用超声打断时产生的，是一个随机过程，我们怎么知道具体的长度呢？

MACS2采用的方法是：随机找1000个Peaks，然后将每个peak中的Reads分到正负上，然后计算从正链到负链的距离d_i。这样我们就可以拿到1000个DNA fragments长度d_i了。最后对这1000个值取平均值视为DNA fragments的长度。

然后我们就可以通过将所有的Reads向3'方向移动d/2距离，从而知道Peaks所在位置。

2.7.3 信噪比

前面讲到，在ChIP-seq中我们需要设置Control，而Control的作用就是告诉我们在ChIP中背景噪音的程度。

在MACS2中，我们用λ_local来表示在我们感兴趣区域的背景噪音。因为有多种因素会影响到背景噪音的大小，所以MACS2使用的是一个动态的λ_local值。

λ_local = max(λ_BG; λ_1k; λ_5k; λ_10k)

其中：

λ_BG - 整个基因组上的背景噪音
λ_1k; λ_5k; λ_10k - 以Peak为中心，在1、5和10K范围内的背景噪音

拿到了λ_local值后，我们就可以计算信噪比值了：

mfold = Counts_ChIP-seq / λ_local

我们用mfold表示信噪比：即ChIP的信号和噪音信号的比值。

2.7.4 一个尚未解决的问题

目前，对于同一套数据，使用不同的call peak软件，均使用他们的默认参数或推荐参数，最后得到的结果是不一样的！

那么，我们如何选择呢？原则如下：

使用最多人用的
定期维护和更新的软件

对于得到的结果，我们要通过IGV进行检查查看。

3. 后记

其实关于数据质控这部分还有相当一部分内容要看，不过，先缓缓吧~

ixxmu / mp_duty