Closed ixxmu closed 3 months ago
工欲善其事必先利其器
链交叉相关性分析是ChIP-seq质量评估的一个重要指标,基于高质量ChIP-seq实验会在蛋白质结合位点周围产生显著的富集DNA序列标签富集这一事实。这些“真实信号”的序列标签位于结合位点中心的一定距离处,这个距离取决于片段大小分布(Kharchenko等人,2008年)。这使得开发出一种基于基因组范围内链密度相关性的片段聚集(IP富集)量度成为可能。这种量度是通过计算Crick链和Watson链之间的皮尔逊线性相关性来实现的,计算时会将Watson链移动k个碱基对。这通常在交叉相关图中产生两个峰:一个对应于主要片段长度的富集峰,另一个对应于读长的峰(“幽灵”峰)。
phantompeakqualtools是由 Anshul Kundaje开发的一款用于评估ChIP-seq和相关高通量测序数据的质量的工具,其具有以下功能
Github:
编程语言:R
题目:ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia
期刊:Genome Research
日期:2012/9DOI:10.1101/gr.136184.111
推荐使用conda安装,可以直接安装运行所需的依赖包,方便快捷
conda activate chipseq
conda install bioconda::phantompeakqualtools
##激活环境
conda activate chipseq
run_spp.R -rf \
-c=/home/data/t020559/chip_seq/GSE205035_PRJNA843319/e_mkdup/SRR19436494_H3K27ac-OXA_mkdup.bam \
-p=8 \
-odir=/home/data/t020559/chip_seq/GSE205035_PRJNA843319/test \
-savp=SRR19436494_H3K27ac-OXA_mkdup.pdf \
-out=SRR19436494_H3K27ac-OXA_mkdup_cross.txt
##参数释义
-c=<ChIP_alignFile>:#ChIP测序数据文件的完整路径和名称,
-i=<Input_alignFile>:#输入对照(input control)文件的完整路径和名称
-p=<num> :#设置线程,默认为0
-s=<min>:<step>:<max>:#评估交叉相关性的链移位范围,默认为-500:5:1500
-rf : #如果存在同名文件,则替换(覆盖输出结果)
-tmpdir=<tempdir>:#临时目录,如果未指定,则使用R函数 tempdir() 的结果
-filtchr=<chrnamePattern>:#用于移除映射到特定染色体的标签的模式,例如使用"chrM"将移除所有名称中包含"chrM"的染色体的标签
-odir=<outputDirectory>:#输出目录的名称,如果未设置,则使用当前目录
-savn=<narrowpeakfilename>:#保存NarrowPeak文件的名称
-savr=<regionpeakfilename>:#保存RegionPeak文件的名称
-savd=<rdatafile> :#保存R数据文件
-savp=<plotdatafile> :#保存交叉相关图的文件
-out=<resultfile>:#将peakshift/phantomPeak结果追加到文件中
cat SRR19436494_H3K27ac-OXA_mkdup_cross.txt
SRR19436494_H3K27ac-OXA_mkdup.bam 26755432 0,330,375 0.252146613583201,0.237250183628446,0.237133227855954 150 0.3129999 1500 0.2282759 1.10457 0.2817472 -1
结果共11列,分别为:
图中的黑线代表实验数据的交叉相关性,蓝色虚线代表片段长度峰,红色虚线表示主峰的真实位移。这些峰的位置说明了测序片段和可能的非特异性信号的分布。NSC值为1.10457,这个值大于1,表明相对于背景信号,片段长度峰有较好的信号强度。RSC值为0.28147,这个值低于常规的阈值1,说明信号与幽灵峰之间的对比度不是很高,信号与噪声的比例较低。
NSC(Normalized Strand Coefficient) :片段长度交叉相关峰与背景交叉相关的比值,是评估信号与噪声比的一个强有力的度量。
RSC(Relative Strand Coefficient):片段长度峰与读长峰的比值,同样用于评估信号的质量
其也有峰值检查的功能,示例代码如下。不过速度很慢。不是很建议使用。推荐使用:MACS 。见MACS3—探索基因组调控的钥匙
run_spp.R -rf \
-c=/home/data/t020559/chip_seq/GSE205035_PRJNA843319/e_mkdup/SRR19436494_H3K27ac-OXA_mkdup.bam \
-i=/home/data/t020559/chip_seq/GSE205035_PRJNA843319/e_mkdup/SRR19436498_Input-OXA_mkdup.bam \
-fdr=0.01 \
-odir=/home/data/t020559/chip_seq/GSE205035_PRJNA843319/test/OXA \
-savn -savr -savp -savd
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
https://mp.weixin.qq.com/s/VaP1apm3ERu6oZrLjP2NVw