ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
120 stars 30 forks source link

Molecular Cell 文章 ribosome pausing 结果复现 (一) #2272

Closed ixxmu closed 2 years ago

ixxmu commented 2 years ago

https://mp.weixin.qq.com/s/ylXcoXlsWmMRiUByvz6SrA

github-actions[bot] commented 2 years ago

Molecular Cell 文章 ribosome pausing 结果复现 (一) by 老俊俊的生信笔记


做自己的事,任别人评论去吧

1前言

老俊俊生信交流群已经有四个群了,四群还未满 200 人, 决定四群满 200 人以后对入群者收取 20 元入群费,特此通知!

2引言

这篇文章于 2021 年 发表在 Molecular Cell 期刊上,讲述了关于外界压力刺激会造成核糖体在翻译起始处发生暂停,从而减少蛋白的翻译

文章标题:

Adaptive translational pausing is a hallmark of thecellular response to severe environmental stress

复现图内容:

下面是需要复现的图:

主图 2E

主图 3A

主图 3B (待定)

主图 3C

附图 S4B and S4D

附图 S8B and S8C

工作量还是挺大的。

3文章方法部分

我们先看看文章方法部分是如何分析的。

数据上游处理:

数据是比对到 转录组上面, 保留至少 15nt 长度的 reads, 选取最长 CDS 的转录本来后续分析,使用 bowtie 进行比对。

Geo 数据方法处理描述:GSE157519

这里我只下载了 Riboseq(18 个样本) 的数据,对应的 RNA-seq 没有下载。这里作者在插入片段两端插入了UMI 序列来去重 PCR duplicate, 下载到原始 fastq 数据后,去除接头见推文:

将 UMI 添加到 read 名称里并去除 UMI 序列

数据下游分析:

Aggregation plot and ribosome occupancy:

Calculation of codon occupancy:

4去除接头序列

for i in SRR125942{01..18}
do
    cutadapt -j 10 -f fastq \
             -a CTGTAGGCACCATCAAT -O 6 -m 25 \
             --discard-untrimmed \
             -o 2.trim-data/${i}.trimmed.fq.gz \
             1.raw-data/${i}.fastq.gz
done

5去除 umi 序列

# sample
sample = ["SRR12594201","SRR12594202","SRR12594203","SRR12594204","SRR12594205","SRR12594206",
            "SRR12594207","SRR12594208","SRR12594209","SRR12594210","SRR12594211","SRR12594212",
            "SRR12594213","SRR12594214","SRR12594215","SRR12594216","SRR12594217","SRR12594218"]

for i in 1:length(sample)
    removeRandmerSequence(join(["2.trim-data/",sample[i],".trimmed.fq.gz"],""),
                            join(["2.trim-data/",sample[i],".clean.fastq"],""),
                            end5RandmerLength=6,cutEnd5=6,end3RandmerLength=3,cutEnd3=4)
end

6比对

这里我选择用 hisat2 软件直接 比对到基因组 上去:

for i in SRR125942{01..18}
do
    hisat2 -p 8 -x 0.index-data/grcm38/genome_tran \
           -k 1 --summary-file \
           3.map-data/${i}.mapinfo.txt \
           -U 2.trim-data/${i}.clean.fastq \
           -S 3.map-data/${i}.sam
done

展示前三个比对情况:

26477212 reads; of these:
  26477212 (100.00%) were unpaired; of these:
    8380007 (31.65%) aligned 0 times
    18097205 (68.35%) aligned exactly 1 time
    0 (0.00%) aligned >1 times
68.35% overall alignment rate
25077358 reads; of these:
  25077358 (100.00%) were unpaired; of these:
    9187363 (36.64%) aligned 0 times
    15889995 (63.36%) aligned exactly 1 time
    0 (0.00%) aligned >1 times
63.36% overall alignment rate
28066567 reads; of these:
  28066567 (100.00%) were unpaired; of these:
    10196310 (36.33%) aligned 0 times
    17870257 (63.67%) aligned exactly 1 time
    0 (0.00%) aligned >1 times
63.67% overall alignment rate

可以看到比对率也算挺高的了,在 百分之六七十左右, 比对的 reads 数量也在 一两千万条左右, 质量非常的不错。

7结尾

由于作者没有提供代码,只能根据自己的想法来复现文章里的数据,只要做到 相似 就行了。




   ,QQ,









  





SAM 文件 flag 研究 (续)

将 UMI 添加到 read 名称里并去除 UMI 序列

FASTX  fasta  fastq 

 read  covergae

RiboChat  Ribo-seq 

Julia  bigWig 

Julia 

GFF3  GFF 

Sam  flag 

Ribo-seq  reads 

...