ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
102 stars 29 forks source link

使用Rfam数据库注释基因组中的非编码RNA(ncRNA) #2634

Closed ixxmu closed 2 years ago

ixxmu commented 2 years ago

https://mp.weixin.qq.com/s/jrQRdx8RKwtmgk0IGbuAWA

github-actions[bot] commented 2 years ago

使用Rfam数据库注释基因组中的非编码RNA(ncRNA) by 小白鱼的生统笔记


使用Rfam数据库注释基因组中的非编码RNA(ncRNA)

Rfamhttps://rfam.xfam.org/是非编码RNAnon-coding RNAncRNA)家族的数据库,包括真核、原核和病毒等多种类型的ncRNA信息(例如rRNAtRNAsRNAsnRNAsnoRNAmiRNA等)。Rfam根据多序列比对结果、二级结构的一致性、协方差模型对各种ncRNA及顺式作用元件进行了分类整理,常用于基因组ncRNA序列的查询和注释。截至20225月,Rfamv 14.8)共收录了4094ncRNA家族。


使用Infernal和Rfam注释细菌基因组中的ncRNA的示例

  

接下来展示一个简单例子,结合序列比对工具InfernalRfam数据库注释某细菌基因组中的ncRNA,来介绍使用。

 

安装Infernal程序包


http://eddylab.org/infernal/下载和安装Infernal

#下载 Infernal 安装包
wget eddylab.org/infernal/infernal-1.1.2.tar.gz
tar xf infernal-1.1.2.tar.gz
cd infernal-1.1.2
 
#指定安装路径(例如我安装路径为 /home/ly/software/infernal-1.1.2)后编译安装
./configure --prefix /home/ly/software/infernal-1.1.2
make
make install
 
#添加至环境变量
export PATH=/home/ly/software/infernal-1.1.2/bin/:$PATH


  

本地配置Rfam数据库


https://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT下载Rfam CM库以及Rfam clanin文件。

#下载 Rfam 数据库至本地
wget ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/Rfam.cm.gz
gunzip Rfam.cm.gz
wget ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/Rfam.clanin
 
#使用 Infernal 子程序 cmpress 为 Rfam.cm 文件建立索引
cmpress Rfam.cm


 

注释ncRNA,以某细菌基因组为例


InfernalRfam都配置好后,即可使用Infernal的子程序cmscan直接将给定基因组序列与Rfam数据库进行同源比对,来检索可能的ncRNA序列(包括rRNAtRNA、以及各类microRNA等)。

有关Rfam数据库注释ncRNA的细节以及有关cmscan 的标准输出可参阅:https://docs.rfam.org/en/latest/genome-annotation.html,如下以某细菌基因组为例展示简单操作。

#Rfam.clanin 和 Rfam.cm 是 Rfam 数据库路径
#test.fasta 是待注释 ncRNA 的某细菌基因组 fasta 文件
#其它有关 Infernal 子程序 cmscan 的参数信息请使用 cmscan -h 来查看帮助
cmscan --cut_ga --rfam --nohmmonly --fmt 2 --tblout ncRNA.tblout \
    --clanin /home/ly/database/Rfam/Rfam.clanin /home/ly/database/Rfam/Rfam.cm \
    test.fasta > ncRNA.cmscan

本示例结果输出两个主要文件,“ncRNA.cmscan”和“ncRNA.tblout”。 


cmscan标准输出ncRNA.cmscan

Infernal程序标准输出的第一部分是标题,包括运行了什么程序、程序选项等。

 1# cmscan :: search sequence(s) against a CM database
2# INFERNAL 1.1.2 (July 2016)
3# Copyright (C) 2016 Howard Hughes Medical Institute.
4# Freely distributed under a BSD open source license.
5# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
6# query sequence file: /Users/nawrockie/src/infernal-1.1.2/tutorial/mrum-genome.fa
7# target CM database: Rfam.cm
8# database size is set to: 5.9 Mb
9# tabular output of hits: mrum-genome.tblout
10# tabular output format: 2
11# model-specific thresholding: GA cutoffs
12# Rfam pipeline mode: on [strict filtering]
13# clan information read from file: Rfam12.2.claninfo
14# HMM-only mode for 0 basepair models: no
15# number of worker threads: 8
16# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

 

第二部分是序列比对结果(按E-value由小到大排序),展示了基因组中注释到的ncRNA信息。值得注意的是,结果中的一些ncRNA可能被不同算法重复注释到,它们在基因组中的位置可能存在重叠。此时建议只保留其中一个最可信的结果(E-value最低或score最高)。

 1Query:       NC_013790.1  [L=2937203]
2Description: Methanobrevibacter ruminantium M1 chromosome, complete genome
3Hit scores:
4 rank E-value score bias modelname start end mdl trunc gc description
5 ---- --------- ------ ----- ---------------------- ------- ------- --- ----- ---- -----------
6 (1) ! 0 2763.5 45.1 LSU_rRNA_archaea 762872 765862 + cm no 0.49 -
7 (2) ! 0 2755.0 46.1 LSU_rRNA_archaea 2041329 2038338 - cm no 0.48 -
8 (3) ! 0 1872.9 45.1 LSU_rRNA_bacteria 762874 765862 + cm no 0.49 -
9 (4) ! 0 1865.5 46.2 LSU_rRNA_bacteria 2041327 2038338 - cm no 0.48 -
10 (5) ! 0 1581.3 41.5 LSU_rRNA_eukarya 763018 765851 + cm no 0.49 -
11 (6) ! 0 1572.1 42.3 LSU_rRNA_eukarya 2041183 2038349 - cm no 0.49 -
12 (7) ! 0 1552.0 4.1 SSU_rRNA_archaea 2043361 2041888 - cm no 0.53 -
13 (8) ! 0 1546.5 4.1 SSU_rRNA_archaea 760878 762351 + cm no 0.54 -
14 (9) ! 0 1161.9 3.7 SSU_rRNA_bacteria 2043366 2041886 - cm no 0.53 -
15 (10) ! 0 1156.4 3.7 SSU_rRNA_bacteria 760873 762353 + cm no 0.53 -
16 (11) ! 9.9e-293 970.4 4.6 SSU_rRNA_eukarya 2043361 2041891 - cm no 0.53 -
17 (12) ! 9.9e-291 963.8 4.5 SSU_rRNA_eukarya 760878 762348 + cm no 0.54 -
18 (13) ! 7.7e-281 919.9 4.6 SSU_rRNA_microsporidia 2043361 2041891 - cm no 0.53 -
19 (14) ! 5.4e-280 917.2 4.5 SSU_rRNA_microsporidia 760878 762348 + cm no 0.54 -
20 (15) ! 1.1e-53 184.9 0.0 RNaseP_arch 2614544 2614262 - cm no 0.43 -
21 (16) ! 6.9e-49 197.6 0.1 Archaea_SRP 1064321 1064634 + cm no 0.44 -
22 (17) ! 6.8e-28 115.2 0.0 FMN 193975 193837 - cm no 0.42 -
23 (18) ! 4.9e-16 72.1 0.0 tRNA 735136 735208 + cm no 0.59 -
24 (19) ! 1e-15 71.0 0.0 tRNA 2350593 2350520 - cm no 0.66 -
25 (20) ! 1.1e-15 70.9 0.0 tRNA 2680310 2680384 + cm no 0.52 -
26 (21) ! 2.2e-15 69.7 0.0 tRNA 2351254 2351181 - cm no 0.62 -
27 (22) ! 2.5e-15 69.5 0.0 tRNA 361676 361604 - cm no 0.51 -
28 (23) ! 3.2e-15 69.2 0.0 tRNA 2585265 2585193 - cm no 0.60 -
29 (24) ! 3.9e-15 68.8 0.0 tRNA 2585187 2585114 - cm no 0.59 -
30 (25) ! 4.3e-15 68.7 0.0 tRNA 2680159 2680233 + cm no 0.67 -

E-value:序列比对的E值,越低越可信;

score:序列比对得分,越高越可信,和E值对应;

modelname:注释到的ncRNA类型;

startstop:注释到的ncRNA序列在基因组序列的起始位置和终止位置,+/-分别表示正/负链。

 

第三部分列出了序列比对的细节部分,以及ncRNA的二级结构信息等。



cmscan 表格输出(ncRNA.tblout

该表格中的主要内容与上述cmscan标准输出大致相同,不再多做解释。

 1#idx target name            accession query name           accession clan name mdl mdl from   mdl to seq from   seq to strand trunc pass   gc  bias  score   E-value inc olp anyidx afrct1 afrct2 winidx wfrct1 wfrct2 description of target
2#--- ---------------------- --------- -------------------- --------- --------- --- -------- -------- -------- -------- ------ ----- ---- ---- ----- ------ --------- --- --- ------ ------ ------ ------ ------ ------ ---------------------
31 LSU_rRNA_archaea RF02540 NC_013790.1 - CL00112 cm 1 2990 762872 765862 + no 1 0.49 45.1 2763.5 0 ! ^ - - - - - - -
42 LSU_rRNA_archaea RF02540 NC_013790.1 - CL00112 cm 1 2990 2041329 2038338 - no 1 0.48 46.1 2755.0 0 ! ^ - - - - - - -
53 LSU_rRNA_bacteria RF02541 NC_013790.1 - CL00112 cm 1 2925 762874 765862 + no 1 0.49 45.1 1872.9 0 ! = 1 1.000 0.999 " " " -
64 LSU_rRNA_bacteria RF02541 NC_013790.1 - CL00112 cm 1 2925 2041327 2038338 - no 1 0.48 46.2 1865.5 0 ! = 2 1.000 0.999 " " " -
75 LSU_rRNA_eukarya RF02543 NC_013790.1 - CL00112 cm 1 3401 763018 765851 + no 1 0.49 41.5 1581.3 0 ! = 1 1.000 0.948 " " " -
86 LSU_rRNA_eukarya RF02543 NC_013790.1 - CL00112 cm 1 3401 2041183 2038349 - no 1 0.49 42.3 1572.1 0 ! = 2 1.000 0.948 " " " -
97 SSU_rRNA_archaea RF01959 NC_013790.1 - CL00111 cm 1 1477 2043361 2041888 - no 1 0.53 4.1 1552.0 0 ! ^ - - - - - - -
108 SSU_rRNA_archaea RF01959 NC_013790.1 - CL00111 cm 1 1477 760878 762351 + no 1 0.54 4.1 1546.5 0 ! ^ - - - - - - -
119 SSU_rRNA_bacteria RF00177 NC_013790.1 - CL00111 cm 1 1533 2043366 2041886 - no 1 0.53 3.7 1161.9 0 ! = 7 0.995 1.000 " " " -
1210 SSU_rRNA_bacteria RF00177 NC_013790.1 - CL00111 cm 1 1533 760873 762353 + no 1 0.53 3.7 1156.4 0 ! = 8 0.995 1.000 " " " -
1311 SSU_rRNA_eukarya RF01960 NC_013790.1 - CL00111 cm 1 1851 2043361 2041891 - no 1 0.53 4.6 970.4 9.9e-293 ! = 7 1.000 0.998 " " " -
1412 SSU_rRNA_eukarya RF01960 NC_013790.1 - CL00111 cm 1 1851 760878 762348 + no 1 0.54 4.5 963.8 9.9e-291 ! = 8 1.000 0.998 " " " -
1513 SSU_rRNA_microsporidia RF02542 NC_013790.1 - CL00111 cm 1 1312 2043361 2041891 - no 1 0.53 4.6 919.9 7.7e-281 ! = 7 1.000 0.998 " " " -
1614 SSU_rRNA_microsporidia RF02542 NC_013790.1 - CL00111 cm 1 1312 760878 762348 + no 1 0.54 4.5 917.2 5.4e-280 ! = 8 1.000 0.998 " " " -
1715 RNaseP_arch RF00373 NC_013790.1 - CL00002 cm 1 303 2614544 2614262 - no 1 0.43 0.0 184.9 1.1e-53 ! * - - - - - - -
1816 Archaea_SRP RF01857 NC_013790.1 - CL00003 cm 1 318 1064321 1064634 + no 1 0.44 0.1 197.6 6.9e-49 ! * - - - - - - -
1917 FMN RF00050 NC_013790.1 - - cm 1 140 193975 193837 - no 1 0.42 0.0 115.2 6.8e-28 ! * - - - - - - -
2018 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 735136 735208 + no 1 0.59 0.0 72.1 4.9e-16 ! * - - - - - - -
2119 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2350593 2350520 - no 1 0.66 0.0 71.0 1e-15 ! * - - - - - - -
2220 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2680310 2680384 + no 1 0.52 0.0 70.9 1.1e-15 ! * - - - - - - -
2321 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2351254 2351181 - no 1 0.62 0.0 69.7 2.2e-15 ! * - - - - - - -
2422 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 361676 361604 - no 1 0.51 0.0 69.5 2.5e-15 ! * - - - - - - -
2523 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2585265 2585193 - no 1 0.60 0.0 69.2 3.2e-15 ! * - - - - - - -
2624 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2585187 2585114 - no 1 0.59 0.0 68.8 3.9e-15 ! * - - - - - - -
2725 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2680159 2680233 + no 1 0.67 0.0 68.7 4.3e-15 ! * - - - - - - -

但值得注意的是“olp”列,它指示哪些ncRNA可能被重复注释到,即在基因组中的位置存在重叠。该列中,“*”意为不存在任何重叠区;“^”表示与至少一个其它ncRNA存在重叠区,但其它ncRNAE值不低于此ncRNAscore值不高于此ncRNA,即此ncRNA相比其它ncRNA是更可信的;“=”表示与至少一个其它ncRNA存在重叠区,但其它ncRNA比此ncRNA更可信(即与“^”是相反的)。

因此,推荐去除低可信的重叠区,对于每个基因组区域只保留唯一结果。

#去除重叠区中的低可信 ncRNA,使每段基因组区域只保留唯一的高可信 ncRNA
grep -v " = " ncRNA.tblout > ncRNA.deoverlapped.tblout

 

友情链接

测序和生信基础


关于二代测序中duplication产生和占比问题的探讨

NCBI:查询和比对目标基因序列    GEO数据上传 

基因组浏览器:Tablet

测序数据质控:Fastp    FastQC

基因组分析:基因组denovo组装    


基因组Survey和De novo


K-mer分析JELLYFISH    GCE    KmerGenie

短片段拼接工具:CAP3

长片段拼接工具QuickMerge

二代组装工具SOAPdenove2    SPAdes    A5-miseq

三代组装工具NextDenovo    MECAT2    NECAT

其它小基因组拼接叶绿体拼接    线粒体拼接

基因组polish工具variantCaller    Racon    Pilon    NextPolish

组装评估工具 QUAST    BUSCO    GC-Depth分布图

  

基因组结构区预测和注释


重复序列预测:RepeatMasker    RepeatModeler

原核基因预测:Prodigal

非编码RNA预测:rRNAmmer(rRNA)    tRNAscan-SE(tRNA)

原核CRISPRs预测:CRISPR finder    CRISPRCasFinder    PILER-CR    CRT    CRISPRdigger

基因岛预测:IslandViewer    IslandPath-DIMOB

原噬菌体预测:PHASTER


基因组功能注释NCBI(NR/NT)  

                          Uniprot(Swiss-Prot/TrEMBL)

                          基因本体论(GO) 

                          京都基因与基因组百科全书(KEGG)

                          蛋白质直系同源簇(COG/KOG)

次级代谢物基因簇:BAGEL4    antiSMASH    PRISM

叶绿体、线粒体基因和非编码RNA的预测和注释:MITOS    GeSeq    PGA

github-actions[bot] commented 2 years ago

使用Rfam数据库注释基因组中的非编码RNA(ncRNA) by 小白鱼的生统笔记


使用Rfam数据库注释基因组中的非编码RNA(ncRNA)

Rfamhttps://rfam.xfam.org/是非编码RNAnon-coding RNAncRNA)家族的数据库,包括真核、原核和病毒等多种类型的ncRNA信息(例如rRNAtRNAsRNAsnRNAsnoRNAmiRNA等)。Rfam根据多序列比对结果、二级结构的一致性、协方差模型对各种ncRNA及顺式作用元件进行了分类整理,常用于基因组ncRNA序列的查询和注释。截至20225月,Rfamv 14.8)共收录了4094ncRNA家族。


使用Infernal和Rfam注释细菌基因组中的ncRNA的示例

  

接下来展示一个简单例子,结合序列比对工具InfernalRfam数据库注释某细菌基因组中的ncRNA,来介绍使用。

 

安装Infernal程序包


http://eddylab.org/infernal/下载和安装Infernal

#下载 Infernal 安装包
wget eddylab.org/infernal/infernal-1.1.2.tar.gz
tar xf infernal-1.1.2.tar.gz
cd infernal-1.1.2
 
#指定安装路径(例如我安装路径为 /home/ly/software/infernal-1.1.2)后编译安装
./configure --prefix /home/ly/software/infernal-1.1.2
make
make install
 
#添加至环境变量
export PATH=/home/ly/software/infernal-1.1.2/bin/:$PATH


  

本地配置Rfam数据库


https://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT下载Rfam CM库以及Rfam clanin文件。

#下载 Rfam 数据库至本地
wget ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/Rfam.cm.gz
gunzip Rfam.cm.gz
wget ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/Rfam.clanin
 
#使用 Infernal 子程序 cmpress 为 Rfam.cm 文件建立索引
cmpress Rfam.cm


 

注释ncRNA,以某细菌基因组为例


InfernalRfam都配置好后,即可使用Infernal的子程序cmscan直接将给定基因组序列与Rfam数据库进行同源比对,来检索可能的ncRNA序列(包括rRNAtRNA、以及各类microRNA等)。

有关Rfam数据库注释ncRNA的细节以及有关cmscan 的标准输出可参阅:https://docs.rfam.org/en/latest/genome-annotation.html,如下以某细菌基因组为例展示简单操作。

#Rfam.clanin 和 Rfam.cm 是 Rfam 数据库路径
#test.fasta 是待注释 ncRNA 的某细菌基因组 fasta 文件
#其它有关 Infernal 子程序 cmscan 的参数信息请使用 cmscan -h 来查看帮助
cmscan --cut_ga --rfam --nohmmonly --fmt 2 --tblout ncRNA.tblout \
    --clanin /home/ly/database/Rfam/Rfam.clanin /home/ly/database/Rfam/Rfam.cm \
    test.fasta > ncRNA.cmscan

本示例结果输出两个主要文件,“ncRNA.cmscan”和“ncRNA.tblout”。 


cmscan标准输出ncRNA.cmscan

Infernal程序标准输出的第一部分是标题,包括运行了什么程序、程序选项等。

 1# cmscan :: search sequence(s) against a CM database
2# INFERNAL 1.1.2 (July 2016)
3# Copyright (C) 2016 Howard Hughes Medical Institute.
4# Freely distributed under a BSD open source license.
5# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
6# query sequence file: /Users/nawrockie/src/infernal-1.1.2/tutorial/mrum-genome.fa
7# target CM database: Rfam.cm
8# database size is set to: 5.9 Mb
9# tabular output of hits: mrum-genome.tblout
10# tabular output format: 2
11# model-specific thresholding: GA cutoffs
12# Rfam pipeline mode: on [strict filtering]
13# clan information read from file: Rfam12.2.claninfo
14# HMM-only mode for 0 basepair models: no
15# number of worker threads: 8
16# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

 

第二部分是序列比对结果(按E-value由小到大排序),展示了基因组中注释到的ncRNA信息。值得注意的是,结果中的一些ncRNA可能被不同算法重复注释到,它们在基因组中的位置可能存在重叠。此时建议只保留其中一个最可信的结果(E-value最低或score最高)。

 1Query:       NC_013790.1  [L=2937203]
2Description: Methanobrevibacter ruminantium M1 chromosome, complete genome
3Hit scores:
4 rank E-value score bias modelname start end mdl trunc gc description
5 ---- --------- ------ ----- ---------------------- ------- ------- --- ----- ---- -----------
6 (1) ! 0 2763.5 45.1 LSU_rRNA_archaea 762872 765862 + cm no 0.49 -
7 (2) ! 0 2755.0 46.1 LSU_rRNA_archaea 2041329 2038338 - cm no 0.48 -
8 (3) ! 0 1872.9 45.1 LSU_rRNA_bacteria 762874 765862 + cm no 0.49 -
9 (4) ! 0 1865.5 46.2 LSU_rRNA_bacteria 2041327 2038338 - cm no 0.48 -
10 (5) ! 0 1581.3 41.5 LSU_rRNA_eukarya 763018 765851 + cm no 0.49 -
11 (6) ! 0 1572.1 42.3 LSU_rRNA_eukarya 2041183 2038349 - cm no 0.49 -
12 (7) ! 0 1552.0 4.1 SSU_rRNA_archaea 2043361 2041888 - cm no 0.53 -
13 (8) ! 0 1546.5 4.1 SSU_rRNA_archaea 760878 762351 + cm no 0.54 -
14 (9) ! 0 1161.9 3.7 SSU_rRNA_bacteria 2043366 2041886 - cm no 0.53 -
15 (10) ! 0 1156.4 3.7 SSU_rRNA_bacteria 760873 762353 + cm no 0.53 -
16 (11) ! 9.9e-293 970.4 4.6 SSU_rRNA_eukarya 2043361 2041891 - cm no 0.53 -
17 (12) ! 9.9e-291 963.8 4.5 SSU_rRNA_eukarya 760878 762348 + cm no 0.54 -
18 (13) ! 7.7e-281 919.9 4.6 SSU_rRNA_microsporidia 2043361 2041891 - cm no 0.53 -
19 (14) ! 5.4e-280 917.2 4.5 SSU_rRNA_microsporidia 760878 762348 + cm no 0.54 -
20 (15) ! 1.1e-53 184.9 0.0 RNaseP_arch 2614544 2614262 - cm no 0.43 -
21 (16) ! 6.9e-49 197.6 0.1 Archaea_SRP 1064321 1064634 + cm no 0.44 -
22 (17) ! 6.8e-28 115.2 0.0 FMN 193975 193837 - cm no 0.42 -
23 (18) ! 4.9e-16 72.1 0.0 tRNA 735136 735208 + cm no 0.59 -
24 (19) ! 1e-15 71.0 0.0 tRNA 2350593 2350520 - cm no 0.66 -
25 (20) ! 1.1e-15 70.9 0.0 tRNA 2680310 2680384 + cm no 0.52 -
26 (21) ! 2.2e-15 69.7 0.0 tRNA 2351254 2351181 - cm no 0.62 -
27 (22) ! 2.5e-15 69.5 0.0 tRNA 361676 361604 - cm no 0.51 -
28 (23) ! 3.2e-15 69.2 0.0 tRNA 2585265 2585193 - cm no 0.60 -
29 (24) ! 3.9e-15 68.8 0.0 tRNA 2585187 2585114 - cm no 0.59 -
30 (25) ! 4.3e-15 68.7 0.0 tRNA 2680159 2680233 + cm no 0.67 -

E-value:序列比对的E值,越低越可信;

score:序列比对得分,越高越可信,和E值对应;

modelname:注释到的ncRNA类型;

startstop:注释到的ncRNA序列在基因组序列的起始位置和终止位置,+/-分别表示正/负链。

 

第三部分列出了序列比对的细节部分,以及ncRNA的二级结构信息等。



cmscan 表格输出(ncRNA.tblout

该表格中的主要内容与上述cmscan标准输出大致相同,不再多做解释。

 1#idx target name            accession query name           accession clan name mdl mdl from   mdl to seq from   seq to strand trunc pass   gc  bias  score   E-value inc olp anyidx afrct1 afrct2 winidx wfrct1 wfrct2 description of target
2#--- ---------------------- --------- -------------------- --------- --------- --- -------- -------- -------- -------- ------ ----- ---- ---- ----- ------ --------- --- --- ------ ------ ------ ------ ------ ------ ---------------------
31 LSU_rRNA_archaea RF02540 NC_013790.1 - CL00112 cm 1 2990 762872 765862 + no 1 0.49 45.1 2763.5 0 ! ^ - - - - - - -
42 LSU_rRNA_archaea RF02540 NC_013790.1 - CL00112 cm 1 2990 2041329 2038338 - no 1 0.48 46.1 2755.0 0 ! ^ - - - - - - -
53 LSU_rRNA_bacteria RF02541 NC_013790.1 - CL00112 cm 1 2925 762874 765862 + no 1 0.49 45.1 1872.9 0 ! = 1 1.000 0.999 " " " -
64 LSU_rRNA_bacteria RF02541 NC_013790.1 - CL00112 cm 1 2925 2041327 2038338 - no 1 0.48 46.2 1865.5 0 ! = 2 1.000 0.999 " " " -
75 LSU_rRNA_eukarya RF02543 NC_013790.1 - CL00112 cm 1 3401 763018 765851 + no 1 0.49 41.5 1581.3 0 ! = 1 1.000 0.948 " " " -
86 LSU_rRNA_eukarya RF02543 NC_013790.1 - CL00112 cm 1 3401 2041183 2038349 - no 1 0.49 42.3 1572.1 0 ! = 2 1.000 0.948 " " " -
97 SSU_rRNA_archaea RF01959 NC_013790.1 - CL00111 cm 1 1477 2043361 2041888 - no 1 0.53 4.1 1552.0 0 ! ^ - - - - - - -
108 SSU_rRNA_archaea RF01959 NC_013790.1 - CL00111 cm 1 1477 760878 762351 + no 1 0.54 4.1 1546.5 0 ! ^ - - - - - - -
119 SSU_rRNA_bacteria RF00177 NC_013790.1 - CL00111 cm 1 1533 2043366 2041886 - no 1 0.53 3.7 1161.9 0 ! = 7 0.995 1.000 " " " -
1210 SSU_rRNA_bacteria RF00177 NC_013790.1 - CL00111 cm 1 1533 760873 762353 + no 1 0.53 3.7 1156.4 0 ! = 8 0.995 1.000 " " " -
1311 SSU_rRNA_eukarya RF01960 NC_013790.1 - CL00111 cm 1 1851 2043361 2041891 - no 1 0.53 4.6 970.4 9.9e-293 ! = 7 1.000 0.998 " " " -
1412 SSU_rRNA_eukarya RF01960 NC_013790.1 - CL00111 cm 1 1851 760878 762348 + no 1 0.54 4.5 963.8 9.9e-291 ! = 8 1.000 0.998 " " " -
1513 SSU_rRNA_microsporidia RF02542 NC_013790.1 - CL00111 cm 1 1312 2043361 2041891 - no 1 0.53 4.6 919.9 7.7e-281 ! = 7 1.000 0.998 " " " -
1614 SSU_rRNA_microsporidia RF02542 NC_013790.1 - CL00111 cm 1 1312 760878 762348 + no 1 0.54 4.5 917.2 5.4e-280 ! = 8 1.000 0.998 " " " -
1715 RNaseP_arch RF00373 NC_013790.1 - CL00002 cm 1 303 2614544 2614262 - no 1 0.43 0.0 184.9 1.1e-53 ! * - - - - - - -
1816 Archaea_SRP RF01857 NC_013790.1 - CL00003 cm 1 318 1064321 1064634 + no 1 0.44 0.1 197.6 6.9e-49 ! * - - - - - - -
1917 FMN RF00050 NC_013790.1 - - cm 1 140 193975 193837 - no 1 0.42 0.0 115.2 6.8e-28 ! * - - - - - - -
2018 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 735136 735208 + no 1 0.59 0.0 72.1 4.9e-16 ! * - - - - - - -
2119 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2350593 2350520 - no 1 0.66 0.0 71.0 1e-15 ! * - - - - - - -
2220 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2680310 2680384 + no 1 0.52 0.0 70.9 1.1e-15 ! * - - - - - - -
2321 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2351254 2351181 - no 1 0.62 0.0 69.7 2.2e-15 ! * - - - - - - -
2422 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 361676 361604 - no 1 0.51 0.0 69.5 2.5e-15 ! * - - - - - - -
2523 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2585265 2585193 - no 1 0.60 0.0 69.2 3.2e-15 ! * - - - - - - -
2624 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2585187 2585114 - no 1 0.59 0.0 68.8 3.9e-15 ! * - - - - - - -
2725 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2680159 2680233 + no 1 0.67 0.0 68.7 4.3e-15 ! * - - - - - - -

但值得注意的是“olp”列,它指示哪些ncRNA可能被重复注释到,即在基因组中的位置存在重叠。该列中,“*”意为不存在任何重叠区;“^”表示与至少一个其它ncRNA存在重叠区,但其它ncRNAE值不低于此ncRNAscore值不高于此ncRNA,即此ncRNA相比其它ncRNA是更可信的;“=”表示与至少一个其它ncRNA存在重叠区,但其它ncRNA比此ncRNA更可信(即与“^”是相反的)。

因此,推荐去除低可信的重叠区,对于每个基因组区域只保留唯一结果。

#去除重叠区中的低可信 ncRNA,使每段基因组区域只保留唯一的高可信 ncRNA
grep -v " = " ncRNA.tblout > ncRNA.deoverlapped.tblout

 

友情链接

测序和生信基础


关于二代测序中duplication产生和占比问题的探讨

NCBI:查询和比对目标基因序列    GEO数据上传 

基因组浏览器:Tablet

测序数据质控:Fastp    FastQC

基因组分析:基因组denovo组装    


基因组Survey和De novo


K-mer分析JELLYFISH    GCE    KmerGenie

短片段拼接工具:CAP3

长片段拼接工具QuickMerge

二代组装工具SOAPdenove2    SPAdes    A5-miseq

三代组装工具NextDenovo    MECAT2    NECAT

其它小基因组拼接叶绿体拼接    线粒体拼接

基因组polish工具variantCaller    Racon    Pilon    NextPolish

组装评估工具 QUAST    BUSCO    GC-Depth分布图

  

基因组结构区预测和注释


重复序列预测:RepeatMasker    RepeatModeler

原核基因预测:Prodigal

非编码RNA预测:rRNAmmer(rRNA)    tRNAscan-SE(tRNA)

原核CRISPRs预测:CRISPR finder    CRISPRCasFinder    PILER-CR    CRT    CRISPRdigger

基因岛预测:IslandViewer    IslandPath-DIMOB

原噬菌体预测:PHASTER


基因组功能注释NCBI(NR/NT)  

                          Uniprot(Swiss-Prot/TrEMBL)

                          基因本体论(GO) 

                          京都基因与基因组百科全书(KEGG)

                          蛋白质直系同源簇(COG/KOG)

次级代谢物基因簇:BAGEL4    antiSMASH    PRISM

叶绿体、线粒体基因和非编码RNA的预测和注释:MITOS    GeSeq    PGA