Closed ixxmu closed 2 years ago
Rfam(https://rfam.xfam.org/) 是非编码RNA(non-coding RNA,ncRNA)家族的数据库,包括真核、原核和病毒等多种类型的ncRNA信息(例如rRNA、tRNA、sRNA、snRNA、snoRNA、miRNA等)。Rfam根据多序列比对结果、二级结构的一致性、协方差模型对各种ncRNA及顺式作用元件进行了分类整理,常用于基因组ncRNA序列的查询和注释。截至2022年5月,Rfam(v 14.8)共收录了4094个ncRNA家族。
使用Infernal和Rfam注释细菌基因组中的ncRNA的示例
接下来展示一个简单例子,结合序列比对工具Infernal和Rfam数据库注释某细菌基因组中的ncRNA,来介绍使用。
安装Infernal程序包
从http://eddylab.org/infernal/下载和安装Infernal。
#下载 Infernal 安装包
wget eddylab.org/infernal/infernal-1.1.2.tar.gz
tar xf infernal-1.1.2.tar.gz
cd infernal-1.1.2
#指定安装路径(例如我安装路径为 /home/ly/software/infernal-1.1.2)后编译安装
./configure --prefix /home/ly/software/infernal-1.1.2
make
make install
#添加至环境变量
export PATH=/home/ly/software/infernal-1.1.2/bin/:$PATH
本地配置Rfam数据库
从https://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT下载Rfam CM库以及Rfam clanin文件。
#下载 Rfam 数据库至本地
wget ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/Rfam.cm.gz
gunzip Rfam.cm.gz
wget ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/Rfam.clanin
#使用 Infernal 子程序 cmpress 为 Rfam.cm 文件建立索引
cmpress Rfam.cm
注释ncRNA,以某细菌基因组为例
Infernal和Rfam都配置好后,即可使用Infernal的子程序cmscan直接将给定基因组序列与Rfam数据库进行同源比对,来检索可能的ncRNA序列(包括rRNA、tRNA、以及各类microRNA等)。
有关Rfam数据库注释ncRNA的细节以及有关cmscan 的标准输出可参阅:https://docs.rfam.org/en/latest/genome-annotation.html,如下以某细菌基因组为例展示简单操作。
#Rfam.clanin 和 Rfam.cm 是 Rfam 数据库路径
#test.fasta 是待注释 ncRNA 的某细菌基因组 fasta 文件
#其它有关 Infernal 子程序 cmscan 的参数信息请使用 cmscan -h 来查看帮助
cmscan --cut_ga --rfam --nohmmonly --fmt 2 --tblout ncRNA.tblout \
--clanin /home/ly/database/Rfam/Rfam.clanin /home/ly/database/Rfam/Rfam.cm \
test.fasta > ncRNA.cmscan
本示例结果输出两个主要文件,“ncRNA.cmscan”和“ncRNA.tblout”。
Infernal程序标准输出的第一部分是标题,包括运行了什么程序、程序选项等。
1# cmscan :: search sequence(s) against a CM database
2# INFERNAL 1.1.2 (July 2016)
3# Copyright (C) 2016 Howard Hughes Medical Institute.
4# Freely distributed under a BSD open source license.
5# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
6# query sequence file: /Users/nawrockie/src/infernal-1.1.2/tutorial/mrum-genome.fa
7# target CM database: Rfam.cm
8# database size is set to: 5.9 Mb
9# tabular output of hits: mrum-genome.tblout
10# tabular output format: 2
11# model-specific thresholding: GA cutoffs
12# Rfam pipeline mode: on [strict filtering]
13# clan information read from file: Rfam12.2.claninfo
14# HMM-only mode for 0 basepair models: no
15# number of worker threads: 8
16# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
第二部分是序列比对结果(按E-value由小到大排序),展示了基因组中注释到的ncRNA信息。值得注意的是,结果中的一些ncRNA可能被不同算法重复注释到,它们在基因组中的位置可能存在重叠。此时建议只保留其中一个最可信的结果(E-value最低或score最高)。
1Query: NC_013790.1 [L=2937203]
2Description: Methanobrevibacter ruminantium M1 chromosome, complete genome
3Hit scores:
4 rank E-value score bias modelname start end mdl trunc gc description
5 ---- --------- ------ ----- ---------------------- ------- ------- --- ----- ---- -----------
6 (1) ! 0 2763.5 45.1 LSU_rRNA_archaea 762872 765862 + cm no 0.49 -
7 (2) ! 0 2755.0 46.1 LSU_rRNA_archaea 2041329 2038338 - cm no 0.48 -
8 (3) ! 0 1872.9 45.1 LSU_rRNA_bacteria 762874 765862 + cm no 0.49 -
9 (4) ! 0 1865.5 46.2 LSU_rRNA_bacteria 2041327 2038338 - cm no 0.48 -
10 (5) ! 0 1581.3 41.5 LSU_rRNA_eukarya 763018 765851 + cm no 0.49 -
11 (6) ! 0 1572.1 42.3 LSU_rRNA_eukarya 2041183 2038349 - cm no 0.49 -
12 (7) ! 0 1552.0 4.1 SSU_rRNA_archaea 2043361 2041888 - cm no 0.53 -
13 (8) ! 0 1546.5 4.1 SSU_rRNA_archaea 760878 762351 + cm no 0.54 -
14 (9) ! 0 1161.9 3.7 SSU_rRNA_bacteria 2043366 2041886 - cm no 0.53 -
15 (10) ! 0 1156.4 3.7 SSU_rRNA_bacteria 760873 762353 + cm no 0.53 -
16 (11) ! 9.9e-293 970.4 4.6 SSU_rRNA_eukarya 2043361 2041891 - cm no 0.53 -
17 (12) ! 9.9e-291 963.8 4.5 SSU_rRNA_eukarya 760878 762348 + cm no 0.54 -
18 (13) ! 7.7e-281 919.9 4.6 SSU_rRNA_microsporidia 2043361 2041891 - cm no 0.53 -
19 (14) ! 5.4e-280 917.2 4.5 SSU_rRNA_microsporidia 760878 762348 + cm no 0.54 -
20 (15) ! 1.1e-53 184.9 0.0 RNaseP_arch 2614544 2614262 - cm no 0.43 -
21 (16) ! 6.9e-49 197.6 0.1 Archaea_SRP 1064321 1064634 + cm no 0.44 -
22 (17) ! 6.8e-28 115.2 0.0 FMN 193975 193837 - cm no 0.42 -
23 (18) ! 4.9e-16 72.1 0.0 tRNA 735136 735208 + cm no 0.59 -
24 (19) ! 1e-15 71.0 0.0 tRNA 2350593 2350520 - cm no 0.66 -
25 (20) ! 1.1e-15 70.9 0.0 tRNA 2680310 2680384 + cm no 0.52 -
26 (21) ! 2.2e-15 69.7 0.0 tRNA 2351254 2351181 - cm no 0.62 -
27 (22) ! 2.5e-15 69.5 0.0 tRNA 361676 361604 - cm no 0.51 -
28 (23) ! 3.2e-15 69.2 0.0 tRNA 2585265 2585193 - cm no 0.60 -
29 (24) ! 3.9e-15 68.8 0.0 tRNA 2585187 2585114 - cm no 0.59 -
30 (25) ! 4.3e-15 68.7 0.0 tRNA 2680159 2680233 + cm no 0.67 -
E-value:序列比对的E值,越低越可信;
score:序列比对得分,越高越可信,和E值对应;
modelname:注释到的ncRNA类型;
start和stop:注释到的ncRNA序列在基因组序列的起始位置和终止位置,+/-分别表示正/负链。
第三部分列出了序列比对的细节部分,以及ncRNA的二级结构信息等。
该表格中的主要内容与上述cmscan标准输出大致相同,不再多做解释。
1#idx target name accession query name accession clan name mdl mdl from mdl to seq from seq to strand trunc pass gc bias score E-value inc olp anyidx afrct1 afrct2 winidx wfrct1 wfrct2 description of target
2#--- ---------------------- --------- -------------------- --------- --------- --- -------- -------- -------- -------- ------ ----- ---- ---- ----- ------ --------- --- --- ------ ------ ------ ------ ------ ------ ---------------------
31 LSU_rRNA_archaea RF02540 NC_013790.1 - CL00112 cm 1 2990 762872 765862 + no 1 0.49 45.1 2763.5 0 ! ^ - - - - - - -
42 LSU_rRNA_archaea RF02540 NC_013790.1 - CL00112 cm 1 2990 2041329 2038338 - no 1 0.48 46.1 2755.0 0 ! ^ - - - - - - -
53 LSU_rRNA_bacteria RF02541 NC_013790.1 - CL00112 cm 1 2925 762874 765862 + no 1 0.49 45.1 1872.9 0 ! = 1 1.000 0.999 " " " -
64 LSU_rRNA_bacteria RF02541 NC_013790.1 - CL00112 cm 1 2925 2041327 2038338 - no 1 0.48 46.2 1865.5 0 ! = 2 1.000 0.999 " " " -
75 LSU_rRNA_eukarya RF02543 NC_013790.1 - CL00112 cm 1 3401 763018 765851 + no 1 0.49 41.5 1581.3 0 ! = 1 1.000 0.948 " " " -
86 LSU_rRNA_eukarya RF02543 NC_013790.1 - CL00112 cm 1 3401 2041183 2038349 - no 1 0.49 42.3 1572.1 0 ! = 2 1.000 0.948 " " " -
97 SSU_rRNA_archaea RF01959 NC_013790.1 - CL00111 cm 1 1477 2043361 2041888 - no 1 0.53 4.1 1552.0 0 ! ^ - - - - - - -
108 SSU_rRNA_archaea RF01959 NC_013790.1 - CL00111 cm 1 1477 760878 762351 + no 1 0.54 4.1 1546.5 0 ! ^ - - - - - - -
119 SSU_rRNA_bacteria RF00177 NC_013790.1 - CL00111 cm 1 1533 2043366 2041886 - no 1 0.53 3.7 1161.9 0 ! = 7 0.995 1.000 " " " -
1210 SSU_rRNA_bacteria RF00177 NC_013790.1 - CL00111 cm 1 1533 760873 762353 + no 1 0.53 3.7 1156.4 0 ! = 8 0.995 1.000 " " " -
1311 SSU_rRNA_eukarya RF01960 NC_013790.1 - CL00111 cm 1 1851 2043361 2041891 - no 1 0.53 4.6 970.4 9.9e-293 ! = 7 1.000 0.998 " " " -
1412 SSU_rRNA_eukarya RF01960 NC_013790.1 - CL00111 cm 1 1851 760878 762348 + no 1 0.54 4.5 963.8 9.9e-291 ! = 8 1.000 0.998 " " " -
1513 SSU_rRNA_microsporidia RF02542 NC_013790.1 - CL00111 cm 1 1312 2043361 2041891 - no 1 0.53 4.6 919.9 7.7e-281 ! = 7 1.000 0.998 " " " -
1614 SSU_rRNA_microsporidia RF02542 NC_013790.1 - CL00111 cm 1 1312 760878 762348 + no 1 0.54 4.5 917.2 5.4e-280 ! = 8 1.000 0.998 " " " -
1715 RNaseP_arch RF00373 NC_013790.1 - CL00002 cm 1 303 2614544 2614262 - no 1 0.43 0.0 184.9 1.1e-53 ! * - - - - - - -
1816 Archaea_SRP RF01857 NC_013790.1 - CL00003 cm 1 318 1064321 1064634 + no 1 0.44 0.1 197.6 6.9e-49 ! * - - - - - - -
1917 FMN RF00050 NC_013790.1 - - cm 1 140 193975 193837 - no 1 0.42 0.0 115.2 6.8e-28 ! * - - - - - - -
2018 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 735136 735208 + no 1 0.59 0.0 72.1 4.9e-16 ! * - - - - - - -
2119 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2350593 2350520 - no 1 0.66 0.0 71.0 1e-15 ! * - - - - - - -
2220 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2680310 2680384 + no 1 0.52 0.0 70.9 1.1e-15 ! * - - - - - - -
2321 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2351254 2351181 - no 1 0.62 0.0 69.7 2.2e-15 ! * - - - - - - -
2422 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 361676 361604 - no 1 0.51 0.0 69.5 2.5e-15 ! * - - - - - - -
2523 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2585265 2585193 - no 1 0.60 0.0 69.2 3.2e-15 ! * - - - - - - -
2624 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2585187 2585114 - no 1 0.59 0.0 68.8 3.9e-15 ! * - - - - - - -
2725 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2680159 2680233 + no 1 0.67 0.0 68.7 4.3e-15 ! * - - - - - - -
但值得注意的是“olp”列,它指示哪些ncRNA可能被重复注释到,即在基因组中的位置存在重叠。该列中,“*”意为不存在任何重叠区;“^”表示与至少一个其它ncRNA存在重叠区,但其它ncRNA的E值不低于此ncRNA或score值不高于此ncRNA,即此ncRNA相比其它ncRNA是更可信的;“=”表示与至少一个其它ncRNA存在重叠区,但其它ncRNA比此ncRNA更可信(即与“^”是相反的)。
因此,推荐去除低可信的重叠区,对于每个基因组区域只保留唯一结果。
#去除重叠区中的低可信 ncRNA,使每段基因组区域只保留唯一的高可信 ncRNA
grep -v " = " ncRNA.tblout > ncRNA.deoverlapped.tblout
测序和生信基础
NCBI:查询和比对目标基因序列 GEO数据上传
基因组浏览器:Tablet
基因组分析:基因组denovo组装
基因组Survey和De novo
K-mer分析:JELLYFISH GCE KmerGenie
短片段拼接工具:CAP3
长片段拼接工具:QuickMerge
二代组装工具:SOAPdenove2 SPAdes A5-miseq
三代组装工具:NextDenovo MECAT2 NECAT
基因组polish工具:variantCaller Racon Pilon NextPolish
组装评估工具: QUAST BUSCO GC-Depth分布图
基因组结构区预测和注释
重复序列预测:RepeatMasker RepeatModeler
原核基因预测:Prodigal
非编码RNA预测:rRNAmmer(rRNA) tRNAscan-SE(tRNA)
原核CRISPRs预测:CRISPR finder CRISPRCasFinder PILER-CR CRT CRISPRdigger
基因岛预测:IslandViewer IslandPath-DIMOB
原噬菌体预测:PHASTER
基因组功能注释:NCBI(NR/NT)
次级代谢物基因簇:BAGEL4 antiSMASH PRISM
叶绿体、线粒体基因和非编码RNA的预测和注释:MITOS GeSeq PGA
Rfam(https://rfam.xfam.org/) 是非编码RNA(non-coding RNA,ncRNA)家族的数据库,包括真核、原核和病毒等多种类型的ncRNA信息(例如rRNA、tRNA、sRNA、snRNA、snoRNA、miRNA等)。Rfam根据多序列比对结果、二级结构的一致性、协方差模型对各种ncRNA及顺式作用元件进行了分类整理,常用于基因组ncRNA序列的查询和注释。截至2022年5月,Rfam(v 14.8)共收录了4094个ncRNA家族。
使用Infernal和Rfam注释细菌基因组中的ncRNA的示例
接下来展示一个简单例子,结合序列比对工具Infernal和Rfam数据库注释某细菌基因组中的ncRNA,来介绍使用。
安装Infernal程序包
从http://eddylab.org/infernal/下载和安装Infernal。
#下载 Infernal 安装包
wget eddylab.org/infernal/infernal-1.1.2.tar.gz
tar xf infernal-1.1.2.tar.gz
cd infernal-1.1.2
#指定安装路径(例如我安装路径为 /home/ly/software/infernal-1.1.2)后编译安装
./configure --prefix /home/ly/software/infernal-1.1.2
make
make install
#添加至环境变量
export PATH=/home/ly/software/infernal-1.1.2/bin/:$PATH
本地配置Rfam数据库
从https://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT下载Rfam CM库以及Rfam clanin文件。
#下载 Rfam 数据库至本地
wget ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/Rfam.cm.gz
gunzip Rfam.cm.gz
wget ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/Rfam.clanin
#使用 Infernal 子程序 cmpress 为 Rfam.cm 文件建立索引
cmpress Rfam.cm
注释ncRNA,以某细菌基因组为例
Infernal和Rfam都配置好后,即可使用Infernal的子程序cmscan直接将给定基因组序列与Rfam数据库进行同源比对,来检索可能的ncRNA序列(包括rRNA、tRNA、以及各类microRNA等)。
有关Rfam数据库注释ncRNA的细节以及有关cmscan 的标准输出可参阅:https://docs.rfam.org/en/latest/genome-annotation.html,如下以某细菌基因组为例展示简单操作。
#Rfam.clanin 和 Rfam.cm 是 Rfam 数据库路径
#test.fasta 是待注释 ncRNA 的某细菌基因组 fasta 文件
#其它有关 Infernal 子程序 cmscan 的参数信息请使用 cmscan -h 来查看帮助
cmscan --cut_ga --rfam --nohmmonly --fmt 2 --tblout ncRNA.tblout \
--clanin /home/ly/database/Rfam/Rfam.clanin /home/ly/database/Rfam/Rfam.cm \
test.fasta > ncRNA.cmscan
本示例结果输出两个主要文件,“ncRNA.cmscan”和“ncRNA.tblout”。
Infernal程序标准输出的第一部分是标题,包括运行了什么程序、程序选项等。
1# cmscan :: search sequence(s) against a CM database
2# INFERNAL 1.1.2 (July 2016)
3# Copyright (C) 2016 Howard Hughes Medical Institute.
4# Freely distributed under a BSD open source license.
5# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
6# query sequence file: /Users/nawrockie/src/infernal-1.1.2/tutorial/mrum-genome.fa
7# target CM database: Rfam.cm
8# database size is set to: 5.9 Mb
9# tabular output of hits: mrum-genome.tblout
10# tabular output format: 2
11# model-specific thresholding: GA cutoffs
12# Rfam pipeline mode: on [strict filtering]
13# clan information read from file: Rfam12.2.claninfo
14# HMM-only mode for 0 basepair models: no
15# number of worker threads: 8
16# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
第二部分是序列比对结果(按E-value由小到大排序),展示了基因组中注释到的ncRNA信息。值得注意的是,结果中的一些ncRNA可能被不同算法重复注释到,它们在基因组中的位置可能存在重叠。此时建议只保留其中一个最可信的结果(E-value最低或score最高)。
1Query: NC_013790.1 [L=2937203]
2Description: Methanobrevibacter ruminantium M1 chromosome, complete genome
3Hit scores:
4 rank E-value score bias modelname start end mdl trunc gc description
5 ---- --------- ------ ----- ---------------------- ------- ------- --- ----- ---- -----------
6 (1) ! 0 2763.5 45.1 LSU_rRNA_archaea 762872 765862 + cm no 0.49 -
7 (2) ! 0 2755.0 46.1 LSU_rRNA_archaea 2041329 2038338 - cm no 0.48 -
8 (3) ! 0 1872.9 45.1 LSU_rRNA_bacteria 762874 765862 + cm no 0.49 -
9 (4) ! 0 1865.5 46.2 LSU_rRNA_bacteria 2041327 2038338 - cm no 0.48 -
10 (5) ! 0 1581.3 41.5 LSU_rRNA_eukarya 763018 765851 + cm no 0.49 -
11 (6) ! 0 1572.1 42.3 LSU_rRNA_eukarya 2041183 2038349 - cm no 0.49 -
12 (7) ! 0 1552.0 4.1 SSU_rRNA_archaea 2043361 2041888 - cm no 0.53 -
13 (8) ! 0 1546.5 4.1 SSU_rRNA_archaea 760878 762351 + cm no 0.54 -
14 (9) ! 0 1161.9 3.7 SSU_rRNA_bacteria 2043366 2041886 - cm no 0.53 -
15 (10) ! 0 1156.4 3.7 SSU_rRNA_bacteria 760873 762353 + cm no 0.53 -
16 (11) ! 9.9e-293 970.4 4.6 SSU_rRNA_eukarya 2043361 2041891 - cm no 0.53 -
17 (12) ! 9.9e-291 963.8 4.5 SSU_rRNA_eukarya 760878 762348 + cm no 0.54 -
18 (13) ! 7.7e-281 919.9 4.6 SSU_rRNA_microsporidia 2043361 2041891 - cm no 0.53 -
19 (14) ! 5.4e-280 917.2 4.5 SSU_rRNA_microsporidia 760878 762348 + cm no 0.54 -
20 (15) ! 1.1e-53 184.9 0.0 RNaseP_arch 2614544 2614262 - cm no 0.43 -
21 (16) ! 6.9e-49 197.6 0.1 Archaea_SRP 1064321 1064634 + cm no 0.44 -
22 (17) ! 6.8e-28 115.2 0.0 FMN 193975 193837 - cm no 0.42 -
23 (18) ! 4.9e-16 72.1 0.0 tRNA 735136 735208 + cm no 0.59 -
24 (19) ! 1e-15 71.0 0.0 tRNA 2350593 2350520 - cm no 0.66 -
25 (20) ! 1.1e-15 70.9 0.0 tRNA 2680310 2680384 + cm no 0.52 -
26 (21) ! 2.2e-15 69.7 0.0 tRNA 2351254 2351181 - cm no 0.62 -
27 (22) ! 2.5e-15 69.5 0.0 tRNA 361676 361604 - cm no 0.51 -
28 (23) ! 3.2e-15 69.2 0.0 tRNA 2585265 2585193 - cm no 0.60 -
29 (24) ! 3.9e-15 68.8 0.0 tRNA 2585187 2585114 - cm no 0.59 -
30 (25) ! 4.3e-15 68.7 0.0 tRNA 2680159 2680233 + cm no 0.67 -
E-value:序列比对的E值,越低越可信;
score:序列比对得分,越高越可信,和E值对应;
modelname:注释到的ncRNA类型;
start和stop:注释到的ncRNA序列在基因组序列的起始位置和终止位置,+/-分别表示正/负链。
第三部分列出了序列比对的细节部分,以及ncRNA的二级结构信息等。
该表格中的主要内容与上述cmscan标准输出大致相同,不再多做解释。
1#idx target name accession query name accession clan name mdl mdl from mdl to seq from seq to strand trunc pass gc bias score E-value inc olp anyidx afrct1 afrct2 winidx wfrct1 wfrct2 description of target
2#--- ---------------------- --------- -------------------- --------- --------- --- -------- -------- -------- -------- ------ ----- ---- ---- ----- ------ --------- --- --- ------ ------ ------ ------ ------ ------ ---------------------
31 LSU_rRNA_archaea RF02540 NC_013790.1 - CL00112 cm 1 2990 762872 765862 + no 1 0.49 45.1 2763.5 0 ! ^ - - - - - - -
42 LSU_rRNA_archaea RF02540 NC_013790.1 - CL00112 cm 1 2990 2041329 2038338 - no 1 0.48 46.1 2755.0 0 ! ^ - - - - - - -
53 LSU_rRNA_bacteria RF02541 NC_013790.1 - CL00112 cm 1 2925 762874 765862 + no 1 0.49 45.1 1872.9 0 ! = 1 1.000 0.999 " " " -
64 LSU_rRNA_bacteria RF02541 NC_013790.1 - CL00112 cm 1 2925 2041327 2038338 - no 1 0.48 46.2 1865.5 0 ! = 2 1.000 0.999 " " " -
75 LSU_rRNA_eukarya RF02543 NC_013790.1 - CL00112 cm 1 3401 763018 765851 + no 1 0.49 41.5 1581.3 0 ! = 1 1.000 0.948 " " " -
86 LSU_rRNA_eukarya RF02543 NC_013790.1 - CL00112 cm 1 3401 2041183 2038349 - no 1 0.49 42.3 1572.1 0 ! = 2 1.000 0.948 " " " -
97 SSU_rRNA_archaea RF01959 NC_013790.1 - CL00111 cm 1 1477 2043361 2041888 - no 1 0.53 4.1 1552.0 0 ! ^ - - - - - - -
108 SSU_rRNA_archaea RF01959 NC_013790.1 - CL00111 cm 1 1477 760878 762351 + no 1 0.54 4.1 1546.5 0 ! ^ - - - - - - -
119 SSU_rRNA_bacteria RF00177 NC_013790.1 - CL00111 cm 1 1533 2043366 2041886 - no 1 0.53 3.7 1161.9 0 ! = 7 0.995 1.000 " " " -
1210 SSU_rRNA_bacteria RF00177 NC_013790.1 - CL00111 cm 1 1533 760873 762353 + no 1 0.53 3.7 1156.4 0 ! = 8 0.995 1.000 " " " -
1311 SSU_rRNA_eukarya RF01960 NC_013790.1 - CL00111 cm 1 1851 2043361 2041891 - no 1 0.53 4.6 970.4 9.9e-293 ! = 7 1.000 0.998 " " " -
1412 SSU_rRNA_eukarya RF01960 NC_013790.1 - CL00111 cm 1 1851 760878 762348 + no 1 0.54 4.5 963.8 9.9e-291 ! = 8 1.000 0.998 " " " -
1513 SSU_rRNA_microsporidia RF02542 NC_013790.1 - CL00111 cm 1 1312 2043361 2041891 - no 1 0.53 4.6 919.9 7.7e-281 ! = 7 1.000 0.998 " " " -
1614 SSU_rRNA_microsporidia RF02542 NC_013790.1 - CL00111 cm 1 1312 760878 762348 + no 1 0.54 4.5 917.2 5.4e-280 ! = 8 1.000 0.998 " " " -
1715 RNaseP_arch RF00373 NC_013790.1 - CL00002 cm 1 303 2614544 2614262 - no 1 0.43 0.0 184.9 1.1e-53 ! * - - - - - - -
1816 Archaea_SRP RF01857 NC_013790.1 - CL00003 cm 1 318 1064321 1064634 + no 1 0.44 0.1 197.6 6.9e-49 ! * - - - - - - -
1917 FMN RF00050 NC_013790.1 - - cm 1 140 193975 193837 - no 1 0.42 0.0 115.2 6.8e-28 ! * - - - - - - -
2018 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 735136 735208 + no 1 0.59 0.0 72.1 4.9e-16 ! * - - - - - - -
2119 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2350593 2350520 - no 1 0.66 0.0 71.0 1e-15 ! * - - - - - - -
2220 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2680310 2680384 + no 1 0.52 0.0 70.9 1.1e-15 ! * - - - - - - -
2321 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2351254 2351181 - no 1 0.62 0.0 69.7 2.2e-15 ! * - - - - - - -
2422 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 361676 361604 - no 1 0.51 0.0 69.5 2.5e-15 ! * - - - - - - -
2523 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2585265 2585193 - no 1 0.60 0.0 69.2 3.2e-15 ! * - - - - - - -
2624 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2585187 2585114 - no 1 0.59 0.0 68.8 3.9e-15 ! * - - - - - - -
2725 tRNA RF00005 NC_013790.1 - CL00001 cm 1 71 2680159 2680233 + no 1 0.67 0.0 68.7 4.3e-15 ! * - - - - - - -
但值得注意的是“olp”列,它指示哪些ncRNA可能被重复注释到,即在基因组中的位置存在重叠。该列中,“*”意为不存在任何重叠区;“^”表示与至少一个其它ncRNA存在重叠区,但其它ncRNA的E值不低于此ncRNA或score值不高于此ncRNA,即此ncRNA相比其它ncRNA是更可信的;“=”表示与至少一个其它ncRNA存在重叠区,但其它ncRNA比此ncRNA更可信(即与“^”是相反的)。
因此,推荐去除低可信的重叠区,对于每个基因组区域只保留唯一结果。
#去除重叠区中的低可信 ncRNA,使每段基因组区域只保留唯一的高可信 ncRNA
grep -v " = " ncRNA.tblout > ncRNA.deoverlapped.tblout
测序和生信基础
NCBI:查询和比对目标基因序列 GEO数据上传
基因组浏览器:Tablet
基因组分析:基因组denovo组装
基因组Survey和De novo
K-mer分析:JELLYFISH GCE KmerGenie
短片段拼接工具:CAP3
长片段拼接工具:QuickMerge
二代组装工具:SOAPdenove2 SPAdes A5-miseq
三代组装工具:NextDenovo MECAT2 NECAT
基因组polish工具:variantCaller Racon Pilon NextPolish
组装评估工具: QUAST BUSCO GC-Depth分布图
基因组结构区预测和注释
重复序列预测:RepeatMasker RepeatModeler
原核基因预测:Prodigal
非编码RNA预测:rRNAmmer(rRNA) tRNAscan-SE(tRNA)
原核CRISPRs预测:CRISPR finder CRISPRCasFinder PILER-CR CRT CRISPRdigger
基因岛预测:IslandViewer IslandPath-DIMOB
原噬菌体预测:PHASTER
基因组功能注释:NCBI(NR/NT)
次级代谢物基因簇:BAGEL4 antiSMASH PRISM
叶绿体、线粒体基因和非编码RNA的预测和注释:MITOS GeSeq PGA
https://mp.weixin.qq.com/s/jrQRdx8RKwtmgk0IGbuAWA