在给定DNA或RNA序列中预测开放阅读框（ORF）

在给定DNA或RNA序列中预测开放阅读框（ORF） by 小白鱼的生统笔记

在给定DNA或RNA序列中预测开放阅读框（ORF）的几种工具

开放阅读框（Open Reading Frame，ORF）是指在DNA或RNA序列中具有潜在编码蛋白质的一段连续的核苷酸序列。从起始密码子（通常为AUG）开始，到终止密码子（例如UAA、UAG或UGA）结束，长度是3的倍数。较长的ORF更可能编码较大的蛋白质，而较短的ORF可能编码较小的蛋白质或不具有蛋白质编码功能。

通过分析ORF特征对于更好地理解基因组中的基因组成和蛋白质编码潜力非常重要。在基因组学和转录组学研究中，经常需要确定序列中可能的起始和终止密码子，以及在这些密码子之间的连续核苷酸序列是否具有编码蛋白质的能力。

本篇简介3种预测ORF的常用工具，包括ORFfinder、BESTORF、TransDecoder。

使用ORFfinder寻找开放阅读框（ORF）

ORFfinder是最常用的ORF预测工具之一，用于在DNA或RNA序列识别可能的ORF区域以及寻找潜在的蛋白质编码片段。

在线运行ORFfinder

ORFfinder主页（https://www.ncbi.nlm.nih.gov/orffinder/）中直接提供了便捷的在线运行界面。将待寻找ORF区的DNA或RNA序列粘贴在界面中，并设置运行参数后（包括ORF长度、密码子类型等），点击提交。

等待一会儿后获得结果，包括目标序列中ORF区的位置、长度、编码蛋白等。

还可以在结果界面中继续点击BLAST，将获得的编码蛋白序列在相关的数据库（如NR、SwissProt）中进行同源比对，来查看与目标序列最接近的同源蛋白序列及其功能等。

本地运行ORFfinder

除了在线运行外，ORFfinder还提供了本地程序，适用于批量处理大量的FASTA序列。

但仅提供了Linux版的ORFfinder，因此需要在Linux系统中操作，下载、解压并添加可执行权限后即可使用。

#在 Linux 下下载并解压 ORFfinder
wget https://ftp.ncbi.nlm.nih.gov/genomes/TOOLS/ORFfinder/linux-i64/ORFfinder.gz
gzip -d ORFfinder.gz
 
#添加可执行权限
chmod 777 ORFfinder
 
#添加至环境变量，例如我电脑上的 ORFfinder 安装路径在“~/software/ORFfinder/”
export PATH=~/software/ORFfinder/:$PATH
 
#之后，可调用 ORFfinder 程序识别给定 FASTA 文件中核酸序列中的 ORF 区域
ORFfinder -in test.fasta -s 0 -ml 75 -out ORF.out

输出结果包括目标序列中ORF区的位置、长度、编码蛋白等。

后续可以继续使用BLAST，将获得的编码蛋白序列在相关的数据库（如NR、SwissProt）中进行同源比对，来查看与目标序列最接近的同源蛋白序列及其功能等进行验证，不再多说了。

使用BESTORF寻找开放阅读框（ORF）

BESTORF也是在真核生物DNA或RNA序列中寻找ORF的工具之一，其优点是支持500多种真核生物，能够根据不同的物种进行特征提取来选择最好的ORF。

作为Softberry的服务之一，在Softberry主页（http://www.softberry.com/）中点击“SERVICES > BESTORF”即可在线使用BESTORF。

在BESTORF界面中，将待寻找ORF区的DNA或RNA序列粘贴在界面中，并选择物种后，点击提交即可。

等待一会儿后获得结果，包括目标序列中ORF区的位置、长度、编码蛋白等。

使用TransDecoder寻找开放阅读框（ORF）

TransDecoder（https://github.com/TransDecoder/TransDecoder）主要用于识别转录组中的候选ORF区域，允许将数千个转录本序列作为输入。（但如果输入序列较少，TransDecoder可能效果不好，因为它需要基于输入序列来训练特定物种的模型）。

#安装 TransDecoder 环境
#参考自 TransDecoder 文档：https://github.com/TransDecoder/TransDecoder/wiki
curl -L https://cpanmin.us | perl - App::cpanminus
cpanm install DB_File
cpanm install URI::Escape

如下以包含目标转录本序列的 FASTA文件为例，演示如何使用TransDecoder在给定序列中寻找可能的ORF。

#参考自 TransDecoder 文档：https://github.com/TransDecoder/TransDecoder/wiki
 
#一，寻找可能的 ORF，可通过 -m 参数指定最短氨基酸长度
TransDecoder.LongOrfs -t test.fasta -m 100
 
#二，获得编码蛋白序列后，可以在蛋白数据库（例如 NR、SwissProt）中进行搜索，寻找同源证据支持
#该步骤可以使用 Blast、Diamond、Pfam 等方法来进行，如下以 Diamond 为例进行同源比对
diamond blastp -d uniprot_sprot.fasta -q test.fasta.transdecoder_dir/longest_orfs.pep --evalue 1e-5 --max-target-seqs 1 > blastp.outfmt6
 
#三，整合上述结果，获取最终候选 ORF
TransDecoder.Predict -t test.fasta --retain_blastp_hits blastp.outfmt6

test.fasta.transdecoder.pep，最终候选ORF编码的蛋白序列。

test.fasta.transdecoder.cds，最终候选ORF编码区的核苷酸序列。

test.fasta.transdecoder.gff3和test.fasta.transdecoder.bed，最终候选ORF在转录本中的位置，分别以gff和bed格式存储。

以上结果可以使用GenomeView或IGV等进行基因组可视化，不再多说了。