Closed ixxmu closed 6 months ago
启动子(Promoter)是基因组中的一种特殊DNA序列,位于基因的上游区域,是转录因子结合的位点,用于启动基因转录的过程,对于基因表达至关重要。
利用生物信息学技术鉴定和分析启动子区域,对于了解基因表达的调控机制、基因组的功能和调控网络等非常有用。
本篇简介如何查询目标基因的启动子区域以及在基因组中提取启动子序列的一些常用方法。
在基因组数据库中手动查找目标基因的启动子序列
通常认为基因上游1~2kb区域为该基因的启动子区域(这都是被审稿人认可的),这方便我们手动查询。接下来我们就以人类基因GADD45A为例,来演示如何在一些常用的基因组数据库(例如NCBI、Ensemble、UCSC等)中手动查询其启动子序列。
例如在NCBI(https://www.ncbi.nlm.nih.gov/)的核酸数据库中寻找GADD45A基因,根据检索结果,定位其位于人类1号染色体67685201~67688334位置。
在检索界面继续往下拉,可以查看该基因的DNA序列组成。在新弹出的检索界面中,我们可以通过修改基因组位置来定位任意区域的DNA序列。
由于一般认为基因上游2kb区域为该基因的启动子区域,因此我们可以根据基因起始位点往上游推2kb。对于本示例的基因GADD45A(人类1号染色体67685201~67688334)来讲,其启动子大致上就是67683201~67685200位置处的DNA序列。
在上述检索结果中修改基因组位置,即得到目标基因的启动子序列了。
根据启动子数据库查找目标基因的启动子序列
除了在上述这种基因组数据库(例如NCBI、Ensemble、UCSC等)中查询外,还有一些专门针对启动子所创建的数据库。例如,真核生物启动子数据库(Eukaryotic Promoter Database,EPD)收录了许多真核生物物种的启动子信息,其转录起始位点大多得到了实验鉴定,这便于我们根据不同物种特征更准确地去查找目标基因的启动子。
进入EPD主页(https://epd.expasy.org/epd/),输入基因名称并选择物种后,点击“Search”。
即可获得目标基因的详细信息并可查看其启动子区域。并可以根据多方实验结果,在“Sequence Retrieval Tool”中输入想要查看的启动子位置,即可获得启动子的DNA序列。
使用Promoter预测基因组启动子结构区
上述主要是根据已知基因名称在数据库中查找其启动子的方法。然而对于未知基因,或者仅提供了基因组DNA序列的情况下,上述方法就不再适用了。
此时可通过一些程序在基因组DNA序列中从头预测启动子结构区,例如Promoter,该程序基于神经网路和遗传算法,主要用于预测脊椎动物PolII启动子的转录起始位点。
进入Promoter主页(https://services.healthtech.dtu.dk/services/Promoter-2.0/),在界面中输入基因组序列或上传FASTA文件后,点击“Submit”提交任务。
等待一会儿后获得预测结果,从所上传的基因组DNA序列中预测的可能的启动子结构区。我们一般选择更靠近起始密码子ATG,且Score更大的结果(Highly likely prediction),作为可能性最大的转录起始位点。
基因组结构区预测
重复序列预测:RepeatMasker RepeatModeler
原核基因预测:Prodigal
非编码RNA预测:rRNAmmer(预测rRNA) tRNAscan-SE(预测tRNA) Rfam(ncRNA数据库)
原核CRISPRs预测:CRISPR finder CRISPRCasFinder PILER-CR CRT CRISPRdigger
基因岛预测:IslandViewer IslandPath-DIMOB
原噬菌体预测:PHASTER
基因组功能注释
蛋白编码基因的常用功能注释:
次级代谢物基因簇:BAGEL4 antiSMASH PRISM
叶绿体、线粒体编码基因和非编码RNA的预测和注释:MITOS GeSeq PGA
https://mp.weixin.qq.com/s/q0_rzikXa5BfmRdLyKln8g