ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
100 stars 28 forks source link

基因组的启动子区(Promoter)的序列查询和预测 #4521

Closed ixxmu closed 6 months ago

ixxmu commented 6 months ago

https://mp.weixin.qq.com/s/q0_rzikXa5BfmRdLyKln8g

ixxmu commented 6 months ago

基因组的启动子区(Promoter)的序列查询和预测 by 小白鱼的生统笔记

基因组的启动子结构区(Promoter)的序列查询和预测

启动子(Promoter)是基因组中的一种特殊DNA序列,位于基因的上游区域,是转录因子结合的位点,用于启动基因转录的过程,对于基因表达至关重要。


利用生物信息学技术鉴定和分析启动子区域,对于了解基因表达的调控机制、基因组的功能和调控网络等非常有用。

本篇简介如何查询目标基因的启动子区域以及在基因组中提取启动子序列的一些常用方法。

 

在基因组数据库中手动查找目标基因的启动子序列


通常认为基因上游1~2kb区域为该基因的启动子区域(这都是被审稿人认可的),这方便我们手动查询。接下来我们就以人类基因GADD45A为例,来演示如何在一些常用的基因组数据库(例如NCBIEnsembleUCSC等)中手动查询其启动子序列。

例如在NCBIhttps://www.ncbi.nlm.nih.gov/)的核酸数据库中寻找GADD45A基因,根据检索结果,定位其位于人类1号染色体67685201~67688334位置。



在检索界面继续往下拉,可以查看该基因的DNA序列组成。在新弹出的检索界面中,我们可以通过修改基因组位置来定位任意区域的DNA序列。



由于一般认为基因上游2kb区域为该基因的启动子区域,因此我们可以根据基因起始位点往上游推2kb。对于本示例的基因GADD45A(人类1号染色体67685201~67688334)来讲,其启动子大致上就是67683201~67685200位置处的DNA序列。

在上述检索结果中修改基因组位置,即得到目标基因的启动子序列了。



根据启动子数据库查找目标基因的启动子序列


除了在上述这种基因组数据库(例如NCBIEnsembleUCSC等)中查询外,还有一些专门针对启动子所创建的数据库。例如,真核生物启动子数据库(Eukaryotic Promoter DatabaseEPD)收录了许多真核生物物种的启动子信息,其转录起始位点大多得到了实验鉴定,这便于我们根据不同物种特征更准确地去查找目标基因的启动子。

进入EPD主页(https://epd.expasy.org/epd/),输入基因名称并选择物种后,点击“Search”。


即可获得目标基因的详细信息并可查看其启动子区域。并可以根据多方实验结果,在“Sequence Retrieval Tool”中输入想要查看的启动子位置,即可获得启动子的DNA序列。



 

使用Promoter预测基因组启动子结构区


上述主要是根据已知基因名称在数据库中查找其启动子的方法。然而对于未知基因,或者仅提供了基因组DNA序列的情况下,上述方法就不再适用了。

此时可通过一些程序在基因组DNA序列中从头预测启动子结构区,例如Promoter,该程序基于神经网路和遗传算法,主要用于预测脊椎动物PolII启动子的转录起始位点。

进入Promoter主页(https://services.healthtech.dtu.dk/services/Promoter-2.0/),在界面中输入基因组序列或上传FASTA文件后,点击“Submit”提交任务。


等待一会儿后获得预测结果,从所上传的基因组DNA序列中预测的可能的启动子结构区。我们一般选择更靠近起始密码子ATG,且Score更大的结果(Highly likely prediction),作为可能性最大的转录起始位点。


 

友情链接

基因组结构区预测


重复序列预测:RepeatMasker    RepeatModeler

原核基因预测:Prodigal

非编码RNA预测:rRNAmmer(预测rRNA)    tRNAscan-SE预测tRNA)    Rfam(ncRNA数据库)

原核CRISPRs预测:CRISPR finder    CRISPRCasFinder    PILER-CR    CRT    CRISPRdigger

基因岛预测:IslandViewer    IslandPath-DIMOB

原噬菌体预测:PHASTER

  

基因组功能注释


蛋白编码基因的常用功能注释

         NCBI(NR/NT)  

        Uniprot(Swiss-Prot/TrEMBL)

        基因本体论(GO) 

        京都基因与基因组百科全书(KEGG)

        蛋白质直系同源簇(COG/KOG)

次级代谢物基因簇:BAGEL4    antiSMASH    PRISM

叶绿体、线粒体编码基因和非编码RNA的预测和注释:MITOS    GeSeq    PGA