ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
93 stars 25 forks source link

分享20个蛋白分析工具和数据库 #3865

Closed ixxmu closed 10 months ago

ixxmu commented 10 months ago

https://mp.weixin.qq.com/s/u87rV4JqXdVBng5B3XBBtQ

ixxmu commented 10 months ago

分享20个蛋白分析工具和数据库 by SCIPainter


1.UniProt


UniProt(Universal Protein Resource)是一个综合性的蛋白质数据库,提供了全球范围内已知的蛋白质序列和功能信息。其中,UniProtKB(UniProt Knowledgebase)是最核心的组成部分,包含了经过注释和分类的蛋白质序列和功能信息。它提供了详细的蛋白质注释,包括序列特征、结构域、功能、亚细胞定位、酶活性等。

UniProtKB分为三个子数据库:UniProtKB/Swiss-Prot、UniProtKB/TrEMBL和UniProtKB/PIR。其中,UniProtKB/Swiss-Prot是手工注释的高质量蛋白质数据库,提供了丰富的注释信息;UniProtKB/TrEMBL是通过自动注释和预测获得的蛋白质数据库,注释水平相对较低;UniProtKB/PIR是由Protein Information Resource(PIR)提供的蛋白质数据库。


工具链接:
https://www.uniprot.org/

此外,使用UniProt进行亚细胞定位预测的方法很简单,除了直接通过关键词(如蛋白id、基因名等)查询蛋白信息之外,也可以使用蛋白序列,通过BLAST(如下)的方式找到对应蛋白的信息。


同样,仍将与上文相同的序列复制粘贴到序列框中,点击Run BLAST按钮,进行序列匹配查询,organisms选择Human时得到的结果如下。


点击蛋白的UniProt id (如这里的Q16719)可以查看该蛋白详细的描述信息,其中就包含亚细胞定位信息,如下,同样是定位于细胞质中,与上文一致。


2. PDB


Protein Data Bank(PDB) 为存储蛋白质3D结构的数据库,提供蛋白的结构解析和功能注释。我们可以通过PDB查找蛋白的3D结构信息。


数据库链接:
https://www.rcsb.org/

3.InterPro


InterPro是一个蛋白质家族的数据库,提供完整、准确的蛋白质家族和结构域的分类信息。主要通过对蛋白质进行分类以及预测结构域和重要位点,来提供蛋白质的功能分析,这对蛋白的功能研究非常有帮助。


数据库链接:
https://www.ebi.ac.uk/interpro/

4.SMART


SMART (Simple Modular Architecture Research Tool),它是一个用于蛋白质结构域鉴定、注释的在线分析工具。它的数据与UniProt、Ensembl和STRING数据库同步,且人工注释的蛋白结构域超过1300个。


工具网址:
http://smart.embl-heidelberg.de/

SMART有两种模式:normal和genomic。主要区别是二者底层使用的数据库的不同,前者是冗余的,而后者只使用完成基因组测序的蛋白组数据。两种模式的颜色不同,而界面相似,通过单击相应模式可进行切换,比如进入genomic模式是这样的:


通过输入Uniprot/Ensembl蛋白序列的ID(或ACC)或者蛋白序列查找蛋白的结构域。点Sequence SMART按钮即可提交任务,大约10秒后即可得到下图的预测结果,网页的结构图是交互式的,还可保存为svg格式的矢量图。


5.Human Protein Atlas


人类蛋白质图谱(Human Protein Atlas)是一个始于2003年的瑞典项目,旨在利用多种组学技术(包括基于抗体的成像技术、基于质谱的蛋白质组学、转录组学和系统生物学)绘制细胞、组织和器官中所有人类蛋白质的图谱,该数据库中的所有数据都是开放获取的。


数据库链接:
https://www.proteinatlas.org/

6. YLoc


YLoc也是一个用于蛋白质亚细胞定位预测的在线工具。除了预测位置外,YLoc还给出了为何如此预测以及蛋白质序列的哪些生物特性导致了此预测结果。


工具链接:
https://abi-services.cs.uni-tuebingen.de/yloc/webloc.cgi

同样,仍以相同的序列进行测试,预测结果依然是细胞质的可能性(87.62%)最大,如下图。


7.Cell-PLoc


Cell-PLoc(Cellular Localization of Proteins)是上海交通大学模式识别与生物信息学研究组开发的众多在线工具中的一个,主要用于预测不同生物体中蛋白质的亚细胞定位。


工具网址:
http://www.csbio.sjtu.edu.cn/bioinf/Cell-PLoc-2/

Cell-PLoc工具的用法很简单,以其中的Hum-mPLoc 2.0小工具为例,只需将目标蛋白序列复制粘贴到序列输入框,点击Submit按钮即可。


我这里以工具自带的Example蛋白序列(fasta格式)为例,得到的预测结果如下,可见目标蛋白较大概率定位于细胞质中(Cytoplasm)。


8.GeneWise


使用GeneWise可基于同源蛋白进行基因预测。我们只需依次上传蛋白序列和目标DNA序列,点击Submit按钮进行Pairwise Sequence Alignment即可。


工具链接:
https://www.ebi.ac.uk/Tools/psa/genewise/

9. IBS


IBS (illustrator for biological sequence)是一个绘制基因蛋白序列结构示意图的在线工具,个人建议,如果不知道如何动手绘制的时候,可参考示例文件的样式进行绘制。


工具网址:
http://ibs.biocuckoo.org/

10.JASPAR


JASPAR是一个开放的转录因子(Transcription factor,TF)结合模式预测数据库,结合位点以位置频率矩阵(position frequency matrices ,PFMs)的形式呈现。共收集了vertebrata(脊椎动物),insecta(昆虫),nematoda(线虫),fungi(真菌),plantae(植物)和 urochordata(尾索动物)六大类生物的相关数据。


数据库链接:
https://jaspar.genereg.net/

11.ESPript


ESPript是一款免费的用于对位序列展示的在线工具,除了可以显示序列的保守区域,还可以添加蛋白的二级结构,除了支持高dpi的PNG和TIFF格式图片下载,还支持下载PDF格式的矢量图,重点是配色和样式非常漂亮!


配色方案选择Normal时绘图效果如下,你也可以尝试Flashy、thermal、B&W等其他配色方案。


工具链接:
https://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi

12.GeneDoc


GeneDoc支持多种序列对位文件格式,如fasta、aln、msf等,可用常规软件MEGA、ClustalX2等生成。界面风格很复古,配色默认为黑白风格,不过我们可以进行自定义,如下。


绘图效果如下:


下载链接:
https://www.omicshare.com/forum/thread-6297-1-1.html

13.Jalview


Jalview是一款免费的多序列比对可视化与编辑分析软件,可用它来查看和编辑对位后的序列,也可进行相关的系统发育分析和主成分分析,甚至检查分子结构和注释。通过File菜单下的Input Alignment/From File,可上传本地对位文件进行可视化,而Jalview支持的配色方案也非常多!


绘图效果如下:


Jalview官网链接:
https://www.jalview.org/

14.BioGRID


BioGRID是一个蛋白相互作用的数据库,数据主要来源于文献挖掘,包括常规实验结果和高通量数据验证结果,使用它可以轻松完成基因互作关系的预测。


数据库链接:
https://thebiogrid.org/

15.OmicShare tools


首先推荐OmicShare tools,OmicShare目前有158个小工具,与基因(蛋白)功能富集分析相关的小工具有14个。其中除了常规的GO、KEGG、DO、Reactome、GSEA富集分析小工具,也包含富集圈图、差异气泡图等富集分析相关的个性化绘图小工具。


工具链接:
https://www.omicshare.com/tools/

部分结果图表展示:


16. SignalP 6.0


SignalP是目前应用最广泛的氨基酸序列信号肽在线预测工具。最新的版本是SignalP 6.0,预测方法基于多种人工神经网络算法,可预测细菌和真核生物氨基酸序列中的信号肽切割位点。


工具链接:
https://services.healthtech.dtu.dk/services/SignalP-6.0/

17.PredictProtein


PredictProtein是一个非常简单的蛋白质结构域预测工具,用法很简单,只需上传蛋白序列,点击提交即可。


工具链接:
https://predictprotein.org/

18.Phyre2


Phyre2是一个可以对蛋白结构、功能和变异进行预测和分析的在线工具,Phyre2是Phyre的升级版本,主要使用远程同源检测的方法进行3D建模,预测配体结合位点和氨基酸变异影响(e.g., nonsynonymous SNPs)。


工具链接:
http://www.sbg.bio.ic.ac.uk/phyre2/html/page.cgi?id=index

19.SWISS-MODE


SWISS-MODEL是常用的蛋白二级结构预测在线工具,我们只需上传蛋白序列就可以预测得到蛋白的3D结构。


工具链接:
https://swissmodel.expasy.org/interactive

20.STRING


蛋白互作网络的构建常用STRING数据库,以人的蛋白为例,选择Multiple proteins选项,将表格中的基因名(gene symbol)直接复制粘贴到输入框中(一个基因一行),物种(Organisms)选择人(Homo sapiens),点击SEARCH按钮提交任务即可。


数据库网址:
https://www.string-db.org/

好啦,本次的蛋白质相关的分析工具和数据库就分享到这里啦!


*未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。


# SCIPainter

基迪奥旗下绘图公众号

分享科研绘图技能与工具

欢迎关注与转发~


你的好友拍了拍你

并请你帮她点一下“分享”~