zjunlp / OntoProtein

[ICLR 2022] OntoProtein: Protein Pretraining With Gene Ontology Embedding
MIT License
138 stars 22 forks source link

goa_uniprot_all.gaf和goa_uniprot_all.gat有什么不同? #13

Closed xinghao302001 closed 1 year ago

xinghao302001 commented 1 year ago

你好,我想问下在你readme文件里面,我看你们用的是goa_uniprot_all.gat,但在gen_onto_protein_data.py里create_goa_triplet用的又是goa_uniprot_all.gaf来构建triplet,所以我想确定下应该用哪一个文件?

Alexzhuan commented 1 year ago

你好,

.gaf和.gpa是gene ontology不同格式的注释文件,都包含对蛋白质的注释,只是它们的字段会有所不同,可见gene ontology官网的文档介绍(gpagaf )。

两种格式都是可以的,我们在 gen_onto_protein_data.py 中实现的是对 .gaf文件的处理。