zjunlp / OntoProtein

[ICLR 2022] OntoProtein: Protein Pretraining With Gene Ontology Embedding
MIT License
141 stars 22 forks source link

预训练数据缺失问题 #10

Closed Seyfried97 closed 2 years ago

Seyfried97 commented 2 years ago

您好,我正在尝试运行预训练部分的代码。但我发现您提供的ProteinKG25中并不包含swiss_seq文件夹及其下面包含的mdb数据文件。并且这些数据会在后续的预训练中使用到。请问这部分数据是否有办法通过ProteinKG25生成呢,还是只能通过原始数据生成?

Alexzhuan commented 2 years ago

你好,

我们预训练中涉及的序列文件为 ProteinKG25/protein_seq.txtProteinSeqDataset 默认会加载 ProteinKG25/protein_seq.txt

Seyfried97 commented 2 years ago

感谢您的解答,我去尝试一下,非常感谢。