yvquanli / GLAM

Code for "An adaptive graph learning method for automated molecular interactions and properties predictions".
https://www.nature.com/articles/s42256-022-00501-8
MIT License
39 stars 8 forks source link

请问如何使用LIT-PCBA数据集 & DrugBank数据集? #9

Closed StefanIsSmart closed 11 months ago

StefanIsSmart commented 11 months ago
  1. LIT-PCBA数据集中 的mol文件是什么意思呢?我看一个target下面往往有多个蛋白的mol文件,有这么多个蛋白质如何确定active的和inactive的分子到底是和哪一个蛋白互作?您处理data的脚本当中的sequence又是如何确定的呢?我没有在数据集中看到这些信息。
  2. DrugBank那个数据集下载以后的 df_pair 和 dd_pair 分别代表什么呢?
yvquanli commented 11 months ago

这个的话我建议你去看一下官方的论文来确定这些信息

raoxiaohan commented 9 months ago

和这位同学有相同的疑问,DrugBank那个数据集下载以后lable分别是df_pair 和 dd_pair,但看GLAM项目的源码label应该是数字,请问是数据集更改了吗

yvquanli commented 9 months ago

LIT-PCBA的那些蛋白都是同一个蛋白,我是从其中随机选了一个。数据集没改,drugbank我是用的CASTER论文里面的数据集,数据集可以从链接找到他们那