PaddlePaddle / PaddleHelix

Bio-Computing Platform Featuring Large-Scale Representation Learning and Multi-Task Deep Learning “螺旋桨”生物计算工具集
Apache License 2.0
801 stars 189 forks source link

pcqm4m-v2中valid和test的3D结构信息如何获取? #211

Closed Ranceeeee closed 1 year ago

Ranceeeee commented 1 year ago

你好,我看到GEM-2的输入特征会包含原子对距离和键角等信息,这些特征应该是需要根据输入分子的3D结构信息提取的,但我看到OGB仅提供了训练集的3D结构,这里valid和test的特征是如何提取的呢? 最好麻烦能指出具体做特征提取(距离,键角计算)的代码大致位置:)

Noisyntrain commented 1 year ago

你好, ogb官方只提供了训练集的3d坐标. 所以可以通过调用transform函数来进行3d信息的生成并加入到特征中. 需要在配置文件中将gen_rdkit3d设置为true. 3d坐标的生成可参见 https://github.com/PaddlePaddle/PaddleHelix/blob/f214b6c3c53dceb3ef49f48bc1bb4be567cf2518/apps/pretrained_compound/ChemRL/GEM-2/pahelix/utils/compound_tools.py#L751 距离和键角的计算可参见 https://github.com/PaddlePaddle/PaddleHelix/blob/f214b6c3c53dceb3ef49f48bc1bb4be567cf2518/apps/pretrained_compound/ChemRL/GEM-2/src/basic_block.py#L192https://github.com/PaddlePaddle/PaddleHelix/blob/f214b6c3c53dceb3ef49f48bc1bb4be567cf2518/apps/pretrained_compound/ChemRL/GEM-2/src/basic_block.py#L204 希望这些信息能够对你有所帮助

Ranceeeee commented 1 year ago

非常感谢!

Ranceeeee commented 1 year ago

你好, ogb官方只提供了训练集的3d坐标. 所以可以通过调用transform函数来进行3d信息的生成并加入到特征中. 需要在配置文件中将gen_rdkit3d设置为true. 3d坐标的生成可参见

https://github.com/PaddlePaddle/PaddleHelix/blob/f214b6c3c53dceb3ef49f48bc1bb4be567cf2518/apps/pretrained_compound/ChemRL/GEM-2/pahelix/utils/compound_tools.py#L751

距离和键角的计算可参见 https://github.com/PaddlePaddle/PaddleHelix/blob/f214b6c3c53dceb3ef49f48bc1bb4be567cf2518/apps/pretrained_compound/ChemRL/GEM-2/src/basic_block.py#L192

https://github.com/PaddlePaddle/PaddleHelix/blob/f214b6c3c53dceb3ef49f48bc1bb4be567cf2518/apps/pretrained_compound/ChemRL/GEM-2/src/basic_block.py#L204

希望这些信息能够对你有所帮助

你好,我想再请教一下你这里生成3D坐标大概要多久?我这里利用RDKIT生成相当慢

Noisyntrain commented 1 year ago

分子量较大的分子生成3D坐标会耗时较长。作为参考我们使用100+ cpu核用了大约两天时间生成所有3d坐标,希望对你能够有所帮助